Optimierung für Neuronale Netze Frank Mächold Oktober 2004 - Januar 2005 ii Inhaltsverzeichnis 1 2 3 Grundlagen der Wahrscheinlichkeit 1.1 Raum der Elementarereignisse . . . . . . 1.1.1 Zusammengesetzte Ereignisse . . 1.2 Axiome der Wahrscheinlichkeit . . . . . . 1.3 Bedingte Wahrscheinlichkeit . . . . . . . 1.3.1 Bayes - Formel . . . . . . . . . . 1.4 Folgeräume . . . . . . . . . . . . . . . . 1.4.1 Spezialfälle . . . . . . . . . . . . 1.5 Zufallsgrößen . . . . . . . . . . . . . . . 1.5.1 Zwei Typen von Zufallsgrößen . . 1.5.2 Charakteristika von Zufallsgrößen . . . . . . . . . . 3 3 4 4 5 5 6 6 9 10 11 . . . . . . . . . . . . 13 13 14 15 15 17 17 19 19 20 22 23 26 Diskrete Optimierung 3.1 Optimierung auf Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Dynamische Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Optimierung auf Euklidischen Räumen 2.1 Euklidische Räume und lineare Abbildungen . . . . 2.1.1 Offene, abgeschlossene und konvexe Menge . 2.1.2 Stetige und konvexe Funktionen . . . . . . . 2.2 Lineare Abbildungen . . . . . . . . . . . . . . . . . 2.3 Optimalitätsbedingungen . . . . . . . . . . . . . . . 2.3.1 Richtungsableitung und Gradient . . . . . . 2.4 Gradientenverfahren und ihre Beschleunigung . . . . 2.4.1 Abstiegsverfahren . . . . . . . . . . . . . . 2.4.2 Verfahren der konjugierten Gardienten . . . . 2.5 Optimierung unter Nebenbedingungen . . . . . . . . 2.6 Linerare Optimierung und Dualität . . . . . . . . . . 2.7 Die Neyman Pearson Aufgabe . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 INHALTSVERZEICHNIS Kapitel 1 Grundlagen der Wahrscheinlichkeit Sprachgebrauch: Zufall, Wahrscheinlichkeit, Ereignis Bsp.1: Symmetrische Münze werfen Relative Häufigkeit von W: ωn → 1 2 für n → ∞ Bsp.2: Münze 10 mal geworfen 10mal kam Wappen, was passiert beim 11.mal? (hier ändert sich die Wahrscheinlichkeit für Wappen bzw. Zahl natürlich nicht, beides ist gleich wahrscheinlich Bsp.3: Ich weiß nicht ob es heute regnet oder nicht. → Wahrscheinlichkeit für Regen = 12 ? (folgt natürlich nicht!) Experimente unter gleichbleibenden Bedingungen sehr oft wiederholen → Relative Wahrscheinlichkeit strebt gegen P(A). Wahrscheinlichkeit ist Funktion des zufälligen Ereignis. 1.1 Raum der Elementarereignisse Ω - beliebige Menge = ˆ Raum der Elementarereignisse ω ∈ Ω - mögliche einander außschließende Ereignisse des Experiments Bsp.1: Münze 1mal werfen Ω={z,w} Bsp.2: Münze n-mal werfen Ω={z,w}n , z.B. ω=(z,w,w,z,. . . ) Bsp.3: Ein Punkt wird in die Ebene ”geworfen” Koordinatensystem einführen Ω = R2 d.h. Ω = {(x,y) | x,y ∈ R} (hat Mächtigkeit des Kontinuums 3 4 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT Bsp.4: Ein Buchstabe wird gedruckt und eingescannt Buchstaben k∈K, K={a,b,c,. . . } Bild → binär Definitionsbereich: R={(i,j), 1 ≤ i ≤ n, 1 ≤ j ≤ n, i,j ∈ Z} (Farb)Wertebereich: F={0,1} Bild: Abbildung X: R →F Menge aller Bilder A(R,F) Raum der Elementarereignisse: Ω = {(k, x)|k ∈ K, x ∈ A(R, F )} 1.1.1 Zusammengesetzte Ereignisse Zusammengesetzte Ereignisse sind alle Teilmengen A ⊂ Ω. Bsp.5: Punkt aus Bsp.3 fällt in Kreis mit Zentrum in Koordinatenursprung und mit Radius r A = {(x, y)|x2 + y 2 ≤ r2 } Bsp.6: Buchstabe aus Bsp.4 war ein ’t’ und hat im Pixel (i0 , j0 ) den ”Farbwert” 1. A = {(k, x)|k = ”t”; x(i0 , j0 ) = 1} Menge der Ereignisse ist bezüglich folgender Operationen abgeschlossen: A, B ⊂ Ω - Ereignisse A ∪ B, A ∩ B, A \ B - Ereignisse 1.2 Axiome der Wahrscheinlichkeit Sei Ω eine beliebige Menge und F ein System von Teilmengen der Menge Ω. • F heißt Ergebnis - Algebra 1. Ω ∈ F 2. A,B∈F folgt A ∪ B, A ∩ B, A \ B ∈ F Bsp.1: F - Menge aller Teilmengen von Ω Bsp.2: Ω - {(x, y)|0 ≤ x, y ≤ 1} F - Menge der quadrierbaren Teilmengen in Ω • Wahrscheinlichkeit: P: F→ R 1. F - Ergebnisalgebra 2. P(A)≥0 ∀A∈F 3. P(Ω)=1 5 1.3. BEDINGTE WAHRSCHEINLICHKEIT 4. Falls A∩B=∅ dann P(A∪B)=P(A)+P(B) ∞ \ 5. Für jede abnehmende Folge A1 ⊃A2 ⊃A3 ⊃. . . aus F mit An = ∅ gilt lim P(An ) = 0 n=1 n→∞ Bsp.3: Ω - endlich, |Ω| = n, F - Potenzmenge Seien pω , ω ∈ Ω n nichtnegative Zahlen mit X pω = 1 ω ,dann ist P(A) = X pω . ω∈A 1.3 Bedingte Wahrscheinlichkeit Bsp.1: Würfel. . . Die größte Zahl war 6. Wie groß ist dabei die Wahrscheinlichkeit, dass der 1. Würfel eine 3 gewürfelt hat? Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, A, B ∈ F und P (B) > 0. Wahrscheinlichkeit des Ereignisses A unter der Bedingung, dass B eintrat ist: P (A ∩ B) P (B) P (A|B) = Sei B ein fixiertes Ereignis (B ∈ F), mit P (B) > 0, dann erfüllt die Funktion PB : F → R (A) = P (A|B) alle Axiome einer Wahrscheinlichkeit. Zusätzlich gilt PB (B) = 1 PB (A|C) = P (A|B ∩ C) Aus P (A ∩ B) = P (A|B)P (B) folgt per Induktion P (A1 ∩ A2 ∩ . . . ∩An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 ∩ · · · ∩ An−1 ) | {z } B (= P (A1 ∩ · · · ∩ An−1 )P (An |A1 ∩ · · · ∩ An−1 ) 1.3.1 Bayes - Formel Seien A, B1 , . . . , Bn ∈ F, Bi ∩ Bj = ∅ ∀i, j und A ⊂ B1 ∪ · · · ∪ Bn . Dann gilt: n X P (A) = P (A|Bi )P (Bi ) {z } | i=1 P (Bk |A) = P (A∩Bi ) P (A ∩ Bk P (A|Bk )P (Bk ) = n X P (A) P (A|Bi )P (Bi ) i=1 Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitraum. A,B ∈ F heißen unabhängig ⇐⇒ P (A ∩ B) = P (A)P (B). 6 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT 1.4 Folgeräume Ω = {(k1 , . . . , kn )|ki ∈ K, ∀i = 1, . . . , n} F =ˆ alle Teilmengen von Ω Die Zahlen p(k1 ), p(k2 |k1), . . . , p(kn |k1 , . . . , kn−1 ) | {z } =p(kn |k1 ∩···∩kn−1 ) seien gegeben wird erfüllen: X 1. p(k1 ) ≥ 0, (∀k1 ), p(k1 ) = 1 k1 ∈K 2. p(k2 |k1 ) ≥ 0, (∀k1 , k2 ), X p(k2 |k1 ) = 1, (∀k1 ∈ K) k2 ∈K .. . n. p(kn |k1 , . . . , kn−1 ) ≥ 0 (∀k1, . . . , kn ), X p(kn |k1, . . . , kn−1 ) = 1 (∀k1, . . . , kn−1 ) kn 1.4.1 Spezialfälle a) p(ki |k1 , . . . , ki−1 ) hängt nicht von k1 , . . . , ki−1 ab ⇒ Folgen unabhängiger Tests b) p(ki |k1 , . . . , ki−1 ) hängt von k1 , . . . , ki−2 ab ⇒ d.h. p(ki |k1 , . . . , ki−1 ) = p(ki |ki−1 ) ⇒ Markow - Ketten Bsp.1: p(k1 , . . . , kn ) = p(k1 ) · p(k2 ) . . . ·p(kn ) = pk1 · pk2 · . . . ·pkn mit pk ≥ 0, X pk = 1 k Sei speziell |K| = 2 → p1 = p, p = 1 - p1 = q Bezeichne µn - Anzahl der Zustände 1 in der Folge der Länge n P (µn = m) = · pm q n−m | {z } m | {z } W ahrscheinlichkeit z.B. einer 112 Anzahl bestimmten 121 = c der Kombination m P ermutationen 211 z.B.112 .. . Bsp.2: Seien (x1 , . . . , x10 ) - zehn Bilder, die jeweils eine (unbekannte) Ziffer ki ∈ {0, 1, 2, . . . , 9} enthalten. Ein Erkennungsalgorithmus liefert die Zahlen (insgesamt 100) pi (k) = p(ki = k|xi ) (Jedes Bild bekommt Wahrscheinlichkeit für jede der 10 Ziffern) Wie groß ist die wahrscheinlichste Summe dieser Ziffern? (Ziffern werden unabhängig generiert) gesucht ist also: 7 1.4. FOLGERÄUME arg max p(s) = arg maxs | {z s } X ... k1 X p(k) = X ... X k10 p1 (k1 ) · p2 (k2 )· . . . ·p10 (k10 ) k1 k10 1 Lösungsansatz: qi (s) für i=1, . . . ,10 ; s = 0, . . . ,90 qi (s)= Wahrscheinlichkeit dafür, dass die Summe der ersten i Ziffern s ist ( p1 (s) f alls 0 ≤ s ≤ 9 q1 (s) = 0 sonst qi (s) = 9 X qi−1 (s − ki )pi (ki ) ki =0 Komplexität: n · 9 · n · 10 ∼ n2 · 100 Komplexität für die Berechnung jeder möglichen Summe ohne diesen iterativen Algorithmus: 10n · n Bsp.2: Ein Tetraeder 2 mit unterschiedlich gefärbten Seitenflächen liegt mit der blauen Seite auf einem Tisch. Es wird n-mal über eine zufällig gewählte Kante gekippt. Wie groß ist die Wahrscheinlichkeit, dass er danach wieder auf der blauen Kante liegt? Die Farben des Tetraeders seien hier lila (l), grün (g), rot (r) und blau (b). ( p(k |k ) = | i{zi−1} 1 3 f alls ki 6= ki−1 f alls ki = ki−1 0 i−tes Kippen ki ∈ {blau, rot, grün, lila} (k0 , k1 , . . . , kn ) p(k0 , k1 , . . . , kn ) = p(k0 ) · p(k1 |k0 ) · · · · · p(kn |kn−1 ) ( 1 f alls k0 = ”blau” p(k0 ) = 0 sonst XX X ··· p(k0 )p(k1 |k0 ) . . . p(kn−1 |kn−2 )p(kn = ”blau”|kn−1 ) k0 = X k1 p(k0 ) k0 kn−1 X p(k1 |k0 ) X k1 = X p(k2 |k1 ) · · · k2 p(kn = ”blau”) kn−1 X p(kn−1 |kn−2 )p(kn = ”blau”|kn−1 ) kn−1 X p(kn−1 |kn−2 ) · · · kn−2 X p(k1 |k0 )p(k0 ) k0 ⇒ Die einzelnen Wahrscheinlichkeiten für den i-ten Kippvorgang können basierend auf den Wahrscheinlichkeiten des i-1-ten Kippvorgangs berechnet werden. ( 1 f alls k0 = ”blau” ψ0 (k0 ) = p(k0 ) = | {z } 0 sonst 0. Kippen ψ1 (k1 ) = X p(k1 |k0 )ψ0 (k0 ) k0 1 2 welches Argument ergibt die größte Summe Ein Tetraeder ist ein Körper, welcher aus 4 dreieckigen Grundflächen besteht. 8 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT ψ2 (k2 ) = X p(k2 |k1 )ψ1 (k1 ) k1 ... (siehe Tabelle 1.1) Wie sich leicht sehen lässt, kann man diesen Sachverhalt auch als Matrixmultiplikation darstellen. 0 31 31 13 ψi−1 (lila) 1 0 1 1 ψi−1 (grün) 3 3 3 ψi = 1 1 0 1 • ψi−1 (rot) 3 3 3 1 1 1 0 ψi−1 (blau) } | {z } | 3 3 {z 3 =P ~i−1 ψ ~n = P · P · P . . . ·ψ ~ ψ | {z } 0 n−mal Farbe lila grün rot blau ψ0 0 0 0 0 ψ1 ψ2 1 3 1 3 1 3 2 3 2 3 2 3 1 3 0 ψn ... ... ... ... gesucht! Tabelle 1.1: Iterative Berechnung der Wahrscheinlichkeiten der auf dem Tisch liegenden Tetraederfläche Nun muss noch die Anzahl der Folgen (k0 , k1 , . . . , kn ) mit k0 = kn = ”blau” und k1 , k2 , . . . , kn−1 ∈ {lila, grün, rot, blau}: Überlegen wir uns erst einmal für wenige Kippvorgänge die Anzahl der möglichen Kombinationen (siehe Tabelle 1.2) Farbe lila grün rot blau 0. Kippen 0 0 0 1 1. Kippen 1 1 1 0 2. Kippen 2 2 2 3 3. Kippen 7 7 7 6 4. Kippen 20 20 20 21 5. Kippen 61 61 61 60 Tabelle 1.2: Anzahl der Folgen für Kippvorgang des Tetraeders ⇒ nb (i) - Anzahl der Folgen die zu blau führen nb (i) - Anzahl der Folgen die zu einer anderen Farbe als blau führen nb (i) = 3 · nb (i − 1) nb (i) = 2 · nb (i − 1) + nb (i − 1) nb (i) = 2 · nb (i − 1) + 3 · noverlineb (i − 2) ... ... ... ... 9 1.5. ZUFALLSGRÖSSEN 1.5 Zufallsgrößen Def.: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Eine Funktion ξ:Ω → R heißt Zufallsgröße, wenn für alle x ∈ R {ω ∈ Ω|ξ(ω) ≤ x} ∈ F gilt. Da F - Ergebnisalgebra, folgt {ω ∈ Ω|ξ(ω) ≥ x}=(ξ ˆ ≥ x) = (ξ ≤ x) ∈ F (x1 ≤ ξ ≤ x2 ) = (ξ ≤ x2 )|(ξ ≥ x1 ) ∈ F (ξ = x) = ∞ \ 1 (x ≤ ξ < x + ) ∈ F 2 i=1 Def.: Sei ξ : Ω → R eine Zufallsgröße (für den Wahrscheinlichkeitsraum (Ω, F, P ), dann heißt Fξ : R → R+ Fxi (x) = P (ξ ≤ x) Verteilungsfunktion von ξ. Bsp.1: Ein Punkt wird zufällig in das Quadrat Ω = {(x1 , x2 )|0 ≤ xi ≤ 1}. a) ξ(x1 , x2 ) = x1 0 Fξ (x) = x 1 f alls x ≤ 0 f alls 0 ≤ x ≤ 1 f alls x ≥ 1 b) ξ(x1 , x2 ) = x1 + x2 0 2 x Fξ (x) = 2 1 2 1 − (1 − x) 2 f alls x ≤ 0 f alls 0 ≤ x ≤ 1 f alls x ≥ 2 f alls 1 ≤ x ≤ 2 Es gilt: 1. Fξ (x) ist monoton wachsend 2. P (x1 ≤ ξ ≤ x2 ) = Fξ (x2 ) − Fξ (x1 ) 1 3. P (ξ = x) = lim [Fξ (x + ) − Fξ (x)] = Fξ (x + 0) − Fξ (x) i→∞ 2 10 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT 1.5.1 Zwei Typen von Zufallsgrößen a) Diskrete Zufallsgrößen: Funktion: ξ : Ω → R nimmt diskrete Werte x1 ,. . . xn . . . P (ξ = xn ) = pn ≥ 0, X pn = 1 n b) absolut stetige Zufallsgröße: Funktion ξ : Ω → R nimmt beliebige reelle Werte an und es exisitiert Funktion pξ : R → R (Verteilungsdichte) so, dass Z x Pξ (x0 )dx0 Fx i(x) = P (ξ < x) = −∞ Pξ (x)dx= ˆ Wahrscheinlichkeit, dass ξ ein Wert in entsprechenden Intervall hat. Bsp.2: • Normalverteilung (Gauss-Verteilung) (absolut stetig) 1 (x − a)2 Pξ (x) = √ exp − 2σ 2 2πσ • Gleichverteilung (absolut stetig) 1 Pξ = (b − a) 0 f ür x ∈ [a, b] sonst • Bionomialverteilung (diskret) n m P (ξ = m) = p (1 − p)n−m m m = 0, 1, 2, . . . , n; 0 ≤ p ≤ 1 • Possion-Verteilung (diskret) P (ξ = m) = λ − m −λ e m! m = 0, 1, 2, . . . Def.: Zwei Zufallsgrößen ξ1 , ξ2 : Ω → R sei unabhängig, wenn Fξ1 ,ξ2 (x1 )(x2 ) = Fξ1 (x1 )Fξ2 (x2 ) (Fξ1 ,ξ2 (x1 , x2 ) = P ({ξ1 < x1 } ∩ {ξ2 < x2 })) 11 1.5. ZUFALLSGRÖSSEN 1.5.2 Charakteristika von Zufallsgrößen 1.5.2.1 Erwartungswert a) Diskreter Wahrscheinlichkeitsraum, ξ → ξ(ωk ) n(∞) Eξ = X p(ωk )ξ(ωk ) k=1 äquivalent: ξ nimmt Werte x1 , x2 ,. . . an m(∞) Eξ = X xi P (ξ = xi ) i=1 b) absolut stetiger Wahrscheinlichkeitsraum und Zufallsgröße Z ∞ Eξ = Pξ (x) · xdx −∞ 1.5.2.2 Eigenschaften a) ξ(ω) ≡ c ⇒ Eξ = c b) E(c · ξ) = cEξ c) E(k ξ k) ≥ |Eξ |3 d) E(ξ1 + ξ2 ) = Eξ1 + Eξ2 1.5.2.3 Streuung / Kovananz Dξ = E(ξ − Eξ )2 = Eξ2 − E(Eξ )2 p Dξ - Streuung cov(ξ1 , ξ2 ) = E [(ξ1 − Eξ1 )(ξ2 − Eξ2 )] - Kovananz cov(ξ1 , ξ2 ) Korrelationskoeffizient: p (Dξ1 , Dξ2 ) 1.5.2.4 Gesetz der großen Zahlen un dzentrales Grenzwerttheorem Zufallsgrößen (abzählbar unendlich viele) ξ1 , ξ2 , . . . , ξm , . . . (auf einem Wahrscheinlichkeitsraum) seien unabhängig und haben alle dieselbe Verteilung mit dem Erwartungswert Eξn = a Dann gilt ξ1 + ξ2 + · · · + xin lim P − a < = 1 n→∞ n für jedes ¿ 0. 3 kxk= ˆ Norm des Vektor x |x| - Betrag der Zahl x 12 KAPITEL 1. GRUNDLAGEN DER WAHRSCHEINLICHKEIT • Haben sie zusätzlich eine Streuung Dξn = σ 2 , so gilt Z x ξ + · · · + ξ − n · a n2 1 1 n √ Fη = P < x →n→∞ e− 2 dn 2π −∞ σ n | {z } η (für n → ∞ Gauss verteilt) 1.5.2.5 Schätzung von (unbekannten) Parametern von Wahrscheinlichkeiten anhand von Lernstichproben Bekannt: Ω, F, P ∈ P - Klasse von Wahrscheinlichkeitsfunktionen Oft kann die Klasse P parametrisch beschrieben werden: P (ω; |{z} α ) 4 Ziel: α soll bestimmt werden. Dazu Lernstichprobe T = {ω1 , . . . , ωn } erzeigen (unabhängig mit P (ω; α)) ⇒ daraus α schätzen Maximum - Likelihood Prinzip: Wahrscheinlichkeit die Stichprobe mit P(ω; α) zu generieren P (T ; α) = = n Y Likelihood p(ω; α) i=1 Y P nω (ω; α) ω∈Ω nω = ˆ ω trat nω - mal in T auf Y P (ω; α) → max α ω∈R α∗ = arg max ln α Y | ln P nω (ω; α) = arg max ω∈Ω α X ω |{z} 5 4 5 kein stochastisches Element, unbekannte Größe möglich, da hier nur arg max gesucht ist α nω ln P (ω; α) Kapitel 2 Optimierung auf Euklidischen Räumen 2.1 Euklidische Räume und lineare Abbildungen Linearer Raum (Vektorraum) der Dimension n Menge V 3 v = ˆ Punkt, Vektor mit 1. V ist kommutative Gruppe bezüglich Addition 2. V ist Modul über R: x, y ∈ V λ, µ ∈ mathbbR λ(x + y) = λx + λy ; (λ + µ)x = λx + µx λ(µ)x = (λµ)x ; 1 · x = x ; |{z} 0 ·x = |{z} 0 ∈R ∈Rn 3. Maximale Zahl von linear unabhängigen Elementen aus V ist n Wie üblich: x1 , . . . , xk ∈ V heißen linear unabhängig, wenn aus | {z } 1 λ1 x 1 + λ2 x 2 + · · · + λk x k ⇒ λ1 , . . . , λ k = 0 folgt. Basis von V = ˆ System von n linear unabhängigen Elementen e1 . . . en ∈ V Kov - System: Für jedes x ∈ V λx + λ1 e1 + · · · + λn en = 0 , λ 6= 0 x = x1 e1 + · · · + xn en Euklidischer Raum: E - Vektorraum + Skalarprodukt < ., . >: E × E → R mit 1. Bilinearität: < λx + µx, z >= λ < x, z > +µ < x, z > 2. Symmetrie: < x, y >=< y, x > 3. Positivität: < x, x >≥ 0 , < x, x >= 0 ⇒ x = 0 13 14 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN In jedem Vektorraum kann Skalarprodukt eingeführt werden Sei e1 , . . . , en Basis , < ei , ej >= δij |{z} 2 Seien x = n X i xi e ; y = i=1 n X i yi e ⇒< x, y >= i=1 n X xi yi i=1 Umgekehrt: System heißt orthonormiert, falls < ei , ej >= δij gilt. Konstruktion einer orthonormierten Basis aus einer Basis x1 , . . . , xn 1 1) e1 =< x1 , x1 >− 2 x1 .. . k) Sei bereits e1 , . . . ek so konstruiert, dass < ei , ej >= δij , alle e1 , . . . , ek sind Linearkombinationen der x1 , . . . , xk3 k+1) y = xk+1 − (λ1 e1 + · · · + λk ek ) mit λi =< xk+1 , ei >⇒ ek+1 =< y, y >−f rac12 y 1 Es gilt ∀x, y, z und k x k=< x, x > 2 4 Dreiecksgleichung: k x − y k≤k x − z k + k z − y k | < x, y > | ≤k x kk y k 2.1.1 Offene, abgeschlossene und konvexe Menge Ein Punkt x ∈ E ist Grenzwert einer Folge x1 , . . . , xn , · · · ∈ E d.h. x = lim xi falls k xi − x k→ 0 für i → ∞ Sei D ⊂ E eine Teilmenge von E i→∞ • x ∈ D heißt innerer Punkt von D falls ∀ > 0 so, dass U (x) = {y inE| k x − y k≤ { ⊂ D | {z } U mf ang • D heißt offen , falls sie mit der Menge ihrer inneren Punkte überereinstimmt • D heißt abgeschlossen , falls für jede konvergierende Folge aus D auch deren Grenzwert zu D gehört: x1 , x2 , · · · ∈ D , x = lim xi ⇒ x ∈ D i→∞ abgeschlossene Mengen sind über Durchschnitt abgeschlossen, offene gegenüber Vereinigung • D heißt konvex , falls für jedes Paar x, y ∈ D auch die sie verbindene Strecke in D enthalten ist λx + (1 − λ)y ∈ D ∀0 ≤ λ ≤ 1 2 Kronecker Symbol hier wir davon ausgegangen, dass man den k. Schritt schon durchgeführt hat 4 kxk= ˆ Norm des Vektor x |x| - Betrag der Zahl x 3 15 2.2. LINEARE ABBILDUNGEN • D heißte Kegel , falls für jedes x ∈ D λx ∈ D , ∀λ ≥ 0 gilt. → Abschluss einer Menge D → cl(D)= ˆ Menge aller Grenzwerte von konvergenten Folgen aus D. → Konvexe Hülle einer Menge D → conv(D)= ˆ kleinste konvexe Menge, die D enthält Bsp.1: a) Jeder Unterraum von E ist konvex und abgeschlossen. b) Rn+ = {x ∈ Rn |xi ≥ 0 , ∀i = 1, . . . , n} konvexer abgeschlossener Kegel c) U (x) = {y ∈ E| k x − y k≤ } ist konvex und abgeschlossen d) Sei M ⊂ R die Menge der rationalen Zahlen, M hat keinen inneren Punkt, cl(M ) = R 2.1.2 Stetige und konvexe Funktionen Sei D ⊂ E und f : D → R eine aud D definierte Funktion • f heißt stetig auf D falls f (xi ) →i→∞ f (x) für jede konvrgente Folge xi →i→∞ x in D • äquivalent: Urbilder offener Mengen sind offen U ⊂ R sei offen, dann ist {x ∈ D|f (x) ∈ U } offen in D Sei C ⊂ E konvex und f : C → R • f heißt konvex, falls f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y) ; ∀x, y ∈ C äquivalent: Die Mengen {(x, α) ∈ E × R|λ ≥ f (x)} sind konvex Bsp.2: a) Die Funktion f : E → R, f (x) =k x k ist stetig und konvex b) Die Funktionen f, g, h : R → R f (x) = x2 , g(x) = ax + b , h(x) = x2 + ax + b 2.2 Lineare Abbildungen Seien E, Y Euklidische Räume. Eine Abbildung A: E → Y heißt linear, falls ∀x, y ∈ E, λ, µ ∈ R A(λx + µy) = λAx + µAy gilt. 16 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN Speziell: jede lineare Abbildung E → R hat die Form Ax=ha, xi mit einem gewissen a ∈ E. Beweis: Sei ei , i=1,. . . ,n orthonormierte Basis von E a= n X (Aei )ei i=1 X X Ax = A( xi ei ) = xi (Aei ) i ha, xi = * X i + (Aei )ei , x = ··· = X i xi (Aei ) i Def.: symmetrische Abbildung Eine Abbildung A: E → E heißt symmetrisch, falls ∀x, y ∈ E hy, Axi = hAy, xi gilt. Sei A: E → Y linear und ej , j=1,. . . ,n bzw. y i , i=1,. . . ,m orthonormierte Basen von E bzw. Y Aij = y i , Aej Sei A: E → E linear und I: E → E die identische Abbildung. Die Lösung der Gleichung det(A − λI) = 0 heißen Eigenwerte von A. Die (möglicherweise komplexen) Vektoren x, für die Ax = λx gilt, heißen Eigenvektoren. Satz: a) Die Eigenwerte einer symmetrischen Abbildung sind reell b) Die Eigenvektoren zu unterschiedlichen Eigenwerten sind orthogonal Beweis: a) Da A reell ⇒ Ax=λx ⇒ (Ax)=(λx) ⇒ Ax = λx, da A symmetrisch hx, Axi = λ hx, xi k k hAx, xi = λ hx, xi b) Sei Ax1 = λ1 x1 , Ax2 = λ2 x2 , λ1 6= λ2 hx2 , Ax1 i = λ1 hx2 , x1 i k k 2 1 hAx , x i = λ2 hx2 , x1 i Eine symmetrische Matrix A heißt positiv semidefinit , falls hx, Axi ≥ 0 ∀x (äquivalent: alle Eigenwerte von A sind nicht negativ) 17 2.3. OPTIMALITÄTSBEDINGUNGEN 2.3 Optimalitätsbedingungen Typische Optimierungsaufgabe: f : E → R gi : E → R i ∈ J = {J1 , J2 } Suche min f (x) x∈E unter den Nebenbedingungen (NB): gi (x) = 0i ∈ J1 gi (x) ≥ 0i ∈ J2 Bsp.: E = R2 (x1 − 2)2 + (x2 − 1)2 → min x1 x2 x21 NB: − x2 ≤ 0 x1 − x2 ≤ 2 x2 ≥ −2 + x1 x2 ≥ x21 2.3.1 Richtungsableitung und Gradient Sei f : E → R, Richtungsableitung von f im Punkt x ∈ E in Richtung d ∈ E f (x + td) − f (x) 0 f (x; d) = lim (t ≥ 0) i→0 t 0 Ist die Richtungsableitung f (x; d) eine lineare Funktion der Richtung d: 0 f (x; d) = ha, di dann: f ist differenzierbar in x mit dem Gradient (∇f )(x) = a Bsp.: a) Die Funktion f (x) = kxk; x ∈ E Richtungsableitung in x=0 f (td) − f (0) kdk = lim = kdk t→0 t→0 t t aber Fkt. in x = 0 nicht differenzierbar ( Gradient existiert nicht) x kx + tdk − kxk = ,d Sei x 6= ~0; t kXk s X In Koordinaten: kxk = x2i 0 f (0; d) = lim i 1 2xi x δ x kxk = qP = ; ∇f (x) = δxi 2 kxk kxk 2 j xj b) f(x)=kxk2 C ⊂ E, konvex, x∗ ∈ C, Normalkegel in x∗ ∗ ∗ NC (x ) = d ∈ E| hd, x − x i ≤ 0, ∀x ∈ C | {z } | {z } 5 6 18 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN Bsp.: E = R2 C= ˆ ⇒ NC (x∗ ) = {~0} C= ˆ ⇒ NC (x∗ )= ˆ Strahl ⊥ zur Tangente C= ˆ ⇒ NC (x∗ )= ˆ Schnitt zweier Halbräume C= ˆ ⇒ NC (x∗ )= ˆ Gerade durch x∗ und ⊥ zu C Satz 1: (Notwendige Optimalitätsbedingung 1. Ordnung) Sei C ⊂ E konvex und x∗ ∈ C sei lokales Minimum von f : C → R. Dann gilt ∀x ∈ C f 0 (x∗ , x−∗ ) ≥ 0 Ist f differenzierbar in x∗ , so gilt −∇f (x∗ ) ∈ NC (x∗ ) Beweis: ∃ x ∈ C mit f 0 (x∗ , x − x∗ ) < 0 ⇒ für kleine t gilt f (x∗ + t(x − x∗ )) − f (x∗ ) < 0 | {z } ∈C < f (x∗ ) Widerspruch Satz 2: (Hinreichende Optimalitätsbedingung 1. Ordnung) Sei C ∈ E konvex und f : C → R konvex Dann ∃ f 0 (x∗ , x − x∗ ) ∀x∗ , x ∈ C (in [−∞, +∞)) gilt nun f 0 (x∗ , x − x∗ ) ≥ 0 ∀x ∈ C bzw. − ∇f (x∗ ) ∈ NC (x∗ ) so ist x∗ globales Minimum von f in C. (konvexe Funktion kann keine (mehrere) lokalen Minima besitzen) Beweis: Man zeigt, dass wegen Konvexität von f die Funktion t ∈ (0, 1] 7→ f (x∗ + t(x − x∗ )) − f (x∗ ) t nicht fallend ist. ⇒ Oder: Angenommen ∃ x1 ∈ C f (x1 ) < f (x∗ ) f (x∗ + t(x1 − x∗ )) − f (x∗ ) < 0 für t = 1 t Widerspruch 6 6 Normalenkegel von x∗ Skalarprodukt 19 2.4. GRADIENTENVERFAHREN UND IHRE BESCHLEUNIGUNG Satz 3: (Hinreichende Optimalitätsbedinung 2. Ordnung) Sei f : Rn → R zweimal stetig differenzierbar und sei x∗ ∈ Rn kritischer Punkt von f (∇f (x∗ ) = ~0) x∗ ist lokales Minimum von f g.d.w. der Hessian ∇2 f (x∗ ) positiv |semidefinit {z } ist. 7 Sei e1 , . . . en - orthonormierte Basis in E und x = x1 e1 + · · · + xn en d.h. (x1 , . . . , xn ) - Koordinaten δf (x) δf (x) ,..., Komponenten von ∇f (x) sind: δx1 δxn 2 δ 2 f (x) δ f (x) δx1 δx1 . . . δx1 δxn .. .. Komponenten von ∇2 f (x) : . . δ 2 f (x) δ 2 f (x) ... δxn δx1 δxn δxn δ2f n × n Matrix symmetrisch - Matrixelement i, j : ⇒ δxi δxj Bsp.: f (x1 , x2 ) = x1 x2 1) x1 = x2 = x f = x2 2) x1 = −x2 = x 2.4 2.4.1 f = −x2 Gradientenverfahren und ihre Beschleunigung Abstiegsverfahren Unrestringierte Ausgabe: Sei f : E → R stetig differnzierbar f (x) → min, x ∈ E Abstiegsverfahren: 1. xk+1 = xk + αpk und f (xk+1 ) < f (xk ) 2. xk → x∗ und ∇f (x∗ ) = 0 k→∞ A. Verfahren des steilsten Abstiegs pk = −∇f (xk ) = −∇fk αk aus: Minimum von f auf dem Strahl xk + αpk ϕ(α) = f (xk + αpk ) αk = arg min ϕ(α) ⇒ ∇f (xk + αk pk ), pk = 0 ! α 7 alle Eigenwerte sind 0 20 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN Praktisch meist nicht möglich → αk heuristisch bestimmen. z.B. so dass (Wolfe) f (xk + αk pk ) ≤ f (xk ) + c1 αk < ∇fk , pk > " # dafür ist es aber notwendig, dass die Schrittweite αk nicht zu klein gewählt wird. Dort können wir aus den Gradienten zu nutze machen. (Richtungswechsel des Gradienten als Maß [bzw. wie weit dreht sich Gradient aus Strahl heraus]) | ∇f (xk + αk pk ), pk ≤ c2 | ∇fk , pk mit 0 < c1 < c2 < 0, 5 B. Newton Verfahren Bei ’guten’ Funktionen ([beliebig]oft differnzierbar, oder sogar unendlich oft) kann man Funktion auch als Taylor - Reihe aufschreiben: 1 p, ∇2 fk p f (xk + p) ≈ f (xk ) + hp, ∇fk i + | {z 2 } h(p) min h(p) → Gradient bezüglich p : ∇fk + ∇2 fk p = 0 −1 pk+1 = − ∇2 fk · ∇fk • Falls Matrix ∇2 fk positiv definit8 → ∇2 fk ist invertierbar und pk+1 ist neue Abstiegsrichtung • ’Natürliche’ Schrittweite ist 1 2.4.2 Verfahren der konjugierten Gardienten 2.4.2.1 Lineare Gleichungen und konjugierte Richtungen Sei A eine symmetrische und positiv definite n × n Matrix und b ∈ Rn . Gesucht: Ax = b (Prinzipiell wäre das leicht durch invertieren der Matrix möglich [muss laut Vorraussetzung möglich sein], was aber bei einer größeren Matrix eher ineffektiv ist. wir benötigen effektiveres Verfahren) Äquivalent: 1 ϕ(x) = hx, Axi − hb, xi 2 ϕ(x) → minx∈Rn Def.: Die Richtungen p0 , p1 ,. . . , pl ∈ Rn sind konjugiert bezüglich A falls: i p , Apj = 0 ∀i 6= j Konjugierte Richtungen sind linear unabhängig. 8 alle ihre Eigenwerte sind streng nicht negativ 21 2.4. GRADIENTENVERFAHREN UND IHRE BESCHLEUNIGUNG Bezeichnung: r(x) = ∇ϕ(x) = Ax − b Satz: Seien p0 , p1 ,. . . , pn−1 bezüglich A konjugiert. Das Verfahren xk+1 = xk + αk pk mit k k p ,r αk = arg min ϕ(xk + αpk = − k hp , Apk i terminiert nach n Schritten im Minimum von ϕ. Beweis: a) 1 k x + αpk , A(xk + αpk ) − b, xk + αpk 2 1 = α2 pk , Apk + α pk , Axk − α b, pk 2 1 = α2 pk , Apk + α < pk , rk > + const 2 k k p ,r ⇒ αk = − k hp , Apk i X b) Sei x∗ = σk pk Lösung. Aus Ax∗ − b, pk = 0 folgt ϕ(xk − αpk ) = * + X 0 A( σk0 pk = k0 * X + k0 σk0 Ap − b, pk =0 k0 k k r ,p b, pk =! k ⇒ σk = k k hp , Ap i hp , Apk i 2.4.2.2 Verfahren der konjugierten Gradienten (linear) pk kann aus pl−1 bestimmt werden pk = −∇ϕ(xk ) + βk pk−1 = −r + βk pk−1 rk , Apk−1 Mit βk = k−1 hp , Apk−1 i 2.4.2.3 Verfahren der konjugierten Gradienten (nicht linear) (von Polak, Ribiere) f : Rn → R, f -stetig differenzierbar, X 0 ∈ Rn Algorithmus Start: f (x0 ) = f0 , ∇f0 = ∇f (x0 ), p0 = −∇f0 , k = 0 Solange ∇fk 6= 0 • Minimiere f auf dem Strahl xk + αpk und setze xk+1 = xk + αk pk 22 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN • Berechne ∇fk+1 = ∇f (xk+1 ) βk+1 = h∇fk+1 , ∇fk+1 − ∇fk i ||∇fk ||2 • Setze pk+1 = −∇fk+1 + βk · pk Praxis: Minimierung auf Strahl ersetzen durch heuritische Bestimmung von αk Sind dabei Wolfe - Bedingungen erfüllt ∇fk , pk = −||∇fk ||2 + βk ∇fk , pk−1 < 0 2.5 Optimierung unter Nebenbedingungen Seien f, gi : Rn → R differnzierbar; i ∈ I(beliebig unendliche Indexmenge) Betrachten wir: minn f (x) x∈R (1) gi (x) = 0 ∀ ∈ I1 I1 ∪ I2 = I g (x) ≥ 0 ∀ ∈ I I ∩I =∅ i 2 1 2 Bsp.1: (Eine Gleichungsbedingung) • Die Gleichung g(x) = 0 definiert eine Fläche mit dim = n − 1 im Rn . z.B. g(x) = ||x||2 − r2 definiert eine Sphäre mit Zentrum in ~0 und Radius r. • Sei x∗ ein Punkt dieser Fläche ⇒ Tangentialebene definiert durch alle Richtungen d ∈ Rn h∇g(x∗ ), di = 0 • Abstiegsrichtungen von f in x∗ : h∇f (x∗ ), di < 0 - offener Halbraum Ist x∗ lokales Minimum von f auf g(x) = 0, so darf es keine Richtung d geben, die beides erfüllt. ⇒ ∇f (x∗ ) parallel zu ∇g(x∗ ) ⇒ ∇f (x∗ ) = λ∇g(x∗ ) z.B. f (x) = − ha, xi2 ∇f (x) = −2 ha, xi a ha, xi a = λx ∇g(x) = 2x Bsp.2: (Eine Ungleichungsbedingung • Die Umgebung g(x) ≥ 0 definiert ein abgeschlossenes Gebiet z.B. x ∈ R2 , g(x) = g(x1 , x2 ) = x2 − x21 • Fallunterscheidung a) Minimalpunkt x∗ von f liegt im Inneren ⇒ f (x∗ ) = 0 23 2.6. LINERARE OPTIMIERUNG UND DUALITÄT b) Minimalpunkt x∗ liegt auf dem Rand – zulässige Richtungen bezüglich Nebenbedingungen h∇g(x∗ ), di ≥ 0 - abgeschlossener Halbraum – Abstiegsrichtung von f h∇f (x∗ ), di < 0 - offener Halbraum ⇒ ∇f (x∗ )und∇g(x∗ ) zeigen in dieselbe Richtung d.h. ∇f (x∗ ) = λg(x∗ ) ,λ > 0 a) + b) ( ∇f (x∗ ) = λ∇g(x∗ ) λg(x∗ ) = 0 ,λ ≥ 0 Satz 1: Sei x∗ Lösung von Zahlen (notwendige Bedinngung) λ0 , λi , i ∈ I mit λi ≥ (1). Dann ∃X ∗ λ0 ∇f (x ) = λi ∇gi (x∗ ) 0, ∀i ∈ I2 , so dass i∈I λi gi (x∗ ) = 0 Bemerkung: Lagrange - Koeffizienten → λi Lagrange Funktion: X L(x, λ) = λ0 f (x) − λi gi (x) i∈I Satz 2: (Karnish, Kuhn, Tucher) (hinreichende Bedingung) Seien in (1) die Funktionen f, gi , ∀i ∈ I2 9 konvex, und die Funktionen gi (x), ∀i ∈ I1 10 linear. Existiere weiterhin ein x mit gi (x) = 0 ∀i ∈ I1 , gi (x) > 0 ∀i ∈ I2 . Gelte für eien zulässigen Punkt x∗ (erfüllt (1)) und λi , λi ≥ 0∀i ∈ I2 X ∇f (x∗ ) = λi ∇gi (x∗ ) i∈I λi gi (x∗ ) = 0 ∀i ∈ I so ist x∗ Lösung von (1). 2.6 Linerare Optimierung und Dualität Hinweis: Lösungsverfahren wie das Simplexverfahren oder das Ellipsiodverfahren sollen hier nicht näher betrachtet werden, da diese in der Literatur wie z.B. Bronstein gefunden werden können. Seien c ∈ Rn , b ∈ Rm und A eine m × n Matrix ⇒ ( Lineare Optimierungsaufgabe hc, Xi → min x ∈ Rn Ax ≥ b (1) 9 10 Ungleichungen Gleichungen 24 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN Bemerkungen: • x ≥ x0 ⇐⇒ xi ≥ x0i ∀i • Die Aufgabe (1) ist konvex ⇒ jedes Minimum ist global • Geometrische Interpretation: Seien ai ∈ Rn , i = 1, . . . , m die Zeilen von A. Die Bedingungen hai , xi ≥ bi , ∀i = 1, . . . , m definieren Halbräume des Rn Die Lagrange Funktion der Aufgabe ist L(x; y) = hc, xi − hy, Ax − bi x ∈ Rn , y ∈ R m + Sie enthält die gesamte Information über (1) ( hc, xi fallsAx ≥ b max L(x; y) = y∈Rm +∞ sonst + Bezeichne p ∈ [−∞, +∞) den Optimalwert von (1) p = minn max L(x; y) x inR y∈Rm + | {z } (2) p = max minn L(x; y) m (3) 11 Assoziiertes Problem y∈R+ x inR Dieses duale Problem habe den Optimalwert d. Es gilt d ≤ p. Betrachten wir ψ(y) = minn L(x; y) = minn [hc, xi − hy, Ax − bi] x∈R x∈R T = minn c − A y, x + hy, bi x∈R ( hy, bi fallsAT y = c ψ(y) = −∞ sonst D.h. das duale Problem (3) kann äquivalent geschrieben werden: ( hy, bi → max AT y = c y ∈ R+ m (4) (4) Sein Optimalwert sei d und es gilt d ≤ p. Frage: Gilt d = p? Wann? ( 11 Ist es egal welches Problem man löst?) ⇒ ist äquivalent zur Formulierung von (1) 2.6. LINERARE OPTIMIERUNG UND DUALITÄT 25 Ein Schritt zur Seite Lemma (Farkas) ohne Beweis: Seien ai ∈ E, i = 1, . . . , m und c ∈ E. Dann besitzt genau eines der folgenden Systeme eine Lösung a) m X λi ai = c, λi ≥ 0, ∀i = 1, . . . , m i=1 b) hai , xi ≥ 0, ∀i = 1, . . . , m, hc, xi < 0, x ∈ E Anschaulich debeutet dass: entweder der Vektor c liegt in dem Kegel, welcher durch alle möglichen positiven Linearkombinationen von ai aufgespannt wird oder es existiert eine Ebene, wodurch der Kegel auf der einen Seite und c auf der anderen Seite liegt. Angenommen p ist endlich. Betrachten wir das ’homogenisierte’ System von Ungleichungen in Rn+1 : x ∈ Rn Ax − zb ≥ 0 z≥0 z ∈ Rn (5) hc, xi − pz < 0 Dieses System hat keine Lösung. Denn: a) Sei z > 0. Bezeichne x0 = 12 x 0 Ax ≥ b hc, x0 i < p → Widerspruch b) Sei z = 0. Ax ≥ 0 hc, xi < 0 ∗ Gelte für x Ax∗ ≥ b Betrachte Strahl x∗ + tx → Widerspruch (da der Strahl immer weiter ins negative gehen würde, −∞ ist aber keine Lösung) Wendet man das Lemma von Farkas an ⇒ ∃y ∈ Rm + , β ∈ R+ mit AT y = c, hb, yi = p + β Es folgt d ≥ p und wegen d ≤ p schließlich d = p . Satz 1: (Erster Dualitätssatz) Ist der Optimalwert des primalen Problems (1) endlich, so stimmt er mit dem Optimalwert der dualen Aufgabe (4) überein. Bemerkung: Falls in (1) lineare Gleichungen als Nebenbedingungen auftreten, so kann man sie durch Paare von Ungleichungen ersetzen. Dualität in allgemeiner Form: primales Problem 0 0 x ∈ Rn+1 x0 ∈ Rn2 hc, xi + hc , x i → min A1,1 x + A1,2 x0 ≥ b A2,1 x + A2,2 x0 = b0 A.,. sind Matrizen mit folgenden Dimensionen 26 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN A1,1 - m1 × n1 ; A1,2 - m1 × n2 ; A2,1 - m2 × n1 ; A2,2 - m2 × n2 duales Problem 0 0 hb, yi + hb , y i → max AT1,1 y + AT2,1 y 0 ≥ c T A1,2 y + AT2,2 y 0 = c0 1 y ∈ Rm + y 0 ∈ Rm2 ⇒ Beide Probleme sind also äquivalent. Satz 2: Sei (x̃, x̃0 ) Lösung des primalen Problems und (ỹ, ỹ 0 ) Lösung des dualen Problems. Dann gilt: hỹ, (A1,1 x̃ + A1,2 x̃0 )i = 0 x̃, (AT1,1 y + AT2,1 ỹ 0 ) = 0 Bemerkung: Da oben alle Komponenten aller Vektoren in den Skalarprodukten nicht negativ sind, gelten die entsprechenden Gleichungen auch komponentenweise. 2.7 Die Neyman Pearson Aufgabe (Ein Beispiel für Nicht-Bayesche Strategien in der Mustererkennung) Objekt: Merkmal x ∈ X Zustände k = 1, 2 mit (z.B. Kernkraftwerk) k = 1 - Normalzustand k = 2 - gefährlicher Zustand Statistischer Zusammenhang p(x|k) bekannt (aber p(k) =?) Ziel: Entscheidung über Zustand anhand von x D.h. Partitionierung von X X1 ∪ X2 = X X1 ∩ X2 = ∅ Zwei nichtvergleichbare Fehlerarten: X w1 = p(x|1)=Wahrscheinlichkeit ˆ des Fehlalarms x∈X2 w2 = X p(x|2)=Wahrscheinlichkeit ˆ der übersehenen Gefahr x∈X1 Gesuchte X Strategie: p(x|1) → min (X1 ,X2 ) x∈X2 (Wahrscheinlichkeit des Fehlalarms minimieren) X1 ∩ X2 = ∅ X1 ∪ X2 = X (unter der Nebenbedingung, dass Wahrscheinlichkeit eines übersehenen Fehlers maximal ist.) x∈X1 X Andere Darstellung: αX × K → 0, 1, α(x, k) = 1 ∀x ∈ X X p(x|2) ≤ k w1 = X x∈X α(x, 2)p(x|1) 27 2.7. DIE NEYMAN PEARSON AUFGABE w2 = X α(x, 1)p(x|2) x∈X Gesuchte Strategie: X α(x, 2)p(x|1) → min α(x, k) = [0, 1]12 α x∈X m X α(x, 1)p(x|2) ≤ α(x, k) ≥ 0 x∈X α(x, 1) + α(x, 2) = 1 ∀x ∈ X Duale X Aufgabe t(x) − τ → max τ ≥ 0 t,τ x∈X t(x) − p(x|2)τ ≤ 0 t(x) ≤ p(x|1) ∀x ∀x für duale τ ≥ 0 t(x) - duale Variable für jedes x α(x, 1) α(x, 2) 2. Dualitätssatz: Für die Lösung α∗ (x, k), τ ∗ , t∗ (x) [t∗ (x) − p(x|2)τ ∗ ] α∗ (x, 1) = 0 ∀x [t∗ (x) − p(x|)] α∗ (x, 2) = 0 ∀x Folglich ∀x muss ein der beiden Ungleichungen als Gleichung erfüllt sein ⇒ t∗ (x) = min [p(x|2)τ ∗ , p(x|1)] a) p(x|1) < τ ∗ p(x|2) → t∗ (x) = p(x|1) ⇒ α∗ (x, 2) = 1 b) p(x|1) > τ ∗ p(x|2) → t∗ = τ ∗ p(x|2) → α∗ (x, 1) = 1 Die optimale Strategie ( k=1 p(x|1) > ∗ τ = p(x|2) < k=2 12 Relaxation 28 KAPITEL 2. OPTIMIERUNG AUF EUKLIDISCHEN RÄUMEN Kapitel 3 Diskrete Optimierung 3.1 Optimierung auf Graphen Gewichteter Graph G(V, E, w) mit V - Menge der Knoten, |V | = n E - Menge aller Kanten a) gerichteter Graph b) ungerichteter Graph R⊂V ×V E ⊂ {M ⊂ v||M | = 2} w - Kantengewichte, d.h. w : E → R A) Kürzeste Pfade Seien s, t zwei Knoten und pst = (v1 = s, v2 , . . . , vn = t) ein Pfad der s und t verbindet, d.h. (vi , vi+1 ) ∈ E ∀i n−1 X Länge des Pfades l(pst ) = w(vi , vi+1 ) i=1 Länge des kürzesten Pfades l(s, t) = min l(pst ) pst Seien A, B ⊂ V , dann ’(A, B) - kürzeste Pfade Problem ’ = ˆ Finde für jedes Paar s, t mit s ∈ A und t ∈ B die Länge des kürzesten Pfades l(s, t). Aufgabe ist korrekt gestellt, falls (a) ∀s ∈ A, ∀t ∈ B∃ ein Pfad der s und t verbindet (b) Kein Pfad von s nach t enthält Zyklen negativer Länge (damit Länge nicht −∞ wird) Wir betrachten ’({s}, V ) - kürzeste Pfade Problem’ ( spannt einen Baum auf) Bezeichne l(t) = l(s, t), l(s) = 0 Bellman: Die gesuchten l(t), t ∈ V sind Lösung des Systems von Gleichungen ( a(s) = 0 u(t) = min [a(x) + w(x, t)] ∀t 6= s x6=t (Falls (x, t) ∈ / E ⇒ w(x, t) = +∞ ) 29 30 KAPITEL 3. DISKRETE OPTIMIERUNG Algorithmus (Ford): f (t) - pointer auf Knoten Initialisiere: u(s) = 0 u(t) = ∞ ∀t = s, f (t) = nil ∀t ∈ V Körper while nicht alle Gleichungen erfüllt do begin scan: Bestimme t 6= s für das ∃x 6= t mit u(t) > u(x) + w(x, t) label: u(t) = u(x) + w(x, t) f (t) = x end (Klasse dieser Algorithmen unterscheiden sich nur im ’Scan - Teil’ z.B. wenn alle w(x, y) ≥ 0 Dijkstra) Sei F ⊂ V Teilmenge für die der Algorithmus die l(t) bereits berechnet hat und I = V \ F . Initialisiere: Körper: u(s) = 0, u(t) = w(s, t) ∀t 6= s, f (t) = s, F = {s} , I = V \ {s} while I = ∅ do begin scan: Finde t ∈ I mit minimalen u(t) Fi = F ∪ {t} , I := I \ {t} update: ∀ Nachbarn x von t , x ∈ I u(x) = min [u(x), u(t) + w(t, x)] f (x) = t falls u(t) + w(t, x) < u(x) war end Algorithmus benötigt (|E| = e, |V | = n) O(e) updatet + Management der Prioritätsschlange (a) Falls einfache Liste O(n) Iterationen, O(n2 ) insgesamt (b) Falls Prioritätsschlange (Standard) O(deg(t) log n) pro Iteration → O(e log n) insgesamt B) Maximal aufspannende Bäume Sei G(V, E, w) ein gewichteter ungerichteter Graph Def.: Aufspannender Baum: T ⊂ E mit G(V, T ) ist Baum. Seine Qualität ist X L(T ) = w(e) e∈T Gesucht: Maximaler aufspannender Baum Algorithmus (Boruvka 1926) (a) Ordne E nach Längen: E = (e1 , e2 , . . . , en ) mit w(ei ) ≥ w(ej ) ∀i ≤ j (b) for k = 1, k ≤ m, k + + ek = {i, j} falls @ Weg zwischen i und j in T 0 dann T 0 := T 0 ∪ {ek } Beweis: (Seien der Einfachheit halber alle w(e) unterschiedlich) Behauptung 1: Sei e1 die längste Kante in E und T ∗ ein MST ⇒ e1 ∈ T ∗ 31 3.2. DYNAMISCHE OPTIMIERUNG Behauptung 2: Sei T ∗ ein MST und T 0 ⊂ T ∗ Sei e ∈ E, e = {i, j} die Kante für die gilt (a) i und j sind in T 0 durch keinen Weg verbunden (b) Unter allen solchen sei e die längste Kante. Dann folgt e ∈ T ∗ . C) Traveling Salesman Problem G(V, E, W ) - ungerichteter Graph mit Kantengewichten Hamiltonscher Zyklus: Geordnete Liste (v1 , . . . , vn ) aller Knoten des Graphen mit {vi , vi+1 } ∈ E ∀i = 1, . . . , n und {v1 , vn } ∈ E. Gesucht: kürzester Hamiltonscher Zyklus → ist NP - vollständig D) Min-Cut Problem G(V, E, W ) - gerichteter Graph mit Kantengewichten s, t ∈ V , (s − t) - Schnitt - Partitionierung in 2 Teilmengen S ∪ T = V, S ∩ T = ∅, s ∈ S, t ∈ T Kosten eines (s − t) - Schnitts: XX G(S, T ) = w(v, v 0 ) v∈S v 0 ∈T Gesucht: (s − t) - Schnitt mit minimalen Kosten E) Max Flow Problem G(V, E, w) - gerichteter Graph mit Kantengewichten (Kapazitäten) s, t ∈ V (s − t) - Fluß = ˆ f : E → R mit ∀v 6= s, t gilt X X f (v 0 , v) = f (v, v 0 ) v 0 :(v 0 ,v)∈E v 0 :(v,v 0 )∈E zulässiger Fluß: f (v, v 0 ) ≤ w(v, v 0 ) ∀v, v 0 ∈ E Gesucht: Maximaler Fluß von s nach t X X f (s, v) − f (v, s) = v:(s,v)∈E 3.2 {z 1 f (v, t) − v:(v,t)∈E v:(v,s)∈E | X } Dynamische Optimierung • Sei k = (k1 , . . . , kn ) (Zustands)folge der Länge n mit ki ∈ K • Bewertung der Folge: G(k) = ϕ(k1 ) + n−1 X i=1 1 kann man normalerweise verhindern gi (ki , ki+1 ) X v:(t,v)∈E f (t, v) 32 KAPITEL 3. DISKRETE OPTIMIERUNG • Gesucht: Folge k ∗ mit maximaler Bewertung k ∗ = arg max G(k) k Interpretation als Suche des besten Pfades Sei fi (k) - Bewertung des besten Pfades von s zum Knoten (i, k) f1 (k) = ϕ(k) fi (k) = max [fi−1 (k 0 ) + gi−1 (k 0 , k)] 0 k zusätzlich Pointer indi (k) zeigt auf Vorgängerknoten im besten Weg indi (k) = arg max [fi−1 (k 0 ) + gi−1 (k 0 , k)] 0 k Bisher: X Bewertung eines Pfades : der Kantenbewertungen Gesucht: (Pfad mit) max Bewertung Was wenn: Bewertung des Pfades Gesuchte L J Sei (R, , ) Semiring X X max min max min min max Q X J2 L3 a ⊕ (b ⊕ c) = (a ⊕ b) ⊕ c = a ⊕ b ⊕ c a (b c) = (a b) c a⊕b=b⊕a ab=ba 0⊕a=a 1a=a a (b ⊕ c) = (a b) ⊕ (a c) Nach wie vor k = (k1 , . . . , kn ) - Zustandsfolge und G : k → R mit " G(k) = ϕ(k1 ) n−1 K # gi (ki , ki+1 i=1 gesucht d= M k1 ··· M G(k) kn Dynamische Berechnung: fi : K → R f1 (k) = ϕ(k) M fi (k) = [fi−1 (k 0 ) gi−1 (k 0 , k)] k0 3 3 verallgemeinerte Multiplikation verallgemeinerte Summe Index NC , 17 ξ, 9 Kürzeste Pfade, 29 Karnish, 23 Karnish, Kuhn, Tucher, 23 Kegel, 15 konjugiert, 20 konvex, 14 konvexe Funktionen, 15 Korrelationskoeffizient, 11 Kovananz, 11 Kronecker Symbol, 14 Kuhn, 23 abgeschlossen, 14 abgeschlossene Menge, 14 abgeschlossener Kegel, 15 Abstiegsverfahren, 19 allgemeine Form der Dualität, 25 Axiome der Wahrscheinlichkeit, 4 Basis, 13, 14 Bayes - Formel, 5 Bedingte Wahrscheinlichkeit, 5 Bellman, 29 Bilinearität, 13 Lagrange, 24 Lagrange Funktion, 24 Lemma von Farkas, 25 Lineare Gleichungen und konjugierte Richtungen, 20 Lineare Optimierung, 23 Linearer Raum, 13 Linerare Optimierung und Dualität, 23 Diskrete Optimierung, 29 duale Problem, 24 duales Problem, 26 Dualität, 23, 25 Dynamische Optimierung, 31 Münze, 3 Matrixmultiplikation, 8 Max Flow Problem, 31 Maximal aufspannender Baum, 30 Menge, abgeschlossen, 14 Menge, offen, 14 Min-Cut Problem, 31 monoton wachsend, 9 Ereignis, 3 Ergebnis - Algebra, 4 Ergebnisalgebra, 4 Erster Dualitätssatz, 25 Farkas, 25 fixiertes Ereignis, 5 Folgeräume, 6 Ford, 30 Funktionen, konvex, 15 Funktionen, stetig, 15 gerichteter Graph, 29 Gewichteter Graph, 29 Gradient, 17 Gradientenverfahren, 19 hinreichende Bedingung, 23 Hinreichende Optimalitätsbedingung 1. Ordnung, 18 Hinreichende Optimalitätsbedinung 2. Ordnung, 19 33 NB, 17 Nebenbedingung, 17 Newton Verfahren, 20 Neyman Pearson Aufgabe, 26 Normalenkegel, 18 notwendige Bedinngung, 23 Notwendige Optimalitätsbedingung 1. Ordnung, 18 offen, 14 offene Menge, 14 Optimalitätsbedingungen, 17 Optimalwert, 24 34 Optimierung auf Graphen, 29 Optimierung unter Nebenbedingungen, 22 Optimierungsaufgabe, 17 orthonormiert, 14 orthonormierte Basis, 14 positiv semidefinit, 16 Positivität, 13 primales Problem, 25 Prioritätsschlange, 30 Richtungsableitung, 17 semidefinit, 16 semidefinit, positiv, 16 Skalarprodukt, 18 Sprachgebrauch, 3 stetige Funktionen, 15 Streuung, 11 Symmetrie, 13 symmetrisch, 16 symmetrische Abbildung, 16 Tangentialebene, 22 Tetraeder, 7 Traveling Salesman Problem, 31 Tucher, 23 Typische Optimierungsaufgabe, 17 unabhängige Zufallsgröße, 10 unabhängiges Ereigniss, 5 ungerichteter Graph, 29 Verfahren der konjugierten Gardienten, 20 Verfahren der konjugierten Gradienten (linear), 21 Verfahren der konjugierten Gradienten (nicht linear) (von Polak, Ribiere), 21 Verfahren des steilsten Abstiegs, 19 Wahrscheinlichkeit, 3, 4 Wappen, 3 Zufall, 3 Zufallsgröße, 9 Zufallsgrößen, 9 Zusammengesetzte Ereignisse, 4 INDEX