Ingo Rechenberg PowerPoint-Folien zur 3. Vorlesung „Evolutionsstrategie I“ Globale und lokale Optimumsuche Vier elementare Strategien auf dem Prüfstand Weiterverwendung nur unter Angabe der Quelle gestattet x ? 4 Strategie Strategien Qualitätsmessung Versuchsobjekt Verstellbarkeit 1. Globale deterministische Suche Experimentierkreis 2. Globale stochastische Suche 3. Lokale deterministische Suche 4. Lokale stochastische Suche Q Suche nach dem Optimum Bei schwach kausalem Weltverhalten Bei stark kausalem Weltverhalten m Z 1 1 m 1. Globale deterministische Suche Systematisches Scannen des Versuchsfeldes G ( 2 ) m2 G( n) mn m Z 1 1 m 2. Globale stochastische Suche G ( 2) 2.99 m2 Zielfindung mit 95% Wahrscheinlichkeit G ( n ) 2.99 mn Rechnung mit Wahrscheinlichkeitstheorie 1. Versuch Ziel getroffen: 1. Versuch Ziel nicht getroffen: 2. Versuch Ziel nicht getroffen: 3. Versuch Ziel nicht getroffen: Wz 12 m W z 1 12 m W z 1 12 m W z 1 12 m ( ( G. Versuch Ziel nicht getroffen: W z 1 12 m ( G. Versuch Ziel getroffen: ln (1Wz ) G ln (1 12 ) m 2 3 ln(1 x ) x x x 2 3 2 ) )3 G Für n Variable (1 1Wz ) G mn ln G ) Wz 1 1 12 m ( (1 1Wz ) G m2 ln G ) ln (1 Wz ) ln (1 12 ) m ln (1 12 ) 12 m m Für Wz = 0.95 G mn 2,996 Text 1. Globale deterministische Suche 2. Globale stochastische Suche 3. Lokale deterministische Suche 4. Lokale stochastische Suche Definition der Fortschrittsgeschwindigkeit j Zurückgelegter Weg bergan Zahl der Versuche j Zurückgelegter Weg bergan Zahl der Versuche Fortschritt d Z y d x Linearitätsradius 3. Lokale deterministische Suche Folgen des steilsten Anstiegs j (2) grad ( n) grad j d 3 d n 1 Gradientenstrategie Arbeitsschritt der Länge d in Richtung des steilsten Anstiegs am Beispiel für 3 Dimensionen: x neu x alt d yneu yalt d z neu zalt d ΔQx ΔQx2 ΔQ y2 ΔQz2 ΔQ y ΔQx2 ΔQ y2 ΔQz2 ΔQz ΔQx2 ΔQ y2 ΔQz2 2. Nachkomme Elter 1. Nachkomme Z y d x Linearitätsradius 4. Lokale stochastische Suche Zufallsdriften entlang des steilsten Anstiegs ( 2) j evo ? (n) j evo ? Plus-Nachkomme Schwerpunkt Minus-Nachkomme Elter Linearitätsradius Bestimmung des linearen Fortschritts Statistisches Mittel des Fortschritts Plus-Nachkomme Schwerpunkt Minus-Nachkomme Elter Linearitätsradius Fortschrittsgeschwindigkeit: jr sr 2 Weil die Hälfte der Kinder Misserfolge sind ! Statistisches Mittel des Fortschritts Schwerpunkt r r sr 2 Dim. sr 2 r sr 3 Dim. 1 sr r 2 sr n Dim. ? Plus-Nachkomme Schwerpunkt Minus-Nachkomme Elter Linearitätsradius Bestimmung des linearen Fortschritts Statistisches Mittel des Fortschritts Plus-Nachkomme Schwerpunkt Minus-Nachkomme Elter Linearitätsradius Fortschrittsgeschwindigkeit: s jv v 2 Weil die Hälfte der Kinder Misserfolge sind ! Statistisches Mittel des Fortschritts Schwerpunkt r r sv sv sv 2 Dim. 3 Dim. n Dim. sv 4 r sv 3 r 8 ? Aufgabe: 1. Berechnung des Schwerpunkts einer n-dimensionalen Halbkugelschale 2. Berechnung des Schwerpunkts einer n-dimensionalen Vollhalbkugel Der Weg zum n-dimensionalen Würfel Strecke – Quadrat – Würfel – Tesserakt Was ist eine n-dimensionale Kugel ? Die Fortentwicklung einer konstruktiven mathematischen Idee a Beispiel: Volumenelement a a a a a a a 2 a 3 a n Genannt: Stecke Fläche Volumen Hypervolumen P2 Analoge Extrapolationsidee für die Entfernung D zweier Punkte P1 P1 { x1 } P1 { x1 , y1 } P1 { x1 , y1 , z1 } P1 { x1 , y1 , z1 ,,1 } P2 { x2 } P2 { x2 , y2 } P2 { x2 , y2 , z2 } P2 { x2 , y2 , z2 ,,2 } D ( x2 x1 )2 D ( x2 x1 )2 ( y2 y1 )2 D ( x2 x1 )2 ( y2 y1 )2 ( z2 z1 )2 D ( x2x1)2 ( y2 y1)2 ( z2z1)2 (21)2 Zurück zur Aufgabe: 1. Berechnung des Schwerpunkts einer n-dimensionalen Halbkugelschale 2. Berechnung des Schwerpunkts einer n-dimensionalen Vollhalbkugel Die 1. Guldinsche Regel Eine Kurve erzeugt durch Rotation um 360 Grad eine Rotationsfläche. Dann ist die Oberfläche der Rotationsfläche gleich der Länge der erzeugenden Kurve mal dem Weg des Schwerpunktes dieser Kurve. Paul Guldin (1577 – 1643) Die 1. Guldinsche Regel Eine Kurve erzeugt durch Rotation um 360 Grad eine Rotationsfläche. Dann ist die Oberfläche der Rotationsfläche gleich der Länge der erzeugenden Kurve mal dem Weg des Schwerpunktes dieser Kurve. Paul Guldin (1577 – 1643) Beispiel: Ein Halbkreis erzeugt durch Rotation um 360° eine Kugel. Dann ist die Oberfläche der Kugel gleich der Länge des Halbkreislinie ( r) mal dem Rotationsweg des Schwerpunkts des Halbkreislinie. s Halbkreis mit dem Radius r Halbkreislinienschwerpunkt Schwerpunktsweg OKugel 2s 1 UKreis 2 Die 2. Guldinsche Regel Eine Fläche erzeugt durch Rotation um 360 Grad einen Rotationskörper. Dann ist das Volumen des Rotationskörpers gleich dem Inhalt der erzeugenden Fläche mal dem Weg des Schwerpunktes dieser Fläche. Paul Guldin (1577 – 1643) Die 1. Guldinsche Regel Eine Fläche erzeugt durch Rotation um 360 Grad einen Rotationskörper. Dann ist das Volumen des Rotationskörpers gleich dem Inhalt der erzeugenden Fläche mal dem Weg des Schwerpunktes dieser Fläche. Paul Guldin (1577 – 1643) Beispiel: Ein Halbkreis erzeugt durch Rotation um 360° eine Kugel. Dann ist das Volumen der Kugel gleich dem Inhalt des Halbkreisfläche (1/2 r 2) mal dem Rotationsweg des Schwerpunkts der Halbkreisfläche. s Halbkreis mit dem Radius r Halbkreisflächenschwerpunkt Schwerpunktsweg VKugel 2s 1 FKreis 2 OKugel 2 sr 1 UKreis 2 OKugel sr UKreis VKugel 2 sv 1 FKreis 2 VKugel sv FKreis (2) UKreis 2 r OKugel gedeutet als sr( 2 ) sv( 2 ) (3) O Kugel 2 OKugel (3) VKugel (2) VKugel (3) O 1 Dimension D ( x1 x2 )2 Kugel (n) ( 2) j jr r 2 2 OKugel 2 Dimensionen D ( x1 x2 )2 ( y1 y2 )2 ( n 1) O Kugel n 2 OKugel ) ( x x )2 ( y y )2 ( z z )2 ( n 1) 3 Dimensionen ( 3 D 1 2 1 2 V VKugel 1 2 Kugel (n) ( 2) j jv v 4 Dimensionen 2 VD 2 (x1 x2 )2 ( y1 y2 )2 (z1 z22)2V(u1nu 2 )2 Kugel Kugel Oberfläche einer n-dimensionalen Kugel Volumen einer n-dimensionalen Kugel jr( n ) O V (n) ( ) n /2 n n n R 2Γ 2 ( ) n ( 2) d (n) jr 2 (n 1 ) 2 n ( 2 ) n d (n) jr 2 (n 1 ) n 1 2 ( n 1) O Kugel n 2 OKugel ( n 1) VKugel (n) jv n 2 VKugel Zur Gammafunktion n /2 n 1 2 n R Γ 2 (n) (verallgemeinerte Fakultät) (x +1) = x (x), (1) = (2) = 1, (1/2) = (m) = (m – 1)! für ganzzahlige m n ( 2) lim n 1 n ( 2 ) Es gilt die asymptotische Formel: jr( n ) d 2 für n >> 1 jv( n ) d j 2 1 n n 2 n n 1 d 1 n 1 2 n Randverteilte Zufallszahlen Volumenverteilte Zufallszahlen für große n Text 1,0 90 r 0,5 1 Volumen-Verteilung 1 20 40 60 80 n 100 Zur Geometrie der n-dimensionalen Kugel Text Gradienten Strategie kontra Evolutionsstrategie Für n >> 1 ( n) jgrad d n 1/n Gradientenstrategie (n) jevo 1 d 2 n 1/ n Evolutionsstrategie Text Der Dumme, der einfach losgeht, kommt weiter als der Schlaue, der sitzen bleibt und sich vor lauter Nachdenken nicht entscheiden kann. Motto des Evolutionsstrategen 10 klassische Optimierungsstrategien 1. Gauß-Seidel-Strategie 2. Strategie von Hooke und Jeeves 3. 4. 5. 6. Rosenbrock-Strategie Strategie von Davis, Swann und Campey (DSC) Simplex-Strategie von Nelder/Mead Complex-Strategie von Box 7. Powell-Strategie 8. Newton-Strategie 9. Strategie von Steward 10. Strategie von Davidon, Fletcher und Powell (DFP) Aktuell: SQP-Verfahren (Sequential Quadradic Approximation) x3 x2 x1 Elementare Gradientenstrategie x3 x2 x1 Extrapolierende Gradientenstrategie x3 x2 x1 Gauß-Seidel- oder Koordinatenstrategie x3 3 6 4 7 2 1 5 x2 x1 Simplex-Strategie von Nelder/Mead Ende Eine ähnliche Aufgabe: Ein Würfel wird 4 mal hintereinander geworfen. Wie groß ist die Wahrscheinlichkeit, dass mindestens eine Sechs fällt? – Aufgaben, in denen das Wort „mindestens „ vorkommt, behandelt man am besten über die Negation. Die Negation von „mindestens eine Sechs“ ich „keine Sechs“. Die Wahrscheinlichkeit, mit einem Wurf keine Sechs zu werfen ist 5/6. Die Wahrscheinlichkeit von „4 mal hintereinander keine Sechs„ ist (5/6)4. Dann ist die Wahrscheinlichkeit, dass sich bei vier Würfen mindestens eine Sechs zeigt: 1 – (5/6)4 = 0,518 Eine sehr wichtige Aussage der Theorie: Zwei völlig verschiedene Verteilungen der Mutationen (Gleichmäßig am Kugelrand und gleichmäßig im Kugelvolumen) ergeben für viele Variable n das gleiche Ergebnis. Das heißt, es lohnt sich nicht, über Vor- und Nachteile verschiedener Mutationsverteilungen zu sinnieren. Das Diagramm zeigt, dass in einer hochdimensionalen Hyperkugel sich das Volumen fast ausschließlich an der Oberfläche der Kugel konzentriert. Das Innere einer Hyperkugel hat nur sehr wenig Volumen. Ein gleichverteilter Zufallspunkt wird sich deshalb mit großer Wahrscheinlichkeit immer am äußeren Rand der Hyperkugel befinden. Die Theorie zeigt: Eine planvoll durchdachte Handlungsweise zum Folgen des Gradientenweges (Gradientenstrategie) muss nicht notwendigerweise effektiver sein als die Diffusion bergauf durch eine Reihe spontan ausgeführter kleiner Zufallsschritte. Man muss den Gesamtaufwand sehen. Die Gradientenstrategie benötigt n Vorversuche (genau n+1), die zunächst noch keinen Fortschritt erbringen. Erst nachdem die Informationen gesammelt wurden folgt der eigentliche Arbeitsschritt, der nun allerdings den größtmöglichen Gewinn erbringt. Bei der Evolutionsstrategie ist es umgekehrt. Die Chance für eine großen Gewinn ist bei einem Zufallsschritt gering. Ein kleiner Gewinn tritt aber im Mittel jedes 2. Mal auf. Fazit: Die vielen Hilfsoperationen bei einen ausgeklügelten Strategie können zu einer größeren Verlangsamung des Fortschritts führen als die unvermeidlichen Abweichungen eines Zufallsschrittes (im linearen Fall ist ja jeder 2. Schritt im Mittel erfolgreich) von der optimalen Fortschrittsrichtung