Mathematik für Informatiker III Mathematik für Informatiker III Literaturhinweise I Peter Hartmann, Mathematik für Informatiker. 3. überarbeitete Auflage, 2004, Vieweg. Bei Lehmann’s vorhanden, ca. 30e. Gute Grundlage, äusserst lesbar, ISBN: 3-528-23181-5 Mathematik für Informatiker III Andreas Griewank Guerino Mazzola, Gérard Milmeister, Jody Weissmann, Comprehensive Mathematics for Computer Scientists 1, 2004, Springer. Ziemlich axiomatisch und knapp geschrieben. Zweiter Band in Vorbereitung. Definitiv für höhere Ansprüche. Begleitender Kurs im Internet verfügbar. ca 30 e, ISBN: 3-540-20835-6 Institut für Angewandte Mathematik Humboldt Universität zu Berlin [email protected] Wiss. Mitarbeiter: Dr. Niepage ([email protected]) Jan Riehme ([email protected]) 11. Februar 2006 Gerhard Opfer, Numerische Mathematik für Anfänger. Eine Einführung für Mathematiker, Ingenieure und Informatiker. 4. durchgesehene Auflage, 2002, Vieweg –1– Mathematik für Informatiker III Mathematik für Informatiker III Literaturhinweise II Teil D Differentialgleichungen mit Numerik Hans-Görg Roos, Hubert Schwetlick, Numerische Mathematik. Das Grundwissen für jedermann. Mathematik für Ingenieure und Naturwissenschaftler. 1999, Teubner Vorläufige Gliederung 1. 2. 3. 4. 5. 6. 7. 8. I I –3– Numerik im Überblick Gleitkommadarstellung und -arithmetik Lösung (nicht-)linearer Gleichungssysteme Gewöhnliche Differentialgleichungen (=ODE) Euler Verfahren für Systeme von ODEs Interpolation mit Polynomen und Splines Quadraturen = Numerische Integration Randwertprobleme und Schwingende Seite Friedrich Stummel, Karl Hainer, Praktische Mathematik. 1982, Teubner J.M. Ortega, W.C. Rheinboldt, Iterative solution of nonlinear equations in several variables. 1970 Academic Press, Inc. Josef Stoer, Numerische Mathematik 1. Eine Einführung - unter Berücksichtigung von Vorlesungen von F.L. Bauer. 7. neubearbeitete und erweiterte Auflage, 1994, Springer. Übung zu 1-3 abzugeben am 8.11 Übung zu 4-6 abzugeben am 22.11. –2– –4– Mathematik für Informatiker III Mathematik für Informatiker III Numerik im Überblick – Was ist, was will ’Numerik’ Numerik im Überblick – Was ist, was will ’Numerik’ D - 1 Numerik im Überblick – Was ist, was will ’Numerik’ Stufen des ’Wissenschaftlichen Rechnens’ (i) Modellierung Ausgangsdilemma Die Modellierung natur- oder sozialwissenschaftlicher Zusammenhänge bzw ’Systeme’ führt zu mathematischen ’Gleichungen’, die nur in ganz einfachen Fällen per Hand oder sonstwie ’exakt’ gelöst werden können. Zum Beispiel können schon bei der unbestimmten Integration Maple und Mathematica nur in speziellen Ausnahmefällen eine Lösung als Formel angeben. Es lässt sich sogar zeigen, dass eine solche ’symbolische’ Lösung im Regelfall garnicht existiert. ( des Anwendungssystems ) (ii) Diskretisierung (iii) Dateneingabe ( von Differentialgleichungen ) ( für aktuelle Situation ) (iv) Lösung (v) Datenausgabe ( durch Gleitkomma-Algorithmen ) ( in geeigneter Form ) Eventuell können (iii) - (v) auch innerhalb einer Wiederholungsanweisung (Schleife, Schlaufe) ausgeführt werden (z.B. wenn die Ausgabe zur Echtzeitsteuerung eines System dient). –5– Mathematik für Informatiker III –7– Mathematik für Informatiker III Numerik im Überblick – Was ist, was will ’Numerik’ Numerik im Überblick – Was ist, was will ’Numerik’ Numerische Grundaufgaben und ihre Lösbarkeit Numerische Grundaufgaben und ihre Lösbarkeit Lineare algebraische Gleichungssysteme Im Prinzip völlig im Griff. Variablenzahl jeweils durch Speichergrösse und Prozessorzahl und -geschwindigkeit beschränkt. Praktischer Ausweg Die mathematischen Gleichungen werden in Computerprogramme umgesetzt und, wenn es sich dabei um Differentialgleichungen handelt ’diskretisiert’. Die resultierenden Systeme linearer oder nichtlinearer algebraischer Gleichungen werden dann annäherungsweise über dem Raster(=Screen) der Gleitkommazahlen gelöst Die Ergebnisse werden ausgedruckt oder besser graphisch dargstellt. Nichtlineare algebraische Gleichungssysteme Lokal, d.h. bei vorhandener guter Anfangsnäherung: wie linearer Fall. Global: beliebig schwierig und eventuell unlösbar. Anfangswertaufgaben für ODEs Im Prinzip völlig im Griff unabhängig von Linearität. Randwertaufgaben für ODEs Standarddiskretisierung führt auf lineare bzw nichtlineare algebraische Gleichungen und ist entsprechend lösbar. Partielle Differentialgleichungen PDE Nur im elliptischen Fall schnell lösbar, alles andere ist Forschungsgebiet und stösst jeweils an die Grenzen vorhandener Rechnerkapazitäten. –6– –8– Mathematik für Informatiker III Mathematik für Informatiker III Numerik im Überblick – Was ist, was will ’Numerik’ Gleitkommadarstellung und -arithmetik Numerische Grundaufgaben und ihre Lösbarkeit Binärdarstellung, d.h. Basis b = 2 ist die am häufigsten verwendete Basis von Gleitkommazahlen Auch b = 10 wird zuweilen in Hardware verwendet. Arten von Gleitkommazahlen Warnung I normalisierte Gleitpunktzahl: Alles wird beliebig viel schwieriger wenn einige Variablen ganzzahlig sein müssen und / oder m1 > 0 I die Lösung gegebenen Ungleichungen genügen muss wie in der Optimierung üblich. I =⇒ 1 ≤ m ≤ x b −e < 1 b x = ±0.m1 m2 m3 · · · ml · b e with m1 > 0 =⇒ eindeutige Darstellung I unnormalisiert: m1 = 0 zugelassen =⇒ keine Eindeutigkeit I denormalisiert: m1 = 0, e = emin Vorsicht: –9– Mathematik für Informatiker III Rechnen mit denormalisierten Zahlen führt zu verstärkten Rundungseffekten. Mathematik für Informatiker III Gleitkommadarstellung und -arithmetik Gleitkommadarstellung und -arithmetik D - 2 Gleitkommadarstellung und -arithmetik Betragsmässig kleinste normalisierte Zahl TINY TINY = 0.1 · b emin = b emin −1 Ein System von Gleitkommazahlen wird definiert durch: I Basis (oder Radix) b (= üblicherweise 2) Betragsmässig größte normalisierte Zahl HUGE I Mantissenlänge l I Minimaler Exponent emin Maximaler Exponent emax HUGE = 0.(b − 1)(b − 1)(b − 1) . . . (b − 1) . . . b emax = b emax (1 − b −l ) I Epsilon (relative Maschinengenauigkeit) ε Teilmenge der reellen Zahlen R mit Darstellung x = −1 s – 11 – 0.m1 m2 · · · ml b e ∼ −1 | {z } Mantisse m s m1 b e−1 +m2 b e−2 +m3 b e−3 +. . .+ml b e−l Vorzeichenbit s, Mantisse m, Exponent e s ∈ 0, 1 mi ∈ {0, 1, . . . , b − 1} e ∈ {emin , emin + 1, . . . , emax } – 10 – ist die kleinste Zahl ε für die 1 + ε in Gleitkommaarithmetik nicht 1 ergibt, d.h. ε ≈ b −l Merke: I Mantissenlänge l bestimmt die Rechengenauigkeit. I Exponentenbereich emax − emin bestimmt den Wertebereich. – 12 – 1 Mathematik für Informatiker III Mathematik für Informatiker III Gleitkommadarstellung und -arithmetik Gleitkommadarstellung und -arithmetik Gleitpunktoperationen Gleitpunktoperationen Beispiel D.1 (Gleitpunktzahlsystem mit Basis 2 und Mantissenlänge 3) x = 0.m1 m2 m3 2e Normalisierte positive Zahlen: Denormalisierte positive Zahlen: TINY = denormalisiert e −1 −1 −1 −1 −1 −1 −1 −1 m1 0 0 0 0 1 1 1 1 m2 0 0 1 1 0 0 1 1 m3 0 1 0 1 0 1 0 1 Bemerkenswert Exponentenbereich −1 ≤ e ≤ 1 m1 = 1 , m2 ∈ {0, 1} 3 m3 m1 = 0 , e = −1 , m2 ∈ {0, 1} 3 m3 0 0 1 1 0 0 0 1 1 4 HUGE = , 7 4 , EPSILON = ( 1.0 / 8.0 ) * 8.0 = 1.0 ( 1.0 / 5.0 ) * 5.0 6= 1.0 1 8 0 1 1 0 0 1 1 1 1 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 3 4 7 8 1 5 4 3 2 7 4 Konsequenz Gleitpunktoperationen stören normale algebraische Rechenregeln, insbesondere Distributivität: Im Allgemeinen gilt -1 0 1 1 3 1 5 3 7 1 16 8 16 4 16 8 16 2 5 8 (a + b) ∗ c 6= a ∗ c + b ∗ c. Man muss sich also über die Reihenfolge der Anwendung von Operationen Gedanken machen. – 13 – Mathematik für Informatiker III – 15 – Mathematik für Informatiker III Gleitkommadarstellung und -arithmetik Gleitkommadarstellung und -arithmetik Gleitpunktoperationen Beispiel D.2 (Einfache genaue Gleitkommazahlen im Salford Fortran 95 Compiler) b = 2, HUGE TINY Epsilon l = 24, ≈ ≈ ≈ emin = −125, 2128 2−125−1 2−24 Folgerung D.3 = = = emax = 128 12.8 10 12.8 2 ≈ 103 −12.6 210 ≈ (103 )−12.6 −2.4 10 −2.4 2 ≈ 103 ≈ ≈ ≈ Allgemein gültiger Standard: ANSI - IEEE 754 (ANSI → American National Standards Institute und IEEE → Institute of Electrical and Electronics Egineering.) 1038 10−38 10−7 Grundideen: (i) Alle Zwischenergebnisse werden zur nächsten Gleitpunktzahl gerundet. (ii) The show must go on. Auch bei Fehlern wird weiter gerechnet. Bei Verwendung der Gleitkommazahlen des Salford Fortran 95 Compilers in Standardgenauigkeit wird mit etwa sieben signifikanten Dezimalstellen gerechnet. – 14 – – 16 – Mathematik für Informatiker III Mathematik für Informatiker III Gleitkommadarstellung und -arithmetik Gleitkommadarstellung und -arithmetik Zu Grundidee (i) – Rundung von Zwischenergebnissen Zu Grundidee (i) – Rundung von Zwischenergebnissen Zu Grundidee (i) – Rundung von Zwischenergebnissen Auch wenn x und y im Gleitpunktbereich liegen, gilt dies im Allgemeinen nicht für das Ergebnis x ◦ y , wobei ◦ ∈ {−, +, ·, /}. Dann wird x ◦ y zunächst mit erhöhter Genauigkeit berechnet und anschließend zur nächstliegenden Gleitpunktzahl gerundet. Warnung: Rundungsfehler entstehen in (fast) jeder einzelnen Operation und pflanzen sich fort. Rundungsarten ∇(x ◦ y ) Algorithmen (z.B. zur Matrixfaktorisierung) müssen deswegen auf ihre Stabilität, d.h. die Verstärkung oder Abdämpfung von Rundungsfehlern, untersucht werden. nach unten gerundet (größte untere Schranke im Gleitpunktbereich) nach oben gerundet (kleinste obere Schranke im Gleitpunktbereich) ∆(x ◦ y ) Beispiel D.4 Verhältnis der Rundung nach oben und unten Gausssche Elimination ohne Pivotierung ist extrem instabil. Falls e gemeinsamer Exponent von ∆(x ◦ y ) und ∇(x ◦ y ) ist, dann gilt Gauss mit Pivotierung ist dagegen recht stabil. ∆(x ◦ y ) − ∇(x ◦ y ) q q 0.m̃ · 2e 0.m · 2e ≤ 2−l 2e ≤ 2−l 2 · |x ◦ y |, da|x ◦ y | ≥ 12 2e – 17 – Mathematik für Informatiker III – 19 – Mathematik für Informatiker III Gleitkommadarstellung und -arithmetik Gleitkommadarstellung und -arithmetik Zu Grundidee (i) – Rundung von Zwischenergebnissen Zu Grundidee (i) – Rundung von Zwischenergebnissen Bezeichnet man also mit (x ◦ y ) ∈ {∇(x ◦ y ), ∆(x ◦ y )} die Gleitpunktzahl, die am nächsten zu x ◦ y liegt, so gilt |(x ◦ y ) − x ◦ y | ≤ wobei eps = 2 −l 1 2 |∆(x ◦ y ) − ∇(x ◦ y )| ≤ 2−l |x ◦ y | ≤ eps · |x ◦ y | Frage Was passiert, wenn x ◦ y außerhalb des Wertebereichs [-HUGE, HUGE] liegt, d.h. entweder ∇(x ◦ y ) oder ∆(x ◦ y ) nicht existiert? die relative Maschinengenauigkeit ist. Alternative Schreibweise: fl(x ◦ y ) = (x ◦ y ) ∗ (1 + ε), wobei |ε| ≤ eps. Beispiel D.5 (Programm) fl(x ◦ y ) bezeichnet das in Gleitpunktarithmetik erzielte Ergebnis für x ◦ y. REAL u,s,t s = TINY(u)**2 t = HUGE(u)*8 ! ergibt 0 ! ergibt INF, signalisiert OVERFLOW Konsequenz für relativen Fehler: fl (x ◦ y ) − (x ◦ y ) ≤ |ε| ≤ eps x ◦y – 18 – – 20 – Mathematik für Informatiker III Mathematik für Informatiker III Gleitkommadarstellung und -arithmetik Summation numerischer Reihen Zu Grundidee (ii) – Fortsetzung der Berechnung trotz Fehlers Fehlerfortpflanzung Zu Grundidee (ii) – Fortsetzung der Berechnung trotz Fehlers D - 3 Summation numerischer Reihen Fehlerfortpflanzung Mit INF und -INF kann (soweit es geht) normal weiter gerechnet werden, ohne dass sich je wieder normale Zahlen ergeben. (Einige) Rechenregeln x + INF == INF x * INF == sign(x) * INF x / 0 == sign(x) * INF für alle x 6= -INF für x 6= 0 für x 6= 0 Erinnerung: fl(x ◦y ) = x ◦y ∗(1+ε) mit wobei sign(x) das Vorzeichen von x liefert. −eps ≤ ε ≤ eps wobei ◦ ∈ {+, −, ∗, /} Prinzip Hoffnung für komplexe Berechnungen Undefinierte Operationen wie 0/0, INF/INF, INF-INF und 0*INF ergeben den sehr speziellen Wert NaN ≈ Not a Number. Da Auf- oder Abrunden mehr oder minder zufällig auftreten hebt sich deren Wirkung (hoffentlich) im Großen und Ganzen auf. Da ein NaN nicht mit sich selbst oder etwas anderem verglichen werden kann, gilt x 6= x .EQUIV. .TRUE. genau dann wenn x ein NaN ist. – 21 – Mathematik für Informatiker III – 23 – Mathematik für Informatiker III Gleitkommadarstellung und -arithmetik Summation numerischer Reihen Zu Grundidee (ii) – Fortsetzung der Berechnung trotz Fehlers Fehlerfortpflanzung Positives Beispiel: Geometrische Reihe: s= n X i =0 Infektionsprinzip: xi = 1 − x n+1 1−x falls x 6= 1 . Einfach genaues Auswertungsprogramm in Fortran 95 Wenn immer ein NaN als Argument oder Operator einer Operation auftritt sind die Ergebnisse wiederum NaNs. Auf diese Weise wird der gesamte Berechnungszweig als ungültig ausgewiesen. INTEGER i,n REAL(KIND=1) x,y,s REAL(KIND=2) check s = 0 y = 1 DO i = 0, n s = s+y ; y = y*x END DO check = x ; eps = EPSILON(x) check = (1-check**(n+1))/(1-check) WRITE(*,*) s,check,s/check-1,n*eps – 22 – ! Partialsumme !jeweils Potenz von x – 24 – Mathematik für Informatiker III Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Fehlerfortpflanzung Fehlerfortpflanzung Entsprechend erhält man für die Partialsummen si +1 = fl(si + yi ) als berechnete Werte von 1 + x . . . + x i +1 Programm ergibt für n = 100 und x = 2.0/3.0 s 3.0000002 check 3.00000019 s/check - 1 2 · 10−8 n * eps 1.2 · 10−5 s1 = fl(y0 + y1 ) = fl(1 + x) = (1 + x)(1 + εn+1 ) s2 = fl(s1 + y2 ) = fl(s1 + y2 )(1 + εn+2 ) = (1 + x)(1 + εn+1 ) + x 2 (1 + ε2 ) (1 + εn+2 ) Beobachtungen I Gleitpunktwert von x ist offenbar größer als 23 (durch Rundung), da beide Summen größer als 2 n n+1 ! 2 2 2 2 1+ + +··· + =3 1− ≤3 3 3 3 3 {z } | = (1 + x + x 2 )(1 + ε̃n+2 )2 I Der beobachtete relative Fehler zwischen einfach und doppelt genauer Lösung ist lediglich 2 · 10−8 , d.h. von der Größenordnung der Maschinengenauigkeit, obwohl wir 100 Operationen durchgeführt haben. Die Rundungen scheinen sich partiell aufgehoben zu haben. Eine exakte Abschätzung für den worst case (d.h. schlimmster Fall) ergibt den Wert (1 + eps)100 ≈ 100 · eps als relativen Fehler. Das lässt sich wie folgt herleiten. so dass falls eps ⇐⇒ n · eps 1 n · (n − 1) 2 ε . . .−1 ≈ n·|ε| ≤ n · eps 2 Ergebnis: Worst case error - Abschätzung: |sn /s − 1| ≈ n · eps – 25 – – 27 – Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Fehlerfortpflanzung Fehlerfortpflanzung Negatives Beispiel (d.h. Prinzip Hoffnung versagt) : Harmonische Reihe Theoretische Schranke des Fehlers im obigen Programm y0 y1 y2 y3 y4 .. . 1 n |(sn /s − 1)| = |(1 + ε)n |−1 = 1+n·ε+ Mathematik für Informatiker III Für yi +1 = fl(yi ∗ x) als |ε̃n+2 | ≤ eps sn = (1 + x + x 2 + · · · + x n )(1 + ε̃2n )n ≤ s(1 + ε)n ≤1 I für berechneter Wert von y im i-ten Schritt gilt: =1 =x = fl(y1 · x) = x 2 (1 + ε2 ) = fl(y2 · x) = x 3 (1 + ε2 )(1 + ε3 ) = x 3 (1 + ε̃3 )2 = fl(y3 · x) = x 4 (1 + ε̃2 )2 (1 + ε4 ) = x 4 (1 + ε̃4 )3 wobei|ε̃3 | ≤ eps yi = x i (1 + ε̃i )i −1 .. . ∞ X 1 i =1 i = ∞ (mathematisch, in exakter Arithmetik) 15.403 auf Griewank’s Laptop, in einfacher Genauigkeit (für alle hinreichend großen Summations-Schranken = Zahl der Terme) Frage: Was passiert? yn = x n (1 + ε̃n )n−1 Antwort: Die Summation bleibt irgendwann liegen, da die zusätzlichen Terme im Vergleich zur berechneten Teilsumme zu klein werden. – 26 – – 28 – Mathematik für Informatiker III Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Fehlerfortpflanzung Fehlerfortpflanzung Beispiel D.6 (Programm, das die harmonische Reihe summiert, bis die Partialsummen konstant bleiben:) Erklärung: REAL(KIND=1) salt,sneu,one salt = -1 ; sneu = 0 ; one = 1.0 ; n = 1 DO WHILE (sneu 6= salt) salt = sneu sneu = sneu+one/n n = n+1 END DO WRITE(*,*) sneu,n Betrachte kleinen Summanden y und großen Summanden PSfrag replacements x = 0.m1 m2 . . . ml · 2e so dass x = x + 2−l+e die nächst größere Gleitpunktzahl zu x ist und x = x − 2−l+e ist die nächst kleinere Gleitpunktzahl zu x. x x 2e−1 x 2e 2−l+e 2−l+e Ergebnis auf Griewank’s Laptop Konsequenz: Falls |y | < 1 2 2−l+e = 2−l−1+e gilt immer sneu n Laufzeit fl(x + y ) = x. Eine hinreichende Bedingung ist: |y | ≤ |x| · eps. – 29 – Mathematik für Informatiker III = 15.403 . . . = 2097152 ≈ 2 · 106 ≈ 16 Sekunde D.h. obiger Schleifenkörper wird in etwa 107 mal pro Sekunden ausgeführt (entspricht ca. 10 Megaflops, d.h. 10 Millionen Operationen/Sekunde.) – 31 – Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Fehlerfortpflanzung Fehlerfortpflanzung Vergleich zur theoretischen Herleitung Am Beispiel der harmonischen Reihe gilt nach (n − 1) Termen: x= n−1 X 1 i =1 i & Z n 1 n = 2097152 ergibt ln(n) ∗ n ∗ EPSILON(x) = 3.6 1 dz = ln(n). z Frage: Was passiert bei Ausführung des obigen Programms, wenn statt mit einfacher Genauigkeit (d.h. KIND=1) nun mit doppelt genauen Gleitkommazahlen (d.h. KIND=2) gerechnet wird? Also bleibt die Summation liegen (d.h. die Partialsummen wachsen nicht mehr weiter) wenn 1 |y | = ≈ ln(n) · eps n was auf jeden Fall gilt wenn n& Antwort: Das Programm läuft ewig, da eps−1 und damit dann auch n um Faktor 253 /224 ≈ 229 ≈ 12 109 gewachsen ist. 1 eps · ln(n) In Sekunden: 108 1 1 · · 109 s = h = 25 · 104 h = 25.000 Stunden 6 2 36 · 103 – 30 – ≈ 1000 Tage. – 32 – Mathematik für Informatiker III Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Rundungsfehlerabschätzung bei Riemann Rundungsfehlerabschätzung bei Riemann Verallgemeinerung der harmonischen Reihe: Riemannsche Zetafunktion ∞ X 1 ζ(x) = kx Partialsummen: ζn (x) = für x > 1 n P k=1 k=1 1 kx wachsen monoton mit n und sind nach oben durch x x−1 beschränkt, haben also einen eindeutigen Grenzwert ζ(x). Konvergenzbeweis mittels Integralschranke Praktische Notwendigkeit: Diskretisierung PSfrag replacements ∞ Z ∞ X 1 dy ≤ 1 + kx yx k=1 1 1 k −x = 1− Hier, wie häufig in numerischer Mathematik muss mathematisches Problem durch Ausführung endlich vieler Operationen auf endlich vielen Variablen annäherungsweise gelöst werden. Hier einfach Annäherung von ζ(x) durch ζn (x). Der entsprechende Abbruchfehler |ζ(x) − ζn (x)| kann hier einfach mit Hilfe einer Integralschranke abgeschätzt werden. Unabhängig vom in der Numerischen Analysis betrachteten Diskretisierungsfehler ist der Rundungsfehler zu berücksichtigen. y = 1+ 1 − x 1 −x+1 ∞ 1 x = 1−x x −1 – 33 – Mathematik für Informatiker III – 35 – Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Rundungsfehlerabschätzung bei Riemann Rundungsfehlerabschätzung bei Riemann Rundungsfehlerabschätzung bei Riemann ∞ X ∆ζn (x) = ζ(x) − ζn (x) = = ∞ X k=n+1 = 0− ⇒ k −x ≤ Z k k−1 ∞ −x − n X k ∞ ∞ k 1−x 1 = 1 − x k=n k 1−x (1 − x) k=n 1 1 = x−1 ≤ tol nx−1 (1 − x) n (x − 1) n ≥ s x−1 b1 + b2 + b3 + b4 . . . + bn+1 + bn = ... b1 + b2 1 + ε1 + b3 1 + ε2 + b4 1 + ε3 . . . + bn 1 + εn−1 n−2 n−1 n−2 1 + b2 1 + ε̃1 + b3 1 + ε̃2 + . . . + bn 1 + ε̃n−1 = b1 1 + ε̃1 =⇒ fl b1 + . . . + bn − b1 + b2 + . . . + bn i i h h n−1 n−1 ≤ b1 1 + eps − 1 + b2 1 + eps − 1 + . . . + bn 1 + eps ≈ b1 + b2 (n − 1) + (n − 2)b3 + (n − 3)b4 + . . . + bn eps fl k=1 k −x dk = n Für bi > 0 −x 1 tol(x − 1) ... Mit anderen Worten: Der an der j + 1-ten Stelle eingebrachte Summand wird (n − j) -mal in den Operationen von einer Rundung betroffen und trägt entsprechend zur Gesamtfehlerschranke bei. – 34 – – 36 – Mathematik für Informatiker III Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Rundungsfehlerabschätzung bei Riemann Konvergenzbeschleunigung (1. Stufe nach Wijngaard) Schlussfolgerung: Konvergenzbeschleunigung (1. Stufe nach Wijngaard) Um Rundungsfehler zu minimieren sollten Summen möglichst vom kleinsten zum größten Summanden gebildet werden. Bei konvergenten (hoffentlich monoton fallenden) Reihen sollte von hinten, d.h. rückwärts summiert werden. Beobachtung bei Riemann: ζ(x) = 1 + Beispiel D.7 (ζ(2) auf G’s Laptop in einfacher Genauigkeit:) ζ(2) = ∞ X k=1 1 1 1 1 +···+ + + + ··· x x x 2x 100 101 102 | {z } spätere Terme ändern sich nur langsam 2 π /6 = 1.6449340 . . . exakt 1.6447253 vorwärts bis. liegen bleiben n = 4097 Idee: Erste grobe Annäherung mit bk = 1 ≡ k2 1.6446900 rückwärts vom gleichen n = 4097 1.6449339 rückwärts mit n = 223 = 8388608 1 kx a1 = b1 + b2 · 2 + b4 · 4 + · · · + (b2i ) · 2i > ζ = b 1 + b2 + b3 + b4 . . . P Reihe der 2i b2i konvergiert viel schneller als bk . Die Korrektur erfolgt durch transformierte Terme Bemerkung: Durch Rückwärtssummation können deutlich mehr Summanden der Form 1/k − x mit n > 4097 ihren Beitrag zur Gesamtsumme leisten. Mehr Summanden zu benutzten bedeutet aber, den Diskretisierungsfehler zu verringern und damit den exakten Wert ζ(x) besser zu approximieren. aj = ∞ X i =1 b j 2i 2 i . – 37 – Mathematik für Informatiker III – 39 – Mathematik für Informatiker III Summation numerischer Reihen Summation numerischer Reihen Rundungsfehlerabschätzung bei Riemann Konvergenzbeschleunigung (1. Stufe nach Wijngaard) Abschätzung des Rundungsfehlers Vorwärts: Satz D.8 2 n n X X π π2 n 1 1 ≈ eps n − ln(n) ≈ eps·n· eps (n−k) = eps − 2 2 k k k 6 6 k=1 k=1 Satz: Für bk = k −x oder andere monoton konvergierende Reihen gilt im Grenzwert ∞ ∞ X X bk = (−1)j−1 aj . k=1 Rückwärts: eps Bemerkung n n X X 1 1 ≈ eps · ln(n) k = eps k2 k k=1 j=1 Bemerkung: Die neue Reihe ist alternierend, wobei a j ≥ bj , d.h. die einzelnen Terme gehen nicht schneller gegen Null als die der Ursprungsreihe. k=1 Vergleich: eps · n · π2 eps · ln(n) 6 – 38 – – 40 – Mathematik für Informatiker III Mathematik für Informatiker III Summation numerischer Reihen Lösung (nicht-)linearer Gleichungssysteme Konvergenzbeschleunigung (1. Stufe nach Wijngaard) D - 4 Lösung (nicht-)linearer Gleichungssysteme Idee des Beweises: Methoden zur Lösung des linearen Problemes Ax = b mit dim(x) = dim(b) = n Betrachte, wie oft bk in aj auftritt Vorz + − + − + − + P j\k 1 2 3 4 5 6 7 1 1 − − − − − − 1 2 2 1 − − − − − 1 3 − − 1 − − − − 1 4 4 2 − 1 − − − 1 5 − − − − 1 − − 1 6 − − 2 − − 1 − 1 7 − − − − − − 1 1 8 8 4 − 2 − − − 9 − − − − − − − 10 − − − − 2 − 2 11 − − − − − − − ......... 12 − − 4 − − 2 − I Cramersche Regel xi = (−1)i det(Ai )/det(A) für i = 1..n ( In Ai wird die i−te Spalte von A durch b ersetzt ) I Gauss-Elimination ≈ P A = LU Faktorisierung ( P Permutation, L unterhalb und U oberhalb dreiecksförmig ) Schmidt-Ortogonalisierung ≈ A = QR Faktorisierung ( Q orthogonal, R oberhalb dreiecksförmig ) Fixpunkt Iteration x ← x − M F (x) mit F (x) ≡ Ax − b ( M ∈ Rn×n angenäherte Inverse so dass M A ≈ I ) I I mit Vorzeichen Hinweise: Bemerkung I Bei Riemann können die ai = ai (x) sogar explizit berechnet werden. Für (eindeutige) Lösbarkeit ist überall det(A) 6= 0 vorrauszusetzen. Löse LUx = b bzw QRx = b durch Substitution/Transponierung. I Die letzte Methode lässt sich auch auf nichtlineares F (x) anwenden. I – 41 – Mathematik für Informatiker III – 43 – Mathematik für Informatiker III Summation numerischer Reihen Lösung (nicht-)linearer Gleichungssysteme Schlussfolgerungen aus dem Summationsbeispiel Schlussfolgerungen aus dem Summationsbeispiel I I I I I Linearisierung des ’Freistoss’ Beispieles Das nichtlineare System von 3 Gleichungen in 3 Unbekannten Die Behandlung mathematischer und anderer Modellierungsprobleme bedingt das Auftreten von Abbruchs- ≡ Diskretisierungsfehlern sowie Rundungsfehlern. Beide sollten abgeschätzt und möglichst minimiert werden. Gleitpunktarithmetik ist weder kommutativ noch assoziativ, distributiv usw. Spezielle Konsequenz: Betragsmäßig fallende Reihen von hinten summieren! Es ist erstaunlich einfach, an die Grenzen der Gleitpunkt- und Ganzzahlarithmetik zu stoßen. F1 (x1 , x2 , x3 ) = x1 ∗ x2 − 4.9 ∗ x12 − 2 F2 (x1 , x2 , x3 ) = 10 ∗ ln(1 + 0.1 ∗ x3 ∗ x1 ) − 25 F3 (x1 , x2 , x3 ) = (x2 − 9.8 ∗ x1 ) ∗ ( x13 + 0.1 ∗ x1 ) + = 0 = 0 = 0 √1 3 hat die Jacobimatrix i =1,2,3 ∂ ∂Fi F (x) ≡ ∂x ∂xj j=1,2,3 x1 x2 − 9.8 ∗ x1 x3 0 ≡ 1+0.1∗x1 ∗x3 1 z(x) x3 + 0.1 ∗ x1 F 0 (x) ≡ Viele Jobs (≡ Programme, Daten) laufen entweder im Sekundenoder Stundenbereich. Beobachtung der Abarbeitung im Minutenbereich ist relativ selten. Mathematisch endlich ist nicht gleich rechentechnisch endlich. mit z(x) ≡ −9.8 ∗ ( x13 + – 42 – x1 10 ) + 1 10 (x2 0 x1 1+0.1∗x1 ∗x3 1 − x2 −9.8∗x x2 − 9.8 ∗ x1 ) = 3 x2 10 − 9.8 1 x3 + 15 x1 – 44 – Mathematik für Informatiker III Mathematik für Informatiker III Lösung (nicht-)linearer Gleichungssysteme Lösung (nicht-)linearer Gleichungssysteme Linearisierung durch Jacobimatrix Warnung: Falls für F : Rn → Rn die n2 Komponenten der Jacobimatrix ∂ F (x) ≡ F (x) ≡ ∂x 0 ∂Fi ∂xj i =1,...,n I j=1,...,n I bezüglich jeder der Variablen x1 , . . . , xn Lipschitz-stetig sind, so lässt sich aus dem Hauptsatz der Differential- und Integralrechnung herleiten, dass für jeden Schritt s ∈ Rn gilt kF (x + s) − [ F (x) + F 0 (x) s ] k ≤ I γksk2 Das Verfahren muss abgebrochen werden wenn det(F 0 (x (k) )) null oder sehr klein ist. Im letzteren Falle werden die Schritte s (k) typischerweise sehr gross und führen häufig zu Argumenten x (k+1) wo F garnicht mehr ausgewertet werden kann. Zur Vermeidung dieses Problems wird s (k) manchmal mit einem Dämpfungsfaktor α(k) < 1 multipliziert, der dann Schrittweite genannt wird. Wir iterieren also effektiv Hierbei ist F 0 (x)s ein Matrix-Vektor Produkt und k · k ist eine Vektorbzw. Matrixnorm (siehe Abschnitt B-3) mit kF 0 (x) − F 0 (y )k ≤ x (k+1) = x (k) − α(k) F 0 (x (k) )−1 F (x (k) ) Die Bestimmung eines geeigneten α(k) heisst auch Strahlsuche (engl: Line Search). γkx − y k Fx (s) ≡ F (x) + F 0 (x) s ist als Funktion des variablen Vektors s die Linearisierung ( verallgemeinerte Tangente ) von F an der Stelle x. – 45 – Mathematik für Informatiker III – 47 – Mathematik für Informatiker III Lösung (nicht-)linearer Gleichungssysteme Lösung (nicht-)linearer Gleichungssysteme Newton’s Methode im Vektorfall Lokale Konvergenz von Newton Satz D.9 (Satz von Kantorovich) Setzt man die Linearisierung Fx (s) = F (x) + F 0 (x)s zu null so erhält man das lineare Gleichungssystem As = b mit A = F 0 (x) Sei die Vektorfunktion F : Rn → Rn einmal differenzierbar und besitze ihre Jacobimatrix F 0 (x) ∈ Rn×n die Lipschitzkonstante γ. Weiterhin sei x (0) ein Punkt an dem F 0 (x (0) ) regulär ist und somit eine Inverse F 0 (x (0) )−1 existiert. Mit k · k als induzierte Matrix-Norm folgt dann aus 1 0 (0) −1 2 F (x ) F (x (0) ) ≤ 2γ dass Newton’s Methode zu einer Lösung x (∗) mit F (x (∗) ) = 0 konvergiert. Die Konvergenzgeschwindigkeit ist quadratisch in dem Sinne dass für eine Konstante c und alle k gilt 2 (k+1) − x (∗) ≤ c x (k) − x (∗) x und b = −F (x) Die Lösung lässt sich ausdrücken als s = A−1 b = −F 0 (x)−1 F (x) und heisst Newtonschritt. Wiederholte Berechnung von s und anschliessende Inkrementierung x ← x + s ergibt Newton’s Methode x (k+1) ≡ x (k) + s (k) mit F 0 (x (k) ) s (k) = −F (x (k) ) für k = 0, 1, . . . Bemerkung: Hierbei zählt der hochgestellte Index (k) die Iterationen. – 46 – Je nichtlinearer ein Problem umso grösser ist γ und desto stärker ist damit die Bedingung an x (0) . Wird praktisch nie überprüft !!!! – 48 – Mathematik für Informatiker III Mathematik für Informatiker III Gewöhnliche Differentialgleichungen (ODE) Gewöhnliche Differentialgleichungen (ODE) Separable Differentialgleichungen D - 5 Gewöhnliche Differentialgleichungen (ODE) Seien G (y ) := (nach Hartmann, Mathematik für Informatiker) Z y y0 die Stammfunktionen von Definition D.10 (Gewöhnliche Differentialgleichungen (ODE)) 1 dy , g (y ) 1 g (y ) F (x) := Z x f (x)dx x0 bzw. f (x). Dabei wurden für Integrationsvariable und Obergrenze der Integration das gleiche Symbol verwendet. Eine Gleichung, in der neben der unabhängigen Variablen x und einer n gesuchten Funktion y = y (x) auch deren Ableitungen ddxyn = y (n) (x) bis zur Ordnung n auftreten, heisst Gewöhnliche Differentialgleichung n-ter Ordnung (ODE). 1 Auf J ist G 0 (y ) = g (y ) 6= 0 (Voraussetzung Satz D.12), daher ist G streng monoton und besitzt eine Umkehrfunktion G −1 . Sind ausserdem ein x0 aus dem Definitionsbereich von y (x) und zugehörige Werte y (x0 ), y (1) (x0 ), . . . , y (n−1) (x0 ) gegeben, so spricht man von einem Anfangswertproblem. Dann ist aber y (x) := G −1 (F (x)) die Lösung des Anfangswertproblems y 0 = f (x) g (y ), y (x0 ) = y0 . – 49 – Mathematik für Informatiker III – 51 – Mathematik für Informatiker III Gewöhnliche Differentialgleichungen (ODE) Gewöhnliche Differentialgleichungen (ODE) Separable Differentialgleichungen Separable Differentialgleichungen Probe: Separable Differentialgleichungen G (y (x)) = F (x) Definition D.11 (Separable Differentialgleichung) 1 g (y (x)) y 0 (x) = f (x) 0 =⇒ y (x) = f (x) g (y (x)) 0 Eine Differentialgleichung F (x, y , y ) = 0 erster Ordnung heisst separabel, wenn sie sich in der Form Anfangswert: y (x0 ) = y0 F (x0 ) = 0 =⇒ y (x0 ) = G −1 (F (x0 )) = G −1 (0) G (y0 ) = 0 =⇒ G −1 (0) = y0 y 0 = f (x) g (y ) darstellen lässt, wobei f : I −→ R, g : J −→ R stetige Funktionen auf den Intervallen I ⊆ R, J ⊆ R sind. =⇒ G −1 (0) = y0 = y (x0 ) Satz D.12 (Lösbarkeit: Anfangswertproblem separabler ODE) Satz D.13 Eine separable Differentialgleichung erster Ordnung mit der Anfangsbedingung y (x0 ) = y0 für x0 ∈ I , y0 ∈ J, hat im Intervall J eine eindeutige Lösung y (x) : I −→ J, falls g (y ) 6= 0 =⇒ G 0 (y (x)) y 0 (x) = F 0 (x) = Das Anfangswertproblem y 0 (x) = f (x) g (y ), mit Funktionen f : I −→ R, g : J −→ R, und dem Anfangswert y (x0 ) = y0 ∈ J, hat die eindeutige Lösung y , die man erhält, wenn man die folgende Gleichung nach y auflöst: Z x Z y 1 f (x)dx dy = y0 g (y ) x0 ∀y ∈ J. – 50 – – 52 – Mathematik für Informatiker III Mathematik für Informatiker III Gewöhnliche Differentialgleichungen (ODE) Gewöhnliche Differentialgleichungen (ODE) Lineare Differentialgleichungen erster Ordnung Lineare Differentialgleichungen n-ter Ordnung Lineare Differentialgleichungen erster Ordnung Lineare Differentialgleichungen n-ter Ordnung Definition D.14 (Lineare Differentialgleichung) Definition D.17 (Lineare ODE n-ter Ordnung) Differentialgleichungen, bei denen die Funktion y = y (x) und ihre Ableitungen nur in linearem Zusammenhang auftreten heissen Lineare Differentialgleichungen. Eine Differentialgleichung der Form y (n) + a1 (x) y (n−1) + · · · + an−1 (x) y 0 + an (x) y = f (x) Lineare Differentialgleichungen erster Ordnung haben die Form heisst lineare Differentialgleichung n-ter Ordnung. y 0 + a(x)y = f (x). Dabei sind die Funktionen f , ai : I −→ R auf dem Intervall stetig. Die ai heissen Koeffizientenfunktionen, f heisst Quellfunktion. Ist die Funktion f (x) ≡ 0 auf der rechten Seite identisch Null, so heisst die Gleichung homogen, sonst inhomogen. Ist f = 0, so heisst die Gleichung homogen, sonst inhomogen. Die Funktion F (x) auf der rechten Seite heisst Quellfunktion. – 53 – Mathematik für Informatiker III – 55 – Mathematik für Informatiker III Gewöhnliche Differentialgleichungen (ODE) Gewöhnliche Differentialgleichungen (ODE) Lineare Differentialgleichungen erster Ordnung Lineare Differentialgleichungen n-ter Ordnung Satz D.15 (Lösung homogener linearer ODE) Satz D.18 (Existenz und Eindeutigkeit der Lösung) Ist a(x) auf dem Intervall I stetig, so lautet die vollständige Lösung der linearen Differentialgleichung y 0 + a(x) y = 0 y (x) = c · e Sei y (n) + a1 (x) y (n−1) + · · · + an−1 (x) y 0 + an (x) y = f (x) −A(x) wobei c ∈ R und A(x) eine Stammfunktion von a(x) ist. eine lineare Differentialgleichung n-ter Ordnung mit a i , f : I −→ R und x0 ∈ I . Satz D.16 (Lösung inhomogener linearer ODE) Dann gibt es zu den Anfangswerten 0 Die inhomogen lineare Differentialgleichung y + a(x) y = f (x), f , a : I −→ R stetig, x0 ∈ I , besitzt die vollständige Lösung Z x f (t) e A(t) dt + c · e −A(x) y= y (x0 ) = b0 , y 0 (x0 ) = b1 , ... y (n−1) (x0 ) = bn−1 genau eine Lösung y = y (x) dieses Anfangswertproblems. Diese Lösung existiert auf dem ganzen Intervall I . x0 wobei c ∈ R und A(x) eine Stammfunktion von a(x) ist. – 54 – – 56 – Mathematik für Informatiker III Mathematik für Informatiker III Gewöhnliche Differentialgleichungen (ODE) Gewöhnliche Differentialgleichungen (ODE) Lineare Differentialgleichungen n-ter Ordnung Lineare Differentialgleichungen mit konstanten Koeffizienten Definition D.20 (Charakteristisches Polynom) Das Polynom Satz D.19 (Lösungsstruktur linearer ODE n-ter Ordnung) p(λ) := λn + a1 λn−1 + · · · + an−1 λ + an Die Menge H der Lösungen y : I −→ R der homogenen linearen Differentialgleichung y (n) + a1 (x) y (n−1) + · · · + an−1 (x) y 0 + an (x) y = 0 mit ai : I −→ R bildet einen reellen Vektorraum der Dimension n. heisst charakteristisches Polynom der homogenen linearen Differentialgleichung n-ter Ordnung mit konstanten Koeffizienten Eine Basis des Lösungsraumes H nennt man Fundamentalsystem. y (n) + a1 y (n−1) + · · · + an−1 y 0 + an y = 0. Jede Lösung y der inhomogenen Gleichung y (n) + a1 (x) y (n−1) + · · · + an−1 (x) y 0 + an (x) y = f (x) mit f : I −→ R hat die Form y = y s + yh Fortsetzung: Lösung des homogenen Systems Aus den Nullstellen λi , i = 1 . . . n mit p(λi ) = 0 des charakteristischen Polynoms kann ein Fundamentalsystem für die homogene Differentialgleichung n-ter Ordnung konstruiert werden. wobei xh ∈ H eine Lösung der homogenen und ys eine spezielle Lösung der inhomogenen Differentialgleichung ist. Dazu ist eine Fallunterscheidung nach der Vielfachheit der Nullstellen λ i nötig: – 57 – Mathematik für Informatiker III Mathematik für Informatiker III Gewöhnliche Differentialgleichungen (ODE) Gewöhnliche Differentialgleichungen (ODE) Lineare Differentialgleichungen mit konstanten Koeffizienten Lineare Differentialgleichungen mit konstanten Koeffizienten Lineare Differentialgleichungen mit konstanten Koeffizienten Für inhomogene lineare Differentialgleichungen n-ter Ordnung (siehe Definition D.17) existiert kein allgemeines Lösungsverfahren. y + a1 y (n−1) eλ x eine Lösung der Differentialgleichung. und e α x sin β x sind Lösungen der Differentialgleichung. λ ∈ R ist k-fache reelle Nullstelle x i eλ x , 0 + · · · + an−1 y + an y = 0 Lösungsansatz: Exponentialfunktion Dann ist e α x cos β x Lösung des homogenen Systems (n) λ ∈ R ist einfache Nullstelle λ = α + iβ ∈ C ist einfache komplexe Nullstelle Für den Fall konstanter Koeffizientenfunktionen ai (x) ∈ R kann jedoch ein Fundamentalsystem angegeben werden: y (x) = e λ x , – 59 – y (x) = e λx sind k linear unabhängige Lösungen. und damit λ = α + iβ ∈ C ist k-fache komplexe Nullstelle y 0 (x) = λ e λ x , y 00 (x) = λ2 e λ x , . . . , y (n) (x) = λn e λ x x i e α x cos β x, Einsetzen in die Differentialgleichung liefert λn e λ x + a1 λn−1 e λ x + · · · + an−1 λ e λ x + an e λ x (λn + a1 λn−1 + · · · + an−1 λ + an ) e λ x i = 0, . . . , k − 1 x i e α x sin β x, i = 0, . . . , k − 1 sind die 2k linear unabhängige Lösungsfunktionen. = = 0 Beispiel D.21 Siehe Hartmann, Mathematik für Informatiker, S.352 ff. – 58 – – 60 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Systeme von ODEs und ihre numerische Lösung Systeme von ODEs und ihre numerische Lösung D - 6 Euler Verfahren für Systeme von ODEs Systeme von ODEs und ihre numerische Lösung In vielen Anwendungen wird der Zustand eines Systems zum Zeitpunkt t durch einen Vektor > mit n > 0 x(t) = [x1 (t), x2 (t), . . . , xn (t)] beschrieben. Die Änderungsgeschwindigkeit ẋ ≡ dx(t)/dt des Zustandes nach der Zeit ergibt sich häufig als Funktion F (x(t)) mit F : Rn → Rn eben dieses Zustandes. Also erhalten wir das System gewöhnlicher Differentialgleichungen ẋ(t) = F (x(t)) kurz ẋ = F (x) Das System heisst autonom, da die Zeit t auf der rechten Seite nicht explizit, sondern nur mittelbar über x = x(t) vorkommt. Dieses ist keine Einschränkung da ein nichtautonomes System ẋ(t) = F (t, x(t)) sich autonom umschreiben lässt indem man t als nullte Zustandskomponente x0 (t) hinzufügt und somit für x̄ ≡ (x0 , x1 , . . . , xn )T erhält d ṫ ẋ0 1 = x̄ ≡ = ≡ F (x) ẋ ẋ F (x̄ ) dt Satz D.22 (Existenz und Eindeutigkeit der Lösung) Sei F : D ⊂ Rn −→ Rn in einem offenem Gebiet D lokal Lipschitz-stetig. Dann existiert für jeden Punkt yo ∈ D ein Intervall (a, b) 3 0 und eine eindeutige Lösung y (t) ∈ D der ODE ẏ = F (y ) für a < t < b mit y (0) = y0 . Bemerkung: (i) Für die Existenz einer Lösung ist die Stetigkeit von F hinreichend. Vorraussetzung von Lipschitz - Stetigkeit ist für die Eindeutigkeit der Lösung und die Konvergenz numerischer Verfahren erforderlich. (ii) Das Intervall (a, b) kann so gross gewählt werden, dass y (b) den Rand von D erreicht. – 61 – Mathematik für Informatiker III – 63 – Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Systeme von ODEs und ihre numerische Lösung Eulers Methode und andere explizite ODE-Löser Auch ODEs höhere Ordnungen lassen sich in Systeme von ODEs erster Ordnung umschreiben, indem man z.B. die erste Ableitung y 0 als neue abhängige Variable v ≡ y 0 definiert und dann y 00 durch v 0 ersetzt. So wird zum Beispiel aus einer nichtautonomen Differentialgleichung zweiter Ordnung y 00 = f (t, y , y 0 ) Eulers Methode und andere explizite ODE-Löser Die meisten ODEs haben keine geschlossen darstellbare Lösung. Die Lösung kann aber durch numerische Methoden mit (mehr oder weniger) beliebiger Genauigkeit approximiert werden. Numerische Approximationen sind auch alles, was zur Berechnung der mathematischen Standardfunktionen e x , sin x etc. zur Verfügung steht, da diese Funktionen als Lösung von ODEs definiert sind. das autonome System erster Ordnung in den drei Variablen y 0 ≡ t, y1 ≡ y und y2 ≡ y 0 0 y0 1 y10 = y2 y20 f (y0 , y1 , y2 ) Die einfachste numerische Methode zur Lösung von ODEs ist das Explizite (Vorwärts) Eulersche Polygonzugverfahren. Entsprechend lassen sich Anfangsbedingungen umschreiben. Die Umformulierung als System 1.Ordnung eröffnet die Möglichkeit numerische Standardmethoden und Software für die Lösung autonomer Systeme erster Ordnung mit Anfangsbedingungen zur Anwendung zu bringen. – 62 – – 64 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Eulers Methode und andere explizite ODE-Löser Explizite (Vorwärts) Euler-Methode Erläuterung Sei y (t) die exakte Lösung von ẏ (t) = f (t, y (t)) mit y (0) = y0 . Die angenäherte Lösung yT /h konvergiert gegen die exakte Lösung y (T ) der ODE wenn die Schrittweite h = T /n gegen Null geht. Das bedeutet aber dass die Anzahl der Eulerschritte und damit der Berechnungsaufwand gegen ∞ gehen. y y (T ) yn = yt/h exakter Wert y (k·h) Kann der Approximationsfehler kyT /h − y (T )k als Funktion der Schrittweite h = T /n dargestellt und somit zur Bestimmung einer vernünftigen Schrittzahl n genutzt werden? ẏ (k·h) =f (tk,yk) im k-ten Schritt ≡ Anstieg der Tangente ẏ (t) der Lösung berechneter Wert y (t) in tk yk y (0) = y0 h 2h 3h tk =k ·h T Frage: Antwort: JA! Im vorliegenden speziellen Fall gilt yT /h 1 lim −1 = − 12 T λ2 h→0 y (T ) h t Gesucht wird also yk ≈ y (tk ) für k = 0, . . . , Th mit tk = k · h: und somit erfüllt der Fehler yk+1 ≡ yk + h f (tk , yk ) ≈ y (tk+1 ) yT /h − y (T ) = h(− 12 T λ2 ) + O(h2 ) – 65 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Eulers Methode und andere explizite ODE-Löser Beispiel D.23 (Autonome lineare ODE) Beweis. mit λ ∈ R und y0 = 1 ẏ = λy Anwendung von Eulers Methode: lim h→0 y1 = y0 + h λy0 = (1 + h λ)y0 y2 = y1 + h λy1 .. . = (1 + λh)k y0 .. . = (1 + λh)n y0 = (1 + h λ)y1 yk yn – 67 – = = (1 + h λ)2 y0 = (1 + λh)k T y (T ) = e λT ≡ lim (1 + λh) h = lim h→0 T Tλ lim e −λT (1 + λh)T λ/λh − 2 ln(1 + λh) + h→0 h h(1 + λh) = λ λ λ2 h 1 lim T −− + + h→0 2h (1 + λh) (1 + λh) (1 + λh)2 T y (t) = exp(λ t) ergibt am Endpunkt T n→∞ 1+λ T n n d T /h ln(1+λh) lim e −λT dh e h→0 = = (1 + λh) h Vergleich mit exakter Lösung: e −λT (1 + λh)T /h − 1 h = − 21 T λ2 – 66 – – 68 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Eulers Methode und andere explizite ODE-Löser Explizite (Vorwärts) Euler-Methode Sei y (t) die exakte Lösung von ẏ (t) = f (t, y (t)) mit y (0) = y0 . Folgerung D.24 (Approximationsfehler der Euler-Methode) y Für alle Lipschitz-stetigen Probleme (d.h. die rechte Seite F (t, y , ẏ ) der ODE ist Lipschitz-stetig) liefert das Euler-Verfahren eine numerische Lösung mit yT /h − y (T ) = c(T ) h + O(h2 ). y (T ) yn = yt/h exakter Wert y (k·h) ẏ (k·h) =f (tk,yk) im k-ten Schritt ≡ Anstieg der Tangente ẏ (t) der Lösung berechneter Wert y (t) in tk yk y (0) = y0 Deshalb nennt man diese Methode auch Verfahren erster Ordnung: Die Verdopplung der Approximationsgenauigkeit durch Halbierung der Schrittweite h verdoppelt den Berechnungsaufwand. h 2h 3h tk =k ·h T t Gesucht wird also yk ≈ y (tk ) für k = 0, . . . , Th mit tk = k · h: yk+1 ≡ yk + h f (tk , yk ) ≈ y (tk+1 ) – 69 – Mathematik für Informatiker III – 71 – Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Eulers Methode und andere explizite ODE-Löser Runge-Kutta Verfahren der Ordnung 2 und 4 Frage: Mittelpunkt-Regel Gibt es Verfahren der Fehlerordnung p so dass p kyn − y (T )k = c(T )h + O(h p+1 ) I tk+1/2 = tk + 0.5 hk ; I yk+1/2 = yk + 0.5 hk f (tk , yk ) yk+1 = yk + hk f (tk+1/2 , yk+1/2 ) I gilt und damit die Halbierung der Schrittweite h zu einer Reduktion des Fehlers um den Faktor ( 12 )p führt ? Runge-Kutta 4 (Standardwahl) Anwort: JA! I p=2 p=4 Mittelpunkt - Regel oder Heun’sches Verfahren Runge-Kutta 4. Ordnung p=5 Runge-Kutta-Fehlberg tk+1 = tk + hk I I I I – 70 – tk+1/2 = tk + 0.5 hk ; tk+1 = tk + hk yk+1/4 = yk + 0.5 hk f (tk , yk ) yk+1/2 = yk + 0.5 hk f (tk+1/2 , yk+1/4 ) yk+3/4 = yk + hk f (tk+1/2 , yk+1/2 ) yk+1 = yk + hk 6 f (tk , yk ) + 2f (tk+1/2 , yk+1/4 ) + 2f (tk+1/2 , yk+1/2 ) + f (tk+1 , yk+3/4 ) – 72 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Eulers Methode und andere explizite ODE-Löser Frage: Visualisierung der Verfahrensordnung Wie kann die Schrittweite in Hinblick auf den geschätzten Fehler gewählt werden? Für einen beliebigen numerischen Integrator folgt aus der vorrausgesetzten Beziehung Antwort: kyT /h − y (T )k = c(T )hp + O(hp+1 ) ≈ c(T )hp Durch Vergleich der Ergebnisse für verschiedene Schrittweiten h oder verschiedener Methoden. durch Logarithmierung, dass − log kyT /h − y (T )k Beispiel D.25 (Mittelpunkt - Regel) ≈ p(− log(h)) − log(c(T )) Die linke Seite ist ein Maß der korrekt berechneten Dezimalstellen in der Lösung. Sie ist nun annäherungsweise eine affine Funktion von − log(h) also eine Gerade, deren Steigung gerade die Ordnung p der Methode ist. Um die Ordnung eines Verfahrens zu prüfen kann man die Schrittweite zum Beispiel wie hk = T /2k für k = 1, 2 . . . variieren und die entsprechenden Fehler − log kyT /hk − y (T )k über den Abzissenwerten −log (hk ) = k log(2) − log(T ) auftragen. yn = y (T ) + c(T ) h2 + O(h3 ) y2n = y (T ) + c(T ) 14 h2 + O(h3 ) =⇒ yn − y2n = c(T ) 34 h2 + O(h3 ) =⇒ c(T ) ≈ =⇒ ky2n − y (T )k ≈ – 73 – Mathematik für Informatiker III 4 yn 3 − y2n h2 4 3 ky2n ≡ c̃(T ) − yn k ist eine Fehlerabschätzung für die Mittelpunktregel. – 75 – Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Eulers Methode und andere explizite ODE-Löser Folgerung D.26 (Einfache Schrittweitensteuerung) Visualisierung der Verfahrensordnung Euler Mittelpunkt-Regel Wenn die numerische Lösung mit einer absoluten Genauigkeit von τ > 0 gewünscht wird, dann wählt man bei der Mittelpunktsregel p h = 2 τ /c̃(T ) Runge-Kutta 4.Ordnung 30 Euler Midpoint RK-4 25 Allgemeiner empfiehlt sich für ein Verfahren der Ordnung p p h = p τ /c̃(T ) 20 15 Hierbei ist die Fehlerkonstante c̃(T ) STARK vom Verfahren abhängig. Nimmt man dennoch an, dass für Euler, Mittelpunkt und Runge-Kutta 4 die c = c(T ) ähnlich gross sind, so ergeben sich Rechenaufwände von p p 4 · 4 c/τ 1 · c/τ, 2 · c/τ , 10 5 Auswertungen der rechten Seite. Bei grösserer geforderter Genauigkeit, also kleinerem τ sind Verfahren höherer Ordnung zu bevorzugen, vorrausgesetzt die rechte Seite der ODE ist p mal differenzierbar. 0 0 2 4 6 8 10 12 – 74 – – 76 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Langzeitverhalten von ODE – Lösungen Numerische Integration von Systemen Langzeitverhalten von ODE – Lösungen Runge-Kutta Methoden sind direkt auf Systeme ẏ (t) = f (y (t)) ∈ Rn bzw ẏ (t) = f (t, y (t)) ∈ Rn Bemerkung zum Langzeitverhalten anwendbar. Während die unabhängige Variable t und die entsprechenden Schrittweiten h Skalare bleiben, sind alle anderen Grössen jetzt Vektoren der Länge n. Die Euler Rekursion Häufig ist von Interesse (z.B. in der Klimavorhersage), wie sich Lösungen y (t) der ODE ẏ = F (y ) für sehr grosse t qualitativ verhalten, und zwar unabhängig vom Anfangswert y (t0 ) = y0 . D.h. man will wissen, ob das dynamische System sich einschwingt, einen Gleichgewichtszutand erreicht, zufälliges (d.h. chaotisches) Verhalten o.ä. zeigt. yk+1 = yk + hk F (tk , yk ) ∈ Rn erfordert also das h-fache des Richtungsvektors F (tk , yk ) ∈ Rn zu dem alten Zustandsvektor yk zu addieren, um den neuen Zustandsvektor yk+1 ∈ Rn zu erhalten. Es ist davon auszugehen, dass diese Vektormultiplikation und -addition vom Aufwand her gegenüber der Auswertung der Rechten Seite F (t, y ) vernachlässigbar ist. Die Konvergenzordnungen bleiben erhalten, wobei der Abstand zwischen der annähenden und der genauen Lösung jetzt als eine Vektornnorm kyT /h − y (T )k der Differenz zwischen yT /h und y (T ) zu bestimmen ist. Im folgenden machen wir Aussagen für autonome Systeme der Zustandsraumdimension n, die entspechend auch für nichtautonome Systeme der Dimension n − 1 gelten. – 77 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Euler Verfahren für Systeme von ODEs Eulers Methode und andere explizite ODE-Löser Langzeitverhalten von ODE – Lösungen (I) Falls n = 1 muss und sonst (n > 1) kann einer der beiden folgenden Fälle eintreten: Lineares Beispiel für Euler Das autonome System linearer Differentialgleichungen ẋ(t) −y (t) x(0) = mit = ẏ (t) x(t) y (0) (a) y (t) strebt einem stationären Grenzwert y∞ = lim y (t) zu t→∞ 1 0 Beispiel: ẏ = λ(y − a), y hat die analytische Lösung [x(t), y (t)] = [cos(t), sin(t)]. Die Anwendung der Eulermethode mit Schrittweite h ergibt xn −yn xn − hyn 1 −h xn xn+1 = +h = = yn+1 yn xn yn + hxn yn h 1 x1 cos(nα) − sin(nα) xn cos(α) − sin(α) = ρn =ρ sin(nα) cos(nα) yn y1 sin(α) cos(α) wobei ρ ≡ √ – 79 – 1+ h2 und α = arcsin(h/ p 1+ h2 ) a ∈ R, λ < 0, y0 beliebig y (t) = c e λt + a, c > 0 y∞ y (t) = c e λt + a, c < 0 . t – 78 – – 80 – Mathematik für Informatiker III Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Interpolation mit Polynomen und Splines Langzeitverhalten von ODE – Lösungen Interpolation mit Polynomen (Whd. 1.Semester) D - 7 Interpolation mit Polynomen und Splines (b) y (t) explodiert (blow up) ∗ lim ky (t)k = ∞ Interpolation mit Polynomen (Whd. 1.Semester) für endliche Zeit t (kritische Zeit) t→t ∗ ẏ = y 2 mit y (0) = y0 > 0 Z Z 1 1 dy 1 = dt =⇒ dy = dt =⇒ − = t + c =⇒ y (t) = − =⇒ y2 y2 y t +c y −1 >0 AW: y0 = c −1 =⇒ c = <0 y (t) = 1 1−t y0 y0 Beispiel: =⇒ y (t) = 1 y0 1 −t Satz D.27 (Lagrange - Interpolation) Sei R = R oder ein anderer Körper. Dann gilt: (i) Es existiert zu jeder Familie von Wertepaaren (xi , yi ) ∈ R × R für i = 0, 1, . . . , n mit unterschiedlichen “Abzissenwerten” x i 6= xj für i 6= j ein Interpolationspolynom P(x) vom Grad ≤ n, so daß für i = 0, 1, . . . , n. P(xi ) = yi (ii) Dieses Polynom ist eindeutig und läßt sich darstellen als n X (x − x0 ) . . . (x − xi −1 )(x − xi +1 ) . . . (x − xn ) yi P(x) = (xi − x0 ) . . . (xi − xi −1 )(xi − xi +1 ) . . . (xi − xn ) i =0 {z } | ≡Pi (x) t∗ t (iii) Insbesondere folgt aus yi = 0 für i = 0, . . . , n, dass alle Koeffizienten ci in P(x) = c0 + c1 x + c2 x 2 + . . . verschwinden, d.h. es gilt für i = 0, . . . , n. c =0 i – 81 – Mathematik für Informatiker III – 83 – Mathematik für Informatiker III Euler Verfahren für Systeme von ODEs Interpolation mit Polynomen und Splines Langzeitverhalten von ODE – Lösungen Interpolation mit Polynomen (Whd. 1.Semester) Beispiel – Lagrangepolynom (II) Asymptotisch periodische Lösung Falls die Zustandsdimension n = 2 ist muss, ansonsten kann y (t) sich asymptotisch einer periodischen Lösung y∗ (t) nähern, für die gilt xi 0 1 2 3 yi -1 2 1 0 y∗ (t + T ) = y∗ (t) für alle t > 0 und feste Periode T . Beispiel: siehe obiges Lineares Beispiel für Euler P(x) = (III) Chaotisches Verhalten Falls Dimension n > 2 (einschliesslich n = 2 im nichtautonomen Fall) kann die Lösung y (t) der ODE sich chaotisch verhalten, d.h. auch nach sehr langer Zeit lässt sich keine periodische oder stationäre Struktur erkennen. Beispiel: Lorenz - Attraktor (Übung 2) P(x) = – 82 – (x − 1)(x − 2)(x − 3) (0 − 1)(0 − 2)(0 − 3) (x − 0)(x − 2)(x − 3) + 2· (1 − 0)(1 − 2)(1 − 3) (x − 0)(x − 1)(x − 3) + 1· (2 − 0)(2 − 1)(2 − 3) (x − 0)(x − 1)(x − 2) + 0· (3 − 0)(3 − 1)(3 − 2) − 1· 2 3 19 x − 4 x2 + x − 1 3 3 2 1 1 2 3 −1 – 84 – Mathematik für Informatiker III Mathematik für Informatiker III Interpolation mit Polynomen und Splines Interpolation mit Polynomen und Splines Interpolation mit Polynomen (Whd. 1.Semester) Interpolation durch kubische Splines Warnung: Interpolationspolynome höherer Ordnung können zwischen den vorgegebenen 10 Datenpunkten sehr stark oszillieren, deshalb wendet man in der Numerik lieber aus Polynomen niederer Ordnung zusammengesetzte Funktionsmodelle an. =⇒ Cubic Splines, Finite Elemente. Eigenschaften kubischer Polynome Pi hat 4 freie Parameter und die Ableitungen 0 8 Pi (x) 6 Pi (x) 00 Pi (x) 000 Lagrange - Polynom 0000 Pi (x) = 3ai (x − xi −1 )2 + 2bi (x − xi −1 ) + ci = 6ai (x − xi −1 ) + 2bi = 6ai = 0 4 Für die Bestimmung der 4n Koeffizienten (ai , bi , ci , di ),i = 1, . . . , n, des gesuchten kubischen Splines P(x) sind genauso viele Gleichungen nötig. Diese werden aus vier verschiedenen Bedingungen, die die interpolierenden Polynome erfüllen müssen, hergeleitet. Kubischer Spline 2 PSfrag replacements 0 0 -2 2 4 6 8 x – 85 – – 87 – -4 Mathematik für Informatiker III Mathematik für Informatiker III Interpolation mit Polynomen und Splines Interpolation mit Polynomen und Splines Interpolation durch kubische Splines Interpolation durch kubische Splines Interpolation durch kubische Splines Interpolationsbedingung Gegeben: gemessene Datenpaare (xi , yi ), i = 0, . . . , n. Gesucht: manipulierbare Funktion P(x) mit P(xi ) = yi , i = 0, . . . , n. Pi (xi ) P1 (x0 ) = Pi +1 (xi ) = yi , = y0 Pn (xn ) = yn i = 1, . . . , n − 1 Ansatz Definiere die interpolierende Funktion P : [x0 , xn ] → R in jedem Teilintervall [xi −1 , xi ] als kubisches Polynom Pi , so dass für xi −1 ≤ x ≤ xi gilt: Mit ∆xi = xi − xi −1 folgt aus der Interpolationsbedingung für i = 1, . . . , n ai ∆xi3 P(x) = Pi (x) = ai (x − xi −1 )3 + bi (x − xi −1 )2 + ci (x − xi −1 ) + di , di = yi −1 = Pi (xi −1 ) + bi ∆xi2 + ci ∆xi + di = yi = Pi (xi ) . Das sind n mal 2 lineare Gleichungen in jeweils 4 Unbekannten. wobei die 4n Koeffizienten (ai , bi , ci , di ) für i = 1, . . . , n zu bestimmen sind. – 86 – – 88 – Mathematik für Informatiker III Mathematik für Informatiker III Interpolation mit Polynomen und Splines Interpolation mit Polynomen und Splines Interpolation durch kubische Splines Interpolation durch kubische Splines Steigungsbedingung 0 Berechnung der Koeffizienten bei natürlichen Splines 0 Gesamtbilanz i = 1, . . . , n − 1 Pi (xi ) = Pi +1 (xi ), Man erhält ein sehr strukturiertes lineares Gleichungssystem von 4n Gleichungen in ebenso vielen Unbekannten. Daraus folgen die n − 1 weiteren Bedingungen: 3ai ∆xi2 + 2bi ∆xi + ci = ci +1 , Reduktion auf ein lineares System in (n − 1) Variablen i = 1, . . . , n − 1 00 zi Es bleiben noch n + 1 Freiheitsgrade nach Erfüllung der bisher gefundenen 3n − 1 linearen Gleichungen. für i = 1, . . . , n − 1 = Pi +1 (xi ) = 2bi +1 00 z0 = P1 (x0 ) = 0 zn = Pn (xn ) = 0 00 Krümmungsbedingung 00 Lemma D.28 00 Pi (x) = Pi +1 (x), i = 1, . . . , n Aus (yi −1 , yi , zi −1 , zi ) ergeben sich die Koeffizienten (ai , bi , ci , di ) von Pi als Daraus folgen n − 1 weitere Bedingungen der Form 6ai ∆xi + 2bi = 2bi +1 , i = 1, . . . , n. di = yi −1 bi = zi −1 /2 ai = ci = zi −zi−1 6∆xi yi −yi−1 ∆xi − 16 (zi + 2zi −1 ) ∆xi – 89 – Mathematik für Informatiker III – 91 – Mathematik für Informatiker III Interpolation mit Polynomen und Splines Interpolation mit Polynomen und Splines Interpolation durch kubische Splines Interpolation durch kubische Splines Struktur des reduzierten Systems bei natürlichen Splines Insgesamt hat man nun 4n − 2 lineare Gleichungen in 4n Unbekannten, die fehlenden 2 Gleichungen werden durch spezielle Forderungen an P 1 und Pn im Anfangspunkt x0 bzw. Endpunkt xn erhalten. Diese beiden Bedingungen unterscheiden auch verschiedene Typen kubischer Splines: Mit αi = 2(∆xi + ∆xi +1 ) sowie Natürlicher kubischer Spline 00 00 00 00 P (x0 ) = P1 (x0 ) = 0 = Pn (xn ) = P (xn ) und 3an ∆xn + bn = 0 Periodischer kubischer Spline P1 (x0 ) = Pn (xn ), 0 0 P1 (x0 ) = Pn (xn ), 00 βi = ∆xi yi +1 − yi yi − yi −1 − ri = 6 ∆xi +1 ∆xi ist zur Bestimmung der zi , i = 1, . . . , n − 1, das folgende diagonaldominante symmetrische tridiagonale lineare Gleichungssystem zu lösen: z1 r1 α 1 β2 z 2 r2 β2 α 2 β3 z 3 r3 β α β 3 3 4 .. = .. .. .. .. . . . . . βn−2 αn−2 βn−1 zn−2 rn−2 βn−1 αn−1 zn−1 rn−1 Im Falle natürlicher Splines sind die letzten fehlenden Gleichungen also b0 = 0 und 00 P1 (x0 ) = Pn (xn ). – 90 – – 92 – Mathematik für Informatiker III Mathematik für Informatiker III Numerische Integration – Quadratur Numerische Integration – Quadratur Interpolatorische Quadraturformeln D - 8 Numerische Integration – Quadratur Summierte Trapezregel Gründe für numerische Integration I I Tn = h n Funktionen ohne geschlossen darstellbare Stammfunktion Stammfunktion nur durch sehr komplizierte Formel darstellbar I R 2 e −x dx R√ 1 − k 2 sin2 t dt 1 2 (f0 + fn ) + n−1 X i =1 fi # Approximationsfehler summierte Trapezregel Beispiele D.29 (Funktionen ohne geschlossenes Integral) I " Z b b−a 00 · hn2 · max |f (x)| f (x)dx − Tn ≤ a 12 x∈[a,b] Gauß’sche Glockenkurve Elliptisches Integral – 93 – Mathematik für Informatiker III – 95 – Mathematik für Informatiker III Numerische Integration – Quadratur Numerische Integration – Quadratur Interpolatorische Quadraturformeln Interpolatorische Quadraturformeln Interpolatorische Quadraturformeln Um eine Näherung des bestimmten Integrals Z b f (x)dx Kepler’sche Fassregel Ansatz: Quadratischer Spline g (x) durch die Punkte a+b (a, f (a)),( a+b 2 , f ( 2 )), und (b, f (b)) a zu berechnen, wird das Integrationsintervall [a, b] in n ∈ I gleichgrosse Teilintervalle [x0 , x1 ], . . . , [xn−1 , xn ] der Länge hn = b−a n unterteilt. Dabei gilt xi = a + i ∗ hn und insbesondere x0 = a und xn = b. Mit fi = f (xi ) wird der Funktionswert an der i-ten Stützstelle bezeichnet. g (x) = cx 2 + dx + e Durch geeignete Umformung des Ansatzes erhält man eine Berechnungsvorschrift ohne die Koeffizienten c, d und e des Splines g (x): Riemann’sche Summen Z b a f (x) ≈ n X f (xi )hn = i =1 Fehlerterm Riemann’sche Summen n X S0 = fi h n i =1 Z n b b−a X 0 · hn · max |f (x)| f (x) − fi h n ≤ a 2 x∈[a,b] b−a f (a) + 4f ( a+b ) + f (b) 2 6 i =1 – 94 – – 96 – Mathematik für Informatiker III Mathematik für Informatiker III Numerische Integration – Quadratur Numerische Integration – Quadratur Interpolatorische Quadraturformeln Quadratur mit Extrapolation – Romberg’s Verfahren Romberg Verfahren Zuerst wird für n = 1 die Trapezregel auf dem gesamten Integrationsintervall [a, b] ausgewertet. Der erhaltene Wert T 1 (d.h. Schrittweite h1 = b − a) wird als erster Eintrag R00 in die erste Zeile der Tabelle eingetragen. Mit halbierter Schrittweite h2 = h1 /2 wird T2 = R10 berechnet und in die erste Spalte der zweiten Zeile direkt unter R00 notiert: Simpson’sche Regel (Summierte Kepler’sche Fassregel) Anwendung der Fassregel auf die Teilintervalle der Länge hn = gerade, ergibt die Simpson’sche Regel: n −1 n/2 2 X X hn f2i + 4 f2i −1 Sn = f0 + f n + 2 3 i =1 b−a n , n i =1 Approximationsfehler summierte Simpson’sche Regel k n = 2k Rk0 0 1 1 2 R00 R10 R11 Daraus berechnet man den extrapolierten Wert R11 mittels Z b b−a · hn4 · max |f (4) (x)| f (x)dx − Sn ≤ a 180 x∈[a,b] R11 = 4R10 − R00 3 = S2 , was aber genau Simpsons Regel für n = 2 ergibt. – 97 – Mathematik für Informatiker III – 99 – Mathematik für Informatiker III Numerische Integration – Quadratur Numerische Integration – Quadratur Quadratur mit Extrapolation – Romberg’s Verfahren Quadratur mit Extrapolation – Romberg’s Verfahren Quadratur mit Extrapolation – Romberg’s Verfahren Für hinreichend oft differenzierbare Integranden f (x) beschreibt die Euler-Maclaurinsche Summenformel den Fehler der summierten Trapezregel Tn als Polynom in geraden Potenzen der Schrittweite hn : Tn = Z b f (x)dx + a N X Romberg Verfahren (Fortsetzung) Dieses Vorgehen kann in einer neuen Zeile der Tabelle fortgeführt werden. Die k-te Zeile erhält man dabei, indem zunächst die Trapezregel mit erneut halbierter Schrittweite hn = h2k (d.h. n = 2k ) ausgeführt wird und T2k als Rk0 in die erste Spalte eingetragen wird. α2k hn2k + O(hn2N+2 ) k=1 In den darauffolgenden k Extrapolationsschritten werden jeweils die Werte Rkj der k-ten Zeile für j = 1, . . . , k aus dem links stehenden Wert j−1 berechnet: Rkj−1 und dem links darüber stehenden Wert Rk−1 Die dabei auftretenden Koeffizienten α2k sind von hn unabhängige Konstanten. Damit können Fehlerterme von Quadraturformeln durch sog. Extrapolation zur Grenze/zum Limit eliminiert werden, in der Werte einer Quadraturformel bei unterschiedlichen Schrittweiten h n , n = n1 , n2 , . . . , kombiniert werden. Rkj = Bei geschickter Wahl der Extrapolation erreicht man eine Aufhebung von Fehlertermen kleiner Ordnung, so das der extrapolierte Wert eine deutlich genauere Approximation des gesuchten Integralwertes ist. j−1 4j Rkj−1 − Rk−1 1 j−1 j−1 = Rkj−1 + j Rk − Rk−1 j 4 −1 4 −1 j = 1, . . . , k Insgesamt ergibt sich damit das folgende Tableau: – 98 – – 100 – Mathematik für Informatiker III Mathematik für Informatiker III Numerische Integration – Quadratur Quadratur mit Extrapolation – Romberg’s Verfahren Romberg Verfahren (Fortsetzung) k n = 2k Rk0 = Tn Rk1 0 1 1 2 R00 = T1 R10 = T2 R11 2 3 4 8 4 .. . 16 .. . R20 = T4 R30 = T8 R40 = T16 .. . Rk2 ... R21 R31 R22 R32 R33 R41 R42 R43 Teil E Grundlagen der Optimierung Vorläufige Gliederung R44 .. . .. 1. 2. 3. 4. 5. 6. 7. 8. 9. . Als Abbruchbedingung eignet sich die Differenz zwischen den beiden zuletzt berechneten Diagonalelementen des Schemas. Falls mit einer vorgegebenen Grösse δ die Bedingung k−1 |≤δ |Rkk − Rk−1 erfüllt ist, dann wird das Verfahren beendet und Rkk als Näherung des Rb Integrals a f (x)dx betrachtet. Lineare Ausgleichsprobleme Grundklassen von Optimierungsproblemen Lineare Optimierungsprobleme (LP) mit Dualität Gemischte Programme mit Ganzzahligkeitsbedingung Nichtlineare Optimierungsprobleme mit Komplexität Nichtlineare Ausgleichsprobleme Klassen von Optimierungsverfahren Unrestringierte nichtlineare Optimierung Restringierte nichtlineare Optimierunmg – 101 – Mathematik für Informatiker III – 103 – Mathematik für Informatiker III Numerische Integration – Quadratur Quadratur mit Extrapolation – Romberg’s Verfahren Approximationsfehler Romberg-Verfahren Literaturhinweise I Für f ∈ C 2k+2 ([a, b]) gilt: Z b k − f (x)dx R ≤ (b − a)h12 h22 . . . h22k α2k+2 max |f (2k+2) | k x∈[a,b] a Walter Alt, Nichtlineare Optimierung. 1. Auflage, 2002, Vieweg. Schöne Kombination aus Theorie, Numerik und Anwendung ISBN: 3-528-03193-X wobei α2k+2 wiederum eine Konstante ist. Bemerkung Die auftretenden Konstanten αi ergeben sich als αi = Jorge Nocedal, Stephen J. Wright, Numerical Optimization. 1999, Springer-Verlag New York, Inc. Ein Standardwerk. ISBN: 0-387-98793-2 Bi , i! wobei die Bi die so genannten Bernoulli - Zahlen sind. Diese berechnen sich rekursiv aus # " i −1 X 2i − 1 Bk i −1 Bi = (−1) . + (2i)! 2(2i + 1) (2i − 2k + 1)!(2k)! k=1 – 102 – – 104 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung (Nicht)lineare Ausgleichsprobleme (Nicht)lineare Ausgleichsprobleme (Nicht)lineare Ausgleichsprobleme Normwahl Wir betrachten zunächst ein System A x = b, A ∈ Rm×n , b ∈ Rm Zur Messung der Größe von F wählt man häufig eine der Vektornormen aus Abschnitt B.3 von m linearen Gleichungen in n ≤ m Variablen. Wenn m > n nennt man das System überbestimmt, da es weniger freie Variablen xi für i = 1 . . . n gibt als Bedingungen, die an sie gestellt werden. Wenn m = n spricht man vom wohlbestimmten oder quadratischen Fall. Diese Unterscheidung macht eigentlich nur dann Sinn, wenn man folgende Annahme macht. kF kp = kAx − bkp mit p ∈ {1, 2, ∞} Hier bedeutet kF k1 die Summe der Komponentenbeträge |Fi | und kF k∞ ihr Maximum. Die Minimierung dieser beiden Normen führt auf lineare Optimierungsaufgaben mit Ungleichungsnebenbedingungen. Diese werden später betrachtet und sind im allgemeinen schwerer zu lösen als das Gaußsche Problem der kleinsten Quadrate (engl.: least squares), das sich ergibt, wenn man die Euklidische Norm kF k 2 minimiert. Vollrang-Vorraussetzung Die Matrix A ∈ Rm×n hat vollen Spaltenrang n = min(n, m), d.h. sie erfüllt die äquivalenten Bedingungen, dass ihre n Spalten linear unabhängig sind und man m − n Zeilen entfernen kann, so dass die verbleibende quadratische Matrix eine nichtverschwindende Determinante hat. – 105 – Mathematik für Informatiker III – 107 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung (Nicht)lineare Ausgleichsprobleme (Nicht)lineare Ausgleichsprobleme Fehlerminimierung Satz E.1 (Kleinste - Quadrate - Lösung) Für jedes lineare Gleichungssystem Ax = b mit A ∈ Rm×n , b ∈ Rm und rang (A) = n existiert ein eindeutiger Vektor x∗ ∈ Rn , so dass Beobachtung kAx∗ − bk2 = minn kAx − bk2 Im Falle m > n = rang (A) ist für fast alle rechten Seiten b ∈ Rm das System von Gleichungen Ax = b nicht exakt erfüllbar. x∈R Diese Ausgleichslösung erfüllt das quadratische, reguläre Gleichungssystem A> A x ∗ = A > b ∈ R n , Konsequenz Man versucht deshalb x so zu wählen, dass alle Komponenten des Fehlervektors F ≡ A x − b = (Fi )i =1...m welches als Normalengleichungssystem bezeichnet wird. Bemerkung so klein wie möglich sind, d.h. man versucht einen Ausgleich zwischen den m eigentlich als Gleichungen gedachten Bedingungen zu schaffen. Wenn die Vollrangvorraussetzung verletzt ist, existiert eine unendliche Menge von Vektoren, die sowohl das Minimerungsproblem lösen als auch die entsprechende Normalengleichung erfüllen. – 106 – – 108 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Allgemeine lineare Funktionenapproximation Allgemeine lineare Funktionenapproximation Allgemeine lineare Funktionenapproximation Spezialfall: Gaußsche Ausgleichspolynome Wählt man als Ansatzfunktionen uj (x) = x j−1 , so ergibt sich das Polynom n X zj x j−1 u(x) = Betrachte ein System von n vorgegebenen Ansatzfunktionen uj (x) : [a, b] → R für j = 1...n j=1 mit dem gemeinsamen Definitionsbereich [a, b]. Weiterhin betrachte m ≥ n unterschiedliche Stützstellen xi ∈ [a, b] und entsprechende Daten yi ∈ R für i = 1, . . . , m. Gesucht sind nun n Koeffizienten zj , so dass die Linearkombination u(x) ≡ n X Die Vollrangbedingung rang (A) = n ist für paarweise verschiedene Stützstellen xj erfüllt, da die ersten n Zeilen von A die folgende Vandermondsche Determinante haben: 1 x1 . . . x1n−1 n−1 n k−1 Y 1 x 2 . . . x Y 2 (xk − xj ) 6= 0. det . . = . . . . . . . k=2 j=1 1 xn . . . xnn−1 zj uj (x) j=1 die sog. mittlere Abweichung ∆2 möglichst klein werden lässt: ∆2 ≡ " m X i =1 (u(xi ) − yi ) 2 # 12 . – 109 – Mathematik für Informatiker III – 111 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Allgemeine lineare Funktionenapproximation Allgemeine lineare Funktionenapproximation Zur Berechnung der Lösung mit kleinsten Fehler-Quadraten muß die Normalgleichung A> A z = A> y gelöst werden. Lösung der Gaußschen Ausgleichsaufgabe Aus den Vektoren Lemma E.2 aj = (uj (x1 ), uj (x2 ), . . . , uj (xm )) Die Normalenmatrix A> A ∈ Rn×n ist symmetrisch und positiv semi-definit. > Unter der Vollrangvorraussetzung ist A> A sogar positiv definit. bilden wir die Matrix A = [a1 , . . . , an ] und mit y = (y1 , y2 , . . . , ym )> und Bemerkung: z = (z1 , z2 , . . . , zn )> Wegen der positiven Definitheit der Matrix A> A kann man das Normalgleichungssystem mit dem sogenannten Cholesky - Verfahren lösen. Dieses ist eine pivotierungsfreie Version des Gaußschen Verfahrens, das die Symmetrie der Matrix ausnutzt und dadurch den Berechnungsaufwand halbiert auf n 3 /6 Multiplikationen gefolgt von Additionen/Subtraktionen. Allerdings kostet die Berechnung von AT A aus A bereits m n2 Operationen, was durch die QR Zerlegung vermieden werden kann. ist zur Lösung der Ausgleichsaufgabe das Funktional kF (z)k2 = kAz − y k2 zu minimieren. Das heisst aber nichts anderes, als eine Lösung z∗ des (überbestimmten) Gleichungssystems Az = y mit kleinsten Fehlerquadraten zu finden. – 110 – – 112 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Allgemeine lineare Funktionenapproximation Allgemeine lineare Funktionenapproximation QR Faktorisierung Zur Berechnung der QR Zerlegung Wendet man das in Abschnitt B.7 behandelte Gram-Schmidt Orthogonalisierungsverfahren auf die n Spaltenvektoren a j von A an so ergibt sich daraus eine Folge von ebenso vielen orthonormalen Vektoren q j . Ausserdem existiert nach Konstruktion der qj die Darstellung aj = j X qk rkj I Es lässt sich leicht prüfen, dass die Zerlegung von A ∈ Rm×n in das Produkt einer orthogonalen Matrix Q und einer Dreiecksmatrix R mit positiven Diagonalelementen eindeutig ist. I Es gibt ausser dem Gram-Schmidt Verfahren andere Methoden, mit denen die QR Zerlegung berechnet werden kann. Zum Beispiel könnte man R aus der Cholesky Faktorisierung von AT A gewinnen und dann Q = AR −1 setzen. Als effektiv und gegenüber Rundungsfehlern sehr stabil gilt die sukkzessive Reduktion von A mit Hilfe sogenannter elementarer Reflektoren oder Householdermatrizen. für j = 1, . . . , n k=1 I wobei die diagonalen Elemente rjj für j = 1, . . . n alle positiv sind. Fasst man nun die qj als Spalten zu einer orthogonalen Matrix Q = [q1 , q2 , . . . , qn ] ∈ Rm×n zusammen und ergänzt die Koeffizienten rkj durch Nullen zu einer oberhalb dreiecksförmigen Matrix R ∈ Rn×n , so hat man für A die Faktorisierung A = QR Hinweis Für die kleinen Aufgaben in Übung 3.1 kann das Gram-Schmidtsche Orthogonalisierungsverfahren angewandt oder noch einfacher die Normalengleichung explizit gebildet und mittels Gaußscher Elimination ohne Pivotierung gelöst werden. mit Q T Q = I ∈ Rn×n – 113 – Mathematik für Informatiker III – 115 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Allgemeine lineare Funktionenapproximation Allgemeine lineare Funktionenapproximation Vereinfachte Normalengleichung Bemerkung Wesentlich für die Anwendbarkeit der linearen Gaußschen Ausgleichsrechnung ist, daß für die zu bestimmenden Größen eine lineare Beziehung gegeben ist, z. B. y (x) = a + bx. Aus der Orthogonalität ergibt sich unmittelbar AT A = (QR)T (QR) = R T Q T QR = R T R Ist die gegebene Beziehung (etwa aus physikalischen Gründen) nichtlinear, so kann man versuchen, aus ihr eine lineare Beziehung für unter Umständen andere Größen zu gewinnen, aus denen sich dann nachträglich die eigentlich gesuchten Größen bestimmen lassen. und die Normalengleichung reduziert sich erst zu R T Rx∗ = R T Q T b Beispiel E.3 und letztlich zu Rx∗ = Q T b y (x) = was sehr billig lösbar ist. – 114 – 1 b 1 a =⇒ + x = = ỹ = ã + b̃x 1 + bx a a y (x) – 116 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Lineare Optimierung I lineare Optimierungsprobleme I Polyeder Simplex-Algorithmus I I I I I Variablen: x1 : Anzahl Daiquiris x2 : Anzahl Kamikazes x3 : Anzahl Long Island Ice Teas Zielfunktion: Maximiere die Einnahmen: max 5.50x1 + 4.50x2 + 7.00x3 Dualität kombinatorische ganzzahlige lineare Optimierungsprobleme Nebenbedingungen: Branch & Bound Schnittebenenverfahren Weißer Rum: Cointreau: Gin: Wodka: 45x1 30x1 + 30x2 30x2 + 20x3 + 20x3 20x3 + 20x3 ≤ ≤ ≤ ≤ – 117 – Mathematik für Informatiker III – 119 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Einführendes Beispiel: Barkeeper Optimierungsproblem: Cocktails: I I I 5000 6000 3000 4000 T 5.50 max 4.50 x 7.00 45 20 30 30 20 x ≤ 20 30 20 Daiquiri (45 ml weißer Rum, 30 ml Cointreau, 30 ml Zitronensaft, 15 ml Zuckersirup, Eis), 5.50 Euro Kamikaze (30 ml Wodka, 30 ml Cointreau, 30 ml Zitronensaft, 1 Schuß Limonensirup, Eis), 4.50 Euro Long Island Ice Tea (20 ml Wodka, 20 ml weißer Rum, 20 ml Gin, 20 ml Cointreau, 4 TL Zitronensaft, 4 TL Orangensaft, 1/8 l Cola, 1 Orangenscheibe, Eis), 7.00 Euro Schreibweise: ≤ bei Vektoren u, v ∈ Vorhandene Spirituosen: 5 l weißer Rum, 6 l Cointreau, 4 l Wodka und 3 l Gin 5000 6000 3000 4000 n u ≤ v :⇐⇒ ∀i = 1, . . . , n : ui ≤ vi Welche Cocktails muß der Barkeeper mixen, um möglichst viel Geld einzunehmen? (≥, <, > analog) – 118 – – 120 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Weiteres Beispiel: Tschebyscheffsche Approximationsaufgabe Lösung mit MATLAB: >> A = [ [ 45, 0, 20 ]; [30, 30, 20 ]; [ 0, 0, 20 ]; [ 0, 30, 20 ] ] A = 45 30 0 0 0 30 0 30 20 20 20 20 Überbestimmtes lineares Gleichungssystem Ax = b, A ∈ b = 6000 3000 min kAx − bk∞ 4000 x >> c = [- 5.5, -4.5, -7 ] c = -5.5000 -4.5000 ,m>n Lösung mit kleinstem Fehler: >> b = [ 5000, 6000, 3000, 4000 ] 5000 m×n -7.0000 in der Norm kAx − bk∞ >> x = linprog( c, A, b ) Optimization terminated. x = 44.4444 33.3333 150.0000 X n = max aij xj − bi i =1,...,m j=1 (siehe lineare Ausgleichsprobleme in 1) – 121 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Lineare Optimierungsprobleme Umformulierung: zusätzliche Variable δ ∈ min δ x,δ X n ≤δ a x − b ij j i j=1 Definition E.4 Optimierungsprobleme mit linearer Zielfunktion und linearen (Gleichungsund Ungleichungs-) Nebenbedingungen nennt man Lineare Optimierungsprobleme, Lineare Programme, LPs. Auflösung der Beträge ergibt ein LP: Allgemeinste Form: max c T x Ax + Cx + Ex + – 123 – + dT y By ≤ Dy ≥ Fy = x ≥ a b g 0 min δ Zielfunktion ≤-Ungleichungen ≥-Ungleichungen Gleichungen vorzeichenbeschränkte Variablen x,δ n X j=1 n X j=1 – 122 – aij xj − bi ≤ δ aij xj − bi ≥ −δ – 124 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Transformationen Folgerung E.5 Man kann jedes allgemeine LP in der Standardform 1. min-Probleme werden zu max-Problemen, indem man die Zielfunktion mit −1 multipliziert: T max c T x Ax = b x ≥0 T min c x ⇐⇒ max −c x oder in der Form 2. ≥-Ungleichungen werden zu ≤-Ungleichungen, indem man sie mit −1 multipliziert: Ax ≥ b ⇐⇒ −Ax ≤ −b max c T x Ax ≤ b schreiben. 3. Gleichungen kann man durch Paare von Ungleichungen ersetzen: Ax ≤ b Ax = b ⇐⇒ Ax ≥ b Bemerkung E.6 Natürlich kann man auch Nebenbedingungen und Variablen skalieren. Das ist wichtig bei der numerischen Behandlung. – 125 – Mathematik für Informatiker III – 127 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Transformationen 4. Ungleichungen kann man durch Einführung von Schlupfvariablen zu Gleichungen machen: Ax + s = b Ax ≤ b ⇐⇒ s ≥0 Wir betrachten im folgenden lineare Programme der (allgemeinen) Form max c T x Ax ≤ b 5. Vorzeichenunbeschränkte Variablen kann man in Paare von vorzeichenbeschränkten Variablen aufsplitten: x = y − z, y ≥ 0, mit A ∈ z ≥0 m×n ,b∈ m ,c∈ n ,x∈ (P) n . 6. Die Vorzeichenbeschränkungen kann man (formal) zu den anderen Ungleichungen hinzunehmen: b A Ax ≤ b x≤ ⇐⇒ 0 − x ≥0 – 126 – – 128 – # ! ' ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ " %$ & & ¡ " ¡ ¡ ¡ ' ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ( ( # . 10 ' 2 -, ¡ íì , - 4 , - , - +* & & ¡ ¡ ¡ ¡ ( ( ) 6 +* , - , - , - , - , /. . ;: ÿþ þ 10 =< Æ Ç Æ Ç Æ Ç ûú ú ?> 32 2 ù ùø ø ÷ ÷ö ö ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ( ( ) 54 @ 4 A íì Å ÄÅ Ä Ä õô 6 6 +* - , - , - , - , - , - , - , - 7 , - 7 óò , - CB , - , - , - , - , - , - Ð Ñ Ð Ñ Ð Ñ ñ ñð ð Ð Ñ Ð , - , - , - , - Ð Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ , - Ð Ñ , - íì /. . ;: GF F ëêéè çæ ÿþ þ Á ÀÁ À À 10 =< IH å åä ä ýü ü ãâ ûú ú ?> KJ 2 2 ù ùø ø áà ÷ ÷ö ö ¡ ¿ ¡ ¿¾ ¡ ¾ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ßÞ 54 @ 4 A M ML L ÝÜ õô ÛÚ Ú 6 6 óò CB ON , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - ¯ Ø P î íì S ÓÒ þ < UT ü ¹ Î ú WV ¸ ö L YX ÝÜ - , - Z ð º ¬ ­ ¬ ­ » »º ® Ð Ñ Ð Ñ ÑÐ Ð çæ þ IH å åä ä ü ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ÏÎ ãâ ú ÍÌ KJ ¹ ¹¸ ËÊ áà ÷ ÷ö « «ª ª ¡ ¡ ¾ ¡ ¾ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ßÞ @ A M ML ÉÈ ÇÆ Æ ÅÄ ÛÚ Ú B ON , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , · ·¶ ¶ ¶ ® ® ð ð Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ã Ð Ñ ÃÂ Ð Ñ Â Ð Ñ Ð Ñ Ð Ñ ÙØ Ø © ©¨ ¨ ED QP \ P ^ \ _^] _] ×Ö î î ÕÔ ¿ ¿¾ ¾ ¡ µ µ´ ´ R R S ` S ` a a êè ½ ½¼ ¼ ÓÒ º º Ñ ÑÐ Ð çæ »º º UT b b c å åä ä ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ Î ÏÎ § §¦ ¦ ¦ ³ ³² ² ² ãâ ¢ ¢ £ £ · ·¶ ¶ ÍÌ WV d d e e ¹ ¹¸ ¸ µ´ ´ ËÊ à ª ª ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Þ ³² ÉÈ YX gf ¤ ¥ ¤ ¥ ±° ¤ ¥ ° ÇÆ Æ ± ±° ° ¥ ¥¤ ¤ ÅÄ N Z [ ih , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - ­¬ ¬ ¶ ¶ ¶ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ã Ð Ñ ÃÂ Ð Ñ Â Ð Ñ Ð Ñ Ð Ñ ÙØ Ø ¯® © ©¨ ¨ QP \ P ^ \ _^] _] kj ÀÁ Ö « «ª ª ¯ ®¯ ® ¦§ ÕÔ ¿ ¿¾ ¾ ¡ ©¨ £ £¢ ¢ ¢ ´ ´ R R S ` S ` a a ml l §¦ ½ ½¼ ¼ Ñ ÑÐ Ð »º º T b b c n n o o ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ Î Î ¦ ¦ ¦ ¸¹ ­ ¬­ ¬ ¨© ³ ³² ² ² ¢ ¢ · ·¶ ¶ Ì p p q %$ ¡ ¡ d d e e µ´ ´ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ³² È gf r r s )( ( « «ª ª «ª ¤ ¤ ±° ¤ ° ÇÆ Æ * * + + ° ° ¤ ¤ ÅÄ ut ih , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - , - ­¬ ¬ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ã Ð Ñ ÃÂ Ð Ñ Â Ð Ñ Ð Ñ Ð Ñ ¯® kj wv v ¬ © ¨© ¨ ­ ­¬ « «ª ª ¾ ¾ ©¨ ¢ ¢ ¢ ` ` ml l x x y y §¦ ¼ ¼ ¤¥ § §¦ ¦ ¦ b b n ¯® n o o {z ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ ¢£ ¢ · ·¶ ¶ p p q }| %$ d d µ´ ´ '& ³² ( ° + ¬ Ñ ¢ Ð Ñ Ð Ñ Ð Ñ Ð Ñ ²³ ² kj wv ¬ ­ ­¬ ª ©¨ ml l x x y y ¡ µ ´µ ´ § §¦ ¦ ¦ n ¯® n {z ¹ p p q }| $ '& ¶· ¤ ¤ ¤ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ° ° ~ ( )( * * + Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ ¬ Ð ±° £ Ð Ñ ¢£ Ð Ñ ª ¡ ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹¸ Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ wv v x x º» º z ¹ }| ¼½ ¼ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Ñ ( Ð ¹ ¸ ¹ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð ¸ ¸ ¹ ¸ ¹ Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ð Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ ¸ ¹ ¸ ¹ ¸ ¸ ¹ ¸ ¹ Ñ ¸ ¹ Ð Ñ Ð Ñ Ã ÄÅ Ä ¾ ÀÁ ¹¸ ¿¾ t h v ª ª ª ut ¡ ¡ ¤ ¡ ¡ ¡ r ±° r s ° ~ ¥ ¤ ¥ ¤ ¥ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ç ÆÇ Æ ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ ÉÈ Â ÊË Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ì ÍÌ ÏÎ Î ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ ÉÈ ÓÑÒÐ ~ ~ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ ÔÕ Ì ÍÌ ~ ~ ~ } }| | Ö× ÏÎ Î ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ | | } } { {z z ÙØ Ø ÒÐ z z { { Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ú ÛÚ x y yx x y x y x y ~ ~ ~ | | Ý ÝÜ Ü ßÞ ÙØ Ø áà à Ú Ú ãâ â Ý ÝÜ Ü X ¸ w ¸ ¹ wv wu ¸ ¹ v wvut ¸ ¹ v vt ¸ ¹ vt ¹ | | } } z z t t u u s sr r z z Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ x r s y r s yx r s x x x q qp p q pq p p ¸ w ¸ ¹ wv wu ¸ ¹ v wvut ¸ ¹ v vt ¸ ¹ vt ¹ o on n n \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] X \ ] äå Þ V V W çæ à à é èé è ãâ â Ó ÓÒ êë Ô Õ Ô Õ X ×Ö ì æ Ø ïî Ú ðñ Þ Ô Û ÚÛ ß Þß Þ Ô \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] n n o o r r l m l m l m l l m m Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ r s r s r s p p j j k k j k j k j k ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ o on n n h h i i h i h i f g f g f g l m l m l d b f Ð Ñ Ð Ñ h b h b \ ¸ Z ^_ e \] Z Z[ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð _ ] [ ` Ð a Ñ ` a Ñ c Ð bc Ñ Ð e Ð Ñ Ñ d ed ` ^ a Ð Ñ f ` a Ð b ¸ ¹ ¸ ¹ ` Ñ ed ^ d a Ð ` ^ _ ^ _ ` ¸ X W \ ] \ ] \ ] \] Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Y YX X ` ` a [ [Z V V W ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ^ _ ^ _ ^ Z \ ] _ Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð \ ] ^ \ _ \ ] \ ] \ a ¹ \ ] ` Ñ f d ¸ ¹ \ ] \ ] \ ] a Ð Ñ ¸ ¸ ¹ Ð Ñ ¸ ¹ Ð Ñ Ð Ñ d c Ð Ñ f i Ð Ñ Ð ¸ Ð Ñ ¹ Ð Ñ Ñ a \ ] \ ] Ð ¹ \ ] \ ] ] U Y T U T U T X Y X Y X ñ ñð ð \ ] \ ] ] æ éè ï ïî î ÿþ æ þ æ \ ] \ ] Ñ Z \ ] \ ] Ð Ñ \ ] \ _ \ ] ] ê _^ \ ê ë \ ] ] ^ ö \ ô ê ë ] ô \ û ûú ] Ý Ñ d éè Ð e óò Ñ f ¹ øù \ ] \ æ ç ÝÜ ýü ] \ ] æ ç Ð g a å \ ] Ñ c ã ÷ö äå Ð i î ä Ñ ¸ õô âã æ Ð ¹ ô ë \ ú ] \ á Ñ e àá Ð ì ì Ü \ ] ] â Ø à Ñ óò ç \ ] ü \ ] â Ø Ð g Ý ÝÜ Ü Ö Ñ ¹ \ ] \ ] m \ ] \ ] \ \ ] ] \ ] \ \ ] ] \ ] \ ] \ ] \ ] \ ] \ ] \ \ ] ] \ ] \ ] \ ] \ ] \ ] \ ] \ Ù ÙØ Ò ] íì \ V V ] \ ] \ ] \ ] X \ ] P Q P Q P Q Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Y YX X X ú ú ê R ^ ^ V S SR R [ O X S ù øù ø ñ ñð ð M P Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ V ûú ó óò ò T U ¸ ¹ ¸ ¸ ¹ ¸ ¹ ¸ ¹ R ô ô ô Ð Ñ Ð Ñ Ð Ñ Ð Ñ KJ J R R T U ¸ ¸ ¹ ¸ ¹ ¸ ¹ IH H O NO N N L Ð Ñ Ð K I O N N P P V ¸ ¹ O M L M L Ð Ñ Ð Ñ Ð Ñ Ð T U N R P P Q Ñ Ð Ñ R S ¹ \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ÿ ] \ ÿþ ] \ þ ] \ ] \ ] \ ] \ ] \ ] \ ] O X X Q P Q ý üý ü T ÿþ þ U î î T \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] ÷ \ ] ö÷ \ ] ö \ ] \ ] \ ] \ ] \ ] U ¹ T õ õô ô ô U [Z Z Z ýü V ê ë ü W W ó óò ò ë ê ë G FG F M ML L È J J Ê ¹ ] H Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ ÿþ ] É ÉÈ J K KJ Ë ËÊ Ê ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ H H ÿ \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ L I IH Í ÌÍ Ì Ì M ML Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ \ þ \ ] ûú \ ] \ ] \ ] \ ] \ ] Î Ï Î Ï Î Ï G FG F È É ÉÈ K KJ J E DE D Ê Ê Ê ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] I IH H C BC B B Î Î Î @ A @ A ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ > ? > ? > ? \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] ;: 98 6 7 6 7 54 4 32 10 0 = =< < < /. -, +* @ A @ A )( %$ ! ;: ; 7 4 32 < /. & -, +* )( () ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ " " # %$ ! ; 7 '& íì ëê ¹ * ? ? > > ? > : : ; < 6 6 7 54 10 0 = =< 6 7 6 7 6 7 8 9 '& 4 5 4 5 4 ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ " " # é ö î $ " D 6 : 98 2 . 1 01 0 ( ¸ ¹ " D E ¸ ¹ 6 D E D E ¸ D 4 D 7 E E 6 D E ¸ D E ¹ D E ¸ D E ¹ D 6 6 D E E 4 2 3 D : : ; 2 3 E D E D 2 D E D E E . / /. . E D E D E D D E \ ] ø ç çæ \ ] \ E D E D E D ö D ÷ E ù D E ø D E D E õô ï D E î D E \ D ] D E \ ] E éè D E \ ] D E \ ] ô ï \ ] ] D E E + \ æ 2 \ 3 \ ] ] D 1 E + \ 01 +* \ ] \ / 2 3 2 ] D E ] 8 ¹ # 3 ù ñð è 3 \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] D E \ ] \ ] \ ] 9 8 ¹ ûú óò 0 D ' E /. D D E E +* \ ] ' * \ 8 9 5 ýü ÷ . & D D '& D E ] 9 '& ÿþ ,- D E E \ E ] D E \ '& ] 98 D \ E ] D E \ "# 8 # $% ] \ ] \ ] 9 ¹ D \ ] E \ ] D E \ ] 8 " \ ] 9 ! ! D E \ ] D E \ ] \ ] \ ] \ ] D \ ] \ ] \ ] \ ] \ ] D \ ] ] \ \ ] ] \ \ ] \ ] \ ] \ ] ] \ ] \ ] \ ] åä ÿþ â â ã ã ýü 5 54 4 4 áà 2 3 2 3 2 3 ûú ßÞ Þ ø ù ø ù ÝÜ ± °± ° ö ÷ ö ÷ 7 76 6 Ú ÛÚ õô ô . . ÙØ Ø óò ×Ö Ö ñð ÕÔ 89 î ï î ï ÓÒ ³ ²³ ² ² íì ÑÐ ëê Î Î Ï Ï ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ é éè è ; :; : D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E ÍÌ D E D E D E D E D E D E D ç çæ æ / /. . . \ ] \ ] \ ] \ ] \ ] Ë \ ] ËÊ \ ] Ê \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] åä É ÉÈ È â â ã ã µ ´µ ´ ÿþ = =< < Å ÅÄ Ä 5 54 4 4 ýü áà ÇÆ Æ ßÞ Þ ú à ÝÜ > ? > ? > ? ÁÀ 7 76 6 ö ö ÛÚ Ú ¿¾ õô ô · ¶· ¶ ¶ ÙØ Ø ¼ ½ ¼ ½ ×Ö Ö ò »º ñð A @A @ ÕÔ =< ÓÒ î î ?> > ÑÐ ì A@ ëê Î Î Ï Ï B CB C CB ¸ ¸ ¹ ¸ ¹ ¸ ¹ ¸ ¹ ¹ é éè è D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E ÍÌ D E D E D E D E D E D E D Ë ËÊ Ê \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] ä E DE D É ÉÈ È â â ã ã < < Å ÅÄ Ä à ÇÆ Æ Ã  FG ÝÜ ÁÀ ¿¾ ¼ ½ ¼ ½ I IH H »º =< Ô ?> > ÑÐ A@ K KJ J B B Î Î Ï Ï C CB D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D \ ] \ ] \ ] \ ] \ ] Ë \ ] ËÊ \ ] Ê \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] \ ] ML È È O NO N Q QP P P I IH H > > S SR R R K KJ J A@ B C CB L P R P R \ ] \ ] R \ ] \ ] P \ \ ] \ ] ] \ \ ] \ ] \ ] \ ] \ ] \ ] ] \ ] \ ] \ ] \ ] \ \ ] ] \ \ ] ] \ ] \ \ ] \ ] \ ] \ ] ] \ ] \ ] \ ] \ ] \ \ ] ] \ \ ] \ ] \ ] ] \ ] \ ] \ ] \ \ ] \ 0 Auf der Seite von α: Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð ¬ ÕÔ ëêéè ­ ×Ö 8 ï 8 ïî ® ½ ¼½ ¼ ÙØ ¼ ED GF R F R S ¯ Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ Ð Ñ ñ ñð QP - , [ , - ¡ ¡ , - ¡ ¡ ¡ ¡ ¡ ¡ \ ] \ ] \ ≤ bm Ð Â Ã Â Ã Â Ã 8 ï 8 ïî 9 î ¡ ¡ ¡ ¡ ¡ ¡ ¡ \ ] \ ] \ .. . Ñ -, ED ¡ ¡ \ ] \ ] \ b1 , Ñ , - - Ð Ñ , , - - Ð Ñ Ð Ñ , - Ð Ñ Ð Ñ , - Ð Ñ Ð Ñ , Ð - Ñ Ñ , - Ð Ñ , Ð , - , - Ñ 8 8 9 ¡ Ð -, ¡ Ñ Ð Ñ Ð Ñ Ð Ñ " , , - , - , - , - , - ¡ - , - , - , - , - , , - , ¡ - - , %$ ' ¡ ¡ 6 , - 7 , - - ! $ 32 54 , " " /. ¡ - , - , - , - , - , - , - 7 , - ¡ , - ¡ , - , - ¡ , ¡ - , - , ¡ , - ¡ ¡ , - ¡ ¡ , ¡ " ¡ ¡ ¡ ¡ ¡ Zulässige Menge , ¡ - ! ¡ \ ] \ ] \ ] \ amj xj ¡ ) - , ¡ - ¡ #" , - ¡ , - , ¡ - ¡ #" " ¡ ¡ ¡ ¡ Ô \ ] \ \ ] \ ≤ $ ¡ " ¡ ¡ Ò \ ] \ a1j xj ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ V \ Y ] Y \ ] \ ] \ j=1 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Ô Õ \ ] \ j=1 n X ¡ Ò \ ] \ Das System Ax ≤ b besteht aus den Ungleichungen n X ¡ ! ¡ TU \ ] \ Auf der Seite von −α: ¡ ¡ ¡ ¡ V W \ ] \ \ ] \ ~ | | ~ ~ i ~ wv p q ml { {z yx sr on kj ih } } z ut p q l j h f } d cb a wv _^ ut ]\ [Z q YX l j h yx ih z i ~ ~ { | | } {z p q p ml kj gf e ed ` a ` sr on SR UT WV P ON d M J v _^ IG ]\ D C A@ YX ?> =< j ;: gf f Q QP e ed L cb L M ` a ` a KJ F H F IHG ED [Z B C B WV UT h SR kj h 98 76 d 54 M J IG \ D C A@ ?> ( '& =< ;: #" KJ F L T [Z b gf d f Q H QP M ED L F IHG B C B WV ON P 32 10 -, ( ) %$ /. * + * + & 2 0 , ) " x0 ¡ ¡ ¡ ¡ Y \ ] \ \ ] \ := Y \ ] W := Z[ \ ] αT mx \ αT 1 x 98 ON 76 ! 54 32 2 J J 10 0 /. B C B C -, , * + * + ( ) ( ) '& & =< %$ ;: #" " ! . * + * + ( ( & & Die Nebenbedingungen sind lineare Ungleichungen α T x ≤ β (α 6= 0) x − x0 x ϕ αT x > β α Mathematik für Informatiker III Grundlagen der Optimierung Mathematik für Informatiker III Lineare Optimierung Grundlagen der Optimierung Lineare Optimierung Sfrag replacements Geometrische Untersuchung Polyeder αT x = β Jede Zeile des Ungleichungssystems beschreibt einen Halbraum. Die zulässige Menge ist der Durchschnitt von (endlich vielen) Halbräumen. Dies nennt man ein Polyeder (wenn beschränkt auch Polytop). αT x < β P := P(A, b) := {x : Ax ≤ b} 0 < cos ϕ =< α, x − x0 >= αT (x − x0 ) = αT x − αT x0 = αT x − β Annahme: Das Polyeder ist voll-(n)-dimensional. T α x <β (dim P = n − RangAeq(P) , wobei Aeq(P) die Teilmatrix von A zu den Ungleichungen ist, die von allen Punkten aus P mit Gleichheit erfüllt werden.) {x : αT x = β} ist eine Hyperebene. {x : αT x ≤ β} (oder ≥) ist ein Halbraum. – 129 – Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung αT 1 A = ... T αm – 130 – – 131 – Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Konvexität und Ecken Bemerkung E.7 Ein Polyeder ist eine konvexe Menge. Konvex bedeutet, daß mit je zwei Punkten auch ihre gesamte Verbindungsstrecke in der Menge liegt: x 6= y ∈ P =⇒ ∀θ ∈ [0; 1] : x(θ) := x + θ(y − x) ∈ P. Ein Punkt des Polyeders, der nie im Innern, sondern immer am Rand von solchen Verbindungsstrecken liegt, heißt Ecke: z Ecke ⇐⇒ ∀x 6= y ∈ P : (∃θ ∈ [0; 1] : z = x+θ(y −x)) =⇒ (θ = 0∨θ = 1) – 132 – Sfrag replacements cT x = 2 3 5 6 7 ¡ £¢ ¤ § © ¢ £ ¢ £ ¢ £ ¨ ª ¢ £ ¢ £ ¢ £ ¢ £ ¡ ¢ ±° ¤ § = ¢ £ ¢ £ £ ¢ £ ¢ £ ¢ £¢ F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G G ¦ ¦ ÁÀ qp F 6 7 6 7 6 7 ³² s p G ¤ ¤ ¿¾ r sr F ±° w ut G ¼ ½ wv t F 8 8 9 9 ® ® ¯ yx v G »º {z F G ¬ ¬ ­ ­ }| F ¢ £ £ ¹¸ ~ ~ F G F G ¢ ¢ £ £ ¢ ¢ ¢ £ ¢ £ ¢ £ £ F G F G F G ¢ £ ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ : : ; ; ¢ ¢ £ £ ª ¢ ¨ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ F G F G ª « kj ¢ F G F G F G F G F G ¨ © ·¶ ¢ < = < = < µ´ ´ ¢ £ £ ¦ ¦ § ¢ £ £ ¥¤ ³² ¢ £ ¢ £¢ ® ® ¯ ¢ £ ¢ £ ¬ ¬ ­ ­ }| £ ¢ £ ¢ £ ¢ µ´ ´ ¨ ¨ © no 4 5 54 ml à à ª ª « ·¶ kj ­ ¹¸ $ »º d ed ® ® z bc yx ÉÈ ¼ ½ a_`^ v v " 1 10 0 ]\ ut t ¿¾ Ë ËÊ Ê ² r [Z s sr / /. . WV ! 5 54 4 UT ÏÎ Î l à à ¶ RS ¢ £ / ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ÑÐ ¢ £ ¢ £ ¢ £ . . / ¢ £ ¢ £ ¢ £ ¢ £ % %$ # "# F G F G F G F G F G F G F G F G ! ¢ £ ¢ £ ¢ £ . ¢ £ . / ¢ £ . F / ¢ G ¢ £ . F / £ ¢ G F G F G F G F G F G F G YX p ÁÀ p ÍÌ . 3 23 2 2 gf ¢ £ / ¬ ¬ ­ hi | ÇÆ Æ . £ ¢ £ ¢ £ ÅÄ / / ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ;: Q PQ P ÅÄ ¸ - -, , , % %$ $ N O ON f ÕÔ ÔÓÒ Ò ÇÆ Æ º d ML ed Ö KJ × ×Ö + +* * ÉÈ HI `^ F G 0 GF 0 \ Ù ÙØ Ø Ë ËÊ Ê ED D Z ) )( CB ( ( ÛÚ Ú F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G X ÍÌ @A @ / /. . V ÝÜ ?> UT ÏÎ Î = =< < & & ' ' ßÞ . . / . / . / / ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ÑÐ ¢ £ ¢ £ ¢ £ ¢ £ Ä ;: , , , 98 N O ON 67 ÇÆ ÕÔ Æ ÔÓÒ áàÒ L $ $ % % 54 4 J × ×Ö Ö ãâ â ÉÈ * + +* 2 3 32 01 G GF F ä ä å å ./ Ê Ù Ê ÙØ Ø " " # # ED D çæ -, , ( CB ( ( ÛÚ Ú F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G + +* * éè è )( ÝÜ > ! ! ! '& < < ê ê ë & & ßÞ . # . / #" . / " . / / ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ : % $% $ 98 ì ì í #" " áà ! 54 4 î î ï Ö × ×Ö ãâ â 2 3 32 ñð $ $ % % ä ä å å Ø Ø óò çæ , , ÛÚ Ú F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G * * '& õô éè è )( ¡ '& ÷ö ê ê ë ßÞ . # . / #" . / " . / / ) () ( ùø ø ì ì í #" " à ûú î î ï â â ü + *+ * ý ýü ñð $ $ % % ä ä ÿþ óò çæ F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G ,- '& õô ÷ö ê ê . . / . / . / / /. ùø ø ì ì ûú î î 01 0 ü ý ýü ñð ÿþ óò 23 2 F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G 54 . . / . / . / / /. ùø ø ûú 67 ü ý ýü ÿþ 98 8 F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G ; :; : 54 . . / . / . / / ÿ ÿþ þ <= < ý üý ü ?> 8 8 þ ÿ þ ÿ þ ÿ F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G û úû ú @A ý üý ü . . / . / . / / þ þ CB B ù ùø ø û úû ú E ED D ?> ÷ ÷ö ö ö ù ùø ø ø þ þ þ F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G IHGF ö ö ÷ ÷ õ ôõ ô . . / . / . / / JK B B ø ø ô õ ô õ ô õ ò ó óò LM D D ò ò ó ó ÷ ÷ö ö ö ø ø ø ñ ñð ð ON N F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G IHGF ð ð ñ ñ QP P î ï ïî . . / . / . / / î ï î ï î ï ô ô ô ò ò S SR R ò ë ìê Ò Ò Ó Ò Ó Ò Ó F G F G G F éè ïî î î çæ é ñ ï î ç ç é . ç ä ã Þ Þ F G F G F G F G F G F G F G F G á àá à Þß ß ßÞ F G F G F G ß F G F G F G F G F G F . å åä G è è é á àá F G F ã âã æ ä G F å F G G è äå F æ F G F G è G . å / æ ì F ãâ . íë F è / í ð ð ì G F G . åä / íìëê . æ à F / í ê æ G . / F è . / G F F G F G F G F G â F G F G ä F G G F G F G F F G G G Ü â Ü / Ý ÝÜ ã ãâ â Ý ÜÝ . . / . / . / Ò Ò Ó Ó Ò Ò Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó à ed Ó \ Ò c Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Y cb ON Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó Ò Ó ì ê â Ò Ó Ò Ó í ë é Ò Ó Ò Ó ì ò ä Ò Ó Ò Ó í íë `a F é ç X YX G î ä Ò Ó ^_ b F ñ / Ò Ó Ò Ó Ò Ó Ò Ó R Ò Ó Y Ò Ó Ò Ó UT Ò Ó Ò Ó ì íìëê â WV Ò Ó í ð ð æ ]\ G / Z[ T F è P P R ML F WV X Ò Ó Ò Ò Ó YX ÏÎ K G G KJ J Ì Ó ì ìê ON N ^ IH Ò Ó Ì Ò Ó Ò ÊË Ì Ò Ó Ì Ó Í Ò ÏÎ Ó ÐÑ Ò Ó Ò Ó Ò Ó í UT T Û ÛÚ Ú Q PQ P H Û ÛÚ Ú fg TU Ù ØÙ Ø Ø J J SR Þ Þ ih L × ×Ö Ö Ö Ù ØÙ Ø c cb b F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G Ý ÝÜ Ü W VW V N Õ ÔÕ Ô Ô kj j . . / . / . / / ed × ×Ö Ö Y XY X Ú Ú Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó ÒÓ Ò ml Z[ Ú Ú Õ ÕÔ Ô Ô ] ]\ \ no SRn Ñ ÐÑ Ð Ð ih × ×Ö Ö Ö F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G _^ Î ×Ö Ö Ð Ñ Ð Ñ Ò Ï ÏÎ Î . . / . × Ð / . / / Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ñ a` Ò Ó Ò Ó Ò j j ` Ó Ó p qp Ò Ó Ò Ó Ò Ó Ò Ó Í ÌÍ Ì r cb r s s l Ô Ô Ô e ed d Ê d Ë ÊË Ê Ê Î Ï Â G Ä È Ò Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó È F G ËÊ Ï ÈÉ É Å ÅÄ Ã Âà F G F G F É ÉÈ G Ï F G F Ç ÇÆ Â G F G F G ÏÎ F G F G Æ F G F G F G F G F G . Æ Æ À Á ÁÀ . . / . F G F Ç / F G . Î / Ë . / F G G Ì . ÆÇ / F G . F G / Ð Î F Ï G Ð F G Ê F G F G F G F Æ È È Ò Ò Ó Ó Ò Ò Ó Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó Ò Ó F Î Æ Ò Ó Ò Ó G Î / Ò s Ò Ó Ó rs Ò Ó Ò F Í Ì Æ r Ò G ÍÌ qp h Ò Ó Ó Î Î Ò Ó Ò Ó Ó Ò Ó Ï Ï no gf v Ò d |} Ó r cb t F Ì Ð lm {z G / r Ò kj j y yx Ó Ò Ó Ò Ó Ò Ó F ih a` ` F Æ p qp Ò Ó G G ^ wv Ò Ó ~ Ò Ò Ó Ó Ò t Ó x Ò Ó Ò Ó Ò Ó Î gf Ï ] u ]\ ut \ t kj j x x Ê Ê Ê ¿ ¿¾ ¾ t u ut Ä Å Ä Å Å ÅÄ Ä {z w wv v ½ ¼½ ¼  à  à }| } ¾  C G / ¾  . º ¿¾ D ED ?> F G F G E ? @ B A F G C @ A F G ¿ @ A F G B @ A F G C B @ º » A F . À À @ G ? » A F G F F G G F F G G F G F G Á > . / . ¼ . / / F G ?> D ¼ ½ . F G ÁÀ / / F G F G . F G F G À F ¾ ¿ G . F G À F G Á F G F G F G F F G ¾ ¹ D · / ¾ ¸ ¸ ¹ D E ED ¶ ¶ · . . / . / . / Ò Ó Ò Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó Ò Ò Ó ~ Ó Ò | Ò Ó Ò Ó Ò Ó | Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ò Ó Ó Ò Ò Ó Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó F / ½ Ò Ó G À ¿ {z Ò x Ò Ó w Ó wv Ò Ó F > Á ~ x Ò G / | v Ó t F {z t Ò Ó F qp G G yx x Ò Ó Ò Ó Ò Ó Ò Ó Ò Ò Ó Ó Ò Ò Ó Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó ±° ´ µ ´ µ ´ µ ¯® ­¬ ¬ «ª ª ©¨ ¦ § ¦ § ² ³ ² ³ ² ³ ¥¤ £¢ ¡ ¶ ¶ ® ¯ ® ¯ ® ¯ . . / . / . / / Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó ±° ´ µ ´ µ ´ µ ¯® ± ±° ° ­¬ ¬ «ª ª ©¨ ¦ § ¦ § ² ² ² ¥¤ ­ £¢ ­¬ ¬ ¬ ¡ ® ® ® . . / . / . / / ~ º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º « ª« ª ª }| Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó {z z x v yxw v yw ¡ ¡ ±° ut ® ± ±° ° sr ¬ ¬ qp ¢£ ª ª ¨ © ¨ © ¨ © o on n ¨ m ml l kj ¥¤ ¤ ih ¬ ¬ ¬ gf ¦ § ¦ § ed ¦§ cb a` }| X ut ª U ¨ SR n & ¬ ¥¤ ih L KJ gf ® ed IH GF D / Ò Ó Ò Ó ¡ ED Ó © ¡ ­¬ N ML ®¯ \ [Z O M sr T T cb a` l kj yw ^ qp o m &' . . / º » º » º » º » º » º » . . º » º » / . / . / º » º » º . ' ( ¨ º » º » º » º » º » » / . ¤ ) ¥ º » ( ¤ ) ¥ º » ¨ ( ¤ ) ¥ º v x º » º » º yxw » º » {z º » v º » º » on º » º » ml º » º » z º » ^ _ º » ]\ º YX » Ò Ó º » _ Ò º Q QP » U º » Ó Ò º ON » WV P ­ º » Ó Ò º » º » ª« º Ò » Ó º » ¨© Ò ^ ^ _ Ò Ó _ Ò Ó Ò Ó °± Ò Ó Ò Ó Ò ÓCB Ó Ò º Ò Ó Ó » º » Ò º » Ó º » Ò Ó º » » A ? ² SR ´ 54 ¬ 3 N , ih 10 f ed IH ·¶ ¹¸ @ {z z ]\ \ @ A ¤ ¤ ¤ x v yxw v yw [Z > > + *+ * YX X ;: ut ³² r WV = =< qp T T U U 98 µ ´µ l l Q QP ­ P ­¬ 2 2 3 j O ON - ,- , M ML L · ¶· ¶ KJ ³ ³² µ cb GF a` ¹¸ ED D ¹ / . . / . / . / º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º µ´ » Ò Ó º º < 76 ´ º º » Ò Ó º » : 8 ² ¸ » Ò Ò Ó Ó / / ~ ¨ º Ò Ò Ó Ò Ó Ò Ó Ó Ò Ó Ò Ó Ò Ó Ò Ó » º » º Ò ^ ^ Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò ÓCB Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó Ò Ò Ó Ó Ò Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó @ A @ A [Z º» > > ? YX X ;: : ² ² V = =< < 98 8 ¼½ SR 76 54 2 3 2 3 ¿¾ 10 KJ ³ ³² ² ´ µ µ´ À Á À Á À Á F ·¶ ¹¸ ED D ¹ ¹¸ ¸ º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó @ @ à> > ? ÄÅ Ç ÇÆ Æ ¿¾ ´ µ µ´ ÉÈ È À À À ¶ ¸ ¸ Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Â Ç ÇÆ Æ È È Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Ò Ó Schreibweise: £ £ ¢ ¢ ¦ ª £ ¨ £ ¦ ¢ ¥¤ § £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ « £ ¢ £ 1 0 −1 −2 Mathematik für Informatiker III Grundlagen der Optimierung Mathematik für Informatiker III Lineare Optimierung Grundlagen der Optimierung Lineare Optimierung Satz E.8 Sei P := {x : Ax ≤ b} (A ∈ m×n ) ein volldimensionales Polyeder. Dann gilt: x0 ∈ P ist Ecke von P genau dann, wenn n Ungleichungen mit linear unabhängigen Zeilen von A mit Gleichheit erfüllt sind: Berechnung der optimalen Ecke ∃B ⊂ {1, . . . , m}, |B| = n : ∀i ∈ B : αT i x = bi , {αi , i ∈ B} lin. unabh. ist eine Teilmatrix von A aus den Zeilen mit Indizes aus B, genannt Basismatrix, und ist invertierbar. .. . T AB := αi .. . Idee: 1. Starte mit einer zulässigen Ecke (d. h. einer Ecke, die alle Nebenbedingungen erfüllt). 2. Gehe zur nächsten Ecke, wobei die Zielfunktion ansteigt (bzw. nicht abnimmt). i ∈B 3. Tue dies, bis keine Verbesserung mehr möglich ist. 4. Vermeide, Ecken zweimal zu besuchen. AB x = b B – 133 – Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Ab jetzt: Annahmen: P ist volldimensional, und P hat (mindestens) eine Ecke. Beobachtung: Satz: Wenn das LP eine Optimallösung hat, dann gibt es auch eine optimale Ecklösung. – 134 – – 135 – Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Simplex-Algorithmus der linearen Programmierung Lineare Zielfunktion auf dem Polyeder: Dantzig, 1947 hier: geometrische Version 0. Starte mit einer zulässigen Ecke x 0 ∈ n . Sei B die zugehörige Zeilenindexmenge und AB die zugehörige Basismatrix: AB x 0 = bB bzw. x 0 = A−1 B bB 4 8 – 136 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung 3. Ist das Problem unbeschränkt? Finde die nächste zulässige Ecke in Richtung d, d. h. 1. Ist x 0 optimal? Definiere ! u T := c T A−1 B ∈ 0 T 0 T αT j (x + λ · d) = αj x + λ · αj d ≤ bj n Es gilt 0 αT j x ≤ bj Falls u ≥ 0, dann gilt für alle x mit Ax ≤ b: T T T T 0 und T 0 c x = u AB x ≤ u b B = u AB x = c x 0 =⇒ x ist optimal. STOP. ∀j ∈ {1, . . . , m} T −1 αT j d = −αj AB ei0 = −δji0 ≤ 0 ∀j ∈ B Falls auch αT j d ≤ 0 ∀j ∈ {1, . . . , m} \ B dann können wir jedes λ > 0 wählen und bleiben immer zulässig. =⇒ Das Problem ist unbeschränkt. STOP. – 137 – Mathematik für Informatiker III – 139 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung 4. Bestimme die Schrittweite, um zur nächsten zulässigen Ecke zu gehen. Es gibt also (mindestens) ein j ∈ {1, . . . , m} \ B mit αT j d > 0. Bedingung für λ: 2. Finde eine Richtung mit nicht abnehmender Zielfunktion. Es gibt also (mindestens) ein i0 ∈ B mit ui0 < 0. Sei d := −A−1 B e i0 λ≤ Dann gilt für alle λ ≥ 0: c T (x 0 + λ · d) − c T x 0 = λ · c T d = −λ · c T A−1 B e i0 0 bj − α T j x αT j d ∀j ∈ {1, . . . , m} \ B mit αT j d >0 Sei = −λ · u T ei0 = −λ · ui0 ≥ 0 λ := min =⇒ Entlang der Richtung d nimmt die Zielfunktion nicht ab. ( 0 bj − α T j x αT j d , j ∈ {1, . . . , m} \ B mit αT j d >0 ) und j0 ∈ {1, . . . , m} \ B ein zugehöriger Index. – 138 – – 140 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Bemerkungen zum Simplex-Algorithmus Die Anzahl aller Ecken ist exponentiell in m, n (∼ mn ). Man kann Beispiele konstruieren (Klee-Minty), für die der Simplex-Algorithmus alle Ecken besucht. Die Worst-Case-Laufzeit des Simplex-Algorithmus ist also nicht polynomial. 5. Gehe zur nächsten Ecke. Definiere x 1 := x 0 + λ · d und Aber: Khachian (1979) und Karmakar (1984) haben polynomiale Algorithmen für LP gefunden. Also ist LP ∈ P. Bneu := B \ {i0 } ∪ {j0 } A−1 B . Update von AB und Weiter mit Schritt 1 und x 1 statt x 0 . In der Praxis ist der Simplex-Algorithmus sehr konkurrenzfähig, typische Laufzeit ∼ 3m, ∼ log n. Alternative: Innere-Punkt-Methoden (später in dieser Vorlesung). – 141 – Mathematik für Informatiker III – 143 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Wie erhält man eine zulässige Ecke x 0 , um den Simplex zu starten? Bemerkungen zum Simplex-Algorithmus Formuliere ein Hilfsproblem, z. B. (mit y ∈ ) max y x,y Ax − y · b ≤ 0 −y ≤0 y ≤1 Für dieses Problem ist der Punkt x = 0, y = 0 zulässig, er kann also als Startpunkt genommen werden, um das Hilfsproblem mit dem Simplex-Algorithmus zu lösen. (sogenannte Phase I) Bei der Wahl von i0 und j0 hat man u. U. mehrere Möglichkeiten. Durch bestimmte Strategien ( wähle den kleinsten Index“) kann man vermeiden, ” dieselbe Ecke mehrmals zu besuchen. Da es nur endlich viele Ecken gibt, terminiert der Algorithmus dann nach endlich vielen Iterationen. In der Lösung (x 0 , y 0 ) ist y 0 entweder 0 oder 1 (die Lösung ist eine Ecke). Wenn y 0 = 0, dann ist Ax > y · b für alle x und alle y > 0, also auch für y = 1. Das eigentliche LP ist also unzulässig. Falls y 0 = 1, dann ist Ax 0 ≤ b, x 0 kann also als zulässige Startlösung für den eigentlichen Simplex verwendet werden. Folgerung: Einen zulässigen Punkt zu finden, ist eine genauso schwere Aufgabe, wie einen optimalen Punkt zu finden. – 142 – – 144 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Dualität Primales Problem äquivalent: (z ∈ max c T x Ax ≤ b max{c T x : Ax ≤ b} = max{z : z − c T x ≤ 0, Ax ≤ b} = max{z : Pz 6= {}} ≤ min{z : Pz = {}} = min{z : ∃u ≥ 0, λ ≥ 0 : −λc T + u T A = 0, −λz + u T b < 0} (P) ) max z z − cT x ≤ 0 Ax ≤ b Pz := x∈ n : −c T A Wenn Lösung mit λ = 0 existiert, ist Pz = {} ∀z. Wenn Lösung mit λ > 0 existiert: x≤ −z b = min{z : ∃u ≥ 0 : u T A = c T , u T b < z} = min{u T b : u T A = c T , u ≥ 0} – 145 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Resultat: das Maximum von Problem (P) ist kleinergleich als das Minimum von Problem Lemma E.9 (Farkas-Lemma) Sei A ∈ – 147 – m×n ,b∈ m . Dann gilt entweder ∃x ∈ n min u T b uT A = c T u≥0 : Ax ≤ b oder ∃u ∈ m (u ∈ : u ≥ 0, u T A = 0, u T b < 0. m (D) ) (D) heißt das zu (P) gehörende duale Problem. – 146 – – 148 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Komplementarität Folgerung E.10 Im Optimum gilt: 1. Primale Zulässigkeit: Ax ≤ b 2. Duale Zulässigkeit: u T A = c T , u ≥ 0 1. (P) ist unbeschränkt =⇒ (D) ist unzulässig. 2. (D) ist unbeschränkt =⇒ (P) ist unzulässig. 3. ZF-Werte sind gleich: c T x = u T b 0 = u T b − c T x = u T b − u T Ax = u T (b − Ax) = Schwache Dualität: x zulässig für (P), u zulässig für (D). Dann gilt Wegen ui ≥ 0 und (b − Ax)i ≥ 0 gilt also: c T x = u T Ax ≤ u T b m X i =1 ui · (b − Ax)i 1. Wenn ui 6= 0, ist (b − Ax)i = 0. 2. Wenn (b − Ax)i 6= 0. ist ui = 0. Dies bezeichnet man mit Komplementarität. – 149 – Mathematik für Informatiker III – 151 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Satz E.11 (Dualitätssatz) Im Simplex-Algorithmus, Schritt 1: Die beiden linearen Programme (P) und (D) haben optimale Lösungen mit dem gleichen Zielfunktionswert genau dann, wenn beide zulässige Lösungen haben. berechne Dualvariable: (Beweis mit Farkas-Lemma) Teste, ob u T := c T A−1 B u≥0 Folgerungen: 1. (P) hat endliches Optimum ⇐⇒ (D) hat endliches Optimum, beide haben den gleichen Zielfunktionswert. =⇒ duale Zulässigkeit + primale Zulässigkeit =⇒ Optimalität 2. (P) ist unbeschränkt =⇒ (D) ist unzulässig. 3. (D) ist unbeschränkt =⇒ (P) ist unzulässig. Wir sind also immer primal zulässig und im Lösungspunkt auch dual zulässig. 4. (P) ist unzulässig =⇒ (D) ist unzulässig oder unbeschränkt. 5. (D) ist unzulässig =⇒ (P) ist unzulässig oder unbeschränkt. – 150 – – 152 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Lineare ganzzahlige Optimierung Variante: Starte mit dualer Zulässigkeit, iteriere, bis auch primale Zulässigkeit erfüllt ist. → Dualer Simplex-Algorithmus Alle oder einige der Variablen müssen eine zusätzliche Ganzzahligkeitsbedingung erfüllen, typischerweise Anwendung: Re-Optimierung mit Warm-Start, Vermeidung erneuter Phase I xi ∈ {0; 1} oder xi ∈ d. h. nach erfolgter Optimierung: modifiziere Problem, optimiere erneut I I oder . . . Modellierung von: Anzahlen, Entscheidungen, usw. zusätzliche Variablen: setze zugehörige x-Werte auf 0, bleibt primal zulässig → weiter mit primalem Simplex Durch die Ganzzahligkeitsbedingung erhalten wir Kombinatorische Optimierungsprobleme. zusätzliche Nebenbedingungen: setze zugehörige u-Werte auf 0, bleibt dual zulässig → weiter mit dualem Simplex (wichtig für Schnittebenenverfahren) – 153 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Simplex-Software Traveling Salesman Problem (TSP) gegeben: Graph (V,E) mit Ecken V (Städten) und Kanten E ⊂ V × V (Straßen) und Kantengewichten ce (Streckenlängen) Kommerziell: I CPLEX (ILOG) Xpress (Dash) I ... I gesucht: die kürzeste Rundreise, d. h. die geschlossene Tour mit kürzester Länge durch alle Knoten Akademisch: I SoPlex (ZIB Berlin) lpsolve I ... I – 155 – ordne jeder Kante e ∈ E eine 0-1-Variable zu: 1 Kante e gehört zur Tour xe = 0 sonst (x: Inzidenzvektor) – 154 – – 156 – X min ce xe Xe∈E xe = 2 ∀v ∈ V e∈δ(v ) e∈C xe ∈ {0; 1} ∀e ∈ E X e∈δ(v ) mit δ(v ) := {e ∈ E : ∃v 6= u : e = uv ∨ e = vu} (Degree Equation) 2. auf geschlossenen Strecken (Kreisen) mit Länge < |V | dürfen nicht alle Kanten zur Tour gehören X xe ≤ |C | − 1 ∀ Kreise C ⊂ E , |C | < |V | S = {x ∈ e∈C (Subcircle Elimination Constraint) Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung 0-1-LP für das TSP I I xe ≤ |C | − 1 ∀ Kreise C ⊂ E , |C | < |V | I – 158 – n ¡ £¢ ¤ ¦ © « ¢ ¢ ¢ £ ¨ ª ª ¢ £ ¢ £ ¢ £ – 157 – ¢ £ ¢ £ ¢ ¢ £ ¢ £ ¢ £ £ ¢ ¢ £ £ ¢ ¢ £ ¢ £ £ ¢ ¢ £ £ ¢ £ ¢ ¢ £ ¢ £ £ ¢ ¢ £ £ ¢ £ ¢ £ ¢ ¢ ¨ © £ ¥ ¢ £ £ §¦ « ¢ ¥¤ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ ¢ £ ¢ £ ¢ ¢ £ £ ¢ £ ¢ £ ¢ £ ¢ £ £ ¢ £ ¢ £ ¢ £ ¢ £ ­¬ ¬ ¡ ¯ ¯® ® £¢ ° ± ¥ ¥¤ ¤ ± °± ° ° ´ µ´ ¨ ¨ © © ·¶ ª ª « « £ ¢ £ ¢ £ ® ¯ ¢ £ ® ¯ ¢ £ ® ¯ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¹ ¹¸ ¸ ­¬ ¬ ~ ~ ¡ |} º » ¬ ¬ ­ ­ ¯ ¯® ® {z £¢ yx ½¼ ° ± vw v ¤ ¤ t t u º » º » ª « º » ª « ª « ¿¾ º » º » º » º » º » º » º » º » º ¢ £ ¢ £ » º » º » º » ¢ £ º » ¢ £ º » º » º » º » º ¢ £ ¢ £ ¢ £ ¢ £ » º » º » º » º » ¢ º §¦ ¦ ¢ £ ¢ £ ¢ £ » ³² º » º » º » º » ³² ¦ ¦ r r s s p p ÁÀ q q ´ µ´ ¨ ¨ hi ¹ ¹¸ ¸ ­¬ ¬ % § ¦§ ¦ ¦ fg f º » Æ Æ Ç Ç e ed d {z bc x ÉÈ a`_^ ½¼ # ¤ ¤ ¥ ¥ \ \ ] ] t t u ËÊ » º » º » º » º » º » º » ¿¾ Z Z [ [ r r YX ÍÌ p p ÁÀ ¢ ¢ £ £ / WV ¢ £ ¢ £ $ $ % " # » " º » º » º » º » º » º » º . . ¢ £ ¢ / . . / £ º . » º / ¢ £ . / ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ÅÄ Ä . ª ª ¢ £ jk ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ / m ·¶ ml l . © ©¨ ¨ à à ¢ £ ¢ £ ¢ £ / / no n ¢ £ ! ! ÏÎ © ©¨ ¨ TU à à ·¶ l l RS ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ÅÄ Ä Ñ ÑÐ Ð N LM K HI a`_^ F \ \ ËÊ » D Z Z [ [ Ú YX ÍÌ ÛÚ £ / V ? ÏÎ ÝÜ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ßÞ £ ¢ £ Ð :; ÅÄ Ä Ñ ÑÐ ¡ J º » ¤ G ¤ º » º » º » º » º » º » º » º » º » º » º » º » º » º ED £ ¢ £ E CB ¢ @A ¢ . . / . / . / ! ! > < = =< ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ ¡ FG ¡ J ¡ O K ÉÈ Ù ÙØ d d × Ø ¢ £ ¡ ON º » Æ Æ Ç Ç ×Ö Ö ÕÔ ÔÓÒ Ò ¡ PQ P ¹ ¹¸ ¸ 98 O ON N áà ÕÔ ÔÓÒ Ò 67 Æ Æ 4 4 5 ã ãâ â J J × ×Ö Ö 32 2 È ä åä Ù ÙØ Ø 01 ËÊ º » º » º » º » º » º » º » º » º » ./ º » º » º » º » º » º » D D ,- , çæ Ú B ÛÚ + *+ * éè è . . / . / . / / () > ? ÝÜ ! &' < < ëê " ¢ £ ¢ £ ¢ £ ¢ £ #" ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ßÞ £ ¢ £ ¢ £ $ % $ % 98 í íì ì áà ! # "# " î ïî ã ãâ â Ö Ö 32 2 ä åä ñð Ù ÙØ Ø %$ º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » óò çæ Ú Ú õô '& éè è . . / . / . / / ¡ ö ÷ ëê #" " Þ ) () ( ùø í íì ì áà ïî î ûú ã ãâ â *+ * ýü ñð $ º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » ÿ ÿþ þ óò ,- õô & . . / . / . / / ö ÷ ëê ./ ùø í íì ì ïî î ûú 01 0 ýü ð º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » ÿ ÿþ þ ò 23 2 . . / . / . / / 45 ùø ~ ~ 67 ú ü | | } } 98 þ þ º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » z { z { z { . . / . / . / / ; :; : ÿ þÿ þ xv yw xv yw xv yw ~ ~ <= < u tu t t ý üý ü ?> 8 º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » xv xv xv øù ø o o ÷ö ö ö m l m l m » º » º » º » º » º » º » º » û . . / . p p ù n n ÷ l º » º » º » º » º » º » º » º r s r s r q q > s / . / / E r úû ú D ED s r s r s @A BC B IHGF j j k k . . / . / . / / õ ôõ ô JK h h i i ò ó óò M LM L D E ED f f g g ÷ ÷ö ö ö º » º » º » º » º » º » ñ º » ñð º » ð º » º » º » º » º » º » º » O ON N IHGF d d e e . . / . / . / / PQ P ï îï î b c b c b c h h ò ó óò S RS R a `a íë ` íìëê ` ìê ìê f f T UT ñ ñð ð O ON N º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » ^ _ ^ _ ^ _ é éè è è . . / . / . / / VW V \ ] ]\ b c b c b c ç æç æ Y YX X ÌÍ Ì [ Z[ Z Z ìê ìê ìê å åä ä ä ÊË [ Z[ Z X Y X Y X Y T T º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » È È É É é éè è è ]\ â ã â ã â ã W VW . V . / . / . / / ÆÇ ^ X à ` ä Þ Î b P \ ON T » c / Ü Î Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï \ ] ]\ U TU á àá à S RS R å åä ä ß ßÞ º » º » º » º » º » º » º » º » º » º » º » º » º » º » º Q QP . . / . / . / Ý ÜÝ Î Î Ï Ï Î Î Ï Ï Î `a cb Ï X Î _ ^_ Ï Î Ï Î Ï Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î K Ï KJ Î Ï Î Ï Î I Î Ï Ï IH Ï LM Î J Ï H Î Ï Î Ï ed O NO N PQ H H Û ÛÚ Ú fg T T U U M LM L L K KJ J RS Þ Þ ih º » º » º »K º »JK º »J º »J º » Ù º » ØÙ º » Ø º » º » º » º » º » º » b b P P VW V ON . . / . / . / / j j k k Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï H I H I H I × ×Ö Ö ed XY F F G G ml Z[ Û ÛÚ Ú Õ ÕÔ Ô Ô ] ]\ \ D E D E D E no ih º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » _^ Ò Ò Ó Ó Ð Ñ Ð Ñ Ð Ñ A bc ml Ô Ô Ô ed ] ]\ \ t ? Î Ï Î Ï Î Ï u ut gf » º » º » º » º » º » º » º » º » º » º » _^ : wv Ì Ì Í Í : @ > º » º » º ; B :; B º » C ? > C @ B C A B » º C ? > B × ×Ö Ö r sr C Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï a Î Ï `a Î Ï ` Î Ï Î Ï Î Ï Î Ï Î Ï B . . / . / . / / j j k k C q pq p . . / . / . / / hi h Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï = =< < k jk j yx r r Ê Ë Ê Ë Ê Ë lm 9 89 8 ed {z Î Ï Î Ï Î Ï t t È È É É no gf 7 º » 67 º » 6 º » 6 º » º » º » º » º » º » º » º » º » º » º » º » |} v Ì Ì Í Í pq . . / . / . / / 5 54 4 Æ Ç Æ Ç Æ Ç Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï ~ = =< < s rs r x 3 23 2 tu Å ÄÅ Ä z w vw v 1 01 0  Âà à º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » x yx ³ ²³ ² . . / . / . / / 4 5 54 Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï {z Á ÀÁ À µ µ´ ´ ´ } }| | ¾ ¿ ¿¾ · ¶· ¶ ¶ ~ º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » x yx ¸ ¹ ¸ ¹ ¸ ¹ ½ ¼½ ¼ . . / . / . / / Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï z » º» º µ µ´ ´ ´ | | ¾ ¾ ~ ¹ ¸¹ ¸ ¸ ¸ ¸ · ¶· ¶ . . / . / . / / Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï =< µ µ´ ´ ´ ;: 98 7 76 6 54 3 32 2 10 ² ³ ² ³ ² ³ /. -, +* / . . / ) . / )( . / ( ¯ ¯® '& ® ® Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï %$ $ #" =< ! ´ ´ ´ ;: ± ±° ° 98 7 76 6 54 3 32 2 10 ² ² ² /. ­ ­¬ ¬ -, +* ) )( ( . . / . / . / / $ ! =< ÿþ 8 ¢£ 6 û ø ÷ö ¥¤ õô óò ¦ ñ𠦧 ïî íì / F G F F ýü ° © ú 4 * F G F G F G F G ¬ F ¨ ­ ­¬ § ¦§ / . / G F G G ( F . / ( F'& F F F G G . . F G G 6 F ¨ © ¨ © G ± ±° F %$ G 10 G « ª« ª F G F G ® F'& G ® F G ® F G F G F #" ùø G ª ú û F G F G F G F Î Ï Î Ï G F G F G F G F G F G F G F G F G F G Î Ï F G F G ¡ F G Î Ï F G Î Ï F ¡ G Î Ï F G F G F Î G F Ï F G G Î Ï F G F G Î G G Ï Î Ï F F Î Ï Î Ï G F Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï ëê ê è é è é © ¨© ¨ ¡ ¡ ¥ ¥¤ ¤ ¤ çæ åä ä ÿþ ãâ ª« ª à à á ¨ © ¨ © ¨ © ýü ßÞ ú ú û û ø ' &' & ùø Ý ÝÜ ­ Ü ¬­ ¬ ÷ö Û ÛÚ Ú ¤ õô ÙØ Ø óò ×Ö ñ𠮯 ÕÔ ) () ( ÓÒ ïî íì Ð Ð Ñ Ñ . . / . / . / / F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F ëê Î Ï ê Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï ÏÎ °± è é è é Í ÍÌ Ì ¤ ¤ ¤ çæ Ë ËÊ Ê Ç ÇÆ Æ ² + *+ * åä ä ³² È ÉÈ ãâ þ à à á ÅÄ Ä ü ßÞ Ã ´ µ ´ µ ÁÀ Ý ÝÜ Ü ¾ ¿ ¾ ¿ Û ÛÚ Ú - ,- , ÷ö ½¼ ÙØ Ø õô · ¶· ¶ ?> ×Ö A@ @ ÕÔ ÓÒ CB E ED D íì ¹ ¸¹ ¸ Ð Ð Ñ Ñ . . / . / . / / F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F ÏÎ ëê Î Ï ê Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Í ÍÌ Ì Ë ËÊ Ê º» Ç ÇÆ Æ ² ³² È ÉÈ â ÅÄ Ä ¼½ àßÞ ÁÀ ¾ ¿ ¾ ¿ ¿¾ ½¼ ?> A@ @ CB ÀÁ ÓÒ E ED D Ð Ð Ñ Ñ F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F G F Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï ÂÃ Â Ì Ì Ê Ê ÐÑ Ò Ó ÓÒ ¿¾ Å ÅÄ Ä B E ED D Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Î Ï Ò Ó ÓÒ Å ÅÄ Ä Allgemeines Mixed-Integer-LP (MILP) mit der zulässigen Menge 1. zu jedem Knoten gehen zwei Kanten der Tour X xe = 2 ∀v ∈ V min c T x Ax ≤ b xj ganzzahlig, j ∈ J ⊂ {1, . . . , n} Nebenbedingungen: ce xe e∈E X min Zielfunktion: Lineare Optimierung Grundlagen der Optimierung Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung : Ax ≤ b, xj ganzzahlig, j ∈ J ⊂ {1, . . . , n}} Bemerkung: Wenn man einen Punkt x ∗ hat, der (MILP) löst, gibt es keine Kriterien, mit denen man die Optimalität leicht nachweisen könnte. Schlimmstenfalls muß man alle zulässigen Punkte untersuchen. → Exponentielle Laufzeit. (MILP) ist ein N P-schweres Problem. – 159 – Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Lösungsstrategien Relaxierungen: Vergrößere die zulässige Menge. z. B. lasse die Ganzzahligkeitsbedingungen weg → LP. Teilprobleme: Zerlege die zulässige Menge. z. B. links: xi ≤ bxiS c , rechts: xi ≥ bxiS c + 1 Heuristiken: Finde schnell zulässige Punkte. z. B. Runden, Greedy-Heuristik Diese Strategien müssen an das konkrete Problem angepasst sein! – 160 – 7. xS 8. Wende Heuristik an, um zulässigen Punkt x H zu finden. Ist dieser besser als x ∗ : Setze x ∗ := x H . ist zulässig für (MILP), neuer bester Punkt: x ∗ := x S , gehe zu (10). PSfrag replacements dominiert durch obere Schranke 9. Teile (SUB) in zwei (oder mehr) neue Subprobleme auf, schreibe diese in die Liste. usw. 10. (SUB) ist abgearbeitet, gehe zu (2). – 162 – 4 5 5 4 5 * 4 4 5 + ) )( 4( 4 *+ 4( ) $ % & & ! " ¾ »º ¹¸ À À Á 5 À Á À Á 4 5 À Á 4 5 À Á À Á 4 À 5 Á 6 © =< ?> 5 4 5 4 5 4 5 4 5 4 5 4 B A@ ED H & & ' ML 6 © QP SR UT 5 4 5 4 5 4 5 4 5 4 5 4 5 Z \ F _^ H a` 6 © gf ih j 5 4 5 4 5 4 5 4 5 4 5 4 5 n YX r t wv yx {z © ~}| j 5 4 5 4 5 4 5 4 5 4 5 4 5 l ¨ ¨ À ¾ ½¼ G GF F »º I IH KJ ¹¸ © ¨ © ¨ © ¨ © ¨ © ¨ ¨ ¨ © © ¨ © ¨ © ¨ © ¨ © ¿¾ À Á À Á À Á À Á 7 76 © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ;: : =< CB ¼ G GF º I IH ¹¸ À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á ML © 6 ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © 8 ¨ © 8 ¨ © ¨ © ¨ © ¨ © ¨ © ¨ À ON ¨ © ?> KJ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ ¨ © Á À Á À Á À Á À Á d ed ¨ © ON 98 À ]\ cb ¨ ED [Z À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á N A@ YX ¨ B WV N © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á ¨ 8 CB ¨ © 8 ;: : À Á À Á 98 ¨ À Á À Á ¨ ¨ ¿¾ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © 7 76 ¨ © © ¨ ¨ © À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á ¨ ½¼ ¨ © © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ À Á À Á À Á À Á À Á À Á À Á À Á ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ ¨ © 4 ;: : QP SR ?> UT k kj 4 4 5 m ml l WV o on A@ [Z Z qp p ]\ \ sr _^ ut a` À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À ML cb d ed ¨ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © gf SR ih UT k kj 4 4 5 m ml o on n qp p ]\ \ sr r _^ ut t a` wv À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á yx {z ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ~}| 4 5 4 5 4 5 4 5 ¡ wv ¥¤ À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á§¦ x ©¨ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © «ª ­¬ 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 ³ ~ ~ ¡ · £¢ ¥¤ §¦ | | } } ©¨ ¨ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © «ª ­¬ ¯® ° 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 ± ±° z z { { ³ ³² ~ ~ µ´ ¡ · ¤ x x y y ¦ ©¨ ¨ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © v v w w ° 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 ± ±° s v q t u t u ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ r r s v p p q t u t u t u © ¨ t 4 5 4 5 4 5 4 5 u © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ÿ ÿþ þ þ 4 5 4 5 4 5 4 5 ý üý ü p k ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © n o ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © l l m p j j k n ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © n o ¨ © o ¨ © n ¨ © o ¨ © n m ù ùø ø o û úû ú n 4 5 4 5 4 5 4 5 o ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ÿ ÿþ þ þ 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 h h i i ÷ ÷ö ö ge ø © ô c 5 d f d gef j j k k ù ùø ¨ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © õ ôõ b b c 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 i ö òð a f © _ î 5 h h i ÷ ÷ö óñ óòñð ` ` a d d f ¨ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ^ ^ _ ï ïî 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 òð ì © [ î 5 \ \ ] ] òð í íì ¨ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © Z Z [ ï ïî 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 ê ë ëê Y X X Y \ \ ì ì è é éè V V W W ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © Z Z 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 ê ê © P T U T U X S RS V ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ Q PQ T U T V ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © 4 5 4 5 4 5 4 5 U R é ä å ä å 4 5 T X R è éè ä å U T U ç çæ æ æ 4 5 4 5 4 5 æ æ æ â ã â ã â ã O NO N ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © M LM L L á àá à 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 J J K K ß Þß Þ © ¨ © 4 5 4 5 Ý 4 5 ÜÝ 4 5 Ü 4 5 Ü 4 5 4 5 4 5 Ú Û Ú Û © ¨ © 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 Ø Ù Ø Ù Ø Ù Ú Ö © Ø 5 Õ Ô Ô Õ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ H I H I H I G FG F J J K K E DE D D ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ H I H I H I B C B C B C © ¨ A @A @ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ ? >? > > 4 5 4 5 Ø Ø × 4 5 4 5 4 5 Ú Ö× Ö 4 5 4 5 4 © ¨ © Ò Ó Ò Ó 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 < < = = ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ : : ; ; 8 8 9 9 7 : Î 5 Ò ! ! ÎÏ Î 5 4 5 4 5 4 5 4 " 5 # #" % Ì ) 6 + 5 " 5 $ % % 4 ) 5 Ê #" % * 5 4 5 Ë ËÊ # , $ / 4 5 -, / 1 ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © 6 7 6 7 6 : 4 4 5 8 8 9 ¨ 0 1 ¨ © ¨ © ¨ © ¨ © ¨ © 0 1 0 5 4 4 / ./ 2 3 2 ¨ © ¨ 3 2 3 2 6 0 3 © ¨ 2 . 1 10 É ÈÉ È 3 6 & & ' & ' 2 3 © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © © ¨ ¨ © © . 4 4 . 5 5 - * $ 4 ( * & + ( ) 4 Í & ÌÍ ( 4 9 $ & ' 5 4 5 ' Ì Ï Ò Ê 4 Ð Ñ 5 4 5 ! ! 4 Ð Ñ Ð Ñ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ( ( ) ( ) ) 2 2 3 3 * * + * + 5 54 4 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 Ë ËÊ Ê Ê - -, , " " 6 6 7 7 Ç ÆÇ Æ Æ . . / / 9 98 8 - -, , 0 0 0 0 ; ;: : 1 : 10 ) )( ( ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ( ( ( < < = 2 = 2 3 3 Å ÄÅ Ä 5 54 4 ? ?> > 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 6 6 7 7 @ @ A A : D © 2 G 4 4 98 9 C ; E ED ¨ A < F F G ? ?> H H I H I @ @ A K KJ J * + * + * + - -, , þ ÿ ÿþ ýü ü û ûú ú ùø & ( ò ñð ¨ © ¨ ïî $ íì ëê éè þ çæ ü åä ö © ¨ © ¨ © % %$ ú "# " # ýü ÿ û ûú ÿþ ¨ © ¨ © ¨ ÷ ÷ö ó óò õô ( ' &' ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © 2 < = B B C B C ;: > 4 = : . 5 4 5 4 5 4 5 Á 4 5 ÀÁ À 8 à 4 5 4 5 4 5 . / /  Ã 8 8   F F G G R S R S R S H H I H I UT T ½ W W K KJ J ON L NM M ùø ãâ â áà ÷ ÷ö ö õô Þ Þ ß ß Ü ó óò ò Ý ÝÜ Ø ñð Ú ÚÙ Û ÙØ Û ! ! ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ U V ïî ×Ö Ö $ $ Ô íì ÕÔ ëê ÓÒ éè ÑÐ çæ ýü ü ÏÎ û ûú ú åä ÍÌ V ùø ãâ â ËÊ áà ÉÈ ö ö L © ¨ © ¨ © ¨ © ¨ © < 4 ¼ ½¼ O Q QP P E P ED D < = = 5 4 5 4 5 4 5 4 5 ¼ L ¿ ¾¿ ¾ 4 5 4 5 4 5 O ON L NM M B B C B C C YX X ÇÆ Y Þ Þ ß ß Ä Ä Å Å Ü Ý ÝÜ ¡ ¡ Q QP P P D D ! ¨ ÏÎ a ² X c ¯® Ü ­¬ ñð Ú ÚÙ Û ÙØ Û Ø Ã Ã  ! ÁÀ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © î ×Ö ¿¾ d ©¨ » ÍÌ © ì ÕÔ Ô ] ]\ ÓÒ ÑÐ º º » £ ¢£ ¢ ¢ çæ ¹ ¹¸ ^ ¸ ^ _ W åä ´ ´ µ µ V V â â ËÊ ` ` a ` a O L áà ÉÈ ³² YX ° ÇÆ ± Y ±° ¥ ¥¤ ¤ b b c b c Ä Ä Å Å Ü Ã Ã  Z [ e ed ÁÀ ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © «ª ¨ © ¨ © ¨ Ö Ö ¿¾ ¾ Ô Ô ] ]\ \ R f g f g f g ½¼ ¥¤ £¢ ¦ § ¦ § ¦ § º º » » i ¹ ih ¹¸ h ^ ¸ ^ _ _ Î ¡ ·¶ Ì ´ ´ µ µ ON L S R U W S \ R UT R S NM ¨ R S ¡ ¨ © M a j j k k ` ` a ` a ³² ² R S §¦ Z ¨ © ¨ © ¨ © ¨ c  «ª \ ¼ ¥¤ £¢ s ° ÇÆ ± ±° ¤ ¤ m ml l b b c b c Ä Ä Å Å ¯® ­¬  e ed d n n o À o ©¨ ] ]\ f g f g f g §¦ q qp p º º ^ i ih ¸ h ^ ¸ r r s ¡ ¡ [ © 4 Z Ö ·¶ 4 4 5 4 5 5 4 5 4 5 4 5 4 ³ ²³ 4 5 5 Z Z · 4 [ [ © 5 5 ¶· 4 4 ¸ µ 4 5 ´µ 5 5 ² 4 S ½¼ _ ¹ ¶ 5 4 T ½ ¹¸ [ ¾ F F ¼ ½¼ ¸ 4 5 4 4 5 5 4 5 4 5 4 5 4 5 Z © ¨ © ¨ © ¨ © ´ 4 5 k t j j k u ut 4 ¸ 5 ¼ [ » º» º 5 ± °± ° m ml l b b b x ¨ f f f q qp p { v w y yx z z { r r s s } | | } | } t u ut ~ ~ m ml l v w v w v n n o o ª w v 4 ¯ ¯® ® w v w 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 ­ ¬­ ¬ ¬ n n y yx x q qp p z z { { 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 ® ® | | } | } } ª « ª « ª « t t ~ ~ - ,- , , x x z z 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 . / . / . / 1 01 0 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 . . . 2 3 32 4 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 2 2 4 4 4 4 4 4 4 4 i =1 q X © Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À À À Á À À Á À Á Á À Á À Á À Á À 4 5 £¢ À Á À Á ± µ´ Zulässige Menge von (MILP): S := P ∩ © ¨ © ¨ © ¨ © ¨ © Á 4 À Á Á À Á 4 5 4 5 4 5 4 5 ¯® ³² convS © ¨ © À À Á À Á À Á À Á À Á À Á À Á ¨ ° ±° λi x i , © ¨ ! 4 À Á À Á " À Á 4 5 Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á P © ¨ © ¨ © ¨ © ¨ © ¨ © ¨ © 4 À Á 4 5 À Á Á À Á À Á À Á À Á À Á À Á À Á À Á À Á À Á i =1 q X ¨ © # #" 4 5 Á À Á À Á À Á À Á À Á À Á À Á $ % 5 À Á Á 4 5 À Á 4 5 À Á À Á " 5 À Á 4 À Á À Á À Á À Á $ ' 5 À Á À Á À Á À Á % ' )( 4( 5 5 4( 5 5 4 5 4 5 4 5 4 5 4 5 4 5 4 5 À Á À Á À : x= 4 5 5 4 4 5 5 4 4 5 4 5 4 5 5 4 4 5 5 4 4 5 4 5 5 4 À Á Á À À Á Á À n 5 Satz E.12 Polyeder: P = {x ∈ 4 ' ganzzahlige Lösung À PSfrag replacements n Á unzulässig ¶ xi ≥ bxiS c + 1 ·¶ 2. Wenn die Liste leer ist, Stop: Problem (MILP) ist gelöst, Lösung: x ∗ . ² 1. Initialisiere die Liste der aktiven Subprobleme mit dem gegebenen Problem (MILP), x ∗ := NULL. ¶ Das Branch-&-Bound-Verfahren ·¶ Lineare Optimierung ² Grundlagen der Optimierung À Mathematik für Informatiker III Á x̄ ∈ S =⇒ c T x̄ ≥ min c T x x∈ À Zulässige Punkte liefern globale obere Schranken: Á 5. (SUB) ist unzulässig, gehe zu (10). Á convS = À Á x∈S À Á S = S1 ∪ S2 =⇒ min c x ≥ min c x T À Á Lösungen von Teilproblemen liefern globale obere Schranken: À x∈Si Á S̄i ⊇ Si =⇒ min c T x ≤ min c T x À Lineare Optimierung 5 Grundlagen der Optimierung Á 6. Lösung ist schlechter als bisher gefundener bester Punkt x ∗ , gehe zu (10). xS xi ≤ bxiS c T 4. Löse die LP-Relaxierung von (SUB). 3. Entferne ein Subproblem (SUB) aus der Liste, und arbeite es wie folgt ab. I x∈Si I x∈S̄i I Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Konvexe Hülle Relaxierungen liefern lokale untere Schranken: : Ax ≤ b} (Annahme: dim P = n) |J| Die konvexe Hülle von S ist die kleinste konvexe Menge, die S enhält. λi = 1, λi ≥ 0, {x 1 , . . . , x q } ist eine beliebige endliche Menge von Punkten aus S x∈S – 161 – – 163 – Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Konvexe Hülle convS ist ein Polyeder mit Punkten von S als Ecken. Die komplette Beschreibung von convS erfordert u. U. sehr viele (∼ exp n) Ungleichungen. Deshalb arbeitet man besser mit Schnittebenen. – 164 – ! / $ . . . / / . / % # #" ! ." / . / $% . # #" ." / ." / / ." . / / . . / . / . / / . . / / . . / . / / . . / / . . ! ! ¢ £ ¢ £ ¢ £ ¢ £ . / . / . / . / . / . / . / . / / £ / » º » º » º » º » £ » º » º » º » ¢ £ ¢ £ ¢ £ º » º » º » º » º » » º ¢ º » º » » º » º » º » º º » » º . / » º » º » º » . / º » . / º » º » . / º » . / º » . / º » º » . / º » ¢ £ ¢ £ ¢ £ ¢ . / . / . / . / . / . / . / . º » º » . º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » » º º » » º º » º ¢ £ ¢ £ ¢ £ ¢ £ . / . / . / . / . / . / . / . / ¢ ¢ ¢ ¢ 4 =< ¸ ·¶ A µ´ ¢ ¢ £ ¢ £ £ ¢ £ ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¹¸ º » º » º » ³² º » º » º » º » º » º » GF 1 10 0 £ 2 ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ 98 ?> ED ¢ £ IH ¢ £ H ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ 32 76 ;: CB º » º » º » º » º » º » º » º » º ¢ 5 54 < @ A@ B º » 32 £ 1 10 £ ¢ º » º » º » ³² º » ¢ £ 2 £ µ´ 0 ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ ·¶ º » º » º » º » º » º » º » º » º » º » º » º » º » º ¢ ¹¸ ¸ º » £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ º » º » º » º » º » º » º » º » º » º » º » º » £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ º » º » º » º » ¢ £ ¢ £ ¢ £ 5 54 4 KJ 76 ML 98 ON =< < QP ;: SR ?> UT T V WV @ ¶ A A@ [Z ED 0 £ a` cb d SR À Á l àh j n D E D E D E D E D E D E ´ D E D E D E D E D E D E CB D E B D E D E D E D E YX D E D E D E D E D E D E D E D E D qp [Z º » sr ut £ a` d f º ML g gf f ih T kj V ml on E D E D E D E D E D E D E º » º » º » º » º » º » ¢ D E º 98 ;: º 4 º E D E º » ¢ E D E º º º ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ D E ¢ £ D E ¢ £ D E D E _^ ^ ¢ GF ]\ ¢ £ ¢ » £ º » D » E D » ¢ º » £ ¢ º E D » £ ¢ º £ 2 » ² º » 0 º » 5 D º E » 54 º » £ 2 ¢ º » £ D º ¢ » £ ¢ £ º » º » D º E » ¢ º » £ D » E D E » ¢ º » £ IH ¢ £ º » D º E D E » H ¢ º » £ ¢ º » D » E º » £ ¢ º £ YX D » UT WV º ¢ » £ º » GF KJ ON e ed º £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ » _^ º ]\ » º » º » º » º » º ~ j l n D E D E D E cb {z } }| h D E D E ML ON e ed g gf ih kj WV V ml E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E YX D on D E D º D » » | . / E º » » yxwv D E º » ¢ E º » D E º » D D D E E E D E D E z D º » º » . / E D E D E º QP » . / º ^ º » » º » º » E D E D . . º / » . / / D E º » º » D D E D . / º » E D D E D E E º » D E E àD . / º » D E E À À Á E º » . / . º D . E » / . / º » D D ÅÄ ¿¾ D E / ½ E . / º » D E E . / º » D E . º » / À D E [Z qp º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » sr ÇÆ ut ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ yxwv ÅÄ ~ ~ ~ %$ z {z } #" }| | . / . / . / . / . / . / . / . / ~ ! ¿¾ | } | } | } À À Á Á ÿþ  D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E ýü D E ü D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E p º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » º » ûú º » º » º » º » º » º » º » º » º » º » º » º » º » º » ¡ º » ¡ º » º » º » º » º » r ¢ ùø ø ÇÆ £¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ z ¢ £ z ¢{ £ ¢{ £ ÷ ¢ £ ÷ö ¢ £ ö ¢ £ ¢ £ ¢ £ Ä ¥¤ õô ~ ~ ~ %$ §¦ óò #" ©¨ ñð . / . / . / . / . / . / . / . / ~ « «ª ª ¬ ïî î ! ­ ­¬ x í x y íì y ì ¯® ëê ± ±° ° éè ÿþ D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E )( D E ( D E D E D E D E D E ýü D E ü D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E '& ûú ¡ ¡ v v w w ¢ Gç GFçæ Fæ ùø ø £¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ åä ¢ £ ä ¢ £ ¢ £ ¢ £ ¢ £ ÷ ¢ £ ÷ö ¢ £ ö ¢ £ ¢ £ ¢ £ ¥¤ ã ãâ â õô §¦ áà óò #" ©¨ ßÞ ñð . / . / . / . / . / . / . / . / « «ª ª ¬ ÝÜ t t u u ïî î ! ­ ­¬ Û ÛÚ Ú x í x y íì y ì ÿ þÿ þ ¯® ÙØ ëê ± ±° ° ×Ö éè D E D E D E D E D E D E D E D E D E D E D E D E ÕÔ D E D E D E D E D E D E )( D E ( D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E ÉÈ r '& r s s ¡ ¡ ÓÒ ¢ Gç GFçæ Fæ ùø ø £¢ ÑÐ Ð ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ åä ¢ £ ä ¢ £ ¢ £ ¢ £ ¢ £ ÷ ¢ £ ÷ö ¢ £ ö ¢ £ ¢ £ ¢ £ ÏÎ ý üý ü ã ãâ â ÍÌ áà Ë ËÊ Ê ßÞ p p q q ñð . / . / . / . / . / . / . / . / « «ª ª +* ÝÜ ïî î -, Û ÛÚ Ú í íì ì C CB B ÙØ A@ ×Ö û ûú ú ú ?> n o n o n o D E D E D E D E D E D E D E D E D E D E D E D E ÕÔ D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E D E =< < ÉÈ '& ;: ÓÒ 98 ÑÐ Ð ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ 76 ÏÎ l l m m 54 ÍÌ à /. ù ùø ø ø Ë ËÊ Ê p p q q . / . / . / . / . / . / . / . / 10 +* Ü 32 -, C CB B ÙØ j j k k A@ ×Ö ú ú ú ?> n o n o n o ÷ ö÷ ö < =< ;: 98 ÑÐ Ð ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ 76 ÏÎ h i h i h i 54 Ì /. ø ø ø . / . / . / . / . / . / . / . / 10 +* õ ôõ ô 32 g fg f f B B j j ?> < < ò ;: d d e e ó óò 98 h h h /. b b c c ð ñ ñð ^ ` ^ a`_ a_ ò d d e e ó óò ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ï îï î \ \ ] ] . / . / . / . / . / . / . / . / b b c c ð ð íë íìëê ìê Z Z [ [ ^ ` ^ a`_ a_ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ X X Y Y é éè è . / . / . / . / . / . / . / . / V V W W ìê ìê ç çæ æ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ T T U U é éè è . / . / . / . / . / . / . / . / å åä ä Schnittebene ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ . / . / . / . / . / . / . / . / R R S S V V W W ç çæ æ ã ãâ â P P Q Q à R L â P Þ ß . / . / J à H £ ¢ £ ¢ £ N O O LM P ¢ ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ ¢ £ £ ¢ ¢ £ £ M ¢ £ ¢ £ ¢ R £ N ¢ £ K JK N O N O ¢ £ ¢ £ T ¢ N O L £ N O ¢ £ I HI Ú £ ¢ £ ¢ . / . / . / . / . / . / . / . / × Ö× Ö Ö £ Ò Ó Ò Ó Ô £ ¢ . / . / . Ò Ó / . / . / . / . / . / Ô Õ Õ £ A @A D D ? >? ¢ ¢ £ ¢ £ ¢ ¢ £ £ ¢ £ ¢ ¢ £ ¢ £ £ ¢ £ ¢ ¢ £ £ ¢ £ ¢ ¢ £ ¢ £ ¢ £ £ ¢ ¢ £ £ ¢ ¢ £ ¢ £ £ ¢ ¢ B C £ ¢ B C B C B > ¢ £ C E > ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ B @ E ¢ £ C B C ¢ £ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ D D E E Ù ØÙ ¢ . / . / . / Ø ¢ G FG F F Û ÚÛ . / £ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ ¢ ¢ £ ¢ ¢ £ ¢ £ £ ¢ £ £ ¢ £ ¢ £ £ ¢ ¢ £ £ ¢ ¢ £ ¢ £ ¢ £ £ ¢ £ ¢ ¢ £ £ ¢ £ ¢ ¢ £ ¢ £ ¢ ¢ £ £ ¢ ¢ £ £ £ ¢ ¢ £ ¢ ¢ £ Ü Ý Ü Ý ¢ £ à à £ ¢ £ ¢ . / . / . ã ãâ Þ / á áà Þ ß . ä à / . / . / . / . Ü / . . / / . . . / £ T ä Ý / ß . / / . . / / . . / / Ô Ð £ / Ò Ï Ò < = < = < = £ ; :; : ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ 9 89 8 8 ¢ Î . / . / . / Ñ Î Ï Ô Ò . / ÐÑ Ð . / . / . / . £ ¢ £ Ì Í Ì Í . / . / . / . / . / . / . / . / 6 6 7 7 ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ 4 4 5 5 convS £ ¢ £ ¢ £ º » º » ½ . / º » D E D E Á D ½¼ E º D E » D E º » º 2 2 3 3 1 4 È / / Æ 0 $ / / Ì È . / . / . / / 3 & %$ % / . ( ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ 0 1 0 1 0 4 . . / 2 2 3 ! à ( ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ ¢ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ / , , - ¢ £ ' '& 1 10 0 Á ÀÁ À À ( ) )( 3 32 2 & 5 54 4 + 4 +* * ¢ ¢ £ ¢ £ £ ¢ £ ¢ ¢ £ ¢ £ ¢ £ ¢ # #" " £ * ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ " " " £ ' '& * * ¢ ¢ / . / Å & £ £ . /. . / . / ÅÄ Ä Ä ¢ % %$ . / . / . / ¢ - -, , $ $ . / . / £ £ ¢ £ ¢ ) () £ . . ¢ * + ¢ £ ¢ £ * £ ¢ * + , ¢ - 0 ¢ , - £ £ , - £ , - 0 ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ £ ¢ £ ¢ + +* £ ¢ £ ¢ £ ) )( + ' '& . / Å " # . Âà " . / * " . !  # ÅÄ # / Ç ! ÆÇ . " / # $ . / " Ä Ä # / . / " . . . / # ! Æ É . / Ì ÈÉ Ê Ë Ê Ë . Ê Ë 7 76 6 - -, , ¿ ¾¿ ¾ . / /. . / . / . / . / . / . / . / . / 9 98 8 1 10 0 : ; ;: ( 4 ? £ , A . 3 < = < = < = ÿþ ü ý ýü ûú $ % $ % $ % & ' '& ø ù ø ù ö ÷ö õ õô ô óò ! ! ñ ñð ð 5 54 6 8 > > ? ïî " " íì ì ëê ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ 7 76 @ @ A 98 C CB B 9 B : ; ;: > ? > ? J J £ ¢ £ 7 76 6 @ A @ A M L M . / . / . / . / . / . / C CB B B O · ·¶ ¶ ¶ D KJ ¢ £ ¢ £ M L L N O N ED E Q Q P P ÿþ éè ý ýü ü çæ ûú åä ãâ ø ù ø ù ÷ö ö áà õ õô ô ßÞ Ü ÛÚ Ù Ö ÕÓ ¢ Ð Î ÍÌ ËÊ ÇÆ £ ð ÑÐ Ø ×Ö Ò åä ãâ ßÞ óò ïî ëê éè çæ ô ö S R S N ¢ £ ¢ £ ¢ £ ¢ £ è ÑÐ ¹¸ Î æ ÏÎ ÍÌ ËÊ µ ³ ³² ² X ÉÈ ±° ­ ÇÆ HF S ] ©¨ Ö _ à ßÞ £ ¯® R ÝÜ Ü ÅÄ ÛÚ Ã ¬ ¬ ÁÀ « \ ] \ U ¿ T ½ §¦ £ ¢ £ ¥¤ ¢ £ £ ¢ ¾ ¿ ¾ Ö ¼ ¼ ½ ^ ^ _ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ »º ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £¢ M Ð L M M L ¸ Ð ¹¸ Î Î V W V W L ¡ a ` a ` a ` ·¶ ´ Y X ¡ ¡ ¡ µ µ´ ³ b ³² c b ² c X Y È Æ ±° ¯® ® d e d e Z [ Z ] [ «ª \ Z R S ª [ Z Z [ [ Z [ ¢ £ ¢ IG ® P Q P Q IHGF ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ £ »º ¢ µ´ X Y ëê ¢ £ V W Ô Ò ÕÔÓ Ò ÕÓ ¼ ½ ¼ ½ £ ¢ £ ¢ £ ¢ £ ¢ £ ¢ V T ¢ £ ¬ ¬ ­ ¢ U T ×Ö Ö Ð N O ] §¦ _ W k m ÁÀ « «ª ª f g f g \ ] \ ] \ ¾ ¿ ¾ ¿ ©¨ ¼ ¼ ^ ^ _ »º h i h i ¥¤ £¢ V W V ` a ` a ` a ¡ j k ¶j ´ ´ b ² c b ² c X X l l m . / . / Ø Ù Ø Ù ¾ ¿ ·¶ Y . / . / T ¸ ´ O . . . / . / . / / ­ ¬­ . / ¬ . / U £ ¢ W L M L M L M ± . / T U ² °± ° ¯ . U K £ . / . ð ð ÁÀ ¾ ¿ @ A @ A ³ ³² / ®¯ T £ ¢ £ ¢ £ ¢ £ · ·¶ ¶ / . / . / . / . / ² . / / . / e o d e d n o n U KJ J J ® . ² / ÛÚ R > ? > ? µ ´µ ´ . ¶ / . / óò ÝÜ Ü ÅÄ Ã IG IHGF HF õ õô ÷ö ¢ £ ¢ ¢ £ £ ¢ £ ñ ñð íì ¢ £ ¢ £ ¢ ì ¢ £ ÝÜ Ô Ø Ù £ ¢ £ ÕÔÓ Ò ÏÎ ¢ £ ¢ £ ¢ áà ¢ £ ¢ £ ¢ £ £ ¢ £ ¢ £ ¢ £ ÉÈ ¢ £ ¢ £ ¢ £ ¢ K IG IHGF E ED ¹ ¸¹ ¸ . / . / HF < = < = < = 2 2 ¼ ¼ D 32 4 . / . . / . / . / . / . / , » º» º . / . / 2 ) )( ½ ½¼ ¼ P £ ¢ £ ¢ £ º x+ £ ¿¾ Á º D » ½¼ º » º » E D E º » ¼ º » ¼ » º º » » º º » » º º » » Sfrag replacements / / º » » º º » » º º » » « ª« ª f g f g \ ] \ ] \ ] p q p q p q h i h i ¤ r s r s ¢ ` ` ` j k j k t u t u . / . / . / . / . / . / . / . / ¨ © ©¨ l m l m { s k p u x x u w y v x y | ~ ~ x | } z { t } z n o n r v w t v s w y o p v j r j k w h q p q f g f y q h ¤ ¤ ¥ g ¨ ¨ ¥ ¤ ¥ . / . / . / . / . / . / . / . / v n o n o § §¦ ¦ ¦ v w w z { z { § §¦ ¦ ¦ ' &' & & | } | } r r ~ ~ t t . / . / . / . / . / . / . / . / ( ) ( ) ( ) | } | } + *+ * . / . / . / . / . / . / . / . / ( ( ( - ,- , . / . / . / . / . / . / . / . / . . . . . . . . Mathematik für Informatiker III Grundlagen der Optimierung Mathematik für Informatiker III Lineare Optimierung Grundlagen der Optimierung Lineare Optimierung Gültige Ungleichungen und Facetten Schnittebenenalgorithmus Gültige Ungleichungen für convS sind Ungleichungen, für die gilt: für das Problem min{c T x : x ∈ P ∩ αT x ≤ β ∀x ∈ convS Eine Seitenfläche von convS der Dimension k wird beschrieben durch PSfragdiereplacements eine gültige Ungleichung für convS, von genau k + 1 affin unabhängigen Punkten aus convS mit Gleichheit erfüllt wird. x1 x1 − x 0 x0 , x1 , . . . , xk affin unabhängig x2 ⇐⇒ x1 − x0 , . . . , xk − x0 linear unabhängig: x − x0 2 x0 Seitenflächen der Dimension 0 heißen Ecken Seitenflächen der Dimension 1 heißen Kanten ... Seitenflächen der Dimension n − 1 heißen Facetten. Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Schnittebenen (eigentlich Schnitthyperebenen) I I Abschneiden eines Punktes x + 6∈ S: 1. αT x ≤ β ∀x ∈ S 2. αT x + > β Separationsproblem: Finde eine Ungleichung (aus einer Familie von möglichen Ungleichungen), die x + abschneidet. I Am besten: Facetten von convS als Schnittebenen. – 166 – |J| } 1. t := 1. P 1 := P. 2. Löse die LP-Relaxierung c T x t := min{c T x : x ∈ P t }. Falls xjt ∈ ∀j ∈ J, STOP: (MILP) gelöst. 3. Generiere eine odere mehrere Schnittebenen αj x ≤ β j , T die x t von P t abschneiden. T 4. Definiere P t+1 durch Hinzufügen der Ungleichung(en) αj x ≤ β j zu t P (und evtl. durch Entfernen einiger vorher hinzugefügter Ungleichungen). 5. Setze t := t + 1, und gehe zu (2). – 165 – – 167 – Mathematik für Informatiker III Grundlagen der Optimierung Lineare Optimierung Generieren von Schnittebenen Problemspezifische Facetten z. B. Facetten des TSP-Polytops Problem: Separation in polynomialer Laufzeit Lift-&-Project-Cuts für 0-1-Probleme Betrachte Facetten von min c T x Ax ≤ b xj ∈ [0; 1] ∀j ∈ J xi = 0 ∨ x i = 1 Farkas-Lemma → Charakterisierung der Facetten als Ecken eines Polyeders (Polare). Generierung von Facetten durch Lösung von LPs, die im wesentlichen doppelt so groß sind wie Ax ≤ b. Gomory-Cuts Runden von Koeffizienten, so daß die Ungleichung für ganzzahlige Punkte erfüllt bleibt, aber für nichtganzzahlige Punkte verschärft wird. – 168 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Lineare Optimierung Branch & Cut TSP Beispiele 15112 Knoten: 8246 Knoten: Kombiniere Branch & Bound und Schnittebenenalgorithmus. Generiere Schnittebenen in (einigen, vor allem frühen) Knoten, um (schnell) bessere Schranken zu erhalten. – 169 – Mathematik für Informatiker III – 171 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Lineare Optimierung Nichtlineare Optimierungsprobleme mit Komplexität TSP Beispiele Nichtlineare Optimierungsprobleme mit Komplexität 120 Knoten: Definition eines Nichtlinearen Optimierungsproblemes (NLP) 1000 Knoten: min f (x) x∈S bzw. min f (x) s.d. x ∈ S wobei die zulässige Menge S ⊆ Rn typischerweise definiert ist durch S ≡ {x ∈ Rn : h(x) = 0, c(x) ≤ 0} für Gleichungs- und Ungleichungsrestriktionen definiert durch h : Rn → Rm und c : Rn → Rp Falls m = 0 = p heisst das NLP Problem unrestringiert. Müssen einige Komponenten xj ganzzahlig sein so spricht man von einem MINLP in Analogie zum linearen MILP. – 170 – – 172 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Nichtlineare Optimierungsprobleme mit Komplexität Nichtlineare Optimierungsprobleme mit Komplexität Wirkung von Nichtlinearität und Nichtkonvexität I Entsprechendes Entscheidungsproblem: Für welche Schranke ϕ hat das System algebraischer Gleichungen und Ungleichungen f (x) ≤ ϕ, h(x) = 0, c(x) ≤ 0 Die scheinbar harmlose polynomiale (Zusatz-)Gleichung überhaupt eine Lösung x ∈ Rn ? xi (1 − xi ) = 0 Komplexitätsvergleich erzwingt, dass die i-te Variable xi binär ist, d.h. nur die Werte 0 oder 1 annehmen darf. ( Man kann so leicht das klassische Entscheidungsproblem SAT als NLP schreiben. ) Ein guter Anfangswert bedeutet hier praktisch die Vorentscheidung, ob x i nun 0 oder 1 sein soll. Das jeweilige Entscheidungsproblem ist nur unwesentlich einfacher als das Optimierungsproblem, da letzteres durch eine Folge von Entscheidungsproblemen mit variierendem ϕ approximativ gelöst werden kann. Bemerkung Nur im Falle konvexer NLP ( d.h. h muss linear sein, aber f und die p Komponenten von c können allgemeinere konvexe Funktionen sein ) werden keine guten Startwerte benötigt. Denn dann sind sowohl die Menge aller zulässigen und insbesondere die Menge aller optimalen Lösungen selbst konvex und es gibt keine lokalen Minima. Abgesehen vom unten besprochenen konvexen Fall ist schon das Entscheidungsproblem auch ohne Ganzzahligkeitsbedingung NP schwer. Unter Optimierern gehen die Meinungen über die praktische Bedeutung dieser theoretischen Aussage weit auseinander. – 173 – Mathematik für Informatiker III – 175 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Nichtlineare Optimierungsprobleme mit Komplexität Nichtlineare Ausgleichsprobleme Wirkung von Nichtlinearität und Nichtkonvexität II Nichtlineare Ausgleichsprobleme Eine wichtige Klasse (häufig unrestringierter) NLPs sind von der Form: Im Falle reiner Gleichungssysteme wurde festgestellt, dass nichtlineare Probleme, für die alle Funktionen stetig differenzierbar sind, im lokalen Sinne ( d.h. bei Vorgabe eines Anfangspunktes in der unmittelbaren Nähe einer Lösung ) nur unwesentlich schwerer als lineare Probleme sind. min f (z) ≡ 1 1 kF (z) − y k2 = (F (z) − y )> (F (z) − y ) 2 2 wobei F : Rn → Rm mit m ≥ n ein an verschiedenen Punkten ausgewertetes mathematisches Modell darstellt. Der Variablenvektor z soll so gewählt werden soll, dass der Euklidische Abstand kF (x) − y k zu ’gemessenen’ Daten y ∈ Rm möglichst klein ist. Das gilt auch in Kombination mit Ungleichungen. Als Verallgemeinerung von Newton’s Methode nähert man dann das gegebenen NLP durch eine Folge von Systemen aus linearen Gleichungen und Ungleichungen an. Bei der direkten Lösung des Optimierungsproblemes wird dabei die Zielfunktion quadratisch angenähert. Das führt zu den sogenannten sukzessiven quadratischen Optimierungsverfahren (SQP). Zum Beispiel könnte man die in Übung 3 Aufgabe 1 betrachteten ’synthetischen’ ( d.h. nicht wirklich gemessenen sondern künstlich erzeugten ) Daten Global, d.h. ohne Vorgabe guter Startwerte, sind nichtlineare Probleme viel schwerer, da schon die Suche nach einem auch nur annäherungsweise zulässigen Vektor einen in der Zahl seiner Komponenten exponentiellen Aufwand verursachen kann. yi = 1 , 1 + 25xi2 xi = {−.6, −.3, −.1, 0, .1, .3, .6}, für i = 1, . . . , 7 auch nichtlinear annähern. – 174 – – 176 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Nichtlineare Ausgleichsprobleme Nichtlineare Ausgleichsprobleme Gauss-Newton (Fortsetzung) Fortsetzung des Beispieles Statt die Daten durch eine Linearkombination von Monomen uj (x) = x j−1 oder sonstiger Basisfunktionen könnte man annehmen dass Wiederholung führt hier unter Nutzung der Normalengleichung zur Gauss-Newton - Iteration −1 0 > F (z) F (z) z ← z − F 0 (z)> F 0 (z) yi ≈ Fi (z) ≡ ϕ(xi , z) mit ϕ(x, z) ≡ z1 + z2 cos(z3 x + z4 ) Mit anderen Worten: Wir nutzen eine Kosinusfunktion mit den vier Parametern z ≡ (zi )i =1,...,4 als Modell für unsere Daten. Offensichtlich ist nun F (z) − y = (Fi (z) − yi )i =1,...,4 nicht mehr linear und entsprechend f (z) ≡ kF (z) − y k2 /2 auch nicht quadratisch in z. Wegen der Oszillationen der Kosinusfunktion ist dieses Problem auch nicht konvex und hat mehrere lokale Minima. Unter geeigneten Vorraussetzungen ergibt sich von guten Anfangspunkten lineare Konvergenz gegen ein lokales Minimum von f (z) = 1/2kF (z) − y k2 . Dabei muss gegebenenfalls eine Dämpfung der Schrittweite eingesetzt werden und selbst mit ihr ist Konvergenz von beliebigen Anfangspunkten nicht garantiert. Nichtlineare Ausgleichsprobleme können entweder mit allgemeinen Algorithmen zur nichtlinearen Optimierung oder mit verschiedenen Varianten des sogenannten Gauss-Newton - Verfahrens gelöst werden. – 177 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Nichtlineare Ausgleichsprobleme Klassen von Optimierungsverfahren Gauss-Newton Lösbarkeit allgemeiner NLPs Bei dieser Verallgemeinerung des Newton-Verfahrens wird am jeweiligen Annäherungswert z für einen zunächst beliebigen Schritt s approximiert Man unterscheidet drei Möglichkeiten (i) zulässig 0 F (z + s) ≈ Fz (s) ≡ F (z) + F (z)s 0 – 179 – (ii) beschränkt m×n (iii) lösbar wiederum die aus allen ersten partiellen Ableitungen wobei F (z) ∈ R ∂Fi /∂zj von F nach z geformte Jacobimatrix darstellt. Während im Newtonverfahren der Schritte s so gewählt wird, dass das Gleichungssystem F 0 (z)s = −F (z) exakt erfüllt wird, geht dies im vorliegenden überbestimmten Falle m ≥ n im allgemeinen nicht. Hier wird wie beim linearen Ausgleichproblem s so gewählt, dass s das Residuum kF 0 (z)s + F (z)k minimiert. Im wohlbestimmten Falle m = n ergibt dies den exakten Newton-Schritt s = −F 0 (z)−1 F (z). ⇐⇒ ⇐⇒ ⇐⇒ ∅ 6= S ≡ {x ∈ Rn : h(x) = 0, c(x) ≤ 0} ∅ 6= argmin(f |S) ≡ {x ∈ S : f (x) = f∗ } −∞ < f∗ ≡ inf{f (x) : x ∈ S} Bei der Linearen Programmierung, d.h. wenn f , c, h linear sind gilt (i) & (ii) =⇒ (iii) sowie argmin(f |U ∩ S) ⊂ argmin(f |S) wobei f |M die Restriktion der Funktion f auf eine beliebige Teilmenge M seines Definitonsbereiches symbolisiert. – 178 – – 180 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Klassen von Optimierungsverfahren Klassen von Optimierungsverfahren S = [0, ∞), Nichtlineares Gegenbeispiel: f (x) = e −(x−1)2 Griewank’s function: The GA playground 1 10 0 0 8 2.5 6 2 4 2 1 (iv) (v) 3 1.5 zulässig und beschränkt, aber nicht lösbar. x = 0 ist lokales aber nicht globales Minimum. 0 1 −2 0.5 −4 0 10 Warnung: −6 Die Möglichkeiten (iv) und (v) können im Allgemeinen durch einen Optimierungsalgorithmus nicht festgestellt werden. 5 0 −10 −10 0 −5 −8 −6 −4 −2 0 2 4 6 8 10 −5 −10 −10 Praktisches Abbruchkriterium: Gib auf, wenn die an benachbarten zulässigen Punkten erzielbaren Reduktionen des Funktionswertes kleiner als eine vorgegebene Toleranz ist ( oder der Algorithmus anderen Hindernissen, wie zum Beispiel singulären Matrizen, begegnet ist.) −8 10 5 f (x) = 1 + n n X Y xi2 xi − cos √ 200 i i =1 i =1 google (Griewank function) =⇒ #1 ∈ 27 Kilohits – 181 – Mathematik für Informatiker III – 183 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Klassen von Optimierungsverfahren Klassen von Optimierungsverfahren Grundlegende algorithmische Herangehensweisen Comparison between PSA/GAc and GA (Griewank function) Lokale Abstiegsmethodik dim Ausgehend von x0 ∈ S erzeuge eine Folge xk+1 = xk + sk with Optimum Success rate Evaluations Success rate Evaluations f (xk+1 ) < f (xk ) so dass hoffentlich für ein offenes U lim xk = x∗ k→∞ with x∗ ∈ argmin(f |U ∩ S) 10 30 PSA 1.0e-5order 0.9 3008201 1.0 3118041 GA (20*20) 0 0.0 3200400 0.7 2922120 duGa 0 0.2 2676960 0.9 1819760 Comparison between PSA/GAc and GA (Rosenbrock function) Globale Optimierungsmethodik {xk }K k=1 n Erzeuge eine endliche Punktwolke X = ⊂ R möglicherweise unter Berücksichtigng des ”Fitnesswertes” f (xk ) und wähle Optimum Success rate Evaluations Success rate Evaluations x̌ ∈ argmin(f |S ∩ X ) See: Evolutionäre Algorithmen = Simmulated Annealing + Genetic Algorithms (GA) + ... – 182 – dim 10 30 1.0e-8order 1.0 2750721 1.0 2723441 0 0.0 3200400 0.0 3200400 0 0.0 3200400 0.0 3200400 – 184 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Unrestringierte nichtlineare Optimierung Unrestringierte nichtlineare Optimierung Optimalitätsbedingungen unrestringierten Fall (m = 0 = p) Höhenlinien der Rosenbrock – Funktion 3.5 =⇒ Minimiere f 2 0 ∇ f (x) ≡ ∂f ≡ Gradient verschwindet ∂xi i =1,...,n i =1,...,n j=1,...,n 2.5 2 löse g (x) ≡ ∇f (x) = 0 ist lokal äquivalent zu ∂2f ∂xi ∂xj 3 x2 0 = ∇f (x) ≡ 1.5 1 ≡ Hessematrix H(x) ist positiv semi-definite 0.5 0 g (x) = 0 ∧ H(x) 0 ∧ det(H(x)) 6= 0 =⇒ x lokales Minimum −0.5 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 x1 Grafik: Alt, Walter, Nichtlineare Optimierung – 185 – Mathematik für Informatiker III – 187 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Unrestringierte nichtlineare Optimierung Unrestringierte nichtlineare Optimierung Rosenbrock – Funktion Gradienten - Verfahren für Rosenbrock - Funktion 3.5 10 3 5 2.5 0 2 Start x2 −5 4 3 1.5 Solution 1 2 0.5 1 0 −1 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 0 2 −0.5 −3 −2.5 −2 −1.5 −1 −0.5 x1 0 0.5 1 1.5 2 Grafik: Alt, Walter, Nichtlineare Optimierung Grafik: Alt, Walter, Nichtlineare Optimierung – 186 – – 188 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Unrestringierte nichtlineare Optimierung Unrestringierte nichtlineare Optimierung Was klemmt beim Steilsten Abstieg (Cauchy,1847) ??? xk+1 = xk − αk gk mit BFGS - Verfahren für Rosenbrock - Funktion 3.5 αk ≈ argmin(f (xk − αgk )) α>0 3 Die Berechenung von αk heisst line-search bzw Strahlsuche . Für f (x1 , x2 ) = 12 (x12 + κx22 ) zeigt die Methode zigzaging: 2.5 x2 2 Start 1.5 Solution 1 PSfrag replacements x2 = x1 /κ x2 = −x1 /κ 0.5 0 Im allgemeinen Fall ist die Konvergenzrate 2 k ) ≈ kx0 − x∗ k(1 − 2k/κ) kxk − x∗ k ∼ kx0 − x∗ k(1 − κ+1 wobei κ = κ(H∗ ) ≡ kH∗ kkH∗−1k = λmax (H∗ )/λmin (H∗ ) −0.5 −3 −2.5 −2 −1.5 −1 −0.5 x1 0 0.5 1 1.5 2 Grafik: Alt, Walter, Nichtlineare Optimierung – 189 – Mathematik für Informatiker III – 191 – Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Unrestringierte nichtlineare Optimierung Unrestringierte nichtlineare Optimierung Bedeutung von Skalierungsinvarianz Mutations-Selektions - Verfahren für Rosenbrock-Funktion Steilster Abstieg funktioniert perfekt wenn κ(H(x∗ )) = 1 ⇐⇒ H(x∗ ) = I oder wenn angewandt auf das transformierte Problem −1/2 z) f˜(z) ≡ f (H∗ =⇒ Newton’s Methode ≈ Dynamische Transformation xk+1 = xk + αk sk mit H(xk )sk = −gk =⇒ Quasi–Newton Methode, z.B. Bk sk = −gk mit Hk ≈ Bk ≡ U(Bk−1 , sk−1 , gk − gk−1 ) dies ist der einzige Weg zur superlinearen Konvergenz, d.h. lim k→∞ kxk+1 − x∗ k =0 kxk − x∗ k Grafik: Alt, Walter, Nichtlineare Optimierung – 190 – – 192 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Unrestringierte nichtlineare Optimierung Restringierte Nichtlineare Optimierung Kosten der Linearen Algebra vs. Auswertungskomplexität Restringierte Nichtlineare Optimierung Umformungstricks zu unrestringiertem Problem OPS(Hk−1 gk ) = 13 n3 MEM(Hk ) = n2 OPS(Bk−1 gk ) Ungleichungsrestriktion ∼ n2 MEM(Bk ) = k n for LM-BFGS cj (x) ≤ 0 LM ≡ Limited Memory Version OPS(∇f (x)) OPS(f (x)) OPS(∇2 f (x)) OPS(f (x)) ≤ 4 via Algorithmischem Differenzieren ≈ 4n im schlimssten vollbesetzten Fall cj (x)+zje = 0 ⇐⇒ Gleichheitsrestriktion Vorzeichenbedingung oder quadrierter Schlupf konvertierbar zu e = 1 und zj ≥ 0 mit oder e=2 Bewertungsfunktion: wobei fρ (x) ≡ f (x) + ρp(h(x)) + ρ1 b(c(x)) p(z) b(z) = Strafe für z = 6 0 e.g. p(z) = z 2 = Barriere für z → 0 e.g. b(z) = − ln(z) Unter ziemlich allgemeinen Voraussetzungen gilt dann lim xρ ≡ argmin fρ (x) = x∗ ∈ argmin(f |M) ρ→0 x∈R n – 193 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Unrestringierte nichtlineare Optimierung Restringierte Nichtlineare Optimierung Zwischenfolgerungen (für den unrestringierten Fall) I I KKT Optimalitätsbedingungen für restringierte Minima An lokalen Minimalpunkten muss die Lagrangefunktion Gradienten kosten nur ein kleines Vielfaches der zu Grunde liegenden Funktionsauswertung vorrausgesetzt diese ist durch einen Auswertungscode gegeben. L(x, λ, µ) = f (x) + Gradientenbasierte quasi–Newton Methoden sind ein guter Kompromiss zwischen langsamen ableitungsfreien Verfahren und teuren Methoden zweiter Ordnung wie z.B. Newton. I Bei unrestringierten Problemen kann durch Strahlsuche Konvergenz zu einem stationären Punkt erzwungen werden. I Globale Optimierung ist extrem teuer und/oder sehr unzuverlässig. m X λj hj (x) + j=1 Hesse- und Jacobimatrizen, e.g. ∇2 f und im beschränkten Falle ∇h, ∇c, können sehr teuer zu faktorisieren sein, falls sie keine geeignete Dünnbesetzheitsstruktur besitzen. I – 195 – n X µi ci (x) i =1 mit µi ≥ 0 nach Karush (1939) und Kuhn-Tucker (1951) die folgenden Bedingungen erster Ordnung erfüllen ∇x L(x, λ, µ) ∇µ L(x, λ, µ) = 0, ≤ 0 ≤ µ, ∇λ L(x, λ, µ) µT ∇µ L(x, λ, µ) = 0 = 0 Als Bedingung zweiter Ordnung muss gelten für beliebige v ∈ Rn ∇h(x)v = 0, – 194 – diag(µi )∇c(x)v = 0 =⇒ v T ∇2x L(x, λ, µ)v ≥ 0 – 196 – Mathematik für Informatiker III Mathematik für Informatiker III Grundlagen der Optimierung Grundlagen der Optimierung Restringierte Nichtlineare Optimierung Restringierte Nichtlineare Optimierung Schlussfolgerung bezüglich restringierter Probleme Erweiterte Lagrange Methoden (MINOS(1970),LANCELOT(1988)) Minimiere p X 1 Lρ (x, λ, µ) = L(x, λ, µ) + ρ khk2 + max(0, ci )2 2 i =1 I welche identische Minima xρ = x∗ für grosses ρ und korrektes λ,µ hat. I Sequentielle Quadratische Programmierung (Wilson(1963), Powell) I Minimiere f (x) + g (x)T s + 12 s T Bs s.t.h(x) + ∇h(x)s c(x) + ∇c(x)s wobei B ≈ ∇2x L(x, λ, µ) = ∇2 f (x) + = 0 ≤ 0 m X j=1 mit linearen Restriktionen λj ∇2 hj (x) + p X i =1 I I µi ∇2 gi (x) Wesentlich schwerer als unrestringierte Probleme, Auffinden eines zulässigen Punktes nicht garantiert. SQP Methoden effizient und zuverlässig auf Problemen mittlerer Grösse, d.h. mit einigen hundert Variablen und Restriktionen. Bei noch grösseren Problemen scheinen Innere Punkt Methoden derzeit am effektivsten. Anwendung von SQP und Innere Punktmethoden in Praxis verlangt oftmals (zu) hohen Implementierungsaufwand. Lokale Optimierung ≡ Fine Tuning 6= Strukturelle Optimierung . alle Krümmungsinformationen enthält. – 197 – Mathematik für Informatiker III – 199 – Mathematik für Informatiker III Grundlagen der Optimierung Restringierte Nichtlineare Optimierung problem nv nc ipopt knitro -d -a loqo pennon snopt bearing200 bearing400 camshape1600 camshape6400 elec200 elec400 gasoil1600 gasoil3200 marine800 marine1600 pinene1600 pinene3200 robot800 robot1600 rocket6400 rocket12800 steering6400 steering12800 40000 160000 1600 6400 600 1200 16001 32001 19215 38415 32000 64000 7199 14399 25601 51201 32000 32000 0 0 3200 12800 200 400 15998 31998 19192 38392 31995 63995 4801 9601 19200 38400 25601 25601 10 106 3 17 84 994 8 26 8 42 14 54 4 10 18 36 9 19 236 856 31 178 14 63 164 1239 11 39 8 42 3 10 6 17 7 21 10 67 1 7 22 164 120 748 14 31 15 60 6 12 18 37 12 32 93 1018 c t 27 190 923 5163 3039 t t t 12 48 1918 t t t 11 89 4 i 67 1296 15 110 28 204 17 66 i t 14 37 t t 29 173 fail fail 34 183 t t t t 40 123 fail fail fail fail 10 31 fail fail 10 177 46 78 225 688 t t loop 78 149 1335 loop 298 – 198 – Teil F Kombinatorik und Wahrscheinlichkeitsrechnung Endliche Wahrscheinlichkeitsräume Elementare Definitionen Bedingte Wahrscheinlichkeit Unabhängigkeit von Ereignissen Produktexperimente Zufallsvariablen Erwartungswert, Varianz, Kovarianz Das schwache Gesetz der großen Zahlen Unendliche Wahrscheinlichkeitsräume Diskrete Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume – 200 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Literaturhinweise I Beispiel F.1 (Experiment: Zweimaliges Würfeln) Peter Hartmann, Mathematik für Informatiker. 3. überarbeitete Auflage, 2004, Vieweg. Bei Lehmann’s vorhanden, ca. 30e. Gute Grundlage, äusserst lesbar, nicht unbedingt an Eliteuniversitäten orientiert. ISBN: 3-528-23181-5 Die Menge aller möglichen Kombinationen ist Ω := {(i, j)|1 ≤ i, j ≤ 6}. Also gibt es |Ω| = 36 mögliche Ausgänge des Experimentes. Bei einem sogenannten fairen Würfel sind alle diese Ausgänge (Elementarereignisse) gleichwahrscheinlich. Z.B. geschieht das Ereignis {(1, 2)} = erst 1, dann 2“ mit einer Wahrscheinlichkeit von 1/36. Das ” Ereignis Summe der Augenzahlen ist höchstens 3“ entspricht der Menge ” A := {(1, 1), (1, 2), (2, 1)}. Es gilt also |A| = 3 und somit ist die Wahrscheinlichkeit für dieses Ereignis gleich 3/36 = 1/12. Lothar Sachs, Angewandte Statistik 10, 2002, Springer. Ulrich Krengel, Einführung in die Wahrscheinlichkeitstheorie und Statistik 6, 2002, Vieweg. – 201 – Mathematik für Informatiker III – 203 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Elementare Definitionen F - 1 Endliche Wahrscheinlichkeitsräume Elementare Definitionen Definition F.2 (Endlicher Wahrscheinlichkeitsraum) Wir betrachten folgendes Experiment: Eine Münze wird geworfen. Das Ergebnis sei entweder Kopf“ oder Zahl“. Der Ausgang eines solchen ” ” Experimentes ist nicht exakt vorraussagbar. Man müßte ein exaktes physikalisches Modell und alle nötigen Parameter, Anfangs- und Randdaten haben, was aber unmöglich ist. Sei Ω eine nicht-leere endliche Menge, also Ω = {1, 2, . . . , N} und P(Ω) deren Potenzmenge, d.h. die Menge aller Teilmengen von Ω. 1. Eine Wahrscheinlickeitsverteilung (oder auch ein Wahrscheinlichkeitsmaß ) auf Ω ist eine Abbildung P : P(Ω) → [0, 1] mit folgenden Eigenschaften: P(Ω) = 1, P(A ∪ B) = P(A) + P(B) für A ∩ B = ∅. Im betrachteten Fall sprechen wir von einem Zufallsexperiment. Die Wahrscheinlichkeitstheorie analysiert Gesetzmäßigkeiten solcher Zufallsexperimente. Jeder hat eine gewisse Vorstellung von der Aussage: Bei einer fairen ” Münze ist die Wahrscheinlichkeit für Kopf‘ genauso groß wie für ’ Zahl‘.“ ’ Intuitiv denkt man dabei etwa: Wenn man die Münze oft ” (hintereinander) wirft, so konvergiert die relative Häufigkeit von Kopf‘ ’ (von Zahl‘) gegen 1/2.“ Eine Definition der Wahrscheinlichkeit mit Hilfe ’ der relativen Häufigkeiten ist im Allgemeinen jedoch problematisch. Die Menge Ω nennen wir Ergebnismenge oder auch Ergebnisraum. 2. Teilmengen A ⊂ Ω heißen Ereignisse, P(A) heißt Wahrscheinlichkeit von A. – 202 – 3. Eine Menge {ω} mit ω ∈ Ω heißt Elementarereignis. 4. Das Paar (Ω, P) heißt Wahrscheinlichkeitsraum (genauer: endlicher Wahrscheinlichkeitsraum). 5. Wir nennen Ω das sichere Ereignis und ∅ das unmögliche Ereignis. – 204 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Elementare Definitionen Elementare Definitionen Definition F.4 (Laplacescher Wahrscheinlichkeitsraum) Bemerkung: Sei (Ω, P) endlicher Wahrscheinlichkeitsraum. Falls alle Elementarereignisse die gleiche Wahrscheinlichkeit haben, heißt P Gleichverteilung, und (Ω, P) heißt Laplacescher Wahrscheinlichkeitsraum. Es gilt dann: (Wahrscheinlichkeitsmaß als Voraussage) Auch wenn wir hier, wie angekündigt, mathematisch vorgehen und Wahrscheinlichkeiten von Ereignissen durch eine abstrakt gegebene Funktion P definieren, ohne dies weiter zu erklären, sollte jeder eine intuitive Vorstellung von Wahrscheinlichkeit haben. Das Wahrscheinlichkeitsmaß können wir auch als Voraussage über die möglichen Ausgänge eines Zufallsexperimentes interpretieren. Eine solche Sichtweise wird z.B. das Verständnis des Begriffes der bedingten Wahrscheinlichkeit unterstützen. P(ω) = 1 |Ω| für alle ω ∈ Ω, P(A) = |A| |Ω| für A ⊂ Ω, wobei |Ω|, |A| die Anzahl der Elemente in Ω bzw. A ist. – 205 – Mathematik für Informatiker III – 207 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Elementare Definitionen Elementare Definitionen Beispiel F.5 ( 6 Richtige im Lotto 6 aus 49“) ” Satz F.3 (Eigenschaften eines Wahrscheinlichkeitsmaßes) Wir berechnen die Wahrscheinlichkeit dafür, dass 6 bestimmte Zahlen (der eigene Tipp) zufällig als Gewinnzahlen gezogen werden, auf zwei verschiedene Weisen. Unser Tipp bestehe aus den sechs verschiedenen Zahlen t1 , . . . , t6 . 1. Als Ergebnismenge Ω1 nehmen wir hier die Menge aller sechs-elementigen Teilmengen der Menge {1, . . . , 49}. Wir unterscheiden also nicht, in welcher Reihenfolge die Zahlen gezogen werden. Seien (Ω, P) ein endlicher Wahrscheinlichkeitsraum und A, B ∈ P(Ω). Es gilt: 1. P(Ac ) = 1 − P(A), wobei Ac = Ω\A das Komplement von A ist. Speziell gilt P(∅) = 0. 2. A ⊂ B ⇒ P(A) ≤ P(B). 3. P(A\B) = P(A) − P(A ∩ B). 4. Falls A1 , . . . , An paarweise disjunkt sind, d.h. für i 6= j gilt n n S P Ai ∩ Aj = ∅, dann gilt P( Ai ) = P(Ai ). Speziell gilt i =1 i =1 P P({ω}). P(A) = Ω1 und wi 6= wj für i 6= j und 1 ≤ i, j ≤ 6} Die Anzahl dieser Teilmengen ist |Ω1 | = 49 6 = 13983816. Jede Ziehung (jedes Elementarereignis) habe den gleichen Wahrscheinlichkeitswert, insbesondere auch das Elementarereignis A1 := {t1 , . . . , t6 }, das unserem Tipp entspricht. Also ω∈A 5. Für beliebige (i.a. nicht paarweise disjunkte) A1 , . . . , An ∈ P(Ω) n n S P P(Ai ). gilt P( Ai ) ≤ i =1 = {{w1 , . . . , w6 }|wi ∈ {1, . . . , 49} für alle 1 ≤ i ≤ 6 i =1 6. P(A ∪ B) = P(A) + P(B) − P(A ∩ B). P1 (A1 ) = – 206 – 1 ≈ 7.1511 · 10−8 . |Ω| – 208 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Elementare Definitionen Elementare Definitionen 2. Jetzt nehmen wir als Elementarereignisse alle Sechsertupel von paarweise verschiedenen ganzen Zahlen zwischen 1 und 49. Es kommt also auf die Reihenfolge bei der Ziehung an. Z.B. sind die Tupel (1, 2, 3, 4, 5, 6) und (6, 5, 4, 3, 2, 1) voneinander verschieden. Ω2 Satz F.7 Die Elemente einer Menge mit n Elementen lassen sich auf genau n! verschiedene Arten anordnen. Satz F.8 = {(w1 , . . . , w6 )|wi ∈ {1, . . . , 49}, für alle 1 ≤ i ≤ 6, Aus einer Menge mit n verschiedenen Elementen lassen sich k Elemente (ohne Berücksichtigung der Reihenfolge) auf n! n = k!(n − k)! k wi 6= wj für i 6= j und 1 ≤ i, j ≤ 6} . Die Anzahl solcher Sechsertupel ist 49! . 43! |Ω2 | = 49 · 48 · · · 44 = Arten auswählen. Das Ereignis 6 Richtige“ entspricht der Menge ” A2 := {(ω1 , . . . , ω6 ) | {ω1 , . . . , ω6 } = {t1 , . . . , t6 }}. Satz F.9 Aus einer Menge mit n verschiedenen Elementen lassen sich k Elemente (mit Berücksichtigung der Reihenfolge) auf Die Menge A2 besteht also gerade aus allen Sechsertupeln, die aus (t1 , . . . , t6 ) durch Permutation hervorgehen. Für den Lottogewinn ist es ja egal, in welcher Reihenfolge die Gewinnzahlen gezogen werden. Es gilt also |A2 | = 6!. Wir erhalten also P2 (A2 ) = = = Mathematik für Informatiker III Arten auswählen. 6! (49 − 6)! 49! 1 49 ≈ 7.1511 · 10 n! (n − k)! – 209 – −8 – 211 – Mathematik für Informatiker III 6 Endliche Wahrscheinlichkeitsräume Elementare Definitionen |A2 | |Ω2 | n(n − 1)(n − 2) . . . (n − k + 1) = Endliche Wahrscheinlichkeitsräume , Elementare Definitionen also letztlich das gleiche Ergebnis wie bei der ersten Rechnung. Beispiel F.6 (Dreimal Würfeln mit Laplace-Würfel) Satz F.10 Wie groß ist die Wahrscheinlichkeit dafür, dass dabei keine Wiederholung vorkommt? Wir wählen Das Urnenexperiment ’Ziehen ohne Zurücklegen’: In einer Urne befinden sich N Kugeln, S Schwarze und W weiße, wobei S + W = N ist. Aus der Urne werden nacheinander zufällig n Kugeln gezogen, davon seien ns Kugeln schwarz und nw Kugeln weiß. Dann ist die Wahrscheinlichkeit dafür, genau ns schwarze und nw weiße Kugeln zu ziehen gleich W N S . · / P(Anzahl schwarze Kugeln = ns ) = nw n ns Ω = {(w1 , w2 , w3 ) | ωi ∈ {1, 2, 3, 4, 5, 6} für 1 ≤ i ≤ 3} als Ergebnismenge. Die Anzahl aller möglichen Elementarereignisse (Dreiertupel) ist 63 . Das Ereignis keine Wiederholung“ entspricht der ” Menge A aller Dreiertupel, in denen alle drei Zahlen verschieden sind. Es gibt genau 6 · 5 · 4 = 6! 3! solche Dreiertupel. Also ist P(A) = 5 6·5·4 = . 63 9 – 210 – – 212 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Elementare Definitionen Bedingte Wahrscheinlichkeit Beispiel F.12 Satz F.11 (Voraussage für den zweifachen Münzwurf bei zusätzlicher Information) Wir betrachten zwei aufeinanderfolgende Münzwürfe mit einer fairen Münze. Wie groß ist die Wahrscheinlichkeit dafür, dass zweimal ” Kopf“ fällt (Ereignis A), wenn man weiß, dass Das Urnenexperiment ’Ziehen mit Zurücklegen’: In einer Urne befinden sich N Kugeln, S Schwarze und W weiße, wobei S + W = N ist. Aus der Urne werden zufällig n Kugeln gezogen, nach jedem Zug wird die Kugel wieder zurückgelegt. Es werden ns schwarze und nw weiße Kugeln gezogen. Dann ist die Wahrscheinlichkeit dafür, genau ns schwarze und nw weiße Kugeln zu ziehen gleich ns nw S n W · P(Anzahl schwarze Kugeln = ns ) = · . N N ns 1. Fall: der erste Wurf das Ergebnis Kopf“ hat (Ereignis B1 ). ” 2. Fall: mindestens ein Wurf gleich Kopf“ ist (Ereignis B2 ). ” Als Ergebnisraum wählen wir Ω := {(K , K ), (K , Z ), (Z , K ), (Z , Z )}. – 213 – Mathematik für Informatiker III – 215 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Da wir die Münze als fair annehmen, hat jedes Elementarereignis die Wahrscheinlichkeit 1/4. Für unsere speziell betrachteten Ereignisse gilt In Bemerkung hatten wir schon erwähnt, dass man ein gegebenes Wahrscheinlichkeitsmaß als Voraussage für ein Zufallsexperiment interpretieren kann. Wenn man nun zusätzliche Informationen über das Experiment erhält, so kann man diese Voraussage verbessern“. Z.B. hat ” man nach einem einfachen Experiment wie Münzwurf die Information, wie das Experiment ausgegangen ist, und man kann mit dieser vollständigen Information im Nachhinein sogar eine deterministische Voraussage“ (die ” dann ihren Namen eigentlich nicht mehr verdient) machen, d.h. man wird nicht mehr das a priori gegebene Wahrscheinlichkeitsmaß betrachten, sondern vielmehr ein anderes (deterministisches), das jedem Ereignis entweder die Wahrscheinlichkeit 0 oder 1 zuordnet. Im allgemeinen erhält man keine vollständige Information, sondern nur eine solche der Art, dass bestimmte Ereignisse sicher eintreten. Dementsprechend geht man zu einem neuen Wahrscheinlichkeitsmaß über. A = {(K , K )}, P(A) B1 = = {(K , K ), (K , Z )}, P(B1 ) = B2 1 , 2 = {(K , K ), (K , Z ), (Z , K )}, P(B2 ) = – 214 – 1 , 4 3 . 4 – 216 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit 1. Fall: Aufgrund der zusätzlichen Informationen, dass das Ereignis B1 eintritt, können die Elementarereignisse (Z , Z ) und (Z , K ) völlig ausgeschlossen werden. Es können also nur (K , K ) oder (K , Z ) eintreten. Ohne jegliche weitere Information sind diese beiden als gleichwahrscheinlich anzunehmen. Durch diese Überlegungen ordnen wir insbesondere dem Ereigneis (K , K ) eine neue Wahscheinlichkeit zu: 1 P(A|B1 ) = . 2 Wir bezeichnen diese als die bedingte Wahrscheinlichkeit des Ereignisses (K , K ) bei gegebenem B1 . Definition F.13 (Bedingte Wahrscheinlichkeit) Seien (Ω, P) ein endlicher Wahrscheinlichkeitsraum, B ⊂ Ω mit P(B) > 0 und A ∈ Ω. Die bedingte Wahrscheinlichkeit von A bei gegebenen B ist P(A|B) := P(A ∩ B) . P(B) Bemerkung 2. Fall: Es können nur (K , K ), (K , Z ), (Z , K ) eintreten. Wieder sehen wir diese Elementarereignisse als gleichwahrscheinlich an. Also Es folgt P(A ∩ B) = P(B) · P(A|B). 1 P(A|B2 ) = . 3 – 217 – Mathematik für Informatiker III (1) – 219 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Satz F.14 (zur bedingten Wahrscheinlichkeit) In beiden Fällen werden die möglichen Elementarereignisse auf eine Menge Bi ⊂ Ω reduziert. Wie wir sehen, ist die bedingte Wahrscheinlichkeit für das Ereignis A bei gegebenem B gleich P(A|B) = Sei (Ω, P) ein endlicher Wahrscheinlichkeitsraum. 1. (Die bedingte Wahrscheinlichkeit ist ein Wahrscheinlichkeitsmaß) Sei P(B) > 0. Durch P(A ∩ B) |A ∩ B| = . |B| P(B) PB (A) := P(A|B) Mit Hilfe des letzten Ausdrucks definieren wir allgemein die bedingte Wahrscheinlichkeit. ist ein Wahrscheinlichkeitsmaß auf Ω definiert. Ist A ⊂ B c oder P(A) = 0, so ist P(A|B) = 0. – 218 – – 220 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Bemerkung 2. (Formel der totalen Wahrscheinlichkeit) n S Bi mit Bi ∩ Bj = ∅ für i 6= j (disjunkte Zerlegung von Ω). Sei Ω = Interpretation der Formel von Bayes Wie durch das weiter unten folgende Beispiel F.15 illustriert wird, werden in der Formel von Bayes, die Ereignisse Bk als mögliche Ursachen“ für das beobachtete Ereignis ( Symptom“) A aufgefasst. ” ” Für jedes Ereignis Bk wird die A-priori-Wahrscheinlichkeit P(Bk ) als bekannt vorausgesetzt und ebenso die bedingten Wahrscheinlichkeiten dafür, dass bei Eintreten von Ursache Bk auch das Symptom A eintritt. Mit Hilfe der Formel von Bayes wird für ein Bi die A-posteriori-Wahrscheinlichkeit berechnet unter der zusätzlichen Information, dass das Symptom A beobachtet wird. Diese Vorgehensweise der Korrektur von A-priori-Wahrscheinlichkeiten aufgrund von Beobachtungen spielt in der Bayesischen Statistik ein wichtige Rolle. i =1 Dann gilt für jedes A ⊂ Ω: P(A) = X 1≤k≤n, P(Bk )>0 P(Bk ) · P(A|Bk ). (2) Daher wird über alle Indizes k summiert, für die P(Bk ) > 0. Wir n P P “ anstatt “, wobei wir im ” 1≤k≤n, ”k=1 schreiben der Kürze halber auch P(Bk )>0 Fall P(Bk ) = 0 das Produkt als 0 definieren. – 221 – Mathematik für Informatiker III – 223 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Beispiel F.15 (Diagnostischer Test, vgl. [Krengel]) Eine Krankheit komme bei etwa 0, 5% der Bevölkerung vor. Ein Test zur Auffindung der Krankheit führe bei 99% der Kranken zu einer Reaktion, aber auch bei 2% der Gesunden. Wir möchten die Wahrscheinlichkeit dafür ermitteln, dass eine Person, bei der die Reaktion eintritt, die Krankheit tatsächlich hat, und des Weiteren die Wahrscheinlichkeit, dass eine Person, bei der keine Reaktion eintritt, in Wirklichkeit krank ist. Dazu definieren wir mögliche Ereignisse: 3. (Formel von Bayes) Sei neben den Voraussetzungen in 2. zusätzlich noch P(A) > 0 erfüllt. Dann gilt für jedes 1 ≤ i ≤ n: P(Bi |A) = P(Bi ) · P(A|Bi ) . n P P(Bk ) · P(A|Bk ) k=1 B1 : Die Person hat die Krankheit.“, ” : Die Person hat die Krankheit nicht.“, B2 = ” A1 : Test positiv“, ” A2 = AC1 : Test negativ“. ” B1C – 222 – – 224 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Definition F.16 (Effizienz diagnostischer Tests, s. [Sachs]) Nach der Formel von Bayes gilt P(B1 |A1 ) = = Wir betrachten wie in Beispiel F.15 einen diagnostischen Test für eine Krankheit. Der getestete Patient kann gesund (Ereignis K C ) oder tatsächlich krank sein (Ereignis K ). Der Test kann positiv ausfallen, d.h. der Patient wird als krank getestet (Ereignis T+ ), oder negativ (Ereignis T− = T+C ). P(B1 ) · P(A1 |B1 ) P(B1 ) · P(A1 |B1 ) + P(B2 ) · P(A1 |B2 ) 5· 10−3 5 · 10−3 · 0.99 ≈ 0.2. · 0.99 + (1 − 5 · 10−3 ) · 0.02 1. Die Spezifität des Tests ist die bedingte Wahrscheinlichkeit P(T− |K C ) für einen negativen Test, wenn der Patient gesund ist. Die gesuchte bedingte Wahrscheinlichkeit für eine tatsächliche Erkrankung einer Person, bei der der Test positiv ist. beträgt etwa 0.2. 2. Die Sensitivität des Tests ist die bedingte Wahrscheinlichkeit P(T+ |K ) für einen positiven Test, wenn der Patient krank ist. – 225 – Mathematik für Informatiker III – 227 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Spezifizität und Sensitivität können wir als Gütekriterium eines Tests ansehen. Sie sollten beide nahe bei 1 liegen. Die bedingte Wahrscheinlichkeit P(K |T+ ) ist der Voraussagewert eines positiven Testergebnisses bei Kranken, und P(K C |T− ) ist der Voraussagewert eines negativen Testergebnisses bei Gesunden. Diese sollten idealerweise ebenfalls nahe bei 1 liegen. Sie hängen nach der Formel von Bayes allerdings auch von der A-priori-Wahrscheinlichkeit für die Krankheit ab, welche als die relative Häufigkeit Anzahl der Kranken geteilt durch die ” Gesamtzahl der Menschen“ (z.B. in einem bestimmten Land) definiert ist, der so genannten Prävalenz der Krankheit. Diese Abhängigkeit kann wie in Beispiel F.15 zu niedrigen Voraussagewerten führen, wenn die Krankheit nur sehr selten ist, also zu typischem Fehlalarm bei seltenen ” Ereignissen“. Auch die Wahrscheinlichkeit dafür, dass eine negativ getestete Person tatsächlich krank ist, berechnen wir nach der Formel von Bayes: P(B1 |A2 ) = = P(B1 ) · P(A2 |B1 ) P(B1 ) · P(A2 |B1 ) + P(B2 ) · P(A2 |B2 ) 5· 10−3 5 · 10−3 · 0.01 ≈ 5.1 · 10−5 . · 0.01 + (1 − 5 · 10−3 ) · 0.98 – 226 – – 228 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Unabhängigkeit von Ereignissen Unabhängigkeit von Ereignissen Unabhängigkeit von Ereignissen Beispiel F.17 (für zwei unabhängige Ereignisse) Definition F.19 Wir betrachten folgendes Experiment: Es wird zweimal mit einem Laplace-Würfel gewürfelt. Wir betrachten das Ereignis A, dass die Summe der Augenzahlen gerade“ und Ereignis B, dass der zweite ” 1 ” Wurf eine 1“ ist. Es gilt P(A) = 12 , P(B) = 16 , P(A ∩ B) = 12 , wie man durch Abzählen der jeweiligen Mengen sieht. Also (Unabhängigkeit einer Familie von Ereignissen) Sei {Ai , i ∈ J} eine endliche Familie von Ereignissen. 1. Wir sagen, dass die Produktformel für {Ai , i ∈ J} gilt, wenn Y \ P(Ai ). P( Ai ) = P(A ∩ B) = P(A) · P(B) ⇔ P(A) = P(A|B) ⇔ P(B) = P(B|A). i ∈J D.h. durch die zusätzlichen Informationen, dass B eintritt, ändert sich nichts an der (bedingten) Wahrscheinlichkeit dafür, dass A eintritt. i ∈J 2. Wir sagen, dass eine (nicht unbedingt endliche) Familie A = {Ai , i ∈ I } von Ereignissen unabhängig ist, wenn für jede endliche Teilfamilie {Ai , i ∈ J} mit J ⊂ I die Produktformel gilt. Definition F.18 (Unabhängigkeit zweier Ereignisse) Zwei Ereignisse A und B heißen voneinander unabhängig, wenn die Produktformel P(A ∩ B) = P(A) · P(B) gilt. – 229 – Mathematik für Informatiker III – 231 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Unabhängigkeit von Ereignissen Produktexperimente Produktexperimente Bemerkung Definition F.20 (Produkt von Wahrscheinlichkeitsräumen) 1. Die Relation A ist unabhängig von B“ ist symmetrisch, d.h. A ist ” ” unabhängig von B“ genau dann, wenn B unabhängig von A“ ist. Aber ” im allgemeinen ist sie nicht reflexiv (für 0 < P(A) < 1 gilt z.B. , dass P(A ∩ A) = P(A) 6= P(A) · P(A)) oder transitiv (aus A ist unabhängig ” von B“ und B ist unabhängig von C“ folgt i.a. nicht, dass A ” ” unabhängig von C“ ist, wie man für die Wahl eines Beispiels mit A = C mit 0 < P(A) < 1 und B = ∅ sieht.) 2. Ebenso ist die Nicht-Unabhängigkeit zweier Ereignisse nicht transitiv. Als Gegenbeispiel betrachten wir den Laplaceschen Wahrscheinlichkeitsraum (vgl. Definition F.4), bestehend aus Ω := {1, 2, 3, 4} und der Verteilung P({ω}) = 14 für jedes ω ∈ Ω sowie die Ereignisse A := {1, 2}, B := {1} und C := {1, 3}. Man rechnet leicht nach, dass A nicht unabhängig von B und B nicht unabhängig von C ist. Allerdings ist A unabhängig von C . Die Menge Ω = n Y i =1 Ωi = Ω 1 · · · Ωn (3) = {(ω1 , . . . , ωn ) | ωi ∈ Ωi für i = 1, . . . , n} heißt das (kartesische) Produkt oder auch die Produktmenge von (Ωi )1≤i ≤n . Durch die Wahrscheinlichkeitsfunktion P(ω) = n Y Pi (ωi ) (4) i =1 – 230 – ist ein Wahrscheinlichkeitsmaß auf Ω definiert, das wir ebenfalls mit P bezeichnen. Wir nennen (Ω, P) das Produkt der Wahrscheinlichkeitsräume (Ωi , Pi )1≤i ≤n . – 232 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Produktexperimente Produktexperimente Satz F.21 (Eindeutigkeit des Produkts von Wahrscheinlichkeitsräumen) 1. Durch (4) ist tatsächlich ein Wahrscheinlichkeitsmaß auf Ω definiert. 2. Sei Xi die i-te Koordinatenfunktion auf Ω, d.h. Xi (ω) = ωi . Dann gilt für Ai ∈ Ωi (i = 1, . . . , n): P( n \ {Xi ∈ Ai }) = i =1 n Y Pi (Ai ). Definition F.23 (Bernoulli-Verteilung) Der in Beispiel F.22 betrachtete Produktraum (Ω, P) heißt Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p, und P heißt Bernoulli-Verteilung. (5) Beispiel F.24 (Binomialverteilung) i =1 Hierbei folgende Notation für als Urbild definierte Mengen: Wir führen Beispiel F.22 fort. Sei für 0 ≤ k ≤ n mit Ek das Ereignis bezeichnet, dass genau k-mal ein Erfolg (eine 1) eintritt. Es gibt genau n solcher ω ∈ Ω. Also k {Xi ∈ Ai } = {ω = (ω1 , . . . , ωn ) ∈ Ω|Xi (ω) = ωi ∈ Ai }. Insbesondere gilt dann P({Xn ∈ Ak }) = Pk (Ak ) für alle 1 ≤ k ≤ n. (6) 3. Das durch (4) definierte Wahrscheinlichkeitsmaß ist das einzige Maß auf Ω, bezüglich dessen jede Mengenfamilie ({Xi ∈ Ai })1≤i ≤n unabhängig ist und für die (6) gilt. P(Ek ) = n k p k (1 − p)n−k =: bn,p (k). (8) – 233 – Mathematik für Informatiker III – 235 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Produktexperimente Produktexperimente Wir überprüfen durch eine kurze Rechnung, dass die Summe der P(E k ) gleich 1 ist: n n X X n p k (1 − p)n−k = (p − (1 − p))k = 1. bn,p (k) = k Beispiel F.22 (n-facher Münzwurf) Wir betrachten eine Folge von n unabhängigen Einzelexperimenten, die jeweils durch die Ergebnismenge Ωi = {K , Z } und das Wahrscheinlichkeitsmaß p für wi = K , Pi (ωi ) = 1 − p für wi = Z , k=0 1 0.8 0.6 0.4 0.2 (mit 1 ≤ i ≤ n) beschrieben sind. Hierbei ist 0 ≤ p ≤ 1. Die Produktmenge ist Ω = {0, 1}n = {(w1 , . . . , wn )|wi ∈ {K , Z }, 1 ≤ i ≤ n}, = n Y i =1 Pi (ωi ) = p k (1 − p)n−k , 0 1E-Σ 2 0 1 E 3 E+Σ 4 5 1 0.8 0.6 0.4 0.2 und das Wahrscheinlichkeitsmaß ist gegeben durch seine Wahrscheinlichkeitsfunktion P(ω) k=0 Dabei haben wir im ersten Schritt die binomische Formel verwendet. (7) 2E-Σ 3 E 4E+Σ 5 Abbildung: Stabdiagramme für die Binomialverteilungen b5, 1 und b5, 2 . wobei k die Anzahl der Indizes i mit ωi = 1 ist. 2 – 234 – 3 – 236 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Zufallsvariablen Zufallsvariablen Zufallsvariablen 3. Vergleiche Beispiel F.24: Wir betrachten die Binomialverteilung zum n-maligen Münzwurf mit Ergebnissen eines einzelnen Münzwurfes in {K , Z }. Die Anzahl der Erfolge (Kopf) sei mit X (ω) bezeichnet, also Definition F.25 (Zufallsvariable) X : Ω = {K , Z }n → {0, . . . , n}, n X Xi (ω), (ω1 , . . . , ωn ) 7→ Seien (Ω, P) ein endlicher Wahrscheinlichkeitsraum und χ eine Menge. Eine Funktion X : Ω → χ heißt Zufallsexperiment mit Werten in χ (oder auch χ-wertige Zufallsvariable). Falls χ = R, heißt X reelle Zufallsvariable. (9) i =1 wobei Bemerkung X : Ω → {0, n}, 1 für Xi (ω) = 0 für Üblicherweise wird eine so genannte Unbestimmte, z.B. das Argument einer Funktion, als Variable bezeichnet. Man beachte, dass mit Zufallsvariable selber eine Funktion gemeint ist (deren Wert mit dem zufälligen Argument variiert). wi = K , wi = Z . Die Zufallsvariable X ist also die Summe der Zufallsvariablen X i . – 237 – Mathematik für Informatiker III – 239 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Zufallsvariablen Zufallsvariablen Beispiel F.26 (für reelle Zufallsvariablen) Satz F.27 1. Geldwette bei Münzwurf: Ein einfacher Münzwurf sei durch Ω = {K , Z }, P(K ) = p, P(Z ) = 1 − p modelliert, wobei 0 ≤ p ≤ 1. Bei Kopf erhält man 2 Euro Gewinn, bei Zahl verliert man 1 Euro. Der Gewinn (Verlust) ist eine reelle Zufallsvariable: (Eine Zufallsvariable definiert eine Wahrscheinlichkeitsfunktion auf dem Bildraum) Seien (Ω, P) ein endlicher Wahrscheinlichkeitsraum und X : Ω → χ eine Zufallsvariable. Dann ist auf χ eine Wahrscheinlichkeitsfunktion PX durch X : Ω → {−1, 2} ∈ R, X (K ) X (Z ) = = 2, −1. PX : χ → [0, 1], PX (y ) 2. Würfeln: Ω = {1, . . . , 6}, wobei mit ω = 1 das Elementarereignis Es ” wird eine 1 gewürfelt.“ gemeint ist. Sei X die Zufallsvariable, die jedem Wurf die erzielte Augenzahl zuordnet, also z.B. = = P {X = y } X P(ω) ω∈Ω,X (ω)=y X (1) = 1, definiert. Hierbei bezeichnet {X = y } := {ω ∈ Ω|X (ω) = y } die Urbildmenge von y bezüglich der Abbildung X . wobei die 1 auf der linken Seite das Elementarereignis Es wird eine 1 ” gewürfelt.“ bezeichnet und die 1 auf der rechten Seite die reelle Zahl 1. – 238 – – 240 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Zufallsvariablen Zufallsvariablen Bemerkung:Interpretation der Unabhängigkeit von Zufallsvariablen Definition F.28 (Verteilung einer Zufallsvariablen) Seien z.B. X1 und X2 zwei voneinander unabhängige Zufallsvariablen mit Werten in χ1 und χ2 , respektive. Die Verteilung von X2 können wir als Voraussage“ über den zufälligen Wert von X2 interpretieren. ” Seien A2 ⊂ χ2 und x1 ∈ χ1 mit P({X1 = x1 }) > 0. Die Kenntnis, dass X1 den Wert x1 annimmt, ermöglicht uns keine bessere“ Voraussage ” über den Wert von X2 . Dies wird an Beispiel F.31 veranschaulicht werden. Das Wahrscheinlichkeitsmaß zur Wahrscheinlichkeitsfunktion PX aus Satz F.27 heißt Verteilung von X bezüglich P oder auch das Wahrscheinlichkeitsmaß von X bezüglich P. Bemerkung: Wichtigkeit von Verteilungen Bemerkung: Produktformel für unabhängige Zufallsvariablen Meistens interessiert man sich ausschließlich für die Verteilung von Zufallsvariablen X und nicht für das Wahrscheinlichkeitsmaß P auf Ω. Wir hatten schon in Beispiel F.5 gesehen, dass verschiedene Wahlen von Ω möglich sein können. Oftmals ist der steuernde ” Wahrscheinlichkeitsraum“ nicht explizit bekannt oder sehr kompliziert. Für unabhängige Zufallsvariablen X1 , . . . , Xn mit Xi : Ω → χi gilt P(X1 ∈ A1 ∧ · · · ∧ Xn ∈ An ) = – 241 – Mathematik für Informatiker III n Y i =1 P(Xi ∈ Ai ) für jede Wahl von Ereignissen Ai ⊂ χi . Die Berechnung der Wahrscheinlichkeit von solchen Ereignissen der Form {X1 ∈ A1 } ∩ . . . ∩ {Xn ∈ An } ist also besonders einfach. – 243 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Zufallsvariablen Zufallsvariablen Beispiel F.31 (Voneinander unabhängige Münzwürfe) Beispiel F.29 (Binomialverteilung als Verteilungsmaß) Das in (8) durch die Binomialverteilung definierte Wahrscheinlichkeitsmaß P auf der Menge {E0 , . . . , En } können wir offensichtlich auch als die Verteilung der Zufallsvariablen X aus (9) in Beispiel F.26 auffassen, also als Wahrscheinlichkeitsmaß auf der Menge {0, 1, . . . n}. Ein Element k aus dieser Menge entspricht dabei der Menge Ek aus Beispiel F.26. Also Wir betrachten den zweifachen Münzwurf aus Beispiel F.22 (also n = 2). Auf Ω = {K , Z }2 ist das Produktmaß gerade so definiert, dass die beiden Zufallsvariablen Xi : Ω → {K , Z }, (ω1 , ω2 ) 7→ ωi , PX (k) = bn,p (k). von denen X1 gerade den Ausgang des ersten Wurfs beschreibt und X2 den des zweiten, voneinander unabhängig sind, was anschaulich auch klar sein sollte. Es gilt z.B. Definition F.30 (Unabhängigkeit von Zufallsvariablen) Sei (Ω, P) ein endlicher Wahrscheinlichkeitsraum. Eine Familie (Xi )i ∈I von Zufallsvariablen Xi : Ω → χi (mit i ∈ I ) heißt unabhängig, wenn für jede endliche Teilmenge J ⊂ I und jede Wahl von Aj ⊂ χj für alle j ∈ J die Familie ({Xj ∈ Aj })j∈J unabhängig ist. (vgl. Definition F.19). P({X1 = K ∧ X2 = K }) = P1 (K ) · P2 (K ) = P({X1 = K }) · P({X2 = K }), wobei wir im ersten Schritt die Produktformel (7) für die Wahrscheinlichkeitfunktion verwendet haben. – 242 – – 244 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz Beispiel F.34 (für Erwartungswerte spezieller Verteilungen) In einem Spiel wie in Beispiel F.26 interessiert uns der zu erwartende Gewinn und allgemein der mittlere Wert“ einer reellen Zufallsvariablen. ” 1. Wir berechnen den Erwartungswert der Binomialverteilung zu den Parametern n und p (s. (8)) auf zwei verschiedene Weisen. Definition F.32 (Erwartungswert einer reellen Zufallsvariablen) 1. Methode: Sei X eine reelle Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P). Der Erwartungswert von X ist definiert als X X X (ω) · P(ω) = x · PX (x). (10) EX := E (X ) := ω∈Ω E (X ) X n k p k (1 − p)n−k k k=0 n X (n − 1)! p (k−1) (1 − p) (k − 1)! (n − 1) − (k − 1) ! k=1 ñ X ñ p k̃ (1 − p)ñ−k̃ = np k̃ x∈R = np Bemerkung: Erwartungswert einer Verteilung In (10) ist PX die Verteilung von X (s. Definition F.28). Lediglich solche Summanden sind ungleich 0, für die PX (x) > 0. Dies sind aber nur endlich viele, da der Definitionsbereich und somit der Bildbereich von X endlich ist. In (10) wird der steuernde Wahrscheinlichkeits” raum “ Ω nicht explizit erwähnt. Der Erwartungswert ist also eine Eigenschaft der Verteilung. Durch (10) ist der Erwartungswert der Verteilung PX definiert, und analog definiert man allgemein den Erwartungswert eines Wahrscheinlichkeitsmaßes auf endlichen Mengen reeller Zahlen. = (n−1)−(k−1) k̃=0 = np (p + (1 − p))ñ = np. Dabei haben wir die Substitution n − 1 = ñ und k − 1 = k̃ verwendet. – 245 – Mathematik für Informatiker III – 247 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz 2. Methode: Wir verwenden (11) (Linearität von E ). Es gilt Satz F.33 (Eigenschaften des Erwartungswertes) X = X1 + · · · + X n mit Xi : Ω → {0, 1}, P({Xi = 1}) = p, P({Xi = 0}) = 1 − p, also E (Xi ) = p und somit 1. Der Erwartungswert ist linear, d.h. für reelle Zufallsvaraiblen X , Y und λ ∈ R gilt E (λX + Y ) = λ · E (X ) + E (Y ). (11) E (X ) = n X E (Xi ) = np. i =1 2. Sind X , Y unabhängig, so gilt 2. Wir berechnen den Erwartungswert für die Augenzahl beim Laplace-Würfel, gegeben durch Ω = {1, . . . , 6} und P(ω) = 16 für ω ∈ Ω. Die Zufallsvariable X gibt die Augenzahl an. (S. Beispiel F.26) Wir erhalten 6 X 1 (12) i · = 3.5 . E (X ) = 6 E (X · Y ) = E (X ) · E (Y ). Hierbei bezeichnet X · Y das Produkt der beiden Zufallsvariablen. Diese durch (X · Y )(ω) = X (ω) · Y (ω) definierte Produktfunktion ist wieder eine reelle Zufallsvariable auf demselben Wahrscheinlichkeitsraum. i =1 Insbesondere sehen wir, dass der Erwartungswert i.a. nicht als Wert von der Zufallsvariablen angenommen wird. – 246 – – 248 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz Definition F.35 (Varianz, Streuung, Kovarianz, Korrelationskoeffizient) Seien (Ω, P) ein endlicher Wahrscheinlichkeitsraum und X , Y reelle Zufallsvariablen. 1. Die Varianz von X ist Var(X ) = E (X − E (X ))2 . 3. Wir vergleichen das letzte Beispiel mit der Zufallsvariablen Y , definiert auf demselben (Ω, P) durch Y (ω) = 3.5 für ω ∈ {1, . . . , 6}. 2. Die Streuung (oder Standardabweichung) von X ist p σ = Var(X ). Diese Zufallsvariable hat den gleichen Erwartungswert wie der Laplace-Würfel: E (Y ) = 3.5. 3. Die Kovarianz von X und Y ist Dennoch sind die beiden Zufallsvariablen nicht gleichverteilt. Wie durch die Stabdiagramme in der folgenden Abbildung veranschaulicht wird, ist die Verteilung Py deterministisch, wohingegen Px um den Erwartungswert streut. Cov(X , Y ) = E (X − E (X ) · Y − E (Y ) ). 4. Der Korrelationskoeffizient von X und Y (mit σx , σy 6= 0) ist ρX ,Y = Cov(X , Y ) . σx σy (13) 5. Zufallsvariablen X , Y mit Cov(X , Y ) = 0 heißen unkorreliert. – 249 – Mathematik für Informatiker III – 251 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz 1 0.8 0.6 Satz F.36 (Eigenschaften von Varianz und Kovarianz) 0.4 Seien X , Y , Xi (für 1 ≤ i ≤ n) reelle Zufallsvariablen und a, b, c, d ∈ R. Dann gilt: 1. 2 Var(X ) = E (X 2 ) − E (X ) . (14) 0.2 1 EHX L-Σ 3 3.5 4 EHX L+Σ 6 1 2. 0.8 0.6 Var(aX + b) = a2 · Var(X ). (15) Cov(X , Y ) = E (XY ) − E (X ) · E (Y ). (16) Cov(aX + b, cY + d) = a · c · Cov(X , Y ), (17) 3. 0.4 0.2 4. 1 2 3 3.5 4 5 6 Abbildung: Stabdiagramme für den Laplace-Würfel und für eine determinstische Zufallsvariable – 250 – – 252 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz 5. Var(X1 + · · · + Xn ) = n X Var(Xi ) + i =1 X Cov(Xi , Xj ), Beispiel F.38 (Varianz der Binomialverteilung) (18) (i,j), i6=j Mit Hilfe der Formel von Bienaymé (19) berechnen wir analog zur 2. Methode in Beispiel F.34 die Varianz der Binomialverteilung zu den Parametern n unf p. Die Varianz von Xi ist wobei in der letzten Summe die Summanden Cov(X1 , X2 ) und Cov(X2 , X1 ) etc. auftreten. 6. Sind X , Y unabhängig, so sind sie auch unkorreliert. 7. (Formel von Bienaymé) Wenn X1 , . . . , Xn unabhängig sind, dann gilt Var(X1 + · · · + Xn ) = n X Var(Xi ). Var(Xi ) = (0 − E (Xi )) · P(Xi = 0) + (1 − E (Xi )) · P(Xi = 1) = (−p)2 · (1 − p) + (1 − p)2 · p = p (1 − p). (19) Aus der Unabhängigkeit der Xi folgt also i =1 Bemerkung Var(X ) (Aus Unkorreliertheit folgt nicht Unabhängigkeit) Aus der Unkorreliertheit von Zufallsvariablen folgt im Allgemeinen nicht deren Unabhängigkeit, wie wir in Beispiel F.41 sehen werden. = Var( n X i =1 Xi ) = n X i =1 Var(Xi ) = n p (1 − p). – 253 – Mathematik für Informatiker III – 255 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz Zur Veranschaulichung von Korrelation führen wir noch den wichtigen Begriff der gemeinsamen Verteilung ein und beschränken uns dabei hier auf den Fall zweier reellwertiger Zufallsvariablen. Zur naheliegenden Verallgemeinerung auf den Fall von endlich vielen Zufallsvariablen mit Werten in beliebigen Mengen s. z.B. [Krengel] Beispiel F.37 (Varianz bei der Augenzahl des Laplace-Würfels) Es gilt für das zweite Moment der Augenzahl X des Laplace-Würfels: E (X 2 ) = 6 X i =1 Definition F.39 (Gemeinsame Verteilung zweier reeller Zufallsvariablen) Seien X , Y : Ω 7→ R zwei auf derselben Ergebnismenge Ω definierten reellwertigen Zufallsvariablen. Die Verteilung PX ×Y (vgl. Definition F.28) der Produktfunktion 91 1 . i2 · = 6 6 Daraus erhalten wir nach (14) und unter Verwendeung von (12) Var(X ) = E (X 2 ) − (E (X ))2 ) = X × Y : Ω 7→ R2 (20) heisst gemeinsame Verteilung von X und Y . Die Funktion X × Y nimmt genau die Werte (x, y ) ∈ R2 mit positiver Wahrscheinlichkeit an, für die PX (x) > 0 und PY (y ) > 0 gilt und gemäß Satz F.27 erhalten wir 35 91 − 3.52 = . 6 12 Die Streuung ist also σX ≈ 1.71. PX ×Y (x, y ) = P(ω ∈ Ω : X (ω) = x und Y (ω) = y ). – 254 – – 256 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz Beispiel F.40 (Korrelation bei Merkmalsverteilung) Seien X1 und X2 Zufallsvariablen mit Werten in {0, 1}. Die Produktzufallsvariable X1 × X2 nehme die Werte (0, 0), (1, 0), (0, 1) und 1 1 3 2 , 5 , 10 , 5 , respektive, an. Wir (1, 1) mit den Wahrscheinlichkeiten 10 schreiben abkürzend PX1 ×X2 (1, 1) statt PX1 ×X2 ({(1, 1)}) etc. Wir stellen die gemeinsame Verteilung sowie die Verteilungen von X 1 und X2 tabellarisch dar: X1 = 0 X1 = 1 Verteilung von X1 : X2 = 0 1/10 1/5 3/10 X2 = 1 3/10 2/5 7/10 E (X1 · X2 ) = Cov(X1 , X2 ) = E (X1 · X2 ) − E (X1 ) · E (X2 ) = Verteilung von X2 : 2/5 3/5 Die Verteilung von X1 und X2 steht offensichtlich im oberen linken Teil der Tabelle. Die Verteilung von X1 steht in der unteren Zeile. Die Werte wurden als Summe der Zahlen der jeweiligen Spalten berechnet. Ebenso steht die Verteilung von X2 in der rechten Spalte. Diese Werte sind jeweils die Zeilensummen (aus dem Tabellenteil der gemeinsamen Verteilung). Eine Kontrollrechnung zeigt, dass die Summe der Werte der unteren Zeile (der rechten Spalte) jeweils 1 ergeben. 2 , 5 ρX1 ,X2 = 2 3 7 1 − · =− , 5 5 10 50 q 1 − 50 6 25 · 21 100 ≈ −0.089. Die Zufallsvariablen X1 und X2 sind nicht voneinander unabhängig, da Ihre Kovarianz ungleich 0 ist. (Es gilt nämlich: Unabhängigkeit ⇒ ” Kovarianz gleich 0“.) Der Betrag ihres Korrelationskoeffizienten ist allerdings auch nicht besonders groß, d.h. nahe bei 0. – 257 – Mathematik für Informatiker III – 259 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz Wir berechnen nun die Kenngrößen der Verteilungen. 3 3 2 E (X1 ) = 0 · + 1 · = , 5 5 5 3 E (X12 ) = , 5 2 3 6 3 − , = Var(X1 ) = 5 5 25 r 6 σX 1 = ≈ 0.49. 25 E (X2 ) = Var(X2 ) = σX 2 = 7 , 10 E (X22 ) = Bemerkung: Interpretation von Korrelation 1. (geometrische Sichtweise) Wir können die Kovarianz als Skalarprodukt in Rn mit n = |Ω| auffassen. Hierzu nehmen wir an, dass alle Elementarereignisse eine positive Wahrscheinlichkeit haben. Dann gilt die Cauchy-Schwarz-Ungleichung Cov(X , Y ) ≤ σx σy und somit für σx , σy 6= 0: −1 ≤ ρX ,Y ≤ 1. 7 , 10 2 7 21 7 = − , 10 10 100 r 21 ≈ 0.46. 100 – 258 – Den Korrelationskoeffizienten können wir dann als Kosinus des ” nicht-orientierten Winkels zwischen X und Y “ auffassen. 2. (Korrelation als linearer Zusammenhang) Für zwei Zufallsvariablen X und Y deutet ein Korrelationskoeffizient ρX ,Y nahe bei 1 auf eine Tendenz“ der Variablen X − E (X ) und ” Y − E (Y ) hin, gemeinsam große bzw. kleine bzw. stark negative Werte anzunehmen, also auf einen linearen Zusammenhang“. Analoges gilt für ” ρX ,Y nahe bei −1. Wir veranschaulichen dies in Beispiel F.41. – 260 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz Beispiel F.41 Ρ =1 (Illustration von speziellen gemeinsamen Verteilungen und Korrelation) Die hier diskutierten Beispiele für gemeinsame Verteilungen sind in der folgenden Abbildung graphisch dargestellt. Die Werte der jeweiligen Verteilungen mit positiver Wahrscheinlichkeit sind als Punkte in die x-y -Ebene eingezeichnet, wobei (x, y ) Werte der Funktion X × Y sind. Eine solche Darstellung könnte noch präzisiert werden, indem man zu jedem Punkt die Wahrscheinlichkeit schreibt, was bei einer kleinen Anzahl von Punkten noch übersichtlich wäre. Der Einfachheit halber habe hier jeweils jeder Punkt die gleiche Wahrscheinlichkeit. Ρ =-1 Ρ »1 20 20 20 15 15 15 10 10 10 5 5 5 2.5 5 7.5 10 12.5 15 2.5 5 7.5 10 12.5 15 2.5 5 7.5 10 (a) Die Punkte liegen (b) Die Punkte liegen (c) Die Punkte streuen auf einer steigenden Geraden auf einer fallenden Geraden schwach um eine steigende Gerade – 261 – Mathematik für Informatiker III 12.5 15 – 263 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Erwartungswert, Varianz, Kovarianz 1. Sei X eine Zufallsvariable mit Varianz σX2 > 0 und sei Y = aX + b mit a 6= 0. Wir berechnen unter Verwendung der Sätze F.33 und F.36 den Korrelationskoeffizienten von X und Y . Var(Y ) = a2 Var(X ), ⇒ σY = |a| · σX , Cov(X , Y ) = Cov(X , aX + b) = a Cov(X , X ) = a σX2 , ρX ,Y = Ρ»0 Ρ »-1 aσX2 = sign(a). σX |a|σX 20 20 15 15 15 10 10 10 5 5 5 2.5 Der Korrelationskoeffizient ρX ,Y ist also 1 oder −1, je nachdem, ob a positiv oder negativ ist. In den Abbildungen (a) und (b) sind Beispiele für solche gemeinsamen Verteilungen von X und Y dargestellt. Die Punkte der gemeinsamen Verteilung liegen auf einer Geraden. Wir bemerken auch, dass im Fall a = 0, also Y = b, die Zufallsvariable Y deterministisch ist und somit Varianz Null hat. Auch hier liegen die Punkte der gemeinsamen Verteilung von X und Y auf einer Geraden (nicht abgebildet), aber der Korrelationskoeffizient ist im Sinne von Definition F.35 nicht definiert. Ρ=0 20 5 7.5 10 12.5 15 2.5 5 7.5 10 12.5 (d) Die Punkte streuen (e) Punktwolke ohne schwach um eine fallende Gerade zuzuordnender Gerade 15 2.5 5 7.5 10 12.5 15 (f) Nicht-lineare funktionale Abhängigkeit Abbildung: Illustration von Korrelationskoeffizienten mit Hilfe von gemeinsamen Verteilungen – 262 – – 264 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Das schwache Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen In diesem Abschnitt formulieren wir mit Satz F.43 eine Version des schwachen Gesetzes der großen Zahlen, das insbesondere einen Zusammenhang zwischen dem abstrakt eingeführten Begriff der Wahrscheinlichkeit und relativen Häufigkeiten bei einer Folge aus lauter voneinander unabhängigen Zufallsexperimenten herstellt, die alle den gleichen Erwartungswert haben. 2. In den Abbildungen (c) und (d) sind die gemeinsamen Verteilungen von Zufallsvariablen dargestellt, deren Korrelationskoeffizient nahe bei 1 bzw. nahe bei -1 liegt. Die Punkte liegen zwar nicht auf einer Geraden, aber man kann könnte jeder der Verteilungen eine Gerade zuordnen, von der die Punkte nicht allzu sehr“ abweichen. Eine solche Zuordnung ” geschieht z.B. mit Hilfe von linearer Regression. 3. Der in Abbildung (e) dargestellten Verteilung wäre optisch nur schwer eine Gerade zuzuordnen. Der Korrelationskoeffizient in diesem Beispiel liegt nahe bei 0. Der folgende Satz liefert uns eine Abschätzung für die Wahrscheinlichkeit der Abweichung einer Zufallsvariablen von ihrem Erwartungswert um mehr als eine vorgegebene Konstante. Diese Abschätzung benutzt nur die Varianz der Zufallsvariablen, ohne irgendwelche weiteren Bedingungen an die Verteilung zu stellen, und ist damit anwendbar sobald man die Varianz kennt. Allerdings ist sie in vielen Fällen auch nur sehr grob oder gar völlig nutzlos, z.B. wenn die rechte Seite in (21) größer gleich 1 ist. Dennoch liefert sie uns einen sehr einfachen Beweis des schwachen Gesetzes der großen Zahlen. – 265 – Mathematik für Informatiker III – 267 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Erwartungswert, Varianz, Kovarianz Das schwache Gesetz der großen Zahlen 4. Wir betrachten nun noch ein sehr spezielles Beispiel. Die gemeinsame Verteilung von X und Y sei PX ×Y (−1, 1) = PX ×Y (0, 0) = PX ×Y (1, 1) = Satz F.42 (Tschebyscheff-Ungleichung) 1 3 Sei X eine reelle Zufallsvariable auf (Ω, P). Dann gilt für jedes > 0: P(|X − E (X )| > ) ≤ dargestellt. Die Kovarianz von X und Y ist X 1 Cov(X , Y ) = x · y · PX ×Y (x, y ) = · (1 · (−1) + 0 · 0 + 1 · 1) = 0. 3 Var(X ) . 2 (21) Beweis: Sei Z = X − E (X ). Wir definieren zu Z 2 eine Minorante, d.h. eine Zufallsvariable Y mit Y (ω) ≤ (Z (ω))2 : 0 für |Z (ω)| < , Y (ω) := 2 für |Z (ω)| ≥ . (x,y ) Dabei haben wir in der ersten Zeile über alle Werte (x, y ) mit positiver Wahrscheinlichkeit summiert. Die beiden Zufallsvariablen sind also nicht korreliert. Ihr Korrelationskoeffizient ist gleich 0. Wir bemerken noch, dass Y nicht unabhängig von X ist (s. Definition F.30). Im Gegenteil, es besteht sogar ein funktionaler Zusammenhang zwischen beiden Variablen. Kennt man den Wert von X , so auch den von Y . Dieser Zusammenhang ist aber nicht linear (vgl.16). Analog zu diesem Beispiel sind die Zufallsvariablen, deren gemeinsame Verteilung in Abbildung (f) dargestellt ist, unkorreliert, obwohl ein funktionaler Zusammenhang zwischen ihnen besteht. Mit Hilfe dieser Minorante können wir den Erwartungswert von Z 2 nach unten abschätzen: Var(X ) = E (Z 2 ) ≥ E (Y ) = 2 · P(Y = 2 ) = 2 · P(|X − E (x)| ≥ ). – 266 – – 268 – Mathematik für Informatiker III Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Das schwache Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen Satz F.43 (Das schwache Gesetz der großen Zahlen) Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit den gleichen Erwartungswerten E (X1 ) und Var(Xi ) ≤ M. Dann gilt 1 M P (X1 + · · · + Xn ) − E (X1 ) ≥ ≤ 2 , n n Wir erhalten mit M = (22) Var(S (n) ) = 35 . 12 · 0.1 · n (23) Die rechte Seite der Abschätzung (23) ist kleiner oder gleich 0.01, falls n ≥ 4200. D.h. wenn man 4200 mal oder noch häufiger würfelt, dann weicht die mittlere Augenzahl mit einer Wahrscheinlichkeit von höchstens 1% um 0.1 oder mehr vom ihrem Erwartungswert ab. 1 lim P (X1 + · · · + Xn ) − E (X1 ) ≥ = 0. n→∞ n X1 +···+Xn . n und = 0.1: P S (n) − 3.5 ≥ 0.1 ≤ insbesondere Beweis: Sei S (n) = 35 12 Dann ist E (S (n) ) = E (X1 ), und 1 1 M Var(X1 + · · · + Xn ) = 2 · n · M = , n2 n n wobei wir im vorletzten Schritt die Unabhängigkeit von (Xi )i verwendet haben. Die Behauptung folgt nun aus der Tschebyscheff-Ungleichung. – 269 – Mathematik für Informatiker III – 271 – Mathematik für Informatiker III Endliche Wahrscheinlichkeitsräume Endliche Wahrscheinlichkeitsräume Das schwache Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen Bemerkung: Zum schwachen Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen sagt, dass in der Situation in Satz F.43 für große“ n der gemittelte Wert S (n) = n1 (X1 + . . . + Xn ) ” mit großer“ Wahrscheinlichkeit (also einer solchen nahe bei 1) vom ” Erwartungewert E (S (n) ) = E (Xi ) nicht stark“ abweicht. Wenn man ” den Erwartungswert der Augenzahl bei einem Würfel statistisch durch viele Würfe ermitteln will, führt man aber z.B. eine recht lange Versuchsreihe von Würfen durch, die einer Folge X1 , X2 , . . . entspricht und betrachtet entsprechend die Folge der gemittelten Werte S (1) , S (2) , . . . Das schwache Gesetz der großen Zahlen sagt, dass für ein vorgegbenes für hinreichend große n die Wahrscheinlichkeit für eine Abweichung |S (n) − E (X1 )| > klein“ ist, schließt aber nicht aus, das ” für eine betrachtete Folge von Würfen diese Abweichung immer ” wieder mal“ auftritt. Aber das starke Gesetz der großen Zahlen, das wir hier nicht als mathematischen Satz formulieren, sagt, dass für fast alle Folgen (von Würfen) die Folge der Werte von S (n) tatsächlich gegen E (X1 ) konvergiert. Das bedeutet, die Wahrscheinlichkeit für diese Konvergenz ist gleich 1. Beispiel F.44 (n-maliges Würfeln) In Beispiel F.34 hatten wir schon den Erwartungswert E (Xi ) = 3.5 und in Beispiel F.37 die Varianz für die Augenzahl beim einfachen Wurf des Laplace-Würfels berechnet. Wir betrachten nun zum n-fachen Wurf die gemittelte Summe S (n) = n1 (X1 + . . . + Xn ) der Augenzahlen. Nach dem schwachen Gesetz der großen Zahlen (Satz F.43) ist zu einer vorgegebenen Schranke > 0 bei häufigem Würfeln die Wahrscheinlichkeit, dass die beobachtete mittlere Augenzahl um mehr als von ihrem Erwartungswert E (S (n) ) = 3.5 abweicht klein, vorausgesetzt n ist hinreichend groß. Doch wie oft muss man z.B. würfeln, damit für = 0.1 die Wahrscheinlichkeit einer Abweichung kleiner ist als 0.01? Hier geben wir mit einer sehr groben Abschätzung zufrieden, die auf der Tschebyscheff-Ungleichung (Satz F.42) beruht, und wollen damit nur (22) an einem Beispiel illustrieren. – 270 – – 272 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Diskrete Wahrscheinlichkeitsräume Diskrete Wahrscheinlichkeitsräume 1 F - 2 Unendliche Wahrscheinlichkeitsräume 0.8 Definition F.45 (Diskreter Wahrscheinlichkeitsraum) 0.6 Seien Ω eine höchstens abzählbare Menge und P : P(Ω) → [0, 1] eine Funktion. Dann heißt (Ω, P) ein diskreter Wahrscheinlichkeitsraum, wenn folgendes gilt: P(Ω) = 1. (24) 0.4 0.2 E-Σ =0 Für jede Folge A1 , A2 , ... paarweiser disjunkter Teilmengen von Ω ist P ∞ [ Ai = i =1 ∞ X E+Σ =2 3 4 5 3 E+Σ 4 5 0.8 P(Ai ). (25) 0.6 i =1 0.4 0.2 Eigenschaft (25) heißt σ-Additivität. 0 E-Σ 1 Vorsicht: bei der Summation ist die Summierbarkeit (absolute Konvergenz) i.a. nicht gewährleistet. – 273 – Mathematik für Informatiker III E=2 Abbildung: Stabdiagramme von Poisson-Verteilungen mit den Parametern λ = 1 und T = 1, bzw. T = 2 – 275 – Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Diskrete Wahrscheinlichkeitsräume Diskrete Wahrscheinlichkeitsräume Es gilt für den Erwartungswert, das zweite Moment und die Varianz der Verteilung: Beispiel F.46 (für einen unendlichen diskreten Wahrscheinlichkeitsraum) (Poisson-Verteilung) Eine bestimmte Masse einer radioaktiven Substanz zerfällt. Die Anzahl der Zerfälle X[0,T ] im Zeitintervall [0, T ] ist eine Zufallsvariable. Dabei nehmen wir an, dass die Gesamtzahl der radioaktiven Teilchen sich im betrachteten Zeitraum nicht wesentlich ändert. Als mathematisches Modell nehmen wir die Verteilung Pλ (X[0,T ] = k) = e E=1 1 −λT (λT )k k! für k ∈ {0, 1, 2, ...}, E (X[0,T ] ) = ∞ X k=0 k · Pλ (X = k) = = λT · e −λT = λT · e (26) E ((X[0,T ] )2 ) = ∞ X k=0 mit einem Parameter λ > 0, die in der folgenden Abbildung illustriert ist. −λT ∞ X k=1 ·e ∞ X k=0 k e −λT (λT )k k! ∞ X (λT )k−1 (λT )l = λT · e −λT (k − 1)! l! λT l=0 = λT , k 2 · Pλ (X = k) = ... = (λT )2 + λT (Übungsaufgabe 6, Serie 6) – 274 – – 276 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Diskrete Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume 2. Das zur Dichte f gehörende Wahrscheinlichkeitsmaß P ist auf Intervallen durch 2 2 P([a0 , b0 ]) = Var(X[0,T ] ) = E ((X[0,T ] ) ) − (E (X[0,T ] )) = λT . Zb0 f (ω) dω (27) a0 Des weiteren gilt definiert, wie in der folgenden Abbildung illustriert. dE (X[0,T ] ) = λ, dT d.h. λ ist die Zerfallsrate = mittlere Anzahl der Zerfälle . Zeit a Beispiel für eine Verteilung ohne endlichen Erwartungswert siehe Übungsaufgabe 7, Serie 6. a0 b0 b Abbildung: Wahrscheinlichkeitsdichte: Die Fläche über dem Intervall [a0 , b0 ] ist gleich der Wahrscheinlichkeit dieses Intervalls – 277 – Mathematik für Informatiker III – 279 – Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume hier: Ω Intervall, z.B. [0, 1], [0, ∞[, ] − ∞, ∞[. Definition F.47 3. Die Integralfunktion F von f , definiert durch (Wahrscheinlichkeitsmaße mit einer Dichtefunktion) Sei Ω = [a, b] ein Intervall mit a < b. 1. Eine Wahrscheinlichkeitsdichte auf Ω ist eine integrierbare Funktion f : Ω → R mit 1. Nicht-Negativität: F (x) = Zb f (ω) dω, a heißt Verteilungsfunktion von P. f ≥ 0, d.h. f (ω) ≥ 0 für alle ω ∈ Ω. 2. Normiertheit: Zx f (ω)dω = 1. a Die Definition im Falle von (halb-) offenen Intervallen Ω ist analog. – 278 – – 280 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Beispiel F.48 4. Eine reelle Zufallsvariable ist eine Funktion (Gleichverteilung auf einem beschränkten Intervall) Die Gleichverteilung auf [a, b] ist durch die Dichtefunktion X : Ω → R. f : [a, b] → R, Ihr Erwartungswert ist E (X ) := Zb x 7→ 1 , b−a gegeben. X (ω)f (ω) dω, (28) a 1 2 falls das Integral in (28) existiert, und ihre Varianz ist Var(X ) := Zb a (X (ω) − E (X ))2 f (ω) dω, (29) -1 sofern die Integrale in (28) und (29) existieren. 1 Abbildung: Gleichverteilung auf dem Intervall [−1, 1] – 281 – Mathematik für Informatiker III – 283 – Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Es gelten Bemerkung: Erwartungswert und Varianz einer Wahrscheinlichkeitsverteilung auf R Wir bezeichnen mit µ= Zb a f (x) = und x · f (x) dx (30) σ = Zb a (x − µ)2 f (x) dx f (x) dx = 1, a den Erwartungswert der Verteilung und mit 2 Zb 1 >0 b−a d.h. f ist also tatsächlich eine Wahrscheinlichkeitsdichte. Sei X eine Zufallsvariable, deren Verteilung die Dichte f hat, also X = x. Der Erwartungswert ist (31) E (X ) ihre Varianz, sofern diese Integrale existieren. = Zb a (Formaler Bezug durch die Zufallsvariable X (x) = x.) 1 1 b+a 1 · x dx = · (b 2 − a2 ) = , b−a b−a 2 2 also gleich dem Mittelpunkt des Intervalls [a, b]. – 282 – – 284 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Zur Berechnung der Varianz benutzen wir = E (X − E (X )) Var(X ) 2 Beispiel F.50 (Normalverteilungen) 2 2 Die Normalverteilung N (µ, σ 2 ) mit Erwartungswert µ und Varianz σ 2 hat die Dichte −(x−µ)2 1 fµ,σ2 (x) = √ e 2σ2 . (32) σ 2π = E (X ) − E (X ) . Wir müssen also noch das zweite Moment E (X 2 ) von X berechnen. E (X 2 ) = Zb a 1 1 1 1 x 2 dx = · (b 3 − a3 ) = (b 2 + ab + a2 ). b−a b−a 3 3 Die Normalverteilung N (0, 1) mit Erwartungswert 0 und Varianz 1 heißt Standard-Normalverteilung. Damit erhalten wir Var(X ) = 1 1 1 2 (b + ab + a2 ) − (b 2 + 2ab + a2 ) = (b − a)2 . 3 4 12 Die Varianz hängt also nur von der Intervalllänge ab. Physikalisch kann man den Erwartungswert von X als Schwerpunkt bei homogener Massenverteilung interpretieren, und die Varianz ist proportional zum Trägheitsmoment, also proportional zum mittleren quadratischen Abstand zum Schwerpunkt. Abbildung: Die Standard-Normalverteilung mit ihrem σ-, 2σ- und 3σ-Intervall – 285 – Mathematik für Informatiker III – 287 – Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Beispiel F.49 (Exponentialverteilungen auf [0, ∞)) Durch die Normalverteilung werden viele gestreute Größen, wie z.B. Körperlängen von Personen in einer Bevölkerung beschrieben, allerdings nur in einem hinreichend kleinen Intervall um die Durchschnittsgröße herum, denn natürlich gibt es keinen Menschen mit negativer Größe oder von 3m Länge. Solche Verteilungen haben mit den Normalverteilungen die typische Glockenform gemeinsam. Mathematisch wird der Zustand zwischen der Normalverteilung und mehrfach wiederholten Experimenten (z.B. mehrfacher Münzwurf) durch den zentralen Grenzwertsatz (Satz F.53) hergestellt. Die Exponentialverteilung mit Parameter λ > 0 ist gegeben durch die Dichte fλ : [0, ∞) → R, t 7→ λe −λt . Sie tritt z.B. beim durch den Poisson-Prozeß modellierten radioaktiven Zerfall auf (s. Beispiel F.46) Die Wartezeit bis zum ersten Zerfall ist eine Zufallsvariable, deren Verteilung die Dichte fλ hat. (siehe auch Übungsaufgabe 8, Serie 6) – 286 – – 288 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Erwartungswert und Varianz einer N (µ, σ 2 )-verteilten Zufallsvariablen Xµ,σ2 : Z∞ x · fµ,σ2 (x) dx = µ E (Xµ,σ2 ) = −∞ Var(Xµ,σ2 ) = 2 E (X0,σ 2) − E (X0,σ2 )2 = σ 2 − 0 = σ 2 (invariant bezüglich Verschiebung) – 289 – Mathematik für Informatiker III – 291 – Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Verteilungsfunktion der Standard-Normalverteilung fµ,σ2 (x) ist eine Wahrscheinlichkeitsdichte, d.h. fµ,σ2 (x) ≥ 0 ∀x und Normiertheit ist erfüllt: Z∞ 2 e −x dx < ∞ existiert (Majorante). Das uneigentliche Integral 0 < −∞ 2 Definition F.51 Zu der Funktion e −x gibt es keine elementare Stammfunktion. Man kann aber berechnen: (Transformation in Polarkoordinaten) Z∞ 2 e −x dx = Die Verteilungsfunktion (s. Definition F.47) der Standard-Normalverteilung ist √ π Φ : R → R, Z z f0,1 (x) dx. Φ(z) = −∞ −∞ Wir erhalten die Normiertheit der Dichtefunktion: Z∞ −∞ 1 √ e σ 2π −(x−µ)2 2σ2 Graphen der Dichte f0,1 und von Φ siehe Abbildung. dx = 1 – 290 – – 292 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Einige spezielle Werte von Φ: Φ(0) = 0.5, Φ(1) ≈ 0.8413 Φ(2) ≈ 0.9772 1 Φ(3) ≈ 0.9986 0.8 0.4 0.2 -2 -1 1 2 ⇒ ⇒ R1 ≈ 0.6826, R3 ≈ 0.9972. f (y ) dy −1 0,1 R2 f (y ) dy −2 0,1 −3 f0,1 (y ) dy ≈ 0.9544, Aus der zweiten Zeile folgt z.B., dass bei irgendeiner Normalverteilung dem Intervall [µ − σ, µ + σ] mit Radius σ (Streuung) um den Erwartungswert µ herum eine Wahrscheinlichkeit von etwa 68% zugeordnet wird. Bei einem Experiment mit vielen voneinander unabhängigen N (µ, σ 2 )-verteilten Messungen liegen ungefähr 68% der Meßwerte in diesem Intervall. 0.6 -3 ⇒ 3 Abbildung: Die Standard-Normalverteilung und ihre Verteilungsfunktion – 293 – Mathematik für Informatiker III – 295 – Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Bemerkung zur Verteilungsfunktion der Standard Normalverteilung I I I Es gibt keine Darstellung von Φ durch elementare Funktionen. Werte von Φ lassen sich aber beliebig genau numerisch berechnen, und für diskrete Werte von z liegen die Funktionswerte tabellarisch vor (z.B. Bronstein, Taschenbuch der Mathematik). Dadurch kann man schnell Integrale der Form Z b f0,1 (x) dx = Φ(b) − Φ(a) a I auswerten. Wegen Φ(−z) = 1 − Φ(z) enthalten solche Tabellen z.B. nur die Werte für nicht-negative z. I Abbildung: Die Standard-Normalverteilung mit ihrem σ-, 2σ- und 3σ-Intervall Für symmetrische Intervalle [−z, z] (mit z > 0) gilt: Z z f0,1 (x) dx = Φ(z) − Φ(−z) = Φ(z) − (1 − Φ(z)) = 2Φ(z) − 1. −z – 294 – – 296 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Definition F.52 (α-Quantile der N (µ, σ 2)-Verteilung) Wahrscheinlichkeit: Sei X N (µ, σ 2 )-verteilt. Sei α ∈]0, 1[. Das α-Quantil der Standard-Normalverteilung ist die Zahl z ∈ R mit Z z α= f0,1 (x) dx = Φ(z), −∞ z =Φ Z = also −1 Z P(X ∈ [a; b]) = (α). Z = Bemerkung: Quantile für allgemeine Verteilungen, Median Verteilungsfunktion: Man kann α-Quantile allgemein für (diskrete oder kontinuierliche) reelle Verteilungen definieren. Das 12 -Quantil heißt Median der Verteilung. Im Falle einer kontinuierlichen Verteilung auf einem Intervall [a, b] mit überall positiver Dichte f ist der Median m die durch die Bedingung P([a, m]) = 12 eindeutig festgelegte Zahl. Der Median ist im allgemeinen vom Erwartungswert verschieden. Φ(z) = P(X ∈ [a; b]) = Φ Z b fµ,σ2 (x)dx a b a 1 f0,1 σ b−µ σ a−µ σ x −µ σ dx f0,1 (z)dz z f0,1 (z)dz −∞ b−µ σ −Φ a−µ σ (Anwendung in Übungsaufgabe 5, Serie 6) – 297 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Transformation einer beliebigen Normalverteilung in die Standard-Normalverteilung I I Der zentrale Grenzwertsatz, den wir hier in einer speziellen Version formulieren, erklärt die herausragende Bedeutung von Normalverteilungen für die Wahrscheinlichkeitstheorie und Statistik. Normalverteilung N (µ, σ 2 ) (Erwartungswert µ, Varianz: σ 2 ) −(x−µ)2 1 fµ,σ2 (x) = √ e 2σ2 σ 2π Satz F.53 (Zentraler Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von auf demselben Wahrscheinlichkeitsraum (Ω, P) definierten, paarweise unabhängigen reellen Zufallsvariablen, die alle dieselbe Verteilung haben mit Standard-Normalverteilung N (0, 1) (Erwartungswert 0, Varianz: 1) −x 2 1 f0,1 (x) = √ e 2 2π E (Xi ) = µ, 1 √ e σ 2π −(x−µ)2 2σ2 = 1 1 √ e σ 2π − 12 ( x−µ σ ) 2 = 1 f0,1 σ x −µ σ Var(Xi ) = σ 2 > 0. Sei X (n) = X1 + . . . Xn , und sei Z (n) = Erwartungswert 0 und die Varianz 1.) Umrechnung: fµ,σ2 (x) = – 299 – – 298 – X (n)√ −nµ . σ n (Somit hat Z (n) den – 300 – Mathematik für Informatiker III Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume 0.08 Dann gilt für jedes Intervall [a0 , b0 ] ⊂ R: lim P(Z n→∞ (n) ∈ [a0 , b0 ]) = Z 0.06 b0 f0,1 (x) dx. a0 0.04 wobei f0,1 die Dichte der Standard-Normalverteilung ist. Äquivalent dazu können wir schreiben: (n) Z b0 X − nµ √ lim P ∈ [a0 , b0 ] = f0,1 (x) dx. n→∞ σ n a0 0.02 15 20 25 30 35 40 45 Abbildung: Histogramm der Binomialverteilung für n = 100 und p = 0.3, verglichen mit der N (np, np(1 − p)) Verteilung. – 301 – Mathematik für Informatiker III Unendliche Wahrscheinlichkeitsräume Kontinuierliche Wahrscheinlichkeitsräume Beispiel F.54 (Binomialverteilung für große n) Die Binomialverteilung mit gegebenem Erfolgsparameter p wird für große n ungefähr gleich einer N (np, np(1 − p)) Normalverteilung: (k−µ)2 1 n k e − 2σ2 mit µ = np und σ 2 = np(1−p). P(k) = p (1−p)n−k ≈ √ k 2πσ Dieser Sachverhalt, der für p = 0.3 und n = 100 in der folgenden Abbildung illustriert ist, folgt direkt aus dem zentralen Grenzwertsatz, denn die binomialverteilte Zufallsvariable K kann als Summe vieler unabhängiger Zufallsvariablen Xi aufgefasst werden, die jeweils nur die Werte 0 oder 1 (jeweils mit Wahrscheinlichkeit (1 − p) bzw. p) annehmen, und die den Erwartungswert p und die Varianz p(1 − p) haben. – 302 – – 303 –