Mathematik für Informatiker Andreas Griewank ([email protected]) Wiss. Mitarbeiter: Torsten Bosse ([email protected] Skript: Sebastian Rust(Student), Jan Riehme (ehem. Mitarbeiter) Institut für Angewandte Mathematik Humboldt Universität zu Berlin 20. Januar 2014 –1– Modul: Angewandte Mathematik für Informatiker (AM) Studienpunkte: 6 Lern- und Qualifikationsziele Studierende erlernen die mathematischen Grundlagen zur Lösung numerischer Probleme der Informatik und zur probablistischen Modellbildung. Voraussetzungen für die Teilnahme am Modul Keine. Lehr- und Lernformen PräsenzSWS Vorlesung 3 Anzahl der SP/ Arbeitsleistung 45 Stunden Anwesenheit, 60 Stunden Vor- und Nachbereitung inkl. Prüfungsvorbereitung Lernziele, Themen, Inhalte – – – – – Übung 1 Modulabschlussprüfung 15 Stunden Anwesenheit 60 Stunden Bearbeitung der Aufgaben Ausgewählte numerische Verfahren Grundlagen der Linearen Optimierung Modellierung komplexer Systeme mit Differentialgleichungen, Lösen von einfachen Systemen gewöhnlicher Differentialgleichungen Elementare Kombinatorik und Wahrscheinlichkeitsrechnung, Modelle für Zufallsexperimente, Zufallsgrößen und ihre Charakteristika Statistische Unabhängigkeit, Gesetz der großen Zahlen, bedingte Wahrscheinlichkeiten Praktische Erarbeitung von Lösungen zu ausgewählten Problemen. Erfolgreiche Teilnahme an der Übung ist Voraussetzung zur Prüfungszulassung. Schriftliche Prüfung (90 Minuten). Dauer des Moduls 1 Semester 2 Semester Beginn des Moduls WS SS –2– Literaturhinweise I Peter Hartmann, Mathematik für Informatiker. 3. überarbeitete Auflage, 2004, Vieweg. Bei Lehmann’s vorhanden, ca. 30e. Gute Grundlage, äußerst lesbar, ISBN: 3-528-23181-5 Guerino Mazzola, Gérard Milmeister, Jody Weissmann, Comprehensive Mathematics for Computer Scientists 1, 2004, Springer. Ziemlich axiomatisch und knapp geschrieben. Zweiter Band in Vorbereitung. Definitiv für höhere Ansprüche. Begleitender Kurs im Internet verfügbar. ca 30 e, ISBN: 3-540-20835-6 Gerhard Opfer, Numerische Mathematik für Anfänger. Eine Einführung für Mathematiker, Ingenieure und Informatiker. 4. durchgesehene Auflage, 2002, Vieweg Hans-Görg Roos, Hubert Schwetlick, Numerische Mathematik. Das Grundwissen für jedermann. Mathematik für Ingenieure und Naturwissenschaftler. 1999, Teubner Friedrich Stummel, Karl Hainer, Praktische Mathematik. 1982, Teubner J.M. Ortega, W.C. Rheinboldt, Iterative solution of nonlinear equations in several variables. 1970 Academic Press, Inc. –3– Literaturhinweise II Josef Stoer, Numerische Mathematik 1. Eine Einführung - unter Berücksichtigung von Vorlesungen von F.L. Bauer. 7. neubearbeitete und erweiterte Auflage, 1994, Springer. –4– A - 1 Numerik im Überblick – Was ist, was will ’Numerik’ Ausgangsdilemma Die Modellierung natur- oder sozialwissenschaftlicher Zusammenhänge bzw ’Systeme’ führt zu mathematischen ’Gleichungen’, die nur in ganz einfachen Fällen per Hand oder sonstwie ’exakt’ gelöst werden können. Zum Beispiel können schon bei der unbestimmten Integration Maple und Mathematica nur in speziellen Ausnahmefällen eine Lösung als Formel angeben. Es lässt sich sogar zeigen, dass eine solche ’symbolische’ Lösung im Regelfall garnicht existiert. –5– Praktischer Ausweg Die mathematischen Gleichungen werden in Computerprogramme umgesetzt und, wenn es sich dabei um Differentialgleichungen handelt ’diskretisiert’. Die resultierenden Systeme linearer oder nichtlinearer algebraischer Gleichungen werden dann annäherungsweise über dem Raster(=Screen) der Gleitkommazahlen gelöst Die Ergebnisse werden ausgedruckt oder besser graphisch dargstellt. –6– Stufen des ’Wissenschaftlichen Rechnens’ (i) Modellierung (ii) Diskretisierung (iii) Dateneingabe (iv) Lösung (v) Datenausgabe ( des Anwendungssystems ) ( von Differentialgleichungen ) ( für aktuelle Situation ) ( durch Gleitkomma-Algorithmen ) ( in geeigneter Form ) Eventuell können (iii) - (v) auch innerhalb einer Wiederholungsanweisung (Schleife, Schlaufe) ausgeführt werden (z.B. wenn die Ausgabe zur Echtzeitsteuerung eines System dient). –7– Numerische Grundaufgaben und ihre Lösbarkeit Lineare algebraische Gleichungssysteme Im Prinzip völlig im Griff. Variablenzahl jeweils durch Speichergröße und Prozessorzahl und -geschwindigkeit beschränkt. Nichtlineare algebraische Gleichungssysteme Lokal, d.h. bei vorhandener guter Anfangsnäherung: wie linearer Fall. Global: beliebig schwierig und eventuell unlösbar. Anfangswertaufgaben für ODEs Im Prinzip völlig im Griff unabhängig von Linearität. Randwertaufgaben für ODEs Standarddiskretisierung führt auf lineare bzw nichtlineare algebraische Gleichungen und ist entsprechend lösbar. Partielle Differentialgleichungen PDE Nur im elliptischen Fall schnell lösbar, alles andere ist Forschungsgebiet und stößt jeweils an die Grenzen vorhandener Rechnerkapazitäten. –8– Gliederung 1. Numerik im Überblick 2. Lösung (nicht-)linearer Gleichungssysteme 3. Gewöhnliche Differentialgleichungen (=ODE) 4. Optimierung 5. Wahrscheinlichkeitstheorie –9– A - 2 Gleitkommadarstellung und -arithmetik Ein System von Gleitkommazahlen wird definiert durch: I Basis (oder Radix) b (= üblicherweise 2) I Mantissenlänge l I Minimaler Exponent emin I Maximaler Exponent emax Teilmenge der reellen Zahlen R mit Darstellung x = −1 s 0.m1 m2 · · · ml be | ∼ −1 s {z Mantisse m } m1 be−1 + m2 be−2 + m3 be−3 + . . . + ml be−l Vorzeichenbit s, Mantisse m, Exponent e s ∈ 0, 1 mi ∈ {0, 1, . . . , b − 1} e ∈ {emin , emin + 1, . . . , emax } – 10 – Binärdarstellung, d.h. Basis b = 2 ist die am häufigsten verwendete Basis von Gleitkommazahlen Auch b = 10 wird zuweilen in Hardware verwendet. Arten von Gleitkommazahlen I normalisierte Gleitpunktzahl: m1 > 0 =⇒ 1 ≤ m ≤ x b −e < 1 b x = ±0.m1 m2 m3 · · · ml · be mit m1 > 0 =⇒ eindeutige Darstellung I unnormalisiert: m1 = 0 zugelassen =⇒ keine Eindeutigkeit I denormalisiert: m1 = 0, e = emin Vorsicht: Rechnen mit denormalisierten Zahlen führt zu verstärkten Rundungseffekten. Betragsmäßig kleinste normalisierte Zahl TINY TINY = 0.1 · bemin = bemin −1 Betragsmäßig größte normalisierte Zahl HUGE HUGE = 0.(b − 1)(b − 1)(b − 1) . . . (b − 1) . . . bemax = bemax (1 − b −l ) Epsilon (relative Maschinengenauigkeit) ε ist die kleinste Zahl ε für die 1 + ε in Gleitkommaarithmetik nicht 1 ergibt, d.h. ε ≈ b −l Merke: I Mantissenlänge l bestimmt die Rechengenauigkeit. I Exponentenbereich emax − emin bestimmt den Wertebereich. Beispiel D.1 (Gleitpunktzahlsystem mit Basis 2 und Mantissenlänge 3) x = 0.m1 m2 m3 2e Normalisierte positive Zahlen: Denormalisierte positive Zahlen: denormalisiert e −1 −1 −1 −1 −1 −1 −1 −1 m1 0 0 0 0 1 1 1 1 m2 0 0 1 1 0 0 1 1 m3 0 1 0 1 0 1 0 1 Exponentenbereich 1 e 1 m1 = 1 , m2 {0, 1} ∋ m3 m1 = 0 , e = −1 , m2 ∈{0, 1} ∋ m3 TINY = 0 0 1 1 0 0 0 1 1 1 3 1 5 3 7 1 0 16 8 16 4 16 8 16 2 5 8 1 4 HUGE = , 7 4 , EPSILON = 1 8 0 1 1 0 0 1 1 1 1 1 0 0 1 1 0 1 1 1 1 0 1 1 1 1 3 4 7 8 1 5 4 3 2 7 4 – 13 – Beispiel 1 (Einfache genaue Gleitkommazahlen im Salford Fortran 95 Compiler) b = 2, HUGE TINY Epsilon l = 24, ≈ ≈ ≈ emin = −125, 2128 = 2−125−1 = 2−24 = emax = 128 12.8 −12.6 210 −2.4 210 210 ≈ ≈ ≈ 103 12.8 3 −12.6 (10 ) 3 − 2 .4 10 ≈ ≈ ≈ 1038 10−38 10−7 Folgerung 2 Bei Verwendung der Gleitkommazahlen des Salford Fortran 95 Compilers in Standardgenauigkeit wird mit etwa sieben signifikanten Dezimalstellen gerechnet. – 14 – Gleitpunktoperationen Bemerkenswert ( 1.0 / 8.0 ) * 8.0 = 1.0 ( 1.0 / 5.0 ) * 5.0 6= 1.0 Konsequenz Gleitpunktoperationen stören normale algebraische Rechenregeln, insbesondere Distributivität: Im Allgemeinen gilt (a + b ) ∗ c 6 = a ∗ c + b ∗ c . Man muss sich also über die Reihenfolge der Anwendung von Operationen Gedanken machen. – 15 – Allgemein gültiger Standard: ANSI - IEEE 754 (ANSI → American National Standards Institute und IEEE → Institute of Electrical and Electronics Egineering.) Grundideen: (i) Alle Zwischenergebnisse werden zur nächsten Gleitpunktzahl gerundet. (ii) The show must go on. Auch bei Fehlern wird weiter gerechnet. – 16 – Zu Grundidee (i) – Rundung von Zwischenergebnissen Auch wenn x und y im Gleitpunktbereich liegen, gilt dies im Allgemeinen nicht für das Ergebnis x ◦ y , wobei ◦ ∈ {−, +, ·, /}. Dann wird x ◦ y zunächst mit erhöhter Genauigkeit berechnet und anschließend zur nächstliegenden Gleitpunktzahl gerundet. Rundungsarten ∇(x ◦ y ) nach unten gerundet (größte untere Schranke im Gleitpunktbereich) ∆ (x ◦ y ) nach oben gerundet (kleinste obere Schranke im Gleitpunktbereich) Verhältnis der Rundung nach oben und unten Falls e gemeinsamer Exponent von ∆(x ◦ y ) und ∇(x ◦ y ) ist, dann gilt ∆ (x ◦ y ) q 0 .m · 2 e − ∇(x ◦ y ) q 0.m̃ · 2e ≤ 2 − l 2e ≤ 2 − l 2 · | x ◦ y | , da|x ◦ y | ≥ 1 e 22 – 17 – Bezeichnet man also mit (x ◦ y ) ∈ {∇(x ◦ y ), ∆(x ◦ y )} die Gleitpunktzahl, die am nächsten zu x ◦ y liegt, so gilt |(x ◦ y ) − x ◦ y | ≤ 1 2 | ∆ (x ◦ y ) − ∇(x ◦ y )| ≤ 2−l |x ◦ y | ≤ eps · |x ◦ y | wobei eps = 2−l die relative Maschinengenauigkeit ist. Alternative Schreibweise: fl (x ◦ y ) = (x ◦ y ) ∗ (1 + ε), wobei |ε| ≤ eps. fl (x ◦ y ) bezeichnet das in Gleitpunktarithmetik erzielte Ergebnis für x ◦ y . Konsequenz für relativen Fehler: fl (x ◦ y ) − (x ◦ y ) ≤ |ε| ≤ eps x ◦y – 18 – Warnung: Rundungsfehler entstehen in (fast) jeder einzelnen Operation und pflanzen sich fort. Algorithmen (z.B. zur Matrixfaktorisierung) müssen deswegen auf ihre Stabilität, d.h. die Verstärkung oder Abdämpfung von Rundungsfehlern, untersucht werden. Beispiel 3 Gaußsche Elimination ohne Pivotierung ist extrem instabil. Gauß mit Pivotierung ist dagegen recht stabil. – 19 – Frage Was passiert, wenn x ◦ y außerhalb des Wertebereichs [-HUGE, HUGE] liegt, d.h. entweder ∇(x ◦ y ) oder ∆(x ◦ y ) nicht existiert? Beispiel 4 (Programm) REAL u,s,t s = TINY(u)**2 ! ergibt 0 t = HUGE(u)*8 ! ergibt INF, liefert OVERFLOW – 20 – Zu Grundidee (ii) – Fortsetzung der Berechnung trotz Fehlers Mit INF und -INF kann (soweit es geht) normal weiter gerechnet werden, ohne dass sich je wieder normale Zahlen ergeben. (Einige) Rechenregeln x + INF == INF x * INF == sign(x) * INF x / 0 == sign(x) * INF für alle x 6= -INF für x 6= 0 für x 6= 0 wobei sign(x) das Vorzeichen von x liefert. Undefinierte Operationen wie 0/0, INF/INF, INF-INF und 0*INF ergeben den sehr speziellen Wert NaN ≈ Not a Number. Da ein NaN nicht mit sich selbst oder etwas anderem verglichen werden kann, gilt x 6= x .EQUIV. .TRUE. genau dann wenn x ein NaN ist. – 21 – Infektionsprinzip: Wenn immer ein NaN als Argument oder Operator einer Operation auftritt sind die Ergebnisse wiederum NaNs. Auf diese Weise wird der gesamte Berechnungszweig als ungültig ausgewiesen. – 22 – A - 2 Gleitkommadarstellung und -arithmetik Fehlerfortpflanzung Erinnerung: fl (x ◦ y ) = x ◦ y ∗ (1 + ε) mit − eps ≤ ε ≤ eps wobei ◦ ∈ {+, −, ∗, /} Prinzip Hoffnung für komplexe Berechnungen Da Auf- oder Abrunden mehr oder minder zufällig auftreten hebt sich deren Wirkung (hoffentlich) im Großen und Ganzen auf. – 23 – Positives Beispiel: Geometrische Reihe: n s= ∑ xi = i =0 1 − x n +1 1−x falls x 6= 1 . Einfach genaues Auswertungsprogramm in Fortran 95 INTEGER i,n REAL(KIND=1) x,y,s REAL(KIND=2) check s = 0 y = 1 DO i = 0, n s = s+y ; y = y*x END DO check = x ; eps = EPSILON(x) check = (1-check**(n+1))/(1-check) WRITE(*,*) s,check,s/check-1,n*eps ! Partialsumme !jeweils Potenz von x Programm ergibt für n = 100 und x = 2.0/3.0 s 3.0000002 check 3.00000019 s/check - 1 2 · 10−8 n * eps 1.2 · 10−5 Beobachtungen I Gleitpunktwert von x ist offenbar größer als größer als 1+ 2 + 3 2 3 (durch Rundung), da beide Summen n n +1 ! 2 2 2 2 +···+ = 3 1− ≤3 3 3 3 | {z } ≤1 I Der beobachtete relative Fehler zwischen einfach und doppelt genauer Lösung ist lediglich 2 · 10−8 , d.h. von der Größenordnung der Maschinengenauigkeit, obwohl wir 100 Operationen durchgeführt haben. Die Rundungen scheinen sich partiell aufgehoben zu haben. I Eine exakte Abschätzung für den worst case (d.h. schlimmster Fall) ergibt den Wert (1 + eps)100 ≈ 100 · eps als relativen Fehler. Das lässt sich wie folgt herleiten. – 25 – Theoretische Schranke des Fehlers im obigen Programm Für yi +1 = fl (yi ∗ x ) als y0 y1 y2 y3 y4 . . . yi . . . yn berechneter Wert von y im i-ten Schritt gilt: =1 =x = fl (y1 · x ) = x 2 (1 + ε 2 ) = fl (y2 · x ) = x 3 (1 + ε 2 )(1 + ε 3 ) = x 3 (1 + ε̃ 3 )2 = fl (y3 · x ) = x 4 (1 + ε̃ 2 )2 (1 + ε 4 ) = x 4 (1 + ε̃ 4 )3 wobei|ε̃ 3 | ≤ eps = x i (1 + ε̃ i )i −1 = x n (1 + ε̃ n )n−1 – 26 – Entsprechend erhält man für die Partialsummen si +1 = fl (si + yi ) als berechnete Werte von 1 + x . . . + x i +1 s1 = fl (y0 + y1 ) = fl (1 + x ) = (1 + x )(1 + ε n+1 ) s2 = fl (s1 + y2 ) = fl (s1 + y2 )(1 + ε n+2 ) = (1 + x )(1 + ε n+1 ) + x 2 (1 + ε 2 ) (1 + ε n+2 ) = (1 + x + x 2 )(1 + ε̃ n+2 )2 2 n für n sn = (1 + x + x + · · · + x )(1 + ε̃ 2n ) ≤ s (1 + ε) so dass falls eps 1 n |ε̃ n+2 | ≤ eps n ⇐⇒ n · eps 1 |(sn /s − 1)| = |(1 + ε)n | − 1 = 1 + n · ε + n · (n − 1) 2 ε ...−1 2 ≈ n · |ε| ≤ n · eps Ergebnis: Worst case error - Abschätzung: |sn /s − 1| ≈ n · eps – 27 – Negatives Beispiel (d.h. Prinzip Hoffnung versagt) : Harmonische Reihe ∞ ∑ i =1 ∞ 1 = 15.403 i (mathematisch, in exakter Arithmetik) auf Griewank’s Laptop, in einfacher Genauigkeit (für alle hinreichend großen Summations-Schranken = Zahl der Terme) Frage: Was passiert? Antwort: Die Summation bleibt irgendwann liegen, da die zusätzlichen Terme im Vergleich zur berechneten Teilsumme zu klein werden. – 28 – Erklärung: Betrachte kleinen Summanden y und großen Summanden x = 0.m1 m2 . . . ml · 2e so dass x = x + 2−l +e die nächst größere Gleitpunktzahl zu x ist und x = x − 2−l +e ist die nächst kleinere Gleitpunktzahl zu x. Konsequenz: Falls |y | < 1 2 2−l +e = 2−l −1+e gilt immer fl (x + y ) = x. Eine hinreichende Bedingung ist: |y | ≤ |x | · eps. – 29 – Am Beispiel der harmonischen Reihe gilt nach (n − 1) Termen: n −1 x = 1 & i i =1 ∑ n Z 1 1 dz = ln(n). z Also bleibt die Summation liegen (d.h. die Partialsummen wachsen nicht mehr weiter) wenn |y | = 1 ≈ ln(n) · eps n was auf jeden Fall gilt wenn n& 1 eps · ln(n) – 30 – Beispiel 5 (Programm, das die harmonische Reihe summiert, bis die Partialsummen konstant bleiben:) REAL(KIND=1) salt,sneu,one salt = -1 ; sneu = 0 ; one = 1.0 ; n = 1 DO WHILE (sneu 6= salt) salt = sneu sneu = sneu+one/n n = n+1 END DO WRITE(*,*) sneu,n Ergebnis auf Griewank’s Laptop sneu n Laufzeit = 15.403 . . . = 2097152 ≈ 2 · 106 ≈ 16 Sekunde D.h. obiger Schleifenkörper wird in etwa 107 mal pro Sekunden ausgeführt (entspricht ca. 10 Megaflops, d.h. 10 Millionen Operationen/Sekunde.) – 31 – Vergleich zur theoretischen Herleitung n = 2097152 ergibt ln(n) ∗ n ∗ EPSILON (x ) = 3.6 Frage: Was passiert bei Ausführung des obigen Programms, wenn statt mit einfacher Genauigkeit (d.h. KIND=1) nun mit doppelt genauen Gleitkommazahlen (d.h. KIND=2) gerechnet wird? Antwort: Das Programm läuft ewig, da eps−1 und damit dann auch n um Faktor 253 /224 ≈ 229 ≈ 21 109 gewachsen ist. In Sekunden: 1 1 108 · · 109 s = h = 25 · 104 h = 25.000 Stunden 6 2 36 · 103 ≈ 1000 Tage. – 32 – Rundungsfehlerabschätzung bei Riemann Verallgemeinerung der harmonischen Reihe: ∞ Riemannsche Zetafunktion ζ (x ) = 1 x k k =1 ∑ für x > 1 Konvergenzbeweis mittels Integralschranke 1 – 33 – ∆ζ n (x ) = ζ (x ) − ζ n (x ) = ∞ = ∑ k −x ≤ 0− k =1 k =1 Z ∞ k −x dk = ∞ ∞ k 1−x 1 = x −1 1 − x k =n k (1 − x ) k =n 1 1 = x −1 ≤ tol n x −1 (1 − x ) n (x − 1) s ⇒ n n k =n +1 = ∞ ∑ k −x − ∑ k −x n ≥ x −1 1 tol(x − 1) – 34 – Partialsummen: n ζ n (x ) = ∑ k =1 1 kx x wachsen monoton mit n und sind nach oben durch x − 1 beschränkt, haben also einen eindeutigen Grenzwert ζ (x ). Praktische Notwendigkeit: Diskretisierung Hier, wie häufig in numerischer Mathematik muss mathematisches Problem durch Ausführung endlich vieler Operationen auf endlich vielen Variablen annäherungsweise gelöst werden. Hier einfach Annäherung von ζ (x ) durch ζ n (x ). Der entsprechende Abbruchfehler |ζ (x ) − ζ n (x )| kann hier einfach mit Hilfe einer Integralschranke abgeschätzt werden. Unabhängig vom in der Numerischen Analysis betrachteten Diskretisierungsfehler ist der Rundungsfehler zu berücksichtigen. – 35 – Rundungsfehlerabschätzung Für bi > 0 fl = = =⇒ ≤ ≈ ... b1 + b2 + b3 + b4 . . . + bn−1 + bn ... b1 + b2 1 + ε 1 + b3 1 + ε 2 + b4 1 + ε 3 . . . + bn 1 + ε n −1 n −1 n −2 1 + b2 1 + ε̃ 1 + b3 1 + ε̃ 2 + . . . + bn 1 + ε̃ n−1 fl b1 + . . . + bn − b1 + b2 + . . . + bn h i h i n −1 n −1 b1 1 + eps − 1 + b2 1 + eps − 1 + . . . + bn eps b1 + b2 (n − 1) + (n − 2)b3 + (n − 3)b4 + . . . + bn eps b1 1 + ε̃ 1 n −1 Mit anderen Worten: Der an der j + 1-ten Stelle eingebrachte Summand wird (n − j ) -mal in den Operationen von einer Rundung betroffen und trägt entsprechend zur Gesamtfehlerschranke bei. – 36 – Schlussfolgerung: Um Rundungsfehler zu minimieren sollten Summen möglichst vom kleinsten zum größten Summanden gebildet werden. Bei konvergenten (hoffentlich monoton fallenden) Reihen sollte von hinten, d.h. rückwärts summiert werden. Beispiel 6 (ζ (2) auf G’s Laptop in einfacher Genauigkeit:) ∞ ζ (2) = ∑ k =1 2 π /6 = 1.6449340 . . . exakt 1.6447253 vorwärts bis. liegen bleiben n = 4097 1 ≡ k2 1.6446900 rückwärts vom gleichen n = 4097 1.6449339 rückwärts mit n = 223 = 8388608 Bemerkung: Durch Rückwärtssummation können deutlich mehr Summanden der Form 1/k −x mit k > 4097 ihren Beitrag zur Gesamtsumme leisten. Mehr Summanden zu benutzten bedeutet aber, den Diskretisierungsfehler zu verringern und damit den exakten Wert ζ (x ) besser zu approximieren. – 37 – Abschätzung des Rundungsfehlers Vorwärts: n eps n 1 n 1 − ( n − k ) = eps ∑ k k2 k2 k =1 k =1 ∑ 2 π π2 ≈ eps n − ln(n) ≈ eps · n · 6 6 Rückwärts: n eps n 1 1 k = eps ∑ ≈ eps · ln(n) 2 k k k =1 k =1 ∑ Vergleich: eps · n · π2 eps · ln(n) 6 – 38 – Konvergenzbeschleunigung (1. Stufe nach Wijngaard) Beobachtung bei Riemann: ζ (x ) = 1 + 1 1 1 1 +···+ + + + ··· 2x 100x 101x 102x {z | } spätere Terme ändern sich nur langsam Idee: Erste grobe Annäherung mit bk = 1 kx a1 = b1 + b2 · 2 + b4 · 4 + · · · + (b2i ) · 2i > ζ = b1 + b2 + b3 + b4 . . . Reihe der 2 b2i konvergiert viel schneller als ∑ bk . Die Korrektur erfolgt durch transformierte Terme i ∞ aj = ∑ bj 2i 2i . i =0 – 39 – Satz 7 Satz: Für bk = k −x oder andere monoton konvergierende Reihen gilt im Grenzwert ∞ ∞ ∑ bk k =1 = ∑ (−1)j −1 aj . j =1 Bemerkung Bemerkung: Die neue Reihe ist alternierend, wobei aj ≥ bj , d.h. die einzelnen Terme gehen nicht schneller gegen Null als die der Ursprungsreihe. – 40 – Idee des Beweises: Betrachte, wie oft bk in aj auftritt Vorz + − + − + − + ∑ j \k 1 2 3 4 5 6 7 1 1 − − − − − − 2 2 1 − − 3 4 4 2 5 6 7 − − 1 − − − − − − − − − 1 − − − − − − − − − − − 1 − − − − − − 1 1 1 1 1 1 1 1 1 2 − − 8 8 4 − 2 − − − 9 10 11 12 − − − − − − − − − − − − − − − − − − − − mit Vorzeichen Bemerkung Bei Riemann können die ai = ai (x ) sogar explizit berechnet werden. 2 − 2 ......... 4 − − 2 − Schlussfolgerungen aus dem Summationsbeispiel I Die Behandlung mathematischer und anderer Modellierungsprobleme bedingt das Auftreten von Abbruchs- ≡ Diskretisierungsfehlern sowie Rundungsfehlern. Beide sollten abgeschätzt und möglichst minimiert werden. I Gleitpunktarithmetik ist weder kommutativ noch assoziativ, distributiv usw. Spezielle Konsequenz: Betragsmäßig fallende Reihen von hinten summieren! I Es ist erstaunlich einfach, an die Grenzen der Gleitpunkt- und Ganzzahlarithmetik zu stoßen. I Viele Jobs (≡ Programme, Daten) laufen entweder im Sekunden- oder Stundenbereich. Beobachtung der Abarbeitung im Minutenbereich ist relativ selten. I Mathematisch endlich ist nicht gleich rechentechnisch endlich. – 42 – Gliederung 1. Numerik im Überblick 2. Lösung (nicht-)linearer Gleichungssysteme 3. Gewöhnliche Differentialgleichungen (=ODE) 4. Optimierung 5. Wahrscheinlichkeitstheorie – 43 – Arten von Gleichungen und Lösern 1. n = 1 linear (trivial) 2. n = 1 nichtlinear (a) Bisektion (b) Newton 3. n > 1 linear (a) (b) (c) (d) Cramer’s Regel LU-Faktorisierung QR-Faktorisierung Fixpunkt Methoden 4. n > 1 nichtlinear (a) Fix Punkt Methoden (b) Newton Methode Beobachtung 3.d, 4.a und 4.b verlangen Verständnis von Konvergenz und Vollständigkeit (in Rn ) – 44 – Vollständige metrische Räume Lineare Räume Mathematisch werden die meisten numerischen Berechnungen auf n-Tupeln von reellen Zahlen beschrieben. Diese bilden den Euklidischen Raum Rn . Praktische Berechnungen auf digitalen Rechnern erfolgen dann auf Tupeln aus dem sogenannten Gleitkommaraster G ⊂ R durchgeführt werden, wie im ersten Teil der Vorlesung beschrieben. Streng genommen gelten dabei nicht die üblichen Körperaxiome, da für x, die kleinste darstellbare Zahl je nach Rundungsmodus gilt: ( float (x ∗ x ) = x 0 I’m Aufrundungsmodus bei allen andern Modi Metrische Räume Häufig werden die Tupel x ∈ Rn auch von vornherein auf eine Teilmenge M ⊂ Rn eingeschränkt, z.B. indem für bestimmte Komponenten xj negative Werte von vornherein ausgeschlossen werden können oder müssen. Auch Gn und seine Teilmengen können im folgenden Sinne als metrische Rähme interpretiert werden. – 45 – Definition 1 (Metrischer Raum) Eine Menge X heisst 1. metrischer Raum, falls für eine Abstandsfunktion d (x , y ) ∈ R gilt (i) 0 ≤ d (x , y ) mit d (x , y ) = 0 ⇔ x = y Definitheit (ii) d (x , y ) = d (y , x ) Symmetrie (iii) d (x , z ) ≤ d (x , y ) + d (y , z ) Dreiecksungleichung 2. vollständig, wenn jede Cauchyfolge (xn )n∞=1 ⊂ M einen Grenzwert x (∗) ∈ X besitzt, d.h. ∀ε > 0 ∃ k0 : |d (xk , xl )| ≤ ε für alle k ≥ k0 , l ≥ k0 =⇒ ∃x (∗) = lim xk ∈ X k →∞ Unmittelbare Folgerungen I Jede Teilmenge eines metrischen Raumes ist metrischer Raum. I Jede abgeschlossene Teilmenge eines vollständigen Raumes ist selbst wiederum ein vollständiger metrischer Raum. Nebenbemerkung: Theoretisch lassen sich alle metrischen Rähme durch Hinzunahme von Äquivalenzklassen von Cauchyfolgen als neuen Elementen vervollständigen. Die praktische Erweiterung ist nicht einfach. – 46 – Normierte Räume Viele metrische Räume entstehen als normierte Vektorräume X bzw deren abgeschlossene Untermengen. In einem solchen müssen Vektoradditionen und Multiplakationen mit reellen oder konvexen Skalaren definiert sein. (Siehe lineare Algebra). Definition 2 (Normierter Raum) Ein linearer Raum heisst normiert wenn es eine Normfunktion gibt die ähnlich dem Betrag jedem Vektor x ∈ X eine nichtnegatives Längenmass mass kx k ∈ R zuordnet. Diese muss die folgenden Eigenschaften haben (i) 0 ≤ kx k mit kx k = 0 ⇔ x = 0 (ii) kαx k = |α|kx k for α∈R (iii) kx − z k ≤ kx − y k + ky − z k Definitheit Symmetrie Dreiecksungleichung Wie man aus der Dreiecksungleichung sieht übernimmt die Norm der Vektordifferenz kx − y k die Rolle des Abstandes d (x , y ) und macht den normierten Raum zu einem metrischen Raum. Ist dieser vollständig so heisst der Vektorraum ein Banachraum. – 47 – Normen in Rn In den endlich dimensionalen Räumen Rn mit Vektoren x ≡ (x1 , . . . xn ) arbeitet man vorrallem mit den Normen kx kp n | xi | ∑ i =n1 2 1/n = ∑ i = 1 xi max1≤i ≤n |xi | wenn p = 1 d.h. Eins-Norm wenn p = 2 d.h. Euklidische Norm wenn p = ∞ d.h. Max-Norm Es lässt sich leicht überprüfen, dass kx k ∞ ≤ kx k2 ≤ kx k2 ≤ n kx k ∞ Allgemein heissen zwei Normen kx k und |kx k| äquivalent wenn es positive Konstanten c1 und c2 gibt so dass für alle 0 6= x ∈ Rn 0 < c1 ≤ |kx k|/kx k ≤ c2 < ∞ Es lässt sich zeigen, dass in endlich dimensionalen Rähmen alle Normen äquivalent sind. Das bedeutet dass die Konvergenzeigenschaft x k → x (∗) im Sinne von kx (k ) − x (∗) k → 0 von der Normwahl unabhänging ist. Vorteile/Nachteile Die Euklidische Norm ist rotationsinvariant. Die Eins- und Max-Norm sind einfacher zu berechnen, was vorallem auch für die entsprechenden Matrixnormen gilt, die wir hier nicht betrachten. – 48 – Banachscher Fixpunktsatz Nun formulieren wir ein sehr weitreichendes und flexibles Werkzeug zum Beweis der Existenz und Eindeutigkeit von Lösungen verschiedenster Problemstellungen. Satz 3 (Banachscher Fixpunktsatz) Falls einen Abbildung G von einem metrischen Raum X in sich selbst kontraktiv ist d.h für ein festes L < 1 gilt d (G (x ), G (y )) ≤ L · d (x , y ) für x, y ∈ X dann (i) Existiert genau ein Fixpunkt x (∗) = G (x (∗) ) (ii) Ist x (∗) der Grenzwert aller Folgen x (k ) = G ( x (k −1) ) = G 2 ( x (k −2) ) = . . . G k ( x 0 ) wobei der Anfangspunkt x (0) ∈ X beliebig ist. (iii) Gilt an jedem x k die Abschätzung kx (k ) − x (∗) k ≤ kx (k +1) − x (k ) k/(1 − L) – 49 – Beweis Es gilt für beliebiges x (0) ∈ X und alle k wegen der Kontraktivität d ( x (k +1) , x (k ) ) = d ( G ( x (k ) ) , G ( x (k −1) ) ≤ L d (x (k ) , x (k −1) ) ≤ L2 d (x (k −1) , x (k −2) ) ≤ .... ≤ Lk d ( x ( 1 ) , x ( 0 ) ) = Lk d ( G ( x ( 0 ) ) , x ( 0 ) ) ≡ Lk γ Daraus folgt für den Abstand zwischen der k-ten und m-ten Iterierten nach der Dreiecksungleichung d ( x (m ) , x (k ) ) m −1 ≤ ∑ j =k = Lk d ( x (j +1) , x (j ) ) ≤ m −1 ∑ Lj γ j =k Lk (1 − Lm−k ) ≤ 1−L 1−L Damit haben wir gezeigt, dass die x (k ) eine Cauchy Folge sind und damit wegen der Vollständigkeit einen Grenzwert x (∗) = limk →∞ x (k ) ∈ X hat. – 50 – Fortsetzung des Beweises Um zu zeigen, dass dies x (∗) die Fixpunkteigenschaft x (∗) = G (x (∗) ) hat wählen wir für beliebiges ε > 0 ein k so dass max(d (x (k −1) , x (∗) ), d (x (k ) , x (∗) )) < ε/(1 + L) Daraus folgt d (G (x (∗) ), x (∗) ) ≤ d (G (x (∗) ), G (x (k −1) )) + d (G (x (k −1) ), x (∗) ) ≤ L d (x (∗) , x (k −1) ) + d (x (k ) , x (∗) ) ≤ ε Da ε beliebig war verlangt dies d (G (x (∗) ), x (∗) ) = 0 und somit G (x (∗) ) = x (∗) . Falls x̃ (∗) ein weiterer Fixpunkt is so folgt d (x (∗) , x̃ (∗) ) = d (G (x (∗) ), G (x̃ (∗) )) ≤ Ld (x (∗) , x̃ (∗) ) was nur mg̈lich ist wenn d (x (∗) , x̃ (∗) ) = 0 und somit x̃ (∗) = x (∗) . Die letzte Abschätzung folgt aus der schon bewiesenen Cauchy Eigenschaft d (x (k ) , x (∗) ) − ε ≤ d (x (m) , x (k ) ) ≤ m −1 ∑ j =k d ( x (j +1) , x (j ) ) ≤ Lk 1−L – 51 – Linear n = 1 Vorausgesetzt a 6= 0 dann hat die Gleichung a·x = b ∈ R die eindeutige Lösung x = b /a. Im singulären Falle a = 0 gibt es keine Lösung wenn b 6= 0 und unendlich viele LL̈osungen x falls b auch null ist. Aufwand: Eine Division – 52 – Bisektionsverfahren Ist eine Funktion f auf dem Intervall [a, b ] stetig mit f (a) · f (b ) ≤ 0 so folgt aus dem Mittelwertsatz, dass es eine Nullstelle x (∗) ∈ [a, b ] gibt. Dies lasst sich mit Hilfe des Bisketionsverfahrens beliebig genau berechnen. Hier das Bisektionsverfahren hin b −a Benötigte Schritte = k = log2 0tol 0 = Gewinn an binären Stellen. Vorteile/Nachteile Sehr zuverlästig und beliebig genau, aber eher langsam. Nicht verallgemeinerbar auf n > 1 Gleichungen / Unbekannte – 53 – Alternative: Newtonverfahren: Aktuelle Iterierte xk ≈ x (∗) ∈ F −1 (0). Annähernde Tangente nach Taylor ! 0 = F (x (∗) ) = F (xk + ∆x ) = F (xk ) + F 0 (xk )∆x + O(k∆x k2 ) Nullsetzen der linearen Annäherung durch F 0 ( xk ) ∆ xk = − F ( xk ) Im Falle n = 1 können wir durch F 0 (xk ) 6= 0 teilen, ∆ xk = − F ( xk ) / F 0 ( xk ) , so dass xk +1 = xk − F (xk )/F 0 (xk ) , vorausgesetzt, F 0 (xk ) 6= 0. – 54 – Konvergenztheorie Standardvoraussetzung lim F 0 (x ) = F 0 (x (∗) ) 6= 0 x →x (∗) d.h. F hat in der Umgebung der Wurzel x (∗) eine stetige Ableitung F 0 (x ), die an der Stelle x (∗) nicht null ist. Zusatzvoraussetzung ∃ α > 0, c > 0 ∀x : |F 0 (x ) − F 0 (x (∗) )| ≤ c |x − x (∗) |α d.h. F 0 (x ) ist Hölder-stetig vom Grad α an x (∗) . Wichtigster Fall: α = 1, d.h., F 0 ist Lipschitz-stetig. – 55 – Komplexität des Newtonverfahrens Lemma 4 Unter der Standardvoraussetzung existiert ein δ > 0, so dass (i) |x − x (∗) | < δ =⇒ |F 0 (x )/F 0 (x (∗) ) − 1| < (ii) 4 5 ≤ |F (x )| | |x −x (∗) ||F 0 (x (∗) ) ≤ 1 5 6 5 Beweis: (i) folgt aus F 0 (x (∗) ) 6= 0 und der Stetigkeit von F 0 (x ), denn die Hilfsfunktion h (x ) = F 0 (x ) F 0 (x (∗) ) − 1 ist ebenfalls stetig in x (∗) mit h(x (∗) ) = 0. Wähle also ε = 1 5 > 0 und finde dazu ein δ > 0 nach Stetigkeitsdefinition. (ii) folgt aus (i) mit Mittelwertsatz, da F (x ) = F (x ) − F 0 (x (∗) ) = F 0 (x̃ )(x − x (∗) ) und mit |x̃ − x (∗) | < δ (1 − 51 )|F 0 (x (∗) )| < |F 0 (x )| < (1 + 15 )|F 0 (x (∗) )| . – 56 – Konvergenzgeschwindigkeit von Newton Satz 5 (Quadratische Konvergenz von Newton’s Methode) Unter Standardvoraussetzung folgt aus |x0 − x (∗) | < δ (nach vorherigem Lemma) , dass die Newtonschritte xk wohldefiniert sind und superlinear gegen x (∗) konvergieren, d.h. lim k →∞ |xk +1 − x (∗) | = 0. |xk − x (∗) | Unter der Zusatzvoraussetzung folgt dann γ = sup k |xk +1 − x (∗) | <∞, |xk − x (∗) |1+α so dass |xk +1 − x (∗) | ≤ γ|xk − x (∗) |1+α , d.h. Konvergenzordnung ist 1 + α. Wenn α = 1, so heißt die Konvergenz „quadratisch“. – 57 – Beweis Nach Lemma gilt für |x − x (∗) | < δ > |x̃ − x (∗) | − so dass 1 ≤ 3 F 0 (x ) −1 F 0 (x̃ ) ≤ 3 1 −1 = 2 2 0 F (x ) 1 F 0 (x̃ ) − 1 ≤ 2 Nun erhalten wir für den Newtonschritt xk +1 − x (∗) =xk − x (∗) − F (xk ) F 0 ( xk ) F 0 (x̃ ) = 1− 0 k (xk − x (∗) ) F ( xk ) mit x̃k wie im Beweis des Lemma. Daraus folgt 1 2 |xk +1 − x (∗) | ≤ |xk − x (∗) | ≤ 1 | x0 − x | → 0 k 2m+1 Damit ist die Konvergenz an sich beweisen. Dann folgt zudem lim k →0 |xk +1 − x (∗) | = lim |xk − x (∗) | F 0 (xk ) − F 0 (x̃k ) F 0 ( xk ) = 0 F 0 (x (∗) ) =0 – 58 – Komplexität von Newton Unter der Zusatzvoraussetzung folgt |F 0 (x ) − F 0 (x̃k )| |xk +1 − x (∗) | ≤ 0 k F (xk )|xk − x̃e |α |xk − x (∗) |1+α ≤ 5 (|F 0 (xk ) − F 0 (x (∗) )| + |F 0 (x̃k ) − F 0 (x (∗) )|) 4 |F 0 (x (∗) )| |xk − x (∗) | ≤ 5 c ≡γ 2 |F 0 (x (∗) )| q.e.d. Korollar 6 (Komplexität von Newton) Um den anfänglichen Fehler |x0 − x (∗) | unter eine Toleranz tol zu drücken, braucht das Newtonverfahren log2 (γ · tol ) k = log1+α ≈ log1+α d log2 (γ|x0 − x (∗) |) Schritte. Hierbei kann d als die Zahl der gewonnenen binären Stellen interpretiert werden. – 59 – Beweis Aus Satz folgt γ1/α |xk − x (∗) | ≤ γ1+1/α |xk −1 − x (∗) |1+α = (γ1/α |xk −1 − x (∗) |)(1+α) ≤ (γ 2 |xk −2 − x (∗) |)(1+α)(1+α) ≤ (γ1/α |x0 − x (∗) |)(1+α) 1 k Also wird γ1/α |xk − x0 | ≤ γ1/α tol spätestens für das k erreicht, welches k (γ1/α |x0 − x (∗) |)(1+α) ≤ γ1/α tol erfüllt. Daraus folgt 1 (1 + α)k log2 [(γ1/α |x0 − x (∗) |)] ≤ log2 γ 2 tol und somit " k log2 (1 + α) = log2 log2 (γ1/α tol ) log2 (γ1/α |x0 − x (∗) | =⇒ k ≤ log1+α d # mit d = log2 (γ1/α tol ) 1 log2 (γ 2 |x0 − x (∗) |) – 60 – B - 3 Lösung (nicht-)linearer Gleichungssysteme Methoden zur Lösung des linearen Problemes Ax = b mit dim(x ) = dim(b ) = n I Cramersche Regel xi = det (Ai )/det (A) für i = 1..n ( In Ai wird die i −te Spalte von A durch b ersetzt ) I Gauß-Elimination ≈ P A = LU Faktorisierung ( P Permutation, L unterhalb und U oberhalb dreiecksförmig ) I Schmidt-Ortogonalisierung ≈ A = QR Faktorisierung ( Q orthogonal, R oberhalb dreiecksförmig ) I Fixpunkt Iteration x ← x − M F (x ) mit F (x ) ≡ Ax − b ( M ∈ Rn×n angenäherte Inverse so dass M A ≈ I ) Hinweise: I Für (eindeutige) Lösbarkeit ist überall det (A) 6= 0 vorauszusetzen. I Löse LUx = b bzw QRx = b durch Substitution/Transponierung. I Die letzte Methode lässt sich auch auf nichtlineares F (x ) anwenden. – 61 – Beispiel für Fixpunktiteration Beispiel 7 Tim C. ist mit der Entwicklung eines neuen Computers beschäftigt. Besonders interessiert ihn die Wärmeentwicklung an dem Kühler des Prozessors. Unter Volllast hat die CPU eine Temperatur von 80◦ Celsius. Der Prozessor wird von einem Aggregat gekühlt, welches konstant 10◦ C hat und über eine Metallleiste der Länge L = 1.0m mit der CPU verbunden ist. Die Umgebungsluft der Metallleiste hat eine Zimmertemperatur von p = 20◦ C. Helfen Sie Tim bei der Modellierung der Temperaturverteilung in der Leiste. Betrachten Sie CPU Kühler dazu das 1-dimensionale Modell der statioLuft, 25o Celsius nären Wärmegleichung mit Randwerten gegeben durch: − d 2 x (z ) = −b̃ (z ), x (0) = 80 , x (L) = 10 dz 2 80o C 10o C Metallstab Hierbei, beschreibe x (z ) ∈ R die Temperatur der Leiste und b̃ (z ) = γ(x (z ) − p ) ∈ R den Wärmeaustausch zwischen der Leiste und der umgebenden Luft an der Position 0 z z L z ∈ [0, L]. Der Übergangskoeffizient ist durch γ = 25m−2 gegeben. Benutzen Sie eine äquidistante Diskretisierung mit n + 1 Stützstellen z0 = 0, z1 , . . . , zn = L und formulieren Sie das Finite-Differenzen-Modell, das heisst approximieren Sie 1 d 2 x (z ) 1 ≈ 2 (xi +1 − 2xi + xi −1 ) , dz 2 h 2 i = 1, . . . , n − 1. – 62 – Beispiel für Fixpunktiteration Die Wärmeverteilung an der Leiste ist durch die Lösung des linearen Gleichungsystems Tx = (γIn − A)x = b beschrieben. Hierbei bezeichnet A ∈ Rn×n die tridiagonale Matrix 1 A= 2 h −2 1 1 0 . . . −2 0 1 −2 1 0 ... 1 .. . 1 .. 0 .. . . . 0 1 −2 ... . −2 1 0 . 1 −2 1 ..., γp , x (L) /h 2 + γp und der Vektor q ∈ Rn ist gegeben durch b > = x (0) /h 2 + γp , γp , – 63 – Lösung durch Fixpunktiteration Tridiagonales system a1 c2 0 Tx ≡ 0 . . . . . . 0 b1 a2 c3 0 0 b2 a3 c4 0 0 b3 a5 ... ... 0 ... ... 0 ... ... 0 ... ... ... ... ... ... 0 ... ... ... ... ... ... cn 0 0 0 0 0 x r1 1 x2 r2 x3 r ≡ b = 3 . . . . . . . . . ... bn−1 xn rn an – 64 – Konvergenz bei diagonaler Dominanz Lemma 8 Falls die tridiagonale Matrix T diagonal dominant ist in dem Sinne dass dann ist die oben definierte Iteration x k +1 = G (x (k ) ) bezüglich der Maximums-norm kontrahierend und konvergiert gegen x (∗) so dass (∗) (∗) (∗) bi · xi −1 + ai · xi −1 + ci · xi −1 = ri für i = 1...n Beweis. Gegeben x = x (k ) und y = y (k ) gilt für x + = x (k +1) und y + = y (k +1) xi+ = (ri − ci · xi −1 − bi · xi −1 )/ai yi+ = (ri − ci · yi −1 − bi · yi −1 )/ai xi+ − yi+ = [ci · (yi −1 − xi −1 ) + bi · (yi −1 − xi −1 )]/ai |xi+ − yi+ | ≤ (ci /ai ) · (yi −1 − xi −1 ) + (bi /ai ) · (yi −1 − xi −1 ) ≤ [|ci /ai | + |bi /ai |] max(|yi −1 − xi −1 |, |yi +1 − xi +1 |) =⇒ kx + − y + k ∞ = ≤ max |xi+ − yi+ | 1≤i ≤n max [|ci | + |bi |]/|ai | · kx − y k∞ ≤ L ||x − y ||∞ 1≤i ≤n – 65 – Matrix-Vektor Schreibweise Die Fixpunktiteration lässt sich schreiben, als x (k +1) = D −1 [ r − ( T − D ) x (k ) ] = x (k ) − D −1 [ T x (k ) − r ] wobei D = diag (a1 . . . an ) Allgemeiner nutzt man zur Lösung von Gleichungen F (x ) = 0 Fixpunktiterationen der Form x (k +1) = G ( x (k ) ) = x (k ) − M −1 F ( x (k ) Hierbei muss die Matrix M ∈ Rn×n nicht singulär sein, so dass M ∆x (k ) = −F (x (k ) ) ⇐⇒ ∆x (k ) = −M −1 F (x (k ) lösbar ist. Zudem ist zu wünschen, dass I M einfach strukturiert ist so dass Lösung M ∆x (k ) = −F (x (k ) billig I M sollte ähnlich zu F 0 (x ) sein um schnelle Konvergenz zu erreichen – 66 – Lösung der Temperaturaufgabe Temperatur an der Leiste zwischen CPU und Kühler 80 70 Temperatur 60 50 40 30 20 10 0 0.1 0.2 0.3 0.4 0.5 0.6 Postion z 0.7 0.8 0.9 1 – 67 – Nichtlineare Systeme Falls für F : Rn → Rn die n2 Komponenten der Jacobimatrix F 0 (x ) ≡ ∂ F (x ) ≡ ∂x ∂Fi ∂ xj i =1,...,n j =1,...,n bezüglich jeder der Variablen x1 , . . . , xn Lipschitz-stetig sind, so lässt sich aus dem Hauptsatz der Differential- und Integralrechnung herleiten, dass für jeden Schritt s ∈ Rn gilt F (x + s ) − F (x ) + F 0 (x ) s ≤ γ ks k2 Hierbei ist F 0 (x )s ein Matrix-Vektor Produkt und k · k ist eine Vektor- bzw. Matrixnorm (siehe Abschnitt B-3) mit 0 F (x ) − F 0 (y ) ≤ γ kx − y k Fx (s ) ≡ F (x ) + F 0 (x ) s ist als Funktion des variablen Vektors s die Linearisierung ( verallgemeinerte Tangente ) von F an der Stelle x. – 68 – Newton’s Methode im Vektorfall Setzt man die Linearisierung Fx (s ) = F (x ) + F 0 (x )s zu null so erhält man das lineare Gleichungssystem As = b mit A = F 0 (x ) und b = −F (x ) Die Lösung lässt sich ausdrücken als s = A−1 b = − F 0 (x ) −1 F (x ) und heißt Newtonschritt. Wiederholte Berechnung von s und anschliessende Inkrementierung x ← x + s ergibt Newton’s Methode x (k +1) ≡ x (k ) + s (k ) mit F 0 (x (k ) ) s (k ) = −F (x (k ) ) für k = 0, 1, . . . Hierbei zählt der hochgestellte Index (k ) die Iterationen. – 69 – Warnung: I Das Verfahren muss abgebrochen werden wenn det (F 0 (x (k ) )) null oder sehr klein ist. I Im letzteren Falle werden die Schritte s (k ) typischerweise sehr gross und führen häufig zu Argumenten x (k +1) wo F garnicht mehr ausgewertet werden kann. I Zur Vermeidung dieses Problems wird s (k ) manchmal mit einem Dämpfungsfaktor α(k ) < 1 multipliziert, der dann Schrittweite genannt wird. Wir iterieren also effektiv x (k +1) = x (k ) − α (k ) F 0 ( x (k ) ) −1 F ( x (k ) ) Die Bestimmung eines geeigneten α(k ) heißt auch Strahlsuche (engl: Line Search). – 70 – Lokale Konvergenz von Newton Satz 9 (Satz von Kantorovich) Sei die Vektorfunktion F : Rn → Rn einmal differenzierbar und besitze ihre Jacobimatrix F 0 (x ) ∈ Rn×n die Lipschitzkonstante γ. Weiterhin sei x (0) ein Punkt an dem F 0 (x (0) ) regulär ist und somit eine Inverse F 0 (x (0) )−1 existiert. Mit k · k als induzierte Matrix-Norm folgt dann aus 1 0 (0) −1 2 F ( x ) F ( x (0) ) ≤ 2γ dass Newton’s Methode zu einer Lösung x (∗) mit F (x (∗) ) = 0 konvergiert. Die Konvergenzgeschwindigkeit ist quadratisch in dem Sinne dass für eine Konstante c und alle k gilt 2 (k +1) − x (∗) ≤ c x (k ) − x (∗) x Bemerkung: Je nichtlinearer ein Problem umso größer ist γ und desto stärker ist damit die Bedingung an x (0) . Wird praktisch nie überprüft !!!! Gliederung 1. Numerik im Überblick 2. Lösung (nicht-)linearer Gleichungssysteme 3. Gewöhnliche Differentialgleichungen (=ODE) 4. Optimierung 5. Wahrscheinlichkeitstheorie C - 4 Gewöhnliche Differentialgleichungen (ODE) (nach Hartmann, Mathematik für Informatiker) Definition 1 (Gewöhnliche Differentialgleichungen (ODE)) Eine Gleichung, in der neben der unabhängigen Variablen x und einer gesuchten Funktion n y = y (x ) auch deren Ableitungen ddx ny = y (n) (x ) bis zur Ordnung n auftreten, heißt Gewöhnliche Differentialgleichung n-ter Ordnung (ODE). Sind ausserdem ein x0 aus dem Definitionsbereich von y (x ) und zugehörige Werte y (x0 ), y (1) (x0 ), . . . , y (n−1) (x0 ) gegeben, so spricht man von einem Anfangswertproblem. – 73 – Separable Differentialgleichungen Definition 2 (Separable Differentialgleichung) Eine Differentialgleichung F (x , y , y 0 ) = 0 erster Ordnung heißt separabel, wenn sie sich in der Form y 0 = f (x ) g (y ) darstellen lässt, wobei f : I −→ R, g : J −→ R stetige Funktionen auf den Intervallen I ⊆ R, J ⊆ R sind. Satz 3 (Lösbarkeit: Anfangswertproblem separabler ODE) Eine separable Differentialgleichung erster Ordnung mit der Anfangsbedingung y (x0 ) = y0 für x0 ∈ I, y0 ∈ J, hat im Intervall J eine eindeutige Lösung y (x ) : I −→ J, falls g (y ) 6 = 0 ∀y ∈ J . – 74 – Seien G (y ) : = Z y y0 1 dy , g (y ) F (x ) : = Z x f (x )dx x0 die Stammfunktionen von g (1y ) bzw. f (x ). Dabei wurden für Integrationsvariable und Obergrenze der Integration das gleiche Symbol verwendet. Auf J ist G 0 (y ) = g (1y ) 6= 0 (Voraussetzung Satz 3), daher ist G streng monoton und besitzt eine Umkehrfunktion G −1 . Dann ist aber y (x ) := G −1 (F (x )) die Lösung des Anfangswertproblems y 0 = f (x ) g (y ), y (x0 ) = y0 . – 75 – Probe: G (y (x )) = F (x ) =⇒ G 0 (y (x )) y 0 (x ) = F 0 (x ) = g (y1(x )) y 0 (x ) = f (x ) =⇒ y 0 (x ) = f (x ) g (y (x )) Anfangswert: y (x0 ) = y0 F (x0 ) = 0 G (y0 ) = 0 =⇒ =⇒ =⇒ y (x0 ) = G −1 (F (x0 )) = G −1 (0) G − 1 ( 0 ) = y0 G − 1 ( 0 ) = y0 = y ( x0 ) Satz 4 Das Anfangswertproblem y 0 (x ) = f (x ) g (y ), mit Funktionen f : I −→ R, g : J −→ R, und dem Anfangswert y (x0 ) = y0 ∈ J, hat die eindeutige Lösung y, die man erhält, wenn man die folgende Gleichung nach y auflöst: Z y y0 1 dy = g (y ) Z x f (x )dx x0 – 76 – Lineare Differentialgleichungen erster Ordnung Definition 5 (Lineare Differentialgleichung) Differentialgleichungen, bei denen die Funktion y = y (x ) und ihre Ableitungen nur in linearem Zusammenhang auftreten heißen Lineare Differentialgleichungen. Lineare Differentialgleichungen erster Ordnung haben die Form y 0 + a (x )y = f (x ). Ist die Funktion f (x ) ≡ 0 auf der rechten Seite identisch Null, so heißt die Gleichung homogen, sonst inhomogen. Die Funktion F (x ) auf der rechten Seite heißt Quellfunktion. – 77 – Satz 6 (Lösung homogener linearer ODE) Ist a(x ) auf dem Intervall I stetig, so lautet die vollständige Lösung der linearen Differentialgleichung y 0 + a(x ) y = 0 y ( x ) = c · e −A(x ) wobei c ∈ R und A(x ) eine Stammfunktion von a(x ) ist. Satz 7 (Lösung inhomogener linearer ODE) Die inhomogen lineare Differentialgleichung y 0 + a(x ) y = f (x ), f , a : I −→ R stetig, x0 ∈ I, besitzt die vollständige Lösung y = Z x f (t ) eA(t ) dt + c · e −A(x ) x0 wobei c ∈ R und A(x ) eine Stammfunktion von a(x ) ist. – 78 – Lineare Differentialgleichungen n-ter Ordnung Definition 8 (Lineare ODE n-ter Ordnung) Eine Differentialgleichung der Form y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = f (x ) heißt lineare Differentialgleichung n-ter Ordnung. Dabei sind die Funktionen f , ai : I −→ R auf dem Intervall stetig. Die ai heißen Koeffizientenfunktionen, f heißt Quellfunktion. Ist f = 0, so heißt die Gleichung homogen, sonst inhomogen. – 79 – Satz 9 (Existenz und Eindeutigkeit der Lösung) Sei y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = f (x ) eine lineare Differentialgleichung n-ter Ordnung mit ai , f : I −→ R und x0 ∈ I. Dann gibt es zu den Anfangswerten y ( x0 ) = b0 , y 0 (x0 ) = b1 , ... y ( n − 1 ) ( x0 ) = bn − 1 genau eine Lösung y = y (x ) dieses Anfangswertproblems. Diese Lösung existiert auf dem ganzen Intervall I. – 80 – Satz 10 (Lösungsstruktur linearer ODE n-ter Ordnung) Die Menge H der Lösungen y : I −→ R der homogenen linearen Differentialgleichung y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = 0 mit ai : I −→ R bildet einen reellen Vektorraum der Dimension n. Eine Basis des Lösungsraumes H nennt man Fundamentalsystem. Jede Lösung y der inhomogenen Gleichung y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = f (x ) mit f : I −→ R hat die Form y = ys + yh wobei xh ∈ H eine Lösung der homogenen und ys eine spezielle Lösung der inhomogenen Differentialgleichung ist. – 81 – Lineare Differentialgleichungen mit konstanten Koeffizienten Für inhomogene lineare Differentialgleichungen n-ter Ordnung (siehe Definition 8) existiert kein allgemeines Lösungsverfahren. Für den Fall konstanter Koeffizientenfunktionen ai (x ) ∈ R kann jedoch ein Fundamentalsystem angegeben werden: Lösung des homogenen Systems y (n) + a1 y (n−1) + · · · + an−1 y 0 + an y = 0 Lösungsansatz: Exponentialfunktion y (x ) = e λ x , y 0 (x ) = λ e λ x , y (x ) = e λ x und damit y 00 (x ) = λ2 e λ x , . . . , y (n) (x ) = λn e λ x Einsetzen in die Differentialgleichung liefert λ n e λ x + a1 λ n − 1 e λ x + · · · + an − 1 λ e λ x + an e λ x ( λ n + a1 λ n − 1 + · · · + an − 1 λ + an ) e λ x = = 0 – 82 – Definition 11 (Charakteristisches Polynom) Das Polynom p ( λ ) : = λ n + a1 λ n − 1 + · · · + an − 1 λ + an heißt charakteristisches Polynom der homogenen linearen Differentialgleichung n-ter Ordnung mit konstanten Koeffizienten y ( n ) + a1 y ( n − 1 ) + · · · + an − 1 y 0 + an y = 0. Fortsetzung: Lösung des homogenen Systems Aus den Nullstellen λi , i = 1 . . . n mit p (λi ) = 0 des charakteristischen Polynoms kann ein Fundamentalsystem für die homogene Differentialgleichung n-ter Ordnung konstruiert werden. Dazu ist eine Fallunterscheidung nach der Vielfachheit der Nullstellen λi nötig: – 83 – λ ∈ R ist einfache Nullstelle Dann ist eλ x eine Lösung der Differentialgleichung. λ = α + i β ∈ C ist einfache komplexe Nullstelle e α x cos β x und e α x sin β x sind Lösungen der Differentialgleichung. λ ∈ R ist k -fache reelle Nullstelle x i eλ x , i = 0, . . . , k − 1 sind k linear unabhängige Lösungen. λ = α + i β ∈ C ist k -fache komplexe Nullstelle x i e α x cos β x , x i e α x sin β x , i = 0, . . . , k − 1 sind die 2k linear unabhängige Lösungsfunktionen. – 84 – C - 5 Euler Verfahren für Systeme von ODEs Systeme von ODEs und ihre numerische Lösung In vielen Anwendungen wird der Zustand eines Systems zum Zeitpunkt t durch einen Vektor x (t ) = [x1 (t ), x2 (t ), . . . , xn (t )] > mit n > 0 beschrieben. Die Änderungsgeschwindigkeit ẋ ≡ dx (t )/dt des Zustandes nach der Zeit ergibt sich häufig als Funktion F (x (t )) mit F : Rn → Rn eben dieses Zustandes. Also erhalten wir das System gewöhnlicher Differentialgleichungen ẋ (t ) = F (x (t )) kurz ẋ = F (x ) Das System heißt autonom, da die Zeit t auf der rechten Seite nicht explizit, sondern nur mittelbar über x = x (t ) vorkommt. Dieses ist keine Einschränkung da ein nichtautonomes System ẋ (t ) = F (t , x (t )) sich autonom umschreiben lässt indem man t als nullte Zustandskomponente x0 (t ) hinzufügt und somit für x̄ ≡ (x0 , x1 , . . . , xn )T erhält d x̄ ≡ dt ẋ0 ẋ = ṫ ẋ = 1 F (x̄ ) ≡ F (x ) – 85 – Auch ODEs höhere Ordnungen lassen sich in Systeme von ODEs erster Ordnung umschreiben, indem man z.B. die erste Ableitung y 0 als neue abhängige Variable v ≡ y 0 definiert und dann y 00 durch v 0 ersetzt. So wird zum Beispiel aus einer nichtautonomen Differentialgleichung zweiter Ordnung y 00 = f (t , y , y 0 ) das autonome System erster Ordnung in den drei Variablen y0 ≡ t, y1 ≡ y und y2 ≡ y 0 y00 1 y0 = y2 1 y20 f ( y0 , y1 , y2 ) Entsprechend lassen sich Anfangsbedingungen umschreiben. Die Umformulierung als System 1.Ordnung eröffnet die Möglichkeit numerische Standardmethoden und Software für die Lösung autonomer Systeme erster Ordnung mit Anfangsbedingungen zur Anwendung zu bringen. – 86 – Satz 12 (Existenz und Eindeutigkeit der Lösung) Sei F : D ⊂ Rn −→ Rn in einem offenem Gebiet D lokal Lipschitz-stetig. Dann existiert für jeden Punkt yo ∈ D ein Intervall (a, b ) 3 0 und eine eindeutige Lösung y (t ) ∈ D der ODE ẏ = F (y ) für a < t < b mit y (0) = y0 . Bemerkung: (i) Für die Existenz einer Lösung ist die Stetigkeit von F hinreichend. Voraussetzung von Lipschitz - Stetigkeit ist für die Eindeutigkeit der Lösung und die Konvergenz numerischer Verfahren erforderlich. (ii) Das Intervall (a, b ) kann so gross gewählt werden, dass y (b ) den Rand von D erreicht. – 87 – Eulers Methode und andere explizite ODE-Löser Die meisten ODEs haben keine geschlossen darstellbare Lösung. Die Lösung kann aber durch numerische Methoden mit (mehr oder weniger) beliebiger Genauigkeit approximiert werden. Numerische Approximationen sind auch alles, was zur Berechnung der mathematischen Standardfunktionen ex , sin x etc. zur Verfügung steht, da diese Funktionen als Lösung von ODEs definiert sind. Die einfachste numerische Methode zur Lösung von ODEs ist das Explizite (Vorwärts) Eulersche Polygonzugverfahren. – 88 – Explizite (Vorwärts) Euler-Methode Sei y (t ) die exakte Lösung von ẏ (t ) = f (t , y (t )) mit y (0) = y0 . y y (T ) yn = yt / h exakter Wert y (k h) y (k h) =f (tk,yk) im k -ten Schritt be- Anstieg der Tangente y (t ) der rechneter Wert Lösung y (t ) in tk yk y (0) = y0 h 2h tk =k h 3h Gesucht wird also yk ≈ y (tk ) für k = 0, . . . , T h T t mit tk = k · h: y k + 1 ≡ y k + h f ( tk , y k ) ≈ y (tk +1 ) – 89 – Beispiel 13 (Autonome lineare ODE) ẏ = λy mit λ ∈ R und y0 = 1 Anwendung von Eulers Methode: y1 = y0 + h λy0 = ( 1 + h λ ) y0 y2 = y1 + h λy1 = ( 1 + h λ ) y1 yk = ( 1 + λ h ) k y0 = (1 + λh )k yn = ( 1 + λ h ) n y0 = (1 + λh ) h . . . . . . = ( 1 + h λ ) 2 y0 T Vergleich mit exakter Lösung: y (t ) = exp(λ t ) ergibt am Endpunkt T T y (T ) = e λT ≡ lim (1 + λh) h = lim h →0 n→∞ 1+λ T n n – 90 – Erläuterung Die angenäherte Lösung yT /h konvergiert gegen die exakte Lösung y (T ) der ODE wenn die Schrittweite h = T /n gegen Null geht. Das bedeutet aber dass die Anzahl der Eulerschritte und damit der Berechnungsaufwand gegen ∞ gehen. Frage: Kann der Approximationsfehler kyT /h − y (T )k als Funktion der Schrittweite h = T /n dargestellt und somit zur Bestimmung einer vernünftigen Schrittzahl n genutzt werden? Antwort: JA! Im vorliegenden speziellen Fall gilt lim h →0 yT / h −1 y (T ) 1 = − 12 T λ2 h und somit erfüllt der Fehler yT /h − y (T ) = h(− 12 T λ2 ) + O (h2 ) – 91 – Beweis. e − λT (1 + λ h )T /h − 1 h →0 h lim = = lim e −λT h →0 d T /h ln(1+λh) dh e lim e −λT (1 + λh)T λ/λh h →0 − T Tλ ln(1 + λh) + h (1 + λh ) h2 = 1 λ λ λ2 h T −− + + h→0 2h (1 + λh ) (1 + λh ) (1 + λh )2 = − 21 T λ2 lim – 92 – Folgerung 14 (Approximationsfehler der Euler-Methode) Für alle Lipschitz-stetigen Probleme (d.h. die rechte Seite F (t , y , ẏ ) der ODE ist Lipschitz-stetig) liefert das Euler-Verfahren eine numerische Lösung mit yT / h − y ( T ) = c ( T ) h + O ( h 2 ) . Deshalb nennt man diese Methode auch Verfahren erster Ordnung: Die Verdopplung der Approximationsgenauigkeit durch Halbierung der Schrittweite h verdoppelt den Berechnungsaufwand. – 93 – Frage: Gibt es Verfahren der Fehlerordnung p so dass kyn − y (T )k = c (T )hp + O (hp+1 ) gilt und damit die Halbierung der Schrittweite h zu einer Reduktion des Fehlers um den Faktor ( 12 )p führt ? Anwort: JA! p=2 Mittelpunkt - Regel oder Heun’sches Verfahren p=4 Runge-Kutta 4. Ordnung p=5 Runge-Kutta-Fehlberg – 94 – Runge-Kutta Verfahren der Ordnung 2 und 4 Mittelpunkt-Regel I t k + 1 / 2 = t k + 0 .5 h k ; I yk +1/2 = yk + 0.5 hk f (tk , yk ) tk + 1 = tk + h k I yk +1 = yk + hk f (tk +1/2 , yk +1/2 ) Runge-Kutta 4 (Standardwahl) I t k + 1 / 2 = t k + 0 .5 h k ; I yk +1/4 = yk + 0.5 hk f (tk , yk ) tk + 1 = tk + h k I yk +1/2 = yk + 0.5 hk f (tk +1/2 , yk +1/4 ) I y k + 3 / 4 = y k + h k f ( tk + 1 / 2 , y k + 1 / 2 ) I yk + 1 = h yk + 6k [f (tk , yk ) + 2f (tk +1/2 , yk +1/4 ) + 2f (tk +1/2 , yk +1/2 ) + f (tk +1 , yk +3/4 )] – 95 – Visualisierung der Verfahrensordnung Für einen beliebigen numerischen Integrator folgt aus der vorausgesetzten Beziehung kyT /h − y (T )k = c (T )hp + O (hp+1 ) ≈ c (T )hp durch Logarithmierung, dass − log (kyT /h − y (T )k) ≈ p (− log(h)) − log(c (T )) Die linke Seite ist ein Maß der korrekt berechneten Dezimalstellen in der Lösung. Sie ist nun annäherungsweise eine affine Funktion von − log(h) also eine Gerade, deren Steigung gerade die Ordnung p der Methode ist. Um die Ordnung eines Verfahrens zu prüfen kann man die Schrittweite zum Beispiel wie hk = T /2k für k = 1, 2. . . variieren und die entsprechenden Fehler − log kyT /hk − y (T )k über den Abzissenwerten −log (hk ) = k log(2) − log(T ) auftragen. – 96 – Visualisierung der Verfahrensordnung Euler Mittelpunkt-Regel Runge-Kutta 4.Ordnung 30 Euler Midpoint RK-4 25 20 15 10 5 0 0 2 4 6 8 10 12 – 97 – Frage: Wie kann die Schrittweite in Hinblick auf den geschätzten Fehler gewählt werden? Antwort: Durch Vergleich der Ergebnisse für verschiedene Schrittweiten h oder verschiedener Methoden. Beispiel 15 (Mittelpunkt - Regel) yn = y (T ) + c (T ) h 2 + O (h 3 ) y2n = y (T ) + c (T ) 14 h2 + O (h3 ) =⇒ yn − y2n = c (T ) 34 h2 + O (h3 ) =⇒ c (T ) ≈ =⇒ ky2n − y (T )k ≈ 4 3 yn − y2n h2 4 3 ky2n ≡ c̃ (T ) − yn k ist eine Fehlerabschätzung für die Mittelpunktregel. – 98 – Folgerung 16 (Einfache Schrittweitensteuerung) Wenn die numerische Lösung mit einer absoluten Genauigkeit von τ > 0 gewünscht wird, dann wählt man bei der Mittelpunktsregel h= q 2 τ/c̃ (T ) Allgemeiner empfiehlt sich für ein Verfahren der Ordnung p h= q p τ/c̃ (T ) Hierbei ist die Fehlerkonstante c̃ (T ) STARK vom Verfahren abhängig. Nimmt man dennoch an, dass für Euler, Mittelpunkt und Runge-Kutta 4 die c = c (T ) ähnlich gross sind, so ergeben sich Rechenaufwände von 1 · c /τ, 2· √ c /τ, 4· √ 4 c /τ Auswertungen der rechten Seite. Bei größerer geforderter Genauigkeit, also kleinerem τ sind Verfahren höherer Ordnung zu bevorzugen, vorausgesetzt die rechte Seite der ODE ist p mal differenzierbar. – 99 – Numerische Integration von Systemen Runge-Kutta Methoden sind direkt auf Systeme ẏ (t ) = f (y (t )) ∈ Rn bzw ẏ (t ) = f (t , y (t )) ∈ Rn anwendbar. Während die unabhängige Variable t und die entsprechenden Schrittweiten h Skalare bleiben, sind alle anderen Größen jetzt Vektoren der Länge n. Die Euler Rekursion yk +1 = yk + hk F (tk , yk ) ∈ Rn erfordert also das h-fache des Richtungsvektors F (tk , yk ) ∈ Rn zu dem alten Zustandsvektor yk zu addieren, um den neuen Zustandsvektor yk +1 ∈ Rn zu erhalten. Es ist davon auszugehen, dass diese Vektormultiplikation und -addition vom Aufwand her gegenüber der Auswertung der Rechten Seite F (t , y ) vernachlässigbar ist. Die Konvergenzordnungen bleiben erhalten, wobei der Abstand zwischen der annähenden und der genauen Lösung jetzt als eine Vektornnorm kyT /h − y (T )k der Differenz zwischen yT /h und y (T ) zu bestimmen ist. – 100 – Lineares Beispiel für Euler Das autonome System linearer Differentialgleichungen ẋ (t ) ẏ (t ) = −y (t ) x (t ) mit x (0) y (0) = 1 0 hat die analytische Lösung [x (t ), y (t )] = [cos (t ), sin(t )]. Die Anwendung der Eulermethode mit Schrittweite h ergibt xn + 1 yn + 1 =ρ wobei ρ ≡ = cos(α) sin(α) √ xn yn +h − sin(α) cos(α) − yn xn xn yn 1 + h2 und α = arcsin(h/ xn − hyn 1 −h xn = = yn + hxn h 1 yn cos(nα) − sin(nα) x1 = ρn sin(nα) cos(nα) y1 p 1 + h2 ) . – 101 – Langzeitverhalten von ODE – Lösungen Bemerkung zum Langzeitverhalten Häufig ist von Interesse (z.B. in der Klimavorhersage), wie sich Lösungen y (t ) der ODE ẏ = F (y ) für sehr grosse t qualitativ verhalten, und zwar unabhängig vom Anfangswert y ( t0 ) = y 0 . D.h. man will wissen, ob das dynamische System sich einschwingt, einen Gleichgewichtszutand erreicht, zufälliges (d.h. chaotisches) Verhalten o.ä. zeigt. Im folgenden machen wir Aussagen für autonome Systeme der Zustandsraumdimension n, die entspechend auch für nichtautonome Systeme der Dimension n − 1 gelten. – 102 – (I) Falls n = 1 muss und sonst (n > 1) kann einer der beiden folgenden Fälle eintreten: (a) y (t ) strebt einem stationären Grenzwert y∞ = lim y (t ) zu t →∞ Beispiel: ẏ = λ(y − a), a ∈ R, λ < 0, y0 beliebig y y ( t ) = c e λ t + a, c > 0 y y ( t ) = c e λ t + a, c < 0 t – 103 – (b) y (t ) explodiert (blow up) für endliche Zeit t ∗ (kritische Zeit) lim ky (t )k = ∞ t →t ∗ Beispiel: ẏ = y 2 =⇒ AW: =⇒ =⇒ mit y (0) = y0 > 0 dy = dt =⇒ y2 −1 >0 y0 = c −1 c= <0 y0 y (t ) = 1 1 y0 Z 1 dy = y2 Z dt =⇒ − 1 1 = t + c =⇒ y (t ) = − y t +c y (t ) = 1 y 1 y0 −t −t t∗ t – 104 – (II) Asymptotisch periodische Lösung Falls die Zustandsdimension n = 2 ist muss, ansonsten kann y (t ) sich asymptotisch einer periodischen Lösung y∗ (t ) nähern, für die gilt y∗ (t + T ) = y∗ (t ) für alle t > 0 und feste Periode T . Beispiel: siehe obiges Lineares Beispiel für Euler (III) Chaotisches Verhalten Falls Dimension n > 2 (einschliesslich n = 2 im nichtautonomen Fall) kann die Lösung y (t ) der ODE sich chaotisch verhalten, d.h. auch nach sehr langer Zeit lässt sich keine periodische oder stationäre Struktur erkennen. – 105 – Gliederung 1. Gleitkommadarstellung und -arithmetik 2. Lösung (nicht-)linearer Gleichungssysteme 3. Gewöhnliche Differentialgleichungen (=ODE) 4. Grundlagen der Optimierung 4.1 Ausgleichsprobleme 4.2 Lineare Optimierung 4.3 Nichtlineare Optimierung Lineare Ausgleichsprobleme Wir betrachten zunächst ein System A x = b, A ∈ Rm×n , b ∈ Rm von m linearen Gleichungen in n ≤ m Variablen. Wenn m > n nennt man das System überbestimmt, da es weniger freie Variablen xi für i = 1 . . . n gibt als Bedingungen, die an sie gestellt werden. Wenn m = n spricht man vom wohlbestimmten oder quadratischen Fall. Diese Unterscheidung macht eigentlich nur dann Sinn, wenn man folgende Annahme macht. Vollrang-Voraussetzung Die Matrix A ∈ Rm×n hat vollen Spaltenrang n = min(n, m ), d.h. sie erfüllt die äquivalenten Bedingungen, dass ihre n Spalten linear unabhängig sind und man m − n Zeilen entfernen kann, so dass die verbleibende quadratische Matrix eine nichtverschwindende Determinante hat. –2– Fehlerminimierung Beobachtung Im Falle m > n = rang (A) ist für fast alle rechten Seiten b ∈ Rm das System von Gleichungen Ax = b nicht exakt erfüllbar. Konsequenz Man versucht deshalb x so zu wählen, dass alle Komponenten des Fehlervektors F ≡ A x − b = (Fi )i =1...m so klein wie möglich sind, d.h. man versucht einen Ausgleich zwischen den m eigentlich als Gleichungen gedachten Bedingungen zu schaffen. –3– Normwahl Zur Messung der Größe von F wählt man häufig eine der Vektornormen aus Abschnitt B.3 kF kp = kAx − b kp mit p ∈ {1, 2, ∞} Hier bedeutet kF k1 die Summe der Komponentenbeträge |Fi | und kF k∞ ihr Maximum. Die Minimierung dieser beiden Normen führt auf lineare Optimierungsaufgaben mit Ungleichungsnebenbedingungen. Diese werden später betrachtet und sind im allgemeinen schwerer zu lösen als das Gaußsche Problem der kleinsten Quadrate (engl.: least squares), das sich ergibt, wenn man die Euklidische Norm kF k2 minimiert. –4– Methode der kleinsten Quadrate Satz D.1 (Kleinste - Quadrate - Lösung) Für jedes lineare Gleichungssystem Ax = b mit A ∈ Rm×n , b ∈ Rm und rang (A) = n existiert ein eindeutiger Vektor x∗ ∈ Rn , so dass kAx∗ − b k2 = minn kAx − b k2 x ∈R Diese Ausgleichslösung erfüllt das quadratische, reguläre Gleichungssystem A> A x∗ = A> b ∈ Rn , welches als Normalengleichungssystem bezeichnet wird. Bemerkung Wenn die Vollrangvoraussetzung verletzt ist, existiert eine unendliche Menge von Vektoren, die sowohl das Minimerungsproblem lösen als auch die entsprechende Normalengleichung erfüllen. –5– Allgemeine lineare Funktionenapproximation Betrachte ein System von n vorgegebenen Ansatzfunktionen uj (t ) : [a, b ] → R für j = 1...n mit dem gemeinsamen Definitionsbereich [a, b ]. Weiterhin betrachte m ≥ n unterschiedliche Stützstellen ti ∈ [a, b ] und entsprechende Daten bi ∈ R für i = 1, . . . , m. Gesucht sind nun n Koeffizienten xj , so dass die Linearkombination n u (t ) ≡ ∑ xj uj (t ) j =1 die sog. mittlere Abweichung ∆2 möglichst klein werden lässt: " ∆2 ≡ #1 2 m ∑ (u (ti ) − bi ) 2 . i =1 –6– Lösung der Gaußschen Ausgleichsaufgabe Aus den Vektoren aj = (uj (t1 ), uj (t2 ), . . . , uj (tm ))> bilden wir die Matrix A = [a1 , . . . , an ] und mit b = (b1 , b2 , . . . , bm )> und x = (x1 , x2 , . . . , xn )> ist zur Lösung der Ausgleichsaufgabe das Funktional kF (x )k2 = kAx − b k2 zu minimieren. Das heißt aber nichts anderes, als eine Lösung x∗ des (überbestimmten) Gleichungssystems Ax = b mit kleinsten Fehlerquadraten zu finden. –7– Gaußsche Ausgleichspolynome Spezialfall: Gaußsche Ausgleichspolynome Wählt man als Ansatzfunktionen uj (t ) = t j −1 , so ergibt sich das Polynom n u (t ) = ∑ xj t j − 1 j =1 Die Vollrangbedingung rang (A) = n ist für paarweise verschiedene Stützstellen tj erfüllt, da die ersten n Zeilen von A die folgende Vandermondsche Determinante haben: 1 1 det . .. 1 t1 t2 . . . tn ... ... ... t1n−1 n k −1 t2n−1 . = ∏ ∏ (tk − tj ) 6= 0. . k =2 j =1 . tnn−1 –8– Zur Berechnung der Lösung mit kleinsten Fehler-Quadraten muß die Normalgleichung A> A x = A> b gelöst werden. Lemma D.2 Die Normalenmatrix A> A ∈ Rn×n ist symmetrisch und positiv semi-definit. Unter der Vollrangvoraussetzung ist A> A sogar positiv definit. Bemerkung: Wegen der positiven Definitheit der Matrix A> A kann man das Normal- gleichungssystem mit dem sogenannten Cholesky - Verfahren lösen. Dieses ist eine pivotierungsfreie Version des Gaußschen Verfahrens, das die Symmetrie der Matrix ausnutzt und dadurch den Berechnungsaufwand halbiert auf n3 /6 Multiplikationen gefolgt von Additionen/Subtraktionen. Allerdings kostet die Berechnung von A>A aus A bereits m n2 Operationen, was durch die QR Zerlegung vermieden werden kann. –9– QR - Faktorisierung Wendet man das in Abschnitt B.7 behandelte Gram-Schmidt Orthogonalisierungsverfahren auf die n Spaltenvektoren aj von A an so ergibt sich daraus eine Folge von ebenso vielen orthonormalen Vektoren qj . Ausserdem existiert nach Konstruktion der qj die Darstellung j aj = ∑ qk rkj für j = 1, . . . , n k =1 wobei die diagonalen Elemente rjj für j = 1, . . . n alle positiv sind. Fasst man nun die qj als Spalten zu einer orthogonalen Matrix Q = [q1 , q2 , . . . , qn ] ∈ Rm×n zusammen und ergänzt die Koeffizienten rkj durch Nullen zu einer oberhalb dreiecksförmigen Matrix R ∈ Rn×n , so hat man für A die Faktorisierung A = QR mit Q >Q = I ∈ Rn×n – 10 – Vereinfachte Normalengleichung Aus der Orthogonalität ergibt sich unmittelbar A>A = (QR )>(QR ) = R >Q >QR = R >R und die Normalengleichung reduziert sich erst zu R >Rx∗ = R >Q >b und letztlich zu was sehr billig lösbar ist. Rx∗ = Q >b Zur Berechnung der QR Zerlegung I Es lässt sich leicht prüfen, dass die Zerlegung von A ∈ Rm×n in das Produkt einer orthogonalen Matrix Q und einer Dreiecksmatrix R mit positiven Diagonalelementen eindeutig ist. I Es gibt ausser dem Gram-Schmidt Verfahren andere Methoden, mit denen die QR Zerlegung berechnet werden kann. Zum Beispiel könnte man R aus der Cholesky Faktorisierung von A>A gewinnen und dann Q = AR −1 setzen. I Als effektiv und gegenüber Rundungsfehlern sehr stabil gilt die sukkzessive Reduktion von A mit Hilfe sogenannter elementarer Reflektoren oder Householdermatrizen. Hinweis Für die kleinen Aufgaben in Übung 3.1 kann das Gram-Schmidtsche Orthogonalisierungsverfahren angewandt oder noch einfacher die Normalengleichung explizit gebildet und mittels Gaußscher Elimination ohne Pivotierung gelöst werden. Bemerkung Wesentlich für die Anwendbarkeit der linearen Gaußschen Ausgleichsrechnung ist, daß für die zu bestimmenden Größen eine lineare Beziehung gegeben ist, z. B. u (t ) = α + βt. Ist die gegebene Beziehung (etwa aus physikalischen Gründen) nichtlinear, so kann man versuchen, aus ihr eine lineare Beziehung für unter Umständen andere Größen zu gewinnen, aus denen sich dann nachträglich die eigentlich gesuchten Größen bestimmen lassen. Beispiel D.3 u (t ) = α 1 + tβ =⇒ 1 α + β 1 t= = ũ = α̃ + β̃t α u (t ) – 13 – Chebyshev Approximation Speziell bei der Annäherung von Datenpunkten (ti , bi ) durch eine Kurve u (t ) will man häufig den maximalen Abstand ζ = max |u (ti ) − bi | = kAx − b k∞ 1≤i ≤m bezüglich der Koeffizienten xj minimieren. Diese Aufgabe kann man als lineares Optimierungsaufgabe formulieren, nämtlich min ζ s .d . − ζ e ≤ Ax − b ≤ ζ e wobei e = (1, 1, . . . , 1) der Vektor der Einsen ist. Hier haben wir nun die n + 1 Variablen (x , ζ ) und 2 m Ungleichungsrestriktionen. Diese Aufgabe lässt sich mit dem unten beschriebenen Simplexverfahren lösen. l − 1 Approximation Die Quadratsumme kAx − b k2 und auch die `1 Norm wird stark von grossen Komponenten in b, sogenannten Ausreissern bestimmt. Diese können durch exzessive Messfehler oder sogar Ablese- und Übertragungsfehler entstehen. Um die optimale Lösung von Ausreissern weniger abhängig zu machen eignet sich die Minimierung der Fehler summen, d.h. min ζ = ∑ |u (ti ) − bi | = kAx − b k1 1≤i ≤n Auch diese Aufgabe lässt sich als Lineare Optimierungsproblemm umschreiben nämtlich min ∑ zi s .d . −z ≤ Ax −b ≤ z 1≤i ≤n Hier haben wir die n + m Variablen (x , z ) und wiederum 2 m Ungleichungsrestriktionen. – 15 – Lineare Optimierung Beispiel D.4 (Barkeeper) Cocktails: I Daiquiri (45 ml weißer Rum, 30 ml Cointreau, 30 ml Zitronensaft, 15 ml Zuckersirup, Eis), 5.50 Euro I Kamikaze (30 ml Wodka, 30 ml Cointreau, 30 ml Zitronensaft, 1 Schuß Limonensirup, Eis), 4.50 Euro I Long Island Ice Tea (20 ml Wodka, 20 ml weißer Rum, 20 ml Gin, 20 ml Cointreau, 4 TL Zitronensaft, 4 TL Orangensaft, 1/8 l Cola, 1 Orangenscheibe, Eis), 7.00 Euro Vorhandene Spirituosen: 5 l weißer Rum, 6 l Cointreau, 4 l Wodka und 3 l Gin Welche Cocktails muß der Barkeeper mixen, um möglichst viel Geld einzunehmen? – 16 – Variablen: x1 : Anzahl Daiquiris x2 : Anzahl Kamikazes x3 : Anzahl Long Island Ice Teas Zielfunktion: Maximiere die Einnahmen: max 5.50x1 + 4.50x2 + 7.00x3 Nebenbedingungen: Weißer Rum: Cointreau: Gin: Wodka: 45x1 30x1 + 30x2 + + 30x2 + 20x3 20x3 20x3 20x3 ≤ ≤ ≤ ≤ 5000 6000 3000 4000 – 17 – Optimierungsproblem: > 5.50 max 4.50 x 7.00 45 30 30 30 20 5000 20 x ≤ 6000 3000 20 20 4000 Schreibweise: ≤ bei Vektoren u , v ∈ Rn u ≤ v :⇐⇒ ∀i = 1, . . . , n : ui ≤ vi (≥, <, > analog) – 18 – Lösung mit MATLAB: >> A = [ [ 45, 0, 20 ]; [30, 30, 20 ]; [ 0, 0, 20 ]; [ 0, 30, 20 ] ] A = 45 30 0 0 0 30 0 30 20 20 20 20 >> b = [ 5000, 6000, 3000, 4000 ] b = 5000 6000 3000 4000 >> c = [- 5.5, -4.5, -7 ] c = -5.5000 -4.5000 -7.0000 >> x = linprog( c, A, b ) Optimization terminated. x = 44.4444 33.3333 150.0000 – 19 – Lineare Optimierungsprobleme Definition D.5 Optimierungsprobleme mit linearer Zielfunktion und linearen (Gleichungs- und Ungleichungs-) Nebenbedingungen nennt man Lineare Optimierungsprobleme, Lineare Programme, LPs. Allgemeine Form eines linearen Programmes (LP) I max c >x − d >y + α, I Ax + By = a ∈ Rmg Gleichheitsrestriktionen I Cx + Dy ≤ b ∈ Rmn Ungleichheitsrestriktionen I x ≥ 0 ∈ Rnx Vorzeichenbeschränkung Zielfunktional( ObdA α = 0) Formatbeschränkungen: I I I (x , y ) ∈ Rn , y ∈ Rn−nx c ∈ Rnx , d ∈ Rn−nx mg × nx A∈R , B ∈ Rmg ×(n−nx ) – 20 – Die folgenden Umformulierungen sind nützlich a Vorzeichenwechsel min c >x + d >y ⇔ max(−c )>x + (−d )>y Cx + Dy ≥ b ⇔ (−C )x + (−D )y ≤ −b x ≤ 0 ⇔ (−x ) ≤ 0 Also lässt sich jedes LP in obiger “allgemeiner” Form schreiben. b Gleichung ↔ Ungleichungen A=a ⇔ Ax ≥ a Ax ≤ a ⇔ A −A ·x = a −a Warnung: Nicht immer eine gute Idee weil die neue kombinierte Restriktionsmatrix in höchsten Grade singulär, d.h. rangdefizient ist !!! Normalerweise solten Gleichungen direkt behandelt werden. c Ungleichungen ←→ Gleichungen + Vorzeichenbeschränkung A x ≤ b ⇔ A x + s = b, s ≥ 0 Wobei die Komponenten von s Schlupfvariablen(Engl. = slack variables) heissen. d Zerlegung von x ∈ Rn in vorzeichenbeschränkte Komponenten x = y −z mit y = (x )+ und z = (−x )+ wobei (x+ ) = (max(0, xi ))i =1...n Übliches Standardformate Definition D.6 Durch A ∈ Rm×n , b ∈ Rm , c ∈ Rn sind das sogenannte primale und duale Problem definiert durch I (P) maxx f (x ) = c >x s.d. Ax ≤ b; x , c ∈ Rn I (D) minu g (u ) = b >u s.d. A>u = c , 0 ≤ u ∈ Rm während u ∈ Rm vorzeichenbeschränkt ist x ∈ Rn aber nicht. Lemma D.7 (Schwache Dualität) Falls x und u zulässig sind, d.h. A x ≤ b, A>u = c , u ≥ 0 dann gilt f (x ) = c >x ≤ b >u = g (u ) Beweis. c >x = (A>u )>x = u >A x ≤ u >b = b >u = g (u ) Interpretation: Jeder zulässige Punkt x oder u von P bzw D liefert die Schranke f (x ) bzw g (u ) für das jeweils andere Problem. Später: Starke Dualität, d.h. optimale Werte stimmen überein. – 22 – Geometrische Darstellung des Problems P. Jede Zeile von Ax ≤ b verlangt eine Restriktion der Form a>x ≤ β mit a ∈ Rn, β ∈ R Diese Ungleichung beschreibt einen durch die Hyperebene a>x = β berandeten Halbraum. Der Schnitt der m Restriktionen ai>x ≤ bi definiert ein sogenanntes Polyhedron oder Polyeder. Falls Problem (P) gut gestellt ist, können wir erwarten, dass P (A, b ) beschränkt ist und ein nichtleeres Inneres besitzt. Man nennt es dann auch Polytop der Dimension n. – 23 – Sonderfälle P (A, b ) unbeschränkt , e.g. mit n = 1 = m Max f (x ) ≡ 3 x s.d. − x ≤ 0 keine optimale Lösung da f (x ) → ∞ wenn x → ∞. P (A, b ) = ∅ d.h. Problem ist unzulässig e.g. mit ( n = 1, m = 2 x ≤ −1 ⇔ x ≤ −1 1 −1 A= ,b = =⇒ −1 −1 −x ≤ −1 ⇔ x ≥ 1 Unzulässigkeit tritt z.B. bei Eingabefehlern auf. P (A, b ) degeneriert d.h. hat leeres Inneres e.g. mit n = 1 = m x ≤ 0, −x ≤ 0 ⇔ x = 0 =⇒ P (A, b ) = {0} Eigenschaften der zulässigen Menge Satz D.8 (Konvexität derzulässigen Menge) (i) P (A, b ) ist immer konvex d.h. falls r Punkte x (i ) ∈ P (A, b ) für i = 1 . . . r dann gehört auch jede beliebige Konvexkombination n n x = ∑ wi x ( i ) i =1 mit wi ≥ 0, ∑ wi = 1 i =1 zu P (A, b ) (ii) Wenn P beschränkt ist, dann gilt maxx ∈P (A,b ) f (x ) = f (x ∗ ) für mindestens einen Punkt x ∗ der eine Ecke ist in dem Sinne, dass x ∗ = (1 − α)x + αy nur möglich ist wenn α = 0 und somit x ∗ = x oder α = 1 und somit x ∗ = y – 25 – Beweis. Aus A x (i ) ≤ b, i = 1 . . . r folgt r r i =1 i =1 A x = A ( ∑ wi x ( i ) ) ≤ ( ∑ wi ) b = 1 · b = b Da P (A, b ) nach Vorraussetzung beschränkt ist lässt sich jeder Punkt x ∈ P (A, b ) als Konvexkombination von Ecken x (i ) , i = 1 . . . n darstellen Also gilt für Funktionswert: f (x ) = c >x = und somit r r r i =1 i =1 i =1 ∑ c >wi x (i ) = ∑ wi c >x (i ) = ∑ wi x (i ) r f (x ) ≤ ∑ wi max1≤i ≤r f (x (i ) ) = max1≤i ≤r f (x (i ) ) i =1 Also gilt schließlich maxx ∈P (A,b ) f (x ) = maxEcken x ∗ f (x ∗ ) – 26 – Konsequenz Man braucht den Maximalpunkt von f (x ) = c >x “nur” unter den endlich vielen Ecken von P (A, b ) zu suchen. Frage ist, wie viele gibt es und wie kann man sie berechnen? Antwort 0 Die Zahl der Ecken ist typischerweise exponentiell in min(m, n) z.b. der Würfel −1 ≤ xi ≤ 1, i = 1 . . . n entspricht m = 2 n Ungleichungen und hat 2n Ecken. Diese können/sollten nicht alle durchsucht werden. Beispiel D.9 −1 0 A= 1 1 0 0 −1 , b = 0 , c = 5 ⇒ x ∈ R2 , y ∈ R4 1 3 8 2 4 i i 1 1 > A = . . . = . . . ⇒ ai x ≤ b i > am a4> i a> a> =1 =2 =3 =4 x1 ≤ 0 ⇒ x1 ≥ 0, x2 ≥ 0 x1 + x2 ≤ 3 x1 + 2x2 ≤ 4 f (x ) = c >x = 2 ⇔ 5x1 + 8x2 = 4 Charakterisierung von Ecken Satz D.10 Ein Punkt x ∈ P (A, b ) ist genau dann eine Ecke, wenn es eine n-elementige Indexmenge B ⊂ {1, 2, . . . m } gibt, sodass die quadratische Untermatrix AB = {ai>}i ∈B ∈ Rn×n nicht singulär ist und AB x = bB . Beweis. ⇐ Rückrichtung Angenommen x = (1 − α)y + αz mit 0 ≤ α ≤ 1, x , z ∈ P (A, b ). Dann folgt AB x = bB = AB [(1 − α)y + αz ] = (1 − α)AB y + αAB z ≤ (1 − α)bB + αbB = bB Also gilt Beziehung als Gleichungung sodass AB x = AB y = AB z = bB . Daraus folgt y = z = x wegen Nichtsingularität von AB und somit ist x Ecke wie behauptet. ⇒ Hinrichtung Angenommen x ∈ P (A, b ) erfüllt genau m̃ der m Ungleichungen, o.B.d.A. die ersten m̃ als Gleichungen A= A1 A2 mit A1 ∈ R m̃×m , A2 ∈ R(m−m̃)×n , b = b1 b2 , b1 ∈ Rm̃ A1 x = b1 , A2 x < b2 in jeder Komponente falls m̃ < n oder m̃ ≥ n und A1 singulär so gibt es einen Nullvektor v ∈ Rn mit A1 x = 0 Dann erfüllen für hinreichend kleines ε sowohl y = x + εv wie z = x − εv die Bedingungen: A1 y = A1 x + εA1 v = A1 x = b2 – 28 – Darstellung des Simplexverfahren in (Teil-)schritten 1. Beginne mit zulässiger Ecke x = AB−1 bB (kann in Phase I berechnet werden) 2. Berechne den reduzierten Kostenvektor u > = c >AB−1 ⇔ u >AB = c > ⇔ A>B u = c 3. Teste ob u ≥ 0 Falls ja gilt für beliebige x̃ ∈ P (A, x ) c >x̃ = u >AB x̃ ≤ u >AB x = c >x D.h. c >x̃ ≤ c >x für alle zulässigen x̃, sodass x bereits optimale Ecke ist ⇒ Abbruch 0 4. Wähle Index j mit uj < 0 und berechne mit Cartesischen Basisvektor d = −AB−1 ej , ej = (0 . . . 0, 1, 0 . . . 0) sodass c >d = −c >AB−1 ej = −u >ej = −uj > 0 5. Untersuche den Strahl x (λ) = x + λd ∈ Rn 6. Teste auf Unbeschränktheit: Wenn ai>d ≤ 0 für alle i ∈ / B gilt x (λ) ∈ P (A, b ) für alle λ ≥ 0 sodass c >x − uj λ > c >x unbeschränkt wächst für λ → ∞ ⇒ Abbruch 1 7. Berechne maximale Schrittweite λ = min bi − ai>x ai>d ! :i∈ / B ∧ ai>d > 0 und wähle Index k ∈ / B für das Minimum gilt d.h. λak>d = bk − ak>x 8. Gehe zu neuer Ecke x + = x + λd = AB−+1 b wobei B+ aus B erhalten wird indem man den j-ten Index in B durch den Index k ersetzt. 9. Gehe zu Teilschritt 3 und wiederhole Iteration – 29 – Eigenschaften des (primalen) Simplexverfahren Abbruch: Falls nicht Abbruch 0 oder Abbruch 1 erreicht wird, muss der Algorithmus eines Zyklus von Ecken durchlaufen(davon gibt es nur endlich viele). Dabei müssen alle λ null sein, da sonst f (x ) echt erhöht wird, was nur endlich oft vorkommen kann. Diese Zyklen kann durch geeignete Wahl der jeweiligen Indizes j und k vermieden werden. (Nichttriviale Aufgabe) Dualität: Bei Abbruch0 kann man den Vektor 0 ≤ u ∈ Rn durch Nullen für Komponenten i ∈ / B zu einem Vektor y ∈ Rm erweitern, sodass A>y = m ∑ ai yi = ∑ ai ui = A>B u = c i =1 i ∈B Dieses y ist eine Lösung des dualen Problemes (D) Satz D.11 (Starke Dualität) Wenn das primale und duale Problem zulässig sind, existiert ein Lösungspaar x , y sodass c >x = b >y , d.h. optimalen Werte sind identisch – 30 – Phase I Frage: Wie kann man einen ersten zulässigen Punkt x ∈ P (A, b ) : {x ∈ Rn , Ax ≤ b } berechnen, bzw entscheiden dass P (A, b ) leer ist, d.h. keine zulässigen Punkte existieren. Antwort: Simplex Phase 1: min γ s.d Ax ≤ γe + b, ⇔ min γ s.d. mit [A, −e ] e = ( 1, . . . 1 ) > x ≤b γ Ist in primaler Standartform. Zulässiger Anfangspunkt ist x = 0 und γ = max (−bi ) ⇒ 0 ≤ γe + b 1≤i ≤m Ursprüngliches Problem ist genau dann zulässig wenn γ nach unten unbeschränkt und der optimale Wert nicht positiv ist. – 31 – Nichtlineare Optimierung Beispiel D.12 (Huber-Schätzer) Betrachte überbestimmtes System Ax ≈ b, x ∈ Rn , A ∈ Rm×n , b ∈ Rm , m >> n. Kleinste Quadrate Ansatz: min f (x ) = 1 1 m kAx − b k2 = ∑ (ai>x − bi )2 2 2 i =1 wobei ai> = ei>A Die optimale Lösung von minkAx − b k2 ist stark von Ausreißern abhängig. Deshalb benutzt man einen Kompromiss mit der `1 Norm, nämlich m min f (x ) = ∑ φk (ai>x − bi ) i =1 mit 1 φk (z ) = 2 falls |z | ≤ k |z |k − 12 k 2 falls|z | ≥ k 2z Ergebnis: φk (z ) und entsprechend f (x ) sind überall einmal stetig diffbar, aber an der Stelle |z | = k springt die zweite Ableitung von 1 auf 0. – 32 – Allgemeine Vorraussetzung für die unrestringierte Optimierung f : Rn 7→ R ist p ≥ 1 mal stetig diffbar ⇔ f ∈ C p (Rn ) Definition D.13 Ein Punkt x ∈ Rn heißt lokales Minimum von f (x ) wenn es einen Radius ρ > 0 gibt, sodass f (x ) ≥ f (x∗ ) für alle x ∈ Bρ (x∗ ) = {x ∈ Rn : kx − x∗ k < ρ} Falls die Ungleichung für alle x ∈ Rn gilt, heißt x∗ globales Minimum. Lemma D.14 ( Optimalitätsbedingungen 1. Ordnung) Ein Punkt x∗ ∈ Rn kann nur dann ein lokales Minimum sein wenn ∇f (x∗ ) = ∂ ∂ f (x ) . . . f (x ) ∂ x1 ∂ xn =0 x =x∗ Man nennt x∗ dann einen stationären Punkt von f . – 33 – Beweis. Im Widerspruch zur Behauptung nehme an ∇f (x∗ ) 6= 0. Dann ist d = −∇f (x∗ )Rn eine Abstiegsrichtung im dem Sinne, dass d f (x∗ + αd )|α=0 = ∇f (x )>d = −k∇f (x∗ )k2 < 0. dα Dann gilt wegen stetiger Differenzierbarkeit: f (x∗ + αd ) = f (x∗ ) + ∇f (x∗ )>d α + o (α) = f (x∗ ) − kf (x∗ )k2 α + o (α) < f (x∗ ) für hinreichend kleines α > 0 →Also kann x∗ kein lokales Miminum sein. – 34 – Verfahren des steilsten Abstieges Idee So lange der Gradient ∇f (xk ) am aktuellen Punkt xk ∈ Rn nicht null ist, finde neuen Punkt = Iterierte der Form xk +1 = xk − αk ∇f (xk ) s.d. f (xk − αk ∇f (xn )) < f (xk ) Dieses Verfahren heißt steilster Abstieg. Beobachtung Bemerkung D.15 αk darf weder zu groß noch zu klein gewählt werden. Definition D.16 Am Punkt xk mit ∇f (xk ) 6= 0 ist αk = 21m die sogenannte Armijo Schrittweite, wenn m die kleinste ganze Zahl ist, für die folgendes gilt: f ( xk − 1 2m ∇f (xk )) ≤ f (xk ) − k∇f (xk )k2 · 1 2m · ( 0 .1 ) Bemerkung zur Algorithmik: Armijo Schrittweite αk kann gefunden werden in dem man beginnend mit m = 0 und αk = 1 = 210 solange halbiert und jeweils f (xk − 21m ∇f (xk )) berechnet bis die letzte Ungleichung zum ersten Mal erfüllt ist. – 35 – Konvergenzaussage Satz D.17 (Konvergenz von steilstem Abstieg mit Amijo Schrittweite) Wenn x0 so gewählt wurde, dass die Niveaumenge N0 ≡ {x ∈ Rn : f (x ) ≤ f (x0 )} beschränkt ist ergibt sich eine Folge (xk ) ⊂ N0 mit mindestens einem stationären Häufungspunkt x∗ . Bemerkung D.18 Theoretisch ist x∗ = xk für alle großen k möglich, für nichtlineare Probleme ist das aber sehr unwahrscheinlich. Es ist zudem wahrscheinlich, dass x∗ der einzige Häufungspunkt ist, d.h. xk → x∗ – 36 – Hessematrix und ihre Symmetrie Frage: Wie können wir entscheiden, ob x∗ lokales Minimum ist Antwort: Betrachte Hessematrix: ∇2 f (x ) = ∂2 f (x ) , i = 1 . . . n, j = 1 . . . n existiert falls f ∈ C 2 (Rn ) ∂xi ∂xj Satz D.19 (Schwarzscher Satz) Falls die Matrix ∇2 f (x ) als Funktion von x stetig ist, so ist sie symmetrisch, d.h. ∂2 f ∂2 f = ∂xi ∂xj ∂ xj ∂ xi für 1 ≤ i , j ≤ n Konsequenz Alle Eigenwerte λj (∇2 f (x )) sind reell, o.B.d.A. λ1 (∇2 f (x )) ≤ . . . ≤ λn (∇2 f (x )). – 37 – Äquivalente Charakterisierung von Definitheit Lemma D.20 Für jede symmetrische Matrix A = A> ∈ Rn×n sind die folgenden Aussagen äquivalent: 1. 0 ≤ λ1 (A) ≤ λj (A), j = 2 . . . n 2. v >Av ≥ 0 ∀v ∈ Rn 3. A = LU faktorisierbar ohne Pivotisierung mit L = U >D, wobei D = diag(δ1 . . . δn ), δi ≥ 0 Definition D.21 A heisst positiv semi-definit, falls es obiges Lemma erfüllt und negativ semidefinit wenn dies für −A gilt. Wenn zudem det (A) 6= 0 heißt A positiv bzw. negativ definit. Bemerkung D.22 Effizientester Test für (Semi-)Definitheit ist LU-Faktorisierung, verlangt nur 16 n3 ops durch Ausnutzung der Symmetrie (Cholesky Faktorisierung). – 38 – Optimalitätsbedingung zweiter Ordnung Satz D.23 Ein stationärer Punkt x∗ von f ∈ C 2 (Rn ) (i) kann nur dann ein lokales Minimum sein, wenn ∇2 f (x∗ ) positiv semidefinit ist (Notwendige Bedingung), (ii) muss ein lokales Minimum sein wenn ∇2 f (x∗ ) positiv definit ist (Hinreichende Bedingung) Im Falle n = 1 gilt ∇2 f 0 (x∗ ) = f 00 (x ∗) was an Minima nichtnegativ sein muss und durch Positivität lokale Minimalität erzwingt. Bemerkung D.24 Falls det(∇2 f (x∗ ) = 0) hängt Optimalität von dritten und höheren Ableitungen ab. Wird fast nie untersucht Lemma D.25 (Zusammenhang mit Konvexität) Eine Funktion f ∈ C 2 (Rn ) ist konvex im Sinne dass f (x (1 − α ) + αy ) ≤ (1 − α )f (x ) + αf (y ) für α ∈ [0, 1] und x , y ∈ Rn , α ∈ [0, 1] gdw. ∇2 f (x ) positiv semidefinit ist an allen x ∈ Rn – 39 – Globale Optimalität im konvexen Fall Satz D.26 Falls f ∈ C 2 (Rn ) konvex, dann ist jeder stationäre Punkt x∗ ein globales Minimum. ((Konvexität + Stationarität) → Globale Minimalität) Beweis. Betrachte stationäres x∗ ∈ Rn und beliebiges x ∈ Rn Dann folgt aus Konvexität f (x )α + (1 − α)f (x∗ ) ≥ f (x∗ (1 − αx )), α > 0 ⇔[f (x ) − f (x∗ )] ≥ f (x∗ + α(x − x∗ )) − f (x∗ α d →α7→0 f (x∗ + α(x − x∗ ))|α=0 = ∇f (x∗ )>(x − x∗ ) = 0 da x∗ stationär da | {z } =0 – 40 – Newton und quasi-Newton Methoden In Nachbarschaft xk ∈ Bρ (x∗ ) eines nichtdegenerierten Minimums, d.h. det (∇2 (f (x∗ )) 6= 0) ist ∇2 f (xk ) auch positiv definit( Stetigkeit von ∇2 f (x )). Dann ist die Newtoniteration mit Schrittweite αk > 0 wohl definiert durch xk +1 = xk − αk [∇2 f (xk )]−1 ∇f (xk ) Dies entspricht für αk = 1 einen normalen Newtonschritt zur Lösung von F (x ) ≡ ∇f (x ) = 0 mit F 0 (x ) = ∇2 f (x ) Wenn ∇2 f (xk ) positiv definit dann ist dk = −∇f (xk )−1 ∇f (xk ) eine Abstiegsrichtung d f (xk + αdk )|α=0 = ∇f (xk )>dk = −∇f (xk )>∇2 f (xk )−1 ∇f (xk ) dα = −d >k ∇2 f (xk )dk < 0 Nach Charakterisierung ist ∇2 f (xk ) positiv definit, und da ∇f (xk ) = −∇2 f (xk )dk . Folglich ergibt Aimijo oder ähnliche Schrittweitenregel ein αk > 0 mit f (xk + αk dk ) ≤ f (xk ) + ∇f (xk )>dk αk · 0.1 – 41 – Konvergenz von Newton für Optimierung Bemerkung D.27 1. Wenn ∇2 f (x ) Lipschitz stetig gilt kxk +1 − x∗ k ≤ c kxk − x∗ k2 für c ∈ R 2. Steilster Abstieg ist billiger, da ∇2 f (x∗ ) weder ausgewertet noch faktorisiert werden muss, Konvergenz ist aber beliebig langsam 3. Kompromiss: Quasi-Newton Methoden DFP: Davidon/Fletcher/Powell BFGS: Boyden-Fletcher-Goldfarb-Shanno in 70ern Quasi-Newton Methode Ziel: Erreiche schnelle Konvergenz ohne ∇2 f (x∗ ) auszuwerten und behandle Iterierte xk wo ∇2 f (xk ) indefit. Bk = Bk> ≈ ∇2 f (xk ) und Suchrichtung dk = −Bk−1 ∇f (xk ) Nach jedem Schritt wird Bk zu Bk +1 aufdatiert, sodass Bk +1 (xk +1 − xk ) = yk = ∇f (xk +1 ) − f (xk ) (≈ ∇2 f (xk )(xk +1 − xk )) Sekantenbedingung an Bk +1 Falls n > 1 repräsentiert Sekantenbedingungen n lineare Gleichungen Bk +1 sk = yk , sk = (xk +1 − xk ) es gibt in Bn+1 aber n (n +1) 2 freie Einträge. – 43 – The rank-2 Broyden Class Unter der Annahme, dass Bk ≈ ∇2 f (xk ) minimiere geeignete Norm minkBk +1 − Bk k s .d . Bk +1 sk = yk Ergebnis ist u.a. die DFP-Formel(1955) Bk +1 = Bk + rk yk> + yk rk> y >s k − yk yk> · rkt sk rk = yk − Bk ss mit (yk>sk )2 k Probe der Sekantenbedingung Bk +1 sn = Bk + rk yk>sk yk>sk + yk rk>sk yk>sk − = Bk sk + yk − Bk sk + yk ( yk yk>sk (rk>sk yk sk rk>sk y> k − rk>sk yk>sk ) = yk Deutliche Verbesserung der Konvergenz durch die nahe verwandte Broyden-Fletscher-Goldfarb-Shanne Formel Bk +1 = Bk − Bk sk sk>Bk s >B k k sk + yk yk> yk>sk – 44 – Eigenschaften von DFP und BFGS I I I Bk 7→ Bk +1 ohne 2. Ableitung, Erhaltung von Symmetrie und Definiteheit falls yk> sk > 0 was durch Schrittweitenregel sicher gestellt werden kann. Choleskyfaktorisierung: Bk = Uk>Dk Uk mit Dk ≥ 0 diagonal kann direkt mit Aufwand O (n2 ) zu Bk +1 = Uk>+1Dk +1 Uk +1 aufdatiert werden → Gesamtkosten pro Schritt sind O (n2 ) im Vergleich zu 61 n3 für Newton Lokale und superlineare Konvergenz, d.h. x0 ∈ Bρ (x∗ ) und kB0 − ∇2 f (x0 )k ≤ ε ⇒ kxk +1 − x∗ k → 0 mit αk = 1 k xk − x ∗ k – 45 – Gliederung 1. Numerik im Überblick 2. Lösung (nicht-)linearer Gleichungssysteme 3. Gewöhnliche Differentialgleichungen (=ODE) 4. Optimierung 5. Wahrscheinlichkeitstheorie – 151 – D - 7 Endliche Wahrscheinlichkeitsräume Wir betrachten folgendes Experiment: Eine Münze wird geworfen. Das Ergebnis sei entweder „Kopf“ oder „Zahl“. Der Ausgang eines solchen Experimentes ist nicht exakt voraussagbar. Man müßte ein exaktes physikalisches Modell und alle nötigen Parameter, Anfangs- und Randdaten haben, was aber unmöglich ist. Im betrachteten Fall sprechen wir von einem Zufallsexperiment. Die Wahrscheinlichkeitstheorie analysiert Gesetzmäßigkeiten solcher Zufallsexperimente. Jeder hat eine gewisse Vorstellung von der Aussage: „Bei einer fairen Münze ist die Wahrscheinlichkeit für ‚Kopf‘ genauso groß wie für ‚Zahl‘.“ Intuitiv denkt man dabei etwa: „Wenn man die Münze oft (hintereinander) wirft, so konvergiert die relative Häufigkeit von ‚Kopf‘ (von ‚Zahl‘) gegen 1/2.“ Eine Definition der Wahrscheinlichkeit mit Hilfe der relativen Häufigkeiten ist im Allgemeinen jedoch problematisch. – 152 – Beispiel 1 (Experiment: Zweimaliges Würfeln) Die Menge aller möglichen Kombinationen ist Ω := {(i , j )|1 ≤ i , j ≤ 6}. Also gibt es |Ω| = 36 mögliche Ausgänge des Experimentes. Bei einem sogenannten fairen Würfel sind alle diese Ausgänge (Elementarereignisse) gleichwahrscheinlich. Z.B. geschieht das Ereignis {(1, 2)} = „erst 1, dann 2“ mit einer Wahrscheinlichkeit von 1/36. Das Ereignis „Summe der Augenzahlen ist höchstens 3“ entspricht der Menge A := {(1, 1), (1, 2), (2, 1)}. Es gilt also |A| = 3 und somit ist die Wahrscheinlichkeit für dieses Ereignis gleich 3/36 = 1/12. – 153 – Elementare Definitionen Definition 2 (Endlicher Wahrscheinlichkeitsraum) Sei Ω eine nicht-leere endliche Menge, also Ω = {1, 2, . . . , N } und P (Ω) deren Potenzmenge, d.h. die Menge aller Teilmengen von Ω. 1. Eine Wahrscheinlickeitsverteilung (oder auch ein Wahrschein- lichkeitsmaß ) auf Ω ist eine Abbildung P : P (Ω) → [0, 1] mit folgenden Eigenschaften: P (Ω) = 1, P (A ∪ B ) = P (A) + P (B ) für A ∩ B = ∅. Die Menge Ω nennen wir Ergebnismenge oder auch Ergebnisraum. 2. Teilmengen A ⊂ Ω heißen Ereignisse, P (A) heißt Wahrscheinlichkeit von A. 3. Eine Menge {ω } mit ω ∈ Ω heißt Elementarereignis. 4. Das Paar (Ω, P ) heißt Wahrscheinlichkeitsraum (genauer: endlicher Wahrscheinlichkeitsraum). 5. Wir nennen Ω das sichere Ereignis und ∅ das unmögliche Ereignis. – 154 – Bemerkung: (Wahrscheinlichkeitsmaß als Voraussage) Auch wenn wir hier, wie angekündigt, mathematisch vorgehen und Wahrscheinlichkeiten von Ereignissen durch eine abstrakt gegebene Funktion P definieren, ohne dies weiter zu erklären, sollte jeder eine intuitive Vorstellung von Wahrscheinlichkeit haben. Das Wahrscheinlichkeitsmaß können wir auch als Voraussage über die möglichen Ausgänge eines Zufallsexperimentes interpretieren. Eine solche Sichtweise wird z.B. das Verständnis des Begriffes der bedingten Wahrscheinlichkeit unterstützen. – 155 – Satz 3 (Eigenschaften eines Wahrscheinlichkeitsmaßes) Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und A, B ∈ P (Ω). Es gilt: 1. P (Ac ) = 1 − P (A), wobei Ac = Ω\A das Komplement von A ist. Speziell gilt P ( ∅ ) = 0. 2. A ⊂ B ⇒ P (A) ≤ P (B ). 3. P (A\B ) = P (A) − P (A ∩ B ). 4. Falls A1 , . . . , An paarweise disjunkt sind, d.h. für i 6= j gilt Ai ∩ Aj = ∅, dann gilt P( n S i =1 n Ai ) = ∑ P (Ai ). Speziell gilt P (A) = ∑ P ({ω }). i =1 ω ∈A 5. Für beliebige (i.a. nicht paarweise disjunkte) A1 , . . . , An ∈ P (Ω) gilt P( n S i =1 n Ai ) ≤ ∑ P (Ai ). i =1 6. P (A ∪ B ) = P (A) + P (B ) − P (A ∩ B ). – 156 – Definition 4 (Laplacescher Wahrscheinlichkeitsraum) Sei (Ω, P ) endlicher Wahrscheinlichkeitsraum. Falls alle Elementarereignisse die gleiche Wahrscheinlichkeit haben, heißt P Gleichverteilung, und (Ω, P ) heißt Laplacescher Wahrscheinlichkeitsraum. Es gilt dann: P (ω ) = P (A) = 1 |Ω| |A| |Ω| für alle ω ∈ Ω, für A ⊂ Ω, wobei |Ω|, |A| die Anzahl der Elemente in Ω bzw. A ist. – 157 – Beispiel 5 („6 Richtige im Lotto 6 aus 49“) Wir berechnen die Wahrscheinlichkeit dafür, dass 6 bestimmte Zahlen (der eigene Tipp) zufällig als Gewinnzahlen gezogen werden, auf zwei verschiedene Weisen. Unser Tipp bestehe aus den sechs verschiedenen Zahlen t1 , . . . , t6 . 1. Als Ergebnismenge Ω1 nehmen wir hier die Menge aller sechs-elementigen Teilmengen der Menge {1, . . . , 49}. Wir unterscheiden also nicht, in welcher Reihenfolge die Zahlen gezogen werden. Ω1 = {{w1 , . . . , w6 }|wi ∈ {1, . . . , 49} für alle 1 ≤ i ≤ 6 und wi 6= wj für i 6= j und 1 ≤ i , j ≤ 6} Die Anzahl dieser Teilmengen ist |Ω1 | = (49 6 ) = 13983816. Jede Ziehung (jedes Elementarereignis) habe den gleichen Wahrscheinlichkeitswert, insbesondere auch das Elementarereignis A1 := {t1 , . . . , t6 }, das unserem Tipp entspricht. Also 1 P1 (A1 ) = ≈ 7.1511 · 10−8 . |Ω| – 158 – 2. Jetzt nehmen wir als Elementarereignisse alle Sechsertupel von paarweise verschiedenen ganzen Zahlen zwischen 1 und 49. Es kommt also auf die Reihenfolge bei der Ziehung an. Z.B. sind die Tupel (1, 2, 3, 4, 5, 6) und (6, 5, 4, 3, 2, 1) voneinander verschieden. Ω2 = {(w1 , . . . , w6 )|wi ∈ {1, . . . , 49}, für alle 1 ≤ i ≤ 6, wi 6= wj für i 6= j und 1 ≤ i , j ≤ 6} . Die Anzahl solcher Sechsertupel ist | Ω2 | = 49 · 48 · · · 44 = 49! . 43! Das Ereignis „6 Richtige“ entspricht der Menge A2 := {(ω1 , . . . , ω6 ) | {ω1 , . . . , ω6 } = {t1 , . . . , t6 }}. Die Menge A2 besteht also gerade aus allen Sechsertupeln, die aus (t1 , . . . , t6 ) durch Permutation hervorgehen. Für den Lottogewinn ist es ja egal, in welcher Reihenfolge die Gewinnzahlen gezogen werden. Es gilt also |A2 | = 6!. Wir erhalten also P2 (A2 ) = = = ≈ |A2 | | Ω2 | 6! (49 − 6)! 49! 1 (49 6) 7.1511 · 10−8 , also letztlich das gleiche Ergebnis wie bei der ersten Rechnung. – 159 – Beispiel 6 (Dreimal Würfeln mit Laplace-Würfel) Wie groß ist die Wahrscheinlichkeit dafür, dass dabei keine Wiederholung vorkommt? Wir wählen Ω = {(w1 , w2 , w3 ) | ωi ∈ {1, 2, 3, 4, 5, 6} für 1 ≤ i ≤ 3} als Ergebnismenge. Die Anzahl aller möglichen Elementarereignisse (Dreiertupel) ist 63 . Das Ereignis „keine Wiederholung“ entspricht der Menge A aller Dreiertupel, in denen alle drei Zahlen verschieden sind. Es gibt genau 6 · 5 · 4 = 36!! solche Dreiertupel. Also ist 6·5·4 5 P (A) = = . 9 63 – 160 – Satz 7 Die Elemente einer Menge mit n Elementen lassen sich auf genau n! verschiedene Arten anordnen. Satz 8 Aus einer Menge mit n verschiedenen Elementen lassen sich k Elemente (ohne Berücksichtigung der Reihenfolge) auf n! n = k k ! (n − k ) ! Arten auswählen. Satz 9 Aus einer Menge mit n verschiedenen Elementen lassen sich k Elemente (mit Berücksichtigung der Reihenfolge) auf n(n − 1)(n − 2) . . . (n − k + 1) = n! (n − k ) ! Arten auswählen. – 161 – Satz 10 Das Urnenexperiment ’Ziehen ohne Zurücklegen’: In einer Urne befinden sich N Kugeln, S Schwarze und W weiße, wobei S + W = N ist. Aus der Urne werden nacheinander zufällig n Kugeln gezogen, davon seien ns Kugeln schwarz und nw Kugeln weiß. Dann ist die Wahrscheinlichkeit dafür, genau ns schwarze und nw weiße Kugeln zu ziehen gleich P (Anzahl schwarze Kugeln = ns ) = S W N · / . ns nw n – 162 – Satz 11 Das Urnenexperiment ’Ziehen mit Zurücklegen’: In einer Urne befinden sich N Kugeln, S Schwarze und W weiße, wobei S + W = N ist. Aus der Urne werden zufällig n Kugeln gezogen, nach jedem Zug wird die Kugel wieder zurückgelegt. Es werden ns schwarze und nw weiße Kugeln gezogen. Dann ist die Wahrscheinlichkeit dafür, genau ns schwarze und nw weiße Kugeln zu ziehen gleich P (Anzahl schwarze Kugeln = ns ) = ns nw n S W · · . ns N N – 163 – Bedingte Wahrscheinlichkeit In Bemerkung hatten wir schon erwähnt, dass man ein gegebenes Wahrscheinlichkeitsmaß als Voraussage für ein Zufallsexperiment interpretieren kann. Wenn man nun zusätzliche Informationen über das Experiment erhält, so kann man diese Voraussage „verbessern“. Z.B. hat man nach einem einfachen Experiment wie Münzwurf die Information, wie das Experiment ausgegangen ist, und man kann mit dieser vollständigen Information im Nachhinein sogar eine deterministische „Voraussage“ (die dann ihren Namen eigentlich nicht mehr verdient) machen, d.h. man wird nicht mehr das a priori gegebene Wahrscheinlichkeitsmaß betrachten, sondern vielmehr ein anderes (deterministisches), das jedem Ereignis entweder die Wahrscheinlichkeit 0 oder 1 zuordnet. Im allgemeinen erhält man keine vollständige Information, sondern nur eine solche der Art, dass bestimmte Ereignisse sicher eintreten. Dementsprechend geht man zu einem neuen Wahrscheinlichkeitsmaß über. – 164 – Beispiel 12 (Voraussage für den zweifachen Münzwurf bei zusätzlicher Information) Wir betrachten zwei aufeinanderfolgende Münzwürfe mit einer fairen Münze. Wie groß ist die Wahrscheinlichkeit dafür, dass „zweimal Kopf“ fällt (Ereignis A), wenn man weiß, dass 1. Fall: der erste Wurf das Ergebnis „Kopf“ hat (Ereignis B1 ). 2. Fall: mindestens ein Wurf gleich „Kopf“ ist (Ereignis B2 ). Als Ergebnisraum wählen wir Ω := {(K , K ), (K , Z ), (Z , K ), (Z , Z )}. – 165 – Da wir die Münze als fair annehmen, hat jedes Elementarereignis die Wahrscheinlichkeit 1/4. Für unsere speziell betrachteten Ereignisse gilt A = {(K , K )}, P (A) = 1 , 4 B1 = {(K , K ), (K , Z )}, P (B1 ) = 1 , 2 B2 = {(K , K ), (K , Z ), (Z , K )}, P (B2 ) = 3 . 4 – 166 – 1. Fall: Aufgrund der zusätzlichen Informationen, dass das Ereignis B1 eintritt, können die Elementarereignisse (Z , Z ) und (Z , K ) völlig ausgeschlossen werden. Es können also nur (K , K ) oder (K , Z ) eintreten. Ohne jegliche weitere Information sind diese beiden als gleichwahrscheinlich anzunehmen. Durch diese Überlegungen ordnen wir insbesondere dem Ereigneis (K , K ) eine neue Wahscheinlichkeit zu: P (A|B1 ) = 1 . 2 Wir bezeichnen diese als die bedingte Wahrscheinlichkeit des Ereignisses (K , K ) bei gegebenem B1 . 2. Fall: Es können nur (K , K ), (K , Z ), (Z , K ) eintreten. Wieder sehen wir diese Elementarereignisse als gleichwahrscheinlich an. Also P (A|B2 ) = 1 . 3 – 167 – In beiden Fällen werden die möglichen Elementarereignisse auf eine Menge Bi ⊂ Ω reduziert. Wie wir sehen, ist die bedingte Wahrscheinlichkeit für das Ereignis A bei gegebenem B gleich P (A|B ) = |A ∩ B | P (A ∩ B ) = . |B | P (B ) Mit Hilfe des letzten Ausdrucks definieren wir allgemein die bedingte Wahrscheinlichkeit. – 168 – Definition 13 (Bedingte Wahrscheinlichkeit) Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum, B ⊂ Ω mit P (B ) > 0 und A ∈ Ω. Die bedingte Wahrscheinlichkeit von A bei gegebenen B ist P (A|B ) : = P (A ∩ B ) . P (B ) Bemerkung Es folgt P (A ∩ B ) = P (B ) · P (A|B ). (3) – 169 – Satz 14 (zur bedingten Wahrscheinlichkeit) Sei (Ω, P ) ein endlicher Wahrscheinlichkeitsraum. 1. (Die bedingte Wahrscheinlichkeit ist ein Wahrscheinlich- keitsmaß) Sei P (B ) > 0. Durch PB (A) := P (A|B ) ist ein Wahrscheinlichkeitsmaß auf Ω definiert. Ist A ⊂ B c oder P (A) = 0, so ist P (A|B ) = 0. – 170 – 2. (Formel der totalen Wahrscheinlichkeit) Sei Ω = A ⊂ Ω: n S i =1 Bi mit Bi ∩ Bj = ∅ für i 6= j (disjunkte Zerlegung von Ω). Dann gilt für jedes P (A) = ∑ P (Bk ) · P (A|Bk ). (4) 1≤k ≤n , P (Bk )>0 Daher wird über alle Indizes k summiert, für die P (Bk ) > 0. Wir schreiben der Kürze halber n auch „ ∑ “ anstatt „ k =1 ∑ 1≤k ≤n , P (Bk )>0 “, wobei wir im Fall P (Bk ) = 0 das Produkt als 0 definieren. – 171 – 3. (Formel von Bayes) Sei neben den Voraussetzungen in 2. zusätzlich noch P (A) > 0 erfüllt. Dann gilt für jedes 1 ≤ i ≤ n: P (Bi |A) = P (Bi ) · P (A|Bi ) n . ∑ P ( Bk ) · P ( A | Bk ) k =1 – 172 – Bemerkung Interpretation der Formel von Bayes Wie durch das weiter unten folgende Beispiel 15 illustriert wird, werden in der Formel von Bayes, die Ereignisse Bk als mögliche „Ursachen“ für das beobachtete Ereignis („Symptom“) A aufgefasst. Für jedes Ereignis Bk wird die A-priori-Wahrscheinlichkeit P (Bk ) als bekannt vorausgesetzt und ebenso die bedingten Wahrscheinlichkeiten dafür, dass bei Eintreten von Ursache Bk auch das Symptom A eintritt. Mit Hilfe der Formel von Bayes wird für ein Bi die A-posteriori-Wahrscheinlichkeit berechnet unter der zusätzlichen Information, dass das Symptom A beobachtet wird. Diese Vorgehensweise der Korrektur von A-priori-Wahrscheinlichkeiten aufgrund von Beobachtungen spielt in der Bayesischen Statistik ein wichtige Rolle. – 173 – Beispiel 15 (Diagnostischer Test, vgl. [?]) Eine Krankheit komme bei etwa 0, 5% der Bevölkerung vor. Ein Test zur Auffindung der Krankheit führe bei 99% der Kranken zu einer Reaktion, aber auch bei 2% der Gesunden. Wir möchten die Wahrscheinlichkeit dafür ermitteln, dass eine Person, bei der die Reaktion eintritt, die Krankheit tatsächlich hat, und des Weiteren die Wahrscheinlichkeit, dass eine Person, bei der keine Reaktion eintritt, in Wirklichkeit krank ist. Dazu definieren wir mögliche Ereignisse: B1 : B2 = B1C : A2 = „Die Person hat die Krankheit.“, „Die Person hat die Krankheit nicht.“, A1 : „Test positiv“, AC 1 „Test negativ“. : – 174 – Nach der Formel von Bayes gilt P (B1 |A1 ) = P (B1 ) · P (A1 |B1 ) P (B1 ) · P (A1 |B1 ) + P (B2 ) · P (A1 |B2 ) = 5 · 10−3 · 0.99 ≈ 0.2. 5 · 10−3 · 0.99 + (1 − 5 · 10−3 ) · 0.02 Die gesuchte bedingte Wahrscheinlichkeit für eine tatsächliche Erkrankung einer Person, bei der der Test positiv ist. beträgt etwa 0.2. – 175 – Auch die Wahrscheinlichkeit dafür, dass eine negativ getestete Person tatsächlich krank ist, berechnen wir nach der Formel von Bayes: P (B1 |A2 ) = P (B1 ) · P (A2 |B1 ) P (B1 ) · P (A2 |B1 ) + P (B2 ) · P (A2 |B2 ) = 5 · 10−3 · 0.01 ≈ 5.1 · 10−5 . 5 · 10−3 · 0.01 + (1 − 5 · 10−3 ) · 0.98 – 176 – Definition 16 (Effizienz diagnostischer Tests, s. [?]) Wir betrachten wie in Beispiel 15 einen diagnostischen Test für eine Krankheit. Der getestete Patient kann gesund (Ereignis K C ) oder tatsächlich krank sein (Ereignis K ). Der Test kann positiv ausfallen, d.h. der Patient wird als krank getestet (Ereignis T+ ), oder C negativ (Ereignis T− = T+ ). 1. Die Spezifität des Tests ist die bedingte Wahrscheinlichkeit P (T− |K C ) für einen negativen Test, wenn der Patient gesund ist. 2. Die Sensitivität des Tests ist die bedingte Wahrscheinlichkeit P (T+ |K ) für einen positiven Test, wenn der Patient krank ist. – 177 – Spezifizität und Sensitivität können wir als Gütekriterium eines Tests ansehen. Sie sollten beide nahe bei 1 liegen. Die bedingte Wahrscheinlichkeit P (K |T+ ) ist der Voraussagewert eines positiven Testergebnisses bei Kranken, und P (K C |T− ) ist der Voraussagewert eines negativen Testergebnisses bei Gesunden. Diese sollten idealerweise ebenfalls nahe bei 1 liegen. Sie hängen nach der Formel von Bayes allerdings auch von der A-priori-Wahrscheinlichkeit für die Krankheit ab, welche als die relative Häufigkeit „Anzahl der Kranken geteilt durch die Gesamtzahl der Menschen“ (z.B. in einem bestimmten Land) definiert ist, der so genannten Prävalenz der Krankheit. Diese Abhängigkeit kann wie in Beispiel 15 zu niedrigen Voraussagewerten führen, wenn die Krankheit nur sehr selten ist, also zu typischem „Fehlalarm bei seltenen Ereignissen“. – 178 – Unabhängigkeit von Ereignissen Beispiel 17 (für zwei unabhängige Ereignisse) Wir betrachten folgendes Experiment: Es wird zweimal mit einem Laplace-Würfel gewürfelt. Wir betrachten das Ereignis A, dass die „Summe der Augenzahlen gerade“ und Ereignis B, dass der „zweite Wurf eine 1“ ist. Es gilt 1 P (A) = 21 , P (B ) = 16 , P (A ∩ B ) = 12 , wie man durch Abzählen der jeweiligen Mengen sieht. Also P (A ∩ B ) = P (A) · P (B ) ⇔ P (A) = P (A|B ) ⇔ P (B ) = P (B |A). D.h. durch die zusätzlichen Informationen, dass B eintritt, ändert sich nichts an der (bedingten) Wahrscheinlichkeit dafür, dass A eintritt. Definition 18 (Unabhängigkeit zweier Ereignisse) Zwei Ereignisse A und B heißen voneinander unabhängig, wenn die Produktformel P (A ∩ B ) = P (A) · P (B ) gilt. – 179 – Bemerkung 1. Die Relation „A ist unabhängig von B“ ist symmetrisch, d.h. „A ist unabhängig von B“ genau dann, wenn „B unabhängig von A“ ist. Aber im allgemeinen ist sie nicht reflexiv (für 0 < P (A) < 1 gilt z.B. , dass P (A ∩ A) = P (A) 6= P (A) · P (A)) oder transitiv (aus „A ist unabhängig von B“ und „B ist unabhängig von C“ folgt i.a. nicht, dass „A unabhängig von C“ ist, wie man für die Wahl eines Beispiels mit A = C mit 0 < P (A) < 1 und B = ∅ sieht.) 2. Ebenso ist die Nicht-Unabhängigkeit zweier Ereignisse nicht transitiv. Als Gegenbeispiel betrachten wir den Laplaceschen Wahrscheinlichkeitsraum (vgl. Definition 4), bestehend aus Ω := {1, 2, 3, 4} und der Verteilung P ({ω }) = 14 für jedes ω ∈ Ω sowie die Ereignisse A := {1, 2}, B := {1} und C := {1, 3}. Man rechnet leicht nach, dass A nicht unabhängig von B und B nicht unabhängig von C ist. Allerdings ist A unabhängig von C. – 180 – Definition 19 (Unabhängigkeit einer Familie von Ereignissen) Sei {Ai , i ∈ J } eine endliche Familie von Ereignissen. 1. Wir sagen, dass die Produktformel für {Ai , i ∈ J } gilt, wenn P( \ i ∈J Ai ) = ∏ P (Ai ). i ∈J 2. Wir sagen, dass eine (nicht unbedingt endliche) Familie A = {Ai , i ∈ I } von Ereignissen unabhängig ist, wenn für jede endliche Teilfamilie {Ai , i ∈ J } mit J ⊂ I die Produktformel gilt. – 181 – Produktexperimente Definition 20 (Produkt von Wahrscheinlichkeitsräumen) Die Menge Ω n = ∏ Ωi = Ω1 · · · Ωn (5) i =1 = {(ω1 , . . . , ωn ) | ωi ∈ Ωi für i = 1, . . . , n} heißt das (kartesische) Produkt oder auch die Produktmenge von (Ωi )1≤i ≤n . Durch die Wahrscheinlichkeitsfunktion n P (ω ) = ∏ Pi ( ω i ) (6) i =1 ist ein Wahrscheinlichkeitsmaß auf Ω definiert, das wir ebenfalls mit P bezeichnen. Wir nennen (Ω, P ) das Produkt der Wahrscheinlichkeits- räume (Ωi , Pi )1≤i ≤n . – 182 – Satz 21 (Eindeutigkeit des Produkts von Wahrscheinlichkeitsräumen) 1. Durch (6) ist tatsächlich ein Wahrscheinlichkeitsmaß auf Ω definiert. 2. Sei Xi die i-te Koordinatenfunktion auf Ω, d.h. Xi (ω ) = ωi . Dann gilt für A i ∈ Ω i ( i = 1, . . . , n ) : P( n \ i =1 n {Xi ∈ Ai }) = ∏ Pi (Ai ). (7) i =1 Hierbei folgende Notation für als Urbild definierte Mengen: {Xi ∈ Ai } = {ω = (ω1 , . . . , ωn ) ∈ Ω|Xi (ω ) = ωi ∈ Ai }. Insbesondere gilt dann P ({Xn ∈ Ak }) = Pk (Ak ) für alle 1 ≤ k ≤ n. (8) 3. Das durch (6) definierte Wahrscheinlichkeitsmaß ist das einzige Maß auf Ω, bezüglich dessen jede Mengenfamilie ({Xi ∈ Ai })1≤i ≤n unabhängig ist und für die (8) gilt. – 183 – Beispiel 22 (n-facher Münzwurf) Wir betrachten eine Folge von n unabhängigen Einzelexperimenten, die jeweils durch die Ergebnismenge Ωi = {K , Z } und das Wahrscheinlichkeitsmaß p für wi = K , Pi (ωi ) = 1 − p für wi = Z , (mit 1 ≤ i ≤ n) beschrieben sind. Hierbei ist 0 ≤ p ≤ 1. Die Produktmenge ist Ω = {0, 1}n = {(w1 , . . . , wn )|wi ∈ {K , Z }, 1 ≤ i ≤ n}, und das Wahrscheinlichkeitsmaß ist gegeben durch seine Wahrscheinlichkeitsfunktion n P (ω ) = ∏ Pi (ωi ) = pk (1 − p)n−k , (9) i =1 wobei k die Anzahl der Indizes i mit ωi = 1 ist. – 184 – Definition 23 (Bernoulli-Verteilung) Der in Beispiel 22 betrachtete Produktraum (Ω, P ) heißt Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p, und P heißt Bernoulli-Verteilung. Beispiel 24 (Binomialverteilung) Wir führen Beispiel 22 fort. Sei für 0 ≤ k ≤ n mit Ek das Ereignis bezeichnet, dass genau n solcher ω ∈ Ω. Also k k -mal ein Erfolg (eine 1) eintritt. Es gibt genau P (Ek ) = n k p k ( 1 − p ) n − k = : bn , p ( k ) . (10) – 185 – Wir überprüfen durch eine kurze Rechnung, dass die Summe der P (Ek ) gleich 1 ist: n ∑ bn,p (k ) n ∑ = k =0 n k k =0 pk (1 − p )n−k = (p − (1 − p ))k = 1. Dabei haben wir im ersten Schritt die binomische Formel verwendet. 1 0.8 0.6 0.4 0.2 0 1E-Σ 2 0 1 E 3 E+Σ 4 5 1 0.8 0.6 0.4 0.2 2E-Σ 3 E 4E+Σ 5 Abbildung: Stabdiagramme für die Binomialverteilungen b5, 1 und b5, 2 . 2 3 – 186 – Zufallsvariablen Definition 25 (Zufallsvariable) Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und χ eine Menge. Eine Funktion X : Ω → χ heißt Zufallsexperiment mit Werten in χ (oder auch χ-wertige Zufallsvariable). Falls χ = R, heißt X reelle Zufallsvariable. Bemerkung Üblicherweise wird eine so genannte Unbestimmte, z.B. das Argument einer Funktion, als Variable bezeichnet. Man beachte, dass mit Zufallsvariable selber eine Funktion gemeint ist (deren Wert mit dem zufälligen Argument variiert). – 187 – Beispiel 26 (für reelle Zufallsvariablen) 1. Geldwette bei Münzwurf: Ein einfacher Münzwurf sei durch Ω = {K , Z }, P (K ) = p, P (Z ) = 1 − p modelliert, wobei 0 ≤ p ≤ 1. Bei Kopf erhält man 2 Euro Gewinn, bei Zahl verliert man 1 Euro. Der Gewinn (Verlust) ist eine reelle Zufallsvariable: X :Ω X (K ) X (Z ) → = = {−1, 2} ∈ R, 2, − 1. 2. Würfeln: Ω = {1, . . . , 6}, wobei mit ω = 1 das Elementarereignis „Es wird eine 1 gewürfelt.“ gemeint ist. Sei X die Zufallsvariable, die jedem Wurf die erzielte Augenzahl zuordnet, also z.B. X ( 1 ) = 1, wobei die 1 auf der linken Seite das Elementarereignis „Es wird eine 1 gewürfelt.“ bezeichnet und die 1 auf der rechten Seite die reelle Zahl 1. – 188 – 3. Vergleiche Beispiel 24: Wir betrachten die Binomialverteilung zum n-maligen Münzwurf mit Ergebnissen eines einzelnen Münzwurfes in {K , Z }. Die Anzahl der Erfolge (Kopf) sei mit X (ω ) bezeichnet, also X : Ω = {K , Z }n → { 0, . . . , n } , (11) n ( ω1 , . . . , ωn ) 7→ ∑ Xi ( ω ) , i =1 wobei X :Ω → Xi (ω ) = { 0, n } , 1 für 0 für wi = K , wi = Z . Die Zufallsvariable X ist also die Summe der Zufallsvariablen Xi . – 189 – Satz 27 (Eine Zufallsvariable definiert eine Wahrscheinlichkeitsfunktion auf dem Bildraum) Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und X : Ω → χ eine Zufallsvariable. Dann ist auf χ eine Wahrscheinlichkeitsfunktion PX durch PX : χ → [ 0, 1 ] , PX (y ) = P {X = y } = ∑ P (ω ) ω ∈Ω,X (ω )=y definiert. Hierbei bezeichnet {X = y } := {ω ∈ Ω|X (ω ) = y } die Urbildmenge von y bezüglich der Abbildung X . – 190 – Definition 28 (Verteilung einer Zufallsvariablen) Das Wahrscheinlichkeitsmaß zur Wahrscheinlichkeitsfunktion PX aus Satz 27 heißt Verteilung von X bezüglich P oder auch das Wahrscheinlichkeitsmaß von X bezüglich P. Bemerkung: Wichtigkeit von Verteilungen Meistens interessiert man sich ausschließlich für die Verteilung von Zufallsvariablen X und nicht für das Wahrscheinlichkeitsmaß P auf Ω. Wir hatten schon in Beispiel 5 gesehen, dass verschiedene Wahlen von Ω möglich sein können. Oftmals ist der „steuernde Wahrscheinlichkeitsraum“ nicht explizit bekannt oder sehr kompliziert. – 191 – Beispiel 29 (Binomialverteilung als Verteilungsmaß) Das in (10) durch die Binomialverteilung definierte Wahrscheinlichkeitsmaß P auf der Menge {E0 , . . . , En } können wir offensichtlich auch als die Verteilung der Zufallsvariablen X aus (11) in Beispiel 26 auffassen, also als Wahrscheinlichkeitsmaß auf der Menge {0, 1, . . . n}. Ein Element k aus dieser Menge entspricht dabei der Menge Ek aus Beispiel 26. Also PX (k ) = bn,p (k ). Definition 30 (Unabhängigkeit von Zufallsvariablen) Sei (Ω, P ) ein endlicher Wahrscheinlichkeitsraum. Eine Familie (Xi )i ∈I von Zufallsvariablen Xi : Ω → χi (mit i ∈ I ) heißt unabhängig, wenn für jede endliche Teilmenge J ⊂ I und jede Wahl von Aj ⊂ χj für alle j ∈ J die Familie ({Xj ∈ Aj })j ∈J unabhängig ist. (vgl. Definition 19). – 192 – Bemerkung:Interpretation der Unabhängigkeit von Zufallsvariablen Seien z.B. X1 und X2 zwei voneinander unabhängige Zufallsvariablen mit Werten in χ1 und χ2 , respektive. Die Verteilung von X2 können wir als „Voraussage“ über den zufälligen Wert von X2 interpretieren. Seien A2 ⊂ χ2 und x1 ∈ χ1 mit P ({X1 = x1 }) > 0. Die Kenntnis, dass X1 den Wert x1 annimmt, ermöglicht uns keine „bessere“ Voraussage über den Wert von X2 . Dies wird an Beispiel 31 veranschaulicht werden. Bemerkung: Produktformel für unabhängige Zufallsvariablen Für unabhängige Zufallsvariablen X1 , . . . , Xn mit Xi : Ω → χi gilt n P (X1 ∈ A1 ∧ · · · ∧ Xn ∈ An ) = ∏ P (Xi ∈ Ai ) i =1 für jede Wahl von Ereignissen Ai ⊂ χi . Die Berechnung der Wahrscheinlichkeit von solchen Ereignissen der Form {X1 ∈ A1 } ∩ . . . ∩ {Xn ∈ An } ist also besonders einfach. – 193 – Beispiel 31 (Voneinander unabhängige Münzwürfe) Wir betrachten den zweifachen Münzwurf aus Beispiel 22 (also n = 2). Auf Ω = {K , Z }2 ist das Produktmaß gerade so definiert, dass die beiden Zufallsvariablen Xi : Ω ( ω1 , ω2 ) → 7→ {K , Z }, ωi , von denen X1 gerade den Ausgang des ersten Wurfs beschreibt und X2 den des zweiten, voneinander unabhängig sind, was anschaulich auch klar sein sollte. Es gilt z.B. P ({X1 = K ∧ X2 = K }) = = P1 (K ) · P2 (K ) P ({X1 = K }) · P ({X2 = K }), wobei wir im ersten Schritt die Produktformel (9) für die Wahrscheinlichkeitfunktion verwendet haben. – 194 – Erwartungswert, Varianz, Kovarianz In einem Spiel wie in Beispiel 26 interessiert uns der zu erwartende Gewinn und allgemein der „mittlere Wert“ einer reellen Zufallsvariablen. Definition 32 (Erwartungswert einer reellen Zufallsvariablen) Sei X eine reelle Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P ). Der Erwartungswert von X ist definiert als EX := E (X ) := ∑ X (ω ) · P (ω ) = ∑ x · PX (x ). ω ∈Ω (12) x ∈R Bemerkung: Erwartungswert einer Verteilung In (12) ist PX die Verteilung von X (s. Definition 28). Lediglich solche Summanden sind ungleich 0, für die PX (x ) > 0. Dies sind aber nur endlich viele, da der Definitionsbereich und somit der Bildbereich von X endlich ist. In (12) wird der „steuernde Wahrscheinlichkeits- raum “ Ω nicht explizit erwähnt. Der Erwartungswert ist also eine Eigenschaft der Verteilung. Durch (12) ist der Erwartungswert der Verteilung PX definiert, und analog definiert man allgemein den Erwartungswert eines Wahrscheinlichkeitsmaßes auf endlichen Mengen reeller Zahlen. – 195 – Satz 33 (Eigenschaften des Erwartungswertes) 1. Der Erwartungswert ist linear, d.h. für reelle Zufallsvaraiblen X , Y und λ ∈ R gilt E ( λX + Y ) = λ · E (X ) + E (Y ). (13) 2. Sind X , Y unabhängig, so gilt E (X · Y ) = E (X ) · E (Y ). Hierbei bezeichnet X · Y das Produkt der beiden Zufallsvariablen. Diese durch (X · Y )(ω ) = X (ω ) · Y (ω ) definierte Produktfunktion ist wieder eine reelle Zufallsvariable auf demselben Wahrscheinlichkeitsraum. – 196 – Beispiel 34 (für Erwartungswerte spezieller Verteilungen) 1. Wir berechnen den Erwartungswert der Binomialverteilung zu den Parametern n und p (s. (10)) auf zwei verschiedene Weisen. 1. Methode: E (X ) = ∑k k =0 n k p k (1 − p )n −k n = = (n − 1) ! p (k −1) ( 1 − p ) k =1 (k − 1 ) ! (n − 1 ) − (k − 1 ) ! ñ ñ np ∑ pk̃ (1 − p )ñ−k̃ ∑ np k̃ =0 = = (n−1)−(k −1) k̃ np (p + (1 − p ))ñ np. Dabei haben wir die Substitution n − 1 = ñ und k − 1 = k̃ verwendet. – 197 – 2. Methode: Wir verwenden (13) (Linearität von E). Es gilt X = X1 + · · · + Xn mit Xi : Ω → {0, 1}, P ({Xi = 1}) = p, P ({Xi = 0}) = 1 − p, also E (Xi ) = p und somit n E (X ) ∑ E (Xi ) = np. = i =1 2. Wir berechnen den Erwartungswert für die Augenzahl beim Laplace-Würfel, gegeben durch Ω = {1, . . . , 6} und P (ω ) = 16 für ω ∈ Ω. Die Zufallsvariable X gibt die Augenzahl an. (S. Beispiel 26) Wir erhalten 6 E (X ) = 1 ∑i· 6 = 3.5 . (14) i =1 Insbesondere sehen wir, dass der Erwartungswert i.a. nicht als Wert von der Zufallsvariablen angenommen wird. – 198 – 3. Wir vergleichen das letzte Beispiel mit der Zufallsvariablen Y , definiert auf demselben (Ω, P ) durch Y ( ω ) = 3 .5 für ω ∈ {1, . . . , 6}. Diese Zufallsvariable hat den gleichen Erwartungswert wie der Laplace-Würfel: E ( Y ) = 3 .5 . Dennoch sind die beiden Zufallsvariablen nicht gleichverteilt. Wie durch die Stabdiagramme in der folgenden Abbildung veranschaulicht wird, ist die Verteilung Py deterministisch, wohingegen Px um den Erwartungswert streut. – 199 – 1 0.8 0.6 0.4 0.2 1 EHX L-Σ 3 3.5 4 1 3 3.5 4 EHX L+Σ 6 1 0.8 0.6 0.4 0.2 2 5 6 Abbildung: Stabdiagramme für den Laplace-Würfel und für eine determinstische Zufallsvariable – 200 – Definition 35 (Varianz, Streuung, Kovarianz, Korrelationskoeffizient) Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und X , Y reelle Zufallsvariablen. 1. Die Varianz von X ist Var(X ) = E (X − E (X ))2 . 2. Die Streuung (oder Standardabweichung) von X ist σ= q Var(X ). 3. Die Kovarianz von X und Y ist Cov(X , Y ) = E (X − E (X ) · Y − E (Y ) ). 4. Der Korrelationskoeffizient von X und Y (mit σx , σy 6= 0) ist ρ X ,Y = Cov(X , Y ) . (15) σx σy 5. Zufallsvariablen X , Y mit Cov(X , Y ) = 0 heißen unkorreliert. – 201 – Satz 36 (Eigenschaften von Varianz und Kovarianz) Seien X , Y , Xi (für 1 ≤ i ≤ n) reelle Zufallsvariablen und a, b, c , d ∈ R. Dann gilt: 1. Var(X ) = E (X 2 ) − E (X ) 2 . (16) 2. Var(aX + b ) = a2 · Var(X ). (17) Cov(X , Y ) = E (XY ) − E (X ) · E (Y ). (18) Cov(aX + b, cY + d ) = a · c · Cov(X , Y ), (19) 3. 4. – 202 – 5. n Var(X1 + · · · + Xn ) = ∑ Var(Xi ) + ∑ Cov(Xi , Xj ), i =1 (20) ( i ,j ) , i 6 =j wobei in der letzten Summe die Summanden Cov(X1 , X2 ) und Cov(X2 , X1 ) etc. auftreten. 6. Sind X , Y unabhängig, so sind sie auch unkorreliert. 7. (Formel von Bienaymé) Wenn X1 , . . . , Xn unabhängig sind, dann gilt n Var(X1 + · · · + Xn ) = ∑ Var(Xi ). (21) i =1 Bemerkung (Aus Unkorreliertheit folgt nicht Unabhängigkeit) Aus der Unkorreliertheit von Zufallsvariablen folgt im Allgemeinen nicht deren Unabhängigkeit, wie wir in Beispiel 41 sehen werden. – 203 – Beispiel 37 (Varianz bei der Augenzahl des Laplace-Würfels) Es gilt für das zweite Moment der Augenzahl X des Laplace-Würfels: 6 E (X 2 ) = 1 ∑ i2 · 6 i =1 = 91 . 6 Daraus erhalten wir nach (16) und unter Verwendeung von (14) Var(X ) = E (X 2 ) − (E (X ))2 ) = 91 35 − 3.52 = . 6 12 (22) Die Streuung ist also σX ≈ 1.71. – 204 – Beispiel 38 (Varianz der Binomialverteilung) Mit Hilfe der Formel von Bienaymé (21) berechnen wir analog zur 2. Methode in Beispiel 34 die Varianz der Binomialverteilung zu den Parametern n unf p. Die Varianz von Xi ist Var(Xi ) = (0 − E (Xi )) · P (Xi = 0) + (1 − E (Xi )) · P (Xi = 1) = (−p )2 · (1 − p ) + (1 − p )2 · p = p (1 − p ). Aus der Unabhängigkeit der Xi folgt also n Var(X ) = Var( ∑ Xi ) = i =1 n ∑ Var(Xi ) = n p (1 − p). i =1 – 205 – Zur Veranschaulichung von Korrelation führen wir noch den wichtigen Begriff der gemeinsamen Verteilung ein und beschränken uns dabei hier auf den Fall zweier reellwertiger Zufallsvariablen. Zur naheliegenden Verallgemeinerung auf den Fall von endlich vielen Zufallsvariablen mit Werten in beliebigen Mengen s. z.B. [?] Definition 39 (Gemeinsame Verteilung zweier reeller Zufallsvariablen) Seien X , Y : Ω 7→ R zwei auf derselben Ergebnismenge Ω definierten reellwertigen Zufallsvariablen. Die Verteilung PX ×Y (vgl. Definition 28) der Produktfunktion X × Y : Ω 7 → R2 heißt gemeinsame Verteilung von X und Y . Die Funktion X × Y nimmt genau die Werte (x , y ) ∈ R2 mit positiver Wahrscheinlichkeit an, für die PX (x ) > 0 und PY (y ) > 0 gilt und gemäß Satz 27 erhalten wir PX ×Y (x , y ) = P (ω ∈ Ω : X (ω ) = x und Y (ω ) = y ). – 206 – Beispiel 40 (Korrelation bei Merkmalsverteilung) Seien X1 und X2 Zufallsvariablen mit Werten in {0, 1}. Die Produktzufallsvariable X1 × X2 1 1 3 2 nehme die Werte (0, 0), (1, 0), (0, 1) und (1, 1) mit den Wahrscheinlichkeiten 10 , 5 , 10 , 5 , respektive, an. Wir schreiben abkürzend PX1 ×X2 (1, 1) statt PX1 ×X2 ({(1, 1)}) etc. Wir stellen die gemeinsame Verteilung sowie die Verteilungen von X1 und X2 tabellarisch dar: X1 = 0 X1 = 1 Verteilung von X2 : X2 = 0 1/10 1/5 3/10 X2 = 1 3/10 2/5 7/10 Verteilung von X1 : 2/5 3/5 Die Verteilung von X1 und X2 steht offensichtlich im oberen linken Teil der Tabelle. Die Verteilung von X1 steht in der unteren Zeile. Die Werte wurden als Summe der Zahlen der jeweiligen Spalten berechnet. Ebenso steht die Verteilung von X2 in der rechten Spalte. Diese Werte sind jeweils die Zeilensummen (aus dem Tabellenteil der gemeinsamen Verteilung). Eine Kontrollrechnung zeigt, dass die Summe der Werte der unteren Zeile (der rechten Spalte) jeweils 1 ergeben. – 207 – Wir berechnen nun die Kenngrößen der Verteilungen. 2 3 3 +1· = , 5 5 5 E (X1 ) = 0· E (X12 ) = 3 , 5 Var(X1 ) = 3 − 5 σX1 = r 6 ≈ 0.49. 25 E ( X2 ) = 7 , 10 Var(X2 ) = 7 − 10 r σX2 = 2 3 6 = , 5 25 E (X22 ) = 7 10 2 = 7 , 10 21 , 100 21 ≈ 0.46. 100 – 208 – E (X1 · X2 ) = 2 , 5 Cov(X1 , X2 ) = E (X1 · X2 ) − E (X1 ) · E (X2 ) = 2 3 7 1 − · =− , 5 5 10 50 ρ X 1 ,X 2 = 1 − 50 q 6 25 · ≈ −0.089. 21 100 Die Zufallsvariablen X1 und X2 sind nicht voneinander unabhängig, da Ihre Kovarianz ungleich 0 ist. (Es gilt nämlich: „Unabhängigkeit ⇒ Kovarianz gleich 0“.) Der Betrag ihres Korrelationskoeffizienten ist allerdings auch nicht besonders groß, d.h. nahe bei 0. – 209 – Bemerkung: Interpretation von Korrelation 1. (geometrische Sichtweise) Wir können die Kovarianz als Skalarprodukt in Rn mit n = |Ω| auffassen. Hierzu nehmen wir an, dass alle Elementarereignisse eine positive Wahrscheinlichkeit haben. Dann gilt die Cauchy-Schwarz-Ungleichung Cov(X , Y ) ≤ σx σy und somit für σx , σy 6= 0: − 1 ≤ ρ X ,Y ≤ 1 . Den Korrelationskoeffizienten können wir dann als „Kosinus des nicht-orientierten Winkels zwischen X und Y “ auffassen. 2. (Korrelation als linearer Zusammenhang) Für zwei Zufallsvariablen X und Y deutet ein Korrelationskoeffizient ρX ,Y nahe bei 1 auf eine „Tendenz“ der Variablen X − E (X ) und Y − E (Y ) hin, gemeinsam große bzw. kleine bzw. stark negative Werte anzunehmen, also auf einen „linearen Zusammenhang“. Analoges gilt für ρX ,Y nahe bei −1. Wir veranschaulichen dies in Beispiel 41. – 210 – Beispiel 41 (Illustration von speziellen gemeinsamen Verteilungen und Korrelation) Die hier diskutierten Beispiele für gemeinsame Verteilungen sind in der folgenden Abbildung graphisch dargestellt. Die Werte der jeweiligen Verteilungen mit positiver Wahrscheinlichkeit sind als Punkte in die x-y -Ebene eingezeichnet, wobei (x , y ) Werte der Funktion X × Y sind. Eine solche Darstellung könnte noch präzisiert werden, indem man zu jedem Punkt die Wahrscheinlichkeit schreibt, was bei einer kleinen Anzahl von Punkten noch übersichtlich wäre. Der Einfachheit halber habe hier jeweils jeder Punkt die gleiche Wahrscheinlichkeit. – 211 – 1. Sei X eine Zufallsvariable mit Varianz σX2 > 0 und sei Y = aX + b mit a 6= 0. Wir berechnen unter Verwendung der Sätze 33 und 36 den Korrelationskoeffizienten von X und Y. Var(Y ) = a2 Var(X ), Cov(X , Y ) = Cov(X , aX + b ) = a Cov(X , X ) = a σX2 , ρ X ,Y = aσX2 = sign(a). σX |a|σX ⇒ σY = |a| · σX , Der Korrelationskoeffizient ρX ,Y ist also 1 oder −1, je nachdem, ob a positiv oder negativ ist. In den Abbildungen (a) und (b) sind Beispiele für solche gemeinsamen Verteilungen von X und Y dargestellt. Die Punkte der gemeinsamen Verteilung liegen auf einer Geraden. Wir bemerken auch, dass im Fall a = 0, also Y = b, die Zufallsvariable Y deterministisch ist und somit Varianz Null hat. Auch hier liegen die Punkte der gemeinsamen Verteilung von X und Y auf einer Geraden (nicht abgebildet), aber der Korrelationskoeffizient ist im Sinne von Definition 35 nicht definiert. Ρ =1 Ρ =-1 Ρ »1 20 20 20 15 15 15 10 10 10 5 5 5 2.5 5 7.5 10 12.5 15 2.5 5 7.5 10 12.5 15 2.5 5 7.5 10 12.5 15 (a) Die Punkte liegen auf einer steigenden (b) Die Punkte liegen auf einer fallenden (c) Die Punkte streuen schwach um eine Geraden Geraden steigende Gerade – 213 – Ρ»0 Ρ »-1 Ρ=0 20 20 20 15 15 15 10 10 10 5 5 5 2.5 5 7.5 10 12.5 2.5 15 5 7.5 10 12.5 15 (d) Die Punkte streuen schwach um eine (e) Punktwolke ohne zuzuordnender Gera- fallende Gerade de 2.5 5 7.5 10 12.5 15 (f) Nicht-lineare funktionale Abhängigkeit Abbildung: Illustration von Korrelationskoeffizienten mit Hilfe von gemeinsamen Verteilungen – 214 – 2. In den Abbildungen (c) und (d) sind die gemeinsamen Verteilungen von Zufallsvariablen dargestellt, deren Korrelationskoeffizient nahe bei 1 bzw. nahe bei -1 liegt. Die Punkte liegen zwar nicht auf einer Geraden, aber man kann könnte jeder der Verteilungen eine Gerade zuordnen, von der die Punkte „nicht allzu sehr“ abweichen. Eine solche Zuordnung geschieht z.B. mit Hilfe von linearer Regression. 3. Der in Abbildung (e) dargestellten Verteilung wäre optisch nur schwer eine Gerade zuzuordnen. Der Korrelationskoeffizient in diesem Beispiel liegt nahe bei 0. – 215 – 4. Wir betrachten nun noch ein sehr spezielles Beispiel. Die gemeinsame Verteilung von X und Y sei 1 PX ×Y (−1, 1) = PX ×Y (0, 0) = PX ×Y (1, 1) = 3 dargestellt. Die Kovarianz von X und Y ist Cov(X , Y ) = ∑ ( x ,y ) x · y · PX × Y ( x , y ) = 1 · (1 · (−1) + 0 · 0 + 1 · 1) = 0. 3 Dabei haben wir in der ersten Zeile über alle Werte (x , y ) mit positiver Wahrscheinlichkeit summiert. Die beiden Zufallsvariablen sind also nicht korreliert. Ihr Korrelationskoeffizient ist gleich 0. Wir bemerken noch, dass Y nicht unabhängig von X ist (s. Definition 30). Im Gegenteil, es besteht sogar ein funktionaler Zusammenhang zwischen beiden Variablen. Kennt man den Wert von X , so auch den von Y . Dieser Zusammenhang ist aber nicht linear (vgl.16). Analog zu diesem Beispiel sind die Zufallsvariablen, deren gemeinsame Verteilung in Abbildung (f) dargestellt ist, unkorreliert, obwohl ein funktionaler Zusammenhang zwischen ihnen besteht. – 216 – Das schwache Gesetz der großen Zahlen In diesem Abschnitt formulieren wir mit Satz 43 eine Version des schwachen Gesetzes der großen Zahlen, das insbesondere einen Zusammenhang zwischen dem abstrakt eingeführten Begriff der Wahrscheinlichkeit und relativen Häufigkeiten bei einer Folge aus lauter voneinander unabhängigen Zufallsexperimenten herstellt, die alle den gleichen Erwartungswert haben. Der folgende Satz liefert uns eine Abschätzung für die Wahrscheinlichkeit der Abweichung einer Zufallsvariablen von ihrem Erwartungswert um mehr als eine vorgegebene Konstante. Diese Abschätzung benutzt nur die Varianz der Zufallsvariablen, ohne irgendwelche weiteren Bedingungen an die Verteilung zu stellen, und ist damit anwendbar sobald man die Varianz kennt. Allerdings ist sie in vielen Fällen auch nur sehr grob oder gar völlig nutzlos, z.B. wenn die rechte Seite in (23) größer gleich 1 ist. Dennoch liefert sie uns einen sehr einfachen Beweis des schwachen Gesetzes der großen Zahlen. Satz 42 (Tschebyscheff-Ungleichung) Sei X eine reelle Zufallsvariable auf (Ω, P ). Dann gilt für jedes e > 0: P (|X − E (X )| > e) ≤ Var(X ) . e2 (23) Beweis: Sei Z = X − E (X ). Wir definieren zu Z 2 eine Minorante, d.h. eine Zufallsvariable Y mit Y (ω ) ≤ (Z (ω ))2 : Y (ω ) := 0 e2 für für |Z (ω )| < e, |Z (ω )| ≥ e. Mit Hilfe dieser Minorante können wir den Erwartungswert von Z 2 nach unten abschätzen: Var(X ) = = = E (Z 2 ) ≥ E (Y ) e2 · P (Y = e2 ) e2 · P (|X − E (x )| ≥ e). – 218 – Satz 43 (Das schwache Gesetz der großen Zahlen) Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit den gleichen Erwartungswerten E (X1 ) und Var(Xi ) ≤ M . Dann gilt 1 M P (X1 + · · · + Xn ) − E (X1 ) ≥ e ≤ 2 , (24) n e n insbesondere 1 lim P (X1 + · · · + Xn ) − E (X1 ) ≥ e = 0. n→∞ n Beweis: Sei S (n) = X1 +···+Xn n Var(S (n) ) . Dann ist E (S (n) ) = E (X1 ), und = 1 1 M Var(X1 + · · · + Xn ) = 2 · n · M = , n n2 n wobei wir im vorletzten Schritt die Unabhängigkeit von (Xi )i verwendet haben. Die Behauptung folgt nun aus der Tschebyscheff-Ungleichung. – 219 – Beispiel 44 (n-maliges Würfeln) In Beispiel 34 hatten wir schon den Erwartungswert E (Xi ) = 3.5 und in Beispiel 37 die Varianz für die Augenzahl beim einfachen Wurf des Laplace-Würfels berechnet. Wir betrachten nun zum n-fachen Wurf die gemittelte Summe S (n) = n1 (X1 + . . . + Xn ) der Augenzahlen. Nach dem schwachen Gesetz der großen Zahlen (Satz 43) ist zu einer vorgegebenen Schranke e > 0 bei häufigem Würfeln die Wahrscheinlichkeit, dass die beobachtete mittlere Augenzahl um mehr als e von ihrem Erwartungswert E (S (n) ) = 3.5 abweicht klein, vorausgesetzt n ist hinreichend groß. Doch wie oft muss man z.B. würfeln, damit für e = 0.1 die Wahrscheinlichkeit einer Abweichung kleiner ist als 0.01? Hier geben wir mit einer sehr groben Abschätzung zufrieden, die auf der Tschebyscheff-Ungleichung (Satz 42) beruht, und wollen damit nur (24) an einem Beispiel illustrieren. – 220 – Wir erhalten mit M = 35 12 und e = 0.1: P S (n) − 3.5 ≥ 0.1 ≤ 35 . 12 · 0.1 · n (25) Die rechte Seite der Abschätzung (25) ist kleiner oder gleich 0.01, falls n ≥ 4200. D.h. wenn man 4200 mal oder noch häufiger würfelt, dann weicht die mittlere Augenzahl mit einer Wahrscheinlichkeit von höchstens 1% um 0.1 oder mehr vom ihrem Erwartungswert ab. – 221 – Bemerkung: Zum schwachen Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen sagt, dass in der Situation in Satz 43 für „große“ n der gemittelte Wert S (n) = n1 (X1 + . . . + Xn ) mit „großer“ Wahrscheinlichkeit (also einer solchen nahe bei 1) vom Erwartungewert E (S (n) ) = E (Xi ) „nicht stark“ abweicht. Wenn man den Erwartungswert der Augenzahl bei einem Würfel statistisch durch viele Würfe ermitteln will, führt man aber z.B. eine recht lange Versuchsreihe von Würfen durch, die einer Folge X1 , X2 , . . . entspricht und betrachtet entsprechend die Folge der gemittelten Werte S (1) , S (2) , . . . Das schwache Gesetz der großen Zahlen sagt, dass für ein vorgegbenes e für hinreichend große n die Wahrscheinlichkeit für eine Abweichung |S (n) − E (X1 )| > e „klein“ ist, schließt aber nicht aus, das für eine betrachtete Folge von Würfen diese Abweichung „immer wieder mal“ auftritt. Aber das starke Gesetz der großen Zahlen, das wir hier nicht als mathematischen Satz formulieren, sagt, dass für fast alle Folgen (von Würfen) die Folge der Werte von S (n) tatsächlich gegen E (X1 ) konvergiert. Das bedeutet, die Wahrscheinlichkeit für diese Konvergenz ist gleich 1. D - 8 Unendliche Wahrscheinlichkeitsräume Definition 45 (Diskreter Wahrscheinlichkeitsraum) Seien Ω eine höchstens abzählbare Menge und P : P (Ω) → [0, 1] eine Funktion. Dann heißt (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, wenn folgendes gilt: P (Ω) = 1. (26) Für jede Folge A1 , A2 , ... paarweiser disjunkter Teilmengen von Ω ist P ∞ [ i =1 Ai = ∞ ∑ P (Ai ). (27) i =1 Eigenschaft (27) heißt σ-Additivität. Vorsicht: bei der Summation ist die Summierbarkeit (absolute Konvergenz) i.a. nicht gewährleistet. – 223 – Beispiel 46 (für einen unendlichen diskreten Wahrscheinlichkeitsraum) (Poisson-Verteilung) Eine bestimmte Masse einer radioaktiven Substanz zerfällt. Die Anzahl der Zerfälle X[0,T ] im Zeitintervall [0, T ] ist eine Zufallsvariable. Dabei nehmen wir an, dass die Gesamtzahl der radioaktiven Teilchen sich im betrachteten Zeitraum nicht wesentlich ändert. Als mathematisches Modell nehmen wir die Verteilung P λ ( X [ 0 ,T ] = k ) = e − λ T ( λT )k k! für k ∈ {0, 1, 2, ...}, (28) mit einem Parameter λ > 0, die in der folgenden Abbildung illustriert ist. – 224 – 1 0.8 0.6 0.4 0.2 E-Σ =0 E=1 E+Σ =2 3 4 5 3 E+Σ 4 5 1 0.8 0.6 0.4 0.2 0 E-Σ 1 E=2 Abbildung: Stabdiagramme von Poisson-Verteilungen mit den Parametern λ = 1 und T = 1, bzw. T = 2 – 225 – Es gilt für den Erwartungswert, das zweite Moment und die Varianz der Verteilung: ∞ ∞ E (X[0,T ] ) = ∑ k · Pλ (X = k ) = ∑ k e − λT k =0 k =0 = λ T · e − λT = − λT ∞ ∑ k =1 E ((X[0,T ] )2 ) λT · e ·e k −1 ( λT )k k! ( λT ) = λ T · e − λT (k − 1) ! λT ∞ ∑ l =0 ( λT )l l! = λT , ∞ = ∑ k 2 · Pλ (X = k ) = ... = (λT )2 + λT k =0 (Übungsaufgabe 6, Serie 6) – 226 – Var(X[0,T ] ) = E ((X[0,T ] )2 ) − (E (X[0,T ] ))2 = λT . Des weiteren gilt dE (X[0,T ] ) dT = λ, d.h. λ ist die Zerfallsrate = mittlere Anzahl der Zerfälle . Zeit Beispiel für eine Verteilung ohne endlichen Erwartungswert siehe Übungsaufgabe 7, Serie 6. – 227 – Kontinuierliche Wahrscheinlichkeitsräume hier: Ω Intervall, z.B. [0, 1], [0, ∞[, ] − ∞, ∞[. Definition 47 (Wahrscheinlichkeitsmaße mit einer Dichtefunktion) Sei Ω = [a, b ] ein Intervall mit a < b. 1. Eine Wahrscheinlichkeitsdichte auf Ω ist eine integrierbare Funktion f : Ω → R mit 1. Nicht-Negativität: f ≥ 0, d.h. f (ω ) ≥ 0 für alle ω ∈ Ω. 2. Normiertheit: Zb f ( ω ) d ω = 1. a Die Definition im Falle von (halb-) offenen Intervallen Ω ist analog. – 228 – 2. Das zur Dichte f gehörende Wahrscheinlichkeitsmaß P ist auf Intervallen durch P ([a0 , b0 ]) = Zb0 f (ω ) d ω (29) a0 definiert, wie in der folgenden Abbildung illustriert. a a0 b0 b Abbildung: Wahrscheinlichkeitsdichte: Die Fläche über dem Intervall [a0 , b0 ] ist gleich der Wahrscheinlichkeit dieses Intervalls – 229 – 3. Die Integralfunktion F von f , definiert durch F (x ) = Zx f (ω ) d ω, a heißt Verteilungsfunktion von P. – 230 – 4. Eine reelle Zufallsvariable ist eine Funktion X : Ω → R. Ihr Erwartungswert ist E (X ) : = Zb X (ω )f (ω ) d ω, (30) a falls das Integral in (30) existiert, und ihre Varianz ist Var(X ) := Zb (X (ω ) − E (X ))2 f (ω ) d ω, (31) a sofern die Integrale in (30) und (31) existieren. – 231 – Bemerkung: Erwartungswert und Varianz einer Wahrscheinlichkeitsverteilung auf R Wir bezeichnen mit µ= Zb x · f (x ) dx (32) a den Erwartungswert der Verteilung und mit σ2 = Zb (x − µ)2 f (x ) dx (33) a ihre Varianz, sofern diese Integrale existieren. (Formaler Bezug durch die Zufallsvariable X (x ) = x.) – 232 – Beispiel 48 (Gleichverteilung auf einem beschränkten Intervall) Die Gleichverteilung auf [a, b ] ist durch die Dichtefunktion f : [a, b ] → R, x 7→ 1 , b−a gegeben. 1 2 -1 1 Abbildung: Gleichverteilung auf dem Intervall [−1, 1] – 233 – Es gelten f (x ) = 1 >0 b−a und Zb f (x ) dx = 1, a d.h. f ist also tatsächlich eine Wahrscheinlichkeitsdichte. Sei X eine Zufallsvariable, deren Verteilung die Dichte f hat, also X = x. Der Erwartungswert ist E (X ) = Zb a 1 1 1 b+a · x dx = · ( b 2 − a2 ) = , b−a b−a 2 2 also gleich dem Mittelpunkt des Intervalls [a, b ]. – 234 – Zur Berechnung der Varianz benutzen wir Var(X ) = E (X − E (X ))2 = E (X 2 ) − E (X ) 2 . Wir müssen also noch das zweite Moment E (X 2 ) von X berechnen. E (X 2 ) Zb = a 1 1 1 1 x 2 dx = · (b3 − a3 ) = (b2 + ab + a2 ). b−a b−a 3 3 Damit erhalten wir Var(X ) = 1 1 1 2 (b + ab + a2 ) − (b2 + 2ab + a2 ) = (b − a )2 . 3 4 12 Die Varianz hängt also nur von der Intervalllänge ab. Physikalisch kann man den Erwartungswert von X als Schwerpunkt bei homogener Massenverteilung interpretieren, und die Varianz ist proportional zum Trägheitsmoment, also proportional zum mittleren quadratischen Abstand zum Schwerpunkt. – 235 – Beispiel 49 (Exponentialverteilungen auf [0, ∞)) Die Exponentialverteilung mit Parameter λ > 0 ist gegeben durch die Dichte fλ : [0, ∞) → R, t 7 → λ e − λt . Sie tritt z.B. beim durch den Poisson-Prozeß modellierten radioaktiven Zerfall auf (s. Beispiel 46) Die Wartezeit bis zum ersten Zerfall ist eine Zufallsvariable, deren Verteilung die Dichte fλ hat. (siehe auch Übungsaufgabe 8, Serie 6) – 236 – Beispiel 50 (Normalverteilungen) Die Normalverteilung N (µ, σ2 ) mit Erwartungswert µ und Varianz σ2 hat die Dichte fµ,σ2 (x ) = 1 √ σ 2π e −(x −µ)2 2σ 2 . (34) Die Normalverteilung N (0, 1) mit Erwartungswert 0 und Varianz 1 heißt Standard-Normalverteilung. Abbildung: Die Standard-Normalverteilung mit ihrem σ-, 2σ- und 3σ-Intervall – 237 – Durch die Normalverteilung werden viele gestreute Größen, wie z.B. Körperlängen von Personen in einer Bevölkerung beschrieben, allerdings nur in einem hinreichend kleinen Intervall um die Durchschnittsgröße herum, denn natürlich gibt es keinen Menschen mit negativer Größe oder von 3m Länge. Solche Verteilungen haben mit den Normalverteilungen die typische Glockenform gemeinsam. Mathematisch wird der Zustand zwischen der Normalverteilung und mehrfach wiederholten Experimenten (z.B. mehrfacher Münzwurf) durch den zentralen Grenzwertsatz (Satz 53) hergestellt. – 238 – – 239 – fµ,σ2 (x ) ist eine Wahrscheinlichkeitsdichte, d.h. fµ,σ2 (x ) ≥ 0 ∀x und Normiertheit ist erfüllt: Das uneigentliche Integral 0 < Z∞ 2 e −x dx < ∞ existiert (Majorante). −∞ Zu der Funktion e −x 2 gibt es keine elementare Stammfunktion. Man kann aber berechnen: (Transformation in Polarkoordinaten) Z∞ 2 e −x dx = √ π −∞ Wir erhalten die Normiertheit der Dichtefunktion: Z∞ −∞ 1 √ σ 2π e −(x −µ)2 2σ 2 dx = 1 – 240 – Erwartungswert und Varianz einer N (µ, σ2 )-verteilten Zufallsvariablen Xµ,σ2 : E (Xµ,σ2 ) = Z∞ x · fµ,σ2 (x ) dx = µ −∞ Var(Xµ,σ2 ) = E (X02,σ2 ) − E (X0,σ2 )2 = σ2 − 0 = σ2 (invariant bezüglich Verschiebung) – 241 – Verteilungsfunktion der Standard-Normalverteilung Definition 51 Die Verteilungsfunktion (s. Definition 47) der Standard-Normalverteilung ist Φ:R → Φ (z ) = R, Z z −∞ f0,1 (x ) dx . Graphen der Dichte f0,1 und von Φ siehe Abbildung. – 242 – 1 0.8 0.6 0.4 0.2 -3 -2 -1 1 2 3 Abbildung: Die Standard-Normalverteilung und ihre Verteilungsfunktion – 243 – Bemerkung zur Verteilungsfunktion der Standard - Normalverteilung I I I Es gibt keine Darstellung von Φ durch elementare Funktionen. Werte von Φ lassen sich aber beliebig genau numerisch berechnen, und für diskrete Werte von z liegen die Funktionswerte tabellarisch vor (z.B. Bronstein, Taschenbuch der Mathematik). Dadurch kann man schnell Integrale der Form b Z a f0,1 (x ) dx = Φ(b ) − Φ(a) auswerten. I Wegen Φ(−z ) = 1 − Φ(z ) enthalten solche Tabellen z.B. nur die Werte für nicht-negative z. I Für symmetrische Intervalle [−z , z ] (mit z > 0) gilt: Z z −z f0,1 (x ) dx = Φ(z ) − Φ(−z ) = Φ(z ) − (1 − Φ(z )) = 2Φ(z ) − 1. – 244 – Einige spezielle Werte von Φ: Φ (0) = 0 .5 , Φ (1) ≈ 0.8413 ⇒ R1 ≈ 0.6826, Φ (2) ≈ 0.9772 ⇒ R2 ≈ 0.9544, ⇒ R3 ≈ 0.9972. Φ (3) ≈ 0.9986 −1 f0,1 (y ) dy −2 f0,1 (y ) dy −3 f0,1 (y ) dy Aus der zweiten Zeile folgt z.B., dass bei irgendeiner Normalverteilung dem Intervall [µ − σ, µ + σ] mit Radius σ (Streuung) um den Erwartungswert µ herum eine Wahrscheinlichkeit von etwa 68% zugeordnet wird. Bei einem Experiment mit vielen voneinander unabhängigen N (µ, σ2 )-verteilten Messungen liegen ungefähr 68% der Meßwerte in diesem Intervall. – 245 – Abbildung: Die Standard-Normalverteilung mit ihrem σ-, 2σ- und 3σ-Intervall – 246 – Definition 52 (α-Quantile der N (—, ff2 )-Verteilung) Sei α ∈]0, 1[. Das α-Quantil der Standard-Normalverteilung ist die Zahl z ∈ R mit α= also Z z −∞ f0,1 (x ) dx = Φ(z ), z = Φ −1 ( α ). Bemerkung: Quantile für allgemeine Verteilungen, Median Man kann α-Quantile allgemein für (diskrete oder kontinuierliche) reelle Verteilungen definieren. Das 12 -Quantil heißt Median der Verteilung. Im Falle einer kontinuierlichen Verteilung auf einem Intervall [a, b ] mit überall positiver Dichte f ist der Median m die durch die Bedingung P ([a, m ]) = 21 eindeutig festgelegte Zahl. Der Median ist im allgemeinen vom Erwartungswert verschieden. – 247 – Transformation einer beliebigen Normalverteilung in die Standard-Normalverteilung I Normalverteilung N (µ, σ2 ) (Erwartungswert µ, Varianz: σ2 ) fµ,σ2 (x ) = I 1 √ σ 2π e −(x −µ)2 2σ 2 Standard-Normalverteilung N (0, 1) (Erwartungswert 0, Varianz: 1) 1 f0,1 (x ) = √ e 2π −x 2 2 Umrechnung: fµ,σ2 (x ) = 1 √ σ 2π e −(x −µ)2 2σ 2 = 1 σ 1 √ 2π e − 12 x −µ σ 2 = 1 σ f0,1 x −µ σ – 248 – Wahrscheinlichkeit: Sei X N (µ, σ2 )-verteilt. P (X ∈ [a; b ]) b Z = fµ,σ2 (x )dx a b Z = σ a f0,1 x −µ dx σ b −µ Z = 1 σ a− µ f0,1 (z )dz σ Verteilungsfunktion: Φ (z ) = P (X ∈ [a; b ]) = Φ z Z −∞ f0,1 (z )dz b−µ σ −Φ a−µ σ (Anwendung in Übungsaufgabe 5, Serie 6) – 249 – Der zentrale Grenzwertsatz, den wir hier in einer speziellen Version formulieren, erklärt die herausragende Bedeutung von Normalverteilungen für die Wahrscheinlichkeitstheorie und Statistik. Satz 53 (Zentraler Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von auf demselben Wahrscheinlichkeitsraum (Ω, P ) definierten, paarweise unabhängigen reellen Zufallsvariablen, die alle dieselbe Verteilung haben mit E (Xi ) = µ, Sei X (n) = X1 + . . . Xn , und sei Z (n) = Var(Xi ) = σ2 > 0. X (n ) − n µ √ . σ n (Somit hat Z (n) den Erwartungswert 0 und die Varianz 1.) – 250 – Dann gilt für jedes Intervall [a0 , b0 ] ⊂ R: lim P (Z (n) ∈ [a0 , b0 ]) = n→∞ Z b0 a0 f0,1 (x ) dx . wobei f0,1 die Dichte der Standard-Normalverteilung ist. Äquivalent dazu können wir schreiben: ! Z b0 X (n ) − n µ √ lim P f0,1 (x ) dx . ∈ [ a0 , b0 ] = n→∞ σ n a0 – 251 – Beispiel 54 (Binomialverteilung für große n) Die Binomialverteilung mit gegebenem Erfolgsparameter p wird für große n ungefähr gleich einer N (np, np (1 − p )) Normalverteilung: P (k ) = (k − µ )2 n k 1 − p (1 − p )n −k ≈ √ e 2σ2 mit µ = np und σ2 = np (1 − p ). k 2πσ Dieser Sachverhalt, der für p = 0.3 und n = 100 in der folgenden Abbildung illustriert ist, folgt direkt aus dem zentralen Grenzwertsatz, denn die binomialverteilte Zufallsvariable K kann als Summe vieler unabhängiger Zufallsvariablen Xi aufgefasst werden, die jeweils nur die Werte 0 oder 1 (jeweils mit Wahrscheinlichkeit (1 − p ) bzw. p) annehmen, und die den Erwartungswert p und die Varianz p (1 − p ) haben. – 252 – 0.08 0.06 0.04 0.02 15 20 25 30 35 40 45 Abbildung: Histogramm der Binomialverteilung für n = 100 und p = 0.3, verglichen mit der N (np, np (1 − p )) Verteilung. – 253 –