Mathematik für Informatiker - Institut fuer Mathematik

Werbung
Mathematik für Informatiker
Andreas Griewank
([email protected])
Wiss. Mitarbeiter:
Nikolai Strogies ([email protected]
Skript:
Sebastian Rust(Student), Torsten Bosse, Jan Riehme (ehem. Mitarbeiter)
Institut für Angewandte Mathematik
Humboldt Universität zu Berlin
12. Februar 2015
–1–
Amtliches Mitteilungsblatt der Humboldt-Universität zu Berlin Nr. 23/2009
Modul: Angewandte Mathematik für Informatiker (AM)
Studienpunkte: 6
Lern- und Qualifikationsziele
Studierende erlernen die mathematischen Grundlagen zur Lösung numerischer Probleme der Informatik und zur
probablistischen Modellbildung.
Voraussetzungen für die Teilnahme am Modul
Keine.
Lehr- und
Lernformen
PräsenzSWS
Vorlesung
3
Anzahl der SP/
Arbeitsleistung
45 Stunden Anwesenheit,
60 Stunden
Vor- und Nachbereitung inkl. Prüfungsvorbereitung
Lernziele, Themen, Inhalte
–
–
–
–
–
Übung
1
Modulabschlussprüfung
15 Stunden Anwesenheit
60 Stunden Bearbeitung der Aufgaben
Ausgewählte numerische Verfahren
Grundlagen der Linearen Optimierung
Modellierung komplexer Systeme mit Differentialgleichungen, Lösen von einfachen Systemen gewöhnlicher Differentialgleichungen
Elementare Kombinatorik und Wahrscheinlichkeitsrechnung, Modelle für Zufallsexperimente, Zufallsgrößen und ihre Charakteristika
Statistische Unabhängigkeit, Gesetz der großen Zahlen, bedingte Wahrscheinlichkeiten
Praktische Erarbeitung von Lösungen zu ausgewählten
Problemen. Erfolgreiche Teilnahme an der Übung ist Voraussetzung zur Prüfungszulassung.
Schriftliche Prüfung (90 Minuten).
Dauer des Moduls
1 Semester
2 Semester
Beginn des Moduls
WS
SS
–2–
Literaturhinweise I
Peter Hartmann,
Mathematik für Informatiker. 3. überarbeitete Auflage, 2004, Vieweg.
Bei Lehmann’s vorhanden, ca. 30e.
Gute Grundlage, äußerst lesbar, ISBN: 3-528-23181-5
Gerhard Opfer,
Numerische Mathematik für Anfänger. Eine Einführung für Mathematiker, Ingenieure
und Informatiker. 4. durchgesehene Auflage, 2002, Vieweg
Hans-Görg Roos, Hubert Schwetlick,
Numerische Mathematik. Das Grundwissen für jedermann. Mathematik für Ingenieure
und Naturwissenschaftler. 1999, Teubner
Friedrich Stummel, Karl Hainer,
Praktische Mathematik. 1982, Teubner
J.M. Ortega, W.C. Rheinboldt,
Iterative solution of nonlinear equations in several variables. 1970 Academic Press,
Inc.
Josef Stoer,
Numerische Mathematik 1. Eine Einführung - unter Berücksichtigung von Vorlesungen
von F.L. Bauer. 7. neubearbeitete und erweiterte Auflage, 1994, Springer.
–3–
Vorläufige Gliederung für WS 2014/2015
1. Numerik im Überblick
2. Gleitkommadarstellung und -arithmetik
3. Lösung (nicht-)linearer Gleichungssysteme
4. Gewöhnliche Differentialgleichungen (=ODE)
5. Runge Kutte Verfahren für Systeme von ODEs
6. Interpolation mit Polynomen und Splines
7. Optimierung
8. Quadraturen = Numerische Integration
9. Randwertprobleme und Schwingende Seite
10. Wahrscheinlichkeitstheorie ( in 2015)
–4–
A - 1 Numerik im Überblick – Was ist, was will ’Numerik’
Ausgangsdilemma
Die Modellierung natur- oder sozialwissenschaftlicher Zusammenhänge bzw ’Systeme’
führt zu mathematischen ’Gleichungen’, die nur in ganz einfachen Fällen per Hand oder
sonstwie ’exakt’ gelöst werden können.
Zum Beispiel können schon bei der unbestimmten Integration Maple und Mathematica nur
in speziellen Ausnahmefällen eine Lösung als Formel angeben.
Es lässt sich sogar zeigen, dass eine solche ’symbolische’ Lösung im Regelfall garnicht
existiert.
–5–
Praktischer Ausweg
Die mathematischen Gleichungen werden in Computerprogramme umgesetzt und, wenn es
sich dabei um Differentialgleichungen handelt ’diskretisiert’.
Die resultierenden Systeme linearer oder nichtlinearer algebraischer Gleichungen werden
dann annäherungsweise über dem Raster(=Screen) der Gleitkommazahlen gelöst
Die Ergebnisse werden ausgedruckt oder besser graphisch dargstellt.
–6–
Stufen des ’Wissenschaftlichen Rechnens’
(i) Modellierung
(ii) Diskretisierung
(iii) Dateneingabe
(iv) Lösung
(v) Datenausgabe
( des Anwendungssystems )
( von Differentialgleichungen )
( für aktuelle Situation )
( durch Gleitkomma-Algorithmen )
( in geeigneter Form )
Eventuell können (iii) - (v) auch innerhalb einer Wiederholungsanweisung (Schleife,
Schlaufe) ausgeführt werden (z.B. wenn die Ausgabe zur Echtzeitsteuerung eines System
dient).
Numerische Grundaufgaben und ihre Lösbarkeit
Lineare algebraische Gleichungssysteme
Im Prinzip völlig im Griff. Variablenzahl jeweils durch Speichergröße und
Prozessorzahl und -geschwindigkeit beschränkt.
Nichtlineare algebraische Gleichungssysteme
Lokal, d.h. bei vorhandener guter Anfangsnäherung: wie linearer Fall.
Global: beliebig schwierig und eventuell unlösbar.
Anfangswertaufgaben für ODEs
Im Prinzip völlig im Griff unabhängig von Linearität.
Randwertaufgaben für ODEs
Standarddiskretisierung führt auf lineare bzw nichtlineare algebraische Gleichungen und ist
entsprechend lösbar.
Partielle Differentialgleichungen PDE
Nur im elliptischen Fall schnell lösbar, alles andere ist Forschungsgebiet und stößt jeweils
an die Grenzen vorhandener Rechnerkapazitäten.
–8–
Arten von Gleichungen und Lösern
1. n = 1 linear (trivial)
2. n = 1 nichtlinear
(a) Bisektion
(b) Newton
3. n > 1 linear
(a)
(b)
(c)
(d)
Cramer’s Regel
LU-Faktorisierung
QR-Faktorisierung
Fixpunkt Methoden
4. n > 1 nichtlinear
(a) Fix Punkt Methoden
(b) Newton Methode
Beobachtung
3.d, 4.a und 4.b verlangen Verständnis von
Konvergenz und Vollständigkeit (in Rn )
13
–9–
Vollständige metrische Räume
Lineare Räume
Mathematisch werden die meisten numerischen Berechnungen auf n-Tupeln von reellen
Zahlen beschrieben. Diese bilden den Euklidischen Raum Rn . Praktische Berechnungen
auf digitalen Rechnern erfolgen dann auf Tupeln aus dem sogenannten Gleitkommaraster
G ⊂ R durchgeführt werden, wie im ersten Teil der Vorlesung beschrieben.
Streng genommen gelten dabei nicht die üblichen Körperaxiome, da für x, die kleinste
darstellbare Zahl je nach Rundungsmodus gilt:
(
float (x ∗ x ) =
x
0
I’m Aufrundungsmodus
bei allen andern Modi
Metrische Räume
Häufig werden die Tupel x ∈ Rn auch von vornherein auf eine Teilmenge M ⊂ Rn
eingeschränkt, z.B. indem für bestimmte Komponenten xj negative Werte von vornherein
ausgeschlossen werden können oder müssen. Auch Gn und seine Teilmengen können im
folgenden Sinne als metrische Rähme interpretiert werden.
– 10 –
Eine Menge X heisst
1. metrischer Raum, falls für eine Abstandsfunktion d (x , y ) ∈ R gilt
(i) 0 ≤ d (x , y ) mit d (x , y ) = 0 ⇔ x = y
(ii) d (x , y ) = d (y , x )
(iii) d (x , z ) ≤ d (x , y ) + d (y , z )
Definitheit
Symmetrie
Dreiecksungleichung
2. vollständig, wenn jede Cauchyfolge (x (k ) )k∞=0 ⊂ M
einen Grenzwert x (∗) ∈ X besitzt, d.h.
∀ε > 0 ∃ k0 : d (x (k ) , x (l ) ) ≤ ε für alle k ≥ k0 , l ≥ k0
=⇒
∃x (∗) = lim x (k ) ∈ X
k →∞
⇐⇒ lim d (x
k →∞
(∗)
, x (k ) ) = 0
Unmittelbare Folgerungen
I
Jede Teilmenge eines metrischen Raumes ist metrischer Raum.
I
Jede abgeschlossene Teilmenge eines vollständigen Raumes ist selbst wiederum ein
vollständiger metrischer Raum.
Nebenbemerkung: Theoretisch lassen sich alle metrischen Rähme durch Hinzunahme von
Äquivalenzklassen von Cauchyfolgen als neuen Elementen vervollständigen. Die praktische
Erweiterung ist nicht einfach.
Normierte Räume
Viele metrische Räume entstehen als normierte Vektorräume X bzw deren abgeschlossene
Untermengen. In einem solchen müssen Vektoradditionen und Multiplakationen mit reellen
oder konvexen Skalaren definiert sein. (Siehe lineare Algebra).
Ein linearer Raum heisst normiert
wenn es eine Normfunktion gibt die ähnlich dem Betrag jedem Vektor x ∈ X eine
nichtnegatives Längenmass mass kx k ∈ R zuordnet.
Diese muss die folgenden Eigenschaften haben
(i) 0 ≤ kx k mit kx k = 0 ⇔ x = 0
(ii) kαx k = |α|kx k
for
α∈R
(iii) kx − z k ≤ kx − y k + ky − z k
Definitheit
Symmetrie
Dreiecksungleichung
Wie man aus der Dreiecksungleichung sieht übernimmt die Norm der Vektordifferenz
kx − y k die Rolle des Abstandes d (x , y ) und macht den normierten Raum zu einem
metrischen Raum. Ist dieser vollständig so heisst der Vektorraum ein Banachraum.
Normen in Rn
In den endlich dimensionalen Räumen Rn mit Vektoren
x ≡ (x1 , . . . xn ) arbeitet man vorrallem mit den Normen
kx kp
 n
| xi |

∑
i =n1 2 1/2
=
∑
i = 1 xi


max1≤i ≤n |xi |
wenn p = 1
d.h. Eins-Norm
wenn p = 2
d.h. Euklidische Norm
wenn p = ∞
d.h. Max-Norm
Es lässt sich leicht überprüfen, dass
kx k ∞ ≤ kx k2 ≤ kx k2 ≤ n kx k ∞
Allgemein heissen zwei Normen kx k und |kx k| äquivalent wenn es positive Konstanten c1
und c2 gibt so dass für alle 0 6= x ∈ Rn
0 < c1 ≤ |kx k|/kx k ≤ c2 < ∞
Es lässt sich zeigen, dass in endlich dimensionalen Rähmen alle Normen äquivalent sind.
Das bedeutet dass die Konvergenzeigenschaft x k → x (∗) im Sinne von kx (k ) − x (∗) k → 0
von der Normwahl unabhänging ist.
Vorteile/Nachteile
Die Euklidische Norm ist rotationsinvariant. Die Eins- und Max-Norm sind einfacher zu
berechnen, was vorallem auch für die entsprechenden Matrixnormen gilt, die wir hier nicht
betrachten.
– 13 –
Banachscher Fixpunktsatz
Nun formulieren wir ein sehr weitreichendes und flexibles Werkzeug zum Beweis der
Existenz und Eindeutigkeit von Lösungen verschiedenster Problemstellungen.
Satz 2.1
Falls einen Abbildung G von einem metrischen Raum X in sich selbst kontraktiv ist d.h für
ein festes L < 1 gilt
d (G (x ), G (y )) ≤ L · d (x , y )
für
x, y ∈ X
dann
(i) Existiert genau ein Fixpunkt x (∗) = G (x (∗) )
(ii) Ist x (∗) der Grenzwert aller Folgen
x (k ) = G ( x (k −1) ) = G 2 ( x (k −2) ) = . . . G k ( x 0 )
wobei der Anfangspunkt x (0) ∈ X beliebig ist.
(iii) Gilt an jedem x k die Abschätzung
d (x (k ) , x (∗) ) ≤ d (x (k +1) , x (k ) )/(1 − L)
17
– 14 –
Beweis
Es gilt für beliebiges x (0) ∈ X und alle k wegen der Kontraktivität
d ( x (k +1) , x (k ) )
=
d ( G ( x (k ) ) , G ( x (k −1) )
≤
L d (x (k ) , x (k −1) ) ≤ L2 d (x (k −1) , x (k −2) ) ≤ ....
≤
Lk d ( x ( 1 ) , x ( 0 ) ) = Lk d ( G ( x ( 0 ) ) , x ( 0 ) ) ≡ Lk γ
Daraus folgt für den Abstand zwischen der k-ten und m-ten Iterierten nach der
Dreiecksungleichung
d ( x (m ) , x (k ) )
m −1
≤
∑
j =k
=
Lk
d ( x (j +1) , x (j ) ) ≤
m −1
∑
Lj γ
j =k
Lk
(1 − Lm−k )
≤
1−L
1−L
Damit haben wir gezeigt, dass die x (k ) eine Cauchy Folge sind und damit wegen der
Vollständigkeit einen Grenzwert x (∗) = limk →∞ x (k ) ∈ X hat.
– 15 –
Fortsetzung des Beweises
Um zu zeigen, dass dies x (∗) die Fixpunkteigenschaft x (∗) = G (x (∗) ) hat wählen wir für
beliebiges ε > 0 ein k so dass
max(d (x (k −1) , x (∗) ), d (x (k ) , x (∗) )) < ε/(1 + L)
Daraus folgt
d (G (x (∗) ), x (∗) )
≤
d (G (x (∗) ), G (x (k −1) )) + d (G (x (k −1) ), x (∗) )
≤
L d (x (∗) , x (k −1) ) + d (x (k ) , x (∗) ) ≤ ε
Da ε beliebig war verlangt dies d (G (x (∗) ), x (∗) ) = 0 und somit G (x (∗) ) = x (∗) . Falls x̃ (∗)
ein weiterer Fixpunkt is so folgt
d (x (∗) , x̃ (∗) ) = d (G (x (∗) ), G (x̃ (∗) )) ≤ Ld (x (∗) , x̃ (∗) )
was nur mg̈lich ist wenn d (x (∗) , x̃ (∗) ) = 0 und somit x̃ (∗) = x (∗) . Die letzte Abschätzung
folgt aus der schon bewiesenen Cauchy Eigenschaft
d (x (k ) , x (∗) ) − ε ≤ d (x (m) , x (k ) ) ≤
m −1
∑
j =k
d ( x (j +1) , x (j ) ) ≤
Lk
1−L
– 16 –
B - 2 Lösung (nicht-)linearer Gleichungssysteme
Methoden zur Lösung des linearen Problemes Ax = b
 mit dim(x ) = dim(b ) = n
I
Cramersche Regel xi = det (Ai )/det (A) für i = 1..n
( In Ai wird die i −te Spalte von A durch b ersetzt )
I
Gauß-Elimination ≈ P A = LU Faktorisierung
( P Permutation, L unterhalb und U oberhalb dreiecksförmig )
I
Schmidt-Ortogonalisierung ≈ A = QR Faktorisierung
( Q orthogonal, R oberhalb dreiecksförmig )
I
Fixpunkt Iteration x ← x − M F (x ) mit F (x ) ≡ Ax − b
( M ∈ Rn×n angenäherte Inverse so dass M A ≈ I )
Hinweise:
I
Für (eindeutige) Lösbarkeit ist überall det (A) 6= 0 vorauszusetzen.
I
Löse LUx = b bzw QRx = b durch Substitution/Transponierung.
I
Die letzte Methode lässt sich auch auf nichtlineares F (x ) anwenden.
Cramersche Regel

a11
 .
 .
 .

Ax =  ai1

 ..
 .
an1
...
...

a11
 .
 .
 .
1

det  ai1
=⇒ xj =

det (A)
 ..
 .
an1
a1j
...
aij
..
.
...
...
...
...
a1j −1
.
.
.
aij −1
.
.
.
anj −1

a1n    
x1
b1
. 
.   
.   
 .  . 
ain   .   .  = b
 .  . 
.   
. 
.
xn
bn
ann
b1
.
.
.
bi
.
.
.
bn
a1j +1
.
.
.
aij +1
.
.
.
anj +1
...

a1n
. 
. 
. 

 = Aj



...
ann
Vorsicht! Berechnung von det (A) und det (Aj ) für j = 1, . . . , n recht aufwendig, wenn
n 3. Explizite Auswertung kostet ≥ n ! Operationen.
n! ≥
n n
e
– 18 –
LU Faktorisierung
 1

`
 21

P ·A = 
 `31

 .
 .
.
`n1
...
0
1
`32 1
1
..
`n2
wobei
.
...

...
1

P=
...
...
0
u11
. 
. 
.  0
 .
.
 .
.

.
 .
 .
 .
0
.
1
0

1
...
...
...
...
...
1
...
u12
...
u22
..
.
...
un−1n−1
0
u1n
.
.
.
.
.
.
un−1n
unn











...
...

...
...
eine Permutationsmatrix ist.
23
– 19 –
Pivotierung und Dreieckslösung
Das völlig harmlose lineareSystem
x
α
=
γ
y
β
0
1
1
lässt sich erst faktorisieren wenn man die beiden Zeilen ausgetauscht hat so dass statt der
0 einen 1 in der ersten diagonalen Position steht.
Lösungsmenge beibt völlig unverändert:
Ax = b ⇐⇒ P A x = P b ⇐⇒ L U x = P b
⇐⇒
Ly = P b
und U x = y
|
{z
}
verlangt Lösung von zwei ∆-förmigen Systemen
Lösung von Dreieckssystemen durch Vorwärts- bzw. Rückwärtssubstitution.
Falls A = U ≡ schon oberhalb dreiecksförmig nutze Rückwärtssubstitution:
for k = n · · · 1
if
akk = 0 exit
// Matrix singular
xk = bk /akk


i
= 1···k −1
Aufwand (k − 1) fma

bi = bi − aik · xk
Gesamtaufwand im Sinne von fma = fused multiply add/subtract :
for
1
n −1
k =n
k =0
∑ (k − 1) = ∑ k =
(n − 1)n
2
∼ 21 n2 fmas
Ensprechend Lösung von A x = b wenn A = L unterhalb dreiecksförmig durch
Vorwärtstsubstitution mit genau den gleichen Kosten. Rechenaufwand für jede neue RHS b
ist somit n2 + 0(n) fma. Entspricht damit genau dem Aufwand für
– 20 –
LU Faktorisierung am Platz, d.h. mit Überschreiben
for k = n, . . . , n − 1
if
akk = 0 exit or pivot
r = 1/akk
for i = k + 1, . . . , n
aik ∗ = r
for j = k + 1 · · · n
aij − = aik · akj
Die Endwerte der aij entsprechen für i > j, also unterhalb der Diagonalen, genau `ij = aij
und für i ≤ j also auf und oberhalb der Diagonalen genau uij = aij .
Zustand in der k −ten Stufe:

u11


 `21



 ..
 .


`n1
u12
..
.
u1k
`kk −1
`nk −1
...
u1n
uk −1k
...
akk
ak +1k
ank
akk +1
ak +1k +1





uk −1n 


akn 


ann
Gesamtaufwand:
n −1
∑
k =1
n
∑
i =k +1
n
∑
j =k +1
1=
n −1
n −1
k =1
k =1
∑ (n − k )2 = ∑ k 2 =
Falls A = A> symmetrisch ist, läßt sich der Aufwand auf
1 3
6n
1 3
3n
+ O (n2 )fmas
reduzieren.
– 21 –
Fortsetzung LU Faktorisierung
Frage: Wie kann A−1 berechnet werden?
Antwort: Durch sukzessive Lösung nach der k-ten Spalte A−1 ek = zk ,
wobei ek = (0 . . . 1 . . . 0)> ∈ Rn .
- k-te Position
zk = A−1 ek ⇐⇒ Azk = ek
⇐⇒
 1

`
 21
 .
 .
 .

 .
 .
.
0
..
.
`n1
...
...
...
..
...
.
`nn−1

0 
u11
. 
. 
.
 0

.
.
 ..
.

 .
0
1


|
0
...
..
.
...
unn
.
.
.
...
...
unn

   
0
 zk1

   
   
   = 1
   

 z
0
kn
{z
}
≡ yk hat k führende Nullen.
Vorwärts-Substitution auf Rest kostet 21 (n − k )2
Rückwärtssubstitution kostet 12 n2 .
Gesamtaufwand für Vorwärtssubstitutionen dann ∑n1 12 (n − k )2 = 12 ∑n1 k 2 ≈ 16 n3 für die n
Rückwärtssubstitutionen 21 n3 und für die zu Grunde liegende LU Faktorisierung 13 n3 was
sich genau zu n3 addiert.
– 22 –
Komplexität von Grundaufgaben der NLA (num.LA)
Matrix · Matrix
Inversen
Determinante
A·B
A−1
det (A)
Elementar via LU
n3
n3
1 3
3n
det (LU )
=
Strassen et al.
Cp n P
-
det (L)
det (U )
k
k
1
∏ uii
n
i =1
Beweisbar: Jedes Verfahren zur Berechnung von det (A) ergibt ein Verfahren zur
Berechnung von A−1 , das höchstens 3 mal so viele fmas braucht.
Entsprechend ergibt sich aus jedem Algorithmus zur Bildung von A−1 ein zur Berechnung
von A · B mit bis auf 0(n2 ) fmas identischer Aufwand.
Aktuell minimaler Exponent, so dass
fma(A−1 ) ≤ Cp nP
ist p = 2, 37369 Daniel & Strothers.
Schlechte Nachricht: Cp ist riesig, bislang ist es effektiver, Sparsity und andere strukturelle
Eigenschaften auszunutzen.
25
– 23 –
Einfaches Beispiel für einen metrischen Raum, der nicht linear ist:
X
≡
{(x , y ) ← R 2 : x 2 + y 2 = 1}
≡
{(cos ϕ, sin ϕ) : ϕ ∈ R} ⊆ R2
Rand des Einheitskreises
ist metrischer Raum bzgl. der Metrike:
d ((x , y ), (x 0 , y 0 ))
=
=
p
(x − x 0 )2 + (y − y 0 )2
k(x − x 0 , y − y 0 )k2
Alternative Metrik ist die Bogenlänge
(x 0 y ))
k
(cos ( ϕ0 ), sin( ϕ0 ))
b ((x , y ),
k
(cos ( ϕ), sin( ϕ))
=
| ϕ − ϕ 0 | ∈ [ 0, π ]
Definitheit, Symmetrie und ∆-Ungleichung gegeben.
Frage: Was ist Verhältnis zwischen den Metriken?
Nach elementarer Geometrie gilt
d ((x , y )), (x 0 , y 0 )) ≤ b ((x , y ), (x 0 , y 0 )) ≤ c · d ((x , y )), (x 0 , y 0 ))
wobei c definiert werden kann als
c
=
=
=
b ((x ,y ),(x 0 ,y 0 ))
max d ((x ,y ),(x 0 ,y 0 ))
ψ
max 2·sin(ψ/2)
0< ψ < π
ψ0
sin ψ0
0<ψ0 <π/2
max
=
π
2,
→ 1,
wenn ψ0 = π2
wenn ψ0 → 0
Dazwischen ist der Quotient monoton steigend =⇒ c = π/2 gültig.
– 24 –
Zum Strassen Algorithmus (nicht prüfungsrelevant)
Partitionierung eines Matrix-Matrix Produktes in Hälten ergibt
C=
C11
C21
C12
C22
A11
A21
A11 B11 + A12 B21
A21 B11 + A22 B21
=
=
A12
A22
B11
B21
B12
B22
A11 B12 + A12 B22
A21 B12 + A22 B22
Alternative kann mann zunächst sieben Zwischenprodukte berechnen
M1
M2
M3
M4
M5
M6
M7
=
=
=
=
=
=
=
(A11 + A22 ) ∗ (B11 + B22 )
(A21 + A22 ) ∗ B11
A11 ∗ (B12 − B22 )
A22 ∗ (B21 − B11 )
(A11 + A12 ) ∗ B22
(A21 − A11 ) ∗ (B11 + B12
(A12 − A22 ) ∗ (B21 + B22 )
und daraus durch reine Additionen die vier Teile des Produktes bilden
C11
C21
=
=
M1 + M4 − M5 + M7
M2 + M4
C12
C22
=
=
M3 + M5
M1 − M2 + M3 + M6
– 25 –
Komplexitätsbetrachtung zum naiven Verfahren und Strassen
Ohne Beschränkung der Allgemeinheit können wir annehmen dass
dim (C )
dim (Aij )
=
=
2p +1 = dim (B ) = dim (A)
dim (Bij ) = dim (Cij ) = 2P
Die Komplexität Cp = der naiven Mulitplikation zweier 2p × 2p Matrizen
Cp +1
=
8 · Cp + O (4P ) arithmetische Operationen
≥
8 · 8 · Cp −1 ≥ · · · ≥ 8p +1 · C0 = 8p +1
=⇒
C p ≥ 8p · C 0 = ( 2p ) 3 · C 0 = n 3
CpS
≡
Komplexität per Strassen
CpS+1
=
7CpS + O (4P )
CpS
P
· C0S
n = 2P
log2 n
≈
7
=
2(log2 7·log2 n)
=7
= nlog2 7 = O (n2.81 )
Ende des Einschubes zu Strassen
42
– 26 –
Bestimmung de Kontraktionsfaktors L für BFT
Bemerkung: Typischerweise, aber nicht immer, wird L mit Hilfe der Ableitung von G
abgeschätzt. X muss dafür Teilmenge eines linearen Raumes sein
(sonst gibt es keine Ableitungen).
Betrachte zunächst eindimensionalen Fall
X = [a, b ] ⊂ R und G stetig differenzierbar auf (a, b ) impliziert nach Mittelwertsatz
G (y ) − G (x )
=⇒ |G (y ) − G (x )|
G 0 (z )(y − x ) mit x < z < y
L |y − x | mit L ≡ sup |G 0 (z )|
=
≤
a<z <b
G (y )
G (x )
G (a )
G (b )
(y − x )
a
x
y
b
Beispiel:
G (x )
G (0)
=
1
4
=
1
4,G
+
1
2
X = [ 0,
sin x ,
π
6
=
G
G
π
G [ 0,
d.h. G bildet 0,
Abbildung s. 11
π
2
=
3
4
=
1
2
π
2
]
3 1
2 2
=
3
1
4
+
3
4, 4
2
]
1
2
√
π
π
= 14 (1 +
√
3)
⊂ 0, π2 ,
in sich selbst ab.
L=
sup 12 cos x =
π
1
2
cos(0) =
1
2
0<z < 2
=⇒ G ist auf 0, π2 kontraktiv.
=⇒ Es existiert eindeutiges x∗ = G (x∗ ) =
1
4
+
1
2
sin(x∗ ).
Bemerkung: Im Mehrdimensionalen ergibt sich L aus Jacobimatrix, wenn G differenzierbar.
– 28 –
Linearers mehrdimensionales Beispiel
Falls n > 1 mit G linear, G (x ) = Ax − b : Rn → Rn .
Anwendung von BFT auf diagonal dominantes Gleichungssystem
n
∑ aij xj = bi
für i = 1, . . . , n.
j =1
Definition: System bzw. Matrix heißt diagonal dominant, wenn
|aij | > ∑ |aij | für alle i = 1, . . . , n.
j 6 =i
Idee des Jacobiverfahrens:
Bei gegebener Lösungsannäherung x1 , x2 , . . . , xn löse die i-te Gleichung nach der i-ten
Variable unter Beibehaltung der Komponenten xj für j 6= i. Nenne die neuen Werte xi+ .
+
xi =
n
bi − ∑ aij xj
!
/aii
für i = 1, . . . , n.
j 6 =i
Auf diese Weise eine eindeutige Abbildung x → x + = G (x ) definiert.
Offensichtlich gilt G : Rn → Rn man kann also prinzipiell das BFT mit X = Rn anwenden.
– 29 –
Beweis der Kontraktivität bzgl. k.k∞
y+
+
+
yi − xi
|yi+ − xi+ |
=
=
G
(y ),
=
1
aii
x + =G (x ) =⇒
bi − ∑ aij yj /aii −
j 6 =i
=⇒
≤
≤
bi − ∑ aij xj /aii
j 6 =i
∑ aij (xj − yj )
j 6 =i
1
∑ |aij ||xj − yj |
1
|a | kx − y k ∞
|aii | ∑ ij
|aii |
j 6 =i
j 6 =i
Zusammenfassend ergibt sich für
kG (y ) − G (x )k∞
=
=
=
≤
ky +
− x + k∞ die Abschätzung
ky + − x + k ∞
max |yi+ − xi+ |
1≤i ≤n 1
max
∑ |aij | kx − y k∞
1≤i ≤n |aii | j 6=i
Lky − x k∞ mit L ≡ max |a1 | ∑ |aij | < 1
ii
1≤i ≤n
j 6 =i
Hier ist L kleiner 1, da diagonale Dominanz vorausgesetzt wurde .
Theorem Auf diagonal dominanten linearen Systemen entspricht das Jacobi-Verfahren
einer Kontraktion bzgl. der k.k∞ Norm und konvergiert deshalb nach BFT.
– 30 –
Beispiele
Beispiel: Blatt 1, Aufgabe 1.2
A selbst nur schwach dominant, d.h.
n
|aii | ≥ ∑ |aij |
j 6 =i
Zur Herstellung von starker diagonaler Dominanz addiert man γ > 0 zur Diagonale.
Beispiel: Wärmeleitung im Metallstab
Gleichgewicht, wenn γ = 0, d.h. Stab vollisoliert
Abbildung
y (x , t ) = Temperatur, Raumtemperatur an Stelle x zum Zeitpunkt t.
Entwicklung in der Zeit modelliert durch PDE
δy
δt
(x , t )
=
δ2 y
δx 2
δ2 x
δy 2
>
<
δ2 y
δz 2
(x , t ) − γ(y (x , t ) − ȳ )
0 =⇒^
↑
0 =⇒_
↓
wenn y (x , t ) > ȳ wird Wärme an die Umgebung abgegeben
wenn y (x , t ) < ȳ wird Wärme aus der Umgebung aufgenommen
Für t → ∞ wird die Temperaturverteilung stationär d.h. δδyt (x , t ) = 0 und es gilt die
gewöhnliche Differentialgleichung (ODE)
0=
δ2 y
(x ) − γ(y (x ) − ȳ )
δz 2
– 31 –
Diskretisierung
yi ≈ y (xi , t ), xi = ih für i = 0, . . . , n
y0 ≡ 60◦ , yn = 10◦ = ȳ konstant
yi für i = 0, . . . , n − 1 variabel
δ2 y
δx 2
( xi ) ≈
yi −1 −2yi +yi +1
h2
 1
− h12

 .
 ..


2
h2
−
yi − 1
h2
...
+γ
1
h2
− h12
2
h2
+γ
...
− h12
...
0
diagonal dominant, da
0
2
h2
+γ >
...
2
h2
0


 
60/γ
y0
 10 


 

 . 
 
   = γ  .. 


 
 10 

yn
10/γ
1

= Summe der nichtdiagonalen Beträge
2
y
+ yi 2 + γ − i +21 = γy0
h
h
y0 = 60◦
für i = 1, . . . , n − 1
yn = 10◦
– 32 –
Jacobi-Verfahren in Matrix-Vektor Notation
y k +1
=
=
=
D −1 [b − (A − D )x (k ) ] mit D = diag (A)
D − 1b − D −1 (A − D )x (k )
x (k ) − D −1 (Ax − b )
Verallgemeinerung auf nichtlineare Systeme
F ( x ) = 0,
F (x ) = Ax − b
x (k +1) = x (k ) − D −1 F ( x (k ) ) ≡ G ( x (k ) )
wobei G ∈ Rn×n so gewählt werden sollte, dass G kontraktiv ist. Im linearen Fall gilt für
x , y ∈ Rn
G (x ) − G (y ) = (x − y ) − D −1 (Ax − b − Ay + b )
= [I − D −1 A](x − y )
Kontraktivität einer p-Norm verlangt für R = I − D −1 A
kRz kp = Lkz kp mit L < 1 and z ∈ Rn .
– 33 –
Induzierte Matrixnormen
Definition: Für p ∈ {1, 2, ∞} und R ∈ Rm×n heißt kR kp ≡ max kRz kp /kz kp die
0 6 = z ∈ Rn
p-Norm von R ∈ Rm×n .
Lemma B2: Matrix Norm Eigenschaften
Für beliebiges A ∈ Rm×n
(i)
kAkp =

n


max ∑ kaij |


j

i =1
falls
n
max ∑ kaij |


i j =1


 p
λmax (A> A)
wobei λmax der größte Eigenwert von
A> A
p=1
p=∞
p=2
ist.
(ii) Normeigenschaften sind erfüllt, d.h.
kAkp
kA + B kp
≥
≤
0 mit kAkp = 0 ⇐⇒ A = O ∈ Rm×n
kAkp + kB kp , kαAkp = |α|kAkp
(iii) Matrixnormen sind konsistent, wenn m = n
kA B kp ≤ kAkp kB kp
– 34 –
Induzierte Matrixnormen II
Beweis Lemma B2 (iii):
kA B kp
≡
max
0 6 = z ∈ Rn
kA B z kp
kz kp
kA B z k kB z k
=
max kB z k p kz k p
p
p
≤
max kz̃ k p · max kz k p
p
p
=
kAkp kB kp
kA z̃ k
kB z k
Bemerkung:
Die Matrixräume Rm×n für festes m, n bilden vollständige normierte Räume bzgl. k · kp .
Kostenvergleich:
Während bei Vektoren x ∈ Rn die Normen kx k1 , kx k2 , kx kmax mit im wesentlichen
identischem Aufwand von n + O (1) Operationen und Vergleichen berechnet werden
können, sind bei Matrizen A ∈ Rm×n , kAk1 und kAk∞ viel billiger zu berechnen (mit
Aufwand mn + O (m + n) als kAk2 ). Gilt insbesondere wenn A dünnbesetzt (= sparse) ist,
d.h. die meisten Einträge sind null.
– 35 –
Jacobi-Verfahren in Matrix-Vektor Notation II
=1,...,n
R = I − D −1 A = (rij )ij =
1,...,n
mit
rij =
max ∑
|aij |
0
− a1ii
für
aij
i=j
falls i 6= j
Anwendung von (i) ergibt
kR k ∞
=
=
1≤i ≤n j =i |aii |
max 1
1≤i ≤n |aii |
j 6 =i
∑ |aij |
| {z }
nicht Diagonalen der Zeile
Schlussfolgerung:
A ist genau dann diagonal dominant, wenn kI − D −1 Ak∞ < 1.
– 36 –
Sensitivität
Frage:
Wie stark verändert eine Störung ∆b ∈ Rn der rechten Seite b eines linearen
Gleichungssystems Ax = b dessen Lösung?
Antwort:
Vorausgesetzt det (A) 6= 0 gilt für Lösung A(x + ∆x ) = b + ∆b.
I
Absolute Schranke: k∆x kp ≤ kA−1 kp kAb k
I
Relative Schranke: kx k p ≤ kb k p κp (A), wobei κp (A) = kAkp kA−1 kp
p
p
Beweis:
k ∆b k
k ∆x k
A(x + ∆x )
=
=⇒
=⇒
=⇒
Ax + A∆x = b + ∆b
A∆x = ∆b
∆ x = A−1 ∆ b
k∆x kp ≤ kA−1 kp kAb kp
Division durch kx kp ergibt relative Schranke
k ∆x kp
kx kp
≤
kA−1 kp k ∆b k
kx kp
=
k ∆b kp
kb kp
kA−1 kp kx kpp
=
k ∆b kp
kb kp
k A−1 k p
≤
k ∆b kp
kb kp
· k A−1 k p k A k p
kb k
kAx kp
kx kp
– 37 –
Banach FT und Lipschitz-Stetigkeit der Jacobimatrix bzgl. x1 , . . . , xn
Beispiel gegeben:
G (x , y ) =
1
4 (y
+ 1) arctan x
(x − 12 exp(y − 2)
Mit arctan0 (x ) = (1 + x 2 )−1 folgt
" ∂G
1
∂x
∂G2
∂x
∂G1
∂y
∂G2
∂y
#
"
=
1 (y +1)
4
1+x 2
e y −2
(x
arctan x
4
− 12 )ey −2
#
Lipschitzstetigkeit:
∂Fi (x1 , . . . , xn )
∂Fi (x̃1 , . . . , x̃n ) −
≤ γk(x1 − x̃1 , . . . , xn − x̃n )kp
∂ xj
∂ xj
Für Anwendung des BFT lässt sich L durch Jacobimatrix bestimmen. Aus dem
Mittelwertsatz der Differentialrechnung in mehreren Variablen ergibt sich
kG (y ) − G (x )kp = kG0 (z )(y − x )kp
wobei z = (1 − α)x + αy mit 0 ≤ α ≤ 1.
Also ergibt sich für konvexe Teilmenge X ∈ Rn
L = max
x ∈X 3y
kG (y )−G (x )kp
ky −x kp
≤
=
max
z ∈X
y ,x ∈ X
kG0 (z )(y −x )kp
ky −x kp
max kG 0 (z )kp
z ∈X
n
Erinnerung: Konvex X ⊂ R gdw x , y ∈ X =⇒ (1 − α)x + αy ∈ X für 0 ≤ α ≤ 1.
– 38 –
Banach FT und Lipschitz-Stetigkeit der Jacobimatrix II (Anwendung auf
Beispiel)
Behauptung 1: G bildet das Quadrat
[−1, 1] × [−1, 1] ≡ {(x , y ) : |x | ≤ 1, |y | ≤ 1} ≡ {(x , y ) : k(x , y )k∞ ≤ 1}
in sich selbst ab.
|x | ≤ 1 ≥ |y | =⇒ |x + |
=
|y + |
≤
1
(y + 1) arctan(x ) ≤ 1 |y + 1|| arctan(x )| ≤
4
4
x − 1 | exp(y − 2)| ≤ 3 e−1 = 3 e < 1
2
2
2
1 π
2 2
=
π
4
<1
D.h. auch (x + , y + ) gehört zu [−1, 1] × [−1, 1] = X .
Behauptung 2: G ist kontraktiv.
1. Zeilensumme
2. Zeilensumme
1(y +1)
max
2
|x |≤1≥|y | 4(1+x )
max
|x |≤1≥|y |
∗ =⇒ kG0 (x , y )k∞ ≤ max
x (k +1)
y (k +1)
 = G
x (k )
y (k )
arctan |x |
4
≤
ey −2 |x − 12 | + 1 ≤
1
2(1+x 2 )
5 −1
2e
+
=
π
8
5
2e
=
1
2
+
π
8

<1 

<1
∗


4+π 25
<
8 , e
(0) (0)
Konsequenz

 fürBeispiel:
 Sei (x

+
,y
1 für (x , y ) ∈ X =⇒ L < 1.
) ∈ X beliebig
 konvergiert gegen eindeutigen Fixpunkt x (∗) , y (∗) ∈ X .
– 39 –
Charakterisierung Konvergenzgeschwindigkeiten
Definition: Eine konvergente Folge x (k ) → x (∗) ∈ R heißt
(i) Q-linear konvergent, wenn
Q {x k } ≡ lim sup
kx (k +1) − x (∗) kp
=q<1
k x (k ) − x (1) k p
(ii) quadratisch konvergent, wenn für c ∈ R
kx (k +1) − x (∗) kp ≤ c kx (k ) − x (∗) k2p .
Beobachtung: Wenn x (k ) durch BFT erzeugt, gilt
kG (x (k +1) ) − G (x (∗) )kp
kx (k +1) − x (∗) kp
=
≤L
kx (k ) − x (∗) kp
kx (k ) − x (∗) kp
d.h. wir haben Q-lineare Konvergenz mit q = 0(x (k ) ) ≤ L.
– 40 –
Konvergenzgeschwindigkeiten von FPI
Anwenden vom Logarithmus ergibt
log10 kx (k ) − x (∗) k
≤
=
log10 (Lk kx (0) − x (∗) kp
K log10 L + log10 kx (0) − x (∗) kp
| {z }
<0
Fehler fällt linear mit K , wobei Steigung ≤ log10 L.
In praktischer Berechnung kann abgeschätzt werden
kx (k ) − x (∗) kp
≈
≈
k x (k ) − x (k +1) k p
k log10 L + log10 kx (0) − x kp
Beobachtung quadratischer Konvergenz
log10 kx (k +1) − x (∗) k ≤ log10 c + 2 log10 kx (k ) − x (∗) k
=⇒ log10 kx (k +1) − x (∗) k − log10 kx (k ) − x (∗) k
≤ log10 c + log10 kx (k ) − x (∗) k → −∞
d.h. Steigerung der log10 kx (k +1) − x (∗) kp
∼ log10 kx (k ) − x (k +1) kp geht gegen −∞.
– 41 –
Nichtlineare Systeme
Falls für F : Rn → Rn die n2 Komponenten der Jacobimatrix
F 0 (x ) ≡
∂
F (x ) ≡
∂x
∂Fi
∂ xj
i =1,...,n
j =1,...,n
bezüglich jeder der Variablen x1 , . . . , xn Lipschitz-stetig sind, so lässt sich aus dem
Hauptsatz der Differential- und Integralrechnung herleiten, dass für jeden Schritt s ∈ Rn gilt
F (x + s ) − F (x ) + F 0 (x ) s ≤
γ
ks k2
2
Hierbei ist F 0 (x )s ein Matrix-Vektor Produkt und k · k ist eine Vektor- bzw. Matrixnorm
(siehe Abschnitt B-3) mit
0
F (x ) − F 0 (y ) ≤
γ kx − y k
Fx (s ) ≡ F (x ) + F 0 (x ) s ist als Funktion des variablen Vektors s die Linearisierung (
verallgemeinerte Tangente ) von F an der Stelle x.
– 42 –
Newton’s Methode im Vektorfall
Setzt man die Linearisierung Fx (s ) = F (x ) + F 0 (x )s zu null so erhält man das lineare
Gleichungssystem
As = b mit A = F 0 (x ) und b = −F (x )
Die Lösung lässt sich ausdrücken als
s = A−1 b = − F 0 (x ) −1 F (x )
und heißt Newtonschritt.
Wiederholte Berechnung von s und anschliessende Inkrementierung x ← x + s ergibt
Newton’s Methode
x (k +1) ≡ x (k ) + s (k )
mit F 0 (x (k ) ) s (k ) = −F (x (k ) )
für
k = 0, 1, . . .
Hierbei zählt der hochgestellte Index (k ) die Iterationen.
45
– 43 –
Warnung:
I
Das Verfahren muss abgebrochen werden wenn det (F 0 (x (k ) )) null oder sehr klein ist.
I
Im letzteren Falle werden die Schritte s (k ) typischerweise sehr gross und führen häufig
zu Argumenten x (k +1) wo F garnicht mehr ausgewertet werden kann.
I
Zur Vermeidung dieses Problems wird s (k ) manchmal mit einem Dämpfungsfaktor
α(k ) < 1 multipliziert, der dann Schrittweite genannt wird. Wir iterieren also effektiv
x (k +1) = x (k ) − α (k ) F 0 ( x (k ) ) −1 F ( x (k ) )
Die Bestimmung eines geeigneten α(k ) heißt auch Strahlsuche (engl: Line Search).
Lokale Konvergenz von Newton
Satz B.1 (Satz von Kantorovich)
Sei die Vektorfunktion F : Rn → Rn einmal differenzierbar und besitze ihre Jacobimatrix
F 0 (x ) ∈ Rn×n die Lipschitzkonstante γ.
Weiterhin sei x (0) ein Punkt an dem F 0 (x (0) ) regulär ist und somit eine Inverse F 0 (x (0) )−1
existiert. Mit k · k als induzierte Matrix-Norm folgt dann aus
1
0 (0) −1 2 F ( x ) F ( x (0) ) ≤
2γ
dass Newton’s Methode zu einer Lösung x (∗) mit F (x (∗) ) = 0 konvergiert.
Die Konvergenzgeschwindigkeit ist quadratisch in dem Sinne dass für eine Konstante c und
alle k gilt
2
(k +1)
− x (∗) ≤ c x (k ) − x (∗) x
Bemerkung:
Je nichtlinearer ein Problem umso größer ist γ und desto stärker ist damit die Bedingung an
x (0) . Wird praktisch nie überprüft !!!!
51
– 45 –
Gliederung
1. Numerik im Überblick
2. Gleitkommadarstellung und -arithmetik
3. Lösung (nicht-)linearer Gleichungssysteme
4. Gewöhnliche Differentialgleichungen (=ODE)
5. Euler Verfahren für Systeme von ODEs
6. Interpolation mit Polynomen und Splines
7. Quadraturen = Numerische Integration
8. Randwertprobleme und Schwingende Seite
– 46 –
C - 3 Gewöhnliche Differentialgleichungen (ODE)
(nach Hartmann, Mathematik für Informatiker)
Definition C.2 (Gewöhnliche Differentialgleichungen (ODE))
Eine Gleichung, in der neben der unabhängigen Variablen x und einer gesuchten Funktion
n
y = y (x ) auch deren Ableitungen ddx ny = y (n) (x ) bis zur Ordnung n auftreten, heißt
Gewöhnliche Differentialgleichung n-ter Ordnung (ODE).
Sind ausserdem ein x0 aus dem Definitionsbereich von y (x ) und zugehörige Werte
y (x0 ), y (1) (x0 ), . . . , y (n−1) (x0 ) gegeben, so spricht man von einem Anfangswertproblem.
– 47 –
Interpretation von ODEs (DGLs)
y 0 = F (y , t ) mit y ∈ R ein Zustandsvektor und
F (y , t ) ist RHS (rigth-hand-side), welche angibt,
mit welcher Geschwindigkeit sich der Zustand y zur Zeit t ∈ R
verändert.
Wenn t nicht auftaucht, heißt die ODE autonom.
Häufig wird auch die unabhängige Variable mit
x ∈ R, y 0 = F (y , x ) oder die abhängige Variable x ∈ Rn mit x
bezeichnet. X 0 = F (x , t ).
d
x (t ) wird auch mit ẋ bezeichnet.
Die Ableitung dt
Wenn unabhängige die Zeit t ist, spricht man von einem
dynamischen System.
– 48 –
Beispiel: Fahrt nach Dresden
Angenommen, Sie wollen die 180 km von Berlin nach Dresden mit maximaler
Geschwindigkeit abfahren. An Ort x ∈ [0, 180] besteht zur Zeit
Geschwindigkeitsbegrenzung f (x , t ). Straßenwitterungs- Beleuchtungsbedingungen.
Frage: Wo, d.h. an welchem Ort x (t ) sind Sie zur Zeit t, wobei x (0) = 0.
ẋ (t ) =
d
x ( t ) = f ( x ( t ) , t ) , x ( 0 ) = 0.
dt
Unter bestimmten Voraussetzungen an f existiert genau eine Lösung x (t ).
Angenommen:
f (x , t ) = f (x ) = 130 − 12 x
Berlin: f (0) = 130
Dresden: f (180) = 130 − 90 = 40
x (t )
ẋ (t )
=
=
t
260(1 − e − 2 )
130e
− 2t
Bemerkung: Genau wie bei Integralen lässt sich die Korrektheit einer angeblichen Lösung
leicht durch Probe überprüfen.
Am Beispiel
t
t
ẋ (t ) = 130e − 2
= 130 − 12 260(1 − e− 2 )
|
=
t
6 130− 6 130 + 130e− 2
– 49 –
Beispiel 2: Wasserfluss in flachem Gewässer
Hierbei gibt (u (x , y , t ), v (x , y , t )) die Flussgeschwindigkeit am Ort (x , y ) zur Zeit t an.
ẋ (t )
ẏ (t )
≡
=
x (t )
y (t )
u (x (t ), y (t ), t )
v (x (t ), y (t ), t )
d
dt
mit
x (0)
x
= 0
y (0)
y0
– 50 –
Unbestimmte Integration ≡ Auffinden einer Stammfunktion
Umkehrung der Differentiation,
R d.h. für gegebene f (x ) sucht F (x ), so dass
man schreibt dann F (x ) = f (x )dx.
Wesentliche Eigenschaften:
(i) Wenn F (x ) =
R
d
dx
F (x ) = f (x )
f (x )dx, ist auch F (x ) + c mit c ∈ R eine Stammfunktion
(ii) Linearität
Z
(αf (x ) + β(g (x ))dx = α
(
(iii)
R
(iv)
R
(v)
x ”dx =
x n +1
n +1
log(|x |)
n
n
j =0
j =0
∑ cj x j dx = ∑
cj
(j +1)
falls
falls
Z
f (x )dx + β
Z
(g (x )dx = αF (x ) + βG (x )
n 6 = −1
n = −1
x j +1 für n ∈ N
R
R
R
sin xdx = − cos x , cos x = sin x ,
R x
R
e dx = ex , ecx dx = 1c ecx
1
dx
1+x 2
= arctan(x ),
– 51 –
Fortsetzung
unbestimmte Integration
R
R
(vi)
f 0 (x )g (x )dx = f (x )g (x ) − f (x )g 0 (x )dx
Zerlegung des Integrals, so dass f 0 (x ) leicht integrierbar und g 0 (x ) einfacher als g (x ).
Alternative Schreibweise:
F (x )
G (x )
R
f (x )G (x )dx
=
=
=
R
R f (x )dx
g (x )dx
R
F (x )G (x ) − F (x )g (x )dx
partielle Integrale
Beispiel:
R
xex dx = xex −
R
// \\
G (x )
f (x )
ex ds
=
xex − ex
=
(x − 1)e x
Probe:
x
d
d x
d
(x − 1)e x =
(x e ) =
e = ex + xex − ex = xex
dx
dx
dx
R
(vii) f (g (x ))g 0 (x ) = F (g (x )) wobei Substitution F (y ) = f (y )dy .
Probe:
d
= F 0 (g (x ))g 0 (x )
dy F (g (x ))
= f (g (x ))g 0 (x )
Beispiel:
R
exp(sin x ) cos xdx = exp(sin x )
g (x ) = sin(x ), g 0 (x ) = cos x
fR(y ) = exp(y ), F (y ) = exp(y )
cos x
sin x dx = log(sin x )
R
R
1 · log xdx
=
=
x log x −
log x − x
R
x x1 dx
– 52 –
Zurück zur separablen ODE
Bemerkung: Die meisten Funktionen f (x ) haben keine geschlossene Stammfunktion
R −x 2 /2
e
dz = erf (z ). Das gilt umso mehr für allgemeinen ODEs
F (x ), z.B. √1
2π
Zurück zur separablen ODE
y 0 (x ) = f (x )g (y )
=⇒
y 0 (x )
g (y (x ))
mit g (y ) 6= 0
= f (x ) integrieren auf beiden Seiten bzgl. x verlangt Stammfunktionen
G (y ) =
Z
dy
g (y )
und F (x ) =
Z
f (x )dx
⇓
G (y (x )) = F (x ) + c
=⇒ y (x ) = G−1 (F (x ) + c )
=⇒
d
1
G (y (x )) =
y 0 (x )
dx
g (y (x ))
nach Kettenregel.
65
– 53 –
Beispiel:
y0
yy 0
=
4 sin(2x )
y
y (0)
=
1
=
f (x )g (x )
mit f (x )
=
4 sin(2x ) ⇒ F (x ) = −2 cos(2x )
=
4 sin(2x )
g (y )
=
1
y
=
R
c
ergibt sich aus Anfangsbedingung
G (y )
1 2
2y
=
−2 cos(2x ) + c ,
x =0
=⇒
1 2
2z
=
1
2
5
2
1
1
y
=
= −2 + c =⇒ c =
R
y =
1 2
2y
5
2
− 2 cos(2x )
=⇒ y = y (x ) =
p
5 − 4 cos(2x )
Probe:
y0 =
1
2
√ 8 sin(2x )
5−4 cos(2x )
=
4 sin(2x )
y
=
√ 4 sin(2x )
5−4 cos(2x )
ODE ist erfüllt durch berechnete Lösung.
– 54 –
Zusammenfassung Unbestimmte Integration
Für gegebenes f (x ) auf [a, b ] finde Stammfunktion F (x ) so dass
d
F (x ) = f (x ) ⇐⇒ F (x ) =
dx
Z
f (x )dx + C
Lemma: Für jedes x0 ∈ [a, b ] existiert genau eine Stammfunktion F (x ) so dass F (x0 ) = 0.
Diese wird mit F (x ) =
Rx
f (x̃ )d x̃ bezeichnet. F (x ) gibt die Fläche unter der Kurve an.
x0
Beispiel:
f (x ) = x 2 , a = 0, b = 105 , x0 = 1
Z
x
x̃ 2 d x̃ =
x0
F (1) =
1
3
1
1 3
x + c = (x 3 − 1)
3
3
+ c = 0 =⇒ c = − 13 .
Bemerkung: Fläche
R unterhalb der x-Achse wird negativ berechnet.
Beispiel: F (x ) = sin x = − cos x + c
= 1 − cos x
x0 = 0
F (0) = 0 =⇒ −1 + c = 0
c=1
Rx
sin x̃d x̃ = −1 cos x
0
x = 2π
cos(x ) = 1
=⇒
2
Rπ
sin x̃d x̃ = 0
– 55 –
Weitere Beispiele
R
ex sin x
Probe:
=
=
=
=
d 1 x
dx 2 e (sin x
R
ex sin x − ex cos x R
ex sin x − ex cos x + R ex − sin x
exRsin x − ex cos x − ex + sin x
2 ex sin x = ex (sin x − cos x )
= 12 ex (sin x − cos x )
− cos x )
=
+
=
1 x
2 e (sin x
1 x
2 e (sin x
x
− cos x )
+ cos x )
e sin x
Beispiel:
R
Probe:
sin3 xdx
sin2 x
d 1
dx 3
=
=
=
=
=
=
R
(1 − cos2 x ) sin xdx
2
1
R − cos x 0
f (g (x ))g (x )dt
1
1 3
3
R3 y − y = 3R cos 2(y ) − cos(y )
sin xdx + cos x (− sin x )dx
− cos x + 13 cos3 x + c
cos3 x − cos x
=
=
=
cos2 x (− sin x ) + sin x
sin x (1 − cos2 x )
sin3 x
– 56 –
Lösung des Autofahrtbeispieles mit Ort y und Zeit x
y 0 = 130 −
1
y
2
g (y ) = 130 −
y0
130− 12 y
= 1 G (y )
autonom
1
y , f (x ) = 1
2
1
130− 21 y
=
R
=
=
−2 log(130 − 12 y )
x +c
G −1 anwenden heißt nach y auflösen
y (0)
=
=
=
y (x )
=
y
130 − c exp − 21 x · 2
260 − 2c exp − 12 x
0 =⇒ 260 − 2c exp(0)
= 260
− 2c = 0
260 1 − exp − 12 x
– 57 –
Zweite Klasse von explizit lösbaren Problemen lineare ODEs
Dim=1, Ordnung =1 =⇒ y 0 (x ) + a(x )y (x ) = f (x ), wobei a(x ) eine gegebene
Koeffizientenfunktion ist und f (x ) eine gegebene Quellfunktion.
ODE und ihre Lösungen heißen homogen, wenn f (x ) = 0 und andernfalls inhomogen.
Bemerkung:
(i) Summen und Vielfache homogener Lösungen sind homogen
y 0 (x ) + a (x )y (x )
ỹ 0 (x ) + a(x )ỹ (x )
=⇒ (αy + βỹ )0 = αy 0 + βỹ 0
=
=
0
0 für
α, β, ∈ R
= α(−a(x ))y (x )
+ β(−a(x ))ỹ (x )
= (αy + βỹ )(−a(x ))
(ii) Summe einer inhomogenen und des Vielfachen einer inhomogenen Lösung ist
inhomogen.
(iii) Die Differenz zweier inhomogener Lösungen (mit dem selben f (x )) ist homogene
Lösung.
– 58 –
Zweistufige Lösung
1. Lösen y 0 + ay = 0 ⇐⇒ y 0 (x ) = −a(x )y (x ) separabel
y 0 (x )
= −a(x ) =⇒ log(y (x )) ≡ −A(x ), A(x ) =
y (x )
Z
a(x )dx
=⇒ homogene Lösung y (x ) = c · expR(−A(x ))
= c · e− a(x )dx
c>0
2. Ansatz: Variation der Konstanten
Inhomogene Lösung z (x ) = y (x )c (x )
Einsetzen
0
z+
a (x )z (x )
=
=
=
y 0 (x )c (x ) + y (x )c 0 (x )
a (x )y (x )c (x )
c (x ) (y 0 (x ) + a(x )y (x )) +y (x )c 0 (x )
{z
|
=
}
=0
f (x )
c 0 (x )y (x ) = f (x ) =⇒ c 0 (x ) = f (x ) exp(A(x )) oBdA c = 1
c (x ) =
Z
f (x ) exp(A(x ))dx =
Z
x
f (t ) · exp(A(t ))dt
x0
Inhomogene Lösung:
z (x ) = exp(−A(x ))
Z
x
f (t ) exp(A(t )dt + c
x0
– 59 –
Lineares Beispiel:
y 0 + 4x y =
|{z}
a (x )
x
|{z}
y (0) = 1
f (x )
Homogene Lösung: y 0 + 4xy = 0
2
=⇒ y (x ) = ce−2x
Inhomogene Lösung:
z (x )
=
=
=
z 0 (x )
=
=
hR
i
x
t exp(+2t 2 )dt + c
0 h
i
Rx
+ 14 exp(−2x 2 ) 0 (+4t ) exp(+2t 2 )dt + c
1
2
2
4 exp(−2x ) exp(2x ) + c
1
2
+
c
exp
(−
2x
)
4
1
2
2
exp(−2x 2 )
+ c exp(−2x )
−4xc exp(−2x ) + 4x
| 4
{z
}
4
4x
az
= f (x )
Algorithmus:
R
Stammfunktion A(x ) R= a(x ) finden
Stammfunktion c (x ) [f (x ) exp(A(x ))] finden
Produkt von c (x ) mit homogener Lösung ist inhomogene Lösung.
– 60 –
Beispiel:
y 0 + 4x y =
|{z}
a (x )
x
|{z}
y (0) = 1
f (x )
Homogene Lösung: y 0 + 4xy = 0
2
=⇒ y (x ) = ce−2x
Inhomogene Lösung:
z (x )
=
=
=
z 0 (x )
=
=
hR
i
x
t exp(+2t 2 )dt + c
0 h
i
Rx
+ 14 exp(−2x 2 ) 0 (+4t ) exp(+2t 2 )dt + c
1
2
2
4 exp(−2x ) exp(2x ) + c
1
2
4 + c exp(−2x )
1
2
2
exp(−2x 2 )
+ c exp(−2x )
−4xc exp(−2x ) + 4x
| 4
{z
}
4
4x
az
= f (x )
– 61 –
Separable Differentialgleichungen
Definition C.3 (Separable Differentialgleichung)
Eine Differentialgleichung F (x , y , y 0 ) = 0 erster Ordnung heißt separabel, wenn sie sich in
der Form
y 0 = f (x ) g (y )
darstellen lässt, wobei f : I −→ R, g : J −→ R stetige Funktionen auf den Intervallen
I ⊆ R, J ⊆ R sind.
Satz C.4 (Lösbarkeit: Anfangswertproblem separabler ODE)
Eine separable Differentialgleichung erster Ordnung mit der Anfangsbedingung y (x0 ) = y0
für x0 ∈ I, y0 ∈ J, hat im Intervall J eine eindeutige Lösung y (x ) : I −→ J, falls
g (y ) 6 = 0
∀y ∈ J .
– 62 –
Seien
G (y ) : =
Z
y
y0
1
dy ,
g (y )
F (x ) : =
Z
x
f (x )dx
x0
die Stammfunktionen von g (1y ) bzw. f (x ).
Dabei wurden für Integrationsvariable und Obergrenze der Integration das gleiche Symbol
verwendet.
Auf J ist G 0 (y ) = g (1y ) 6= 0 (Voraussetzung Satz C.4), daher ist G streng monoton und
besitzt eine Umkehrfunktion G −1 .
Dann ist aber
y (x ) := G −1 (F (x ))
die Lösung des Anfangswertproblems y 0 = f (x ) g (y ), y (x0 ) = y0 .
– 63 –
Probe:
G (y (x )) = F (x )
=⇒
G 0 (y (x )) y 0 (x ) = F 0 (x ) = g (y1(x )) y 0 (x ) = f (x )
=⇒
y 0 (x ) = f (x ) g (y (x ))
Anfangswert: y (x0 ) = y0
F (x0 ) = 0
G (y0 ) = 0
=⇒
=⇒
=⇒
y (x0 ) = G −1 (F (x0 )) = G −1 (0)
G − 1 ( 0 ) = y0
G − 1 ( 0 ) = y0 = y ( x0 )
Satz C.5
Das Anfangswertproblem y 0 (x ) = f (x ) g (y ), mit Funktionen f : I −→ R, g : J −→ R, und
dem Anfangswert y (x0 ) = y0 ∈ J, hat die eindeutige Lösung y, die man erhält, wenn man
die folgende Gleichung nach y auflöst:
Z
y
y0
1
dy =
g (y )
Z
x
f (x )dx
x0
– 64 –
Lineare Differentialgleichungen erster Ordnung
Definition C.6 (Lineare Differentialgleichung)
Differentialgleichungen, bei denen die Funktion y = y (x ) und ihre Ableitungen nur in
linearem Zusammenhang auftreten heißen Lineare Differentialgleichungen.
Lineare Differentialgleichungen erster Ordnung haben die Form
y 0 + a (x )y = f (x ).
Ist die Funktion f (x ) ≡ 0 auf der rechten Seite identisch Null, so heißt die Gleichung
homogen, sonst inhomogen.
Die Funktion F (x ) auf der rechten Seite heißt Quellfunktion.
– 65 –
Satz C.7 (Lösung homogener linearer ODE)
Ist a(x ) auf dem Intervall I stetig, so lautet die vollständige Lösung der linearen
Differentialgleichung y 0 + a(x ) y = 0
y ( x ) = c · e −A(x )
wobei c ∈ R und A(x ) eine Stammfunktion von a(x ) ist.
Satz C.8 (Lösung inhomogener linearer ODE)
Die inhomogen lineare Differentialgleichung y 0 + a(x ) y = f (x ), f , a : I −→ R stetig,
x0 ∈ I, besitzt die vollständige Lösung
y =
Z
x
f (t ) eA(t ) dt + c · e −A(x )
x0
wobei c ∈ R und A(x ) eine Stammfunktion von a(x ) ist.
70
– 66 –
Lineare Differentialgleichungen n-ter Ordnung
Definition C.9 (Lineare ODE n-ter Ordnung)
Eine Differentialgleichung der Form
y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = f (x )
heißt lineare Differentialgleichung n-ter Ordnung.
Dabei sind die Funktionen f , ai : I −→ R auf dem Intervall stetig.
Die ai heißen Koeffizientenfunktionen, f heißt Quellfunktion.
Ist f = 0, so heißt die Gleichung homogen, sonst inhomogen.
– 67 –
Satz C.10 (Existenz und Eindeutigkeit der Lösung)
Sei
y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = f (x )
eine lineare Differentialgleichung n-ter Ordnung mit ai , f : I −→ R und x0 ∈ I.
Dann gibt es zu den Anfangswerten
y ( x0 ) = b0 ,
y 0 (x0 ) = b1 ,
...
y ( n − 1 ) ( x0 ) = bn − 1
genau eine Lösung y = y (x ) dieses Anfangswertproblems.
Diese Lösung existiert auf dem ganzen Intervall I.
– 68 –
Satz C.11 (Lösungsstruktur linearer ODE n-ter Ordnung)
Die Menge H der Lösungen y : I −→ R der homogenen linearen Differentialgleichung
y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = 0 mit ai : I −→ R bildet einen reellen
Vektorraum der Dimension n.
Eine Basis des Lösungsraumes H nennt man Fundamentalsystem.
Jede Lösung y der inhomogenen Gleichung
y (n) + a1 (x ) y (n−1) + · · · + an−1 (x ) y 0 + an (x ) y = f (x ) mit f : I −→ R hat die Form
y = ys + yh
wobei xh ∈ H eine Lösung der homogenen und ys eine spezielle Lösung der inhomogenen
Differentialgleichung ist.
– 69 –
Lineare Differentialgleichungen mit konstanten Koeffizienten
Für inhomogene lineare Differentialgleichungen n-ter Ordnung (siehe Definition C.9)
existiert kein allgemeines Lösungsverfahren.
Für den Fall konstanter Koeffizientenfunktionen ai (x ) ∈ R kann jedoch ein
Fundamentalsystem angegeben werden:
Lösung des homogenen Systems
y (n) + a1 y (n−1) + · · · + an−1 y 0 + an y = 0
Lösungsansatz: Exponentialfunktion
y (x ) = e λ x ,
y 0 (x ) = λ e λ x ,
y (x ) = e λ x
und damit
y 00 (x ) = λ2 e λ x , . . . , y (n) (x ) = λn e λ x
Einsetzen in die Differentialgleichung liefert
λ n e λ x + a1 λ n − 1 e λ x + · · · + an − 1 λ e λ x + an e λ x
( λ n + a1 λ n − 1 + · · · + an − 1 λ + an ) e λ x
=
=
0
– 70 –
Definition C.12 (Charakteristisches Polynom)
Das Polynom
p ( λ ) : = λ n + a1 λ n − 1 + · · · + an − 1 λ + an
heißt charakteristisches Polynom der homogenen linearen Differentialgleichung n-ter
Ordnung mit konstanten Koeffizienten
y ( n ) + a1 y ( n − 1 ) + · · · + an − 1 y 0 + an y = 0.
Fortsetzung: Lösung des homogenen Systems
Aus den Nullstellen λi , i = 1 . . . n mit p (λi ) = 0 des charakteristischen Polynoms kann ein
Fundamentalsystem für die homogene Differentialgleichung n-ter Ordnung konstruiert
werden.
Dazu ist eine Fallunterscheidung nach der Vielfachheit der Nullstellen λi nötig:
λ ∈ R ist einfache Nullstelle
Dann ist
eλ x
eine Lösung der Differentialgleichung.
λ = α + i β ∈ C ist einfache komplexe Nullstelle
e α x cos β x
und
e α x sin β x sind Lösungen der Differentialgleichung.
λ ∈ R ist k -fache reelle Nullstelle
x i eλ x ,
i = 0, . . . , k − 1
sind k linear unabhängige Lösungen.
λ = α + i β ∈ C ist k -fache komplexe Nullstelle
x i e α x cos β x ,
x i e α x sin β x ,
i = 0, . . . , k − 1
sind die 2k linear unabhängige Lösungsfunktionen.
– 72 –
C - 4 Euler Verfahren für Systeme von ODEs
Systeme von ODEs und ihre numerische Lösung
In vielen Anwendungen wird der Zustand eines Systems zum Zeitpunkt t durch einen Vektor
x (t ) = [x1 (t ), x2 (t ), . . . , xn (t )]
>
mit n > 0
beschrieben. Die Änderungsgeschwindigkeit ẋ ≡ dx (t )/dt des Zustandes nach der Zeit
ergibt sich häufig als Funktion F (x (t )) mit F : Rn → Rn eben dieses Zustandes. Also
erhalten wir das System gewöhnlicher Differentialgleichungen
ẋ (t ) = F (x (t ))
kurz
ẋ = F (x )
Das System heißt autonom, da die Zeit t auf der rechten Seite nicht explizit, sondern nur
mittelbar über x = x (t ) vorkommt. Dieses ist keine Einschränkung da ein nichtautonomes
System ẋ (t ) = F (t , x (t )) sich autonom umschreiben lässt indem man t als nullte
Zustandskomponente x0 (t ) hinzufügt und somit für x̄ ≡ (x0 , x1 , . . . , xn )T erhält
d
x̄ ≡
dt
ẋ0
ẋ
=
ṫ
ẋ
=
1
F (x̄ )
≡ F (x )
– 73 –
Auch ODEs höhere Ordnungen lassen sich in Systeme von ODEs erster Ordnung
umschreiben, indem man z.B. die erste Ableitung y 0 als neue abhängige Variable v ≡ y 0
definiert und dann y 00 durch v 0 ersetzt. So wird zum Beispiel aus einer nichtautonomen
Differentialgleichung zweiter Ordnung
y 00 = f (t , y , y 0 )
das autonome System erster Ordnung in den drei Variablen y0 ≡ t, y1 ≡ y und y2 ≡ y 0
y00
1

 y0  = 
y2
1
y20
f ( y0 , y1 , y2 )




Entsprechend lassen sich Anfangsbedingungen umschreiben.
Die Umformulierung als System 1.Ordnung eröffnet die Möglichkeit numerische
Standardmethoden und Software für die Lösung autonomer Systeme erster Ordnung mit
Anfangsbedingungen zur Anwendung zu bringen.
– 74 –
Satz C.13 (Existenz und Eindeutigkeit der Lösung)
Sei F : D ⊂ Rn −→ Rn in einem offenem Gebiet D lokal Lipschitz-stetig.
Dann existiert für jeden Punkt yo ∈ D ein Intervall (a, b ) 3 0 und eine eindeutige Lösung
y (t ) ∈ D der ODE ẏ = F (y ) für a < t < b mit y (0) = y0 .
Bemerkung:
(i) Für die Existenz einer Lösung ist die Stetigkeit von F hinreichend. Voraussetzung von
Lipschitz - Stetigkeit ist für die Eindeutigkeit der Lösung und die Konvergenz
numerischer Verfahren erforderlich.
(ii) Das Intervall (a, b ) kann so gross gewählt werden, dass y (b ) den Rand von D
erreicht.
– 75 –
Eulers Methode und andere explizite ODE-Löser
Die meisten ODEs haben keine geschlossen darstellbare Lösung.
Die Lösung kann aber durch numerische Methoden mit (mehr oder weniger) beliebiger
Genauigkeit approximiert werden.
Numerische Approximationen sind auch alles, was zur Berechnung der mathematischen
Standardfunktionen ex , sin x etc. zur Verfügung steht, da diese Funktionen als Lösung von
ODEs definiert sind.
Die einfachste numerische Methode zur Lösung von ODEs ist das Explizite (Vorwärts)
Eulersche Polygonzugverfahren.
– 76 –
Explizite (Vorwärts) Euler-Methode
Sei y (t ) die exakte Lösung von ẏ (t ) = f (t , y (t )) mit y (0) = y0 .
y
y (T )
yn = yt / h
exakter Wert
y (k h)
y (k h) =f (tk,yk)
im k -ten Schritt be- Anstieg der Tangente y (t ) der
rechneter Wert
Lösung y (t ) in tk
yk
y (0) = y0
h
2h
tk =k h
3h
Gesucht wird also yk ≈ y (tk ) für k = 0, . . . ,
T
h
mit tk = k · h:
y k + 1 ≡ y k + h f ( tk , y k )
81
≈ y (tk +1 )
T
t
Beispiel C.14 (Autonome lineare ODE)
ẏ = λy
mit
λ ∈ R und y0 = 1
Anwendung von Eulers Methode:
y1
=
y0 + h λy0
=
( 1 + h λ ) y0
y2
=
y1 + h λy1
=
( 1 + h λ ) y1
yk
=
( 1 + λ h ) k y0
=
(1 + λh )k
yn
=
( 1 + λ h ) n y0
=
(1 + λh ) h
.
.
.
.
.
.
=
( 1 + h λ ) 2 y0
T
Vergleich mit exakter Lösung:
y (t ) = exp(λ t ) ergibt am Endpunkt T
T
y (T ) = e λT ≡ lim (1 + λh) h = lim
h →0
n→∞
1+λ
T
n
n
– 78 –
Erläuterung
Die angenäherte Lösung yT /h konvergiert gegen die exakte Lösung y (T ) der ODE wenn
die Schrittweite h = T /n gegen Null geht. Das bedeutet aber dass die Anzahl der
Eulerschritte und damit der Berechnungsaufwand gegen ∞ gehen.
Frage:
Kann der Approximationsfehler kyT /h − y (T )k als Funktion der Schrittweite h = T /n
dargestellt und somit zur Bestimmung einer vernünftigen Schrittzahl n genutzt werden?
Antwort: JA!
Im vorliegenden speziellen Fall gilt
lim
h →0
yT / h
−1
y (T )
1
= − 12 T λ2
h
und somit erfüllt der Fehler
yT /h − y (T ) = h(− 12 T λ2 ) + O (h2 )
– 79 –
Beweis.
e − λT (1 + λ h )T /h − 1
h →0
h
lim
=
=
lim e −λT
h →0
d T /h ln(1+λh)
dh e
lim e −λT (1 + λh)T λ/λh
h →0
−
T
Tλ
ln(1 + λh) +
h (1 + λh )
h2
=
1
λ
λ
λ2 h
T −−
+
+
h→0 2h
(1 + λh ) (1 + λh ) (1 + λh )2
=
− 21 T λ2
lim
– 80 –
Folgerung C.15 (Approximationsfehler der Euler-Methode)
Für alle Lipschitz-stetigen Probleme (d.h. die rechte Seite F (t , y , ẏ ) der ODE ist
Lipschitz-stetig) liefert das Euler-Verfahren eine numerische Lösung mit
yT / h − y ( T ) = c ( T ) h + O ( h 2 ) .
Deshalb nennt man diese Methode auch
Verfahren erster Ordnung:
Die Verdopplung der Approximationsgenauigkeit durch Halbierung der Schrittweite h
verdoppelt den Berechnungsaufwand.
– 81 –
Frage:
Gibt es Verfahren der Fehlerordnung p so dass
kyn − y (T )k = c (T )hp + O (hp+1 )
gilt und damit die Halbierung der Schrittweite h zu einer Reduktion des Fehlers um den
Faktor ( 12 )p führt ?
Anwort: JA!
p=2
Mittelpunkt - Regel oder Heun’sches Verfahren
p=4
Runge-Kutta 4. Ordnung
p=5
Runge-Kutta-Fehlberg
88
– 82 –
Runge-Kutta Verfahren der Ordnung 2 und 4
Mittelpunkt-Regel
I
t k + 1 / 2 = t k + 0 .5 h k ;
I
yk +1/2 = yk + 0.5 hk f (tk , yk )
tk + 1 = tk + h k
I
yk +1 = yk + hk f (tk +1/2 , yk +1/2 )
Runge-Kutta 4 (Standardwahl)
I
t k + 1 / 2 = t k + 0 .5 h k ;
I
yk +1/4 = yk + 0.5 hk f (tk , yk )
tk + 1 = tk + h k
I
yk +1/2 = yk + 0.5 hk f (tk +1/2 , yk +1/4 )
I
y k + 3 / 4 = y k + h k f ( tk + 1 / 2 , y k + 1 / 2 )
I
yk + 1 =
h
yk + 6k [f (tk , yk ) + 2f (tk +1/2 , yk +1/4 ) + 2f (tk +1/2 , yk +1/2 ) + f (tk +1 , yk +3/4 )]
– 83 –
Visualisierung der Verfahrensordnung
Für einen beliebigen numerischen Integrator folgt aus der vorausgesetzten Beziehung
kyT /h − y (T )k = c (T )hp + O (hp+1 ) ≈ c (T )hp
durch Logarithmierung, dass
− log (kyT /h − y (T )k) ≈ p (− log(h)) − log(c (T ))
Die linke Seite ist ein Maß der korrekt berechneten Dezimalstellen in der Lösung. Sie ist
nun annäherungsweise eine affine Funktion von − log(h) also eine Gerade, deren Steigung
gerade die Ordnung p der Methode ist.
Um die Ordnung eines Verfahrens zu prüfen kann man die Schrittweite zum Beispiel wie
hk = T /2k für k = 1, 2. . . variieren und die entsprechenden Fehler
− log kyT /hk − y (T )k über den Abzissenwerten −log (hk ) = k log(2) − log(T )
auftragen.
– 84 –
Visualisierung der Verfahrensordnung
Euler
Mittelpunkt-Regel
Runge-Kutta 4.Ordnung
30
Euler
Midpoint
RK-4
25
20
15
10
5
0
0
2
4
6
8
10
12
– 85 –
Frage:
Wie kann die Schrittweite in Hinblick auf den geschätzten Fehler gewählt werden?
Antwort:
Durch Vergleich der Ergebnisse für verschiedene Schrittweiten h oder verschiedener
Methoden.
Beispiel C.16 (Mittelpunkt - Regel)
yn
=
y (T ) + c (T ) h 2 + O (h 3 )
y2n
=
y (T ) + c (T ) 14 h2 + O (h3 )
=⇒
yn − y2n
=
c (T ) 34 h2 + O (h3 )
=⇒
c (T )
≈
=⇒
ky2n − y (T )k
≈
4
3
yn − y2n
h2
4
3 ky2n
≡ c̃ (T )
− yn k
ist eine Fehlerabschätzung für die Mittelpunktregel.
– 86 –
Folgerung C.17 (Einfache Schrittweitensteuerung)
Wenn die numerische Lösung mit einer absoluten Genauigkeit von τ > 0 gewünscht wird,
dann wählt man bei der Mittelpunktsregel
h=
q
2
τ/c̃ (T )
Allgemeiner empfiehlt sich für ein Verfahren der Ordnung p
h=
q
p
τ/c̃ (T )
Hierbei ist die Fehlerkonstante c̃ (T ) STARK vom Verfahren abhängig.
Nimmt man dennoch an, dass für Euler, Mittelpunkt und Runge-Kutta 4 die c = c (T )
ähnlich gross sind, so ergeben sich Rechenaufwände von
1 · c /τ,
2·
√
c /τ,
4·
√
4
c /τ
Auswertungen der rechten Seite. Bei größerer geforderter Genauigkeit, also kleinerem τ
sind Verfahren höherer Ordnung zu bevorzugen, vorausgesetzt die rechte Seite der ODE ist
p mal differenzierbar.
– 87 –
Numerische Integration von Systemen
Runge-Kutta Methoden sind direkt auf Systeme
ẏ (t ) = f (y (t )) ∈ Rn
bzw
ẏ (t ) = f (t , y (t )) ∈ Rn
anwendbar. Während die unabhängige Variable t und die entsprechenden Schrittweiten h
Skalare bleiben, sind alle anderen Größen jetzt Vektoren der Länge n.
Die Euler Rekursion
yk +1 = yk + hk F (tk , yk ) ∈ Rn
erfordert also das h-fache des Richtungsvektors F (tk , yk ) ∈ Rn zu dem alten
Zustandsvektor yk zu addieren, um den neuen Zustandsvektor yk +1 ∈ Rn zu erhalten. Es
ist davon auszugehen, dass diese Vektormultiplikation und -addition vom Aufwand her
gegenüber der Auswertung der Rechten Seite F (t , y ) vernachlässigbar ist.
Die Konvergenzordnungen bleiben erhalten, wobei der Abstand zwischen der annähenden
und der genauen Lösung jetzt als eine Vektornnorm kyT /h − y (T )k der Differenz zwischen
yT /h und y (T ) zu bestimmen ist.
– 88 –
Lineares Beispiel für Euler
Das autonome System linearer Differentialgleichungen
ẋ (t )
ẏ (t )
=
−y (t )
x (t )
mit
x (0)
y (0)
=
1
0
hat die analytische Lösung [x (t ), y (t )] = [cos (t ), sin(t )]. Die Anwendung der
Eulermethode mit Schrittweite h ergibt
xn + 1
yn + 1
=ρ
wobei ρ ≡
=
cos(α)
sin(α)
√
xn
yn
+h
− sin(α)
cos(α)
− yn
xn
xn
yn
1 + h2 und α = arcsin(h/
xn − hyn
1 −h
xn
=
=
yn + hxn
h
1
yn
cos(nα) − sin(nα)
x1
n
=ρ
sin(nα)
cos(nα)
y1
p
1 + h2 ) .
91
– 89 –
Langzeitverhalten von ODE – Lösungen
Bemerkung zum Langzeitverhalten
Häufig ist von Interesse (z.B. in der Klimavorhersage), wie sich Lösungen y (t ) der ODE
ẏ = F (y ) für sehr grosse t qualitativ verhalten, und zwar unabhängig vom Anfangswert
y ( t0 ) = y 0 .
D.h. man will wissen, ob das dynamische System sich einschwingt, einen
Gleichgewichtszutand erreicht, zufälliges (d.h. chaotisches) Verhalten o.ä. zeigt.
Im folgenden machen wir Aussagen für autonome Systeme der Zustandsraumdimension n,
die entspechend auch für nichtautonome Systeme der Dimension n − 1 gelten.
– 90 –
(I) Falls n = 1 muss und sonst (n > 1) kann einer der beiden folgenden
Fälle eintreten:
(a) y (t ) strebt einem stationären Grenzwert y∞ = lim y (t ) zu
t →∞
Beispiel: ẏ = λ(y − a),
a ∈ R, λ < 0, y0 beliebig
y
y ( t ) = c e λ t + a, c > 0
y
y ( t ) = c e λ t + a, c < 0
t
– 91 –
(b) y (t ) explodiert (blow up)
für endliche Zeit t ∗ (kritische Zeit)
lim ky (t )k = ∞
t →t ∗
Beispiel: ẏ = y 2
=⇒
AW:
=⇒
=⇒
mit y (0) = y0 > 0
dy
= dt =⇒
y2
−1
>0
y0 =
c
−1
c=
<0
y0
y (t ) =
1
1
y0
Z
1
dy =
y2
Z
dt =⇒ −
1
1
= t + c =⇒ y (t ) = −
y
t +c
y (t ) =
1
y
1
y0
−t
−t
t∗
t
– 92 –
(II) Asymptotisch periodische Lösung
Falls die Zustandsdimension n = 2 ist muss, ansonsten kann y (t ) sich asymptotisch einer
periodischen Lösung y∗ (t ) nähern, für die gilt
y∗ (t + T ) = y∗ (t )
für alle t > 0 und feste Periode T .
Beispiel: siehe obiges Lineares Beispiel für Euler
(III) Chaotisches Verhalten
Falls Dimension n > 2 (einschliesslich n = 2 im nichtautonomen Fall) kann die Lösung y (t )
der ODE sich chaotisch verhalten, d.h. auch nach sehr langer Zeit lässt sich keine
periodische oder stationäre Struktur erkennen.
102
– 93 –
Reelle Polynome vom Grad n
n
P (λ) =
∑ λ i ai ,
ai ∈ R
haben
an = 1
i =0
I
bis zu n reelle Nullstellen λi der Vielfachheit mi ≥ 1 für i = 1, . . . , r
r
I
n − ∑ mi /2 konjugiert komplexe Nullstellenpaare αi ± i β i der Vielfachheit pi .
i =1
Bei ODE’s treten häufig komplexe Nullstellen auf
r
c
⇒ P (λ) = ∏ (λ = λi )mi ∏ (λ − αi − i β i )(λ − αi + β)
{z
}
i =1
i =1 |
D λ2 −2αi +(α2
+ β2i )
i
D=(λ−αi )2 + β2i
Beispiel:
y 00 + 3y 0 + 2y = 0
Ansatz: y (t ) = e λt
λ2 eλt + 3λeλt + 2eλt = 0
⇒ P ( λ ) = λ2 + 3λ + 2
e λt ( λ 2 + 3 λ + 2 ) = 0
Geniale Einsicht:
λ = −1 ⇒ ( λ2 + 3λ + 2) / ( λ + 1)
=
δλ + r = λ + 2
2
⇒ Homogene Lösung c1 e−t
λ +λ
2λ + 2
(λ2 + 3λ + 2) = (λ + 1)(λ + 2)
+ c2 e−2t = y (t )
– 94 –
y 00 + y 0 + 2y = 0
λ2 + λ + 2 = 0
1
7
1 2
= −2 + = −
λ+
2
4
4
q
√
1
1
7
λ = −D 2 ± − 4 = − 2 ± i 47
||√
−1
y (t )
=
=
|y (t )|
=
(− 12 +i
q
7 )t
4
(− 1 −i
q
7 )t
4
+ c2 e q 2
i 7
e 4 = 1
q
h q7
i
1t
i 4t
− 74 t
−
e 2 e
c1 + e
c2
q
q
7t
1
1 i
− 74 t e − 2 t e 4 c1 + e
c2 ≤ e − 2 t (|c1 | + |c2 |)
c1 e
Jedes konjugierte komplexe Paar αi ± i β i erzeugt homogene Lösung
c1 e αi t cos β i t + c2 e −αi t sin β i t
= c eαi t − sin( β i t + δ), c , δ ∈ R
D.h., Realteil αi bestimmt Wachstum oder Abklingen und imaginärer Teil bestimmt
Oszillationsfrequenz.
– 95 –
Spezialfall: Vielfallnullstellen
P (λ) = (λ − λi )mi (. . .) ⇒ e λi t j
j = 0, . . . , mi − 1
für
y 00 + 2y 0 + y = 0
P (λ)
y (t )
y 0 (t )
y 00 (t )
y 00 + 2y 0 + y
=
=
=
=
=
λ2 + 2λ + 1 = (λ + 1)2 , mi = 2, λi = −1
c1 e −t + c2 te −t = (c1 + c2 t )e −t
c2 e − t − ( c1 + c2 t ) e − t = − c1 e − t + c2 e − t ( 1 − t )
−2c2 e−t + c1 e−t + c2 e−t
e −t [−2c2 + c1 − 2c1 + 2c2 (1 − t ) + (c1 + c2 t )]
F Lipschitz nahe y0 → y (t ) = F (y (t )) eindeutige Lösung −τ < t < r .
F stetig nahe y0 → ẏ (t ) = F (y (t )) besitzt mindestens eine Lösung
F (y ) =
√y
0
|y |
√y
y
y
=
q
y0 =
|y |,
0
y
√
y
=
1, G ( y ) =
=
1
, G (y ) =
2 (t
R
|y |
y0 > O :
1
R
√1
y
− c)
dy
2
y
y0 < 0
q
√1
y
1
R
=
=
=
2·y2
dy = + (−y )− 2 dy
R
1
y − 2 dy
=
1
1
2
4 (t − c )
1
− 4 (t − c )2
=
=
1
−2(y ) 2
t −c
– 96 –
Für alle Lösungen ist y 0 ≥ 0, d.h. monoton steigend
y0 > 0
y0 < 0
y0 = 0
=⇒
=⇒
=⇒
y (t ) = 14 (t − c )2
y (t ) = − 14 (t − c )2
y (t ) = 0
Außerhalb der Nulllinie y = 0 ist F (y ) Lipschitzstetig und die Lösung eindeutig. Auf
Nulllinie ist F nicht Lipschitz und es gibt mehrere Lösungen, lokal genau 2.
n−mal
lim
n→∞
}|
z
{
1 1
1
1 n
= lim 1 +
+1 ... 1+
=e
1+
n
n
n
n
D↓
D1
1
h
1 γ
= eγ
δ
Beispiel mit Vergleich der numerischen und der symbolischen Lösung
lim (1 + δγ) γ = lim (1 + δ̂)
δ →0
δ →0
x 00 + 0, 2x + (0, 01 + 4π 2 )x = 0
=⇒ P (λ)
x ( 0 ) = 0, x 0 ( 0 )
=
=
=
⇒
λ2 + 0, 2λ + (0, 01 + 4π 2 ) = 0
(λ + 0, 1 + 2π i )(λ + 0, 1 − 2π i ) = 0
2π
x (t ) = e −0,1t sin(2π t )
x 0 (t ) = [−0, 1 sin(2π t ) + 2π cos(2π t )]
e −0,1t
x 0 (0) = 2π
– 97 –
v = x0
0
x
v0
xk + 1
vk + 1
=
=
v
−0, 2v − (0, 01 + 4π 2 )x
vk
xk
+h
vk
−(0, 2vk + 4π 2 xk )
Nichtlineare Gleichung G (xk +1 ) = xk +1 f (xk +1 ) − xk = 0 muss iterativ gelöst werden.
Konservatives Beispiel
0 x
−y
=
y0
x
Expliziter Euler
x + ∆x
y + ∆y
−hy + x
hx + y
=
=
Impliziter Euler
∆x
∆y
=
hF (x + ∆x , y + ∆y )
−h (y + ∆y )
h (x + ∆x )
1
−h
∆x
=
∆y
=
⇒
h
1
∆x
−hy
=
∆y
hx
1
1+h 2
1
h
−h
1
−hy
hx
– 98 –
Implizite Mittelpunktsregel
xk +1 − xk = hf
1
− h2
h
2
1
1
2
( xk + xk + 1 )
∆x
−hy
=
∆y
xy
– 99 –
Lösung von linearen Systemen mit konstanten Koeffizienten
x0
=
=
Ax + c
A (x + A−1 c )
|
{z
y
mit
wobei
A ∈ Rn × n , c ∈ Rn
det (A) 6= 0
}
=⇒ y 0 = x 0
⇐⇒ y 0 = Ay homogen.
Ansatz y (t ) = e λt v mit λ ∈ R und v ∈ Rn \ {0}.
Differenzieren y 0 (t ) = λ ∈ e λt .
Einsetzen y 0 = λe λt v = Ay = e λt Av ⇒ λv
D.h. v ist Eigenvektor und λ ist Eigenwert
(λI − A)v = 0 mit v 6= 0
⇐⇒
det (λI − A)
=0
|
≡ λ n + cn − 1 λ n − 1 + · · · + c1 λ + c0
{z
}
≡ P (λ)
charakteristisches
Polynom


λ − a11 · · ·
−a11
 .

.
..
.
= det  ..

.
.
−an1
· · · λ − ann
– 100 –
Gliederung
1. Gleitkommadarstellung und -arithmetik
2. Lösung (nicht-)linearer Gleichungssysteme
3. Gewöhnliche Differentialgleichungen (=ODE)
4. Grundlagen der Optimierung
4.1 Ausgleichsprobleme
4.2 Lineare Optimierung
4.3 Nichtlineare Optimierung
– 101 –
Lineare Ausgleichsprobleme
Wir betrachten zunächst ein System
A x = b,
A ∈ Rm × n , b ∈ Rm
von m linearen Gleichungen in n ≤ m Variablen. Wenn m > n nennt man das System
überbestimmt, da es weniger freie Variablen xi für i = 1 . . . n gibt als Bedingungen, die an
sie gestellt werden. Wenn m = n spricht man vom wohlbestimmten oder quadratischen
Fall. Diese Unterscheidung macht eigentlich nur dann Sinn, wenn man folgende Annahme
macht.
Vollrang-Voraussetzung
Die Matrix A ∈ Rm×n hat vollen Spaltenrang n = min(n, m ), d.h. sie erfüllt die äquivalenten
Bedingungen, dass ihre n Spalten linear unabhängig sind und man m − n Zeilen entfernen
kann, so dass die verbleibende quadratische Matrix eine nichtverschwindende
Determinante hat.
– 102 –
Fehlerminimierung
Beobachtung
Im Falle m > n = rang (A) ist für fast alle rechten Seiten b ∈ Rm das System von
Gleichungen Ax = b nicht exakt erfüllbar.
Konsequenz
Man versucht deshalb x so zu wählen, dass alle Komponenten des Fehlervektors
F ≡ A x − b = (Fi )i =1...m
so klein wie möglich sind, d.h. man versucht einen Ausgleich zwischen den m eigentlich
als Gleichungen gedachten Bedingungen zu schaffen.
– 103 –
Normwahl
Zur Messung der Größe von F wählt man häufig eine der Vektornormen aus Abschnitt B.3
kF kp = kAx − b kp mit p ∈ {1, 2, ∞}
Hier bedeutet kF k1 die Summe der Komponentenbeträge |Fi | und kF k∞ ihr Maximum. Die
Minimierung dieser beiden Normen führt auf lineare Optimierungsaufgaben mit
Ungleichungsnebenbedingungen.
Diese werden später betrachtet und sind im allgemeinen schwerer zu lösen als das
Gaußsche Problem der kleinsten Quadrate (engl.: least squares), das sich ergibt, wenn
man die Euklidische Norm kF k2 minimiert.
– 104 –
Methode der kleinsten Quadrate
Satz E.18 (Kleinste - Quadrate - Lösung)
Für jedes lineare Gleichungssystem Ax = b mit A ∈ Rm×n , b ∈ Rm und rang (A) = n
existiert ein eindeutiger Vektor x∗ ∈ Rn , so dass
kAx∗ − b k2 = minn kAx − b k2
x ∈R
Diese Ausgleichslösung erfüllt das quadratische, reguläre Gleichungssystem
A > A x ∗ = A > b ∈ Rn ,
welches als Normalengleichungssystem bezeichnet wird.
Bemerkung
Wenn die Vollrangvoraussetzung verletzt ist, existiert eine unendliche Menge von Vektoren,
die sowohl das Minimerungsproblem lösen als auch die entsprechende Normalengleichung
erfüllen.
109
– 105 –
Allgemeine lineare Funktionenapproximation
Betrachte ein System von n vorgegebenen Ansatzfunktionen
uj (t ) : [a, b ] → R für
j = 1...n
mit dem gemeinsamen Definitionsbereich [a, b ].
Weiterhin betrachte m ≥ n unterschiedliche Stützstellen ti ∈ [a, b ] und entsprechende
Daten bi ∈ R für i = 1, . . . , m.
Gesucht sind nun n Koeffizienten xj , so dass die Linearkombination
n
u (t ) ≡
∑ xj uj (t )
j =1
die sog. mittlere Abweichung ∆2 möglichst klein werden lässt:
"
∆2 ≡
m
∑ (u (ti ) − bi )2
#1
2
.
i =1
– 106 –
Lösung der Gaußschen Ausgleichsaufgabe
Aus den Vektoren
aj = (uj (t1 ), uj (t2 ), . . . , uj (tm ))>
bilden wir die Matrix A = [a1 , . . . , an ] und mit
b = (b1 , b2 , . . . , bm )>
und
x = (x1 , x2 , . . . , xn )>
ist zur Lösung der Ausgleichsaufgabe das Funktional
kF (x )k2 = kAx − b k2
zu minimieren.
Das heißt aber nichts anderes, als eine Lösung x∗ des (überbestimmten)
Gleichungssystems Ax = b mit kleinsten Fehlerquadraten zu finden.
– 107 –
Gaußsche Ausgleichspolynome
Spezialfall: Gaußsche Ausgleichspolynome
Wählt man als Ansatzfunktionen uj (t ) = t j −1 , so ergibt sich das Polynom
n
u (t ) =
∑ xj t j − 1
j =1
Die Vollrangbedingung rang (A) = n ist für paarweise verschiedene Stützstellen tj erfüllt, da
die ersten n Zeilen von A die folgende Vandermondsche Determinante haben:
1
1

det  .
 ..
1

t1
t2
.
.
.
tn
...
...
...
t1n−1
n k −1
t2n−1 

.  = ∏ ∏ (tk − tj ) 6= 0.
.  k =2 j =1
.
tnn−1

– 108 –
Zur Berechnung der Lösung mit kleinsten Fehler-Quadraten muß die Normalgleichung
A> A x = A> b gelöst werden.
Lemma E.19
Die Normalenmatrix A> A ∈ Rn×n ist symmetrisch und positiv semi-definit.
Unter der Vollrangvoraussetzung ist A> A sogar positiv definit.
Bemerkung:
Wegen der positiven Definitheit der Matrix A> A kann man das Normal- gleichungssystem
mit dem sogenannten Cholesky - Verfahren lösen.
Dieses ist eine pivotierungsfreie Version des Gaußschen Verfahrens, das die Symmetrie
der Matrix ausnutzt und dadurch den Berechnungsaufwand halbiert auf n3 /6
Multiplikationen gefolgt von Additionen/Subtraktionen.
Allerdings kostet die Berechnung von A>A aus A bereits m n2 Operationen, was durch die
QR Zerlegung vermieden werden kann.
112
– 109 –
Bemerkung
Wesentlich für die Anwendbarkeit der linearen Gaußschen Ausgleichsrechnung ist, daß für
die zu bestimmenden Größen eine lineare Beziehung gegeben ist, z. B. u (t ) = α + βt.
Ist die gegebene Beziehung (etwa aus physikalischen Gründen) nichtlinear, so kann man
versuchen, aus ihr eine lineare Beziehung für unter Umständen andere Größen zu
gewinnen, aus denen sich dann nachträglich die eigentlich gesuchten Größen bestimmen
lassen.
Beispiel E.20
u (t ) =
α
1 + tβ
=⇒
1
α
+
β
1
t=
= ũ = α̃ + β̃t
α
u (t )
– 110 –
Chebyshev Approximation
Speziell bei der Annäherung von Datenpunkten (ti , bi ) durch eine Kurve u (t ) will man
häufig den maximalen Abstand
ζ = max |u (ti ) − bi | = kAx − b k∞
1≤i ≤m
bezüglich der Koeffizienten xj minimieren. Diese Aufgabe kann man als lineares
Optimierungsaufgabe formulieren, nämtlich
min ζ
s .d .
− ζ e ≤ Ax − b ≤ ζ e
wobei e = (1, 1, . . . , 1) der Vektor der Einsen ist.
Hier haben wir nun die n + 1 Variablen (x , ζ ) und 2 m Ungleichungsrestriktionen.
Diese Aufgabe lässt sich mit dem unten beschriebenen Simplexverfahren lösen.
l − 1 Approximation
Die Quadratsumme kAx − b k2 und auch die `1 Norm wird stark von grossen Komponenten
in b, sogenannten Ausreissern bestimmt. Diese können durch exzessive Messfehler oder
sogar Ablese- und Übertragungsfehler entstehen. Um die optimale Lösung von Ausreissern
weniger abhängig zu machen eignet sich die Minimierung der Fehler summen, d.h.
min ζ =
∑
|u (ti ) − bi | = kAx − b k1
1≤i ≤n
Auch diese Aufgabe lässt sich als Lineare Optimierungsproblemm umschreiben nämtlich
min
∑
zi
s .d .
−z ≤ Ax −b ≤ z
1≤i ≤n
Hier haben wir die n + m Variablen (x , z ) und wiederum 2 m Ungleichungsrestriktionen.
117
– 112 –
Lineare Optimierung
Beispiel E.21 (Barkeeper)
Cocktails:
I
Daiquiri (45 ml weißer Rum, 30 ml Cointreau, 30 ml Zitronensaft, 15 ml Zuckersirup,
Eis), 5.50 Euro
I
Kamikaze (30 ml Wodka, 30 ml Cointreau, 30 ml Zitronensaft, 1 Schuß Limonensirup,
Eis), 4.50 Euro
I
Long Island Ice Tea (20 ml Wodka, 20 ml weißer Rum, 20 ml Gin, 20 ml Cointreau,
4 TL Zitronensaft, 4 TL Orangensaft, 1/8 l Cola, 1 Orangenscheibe, Eis), 7.00 Euro
Vorhandene Spirituosen: 5 l weißer Rum, 6 l Cointreau, 4 l Wodka und 3 l Gin
Welche Cocktails muß der Barkeeper mixen, um möglichst viel Geld einzunehmen?
– 113 –
Variablen:
x1 : Anzahl Daiquiris
x2 : Anzahl Kamikazes
x3 : Anzahl Long Island Ice Teas
Zielfunktion: Maximiere die Einnahmen:
max 5.50x1 + 4.50x2 + 7.00x3
Nebenbedingungen:
Weißer Rum:
Cointreau:
Gin:
Wodka:
45x1
30x1
+
30x2
+
+
30x2
+
20x3
20x3
20x3
20x3
≤
≤
≤
≤
5000
6000
3000
4000
– 114 –
Optimierungsproblem:
>

5.50
max  4.50  x
7.00

45
 30


30

30


20
5000


20 
 x ≤  6000 
 3000 
20 
20
4000
Schreibweise: ≤ bei Vektoren u , v ∈ Rn
u ≤ v :⇐⇒ ∀i = 1, . . . , n : ui ≤ vi
(≥, <, > analog)
– 115 –
Lösung mit MATLAB:
>> A = [ [ 45, 0, 20 ]; [30, 30, 20 ]; [ 0, 0, 20 ]; [ 0, 30, 20 ] ]
A =
45
30
0
0
0
30
0
30
20
20
20
20
>> b = [ 5000, 6000, 3000, 4000 ]
b =
5000
6000
3000
4000
>> c = [- 5.5, -4.5, -7 ]
c =
-5.5000
-4.5000
-7.0000
>> x = linprog( c, A, b )
Optimization terminated.
x =
44.4444
33.3333
150.0000
– 116 –
Lineare Optimierungsprobleme
Definition E.22
Optimierungsprobleme mit linearer Zielfunktion und linearen (Gleichungs- und
Ungleichungs-) Nebenbedingungen nennt man Lineare Optimierungsprobleme,
Lineare Programme, LPs.
Allgemeine Form eines linearen Programmes (LP)
I
max c >x − d >y + α,
Zielfunktional(
I
Ax + By = a ∈ Rmg
Gleichheitsrestriktionen
I
Cx + Dy ≤ b ∈ Rmn
Ungleichheitsrestriktionen
I
x ≥ 0 ∈ Rn x
Vorzeichenbeschränkung
Formatbeschränkungen:
y ∈ Rn−nx
I
( x , y ) ∈ Rn ,
I
c ∈ Rnx ,
I
A ∈ Rmg ×nx , B ∈ Rmg ×(n−nx )
119
d ∈ Rn − n x
ObdA
α = 0)
Die folgenden Umformulierungen sind nützlich
a Vorzeichenwechsel
min c >x + d >y ⇔ max(−c )>x + (−d )>y
Cx + Dy ≥ b ⇔ (−C )x + (−D )y ≤ −b
x ≤ 0 ⇔ (−x ) ≤ 0
Also lässt sich jedes LP in obiger “allgemeiner” Form schreiben.
b Gleichung ↔ Ungleichungen
A=a
⇔
Ax ≥ a
Ax ≤ a
⇔
A
−A
·x =
a
−a
Warnung: Nicht immer eine gute Idee weil die neue kombinierte Restriktionsmatrix in
höchsten Grade singulär, d.h. rangdefizient ist !!! Normalerweise solten Gleichungen
direkt behandelt werden.
c Ungleichungen ←→ Gleichungen + Vorzeichenbeschränkung
A x ≤ b ⇔ A x + s = b, s ≥ 0
Wobei die Komponenten von s Schlupfvariablen(Engl. = slack variables) heissen.
d Zerlegung von x ∈ Rn in vorzeichenbeschränkte Komponenten
x = y −z
mit y = (x )+
und z = (−x )+
wobei
(x+ ) = (max(0, xi ))i =1...n
– 118 –
Übliches Standardformate
Definition E.23
Durch A ∈ Rm×n , b ∈ Rm , c ∈ Rn sind das sogenannte primale und duale Problem
definiert durch
I
(P) maxx f (x ) = c >x s.d. Ax ≤ b; x , c ∈ Rn
I
(D) minu g (u ) = b >u s.d. A>u = c , 0 ≤ u ∈ Rm
während u ∈ Rm vorzeichenbeschränkt ist x ∈ Rn aber nicht.
Lemma E.24 (Schwache Dualität)
Falls x und u zulässig sind, d.h. A x ≤ b, A>u = c , u ≥ 0 dann gilt
f (x ) = c >x
≤
b >u = g (u )
Beweis.
c >x = (A>u )>x = u >A x ≤ u >b = b >u = g (u )
Interpretation: Jeder zulässige Punkt x oder u von P bzw D liefert die Schranke f (x ) bzw
g (u ) für das jeweils andere Problem. Später: Starke Dualität, d.h. optimale Werte stimmen
überein.
131
– 119 –
Geometrische Darstellung des Problems P.
Jede Zeile von Ax ≤ b verlangt eine Restriktion der Form
a>x ≤ β
mit
a ∈ Rn, β ∈ R
Diese Ungleichung beschreibt einen durch die Hyperebene
a>x = β berandeten Halbraum.
Der Schnitt der m Restriktionen ai>x ≤ bi definiert ein sogenanntes
Polyhedron oder Polyeder.
Falls Problem (P) gut gestellt ist, können wir erwarten, dass
P (A, b ) beschränkt ist und ein nichtleeres Inneres besitzt.
Man nennt es dann auch Polytop der Dimension n.
– 120 –
Sonderfälle
P (A, b ) unbeschränkt , e.g. mit n = 1 = m
Max f (x ) ≡ 3 x s.d. − x ≤ 0
keine optimale Lösung da f (x ) → ∞ wenn x → ∞.
P (A, b ) = ∅ d.h. Problem ist unzulässig e.g. mit
( n = 1, m = 2
x ≤ −1
⇔ x ≤ −1
1
−1
A=
,b =
=⇒
−1
−1
−x ≤ −1 ⇔ x ≥ 1
Unzulässigkeit tritt z.B. bei Eingabefehlern auf.
P (A, b ) degeneriert d.h. hat leeres Inneres e.g. mit n = 1 = m
x ≤ 0, −x ≤ 0 ⇔ x = 0 =⇒ P (A, b ) = {0}
Eigenschaften der zulässigen Menge
Satz E.25 (Konvexität derzulässigen Menge)
(i) P (A, b ) ist immer konvex d.h. falls r Punkte x (i ) ∈ P (A, b ) für i = 1 . . . r dann gehört
auch jede beliebige Konvexkombination
n
n
x =
∑ wi x ( i )
i =1
mit
wi ≥ 0,
∑ wi = 1
i =1
zu P (A, b )
(ii) Wenn P beschränkt ist, dann gilt maxx ∈P (A,b ) f (x ) = f (x ∗ ) für mindestens einen
Punkt x ∗ der eine Ecke ist in dem Sinne, dass x ∗ = (1 − α)x + αy nur möglich ist
wenn α = 0 und somit x ∗ = x oder α = 1 und somit x ∗ = y
– 122 –
Beweis.
Aus A x (i ) ≤ b, i = 1 . . . r folgt
r
r
i =1
i =1
A x = A ( ∑ wi x ( i ) ) ≤ ( ∑ wi ) b = 1 · b = b
Da P (A, b ) nach Vorraussetzung beschränkt ist lässt sich jeder Punkt x ∈ P (A, b ) als
Konvexkombination von Ecken x (i ) , i = 1 . . . n darstellen
Also gilt für Funktionswert:
f (x ) = c >x =
und somit
r
r
r
i =1
i =1
i =1
∑ c >wi x (i ) = ∑ wi c >x (i ) = ∑ wi x (i )
r
f (x ) ≤
∑ wi max1≤i ≤r f (x (i ) ) = max1≤i ≤r f (x (i ) )
i =1
Also gilt schließlich maxx ∈P (A,b ) f (x ) = maxEcken x ∗ f (x ∗ )
– 123 –
Konsequenz
Man braucht den Maximalpunkt von f (x ) = c >x “nur” unter den endlich vielen Ecken von
P (A, b ) zu suchen. Frage ist, wie viele gibt es und wie kann man sie berechnen?
Antwort 0 Die Zahl der Ecken ist typischerweise exponentiell in min(m, n) z.b. der Würfel
−1 ≤ xi ≤ 1, i = 1 . . . n entspricht m = 2 n Ungleichungen und hat 2n Ecken.
Diese können/sollten nicht alle durchsucht werden.
Beispiel

−1
 0
A=
 1
1

 
0
0
0
−1
 , b =   , c = 5 ⇒ x ∈ R2 , y ∈ R4
3
1 
8
2
4

i




i
A = . . . = . . . ⇒ ai>x ≤ b

i
>
>

am
a4


i

a1>


a1>

=1
=2
=3
=4
x1 ≤ 0 ⇒ x1 ≥ 0,
x2 ≥ 0
x1 + x2 ≤ 3
x1 + 2x2 ≤ 4
f (x ) = c >x = 2 ⇔ 5x1 + 8x2 = 4
Charakterisierung von Ecken
Satz E.26
Ein Punkt x ∈ P (A, b ) ist genau dann eine Ecke, wenn es eine n-elementige Indexmenge
B ⊂ {1, 2, . . . m } gibt, sodass die quadratische Untermatrix AB = {ai>}i ∈B ∈ Rn×n nicht
singulär ist und AB x = bB .
– 125 –
Beweis für die charakterisierung der Ecken
⇐ Rückrichtung
Angenommen x = (1 − α)y + αz mit 0 ≤ α ≤ 1, x , z ∈ P (A, b ). Dann folgt
AB x = bB = AB [(1 − α)y + αz ] = (1 − α)AB y + αAB z ≤ (1 − α)bB + αbB = bB
Also gilt Beziehung als Gleichungung sodass AB x = AB y = AB z = bB . Daraus folgt
y = z = x wegen Nichtsingularität von AB und somit ist x Ecke wie behauptet.
⇒ Hinrichtung
Angenommen x ∈ P (A, b ) erfüllt genau m̃ der m Ungleichungen, o.B.d.A. die ersten m̃ als
Gleichungen
A=
A1
A2
mit A1 ∈ R m̃×m , A2 ∈ R(m−m̃)×n , b =
b1
b2
, b1 ∈ Rm̃
A1 x = b1 , A2 x < b2 in jeder Komponente
falls m̃ < n oder m̃ ≥ n und A1 singulär so gibt es einen Nullvektor v ∈ Rn mit A1 v = 0
Dann erfüllen für hinreichend kleines ε sowohl y = x + εv wie z = x − εv die Bedingungen:
A1 y = A1 x + εA1 v = A1 x = b2
A1 z = A1 x − εA1 v = A1 x = b2
und
A2 y = A2 x + εA2 v ≤ b2
A1 z = A1 x − εA2 v ≤ b2
wenn ε klein genug.
– 126 –
Darstellung des Simplexverfahren in (Teil-)schritten
1. Beginne mit zulässiger Ecke x = AB−1 bB (kann in Phase I berechnet werden)
2. Berechne den reduzierten Kostenvektor
u > = c >AB−1 ⇔ u >AB = c > ⇔ A>B u = c
3. Teste ob u ≥ 0 Falls ja gilt für beliebige x̃ ∈ P (A, x )
c >x̃ = u >AB x̃ ≤ u >AB x = c >x
D.h. c >x̃ ≤ c >x für alle zulässigen x̃, sodass x bereits optimale Ecke ist ⇒ Abbruch 0
4. Wähle Index j mit uj < 0 und berechne mit Cartesischen Basisvektor
d = −AB−1 ej , ej = (0 . . . 0, 1, 0 . . . 0)
sodass c >d = −c >AB−1 ej = −u >ej = −uj > 0
5. Untersuche den Strahl x (λ) = x + λd ∈ Rn
6. Teste auf Unbeschränktheit: Wenn ai>d ≤ 0 für alle i ∈
/ B gilt x (λ) ∈ P (A, b ) für alle
λ ≥ 0 sodass c >x − uj λ > c >x unbeschränkt wächst für λ → ∞ ⇒ Abbruch 1
7. Berechne maximale Schrittweite
λ = min
bi − ai>x
ai>d
!
:i∈
/ B ∧ ai>d > 0
und wähle Index k ∈
/ B für das Minimum gilt d.h. λak>d = bk − ak>x
8. Gehe zu neuer Ecke
x + = x + λd = AB−+1 b
wobei B+ aus B erhalten wird indem man den j-ten Index in B durch den Index k
ersetzt.
9. Gehe zu Teilschritt 3 und wiederhole Iteration
– 127 –
Eigenschaften des (primalen) Simplexverfahren
Abbruch: Falls nicht Abbruch 0 oder Abbruch 1 erreicht wird, muss der Algorithmus
eines Zyklus von Ecken durchlaufen(davon gibt es nur endlich viele).
Dabei müssen alle λ null sein, da sonst f (x ) echt erhöht wird, was nur
endlich oft vorkommen kann. Diese Zyklen kann durch geeignete Wahl
der jeweiligen Indizes j und k vermieden werden. (Nichttriviale Aufgabe)
Dualität: Bei Abbruch0 kann man den Vektor 0 ≤ u ∈ Rn durch Nullen für
Komponenten i ∈
/ B zu einem Vektor y ∈ Rm erweitern, sodass
A>y =
m
∑ ai yi = ∑ ai ui = A>B u = c
i =1
i ∈B
Dieses y ist eine Lösung des dualen Problemes (D)
Satz E.27 (Starke Dualität)
Wenn das primale und duale Problem zulässig sind, existiert ein Lösungspaar x , y sodass
c >x = b >y , d.h. optimalen Werte sind identisch
– 128 –
Phase I
Frage: Wie kann man einen ersten zulässigen Punkt x ∈ P (A, b ) : {x ∈ Rn , Ax ≤ b }
berechnen, bzw entscheiden dass P (A, b ) leer ist, d.h. keine zulässigen Punkte existieren.
Antwort: Simplex Phase 1:
min γ s.d Ax ≤ γe + b,
⇔ min γ
s.d.
mit e = (1, . . . 1)>
[A, −e ]
x
≤b
γ
Ist in primaler Standartform. Zulässiger Anfangspunkt ist
x = 0 und γ = max (−bi ) ⇒ 0 ≤ γe + b
1≤i ≤m
Ursprüngliches Problem ist genau dann zulässig wenn γ nach unten unbeschränkt und der
optimale Wert nicht positiv ist.
– 129 –
Nichtlineare Optimierung
Beispiel E.28 (Huber-Schätzer)
Betrachte überbestimmtes System
Ax ≈ b, x ∈ Rn , A ∈ Rm×n , b ∈ Rm , m >> n.
Kleinste Quadrate Ansatz:
min f (x ) =
1
1 m
kAx − b k2 = ∑ (ai>x − bi )2
2
2 i =1
wobei ai> = ei>A Die optimale Lösung von minkAx − b k2 ist stark von
Ausreißern abhängig. Deshalb benutzt man einen Kompromiss mit der `1
Norm, nämlich
m
min f (x ) =
∑ φk (ai>x − bi )
i =1
mit
1
φk (z ) =
2
falls |z | ≤ k
|z |k − 12 k 2 falls|z | ≥ k
2z
Ergebnis: φk (z ) und entsprechend f (x ) sind überall einmal stetig diffbar,
aber an der Stelle |z | = k springt die zweite Ableitung von 1 auf 0.
– 130 –
Allgemeine Vorraussetzung für die unrestringierte Optimierung
f : Rn 7→ R ist p ≥ 1 mal stetig diffbar ⇔ f ∈ C p (Rn )
Definition E.29
Ein Punkt x ∈ Rn heißt lokales Minimum von f (x ) wenn es einen Radius ρ > 0 gibt, sodass
f (x ) ≥ f (x∗ ) für alle x ∈ Bρ (x∗ ) = {x ∈ Rn : kx − x∗ k < ρ}
Falls die Ungleichung für alle x ∈ Rn gilt, heißt x∗ globales Minimum.
Lemma E.30 ( Optimalitätsbedingungen 1. Ordnung)
Ein Punkt x∗ ∈ Rn kann nur dann ein lokales Minimum sein wenn
∇f (x∗ ) =
∂
∂
f (x ) . . .
f (x )
∂ x1
∂ xn
=0
x =x∗
Man nennt x∗ dann einen stationären Punkt von f .
133
– 131 –
Beweis.
Im Widerspruch zur Behauptung nehme an ∇f (x∗ ) 6= 0.
Dann ist d = −∇f (x∗ )Rn eine Abstiegsrichtung im dem Sinne, dass
d
f (x∗ + αd )|α=0 = ∇f (x )>d = −k∇f (x∗ )k2 < 0.
dα
Dann gilt wegen stetiger Differenzierbarkeit:
f (x∗ + αd ) = f (x∗ ) + ∇f (x∗ )>d α + o (α)
= f (x∗ ) − kf (x∗ )k2 α + o (α)
< f (x∗ ) für hinreichend kleines α > 0
→Also kann x∗ kein lokales Miminum sein.
– 132 –
Verfahren des steilsten Abstieges
Idee So lange der Gradient ∇f (xk ) am aktuellen Punkt xk ∈ Rn nicht null ist,
finde neuen Punkt = Iterierte der Form
xk +1 = xk − αk ∇f (xk )
s.d.
f (xk − αk ∇f (xn )) < f (xk )
Dieses Verfahren heißt steilster Abstieg. Beobachtung
Bemerkung E.31
αk darf weder zu groß noch zu klein gewählt werden.
Definition E.32
Am Punkt xk mit ∇f (xk ) 6= 0 ist αk = 21m die sogenannte Armijo Schrittweite,
wenn m die kleinste ganze Zahl ist, für die folgendes gilt:
f ( xk −
1
2m
∇f (xk )) ≤ f (xk ) − k∇f (xk )k2 ·
1
2m
· ( 0 .1 )
Bemerkung zur Algorithmik: Armijo Schrittweite αk kann gefunden werden in dem man
beginnend mit m = 0 und αk = 1 = 210 solange halbiert und jeweils f (xk − 21m ∇f (xk ))
berechnet bis die letzte Ungleichung zum ersten Mal erfüllt ist.
– 133 –
Konvergenzaussage
Satz E.33 (Konvergenz von steilstem Abstieg mit Amijo Schrittweite)
Wenn x0 so gewählt wurde, dass die Niveaumenge N0 ≡ {x ∈ Rn : f (x ) ≤ f (x0 )}
beschränkt ist ergibt sich eine Folge (xk ) ⊂ N0 mit mindestens einem stationären
Häufungspunkt x∗ .
Bemerkung E.34
Theoretisch ist x∗ = xk für alle großen k möglich, für nichtlineare Probleme ist das aber
sehr unwahrscheinlich. Es ist zudem wahrscheinlich, dass x∗ der einzige Häufungspunkt
ist, d.h. xk → x∗
137
– 134 –
Hessematrix und ihre Symmetrie
Frage: Wie können wir entscheiden, ob x∗ lokales Minimum ist
Antwort: Betrachte Hessematrix:
∇2 f (x ) =
∂2 f (x )
, i = 1 . . . n, j = 1 . . . n existiert falls f ∈ C 2 (Rn )
∂xi ∂xj
Satz E.35 (Schwarzscher Satz)
Falls die Matrix ∇2 f (x ) als Funktion von x stetig ist, so ist sie symmetrisch, d.h.
∂2 f
∂2 f
=
∂xi ∂xj
∂ xj ∂ xi
für 1 ≤ i , j ≤ n
Konsequenz
Alle Eigenwerte λj (∇2 f (x )) sind reell, o.B.d.A. λ1 (∇2 f (x )) ≤ . . . ≤ λn (∇2 f (x )).
– 135 –
Äquivalente Charakterisierung von Definitheit
Lemma E.36
Für jede symmetrische Matrix A = A> ∈ Rn×n
sind die folgenden Aussagen äquivalent:
1. 0 ≤ λ1 (A) ≤ λj (A), j = 2 . . . n
2. v >Av ≥ 0 ∀v ∈ Rn
3. A = LU faktorisierbar ohne Pivotisierung mit L = U >D,
wobei D = diag(δ1 . . . δn ), δi ≥ 0
Definition E.37
A heisst positiv semi-definit, falls es obiges Lemma erfüllt und
negativ semidefinit wenn dies für −A gilt.
Wenn zudem det (A) 6= 0 heißt A positiv bzw. negativ definit.
Bemerkung E.38
Effizientester Test für (Semi-)Definitheit ist LU-Faktorisierung, verlangt
nur 16 n3 ops durch Ausnutzung der Symmetrie (Cholesky Faktorisierung).
– 136 –
Optimalitätsbedingung zweiter Ordnung
Satz E.39
Ein stationärer Punkt x∗ von f ∈ C 2 (Rn )
(i) kann nur dann ein lokales Minimum sein, wenn ∇2 f (x∗ ) positiv semidefinit ist
(Notwendige Bedingung),
(ii) muss ein lokales Minimum sein wenn ∇2 f (x∗ ) positiv definit ist
(Hinreichende Bedingung)
Im Falle n = 1 gilt ∇2 f 0 (x∗ ) = f 00 (x ∗) was an Minima nichtnegativ sein muss und durch
Positivität lokale Minimalität erzwingt.
Bemerkung E.40
Falls det(∇2 f (x∗ ) = 0) hängt Optimalität von dritten und höheren Ableitungen ab. Wird fast
nie untersucht
Lemma E.41 (Zusammenhang mit Konvexität)
Eine Funktion f ∈ C 2 (Rn ) ist konvex im Sinne dass
f (x (1 − α ) + αy ) ≤ (1 − α )f (x ) + αf (y )
für
α ∈ [0, 1] und x , y ∈ Rn , α ∈ [0, 1]
gdw. ∇2 f (x ) positiv semidefinit ist an allen x ∈ Rn
139
– 137 –
Globale Optimalität im konvexen Fall
Satz E.42
Falls f ∈ C 2 (Rn ) konvex, dann ist jeder stationäre Punkt x∗ ein globales Minimum.
((Konvexität + Stationarität) → Globale Minimalität)
Beweis.
Betrachte stationäres x∗ ∈ Rn und beliebiges x ∈ Rn Dann folgt aus Konvexität
f (x )α + (1 − α)f (x∗ ) ≥ f (x∗ (1 − αx )), α > 0
⇔[f (x ) − f (x∗ )] ≥
f (x∗ + α(x − x∗ )) − f (x∗
α
d
→α7→0 f (x∗ + α(x − x∗ ))|α=0 = ∇f (x∗ )>(x − x∗ ) = 0 da x∗ stationär
da
| {z }
=0
– 138 –
Newton und quasi-Newton Methoden
In Nachbarschaft xk ∈ Bρ (x∗ ) eines nichtdegenerierten Minimums,
d.h. det (∇2 (f (x∗ )) 6= 0) ist ∇2 f (xk ) auch positiv definit( Stetigkeit von ∇2 f (x )).
Dann ist die Newtoniteration mit Schrittweite αk > 0 wohl definiert durch
xk +1 = xk − αk [∇2 f (xk )]−1 ∇f (xk )
Dies entspricht für αk = 1 einen normalen Newtonschritt zur Lösung von
F (x ) ≡ ∇f (x ) = 0
mit
F 0 (x ) = ∇2 f (x )
Wenn ∇2 f (xk ) positiv definit dann ist dk = −∇f (xk )−1 ∇f (xk ) eine Abstiegsrichtung
d
f (xk + αdk )|α=0 = ∇f (xk )>dk = −∇f (xk )>∇2 f (xk )−1 ∇f (xk )
dα
= −d >k ∇2 f (xk )dk < 0
Nach Charakterisierung ist ∇2 f (xk ) positiv definit, und da ∇f (xk ) = −∇2 f (xk )dk . Folglich
ergibt Aimijo oder ähnliche Schrittweitenregel ein αk > 0 mit
f (xk + αk dk ) ≤ f (xk ) + ∇f (xk )>dk αk · 0.1
144
– 139 –
Konvergenz von Newton für Optimierung
Bemerkung E.43
1. Wenn ∇2 f (x ) Lipschitz stetig gilt kxk +1 − x∗ k ≤ c kxk − x∗ k2 für c ∈ R
2. Steilster Abstieg ist billiger, da ∇2 f (x∗ ) weder ausgewertet noch faktorisiert werden
muss, Konvergenz ist aber beliebig langsam
3. Kompromiss: Quasi-Newton Methoden DFP: Davidon/Fletcher/Powell BFGS:
Boyden-Fletcher-Goldfarb-Shanno in 70ern
– 140 –
Quasi-Newton Methode
Ziel: Erreiche schnelle Konvergenz ohne ∇2 f (x∗ ) auszuwerten
und behandle Iterierte xk wo ∇2 f (xk ) indefit.
Bk = Bk> ≈ ∇2 f (xk )
und Suchrichtung
dk = −Bk−1 ∇f (xk )
Nach jedem Schritt wird Bk zu Bk +1 aufdatiert, sodass
Bk +1 (xk +1 − xk ) = yk = ∇f (xk +1 ) − f (xk )
(≈ ∇2 f (xk )(xk +1 − xk ))
Sekantenbedingung an Bk +1
Falls n > 1 repräsentiert Sekantenbedingungen n lineare Gleichungen
Bk +1 sk = yk , sk = (xk +1 − xk ) es gibt in Bn+1 aber
n (n +1)
2
freie Einträge.
– 141 –
The rank-2 Broyden Class
Unter der Annahme, dass Bk ≈ ∇2 f (xk ) minimiere geeignete Norm
minkBk +1 − Bk k
s .d .
Bk +1 sk = yk
Ergebnis ist u.a. die DFP-Formel(1955)
Bk +1 = Bk +
rk yk> + yk rk>
y >s
k
−
yk yk> · rkt sk
rk = yk − Bk ss
mit
(yk>sk )2
k
Probe der Sekantenbedingung
Bk +1 sn = Bk +
rk yk>sk
yk>sk
+
yk rk>sk
yk>sk
−
= Bk sk + yk − Bk sk + yk (
yk yk>sk (rk>sk
yk sk
rk>sk
y>
k
−
rk>sk
yk>sk
) = yk
Deutliche Verbesserung der Konvergenz durch die nahe verwandte
Broyden-Fletscher-Goldfarb-Shanne Formel
Bk +1 = Bk −
Bk sk sk>Bk
s >B
k
k sk
+
yk yk>
yk>sk
– 142 –
Eigenschaften von DFP und BFGS
I
I
I
Bk 7→ Bk +1 ohne 2. Ableitung, Erhaltung von Symmetrie und Definiteheit
falls yk> sk > 0 was durch Schrittweitenregel sicher gestellt werden kann.
Choleskyfaktorisierung: Bk = Uk>Dk Uk mit Dk ≥ 0 diagonal
kann direkt mit Aufwand O (n2 ) zu Bk +1 = Uk>+1Dk +1 Uk +1 aufdatiert werden →
Gesamtkosten pro Schritt sind O (n2 ) im Vergleich zu 61 n3 für Newton
Lokale und superlineare Konvergenz, d.h.
x0 ∈ Bρ (x∗ ) und kB0 − ∇2 f (x0 )k ≤ ε
⇒
kxk +1 − x∗ k
→ 0 mit αk = 1
k xk − x ∗ k
– 143 –
Gliederung
1. Numerik im Überblick
2. Gleitkommadarstellung und -arithmetik
3. Lösung (nicht-)linearer Gleichungssysteme
4. Gewöhnliche Differentialgleichungen (=ODE)
5. Grundlagen der Optimierung
6. Wahrscheinlichkeitsräume
6.1 Endliche Wahrscheinlichkeitsräume
6.2 Unendliche Wahrscheinlichkeitsräume
147
– 144 –
E - 8 Endliche Wahrscheinlichkeitsräume
Wir betrachten folgendes Experiment: Eine Münze wird geworfen. Das Ergebnis sei
entweder „Kopf“ oder „Zahl“. Der Ausgang eines solchen Experimentes ist nicht exakt
voraussagbar. Man müßte ein exaktes physikalisches Modell und alle nötigen Parameter,
Anfangs- und Randdaten haben, was aber unmöglich ist.
Im betrachteten Fall sprechen wir von einem Zufallsexperiment. Die
Wahrscheinlichkeitstheorie analysiert Gesetzmäßigkeiten solcher Zufallsexperimente.
Jeder hat eine gewisse Vorstellung von der Aussage: „Bei einer fairen Münze ist die
Wahrscheinlichkeit für ‚Kopf‘ genauso groß wie für ‚Zahl‘.“
Intuitiv denkt man dabei etwa: „Wenn man die Münze oft (hintereinander) wirft, so
konvergiert die relative Häufigkeit von ‚Kopf‘ (von ‚Zahl‘) gegen 1/2.“ Eine Definition der
Wahrscheinlichkeit mit Hilfe der relativen Häufigkeiten ist im Allgemeinen jedoch
problematisch.
– 145 –
Beispiel E.44 (Experiment: Zweimaliges Würfeln)
Die Menge aller möglichen Kombinationen ist
Ω := {(i , j )|1 ≤ i , j ≤ 6}.
Also gibt es |Ω| = 36 mögliche Ausgänge des Experimentes. Bei einem sogenannten
fairen Würfel sind alle diese Ausgänge (Elementarereignisse) gleichwahrscheinlich. Z.B.
geschieht das Ereignis {(1, 2)} = „erst 1, dann 2“ mit einer Wahrscheinlichkeit von 1/36.
Das Ereignis „Summe der Augenzahlen ist höchstens 3“ entspricht der Menge
A := {(1, 1), (1, 2), (2, 1)}. Es gilt also |A| = 3 und somit ist die Wahrscheinlichkeit für
dieses Ereignis gleich 3/36 = 1/12.
– 146 –
Elementare Definitionen
Definition E.45 (Endlicher Wahrscheinlichkeitsraum)
Sei Ω eine nicht-leere endliche Menge, also Ω = {1, 2, . . . , N } und P (Ω) deren
Potenzmenge, d.h. die Menge aller Teilmengen von Ω.
1. Eine Wahrscheinlickeitsverteilung (oder auch ein Wahrschein- lichkeitsmaß ) auf
Ω ist eine Abbildung P : P (Ω) → [0, 1] mit folgenden Eigenschaften:
P (Ω) = 1,
P (A ∪ B )
=
P (A) + P (B )
für A ∩ B = ∅.
Die Menge Ω nennen wir Ergebnismenge oder auch Ergebnisraum.
2. Teilmengen A ⊂ Ω heißen Ereignisse, P (A) heißt Wahrscheinlichkeit von A.
3. Eine Menge {ω } mit ω ∈ Ω heißt Elementarereignis.
4. Das Paar (Ω, P ) heißt Wahrscheinlichkeitsraum (genauer: endlicher
Wahrscheinlichkeitsraum).
5. Wir nennen Ω das sichere Ereignis und ∅ das unmögliche Ereignis.
149
Bemerkung:
(Wahrscheinlichkeitsmaß als Voraussage)
Auch wenn wir hier, wie angekündigt, mathematisch vorgehen und
Wahrscheinlichkeiten von Ereignissen durch eine abstrakt gegebene Funktion P
definieren, ohne dies weiter zu erklären, sollte jeder eine intuitive Vorstellung von
Wahrscheinlichkeit haben. Das Wahrscheinlichkeitsmaß können wir auch als
Voraussage über die möglichen Ausgänge eines Zufallsexperimentes interpretieren.
Eine solche Sichtweise wird z.B. das Verständnis des Begriffes der bedingten
Wahrscheinlichkeit unterstützen.
– 148 –
Satz E.46 (Eigenschaften eines Wahrscheinlichkeitsmaßes)
Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und A, B ∈ P (Ω). Es gilt:
1. P (Ac ) = 1 − P (A), wobei Ac = Ω\A das Komplement von A ist. Speziell gilt
P ( ∅ ) = 0.
2. A ⊂ B ⇒ P (A) ≤ P (B ).
3. P (A\B ) = P (A) − P (A ∩ B ).
4. Falls A1 , . . . , An paarweise disjunkt sind, d.h. für i 6= j gilt Ai ∩ Aj = ∅, dann gilt
P(
n
S
i =1
n
Ai ) = ∑ P (Ai ). Speziell gilt P (A) = ∑ P ({ω }).
i =1
ω ∈A
5. Für beliebige (i.a. nicht paarweise disjunkte) A1 , . . . , An ∈ P (Ω) gilt
P(
n
S
i =1
n
Ai ) ≤ ∑ P (Ai ).
i =1
6. P (A ∪ B ) = P (A) + P (B ) − P (A ∩ B ).
162
– 149 –
Definition E.47 (Laplacescher Wahrscheinlichkeitsraum)
Sei (Ω, P ) endlicher Wahrscheinlichkeitsraum. Falls alle Elementarereignisse die
gleiche Wahrscheinlichkeit haben, heißt P Gleichverteilung, und (Ω, P ) heißt
Laplacescher Wahrscheinlichkeitsraum. Es gilt dann:
P (ω )
=
P (A)
=
1
|Ω|
|A|
|Ω|
für alle ω ∈ Ω,
für A ⊂ Ω,
wobei |Ω|, |A| die Anzahl der Elemente in Ω bzw. A ist.
– 150 –
Beispiel E.48 („6 Richtige im Lotto 6 aus 49“)
Wir berechnen die Wahrscheinlichkeit dafür, dass 6 bestimmte Zahlen (der eigene Tipp)
zufällig als Gewinnzahlen gezogen werden, auf zwei verschiedene Weisen. Unser Tipp
bestehe aus den sechs verschiedenen Zahlen t1 , . . . , t6 .
1. Als Ergebnismenge Ω1 nehmen wir hier die Menge aller sechs-elementigen Teilmengen
der Menge {1, . . . , 49}. Wir unterscheiden also nicht, in welcher Reihenfolge die Zahlen
gezogen werden.
Ω1
=
{{w1 , . . . , w6 }|wi ∈ {1, . . . , 49} für alle 1 ≤ i ≤ 6
und wi 6= wj für i 6= j und 1 ≤ i , j ≤ 6}
Die Anzahl dieser Teilmengen ist |Ω1 | = (49
6 ) = 13983816.
Jede Ziehung (jedes Elementarereignis) habe den gleichen Wahrscheinlichkeitswert,
insbesondere auch das Elementarereignis A1 := {t1 , . . . , t6 }, das unserem Tipp entspricht.
Also
1
P1 (A1 ) =
≈ 7.1511 · 10−8 .
|Ω|
– 151 –
2. Jetzt nehmen wir als Elementarereignisse alle Sechsertupel von paarweise
verschiedenen ganzen Zahlen zwischen 1 und 49. Es kommt also auf die Reihenfolge bei
der Ziehung an. Z.B. sind die Tupel (1, 2, 3, 4, 5, 6) und (6, 5, 4, 3, 2, 1) voneinander
verschieden.
Ω2
=
{(w1 , . . . , w6 )|wi ∈ {1, . . . , 49}, für alle 1 ≤ i ≤ 6,
wi 6= wj für i 6= j und 1 ≤ i , j ≤ 6} .
Die Anzahl solcher Sechsertupel ist
| Ω2 |
=
49 · 48 · · · 44 =
49!
.
43!
Das Ereignis „6 Richtige“ entspricht der Menge
A2 := {(ω1 , . . . , ω6 ) | {ω1 , . . . , ω6 } = {t1 , . . . , t6 }}.
Die Menge A2 besteht also gerade aus allen Sechsertupeln, die aus (t1 , . . . , t6 ) durch
Permutation hervorgehen. Für den Lottogewinn ist es ja egal, in welcher Reihenfolge die
Gewinnzahlen gezogen werden. Es gilt also |A2 | = 6!. Wir erhalten also
P2 (A2 )
=
=
=
≈
|A2 |
| Ω2 |
6! (49 − 6)!
49!
1
(49
6)
7.1511 · 10−8 ,
also letztlich das gleiche Ergebnis wie bei der ersten Rechnung.
– 152 –
Beispiel E.49 (Dreimal Würfeln mit Laplace-Würfel)
Wie groß ist die Wahrscheinlichkeit dafür, dass dabei keine Wiederholung vorkommt?
Wir wählen
Ω = {(w1 , w2 , w3 ) | ωi ∈ {1, 2, 3, 4, 5, 6} für 1 ≤ i ≤ 3}
als Ergebnismenge. Die Anzahl aller möglichen Elementarereignisse (Dreiertupel) ist
63 . Das Ereignis „keine Wiederholung“ entspricht der Menge A aller Dreiertupel, in
denen alle drei Zahlen verschieden sind. Es gibt genau 6 · 5 · 4 = 36!! solche Dreiertupel.
Also ist
6·5·4
5
P (A) =
= .
9
63
– 153 –
Satz E.50
Die Elemente einer Menge mit n Elementen lassen sich auf genau n! verschiedene Arten
anordnen.
Satz E.51
Aus einer Menge mit n verschiedenen Elementen lassen sich k Elemente (ohne
Berücksichtigung der Reihenfolge) auf
n!
n
=
k
k ! (n − k ) !
Arten auswählen.
Satz E.52
Aus einer Menge mit n verschiedenen Elementen lassen sich k Elemente (mit
Berücksichtigung der Reihenfolge) auf
n(n − 1)(n − 2) . . . (n − k + 1) =
n!
(n − k ) !
Arten auswählen.
– 154 –
Satz E.53
Das Urnenexperiment ’Ziehen ohne Zurücklegen’: In einer Urne befinden sich N Kugeln, S
Schwarze und W weiße, wobei S + W = N ist. Aus der Urne werden nacheinander zufällig
n Kugeln gezogen, davon seien ns Kugeln schwarz und nw Kugeln weiß. Dann ist die
Wahrscheinlichkeit dafür, genau ns schwarze und nw weiße Kugeln zu ziehen gleich
P (Anzahl schwarze Kugeln = ns ) =
S
W
N
·
/
.
ns
nw
n
– 155 –
Satz E.54
Das Urnenexperiment ’Ziehen mit Zurücklegen’: In einer Urne befinden sich N Kugeln, S
Schwarze und W weiße, wobei S + W = N ist. Aus der Urne werden zufällig n Kugeln
gezogen, nach jedem Zug wird die Kugel wieder zurückgelegt. Es werden ns schwarze und
nw weiße Kugeln gezogen. Dann ist die Wahrscheinlichkeit dafür, genau ns schwarze und
nw weiße Kugeln zu ziehen gleich
P (Anzahl schwarze Kugeln = ns ) =
ns nw
n
S
W
·
·
.
ns
N
N
– 156 –
Bedingte Wahrscheinlichkeit
In Bemerkung hatten wir schon erwähnt, dass man ein gegebenes Wahrscheinlichkeitsmaß
als Voraussage für ein Zufallsexperiment interpretieren kann. Wenn man nun zusätzliche
Informationen über das Experiment erhält, so kann man diese Voraussage „verbessern“.
Z.B. hat man nach einem einfachen Experiment wie Münzwurf die Information, wie das
Experiment ausgegangen ist, und man kann mit dieser vollständigen Information im
Nachhinein sogar eine deterministische „Voraussage“ (die dann ihren Namen eigentlich
nicht mehr verdient) machen, d.h. man wird nicht mehr das a priori gegebene
Wahrscheinlichkeitsmaß betrachten, sondern vielmehr ein anderes (deterministisches), das
jedem Ereignis entweder die Wahrscheinlichkeit 0 oder 1 zuordnet. Im allgemeinen erhält
man keine vollständige Information, sondern nur eine solche der Art, dass bestimmte
Ereignisse sicher eintreten. Dementsprechend geht man zu einem neuen
Wahrscheinlichkeitsmaß über.
– 157 –
Beispiel E.55
(Voraussage für den zweifachen Münzwurf bei zusätzlicher Information)
Wir betrachten zwei aufeinanderfolgende Münzwürfe mit einer fairen Münze. Wie
groß ist die Wahrscheinlichkeit dafür, dass „zweimal Kopf“ fällt (Ereignis A), wenn
man weiß, dass
1. Fall: der erste Wurf das Ergebnis „Kopf“ hat (Ereignis B1 ).
2. Fall: mindestens ein Wurf gleich „Kopf“ ist (Ereignis B2 ).
Als Ergebnisraum wählen wir
Ω := {(K , K ), (K , Z ), (Z , K ), (Z , Z )}.
– 158 –
Da wir die Münze als fair annehmen, hat jedes Elementarereignis die Wahrscheinlichkeit
1/4. Für unsere speziell betrachteten Ereignisse gilt
A
=
{(K , K )},
P (A)
=
1
,
4
B1
=
{(K , K ), (K , Z )},
P (B1 )
=
1
,
2
B2
=
{(K , K ), (K , Z ), (Z , K )},
P (B2 )
=
3
.
4
– 159 –
1. Fall: Aufgrund der zusätzlichen Informationen, dass das Ereignis B1 eintritt, können
die Elementarereignisse (Z , Z ) und (Z , K ) völlig ausgeschlossen werden. Es können
also nur (K , K ) oder (K , Z ) eintreten. Ohne jegliche weitere Information sind diese
beiden als gleichwahrscheinlich anzunehmen. Durch diese Überlegungen ordnen wir
insbesondere dem Ereigneis (K , K ) eine neue Wahscheinlichkeit zu:
P (A|B1 ) =
1
.
2
Wir bezeichnen diese als die bedingte Wahrscheinlichkeit des Ereignisses (K , K )
bei gegebenem B1 .
2. Fall: Es können nur (K , K ), (K , Z ), (Z , K ) eintreten. Wieder sehen wir diese
Elementarereignisse als gleichwahrscheinlich an. Also
P (A|B2 ) =
1
.
3
– 160 –
In beiden Fällen werden die möglichen Elementarereignisse auf eine Menge Bi ⊂ Ω
reduziert. Wie wir sehen, ist die bedingte Wahrscheinlichkeit für das Ereignis A bei
gegebenem B gleich
P (A|B )
=
|A ∩ B |
P (A ∩ B )
=
.
|B |
P (B )
Mit Hilfe des letzten Ausdrucks definieren wir allgemein die bedingte Wahrscheinlichkeit.
– 161 –
Definition E.56 (Bedingte Wahrscheinlichkeit)
Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum, B ⊂ Ω mit P (B ) > 0 und A ∈ Ω.
Die bedingte Wahrscheinlichkeit von A bei gegebenen B ist
P (A|B ) : =
P (A ∩ B )
.
P (B )
Bemerkung
Es folgt
P (A ∩ B ) = P (B ) · P (A|B ).
(1)
– 162 –
Satz E.57 (zur bedingten Wahrscheinlichkeit)
Sei (Ω, P ) ein endlicher Wahrscheinlichkeitsraum.
1. (Die bedingte Wahrscheinlichkeit ist ein Wahrscheinlich- keitsmaß)
Sei P (B ) > 0. Durch
PB (A) := P (A|B )
ist ein Wahrscheinlichkeitsmaß auf Ω definiert. Ist A ⊂ B c oder P (A) = 0, so ist
P (A|B ) = 0.
– 163 –
2. (Formel der totalen Wahrscheinlichkeit)
Sei Ω =
A ⊂ Ω:
n
S
i =1
Bi mit Bi ∩ Bj = ∅ für i 6= j (disjunkte Zerlegung von Ω). Dann gilt für jedes
P (A) =
∑
P (Bk ) · P (A|Bk ).
(2)
1≤k ≤n ,
P (Bk )>0
Daher wird über alle Indizes k summiert, für die P (Bk ) > 0. Wir schreiben der Kürze halber
n
auch „ ∑ “ anstatt „
k =1
∑
1≤k ≤n ,
P (Bk )>0
“, wobei wir im Fall P (Bk ) = 0 das Produkt als 0 definieren.
– 164 –
3. (Formel von Bayes)
Sei neben den Voraussetzungen in 2. zusätzlich noch P (A) > 0 erfüllt. Dann gilt für jedes
1 ≤ i ≤ n:
P (Bi |A) =
P (Bi ) · P (A|Bi )
n
.
∑ P ( Bk ) · P ( A | Bk )
k =1
172
– 165 –
Bemerkung
Interpretation der Formel von Bayes
Wie durch das weiter unten folgende Beispiel E.58 illustriert wird, werden in der
Formel von Bayes, die Ereignisse Bk als mögliche „Ursachen“ für das beobachtete
Ereignis („Symptom“) A aufgefasst. Für jedes Ereignis Bk wird die
A-priori-Wahrscheinlichkeit P (Bk ) als bekannt vorausgesetzt und ebenso die
bedingten Wahrscheinlichkeiten dafür, dass bei Eintreten von Ursache Bk auch das
Symptom A eintritt.
Mit Hilfe der Formel von Bayes wird für ein Bi die A-posteriori-Wahrscheinlichkeit
berechnet unter der zusätzlichen Information, dass das Symptom A beobachtet wird.
Diese Vorgehensweise der Korrektur von A-priori-Wahrscheinlichkeiten aufgrund von
Beobachtungen spielt in der Bayesischen Statistik ein wichtige Rolle.
– 166 –
Beispiel E.58 (Diagnostischer Test, vgl. U. Krengel Einführung in die
Wahrscheinlichkeitstheorie und Statistik )
Eine Krankheit komme bei etwa 0, 5% der Bevölkerung vor. Ein Test zur Auffindung
der Krankheit führe bei 99% der Kranken zu einer Reaktion, aber auch bei 2% der
Gesunden. Wir möchten die Wahrscheinlichkeit dafür ermitteln, dass eine Person, bei
der die Reaktion eintritt, die Krankheit tatsächlich hat, und des Weiteren die
Wahrscheinlichkeit, dass eine Person, bei der keine Reaktion eintritt, in Wirklichkeit
krank ist. Dazu definieren wir mögliche Ereignisse:
B2 =
B1 :
„Die Person hat die Krankheit.“,
B1C
„Die Person hat die Krankheit nicht.“,
:
A1 :
„Test positiv“,
A2 = AC
1 :
„Test negativ“.
– 167 –
Nach der Formel von Bayes gilt
P (B1 |A1 )
=
P (B1 ) · P (A1 |B1 )
P (B1 ) · P (A1 |B1 ) + P (B2 ) · P (A1 |B2 )
=
5 · 10−3 · 0.99
≈ 0.2.
5 · 10−3 · 0.99 + (1 − 5 · 10−3 ) · 0.02
Die gesuchte bedingte Wahrscheinlichkeit für eine tatsächliche Erkrankung einer Person,
bei der der Test positiv ist. beträgt etwa 0.2.
– 168 –
Auch die Wahrscheinlichkeit dafür, dass eine negativ getestete Person tatsächlich krank ist,
berechnen wir nach der Formel von Bayes:
P (B1 |A2 )
=
P (B1 ) · P (A2 |B1 )
P (B1 ) · P (A2 |B1 ) + P (B2 ) · P (A2 |B2 )
=
5 · 10−3 · 0.01
≈ 5.1 · 10−5 .
5 · 10−3 · 0.01 + (1 − 5 · 10−3 ) · 0.98
– 169 –
Definition E.59 (Effizienz diagnostischer Tests, s. L. Sachs Angewandte
Statistik )
Wir betrachten wie in Beispiel E.58 einen diagnostischen Test für eine Krankheit. Der
getestete Patient kann gesund (Ereignis K C ) oder tatsächlich krank sein (Ereignis K ). Der
Test kann positiv ausfallen, d.h. der Patient wird als krank getestet (Ereignis T+ ), oder
C
negativ (Ereignis T− = T+
).
1. Die Spezifität des Tests ist die bedingte Wahrscheinlichkeit P (T− |K C ) für einen
negativen Test, wenn der Patient gesund ist.
2. Die Sensitivität des Tests ist die bedingte Wahrscheinlichkeit P (T+ |K ) für einen
positiven Test, wenn der Patient krank ist.
– 170 –
Spezifizität und Sensitivität können wir als Gütekriterium eines Tests ansehen. Sie sollten
beide nahe bei 1 liegen. Die bedingte Wahrscheinlichkeit P (K |T+ ) ist der Voraussagewert
eines positiven Testergebnisses bei Kranken, und P (K C |T− ) ist der Voraussagewert eines
negativen Testergebnisses bei Gesunden. Diese sollten idealerweise ebenfalls nahe bei 1
liegen. Sie hängen nach der Formel von Bayes allerdings auch von der
A-priori-Wahrscheinlichkeit für die Krankheit ab, welche als die relative Häufigkeit „Anzahl
der Kranken geteilt durch die Gesamtzahl der Menschen“ (z.B. in einem bestimmten Land)
definiert ist, der so genannten Prävalenz der Krankheit. Diese Abhängigkeit kann wie in
Beispiel E.58 zu niedrigen Voraussagewerten führen, wenn die Krankheit nur sehr selten
ist, also zu typischem „Fehlalarm bei seltenen Ereignissen“.
– 171 –
Unabhängigkeit von Ereignissen
Beispiel E.60 (für zwei unabhängige Ereignisse)
Wir betrachten folgendes Experiment: Es wird zweimal mit einem Laplace-Würfel
gewürfelt. Wir betrachten das Ereignis A, dass die „Summe der Augenzahlen gerade“
und Ereignis B, dass der „zweite Wurf eine 1“ ist. Es gilt
1
P (A) = 21 , P (B ) = 16 , P (A ∩ B ) = 12
, wie man durch Abzählen der jeweiligen Mengen
sieht. Also
P (A ∩ B ) = P (A) · P (B ) ⇔ P (A) = P (A|B ) ⇔ P (B ) = P (B |A).
D.h. durch die zusätzlichen Informationen, dass B eintritt, ändert sich nichts an der
(bedingten) Wahrscheinlichkeit dafür, dass A eintritt.
Definition E.61 (Unabhängigkeit zweier Ereignisse)
Zwei Ereignisse A und B heißen voneinander unabhängig, wenn die Produktformel
P (A ∩ B ) = P (A) · P (B )
gilt.
178
– 172 –
Bemerkung
1. Die Relation „A ist unabhängig von B“ ist symmetrisch, d.h. „A ist unabhängig von B“
genau dann, wenn „B unabhängig von A“ ist. Aber im allgemeinen ist sie nicht reflexiv (für
0 < P (A) < 1 gilt z.B. , dass P (A ∩ A) = P (A) 6= P (A) · P (A)) oder transitiv (aus „A ist
unabhängig von B“ und „B ist unabhängig von C“ folgt i.a. nicht, dass „A unabhängig von C“
ist, wie man für die Wahl eines Beispiels mit A = C mit 0 < P (A) < 1 und B = ∅ sieht.) 2.
Ebenso ist die Nicht-Unabhängigkeit zweier Ereignisse nicht transitiv. Als Gegenbeispiel
betrachten wir den Laplaceschen Wahrscheinlichkeitsraum (vgl. Definition E.47), bestehend
aus Ω := {1, 2, 3, 4} und der Verteilung P ({ω }) = 14 für jedes ω ∈ Ω sowie die
Ereignisse A := {1, 2}, B := {1} und C := {1, 3}. Man rechnet leicht nach, dass A nicht
unabhängig von B und B nicht unabhängig von C ist. Allerdings ist A unabhängig von C.
– 173 –
Definition E.62
(Unabhängigkeit einer Familie von Ereignissen)
Sei {Ai , i ∈ J } eine endliche Familie von Ereignissen.
1. Wir sagen, dass die Produktformel für {Ai , i ∈ J } gilt, wenn
P(
\
i ∈J
Ai ) =
∏ P (Ai ).
i ∈J
2. Wir sagen, dass eine (nicht unbedingt endliche) Familie A = {Ai , i ∈ I } von
Ereignissen unabhängig ist, wenn für jede endliche Teilfamilie {Ai , i ∈ J } mit
J ⊂ I die Produktformel gilt.
– 174 –
Produktexperimente
Definition E.63 (Produkt von Wahrscheinlichkeitsräumen)
Die Menge
Ω
n
=
∏ Ωi = Ω1 · · · Ωn
(3)
i =1
=
{(ω1 , . . . , ωn ) | ωi ∈ Ωi für i = 1, . . . , n}
heißt das (kartesische) Produkt oder auch die Produktmenge von (Ωi )1≤i ≤n . Durch
die Wahrscheinlichkeitsfunktion
n
P (ω )
=
∏ Pi ( ω i )
(4)
i =1
ist ein Wahrscheinlichkeitsmaß auf Ω definiert, das wir ebenfalls mit P bezeichnen.
Wir nennen (Ω, P ) das Produkt der Wahrscheinlichkeits- räume (Ωi , Pi )1≤i ≤n .
– 175 –
Satz E.64
(Eindeutigkeit des Produkts von Wahrscheinlichkeitsräumen)
1. Durch (4) ist tatsächlich ein Wahrscheinlichkeitsmaß auf Ω definiert.
2. Sei Xi die i-te Koordinatenfunktion auf Ω, d.h. Xi (ω ) = ωi . Dann gilt für
A i ∈ Ω i ( i = 1, . . . , n ) :
P(
n
\
i =1
n
{Xi ∈ Ai }) = ∏ Pi (Ai ).
(5)
i =1
Hierbei folgende Notation für als Urbild definierte Mengen:
{Xi ∈ Ai } = {ω = (ω1 , . . . , ωn ) ∈ Ω|Xi (ω ) = ωi ∈ Ai }.
Insbesondere gilt dann
P ({Xn ∈ Ak }) = Pk (Ak ) für alle 1 ≤ k ≤ n.
(6)
3. Das durch (4) definierte Wahrscheinlichkeitsmaß ist das einzige Maß auf Ω, bezüglich
dessen jede Mengenfamilie ({Xi ∈ Ai })1≤i ≤n unabhängig ist und für die (6) gilt.
– 176 –
Beispiel E.65 (n-facher Münzwurf)
Wir betrachten eine Folge von n unabhängigen Einzelexperimenten, die jeweils durch
die Ergebnismenge Ωi = {K , Z } und das Wahrscheinlichkeitsmaß
p
für wi = K ,
Pi (ωi ) =
1 − p für wi = Z ,
(mit 1 ≤ i ≤ n) beschrieben sind. Hierbei ist 0 ≤ p ≤ 1.
Die Produktmenge ist
Ω = {0, 1}n = {(w1 , . . . , wn )|wi ∈ {K , Z }, 1 ≤ i ≤ n},
und das Wahrscheinlichkeitsmaß ist gegeben durch seine Wahrscheinlichkeitsfunktion
n
P (ω )
=
∏ Pi (ωi ) = pk (1 − p)n−k ,
(7)
i =1
wobei k die Anzahl der Indizes i mit ωi = 1 ist.
– 177 –
Definition E.66 (Bernoulli-Verteilung)
Der in Beispiel E.65 betrachtete Produktraum (Ω, P ) heißt Bernoulli-Experiment mit
Erfolgswahrscheinlichkeit p, und P heißt Bernoulli-Verteilung.
Beispiel E.67 (Binomialverteilung)
Wir führen Beispiel E.65 fort. Sei für 0 ≤ k ≤ nmit Ekdas Ereignis bezeichnet, dass genau
n
k -mal ein Erfolg (eine 1) eintritt. Es gibt genau
solcher ω ∈ Ω. Also
k
P (Ek ) =
n
k
p k ( 1 − p ) n − k = : bn , p ( k ) .
(8)
183
– 178 –
Wir überprüfen durch eine kurze Rechnung, dass die Summe der P (Ek ) gleich 1 ist:
n
∑ bn,p (k )
n
∑
=
k =0
n
k
k =0
pk (1 − p )n−k = (p − (1 − p ))k = 1.
Dabei haben wir im ersten Schritt die binomische Formel verwendet.
1
0.8
0.6
0.4
0.2
0
1E-Σ 2
0
1
E
3 E+Σ 4
5
1
0.8
0.6
0.4
0.2
2E-Σ
3 E
4E+Σ 5
Abbildung : Stabdiagramme für die Binomialverteilungen b5, 1 und b5, 2 .
2
3
– 179 –
Zufallsvariablen
Definition E.68 (Zufallsvariable)
Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und χ eine Menge. Eine Funktion
X : Ω → χ heißt Zufallsexperiment mit Werten in χ (oder auch χ-wertige
Zufallsvariable). Falls χ = R, heißt X reelle Zufallsvariable.
Bemerkung
Üblicherweise wird eine so genannte Unbestimmte, z.B. das Argument einer Funktion,
als Variable bezeichnet. Man beachte, dass mit Zufallsvariable selber eine Funktion
gemeint ist (deren Wert mit dem zufälligen Argument variiert).
– 180 –
Beispiel E.69 (für reelle Zufallsvariablen)
1. Geldwette bei Münzwurf: Ein einfacher Münzwurf sei durch
Ω = {K , Z }, P (K ) = p, P (Z ) = 1 − p modelliert, wobei 0 ≤ p ≤ 1. Bei Kopf erhält man 2
Euro Gewinn, bei Zahl verliert man 1 Euro. Der Gewinn (Verlust) ist eine reelle
Zufallsvariable:
X :Ω
X (K )
X (Z )
→
=
=
{−1, 2} ∈ R,
2,
− 1.
2. Würfeln: Ω = {1, . . . , 6}, wobei mit ω = 1 das Elementarereignis „Es wird eine 1
gewürfelt.“ gemeint ist. Sei X die Zufallsvariable, die jedem Wurf die erzielte Augenzahl
zuordnet, also z.B.
X ( 1 ) = 1,
wobei die 1 auf der linken Seite das Elementarereignis „Es wird eine 1 gewürfelt.“
bezeichnet und die 1 auf der rechten Seite die reelle Zahl 1.
– 181 –
3. Vergleiche Beispiel E.67: Wir betrachten die Binomialverteilung zum n-maligen
Münzwurf mit Ergebnissen eines einzelnen Münzwurfes in {K , Z }. Die Anzahl der Erfolge
(Kopf) sei mit X (ω ) bezeichnet, also
X : Ω = {K , Z }n
→
{ 0, . . . , n } ,
(9)
n
( ω1 , . . . , ωn )
7→
∑ Xi ( ω ) ,
i =1
wobei
X :Ω
→
Xi (ω )
=
{ 0, n } ,
1 für
0 für
wi = K ,
wi = Z .
Die Zufallsvariable X ist also die Summe der Zufallsvariablen Xi .
– 182 –
Satz E.70
(Eine Zufallsvariable definiert eine Wahrscheinlichkeitsfunktion auf dem Bildraum)
Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und X : Ω → χ eine
Zufallsvariable. Dann ist auf χ eine Wahrscheinlichkeitsfunktion PX durch
PX : χ
→
[ 0, 1 ] ,
PX (y )
=
P {X = y }
=
∑
P (ω )
ω ∈Ω,X (ω )=y
definiert. Hierbei bezeichnet {X = y } := {ω ∈ Ω|X (ω ) = y } die Urbildmenge von y
bezüglich der Abbildung X .
188
– 183 –
Definition E.71 (Verteilung einer Zufallsvariablen)
Das Wahrscheinlichkeitsmaß zur Wahrscheinlichkeitsfunktion PX aus Satz E.70 heißt
Verteilung von X bezüglich P oder auch das Wahrscheinlichkeitsmaß von X bezüglich
P.
Bemerkung: Wichtigkeit von Verteilungen
Meistens interessiert man sich ausschließlich für die Verteilung von Zufallsvariablen X
und nicht für das Wahrscheinlichkeitsmaß P auf Ω. Wir hatten schon in Beispiel E.48
gesehen, dass verschiedene Wahlen von Ω möglich sein können. Oftmals ist der
„steuernde Wahrscheinlichkeitsraum“ nicht explizit bekannt oder sehr kompliziert.
– 184 –
Beispiel E.72 (Binomialverteilung als Verteilungsmaß)
Das in (8) durch die Binomialverteilung definierte Wahrscheinlichkeitsmaß P auf der
Menge {E0 , . . . , En } können wir offensichtlich auch als die Verteilung der
Zufallsvariablen X aus (9) in Beispiel E.69 auffassen, also als Wahrscheinlichkeitsmaß
auf der Menge {0, 1, . . . n}. Ein Element k aus dieser Menge entspricht dabei der
Menge Ek aus Beispiel E.69. Also
PX (k ) = bn,p (k ).
Definition E.73 (Unabhängigkeit von Zufallsvariablen)
Sei (Ω, P ) ein endlicher Wahrscheinlichkeitsraum. Eine Familie (Xi )i ∈I von
Zufallsvariablen Xi : Ω → χi (mit i ∈ I ) heißt unabhängig, wenn für jede endliche
Teilmenge J ⊂ I und jede Wahl von Aj ⊂ χj für alle j ∈ J die Familie ({Xj ∈ Aj })j ∈J
unabhängig ist. (vgl. Definition E.62).
– 185 –
Bemerkung:Interpretation der Unabhängigkeit von Zufallsvariablen
Seien z.B. X1 und X2 zwei voneinander unabhängige Zufallsvariablen mit Werten in χ1
und χ2 , respektive. Die Verteilung von X2 können wir als „Voraussage“ über den
zufälligen Wert von X2 interpretieren. Seien A2 ⊂ χ2 und x1 ∈ χ1 mit
P ({X1 = x1 }) > 0. Die Kenntnis, dass X1 den Wert x1 annimmt, ermöglicht uns keine
„bessere“ Voraussage über den Wert von X2 . Dies wird an Beispiel E.74
veranschaulicht werden.
Bemerkung: Produktformel für unabhängige Zufallsvariablen
Für unabhängige Zufallsvariablen X1 , . . . , Xn mit Xi : Ω → χi gilt
n
P (X1 ∈ A1 ∧ · · · ∧ Xn ∈ An ) =
∏ P (Xi ∈ Ai )
i =1
für jede Wahl von Ereignissen Ai ⊂ χi . Die Berechnung der Wahrscheinlichkeit von
solchen Ereignissen der Form {X1 ∈ A1 } ∩ . . . ∩ {Xn ∈ An } ist also besonders einfach.
– 186 –
Beispiel E.74 (Voneinander unabhängige Münzwürfe)
Wir betrachten den zweifachen Münzwurf aus Beispiel E.65 (also n = 2). Auf
Ω = {K , Z }2 ist das Produktmaß gerade so definiert, dass die beiden Zufallsvariablen
Xi : Ω
( ω1 , ω2 )
→
7→
{K , Z },
ωi ,
von denen X1 gerade den Ausgang des ersten Wurfs beschreibt und X2 den des
zweiten, voneinander unabhängig sind, was anschaulich auch klar sein sollte. Es gilt
z.B.
P ({X1 = K ∧ X2 = K })
=
=
P1 (K ) · P2 (K )
P ({X1 = K }) · P ({X2 = K }),
wobei wir im ersten Schritt die Produktformel (7) für die Wahrscheinlichkeitfunktion
verwendet haben.
– 187 –
Erwartungswert, Varianz, Kovarianz
In einem Spiel wie in Beispiel E.69 interessiert uns der zu erwartende Gewinn und
allgemein der „mittlere Wert“ einer reellen Zufallsvariablen.
Definition E.75 (Erwartungswert einer reellen Zufallsvariablen)
Sei X eine reelle Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P ). Der
Erwartungswert von X ist definiert als
EX := E (X ) :=
∑ X (ω ) · P (ω ) = ∑ x · PX (x ).
ω ∈Ω
(10)
x ∈R
Bemerkung: Erwartungswert einer Verteilung
In (10) ist PX die Verteilung von X (s. Definition E.71). Lediglich solche Summanden
sind ungleich 0, für die PX (x ) > 0. Dies sind aber nur endlich viele, da der
Definitionsbereich und somit der Bildbereich von X endlich ist. In (10) wird der
„steuernde Wahrscheinlichkeits- raum “ Ω nicht explizit erwähnt. Der Erwartungswert
ist also eine Eigenschaft der Verteilung. Durch (10) ist der Erwartungswert der
Verteilung PX definiert, und analog definiert man allgemein den Erwartungswert
eines Wahrscheinlichkeitsmaßes auf endlichen Mengen reeller Zahlen.
– 188 –
Satz E.76 (Eigenschaften des Erwartungswertes)
1. Der Erwartungswert ist linear, d.h. für reelle Zufallsvaraiblen X , Y und λ ∈ R gilt
E ( λX + Y ) = λ · E (X ) + E (Y ).
(11)
2. Sind X , Y unabhängig, so gilt
E (X · Y ) = E (X ) · E (Y ).
Hierbei bezeichnet X · Y das Produkt der beiden Zufallsvariablen. Diese durch
(X · Y )(ω ) = X (ω ) · Y (ω ) definierte Produktfunktion ist wieder eine reelle
Zufallsvariable auf demselben Wahrscheinlichkeitsraum.
194
– 189 –
Beispiel E.77 (für Erwartungswerte spezieller Verteilungen)
1. Wir berechnen den Erwartungswert der Binomialverteilung zu den Parametern n und p
(s. (8)) auf zwei verschiedene Weisen.
1. Methode:
E (X )
=
∑k
k =0
n
k
p k (1 − p )n −k
n
=
=
(n − 1) !
p (k −1) ( 1 − p )
k =1 (k − 1 ) ! (n − 1 ) − (k − 1 ) !
ñ ñ
np ∑
pk̃ (1 − p )ñ−k̃
∑
np
k̃ =0
=
=
(n−1)−(k −1)
k̃
np (p + (1 − p ))ñ
np.
Dabei haben wir die Substitution n − 1 = ñ und k − 1 = k̃ verwendet.
– 190 –
2. Methode: Wir verwenden (11) (Linearität von E). Es gilt
X = X1 + · · · + Xn
mit Xi : Ω → {0, 1}, P ({Xi = 1}) = p, P ({Xi = 0}) = 1 − p, also E (Xi ) = p und somit
n
E (X )
∑ E (Xi ) = np.
=
i =1
2. Wir berechnen den Erwartungswert für die Augenzahl beim Laplace-Würfel, gegeben
durch Ω = {1, . . . , 6} und P (ω ) = 16 für ω ∈ Ω. Die Zufallsvariable X gibt die Augenzahl
an. (S. Beispiel E.69) Wir erhalten
6
E (X ) =
1
∑i· 6
= 3.5 .
(12)
i =1
Insbesondere sehen wir, dass der Erwartungswert i.a. nicht als Wert von der
Zufallsvariablen angenommen wird.
– 191 –
3. Wir vergleichen das letzte Beispiel mit der Zufallsvariablen Y , definiert auf demselben
(Ω, P ) durch
Y ( ω ) = 3 .5
für ω ∈ {1, . . . , 6}.
Diese Zufallsvariable hat den gleichen Erwartungswert wie der Laplace-Würfel:
E ( Y ) = 3 .5 .
Dennoch sind die beiden Zufallsvariablen nicht gleichverteilt. Wie durch die
Stabdiagramme in der folgenden Abbildung veranschaulicht wird, ist die Verteilung Py
deterministisch, wohingegen Px um den Erwartungswert streut.
– 192 –
1
0.8
0.6
0.4
0.2
1 EHX L-Σ
3 3.5 4
1
3 3.5 4
EHX L+Σ 6
1
0.8
0.6
0.4
0.2
2
5
6
Abbildung : Stabdiagramme für den Laplace-Würfel und für eine determinstische Zufallsvariable
– 193 –
Definition E.78
(Varianz, Streuung, Kovarianz, Korrelationskoeffizient)
Seien (Ω, P ) ein endlicher Wahrscheinlichkeitsraum und X , Y reelle Zufallsvariablen.
1. Die Varianz von X ist
Var(X ) = E (X − E (X ))2 .
2. Die Streuung (oder Standardabweichung) von X ist
σ=
q
Var(X ).
3. Die Kovarianz von X und Y ist
Cov(X , Y ) = E (X − E (X ) · Y − E (Y ) ).
4. Der Korrelationskoeffizient von X und Y (mit σx , σy 6= 0) ist
ρ X ,Y =
Cov(X , Y )
.
(13)
σx σy
5. Zufallsvariablen X , Y mit Cov(X , Y ) = 0 heißen unkorreliert.
– 194 –
Satz E.79 (Eigenschaften von Varianz und Kovarianz)
Seien X , Y , Xi (für 1 ≤ i ≤ n) reelle Zufallsvariablen und a, b, c , d ∈ R. Dann gilt:
1.
Var(X ) = E (X 2 ) − E (X )
2
.
(14)
2.
Var(aX + b ) = a2 · Var(X ).
(15)
Cov(X , Y ) = E (XY ) − E (X ) · E (Y ).
(16)
Cov(aX + b, cY + d ) = a · c · Cov(X , Y ),
(17)
3.
4.
– 195 –
5.
n
Var(X1 + · · · + Xn ) =
∑ Var(Xi ) + ∑ Cov(Xi , Xj ),
i =1
(18)
( i ,j ) ,
i 6 =j
wobei in der letzten Summe die Summanden Cov(X1 , X2 ) und Cov(X2 , X1 ) etc. auftreten.
6. Sind X , Y unabhängig, so sind sie auch unkorreliert.
7. (Formel von Bienaymé) Wenn X1 , . . . , Xn unabhängig sind, dann gilt
n
Var(X1 + · · · + Xn ) =
∑ Var(Xi ).
(19)
i =1
Bemerkung
(Aus Unkorreliertheit folgt nicht Unabhängigkeit)
Aus der Unkorreliertheit von Zufallsvariablen folgt im Allgemeinen nicht deren
Unabhängigkeit, wie wir in Beispiel E.84 sehen werden.
200
– 196 –
Beispiel E.80 (Varianz bei der Augenzahl des Laplace-Würfels)
Es gilt für das zweite Moment der Augenzahl X des Laplace-Würfels:
6
E (X 2 ) =
1
∑ i2 · 6
i =1
=
91
.
6
Daraus erhalten wir nach (14) und unter Verwendeung von (12)
Var(X )
=
E (X 2 ) − (E (X ))2 )
=
91
35
− 3.52 =
.
6
12
(20)
Die Streuung ist also σX ≈ 1.71.
– 197 –
Beispiel E.81 (Varianz der Binomialverteilung)
Mit Hilfe der Formel von Bienaymé (19) berechnen wir analog zur 2. Methode in
Beispiel E.77 die Varianz der Binomialverteilung zu den Parametern n unf p. Die
Varianz von Xi ist
Var(Xi )
=
(0 − E (Xi ))2 · P (Xi = 0) + (1 − E (Xi ))2 · P (Xi = 1)
=
(−p )2 · (1 − p ) + (1 − p )2 · p = p (1 − p ).
Aus der Unabhängigkeit der Xi folgt also
n
Var(X )
=
Var( ∑ Xi ) =
i =1
n
∑ Var(Xi ) = n p (1 − p).
i =1
– 198 –
Zur Veranschaulichung von Korrelation führen wir noch den wichtigen Begriff der
gemeinsamen Verteilung ein und beschränken uns dabei hier auf den Fall zweier
reellwertiger Zufallsvariablen. Zur naheliegenden Verallgemeinerung auf den Fall von
endlich vielen Zufallsvariablen mit Werten in beliebigen Mengen s. z.B. U. Krengel
Einführung in die Wahrscheinlichkeitstheorie und Statistik
Definition E.82
(Gemeinsame Verteilung zweier reeller Zufallsvariablen)
Seien X , Y : Ω 7→ R zwei auf derselben Ergebnismenge Ω definierten reellwertigen
Zufallsvariablen. Die Verteilung PX ×Y (vgl. Definition E.71) der Produktfunktion
X × Y : Ω 7 → R2
heißt gemeinsame Verteilung von X und Y . Die Funktion X × Y nimmt genau die
Werte (x , y ) ∈ R2 mit positiver Wahrscheinlichkeit an, für die PX (x ) > 0 und
PY (y ) > 0 gilt und gemäß Satz E.70 erhalten wir
PX ×Y (x , y ) = P (ω ∈ Ω : X (ω ) = x und Y (ω ) = y ).
– 199 –
Beispiel E.83 (Korrelation bei Merkmalsverteilung)
Seien X1 und X2 Zufallsvariablen mit Werten in {0, 1}. Die Produktzufallsvariable X1 × X2
1 1 3 2
nehme die Werte (0, 0), (1, 0), (0, 1) und (1, 1) mit den Wahrscheinlichkeiten 10
, 5 , 10 , 5 ,
respektive, an. Wir schreiben abkürzend PX1 ×X2 (1, 1) statt PX1 ×X2 ({(1, 1)}) etc. Wir
stellen die gemeinsame Verteilung sowie die Verteilungen von X1 und X2 tabellarisch dar:
X1 = 0
X1 = 1
Verteilung von X2 :
X2 = 0
1/10
1/5
3/10
X2 = 1
3/10
2/5
7/10
Verteilung von X1 :
2/5
3/5
Die Verteilung von X1 und X2 steht offensichtlich im oberen linken Teil der Tabelle. Die
Verteilung von X1 steht in der unteren Zeile. Die Werte wurden als Summe der Zahlen der
jeweiligen Spalten berechnet. Ebenso steht die Verteilung von X2 in der rechten Spalte.
Diese Werte sind jeweils die Zeilensummen (aus dem Tabellenteil der gemeinsamen
Verteilung). Eine Kontrollrechnung zeigt, dass die Summe der Werte der unteren Zeile (der
rechten Spalte) jeweils 1 ergeben.
203
– 200 –
Wir berechnen nun die Kenngrößen der Verteilungen.
2
3
3
+1· = ,
5
5
5
E (X1 )
=
0·
E (X12 )
=
3
,
5
Var(X1 )
=
3
−
5
σX1
=
r
6
≈ 0.49.
25
E ( X2 )
=
7
,
10
Var(X2 )
=
7
−
10
r
σX2
=
2
3
6
=
,
5
25
E (X22 ) =
7
10
2
=
7
,
10
21
,
100
21
≈ 0.46.
100
– 201 –
E (X1 · X2 )
=
2
,
5
Cov(X1 , X2 )
=
E (X1 · X2 ) − E (X1 ) · E (X2 )
=
2
3 7
1
− ·
=− ,
5
5 10
50
ρ X 1 ,X 2
=
1
− 50
q
6
25
·
≈ −0.089.
21
100
Die Zufallsvariablen X1 und X2 sind nicht voneinander unabhängig, da Ihre Kovarianz
ungleich 0 ist. (Es gilt nämlich: „Unabhängigkeit ⇒ Kovarianz gleich 0“.) Der Betrag ihres
Korrelationskoeffizienten ist allerdings auch nicht besonders groß, d.h. nahe bei 0.
– 202 –
Bemerkung: Interpretation von Korrelation
1. (geometrische Sichtweise)
Wir können die Kovarianz als Skalarprodukt in Rn mit n = |Ω| auffassen. Hierzu nehmen
wir an, dass alle Elementarereignisse eine positive Wahrscheinlichkeit haben. Dann gilt die
Cauchy-Schwarz-Ungleichung
Cov(X , Y ) ≤ σx σy
und somit für σx , σy 6= 0:
− 1 ≤ ρ X ,Y ≤ 1 .
Den Korrelationskoeffizienten können wir dann als „Kosinus des nicht-orientierten Winkels
zwischen X und Y “ auffassen.
2. (Korrelation als linearer Zusammenhang)
Für zwei Zufallsvariablen X und Y deutet ein Korrelationskoeffizient ρX ,Y nahe bei 1 auf
eine „Tendenz“ der Variablen X − E (X ) und Y − E (Y ) hin, gemeinsam große bzw. kleine
bzw. stark negative Werte anzunehmen, also auf einen „linearen Zusammenhang“.
Analoges gilt für ρX ,Y nahe bei −1. Wir veranschaulichen dies in Beispiel E.84.
212
– 203 –
Beispiel E.84
(Illustration von speziellen gemeinsamen Verteilungen und Korrelation)
Die hier diskutierten Beispiele für gemeinsame Verteilungen sind in der folgenden
Abbildung graphisch dargestellt. Die Werte der jeweiligen Verteilungen mit positiver
Wahrscheinlichkeit sind als Punkte in die x-y -Ebene eingezeichnet, wobei (x , y ) Werte der
Funktion X × Y sind. Eine solche Darstellung könnte noch präzisiert werden, indem man
zu jedem Punkt die Wahrscheinlichkeit schreibt, was bei einer kleinen Anzahl von Punkten
noch übersichtlich wäre. Der Einfachheit halber habe hier jeweils jeder Punkt die gleiche
Wahrscheinlichkeit.
– 204 –
1. Sei X eine Zufallsvariable mit Varianz σX2 > 0 und sei Y = aX + b mit a 6= 0. Wir
berechnen unter Verwendung der Sätze E.76 und E.79 den Korrelationskoeffizienten von X
und Y .
Var(Y )
=
a2 Var(X ),
Cov(X , Y )
=
Cov(X , aX + b ) = a Cov(X , X ) = a σX2 ,
ρ X ,Y
=
aσX2
= sign(a).
σX |a|σX
⇒
σY = |a| · σX ,
Der Korrelationskoeffizient ρX ,Y ist also 1 oder −1, je nachdem, ob a positiv oder negativ
ist. In den Abbildungen (a) und (b) sind Beispiele für solche gemeinsamen Verteilungen von
X und Y dargestellt. Die Punkte der gemeinsamen Verteilung liegen auf einer Geraden. Wir
bemerken auch, dass im Fall a = 0, also Y = b, die Zufallsvariable Y deterministisch ist
und somit Varianz Null hat. Auch hier liegen die Punkte der gemeinsamen Verteilung von X
und Y auf einer Geraden (nicht abgebildet), aber der Korrelationskoeffizient ist im Sinne
von Definition E.78 nicht definiert.
– 205 –
Ρ =1
Ρ =-1
Ρ »1
20
20
20
15
15
15
10
10
10
5
5
5
2.5
5
7.5
10
12.5
15
2.5
5
7.5
10
12.5
15
2.5
5
7.5
10
12.5
15
(a) Die Punkte liegen auf einer steigenden
(b) Die Punkte liegen auf einer fallenden
(c) Die Punkte streuen schwach um eine
Geraden
Geraden
steigende Gerade
– 206 –
Ρ»0
Ρ »-1
Ρ=0
20
20
20
15
15
15
10
10
10
5
5
5
2.5
5
7.5
10
12.5
2.5
15
5
7.5
10
12.5
15
(d) Die Punkte streuen schwach um eine
(e) Punktwolke ohne zuzuordnender Gera-
fallende Gerade
de
2.5
5
7.5
10
12.5
15
(f) Nicht-lineare funktionale Abhängigkeit
Abbildung : Illustration von Korrelationskoeffizienten mit Hilfe von gemeinsamen Verteilungen
– 207 –
2. In den Abbildungen (c) und (d) sind die gemeinsamen Verteilungen von Zufallsvariablen
dargestellt, deren Korrelationskoeffizient nahe bei 1 bzw. nahe bei -1 liegt. Die Punkte
liegen zwar nicht auf einer Geraden, aber man kann könnte jeder der Verteilungen eine
Gerade zuordnen, von der die Punkte „nicht allzu sehr“ abweichen. Eine solche Zuordnung
geschieht z.B. mit Hilfe von linearer Regression.
3. Der in Abbildung (e) dargestellten Verteilung wäre optisch nur schwer eine Gerade
zuzuordnen. Der Korrelationskoeffizient in diesem Beispiel liegt nahe bei 0.
– 208 –
4. Wir betrachten nun noch ein sehr spezielles Beispiel. Die gemeinsame Verteilung von X
und Y sei
1
PX ×Y (−1, 1) = PX ×Y (0, 0) = PX ×Y (1, 1) =
3
dargestellt. Die Kovarianz von X und Y ist
Cov(X , Y )
=
∑
( x ,y )
x · y · PX × Y ( x , y ) =
1
· (1 · (−1) + 0 · 0 + 1 · 1) = 0.
3
Dabei haben wir in der ersten Zeile über alle Werte (x , y ) mit positiver Wahrscheinlichkeit
summiert. Die beiden Zufallsvariablen sind also nicht korreliert. Ihr Korrelationskoeffizient
ist gleich 0.
Wir bemerken noch, dass Y nicht unabhängig von X ist (s. Definition E.73). Im Gegenteil,
es besteht sogar ein funktionaler Zusammenhang zwischen beiden Variablen. Kennt man
den Wert von X , so auch den von Y . Dieser Zusammenhang ist aber nicht linear (vgl.203).
Analog zu diesem Beispiel sind die Zufallsvariablen, deren gemeinsame Verteilung in
Abbildung (f) dargestellt ist, unkorreliert, obwohl ein funktionaler Zusammenhang zwischen
ihnen besteht.
– 209 –
Das schwache Gesetz der großen Zahlen
In diesem Abschnitt formulieren wir mit Satz E.86 eine Version des schwachen Gesetzes
der großen Zahlen, das insbesondere einen Zusammenhang zwischen dem abstrakt
eingeführten Begriff der Wahrscheinlichkeit und relativen Häufigkeiten bei einer Folge aus
lauter voneinander unabhängigen Zufallsexperimenten herstellt, die alle den gleichen
Erwartungswert haben.
Der folgende Satz liefert uns eine Abschätzung für die Wahrscheinlichkeit der Abweichung
einer Zufallsvariablen von ihrem Erwartungswert um mehr als eine vorgegebene Konstante.
Diese Abschätzung benutzt nur die Varianz der Zufallsvariablen, ohne irgendwelche
weiteren Bedingungen an die Verteilung zu stellen, und ist damit anwendbar sobald man
die Varianz kennt. Allerdings ist sie in vielen Fällen auch nur sehr grob oder gar völlig
nutzlos, z.B. wenn die rechte Seite in (21) größer gleich 1 ist. Dennoch liefert sie uns einen
sehr einfachen Beweis des schwachen Gesetzes der großen Zahlen.
– 210 –
Satz E.85 (Tschebyscheff-Ungleichung)
Sei X eine reelle Zufallsvariable auf (Ω, P ). Dann gilt für jedes e > 0:
P (|X − E (X )| > e) ≤
Var(X )
.
e2
(21)
Beweis: Sei Z = X − E (X ). Wir definieren zu Z 2 eine Minorante, d.h. eine Zufallsvariable
Y mit Y (ω ) ≤ (Z (ω ))2 :
Y (ω ) :=
0
e2
für
für
|Z (ω )| < e,
|Z (ω )| ≥ e.
Mit Hilfe dieser Minorante können wir den Erwartungswert von Z 2 nach unten abschätzen:
Var(X )
=
=
=
E (Z 2 ) ≥ E (Y )
e2 · P (Y = e2 )
e2 · P (|X − E (x )| ≥ e).
– 211 –
Satz E.86 (Das schwache Gesetz der großen Zahlen)
Seien X1 , X2 , . . . unabhängige Zufallsvariablen mit den gleichen Erwartungswerten
E (X1 ) und Var(Xi ) ≤ M . Dann gilt
1
M
P (X1 + · · · + Xn ) − E (X1 ) ≥ e ≤ 2 ,
(22)
n
e n
insbesondere
1
lim P (X1 + · · · + Xn ) − E (X1 ) ≥ e = 0.
n→∞
n
Beweis: Sei S (n) =
X1 +···+Xn
n
Var(S (n) )
. Dann ist E (S (n) ) = E (X1 ), und
=
1
1
M
Var(X1 + · · · + Xn ) = 2 · n · M =
,
n
n2
n
wobei wir im vorletzten Schritt die Unabhängigkeit von (Xi )i verwendet haben. Die
Behauptung folgt nun aus der Tschebyscheff-Ungleichung.
216
– 212 –
Beispiel E.87 (n-maliges Würfeln)
In Beispiel E.77 hatten wir schon den Erwartungswert E (Xi ) = 3.5 und in Beispiel E.80
die Varianz für die Augenzahl beim einfachen Wurf des Laplace-Würfels berechnet.
Wir betrachten nun zum n-fachen Wurf die gemittelte Summe S (n) = n1 (X1 + . . . + Xn )
der Augenzahlen. Nach dem schwachen Gesetz der großen Zahlen (Satz E.86) ist zu
einer vorgegebenen Schranke e > 0 bei häufigem Würfeln die Wahrscheinlichkeit, dass
die beobachtete mittlere Augenzahl um mehr als e von ihrem Erwartungswert
E (S (n) ) = 3.5 abweicht klein, vorausgesetzt n ist hinreichend groß. Doch wie oft muss
man z.B. würfeln, damit für e = 0.1 die Wahrscheinlichkeit einer Abweichung kleiner
ist als 0.01? Hier geben wir mit einer sehr groben Abschätzung zufrieden, die auf der
Tschebyscheff-Ungleichung (Satz E.85) beruht, und wollen damit nur (22) an einem
Beispiel illustrieren.
– 213 –
Wir erhalten mit M =
35
12
und e = 0.1:
P S ( n ) − 3 .5 ≥ 0 .1 ≤
35
.
12 · 0.12 · n
(23)
Die rechte Seite der Abschätzung (23) ist kleiner oder gleich 0.01, falls n ≥ 4200. D.h. wenn
man 4200 mal oder noch häufiger würfelt, dann weicht die mittlere Augenzahl mit einer
Wahrscheinlichkeit von höchstens 1% um 0.1 oder mehr vom ihrem Erwartungswert ab.
– 214 –
Bemerkung: Zum schwachen Gesetz der großen Zahlen
Das schwache Gesetz der großen Zahlen sagt, dass in der Situation in Satz E.86 für
„große“ n der gemittelte Wert S (n) = n1 (X1 + . . . + Xn ) mit „großer“ Wahrscheinlichkeit
(also einer solchen nahe bei 1) vom Erwartungewert E (S (n) ) = E (Xi ) „nicht stark“
abweicht. Wenn man den Erwartungswert der Augenzahl bei einem Würfel statistisch
durch viele Würfe ermitteln will, führt man aber z.B. eine recht lange Versuchsreihe
von Würfen durch, die einer Folge X1 , X2 , . . . entspricht und betrachtet entsprechend
die Folge der gemittelten Werte S (1) , S (2) , . . . Das schwache Gesetz der großen Zahlen
sagt, dass für ein vorgegbenes e für hinreichend große n die Wahrscheinlichkeit für
eine Abweichung |S (n) − E (X1 )| > e „klein“ ist, schließt aber nicht aus, das für eine
betrachtete Folge von Würfen diese Abweichung „immer wieder mal“ auftritt. Aber
das starke Gesetz der großen Zahlen, das wir hier nicht als mathematischen Satz
formulieren, sagt, dass für fast alle Folgen (von Würfen) die Folge der Werte von S (n)
tatsächlich gegen E (X1 ) konvergiert. Das bedeutet, die Wahrscheinlichkeit für diese
Konvergenz ist gleich 1.
– 215 –
E - 9 Unendliche Wahrscheinlichkeitsräume
Definition E.88 (Diskreter Wahrscheinlichkeitsraum)
Seien Ω eine höchstens abzählbare Menge und P : P (Ω) → [0, 1] eine Funktion. Dann
heißt (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, wenn folgendes gilt:
P (Ω) = 1.
(24)
Für jede Folge A1 , A2 , ... paarweiser disjunkter Teilmengen von Ω ist
P
∞
[
i =1
Ai =
∞
∑ P (Ai ).
(25)
i =1
Eigenschaft (25) heißt σ-Additivität.
– 216 –
Beispiel E.89 (für einen unendlichen diskreten Wahrscheinlichkeitsraum)
(Poisson-Verteilung)
Eine bestimmte Masse einer radioaktiven Substanz zerfällt. Die Anzahl der Zerfälle X[0,T ]
im Zeitintervall [0, T ] ist eine Zufallsvariable. Dabei nehmen wir an, dass die Gesamtzahl
der radioaktiven Teilchen sich im betrachteten Zeitraum nicht wesentlich ändert. Als
mathematisches Modell nehmen wir die Verteilung
P λ ( X [ 0 ,T ] = k ) = e − λ T
( λT )k
k!
für k ∈ {0, 1, 2, ...},
mit einem Parameter λ > 0, die in der folgenden Abbildung illustriert ist.
221
(26)
1
0.8
0.6
0.4
0.2
E-Σ =0
E=1
E+Σ =2
3
4
5
3 E+Σ
4
5
1
0.8
0.6
0.4
0.2
0 E-Σ 1
E=2
Abbildung : Stabdiagramme von Poisson-Verteilungen mit den Parametern λ = 1 und T = 1, bzw. T = 2
– 218 –
Es gilt für den Erwartungswert, das zweite Moment und die Varianz der Verteilung:
∞
∞
E (X[0,T ] )
=
∑ k · Pλ (X = k ) = ∑ k e − λT
k =0
k =0
=
λ T · e − λT
=
− λT
∞
∑
k =1
E ((X[0,T ] )2 )
λT · e
·e
k −1
( λT )k
k!
( λT )
= λ T · e − λT
(k − 1) !
λT
∞
∑
l =0
( λT )l
l!
= λT ,
∞
=
∑ k 2 · Pλ (X = k ) = ... = (λT )2 + λT
k =0
(Übungsaufgabe 6, Serie 6)
– 219 –
Var(X[0,T ] )
=
E ((X[0,T ] )2 ) − (E (X[0,T ] ))2 = λT .
Des weiteren gilt
dE (X[0,T ] )
dT
= λ,
d.h. λ ist die Zerfallsrate = mittlere Anzahl der Zerfälle .
Zeit
Beispiel für eine Verteilung ohne endlichen Erwartungswert siehe Übungsaufgabe 7, Serie
6.
– 220 –
Kontinuierliche Wahrscheinlichkeitsräume
hier: Ω Intervall, z.B. [0, 1], [0, ∞[, ] − ∞, ∞[.
Definition E.90
(Wahrscheinlichkeitsmaße mit einer Dichtefunktion)
Sei Ω = [a, b ] ein Intervall mit a < b. 1. Eine Wahrscheinlichkeitsdichte auf Ω ist eine
integrierbare Funktion f : Ω → R mit
1. Nicht-Negativität:
f ≥ 0, d.h. f (ω ) ≥ 0 für alle ω ∈ Ω.
2. Normiertheit:
Zb
f ( ω ) d ω = 1.
a
Die Definition im Falle von (halb-) offenen Intervallen Ω ist analog.
– 221 –
2. Das zur Dichte f gehörende Wahrscheinlichkeitsmaß P ist auf Intervallen durch
P ([a0 , b0 ]) =
Zb0
f (ω ) d ω
(27)
a0
definiert, wie in der folgenden Abbildung illustriert.
a
a0
b0
b
Abbildung : Wahrscheinlichkeitsdichte: Die Fläche über dem Intervall [a0 , b0 ] ist gleich der
Wahrscheinlichkeit dieses Intervalls
– 222 –
3. Die Integralfunktion F von f , definiert durch
F (x ) =
Zx
f (ω ) d ω,
a
heißt Verteilungsfunktion von P.
– 223 –
4. Eine reelle Zufallsvariable ist eine Funktion
X : Ω → R.
Ihr Erwartungswert ist
E (X ) : =
Zb
X (ω )f (ω ) d ω,
(28)
a
falls das Integral in (28) existiert, und ihre Varianz ist
Var(X ) :=
Zb
(X (ω ) − E (X ))2 f (ω ) d ω,
(29)
a
sofern die Integrale in (28) und (29) existieren.
– 224 –
Bemerkung: Erwartungswert und Varianz einer
Wahrscheinlichkeitsverteilung auf R
Wir bezeichnen mit
µ=
Zb
x · f (x ) dx
(30)
a
den Erwartungswert der Verteilung und mit
σ2 =
Zb
(x − µ)2 f (x ) dx
(31)
a
ihre Varianz, sofern diese Integrale existieren.
(Formaler Bezug durch die Zufallsvariable X (x ) = x.)
229
– 225 –
Beispiel E.91
(Gleichverteilung auf einem beschränkten Intervall)
Die Gleichverteilung auf [a, b ] ist durch die Dichtefunktion
f : [a, b ] → R,
x 7→
1
,
b−a
gegeben.
1
€€€€€
2
-1
1
Abbildung : Gleichverteilung auf dem Intervall [−1, 1]
– 226 –
Es gelten
f (x ) =
1
>0
b−a
und
Zb
f (x ) dx = 1,
a
d.h. f ist also tatsächlich eine Wahrscheinlichkeitsdichte.
Sei X eine Zufallsvariable, deren Verteilung die Dichte f hat, also X = x.
Der Erwartungswert ist
E (X )
=
Zb
a
1
1
1
b+a
· x dx =
· ( b 2 − a2 ) =
,
b−a
b−a 2
2
also gleich dem Mittelpunkt des Intervalls [a, b ].
– 227 –
Zur Berechnung der Varianz benutzen wir
Var(X )
=
E (X − E (X ))2 = E (X 2 ) − E (X )
2
.
Wir müssen also noch das zweite Moment E (X 2 ) von X berechnen.
E (X 2 )
Zb
=
a
1
1
1
1
x 2 dx =
· (b3 − a3 ) = (b2 + ab + a2 ).
b−a
b−a 3
3
Damit erhalten wir
Var(X )
=
1
1
1 2
(b + ab + a2 ) − (b2 + 2ab + a2 ) =
(b − a )2 .
3
4
12
Die Varianz hängt also nur von der Intervalllänge ab. Physikalisch kann man den
Erwartungswert von X als Schwerpunkt bei homogener Massenverteilung interpretieren,
und die Varianz ist proportional zum Trägheitsmoment, also proportional zum mittleren
quadratischen Abstand zum Schwerpunkt.
– 228 –
Beispiel E.92 (Exponentialverteilungen auf [0, ∞))
Die Exponentialverteilung mit Parameter λ > 0 ist gegeben durch die Dichte
fλ : [0, ∞) → R,
t 7 → λ e − λt .
Sie tritt z.B. beim durch den Poisson-Prozeß modellierten radioaktiven Zerfall auf (s.
Beispiel E.89) Die Wartezeit bis zum ersten Zerfall ist eine Zufallsvariable, deren Verteilung
die Dichte fλ hat.
(siehe auch Übungsaufgabe 8, Serie 6)
236
– 229 –
Beispiel E.93 (Normalverteilungen)
Die Normalverteilung N (µ, σ2 ) mit Erwartungswert µ und Varianz σ2 hat die Dichte
fµ,σ2 (x ) =
1
√
σ 2π
e
−(x −µ)2
2σ 2
.
(32)
Die Normalverteilung N (0, 1) mit Erwartungswert 0 und Varianz 1 heißt
Standard-Normalverteilung.
Abbildung : Die Standard-Normalverteilung mit ihrem σ-, 2σ- und 3σ-Intervall
– 230 –
Durch die Normalverteilung werden viele gestreute Größen, wie z.B. Körperlängen von
Personen in einer Bevölkerung beschrieben, allerdings nur in einem hinreichend kleinen
Intervall um die Durchschnittsgröße herum, denn natürlich gibt es keinen Menschen mit
negativer Größe oder von 3m Länge. Solche Verteilungen haben mit den
Normalverteilungen die typische Glockenform gemeinsam. Mathematisch wird der Zustand
zwischen der Normalverteilung und mehrfach wiederholten Experimenten (z.B. mehrfacher
Münzwurf) durch den zentralen Grenzwertsatz (Satz E.96) hergestellt.
– 231 –
– 232 –
fµ,σ2 (x ) ist eine Wahrscheinlichkeitsdichte, d.h. fµ,σ2 (x ) ≥ 0 ∀x und Normiertheit ist erfüllt:
Das uneigentliche Integral 0 <
Z∞
2
e −x dx < ∞ existiert (Majorante).
−∞
Zu der Funktion e
−x 2
gibt es keine elementare Stammfunktion.
Man kann aber berechnen: (Transformation in Polarkoordinaten)
Z∞
2
e −x dx =
√
π
−∞
Wir erhalten die Normiertheit der Dichtefunktion:
Z∞
−∞
1
√
σ 2π
e
−(x −µ)2
2σ 2
dx = 1
– 233 –
Erwartungswert und Varianz einer N (µ, σ2 )-verteilten Zufallsvariablen Xµ,σ2 :
E (Xµ,σ2 ) =
Z∞
x · fµ,σ2 (x ) dx = µ
−∞
Var(Xµ,σ2 ) = E (X02,σ2 ) − E (X0,σ2 )2 = σ2 − 0 = σ2
(invariant bezüglich Verschiebung)
– 234 –
Verteilungsfunktion der Standard-Normalverteilung
Definition E.94
Die Verteilungsfunktion (s. Definition E.90) der Standard-Normalverteilung ist
Φ:R
→
Φ (z )
=
R,
Z
z
−∞
f0,1 (x ) dx .
Graphen der Dichte f0,1 und von Φ siehe Abbildung.
– 235 –
1
0.8
0.6
0.4
0.2
-3
-2
-1
1
2
3
Abbildung : Die Standard-Normalverteilung und ihre Verteilungsfunktion
239
– 236 –
Bemerkung zur Verteilungsfunktion der Standard - Normalverteilung
I
I
I
Es gibt keine Darstellung von Φ durch elementare Funktionen.
Werte von Φ lassen sich aber beliebig genau numerisch berechnen, und für diskrete
Werte von z liegen die Funktionswerte tabellarisch vor (z.B. Bronstein, Taschenbuch
der Mathematik).
Dadurch kann man schnell Integrale der Form
b
Z
a
f0,1 (x ) dx = Φ(b ) − Φ(a)
auswerten.
I
Wegen
Φ(−z ) = 1 − Φ(z )
enthalten solche Tabellen z.B. nur die Werte für nicht-negative z.
I
Für symmetrische Intervalle [−z , z ] (mit z > 0) gilt:
Z
z
−z
f0,1 (x ) dx
=
Φ(z ) − Φ(−z ) = Φ(z ) − (1 − Φ(z )) = 2Φ(z ) − 1.
– 237 –
Einige spezielle Werte von Φ:
Φ (0)
=
0 .5 ,
Φ (1)
≈
0.8413
⇒
R1
≈
0.6826,
Φ (2)
≈
0.9772
⇒
R2
≈
0.9544,
⇒
R3
≈
0.9972.
Φ (3)
≈
0.9986
−1 f0,1 (y ) dy
−2 f0,1 (y ) dy
−3 f0,1 (y ) dy
Aus der zweiten Zeile folgt z.B., dass bei irgendeiner Normalverteilung dem Intervall
[µ − σ, µ + σ] mit Radius σ (Streuung) um den Erwartungswert µ herum eine
Wahrscheinlichkeit von etwa 68% zugeordnet wird. Bei einem Experiment mit vielen
voneinander unabhängigen N (µ, σ2 )-verteilten Messungen liegen ungefähr 68% der
Meßwerte in diesem Intervall.
– 238 –
Abbildung : Die Standard-Normalverteilung mit ihrem σ-, 2σ- und 3σ-Intervall
243
– 239 –
Definition E.95 (α-Quantile der N (—, ff2 )-Verteilung)
Sei α ∈]0, 1[. Das α-Quantil der Standard-Normalverteilung ist die Zahl z ∈ R mit
α=
also
Z
z
−∞
f0,1 (x ) dx = Φ(z ),
z = Φ −1 ( α ).
Bemerkung: Quantile für allgemeine Verteilungen, Median
Man kann α-Quantile allgemein für (diskrete oder kontinuierliche) reelle Verteilungen
definieren.
Das 12 -Quantil heißt Median der Verteilung. Im Falle einer kontinuierlichen Verteilung auf
einem Intervall [a, b ] mit überall positiver Dichte f ist der Median m die durch die Bedingung
P ([a, m ]) = 21 eindeutig festgelegte Zahl. Der Median ist im allgemeinen vom
Erwartungswert verschieden.
– 240 –
Transformation einer beliebigen Normalverteilung in die
Standard-Normalverteilung
I
Normalverteilung N (µ, σ2 ) (Erwartungswert µ, Varianz: σ2 )
fµ,σ2 (x ) =
I
1
√
σ 2π
e
−(x −µ)2
2σ 2
Standard-Normalverteilung N (0, 1) (Erwartungswert 0, Varianz: 1)
1
f0,1 (x ) = √ e
2π
−x 2
2
Umrechnung:
fµ,σ2 (x ) =
1
√
σ 2π
e
−(x −µ)2
2σ 2
=
1
σ
1
√
2π
e
− 12
x −µ
σ
2 =
1
σ
f0,1
x −µ
σ
– 241 –
Wahrscheinlichkeit: Sei X N (µ, σ2 )-verteilt.
P (X ∈ [a; b ])
b
Z
=
fµ,σ2 (x )dx
a
b
Z
=
σ
a
f0,1
x −µ
dx
σ
b −µ
Z
=
1
σ
a− µ
f0,1 (z )dz
σ
Verteilungsfunktion:
Φ (z ) =
P (X ∈ [a; b ]) = Φ
z
Z
−∞
f0,1 (z )dz
b−µ
σ
−Φ
a−µ
σ
(Anwendung in Übungsaufgabe 5, Serie 6)
– 242 –
Der zentrale Grenzwertsatz, den wir hier in einer speziellen Version formulieren, erklärt die
herausragende Bedeutung von Normalverteilungen für die Wahrscheinlichkeitstheorie und
Statistik.
Satz E.96 (Zentraler Grenzwertsatz)
Sei X1 , X2 , . . . eine Folge von auf demselben Wahrscheinlichkeitsraum (Ω, P ) definierten,
paarweise unabhängigen reellen Zufallsvariablen, die alle dieselbe Verteilung haben mit
E (Xi ) = µ,
Sei X (n) = X1 + . . . Xn , und sei Z (n) =
Var(Xi ) = σ2 > 0.
X (n ) − n µ
√
.
σ n
(Somit hat Z (n) den Erwartungswert 0 und
die Varianz 1.)
246
– 243 –
Dann gilt für jedes Intervall [a0 , b0 ] ⊂ R:
lim P (Z (n) ∈ [a0 , b0 ]) =
n→∞
Z
b0
a0
f0,1 (x ) dx .
wobei f0,1 die Dichte der Standard-Normalverteilung ist. Äquivalent dazu können wir
schreiben:
! Z
b0
X (n ) − n µ
√
lim P
f0,1 (x ) dx .
∈ [ a0 , b0 ] =
n→∞
σ n
a0
– 244 –
Beispiel E.97 (Binomialverteilung für große n)
Die Binomialverteilung mit gegebenem Erfolgsparameter p wird für große n ungefähr gleich
einer N (np, np (1 − p )) Normalverteilung:
P (k ) =
(k − µ )2
n k
1
−
p (1 − p )n −k ≈ √
e 2σ2 mit µ = np und σ2 = np (1 − p ).
k
2πσ
Dieser Sachverhalt, der für p = 0.3 und n = 100 in der folgenden Abbildung illustriert ist,
folgt direkt aus dem zentralen Grenzwertsatz, denn die binomialverteilte Zufallsvariable K
kann als Summe vieler unabhängiger Zufallsvariablen Xi aufgefasst werden, die jeweils nur
die Werte 0 oder 1 (jeweils mit Wahrscheinlichkeit (1 − p ) bzw. p) annehmen, und die den
Erwartungswert p und die Varianz p (1 − p ) haben.
– 245 –
0.08
0.06
0.04
0.02
15
20
25
30
35
40
45
Abbildung : Histogramm der Binomialverteilung für n = 100 und p = 0.3, verglichen mit der
N (np, np (1 − p )) Verteilung.
– 246 –
Herunterladen