Differentiation

Werbung
Kapitel 5
Differentiation
Hier rekapitulieren wir Differentiation/Differenzieren“ vom angewandten Standpunkt aus. Wir
”
werden sehen, dass diese elementare Operation in einer Reihe von interessanten angewandten
Fragestellungen zur Lösung beiträgt. Entwickelt hat sich diese Operation aus dem Bedürfnis,
Bewegung von Massenpunkten zu erklären und zu beschreiben. Bei der Skizze von Elementarer
”
angewandter Mathematik“ darf schon aus historischen Gründen ein Bezug zur (mathematischen)
Physik nicht fehlen.
5.1
Differenzierbarkeit
Der Funktionsbegriff, wie er nun in der Schulmathematik und in elementaren Kursen (Calculus) gelehrt wird, ist ein Produkt“ der klassischen Mechanik, die von einer mathematischer
”
Beschreibung der Bewegung von Massenpunkten handelt.1 Am Anfang steht das Newtonsche
Kraftgesetz2
Masse · Beschleunigung = Kraft
Die Masse fungiert hier nur als eine Art Proportionalitätskonstante. Für die Kraft benötigt man
ein physikalisches Modell (Federkraft, Rückstellkraft, Reibungskraft, Gravitationskraft,. . . ), die
Beschleunigung ist der Bestandteil, der uns hier interessiert. Ganz vereinfacht ausgedrückt:
Beschleunigung
=
Veränderung von Geschwindigkeit
Geschwindigkeit
=
Veränderung von Örtlichkeit
Damit sind wir beim Begriff Veränderung/Änderung angekommen. Den Newtonschen Ansatz
verfolgend, gehen wir davon aus, dass wir Veränderung als Veränderung einer (physikalischen)
Größe in der Zeit wahrnehmen wollen. Was Zeit ist, ist so schwierig zu erklären wie Kraft. Hier ist
Zeit ein Punkt, also ein Zeitpunkt, der reellen Zahlengeraden und Zeitspanne eine Differenz von
zwei Zeitpunkten. Hinter dem Begriff der Größe werden in der Physik meist messbare Begriffe
verstanden, wie z.B. Länge, Zeit, Masse, elektrische Ladung, . . . . Viele Einführungen in die
mathematischen Vorbereitungen auf die klassische Mechanik beginnen etwa so: Zur Festlegung
einer physikalischen Größe werden drei Angaben benätigt:
Dimension, Maßeinheit, Maßzahl
Die Maßzahlen sind entnommen einem Zahlbereich. Man kommt in der Regel mit den reellen Zahlen aus. Für das MKS–System (Meter–Kilogramm–Sekunden–System) sind die Größen
Länge, Masse, Zeit zentral; siehe Abbildung 5.1.
1
Von G. Galilei stammt der Ausspruch: Das Buch der Natur ist in der Sprache Mathematik geschrieben J. W.
von Goethe war diese Sicht nicht ganz geheuer.
2
Isaac Newton, Principia
50
Physikalische Größen, die nach Festlegung der Dimension und einer Maßeinheit durch die Angabe einer einzigen
Maßzahl vollständig beschrieben sind,
nennt man Skalare.3 Größen, bei denen zur vollständigen Beschreibung neben einem Zahlenwert, dem Betrag“,
”
noch die Angabe einer Richtung“ er”
forderlich ist, nennt man Vektoren.
Beispiele für Skalare: Masse,
Temperatur, Energie, Wellenlänge, . . . .
Beispiele für Vektoren: Kraft,
Geschwindigkeit, Beschleunigung,. . . .
Länge
Dimension [Länge]
Maßeinheit Meter/m
Masse
Dimension [Masse]
Maßeinheit Kilogramm/kg
Zeit
Dimension [Zeit]
Maßeinheit Sekunde/s
Geschwindigkeit
Kraft
[Länge]
[Zeit]
m
Maßeinheit s
[Masse][Länge]
Dimension
[Zeit][Zeit]
Dimension
Maßeinheit Newton/N
Wir beschränken uns im wesentlichen
auf skalare Größen. Wenn wir über GeAbbildung 5.1: MKS–System
schwindigkeit und Beschleunigung reden, legen wir eine eindimensionale Situation zu Grunde.
Das Verhalten einer solchen Größe in der Zeit, über ein Zeitintervall I, beschreiben wir mit
einer Funktion f : I −→ R , t 7−→ f (t) , d.h. mit einer Vorschrift, die jedem Zeitpunkt t ∈ I
genau ein reelle Zahl zuordnet. Solche Funktionen veranschaulichen wir uns durch den Graphen:
graph(f ) := {(t, y)|t ∈ I, y = f (t)} .
damit können wir etwa beschreiben, was wir oben mit Örtlichkeit“ gemeint haben: f (t) be”
schreibt den Weg, den ein Massenkörper seit einem Zeitpunkt t0 bis zum Zeitpunkt t zurückgelegt
hat.
Um beschreiben zu können, was Geschwindigkeit ist, benötigen wir nun den Begriff der Ableitung.
Definition 5.1.1 Sei I := [a, b] ein Intervall, sei
f : I −→ R, w ∈ I . Wir sagen, dass f ′ (w) die Ableitung von f in w ist, wenn für jede Folge (tn )n∈N
mit tn ∈ I und tn 6= w für alle n ∈ N,
f (tn ) − f (w)
n∈N
tn − w
f ′ (w) = lim
Tangente
f(t)
Sekante
f(w)
(5.1)
w
gilt.
f (t) − f (w)
Kurzschreibweise: f ′ (w) = lim
.
t−w
t→w
t
t
In der Definition haben wir unterstellt, dass der Leser vertraut ist mit dem Begriff der Folge und der
Konvergenz von Folgen; siehe Anhang 5.5.
Abbildung 5.2: Tangente
Ist in der Definition 5.1.1 etwa w = a oder w = b,
dann haben wir es mit einseitigen Ableitungen zu
tun. Den Arbeitsschritt, die Ableitung auszurechnen, nennt man Differenzieren.
3
Bei den Griechen hießen die (ungleichen) Seitenlängen eines quaderförmigen Körpers σκαλενoὶ ά
’ ριϑµoι.
51
Die Berechnung der Ableitung f ′ (w) bedeutet, wenn f (t) zur Zeit t eine durchlaufene Wegstrecke darstellt, die Ermittelung einer Momentangeschwindigkeit zur Zeit t .
Die Definition 5.5.7 kann so interpretiert werden, dass die Funktion f in der Nähe von w gut
durch die affine Funktion (Polynom 1. Grades)
I ∋ t 7−→ f (w) − f ′ (w)(t − w) ∈ R
angenähert wird. In der Zeichenebene R2 nehmen wir diese affine Funktion als Tangente an
den Graphen von f wahr, d.h. als im Punkt (w, f (w)) berührende Gerade. Beachte hierzu
f (t) − f (w)
1
′
′
(f (t) − f (w) − f (w)(t − w)) = lim
− f (w) = 0 .
(5.2)
lim
t→w
t→w t − w
t−w
In Abbildung 5.2 sind zwei Steigungsdreiecke eingezeichnet, die die Tangente als Grenzsituation von Sekanten andeuten:
Länge der Gegenkathede
f (t) − f (w)
t−w
Länge der Ankathete
Die Ableitung f ′ (w) kann als Tangens des Steigungswinkels der Tangente interpretiert werden.
In der reellen Analysis wird im Allgemeinen dem Begriff der Differenzierbarkeit der Begriff
der Stetigkeit vorausgeschickt. Stetigkeit von Funktionen wird oft so charakterisiert, dass sie
sicherstellt, dass der Graph in einem Zug ohne abzusetzen zu Papier gebracht werden kann. Bei
einer Treppenfunktion ist dies nicht der Fall. Differenzierbarkeit von Funktionen bedeutet dann
in diesem Kontext, dass der Graph keine Ecken besitzt. Die Form eines V“ gehört nicht zu
”
diesen Graphen. Diese Betrachtungsweisen sind nicht weit von der mathematischen Wirklichkeit entfernt. Von der Anwendungsseite her ist Stetigkeit das Konzept, das sicherstellt, dass man
Störungen einer Größe quantitativ und qualitativ studieren kann. Ist die Funktion f differenzierbar in w, dann ist sie dort auch stetig. Wir begnügen uns hier mit elementaren Fragestellungen
zur Differenzierbarkeit. Weitergehende Aussagen zur Stetigkeit und Differenzierbarkeit sind im
Anhang 5.5 skizziert. Dort findet man auch den Beweis zu folgendem
Satz 5.1.2 (Weierstrass) Sei f : [a, b] −→ R stetig. Dann gibt es u, v ∈ [a, b] mit
min f (t) = f (u) ≤ f (v) = max f (t) .
t∈[a,b]
t∈[a,b]
Wesentlich bei der Beweisargumentation ist, dass man von einer Folge (tn )n∈N im Intervall im
vorliegenden Kontext o.E. annehmen darf, dass sie konvergent ist. Hier geht ganz wesentlich ein,
dass wir Analysis in den reellen Zahlen betreiben.
Haben wir eine Funktion I ∋ t 7−→ f (t) ∈ R, die in jedem Punkt differenzierbar ist, dann
können wir die Funktion
I ∋ t 7−→ f ′ (t) ∈ R
betrachten und uns wieder fragen, ob diese so entstandene Funktion wieder in Punkten oder
insgesamt differenzierbar ist. Diese Ableitungen schreiben wir dann als f ′′ (w) und nennen sie
die zweite Ableitung von f in w . Dies können wir nun weiter fortsetzen und über Ableitungen
f (k) (w) der Ordnung k in w reden. Mit der zweiten Ableitung der Ortsfunktion haben wir im
physikalischen Kontext nun die Beschleunigung zur Verfügung.
Die Bezeichnungsweise für Ableitungen hat sich im Laufe der Beschäftigung unterschiedlicher
Matadoren“ mit der Entwicklung der reellen Analysis herausgebildet.
”
52
Leibniz–Notation Leibniz hat die Bezeichnungen
df
d
d2 f
df df
,
(x) ,
:= dx , . . .
dx dx
dx
dx2
eingeführt. Diese Bezeichnungsweise führt dazu, dass sich die Kettenregel – u = h(x), y =
g(u) – als eine Art Kürzungsregel für infinitesimale Größen interpretieren lässt:
dy
dy du
=
·
dx
du dx
Lagrange–Notation Auf Lagrange geht die Strich–Notation“ zurück, die wir oben verwendet
”
haben:
f ′ , f ′ (x) , f ′′ := (f ′ )′ , f (4) := (f ′′′ )′ , . . .
Newton–Notation Newton war in erster Linie Physiker. Ableitungen stehen für Veränderungen
von Größen in der Zeit. Seine Bezeichnungen waren, und sind heutzutage in der Physik
durchaus noch gebräuchlich:
.. ..
ẏ , ẏ(t) , y , y(t) .
Beispiel 5.1.3 G. Galilei stellt das Gesetz auf, dass auf der Erde beim freien Fall eines Massenkörpers (im Vakuum, also ohne Form und Luftwiderstand zu berücksichtigen), für den Weg
s(t), der seit Beginn des freien Falls zum Zeitpunkt t0 = 0 durchlaufen wurde, zum Zeitpunkt t
gegeben ist durch
m
1
(5.3)
s(t) = gt2 mit g ∼ 9.81 2 .
2
s
Als Geschwindigkeit v(t) zur Zeit t errechnen wir mit
s(t + h) − s(t)
1 (t + h)2 − t2
1 (t + h + t)(t + h − t)
1
= g
= g
= g (2t + h)
h
2
h
2
h
2
offenbar v(t) = gt . Wir sagen, die Geschwindigkeit sei gleichförmig. Für die Beschleunigung
b(t) zur Zeit t leiten wir dann wegen
g(t + h) − g(t)
v(t + h) − v(t)
=
=g
h
h
ab: b(t) = g . Wir haben es also mit einer konstanten Beschleunigung zu tun und g ist ist diese
Beschleunigung. Deshalb heißt g auch Erdbeschleunigung. Galilei hat also die Annahme getroffen, dass die Gravitationskraft, die auf den Massenkörper wirkt, konstant sei. Man kommt im
übrigen von dieser Annahme durch die Bildung von Stammfunktionen (Integration) zum Ansatz
(5.3) zurück.4 Das Gravitationsgesetz von I. Newton bringt ziemlich abschließend Klarheit in die
Frage, was Bewegung unter der Schwerkraft ist.
5.2
Differenzenquotienten und ihre Güte
Aus der Definition der Ableitung als Grenzwert ergeben sich sofort Ansätze für die näherungsweise
Berechnung einer Ableitung. Unmittelbar naheliegend sind:
4
In einem Brief von Galilei wird Mathematische Modellierung versus Erfahrung mit der Wirklichkeit treffend
beschrieben: Zeigt die Erfahrung nunmehr, dass solche Eigenschaften, wie wir sie abgeleitet haben, im freien Fall
der Naturkörper ihr Bestätigung finden, so können wir ohne Gefahr des Irrtums behaupten, dass die konkrete
Fallbewegung mit derjenigen, die wir definiert und vorausgesetzt haben, identisch ist; ist dies nicht der Fall, so
verlieren doch unsere Beweise, da sie einzig und allein für unsere Voraussetzung gelten wollten, nichts von ihrer
Kraft und Schlüssigkeit.
53
f (w + h) − f (w)
h
f (w) − f (w − h)
Rückwärts–Differenz ∆− f (h; w) :=
h
Dabei ist h eine positive Schrittweite. Kombiniert man diese beiden Möglichkeiten durch Bildung des arithmetischen Mittels, so entsteht
Vorwärts–Differenz
∆+ f (h; w) :=
Zentrale Differenz ∆1 f (h; w) :=
f (w + h) − f (w − h)
2h
Was sollte man bezüglich der Frage, welche Näherung im allgemeinen geeigneter ist, als Antwort erwarten? Es ist wohl nicht überraschend, dass die Antwort klar zu Gunsten der Zentralen
Differenz ausfällt, denn Mittelwertbildung kann immer die Konsequenz haben, dass sich entgegengesetzte Fehler“ aufheben. Aber kann man dies auch analytisch zeigen? Dazu holen wir ein
”
klein bisschen aus.
Unter Kurvendiskussion versteht man in der
Schulmathematik die Untersuchung von Funktionsgraphen auf Hoch–, Tief– und Wendepunkte mit
dem Ziel einen Verlauf des Graphen zu erahnen. Ein
erstes Werkzeug dabei ist enthalten im Satz 5.1.2,
denn er sichert die Existenz von Hoch– und Tiefpunkten. Hier folgt die Charakterisierung von Hoch–
und Tiefpunkten.
f(t)
waagrechte Tangente
Satz 5.2.1 Sei f : [a, b] −→ R , und sei ξ ∈ (a, b)
mit f (ξ) = max f (t) oder f (ξ) = min f (t) .
t∈[a,b]
t∈[a,b]
Ist f differenzierbar in ξ, so gilt f ′ (ξ) = 0 .
Beweis:
Sei etwa f (ξ) = max f (t) . Wir haben f (t) ≤ f (ξ)
a
ξ
b
x
t∈[a,b]
für alle t ∈ [a, b]. Folglich ist
f (t) − f (ξ)
≥ 0,
≤ 0,
t−ξ
Abbildung 5.3: Der Satz von Rolle
falls t < ξ
falls t > ξ
und daher f ′ (ξ) = 0 .
Man beachte, dass die Aussage des obigen Satzes so nur gilt, weil ξ ∈ [a, b]\{a, b} ist. Vergleiche etwa mit f : [−1, 1] ∋ t 7−→ t ∈ R .
Satz 5.2.1 ist ein Baustein für die Diskussion des Änderungsverhaltens von Funktionen: er
gestattet es, Kandidaten für Maxima (Hochpunkte) und Minima (Tiefpunkte) – man ersetze f
durch −f – auszusortieren.
Satz 5.2.2 (Satz von Rolle) Sei f : [a, b] −→ R differenzierbar und sei f (a) = f (b) . Dann
gibt es ξ ∈ (a, b) mit f ′ (ξ) = 0.
Beweis:
Ist f identisch Null, ist nichts zu beweisen. Also sei f nicht identisch Null. O.E. gibt es dann
t ∈ (a, b) mit f (t) > 0. Nach Satz 5.1.2 gibt es ξ ∈ (a, b) mit
f (ξ) = max f (t) .
t∈[a,b]
Da f (a) = f (b) = 0, f (ξ) ≥ f (t) > 0 gilt, ist ξ 6= a, ξ 6= b . Dann ist nach Satz 5.2.1 f ′ (ξ) = 0 .
54
Satz 5.2.3 (Mittelwertsatz der Differentialrechnung) Sei f : [a, b] −→ R differenzierbar. Dann gibt es ξ ∈ (a, b) mit
f (b) − f (a)
= f ′ (ξ)
(5.4)
b−a
Beweis:
Betrachte
h : [a, b] ∋ t 7−→ f (a) +
f (b) − f (a)
(t − a) ∈ R.
b−a
Es gilt h(a) = f (a), h(b) = f (b) und nach dem Satz von Rolle, angewendet auf h − f, gibt es
ξ ∈ (a, b) mit
f (b) − f (a)
= f ′ (ξ).
h′ (ξ) − f ′ (ξ) = 0 , d.h.
b−a
Sieht man die Funktion f aus Satz 5.2.3 als physikalische Ortsfunktion an, dann besagt das
Resultat, dass man auf dem Weg von f (a) nach f (b)“ zu irgendeinem Zeitpunkt ξ so schnell
”
sein gewesen sein muss wie die mittlere Geschwindigkeit.
Den nächsten Abschnitt bereiten wir vor mit einem Resultat, das in der Literatur noch
allgemeiner dargestellt wird und als Taylor-Entwicklung mit Restglied bezeichnet wird.
Satz 5.2.4 Sei f : (a, b) −→ R und sei w ∈ (a, b) .
(a) Sei f zweimal differenzierbar in (a, b) . Dann gibt es zu jedem x ∈ (a, b) ein ξ zwischen
w, x mit
1
(5.5)
f (x) = f (w) + f ′ (w)(x − w) + f ′′ (ξ)(x − w)2
2
(b)
Sei f dreimal differenzierbar in (a, b) . Dann gibt es zu jedem x ∈ (a, b) ein ξ zwischen w, x
mit
1
1
f (x) = f (w) + f ′ (w)(x − w) + f ′′ (w)(x − w)2 + f ′′′ (ξ)(x − w)3
(5.6)
2
6
Beweis:
Zu (a).
Sei x ∈ (a, b) . Wir machen den Ansatz
f (x) = f (w) + f ′ (w)(x − w) + c(x − w)2
mit einer noch unbekannten Konstante c und definieren
F : (a, b) ∋ z 7−→ f (z) + f ′ (z)(x − z) + c(x − z)2 ∈ R .
Wir beobachten
F (x) = f (x) , F (w) = f (x) , also F (x) = F (w) .
Nach dem Satz von Rolle 5.2.2 gibt es ein ξ zwischen x und w mit F ′ (ξ) = 0 . Dies impliziert
c = 21 f ′′ (ξ) und die behauptete Identität (5.5) ist bewiesen.
Zu (b).
Sei x ∈ (a, b) . Wir machen den Ansatz
1
f (x) = f (w) + f ′ (w)(x − w) + f ′′ (w)(x − w)2 + c(x − w)3
2
mit einer noch unbekannten Konstante c und definieren
1
F : (a, b) ∋ z 7−→ f (z) + f ′ (z)(x − z) + f ′′ (z)(x − z)2 + c(x − z)3 ∈ R .
2
55
Wir beobachten
F (x) = f (x) , F (w) = f (x) , also F (x) = F (w) .
Nach dem Satz von Rolle 5.2.2 gibt es ein ξ zwischen x und w mit F ′ (ξ) = 0 . Dies impliziert
c = 61 f ′′′ (ξ) und die behauptete Identität (5.6) ist bewiesen.
Der Mittelwertsatz 5.2.3 ließe sich unter Satz 5.2.4 einreihen, denn er liefert für eine differenzierbare Funktion f : (a, b) −→ R zu jedem x ∈ (a, b) ein ξ zwischen w, x mit
f (x) = f (w) + f ′ (ξ)(x − w)
(5.7)
Damit können wir nun die Qualität der Differenzenquotienten festhalten, wobei sich die Voraussetzungen, die dafür benötigt werden, schon aus den Darstellungen ergeben:
1 ′′
|f (ξ)| h mit einem ξ zwischen x, w .
(5.8)
|∆+ f (h; w) − f ′ (w)| ≤
2
1 ′′
|∆− f (h; w) − f ′ (w)| ≤
|f (ξ)| h mit einem ξ zwischen x, w .
(5.9)
2
1 ′′′
|∆1 f (h; w) − f ′ (w)| ≤
|f (ξ)| h2 mit einem ξ zwischen x, w .
(5.10)
6
Dies bestätigt die Vermutung, dass die zentrale Differenz die bessere Wahl ist, wenn sie denn
zur Verfügung steht.
Eine Approximation der zweiten Ableitung einer Funktion : [a, b] −→ R erhält man durch
f (t + h) − f (t)
aus der Näherung f ′′ (t) ∼
durch Zusammensetzen von Differenzenquotienten:
h
f (t + h) − 2f (t) + f (t − h)
∆+ f (h; w) − ∆− f (h; w)
=
.
∆2 f (h; w) :=
h
h
∆2 f (h; w) nennt man einen Differenzenquotienten zweiter Ordnung.
5.3
Numerische Differentiation
Die Differentiation gemessener Daten, denen ein funktionaler Zusammenhang unterstellt wird,
ist in den Naturwissenschaften eine häufig vorkommende Aufgabe:
• In der Mechanik: Bestimme Kräfte aus der Messung von Geschwindigkeiten; der funktionale Zusammenhang wird durch das Newtonsche Kraftgesetz mv ′ = k (m: Masse, v:
Geschwindigkeit, k Kraft) hergestellt.
• In der Bildverarbeitung: Bestimme Kanten in einem Bild (Kanten sind dort, wo sich die
Grauwerte eines Bildes stark ändern, d.h. wo die Ableitung groß ist).
• In der Computertomographie: Die Dichte wird aus Messungen der Abschwächung von
Röntgenstrahlen ermittelt (Der Zusammenhang zwischen Dichte und Abschwächung enthält
an einer Stelle“ die Differentiation der ausgemessen Röntgenbilder).
”
• Die Sensitivität von Parametern in Differentialgleichungen erfordert die Schätzung von
Ableitungen (Wie hängt der Optionspreis von den Schwankungen des Aktienpreises ab?).
• . . . und siehe unten.
In der Regel spricht man bei den eben angesprochenen Aufgaben von inversen Problemen, da
sie entgegen der Kausalkette zu analysieren sind: aus gemessenen Daten sind unkannte Ursachen
zu ermitteln. Hier sind Probleme, die dieser Klasse von Problemen zuzuordnen sind:
- Über Jahrhunderte haben Menschen versucht, versteckte Räume zu finden durch die Analyse von Klopfgeräuschen.
- Platon5 spricht in seinem Höhlengleichnis in einem philosophischen Kontext über die Re5
Platon, 427 - 347
56
konstruktion der Realität aus Schattenbildern.
- Das Problem, das als ältestes inverses Problem der Naturwissenschaften bezeichnet werden
kann, ist die Berechnung des Erdradius durch Eratosthenes6 in 200 b. Chr.; siehe [6].
- 1800 benutzte Gauss7 die Fehlerquadratmethode, um die Bahn eines Kometen aus beobachteten Bahndaten vorherzusagen. Diese Fehlerquadratmethode ist ein unverzichtbares
Werkzeug der Naturwissenschaften.
- 1917 veröffentlichte Radon8 eine Arbeit mit dem Titel Über die Bestimmung von Funktio”
nen durch ihre Integralwerte längs gewisser Mannigfaltigkeiten“. In diesem Papier studierte
er ein Transformation, die heutzutage bekannt ist als Radontransformation und die eine
überragende Rolle in der Computertomographie spielt.
Seit große Computerrechenleistung zur Verfügung steht, hat sich das Spektrum der inversen
Probleme stark ausgeweitet. Hier ist eine kleine Liste interessanter inverser Probleme:
• das inverse Problem der Geodäsie;
• Röntgentomographie, Ultraschalltomographie, Lasertomographie;
• Bildanalyse;
• Seismische Exploration;
• Elektro– und Magnetokardiographie;
• Evolution rückwärts in der Zeit;
• can one hear the shape of a drum?“
”
Das Problem der (numerischen) Differentiation stellt sich so dar:
Gegeben sei eine differenzierbare Funktion y : [0, 1] −→ R, bestimme f := y ′ .
Da wir unterstellen wollen, dass uns y nur über einen Messprozess oder einen Rundungsprozess
in einem Computer zugänglich ist, liegt uns y nicht in exakter Form vor, sondern wir haben
nur eine Näherung“ ỹ zur Hand, die im allgemeinen nicht differenzierbar ist, von der wir aber
”
immerhin noch annehmen wollen, dass sie stetig ist. (In der Praxis ist dies meist so nicht der
Fall, aber die charakteristischen Probleme lassen sich schon unter dieser Annahme studieren.)
Eine solche Näherung kann auch durch Interpolation“ von diskreten Daten zustandekommen.
”
5.4
Analyse der Aufgabe
Wir studieren die Aufgabe nun unter folgenden Voraussetzungen:
(A1) y ′ ist differenzierbar und es ist eine Schranke E bekannt mit
|y ′′ (t)| ≤ E for all t ∈ [0, 1] .
(A2) Es ist eine Näherung y ε : [0, 1] −→ R von y gegeben mit
|y ε (t) − y(t)| ≤ ε for all t ∈ [0, 1] .
6
Eratosthenes, 284 – 202
C. F. Gauss, 1777 – 1855
8
J. Radon, 1887 – 1956
7
57
Beide Voraussetzungen sind typisch für ein inverses Problem: (A1) ist eine qualitative (differenzierbar) und quantitative (Schranke E) Voraussetzung bezüglich der gesuchten Lösung. (A2)
ist eine qualitative (stetig) und quantitative (Schranke ε) Voraussetzung an den Fehler y − y ε .
Es liegt nahe, die Ableitung f := y ′ in τ ∈ (0, 1) von y zu rekonstruieren durch
f ε,h (τ ) := ∆+ y ε (h, τ ) =
y ε (τ + h) − y ε (τ )
,
h
wobei h 6= 0 so gewählt ist, dass τ + h ∈ [0, 1] gilt. Wir erhalten
|f ε,h(τ ) − y ′ (τ )| ≤ |
(y ε − y)(τ + h) − (y ε − y)(τ )
y(τ + h) − y(τ )
− y ′ (τ )| + |
|.
h
h
(5.11)
Da nach 5.2.4 (a)
1
y(τ + h) − y(τ )
− y ′ (τ ) = y ′′ (η)h mit einem η ∈ [0, 1] ,
h
2
gilt, erhalten wir unter den Voraussetzungen (A1), A(2):
|f ε,h (τ ) − y ′ (τ )| ≤
ε
1
hE + 2 .
2
h
(5.12)
Das Beste, was wir nun tun können, ist den Term auf der rechten Seite von (5.13) bezüglich h
zu optimieren, d.h. die Funktion r : h 7−→ 21 hE + 2 ε bezüglich h zu minimieren. Dies führt
h
wegen
ε
1
!
0 = r ′ (h) = E − 2 2
2
h
zu
r
ε
.
(5.13)
h := hopt := 2
E
Damit erhalten wir das folgende Endresultat
√
|f ε,h(ε)(τ ) − y ′ (τ )| ≤ 2 E ε .
(5.14)
Damit haben wir eine Näherung f ε,h(ε)(τ ) für y ′ (τ ) gefunden, die auf Grund der Gegebenheiten
plausibel erscheint.
Die Abbildung 5.4, die die Funktion r widergibt, ist typisch bei der Lösung inverser Aufgaben: es ist der Ausgleich von zwei Termen herzustellen, einer resultiert aus der Approximation
des Problems, der andere beinhaltet den Fehler
auf Grund von Datenfehler. Wir beobachten also, dass es bei festem Datenfehler ε nicht sinnvoll ist, ja geradezu desaströs ist, die Ableitungsschrittweite h kleiner und kleiner zu wählen. Man
kann solche Aufgaben unter dem Motto Wenn
”
das Ungenauer genauer ist“ betrachten.9 Quantitativ lässt sich noch sagen, dass Halbierung des
Datenfehlers ε nicht zu einer Halbierung des absoluten Fehlers der Lösung führt.
error bound
hE
ε
h
h
Abbildung 5.4: Fehlerkurven
Die Forderung nach einer Schranke E in Voraussetzung (A2) beschreibt eine a priori Information. Die Größe SN R := E
ε wird meist
9
Die ist der Titel von [10].
58
als signal to noise ratio bezeichnet: E kann als Energieschranke des unbekannten Signals,
ε als Schranke des Datenfehlers (noise) angesehen werden. Die Optimierung des Terms r wird
übicherwewise als a priori–Strategie bezeichnet: sie kann vorgenommen werden, ohne eine
(Beispiels-)Rechnung angestellt zu haben. Im Gegensatz dazu stehen Strategien, die die optimale Wahl des Parameters h von den Ergebnissen der Beispielrechnung abhängig machen;
a postriori–Strategien. Für die Realisierung der obigen Näherung f ε,h(ε)(τ ) für y ′ (τ ) hängt
natürlich von der Kenntnis von ε und E ab. In der Prais sind Methoden bekannt, die die Aufgabe
auch nutrzen können, wenn nur ein Parameter davon bekannt ist.
5.5
Anhang: Folgen, Stetigkeit, Differenzierbarkeit
Eine reelle Zahlenfolge schreiben wir so auf: (an )n∈N . an ∈ R ist das n–te Folgenglied. Eine
solche Folge heißt konvergent mit Grenzwert/Limes a, falls gilt:
∀ ε > 0 ∃ N ∈ N ∀ n ≥ N (|an − a| < ε) ;
wir schreiben dann
a = lim an = lim an .
n
Beispielsweise hat die konstante Folge (1)n∈N den Grenzwert 1, die Folge (1/n)n∈N der Stamm√
brüche den Grenzwert 0. Eine Folge, die wir noch nutzen wollen, ist die Folge ( n n)n∈N . Ihr
Grenzwert wird in folgendem Lemma bestimmt:
√
Lemma 5.5.1 Es gilt lim n n = 1 .
n
Beweis:
Man rechnet
1+
√
n
n+
√
n
2
n + ··· +
√
n
nach. Daraus folgt

2(n − 1)



√
n3/2
n
n−1 ≤
2(n − 1)


 1/2
n (n − 1)
n−1
n
n−1
= √
n
n−1
falls n gerade
(5.15)
falls n ungerade
Daraus folgt die Behauptung.
Definition 5.5.2 Sei g : [a, b] −→ R, w ∈ [a, b] . Wir sagen dass g in w stetig ist, wenn
g(w) = limt→w g(t) gilt, d.h. wenn limn∈N g(tn ) = g(t) gilt für jede Folge (tn )n∈N in [a, b] .
Wir sagen dass g stetig in [a, b] ist, wenn g stetig ist in jedem w ∈ [a, b] .
Stetigkeit in einem w ist eine lokale Angelegenheit, d.h. eine Eigenschaft, bei der das Verhalten
der Funktion nur in einer Umgebung des fraglichen Punktes w eine Rolle spielt.
Eine äquivalente Definition der Stetigkeit in einem w ist: für alle ε > 0 gibt es ein δ > 0 mit
|g(t) − g(w)| < ε für alle t ∈ (w − δ, w + δ) ∩ I .
Beispiel 5.5.3 Betrachte die Funktion



−t

0
g : R ∋ t 7−→

−1



1
,
,
,
,
falls
falls
falls
falls
t≤0
t ∈ (0, 2), t 6= 1
∈ R.
t=1
t≥2
Dann haben wir: f ist stetig für t 6= 1, 2 und differenzierbar für t 6= 0, 1, 2 .
59
(5.16)
Regel 5.5.4 Sei I := [a, b] ein Intervall, seien g, h : I −→ R stetig in w . Dann gilt:
g + h, g · h sind stetig in w .
g/h ist stetig in w, falls h(w) 6= 0 gilt.
(5.17)
(5.18)
Diese Regeln ergeben sich sofort aus den Rechenregeln für Limiten.
Beispiel 5.5.5 Aus den Rechenregeln ergibt sich die Stetigkeit ganz vieler Funktionen. Zum
Beispiel:
Jedes Polynom ist stetig.
Jede rationale Funktion ist stetig, da ja die Nullstellen im Nenner aus dem Definitionsbereich entfernt wurden/entfernt werden mussten.
Die Stetigkeit der Wurzelfunktion in w 6= 0 liest man aus folgender Betrachtung
√
√
|t − w|
1
| t − w| ≤ √
√ ≤ √ |t − w|
w
| t + + w|
ab.
Satz 5.5.6 (Weierstrass) Sei f : [a, b] −→ R stetig. Dann gibt es u, v ∈ [a, b] mit
min f (t) = f (u) ≤ f (v) = max f (t) .
t∈[a,b]
t∈[a,b]
Beweis:
Offenbar sind u, v ∈ [a, b] gesucht mit
f (u) = inf f (t) , f (v) = sup f (t).
t∈[a,b]
t∈[a,b]
Zur Existenz von u.
Annahme: {f (t)|t ∈ [a, b]} ist nicht nach unten beschränkt.
Dann gibt es eine Folge (tn )n∈N mit tn ∈ [a, b], f (tn ) < −n für alle n ∈ N. Da die Folge
(tn )n∈N beschränkt ist, besitzt sie (nach dem Satz von Heine-Borel) eine konvergente Teilfolge
(tnk )k∈N ; z := limk tnk . Da f stetig ist, gilt f (z) = limk f (tnk ) = −∞ . Dies ist aber ein Widerspruch.
Also ist nun {f (t)|t ∈ [a, b]} nach unten beschränkt und es existiert inf t∈[a,b] f (t) . Offenbar
gibt es daher eine Folge (tn )n∈N mit tn ∈ [a, b], n ∈ N, und limn f (tn ) = inf t∈[a,b] f (t) . Da die
Folge (tn )n∈N beschränkt ist, besitzt sie (wiederum nach dem Satz von Heine-Borel) eine konvergente Teilfolge (tnk )k∈N ; u := limk tnk . Da f stetig ist, gilt f (u) = limk f (tnk ) = limn f (tn ) =
inf t∈[a,b] f (t) .
Zur Existenz von v.
Beweise analog oder beachte, dass
sup f (t) = − inf (−f )(t)
t∈[a,b]
t∈[a,b]
ist.
Definition 5.5.7 Sei I := [a, b] ein Intervall, sei f : I −→ R, w ∈ I . Wir sagen dass f ′ (w)
die Ableitung von f in w ist, wenn für jede Folge (tn )n∈N mit tn ∈ I und tn 6= w für alle n ∈ N,
f ′ (w) = lim
n∈N
f (tn ) − f (w)
tn − w
(5.19)
gilt.
Kurzschreibweise: f ′ (w) = lim
t→w
f (t) − f (w)
.
t−w
60
Man kann nun, wie bei der Stetigkeit, der Definition 5.5.7 die so genannte ε–δ–Definition
der Differenzierbarkeit zur Seite stellen. In Analogie haben wir die Äquivalenz
f ist differenzierbar in w mit Ableitung f ′ (w) .
(a)
(b) ∀ ε > 0 ∃ δ > 0 ∀ t ∈ (w − δ, w + δ) ∩ I
f (t) − f (w)
− f ′ (w) < ε .
t−w
(5.20)
Satz 5.5.8 Sei I ein Intervall, sei f : I −→ R stetig in w ∈ I . Dann ist f stetig in w .
Beweis:
Dies liest man ab an
g(t) − g(w) = (g(t) − g(w) − g′ (w)(t − w)) + g′ (w)(t − w) .
Beachte: Aus Stetigkeit folgt nicht die Differenzierbarkeit.
Aus den Rechenregeln für Limiten ergeben sich Rechenregeln für die Berechnung von Ableitungen.
Regel 5.5.9 Sei I ein Intervall, seien f, g : I −→ R differenzierbar in w ∈ I , sei r ∈ R . Es
gilt:
(f + g) ist differenzierbar in w und es ist (f + g)′ (w) = f ′ (w) + g′ (w) .
′
(5.21)
′
(rg) ist differenzierbar in w und es ist (rg) (w) = rg (w) .
′
′
(5.22)
′
(f · g) ist differenzierbar in w und es ist (f · g) (w) = f (w)g(w) + f (w))g (w) .(5.23)
f ′ (w)g(w) − f (w)g′ (w)
. (5.24)
(f /g) ist differenzierbar in w und es ist (f /g)′ (w) =
g(w)2
Selbstverständlich ist (5.23) nur unter der Voraussetzung verwendbar, dass g(w) 6= 0 gilt.
Regel 5.5.10 (Kettenregel) Seien I, J Intervale, sei f : I −→ R differenzierbar in w ∈ I ,
sei g : J −→ R differenzierbar in η ∈ J und es gelte: f (I) ⊂ J, η = f (w) . Dann ist g ◦ f
differenzierbar in w und es gilt
(g ◦ f )′ (w) = g′ (f (w))f ′ (w) .
(5.25)
Aus der folgenden Identität liest man die Idee zum Beweis der Regel ab:
(g(f (t)) − (g(f (w)) f (t) − f (w)
(g ◦ f )(t) − (g ◦ f )(w)
=
.
t−w
f (t) − f (w)
t−w
Das Problem, mit einem verschwindenden Nenner f (t) − f (w) umzugehen, lässt sich einfach
umgehen.
5.6
Anhang: Der Lichtweg
Welche Bahn beschreibt ein Lichtstrahl in einem (inhomogenen) Medium? Eine erste Antwort
auf diese Frage geht zurück auf Hero von Alexandrien10 Er zeigt, dass ein Lichtstrahl bei der
Reflektion an einem Spiegel den kürzesten Weg vom Objekt zum Auge des Betrachters nimmt.
Fermat11 stützt seine Antwort auf die physikalische Annahme, dass Licht sich mit endlicher
Geschwindigkeit ausbreitet und diese Geschwindigkeit in dichterem Medium kleiner ist als in
einem dünneren Medium (Descartes ging vom Gegenteil aus!). Sein Extremalprinzip lautet:
Der Lichtstrahl nimmt die Bahn, die in kürzester Zeit durchlaufen wird.
10
11
Hero von Alexandrien, um 125 v. Chr.
Fermat, Pierre de, 1607 – 1662
61
Für den Fall zweier homogener Medien, die durch
eine Ebene getrennt sind, bedeutet dies (siehe Abbildung 5.5):
d
A
Mache
a
1p 2
1p
a + x2 +
(d − x)2 + b2
t(x) :=
c1
c2
α
bezüglich x minimal.
O
Dabei sind c1 , c2 die Ausbreitungsgeschwindigkeiten
des Lichtes im Medium 1 bzw. 2.
Als notwendige Bedingung erhalten wir – Fermat
hatte dazu schon die entsprechenden Kenntnisse, wir
bedienen uns der entwickelten Ergebnisse –
c1
d.h.
√
1
x
α2
b
B
Abbildung 5.5: Brechung von Licht
d−x
x
=0
− p
2
2
a +x
c2 (d − x)2 + b2
1
1 d−x
x
=
.
·
·
c1 |AO|
c2 |OB|
Daher
sin α1
sin α2
=
.
c1
c2
(5.26)
Fermat hat auch gezeigt, dass diese Bedingung hinreichend dafür ist, dass der Weg A OB die
kürzeste Laufzeit besitzt. Das Gesetz (5.26) wurde von Snellius (1621) am Beispiel der Lichtstrahlen entdeckt. Es erklärt in griffiger Weise die Lichtbrechung.
5.7
Übungen
√
n = 0.
Zeige: lim
2.)
Gegeben sei ein Schacht der Tiefe H . Wie viel Zeit T vergeht, bis man den Aufschlag
eines Steines hört, der in den Schacht fallen gelassen wird? Dies ist die direkte Fragestellung.
Die inverse Fragestellung lautet: Kann man aus der Zeit T die Tiefe des Schachts ermitteln?
Der Fallweg s eines Körpers in der Zeit t sei gegeben durch
n
n+1−
√
1.)
s = 5t2 .
(Dabei ist die Gravitationskonstante g mit 10 m/sec2 angenommen). Die Schallgeschwindigkeit, die bei der Berechnung von T ja berücksichtigt werden muss, sei c := 340m/sec .
(a) Berechne T in Abhängigkeit von H .
(b) Berechne H in Abhängigkeit von T .
3.)
Eine Radarfalle misst an einer Stelle, wo die Höchstgeschwindigkeit 100 km/h festgelegt
ist, die Zeitdifferenz zwischen zwei auf der Straße fixierten Punkten und berechnet dann
die gefahrene Geschwindigkeit durch die Funktion
v(t) := 150 − 150t2 , t ∈ [0, 1] .
Die Zeitdifferenzmessung ist bis auf ∆t := ±0.02 genau. Ein Fahrer erhält eine Strafe, wenn er die errechnete Geschwindigkeit von 110 km/h nach Abzug des potentiellen
Messfehlers überschreitet. Ist ein Fahrer zu bestrafen, wenn für ihn die Geschwindigkeit
112.5 km/h gemessen werden?
62
4.)
Das Bruttosozialprodukt für Deutschland wird (in US-$ pro Einwohner) folgendermaßen
angegeben:
2002 : 25620
2004 : 23560
2006 : 25279
2008 : 30690
Die Erhebung dieser Zahlen ist mit einem relativen Fehler von 1 % behaftet (was unter
Kennern eine sehr optimistische Aussage ist).
Das Wachstum von 2004 auf 2006 wird daraufhin mit 7.3 % angegeben, da
25279 − 23560
= 0.073
23560
gilt. Was lässt sich über die Fehler der Wachstumsangabe sagen?
5.)
Logarithmen zwischen den tabellierten Werten werden durch lineare Interpolation ermittelt. Allgemein bedeutet dies für eine Funktion f : [a, b] −→ R einen Wert v für f (t)
mit t ∈ (a, b) nach folgender Formel zu berechnen:
v − f (a)
f (b) − f (a)
=
.
t−a
b−a
(Die Punke (a, f (a)), (t, v), (b, f (b)) des Graphen liegen auf einer Geraden!)
(a)
Ermittle den natürlichen Logarithmus ln(2.4) aus dem natürlichen Logarithmen
ln(2.00) = 0.693 und ln(3.00) = 1.099 .
(b) Was lässt sich über den Fehler sagen, der dabei entsteht?
Hinweis: Die Ableitung der Funktion (0, ∞) ∋ t 7−→ ln(t) ∈ R ist (0, ∞) ∋ t 7−→
1
t ∈ R.
6.)
Die Laufdistanz s eines Läufers, von einer festen Marke aus gemessen, werde jede Sekunde
gemessen in Metern:
2.0
t 0.0 0.5 1.0 1.5
s 0.00 3.65 6.80 9.90 12.15
(a)
Benutze die zentralen Differenzen, um die Laufgeschwindigkeit des Läufers zu den
Zeiten t = 0.5 und t = 1.25 zu ermitteln.
(b) Beschreibe eine Methode, um die Beschleunigung des Läufers zu einem Zeitpunkt
zu ermitteln und wende sie an für den Zeitpunkt t = 1.5 .
63
Herunterladen