folgenden Skript - Institut für Mathematik

Werbung
Mathematik
für Studierende
der Physik oder der
Ingenieurwissenschaften
Skriptum für eine zweisemestrige Vorlesung
Version 2.2, 12.09.2014
Universität Würzburg
Institut für Mathematik
Richard Greiner
Vorwort
In dieser zweisemestrigen Vorlesung sollen möglichst zügig die wichtigsten mathematischen Grundlagen
für ein erfolgreiches Studium in Physik oder einem ingenieurwissenschaftlichen Studiengang gelegt werden.
Aus zwei Gründen meine ich, dass es keinen Sinn ergibt, dies durch die Vermittlung reines Methodenwissens zu bewerkstelligen. Einerseits halte ich das reine Vermitteln von Rechenrezepten eines Universitätsstudiums unwürdig, andererseits ist es letztlich uneffektiv. Genau so wie die Naturwissenschaften
dadurch mächtig werden, dass sie die verschiedenen Phänomene der Natur durch wenige grundlegende
Gesetze zu beschreiben vermögen (man denke z.B. an die Newtonschen Gesetze auf denen die Klassische
Mechanik fußt), wird die Mathematik mächtig und universell nutzbar, wenn man ihre Grundlagen kennt
und sich nutzbar zu machen vermag.
Um diese beiden Ziele zu verwirklichen, ist ein Spagat notwendig, bei dem ich manchmal dem effektiven
und letztlich insgesamt zeitsparenden Aufbau der Grundlagen den Vorzug gebe (beispielsweise werden
die komplexen Zahlen recht bald eingeführt). Meistens aber sollen die notwendigen mathematischen Methoden rechtzeitig zur Verfügung stehen. Ich hoffe, dass dies weitgehend gelingt, und fordere Sie auf, das
notwendige Arbeitstempo mitzumachen.
Von den vielen guten Büchern zur Mathematik in Natur- oder Ingenieurwissenschaften halte ich für den
Einstieg von Fischer und Kaul in ihre „Mathematik für Physiker“ [FiKau, Band 1] für den zuvor genannten
Zweck am geeignetsten und orientiere mich weitgehend daran. Ein eigenes Vorlesungsskript soll trotzdem
angeboten werden, damit Sie eine optimale Arbeitsgrundlage haben und weil auch insgesamt ein anderer
Stoffumfang zu bereitzustellen ist. Wie sie das Skript nutzen, bleibt letztlich Ihnen selbst überlassen.
Wann immer es sich anbietet werde ich in der Vorlesung vorführen, wie Sie durch Computeralgebra- oder
Numerik-Programme Unterstützung beim Arbeiten bekommen können. Hierbei ist die Beschränkung
R letztlich willkürlich, entspricht aber den Gegebenheiten vor Ort. Verlassen Sie sich
auf Mathematica
nicht gedankenlos auf derartige Hilfsmittel, sonst sind Sie verlassen. Wenn Sie aber wissen, was sie wollen,
d.h. wenn Sie die Hintergründe verstanden haben, so werden Sie bei der Verwirklichung Ihres Ziels mit
derartiger Software eine kräftige Hilfe bekommen.
Auch wenn Mathematikerinnen und Mathematiker oft für abgehoben gehalten werden, so ist nach meiner
Überzeugung alles, was sie machen, darin verwurzelt zu verstehen, was hinter ganz konkreten Begebenheiten unsers Lebens, unserer Umwelt steckt. In diesem Sinne ist Mathematik — wie Hans-Otto Peitgen
sagt — „die Antwort des Menschen auf die Komplexität der Welt“.
Und nun: viel Freude an der Mathematik!
Würzburg, den 12.09.2014
Richard Greiner
Zum Gebrauch
Das Skript ist gegliedert nach Kapiteln, Paragraphen, Abschnitten und Nummern. Innerhalb eines Kapitels wird mit §x.y.z auf Paragraph x, Abschnitt y, Unterabschnitt z verwiesen. Bei Verweisen innerhalb
eines Paragraphen genügt ein Verweis der Form y.z.
Sätze und wichtige Begriffe sind kursiv gedruckt. Für ein vorläufiges Verständnis nicht so wichtige Teile
sind mit ∗ gekennzeichnet. Sie können beim ersten Lesen übergangen werden. Ist ein ganzer Abschnitt mit
∗
gekennzeichnet (dies sind in Kapitel 4 §§6.4∗ ) und in Kapitel 5 §§7. 4∗ ) so ist dieser als reine Ergänzung
gedacht.
Danksagung
Mein herzlicher Dank geht an alle Vorlesungsteilnehmerinnen und -teilnehmer der Mathematik für Studierende der Physik im Studienjahr 2007/2008, die mich auf Fehler oder Unklarheiten im Vorgängerskript
hingewiesen oder Verbesserungsvorschläge gemacht haben und mit denen ich ein tolles Vorlesungsjahr
ii
INHALTSVERZEICHNIS
verbringen durfte. Ebenso danke ich den Vorlesungsteilnehmerinnen und -teilnehmern der Mathematik
für Studierende der Ingenieurwissenschaften in den Studienjahren 2010/2011 und 2011/2012 bzw. der
Mathematik für Studierende der Physik oder Informatik im Studienjahren 2012/2013 und 2013/2014
sowie Anja Schlömerkemper für ihre Hinweise und Verbesserungsvorschläge.
iii
Inhaltsverzeichnis
1 Grundlagen
§1
§2
§3
§4
1
Natürliche, ganze, rationale und reelle Zahlen . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
Aussagen und Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
Was sind Zahlen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
Addition und Multiplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
4
Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
Natürliche Zahlen und vollständige Induktion . . . . . . . . . . . . . . . . . . . . .
6
6
Rationale Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
7
Intervalle, beschränkte Mengen, Maximum und Minimum . . . . . . . . . . . . . .
12
8
Beweistechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
Vollständigkeit der reellen Zahlen, Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1
Supremum und Infimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2
Folgerungen aus dem Supremumsaxiom . . . . . . . . . . . . . . . . . . . . . . . .
15
3
Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
4
Nullfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
5
Sätze über Nullfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
6
Konvergente Folgen, Grenzwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
7
Intervallschachtelung und Dezimalbruchentwicklung . . . . . . . . . . . . . . . . .
24
8
Konvergenznachweis ohne Kenntnis des Grenzwerts . . . . . . . . . . . . . . . . . .
26
9
Uneigentliche Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
1
Rechnen mit komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2
Gaußsche Zahlenebene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
3
Folgen komplexer Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
Unendliche Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
1
Partialsummen, Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
2
Konvergenzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
3
Umordnung von Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
iv
INHALTSVERZEICHNIS
2 Elementare Funktionen
§1
§2
§3
§4
46
Grundlegendes über Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
1
Zum Funktionsbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
2
Wichtige Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3
Funktionen im Reellen oder Komplexen . . . . . . . . . . . . . . . . . . . . . . . .
49
Exponentialfunktion und Verwandte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
1
Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
2
Exponentialfunktion im Reellen und natürlicher Logarithmus . . . . . . . . . . . .
52
3
Allgemeine Potenzen und Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . .
54
4
Hyperbelfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
5
Exponentialfunktion im Komplexen und trigonometrische Funktionen . . . . . . .
58
Algebraische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
1
Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
2
Rationale Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
3
Weitere algebraische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
1
Grundlegendes über Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
2
Zusammensetzen von Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
3 Vektorrechnung
§1
§2
§3
§4
79
Grundlegendes zur Vektorrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
1
Skalare und vektorielle Größen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
2
Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
Vektorrechnung im R
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
1
Die Ebene als Vektorraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
2
Geraden und Strecken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
3
Matrizenkalkül für (2 × 2)-Matrizen, Gruppen . . . . . . . . . . . . . . . . . . . . .
85
4
Abstand, Länge, Winkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5
Orthogonalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
6
Längen- und winkelerhaltende Abbildungen . . . . . . . . . . . . . . . . . . . . . .
89
Vektorrechnung im R
n
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
1
Vektorräume und euklidische Vektorräume
. . . . . . . . . . . . . . . . . . . . . .
91
2
Euklidische Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
3
Orthonormalsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Spezialitäten der Vektorrechnung im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
1
Vektorprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
2
Spatprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3
Drehungen im Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
INHALTSVERZEICHNIS
4 Analysis, vornehmlich in einer Variablen
§1
§2
§3
§4
§5
§6
v
111
Grundlegendes über Raum, Zeit und Funktionen . . . . . . . . . . . . . . . . . . . . . . . 111
1
Folgen von Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
2
Kurven, Skalar- und Vektorfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3
Topologisches Vokabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Grenzwerte bei Funktionen und Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
1
Grenzwerte bei Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
2
Spezielle Grenzwerte bei Funktionen, Landau-Symbole . . . . . . . . . . . . . . . . 121
3
Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4
Abbildungsverhalten stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 129
Differentialrechnung in einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
1
Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
2
Umgang mit differenzierbaren Funktionen . . . . . . . . . . . . . . . . . . . . . . . 134
3
Abbildungsverhalten differenzierbarer Funktionen . . . . . . . . . . . . . . . . . . . 139
4
Höhere Ableitungen und Taylor-Entwicklung . . . . . . . . . . . . . . . . . . . . . 140
5
Bestimmung von Extremwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6
Weitere Anwendungen der Differentialrechnung . . . . . . . . . . . . . . . . . . . . 148
7
Partielle Ableitungen bei Funktionen mehrerer Variablen . . . . . . . . . . . . . . 152
Integralrechnung in einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
1
Integration von Treppenfunktionen und integrierbare Funktionen . . . . . . . . . . 156
2
Hauptsatz der Differential- und Integralrechnung . . . . . . . . . . . . . . . . . . . 165
3
Integrationstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
4
Geometrie von Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5
Skalare und vektorielle Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . 180
6
Gradientenfelder, Rotation und Divergenz . . . . . . . . . . . . . . . . . . . . . . . 183
Elementar lösbare gewöhnliche Differentialgleichungen . . . . . . . . . . . . . . . . . . . . 191
1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
2
Differentialgleichungen mit getrennten Variablen . . . . . . . . . . . . . . . . . . . 193
3
Lineare Differentialgleichungen erster Ordnung . . . . . . . . . . . . . . . . . . . . 197
4
Einfache Substitutionstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
Vertauschung von Grenzübergängen, uneigentliche Integrale . . . . . . . . . . . . . . . . . 200
1
Punktweise und gleichmäßige Konvergenz . . . . . . . . . . . . . . . . . . . . . . . 200
2
Vertauschungssätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
3
Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
4∗
Laplace-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
vi
INHALTSVERZEICHNIS
5 Lineare Algebra
§1
§2
§3
§4
§5
§6
§7
218
Lineare Abbildungen, Vektorräume, Dimension . . . . . . . . . . . . . . . . . . . . . . . . 218
1
Wovon handelt die lineare Algebra? . . . . . . . . . . . . . . . . . . . . . . . . . . 218
2
Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
1
Umgang mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
2
Darstellung linearer Abbildungen durch Matrizen . . . . . . . . . . . . . . . . . . . 226
3
Grundlegender Matrizenkalkül . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
4
Basiswechsel, Koordinatentransformation und Darstellungsmatrizen . . . . . . . . 236
Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
1
Lösbarkeit, Struktur des Lösungsraums . . . . . . . . . . . . . . . . . . . . . . . . 238
2
Gauß-Elimination
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
1
Beispiele und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
2
Eigenschaften der Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
3
Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
Eigenwerttheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
1
Das Eigenwertproblem bei Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . 255
2
Eigenwerttheorie bei linearen Operatoren . . . . . . . . . . . . . . . . . . . . . . . 260
Vektorräume mit Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
1
Bilinear- und Sesquilinearformen, quadratische Formen . . . . . . . . . . . . . . . . 263
2
Skalarprodukte, euklidische und unitäre Vektorräume . . . . . . . . . . . . . . . . 266
3
Orthogonale und unitäre Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . 269
4
Symmetrische und hermitesche Abbildungen, Hauptachsentransformation . . . . . 272
5
Matrizenexponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
Fourier-Analysis und Hilbert-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
1
Fourier-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
2
Hilbert-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
3
Kontinuierliche Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . 299
4∗
Wavelet-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
INHALTSVERZEICHNIS
6 Analysis in mehreren Variablen
§1
§2
§3
vii
313
Differentialrechnung in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . 313
1
Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
2
Umgang mit differenzierbaren Funktionen . . . . . . . . . . . . . . . . . . . . . . . 319
3
Reellwertige Funktionen: Gradient und Richtungsableitungen . . . . . . . . . . . . 322
4
Taylor-Entwicklung und lokale Extrema . . . . . . . . . . . . . . . . . . . . . . . . 325
5
Lokale Umkehrbarkeit und Koordinatentransformationen . . . . . . . . . . . . . . 331
6
Implizite Funktionen und Lösungsmannigfaltigkeiten . . . . . . . . . . . . . . . . . 336
7
Lokale Extrema mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . 342
Integralrechnung in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
1
Das Lebesgue-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
2
Berechnung von Integralen durch sukzessive Integration . . . . . . . . . . . . . . . 352
3
Transformationsformel für Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . 355
Integralsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
1
Oberflächenintegrale und Integration auf Hyperflächen . . . . . . . . . . . . . . . . 360
2
Der Satz von Gauß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
3
Der Satz von Stokes im Raum
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
Literaturverzeichnis
373
Index
375
1
Kapitel 1
Grundlagen
§1
Natürliche, ganze, rationale und reelle Zahlen
Es wirkt vielleicht seltsam, dass wir unsere Beschäftigung mit der Mathematik nicht gleich mit etwas
Neuem und „Nützlichem“ beginnen, sondern mit den altbekannten Zahlen. Da Sie aber nicht nur einfach
Rechenrezepte kennenlernen sollen (deren richtige Anwendung im High-Tech-Bereich ohne weiteres Zutun
mehr Glück als Methode darstellt) sondern auch immer wissen müssen, wann welches Rezept eingesetzt
werden kann und — falls es mehrere zur Wahl gibt — welches schneller zum Ziel führt, ist es doch recht
nützlich, erst einmal kurz und knapp die grundlegenden Informationen über Zahlen zusammenzustellen.
So erhalten Sie hoffentlich eine solide Ausgangsbasis, auf die Sie sich bei Unsicherheiten ggf. berufen
können.
1
Aussagen und Mengen
Wir geben keine Einführung in Aussagenlogik und Mengenlehre. Mathematische Schlussweisen werden
wir zunächst an Beispielen kennenlernen und die wichtigsten von ihnen in Abschnitt 7 zusammenstellen.
1.1 Aussagen. Eine mathematische Aussage bezieht sich immer auf einen bestimmten Gegenstandsbereich der Mathematik und ist immer entweder wahr oder falsch: „tertium non datur “. So ist die Aussage
„die Gleichung x + 2 = 1 ist lösbar“ wahr in der Theorie der ganzen Zahlen, aber falsch in der Theorie
der natürlichen Zahlen.
Sind A und B zwei Aussagen, so bilden wir die Aussagen ¬A (nicht A, Verneinung), A ∧ B (logisches
und ), A ∨ B (logisches oder ), A ⇒ B (Implikation, aus A folgt B), A ⇔ B (Äquivalenz , A ist äquivalent
zu B) gemäß der folgenden Wahrheitstafeln.
A
w
f
¬A
f
w
A B
w w
w f
f w
f f
A∧B
w
f
f
f
A B
w w
w f
f w
f f
A∨B
w
w
w
f
A B
w w
w f
f w
f f
A⇒B
w
f
w
w
A B
w w
w f
f w
f f
A⇔B
w
f
f
w
In der Alltagssprache wird das Wort „oder“ anders als im mathematischen Sprachgebrauch manchmal
auch in der Bedeutung „entweder oder“ benutzt. Zur Implikation ist anzumerken, dass aus etwas Falschem
alles gefolgert werden kann („ex falso quodlibet“). Die Aussage „Wenn ich mit Lichtgeschwindigkeit fliege,
werde ich grün.“ ist wahr, da die Voraussetzung „ich fliege mit Lichtgeschwindigkeit“ immer falsch ist.
1.2 Mengen. Der Begriff „Menge“ hat Mathematiker lange beschäftigt. Georg Cantor verstand „unter
einer Menge M jede Zusammenfassung von bestimmten wohlunterschiedenen Objekten m unserer Anschauung oder unseres Denkens (welche Elemente von M genannt werden) zu einem Ganzen“. Dass solch
2
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
ein Definitionsversuch problematisch ist zeigt die Russellsche Antinomie. In einer populären Form ist sie
die Geschichte eines Barbiers in einem Ort, der von sich selbst behauptet, er rasiere alle Männer in dem
Ort, nur nicht die, die sich selbst rasieren. Rasiert sich dieser Barbier nun selbst oder nicht?
1.3 Darstellung von Mengen. Wir bezeichnen Mengen gewöhnlich mit Großbuchstaben. Wichtige
Mengen sind
R, die Menge der reellen Zahlen,
Q, die Menge der rationalen Zahlen,
Z, die Menge der ganzen Zahlen,
N, die Menge der natürlichen Zahlen 1, 2, 3, . . .,
N0 , die Menge der Zahlen 0, 1, 2, 3, . . ..
Wir werden diese Mengen in den folgenden Abschnitten genauer kennenlernen.
Wenn m zur Menge M gehört, so schreiben wir m ∈ M , andernfalls m ∈
/ M . Die wichtigsten Darstellungsarten von Mengen sind
• das Auflisten der Elemente in einer Mengenklammer {. . .},
• die Beschreibung durch eine Aussageform: ist E(x) eine Aussageform, so bezeichnet {x ∈ M | E(x)}
die Menge aller x ∈ M , für die E(x) wahr ist,
• die Darstellung durch einen Funktionsausdruck: {f (x) | x ∈ M } ist die Menge aller Zahlen der Form
f (x) mit x ∈ M .
Überlegen Sie sich, welche Darstellungsformen in den folgenden Beispielen jeweils verwendet werden.
{n ∈ N | n ist eine einstellige ungerade Zahl} = {1, 3, 5, 7, 9}
{x ∈ R | x2 = 1} = {−1, 1}
{x ∈ N | x2 = 1} = {1}
{2k + 1 | k ∈ N0 } = {1, 3, 5, . . .}
Bei der Auflistung der Elemente einer Menge kommt es nicht auf die Reihenfolge und auch nicht auf
Wiederholungen an. Daher gilt {1, 3, 1, 2} = {1, 2, 3}.
1.4 Umgang mit Mengen. Sind M und N zwei Mengen, mit x ∈ M für jedes x ∈ N , so nennen wir N
eine Teilmenge von M und schreiben N ⊂ M . Der Fall N = M ist dabei mit eingeschlossen. Manchmal
schreibt man auch N ⊆ M , um zu betonen, dass bei einer Inklusion Gleichheit zugelassen ist, andernfalls
N ( M . Beispielsweise gilt N ⊂ N0 ⊂ Z ⊂ Q ⊂ R und wir werden einsehen, dass alle diese Inklusionen
echt sind.
Wir nennen
M ∩ N := {x | x ∈ M ∧ x ∈ N } den Durchschnitt von M und N ,
M ∪ N := {x | x ∈ M ∨ x ∈ N } die Vereinigung von M und N ,
M r N := {x | x ∈ M ∧ x ∈
/ N } das Komplement von N bezüglich M .
Ist die Aussage E(x) für kein x ∈ M wahr, so heißt die Menge {x ∈ M | E(x)} leer und wird mit ∅
bezeichnet. Beispielsweise gilt {x ∈ R | x2 = −1} = ∅. Wir vereinbaren, dass die leere Menge Teilmenge
einer jeden Menge ist und bezeichnen sie immer mit ∅.
Um Probleme wie die Russellsche Antinomie zu vermeiden, werden wir nur mit Mengen umgehen, die
als Teilmengen einer festen Grundmenge aufgefasst werden können. Dabei muss immer klar sein, welcher
Natur die Elemente sind und wann zwei Elemente gleich sind. Beispielsweise hat
M := { 11 , 12 , . . . , 19 , 21 , 22 , . . . , 29 , . . . , 91 , 92 , . . . , 99 , }
81 verschiedene Elemente, wenn wir selbige als Schreibfiguren auffassen. Fassen wir
gilt 11 = 22 = 33 = . . ., 12 = 24 = . . ., usw. und
nm
o
N :=
∈ Q | m, n ∈ {1, 2, . . . , 9}
n
ist eine ganz andere Menge als M . Wieviele Elemente hat N ?
m
n
als Bruch auf, so
KAPITEL 1. GRUNDLAGEN
2
3
Was sind Zahlen?
Richard Dedekind sagt: „Die Zahlen sind freie Schöpfung des menschlichen Geistes, sie dienen als ein
Mittel, um die Verschiedenheit der Dinge leichter und schärfer aufzufassen. Durch den rein logischen
Aufbau der Zahlen-Wissenschaft und durch das in ihr gewonnene stetige Zahlen-Reich sind wir erst in
den Stand gesetzt, unsere Vorstellung von Raum und Zeit genau zu untersuchen, indem wir dieselben auf
dieses in unserem Geiste geschaffene Zahlen-Reich beziehen.“ Diese Sichtweise markiert einen Endpunkt
in der Jahrtausende alten Entwicklung des Zahlbegriffs und führt ihn auf Prinzipien der Mengenlehre
und Logik zurück.
Ohne uns über die Details auszulassen können wir also akzeptieren, dass es die reellen Zahlen gibt. Sie
werden vollständig beschrieben durch einen Satz von grundlegenden Regeln (Axiomen), die sich in drei
Gruppen gliedern.
• Die Körperaxiome legen die Rechenregeln für Addition „+“ und Multiplikation „·“ fest.
• Die Ordnungsaxiome regeln die Verwendung von „<“ und erlauben uns, die reellen Zahlen als Punkte
auf der Zahlengeraden vorzustellen.
• Das Supremumsaxiom stellt sicher, dass es genügend viele (und gleichzeitig nicht zu viele) reelle
Zahlen gibt.
Für Messungen, Größenangaben in Biologie, Chemie, Informatik und Physik oder für Rechnungen im
Alltag genügen eigentlich die rationalen Zahlen, welche genau so wie die reellen Zahlen die Körperaxiome
und die Ordnungsaxiome erfüllen. Es stellt sich aber heraus, dass sie schon zur Beschreibung einfacher
geometrischer Sachverhalte nicht ausreichen. Erst ihre Ergänzung zu den reellen Zahlen durch Hinzunahme des Supremumsaxioms ermöglicht die Differential- und Integralrechnung, die (in Verbindung mit
der Geometrie) maßgeblich dafür verantwortlich ist, dass Mathematik zur Sprache für alle Natur- und
Ingenieurwissenschaften und darüber hinaus geworden ist, oder umgekehrt, dass das Nachdenken der
Menschheit über verschiedene Phänomene der Natur auf einheitliche Wurzeln führt: Mathematik ist die
Antwort des Menschen auf die Komplexität der Welt.
Wir werden uns in den restlichen Abschnitten dieses Paragraphen zunächst nur mit den Körper- und
den Ordnungsaxiomen beschäftigen. Dabei wiederholen wir knapp den aus der Schule bekannten Umgang mit Gleichungen und Ungleichungen, indem wir die grundlegenden Rechenregeln (eben die Körperund Ordnungsaxiome) angeben und weitere aus ihnen ableiten. Mit dem Supremumsaxiom und seinen
Konsequenzen beschäftigen wir uns dann in §2.
3
Addition und Multiplikation
3.1 Körperaxiome. Für das Addieren und das Multiplizieren reeller Zahlen gelten die folgenden grundlegenden Gesetze. Sie werden Körperaxiome genannt.
(A1) Kommutativgesetze: a + b = b + a und a · b = b · a.
(A2) Assoziativgesetze: (a + b) + c = a + (b + c) und (a · b) · c = a · (b · c).
(A3) Distributivgesetz : (a + b) · c = (a · c) + (b · c).
(A4) Neutrale Elemente: a + 0 = a und a · 1 = a wobei 0 6= 1.
(A5) Inverse Elemente: Zu jedem a existiert genau eine Zahl, bezeichnet mit −a, mit a + (−a) = 0. Zu
jedem a 6= 0 existiert genau eine Zahl, bezeichnet mit a−1 , mit a · a−1 = 1.
Wie üblich vereinbaren wir, dass Punktrechnung vor Strichrechnung geht und dass der Malpunkt unterdrückt werden kann. Statt (a · c) + (b · c) können wir also ac + bc schreiben. Für a + (−b) schreiben wir
a − b, für ab−1 auch a/b oder ab . Die Rechenoperationen Subtraktion und Division lassen sich also auf die
Addition und die Multiplikation zurückführen.
4
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
3.2 Rechenregeln. Alle weiteren Rechenregeln können aus den Körperaxiomen (A1)–(A5) abgeleitet
werden. Wir illustrieren dies an drei Beispielen.
(a) Die Gleichung a + x = b hat die eindeutige Lösung x = b − a. Die Gleichung ax = b hat für a 6= 0 die
eindeutige Lösung x = b/a. Es gilt nämlich
(A1)
(A2)
(A5)
(A4)
a+x = b ⇔ (a+x)−a = b−a ⇔ (x+a)−a = b−a ⇔ x+(a−a) = b−a ⇔ x+0 = b−a ⇔ x = b−a.
Dies zeigt nicht nur die Existenz einer Lösung von a + x = b (Schlussrichtung „⇐“), sondern auch deren
Eindeutigkeit (Schlussrichtung „⇒“). Für die Gleichung ax = b argumentiere man analog und überlege
sich, an welcher Stelle die Bedingung a 6= 0 benötigt wird.
(b) 0 · a = 0. Denn aus (A4) folgt 0 = 0 + 0 und damit
(A4)
(A4)
(A3)
0 · a + 0 = 0 · a = (0 + 0) · a = 0 · a + 0 · a.
Wie in (a) gezeigt, hat aber die Gleichung 0 · a + x = 0 · a genau eine Lösung. Also muss 0 · a = 0 gelten.
(c) Aus ab = 0 folgt a = 0 oder b = 0. Gilt nämlich ab = 0 und ist a 6= 0, so folgt mit (a) sofort b = 0.
Ähnlich kann man weitere Rechenregeln wie −(−a) = a, (−a) + (−b) = −(a + b), (a−1 )−1 = a für a 6= 0,
a−1 b−1 = (ab)−1 für a, b 6= 0 oder a(−b) = −ab herleiten.
3.3 Körper. Sind a =
m
n
und b =
p
q
mit m, n, p, q ∈ Z und n, q 6= 0 rationale Zahlen, so auch
a+b=
mq + np
nq
und
ab =
mp
.
nq
Man sagt: Q ist abgeschlossen bezüglich Addition und Multiplikation. Außerdem gelten für rationale
Zahlen die Axiome (A1)–(A5).
Allgemein nennt man eine Menge K einen Körper , wenn auf K zwei Operationen „+“ und „·“ (d.h.
zwei Vorschriften, die je zwei Elementen a, b ∈ K eindeutig bestimmte Elemente a + b ∈ K und a · b ∈
K zuordnen) erklärt sind, welche die Körperaxiome (A1)–(A5) erfüllen. Neben R und Q gibt es noch
weitere Körper, z.B. den Minikörper {0, 1} aus zwei Elementen, in dem Addition und Multiplikation
durch folgende Tafeln erklärt sind.
+ 0 1
· 0 1
0 0 1
0 0 0
1 1 0
1 0 1
In §3 werden wir die komplexen Zahlen kennenlernen und einsehen, dass auch sie einen Körper bilden.
3.4 Teilbarkeit in Z. Die ganzen Zahlen bilden keinen Körper. Sie erfüllen zwar (A1)–(A4) und (A5)
für die Addition, aber nicht (A5) für die Multiplikation. Man kann das auch so formulieren, dass die
Gleichung ax = b in Z nicht immer lösbar ist. Sind a und b ganze Zahlen, so sagen wir „a teilt b“ (in
Zeichen a|b), wenn a 6= 0 und die Gleichung ax = b eine Lösung x ∈ Z besitzt, d.h. wenn ab ∈ Z.
Eine ganze Zahl b heißt gerade, wenn 2|b. Gerade Zahlen lassen sich in der Form 2k mit k ∈ Z schreiben.
Mit Hilfe von (A1)–(A3) erkennt man, dass Summen und Produkte gerader Zahlen wieder gerade Zahlen
sind. Eine ganze Zahl heißt ungerade, wenn sie nicht gerade ist. Offenbar ist jede Zahl der Form 2k + 1
mit k ∈ Z ungerade, da (2k + 1)/2 = k + 21 ∈
/ Z. In 5.6 zeigen wir, dass jede ungerade Zahl so dargestellt
werden kann.
Kam Ihnen der Minikörper aus 3.3 seltsam vor, insbesondere das „1 + 1 = 0“? Nun, ersetzen Sie in den
Tafeln für Addition und Multiplikation 0 durch „gerade“ und 1 durch „ungerade“. Die Tafeln liefern Ihnen
dann gerade die bekannten Regeln für das Addieren und Multiplizieren von gerade und ungeraden Zahlen.
Also ist der Minikörper auch nützlich.
Überlegen Sie sich, welche Teile der Axiome (A1)–(A5) für die natürlichen Zahlen bzw. N0 erfüllt sind.
5
KAPITEL 1. GRUNDLAGEN
4
Ungleichungen
4.1 Ordnungsaxiome. Der Umgang mit Ungleichungen für reelle Zahlen wird durch die folgenden
grundlegenden Gesetze beschreiben.
(A6) Trichotomiegesetz : Es gilt immer genau eine der Beziehungen a < b, a = b, b < a.
(A7) Transitivitätsgesetz : Aus a < b und b < c folgt a < c.
(A8) Monotoniegesetze: Aus a < b folgt a + c < b + c für jedes c. Aus a < b und c > 0 folgt ac < bc.
Für b < a schreiben wir auch a > b. Gilt a < b (a > b) oder a = b, so schreiben wir a ≤ b (a ≥ b). Ist
a > 0 (a < 0), so nennen wir a positiv (negativ ).
4.2 Geordnete Körper. Auch die Axiome (A6)–(A8) sind keine exklusive Spezialität von R, sie gelten
auch in Q. Wir nennen einen Körper K geordnet, wenn auf ihm eine Relation „<“ (d.h. eine Regel, die
für beliebige a, b ∈ K angibt, ob die Aussage a < b wahr oder falsch ist) erklärt ist, welche die Axiome
(A6)–(A8) erfüllt.
Während R und Q geordnete Körper sind, kann der zweielementige Minikörper aus 3.3 nicht geordnet
werden. Würde nämlich eine Anordnung existieren, so wäre wegen 0 6= 1 (gemäß (A4)) nach dem Trichotomiegesetz entweder 0 < 1 oder 1 < 0. Im Fall 0 < 1 folgt aus dem Monotoniegesetz 1 = 0+1 < 1+1 = 0,
im Fall 1 < 0 folgt analog 0 < 1. Wir erhalten also in jedem Fall einen Widerspruch zum Trichotomiegesetz, der Minikörper kann nicht angeordnet werden.
4.3 Rechenregeln. Wie schon bei den Körperaxiomen erhalten wir aus den Ordnungsaxiome eine Fülle
von abgeleiteten Rechenregeln. Wir geben die wichtigsten an, beweisen aber nicht alle. Versuchen Sie ggf.
selbst eine Herleitung.
(a) Genau dann gilt a < b wenn −b < −a. Insbesondere ist a genau dann positiv (negativ), wenn −a
negativ (positiv) ist. Eine zweimalige Anwendung von (A8) liefert nämlich a < b ⇔ 0 = a − a < b − a ⇔
−b = 0 − b < b − a − b = −a.
(b) Genau dann gilt ab > 0, wenn a, b > 0 oder a, b < 0. Insbesondere ist a2 > 0 für a 6= 0 und 1 > 0.
Für die Schlussrichtung „⇒“ unterscheiden wir mehrere Fälle. Wäre a = 0 oder b = 0, so folgt ab = 0 im
Widerspruch zu (A6). Wäre a > 0 und b < 0, so folgt −b > 0 wegen (a). Mit (A8) folgt −ab = a(−b) > 0
und mit (a) dann ab < 0 im Widerspruch zu (A6). Ebenso schließt man a < 0 und b > 0 aus. Nach (A6)
gilt also a, b > 0 oder a, b < 0. Die Schlussrichtung „⇐“ folgt aus (A8) und (−a)(−b) = ab.
(c) Ist a < b und c < 0, so gilt ac > bc. Eine Ungleichung bleibt gemäß der Monotoniegesetze erhalten,
wenn man auf beiden Seiten dieselbe Zahl addiert oder mit derselben positiven Zahl multipliziert. Will
man aber mit einer negativen Zahl multiplizieren, so muss man das Ungleichheitszeichen umdrehen.
(d) Aus a > 0 folgt
1
a
> 0, aus a < 0 folgt
1
a
< 0.
(e) Aus a ≤ b und b ≤ a folgt a = b.
(f) Aus a ≤ b und b ≤ c folgt a ≤ c.
(g) Aus a ≤ b und c ≥ 0 folgt ac ≤ bc.
(h) Aus a ≤ b und c ≤ d folgt a + c ≤ b + d.
4.4 Ungleichungsketten. Die Schreibweise a < b < c wird gerne verwendet und ist eine Abkürzung
für a < b und b < c. In diesem Sinn gelten die folgenden Ungleichungsketten.
(i) Aus 0 < a < b folgt 0 < 1/b < 1/a. Nach (A7) gilt nämlich b > 0. Hieraus folgt mit (d) einerseits
1/b > 0, wegen a > 0 andererseits auch ab > 0 · b = 0. Nochmal mit (d) folgt 1/(ab) > 0 und mit (A8)
dann 1/b = a · 1/(ab) < b · 1/(ab) = 1/a.
6
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
(j) Aus 0 ≤ a < b folgt a2 < b2 . Gilt umgekehrt a2 < b2 und b > 0, so folgt a < b. Gilt a2 ≤ b2 und b ≥ 0,
so folgt a ≤ b. Aus a2 ≤ b2 allein folgt aber nicht a ≤ b, wie das Gegenbeipiel a = −1, b = −2 zeigt.
4.5 Betrag und Vorzeichen. Wir setzen
(
|a| :=
a
für a ≥ 0
−a für a < 0
bzw.


für a > 0
1
sgn(a) := 0
für a = 0


−1 für a < 0
und nennen |a| den Betrag bzw. sgn(a) das Vorzeichen (Signum) von a.
Beispielsweise gilt |2| = 2, | − 2| = 2, |0| = 0, | − 21 | = 12 , sgn(−3) = −1, sgn( 32 ) = 1. Allgemein erhalten
wir |a| ≥ 0, | − a| = |a|, |a|2 = a2 und −|a| ≤ a ≤ |a|.
Der Betrag |a| gibt an, wie weit a auf der Zahlengeraden vom Ursprung entfernt ist. Für zwei reelle
Zahlen a und b gibt |a − b| an, wie weit a von b entfernt ist. So etwas werden wir später bei komplexen
Zahlen und bei Vektoren auch benötigen.
4.6 Rechenregeln für den Betrag. Von den folgenden fünf Rechenregeln für den Betrag beweisen wir
nur die letzten zwei. Die ersten drei folgen sofort mit einfachen Fallunterscheidungen aus der Definition.
(k) Genau dann gilt |a| ≤ b, wenn ±a ≤ b (d.h. a ≤ b und −a ≤ b). Diese Regel besagt, dass man
Ungleichungen mit einem Betrag durch eine Fallunterscheidung beweisen kann.
(l) Immer gilt |a| ≥ 0. Dagegen gilt |a| > 0 nur für a 6= 0 und |a| = 0 nur für a = 0.
(m) Es gilt |ab| = |a||b|.
4.7 Dreiecksungleichung.
(n) Dreiecksungleichung: |a + b| ≤ |a| + |b|
Nach (k) gilt nämlich ±a ≤ |a| und ±b ≤ |b|. Mit (h) folgt zunächst ±(a + b) ≤ |a| + |b|, mit (k) dann
|a + b| ≤ |a| + |b|.
(o) Umgekehrte Dreiecksungleichung: ||a| − |b|| ≤ |a − b|
Aus |a| = |a − b + b| ≤ |a − b| + |b| und |b| = |b − a + a| ≤ |a − b| + |a| folgt nämlich ±(|a| − |b|) ≤ |a − b|,
nach (k) also ||a| − |b|| ≤ |a − b|.
4.8 Weitere wichtige Ungleichungen.
(p) |ab| ≤ 12 (a2 + b2 )
(q) (a + b)2 = |a + b|2 ≤ 2(a2 + b2 )
(r) Arithmetisches Mittel : für a < b gilt a < 12 (a + b) < b
(s) Für a, b > 0 gilt ab ≤ 41 (a + b)2 . Gleichheit tritt hierbei nur für a = b ein.
Achtung. Absolute Sicherheit im Umgang mit Ungleichungen und Beträgen ist lebenswichtig für das
weitere Verständnis!
5
Natürliche Zahlen und vollständige Induktion
Wenn wir annehmen, dass die reellen Zahlen durch die Axiome (A1)–(A8) und das noch ausstehende
Supremumsaxiom definiert sind, so erscheint es leicht, die natürlichen Zahlen als die Menge bestehend
aus den Zahlen 1 (vgl. (A4)), 2 := 1+1, 3 := 2+1, usw. einzuführen. Das Problem liegt in der Präzisierung
von „usw.“. Wir müssen uns damit näher beschäftigen, weil wir dabei das wichtige Beweisverfahren der
vollständigen Induktion kennenlernen werden.
5.1 Induktive Mengen und natürliche Zahlen. Eine Teilmenge N der reellen Zahlen (oder allgemeiner eines geordneten Körpers) heißt induktiv , wenn sie folgende Eigenschaften hat.
7
KAPITEL 1. GRUNDLAGEN
(N1) Es gilt 1 ∈ N .
(N2) Aus n ∈ N folgt n + 1 ∈ N .
Offensichtlich gibt es induktive Mengen, beispielsweise R selbst oder auch {x ∈ R | x ≥ 1}. Die natürlichen Zahlen werden nun erklärt als der Durchschnitt aller induktiver Teilmengen von R. Damit ist N
sozusagen die „kleinste“ Menge mit den Eigenschaften (N1) und (N2).
5.2 Ganze Zahlen. Aus den natürlichen Zahlen erhalten wir mittels Z := {n | n ∈ N ∨ n = 0 ∨ −n ∈ N}
die ganzen Zahlen.
5.3 Induktionsprinzip. Ist M eine Teilmenge von N mit 1 ∈ M und folgt aus k ∈ M immer auch
k + 1 ∈ M , so gilt schon M = N.
Nach Voraussetzung gilt nämlich einerseits M ⊂ N, andererseits ist M induktiv und damit an der Durchschnittsbildung für N beteiligt, d.h. N ⊂ M . Zusammen folgt wie behauptet M = N.
5.4 Beweisverfahren der vollständigen Induktion.
Für jede natürliche Zahl n sei eine Aussage A(n) gegeben, und es sei folgendes erfüllt.
(IV) Induktionsverankerung: Die Aussage A(1) sei wahr.
(IS) Induktionsschritt: Für jedes n ∈ N ist die Implikation A(n) ⇒ A(n + 1) wahr.
Dann ist die Aussage A(n) für alle n ∈ N wahr (Induktionsschluss).
Die Gültigkeit des Beweisverfahrens der vollständigen Induktion folgt unmittelbar aus dem Induktionsprinzip, denn die Menge M := {n ∈ N | A(n) ist wahr} erweist sich dank (IV) und (IS) als induktive
Teilmenge von N.
Wenn wir beispielsweise die Aussage A(n) „die Summe der ersten n natürlichen Zahlen ist n(n + 1)/2“,
d.h.
n(n + 1)
ı
„1 + 2 + · · · + n =
2
für alle n ∈ N beweisen wollen, so geschieht dies durch vollständige Induktion folgendermaßen.
Induktionsverankerung: Wegen 1 = 1(1 + 1)/2 ist A(1) wahr.
für ein n ∈ N, so folgt 1 + 2 + · · · + n + (n + 1) =
Induktionsschritt: Gilt 1 + 2 + · · · + n = n(n+1)
2
n(n+1)
(n+1)(n+2)
+
(n
+
1)
=
,
d.h.
ist
A(n)
wahr,
so auch A(n + 1).
2
2
Induktionsverankerung und Induktionsschritt zusammen erlauben uns dank des Induktionsprinzips den
Induktionsschluss: A(n) ist für alle n ∈ N wahr. Für jede natürliche Zahl n gilt also 1+2+· · ·+n = n(n+1)
2
und wir haben diese unendlich vielen Aussagen nicht alle einzeln beweisen müssen (was wir auch nicht
ansatzweise vor unserem Tod geschafft hätten).
Versuchen Sie in ähnlicher Manier den Nachweis von
12 + 22 + · · · + n2 =
n(n + 1)(2n + 1)
6
für alle n ∈ N.
5.5 Varianten der vollständigen Induktion. Natürlich kann eine vollständige Induktion auch bei
einer anderen natürlichen Zahl N anstelle der 1 gestartet werden.
Eine Aussage A(n) ist für alle natürlichen Zahlen n ≥ n0 richtig, falls gilt
(IV’) Die Aussage A(n0 ) ist wahr.
(IS’) Für jedes n ≥ n0 folgt aus der Richtigkeit von A(n) die von A(n + 1).
8
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
Manchmal ist auch die folgende Variante nützlich.
Eine Aussage A(n) ist für alle natürlichen Zahlen n ∈ N richtig, falls gilt
(IV’) Die Aussage A(1) ist wahr.
(IS’) Für jedes n ∈ N folgt aus der Richtigkeit von A(1), A(2),. . . , A(n) die von A(n + 1).
5.6 Wohlordung der natürlichen Zahlen. Jede nichtleere Menge natürlicher Zahlen hat ein kleinstes
Element, d.h. ist M ⊂ N mit M 6= ∅, so existiert ein m ∈ M mit k ≥ m für alle k ∈ M .
Man kann zeigen (vgl. [FiKau, Band 1, §1.6.1]), dass das Induktionsprinzip 5.3 äquivalent zum Wohlordnungsprinzip ist. Das wollen wir hier nicht tun. Dafür leiten wir aus ihm ab, dass jede ungerade
natürliche Zahl b die Form b = 2k − 1 mit einem k ∈ N besitzt. Hierzu betrachten wir die Menge
M := {n ∈ N | 2n > b}. Selbige ist wegen 2b ∈ M nicht leer, hat also nach dem Wohlordnungsprinzip
ein kleinstes Element k. Wegen der Minimalität von k gilt 2(k − 1) ≤ b < 2k. Da b eine natürliche Zahl
ist, muss b = 2k − 2 oder b = 2k − 1 gelten. Da b ungerade ist, bleibt nur die Möglichkeit b = 2k − 1.
5.7 Summen- und Produktzeichen. Wir verwenden die Abkürzungen
n
X
n
Y
ak := a1 + a2 + · · · + an ,
k=1
ak := a1 · a2 · · · an
k=1
P1
Q1
für n ∈ N. Insbesondere gilt k=1 ak = a1 und k=1 ak = a1 . Die Formeln aus Abschnitt 5.4 erhalten
dann die Form
n
n
X
X
n(n + 1)(2n + 1)
n(n + 1)
k2 =
,
.
k=
2
6
k=1
k=1
Der Name des Index k ist unerheblich, wir hätten auch
schreiben können.
Pn
j=1
aj statt
Pn
k=1
ak oder
Qn
l=1
al statt
Qn
k=1
ak
Manchmal läuft der Index nicht ab 1 sondern ab 0 oder einer anderen ganzen Zahl. Ist I allgemein eine
endliche Teilmenge von Z, etwas I = {n1 , . . . , nm }, so setzen wir
X
ak := an1 + · · · + anm ,
k∈I
Y
ak := an1 · · · anm .
k∈I
P
Q
Im Fall I = ∅ werden sich die Vereinbarungen k∈I ak := 0 und k∈I ak := 1 als günstig erweisen.
Insbesondere gilt




a
+
a
+
·
·
·
+
a
für
m
>
l,
l
l+1
m
m
m

al · al+1 · · · am für m > l,
X
Y
ak = al
ak = al
für m = l,
für m = l,




k=l
k=l
0
für m < l,
1
für m < l.
Indexersetzungen der Form
n−1
X
k=0
ak+1 =
n
X
ak
k=1
werden Indexverschiebung genannt.
Im Bereich
Pm der Physik ist die Einsteinsche Summenkonvention gebräuchlich, bei der eine Summe der
Form k=l ak bk knapp als ak bk geschrieben wird: Sobald ein Index doppelt vorkommt, ist automatisch
über ihn zu summieren. Auf Laufbereich des Index muss hierbei aus den Rahmenbedingungen geschlossen
werden.
9
KAPITEL 1. GRUNDLAGEN
5.8 Potenzen, Fakultäten und Binomialkoeffizienten. Für eine beliebige Zahl c setzen wir
n
c
:=
n
Y
n ∈ N0 ,
c,
k=1
n!
n
Y
:= n · (n − 1) · · · 2 · 1 =
n ∈ N0 ,
k,
k=1
c
:=
k
k−1
1 Y
c(c − 1) · · · (c − k + 1)
=
(c − l),
k(k − 1) · · · 1
k!
k ∈ N0 .
l=0
Man nennt cn die n-te Potenz von c, n! die Fakultät von n bzw. kc den Binomialkoeffizient c über k
(oder k aus c). In cn heißt c die Basis und n der Exponent. Für c 6= 0 erweitert man diese Definition
−n
durch cn := 1/c
auf Exponenten n ∈ Z mit n < 0. Nach unserer Konvention gilt insbesondere 00 = 1,
c
0! = 1 und 0 = 1 für beliebige c.
Die Binomialkoeffizienten nk werden meistens für n, k ∈ N0 mit 0 ≤ k ≤ n verwendet. Dann gilt
n
n
n!
=
.
=
k!(n − k)!
n−k
k
n
n
=
= 1,
0
n
Für 0 ≤ k < n gilt ferner das Additionstheorem für Binomialkoeffizienten
n
n
n+1
+
=
,
k
k+1
k+1
welches direkt nachgerechnet werden kann.
n
n
+
k
k+1
k−1
k
Y
1
1 Y
(n − l) +
(n − l)
k!
(k + 1)!
=
l=0
k+1
(k + 1)!
=
n+1
(k + 1)!
=
1
(k + 1)!
=
l=0
k−1
Y
(n − l) +
l=0
k−1
n−k Y
(n − l)
(k + 1)!
l=0
k−1
Y
k
(n − l) =
l=0
n+1 Y
(n − (l − 1))
(k + 1)!
l=1
(k+1)−1
Y
(n + 1 − l) =
l=0
n+1
.
k+1
In der drittletzten Umformung haben wir eine Indexverschiebung vorgenommen.
Mit dem Additionstheorem für Binomialkoeffizienten erhält man das Pascalsche Dreieck , in dem die
Summe einer jeden Zahl gleich der Summe der beiden schräg darüber stehenden Zahlen ist.
n
0
1
1
1
2
1
3
1
4
1
5
6
1
1
2
3
4
5
6
1
3
6
10
15
1
1
4
10
20
1
5
15
1
6
1
10
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
5.9 Binomische Formel. Für beliebige a, b gilt
n
(a + b) =
n X
n
k=0
k
ak bn−k
für n ∈ N0 .
Beweis durch vollständige Induktion.
0
Induktionsverankerung:
Für n = 0 lautet die linke Seite der Formel (a + b) = 1, die rechte Seite
P0
0 k 0−k
0 0 0
= 0 a b = 1. Also stimmt die Formel für n = 0.
k=0 k a b
Induktionsschritt: Gilt die binomische Formel für ein n ≥ 0, so folgt mit einer Indexverschiebung
(a + b)n+1
=
(a + b)(a + b)n = (a + b)
n X
n
k=0
n X
k
ak bn−k
n X
n+1 n X
n k+1 n−k
n k n+1−k X
n
n k n+1−k
a
b
+
a b
=
ak bn−k+1 +
a b
k
k
k−1
k
k=0
k=0
k=1
k=0
n n+1
X
X n + 1 n
n
n+1
k n+1−k
n+1
= a
+
+b
=
+
a b
ak bn+1−k .
k−1
k
k
=
k=1
k=0
Dies ist die behauptete Formel für n + 1 anstelle von n.
Der Fall n = 2 in der binomischen Formel ist aus der Schule bekannt: (a + b)2 = a2 + 2ab + b2 („erste
binomische Formel“) bzw. mit b durch −b ersetzt (a − b)2 = a2 − 2ab + b2 („zweite binomische Formel“).
5.10 Geometrische Summenformel.
n−1
X
an − bn = (a − b) an−1 + an−2 b + · · · + abn−2 + bn−1 = (a − b)
ak bn−1−k = (a − b)
k=0
X
ak bl .
k+l=n−1
Auch diese Formel beweisen wir mit einer Indexverschiebung.
(a − b)
n−1
X
ak bn−1−k
n−1
X
=
k=0
ak+1 bn−1−k −
k=0
n−1
X
=
n−1
X
ak bn−k =
k=0
−
k=1
ak bn−k −
k=1
!
ak bn−k + an
n
X
bn +
n−1
X
n−1
X
ak bn−k
k=0
!
ak bn−k
= an − bn .
k=1
Für n = 2 erhalten wir die aus der Schule bekannte „dritte binomische Formel“ a2 − b2 = (a − b)(a + b).
Für a = q und b = 1 folgt nach Ersetzen von n durch n + 1
n
X
k=0
qk =
1 − q n+1
1−q
für q 6= 1.
5.11 Bernoullische Ungleichung. Für n ∈ N und x ≥ −1 gilt (1 + x)n ≥ 1 + nx.
Beweis durch vollständige Induktion.
Induktionsverankerung: Für n = 1 besteht sogar Gleichheit: (1 + x)1 = 1 + 1 · x.
Induktionsschritt: Gilt (1 + x)n ≥ 1 + nx, so folgt mit 4.3 (g) wegen 1 + x ≥ 0 auch
(1 + x)n+1 = (1 + x)n (1 + x) ≥ (1 + nx)(1 + x) = 1 + (n + 1)x + nx2 ≥ 1 + (n + 1)x.
11
KAPITEL 1. GRUNDLAGEN
6
Rationale Zahlen
6.1 Rationale Zahlen. Die rationalen Zahlen werden definiert durch Q := { m
n | m, n ∈ Z, n 6= 0}. Wir
haben uns schon in 3.3 und 4.2 überlegt, dass Q ein geordneter Körper ist. Jetzt wollen wir ihn genauer
betrachten.
6.2 Archimedische Anordnung von Q. Zu jeder noch so großen positiven rationalen Zahl r gibt es
eine natürliche Zahl N mit N > r. Wir zeigen allgemeiner: Sind p, q ∈ Q positiv, so existiert ein N ∈ N
mit N p > q.
r
Sind nämlich p = m
n und q = s mit m, n, r, s ∈ N vorgegeben, so setzen wir N := nr + 1. Dann gilt
(nr+1)m
mnr
> n = mr ≥ r ≥ rs = q.
Np =
n
Geometrisch interpretiert besagt die zweite Aussage, dass jede noch so kurze Strecke (der Länge p) eine
vorgegebene Strecke (der Länge q) übertrifft, wenn man sie nur oft genug (N -mal) aneinandersetzt.
6.3 Dichtheit von Q. Zwischen je zwei rationalen Zahlen liegen unendlich viele weitere rationale
Zahlen. Tatsächlich, für p, q ∈ Q mit p < q ist r1 := 12 (p + q) wieder eine rationale Zahl und nach 4.8
(r) gilt p < r1 < q. Analog gibt es zu r1 und q ein r2 ∈ Q mit r1 < r2 < q. Per Induktion können wir
unendlich viele rationale Zahlen r1 , r2 , . . . konstruieren mit p < r1 < r2 < . . . < q.
Die rationalen Zahlen liegen also unendlich fein gepackt auf der Zahlengeraden. Trotzdem gibt es nur
„wenige“ rationale Zahlen, wie wir gleich sehen werden.
6.4 Abzählbarkeit von Q. Die rationalen Zahlen lassen sich abzählen. Das soll heißen, dass wir die
rationalen Zahlen mit Hilfe der natürlichen Zahlen durchnummerieren können. In diesem Sinn hat Q nicht
mehr Elemente als N.
Die Nummerierung erfolgt mit dem Cantorschen Diagonalverfahren. In der nebenstehend
skizzierten Weise verwenden wir die ungeraden Zahlen außer 1 zur Nummerierung der
positiven rationalen Zahlen. Eingeklammerte
Zahlen brauchen wir nicht mehr zu nummerieren, da sie schon zuvor nummeriert wurden.
Die negativen rationalen Zahlen werden analog mit Hilfe der gerade Zahlen nummeriert,
die 0 erhält die Nummer 1.
1
1
↓
2
1
%
1
2
( 22 )
.
1
3
↓
1
4
..
.
→
.
3
1
%
3
2
%
2
3
%
( 33 )
..
.
5
1
···
5
2
···
5
3
···
5
4
···
..
.
%
4
3
%
3
4
→
.
( 24 )
.
.
( 42 )
..
.
4
1
.
( 44 )
..
.
..
.
6.5 Unvollständigkeit von Q. Es gibt keine rationale Zahl r mit r2 = 2. Der Beweis hierfür ist schon
seit der Antike bekannt: Gäbe es ein r ∈ Q mit r2 = 2, so könnten wir r = m
n mit teilerfremden Zahlen
m, n ∈ N schreiben. Insbesondere ist dann mindestens eine der beiden Zahlen m und n ungerade. Wegen
m2 = 2n2 ist m2 und damit auch m gerade, hat also die Form m = 2k mit k ∈ N. Dann folgt aber
(2k)2 = 2n2 , d.h. n2 = 2k 2 und n muss — im Widerspruch zur Annahme — auch gerade sein.
Da Q ein geordneter Körper ist, können wir uns die rationalen Zahlen auf einer Zahlengeraden vorstellen.
Gemäß 6.3 liegen die rationalen Zahlen dicht auf dieser Geraden. Trotzdem muss es „Löcher“ geben:
Wir errichten über dieser Zahlengeraden ein Einheitsquadrat mit einer Ecke im Nullpunkt, schlagen um
den Nullpunkt einen Kreis mit der Diagonalenlänge d als Radius. Nach dem Satz des Pythagoras gilt
d2 = 12 + 12 = 2. Unsere vorherige Überlegung zeigt, dass dieser Kreis unsere „rationale Zahlengerade“
nicht trifft. Die rationalen Zahlen genügen uns also nicht.
12
7
§1. NATÜRLICHE, GANZE, RATIONALE UND REELLE ZAHLEN
Intervalle, beschränkte Mengen, Maximum und Minimum
7.1 Intervalle. Für reelle Zahlen c und d mit c < d setzen wir
[c, d]
]c, d[
[c, d[
]c, d]
[c, +∞[
]c, +∞[
] − ∞, d]
] − ∞, d[
] − ∞, +∞[
:=
:=
:=
:=
:=
:=
:=
:=
:=
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
{x ∈ R :
R.
c ≤ x ≤ d},
c < x < d},
c ≤ x < d},
c < x ≤ d},
c≤x
},
c<x
},
x ≤ d},
x < d},
und nennen derartige Mengen Intervalle. Die Zahlen c und d heißen untere bzw. obere Intervallgrenze.
Achtung. Das Symbol ∞ wird in der Analysis häufig benutzt, aber immer in einem genau präzisierten
Sinn. So ist ]c, +∞[ lediglich eine Kurzbezeichnung für die Menge {x ∈ R : x > c}. Insbesondere
bezeichnen „−∞“ und „+∞“ keine reelle Zahl.
Die neun zuvor angegebenen Intervallarten werden in folgende Typen unterteilt.
Typ
offen
halboffen
abgeschlossen
kompakt
beschränkt
unbeschränkt
Intervalle dieses Typs
]c, d[, ]c, +∞[, ] − ∞, d[, ] − ∞, +∞[
]c, d], [c, d[
[c, d], [c, +∞[, ] − ∞, d]
[c, d]
[c, d], ]c, d], [c, d[, ]c, d[
] − ∞, d[, ] − ∞, d], ] − ∞, +∞[, [c, +∞[, ]c, +∞[
Insbesondere nennt man
R+
:=
]0, +∞[
R+
0
−
R
:=
:=
[0, +∞[ die nichtnegativen reellen Zahlen oder die abgeschlossene rechte Halbgerade,
] − ∞, 0[ die negativen reellen Zahlen oder die offene linke Halbgerade,
R−
0
:=
] − ∞, 0] die nichtpositiven reellen Zahlen oder die abgeschlossene linke Halbgerade.
die positiven reellen Zahlen oder die offene rechte Halbgerade,
Für offene Intervalle ]c, d[ findet man in der Literatur oft auch die Bezeichnung (c, d).
7.2 Obere und untere Schranken. Eine Teilmenge M ⊂ R, M 6= ∅ heißt nach oben (unten) beschränkt, wenn es eine Zahl m gibt, mit x ≤ m (x ≥ m) für alle x ∈ M . Jede solche Zahl m heißt eine
obere (untere) Schranke.
Ist m eine obere (untere) Schranke von M und ist m0 eine reelle Zahl mit m0 ≥ m (m0 ≤ m), so ist auch
m0 eine obere (untere) Schranke von M . Wenn eine Menge nach oben beschränkt ist, so besitzt sie „viele“
obere Schranken. Aus formalen Gründen ist die leere Menge ∅ sowohl nach oben als auch nach unten
beschränkt.
Beispielsweise ist N nach unten beschränkt, 1 ist eine untere Schranke aber auch jede negative reelle Zahl
ist eine. Dagegen ist N nach oben unbeschränkt, das folgt aus der Archimedischen Eigenschaft 6.2.
Die Menge M := {x ∈ R | x2 < 2} ist nach oben durch 2 beschränkt, denn für jedes x ∈ M gilt
x2 < 2 < 22 , d.h. x < 2 nach 4.4 (j). Ähnlich sieht man ein, dass M auch durch 42 nach oben oder durch
−2 nach unten beschränkt ist.
13
KAPITEL 1. GRUNDLAGEN
7.3 Beschränkte Mengen. Eine Teilmenge M ⊂ R heißt beschränkt, wenn sie nach oben und nach
unten beschränkt ist.
In diesem Fall existieren Schranken mo , mu ∈ R mit mu ≤ x ≤ mo für alle x ∈ M . Wählen wir für m die
größere der beiden Zahlen |mu | und |mo |, so gilt |x| ≤ m für alle x ∈ M . Existiert umgekehrt ein m ∈ R
mit |x| ≤ m für alle x ∈ M , so ist m eine obere und −m eine untere Schranke für M .
Eine Teilmenge M ⊂ R ist also genau dann beschränkt, wenn es eine Schranke m ∈ R gibt mit |x| ≤ m
für alle x ∈ M .
7.4 Maximum und Minimum. Für zwei reelle Zahlen a und b setzen wir
(
(
a falls a ≥ b,
a falls a ≤ b,
max{a, b} :=
min{a, b} :=
b falls b > a,
b falls b < a,
Durch Induktion nach der Anzahl der Elemente finden wir für je endlich viele reelle Zahlen a1 , . . . , an
eine größte und eine kleinste und bezeichnen diese mit
max{a1 , . . . , an },
min{a1 , . . . , an }.
Für Mengen von unendlich vielen reellen Zahlen ist es aber nicht a priori klar, ob ein größtes oder ein
kleinstes Element existiert. Beispielsweise hat R+ =]0, +∞[ kein kleinstes Element. Für jedes x ∈ R+ ist
nämlich auch x2 ∈ R+ und es gilt x2 < x. Zu jedem Element in R+ gibt es also ein noch kleineres, das
auch in R+ liegt. Die Zahl 0 dagegen können wir nicht als kleinstes Element wählen, es gilt ja 0 ∈
/ R+ .
Um im Allgemeinen zu klären, ob eine Menge reeller Zahlen ein Maximum bzw. ein Minimum besitzt,
müssen wir also vorsichtig vorgehen.
Definition. Eine nichtleere Teilmenge M ⊂ R hat ein Maximum (Minimum) m =: max M (m =: min M )
falls m eine obere (untere) Schranke von M ist und falls m ∈ M .
Achtung. Nicht jede nichtleere nach oben (unten) beschränkte Teilmenge von R besitzt ein Maximum
(Minimum).
Welche der in 7.1 angegebenen Intervalle haben ein Maximum, welche ein Minimum?
Das Wohlordnungsprinzip 5.6 besagt, dass jede nichtleere Teilmenge von N ein Minimum besitzt.
8
Beweistechniken
In den vorangegangenen Abschnitten haben wir diverse Aussagen formuliert und bewiesen. Jetzt wollen
wir die dabei verwendeten Techniken beleuchten.
8.1 Implikationen. Die meisten mathematischen Sätze haben die folgende Bauart: Innerhalb eines
bestimmten Gegenstandsbereichs der Mathematik folgt unter der Voraussetzung A die Behauptung B.
Hierfür schreiben wir
A⇒B
(„aus A folgt B“,
„wenn A, dann B“,
„A impliziert B“).
Durchforsten Sie die vorangegangenen Abschnitte nach Beispielen. Wir geben drei davon an.
(a) Abschnitt 4.8 (r): für reelle Zahlen a und b
A: a < b
B: a <
1
(a + b) < b.
2
(b) Abschnitt 6.2: für rationale Zahlen r
A: r > 0
B : es gibt ein N ∈ N mit N > r.
14
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
(c) Abschnitt 6.5: für reelle Zahlen
A: r ∈ Q
B : r2 6= 2.
Der Beweis einer Aussage des Typs A ⇒ B kann auf drei Arten geführt werden. Dabei sollten wir uns an
die Wahrheitstafel der Implikation erinnern.
A B
w w
w f
f w
f f
A⇒B
w
f
w
w
8.2 Direkter Beweis. Mit Hilfe der Grundannahmen im jeweiligen Gegenstandsbereich, den schon bewiesenen Sätzen und der Voraussetzung A schließen wir mit Hilfe der Logik auf die Richtigkeit von B.
Beispiel. Der Beweis von 4.4 (i).
8.3 Indirekter Beweis. Wir zeigen auf direktem Wege: ist B falsch, so ist auch A falsch. Wenn dann A
richtig ist, so muss auch B richtig sein, sonst hätten wir einen Widerspruch: A müsste gleichzeitig richtig
und falsch sein. Kurz gesagt: statt A ⇒ B beweisen wir ¬B ⇒ ¬A.
Beispiel. Der Beweis in 4.2, dass der Minikörper {0, 1} nicht angeordnet werden kann.
8.4 Widerspruchsbeweis. Wir nehmen an, dass A richtig und dass B falsch ist und leiten daraus einen
Widerspruch ab, d.h. wir zeigen, dass dann eine bestimmte Aussage gleichzeitig mit ihrem Gegenteil wahr
sein müsste.
Beispiel. Der Beweis von „es gibt keine rationale Zahl r mit r2 = 2“ in 6.5.
8.5 Notwendige und hinreichende Bedingungen. Gilt A ⇒ B, so sagen wir: A ist eine hinreichende
Bedingung für B, und B ist eine notwendige Bedingung für A.
8.6 Äquivalente Bedingungen. Sind zwei Ausagen A und B entweder beide gleichzeitig richtig oder
beide gleichzeitig falsch, so schreiben wir gemäß der Wahrheitstafeln in 1.1
A⇔B
(„genau dann A, wenn B“,
„A ist äquivalent zu B“)
und sagen, dass A eine notwendige und hinreichende Bedingung für B ist.
Beispiel. Abschnitt 4.6 (k): für a, b ∈ R
A : |a| ≤ b
B : (a ≤ b) ∧ (−a ≤ b).
Eine Äquivalenzaussage A ⇔ B wird gerne durch den Nachweis der beiden Implikationen A ⇒ B und
B ⇒ A bewiesen.
§2
Vollständigkeit der reellen Zahlen, Folgen
In diesem Abschnitt kommen wir zu dem noch ausstehenden ominösen Supremumsaxiom, welches die
reellen Zahlen erst auszeichnet. Wir formuliern dieses Axiom zunächst, ziehen anschließend diverse Folgerungen über reelle Zahlen und erhalten insbesondere die gesamte Konvergenztheorie für Folgen. Das
ist die Stelle, an der die Unendlichkeit der reellen Zahlen die Analysis zum Leben erweckt.
KAPITEL 1. GRUNDLAGEN
1
15
Supremum und Infimum
1.1 Das Supremumsaxiom.
(A9) Jede nach oben beschränkte und nichtleere Teilmenge M von R besitzt eine kleinste obere Schranke.
Diese wird das Supremum von M genannt und mit sup M bezeichnet.
Im Detail: ξ = sup M bedeutet
• die Zahl ξ ist obere Schranke von M , d.h. es gilt x ≤ ξ für jedes x ∈ M ,
• keine Zahl ζ < ξ ist obere Schranke von M : zu jedem ζ < ξ existiert mindestens ein x ∈ M mit
ζ < x.
Spiegeln wir M an der Zahlengeraden, d.h. ersetzen wir die Elemente x ∈ M durch −x, so erhalten
wir analog: Jede nach unten beschränkte und nichtleere Teilmenge M von R besitzt eine größte untere
Schranke. Diese wird das Infimum von M genannt und mit inf M bezeichnet.
1.2 Anmerkungen zum Supremumsaxiom. Für M =]0, 1[ gilt sup M = 1. Offensichtlich ist 1 eine
obere Schranke von M , und für jedes ζ < 1 existiert ein x ∈ M mit x > ζ, nämlich beispielsweise
x = (1 + ζ)/2 für ζ > −1 und x = 1/2 für ζ ≤ −1. Für ein beliebiges offenes beschränktes Intervall ]a, b[
zeigt man analog sup]a, b[= b und inf]a, b[= a.
Besitzt eine nichtleere Teilmenge M reeller Zahlen ein Maximum (Minimum) m = max M (m = min M ),
so ist m auch das Supremum (Infimum) von M .
Achtung. Beachten Sie den Unterschied zwischen Maximum und Supremum. Wie in §1.7.4 gezeigt,
muss eine nichtleere und nach oben beschränkte Teilmenge von R kein Maximum besitzen. Nach dem
Supremumsaxiom (A9) hat sie aber ein Supremum. Das Supremum einer Menge M muss nicht notwendigerweise zu M gehören.
Dass das Supremumsaxiom eine Besonderheit von R ist, illustrieren wir am folgenden Beispiel: Die Menge
M = {x ∈ Q | x2 < 2} ist eine nichtleere Teilmenge von Q (z.B. gilt 1 ∈ M ) und (wie in §1.7.2 gezeigt)
nach oben beschränkt. In 2.4 werden wir sehen, dass jeder Kandidat für ξ = sup M die Bedingung ξ 2 = 2
erfüllen muss. Es gibt aber keine rationale Zahl ξ mit ξ 2 = 2. Also gilt in Q kein Supremumsaxiom.
1.3 Anmerkung zur Existenz und Eindeutigkeit der reellen Zahlen. Die Menge R der reellen
Zahlen sind durch die Axiome (A1)–(A9) vollständig beschrieben. Alle ihre Eigenschaften (und damit die
gesamte Analysis) können aus diesen neun Axiomen abgeleitet werden. Dennoch erscheint es zunächst
weder sicher, dass es die reellen Zahlen überhaupt gibt, noch dass es nicht mehrere „verschiedene“ Mengen
gibt, die diese neun Axiome erfüllen. Wir werden aber in 7.3 sehen, dass aus den Axiomen (A1)–(A9)
sowohl Existenz als auch Eindeutigkeit der reellen Zahlen abgeleitet werden können. Dort wird sich
nämlich R als „die“ Menge aller Dezimalbrüche erweisen.
1.4 Notation für unbeschränkte Mengen. Ist M eine nach oben unbeschränkte Teilmenge von R,
so schreibt man dafür gerne sup M = +∞.
Achtung. Das bedeutet nicht, dass +∞ das Supremum von M ist — +∞ ist keine reelle Zahl. Analog
verhält es sich mit der Notation inf M = −∞, die nicht mehr und nicht weniger bedeutet, als dass M
nach unten unbeschränkt ist.
2
Folgerungen aus dem Supremumsaxiom
2.1 Archimedisches Prinzip. Ähnlich wie in §1.6.2 gilt:
(a) Zu jeder noch so großen positiven reellen Zahl r gibt es eine natürliche Zahl N mit N > r.
(b) Sind a, b ∈ R positiv, so existiert ein N ∈ N mit N a > b.
(c) Zu jedem ε > 0 gibt es ein N ∈ N mit 1/N < ε.
16
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
In (a) wird ausgesagt, dass N in R nach oben unbeschränkt ist. Dies zeigen wir mit einem Widerspruchsbeweis: Wäre N in R nach oben beschränkt, so existiert ξ := sup N ∈ R nach dem Supremumsaxiom (A9).
Nach der Definition des Supremums ist ξ − 1 keine obere Schranke von N, es gibt also ein n ∈ N mit
n > ξ − 1. Für die natürliche Zahl n + 1 gilt also ξ < n + 1 im Widerspruch zur ξ = sup N. Nun folgt (b)
mit r = b/a und (c) mit r = 1/ε.
2.2 Satz des Eudoxos. Ist x ≥ 0 reell und gilt x < 1/n für alle n ∈ N, so folgt x = 0.
Dieser Satz wird uns an mehreren Stellen nützlich sein, er folgt sofort durch Negation von 2.1 (c).
2.3 Gauß-Klammer. Für jede reelle Zahl x existiert genau eine ganze Zahl n mit n ≤ x < n + 1. Diese
Zahl wird mit bxc bezeichnet und Gauß-Klammer von x genannt. Offensichtlich ist bxc die größte ganze
Zahl kleiner oder gleich x.
Beweis∗ . Wir betrachten die Menge M := {m ∈ Z | x < m + 1}. Diese Menge ist nicht leer: für
x ≤ 0 gilt 0 ∈ M , für x > 0 liefert das Archimedische Prinzip 2.1 (a) ein Element in M . Ferner ist M
konstruktionsgemäß nach unten beschränkt (durch x). Nach dem Supremumsaxiom (genauer gesagt der
in 1.1 angegebenen Folgerung) existiert m := inf M . Nach 2.1 (a) gibt es ein N ∈ N mit N > |m|. Die
um N verschobene Menge {m + N ∈ Z | m ∈ M } ist dann eine Teilmenge von N und besitzt nach
dem Wohlordnungsprinzip §1.5.6 ein Minimum. Also hat M selbst ebenfalls ein Minimum n, d.h. es gilt
x < n + 1 aber x ≥ (n + 1) − 1 = n. Damit hat n die gewünschte Eigenschaft n ≤ x < n + 1.
Beispielsweise gilt b1.3c = 1, b−2.7c = −3, b−6c = −6.
2.4 Existenz von Wurzeln. Zu jeder reellen Zahl a ≥ 0 und jeder natürlichen√ Zahl n gibt es genau
eine Zahl x ≥ 0 mit √
xn = a. Diese
Zahl wird n-te Wurzel von a genannt und mit n a bezeichnet. Im Fall
√
2
n = 2 schreiben wir a statt a und nennen diese Zahl Wurzel oder Quadratwurzel von a.
Die Existenz von Wurzeln ist eine der spannenden Folgerungen aus dem Supremumsaxiom (A9). Wir
führen den Beweis nicht um seiner selbst willen, sondern weil er eine gute Fingerübung im Umgang mit
Ungleichungen ist. Für das grundlegende Verständis ist aber wichtiger, dass Sie wissen, was eine n-te
Wurzel ist.
n
Beweis. Die Fälle n = 1 oder a = 0 sind klar. Sei n ≥ 2 und a > 0. Die Menge M := {x ∈ R+
0 : x ≤ a}
ist wegen 0 ∈ M nichtleer und nach oben beschränkt. Nach dem Supremumsaxiom (A9) existiert daher
ξ := sup M . Durch einen indirekten Beweis zeigen wir nun, dass ξ eine Lösung von xn = a ist.
Angenommen, es gilt ξ n < a. Für zunächst beliebiges m ∈ N folgt aus der binomischen Formel §1.5.9
ξ+
1
m
n
= ξn +
n X
n 1 n−k
b
ξ
≤ ξn +
k
k m
m
k=1
mit b :=
n X
n
k=1
k
ξ n−k > 0.
Nach dem Archimedischen Prinzip 2.1 (c) gibt es wegen (a − ξ n )/b > 0 ein m ∈ N mit (a − ξ n )/b > 1/m,
d.h. ξ n + b/m < a. Es folgt (ξ + 1/m)n < a und damit ξ + 1/m ∈ M . Also kann ξ nicht das Supremum
von M sein.
Angenommen, es gilt ξ n > a. Für wieder zunächst beliebiges m ∈ N liefert die Bernoullische Ungleichung
§1.5.11
n
n
1
1
n
c
n
n
ξ−
=ξ 1−
≥ξ 1−
= ξn −
mit c := nξ n−1 > 0.
m
ξm
ξm
m
Nach dem Archimedischen Prinzip 2.1 (c) gibt es wegen (ξ n − a)/c > 0 ein m ∈ N mit (ξ n − a)/c > 1/m,
d.h. ξ n − c/m > a. Es folgt (ξ − 1/m)n > a. Damit ist ξ − 1/m eine kleinere obere Schranke für M als ξ.
Also kann ξ nicht das Supremum von M sein.
Mit (A6) folgt ξ n = a. Also besitzt xn = a eine nichtnegative Lösung. Wäre ζ ≥ 0 eine weitere Lösung
mit ζ 6= x, so können wir (ggf. nach Umbenennen) ζ < x annehmen. Aus (A8) folgt a = ζ n < xn = a
und wir haben einen Widerspruch. Also hat xn = a genau eine nichtnegative Lösung.
17
KAPITEL 1. GRUNDLAGEN
3
Folgen
3.1 Was ist eine Folge? Wird durch irgendeine Vorschrift jeder natürlichen Zahl n eine reelle Zahl an
zugeordnet, so nennen wir dies eine Folge reeller Zahlen oder eine Zahlenfolge und schreiben dafür
(a1 , a2 , a3 , . . .),
(an )n∈N ,
(an )n≥1
oder kurz (an )n .
Für die Folgenglieder an und den Index n kann man auch eine andere Bezeichnung wählen, z.B. (ak )k
oder (fl )l . Manchmal beginnt die Zählung nicht bei 1 sondern bei 0 oder einer anderen ganzen Zahl, z.B.
(xk )k≥0 .
Überlegen Sie sich für jedes der folgenden Beispiele, ob es besser ist, das Bildungsgesetz anzugeben, oder
einfach die ersten Folgenglieder aufzuzählen.
1 1 1
1
=
1, , , , . . . ,
n n
2 3 4
(q n )n≥0 = 1, q, q 2 , q 3 , . . . ,
n 1
9 64 625
=
,... ,
1+
2, , ,
n
4 27 256
n
(1, 0, 1, 0, 0, 1, 0, 0, 0, 1, . . .).
3.2 Rekursiv definierte Folgen. Aus dem Induktionsprinzip §1.5.3 kann das Rekursionsprinzip abgeleitet werden. Es besagt, dass eine Folge (an )n≥0 eindeutig festgelegt ist, wenn ihr Anfangsglied a0 = c
gegeben ist und wenn für jedes n ≥ 1 eine Vorschrift gegeben ist, wie das n-te Glied an aus den vorangehenden Gliedern a0 , . . . , an−1 zu bilden ist.
Wir verzichten auf den (kunstvollen) Beweis, geben aber Beispiele an.
(a) Durch
a1 := 2,
an+1 :=
1
2
2
an +
an
für n ≥ 1,
wird eine Folge (an )n definiert. Wir berechnen einige Folgeglieder
n
1
2
3
4
665857
= 1, 414 213 562 374 . . .
470832
√
und haben den Eindruck, dass sie schnell konvergente Approximationen an 2 liefert. In 8.5 werden wir
zeigen, dass unsere Vermutung zutrifft.
an
3
= 1, 5
2
2
17
= 1, 416 . . .
12
5
577
= 1, 414 25 . . .
408
(b) Die Folge der Fibonacci-Zahlen (fn )n≥0 wird rekursiv definiert durch
f0 := 1,
f1 := 1,
fn := fn−1 + fn−2
für n ≥ 2.
Man sagt, dass die Fibonacci-Zahlen einer Rekursion zweiter Ordnung genügen, da zur Berechnung der
n-ten Fibonacci-Zahl fn die beiden vorherigen Fibonacci-Zahlen fn−1 und fn−2 notwendig sind. Daher
muss man auch zwei Startwerte f0 und f1 vorgeben.
Wir können fn als die Anzahl der Kaninchenpaare im Monat n interpretieren, wenn ein Kaninchenpaar
in jedem Monat ein neues Paar in die Welt setzt, welches sich im übernächsten Monat in gleicher Weise
vermehrt. Wir erhalten
n
fn
0
1
1
1
2
1+1=2
3
2+1=3
4
3+2=5
5
5+3=8
6
8 + 5 = 13
7
.
13 + 8 = 21
18
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
(c) Unsere Definition von Summen- und Produkten in §1.5.7 ist streng genommen eine rekursive: In
einem Körper ist zunächst nur die Summe und das Produkt zweier Zahlen erklärt, rekursiv kann sie
auf Summen bzw. Produkte von drei, vier und allgemein endlich vielen Zahlen erweitert werden. Durch
Induktion zeigt man, dass die Rechenregeln (A1)–(A3) (Kommutativ-, Assoziativ- und Distributivgesetze)
weiterhin gelten.
Summen und Produkte von unendlich vielen Zahlen werden wir in §4 kennenlernen und feststellen, dass
mit ihnen vorsichtig umgegangen werden muss. Insbesondere übertragen sich die grundlegenden Rechenregeln (A1)–(A3) nicht automatisch.
(d)∗ Bevölkerungswachstum bei beschränktem Lebensraum wird durch die Verhulst-Gleichung
cn+1 = γcn (1 − cn )
modelliert. Hierbei gibt cn den Anteil an der Maximalbevölkerung in der n-ten Generation an, die Maximalbevölkerung ist hierbei zu 1 (d.h. 100%) normiert. Ohne Lebensraumbeschränkung wächst eine
Population von der n-ten zur (n + 1)-ten Generation um den Wachstumsfaktor γ, d.h. es gilt cn+1 = γcn .
Der zusätzliche Faktor 1 − cn in unserem Modell dämpft dieses Wachstum um so mehr, je stärker sich
die Population in der n-ten Generation der Maximalbevölkerung 1 angenähert hat.
Wählen wir als Wachsumskoeffizient γ = 3, 987 und als Startpopulation c0 = 0, 89, so erhalten wir
0
1
2
3
4
5
6
7
8
n
cn ≈ 0, 890 0, 390 0, 949 0, 194 0, 623 0, 937 0, 236 0, 720 0, 805
9
10
11
12
13
14
15
16
17
n
cn ≈ 0, 627 0, 933 0, 251 0, 749 0, 749 0, 749 0, 749 0, 749 0, 750
Eine graphische Darstellung der Bevölkerungsentwicklung über 200 Generationen vermittelt allerdings
ein durchaus chaotisches Bild.
1
0.8
0.6
0.4
0.2
50
100
150
200
Abbildung 1.1: Beispiel für Bevölkerungswachstum nach Verhulst über 200 Generationen.
3.3 Teilfolgen. Durch Weglassen von Folgegliedern aus einer Folge (an )n entsteht eine Teilfolge. Sie hat
die Gestalt (ank )k = (an1 , an2 , an3 , . . .) mit natürlichen Zahlen n1 < n2 < n3 < . . .. Der Fall nk = k ist
dabei zugelassen (und entspricht der gesamten Folge), i.A. gilt nk ≥ k.
Für (1/n)n lautet die Teilfolge (ak2 )k der Folgenglieder mit Quadratzahlen als Indizes (1, 1/4, 1/9, . . .) =
(1/k 2 )k , d.h. nk = k 2 . Die Teilfolge der Folgenglieder mit geraden Indizes der „Vorzeichenwechselfolge“
((−1)n )n≥0 = (1, −1, 1, −1, . . .) ist (1, 1, 1, . . .) (also nk = 2k). Oftmals benennt man den Index der
Teilfolge genauso wie den der ursprünglichen.
19
KAPITEL 1. GRUNDLAGEN
4
Nullfolgen
4.1 Einleitung. Wir wollen mathematisch streng fassen, was „die Folge (an )n hat den Grenzwert a“
(an → a für n → ∞) bedeuten soll. Hierzu erklären wir zunächst, wass „an → 0 für n → ∞“ bedeutet
und führen dann „an → a für n → ∞“ auf „an − a → 0 für n → ∞“ zurück.
Die gesamte Analysis baut auf den Konvergenzbegriff auf. Alle Konvergenzbetrachtungen werden letzlich
auf reelle Nullfolgen zurückgeführt. Darum wollen wir diesen Begriff genau erklären. Hierbei kommt es
zu einem weiteren Kontakt mit dem Unendlichen.
4.2 Wozu eine saubere Definition? Wahrscheinlich zweifelt niemand daran, dass 1/n → 0 für n → ∞
oder dass (1/2)n → 0 für n → ∞. Aber wie steht es mit (n/2n )n ? Zwar gilt 1/2n → 0 für n → ∞, aber n
wächst über alle Grenzen. Und wie steht es mit der Folge (n!/100n )n ? Wir haben
n
1
2
3
4
5
6
n!
100n
1
100
1
5.000
3
500.000
3
12.500.000
3
250.000.000
9
12.500.000.000
7
≈ 5, 04 · 10−11
100
.
≈ 9, 33 · 10−43
Da liegt die Vermutung n!/100n → 0 für n → ∞ nahe. Aber: a1000 ≈ 4, 02 · 10567 .
4.3 Definition: Nullfolge. Eine Folge (an )n heißt eine Nullfolge, in Zeichen
lim an = 0
n→∞
oder
an → 0 für n → ∞,
wenn es zu jeder (noch so kleinen) Zahl ε > 0 eine Zahl nε ∈ N gibt mit |an | < ε für alle n ≥ nε .
In Quantorenschreibweise lautet diese Definition
(∀ε > 0)(∃nε ∈ N)(∀n ∈ N)(n ≥ nε ⇒ |an | < ε).
In Worten: „Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit vielleicht endlich vielen
Ausnahmen alle Folgenglieder um weniger als ε von Null.“
4.4 Einfache Nullfolgen.
(a) Die Folge (1/n)n ist eine Nullfolge.
Zu gegebenem ε > 0 setzen wir nε := b1/ε + 1c. Für n ≥ nε erhalten wir mit der Definition der GaußKlammer dann n > (1/ε + 1) − 1 = 1/ε, also |1/n| = 1/n < ε. Ähnlich sieht man ein:
(b) Für jedes c ∈ R ist (c/n)n eine Nullfolge.
√
(c) Für jedes m ≥ 2 ist (1/ m n)n eine Nullfolge.
Sei ε > 0 gegeben. In den Übungen haben√wir für a, b ∈ R+
0 und m ∈ N bewiesen, dass a < b genau
m
dann, wenn am < bm . Die Ungleichung
1/
n
<
ε
ist
also
gleichwertig
mit 1/n < εm . Wir setzen also
√
m
m
nε := b1/ε c + 1 und erhalten |1/ n| < ε für n ≥ nε .
4.5 Anmerkung. Um nachzuweisen, dass (an )n eine Nullfolge ist, muss man zu jedem ε > 0 eine
natürliche Zahl nε finden mit |an | < ε für alle Indizes n ≥ nε . Die Bezeichung nε soll andeuten, dass der
„Grenzindex“ nε , ab dem die Ungleichung |an | < ε gilt, vom vorgegebenen Fehler ε abhängt. Hierbei muss
man i.A. nε um so größer wählen, je kleiner ε ist. Dabei wird nicht verlangt, den optimalen Grenzindex
zu finden.
4.6 Vergleichskriterium für Nullfolgen. Gilt von einem bestimmten Index ab eine Abschätzung
|an | ≤ bn , wobei (bn )n eine bekannte Nullfolge ist, so ist auch (an )n eine Nullfolge.
Ändert man insbesondere endlich viele Folgenglieder in einer Nullfolge ab, so entsteht wieder eine Nullfolge.
20
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
Beweis. Sei |an | ≤ bn für alle n ≥ N . Insbesondere ist dann bn ≥ 0 für n ≥ N . Nach Voraussetzung
existiert zu jedem ε > 0 ein nε mit |bn | < ε für n ≥ nε . Setzen wir Nε := max{N, nε }, so gilt für
n ≥ Nε einerseits n ≥ N und damit |an | ≤ bn , andererseits n ≥ nε und damit |bn | ≤ ε. Es folgt
|an | ≤ bn = |bn | < ε für n ≥ Nε .
4.7 Beispiel zum Vergleichskriterium für Nullfolgen. Die Folge (n/(n2 + 1))n ist eine Nullfolge,
denn es gilt
n n
1
n
n2 + 1 = n2 + 1 < n2 = n
und (1/n)n ist eine Nullfolge.
4.8 Weitere Nullfolgen.
(d) Für beliebige q ∈] − 1, 1[ und m ∈ N0 ist (nm q n )n eine Nullfolge.
Beweis. Der Fall q = 0 ist trivial, sei also 0 < |q| < 1. Dann gilt |q| = 1/(1 + h) mit einer reellen Zahl
h > 0. Für n ≥ m + 1 liefert die binomische Formel §1.5.9
n X
n k
n
n(n − 1) · · · (n − m) m+1
n
(1 + h)
=
h >
h
hm+1 =
k
(m + 1)!
m+1
k=0
1
m m+1
nm+1
·1· 1−
··· 1 −
h
=
(m + 1)!
n
n
1
m
1
1−
··· 1 −
hm+1 nm+1 ,
≥
(m + 1)!
m+1
m+1
|
{z
}
=:A
wobei A eine positive Konstante ist. Für diese n folgt
|nm q n | =
nm
1
nm
≤
=
.
n
m+1
(1 + h)
An
An
Nach dem Vergleichskriterium 4.6 und (b) ist (nm q n )n damit eine Nullfolge.
(e) Für beliebige x ∈ R ist (xn /n!)n eine Nullfolge.
Beweis. Wählen wir eine natürliche Zahl N ≥ 2|x|, so gilt
n N n−N
n
x x |x|
|x| xN 1
2N |x|N 1
=
=
n! N ! N + 1 · · · n ≤ N ! 2
N!
2
für alle n ≥ N und die Behauptung folgt mit (d) für q = 1/2 und m = 0 wieder aus dem Vergleichskriterium 4.6.
5
Sätze über Nullfolgen
5.1 Eigenschaften von Nullfolgen.
(a) Jede Nullfolge ist beschränkt.
Ist (an )n eine Nullfolge, so gibt es zu jedem ε > 0 ein nε mit |an | < ε für n ≥ nε . Insbesondere gilt dies für
ε = 1. Also existiert ein n1 ∈ N mit |an | ≤ 1 für n ≥ n1 . Setzen wir M := max{|a1 |, |a2 |, . . . , |an1 −1 |, 1},
so ist |an | ≤ M für alle n ≥ 1.
(b) Jede Teilfolge einer Nullfolge ist eine Nullfolge.
Ist (ank )k Teilfolge von (an )n , so ist nk ≥ k für k ∈ N (vgl. 3.3). Gilt daher |ak | ≤ ε für alle k ≥ nε , so
erst recht |ank | < ε.
21
KAPITEL 1. GRUNDLAGEN
5.2 Rechenregeln für Nullfolgen.
(c) Ist (an )n eine Nullfolge, so auch (can )n für jedes c ∈ R.
Für c = 0 haben wir nichts zu tun. Sei also c 6= 0 und sei ε > 0 gegeben. Ist (an )n eine Nullfolge, so
geben wir als Fehler ε/|c| vor und wissen, dass ein nε ∈ N existiert mit |an | < ε/|c| für alle n ≥ nε . Für
diese n gilt dann |can | < ε. Also ist auch (can )n eine Nullfolge.
(d) Sind (an )n und (bn )n Nullfolgen, so auch (an + bn )n .
Sei ε > 0 gegeben. Da (an )n eine Nullfolge ist, können wir ε/2 als Fehler vorgeben und finden ein nε,a ∈ N
mit |an | < ε/2 für n ≥ nε,a . Analog finden wir ein nε,b ∈ N mit |bn | < ε/2 für n ≥ nε,b . Nun setzen wir
nε := max{nε,a , nε,b } und erhalten mit der Dreiecksungleichung |an + bn | ≤ |an | + |bn | < ε/2 + ε/2 = ε
für n ≥ nε , da dann sowohl n ≥ nε,a als auch n ≥ nε,b gilt.
(e) Ist (an )n eine Nullfolge, so auch (|an |)n .
Das folgt unmittelbar aus der Definition.
(f) Ist (an )n eine Nullfolge und ist (bn )n beschränkt, so ist (an bn )n eine Nullfolge.
Ist die Folge (bn )n beschränkt, so existiert eine Schranke M ≥ 0 mit |bn | ≤ M für alle n ∈ N. Dann gilt
auch |an bn | ≤ M |an | für alle n ∈ N. Gemäß (c) und (e) ist mit (an )n auch (M |an |)n eine Nullfolge. Mit
dem Vergleichskriterium 4.6 entpuppt sich auch (an bn )n als Nullfolge.
p
(g) Ist (an )n eine Nullfolge, so auch m |an | für jedes m ∈ N.
n
m
Sei ε > 0 gegeben. Ist (an )n eine Nullfolge, so können
p wir als Fehler ε vorgeben und finden ein nε mit
m
m
|an | < ε für alle n ≥ nε . Für diese n folgt dann
|an | < ε.
5.3 Beispiel. Wir betrachten die Folge (an )n mit
an :=
n2 − 1
n2 + 3
1
2
+√
n2
n
2
.
2
Wir wissen, dass (1/n)n eine Nullfolge ist. Nach (b)
√ ist (1/n )n als Teilfolge mit den Quadratzahlen
eine Nullfolge.
√ Ferner ist nach (g) und (c) auch (2/ n)n eine Nullfolge. Nun erweist sich nach (d) auch
(1/n2 + 2/ n)n als Nullfolge. Wegen |(n2 − 1)/(n2 + 3)| ≤ n2 /n2 = 1 ist ((n2 − 1)/(n2 + 3))n eine
beschränkte Folge. Somit ist
2
n −1 1
2
√
+
n2 + 3 n2
n
n
nach (f) auch Nullfolge. Da nach (a) Nullfolgen beschränkt sind, können wir (f) nochmal anwenden, und
erhalten, dass (an )n eine Nullfolge ist.
6
Konvergente Folgen, Grenzwert
6.1 Definition: Grenzwert. Eine Folge (an )n konvergiert gegen eine Zahl a oder hat den Grenzwert,
in Zeichen
lim an = a
oder
an → a für n → ∞,
n→∞
wenn (an − a)n eine Nullfolge ist, d.h. wenn zu jedem ε > 0 ein nε ∈ N existiert mit |an − a| < ε für alle
n ≥ nε .
In Quantorenschreibweise lautet diese Definition
(∃a ∈ R)(∀ε > 0)(∃nε ∈ N)(∀n ∈ N)(n ≥ nε ⇒ |an − a| < ε).
22
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
In Worten: „Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit vielleicht endlich vielen
Ausnahmen alle Folgenglieder um weniger als ε vom Grenzwert a.“
Eine konvergente Folge hat nur einen Grenzwert. Wären nämlich a und ã zwei Grenzwerte, so sind
(an − a)n und (an − ã)n Nullfolgen und damit auch ((an − a) − (an − ã))n = (a − ã)n . Das ist dann aber
eine konstante Nullfolge. Also gilt a = ã.
Nicht jede Folge konvergiert, wie das Beispiel ((−1)n )n zeigt.
6.2 Beispiele.
((2n + 1)/n)n hat den Grenzwert 2. Es gilt nämlich (2n + 1)/n − 2 = 1/n und (1/n)n ist eine Nullfolge.
((1 − 1/n2 )n )n konvergiert gegen 1. Nach der Bernoullischen Ungleichung §1.5.11 gilt nämlich
n
1
1
1
≤1− 1−n 2 =
0<1− 1− 2
n
n
n
und (1 − (1 − 1/n2 ))n ist damit nach dem Vergleichskriterium 4.6 eine Nullfolge.
6.3 Sandwichprinzip. Aus limn→∞ an = b = limn→∞ cn und an ≤ bn ≤ cn für alle n ∈ N folgt
limn→∞ bn = b.
Das Sandwichprinzip ist für Folgen ähnlich grundlegend wie das Vergleichskriterium 4.6 für Nullfolgen.
Beweis. Sei ε > 0 vorgegeben. Da (an )n und (cn )n gegen b konvergieren, existieren Zahlen nε,a , nε,c ∈ N
mit |an − b| < ε für alle n ≥ nε,a bzw. |cn − b| < ε für alle n ≥ nε,c . Setzen wir nε := max{nε,a , nε,c }, so
gilt für jedes n ≥ nε entweder bn ≥ b und damit 0 ≤ bn − b ≤ cn − b = |cn − b| < ε oder bn < b und damit
0 < b − bn ≤ b − an = |an − b| < ε. Auf jeden Fall gilt also |bn − b| < ε. Daher konvergiert (bn )n gegen b.
6.4 Monotonie des Grenzwerts. Konvergiert (an )n gegen a und existiert eine Schranke m ∈ R sowie
ein Index N mit an ≥ m (an ≤ m) für alle n ≥ N , so gilt a ≥ m (a ≤ m).
Konvergiert (an )n gegen ein a > 0, so existiert ein Index N ∈ N mit an > a/2 für alle n ≥ N .
Diese beiden Sätze geben an, wie sich Konvergenz mit der Anordnung von R verträgt. Ihr Beweis verläuft
ähnlich wie der des Sandwichprinzips 6.3.
Achtung. Aus an > m und limn→∞ an = a folgt nicht a > m, wie das Gegenbeispiel an = 1/n und
m = 0 zeigt.
6.5 Supremum und Infimum als Grenzwert. Sei M ⊂ R nichtleer und nach oben (unten) beschränkt. Nach dem Supremumsaxiom (A9) existiert dann ξ := sup M (ξ := inf M ). Definitionsgemäß
existiert zu jedem n ∈ N ein an ∈ M mit ξ − 1/n < an ≤ ξ (ξ ≤ an < ξ + 1/n). Also konvergiert (an )n
gegen ξ. Daher gilt:
Existiert ξ = sup M (ξ = inf M ) für M ⊂ R, so gibt es eine Folge in M , die gegen ξ konvergiert.
6.6 Eigenschaften konvergenter Folgen.
(a) Jede konvergente Folge ist beschränkt.
Konvergiert (an )n gegen a, so ist (an − a)n als Nullfolge nach 5.1 (a) beschränkt durch ein M ≥ 0. Mit
der Dreiecksungleichung folgt |an | = |a + an − a| ≤ |a| + |an − a| ≤ |a| + M für alle n ∈ N. Damit ist
(an )n durch |a| + M beschränkt.
(b) Jede Teilfolge einer konvergenten Folge konvergiert und hat denselben Grenzwert wie die Folge selbst.
Das folgt sofort aus 5.1 (b).
6.7 Rechenregeln für konvergente Folgen.
23
KAPITEL 1. GRUNDLAGEN
Ist a := limn→∞ an und b := limn→∞ bn , so gilt:
(c) limn→∞ (αan + βbn ) = αa + βb für beliebige α, β ∈ R.
(d) limn→∞ |an | = |a|.
(e) limn→∞ an bn = ab.
(f) limn→∞ bn /an = b/a falls a 6= 0. Dabei kann an höchstens endlich oft Null sein, die entsprechenden
Glieder müssen dann natürlich in der Folge (bn /an )n weggelassen werden.
(g) limn→∞ an m = am für jedes m ∈ N.
√
√
(h) limn→∞ an = a falls an ≥ 0 für alle n ∈ N.
Beweis. Wir machen jeweils durch geschicktes Abschätzen das Vergleichskriterium 4.6 anwendbar.
Zu (c): Wir zeigen, dass ((αan + βbn ) − (αa + βb))n eine Nullfolge ist. Tatsächlich gilt
|(αan + βbn ) − (αa + βb)| = |α(an − a) + β(bn − b)| ≤ |α||an − a| + |β||bn − b|
und die rechte Seite strebt nach den Rechenregeln für Nullfolgen 5.2 gegen Null.
Zu (d): Die umgekehrte Dreicksungleichung (siehe §1.4.7) liefert ||an | − |a|| ≤ |an − a| und die rechte Seite
konvergiert gegen Null. Also ist (|an | − |a|)n eine Nullfolge.
Zu (e): Nach 6.6 (a) ist (bn )n beschränkt, d.h. es gibt ein M ≥ 0 mit |bn | ≤ M für alle n ∈ N. Damit gilt
|an bn − ab| = |an bn − abn + abn − ab| = |(an − a)bn + a(bn − b)| ≤ M |an − a| + |a||bn − b|.
Die rechte Seite konvergiert nach den Rechenregeln für Nullfolgen 5.2 gegen Null, also auch (an bn − ab)n .
Zu (f): Wir zeigen limn→∞ 1/an = 1/a. Die Behauptung folgt dann aus (e). Sei zunächst a > 0. Nach 6.4
existiert ein N ∈ N mit an ≥ a/2 > 0 für alle n ≥ N . Für diese n folgt
1
2
1 a − an |an − a|
an − a = an a = an a ≤ a2 |an − a|
und entlarvt (1/an − 1/a)n als Nullfolge. Für a < 0 schließe man analog.
Zu (g): Dies folgt aus (e) durch Induktion nach m.
Zu (h): Aus an ≥ 0 folgt a ≥ 0 dank der Monotonie des Grenzwerts 6.4. Damit erhalten wir
√
| an −
√
an − a |a − a|
1
√ = √ n √ ≤ √ |an − a|.
a| = √
an + a
an + a
a
√
√
Die rechte Seite ist eine Nullfolge und damit auch ( an − a)n .
6.8 Weitere konvergente Folgen.
p
(i) limn→∞ n |a| = 1 für jedes a 6= 0.
p
Beweis. Sei zunächst |a| ≥ 1. Dann ist bn := n |a| − 1 ≥ 0, und wir müssen limn→∞ bn = 0 zeigen. Aus
der Bernoullischen Ungleichung folgt |a| = (1 + bn )n ≥ 1 + nbn und weiter 0 ≤ bn ≤ (|a|
p − 1)/n für n ∈ N.
Nun liefert das Sandwichprinzip 6.3 die Behauptung. Für 0 < |a| < 1 betrachte man n 1/|a| und schließe
analog.
√
(j) limn→∞ n nm = 1 für jedes m ∈ N.
24
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
√
Beweis. Wir zeigen, dass an := n nm −1 eine Nullfolge ist. Für alle n ∈ N gilt an ≥ 0. Für alle n ≥ m+1
erhalten wir mit der binomischen Formel 5.9
n √ n
X
n
n
n
n
m
k
m
= (1 + an ) =
n
an ≥
n
=
an m+1
k
m+1
k=0
nm+1
1
m
n(n − 1) · · · (n − m) m+1
an
=
·1· 1−
··· 1 −
an m+1
=
(m + 1)!
(m + 1)!
n
n
1
m
1
1−
··· 1 −
an m+1 nm+1
≥
(m + 1)!
m+1
m+1
|
{z
}
=:B
mit einer Zahl B > 0. Für alle n ≥ m + 1 gilt daher 0 ≤ an m+1 ≤ 1/(Bn) und damit auch
|an | ≤
1
√
m+1
B
1
√ .
n
m+1
Nun zeigt das Vergleichskriterium 4.6 zusammen mit 4.4 (c), dass (an )n eine Nullfolge ist.
7
Intervallschachtelung und Dezimalbruchentwicklung
7.1 Definition: Intervallschachtelung. Eine Folge von Intervallen [cn , dn ] bildet eine Intervallschachtelung, wenn [cn+1 , dn+1 ] ⊂ [cn , dn ] für alle n ∈ N und dn − cn → 0 für n → ∞.
7.2 Satz über die Intervallschachtelung. Eine Intervallschachtelung erfasst genau eine reelle Zahl.
D.h. es existiert eine und nur eine Zahl x ∈ R, die zu allen Intervallen gehört. Für diese Zahl gilt
limn→∞ cn = x = limn→∞ dn .
Beweis. Definitionsgemäß gilt c1 ≤ c2 ≤ . . . ≤ cn ≤ cn+1 ≤ dn+1 ≤ dn ≤ . . . ≤ d2 ≤ d1 . Insbesondere ist
cn ≤ d1 für alle n ∈ N. Damit ist M := {cn | n ∈ N} nichtleer und nach oben beschränkt. Also existiert
x := sup M . Offensichtlich gilt x ≥ cn für alle n ∈ N. Nun ist auch jedes dn obere Schranke für M . Und
da x die kleinste obere Schranke von M ist, folgt x ≤ dn für alle n ∈ N. Wir haben also cn ≤ x ≤ dn für
alle n ∈ N und damit 0 ≤ x − cn ≤ dn − cn . Wegen limn→∞ (dn − cn ) = 0 gilt limn→∞ cn = x nach dem
Vergleichskriterium. Analog folgt limn→∞ dn = x.
7.3 Dezimalbruchentwicklung. Für eine vorgegebene reelle Zahl x ≥ 0 setzen wir
x0
:= bxc
k
:= max k ∈ {0, 1, 2, . . . , 9} x0 +
≤x ,
10
k
x1
:= max k ∈ {0, 1, 2, . . . , 9} x0 +
+
≤x ,
10 102
x1
x2
usw. d.h. sind die Ziffern x0 , x1 , . . . , xn schon gefunden, so setzen wir
x2
xn
k
x1
xn+1 := max k ∈ {0, 1, 2, . . . , 9} x0 +
+
+ · · · + n + n+1 ≤ x ,
10 102
10
10
So ordnen wir jeder reellen Zahl x ≥ 0 eine ganze Zahl x0 ≥ 0 und eine Folge (xn )n von Ziffern zu, die
Dezimalbruchentwicklung von x, und schreiben
x = x0 , x1 x2 x3 . . .
(im angelsächsischen wird das Dezimalkomma durch einen Dezimalpunkt ersetzt). Gibt es ein N ∈ N mit
xn = 0 für alle n > N , so schreiben wir einfach
x = x0 , x1 x2 x3 . . . xN
25
KAPITEL 1. GRUNDLAGEN
und nennen x einen endlichen Dezimalbruch. Durch
cn := x0 +
x1
xn
+ ··· + n,
10
10
dn := cn +
1
10n
erhalten wir offensichtlich eine Intervallschachtelung [cn , dn ]. Konstruktionsgemäß gilt dann cn ≤ x < dn
für n ∈ N.
√
Beispiel. x = 5. Wegen 22 < 5 < 32 ist x0 = 2. Durch Probieren erhalten wir x1 = 2, da
2
2
2
3
2+
= 4, 84 < 5 < 5, 29 = 2 +
,
10
10
und weiter x2 = 3, da
Damit gilt 2, 23 <
√
2
3
2+
+
10 102
2
2
2
4
= 4, 9729 < 5 < 5, 0176 = 2 +
.
+
10 102
5 < 2, 24.
7.4 Eigenschaften der Dezimalbruchentwicklung.
(a) In der Dezimalbruchentwicklung kann es nicht vorkommen, das ab einer bestimmten Stelle alle Ziffern
gleich 9 sind.
(b) Ist x0 ≥ 0 eine ganze Zahl und ist (xn )n eine Folge von Ziffern, die nicht von einer bestimmten Stelle
ab alle gleich 9 sind, so gibt es genau eine reelle Zahl x, die diese Dezimalbruchentwicklung hat.
(c) Genau dann sind x und y verschieden, wenn sich die Dezimalbruchentwicklungen von x und y an
mindestens einer Stelle unterscheiden.
Beweis∗ . Zu (a): Wäre xn = 9 für alle n > N und xN < 9, so zeigt eine kurze Rechnung
cn = cN +
9
10N +1
+ ··· +
9
,
10n
d n = cn +
1
1
= cN + N .
n
10
10
Wegen dn → x hätten wir x = cN + 1/10N im Widerspruch zur Definition von cN .
Zu (b): Die zu x0 und den Ziffern x1 , . . . , xn wie zuvor gebildeten Zahlen
cn := x0 +
x1
xn
+ ··· + n,
10
10
dn := cn +
1
10n
ergeben eine Intervallschachtelung, welche genau eine Zahl x erfaßt. Wir müssen nur noch begründen,
dass x die vorgegebene Dezimalbruchentwicklung hat. Hierzu genügt der Nachweis von cn ≤ x < dn
für alle n ∈ N. Wäre x = dN für ein N , so auch x = dn für alle n ≥ N , da dn ≤ dN . Es folgt
cn+1 − cn = (dN − 1/10n+1 ) − (dN − 1/10n ) = 9/10n+1 , d.h. xn = 9 für alle n > N , was nicht sein darf.
Zu (c): Unterscheiden sich die Dezimalbruchentwicklungen von x und y erstmals an der N -ten Stelle, so
können wir xN < yN annehmen (ansonsten vertausche man die Rollen von x und y). Dann gilt
xN
1
yN − xN − 1
yN ≥ 0.
y − x > y0 + · · · + N − x0 + · · · + N + N =
10
10
10
10N
Also sind x und y verschieden.
7.5 Gültige Stellen beim Runden von Dezimalbrüchen. Schreiben wir x = 5, 23, so bedeutet das
2
x = 5 + 10
+ 1032 . Dagegen soll x ≈ 5, 23 besagen, dass die letzte angegebene Stelle aus der Dezimalbruchentwicklung von x durch Runden entstanden ist. In unserem Fall gilt 5, 225 ≤ x < 5, 235 und wir sagen,
dass „x auf drei Stellen genau“ angegeben ist. In diesem Zusammenhang wird die Potenzschreibweise
verwendet. Will man beispielsweise 42010 auf drei gültige Stellen angeben, so schreibt man 4, 20 · 104 ,
analog wird 0, 00587 durch 5, 9 · 10−3 auf zwei gültige Stellen angegeben.
26
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
Messwerte werden immer mit sovielen Stellen angegeben, wie es der Messgenauigkeit entspricht. Werden
Messergebnisse in Berechnungen verwendet, so hat der Messfehler Auswirkungen auf die Genauigkeit des
Ergebnisses. Wie sich der Messfehler fortpflanzt, können wir später mit Mitteln der Analysis untersuchen.
Haben wir beispielsweise x ≈ 0, 010, d.h. 0, 0095 ≤ x < 0, 0105, so gilt 95 < 1/x < 106.
7.6 Überabzählbarkeit von R. Schon die Menge [0, 1[ und damit erst recht R lässt sich nicht abzählen.
Wäre nämlich [0, 1[= {zn | n ∈ N} abzählbar, so könnten wir aus den einzelnen Dezimaldarstellungen
z1
=
0, x11 x12 x13 . . . ,
z2
=
0, x21 x22 x23 . . . ,
z3
=
..
.
0, x31 x32 x33 . . . ,
eine Zahl y = 0, y1 y2 , y3 . . . mittels yn := 9 − xnn konstruieren. Dann wäre y ∈ [0, 1[ und keine der Zahlen
obiger Aufzählung, da sich y von zn an der n-ten Nachkommastelle unterscheidet — ein Widerspruch.
7.7∗ Bemerkung zur Existenz und Eindeutigkeit von R. Wer sich für einen deduktiven Aufbau
der Analysis interessiert: Wir haben postuliert, dass die reellen Zahlen die Axiome (A1)–(A9) erfüllen —
ohne zunächst zu wissen, ob es überhaupt eine oder vielleicht sogar viele derartige Mengen gibt. Jetzt
haben wir aus diesem Postulat abgeleitet, dass sich jede dieser Mengen als die Menge aller Dezimalbrüche
darstellen lässt. In diesem Sinn gibt es eine und auch nur eine Menge reeller Zahlen — nämlich die Menge
aller Dezimalbrüche.
8
Konvergenznachweis ohne Kenntnis des Grenzwerts
8.1 Problemstellung. Die uns bisher bekannten Techniken zur Konvergenzuntersuchung haben einen
entscheidenden Nachteil: man muss einen Kandidaten für den Grenzwert haben, um mit dem Konvergenznachweis beginnen zu können. Betrachten Sie das folgende Beispiel. Haben Sie eine Vermutung über
den Grenzwert?
1
n
(1 −
1 n
n)
0
2
3
4
0, 25 ≈ 0, 296
5
≈ 0, 316 ≈ 0, 328
10
15
≈ 0, 349 ≈ 0, 355
20
30
50
≈ 0, 358
≈ 0, 362
≈ 0, 364
0.4
0.3
0.2
0.1
20
40
60
80
100
Abbildung 1.2: Die ersten 100 Glieder von ((1 − 1/n)n )n .
Wir werden nun Kriterien bereitstellen, mit denen die Konvergenz einer Folge nachgewiesen werden kann,
ohne den Grenzwert zu kennen. Wozu das alles? Nun, wir können solche Folgen dazu verwenden, „neue“
27
KAPITEL 1. GRUNDLAGEN
Zahlen (wie die Eulersche Zahl e) und Funktionen (wie die Exponentialfunktion und die trigonometrischen
Funktionen) zu definieren.
8.2 Monotone Folgen. Eine Folge (an )n heißt monoton wachsend (monoton fallend ), wenn an ≤ an+1
(an ≥ an+1 ) für alle n ∈ N. Gilt sogar an < an+1 (an > an+1 ), so heißt (an )n streng monoton wachsend
(streng monoton fallend ).
Da das Konvergenzverhalten einer Folge nicht von den ersten Gliedern abhängt, ist es i.A. nur wichtig zu
wissen, ob eine Folge von einer bestimmten Stelle an monoton ist.
8.3 Monotoniekriterium für Folgen. Jede monoton wachsende (fallende) und nach oben (unten)
beschränkte Folge konvergiert.
Beweis. Sei (an )n eine beschränkte und monoton wachsende Folge. Die Menge {an ∈ R | n ∈ N} ist
damit nach oben beschränkt. Also besitzt sie ein Supremum a ∈ R und es gilt an ≤ a für alle n ∈ N. Sei
nun ε > 0 vorgegeben. Nach Definition des Supremums existiert ein nε ∈ N mit anε ≥ a − ε, andernfalls
wäre a − ε eine kleinere obere Schranke als a. Da (an )n monoton wächst, folgt 0 ≤ a − an ≤ a − anε < ε
für n ≥ nε . Damit konvergiert (an )n gegen a. Für eine monoton fallende Folge argumentiere man analog.
8.4 Anwendungsbeispiel: radioaktiver Zerfall. Die Anzahl ∆N der innerhalb einer Zeitspanne
∆T zerfallenden Atome einer radioaktiven Substanz ist näherungsweise proportional zur Anzahl N der
vorhandenen Atome. Es gilt also ∆N = β∆T N und nach ∆T sind noch N − ∆N = N (1 − β∆T ) Atome
vorhanden. Der Proportionalitätsfaktor β wird Zerfallskonstante genannt.
Gibt es zur Zeit t = 0 gerade N0 Atome, so erhält man die Anzahl N (t) von Atomen nach einer längeren
Zeit t näherungsweise, indem man den Zeitraum in n gleichgroße Teilintervalle ∆T = t/n aufteilt. Nach
∆T sind dann N0 (1 − βt/n), nach 2∆T noch N0 (1 − βt/n)2 und zur Zeit t schließlich N0 (1 − βt/n)n
Atome vorhanden. Im Grenzfall haben wir also zur Zeit t noch N (t) = N0 limn→∞ (1 − βt/n)n Atome.
Wie verhält sich nun die Folge an = (1 − x/n)n für ein x > 0? Wegen an < 1n = 1 ist (an )n nach oben
beschränkt. Mit der Bernoullischen Ungleichung §1.5.11 erhalten wir für n > x
n+1
n+1
n+1
( n+1−x
n−x n+1−x n
n−x
x
an+1
n+1 )
=
=
1+
=
n
an
n
n+1 n−x
n
(n + 1)(n − x)
( n−x
n )
n−x
(n + 1)x
n−x
x
≥
1+
=
1+
= 1,
n
(n + 1)(n − x)
n
n−x
d.h. an+1 ≥ an . Also ist (an )n ab einem Index monoton wachsend. Damit konvergiert ((1 − x/n)n )n . In
2.§2 werden wir den Grenzwert als die Zahl e−x entlarven, d.h. N (t) = N0 e−βt . Aus der obigen Schranke
für (an )n erhalten wir mit der Monotonie des Grenzwerts 6.4 momentan lediglich limn→∞ (1 − x/n)n ≤ 1.
8.5 Anwendungsbeispiel: Babylonisches Wurzelziehen. Für jede Zahl a > 1 konvergiert die durch
a
1
an +
für n ≥ 1
a1 := a,
an+1 :=
2
an
√
rekursiv definierte Folge (an )n monoton fallend gegen a. Hierbei besteht die Fehlerabschätzung
0 < an+1 −
√
√
1
a < √ (an − a)2 .
a
Den Nachweis der Monotonie und Beschränktheit von (an )n sowie
√ der Fehlerabschätzung lassen wir als
Übungsaufgabe. Die Existenz des Grenzwerts limn→∞ an =: c ≥ a folgt dann aus dem Monotoniekriterium 6.4.
Nun zeigen wir, wie wir hier aus dem bloßen Wissen um die Existenz des Grenzwerts c auch seinen Wert
erhalten. Nach 6.7 gilt mit an → c auch (an + a/an )/2 → (c + a/c)/2 für n → ∞. Wir können also
in der Rekursion an+1 = (an + a/an )/2 auf beiden Seiten zum
und erhalten die
√ Grenzwert übergehen
√
Bedingungsgleichung c = (c + a/c)/2, d.h. c2 = a. Wegen c ≥ a muss dann c = a gelten.
28
§2. VOLLSTÄNDIGKEIT DER REELLEN ZAHLEN, FOLGEN
√
Die Fehlerabschätzung ist√beachtenswert: Hat man im n-ten Schritt
√ a durch an mit einem Fehler ε approximiert (d.h.
√ gilt |a√n − a| = ε), so folgt für den Fehler |an+1 − a| im nächsten Approximationsschritt
0 < an+1 − a < ε2 / a < ε2 . Die Anzahl der gültigen Ziffern verdoppelt sich also jeweils.
8.6∗ Satz von Bolzano-Weierstraß. Jede beschränkte Folge besitzt mindestens eine konvergente Teilfolge.
Dieser Satz ist meist die letzte Rettung, wenn man das Monotoniekriterium 6.4 nicht anwenden kann.
Vermutet man bei einer beschränkten Folge Konvergenz und liegt keine Monotonie vor, so kann man mit
diesem Satz wenigstens eine konvergente Teilfolge aussondern und sich von dieser aus weiterhangeln.
Beweis. Wir konstruieren eine Intervallschachtelung. Ist (an )n durch M beschränkt, so setzen wir
(
[−M, 0] falls an ≤ 0 für unendlich viele Indizes n,
I1 = [c1 , d1 ] :=
[0, M ]
sonst.
Den kleinsten Index der Folgenglieder an ∈ I1 bezeichnen wir mit n1 , d.h. n1 := min{n ≥ 1 | an ∈ I1 }.
Dann gilt an1 ∈ I1 und in I1 liegen unendlich viele Folgenglieder. Nun setzen wir

c1 + d1
c1 + d1


falls an ≤
für unendlich viele Indizes n,
c
,

1

2
2
I2 = [c2 , d2 ] := 
c1 + d1


, d1
sonst.

2
Nun bezeichnen wir den kleinsten Index der an ∈ I2 , n ≥ n1 , mit n2 , d.h. n2 := min{n ≥ n1 | an ∈ I2 }.
Dann gilt an2 ∈ I2 und in I2 liegen unendlich viele Folgenglieder. So fahren wir fort und erhalten nach k
Schritten ein Intervall Ik = [ck , ck ] mit Ik ⊂ Ik−1 , dk − ck = M/2k , einen Index nk mit ank ∈ Ik und Ik
enthält unendlich viele Folgenglieder.
Die so definierte Intervallschachtelung erfasst genau eine Zahl a = limk→∞ ck = limn→∞ dk . Wegen
ck ≤ ank ≤ dk gilt aber auch limk→∞ ank = a und wir haben eine konvergente Teilfolge gefunden.
8.7∗ Cauchy-Folgen. Eine Folge (an )n heißt Cauchy-Folge, wenn es zu jedem ε > 0 ein nε ∈ N gibt
mit |an − am | < ε für alle n, m ∈ N mit n, m ≥ nε .
Cauchy-Folgen können zur Konvergenzdiskussion ohne Kenntnis des Grenzwerts verwendet werden. Die
Ungleichung
|an − am | = |(an − a) + (a − am )| ≤ |an − a| + |am − a|
impliziert nämlich: jede konvergente Folge ist eine Cauchy-Folge.
Umgekehrt gilt in R: jede Cauchy-Folge besitzt einen Grenzwert, man sagt: R ist vollständig. Der Beweis wird mit Hilfe des Satzes von Bolzano-Weierstraß geführt. Tatsächlich kann man zeigen, dass die
Vollständigkeit von R äquivalent zum Supremumsaxiom (A9) ist (vgl. [Kön, Band 1, 5.6]).
9
Uneigentliche Grenzwerte
9.1 Definition: uneigentlicher Grenzwert.
(divergiert bestimmt gegen +∞) in Zeichen
lim an = +∞
n→∞
oder
Eine Folge (an )n konvergiert uneigentlich gegen +∞
an → +∞ für n → ∞,
wenn zu jedem M ∈ R ein nM ∈ N existiert mit an > M für alle n ≥ nM .
In Quantorenschreibweise lautet diese Definition
(∀M ∈ R)(∃nM ∈ N)(∀n ∈ N)(n ≥ nM ⇒ an > M ).
29
KAPITEL 1. GRUNDLAGEN
In Worten: „Für jede noch so große Schranke M sind mit vielleicht endlich vielen Ausnahmen alle Folgenglieder größer als M .“
Analog erklären wir, was uneigentliche Konvergenz bzw. bestimmte Divergenz gegen −∞ bedeutet.
9.2 Eigentliche und uneigentliche Konvergenz. Die zuvor in den Abschnitten 4–7 diskutierte
Konvergenz einer Folge gegen eine reelle Zahl nennt man auch eigentliche Konvergenz , um selbige von
der uneigentlichen abzusetzen. Eine Folge, die nicht eigentlich konvergiert, heißt divergent. Uneigentliche
Konvergenz ist also eigentlich schon Divergenz.
Beispiel. Die Folge (n2 )n ist uneigentlich konvergent gegen +∞. Dagegen konvergiert
((−n)n+1 )n = (12 , −23 , 34 , −45 , . . .)
weder eigentlich noch uneigentlich. Die Teilfolge ((−2k)2k+1 )k = (−(2k)2k+1 )k = (−23 , −45 , . . .) der
Folgenglieder mit geradem Index divergiert bestimmt gegen −∞, während die Teilfolge ((−(2k−1))2k )k =
((2k + 1)2k )k = (12 , 34 , . . .) der Folgenglieder mit ungeradem Index bestimmt gegen +∞ divergiert.
9.3 Umgang mit uneigentlichen Grenzwerten. Leider lassen sich nicht alle der in Abschnitt 6
für eigentlich konvergente Folgen genannten Eigenschaften auf uneigentlich konvergente Folgen übertragen. Aus limn→∞ an = +∞ und limn→∞ bn = −∞ kann beispielsweise überhaupt nichts über das
Konvergenzverhalten von (an + bn )n geschlossen werden. Man mache sich das an Beispielen klar.
Achtung. Wir haben keine Rechenregeln für uneigentlich konvergenten Folgen. (Ein Grund mehr, sie
bestimmt divergent zu nennen.)
Normalerweise hilft der folgende Satz weiter, der uneigentliche Konvergenz auf eigentliche zurückspielt.
Genau dann ist (an )n uneigentlich konvergent gegen +∞ (−∞), wenn ab einem Index N alle Folgenglieder
positiv (negativ) sind, d.h. an > 0 (an < 0) für alle n ≥ N und wenn (1/an )n≥N eine Nullfolge ist.
Beispiel. 2n /(2n − 5) → +∞, da (2n − 5)/2n > 0 für n ≥ 3 und (2n − 5)/2n = 2n(1/2)n − 5(1/2)n → 0
nach 4.8 und 5.2 (d).
9.4∗ Häufungspunkte. Eine reelle Zahl a heißt (eigentlicher) Häufungspunkt einer Folge (an )n , wenn
es eine Teilfolge gibt, die gegen a konvergiert. Hat (an )n eine Teilfolge, die uneigentlich gegen +∞ (−∞)
konvergiert, so heißt +∞ (−∞) uneigentlicher Häufungspunkt von (an )n .
Nach dem Satz von Bolzano-Weierstraß 8.6 hat jede beschränkte Folge mindestens einen eigentlichen
Häufungspunkt. Jede Folge hat somit mindestens einen (eigentlichen oder uneigentlichen) Häufungspunkt.
Und eine konvergente Folge hat nach 6.6 (b) genau einen Häufungspunkt.
Man kann zeigen, dass die Folge (cn )n in 3.2 (d) beschränkt ist mit 0 ≤ cn ≤ 1 und dass jede Zahl
c ∈ [0, 1] ein Häufungspunkt von (cn )n ist.
9.5 Landau-Notation für Folgen. Um das Konvergenz- oder Wachstumsverhalten einer Folge (an )n
genauer zu beschreiben möchte man manchmal nicht nur den Grenzwert angeben, sondern auch ausdrücken „wie schnell“ sie eigentlich oder uneigentlich konvergiert. Hierzu wählt man eine Vergleichsfolge
(bn )n und schreibt
an an = O(bn ) für n → ∞
falls eine Konstante M > 0 existiert mit ≤ M für alle n ∈ N.
bn
In Worten: „an ist ein Groß-O von bn für n → ∞“. Das Landau-O drückt aus, dass (an )n mindestens so
schnell wie (bn )n konvergiert, bzw. höchstens so schnell wie (bn )n wächst
Will man mitteilen, dass (an )n schneller als (bn )n konvergiert bzw. langsamer als (bn )n wächst, so verwendet man das Landau-O,
an = O(bn ) für n → ∞
falls
an
→ 0 für n → ∞.
bn
30
§3. KOMPLEXE ZAHLEN
In Worten: „an ist ein Klein-O von bn für n → ∞“. Für die bn muss dabei natürlich bn 6= 0 gelten.
Die Landau-Notation ist in z.B. in der Informatik beliebt, wenn es darum geht, die Komplexität von
Algorithmen abzuschätzen. Dann gibt an meistens die Anzahl der Grundoperationen im n-ten Schritt
des Algorithmus an oder die Anzahl der Grundoperationen in Abhängigkeit von der Anzahl n der Eingabedaten und kann mit Hilfe der Landau-Notation griffig angeben, wie der Rechenaufwand wächst.
Für die Vergleichsfolge (bn )n wählt man typischerweise
• (nm )n , m ∈ N, polynomiales Wachstum,
• (M n )n , M > 1, exponentielles Wachstum,
• (n−m )n , m ∈ N, polynomialer Abfall ,
• (q n )n , 0 < q < 1, exponentieller Abfall .
Beispiel. Die Folge ((n + 1)2 (2x)n )n wächst exponentiell für |x| > 1/2, polynomial für |x| = 1/2 und
fällt exponentiell für |x| < 1/2.
Die Grenzwertaussage limn→∞ nm q n = 0 für m ∈ N0 und |q| < 1 aus 4.8 besagt q n = O(n−m ) sowie
nm = O(M n ), M := 1/|q|, für n → ∞. Man sagt: „exponentieller Abfall schlägt polynomialen“, bzw.
„exponentielles Wachstum schlägt polynomiales“.
9.6 Asymptotische Gleichheit. Zwei Folgen (an )n und (bn )n heißen asymptotisch gleich, in Zeichen
an ' bn wenn limn→∞ an /bn = 1. Hierbei muss natürlich bn 6= 0 gelten.
Beispiel. Es gilt (n + 1)2 ' n2 , obwohl limn→∞ (an − bn ) = +∞.
§3
Komplexe Zahlen
Wir führen die komplexen Zahlen frühzeitig ein, weil sich Vieles dann einheitlich und leicht darstellen
lässt. Dies trifft beispielsweise für den Umgang mit Polynomen und rationalen Funktionen zu, aber auch
für trigonometrische Funktionen. Ebenso lassen sich die verschiedenen Schwingungsdifferentialgleichungen
mit einem einheitlichen Ansatz lösen.
1
Rechnen mit komplexen Zahlen
1.1 Was sind komplexe Zahlen? Im 16. Jahrhundert begann man die komplexen Zahlen zum Lösen
von quadratischen und kubischen Gleichungen zu verwenden. So rechnete 1545 Geronimo Cardano „unter
Überwindung geistiger Qualen“ mit Quadratwurzeln aus negativen Zahlen. Leonhard Euler (1707–1783),
dem auch die erstmalige Verwendung des Symbols i als Lösung der Gleichung z 2 = −11 zugeschrieben
wird, setzte komplexe√Zahlen
Gewinn, aber auch unbedenklich ein. So tritt bei ihm beispiels√
√ mit großem
weise die Rechnung −1 · −4 = 4 = 2 auf. Nach den Regeln der Algebra müsste aber i · 2i = −2
sein.
Wir werden uns zunächst darum kümmern, das Rechnen mit den komplexen Zahlen abzusichern. Anschließend wenden wir uns ihrer geometrischen Interpretation zu.
1.2 Komplexe Zahlen, Addition und Multiplikation.
geordneten Paare reeller Zahlen erklären wir durch
1 Für
Auf der Menge {(a, b) | a, b ∈ R} der
(a, b) + (c, d)
:=
(a + c, b + d),
(a, b) · (c, d)
:=
(ac − bd, ad + bc)
reelle Variable wird gerne das Symbol x verwendet, für komplexe z.
31
KAPITEL 1. GRUNDLAGEN
eine Addition und eine Multiplikation. Diese Menge nennen wir die komplexen Zahlen und bezeichnen sie
mit C.
1.3 Körpereigenschaft von C. Durch Nachrechnen verifiziert man, dass die Körperaxiome (A1)–(A5)
erfüllt sind. Beispielsweise ist (0, 0) das neutrale Element der Addition, (1, 0) das neutrale Element der
Multiplikation, additiv Inverses zu (a, b) ist (−a, −b), multiplikativ Inverses zu (a, b) 6= (0, 0) (d.h. a 6= 0
oder b 6= 0) ist (a/(a2 + b2 ), −b/(a2 + b2 )).
1.4 Einbettung der reellen Zahlen in C. Mit Paaren der Form (x, 0) wird in C genauso gerechnet
wie mit den Zahlen x ∈ R. Es gilt dann nämlich
(x, 0) + (y, 0)
:=
(x + y, 0),
(x, 0) · (y, 0)
:=
(xy, 0).
Wir unterscheiden daher ab sofort nicht mehr zwischen der komplexen Zahl (x, 0) und der reellen Zahl x,
sondern wir fassen x = (x, 0) als Element von C auf. Damit ist R ein Teilkörper von C.
1.5 Imaginäre Einheit. Setzen wir
i := (0, 1),
2
so folgt i = (−1, 0) = −1. Die Zahl i heißt imaginäre Einheit. Damit hat die Gleichung z 2 + 1 = 0 in C
eine Lösung: i2 + 1 = 0. Selbstverständlich gilt auch (−i)2 + 1 = 0. Eine beliebige Zahl (a, b) ∈ C kann
nun in der Form
(a, b) = (a, 0) + (0, b) = (a, 0) + (0, 1) · (b, 0) = a + ib
geschrieben werden. Für eine komplexe Zahl schreiben wir darum ab sofort statt (a, b) einfach a + ib.
1.6 Real- und Imaginärteil. In der Darstellung z = a+ib einer komplexen Zahl z mit reellen Zahlen a
und b heißt a =: Re(z) der Realteil und b =: Im(z) der Imaginärteil von z.
1.7 Addition und Multiplikation komplexer Zahlen. Insbesondere erhalten wir für z, w ∈ C mit
z = a + ib und w = c + id die Beziehungen
z+w
=
(a + ib) + (c + id) = (a + c) + i(b + d),
z−w
=
(a + ib) − (c + id) = (a − c) + i(b − d),
zw
z
w
=
(a + ib)(c + id) = (ac − bd) + i(ad + bc),
a + ib
(a + ib)(c − id))
ac + bd
−ad + bc
=
= 2
+i 2
c + id
(c + id)(c − id)
c + d2
c + d2
=
falls w 6= 0.
Komplexe Zahlen werden also addiert, indem man jeweils ihre Real- und Imaginärteile addiert:
Re(z + w) = Re(z) + Re(w),
Im(z + w) = Im(z) + Im(w).
Die Multiplikation ist etwas komplizierter, Real- bzw. Imaginärteil des Produkts berechnen sich gemäß
Re(zw) = Re(z) Re(w) − Im(z) Im(w),
Im(zw) = Re(z) Im(w) + Im(z) Re(w).
1.8 Was bleibt erhalten? Die komplexen Zahlen bilden ebenso wie die reellen einen Körper. Darum
bleiben alle Formeln, die wir nur aus den Körpereigenschaften abgeleitet haben, erhalten. Insbesondere
sind dies die Rechenregeln §1.3.2, unsere Definition für Potenzen (cn für c ∈ C und n ∈ N0 bzw. c ∈ Cr{0}
und −n ∈ N) und Binomialkoeffizienten §1.5.8 ( kc für c ∈ C und k ∈ N0 ), die binomische Formel §1.5.9
((a + b)n für a, b ∈ C und n ∈ N0 ) und die geometrische Summenformel §1.5.10 (an − bn für a, b ∈ C und
n ∈ N0 ).
Im Gegensatz zu R kann C nicht geordnet werden. In einem geordneten Körper haben wir nämlich a2 > 0
für alle a 6= 0 nach §1.4.3 (b), in C gilt aber i2 = −1.
32
2
§3. KOMPLEXE ZAHLEN
Gaußsche Zahlenebene
2.1 Komplexe Zahlen als Punkte in der Ebene.
Wir haben die komplexen Zahlen als Paare reeller
Zahlen (a, b) eingeführt. Für das Rechnen ist die Darstellung a + ib vorteilhafter. Die Paardarstellung (a, b)
hat aber auch ihren Nutzen: wir können die komplexen
Zahlen als Punkte in der Zahlenebene wiederfinden. Zu
Ehren von Carl Friedrich Gauß wird sie auch Gaußsche
Zahlenebene genannt.
Die reellen Zahlen (a, 0) bilden die reelle Achse, die rein
imaginären Zahlen (0, b) bilden die imaginäre Achse.
Real- und Imaginärteil einer komplexen Zahl sind dann
gerade die Koordinaten bezüglich dieser beiden Achsen.
Man nennt sie auch kartesische Koordinaten.
b = Im(z)
i
|z| =
0
z = a + ib
√
a2 + b2
1
a = Re(z)
Abbildung 1.3: Zahlenebene.
2.2 Betrag einer komplexen Zahl. Für z = a + ib ∈ C, a, b ∈ R, nennen wir
|z| :=
p
a2 + b2 =
p
(Re z)2 + (Im z)2 .
den Betrag von z. Nach dem Satz des Pythagoras ist |z| gerade der Abstand von z zum Ursprung der
Zahlenebene.
√
Für reelle Zahlen stimmt diese neue Betragsdefinition wegen a2 = |a| für a ∈ R mit der alten aus §1.4.5
überein.
Durch |z − a| wird der Abstand zweier komplexer Zahlen z und a angegeben. Darum ist
Kr (a) := {z ∈ C | |z − a| < r}
für r > 0
gerade das Innere des Kreises mit Mittelpunkt a und Radius r. Wie beschreibt man eine Kreisscheibe,
bzw. eine Kreislinie?
2.3 Beschränkte Mengen. Eine Teilmenge M ⊂ C
heißt beschränkt, wenn es eine Schranke m ≥ 0 gibt mit
−z = −a + ib
|z| ≤ m für alle z ∈ M .
z = a + ib
Ist M sogar eine Teilmenge von R so stimmt diese
Definition mit der alten §1.7.3 überein. Geometrisch
gesehen bedeutet Beschränktheit von M , dass die
Menge M ganz in der Kreisscheibe mit Radius m um
−z = −a − ib
den Ursprung enthalten ist.
z = a − ib
2.4 Konjugieren. Für z = a + ib mit a, b ∈ R heißt
z := a − ib die zu z konjugierte Zahl. Insbesondere gilt
i = −i. Geometrisch gedeutet ist das Konjugieren gerade das Spiegeln an der reellen Achse.
Abbildung 1.4: Konjugieren.
2.5 Rechenregeln für Konjugieren und Betrag. Für komplexe Zahlen z und w gilt
(a) z + w = z + w, zw = z · w, z = z;
(b) Re(z) =
z+z
2 ,
(c) |z|2 = z · z;
Im(z) =
z−z
2i ;
33
KAPITEL 1. GRUNDLAGEN
(d)
1
z
=
z
|z|2
falls z 6= 0;
(e) | Re z|, | Im z| ≤ |z| ≤ | Re z| + | Im z|;
(f) |z| ≥ 0 und genau dann ist |z| = 0, wenn z = 0;
(g) |zw| = |z||w|;
(h) |z + w| ≤ |z| + |w| (Dreiecksungleichung);
(i) ||z| − |w|| ≤ |z − w| (umgekehrte Dreiecksungleichung).
Beweis. Die Regeln (a), (b) und (f) sind unmittelbar einsichtig. Setzen wir a = Re(z) und b = Im(z) so
erhalten wir (c) aus z · z = (a + ib)(a − ib) = a2 − (ib)2 = a2 + b2 = |z|2 . Hieraus folgt sofort (d) sowie
|zw|2 = |z|2 |w|2 . Wurzelziehen liefert dank (f) nun (g). Ebenso erhalten wir (e) aus
| Re z|2
≤ (Re z)2 + (Im z)2 ≤ | Re z|2 + 2| Re z|| Im z| + | Im z|2 = (| Re z| + | Im z|)2 ,
|
{z
}
| Im z|2
=|z|2
sowie (h) aus
|z + w|2
=
(e)
≤
(z + w)(z + w) = zz + zw + zw + ww = |z|2 + 2 Re(zw) + |w|2
|z|2 + 2|zw| + |w|2
(a),(g)
=
|z|2 + 2|z||w| + |w|2 = (|z| + |w|)2 .
Nun folgt (i) genau so wie im reellen Fall.
2.6 Beispiele zu Konjugieren und Betrag. Man sieht, dass Konjugieren oft nützlicher als sofortiges
Bilden von Real- und Imaginärteil ist. Beispielsweise berechnen wir Real- und Imaginärteil von 1/(1 + i)
bequem mit Hilfe von (d) zu
1−i
1−i
1−i
1
1
1
=
=
=
= −i ,
1+i
(1 + i)(1 − i)
1 − i2
2
2
2
d.h.
Re
1
1
= ,
1+i
2
Im
1
1
=− .
1+i
2
z+1
Ähnlich leicht können wir die Punkte z ∈ C mit | z−1
| = 1 bestimmen. Für diese Punkte gilt nämlich
0 = |z + 1|2 − |z − 1|2 = (z + 1)(z + 1) − (z − 1)(z − 1) = 2z + 2z = 4 Re(z),
d.h. z ist rein imaginär. Zu derselben Einsicht kommen wir auch durch geometrische Interpretation der
Bedingung |z + 1| = |z − 1|. Der Punkt z muss von den Punkten −1 und 1 gleich weit entfernt sein, d.h.
er liegt auf der imaginären Achse.
2.7 Geometrische Deutung der Addition. Die komponentenweise Addition komplexer Zahlen bedeutet geometrisch die Addition von Vektoren. Man erhält z + w, indem man die Punkte 0, z und w zu
einem Parallelogramm ergänzt. Die Dreiecksungleichung 2.5 (h) besagt daher: „in einem Dreieck ist eine
Seite nie länger als die Summe der beiden anderen Seitenlängen“.
Fixieren wir in unserer geometrischen Vorstellung der Addition z + w die Zahl w, so bewirkt z 7→ z + w
eine Verschiebung von z um w. Beispielsweise geht das Kreisinnere Kr (0) durch Verschiebung um w in
das Kreisinnere Kr (w) über.
2.8 Geometrische Deutung der Multiplikation. Die Multiplikation z 7→ rz mit einer positiven
Zahl r, bewirkt wegen r(a + ib) = ra + irb eine Streckung um den Faktor r (für r > 1 ist das eine echte
Streckung, für 0 < r < 1 ist eine Stauchung).
Analog bewirkt die Multiplikation z 7→ iz mit i wegen i(a + ib) = −b + ia eine Vierteldrehung gegen
den Urzeigersinn. Daher bewirkt z 7→ −z = i(iz) eine halbe Drehung und z 7→ −iz = i(i(iz)) eine
Dreivierteldrehung gegen den Uhrzeigersinn.
34
§3. KOMPLEXE ZAHLEN
Allgemein kann eine Multiplikation z 7→ zw mit einer komplexen Zahl w 6= 0 als eine Drehstreckung
gedeutet werden. Wir werden das in 2.§2.5.16 mit Hilfe der Polarkoordinatendarstellung z = reiϕ einsehen,
welche z durch den Betrag r = |z| und das Argument ϕ, d.h. den orientierten Winkel zwischen z und der
positiven reellen Achse darstellt. Stellen wir auch w = ρeiψ in Polarkoordinaten dar und verwenden wir
im Vorgriff die Funktionalgleichung ex+y = ex ey der Expontentialfunktion aus 2.§2.1.2, so gilt nämlich
zw = reiϕ ρeiψ = rρei(ϕ+ψ) , d.h. der Betrag von z hat sich nach Multiplikation mit w um den Faktor ρ
vergrößert und das Argument um ψ erhöht. Also ist zw gegenüber z um den Faktor ρ gestreckt und um
den Winkel ψ gedreht.
z+w
w
z
z
z+w
0
z 7→ z + w
Abbildung 1.5: Addition komplexer Zahlen mit der Parallelogrammregel, Addition als Verschiebung.
rz
z
z
iz
z 7→ rz
z 7→ iz
Abbildung 1.6: Steckung bzw. Vierteldrehung in der Zahlenebene.
zw = rρei(ϕ+ψ)
rρ
ρ
w = ρeiψ
zw
ψ
r
ϕ+ψ
z
z = reiϕ
ϕ
z 7→ zw
Abbildung 1.7: Multiplikation komplexer Zahlen in Polarkoordinaten, Multiplikation als Drehstreckung.
35
KAPITEL 1. GRUNDLAGEN
2.9 Geometrische Deutung des Kehrwertbildens.
Die Inversion z 7→ 1/z wird wegen 1/z = z/|z|2 als
Spiegelung am Einheitskreis {z ∈ C | |z| = 1} und
anschließender Spiegelung an der reellen Achse gedeutet.
Allgemein sagt man, dass zwei Punkte z und z 0 durch
Spiegelung am Kreis mit Radius r um den Ursprung
auseinander hervorgehen, wenn
• z und z 0 auf der selben Halbgeraden durch 0 liegen
und
z0
z
• das Produkt ihrer Längen r2 ist.
Diese Beobachtung ist in der Optik nützlich.
2.10 Fazit. Addition und Multiplikation komplexer
Zahlen können geometrisch gedeutet werden. Für die
Addition ist die Darstellung in kartesischen Koordinaten, für die Multiplikation die in Polarkoordinaten vorteilhaft. Wir werden das in 2.§2.5.16 vertiefen.
3
1/z = z 0
Abbildung 1.8: Inversion am Einheitskreis.
Folgen komplexer Zahlen
3.1 Konvergenz für Folgen komplexer Zahlen. Wir erinnern uns an die Einführung des Konvergenzbegriffs für reelle Zahlenfolgen §2.6.1: „Für jeden noch so kleinen Fehler ε > 0 unterscheiden sich mit
vielleicht endlich vielen Ausnahmen alle Folgenglieder um weniger als ε vom Grenzwert a.“ Nun können
wir auch in C den Abstand von z und a messen — nämlich durch den Betrag |z − a|. Damit lässt sich
die Grenzwertdefinition auf komplexe Zahlenfolgen erweitern.
Definition. Eine Folge (an )n komplexer Zahlen konvergiert gegen eine komplexe Zahl a, in Zeichen
limn→∞ an = a oder an → a für n → ∞, wenn zu jedem ε > 0 ein nε ∈ N existiert mit |an − a| < ε für
alle n ≥ nε .
3.2 Konvergenznachweis. Eine komplexe Zahlenfolge (an )n konvergiert genau dann gegen eine komplexe Zahl a, wenn (|an − a|)n eine Nullfolge ist.
Dies folgt sofort aus der Definition 3.1. Mit dem Vergleichskriterium §2.4.6 und 2.5 (e) erhalten wir nun:
Eine komplexe Zahlenfolge (an )n konvergiert genau dann, wenn die beiden reellen Zahlenfolgen (Re an )n
der Realteile und (Im an )n der Imaginärteile konvergieren. Gilt Re an → α und Im an → β für n → ∞,
so folgt an → α + iβ für n → ∞.
Achtung. Da C nicht geordnet ist, haben wir keinen direkten Ersatz für das Sandwichprinzip §2.6.3.
3.3 Was bleibt erhalten? Die Eigenschaften konvergenter Folgen §2.6.6 (a)–(b) sowie die Rechenregeln
§2.6.7 (c)–(g) bleiben erhalten, der Beweis überträgt sich wörtlich.
Sind also (zn )n und (wn )n komplexe Zahlenfolgen mit limn→∞ zn = z und limn→∞ wn = w, so folgt
(a) (zn )n ist beschränkt,
(b) jede Teilfolge von (zn )n konvergiert gegen z,
(c) limn→∞ (αzn + βwn ) = αz + βw für beliebige α, β ∈ C,
(d) limn→∞ |zn | = |z|,
(e) limn→∞ zn wn = zw,
36
§4. UNENDLICHE REIHEN
(f) limn→∞ zn /wn = z/w falls w 6= 0,
(g) limn→∞ zn m = z m für jedes m ∈ N.
3.4 Beispiele.
√
(g) Für an := (1 + i)−n gilt |an | = 1/|1 + i|n = (1/ 2)n → 0 für n → ∞. Also konvergiert (an )n gegen 0.
Können Sie sich die Folgenglieder an als Punkte in der Gaußschen Zahlenebene vorstellen?
(h) Für eine beliebige komplexe Zahl q mit |q| < 1 gilt q n → 0 für n → ∞. Mit der geometrischen
Summenformel §1.5.10 folgt
lim
n→∞
n
X
1 − q n+1
1
=
n→∞
1−q
1−q
q k = lim
k=0
für |q| < 1.
3.5∗ Satz von Bolzano-Weierstraß in C. Da wir in C keine Anordnung haben, erhalten wir auch
keinen Ersatz für das Monotoniekriterium für reelle Zahlenfolgen §2.8.3. Dafür lässt sich der Satz von
Bolzano-Weierstraß §2.8.6 übertragen.
Jede beschränkte Folge komplexer Zahlen enthält eine konvergente Teilfolge.
Ist (zn )n beschränkt, so auch (Re zn )n und es existiert eine konvergente Teilfolge (Re znk )k . Auch (Im zn )n
ist beschränkt und damit (Im znk )k , so dass eine konvergente Teilteilfolge (Im znkl )l existiert. Mit (Re znk )k
ist auch (Re znkl )l konvergent. Dank 3.2 konvergiert dann (znkl )l .
3.6∗ Cauchy-Folgen in C. Wie in §2.8.7 erklären wir: eine Folge (an )n komplexer Zahlen heißt CauchyFolge, wenn es zu jedem ε > 0 ein nε ∈ N gibt mit |an − am | < ε für alle n, m ∈ N mit n, m ≥ nε .
Mit der Dreiecksungleichung sieht man ein, dass eine komplexe Zahlenfolge genau dann eine Cauchy-Folge
ist, wenn dies für die Folgen der Real- und der Imaginärteile zutrifft. Da eine reelle Zahlenfolge gemäß
§2.8.7 genau dann konvergiert, wenn sie eine Cauchy-Folge ist, gilt dies dank 3.2 dann auch in C.
Eine komplexe Zahlenfolge ist genau dann eine Cauchy-Folge, wenn sie konvergiert.
§4
Unendliche Reihen
Unendliche Reihen gehören neben den Integralen zu den wichtigsten konstruktiven Hilfsmitteln der Analysis. Wir werden viele wichtige Funktionen, beispielsweise die Exponentialfunktion und die trigonometrischen Funktionen durch Reihen darstellen. Viele Differentialgleichungen lassen sich durch Reihenansätze
lösen. Und: sobald wir eine Reihendarstellung haben, können wir approximieren, d.h. in beliebiger Genauigkeit nähern.
1
Partialsummen, Konvergenz
1.1 Was ist eine unendliche Reihe? Wir können bisher nur Summen und Produkte endlich vieler
Zahlen bilden. In §3.3.4 haben wir erstmalig unendlich viele Zahlen addiert: 1 + q + q 2 + · · · = 1/(1 − q)
für |q| < 1. Dabei haben wir die „unendliche“ Summe über den Grenzwert limn→∞ (1 + q + q 2 + · · · + q n )
definiert. A priori ist nicht klar, ob wir dabei die Grundrechenregeln (A1)–(A3) für die Addition weiter
verwenden können.
1.2 Definition: unendliche Reihe, unendliches Produkt.
Pn Sei (ak )k≥0 eine Folge reeller oder komplexer Zahlen. Für n ∈ N0 wird sn := a0 + a1 + · · · + an = k=0 ak gesetzt. Die Folge (sn )n≥0 heißt dann
eine unendliche Reihe und wird bezeichnet mit dem Symbol
∞
X
ak .
k=0
Die Zahl sn nennt man die n-te Partialsumme der Reihe, die Zahlen ak Glieder der Reihe.
37
KAPITEL 1. GRUNDLAGEN
Unendliche Reihen der Gestalt
eingeführt.
P∞
k=r
ak mit r ∈ Z und unendliche Produkte
Q∞
k=r
ak werden analog
1.3 Konvergenz und Divergenz unendlicher Reihen bzw. unendlicher Produkte. FallsP
die Fol∞
ge (sn )n der Partialsummen gegen eine Zahl s konvergiert, so nennt man die unendliche Reihe k=0 ak
konvergent und s den Grenzwert der Reihe. Im Konvergenzfall bezeichnet man den Grenzwert mit demselben Symbol wie die Reihe selbst, man schreibt also
s=
∞
X
ak .
k=0
Falls die Folge (sn )n nicht (eigentlich) konvergiert, so nennt man die unendliche Reihe
P∞
k=0
ak divergent.
Für unendliche Produkte werden die entsprechenden Begriffe analog eingeführt.
P∞
Achtung. Das Symbol k=0 ak hat zwei Bedeutungen: zum einen bezeichnet es (unabhängig von Konvergenz) die Folge der Partialsummen, zum anderen (und nur im Konvergenzfall) den Grenzwert.
P∞
1.4 Geometrische Reihe. Für q ∈ C heißt k=0 q k eine geometrische Reihe. Es gilt
∞
X
qk =
k=0
1
1−q
für |q| < 1.
Für |q| ≥ 1 ist die geometrische Reihe divergent.
1.5 Harmonische Reihe. Die harmonische Reihe
∞
X
1
k
k=1
divergiert. Die Folge der Partialsummen ist nämlich wegen
m
s2m
=
2
X
1
1 1
1 1 1 1
1
1
1
+
·
·
·
+
+
+ ··· +
=1+ +
+
+ + +
k
2
3 4
5 6 7 8
2m−1 + 1
2m
k=1
≥ 1+
1
m
1
1
+ 2 · + · · · + 2m−1 m = 1 +
2
4
2
2
nach oben unbeschränkt.
1.6 Teleskopreihen. Wegen
n
X
k=1
n
X
1
=
k(k + 1)
k=1
1
1
−
k k+1
konvergiert die Reihe
=
n
n+1
X
1
1 X1
−
=1−
→1
k
k
n+1
k=1
∞
X
k=1
Ähnlich kann man die Konvergenz von
Teleskopreihen genannt.
P∞
für n → ∞
k=2
1
=1
k(k + 1)
1
k=1 k(k+m)
für m ∈ N nachweisen. Derartige Reihen werden
1.7 Eigenschaften konvergenter Reihen.
(a) Die Glieder einer konvergenten Reihe bilden eine Nullfolge. (Notwendiges Konvergenzkriterium)
(b) Eine konvergente (divergente) Reihe bleibt konvergent (divergent), wenn man endlich viele Glieder
verändert. Der Grenzwert kann sich allerdings ändern.
38
§4. UNENDLICHE REIHEN
P∞
Zu (a): Sei ε > 0 vorgegeben. Konvergiert k=0 ak gegen s, so existiert ein nε ∈ N mit |sn − s| < ε/2 für
alle n ≥ nε . Insbesondere folgt mit der Dreiecksungleichung für zwei aufeinander folgende Partialsummen
ε ε
|an | = |sn − sn−1 | = |(sn − s) + (s − sn−1 )| ≤ |sn − s| + |sn−1 − s| < + = ε
2 2
sobald n ≥ nε + 1. Daher ist (ak )k eine Nullfolge.
P∞
P∞
Zu (b): Unterscheiden sich k=0 ak und k=0 bk in nur endlich vielen Gliedern, so existiert ein Index
N ∈ N mit ak = bk für k ≥ N . Für die Partialsummen sn bzw. tn folgt
sn − (a0 + a1 + · · · + aN ) = tn − (b0 + b1 + · · · + bN )
für n ≥ N.
P∞
P∞
Daher konvergiert k=0 ak genau dann, wenn auch k=0 bk konvergiert. Im Konvergenzfall gilt für die
Grenzwerte
∞
∞
X
X
ak − (a0 + a1 + · · · + aN ) =
bk − (b0 + b1 + · · · + bN ).
k=0
k=0
Achtung.
Das notwendige Konvergenzkriterium ist nicht hinreichend. Das zeigt die harmonische Reihe
P∞
k=1 1/k. Ihre Glieder bilden eine Nullfolge obwohl die Reihe divergiert.
1.8 Rechenregeln für konvergente Reihen.
(c) Aus
∞
X
ak = s und
∞
X
bk = t folgt
ak = s folgt
(ak + bk ) = s + t.
cak = cs für jede reelle oder komplexe Zahl c.
k=0
k=0
(e) Konvergiert
∞
X
∞
X
k=0
k=0
k=0
(d) Aus
∞
X
∞
X
ak , so bilden die Reihenreste
k=0
(f) Mit
∞
X
∞
X
!
ak
k=n+1
|ak | konvergiert auch
k=0
∞
X
k=0
eine Nullfolge.
n
∞
∞
X
X
ak und es gilt ak ≤
|ak |.
k=0
k=0
∗
Beweis . Die Regeln P
(c) und (d) folgen sofortPaus der entsprechenden
Rechenregel
§2.6.7 (c) für konP∞
Pn
∞
∞
vergente Folgen. Gilt
k=0 ak = s, so folgt
k=n+1 ak =
k=0 ak −
k=0 ak = s − sn → 0. Das
zeigt (e).
Der Beweis zu (f) ist überraschend kompliziert, man muss entweder den Satz von Bolzano-Weierstraß
P∞
§2.8.6 oder das Cauchy-Kriterium 3.6 verwenden. Das liegt daran, dass wir den Grenzwert von k=0 ak
nicht kennen.
P∞
Pn
Wir bezeichnen den
Pn Grenzwert von k=0 |ak | mit t und die Partialsummen mit tn := k=0 |ak |. Weiter
setzen wir sn := k=0 ak . Wenn (tn )n konvergiert, so ist diese Folge auch beschränkt. Wegen
n
n
X
X
|sn | = ak ≤
|ak | = tn
k=0
k=0
ist damit auch (sn )n beschränkt und besitzt nach dem Satz von Bolzano-Weierstraß eine konvergente
Teilfolge (snk )k , deren Grenzwert wir s nennen. Wir wollen zeigen, dass (sn )n selbst gegen s konvergiert.
Sei ε > 0 vorgegeben. Es existiert ein kε ∈ N mit |snk − s| < ε/3 für alle k ≥ kε . Ferner gibt es ein nε ∈ N
mit |t − tn | < ε/3 für alle n ≥ nε . Nun betrachten wir ein beliebiges n ≥ max{nkε + 1, nε }. Dann existiert
ein k ≥ kε mit nk ≥ n und es gilt
n
n
X
X
|sn − s| = snk +
ak − s ≤ |snk − s| +
|ak | = |snk − s| + (tn − tnk )
k=nk +1
k=nk +1
ε ε ε
= |snk − s| + |(tn − t) − (tnk − t)| ≤ |snk − s| + |tn − t| + |tnk − t| < + + = ε.
3 3 3
P∞
Also ist die Folge der Partialsummen sn von k=0 ak konvergent.
39
KAPITEL 1. GRUNDLAGEN
2
Konvergenzkriterien
2.1 Bemerkung. Mit dem notwendigen Konvergenzkriterium 1.7 (a) haben wir einen einfachen Divergenztest für Reihen: Bilden die Reihenglieder keine Nullfolge, so divergiert die Reihe.
Wir geben nun drei weitere wichtige Konvergenzkriterien an. Zu beachten ist, dass wir zwei von ihnen
nur für Reihen mit reellen Gliedern verwenden können.
P∞
2.2 Monotoniekriterium. Sind
≥ 0 ab einem
P∞ die Glieder ak einer Reihe k=0 ak alle reell und gilt akP
n
Index N ∈ N, so konvergiert k=0 ak genau dann, wenn die Folge der Partialsummen k=0 ak nach
oben beschränkt ist.
Beweis. Gilt ak ≥ 0 für k ≥ N , so ist sn+1 = sn + an+1 ≥ sn für n ≥ N . Also ist die Folge der
Partialsummen sn ab dem Index N monoton wachsend. Nach dem Monotoniekriterium §2.8.3 konvergiert
die Folge der Partialsummen, wenn sie nach oben beschränkt ist. Da jede konvergente Folge beschränkt
ist, folgt auch die Umkehrung.
2.3 Beispiel zum Monotoniekriterium. Die Reihe
∞
X
1
k2
k=1
konvergiert, denn die Partialsummen sind monoton wachsend und wegen
sn =
n
n
X
X
1
2
1
≤
=
2
1
−
≤2
k2
k(k + 1)
n+1
k=1
k=1
(vgl. 1.6) nach oben beschränkt. In 5.§7.1.7 werden wir mit Hilfe der Fourier-Analysis als Grenzwert π 2 /6
erhalten.
P∞
2.4 Majorantenkriterium. Ist k=0 aP
und gilt |ak | ≤ bk
k eine Reihe reeller oder komplexer Zahlen P
∞
∞
ab
einem
Index
N
∈
N,
wobei
die
Reihe
b
konvergiert,
so
konvergiert
sowohl
k
k=0
k=0 ak als auch
P∞
k=0 |ak |.
P∞
P∞
Die Reihe k=0 bk wird dann konvergente Majorante für k=0 ak genannt.
Die am häufigsten verwendeten Majoranten sind
∞
X
M qk
mit M > 0 und q ∈]0, 1[
k=0
sowie
∞
X
c
k2
mit c > 0.
k=1
Beweis. Indem wir ggf.P
die ersten N Glieder abändern, können wir für den Konvergenznachweis
PnN = 0
∞
annehmen. Konvergiert k=0 bk und gilt |ak |P≤ bk für k ∈ N0 , so bilden die Partialsummen k=0 |ak |
∞
eine monoton
Folge, welche durch k=0P
bk beschränkt ist. Nach dem Monotoniekriterium 2.2
Pwachsende
∞
∞
konvergiert k=0 |ak | und dann nach 1.7 (g) auch k=0 ak .
2.5 Beispiele zum Majorantenkriterium.
(a) Die Exponentialreihe
exp(z) :=
∞
X
zk
k=0
k!
=1+z+
z2
z3
+
+ ···
2!
3!
konvergiert für jedes z ∈ C.
Zu gegebenem z ∈ C wählen wir ein N ∈ N mit N > 2|z|. In §2.4.8 (e)
P∞haben wir für k > 2|z| die
Abschätzung |z k /k!| ≤ M (1/2)k mit M := |2z|N /N ! bewiesen und damit k=0 M (1/2)k als konvergente
Majorante gefunden.
40
§4. UNENDLICHE REIHEN
Wir werden durch diese Reihe in 2.§21.1 die Exponentialfunktion definieren.
(b) Die verallgemeinerte harmonische Reihe
∞
X
1
1
1
= 1 + s + s + ···
s
k
2
3
konvergiert für alle s ∈ N mit s ≥ 2 und divergiert für s = 1.
k=1
Die Fälle s = 1 und s = 2 haben wir schon in 1.5 und 2.3 behandelt. Wegen 1/ns ≤ 1/n2 für s ≥ 2 ist
P
∞
2
k=1 1/k konvergente Majorante für die verbleibenden Fälle.
(c) Die verallgemeinerte geometrische Reihe
∞
X
k m z k = z + 2m z 2 + 3m z 3 + · · ·
konvergiert für alle m ∈ N und jedes z ∈ C mit |z| < 1.
k=0
Setzen wir r :=
p
|z| und ak := k m z k , so gilt r < 1 und
|ak | = k m rk · rk .
Die Folge (k m rk )k ist alsPNullfolge (vgl. §2.4.8 (d)) beschränkt durch ein M > 0. Es folgt |ak | ≤ M rk
∞
und wegen 0 ≤ r < 1 ist k=0 M rk konvergente Majorante.
Für |z| ≥ 1 divergiert die verallgemeinerte geometrische Reihe, da dann die Reihenglieder keine Nullfolge
mehr bilden und das notwendige Konvergenzkriterium 1.7 (a) verletzt ist.
(d) Die Binomialreihe
∞ X
c k
c(c − 1) 2
z + ···
z = 1 + cz +
Bc (z) :=
2!
k
konvergiert für c ∈ C und jedes z ∈ C mit |z| < 1.
k=0
Wegen
c
k+1 k+1 z
c k
z
k
=
|c − k|
|z| → |z|
k+1
gibt es für |z| < 1 nämlich einen Index k0 ∈ N0 , so dass
c k+1 k+1z
1 + |z|
=: q < 1
≤
c k
2
z
k
Durch Induktion folgt dann |
als konvergente Majorante.
c
k
z k | ≤ M q k mit M := |
c
k0
für k → ∞
für k ≥ k0 .
| für k ≥ k0 und wir haben wieder
P∞
k=0
M qk
Ist c eine natürliche Zahl oder Null, so verschwinden inP
der Binomialreihe
alle Glieder mit Index k > c.
c
Mit der binomischen Formel erhalten wir dann Bc (z) = k=0 kc z k = (1 + z)c und die Reihe konvergiert
trivialerweise für alle z ∈ C. In 2.§2.3 definieren wir Potenzen mit beliebigen Exponenten. In 4.§3.4.16
zeigen wir, dass diese Formel auch für c ∈ C r N0 gilt, dann aber nur für |z| < 1, da ansonsten die
Reihenglieder keine Nullfolge mehr bilden und das notwendige Konvergenzkriterium 1.7 (a) verletzt ist.
2.6 Leibniz-Kriterium.
Ist (ak )k eine monoton P
fallende Nullfolge reeller Zahlen, so konvergiert
die
P∞
P∞
n
Reihe k=0 (−1)k ak . Für die Partialsummen sn = k=0 (−1)k ak und den Grenzwert s = k=0 (−1)k ak
gelten die Abschätzungen
s2m+1 ≤ s ≤ s2m
|s − sn | ≤ an
für m, n ∈ N0 .
Reihen des oben genannten Typs werden alternierend oder Leibniz-Reihen genannt.
41
KAPITEL 1. GRUNDLAGEN
Beweis. Die aus den Partialsummen sn gebildeten Intervalle [s2m+1 , s2m ] bilden eine Intervallschachtelung. Wegen a2m−1 ≥ a2m ≥ a2m+1 gilt nämlich
s2m+1
=
s2m−1 + a2m − a2m+1 ≥ s2m−1 = s2(m−1)+1 ,
s2m
=
s2m−2 − a2m−1 + a2m ≤ s2m−2 = s2(m−1) ,
s2m − s2m+1
=
−(−1)2m+1 a2m+1 = a2m+1 → 0
für m → ∞.
Gemäß §2.7.2 existiert limm→∞ s2m = s = limm→∞ s2m+1 . Ist n gerade, so gilt sn+1 ≤ s ≤ sn , d.h.
|s − sn | = sn − s ≤ sn − sn+1 = an+1 ≥ an . Ist dagegen n ungerade, so gilt sn ≤ s ≤ sn−1 , d.h.
|s − sn | = s − sn ≤ sn−1 − sn = an .
Achtung. Im Leibniz-Kriterium kann weder auf die Monotonie noch auf die Nullfolgeneigenschaft verzichtet werden. Das mache man sich an Beispielen klar.
2.7 Beispiele zum Leibniz-Kriterium.
(e) Die alternierende harmonische Reihe
∞
X
(−1)k+1
k=1
k
=1−
1 1 1
+ − ± ···
2 3 4
konvergiert nach dem Leibniz-Kriterium, da (1/k)k eine monoton fallende Nullfolge ist. Den Grenzwert
ln(2) werden wir erst in 4.§3.4.16 mit Hilfe der Differentialrechnung bestimmen können. Gleiches gilt für
die Reihe
∞
X
(−1)k
1 1 1
= 1 − + − ± ···
2k + 1
3 5 7
k=0
Pn
welche gegen π/4 konvergiert. Zur Approximation
von π durch die Partialsumme 4 k=0 (−1)k /(2k + 1)
Pn
erhalten wir die Fehlerabschätzung |π − 4 k=0 (−1)k /(2k + 1)| ≤ 4/(2n + 1). D.h. wir müssen 4.000
Glieder aufsummieren, um π auf drei Nachkommastellen zu erhalten.
(f) Die Reihe
∞
X
(−1)k
k=0
(2k)!
x2k = 1 −
x2
x4
x6
+
−
± ···
2!
4!
6!
√
√
ist für −2 3 ≤ x ≤ 2 3 ab dem Glied mit Index k = 1 alternierend.
√
Setzen wir nämlich ak := x2k /(2k)!, so gilt ak+1 /ak = x2 /[(2k + 2)(2k + 1)] ≤ x2 /12 ≤ 1 für |x| ≤ 2 3
und k ≥ 1 sowie ak → 0 für k → ∞ nach §2.4.8 (d). Also ist (ak )k≥1 eine monoton fallende Nullfolge und
es gilt
∞
X
√
√
x2
(−1)k 2k
x2
x4
1−
≤
x ≤1−
+
für − 2 3 ≤ x ≤ 2 3.
2
(2k)!
2
24
k=0
In 2.§2.5 werden wir sehen, dass die obige Reihe cos(x) darstellt. Wir haben also einfache Abschätzungen
für cos(x) für x in der Nähe von 0 gefunden.
3
Umordnung von Reihen
P∞
3.1 Umordnung von Reihen. Ist k=0 ak eine Reihe und ist (ϕ(k))k eine Umordnung der Indizes,
d.h.
Zahl k ∈ N0 genau einmal vorkommt, so heißt die unendliche Reihe
P∞ eine Indexfolge, in der jede P
∞
a
eine
Umordnung
von
k=0 ϕ(k)
k=0 ak .
Beispielsweise ist
1+
1 1 1 1 1
− + + − ± ···
3 2 5 7 4
42
§4. UNENDLICHE REIHEN
eine Umordnung der alternierenden harmonischen Reihe 1 − 1/2 + 1/3 − 1/4 ± · · · , in der immer auf zwei
Glieder mit positivem Vorzeichen eines mit negativem folgt.
3.2 Vertauschen der Glieder einer Reihe kann
P∞furchtbare Folgen haben. Wir haben in 2.7
gesehen, dass die alternierende harmonische Reihe k=1 (−1)k+1 /k konvergiert. Jetzt zeigen wir, dass
man durch Umordnung der Glieder das Konvergenzverhalten beliebig verändern kann. Hierzu nutzen wir
aus, dass die beiden Teilreihen der Glieder mit ungeradem bzw. geradem Index streng monoton wachsend
gegen +∞ bzw. streng monoton fallend gegen −∞ konvergieren. Dies erkennt man durch Vergleich mit
der harmonischen Reihe, es gilt nämlich
1
1
1 1
1
1 1
>
1 + + + ··· +
→ +∞
für m → ∞,
1 + + + ··· +
3 5
2m − 1
2
2 3
m
1 1 1
1
1
1 1
1
− − − − ··· −
= −
1 + + + ··· +
→ −∞
für m → ∞.
2 4 6
2m
2
2 3
m
Geben wir nun eine beliebige reelle Zahl x vor und summieren wir abwechselnd soviele ungerade bzw.
gerade Glieder auf, dass wir jeweils eine Partialsumme sn erhalten, die gerade über bzw. unter x liegt, so
ist |sP
n − x| kleiner als der Betrag des zuletzt aufsummierten Gliedes. Wir erhalten somit eine Umordung
∞
von k=1 (−1)k /k, die gegen x konvergiert. Analog kann man Umordnungen angeben, die uneigentlich
gegen +∞ bzw. gegen −∞ konvergieren.
Das Konvergenzverhalten einer Reihe kann sich ändern, wenn man die Reihenfolge der Glieder verändert.
3.3 Absolute und bedingte Konvergenz. Den gerade an der alternierenden harmonischen Reihe
illustrierten Effekt kann man mit jeder unendlichen Reihe erzielen, für welche die Teilreihen
aus positiven
P∞
und negativen
Gliedern
jeweils
divergieren.
Solche
Reihen
erkennt
man
daran,
dass
a
konvergiert,
k
k=0
P∞
während k=0 |ak | divergiert, und nennt sie bedingt konvergent.
P∞
P∞
Konvergiert dagegen k=0 |ak | und dann nach 1.8 (f) auch k=0 ak selbst, so heißt die Reihe absolut
konvergent.
Monotonie- und Majorantenkriterium können nur zum
absoluter Konvergenz verwendet werden,
PNachweis
∞
da sie letztlich nur eine Konvergenzsaussage
über
|a
|
machen.
Das Leibniz-Kriterium dagegen
k=0 k
P∞
kann zum Konvergenznachweis über k=0 ak selbst verwendet werden — allerdings nur für alternierende
Reihen. Damit kann es neben einem direkten Konvergenznachweis als einziges Kriterium auch für bedingt
konvergente Reihe eingesetzt werden.
P∞
3.4 Beispiele für absolut konvergente Reihen.
Die Exponentialreihe k=0 z k /k! aus 2.5 (a) konP∞
k
vergiert für jedes z P
∈ C absolut, da auch
sind die verallgemeinerte
k=0 |z| /k! konvergiert.
P∞ Ebenso
∞
m k
geometrische Reihe k=0 k z aus 2.5 (c) und die Binomialreihe k=0 kc z k für jedes z ∈ C mit |z| < 1
absolut konvergent.
3.5 Umordnungssatz. Bei einer absolut konvergenten Reihe konvergiert die Reihe selbst und jede ihrer
Umordnungen gegen denselben Grenzwert.
Für den Beweis sei z.B. auf [Kön, Band 1, 6.3] oder [HeuA, Band 1, IV.32] verwiesen. Wir unterscheiden
also drei Typen von Reihen:
P∞
P∞
• absolut konvergente Reihen ( k=0 ak und k=0 |ak | konvergieren),
P∞
P∞
• bedingt konvergente Reihen ( k=0 ak konvergiert, aber k=0 |ak | divergiert),
P∞
• divergente Reihen ( k=0 ak divergiert).
Absolut konvergente Reihen erweisen sich dank dem Umordnungssatz als robust und angenehm handhabbar. Bei bedingt konvergenten Reihen dagegen sind Vorsicht und Fingerspitzengefühl angebracht,
insbesondere gilt kein Kommutativgesetz für die Reihenglieder.
43
KAPITEL 1. GRUNDLAGEN
3.6 P
Doppelreihen. Gegeben seien reelle oder komplexe Zahlen ak,l mit Indizes k, l ∈ N0 . Dann nennen
∞
wir k,l=0 ak,l eine Doppelreihe.
Wenn wir erklären wollen, was Konvergenz für eine Doppelreihe bedeuten soll, können wir nicht wie bei
Reihen auf die Folge der Partialsummen zurückgreifen. Wie sollen die Partialsummen denn gebildet werden? Um so etwas zu erklären, müssen wir die Indexpaare (k, l) auf irgend eine Weise durchnummerieren,
d.h. wir setzen (k, l) = ϕ(n), so dassPzu jedem Indexpaar (k, l), k, l ∈ N0 , genau eine Zahl n ∈ N0 gehört.
∞
Anschließend können wir die Reihe n=0 aϕ(n) auf Konvergenz untersuchen. Beliebte Anordnungen sind
P∞
• zeilenweise, d.h. wir bilden zuerst die Reihen l=0 ak,l und
— falls alle diese Reihen konvergieren — anschließend
!
∞
∞
X
X
ak,l ,
k=0
a0,0 → a0,1 → a0,2 → . . .
a1,0 → a1,1 → a1,2 → . . .
l=0
P∞
• spaltenweise, d.h. wir bilden zuerst die Reihen
k=0 ak,l
und — falls alle diese Reihen konvergieren — anschließend
!
∞
∞
X
X
ak,l ,
l=0
k=0
• diagonal, d.h. wir bilden erstP
die Summen a0,0 , a1,0 + a0,1 ,
a2,0 + a1,1 + a0,2 , . . . , d.h.
k+l=n ak,l für n ∈ N0 , und
anschließend
!
!
∞
∞
n
X
X
X
X
ak,l =
ak,n−k .
n=0
n=0
k+l=n
..
.
..
.
..
.
a0,0
↓
a1,0
↓
..
.
a0,1
↓
a1,1
↓
..
.
a0,2
↓
a1,2
↓
..
.
a0,0
a0,1
%
a1,0
a1,1
...
%
a1,2
%
a2,0
a2,1
a2,2
..
..
.
. % . % ..
k=0
...
a0,2
%
%
...
...
%
...
Nach unseren Erkenntnissen in 3.2 liegt die Befürchtung nahe, dass wir ohne weitere Informationen über
die Zahlen ak,l bei verschiedenen Summierungsverfahren zu verschiedenen Ergebnissen kommen können.
Zum Glück gibt es für Doppelreihen ein Analogon zum Umordungssatz 3.5.
3.7 Großer Umordnungssatz. Für jede Doppelfolge (ak,l )k,l≥0 reeller oder komplexer Zahlen sind die
folgenden Aussagen äquivalent.
P∞
(a) Die Doppelreihe n=0 |aϕ(n) | konvergiert für eine Anordnung ϕ.
P∞ P∞
(b) Die Reihe
P∞ k=0 ( l=0 |ak,l |) über die Zeilensummen konvergiert, dies schließt die Konvergenz aller
Reihen l=0 |ak,l |, k ∈ N0 , mit ein.
P∞ P∞
(c) Die Reihe
P∞ l=0 ( k=0 |ak,l |) über die Spaltensummen konvergiert, dies schließt die Konvergenz aller
Reihen k=0 |ak,l |, l ∈ N0 , mit ein.
P∞ P
(d) Die Reihe n=0
k+l=n |ak,l | über die Diagonalsummen konvergiert.
P∞
(e) Die Doppelreihe n=0 aϕ(n) konvergiert für jede Anordnung ϕ.
Ist eine dieser fünf Aussagen erfüllt, so gilt
∞
X
n=0
aϕ(n) =
∞
∞
X
X
l=0
k=0
!
ak,l
=
∞
∞
X
X
k=0
l=0
!
ak,l
=
∞
X
X
n=0
k+l=n
!
ak,l
.
44
§4. UNENDLICHE REIHEN
In diesem Fall bezeichnen wir den gemeinsamen Grenzwert mit demselben Symbol
∞
X
ak,l
k,l=0
wie die Reihe selbst und sagen, dass die Doppelreihe konvergiert.
Achtung. Für Doppelreihen haben wir nur ein Analogon zur absoluten Konvergenz.
Auch hier verweisen wir für den Beweis auf [Kön, Band 1, 6.3]. Als unmittelbare Folgerung erhalten wir
den folgenden Satz über das Produkt zweier Reihen.
P∞
P∞
3.8 Cauchy-Produkt von Reihen. Sind k=0 ak und k=0 bk zwei absolut konvergente Reihen reeller
oder komplexer Zahlen, so gilt
!
!
!
∞
∞
∞
n
X
X
X
X
ak ·
bk =
ak bn−k .
k=0
Die unendliche Reihe
n=0
k=0
k=0
P∞
Pn
P∞
P∞
n=0 (
k=0 ak bn−k ) heißt Cauchy-Produkt von
k=0 ak und
k=0 bk .
3.9 Cauchy-Produkt für die Exponentialfunktion. Seien z, w ∈ C. Da die aus 2.5 (a) bekannte
Exponentialreihe absolut konvergiert, folgt mit der binomischen Formel
!
!
∞
∞
∞
n
∞
n X
X
X
X
z k wn−k
1 X n k n−k
z k X wk
=
=
z w
exp(z) exp(w) =
k!
k!
k! (n − k)!
n!
k
n=0
n=0
=
k=0
k=0
∞
X
k=0
k=0
n
(z + w)
= exp(z + w).
n!
n=0
3.10 Cauchy-Produkt bei Binomialreihen. Für c, d ∈ C und z ∈ C mit |z| < 1 gilt dank der
absoluten Konvergenz der Bionomialreihe
!
∞ ∞ ∞
n X
c kX d k X X c
d
k n−k
Bc (z)Bd (z) =
z
z =
z z
k
k
k
n−k
n=0 k=0
k=0
k=0
!
∞
n ∞ X
X
X
c
d
c+d n
n
=
z =
z = Bc+d (z),
k
n−k
n
n=0
n=0
k=0
Pn
c
d
wobei man die Identität k=0 k n−k
= c+d
durch Induktion aus dem Additionstheorem für Binomin
alkoeffizienten folgern kann (wir werden dies später in 2.§3 1.13 auf andere Weise beweisen).
Wir wollen zwei Spezialfälle dieser Identität näher betrachten.
m+1
(f) Aus Bm+1 (z)B−m−1 (z) = B0 (z) für
1 und
und
km ∈ N0 erhalten wir mit Bm+1 (z) = (1 + z)
P∞|z| <−m−1
m+1
B0 (z) = 1 die Beziehung (1 + z)
z
=
1.
Hieraus
folgt
nach
Ersetzung
von
z
durch
−z
k=0
k
m+k
k m+k
und mit −m−1
=
(−m
−
1)(−m
−
2)
·
·
·
(−m
−
k)/k!
=
(−1)
=
(−1)
die
Formel
k
k
m
1
(1 − z)m+1
=
∞ X
m+k
k=0
=
m
zk
1 + (m + 1)z +
(m + 2)(m + 1) 2
z + ···
2!
für m ∈ N0 und z ∈ C mit |z| < 1.
Insbesondere gilt für m = 0, 1, 2 damit
∞
X
1
=
zk ,
1−z
k=0
∞
X
1
=
(k + 1)z k ,
(1 − z)2
k=0
∞
X (k + 2)(k + 1)
1
=
zk .
(1 − z)3
2
k=0
45
KAPITEL 1. GRUNDLAGEN
− 3(k + 1) + 1 erhalten wir für die ersten zwei
Aus den Zerlegungen k = (k + 1) − 1 bzw. k 2 = 2 (k+2)(k+1)
2
verallgemeinerten geometrischen Reihen dann die Summenformeln
∞
X
kz
k
k=0
∞
X
k2 z k
=
=
k=0
∞
X
k
(k + 1)z −
k=0
∞
X
2
k=0
=
∞
X
k=0
zk =
1
z
1
−
=
(1 − z)2
1−z
(1 − z)2
∞
∞
k=0
k=0
für |z| < 1,
X
X
(k + 2)(k + 1) k
z −3
(k + 1)z k +
zk
2
1
1
z(1 + z)
1
−3
+
=
2
(1 − z)3
(1 − z)2
1−z
(1 − z)3
für |z| < 1.
Analog findet man Summenformeln für die anderen verallgemeinerten geometrischen Reihen.
(g) Aus B1/n (x)
Wurzelziehen
√
n
n
1+x =
= B1 (x) für reelle x ∈] − 1, 1[ und n ∈ N ergibt sich mit B1 (x) = (1 + x) nach
∞ 1
X
n
k=0
=
1+
k
xk
1
n − 1 2 (2n − 1)(n − 1) 3
x−
x +
x ∓ ···
n
2!n2
3!n3
für n ∈ N und x ∈] − 1, 1[.
46
Kapitel 2
Elementare Funktionen
Der Funktionsbegriff ist eines der wichtigsten und universellsten Mittel in der Mathematik. Er wird in
vielseitiger Weise zur mathematischen Beschreibung von Wirklichkeit eingesetzt, nämlich immer dann,
wenn Kausalität herrscht, wenn wir den Zustand eines Systems durch Wirkung der Systemparameter
beschreiben.
Wir stellen in §1 zuerst knapp die wichtigsten Begriffe zusammen und beschäftigen uns dann in §2–§4
ausführlich mit den wichtigsten elementaren Funktionen.
§1
1
Grundlegendes über Funktionen
Zum Funktionsbegriff
1.1 Was ist eine Funktion? Gegeben seien zwei nichtleere Mengen D und W . Unter einer Funktion
(oder einer Abbildung) f verstehen wir eine Zuordnungsvorschrift, welche jedem Element aus x ∈ D ein
wohlbestimmtes Element aus y ∈ W zuordnet. Dieses Element y bezeichnen wir mit f (x), schreiben
y = f (x) und nennen y den Wert der Funktion f an der Stelle x (oder das Bild von x unter der
Abbildung f ). Diesen Sachverhalt drücken wir aus durch die Schreibweise
f : D → W,
f : x 7→ f (x).
1.2 Definitionsbereich und Wertevorrat. Die Menge D nennen wir den Definitionsbereich von f ,
die Menge W den Wertevorrat oder Zielbereich von f .
Eine Funktion ist also festgelegt durch
• die Angabe des Definitionsbereichs D,
• die Angabe der Abbildungsvorschrift x 7→ f (x) und
• die Angabe, welcher Art die Bilder f (x) sein sollen, d.h. in welcher Menge W sie liegen sollen.
Die letzte Angabe ist i.A. nicht wesentlich, man gibt sich gerne mit irgend einem einfach anzugebenden
Wertevorrat zufrieden, ohne den die genaue Wertemenge von f , d.h. die Teilmenge
f (D)
:= {f (x) ∈ W : x ∈ D} = {y ∈ W : es gibt ein x ∈ D mit y = f (x)}
des Wertevorrats W anzugeben.
Achtung. Man kann sich viel Kummer sparen, wenn man bei einer Funktion nicht nur an die Zuordnungsvorschrift denkt (was man gerne tut), sondern auch immer nach dem Definitionsbereich fragt.
KAPITEL 2. ELEMENTARE FUNKTIONEN
47
1.3 Natürlicher Definitionsbereich. Wenn wir bei einer konkreten Funktion nichts über den Definitionsbereich sagen, so nehmen wir stillschweigend den natürlichen Definitionsbereich, d.h. maximal
möglichen an. Das sind all die Zahlen, für welche die Abbildungsvorschrift ausgeführt werden kann. Wird
z.B. f durch die Abbildungsvorschrift f (x) := x2 /(x − 2) definiert und nichts über den Definitionsbereich
gesagt, so ist D = R r {2} zu setzen (bzw. D = C r {2}, falls das für die Diskussion der Funktion
nützlicher ist oder vom Zusammenhang gefordert wird).
1.4 Anmerkung zu Bezeichnungen. Die Begriffe „Funktion“ und „Abbildung“ werden synonym
verwendet. Im ersten Fall stellt man sich Definitionsbereich und Wertevorrat allerdings gerne als Zahlenmengen vor, im zweiten Fall steht eine geometrische Vorstellung im Vordergrund.
Es sind weitere Bezeichnungen üblich. Eine Zahlenfolge, d.h. eine Folge reeller bzw. komplexer Zahlen,
ist nichts anderes als eine Funktion mit Definitionsbereich N und Wertevorrat R bzw. C. Später (z.B. in
Kapitel 5) werden wir Operatoren und Funktionale kennenlernen. Das sind Funktionen, die Funktionen
auf Funktionen bzw. Zahlen abbilden. Der Differentialoperator f 7→ f 0 ordnet beispielsweise einer differenzierbaren Funktion f ihre Ableitung f 0 zu. Das Integral einer Funktion f über das Intervall [c, d] ist ein
Rd
Operator, der einer auf [c, d] integrierbaren Funktion eine Zahl (eben ihr Integral c f (x) dx) zuordnet.
1.5 Explizite Zuordnungsvorschrift. Im Kapitel 1 haben wir schon viele Funktionen kennengelernt.
Bei den meisten konnten wir die Zuordungsvorschrift explizit angeben.
(a) Die Signum-Funktion sgn : R → R aus 1.§1.4.5 ordnet jeder reellen Zahl ihr Vorzeichen zu. Die
Zuordnungsvorschrift x 7→ sgn(x) := 1 für x > 0, x 7→ sgn(0) := 0 und x 7→ sgn(x) := −1 für x < 0 ist
abschnittsweise erklärt. Die Wertemenge ist die dreielementige Menge {−1, 0, 1}.
(b) Der Betrag einer
C → R+
0 mit der Zuordnungsvorpkomplexen Zahl (vgl. 1.§3.2.2) ist eine Funktion
√
schrift z 7→ |z| := (Re z)2 + (Im z)2 . Wir hätten auch z 7→ zz als Zuordnungsvorschrift und R als
Zielbereich wählen können.
(c) Für irgend eine nichtleere Menge D nennen wir idD : D → D, idD (x) := x, die Identität oder
identische Abbildung. Wir schreiben einfach id statt idD , wenn aus dem Zusammenhang klar ist, welche
Definitionsmenge gerade gemeint ist.
(d) Eine Funktion, die nur einen Wert annimmt, heißt konstant. Sie wird wie ihr einziger Wert bezeichnet.
1.6 Implizite Zuordnungsvorschrift. Wird in der Zuordnungsvorschrift einer Funktion f der Funktionswert f (x) an der Stelle x nicht explizit in Abhängigkeit von x angegeben, so liegt eine implizite
Zuordnungsvorschrift vor.
(e) Durch die Rekursion a1 := 1, an+1 = 1 + an /2 wird eine Folge (an )n implizit definiert. Das Rekursionprinzip aus 1.§2.3.2 stellt sicher, dass die Folge (an )n hierdurch eindeutig festgelegt ist. Durch einen
Induktionsbeweis kann man zeigen, dass die Folge explizit durch an = 2 − 21−n angegeben werden kann.
√
+
n
(f) Für n ∈ N ist die in 1.§2.2.4 eingeführte n-te Wurzel eine Funktion R+
a bezeichnete
0 → R0 . Der mit
n
Funktionswert an der Stelle a ist die Lösung der Gleichung x = a. Hierzu musste (mit viel Mühe)
sichergestellt werden, dass diese Gleichung eine eindeutige Lösung besitzt.
(g) In 4.§3.6.6 werden wir sehen, dass durch die Differentialgleichung f 0 = f und die Anfangsbedingung
f (0) = 1 eine Funktion f : R → R eindeutig festgelegt ist (nämlich die Exponentialfunktion).
(h) Man kann zeigen, dass es genau eine stetige Funktion R → R mit f (0) = 1 gibt, welche die Funktionalgleichung f (x + y) = f (x)f (y) erfüllt (nämliche ebenfalls die Exponentialfunktion).
Bei implizit definierten Funktionen sind Existenz und Definitionsbereich meist schwierig zu klären.
1.7 Gleichheit von Funktionen, Fortsetzung und Einschränkung. Wir nennen zwei Funktionen f
und g gleich, wenn sie denselben Definitionsbereich und dieselbe Zuordnungsvorschrift haben. Wir schreiben dann f = g oder f (x) ≡ g(x).
48
§1. GRUNDLEGENDES ÜBER FUNKTIONEN
Sind f und F zwei Funktionen mit Definitionsbereichen D bzw. D̃ und gilt D ( D̃ sowie f (x) = F (x)
für alle x ∈ D, so nennen wir F eine Fortsetzung von f auf D̃ bzw. f die Einschränkung von F auf D
und schreiben f = F |D .
Beispiel. Aus f = 0 folgt f (x) = 0 für alle x ∈ D. Daher gilt zwar sgn(0) = 0 aber sgn 6= 0. Die
Betragsfunktion auf C ist eine Fortsetzung der Betragsfunktion auf R.
2
Wichtige Begriffe
2.1 Injektivität. Eine Funktion f : D → W heißt injektiv , eineindeutig oder 1-1-Abbildung, wenn sie
jeden Wert höchstens einmal annimmt, d.h. wenn für jedes y ∈ W die Gleichung f (x) = y höchstens
eine Lösung x ∈ D besitzt. Injektivität bedeutet also, dass aus f (x1 ) = f (x2 ) stets x1 = x2 folgt — oder
andersherum: x1 6= x2 impliziert stets f (x1 ) 6= f (x2 ).
Beispiel. Die durch f (x) := x3 definierte Funktion f : R → R ist injektiv, weil aus 0 = f (x1 ) − f (x2 ) =
x1 3 − x2 3 = (x1 − x2 )(x1 2 + x1 x2 + x2 2 ) = (x1 − x2 )(x1 2 + x2 2 + (x1 + x2 )2 )/2 in jedem Fall x1 = x2
folgt. Dagegen ist die durch g(x) := x2 definierte Funktion g : R → R nicht injektiv. Es gilt nämlich
g(−1) = g(1). Die Einschränkung g|R+ von g auf R+
0 dagegen erweist sich als eineindeutig.
0
2.2 Surjektivität. Eine Funktion f : D → W heißt surjektiv , wenn sie jeden Wert mindestens einmal
annimmt, d.h. wenn die Gleichung f (x) = y für jedes y ∈ W mindestens eine Lösung x ∈ D besitzt.
Achtung. Auch wenn die Angabe der Zielmenge i.A. für die Festlegung einer Funktion nicht wesentlich
ist, bei der Surjektivität kommt es auf sie an.
Surjektivität kann durch Verkleinern des Wertevorrats auf die Wertemenge erzwungen werden. Dazu muss
allerdings die Wertemenge ermittelt werden.
2.3 Bijektivität. Eine Funktion heißt bijektiv , umkehrbar oder eine Bijektion, wenn sie injektiv und
surjektiv ist.
√
+
Beispiel. Für jedes n ∈ N ist die n-te Wurzel x 7→ n x ist eine bijektive Abbildung R+
0 → R0 . Wir
+
+
n
haben ja in 1.§2.2.4 gezeigt, dass die Gleichung x = a für jedes a ∈ R0 genau eine Lösung in R0 besitzt.
2.4 Umkehrfunktion. Ist f : D → W eine Bijektion und bezeichnen wir für y ∈ W die eindeutig
bestimmte Lösung x ∈ D von f (x) = y mit g(y), so haben wir eine Funktion g : W → D definiert, für die
f (g(y)) = y für alle y ∈ W sowie g(f (x)) = x für alle x ∈ D gilt. Als Abbbildung von W nach D ist g
selbst eine Bijektion. Sie wird Umkehrabbildung von f genannt und mit f −1 bezeichnet.
√
Beispiel. Die Umkehrfunktion zur n-ten Potenzabbildung x 7→ xn ist die n-te Wurzel y 7→ n y. Als
gemeinsamer Definitions- und Wertebereich fungiert R+
0.
2.5 Verkettung. Sind f : D → B und g : B → W zwei Funktionen, bei denen der Wertevorrat von f mit
dem Definitionsbereich von g übereinstimmt, so können wir durch x 7→ g(f (x)) eine Abbildung D → W
definieren. Wir nennen diese Funktion Verkettung, Hintereinanderausführung oder Komposition von f
mit g und bezeichnen sie mit g ◦ f .
Beispiel. Ist f : D → W bijektiv, so gilt f ◦ f −1 = idW und f −1 ◦ f = idD .
Achtung. Bei der Verkettung g ◦ f von f mit g muss die Wertemenge von f im Definitionsbereich von g
liegen. Es kommt also auf die Reihenfolge an.
Beispiel. Durch f (x) := 2x + 1 und g(x) := x2 werden zwei Funktionen f, g : R → R definiert. Diese
beiden Funktionen können in beliebiger Reihenfolge verkettet werden. Es gilt (g ◦ f )(x) = (2x + 1)2 =
4x2 + 4x + 1 und (f ◦ g)(x) = 2x2 + 1. Wegen (g ◦ f )(1) = 9 6= 3 = (f ◦ g)(1) gilt aber g ◦ f 6= g ◦ f .
2.6 Graph. Das Abbildungsverhalten einer Funktion f : D → W veranschaulichen wir gerne durch eine
graphische Darstellung der Punktepaare (x, f (x)), x ∈ D. Wir nennen die Menge {(x, f (x)) | x ∈ D}
den Graphen der Funktion f .
49
KAPITEL 2. ELEMENTARE FUNKTIONEN
Sind D und W Teilmengen von R, so kann man den Graphen als Teil der Ebene gut zeichnen. In anderen
Fällen wird die Darstellung schwierig oder ist nur im übertragenen Sinn zu verstehen.
1
1
sgn
1
( n1 )n
-1
|·|
1
-1
1
2
3
4
5
6
7
8
9 10
-1
1
Abbildung 2.1: Graphen der Folge (1/n)n , der Betragsfunktion | · | sowie der Signumfunktion sgn. Was
hat der Graph von x 7→ 1/x für x > 0 mit dem von (1/n)n zu tun?
Ist f eine Bijektion, so entsteht der Graph von f −1 durch Spiegeln an der Winkelhalbierenden (vgl.
Abbildung 2.2).
3
Funktionen im Reellen oder Komplexen
3.1 Beschränktheit. Eine reell- oder komplexwertige Funktion f mit einer beliebigen Definitionsmenge D nennen wir beschränkt, wenn es eine Zahl M ≥ 0 gibt mit |f (x)| ≤ M für alle x ∈ D.
Geometrisch interpretiert bedeutet dies, dass die Wertemenge f (D) in einem abgeschlossenen Intervall
um 0, bzw. in einer Kreisscheibe um 0 enthalten ist.
Beispiel. Die Abbildung x 7→ 1/x ist auf [1, +∞[ beschränkt, auf ]0, 1] dagegen nicht.
3.2 Monotonie. Eine Funktion f : D ⊂ R → R heißt monoton wachsend (monoton fallend ), wenn
für x1 , x2 ∈ D aus x1 < x2 immer f (x1 ) ≤ f (x2 ) (f (x1 ) ≥ f (x2 )) folgt. Gilt sogar f (x1 ) < f (x2 )
(f (x1 ) > f (x2 )), so heißt f streng monoton wachsend (streng monoton fallend ).
Eine streng monton wachsende (fallende) Funktion ist auf ihrer Wertemenge umkehrbar und die Umkehrabbildung ist wieder streng monoton wachsend (fallend).
x4 x3 x2
√
y
√
3 y
√
4 y
1
1
1
1
Abbildung 2.2: Graphen dreier Potenzabbildungen x 7→ xn sowie deren Umkehrrabbildungen y 7→
√
n
y.
50
§2. EXPONENTIALFUNKTION UND VERWANDTE
3.3 Zusammengesetzte Funktionen. Für Funktionen f, g : D → C (das schließt den Fall f, g : D → R
mit ein) und eine reelle oder komplexe Zahl λ definieren wir
(a) die Summe zweier Funktionen f + g : D → C durch die Abbildungsvorschrift x 7→ f (x) + g(x),
(b) das Produkt zweier Funktionen f g : D → C durch die Abbildungsvorschrift x 7→ f (x)g(x),
(c) das Vielfache einer Funktion λf : D → C durch die Abbildungsvorschrift x 7→ λf (x),
(d) die reziproke Funktion
1
f
: D r {x ∈ D | f (x) = 0} → C durch die Abbildungsvorschrift x 7→
1
f (x) ,
(e) das Negative einer Funktion −f : D → C durch die Abbildungsvorschrift x 7→ −f (x).
Für das Rechnen mit Funktionen gelten dieselben Rechengesetze wie in Z, d.h. (A1)–(A4) und (A5) für
die Addition. Die Nullfunktion oder identisch verschwindende Funktion 0 : D → R, x 7→ 0, übernimmt
dabei die Rolle des neutralen Elements der Addition, die Einsfunktion 1 : D → R, x 7→ 1, die des
neutralen Elements der Multiplikation. Man mache sich an einem Beispiel klar, dass es zu vorgegebenen
Funktionen f und h nicht immer eine Funktion g gibt mit f g = h.
Achtung. Die reziproke Funktion hat nichts mit der Umkehrfunktion zu tun.
3.4 Achsen- und Punktsymmetrie. Ist f : D ⊂ R → R eine Funktion mit f (−x) = f (x) für alle x ∈ D,
so nennen wir f achsensymmetrisch oder gerade. Gilt dagegen f (−x) = −f (x) für alle x ∈ D, so nennen
wir f punktsymmetrisch oder ungerade. Genau so definieren wir dies für eine Funktion f : D ⊂ C → C.
Der Graph einer geraden Funktion ist achsensymmetrisch, der einer ungeraden ist punktsymmetrisch
zum Ursprung. Dabei muss natürlich auch der Definitionsbereich auf der Zahlengeraden (bzw. in der
Zahlenebene) symmetrisch zum Ursprung 0 liegen, d.h. aus x ∈ D folgt immer −x ∈ D.
Machen Sie sich klar, dass für das Produkt von geraden bzw. ungeraden Funktionen dieselben Rechenregeln wie die Summe im Minikörper mit zwei Elementen 1.§1.3.3 gelten, d.h. das Produkt zweier gerader
bzw. zweier ungerader Funktionen ist gerade, das Produkt einer geraden und einer ungeraden Funktion
ist ungerade.
Beispiel. Die Potenzabbildung x 7→ xn ist achsensymmetrisch oder punktsymmetrisch, je nachdem ob
n ∈ N gerade oder ungerade ist. Dagegen ist f (x) := x2 + x für x ∈ R weder achsen- noch punktsymmetrisch, da f (1) = 2 und f (−1) = 0.
(−x)
und fu (x) :=
Jede Funktion kann mittels f = fg + fu mit fg (x) := f (x)+f
2
Funktion fg und eine ungerade Funktion fu zerlegt werden.
f (x)−f (−x)
2
in eine gerade
3.5 Periodische Funktionen. Eine Funktion f : R → W heißt periodisch, wenn es eine Zahl p 6= 0
gibt mit f (x + p) = f (x) für alle x ∈ R. Jede derartige Zahl wird eine Periode von f genannt. Durch
Induktion folgt, dass mit p auch für jedes n ∈ Z r {0} die Zahl np eine Periode von f ist.
Analog definiert man dies für eine Funktion f : D ⊂ C → W , falls D die Zahlenebene selbst oder ein
Streifen in der Zahlenebene ist. Die Perioden dürfen dann komplexe Zahlen sein.
Eine konstante Funktion auf R ist periodisch und jede Zahl p ∈ R r {0} ist eine Periode.
§2
1
Exponentialfunktion und Verwandte
Exponentialfunktion
1.1 Definition: Exponentialfunktion. Die Exponentialfunktion wird definiert durch
exp : C → C,
exp(z) :=
∞
X
zk
k=0
Gemäß 1.§4.2.5 (a) konvergiert die Exponentialreihe
P∞
k=0
k!
.
z k /k! auf ganz C.
51
KAPITEL 2. ELEMENTARE FUNKTIONEN
1.2 Funktionalgleichung. Die Exponentialfunktion erfüllt die Funktionalgleichung
für beliebige z, w ∈ C.
exp(z + w) = exp(z) exp(w)
Dies haben wir in 1.§4 3.9 bewiesen. Für w = −z folgt insbesondere exp(z) exp(−z) = exp(0) = 1.
Die Exponentialfunktion hat keine Nullstellen und es gilt
exp(−z) =
1
exp(z)
für z ∈ C.
1.3 Berechnung der Exponentialfunktion. Es besteht die Fehlerabschätzung
n
X
2|z|n+1
z k für z ∈ C und n ∈ N mit n ≥ 2|z|.
exp(z) −
≤
k! (n + 1)!
k=0
Da die Exponentialfunktion durch eine Reihe definiert ist, können wir ihre Werte i.A. nicht explizit
berechnen. Obige Fehlerabschätzung erlaubt uns aber
Pn an einer beliebigen Stelle z ∈ C die näherungsweise
Berechnung von exp(z) durch die Partialsumme k=0 z k /k!. Wegen 2|z|n+1 /(n + 1)! → 0 für n → ∞
müssen wir für einen beliebig vorgegebenen Fehler ε > 0 nur n ≥ 2|z| groß genug wählen, um exp(z) mit
dem Fehler ε zu approximieren.
Beweis. Sei z ∈ C gegeben. Für n ∈ N mit n ≥ 2|z| gilt |z|/n ≤ 1/2 und mit 1.§4.1.8 (f) folgt
∞
∞
n
X
X
X
z k |z|k
|z|n+1
|z|2
|z|
z k =
+
+ ···
1+
= ≤
exp(z) −
k! k! k!
(n + 1)!
n + 2 (n + 2)(n + 3)
k=n+1
k=n+1
k=0
|z|n+1
|z| |z|2
|z|n+1
1
1
2|z|n+1
≤
1+
+ 2 + ··· ≤
1 + + 2 + ··· =
.
(n + 1)!
n
n
(n + 1)!
2 2
(n + 1)!
1.4 Grenzwertdarstellung. Für den Wert der Exponentialfunktion exp(z) an der Stelle z gilt
z n
für z ∈ C.
exp(z) = lim 1 +
n→∞
n
Damit können wir insbesondere das Zerfallsgesetz aus 1.§2.8.4 in der Form N (t) = N0 exp(−βt) schreiben.
Beweis∗ . Zunächst gilt für n, k ∈ N die Beziehung
n 1
1
1
2
k−1
1
=
1
−
1
−
·
·
·
1
−
≤ .
k
k n
k!
n
n
n
k!
n 1
1
Hieraus folgt außerdem limn→∞ k nk = k!
, da in obiger Darstellung jeder der k − 1 Faktoren 1 −
l = 1, 2, . . . , k − 1, gegen 1 konvergiert.
l
n,
Da die Behauptung im Fall z = 0 offensichtlich wahr ist, können wir z 6= 0 annehmen. Zu gegebenem
k
P∞
ε
ε > 0 wählen wir N ∈ N so groß, dass k=N +1 |z|
k! < 3 . Dies ist möglich, da die Reihenreste dank der
1
für n → ∞ existiert für jedes
Konvergenz der Exponentialreihe
bilden. Wegen nk n1k → k!
eine Nullfolge
n 1
1
ε
k ∈ N0 ein nk ∈ N mit | k! − k nk | < 3(N +1)|z|k für n ≥ nk . Setzen wir nun nε := max{N, n0 , . . . , nN }
so erhalten wir aus unsren bisherigen Überlegungen für n ≥ nε die Abschätzung
∞
n k
X z k X
z n n z −
exp(z) − 1 +
= n
k!
k nk k=0
k=0
n N ∞
X
X
X
1
n |z|k
|z|k
− n 1 |z|k +
+
≤
k!
k
k n
k!
k nk
N +1
N +1
k=0
N ∞
∞
N
X
X
X
X
1
|z|k
|z|k
ε
ε ε
− n 1 |z|k +
≤
+
<
+ + = ε.
k!
k nk k!
k!
3(N + 1) 3 3
k=0
Dies zeigt (1 + nz )n → exp(z) für n → ∞.
N +1
N +1
k=0
52
§2. EXPONENTIALFUNKTION UND VERWANDTE
1.5 Eulersche Zahl. Den Wert
∞
X
1
e := exp(1) =
k!
k=0
der Exponentialfunktion an der Stelle 1 nennen wir Eulersche Zahl .
Für z = 1 und n = 12 ist der Fehler in 1.3 kleiner als 4 · 10−10 und wir erhalten e ≈ 2, 718 281 828.
Die Folgen ((1 + n1 )n )n bzw. ((1 + n1 )n+1 )n sind streng monoton wachsend bzw. fallend und es gilt
n
n+1
1
1
lim 1 +
= e = lim 1 +
.
n→∞
n→∞
n
n
Die Grenzwertaussagen folgen aus 1.4, die Monotonieaussagen beweist man ähnlich wie in 1.§2.8.4.
Die Eulersche Zahl e ist irrational. Wäre nämlich e = m/n rational mit m, n ∈ N, so ist sicher n ≥ 2 und
e · n! ist dann eine ganze Zahl. Damit ist auch
!
n
X
1
c := n! e −
k!
k=0
eine ganze Zahl. Im Widerspruch hierzu folgt aus 1.3 aber 0 < c < n! · 2/(n + 1)! = 2/(n + 1) < 1.
Man kann zeigen, dass e sogar eine transzendente Zahl ist, d.h. keine Nullstelle eines Polynoms mit
ganzzahligen Koeffizienten.
2
Exponentialfunktion im Reellen und natürlicher Logarithmus
2.1 Schranken für die Exponentialfunktion im Reellen nahe bei Null. Für die Exponentialfunktion gilt
1 + x ≤ exp(x) ≤
1
1−x
1
1−x
exp(x)
für reelles x < 1.
Beweis. Die Abschätzung 1 + x ≤ exp(x) erhalten wir
für x ≥ 0 aus exp(x) = 1 + x + x2 /2! + · · · ≥ 1 + x, für
−1 < x < 0 aus der Tatsache, dass 1 + x + x2 /2 + · · ·
dann eine alternierende Reihe ist. Ersetzen wir nun x
durch −x, so folgt 0 < 1 − x ≤ exp(−x) = 1/ exp(x), d.h.
exp(x) ≤ 1/(1 − x) für x < 1.
1+x
1
Wie die Herleitung zeigt, gilt exp(x) ≥ 1 + x für alle
x ∈ R. Die nebenstehende Skizze legt nahe, dass diese
Abschätzungen nur für x nahe bei Null gut sind.
-1
1
Abbildung 2.3: Exponentialfunktion
im Reellen und Schranken im Intervall ] − ∞, 1[.
2.2 Abbildungsverhalten der Exponentialfunktion
im Reellen. Die Exponentialfunktion bildet R bijektiv
und streng monoton wachsend auf R+ ab.
Beweis∗ . Wir beweisen zuerst die Monotonie. Für x, y ∈ R mit x < y folgt im Fall x > 0 zunächst
xk < y k und mit der Monotonie des Grenzwerts dann
1 = exp(0) < exp(x) =
∞
X
xk
k=0
k!
<
∞
X
yk
k=0
k!
= exp(y).
Gilt x ≤ 0 < y, so erhalten wir aus −x ≥ 0 und y > 0 zunächst exp(−x) ≥ 1 und exp(y) > 1, dann
aber auch exp(x) = 1/ exp(−x) ≤ 1 < exp(y). Gilt schließlich y ≤ 0, so folgt −x > −y ≥ 0 und
53
KAPITEL 2. ELEMENTARE FUNKTIONEN
exp(x) = 1/ exp(−x) < 1/ exp(−y) = exp(y). Auf jeden Fall folgt also aus x < y auch exp(x) < exp(y).
Damit ist exp streng monoton wachsend und es gilt exp(R) ⊆ R+ .
Wir müssen noch zeigen, dass die Gleichung exp(x) = y für jedes y ∈ R+ eine Lösung x ∈ R besitzt.
Ferner genügt es, diesen Nachweis für y > 1 zu führen: für y = 1 können wir nämlich x = 0 wählen, für
0 < y < 1 folgt 1/y > 1 und wenn es ein x ∈ R gibt mit exp(x) = 1/y, so gilt exp(−x) = y.
Um zu zeigen, dass exp(x) = y für ein gegebenes y > 1 eine reelle Lösung besitzt, gehen wir ähnlich wie
im Nachweis der Existenz von Wurzeln in 1.§2.2.4 vor und verwenden dabei die Abschätzungen aus 2.1.
Wir setzen M := {ζ ∈ R : exp(ζ) ≤ y}. Dann ist M wegen 0 ∈ M nichtleer. Aus exp(y) ≥ 1 + y und der
schon bewiesenen Monotonie der Exponentialfunktion folgt, dass y eine obere Schranke für M ist. Nach
dem Vollständigkeitsaxiom (A9) existiert dann die reelle Zahl x := sup M . Wir zeigen nun exp(x) = y,
indem wir die zwei folgenden Fälle ausschließen.
Fall 1, es gilt exp(x) < y. Dann gibt es ein h ∈]0, 1[ mit exp(x)/(1 − h) < y und wir erhalten mit 2.1
exp(x + h) = exp(x) exp(h) <
exp(x)
< y.
1−h
Also ist x + h ∈ M und x kann nicht das Supremum von M sein. Damit tritt dieser Fall nicht ein.
Fall 2, es gilt exp(x) > y. Dann gibt es ein h ∈]0, 1[ mit exp(x)(1 − h) > y und es folgt aus 2.1
exp(x − h) =
exp(x)
> exp(x)(1 − h) > y.
exp(h)
Also ist x − h eine kleinere obere Schranke für M als x. Somit kann auch dieser Fall nicht eintreten.
2.3 Definition: natürlicher Logarithmus. Die auf R+ existierende Umkehrfunktion der Exponentialfunktion heißt Logarithmusfunktion, Logarithmus oder natürlicher Logarithmus und wird mit ln bezeichnet:
ln : R+ → R,
ln(x) := exp−1 (x) für x ∈ R+ .
Aus der Funktionalgleichung 1.2, den Schranken 2.1 und den Abbildungseigenschaften 2.2 der Exponentialfunktion im Reellen erhalten wir sofort entsprechende Eigenschaften des Logarithmus.
2.4 Funktionalgleichung des Logarithmus. Es gilt
x−1
ln(xy) = ln(x) + ln(y)
für x, y ∈ R+ .
Insbesondere gilt ln(1) = 0 und ln(e) = 1 sowie
ln( x1 ) = − ln(x) für x > 0.
2.5 Abbildungseigenschaften des Logarithmus.
Die Logarithmusfunktion bildet R+ bijektiv und streng
monoton wachsend auf R ab. Für alle x ∈ R gilt
ln(exp(x)) = x, für alle y ∈ R+ gilt exp(ln(y)) = y.
2.6 Schranken für den Logarithmus nahe bei Eins.
Für den Logarithmus gilt
1
1 − ≤ ln(x) ≤ x − 1
x
ln(x)
1
1−
1
x
1
-1
Abbildung 2.4: Logarithmusfunktion im
Reellen und Schranken im Intervall ]0, e[.
für x > 0.
2.7 Anwendungsbeispiel. Die Halbwertszeit T einer radioaktiven Substanz ist diejenige Zeit, nach
der die Hälfte der Substanz zerfallen ist. Es gilt also N0 /2 = N0 exp(−βT ), d.h. exp(−βT ) = 1/2. Durch
Logarithmieren erhalten wir −βT = ln(exp(−βT )) = ln(1/2) = ln(1) − ln(2) = − ln(2), d.h. T = ln(2)/β.
54
3
§2. EXPONENTIALFUNKTION UND VERWANDTE
Allgemeine Potenzen und Logarithmen
3.1 Vorbemerkung. Exponentialfunktion und Logarithmus zusammen machen das Rechnen mit Potenzen ungemein einfach. Wir verwenden sie, um endlich ganz allgemein Potenzen zu definieren. Hierzu
dient die Beziehung
xn = exp(n ln(x))
für x ∈ R+ und n ∈ Z,
welche zunächst für n ∈ N0 durch einen Induktionsbeweis folgt und dann mit der Funktionalgleichung
auf n ∈ Z übertragen wird. Die uns bekannten Potenzen mit ganzzahligem Exponenten lassen sich daher
durch die Exponentialfunktion und den Logarithmus ausdrücken. Der Ausdruck exp(n ln(x)) ist aber
nicht nur für n ∈ Z und x ∈ R+ , sondern für beliebige n ∈ C definiert. Darum können wir nun Potenzen
mit beliebigen Exponenten definieren. Dafür muss die Basis jetzt aus R+ stammen.
3.2 Allgemeine Potenz. Für eine reelle Zahl a > 0 und eine reelle oder komplexe Zahl z heißt
az := exp(z ln(a))
die z-te Potenz von a. Die Zahl a wird Basis, die Zahl z Exponent genannt.
Gleichzeitig rechtfertigt dies die Schreibweise
exp(z) = ez
für z ∈ C.
Die allgemeine Exponentialfunktion z 7→ az , z ∈ C, verhält sich im Reellen für a > 1 wie exp, für
0 < a < 1 wie 1/ exp.
8
exp
ã
( 14 )x
1
6
( 32 )x
3x
ln
1
4
ã
2
-4
-2
2
4
Abbildung 2.5: Graphen von Exponentialfunktion und natürlichem Logarithmus, sowie von einigen allgemeinen Exponentialfunktionen x 7→ ax .
Die Funktionalgleichungen für Exponentialfunktion und Logarithmus liefern uns sofort folgende Regeln.
3.3 Rechenregeln für Potenzen. Für beliebige a, b ∈ R+ gilt
(a) az+w = az aw , (az )w = azw und (ab)z = az bz für alle z, w ∈ C.
(b) Aus a < b folgt ax < bx falls x ∈ R+ und ax > bx falls x ∈ R− .
3.4 Potenzschreibweise für Wurzeln. Für a > 0 und n ∈ N setzen wir x = a1/n , d.h. x = eln(a)/n .
Dann gilt x > 0 und mit den Rechenregeln 3.3 folgt
xn = a. Nach 1.§2.2.4 hat diese Gleichung aber nur
√
n
eine nichtnegative Lösung — und die haben wir a genannt. Daher gilt
√
n
a = a1/n
für a ∈ R+ und n ∈ N.
55
KAPITEL 2. ELEMENTARE FUNKTIONEN
3.5 Allgemeine Logarithmen. Die auf R+ existierende Umkehrfunktion der allgemeinen Exponentialfunktion x 7→ ax für ein a ∈ R+ r {1}, heißt Logarithmus zur Basis a und wird mit loga bezeichnet.
Aus ax = exp(x ln(a)) für x ∈ R erhalten wir durch Anwenden der Umkehrfunktion x = loga (exp(x ln(a)))
und durch Ersetzen von x durch ln(y)/ ln(a) dann
loga (y) =
ln(y)
ln(a)
für y ∈ R+ .
Gebräuchliche Schreibweisen sind log10 = lg (dekadischer Logarithmus) und log2 = ld (Logarithmus
dualis). Oftmals wird der natürliche Logarithmus ln auch mit log bezeichnet.
3.6 Anmerkung. Wenn man sich mit allgemeinen Potenzen und Logarithmen nicht sicher fühlt, so
ersetze man az = exp(z ln(a)) bzw. loga (y) = ln(y)/ ln(a) und rechne anschließend mit den Funktionalgleichungen für exp und ln weiter.
3.7 Logarithmische graphische Darstellung. Zur graphischen Darstellung von schnell wachsenden
oder fallenden Funktionen bzw. zur Darstellung großer Definitions- oder Zielbereiche verwendet man
in der Physik gerne statt der linearen eine logarithmische Achseneinteilung, d.h. es werden nicht die
Einheiten k ∈ Z, sondern 10k , k ∈ Z, äquidistant angetragen. Eine logarithmische Achseneinteilung kann
dann nur zur Darstellung positiver Zahlen verwendet werden.
−5
−4
−3
−2
−1
10−5 10−4 10−3 10−2 10−1
0
1
2
3
4
1
101
102
103
104
5
105
Abbildung 2.6: Lineare (oben) und logarithmische Achseneinteilung (unten).
Je nachdem, ob man diese Achseneinteilung für die abhängige, für die unabhängige oder für beide Variablen wählt, spricht man von linear-logarithmischer , logarithmisch-linearer oder logarithmisch-logarithmischer Darstellung.
100
1
100
10
0.5
10
1
10
−x
0
-2
-1
0
1
2
linear-logarithmisch
x2
1
0.1
-0.5
0.1
0.01
lg(x)
-1
0.10.2 0.5 1
2
5 10
logarithmisch-linear
0.01
0.10.2 0.5 1
2
5 10
logarithmisch-logarithmisch
Abbildung 2.7: Die drei verschiedenen logarithmischen graphischen Darstellungen.
4
Hyperbelfunktionen
4.1 Cosinus und Sinus Hyperbolicus. Die Zerlegung der Exponentialfunktion in einen geraden und
einen ungeraden Anteil gemäß §1.3.4 nennen wir Cosinus Hyperbolicus bzw. Sinus Hyperbolicus
cosh : C → C,
cosh(z) :=
ez + e−z
,
2
sinh : C → C,
sinh(z) :=
ez − e−z
.
2
56
§2. EXPONENTIALFUNKTION UND VERWANDTE
cosh
sinh
1
1 x
2e
-1
1
− 12 e−x
-1
1 −x
2e
1
1 x
2e
-1
1
Abbildung 2.8: Graphen von Cosinus und Sinus Hyperbolicus im Reellen.
In der Mechanik tritt der Cosinus Hyperbolicus bei der Beschreibung des Durchhangs von Ketten oder
Seilen unter Einfluss der Schwerkraft auf. Sein Graph wird darum auch Kettenlinie oder Katenoide
genannt.
4.2 Reihendarstellung. Aus der Reihendarstellung für die Exponentialfunktion erhalten wir sofort
cosh(z)
sinh(z)
=
=
∞
X
z 2k
1
1
= 1 + z2 + z4 + · · ·
(2k)!
2
24
k=0
∞
X
k=0
für z ∈ C,
z 2k+1
1
1 5
= z + z3 +
z + ···
(2k + 1)!
6
120
für z ∈ C.
4.3 Additionstheorem. Die Funktionalgleichungen (auch Additionstheorem genannt)
cosh(z + w)
=
cosh(z) cosh(w) + sinh(z) sinh(w)
für z, w ∈ C,
sinh(z + w)
=
sinh(z) cosh(w) + cosh(z) sinh(w)
für z, w ∈ C
für den Cosinus Hyperbolicus und den Sinus Hyperbolicus verifizieren wir sofort mit Hilfe der Funktionalgleichung für die Exponentialfunktion. Beispielsweise gilt
cosh(z) cosh(w) + sinh(z) sinh(w)
ez + e−z ew + e−w
ez − e−z ew − e−w
=
+
2
2
2
2
ez+w + ez−w + e−z+w + e−z−w
ez+w − ez−w − e−z+w + e−z−w
=
+
4
4
ez+w + e−(z+w)
=
= cosh(z + w).
2
4.4 Weitere Identitäten. Ebenso einfach können wir die beiden Identitäten
cosh2 (z) − sinh2 (z) = 1,
cosh(z) + sinh(z) = exp(z)
für z ∈ C
und die Verdoppelungsformeln
cosh(2z) = 2 cosh2 (z) − 1,
herleiten.
sinh(2z) = 2 sinh(z) cosh(z)
für z ∈ C
57
KAPITEL 2. ELEMENTARE FUNKTIONEN
4.5 Monotonieverhalten und Umkehrfunktionen im Reellen. Im Reellen ist x 7→ ex und damit
auch x 7→ −e−x streng monoton steigend. Dies gilt dann auch für den sinh. Aus 0 ≤ x < y folgt x2k < y 2k
für beliebige k ∈ N. Aus der Reihendarstellung 4.2 für cosh(x) lesen wir nun ab, dass cosh in R+
0 streng
monoton wächst. Als gerade Funktion muss cosh dann in R−
streng
monoton
fallen.
0
Wir zeigen nun, dass die Gleichung sinh(x) = y für jedes y ∈ R eine Lösung besitzt (wegen der Monotonie
muss selbige dann eindeutig bestimmt sein). Aus
⇔ ex − e−x = 2y ⇔ 0 = e2x − 2yex − 1 = (ex − y)2 − y 2 − 1 ⇔ (ex − y)2 = y 2 + 1
p
p
⇔ ex = y + y 2 + 1 oder ex = y − y 2 + 1
p
p
p
erhalten wir x = ln(y + y 2 + 1), der zweite Kandidat fällt wegen y − y 2 + 1 < y − y 2 < 0 < ex
weg. Damit bildet der Sinus Hyperbolicus R streng monoton wachsend und bijektiv auf sich selbst ab.
Die Umkehrfunktion
p
für y ∈ R,
arsinh : R → R,
arsinh(y) := ln y + y 2 + 1
sinh(x) = y
wird mit Areasinus Hyperbolicus bezeichnet.
Analog zeigt man, dass cosh die nichtnegativen reellen Zahlen streng monoton steigend und bijektiv auf
[1, +∞[ abbildet. Als Umkehrfunktion erhält man den Areacosinus Hyperbolicus
p
arcosh : [1, +∞[→ R+
arcosh(y) := ln y + y 2 − 1
für y ∈ [1, +∞[.
0,
4.6∗ Tangens und Cotangens Hyperbolicus. Die Gruppe der Hyperbelfunktionen wird vervollständigt durch den Tangens Hyperbolicus und den Cotangens Hyperbolicus
tanh : C r {z ∈ C | cosh(z) 6= 0} → C,
coth : C r {z ∈ C | sinh(z) 6= 0} → C,
sinh(z)
,
cosh(z)
cosh(z)
coth(z) :=
.
sinh(z)
tanh(z) :=
Wie die beiden Definitionsbereiche genau aussehen, wird sich in Abschnitt 5 klären.
tanh
coth
1
-1
1
1
-1
-1
1
-1
Abbildung 2.9: Graphen von Tangens und Cotangens Hyperbolicus im Reellen.
Man zeige als Übung, dass tanh |R eine streng monoton wachsende Bijektion von R auf ]−1, 1[ ist, während
coth |Rr{0} eine streng monoton fallende Bijektion von R− auf ]−∞, −1[ bzw. von R+ auf ]1, +∞[ ist. Die
Umkehrfunktionen werden Areatangens Hyperbolicus (artanh) bzw. Areacotangens Hyperbolicus (arcoth)
genannt.
58
5
§2. EXPONENTIALFUNKTION UND VERWANDTE
Exponentialfunktion im Komplexen und trigonometrische Funktionen
5.1 Vorbemerkung. Um das Abbildungsverhalten der Exponentialfunktion im Komplexen zu verstehen, verwenden wir die Funktionalgleichung in der Form
exp(x + iϕ) = ex eiϕ
für x, ϕ ∈ R.
Da wir das Abbildungsverhalten von x 7→ ex im Reellen schon kennen, müssen wir uns nur noch um
ϕ 7→ eiϕ kümmern.
Wegen
exp(z) =
∞
X
zk
k=0
k!
=
∞
X
zk
k=0
= exp(z)
k!
für z ∈ C
gilt insbesondere eiϕ = e−iϕ , d.h.
|eiϕ | = 1
für ϕ ∈ R.
5.2 Cosinus und Sinus. Cosinus und Sinus werden definiert durch
cos : C → C,
cos(z) :=
eiz + e−iz
,
2
sin : C → C,
sin(z) :=
eiz − e−iz
.
2i
Mit den bekannten Formeln für Real- und Imaginärteil gilt also
cos ϕ = Re(eiϕ ),
sin ϕ = Im(eiϕ )
für ϕ ∈ R
und aus |eiϕ | = 1 folgt
−1 ≤ cos ϕ, sin ϕ ≤ 1
für ϕ ∈ R.
Wir schreiben hierbei cos ϕ statt cos(ϕ) etc., falls keine Missverständnisse zu befürchten sind.
5.3 Eulersche Formel und Kreisgleichung. Aus der Definition von Cosinus und Sinus erhalten wir
unmittelbar die Eulersche Formel
eiz = cos z + i sin z
für z ∈ C
sowie nach kurzer Rechnung die Kreisgleichung
cos2 z + sin2 z = 1
für z ∈ C.
5.4 Zusammenhang mit den Hyperbelfunktionen.
cos(z) = cosh(iz),
sin(z) = −i sinh(iz)
für z ∈ C.
5.5 Additionstheorem. Durch Umrechnung erhalten wir aus dem Additionstheoremen für cosh bzw.
sinh die Analoga für Cosinus und Sinus zu
cos(z + w)
=
cos(z) cos(w) − sin(z) sin(w)
für z, w ∈ C,
sin(z + w)
=
sin(z) cos(w) + cos(z) sin(w)
für z, w ∈ C
und ebenso diverse weitere Identitäten sowie Reihendarstellungen.
5.6 Winkelverdoppelungs- und Halbwinkelformel.
cos(2z) = 2 cos2 (z) − 1,
cos2
z 2
=
1 + cos(z)
,
2
sin(2z) = 2 sin(z) cos(z)
sin2
z 2
=
1 − cos(z)
2
für z ∈ C.
für z ∈ C.
59
KAPITEL 2. ELEMENTARE FUNKTIONEN
5.7 Weitere Identitäten.
cos z − cos w
sin z − sin w
z+w
z−w
= −2 sin
sin
2
2
z+w
z−w
= 2 cos
sin
2
2
für z, w ∈ C,
für z, w ∈ C.
5.8 Reihendarstellung.
cos z
sin z
∞
X
(−1)k
=
k=0
∞
X
=
k=0
(2k)!
1
1
z 2k = 1 − z 2 + z 4 ∓ · · ·
2
24
für z ∈ C,
1
1 5
(−1)k 2k+1
z
= z − z3 +
z ∓ ···
(2k + 1)!
6
120
für z ∈ C.
5.9 Schranken für Cosinus und Sinus im Reellen nahe bei Null. In 1.§4.2.7 haben wir aus dem
Leibniz-Kriterium die Schranken
1−
ϕ2
ϕ4
ϕ2
≤ cos ϕ ≤ 1 −
+
2
2
24
√
√
für − 2 3 < ϕ < 2 3
hergeleitet. Analog zeigt man
ϕ−
ϕ3
≤ sin ϕ ≤ ϕ
6
für 0 ≤ ϕ <
ϕ ≤ sin ϕ ≤ ϕ −
ϕ3
6
für −
√
√
6,
6 < ϕ < 0.
Die genaue Größe der Intervalle, in denen diese Abschätzungen gelten, ist eigenlich nicht so wichtig. In
der Praxis verwendet man sie sowieso nur nahe bei Null. Dort sind sie gut, wie Abbildung 2.10 suggeriert.
ϕ
1−
cos ϕ
1
-2
-1
1
2
-1
ϕ2
2
+
ϕ4
24
sin ϕ
1
-2
-1
1
-1
1−
2
ϕ−
ϕ3
6
ϕ2
2
Abbildung 2.10: Schranken für Cosinus und Sinus im Reellen nahe bei Null.
5.10 Kreiszahl. Gemäß 5.9 gilt cos(0) = 1, cos(2) < 0 und der Sinus ist in [0, 2] positiv. Mit 5.7 erhalten
wir dann cos ϕ − cos ψ < 0 für 0 ≤ ϕ < ψ ≤ 2. Also ist der Cosinus in [0, 2] streng monoton fallend und
wechselt sein Vorzeichen. Aus dem Zwischenwertsatz 4.§2.4.2 (oder mit Hilfe des Vollständigkeitsaxioms
(A9)) kann man hieraus die Existenz einer Nullstelle des Cosinus in ]0, 2[ folgern.
Die Kreiszahl π ist das Doppelte der kleinsten positiven Nullstelle des Cosinus.
60
§2. EXPONENTIALFUNKTION UND VERWANDTE
Aus der Kreisgleichung 5.3 erhalten wir sin2 (π/2) = 1 und mit sin ϕ > 0 für ϕ ∈]0, 2[ dann sin(π/2) = 1.
Die Eulersche Formel 5.3 liefert uns nun eiπ/2 = i. Mit den Funktionalgleichungen 5.5 erhalten wir
z
π
π
2
i −1
0 −1
1
0
0
exp(iz) 1
cos(z) 1
sin(z) 0
3π
2π
2
−i
1
0
1
−1
0
sowie die folgenden Verschiebungssätze.
5.11 Verschiebungssätze.
exp(z + i π2 )
cos(z + π2 )
sin(z + π2 )
exp(z + iπ) = − exp(z),
cos(z + π) = − cos(z),
sin(z + π) = − sin(z),
= i exp(z),
= − sin(z),
= cos(z),
exp(z + 2iπ) = exp(z),
cos(z + 2π) = cos(z),
sin(z + 2π) = sin(z).
Hieraus leiten sich die folgenden Aussagen über die Periodizität von Cosinus, Sinus und Exponentialfunktion sowie über das Monotonieverhalten von Cosinus und Sinus im Reellen her.
5.12 Perioden von Cosinus und Sinus. Cosinus und Sinus sind periodisch. Jede Periode ist ein
ganzzahliges Vielfaches von 2π.
cos(z + 2kπ) = cos(z),
sin(z + 2kπ) = sin(z)
für k ∈ Z.
5.13 Perioden der Exponentialfunktion. Die Exponentialfunktion ist periodisch. Jede Periode ist
ein ganzzahliges Vielfaches von 2πi.
e2kπi = 1
für k ∈ Z.
5.14 Monotonieverhalten von Cosinus und Sinus im Reellen. Der Cosinus bildet das Intervall
[0, π] streng monoton fallend auf das Intervall [−1, 1] ab. Der Sinus bildet das Intervall [−π/2, π/2] streng
monoton wachsend auf das Intervall [−1, 1] ab.
1
1
cos
-3 Π -2 Π
-Π
Π
sin
2Π
3Π
-3 Π -2 Π
-Π
-1
Π
2Π
3Π
-1
Abbildung 2.11: Cosinus und Sinus im Reellen.
5.15 Umkehrfunktionen von Cosinus und Sinus im Reellen. Die Umkehrfunktion des Cosinus
im Reellen
arccos : [−1, 1] → [0, π],
arccos(y) := (cos |[0,π] )−1 (y)
für y ∈ [−1, 1]
heißt Arcuscosinus. Natürlich kann der Cosinus auch auf einem anderen Teilintervall I ⊂ R umgekehrt
werden, auf dem er monoton ist, z.B. auf [π, 2π]. Um die dort definierte Umkehrfunktion (cos |[π,2π] )−1
von der eben definierten zu unterscheiden, nennt man obige auch den Hauptzweig des Arcuscosinus.
61
KAPITEL 2. ELEMENTARE FUNKTIONEN
Die Umkehrfunktion des Sinus im Reellen
arcsin(y) := (sin |[−π/2,π/2] )−1 (y)
arcsin : [−1, 1] → [−π/2, π/2],
für y ∈ [−1, 1]
heißt Arcussinus oder Hauptzweig des Arcussinus. Für die Umkehrbarkeit auf anderen Teilintervallen als
[−π/2, π/2] gilt das zuvor Gesagte.
Π
€€€€€
2
arccos
Π
arcsin
1
sin
Π
- €€€€€
2
1
-1
1
Π
€€€€€
2
-1
-1
1
Π
Π
- €€€€€
2
cos
-1
Abbildung 2.12: Hauptzweige des Arcuscosinus und des Arcussinus im Reellen.
Auf R selbst oder anderen „großen“ Teilmengen von D ⊂ C kann man den Cosinus und den Sinus nicht
umkehren — außer man ersetzt die Wertemenge cos(D) bzw. sin(D) durch eine größere, in der man die
zunächst gleichen Werte an verschiedenen Stellen doch unterscheiden kann. Das zugehörige mathematische
Konzept heißt „Riemannsche Fläche“. Im Fall der Exponentialfunktion (wo sich ein ähnliches Problem
stellt) werden wir in 5.17 kurz darauf eingehen.
5.16 Polarkoordinaten. Zu jeder Zahl z ∈ C mit |z| = 1 gibt es genau ein ϕ ∈ [0, 2π[ mit eiϕ = z.
Beweis. Für z = x+iy ∈ C mit kartesischen Koordinaten (x, y) folgt 1 = |z|2 = x2 +y 2 , d.h. insbesondere
−1 ≤ x, y ≤ 1. Das Monotonieverhalten des Cosinus zeigt, dass die Gleichung cos ϕ = x in [0, π[ bzw.
in [π, 2π[ jeweils genau eine Lösung besitzt. Aus der Kreisgleichung erhalten wir dann y 2 = 1 − x2 =
1 − cos2 ϕ = sin2 ϕ. Von den beiden obigen Lösungen erfüllt wegen der Monotonie des Sinus und wegen
sin([0, π[= [0, 1] bzw. sin(]π, 2π[= [−1, 0[ genau eine y = sin ϕ, die andere dann y = − sin ϕ.
Zu jeder komplexen Zahl z 6= 0 gibt es genau ein r > 0 und ein ϕ ∈ [0, 2π[ mit
z = reiϕ .
Die Darstellung heißt Polarkoordinatendarstellung von z. Wir nennen
r = |z|
und
ϕ := arg(z)
den Radius bzw. das Argument von z.
Beweis. Für z 6= 0 gilt z = |z| · z/|z| und z/|z| hat den Betrag 1, d.h. nach dem vorher Gesagten eine
eindeutige Darstellung der Form z/|z| = eiϕ mit ϕ ∈ [0, 2π[.
Wir stellen uns arg(z) als den Winkel vor, den z mit der positiven reellen Achse einschließt.
Wegen der Periodizität der Exponentialfunktion gilt dann auch
z = reiϕ+2πik
für beliebige k ∈ Z.
62
§2. EXPONENTIALFUNKTION UND VERWANDTE
Man nennt daher auch ϕ = arg(z) den Hauptzweig des Arguments von z.
Die Umrechnung von Polarkoordinaten reiϕ in kartesische Koordinaten (x, y) = x + iy erfolgt mittels
x = Re(reiϕ ) = r cos ϕ,
y = Im(reiϕ ) = r sin ϕ.
Für die Umrechnung von kartesischen in Polarkoordinaten bildet man

arccos √ 2x 2
p
x +y
2
2
r = |x + iy| = x + y ,
ϕ = arg(x + iy) =
2π − arccos √
für y ≥ 0,
x
x2 +y 2
für y < 0,
5.17 Abbildungsverhalten der Exponentialfunktion im Komplexen. Für eine komplexe Zahl
z = x + iy, x, y ∈ R, gilt exp(z) = ex eiy und x 7→ ex ist eine Bijektion von R auf ]0, +∞[. Damit bildet
die Exponentialfunktion
• jede Parallele {x + iy | x ∈ R} zur reellen Achse bijektiv auf eine Ursprungshalbgerade ab, die mit
der positven reellen Achse den Winkel y einschließt,
• jede zur imaginären Achse parallele Strecke {x + iy | y0 ≤ x < y0 + 2π} der Länge 2π bijektiv auf
einen Kreis um den Ursprung mit Radius ex ab.
Wir können uns dieses Abbildungsverhalten gut vorstellen, indem wir je ein Exemplar der Zahlenebene
für den Definitions- und den Zielbereich nebeneinanderlegen und einzeichnen, wie ein achsenparalleles
Gitter im Definitionsbereich in den Zielbereich abgebildet wird. Offensichtlich wird dabei das Gitter
winkelerhaltend (man sagt konform) abgebildet.
2Π i
10i
Π i
-1
exp
1
-10
10
-Π i
-2Π i
-10i
Abbildung 2.13: Abbildungsverhalten der Exponentialfunktion im Komplexen.
Die Exponentialfunktion bildet den Parallelstreifen {x + iy ∈ C : x ∈ R, y ∈ [0, 2π[} und jeden anderen
zur reellen Achse parallelen Parallelstreifen der Breite 2π bijektiv auf C r {0} ab.
5.18∗ Logarithmus im Komplexen. Auf ganz C gesehen ist also exp nicht bijektiv, sondern nimmt
jeden Wert in C r {0} unendlich oft an. Aus diesem Grund waren wir in §2.2 bescheiden und haben
den Logarithmus zunächst nur im Reellen eingeführt. Da die Exponentialfunktion den Parallelstreifen
P0 := {x + iy ∈ C | 0 ≤ y < 2π} bijektiv auf C r {0} abbildet, können wir den Logarithmus nun in
Komplexe fortsetzen durch
ln : C r {0} → P0 ⊂ C,
ln(z) := ln |z| + i arg(z),
63
KAPITEL 2. ELEMENTARE FUNKTIONEN
hierbei ist ln |z| gerade der aus dem Reellen bekannte Logarithmus von |z| > 0 und arg(z) der Hauptzweig
des Arguments von z. Wir nennen diese Funktion ln darum auch Hauptzweig des Logarithmus.
√
Beispiel. Wir erhalten ln(1 + i) aus der Polarkoordinatendarstellung 1 + i = 2eiπ/4 zu
ln(1 + i) = ln
√
2+i
π
ln 2
π
=
+i .
4
2
4
Als Ausblick wollen wir skizzieren, wie man sich den (nach dem zuvor Gesagten zunächst aussichtslosen)
Wunsch erfüllen kann, die Exponentialfunktion auf ganz C umzukehren.
Wir zerlegen hierzu den Definitionsbereich C der Exponentialfunktion gedanklich in Parallelstreifen
Pk := {x + iy ∈ C | x ∈ R, y ∈ [2kπ, 2(k + 1)π[} und ordnen jedem solchen Parallelstreifen als Bild
ein eigenes Exemplar von C r {0} zu. Wir erhalten eine Funktion Exp mit verändertem Wertebereich, die
dafür bijektiv ist. Der Tatsache, dass die Parallelstreifen Pk aneinandergeheftet ganz C ergeben, tragen
wir dadurch Rechnung, dass wir die jeweiligen Bildexemplare C r {0} in Form einer unendlichen Wendeltreppe aneinanderheften. Das ist — grob gesagt — ein Modell der zur Exponentialfunktion Exp : C → C
gehörigen Riemannschen Fläche C.
2Πi
Exp
-
-1 1
Ln
-2Πi
C
C
Abbildung 2.14: Riemannsche Fläche zu Exponentialfunktion und Logarithmus.
Nun erhalten wir auch eine Umkehrabbildung Ln : C → C, Ln := Exp−1 der Exponentialfunktion im
Komplexen, deren Zuordnungsvorschrift (z, k) 7→ Ln(z, k) = ln |z| + i arg z + 2πik, k ∈ Z, davon abhängt,
auf welchem Blatt der Riemannschen Fläche C wir uns gerade befinden. Dies trägt formal der Tatsache
Rechnung, dass Exp(Ln(z)) = eln |z|+i arg z+2πik = |z|ei arg z e2kπi = z für jedes k ∈ Z.
5.19 Bogenlänge von Kreisbögen, Bogenmaß. Unsere Definition von π in 5.10 als das Doppelte
der kleinsten postiven Nullstelle des Cosinus wirkt unnatürlich. Sie war auf eine effektive Behandlung
des umfangreichen Formelapparats für exp, cos und sin zugeschnitten. Dafür erhalten wir allerdings alle
Formeln für Cosinus und Sinus in einfacher Weise. Nun wollen wir uns die geometrische Bedeutung von π
kurz ansehen.
Für gegebenes r > 0 und α > 0 ist die Länge des Kreisbogens {reiϕ | 0 ≤ ϕ ≤ α} gerade rα. Insbesondere
hat die Kreislinie mit Radius r die Länge 2rπ.
Für einen Beleg dieser Aussage müssen wir zunächst erklären, wie wir die Länge eines Kreisbogens
γα := {reiϕ | 0 ≤ ϕ ≤ α} ⊂ C
64
§2. EXPONENTIALFUNKTION UND VERWANDTE
messen wollen. Zunächst können wir nur die Länge einer Strecke problemlos messen. Hat selbige die
Endpunkte z, w ∈ C, so erhalten wir als Länge |z − w|. Wir approximieren nun den Kreisbogen γα , indem
wir auf ihm äquidistant n + 1 Teilpunkte reiαk/n , k = 0, 1, 2, . . . , n, einfügen und deren Längen addieren.
Wir erhalten
lα,n
:=
n
X
|reiαk/n − reiα(k−1)/n | =
k=1
=
n
X
k=1
n
X
k=1
r |eiα(2k−1)/(2n) | |eiα/(2n) − e−iα/(2n) |
{z
}
|
=1
iα/(2n)
α e
− e−iα/(2n) =
2rn
2r sin
.
2i
2n
Gemäß der Abschätzungen 1 − ϕ2 /6 < | sinϕ ϕ | ≤ 1 in 5.9 für
den Sinus nahe bei Null gilt
α
α
' 2rn
lα,n = 2rn sin
= rα
für n → ∞.
2n
2n
reiα2/n
reiα
reiα/n
α
Also sollten wir dem Kreisbogen γα die Länge rα zuordnen.
r
Wegen dieses Zusammenhangs zwischen Länge eines Bogens
auf dem Einheitskreis und zugehörigen Winkel misst man Winkel auch im Bogenmaß (Radiant). Ein Vollwinkel misst dann
2π, ein rechter Winkel π/2. Die Umrechnung von Gradmaß
(wo ein Vollwinkel 360◦ misst) in Bogenmaß erfolgt mittels
αgrad =
Abbildung 2.15: Approximation an einen
Kreisbogen und Winkel im Bogenmaß.
360◦
αrad .
2π
5.20 Tangens und Cotangens. Tangens und Cotangens werden definiert durch
sin(z)
2i
= 2iz
− i,
cos(z)
e +1
2i
cos(z)
= 2iz
+ i.
cot(z) :=
sin(z)
e −1
tan : {z ∈ C|z 6= kπ + π2 , k ∈ Z} → C,
tan(z) :=
cot : {z ∈ C|z 6= kπ, k ∈ Z} → C,
5.21 Zusammenhang mit Hyperbelfunktionen.
π
,k∈Z
2
für z ∈ C, z =
6 kπ, k ∈ Z
tan(z) = −i tanh(iz),
für z ∈ C, z 6= kπ +
cot(z) = i coth(iz)
5.22 Additionstheorem.
tan(z + w) =
tan(z) + tan(w)
,
1 − tan(z) tan(w)
cot(z + w) =
cot(z) cot(w) − 1
.
cot(z) + cot(w)
5.23 Perioden von Tangens und Cotangens. Tangens und Cotangens sind periodisch. Jede Periode
ist ein ganzzahliges Vielfaches von π.
tan(z + kπ) = tan(z),
cot(z + kπ) = cot(z)
für k ∈ Z.
5.24 Monotonieverhalten von Tangens und Cotangens im Reellen. Der Tangens bildet das
Intervall ] − π/2, π/2[ streng monoton wachsend auf R ab. Der Cotangens bildet das Intervall ]0, π[ streng
monoton fallend auf R ab.
65
KAPITEL 2. ELEMENTARE FUNKTIONEN
tan
cot
1
-Π
1
Π
-1
-Π
Π
-1
Abbildung 2.16: Tangens und Cotangens im Reellen.
5.25 Umkehrfunktionen von Tangens und Cotangens im Reellen. Die Umkehrfunktionen des
Tangens bzw. des Cotangens im Reellen
arctan : R →] − π/2, π/2[, arctan := (tan |]−π/2,π/2[ )−1 ,
arccot : R →]0, π[, arccot := (cot |]0,π[ )−1
heißen (Hauptzweige des) Arcustangens bzw. Arcuscotangens.
tan
Π
€€€€€
2
1
Π -1
- €€€€€
2
-1
Π
- €€€€€
2
Π
arctan
cot
arccot
1
1 Π
€€€€€
2
-Π
-1
1
Π
-1
-Π
Abbildung 2.17: Hauptzweige des Arcustangens und des Arcuscotangens im Reellen.
ϕ(6−ϕ2 )
3(2−ϕ2 )
5.26 Schranken für den Tangens im Reellen
nahe bei Null. Aus den Schranken 5.9 für Cosinus
und Sinus erhalten wir
ϕ ≤ tan ϕ ≤
ϕ(6 − ϕ2 )
3(2 − ϕ2 )
für 0 ≤ ϕ <
√
2.
5.27 Schlussbemerkung. Man sollte sich von der
Fülle an Informationen in diesem Paragraphen eher
faszinieren als einschüchtern lassen. Alles fließt im
Wesentlichen aus der Exponentialreihe, der Funktionalgleichung der Exponentialfunktion und dem Umgang mit komplexen Zahlen und Reihen.
1
Π
- €€€€€
2
-1
ϕ
tan
Π
€€€€€
2
Abbildung 2.18: Schranken für den Tangens im Reellen nahe bei Null.
66
§3
§3. ALGEBRAISCHE FUNKTIONEN
Algebraische Funktionen
In diesem Paragraphen lernen wir die wichtigsten Techniken für den Umgang mit Polynomen und rationalen Funktionen kennen. Wir werden sie ausführlich behandeln, weil in der Operatortheorie z.B. für
Differentialoperatoren vergleichbare Techniken angewendet werden. Wir werden sehen, dass das Rechnen
mit diesen Funktionen stark an das Rechnen mit ganzen Zahlen bzw. rationalen Zahlen erinnert.
1
Polynome
1.1 Reelle und komplexe Polynome. Gegeben seien n + 1 Zahlen a0 , a1 , . . . , an ∈ C. Dann heißt
p(x) := an xn + · · · + a1 x + a0
p : C → C,
ein (komplexes) Polynom mit Koeffizienten a0 , a1 , . . . , an . Sind alle Koeffizienten reelle Zahlen, so nennt
man p ein reelles Polynom.
Gerade bei reellen Polynomen wählt man zunächst instinktiv R als Definitionsbereich. Wir werden aber
sehen, dass auch für reelle Polynome oftmals der „Weg ins Komplexe“ — d.h. die Wahl von C als Definitionsbereich — vieles einfacher macht.
Einfache Polynome sind die konstanten Funktionen und die identische Abbildung.
1.2 Grad eines Polynoms. Ist p(x) = an xn + · · · + a1 x + a0 ein Polynom mit an 6= 0, so nennen wir
Grad(p) := n den Grad von p und an den Leitkoeffizient.
Das Nullpolynom hat keinen Grad, konstante Polynome haben den Grad 0 und es gilt Grad(id) = 1.
1.3 Zusammensetzen von Polynomen. Alle Polynome entstehen durch Addition und Multiplikation
von Funktionen aus der identischen Abbildung und den konstanten Funktionen. Mit p und q sind also
auch p + q und pq Polynome. Für p, q, p + q 6= 0 gilt
Grad(p + q) ≤ max{Grad(p), Grad(q)},
Grad(pq) = Grad(p) + Grad(q).
Für die Summe mache man sich an einem Beispiel klar, dass p + q u.U. tatsächlich kleineren Grad als p
und q haben kann. Für das Produkt von p(x) = an xn + · · · + a1 x + a0 und q(x) = bm xm + · · · + b1 x + b0
erhält man den Grad aus
p(x) · q(x)
= an bm xn+m + (an bm−1 + an−1 bm )xn+m−1 + · · · + (a1 b0 + a0 b1 )x + a0 b0


n+m
X
X

=
aµ bν  xk .
k=0
µ+ν=k
1.4∗ Horner-Schema. Will man ein Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ∈ N an einer
Stelle x auswerten, so können die zunächst n + (n − 1) + · · · + 1 = n(n + 1)/2 anfallenden Multiplikationen
durch das Horner-Schema
p(x) = (· · · ((an x + an−1 )x + an−2 )x + · · · )x + a0
auf n Multiplikationen reduziert werden.
1.5 Polynomdivision mit Rest. Sind p1 und p2 zwei Polynome mit Grad(p2 ) ≥ 1, so existieren
eindeutig bestimmte Polynome q und r mit
p1 = q · p2 + r
und
Grad(r) < Grad(p2 ) oder r = 0.
67
KAPITEL 2. ELEMENTARE FUNKTIONEN
Die Bestimmung von q und r erfolgt analog zur schriftlichen Division. Statt eines allgemeinen Beweises
erläutern wir den zugehörigen Algorithmus an einem Beispiel.
p1 (x) := x6 + 4x5 − 3x4 − 14x3 + x2 + 1,
(x6 + 4x5 − 3x4 − 14x3 + x2
x6
− 3x4
4x5
4x5
+ 1) : (x2 − 3) = x4 + 4x3 − 2x + 1
↑
− 14x3 + x2
− 12x3
−
−
3
2x + x
2x3
p2 (x) := x2 − 3.
+ 1
↑
2
+ 1
↑
+ 6x
x2 − 6x + 1
x2
− 3
↑
Rest: − 6x + 4
Damit gilt p1 (x) = (x4 + 4x3 − 2x + 1)p2 (x) − 6x + 4.
Dieser Divisionsalgorithmus führt nach maximal Grad(p1 ) + 1 Schritten immer zum Ziel. Hätte man zwei
verschiedene Ergebnisse p2 q1 + r1 = p1 = p2 q2 + r2 , so wäre p2 (q1 − q2 ) = r2 − r1 mit q1 6= q2 und die linke
Seite hätte mindestens den Grad von p2 , während die rechte einen kleineren Grad als p2 haben müsste.
Also muss q1 = q2 und r1 = r2 gelten.
1.6 Teilbarkeit von Polynomen. Geht die Polynomdivision von p1 durch p2 auf, d.h. bleibt als Rest
das Nullpolynom, so sagen wir, dass p2 ein Teiler von p1 ist und schreiben p2 | p1 .
Wegen x2 − 4 = (x − 2)(x + 2) gilt beispielsweise x − 2 | x2 − 4.
Man verifiziere selbst, das wir Regeln für Teiler erhalten, wie wir sie von den ganzen Zahlen kennen.
(a) Aus p3 | p2 und p2 | p1 folgt p3 | p1 .
(b) Aus p | p1 und p | p2 folgt p | q1 p1 + q2 p2 für beliebige Polynome q1 und q2 .
(c) Aus p2 | p1 und p1 6= 0 folgt Grad(p2 ) ≤ Grad(p1 ).
(d) Gilt p2 | p1 und p1 | p2 , so folgt p1 = cp2 mit einer Zahl c 6= 0.
Wir nennen zwei Polynome p1 , p2 6= 0 teilerfremd , wenn aus p | p1 und p | p2 folgt, dass p konstant ist.
1.7 Nullstellen von Polynomen. Eine (reelle oder komplexe) Zahl λ heißt Nullstelle eines Polynoms p,
falls p(λ) = 0.
Genau dann ist λ eine Nullstelle von p, wenn (x − λ) | p.
Beweis. Aus (x−λ) | p folgt nämlich p(x) = (x−λ)q(x) mit einem Polynom q und dann p(λ) = 0·q(λ) = 0.
Gilt umgekehrt p(λ) = 0, so liefert der Divisionsalgorithmus eine Darstellung p(x) = (x − λ)q(x) + r(x)
wobei r entweder ein Polynom vom Grad 0 oder das Nullpolynom ist, d.h. eine Konstante. Wegen
0 = p(λ) = 0 · q(λ) + r(λ) muss r tatsächlich das Nullpolynom sein. Es gilt also p = (x − λ)q.
Die Polynomdivision von p durch x − λ nennen wir Abspalten einer Nullstelle
1.8 Vielfachheit von Nullstellen. Eine Nullstelle λ eines Polynoms p hat die Vielfachheit k ∈ N,
wenn es ein Polynom q gibt mit
p(x) = (x − λ)k q(x)
und
q(λ) 6= 0.
Ein Polynom vom Grad n ≥ 1 besitzt mit Vielfachheiten gezählt höchstens n Nullstellen.
Beim Abspalten einer Nullstelle erniedrigt sich nämlich der Grad des Polynoms um 1. Also können
wir höchstens n-mal eine Nullstelle abspalten bevor wir bei einem Polynom ohne Nullstelle, d.h. einem
konstanten Polynom, enden.
68
§3. ALGEBRAISCHE FUNKTIONEN
1.9 Identitätssatz für Polynome. Stimmen zwei Polynome vom Grad höchstens n an n + 1 verschiedenen Stellen überein, so sind sie identisch.
Die Differenz zweier solcher Polynome hat dann nämlich höchstens den Grad n aber mindestens n + 1
Nullstellen, muss also das Nullpolynom sein.
1.10 Koeffizientenvergleich. Sind zwei Polynome
p(x) = an xn + · · · + a1 x + a0
q(x) = bm xm + · · · + b1 x + b0
und
mit an , bm 6= 0 als Funktionen gleich, d.h. gilt p(x) = q(x) für alle x (oder gilt dies sogar nur an
max{n + 1, m + 1} verschiedenen Stellen), so folgt n = m und ak = bk für k = 0, 1, . . . , n.
Dies folgt, ebenso wie die nächste Aussage, sofort aus dem Identitätssatz für Polynome.
1.11 Entwickeln eines Polynoms. Zu einem beliebig vorgegebenen Punkt a kann ein Polynom
p(x) = an xn + · · · + a1 x + a0
in der Form
p(x) = bn (x − a)n + · · · + b1 (x − a) + b0 .
geschrieben werden. Diese Darstellung nennen wir Entwicklung von p um den Punkt a.
Beispiel. Die Entwicklung von p(x) = x3 + 6x2 + 10x + 4 um den Punkt −2 erhalten wir, indem wir
p(x − 2) = (x − 2)3 + 6(x − 2)2 + 10(x − 2) + 4 = x3 − 2x berechnen und anschließend x durch x + 2
ersetzen: p(x) = (x + 2)3 − 2(x + 2).
1.12 Polynominterpolation nach Lagrange. Wir haben einen (n + 1)-punktigen Datensatz (etwa Meßdaten) (x0 , y0 ), . . . (xn , yn ) vorliegen. Sind x0 , x1 , . . . , xn paarweise verschieden sind, so existiert
genau ein Polynom p mit
p(xk ) = yk
für k = 0, 1, . . . , n
und
Grad(p) ≤ n oder p = 0.
Dieses Polynom erhalten wir durch
p(x)
=
n
X
yk Lk (x)
k=0
mit Lk (x) :=
n
Y
l=0,l6=k
(x − x0 ) · · · (x − xk−1 )(x − xk+1 ) · · · (x − xn )
x − xl
.
=
xk − xl
(xk − x0 ) · · · (xk − xk−1 )(xk − xk+1 ) · · · (xk − xn )
Die Polynome L0 , L1 , . . . , Ln heißen Lagrange-Polynome zu den Stützstellen x0 , x1 , . . . , xn .
Normalerweise berechnet man p durch Lösen eines linearen Gleichungssystems für die Koeffizienten schneller als durch obige Darstellung.
Beweis. Offensichtlich sind die Lk , k ∈ {0, 1, . . . ,P
n}, Polynome vom Grad n mit Lk (xk ) = 1 und
n
Lk (xl ) = 0 für l ∈ {0, 1, . . . , n}, l 6= k. Damit ist p = k=0 yk Lk ein Polynom vom Grad höchstens n mit
p(xk ) = yk für k ∈ {0, 1, . . . , n}. Die Eindeutigkeit von p folgt aus aus dem Identitätssatz.
1.13∗ Anwendung zum Koeffizientenvergleich. Wir beweisen das Additionstheorem für Binomialkoeffizienten
n X
c
d
c+d
=
für c, d ∈ C und n ∈ N0 .
k
n−k
n
k=0
c+d
zunächst für c, d ∈ N0 mit der binomischen Formel auf zwei Arten dar:
c+d X
c+d n
c+d
(1 + x)
=
x ,
n
n=0
! d ! c+d n !
c X
X d
X X c
c
d
(1 + x)c (1 + x)d =
xk
xl =
xn .
k
k
n
n
−
k
n=0
Wir stellen (1 + x)
k=0
l=0
k=0
69
KAPITEL 2. ELEMENTARE FUNKTIONEN
Durch Koeffizientenvergleich erhalten wir das Additionstheorem für c, d ∈ N0 . Jetzt wählen wir d ∈ N0
fest. Dann sind beide Seiten im Additionstheorem Polynome in der Variablen c. Gerade haben wir gezeigt,
dass sie für alle c ∈ N0 übereinstimmen. Nach dem Identitätssatz sind diese beiden Polynome dann gleich,
also gilt das Additionstheorem für d ∈ N0 und c ∈ C. Durch Wiederholung dieses Arguments für festes
c ∈ C erhalten wir das Additionstheorem für beliebige c, d ∈ C.
1.14 Fundamentalsatz der Algebra. Jedes nicht-konstante reelle oder komplexe Polynom hat eine
komplexe Nullstelle.
Reelle Polynome können durchaus nur komplexe Nullstellen haben. So hat x2 + 1 die Nullstellen ±i da
x2 + 1 = (x − i)(x + i).
1.15 Historische Anmerkung. Für den Fundamentalsatz der Algebra gibt es viele Beweise, die ersten
vollständigen gehen auf Laplace (1795) und Gauß (1799) zurück. Von Argand (1814) stammt ein einfacher
Beweis, der mit den Mittel aus 4.§2.4 auskommt (siehe z.B. [Kön, Band 1, 7.6]). Neben der aus der
Schule bekannten Formel zur Bestimmung der Nullstellen von Polynomen zweiten Grades gibt es Formeln
für Polynome vom Grad drei und vier. Abel (1802–1829) hat gezeigt, dass für Polynome vom Grad
n ≥ 5 keine allgemein gültige „Lösungsformel“ existiert, d.h. keine Formel, mit deren Hilfe man die
Nullstellen durch eine endliche Anzahl von Additionen, Subtraktionen, Multiplikationen, Divisionen und
Wurzelziehen aus den Koeffizienten erhält. Auf Galois (1811–1832) geht eine Theorie zurück, die es
erlaubt, für ein vorgegebenes Polynom zu entscheiden, ob und wieviele Nullstellen elementar bestimmt
werden können. Im Allgemeinen müssen wir also zur Nullstellenbestimmung bei Polynomen numerische
Methoden verwenden (siehe 4.§2.7.1 Intervallhalbierung und 4.§3.6.1 Newton-Verfahren).
1.16 Faktorisieren eines Polynoms. Durch sukzessives Anwenden des Fundamentalsatzes können
wir von einem Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ≥ 1 genau n Nullstellen abspalten.
Eine Nullstelle der Vielfachheit k wird dabei natürlich genau k-mal abgespaltet. Sind λ1 , . . . , λm ∈ C die
verschiedenen Nullstellen von p mit Vielfachheiten k1 , . . . , km ∈ N, so erhalten wir die Darstellung
p(x) = an
m
Y
(x − λµ )kµ = an (x − λ1 )k1 · · · (x − λm )km
mit k1 + · · · + km = n,
µ=0
welche wir Faktorisierung des Polynoms p nennen.
1.17 Komplexe Nullstellen reeller Polynome. Echt komplexe Nullstellen treten bei reellen Polynomen immer paarweise konjugiert auf.
Hat p nämlich nur reelle Koeffizienten, so ist wegen
p(z) = an z n + · · · + a1 z + a0 = an z n + · · · + a1 z + a0 = p(z)
für an , . . . , a1 , a0 ∈ R
mit λ auch λ eine Nullstelle.
1.18 Quadratische Ergänzung. Für ein Polynom vom Grad zwei heißt die Darstellung
b
p(x) = ax + bx + c = a x +
2a
2
2
+c−
b2
4a
quadratische Ergänzung.
Aus ihr erhalten wir auch für komplexe Koeffizienten leicht die Nullstellen von p ohne uns um Wurzeln
aus komplexen Zahlen kümmern zu müssen.
Beispiel. p(x) = x2 + 2ix − i = (x + i)2 − i − i2 = (x + i)2 − (−1 +√i). Für die Nullstellen gilt also nach
Darstellung
von −1 + i in Polarkoordinaten (x + i)2 = −1 + i = 2e3πi/4 . Also hat p die Nullstellen
√
4
3πi/8
−i ± 2e
.
70
§3. ALGEBRAISCHE FUNKTIONEN
1.19∗ Formeln von Vieta. Für die Nullstellen λ1 , . . . , λn von p(x) = xn + · · · + a1 x + a0 gilt
an−1 = −
n
X
λk ,
a0 = (−1)n
k=1
n
Y
λk .
k=1
Für ein Polynom mit Leitkoeffizient 1 und ganzzahligen Koeffizienten können wir daher ganzzahlige
Nullstellen „erraten“, indem wir die Faktoren von a0 ansehen.
Die Normierung an = 1 ist für die Nullstellenbestimmung unwesentlich und kann durch Division durch
den Leitkoeffizienten erzwungen werden.
Beispiel. In p(x) = x3 − x2 − x − 15 probieren wir
±1, ±3, ±5, ±15 und erhalten 3 als Nullstelle. Abspalten
liefert p(x) = (x − 3)(x2 + 2x + 5). Durch quadratische
Ergänzung x2 + 2x + 5 = (x + 1)2 + 4 erhalten wir
die verbleibenden zwei Nullstellen −1 ± 2i als komplex
konjugiertes Pärchen.
e2πi/n
2π
n
1
1.20 Einheitswurzeln. Für n ∈ N gilt
zn = 1
⇔
z = e2πik/n ,
k = 0, 1, . . . , n − 1.
Die n Zahlen e2πik/n heißen n-te Einheitswurzeln. Sie
liegen in der Zahlenebene auf der Einheitskreislinie
|z| = 1 und bilden die Ecken eines regelmäßigen n-Ecks.
Abbildung 2.19: Verteilung der Einheitswurzeln in der Zahleneben.
1.21 Wachstum von Polynomen, Lokalisation von Nullstellen. Ist p(z) = z n + · · · + a1 z + a0 ein
Polynom vom Grad n mit Leitkoeffizient 1, so gilt
1 n
3
|z| ≤ |p(z)| ≤ |z|n
2
2
für z ∈ C mit |z| ≥ ρ := max{1, 2|a0 | + · · · + 2|an−1 |}.
Für |z| ≥ ρ gilt 1 ≤ |z|k ≤ |z|n−1 für k = 0, 1, . . . , n − 1 und mit der Dreiecksungleichung folgt
n
n−1
|p(z)| ≤ |z| + |an−1 ||z|
n
+ · · · + |a0 | ≤ |z| + (|an−1 | + · · · + |a0 |) |z|
|
{z
}
n−1
≤
ρ
1+
2|z|
|z|n ≤
3 n
|z| .
2
≤ρ/2
Die untere Schranke erhalten wir analog mittels der unteren Dreiecksungleichung.
Ist p(z) = an z n + · · · + a1 z + a0 ein beliebiges Polynom vom Grad n (d.h. für den Leitkoeffizienten gilt
nur an 6= 0 und nicht notwendiger Weise an = 1 wie zuvor), so kann man obige Überlegung auf p(z)/an
anwenden und erhält anschließend die Abschätzungen
|an | n
3|an | n
|z| ≤ |p(z)| ≤
|z|
2
2
|a0 |
|an−1 |
für z ∈ C mit |z| ≥ ρ := max 1, 2
+ ··· + 2
.
|an |
|an |
Die obigen Abschätzungen besagen, dass sich ein Polynom „weit draußen“ (was das genau heißt, hängt
von ρ, d.h. von den Koeffizienten des Polynoms ab) ungefähr so wie sein Leitterm verhält.
Aus der unteren Abschätzung erhalten wir eine grobe Lokalisationsaussage über die Nullstellen eines
Polynoms vom Grad n:
Aus p(z) = 0 folgt |z| < max{1, 2|a0 /an | + · · · + 2|an−1 /an |}.
71
KAPITEL 2. ELEMENTARE FUNKTIONEN
2
Rationale Funktionen
2.1 Rationale Funktionen. Sind p1 und p2 6= 0 zwei Polynome, so heißt R := p1 /p2 eine rationale
Funktion. Wir nennen p1 das Zähler- und p2 das Nennerpolynom von R.
Als natürlichen Definitionsbereich für R wählen wir {x ∈ R | p2 (x) 6= 0} oder {z ∈ C | p2 (z) 6= 0}.
Gilt Grad(p1 ) < Grad(p2 ) oder p1 = 0, so nennen wir R echt rational .
2.2 Kürzen. Haben p1 und p2 einen gemeinsamen Teiler q, d.h. gilt p1 = qq1 und p2 = qq2 , so folgt
R(x) = p1 (x)/p2 (x) = q1 (x)/q2 (x) für alle Punkte x im natürlichen Definitionsbereich von R aber q1 /q2
kann einen größeren natürlichen Definitionsbereich haben.
Beispiel. R(x) = (x4 − 2x3 + 4x − 8)/(x3 − 4x2 + 5x − 2). Wegen x4 − 2x3 + 4x − 8 = (x − 2)(x3 + 4)
und x3 − 4x2 + 5x − 2 = (x − 1)2 (x − 2) können wir x − 2 kürzen und erhalten R(x) = (x3 + 4)/(x − 1)2 .
In der ursprünglichen Form mussten wir für R die Zahlen 1, 2 aus dem Definitionsbereich ausschließen.
Nach Kürzen nur noch 1. Da x3 + 4 an der Stelle 1 nicht verschwindet, können wir nicht weiter kürzen.
Haben in der Darstellung R = q1 /q2 die Polynome q1 und q2 keinen gemeinsamen Teiler mehr, so nennen
wir die Darstellung gekürzt. Dies tritt genau dann ein, wenn Zähler- und Nennerpolynom keine gemeinsame Nullstelle besitzen.
Achtung. Bei rationalen Funktionen teste man immer zuerst, ob Zähler- oder Nennerpolynom gekürzt
werden können.
2.3 Haupt- und Nebenteil. Ist R = p1 /p2 keine echt rationale Funktion, so können wir nach einer
Polynomdivision p1 = qp2 + r in der Form
R=
r
p1
=q+
p2
p2
schreiben mit Grad(r) < Grad(p2 ) oder r = 0. Wir nennen q den Nebenteil und die echt rationale
Funktion r/p2 den Hauptteil .
Bei einem Polynom verschwindet der Hauptteil, bei einer echt rationalen Funktion der Nebenteil.
Beispiel. In R(x) = (2x5 + 12x3 + 2)/(x4 + x2 ) können wir nach einer Polynomdivision 2x5 + 12x3 + 2 =
2x(x4 + x2 ) + (10x3 + 2) den Nebenteil abspalten. Wir erhalten
R(x) =
10x3 + 2
2x5 + 12x3 + 2
= 2x + 4
.
4
2
x +x
x + x2
2.4 Partialbruchzerlegung. Jede rationale Funktion R kann in der Form
R(x) = q(x) +
c1,1
cm,1
c1,k1
cm,km
+ ··· +
+ ··· +
+ ··· +
x − λ1
(x − λ1 )k1
x − λm
(x − λm )km
dargestellt werden. Hierbei ist q ein Polynom. Die Zahlen λ1 , . . . , λm ∈ C und k1 , . . . , km ∈ N sind die
verschiedenen Nullstellen des Nennerpolynoms von R in gekürzter Form. Die Zahlen cl,j sind eindeutig
bestimmt und es gilt c1,k1 , . . . , cm,km 6= 0.
Die Existenz und Eindeutigkeit folgen aus dem Identitätssatz für Polynome. Statt eines Beweises führen
wir das Rezept zur Partialbruchzerlegung vor.
Schritt 1 Faktorisiere das Nennerpolynom.
Schritt 2 Kürze Zähler- und Nennerpolynom und erhalte eine gekürzte Darstellung R = p1 /p2 mit faktorisiertem Nennerpolynom p2 (x) = (x − λ1 )k1 · · · (x − λm )km . Die λk sind reell oder komplex
und paarweise verschieden.
72
§3. ALGEBRAISCHE FUNKTIONEN
Schritt 3 Spalte den Nebenteil q durch Polynomdivision ab und erhalte das Zählerpolynom r des Hauptteils.
c
c
c
c
1,k1
m,km
1,1
m,1
+ · · · + (x−λ
+ · · · + (x−λ
mit noch
Schritt 4 Setze den Hauptteil in der Form x−λ
k
k + · · · + x−λ
1
m
m) m
1) 1
zu bestimmenden Zahlen cl,j an.
Schritt 5 Multipliziere den Ansatz aus und erhalte eine echt rationale Funktion mit Nennerpolynom p2
und einem Zählerpolynom, dessen Koeffizienten aus den cl,j gebildet werden.
Schritt 6 Mache einen Koeffizientenvergleich von r mit diesem Zählerpolynom, um die cl,j zu bestimmen.
In 4.§2.3.18 werden wir sehen, wie wir uns die Schritte 5 und 6 sparen und statt dessen die cl,j einzeln
berechnen können.
Beispiel. Wir bilden die Partialbruchzerlegung für R aus dem Beispiel in 2.3. Die Schritte 1–3 sind schon
erledigt, das Nennerpolynom x4 + x2 hat eine doppelte Nullstelle bei 0 und zwei einfache Nullstellen bei
±i. Wir erhalten als Ansatz
R(x)
=
=
10x3 + 2
c2,1
c1,1
c1,2
c3,1
2x5 + 12x3 + 2
=
2x
+
= 2x +
+ 2 +
+
4
2
2
x +x
x (x + i)(x − i)
x
x
x−i x+i
(c1,1 + c2,1 + c3,1 )x3 + (c1,2 + ic2,1 − ic3,1 )x2 + c1,1 x + c1,2
2x +
x2 (x + i)(x − i)
und bestimmen die cl,j aus dem Gleichungssystem
c1,1 + c2,1 + c3,1 = 10,
c1,2 + ic2,1 − ic3,1 = 0,
c1,1 = 0,
c1,2 = 2
zu c1,1 = 0, c1,2 = 2, c2,1 = 5 + i, c3,1 = 5 − i. Daher lautet die Partialbruchzerlegung
R(x) = 2x +
5−i
2
5+i
+
.
+
2
x
x−i x+i
2.5 Reelle Partialbruchzerlegung. Ist R eine rationale Funktion mit reellen Zähler- und Nennerpolynomen, so fasst man in der Partialbruchzerlegung gerne zueinander konjugierte Summanden zusammen
und erhält die sogenannte reelle Partialbruchzerlegung von R.
Beispiel.
R(x) = 2x +
3
2
5+i
5−i
2
10x − 2
+
+
= 2x + 2 + 2
.
x2
x−i x+i
x
x +1
Weitere algebraische Funktionen
3.1∗ Algebraische Funktionen. Eine Funktion f : D ⊂ C → C (das schließt den Fall R mit ein) heißt
algebraisch, wenn es Polynome p0 , . . . , pn gibt mit
n
X
pk (x)f (x)k = 0
für x ∈ D.
k=0
Für n = 1 erhält
√ man die einfachsten algebraischen Funktionen: Polynome und rationale Funktionen.
Auch f (x) := 1 + x ist ein Beispiel für eine algebraische Funktion, es gilt f (x)2 − (x + 1) = 0.
3.2∗ Transzendente Funktionen. Ist eine Funktion nicht algebraisch, so heißt sie transzendent. Man
kann zeigen, dass die Exponentialfunktion, der Logarithmus und die aus ihnen abgeleiteten trigonometrischen und Hyperbelfunktionen transzendent sind.
73
KAPITEL 2. ELEMENTARE FUNKTIONEN
§4
1
Potenzreihen
Grundlegendes über Potenzreihen
1.1 Definition: Potenzreihe. Für eine Zahl z0 ∈ C und eine Folge (ak )k reeller oder komplexer Zahlen
nennen wir
∞
X
ak (z − z0 )k
k=0
eine Potenzreihe mit Koeffizienten ak und Entwicklungspunkt z0 .
1.2 Beispiele. In den vorangegangenen P
Abschnitten haben wir schon diverse Potenzreihen kennenge∞
lernt. Die Exponentialfunktion exp(z) = k=0 z k /k! für z ∈ C wurde in §2.1.1 durch eine Potenzreihe
definiert. Hieraus haben wir in §2.4.2 Potenzreihendarstellungen für den CosinusPund Sinus Hyperbolicus
∞
k
bzw. in §2.5.8 für den Cosinus und
abgeleitet. Die geometrische Reihe k=0 z = 1/(1 − z) für
P∞Sinus
c k
|z| < 1 und die Binomialreihen k=0 k z für |z| < 1 falls c ∈ C r N0 bzw. für z ∈ C für c ∈ N0 in
1.§4.2.5 waren weitere Beispiele. Alle diese Potenzreihen hatten z0 = 0 als Entwicklungspunkt.
Potenzreihen dienen dazu, neue Funktionen zu definieren oder alternative Darstellungen für schon bekannte Funktionen zu erhalten. Wir beschäftigen uns
P∞nun mit dem Konvergenzverhalten von Potenzreihen,
untersuchen also, für welche z ∈ C durch z 7→ k=0 ak (z − z0 )k für eine vorgegebene Koeffizientenfolge
(ak )k und einen Entwicklungspunkt z0 eine Funktion erklärt wird.
P∞
k
1.3 Konvergenzverhalten von Potenzreihen. Konvergiert die Potenzreihe
k=0 ak (z − z0 ) an
einer Stelle z1 6= z0 , so konvergiert sie für alle z ∈ C mit |z − z0 | < |z1 − z0 | und die Konvergenz ist
absolut. Divergiert die Potenzreihe dagegen in einer Stelle z2 6= z0 , so divergiert sie auch für alle z ∈ C
mit |z − z0 | > |z2 − z0 |.
P∞
k
k
Beweis. Konvergiert
k=0 ak (z1 − z0 ) , so bilden die Reihenglieder ak (z1 − z0 ) eine Nullfolge. Da
k
konvergente Folgen beschränkt sind, existiert ein M ≥ 0 mit |ak (z1 − z0 ) | ≤ M für alle k ∈ N0 . Ist nun
ein z ∈ C mit |z − z0 | < |z1 − z0 | gegeben, so setzen wir q := |z − z0 |/|z1 − z0 |. Dann
P∞ gilt 0 ≤ q < 1 und
|ak (z − z0 )k | =P|ak (z1 − z0 )k | · |(z − z0 )/(z1 − z0 )|k P
≤ M q k für k ∈ N0 . Also ist k=0 M q k konvergente
∞
∞
Majorante für k=0 ak (z −z0 )k . Divergiert dagegen k=0 ak (z2 −z0 )k , so kann nach dem eben Gezeigten
P
∞
k
k=0 ak (z − z0 ) für kein z ∈ C mit |z − z0 | > |z2 − z0 | konvergieren.
Konvergiert eine Potenzreihe also an einer Stelle z1 , so
auch im gesamten Kreisinneren
K|z1 −z0 | (z0 ) = {z ∈ C | |z − z0 | < |z1 − z0 |},
divergiert sie an einer Stelle z2 , so auch im gesamten
Kreisäußeren
Konvergenzkreis
Konvergenzradius
Entwicklungspunkt
B
B
B
?
BBN
z0| {z
R
∆|z2 −z0 | (z0 ) := {z ∈ C | |z − z0 | > |z2 − z0 |}.
SiehtP
man also von den beiden degenerierten Fällen ab,
∞
dass k=0 ak (z − z0 )k nur in z = z0 oder für alle z ∈ C
konvergiert, so muss es einen Radius R > 0 geben, so
dass die Potenzreihe im Kreisinneren KR (z0 ) konvergiert und im Kreisäußeren ∆R (z0 ) divergiert.
}
6
6
6
Äußeres: Divergenz
Rand: ?
Inneres: Konvergenz
Abbildung 2.20: Zum Konvergenzverhalten einer Potenzreihe.
P∞
1.4 Konvergenzradius. Konvergiert eine Potenzreihe k=0 ak (z − z0 )k nicht für alle z ∈ C, so nennen
wir die Zahl
∞
)
(
X
R := sup r ∈ R+
ak (z − z0 )k konvergiert für ein z ∈ C mit |z − z0 | = r
0
k=0
74
§4. POTENZREIHEN
den Konvergenzradius dieser Potenzreihe. Konvergiert die Potenzreihe für alle z ∈ C, so setzen wir
R := +∞.
P∞
Hat eine Potenzreihe k=0 ak (z − z0 )k den Konvergenzradius R = 0, so konvergiert sie nur im Entwicklungspunkt z0 , gilt R = +∞, so konvergiert sie für alle z ∈ C, gilt dagegen R ∈ R+ , so konvergiert sie
absolut für alle z ∈ C mit |z − z0 | < R und divergiert für alle z ∈ C mit |z − z0 | > R.
Wegen der absoluten Konvergenz hängt der Konvergenzradius R eigentlich nicht von der Koeffzientenfolgen (ak )k selbst, sondern vielmehr nur von (|ak |)k ab. Für R 6= +∞ erhalten wir
∞
(
)
X
+
k
R = sup r ∈ R0 |ak |r konvergiert .
k=0
P∞
Über das Konvergenzverhalten von k=0 ak (z − z0 )k für ein z ∈ C mit |z − z0 | = R haben wir dabei
bisher noch keine Aussage gewonnen. Dies ist im Allgemeinen auch nicht möglich.
P∞
k
1.5 Anmerkung zum Entwicklungspunkt. Ist f (z) =
k=0 ak (z − z0 ) eine Potenzreihe mit
Entwicklungspunkt
P∞ z0 , so können wir durch die Substitution w = z − z0 immer auf die Potenzreihe
f (w + z0 ) = k=0 ak wk mit Entwicklungspunkt 0 übergehen.
Darum formuliert man aus Bequemlichkeit Ergebnisse für Potenzreihen gerne mit Entwicklungspunkt 0.
1.6 Konvergenzverhalten auf dem Rand des Konvergenzkreises. Wir betrachten die Reihen
∞
X
1 k
z ,
k2
k=1
∞
X
1 k
z ,
k
∞
X
k=1
zk .
k=1
P∞
Für |z| < 1 ist die geometrische Reihe k=1 |z|k für alle drei Reihen konvergente Majorante, für |z| > 1
bilden die Reihenglieder in keinem Fall eine Nullfolge. Also haben alle drei Potenzreihen den Konvergenzradius 1, d.h. den Einheitskreis als Konvergenzkreis.
P∞
P∞
Die erste Potenzreihe k=1 z k /k 2 konvergiert in allen Randpunkten des Konvergenzkreises, da k=1 1/k 2
konvergente Majorante für alle z ∈ C mit |z| ≤ 1 ist.
P∞
Die zweite Potenzreihe k=1 z k /k hat auf dem Rand ihres Konvergenzkreises sowohl Punkte, in denen
sie divergiert (z.B. z = 1, dann liegt die harmonische Reihe vor), als auch Punkte, in denen sie konvergiert
(z.B. z = −1, dann haben wir eine alternierende harmonische Reihe, und man kann zeigen, dass sie für
alle z 6= 1 mit |z| = 1 konvergiert).
P∞
Die dritte Potenzreihe k=1 z k konvergiert als geometrische Reihe nirgendwo auf dem Rand ihres Konvergenzkreises.
∞
X
1 k
z
k2
k=1
∞
X
1 k
z
k
k=1
∞
X
zk
k=1
Abbildung 2.21: Zum Konvergenzverhalten von Potenzreihen auf dem Rand ihres Konvergenzkreises.
Für eine Potenzreihe ist auf dem Rand ihres Konvergenzkreises keine allgemeine Aussage möglich. Es
sind immer Individualbetrachtungen notwendig.
75
KAPITEL 2. ELEMENTARE FUNKTIONEN
P∞
1.7 Fehlerabschätzung. Hat die Potenzreihe f (z) = k=0 ak z k den Konvergenzradius R > 0, so gibt
es zu jedem positiven r < R eine Konstante Mr ≥ 0 mit
n
X
k
für |z| ≤ r.
ak z ≤ Mr |z|n+1
f (z) −
k=0
Beweis. Für |z| ≤ r gilt
∞
∞
∞
n
X
X
X
X
k
k
|ak ||z|k ≤ |z|n+1
|ak |rk−n−1 .
ak z ≤
ak z = f (z) −
k=n+1
k=n+1
k=n+1
k=0
|
{z
}
=:Mr
Achtung. Die scheinbar umständliche Formulierung „so gibt es zu jedem r < R eine Konstante Mr ≥ 0“
ist unumgänglich. Dies erkennt man am Beispiel der geometrischen Reihe. Wegen
∞
n
z n+1 1
X
X
Gleichheit für z = r
1
1
k
k
=
z = −
|z|n+1
≤
|z|n+1
z =
1 − z
1−z
|1 − z|
1 − |z|
k=0
k=n+1
muss mindestens Mr = 1/(1 − r) gesetzt werden und es gibt keine Konstante M ≥ 0, die eine obere
Schranke der Form M |z|n+1 für alle z mit |z| < 1 liefert.
P∞
1.8∗ Identitätssatz für Potenzreihen. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenzradius und gibt es eine Folge mit zk → 0, zk 6= 0 und f (zk ) = 0 für alle k, so gilt ak = 0 für alle
k ∈ N0 , d.h. f = 0.
Beweis∗ . Ist n der erste Index mit an 6= 0, so wählen wir irgend einen Radius r > 0 kleiner als den
Konvergenzradius. Mit 1.7 erhalten wir |f (z) − an z n | ≤ M |z|n+1 für |z| ≤ r. Insbesondere folgt für die zk
dann |an zk n | = |f (zk ) − an zk n | ≤ M |zk |n+1 , d.h. |an | ≤ M |zk | → 0 für k → ∞, da zk → für k → ∞.
Also gilt an = 0 und wir haben einen Widerspruch.
1.9∗ Koeffizientenvergleich. Sind zwei Potenzreihen
f (z) =
∞
X
ak z k
und
k=0
g(z) =
∞
X
bk z k
k=0
mit positivem Konvergenzradien als Funktionen gleich, d.h. gilt f (z) = g(z) für alle z ∈ C wo beide
Reihen konvergieren (oder gilt dies sogar nur für eine Nullfolge mit unendlich vielen verschiedenen Folgengliedern), so haben beide Reihen denselben Konvergenzradius und es gilt ak = bk für k ∈ N0 .
Man lasse sich den Vergleich mit dem Analogon für Polynome §3.1.10 auf der Zunge zergehen: Ein
Polynom vom Grad n ist dadurch eindeutig festgelegt, dass man seine Werte an n + 1 verschiedenen
Stellen kennt, eine durch eine Potenzreihe definierte Funktion dadurch, dass man ihre Werte auf einer
Nullfolge mit unendlich vielen verschiedenen Gliedern kennt.
P∞
1.10 Symmetrie. Durch Koeffizientenvergleich erhalten wir: Ist f (z) = k=0 ak z k eine Potenzreihe mit
positivem Konvergenzradius und gerade (ungerade) so gilt ak = 0 für alle ungeraden (geraden) Indizes k.
2
Zusammensetzen von Potenzreihen
2.1 Worum geht es? Wir können gemäß §1.3.3 Funktionen durch Addieren, Multiplizieren, Kehrwertbilden und ähnliche Operationen zusammensetzen. Also sollten wir auch für eine Funktion, die sich aus
Potenzreihen zusammensetzt, eine Potenzreihendarstellung erhalten.
Im Alltag ist oft nur wichtig, die ersten Koeffizienten in der Potenzreihendarstellung der zusammengesetzten Funktion zu kennen. Wir geben zunächst drei Beispiele an, in denen wir jeweils eine geschickte
76
§4. POTENZREIHEN
Darstellung der Funktion benutzen, um bekannte Entwicklungen einzusetzen. Anschließend stellen wir
allgemeine Techniken vor. Im Rahmen der Differentialrechnung werden wir in 4.§3 Reihenentwicklungen
durch Bilden höherer Ableitungen bekommen. Dieses Verfahren (genannt Taylor-Entwicklung) ist zwar
schön rezepthaft, aber oftmals deutlich rechenaufwendiger als die hier vorgestellten Methoden.
2.2 Beispiele.
(a) Entwicklung von f (x) = xe−x bei x = 1. Wir stellen f in der Form
i
1h
(x − 1)e−(x−1) + e−(x−1)
f (x) = [(x − 1) + 1]e−(x−1)−1 =
e
dar und erhalten aus der Potenzreihe für die Exponentialfunktion und mit den Rechenregeln für konvergente Reihen
!
∞
∞
X
1 X (−1)k
1
1
1
(−1)k
k+1
k
f (x) =
(x−1)
+
(x−1)
= − (x−1)2 + (x−1)3 + · · · für x ∈ C.
e
k!
k!
e 2e
3e
k=0
k=0
(b) Entwicklung von g(ϕ) := sinϕnϕ , n ∈ N, bei ϕ = 0. Zunächst ist g im Punkt ϕ = 0 gar nicht definiert.
Aus der Reihenentwicklung des Sinus bei 0 erhalten wir trotzdem
∞
sin nϕ X (−1)k n
n3 2
=
(nϕ)2k = n −
ϕ + ···
ϕ
(2k + 1)!
6
für ϕ ∈ C, ϕ 6= 0.
k=0
Die Potenzreihe rechts konvergiert auch für ϕ = 0 und hat dort den Wert n. Wir sollten also g durch
g(0) := n in den Punkt ϕ = 0 fortsetzen.
(c) Entwicklung von h(z) =
1
z−a
∞
−1 1
1
=
z−a
a 1−
Ähnlich geht man mit
mit a 6= 0 bei z = 0. Mit der geometrischen Reihe gilt
z
a
1
(z−a)m
1
−1 X z k
1
1
= − − 2 z − 3 z2 − · · ·
=
a
a
a a
a
für |z| < |a|.
k=0
für m ≥ 1 mit Hilfe der Bionomialreihe B−m (z) vor (vgl. 1.§4.3.10):
∞
X
(−1)m
1
(−1)m
(−1)m m + k − 1 k
1
z
=
=
B−m ( a ) =
z
(z − a)m
am (1 − az )m
am
am+k
m−1
k=0
Damit kann man eine beliebige rationale Funktion nach einer Partialbruchzerlegung um einen vorgegebenen Punkt entwickeln.
P∞
P∞
2.3 Summen von Potenzreihen. Sind λ, µ Zahlen und sind f (z) = k=0 ak z k und g(z) = k=0 bk z k
zwei Potenzreihen, die beide für |z| < r konvergieren, so gilt
(λf + µg)(z)
=
∞
X
(λak + µbk )z k
k=0
=
(λa0 + µb0 ) + (λa1 + µb1 )z + (λa2 + µb2 )z 2 + · · ·
für |z| < r.
Das folgt sofort aus den Rechenregeln 1.§4.1.8 für konvergente Reihen. Der Konvergenzradius von λf +µg
ist mindestens so groß wie der kleinere der Konvergenzradien von f und g.
P∞
P∞
2.4 Produkte von Potenzreihen. Sind f (z) = k=0 ak z k und g(z) = k=0 bk z k zwei Potenzreihen,
die beide für |z| < r konvergieren, so gilt
!
∞
n
X
X
(f g)(z) =
ak bn−k z n
n=0
=
k=0
a0 b0 + (a1 b0 + a0 b1 )z + (a2 b0 + a1 b1 + a0 b2 )z 2 + · · ·
für |z| < r.
77
KAPITEL 2. ELEMENTARE FUNKTIONEN
Das folgt dank der absoluten Konvergenz von Potenzreihen durch Bilden des Cauchy-Produkts 1.§4.3.8.
Der Konvergenzradius von f g ist mindestens so groß wie der kleinere der Konvergenzradien von f und g.
P∞
2.5 Reziprokes einer Potenzreihe. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenzradius und gilt f (0) = a0 6= 0, so gibt es einen Radius ρ > 0 mit
1
(z)
f
=
∞
X
bk z k
k=0
=
−a1
a1 2 − a0 a2 2
1
+ 2z+
z + ···
a0
a0
a0 3
für |z| < ρ
und die Koeffizienten b0 , b1 , . . . berechnen sich rekursiv durch
b0 :=
1
,
a0
bn := −
n
1 X
ak bn−k
a0
für n ≥ 1.
k=1
P∞
Beweis∗ . Ist ρ > 0 kleiner als der Konvergenzradius,
so konvergiert k=0 |ak |ρk = |a0 | + |a1 |ρ + · · · .
P∞
k
Durch Verkleinern von ρ können wir
k |ρ < |aP
0 | erreichen. Dann gilt dank der umgekehrten
P∞ k=1 |a
∞
k
Dreiecksungleichung |f (z)| = |a0 + k=1 ak z | ≥ |a0 | − k=1 |ak |ρk > 0, d.h. f (z) 6= 0 für |z| ≤ ρ. Mit
der geometrischen Reihe folgt
!n
∞
∞
1
1 X X −ak k
1
1
1
P∞
P
=
·
z
=
−ak k =
f (z)
a0 1 − ∞
a0 n=0
a0
a0 + k=1 ak z k
k=1 a0 z
k=1
und wir können dank absoluter Konvergenz mit dem großen Umordnungssatz 1.§4.3.7 nach Potenzen
von z ordnen. Also gilt
∞
X
1
bk z k
für |z| < ρ
(z) =
f
k=0
mit gewissen Koeffizienten bk . Wenn wir jetzt für diese Reihe das Cauchy-Produkt mit f (z) bilden, so
erhalten wir für |z| < ρ die Identität
!
∞
n
∞
∞
X
X
X
X
1
k
k
ak bn−k z n .
1 = f (z) ·
=
ak z
bk z =
f (z)
n=0 k=0
k=0
k=0
Pn
Mit einem Koeffizientenvergleich gemäß 1.9 erhalten wir dann 1P= b0 a0 und 0 = k=0 ak bn−k für n ≥ 1.
n
Das liefert wie behauptet die Rekursion b0 = 1/a0 und bn = − k=1 ak bn−k für n ≥ 1.
2.6 Andere Zusammensetzungen von Potenzreihen. Quotienten f /g von Potenzreihen bilden wir
dank f /g = f · 1/g aus Produkten und Reziproken, Potenzen f n durch iterierte Produkte.
P∞
2.7 Entwickeln von Potenzreihen. Ist f (z) = k=0 ak z k eine Potenzreihe mit positivem Konvergenradius R, so kann f in jedem Punkt z0 ∈ C mit |z0 | =: r < R in eine Potenzreihe entwickelt werden
mit
!
∞
∞ X
X
k
k−n
f (z) =
ak z0
(z − z0 )n
n
n=0
k=n
=
(a0 + a1 z0 + a2 z0 2 + · · · )
+(a1 + 2a2 z0 + 3a3 z0 2 + · · · )(z − z0 )
+(a2 + 3a3 z0 + 6a4 z0 2 + · · · )(z − z0 )2 + · · ·
für |z| < R − r.
Das folgt mit einem Koeffizientenvergleich 1.9 aus dem großen Umordnungsatz 1.§4.3.7. Der Konvergenzradius der um z0 entwickelten Reihe kann auch größer als R − r sein.
78
§4. POTENZREIHEN
2.8∗ Bernoulli-Zahlen. Wir betrachten als Anwendungsbeispiel die durch
( z
für z 6= 0
f (z) := ez − 1
1
für z = 0
auf C r {±2πi, ±4πi, . . .} definierte Funktion f . Nach 2.5 hat f in einer genügend kleinen Kreisscheibe
um 0 eine Reihenentwicklung der Form
f (z) =
(1 + z +
z2
2!
z
=
3
+ z3! + · · · ) − 1
1+
∞
z
2!
X Bk
1
=:
zk .
2
k!
+ z3! + · · ·
k=0
Die hierbei auftretenden Zahlen Bk (der Normierungsfaktor 1/k! hat Tradition) heißen Bernoulli-Zahlen.
Gemäß 2.5 erfüllen sie die Rekursion
B0 = 1,
B1
B2
Bn−1
B0
+
+
+ ··· +
=0
n!
1!(n − 1)! 2!(n − 2)!
(n − 1)!1!
für n ≥ 2.
Damit sind alle Bk rational. Insbesondere berechnen sich die ersten Bk nacheinander zu
1
B1 = − ,
2
B2 =
1
,
6
B4 = −
1
,
30
B6 =
1
,
42
B8 = −
1
.
30
Da
z
z ez + 1
z
z
−
B
z
=
= coth
1
ez − 1
2 ez − 1
2
2
eine gerade Funktion ist, gilt Bk = 0 für alle ungeraden k > 1. Außerdem erhalten wir durch Ersetzen
von z durch 2iz eine Potenzreihendarstellung für den Cotangens, sowie mit der Identität
tan z = cot z − 2 cot 2z
auch eine für den Tangens.
2.9 Reihendarstellungen für Tangens und Cotangens. Es gilt
∞
cot(z)
=
4k
1 z
z3
2z 5
1 X
+
(−1)k
B2k z 2k−1 = − −
−
+ ··· ,
z
(2k)!
z
3 45 945
k=1
tan(z)
=
∞
X
(−1)k−1
k=1
4k (4k − 1)
z3
2z 5
B2k z 2k−1 = z +
+
+ ···
(2k)!
3
15
für alle hinreichend kleinen z ∈ C.
Für Interessierte: Man zeichne einige der ersten Partialsummen dieser Entwicklungen, stelle eine Vermutung auf, wo sie gegen den Tangens bzw. den Cotangens konvergieren und vergleiche mit den Definitionslücken dieser beiden Funktionen.
79
Kapitel 3
Vektorrechnung
§1
1
Grundlegendes zur Vektorrechnung
Skalare und vektorielle Größen
1.1 Skalare Größen. In den Naturwissenschaften werden Größen wie Zeit, Masse, Temperatur oder
Widerstand durch eine Maßzahl und eine physikalische Einheit angegeben: 3.0s, 0.42kg, −38◦ C, 180 Ω.
Solche Größen heißen skalar , die Einheiten lässt man in der mathematischen Beschreibung gerne weg.
1.2 Vektorielle Größen. Andere Größen in den Naturwissenschaften wie Kraft, Geschwindigkeit,
Drehimpuls, elektrische Feldstärke sind durch eine Richtung und einen Betrag gegeben. Solche Größen
nennen wir vektoriell oder gerichtet und stellen sie durch einen Pfeil dar, der durch seine Richtung und
durch seine Länge Richtung und Betrag der betreffenden Größe angibt. Für vektorielle Größen sind zwei
Operationen von grundlegender Bedeutung: das Vervielfachen und Addieren. Wir illustrieren dies am
Beispiel der Kraft.
Verdoppeln wir die Kraft F~ , so behält der Kraftpfeil seine Richtung, verdoppelt aber seine Länge. Wir
schreiben dafür 2F~ . Greifen zwei Kräfte F~1 und F~2 in einem Punkt P an, so bewirken sie dasselbe wie
eine einzige in P angreifende Gesamtkraft, welche wir mit F~1 + F~2 bezeichnen und durch die skizzierte
Parallelogrammkonstruktion erhalten. Umgekehrt ist es oftmals nützlich, eine in einem Punkt angreifende
Kraft in zwei oder mehrere Teilkräfte zu zerlegen.
F~
2F~
F~1 + F~2
F~1
F~2
Abbildung 3.1: Vervielfachen einer Kraft und Kräfteaddition nach der Parallelogrammregel.
2
Geometrie
2.1 Historische Entwicklung. Die Geometrie ist eine der ältesten Teildisziplinen der Mathematik.
Schon Euklid von Alexandria gab ihr um 300 v. Chr. in seinen Elementen einen systematischen Aufbau.
80
§1. GRUNDLEGENDES ZUR VEKTORRECHNUNG
Er erklärt zunächst „ein Punkt ist, was keine Teile hat, eine Linie ist breitenlose Länge“ und versucht
anschließend aus fünf Grundpostulaten (Axiomen) über diese grundlegenden Objekte alle Lehrsätze der
Geometrie abzuleiten.
Eines dieser fünf Postulate ist das sogenannte Parallelenaxiom. Es verlangt, dass es zu einer Geraden g
und einem Punkt P ∈
/ g genau eine Parallele h zu g gibt, die durch P geht. Hieraus folgt der Satz
über Wechselwinkel bei einer Doppelkreuzung mit parallelen Geraden und dann auch der Satz über die
Winkelsumme im Dreieck.
g
h
α
β
γ
Q
P
α
β
Abbildung 3.2: Parallelenaxiom und Doppelkreuzung mit parallelen Geraden.
Die Frage, ob das Parellelenaxiom nicht schon in den ersten vier enthalten ist, hat Mathematiker lange
beschäftigt. Im 19. Jahrhundert gaben Gauß, Bolyai und Lobatschewski Beispiele für nichteuklidische
Geometrien an, in denen die ersten vier Axiome gelten, das Parallelenaxiom aber verletzt ist. Derartige
Geometrien sind durchaus von Nutzen, sie beschreiben die Verhältnisse auf der Erdkugel oder werden in
der Relativitätstheorie eingesetzt.
Euklids Elemente können als der erste gereifte Versuch eines deduktiven, axiomatischen Aufbaus einer
Wissenschaft gelten. 1899 fand diese Grundlegung in Hilberts axiomatischer Begründung der Geometrie einen Abschluss. Er führte die Widerspruchsfreiheit des Axiomensystems der Geometrie auf die des
Systems der reellen Zahlen, d.h. auf (A1)–(A9), zurück.
2.2 Vektorrechnung. Wir werden Geometrie hier nicht um ihrer selbst willen betreiben, sondern
durch Einführung eines kartesischen Koordinatensystems geometrische Fragestellungen auf algebraische,
d.h. auf das Rechnen mit Zahlen, zurückführen. Das leistet die Vektorrechung. Selbige erweist sich als ein
nützlicher Kalkül für Anwendungen in Natur- und Ingenieurwissenschaften und wird durch das Wechselspiel von geometrischer Anschauung und effektiver Rechnung lebendig. Dass auch die Fragestellungen
der Geometrie selbst z.B. in der Physik nützlich sind, zeigen die Entwicklungen in der allgemeinen Relativitätstheorie und der Stringtheorie in denen um ein tieferes Verständnis des „Raumes“ an sich gerungen
wird.
2.3 Vorgehen in diesem Kapitel. In §2 werden wir das Wechselspiel zwischen Geometrie und Vektorrechung am Beispiel der ebenen Geometrie kennenlernen. Außerdem kommt es zu einem ersten Kontakt
mit dem Matrizenkalkül. Ausgehend vom Beispiel in der Ebene entwicklen wir die zentralen Begriffe
„Vektorraum“ und „euklidischer Vektorraum“ in §3. Dort stellen wir auch die grundlegenden Techniken
der Vektorrechnung in allgemein nützlicher Form zusammen. Eine Ergänzung mit Spezialitäten im dreidimensionalen Raum in §4 rundet unseren Einstieg in die Vektorrechnung zunächst ab, eine ausführliche
Vertiefung, insbesondere der Matrizenrechnung, erfolgt im Rahmen der linearen Algebra in Kapitel 5.
81
KAPITEL 3. VEKTORRECHNUNG
§2
1
Vektorrechnung im R2
Die Ebene als Vektorraum
1.1 Kartesische
Koordinatensysteme.
Wir zeichnen in der Ebene einen Punkt O als
Ursprung oder Nullpunkt aus, legen durch ihn
zwei Koordinatenachsen und markieren auf
selbigen Einheitspunkte E1 und E2 . Anschließend können wir jeden Punkt P der Ebene
durch ein Zahlenpaar (x1 , x2 ) charakterisieren
und müssen für den rechnerischen Gebrauch
nicht mehr zwischen dem Punkt und seinem
Koordinatenpaar unterscheiden: P = (x1 , x2 ).
x2
P
E2
0
E1
x1
Abbildung 3.3: Kartesische Koordinaten in der Ebene.
Wir nennen (x1 , x2 ) die kartesischen Koordinaten von P und schreiben selbige wenn möglich in der Form
x1
x2 . Diese Darstellung ist für eine konsequente Anwendung des Matrizenkalküls geeigneter. Da die erste
Darstellung platzsparender ist, werden wir sie meistens im Fließtext verwenden.
1.2 Koordinatenvektoren. Wir wählen ein Koordinatensystem in der Ebene und halten es für die
weiteren Betrachtungen fest. Ist ~x ein Vektor, so können wir selbigen im Ursprung O angreifen lassen und
~ . Wir können also ~x nach Wahl eines Koordinatensystems
erhalten einen
Punkt P = (x1 , x2 ) mit ~x = OP
durch xx12 beschreiben und nennen xx12 darum Koordinatenvektor oder Ortsvektor . Die Zahlen x1 und x2
heißen Komponenten des Koordinatenvektors xx12 .
Da wir das Koordinatensystem fest gewählt haben, können wir den Vektor ~x mit seinem Koordinatenvektor gleichsetzen:
x1
~
~x = OP =
.
x2
Es sind auch Bezeichnungen der Art x oder x üblich. Später — wenn wir genug Routine haben und
keine Angst für eine Verwechslung von Vektoren und anderen Größen besteht — werden wir einfach x
schreiben.
1.3 Gleichheit von Vektoren. Zwei Vektoren xx12 und yy12 heißen gleich und wir schreiben
x1
x2
=
y1
,
y2
wenn x1 = y1 und x2 = y2 ,
d.h. wenn die beiden Ortsvektoren denselben Punkt bezeichnen.
1.4 Nullvektor, Einheitsvektoren. Der Ursprung hat als Koordinatenvektor den Nullvektor
~ = 0 .
~0 := OO
0
Die beiden zu den Einheitspunkten gehörigen Vektoren
1
0
~
~
~e1 := OE 1 =
,
~e2 := OE 2 =
0
1
nennen wir ersten bzw. zweiten Standardeinheitsvektor oder Einheitsvektoren.
1.5 Rechnen mit Vektoren. Sind zwei Koordinatenvektoren
x1
y1
~x =
und
~y =
x2
y2
§2. VEKTORRECHNUNG IM R2
82
gegeben, so erhalten wir mit dem Strahlensatz den um den Faktor λ ∈ R gestreckten Vektor zu
λx1
λ~x =
λx2
und mit der Parallelogrammkonstruktion den Summenvektor zu
x1 + y1
~x + ~y =
.
x2 + y2
x2 + y2
λx2
y2
λ~x
~x + ~y
~x
x2
x2
~x
~y
x1
λx1
x1
y1 x1 + y1
Abbildung 3.4: Vervielfachen eines Vektors, Addieren zweier Vektoren.
Damit haben wir für Koordinatenvektoren zwei Rechenoperationen eingeführt.
x1
• Die Skalarmultiplikation oder Multiplikation von Skalaren mit Vektoren λ ·
x2
x1
y1
x1 + y1
• die Vektoraddition oder Addition von Vektoren
+
:=
.
x2
y2
x2 + y2
λx1
:=
und
λx2
Üblicherweise unterdrückt man bei der Skalarmultiplikation den Malpunkt.
Achtung. Auch wenn wir (aus Tradition) für die Vektoraddition und die Skalarmultiplikation dieselben
Symbole wie für die Addition und Multiplikation im Körper R (bzw. C) verwenden, so sind diese Operationen doch anderer Natur. Dies erkennt man schon daran, für welche Objekte sie definiert sind (nämlich
für zwei Koordinatenvektoren bzw. für eine reelle Zahl und einen Koordinatenvektor und nicht für zwei
reelle oder komplexe Zahlen) und welche Objekte dabei entstehen (nämlich jeweils ein Koordinatenvektor
und nicht eine reelle oder komplexe Zahl).
1.6 Der R2 als Vektorraum. Die Menge
R2 :=
x1
| x1 , x2 ∈ R
x2
der zweikomponentigen Koordinatenvektoren zusammen mit der Vektoraddition und der Skalarmultiplikation nennen wir den Vektorraum R2 .
1.7 Standardbasis. Die beiden Einheitsvektoren ~e1 und ~e2 bilden die Standardbasis (~e1 , e~2 ) des R2 , da
jeder Vektor im R2 mittels
x1
1
0
= x1
+ x2
,
d.h. ~x = x1~e1 + x2~e2 ,
x2
0
1
in eindeutiger Form dargestellt werden kann.
83
KAPITEL 3. VEKTORRECHNUNG
1.8 Rechengesetze. Im Vektorraum R2 gelten die folgenden Rechengesetze, die man leicht selbst verifiziert.
x1
y1
y1
x1
(a)
+
=
+
, d.h. ~x + ~y = ~y + ~x,
x2
y2
y2
x2
x1
y1
z1
x1
y1
z1
(b)
+
+
=
+
+
, d.h. (~x + ~y ) + ~z = ~x + (~y + ~z),
x2
y2
z2
x2
y2
z2
x1
0
x1
(c)
+
=
, d.h. ~x + ~0 = ~x,
x2
0
x2
x1
−x1
0
1
(d)
+
=
, d.h. ~x − ~x = ~0, wobei wir mit −~x den Vektor −x
bezeichnen und statt
−x
2
x2
−x2
0
~x + (−~x) einfach ~x − ~x schreiben,
x1
y1
x1
y1
(e) λ
+
=λ
+λ
, d.h. λ(~x + ~y ) = λ~x + λ~y ,
x2
y2
x2
y2
x1
x1
(f) λ µ
= (λµ)
, d.h. λ(µ~x) = (λµ)~x,
x2
x2
x1
x1
(g) 1 ·
=
, d.h. 1 · ~x = ~x.
x2
x2
Z
1.9 Ortsvektoren, Vektoraddition und AnY
tragen von Vektoren. Wenn wir die zu zwei
~ = ~x
Punkten X und Y gehörigen Ortsvektoren OX
~ = ~y addieren, so stellen wir uns den Ortsund OY
~y
vektor ~x + ~y als Punkt Z in der Ebene vor, den
~x + ~y
X
wir durch Antragen des Vektors ~y an den Punkt X
~
erhalten. Dabei haben wir den Ortsvektor ~y = OY
~x
~ identifiziert. Diesen Umstand
mit dem Vektor XZ
O
nehmen wir momentan kommentarlos hin, werden
Abbildung 3.5: Antragen von Vektoren.
das Thema aber in §3 wieder aufgreifen.
2
Geraden und Strecken
2.1 Parametrisierung einer Geraden. Sind A
und B zwei verschiedene Punkte mit Ortsvektoren ~a und ~b, so sind die Punkte der Geraden
g = AB durch A und B durch die Ortsvektoren ~a + λ(~b − ~a) mit λ ∈ R gegeben. Wir nennen
~v := ~b − ~a Richtungsvektor und die Darstellung
g = AB = {~a + λ(~b − ~a) | λ ∈ R}
eine Parameterdarstellung oder Parametrisierung
der Geraden g durch die Punkte A und B.
−1
A
0
~a
~v
1
B
2
~b
O
g
Abbildung 3.6: Parametrisierung einer
Geraden.
Offensichtlich besitzt eine Gerade mehrere Parameterdarstellungen — wir hätten ja auf g auch ein anderes
Punktepaar wählen und obiges Vorgehen wiederholen können. Man überlege sich selbst, dass verschiedene
Parametrisierungen einer Geraden auf die folgende Weise identifiziert werden können.
2.2 Verschiedene Parametrisierungen derselben Geraden. Zwei Parametrisierungen λ 7→ ~a + λ~v
und µ 7→ ~b + µw
~ mit Richtungsvektoren ~v , w
~ 6= ~0 beschreiben genau dann ein und dieselbe Gerade, wenn
~
es Zahlen α, β ∈ R, β 6= 0, gibt mit b = ~a + α~v und w
~ = β~v .
§2. VEKTORRECHNUNG IM R2
84
2.3 Verbindungsstrecke zweier Punkte. Wenn wir zu der in 2.1 genannten Parametrisierung der
Geraden durch A und B den Parameter λ nur in [0, 1] laufen lassen, so erhalten wir die Verbindungsstrecke
von A und B. Bezeichnen wir selbige mit [AB] so gilt
[AB] = {~a + λ(~b − ~a) | λ ∈ [0, 1]} = {λ~a + (1 − λ)~b | λ ∈ [0, 1]} = {λ~a + µ~b | λ, µ ∈ R+
0 , λ + µ = 1}.
2.4 Mittelpunkt. Den Mittelpunkt der Strecke [AB] erhalten wir zu
1
(~a + ~b).
2
Sind allgemein n Punkte A1 , . . . , An mit Ortsvektoren ~a1 , . . . , ~an gegeben, so nennen wir
1
(~a1 + · · · + ~an )
n
ihren Mittelpunkt.
2.5 Schnitt zweier Geraden. Von unserer geometrischen Anschauung her ist klar, dass zwei Geraden
g = {~a + λ~v | λ ∈ R}
h = {~b + µw
~ | µ ∈ R}
und
dann und nur dann genau einen gemeinsamen Punkt besitzen, wenn der Richtungsvektor ~v von g kein
Vielfaches des Richtungsvektors w
~ von h ist. Ist dagegen ~v ein Vielfaches von w,
~ so nennen wir g und h
parallel und haben zwei Fälle zu unterscheiden, je nachdem ob g und h identisch sind (dann haben sie
alle ihre Punkte gemeinsam) oder nicht (dann haben sie keinen Punkt gemeinsam).
Rechnerisch läuft das auf die Betrachtung des Lösungsverhaltens von
~a + λ~v = ~b + µw
~
in Abhängigkeit von den Parametern λ und µ d.h. auf das Lösungsverhalten des linearen Gleichungssystems
v1 λ − w1 µ =
b1 − a1
v2 λ − w2 µ =
b2 − a2
hinaus. Dabei sind die Zahlen a1 , a2 , b1 , b2 , v1 , v2 , w1 , w2 gegeben und die Variablen λ und µ werden
gesucht. Solche Gleichungssysteme wollen wir jetzt kurz diskutieren.
2.6 Lineare (2 × 2)-Gleichungssysteme. Für gegebene reelle Zahlen a11 , a12 , a21 , a22 , b1 , b2 hat das
lineare Gleichunggssystem
a11 x1 + a12 x2
= b1
a21 x1 + a22 x2
= b2
genau dann eine eindeutig bestimmte Lösung (x1 , x2 ), wenn
D := a11 a22 − a12 a21 6= 0
in diesem Fall gilt für die Lösung
a22 b1 − a12 b2
,
D
Für D = 0 besitzt das Gleichungssystem
x1 =
x2 =
a11 b2 − a21 b1
.
D
• alle (x1 , x2 ) ∈ R2 als Lösung, falls a11 = a12 = a21 = a22 = b1 = b2 = 0,
12
1
• alle Lösungen auf der Geraden {(− aa11
x2 + ab11
, x2 ) | x2 ∈ R}, falls a11 6= 0 und a21 b1 = a11 b2 , bzw.
analoges Lösungsverhalten in den drei Fällen, die man durch Vertauschen der Gleichungen bzw. der
Variablen erhält,
• andernfalls keine Lösung.
Den recht undramatischen Beweis führt man durch ordentliches Nachrechnen. Die Aussage bleibt übrigens
erhalten, wenn man überall R durch C ersetzt.
85
KAPITEL 3. VEKTORRECHNUNG
3
Matrizenkalkül für (2 × 2)-Matrizen, Gruppen
3.1 Matrizen, Produkt von Matrix und Vektor. Effizient können wir das Lösungsverhalten
von
a12
linearen (2 × 2)-Gleichungssystemen formulieren, wenn wir die beiden Vektoren aa11
und
zu
einem
a22
21
(2 × 2)-Schema
a11 a12
A :=
,
a21 a22
genannt Matrix (genauer (2 × 2)-Matrix), zusammenfassen und das Produkt einer Matrix mit einem
Vektor einer Matrix A mit einem Vektor ~x erklären als
x1
a11 x1 + a12 x2
a11 a12
A~x =
:=
.
a21 a22
x2
a21 x1 + a22 x2
Dann können wir das Gleichungssystem knapp in der Form
A~x = ~b
schreiben.
3.2 Determinante, inverse Matrix. Nennen wir
a11 a12 := a11 a22 − a12 a21
det(A) = |A| = a21 a22 die Determinante, so können wir die im Fall det(A) 6= 0 eindeutig bestimmte Lösung von A~x = ~b in der
Form
1
a22 −a12
−1~
−1
,
d.h.
mit A :=
~x = A b,
det(A) −a21 a11
x1
b1
1
a22 −a12
=
,
a11 a22 − a12 a21 −a21 a11
x2
b2
schreiben, wobei die soeben für det(A) 6= 0 definierte Matrix A−1 die zu A inverse Matrix genannt wird.
3.3 Produkt von Matrizen. Erweitern wir unsere Definition des Produkts einer Matrix mit einem
Vektor auf das Produkt zweier Matrizen A und B
a11 a12
b11 b12
A · B = AB =
a21 a22
b21 b22
b11
b12
a11 b11 + a12 b21 a11 b12 + a12 b22
=:
A
,A
=
,
a21 b11 + a22 b21 a21 b12 + a22 b22
b21
b22
indem wir selbiges dadurch definieren, dass wir die beiden Spaltenvektoren bb11
und bb21
der zweiten
21
22
Matrix an die erste Matrix multiplizieren, um die beiden Spalten
b11
a11 b11 + a12 b21
b12
a11 b12 + a12 b22
A
=
und
A
=
b21
a21 b11 + a22 b21
b22
a21 b12 + a22 b22
der Produktmatrix AB zu erhalten. Durch Nachrechnen verifiziert man insbesondere
1 0
−1
−1
AA = A A =
=: E.
0 1
Wir nennen E die Einheitsmatrix (genauer (2 × 2)-Einheitsmatrix).
Achtung. Die Formeln zum Multiplizieren einer Matrix mit einem Vektor und zum Multiplizieren muss
man auswendig lernen, insbesondere den Satz „Die Spalten der Produktmatrix AB erhält man, indem
man die Spalten von B an die Matrix A multipliziert.“
§2. VEKTORRECHNUNG IM R2
86
Das Beispiel
A=
1
2
0
,
3
B=
1
1
1
,
1
1
AB =
5
1
,
5
3
BA =
3
3
3
zeigt, dass es beim Matrizenprodukt auf die Reihenfolge ankommt. Übrigens gilt det(B) = 0, d.h. B ist
nicht invertierbar. Wie steht es mit A, AB und BA? Wie lautet gegebenenfalls die inverse Matrix?
3.4∗ Definition: Gruppe. Für die Menge R2×2 der invertierbaren (2 × 2)-Matrizen mit reellen Komponenten zusammen mit der Matrizenmultiplikation „·“ als Operation gilt
(G1) Assoziativgesetz : für alle A, B, C gilt (A · B) · C = A · (B · C),
(G2) neutrales Element: es gibt ein E mit A · E = E · A = A für alle A,
(G3) inverse Elemente: zu jedem A gibt es ein A−1 mit A · A−1 = A−1 · A = E.
Allgemein nennen wir eine Menge M zusammen mit einer Operation „·“, welche zwei Elementen A, B ∈ M
ein wohlbestimmtes Element A · B ∈ M zuordnet, eine Gruppe, wenn (G1)–(G3) erfüllt sind. Gilt zusätzlich
(G4) Kommutativgesetz : für alle A, B gilt A · B = B · A,
so heißt die Gruppe M abelsch oder kommutativ .
Ist eine nichtleere Teilmenge N ⊆ M nennen wir Untergruppe von M , wenn N mit der von M geerbten
Operation „·“ selbst eine Gruppe ist. Dies kann man dadurch nachweisen, dass man E ∈ N nachweist
und zeigt, dass aus A, B ∈ N auch A · B −1 ∈ N folgt.
3.5∗ Beispiele für Gruppen.
(a) Die invertierbaren (2 × 2)-Matrizen bilden bezüglich der Matrizenmultiplikation eine Gruppe. Diese
Gruppe ist nicht abelsch. Sie wird mit GL(2) bezeichnet. Manchmal unterscheidet man auch, ob die
Matrizen reelle oder komplexe Einträge besitzen dürfen und schreibt dann GL(2, R) bzw. GL(2, C).
(b) Die ganzen Zahlen bilden zusammen mit der Addition „+“ eine abelsche Gruppe, ebenso Q, R und
C. Damit sind Z ⊂ Q ⊂ R Untergruppen der additiven Gruppe C.
(c) Die positiven rationalen Zahlen bilden zusammen mit der Multiplikation „·“ eine abelsche Gruppe,
ebenso R+ , R r {0} und C r {0}. Daher sind Q+ ⊂ R+ ⊂ R r {0} Untergruppen der multiplikativen
Gruppe C r {0}.
(d) Die Vektoren im R2 bilden zusammen mit der Vektoraddition eine abelsche Gruppe.
4
Abstand, Länge, Winkel
4.1 Vorbemerkung. Wir haben schon eine ganze Menge Nutzbringendes über Vektorrechung im R2
gelernt. Einen ganz wichtigen Aspekt haben wir dabei aber noch gar nicht berührt: Die Messung von
Längen und Winkeln.
4.2 Norm und Länge. Für einen Vektor ~x im R2 nennen wir
p
k~xk := x1 2 + x2 2
die Norm oder Länge von ~x. Ein Vektor ~x mit k~xk = 1 heißt normiert.
Wenn wir daran denken, dass wir den R2 schon als Gaußsche Zahlenebene kennen, ist das nichts anderes
als ein neuer Name für den Betrag einer komplexen Zahl mit Realteil x1 und Imaginärteil x2 . Die Norm
eines Vektors gibt also dessen Abstand vom Ursprung an.
87
KAPITEL 3. VEKTORRECHNUNG
4.3 Abstand und Dreiecksungleichung. Für zwei
Vektoren ~x und ~y im R2 heißt
p
k~x − ~y k = (x1 − y1 )2 + (x2 − y2 )2
C
~x
der Abstand von ~x und ~y .
~y
Wie in der Gaußschen Zahlenebene erhalten wir die
Dreiecksungleichung
~x + ~y
A
k~x + ~y k ≤ k~xk + k~y k
B
und haben als geometrische Interpretation: der Weg von
A nach B wird nicht kürzer, wenn man über C geht.
Abbildung 3.7: Dreiecksungleichung im R2 .
4.4 Orientierter Winkel. Für zwei Vektoren ~x 6= ~0
und ~y 6= ~0 im R2 bilden wir die zugehörigen komplexen
Zahlen z = x1 + ix2 und w = y1 + iy2 . Dann gilt in Polarkoordinaten z = reiϕ , w = ρeiψ mit Radien r, ρ > 0
und Argumenten ϕ, ψ ∈ [0, 2π[. Wir nennen
~y
](~x, ~y ) := ψ − ϕ
ψ
ψ−ϕ
den (orientierten) Winkel zwischen ~x und ~y . Er ist
eindeutig bis auf ein ganzzahliges Vielfaches von 2π.
Eine kurze Rechnung unter Verwendung der Polarkoordinatendarstellungen (x1 , x2 ) = (r cos ϕ, r sin ϕ) und
(y1 , y2 ) = (ρ cos ψ, ρ sin ψ) zeigt
~x
ϕ
0
Abbildung 3.8: Orientierter Winkel zwischen zwei Vektoren im R2 .
x1 y1 + x2 y2 = rρ(cos ϕ cos ψ + sin ϕ sin ψ) = k~xkk~y k cos(ψ − ϕ).
Wir erhalten also den Cosinus des Winkels ](~x, ~y ) = ψ − ϕ zwischen ~x und ~y in der Form
x1 y1 + x2 y2
cos(](~x, ~y )) =
.
k~xk · k~y k
4.5 Skalarprodukt. Für zwei Vektoren ~x und ~y im R2 heißt die reelle Zahl
h~x|~y i := x1 y1 + x2 y2
das Skalarprodukt von ~x und ~y .
Manchmal wird dies auch Innenprodukt genannt. Man mache sich klar, welche Unterschiede zwischen der
Skalarmultiplikation und dem Skalarprodukt bestehen!
Die ersten drei der folgenden Rechenregeln für das Skalarprodukt sind unmittelbar einsichtig.
(a) Linearität: h~x + ~y |~zi = h~x|~zi + h~y |~zi,
(b) Symmetrie: h~x|~y i = h~y |~xi,
(c) positive Definitheit: h~x|~xi = k~xk2 ≥ 0 mit Gleichheit genau dann, wenn ~x = ~0,
(d) Cauchy-Schwarzsche Ungleichung: |h~x|~y i| ≤ k~xkk~y k.
4.6 Cosinussatz. Zum Beweis der Regel (d) bemerken wir, dass für ~x, ~y 6= ~0 gemäß 4.4 gerade
cos ](~x, ~y ) =
h~x|~y i
k~xkk~y k
der Cosinus des Winkels zwischen ~x und ~y ist, d.h. eine Zahl im Intervall [−1, 1]. Ist ~x oder ~y der
Nullvektor, so gilt die Cauchy-Schwarzsche Ungleichung trivialerweise, da beide Seiten verschwinden.
§2. VEKTORRECHNUNG IM R2
88
Mit obiger Darstellung des Winkels zwischen ~x und ~y haben wir auch den Cosinussatz im allgemeinen
Dreieck
k~x − ~y k2 = k~xk2 + k~y k2 − 2k~xkk~y k cos ](~x, ~y )
~y
~x − ~y
bewiesen. Es gilt nämlich
k~x − ~y k2
(c)
=
(a)
=
(b),(c)
=
](~x, ~y )
h~x − ~y |~x − ~y i
h~x|~xi − h~x|~y i − h~y |~xi + h~y |~y i
~x
k~xk2 − 2h~x|~y i + k~y k2
Abbildung 3.9: Cosinussatz.
und wir können 2h~x|~y i wie zuvor diskutiert durch 2k~xkk~y k cos ](~x, ~y ) ersetzen.
4.7 Der R2 als euklidischer Vektorraum. Der Vektorraum R2 zusammen mit dem Skalarprodukt
wird euklidischer Vektorraum R2 genannt.
Erst das Zusammenspiel von Vektoraddition, Skalarmultiplikation und Skalarprodukt (welches, wie wir
gesehen haben, sowohl Längen- als auch Winkelmessung erlaubt) stellt sicher, dass wir uns im R2 in der
gewohnten Weise geometrisch betätigen können.
5
Orthogonalität
5.1 Orthogonalität. Zwei Vektoren ~x und ~y im R2 mit h~x|~y i = 0 heißen orthogonal oder senkrecht.
Wir schreiben dann ~x ⊥ ~y .
Sind zwei Vektoren orthogonal, so ist entweder einer der beiden Vektoren der Nullvektor oder sie schließen
einen Winkel ±π/2 miteinander ein. Die Tatsache, dass der Nullvektor orthogonal zu jedem Vektor ist,
sollte einfach als nützliche Vereinbarung gesehen werden.
5.2 Normalenvektor. Zu einem Vektor ~x = xx12 6= ~0 nennen wir
1 −x2
−x2
1
~n :=
=√ 2
k~xk x1
x1 + x2 2 x1
den Normalenvektor zu ~x. Es gilt k~nk = 1 und h~x|~ni = 0, d.h. der Normalenvektor zu ~x ist normiert und
steht senkrecht auf ~x. Mit ~n steht auch jeder Vektor λ~n, λ ∈ R auf ~x senkrecht, insbesondere auch −~n.
5.3 Normalenform einer Geraden. Für einen Vektor ~n 6= ~0 und eine Zahl c ∈ R heißt die Darstellung
g
=
=
{~x ∈ R2 | h~x|~ni = c}
x1
2
∈ R | n1 x1 + n2 x2 = c
x2
~n
~a
g
eine Normalendarstellung der Geraden g.
Als Beweis dafür, dass so eine Gerade dargestellt werden
kann, geben wir die Umrechnungen von Normalenform
in Parameterdarstellung und umgekehrt an.
~v
Abbildung 3.10: Normalenform und Parameterdarstellung einer Geraden.
Zur Umrechnung von einer Parameterdarstellung λ 7→ ~a + λ~v von g in eine Normalenform bilden wir den
Normalenvektor ~n zum Richtungsvektor ~v und erhalten wegen h~v |~ni = 0 dann
h~a + λ~v |~ni = h~a|~ni + λh~v |~ni = h~a|~ni =: c
unabhängig von λ. Dies liefert uns die Normalenform h~x|~ni = c.
89
KAPITEL 3. VEKTORRECHNUNG
Liegt umgekehrt für g eine Normalendarstellung h~x|~ni = c vor, so bilden wir den Normalenvektor zu ~n
um einen Richtungsvektor ~v für eine Parameterdarstellung von g zu erhalten und finden einen Punkt ~a
auf g, indem wir beispielsweise (a1 , a2 ) = (c/n1 , 0) für n1 6= 0 bzw. (a1 , a2 ) = (0, c/n2 ) für n2 6= 0 setzen.
5.4 Orthogonale Projektion. Zu einer Ursprungsgeraden g mit Parametrisierung λ 7→ λ~v mit k~v k = 1 und
einem Punkt ~a ∈
/ g ist der Punkt ~u ∈ g mit kleinstem
Abstand zu ~a gegeben durch λ = h~a|~v i, d.h.
g
~a
~u
~u = h~a|~v i~v ,
und ~u − ~a ist orthogonal zu ~v . Wir nennen ~u den Lotfußpunkt oder die orthogonale Projektion von ~a auf g.
0
~v
Abbildung 3.11: Lotfußpunkt (orthogonale
Projektion).
Beweis. Um den Abstand k~a − λ~v k von Punkten λ~v ∈ g zu ~a zu minimieren, betrachten wir (unter
Verwendung der Rechenregeln für das Skalarprodukt und mit einer quadratischen Ergänzung)
k~a − λ~v k2
= h~a − λ~v |~a − λ~v i = h~a|~ai − λh~v |~ai − λh~a|~v i + λ2 h~v |~v i
= k~ak2 − 2λh~a|~v i + λ2 = k~ak2 − h~a|~v i2 + (h~a|~v i − λ)2 .
Da k~v k2 − h~a|~v i2 von λ unabhängig ist, wird k~a − λ~v k2 und damit k~a − λ~v k nach obiger Darstellung genau
für h~a|~v i − λ = 0 minimal. Für ~u := h~a|~v i~v folgt mit h~v |~v i = 1 dann
h~u − ~a|~v i = hh~a|~v i~v − ~a|~v i = h~a|~v ih~v |~v i − h~a|~v i = 0.
6
Längen- und winkelerhaltende Abbildungen
6.1 Ebene Drehmatrizen. Für ϕ ∈ R nennen wir
cos ϕ − sin ϕ
Uϕ :=
sin ϕ cos ϕ
eine (ebene) Drehmatrix .
Man verifiziere die folgenden Formeln durch Nachrechnen der Matrizenprodukte.
(a) U0 = E,
(b) Uϕ Uψ = Uϕ+ψ = Uψ Uϕ , d.h. insbesondere Uϕ U−ϕ = E = U−ϕ Uϕ und damit Uϕ −1 = U−ϕ .
Die ebenen Drehmatrizen bilden bezüglich der Matrizenmultiplikation eine abelsche Gruppe.
Diese Gruppe nennen wir spezielle orthogonale Gruppe der Ordnung 2 und bezeichnen sie mit SO(2). Die
SO(2) ist eine abelsche Untergruppe der nichtabelschen Gruppe GL(2).
6.2 Drehung. Für ϕ ∈ R nennen wir die Abbildung
x1
x1
cos ϕ − sin ϕ
x1 cos ϕ − x2 sin ϕ
2
2
Dϕ : R → R ,
Dϕ (x1 , x2 ) := Uϕ
=
=
,
sin ϕ cos ϕ
x1 sin ϕ + x2 cos ϕ
x2
x2
eine (orientierte) Drehung um den Winkel ϕ.
Schreiben wir ~x = xx12 als komplexe Zahl z = x1 + ix2 , so entpuppen sich die eben angegebenen Koordinaten von Dϕ (x1 , x2 ) als Real- bzw. Imaginärteil von eiϕ z. Die Abbildung Dϕ bewirkt also tatsächlich
eine Drehung mit dem Ursprung als Drehzentrum um den Winkel ϕ im mathematisch positiven Sinn.
Man verifziere die folgende Aussage selbständig:
Die Drehungen in der Ebene bilden bezüglich der Hintereinanderausführung von Abbildungen eine abelsche
Gruppe.
90
§2. VEKTORRECHNUNG IM R2
6.3 Verschiebung. Für ~a ∈ R2 nennen wir die Abbildung
x1
a1
x1 + a 1
T~a : R2 → R2 ,
T~a (x1 , x2 ) =
+
=
,
x2
a2
x2 + a2
eine Translation oder Verschiebung um den Vektor ~a.
Die folgenden Aussagen über Translationen sind offensichtlich.
(c) Die Translation um den Nullvektor bewegt nichts, wirkt also wie die identische Abbildung: T~0 = idR2 .
(d) Die Hintereinanderausführung zweier Translationen um ~a und ~b wirkt wie eine um ~a +~b: T~b ◦T~a = T~a+~b ,
insbesondere wird eine Translation um ~a durch eine um −~a aufgehoben T~a ◦ T−~a = T~a−~a = idR2 und
damit T~a−1 = T−~a .
Die Translationen bilden bezüglich der Hintereinanderausführung von Abbildungen eine abelsche Gruppe.
6.4 Längen- und winkelerhaltende Abbildungen. Eine Abbildung f : R2 → R2 erhält genau dann
Längen und Winkel, wenn
h~x|~y i = hf (~x)|f (~y )i
für alle ~x, ~y ∈ R2 .
Für die Wahl ~x = ~y folgt dann nämlich k~xk2 = h~x|~xi = hf (~x)|f (~x)i = kf (~x)k2 und f ist längenerhaltend.
Ähnlich zeigt man cos ](~x, ~y ) = cos ](f (~x), f (~y )) mit 4.6, d.h. Winkel bleiben auch erhalten.
Insbesondere sind Drehungen in der Ebene längen-, abstands- und winkelerhaltend. Verschiebungen in
der Ebene erhalten Abstände und Winkel, i.A. nicht aber Längen.
Abstands- und winkelerhaltende Abbildungen werden auch euklidische Bewegungen oder Kongruenzabbildungen genannt. In der Mechanik beschreiben sie beispielsweise die Bewegung eines starren Körpers.
Man kann zeigen, das jede Kongruenzabbildung der Ebene als Hintereinderausführung von endlich vielen
Drehungen, Verschiebungen und Spiegelungen geschrieben werden kann. Spiegelungen wollen wir hier
nicht behandeln, da sie im Gegensatz zu Verschiebungen und Drehungen die Orientierung von Winkeln
verändern.
Die euklidischen Bewegungen in der Ebene bilden bezüglich der Hintereinanderausführung eine Gruppe
(man überlege sich selbst, warum). Die Drehungen und Translationen sind Untergruppen dieser Gruppe.
6.5 Koordinatenwechsel. Bisher haben wir bei unseren Betrachtungen ein kartesisches Koordinatensystem in der Ebene fest fixiert. Diese Festlegung hatte uns die Identifizierung von Punkten in der Ebene
mit Koordinatenvektoren erlaubt.
Nun wollen wir ein zweites Koordinatensystem hinzunehmen und untersuchen, wie sich die Koordinatendarstellung eines Punktes beim Übergang vom ursprünglichen zum neuen Koordinatensystem verändert.
Um in neuen und alten Koordinaten dieselbe Längen- und Winkelmessung zu haben, benutzen wir eine
euklidische Bewegung, um die Koordinatensysteme ineinander überzuführen. Dabei müssen wir die bisher
gemachte Identifizierung von Punkten und Koordinatenvektoren aufheben und jeweils angeben, bezüglich
welches Koordinatensystems wir die Koordinaten eines Punktes angeben.
Wird das Koordinatensystem um ~a verschoben bzw. um ϕ um den Ursprung gedreht, so wirkt sich das
für die Koordinaten eines Punktes P wie eine Verschiebung um −~a bzw. eine Drehung um den Ursprung
um −ϕ aus.
Ist nämlich f eine euklidische Bewegung (z.B. eine Translation oder eine Drehung), die das alte Koordinatensystem in das neue überführt, so können wir zunächst diese Bewegung als eine Bewegung der
kompletten Ebene auffassen, müssen aber anschließend die Punkte wieder mit der zu f inversen Bewegung zurückbewegen, da wir nur das Koordinatensystem, nicht aber die Punkte geändert haben. Die erste
Operation ändert zwar die Vektoren, aber nicht ihre Koordinaten. Die zweite dagegen ändert die Koordinaten, bewegt die Vektoren aber wieder in ihren ursprünglichen Zustand zurück, so dass sich letztlich
nichts ändert.
91
KAPITEL 3. VEKTORRECHNUNG
x02 = x2 − a2
x2
x2
x01 = cos(ϕ)x1 + sin(ϕ)x2
x01 = x1 − a1
~a
x02 = − sin(ϕ)x1 + cos(ϕ)x2
ϕ
x1
x1
x1 0
x2 0
=
x1 − a1
x2 − a2
=
x1
x2
P
P
−
a1
a2
x1 0
x2 0
=
cos(ϕ)x1 + sin(ϕ)x2
− sin(ϕ)x1 + cos(ϕ)x2
= D−ϕ
x1
x2
Abbildung 3.12: Koordinatenumrechung bei einer Verschiebung des Koordinatensystems um ~a bzw. bei
einer Drehung um ϕ um den Ursprung.
§3
1
Vektorrechnung im Rn
Vektorräume und euklidische Vektorräume
1.1 Vorbemerkung. Im vorangegangenen Paragraphen haben wir in der Ebene ein Koordinatensystem
fixiert und anschließend mit Hilfe von Koordinatenvektoren geometrische Probleme behandelt.
Bei vielen Fragestellungen in den Anwendungen möchte man aber das Koordinatensystem wechseln und
dem Problem anpassen. Man denke an Schwerpunktkoordinaten in der Mechanik oder Hauptträgheitsachsen beim Kreisel. Dann wird aber die Frage nach dem Transformationsverhalten beim Wechsel des
Koordinatensystems interessant. Diese Problematik haben wir schon in §2.6.5 kennengelernt.
Wir müssen also unterscheiden zwischen den geometrischen und physikalischen Objekten einerseits und
deren verschiedenen Koordinatendarstellungen andererseits. Dies erfordert eine koordinatenfreie Darstellung der Theorie, welche wir jetzt zur Verfügung stellen.
Wir nehmen die grundlegenden Rechenregeln §2.1.8 für Koordinatenvektoren im R2 , um allgemein zu
erklären was ein Vektorraum ist. Auch wenn die Begriffsbildung zunächst recht abstrakt erscheint, sie hat
dennoch die geschilderten konkreten Wurzeln. Ihren Nutzen werden wir sofort einsehen, da sich viele schon
bekannte Strukturen als Vektorräume entpuppen, nicht nur solche, die wir aus der Geometrie kennen.
1.2 Definition: Vektorraum. Eine nichtleere Menge V heißt Vektorraum über R (über C) oder RVektorraum (C-Vektorraum), wenn auf V eine Vektoraddition „+“ und eine Skalarmultiplikation „·“ erklärt sind, so dass folgende Regeln gelten:
(VR1) Abgeschlossenheit: Für ~v , w
~ ∈ V und λ ∈ R (λ ∈ C) gilt ~v + w
~ ∈ V und λ · ~v ∈ V .
(VR2) V bildet bezüglich der Vektoraddition „+“ eine abelsche Gruppe, d.h.
•
•
•
•
Assoziativität: (~u + ~v ) + w
~ = ~u + (~v + w),
~
Kommutativität: ~v + w
~ =w
~ + ~v ,
neutrales Element: es gibt einen Vektor ~0 mit ~v + ~0 = ~v für alle ~v ∈ V ,
inverse Elemente: zu jedem ~v ∈ V existiert genau ein Vektor, genannt −~v , mit ~v + (−~v ) = ~0.
(VR3) Für λ, µ ∈ R (λ, µ ∈ C) und ~v , w
~ ∈ V gilt
•
•
•
•
1. Distributivgesetz : (λ + µ) · ~v = λ · ~v + µ · ~v .
2. Distributivgesetz : λ · (~v + w)
~ = λ · ~v + λ · w.
~
Assoziativgesetz : λ · (µ · ~v ) = (λµ) · ~v .
Normierung: 1 · ~v = ~v .
§3. VEKTORRECHNUNG IM RN
92
Die Elemente von V heißen Vektoren, die von R (von C) Skalare. Man nennt R (C) auch den Grundkörper
des Vektorraums. Das neutrale Element der Vektoraddition ~0 nennen wir Nullvektor . Wie üblich schreiben
wir ~v − w
~ für ~v + (−w),
~ unterdrücken den Malpunkt bei der Skalarmultiplikation λ~v und vereinbaren,
dass Punktrechung vor Stichrechnung geht.
Achtung. Die Skalarmultiplikation erfüllt andere Rechenregeln als die Multiplikation in einem Körper
und ist auch von anderer Natur (vgl. §2.1.8).
1.3 Anmerkung zu den Vektorraumaxiomen. Keines dieser Axiome ist überflüssig. Die Normierung
beispielsweise stellt sicher, dass die Vektoraddition mit der Addition im Zahlenraum übereinstimmt:
~v + ~v = 1~v + 1~v = (1 + 1)~v = 2~v und analog für n Summanden ~v + · · · + ~v = n~v .
Ähnlich wie aus den Körperaxiomen (A1)–(A5) kann man aus den Vektorraumaxiomen weitere Rechenregeln ableiten, z.B. 0~v = ~0.
Wir haben eben K-Vektorräume nicht nur für den Grundkörper K = R sondern auch für K = C definiert.
Das stellt jetzt keinen zusätzlichen Aufwand dar, wird sich aber bald als praktisch erweisen. Wir hätten
als Grundkörper K sogar einen beliebigen Körper zulassen können. Wenn wir im Folgenden von einem
„K-Vektorraum“ sprechen, so steht K immer für R oder C (und wollen uns nur Schreibarbeit sparen).
1.4 Unterraum. Eine nichtleere Teilmenge U eines K-Vektorraums V nennen wir Unterraum, Teilraum
oder Untervektorraum, wenn U mit der Vektoraddition und der Skalarmultiplikation aus V selbst ein
K-Vektorraum ist.
Einen Unterraum entlarvt man nicht durch stumpfsinniges Nachprüfen aller drei Vektorraumaxiome
(VR1)–(VR3). Man mache sich selbst klar, dass lediglich (VR1) nachgeprüft werden muss, während
(VR2) und (VR3) sich dann automatisch vom Raum auf den Unterraum übertragen.
1.5 Nachweis von Unterräumen. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau
dann ein Unterraum, wenn mit ~v , w
~ ∈ U und λ ∈ K auch ~v + w
~ ∈ U und λ~v ∈ U gilt.
Für einen Unterraum U müssen wir also folgende drei Dinge nachweisen:
• U 6= ∅
• ~v , w
~ ∈ U ⇒ ~v + w
~ ∈U
• ~v ∈ U, λ ∈ K ⇒ λ~v ∈ U
Den ersten Punkt erledigt man gerne durch den Nachweis von ~0 ∈ U , die beiden anderen kann man in
der Form ~v , w
~ ∈ U, λ, µ ∈ K ⇒ λ~v + µw
~ ∈ U auf einmal erledigen. Man sagt dann, dass U bezüglich der
Vektorraddition und der Skalarmultiplikation abgeschlossen ist.
Für jeden Vektorraum V sind {~0} und V selbst Unterräume von V . Der Nullvektor ist in jedem Unterraum
enthalten.
Die einelementige Menge {~0} nennen wir auch Nullraum.
1.6 Der Rn als Vektorraum. Die Menge
 



 x1 
 
Rn :=  ...  x1 , . . . , xn ∈ R




xn
der geordneten n-Tupel reeller Zahlen (auch Spaltenvektoren genannt) zusammen mit der durch
   


 


x1
y1
x1 + y1
x1
λx1
 ..   .. 


 


..
λ  ...  :=  ... 
 .  +  .  := 
,
.
xn
yn
xn + yn
xn
λxn
definierten Vektoraddition bzw. Skalarmultiplikation über dem Grundkörper R nennen wir den Vektorraum Rn .
93
KAPITEL 3. VEKTORRECHNUNG
Man verifiziere selbst, dass die Vektorraumaxiome (VR1)–(VR3) erfüllt sind.
Um Platz zu sparen, werden wir im Fließtext die Spaltenvektoren auch in der Form (x1 , . . . , xn ) als
Zeilenvektoren schreiben. Für den Matrizenkalkül ist aber die Spaltenschreibweise die richtige.
Die reellen Zahlen können wir als 1-Tupel auffassen. Die Skalarmultiplikation ist dann (ausnahmsweise)
gerade die gewöhnliche Multiplikation reeller Zahlen und die Vektorraumaxiome sind in den Körperaxiomen für R enthalten. Wir fassen also R als Spezialfall des Rn für n = 1 auf.
1.7 Wozu ist der Rn nutze? Dass wir neben dem R2 als Modell der Ebene den R3 als Modell des
dreidimensionalen Anschauungsraums benötigen, liegt auf der Hand. Wozu ist aber der Rn notwendig?
Nun, beispielsweise, um den Zustand eines Systems von k Massenpunkten (z.B. Satelliten) zu beschreiben.
Ist nämlich der Zustand eines frei beweglichen Massenpunktes durch die drei Ortskoordinaten und drei
Geschwindigkeitskoordinaten beschrieben, so benötigen wir den R6k als Konfigurationsraum, um das
gesamte System zu beschreiben. In der speziellen Relativitätstheorie wird sich der R4 als vierdimensionale
Raum-Zeit nützlich erweisen.
1.8 Der Cn als Vektorraum. Die Menge

 



 z1  ..  n
C :=  .  z1 , . . . , zn ∈ C




zn
der geordneten n-Tupel komplexer Zahlen zusammen mit der durch
   


 


z1
w1
z1 + w1
z1
λz1
 ..   .. 


 


..
λ  ...  :=  ... 
 .  +  .  := 
,
.
zn
wn
zn + wn
zn
λzn
definierten Vektoraddition bzw. Skalarmultiplikation über dem Grundkörper C nennen wir den Vektorraum Cn .
Für den Cn gilt das zuvor über den Rn Gesagte analog.
Die Menge C der komplexen Zahlen können wir einerseits als Vektorraum C1 auffassen, andererseits als
den R2 . Der Unterschied liegt im jeweils verwendeten Grundkörper: bei C1 ist es C, beim R2 ist es R.
1.9 Folgenräume. Die Menge aller reellen Zahlenfolgen (an )n wird zusammen mit den Operationen
(an )n + (bn )n := (an + bn )n ,
λ(an )n := (λan )n
ein R-Vektorraum, den wir mit RN bezeichnen. Analog macht man die komplexen Zahlenfolgen zu einem
C-Vektorraum CN . Wir nennen diese beiden Vektorräume Folgenräume über R bzw. über C.
Beispiel. Für eine Zahl λ und zwei konvergente Zahlenfolgen (an )n und (bn )n konvergieren auch (λan )n
und (an + bn )n . Also ist die Teilmenge der konvergenten Zahlenfolgen ein Teilraum des Folgenraums.
1.10 Funktionenräume. Ist D eine nichtleere Menge, so wird die Menge
F(D, K) := {f | f : D → K}
aller Funktionen mit Definitionsbereich D und Werten in K zusammen mit der Addition von Funktionen
und der Multiplikation mit Konstanten
f + g : D → K,
x 7→ f (x) + g(x),
zu einem K-Vektorraum, dem Funktionenraum über K.
λf : D → K,
x 7→ λf (x),
§3. VEKTORRECHNUNG IM RN
94
Beispiele. Da Summen und Vielfache von Polynomen wieder Polynome sind, bilden die Polynome einen
Unterraum des Funktionenraums (wobei wir als Definitionsbereich R oder C wählen können). Die Polynome vom Grad höchstens n (zusammen mit dem Nullpolynom) bilden für ein vorgegebenes n ∈ N0 ihrerseits
einen Teilraum des Polynomraums. Später werden wir einsehen, dass die stetigen, die differenzierbaren
bzw. die integrierbaren Funktionen f : D → K (für jeweils einen fest vorgegebenen Definitionsbereich D)
ebenfalls Unterräume von F(D, K) sind.
Alle bisher vorgestellten Beispiele für Vektorräume sind Spezialfälle dieses Vektorraumes: ein n-Tupel ist
eine Funktion mit Definitionsbereich {1, 2, . . . , n}, d.h. Rn = F({1, . . . , n}, R), Cn = F({1, . . . , n}, C),
und eine Zahlenfolge eine Funktion mit Definitionsbereich N, d.h. RN = F(N, R), CN = F(N, C).
1.11 Wozu abstrakte Vektorräume? Die letzten Beispiele zeigen, wie sehr es um uns herum von
Vektorräumen „wimmelt“. Tatsächlich werden z.B. in der Quantenmechanik oder beim Lösen von Differentialgleichungen diverse Funktionenräume benutzt. Auch wenn in diesem Kapitel die konkreten Anwendungen in der Geometrie im Vordergrund stehen, wollen wir schon jetzt anfangen, uns an sie zu
gewöhnen. Das gilt insbesondere für die nachfolgenden Begriffe.
1.12 Linearkombination. Sind ~v1 , . . . , ~vn Vektoren aus einem K-Vektorraum V und sind λ1 . . . , λn
Skalare aus dem Grundkörper K, so nennen wir
λ1~v1 + · · · + λn~vn =
n
X
λk~vk
k=1
eine Linearkombination der Vektoren ~v1 , . . . , ~vn .
Linearkombinationen sind uns in §2 schon mehrfach begegnet: x1~e1 + x2~e2 , ~a + λ(~b − ~a).
1.13 Superpositionsprinzip. Wir sagen, dass eine Teilmenge U eines Vektorraums V einem Superpositionsprinzip gehorcht, wenn jede Linearkombination von Vektoren aus U schon in U enthalten ist.
Offensichtlicher erfüllen Unterräume das Superpositionsprinzip. Gleich werden wir sehen, dass dies sogar charakteristisch für Unterräume ist, d.h. dass als einzige Teilmengen von V die Unterräume dem
Superpositionsprinzip genügen.
1.14 Erzeugnis. Ist V ein K-Vektorraum so nennen wir für eine nichtleere Teilmenge U ⊂ V die Menge
Span(U ) := {λ1~v1 + · · · + λn~vn | λ1 , . . . , λn ∈ K, ~v1 , . . . , ~vn ∈ U }
das Erzeugnis, den Spann oder die lineare Hülle von U . Man schreibt hierfür auch L(U ) oder hU i.
Das Erzeugnis Span(U ) von U ist ein Unterraum von V und zwar der kleinste, der U enthält.
Ist U also kein Unterraum, so gilt U ( Span(U ) und U erfüllt nicht das Superpositionsprinzip.
1.15 Lineare Unabhängigkeit. Vektoren ~v1 , . . . , ~vn eines K-Vektorraums V nennen wir linear unabhängig, wenn
λ1~v1 + · · · + λn~vn = ~0
⇒
λ1 = . . . = λn = 0.
Eine nichtleere Teilmenge U ⊂ V nennen wir linear unabhängig, wenn beliebige ~v1 , . . . , ~vn ∈ U linear
unabhängig sind, d.h. wenn alle endlichen Teilmengen von U linear unabhängig sind. Enthält U dagegen
Vektoren, die nicht linear unabhängig sind, so nennen wir U linear abhängig.
Achtung. Wegen 0~v1 +· · ·+0~vn = ~0 lässt sich der Nullvektor immer als Linearkombination von ~v1 , . . . , ~vn
darstellen. Das nennt man die triviale Linearkombination für den Nullvektor. Lineare Unabhängigkeit
bedeutet, dass es außer der trivalen keine weitere Linearkombination für den Nullvektor gibt. Dagegen
bedeutet lineare Abhängigkeit, dass der Nullvektor nicht nur auf die triviale Art als Linearkombination
dargestellt werden kann.
Wegen 1 · ~0 = ~0 ist der Nullvektor (aufgefasst als einelementige Menge) linear abhängig und damit auch
jede Menge, die den Nullvektor enthält. Das klingt vielleicht seltsam, sollte aber als nützliche Vereinbarung
hingenommen werden.
95
KAPITEL 3. VEKTORRECHNUNG
1.16 Beispiele für lineare Unabhängigkeit bzw. lineare Abhängigkeit.
(a) Die Vektoren 12 , 21 ∈ R2 sind linear unabhängig. Aus λ 12 + µ 21 = 00 folgt nämlich λ + 2µ = 0
und 2λ + µ = 0 und hieraus 0 = 2(λ + 2µ) − (2λ + µ) = 3µ bzw. 0 = (λ + 2µ) − 2(2λ + µ) = −3λ, d.h.
λ = µ = 0.
(b) Allgemein sind zwei Vektoren ac , db ∈ R2 genau dann linear unabhängig, wenn det ac db 6= 0. Genau
dann hat nämlich das lineare Gleichungssystem ax + by = 0,
cx + dy
= 0 als einzige Lösung (x, y) = (0, 0).
Das heißt aber nicht mehr und nicht weniger, als dass x ac + y db = 00 nur für x = y = 0 lösbar ist.
(c) Zwei Vektoren ~v , w
~ eines Vektorraums V sind genau dann linear unabhängig, wenn keiner ein Vielfaches
des anderen ist (insbesondere ist dann keiner der Nullvektor). Gilt nämlich w
~ = λ~v , so ist 1~v − λw
~ = ~0
eine nichttriviale Linearkombination und ~v , w
~ sind linear abhängig. Sind umgekehrt ~v , w
~ linear abhängig,
v
so gibt es eine Linearkombination λ~v + µw
~ = ~0, bei der λ 6= 0 oder µ 6= 0. Gilt µ 6= 0, so folgt w
~ = −λ
µ ~
~
und w
~ ist ein Vielfaches von ~v . Gilt λ 6= 0 so schließe man analog.
1.17 Geraden und Ebenen durch den Ursprung. Ist V ein beliebiger K-Vektorraum, so nennen
wir für ~v ∈ V mit ~v 6= ~0
Span(~v ) = {λ~v | λ ∈ K}
eine Ursprungsgerade.
Sind ~v , w
~ ∈ V linear unabhängige Vektoren, d.h. ist keiner ein Vielfaches des anderen (und damit auch
keiner der Nullvektor), so nennen wir
Span(~v , w)
~ = {λ~v + µw
~ | λ, µ ∈ K}
eine Ursprungsebene, die von ~v und w
~ aufgespannt wird.
1.18 Affine Teilräume, Geraden und Ebenen. Allgemein nennen wir für einen Vektor ~a und einen
Vektor ~v 6= ~0
g := {~a + λ~v | λ ∈ K}
die Gerade durch ~a mit Richtungsvektor ~v , parametrisiert durch λ 7→ ~a + λ~v und für zwei linear unabhängige Vektoren ~v , w
~
E := {~a + λ~v + µw
~ | λ, µ ∈ K}
die Ebene durch ~a, aufgespannt von ~v , w
~ und parametrisiert durch (λ, µ) 7→ ~a + λ~v + µw.
~
Um Geraden und Ebenen bequem darstellen zu können, führen wir für ~a ∈ V und U ⊂ V die Notation
~a + U := {~a + ~u | ~u ∈ U }
ein und nennen für einen Unterraum U diese Menge einen affinen Teilraum zu U durch ~a. Dann gilt
g = ~a + Span(~v ),
E = ~a + Span(~v , w).
~
Achtung. Das gerade definierte „+“ zwischen einem Vektor und einer Menge wollen wir lediglich als
nützliche Bezeichnung auffassen und nicht versuchen, damit zu rechnen.
Genau dann ist g = ~a + Span(~v ) eine Ursprungsgerade und damit ein Unterraum von V , wenn ~a ∈
Span(~v ). Genau dann ist E = ~a + Span(~v , w)
~ eine Ursprungsebene und damit ein Unterraum von V ,
wenn ~a ∈ Span(~v , w).
~
1.19 Standardbasis im Rn bzw. Cn . Die n Vektoren
 
 
1
0
0
1
 
 
~e1 :=  .  ,
~e2 :=  .  ,
 .. 
 .. 
0
0
im Rn (im Cn ) bilden die Standardbasis des Rn (des Cn ).
...,
 
0
0
 
~en :=  . 
 .. 
1
§3. VEKTORRECHNUNG IM RN
96
Jeder Vektor im Rn (im Cn ) lässt sich in eindeutiger Weise mittels
 
 
 
 
0
0
1
x1
0
1
0
 x2 
 
 
 
 
~x =  .  = x1  .  + x2  .  + · · · + xn  .  = x1~e1 + x2~e2 + · · · + xn~en
 .. 
 .. 
 .. 
 .. 
1
0
0
xn
als reelle (komplexe) Linearkombination dieser Vektoren darstellen.
Vornehm ausgedrückt: Die Standardbasisvektoren sind linear unabhängig und erzeugen den Rn (bzw. Cn ).
1.20 Basis. Ist V ein Vektorraum, so nennen wir eine linear unabhängige Teilmenge U ⊂ V mit
Span(U ) = V eine Basis von V .
Basissein bedeutet also:
• Jeder Vektor aus V kann durch eine Linearkombination von Vektoren aus U erzeugt werden.
• Die Vektoren aus U sind linear unabhängig.
Diese beiden Forderungen stellen einerseits sicher, dass U nicht zu klein ist, andererseits erzwingen sie
zugleich, dass U nicht zu groß ist. Es gilt nämlich der folgende Satz.
Ist U eine Basis von V , so lässt sich jeder Vektor in eindeutiger Form als Linearkombination von endlich
vielen Basisvektoren darstellen.
Beweis. Ist ~v ∈ V ein Vektor mit zwei Darstellungen als Linearkombination, so können wir durch
Hinzunahme von Nullskalaren für beide Linearkombinationen dieselben Vektoren aus U annehmen, d.h.
~v = λ1~v1 + · · · + λn~vn = µ1~v1 + · · · + µn~vn . Durch Subtraktion folgt ~0 = (λ1 − µ1 )~v1 + · · · + (λn − µn )~vn .
Mit U sind auch die ~v1 , . . . , ~vn linear unabhängig, d.h. λ1 − µ1 = λn − µn = 0.
1.21 Koordinaten. Ist V ein K-Vektorraum mit einer n-elementigen Basis ~v1 , . . . , ~vn (die Reihenfolge
der Vektoren in dieser Aufzählung sei dabei fest gewählt), so nennen wir für einen Vektor ~v ∈ V die
eindeutig bestimmten Skalare x1 , . . . , xn ∈ K in der Linearkombination
~v = x1~v1 + · · · + xn~vn
die Koordinaten von ~v und das aus diesen Skalaren gebildete n-Tupel
 
x1
 .. 
 . 
xn
den Koordinatenvektor von ~v bezüglich der Basis ~v1 , . . . , ~vn .
1.22 Vektoren und Koordinatenvektoren. Jetzt schließt sich der Kreis: Nach Wahl einer n-elementigen Basis können wir einen R-Vektorraum also mit dem Rn , einen C-Vektorraum mit dem Cn identifizieren. Das haben wir in §2 gleich zu Beginn gemacht. Von dieser Festlegung wollten wir uns in diesem
Paragraphen befreien. Das haben wir auch, indem wir in einem allgemeinen Vektorraum weder auf Koordinaten festgelegt sind, noch auf die Standardbasis. Wir können aber jederzeit eine Basis wählen und
dann zu Koordinatenvektoren übergehen.
Das illustrieren wir jetzt an einem Anwendungsbeispiel bei linearen Differentialgleichungen.
1.23 Anwendungsbeispiel: lineare Differentialgleichungen zweiter Ordnung. Wir nehmen etwas
Differentialrechnung voraus. Gegeben seien zwei reelle (oder komplexe) Zahlen a, b. Man sagt, dass eine
Funktion y : R → C (das schließt den Fall y : R → R mit ein) eine lineare homogene Differentialgleichung
zweiter Ordnung mit konstanten Koffizenten a, b erfüllt, wenn
y 00 + ay 0 + by = 0,
d.h. y 00 (x) + ay 0 (x) + by(x) = 0
für alle x ∈ R.
97
KAPITEL 3. VEKTORRECHNUNG
Für eine Pendel- oder Molekülschwingung mit Reibung (Dämpfung) gilt beispielsweise bei kleinen Auslenkungen mẍ + bẋ + kx = 0, für einen Schwingkreis LI¨ + RI˙ + C1 I = 0. (Ableitungen nach der Zeit
werden gerne mit einem Punkt statt einem Strich bezeichnet.)
Offensichtlich ist die identisch verschwindende Funktion 0 eine Lösung der Differentialgleichung (kurz
DGL). Sind y1 und y2 zwei Lösungen, d.h. gilt y100 + ay10 + by1 = 0 = y200 + ay20 + by2 so folgt aus den
Rechenregeln für Ableitungen für beliebige Zahlen λ, µ
(λy1 + µy2 )00 + a(λy1 + µy2 )0 + b(λy1 + µy2 ) = λ(y100 + ay10 + by1 ) + µ(y200 + ay20 + by2 ) = 0,
d.h. die Menge der Lösungsfunktionen ist nichtleer und erfüllt das Superpositionsprinzip. Daher bildet sie
einen Unterraum des Funktionenraums F(R, C). Wir machen uns nun daran, eine Basis zu bestimmen.
Wir nennen p(x) := x2 + ax + b das charakteristische Polynom. Ist λ eine (reelle oder komplexe Nullstelle)
von p, so gilt für die durch y(x) := eλx definierte Funktion
y 00 (x) + ay 0 (x) + by(x) = λ2 eλx + aλeλx + beλx = (λ2 + aλ + b)y(x) = 0
für x ∈ R.
(Wer Skrupel bekommt, wenn λ = ρ + iω komplex ist, der ersetze eλx durch Re(eλx ) = eρx cos(ωx)
und Im(eλx ) = eρx sin(ωx), verifiziere analog zu oben, dass diese beiden Funktionen die DGL erfüllen
und sieht anschließend ein, dass es dann auch y tut, wenn man nur die Ableitung einer komplexwertigen
Funktion dadurch bildet, dass man Realteil und Imaginärteil differenziert.)
Wir definieren zwei Funktionen y1 , y2 : R → C (genannt Basislösungen oder Fundamentallösungen) durch
(1) y1 (x) := eλ1 x , y2 (x) := eλ2 x , falls p zwei verschiedene Nullstellen λ1 , λ2 hat,
(2) y1 (x) := eλx , y2 (x) := xeλx , falls p eine doppelte Nullstelle λ hat (dann gilt p(x) = (x − λ)2 , d.h.
a = −2λ und b = λ2 ).
In beiden Fällen sind y1 und y2 Lösungen der DGL. Zeigen müssen wir das nur noch im Fall (2) für y2 .
Dann gilt tatsächlich
y200 (x) + ay20 (x) + by2 (x) = λ(λx + 2)eλx + a(λx + 1)eλx + bxeλx = [x(λ2 + aλ + b) + (2λ + a)]eλx = 0.
Für x ∈ R berechnen wir nun die Determinante der Wronski-Matrix von y1 und y2
y1 (x) y2 (x)
W (x) :=
.
y10 (x) y20 (x)
Wir erhalten det(W (x)) = −(λ1 − λ2 )e(λ1 +λ2 )x in Fall (1) bzw. det(W (x)) = e2λx in Fall (2), d.h. immer
W (x) 6= 0. Geben wir also ein beliebiges x0 ∈ R und Anfangswerte
y(x0 ) = A,
y 0 (x0 ) = B
vor, so existiert nach dem Lösungssatz 2.6 für lineare (2 × 2)-Gleichungsysteme genau eine Linearkombination
y = c1 y1 + c2 y2 ,
d.h. y(x) = c1 y1 (x) + c2 y2 (x) für alle x ∈ R,
welche die Anfangswerte y(x0 ) = A und y 0 (x0 ) = B erfüllt. Die Koeffizienten c1 und c2 erhalten wir
nämlich als die dann eindeutig bestimmte Lösung des linearen Gleichungssystems
c1
c1 y1 (x0 ) + c2 y2 (x0 )
A
c1
−1 A
W (x0 )
=
=
,
d.h.
=
W
(x
)
.
0
c2
c1 y10 (x0 ) + c2 y20 (x0 )
B
c2
B
Fazit. Für gegebene reelle oder komplexe Konstanten a, b erfüllen die Lösungen der linearen homogenen
Differentialgleichung 2. Ordnung y 00 + ay 0 + by = 0 das Superpositionsprinzip. Zu vorgegebenen Anfangswerten y(x0 ) = A, y 0 (x0 ) = B existiert immer eine eindeutig bestimmte Lösung, welche man als
Linearkombination der Basislösungen in (1) bzw. (2) erhält.
§3. VEKTORRECHNUNG IM RN
98
Dieser Lösungssatz funktioniert einheitlich, egal ob die Koeffizienten a, b, die Nullstellen des charakteristischen Polynoms p(x) = x2 + ax + b oder die Anfangswerte A, B reell oder komplex sind.
Den reellen Fall a, b, A, B ∈ R wollen wir uns abschließend genauer ansehen. Dann ersetzt man im
Fall echt komplexer Nullstellen in p die oben angegebenen Basislösungen y1 und y2 gewöhnlich durch
1
1
2 (y1 + y2 ) = Re(y1 ) = Re(y2 ) und 2i (y1 − y2 ) = Im y1 = − Im y2 . Es ist klar, dass man zwischen beiden
Basislösungspaaren hin- und herrechnen kann. Man erhält dann folgende Typen von Basislösungen.
(Typ 1) überkritische Dämpfung (a2 > 4b), zwei verschiedene reelle Nullstellen λ1 6= λ2 für p:
y1 (x) = eλ1 x , y2 (x) = eλ2 x ,
(Typ 2) kritische Dämpfung, aperiodischer Grenzfall (a2 = 4b), eine doppelte reelle Nullstelle λ für p:
y1 (x) = eλx , y2 (x) = xeλx ,
(Typ 3) unterkrit. Dämpfung, Schwingfall (a2 < 4b), zwei konjugiert komplexe Nullstellen ρ ± iω für p:
y1 (x) = eρx cos(ωx), y2 (x) = eρx sin(ωx) (bzw. komplex y1 = e(ρ+iω)x , y1 = e(ρ−iω)x )
0.8
2.5
y1
2
0.6
0.4
1.5
y2
0.5
-0.5
Typ 1
0.5
1
-1
1.5
0.2
y2
0.5
2
(λ1 = 1/2, λ2 = −1)
1
-0.5
-0.2
1
-1
2
y1
1
1.5
2
-1
-0.5
y2
0.5
-1
1
1.5
2
y1
-0.4
Typ 2
(ρ = −1, ω = 6) Typ 3
(λ = −3/2)
Abbildung 3.13: Graphen der Basislösungen von y 00 + ay + by = 0 für a, b ∈ R.
Ist zusätzlich zu den Konstanten a, b eine Funktion f gegeben, so heißt
y 00 + ay 0 + by = f,
d.h. y 00 (x) + ay 0 (x) + by(x) = f (x) für alle x ∈ R.
eine lineare inhomogene Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten.
Hat man eine Lösung y0 dieser inhomogenen DGL gefunden, d.h. gilt y000 + ay00 + by0 = f , so ist für jede
Lösung y der homogenen DGL wegen
(y + y0 )00 + a(y + y0 )0 + b(y + y0 ) = (y 00 + ay 0 + by) + (y000 + ay00 + by0 ) = 0 + f = f
auch y + y0 eine Lösung. Hat man umgekehrt zwei Lösungen der inhomogenen DGL gefunden, so zeigt
man analog, dass deren Differenz die homogene DGL löst. Daher bilden die Lösungen der inhomogenen
DGL einen affinen Teilraum durch y0 der zum Lösungsraum der homogenen DGL gehört.
Fazit. Kennt man eine Lösung y0 der linearen inhomogenen Differentialgleichung 2. Ordnung y 00 + ay 0 +
by = f , so erhält man die Gesamtheit ihrer Lösungen, indem man zu y0 die Lösungen der zugehörigen
homogenen Differentialgleichung y 00 + ay 0 + b = 0 addiert.
Wie man eine solche spezielle Lösung y0 findet, verrät unsere Methode nicht. Gewöhnlich macht man
für y0 einen Ansatz in der Funktionenklasse zu der die Inhomogenität f gehört. Ist f beispielsweise ein
Polynom, so setzt man y0 als ein Polynom an und versucht Grad und Koeffizienten so zu wählen, dass
man eine Lösung erhält.
In 4.§3 und 4.§5 werden wir uns mit solchen Differentialgleichungen ausführlicher beschäftigen. Hier stand
die algebraische Struktur der Lösungsgesamtheit im Vordergrund, nicht die analytischen Eigenschaften
einzelner Lösungen.
99
KAPITEL 3. VEKTORRECHNUNG
2
Euklidische Vektorräume
2.1 Programm. Wir verwenden die grundlegenden Regeln für das Skalarprodukt und die Norm im R2 ,
um in einem beliebigen R-Vektorraum zu erklären, was ein Skalarprodukt und die zugehörige Norm ist.
Dann haben wir eine Längen- und Winkelmessung zur Verfügung.
2.2 Definition: Skalarprodukt. Für einen R-Vektorraum V nennen wir eine Abbildung, die jedem
Paar von Vektoren ~v , w
~ ∈ V einen Skalar h~v |wi
~ ∈ R zuordnet ein Skalarprodukt, wenn Folgendes gilt:
(SP1) Linearität: h~u|λ~v + µwi
~ = λh~u|~v i + µh~u|wi.
~
(SP2) Symmetrie: h~v |wi
~ = hw|~
~ v i.
(SP3) Positive Definitheit: h~v |~v i ≥ 0 und h~v |~v i = 0 genau dann, wenn ~v = ~0.
Achtung. Wir betrachten hier nur Vektorräume über R. An ein Skalarprodukt für einen C-Vektorraum
werden etwas andere Anforderungen gestellt (vgl. 5.§6.1).
2.3 Definition: Norm. Zu einem Skalarprodukt auf einem R-Vektorraum erklären wir die zugehörige
Norm durch
p
für ~v ∈ V.
k~v k := h~v |~v i
2.4 Definition: euklidischer Vektorraum. Ein R-Vektorraum zusammen mit einem Skalarprodukt
heißt euklidischer Vektorraum.
2.5 Der Rn als euklidischer Vektorraum. Auf dem Rn erklären wir das (Standard-)Skalarprodukt
durch
   
y1
x1
n
 x2   y2 
X
   
xk yk = x1 y1 + x2 y2 + · · · + xn yn ,
h .  |  . i :=
 ..   .. 
k=1
xn
yn
Man verifiziert leicht, dass (SP1)–(SP3) erfüllt sind. Die zugehörige Norm (auch Standardnorm genannt)
lautet dann
√
k~xk = x1 2 + x2 2 + x3 2
 
x1 x1
!1/2
n
 x2 
x2 X
p
 
2
k . k = . =
xk
= x1 2 + x2 2 + · · · + xn 2 .
X
.
.
.  . 
k=1
xn xn
?
x3
x2
√
x1 2 + x2 2
2.6 Geometrische Deutung der Norm im Rn . Die geome2
trische Deutung der Norm k~xk im R als Abstand des Punktes X
x1
O
~ = ~x überträgt sich in den R3 wie nebenstemit Ortsvektor OX
Abbildung 3.14: Norm als
hend skizziert. Wir sollten darum keine Skrupel haben, und k~xk
Länge im R3 .
allgemein als Länge des Vektors ~x deuten.
2.7 Eigenschaften des Skalarprodukts. Für jedes Skalarprodukt (nicht nur für das eben erklärte
im Rn ) gelten folgende Regeln.
(a) hλ~u + µ~v |wi
~ = λh~u|wi
~ + µh~v |wi.
~
(b) h~v |~0i = 0 = h~0|~v i.
(c) h~v + w|~
~ v + wi
~ = h~v |~v i + 2h~v |wi
~ + hw|
~ wi.
~
§3. VEKTORRECHNUNG IM RN
100
Die erste Regel folgt aus (SP1) und (SP2), die zweite mit 0 = h~v |0~v i = h~v |~0i aus (SP1), die dritte aus
h~v + w|~
~ v + wi
~
(SP1)
(SP2)
h~v + w|~
~ v i + h~v + w|
~ wi
~ = h~v |~v + wi
~ + hw|~
~ v + wi
~
=
(SP1)
(SP2)
h~v |~v i + h~v |wi
~ + hw|~
~ v i + hw|
~ wi
~ = h~v |~v i + 2h~v |wi
~ + hw|
~ wi.
~
=
Wir haben noch eine vierte Rechenregel für allgemeine Skalarprodukte, die wir gesondert betrachten.
2.8 Cauchy-Schwarzsche Ungleichung. Für ein Skalarprodukt in einem R-Vektorraum V gilt
|h~v |wi|
~ ≤ k~v k · kwk
~
für alle ~v , w
~ ∈ V.
Beweis. Für w
~ = ~0 verschwinden beide Seiten der Ungleichung wegen h~v |wi
~ = 0 und kwk
~ 2 = hw|
~ wi
~ = 0.
~
Für w
~ 6= 0 folgt zunächst kwk
~ > 0 und mit quadratischen Ergänzung für zunächst beliebiges λ ∈ R dann
(SP3)
0
≤
=
(c), (SP1)
h~v + λw|~
~ v + λwi
~
=
k~v k2 + 2λh~v |wi
~ + λ2 kwk
~ 2
2
2 2
h~v |wi
~
h~v |wi
~
k~v k2 kwk
~ 2 − h~v |wi
~ 2
h~v |wi
~
.
+ k~v k2 −
= λkwk
~ +
+
λkwk
~ +
2
kwk
~
kwk
~
kwk
~
kwk
~
Für λ = −h~v |wi/k
~
wk
~ 2 verschwindet die Klammer und wir erhalten die gewünschte Ungleichung.
Beispiel. Das Standardskalarprodukt im Rn liefert uns die Ungleichung
!1/2 n
!1/2
n
n
X
X
X
2
2
xk yk ≤
xk
yk
.
k=1
k=1
k=1
2.9 Eigenschaften der Norm. Für eine zu einem Skalarprodukt gehörige Norm gelten folgende Rechenregeln.
(d) Positive Definitheit: k~v k ≥ 0 und k~v k = 0 genau für ~v = ~0.
(e) Homogenität: kλ~v k = |λ|k~v k.
(f) Dreiecksungleichung: k~v + wk
~ ≤ k~v k + kwk.
~
Die beiden ersten Regeln folgen schnell aus (SP3) bzw. (SP1). Die Dreiecksungleichung erhalten wir mit
der Cauchy-Schwarzschen Ungleichung durch Wurzelziehen aus
k~v + wk
~ 2 = h~v + w|~
~ v + wi
~ = h~v |~v i + 2h~v |wi
~ + hw|
~ wi
~ ≤ k~v k2 + 2k~v kkwk
~ + kwk
~ 2 = (k~v k + kwk)
~ 2.
Beispiel. Für die zum Standardskalarprodukt im Rn gehörige Norm folgt
!1/2
!1/2
!1/2
n
n
n
X
X
X
(xk + yk )2
≤
xk 2
+
yk 2
.
k=1
k=1
k=1
2.10 Längen- und Winkelmessung. Ist V ein euklidischer Vektorraum, so messen wir die Länge eines
Vektors ~v ∈ V mit der Norm k~v k und den Abstand zweier Vektoren ~v , w
~ ∈ V mittels k~v − wk.
~ Die Regeln
(d)–(f) erfüllen uns dabei unsere grundlegenden Wünsche für solch eine Längenmessung.
Für ~v , w
~ 6= ~0 können wir dank der Cauchy-Schwarzschen Ungleichung 2.8 den Winkel ](~v , w)
~ genauso
wie in §2.4.4 erklären, nämlich durch
cos ](~v , w)
~ :=
h~v |wi
~
.
k~v kkwk
~
Wegen h~v |wi
~ = hw|~
~ v i und cos(ϕ) = cos(−ϕ) ist unser so eingeführter Winkel ](~v , w)
~ jedoch nichtorientiert, d.h. ](~v , w)
~ = ](w,
~ ~v ). Für Winkel im R2 hatten wir in §2.4.4 eine Orientierung eingeführt (im R3
vgl. §4.1.4).
KAPITEL 3. VEKTORRECHNUNG
101
2.11 Kugeln in euklidischen Vektorräumen. Wir sollten es eher als nützlich, denn als seltsam
auffassen, dass wir die aus der Ebene wohlbekannten Begriffe wie Koordinaten, Länge, Abstand, Winkel
auf abstrakte Vektorräume übertragen haben. In diesem Sinne ist nichts Magisches daran, wenn wir
beispielsweise den durch
p
x1
2
2
2
S1 :=
∈ R | x1 + x2 = 1
x2
beschriebenen Einheitskreis und die durch

 

 x1
p
S2 := x2  ∈ R3 | x1 2 + x2 2 + x3 2 = 1


x3
beschriebene Einheitssphäre zur Einheitssphäre im Rn
 

x1






 x 2 

p
 
n
2
2
2
Sn−1 :=  .  ∈ R | x1 + x2 + · · · + xn = 1


 .. 






xn
verallgemeinern.
Darum nennen wir allgemein für einen euklidischen Vektorraum V zu gegebenen r > 0 und ~a ∈ V
• Kr (~a) := {~v ∈ V | k~v − ~ak < r} die Kugel (die offene Kugel oder das Kugelinnere),
• ∂Kr (~a) := {~v ∈ V | k~v − ~ak = r} die Sphäre (die Kugeloberfläche oder den Kugelrand ),
• Kr (~a) := {~v ∈ V | k~v − ~ak ≤ r} die abgeschlossene Kugel
mit Mittelpunkt ~a und Radius r. Kugeln im R2 nennen wir auch Kreise, Kugeln im R1 sind Intervalle.
3
Orthonormalsysteme
3.1 Worum geht es? Rechtwinkligkeit — Orthogonalität — ist eine wichtige Eigenschaft für die
Achsen eines Koordinatensystems, d.h. die Basisvektoren. Wir erklären nun allgemein, wie wir solche
Basen erhalten und Koordinaten von Vektoren bezüglich einer solchen Basis ausrechnen können.
3.2 Orthogonalität. Zwei Vektoren ~v , w
~ eines euklidischen Vektorraums V heißen orthogonal oder senkrecht, wenn h~v |wi
~ = 0. Wir schreiben dafür auch ~v ⊥ w.
~
Ein Vektor ~v ∈ V steht orthogonal oder senkrecht auf einer Teilmenge U ⊂ V , wenn ~v ⊥ w
~ für alle w
~ ∈ U.
Wir schreiben dann ~v ⊥ U . Die Menge
U ⊥ := {w
~ ∈ V | hw|~
~ ui = 0, für alle ~u ∈ U }
aller zu U senkrechter Vektoren nennen wir das orthogonale Komplement.
Der Nullvektor ~0 steht auf jedem Vektor senkrecht — das ist wieder eine nützliche Vereinbarung.
Beispiel. Im R3 steht der dritte Standardbasisvektor ~e3 senkrecht auf der von den ersten beiden Standardbasisvektoren ~e1 und ~e2 aufgespannten Ebene Span(~e1 , ~e2 ), das ist gerade die (x1 , x2 )-Ebene.
3.3 Kronecker-Symbol. Die Standardbasisvektoren ~e1 , . . . , ~en im Rn stehen paarweise aufeinander
senkrecht und haben alle die Länge 1. Wir drücken dies effizient mit dem Kronecker-Symbol δk,l aus:
(
1 für k = l,
h~ek |~el i = δk,l :=
0 für k 6= l.
§3. VEKTORRECHNUNG IM RN
102
3.4 Orthonormalsystem. Eine nichtleere Teilmenge U = {~vι |ι ∈ I} ⊂ V eines euklidischen Vektorraums V nennen wir ein Orthonormalsystem (kurz ONS ), wenn h~vk |~vl i = δk,l für beliebige k, l ∈ I. Dabei
ist I eine beliebige Indexmenge (z.B. I = {1, 2, . . . , n} oder I = N).
Ein Orthonormalsystem besteht also aus normierten Vektoren, die paarweise aufeinander senkrecht stehen. Es wird nicht verlangt, dass die Vektoren eine Basis von V bilden, d.h. V auch erzeugen. Dagegen
gilt immer:
Ein Orthonormalsystem ist linear unabhängig.
Beweis. Sind ~v1 . . . , ~vn Vektoren eines Orthonormalsystems mit λ1~v1 + · · · + λn~vn = ~0, so erhalten wir
nach Skalarproduktbildung mit ~vk für k = 1, . . . , n nacheinander
0 = h~vk |~0i = h~vk |
n
X
λl~vl i =
l=1
n
X
λl h~vk |~vl i =
l=1
n
X
λl δk,l = λk .
l=1
Beispiel. Die Standardbasisvektoren ~e1 , . . . , ~en im Rn bilden ein Orthonormalsystem. Gleiches gilt für
jede nichtleere Teilmenge von ihnen.
3.5 Orthonormalbasis. Ist U ein Orthonormalsystem in einem euklidischen Vektorraum V und gilt
Span(U ) = V , so nennen wir U eine Orthonormalbasis (kurz ONB ).
3.6 Entwickeln nach Orthonormalbasen. Ist ~v1 , . . . , ~vn eine Orthonormalbasis in einem euklidischen
Vektorraum V , so besitzt jeder Vektor ~v ∈ V eine eindeutige Darstellung als Linearkombination
~v =
n
X
h~vk |~v i~vk = h~v1 |~v i~v1 + · · · + h~vn |~v i~vn .
k=1
Die Koordinaten eines Vektors bezüglich einer ONB sind mit Hilfe des Skalarprodukts leicht berechenbar.
Beweis. Nach §2.1.20 besitzt jeder Vektor ~v ∈ V eine eindeutige Darstellung ~v = λ1~v1 + · · · + λn~vn .
Durch Skalarproduktbildung erhalten wir für k = 1, . . . , n wie behauptet
h~vk |~v i = h~vk |
n
X
λl~vl i =
n
X
l=1
l=1
λl h~vk |~vl i =
n
X
λl δk,l = λk
l=1
Beispiel. Durch Nachrechnen überzeugen wir uns davon, dass
√ √ −1/ 2
1/ 2
√
√
,
~v2 :=
~v1 :=
1/ 2
1/ 2
eine Orthonormalbasis des R2 ist. Sie entsteht übrigens aus der Standardbasis ~e1 , ~e2 durch Drehen um
π/4 (vgl. §2.6.2): ~v1 = Dπ/4 (~e1 ), ~v2 = Dπ/4 (~e2 ). Hat ~v bezüglich der Standardbasis die Koordinaten 34 ,
d.h. gilt ~v = 3~e1 + 4~e2 , so folgt aus
1
1
7
h~v1 |~v i = √ 3 + √ 4 = √ ,
2
2
2
−1
1
1
h~v2 |~v i = √ 3 + √ 4 = √ ,
2
2
2
√
7/ 2
dass ~v bezüglich der neuen Basis die Koordinaten 1/√2 besitzt, d.h. ~v =
gilt nämlich
√ √ 3
7 1/ 2
1 −1/ 2
√ +√
√
=√
.
4
2 1/ 2
2 1/ 2
√7 ~
v
2 1
+
√1 ~
v .
2 2
Tatsächlich, es
3.7 Orthogonale Projektion. Wir haben in einem euklidischen Vektorraum V einen Unterraum U
sowie ein Orthonormalsystem ~v1 , . . . , ~vm mit U = Span(v~1 , . . . , ~vm ) (z.B. U = Span(~e1 , ~e2 ) im R3 ). Wie
in §2.5.4 suchen wir zu einem gegebenen Vektor ~a ∈ V denjenigen Vektor ~u ∈ U mit kürzestem Abstand.
103
KAPITEL 3. VEKTORRECHNUNG
Dieselbe Rechnung wie in §2.5.4 zeigt
2
m
m
m
X
X
X
2
λk~vk = k~ak2 −
h~vk |~ai2 +
(λk − h~vk |~ai) .
~a −
k=1
k=1
k=1
Dieser Ausdruck wird genau dann minimal, wenn wir λk = h~vk |~ai für k = 1, . . . , m wählen.
Ist U = Span(~v1 , . . . , . . . vm ) ein von einem Orthonormalsystem ~v1 , . . . , . . . vm aufgespannter Unterrraum
eines euklidischen Vektorraums, so ist der Punkt ~u ∈ U kürzesten Abstands zu ~a ∈ V gegeben durch
~u = P (~a) :=
m
X
h~vk |~aiv~k .
k=1
Für den Abstand gilt dann
~a
k~a − P (~a)k2 = k~ak2 −
m
X
h~vk |~ai2 .
U
~vn
k=1
P (~a)
Wir nennen P (~a) die orthogonale Projektion von ~a auf U .
~v1
Die orthogonale Projektion P (~a) ist charakterisiert durch
P (~a) ∈ U
und
~a − P (~a) ⊥ U.
Beweis. Für einen beliebigen Vektor ~v =
Pm
k=1
Abbildung 3.15: Orthogonale Projektion.
λk~vk ∈ U gilt einerseits






m


X


h~v |~a − P (~a)i = h
λk~vk | ~a −
h~vl |~ai~vl i =
λk h~vk |~ai −
h~vl |~ai h~vk |~vl i = 0,

| {z }
k=1
l=1
k=1
l=1


=δk,l 

|
{z
}
m
X
m
X
m
X
=h~
vk |~
ai
d.h. ~a − P (~a) ⊥ U . Andererseits folgt aus ~u =
Pm
l=1
0 = h~vk |~a − ~ui = h~vk |~ai −
λl~vl ∈ U und ~a − ~u ⊥ U
n
X
l=1
d.h. ~u =
Pn
vk |~ai~vk
k=1 h~
λl h~vk |~vl i = h~vk |~ai − λk ,
| {z }
δk,l
= P (~a).
3.8 Orthonormalisieren. Das Orthonormalisierungsverfahren nach Gram-Schmidt bildet zu einem vorgegebenen Satz von linear unabhängigen Vektoren ~v1 , . . . , ~vn in einem euklidischen Vektorraum V ein
Orthonormalsystem ~u1 , . . . , ~un mit Span(~u1 , . . . , ~um ) = Span(~v1 , . . . , ~vm ) für m = 1, . . . , n. Insbesondere
kann man mit diesem Verfahren aus einer beliebigen Basis von V eine Orthonormalbasis erhalten.
Das Orthonormalisierungsverfahren für n Vektoren besteht aus einem Initialisierungschritt und n − 1
rekursiv abzuarbeitenden weiteren Schritten.
• Initialisierung: Normiere ~v1 , um ~u1 zu erhalten: ~u1 :=
1
v1 .
k~
v1 k ~
• Rekursion: Sind orthonormale Vektoren ~u1 , . . . , ~um mit Um := Span(~u1 , . . . , ~um ) = Span(~v1 , . . . , ~vm )
für ein m < n gefunden, so erhalte ~um+1 mittels:
Pm
– Bilden der orthogonaler Projektion P (~vm+1 ) = k=1 h~uk |~vm+1 i~uk von ~vm+1 auf Um ,
– Senkrechtmachen ~u0m+1 := ~vm+1 − P (~vm+1 ),
– Normieren ~um+1 = k~u0 1 k ~u0m+1 .
m+1
Man verifiziere selbst, dass das Verfahren das Gewünschte leistet.
§4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3
104
Beispiel. Wir orthonormalisieren
1
1
,
1
0
im R2 . Zunächst mache man sich klar, dass die beiden Vektoren linear unabhängig sind (sie bilden sogar
eine Basis des R2 ). Das Orthonormalisierungsverfahren besteht hier aus den folgenden zwei Schritten:
Schritt 1: Normieren des ersten Vektors:
√ 1/ 2
1
1
√ .
=
~u1 = √
1/ 2
12 + 1 2 1
Schritt 2: Bilden der orthogonalen Projektion
√ √ 1/ 2
1/ 2
1
1
1/2
√
√
P(
)=h
|
i
=
,
0
0
1/2
1/ 2
1/ 2
Senkrechtmachen
1
1
1
1/2
1/2
− P(
)=
−
=
,
0
0
0
1/2
−1/2
Normieren
~u2 = p
Das zu
1
1
,
1
0
1
(1/2)2 + (−1/2)2
√ 1/ 2
1/2
√ .
=
−1/2
−1/ 2
gehörige Orthonormalsystem lautet also
√ √ 1/ 2
1/ 2
√ ,
√
1/ 2
−1/ 2
und ist eine Orthonormalbasis des R2 .
§4
1
Spezialitäten der Vektorrechnung im R3
Vektorprodukt
1.1 Zielsetzung. Zu zwei gegebenen linear unabhängigen
Vektoren ~u, ~v ∈ R3 wollen wir einen dritten Vektor w
~ ∈ R3
mit folgenden drei Eigenschaften finden.
w
~
~
~v w
~v
(1) w
~ steht senkrecht auf ~u und ~v , d.h. w
~ ⊥ Span(~u, ~v ).
(2) Die Länge von w
~ ist die Fläche des von ~u und ~v aufgespannten Parallelogramms, d.h. kwk
~ = k~ukk~v k sin ϕ
mit ϕ = ](~u, ~v ) ∈]0, π[.
(3) ~u, ~v , w
~ bilden ein „positiv orientiertes Dreibein“.
~u
~u
Abbildung 3.16: Dreifingerregel und positiv orientiertes Dreibein im R3 .
In der Physik finden sich derartige Aufgabenstellungen beim Drehimpuls, der Bewegung eines starren
Körpers oder bei der Bewegung eines Elektrons im Magnetfeld.
1.2 Definition: Vektorprodukt. Das Vektorprodukt oder Kreuzprodukt zweier Vektoren
 
 
u1
v1
~u = u2  , ~v = v2  ∈ R3
u3
v3
105
KAPITEL 3. VEKTORRECHNUNG
ist definiert durch
   


u1
v1
u2 v3 − u3 v2
~u × ~v = u2  × v2  := u3 v1 − u1 v3  .
u3
v3
u1 v2 − u2 v1
Es wird manchmal auch mit [~u, ~v ], [~u~v ] oder ~u ∧ ~v bezeichnet.
Mit dem Levi-Civita-Tensor


für (k, l, m) = (1, 2, 3), (2, 3, 1), (3, 1, 2),
1
εklm := −1 für (k, l, m) = (1, 3, 2), (3, 2, 1), (2, 1, 3),


0
sonst,
für k, l, m ∈ {1, 2, 3}
erhält das Vektorprodukt die Darstellung
~u × ~v =
3
X
εklm uk vl~em .
k,l,m=1
1.3 Eigenschaften des Vektorprodukts.
(a) ~u × ~v = ~0 genau dann, wenn ~u und ~v linear abhängig.
(b) Span(~u × ~v ) = Span(~u, ~v )⊥ falls ~u und ~v linear unabhängig, d.h. die zu ~u und ~v senkrechten Vektoren
sind dann gerade die Vielfachen von ~u × ~v .
p
(c) k~u × ~v k = k~uk · k~v k · sin ϕ = k~uk2 k~v k2 − h~u|~v i2 für ~u, ~v 6= ~0, wobei ϕ ∈ [0, π] der Winkel zwischen ~u
und ~v ist.
(d) Antisymmetrie: ~u × ~v = −~v × ~u.
(e) Linearität: (λ~u + µ~v ) × w
~ = λ~u × w
~ + µ~v × w.
~
(f) Graßmannscher Entwicklungssatz : (~u × ~v ) × w
~ = h~u|wi~
~ v − h~v |wi~
~ u.
(g) Jacobi-Identität: (~u × ~v ) × w
~ + (~v × w)
~ × ~u + (w
~ × ~u) × ~v = ~0.
Beweis. Zu (a): Sind ~u und ~v linear abhängig, so ist nach §3.1.16 ~u ein Vielfaches von ~v oder umgekehrt.
Im ersten Fall gilt ~u = λ~v , d.h. uk = λvk für k = 1, 2, 3 und damit ~u × ~v = ~0. Der zweite Fall erledigt
sich analog. Gilt umgekehrt ~u × ~v = ~0, so sind ~u und ~v sicher linear abhängig, wenn ~u = ~0. Andernfalls
ist etwa u1 6= 0 (die anderen beiden Möglichkeiten behandle man analog) und wegen u1 v2 = u2 v1 und
u3 v1 = u1 v3 dann v1 = uv11 u1 , v2 = uv11 u2 , v3 = uv11 u3 , d.h. ~v = uv11 ~u.
Zu (b): Wir berechnen h~u × ~v |~ui = u1 u2 v3 − u1 u3 v2 + u2 u3 v1 − u1 u2 v3 + u1 u3 v2 − u2 u3 v1 = 0 und
analog h~u × ~v |~v i = 0. Dies zeigt ~u, ~v ⊥ ~u × ~v und dann auch Span(~u × ~v ) ⊆ Span(~u, ~v )⊥ . Sind ~u
und ~v linear unabhängig, gilt auch die umgekehrte Inklusion: Dann ist ~u × ~v 6= ~0 gemäß (a), es gilt
also etwa u1 v2 − u2 v1 6= 0 (die anderen beiden Möglichkeiten behandle man analog). Für einen Vektor
~x ∈ Span(~u, ~v )⊥ gilt dann h~u|~xi = 0 = h~v |~xi. Das lässt sich in als Gleichungssystem u1 x1 + u2 x2 = −u3 x3
und v1 x1 + v2 x2 = −v3 x3 schreiben und dieses Gleichungssystem hat die eindeutig bestimmte Lösung
−u3 v2
u1 v2 −u2 v1
1 v3
3
x1 = uu12 vv23 −u
x3 , x2 = uu31 vv12 −u
x = u1 v2x−u
~u × ~v , d.h.
−u2 v1 x3 . Zusammen mit x3 = u1 v2 −u2 v1 x3 folgt ~
2 v1
2 v1
~x ∈ Span(~u × ~v ).
(c) erhält man durch Wurzelziehen aus
k~uk2 · k~v k2 · sin2 ϕ = k~uk2 · k~v k2 · (1 − cos2 ϕ) = k~uk2 · k~v k2 − h~u|~v i2
=
(u1 2 + u2 2 + u3 2 )(v1 2 + v2 2 + v3 2 ) − (u1 v1 + u2 v2 + u3 v3 )2
=
(u2 v3 − u3 v2 )2 + (u3 v1 − u1 v3 )2 + (u1 v2 − u2 v1 )2 = k~u × ~v k2 .
Die Regeln (d)–(g) beweist man ebenfalls durch fleißiges Rechnen.
Dank (b) und (c) erfüllt unser Vektorprodukt die Forderungen (1) und (2). Aber wie steht es mit (3)?
Nun, wir drehen formal den Spieß um und definieren „positiv orientiert“ mit Hilfe des Kreuzprodukts.
§4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3
106
1.4 Orientierung von Orthonormalsystemen im R3 . Bilden drei Vektoren ~v1 , ~v2 , ~v3 ein Orthonormalsystem im R3 so gilt entweder
~v3 = ~v1 × ~v2
oder
~v3 = −~v1 × ~v2 .
Im ersten Fall sprechen wir von einem positiv orientierten Orthonormalsystem oder Rechtssystem, im
zweiten von einem negativ orientierten Orthonormalsystem oder Linkssystem.
1.5 Ebene und Normale. Ist E = Span(~v , w)
~ eine Ursprungsebene im R3 , welche von den beiden
3
Richtungsvektoren ~v , w
~ ∈ R aufgespannt wird, so bilden die zu E senkrechten Vektoren
E ⊥ = {~a ∈ R3 | h~a|~ui = 0 für alle ~u ∈ E}
die Normale von E. Nach 1.3 (b) gilt
E ⊥ = Span(~n)
mit ~n :=
1
~v × w.
~
k~v × wk
~
Wir nennen ~n den Einheitsnormalenvektor zu E.
Die zu ~n senkrechten Vektoren sind gerade wieder die Vektoren in E, d.h. (E ⊥ )⊥ = E.
Beweis. Die Inkusion E ⊆ (E ⊥ )⊥ folgt sofort aus der Definition des orthogonalen Komplements 3.2.
Wir müssen also noch (E ⊥ )⊥ ⊆ E nachweisen. Sei ~v ∈ (E ⊥ )⊥ . Dann gilt ~v ⊥ ~n. Für die orthogonale
Projektion P auf E gilt ~v − P (~v ) ⊥ E, also ~v − P (~v ) = λ~n mit einem λ ∈ R. Wegen k~v − P (~v )k2 =
h~v −P (~v )|~v −P (~v )i = h~v −P (~v )|λ~ni = λh~v |~ni−λhP (~v )|~ni = 0 folgt ~v −P (~v ) = ~0 und damit ~v = P (~v ) ∈ E.
Zur Übung leite man aus obigen Satz und seinem Beweis die folgende Aussage ab.
Normale
1.6 Hessesche Normalform. Ist E = ~a +Span(~v , w)
~ eine Ebene
im R3 durch ~a aufgespannt von ~v und w,
~ so gilt
E = {~u ∈ R3 | h~n|~ui = h~n|~ai}
mit ~n :=
1
~v × w.
~
k~v × wk
~
h~n|~ai~n
Der Abstand eines Punktes ~x ∈ R3 von E ist gegeben durch
|h~n|~x − ~ai|.
~n
~0
Die obige Darstellung von E nennen wir Hessesche Normalform
von E.
2
~a − ~u
h~n|~ui = h~n|~ai
h~n|~ui = h~n|~0i = 0
Abbildung 3.17: Parallele
Ebenen und Normale.
Spatprodukt
2.1 Definition: Spatprodukt. Für drei Vektoren
~u, ~v , w
~ ∈ R3 nennen wir
det(~u, ~v , w)
~ := h~u × ~v |wi
~
das Spatprodukt oder die Determinante von ~u, ~v , w.
~
w
~
~v
~u
Abbildung 3.18: Zum Spatprodukt im R3 .
2.2 Eigenschaften.
(a) Antisymmetrie: det(~u, ~v , w)
~ = −det(~v , ~u, w),
~ det(~u, ~v , w)
~ = −det(w,
~ ~v , ~u), det(~u, ~v , w)
~ = −det(~u, w,
~ ~v ),
d.h. das Spatprodukt ändert sein Vorzeichen beim Vertauschen zweier Einträge.
107
KAPITEL 3. VEKTORRECHNUNG
(b) Zyklische Symmetrie: det(~u, ~v , w)
~ = det(~v , w,
~ ~u) = det(w,
~ ~u, ~v ), d.h. das Spatprodukt bleibt gleich,
wenn man die Einträge zyklisch verschiebt.
(c) Linearität: det(λ1 ~u1 + λ2 ~u2 , ~v , w)
~ = λ1 det(~u1 , ~v , w)
~ + λ2 det(~u2 , ~v , w),
~ analog für die zweite oder die
dritte Spalte.
(d) Cramersche Regel : det(~u, ~v , w)
~ = u1 v2 w3 + v1 w2 u3 + w1 u2 v3 − w1 v2 u3 − v1 u2 w3 − u1 w2 v3 .
(e) det(~u, ~v , w)
~ = 0 genau dann, wenn ~u, ~v , w
~ ∈ R3 linear abhängig sind.
(f) | det(~u, ~v , w)|
~ ist das Volumen des von ~u, ~v , w
~ aufgespannten Spatkristalls.
Die Cramersche Regel kann man sich symbolisch in der Form
•◦◦ ◦•◦ ◦◦• ◦◦• ◦•◦ •◦◦
•◦ ◦◦• •◦◦ ◦•◦ •◦◦ ◦◦•
det(~u, ~v , w)
~ = +◦
◦ ◦ • + • ◦ ◦ + ◦ • ◦ − • ◦ ◦ − ◦ ◦ • − ◦ • ◦.
merken. Unter Verwendung des Levi-Civita-Tensors gilt
u1 v1 w1 3
X
εklm uk vl wm .
det(~u, ~v , w)
~ = u2 v2 w2 =
u3 v3 w3 k,l,m=1
Beweis. (a) folgt sofort aus der Antisymmetrie des Kreuzprodukts und der Symmetrie des Skalarprodukts. Anschließend erhält man (b) durch zweimalige Anwendung von (a). Die Definitionen von Vektorund Skalarprodukt bzw. deren Linearität liefern (d) bzw. (c).
Zu (e): Genau dann sind drei Vektoren im R3 linear abhängig, wenn einer von ihnen eine Linearkombination der beiden anderen ist. Wir nennen den einen ~u, die beiden anderen ~v und w.
~ Mit 1.5 und 1.3 (b)
gilt dann
~u ∈ Span(~v , w)
~
⇔
~u ∈ Span(~v × w)
~ ⊥
⇔
~u ⊥ Span(~v × w)
~
⇔
h~u|~v × wi
~ = 0.
Zu (f): Die Grundfläche F des von ~u, ~v , w
~ aufgespannten Spatkristalls ist nach 1.3 (c) gegeben durch
F = k~u ×~v k. Seine Höhe h erhalten wir, indem wir den Abstand von w
~ zu der von ~u und ~v aufgespannten
1
~
u
×
~
v
und wir erhalten für das Volumen
Grundfläche ermitteln. Dank 1.6 folgt h = |h~n|wi|
~ mit ~n = k~u×~
vk
1
~
~u × ~v | wi
~ = |h~u × ~v |wi|.
V = F h = k~u × ~v k · h
k~u × ~v k
3
Drehungen im Raum
3.1 Zylinderkoordinaten. Jeder Vektor ~x im
R3 r Span(~e3 ) besitzt eine eindeutige Darstellung der
Form
  

x1
ρ cos ϕ
x2  =  ρ sin ϕ 
mit ρ > 0, ϕ ∈ [0, 2π[.
x3
x3
Diese Darstellung nennen wir Zylinderkoordinaten
von ~x bezüglich der x3 -Achse.
x3
~x
ρ
x2
ϕ
)
x1
Abbildung 3.19: Zylinderkoordinaten.
Existenz und Eindeutigkeit dieser Darstellung erhalten wir sofort aus den Polarkoordinaten in C bzw. R2
(vgl. 2.§2.5.16). Deswegen rechnet man auch mittels
(
p
arccos xρ1
für x2 ≥ 0,
2
2
ϕ :=
ρ := x1 + x2 ,
x1
2π − arccos ρ für x2 < 0,
von kartesischen Koordinaten (x1 , x2 , x3 ) in Zylinderkoordinaten (ρ, ϕ, x3 ) um.
§4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3
108
Analog führt man Zylinderkoordinaten bezüglich der x1 - oder x2 -Achse ein. Die Achse muss man jeweils
ausnehmen, wenn man Eindeutigkeit von ρ und ϕ haben will. Für Punkte auf der Achse würde man ρ = 0
setzen und könnte dann ϕ beliebig wählen.
Zylinderkoordinaten sind nützlich, wenn bezüglich der zugehörigen Achse Drehsymmetrie vorliegt, d.h.
eine Konfiguration (z.B. ein Körper) nach Drehung um die Achse in sich selbst übergeht.
3.2 Drehung um eine Koordinatenachse. Eine Drehung
D~e3 ,ϕ mit dem Ursprung als Drehpunkt um die x3 -Achse um den
Winkel ϕ wirkt wie eine ebene Drehung um ϕ in der (x1 , x2 )-Ebene
und lässt die x3 -Koordinate fest.
 


x1
x1 cos ϕ − x2 sin ϕ
x2  7→ x1 sin ϕ + x2 cos ϕ .
D~e3 ,ϕ : R3 → R3 ,
x3
x3
ϕ
Die Basisvektoren ~e1 , ~e2 , ~e3 des alten Koordinatensystems werden
dabei in
~e1 0 = cos ϕ~e1 − sin ϕe~2 ,
~e2 0 = sin ϕ~e1 + cos ϕe~2 ,
~e3 0 = ~e3
Abbildung 3.20: Drehung um
die x3 -Achse.
übergeführt. Analog führen wir Drehungen D~e2 ,ϕ und D~e1 ,ϕ um die x2 - bzw. die x1 -Achse ein.
Diese Drehungen wollen wir nun im Matrizenkalkül beschreiben.
3.3 (3 × 3)-Matrizen. Für (3 × 3)-Matrizen erklären wir analog zum (2 × 2)-Fall §2.3.1 das Produkt einer
Matrix A mit einem Vektor ~x durch

 


a11 a12 a13
x1
a11 x1 + a12 x2 + a13 x3
A~x = a21 a22 a23  x2  := a21 x1 + a22 x2 + a23 x3  ,
a31 a32 a33
x3
a31 x1 + a32 x2 + a33 x3
und das Produkt zweier (3 × 3)-Matrizen A, B durch



a11 a12 a13
b11 b12 b13
AB = a21 a22 a23  b21 b22 b23 
a31 a32 a33
b31 b32 b33

a11 b11 + a12 b21 + a13 b31 a11 b12 + a12 b22 + a13 b32
= a21 b11 + a22 b21 + a23 b31 a21 b12 + a22 b22 + a23 b32
a31 b11 + a32 b21 + a33 b31 a31 b12 + a32 b22 + a33 b32

a11 b13 + a12 b23 + a13 b33
a21 b13 + a22 b23 + a23 b33  .
a31 b13 + a32 b23 + a33 b33
Das merkt man sich am besten wieder in der Form „die Spalten der Produktmatrix AB erhält man,
indem man die Spaltenvektoren von B an A multipliziert“:
AB = A(~b1 , ~b2 , ~b3 ) = (A~b1 , A~b2 , A~b3 ).
Auch hier kommt es beim Bilden des Matrizenprodukts auf die Reihenfolge an.
3.4 Drehmatrizen im Raum. Nun können wir jede der drei Drehungen D~ek ,ϕ , k = 1, 2, 3, als ein
Matrizen-Vektor-Produkt
D~ek ,ϕ (~x) = Uk,ϕ ~x
schreiben mit

U1,ϕ
1
:= 0
0





0
0
cos ϕ 0 − sin ϕ
cos ϕ − sin ϕ 0
cos ϕ − sin ϕ , U2,ϕ :=  0
1
0  , U3,ϕ :=  sin ϕ cos ϕ 0 .
sin ϕ cos ϕ
sin ϕ 0 cos ϕ
0
0
1
Die Spalten von Uk,ϕ enthalten dann gerade die Koordinaten der Bilder der Basisvektoren unter der
Drehung D~ek ,ϕ .
109
KAPITEL 3. VEKTORRECHNUNG
Durch Nachrechnen verifiziert man, dass die Spaltenvektoren aller drei Drehmatrizen Uk,ϕ normiert sind
und jeweils paarweise aufeinander senkrecht stehen. Jede Drehung D~ek ,ϕ bildet also eine Orthonormalbasis
des R3 auf eine Orthonormalbasis ab (vgl. 5.§6.3.8).
3.5 Polarkoordinaten im Raum und Kugelkoordinaten. Wir wollen einen Vektor ~x durch eine
Drehung um die x3 -Achse und eine anschließende Drehung um die x2 -Achse in den ersten Standardbasisvektor ~e1 überführen. Hierzu muss ~x offensichtlich normiert sein. Wir gehen hierzu folgendermaßen
vor.
Schritt 1. Falls ~x auf der x3 -Achse liegt, d.h. falls x1 = x2 = 0, so setzen wir ϕ := 0. Andernfalls berechnen
wir den
√ Polarkoordinatenwinkel ϕ ∈ [0, 2π[ von (x1 , x2 ), d.h. x1 = ρ cos ϕ und x2 = ρ sin ϕ mit
ρ = x1 2 + x2 2 > 0, drehen mit D~e3 ,−ϕ und erhalten

 
  
x1 cos(−ϕ) − x2 sin(−ϕ)
ρ
ρ cos2 ϕ + ρ sin2 ϕ
D~e3 ,−ϕ (~x) = x1 sin(−ϕ) + x2 cos(−ϕ) = −ρ cos ϕ sin ϕ + ρ sin ϕ cos ϕ =  0  .
x3
x3
x3
In jedem Fall haben wir also ~x durch eine Drehung um −ϕ um die x3 -Achse in
√

x1 2 + x2 2

~y := D~e3 ,−ϕ (~x) = 
0
x3
übergeführt.
Schritt 2. Aus k~xk2 = x1 2 + x2 2 + x3 2 = 1 folgt k~y k = y1 2 + y3 2 = 1. Wegen y1 ≥ 0 hat (y1 , y3 ) eine
Polarkoordinatendarstellung der Form y1 = cos θ, y3 = sin θ mit θ ∈ [−π/2, π/2]. Die Drehung
D~e2 ,−θ führt ~y daher in ~e1 über,
 


y1 cos(−θ) − y3 sin(−θ)
cos2 θ + sin2 θ
=
 = ~e1 .
0
D~e2 ,−θ (~y ) = 
0
y1 sin(−θ) + y3 cos(−θ)
− cos θ sin θ + sin θ cos θ
~y
~x
ϕ
~y
~x
Abbildung 3.21: Die zwei Teilschritte der Drehung von ~x in ~e1 .
θ
~e1
§4. SPEZIALITÄTEN DER VEKTORRECHNUNG IM R3
110
Umgekehrt wird r~e1 für r > 0 durch die Drehungen D~e2 ,θ und D~e3 ,ϕ in r~x übergeführt,


 
cos ϕ − sin ϕ 0
cos θ 0 − sin θ
r
1
0  0
D~e3 ,ϕ (D~e2 ,θ (r~e1 )) = U3,ϕ U2,θ ~e1 =  sin ϕ cos ϕ 0  0
0
0
1
sin θ 0 cos θ
0


 

cos ϕ − sin ϕ 0
r cos θ
r cos ϕ cos θ
=  sin ϕ cos ϕ 0  0  =  r sin ϕ cos θ  .
0
0
1
r sin θ
r sin θ
Auf diese Weise können wir jedem Punkt im R3 außer dem Ursprung drei Zahlen r > 0, θ ∈ [−π/2, π/2]
und ϕ ∈ [0, 2π[ zuordnen. Eine genaue Inspektion unseres Vorgehens zeigt, dass diese Zuordnung eindeutig
wird, wenn wir Punkte auf der x3 -Achse ausschließen. Dann gilt sogar θ ∈] − π/2, π/2[.
Fazit. Jeder Vektor ~x im R3 r Span(~e3 ) besitzt eine eindeutige Darstellung der Form
  

x1
r cos ϕ cos θ
x2  =  r sin ϕ cos θ  mit r > 0, θ ∈] − π , π [, ϕ ∈ [0, 2π[.
2 2
x3
r sin θ
Diese Darstellung nennen wir Polarkoordinaten im Raum von ~x. Der Winkel ϕ wird geographische Länge,
der Winkel θ geographische Breite genannt.
In der Physik ersetzt man θ gerne durch
π
2
− θ. Dann gilt θ ∈]0, π[ und wir erhalten die Kugelkoordinaten.
3
Jeder Vektor ~x im R r Span(~e3 ) besitzt eine eindeutige Darstellung der Form

  
x1
r cos ϕ sin θ
x2  =  r sin ϕ sin θ  mit r > 0, θ ∈]0, π[, ϕ ∈ [0, 2π[.
r cos θ
x3
r
θ
ϕ
r θ
ϕ
Abbildung 3.22: Polarkoordinaten im Raum und Kugelkoordinaten.
Um Verwechslungen zu vermeiden, haben wir zuvor von „Polarkoordinaten im Raum“ gesprochen obwohl
auch hierfür die Bezeichnung „Kugelkoordinaten“ üblich ist.
3.6 Allgemeine Drehungen. Eine Drehung um eine vorgegebene Achse ~v beschreibt man am besten
dadurch, dass man ~v zu ~n normiert, diesen Vektor als Normalenvektor einer Ebene auffasst und selbige
durch zwei orthonormierte Vektoren ~v und w
~ aufspannt. Dann bildet ~v , w,
~ ~n (ggf. nach Vertauschung
von ~v und w)
~ eine positiv orientierte Orthonomalbasis, bezüglich der die Drehung wie in 3.2 beschrieben
werden kann.
111
Kapitel 4
Analysis, vornehmlich in einer
Variablen
Wir entwickeln nun die Analysis, d.h. vor allem die Differential- und Integralrechnung in einer und
mehreren Variablen.
In diesem Kapitel liegt unser Hauptaugenmerk auf Funktionen einer (reellen) Variablen. Wo es problemlos
möglich ist, behandeln wir zugleich komplex- oder vektorwertige Funktionen, manchmal auch Funktionen
einer komplexer oder mehrerer reeller Variablen. Dies geschieht, um den Bedürfnissen der Physik nach
„möglichst schnell möglichst viel“ Analysis gerecht zu werden. Wer sich dabei unsicher führt, der ziehe
sich auf den reellen Fall zurück, den wir auch immer in den Vordergrund stellen werden.
Diejenigen Teile der Analysis, in denen sich Funktionen mehrerer Variablen stark von denen einer Variablen unterscheiden, müssen wir auf Kapitel 6 zurückstellen — vor allem deswegen, weil wir dabei
mehr Wissen aus der linearen Algebra (Kapitel 5) benötigen, als es die Vektorrechnung aus Kapitel 3
bereitstellt.
Getreu unserem Motto „man spart sich Kummer mit Funktionen, wenn man nicht nur an die Abbildungsvorschrift, sondern immer auch an den Definitionsbereich denkt“ beginnen wir mit Grundbegriffen.
§1
1
Grundlegendes über Raum, Zeit und Funktionen
Folgen von Vektoren
1.1 Definition: Grenzwert. Eine Folge (~xk )k von Vektoren im Rn konvergiert gegen einen Vektor
~x ∈ Rn oder hat den Grenzvektor ~x, in Zeichen
lim ~xk = ~x
k→∞
oder
~xk → ~x
für k → ∞,
wenn zu jedem ε > 0 ein kε ∈ N existiert mit k~xk − ~xk < ε für alle k ≥ kε .
Wir haben also die Definitionen 1.§2.6.1 und 1.§3.3.1 für reelle bzw. komplexe Zahlenfolgen wörtlich —
bis auf die Ersetzung des Betrags durch die Norm — übertragen.
1.2 Konvergenz und komponentenweise Konvergenz. Eine Folge (~xk )k von Vektoren im Rn konvergiert genau dann, wenn alle n Komponentenfolgen (xk,l )k , l = 1, . . . , n konvergieren. Die Grenzwerte
der Komponentenfolgen sind dann die Komponenten des Grenzvektors:

 

xk,1
limk→∞ xk,1

 

..
lim  ...  = 
.
.
k→∞
xk,n
limk→∞ xk,n
112
§1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN
Beweis. Wir betrachten die Differenzvektoren ~xk − ~x und müssen zeigen, dass selbige genau dann gegen
den Nullvektor konvergieren, wenn alle Komponentenfolgen Nullfolgen sind. Für die Norm eines Vektors
~v ∈ Rn gilt aber die Abschätzung
|vl | ≤ k~v k =
p
v1 2 + · · · + vn 2 ≤ |v1 | + · · · + |vn |
für l = 1, . . . , n,
mit der wir vom Betrag einer Komponente auf die Norm und umgekehrt schließen können. (Die obere
Schranke für k~v k bedeutet geometrisch, dass eine Kugel in einem achsenparallelen Würfel liegt.)
1.3 Was bleibt erhalten? Dank der Äquivalenz von Konvergenz und komponentenweiser Konvergenz
erhalten wir aus den Rechenregeln für konvergente Zahlenfolgen Rechenregeln für konvergente Folgen von
Vektoren.
Sind (~xk )k und (~yk )k Folgen von Vektoren im Rn mit limk→∞ ~xk = ~x und limk→∞ ~yk = ~y , so gilt.
(a) (~xk )k ist beschränkt (im Sinne der Norm),
(b) jede Teilfolge von (~xk )k konvergiert gegen ~x,
(c) limk→∞ (λ~xk + µ~yk ) = λ~x + µ~y für beliebige Skalare λ, µ ∈ R,
(d) limk→∞ k~xk k = k~xk,
(e) limk→∞ h~xk |~yk i = h~x|~y i,
Wie in 1.§3.3.5 bzw. 1.§3.3.6 erhalten wir ferner:
1.4∗ Satz von Bolzano-Weierstraß im Rn . Jede (bezüglich der Norm) beschränkte Folge von Vektoren
im Rn enthält eine konvergente Teilfolge.
1.5∗ Cauchy-Folgen im Rn . Eine Folge (~xk )k von Vektoren im Rn heißt Cauchy-Folge, wenn es zu
jedem ε > 0 ein kε ∈ N gibt mit |ak − al | < ε für alle k, l ∈ N mit k, l ≥ kε .
Eine Folge von Vektoren im Rn ist genau dann eine Cauchy-Folge, wenn sie konvergiert.
1.6 Zusammenfassung. Konvergenz von Folgen in R, C und Rn wird nach demselben Strickmuster behandelt. Leichte Unterschiede bestehen nur bei den für die Folgeglieder zur Verfügung stehenden
Rechenoperationen: Addition, Subtraktion, Multiplikation und Division in R und C, Vektoraddition,
Skalarmultiplikation und Skalarprodukt im Rn . Der Betrag in R und C bzw. die Norm im Rn stellen
jeweils eine Abstandsmessung zur Verfügung und erlauben damit die Einführung des Grenzwertbegriffs.
2
Kurven, Skalar- und Vektorfelder
2.1 Reell- komplex- oder vektorwertige Funktionen einer oder mehrerer Variablen. Je nachdem, ob der Wertevorrat einer Funktion in R, C oder Rm liegt, nennen wir die Funktion reell-, komplexoder vektorwertig. Ist sie auf einer Teilmenge von R, C bzw. Rn definiert, so sprechen wir von einer
Funktion einer reellen oder einer komplexen Variablen bzw. mehrerer Variablen.
Eine vektorwertige Funktion bezeichnen wir mit f~ statt f . Den Funktionswert an der Stelle x schreiben
wir dann als Koordinatenvektor f~(x) = (f1 (x), . . . , fm (x)) und nennen die so definierten Funktionen
fl : D → R, l = 1, . . . , m, die Komponentenfunktionen von f~. (Ist f~ dabei eine Funktion mehrerer
Variablen, so kennzeichnen wir auch die Variable ~x mit einem Vektorpfeil.)
113
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2.2 Beispiele für Kurven. Wenn ϕ in
f~(ϕ) := (r cos ϕ, r sin ϕ)
(im Komplexen ist das reiϕ ) von 0 nach 2π läuft, so bewegt sich f~(ϕ) in der Ebene von (r, 0) beginnend einmal im
Gegenuhrzeigersinn auf der Einheitskreislinie vom Radius r
um den Ursprung. Für
F~ (ϕ) := (r cos ϕ, r sin ϕ, cϕ)
passiert in der (x1 , x2 )-Ebene dasselbe, während sich die
x3 -Koordinate um 2πc erhöht. Wir erhalten eine Schraubenlinie um die x3 -Achse mit Radius r und Ganghöhe 2πc.
Abbildung 4.1: Schraubenlinie
im Raum.
2.3 Parameterdarstellungen und Spur einer Kurve. Eine vektorwertige Funktion f auf einem
Intervall I ⊂ R mit Werten im Rm nennen wir Parametrisierung einer Kurve γ oder Weg im Rm . Die
Wertemenge f (I) ⊂ Rm heißt Spur der Kurve γ. Für m = 2 ist der komplexwertige Fall eingeschlossen.
Wir interpretieren die Variable am besten als Zeit, den Funktionswert als Ort und bezeichnen sie mit t und
~x(t). Für I = [t0 , t1 ] nennen wir ~x(t0 ) Anfangspunkt und ~x(t1 ) Endpunkt von γ. Die Parametrisierung ~x
gibt den Zeitplan an, gemäß dem wir uns auf der Kurve γ vom Anfangs- zum Endpunkt bewegen.
Beispiel. ~x(t) := (cos t, sin t) (im Komplexen x(t) := eit ). Für I = [0, 2π] oder I = [2π, 4π] wird
die Einheitskreislinie einmal im Gegenuhrzeigersinn durchlaufen mit Anfangs- und Endpunkt (1, 0). Für
I = [−π, π] ist (−1, 0) der Anfangs- und Endpunkt, für I = [0, 4π] beginnen und enden wir wieder in (1, 0),
laufen aber zweimal im Gegenuhrzeigersinn. Ersetzen wir ~x(t) := (cos 2πt, sin 2πt), so genügt I = [0, 1],
um einmal im Gegenuhrzeigersinn um den Kreis zu laufen, für ~x(t) := (− cos 2πt, sin 2πt), laufen wir im
Uhrzeigersinn. Jedes Mal ist die Spur die Einheitskreislinie.
Fazit. Wir müssen unterscheiden zwischen einer Kurve, ihrer Spur und ihren Parametrisierungen.
2.4 Orientierte Kurve, Parameterwechsel. Zwei Wege ~x : I = [t0 , t1 ] → Rm und ~y : J = [τ0 , τ1 ] →
Rm heißen Parametrisierungen derselben Kurve γ im Rm , wenn es eine streng monoton wachsende surjektive Abbildung ϕ : I → J gibt mit ϕ(t0 ) = τ0 , ϕ(t1 ) = τ1 und ~x = ~y ◦ ϕ, d.h. ~x(t) = ~y (ϕ(t)) für alle
t ∈ I. Wir nennen dann ϕ einen Parameterwechsel für γ.
Einen Parameterwechsel stellen wir uns als Durchlaufen derselben Kurve mit anderem Zeitplan vor.
Anfangs- und Endpunkt sowie Durchlaufungsrichtung werden beibehalten. Das wird durch die Bedingungen ϕ(t0 ) = τ0 und ϕ(t1 ) = τ1 sowie die Monotonie von ϕ sichergestellt.
Alle Parametrisierungen einer Kurve γ haben denselben Anfangs- und Endpunkt sowie dieselbe Spur.
Eine Kurve γ im Rm ist also „mehr“ als die Wertemenge f~(I) einer ihrer Parametrisierungen f~, aber
„weniger“ als f~. Wir stellen sie uns als ihre Spur zusammen mit einer Vereinbarung über die Durchlaufungsrichtung vor und sprechen von einer (orientierten) Kurve.
~x(t) = ~y (τ )
Beispiele. Durch ~x(t) = (− cos t, sin t), t ∈ [0, π],
wird ein Halbkreisbogen um (0, 0), durchlaufen von
(−1, 0) nach (1, 0), parametrisiert. Der Parameterwechsel ϕ(t) := arccos(−t) von I = [0, π] auf J = [−1, 1]
liefert nach
√ kurzer Rechnung als neue Parametrisierung
t
~y (τ ) = (τ, 1 − τ 2 ), τ ∈ [−1, 1]. Die erste Parametrisierung
τ
gehört zu einer gleichmäßigen Durchlaufung auf dem KreisAbbildung 4.2: Zwei Parametrisiebogen selbst (in Bogenlänge), die zweite zu einer gleichmärungen eines Halbkreisbogens.
ßigen Durchlaufung von der x1 -Achse aus gesehen.
Abstrakte Beispiele für Kurven und Wege sind der Konfigurationsraum eines k-Teilchen-Systems (d.h.
die zu einem Vektor im R6k zusammengefassten Orts- und Impulsvektoren der einzelnen Teilchen) oder
der Zustand eines thermodynamischen Systems in Abhängigkeit von der Zeit.
114
§1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN
2.5 Skalarfelder. Eine reellwertige Funktion f : D ⊂ Rn → R mehrerer Variablen nennen wir auch
Skalarfeld . Ist f komplexwertig, so sprechen wir auch von einem komplexen Skalarfeld.
Beispiel. Temperatur oder Druck in Abhängigkeit vom Ort.
2.6 Graphische Darstellung von Skalarfeldern. Für ein Skalarfeld zeichnen wir den Graphen
Gf := {(~x, f (~x)) = (x1 , . . . , xn , f (x1 , . . . , xn )) ∈ Rn+1 | ~x ∈ D}
oder genügend viele Niveaumengen
Nf,c := {~x ∈ D | f (~x) = c} ⊂ Rn ,
c ∈ R.
Für n > 2 entzieht sich der Graph, für n > 3 die Darstellung der Niveaumengen unserer Vorstellung.
Alles Wesentliche kann man aber am Beispiel n = 2 studieren. Dann stellen wir uns den Graphen als eine
„Berg- und Tallandschaft“ über dem Definitionsbereich D vor, Niveaumengen als „Höhenlinien“ in D.
2
0.2
-0.2
-2
-2
2
-1
0
1
2
2
1
1
0
0
2
1
-1
0
1
-2
2
0
-1
-1
2-2
-2
-1
-2
-2
-1
0
1
2
-2
Abbildung 4.3: Graph und Niveaumengen (pur/eingefärbt) des Skalarfelders f (x, y) = ye−x
2
−y 2
.
2.7 Vektorfelder. Eine vektorwertige Funktion mehrerer Variablen f~ : D ⊂ Rn → Rn nennen wir auch
Vektorfeld . Definitionsbereich D und Wertevorrat liegen also im selben Raum.
Beispiel. Gravitationskraft, elektrische oder magnetische Feldstärke in Abhängigkeit vom Ort.
2.8 Graphische Darstellung von Vektorfeldern. Wir haben schon einige Vektorfelder und vektorwertige Funktionen durch Zeichnen von Gittern im Definitionsraum und deren Bildgitter graphisch
dargestellt: für Exponentialfunktion im Komplexen (Abbildung 2.13 in Kapitel 2) und für die Riemannsche Fläche zu Exponentialfunktion und Logarithmus (Abbildung 2.14 in Kapitel 2). Hierbei wurde C als
der R2 interpretiert, d.h. exp als ein Vektorfeld R2 → R2 .
Neben dieser Darstellung ist das Zeichnen eines Vektorfeldes (die Darstellung hat denselben Namen wie
die Abbildung) üblich: wir heften den Bildvektor f~(~x) an die Stelle ~x im Definitionsbereich. Das geht gut
für ebene Vektorfelder (n = 2) und zur Not auch im Raum (n = 3).
~x 7→ − k~x1k3 ~x
1
~x 7→ − k~x+~
x + ~a) −
ak3 (~
Abbildung 4.4: Zwei Vektorfelder im Raum.
1
x
k~
x−~
ak3 (~
− ~a)
115
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1
-1
1
1
-1
-1
1
-1
-1
(x, y) 7→ (x, y)
(x, y) 7→ (x + y, x − y)
1
1
-1
-1
1
1
-1
-1
x
(x, y) 7→ ( x2−y
+y 2 , x2 +y 2 )
y
x
(x, y) 7→ ( x2 +y
2 , x2 +y 2 )
1
-1
(x, y) 7→ (−y, x)
1
-1
1
1
-1
2
x+y
2x−y
(x, y) 7→ ( 1+x
2 +x2 , 1+x2 +y 2 )
Abbildung 4.5: Einige Vektorfelder in der Ebene.
2.9 Vereinbarung. Sind wir in §2 primär an Funktionen einer reellen Variablen interessiert, bezeichnen
wir die Variable mit t und stellen sie uns als Zeit vor. Geht es vor allem um Funktionen mehrerer Variablen,
d.h. um Skalar- oder Vektorfelder oder allgemein um Funktionen D ⊂ Rn → Rm , so bezeichnen wir die
Variable mit x oder ~x und interpretieren sie als Ort.
3
Topologisches Vokabular
3.1 Worum geht es? Was der Rand eines Kreises, einer Kugel oder eines Quaders ist, ist jedem klar.
Was ist aber der Rand von {1, 12 , 13 , . . .}?
3.2 Innere Punkte, isolierte Punkte, Häufungspunkte. Für eine Teilmenge D des Rn unterscheiden wir drei Typen von Punkten:
• Ein Punkt ~x ∈ D heißt innerer Punkt, wenn es eine Kugel um ~x mit positivem Radius gibt, die
ganz in D liegt: Kr (~x) ⊂ D.
• Ein Punkt ~x ∈ D heißt isolierter Punkt, wenn es eine Kugel um ~x mit positivem Radius gibt, so
dass ~x der einzige Punkt aus D in dieser Kugel ist: Kr (~x) ∩ D = {~x}.
• Ein Punkt ~x ∈ Rn heißt Häufungspunkt von D, wenn es eine Folge von Punkten ~xk ∈ D gibt, die
gegen ~x konvergiert: limk→∞ ~xk = ~x.
|{z}
∈D
Achtung. Innere Punkte und isolierte Punkte von D gehören automatisch zu D, für Häufungspunkte
muss dies nicht der Fall sein. Innere Punkte sind immer Häufungspunkte, isolierte Punkte nie.
Folgende Veranschaulichung ist nützlich: Wir stellen uns die Punkte von D schwarz, die restlichen Punkte
des Rn weiß eingefärbt vor. Nun fixieren wir einen Punkt ~x ∈ Rn und „zoomen“ uns mit einem Mikroskop
in diesen Punkt hinein. Für das, was wir dabei beobachten können, gibt es vier Möglichkeiten:
• Irgendwann wird alles schwarz: wir haben einen inneren Punkt von D fixiert.
116
§1. GRUNDLEGENDES ÜBER RAUM, ZEIT UND FUNKTIONEN
• Irgendwann wird alles weiß: ~x hat nichts mit D zu tun. (Dafür haben wir keine Bezeichnung.)
• Irgendwann ist nur noch der fixierte Punkt schwarz, alles andere weiß: ~x ist isolierter Punkt von D.
• (Alles, was wir bisher noch nicht erfasst haben.) Egal, wie weit wir uns hineinzoomen, wir sehen
außer eventuell ~x selbst immer noch andere schwarze Punkte: dann ist ~x ein Häufungspunkt von D.
Im Fall n = 2, d.h. im R2 oder in C, hat unser Mikroskop ein kreisförmiges Gesichtsfeld (zweidimensionale
Kugeln sind Kreise). Für n = 1 ist das Gesichtsfeld schlitzförmig (eindimensionale Kugeln sind Intervalle).
Für n ≥ 3 appellieren wir an die räumliche Anschauung.
innerer Punkt von D
Häufungspunkt von D, in D
Häufungspunkt von D, nicht in D
Häufungspunkt von D, in D
isolierter Punkt von D
Häufungspunkt von D, nicht in D
Abbildung 4.6: Innere Punkte, isolierte Punkte und Häufungspunkte einer Menge im D im R2 .
Die folgenden Bezeichnungen sind nun einleuchtend.
3.3 Randpunkte einer Menge. Die isolierten Punkte und die Häufungspunkte einer Menge D ⊂ Rn ,
die keine inneren Punkte sind, heißen Randpunkte, ihre Gesamtheit bezeichnen wir mit ∂D.
Beispiele. ∂[0, 1] = ∂]0, 1[= ∂]0, 1] = ∂[0, 1[= {0, 1}, ∂{1, 21 , 13 , . . .} = {0, 1, 12 , 13 , . . .}, der Rand der
offenen und der abgeschlossenen Einheitskugel im Rn ist die Einheitssphäre, ∂∅ = ∂Rn = ∅.
3.4 Offene Mengen. Eine Teilmenge des Rn heißt offen, wenn alle ihre Punkte innere Punkte sind.
Bei einer offenen Menge D ⊂ Rn gehört kein Randpunkt zu D: D ∩ ∂D = ∅.
Beispiele. Offene Intervalle (beschränkt und unbeschränkt), offene Kugeln, ∅, Rn .
3.5 Abgeschlossene Mengen. Eine Teilmenge des Rn , die alle ihre Häufungspunkte enthält, heißt
abgeschlossen.
Eine abgeschlossene Menge D ⊂ Rn enthält ihren gesamten Rand: ∂D ⊂ D.
Beispiele. Abgeschlossene Intervalle (beschränkt und unbeschränkt), abgeschlossene Kugeln, ∅, Rn .
3.6 Offenheit und Abgeschlossenheit. Formal gesehen, sind die leere Menge ∅ und der gesamte Rn
zugleich offen und abgeschlossen. Keine andere Menge hat diese pathologische Eigenschaft. Es gibt aber
Mengen, die weder offen noch abgeschlossen sind, z.B. halboffene Intervalle wie ]0, 1] und [0, 1[.
Enthält D nur einen Teil des Randes ∂D (∅ 6= D ∩ ∂D ( ∂D), so ist D weder offen noch abgeschlossen.
3.7 Kompakte Mengen. Eine Menge D heißt kompakt, wenn jede Folge in D eine Teilfolge besitzt, die
gegen einen Punkt aus D konvergiert.
Wer diese Definition nicht mag (was man gut verstehen kann, obwohl sie sich gut verallgemeinern lässt),
der nehme einfach die folgende Charakterisierung:
Eine Teilmenge des Rn ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist.
Beispiele. [0, 1] ist kompakt, [0, 1[ und [0, +∞[ sind es nicht.
Beweis∗ . Ist D ⊂ Rn beschränkt, so hat jede Folge in D nach dem Satz von Bolzano-Weierstraß 1.4 eine
konvergente Teilfolge. Deren Grenzwert ~x ist dann ein Häufungspunkt von D. Ist D auch abgeschlossen, so
folgt ~x ∈ D. Ist umgekehrt D nicht beschränkt, so gibt es in D eine unbeschränkte Folge, die nach 1.3 (b)
keine konvergente Teilfolge enthalten kann. Ist D nicht abgeschlossen, so gibt es einen Häufungspunkt ~x,
der nicht in D liegt, und damit eine Folge in D, die gegen ~x konvergiert, also keinen Grenzwert in D hat.
117
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.8 Wozu kompakte Mengen? Kompakte Mengen erweisen sich als angenehm, weil sie ihren Rand
enthalten und selbiger sich nicht ins Unendliche ersteckt, wo unklar wäre „was da noch zum Rand gehört“.
3.9 Umgebung. Ist ~x ein innerer Punkt einer Menge U ⊂ Rn , so heißt U Umgebung von ~x.
Unter Umgebungen von ~x stelle man sich Kugeln um ~x und Obermengen davon vor.
3.10 Polygonzug. Eine Kurve, bestehend aus endlich vielen Strecken, die aneinandergehängt nacheinander durchlaufen werden, heißt Polygonzug.
Formal kann man einen Polygonzug im Rm dadurch parametrisieren, dass man die N Eckpunkte ~x1 , . . . , ~xN
angibt und die Parametrisierung stückweise durch f~(t) := (t − k)~xk + (k + 1 − t)~xk+1 für t ∈ [k, k + 1]
und k = 1, . . . , N − 1 definiert. (Der Zeitparameter läuft dann von 0 bis N und im Zeitintervall [k, k + 1]
läuft man gerade auf der k-ten Teilstrecke von ~xk nach ~xk+1 .)
3.11 Zusammenhängende Mengen. Eine nichtleere Teilmenge D des Rn heißt (wege-)zusammenhängend , wenn je zwei beliebige Punkte in D durch einen Polygonzug (oder allgemein durch eine stetige
Kurve) verbunden werden können, der (bzw. die) ganz in D liegt.
Anmerkung. Stetigkeit erklären wir in §2.3.2.
Unmittelbar einleuchtend ist: die zusammenhängenden Teilmengen von R sind gerade die Intervalle.
3.12 Beispiele für zusammenhängende Mengen im Rn sind Kugeln, Quader
I1 × · · · × In := {(x1 , . . . , xn ) ∈ Rn | xk ∈ Ik }
mit Intervallen I1 , . . . , In
oder Würfel I n := I ×· · ·×I. Ein Quader [c1 , d1 ]×[c2 , d2 ] im R2 ist ein Rechteck mit den vier Eckpunkten
(ck , dl ), k, l = 1, 2. Ein Würfel [c, d]2 = [c, d] × [c, d] im R2 wird gern Quadrat genannt.
§2
1
Grenzwerte bei Funktionen und Stetigkeit
Grenzwerte bei Funktionen
1.1 Worum geht es? Durch die Einführung des Grenzwertbegriffs in 1.§2.6.1 für eine Zahlenfolge (an )n
haben wir präzisiert, dass sich (an )n für n → ∞ „ordentlich“ verhält. Nun präzisisieren wir dies für
Funktionen bei Annäherung an eine Stelle. Wir beginnen mit vier Beispielen.
(a) Spaltfunktion der Frauenhoferschen Beugung. Durch
f (x) :=
sin x
x
1
wird für x ∈ R r {0} (sogar für x ∈ C r {0}) eine Funktion
erklärt. Aus der auf Potenzreihe des Sinus erhalten wir die
Darstellung
f (x) =
∞
X
(−1)k 2k
x2
x =1−
± ···
(2k + 1)!
3!
für x 6= 0.
k=0
Die rechte Seite ist auch für x = 0 definiert, hat dort den
Wert 1 und setzt somit f auf ganz R (bzw. C) fort. Auch
wenn wir für f (0) im Prinzip irgend einen Wert hätten festlegen können, so erscheint dennoch f (0) := 1 als die „natürliche“ Wahl.
-4 Π
-2 Π
2Π
4Π
Abbildung 4.7: Sinc-Funktion als Spaltfunktion der Frauenhoferschen Begung.
118
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
Die durch

sin x
∞
X
(−1)k 2k 
x =
sinc(x) :=
x
1
(2k + 1)!
k=0
sinc : C → C,
für x 6= 0,
für x = 0
definierte Sinc-Funktion ist nicht nur in der Optik sondern auch in der Datenübertragung wichtig.
(b) Kollabierende Oszillation. Die durch
g(t) := sin
1
t
für t > 0
auf R+ definierte Funktion verhält sich bei Annäherung an 0 chaotisch: zu jeder Zahl c ∈ [−1, 1] gibt es
eine Nullfolge (tn )n mit g(tn ) → c. Setzen wir nämlich tn = 1/(ϕ + 2πn) mit ϕ := arcsin c, so gilt sogar
g(tn ) = c für n ∈ N.
(c) Gedämpfte kollabierende Oszillation. Dagegen wird durch

t sin 1 für t =
6 0,
G(t) :=
t
0
für t = 0,
eine Funktion auf R erklärt, die sich wegen |G(t)| ≤ |t| in t = 0 angenehm verhält. Die in 0 kollabierende
Oszillation sin(1/t) wird durch die dort verschwindende Amplitude t unschädlich gemacht.
1
€€€€€
2
1
1
1
€€€€€€€€€ €€€€€€€€€
3Π 2Π
1
€€€€€
Π
1
- €€€€€
2
1
- €€€€€
Π
1
€€€€€
Π
1
€€€€€
2
1
- €€€€€
2
-1
Abbildung 4.8: Kollabierende und gedämpfte kollabierende Oszillation
(d) Die Heaviside-Funktion
H : R → R,


1

1
H(t) :=
2


0
1
für t > 0,
für t = 0,
für t < 0,
verhält sich bei links- bzw. rechtsseitiger Annäherung an t = 0
angenehm: sie ist dann jeweils konstant mit Wert 0 bzw. 1.
Trotzdem erscheint die Festlegung H(0) = 1/2 nur als ein „gerechter Kompromiss für einen an sich unlösbaren Konflikt“.
-1
1
Abbildung 4.9: Heaviside-Funktion.
Wir wollen nun sauber definieren, was es heißen soll, dass eine Funktion sich in der Nähe eines Punktes (in
den obigen vier Beispielen war es der Punkt 0) „anständig“ verhält. Unsere Vorstellung ist, dass sich die
Ausgabe (der Funktionswert) nur wenig ändern soll, wenn man die Eingabe (die Variable) wenig ändert.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
119
1.2 Definition: Grenzwert bei Funktionen (Folgenkriterium). Die Funktion f sei definiert in der
Umgebung U eines Punktes a mit eventueller Ausnahme des Punktes a ∈ U selbst. Wir sagen, dass f an
der Stelle a den Grenzwert b besitzt und schreiben
lim f (x) = b,
lim f (x) = b,
x→a
x∈U
U 3x→a
f (x) → b für x → a, x ∈ U
oder einfach
lim f (x) = b,
x→a
f (x) → b für x → a
wenn für jede Folge (xn )n in U r {a} mit Grenzwert limn→∞ xn = a auch die Bildfolge (f (xn ))n konvergiert mit limn→∞ f (xn ) = b.
Diese Definition kann für rell-, komplex- und vektorwertige Funktionen einer oder mehrerer Variablen
verwendet werden. Man ergänze ggf. Vektorpfeile. Wenn klar ist, was gemeint ist, schreibt man auch ganz
knapp und verwegen
lim f = b.
Achtung. Für die Existenz des Grenzwerts limU 3x→a f (x) ist der Funktionswert f (a) — sofern f an
der Stelle a überhaupt erklärt ist — nicht relevant.
1.3 Grenzwert und komponentenweiser Grenzwert. Für eine vektorwertige Funktion existiert der
Grenzwert genau dann, wenn alle Komponentengrenzwerte existieren:

  
lim f1
f1

  
lim  ...  =  ...  .
fm
lim fm
Achtung. Das ist eine gute Nachricht! Wir können eine Grenzwertbetrachtung immer auf eine komponentenweise reduzieren, uns dadurch oftmals Arbeit ersparen und die Dinge übersichtlicher machen.
1.4 Rechenregeln für Grenzwerte. Aus den Rechenregeln für Grenzwerte bei Folgen erhalten wir
sofort Rechenregeln für Grenzwerte bei Funktionen einer oder mehrerer Variablen.
Für reell- oder komplexwertige Funktionen f und g mit lim f = b und lim g = c gilt
(a) lim(βf + γg) = βb + γc für beliebige Zahlen β, γ,
(b) lim |f | = |b|, lim f = b, lim Re(f ) = Re(b), lim Im(f ) = Im(b),
(c) lim f g = bc,
(d) lim
f
b
= falls c 6= 0,
g
c
Für vektorwertige Funktionen f~ und ~g mit lim f~ = ~b und lim ~g = ~c gilt
(e) lim(β f~ + γ~g ) = β~b + γ~c für beliebige Skalare β, γ,
(f) lim kf~k = k~bk,
(g) limhf~|~g i = h~b|~ci,
Achtung. Alle Grenzwerte sind an derselben Stelle zu bilden. Man ergänze jeweils x → a oder ~x → ~a.
1.5 Grenzwert bei Funktionen (ε-δ-Kriterium). Genau dann hat f in a den Grenzwert b, wenn es
zu jedem ε > 0 ein δ > 0 gibt mit |f (x) − b| < ε für alle x ∈ U r {a} mit |x − a| < δ.
In Quantorenschreibweise: (∀ε > 0)(∃δ > 0)(∀x ∈ U r {a})(|x − a| < δ ⇒ |f (x) − b| < ε).
Auch das gilt für reell-, komplex- und vektorwertige Funktionen einer oder mehrerer Variablen. Man
ergänze (auch im nachfolgenden Beweis) ggf. Vektorpfeile und ersetze den Betrag durch die Norm.
120
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
Beweis∗ . Existiert limU 3x→a f (x) = b, so gibt es zu vorgegebenem ε > 0 zunächst ein δ > 0 mit
|f (x) − a| < b für alle x ∈ U r{a} mit |x−a| < ε. Ist nun (xn )n eine Folge in U r{a} mit limn→∞ xn = a,
so gibt es ein n0 ∈ N mit |xn − a| < δ für n ≥ n0 . Dann gilt aber |f (xn ) − b| < ε für n ≥ n0 , d.h. (f (xn ))n
konvergiert gegen b. Gilt also das ε-δ-Kriterium so auch das Folgenkriterium.
Ist dagegen das ε-δ-Kriterium verletzt, so gibt es ein ε > 0, so dass für jedes δ = 1/n > 0 ein xn ∈ U r{a}
existiert mit |xn − a| < 1/n und |f (xn ) − b| ≥ ε. D.h. (xn )n konvergiert gegen a während (f (xn ))n sicher
nicht gegen b konvergiert. Mit dem ε-δ-Kriterium ist also auch das Folgenkriterium verletzt.
1.6 Sandwichprinzip für Grenzwerte bei Funktionen. Sind f, g1 , g2 reellwertige Funktionen mit
lim g1 (x) = b =
U 3x→a
lim g2 (x)
g1 (x) ≤ f (x) ≤ g2 (x)
und
U 3x→a
für alle x ∈ U r {a}
so besitzt auch f an der Stelle a einen Grenzwert und es gilt limU 3x→a f (x) = b.
Die folgende Variante des Sandwichprinzips kann für vektorwertige Funktionen verwendet werden (und
damit auch für reell- oder komplexwertige).
Ist f~ eine vektorwertige Funktion und ist g eine reellwertige Funktion mit
lim g(x) = 0
kf~(x) − ~bk ≤ g(x)
und
U 3x→a
für alle x ∈ U r {a}
so besitzt f~ an der Stelle a einen Grenzwert und es gilt limU 3x→a f~(x) = ~b.
Beide Varianten funktionieren im Fall einer oder mehrerer Variablen (dann ersetze man x → a durch
~x → ~a). Sie ergeben sich aus dem Folgenkriterium 1.2 und dem Sandwichprinzip für Zahlenfolgen 1.§2.6.3.
1.7 Beispiele. Grenzwerte weist man in der Praxis gerne mit dem ε-δ-Kriterium 1.5 nach und berechnet
sie mit den Rechenregeln 1.4 und dem Sandwichprinzip 1.6. Das Folgenkriterium 1.2 wird meistens dazu
benutzt zu zeigen, dass ein Grenzwert nicht existiert.
(h) Für die gedämpfte kollabierende Oszillation gilt −t ≤ t sin(1/t) ≤ t für reelles t 6= 0 und damit
t sin
1
→0
t
für t → 0, t ∈ R r {0}.
2
(i) Aus den Abschätzungen für den Sinus im Reellen bei Null 2.§2.5.9 folgt 1 − t6 ≤ sint t ≤ 1 für
genügend kleine t 6= 0 und mit dem Sandwichprinzip 1.6 dann limR3t→0 sint t = 1. Hierbei haben wir
sin t
t als Funktion einer reellen Variablen behandelt. Einfacher und sogar im Komplexen erhalten wir das
P∞ (−1)k 2k
2
mit Potenzreihentechniken: wegen sinx x = k=0 (2k+1)!
x = 1 − x3! ± · · · für beliebige x 6= 0 und der
Abschätzung für Potenzreihen 2.§4.1.7 gilt | sinx x −1| ≤ M |x|2 für z.B. 0 < |x| ≤ 1 mit einer Konstanten M .
Die Variante des Sandwichprinzips liefert dann
sin x
= 1.
x→0 x
Für eine beliebige Konstante k zeigt man analog
lim
sin kx
= k.
x→0
x
lim
(j) Aus
1−cos x
x
=
x
2!
−
x3
4!
± · · · für x 6= 0 erhalten wir
lim
x→0
(k) Wegen
ex −1
x
=1+
x
2
1 − cos x
= 0.
x
+ · · · für x 6= 0 gilt
ex − 1
= 1.
x→0
x
lim
Gemäß unserer Beweisführung gelten die Grenzwerte in (i)–(k) auch im Komplexen.
(l)
lim (~a + λ~x) = ~a,
λ→0
lim (~x − ~a) = ~0,
~
x→~
a
lim k~x − ~ak = 0,
~
x→~
a
lim k~xk = k~ak.
~
x→~
a
121
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2
Spezielle Grenzwerte bei Funktionen, Landau-Symbole
2.1 Ein- und zweiseitige Grenzwerte. Hängt f in der Grenzwertdefinition 1.2 von einer reellen
Variablen ab und ist U keine Umgebung, sondern ein Intervall der Form U = [a, a + r[ mit r > 0, so
nennen wir b den rechtsseitigen Grenzwert von f an der Stelle a und schreiben
f (t) → b für t → a +
lim f (t) = b
t→a+
oder kurz
f (a+).
Entsprechend erklären wir im Fall U =]a − r, a] den linksseitigen Grenzwert f (a−).
Existieren die beiden einseitigen Grenzwerte limt→a+ f (t) und limt→a− f (t) und sind sie gleich, so bedeutet dies, dass der Grenzwert lim]a−r,a+r[3t→a f (t) selbst existiert. In diesem Zusammenhang sprechen
wir von einem zweiseitigen Grenzwert.
2.2 Beispiele für einseitige Grenzwerte. Für die Heaviside-Funktion gilt limt→0+ H(t) = 1. Für jede
Folge (tn )n mit tn > 0 und limn→∞ tn = 0 gilt nämlich H(tn ) = 1 und daher limn→0+ H(tn ) = 1. Analog
folgt limt→0− H(t) = 0. Da die beiden einseitigen Grenzwerte nicht übereinstimmen, hat H in t = 0
keinen zweiseitigen Grenzwert: limt→0 H(t) existiert nicht.
Für t > 0 gilt e1/t ≥ 1 + 1/t > 1/t und damit 0 < e−1/t < t. Das Sandwichprinzip impliziert nun
lim e−1/t = 0.
t→0+
Dagegen existiert limt→0− e−1/t nicht. Für tn = −1/n wird nämlich e−1/tn = en beliebig groß. Damit
existiert limt→0 e−1/t weder als reeller noch als komplexer Grenzwert.
1
€€€€€
2
20
1
10
1
-1
0
-1
1
1
€€€€€
2
0
0
1 -1
Abbildung 4.10: t 7→ e−1/t im Reellen und x 7→ |e−1/x | im Komplexen bei Null.
Für Funktionen einer komplexen oder mehrerer Variablen haben wir folgenden Ersatz:
2.3∗ Richtungsgrenzwerte. Für einen normierten Vektor ~v ∈ Rn und eine auf einer Umgebung U ⊂ Rn
eines Punkte ~a mit eventueller Ausnahme des Punktes ~a ∈ U selbst definierten Funktion f heißt
lim f (~a + r~v )
r→0+
im Falle der Existenz Richtungsgrenzwert von f in Richtung ~v .
2.4∗ Beispiel für Richtungsgrenzwerte. Die durch
2xy
f (x, y) := 2
für (x, y) 6= (0, 0)
x + y2
definierte Funktion f hat in Polarkoordinaten die Darstellung
f (r cos ϕ, r sin ϕ) =
2r2 cos ϕ sin ϕ
= sin 2ϕ.
(r cos ϕ)2 + (r sin ϕ)2
Also ist f konstant, wenn man aus der Richtung ~v = (cos ϕ, sin ϕ) in den Ursprung läuft und der Richtunggrenzwert limr→0+ f (0 + r cos ϕ, 0 + r sin ϕ) = sin 2ϕ existiert. Da der Wert des Richtungsgrenzwerts
aber von der Richtung abhängt, hat f im Ursprung keinen Grenzwert, d.h. lim(x,y)→(0,0) f (x, y) existiert
nicht.
122
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
1
1
1
0
-1
1
-1
-1
0
0
-1
1 -1
Abbildung 4.11: Graph und Niveaulinien von f (x, y) =
2xy
x2 +y 2 .
2.5 Uneigentliche Grenzwerte erster Art. Die Funktion f einer reellen Variablen sei definiert auf
einem Intervall ]c, +∞[. Wir sagen, dass f in +∞ den uneigentlichen Grenzwert erster Art b besitzt
und schreiben
lim f (t) = b
oder
f (t) → b für t → +∞,
t→+∞
wenn der rechtsseitige Grenzwert limt→0+ f ( 1t ) = b existiert. Bei −∞ erklären wir das analog.
Genau dann existiert limt→+∞ f (t) = b (limt→−∞ f (t) = b), wenn es zu jedem ε > 0 ein r > 0 gibt mit
|f (t) − b| < ε für alle t > r (t < −r).
Anschaulich bedeutet limt→+∞ f (t) = b, dass der Graph von f für große positive t eine waagrechte
Asymptote mit der Gleichung y = b besitzt.
2.6 Beispiele für uneigentliche Grenzwerte erster Art. Aus 2.2 folgt sofort
lim et = 0 = lim e−t .
t→−∞
t→+∞
Wegen | cos t|, | sin t| ≤ 1 gilt dann auch
lim
t→+∞
e−t cos t
e−t sin t
=
0
.
0
Wie sieht die so parametrisierte Kurve aus?
Anmerkung. Bei einer Funktion einer komplexen Variablen, definiert auf dem Äußeren |x| > r einer
Kreisscheibe, fungiert lim|x|→∞ f (x) := limy→0 f (1/y) als Ersatz, bei einer Funktion von mehreren Variablen auf dem Äußeren k~xk > r einer Kugel limkxk→∞ f (~x) := lim~y→0 f ( k~y1k2 ~y ).
2.7 Rechenregeln für einseitige Grenzwerte, Richtungsgrenzwerte bzw. uneigentliche Grenzwerte erster
Art gelten wie in 1.4 für gewöhnliche Grenzwerte angegeben. Man ergänze jeweils x → a±, r → 0+ (und
als Argument ~a + r~v ) bzw. x → ±∞, |x| → ∞, k~xk → ∞ und überlege, warum die Regeln erhalten
bleiben.
2.8 Uneigentliche Grenzwerte zweiter Art. Ist f in der Grenzwertdefinition 1.2 reellwertig mit
1
f (x) > 0 für x ∈ U r {a} und gilt limU 3x→a f (x)
= 0, so sagen wir, dass f an der Stelle a den
uneigentlichen Grenzwert zweiter Art +∞ besitzt und schreiben
lim f (x) = +∞,
x→a
x∈U
lim f (x) = +∞,
U 3x→a
oder
f (x) → +∞ für x → a, x ∈ U.
Für −∞ erklären wir das entsprechend.
Genau dann existiert limU 3x→a f (x) = +∞ (limU 3x→a f (x) = −∞), wenn es zu jedem r > 0 ein δ > 0
gibt mit f (x) > r (f (x) < −r) für alle x ∈ U r {a} mit |x − a| < δ.
Anschaulich bedeutet limx→a f (x) = +∞, dass der Graph von f bei x = a eine positive senkrechte
Asymptote besitzt.
2.9 Rechenregeln für uneigentliche Grenzwerte zweiter Art gibt es nicht! Die Situation ist
vergleichbar delikat wie bei uneigentlichen Grenzwerten von Folgen (siehe 1.§2.9).
123
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2.10 Beispiel für uneigentliche Grenzwerte zweiter Art. Aus 2.2 erhalten wir die uneigentlichen
Grenzwerte erster und zweiter Art
lim et = +∞ = lim e−t .
t→+∞
t→−∞
2.11 Landau-Notation. In Analogie zur Landau-Notation für Folgen 1.§2.9.5 erklären wir für zwei auf
U mit eventueller Ausnahme der Stelle a ∈ U definierte reell- oder komplexwertige Funktionen f und g
f (x) = O(g(x))
für x → a
falls eine Konstante
M > 0 existiert
f (x) ≤ M für x ∈ U r {a},
mit g(x) f (x) = O(g(x))
für x → a
falls limU 3x→a
f (x)
= 0.
g(x)
Bei einer reellen Variablen sind diese Landau-Symbole auch für x → a± oder x → ±∞ erklärt, bei einer
komplexen Variablen auch für |x| → ∞. Für vektorwertige Funktionen gehe man komponentenweise vor.
Häufig benutze Vergleichsfunktionen für eine Variable sind
• g(x) = xn , n ∈ N, für x → ±∞ (polynomiales Wachstum im Unendlichen),
• g(x) =
1
xn ,
n ∈ N, für x → ±∞ (polynomiales Abfallen im Unendlichen),
• g(x) = (x − a)n , n ∈ N, für x → a (polynomiales Abfallen bei x = a),
• g(x) =
1
(x−a)n ,
n ∈ N, für x → a (polynomiales Wachstum bei x = a),
γx
• g(x) = e , γ > 0, für x → ±∞ (exponentielles Wachstum im Unendlichen),
• g(x) = e−γx , γ > 0, für x → ±∞ (exponentielles Abfallen im Unendlichen),
• g(x) = ln(γx), γ > 0, für x → +∞ (logarithmisches Wachstum im Unendlichen),
γ
• g(x) = ln |x−a|
, γ > 0, für x → a (logarithmisches Wachstum bei x = a).
2.12 Beispiele zur Landau-Notation.
(a) p(x) = O(xn ) für x → ±∞ bei einem Polynom p im Reellen und für |x| → ∞ im Komplexen: „ein
Polynom p vom Grad höchstens n wächst höchstens wie xn .“
(b) p(x) = O(ex ) für x → +∞, d.h. limx→+∞ p(x)e−x = 0 für jedes Polynom p: „die Exponentialfunktion
wächst im Reellen für x → +∞ schneller als jedes Polynom.“
P∞ k
xn+1
nämlich das Sandwich
Beweis. Für p(x) = an xn + · · · + a0 erhalten wir aus ex = k=0 xk! > (n+1)!
|p(x)e−x | ≤ |an | (n+1)!
+ · · · + |a0 | (n+1)!
x
xn+1 → 0 für x → +∞. Die folgende Aussage zeigt man analog.
(c) ex = O(x−α ) für x → −∞, d.h. limx→−∞ xα ex = 0 für alle α > 0: „die Exponentialfunktion fällt im
Reellen für x → −∞ schneller als jede Potenzfunktion.“
(d)
2x2 +3
x2 −1
2
2
1
+3
1
2x +3
= O( x−1
) für x → 1. Es gilt nämlich | 2x
x2 −1 / x−1 | = | x+1 | ≤
2·4+3
0+1
= 11 für x ∈]0, 2[.
2.13 Asymptotische Gleichheit. Zwei reell- oder komplexwertige Funktionen f und g heißen asym(x)
ptotisch gleich für x → a, in Zeichen f (x) ' g(x) für x → a, falls limx→a fg(x)
= 1.
Für Funktionen einer reellen Variablen können wir asymptotische Gleichheit auch für x → a± bzw.
x → ±∞ erklären, für eine komplexe Variable auch für |x| → ∞. Für vektorwertige Funktionen erklären
wir das wieder komponentenweise.
124
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
2.14∗ Asymptotik von Polynomen im Unendlichen. Für ein Polynom p(x) = an xn + · · · + a0 vom
Grad n (d.h. an 6= 0) erhalten wir aus limx→∞ 1/x = 0 mit den Rechenregeln 1.4
n
an xn + an−1 xn−1 + · · · + a0
an−1 1
p(x)
a0 1
=
=1+
→1
für x → ±∞
+··· +
an xn
a n xn
an x
an x
| {z
}
| {z }
→0
→0
die asymptotische Darstellung
p(x) ' an xn
für x → ±∞ im Reellen oder |x| → ∞ im Komplexen
und sagen „ein Polynom verhält sich weit draußen wie sein Leitterm“ (vgl. 2.§4.1.21).
250
50
5000
100
20
2000
50
10
-1
-2 -1
1
1000
1
2
-10
-50
-10
-2
2
10
-1000
Abbildung 4.12: Asymptotik von Polynomen am Beispiel x6 + 8x4 − 25x2 + 12x + 22 ' x6 für x → ±∞.
2.15∗ Asymptotik rationaler Funktionen im Unendlichen. Wir zerlegen eine rationale Funktion
R(x) =
an xn + · · · + a1 x + a0
= q(x) + h(x)
bm xm + · · · + b1 x + b0
mit an , bm 6= 0 gemäß 2.§4.2.3 in Hauptteil h und Nebenteil q. Der Hauptteil h besteht aus endlich
c
c
vielen Summanden der Form (x−λ)
k mit gewissen c, λ ∈ C und k ∈ N. Wegen limx→±∞ (x−λ)k = 0 gilt
limx→±∞ h(x) = 0, d.h.
R(x) ' q(x)
für x → ±∞ im Reellen oder |x| → ∞ im Komplexen.
Das asymptotische Verhalten einer rationalen Funktion im Unendlichen wird also vom Nebenteil regiert,
d.h. von einem Polynom und damit von dessen Leitterm.
1
1
-10
10
-10
10
-1
(x−1)(x+2)
(x−4)(x2 +4)
-1
'0
für x → ±∞.
10
-10
10
-10
2
(x −1)(x+2)
(x−2)(x2 +1)
'1
für x → ±∞.
(x2 −4)(x2 +8)
(x−4)(x2 +1)
für x → ±∞.
Abbildung 4.13: Asymptotik von rationalen Funktionen im Unendlichen.
Auf die Asymptotik in der Nähe einer Nennernullstelle gehen wir in 3.17 ein.
'x
125
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3
Stetigkeit
3.1 Wozu Stetigkeit? Wir wollen eine grundlegende Eigenschaft vieler (nicht nur physikalischer) Systeme mathematisch beschreiben: der Systemzustand ändert sich nur wenig, wenn die Systemparameter
geringfügig verändert werden. Dies gilt z.B. für die Anziehungskraft in Abhängigkeit von der Entfernung,
für den Luftdruck in Abhängigkeit vom Ort, für die Temperatur in Abhängigkeit von der zugeführten
Wärmeenergie oder für den Strom in einen Stromkreis in Abhängigkeit von der angelegten Spannung.
Auf lange Sicht gesehen führt eine winzige Änderung des Anfangszustands aber manchmal sehr wohl zu
gewaltigen Unterschieden. So ist beispielsweise eine langfristige Wettervorhersage unmöglich, weil wir das
Wetter zu keinem Zeitpunkt exakt messen können. Phänomene dieser Art haben mit Stetigkeit nichts zu
tun — Stetigkeit ist eine „lokale“ Eigenschaft.
3.2 Definition: Stetigkeit in einem Punkt (ε-δ-Kriterium). Eine Funktion f definiert in der
Umgebung U einer Stelle a ∈ U heißt stetig in a, wenn es zu jedem ε > 0 ein δ > 0 gibt mit
|f (x) − f (a)| < ε
für alle x ∈ U mit |x − a| < δ.
In Quantorenschreibweise: (∀ε > 0)(∃δ > 0)(∀x ∈ U )(|x − a| < δ ⇒ |f (x) − f (a)| < ε).
In dieser Definition darf f eine reell-, komplex oder vektorwertige Funktion einer oder mehrerer Variablen
sein. Man ergänze ggf. Vektorpfeile und ersetze den Betrag durch die Norm.
Hängt f in obiger Definition von einer reellen Variablen ab und ist U keine Umgebung, sondern ein
Intervall der Form U =]a − r, a] mit r > 0, so sprechen wir von linksseitiger , für U = [a, a + r[ von
rechtsseitiger Stetigkeit in a.
Achtung. Um f in a auf Stetigkeit zu untersuchen, muss f in a definiert sein.
3.3 Interpretation. Stetigkeit von f in a bedeutet in Worten, dass der Unterschied der Funktionswerte
f (x) und f (a) beliebig klein wird, wenn man nur den Unterschied zwischen x und a genügend klein macht.
Man kann einen beliebig kleinen „Fehler“ ε vorschreiben, und trotzdem weichen die Funktionswerte f (x)
höchstens um den Fehler ε von f (a) ab, sobald x genügend nahe bei a liegt.
z
2δ
}|
{


f (a)
2ε

a
Abbildung 4.14: Zum ε-δ-Kriterium von Stetigkeit.
3.4 Grenzwertkriterium für Stetigkeit in einem Punkt. Genau dann ist f in a ∈ U stetig, wenn
lim f (x) = b
U 3x→a
existiert mit b = f (a).
Bei einer Funktion f einer reellen Variablen schreiben wir im Fall der links- bzw. rechtsseitigen Stetigkeit
(d.h. U =]a − r, a] bzw. U = [a, a + r[) auch f (a−) := limx→a− f (x) bzw. f (a+) := limx→a+ f (x).
Das Grenzwertkriterium folgt aus den ε-δ-Kriterien für den Grenzwert 1.5 und für Stetigkeit 3.2. Ebenso
erhalten wir aus dem Folgenkriterium für den Grenzwert 1.2 ein Folgenkriterium für Stetigkeit:
126
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
3.5 Folgenkriterium für Stetigkeit in einem Punkt. Genau dann ist f stetig in a ∈ U , wenn
lim f (xn ) = f (a)
n→∞
für jede Folge (xn )n in U mit lim xn = a.
n→∞
3.6 Stetigkeit. Eine Funktion heißt (punktweise) stetig, wenn sie in jedem Punkt ihres Definitionsbereichs stetig ist.
3.7 Rechenregeln für stetige Funktionen. Mit dem Grenzwertkriterium für Stetigkeit und den Rechenregeln für Grenzwerte 1.4 erhalten wir:
Sind f und g reell- oder komplexwertige Funktionen und an der Stelle a stetig, so auch
(a) αf + βg für beliebige Zahlen α, β,
(b) f , |f |, Re f , Im f ,
(c) f g,
(d) f /g falls g(a) 6= 0.
Sind f~ und ~g vektorwertige Funktionen und an der Stelle a stetig, so auch
(e) αf~ + β~g für beliebige Skalare α, β,
(f) kf~k,
(g) hf~|~g i.
3.8 Beispiele für stetige Funktionen.
(h) Konstante Funktionen und die identische Abbildung x 7→ x sind stetig (wähle δ = 1 bzw. δ = ε in
3.2).
(i) Polynome sind stetig ((h) und 3.7 (a), (c)).
(j) Die Funktion x 7→ 1/x ist für x 6= 0 stetig ((h) und 3.7 (d)).
(k) Rationale Funktionen sind auf ihrem natürlichen Definitionsbereich stetig ((i) und 3.7 (d)).
3.9 Die Funktionenklasse C 0 . Die Menge der stetigen reell-, komplex-, bzw. vektorwertigen Funktionen mit Definitionsbereich D bezeichnen wir mit C 0 (D, R), C 0 (D, C), bzw. C 0 (D, Rm ). Wenn aus dem
Zusammenhang klar ist, was gemeint ist, so schreiben wir einfach C 0 (D) oder C 0 .
Zusammen mit der punktweise erklärten Addition von Funktionen und Multiplikation von Funktionen mit
Zahlen ist C 0 (D, G) ein Unterraum des Funktionenraums F(D, G) und damit ein Vektorraum.
P∞
k
3.10 Stetigkeit von Potenzreihen. Wird f durch eine Potenzreihe f (x) =
k=0 ak (x − x0 ) mit
Konvergenzradius R > 0 dargestellt, so ist f im Inneren der Konvergenzkreisscheibe, d.h. für |x−x0 | < R,
stetig.
Insbesondere sind exp, cos, sin, cosh, sinh und sinc auf C, sowie cot, tan, coth und tanh auf ihrem
jeweiligen maximalen Definitonsbereich stetig.
Beweis. Für eine Potenzreihe gilt |f (x)−f (x0 )| = |f (x)−a0 | = O(|x−x0 |) → 0 für x → x0 dank 2.§4.1.7.
Mit dem Sandwichprinzip 1.6 folgt limx→x0 f (x) = f (x0 ) und f ist nach dem Grenzwertkriterium 3.4
in x0 stetig. Nach 2.§4.2.7 kann eine Potenzreihe in jedem Punkt im Inneren ihres Konvergenzkreises
entwickelt werden. Also überträgt sich die obige Aussage von x0 auf jeden Punkt x mit |x − x0 | < R.
Achtung. Über Stetigkeit von Potenzreihen auf dem Rand des Konvergenzkreises wird hier nichts ausgesagt. Dort sind Individualbetrachtungen notwendig.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
127
3.11 Stetigkeit der Umkehrfunktion. Sei I ⊂ R ein Intervall und f : I → R streng monoton steigend.
Ist f in a ∈ I stetig, so ist die Umkehrfunktion f −1 in f (a) stetig.
Insbesondere sind Wurzeln und Logarithmen auf R+ sowie die Hauptzweige der Area- bzw. Arcusfunktionen auf ihren jeweiligen Definitionsbereichen stetig.
Der Beweis dieser Regel ist etwas trickreich. Wir verweisen z.B. auf [Kön, Band 1, 7.2, Regel III].
3.12 Stetigkeit der Verkettung. Die Verkettung zweier stetiger Funktionen ist stetig sofern sie gebildet
werden kann.
Insbesondere sind alle allgemeinen Exponential- und Potenzfunktionen stetig.
Beweis. Ist f : U → V in a ∈ U stetig und ist g auf V definiert und in f (a) stetig, so gilt für jede Folge
(xn )n in U mit limn→∞ xn = a zunächst limn→∞ f (xn ) = f (a) dank der Stetigkeit von f , dann wegen
der Stetigkeit von g in f (a) aber auch limn→∞ (g ◦ f )(xn ) = limn→∞ (g(f (xn )) = (g(f (a)) = (g ◦ f )(a).
Nach dem Folgenkriterium ist g ◦ f in a stetig.
3.13 Weitere Grenzwerte bei Funktionen. Das Grenzwertkriterium 3.4 erlaubt die Berechnung weiterer Grenzwerte, bei denen stetige Funktionen im Spiel sind.
2
(l) lim e−t = 0,
t→±∞
da −t2 → −∞ für t → ±∞ und da die Exponentialfunktion auf R stetig ist.
(m) lim ln(t) = −∞ und lim ln(t) = +∞,
t→+∞
t→0+
da et → 0 für t → −∞ und et → +∞ für t → +∞.
(n) lim f (x) = lim f (x + a) und lim f (t) = lim f (at) falls f in a einen Grenzwert hat.
x→a
t→a
x→0
t→1
Diese Regeln dienen zum „Umnormieren“ bei Grenzwertberechnungen. Sie folgen mit 3.8 (a) aus der
Stetigkeit von x 7→ x + a und t 7→ at.
(o)
lim
tan(t) = −∞ und
t→−π/2+
lim tan(t) = +∞.
t→π/2−
sin(t)
1
= cos(π/2−t)
Für 0 < t < π/2 gilt tan(π/2−t)
sin(π/2−t) = cos(t) = tan(t). Da der Tangens in t = 0 stetig ist, folgt mit
1
1
Umnormieren limt→π/2− tan
t = limt→0+ tan(π/2−t) = limt→0+ tan(t) = tan(0) = 0 und mit tan(t) > 0 für
t ∈]0, π/2[ wie behauptet limt→π/2− tan(t) = +∞. Nun liefert tan(−t) = − tan(t) den ersten Grenzwert.
(p) lim arctan t = −
t→−∞
π
π
und lim arctan t = .
t→+∞
2
2
Dies folgt mit der Stetigkeit des Arcustangens aus (o).
3.14 Stetige Fortsetzung. Wir erinnern uns an 2.§1.1.7: Eine auf U definierte Funktion, die auf U r{a}
mit einer dort definierten Funktion f übereinstimmt, wird Fortsetzung von f genannt und gerne (etwas
schlampig) wieder mit f bezeichnet.
Existiert nun limU 3x→a f (x) = b, so können wir f durch f (a) := b von U r {a} auf U fortsetzen und die
Fortsetzung ist in a stetig. Diese Prozedur nennen wir stetige Fortsetzung.
Beispiel. f (x) = (sin x)/x wird durch f (0) := 1 von Cr{0} auf C stetig fortgesetzt (Sinc-Funktion). Die
Heaviside-Funktion und die kollabierende Oszillation t 7→ sin(1/t) können in t = 0 nicht stetig fortgesetzt
werden. (Vgl. 1.1 und 1.7, dort finden sich auch weitere Beispiele.)
3.15 Unstetigkeit. Neben sehr vielen Beispielen für stetige Funktionen haben wir bisher nur zwei für unstetige Funktionen kennengelernt: die Heaviside-Funktion und die kollabierende Oszillation. Beide Funktionen sind lediglich in t = 0 unstetig. Bei der Heaviside-Funktion existieren die einseitigen Grenzwerte,
stimmen aber nicht überein. Derartige Unstetigkeitsstellen nennen wir Sprungstellen. Unstetigkeitsstellen
vom Typ der kollabierenden Oszillation heißen Oszillationsstellen.
Dass es noch „schlimmere“ Arten von Unstetigkeit gibt, illustieren wir an zwei abschreckenden Beispielen.
128
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
(q) Die durch d(t) := 1 für t ∈ Q und d(t) := 0 für t ∈ RrQ definierte erste Dirichlet-Funktion ist in jedem
Punkt ihres Definitionsbereichs R unstetig. (Man versuche selbst einen Beweis mit dem Folgenkriterium.)
(r) Die durch D(t) := 1/q für t = p/q ∈]0, 1] ∩ Q gekürzt und D(t) := 0 für t ∈]0, 1] r Q definierte
zweite Dirichlet-Funktion ist in jedem rationalen Punkt ihres Definitionsbereichs ]0, 1] stetig, in jedem
irrationalen Punkt dagegen unstetig.
3.16 Stetigkeit und Konvergenzerhaltung. Schreiben wir das Folgenkriterium für Stetigkeit 3.5 in
der Form
lim f (xn ) = f ( lim xn )
falls f stetig,
n→∞
n→∞
so erweisen sich die stetigen Funktionen gerade als die konvergenzerhaltenden Funktionen:
Der Grenzwert der Bilder unter einer stetigen Funktion ist das Bild des Grenzwerts.
Damit haben wir eine neue Technik zum Konvergenznachweis.
q
√
4n−1
4 = 2 und der Stetigkeit der Wurzelfunktion.
Beispiel. limn→∞ 4n−1
n+1 = 2 wegen limn→∞ n+1 = 4,
3.17∗ Asymptotik rationaler Funktionen in Polstellen. Ist R eine rationale Funktion und λ eine
Nennernullstelle, die mit mindestens derselben Vielfachheit auch Nullstelle des Zählerpolynoms ist, so
können wir λ kürzen und erhalten eine stetige Fortsetzung von R in den Punkt λ. Solch eine Nennernullstelle wird hebbarer Pol von R genannt.
Andernfalls gehen wir von einer gekürzten Darstellung von R aus, in der λ die Vielfachheit k als Nennernullstelle besitzt, und keine Zählernullstelle mehr ist. Dann heißt λ ein Pol der Ordnung k von R.
Für solch einen Pol hat die Partialbruchzerlegung 2.§4.2.4 die Form
R(x) = q(x) + h(x) +
c1
ck−1
ck
+ ··· +
+
,
k−1
x−λ
(x − λ)
(x − λ)k
wobei q den Nebenteil von R bezeichnet und h diejenigen Partialbrüche des Hauptteils zusammenfasst,
die nicht zum Pol λ gehören.
An der Stelle λ sind dann q und h stetig. Wir erhalten
lim (x − λ)k R(x) = lim (x − λ)k (q(x) + h(x)) + c1 (x − λ)k−1 + · · · + ck−1 (x − λ) +ck = ck .
x→λ
x→λ | {z } |
{z
} |
{z
}
|
{z
}
→0
→q(λ)+h(λ)
→0
→0
ck
ck
Also gilt R(x) ' (x−λ)
k für x → λ und die Asymptotik von R in λ wird vom Leitterm (x−λ)k der
zum Pol λ gehörigen Partialbrüche bestimmt. Das verhält sich ganz analog zur Asymptotik von R im
Unendlichen 2.15, die vom Leitterm des Nebenteils regiert wird.
(x−1)(x+6)
(x−4)(x2 +4)
für x → 4.
'
−(x+5)(x−3)(x2 +4)
(x+3)2 (x+12)
9 1
10 x−4
für x → −3.
4
-3
'
52
1
3 (x+3)2
-2
x2 −3x−10
(x−4)(x+2)(x2 +1)
hebbarer Pol bei x = −2.
Abbildung 4.15: Asymptotik von rationalen Funktionen in Polstellen.
4
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
129
3.18∗ Separate Koeffizientenberechnung in der Partialbruchzerlegung. Wir verwenden die Bezeichnungen aus 3.17. Dort haben wir gezeigt, dass wir in der Partialbruchzerlegung von R den Zählerck
koeffizienten ck des Leitterms (x−λ)
k zum Pol λ der Ordnung k durch den Grenzwert
lim (x − λ)k R(x) = ck
x→λ
ck
berechnen können. Sobald ck bekannt ist, ersetzen wir R(x) durch R(x) − (x−λ)
k , wiederholen das Verfahren für eine Polstelle der Ordnung k − 1, erhalten ck−1 und so fort. So bekommen wir jeden der
Zählerkoeffizienten der Partialbrüche im Hauptteil von R separat.
Beispiel. Wir berechnen die Partialbruchzerlegung von x22+1 . Die Faktorisierung x2 + 1 = (x − i)(x + i)
a
b
2
liefert den Ansatz x22+1 = x−i
+ x+i
. Aus (x − i) x22+1 = x+i
→ 1i = −i für x → i erhalten wir a = −i. Da
2
x2 +1 eine rationale Funktion mit reellen Koeffizienten ist, muss für den zur konjugierten Nennernullstelle
−i
i
+ x+i
.
−i gehörigen Partialbruch b = a = i gelten. Dies ergibt die Partialbruchzerlegung x22+1 = x−i
4
Abbildungsverhalten stetiger Funktionen
4.1 Nullstellen stetiger Funktionen. Eine Funktion f sei auf U definiert und in a ∈ U stetig. Gilt
dann f (a) 6= 0, so existiert ein δ > 0 mit |f (x)| ≥ 12 |f (a)| für alle x ∈ U mit |x − a| < δ, d.h. insbesondere
f (x) 6= 0. Ist umgekehrt (xn )n eine Folge von Nullstellen in U mit limn→∞ xn = a, so ist auch a eine
Nullstelle von f .
Ist f also in a stetig und ist a keine Nullstelle, so hat f auch in einer (genügend kleinen) Umgebung
von a keine Nullstellen. Das gilt — wie der Beweis zeigen wird — für reell-, komplex- oder vektorwertige
Funktionen einer oder mehrerer Variablen (falls nötig, so ergänze man in Gedanken Vektorpfeile).
Beweis. Die erste Behauptung ist die Negation der zweiten, die zweite folgt sofort aus dem Grenzwertkriterium für Stetigkeit 3.4: limn→∞ xn = a und f (xn ) = 0 impliziert f (a) = limn→∞ f (xn ) = 0.
4.2 Zwischenwertsatz. Ist f : [c, d] → R stetig, so nimmt f jeden Wert zwischen f (c) und f (d) an.
Insbesondere hat f in ]c, d[ eine Nullstelle, falls f (c)f (d) < 0.
Für den Beweis können wir f (c) < f (d) annehmen. Für f (c) = f (d) ist nämlich nichts weiter zu zeigen,
für f (c) > f (d) können wir −f statt f betrachten. Wir führen den Beweis konstruktiv auf folgende Weise:
4.3 Lösen von Gleichungen durch Intervallhalbierung. Ist f : [c, d] → R stetig mit f (c) < f (d),
so erhalten wir für b mit f (c) < b < f (d) eine Lösung von f (t) = b, indem wir ζ1 := c, ξ1 := d setzen und
ζn , ξn rekursiv durch
ζn−1 +ξn−1
n−1
ξ
:=
ξ
falls
f
< b,
ζn := ζn−1 +ξ
n
n−1
2
2
n−1
n−1
ζn := ζn
ξn := ζn−1 +ξ
falls f ζn−1 +ξ
> b.
2
2
n−1
erklären. Gilt irgendwann einmal f ζn−1 +ξ
= b, so haben eine Lösung, andernfalls bilden die
2
[ζn , ξn ] ⊂ [c, d] offensichtlich eine Intervallschachtelung, die sich nach 1.§2.7.2 auf eine Zahl t ∈ [c, d]
zusammenzieht: limn→∞ ζn = t = limn→∞ ξn . Aus f (ζn ) < b folgt f (t) ≤ b mit der Monontonie des
Grenzwerts und der Stetigkeit von f . Aus f (ξn ) > b erhalten wir ebenso f (t) ≥ b. Daher gilt f (t) = b.
4.4 Anwendungsbeispiel: Wiensches Verschiebungsgesetz. Bei der Bestimmung des Emissionsmaximums eines strahlenden Körpers (Wiensches Verschiebungsgesetz) muss nach Einführung geeigneter
Variablen die Gleichung (x − 5)ex + 5 = 0 für x > 0 gelöst werden. Die linke Seite f (x) := (x − 5)ex + 5
ist stetig mit f (4) = −e4 + 5 < 0 und f (5) = 5 > 0, hat also nach dem Zwischenwertsatz eine Lösung x ∈]4, 5[. Durch sechsfache Intervallhalbierung erhalten wir 4, 953125 < x < 4, 968750. Mit einem
Monotonieargument kann man sich überlegen, dass die Lösung eindeutig bestimmt ist.
Anmerkung. Intervallhalbierung ist ein schlechtes Verfahren zum näherungsweisen Lösen von f (t) = b.
Für differenzierbare Funktionen funktioniert das Newton-Verfahren 6.1 normalerweise viel besser.
130
§2. GRENZWERTE BEI FUNKTIONEN UND STETIGKEIT
4.5 Zwischenwertsatz für Skalarfelder. Sei f ein stetiges Skalarfeld mit zusammenhängendem und
kompaktem Definitionsbereich U ⊂ Rn . Für beliebige ~c, d~ ∈ U nimmt dann f jeden Wert zwischen f (~c)
~ an. Insbesondere hat f in U eine Nullstelle, falls f (~c)f (d)
~ < 0.
und f (d)
Beweis. Da U zusammenhängend ist, existiert ein Polygonzug g : [0, 1] → U , der ~c mit d~ verbindet. Dann
~ Nun folgt die
ist f ◦ g : [0, 1] → R stetig mit (f ◦ g)(0) = f (g(0)) = f (~c) und (f ◦ g)(1) = f (g(1)) = f (d).
Behauptung aus dem Zwischenwertsatz 4.2 angewendet auf f ◦ g.
4.6 Anwendungsbeispiel. Auf der Erdoberfläche gibt es zwei Antipodenpunkte mit gleicher Temperatur.
Beweis. Wir modellieren die Erdoberfläche durch die Einheitsphäre S2 ⊂ R3 (vgl. 3.§2.2.11). Dann ist
die Temperatur T und damit auch f (~x) := T (~x) − T (−~x) ein stetiges Skalarfeld auf der kompakten und
zusammenhängenden Menge S2 . Entweder ist der Nordpol ~y := (0, 0, 1) ein Antipodenpunkt, d.h. f (~y ) =
0 = f (−~y ) oder es gilt f (~y ) 6= 0 und damit f (~y )f (−~y ) = −f (~y )2 < 0. Dann liefert der Zwischenwertsatz
aber einen anderen Punkt ~z ∈ S2 mit f (~z) = 0, der zusammen mit −~z ein Andipodenpaar liefert.
4.7 Satz vom Maximum (Satz von Weierstraß). Ist f : [c, d] → R stetig, so hat f ein Maximum
und ein Minimum. Insbesondere ist f beschränkt.
Die Funktion f kann durchaus unbeschränkt sein, falls wir [c, d] durch ein halboffenes, offenes oder unbeschränktes Intervall ersetzen oder keine Stetigkeit verlangen. Jedes Mal liefert die Funktion f (t) := 1/t
für t 6= 0 und f (0) := 0 ein Gegenbeispiel. Als Intervalle nehme man ]0, 1], ]0, 1[, ]0, ∞[ bzw. [0, 1].
Wir beweisen gleich die allgemeine Variante:
4.8 Satz vom Maximum für Skalarfelder. Ein stetiges Skalarfeld auf einer kompakten Menge hat
ein Maximum und ein Minimum, ist also insbesondere beschränkt.
Beweis∗ . Für ein stetiges Skalarfeld f : K → R auf einer kompakten Menge K ⊂ Rn betrachten wir
das Supremum M der Wertemenge f (K). Nach der Definition des Supremums gibt es eine Folge von
Funktionswerten, die gegen M konvergiert, d.h. eine Folge (~xk )k in K mit limk→∞ f (~xk ) = M . Ist
die Wertemenge beschränkt, so ist M eine reelle Zahl und es liegt eigentliche Konvergenz vor. Ist die
Wertemenge unbeschränkt, so gilt M = +∞ und wir haben bestimmte Divergenz gegen +∞. Gemäß
der Definition von Kompaktheit 3.7 besitzt (~xk )k eine konvergente Teilfolge (~xkl )l mit Grenzwert ~x
in K. Da f stetig ist, konvergiert (f (~xkl ))l gegen f (~x). Als Teilfolge von (f (~xk ))k muss (f (~xkl ))l aber
gegen M konvergieren. Also ist M eine reelle Zahl und es gilt M = f (~x). Damit hat f einen maximalen
Funktionswert. Für das Minimum schließe man analog.
4.9 Anmerkung zum Satz vom Maximum. Dieser „typisch mathematisch“ und vollständig nutzlos
anmutende Satz ist tatsächlich Grundlage jeglicher Optimierung! Er garantiert uns nämlich die Existenz
eines Maximums bzw. Minimums. Ohne dieses Wissen brauchen wir uns gar nicht auf die Suche nach der
Lösung eines Optimierungsproblems zu machen. Damit steht dieser Satz immer im Hintergrund, wenn
wir entdecken, dass in der Natur ein Optimalitätsprinzip befolgt wird. Seine Notwendigkeit wird vom
Perronschen Paradoxon pointiert: „n = 1 ist die größte natürliche Zahl, für jedes n > 1 ist nämlich n2
eine größere natürliche Zahl als n selbst“.
Brauchbar in der Praxis wird der Satz vom Maximum natürlich erst zusammen mit Techniken zum
Auffinden der Extremalsituation. Selbige werden wir in der Differentialrechnung zur Verfügung stellen.
4.10 Hauptsatz über stetige Funktionen Das Bild einer kompakten Menge unter einer stetigen
Funktion ist kompakt.
Der Hauptsatz beinhaltet beide Versionen 4.7 und 4.8 des Satzes von Maximum.
Beweis∗ . Ist f~ : K → Rm stetig und K ⊂ Rn kompakt, so ist kf~k gemäß 3.7 (f) ein stetiges Skalarfeld
auf K und nach 4.8 beschränkt. Also ist die Bildmenge f~(K) beschränkt. Ist ~y ∈ Rm ein Häufungspunkt,
so gibt es eine Folge von Vektoren ~xk ∈ K mit limk→∞ f~(~xk ) = ~y . Da K kompakt ist, gibt es eine
Teilfolge (~xkl )l , die gegen ein ~x ∈ K konvergiert. Mit der Stetigkeit von f~ folgt liml→∞ f~(xkl ) = f~(~x).
Nun erhalten wir ~y = f (~x), da schon die gesamte Bildfolge (f~(~xk ))k gegen ~y konvergiert. Also liegt ~y in
der Bildmenge und f~(K) ist nicht nur beschränkt, sondern auch abgeschlossen, also nach 3.7 kompakt.
131
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
§3
Differentialrechnung in einer Variablen
Ab jetzt betrachten wir fast ausschließlich Funktionen einer reellen Variablen. Als Wertevorrat lassen wir
weiterhin R, C oder den Rm zu — außer, wir sagen explizit etwas anderes.
1
Differenzierbarkeit
1.1 Zum Begriff der Geschwindigkeit. Wir betrachten einen Massenpunkt im Raum. Seinen Ort
zum Zeitpunkt t können wir nach Einführung kartesischer Koordinaten durch den Koordinatenvektor


x1 (t)
~x(t) = x2 (t)
x3 (t)
beschreiben.
Wirkt auf den Massenpunkt keine Kraft, so behält er nach dem ersten Newtonschen Gesetz seinen Bewegungzustand bei, d.h. er verharrt in Ruhe oder bewegt sich mit konstanter Geschwindigkeit auf einer
Geraden. Damit gilt
~x(t) = ~x(t0 ) + (t − t0 )~v ,
wobei ~x(t0 ) den Ort des Massenpunkts zum Zeitpunkt t = t0 bezeichnet und die Konstante ~v seine
Geschwindigkeit (welche auch ~0 sein darf). Experimentell weist man das durch Messung von von ~x(t) für
verschiedene Zeiten t und Berechnung des Proportionalitätsfaktors
1
(~x(t) − ~x(t0 ))
t − t0
nach, was dann (im Rahmen der Meßgenauigkeit) eine Konstante — nämlich ~v — liefert. Die Geschwindigkeit ist eine vektorielle Größe und der Geschwindigkeitsvektor gibt Richtung und Betrag der Geschwindigkeit des Massenpunktes an.
Bei einer ungleichförmigen Bewegung (unter Einfluss einer Zwangskraft) kann dieser Quotient, gebildet
für einen Zeitpunkt t nahe bei t0 als Näherung für die Geschwindigkeit zum Zeitpunkt t0 benutzt werden.
Das hängt dann aber von der Wahl von t ab und wird die momentane Geschwindigkeit um so besser
beschreiben, je näher t bei t0 liegt. Daher liegt es nahe, die Momentangeschwindigkeit zum Zeitpunkt t0
durch den Grenzwert


1 (t0 )
lim x1 (t)−x
t−t0
t→t
 0

1
 lim x2 (t)−x2 (t0 ) 
~v (t0 ) := lim
(~x(t) − ~x(t0 )) = t→t

t−t0
t→t0 t − t0
 0 x (t)−x (t ) 
3
3 0
lim
t−t0
t→t0
zu definieren — falls die drei Komponentengrenzwerte existieren.
Damit haben wir uns ein meßtechnisches Problem eingehandelt. Wegen des unvermeidbaren Meßfehlers wird (xk (t) − xk (t0 ))/(t − t0 ) nicht ermittelt werden können, sobald xk (t) − xk (t0 ) bzw. t − t0 die
Meßgenauigkeit unterschreitet.
Dennoch ist der Geschwindigkeitsbegriff für die Mechanik von unbestreitbar fundamentaler Bedeutung und die
so eingeführte Momentangeschwindigkeit ~v (t0 ) hat auch eine ganz reale Bedeutung: Sie gibt die Richtung derjenigen
Geraden an, auf der sich der Massenpunkt weiterbewegt,
wenn alle Zwangskräfte zur Zeit t0 plötzlich wegfallen. Bei
einem an einer Schnur auf einer Kreisbahn um einen festen
Punkt rotierenden Massenpunkt wäre das die Tangente an
die Kreisbahn, auf der sich der Massenpunkt nach Durchschneiden der Schnur weiterbewegen würde.
Abbildung 4.16: Bewegung eines
Massenpunktes.
132
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
1.2 Das Tangentenproblem. Eng verwandt mit dem Problem der Momentangeschwindigkeit ist das
Tangentenproblem der Analysis: Zu einer auf einem Intervall I erklärten Funktion f gibt der Differenzenquotienten
f (x) − f (a)
m=
x−a
die Steigung der Sekanten durch die beiden Punkte (a, f (a)) und (x, f (x)) des Graphen von f an. Mit
∆y := f (x) − f (a)
∆x := x − a
(Zuwachs des Funktionswerts)
(Zuwachs des Arguments)
gilt
m=
∆y
.
∆x
Falls sich die Sekanten für x → a einer Grenzgeraden annähern, so nennen wir selbige Tangente an den
Graphen im Punkt a und schreiben
f (x) − f (a)
df
(a) = lim
.
x→a
dx
x−a
f (x)









f (a)
|
a
f (x) − f (a)
f (a)
{z }
x−a
x
a
Abbildung 4.17: Tangente als Grenzlage von Sekanten.
1.3∗ Historische Anmerkung. Differential- und Integralrechnung als Kern der Analysis wurden in
der zweiten Hälfte des 17. Jahrhunderts vor allem von Newton und Leibniz entwickelt. Während Newton
von Fragestellung der Mechanik wie in 1.1 ausging, behandelte Leibniz das in 1.2 dargestellte Tangentenproblem. Auf Leibniz geht die für eine gute algorithmische Behandlung vortrefflich geeignete Notation
für den Differential- und Integralkalkül zurück. Newtons Beitrag war noch in der Sprache der klassischen
Geometrie gehalten, zeigte aber große Sensibilität für die Problematik von Grenzübergängen.
1.4 Definition: Differenzierbarkeit. Eine Funktion f definiert in einer Umgebung I ⊂ R einer Stelle
a ∈ I (z.B. in einem Intervall I =]a − r, a + r[) heißt differenzierbar in a, wenn der Grenzwert des
Differenzenquotienten
f (x) − f (a)
f 0 (a) := lim
I3x→a
x−a
existiert. Wir nennen dann f 0 (a) die Ableitung von f an der Stelle a und bezeichnen sie auch mit
df
d
d
(a),
f (a),
f (x)
,
f˙(a).
dx
dx
dx
x=a
Ist I keine Umgebung von a sondern ein Intervall der Form I =]a − r, a] mit r > 0, so sprechen wir
von linksseitiger , für I = [a, a + r[ von rechtsseitiger Differenzierbarkeit und bezeichnen die linksseitige
Ableitung mit f 0 (a−), die rechtsseitige mit f 0 (a+).
133
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1.5 Differenzierbarkeit und Tangente. Ist f in a differenzierbar, so erhalten wir die Tangente an
den Graphen im Punkt (a, f (a)) offensichtlich durch
x 7→ f (a) + f 0 (a)(x − a)
für x ∈ R
parametrisiert. Die Ableitung gibt dann die Steigung der Tangenten an. Das kann man auch umkehren:
1.6 Differenzierbarkeit und lineare Approximierbarkeit. Genau dann ist f in a differenzierbar,
wenn es eine Zahl m gibt mit
f (x) = f (a) + m(x − a) + O(|x − a|)
für x → a, x ∈ I.
In diesem Fall gilt dann m = f 0 (a).
In Worten bedeutet dies: „Genau dann ist f in a differenzierbar, wenn es eine lineare Funktion der Form
x 7→ f (a) + m(x − a) gibt, die f bei a besser als linear approximiert. Die Steigung m der Tangente ist
dann gerade die Ableitung von f in a.“
Beweis. Man lese die Definition des Laudau-Symbols O in §1.2.11 nach, um sich zu überzeugen, dass die
obige Behauptung äquivalent zur Definition 1.4 ist.
1.7 Lokale Koordinaten. Die Parametrisierung x 7→ f (a) + m(x − a) der Tangenten ist an den gerade
betrachteten Punkt a angepasst. Man sieht sofort, dass an der Stelle x = a der Wert f (a) angenommen
wird. Man kann den Grenzwert der Ableitung, die Tangente und die obige O-Bedingung für Approximierbarkeit auch in lokalen Koordinaten angeben:
f 0 (a) = lim
h→0
a+h∈I
1
(f (a + h) − f (a))
h
⇔
f (a + h) = f (a) + f 0 (a)h +O(h) für h → 0, h + a ∈ I.
{z
}
|
Tangente, lin.
Approx. an f in a
1.8 Differenzierbarkeit bei vektorwertigen Funktionen. Unsere Definition für Differenzierbarkeit 1.4 und die Charakterisierung durch lineare Approximierbarkeit 1.6 können wir auch für eine komplexoder vektorwertige Funktion einer reellen Variablen gebrauchen, da wir auch dann gemäß 1.2 den Grenz1
wert des Differenzenquotienten x−a
(f~(x) − f~(a)) bilden können. Das kann dank 1.3 komponentenweise
geschehen.
Wir illustrieren dies in der auf Newton zurückgehenden Notation


1 (t0 )
lim x1 (t)−x
t−t
0

 I3t→t0
1


.
˙
.
x
~(t0 ) := lim
(~x(t) − ~x(t0 )) = 

.
I3t→t0 t − t0


xm (t)−xm (t0 )
lim
t−t0
für ~x : I → Rm ,
I3t→t0
wobei die unabhängige Variable als Zeit interpretiert und mit t bezeichnet wird, während wir uns die
abhängige als Ort vorstellen und mit ~x(t) bezeichnen. In dieser Interpretation wird der Ableitungsstrich
„ 0 “ gerne durch einen Punkt „˙“ ersetzt.
Achtung. Auf Funktionen einer komplexen Variablen oder mehrerer reeller Variablen gehen wir hier
nicht ein.
(Im komplexen Fall kann man die Definition 1.4 übernehmen, da wir im Körper C dividieren und somit
den Differenzenquotienten bilden können. In diesem Sinn differenzierbare Funktionen sind Gegenstand
der Funktionentheorie. Differential- und Integralrechnung für Funktionen mehrerer reeller Variablen werden wir in Kapitel 6 behandeln. Hier erweist sich das Konzept der linearen Approximierbarkeit 1.6 als
übertragbar, während der Differenzenquotient nicht gebildet werden kann.)
1.9 Differenzierbarkeit. Ist eine Funktion f in jedem Punkt ihres Definitionsbereichs D differenzierbar,
so nennen wir sie differenzierbar . Die dann auf D definierte Funktion f 0 heißt Ableitung von f .
134
2
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Umgang mit differenzierbaren Funktionen
2.1 Differenzierbarkeit und Stetigkeit. Ist eine Funktion an einer Stelle differenzierbar, so ist sie
dort auch stetig.
Beweis. Gilt f (x) = f (a) + f 0 (a)(x − a) + O(|x − a|) für x → a, so folgt wegen f 0 (a)(x − a) → 0 und
O (|x − a|) → 0 für x → a auch f (x) → f (a) für x → a. Nach dem Grenzwertkriterium 3.4 ist f also in a
stetig.
2.2 Rechenregeln für differenzierbare Funktionen. Sind f und g reell- oder komplexwertige Funktionen und an der Stelle a differenzierbar, so sind auch die folgenden Funktionen in a differenzierbar:
(a) Linearität: αf + βg für beliebige Zahlen α, β mit (αf + βg)0 (a) = αf 0 (a) + βg 0 (a).
0
(b) f , Re f , Im f mit f (a) = f 0 (a), (Re f )0 (a) = Re(f 0 (a)), (Im f )0 (a) = Im(f 0 (a)).
(c) Produktregel: f g mit (f g)0 (a) = f 0 (a)g(a) + f (a)g 0 (a).
(d) Quotientenregel: f /g falls g(a) 6= 0 mit ( fg )0 (a) =
g(a)f 0 (a)−f (a)g 0 (a)
g(a)2
(Merkregel: (NAZ-ZAN)/N2 )
Sind f~ und ~g vektorwertige Funktionen und an der Stelle a differenzierbar, so sind auch die folgenden
Funktionen in a differenzierbar:
(e) Linearität: αf~ + β~g für beliebige Zahlen α, β mit (αf~ + β~g )0 (a) = αf~0 (a) + β~g 0 (a).
(f) hf~|~g i mit hf~|~g i0 (a) = hf~|~g 0 i(a) + hf~0 |~g i(a).
Beweis. (b) folgt sofort durch Anwendung der entsprechenden Rechenregel 1.4 (b) für Grenzwerte bei
Funktionen. Die Regeln in (a), (c) und (d) erhalten wir aus den Zerlegungen
(αf + βg)(x) − (αf + βg)(a)
x−a
(f g)(x) − (f g)(a)
x−a
f
g (x)
− fg (a)
x−a
=
=
=
αf (x) + βg(x) − αf (a) − βg(a)
f (x) − f (a)
g(x) − g(a)
=α
+β
,
x−a
x−a
x−a
f (x)g(x) − f (a)g(a)
f (x) − f (a)
g(x) − g(a)
=
g(a) + f (x)
,
x−a
x−a
x−a
f (x)g(a)−f (a)g(x)
g(x)g(a)
(x − a)
=
(a)
g(a) f (x)−f
− f (a) g(x)−g(a)
x−a
x−a
g(x)g(a)
der Differenzenquotienten für αf + βg, f g bzw. f /g durch Grenzübergang x → a. Nun ergibt sich (e)
Pm
komponentenweise aus (a). Durch Anwendung von (a) und (c) auf hf~|~g i(x) = k=1 fk (x)gk (x) erhalten
wir (f).
2.3 Wichtige Ableitungen.
(g) Konstante Funktionen f (x) = c sind differenzierbar mit f 0 (x) = 0 für alle x ∈ R, d.h. f 0 = 0.
(h) Die identische Abbildung id(x) = x ist differenzierbar mit id0 (x) = 1 für alle x ∈ R, d.h. id0 = 1.
(i) Ein Polynom p(x) = an xn + . . . + a1 x + a0 ist differenzierbar mit p0 (x) = nan xn−1 + · · · + a1 für x ∈ R.
(j) Die Funktion f (x) = 1/x ist für x 6= 0 differenzierbar mit f 0 (x) = −1/x2 .
(k) Rationale Funktionen sind auf ihrem natürlichen Definitionsbereich in R differenzierbar. Die Ableitung
erhält man mit der Quotientenregel (d) und (i)
(l) Die Exponentialfunktion ist auf ganz R differenzierbar mit exp0 (x) = exp(x), d.h. exp0 = exp, und
allgemein exp0 (αx) = α exp(αx) für x ∈ R und α ∈ C mit α 6= 0.
Bereits in §2.1.7 (k) haben wir den Grenzwert limh→0 exp(h)−1
= 1 berechnet. Mit der Funktionalgleichung
h
der Exponentialfunktion folgt für α 6= 0 durch Umnormieren des Grenzwert (siehe §2.3.13 (n))
eα(x+h) − eαx
eαh − 1
= αeαx lim
= α exp(αx).
h→0
h→0
h
αh
exp0 (αx) = lim
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
135
(m) Die Hyperbelfunktionen sind differenzierbar mit cosh0 (x) = sinh(x), sinh0 (x) = cosh(x), tanh0 (x) =
1/ cosh2 (x) für x ∈ R bzw. coth0 (x) = −1/ sinh2 (x) für x ∈ R, x 6= 0.
Unter Verwendung von (l) und der Linearität der Ableitung (a) berechnen wir beispielsweise
cosh0 (x) =
d ex + e−x (a) 1 d x 1 d −x (l) 1 x 1 −x
=
e +
e = e − e = sinh(x).
dx
2
2 dx
2 dx
2
2
(n) Die trionometrischen Funktionen sind differenzierbar mit cos0 (x) = − sin(x), sin0 (x) = cos(x) für
x ∈ R, tan0 (x) = 1/ cos2 (x) für x ∈ R, x 6= π2 + kπ, k ∈ Z, cot0 (x) = −1/ sin2 (x) für x ∈ R, x 6= kπ,
k ∈ Z.
Ähnlich wie in (m) erhalten wir z.B.
2ix
2i
+ 1) · 0 − 2i(2ie2ix + 0)
d
(d), (m) (e
0
−0
−
i
=
tan (x) =
dx e2ix + 1
(e2ix + 1)2
2
4e2ix
2
1
=
=
=
.
(e2ix + 1)2
eix + e−ix
cos(x)2
Die Differenzierbarkeit und die Ableitungen von exp, cos, sin, cosh und sinh können wir mit 2.6 auch auf
andere Weise erhalten.
2.4∗ Beispiel: Tangenten an Kurven. Die Tangente an die durch f~(t) := (r cos t, r sin t), t ∈ R,
parametrisierte Kreislinie im Punkt f~(t0 ) erhalten wir durch
r cos t0
−r sin t0
˙
t 7→ f~(t0 ) + (t − t0 )f~(t0 ) =
+ (t − t0 )
.
r sin t0
r cos t0
Für die durch ~g (t) := (r cos t, r sin t, ct) parametrisierte Schraubenlinie ist




r cos t0
−r sin t0
t 7→ ~g (t0 ) + (t − t0 )~g˙ (t0 ) =  r sin t0  + (t − t0 )  r cos t0  .
ct0
c
die Tangente im Kurvenpunkt ~g (t0 ).
P∞
2.5 Differentiation von Potenzreihen. Wird f durch eine Potenzreihe f (x) = k=0 ak (x − x0 )k mit
Konvergenzradius R > 0 dargestellt, so ist f für x ∈]x0 − R, x0 + R[ differenzierbar mit
f 0 (x) =
∞
X
kak (x − x0 )k−1
für x ∈]x0 − R, x0 + R[.
k=1
Insbesondere gilt für die Ableitung im Entwicklungspunkt f 0 (x0 ) = a1 .
Beweis. Für eine Potenzreihe gilt |f (x) − a0 − a1 (x − x0 )| = O(|x − x0 |2 ) für x → x0 gemäß 2.§4.1.7,
d.h.
f (x) = a0 + a1 (x + x0 ) + O(|x − x0 |)
für x → x0 ,
da O(|x − x0 |2 ) = O(|x − x0 |) für x → x0 . Nach 1.6 ist f im Entwicklungspunkt x0 differenzierbar mit
f 0 (x0 ) = a1 . Durch Umentwickeln 2.§4.2.7 können wir diese Aussage vom Entwicklungspunkt x0 in einem
beliebigen Punkt x ∈]x0 − R, x0 + R[ übertragen.
Achtung. Über die Differenzierbarkeit einer Potenzreihe f in den beiden Randpunkten x = x0 ± R
wird hier nichts ausgesagt. Selbst wenn f in einem der Randpunkte überhaupt definiert ist, so muss die
Differenzierbarkeit dort individuell nachgeprüft werden.
2.6 Kettenregel. Ist f reellwertig, in a differenzierbar und ist g im Punkt f (a) differenzierbar, so ist
auch die Verkettung g ◦ f in a differenzierbar und es gilt
(g ◦ f )0 (a) = g 0 (f (a))f 0 (a).
136
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Beweis∗ . Differenzierbarkeit an einer Stelle bedeutet, dass der Differenzenquotient dort einen Grenzwert
besitzt, also stetig fortgesetzt werden kann. Sind also f in a und g in f (a) stetig, so existieren Funktionen r
und s, die in a bzw. b := f (a) stetig sind mit


 g(y) − g(b) für y 6= b,
 f (x) − f (a)
für x 6= a,
y−b
s(y) =
r(x) =
x−a
 0
f 0 (a)
für x = a,
g (b)
für y = b.
Es folgt
(g ◦ f )(x) − (g ◦ f )(a) = g(f (x)) − g(b) = (f (x) − b)s(f (x)) = (x − a)(s ◦ f )(x)r(x)
für x 6= a.
Da (s ◦ f ) · r in x = a stetig ist, folgt hieraus die Existenz von
(g ◦ f )0 (a) = lim
x→a
(g ◦ f )(x) − (g ◦ f )(a)
= lim (s ◦ f )(x)r(x) = (s ◦ f )(a)r(a) = g 0 (f (a))f 0 (a).
x→a
x−a
2.7 Ableitung der Umkehrfunktion. Sei g die Umkehrfunktion einer streng monotonen Funktion
f : ]c, d[→ R. Ist f in einem Punkt a ∈]c, d[ differenzierbar mit f 0 (a) 6= 0, so ist g im Punkt b = f (a)
differenzierbar mit
1
1
= 0
.
g 0 (b) = 0
f (a)
f (g(b))
Wenn wir schon wüssten, dass mit f auch die Umkehrfunktion differenzierbar ist, so können wir deren
Ableitung im Punkt f (a) durch differenzieren der Identität g ◦ f = id erhalten:
⇒
x = g(f (x))
1 = g 0 (f (x))f 0 (x)
für x ∈]c, d[.
Ausgewertet in x = a liefert das für f 0 (a) 6= 0 die obige Formel für g 0 (f (a)) = g 0 (b) und so merkt man sich
diese Ableitungsregel auch am besten. Die eigentliche Arbeit liegt aber im Nachweis der Differenzierbarkeit
von g im Punkt f (a).
Beweis∗ . Ist f in a differenzierbar, so wird durch

 f (x) − f (a)
r(x) :=
x−a
f 0 (a)
für x 6= a,
für x = a,
eine stetige Funktion r : ]c, d[→ R definiert. Da f streng monoton ist mit f 0 (a) 6= 0 gilt r(x) 6= 0 für
x ∈]c, d[. Mit y = f (x) und b = f (a) folgt
g(y) − g(b) =
1
(y − b).
r(g(y))
Da f in a differenzierbar ist, ist f in a stetig. Damit ist g und dann auch 1/(r ◦ g) in b stetig. Aus obiger
Formel folgt dann die Existenz von
g 0 (b) = lim
y→b
g(y) − g(b)
1
1
1
1
= lim
=
=
= 0 .
y→b r(g(y))
y−b
r(g(b))
r(a)
f (a)
2.8 Leibniz-Kalkül. Die Kettenregel und die Ableitung der Umkehrfunktion lassen sich im LeibnizKalkül gut merken:
df
df dy
dy
1
=
,
= dx .
dx
dy dx
dx
dy
2.9 Weitere wichtige Ableitungen.
(o) Der Logarithmus ist differenzierbar mit ln0 (x) = 1/x für x > 0. Mit exp ist nämlich auch ln = exp−1
differenzierbar, aus t = ln(et ) folgt 1 = ln0 (et )et und mit x = et dann ln0 (x) = 1/x.
(p) Ableitung von Potenzen. Es gilt
d α
d α ln x
d
1
x =
e
= eα ln x (α ln x) = αxα = αxα−1
dx
dx
dx
x
sofern xα definiert ist.
137
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
(q) Die Areafunktionen sind differenzierbar mit
1
für
arcosh0 (x) = √x12 −1 für x ∈]1, +∞[, arsinh0 (x) = √1+x
2
0
0
1
1
x ∈ R, artanh (x) = 1−x2 für x ∈]−1, 1[, arcoth (x) = 1−x2
für x ∈] − ∞, −1[∪]1, +∞[.
(r) Die Hyperbelfunktionen sind differenzierbar mit
−1
arccos0 (x) = − arcsin0 (x) = √1−x
für x ∈] − 1, 1[,
2
1
0
0
arctan (x) = − arccot (x) = 1+x2 für x ∈ R.
1
2.10 Vier Beispiele zum Rechnen mit Ableitungen.
(s) xx für x > 0. Mit der Kettenregel und der Produktregel
erhalten wir
d x
x
dx
=
=
=
d x ln x
d
e
= ex ln x (x ln x)
dx
dx
1
x
x 1 · ln x + x
x
x
x (ln x + 1)
für x > 0.
Aus tet → 0 für t → −∞ folgt durch Substitution et = x
zunächst x ln x → 0 für x → 0+, dann mit der Stetigkeit der Exponentialfunktion limx→0+ xx = e0 = 1 und
d x
limx→0+ dx
x = −∞. Also lässt sich xx in x = 0 stetig
fortsetzen, hat dort aber eine senkrechte rechtsseitige Halbtangente.
1
-1
Abbildung 4.18: Graph der Funktion
x 7→ xx und ihrer Ableitung für x > 0.
(t) x = yexy . Wir wollen diese Gleichung für vorgegebenes x ∈ R nach y auflösen. Versuche für eine
explizite Angabe der Lösung werden scheitern. Man spricht in diesem Zusammenhang auch von einer
impliziten Funktion.
Für x = 0 muss y = 0 gelten. Für x > 0 bildet y 7→ yexy das Intervall [0, +∞[ streng monoton wachsend
und bijektiv auf sich selbst ab und ist sonst negativ. Also hat x = yexy für jedes x > 0 genau eine Lösung.
Mit (x, y) ist auch das Paar (−x, −y) eine Lösung und umgekehrt. Daher gibt es auch für jedes x < 0
genau eine Lösung.
Wenn wir annehmen, dass die zu x ∈ R eindeutig bestimmte Lösung y = y(x) von x = yexy differenzierbar von x
abhängt (was wir mit dem Satz über implizite Funktionen
6.§1.6.4 nachweisen können), so gilt
x = y(x)exy(x)
1
für x ∈ R
-1
und dann nach Differenzieren dieser Identität auch
1
= y 0 (x)exy(x) + y(x)exy(x) [1 · y(x) + xy 0 (x)]
=
-1
[y(x)2 + xy(x)y 0 (x) + y 0 (x)]exy(x) .
Aus y(0) = 0 folgt nun 1 = y 0 (0). Wir haben die implizite
Funktion y = y(x) zwar nicht bestimmen können, wissen
aber, dass sie existiert, punktsymmetrisch ist und haben
unter der Annahme ihrer Differenzierbarkeit mit x 7→ y(0)+
y 0 (0)(x − 0) = x eine lineare Approximation bei x = 0
erhalten.
(u) sinc in x = 0. Aus der Potenzreihendarstellung sinc(x) =
1
Abbildung 4.19: Graph der durch
x = y(x)exy(x) implizit definierten
Funktion und ihrer linearen Appoximation x 7→ x in x = 0.
P∞
k=0 (−1)
k
/(2k + 1)!x2k = 1 − x2 /3! ± · · ·
138
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
erhalten wir sofort sinc0 (0) = 0 und allgemein
sinc0 (x) =
∞
X
k=1
x
x3
(−1)k
x2k−1 = −
+
∓ ···
(2k + 1) · (2k − 1)!
3 · 1! 5 · 3!
für x ∈ R.
Die Ableitung im Ursprung hätten wir auch mühsamer aus der abschnittweisen Definition sinc(0) = 1
und sinc(x) = (sin x)/x für x 6= 0 durch Grenzübergang im Differenzenquotienten erhalten können:
sinc(h) − sinc(0)
= lim
h→0
h→0
h
sinc0 (0) = lim
da sin h = h + O(h3 ) und damit
sin h−h
h2
sin h
h
−1
sin h − h
= 0,
= lim
h→0
h
h2
= O(h) für h → 0.
Hätten wir neben der abschnittsweisen Definition nicht auch die Potenzreihendarstellung gehabt, so wäre
nur dieser Weg übrig geblieben.
(v) Sind ~x : I → Rm und ~y : J → Rm zwei Parametrisierungen einer Kurve, die durch einen differenzierbaren Parameterwechsel ϕ : I → J ineinander übergehen, d.h. ~x = ~y ◦ ϕ, so folgt mit der Kettenregel
~x˙ (t) = ~y˙ (ϕ(t))ϕ̇(t)
für t ∈ I.
Der Tangentenvektor im Kurvenpunkt ~x(t) = ~y (ϕ(t)) ändert also bei Umparametrisieren seine Länge um
den Faktor ϕ̇(t), die Richtung bleibt erhalten.
2.11 Zur Stetigkeit der Ableitung. Die Ableitung einer differenzierbaren Funktion muss nicht stetig
sein. Das zeigt die mit x2 gedämpfte kollabierende Ozillation
(
x2 sin x1 für x 6= 0,
f (x) =
0
für x = 0.
In jedem Punkt x 6= 0 ist f differenzierbar und man erhält die Ableitung mit den Rechenregeln zu
1
1
− cos
für x 6= 0.
x
x
In x = 0 liefert uns die Betrachtung des Differenzenquotienten
f 0 (x) = 2x sin
1
f (0 + h) − f (0)
= h sin → 0
h
h
für h → 0.
Also ist f in x = 0 differenzierbar mit f 0 (0) = 0. Dagegen hat f 0 (x) für x → 0 keinen Grenzwert. Für
n ∈ N gilt nämlich f 0 (1/(nπ)) = (−1)n und die Folge dieser Funktionswerte hat für n → ∞ keinen
Grenzwert, obwohl 1/(nπ) → 0.
4
0.5
-1
1
-1
1
-0.5
-4
Abbildung 4.20: Eine differenzierbare Funktion mit unstetiger Ableitung.
Fazit. Selbst wenn limx→a f 0 (x) existiert, liefert der Grenzwert nur dann f 0 (a), wenn man schon weiß,
dass die Ableitung in x = a existiert und stetig ist.
Von Weierstraß gibt es ein Beispiel einer differenzierbaren Funktion, deren Ableitung nirgends stetig ist.
139
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3
Abbildungsverhalten differenzierbarer Funktionen
3.1 Vorbemerkung. Die folgenden Sätze bilden die Grundlage für die vielfältigen Anwendungen der
Differentialrechnung. Mit Ausnahme des letzten gelten sie nur für reellwertige Funktionen einer reellen
Variablen. Anwendungen und Verallgemeinerungen stellen wir in den Abschnitten 5–7 vor, nachdem wir
in 4 noch höhere Ableitungen eingeführt haben.
3.2 Lokale Maxima und Minima. Eine reellwertige Funktion f hat an einer Stelle a ihres Definitionsbereichs D ein lokales Maximum, wenn f in der Nähe von a keinen größeren Wert annnimmt. D.h. es
gibt eine Umgebung U von a mit f (x) ≤ f (a) für alle x ∈ U ∩ D. Entsprechend erklären wir, was ein
lokales Minimum ist. Tritt einer dieser beiden Fälle ein, so sprechen wir von einem lokalen Extremum.
3.3 Notwendige Bedingungen für lokale Extrema. Hat f an der Stelle a ein lokales Extremum
und ist f dort differenzierbar, so gilt f 0 (a) = 0.
Beweis. Liegt in a ein lokales Maximum vor, so gibt es ein δ > 0 mit f (x) ≤ f (a) für x ∈]a − δ, a + δ[.
Es folgt
(
f (x) − f (a) ≥ 0 für x ∈]a − δ, a[,
x−a
≤ 0 für x ∈]a, a + δ[.
Ist f in a differenzierbar, so existieren die beiden einseitigen Ableitungen und stimmen mit der Ableitung
überein: f 0 (a−) = f 0 (a) = f 0 (a+). Aus den obigen Abschätzungen folgt aber
f 0 (a−) = lim
x→a−
f (x) − f (a)
≥ 0,
x−a
f 0 (a+) = lim
x→a+
f (x) − f (a)
≤ 0,
x−a
und zusammen dann f 0 (a) = 0. Für ein lokales Minimum argumentieren wir analog.
3.4 Satz von Rolle. Ist f : [c, d] → R stetig, auf ]c, d[ differenzierbar und gilt f (c) = f (d), so existiert
ein Punkt a ∈]c, d[ mit f 0 (a) = 0.
Beweis. Nach dem Satz vom Maximum §2.4.7 hat f in [c, d] ein Maximum und ein Minimum. Ist f
konstant, so ist jeder Punkt aus [c, d] ein lokales Extremum, andernfalls ist mindestens eines der beiden
Extrema ein innerer Punkt. Nach 3.3 verschwindet dort f 0 .
3.5 Mittelwertsatz der Differentialrechnung. Ist f : [c, d] → R stetig und auf ]c, d[ differenzierbar,
so existiert ein Punkt a ∈]c, d[ mit
f (d) − f (c)
= f 0 (a).
d−c
Beweis. Man verwende den Satz von Rolle 3.4 für die Hilfsfunktion h(x) = f (x) −
f (d)−f (c)
(x
d−c
f (d)
f (c) = f (d)
f (c)
c
a
d
c
a
Abbildung 4.21: Satz von Rolle und Mittelwertsatz der Differentialrechnung.
d
− c).
140
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
3.6 Verallgemeinerter Mittelwertsatz der Differentialrechnung. Sind f, g : [c, d] → R stetig, auf
]c, d[ differenzierbar und gilt g 0 (x) 6= 0 für alle x ∈]c, d[, so existiert ein Punkt a ∈]c, d[ mit
f 0 (a)
f (d) − f (c)
= 0
.
g(d) − g(c)
g (a)
Beweis. Man wende den Satz von Rolle 3.4 auf die Hilfsfunktion H(x) = f (x) −
an und beachte, dass dieser Satz auch g(d) − g(c) 6= 0 impliziert.
f (d)−f (c)
g(d)−g(c) (g(x)
− g(c))
3.7 Monotoniekriterium für differenzierbare Funktionen.
Eine differenzierbare Funktion
f : ]c, d[→ R ist genau dann monoton wachsend, wenn f 0 (x) ≥ 0 für alle x ∈]c, d[. Gilt sogar f 0 (x) > 0 für
alle x ∈]c, d[, so ist f streng monoton wachsend. Entsprechendes gilt für monoton fallende Funktionen
Achtung. Das Gegenbeispiel f (x) = x3 zeigt, dass f streng monoton wachsen kann, ohne dass die
Ableitung immer positiv ist.
Beweis. Für x, y ∈]c, d[ mit x < y kann der Mittelwertsatz 3.5 auf f im Intervall [x, y] angewendet
werden, d.h. f (y) − f (x) = (y − x)f 0 (a) für ein a ∈]x, y[. Für f 0 ≥ 0 folgt, dass f monton wächst, für
(a)
f 0 > 0 erhalten wir strenge Monotonie. Ist umgekehrt f monoton wachsend, so gilt f (x)−f
≥ 0 für alle
x−a
0
x, a ∈]c, d[ mit x 6= a. Nach Grenzübergang x → a folgt im Falle der Differenzierbarkeit f (a) ≥ 0.
3.8 Identitätssatz für differenzierbare Funktionen. Hat eine Funktion auf einem Intervall überall
die Ableitung Null, so ist sie dort konstant. Stimmen auf einem Intervall die Ableitungen zweier Funktionen überein, so unterscheiden sie sich nur um eine Konstante.
Für vektorwertige Funktionen kann man das komponentenweise verwenden.
Beweis. Die zweite Aussage folgt aus der ersten durch Betrachtung der Differenzfunktion. Gilt f 0 (x) = 0
für alle x in einem Intervall I, so muss f nach dem Monotoniekriterium auf I gleichzeitig monoton fallen
und wachsen, also konstant sein.
4
Höhere Ableitungen und Taylor-Entwicklung
4.1 Definition: höhere Ableitungen. Ist f auf dem Intervall I differenzierbar und ist die somit auf I
definierte Ableitung f 0 in einem Punkt a ∈ I differenzierbar, so nennen wir f in a zweimal differenzierbar
und
f 0 (x) − f 0 (a)
f 00 (a) := (f 0 )0 (a) = lim
I3x→a
x−a
die zweite Ableitung von f im Punkt a. Ist f in jedem Punkt des Definitionsbereichs zweimal differenzierbar, so nennen wir f zweimal differenzierbar. Die dann auf I definierte Funktion f 00 heißt zweite Ableitung
von f . Bei vektorwertigen Funktionen werden die Ableitungen natürlich komponentenweise gebildet.
Sukzessiv definieren wir die höheren Ableitungen
f 000 := (f 00 )0 ,
f (4) := (f 000 )0 ,
f (5) := (f (4) )0 ,
...,
f (n+1) := (f (n) )0 ,
...,
falls die entsprechenden Differentiationen ausgeführt werden können. Höhere Ableitungen bezeichnet man
auch in der Form
n
...
dn f
dn
d
,
f,
f,
f¨ := f 00 ,
f := f 000 ,
....
n
n
dx
dx
dx
Aus formalen Gründen ist es nützlich, auch die nullte Ableitung f (0) := f einzuführen.
4.2 Leibniz-Regel. Sind f und g auf einem Intervall definiert, reell- oder komplexwertig und n-fach
differenzierbar, so ist die Produktfunktion f g ebenfalls n-fach differenzierbar und es gilt
n X
n (k) (n−k)
(n)
(f g) =
f g
.
k
k=0
141
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Das beweist man durch Induktion nach n. Für vektorwertige Funktionen erhält man als Analogon
n X
n ~(k) (n−k)
hf~|~g i(n) =
hf |~g
i.
k
k=0
4.3 Beispiele für mehrfach differenzierbare Funktionen.
(a) Die Exponentialfunktion ist auf ganz R beliebig oft differenzierbar mit
dn x
e = ex .
dxn
(b) Der Logarithmus ist auf R+ beliebig oft differenzierbar mit ln00 (x) = −1/x2 , ln000 (x) = 2/x3 und
allgemein
(−1)n−1 (n − 1)!
dn
ln x =
für x > 0, n ∈ N.
n
dx
xn
(c) Die trigonometrischen Funktionen und die Hyperbelfunktionen sind auf ihrem natürlichen Definitionsbereich im Reellen beliebig oft differenzierbar. Es gilt
cos00 = − cos,
sin00 = − sin,
cosh00 = cosh,
sinh00 = sinh .
(d) Ein Polynom p(x) = an xn + · · · + a1 x + a0 vom Grad n ist beliebig oft differenzierbar mit
p0 (x)
=
nan xn−1 + · · · + 3a3 x2 + 2a2 x + a1 ,
p00 (x)
=
..
.
n(n − 1)an xn−2 + · · · + 3 · 2a3 x + 2a2 ,
p(n) (x)
=
n!an ,
=
0
p
(k)
(x)
für k > n.
(e) Man kann zeigen, dass die durch
(
2
e−1/x für x 6= 0,
f (x) :=
0
für x = 0,
1
definierte Funktion f auf ganz R beliebig oft differenzierbar
ist mit
f (n) (0) = 0
für alle n ∈ N0 .
(f) Die mit x2 gedämpfte kollabierende Oszillation aus 2.11
ist zwar auf ganz R differenzierbar. Da die Ableitung aber
in x = 0 unstetig ist, ist f dort nur einmal differenzierbar.
-1
1
2
Abbildung 4.22: Graph von e−1/x .
P∞
4.4 Höhere Ableitungen von Potenzreihen. Eine Potenzreihe f (x) = k=0 ak (x−x0 )k mit Konvergenzradius R > 0 ist für x ∈]x0 − R, x0 + R[ beliebig oft differenzierbar mit
f (n) (x) =
∞
X
k(k − 1) · · · (k − n + 1)ak (x − x0 )k−n
k=n
Insbesondere gilt für die Ableitungen im Entwicklungspunkt
f (n) (x0 ) = n!an
also f 0 (x0 ) = a1 , f 00 (x0 ) = 2a2 und f 000 (x0 ) = 6a3 , . . . .
Das folgt durch wiederholte Anwendung von 2.5.
für n ∈ N0 ,
für x ∈]x0 − R, x0 + R[.
142
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
Beispiel. Wegen sinc(x) =
(−1)k
2k
k=0 (2k+1)! x
P∞
für x ∈ R ist die Sinc-Funktion auf ganz R beliebig oft
differenzierbar. Für die n-te Ableitung im Ursprung gilt sinc(n) (0) =
sinc(n) (0) = 0 falls n ungerade.
(−1)k
2k+1
falls n = 2k gerade und
4.5 Stetige Differenzierbarkeit und die Funktionenklassen C n und C ∞ . Eine Funktion f heißt
stetig differenzierbar auf einem Intervall I oder eine C 1 -Funktion, wenn f auf I differenzierbar und f 0
auf I stetig ist. Entsprechend heißt f n-fach stetig differenzierbar auf I oder C n -Funktion, wenn f dort
n-fach differenzierbar und f (n) stetig ist. Ist f auf I beliebig oft differenzierbar, so nennen wir f eine
C ∞ -Funktion.
Die Menge der auf I n-fach stetig differenzierbaren reell-, komplex-, bzw. vekorwertigen Funktionen
bezeichnen wir mit C n (I, R), C n (I, C), bzw. C n (I, Rm ). Das beinhaltet den Fall n = ∞. Wenn Definitionsbzw. Zielbereich aus dem Zusammenhang ersichtlich sind, schreiben wir auch C n (I) oder C n .
4.6 Taylor-Polynome. Für eine C n -Funktion f in einer Umgebung I eines Punktes a ∈ I nennen wir
Tn (x) = Tn [f, a](x)
:=
n
X
f (k) (a)
k=0
k!
(x − a)k
f (a) + f 0 (a)(x − a) +
=
f 00 (a)
f (n) (a)
(x − a)2 + · · · +
(x − a)n
2!
n!
das n-te Taylor-Polynom von f mit Entwicklungspunkt a.
Die Bezeichnung Tn (x) ist bequem, Tn [f, a](x) ist nützlich, wenn der Entwicklungspunkt a und die betroffene Funktion f explizit angeben werden sollen.
4.7 Taylor-Reihe.
Potenzreihe
Ist f eine C ∞ -Funktion in einer Umgebung I eines Punkt a ∈ I, so heißt die
T∞ (x) = T∞ [f, a](x)
:=
∞
X
f (k) (a)
k=0
=
k!
(x − a)k
f (a) + f 0 (a)(x − a) +
f 00 (a)
(x − a)2 + · · ·
2!
die Taylor-Reihe von f im Entwicklungspunkt a.
Achtung. Wir können für f in a nur dann eine Taylor-Reihe bilden, wenn f dort beliebig oft differenzierbar ist. Die bloße Existenz einer solchen Taylor-Reihe T∞ sagt noch nichts über ihre Konvergenz und
was T∞ (x) mit f (x) zu tun hat. Mit dieser Frage werden wir uns jetzt beschäftigen.
Für Potenzreihen erhalten wir sofort aus 4.4 eine positive Antwort, die wir mit dem Identitätssatz für
Potenzreihen 2.§4.1.8 vom Reellen ins Komplexe übertragen können.
P∞
4.8 Von Potenzreihen zu Taylor-Reihen. Ist f (x) = k=0 ak (x − x0 )k eine Potenzreihe mit Konvergenzradius R > 0, so konvergiert die Taylor-Reihe, hat ebenfalls den Konvergenzradius R und stimmt
mit der Potenzreihe überein, d.h.
T∞ (x) = f (x)
für |x − x0 | < R
und
ak =
f (k) (x0 )
k!
für k ∈ N0 .
P∞
1
1
Beispiel. Wegen k=0 xk = 1−x
für |x − 1| < 1 hat f (x) = 1−x
in x = 0 eine Taylor-Reihe. In der
P∞ k
Konvergenzkreisscheibe |x| < 1 stimmt f mit der Potenzreihe k=0 x überein und es gilt f (k) (0) = k!
für k ∈ N0 . Dass f sogar für beliebige x 6= 1 definiert ist, stört nicht, zeigt aber, dass Potenzreihen
Funktionen i.A. nur lokal beschreiben.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
143
4.9 Von Taylor-Reihen zu Potenzreihen. Die Taylor-Reihe einer C ∞ -Funktion muss nichts mit f
zu tun haben.
2
In 4.3 (e) haben wir gesehen, dass durch f (x) := e−1/x für x 6= 0 und f (0) := 0 eine C ∞ -Funktion
definiert wird mit f (k) (0) = 0 für alle k ∈ N0 . Die Taylor-Reihe konvergiert prächtig: T∞ [f, 0](x) = 0 für
alle x ∈ C, hat aber offensichtlich nichts mit f zu tun!
Es gibt auch C ∞ -Funktionen, deren Taylor-Reihe nur im Entwicklungspunkt konvergiert.
4.10 Taylor-Entwicklung, analytische Funktionen. Wenn für eine C ∞ -Funktion f die Taylor-Reihe
T∞ zum Entwicklungspunkt a einen positiven Konvergenzradius R besitzt und im Konvergenzkreis f
darstellt, d.h. falls f (x) = T∞ (x) für |x−a| < R, so sagen wir, dass f in a eine Taylor-Entwicklung besitzt.
Hat f in jedem Punkt ihres Definitionsbereichs eine Taylor-Entwicklung, so nennen wir f analytisch.
Um zu entscheiden, ob f in a Taylor-entwickelbar ist, müssen wir untersuchen, wie sich f (x) − Tn (x) für
n → ∞ in Abhängigkeit von x verhält.
4.11 Restglied. Ist f eine C n -Funktion in einer Umgebung I eines Punktes a ∈ I so nennen wir die
auf I definierte Funktion
Rn (x) := f (x) − Tn (x)
das Restglied für das n-te Taylorpolynom Tn von f in a. Penibel geschrieben lautet das Restglied:
Rn [f, a](x) := f (x) − Tn [f, a](x).
4.12 Darstellungen für das Restglied. Ist f eine reellwertige C n+1 -Funktion auf einem Intervall
I ⊂ R, so hat das n-te Restglied die Gestalt
Rn (x) =
f (n+1) (θ)
(x − a)n+1
(n + 1)!
(Lagrange-Darstellung)
oder
f (n+1) (ξ)
(x − ξ)n (x − a)
(Cauchy-Darstellung)
n!
mit einem von x und a abhängigen θ bzw. ξ zwischen x und a.
Rn (x) =
Beweis∗ . Für eine C (n+1) -Funktion f auf I =]c, d[ und zwei Punkte a, x ∈ I bilden wir das n-te TaylorPolynom Tn von f in a und definieren die Zahl C durch
f (x) − Tn (x) = C(x − a)n+1 .
Wollen wir die Lagrange-Darstellung herleiten, so müssen wir zeigen, dass ein θ zwischen x und a existiert
mit C = f (n+1) (θ)/(n + 1)!. Hierzu betrachten wir die Hilfsfunktion
h(t) :=
n
X
f (k) (t)
k=0
k!
(x − t)k + C(x − t)n+1 .
Dann ist h auf I differenzierbar mit h(a) = Tn (x) + C(x − a)n+1 = f (x) = h(x). Wir können also den
Satz von Rolle 3.4 anwenden und erhalten ein θ zwischen x und a mit h0 (θ) = 0. Die Ableitung von h
berechnen wir mit der Produktregel und einer Indexverschiebung zu
n (k+1)
X
f
(t)
f (k) (t)
0
0
k
k−1
h (t) = f (t) +
(x − t) −
k(x − t)
− (n + 1)C(x − t)n
k!
k!
k=1
=
f (n+1) (t)
(x − t)n − (n + 1)C(x − t)n .
n!
Aus
f (n+1) (θ)
(x − θ)n − (n + 1)C(x − θ)n .
n!
erhalten wir nun wie behauptet C = f (n+1) (θ)/(n + 1)!. Für die Cauchy-Darstellung kann man ähnlich
argumentieren.
0 = h0 (θ) =
144
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
4.13 Fehlerabschätzung für das Restglied. Ist f eine C n+1 -Funktion auf einem Intervall I und ist
f (n+1) auf I beschränkt, d.h. |f (n+1) (x)| ≤ M für x ∈ I, so gilt für das Restglied die Fehlerabschätzung
|Rn (x)| ≤
M
|x − a|n+1
(n + 1)!
für x ∈ I.
Diese Fehlerabschätzung kann für reell- und komplexwertige Funktionen einer Variablen verwendet werden, bei vektorwertigen Funktionen gehe man komponentenweise vor.
Beweis. Das folgt sofort aus der Lagrange-Darstellung 4.12 des Restglieds.
4.14 Qualitative Restgliedabschätzung. Ist f in einer Umgebung eines Punktes a eine C n -Funktion,
so gilt für das n-te Taylor-Polynom Tn von f in a
f (x) = Tn (x) + O(|x − a|n )
für x → a.
Ist f sogar von der Klasse C n+1 , so gilt
f (x) = Tn (x) + O(|x − a|n+1 )
für x → a.
Beweis∗ . Ist f in einer Umgebung von a von der Klasse C n+1 , so ist f (n+1) insbesondere in einem
kompakten Intervall I stetig, das a als inneren Punkt enthält. Nach dem Satz vom Maximum §2.4.7 ist
f (n+1) auf I beschränkt und die O-Aussage folgt sofort aus 4.13.
Ist f nur von der Klasse C n , so liefert die Lagrange-Darstellung 4.12 des Restglieds Rn−1 zunächst
f (x) − Tn−1 (x)
1
Rn−1 (x)
1
1
f (x) − Tn (x)
=
− f (n) (a) =
− f (n) (a) = (f (n) (θx ) − f (n) (a))
(x − a)n
(x − a)n
n!
(x − a)n
n!
n!
für x nahe bei a mit einem von x abhängigen θx zwischen x und a. Für x → a gilt auch θx → a und die
Stetigkeit von f (n) in a impliziert dann
f (x) − Tn (x)
→0
(x − a)n
für x → a.
Das bedeutet aber gerade f (x) − Tn (x) = O(|x − a|n ) für x → a.
4.15 Schmiegparabeln. Wegen f (x) = Tn (x) + O(|x − a|n ) für x → a nennen wir den Graphen des nten Taylor-Polynoms Tn einer C n -Funktion im Entwicklungspunkt a auch Schmiegparabel n-ter Ordnung
und sagen: „Eine C n -Funktion wird durch ihr n-tes Taylor-Polynom lokal mit einem Fehler approximiert,
der schneller als von n-ter Ordnung gegen Null geht.“
Wir haben damit die Interpretation von (einmaliger) Differenzierbarkeit als lineare Approximierbarkeit
in 1.6 auf höhere Ableitungen verallgemeinert.
4.16 Beispiele für Taylor-Entwicklungen. Die folgenden sechs Taylor-Entwicklungen erhalten wir
aus bekannten Potenzreihen (vgl. 1.§4.1.4, 1.§4.2.5, 2.§2.5.8 und 2.§4.2.9).
(g) geometrische Reihe
(h) Exponentialreihe
(i) Cosinusreihe
(j) Sinusreihe
1
1−x
=
ex
=
cos x
sin x
=
=
(k) Tangensreihe
tan x
=
(l) Cotangensreihe
cot x
=
∞
X
k=0
∞
X
k=0
∞
X
k=0
∞
X
k=0
∞
X
xk
für x ∈ C mit |x| < 1,
1 k
x
k!
für beliebige x ∈ C,
(−1)k 2k
x
(2k)!
für beliebige x ∈ C,
(−1)k 2k+1
x
(2k + 1)!
für beliebige x ∈ C,
(−1)k−1 4k (4k − 1)
B2k x2k−1
(2k)!
k=1
∞
1 X (−1)k−1 4k
+
B2k x2k−1
x
(2k)!
k=1
für x ∈ C nahe bei 0,
für x ∈ C r {0} nahe bei 0,
145
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
(m) Logarithmusreihe
ln(1 + x) =
∞
X
(−1)k−1
k=1
k
xk für x ∈ C mit |x| < 1 oder x = 1.
Zum Beweis von (m)
wir zunächst, dass die PoPbeachten
∞
k−1 k
tenzreihe f (x) :=
x /k mit der geometrik=1 (−1)
schen Reihe als konvergenter Majorante für |x| < 1 konvergiert und gemäß
∈] − 1, 1[ differenzierbar
P∞ 2.5 fürk−1x k−1
ist mit f 0 (x) =
x
= 1/(1 + x). Wegen
k=1 (−1)
ln0 (1 + x) = 1/(1 + x) für x ∈] − 1, 1[ unterscheiden sich f
und x 7→ ln(1 + x) nach dem Identitätssatz für differenzierbare Funktionen 3.8 auf ] − 1, 1[ nur um eine Konstante, die
dann wegen f (0) = 0 = ln(1) Null sein muss. Damit gilt
f (x) = ln(1 + x) für x ∈] − 1, 1[ und wir können den bisher
nur auf R+ definierten Logarithmus durch
ln(1 + x) :=
∞
X
(−1)k−1
k=1
k
xk
1
-1
1
-1
für |x| < 1
zumindest ein Stück weit ins Komplexe fortsetzen. Durch
folgenden Trick erhalten wir diese Darstellung auch im
Punkt x = 1 auf dem Rand des Konvergenzkreises (wo ja
bei einer Potenzreihe a priori nicht klar ist, was passiert):
Abbildung 4.23: Schmiegparabeln
für x 7→ ln(1 + x) bei x = 0. Die Approximation gelingt nur für |x| < 1.
Die obige Reihe ist für x ∈ [0, 1[ alternierend. Mit dem Leibniz-Kriterium 1.§4.2.6 folgt zunächst
n
X
(−1)k−1 k 1
x ≤
für x ∈ [0, 1[ und n ∈ N
ln(1 + x) −
n
k
k=1
und mit der Stetigkeit des Logarithmus nach Grenzübergang x → 1− dann auch
n
X
(−1)k−1 1
für n ∈ N.
ln(2) −
≤
n
k
k=1
Also konvergiert die alternierende harmonische Reihe wie in 1.§4.2.7 versprochen mit
ln(2) =
∞
X
(−1)k−1
k=1
(n) Arcustangensreihe
arctan x =
∞
X
k=0
k
=1−
1 1 1
+ − ± ··· .
2 3 4
(−1)k 2k+1
x
für x ∈ C mit |x| < 1 oder x = ±1.
2k + 1
Das beweist man analog zu (m). Wegen arctan(1) = π/4 erhalten wir insbesondere
∞
X
(−1)k
4 4 4
π=4
= 4 − + − ± ··· .
2k + 1
3 5 7
k=0
Diese Reihendarstellung für π konvergiert allerdings recht langsam (vgl. 1.§4.2.7).
∞ X
c k
(o) Binomialreihe
(1 + x)c =
x für x ∈ C mit |x| < 1 und c ∈ C.
k
k=0
Dies hatten wir in 1.§4.3.10 für c ∈ Z und c = 1/n mit n ∈ N hergeleitet. Nun erhalten wir das für
c ∈ C ähnlich wie in (m) und (n): Die Potenzreihe ist für |x| < 1 konvergent. Für x ∈] − 1, 1[ liefern die
Produktregel und eine Indexverschiebung
∞ X
d
c k
−c
(1 + x)
x = 0.
k
dx
k=0
146
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
P∞
Also ist (1 + x)−c k=0 kc xk konstant. Durch Betrachtung von x = 0 erhält man als Konstante 1. Dies
liefert die Formel zunächst für x ∈] − 1, 1[, mit dem Identitätssatz für Potenzreihen 2.§4.1.8 dann auch
für |x| < 1 im Komplexen.
5
Bestimmung von Extremwerten
5.1 Kritische Punkte. Für lokale Extrema 3.3 einer differenzierbaren Funktion f kennen wir das
notwendige Kriterium „hat f in x einen lokales Extremum, so gilt f 0 (x) = 0“. Solch einen Punkt nennen
wir kritischen Punkt.
5.2 Hinreichende Bedingung für lokale Extrema. Ist f : ]c, d[→ R differenzierbar und ist a ∈]c, d[
ein kritischer Punkt, so hat f in a ein
• Maximum, falls f 0 (x) ≥ 0 für alle x ∈]c, a[ und f 0 (x) ≤ 0 für alle x ∈]a, d[.
• Minimum, falls f 0 (x) ≤ 0 für alle x ∈]c, a[ und f 0 (x) ≥ 0 für alle x ∈]a, d[.
Ist f in a außerdem n-mal stetig differenzierbar für ein n ≥ 2 mit f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0
und f (n) (a) 6= 0, so hat f in a
• ein lokales Maximum, falls n gerade und f (n) (a) < 0,
• ein lokales Minimum, falls n gerade und f (n) (a) > 0,
• kein lokales Extremum, falls n ungerade.
f 0 (x) ≥ 0
f 0 (x) ≤ 0
c
f 0 (x) ≤ 0
f 0 (x) ≥ 0
a
d
c
a
d
Abbildung 4.24: Hinreichende Bedingungen für lokale Extrema.
Beweis. Gilt f 0 (x) ≥ 0 für x ∈]c, a[ und f 0 (x) ≤ 0 für x ∈]a, d[, so ist f nach dem Monotoniekriterium 3.7
auf ]c, a[ monoton wachsend und auf ]a, d[ monoton fallend. Also hat f auf [c, d] in a ein Maximum.
Ist f in a außerdem n-mal stetig differenzierbar mit f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0 und f (n) (a) 6= 0,
so hat das n-te Taylor-Polynom von f in a die Form Tn (x) = f (a) +
Restgliedabschätzung 4.14 liefert
f (x) = f (a) +
f (n) (a)
n! (x
f (n) (a)
(x − a)n + O(|x − a|n )
n!
− a)n und die qualitative
für x → a.
Daher gilt
f (x) − f (a)
f (n) (a)
→
(x − a)n
n!
für x → a
und der obige Bruch muss nach 4.1 für alle x 6= a genügend nahe bei a dasselbe Vorzeichen wie f (n) (a)
haben. Für gerades n und f (n) (a) < 0 bedeutet dies f (x) < f (a) für diese x, d.h. es liegt ein lokales
Maximum vor. In den anderen beiden Fällen schließe man analog.
147
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
a
a
f (x) = f (a) +
f 00 (a)
2! (x
3
a
− a)2
+O(|x − a| ) für x → a
f (x) = f (a) +
f 000 (a)
3! (x
4
− a)3
f (x) = f (a) +
+O(|x − a| ) für x → a
f (4) (a)
4! (x
5
− a)4
+O(|x − a| ) für x → a
Abbildung 4.25: Tangenten und Schmiegparabeln in kritischen Punkten.
5.3 Optimierungsprobleme. Viele Fragestellungen aus verschiedensten Bereichen der Physik lassen
sich mathematisch in der Form eines Optimierungsproblems für eine reellwertige Funktion schreiben.
Dabei unterscheidet man zwei Typen.
• Wenn nicht klar ist, ob eine Extremalsituation existiert:
• Wenn man weiß, dass eine Extremalsituation existiert:
supx∈I f (x) bzw. inf x∈I f (x),
maxx∈I f (x) bzw. minx∈I f (x).
Ist I kompakt und f stetig, so garantiert uns der Satz vom Maximum 4.8 die Lösbarkeit des Maximierungsproblems, bietet aber keine Hilfestellung, die Punkte x ∈ I zu finden, an denen f (x) maximal wird.
Mit der notwendigen Bedingung für lokale Extrema 3.3 kann der Kandidatenkreis aber eingeschränkt
werden: Ist f in a ∈ I differenzierbar mit f 0 (a) 6= 0, so hat f in a nicht einmal ein lokales Extremum.
(Dies geht zunächst nur für Funktionen einer Variablen, in 7.7 werden wir das verallgemeinern.)
5.4 Kandidaten für Extremalstellen, kritische Punkte. Ist f : I → R eine Funktion auf einem
Intervall I, so kommen als Kandidaten für die Lösung eines Optimierungsproblems für f in Frage:
• kritische Punkte, d.h. innere Punkte von I, in denen f differenzierbar ist mit f 0 (x) = 0,
• Punkte aus I, in denen f nicht differenzierbar ist,
• Randpunkte von I, bzw. das Randverhalten (bei Randpunkten, die nicht zu I gehören, bzw. bei
unbeschränktem I).
5.5 Beispiele.
(a) maxx∈[−1,1] x3 . Da f (x) = x3 auf R differenzierbar ist mit f 0 (x) = 3x2 müssen wir nur x = 0 und die
beiden Randpunkte x = ±1 betrachten. Der kritische Punkt x liefert nicht einmal ein lokales Extremum.
Das Maximum wird für x = 1 angenommen mit Wert f (1) = 1.
(b) maxx∈[0,+∞[ xe−x . Wieder ist f (x) = xe−x differenzierbar mit f 0 (x) = (1 − x)e−x . Neben x = 1
mit f (1) = 1/e ist der Randpunkt x = 0 mit f (0) = 0 und das Grenzverhalten von f für x → +∞ zu
betrachten. Wegen limx→+∞ xe−x = 0 liefert x = 1 das Maximum mit Wert f (1) = 1/e.
(c) minx∈[1,+∞[ xe−x . Die obige Überlegung zeigt, dass dieses Minimierungsproblem nicht lösbar ist. Als
Ersatz können wir inf x∈[1,+∞[ xe−x = 0 ansehen.
148
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
1
1
1
€€€€€
ã
maxx∈[0,+∞[ xe−x
kritischer Punkt x = 1 liefert Maximum
1
-1
1
maxx∈[−1,1] x3
Randmaximum bei x = 1
1
minx∈[1,+∞[ xe−x
keine Lösung
1
€€€€€
ã
-1
Abbildung 4.26: Drei Optimierungsprobleme.
(d) Minimiere den Abstand des Punktes ~a von der Ursprungsgeraden mit normiertem Richtungsvektor ~v
(vgl. 3.§3.3.7):
min k~a − λ~v k
λ∈R
Zunächst ist nicht klar, ob die zu minimierende Funktion λ 7→ k~a − λ~v k differenzierbar ist. Wenn wir
stattdessen das Quadrat des zu minimierenden Abstands
f (λ) := k~a − λ~v k2 = h~a − λ~v |~a − λ~v i = h~a|~ai − 2λh~a|~v i + λ2 h~v |~v i = k~ak2 − 2λh~a|~v i + λ2
betrachten, erhalten wir etwas Differenzierbares und das Ganze entpuppt sich als Suche nach dem Scheitel
einer Parabel. Es gilt
f 0 (λ) = 2λ − 2h~a|~v i,
und λ = h~a|~v i ist kritischer Punkt mit f (λ) = k~ak2 − h~a|~v i2 . Wegen limλ→±∞ f (λ) = +∞ muss dort ein
Minimum vorliegen, welches dann auch die Lösung des ursprünglichen
p Minimierungsproblems liefert. Der
Abstand wird also für den Geradenpunkt h~a|~v i~v minimal mit Wert k~ak2 − h~a|~v i2 .
6
Weitere Anwendungen der Differentialrechnung
6.1 Newton-Iteration. Eine Gleichung f (x) = b mit einer nichtlinearen Funktion f kann i.A. nicht exakt gelöst
werden. Wir können uns auf den Fall b = 0 beschränken, d.h. Nullstellen von f bestimmen. Ist f differenzierbar
und haben wir schon eine Näherung x0 für eine Nullstelle ξ von f gefunden, so können wir f durch die Tangente
t(x) = f (x0 ) + f 0 (x0 )(x − x0 ) approximieren und die Nullstelle x1 von t als neue Näherung verwenden. Selbige berechnet sich aus 0 = t(x1 ) = f (x0 ) + f 0 (x0 )(x1 − x0 ) zu
x1 = x0 − f (x0 )/f 0 (x0 ) falls f 0 (x0 ) 6= 0. Wir erhalten die
sogenannte Newton-Iteration
xk+1 = xk −
f (xk )
f 0 (xk )
für k ∈ N0 .
Man kann beweisen (siehe z.B. [Kön, Band 1, 14.4]), dass
das Newton-Verfahren quadratisch konvergiert, wenn man
den Startwert x0 genügend nahe an ξ wählt und wenn ξ
eine einfache Nullstelle ist (d.h. f (ξ) = 0 aber f 0 (ξ) 6= 0).
f (xk )
f (xk+1 )
f (xk+2 )
ξ xk+2 xk+1
xk
Abbildung 4.27: Newton-Verfahren.
149
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Auf Details gehen wir nicht ein, sondern illustrieren die Problematik an zwei Bildern.
konvergente Newton-Iteration
divergente Newton-Iteration
x0
x0
x1
x3
x2
x1
Abbildung 4.28: Zur Konvergenzproblematik beim Newton-Verfahren.
6.2∗ Newton-Iteration im Komplexen. Das Newton-Verfahren ist auch im Komplexen (d.h. für
„komplex differenzierbare“ Funktionen f : D ⊂ C → C und komplexe
Startwerte) anwendbar. Für
√
a
—
d.h.
die Menge der Startwerte,
f (z) = z 2 − a mit a ∈ R+ ist
dann
der
„Einzugsbereich“
von
√
für die das Verfahren gegen a konvergiert — nicht mehr die positive reelle Achse, sondern die rechte
Halbebene. Ist f ein beliebiges Polynom vom Grad zwei, so fungiert die Mittelsenkrechte zwischen den
beiden Nullstellen als Trennlinie deren Einzugsbereiche. Für Polynome f mit grad(f ) ≥ 3 wird die Bestimmung der Einzugsbereiche kompliziert. Abbildung 4.29 zeigt die Einzugsbereiche
der drei Nullstellen
√
von f (z) = z 3 − 1.√Der Einzugsbereich von 1 ist rot, der von e2πi/3 = 1/2 + i 3/2 ist grün und der von
−e2πi/3 = 1/2 − i 3/2 ist blau gefärbt. Die Trennlinie zwischen den drei Einzugsbereichen hat fraktale
Gestalt. Man kann zeigen, dass jeder Punkt auf dieser Trennlinie ein „Drei-Länder-Punkt“ ist, d.h. an
einen roten, einen grünen und einen blauen Bereich angrenzt.
Abbildung 4.29: Einzugsbereiche beim Newton-Verfahren für z 3 − 1 im Komplexen.
150
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
6.3 Beispiele zur Newton-Iteration.
(a) f (x) = x2 − a, a > 0 (numerische Berechnung von
√
a). Das zugehörige Newton-Verfahren lautet
xk − a
1
a
= xk −
=
xk +
2xk
2
xk
2
xk+1
und entpuppt sich gerade als das aus 1.§2.8.5 bekannte Babylonische Wurzelziehen.
(b) f (x) = (x − 5)ex + 5 (siehe Wiensches Verschiebungsgesetz 4.4). Wir wählen den Startwert x0 = 5
und erhalten die Rekursion
xk+1 = xk −
(xk − 5)exk + 5
(xk − 4)exk
für k ≥ 0.
Die ersten vier Rekursionsschritte liefern schon elf Nachkommastellen.
k
xk
0
5
1
4, 966310265004
2
4, 965115686301
3
4, 965114231746
4
4, 965114231744
Man vergleiche mit der Intervallhalbierung in 4.4.
6.4 Regeln von Bernoulli und de l’Hospital. Sind f und g in ]a, a + r], r > 0, differenzierbar mit
g 0 (x) 6= 0 für x ∈]a, a + r[ und gilt
lim f (x) = 0 = lim g(x)
x→a+
x→a+
oder
lim f (x) = +∞ = lim g(x)
x→a+
x→a+
so folgt
f (x)
f 0 (x)
= lim 0
,
x→a+ g(x)
x→a+ g (x)
falls der zweite Grenzwert existiert. Entsprechend gilt das für links- oder zweiseitige Grenzwerte sowie
für uneigentliche Grenzwerte erster Art.
lim
Beweis∗ . Im Fall limx→a+ f (x) = 0 = limx→a+ g(x) können wir f und g durch f (a) := 0, g(a) := 0 auf
[a, a + r] stetig fortsetzen und den verallgemeinerten Mittelwertsatz 3.6 anwenden. Zu jedem x ∈]a, a + r[
gibt es daher ein ξ ∈]a, x[ mit
f (x)
f (x) − f (a)
f 0 (ξ)
=
= 0 .
g(x)
g(x) − g(a)
g (ξ)
Existiert nun limx→a+
f 0 (x)
g 0 (x)
=: c, so folgt für x → a+ auch ξ → a+ und damit
f (x)
f 0 (ξ)
= lim 0
= c.
x→a+ g(x)
ξ→a+ g (ξ)
lim
Die verbleibenden Fälle führt man durch die üblichen Substitutionen (d.h. f (x) 7→ 1/f (x) bzw. x 7→ 1/x)
auf den eben behandelten zurück.
Beispiele. f (x) = sin x, g(x) = x, a = 0: Wegen
f 0 (x)
g 0 (x)
= cos x → 1 für x → 0 existiert limx→0
sin x
x
= 1.
Dagegen kommt man bei der Diskussion von limx→0 x sin x1 mit der Wahl f (x) = sin x1 , g(x) = x1 , a = 0
zu keinem Ziel. Man sollte sich also nicht alleine auf die Regeln von Bernoulli und de l’Hospital verlassen.
6.5∗ Stirling-Formel. Für große n ∈ N kann man n! näherungsweise berechnen durch
n n
√
n! ' 2πn
für n → ∞.
e
Hierbei gilt die Fehlerabschätzung
1< √
n!
< e1/(12n−1))
2πn(n/e)n
für n ≥ 2.
Der Beweis verwendet die Logarithmusreihe 4.16 (m) und das Leibniz-Kriterium 1.§4.2.6. Details siehe
z.B. [FiKau, §10.1.5].
151
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
6.6 Lineare Differentialgleichungen erster Ordnung mit konstanten Koeffzienten haben die
Form ẋ = ax + b mit (reellen oder komplexen) Konstanten a und b. Im Fall b = 0 nennen wir sie homogen,
ansonsten inhomogen. Geben wir zusätzlich noch eine Anfangsbedingung x(t0 ) = x0 vor, so sprechen wir
von einem Anfangswertproblem. Wir haben den folgenden Lösungssatz.
Die allgemeine Lösung im homogenen Fall ẋ = ax lautet x(t) = ceat mit einer freien Konstanten c.
Jedes Anfangswertproblem ẋ = ax, x(t0 ) = x0 , hat genau eine auf ganz R definierte Lösung, nämlich
x(t) = x0 ea(t−t0 ) .
Die allgemeinen Lösung im inhomogenen Fall ẋ = ax+b ist x(t) = ceat −b/a falls a 6= 0 bzw. x(t) = bt+c
falls a = 0 mit einer freien Konstanten c. Jedes Anfangswertproblem ẋ = ax + b, x(t0 ) = x0 ist auf R
eindeutig lösbar mit x(t) = (x0 + b/a)ea(t−t0 ) − b/a für a 6= 0 bzw. x(t) = b(t − t0 ) + x0 für a = 0.
Beweis. Dass die angegebenen Funktionen jeweils Lösungen sind, zeigt man durch Nachrechnen. Wir
müssen also nur noch die Eindeutigkeitsaussagen beweisen.
Ist x eine Lösung von ẋ = ax mit x(t0 ) = x0 , so folgt für h(t) := e−a(t−t0 ) x(t) durch Differenzieren
ḣ(t) = (ẋ(t) − ax(t))e−a(t−t0 ) = 0 für t ∈ R. Nach dem Identitätssatz 3.8 ist h also konstant mit Wert
h(t) = h(t0 ) = x(t0 ) = x0 . Dies zeigt x(t) = x0 ea(t−t0 ) und liefert die Eindeutigkeit der Lösung des
Anfangswertproblems im homogenen Fall. Für die allgemeine Lösung gehe man analog vor.
Die Aussagen im inhomogenen Fall spielen wir nun mit folgender Beobachtung auf die schon bewiesenen
im homogenen Fall zurück: Ist x̃ Lösung von ẋ = ax + b, so löst x = x̃ + b/a für a 6= 0 bzw. x = x̃ − bt
für a = 0 die zugehörige homogene DGL ẋ = ax.
6.7 Anwendungsbeispiel: Ein- und Ausschalten im RL-Kreis. Wir betrachten einen einfachen
Stromkreis mit einer Spannungsquelle, einem Widerstand von R Ohm und einer Spule von L Henry —
einen sogenannten RL-Kreis. Nach der Kirchhoffschen Regel gilt für den Strom I(t) und die Spannung
U (t) zur Zeit t die Beziehung
˙ + RI(t) = U (t).
LI(t)
Wird zur Zeit t = 0 eine Spannung U0 angelegt, so gilt I(0) = 0 und U (t) = U0 für t ≥ 0. Die zugehörige
Lösung der inhomogenen DGL I˙ = −(R/L)I + U0 /L zum Anfangswert I(0) = 0 lautet gemäß 6.6 dann
I(t) =
U0 1 − e−(R/L)t
R
für t ≥ 0.
Wegen der Selbstinduktion stellt sich also nicht sofort nach dem Ohmschen Gesetz der Strom I = U0 /R
ein, sondern erst asymptotisch.
Fließt umgekehrt zur Zeit t = 0 ein Strom I(0) = I0 und wird der RL-Kreis kurzgeschlossen, d.h. gilt
U (t) = 0 für t > 0, so lösen wir das Anfangswertproblem I˙ = −(R/L)I, I(0) = I0 , und erhalten mit 6.6
I(t) = I0 e−(R/L)t
für t ≥ 0.
Dank der Selbstinduktion verschwindet der Strom also nicht sofort, sondern er klingt exponentiell ab.
L
U
I0
I
I0
I(t)
R
U0
U0
U (t)
I(t)
ein
0
U (t)
t
aus
0
Abbildung 4.30: Ein- und Ausschaltvorgang im RL-Kreis: Strom- und Spannungsverlauf.
t
152
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
6.8 Potenzreihenansatz bei Differentialgleichungen. Lösungen von Differentialgleichungen
wie
P∞
in 6.6 fallen nicht vom Himmel. Oft kann man sie durch einer Potenzreihenansatz x(t) = k=0 ak (t−t0 )k
erraten. Mit solch einem Ansatz geht beispielsweise das Anfangswertproblem ẋ = ax, x(t0 ) = x0 , nach
gliedweisem Differenzieren 2.5 über in
a1 + 2a2 (t − t0 ) + 3a3 (t − t0 )2 + · · · = a a0 + a1 (t − t0 ) + a2 (t − t0 )2 + · · · ,
a 0 = x0 .
Ein Koeffizientenvergleich liefert
a0 = x0 ,
a1 = aa0 ,
2a2 = aa1 ,
3a3 = aa2 ,
...,
und allgemein kak = aak−1 . Wir erhalten mit vollständiger Induktion ak =
x(t) =
1 k
k! a x0
für k ∈ N0 , d.h.
∞
∞
X
X
1 k
1
a x0 (t − t0 )k = x0
[a(t − t0 )]k = x0 ea(t−t0 ) .
k!
k!
k=0
k=0
Achtung. Ein Potenzreihenansatz kann schief gehen (z.B. wenn man eine Potenzreihe mit Konvergenzradius R = 0 erhält). Er stellt auch nicht sicher, ob weitere Lösungen existieren.
6.9∗ Wegweiser Differentialgleichungen. Wir geben in diesem Skript keine geschlossene Einführung
in die Theorie von Differentialgleichungen, sondern streuen die Behandlung spezieller Typen an passenden
Stellen ein.
Typ
ẋ = ax + b
ẍ + aẋ + bx = c
x(r) + · · · + a1 ẋ + a0 x = 0
ẋ = c(t)g(x)
ẋ = a(t)x + b(t)
~x˙ = A~x
¨ + K~x = 0
M ~x
Bezeichnung
lineare DGL 1. Ordnung mit konstanten Koeffizienten
lineare DGL 2. Ordnung mit konstanten Koeffizienten
lineare DGL r-ter Ordnung mit konstanten Koeffizienten
DGL mit getrennten Variablen
lineare DGL 1. Ordnung
lineare Systeme 1. Ordnung mit konstanten Koeffizienten
schwingende Systeme
Referenz
4.§3.6.6
3.§3.1.23
5.§5.2.7
4.§5.2
4.§5.3
5.§6.5.1
5.§6.4.19
Auf die allgemeine Theorie gehen wir nur kurz in 4.§5.1 ein. Eine ausführliche Behandlung von (gewöhnlichen und partiellen) erfolgt im dritten Teil der Vorlesung.
7
Partielle Ableitungen bei Funktionen mehrerer Variablen
7.1 Worum geht es? Bisher haben wir in §3 nur Funktionen einer reellen Variablen betrachtet. Davon
wollen wir jetzt abweichen. Die volle Diskussion des Ableitungsbegriffs für eine Funktion f mehrerer
Variablen müssen wir auf Kapitel 6 verschieben. Aber wir können jetzt schon die vorhandenen Methoden
auf die partiellen Funktionen anwenden, die aus f entstehen, wenn wir alle Variable bis auf eine festhalten.
Das wird uns insbesondere ein notwendiges Kriterium für lokale Extrema liefern.
7.2 Definition: partielle Ableitungen. Ist die Funktion f in einer Umgebung U ⊂ Rn eines Punktes
~a = (a1 , . . . , an ) ∈ U definiert und ist die k-te partielle Funktion
t 7→ f (a1 , . . . , ak−1 , ak + t, ak+1 , . . . , an ) = f (~a + t~ek ),
k = 1, . . . , n,
in x = ak differenzierbar, so heißt ihre Ableitung
f (a1 , . . . , ak−1 , t, ak+1 , . . . , an ) − f (~a)
1
∂
f (~a) = lim
= lim (f (~a + h~ek ) − f (~a))
t→ak
h→0 h
∂xk
t − ak
die partielle Ableitung nach der k-ten Variablen von f im Punkt ~a. Weitere übliche Bezeichnungen sind
∂f
(~a),
∂xk f (~a)
oder
fxk (~a).
∂xk
Bei vektorwertigen Funktionen werden partielle Ableitungen komponentenweise gebildet.
Achtung. Bilden von
∂
∂xk f
bedeutet: „Halte in f alle Variablen bis auf xk fest und leite nach xk ab.“
153
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Anmerkung. Da U eine Umgebung von ~a ist, so finden wir eine offene Kugel und dann auch einen
offenen Quader I1 × · · · × In ⊂ U , der ~a enthält. Die k-te partielle Funktion ist somit zumindest auf Ik
definiert. Damit kennen wir diese Funktion auf einer Umgebung von ak und können beginnen, sie in ak
auf Differenzierbarkeit zu untersuchen.
7.3 Höhere partielle Ableitungen. Ist f in einer Umgebung U ⊂ Rn eines Punktes ~a ∈ U definiert,
überall dort nach der k-ten Variablen differenzierbar und existiert in ~a für ∂x∂ k f die partielle Ableitung
nach der l-ten Variablen
∂2
∂
∂
f (~a) :=
f (~a),
∂xl ∂xk
∂xl ∂xk
so nennen wir selbige die zweite partielle Ableitung nach der k-ten und l-ten Variablen von f im Punkt ~a.
Man schreibt hierfür auch
∂2f
(~a),
∂xl ∂xk
∂xl ,xk f (~a)
oder
fxl ,xk (~a).
Partielle Ableitungen höherer Ordnung werden entsprechen sukzessive gebildet.
Achtung. Bei höheren partiellen Ableitungen kommt es zunächst auf die Reihenfolge an, wir müssen also
2
2
zwischen ∂x∂l ∂xk f und ∂x∂k ∂xl f unterscheiden. Das erste bedeutet „leite zuerst nach der k-ten Variablen
ab, dann nach der l-ten“, im zweiten Fall geht es gerade anders herum. Später wird sich zeigen, dass zwei
gemischte partielle Ableitungen übereinstimmen, falls jeweils gleich oft nach jeder Variablen differenziert
wird und beide in einer Umgebung von ~a stetig sind (siehe 6.§1.2.4).
Beispiel. Für f (x) = x3 + xy 2 lauten die beiden ersten partiellen Ableitungen
∂
f (x, y) = 2xy,
∂y
∂
f (x, y) = 3x2 + y 2 ,
∂x
die vier zweiten partiellen Ableitungen sind
∂2
f (x, y) = 6x,
∂x2
∂2
f (x, y) = 2y,
∂y∂x
∂2
f (x, y) = 2y,
∂x∂y
∂2
f (x, y) = 2x.
∂y 2
Wer will, kann die acht partiellen Ableitungen dritter Ordnung ausrechnen.
7.4 Die Funktionenklassen C r und C ∞ . Eine Funktion f mehrerer Variablen heißt von der Klasse C r ,
wenn für f auf dem gesamten Definitionsbereich alle partiellen Ableitungen bis zur r-ten Ordnung existieren und stetig sind. Können alle partiellen Ableitungen beliebiger Ordnung gebildet werden, so nennen
wir f eine C ∞ -Funktion. Wenn nötig, so können bei dieser Bezeichnung auch Definitions- und Zielbereich
angegeben werden, d.h. man schreibt C r (D, R) etc.
7.5 Gradient eines Skalarfeldes. Besitzt ein Skalarfeld f : D ⊂ Rn → R in einem Punkt ~a ∈ D alle
partiellen Ableitungen erster Ordnung, so heißt
 ∂

a)
∂x1 f (~


..
grad f (~a) := 

.
∂
f
(~
a
)
∂xn
der Gradient von f an der Stelle ~a. Der Gradient wird auch mit
∇f (~a)
∂
bezeichnet, wobei ∇ := ( ∂x
, . . . , ∂x∂n ) Nabla-Operator genannt wird.
1
Achtung. Den Gradienten kann man nur für ein Skalarfeld f bilden, grad f (~a) ist dann ein Spaltenvektor,
der oft auch als Zeilenvektor geschrieben wird. Kann grad f (~a) an jeder Stelle im Definitionsbereich
D ⊂ Rn von f gebildet werden, so ist grad f eine auf D definierte Funktion mit Zeilenvektoren der Länge
n als Werten.
154
§3. DIFFERENTIALRECHNUNG IN EINER VARIABLEN
7.6 Interpretation des Gradienten. Die Komponenten des Gradienten einer Funktion f geben die
Steigungen der partiellen Funktionen an. Sie besagen also, wie sich f längs der Koordinatenachsen verhält.
Abbildung 4.31 illustriert dies am Beispiel eines Skalarfeldes zweier Variablen: Die Graphen der beiden
partiellen Funktionen x 7→ f (x, b) und y 7→ f (a, y) werden in die jeweiligen Schnittebenen y = b bzw.
∂f
y = a gezeichnet. Ihre Steigungen in x = a bzw. y = b sind gerade die Komponenten ∂f
∂x (a, b) bzw. ∂y (a, b)
des Gradienten von f an der Stelle (a, b).
f (a, b)
Schnitt parallel zur (x, z)-Ebene, Tangentensteigung in x-Richtung:
∂f
(a, b).
∂x
Schnitt parallel zur (y, z)-Ebene, Tangentensteigung in y-Richtung:
∂f
(a, b).
∂y
b
(a, b)
a
Abbildung 4.31: Die Komponenten des Gradienten geben die Steigung längs der Koordinatenachsen an.
In 6.§1.3.5 werden wir für C 1 -Skalarfelder im Rahmen der Differentialrechnung mehrerer Veränderlicher
eine weitere Interpretation bekommen: dann zeigt der Gradient in die Richtung stärksten Anstiegs.
7.7 Notwendige Bedingung für lokale Extrema. Hat ein Skalarfeld f an der Stelle ~a ein lokales
Extremum und ist f dort partiell nach allen Variablen differenzierbar, so gilt grad f (~a) = (0, . . . , 0). Ein
Punkt ~a ∈ Rn mit grad f (~a) = (0, . . . , 0) heißt kritischer Punkt.
Beweis. Würde eine Komponenten von grad f (~a) nicht verschwinden, so hätte die entsprechende partielle
Funktion gemäß der entsprechenden notwendigen Bedingung für Funktionen einer Variablen 3.3 kein
lokales Extremum und damit auch nicht f .
7.8 Beispiele. Wir betrachten die beiden durch
f (x, y) := x3 − 3x − 4y 2 + 2,

2
 2x y
2
g(x, y) := x + y 2

0
für (x, y) 6= (0, 0),
für (x, y) = (0, 0),
definierten Skalarfelder f, g : R2 → R. Wir berechnen
grad f (x, y) = (3x2 − 3, −8y)
für (x, y) ∈ R2
und erhalten grad f (x, y) = (0, 0) genau dann, wenn x2 − 1 = 0 und y = 0, d.h. (x, y) = (±1, 0). Damit
hat f zwei kritische Punkte. Wegen
f (1, h) =
f (1 + h, 0) =
−4h2 < 0
(h + 3)h2 > 0
für h 6= 0,
für h > −3, h 6= 0
155
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
nimmt f in der Nähe von (1, 0) sowohl positive als auch negative Werte an, hat dort also kein lokales
Extremum. In 6.§1.4.7 werden wir ein hinreichendes Kriterium für lokale Extrema kennenlernen, mit dem
wir dies ebenfalls nachweisen können. Dann erkennen wir auch, dass in (−1, 0) ein lokales Maximum
vorliegt.
Bei g können wir den Gradienten an jeder Stelle (x, y) 6= (0, 0) mit den Rechenregeln ausrechnen. Im
Ursprung geht dies wegen der abschnittsweisen Definition nicht. Wegen g(x, 0) = g(0, y) = 0 für x, y ∈ R
sind aber beide partielle Funktionen im Ursprung konstant, d.h. die partiellen Ableitungen verschwinden.
Wir erhalten

2x2 (x2 − y 2 )
2xy 3

,
für (x, y) 6= (0, 0),
(x2 + y 2 )2 2(x2 + y 2 )2
grad g(x, y) =

(0, 0)
für (x, y) = (0, 0)
und erkennen, dass der Ursprung der einzige kritische Punkt von g ist. Wegen g(r, r) = 2r > 0 und
g(r, −r) = −2r < 0 für r > 0 liegt dort aber kein lokales Extremum vor.
1
-1
0
0
1
-1
0
1
-1
0
1
-1
10
10
0
0
-10
-10
2
1
1
-1
0
0
1
0
1
-1
-1
0
0
1
-1
-1
10
10
0
0
-10
-10
-2
-3
-2
-1
1
0
2
3
Abbildung 4.32: Graphen und Niveaulinien zu f (x, y) = x3 − 3x − 4y 2 + 2.
-1
0
1
-1
0
1
-1
0
2
1
1
1
1
1
0
0
0
-1
-1
-1
-1
0
-1
1
0
0
-1
-1
1
Abbildung 4.33: Graphen und Niveaulinien zu g(x, y) =
0
1
2x2 y
x2 +y 2
-2
-2
-1
0
1
für (x, y) 6= (0, 0), g(0, 0) = 0.
2
156
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
§4
1
Integralrechnung in einer Variablen
Integration von Treppenfunktionen und integrierbare Funktionen
1.1 Zur Problematik der Flächenmessung. Die Integralrechnung hat ihre Wurzeln in der Bestimmung von Flächeninhalten. Das einzige Flächenstück, für welches man den Flächeninhalt einfach angeben
kann, ist das Rechteck. Vielen Flächenstücken — wie Dreiecken oder andere Vielecken — kann man dann
durch Zerlegen bzw. Ergänzen zu Rechtecken ebenfalls Flächeninhalte zuordnen, bei einem „krummlinig“ begrenzten Flächenstück — wie einem Kreis — ist hierbei ein Grenzübergang notwendig. Ansätze
hierzu finden sich bei Archimedes oder Cavalieri. Diesen Weg gehen wir auch bei der Definition des Integrals. Wir erklären zunächst ein Integral für „einfache“ Funktionen (Treppenfunktionen) und erweitern
diesen elementaren Integralbegriff durch einen Grenzübergang für eine genügend große Funktionenklasse
(Regelfunktionen).
1.2 Treppenfunktionen. Eine Funktion ϕ einer reellen Variablen heißt Treppenfunktion, wenn es
endlich viele Zahlen x0 < x1 < . . . < xn gibt, so dass ϕ im Inneren der Intervalle ]xk−1 , xk [ jeweils
konstant ist und außerhalb von [x0 , xn ] verschwindet. Auf die Werte ϕ(x0 ), . . . , ϕ(xn ) kommt es nicht an.
Gilt ϕ(x) = 0 für x ∈
/ [c, d], so nennen wir ϕ Treppenfunktion auf [c, d] oder sagen „ϕ lebt auf [c, d]“.
Beispiel. Ist I ⊂ R ein beschränktes Intervall, so ist die charakteristische Funktion
(
1 für x ∈ I,
χI (x) :=
0 für x ∈ R r I,
eine Treppenfunktion auf I. Die charakteristischen Funktionen erweisen sich als die „Grundbausteine“
der Treppenfunktionen.
1.3 Darstellung von Treppenfunktionen. Ist ϕ eine
Treppenfunktion auf [x0 , xn ] mit
(
yk für x ∈ Ik =]xk−1 , xk [, k = 1, . . . , n,
ϕ(x) =
0 für x ∈ R r [x0 , xn ],
so gilt
ϕ(x) =
n
X
x0
yk χIk (x)
für x ∈ R r {x0 , x1 , . . . , xn }.
k=1
x1
xn
Abbildung 4.34: Eine Treppenfunktion.
Ob diese Darstellung auch für die Randpunkte der Teilintervalle Ik gilt, ist für die Integralrechnung
unwichtig, da diese n + 1 Punkte zum Flächeninhalt keinen Beitrag liefern. Abgesehen davon kann also
jede Treppenfunktion als Linearkombination von charakteristischen Funktionen dargestellt werden.
Achtung. Tatsächlich sind sogar mehrere derartige Darstellungen möglich. Beispielsweise gilt
χ[0,3] = χ]0,1[ + χ[1,3[ = 2χ[0,4] − χ[0,3] − 2χ]3,4] .
Wir sollten es also beim Integrieren mit der Gleichheit zweier Funktionen „nicht zu genau“ nehmen.
1.4 Gleichheit fast überall. Zwei Funktionen f und g einer reellen Variablen heißen fast überall gleich,
f (x) = g(x) fast überall,
oder kurz
f =g
wenn f (x) 6= g(x) für höchstens abzählbar unendlich viele x ∈ R gilt.
f.ü.,
157
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Dieser Gleichheitsbegriff ist für die Integralrechnung nützlich. Wir können jetzt beispielsweise sagen „eine
Treppenfunktion ist fast überall als Linearkombination von charakteristischen Funktionen darstellbar
ϕ=
n
X
yk χIk
f.ü.,
k=1
und brauchen uns nicht mehr um die Intervallrandpunkte xk kümmern.
1.5 Integration von Treppenfunktionen.
Treppenfunktion auf [c, d] mit Darstellung
ϕ=
n
X
yk χIk
Für eine
f.ü.
k=1
für Teilintervalle I1 =]x0 , x1 [, . . . , In =]xn−1 , xn [ von [c, d]
erklären wir das Integral
Z
d
ϕ(x) dx :=
c
n
X
yk ∆xk ,
∆xk := xk − xk−1 .
k=1
x0
x1
xn
Abbildung 4.35: Integral einer Treppenfunktion.
Wir haben also einfach die Flächeninhalte der Rechtecke mit Grundlinien Ik = [xk−1 , xk ] und Höhen yk
unter dem Graphen von ϕ addiert.
Da eine Treppenfunktion auf mehrere Arten als Linearkombination von charakteristischen Funktionen
Rd
dargestellt werden kann, müssen
Pnwir uns noch davon überzeugen, dass die Zahl c ϕ(x) dx nicht von
der Wahl der Darstellung ϕ = k=1 yk χIk f.ü. abhängt. Das läuft aber letztlich darauf hinaus sich klar
zu machen, dass sich der Flächeninhalt eines Rechtecks nicht ändert, wenn wir es in zwei Teilrechtecke
zerlegen und deren Flächeninhalte addieren.
1.6 Programm. Momentan können wir über Treppenfunktionen integrieren, d.h. Flächenstücke, deren
Rand sich aus endlich vielen Strecken zusammensetzt. Jetzt kommt der angekündigte Grenzübergang auf
krummlinig berandete Flächenstücke. Mathematisch gesehen ist das ein spannender Moment und es gibt
mehrere Möglichkeiten. Letztlich hängt es vom Arbeitsaufwand ab, den man an dieser Stelle betreibt,
wie vielen „Flächenstücken“ man einen „Flächeninhalt“ zuordnen kann. Wir wählen einen Zugang über
das Regel- oder Cauchy-Integral , welcher alles Wesentliche zeigt, ohne technisch zu aufwendig zu werden.
Es stellt sich heraus, dass man nicht jeder Menge (in der Ebene oder allgemein im Rn ) einen Inhalt zuordnen kann. Diese Tatsache steckt beispielsweise hinter dem Banach-Hausdorff-Tarski-Paradoxon, welches
besagt, dass man die Einheitskugel K1 (~0) im R3 in fünf Teile aufteilen kann, welche nach Verschieben
und Drehen zusammengesetzt zwei Einheitskugeln ergeben.
1.7 Supremumsnorm. Ist die Funktion f auf einer Menge D definiert und beschränkt, so definieren
wir die Supremumsnorm von f durch
kf k∞ = kf k∞,D := sup |f (x)| = sup{|f (x)| | x ∈ D}.
x∈D
Ist f vektorwertig, so hat man dabei den Betrag |f (x)| durch die Norm kf (x)k zu ersetzen. Die Supremumsnorm von f ist also die kleinste obere Schranke für die Funktionswerte von f .
Die Schreibweise kf k∞,D hebt heraus, auf welcher Menge das Supremum von f zu bilden ist. Meistens
ist das aber aus dem Zusammenhang klar und man schreibt einfach kf k∞ .
Achtung.
√ Die Supremumsnorm kf k∞ ist für eine Funktion erklärt. Das ist etwas anderes als die Norm
k~xk = x1 2 + · · · + xn 2 eines Vektors im Rn . Tatsächlich haben aber beide Normen dieselben grundlegenden Eigenschaften, die wir uns für eine Längen- und Abstandsmessung wünschen — das eine Mal für
Vektoren (siehe 3.§3.2.9), jetzt für Funktionen.
158
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
1.8 Eigenschaften der Supremumsnorm. Sind f und g auf D definiert und beschränkt, so gilt
(a) (Positive Definitheit) kf k∞ ≥ 0 und kf k∞ = 0 genau für f = 0,
(b) (Homogenität) kλf k∞ = |λ|kf k∞ für eine beliebige Zahl λ,
(c) (Dreiecksungleichung) kf + gk∞ ≤ kf k∞ + kgk∞ .
Beweis. Die Regeln (a) und (b) sind unmittelbar einsichtig. Für (c) benutzen wir die Dreiecksungleichung
|f (x) + g(x)| ≤ |f (x)| + |g(x)| ≤ kf k∞ + kgk∞ und bilden anschließend das Supremum über alle x ∈ D.
1.9 Gleichmäßiger Abstand von Funktionen. Mit der Supremumsnorm können wir den gleichmäßigen Abstand zweier Funktionen durch kf − gk∞ messen. Es gilt
kf − gk∞ < ε
⇔
|f (x) − g(x)| < ε für alle x ∈ D.
Das kann man sich so vorstellen, dass der Graph von g ganz im ε-Schlauch um den Graphen von f verläuft.
g
f
c
d
c
d
c
d
Abbildung 4.36: Gleichmäßiger Abstand von Funktionen und drei ε-Schläuche.
1.10 Abschätzung für Integrale von Treppenfunktionen. Für zwei Treppenfunktionen ϕ und ψ
auf [c, d] gilt
Z
Z d
d
ϕ dx −
ψ dx ≤ (d − c)kϕ − ψk∞ .
c
c
Beweis. Durch Einfügen von genügend vielen Zwischenpunkten in [c, d] können wir erreichen, dass es
Zahlen x0 , . . . , xn gibt mit c = x0 < x1 < . . . < xn = d, so dass ϕ und ψ auf Ik =]xk−1 , xk [ jeweils
konstant sind mit Wert yk bzw. zk . Dann gilt
Z
Z d
n
n
n
n
d
X
X
X
X
ϕ dx −
ψ dx = yk ∆xk −
zk ∆xk = (yk − zk )∆xk ≤
|yk − zk |∆xk
c
c
k=1
≤
n
X
k=1
k=1
k=1
k=1
∆xk max |yk − zk | = (d − c)kϕ − ψk∞ .
k=1,...,n
1.11 Regelfunktionen. Eine beschränkte Funktion f heißt integrierbar oder Regelfunktion auf einem
Intervall [c, d], wenn sie dort beliebig genau gleichmäßig durch Treppenfunktionen approximierbar ist.
Das bedeutet: zu jedem ε > 0 gibt es eine Treppenfunktion ϕ auf [c, d] mit
kf − ϕk∞ < ε,
oder — was dasselbe ist — es gibt eine Folge von Treppenfunktionen ϕn auf [c, d] gibt mit
kf − ϕn k∞ → 0
für n → ∞.
159
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
c
d
c
d
c
d
Abbildung 4.37: Eine Regelfunktion kann gleichmäßig durch Treppenfunktionen appoximiert werden.
1.12 Integration von Regelfunktionen. Ist f auf [c, d] integrierbar, also dort gleichmäßig durch eine
Folge von Treppenfunktionen ϕn approximierbar, so existiert der Grenzwert
Z d
Z d
ϕn (x) dx
f (x) dx := lim
n→∞
c
c
und ist unabhängig von der Wahl der approximierenden Folge (ϕn )n .
Diesen Grenzwert nennen wir das Integral von f über [c, d].
c
d
c
d
c
d
Abbildung 4.38: Integral einer Regelfunktion als Grenzwert der Integrale über Treppenfunktionen.
Beweis. Wir beweisen zuerst die Existenz des Grenzwerts. Zu ε > 0 wählen wir eine Zahl nε ∈ N mit
kf − ϕn | < ε für n ≥ nε . Mit der Dreiecksungleichung 1.8 (c) folgt
kϕn − ϕm k∞ = k(f − ϕm ) − (f − ϕn )k∞ ≤ kf − ϕm k∞ + kf − ϕn k∞ < 2ε
und daher mit 1.10 auch
Z
Z d
d
ϕn (x) dx −
ϕm (x) dx ≤ (d − c)kϕn − ϕm k∞ < 2(d − c)ε
c
c
für n, m ≥ nε
für n, m ≥ nε .
Rd
Also ist die Folge der Zahlen c ϕn (x) dx eine Cauchy-Folge und damit konvergent. Nun zeigen wir, dass
der Grenzwert nicht von der Wahl der approximierenden Folge abhängt. Sind (ϕn )n und (ψn )n zwei
Folgen von Treppenfunktionen, die f gleichmäßig auf [c, d] approximieren, so folgt ähnlich wie zuvor
kϕn − ψn k∞ ≤ kf − ϕn k∞ + kf − ψn k∞ → 0
für n → ∞
und dann mit 1.10 auch
Z
Z d
d
ϕn (x) dx −
ψn (x) dx ≤ (d − c)kϕn − ψn k∞ → 0
c
c
Also konvergieren die beiden Folgen (
Rd
c
für n → ∞.
Rd
ϕn (x) dx)n und ( c ψn (x) dx)n gegen dieselbe Zahl.
160
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
1.13 Zur Notation. Übliche Bezeichnungen für das Integral von f über [c, d] sind
Z
d
Z
f (x) dx
c
Z
f (y) dy,
oder
[c,d]
d
Z
dtf (t)
d
f.
oder knapp
c
c
Welches Symbol die Integrationsvariable bezeichnet, ist also belanglos. Die ersten drei Varianten geben
Rd
Rd
aber weniger Anlass zu Missverständnissen: c etx dx ist deutlicher als c etx . Die dritte Variante hat
gegenüber den ersten zwei den Nachteil, dass unklar ist, über welche Funktion integriert wird.
R
Das Integralzeichen
als ein stilisiertes Summen-„S“ wurde 1675 von Gottfried Wilhelm Leibniz eingeführt. Er stellte sich das Integral als Summe über alle Ordinatenlinien vor. Das entspricht unserer
Rd
Pn
Approximation von c f (x) dx durch Summen der Form
k=1 f (xk )∆xk . Dem ebenfalls von Leibniz
eingeführten „Differential“ dx wollen wir vorerst keine eigenständige Bedeutung geben.
1.14 Integration von vektorwertigen Funktionen. Unser Integral kann für reell-, komplex- oder
vektorwertige Regelfunktionen verwendet werden. Für eine komplexwertige Regelfunktion f können Realund Imaginärteil getrennt integriert werden
Z d
Z d
Z d
f (x) dx =
Re(f (x)) dx + i
Im(f (x)) dx.
c
c
c
Eine vektorwertige Regelfunktion f~ mit Werten im Rm wird komponentenweise integriert
R

d
f
(x)
dx
1
Z d
 c .

.
..
f~(x) dx = 


c
Rd
f
(x)
dx
c m
1.15 Wie geht es weiter? Unser Zugang zu integrierbaren Funktionen entsprach dem Wunsch, die
Flächenmessung von Rechtecken sinnvoll durch einen Grenzprozess zu erweitern. Dieser Wunsch ist jetzt
erfüllt, aber leider haben wir momentan weder eine genaue Vorstellung, welche Flächenstücke wir messen,
d.h. welche Funktionen wir integrieren können, noch kennen wir die Rechenregeln. Rechenregeln werden
wir leicht aus Eigenschaften des Integrals für Treppenfunktionen ableiten können. Die spannende Frage,
welche Funktionen wir denn nun integrieren können, hat folgende überraschende Antwort.
1.16 Charakterisierung von Regelfunktionen. Genau dann ist f über [c, d] integrierbar, wenn f in
jedem Punkt einseitige Grenzwerte besitzt. Insbesondere ist jede auf [c, d] stetige Funktion integrierbar.
Beweis∗ . Sei zunächst f auf [c, d] integrierbar, d.h. beschränkt und gleichmäßiger Grenzwert von Treppenfunktionen. Wir zeigen zuerst: Zu jedem ε > 0 existiert ein δ > 0, so dass für alle x, x0 ∈ [c, a[ mit
|x − a| < δ und |x0 − a| < δ gilt |f (x) − f (x0 )| < ε. Zu ε > 0 gibt es nämlich eine Treppenfunktion ϕ mit
kf −ϕk∞ < ε, d.h. |f (x)−ϕ(x)| < ε/2 für alle x ∈ [c, d]. Für ein geeignetes δ > 0 ist ϕ auf ]a−δ, a[⊂ [c, d]
konstant. Für alle x, x0 ∈]a − δ, a[ folgt dann ϕ(x) = ϕ(x0 ) und wie behauptet.
|f (x) − f (x0 )| ≤ |f (x) − ϕ(x)| + |ϕ(x0 ) − f (x0 )| < 2
ε
= ε.
2
Ist nun (xn )n eine Folge in [c, a[ mit limn→∞ xn = a, so gibt es ein nε ∈ N mit xn , xm ∈]a − δ, a[ für
n, m ≥ nε und obige Abschätzung zeigt |f (xn ) − f (xm )| < ε. Also ist (f (xn )n ) eine Cauchy-Folge und
damit konvergent gegen eine Zahl b. Der Grenzwert kann dabei nicht von der Folge (xn )n abhängen. Sind
nämlich (xn )n und (x0n )n zwei Folgen mit den zuvor genannten Eigenschaften, so auch die „Mischfolge“
(x1 , x01 , x2 , x02 , . . .) und alle drei müssen konvergieren. Da die ersten beiden aber Teilfolgen der zweiten
sind, haben alle drei denselben Grenzwert. Also hat f in x = a den linksseitigen Grenzwert b. Für die
Existenz der rechtsseitigen Grenzwerte argumentiere man analog.
Nun habe f in jedem Punkt von [c, d] einseitige Grenzwerte. Wir müssen zeigen, dass zu jedem ε > 0
eine Treppenfunktion ϕ existiert mit kf − ϕk∞ < ε. Wir nennen solch ein ϕ eine ε-Approximation
und zeigen durch einen Widerspruchsbeweis, das ϕ existiert. Wenn solch eine ε-Approximation nicht
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
161
existiert, so zeigen wir durch Induktion zunächst folgende Aussage: Es gibt eine Folge von Intervallen
[cn , dn ] ⊂ [c, d], n ∈ N0 , mit dn − cn = (d − c)/2n , so dass f auf [cn , dn ] keine ε-Approximation besitzt.
Unsere Widerspruchsannahme liefert die Induktionsverankerung mit [c0 , d0 ] = [c, d]. Haben wir für ein
n ∈ N0 ein Intervall [cn , dn ] ⊂ [c, d] mit dn − cn = (d − c)/2n gefunden, so dass f auf [cn , dn ] keine εApproximation besitzt, so setzen wir m := (cn +dn )/2 und betrachten die beiden Teilintervalle [cn , m] und
[m, dn ]. Wenn f auf beiden Teilintervallen eine ε-Approximation besitzen würde, so könnte man aus ihnen
eine ε-Approximation auf [cn , dn ] zusammensetzen. Also besitzt f auf einem dieser beiden Intervalle keine
ε-Approximation. Bezeichnen wir selbiges mit [cn+1 , dn+1 ] so gilt dn+1 −cn+1 = (dn −cn )/2 = (d−c)/2n+1 .
Damit ist der Induktionsschritt vollendet.
Nach Konstruktion bilden die Intervalle [cn , dn ] eine Intervallschachtelung für eine Zahl a ∈ [c, d]. Wir
betrachten zunächst den Fall a ∈]c, d[. Nach Annahme hat f in a einen linksseitigen Grenzwert b− und
einen rechtsseitigen Grenzwert b+ . Daher existiert ein δ > 0 mit [a − δ, a + δ] ⊂ [c, d] und |f (x) − b− | < ε
für x ∈]a − δ, a[ sowie |f (x) − b+ | < ε für x ∈]a, a + δ[. Wegen limn→∞ cn = a = limn→∞ dn gibt es ein
n ∈ N mit [cn , dn ] ⊂]a − δ, a + δ[. Die durch


für x ∈ [cn , a[,
 b−
ϕ(x) := f (a) für x = a,


b+
für x ∈]a, dn [
definierte Treppenfunktion ϕ ist dann — im Widerspruch zur zuvor bewiesenen Aussage — eine εApproximation auf [cn , dn ]. Für x = c bzw. x = d schließen wir analog und erhalten auf jeden Fall den
gewünschten Widerspruch.
1.17 Eigenschaften von Regelfunktionen erhalten wir sofort aus der Charakterisierung 1.16 und den
Rechenregeln für Grenzwerte §2.1.4.
Sind f und g reell- oder komplexwertige Regelfunktionen, so auch
(d) λf + µg für beliebige Zahlen λ, µ,
(e) |f |, Re f , Im f , f ,
(f) f g.
Sind f~ und ~g dagegen vektorwertige Regelfunktionen mit Werten im Rm , so auch
(g) λf~ + µ~g für beliebige Skalare λ, µ,
(h) hf~|~g i, kf~k.
1.18 Eigenschaften des Integrals. Sind f und g reell- oder komplexwertige Regelfunktionen, so gilt
Z d
Z d
Z d
(i) (Linearität)
(λf + µg) dx = λ
f dx + µ
g dx für beliebige Zahlen λ, µ,
c
c
c
Z
Z
d
d
(j) (Beschränktheit) f dx ≤
|f | dx ≤ (d − c)kf (x)k∞ .
c
c
Z
d
Z
f dx ≤
(k) (Monotonie)
c
d
g dx falls f und g reellwertig mit f ≤ g.
c
Sind f~ und ~g zwei vektorwertige Regelfunktionen mit Werten im Rm , so gilt
Z d
Z d
Z d
(l) (Linearität)
(λf~ + µ~g ) dx = λ
f~ dx + µ
~g dx für beliebige Skalare λ, µ,
c
c
c
Z
Z
d
d
(m) (Beschränktheit) f~ dx ≤
kf~k dx ≤ (d − c)kf~(x)k∞ .
c
c
162
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Beweis. Wir machen uns zunächst klar, dass alle diese Regeln für Treppenfunktionen gelten. Mit den
Rechenregeln für Grenzwerte und der Definition des Integrals für Regelfunktionen 1.12 übertragen sie
sich dann auch auf integrierbare Funktionen.
Anmerkung. Die Regeln (j) und (m) werden gerne zur Abschätzung von Integralen verwendet: „Länge des Integrationsintervalls mal Maximum des Betrags des Integranden liefert eine Schranke für das
Integral.“
1.19 Integration über Teilintervalle. Ist f auf [c, d] integrierbar, so können wir f über ein Teilintervall
[a, b] ⊂ [c, d] integrieren, indem wir
Z b
Z d
f dx :=
f χ[a,b] dx
a
c
setzen. Insbesondere gilt dann
Z
a
f dx = 0.
a
1.20 Additivität des Integrals bezüglich der Integrationsgrenzen. Für ξ ∈ [c, d] gilt
Z ξ
Z d
Z d
f dx +
f dx =
f dx.
c
ξ
c
Mit der Vereinbarung
Z
c
Z
d
f dx := −
d
f dx,
c
so gilt obige Regel sogar für beliebige Punkte ξ, c, d, wie man durch Fallunterscheidung nachrechnet.
1.21∗ Vollständigkeit der Klasse der Regelfunktionen. Man könnte auf die Idee kommen, den
Schritt, mit dem wir das Integral von Treppenfunktionen durch einen Grenzübergang auf das Integral für
Regelfunktionen erweitert haben, zu wiederholen, um eine noch größere Klasse von Funktionen integrieren
zu können. Das geht leider nicht, wie der folgende Satz zeigt.
Wird eine Funktion f auf [c, d] beliebig genau gleichmäßig durch Regelfunktionen approximiert, d.h. gibt
es eine Folge von Regelfunktionen fn mit kf − fn k∞ → 0 für n → ∞, so ist f selbst eine Regelfunktion
und es gilt
Z d
Z d
f dx = lim
fn dx
c
n→∞
c
Beweis. Zu ε > 0 gibt es ein fn mit kf − fn k < ε/2. Da fn eine Regelfunktion ist, existiert eine
Treppenfunktion ϕn mit kfn − ϕn k∞ < ε/2. Die Dreiecksungleichung liefert kf − ϕn k∞ < ε. Also
kann f beliebig genau gleichmäßig durch Treppenfunktionen approximiert werden und ist daher eine
Regelfunktion. Die Vertauschung von Grenzwertbildung und Integration erhalten wir nun aus
Z
Z
Z d
d
d
f dx −
fn dx = (f − fn ) dx ≤ (d − c)kf − fn k∞ → 0
für n → ∞.
c
c
c
1.22 Zur Stetigkeit von Regelfunktionen. Ist f auf [c, d] integrierbar, so ist f fast überall stetig,
d.h. gibt es höchstens abzählbar unendlich viele Stellen in [c, d], in denen f unstetig ist.
Beweis∗ . Da f eine Regelfunktion ist, gibt es eine Folge von Treppenfunktionen ϕn mit kf − ϕn k∞ → 0
für n → ∞. Jede Treppenfunktion ϕn ist auf [c, d] mit Ausnahme von endlich vielen Sprungstellen
konstant. Die Menge A ⊂ [c, d] aller Sprungstellen aller Treppenfunktionen ist damit höchstens abzählbar
unendlich. Für einen Punkt a ∈ [c, d] r A und ein ε > 0 gibt es ein n ∈ N mit kf − ϕn k∞ < ε, d.h.
|f (x)−ϕn (x)| < ε/2 für alle x ∈ [c, d]. Da a keine Sprungstelle von ϕn ist, gibt es ein Intervall ]a−δ, a+δ[
mit δ > 0 um a, auf dem ϕn konstant ist. Für x ∈ [c, d] mit |x − a| < δ folgt ϕn (x) = ϕn (a) und daher
|f (x) − f (a)| ≤ |f (x) − ϕn (x)| + |ϕn (a) − f (a)| < 2ε/2 = ε. Also ist f in a stetig und damit höchstens
für Punkte aus A unstetig.
163
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1.23 Wichtige Regelfunktionen. Jede stetige Funktion und jede reellwertige monotone Funktion auf
[c, d] ist integrierbar.
Zusammen mit 1.22 erhalten wir insbesondere, dass eine monotone Funktion f : [c, d] → R an höchstens
abzählbar unendlich vielen Stellen unstetig sein kann.
Beweis∗ . Die Integrierbarkeit von stetigen Funktionen haben wir schon in 1.16 bewiesen. Ist f : [c, d] → R
monoton wachsend, so ist für a ∈]c, d] die Menge f ([c, a[) nichtleer und nach oben beschränkt, besitzt also
ein Supremum y ∈ R. Ist (xn )n eine Folge in [c, a[ mit limn→∞ xn = a, so gilt f (xn ) ≤ f (a) für alle n.
Zu ε > 0 gibt es nach der Definition des Supremums ein x ∈ [c, a[ mit f (x) > y − ε. Die Konvergenz
von (xn )n liefert ein n0 ∈ N mit |xn − a| < a − x für n ≥ n0 . Für all diese n folgt x < xn < a, und die
Monotonie von f liefert |f (xn ) − y| = y − f (xn ) < ε. Damit existiert limx→a− f (x). Analog zeigen wir
die Existenz des rechtsseitigen Grenzwerts. Nach der Charakterisierung 1.16 ist f dann integrierbar.
1.24 Beispiel für eine nichtintegrierbare Funktion. Die Dirichletfunktion
(
1 für x ∈ [0, 1] ∩ Q,
d(x) :=
0 für x ∈ [0, 1] r Q
ist nicht über [0, 1] integrierbar. In jedem nichtleeren Teilintervall ]c0 , d0 [ von [0, 1] liegen nämlich rationale und irrationale Zahlen, so dass sich d nicht beliebig genau gleichmäßig durch Treppenfunktionen
approximieren lässt. Außerdem ist d auch in jedem Punkt unstetig (vgl. §2.3.15):
Rd
1.25 Identitätssatz für integrierbare Funktionen. Ist f auf [c, d] stetig mit c |f | dx = 0, so folgt
f = 0. Für vektorwertige Funktionen gilt das analog.
Beweis. Wäre f (a) 6= 0 für ein a ∈ [c, d], so gibt es nach §2.4.1 ein Intervall [c0 , d0 ] ⊂ [c, d] mit a ∈ [c0 , d0 ]
und d0 − c0 > 0, so dass |f (x)| ≥ |f (a)|/2 > 0 für x ∈ [c0 , d0 ]. Mit der Monotonie des Integrals folgt
Rd
R d0
|f (x)| dx ≥ c0 |f (a)|/2 dx = (d0 − c0 )|f (a)|/2 > 0.
c
1.26 Mittelwertsatz der Integralrechnung. Ist f auf
[c, d] stetig und reellwertig, so gibt es einen Punkt ξ ∈ [c, d]
mit
Z
f (ζ)
d
f (x) dx = (d − c)f (ξ).
c
Achtung. Auf die Stetigkeit von f darf nicht verzichtet
werden.
Für die Heaviside-Funktion gilt beispielsweise
R2
H(x)
dx = 2 aber es gibt kein ξ mit H(ξ) = 2/3.
−1
c
d
Abbildung 4.39: Zum Mittelwertsatz
der Integralrechnung.
Wir beweisen gleich eine allgemeinere Version, welche für
den Fall p = 1 den obigen Satz enthält.
1.27 Verallgemeinerter Mittelwertsatz der Integralrechung. Ist f auf [c, d] stetig und reellwertig
und ist p auf [c, d] integrierbar mit p ≥ 0, so gibt es ein ξ ∈ [c, d] mit
Z d
Z d
f (x)p(x) dx = f (ξ)
p(x) dx.
c
c
Beweis. Nach dem Satz vom Maximum §2.4.7 hat f auf [c, d] ein Minimum m und ein Maximum M .
Dann gilt mp(x) ≤ f (x)p(x) ≤ M p(x) für x ∈ [c, d]. Mit der Monotonie des Integrals 1.18 (h) folgt
Z d
Z d
Z d
m
p(x) dx ≤
f (x)p(x) dx ≤ M
p(x) dx.
c
c
c
Also existiert ein b ∈ [m, M ] mit
Z
d
Z
f (x)p(x) dx = b
c
d
p(x) dx.
c
Da f stetig ist, garantiert der Zwischenwertsatz §2.4.2 die Existenz eines ξ ∈ [c, d] mit f (ξ) = b.
164
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
1.28∗ Interpretation der Mittelwertsätze. Für n reelle Zahlen a1 , . . . , an bilden wir den Mittelwert
n
a1 + · · · + an
1X
=
ak .
n
n
k=1
Das Integral
Z d
1
f (x) dx
d−c c
können wir daher als eine Verallgemeinerung der Mittelwertbildung auf den „kontinuierlichen“ Fall ansehen. Bei einer stetigen Funktion f wird nach dem Mittelwertsatz der Integralrechnung 1.26 der Mittelwert
als ein Funktionswert angenommen
Z d
1
f (x) dx.
f (ζ) =
d−c c
Führen wir im diskreten Fall bei der Mittelwertbildung „Gewichte“ m1 , . . . , mn ≥ 0 ein, die bewerten,
wie stark jede an der Mittelwertbildung beteiligte Zahl eingehen soll, so berechnen wir das gewichtete
Mittel gemäß
n
m1 a1 + · · · + mn an
1X
=
mk ak
n
n
k=1
und erhalten im kontinuierlichen Fall als Analogon
Z d
1
f (x)p(x) dx
d−c c
mit einer Gewichtsfunktion p, von der wir natürlicher Weise verlangen, dass sie nicht negativ ist.
1.29∗ Anmerkung zum Riemann- und zum Lebesgue-Integral. Wir haben in diesem Abschnitt
das sogenannte Regel- oder Cauchy-Integral eingeführt. Oftmals wird die Integrationstheorie mit dem
Riemann-Integral begonnen. Dabei wird das Integrationsintervall [c, d] in Teilintervalle mit Randpunkten
c = x0 < x1 < . . . < xn = d zerlegt und es werden Riemannsche Unter- bzw. Obersummen
n
X
k=1
inf
xk−1 <x<xk
f (x)∆xk
bzw.
n
X
k=1
sup
f (x)∆xk
xk−1 <x<xk
definiert. Falls das Supremum über alle Untersummen mit dem Infimum über alle Obersummen übereinstimmt, so nennt man den gemeinsamen Wert das Riemann-Integral von f über [c, d]. Das stellt man
sich als ein „Ausschöpfen“ der zu integrierenden Fläche von Innen und Außen durch Rechtecke vor. Wir
dagegen haben eine etwas freiere Approximation durch Rechtecke zugelassen.
Die Klasse der Riemann-integrierbaren Funktionen erweist sich zwar als etwas größer, der Beweisaufwand
nimmt aber auch deutlich zu. Ausrechnen kann man ein Integral (egal ob Riemann- oder Regelintegral)
ohnehin erst mit dem Hauptsatz, den wir im nächsten Abschnitt vorstellen werden.
Neben dem Ausrechnen von Integralen erweist sich aber für die Anwendungen eine gute Verträglichkeit
mit Grenzübergängen als unabdingbar. Hierbei ist das Regelintegral dem Riemann-Integral überlegen.
Das zeigt sich schon in 1.21
Z d
Z d
lim
fn dx =
lim fn dx
falls lim kf − fn k∞ = 0
n→∞
c
c
n→∞
n→∞
und wir werden dieses für die Anwendungen wichtige Thema in §5 vertiefen.
Sowohl Riemann- als auch Regelintegral werden vom Lebesgue-Integral übertroffen, welches vom Flair
sehr dem Regelintegral ähnelt. Es macht einerseits mehr Funktionen integrierbar und erlaubt gleichzeitig
unbeschränkte Integrationsbereiche, andererseits liefert es gut handhabbare Vertauschungssätze. Darum
wird das Lebesgue-Integral in vielen Bereichen der theoretischen Physik eingesetzt. Wir werden es im
Rahmen der mehrdimensionalen Integrationstheorie in 6 kennenlernen.
165
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2
Hauptsatz der Differential- und Integralrechnung
2.1 Worum geht es? Der Hauptsatz der Differential- und Integralrechnung liefert uns die Möglichkeit,
Integrale auszurechnen, indem er Differentiation und Integration miteinander verbindet.
2.2 Integralfunktion. Ist f auf [c, d] integrierbar, so heißt für festes a ∈ [c, d] die durch
Z x
Fa (x) :=
f (t) dt,
für x ∈ [c, d]
a
definierte Funktion Fa eine Integralfunktion von f .
Beispiel. Eine Integralfunktion für die Heaviside-Funktion H (vgl. §2.1.1) berechnen wir zu
(
Z x
0 für x < 0,
H(t) dt =
x für x ≥ 0.
0
f
x
a
x
a
Fa
a
x
a
x
a
x
a
x
a
x
a
x
Rx
Abbildung 4.40: Die Integralfunktion F (x) = a f (t) dt gibt die Fläche unter dem Graphen von f in
Abhängigkeit von der Basislinie mit den Endpunkten a und x an, für x < a wird die Fläche negativ
gezählt, ebenso für Flächenteile unterhalb der x-Achse.
2.3 Hauptsatz der Differential- und Integralrechnung, Version Integralfunktion. Ist f auf
[c, d] integrierbar, so ist jede Integralfunktion Fa auf [c, d] stetig, besitzt dort alle möglichen einseitigen
Ableitungen und es gilt
Fa0 (x−) = f (x−)
für x ∈]c, d],
Fa0 (x+) = f (x+)
für x ∈ [c, d[.
Insbesondere ist Fa an jeder Stelle x ∈]c, d[, an der f stetig ist, differenzierbar mit Fa0 (x) = f (x).
Beweis. Wir führen den Beweis für die rechtsseitige Ableitung an einer Stelle
R x x ∈ [c, d[. Als Regelfunktion
hat f dort einen rechtsseitigen Grenzwert f (x+) = limt→x+ f (t). Wegen ξ dt = x − ξ gilt
Fa (ξ) − Fa (x)
− f (x+) =
ξ−x
=
=
!
Z ξ
Z x
Z ξ
1
1
f (t) dt −
f (t) dt −
f (x+) dt
ξ − x
ξ−x x
a
a
Z
1
ξ
1
(f (t) − f (x+)) dt ≤
|ξ − x| max |f (t) − f (x+)|
ξ − x x
|ξ − x|
t∈[x,ξ]
max |f (t) − f (x+)| → 0
t∈[x,ξ]
für ξ → x + .
166
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Also existiert der rechtsseitige Grenzwert
Fa0 (x+) = lim
ξ→x+
Fa (ξ) − Fa (x)
= f (x+).
ξ−x
Ebenso zeigt man das für den linksseitigen Grenzwert. An jeder Stetigkeitsstelle x ∈]c, d[ von f gilt daher
f (x) = Fa0 (x−) = Fa0 (x+) = Fa0 (x).
rechtsseitiger Grenzwert
f (x+) = limξ→x+ f (ξ)
f
Fa
rechtsseitige Steigung
Fa0 (x+)
x
x
f (x−) = limξ→x− f (ξ)
linksseitiger Grenzwert
Fa0 (x−)
linksseitige Steigung
Abbildung 4.41: Regelfunktion f und Integralfunktion Fa an einer Unstetigkeitsstelle von f .
2.4 Stammfunktion, Potential und unbestimmtes Integral. Sind f und F auf [c, d] definiert, so
heißt F eine Stammfunktion oder ein Potential von f , falls F die folgenden beiden Eigenschaften hat:
(SF1) F ist auf [c, d] stetig,
(SF2) F ist für fast alle x ∈ [c, d] differenzierbar mit F 0 (x) = f (x).
Die Gesamtheit aller Stammfunktionen zu f nennen wir das unbestimmte Integral und bezeichnen sie mit
Z
f (x) dx.
Mit dem Identitätssatz für differenzierbare Funktionen §3.3.8 erhalten wir sofort:
Wenn f eine Stammfunktion F besitzt, so sind sämtliche Stammfunktionen von der Form F + C mit
einer Konstanten C.
Beispiel. ln(x) ist eine Stammfunktion für x1 für jedes Intervall [c, d] ⊂ R+ . Gilt dagegen [c, d] ⊂ R− , so
ist ln(−x) eine Stammfunktion für x1 . Das kann man folgendermaßen zusammenfassen: Die Stammfunktionen von x1 für x 6= 0 haben die Form ln |x| + C — oder kurz:
Z
1
dx = ln |x| + C
für x 6= 0.
x
2.5 Hauptsatz der Differential- und Integralrechnung, Version Stammfunktion. Ist f auf [c, d]
integrierbar, so besitzt f eine Stammfunktion. Für jede Stammfunktion F und beliebige a, b ∈ [c, d] gilt
Z b
f (t) dt = F (b) − F (a).
a
Das folgt mit der Definition der Stammfunktion sofort aus der ersten Version des Hauptsatzes 2.3.
167
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Man schreibt auch F (b) − F (a) =: F (x)|ba , d.h.
Z
b
a
b
f (t) dt = F (x)
a
und sagt „F in den Grenzen a und b“.
2.6 Wichtige Stammfunktionen. Mit dem Hauptsatz erhalten wir zu jeder uns bekannten Ableitungsfunktion ein unbestimmtes Integral. Hier folgen die wichtigsten.
=
xα+1
+C
α+1
für x ∈ R, α ∈ C r {−1},
=
ln |x + b| + C
für x ∈ R r {−b}, b ∈ R,
=
für x ∈ R,
für x ∈ R r {±1},
=
arctan(x) + C
1 1 + x +C
ln
2 1 − x
√
ln x + x2 + 1 + C
=
√
lnx + x2 − 1 + C
für x ∈] − ∞, −1[∪]1, +∞[,
=
arcsin(x) + C
für x ∈] − 1, 1[,
ex dx
=
ex + C
für x ∈ R,
ax dx
=
ax
+C
ln(a)
für x ∈ R, a ∈ R+ ,
cos(x) dx
=
sin(x) + C
für x ∈ R,
sin(x) dx
=
− cos(x) + C
für x ∈ R,
tan(x) dx
=
− ln | cos(x)| + C
für x ∈ R r
cot(x) dx
=
ln | sin(x)| + C
für x ∈ R r {kπ : k ∈ Z},
cosh(x) dx
=
sinh(x) + C
für x ∈ R,
sinh(x) dx
=
cosh(x) + C
für x ∈ R,
tanh(x) dx
=
ln(cosh(x)) + C
für x ∈ R,
coth(x) dx
=
ln | sinh(x)| + C
für x ∈ R r {0}.
Z
xα dx
Z
1
dx
x+b
Z
1
dx
1 + x2
Z
1
dx
1 − x2
Z
1
√
dx
1 + x2
Z
1
√
dx
2−1
x
Z
1
√
dx
2
1−
Z x
Z
=
für x ∈ R,
Z
Z
Z
nπ
2
o
+ kπ : k ∈ Z ,
Z
Z
Z
Z
Z
2.7 Integral der Ableitung. Ist die Stammfunktion F im Hauptsatz 2.5 differenzierbar, so erhalten
wir nach Ersetzen von f = F 0 und anschließender Umbenennung von F in f die folgende Aussage.
Hat f auf einem Intervall I ⊂ R eine integrierbare Ableitung, so gilt
Z x
f (x) = f (a) +
f 0 (t) dt
für beliebige x, a ∈ I.
a
168
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
2.8 Anwendungsbeispiel aus der Mechanik. Wirkt eine von der Zeit t abhängige Kraft F~ (t) auf
einen Körper der Masse m, so lautet das Newtonsche Kraftgesetz
m~a(t) = F~ (t).
¨(t) lässt sich durch eine zweifache Integration die Bewegungsgleichung
Aus der Beschleunigung ~a(t) = ~x
des Körpers gewinnen. Befindet sich der Körper zur Zeit t0 am Ort ~x0 mit Startgeschwindigkeit ~v0 , so
erhalten wir für die Geschwindigkeit ~v (t) = ~x˙ (t) zur Zeit t zunächst
Z
t
1
~v (t) = ~v0 +
~a(τ ) dτ = ~v0 +
m
t0
Z
t
F~ (τ ) dτ,
t0
und für den Ort ~x(t1 ) des Körpers zur Zeit t1 dann
Z
~x(t1 )
t1
= ~x0 +
Z
t1
Z t
~v0 +
~a(τ ) dτ dt
~v (t) dt = ~x0 +
t0
t0
1
= ~x0 + (t1 − t0 )~v0 +
m
Z
t1
t0
t0
Z
t
F~ (τ ) dτ dt.
t0
2.9 Integranden mit trigonometrischen Funktionen. Ist p ein Polynom in zwei Variablen, so kann
ein Integral des Typs
Z
p(cos t, sin t) dt
immer durch Zurückführen auf die Exponentialfunktion mit Integralen der Form

ikt d
ikd
ikc

Z d
 e = e − e
für k 6= 0,
ikt
e dt =
ik c
ik

c
R d 1 dt = td = d − c für k = 0
c
c
gelöst werden.
Beispiel.
Z
3
(cos t + 3 cos t sin 2t) dt
Z
=
=
=
=
=
=
(eit + e−it )
2
3
eit + e−it e2it − e−2it
+3
2
2i
!
dt
Z
1
(1 − 6i)e3it + (3 − 6i)eit + (3 + 6i)e−it + (1 + 6i)e−3it dt
8
Z
1 (1 − 6i)e3it + (1 − 6i)e3it + (3 − 6i)eit + (3 − 6i)eit dt
8
Z
1
Re
(1 − 6i)e3it + (3 − 6i)eit dt
4
1
1 − 6i 3it 3 − 6i it
1
1
3
3
Re
e +
e
= Re − e3it − ie3it − eit − ieit
4
3i
i
2
12
2
4
1
3
3
1
sin 3t − cos t + sin t.
− cos 3t +
2
12
2
4
2.10 Orthogonalitätsrelationen. Als Spezialfall der gerade vorgeführten Technik erhalten wir die sogenannten Orthogonalitätsrelationen für die Exponentialfunktion
(
Z 2π
Z π
1 für k = 0,
1
1
ikt
ikt
e dt =
e dt = δk,0 =
2π 0
2π −π
0 für k ∈ Z r {0},
169
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
aus denen nach Real- und Imaginärteilbildung die
stehen


Z 2π
2
1
cos(mt) cos(nt) dt =
1

π 0

0
Z 2π
1
cos(mt) sin(nt) dt = 0,
π 0
(
Z
1
1 2π
sin(mt) sin(nt) dt =
π 0
0
Orthogonalitätsrelationen für Cosinus und Sinus entfür m = n = 0,
für m = n 6= 0
für m 6= n,
m, n ∈ N0 ,
m ∈ N0 , n ∈ N,
für m = n,
für m =
6 n,
m, n ∈ N.
Ihre Bedeutung lernen wir bei der Betrachtung von Fourier-Reihen als Entwicklung bezüglich eines Orthogonalsystems in einem abstrakten Vektorraum in 5.§7.1 kennen.
3
Integrationstechniken
3.1 Vorbemerkung. Der Hauptsatz liefert uns zu jeder Differentiationsregel eine zugehörige Integrationsregel. Wir behandeln nacheinander die „Umkehrung“ der Produkt- und Kettenregel, sowie der gliedweisen Differentiation von Potenzreihen. Dazu gibt es jeweils Anwendungen und Beispiele, meist Klassen
von Funktionen, die sich jeweils nach einem aus diesen Techniken abgeleiteten Verfahren integrieren
lassen.
3.2 Partielle Integration. Sind f und g stetig differenzierbare Regelfunktionen auf ]c, d[, so gilt
Z
Z
f (x)g 0 (x) dx = f (x)g(x) − f 0 (x)g(x) dx + C
für x ∈]c, d[,
und insbesondere
Z b
a
b Z
f (x)g 0 (x) dx = f (x)g(x) −
b
f 0 (x)g(x) dx
für beliebige a, b ∈ [c, d].
a
a
Die geschickte Aufspaltung eines vorgegebenen Integranden in ein Produkt der Form f (x)g 0 (x) erfordert
Erfahrung und Übung. Wir illustrieren das gleich an Beispielen. Manchmal hilft auch der Trick weiter,
mittels mehrfacher partieller Integration eine Formel der Gestalt
b
Z b
Z b
f (x)g(x) dx = h(x) + A
f (x)g(x) dx
a
a
a
mit einer Konstanten A 6= 1 zu produzieren. Dann erhält man
b
Z b
1
f (x)g(x) dx =
h(x) .
1
−
A
a
a
3.3 Beispiele zur partiellen Integration.
Z
(a) p(x)ex dx mit einem Polynom p.
Derartige Integrale können mittels n-facher partieller Integration berechnet werden. Das Prinzip machen
wir exemplarisch für ein unbestimmtes Integral deutlich.
Z
Z
Z
2
x
2 x
x
2
x
x
e
dx
=
x
e
−
2x
e
dx
=
(x
−
2x)e
+
2ex dx = (x2 − 2x + 2)ex .
|{z} |{z}
|{z} |{z}
↓
↑
↓
↑
170
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Z
p(x) ln x dx mit einem Polynom p.
(b)
Hier führt eine einfache partielle Integration zum Erfolg wie das folgende Beispiel zeigt.
e Z e 2
2
Z e
Z e
x
x
1
e2
x
(x + 1) |{z}
ln x dx =
+ x ln x −
+x
dx =
+e−
+ 1 dx
2
2
x
2
2
1
1 | {z }
1
1
↑
↓
=
Z
(c)
e2
+e−
2
e
e2 − 5
x2
+ x =
.
4
4
1
sin2 x dx.
Eine partielle Integration liefert zusammen mit der Kreisidentität
Z
Z
Z
sin2 x dx =
sin
x
sin
x
dx
=
sin
x(−
cos
x)
−
cos x(− cos x) dx
|{z} |{z}
↓
↑
Z
=
− sin x cos x +
(1 − sin2 x) dx = x − sin x cos x −
Z
sin2 x dx.
R
Wir erhalten also eine Gleichung für sin2 x dx, welche uns aufgelöst folgendes Ergebnis liefert
Z
1
sin2 x dx = (x − sin x cos x) .
2
3.4 Substitutionsregel. Ist u : [c, d] → [γ, δ] eine C 1 -Funktion und f ∈ C 0 ([γ, δ]), so gilt
d
Z
f (u(x))u0 (x) dx =
c
Z
u(d)
f (t) dt.
u(c)
Ist u sogar bijektiv, so gilt
Z
δ
Z
u−1 (δ)
f (t) dt =
f (u(x))u0 (x) dx
u−1 (γ)
γ
Die Substitution t = u(x) lautet nach Differentiation imR Leibnizkalkül
Merkregel für die Anwendung der Substitutionsregel auf f (t) dt.
dt
dx
= u0 (x) und liefert folgende
• Ersetze im Integranden t durch u(x),
• ersetze „dt = u0 (x)dx“,
• ersetze bei bestimmten Integralen die Integrationsgrenzen γ und δ durch u−1 (γ) und u−1 (δ), bzw.
resubstituiere bei unbestimmten Integralen nach Bestimmung der Stammfunktion x durch u−1 (t).
3.5 Zur Anwendung der Substitutionsregel. Gewöhnlich werden die beiden folgenden zwei Varianten angewendet, die den beiden oben angegebenen Formen entsprechen.
Entweder gelingt es, den Integranden für eine Anwendung der Substitutionsregel in die Gestalt
f (u(x))u0 (x) =
d
F (u(x))
dx
zu bringen (das erfordert wieder Geschick und Übung), dann berechnet man
R u(d)
Auswertung von u(c) f (t) dt.
Rd
c
f (u(x))u0 (x) dx durch
Oder man möchte die Integrationsvariable t durch t = u(x) ersetzen. Dann muss u eine bijektive C 1 Rδ
R u−1 (δ)
Funktion sein und man berechnet γ f (t) dt durch Auswerten von u−1 (γ) f (u(x))u0 (x) dx.
171
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
3.6 Beispiele zur Substitutionsregel.
Z
2
(d) xe−x /2 dx.
Mit der Substitution u(x) = x2 /2, d.h.
Z
d
−x2 /2
xe
Z
Z
d2 /2
2
2
= e−c /2 − e−d /2 .
dt = −e 2
d2 /2
dx =
e
−t
−t c2 /2
c
(e)
= u0 (x) = x bzw. „x dx = dt“ erhalten wir
dt
dx
c /2
u0 (x)
dx mit stetigem nichtverschwindendem u.
u(x)
Gilt u(x) 6= 0 für x ∈ [c, d], so hat u als stetige Funktion in [c, d] keinen Vorzeichenwechsel und es folgt
d
Z
c
u0 (x)
u(d)
dx = ln
.
u(x)
u(c)
Damit erhalten wir beispielsweise
d
Z
Z
d
tan x dx = −
c
c
cos d
cos0 x
dx = − ln
,
cos x
cos c
sofern des Intervall [c, d] keine Nullstelle des Kosinus enthält.
Z
Z
(f) f (cos x) sin x dx, f (sin x) cos x dx.
Auch diese Integrale der Form können mit der Substitutionsregel behandelt werden. Ist F Stammfunktion
zu f , so gilt
Z
Z
f (cos x) sin x dx = −F (cos x) + C,
Z
1
dx mit a2 < b.
x2 + 2ax + b
(g)
Eine quadratische Ergänzung und die Substitution y =
Z
1
dx
2
x + 2ax + b
Z
=
=
Z
(h)
f (sin x) cos x dx = F (sin x) + C.
√
√x+a
b−a2
liefern mit
1
1
dx =
2
2
(x + a) + b − a
b − a2
1
b − a2
Z
Z
dy
dx
=
1
1+
√x+a
b−a2
√ 1
,
b−a2
„dx =
1
1
1
x+a
dy = √
arctan y = √
arctan √
.
2
2
2
1+y
b−a
b−a
b − a2
Hier hat x2 + 2ax + b zwei reelle Nullstellen λ 6= µ und eine Partialbruchzerlegung ergibt
1
dx
2
x + 2ax + b
Z 1
1
1
1
dx =
−
dx
(x − λ)(x − µ)
λ−µ
x−λ x−µ
1
x−λ
1
(ln |x − λ| − ln |x − µ|) =
ln
.
λ−µ
λ−µ x−µ
Z
=
=
b − a2 dy“
2 dx
1
dx mit a2 > b.
x2 + 2ax + b
Z
√
172
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
3.7 Anwendungsbeispiel: Kreisfläche. Wir berechnen
die Fläche Ar eines Kreises mit Radius r > 0, indem wir den
Mittelpunkt in den Ursprung verlegen,√die obere Hälfte der
Kreislinie durch die Funktion f (t) := r2 − t2 , t ∈ [−r, r],
parametrisieren und zunächst die zugehörige Halbkreisfläche
Z r p
1
Ar =
r2 − t2 dt
2
−r
berechnen. Die Substitution u(x) := r cos x wird eine bijektive Abbildung u : [0, π] → [−r, r] mit u(0) = r und
u(π) = −r liefert mit 3.3 (c) für die Kreisfläche wie erwartet
Z
Ar
=
r
p
2
r2
−
t2
Z
=
2r
2
Z
0
p
r2
−r
−
0
t
r
Abbildung 4.42: Berechnung der Halbkreisfläche.
u(x)2 u0 (x) dx
u−1 (−r)
π
r
u−1 (r)
dt = 2
−r
f (t) =
√
r 2 − t2
Z
0
r
=2
p
1 − cos2 x(−r sin x) dx
π
π
sin x dx = r (x − sin x cos x) = r2 π.
2
2
0
3.8 Integration rationaler Funktionen. Ist R eine rationale Funktion mit reellen Koeffizienten, so
führen wir zunächst eine Partialbruchzerlegung
c1,1
c1,k1
cm,km
cm,1
R(x) = q(x) +
+ ··· +
+ ··· +
+ ··· +
x − λ1
(x − λ1 )k1
x − λm
(x − λm )km
durch. Hierbei ist q der Nebenteil von R und die Zahlen λµ sind die nach Kürzen von R verbleibenden
Polstellen mit Polordnungen kµ .
Anschließend können die einzelnen Summanden nach folgenden Rezepten integriert werden.
• Die Integration des Nebenteils q geht problemlos, da q ein Polynom ist.
c
• Die Integration von Partialbrüchen der Form (x−λ)
k mit k ≥ 2 geschieht unabhängig davon, ob λ
reell oder komplex ist, mittels
Z
c
1
c
dx =
.
(x − λ)k
1 − k (x − λ)k−1
c
Da R eine reelle rationale Funktion ist, tritt für eine echt komplexe Polstelle λ mit (x−λ)
k auch der
c
konjugierte Partialbruch (x−λ)k auf. Beide liefern nach Zusammenfassen etwas Reelles
c
• Die Integration von Partialbrüchen der Form x−λ
mit λ ∈ R erfolgt mittels
Z
c
= c ln |x − λ|.
x−λ
c
• Die Integration von Partialbrüchen der Form x−λ
mit λ ∈ C r R geschieht folgendermaßen: Dann
c
tritt auch ein konjugierter Partialbruch x−λ auf. Beide können zusammen mittels 3.6 (e) und (h)
integriert werden
Z Z
c
2(Re c)x − 2 Re(cλ)
c
+
dx =
dx
x−λ x−λ
x2 − 2(Re λ)x + |λ|2
Z
2x − 2 Re λ
= Re c
dx
x2 − 2(Re λ)x + |λ|2
Z
1
+2[(Re c)(Re λ) − Re(cλ)]
dx
x2 − 2(Re λ)x + |λ|2
x − Re λ
= Re c lnx2 − 2(Re λ)x + |λ|2 − 2 Im c arctan
.
Im λ
173
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Fazit. Jede rationale Funktion mit reellen Koeffizienten besitzt auf ihrem natürlichen Definitionsbereich
eine Stammfunktion, die eine Linearkombination aus einer rationalen Funktion sowie Logarithmen und
Arcustangensfunktionen.
Beispiel.
Z
2x4 + x3 + 6x − 36
dx
x(x2 + 4)
!
1+i
1−i
9
2
2
2x + 1 − +
dx
=
+
x x + 2i x − 2i
1 x
= x2 + x − 9 ln |x| + lnx2 + 4 + arctan .
2
2
Z
3.9∗ Integration rationaler Funktionen in Cosinus und Sinus. Solche Integrale lassen sich mit
der Substitution
t = u(x) = 2 arctan x
auf die Integration einer rationalen Funktion zurückführen. Es gilt nämlich
dt
2
= u0 (x) =
dx
1 + x2
und damit
sin t =
2 sin 2t cos 2t
2 tan 2t
=
1 + tan2
sin2 2t + cos2 2t
=
2x
,
1 + x2
cos t =
cos2 2t − sin2
sin2 2t + cos2
=
1 − x2
.
1 + x2
t
2
t
2
=
1−
1+
t
2
tan2 2t
tan2 2t
Nach dieser Substitution erhalten wir also eine rationale Funktion als Integranden.
Rd
Beispiel. Um c sin1 t dt zu berechnen, können wir für 0 < c < d < π mit t = 2 arctan x substituieren
und erhalten
tan(d/2)
Z d
Z tan(d/2)
Z tan(d/2)
tan d2
1
1
2
1
=
ln
dt =
dx
=
dx
=
ln
x
.
2x
2
tan 2c
c sin t
tan(c/2) 1+x2 1 + x
tan(c/2) x
tan(c/2)
3.10∗ Anmerkung über geschlossen integrierbare Funktionen. Die Integration rationaler Funktionen zeigt, dass die Stammfunktionen einer Klasse von Funktionen nicht unbedingt selbst wieder zu
dieser Klasse gehören müssen. Der Logarithmus als Stammfunktion der rationalen Funktion x1 ist beispielsweise nicht rational. Die Bildung von Stammfunktionen ist also ein Prozess, der gelegentlich den
Vorrat bereits bekannter Funktionen erweitert. Man kann zeigen, dass Stammfunktionen „elementarer“
Funktionen (das sind — grob gesprochen — Funktionen, die aus rationalen Funktionen und der Exponentialfunktion durch endlich viele algebraische Prozesse wie Addition, Multiplikation, Division, Verkettung,
Umkehrbildung sowie wiederholte Anwendung derselben entstehen) selbst nicht elementar sein müssen.
Untersuchungen dieser Art gehen auf Liouville (1809–1882) zurück. Beispielsweise sind die drei Funktionen
Z x
2
1
e−t /2 dt
Gaußsches Fehlerintegral ,
Φ(x) := √
2π 0
Z x
1
Li(x) :=
dt
Integrallogarithmus,
ln(t)
0
Z x
sin(t)
Si(x) :=
dt
Integralsinus
t
0
nicht elementar.
Richardson hat 1968 gezeigt, dass es keinen allgemeingültigen Algorithmus geben kann, mit dem für
eine gegebene elementare Funktion entschieden werden kann, ob sie geschlossen integrierbar ist, d.h. eine
elementare Stammfunktion besitzt.
174
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
3.11 Wie findet man eine Stammfunktion? Wir haben in diesem Abschnitt für mehrere Klassen
von Funktionen Integrationsverfahren angegeben. Nach eben zitierten Ergebnis von Richardson können
wir aber aus prinzipiellen Gründen nicht alle Funktionen geschlossen integrieren, geschweige denn dazu ein „allglückseeligmachendes“ Verfahren verwenden. Softwarepakete wie Mathematica oder Maple
verfügen allerdings über ausgeklügelte Algorithmen zur Beschaffung von Stammfunktionen — falls solche
überhaupt existieren. Im Zweifelsfalle sollte man also immer auch auf diese Hilfe zurückgreifen.
P∞
3.12 Integration von Potenzreihen. Wird f durch eine Potenzreihe f (x) = k=0 ak (x − x0 )k mit
Konvergenzradius R > 0 dargestellt, so besitzt f auf ]x0 − R, x0 + R[ eine Stammfunktion und es gilt
Z
∞
X
ak
(x − x0 )k+1 + C
für x ∈]x0 − R, x0 + R[,
f (x) dx =
k+1
k=0
und insbesondere
Z
x
f (t) dt =
x0
∞
X
ak
(x − x0 )k+1
k+1
für x ∈]x0 − R, x0 + R[.
k=0
Beispiel. Aus der Potenzreihendarstellung für die Sinc-Funktion erhalten wir für den Integralsinus
Z xX
∞
∞
X
(−1)k
(−1)k 2k
t dt =
x2k+1
für x ∈ R.
Si(x) =
(2k + 1)!
(2k + 1) · (2k + 1)!
0
k=0
k=0
Wenn auch der Integralsinus nicht geschlossen integrierbar ist, so kennen wir nun dennoch eine Potenzreihendarstellung für die Stammfunktion. Die Situation ist also ähnlich wie bei der Exponentialfunktion,
deren Werte wir auch nur näherungsweise (z.B. durch Auswerten von Partialsummen und Fehlerabschätzen) näherungsweise berechnen können.
3.13∗ Numerische Integration. Ein beliebtes Verfahren nur numerischen Integration ist die TrapezreRd
gel . Um c f (x) dx näherungsweise zu berechnen, unterteilt man der Integrationsintervall [c, d] äquidistant
in n Teilintervalle und addiert die Flächeninhalte der aus diesen Teilpunkten und den zugehörigen Funktionswerten gebildeten Trapeze zur Trapezsumme
Th (f ) = h
1
1
f (c) + f (c + h) + · · · + f (d − h) + f (d)
2
2
mit der Schrittweite
h :=
d−c
.
n
Ist f eine C 2 -Funktion mit |f 00 (x)| ≤ M für x ∈ [c, d], so
kann man die Fehlerabschätzung
Z
d
d−c
M h2
f (x) dx − Th (f ) ≤
c
12
c
|{z}
h
d
Abbildung 4.43: Trapezregel nur numerischen Integration.
Rd
herleiten (Details siehe [Kön, Band 1, 11.10]). Es gilt also c f (x) dx = Th (f ) + O(h2 ) für h → 0+ wenn
man die Schrittweite h klein macht. Falls f eine C 3 -Funktion oder noch glatter ist, existieren Verfahren
noch höherer Ordnung.
4
Geometrie von Kurven
4.1 Bogenlänge. Wir haben eine Kurve γ im R3 mit einer C 1 -Parametrisierung ~x : [ta , te ] → R3 und
interpretieren selbige wieder als Bewegungsplan, mit dem sich ein Teilchen längs der Spur von γ bewegt.
175
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Bei einer Bewegung mit konstanter Geschwindigkeit ~v = ~x˙ erhalten wir als zurückgelegte Strecke
k~x(te ) − ~x(ta )k = k~v k(te − ta ).
Ist die Bewegung nicht gleichförmig, so zerlegen wir das Zeitintervall [ta , te ] in Teilpunkte ta = t0 < t1 <
. . . < tN −1 < tN = te und verwenden die Gesamtlänge
Lt0 ,...,tN :=
N
X
k~x(tk ) − ~x(tk−1 )k ≈
k=1
N
X
k~x˙ (tk )k∆tk
k=1
des Polygonzugs mit den Eckpunkten ~x(t0 ), . . . , ~x(tN ) als Approximation an die zu ermittelnde Gesamtlänge des Weges. Wenn das Supremum über die Gesamtlängen aller der Bahnkurve einbeschriebenen
Polygonzüge existiert, so nennen wir es die Bogenlänge L(γ) von γ und die Kurve selbst rektifizierbar .
~x(tN )
~x(tk )
|
{z
~x(tk−1 )
}
k~
x(tk )−~
x(tk−1 )k
~x(t0 )
~x(t1 )
Abbildung 4.44: Gesamtlänge eines einbeschriebenen Polygonzugs als Approximation an die Bogenlänge.
Da uns k~x˙ (t)k den Betrag der Geschwindigkeit zur Zeit t angibt, sollte dann
Z te
k~x˙ (t)k dt
ta
die insgesamt zurückgelegte Strecke sein. Diese Interpretation behalten wir auch für Kurven im Rm bei.
4.2 Berechnung der Bogenlänge. Ist ~x eine C 1 -Parametrisierung, so gilt mit dem Hauptsatz der
Differential- und Integralrechnung 2.5 und der Standardabschätzung für Integrale 1.18 (j)
Z te
N Z tk
N Z tk
N
X
X
X
˙
˙
~x(t) dt ≤
k~x(t)k dt =
k~x˙ (t)k dt.
Lt0 ,...,tN =
k~x(tk ) − ~x(tk−1 )k =
tk−1
tk−1
ta
k=1
k=1
k=1
R te
k~x˙ (t)k dt eine obere Schranke für die Gesamtlänge eines jeden der Kurve γ einbeschriebenen
Rt
Polygonzugs und γ ist damit rektifizierbar mit L(γ) ≤ e k~x˙ (t)k dt. Dass hierbei tatsächlich Gleichheit
Also ist
ta
ta
gilt, kann man mit etwas Beweisaufwand mathematisch sauber beweisen (siehe z.B. [Kön, Band 1, 12.2]),
uns soll das bisher Gesagte als Begründung genügen.
Fazit. Ist γ eine Kurve im Rm mit einer C 1 -Parametrisierung ~x : [c, d] → Rm , so ist γ rektifizierbar und
wir erhalten die Bogenlänge durch
Z d
L(γ) =
k~x˙ (t)k dt.
c
4.3 Beispiel: Bogenlänge der Zykloide. Die Bewegung eines fixierten Punktes auf einer abrollenden
Kreisscheibe mit Radius 1 (z.B. die Bahnkurve des Ventils an einem Fahrradreifen während der Fahrt)
wird durch die Zykloide
t − sin t
~x(t) :=
1 − cos t
176
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
beschrieben. Der Betrag der Geschwindigkeit zur Zeit t ist damit
s
r
2
1 − cos t q
t 1
−
cos
t
t
2
2
˙
= 2 sin .
k~x(t)k = =2
sin
= (1 − cos t) + sin t = 2
sin t
2
2
2
Für die vom Punkt bei einer Umdrehung der Kreisscheibe zurückgelegte Strecke L erhalten wir daher
2π
Z 2π
Z 2π
t
t ˙
2 sin dt = −4 cos = 8.
k~x(t)k dt =
L=
2
2 0
0
0
2
1
Π
2Π
Abbildung 4.45: Bogenlänge der Zykloide.
4.4 Invarianz der Bogenlänge unter Parametertransformationen. Die Bogenlänge hängt nicht
von der Parametrisierung der Kurve γ ab.
Das zeigt uns eine Anwendung der Substitutionsregel 3.4: Sind ~x : [c, d] → Rm und ~y : [C, D] → Rm
zwei C 1 -Parametrisierungen von γ, die durch einen C 1 -Parameterwechsel ϕ : [c, d] → [C, D] auseinander
hervorgehen, d.h. gilt ~x(t) = ~y (ϕ(t)) für t ∈ [c, d], ϕ(c) = C, ϕ(d) = D und ist ϕ streng monoton
wachsend, also insbesondere ϕ̇ ≥ 0, so folgt wie behauptet
Z d
Z d
Z d
Z d
Z D
d
˙
˙
˙
k~y (ϕ(t))ϕ̇(t)k dt =
k~x(t)k dt =
k~y (ϕ(t))kϕ̇(t) dt =
k~y˙ (τ )k dτ.
dt ~y (ϕ(t)) dt =
c
c
c
c
C
~y (d)
δ
4.5 Aneinanderhängen von Kurven. Für zwei Kurven
γ und δ im Rm für die der Endpunkt von γ mit dem
Anfangspunkt von δ übereinstimmt, ist anschaulich klar,
was die aneinandergehängte Kurve γ + δ sein soll.
γ
~x(c0 ) = ~y (d0 )
~x(c)
Formal erklären wir γ + δ auf folgende Weise durch Angabe einer Parameterdarstellung: Ist ~x : [c, c0 ] → Rm eine
Parametrisierung von γ und ~y : [d0 , d] → Rm eine von δ, so
können wir durch eine Verschiebung als Parametertransforc
c0 = d0
d
mation c0 = d0 erreichen und γ +δ durch ~z : [c, d] → Rm mit
0
0
~z(t) := ~x(t) für c ≤ t ≤ c und ~z(t) := ~y (t) für d < t ≤ d
Abbildung 4.46: Aneinanderhängen
parametrisieren. Nun ist auch klar, wie wir endlich viele
von Kurven.
Kurven aneinanderhängen.
Entsteht δ aus γ durch Umkehrung der Orientierung, d.h. ist t 7→ ~x(d + c − t), t ∈ [c, d], eine Parametrisierung von δ, so schreiben wir δ = −γ. Bei der Kurve γ − γ (das ist natürlich γ + (−γ)) laufen wir also
einmal vom Anfangspunkt von γ zum Endpunkt und wieder zurück.
4.6 Glatte und stückweise glatte Parametrisierungen. Eine Kurve γ heißt glatt, wenn sie eine
C 1 -Parameterdarstellung ~x : I → Rm besitzt. Falls hierbei ein Randpunkt des Intervalls I zu I gehört, so
bedeutet dies, dass dort die entsprechende einseitige Ableitung existiert. Wenn γ durch Aneinanderhängen
von endlich vielen glatten Kurven entsteht, so heißt γ stückweise glatt.
Bei glatten Kurven werden normalerweise nur Parameterwechsel der Klasse C 1 zugelassen. Mit einer
Parametrisierung sind dann alle von der Klasse C 1 .
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
177
Beispiel. Bei einer glatten Kurve können wir die Bogenlänge mit der Formel aus 4.2 berechnen. Bei einer
stückweise glatten Kurve müssen wir formal diese Formel auf die einzelnen glatten Teilkurven anwenden
und anschließend die Längen der Teilkurven addieren.
4.7 Reguläre Parametrisierungen. Eine glatte Kurve heißt regulär , wenn sie eine C 1 -Parametrisierung
~x : I → Rm mit ~x˙ (t) 6= ~0 für alle t ∈ I besitzt. Für eine stückweise glatte Kurve erklären wir analog, was
stückweise regulär bedeutet.
Beispiel. Die Existenz einer regulären Parametrisierung bedeutet, dass in jedem Punkt der Kurve eine
Tangente gebildet werden kann. Die Zykloide mit dem Parameterintervall [0, 4π] ist zwar glatt aber nicht
regulär (was passiert nämlich bei t = 2π?), aber stückweise regulär.
4.8 Parametrisierung in Bogenlänge. Eine glatte Kurve γ der Länge L mit Parametrisierung
~σ : [0, L] → Rm heißt in Bogenlänge parametrisiert, wenn k~σ˙ (s)k = 1. Man bezeichnet dann die Variable üblicherweise mit s.
Bei einer solchen Parametrisierung ~σ wird die Kurve mit einer Geschwindigkeit vom konstanten Betrag 1
durchlaufen. Für die im Zeitintervall [0, S] ⊂ [0, L] zurückgelegte Strecke LS gilt dann wie zu erwarten
Z S
Z S
LS =
k~σ˙ (s)k ds =
1 ds = S.
0
0
Jede stückweise reguläre Kurve kann in Bogenlänge parametrisiert werden.
Ist nämlich ~x : [c, d] → Rm eine reguläre Parametrisierung, so mache man sich klar, dass durch
Z t
ϕ(t) :=
k~x˙ (τ )k dτ
für t ∈ [c, d]
c
eine C 1 -Funktion ϕ : [c, d] → [0, L] definiert wird mit ϕ(c) = 0, ϕ(d) = L und ϕ̇ > 0. Damit ist ϕ ein
Parameterwechsel. Für die Parametrisierung ~σ := ~x ◦ ϕ−1 gilt dann mit der Formel für die Ableitung der
Umkehrfunktion §3.2.7 für t := ϕ−1 (s)
d
d
1
1
−1
= ~x˙ (ϕ−1 (s)) ϕ−1 (s) = ~x˙ (t)
= ~x˙ (t)
~
x
◦
ϕ
(s)
k~σ˙ (s)k = = 1.
ds
˙
ds
ϕ̇(t) k~x(t)k Damit erweist sich ~σ als Bogenlängenparametrisierung. Bei einer stückweise glatten Funktion zerlege
man das Parameterintervalle in endlich viele Teilintervalle, auf denen die Parametrisierung regulär ist
und schließe analog.
4.9 Tangenteneinheits- und Hauptnormalenvektor, Krümmung. Ist ~x : I → Rm eine reguläre
Parametrisierung einer Kurve, so gilt ~x˙ (t) 6= ~0 für alle t ∈ I. Der normierte Tangentenvektor
T~ (t) :=
1 ˙
~x(t)
˙
k~x(t)k
heißt Tangenteneinheitsvektor an der Parameterstelle t. Aus 1 = kT~ (t)k2 = hT~ (t)|T~ (t)i für alle t ∈ I
˙
˙
folgt durch Differenzieren mit der Produktregel §3.2.2 (f) sofort hT~ (t)|T~ (t)i = 0. Also steht T~ (t) auf T~ (t)
˙
senkrecht. Gilt T~ (t) 6= ~0, so nennen wir
~ (t) :=
N
1 ~˙
T (t)
˙
~
kT (t)k
den Hauptnormalenvektor an der Stelle t und
κ(t) :=
die Krümmung an der Parameterstelle t.
˙
kT~ (t)k
k~x˙ (t)k
178
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Ebenso wie die Bogenlänge sind diese drei Größen invariant gegenüber Parametertransformationen. In
Bogenlängenparametrisierung ~σ lassen sie sich am bequemsten ausrechnen. Dann gilt
T~ (s) = ~σ˙ (s),
~ (s) =
N
1 ¨
~σ (s),
¨
k~σ (s)k
κ(s) = kσ̈(s)k.
Das Reziproke 1/κ(σ) der Krümmung gibt den Radius des Krümmungskreises an. Das ist derjenige Kreis,
der die Kurve an der Parameterstelle t von zweiter Ordnung approximiert.
Beispiel. Wir illustrieren dies für die Schraubenlinie


cos s
1 
sin s 
~σ (s) = √
2
s
√
√
um die x3 -Achse mit Radius 1/ 2 und Ganghöhe 2π. Eine kurze
Rechnung zeigt
k~σ˙ (s)k2 =
T~ (s)
~ (s)
N
~σ (s)
1
(− sin s)2 + (cos s)2 + 1 = 1,
2
es liegt also Bogenlängenparametrisierung vor. Damit gilt


− sin s
1
T~ (s) = ~σ˙ (s) = √  cos s  ,
2
1
~ (s)
N
=


− cos s
1 ¨
~σ (s) =  − sin s  .
¨ (s)k
k~σ
0
Die Krümmung berechnen wir zu
κ(s)
¨ (s)k
= k~σ
1 p
1
= √
(− cos s)2 + (− sin s)2 + 0 = √ .
2
2
Abbildung 4.47: Tangenteneinheitsund Hauptnormalenvektor sowie
Krümmungskreis an eine Schraubenlinie im Punkt ~σ (s).
Damit hat√der Krümmungskreis an die Schraubenlinie zu jeder Parameterstelle s den konstanten Radius
1/κ(s) = 2.
4.10 Ebene Kurven: begleitendes Zweibein und Frenet-Formeln. Für eine Kurve in der Ebene
mit einer C 2 -Parametrisierung ~x : I → R2 können wir in jeder regulären Parameterstelle t mit nichtverschwindender Krümmung das Paar
~ (t)) =
(T~ (t), N
1
p
ẋ1 (t)2 + ẋ2 (t)2
!
ẋ1 (t)
1
−ẋ2 (t)
,p
ẋ2 (t)
ẋ1 (t)2 + ẋ2 (t)2 ẋ1 (t)
~ (t) haben
bestehend aus Tangenteneinheits- und Hauptnormalenvektor bilden. (Bei der Darstellung von N
~
~
~
wir hierbei kN (t)k = 1 und N (t) ⊥ T (t) verwendet.) Das liefert uns eine an die Kurve angepasste
Orthonormalbasis des R2 mit Koordinatenursprung in ~x(t). Diese so der Kurve „mitgeführte“ ONB nennen
wir begleitendes Zweibein.
179
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
In Bogenlängenparametrisierung ~σ hat das begleitende
Zweibein die einfache Gestalt
σ̇1 (s)
−σ̇2 (s)
~
~
T (s) =
,
N (s) =
.
σ̇2 (s)
σ̇1 (s)
Ähnlich wie in 4.9 erhalten wir aus hT~ (s)|T~ (s)i = 1 und
~ (s)|N
~ (s)i = 1 durch Differenzieren T~˙ (s) ⊥ T~ (s) und
hN
˙~
~ (s). Wegen N
~ (s) ⊥ T~ (s) muss damit T~˙ (s) ein
N (s) ⊥ N
~ (s) und N
~˙ (s) ein Vielfaches von T~ (s) sein.
Vielfaches von N
Im ersten Fall ist dieses Vielfache definitionsgemäß gerade
die Krümmung κ(s) Im zweiten erhält man aus den obigen
Beziehungen als Vielfaches dann −κ(s). Zusammen ergibt
dies die Frenet-Formeln
˙
~ (s),
T~ (s) = κ(s)N
~˙ (s) = −κ(s)T~ (s).
N
Abbildung 4.48: Begleitendes Zweibein zu einer C 2 -Kurve in der Ebene.
Ist also die Krümmung κ vorgegeben, so kann man durch Lösen dieses Systems von Differentialgleichungen die zugehörige Kurve berechnen. Eine ebene C 2 -Kurve ist daher bis auf Anfangsdaten durch ihre
Krümmung festgelegt.
4.11 Raumkurven: Binormale, begleitendes Dreibein. Analog können wir bei einer Kurve im Raum
mit einer C 2 -Parametrisierung ~x : I → R3 an jeder Parameterstelle mit nichtverschwindender Krümmung
Tangenteneinheits- und Hauptnormalenvektor durch den
Binomalenvektor
~
~ (t)
B(t)
:= T~ (t) × N
zu einem Rechtssystem
~ (t), B(t))
~
(T~ (t), N
~
ergänzen. (Warum ist B(t)
automatisch normiert?) Diese
positiv orientierte ONB mit Ursprung im Kurvenpunkt ~x(t)
heißt begleitendes Dreibein.
Abbildung 4.49: Begleitendes Dreibein
zu einer C 2 -Kurve im Raum.
4.12∗ Raumkurven: Torsion und Frenet-Formeln. Durch Differenzieren der Identität für die Bi~˙
~
normale kann man einsehen, dass B(t)
auf B(t)
und T~ (t) senkrecht steht, also ein skalares Vielfaches von
~ (t) sein muss.
N
Im Fall der Bogenlängenparametrisierung ~σ nennen wir dieses durch
~˙
~ (s)
B(s)
= −τ (s)N
definierte skalare Vielfache τ (s) die Torsion der Kurve in ~σ (s). Die Torsion gibt an, wie stark sich die
Kurve aus der durch die Tangente und die Hauptnormale aufgespannten Ebene „herauswindet“. Für eine
reguläre C 3 -Bogenlängenparametrisierung gilt dann
¨ (s)k
k~σ˙ (s) × ~σ
κ(s) =
,
k~σ˙ (s)k3
...
¨ (s), ~σ (s))
det(~σ˙ (s), ~σ
τ (s) =
.
¨ (s)k
k~σ˙ (s) × ~σ
180
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Das erhält man durch fleißiges Rechnen ebenso wie die Frenet-Formeln
˙
~ (s),
T~ (s) = κ(s)N
~˙ (s) = −κ(s)T~ (s) + τ (s)B(s),
~
N
~˙
~ (s).
B(s)
= −τ (s)N
Mit diesem System von Differentialgleichungen kann man für eine Kurve im Raum aus vorgegebener
Krümmung und Torsion die Kurve selbst berechnen.
4.13 Ausblick. Wir haben in diesem Abschnitt die grundlegenden Begriffe der Differentialgeometrie für
Kurven kennengelernt. Wer mehr wissen will, kann beispielsweise in [Kön, Band 1, 12], [FiKau, Band 3, §7]
oder [DaCa] nachschlagen.
5
Skalare und vektorielle Kurvenintegrale
5.1 Skalares Kurvenintegral. Für eine glatte Kurve γ im Rn mit Parametrisierung ~x : [c, d] → Rn und
ein Skalarfeld f , das mindestens auf der Spur von γ definiert und dort integrierbar ist, nennen wir
Z
Z d
f (~x) ds :=
f (~x(t))k~x˙ (t)k dt
γ
c
das skalare Kurvenintegral von f längs γ. Andere gebräuchliche Bezeichnungen sind
Z
Z
Z
f ds,
f (~x) dx,
f (~x) kd~xk.
γ
γ
γ
Ist γ stückweise glatt, d.h. ist ~x differenzierbar bis auf endlich viele Ausnahmepunkte t1 < . . . < tm ∈ [c, d],
in denen aber die einseitigen Ableitungen existieren, so erklären wir das skalare Kurvenintegral von f
längs γ durch
Z
Z t1
Z t2
Z d
˙
˙
f (~x) ds :=
f (~x(t))k~x(t)k dt +
f (~x(t))k~x(t)k dt + · · · +
f (~x(t))k~x˙ (t)k dt.
γ
c
t1
tm
Beispiel. Das skalare Kurvenintegral über das konstante Skalarfeld f = 1 längs einer Kurve γ ist gerade
das Integral für die Kurvenlänge von γ.
5.2 Invarianz unter Parametertransformationen. Ebenso wie für die Kurvenlänge beweist man:
Das skalare Kurvenintegral von f längs γ ist unabhängig von der Wahl der Parametrisierung von γ.
5.3 Interpretation des skalaren Kurvenintegrals. Ist γ in Bogenlänge ~σ : [0, L] → Rn parametrisiert, so berechnet sich das skalare Kurvenintegral von f längs γ wegen kσ̇(s)k = 1 einfach zu
Z
Z
f ds =
γ
L
f (γ)
f (~σ (s)) ds.
0
(Daher rührt auch die Bezeichnung
R
γ
f~σ (s))
f ds.)
Stellen wir uns also das Skalarfeld f als eine
Berg- und Tallandschaft über dem Rn vor, und
betrachten wir nur den über der Kurve γ liegenden Teil s 7→ f (~σ (s)) dieser Landschaft —
sozusagen die in das „Gebirge“ gelifteteR Kurve), so gibt das skalare Kurvenintegral γ f ds
die „Fläche“ zwischen der Kurve γ und ihrer
Liftung f (γ) an.
~
σ(0)
γ
~σ (s)
~
σ(L)
Abbildung 4.50: Interpretation des skalaren Kurvenintegrals.
181
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
5.4 Anwendungsbeispiel aus der Physik. Ein Drahtstück im Raum wird durch ~x : [0, L] → R3
modelliert. Hierbei gibt ~x(s) den Punkt auf dem Drahtstück an, der vom Anfangspunkt ~x(0) um s
Längeneinheiten entfernt ist. Der Draht ist also in Bogenlänge parametrisiert. Ist µ(~x) die Massendichte
des Drahts (Masse pro Längeneinheit) an der Stelle ~x, so ist
Z
L
Z
M=
µ ds =
γ
µ(~x(s)) ds
0
die Gesamtmasse des Drahts. Man schreibt für µ ds auch gerne dm. Durch
 
s1
~s := s2 
s3
1
mit sk :=
M
RL
Z
0
xk dm =
γ
xk (s)µ(~x(s)) ds
für k = 1, 2, 3
RL
µ(~x(s)) ds
0
wird dann der Schwerpunkt des Drahts angegeben. Das könnte man auch kurz in der Form
1
M
~s =
Z
~x dm =
γ
1
M
Z
µ(~x(s))~x(s) ds
γ
schreiben.
Das Trägheitsmoment des Drahts bezüglich einer durch g = {λ~v | λ ∈ R} parametrisierten Ursprungsgeraden errechnet sich mittels
Z
dist(~x, g)2 dm =
L
Z
γ
dist(~x(s), g)2 µ(~x(s)) ds,
0
wobei der Abstand dist(~x, g) des Punktes ~x zur Geraden g gemäß 3.§3.3.7 gegeben ist durch
dist(~x, g) = k~x − h~x|~v i~v k =
p
k~xk2 − h~x|~v i2 .
5.5 Rechenregeln. Sind γ und δ zwei aneinanderhängbare Wege im Rn und sind f und g zwei auf der
Spur von γ + δ integrierbare Skalarfelder, so gilt:
Z
Z
Z
(a) (Linearität bezüglich des Integranden) (λf + µg) ds = λ f ds + µ g ds für beliebige Zahlen λ, µ.
γ
γ
Z
Z
f ds =
(b) (Linearität bezüglich des Integrationswegs)
γ+δ
Z
−γ
Z
f ds.
δ
f ds.
γ
Z
f ds ≤
(d) (Monotonie)
f ds +
γ
Z
f ds =
(c) (Invarianz bei Umorientierung)
γ
Z
γ
g ds, falls f ≤ g auf der Spur von γ.
γ
Z
Z
(e) (Beschränktheit) f ds ≤
|f | ds ≤ M L(γ), falls f durch M auf der Spur von γ beschränkt ist.
γ
γ
Das folgt aus den Rechenregeln für Integrale 1.18 und der Definition 5.1 des skalaren Kurvenintegrals.
5.6 Motivation für das vektorielle Kurvenintegral. Auf einen Massenpunkt, der sich mit konstanter
Geschwindigkeit ~v bewegt, wirke eine konstante Kraft F~ . In der Zeitspanne ∆t hat der Massenpunkt die
Strecke ~x = ~v ∆t zurückgelegt und dabei die Arbeit hF~ |~xi = hF~ |~v i∆t verrichtet.
182
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Ist nun die Kraft nicht konstant und die Bewegung nicht geradlinig, so können wir die Bahnkurve γ durch einen Polygonzug approximieren. Auf den Teilstrecken nehmen wir den
Tangentenvektor an die Bahnkurve in einem geeigneten Zwischenpunkt als Approximation an die Geschwindigkeit sowie
die dort wirkende Kraft als konstante Approximation für die
auf dieser Teilstrecke wirkende Kraft. Die verrichtete Arbeit
wird dann durch
n
X
hF~ (~xk )|~vk i∆tk
γ
~x˙ (t)
F~ (~x(t))
k=1
approximiert. Nach einem Grenzübergang erhalten wir für die
Arbeit das Integral
Z
Abbildung 4.51: Arbeit längs eines
Weges.
d
hF~ (~x(t))|~x˙ (t)i dt.
c
5.7 Vektorielles Kurvenintegral. Für eine glatte Kurve γ im Rn mit Parametrisierung ~x : [c, d] → Rn
und ein Vektorfeld ~v , das mindestens auf der Spur von γ definiert und dort integrierbar ist, nennen wir
Z
Z
~v (~x) d~x :=
γ
d
h~v (~x(t))|~x˙ (t)i dt
c
das vektorielle Kurvenintegral von ~v längs γ. Andere gebräuchliche Bezeichnungen sind
Z
Z
Z
Z
~v (~x) • d~x,
~v • d~σ ,
h~v (~x)|d~xi,
v1 dx1 + · · · + vn dxn .
γ
γ
γ
γ
Falls γ nur stückweise glatt ist, erklären wir das vektorielle Kurvenintegral durch Aneinandersetzen für
die glatten Teilkurven.
Beispiel. Wir integrieren das Vektorfeld ~v (x, y) =
(x2 , xy) längs der beiden skizzierten Kurven, die beide
im Ursprung beginnen und im Punkt (1, 1) enden. Die
erste parametrisieren wir durch ~x1 (t) := (t, t), t ∈ [0, 1],
die zweite in zwei Teilstücken durch ~x21 (t) := (t, 0),
t ∈ [0, 1], und ~x22 (t) := (1, t − 1), t ∈ [1, 2]. Dann gilt
Z
Z
~v (~x) d~x =
x2 dx + xy dy
γ1
(1, 1)
1
γ1
γ2
γ1
1
2 t
1
h
|
i dt
t·t
1
0
1
Z 1
2 3 2
2
2t dt = t = ,
3
3
0
0
Z
=
=
Z
=
γ2
=
Abbildung 4.52: Zwei vektorielle Kurvenintegrale.
2 Z 2 0
t
1
12
|
i dt
h
|
i dt +
h
t
·
0
0
1
·
(t
−
1)
1
γ2
0
1
1
2
Z 1
Z 2
t3 t2 − 2t 5
t2 dt +
(t − 1) dt = +
= .
3 0
2
6
0
1
1
Z
~v (~x) d~x
1
x2 dx + xy dy =
Z
1
5.8 Beispiele aus der Physik. Die folgende Tabelle gibt einige wichtige physikalische Größen an, die
durch vektorielle Kurvenintegrale berechnet werden können.
183
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Vektorfeld
Kraftfeld
Geschwindigkeitsfeld
elektrische Feldstärke
infinitesimale Wärmeänderung
vektorielles Kurvenintegral
Arbeit
Zirkulation
elektrische Spannung
Wärmemenge
5.9 Invarianz unter Parametertransformationen. Das vektorielle Kurvenintegral von ~v längs γ ist
unabhängig von der Wahl der Parametrisierung von γ.
Physikalisch interpretiert bedeutet dies, dass es nicht auf die konkrete Durchlaufung der Kurve ankommt,
sondern nur auf das Kraftfeld und die Kurve selbst.
Beweis. Wir gehen wie beim Beweis für die Invarianz der Bogenlänge 4.4 vor und verwenden auch
dieselben Bezeichnungen.
Z d
Z d
d
h~v (~x(t))|~x˙ (t)i dt =
h~v (~y (ϕ(t)))| ~y (ϕ(t))i dt
dt
c
c
Z D
Z d
h~v (~y (τ ))|~y˙ (τ )i dτ.
h~v (~y (ϕ(t)))|~y˙ (ϕ(t))iϕ̇(t) dt =
=
C
c
5.10 Rechenregeln. Sind γ und δ zwei aneinanderhängbare Wege im Rn und sind ~v und w
~ zwei auf der
Spur von γ + δ integrierbare Vektorfelder, so gilt:
Z
Z
Z
(f) (Linearität bezüglich des Integranden) (λ~v + µw)
~ d~x = λ ~v d~x + µ w
~ d~x für bel. Skalare λ, µ.
γ
γ
Z
Z
~v d~x =
(g) (Linearität bezüglich des Integrationswegs)
~v d~x +
γ+δ
Z
γ
Z
γ
~v d~x.
δ
Z
~v d~x = −
(h) (Vorzeichenwechsel bei Umorientierung)
−γ
~v d~x.
γ
Z
Z
k~v k ds ≤ M L(γ), falls ~v durch M auf der Spur von γ beschränkt ist.
(i) (Beschränktheit) ~v d~x ≤
γ
γ
Das folgt aus den Rechenregeln für Integrale 1.18 und der Definition 5.7 des vektoriellen Kurvenintegrals.
6
Gradientenfelder, Rotation und Divergenz
6.1 Konservative Vektorfelder.
Ein Vektorfeld ~v : D ⊂ Rn → Rn heißt auf D konservativ oder exakt,
R
wenn das Kurvenintegral γ ~v (~x) d~x über beliebige stückweise glatte Kurven γ in D nur vom Anfangsund Endpunkt von γ, nicht aber vom übrigen Verlauf abhängt:
Z
Z
~v (~x) d~x =
~v (~x) d~x,
falls γ1 und γ2 gleichen Anfangs- und Endpunkt haben.
γ1
γ2
Für ein konservatives Vektorfeld dürfen wir das Kurvenintegral für eine Kurve von ~x1 nach ~x2 ohne
Angabe des Integrationswegs einfach mit
Z ~x2
~v (~x) d~x
~
x1
bezeichnen. Die folgende Aussage ist offensichtlich.
Ein Vektorfeld ~v ist genau dann auf D konservativ, wenn das Kurvenintegral längs jeder geschlossenen
stückweise glatten Kurve in D verschwindet.
Ist γ eine geschlossene Kurve, so schreibt man hierfür gerne
I
~v (~x) d~x = 0.
γ
2
Beispiel. Das Vektorfeld ~v (x, y) = (x , xy) aus 5.7 ist nicht konservativ.
184
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Die Wegunabhängigkeit des vektoriellen Kurvenintegrals bei konservativen Kraftfeldern hat vielfältige
Anwendungen in der Physik (Wegunabhängigkeit der Arbeit bei einem konservativen Kraftfeld, . . . ).
Beispiele für konservative Vektorfelder anzugeben fällt uns mit obiger Definition schwer. Wir müssten ja
für jede geschlossene Kurve in D zeigen, dass das vektorielle Kurvenintegral verschwindet. Wir schaffen
uns jetzt eine Abhilfe, um dieser umständliche Prozedur zu entgehen.
6.2 Potential. Sind u und ~v ein Skalar- und ein Vektorfeld mit demselben Definitionsbereich D ⊂ Rn ,
so heißt u ein Potential zu ~v , falls
für alle ~x ∈ D.
grad u(~x) = ~v (~x)
Hat ~v ein Potential, so nennen wir ~v auch ein Gradienten- oder Potentialfeld .
In der Physik verlangt man für ein Potential oft −∇u = ~v statt ∇u = ~v .
6.3 Charakterisierung von Gradientenfeldern. Für das Weitere ist der folgende Satz wichtig. Er
kann als eine Verallgemeinerung des Hauptsatzes der Differential- und Integralrechnung 2.5 angesehen
werden und liefert nicht nur eine nützliche Charakterisierung für konservative Vektorfelder, sondern gibt
für diese Felder auch eine einfache Möglichkeit, vektorielle Kurvenintegrale zu berechnen.
Ein stetiges Vektorfeld ~v auf einer offenen Menge D ⊂ Rn ist genau dann ein Gradientenfeld, wenn es
konservativ ist. Ist u : D → R ein Potential zu ~v , so gilt
Z
~v (~x) d~x = u(~x2 ) − u(~x1 )
γ
für jede stückweise glatte Kurve γ in D, die von ~x1 nach ~x2 läuft.
Beweis. Wir haben zwei Teilaufgaben zu bewältigen.
Jedes stetige Gradientenfeld ist konservativ. Wir haben also ein C 1 -Potential u : D → R zu ~v und müssen zeigen, dass zu vorgegebenem Anfangs- bzw. Endpunkt ~x1 bzw. ~x2 das Kurvenintegral längs einer
beliebigen Kurve in D, die von ~x1 nach ~x2 läuft, denselben Wert hat — nämlich u(~x2 ) − u(~x1 ).
Ist γ eine glatte Kurve und ist ~x : [c, d] → D eine C 1 -Parametrisierung von γ, so liefert die Kettenregel
(genauer gesagt ein Vorgriff auf 6.§1.3.2 (c))
d
u(~x(t))
dt
=
=
d
∂
∂
d
d
u(x1 (t), . . . , xn (t)) =
u(~x(t)) x1 (t) + · · · +
u(~x(t)) xn (t)
dt
∂x1
dt
∂xn
dt
n
X
∂
u(~x(t))ẋk (t) = h∇u(~x(t))|~x˙ (t)i = h~v (~x(t))|~x˙ (t)i.
∂xk
k=1
Mit dem Hauptsatz der Differential- und Integralrechnung 2.5 folgt nun
Z
Z d
Z d
d
~v (~x) d~x =
h~v (~x(t))|~x˙ (t)i =
u(~x(t)) dt = u(~x(d)) − u(~x(c)) = u(~x2 ) − u(~x1 ).
γ
c
c dt
Falls γ nur stückweise glatt ist, erhalten wir dies zunächst für die glatten Teilkurven und dann durch
Aneinanderhängen für die Kurve selbst.
Jedes konservative stetige Vektorfeld besitzt ein Potential. Wir wählen einen „Aufpunkt“ ~x0 ∈ D, definieren durch
Z ~x
u(~x) :=
~v (~y ) d~y
~
x0
ein Skalarfeld u : D → R und behaupten, dass u ein Potential zu ~v ist. Dazu müssen wir für jeden
Punkt ~x ∈ D zeigen, dass u partiell nach jeder der n Variablen differenzierbar ist mit der entsprechenden
Komponente von ~v (~x) als Ableitung. Wir fixieren ~x und ein k ∈ {1, . . . , n}. Da D offen ist, kann um ~x
eine Kugel und damit auch ein Würfel mit positivem Radius gelegt werden. Für alle h ∈ R genügend
185
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
nahe bei 0 liegt damit die Strecke zwischen ~x und ~x + h~ek in D. Mit der Konservativität von ~v , den
Rechenregeln 5.10 und dem Mittelwertsatz der Integralrechnung 1.26 folgt
Z ~x+h~ek
Z ~x
Z ~x+h~ek
Z h
u(~x + h~ek ) − u(~x) =
~v (~y ) d~y −
~v (~y ) d~y =
~v (~y ) d~y =
h~v (~x + t~ek )|~ek i dt
~
x0
h
~
x0
~
x
0
Z
=
vk (~x + t~ek ) dt = hvk (~x + θh~ek )
0
für ein θh zwischen 0 und h. Mit h → 0 gilt auch θh → 0. Da mit ~v auch die k-te Komponentenfunktion
vk in ~x stetig ist, liefert ein Grenzübergang nun die Existenz von
1
∂
u(~x) = lim (u(~x + h~ek ) − u(~x)) = lim vk (~x + θh~ek ) = vk (~x).
h→0 h
h→0
∂xk
6.4 Zur Eindeutigkeit von Potentialen, Gebiete. Ist f~ ein Gradientenfeld auf einem Gebiet D ⊂
Rn , so unterscheiden sich zwei Potentiale nur um eine Konstante. Unter einem Gebiet verstehen wir eine
offene und wegezusammenhängende Menge D ⊂ Rn . Ist D ein Gebiet, so lassen sich je zwei beliebige
Punkte in D durch eine Kurve verbinden, die D nicht verlässt.
Beispielsweise ist ein Kreis oder ein Kreisring wegezusammenhängend, die Vereinigung zweier disjunkter
Kreise dagegen nicht. Sie besteht aus zwei Zusammenhangskomponenten, nämlich den beiden Kreisen.
Abbildung 4.53: Beispiele für Gebiete im R2 bzw. im R3 .
Anmerkung. Das können wir als eine allgemeine Form der Eindeutigkeitssaussage im Hauptsatz der
Differential- und Integralrechnung ansehen: Hat f auf [c, d] eine Stammfunktion, so ist selbige bis auf
eine Konstante eindeutig bestimmt (vgl. 2.4). Das wird falsch, wenn wir [c, d] z.B. durch die Vereinigung
von zwei disjunkten Intervallen ersetzen. Dort können wir zu einer Stammfunktion auf jedem der beiden
Intervalle eine eigene Konstante addieren und erhalten wieder eine Stammfunktion. Ähnlich verhält es
sich in mehreren Variablen, wenn der Definitionsbereich nicht mehr zusammenhängend ist.
Beweis. Nach Differenzbildung genügt es zu zeigen, dass alle Potentiale zum Nullfeld auf einem Gebiet D
konstant sind. Dazu wählen wir einen Punkt ~x0 ∈ D und erhalten mit 6.3 für alle ~x ∈ D und jedes
R ~x
Potential u des Nullfeldes u(~x) − u(~x0 ) = ~x0 ~0 d~y = 0, d.h. u(~x) = u(~x0 ). Also ist u konstant.
6.5 Wichtige Gradientenfelder. Ist k : ]0, +∞[→ R eine stetige Funktion, so besitzt das auf dem
Rn r {~0} definierte Zentralfeld
~v (~x) =
k(k~xk)
~x,
k~xk
~x ∈ Rn r {~0},
ein Potential. (Die obige Darstellung ist so gewählt, dass k den Betrag von ~v (~x) angibt.)
Rr
Wählen wir für k auf ]0, +∞[ eine Stammfunktion K (beispielsweise K(r) := 1 k(ρ) dρ) und setzen wir
u(~x) := K(k~xk) für ~x ∈ Rn , so folgt
∂
∂
∂
1
2xk
k(k~xk)
u(~x) = K 0 (k~xk)
k~xk = k(k~xk)
(x1 2 + · · · + xn 2 )1/2 = k(k~xk)
=
xk ,
∂xk
∂xk
∂xk
2
k~xk
k~xk
d.h. grad u(~x) = ~v (~x).
186
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Damit sind insbesondere die für die Physik wichtigen Gravitationsfelder
1
~x
k~xkµ
mit einem µ > 0
oder Linearkombinationen von Verschiebungen hiervon konservativ.
6.6 Wann hat ein Vektorfeld ein Potential? Diese Frage ist zunächst nicht leicht zu beantworten. Die Auffinden eines Potentials erfordert offensichtlich ähnliche Kreativität wie das Bestimmen einer
Stammfunktion.
Man kann jedoch einfacher zu einer Antwort gelangen. Dafür ist folgender Preis zu zahlen: (i) Wir müssen
zwischen „hinreichend“ und „notwendig“ unterscheiden können. (ii) Wir dürfen bei einer Funktion nie den
Definitionsbereich vergessen.
Die Antwort hat dann die in den beiden folgenden Nummern vorgestellten zwei Teile.
6.7 Integrabilitätsbedingung für Gradientenfelder. Besitzt C 1 -Vektorfeld ~v ein Potential, so gilt
∂
∂
vk =
vl
∂xl
∂xk
für k, l = 1, . . . , n.
Bedingungen verletzt, so ist ~v
Ist in irgend einem Punkt des Definitionsbereichs von ~v eine dieser n(n−1)
2
schon nicht konservativ. Vektorfelder, die die Integrabilitätsbedingung erfüllen, heißen rotationsfrei . Dies
ist eine notwendige Bedingung für die Existenz eines Potentials.
Beweis. Ist ~v ein C 1 -Gradientenfeld, so ist das Potential u von der Klasse C 2 und es gilt
∂
∂ ∂u
∂2u
vk =
=
∂xl
∂xl ∂xk
∂xl ∂xk
und
∂
∂ ∂u
∂2u
vl =
=
.
∂xk
∂xk ∂xl
∂xk ∂xl
Wie schon in §3.7.3 angedeutet und dann in 6.§1.2.4 bewiesen, stimmen für eine C 2 -Funktion die gemischten partiellen Ableitungen zweiter Ordnung überein, sofern nach denselben Variablen differenziert wird.
Hieraus folgt die Integrabilitätsbedingung.
Beispiel. Das Feld ~v (x, y) = (x2 , xy) aus 5.7 ist nicht rotationsfrei: ∂x v2 (x, y) = y 6= ∂y v1 (x, y) = 0.
1
2
Dagegen erfüllt das Rotationsfeld w(x,
~
y) := x2 +y
2 (−y, x) auf dem R r {(0, 0)} die Integrabilitätsbe2
2
dingung: ∂x w2 (x, y) = yx2−x
~ auf der punktierten Ebene kein Potential
+y 2 = ∂y w1 (x, y). Trotzdem kann w
haben. Eine kurze Rechnung zeigt nämlich, dass das Kurvenintegral von w
~ längs der einmal durchlaufenen
Einheitskreislinie nicht verschwindet. (Man rechne das selbst aus.)
6.8 Poincaré-Lemma (für Sterngebiete). Erfüllt ein C 1 -Vektorfeld die Integrabilitätsbedingung und
ist es auf einem Sterngebiet definiert, so existiert ein Potential. Unter einem Sterngebiet wollen wir
hierbei eine offene Teilmenge D ⊂ Rn verstehen, die einen „Sternpunkt“ ~a ∈ D besitzt, so dass für jedes
~x ∈ D die Verbindungsstrecke von ~x mit ~a ganz in D liegt.
Sterngebiete
keine
Sterngebiete
Abbildung 4.54: Beispiele für Sterngebiete im R2 bzw. im R3 .
Die Antwort auf die Frage nach der Konservativität eines Vektorfeldes liegt also überraschender Weise im
Definitionsbereich des Feldes verborgen! Die obige Antwort ist nicht die vollständige Wahrheit. Es gibt
187
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
eine noch größere Gebietsklasse (die sogenannten einfach zusammenhängenden Gebiete), für welche die
Integrabilitätsbedingung nicht nur notwendig, sondern auch hinreichend für die Exsistenz eines Potentials
ist. Auf Details wollen wir hier aber nicht eingehen und auch das Poincaré-Lemma nicht beweisen. (Bei
Interesse lese man z.B. [FiKau, Band 1, §24.5] oder [Kön, Band 2, 5.4].)
nicht einfach
zusammenhängend
einfach zusammenhängend
Abbildung 4.55: Einfach und nicht einfach zusammenhängende Gebiete im R2 bzw. im R3 .
Beispiel. Kugeln, Quader und Würfel sind Sterngebiete. Jeder Winkelraum in der Ebene und jeder
Kegel im Raum (auch einer zu einem überstumpfen Winkel) ist ein Sterngebiet. Die punktierte Ebene
R2 r {(0, 0)} dagegen ist keines. Darum ist das Poincaré-Lemma dort auch nicht auf das Rotationsfeld
w
~ aus 6.7 anwendbar. Da aber die längs der negativen x-Achse geschlitzte Ebene R2 r {(x, 0) | x ≤ 0}
ein Sterngebiet ist, hat w
~ dort ein Potential. Durch Nachrechnen verifiziere man das beispielsweise für
u(x, y) = arcsin √ 2y 2 .
x +y
2
5
0
2.5
-2
-5
0
-2.5
-2.5
0
2.5
5
Abbildung 4.56: Das Rotationsfeld w(x,
~
y) =
1
x2 +y 2 (−y, x)
-5
und sein Potential u(x, y) = arcsin √
y
x2 +y 2
auf der geschlitzten Ebene.
6.9 Praktische Bestimmung von Potentialen. Ist ~v (x, y) = (p(x, y), q(x, y)) ein ebenes Vektorfeld,
definiert auf einem achsenparallelen Rechteck D (das kann der ganze R2 sein), und sind die Integrabilitätsbedingungen ∂y p = ∂x q dort erfüllt, so erhalten wir ein Potential u wie folgt:
(i) Wir halten y fest und bestimmen eine Stammfunktion x 7→ P (x, y) für x 7→ p(x, y), d.h. wir finden
ein P mit ∂x P (x, y) = p(x, y). Die allgemeine Lösung u von ∂x u(x, y) = p(x, y) enthält noch eine
Integrationskonstante Q(y), ist also von der Form u(x, y) = P (x, y) + Q(y).
(ii) Damit u auch die Gleichung ∂y u(x, y) = q(x, y) erfüllt, muss für Q gelten Q0 (y) = q(x, y)−∂y P (x, y).
Die rechte Seite hängt hierbei wegen der Integrabilitätsbedingung nicht von x ab, es gilt nämlich
∂x (q − ∂y P ) = ∂x q − ∂x ∂y P = ∂x q − ∂y ∂x P = ∂x q − ∂y p = 0. Sobald wir also eine Stammfunktion
Q für r(y) = q(x, y) − ∂y P (x, y) gefunden haben, so ist durch u(x, y) = P (x, y) + Q(y) ein Potential
u gegeben.
Für räumliche Vektorfelder kann man analog vorgehen.
188
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
Beispiel. Potential zu w(x,
~
y) =
1
x2 +y 2 (−y, x)
p(x, y) =
in der rechten Halbebene H = {(x, y) ∈ R2 | x > 0}, d.h.
−y
,
x2 + y 2
q(x, y) =
x
x2 + y 2
(vgl. 6.7 und 6.8). Wie in 6.7 gezeigt ist w
~ rotationsfrei. Durch Integration erhalten wir zunächst
Z
Z
y
−y
dx = arctan ,
P (x, y) = p(x, y) dx =
x2 + y 2
x
wobei arctan(y/x) auf H tatsächlich definiert ist, da dort x 6= 0 gilt. Dies liefert uns den Ansatz u(x, y) =
P (x, y)+Q(y) mit einer noch zu bestimmenden Funktion Q(y), die q(x, y) = ∂y u(x, y) = ∂y P (x, y)+Q0 (y)
erfüllen muss, d.h.
Z
Z
Z x
x
−
dy
=
0 dy.
Q(y) = (q(x, y) − ∂y P (x, y)) dy =
x2 + y 2
x2 + y 2
Also ist Q(y) konstant und wir können z.B. Q(y) = 0 wählen. Damit ist u(x, y) = arctan(y/x) das (bis
auf eine Konstante) eindeutig bestimmte Potential zu w
~ in der Halbebene H. Schreiben wir das mit Hilfe
der Identität
y
y
für (x, y) ∈ H
arctan = arcsin p
2
x
x + y2
um, so erhalten wir sogar ein Potential auf der geschlitzten Ebene R2 r {(x, 0) | x ≤ 0} (vgl. 6.8), da
der Term rechts auch dort noch definiert und differenzierbar ist. Auf die punktierte Ebene R2 r {(0, 0)}
können wir das nicht übertragen, da dann die Stetigkeit verloren geht. (Aus 6.7 wissen wir auch, dass wir
dort kein Potential finden werden.)
6.10 Zusammenfassung. Wir fassen unsere bisherigen Beobachtungen für ein Vektorfeld ~v auf D ⊂ Rn
zusammen:
I
Z
Z
Def.
~v (~x) d~x
⇐⇒
~v (~x) d~x = 0
~v (~x) d~x =
~v konservativ
⇐⇒
γ
γ2
γ1
(Wegunabhängigkeit der Arbeit)
(Energieerhaltung)
m (Charakterisierung 6.7)
~v ist ein Gradientenfeld
Def.
⇐⇒
Z
~
x
~v = grad u, u(~x) =
~v (~y ) d~y
~
x0
⇓ immer
⇑ D Sterngebiet oder einfach zusammenhängend (Poincare-Lemma 6.8)
Def.
⇐⇒
~v erfüllt Integrabilitätsbedingungen
∂xk vl = ∂xl vk
Achtung. Die Integrabilitätsbedingung ist i.A. nur notwendig und nicht hinreichend für die Existenz
eines Potentials. Das wird gerne übersehen!
6.11 Rotation, Divergenz und Laplace-Operator. Für ein C 1 -Vektorfeld ~v : D ⊂ Rn → Rn erklären
wir die Divergenz durch
∂v1
∂vn
div ~v :=
+ ··· +
.
∂x1
∂xn
Wir nennen dieses Skalarfeld die Quelldichte von ~v und schreiben hierfür auch ∇ • ~v . So kann man
sich die Divergenz suggestiv als „Skalarprodukt“ des Nabla-Operators (∂x1 , . . . , ∂xn ) mit dem Vektorfeld
~v = (v1 , . . . , vn ) merken. Gilt div ~v = 0, so heißt ~v divergenzfrei .
Für ein C 2 -Skalarfeld u : D ⊂ Rn → R nennen wir
∆u :=
∂2u
∂2u
+
·
·
·
+
∂x1 2
∂xn 2
den Laplace-Operator von u. Manchmal wird ∇2 u geschrieben oder ∆ durch −∆ ersetzt. Ein Skalarfeld
u, das die Potentialgleichung ∆u = 0 (d.h. ∆u(~x) = 0 für alle ~x ∈ D) erfüllt, heißt harmonisch.
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
189
Ist ~v : D ⊂ R3 → R3 ein C 1 -Vektorfeld im Raum, so wird die Rotation definiert durch


∂x2 v3 − ∂x3 v2
rot ~v := ∂x3 v1 − ∂x1 v3  .
∂x1 v2 − ∂x2 v1
Das Vektorfeld rot ~v heißt auch Wirbeldichte von ~v , im Angelsächsischen wird dafür curl ~v geschrieben. Im
Nabla-Kalkül ist die Schreibweise ∇ × ~v gebräuchlich, die sich als „Kreuzprodukt“ des Nabla-Operators
(∂x1 , ∂x2 , ∂x3 ) mit dem Vektorfeld ~v = (v1 , v2 , v3 ) in der Form
~e1
~e2
~e3 rot ~v = ∂x1 ∂x2 ∂x3 = (∂x2 v3 − ∂x3 v2 )~e1 + (∂x3 v1 − ∂x1 v3 )~e2 + (∂x1 v2 − ∂x2 v1 )~e3
v1
v2
v3 merken lässt. Ein Vektorfeld mit rot ~v = ~0 heißt wirbelfrei .
Diese drei Differentialoperatoren spielen zusammen mit dem Gradienten eine fundamentale Rolle in der
Mathematischen Physik, insbesondere in der Kontinuums- und Strömungsmechanik sowie der Elektodynamik.
6.12 Wichtige Beziehungen zwischen Gradient, Divergenz und Rotation im R3 . Die Integrabilitätsbedingung 6.7 für ein Vektorfeld ~v im Raum können wir jetzt knapp in der Form rot ~v = ~0 schreiben
und erhalten für ein Gradientenfeld u die Beziehung
rot grad u = ~0.
Das bedeutet: ein Gradientenfeld ist wirbelfrei.
Diese Formel hätte man natürlich auch durch Rechnen nachprüfen können, ebenso wie die Beziehung
div rot ~v = 0,
die besagt: ein Rotationsfeld ist divergenzfrei.
6.13 Zur Interpretation von Gradient, Divergenz und Rotation. Eine tragfähige Interpretation
des Gradienten als Richtung des stärksten Anstiegs eines Skalarfeldes lernen wir 6.§1.3.5 kennen, sobald
wir erklärt haben, was die Ableitung einer Funktion mehrerer Variablen ist. Divergenz und Rotation eines
Vektorfeldes werden wir erst im Rahmen der Vektoranalysis 6.§3 vollständig verstehen. Vorerst glauben
wir den folgenden Interpretationen.
Stellen wir uns ein Vektorfeld ~v als eine Strömung vor, wobei ~v (~x) den Betrag und die Richtung der Strömungsgeschwindigkeit an der Stelle ~x angibt, so besagt Wirbelfreiheit, dass ein kleines (Untersee-)Boot
sich nicht um seine Achse drehen wird, wenn es der Strömung folgt. Divergenzfreiheit besagt, dass ein
kleiner Ölfleck vielleicht seine Form, aber nicht seine Größe (Fläche bei einem zweidimensionalen Fluss,
Volumen bei einem dreidimensionalen) ändern wird, wenn er sich mit der Strömung bewegt. Im Allgemeinen gibt rot ~v (~x) Richtung und Winkelgeschwindigkeit der an der Stelle ~x auf das Boot wirkenden
Drehbewegung an, div ~v (~x) die Größenänderung des Ölflecks.
Beispiel. Für die beiden auf dem R3 bzw. dem R3 r Span(~e3 ) (dem R3 außer der z-Achse) definierten
Vektorfelder


 
y
− x2 +y
−y
2
1
x

~v (x, y, z) =  x2 +y
~v (x, y, z) :=  x  ,
w(x,
~
y, z) := 2
2
x + y2
0
0
berechnen wir
 
0
rot ~v (x, y, z) = 2~e3 = 0 ,
2
 
0
rot w(x,
~
y, z) = ~0 = 0 .
0
Also ist w
~ rotationsfrei, während ~v an jedem Punkt eine Drehbewegung um die z-Achse bewirkt.
190
§4. INTEGRALRECHNUNG IN EINER VARIABLEN
y
x
(− x2 +y
2 , x2 +y 2 , 0)
(−y, x, 0)
Abbildung 4.57: Ein Rotationsfeld und ein rotationsfreies Vektorfeld im R3 (Blick auf die (x, y)-Ebene).
Achtung. Wie das Beispiel zeigt, kann der Begriff „rotationsfrei“ zu Verwirrung führen. Ein rotationsfreies Vektorfeld kann sehr wohl geschlossene Flusslinien haben.
Beispiel. Wir berechnen für die beiden auf dem R2 definierten Vektorfelder
−y
x
~v (x, y) :=
,
w(x,
~
y) :=
x
x+y
jeweils die Divergenz und erhalten
div ~v (x, y) = 0,
div w(x,
~
y) = 2.
Also ist ~v divergenzfrei, w
~ dagegen nicht.
~v (x, y) :=
w(x,
~
y) :=
−y
x
x
x+y
Abbildung 4.58: Ein divergenzfreies Vektorfeld und ein Wirbelfeld im R2 .
6.14 Weitere Identitäten zwischen Gradient, Divergenz, Rotation und Laplace-Operator
Durch fleißiges Nachrechnen verifiziert man die folgenden (unter geeigneten Differenzierbarkeitsvoraussetzungen gültigen) Beziehungen:
(a) div(u~v ) = hgrad u|~v i + u div ~v ,
(b) rot rot ~v = grad div ~v − ∆~v ,
(c) div(~v × w)
~ = hrot ~v |wi
~ − h~v | rot wi,
(d) rot(u~v ) = (grad u) × ~v + u rot ~v ,
(e) rot(~v × w)
~ = (div w)~
~ v − (div ~v )w
~ + (w
~ • ∇)~v − (~v • ∇)w.
~
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
§5
1
191
Elementar lösbare gewöhnliche Differentialgleichungen
Einführung
1.1 Vorrede: statische und dynamische Systeme. In den vorangegangenen Kapiteln haben wir Methoden zum Lösen von Gleichungen kennengelernt. Einfache Gleichungen wie x2 + 5x − 2 = 0 lassen sich
mit rein algebraischen Mitteln aus Kapitel 1 lösen. Im Allgemeinen muss man sich mit Existenz- und Eindeutigkeitsaussagen sowie Näherungsverfahren begnügen. Eine Monotonieüberlegung zeigt beispielsweise,
dass die Gleichung xex = 1 genau eine reelle Lösung besitzt, selbige kann mit dem Newton-Verfahren
§3.6.1 näherungsweise bestimmt werden.
Gleichungen mit Parametern führen auf den Funktionsbegriff, die Abhängigkeit der Lösung vom Parameter auf Begriffe wie Stetigkeit und Differenzierbarkeit. Oft ist man nicht an einer vollständigen
Beschreibung der Lösung interessiert — meist ist das zu aufwendig oder gar nicht möglich — sondern an
ihren charakteristischen Eigenschaften (wie z.B. Existenz, Eindeutigkeit, Monotonie, Extremalstellen).
So führt das Lösen der Gleichung x2 = t auf die Wurzelfunktion (vgl. 1.§2.2.4).
Eine Differentialgleichung (abgekürzt DGL) ist nun — kurz gesagt — eine Gleichung zwischen einer
gesuchten Funktion, einigen ihrer Ableitungen und ihrem Argument.
Fazit. Eine durch eine Gleichung f (t, x) = 0 beschriebene Funktion x ist das mathematische Modell eines
statischen Systems. Der Systemzustand x hängt nur von der Eingabe t ab. Eine durch eine Differentialgleichung f (t, x, ẋ, ẍ, . . . , x(r) ) = 0 beschriebene Funktion x ist das mathematische Modell eines dynamischen
Systems. In einem dynamischen System beeinflussen sich die Eingabe t, der aktueller Systemzustand x,
dessen Änderung ẋ und die höheren Ableitungen ẍ, . . . , x(r) von x gegenseitig.
1.2 Was ist eine DGL? Wir benutzen die Begriffe „Differentialgleichung“ und „dynamisches System“
synonym. Da die unabhängige Variable gerne als Zeit interpretiert wird, verwenden wir für sie das Symbol t
und für die Ableitung nach dieser Variablen den Punkt „ ˙ “. Damit ist x(t) der Zustand des Systems zur
Zeit t und ẋ(t) seine Änderung. Wir betrachten hier nur den Fall, dass x eine differenzierbare Funktion
einer reellen Veränderlichen ist. (Wird komplexe Differenzierbarkeit zu Grunde gelegt, so muss man
Methoden der Funktionentheorie verwenden, hängt x von mehreren reellen Veränderlichen ab, so benötigt
man die Theorie partieller Differentialgleichungen.) Oftmals ist der Systemzustand nicht ein- sondern
mehrdimensional, man denke an die Mechanik, wo ~x(t) den Ort eines Teilchens im R3 zur Zeit t angibt,
oder sogar aus dem R6k stammt, um die Orts- und Impulskomponenten eines k-Teilchen-Systems zu
beschreiben.
Gehen in eine DGL Ableitungen bis einschließlich r-ter Ordnung ein, so sprechen wir, von einer DGL
r-ter Ordnung. Ist der Systemzustand x nicht ein- sondern n-dimensional, so sprechen wir von einem
DGL-System der Dimension n.
1.3 Explizite DGL erster Ordnung. Im einfachsten Fall hat ein dynamisches System die Form
ẋ = F (t, x)
bzw.
~x˙ = F~ (t, ~x),
d.h. es geht nur die erste Ableitung ein und die Gleichung f (t, x, ẋ) = 0 kann nach ẋ aufgelöst werden.
Wir sprechen dann von einem expliziten System erster Ordnung.
Jede DGL lässt sich in ein explizites System erster Ordnung umschreiben. Wie das geht, macht das
folgende Beispiel klar: In einer Schwingungsgleichung
LI¨ + RI˙ +
1
I = U̇ (t)
C
für den Stromfluss I in einen RCL-Kreis mit angelegter Wechselspannung U ersetzen wir den von der
physikalischen Beschreibung motivierten eindimensionalen Systemzustand I durch
I(t)
x1 (t)
~x(t) =
:= ˙
x2 (t)
I(t)
192
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
und erhalten
~x˙ =
I˙
=
˙
I¨
−R
LI −
I˙
1
LC I +
und damit als zugehöriges explizites System erster Ordnung
ẋ1
x2
=
R
1
−
x
−
ẋ2
2
LC x1 +
| {z } | L
{z
=~
x˙
~ (t,~
=:F
x)
,
1
L U̇ (t)
.
1
L U (t)
}
Im Allgemeinen führt man bei einer k-dimensionalen DGL r-ter Ordnung dann r Hilfsvariablen für den
Zustand und seine Ableitungen bis zur (r − 1)-ten ein, löst nach der r-ten Ableitung auf und erhält ein
kr-dimensionales explizites System erster Ordnung.
Vom mathematischen Standpunkt aus genügt daher die Betrachtung solcher Systeme. Man spricht von
der Universalität expliziter Systeme erster Ordnung.
1.4 Was ist eine Lösung einer DGL? Unter einer Lösung der DGL ẋ = F (t, x) verstehen wir eine
auf einem Intervall I ⊂ R definierte differenzierbare Funktion x : I → R mit
ẋ(t) = F (t, x(t))
für alle t ∈ I.
Hierbei muss natürlich die rechte Seite F der Differentialgleichung einen Definitionsbereich besitzen, der
(t, x(t)) für alle t ∈ I enthält, so dass der Einsetzungsprozess F (t, x(t)) Sinn ergibt.
1.5 Richtungsfeld einer DGL. Geometrisch interpretiert liefert die rechte Seite F (t, x(t)) die Steigung
des Graphen der gesuchten Funktion x im Punkt (t, x(t)). Ist also die Lösungskurve im Punkt (t, x(t)) „angekommen“, so wird sie dort mit der Steigung F (t, x(t)) „weitergeschickt“. Die DGL „dirigiert“ sozusagen
die Lösungskurve mittels ständiger „Richtungsanweisungen“.
Wir können daher die DGL ẋ = F (t, x) „graphisch lösen“, indem wir das Richtungsfeld F zeichnen und
die zugehörige Lösungskurve so einpassen, dass die Steigung der Tangente der Kurve in jedem Punkt mit
der durch F vorgegebenen Steigung übereinstimmt.
x
x
x0
t0
t
t0
t
x0
F (t, x) = t + x2
F (t, x) = x − t + 1
Abbildung 4.59: Zwei Beispiele für ein Richtungsfeld F : D ⊂ R2 → R und den Graph einer Lösung eines
Anfangswertproblems ẋ = F (t, x), x(t0 ) = x0 .
1.6 Was ist ein Anfangswertproblem? Offensichtlich müssen wir bei dem eben geschilderten Vorgehen einen Startpunkt im Richtungsfeld auswählen. Ein dynamisches System besitzt also also in der Regel
keine eindeutig bestimme Lösung, sondern eine Schar von Lösungen. Wir hoffen aber, dass wir durch
Vorgabe einer „Anfangsbedingung“ eine Lösung auswählen können, d.h. dass das Anfangswertproblem
(abgekürzt AWP)
ẋ(t) = F (t, x),
x(t0 ) = x0 ,
zu einer vorgegebenen Anfangsbedingung (t0 , x0 ) im Definitionsbereich von F eindeutig lösbar ist.
193
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1.7 Anmerkung zu Lösungen. Sobald bei der Modellierung eines physikalischen oder technischen Problems eine DGL ins Spiel kommt, gehen wir im Alltag automatisch davon aus, dass die Lösung
• existiert,
• eindeutig bestimmt ist,
• „lebt“ solange das System lebt.
Letztlich unterstellen wir dabei, dass sich die Natur deterministisch verhält und glauben an die Ewigkeit.
Tatsächlich verhält es sich anders herum: erst wenn wir Existenz und Eindeutigkeit der Lösung eines
AWPs mathematisch sichergestellt haben, können wir der Natur (oder genauer: unserer Modellbildung)
Determinismus unterstellen. Die Frage nach der „maximalen Lebensdauer“ einer Lösung sollte ebenfalls
von der Theorie beantwortet werden. Hierzu stellt die Mathematik einige klassische Sätze bereit.
Der Existenzsatz von Peano besagt, dass jedes AWP ẋ = F (t, x) mit einer stetigen rechten Seite F
lösbar ist, der Existenz- und Eindeutigkeitssatz von Picard-Lindelöf liefert auch die Eindeutigkeit, sofern F bezüglich x (bei mehrdimensionalen Systemem bezüglich jeder Komponenten von ~x) stetig partiell
differenzierbar ist. Die Frage nach der Lebensdauer einer Lösung ist kitzlig, der Satz von Picard-Lindelöf
beispielsweise garantiert nur eine Mindestlebensdauer, die sich aus den Startwerten und der rechten Seite
ablesen lässt.
Auf Details der umfangreichen Theorie über Differentialgleichungen werden wir hier nicht eingehen. Für
den Rest dieses Paragraphen interessiert uns die wichtigsten Typen explizit lösbarer Differentialgleichungen. Einer ist uns schon aus §3.6.6 bekannt: die lineare DGL erster Ordnung mit konstanten Koeffizienten.
Diese hat im homogenen Fall die Form ẋ = ax, im inhomogenen ẋ = ax + b mit Koeffizienten a, b. In
§3.6.6 haben wir die Lösungen explizit angegeben und gesehen, dass die auf ganz R „leben“.
In den folgenden Abschnitten werden wir auch Fälle kennenlernen, in denen die Lösung eines AWPs nicht
eindeutig bestimmt ist oder nur ein endliches Existenzintervall besitzt.
2
Differentialgleichungen mit getrennten Variablen
2.1 Idee der Trennung der Variablen. Eine DGL des Typs
ẋ = c(t)g(x)
mit stetigen Funktionen c und g heißt DGL mit getrennten Variablen. Eine solche DGL kann man folgendermaßen lösen: Ist x : I → R eine Lösung von ẋ = c(t)g(x) mit g(x(t)) 6= 0 für t ∈ I, so gilt
c(τ ) =
ẋ(τ )
g(x(τ ))
für alle τ ∈ I.
Nach Integration erhalten wir zur Anfangsbedingung x(t0 ) = x0 mit der Substitutionsregel für Integrale
Z
t
Z
t
c(τ ) dτ =
t0
t0
ẋ(τ )
dτ =
g(x(τ ))
Z
x(t)
x0
dζ
.
g(ζ)
Sind C bzw. G Stammfunktionen von c bzw. von 1/g mit C(t0 ) = 0 = G(x0 ), so gilt
C(t) = G(x(t))
Wegen G0 (x0 ) = 1/g(x0 ) 6= 0 ist G in einer Umgebung von x0 streng monoton. Dort können wir G
invertieren und erhalten
x(t) = G−1 (C(t))
für t in einem Intervall um t0 .
Durch Einsetzen verifizieren wir, dass wir so wirklich eine Lösung gefunden haben.
194
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
2.2 Worauf muss man aufpassen? Trennung der Verfahren funktioniert nur, wenn g(x0 ) 6= 0. Dann
folgt nämlich für den oben gefundenen Lösungskandidaten wegen Stetigkeit auch g(x(t)) 6= 0 für alle
Zeiten t, die genügend nahe bei der Startzeit t0 liegen und die obige Integration gelingt. Über das Existenzintervall der Lösung des AWP erfährt man erst etwas im Laufe der Rechnung. In der Praxis wendet
man dieses Lösungsverfahren daher gerne formal an und macht anschließend eine Probe. Was im Fall
g(x0 ) = 0 passieren kann, erfahren wir im Beispiel 2.6.
Gelingt eine Trennung der Variablen, so hat man ein dynamisches System in ein statisches übergeführt,
d.h. eine Gleichung für die Lösungsfunktion gefunden. Oftmals kann man diese Gleichung nicht explizit
lösen, sondern muss Näherungstechniken zum Lösen nichtlinearer Gleichungen einsetzen (siehe Satz über
implizite Funktionen 6.§1.6.4).
2.3 Anwendungsbeispiel: logistische DGL. Das Bevölkerungswachstum in einer beschränkten Umgebung wird durch die logistische DGL
ẋ = cx(1 − x)
mit einem Wachstumskoeffizienten c > 0
beschrieben (man vergleiche mit dem diskreten Fall in 1.§2.3.2). Hierbei gibt x den Anteil an der Maximalbevölkerung an und nimmt daher sinnvoller Weise Werte in [0, 1] an. Für x nahe bei 0 gilt ẋ ≈ cx und
das Wachstum ist im Wesentlichen proportional zu x, für x nahe bei 1 gilt ẋ ≈ 0 und es tritt praktisch
kein Wachstum ein. Dieses Modell wird nicht nur in der Biologie angewendet, es beschreibt auch die
Verbreitung von Gerüchten oder autokatalytische chemische Reaktionen.
Zur Lösung des Anfangswertproblems
ẋ = cx(1 − x),
x(0) = x0 ,
mit einem Startwert x0 ∈]0, 1[ machen wir für x ∈]0, 1[ eine Trennung der Variablen
c=
ẋ(t)
x(t)(1 − x(t))
und erhalten nach Integration
Z
ct =
t
Z
c dτ =
0
0
t
ẋ(τ )
dτ =
x(τ )(1 − x(τ ))
Z
x(t)
x0
x(t)
x0
1
dζ = ln
− ln
.
ζ(1 − ζ)
1 − x(t)
1 − x0
Diese Gleichung für die Lösungsfunktion x(t) liefert nach kurzer Rechnung
x(t) = 1
x0
1
.
− 1 e−ct − 1
Offensichtlich ist x(t) für alle t ∈ R definiert und Lösung der Differentialgleichung.
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
c = 0.3
5
10
15
20
c = 0.6
5
10
15
Abbildung 4.60: Lösungen der logistischen Differentialgleichung ẋ = cx(1 − x).
20
195
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Für die Startwerte x0 = 0, 1 können wir keine Trennung der Variablen machen (warum?). Dann gilt aber
ẋ = 0 und wir erhalten die konstanten Lösungen x(t) = 0 bzw. x(t) = 1 für t ∈ R.
Wegen limt→+∞ x(t) = 1 für x0 ∈]0, 1] nähert sich die Populationsdichte in diesem Modell asymptotisch
dem Maximalwert an. Ihr charakteristischer S-förmiger Verlauf kann in der Natur häufig beobachtet
werden, wenn eine Art einen neuen Lebensraum erobert.
2.4 Anwendungsbeispiel: chemische Reaktion zweier Stoffe. Sind x1 und x2 die Konzentrationen
zweier Stoffe, die miteinander chemisch reagieren, wobei der zweite Stoff unter Anwesenheit des ersten
zu selbigem umgewandelt wird, so gilt
x1 + x2 = 1,
ẋ1 = cx1 x2 ,
ẋ2 = −cx1 x2 ,
mit einer Konstanten c > 0. Denn die Wahrscheinlichkeit, dass ein Molekül des einen Stoffes auf ein
Molekül des anderen trifft, ist proportional zu x1 x2 .
Setzen wir ~x = (x1 , x2 ) und F (t, ~x) = (cx1 x2 , −cx1 x2 ), so haben wir das System in Form einer DGL
~x˙ = F (t, ~x) für eine vektorwertige Funktion ~x (mit einer von t unabhängigen) rechten Seite F vorliegen.
Durch Auflösen der Erhaltungsbedingung x2 = 1 − x1 und Elimination von x2 aus ẋ1 = cx1 x2 bekommen
wir für x1 eine logistische DGL ẋ1 = cx1 (1 − x1 ). Selbige können wir wie im vorangegangenen Beispiel
2.3 lösen und erhalten anschließend auch den Verlauf von x2 .
1
x1
0.8
0.6
0.4
c = 0.4, x0 = 0.2
0.2
x2
5
10
15
20
Abbildung 4.61: Konzentrationsverläufe bei der chemischen Reaktion.
2.5 Eine DGL, bei der die Lebensdauer einer Lösung vom Startwert abhängt. Das Richtungsfeld der DGL
ẋ = ex sin(t)
ist symmetrisch zur x-Achse und 2π-periodisch bezüglich t. Mit x sind daher auch t 7→ x(−t) und
t 7→ x(t + 2kπ), k ∈ Z, Lösungen. Durch Trennung der Variablen erhalten wir
−e−x =
Z
e−x dx =
Z
ẋ(τ )
dτ =
ex(τ )
Z
sin(t) dt = − cos(t) − C
und somit x(t) = − ln(cos(t) + C) für t ∈ R mit C + cos(t) > 0. Die Lösung des Anfangswertproblems
ẋ = ex sin(t),
x(0) = − ln(a), a > 0,
lautet x(t) = − ln(cos(t) + a − 1). Für a > 2 ist sie auf R definiert, für a ≤ 2 nur im Intervall ] − π, π[.
Fazit. Der Definitionsbereich einer Lösung eines Anfangswertproblems kann vom Anfangswert abhängen
und steht in keinem einfachen Zusammenhang zum Definitionsbereich der rechten Seite.
196
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
a=1
a=2
a=5
a = 10
Abbildung 4.62: Lösungen des Anfangswertproblems ẋ = ex sin(t), x(0) = − ln(a) für a = 1, 2, 5, 10.
2.6 Anwendungsbeispiel: auslaufender Behälter. Wir betrachten einen zylindrischen Becher mit
Durchmesser 2R an dessen Boden sich ein kreisförmiges Ausflussrohr mit Durchmesser 2r befindet. Wir
wollen den Flüssigkeitsstand h(t) zur Zeit t bestimmen, wenn der Flüssigkeitsstand h0 zum Zeitpunkt
t0 = 0 bekannt ist. Ferner interessiert uns die Zeit T zu der der Behälter sich geleert hat.
Beim Auslaufen des Volumens ∆V nimmt die potentielle Energie um g∆V h(t) ab, die kinetische Energie
wächst um 21 v(t)2 ∆V , wobei v(t) die Ausflussgeschwindigkeit zur Zeit t ist. Ohne Berücksichtigung der
p
Zähigkeit liefert der Energieerhaltungssatz das
Das Vorhandensein von
p Torricelli-Gesetz v(t) = 2gh(t).
√
Zähigkeit können wir in der Form v(t) = α gh(t) mit einer Konstanten α < 2 modellieren. Offenbar
gilt −ḣ(t)/v(t) = r2 /R2 (Volumenänderung im Behälter ist ausfließendes Volumen). Damit haben wir
das AWP
√
r2 α g √
ḣ = −
h,
h(0) = h0 > 0
2
| R
{z }
=:2c
vorliegen. Für die Lösung h gilt, solange sie positiv ist,
ḣ(t)
,
−2c = p
h(t)
d.h. nach Integration
Z
−2ct =
t
Z
t
(−2c) dτ =
0
0
ḣ(τ )
p
dτ =
h(τ )
Z
h(t)
ζ −1/2 dζ = 2
p
h(t) −
p
h0 .
h0
Durch Lösen dieser Gleichung für h(t) erhalten wir
h(t) =
Die Auslaufzeit ist also T =
√
p
2
h0 − ct
√
für t <
h0
.
c
h0 /c. Für t > T wird die physikalische Wirklichkeit durch
( √
2
h0 − ct
für 0 ≤ t < T
h(t) =
0
für t ≥ T
beschrieben. Das ist eine C 1 -Lösung unseres AWPs. Der Zustand zu irgendeinem Zeitpunkt t ≥ 0 ist
eindeutig festgelegt. Bei leerem Becher, d.h. für Zeiten t ≥ T , lässt sich aber die Vergangenheit nicht
mehr rekonstruieren. Das Anfangswertproblem
√
h(t0 ) = 0
ḣ = −2c h,
197
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
√
F (t, h) = −2c h
2R
∆V
h(t)
h0
T
2r
t0
Abbildung 4.63: Auslaufender Becher als ein Beispiel für ein nicht eindeutig lösbares Anfangswertproblem.
ist also nicht eindeutig lösbar!
Fazit. Ein Anfangswertproblem muss nicht eindeutig lösbar sein.
3
Lineare Differentialgleichungen erster Ordnung
3.1 Lineare DGL erster Ordnung. Eine DGL des Typs
ẋ = a(t)x + b(t)
mit stetigen reell- oder komplexwertigen Funktionen a, b auf einem offenen Intervall I ⊂ R heißt lineare
DGL erster Ordnung. Wieder unterscheiden wir zwischen dem homogenen Fall mit b(t) = 0 für alle t ∈ I
und dem inhomogenen Fall, in dem b nicht konstant verschwindet. Das verallgemeinert den Fall konstanter
Koeffizienten aus §3.6.6.
Gerade für Anwendungen in der Elektrotechnik stellt es sich als günstig heraus, sowohl für die Koeffizientenfunktionen a, b als auch für die Lösung komplexe Werte zuzulassen. Rechentechnisch macht das keine
zusätzliche Arbeit.
3.2 Homogener Fall: Trennung der Variablen. Im homogenen Fall
ẋ = a(t)x
liegt eine DGL mit getrennten Variablen vor, die wir mit einer Trennung der Variablen 2.1 lösen können.
Hierbei stellt sich heraus, dass die Lösung immer auf ganz I definiert ist.
Die Lösungen der DGL ẋ = a(t)x mit einer auf einem Intervall I stetigen Funktion a sind auf ganz I
definiert und haben die Form x(t) = ceA(t) mit c ∈ C und einer Stammfunktion A : I → C von a. Zu
gegebenen t0 ∈ I und x0 ∈ C hat das Anfangswertproblem
ẋ = a(t)x,
x(t0 ) = x0 ,
genau eine Lösung. Selbige ist auf ganz I definiert und lautet
Z t
x(t) = x0 exp
a(τ ) dτ .
t0
3.3 Inhomogener Fall: Struktur der Lösungsmenge. Der schon aus 3.§3.1.23 und §3.6.6 bekannte
Zusammenhang zwischen Lösungen einer inhomogenen linearen DGL und der zugehörigen homogenen
bleibt auch für nicht-konstante Koeffizienten erhalten — wir können den Beweis wörtlich übertragen.
198
§5. ELEMENTAR LÖSBARE GEWÖHNLICHE DIFFERENTIALGLEICHUNGEN
Wir erhalten die Lösungsgesamtheit der inhomogenen linearen DGL ẋ = a(t)x + b(t) indem wir zu einer
speziellen Lösung dieser DGL die Gesamtheit der Lösungen der zugehörigen homogenen DGL ẋ = a(t)x
addieren.
Alles läuft also darauf hinaus, eine spezielle Lösung der inhomogenen DGL zu finden. Dies geschieht mit
der folgenden auf Lagrange zurückgehenden Methode.
3.4 Finden einer speziellen Lösung: Variation der Konstanten. Wir gehen mit dem Ansatz
Z t
x(t) = c(t) exp
a(τ ) dτ
t0
in die DGL ẋ = a(t)x + b(t) ein, verwenden also die Lösungsfunktionen des homogenen Falls und ersetzen
den Scharparameter c durch eine Funktion c(t). Für diese Funktion gilt
Z t
Z t
a(τ ) dτ + b(t),
a(τ ) dτ ,
a(t)x(t) + b(t) = c(t)a(t) exp
ẋ(t) = [ċ(t) + c(t)a(t)] exp
t0
t0
und wir erhalten durch Vergleich für c die DGL
Z t
ċ(t) = b(t) exp −
a(τ ) dτ ,
t0
welche wir dank des Hauptsatzes der Differential- und Integralrechnung §4.2.5 immer durch eine Integration lösen können. Damit haben wir eine Lösung von ẋ = a(t)x + b(t) gefunden.
Eine spezielle Lösung x̃ der DGL ẋ = a(t)x + b(t) mit auf einem Intervall
R I stetigen
Funktionen a, b
t
erhält man, indem man eine Stammfunktion C : I → C von t 7→ b(t) exp − t0 a(τ ) dτ bildet und
Z t
x̃(t) := C(t) exp
a(τ ) dτ
t0
setzt. Diese spezielle Lösung und damit alle Lösungen von ẋ = a(t)x + b(t) sind auf ganz I definiert.
Beispiel. Lösungsgesamtheit von ẋ = x + t. Die zugehörige homogene DGL ẋ = x hat konstante
Koeffizienten und
LösungR x(t) = cet mit c ∈ C. Eine Variation der Konstanten
R als allgemeine
R liefert
−t
ċ(t) = t exp(− 1 dt) = te , d.h. c(t) = te−t dt = −(t+1)e−t . Damit ist x̃(t) = −(t+1)e−t exp( 1 dt) =
−(t + 1) eine spezielle Lösung und x(t) = cet − (t + 1) die allgemeine.
3.5 Anwendungsbeispiel: RL-Kreis mit Fremderregung. Wir betrachten den RL-Kreis aus Beispiel §3.6.7. Diesmal legen wir für t ≥ 0 eine Wechselspannung U (t) = U0 sin(ωt) der Frequenz ω/(2π)
an. Der Stromverlauf wird dann durch
˙ = − R I(t) + U0 sin(ωt),
I(t)
L
L
I(0) = 0,
beschrieben. Die allgemeine Lösung der zugehörigen homogenen Gleichung lautet I(t) = be−(R/L)t , eine
Variation der Konstanten liefert zunächst
ḃ(t) =
U0
sin(ωt)e(R/L)t
L
und nach Integration dann
b(t) =
U0
[R sin(ωt) − ωL cos(ωt)]e(R/L)t + C.
R2 + ω 2 L2
Die Klammer können wir einfacher schreiben, indem wir zu dem bis auf ein ganzzahliges Vielfaches von
2π eindeutig bestimmten Phasenwinkel ϕ ∈ R mit
cos(ϕ) = √
R2
R
,
+ ω 2 L2
sin(ϕ) = √
R2
ωL
,
+ ω 2 L2
199
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
übergehen und b in der Form
b(t) = √
R2
U0
sin(ωt − ϕ)e(R/L)t + C
+ ω 2 L2
erhalten. Damit gehorcht der Stromverlauf in diesem RL-Kreis für t ≥ 0 der Gleichung
I(t) = √
R2
U0
sin(ωt − ϕ) + Ce−(R/L)t .
+ ω 2 L2
Nach Bestimmung von C aus den Anfangswerten bekommen wir als Lösung
I(t) = √
i
h
U0
sin(ωt − ϕ) + sin(ϕ)e−(R/L)t .
R 2 + ω 2 L2
Die Stromstärke wird also asymptotisch eine reine Sinus-Schwingung, allerdingt mit einer Phasenverschiebung ϕ gegenüber dem Spannungsverlauf U (t).
L
U
I
R
0
t
U (t)
I(t)
Abbildung 4.64: Ein RL-Kreis mit angelegter Wechselspannung.
4
Einfache Substitutionstechniken
4.1 Worum geht es? Wir haben einige Typen von explizit lösbaren DGL kennengelernt. Man hüte sich
aber davor zu glauben, dass es für jede DGL eine Lösungsmethode gibt: explizit lösbare DGL sind die
Ausnahme und die Hauptarbeit in der Theorie der Differentialgleichungen besteht darin, Methoden zur
Verfügung zu stellen, etwas über die Lösung einer DGL aussagen zu können, ohne sie zu kennen. Um sich
diese Arbeit zu ersparen, versucht man in den Anwendungen oft, bei der Modellierung Vereinfachungen
zu machen, die zu einer explizit lösbaren DGL führen. Bisweilen kommt man durch eine geschickte
Substitution zum selben Ergebnis. Wir führen einige Beispiele vor und verweisen auf die umfangreiche
Literatur zu diesem Thema (z.B. [Ka]).
4.2 Bernoullische DGL. Diese DGL hat die Form
ẋ = et xα − x
mit α ∈ R.
Man diskutiert i.A. nur positive Lösungen. Für α = 0, 1 liegt eine lineare DGL vor und wir können direkt
die schon bekannten Methoden anwenden. Für α 6= 0, 1 benutzen wir die Substitution u(t) := x(t)1−α
und erhalten für u die DGL
u̇ = (1 − α)x−α ẋ = (1 − α)x−α (et xα − x) = (1 − α)(et − x1−α ) = (α − 1)u + (1 − α)et .
Damit genügt u einer linearen inhomogenen DGL, die wir wieder explizit lösen können. Resubstituieren
x(t) = u(t)1/(1−α) löst uns anschließend die ursprüngliche DGL.
Achtung. Man achte bei dieser Substitution für eine Bernoullische DGL auf das Vorzeichen von x.
200
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
4.3 Eulersche DGL. Diese DGL hat die Gestalt
tẋ + cx + 1 + t2 = 0
und wird i.A. nur für t > 0 betrachtet. Zunächst ist man versucht, die Methode für eine lineare inhomogene
DGL mit nichtkonstanten Koeffizienten anzuwenden. Durch die Substitution u(s) := x(es ) erhalten wir
aber u̇ = ẋes = −cu − 1 − e2s und damit eine lineare DGL deren homogener Teil u̇ = −cu konstante
Koeffizienten hat, also einfacher zu lösen ist.
4.4 DGL mit rationalem Richtungsfeld. Jede DGL des Typs
ax + bt + c
ẋ = F
dx + et + f
lässt sich durch eine Substitution auf eine DGL mit getrennten Variablen zurückführen. Wir illustrieren
dies an zwei Spezialfällen.
(a) Bei der DGL
ẋ = F (ax + bt + c)
mit a 6= 0
erfüllt für jede Lösung x die durch
u(t) := ax(t) + bt + c
definierte Funktion u die DGL
u̇ = aẋ + b = aF (ax + bt + c) + b = aF (u) + b.
Das ist aber eine DGL mit getrennten Variablen der Form u̇ = g(u). Löst umgekehrt eine Funktion u
diese DGL, so erfüllt x(t) := a1 (u(t) − bt − c) die ursprüngliche DGL.
(b) Für die DGL
ẋ = F
x
t
machen wir bei einer für t > 0 definierten Lösung x die Substitution
u(t) :=
x(t)
t
und erhalten
1
(F (u) − u) ,
t
also wieder eine DGL mit getrennten Variablen. Haben wir selbige gelöst, so liefert x(t) := tu(t) eine
Lösung für die ursprüngliche DGL. Für t < 0 gehe man analog vor.
u̇ =
§6
1
Vertauschung von Grenzübergängen, uneigentliche Integrale
Punktweise und gleichmäßige Konvergenz
1.1 Fragestellung. Gegeben ist eine Funktion f : [0, L] → R mit f (0) = f (L) = 0. Wir stellen uns f
als die Gestalt einer an den Enden eingespannten Saite vor. Lässt sich f dann in eine Sinusreihe
f (x) =
∞
X
k=1
bk sin
kπ
x
L
entwickeln?
Fourier (1768–1830) selbst war der Ansicht, dass dies für jede Funktion möglich sei. Das erweist sich aber
mit einem Abzählargument als unmöglich: Ist über f nichts weiter vorausgesetzt, so ist f erst nach Angabe
201
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
der Funktionswerte f (x) an jeder der überabzählbar unendlich vielen Stellen x ∈ [0, L] festgelegt. Die
Fourier-Reihe trägt aber in ihren Koeffizienten bk nur abzählbar unendlich viele Informationen. Dirichlet
und Riemann vermuteten, dass solch eine Darstellung für jede stetige Funktion möglich sei, schließlich
sind die an der Summenbildung beteiligten Funktionen alle stetig.
Inzwischen ist bekannt, dass selbst nicht alle stetigen Funktionen in eine Fourier-Reihe entwickelt werden
können, während es umgekehrt unstetige Funktionen gibt, die sich vollständig durch eine Fourier-Reihe
darstellen lassen. Die Untersuchung dieser Fragestellung war im 19. Jahrhundert maßgeblich für die
Entwicklung der Analysis verantwortlich.
1.2 Punktweise Konvergenz, Funktionenfolgen. Gegeben ist eine Folge von Funktionen fn mit
gemeinsamen Definitionsbereich D, für die der Grenzwert
für jedes x ∈ D
f (x) := lim fn (x)
n→∞
existiert und damit eine Grenzfunktion f auf D definiert. Wir sagen, die Funktionenfolge (fn )n konvergiert
punktweise gegen f und schreiben
fn → f
punktweise auf D für n → ∞.
1.3 Präzisierung der Fragestellung. Wir behandeln im Zusammenhang mit unserer Fragestellung die
folgenden drei Probleme.
• Unter welchen Voraussetzungen folgt aus der Differenzierbarkeit der Funktionen fn die Differenzierbarkeit der Grenzfunktion f und f 0 (x) = limn→∞ fn0 (x)?
Z
Z
• Wann impliziert die Integrierbarkeit der fn die von f mit
f (x) dx = lim
fn (x) dx?
n→∞
D
D
• Wann überträgt sich die Stetigkeit der fn auf die von f ?
Flapsig können wir diese drei Probleme in der Form
d
d
?
lim fn = lim
fn ,
n→∞ dx
dx n→∞
Z
Z
?
lim fn dx = lim
n→∞
n→∞
?
fn dx,
lim lim fn (x) = lim lim fn (x)
x→x0 n→∞
n→∞ x→x0
schreiben. Sätze, die uns Antwort auf die eben gestellten Fragen geben, nennen wir Vertauschungssätze.
1.4 Beispiele.
1
(a) Die Grenzfunktion einer Folge von C ∞ Funktionen muss nicht einmal stetig sein. Wir setzen
fn (x) := xn
für x ∈ [0, 1].
Dann sind die fn alle C ∞ -Funktionen auf [0, 1] und
es gilt
(
0 für x ∈ [0, 1[
fn (x) → f (x) =
für n → ∞.
1 für x = 1
Die Grenzfunktion f ist also in x = 1 unstetig.
f1
f2 . . .
0
1
Abbildung 4.65: Die Grenzfunktion einer Folge von C ∞ -Funktionen muss nicht stetig sein.
202
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
(b) Integration und Grenzübergang sind im Allgemeinen nicht vertauschbar. Wir definieren stetige
Funktionen fn : [0, 1] → R wie skizziert. Dann gilt
limn→∞ fn (x) = 0 für alle x ∈ [0, 1]. Für x = 0
ist das offensichtlich, für x > 0 gilt fn (x) = 0 sobald x > 1/n, d.h. n > 1/x. Konstruktionsgemäß
R1
gilt 0 fn (x) dx = 1, während die Grenzfunktion f
identisch verschwindet. Somit haben wir
Z 1
Z 1
fn (x) dx.
lim fn (x) dx = 0 6= 1 = lim
0 n→∞
n→∞
0
2n
fn
0
1/n
1
Abbildung 4.66: Integration und Grenzübergang dürfen nicht immer vertauscht werden.
Fazit. Eigenschaften einer punktweise konvergenten Funktionenfolge müssen sich nicht automatisch auf
die Grenzfunktion übertragen. Wir brauchen also einen für unsere Zwecke geeigneten Konvergenzbegriff.
1.5 Gleichmäßige Konvergenz. Wir erinnern uns an die Supremumsnorm und den gleichmäßigen
Abstand von Funktionen (siehe §4.1.7 und §4.1.9). Der folgende Konvergenzbegriff ist für das Weitere
von grundlegender Bedeutung.
Eine Folge von Funktionen fn mit gemeinsamen Definitionsbereich D nennen wir gleichmäßig konvergent
gegen eine Funktion f auf D, falls
kfn − f k∞,D → 0
für n → ∞.
Hierbei ist kfn − f k∞,D = supx∈D |fn (x) − f (x)| der gleichmäßige Abstand von fn zu f . Wir schreiben
dann
fn → f
gleichmäßig auf D für n → ∞.
Der gleichmäßige Abstand von f und fn geht also gegen Null. Zu jedem ε > 0 existiert ein nε ∈ N mit
|fn (x) − f (x)| < ε
für alle n ≥ nε und alle x ∈ D.
Bildlich gesprochen heißt dies, dass für jeden noch so kleinen Fehler ε > 0 die Graphen aller Funktionen
fn im ε-Schlauch um den Graphen von f verlaufen, mit vielleicht endlich vielen Ausnahmen.
1.6 Zum Verhältnis von gleichmäßiger zu punktweiser Konvergenz. Aus der gleichmäßigen
Konvergenz fn → f auf D folgt die punktweise.
Das ergibt sich sofort aus |fn (x) − f (x)| ≤ kfn − f k∞,D für x ∈ D.
Achtung. Die Umkehrung gilt i.A. nicht.
Beispiel. Gemäß Beispiel 1.4 (a) gilt xn → 0 für jedes x ∈ [0, 1[. Für fn (x) := xn und f (x) := 0 haben
wir also fn → f punktweise auf [0, 1[. Es gilt aber kfn − f k∞,[0,1[ = supx∈[0,1[ xn = 1. Also konvergieren
die fn auf [0, 1[ nicht gleichmäßig gegen f . Dagegen ist die Konvergenz auf jedem Intervall [0, r] mit r < 1
gleichmäßig. Dann gilt nämlich kfn − f (x)k∞,[0,r] = supx∈[0,r] xn = rn → 0 für n → ∞.
Anmerkung. Punktweise Konvergenz auf D bedeutet: Zu jedem x ∈ D gibt es zu vorgegebenem γ > 0
ein — i.A. von x abhängiges — nε = nε,x mit |fn (x) − f (x)| < ε für n ≥ nε,x . (In obigem Beispiel war
ln ε
n > ln
x zu wählen.) Bei gleichmäßiger Konvergenz kann nε unabhängig von x gewählt werden.
1.7 Rechnen mit gleichmäßig konvergenten Funktionenfolgen. Sind (fn )n und (gn )n gleichmäßig
konvergente Funktionenfolgen auf D, so gilt:
(c) Die Funktionenfolge (fn )n ist auf D beschränkt. Es gibt also eine Schranke M > 0 mit kf k∞,D ≤ M
für alle n ∈ N, d.h. |fn (x)| ≤ M für alle x ∈ D und n ∈ N.
203
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
(d) Aus fn → f und gn → g gleichmäßig auf D folgt λfn + µgn → λf + µg für beliebige Zahlen λ, µ, sowie
für reell- oder komplexwertige Funktionen fn gn → f g und |fn | → f , für vektorwertige hf~n |~gn i → hf~|~g i
und kf~n k → kf~k gleichmäßig auf D.
P∞
1.8 Funktionenreihen. Wie bei
PnZahlenfolgen erklären wir eine Funktionenreihe k=0 fk als die Funktionenfolge der Partialsummen k=1 fk . Natürlich müssen die fk denselben Definitionsbereich haben.
P∞
Beispiele. Eine Potenzreihe k=0 ak xk ist eine Funktionenreihe mit Vielfachen der Polynome xk als
Glieder. Eine (reelle) Fourier-Reihe hat die Form
a0 +
∞
X
(ak cos kt + bk sin kt)
k=1
mit Fourier-Koeffizienten ak , bk . Gilt bk = 0 für alle k ∈ N, so spricht man von einer Cosinus-Reihe, bei
ak = 0 für alle k ∈ N0 von einer Sinus-Reihe. Für das Rechnen mit Fourierreihen ist die komplexe Form
∞
X
ck eikt
k=−∞
P∞
oft angenehmer. Dabei bedeutet k=−∞ = limn→∞
und in der komplexen Darstellung kann man via
Pn
k=−n .
a0
=
2c0 ,
ak
= ck + c−k ,
bk
c0
=
a0
2
ck
=
ak − ibk
,
2
c−k
Zwischen den Koeffizienten in der reellen
= i(ck − c−k ),
=
für k ∈ N.
ak + ibk
,
2
umrechnen.
Für die gleichmäßige Konvergenz einer Funktionenreihe wird gerne das folgende Kriterium verwendet.
1.9 Majorantenkriterium für gleichmäßige Konvergenz von Funktionenreihen.
P∞ Ist (fk )k eine
Funktionenfolge auf
D
mit
|f
(x)|
≤
b
für
x
∈
D
und
konvergiert
die
Zahlenreihe
k
k
k=0 bk , so ist die
P∞
Funktionenreihe k=0 fk auf D gleichmäßig konvergent.
P∞
∗
Beweis
P∞ . Nach dem Majorantenkriterium 1.§4.2.4 konvergiert k=0 fk (x) für jedes xP∈∞D absolut. Damit
ist k=0 fk auf D punktweise
P∞ konvergent gegen eine Funktion f . Sei ε > 0. Da k=0 bk konvergiert,
existiert ein nε ∈ N mit k=nε +1 bk < ε. Für alle x ∈ D und n ≥ nε folgt mit 1.§4.1.8 (f)
∞
n
∞
X
X
X
f
(x)
≤
|fk (x)| ≤
=
f
(x)
−
f
(x)
k
k
k=n+1
k=0
k=n+1
∞
X
P∞
fk auf D gleichmäßig konvergent.
P∞
P∞
Anmerkung. Beliebte Majoranten sind k=0 q k mit q ∈ [0, 1[ und k=0
Also ist
bk < ε.
k=nε +1
k=0
∞
X
km qk
mit q ∈ [0, 1[ und m ∈ N0 ,
k=0
Beispiel.
P∞ Die Fourier-Reihe
und k=1 k12 konvergiert.
∞
X
1
kα
1
k2
oder allgemeiner
mit α > 1.
k=0
P∞
1
k=1 k2
sin kt konvergiert für alle t ∈ R. Es gilt nämlich | k12 sin kt| ≤
1
k2
P∞
1.10 Gleichmäßige Konvergenz von Potenzreihen. Eine Potenzreihe k=0 ak (x − x0 )k mit Konvergenzradius R > 0 ist für jedes r ∈ [0, R[ in der Kreisscheibe |x − x0 | ≤ r gleichmäßig konvergent.
P∞
∗
k
Beweis
P∞ . Die Reihek k=0 |ak |r konvergiert gemäß 2.§4.1.4 und ist dann eine gleichmäßige Majorante
für k=0 ak (x − x0 ) für |x − x0 | ≤ r.
204
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
Achtung. Das kann man nicht einfacher formulieren! In der vollen Kreisscheibe |x − x0 | < R liegt i.A.
keine gleichmäßige Konvergenz vor (vgl. hierfür und für den nachfolgenden Beweis auch 2.§4.1.7).
Beispiel. Wir illustrieren das für die geometrische Reihe. Mit
f (x) :=
∞
X
xk =
k=0
1
,
1−x
fn (x) :=
n
X
xk =
k=0
1 − xn+1
1−x
gilt für |x| < 1
n+1 n+1
x
≤ |x|
|f (x) − fn (x)| = 1−x
1 − |x|
mit Gleichheit für x ∈ [0, 1[. Für jedes feste r ∈ [0, 1[ haben wir damit
kf − fn k∞,|x|≤r = sup |f (x) − fn (x)| =
|x|≤r
rn+1
.
1−r
Also konvergieren die Partialsummen der geometrischen Reihe für |x| ≤ r gleichmäßig. Für r → 1−
wird die Konvergenz aber immer schlechter. Auf der offenen Kreisscheibe |x| < 1 ist |f (x) − fn (x)| sogar
unbeschränkt.
2
Vertauschungssätze
2.1 Fazit vorab. Kurz gesagt: gleichmäßige Konvergenz ist der Schlüssel zu den Antworten auf unsere
Fragen in 1.3. Stetigkeit und Integrierbarkeit der Grenzfunktion f übertragen sich bei gleichmäßiger
Konvergenz von (fn )n , Differenzierbarkeit bei gleichmäßiger Konvergenz von (fn0 )n .
2.2 Stetigkeit der Grenzfunktion. Eine gleichmäßig konvergente Folge oder Reihe stetiger Funktionen
konvergiert gegen eine stetige Grenzfunktion.
Beweis∗ . Ist (fn )n auf D gleichmäßig konvergent gegen f , so gibt es zu ε > 0 eine Zahl n ∈ N mit
|fn (x) − f (x)| < ε/3 für alle x ∈ D. Ist fn im Punkt a ∈ D stetig, so gibt es zu ε/3 ein δ > 0 mit
|fn (x) − fn (a)| < ε/3 für alle x ∈ D mit |x − a| < δ. Für diese x folgt mit der Dreiecksungleichung
|f (x) − f (a)| ≤ |f (x) − fn (x)| + |fn (x) − fn (a)| + |fn (a) − f (a)| <
ε ε ε
+ + = ε.
3 3 3
Damit ist f im Punkt a stetig. Bei einer Funktionenreihe schließe man analog mit den Partialsummen.
P∞
Beispiel. Da die Fourier-Reihe k=1 k12 sin kt auf R gleichmäßig konvergiert, ist die Grenzfunktion auf
R stetig.
2.3 Vertauschung von Integration und Grenzübergang. Ist (fn )n eine auf [c, d] gleichmäßig konvergenze Folge integrierbarer Funktionen, so ist auch die Grenzfunktion f integrierbar und es gilt
Z d
Z d
f (x) dx = lim
fn (x) dx.
n→∞
c
c
P∞
Ist k=0 gk eine auf [c, d] P
gleichmäßig konvergente Funktionenreihe und sind die gk integrierbar, so ist
∞
auch die die durch g(x) := k=0 gk (x) definierte Grenzfunktion integrierbar mit
Z
d
g(x) dx =
c
∞ Z
X
k=0
d
gk (x) dx.
c
Für eine Funktionenfolge hatten wir das schon in §4.1.21 bewiesen. Für eine Funktionenreihe folgt das
dann durch Betrachtung der Partialsummen.
205
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
2.4 Vertauschung von Differentiation und Grenzübergang. Ist (fn )n eine Folge von C 1 -Funktionen
auf ]c, d[, konvergiert (fn (a))n für ein a ∈]c, d[ und konvergiert (fn0 )n gleichmäßig auf ]c, d[, so ist (fn )n
selbst auch konvergent und die Grenzfunktion f ist auf ]c, d[ differenzierbar mit
f 0 (x) = lim fn0 (x)
für x ∈]c, d[.
P∞
P∞
Ist k=0Pgk eine Reihe von C 1 -Funktionen aufP
]c, d[, konvergiert k=0 gk (a) für ein a ∈]c, d[ und kon∞
∞
vergiert k=0 gk0 gleichmäßig auf ]c, d[, so ist k=0 gk selbst auch konvergent und die Grenzfunktion g
ist auf ]c, d[ differenzierbar mit
n→∞
g 0 (x) =
∞
X
gk0 (x)
für x ∈]c, d[.
k=0
Beweis∗ . Wir setzen b := limn→∞ fn (a) und betrachten ein x ∈]c, d[. Konvergiert (fn0 )n auf ]c, d[ gleichmäßig gegen eine Funktion g, so ist die Konvergenz auch gleichmäßig auf dem Intervall mit Randpunkten
a und x. Gliedweise Integration gemäß 2.5 und der Hauptsatz der Differential- und Integralrechnung
§4.2.5 liefern daher
Z x
Z x
g(t) dt = lim
fn0 (t) dt = lim (fn (x) − fn (a)) = lim fn (x) − b.
n→∞
a
n→∞
a
n→∞
Somit konvergiert (fn (x))n auf ]c, d[ punktweise gegen eine Funktion f und es gilt
Z x
f (x) := lim fn (x) =
g(t) dt + b
für x ∈]c, d[.
n→∞
a
Der Hauptsatz liefert nun die Differenzierbarkeit von f mit f 0 (x) = g(x) = limn→∞ fn0 (x) für x ∈]c, d[.
Für eine Funktionenreihe schließe man analog.
2.5
P∞Gliedweise kIntegration und Differentiation von Potenzreihen. Eine Potenzreihe f (x) =
k=0 ak (x − x0 ) mit Konvergenzradius R > 0 ist für x ∈]x0 − R, x0 + R[ beliebig oft gliedweise differenzierbar und integrierbar und es gilt
f 0 (x)
Z
∞
X
=
k=1
∞
X
x
f (t) dt
=
x0
k=0
f 00 (x) =
kak (x − x0 )k−1 ,
∞
X
k(k − 1)ak (x − x0 )k−2 ,
...,
k=2
1
ak (x − x0 )k+1 ,
k+1
....
Das folgt sofort aus 1.10 und 2.4 bzw. 2.5. Wir hatten das aber auch schon in §3.2.5 bzw. §4.3.12 bewiesen.
P∞
1
Beispiel. Die geometrische Reihe 1−x
= k=0 xk ist auf ] − 1, 1[ gliedweise differenzierbar mit
1
(1 − x)2
1
(1 − x)3
∞
∞
=
X d
X
d 1
=
xk =
kxk−1 ,
dx 1 − x
dx
=
X d2
X
d2 1
=
xk =
k(k − 1)xk−2 ,
2
2
dx 1 − x
dx
k=1
∞
k=1
∞
k=2
k=2
..
.
Durch Bilden geeigneter Linearkombinationen erhalten wir hieraus die Summenformeln für die verallgemeinerten geometrischen Reihen (vgl. 1.§4.3.8 (f))
∞
X
k=0
x
kx =
,
(1 − x)2
k
∞
X
k 2 xk =
k=0
x(x + 1)
,
(1 − x)3
...
für |x| < 1.
Gliedweises Integrieren der geometrischen Reihe liefert uns die Logarithmusreihe (vgl. §3.4.16 (m))
Z xX
Z x
∞
∞ Z x
∞
∞
X
X
X
1
1 k
1
ln(1 − x) =
dζ =
ζ k dζ =
ζ k dζ =
xk+1 =
x
für x ∈] − 1, 1[.
1
−
ζ
k
+
1
k
0
0
0
k=0
k=0
k=0
k=1
206
3
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
Uneigentliche Integrale
3.1 Worum geht es? Bisher können wir Funktionen nur über kompakte Intervalle [c, d] integrieren. Wir
wollen dies nun auf halboffene Intervalle bzw. einseitig unbeschränkte Intervalle erweitern, anschließend
auch auf offene und unbeschränkte. Insbesondere können wir dann geeignete Funktionen über die ganze
reelle Achse integrieren. Es stellt sich heraus, dass die hierbei auftretenden Phänomene von ähnlicher
Natur sind wie beim Übergang von endlichen Summen zu Reihen: wir müssen insbesondere zwischen
bedingter und absoluter Konvergenz unterscheiden.
3.2 Erstes Beispiel. Für α 6= 1 und ξ > 0 gilt
ξ
Z ξ
1
1
1
1
1
1−α dx
=
→
1
−
=
x
α
α−1
x
1
−
α
α
−
1
ξ
α
−
1
1
1
1
Z 1
1
1
1
1
1
dx =
x1−α =
1 − α−1 →
α
1−α
1−α
ξ
1−α
ξ x
ξ
für ξ → +∞ falls α > 1,
für ξ → 0+ falls 0 < α < 1.
Für α > 1 können wir also der Fläche unter dem Graphen von 1/xα für x ∈ [1, +∞[ die Maßzahl 1/(α−1)
zuweisen, obwohl sich der Bereich ins Unendliche erstreckt. Gleiches gilt für 0 < α < 1 für die Fläche
unter dem Graphen von 1/xα für x ∈]0, 1], der wir die Maßzahl 1/(1 − α) zuordnen können, obwohl sie
sich längs der positiven y-Achse ins Unendliche erstreckt. Wir schreiben dann
Z +∞
Z 1
1
1
1
1
dx =
für α > 1,
dx =
für 0 < α < 1.
α
α
x
α
−
1
x
1
−
α
1
0
1
1
1
1
Abbildung 4.67: Zur Integration von 1/xα .
3.3 Zweites Beispiel. Für r > π gilt mit einer partiellen Integration
Z r
Z r
sin x
cos r
cos x
dx = −1 −
−
dx.
x
r
x2
π
π
Rr
Rr 1
x
Wegen | cosr r | ≤ 1r → 0 und | 1 cos
x2 dx| ≤ π x2 dx ≤ 1/π für r → +∞ existiert
Z ∞
Z r
sin x
sin x
dx := lim
dx.
r→+∞
x
x
π
π
Dagegen gilt
Z
r
lim
r→+∞
π
sin x x dx = +∞.
Schätzen wir nämlich wie in nachfolgender Abbildung skizziert das Integral über das Intervall [π, nπ]
sin(k+ 12 )π
2
durch die Summe der Flächen von Dreiecken mit Grundlinienlänge π und Höhe | (k+ 1 )π
| = (2k+1)π
2
durch
Z nπ n
X
sin x 1
dx ≥
x 2k
+1
π
k=1
207
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1
1
Z
+∞
π
Π
Z
sin x
dx konvergiert
x
2Π
3Π
4Π
5Π
+∞
π
6Π
Π
Abbildung 4.68: Zur Integration von
sin x x dx divergiert
2Π
sin x
x
3Π
4Π
5Π
6Π
und | sinx x |.
R +∞
ab, so folgt die Divergenz von π | sinx x | dx aus der Divergenz der harmonischen Reihe.
R∞
R∞
Konvergenz von π sinx x dx und Divergenz von π | sinx x | dx stehen in vollständiger Analogie zur Konverk
P∞
P∞
und Divergenz der harmonischen Reihe k=1 k1 .
genz der alternierenden harmonischen Reihe k=1 (−1)
k
3.4 Absolute und bedingte uneigentliche Integrierbarkeit. Ist I =]c, d[ mit −∞ ≤ c < d ≤ +∞
und ist f auf I definiert und über jedes kompakte Teilintervall von I im Sinne von §4.1.12 integrierbar,
so nennen wir f auf I uneigentlich integrierbar , falls für ein ζ ∈ I die beiden Grenzwerte
Z ζ
Z ζ
Z d
Z δ
f (x) dx := lim
f (x) dx
und
f (x) dx := lim
f (x) dx
γ→c+
c
γ
δ→d−
ζ
ζ
existieren. Wir setzen dann
Z
d
Z
f (x) dx :=
c
ζ
Z
f (x) dx +
c
d
f (x) dx.
ζ
Rd
Existiert auch das uneigentliche Integral c |f (x)| dx, so heißt f auf I absolut uneigentlich integrierbar ,
andernfalls bedingt uneigentlich integrierbar .
Wenn die beiden oben genannten Integrale für einen Teilpunkt ζ ∈ I konvergieren, so existieren sie beide
für jeden Teilpunkt ζ ∈ I und ihre Summe ist jedesmal dieselbe. Man überlege selbst, warum das so ist.
Anmerkung. Die obige Definition kann sowohl für halboffene oder offene wie auch für ein- oder zweiseitig
unbeschränkte Integrationsintervalle verwendet werden. Grundlegend für uneigentliche Integrale ist aber
die Integration über halboffene bzw. einseitig unbeschränkte Intervalle.
Achtung. Bedingt uneigentlich integrierbare Funktionen muss man ähnlich vorsichtig behandeln wie
bedingt konvergente Reihen.
Beispiele. Die Funktion x 7→ 1/(1 + x2 ) ist über R absolut uneigentlich integrierbar mit
Z +∞
1
dx = π,
1
+
x2
−∞
Rδ
R0
da 0 1/(1+x2 ) dx = arctan δ → π/2 für δ → +∞ und γ 1/(1+x2 ) dx = − arctan γ → π/2 für γ → −∞.
Dagegen ist x/(1 + x2 ) über R oder [1, +∞[ weder absolut noch bedingt uneigentlich integrierbar, da
Z δ
Z δ
Z δ
x
x
1
1
dx ≥
dx =
dx = ln δ → +∞
für δ → +∞.
2
2 + x2
1
+
x
x
2x
2
1
1
1
3.5 Integration über Singularitäten. Ist f auf [c, d] mit Ausnahme eines Punktes s ∈]c, d[ definiert
Rs
Rd
und existieren die uneigentlichen Integrale c f (x) dx und s f (x) dx, so setzen wir
Z d
Z s−ε1
Z d
Z d
Z s
f (x) dx :=
f (x) dx +
f (x) dx = lim
f (x) dx + lim
f (x) dx
c
c
s
ε1 →0+
c
ε2 →0+
s+ε2
208
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
R1
R1
R0
R1
Beispiel. −1 |x|−1/2 dx = 4, da 0 x−1/2 dx = 2 = −1 (−x)−1/2 dx nach 3.2. Dagegen existiert −1 1/x dx
R1
nicht, da γ 1/x dx = − ln γ → +∞ für γ → 0+.
Rc
Achtung. Man hüte sich also davor, bei einer punktsymmetrischen Funktion f einfach −c f (x) dx = 0
zu folgern, wenn f nicht über ganz [−c, c] integrierbar ist oder wenn über R integriert wird.
3.6 Cauchy-Hauptwert. Manchmal kann es vorkommen, dass zwar nicht über eine Singularität s
hinwegintegriert werden kann, dass aber der symmetrische Grenzwert
!
Z s−ε
Z d
Z d
f (x) dx +
f (x) dx
CH− f (x) dx := lim
ε→0+
c
c
s+ε
Rd
existiert. Dann wird diese Zahl der Cauchy-Hauptwert des uneigentlichen Integrals c f (x) dx genannt.
R1
R1
Beispiel. −1 1/x dx existiert nicht, wohl aber der Cauchy-Hauptwert CH− −1 1/x dx = 0, das folgt
sofort aus der Punktsymmetrie des Integranden.
3.7 Majorantenkriterium für uneigentliche Integrierbarkeit. Genau dann ist f über I absolut
uneigentlich integrierbar, wenn es eine über I integrierbare positive Funktion g gibt mit |f (x)| ≤ g(x) für
alle x ∈ I.
Dieses Kriterium ist ähnlich wichtig wie das Majorantenkriterium für absolut konvergente Reihen 1.§4.2.4.
Den Beweis führe man selbst als Übung.
3.8 Wichtige Majoranten für die Praxis sind
Z +∞
Z ∞
1 −λa
1
1
e−λx dx =
e
für λ > 0,
dx =
für α > 1,
α
λ
x
α−1
a
1
Z +∞
Z 1
1
1
1
für 0 < α < 1.
dx = π,
dx =
2
α
1
+
x
x
1
−
α
−∞
0
R +∞
2
Beispiel. Das Integral −∞ e−x /2 dx konvergiert absolut. Eine Majorante wird abschnittsweise definiert
durch g(x) := 1 für |x| ≤ 1 bzw. g(x) := e−|x|/2 für |x| > 1. Den Wert
Z +∞
√
2
e−x /2 dx = 2π
−∞
können wir erst in 6.§2.3.5 durch einen Trick mit mehrdimensionaler Integration ausrechnen.
3.9 Grenzverhalten uneigentlich integrierbarer Funktionen. Ist f über [0, +∞[ uneigentlich integrierbar, so gilt
Z +∞
lim
f (x) dx = 0.
c→+∞
c
0
1
Ist f eine C -Funktion und ist f ebenfalls über [0, +∞[ uneigentlich integrierbar, so gilt auch
lim f (x) = 0.
x→+∞
Analoge Aussagen gelten für die Integration über ] − ∞, 0].
R +∞
Rc
Beweis. Aus 0 f (x) dx = limc→+∞ 0 f (x) dx folgt
Z +∞
Z +∞
Z c
f (x) dx =
f (x) dx −
f (x) dx → 0
c
0
für c → +∞.
0
Ist f eine C 1 -Funktion so folgt mit dem Hauptsatz die Existenz von
Z x
Z
0
lim f (x) = lim
f (0) +
f (t) dt = f (0) +
x→+∞
x→+∞
0
0
+∞
f 0 (t) dt.
209
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
Wäre dieser Grenzwert nicht 0, so würde
R∞
f (x) dx nicht konvergieren.
0
Anmerkung. Um limx→+∞ f (x) = 0
zu erhalten genügt es nicht, dass f eine
über [0, +∞[ uneigentlich integrierbare C 1 Funktion ist. Man betrachte dazu die skizzierte „Wolkenkratzerfunktion“, die wegen
Z ∞
Z n+1
Z n
1
1
<
f (x) dx =
2
2
k=1 k
0
k=1 k
2n
1
2n3
über [0, +∞[ integrierbar ist obwohl
limx→+∞ f (x) nicht existiert. Durch Abrunden der Ecken lässt sich f in eine
C 1 -Funktion mit demselben Grenzverhalten
überführen.
Abbildung 4.69: Eine uneigentlich über [0, +∞[
integrierbare Funktion, für die limx→+∞ f (x)
nicht existiert.
3.10 Substitutionsregel für uneigentliche Integrale. Stellvertretend für die anderen Fälle führen
wir die Substitionsregel mit dem Integrationsintervall [c, +∞[ vor.
Ist f stetig, auf [γ, +∞[ absolut uneigentlich integrierbar und ist u eine C 1 -Funktion, die [c, +∞[ bijektiv
und streng monoton steigend auf [γ, +∞[ abbildet (d.h. u(c) = γ, u0 > 0 und limx→+∞ u(x) = +∞), so
gilt
Z +∞
Z +∞
f (t) dt =
f (u(x))u0 (x) dx.
γ
c
Beweis. Die gewöhnliche Substitutionsregel §4.3.4 liefert für d > c zunächst
Z
u(d)
d
Z
|f (u(x))|u0 (x) dx.
|f (t)| dt =
γ
c
Die
R +∞linke Seite ist wegen der absoluten uneigentlichen Integrierbarkeit von f für beliebige d > c durch
|f (t)| dt nach oben beschränkt. Dies ist dann auch eine Schranke für die rechte Seite. Damit ist
γ
(f ◦ u)u0 über [c, +∞[ absolut uneigentlich integrierbar. Mit limd→+∞ u(d) = +∞ folgt nun
Z
+∞
u(d)
Z
f (t) dt = lim
γ
Z
f (t) dt = lim
d→+∞
d→+∞
γ
d
f (u(x))u0 (x) dx =
c
Z
+∞
f (u(x))u0 (x) dx.
c
3.11 Partielle Integration bei uneigentlichen Integralen. Sind f und g zwei C 1 -Funktionen auf R
und sind die drei Produktfunktionen f g, f g 0 und f 0 g über R uneigentlich integrierbar, so gilt
+∞
Z
0
Z
+∞
f (x)g (x) dx = −
−∞
f 0 (x)g(x) dx.
−∞
Für entsprechende Funktionen auf [0, +∞[ gilt analog
+∞
Z
f (x)g 0 (x) dx = −f (0)g(0) −
0
Z
+∞
f 0 (x)g(x) dx.
0
Beweis. Gewöhnliche partielle Integration liefert zunächst
Z
d
0
Z
f (x)g (x) dx = f (d)g(d) − f (c)g(c) −
c
d
f 0 (x)g(x) dx.
c
Da (f g)0 = f g 0 + f 0 g über R integrierbar ist, impliziert 3.9 bei Integration über [0, +∞[ den Grenzwert
limd→+∞ f (d)g(d) = 0, bei Integration über ] − ∞, +∞[ analog auch limc→−∞ f (c)g(c) = 0.
210
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
3.12 Integralvergleichskriterium für Reihen. Ist f : [1, +∞[→ R nichtnegativ und monoton fallend,
so existiert der Grenzwert
!
Z n+1
n
X
lim
f (k) −
f (x) dx
n→∞
1
k=1
und ist eine Zahl im Intervall [0, f (1)]. Insbesondere ist die unendliche Reihe
R +∞
konvergent, wenn das uneigentliche Integral 1 f (x) dx existiert.
P∞
k=1
f (k) genau dann
Beweis. Als monotone Funktion ist f integrierbar. Wegen f (k) ≥ f (x) ≥ f (k + 1) für x ∈ [k, k + 1]
liefert die Monotonie des Integrals
Z k+1
f (k) ≥
f (x) dx ≥ f (k + 1)
für k ∈ N.
k
Daher ist die Folge der Zahlen
an :=
n
X
Z
n+1
f (k) −
f (x) dx =
1
k=1
n
X
k=1
Z
f (k) −
!
k+1
f (x) dx
k
monoton wachsend, wegen 0 ≤ an ≤ f (1) − f (n + 1) ≤ f (1) beschränkt und damit nach dem Monotoniekriterium für Folgen 1.§2.8.3 konvergent.
f (k)
f (k + 1)
1
2
k
k+1
Abbildung 4.70: Zum Beweis des Integralvergleichskriteriums.
3.13 Beispiele zum Integralvergleichskriterium.
(a) Die verallgemeinerte harmonische Reihe
ζ(s) :=
∞
X
1
ks
konvergiert für jedes s ∈]1, +∞[.
k=1
R +∞
Das folgt aus dem Integralvergleichkriterium mit 1 x−s dx (für s ∈ N vgl. 1.§4.2.5 (b)). Die so definierte
Funktion ζ : ]1, +∞[→ R wird Riemannsche Zeta-Funktion genannt. Aus der Euler-Produkt-Darstellung
Y
1
für s > 1,
ζ(s) =
1 − p−s
p prim
die man durch Ausmultiplizieren der Faktoren 1−p1 −s = 1 + p1s + p12s + · · · und Umordnung aus der
Primfaktorzerlegung der natürlichen Zahlen erhält, kann man die Bedeutung der Zeta-Funktion für die
Zahlentheorie erahnen. Dort wird die Zeta-Funktion zu einer Funktion ζ : C → C ∪ {∞} fortgesetzt.
Die berühmte Riemannsche Vermutung besagt, dass alle „nichttrivialen“ Nullstellen der Zeta-Funktion
Realteil 1/2 haben. Hieraus kann man Informationen über die Verteilung von Primzahlen ableiten.
R∞
P∞
(b) Auch wenn weder die harmonische Reihe k=1 1/k noch das Integral 1 1/x dx konvergieren, so
existiert nach dem Integralvergleichskriterium dennoch
!
n
X
1
lim
− ln n =: γ.
n→∞
k
k=1
211
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
1/|ζ| im Komplexen
5
4
ζ im Reellen
10
8
6
4
2
0
3
2
1
-6 -5 -4 -3 -2 -1
1
2
3
4
5
400
300
200
0
6
1
-1
100
2
-2
3
4
0
Abbildung 4.71: Riemannsche Zeta-Funktion.
Die so definierte Zahl γ = 0.577216 . . . wird Euler-Konstante genannt. Eine berühmte offene Vermutung
besagt, dass γ keine rationale Zahl ist.
Die Existenz des obigen Grenzwerts besagt
also so langsam wie der Logarithmus.
Pn
1
k=1 k
' ln(n) für n → ∞. Die harmonische Reihe divergiert
3.14 Die Gamma-Funktion wird definiert durch das uneigentliche Integral
Z
Γ(x) :=
∞
tx−1 e−t dt
für x > 0.
0
Die Konvergenz dieses beidseitig uneigentlichen Integrals muss natürlich nachgewiesen werden. Wir wählen zu x > 0 ein Intervall [c, d] mit x ∈]c, d[ und c > 0 und setzen
(
tc−1
g(t) := d −t
t e
für t ∈]0, 1],
für t ∈ [1, +∞[.
R1
Nach 3.2 existiert 0 g(t) dt. Wegen tk = O(et ) für t → +∞ für jedes k > 0 gibt es ein C > 0 mit
R +∞
|td e−t | = |t−2 td+2 e−t | ≤ C/t2 für t → +∞, was auch die Konvergenz von 1 g(t) dt liefert. Mit dem
Majorantenkriterium 3.7 erhalten wir nun die Konvergenz des Integrals für die Gamma-Funktion.
3.15 Eigenschaften der Gamma-Funktion.
(c) Γ(1) = 1, Γ(x + 1) = xΓ(x) für x > 0, insbesondere Γ(n + 1) = n! für n ∈ N.
(d) Γ(1/2) =
√
π.
Beweis. Zu (c): Γ(1) = 1 ist klar. Für x > 0 erhalten wir durch partielle Integration gemäß 3.11
Z
Γ(x + 1) =
0
+∞
+∞
tx |{z}
e−t dt = tx e−t t=0 −
|{z}
↓
↑
Z
+∞
xtx−1 (−e−t ) dt = x
0
Z
+∞
tx−1 e−t dt = xΓ(x).
0
Durch Induktion nach n folgt nun Γ(n + 1) = n! für n ∈ N.
Die Formel in (d) erhalten wir mit der Substitutionsregel 3.10 für t = x2 /2,
Z
Γ(1/2) =
0
∞
t−1/2 e−t dt =
√ Z
2
0
∞
e−x
2
/2
1
dx = √
2
Z
dt
dx
+∞
−∞
e−x
2
/2
= x, gemäß 3.8 aus
dx =
√
π.
212
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
8
Anmerkung. Für die Gamma-Funktion sind viele
weitere Formeln bekannt. Ohne Beweis geben wir als
Beispiel die Grenzwertdarstellung
7
6
5
n!nx
n→∞ x(x + 1) · · · (x + n)
Γ(x) = lim
4
3
an, welche die Gamma-Funktion nicht nur für x > 0
liefert, sondern auch auf x ∈ Rr{0, −1, −2, . . .} fortsetzt (vgl. [Kön, Band 1, 16]). Für x = 1/2 liefert
dieser Grenzwert das Wallis-Produkt
2
√
2n+1 n! n
2
π = Γ(1/2) = lim
n→∞ 1 · 3 · · · (2n + 1)
2·24·4
2n · 2n
= 2 lim
···
.
n→∞ 1 · 3 3 · 5
(2n − 1) · (2n + 1)
2
1
-6 -5 -4 -3 -2 -1
1
2
3
4
5
-1
-2
-3
-4
-5
Abbildung 4.72: Graph der Gamma-Funktion.
4∗
Laplace-Transformation
4.1 Worum geht es? Die Laplace-Transformation erlaubt eine „Algebraisierung“ gewisser DGL: Aus
einer DGL für die gesuchte Funktion wird eine Gleichung für deren Laplace-Transformierte. Wenn man
die transformierte Gleichung lösen und die Lösung rücktransformieren kann, so erhält man eine Lösung
der urspünglichen Gleichung.
4.2 Definition: Laplace-Transformierte. Ist f : [0, +∞[→ C integrierbar (das schließt wegen R ⊂ C
natürlich auch Funktionen f : [0, +∞[→ R mit ein) und konvergiert für ein σ ∈ R das uneigentliche
R +∞
RT
Integral 0 f (t)e−σt dt absolut (d.h. existiert der Grenzwert limT →+∞ 0 |f (t)|e−σt dt), so zeigt das
R +∞
Majorantenkriterium 3.7 die Konvergenz von 0 f (t)e−st dt für alle s > σ. Diese Vorüberlegung verwenden wir in der nun folgenden Definition.
Eine Funktion f : [0, +∞[→ C heißt Laplace-transformierbar , wenn für ein s ∈ R das Laplace-Integral
Z +∞
L[f ](s) :=
f (t)e−st dt
0
absolut konvergiert. In diesem Fall existiert eine kleinste Zahl σ ∈ R, so dass das Integral L[f ](s) für alle
s ≥ σ absolut konvergiert. Die so definierte Funktion
Z +∞
L[f ] : ]σ, +∞[→ C,
L[f ](s) :=
f (t)e−st dt,
0
heißt Laplace-Transformierte von f , die Zahl σ wird Konvergenzabszisse von f genannt.
Anmerkung. Um die Laplace-Transformierte zu definieren, muss man nicht unbedingt die absolute
Konvergenz des Integrals L[f ](s) verlangen. Beweistechnisch wird aber vieles einfacher, und für die Praxis
ist es meist nur wichtig, dass — und nicht wo — Konvergenz eintritt.
4.3 Zur Notation. Die Laplace-Transformation L ist ein Operator, d.h. eine Funktion, die Funktionen
(eines bestimmten Typs — hier eben die Laplace-transformierbaren Funktionen) auf Funktionen abbildet.
Ist f eine Laplace-transformierbare Funktion, so wird in unserer Notation deren Laplace-Transformierte
mit L[f ] bezeichnet. Deren Funktionswert an der Stelle s ist dann L[f ](s).
Sind keine Verwechslungen zu befürchten, so bezeichnet man die Laplace-Transformierte L[f ] von f
auch gerne mit F und drückt die Korrespondenz zwischen beiden Funktionen durch eines der Symbole
f (t) ◦ • F (s) bzw. F (s) • ◦ f (t) aus. Der gefüllte Kreis steht hierbei immer bei der Bildfunktion.
213
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
4.4 Einige einfache Laplace-Transformierte.
(a) Die konstante Funktion f (t) = 1 für t ∈ R ist Laplace-transformierbar mit
T
Z +∞
Z T
1 e−sT
1
−e−st −st
−st
lim
L[1](s) =
e
−
= .
dt = lim
e
dt = lim
= T →+∞
T
→+∞
T
→+∞
s
s
s
s
0
0
0
Die Laplace-Transformierte L[1](s) ist offensichtlich für s > 0 definiert. Also ist 0 die Konvergenzabszisse.
(b) Für die Heaviside-Funktion
(
0 für t ∈] − ∞, 0[,
H(t) :=
1 für t ∈ [0, +∞[
aus §2.1.1 (d) und einen Parameter a ∈ R folgt im Fall a > 0
Z +∞
e−as
L[H(t − a)](s) =
e−st dt =
s
a
Für a ≤ 0 erhalten wir
L[H(t − a)](s) = L[1](s) =
1
s
für s > 0.
für s > 0.
(c) Aus der Heaviside-Funktion kann man sich diverse Rechtecksfunktionen basteln. Für 0 ≤ a < b wird
durch Wa,b (t) := H(t − a) − H(t − b) eine Funktion Wa,b : R → R mit
(
0 für t ∈] − ∞, a[∪[b, +∞[,
Wa,b (t) =
1 für t ∈ [a, b[,
definiert und wir erhalten
L[Wa,b ](s) = L[H(t − a)](s) − L[H(t − b)](s) =
1
e−as − e−bs
s
für s > 0.
1
a
b
Abbildung 4.73: Graphen der Heaviside-Funktion H und einer Rechtecksfunktion Wa,b .
4.5 Verschiebung. Zu einer Funktion f : [0, +∞[ können wir die um a > 0 nach rechts verschobene
Funktion
(
f (t − a) für t ∈ [a, +∞[,
fa : [0, +∞[→ R,
fa (t) :=
0
für t ∈ [0, a[,
mit Hilfe der Heaviside-Funktion in der Form fa (t) = f (t − a)H(t − a) schreiben.
Beispiel. Für f (t) = eat mit a ∈ C erhalten wir
T
Z +∞
1
e(a−s)t at
(a−s)t
L[e ](s) =
e
dt = lim
=
T →+∞ a − s
s−a
0
0
für s > Re(a),
da das obige Integral wegen |e(a−s)t | = e(Re(a)−s)t für die angegebenen s konvergiert.
214
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
Für a ∈ R folgt wegen cosh(at) = (eat + e−at )/2 insbesondere
1
1
1
1
s
L[cosh(at)] =
L[eat ] + L[e−at ] =
+
= 2
2
2 s−a s+a
s − a2
für s > max{a, −a} = |a|.
Analog erhalten wir aus cos(at) = (eiat + e−iat )/2 dann
1
1
1
1
s
L[eiat ] + L[e−iat ] =
L[cos(at)] =
+
= 2
2
2 s − ia s + ia
s + a2
für s > 0.
4.6 Rechenregeln. In den vorherigen Beispielen haben wir schon Rechenregeln für die Laplace-Transformation verwendet. Wir stellen die wichtigsten dieser Regeln, die wir sofort aus den Rechenregeln für
Integrale §4.1.18 erhalten, zusammen.
Sind f, g : [0, +∞[→ C Laplace-transformierbar, so gilt:
(d) Linearitätssatz: Für beliebige λ, µ ∈ R gilt L[λf + µg] = λL[f ] + µL[g], d.h.
λf (t) + µg(t) ◦ • λF (s) + µG(s).
(e) Ähnlichkeitssatz: Für a > 0 gilt L[f (at)](s) = 1/aL[f (t)](s/a), d.h.
f (at) ◦ •
1 s
F ( ) für a > 0.
a a
(f) Dämpfungssatz: Für a ∈ R gilt L[eat f (t)](s) = L[f ](s − a).
eat f (t) ◦ • F (s − a) für a ∈ R.
(g) Verschiebungssatz: Für a > 0 gilt L[f (t − a)H(t − a)](s) = e−as L[f (t)](s).
f (a − t)H(t − a) ◦ • e−as F (s).
4.7 Differentiationssatz für die Laplace-Transformation. Ist f : [0, +∞[→ C von der Klasse C k
und zusammen mit allen Ableitungen f˙, f¨, . . . , f (k) Laplace-transformierbar, so gilt
L[f˙](s) = sL[f ](s) − f (0),
L[f¨](s) = s2 L[f ](s) − sf (0) − f˙(0),
..
.
L[f (k) ](s)
= sk L[f ](s) − sk−1 f (0) − · · · − sf (k−2) (0) − f (k−1) (0).
Beweis. Wir behandeln nur den Fall k = 1, an Rdem man alles Wesentliche erkennt. Ist f Laplace+∞
transformierbar, so impliziert die Konvergenz von 0 f (t)e−st dt insbesondere limT →+∞ f (t)e−st = 0
und wir erhalten mit einer partiellen Integration
!
T Z T
Z T
f (t)e−st −
L[f˙](s) =
lim
f˙(t) e−st dt = lim
f (t)(−s)e−st dt
T →+∞
T →+∞
|{z} |{z}
0
=
↑
↓
Z
+∞
0 − f (0) + s
0
0
f (t)e−st dt = sL[f ](s) − f (0).
0
Anmerkung. Der Differentiationssatz bewirkt die eingangs geschilderte „Algebraisierung“. Bevor wir ihn
zur Lösung von Anfangswertproblemen einsetzen, brauchen wir noch eine dritte Rechenregel und vorher
eine neue Operation für Funktionen.
215
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
4.8 Faltung von Funktionen (Version für Laplace-Transformation). Existiert für zwei Funktionen f, g : [0, +∞[→ C das Integral
Z
t
f (τ )g(t − τ ) dτ
(f ∗ g)(t) :=
0
für alle t ∈ [0, +∞[, so wird die hierdurch definierte Funktion f ∗ g : [0, +∞[→ C die Faltung von f und g
genannt.
4.9 Faltungsatz für die Laplace-Transformation. Die Faltung verträgt sich mit der Laplace-Transformation ähnlich angenehm wie das Differenzieren.
Sind f, g : [0, +∞[→ C Laplace-transformierbar, existiert die Faltung f ∗ g und ist selbige Laplace-transformierbar, so gilt
L[f ∗ g](s) = L[f ](s)L[g](s).
Der Faltungssatz lautet in prägnanter Form
(f ∗ g)(t) ◦ • F (s)G(s).
Beispiele.
(h) Für f (t) = g(t) = 1 erhalten wir (f ∗ g)(t) =
Rt
0
dτ = t und damit
L[t](s) = L[1](s)2 =
1
s2
für s > 0.
Durch eine Induktion folgt nun mit f (t) = tn und g(t) = 1 für n ∈ N0 in gleicher Fasson
L[tn ](s) =
n!
sn+1
für s > 0.
(i) Der Dämpfungssatz liefert für n ∈ N0 und a ∈ R dann sofort
L[tn eat ](s) =
n!
(s − a)n+1
für s > a.
4.10 Die wichtigsten Laplace-Transformierten. Die bisherigen Beispiele illustrieren wie man durch
Berechnung von einigen Laplace-Transformierten und Anwendung der Rechenregeln weitere erhält. Wir
216
§6. VERTAUSCHUNG VON GRENZÜBERGÄNGEN, UNEIGENTLICHE INTEGRALE
fassen die gebräuchlichsten Laplace-Transformierten zusammen.
f (t), t ∈ [0, +∞[
1
tn ,
n ∈ N0
e−at ,
a∈R
tn e−at ,
a ∈ R, n ∈ N0
cos(at),
a∈R
t cos(at),
a∈R
sin(at),
a∈R
t sin(at),
a∈R
e−at cos(bt),
a, b ∈ R
e−at sin(bt),
a, b ∈ R
F (s) = L[f ](s)
1
,
s
n!
,
sn+1
1
,
s+a
n!
,
(s + a)n+1
s
,
2
s + a2
2
s − a2
,
(s2 + a2 )2
a
,
s2 + a2
2as
,
(s2 + a2 )2
s+a
,
(s + a)2 + b2
b
,
(s + a)2 + b2
s>0
s>0
s > −a
s > −a
s>0
s>0
s>0
s>0
s > −a
s > −a
4.11 Lösen von AWP durch Laplace-Transformation. Zur Lösung von Anfangswertproblemen des
Typs
x(n) = F (t, x, ẋ, . . . , x(n−1) ),
x(0) = x0,1 , ẋ(0) = x0,2 , . . . , x(n−1) (0) = x0,n
setzen wir die Laplace-Transformation nun wie folgt ein: Wir wenden auf beide Seiten der Differentialgleichung die Laplace-Transformation an und versuchen die Ableitungen mit Hilfe des Differentiationssatzes 4.7 zu ersetzen. Gelingt dies, so erhalten wir eine algebraische Gleichung für L[x]. Können wir
diese Gleichung nach L[x] auflösen, so versuchen wir, die gefundene Darstellung ihrerseits als LaplaceTransformierte einer Funktion x̃ zu entlarven. Hierzu gehören Fingerspitzengefühl und gute Tabellen.
Haben wir x̃ gefunden, so ist dies ein Kandidat für die Lösung unseres Anfangswertproblems.
Da das geschilderte Verfahren viele Unwägbarkeiten hat, sollte man es rein formal (und damit unbelastet von Konvergenzfragen) einsetzen. Hat man einen Lösungskandidaten gefunden, so muss auf jeden
Fall durch Einsetzen in die Differentialgleichung und Betrachten der Anfangswerte überprüft werden, ob
wirklich eine Lösung gefunden wurde. Gegebenenfalls setze man zusätzlich den Existenz- und Eindeutigkeitssatz ein, um sicherzustellen, dass das Problem überhaupt eindeutig lösbar ist.
Wir schließen dieses Abschnitt mit einigen Beispielen für dieses Vorgehen.
4.12 Beispiele. Das Anfangswertpoblem
ẍ − 6ẋ + 9x = 0,
x(0) = 1, ẋ(0) = 0,
besitzt nach dem Existenz- und Eindeutigkeitssatz für DGL §5.1.7 eine eindeutige und auf ganz R definierte Lösung. Nach Laplace-Transformation mit x ◦ • X nimmt es die Form
0 = [s2 X(s) − sx(0) − ẋ(0)] − 6[sX(s) − x(0)] + 9X(s) = (s − 3)2 X(s) − s + 6
an, und wir erhalten für die Laplace-Transformierte nach Partialbruchzerlegung die Darstellung
X(s) =
s−6
−3
1
=
+
= −3L[te−3t ](s) + L[e−3t ](s) = L[(−3t + 1)e−3t ](s).
(s − 3)2
(s − 3)2
s−3
KAPITEL 4. ANALYSIS, VORNEHMLICH IN EINER VARIABLEN
217
Damit ist x(t) = (−3t+1)e−3t ein Lösungskandidat. Durch Einsetzen verifizieren wir, dass wir tatsächlich
die Lösung gefunden haben.
Auch das Anfangswertproblem
ẍ + 4ẋ = cos(2t),
x(0) = 0, ẋ(0) = 1,
ist eindeutig (und auf ganz R) lösbar. Mit x ◦ • X erhalten wir
0 = [s2 X(s) − sx(0) − ẋ(0)] + 4[sX(s) − x(0)] −
s
s2 + s + 4
=
s(s
+
4)X(s)
−
,
s2 + 4
s2 + 4
d.h.
X(s)
=
=
s2 + s + 4
1
1
4−s
=
−
+
2
s(s + 4)(s + 4)
4s 5(s + 4) 20(s2 + 4)
1
1
1
L[1](s) − L[e−4t ](s) + L[2 sin(2t) − cos(2t)](s)
4
5
20
und haben als Lösungskandidaten
x(t) =
1
1
1 1 −4t
− e
+
sin(2t) −
cos(2t)
4 5
10
20
gefunden. Die Funktion x entpuppt sich auch wirklich als Lösung.
Fazit. Man beachte, dass die Laplace-Transformation angenehmerweise den üblichen Dreischritt beim
Lösen inhomogener linearer Differentialgleichungen erspart (Bestimmung der allgemeinen Lösung der
homogenen DGL, Variation der Konstanten zum Auffinden einer speziellen Lösung der inhomogenen DGL,
Anpassen der Konstanten zur Befriedigung der Anfangsbedingungen). Lineare Differentialgleichungen mit
konstanten Koeffizienten r-ter Ordnung können direkt gelöst werden (in den Beispielen war r = 2).
218
Kapitel 5
Lineare Algebra
§1
1
Lineare Abbildungen, Vektorräume, Dimension
Wovon handelt die lineare Algebra?
1.1 Lineare Gleichungen. Die lineare Algebra beschäftigt sich mit linearen Gleichungen
L(v) = w
verschiedenster Art. Bevor wir die Problemstellung allgemein formulieren, stellen wir einige Beispiele vor.
(a) Lineare Gleichungssysteme, beispielsweise
4x1 + 2x2 − x3 = y1
,
−x1 + x2 + 3x3 = y2
kurz
L(~v ) = w
~
 
x1
mit ~v := x2  ,
x3
w
~ :=
y1
,
y2
L(~v ) :=
4x1 + 2x2 − x3
.
−x1 + x2 + 3x3
Man bestimme für vorgegebene reelle (bzw. komplexe) Zahlen y1 , y2 alle reellen (bzw. komplexen) Lösungen x1 , x2 , x3 .
(b) Schwingungsgleichung (vgl. 3.§3.1.23). Gesucht sind alle reellwertigen (bzw. komplexwertigen) C 2 Funktionen y mit
y 00 + ay 0 + by = A cos(ωx).
Auch diese Gleichung können wir mittels L(y) := y 00 + ay 0 + by und c(x) := A cos(ωx) in die Kurzform
L(y) = c bringen.
(c) Potentialgleichung. Für eine stetige Funktion f im Einheitskreis K1 = {(x, y) ∈ R2 | x2 + y 2 ≤ 1}
bestimme man alle reellwertigen C 2 -Funktionen in zwei Variablen mit
∂2
∂2
u(x, y) + 2 u(x, y) = f (x, y) für (x, y) ∈ K1 ,
2
∂x
∂y
kurz
∆u = f.
(d) Lineare Rekursionsgleichungen. Gesucht sind alle reellen Zahlenfolgen (an )n mit
an+2 − an+1 − an = 0 für n ∈ N0 ,
kurz
L((an )n ) = (0)n
mit L((an )n ) := (an+2 − an+1 − an )n .
(e) Gegeben ist eine Ursprungsebene E im R3 und ein Punkt ~y ∈ E. Für welche ~x ∈ R3 liefert die
orthogonale Projektion PE (~x) von ~x auf E gerade ~y , d.h. wann gilt PE (~x) = ~y ?
(f) Gegeben ist eine Zahl c ∈ R. Bestimme alle reellen Polynome vom Grad höchstens drei mit p(1) = c.
Hier erklären wir L durch L(p) := a3 + a2 + a1 + a0 für p(x) = a3 x3 + a2 x2 + a1 x + a0 und suchen die
Lösungen von L(p) = c.
219
KAPITEL 5. LINEARE ALGEBRA
1.2 Was haben diese Probleme gemeinsam? In allen Beispielen der Nummer 1.1 hatte die Abbildung L, ~v 7→ L(~v ), die Eigenschaft
L(λ1~v1 + λ2~v2 ) = λ1 L(~v1 ) + λ2 L(~v2 ).
Wenn wir das präzisieren wollen, so müssen wir uns an die Vektorraum-Definition, d.h. an die Begriffe
„Vektor“, „Skalar“, „Addition von Vektoren“ und „Skalarmultiplikation“ aus 3.§3.1.2 erinnern.
1.3 Lineare Abbildung. Eine Abbildung L : V → W zwischen zwei Vektorräumen V und W über
demselben Grundkörper K (für uns R oder C) heißt linear , falls
L(λ1 v1 + λ2 v2 ) = λ1 L(v1 ) + λ2 L(v2 )
für alle v1 , v2 ∈ V und λ1 , λ2 ∈ K.
Oft schreibt man bei linearen Abbildungen auch Lv statt L(v).
Beispiele. Wir listen die Beispiele aus Nummer 1.1 auf. Man mache sich klar, welche Vektorräume als
Definitions- bzw. Zielraum auftreten und was jeweils der gemeinsam Grundkörper ist.
(a)
lineare Abbildung
4x1 +2x2 −x3
L(x1 , x2 ) = −x
1 +x2 +3x3
(b)
L(y) = y 00 + ay 0 + by
(c)
(d)
(e)
(f)
L(u) = ∂x u + ∂y u
L((an )n ) = (an+2 − an+1 − an )n
L(~x) = PE (~x) (Projektion auf E)
L(p) = p(1)
Definitionsraum V → Zielraum W
R3 →R2
C3 →C2
C 2 (R, R)→C 0 (R, R) (Funktionenräume)
C 2 (R, C)→C 0 (R, C) (Funktionenräume)
C 2 (K1 , R)→C 0 (K1 , R) (Funktionenräume)
RN →RN (Folgenraum)
R3 →R3
P3 (R)→R (reelle Polynome vom Grad ≤ 3)
K
R
C
R
C
R
R
R
R
Es empfielt sich, nochmal die Beispiele für Vektorräume aus 3.§3.1 nachzuschlagen — insbesondere für
die Funktionen- und Folgenräume.
1.4 Vereinbarung. Wir lassen in diesem Kapitel bei Vektoren die Vektorpfeile weg, schreiben also v
statt ~v . Für Vektoren verwenden wir meist lateinische Kleinbuchstaben wie u, v, w, für Skalare griechische
Kleinbuchstaben wie λ, µ. Meist kann man leicht aus dem Zusammenhang erschließen, ob gerade ein
Skalar oder ein Vektor gemeint ist. Man übe das zu Beginn, insbesondere bei der Null. (Ist es die Null im
Grundkörper K = R oder K = C? Oder geht es um den Nullvektor? Wenn ja, in welchem Vektorraum?).
Das Weglassen der Vektorpfeile spart Schreibarbeit und vermeidet gerade bei abstrakten Vektorräumen
seltsam anmutende Darstellungen. Wer möchte eine Zahlenfolge mit (a~n )n statt (an )n bezeichnen, nur
~
weil man die Zahlenfolgen gerade als Folgenraum auffasst oder eine vektorwertige Funktion f~ mit f~, nur
weil sie gerade als Vektor im Funktionenraum behandelt?
1.5 Einfache Eigenschaften linearer Abbildungen. Für jede lineare Abbildung L : V → W gilt:
(g) L(0) = 0,
(h) L(v1 + v2 ) = L(v1 ) + L(v2 ) für beliebige Vektoren v1 , v2 ∈ V ,
(i) L(λv) = λL(v) für beliebige Vektoren v ∈ V und Skalare λ ∈ K,
Pn
Pn
(j) L( k=1 λk vk ) = k=1 λk L(vk ) für beliebige Vektoren v1 , . . . , vn ∈ V und Skalare λ1 , . . . , λn ∈ K.
In (g) bezeichnet die erste Null den Nullvektor in V , die zweite den Nullvektor in W . Ausführlich geschrieben lautet die Gleichung also L(0V ) = 0W . Sie ergibt sich aus L(0V ) = L(0 · 0V ) = 0 · L(0V ) = 0W .
Als Spezialfälle der Linearität von L erhält man (h) und (i), während (j) durch Induktion folgt.
Die Gleichungen (h) und (i) besagen, dass sich eine lineare Abbildung mit der Vektoraddition und der
Skalarmultiplikation in V und W verträgt: „Das Bild der Summe von Vektoren ist die Summe der Bildvektoren, das Bild des Vielfachen eines Vektors ist das entsprechende Vielfache des Bildvektors.“
220
§1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION
1.6 Beispiele für lineare Abbildungen. Die einfachsten linearen Abbildungen sind der Nulloperator
0 : V → W , v 7→ 0, und die Identität id = idV : V → V , v 7→ v.
Für D ⊂ R und V = C 1 (D), W = C 0 (D) ist der Ableitungsoperator
d
: f 7→ f 0
dx
eine lineare Abbildung von V nach W .
Der Differentialoperator der Schwingungsgleichung
y 7→ L(y) = y 00 + ay 0 + by,
C 2 (R) → C 0 (R)
ist für vorgegebenen Konstanten a, b ebenfalls eine lineare Abbildung. Analog können weitere Differentialoperatoren gebildet werden.
Für ein vorgegebenes Intervall I ist das Integral
Z
f 7→ f (x) dx,
R(I) → R
I
eine lineare Abbildung vom Raum R(I) aller über I integrierbaren reellwertigen Funktionen in den
Vektorraum R (aufgefasst als Vektorraum über sich selbst).
1.7 Lineare Operatoren und Funktionale sind Bezeichnungen für spezielle lineare Abbildungen.
Von einem linearen Operator spricht man gerne, wenn bei einer linearen Abbildung Definitions- und
Zielraum abstrakte Vektorräume wie beispielsweise die Funktionenräume C k sind. Ein lineare Funktional
oder eine Linearform ist eine lineare Abbildung eines Vektorraums in seinen Grundkörper (aufgefasst als
Vektorraum über sich selbst).
Man vergleiche mit den Beispielen aus der vorangegangenen Nummer.
1.8 Problemstellungen. Für Probleme der Form L(v) = w mit einer linearen Abbildung L sind gemeinhin folgende Fragestellungen relevant:
• Hat die Gleichung L(v) = w für vorgegebene rechte Seite w eine Lösung?
• Wenn ja, ist diese eindeutig bestimmt?
• Wenn nein, was lässt sich über die Lösungsgesamtheit aussagen?
1.9 Lineare Gleichungen: grundlegende Struktur der Lösungsmenge. Ist L : V → W eine lineare
Abbildung zwischen zwei K-Vektorräumen V und W , so betrachten wir für vorgegebenes w ∈ W die
• inhomogene Gleichung L(v) = w
und die zugehörige
• homogene Gleichung L(v) = 0.
Ohne die Frage nach Lösbarkeit näher zu untersuchen, können wir über die Struktur des Lösungsraums
{v ∈ V | L(v) = w} ganz allgemein folgendes aussagen:
(k) Die homogene Gleichung L(v) = 0 besitzt immer die Lösung v = 0. Wir nennen sie die triviale Lösung.
(l) Die Lösungen der homogenen Gleichung erfüllen das Superpositionsprinzip: sind v1 , v2 ∈ V Lösungen
von L(v) = 0, so auch jede Linearkombination λ1 v1 + λ2 v2 .
(m) Ist v0 eine spezielle Lösung der inhomogenen Gleichung L(v) = w, so erhalten wir sämtliche Lösungen
in der Form v + v0 , wobei v die Lösungen der homogenen Gleichung durchläuft.
KAPITEL 5. LINEARE ALGEBRA
221
1.10 Kern und Bild einer linearen Abbildung erklären wir durch
Kern(L)
Bild(L)
:= {v ∈ V | L(v) = 0},
:= L(V ) = {w ∈ W | es gibt ein v ∈ V mit L(v) = w}.
Dann gilt offensichtlich:
(n) Kern(L) ist gerade die Lösungsmenge der homogenen Gleichung L(v) = 0.
(o) Die inhomogene Gleichung L(v) = w ist genau dann lösbar, wenn w ∈ Bild(L).
Mit Kern und Bild erhalten wir folgende grundlegende Aussagen über das Lösungsverhalten linearer
Gleichungen. Man schlage zuvor ggf. die Begriffe „Unterraum“ und „Linearkombination“ in 3.§3.1 nach.
1.11 Eigenschaften von Kern und Bild.
(p) Bild(L) ist ein Unterraum von W , während Kern(L) ein Unterraum von V ist.
(q) Genau dann ist L injektiv, (d.h. L(v) = w hat immer höchstens eine Lösung), wenn Kern(L) = {0}.
(r) Genau dann ist L surjektiv, (d.h. L(v) = w hat immer mindestens eine Lösung), wenn Bild(L) = W .
Für den Beweis von (p) verwenden wir das Unterraumkriterium 3.§3.1.4 (eine Teilmenge eines Vektorraums ist ein Unterraum, wenn sie nichtleer ist und wenn sie mit zwei Vektoren auch jede Linearkombination enthält). Wegen L(0) = 0 sind weder Bild(L) noch Kern(L) leer. Gilt v1 , v2 ∈ Kern(L), d.h.
L(v1 ) = 0 = L(v2 ), so folgt mit der Linearität L(λ1 v1 + λ2 v2 ) = λ1 L(v1 ) + λ2 L(v2 ) = 0 + 0 = 0, d.h.
λ1 v1 + λ2 v2 ∈ Kern(L). Gilt w1 , w2 ∈ Bild(L), d.h. gibt es v1 , v2 ∈ V mit L(v1 ) = w1 und L(v2 ) = w2 , so
folgt mit der Linearität λ1 w1 + λ2 w2 = L(λ1 v1 + λ2 v2 ) ∈ Bild(L).
Während (r) sofort aus der Definition von Surjektivität folgt, ist (q) eine bemerkenswerte Eigenart linearer
Abbildungen: Wenn die homogene Gleichung L(v) = 0 nur die triviale Lösung v = 0 besitzt, so ist die
Lösung einer jeden zugehörigen inhomogenen Gleichung L(v) = w eindeutig, falls sie überhaupt lösbar
ist. Sind nämlich v1 , v2 ∈ V zwei Lösungen, d.h. gilt L(v1 ) = w = L(v2 ), so folgt mit der Linearität
L(v1 − v2 ) = L(v1 ) − L(v2 ) = w − w = 0. Hat die homogene Gleichung nur die triviale Lösung, so
impliziert dies v1 = v2 .
1.12 Wie geht es weiter? Für die Behandlung linearer Gleichungen sind also Informationen über
Kern und Bild der zugehörigen linearen Abbildung essentiell. Um diese Informationen in §3 zum Lösen
linearer Gleichungssysteme einzusetzen, entwicklen wir in §2 u.a. den Matrizenkalkül. Um die in den
Beispielen 1.1 auftretenden abstrakten Vektorräume mitbehandeln zu können, müssen wir aber zuvor
noch unsere Kenntnisse über Vektorräume erweitern.
Die restlichen Paragraphen dieses Kapitels sind dann fortgeschrittenen Betrachtungen (v.a. der Eigenwerttheorie und deren Anwendungen) gewidmet.
2
Basis und Dimension
2.1 Erinnerung: lineare Unabhängigkeit, Erzeugnis, Basis, Koordinaten (siehe 3.§3.1). Gegeben
sind Vektoren v1 , . . . , vn aus einem K-Vektorraum V .
(a) Die Vektoren v1 , . . . , vn heißen linear unabhängig, wenn der Nullvektor nur auf triviale Weise als
Linearkombination dargestellt werden kann, d.h. aus λ1 v1 +· · ·+λn vn = 0 folgt immer λ1 = . . . = λn = 0.
(b) Die Vektoren v1 , . . . , vn erzeugen V , wenn jeder Vektor v ∈ V als Linearkombination dargestellt
werden kann, d.h. es gibt Skalare λ1 , . . . , λn ∈ K mit λ1 v1 + · · · + λn vn = v (kurz Span(v1 , . . . , vn ) = V ).
(c) Die Vektoren v1 , . . . , vn bilden eine Basis von V , wenn sie V erzeugen und linear unabhängig sind.
Dann kann jeder Vektor v ∈ V in eindeutiger Weise als Linearkombination v = λ1 v1 +· · ·+λn vn dargestellt
werden und wir nennen das n-Tupel vB = (λ1 , . . . , λn ) ∈ Kn den Koordinatenvektor von v bezüglich der
Basis B = (v1 , . . . , vn ) von V (und hätten selbigen streng genommen nicht als Zeilenvektor sondern als
Spaltenvektor schreiben müssen).
222
§1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION
Beispiele. Wir zeigen, dass die drei Vektoren
 
 
0
1



1
v1 =
,
v2 = 0 ,
1
1
 
1

v 3 = 1
0
Eine Basis des R3 bilden.
Die Vektoren sind linear unabhängig. Aus

  
λ2 + λ3
0
λ1 v1 + λ2 v2 + λ3 v3 = λ1 + λ3  = 0
λ1 + λ2
0
folgt nämlich durch Addieren aller drei Spalten λ1 + λ2 + λ3 = 0, anschließend durch Subtrahieren der
drei Spalten λ1 = λ2 = λ3 = 0.
Die drei Vektoren erzeugen auch den R3 . Setzen wir zu vorgegebenem
 
y1
v = y2  ∈ R3
y3
nämlich
y1 − y2 + y3
y1 + y2 − y3
−y1 + y2 + y3
,
λ2 :=
,
λ3 :=
,
2
2
2
so erhalten wir nach kurzem Nachrechnen tatsächlich λ1 v1 +λ2 v2 +λ3 v3 = v. Insbesondere hat v = (4, 1, 1)
bezüglich der Basis B = (v1 , v2 , v3 ) die Koordinaten vB = (−1, 2, 2).
λ1 :=
Man überlege sich selbst, dass diese drei Vektoren auch eine Basis des C3 bilden.
Nun betrachten wir die drei Polynome
p1 (x) := x2 + x,
p2 (x) := x2 + 1,
p3 (x) := x + 1.
Wir wollen zeigen, dass diese drei Polynome eine Basis des Vektorraums P2 (R) der Polynome vom Grad
höchstens zwei mit reellen Koeffizienten bilden. Die Vektoraddition in diesem Vektorraum ist die Addition
von Funktionen, die Skalarmultiplikation die Multiplikation mit einer reellen Zahl. (Letztlich liegt ein
Unterraum des Funktionenraums F(R, R) vor.) Die drei Polynome
e0 (x) := 1,
e1 (x) := x,
e2 (x) := x2
bilden offensichtlich eine Basis B = (e0 , e1 , e2 ) von P2 (R). Jedes Polynom p(x) = a2 x2 + a1 x + a0 lässt
sich eindeutig als Linearkombination
p = a0 e0 + a1 e1 + a2 e2 ,
d.h. p(x) = a0 + a1 x + a2 x2
für x ∈ R
darstellen, hat also bezüglich B die Koordinaten pB = (a0 , a1 , a2 ). (Die Existenz der Darstellung ist klar,
die Eindeutigkeit wird letztlich durch den Identitätssatz für Polynome 2.§3.1.9 begründet.)
Bezüglich der Basis B = (e0 , e1 , e2 ) des P2 (R) haben die Polynome p1 , p2 , p3 gerade die Vektoren v1 , v2 , v3
als Koordinatenvektoren. Wenn wir also zeigen wollen, dass auch B 0 = (p1 , p2 , p3 ) eine Basis des P2 (R)
ist, so haben wir letztlich dieselbe Rechenarbeit wie zuvor.
Verständnisfrage: Welche Koordinaten hat das Polynom p(x) := x2 +x+4 bezüglich B bzw. bezüglich B 0 ?
2.2 Vektorraum der Polynome vom Grad höchstens n. Die Polynome vom Grad höchstens n
mit reellen Koeffizienten bilden mit der punktweisen Addition und der Multiplikation mit reellen Zahlen
einen R-Vektorraum Pn (R). Lassen wir komplexe Koeffizienten zu, so erhalten wir den C-Vektorraum
Pn (C). Die Monome
e0 (x) := 1,
e1 (x) := x,
e2 (x) := x2 ,
...,
en (x) := xn
bilden eine Basis B = (e0 , e1 , . . . , en ) dieser beiden Vektorräume. Das besagt der Identitätssatz für
Polynome 2.§3.1.9: jedes Polynom p(x) = an xn + · · · + a1 x + a0 hat die eindeutige Darstellung p =
a0 e0 + a1 e1 + · · · + an en mit den Koordinaten pB = (a0 , a1 , . . . , an ).
223
KAPITEL 5. LINEARE ALGEBRA
2.3 Vektorraum aller Polynome. Die eben eingeführten Monome e0 , e1 , . . . bilden eine Basis des
R-Vektorraums P(R) aller Polynome mit reellen Koeffizienten (bzw. des C-Vektorraums P(C) aller Polynome mit komplexen Koeffizienten). Jedes Polynom lässt sich als Linearkombination aus endlich vielen
dieser Monome darstellen. Um alle Polynome von beliebigen Grad darzustellen, benötigen wir allerdings
auch alle Monome. Einem Polynom p(x) = an xn + · · · + a1 x + a0 entspricht bezüglich dieser Basis
B = (e0 , e1 , . . .) eine Koordinatenfolge pB = (a0 , a1 , . . . , an , 0, 0, . . .).
2.4 Dimension eines Vektorraums. Der Dimensionsbegriff beruht auf dem folgenden Satz.
Besitzt ein Vektorraum V eine Basis aus n Vektoren, so besteht auch jede andere Basis aus n Vektoren.
Die somit von der gewählten Basis unabhängige Anzahl der Basisvektoren n ist eine Kennzahl (pompöser
gesagt: eine Invariante) des Vektorraums V . Wir nennen sie die Dimension von V und schreiben
dim V = n.
Für den Nullraum V = {0} setzen wir dim V = 0.
Hat ein Vektorraum keine endliche Basis, so sprechen wir von einem unendlichdimensionalen Vektorraum.
Mit Hilfe eines grundlegenden Werkzeugs der Mengenlehre (dem Zornschen Lemma) kann man zeigen,
dass jeder Vektorraum eine Basis besitzt. Wir beschäftigen uns hier aber vornehmlich mit endlichdimensionalen Vektorräumen. Dann ergibt sich der obige Satz unmittelbar aus der folgenden Aussage.
Ist v1 , . . . , vn ein Erzeugendensystem von V und sind u1 , . . . , um ∈ V linear unabhängig, so gilt m ≤ n.
Beweis∗ . Wir zeigen äquivalente Aussage: Gilt Span(v1 , . . . , vn ) = V , so sind u1 , . . . , um ∈ V linear
abhängig falls m > n.
Den Fall u1 = . . . = um = 0 können wir sofort erledigen: 1u1 + · · · + 1um = 0 ist dann eine nichttriviale
Linearkombination. Für das Weitere können wir also zusätzlich annehmen, dass mindestens einer der
Vektoren u1 , . . . , um , etwa u1 , nicht der Nullvektor ist, und zeigen durch Induktion nach n, dass für
m > n immer eine nichttriviale Linearkombination existiert.
Induktionsverankerung bei n = 1: Ist V = Span(v1 ) und sind u1 , . . . , um ∈ V , m > 1, so gibt es Skalare
λ1 , . . . , λm mit uk = λk vk , k = 1, . . . , m. Ist u1 6= 0, so gilt auch λ1 6= 0 und damit λ2 u1 − λ1 u2 =
λ2 λ1 v1 − λ1 λ2 v1 = 0v1 = 0. Wir haben also eine nichttriviale Linearkombination gefunden.
Induktionsschritt n → n + 1: In V = Span(v1 , . . . , vn , vn+1 ) seien u1 , . . . , um+1 ∈ V , m + 1 > n + 1,
gegeben. Dann gibt es Skalare λk,l mit uk = λk,1 v1 + · · · + λk,n+1 vn+1 für k = 1, . . . , m + 1. Durch
Umnummerieren können wir λ1,1 6= 0 erreichen. Die m Vektoren
wl := ul −
n+1
X λ1,1 λk,l − λk,1 λ1,l
λl,1
u1 =
vk ,
λ1,1
λ1,1
l = 2, . . . , m + 1,
k=1
liegen in Span(v2 , . . . , vn+1 ), da der Koeffizient bei v1 verschwindet und es gilt m > n. Nach Induktionsvoraussetzung sind w2 , . . . , wm+1 linear abhängig, d.h. es gibt Skalare µ2 , . . . , µm+1 , nicht sämtliche Null,
mit
m+1
m+1
m+1
m+1
X
X
X 1 X
λl,1
0=
µl wl =
µl ul −
u1 =
µl ul
mit µ1 := −
µl λl,1 .
λ1,1
λ1,1
l=2
l=2
l=1
l=2
Also sind auch u1 , . . . , um+1 linear abhängig.
2.5 Dimensionen wichtiger Vektorräume. Wir erhalten sofort
dim Rn = dim Cn = n,
dim Pn (R) = dim Pn (C) = n + 1,
Dagegen sind die Folgenräume RN und RN ebenso wie die Polynomräume P(R) und P(C) sowie alle
Funktionenräume C k (D) unendlichdimensional. (Bei den Funktionenräumen muss allerdings der Definitionsbereich D unendlich viele Elemente enthalten. Warum?)
224
§1. LINEARE ABBILDUNGEN, VEKTORRÄUME, DIMENSION
2.6 Basisergänzungssatz. Ist v1 , . . . , vn ein Erzeugendensystem von V und sind u1 , . . . , um linear unabhängige Vektoren in V , die keine Basis von V bilden, so lassen sich die u1 , . . . , um durch Hinzunahme
geeigneter vk zu einer Basis von V ergänzen.
Diesen Satz beweisen wir zusammen mit dem folgenden. Beide Sätze sind zusammen mit der Invarianz
der Dimension grundlegend für alle weiteren Schlüsse der endlichdimensionalen linearen Algebra.
2.7 Basisaustauschsatz. Besitzt der Vektorraum V 6= {0} ein endliches Erzeugendensystem v1 , . . . , vn ,
so lässt sich aus diesem eine Basis für V auswählen.
Beweis. Für 2.6 sei U = {u1 , . . . , um } und M = {u1 , . . . , um , v1 , . . . , vn }. Wir betrachten alle Mengen S
mit
U ⊆S⊆M
und
V = Span S.
Dann ist M selbst solch eine Menge und unter all diesen Mengen gibt es (dank des Wohlordnungsprinzips
1.§1.5.6) eine Menge S0 mit kleinster Elementanzahl. Wir zeigen nun, dass die Vektoren von S0 linear
unabhängig sind: Wäre ein vk ∈ S0 Linearkombination der restlichen Vektoren aus S0 , so wäre S0 nicht
minimal. Wäre ein ul ∈ S0 Linearkombination der übrigen Vektoren aus S0 , so müsste dabei irgend ein
vk einen nichtverschwindenden Koeffizienten haben, da u1 , . . . , um linear unabhängig sind. Dieses vk wäre
dann Linearkombination der restlichen Vektoren von S0 , was wir aber zuvor schon ausgeschlossen haben.
Damit ist S0 ein linear unabhängiges Erzeugendensystem, d.h. eine Basis.
Für 2.7 wiederholen wir dieses Argument mit U = ∅ und M = {v1 , . . . , vn }.
2.8 Folgerungen.
(d) In einem n-dimensionalen Vektorraum bilden je n linear unabhängige Vektoren eine Basis.
(e) In einem n-dimensionalen Vektorraum bildet jedes Erzeugendensystem aus n Vektoren eine Basis.
(f) Ist U ein Unterraum eines n-dimensionalen Vektorraums V mit dim U = n, so gilt U = V .
Die Aussagen (d) und (e) ergeben sich unmittelbar aus dem Basisergänzungssatz 2.6 und dem Basisaustauschsatz 2.7. Mit ihnen lässt sich die Arbeit beim Basisnachweis in endlichdimensionalen Vektorräumen
halbieren: statt des Nachweises von linearer Unabhängigkeit und Erzeugen genügt nur die Verifikation
einer dieser beiden Eigenschaften zusammen mit einem Zählargument.
Ist in (f) nun C = (w1 , . . . , wn ) eine Basis für U und B = (v1 , . . . , vn ) eine Basis von V , so wäre im Fall
eines echten Unterraums C keine Basis für V , ließe sich also durch Hinzunahme geeigneter vk zu einer
Basis von V ergänzen. Dann wäre aber dim V > n.
2.9 Dimensionsformel für lineare Abbildungen. Ist L : V → W eine lineare Abbildung auf einem
endlichdimensionalen Vektorraum V mit dim V = n, so gilt
dim Bild(L) + dim Kern(L) = n.
Die Dimensionen des Bildraums bzw. des Kerns werden auch Rang bzw. Defekt genannt und mit
rg(L)
bzw.
def(L)
bezeichnet. Die Dimensionsformel lautet dann rg(L) + def(L) = n. Der Defekt gibt an, wie sehr L von
der Injektivität abweicht, der Rang misst, wie „groß“ der Wertebereich von L ist (vgl. 1.11).
Die Dimensionsformel ist fundamental für die Theorie linearer Gleichungssysteme.
Beweis. Im Fall L = 0 ist Kern(L) = V und rg(L) = dim{0} = 0. Damit stimmt die Dimensionsformel.
Für das Weitere können wir L 6= 0 annehmen und setzen m := def(L). Wegen L 6= 0 gilt m < n.
Im Fall m > 0 wählen wir eine Basis (v1 , . . . , vm ) für Kern(L) und ergänzen sie mit 2.6 zu einer Basis
(v1 , . . . , vm , vm+1 , . . . , vn ) von V . Im Fall m = 0 wählen wir irgend eine Basis (v1 , . . . , vn ) von V .
Wir zeigen nun, dass (L(vm+1 ), . . . , L(vn )) eine Basis für Bild(L) ist. Da diese aus n−m Vektoren besteht,
ist dann die Dimensionsformel bewiesen.
225
KAPITEL 5. LINEARE ALGEBRA
Es gilt Bild(L) = Span(L(vm+1 ), . . . , L(vn )): Die Inklusion „⊇“ ist klar. Für die Inklusion “⊆“ betrachten
wir ein w ∈ Bild(L), d.h. w = L(v) mit einem v = λ1 v1 + . . . + λn vn ∈ V . Wegen L(vk ) = 0 für
k = 1, . . . , m gilt dann
w
=
L(v) = L(λ1 v1 + · · · + λn vn ) = λ1 L(v1 ) + · · · + λm L(vm ) +λm+1 L(vm+1 ) + · · · + λn L(vn )
|
{z
}
=0
= L(λm+1 vm+1 + · · · + λn vn ) ∈ Span(L(vm+1 ), . . . , L(vn )).
Die L(vm+1 ), . . . , L(vn ) sind linear unabhängig: Gilt λm+1 L(vm+1 ) + · · · + λn L(vn ) = 0, so setzen wir
v := λm+1 vm+1 + · · · + λn vn und erhalten aus der Linearität von L dann L(v) = 0, d.h. v ∈ Kern(L). Im
Fall m = 0 folgt v = 0, d.h. λm+1 vm+1 + · · · + λn vn = 0 und dann mit der linearen Unabhängigkeit der
vk auch λm+1 = . . . = λn = 0. Im Fall m > 0 gibt es Skalare λ1 , . . . , λm mit v = λ1 v1 + · · · + λm vm , d.h.
0 = v − v = λ1 v1 + · · · + λm vm − λm+1 vm+1 − · · · − λn vn , was wieder λ1 = . . . = λn = 0 impliziert.
2.10 Bijektive lineare Abbildungen. Für eine lineare Abbildung L : V → W zwischen zwei endlichdimensionalen Vektorräumen V und W mit dim V = n und dim W = m impliziert die Dimensionsformel
2.9 zusammen mit 1.11
L injektiv ⇔ def(L) = 0
⇔
rg(L) = n,
⇔ rg(L) = m
⇔
def(L) = n − m.
L surjektiv
Damit L bijektiv ist, muss also m = n gelten. Dann impliziert aber die Injektivität bemerkenswerterweise
schon die Sujektivität und umgekehrt.
(g) Eine lineare Abbildung L ∈ L(V, W ) kann nur dann umkehrbar sein, wenn dim V = dim W .
(h) Sind V und W endlichdimensional mit dim V = dim W , so gilt für eine lineare Abbildung L ∈ L(V, W ):
L ist bijektiv
⇔
L ist injektiv
⇔
L ist surjektiv.
Anmerkung. Für unendlichdimensionale Vektorräume ist (h) nicht mehr richtig. Beispielsweise ist der
Differentiationsoperator auf P(R) zwar surjektiv (jedes Polynom kann als Ableitung eines Polynoms
dargestellt werden) aber nicht injektiv (alle Polynome mit demselben konstanten Koeffizienten haben
dieselbe Ableitung).
§2
1
Lineare Abbildungen und Matrizen
Umgang mit linearen Abbildungen
1.1 Rechnen mit linearen Abbildungen. Sind V und W zwei K-Vektorräume und L1 , L2 : V → W
zwei lineare Abbildungen so ist für λ1 , λ2 ∈ K auch
λ1 L1 + λ2 L2 : V → W,
v 7→ λ1 L1 (v) + λ2 L2 (v)
eine lineare Abbildung. (Warum?) Damit bilden die linearen Abbildungen V → W ihrerseits einen KVektorraum. Diesen Vektorraum nennt man auch Raum der Homomorphismen von V nach W und bezeichnet ihn mit
Hom(V, W )
oder
L(V, W ).
Gilt V = W , stimmen also Bild- und Zielraum überein, so schreiben wir
End(V )
oder
L(V )
statt Hom(V, V ). Derartige lineare Abbildungen werden auch Endomorphismen genannt.
Ist U ein weiterer K-Vektorraum, so können wir für K ∈ L(U, V ) und L ∈ L(V, W ) die Verkettung L ◦ K
bilden und erhalten eine lineare Abbildung aus L(U, W ). Statt L ◦ K schreibt man auch LK.
226
§2. LINEARE ABBILDUNGEN UND MATRIZEN
2
d
d
00
0
Beispiel. Der Differentialoperator L = dx
2 + a dx + b id, L(y) = y + ay + by, der Schwingungsgleichung
2
d
d
entsteht durch Linearkombination der drei Differentialoperatoren dx
2 , dx , id (zweimaliges, einmaliges
Differenzieren, bzw. die Funktion unverändert lassen). Die rekursive Definition höherer Ableitungen, z.B.
d2
d d
d
dx2 = dx dx können wir als Verkettung des Ableitungsoperators dx mit sich selbst auffassen.
1.2 Was geschieht? Wir führen nun den Matrizenkalkül ein, der es uns erlaubt, lineare Abbildungen
und das Rechnen mit ihnen effizient und elegant zu beschreiben, sofern wir in den zu Grunde liegenden
Vektorräumen Basen gewählt haben.
Achtung. Die Tatsache, dass ein Vektorraum mehrere Basen besitzt, wird dabei zunächst etwas gewöhnungsbedürftige Konsequenzen haben, die sich aber gerade im Hinblick auf die Anwendungen im Alltag
als nützliches Mittel bei der Suche nach einer eleganten Beschreibung von Anwendungsproblemen herausstellen.
2
Darstellung linearer Abbildungen durch Matrizen
2.1 Beschreibung einer linearen Abbildung nach Wahl von Basen. Die folgenden beiden Beobachtungen sind grundlegend für den Matrizenkalkül.
(a) Ist (v1 , . . . , vn ) eine Basis von V , so ist eine lineare Abbildung L ∈ L(V, W ) durch die Kenntnis der
Bildvektoren L(v1 ), . . . , L(vn ) eindeutig festgelegt.
(b) Zu vorgegebenen Vektoren w1 , . . . , wn ∈ W gibt es genau eine lineare Abbildung L ∈ L(V, W ) mit
L(v1 ) = w1 , . . . , L(vn ) = wn .
Beweis. Zu (a): Hat v ∈ V die Basisdarstellung v = λ1 v1 + · · · + λn vn mit Skalaren λ1 , . . . , λn ∈ K, so
gilt wegen der Linearität L(v) = λ1 L(v1 ) + · · · + λn L(vn ).
Zu (b): Für v ∈ V mit Basisdarstellung v = λ1 v1 + . . . + λn vn erklären wir L(v) := λ1 w1 + · · · + λn wn .
Dann gilt insbesondere L(vk ) = wk . Man rechnet leicht nach, dass L dann linear ist.
Anmerkung. Nach (a) sind lineare Abbildungen eigentlich langweilig. Normalerweise ist eine Abbildung
L : V → W erst dann eindeutig festgelegt, wenn wir für jedes v ∈ V das Bild L(v) angegeben haben. Ist
L aber linear (und dim V = n endlich), so genügt die Kenntnis der Bilder von n Basisvektoren.
2.2 Darstellungsmatrix einer linearen Abbildung nach Wahl von Basen. Gilt
dim V = n,
dim W = m,
so wählen wir Basen B = (v1 , . . . , vn ) für V und C = (w1 , . . . , wm ) für W . Zur Beschreibung einer
linearen Abbildung L : V → W genügt gemäß 2.1 die Angabe von L(v1 ), . . . , L(vn ). Diese Vektoren
besitzen bezüglich der Basis C von W Basisdarstellungen
L(vk ) =
m
X
aj,k wj ,
k = 1, . . . , n.
j=1
Die somit eindeutig bestimmten Koeffizienten aj,k ∈ K, j = 1, . . . , m, k = 1, . . . , n, ordnen wir zu einem
rechteckigen Schema


a1,1 · · · a1,n
 ..
.. 
 .
aj,k
. 
am,1 · · · am,n
an, nennen dieses Schema (Darstellungs-)Matrix von L bezüglich der Basen B und C und bezeichnen es
mit
MBC (L).
227
KAPITEL 5. LINEARE ALGEBRA
Bei fest gewählten Basen B und C von V bzw. W lassen wir deren Angabe weg und schreiben einfach


a1,1 · · · a1,n

..  = (a )k=1,...,n
oder kurz
(aj,k ).
A =  ...
j,k j=1,...,m
a
. 
j,k
am,1
···
am,n
Im letzten Fall muss man sich die Abmessungen der Matrix selbst zurecht legen.
Wir nennen A eine (m×n)-Matrix mit m Zeilen und n Spalten, j den Zeilenindex und k den Spaltenindex .
Gewöhnlich wird in A = (aj,k ) immer zuerst der Zeilenindex angegeben („Zeile zuerst, Spalte später“).
Die aj,k heißen Koeffizienten, Komponenten oder Einträge der Matrix A.
Die k-te Spalte von A = MBC (L) enthält die Koordinaten des Bildes L(vk ) des k-ten Basisvektors vk
unter L


a1,1 · · · a1,n

..  = (L(v ) , . . . , L(v ) ),
MBC (L) =  ...
1 C
n C
. 
L(vk )C
=
am,1 · · ·


a1,k
 .. 
 . ,
am,n
L(vk ) = a1,k w1 + · · · + an,k wm .
am,k
Die Menge der (m × n)-Matrizen mit reellen (bzw. komplexen) Koeffizienten bezeichnen wir mit Rm×n
(bzw. Cm×n ).
Beispiel. Die Nullabbildung 0 ∈ L(V, W ), v 7→ 0, besitzt als Darstellungsmatrix MBC (0) bezüglich eines
jeden Basispaars B von V und C von W die Nullmatrix


0 ··· 0


0m,n :=  ... . . . ...  = (0)k=1,...,n
j=1,...,m .
0
···
0
Oft schreiben wir einfach 0 statt 0m,n und haben damit schon wieder eine neue 0 eingeführt.
2.3 Quadratische Matrizen. Im Fall V = W können wir — müssen aber nicht — in Definitions- und
Zielraum dieselbe Basis B wählen. Haben wir das getan, so schreiben wir MB (L) statt MBB (L).
Beispiele. Zur identischen Abbildung id
Einheitsmatrix

1
0

En :=  .
 ..
0
∈ L(V ), x 7→ x, gehört bezüglich jeder Basis B von V die

0 ··· 0
1 · · · 0

k=1,...,n
.. . .
..  = (δj,k )j=1,...,n .

.
.
.
0
···
1
Meist schreiben wir einfach E statt En .
Weitere Beispiele für quadratische Matrizen sind Drehmatrizen in der Ebene 3.§2.6.1 und im Raum
3.§4.3.4.
Achtung. Wählen wir für id : R2 → R2 im Definitionsraum R2 die Standardbasis B = (e1 , e2 ), aber im
Bildraum R2 die Basis C = (e2 , e1 ) (das ist eine andere Basis, da sie sich von B in der Reihenfolge der
Basisvektoren unterscheidet), so erhalten wir als Darstellungsmatrix MBC (id) = 01 10 6= E2 .
Einfache lineare Abbildungen können also bei „ungeschickter“ Basiswahl komplizierte Darstellungen bekommen. Umkehrt werden wir bald lernen, dass komplizierte lineare Abbildungen bei geeigneter Basiswahl
einfache Darstellungen bekommen. Das ist u.a. der Trick bei der Hauptachsentransformation §6.4.
228
§2. LINEARE ABBILDUNGEN UND MATRIZEN
2.4 Darstellungsmatrizen von Linearformen. Für eine Linearform L ∈ L(V, K) wählen wir eine
Basis B = (v1 , . . . , vn ) von V und die Zahl 1 als Basis K des eindimensionalen Vektorraums K. Dann
hat L die (1 × n)-Matrix (Zeilenmatrix )
MBK (L) = (a1,1 , . . . , a1,n ) = (L(v1 ), . . . , L(vn )) ∈ R1×n
als Darstellungsmatrix. Ist V ein R-Vektorraum und hat v die Basisdarstellung v = x1 v1 + · · · + xn vn , so
können wir das mit dem Koordiantenvektor x := vB von v bezüglich B auch als Skalarprodukt schreiben:
L(v) = L(x1 v1 + · · · + xn vn ) = x1 L(v1 ) + · · · + xn L(vn ) = a1,1 x1 + · · · + a1,n xn = hx|ai = hvB |ai.
Umgekehrt ist jede Abbildung v 7→ hvB |ai, v ∈ V , eine Linearform auf V . Die Linearformen eines ndimensionalen R-Vektorraums können nach Wahl einer Basis durch Vektoren mit n reellen Einträgen
dargestellt werden.
Das stimmt mit analoger Begründung auch für Linearformen eines C-Vektorraums, sobald wir in §6.2.1
auch dort ein Skalarprodukt erklärt haben.
2.5 Berechnen des Bildvektors. Für eine lineare Abbildung L ∈ L(V, W ) mit Darstellungsmatrix
MBC (L) = A = (aj,k ) ∈ Km×n bezeichnen wir die Koordinaten eines Vektors v ∈ V und seines Bildvektors
w = L(v) ∈ W mit
 
 
x1
y1
 
 
vB =: x =  ...  ,
wC = L(v)C =: y =  ...  .
xn
ym
In Koordinatenschreibweise liest sich L(v) = w wegen
L(v) = L(x1 v1 + x2 v2 + · · · + xn vn )
= x1 L(v1 ) + x2 L(v2 ) + · · · + xn L(vn )
=
x1 a1,1 w1 + x1 a2,1 w2 + · · · + x1 am,1 wm
+x2 a1,2 w1 + x2 a2,2 w2 + · · · + x2 am,2 wm
..
.
+xn a1,n w1 + xn a2,n w2 + · · · + xn am,n wm
=
(a1,1 x1 + a1,2 x2 + · · · + a1,n xn )w1
+(a2,1 x1 + a2,2 x2 + · · · + a2,n xn )w2
..
.
+(am,1 x1 + am,2 x2 + · · · + am,n xn )wm
= y1 w1 + y2 w2 + · · · + ym wm
komponentenweise als
n
X
aj,k xk = yj ,
j = 1, . . . , m.
k=1
oder knapp in Einsteinscher Summenkonvention als
aj,k xk = yj .
Wir fassen diese Gleichungen in Kurzform zusammen zu
Ax = y
und haben damit allgemein eine Matrix-Vektor-Multiplikation erklärt. Selbige ergibt sich damit nach dem
229
KAPITEL 5. LINEARE ALGEBRA
Schema

a1,1
 ..
 .
am,1
|
···
a1,k
..
.
···
···
am,k
{z
···
=A∈Km×n
 
x1
 .  
  
y1
a1,n  .. 
a1,1 x1 + · · · + a1,n xn
 


. 
..  
.
 
..
 =  ..  .
.   xk  = 
 
ym
am,n  ... 
am,1 x1 + · · · + am,n xn
| {z }
}
xn
=y∈Km
| {z }
=x∈Kn
Zur Berechnung von y = Ax denke man sich also den Koordinatenvektor x über die Zeilen von A gelegt
und bilde die Summen der Produkte übereinanderstehender Koeffizienten um die Komponenten von y zu
berechnen.
Schreiben wir eine Matrix A ∈ Km×n als Ansammlung ihrer Spaltenvektoren a1 , . . . , an ∈ Km , so lässt sich
das Matrizen-Vektor-Produkt Ax auch als Linearkombination der Spalten von A mit den Koeffizienten
von x als Skalaren interpretieren:




a1,n
a1,1




Ax = (a1 , . . . , an )x = x1 a1 + · · · + xn an = x1  ...  + · · · + xn  ...  .
am,1
am,n
Achtung. Ax kann nur gebildet werden, wenn der Vektor x genau so viele Komponenten hat wie die
Matrix A Spalten. Der Ergebnisvektor erbt dann von A die Zeilenzahl.
Beispiel.

2
1
2
3
−3
0
0
 
 
 
 
  
  
 4
2
−3
0
3
2·4−3·0+0·3−3·1
5
0 3  
0
1 +0  0  +3 5 −1 1 = 1 · 4 + 0 · 0 + 5 · 3 − 1 · 1 = 18 .
5 1 
=
4
3
2
0
0
3
2·4+0·0+0·3−3·1
5
0 3
−1
Grundlegender Matrizenkalkül
3.1 Zielsetzung. Wir wollen das Rechnen mit linearen Abbildungen nach Wahl von Basen in das
Rechnen mit Matrizen übersetzen. Grundlegende Rechenoperationen für lineare Abbildungen sind:
• für L, M ∈ L(V, W ): das Bilden der Summe L + M : V → W , v 7→ L(v) + M (v),
• für L ∈ L(V, W ) und λ ∈ K: das Bilden des Vielfachen λL : V → W , v 7→ λL(v),
• für M ∈ L(U, V ) und L ∈ L(V, W ): das Bilden der Verkettung L ◦ M : U → W , v 7→ L(M (v)),
• für bijektives L ∈ L(V, W ): das Bilden der Umkehrabbildung L−1 : W → V .
Man verifiziert, dass die Abbildungen L + M , λL und L ◦ M und L−1 selbst linear sind (sofern sie gebildet
werden können). Also sollten sich die Darstellungsmatrizen dieser Abbildungen aus denen von L und M
berechnen lassen. Das tun wir in für die ersten drei Fälle in 3.2–3.4, für die Umkehrabbildung in 3.9.
3.2 Summe zweier Matrizen. Sind in zwei K-Vektorräumen V und W mit dim V = n und dim W = m
Basen B bzw. C fest gewählt und sind L, M ∈ L(V, W ) zwei lineare Abbildungen mit Darstellungsmatrizen
MBC (L) = A = (aj,k ) ∈ Km×n ,
MBC (M ) = B = (bj,k ) ∈ Km×n ,
so ist die Darstellungsmatrix von L + M ∈ L(V, W ) gegeben durch
MBC (L + M ) = A + B := (aj,k + bj,k ) ∈ Km×n .
Die Darstellungsmatrizen werden koeffizientenweise addiert. Offensichtlich geht das nur, wenn beide Matrizen A, B gleiche Abmessung haben. Die Summenmatrix A + B hat dann dieselbe Abmessung.
230
§2. LINEARE ABBILDUNGEN UND MATRIZEN
3.3 Vielfaches einer Matrix. Sind in zwei K-Vektorräumen V und W mit dim V = n und dim W = m
Basen B bzw. C fest gewählt, ist λ ∈ K ein Skalar und ist L ∈ L(V, W ) eine lineare Abbildungen mit
Darstellungsmatrix
MBC (L) = A = (aj,k ) ∈ Km×n ,
so ist die Darstellungsmatrix von λL ∈ L(V, W ) gegeben durch
MBC (λL) = λA := (λaj,k ) ∈ Km×n .
Jeder Eintrag der Darstellungsmatriz A wird also mit λ multipliziert. Die so entstehende Matrix λA hat
dann dieselbe Abmessung wie A.
3.4 Produkt zweier Matrizen. Sind in drei K-Vektorräumen U , V und W mit dim U = p, dim V = n
und dim W = m Basen A, B bzw. C fest gewählt und sind L ∈ L(V, W ) und M ∈ L(U, V ) zwei lineare
Abbildungen mit Darstellungsmatrizen
MBC (L) = A = (aj,k ) ∈ Km×n ,
B
MA
(M ) = B = (bk,l ) ∈ Kn×p ,
so ist die Darstellungsmatrix von L ◦ M ∈ L(U, W ) gegeben durch
C
MA
(L
m×p
◦ M ) = A · B := (cj,l ) ∈ K
mit cj,l :=
n
X
aj,k bk,l ,
k=1
d.h. ausführlich

a1,1
 ..
 .

 aj,1

 .
 ..
am,1
···
···
···

a1,n
..  
b1,1
. 
 .

aj,n   ..
.. 
bn,1
. 
am,n
···
b1,l
..
.
···
···
bn,l
···
 
c1,1
b1,p
..  =  ..
.   .
bn,p
cm,1
···

c1,p
.. 
. .
cj,l
···
cm,p
Für das Matrizenprodukt A · B schreiben wir auch kurz AB. Es kann nur gebildet werden, wenn die
Zeilenzahl der zweiten mit der Spaltenzahl der ersten Matrix übereinstimmt (dem entspricht, dass der
Definitionsraum der nachgeschalteten Abbildung mit dem Zielraum der vorgeschalteten übereinstimmt,
d.h. insbesondere dieselbe Dimension hat). Dann hat die Produktmatrix AB ebenso viele Zeilen wie A
und Spalten wie B.
Für die Berechnung des Produkts gilt dann die Merkregel: „Man erhält die Spalten der Produktmatrix
AB, indem man die Spalten von B an die Matrix A multipliziert“, d.h.
AB = A( b1 , . . . , bn ) = (Ab1 , . . . , Abn ).
| {z }
Spalten von B
3.5 Potenz einer quadratischen Matrix, nilpotente Matrizen. Für A ∈ Kn×n erklären wir An
rekursiv durch
A0 := En ,
An := A · An−1 für n ≥ 1.
Das Bilden von An entspricht (nach Wahl einer Basis von V ) der n-fachen Verkettung einer linearen
Abbildung L ∈ L(V ) mit sich selbst.
Gilt dann An = 0 für ein n ∈ N, so nennen wir die Matrix A nilpotent.
Beispiel. Für

0
A := 0
0
1
0
0

0
1
0
gilt

1
A0 = E = 0
0
0
1
0


0
0
0 , A1 = A = 0
1
0
1
0
0


0
0
1 , A2 = 0
0
0
0
0
0


1
0
0 , A3 = 0
0
0
0
0
0

0
0  = A4 = . . . .
0
231
KAPITEL 5. LINEARE ALGEBRA
3.6∗ Beweis der Darstellungen für Summe, Vielfaches und Produkt. Seien A = (u1 , . . . , up ),
B = (v1 , . . . , vn ) und C = (w1 , . . . , wm ). Dann folgt mit der Linearität von L und M
(L+M )(vk ) = L(vk ) + M (vk ) =
m
X
aj,k wj +
j=1
(λL)(vk ) = λL(vk ) = λ
m
X
(L◦M )(uµ ) = L(M (ul )) = L
m
X
bj,k wj =
(aj,k + bj,k )wj ,
j=1
aj,k wj =
j=1
m
X
j=1
m
X
(λaj,k )wj ,
j=1
n
X
!
bk,l vk
k=1
=
n
X
bk,l L(vk ) =
k=1
n
X
k=1
bk,l
m
X
aj,k wj =
j=1
m
n
X
X
j=1
!
aj,k bk,l
wj ,
k=1
woraus wir mit 2.1 (b) ablesen, dass die Darstellungsmatrizen von L + M , λL bzw. L ◦ M tatsächlich die
in 3.2, 3.3 bzw. 3.4 angegebene Form haben.
3.7 Rechenregeln für Addition, Vielfaches und Produkt von Matrizen.
(a) Bei fest gewählten Basen B von V und C von W existiert zu jeder Matrix A ∈ Km×n genau eine
lineare Abbildung L : V → W mit A = MBC (L).
(b) Die Matrizen aus Km×n bilden zusammen mit der Addition von Matrizen 3.2 und der Skalarmultiplikation 3.3 einen K-Vektorraum der Dimension mn.
(c) Die Matrizenmultiplikation erfüllt das Assoziativgesetz
A(BC) = (AB)C.
(d) Matrizenaddition und -multiplikation erfüllen das Distributivgesetz
A(B + C) = AB + AC.
(e) Für die Matrizenmultiplikation und das Bilden von Vielfachen gilt
(λA)(µB) = (λµ)(AB).
In den Regeln (c)–(e) müssen die beteiligten Matrizen natürlich die richtigen Abmessungen haben.
Dank (c) können wir bei der Produktbildung die Klammern weglassen.
Beweis. (a) folgt sofort aus 2.1. Für (b) prüft man die Vektorraumaxiome durch stumpfsinniges Nachrechnen. Für die Dimensionsaussage betrachtet man die Basis gebildet aus den mn Matrizen mit genau
einem Eintrag 1 und sonst 0. Die Regeln (c)–(e) ergeben sich aus den entsprechenden Gesetzen für das
Verketten und Addieren von Abbildungen.
Beispiel. Für
A=
1
2
−2
4
0
,
3

−1
−1 ,
2

3
B = 1
0
C=
2
0
1
.
1
berechnen wir
1
2

3
B(C + C 2 ) = 1
0

3
= 1
0
ABC
=


3 −1 −2 0 
2
1 −1
4 3
0
0 2

−1 2 1
2
−1
+
0 1
0
2


−1 18
6 4
−1
=6
0 2
2
0
1
1
2
0

10
2 .
4
1
1


6 2
−2 0 
2 2
2 0 =
,
4 3
20 10
0 2


3 −1 1
2 1
4 3
= 1 −1
+
1
0 1
0 1
0 2
1
=
2
Es gilt AB ∈ R2×2 aber BA ∈ R3×3 — beim Matrizenprodukt können wir also keine Kommutativität
erwarten, ja es oftmals gar nicht in beiden Reihenfolgen bilden. Die Terme A + C oder CB können aus
Abmessungsgründen nicht gebildet werden.
232
§2. LINEARE ABBILDUNGEN UND MATRIZEN
Achtung. Beim Rechnen mit Matrizen immer zuerst die Abmessungen prüfen.
3.8 Rechenregeln für quadratische Matrizen. Gemäß 3.7 bilden die quadratischen (n × n)-Matrizen
einen Vektorraum der Dimension n2 . Zusätzlich zu den zuvor genannten Regeln gelten hier weitere. Wir
notieren alle zusammen.
(f) Die Matrizenmultiplikation ist assoziativ (A(BC) = (AB)C) und distributiv (A(B + C) = AC + BC),
und es gilt (λA)(µB) = (λµ)(AB).
(g) Die Einheitsmatrix E = En ist neutrales Element der Multiplikation: AE = EA = A.
(h) Die Multiplikation ist für n ≥ 2 nicht kommutativ, i.A. gilt AB 6= BA.
(i) Die Multiplikation ist für n ≥ 2 nicht nullteilerfrei, d.h. es gibt (n×n)-Matrizen A, B 6= 0 mit AB = 0.
Beweis. Spannend ist nur der Nachweis von (h) und (i). Das Beispiel
0 1
0 0
A=
,
B=
0 0
1 0
zeigt, dass Kommutativität und Nullteilerfreiheit in K2×2 verletzt sind. Es gilt nämlich
1 0
0 0
0 1
0 1
0 0
2
AB =
6=
= BA,
A = AA =
=
.
0 0
0 1
0 0
0 0
0 0
Für n ≥ 2 schließe man analog mit entsprechend vergrößerten Matrizen.
Anmerkung. Zusätzlich zur Vektorraumstruktur in Kn×n , d.h. einer Addition und einer Skalarmultiplikation samt den zugehörigen Regeln, haben wir hier noch eine Multiplikation, welche die Regeln
(f)–(i) erfüllt. In der Mathematik nennt man eine derartige Struktur eine nichtkommutative Algebra mit
Einselement.
3.9 Invertierbare Matrizen. Nach 2.10 müssen bei einer bijektiven linearen Abbildung zwischen zwei
endlichdimensionalen Vektorräumen Definitions- und Zielraum dieselbe Dimension haben. Für bijektives
L ∈ L(V ) mit dim V = n überträgt sich dann die Beziehung L ◦ L−1 = L−1 ◦ L = idV nach Wahl
einer Basis B von V in die Beziehung AB = BA = E für die Darstellungsmatrizen A = MB (L) und
B = MB (L−1 ).
Eine quadratische Matrix A ∈ Kn×n nennen wir daher invertierbar , falls es eine quadratische Matrix
B ∈ Kn×n gibt mit
AB = BA = E.
Die Matrix B ist dann die Darstellungsmatrix der Umkehrabbildung. Sie ist somit eindeutig bestimmt
und wir bezeichnen sie mit
A−1 .
Ist V endlichdimensional, so ist L ∈ L(V ) genau dann bijektiv, wenn nach Wahl einer Basis B die
Darstellungsmatrix A = MB (L) invertierbar ist. Dann gilt A−1 = MB (L−1 ).
3.10 Invertierbare Matrizen und Basen. Eine Matrix A ∈ Kn×n ist genau dann invertierbar, wenn
die Spalten von A eine Basis des Kn bilden.
Beweis. Genau dann bildet (a1 , . . . , an ) eine Basis des Kn , wenn y = x1 a1 + · · · + xn an = Ax für jedes
y ∈ Kn eindeutig lösbar ist, d.h. wenn die zu A gehörige lineare Abbildung bijektiv ist.
Beispiel. Eine (2 × 2)-Matrix
a
A=
c
b
d
ist genau dann invertierbar, wenn keine der beiden Spalten ein Vielfaches der anderen ist, d.h. ad−bc 6= 0.
Dann gilt
1
d −b
−1
.
A =
ad − bc −c a
233
KAPITEL 5. LINEARE ALGEBRA
Anmerkung. In §4.2.4 zeigen wir, dass eine Matrix genau dann invertierbar ist, wenn ihre Determinante
nicht verschwindet. In §3.2.6 führen wir vor, wie man die inverse Matrix mit einer simultanen GaußElimination berechnet.
3.11 Rechenregeln für die inverse Matrix. Für quadratische Matrizen A, B ∈ Kn×n gilt:
(j) Ist AB = E, so sind beide Matrizen invertierbar mit B = A−1 .
(k) Sind A und B invertierbar, so auch AB mit
(AB)−1 = B −1 A−1 .
Beweis. In (j) gilt für die zugehörigen linearen Abbildungen L, M ∈ L(V ) dann L ◦ M = idV . Damit
ist L surjektiv und M ist injektiv. Nach 2.10 sind beide Abbildungen bijektiv mit M = L−1 . Nun folgt (k)
aus
(AB)(B −1 A−1 ) = A(BB −1 )A−1 = AEA−1 = AA−1 = E.
Beispiel. Beim Rechnen mit inversen Matrizen tauchen oft Operationen der folgenden Art auf:
(S −1 AS)k
=
(S −1 AS)(S −1 AS) · · · (S −1 AS) = S −1 A(SS −1 )A(S · · · S −1 )AS
= S −1 AEA · · · AS = S −1 Ak S.
Man beachte, wie bei obiger Rechnung durch Umklammern vom Assoziativgesetz gezehrt wurde, ohne
das nicht zur Verfügung stehende Kommutativgesetz zu verwenden.
3.12 Dreiecksmatrizen. Eine quadratische Matrix A = (aj,k ) ∈ Kn×n heißt obere (untere) Dreiecksmatrix , falls aj,k = 0 für j > k (j < k). Die Einträge a1,1 , . . . , an,n heißen Diagonaleinträge.
Eine Dreiecksmatrix ist genau dann invertierbar, wenn kein Diagonaleintrag verschwindet. Die inverse
Matrix ist dann wieder eine Dreiecksmatrix.
Beweis. Wir betrachten für eine obere
dabei spaltenweise, d.h.

a1,1 a1,2 · · ·
 0
a2,2

BA = (b1 , . . . , bn )  .
..
 ..
.
0
0
···
0
Dreiecksmatrix A das Matrizenprodukt BA und schreiben B

a1,n
a2,n 

..  = (a1,1 b1 , a1,2 b1 + a2,2 b2 , . . . , a1,n b1 + · · · + an,n bn ).
{z
}
{z
}
|
| {z } |
. 
1.
an,n
2.
n-te Spalte von BA
Die Einheitsmatrix entsteht hierbei genau dann, wenn für die Spalten b1 , . . . , bn von B die Bedingungen
a1,1 b1
a1,2 b1
+a2,2 b2
a1,n b1
+a2,n b2
+···
+an,n bn
=
=
..
.
e1 ,
e2 ,
=
en
erfüllt sind. Dazu dürfen die Diagonaleinträge von A nicht verschwinden. Dann berechnen sich die Spalten
von A−1 = B rekursiv zu
1
1
1
b1 =
e1 ,
b2 =
(e2 − a1,2 b1 ),
...,
bn =
(en − a1,n b1 − · · · − an−1,n bn−1 ).
a1,1
a2,2
an,n
Die inverse Matrix ist damit selbst eine obere Dreiecksmatrix. Für untere Dreicksmatrizen schließe man
analog.
Beispiel. Es gilt

1
0
0
2
1
0
−1 
3
1
2 = 0
1
0
da nach obigem Schema
1
1
b2 = (e2 − 2b1 ) = −2e1 + e2 ,
b1 = e 1 = e 1 ,
1
1
−2
1
0

1
−2 ,
1
b3 =
1
(e3 − 3b1 − 2b2 ) = e1 − 2e2 + e3 .
1
234
§2. LINEARE ABBILDUNGEN UND MATRIZEN
3.13 Transponieren, Konjugieren und Adjungieren einer Matrix. Wir beenden diesen Abschnitt
mit zwei Operationen für Matrizen, die zunächst keine abbildungstheoretische Interpretation zu haben
scheinen, sich aber als recht nützlich im Matrizenkalkül erweisen.
Vertauschen wir die Zeilen und Spalten einer (m×n)-Matrix, so wird die dabei entstehende (n×m)-Matrix
transponierte Matrix genannt und mit AT bezeichnet:


a1,1 · · · am,1


.. 
a1,1 · · · a1,k · · · a1,n
 ..
. 
 .

..
..  .
· · · am,k 
,
für A =  ...
AT := 
.
. 
a1,k
.. 

 ..
am,1 · · · am,k · · · am,n
.
.
a1,n · · · am,n
Hat A komplexe Einträge, so erklären wir die konjugierte Matrix durch elementweises Konjugieren


a1,1 · · · a1,n

..  .
A :=  ...
. 
am,1 · · · am,n
Für Matrizen aus Cm×n werden Transponieren und Konjugieren zusammengefasst zum Adjungieren


a1,1 · · · am,1


.. 
a1,1 · · · a1,k · · · a1,n
 ..
. 
 .
T

..
..  .
· · · am,k 
A∗ := A = AT = 
,
für A =  ...
.
. 
a1,k
.. 
 ..

am,1 · · · am,k · · · am,n
.
.
a1,n · · · am,n
Statt AT schreibt man auch At , statt A∗ auch A† .
3.14 Rechenregeln für Transponieren und Konjugieren.
(l) (AT )T = A, A = A, (A∗ )∗ = A.
(m) (A + B)T = AT + B T , A + B = A + B, (A + B)∗ = A∗ + B ∗ .
(n) (λA)T = λAT , λA = λ A, (λA)∗ = λA∗ .
(o) (AB)T = B T AT , AB = A B, (AB)∗ = B ∗ A∗ .
Beweis. Die Regeln (l) und (m) sind offensichtlich, (n) und (o) ergeben sich durch ordentliches Nachrechnen.
3.15 Symmetrische und hermitesche Matrizen. Eine reelle (n × n)-Matrix A heißt symmetrisch
bzw. antisymmetrisch, wenn
AT = A
bzw.
AT = −A.
Für eine symmetrische Matrix gilt aj,k = ak,j , sie wird also durch die n(n+1)/2 Einträge auf und oberhalb
der Diagonalen festgelegt. Für eine antisymmetrische Matrix gilt aj,k = −ak,j , d.h. insbesondere aj,j = 0.
Eine komplexe (n × n)-Matrix A heißt hermitesch bzw. antihermitesch, wenn
A∗ = A
bzw.
A∗ = −A.
Jede reelle quadratische Matrix A kann via
1
1
(A + AT ) +
(A − AT )
A=
| {z }
2 | {z }
2
symmetrisch
antisymmetrisch
als Summe einer symmetrischen und einer antisymmetrischen Matrix dargestellt werden. Für komplexe
quadratische Matrizen besteht eine analoge Zerlegung
1
1
A=
(A + A∗ ) +
(A − A∗ ) .
| {z }
2 | {z } 2
hermitesch
antihermitesch
235
KAPITEL 5. LINEARE ALGEBRA
3.16 Standardnorm und -skalarprodukt im Rn (vgl. 3.§3.2). Aus einem Spaltenvektor
 
x1
 
x =  ...  ∈ Rn
xn
entsteht durch Transponieren ein Zeilenvektor
xT = (x1 , . . . , xn ).
Die Norm kxk können wir nun als Matrizenprodukt darstellen:
kxk2 = x1 2 + · · · + xn 2 = xT x
für x ∈ Rn .
Für das Standardskalarprodukt im Rn folgt analog
hy|xi = y1 x1 + · · · + yn xn = y T x
für x, y ∈ Rn .
Achtung. y T x = xT y ist eine reelle Zahl. (Welche Abmessungen hat dagegen xy T ?)
3.17 Nochmals Matrizenprodukte. Aus der Definition 3.4 ergeben sich drei nützliche Lesarten für
das Matrizenprodukt AB von A ∈ Km×n und B ∈ Kn×p . Wir haben diese Lesarten teilweise schon in
vorangegangenen Argumenten verwendet und stellen sie jetzt als „Schatzkästchen“ zusammen.
(p) Man erhält die Spalten von AB indem man die Spalten von B von rechts an A multipliziert:
 
b1,l
 .. 
AB = A(b1 , . . . , bp ) = (Ab1 , . . . , Abp )
mit bl =  . 
bn,l
(q) Man erhält die Zeilen von AB, indem man die Zeilen von A von links an B multipliziert:
 T 
 T
a1 B
a1




mit aj T = (aj,1 , . . . , aj,n ).
AB =  ...  B =  ... 
am T B
am T
(r) Man erhält die Einträge von AB, indem man die Zeilen von A mit den Spalten von B multipliziert:
 T
 T

a1
a1 b1
···
a 1 T bp



..  .
AB =  ...  (b1 , . . . , bp ) =  ...
aj T bl
. 
T
T
am
am b1
···
am T bp
3.18 Orthogonale und unitäre Matrizen. Bilden die Vektoren u1 , . . . , un ∈ Rn ein ONS, so gilt
huj |uk i = uj T uk = δj,k . Für die aus diesen Vektoren gebildete Matrix U := (u1 , . . . , un ) ∈ Rn×n erhalten
wir damit
 T
u1
 .. 
T
U U =  .  (u1 , . . . , un ) = (uj T uk ) = (δj,k ) = E.
un T
Erfüllt umgekehrt eine Matrix U ∈ Rn×n die Bedingung
U T U = U U T = E,
so sind nach obiger Lesart die Spalten (und auch die Zeilen) von U normiert und stehen paarweise
aufeinander senkrecht. Derartige Matrizen heißen orthogonal .
Eine Matrix U ∈ Rn×n ist genau dann orthogonal, wenn ihre Spalten (und dann auch die Zeilen) ein
ONS bezüglich des Standardskalarprodukts im Rn bilden. Dann ist U invertierbar mit U −1 = U T .
Das komplexe Analogon hierzu sind die unitären Matrizen. Das sind diejenigen U ∈ Cn×n mit
U ∗ U = U U ∗ = E.
236
§2. LINEARE ABBILDUNGEN UND MATRIZEN
Eine unitäre Matrix ist damit ebenfalls invertierbar mit U −1 = U ∗ . Sobald wir in §6.2 für C-Vektorräume
ein Skalarprodukt eingeführt haben, werden wir die Analogie zu orthogonalen Matrizen in R-Vektorräumen vervollständigen.
4
Basiswechsel, Koordinatentransformation und Darstellungsmatrizen
4.1 Worum geht es? Ein und dieselbe lineare Abbildung L hat bezüglich verschiedener Basen in Definitions- und Zielraum verschiedene Darstellungsmatrizen. Wir studieren nun, wie sich ein Basiswechsel auf
die Darstellungsmatrix auswirkt. Das liefert uns die Grundlage, später „geschickte“ Basen wählen zu
können, um das Abbildungsverhalten einer linearen Abbildung zu verstehen. Dabei beschränken wir uns
auf den einfachsten Fall L ∈ L(V ), der auch für die Anwendungen der wichtigste ist.
4.2 Basiswechsel. Wir wählen in einem endlichdimensionalen Vektorraum V zwei Basen B = (v1 , . . . , vn )
und B 0 = (v10 , . . . , vn0 ). Ein Vektor v ∈ V besitzt bezüglich dieser beiden Basis die Basisdarstellungen
v=
n
X
x k vk ,
v=
k=1
n
X
x0k vk0 ,
k=1
d.h. die Koordinatenvektoren


x1
 
vB =: x =  ...  ,

x01
 
=: x0 =  ...  .

vB 0
x0n
xn
Mit dem folgenden Trick können wir nun diese beiden Koordinatendarstellungen ineinander umrechnen.
Wir betrachten die identische Abbildung idV , v 7→ v, und wählen im Definitionsraum V die Basis B 0 , im
Zielraum V dagegen die Basis B.
nach Wahl von Basen:
v7→idV (v)=v
−→
V
koordinatenfrei:
x0 7→x
0
(V, B )
−→
V
(V, B)
Gemäß 3.9 ist die zugehörige Darstellungsmatrix
S := MBB0 (idV )
dann invertierbar. Die Umkehrabbildung (das ist wieder idV , jetzt aber mit den Basen B im Definitionsund B 0 im Zielraum) hat damit gemäß 3.9 die Darstellungsmatrix
0
S −1 := MBB (idV ).
Die k-te Spalte von S enthält die Koordinaten von vk0 bezüglich B, die l-te Spalte von S −1 die Koordinaten
von vl bezüglich B 0 .
Beispiel. Wir betrachten den R3 mit den beiden Basen
     
     
0
1
1
1
0
0
B = (v1 , v2 , v3 ) = 1 , 0 , 1 ,
B 0 = (v10 , v20 , v30 ) = 1 , 1 , 0 .
1
1
0
1
1
1
Offensichtlich gilt
v10
v1
und damit
1
(v1 + v2 + v3 ),
20
= v2 ,
v20
=

1/2
S = 1/2
1/2
v2
1
0
0
v30
=
v30 ,
v3
=

0
= 1
0
1
−1
1

1
0 ,
−1
= v1 ,
=

1/2
1/2  .
−1/2
v10
−
v20
+
S −1
1
2 (v1
v10 −
+ v2 − v3 ),
v30
237
KAPITEL 5. LINEARE ALGEBRA
Betrachten wir den Polynomraum P2 (R) mit den beiden Basen
B 0 = (x2 + x + 1, x2 + x, x2 ),
B = (x2 + x, x2 + 1, x + 1),
so haben die Basisvektoren bezüglich der Standardbasis (1, x, x2 ) des P2 (R) die Koordinatenvektoren
(0, 1, 1)T , (1, 0, 1)T , (1, 1, 0)T , bzw. (1, 1, 1)T , (0, 1, 1)T , (0, 0, 1)T und wir erhalten dieselben Darstellungsmatrizen für die beiden Basiswechsel.
4.3 Koordinatenwechsel. Ein Vektor v ∈ V wird durch idV auf sich selbst abgebildet. Die Darstellungsmatrix S des Basiswechsels B 0 → B und ihre Inverse S −1 dienen dann zur Umrechnung der Koordinaten
x0 = vB0 und x = vB :
x = Sx0 ,
−→
x0 7→x=Sx0
0
(V, B )
nach Wahl von Basen:
Beispiel. Für den Vektor
gilt v = 2v2 − v3 und damit
 
0
vB =  2  ,
−1
v7→idV (v)=v
V
koordinatenfrei:
−→
x0 = S −1 x.
V
(V, B)
v7→idV (v)=v
−→
x7→x0 =S −1 x
−→
V
(V, B 0 )


1
v := −1 ∈ R3
2

vB 0
0
= S −1 vB = 1
0
1
−1
1
   
0
1
1
0   2  = −2 ,
−1
3
−1
d.h. v = v10 − 2v20 + 3v30 . Tatsächlich gilt
 
 
 
 
0
0
1
1
−1 = 1 1 − 2 1 + 3 0 .
1
1
1
2
Für das Polynom 2x2 − x + 1, welches bezüglich der Standardbasis des P2 (R) die Koordinaten (1, −1, 2)T
besitzt, erhalten wir damit die Darstellungen
2x2 − x + 1 = 0 · (x2 + x) + 2(x2 + 1) − 1(x + 1) = 1(x2 + x + 1) − 2(x2 + x) + 3(x2 ).
4.4 Ähnliche Matrizen. Hat eine lineare Abbildung L ∈ L(V ) die Darstellungsmatrizen
A := MB (L),
B := MB0 (L)
bezüglich der simultanen Basenwahl B bzw. B 0 in V und ist S die Darstellungsmatrix des Basiswechsels
von B 0 auf B, so gilt
B = S −1 AS.
Gilt diese Beziehung für zwei Matrizen A, B ∈ Kn×n so nennen wir A und B ähnlich.
Achtung. Ähnliche Matrizen gehören also zu ein und derselben linearen Abbildung L ∈ L(V ). Sie
entstehen dadurch, dass man für die Darstellung von L unterschiedliche Basen in V wählt.
Beweis. Wir schreiben L = idV ◦L ◦ idV und fassen die erste Identität als lineare Abbildung von V versehen mit der Basis B 0 nach V versehen mit der Basis B auf, betrachten anschließend die Darstellungsmatrix
von L bezüglich der Basis B in Definitions- und Zielraum und schalten anschließend die Identität als lineare Abbildung von V versehen mit der Basis B nach V versehen mit der Basis B 0 nach. Nach Wahl
238
§3. LINEARE GLEICHUNGSSYSTEME
0
von Basen hat L dann einerseits die Darstellungsmatrix B = MBB0 (L), andererseits das Matrizenprodukt
0
S −1 AS = MBB (idV )MBB (L)MBB0 (idV ). Damit gilt B = S −1 AS.
(V, B 0 )
y 0 =Bx0 =S −1 ASx0
−→
x = Sx0 ↓
(V, B 0 )
↑ y 0 = S −1 y
y=Ax
(V, B)
−→
(V, B)
2
Beispiel.
0Wir
betrachten eine lineare Abbildung L des R in sich, welche bezüglich der Standardbasis
1
B = ( 0 , 1 ) die Darstellungsmatrix
2 −1
A=
−1 2
besitzt, und wollen L bezüglich der Basis
B 0 = (v10 , v20 ) =
2
1
,
−2
1
darstellen. Die Darstellungsmatrizen der Basiswechsel von B 0 auf B und zurück lauten wegen
1 1
0
1 2
1 1
2
1
0
1
1
0
1
1 2
+
,
=−
+
,
=2
−2
,
=1
+1
,
=
4 −2
2 1
1
4 −2
2 1
−2
0
1
1
0
1
0
dann
S=
2
−2
1
,
1
S −1 =
Also hat L bezüglich B 0 die Darstellungsmatrix
1/4 −1/4
2 −1
2
−1
B = S AS =
1/2 1/2
−1 2
−2
1/4
1/2
−1/4
.
1/2
1
1/4
=
1
1/2
−1/4
1/2
6
−6
1
3
=
1
0
0
.
1
Damit gilt L(v10 ) = 3v10 und L(v20 ) = v20 . Bezüglich der neuen Basis B 0 = (v10 , v20 ) ist das Abbildungsverhalten von L also einfach: Längs der v10 -Achse wirkt L wie eine Streckung um den Faktor 3, längs der
v20 -Achse wie die Identität.
§3
1
Lineare Gleichungssysteme
Lösbarkeit, Struktur des Lösungsraums
1.1 Lineare Gleichungssysteme im Matrizenkalkül. Ein lineares Gleichungssystem mit m Gleichungen für n Unbekannte (kurz ein (m × n)-LGS) hat die Gestalt
a1,1 x1 +a1,2 x2 + · · ·
a2,1 x1 +a2,2 x2 + · · ·
+a1,n xn = b1 ,
+a2,n xn = b2 ,
..
.
am,1 x1 +am,2 x2 + · · · +am,n xn = bm ,
wobei die Koeffizienten aj,k ∈ K und die Zahlen bk ∈ K der „rechten Seite“ gegeben sind, und alle
Lösungstupel (x1 , . . . , xn )T ∈ Kn gesucht werden. Mit


 
 
a1,1 a1,2 · · · a1,n
x1
b1
 a2,1 a2,2 · · · a2,n 
 x2 
 b2 

 
 

m×n
A :=  .
,
x :=  .  ∈ Kn ,
b :=  .  ∈ Km ,
..
..  ∈ K
.
 ..



 .. 
.
.
.
am,1 am,2 · · · am,n
xn
bm
239
KAPITEL 5. LINEARE ALGEBRA
erhält das Gleichungssystem die prägnante Form
Ax = b.
Die Lösungsmenge dieses LGS bezeichnen wir mit
LA,b := {x ∈ Kn | Ax = b}
für A ∈ Km×n , b ∈ Km .
Meistens ist klar, welche Matrix A gemeint ist. Dann schreiben wir einfach Lb statt LA,b . Insbesondere
ist L0 die Lösungsmenge des homogenen LGS Ax = 0.
1.2 Beispiele.
Schnitt zweier Ebenen: Gemäß 3.§4.1.6 wird eine Ebene im R3 in Normalenform durch eine Gleichung
a1 x1 + a2 x2 + a3 x3 = b beschrieben. Das ist eine Gleichung für drei Unbekannte. Der Schnitt zweier
Ebenen führt dann auf ein (2 × 3)-LGS.
Basisdarstellung: Ist (a1 , . . . , an ) eine Basis des Kn , so ist die Koordinatenberechnung für einen Vektor
y ∈ Kn , d.h. das Auffinden von x1 , . . . , xn ∈ K mit
x1 a1 + · · · + xn an = y
nichts anderes als das Lösen eines inhomogenen (n × n)-Gleichungssystems Ax = y. Die Spalten der quadratischen Matrix A werden hierbei von den Vektoren a1 , . . . , an gebildet, die rechte Seite vom Vektor y.
Lineare Unabhängigkeit: Die Frage nach der linearen Unabhängigkeit von n Vektoren a1 , . . . , an ∈ Km
führt auf ein homogenes (m×n)-LGS Ax = 0 mit einer (m×n)-Matrix A gebildet aus den Spaltenvektoren
a1 , . . . , an .
1.3 Struktur der Lösungsmenge. Wir übertragen unsere Ergebnisse aus Abschnitt 1 und erhalten:
(a) Die Lösungsmenge L0 des homogenen LGS Ax = 0 ist ein Unterraum von Kn .
(b) Ist x̃ eine spezielle Lösung des inhomogenen LGS Ax = b, so ist die gesamte Lösungsmenge Lb gegeben
durch den affinen Teilraum Lb = x̃ + L0 = {x̃ + x ∈ Kn | x ∈ L0 }.
(Für die Bedeutung von „ x̃ + L0 “ und den Begriff affiner Teilraum schlage man ggf. 3.§4.1.18 nach.)
Bezeichnen wir die Spaltenvektoren von A mit a1 , . . . , an ∈ Km , so lässt sich das Matrizen-Vektor-Produkt
Ax in der Form
Ax = (a1 , . . . , an )x = x1 a1 + · · · + xn an
schreiben. Dies führt zu einer für das Lösen von linearen Gleichungssystemen fundamentalen Beobachtung.
Der Vektor Ax ist eine Linearkombination der Spalten von A.
1.4 Existenz und Eindeutigkeit von Lösungen. Die obige Beobachtung hat folgende Konsequenzen:
(c) Die Lösungen von Ax = b sind die Koeffiziententupel all derjenigen Linearkombinationen der Spalten
von A, die b darstellen.
(d) Das LGS Ax = b ist genau dann lösbar, wenn b im Erzeugnis der Spalten von A liegt. Sind die Spalten
von A linear unabhängig, so hat Ax = b höchstens eine Lösung.
(e) Erzeugen die Spalten von A den Km , so ist Ax = b für jede rechte Seite b lösbar.
(f) Sind die Spalten von A linear unabhängig, so hat Ax = 0 nur die triviale Lösung.
1.5 Bild und Kern, Rang und Defekt einer Matrix. Analog zu 1.10 setzen wir für A ∈ Km×n
Bild(A) := {Ax ∈ Km | x ∈ Kn },
Kern(A) := {x ∈ Kn | Ax = 0},
sowie
rg(A) := dim Bild(A),
def(A) := dim Kern(A),
und erhalten aus der Dimensionsformel 2.9
rg(A) + def(A) = n.
Damit können wir die obigen Lösbarkeitsaussagen umformulieren.
240
§3. LINEARE GLEICHUNGSSYSTEME
1.6 Rang- und Defektbedingung für Lösbarkeit.
(g) Für def(A) = 0 hat Ax = 0 nur die triviale und damit Ax = b für jede rechte Seite b höchstens eine
Lösung. In diesem Fall muss m ≥ n gelten.
(h) Für rg(A) = m hat Ax = b für jede rechte Seite b mindestens eine Lösung. Dann muss m ≤ n gelten.
(i) Genau dann hat Ax = b für jede rechte Seite b genau eine Lösung, wenn Ax = 0 nur die triviale
Lösung hat und wenn m = n gilt, d.h. A eine quadratische Matrix ist.
(j) Gilt allgemein rg(A) = k ≤ n, so hat Ax = 0 einen (n − k)-dimensionalen Lösungsraum. Nur dann
ist Ax = b lösbar, wenn b ∈ Bild(A). Dann ist die Lösungsmenge LA,b ein (n − k)-dimensionaler affiner
Teilraum.
Das Lösbarkeitskriterium b ∈ Bild(A) in (j) schreibt man gerne in der Form
rg(A) = rg(A|b),
wobei A|b die um die Spalte b erweiterte Matrix A bezeichnet. Der Rang kann dabei nur dann erhalten
bleiben, wenn b eine Linearkombination der Spalten von A ist, d.h. wenn Ax = b lösbar ist.
1.7 Fazit. Bisher haben wir viel über die Lösbarkeit von linearen Gleichungssystemen und die Struktur
der Lösungsmenge kennengelernt, aber noch kein effizientes Verfahren zur Bestimmung von rg(A), def(A)
und der Lösungsmenge Lb von Ax = b. Das geschieht im folgenden Abschnitt.
2
Gauß-Elimination
2.1 Die Idee der Gauß-Elimination besteht darin, ein vorgegebenes LGS Ax = b in ein einfach
lösbares LGS Dx = c umzuformen, ohne im Verlauf der Umformungen die Lösungsmenge zu ändern, d.h.
es gilt LA,b = LD,c . Bei den Umformungen wechseln sich drei „elementare“ Umformungstypen ab, die
nacheinander abgearbeitet werden und nach endlich vielen Schritten sicher zum Ziel führen. Wir erläutern
das Verfahren an Hand eines Beispiels.
2.2 Gauß-Elimination an Hand eines Beispiels. Wir wollen alle Lösungen des LGS
−3x1
4x1
kurz Ax = b mit
4x2
−3x2
2x2
−x2

0
4
−3 −3
A=
0
2
4 −1
+4x3
+3x3
+2x3
−9x3
4
3
2
−9
3
1
3
−2
+3x4
+x4
+3x4
−2x4
−2x5
−2x5
−4x5
−x5

−2
−2
,
−4
−1
=
=
=
=
16
−2
14
−5


16
−2

b=
 14  ,
−5
bestimmen. Es erweist sich als praktisch, das LGS schematisch in folgender Form darzustellen:
0
−3
0
4
4
4
3
−3
3
1
2
2
3
−1 −9 −2
−2
−2
−4
−1
16
−2
14
−5
Schritt 1.1: Vertauschen. Die Reihenfolge der Gleichungen ist für die Lösungsmenge unerheblich. Wir
wollen eine erste Zeile („Kopfzeile“) in der eine Variable mit niedrigstem Index (hier x1 ) vorkommt, und
vertauschen darum die erste und die zweite Zeile.
−3
0
0
4
−3
3
1
4
4
3
2
2
3
−1 −9 −2
−2
−2
−4
−1
−2
16
14
−5
241
KAPITEL 5. LINEARE ALGEBRA
Schritt 1.2: Normieren. Multiplikation einer Zeile mit einer nichtverschwindenden Konstanten ändert die
Lösungsmenge nicht. Wir wollen die Kopfzeile so normieren, dass bei x1 der Koeffizient 1 steht, und
erweitern diese Zeile darum mit −1/3.
1
0
0
4
1 −1 −1/3
4
4
3
2
2
3
−1 −9
−2
2/3
−2
−4
−1
2/3
16
14
−5
Schritt 1.3: Eliminieren. Wir addieren geeignete Vielfache der Kopfzeile zu allen anderen Zeilen, um dort
die Anteile bei x1 zu eliminieren. (Dass sich hierbei die Lösungsmenge nicht ändert, überlegen wir uns
später in 2.4.) In unserem Fall muss nur das (−4)-fache der Kopfzeile zur vierten addiert werden.
1
0
0
0
1 −1 −1/3
4
4
3
2
2
3
−5 −5 −2/3
2/3
−2
−4
−11/3
2/3
16
14
−23/3
Nach diesen drei Teilschritten lassen wir die erste Zeile und die Variable x1 unberührt. In den Zeilen ab
der zweiten suchen wir eine mit einer Variablen niedrigstem Index (jetzt x2 ) und verfahren analog.
Schritt 2.1: Vertauschen ist diesmal nicht nötig: die zweite Zeile hat schon bei x2 einen nichtverschwindenden Koeffizienten.
Schritt 2.2: Normieren. Wir erweitern die zweite Zeile mit 1/4.
1
0
0
0
1 −1 −1/3
1
1
3/4
2
2
3
−5 −5 −2/3
2/3
−1/2
−4
−11/3
2/3
4
14
−23/3
Schritt 2.3: Eliminieren. Wir addieren das (−2)- bzw. 5-fache der zweiten Zeile zur dritten bzw. vierten
1 1
0 1
0 0
0 0
−1 −1/3
1
3/4
0
3/2
0 37/12
2/3
−1/2
−3
−37/6
2/3
4
6
37/3
Im dritten Schritt wenden wir uns der dritten Zeile und der Variablen x4 zu (das ist jetzt die Variable
mit niedrigstem Index).
Schritt 3.1: Vertauschen ist wieder nicht notwendig.
Schritt 3.2: Normieren. Wir erweitern die dritte Zeile mit 2/3.
1 1
0 1
0 0
0 0
−1 −1/3
2/3
1
3/4 −1/2
0
1
−2
0 37/12 −37/6
2/3
4
4
37/3
Schritt 3.3: Eliminieren. Wir addieren das (−12/37)-fache der dritten Zeile zur vierten:
1 1
0 1
0 0
0 0
−1 −1/3
2/3
1
3/4 −1/2
0
1
−2
0
0
0
2/3
4
4
0
An dieser Stelle ist die Gauß-Elimination beendet und wir haben ein LGS Dx = c in Zeilenstufenform
vorliegen, wobei wir die letzte Gleichung unterschlagen können. (Hätte die letzte Zeile rechts einen von
242
§3. LINEARE GLEICHUNGSSYSTEME
Null verschiedenen Eintrag gehabt, so wäre das LGS nicht lösbar gewesen.)
x1
+x2
−x3
− 31 x4
+ 23 x5
=
2
3
x2
+x3
+ 34 x4
− 12 x5
=
4
x4
−2x5
=
4
Dieses LGS lösen wir folgendermaßen.
Freie Parameter identifizieren. Wir wählen die Unbekannten, die nicht zu Beginn einer Zeile auftreten
(in unserem Fall x3 und x5 ), als freie Parameter, d.h. wir setzen
x3 = λ1 ,
x5 = λ2 .
Dreiecksform erzeugen. Diese Unbekannten schaffen wir auf die rechte Seite und erhalten für die restlichen
Unbekannten (hier x1 , x2 , x4 ) ein LGS in oberer Dreiecksform
x1
+x2
− 31 x4
=
2
3
+ λ1 − 32 λ2
x2
+ 34 x4
=
4 − λ1 + 12 λ2
x4
=
4 + 2λ2
Aufrollen. Dieses LGS können wir durch „Aufrollen“ von unten herauf lösen (vgl. Invertieren von Dreiecksmatrizen §2.3.12). Wir lösen dazu die letzte Gleichung nach x4 auf, setzen in die darüberstehenden
ein und verfahren so fort, bis wir alle restlichen Unbekannten erhalten haben.
x4 = 4 + 2λ2 ,
x2 = 1 − λ1 − λ2 ,
x1 = 1 + 2λ1 + λ2 .
Lösungsmenge angeben. Wir erhalten als Lösungsmenge den zweidimensionalen affinen Unterraum

 
 
 
1
2
1







−1
−1


1


 
 
 






LA,b = 0 + λ1  1  + λ2  0  | λ1 , λ2 ∈ R .




2
0
 



 4


1
0
0
2.3 Mögliche Endergebnisse. Man mache sich klar, dass die Gauß-Elimination in der eben geschilderten Form ein (m × n)-LGS auf jeden Fall nach m − 1 Schritten in Zeilenstufenform bringt. Dabei können
die folgenden Ergebnisse auftreten.
(i) Es gibt eine Zeile, in der links lauter Nullen, aber rechts ein von Null verschiedener Eintrag steht.
Dann ist das LGS nicht lösbar.
(ii) Es gibt Zeilen, in der nur Nullen vorkommen. Selbige können weggelassen werden, ohne die Lösungsmenge zu verändern.
(iii) Von einer Zeile zur nächsten tritt eine Einrückung um mehr als eine Variable auf. Dann kann jede
der „verloren gegangenen“ Unbekannten als freier Parameter gewählt werden.
Falls (i) nicht eintritt, so kann das LGS nach Bereinigung gemäß (ii) und Parametervergabe gemäß (iii)
wie eben in 2.2 geschildert aufgerollt werden.
Insbesondere sind dabei die folgenden Fälle erwähnenswert:
• Tritt (i) ein, so ist das LGS nicht lösbar.
• Liegt ein (n × n)-LGS vor und treten nach der Gauß-Elimination keine Einrückungen auf, so ist
das LGS eindeutig lösbar.
• Tritt (ii) nicht ein, so liefert jede Einrückung einen freien Parameter. Treten insgesamt Einrückungen
um r Stufen auf, so ist LA,b ein r-dimensionaler affiner Teilraum.
243
KAPITEL 5. LINEARE ALGEBRA
2.4∗ Gauß-Elimination im Matrizenkalkül. Die drei elementaren Zeilenoperationen Vertauschen,
Normieren und Eliminieren, mit denen wir ein gegebenes (m × n)-LGS Ax = b mit in ein LGS Dx = c in
Zeilenstufenform umformen können, lassen sich als Matrizenoperationen schreiben. Hierzu erklären wir
die folgenden drei (m × m)-Matrizen.
Das Vertauschen („Zj ↔ Zk“) beschreiben wir durch die (m × m)-Matrix
Pj,k
:=
(e1 , . . . ,
ek , . . . ,
|{z}
j-te Spalte
=
ej
|{z}
, . . . , em )
k-te Spalte


1






0
1
..



,


1
.
1
0
1 ≤ j < k ≤ m.
Sie unterscheidet sich von der Einheitsmatrix Em lediglich dadurch, dass die j-te und die k-te Spalte
vertauscht sind. Linksmultiplikation mit Pj,k vertauscht die j-te mit der k-te Zeile:

a1,1
 ..
 .

 aj,1


Pj,k  ...

 ak,1

 .
 ..
am,1
···
···
···
···
 
a1,n
a1,1
..   ..

. 
  .

aj,n  
 ak,1
..  =  ..

. 
  .

ak,n 
  aj,1
..   ..
.   .
···
am,n
···

a1,n
.. 
. 

ak,n 

..  ,
. 

aj,n 

.. 
. 
am,n
···
···
am,1

  
b1
b1
 ..   .. 
 .   . 
   
 bj   bk 
   
   
Pj,k  ...  =  ...  .
   
 bk   bj 
   
 .   . 
 ..   .. 
bm
bm
Das Normieren („Zk → cZk“) beschreiben wir durch die (m × m)-Matrix
Nk,c
:=
(e1 , . . . ,
cek
|{z}
, . . . , em )
k-te Spalte
=

1








..



,



.
c
..
.
k ∈ {1, . . . , m}, c 6= 0.
1
Sie unterscheidet sich von der Einheitsmatrix Em nur dadurch, dass der k-te Diagonaleintrag nicht 1
sondern c ist. Linksmultiplikation mit Nk,c erweitert die k-te Zeile mit dem Faktor c:

a1,1
 ..
 .

Nk,c 
 ak,1
 .
 ..
am,1
···
···
···
 
a1,n
a1,1
..   ..

. 
  .

ak,n 
=
 cak,1
..   ..
.   .
am,n
am,1
···
···
···

a1,n
.. 
. 

cak,n 
,
.. 
. 
am,n

  
b1
b1
 ..   .. 
 .   . 
   
  
Nk,c 
 bk  = cbk  .
 .   . 
 ..   .. 
bm
bm
244
§3. LINEARE GLEICHUNGSSYSTEME
Das Eliminieren („Zk → Zk + cZj“) beschreiben wir durch die (m × m)-Matrix
Ej,c,k
:=
(e1 , . . . , ej + cek , . . . ,
| {z }
j-te Spalte
, . . . , em )
k-te Spalte


=
ek
|{z}
..
 .











,



1
..
.
c
1
..
1 ≤ j, k ≤ n.
.
Sie unterscheidet sich von der Einheitsmatrix Em nur dadurch, dass in der j-ten Spalte in der k-ten Zeile
ein c eingetragen ist. Linksmultiplikation mit Ej,c,k addiert das c-fache der j-ten Zeile zur k-ten (die j-te
Zeile bleibt dabei unverändert):
a1,1
 ..
 .

 aj,1


Ej,c,k  ...

 ak,1

 .
 ..
···
am,1
···

···
···
 
a1,n
a1,1
..  
..

. 
.
 

aj,n 
a
j,1
 
..  = 
..

. 
.
 
ak,1 + caj,1
ak,n 
 
..  
..
.  
.
am,n
am,1
···
···
···
···
a1,n
..
.





aj,n


..
,
.

ak,n + caj,n 


..

.
am,n

 

b1
b1
 ..  

..
 .  

.
  

 bj   bj 
  

  

..
Ej,c,k  ...  = 
.
.
  

 bk  bk + cbj 
  

 .  

..
 ..  

.
bm
bm
Alle diese Matrizen sind invertierbar und es gilt
−1
Pj,k
= Pj,k ,
−1
Nk,c
= Nk,1/c
−1
Ej,c,k
= Ej,−c,k ,
wie man sich leicht selbst überlegen kann. Ist also S eine dieser drei Matrizen, so gilt
⇔
Ax = b
SAx = Sb.
Man gelangt nämlich von einer Gleichung zur anderen, indem man von links mit S bzw. S −1 multipliziert.
Dies zeigt
LA,b = LSA,Sb ,
Die beiden Gleichungen Ax = b und SAx = Sb haben also dieselbe Lösungsmenge. Die drei elementaren
Zeilenumformungen der Gauß-Elimination ändern zwar das LGS, aber alle dabei entstehenden LGS haben
dieselbe Lösungsmenge.
So gesehen besagt die Gauß-Elimination: Jede (m×n)-Matrix A kann durch Linksmultiplikation mit einer
invertierbaren Matrix S in eine (m × n)-Matrix D in Zeilenstufenform umgeformt werden: SA = D.
Beweis. Man wähle für S einfach ein Produkt aus den oben beschriebenen Matrizen, welches der GaußElimination entspricht.
Beispiel. Für die Matrix

0
−3
A=
0
4
4
−3
2
−1
4
3
2
−9
3
1
3
−2

−2
−2
,
−4
−1
aus 2.2 liefern die dort beschriebenen elementaren Zeilenumformungen der Gauß-Elimination nacheinan-
245
KAPITEL 5. LINEARE ALGEBRA
der die Matrizen
0 1 0 0  0
4
4
3 −2 −3 −3 3
1 −2







−3

 0

1 0 0 0
−3
3
1
−2
4
4
3
−2





 =
,




 0

 0

0 0 1 0
2
2
3
−4
2
2
3
−4








0 0 0 1 4 −1 −9 −2 −1
4 −1 −9 −2 −1





0 0 0−3 −3 3
1 −2 1 1 −1 −1/3 2/3
−1/3











0

0
1 0 0
4
4
3 −2
4
4
3
−2 

 0





=
,






 0

0

0
0
1
0
2
2
3
−4
2
2
3
−4










0
0 0 1 4 −1 −9 −2 −1
4 −1 −9
−2
−1





0 0 01 1 −1 −1/3 2/3 1 1 −1 −1/3
2/3 
 1








 0
0

0

1 0 0
4
4
3
−2 
4
4
3
−2 







 =
,




 0





0 1 00 2
2
3
−4  0 2
2
3
−4 







−4 0 0 1 4 −1 −9 −2
−1
0 −5 −5 −2/3 −11/3





0
0 01 1 −1 −1/3
2/3  1 1 −1 −1/3
2/3 
1








0
0

0

1/4 0 0
4
4
3
−2 
1
1
3/4
−1/2 







 =
,



0
0

0

0
1 0
2
2
3
−4 
2
2
3
−4 










0
0
0 1 0 −5 −5 −2/3 −11/3
0 −5 −5 −2/3 −11/3





2/3 
2/3  1 1 −1 −1/3
0 0 01 1 −1 −1/3
1











0

0
0
1
1
3/4
−1/2
1
0
0
1
1
3/4
−1/2





 =


,






0

0
0
0
0
3/2
−3
2
2
3
−4
−2
1
0










0 −5 −5 −2/3 −11/3
0 0 0 1 0 −5 −5 −2/3 −11/3





2/3 
2/3  1 1 −1 −1/3
0 0 01 1 −1 −1/3
1










0

0
1 1
3/4
−1/2 
1
1
3/4
−1/2 
1 0 0



0

,
=







0
0

0

0
0
3/2
−3
0
0
3/2
−3
0
1
0










0 0 0 37/12 −37/6
0 5 0 1 0 −5 −5 −2/3 −11/3





2/3 
2/3  1 1 −1 −1/3
0
0
01 1 −1 −1/3
1








0
0

0

1 1
3/4
−1/2 
1 1
3/4
−1/2 
1
0
0





,
=








0

0
0
0
0
1
−2
0
0
3/2
−3
0
2/3
0










0 0
0
1 0 0 0 37/12 −37/6
0 0 0 37/12 −37/6





2/3  1 1 −1 −1/3 2/3 
0
0
01 1 −1 −1/3
1









0

0
0
1 1
3/4 −1/2
1 1
3/4
−1/2 
1
0
0





 =


.




0

0
0
0 0
1
−2 
0 0
1
−2 
0
1
0










0 0 0
0
0
0 0 −37/12 1 0 0 0 37/12 −37/6

A1 = P1,2 A =
A2 = N1,−1/3 A1 =
A3 = E1,−4,4 A2 =
A4 = N2,1/4 A3 =
A5 = E2,−2,3 A4 =
A6 = E2,−5,4 A5 =
A7 = N3,2/3 A6 =
A8 = E3,−37/12,4 A7 =














Tatsächlich gilt für

S = E3,−37/12,4 N3,2/3 E2,5,4 E2,−2,3 N2,1/4 E1,−4,4 N1,−1/3 P1,2
0
−1/3
 1/4
0
=
 −1/3
0
41/18 4/3
0
0
2/3
−37/18

0
0

0
1
dann

0
−1/3
 1/4
0

SA = 
−1/3
0
41/18 4/3
0
0
2/3
−37/18

0
0
4

0
 −3 −3
0  0
2
1
4 −1
4
3
2
−9
3
1
3
−2
 
−2
1 1

−2
 = 0 1
−4 0 0
−1
0 0
−1
1
0
0
−1/3
3/4
1
0

2/3
−1/2
.
−2 
0
2.5 Simultane Gauß-Elimination. Ist das LGS Ax = bµ für mehrere rechte Seiten b1 , . . . , bp ∈ Km zu
lösen, so können wir dies durch eine simultane Gauß-Elimination bewerkstelligen. Dabei ist es zweckmäßig,
aus b1 , . . . , bp eine Matrix B := (b1 , . . . , bp ) ∈ Km×p zu bilden und die Gauß-Eliminatin auf das Schema
A|B
anzuwenden. Das kann man auch als Lösen der Matrizengleichung AX = B interpretieren, die k-te Spalte
der (n × p)-Matrix X enthält gerade die Lösung von Ax = bk . Ist eine dieser Gleichungen nicht lösbar,
so ist AX = B unlösbar. Hat eine dieser Gleichungen mehrere Lösungen, so auch AX = B.
246
§3. LINEARE GLEICHUNGSSYSTEME
2.6 Berechnung der inversen Matrix. Das Invertieren einer (n × n)-Matrix A interpretieren wir
als simultanes Lösen von Ax1 = e1 , . . . , Axn = en . Nachdem wir die Lösungsvektoren x1 , . . . , xn durch
simultane Gauß-Elimination bestimmet haben, erhalten wir A−1 , indem wir die Lösungen als Spalten
eintragen. Falls bei der Gauß-Elimination eine Einrückung (und damit eine Nullzeile) auftritt, ist A nicht
invertierbar.
Beispiel.

0
A = 1
2
1
3
−1

−1
2 .
12
Ausgangsschema
P1,2 (Z1 ↔ Z2)
E1,−2,3 (Z3 → Z3 − 2Z1)
E2,7,3 (Z3 → Z3 + 7Z2)
E3,1,2 , E3,−2,1 (Z2 → Z2 + Z3, Z1 → Z1 − 2Z3)
E2,−3,1 (Z1 → Z1 − 3Z2)
0
1
2
1 −1 1
3
2 0
−1 12 0
0
1
0
0
0
1
1
0
2
3
2 0
1 −1 1
−1 12 0
1
0
0
0
0
1
1
0
0
3
2 0
1 −1 1
−7
8 0
1 0
0 0
−2 1
1 3
0 1
0 0
2 0
−1 1
1 7
1 0
0 0
−2 1
1 3 0
0 1 0
0 0 1
−14
5 −2
8 −2
1
7 −2
1
1 0 0
0 1 0
0 0 1
−38 11 −5
8 −2
1
7 −2
1
Nach Erzeugen der Zeilenstufenform haben wir das Aufrollen derart gestaltet, dass wir auch oberhalb der
Diagonalen Nullen erzeugt haben. Wir erhalten


−38 11 −5
−2 1 
A−1 =  8
7
−2 1
Anmerkung. Um ein quadratisches LGS Ax = b mit einer invertierbaren Matrix A zu lösen, ist die
Berechnung der inversen Matrix A−1 zur Bestimmung der Lösung x = A−1 b i.A. zu aufwendig — eine
Gauß-Elimination geht schneller. Das kann sich ändern, falls das LGS für mehrere rechte Seiten gelöst
werden muss.
2.7 Gauß-Elimination und Rang-Bestimmung. Wir machen uns klar, dass keine der elementaren
Zeilenumformungen die Anzahl der linear unabhängigen Spalten, bzw. Zeilen von A ändert. Wir können
also die Gauß-Elimination auch zur Rangbestimmung heranziehen.
Beispiel. Wir bestimmen den Rang einer Matrix durch Gauß-Elimination







0 2 1 0
1 −2 3 1
1 −2 3 1
1
rg 1 −2 3 1 = rg 0 2 1 0 = rg 0 2 1 0 = rg 0
2 −2 7 2
2 −2 7 2
0 2 1 0
0
−2
2
0

3 1
1 0 = 2.
0 0
Das LGS Ax = b wird also nicht für jede rechte Seite b lösbar sein. Wenn es lösbar ist, so wird die
Lösungsmenge 4 − rg(A) = 2 freie Parameter haben.
247
KAPITEL 5. LINEARE ALGEBRA
2.8 Eigenschaften des Ranges. In 1.5 hatten wir den Rang von A als die Dimension von Bild(A),
d.h. der Anzahl der linear unabhängigen Spalten von A eingeführt. Die Gauß-Elimination besagt nun,
dass der Rang auch die Anzahl der linear unabhängigen Zeilen von A liefert.
Der Rang einer Matrix A ∈ Km×n gibt gleichzeitig an
• die Maximalzahl der linear unabhängigen Spalten von A,
• die Maximalzahl der linear unabhängigen Zeilen von A,
• die Dimension des von den Spalten von A aufgespannten Teilraums von Km ,
• die Dimension des von den Zeilen von A aufgespannten Teilraums von Kn .
Es gilt
rg(A) = rg(AT ) ≤ min{m, n}.
2.9 Zusammenfassung. Durch gezielte Anwendung von elementaren Zeilenumformungen können wir
lineare Gleichungssysteme lösen. Das LGS ändert sich im Laufe der Umformungen, die Lösungsmenge
bleibt erhalten. Analog können wir durch gezielte Anwendung von Zeilen- und Spaltenumformungen den
Rang einer Matrix bestimmen. Alle im Laufe der Umformungen auftretenden Matrizen haben denselben
Rang. In 2.8 werden wir sehen, dass wir die elementaren Zeilen- und Spaltenumformungen auch zur
Berechnung von Determinaten einsetzen können.
§4
1
Determinanten
Beispiele und Definition
1.1 Wiederholung. Wir hatten in 3.§2.3 und 3.§4.2 Determinanten für (2 × 2)- und (3 × 3)-Matrizen
eingeführt durch
a
a1,2
det 1,1
= a1,1 a2,2 − a1,2 a2,1 ,
a2,1 a2,2


a1,1 a1,2 a1,3
det a2,1 a2,2 a2,3  = ha1 × a2 |a3 i = ha2 × a3 |a1 i = ha3 × a1 |a2 i =
a3,1 a3,2 a3,3
=
a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2
−a1,3 a2,2 a3,1 − a1,2 a2,1 a3,3 − a1,1 a2,3 a3,2 .
Beide Definitionen haben folgende Gemeinsamkeiten:
• zwei Vektoren im R2 bzw. drei Vektoren im R3 — anders aufgefasst: einer (2×2)- bzw. (3×3)-Matrix
— wird eine reelle Zahl zugeordnet.
• det(E2 ) = 1, det(E3 ) = 1,
• wenn man zwei Spalten vertauscht, so ändert die Determinante ihr Vorzeichen,
• die Determinante ist linear in jeder Spalte
und u.a. folgende Nutzanwendungen:
• Basistest: die Determinante verschwindet genau dann nicht, wenn die Spaltenvektoren eine Basis
bilden,
• Volumen: der Betrag der Determinante gibt die Fläche bzw. das Volumen des von den Spaltenvektoren aufgespannten Parallelogramms bzw. Spats an,
• Orientierung: die Determinante ist genau dann positiv, wenn die Spaltenvektoren eine Basis bilden,
die dieselben Orientierung wie die Standardbasis hat.
248
§4. DETERMINANTEN
Wenn wir nun allgemein die Determinante von n Vektoren im Kn bzw. einer aus diesen Vektoren gebildeten (n × n)-Matrix erklären wollen, so sollten wir dies nicht durch Angabe einer (höchstwahrscheinlich
recht komplizierten) Formel tun, sondern unter Verwendung der grundlegenden Eigenschaften.
1.2 Determinantenformen. Eine Abbildung f : Kn × · · · × Kn → K, die für n ≥ 2 jeweils n Vektoren
im Kn eine Zahl aus dem Grundkörper K zuordnet, heißt eine Determinantenform auf dem Kn , wenn sie
eine normierte alternierende Multilinearform ist. Das bedeutet:
(DF1) Normiertheit: f (e1 , . . . , en ) = 1 für die kanonische Basis e1 , . . . , en des Kn .
(DF2) Alternieren: f (. . . , aj , . . . , ak . . .) = −f (. . . , ak , . . . , aj . . .), beim Vertauschen zweier Spalten ändert sich das Vorzeichen.
(DF3) Multilinearität: f (. . . , λ1 a1 + λ2 a2 , . . .) = λ1 f (. . . , a1 , . . .) + λ2 f (. . . , a2 , . . .), in jedem der n Argumente ist f linear bei festgehaltenen restlichen Spalten.
Zunächst ist weder klar, ob für ein n ≥ 2 überhaupt eine Determinantenform existiert, noch ob selbige
im Existenzfall eindeutig bestimmt ist. Bevor wir diese Fragen klären, geben wir Rechenregeln an, die
unmittelbar aus den definierenden Eigenschaften folgen.
1.3 Alternierende Multilinearformen und lineare Unabhängigkeit. Ist f eine alternierende Multilinearform auf dem Kn , so gilt f (a1 , . . . , an ) = 0 falls a1 , . . . , an ∈ Kn linear abhängig sind. Insbesondere
gilt f (a1 , . . . , an ) = 0, falls zwei der Einträge gleich sind, d.h. aj = ak für j 6= k.
Beweis. Wir beweisen zuerst die zweite Aussage. Ist f alternierend, so ergibt sich bei zwei gleichen
Einträgen durch Vertauschen
f (. . . , a, . . . , a, . . .) = −f (. . . , a, . . . , a, . . .),
d.h. f (. . . , a, . . . , a, . . .) = 0.
Sind nun a1 , . . . , an linear abhängig,
so lässt sich einer dieser Vektoren, etwa a1 , als Linearkombination
Pn
der anderen darstellen: a1 = k=2 λk ak . Mit der Linearität von f und dem zuvor Bewiesenen folgt nun
f (a1 , a2 , . . . , an ) =
n
X
k=2
λk
f (ak , a2 , . . . , an )
{z
}
|
= 0.
=0 da zwei gleiche Einträge
1.4 Existenz und Eindeutigkeit der Determinantenform. Für jedes n ≥ 2 existiert eine Determinantenform auf dem Kn . Selbige ist eindeutig bestimmt und wird mit det bezeichnet.
Für eine quadratische Matrix A ∈ Kn×n mit Spalten a1 , . . . , an erklären wir die Determinante durch
det(A) := det(a1 , . . . , an )
und schreiben dafür auch
|A|,
|(aj,k )|,
a1,1
..
.
an,1
···
aj,k
···
a1,n .. .
. an,n Beweis∗ . Wir beweisen zunächst die Eindeutigkeit und zeigen hierzu: Stimmen zwei alternierende Multilinearformen f und g auf der kanonischen Basis des Kn überein, so sind sie gleich. Wenn dies bewiesen
ist, so liefert die Normiertheit (DF1) die Eindeutigkeit.
Sind f und g zwei alternierende Multilinearformen mit f (e1 , . . . , en ) = g(e1 , . . . , en ), so gilt für h := f − g
dann h(e1 , . . . , en ) = 0. Durch sukzessives Vertauschen von zwei Einträgen erhalten wir h(ek1 , . . . , ekn ) = 0
für jede beliebige Verteilung der n Basisvektoren auf die n Einträge von h. Die Linearität von h in jeder
Komponente liefert dann h(a1 , . . . , an ) = 0 für jeden Satz von Vektoren a1 , . . . , an ∈ Kn . Also verschwindet h identisch und es folgt f = g.
Die Existenz einer Determinantenform beweisen wir konstruktiv durch vollständige Induktion, d.h. wir
geben eine Determinantenform D2 auf dem K2 an und zeigen, wie wir aus einer Determinantenform Dn−1
auf dem Kn−1 eine Determinantenform Dn auf dem Kn erhalten.
249
KAPITEL 5. LINEARE ALGEBRA
Induktionsverankerung: Für n = 2 verwenden wir natürlich die schon bekannte Determinantenform
D2 (A) := a1,1 a2,2 − a1,2 a2,1 .
Induktionsschritt: Wir nehmen an, dass wir für ein n ≥ 3 schon eine Determinantenform Dn−1 auf dem
Kn−1 konstruiert haben. Für A ∈ Kn×n und j, k ∈ {1, . . . , n} bezeichnen wir die ((n−1)×(n−1))-Matrix,
die aus A durch Streichen der j-ten Zeile und der k-ten Spalte entsteht, mit Aj,k und setzen
Dn (A) :=
n
X
(−1)j+k aj,k Dn−1 (Aj,k )
j=1
für ein k ∈ {1, . . . , n}. Wir müssen zeigen, dass Dn eine Determinantenform auf dem Kn ist.
Normiertheit: Für A = En gilt aj,j = 1 und Aj,j = En−1 bzw. aj,k = 0 für j 6= k. Da Dn−1 eine
Determinantenform ist, folgt zunächst aj,j Dn−1 (Aj,j ) = 1 und aj,k Dn−1 (Aj,k ) = 0 für j 6= k, anschließend
dann Dn (En ) = 1.
Alternieren: Man macht sich zunächst klar, dass es genügt zu zeigen, dass Dn (A) = 0 verschwindet, falls
in A zwei benachbarte Spalten gleich sind. Gilt nun ak0 = ak0 +1 , so hat Aj,k für k 6= k0 , k0 + 1 zwei
gleiche Spalten und es folgt Dn−1 (Aj,k ) = 0 nach Induktionsvoraussetzung. Damit gilt
Dn (A) = (−1)j+k0 aj,k0 Dn−1 (Aj,k0 ) + (−1)j+k0 +1 aj,k0 +1 Dn−1 (Aj,k0 +1 ).
Wegen ak0 = ak0 +1 gilt aber aj,k0 = aj,k0 +1 und Aj,k0 = Aj,k0 +1 . Damit haben wir Dn (A) = 0.
Multilinearität: Wir zeigen, dass jeder Summand aj,k Dn−1 (Aj,k ) multilinear ist. Da Aj,k bezüglich aj
konstant ist, ist aj 7→ aj,k Dn−1 (Aj,k ) linear. Für i 6= j hängt aj,k nicht von ai ab, und ai 7→ aj,k Aj,k ist
nach Induktionsvoraussetzung linear in ai . Damit ist der Induktionsschritt abgeschlossen und der Beweis
beendet.
2
Eigenschaften der Determinante
2.1 Laplacescher Entwicklungssatz. Die Determinante einer n × n-Matrix A = (aj,k ) lässt sich auf
2n Arten durch ((n − 1) × (n − 1))-Determinanten berechnen:
|A| =
=
n
X
(−1)j+k aj,k |Aj,k |
j=1
n
X
(−1)j+k aj,k |Aj,k |
für k = 1, . . . , n (Entwicklung nach der k-ten Spalte),
für j = 1, . . . , n (Entwicklung nach der j-ten Zeile).
k=1
Dabei bezeichnet Aj,k diejenige ((n − 1) × (n − 1))-Matrix, die aus A durch Streichen der j-ten Zeile und
der k-ten Spalte entsteht.
Symbolisch merkt man sich das in der (hier für die Entwicklung nach der dritten Spalte angegebenen)
Form
+
−
+
..
.
±
+ · · · ±
×
− · · · ∓
+ · · · ∓ = • ×
..
..
.. .
.
. ×
∓ ± ··· +
−
+
−
..
.
•
×
×
..
.
×
×
· · · ×
· · · × − • ×
..
.. .
. ×
··· ×
×
· · · ×
×
•
×
· · · × + • ..
..
.. .
.
. ×
×
··· ×
×
×
· · · ×
×
· · · ×
•
− · · · ± • ×
..
..
.. .
.
. ×
··· ×
×
×
×
×
×
..
.
· · · ×
· · · ×
· · · × .
.. . •
250
§4. DETERMINANTEN
Beweis. Die Entwicklung nach einer Zeile ist gerade die im Induktionsbeweis in 1.4 für die Existenz der
Determinante verwendete Formel. Die Eindeutigkeit der Determinantenform liefert daher die Gültigkeit
der Formel für die Entwicklung nach einer Zeile. Die Entwicklung nach einer Spalte erhalten wir dann
sofort durch Übergang zur transponierten Matrix, sobald wir den folgenden Satz bewiesen haben.
Beispiel. Man wendet den Entwicklungssatz zweckmäßig auf eine Zeile oder Spalte an, die möglichst
viele Nullen enthält — hier die zweite Spalte:
2 1 2 1 2 2 1 2 2 1
2 2 1 1 1 3 1 0 1 3 1+2
·1· 4 2 0 + (−1)2+2 ·0· 4 2 0 + (−1)3+2 ·0· 1 1 3 + (−1)4+2 ·2· 1 1 3
4 0 2 0 = (−1)
4 2 0 5 0 2
5 0 2 5 0 2 5 2 0 2 1 3 4 0 2+2
1+2
− (−1)
·2· = −(−1)
·1· 5 2
5 2
2 2 1 1 2+3
1+3
+ 2(−1)
·3· +2(−1)
·1· 4 2
4 2
=
(4 · 2 − 5 · 0) − 2(1 · 2 − 3 · 5) + 2(1 · 2 − 1 · 4) − 6(2 · 2 − 4 · 2) = 54.
2.2 Determinante der Transponierten. Für jede quadratische Matrix A gilt det(AT ) = det(A).
Beweisidee∗ . (Details siehe z.B. [FiKau, Band 1, §17.3].) Sind z1 , . . . , zn die Spalten von AT , d.h. die
Zeilen von A, so betrachtet man f (z1 , . . . , zn ) := |A| und zeigt, dass dies eine Determinantenform ist.
Aus der Eindeutigkeit der Determinante folgt dann f (z1 , . . . , zn ) = |AT |, d.h. |A| = |AT |.
2.3 Multiplikationssatz. Für A, B ∈ Kn×n gilt
|AB| = |A||B|.
Beweisidee∗ . Für A, B ∈ Kn×n bezeichnen wir die Spalten von B mit b1 , . . . , bn und betrachten
f (b1 , . . . , bn ) := det(Ab1 , . . . , Abn ) = |AB|,
g(b1 , . . . , bn ) := |A| det(b1 , . . . , bn ) = |A||B|.
Man mache sich klar, dass f und g beide alternierende Multilinearformen sind. Aus
f (e1 , . . . , en ) = det(a1 , . . . , an ) = |A|,
g(e1 , . . . , en ) = |A| det(e1 , . . . , en ) = |A|
erhalten wir nach Normieren mit der Eindeutigkeit der Determinantenform f = g, d.h. |AB| = |A||B|.
2.4 Determinante einer invertierbaren Matrix. Eine quadratische Matrix A ist genau dann invertierbar, wenn |A| =
6 0. Dann gilt
1
|A−1 | =
.
|A|
Das folgt aus dem Multiplikationssatz für AA−1 = E.
2.5 Determinante einer linearen Abbildung. Ähnliche Matrizen haben dieselbe Determinante:
|S −1 AS| = |A|.
Beweis. |S −1 AS| = |S −1 ||A||S| =
1
|S| |A||S|
= |A|.
Damit können wir einer linearen Abbildung L ∈ L(V ) eine Determinante zuordnen.
Ist V ein n-dimensionaler Vektorraum, so hängt für eine lineare Abbildung L : V → V die Zahl |MB (L)|
nicht von der Wahl der Basis B von V ab. Wir bezeichnen diese Zahl mit det(L) und nennen sie Determinante von L.
251
KAPITEL 5. LINEARE ALGEBRA
2.6 Determinante einer Dreiecksmatrix. Für Dreiecksmatrizen erhalten wir sofort durch sukzessives
Anwenden des Entwicklungssatzes
a1,1
0
···
0 a1,1 a1,2 · · · a1,n .. 0
a2,2
a2,n a2,1 a2,2
. = a1,1 a2,2 · · · an,n = .
..
.
.
.
..
.. ..
.
..
.
0 0
···
0 an,n an,1 an,2 · · · an,n Eine Dreiecksmatrix ist genau dann invertierbar, wenn kein Diagonaleintrag verschwindet.
2.7∗ Vandermondesche Determinante. Für λ1 , . . . , λn ∈ K gilt
1 λ1 λ1 2 · · · λ1 n−1 1 λ2 λ2 2 · · · λ2 n−1 Y
(λk − λj ).
=
.
.
.
.
.
.
.
.
.
.
.
. 1≤j<k≤n
1 λ
λ 2 · · · λ n−1 n
n
n
Beweis. Wir beweisen die Formel durch Induktion nach n. Die Induktionsverankerung ist klar. Für den
Induktionsschritt n − 1 → n ziehen wir das λ1 -fache der vorletzten Spalte von der letzten, anschließend
das λ1 -fache der drittletzten von der vorletzten ab und so fort bis wir zum Schluss das λ1 -fache der ersten
Spalte von der zweiten abgezogen haben. Durch Entwickeln nach der ersten Zeile und mit Ausklammern
folgt dann mit der Induktionsvoraussetzung
1 λ1 λ1 2 · · · λ1 n−1 1
0
0
···
0
1 λ2 λ2 2 · · · λ2 n−1 1 λ2 − λ1 λ2 2 − λ1 λ2 · · · λ2 n−1 − λ1 λ2 n−2 .
..
..
..
..
..
.. = ..
..
.
.
.
.
.
. .
2
n−1
n−2 2
n−1 1 λ
1 λn − λ1 λn − λ1 λn · · · λn
− λ1 λn
λn · · · λn
n
λ2 − λ1 λ2 2 − λ1 λ2 · · · λ2 n−1 − λ1 λ2 n−2 ..
..
..
= .
.
.
λn − λ1 λn 2 − λ1 λn · · · λn n−1 − λ1 λn n−2 1 λ2 λ2 2 · · · λ2 n−2 ..
..
.. = (λ2 − λ1 ) · · · (λn − λ1 ) ...
.
.
. 1 λn λn 2 · · · λn n−2 n
Y
Y
Y
=
(λk − λ1 )
(λk − λj ) =
(λk − λj ).
k=2
2≤j<k≤n
1≤j<k≤n
Damit ist der Induktionsbeweis beendet.
2.8 Berechnung der Determinante durch Gauß-Elimination. Die Idee der Gauß-Elimination lässt
sich auch für die Berechnung von Determinanten einsetzen, indem man selbige in Stufenform bringt. Wir
notieren die Wirkung der elementaren Zeilenumformungen, die bei Determinanten auch zusammen mit
analog wirkenden Spaltenumformungen benutzt werden können.
(a) Die Determinante von A wechselt ihr Vorzeichen, wenn man zwei Spalten oder zwei Zeilen von A
vertauscht.
(b) Die Determinante von A ändert sich um den Faktor c, wenn man die Einträge einer Spalte oder einer
Zeile mit c multipliziert.
(c) Die Determinanten von A ändert sich nicht, wenn man ein beliebiges Vielfaches einer Spalte bzw.
Zeile zu einer anderen Spalte bzw. Zeile addiert.
Beweis. Für die Spalten folgt das aus der Linearität der Determinante, für die Spalten dann aus 2.2.
252
§4. DETERMINANTEN
Beispiel.
2 1 2
1 0 1
4 0 2
5 2 0
1
3
0
2
1 2 2 1
1
3 Z4→Z4−2Z1 0 1 1 3
=
−
0
0 4 2 0
0 1 −4 0
2
1
1 2 2
1 Z4→Z4+5Z3 0
0 1 1
Z3→−1/2Z3
3
=
2 =
−(−2) 6 0
0 0 1
0
0 0 −5 −3
1
0
S1↔S2
= − 0
2
2
1
4
5
2
1
2
0
1 2
Z3→Z3−4Z1
0 1
Z4→Z4−Z2
=
− 0 0
0 0
2 2 1 1 1 3 = 54.
0 1 6 0 0 27
2
1
−2
−5
1 3 −12
−3 Für große Matrizen ist die Determinantenberechnung mittels Gauß-Elimination mit O(n3 ) Rechenoperationen i.A. viel effektiver als die Anwendung des Entwicklungssatzes mit O(n!) Rechenoperationen.
3
Anwendungen
3.1 Überblick. In diesem Abschnitt geben wir zwei Anwendungen der Determinante: wir gehen auf die
Grundlagen des n-dimensionalen Volumenbegriffs ein und erklären für Vektorraumbasen eine Orientierung.
3.2 Parallelotope. Unter einem n-dimensionalen Parallelotop verstehen wir eine Menge der Form
)
(
n
X
λk ak | λ1 , . . . λn ∈ [0, 1] .
a0 + P (a1 , . . . , an ) := a0 +
k=1
Ist der „Aufhängpunkt“ a0 des Parallelotops der Nullvektor, so schreiben wir einfach P (a1 , . . . , an ).
Beispiele. Ein eindimensionales Parallelotop a0 + P (a1 ) ist eine Strecke mit den Endpunkten a0 und
a0 + a1 , ein zweidimensionales Parallelotop a0 + P (a1 , a2 ) ist ein von den Vektoren a1 , a2 aufgespanntes
Parallelogramm mit einer Ecke in a0 , ein dreidimensionales Parallelotop ist ein Spat.
P (e1 , . . . , en ) = {x ∈ Rn | 0 ≤ x1 , . . . , xn ≤ 1}
ist der n-dimensionale Einheitswürfel .
R1
R2
R3
a0 + a3
a0 + a2
r
a0
r
a0 + a1
a0 + a2
a0 + a1
a0
a0 + a1
a0
Abbildung 5.1: n-dimensionale Parallelotope für n = 1, 2, 3.
3.3 Grundeigenschaften des n-dimensionalen Volumens. Wir wollen hier noch keinen allgemeinen
Volumenbegriff für n-dimensionale Figuren einführen. Dass dies ein ambitioniertes Unterfangen ist, haben
wir schon für n = 2 in unserem Einstieg in die Integrationstheorie 4.§4.1.1 erkannt.
Die folgenden plausiblen Grundannahmen für einen allgemeinen Volumenbegriff können wir aber schon
jetzt an Parallelotopen studieren. Das Volumen eines Parallelotops a0 + P (a1 , . . . , an ) soll nur von den
aufspannenden Vektoren a1 , . . . , an abhängen. Wir bezeichnen es mit V (a1 , . . . , an ). Ferner fordern wir
253
KAPITEL 5. LINEARE ALGEBRA
(Vol1) positive Homogenität in jede Richtung:
V (. . . , λak , . . .) = |λ|V (. . . , ak , . . .)
für k = 1, . . . , n und λ ∈ R.
(Vol2) Cavalierisches Prinzip:
V (. . . , aj + λak , . . . , ak , . . .) = V (. . . , aj , . . . , ak , . . .)
für j, k = 1, . . . , n, j 6= k und λ ∈ R.
(Vol3) Normierung Der Einheitswürfel hat das Volumen 1:
V (e1 , . . . , en ) = 1.
Gemäß (Vol1) wächst das Volumen um den Faktor |λ|, wenn ein Parallelotop in eine Richtung um den
Faktor λ gestreckt bzw. gestaucht wird. Das Cavalierische Prinzip besagt, dass zwei Körper volumengleich
sind, wenn sie in jeder zur Grundebene parallelen Ebene flächengleiche Figuren ausschneiden. Das wurde
schon von Archimedes, Kepler und Galileo verwendet. Man stelle sich einen Spat als einen Stapel dünner
Blätter vor, dessen Volumen sich beim Verrutschen nicht ändert.
Abbildung 5.2: Cavalierisches Prinzip.
3.4 Volumen und Determinante. Es gibt nur ein Volumen V : Rn × · · · × Rn → R, das die drei
Forderungen (1)–(3) erfüllt:
V (a1 , . . . , an ) = | det(a1 , . . . , an )|.
Beweisidee∗ . Man macht sich leicht klar, dass | det(a1 , . . . , an )| die drei geforderten Eigenschaften hat.
Zum Nachweis der Eindeutigkeit betrachtet man
(
V (a1 ,...,an )
det(a1 , . . . , an ) falls a1 , . . . , an linear unabhängig,
f (a1 , . . . , an ) := | det(a1 ,...,an )|
0
sonst
und zeigt, dass f eine Determinantenform ist (Details siehe z.B. [FiKau, Band 1, §17.4]).
3.5 Affine Abbildungen. Eine Abbildung
T : Rn → R n ,
x 7→ Ax + b,
mit vorgegebenen A ∈ Rn×n und b ∈ Rn nennen wir eine affine Abbildung des Rn .
In den Anwendungen ist man oft schlampig und sagt statt „affin“ auch „linear“, obwohl das nur den Fall
b = 0 trifft.
Beispiele. Eine Verschiebung x 7→ x+b um den Vektor b ist eine affine Abbildung. Ist A eine Drehmatrix
in der Ebene oder im Raum, so ist x 7→ Dx + b eine affine Abbildung, die im Fall b = 0 den Ursprung
fest lässt.
254
§4. DETERMINANTEN
3.6 Volumenänderung bei affinen Abbildungen. Eine affine Abbildung T (x) = Ax + b bildet das
Parallelotop P := a0 + P (a1 , . . . , an ) auf das Parallelotop
T (P ) := Aa0 + b + P (Aa1 , . . . , Aan )
ab. Das Volumen ändert sich dabei gemäß
V (T (P )) = | det(A)|V (P ).
Eine affine Abbildung x 7→ Ax + b ändert das Volumen eines Parallelotops um den Faktor | det(A)|.
Beweis. Mit der Translationsinvarianz und dem Multiplikationssatz für Determinanten 2.3 folgt
V (T (P )) = | det(Aa1 , . . . , Aan )| = | det(A) det(a1 , . . . , an )| = | det(A)|V (P ).
3.7 Orientierung und Determinante. Zwei Basen B und C eines R-Vektorraums V heißen gleichorientiert, wenn die Transformationsmatrix S = MBC (idV ) positive Determinante hat. Ist det(S) < 0, so
heißen die beiden Basen entgegengesetzt orientiert. Für C-Vektorräume erklärt man keine Orientierung.
Die Gesamtheit der Basen eines R-Vektorraums zerfällt so in zwei disjunkte Klassen. Im Rn ist diejenige
Klasse vor der anderen ausgezeichnet, welche die Standardbasis (e1 , . . . , en ) enthält. Wir nennen die
Standardbasis im Rn und alle gleichorientierten Basen positiv orientiert, die anderen negativ orientiert.
Achtung. Orientierung überträgt sich nicht vom Vektorraum auf Teilräume. Auf eine Ebene E im R3
beispielsweise haben wir keine natürlich ausgezeichnete Orientierung — wir können die Ebene von zwei
Seiten betrachten. Wir müssen also erst innerhalb von E eine Basis auszeichnen.
3.8 Orientierungstreue lineare Abbildungen. Eine bijektive lineare Abbildung L : V → V eines
R-Vektorraums V auf sich nennen wir orientierungstreu, wenn L jede Basis von V in eine gleichorientierte
Basis überführt.
Eine lineare Abbildung L ∈ L(V ) ist genau dann orientierungstreu, wenn det(L) > 0.
Beweis. Gemäß 3.10 und 2.5 ist L genau dann bijektiv, wenn det(L) 6= 0. Ist B = (v1 , . . . , vn ) dann
eine Basis von V , so ist die Transformationsmatrix von B auf die Basis C := (L(v1 ), . . . , L(v2 )) gerade
die Darstellungsmatrix von L bezüglich B, d.h. MBC (idV ) = MB (L). Durch Determinantenbildung folgt
hieraus die Behauptung.
Beispiel. Eine Drehung in der Ebene (vgl. 3.§2.6.1) mit der Drehmatrix
Uϕ =
cos ϕ − sin ϕ
sin ϕ cos ϕ
ist orientierungstreu, da det(Uϕ ) = cos2 ϕ+sin2 ϕ = 1. Eine Spiegelung in der Ebene wird nach geeigneter
Koordinatenwahl durch die Matrix
1 0
S=
0 −1
beschrieben und ist wegen det(S) = −1 nicht orientierungstreu.
255
KAPITEL 5. LINEARE ALGEBRA
§5
1
Eigenwerttheorie
Das Eigenwertproblem bei Matrizen
1.1 Gekoppelte Pendel. Wir betrachten zwei Pendel der Masse m (konzentriert im Schwerpunkt), die
durch eine Feder der Federhärte k gekoppelt sind. Bei
kleinen Auslenkungen aus der Ruhelage ϕ1 = 0 = ϕ2
lauten die Newtonschen Bewegungsgleichungen
l
mlϕ̈1
=
−mgϕ1 + k(ϕ2 − ϕ1 ),
mlϕ̈2
=
−mgϕ2 + k(ϕ1 − ϕ2 ),
ϕ1
ẍ1
= −αx1 + β(x2 − x1 ),
= −αx2 + β(x1 − x2 ),
d.h.
m
m
Abbildung 5.3: Gekoppelte Pendel.
ẍ(t) = Ax(t)
ϕ2
k
oder kurz in den Variablen x1 := mlϕ1 , x2 := mlϕ2
und mit positiven Konstanten α := g/l, β := k/(ml)
ẍ2
l
mit A :=
β
,
−α − β
−α − β
β
x(t) :=
x1 (t)
.
x2 (t)
Beim Versuch, dieses System von Differentialgleichungen zu lösen, geraten wir in ein Dilemma: beide
DGL sind miteinander gekoppelt, keine kann für sich alleine gelöst werden.
Gehen wir zu den neuen Variablen y1 := x1 − x2 und y2 := x1 + x2 über, d.h. transformieren wir gemäß
1 1 1
1 −1
−1
−1
x = Sy,
y=S x
mit S =
, S =
,
1 1
2 −1 1
so erhalten wir das DGL-System
ÿ(t) =
d2 −1
S x(t) = S −1 ẍ(t) = S −1 Ax(t) = |S −1
{zAS} y(t)
dt2
:=B
mit einer Systemmatrix
B = S −1 AS =
d.h. mit ω1 :=
√
α, ω2 :=
1
1
−1
−α − β
1
β
β
−α − β
1/2
−1/2
1/2
1/2
=
−α
0
0
,
−α − 2β
√
α + 2β,
ÿ1 (t)
−ω1 2
=
0
ÿ2 (t)
0
−ω2 2
y1 (t)
−ω1 2 y1 (t)
=
.
y2 (t)
−ω2 2 y2 (t)
Dieses „entkoppelte“ System können wir komponentenweise lösen und erhalten
y1 (t) = a1 cos ω1 t + b1 sin ω1 t,
y2 (t) = a2 cos ω2 t + b2 sin ω2 t,
Rücktransformation mit x = Sy liefert uns dann auch eine Lösung für das ursprünglich gegebene DGLSystem.
Was ist da passiert? Wir haben eine geschickte Variablensubstitution vorgenommen, die zwar etwas vom
Himmel fällt (allerdings auch eine sinnvolle physikalische Interpretation besitzt), dafür aber das DGLSystem in eine einfache Form bringt. Ist so etwas immer möglich? Wie findet man solch eine Substitution?
Damit wollen wir uns jetzt systematisch beschäftigen.
256
§5. EIGENWERTTHEORIE
1.2 Diagonalisierbare Matrizen. Eine (n × n)-Matrix A heißt diagonalisierbar oder diagonalähnlich,
wenn es eine invertierbare (n × n)-Matrix S gibt, so dass


λ1


..
S −1 AS = 
 =: diag(λ1 , . . . , λn ) = D
.
λn
eine Diagonalmatrix ist.
Wir erinnern uns an §2.4. Wir suchen für die zu A gehörige lineare Abbildung L eine Basis, bezüglich
der L durch eine Diagonalmatrix D dargestellt wird. Gehen wir vom Kn mit der Standardbasis aus, so
wird diese Basis gerade aus den Spalten v1 , . . . , vn des Basiswechsels S gebildet und es gilt dann
Avk = λk vk
für k = 1, . . . , n,
AS = SD.
d.h.
Die Abbildung L wirkt also in Richtung des k-ten Basisvektors vk wie eine Streckung um λk .
Damit sind wir bei dem folgenden Problem angelangt.
1.3 Das Eigenwertproblem. Gegeben ist eine Matrix A ∈ Kn×n . Gesucht sind alle λ ∈ K, so dass
Av = λv
n
nichttrivale Lösungen v ∈ K besitzt. Jede solche Zahl λ heißt Eigenwert, jede Lösung v 6= 0 Eigenvektor
zum Eigenwert λ.
Mit diesen Begriffen können die Frage nach Diagonalähnlichkeit umformulieren.
1.4 Diagonalisierbarkeit. Eine (n × n)-Matrix A ist genau dann diagonalisierbar, wenn es eines Basis
des Kn aus Eigenvektoren von A gibt. Die zugehörige Diagonalmatrix hat dann als Diagonaleinträge die
Eigenwerte von A.
Dieses Kriterium ist nutzlos, solange wir nicht wissen, ob und wie wir uns eine Basis aus Eigenvektoren
beschaffen können. Darum müssen wir uns jetzt genauer mit Eigenwerten und Eigenvektoren beschäftigen.
In 1.11 erhalten wir ein praktikables Kriterium für Diagonalisierbarkeit, in §5.4 diskutieren wir zwei
wichtige Klassen diagonalisierbarer Matrizen, die symmetrischen und die hermiteschen.
1.5 Charakteristisches Polynom. Wie finden wir nun heraus, für welche λ die Gleichung Av = λv
nichttriviale Lösungen besitzt? Wir schreiben die Gleichung hierzu in der Form
0 = λv − Av = λEn v − Av = (λEn − A)v.
Dieses homogene LGS muss also nichttriviale Lösungen besitzen, damit λ
tritt genau dann ein, wenn die Matrix λEn − A nicht invertierbar ist, d.h.

λ − a1,1
−a1,2
···
−a1,n
 −a2,1
λ
−
a
−a
2,2
2,n

det(λEn − A) = 
..
.
.
..
..

.
−an,1
−an,2
···
ein Eigenwert von A ist. Das
genau dann, wenn



 = 0.

λ − an,n
Durch Anwendung des Laplaceschen Entwicklungssatzes 2.2.1 machen wir uns klar, dass
χA : K → K,
χA (t) := det(tEn − A) für t ∈ K,
ein normierts Polynom in der Variablen t vom Grad n ist. Dieses Polynom heißt charakteristisches Polynom der Matrix A. Den Koeffizienten bei tn−1 können wir bei der Laplace-Entwicklung noch gut ablesen,
der konstante Koeffizient entpuppt sich nach Einsetzen von t = 0 als eine vorzeichenbehaftete Determinante. Damit gilt
χA (t) = tn − (a1,1 + a2,2 + · · · + an,n )tn−1 ± · · · + (−1)n det(A).
Die Summe der Diagonaleinträge
Spur(A) := a1,1 + a2,2 + · · · + an,n
heißt Spur der Matrix A.
KAPITEL 5. LINEARE ALGEBRA
257
Anmerkung. Manchmal wird das charakteristische Polynom auch durch det(A − tEn ) definiert. Wegen
det(A − tEn ) = (−1)n det(tEn − A) = (−1)n χA (t)
ist das aber kein großer Unterschied. Die Spur wird im angelsächsischen mit tr(A) („trace“) bezeichnet.
Die Eigenwerte von A ∈ Kn×n sind gerade die Nullstellen des charakteristischen Polynoms χA . Die zum
Eigenwert λ gehörigen Eigenvektoren sind gerade die nichttrivialen Lösungen von (λEn − A)v = 0.
1.6 Eigenräume. Ist λ ein Eigenwert von A ∈ Kn×n , so nennen wir die aus dem Nullvektor und allen
zu λ gehörigen Eigenvektoren gebildete Menge den Eigenraum des Eigenwerts λ und schreiben dafür
NA,λ = Kern(λEn − A) = {v ∈ Kn | (λEn − A)v = 0}.
Falls klar ist, um welche Matrix es gerade geht, schreiben wir auch Nλ statt NA,λ .
Beispiel. Die (n×n)-Einheitsmatrix hat nur den Eigenwert 1, die (n×n)-Nullmatrix nur den Eigenwert 0.
Je nachdem, ob man diese Matrizen in Rn×n oder Cn×n betrachtet, sind die Eigenräume Rn bzw. Cn .
Die Projektion im R2 auf die erste Koordinate hat (bezüglich der Standardbasis) die Darstellungsmatrix
1 0
A=
.
0 0
Diese Matrix hat die Eigenwerte 0 und 1. Offensichtlich gilt
1
0 0
N1 = Kern(E2 − A) = Kern
= Span(
),
0 1
0
0
−1 0
N0 = Kern(−A) = Kern
= Span(
).
0 0
1
1.7 Geometrische und algebraische Vielfachheit. Die Dimension des Eigenraums NA,λ berechnet
sich nach der Dimensionsformel zu
nA,λ := dim NA,λ = def(λEn − A) = n − rg(λEn − A) ≥ 1.
Sie wird geometrische Vielfachheit genannt. Auch hier schreiben wir bisweilen einfach nλ statt nA,λ .
Die Vielfachheit k, mit der λ als Nullstelle im charakteristischen Polynom χA vorkommt, heißt algebraische
Vielfachheit. Wir sprechen dann auch von einem k-fachen Eigenwert. Es gilt dann χA (t) = (t − λ)k q(t)
mit einem Polynom q vom Grad n − k mit q(λ) 6= 0.
In §6.5.9 werden wir zeigen, dass zwischen diesen beiden Vielfachheiten folgende Beziehung besteht.
Die geometrische Vielfachheit eines Eigenwerts ist höchstens so groß wie seine algebraische. Mit Vielfachheiten gezählt hat eine (n × n)-Matrix also höchstens n Eigenwerte.
1.8 Nicht jede Matrix ist diagonalisierbar. Die (n × n)-Matrix


λ 1


λ 1




.. ..
J = Jn,λ := 
(leere Einträge sind 0)

.
.



λ 1
λ
wird Jordan-Block der Größe n zum Eigenwert λ genannt. Wir werden ihr später noch begegnen. Mit J
ist auch tEn − J eine obere Dreiecksmatrix. Da auf der Diagonalen nur die Einträge t − λ stehen, erhalten
wir χJ (t) = det(tEn − J) = (t − λ)n . Daher ist λ ein n-facher und damit der einzige Eigenwert von J.
Wegen


 
0 −1
1




.
.
..
..
0


NJ,λ = Kern 
 = Span( .. )

.
0 −1
0
0
hat λ nur einen eindimensionalen Eigenraum. Damit ist J für n ≥ 2 nicht diagonalisierbar.
258
§5. EIGENWERTTHEORIE
1.9 Achtung: Grundkörper beachten. Nach dem Fundamentalsatz der Algebra 2.§3.1.14 hat ein
Polynom vom Grad n (mit Vielfachheiten gezählt) genau n komplexe Nullstellen. Damit hat eine Matrix
A ∈ Cn×n (auch wenn sie reelle Koeffizienten hat) immer genau n Eigenwerte, falls man jeden Eigenwert
so oft (d.h. algebraisch) zählt, wie er als Nullstelle in χA vorkommt. Eine Matrix aus Rn×n dagegen muss
gar keine Eigenwerte besitzen — schließlich gibt es reelle Polynome, die keine reellen Nullstellen haben.
Reelle Matrizen betrachtet man darum zunächst gerne über C. Anschließend muss man überlegen, was
sich ins Reelle „hinüberretten“ lässt (vgl. das Beispiel in 1.12).
Beispiel. Die zu einer Drehung im R2 um den Ursprung um π/2 gehörige Drehmatrix
0 −1
Uπ/2 =
1 0
hat das charakteristische Polynom
t
χUπ/2 (t) = −1
1
= t2 + 1.
t
Wenn man also Uπ/2 als eine reelle (2 × 2)-Matrix auffasst, so hat diese Matrix keinen Eigenwert. Das ist
auch gut so, schließlich führt eine Vierteldrehung (außer dem Nullvektor, den wir als Eigenvektor explizit
ausgeschlossen haben) keinen Vektor des R2 in ein Vielfaches seiner selbst über.
Dagegen hat Uπ/2 als Matrix in C2×2 die zwei Eigenwerte ±i = e±iπ/2 . Eigenvektoren zu i und −i
erhalten wir durch Bestimmung der Eigenräume
i
i 1
),
Ni = Kern(iE2 − Uπ/2 ) = Kern
= Span(
−1 i
1
1
−i 1
N−i = Kern(−iE2 − Uπ/2 ) = Kern
= Span(
).
−1 −i
i
Offensichtlich sind alle Eigenvektoren komplex. Wir wählen zu jedem Eigenwert einen Eigenvektor und
bauen hieraus die Transformationsmatrix
i 1
S :=
.
1 i
Offensichtlich ist S invertierbar und es gilt
1 −i 1
0
−1
S AS =
1
2 1 −i
−1
i
0
1
1
i
=
i
0
0
.
−i
Damit haben wir A durch eine Matrix mit einer Basis aus Eigenvektoren über C diagonalisiert.
1.10 Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Sind λ1 , . . . , λr
paarweise verschiedene Eigenwerte einer Matrix A und sind v1 , . . . , vr zugehörige Eigenvektoren, so sind
diese linear unabhängig.
Das beweisen wir in 2.6 in allgemeinerer Form, notieren aber jetzt schon eine Folgerung.
Sind λ1 , . . . , λr paarweise verschiedene Eigenwerte einer Matrix A und sind B1 , . . . , Br Basen der zugehörigen Eigenräume Nλ1 , . . . , Nλr , so bilden diese zusammen eine linear unabhängige Menge.
Nun können wir unser erstes Kriterium für Diagonalisierbarkeit 1.4 umschreiben: Um für den Kn eine
Basis aus Eigenvektoren zu erhalten, muss die eben genannte linear unabhängige Menge aus n Vektoren
bestehen. Die Summe der geometrischen Vielfachheiten aller Eigenwerte (das ist gerade die Summe der
Dimensionen der zugehörigen Eigenräume) muss also die Raumdimension n ergeben. Da die geometrische
Vielfachheit eines Eigenwerts nicht größer als die algebraische sein kann, muss dazu auch die Summe
aller algebraischen Vielfachheiten n sein. Das bedeutet aber, dass das charakteristische Polynom mit
Vielfachheiten gezählt genau n Nullstellen haben muss. Das fassen wir jetzt zusammen.
259
KAPITEL 5. LINEARE ALGEBRA
1.11 Kriterium für Diagonalisierbarkeit. Eine Matrix A ∈ Kn×n ist genau dann diagonalisierbar,
wenn das charakteristische Polynom χA mit Vielfachheiten gezählt genau n Nullstellen in K besitzt und
für jede Nullstelle die algebraische Vielfachheit mit der geometrischen übereinstimmt.
Insbesondere ist eine (n × n)-Matrix diagonalisierbar, wenn das charakteristisch Polynom n paarweise
verschiedene Nullstellen besitzt.
1.12 Spur- und Determinantenbedingung für Eigenwerte. Hat A ∈ Cn×n die verschiedenen
Eigenwerte λ1 , . . . , λr mit algebraischen Vielfachheiten k1 , . . . , kr ∈ N, so gilt
det(A) = λ1 k1 · · · λr kr .
Spur(A) = k1 λ1 + · · · + kr λr ,
Beispiel. Die (n × n)-Matrix

1+c
1
···
 1
1
+
c

A :=  .
..
 ..
.
1
1
···
1
1
..
.

1 1
 1 1
 
 =  ..
 .

1
1+c
|
···
..
1
.
···
{z
=:B

1
1

..  +cEn = B + cEn
.
1
}
hat den Eigenwert c und dieser hat die geometrische Vielfachheit nc = n − 1. Es gilt nämlich
rg(c · En − A) = rg(−B) = 1.
Zu c existieren damit n − 1 linear unabhängige Eigenvektoren. Aus der Spurbedingung erhalten wir für
den verbleibenden Eigenwert λ die Gleichung
n(1 + c) = Spur(A) = (n − 1)c + λ,
d.h. λ = n+c 6= c. (Die Determinantenbedingung liefert dann det(A) = cn−1 (n+c). Nett, dass man so eine
Determinante berechnen kann.) Außerdem muss zum Eigenwert n + c ein mindestens eindimensionaler
Eigenraum gehören. Da für den Eigenwert c schon ein (n−1)-dimensionaler Eigenraum existiert, hat n+c
einen eindimensionalen Eigenraum. Damit hat A eine Basis aus Eigenvektoren und ist diagonalisierbar.
Ohne explizite Rechnung wissen wir nun, dass es eine invertierbare (n × n)-Matrix S geben muss mit
S −1 AS = diag( c, . . . , c , n + c)
| {z }
n − 1 mal
Damit haben wir A durch einen Ausflug ins Komplexe auch über R diagonalisiert.
1.13 Eigenwerte und Eigenvektoren ähnlicher Matrizen. Ähnliche Matrizen haben dasselbe charakteristische Polynom und dieselben Eigenwerte mit denselben algebraischen und geometrischen Vielfachheiten.
Wie der folgende Beweis zeigen wird, stimmen die zu einem Eigenwert gehörigen Eigenvektoren und
Eigenräume i.A. nicht überein.
Beweis. Seien A, B ∈ Kn×n ähnlich, d.h. B = S −1 AS mit invertierbarem S ∈ Kn×n . Dann zeigt eine
kurze Rechnung mit Determinanten χB (t) = det(tEn − B) = det(tEn − A) = χA (t). Also haben A und B
dieselben charakteristischen Polynome und dann auch dieselben Eigenwerte mit denselben algebraischen
Vielfachheiten. Weiter gilt
Av = λv
⇔
S −1 ASS −1 v = λS −1 v
⇔
B(S −1 v) = λ(S −1 v).
Ist also v ein Eigenvektor von A zum Eigenwert λ, so ist S −1 v ein Eigenvektor von B zum selben
Eigenwert. Der zugehörige Eigenraum NA,λ wird durch S −1 in den Eigenraum NB,λ übergeführt:
v ∈ NA,λ
⇔
S −1 v ∈ NB,λ .
Die zum Eigenwert λ gehörigen Eigenräume sind damit nicht identisch, haben aber dieselbe Dimension.
260
2
§5. EIGENWERTTHEORIE
Eigenwerttheorie bei linearen Operatoren
2.1 Worum geht es? Wir entwickeln Grundlagen der Eigenwerttheorie bei linearen Operatoren. Dabei
lassen wir auch unendlichdimensionale Vektorräume zu, um Anwendungen bei Differentialgleichungen, in
der Mechanik und Quantenmechanik zu diskutieren. Einiges wird uns von Matrizen bekannt vorkommen,
an manchen Stellen werden aber „unendlichdimensionale Effekte“ hervorspitzeln.
2.2 Eigenwerte, Eigenvektoren und Eigenräume eines linearen Operators. Ist V ein K-Vektorraum und ist L ∈ L(V ) ein linearer Operator, so heißt λ ∈ K ein Eigenwert, wenn es einen Eigenvektor
v ∈ V , v 6= 0, gibt mit L(v) = λv. Den Teilraum
NL,λ := Kern(λ id −L) = {v ∈ V | L(v) = λv}
nennen wir den Eigenraum zum Eigenwert λ. Ist klar, welcher lineare Operator gemeint ist, so schreiben
wir einfach Nλ .
Beispiel. Wir betrachten den Differentialoperator
u 7→ −u00 .
Wir legen zunächst den R-Vektorraum C ∞ (R) zu Grunde. Ein λ ∈ R ist genau dann Eigenwert, wenn die
Differentialgleichung −u00 = λu eine Lösung besitzt. Damit ist jedes λ ∈ R ein Eigenwert, die zugehörigen
Eigenräume sind zweidimensional und es gilt

√
√

für λ > 0,
{a cos λt + b sin λt | a, b ∈ R}
Nλ = {a + bt | a, b ∈ R}
für λ = 0,

√
√

{a cosh −λt + b sinh −λt | a, b ∈ R} für λ < 0.
Betrachten wir diesen Differentialoperator dagegen auf dem R-Vektorraum
V := {u ∈ C ∞ ([0, 1]) | u(0) = 0 = u(1)},
was der Diskussion einer schwingenden Saite entspricht, die an den Punkten 0 und 1 eingespannt ist, so
treten nur die Eigenwerte λn := n2 π 2 , n ∈ N0 , auf und die zugehörigen Eigenräume sind eindimensional.
(Man überlege sich selbst, warum dem so ist und wie die Eigenvektoren aussehen.)
2.3 Anmerkung zum endlichdimensionalen Fall. Ist V ein endlichdimensionaler Vektorraum, so
können wir eine lineare Abbildung L ∈ L(V ) nach Wahl einer Basis von V durch eine Matrix darstellen.
Wir wissen aus §2.4, dass alle Darstellungsmatrizen für L zueinander ähnlich sind. Nach 1.13 haben all
diese Matrizen dieselben Eigenwerte. Wir können also irgendeine Darstellungsmatrix zur Bestimmung
der Eigenwerte von L heranziehen und dabei den Matrizenkalkül verwenden.
2.4 Polynome in linearen Operatoren. Ist L ∈ L(V ), so können wir L mehrmals hintereinander
ausführen. Für die n-malige Hintereinanderausführung schreiben wir Ln , d.h. wir erklären rekursiv
L0 := idV ,
Ln := L ◦ Ln−1
für n ∈ N.
Beispielsweise ist L2 = L ◦ L die zweimalige Verkettung von L mit sich selbst. Da wir lineare Operatoren
addieren und vervielfachen können, ist damit zu vorgegebenen Zahlen am . . . , a2 , a1 , a0 ∈ K der Operator
p(L) : V 7→ V,
p(L) := am Lm + · · · + a2 L2 + a1 L + a0 id
erklärt und selbst linear. Formal entsteht der lineare Operator p(L) durch das Einsetzen von L in das
Polynom p(t) = am tm + · · · + a2 t2 + a1 t + a0 .
Beispiele.
(a) In der Definition des Eigenraums NL,λ wird L in das Polynom pλ (t) := λ − t eingesetzt:
NL,λ = Kern(λ id −L) = Kern pλ (L).
Die Eigenwerte von L sind also die Zahlen λ, für welche der lineare Operator pλ (L) nicht injektiv ist.
261
KAPITEL 5. LINEARE ALGEBRA
(b) Die Ableitung f 0 einer Funktion f ist das Bild von f unter dem Differentialoperator D :=
dn
n
(n)
.
Einsetzen von D in das Polynom tn liefert Dn = dx
n , d.h. die n-te Ableitung D f = f
d
dx .
(c) Ein linearer Differentialoperator L vom Grad r hat die Form
L(y) = y (r) + ar−1 y (r−1) + · · · + a2 y 00 + a1 y 0 + a0 y.
Er entsteht durch das Einsetzen des Differentialoperators D =
d
dx
in das Polynom
p(t) = tr + ar−1 tr−1 + · · · + a2 t2 + a1 t + a0 ,
welches auch charakteristisches Polynom des Differentialoperators genannt wird, d.h.
L = p(D).
Die Lösungsmenge der homogenen linearen Differentialgleichung r-ter Ordnung
y (r) + ar−1 y (r−1) + · · · + a2 y 00 + a1 y 0 + a0 y = 0
ist gerade Kern L = Kern p(D).
2.5 Zerlegungssatz. Ist p = p1 · · · pr ein Produkt aus r paarweise teilerfremden Polynomen und ist
L ∈ L(V ), so gilt
v ∈ Kern p(L)
⇔
es gibt eindeutig bestimmte v1 ∈ Kern p1 (L), . . . , vr ∈ Kern pr (L)
mit v = v1 + · · · + vr .
Wir erinnern uns (vgl. 2.§3.1): zwei Polynome p1 und p2 heißen teilerfremd, wenn aus p1 = qq1 und
p2 = qq2 mit Polynomen q, q1 , q2 folgt, dass q konstant ist. Eine Polynomdivision mit Rest zeigt, dass
dies gleichbedeutend ist mit der Existenz einer Darstellung 1 = h1 p1 + h2 p2 mit Polynomen h1 und h2 .
Beweis∗ . Wir beweisen nur den Fall r = 2, aus dem durch Induktion alles weitere folgt.
Zu „⇐“: Sind v1 , v2 ∈ V mit p1 (L)v1 = 0 und p2 (L)v2 = 0, so folgt für v = v1 + v2 dann
p(L)v
= p(L)v1 + p(L)v2 = (p2 p1 )(L)v1 + (p1 p2 )(L)v2
= p2 (L)p1 (L)v1 + p1 (L)p2 (L)v2 = p2 (L)0 + p1 (L)0 = 0.
Zu „⇒“: Für v ∈ V mit p(L)v = 0 setzen wir v1 := (h2 p2 )(L)v und v2 := (h1 p1 )(L)v. Wegen h1 p1 + h2 p2 = 1
gilt dann
v = (h1 p1 + h2 p2 )(L)v = (h2 p2 )(L)v + (h1 p1 )(L)v = v1 + v2 .
Ist ṽ1 + ṽ2 = v eine andere Zerlegung mit ṽ1 ∈ Kern p1 (L) und ṽ2 ∈ Kern p2 (L), so folgt aus v1 + v2 =
v = ṽ1 + ṽ2 dann Kern p1 (L) 3 v1 − ṽ1 = ṽ2 − v2 ∈ Kern p2 (L), da beide Mengen Unterräume sind. Ist
aber u ∈ Kern p1 (L) ∩ Kern p2 (L), so gilt
u = (h1 p1 + h2 p2 )(L)u = h1 (L)p1 (L)u + h2 (L)p2 (L)u = h1 (L)0 + h2 (L)0 = 0.
Dies zeigt ṽ1 = v1 und ṽ2 = v2 . Die Zerlegung von v ist also eindeutig.
2.6 Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. Sind λ1 , . . . , λr paarweise verschiedene Eigenwerte eines linearen Operators L ∈ L(V ), und sind v1 , . . . , vr zugehörige Eigenvektoren, so sind diese linear unabhängig.
Beweis∗ . Für k = 1, . . . , r setzen wir pk (t) := λk − t. Dann ist vk ∈ Nλk = Kern pk (L) und p := p1 · · · pr
ist ein Produkt paarweise teilerfremder Polynome. Ist nun 0 = µ1 v1 + · · · + µr vr eine Linearkombination
für den Nullvektor, so sagt der Zerlegungssatz 2.5 angewendet auf p und v = 0, dass µ1 v1 = . . . = µr vr = 0
gelten muss. Wegen v1 , . . . , vr 6= 0 folgt nun µ1 = . . . = µr = 0. Also sind v1 , . . . , vr linear unabhängig.
Beispiel. Wir betrachten im Vektorraum C ∞ (R) den linearen Operator y 7→ y 0 . Dann ist t 7→ eλt ein
d λt
Eigenvektor zum Eigenwert λ. Es gilt ja dt
e = λeλt . Also sind die Funktionen t 7→ eλt für verschiedene λ
linear unabhängig.
262
§6. VEKTORRÄUME MIT SKALARPRODUKT
2.7 Lösungen der homogenen linearen Differentialgleichung r-ter Ordnung. Um alle Lösungen
von
y (r) + ar−1 y (r−1) + · · · + a1 y 0 + a0 y = 0
d
auf dem C-Vektorraum C ∞ (R) und setzen
zu bestimmen, betrachten wir den Differentialoperator D := dx
r
r−1
selbigen in das charakteristische Polynom p(t) := t + ar−1 t
+ · · · + a1 t + a0 der DGL ein. Wir müssen
dann Kern p(D) bestimmen (siehe 2.4).
Sind λ1 , . . . , λm ∈ C die verschiedenen Nullstellen von p mit Vielfachheiten k1 , . . . , km ∈ N, d.h.
p(t) = (t − λ1 )k1 · · · (t − λm )km ,
so sagt der Zerlegungssatz, dass sich jede Lösung der DGL eindeutig als Linearkombination von Vektoren
aus Kern(D − λ1 id)k1 , . . . , Kern(D − λm id)km darstellen lässt.
Wir müssen also noch Kern(D − λ id)k für λ ∈ C und k ∈ N bestimmen, d.h. die DGL
(D − λ)k y = 0
lösen. Die Transformation y 7→ eλt y führt die Lösungen dieser DGL wegen
(D − λ)(eλt y) = λeλt y + eλt y 0 − λeλt y = eλt y 0 = eλt Dy
in die Lösungen der DGL
Dk y = y (k) = 0
über. Diese DGL hat offensichtlich genau die komplexen Polynome vom Grad höchstens k−1 als Lösungen.
Damit gilt
Kern(D − λ id)k = {(ck−1 tk−1 + · · · + c1 t + c0 )eλt | ck−1 , . . . , c1 , c0 ∈ C} = Span(eλt , teλt , . . . , tk−1 eλt ).
Wir fassen zusammen:
Die Lösungen von y (r) + ar−1 y (r−1) + · · · + a1 y 0 + a0 y = 0 sind gerade die Linearkombinationen der
Funktionen tk eλt , wobei λ ∈ C die Nullstellen des charakteristischen Polynoms tr +ar−1 tr−1 +· · ·+a1 t+a0
durchläuft und k ∈ N0 kleiner ist als die Vielfachheit der Nullstelle λ.
Beispiel. y (4) − 2y 000 + 2y 00 − 2y 0 + y = 0.
Das charakteristische Polynom lautet t4 − 2t3 + 2t2 − 2t + 1 = (t − 1)2 (t − i)(t + i). Die allgemeine Lösung
hat also die Form
y(x) = c1 ex + c2 xex + c3 eix + c4 e−ix
mit c1 , . . . , c4 ∈ C.
Wenn man sich nur für reelle Lösungen interessiert, bildet man den Realteil und erhält
y(x) = C1 ex + C2 xex + C3 cos x + C4 sin x
§6
mit C1 , . . . , C4 ∈ R.
Vektorräume mit Skalarprodukt
In diesem und dem nächsten Paragraphen werden wir viele ganz unterschiedlich anmutende Fragestellungen mit einer einheitlichen Methode behandeln lernen. Hierzu gehören:
• Lösungsverfahren für lineare Differentialgleichungssysteme, insbesondere für schwingende Systeme,
• Finden des „richtigen“ Koordinatensystems für ein mechanisches System (z.B. Kreisel, Festkörper),
• Umgang mit Polynomen zweiten Grades in mehreren Veränderlichen (wie sie später in der Analysis
zur Taylor-Approximation und bei der Extremwertberechnung verwendet werden),
• Kegelschnitte,
263
KAPITEL 5. LINEARE ALGEBRA
• orthogonale Funktionenfolgen,
• Fourier-Analyse und Fourier-Synthese,
• mathematische Grundlagen der Quantenmechanik.
Damit wir all diese Fragestellungen auf eine gemeinsame Wurzel zurückführen und einheitlich bearbeiten
können, müssen wir zunächst eine passende Begrifflichkeit entwickeln. Dies tun wir in diesem Paragraphen
mit einem Fokus auf endlichdimensionale Vektorräumen. In §7 stehen dann Anwendungen in unendlichdimensionalen Vektorräumen im Vordergrund.
1
Bilinear- und Sesquilinearformen, quadratische Formen
1.1 Worum geht es? Wir beginnen mit der angekündigten Entwicklung der Begrifflichkeit. Das tun
wir parallel für R- und C-Vektorräume. Es wird nur kleine Unterschiede geben.
1.2 Symmetrische Bilinearformen. Eine symmetrische Bilinearform q auf einem R-Vektorraum V
ist eine Abbildung
q : V × V → R,
die jedem Paar von Vektoren aus V eine reelle Zahl zuordnet mit den beiden Eigenschaften
(BL1) (Linearität in der zweiten Komponente) q(v, λ1 w1 + λ2 w2 ) = λ1 q(v, w1 ) + λ2 q(v, w2 ) für alle
Vektoren v, w1 , w2 ∈ V und alle Skalare λ1 , λ2 ∈ R,
(BL2) (Symmetrie) q(v, w) = q(w, v) für alle Vektoren v, w ∈ V .
Dann ist q automatisch „bilinear“, d.h. nicht nur in der zweiten, sondern auch in der ersten Komponente
linear: q(λ1 v1 + λ2 v2 , w) = λ1 q(v1 , w) + λ2 q(v2 , w).
Das kann man auch so sagen: die beiden Abbildungen v 7→ q(v, w) bzw. w 7→ q(v, w) sind bei festem w
bzw. v Linearformen V → R.
1.3 Hermitesche Sesquilinearformen. Für einen C-Vektorraum erklären wir analog: eine hermitesche
Sesquilinearform q auf einem C-Vektorraum V ist eine Abbildung
q : V × V → C,
die jedem Paar von Vektoren aus V eine komplexe Zahl zuordnet mit den beiden Eigenschaften
(SL1) (Linearität in der zweiten Komponente) q(v, λ1 w1 + λ2 w2 ) = λ1 q(v, w1 ) + λ2 q(v, w2 ) für alle
Vektoren v, w1 , w2 ∈ V und alle Skalare λ1 , λ2 ∈ C,
(SL2) (Hermitizität) q(v, w) = q(w, v) für alle Vektoren v, w ∈ V .
Dann ist q automatisch in der ersten Komponenten antilinear : q(λ1 v1 +λ2 v2 , w) = λ1 q(v1 , w)+λ2 q(v2 , w).
Daher kommt auch der Name: „Sesqui“ bedeutet „eineinhalb“ — q ist nur „eineinhalb-mal“ linear.
Für v = w erhalten wir aus (SL2) sofort q(v, v) = q(v, v). Damit ist q(v, v) immer reell.
1.4 Quadratische Formen. Ist q eine symmetrische Bilinearform oder eine hermitesche Sesquilinearform, so nennen wir die Abbildung
Q : V → R,
v 7→ Q(v) := q(v, v)
die zu q gehörige quadratische Form. Sie ordnet jedem Vektor eine reelle Zahl zu.
1.5 Fundamentalmatrix. Ist dim V = n endlich und ist (v1 , . . . , vn ) eine Basis von V , so heißt die
(n × n)-Matrix


q(v1 , v1 ) · · · q(v1 , vn )


..
..
A = (aj,k ) := (q(vj , vk )) = 

.
.
q(vn , v1 ) · · ·
q(vn , vn )
die Fundamentalmatrix von q für diese Basis. Wegen (BL2) bzw. (SL2) ist A symmetrisch, sofern q eine
symmetrische Bilinearform ist, bzw. hermitesch, sofern q eine hermitesche Sesquilinearform ist.
264
§6. VEKTORRÄUME MIT SKALARPRODUKT
Durch q ist A bestimmt. Umgekehrt wird im rellen Fall zu jeder symmetrischen Matrix A ∈ Rn×n mittels


n
n
n
X
X
X
q(v, w) = q 
x j vj ,
yk vk  =
xj yk aj,k = xT Ay
für x = vB , y = vB .
j=1
k=1
j,k=1
eine symmetrische Bilinearform erklärt, im komplexen für hermitesches A ∈ Cn×n mittels


n
n
n
X
X
X


xj yk aj,k = x∗ Ay
für x = vB , y = vB .
q(v, w) = q
x j vj ,
yk vk =
j=1
k=1
j,k=1
eine hermitesche Sesquilinearform. Nach Wahl einer Basis können wir also die Bilinearformen auf einem ndimensionalen R-Vektorraum mit den reellen symmetrischen (n×n)-Matrizen, die Sesquilinearformen auf
einem n-dimensionalen C-Vektorraum mit den komplexen hermiteschen (n × n)-Matrizen identifizieren.
Zu jeder symmetrischen Bilinearform gehört nach Wahl einer Basis genau eine symmetrische Fundamentalmatrix und umgekehrt. Zu jeder hermiteschen Sesquilinearform gehört nach Wahl einer Basis genau
eine hermitesche Fundamentalmatrix und umgekehrt.
Im Kn mit der kanonischen Basis ist das besonders einfach. Im Rn hat jede symmetrische Bilinearform
die Gestalt
q(x, y) = xT Ay
mit A = AT ∈ Rn×n ,
im Cn hat jede hermitesche Sesquilinearform die Darstellung
q(x, y) = x∗ Ay
mit A = A∗ ∈ Cn×n .
1.6 Lorentz-Form und Minkowski-Metrik. Die Lorentz-Form
 
 
x1
y1
x2 
y2 
4

 
q(x, y) := x1 y1 + x2 y2 + x3 y3 − tτ
für x = 
x3  , y = y3  ∈ R
t
τ
ist eine symmetrische Bilinearform auf dem R4 . Sie ist in der speziellen Relativitätstheorie gebräuchlich
und separiert dort Raum und Zeit. Die zugehörige quadratische Form
 
x1
x2 
2
2
2
2
4

Q(x) = q(x, x) = x1 + x2 + x3 − t
für x = 
x3  ∈ R
t
heißt Minkowski-Metrik .
Die Fundamentalmatrix der Lorentz-Form bezüglich der Standardbasis des R4 lautet


 T 
 
1 0 0 0
x1
1 0 0 0
y1
0 1 0 0 
x2  0 1 0 0  y2 


  
 
d.h.
0 0 1 0  ,
x3  0 0 1 0  y3  = x1 y1 + x2 y2 + x3 y3 − tτ.
0 0 0 −1
t
0 0 0 −1
τ
1.7 Fundamentalmatrizen und Basiswechsel. Bei einem Basiswechsel x = Sx0 transformiert sich
eine Bi- bzw. Sesquilinearform gemäß
xT Ay = (Sx0 )T A(Sy 0 ) = x0T (S T AS)y 0 ,
bzw.
x∗ Ay = (Sx0 )∗ A(Sy 0 ) = x0∗ (S ∗ AS)y 0 ,
Die Fundamentalmatrix bezüglich der neuen Basis ist also im reellen Fall durch S T AS, im komplexen
durch S ∗ AS gegeben.
265
KAPITEL 5. LINEARE ALGEBRA
Achtung. Fundamentalmatrizen transformieren sich anders als Darstellungsmatrizen von linearen Abbildungen (da lautetet die Transformationsregel S −1 AS). Lediglich bei einem Basiswechsel mit einer
orthogonalen bzw. unitären Matrix S besteht kein Unterschied. Dann gilt ja S T = S −1 bzw. S ∗ = S −1
und damit S T AS = S −1 AS bzw. S ∗ AS = S −1 AS.
1.8∗ Polarisationsgleichung. Quadratische Formen haben wir aus Bi- bzw. Sesqulinearformen durch
Gleichsetzen der beiden Einträge gebildet. So wurde aus einer Funktion in zwei (vektoriellen) Variablen
eine in nur einer Variablen. Man denkt, dass dabei Information verloren geht. Dass dies stimmt nicht,
sagt die Polarisationsgleichung mit der man aus der quadratischen Form die Bi- bzw. Sesqulinearform
zurückgewinnen kann.
Für jede quadratische Form in einem R-Vektorraum gilt
1
[Q(v + w) − Q(v − w)].
4
Für jede quadratische Form in einem C-Vektorraum gilt
q(v, w) =
q(v, w) =
1
[Q(v + w) − Q(v − w) + iQ(v − iw) − iQ(v + iw)].
4
Beweis. Man ersetze Q(v + w) = q(v + w, v + w) usw. und rechne sich fleißig von rechts nach links durch.
Beispiel. Eine quadratische Form im Rn hat die Gestalt
xT Ax =
n
X
aj,k xj xk
= a1,1 x1 2 + a1,2 x1 x2 + · · · + a1,n x1 xn
+a2,1 x2 x1 + a2,2 x2 2 + · · · + a2,n x2 xn
j,k=1
+···
+an,1 xn x1 + an,2 x2 xn + · · · + an,n xn 2 .
Wenn wir umgekehrt aus solch einer Linearkombination von Monomen zweiten Grades xj xk die zugehörige quadratische Form mit der Polarisationsgleichung rekonstruieren wollen, so läuft das darauf hinaus,
den Vorfaktor bei xk 2 an die k-te Diagonalstelle von A zu setzen und den Vorfaktor bei xj xk = xk xj
„gleichmäßig“ auf die Koeffizienten aj,k und ak,j zu verteilen, d.h. aj,k = ak,j zu verlangen. Konkret geht
das so:
 T 
 
T x1
x1
0 1 0
x
x
2
3
1
1
2x1 2 + 6x1 x2 + x2 2 =
, 2x1 x2 − x3 2 = x2  1 0 0  x2  .
3 1
x2
x2
x3
0 0 −1
x3
Im Cn agiere man analog mit x∗ Ax und einer hermiteschen Matrix A.
1.9 Definite quadratische Formen.




positiv definit
positiv semidefinit
Eine quadratische Form Q : V → R heißt
negativ semidefinit



negativ definit





>0



≥0
, falls Q(v)

 ≤0




<0




für v ∈ V r {0}.



Semidefinitheit ist schwächer als Definitheit: jede positiv (negativ) definite Form ist auch positiv (negativ) semidefinit. Umgekehrt muss dass nicht gelten. Falls eine quadratische Form ν in keine dieser vier
Kategorien gehört, so nennen wir sie indefinit. Dann gibt es v+ , v− ∈ V mit Q(v+ ) > 0 und Q(v− ) < 0.




positiv definit
λ, µ > 0














 positiv semidefinit 

 λ ≥ 0, µ = 0 oder λ = 0, µ ≥ 0 

indefinit
λ > 0, µ < 0 oder λ < 0, µ > 0 .
Beispiel. λx2 + µy 2 ist
für






 negativ semidefinit 

 λ ≤ 0, µ = 0 oder λ = 0, µ ≤ 0 









negativ definit
λ, µ < 0
Die Definitheit einer quadratischen Form kann man aus den Eigenwerten ihrer Fundamentalmatrix ansehen (siehe 4.11) — das folgt wieder aus der Hauptachsentransformation.
266
2
§6. VEKTORRÄUME MIT SKALARPRODUKT
Skalarprodukte, euklidische und unitäre Vektorräume
2.1 Skalarprodukte, euklidische und unitäre Vektorräume. Schlagen wir die Definition in 3.§3.2
nach, so erkennen wir, dass ein Skalarprodukt in unserer neuen Terminologie nichts anderes als eine
symmetrische Bilinearform ist, für welche die zugehörige quadratische Form positiv ist. Ein euklidischer
Vektorraum ist also ein R-Vektorraum mit einer positiv definiten symmetrischen Bilinearform. Statt
q(v, w) schreiben wir dann wieder hv|wi.
Im komplexen Fall erklären wir das jetzt analog: ein unitärer Vektorraum ist ein C-Vektorraum mit einer
positiv definiten hermiteschen Sesquilinearform q. Wir nennen dann q ebenfalls ein Skalarprodukt und
schreiben hv|wi statt q(v, w). Das bedeutet also:
(SP1) Linearität: hu|λv + µwi = λhu|vi + µhu|wi für alle Vektoren v, w und alle Skalare λ, µ.
(SP2) Hermitezität: hv|wi = hw|vi für alle Vektoren v, w.
(SP3) Positive Definitheit: hv|vi ≥ 0 für alle Vektoren v und hv|vi = 0 genau dann, wenn v = 0.
2.2 Wichtige Skalarprodukte. Für die nachfolgend genannten „Standardskalarprodukte“ kann man
die Eigenschaften (SP1)–(SP3) durch einfaches Nachrechnen verifizieren.
(a) Standardskalarprodukt auf dem Rn :
   
y1
x1
 ..   .. 
h .  |  . i := x1 y1 + · · · + xn yn
xn
  
y1
x1
 ..   .. 
für  .  ,  .  ∈ Rn .

xn
yn
(b) Standardskalarprodukt auf dem Cn :
   
x1
y1
 ..   .. 
h .  |  . i := x1 y1 + · · · + xn yn
xn
yn

  
x1
y1
 ..   .. 
für  .  ,  .  ∈ Cn .
yn
xn
yn
(c) Standardskalarprodukt auf dem reellen Hilbertschen Folgenraum
(
)
∞
X
2
N
2
` (R) := (ak )k ∈ R |
ak < ∞ ,
k=1
dem Teilraum derjenigen rellen Zahlenfolgen (ak )k , für die
h(ak )k |(bk )k i :=
∞
X
P∞
k=1
ak 2 konvergiert:
für (ak )k , (bk )k ∈ `2 (R).
ak bk
k=1
P∞
P∞
2
2
2
2
Hierzu muss
P∞ man bemerken, dass wegen 2|ak bk | ≤ |ak | +|bk | die Konvergenz von k=1 ak und k=1 bk
die von k=1 ak bk nach sich zieht. Analog argumentiert man für den nachfolgend eingeführten „komplexen
Bruder“.
(d) Standardskalarprodukt auf dem komplexen Hilbertschen Folgenraum
(
)
∞
X
2
N
2
` (C) := (ak )k ∈ C |
|ak | < ∞ ,
k=1
denjenigen komplexen Zahlenfolgen (ak )k , für die
h(ak )k |(bk )k i :=
∞
X
P∞
ak bk
k=1
|ak |2 konvergiert:
für (ak )k , (bk )k ∈ `2 (C).
k=1
Wenn klar ist, ob wir reelle oder komplexe Folgen betrachten wollen, so schreiben wir einfach `2 statt
`2 (K). Wir können uns den `2 als die Verallgemeinerung des euklidischen bzw. unitären Kn für Koordinatenvektoren mit abzählbar unendlich vielen Koordinaten vorstellen.
267
KAPITEL 5. LINEARE ALGEBRA
2.3 Norm. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i, so nennen wir
p
kvk := hv|vi
die zugehörige Norm. Wir erhalten wieder
(e) Positive Definitheit: kvk ≥ 0 und kvk = 0 genau für v = 0.
(f) Homogenität: kλvk = |λ|kvk.
(g) Dreiecksungleichung: kv + wk ≤ kvk + kwk.
Die ersten beiden Regeln folgen sofort aus (SP3) und (SP1), die dritte aus der nachfolgend genannten
Cauchy-Schwarzschen Ungleichung.
2.4 Cauchy-Schwarzsche Ungleichung. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i so gilt
|hv|wi| ≤ kvk · kwk
für v, w ∈ V.
In einem euklidischen Vektorraum kann dank dieser Ungleichung der Winkel zwischen v und w definiert werden (vgl. 3.§2.4.6). In diesem Fall haben wir sie schon in 3.§3.2.8 bewiesen. Bei einem unitären
Vektorraum geht die Rechnung ziemlich analog, man muss nur ein wenig „konjugieren“.
Beispiele. Für zwei `2 -Folgen (ak )k und (bk )k gilt
∞
X
ak bk ≤
k=1
∞
X
!1/2
|ak |2
k=1
∞
X
!1/2
|bk |2
.
k=1
Im Reellen kann dabei jeweils auf das Konjugieren verzichtet werden.
2.5 Same procedure. . . Nach diesen Vorbereitungen können wir wie im euklidischen Fall in 3.§3.3
nun auch für unitäre Vektorräume über Orthonormalsysteme sprechen. Man führe sich also die nächsten
Nummern genussvoll zur Vertiefung zu Gemüte und schlage die Beweise am zuvor angegebenen Ort nach.
In §7.1 werden wir auf dieser Grundlage Fourier-Analysis betreiben.
2.6 Orthogonalität und Normiertheit. Ist V ein euklidischer oder unitärer Vektorraum mit Skalarprodukt h·|·i, so nennen wir v ∈ V normiert, wenn kvk = 1. Wir sagen, dass v, w ∈ V orthogonal sind
oder aufeinander senkrecht stehen und schreiben dafür auch v ⊥ w, wenn hv|wi = 0.
Der Nullvektor ist definitionsgemäß zu jedem Vektor orthogonal.
Ist U ⊂ V und v ∈ V , so nennen wir v orthogonal zu U und schreiben v ⊥ U , wenn v ⊥ u für alle u ∈ U .
Die Menge
U ⊥ := {v ∈ V | v ⊥ U } = {v ∈ V | hv|ui = 0 für alle u ∈ U }
aller zu U senkrechten Vektoren ist dann ein Unterraum von V , genannt das orthogonale Komplement
von U .
2.7 Orthonormalsysteme und -basen. Eine Menge U von Vektoren in V nennen wir orthogonal
oder Orthogonalsystem, wenn je zwei verschiedene Vektoren aus U zueinander orthogonal sind: v ⊥ w
für alle v, w ∈ U mit v 6= w. Sind zusätzlich alle Vektoren aus U normiert, so sprechen wir von einer
orthonormalen Menge oder einem Orthonormalsystem (kurz ONS ). Bilden die Vektoren von U eine Basis
von V , so nennen wir U eine Orthogonalbasis bzw. im normierten Fall eine Orthonormalbasis von V (kurz
ONB ).
Beispiel. Die Folgen
ek := (0, . . . , 0,
1
, 0, . . .)
|{z}
k-te Stelle
2
bilden ein ONS im Hilbertschen Folgenraum ` — man verifiziere die Orthogonalitätsrelationen.
268
§6. VEKTORRÄUME MIT SKALARPRODUKT
Endliche Linearkombinationen a1 e1 + · · · + an en = (a1 , . . . , an , 0, . . .), d.h. Vektoren in Span(e1 , e2 , . . .),
sind Folgen mit nur endlich vielen von Null verschiedenen Gliedern. Für den Raum dieser Folgen ist
(e1 , e2 , . . .) eine ONB.
Dagegen ist (e1 , e2 , . . .) keine ONB für den `2 selbst. Es gibt nämlich `2 -Folgen mit unendlich vielen nicht
verschwindenen Folgenglieder, beispielsweise (1/k)k .
2.8 Entwickeln nach Orthonormalsystemen. Jedes Orthonormalsystem U in einem euklidischen
oder unitären Vektorraum ist linear unabhängig. Jedes v ∈ Span(U ) besitzt eine eindeutige Darstellung
als Linearkombination
n
X
v=
huk |viuk = hu1 |viu1 + · · · + hun |viun
k=1
mit gewissen u1 , . . . , un ∈ U .
2.9 Orthogonale Projektion und Bestapproximation im Quadratmittel. Ist U = (u1 , . . . , un )
ein endliches Orthonormalsystem in einem euklidischen oder unitären Vektorraum V , so gibt es zu jedem
v ∈ V genau einen Punkt u ∈ Span(U ) kürzesten Abstands zu v. Dieser Punkt ist gegeben durch
u = P (v) :=
n
X
huk |viuk
k=1
und für den minimalen Abstand von v zu U gilt
kv − P (v)k2 = kvk2 −
m
X
|huk |vi|2 .
k=1
Wir nennen P (v) die orthogonale Projektion von v auf Span(U ) oder die Bestapproximation im Quadratmittel für v in Span(U ).
Die orthogonale Projektion P (v) ist charakterisiert durch P (v) ∈ Span(U ) und v − P (v) ⊥ Span(U ).
2.10 Orthonormalisieren nach Gram-Schmidt. Zu jedem vorgegebenen Satz v1 , v2 , . . . von linear
unabhängigen Vektoren in einem euklidischen oder unitären Vektorraum V gibt es ein Orthonormalsystem
u1 , u2 , . . . in V mit Span(u1 , . . . , um ) = Span(v1 , . . . , vm ) für m = 1, 2, . . ..
Im endlichdimensionalen Fall erhält man so aus einer Basis (v1 , . . . , vn ) von V eine ONB von V . Jeder endlichdimensionale euklidische oder unitäre Vektorraum hat eine ONB. Im unendlichdimensionalen
Fall kann das Gram-Schmidt-Verfahren auch auf einen Satz von abzählbar unendlich vielen Vektoren
angewendet werden (Beispiele siehe §7.2.2.8) und liefert dann ein ONS.
Das Gram-Schmidt-Verfahren läuft auch im unitären Fall wie aus 3.§3.3.8 bekannt ab:
• Initialisierung: u1 =
1
kv1 k v1
• Rekursion: Sind u1 , . . . , um schon berechnet, so erhalte um+1 mittels
Pm
– Projezieren: P (vm+1 ) = k=1 huk |vm+1 iuk ,
– Senkrechtmachen: u0m+1 := vm+1 − P (vm+1 ),
– Normieren: um+1 : ku0 1 k u0m+1 .
m+1
2.11 Positiv definite Matrizen. Eine Matrix A ∈ Rn×n ist genau dann positiv definit, wenn es eine
reguläre Matrix P ∈ Rn×n gibt mit A = P T P . Eine Matrix A ∈ Cn×n ist genau positiv definit, wenn es
eine reguläre Matrix P ∈ Cn×n gibt mit A = P ∗ P .
Beweis. Wir führen nur den reellen Fall vor, der komplexe geht analog.
„⇐“ Ist P invertierbar und ist A := P T P , so folgt xT Ax = xT (P T P )x = (P x)T (P x) = y T y ≥ 0 mit
Gleichheit genau dann, wenn y = P x = 0, d.h. x = 0. Also ist A positiv definit.
„⇒“ Diese Beweisrichtung ist nichts anderes als eine Interpretation des Gram-Schmidt-Verfahrens.
269
KAPITEL 5. LINEARE ALGEBRA
Ist V ein euklidischer Raum mit Basis (v1 , . . . , vn ) und wird das Skalarprodukt durch eine positiv definite
symmetrische (n×n)-Fundamentalmatrix A dargestellt, d.h. hx1 v1 +· · ·+xn vn |y1 w1 +· · ·+yn wn i = xT Ay,
so wird das Gram-Schmidt-Verfahren
u1 =
1
v1 ,
kv1 k
u2 =
1
v2 + · · · ,
ku02 k
...,
un =
1
vn + · · ·
ku0n k
durch eine obere Dreiecksmatrix R mit positiven Diagonaleinträgen beschrieben. Die Orthogonalitätsrelationen für die neues Basis (u1 , . . . , un ) lassen sich gemäß 1.7 nach dem Basiswechsel mit R in der
Form
δj,k = huj |uk i = ej T (RT AR)ek
für j, k = 1, . . . , n
schreiben, d.h. RT AR = En . Da P := R−1 wieder eine obere Dreiecksmatrix mit positiven Diagonaleinträgen ist, gilt P T P = P T En P = P T (RT AR)P ) = (RP )T A(RP ) = A.
3
Orthogonale und unitäre Abbildungen
3.1 Worum geht es? Wir stellen die mathematische Grundlage für „starre Bewegungen“ (z.B. eines
Körpers oder eines kartesischen Koordinatensystems) zur Verfügung — sowohl in der Operator-Sprache
als auch im Matrizenkalkül.
3.2 Isometrien. Ein linearer Operator L ∈ L(V ) eines euklidischen oder unitären Vektorraums V heißt
Isometrie, wenn
kL(v)k = kvk
für alle v ∈ V.
Insbesondere gilt L(v) = 0 nur für v = 0, d.h. Kern L = {0}, und L ist injektiv. Mit der Polarisationsgleichung 1.8 folgt ferner
hL(v)|L(w)i = hv|wi
für alle v, w ∈ V.
Wir fassen zusammen:
Eine Isometrie ist eine norm- und winkeltreue injektive lineare Abbildung.
Beispiel. Im `2 ist der Rechts-Shift (a1 , a2 , . . .) 7→ (0, a1 , a2 , . . .) eine Isometrie aber nicht surjektiv.
3.3 Orthogonale und unitäre Operatoren. Ist eine Isometrie zusätzlich surjektiv, so wird sie orthogonal bzw. unitär genannt, je nachdem, ob V euklidisch oder unitär ist.
Da in einem endlichdimensionalen Vektorraum jede injektive lineare Abbildung automatisch surjektiv ist
(§1.2.10), ist dort jede Isometrie orthogonal bzw. unitär.
3.4 Darstellungsmatrizen von orthogonalen bzw. unitären Operatoren. Ein orthogonaler (unitärer ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums V hat bezüglich einer
ONB von V eine orthogonale (unitäre) Darstellungsmatrix.
Beweis∗ . Wir führen den unitären Fall vor, der euklidische geht analog. Ist L unitär und B = (u1 , . . . , un )
eine ONB von V , so gilt hL(uj )|L(uk )i = huj |uk i = δj,k und C = (L(u1 ), . . . , L(un )) ist wieder eine ONB
von V . Entwickeln 2.8 nach der ONB B liefert
L(uj ) =
n
X
huk |L(uj )iuk .
k=1
Für die Darstellungsmatrix A = MB (L) folgt ak,j = huk |L(uj )i. Da auch C eine ONB ist, gilt
δj,l = hL(uj )|L(ul )i =
n
X
k=1
d.h. A∗ A = E. Also ist A eine unitäre Matrix.
huk |L(uj )ihuk |L(ul )i =
n
X
k=1
ak,j ak,l ,
270
§6. VEKTORRÄUME MIT SKALARPRODUKT
3.5 Basiswechsel zwischen Orthonormalbasen. Die Transformationsmatrix S des Basiswechsels
zwischen zwei Orthonormalbasen eines euklidischen (unitären) Vektorraums ist orthogonal (unitär ). Eine
orthogonale (unitäre) Koordinatentransformationen einer ONB des Rn (des Cn ) mit dem natürlichen
Skalarprodukt liefert wieder eine ONB.
3.6 Eigenschaften orthogonaler bzw. unitärer Matrizen. Ist U eine orthogonale oder unitäre
(n × n)-Matrix, so gilt:
(a) | det(U )| = 1,
(b) |λ| = 1 für jeden Eigenwert λ von U ,
(c) die Spalten bzw. Zeilen von U bilden eine ONB des Kn bezüglich des Standardskalarprodukts.
Achtung. Orthogonale bzw. unitäre Matrizen haben i.A. komplexe Eigenwerte.
Beweis. Wir führen wieder nur den unitären Fall vor: aus U ∗ U = E folgt 1 = det(E) = det(U ∗ ) det(U ) =
det(U ) det(U ) = | det(U )|2 , d.h. | det(U )| = 1. Gilt ferner U x = λx für ein x 6= 0, so folgt |λ|2 x∗ x =
(λx∗ )(λx) = (λx)∗ (λx) = (U x)∗ (U x) = x∗ U ∗ U x = x∗ x, d.h. |λ|2 = 1.
3.7 Isometrien der Ebene. Jede orientierungserhaltende Isometrie der Ebene ist eine Drehung. Jede
nicht orientierungserhaltende Isometrie der Ebene ist eine Achsenspiegelung.
Genauer: Ist L eine Isometrie eines zweidimensionalen euklidischen Vektorraums V (z.B. der Ebene), so
ergeben sich für die Darstellungsmatrix U ∈ R2×2 von L bezüglich einer ONB von V zwei Möglichkeiten:
• Es gilt det(U ) = 1 und U =
cos ϕ − sin ϕ
. Dann ist L orientierungserhaltend und eine Drehung
sin ϕ cos ϕ
um den Winkel ϕ,
cos ϕ
sin ϕ
• Es gilt det(U ) = −1 und U =
. Dann ist L nicht orientierungserhaltend, hat die
sin ϕ − cos ϕ
Eigenwerte ±1 und ist eine Spiegelung an der von den Eigenvektoren zu −1 aufgespannten Geraden.
Beweis. Gemäß 3.4 können wir mit der orthogonalen Darstellungsmatrix U ∈ R2×2 argumentieren, um L
zu beschreiben. Nach 3.6 gilt | det(U )| = 1, d.h. det(U ) = ±1, da U reelle Einträge hat. Ferner müssen
ϕ
die Spalten von U normiert und orthogonal sein. Damit können wir die erste Spalte in der Form cos
sin ϕ
mit ϕ ∈ R schreiben und die zweite Spalte muss dann die jeweils angegebene Form haben. Dass im ersten
ψ
Fall dann eine Drehung vorliegt, wissen wir aus 3.§2.6.1. Im zweiten Fall setzen wir v(ψ) := cos
sin ψ und
zeigen durch eine kurze Rechnung U v(ϕ/2) = v(ϕ/2) bzw. U v(ϕ/2 + π/2) = −v(ϕ/2 + π/2) (wir haben
die Eigenwerte und Eigenvektoren zu U bestimmt). Also wirkt U längs Span(v(ϕ/2)) wie die Identität
und senkrecht dazu längs Span(v(ϕ/2 + π/2)) wie eine Spiegelung.
3.8 Isometrien des Raums. Jede orientierungserhaltende Isometrie des Raums ist eine Drehung um
eine feste Drehachse. Jede nicht orientierungserhaltende Isometrie der Ebene unterscheidet sich von einer
orientierungserhaltenden nur um eine Spiegelung an der zur Drehachse senkrechten Ebene.
Ist die Drehachse durch einen normierten Vektor u vorgegeben und ist ϕ ∈ R der Drehwinkel, so verschaffen wir uns einen zu u senkrecht stehenden normierten Vektor v und ergänzen durch u × v zu einer
positiv orientierten ONB. Im R3 baut man sich aus diesen Spalten dann die zugehörige Drehmatrix.
Im Beweis werden wir sehen, wie man umgekehrt zu einer vorgegebenen Drehung die Drehachse findet.
Beweis. Gemäß 3.6 gilt det(L) = ±1. Im orientierungserhaltenden Fall gilt det(L) = 1. Das charakteristische Polynom von L muss als reelles Polynom dritten Grades eine reelle Nullstelle besitzen. Nach
3.6 müssen alle (komplexen) Nullstellen den Betrag 1 haben und ihr Produkt muss det(L) = 1 ergeben. Damit hat L den Eigenwert 1. Wir wählen einen zugehörigen normierten Eigenvektor u und
erhalten die Drehachse: wegen L(u) = u wirkt L längs Span(u) wie die Identität. Die zu u senkrechte
271
KAPITEL 5. LINEARE ALGEBRA
Ursprungsebene E wird von L in sich selbst übergeführt, aus hv|ui = 0 folgt wegen L(u) = u nämlich hL(v)|ui = hL(v)|L(u)i = hv|ui = 0. In E wirkt L dann wie eine orientierungserhaltende ebene
Isometrie. Wir spannen E durch einen zu u senkrecht stehenden normierten Vektor v und u × v auf:
E = Span(v, u × v). Die Darstellungsmatrix bezüglich der ONB B = (u, v, u × v) hat damit die Form


1
0
0
MB (L) = 0 cos ϕ − sin ϕ
0 sin ϕ cos ϕ
und L ist eine Drehung. Ist L nicht orientierungserhaltend, so gilt det(L) = −1 und mit ähnlicher
Argumentation wie zuvor erhält man einen Eigenwert −1. Ist u ein zugehöriger normierter Eigenvektor,
so wirkt L längs Span(u) wie eine Spiegelung. Senkrecht zu u kann man wie zuvor argumentieren und
erhält bezüglich der ONB B = (u, v, u × v) die Darstellungsmatrix


−1
0
0
MB (L) =  0 cos ϕ − sin ϕ .
0 sin ϕ cos ϕ
3.9 Isometrien des C2 . Ist U ∈ C2×2 unitär det(U ) = 1, so gilt
a −b
mit a, b ∈ C, |a|2 + |b|2 = 1.
U=
b a
Beweis. Gemäß 3.6 müssen die beiden Spalten von U normiert und orthogonal sein. Das liefert zusammen
mit det(U ) = 1 die angegebene Darstellung.
3.10∗ Matrixgruppen. Wir erinnern uns an den Begriff einer Gruppe (siehe 3.§2.3.4).
Eine Teilmenge G von Kn×n bildet eine Matrizengruppe, wenn
(MG1) E ∈ G,
(MG2) alle A, B ∈ G sind invertierbar mit AB −1 ∈ G.
Wichtige Beispiele für Matrizengruppen sind:
GL(n, K)
O(n)
SO(n)
U(n)
SU(n)
:= {S ∈ Kn×n | S ist invertierbar}
:= {U ∈ R
n×n
T
| U U = E}
:= {U ∈ O(n) | det(U ) = 1}
:= {U ∈ C
n×n
∗
| U U = E}
:= {U ∈ U(n) | det(U ) = 1}
(„general linear group“),
orthogonale Gruppe der Ordnung n,
spezielle orthogonale Gruppe der Ordnung n,
unitäre Gruppe der Ordnung n,
spezielle unitäre Gruppe der Ordnung n.
Die O(2) repräsentiert gemäß 3.7 die Drehungen und Achsenspiegelungen der Ebene, SO(2) die Untergruppe der Drehungen. Analog repäsentiert O(3) gemäß 3.8 die Drehungen und Drehspiegelungen im
Raum, SO(3) die Untergruppe der Drehungen.
Die Gruppe SU(2) heißt auch Quaternionengruppe oder Spin(3). Sie stellt den Schiefkörper der Quaternionen dar (dort gelten alle Körperaxiome mit Ausnahme des Kommutativgesetzes für die Multiplikation).
3.11 Längentreue Abbildungen. Eine Abbildung f : V → V eines euklidischen Vektorraums V heißt
längentreu, wenn
kf (v) − f (w)k = kv − wk
für alle v, w ∈ V.
Jede längentreue Abbildung hat die Form f (u) = f (0) + L(u) mit einer Isometrie L.
Beweisidee∗ . Man zeigt in mehreren Teilschritten, dass u 7→ f (u) − f (0) isometrisch und linear ist.
Dabei verwendet man mehrfach die Polarisationsgleichung 1.8.
272
§6. VEKTORRÄUME MIT SKALARPRODUKT
3.12 Bewegungen. Eine Abbildung der Form
x 7→ a + U x
mit a ∈ Rn , U ∈ SO(n),
heißt Bewegung des Rn .
Die Bewegung eines starren Körpers im R3 . wird dann durch eine Schar von Bewegungen
x 7→ ft (x) := a(t) + U (t)x
beschrieben. Hierbei hängen die Koeffizienten a(t) ∈ R3 und U (t) ∈ SO(3) differenzierbar von der Zeit t
ab und zur Startzeit t = 0 gilt a(0) = 0 und U (0) = E3 . Die Bahn eines Massenpunktes im Raum ist
dann durch
t 7→ ft (x0 ) = x(t)
gegeben, wobei x(0) = x0 der Ortsvektor des Massenpunktes zur Startzeit t = 0 ist.
3.13∗ Momentaner Drehvektor einer Bewegung. Wir diskutieren jetzt die Bewegung eines starren
Körpers, bei dem ein Punkt festgehalten wird (eine sogenannte „Kreiselbewegung“). In den fixierten
Punkt legen wir den Ursprung einer ONB des R3 . Die Bahn eines Massenpunktes mit Ortsvektor x0 zur
Startzeit t = 0 wird dann durch
x(t) = U (t)x0
beschrieben mit einer differenzierbaren Funktion t 7→ U (t), R → SO(3). Durch (gliedweises) Differenzieren
erhalten wir
ẋ(t) = U̇ (t)x0 = U̇ (t)U (t)−1 x(t) = U̇ (t)U (t)T x(t),
da U (t) orthogonal ist. Wegen
d
0 = E˙3 = (U (t)U (t)T ) = U̇ (t)U (t)T + U (t)U̇ (t)T = U̇ (t)U (t)T + (U̇ (t)U (t)T )T
dt
ist U̇ (t)U (t)T zu jeder Zeit t antisymmetrisch, d.h.


0
−ω3 (t) ω2 (t)
0
−ω1 (t)
U̇ (t)U (t)T =  ω3 (t)
−ω2 (t) ω1 (t)
0
mit geeigneten Funktionen ω1 , ω2 , ω3 : R → R. Fassen wir diese drei Funktionen als Komponenten einer
vektorwertigen Funktion ω auf, so gilt


 

0
−ω3 (t) ω2 (t)
x1 (t)
ω2 (t)x3 (t) − ω3 (t)x2 (t)
0
−ω1 (t) x2 (t) = ω3 (t)x1 (t) − ω1 (t)x3 (t) = ω(t) × x(t).
U̇ (t)U (t)T x(t) =  ω3 (t)
−ω2 (t) ω1 (t)
0
x3 (t)
ω1 (t)x2 (t) − ω2 (t)x1 (t)
Die Bewegung des Massenpunktes gehorcht also der DGL
ẋ(t) = ω(t) × x(t).
Der Vektor ω(t) heißt momentaner Drehvektor der Bewegung, seine Länge kω(t)k ist als momentane
Winkelgeschwindigkeit aufzufassen.
4
Symmetrische und hermitesche Abbildungen, Hauptachsentransformation
4.1 Worum geht es? Wir kommen zum Hauptwerkzeug dieses Paragraphen, der Hauptachsentransformation, einem nicht zu unterschätzenden Werkzeug mit vielfältigen Einsatzbereichen. Nach einigen
Vorbereitungen stellen wir eine Operator- und zwei Matrizenvarianten („Spektralsatz“ bzw. „Hauptachsentransformation“ und „simultane Hauptachsentransformation“) vor. Danach kommen diverse Anwendungen.
273
KAPITEL 5. LINEARE ALGEBRA
4.2 Symmetrische und hermitesche Operatoren. Ein linearer Operator L ∈ L(V ) eines euklidischen (unitären) Vektorraums V heißt symmetrisch (hermitesch), falls
hv|L(w)i = hL(v)|wi
für alle v, w ∈ V.
Symmetrische oder hermitesche Operatoren werden auch selbstadjungiert genannt.
Ist L hermitesch, so gilt hv|L(v)i = hL(v)|vi = hv|L(v)i, d.h. hv|L(v)i = hL(v)|vi ist reell.
Beispiel. Jede symmetrische Matrix A ∈ Rn×n liefert wegen xT Ay = xT AT y = (Ax)T y = y T Ax einen
symmetrischen Operator x 7→ Ax des Rn bezüglich des Standardskalarprodukts y T x. Im Cn geht das
analog mit einer hermiteschen Matrix A.
4.3 Darstellungsmatrizen von symmetrischen bzw. hermiteschen Operatoren. Ein symmetrischer (hermitescher ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums V hat
bezüglich einer ONB von V eine symmetrische (unitäre) Darstellungsmatrix.
Beweis∗ . Ist L hermitesch und B = (u1 , . . . , un ) eine ONB von V , so erhalten wir durch Entwickeln 2.8
L(uk ) =
n
X
huj |L(uk )iuj .
j=1
Hieraus können wir die Darstellungsmatrix A = (aj,k ) = MB (L) ablesen: es gilt aj,k = huj |L(uk )i. Mit
der Hermitezität des Skalarprodukts folgt nun
aj,k = huj |L(uk )i = hL(uj )|uk i = huk |L(uj )i = ak,j ,
d.h. A = A∗ . Damit ist A eine hermitesche Matrix. Für symmetrische Operatoren gehe man analog vor.
4.4 Rechenregeln für symmetrische bzw. hermitesche Operatoren. Sind L, L1 , L2 symmetrische
(hermitesch) Operatoren, so gilt:
(a) λ1 L1 + λ2 L2 ist symmetrisch (hermitesch),
(b) ist L bijektiv, so ist auch L−1 symmetrisch (hermitesch),
(c) alle Eigenwerte von L sind reell,
(d) Eigenvektoren von L zu verschiedenen Eigenwerten stehen aufeinander senkrecht,
(e) ist U ⊆ V ein Unterraum mit L(U ) ⊆ U , so gilt L(U ⊥ ) ⊆ U ⊥ .
Beweis. (a) und (b) erhält man durch unspektakuläres Nachrechnen.
Zu (c): Gilt L(v) = λv für ein v ∈ V , v 6= 0, so erhalten wir λkvk2 = hv|λvi = hv|L(v)i = hL(v)|vi =
hλv|vi = λkvk2 und mit kvk2 > 0 dann λ = λ. Also ist λ reell.
Zu (d): Ist L(w) = µw für ein w ∈ V , w 6= 0, so folgt µhv|wi = hv|µwi = hv|L(w)i = hL(v)|wi = hλv|wi =
λhv|wi = λhv|wi, d.h. (λ − µ)hv|wi = 0. Gilt also λ 6= µ, so folgt hv|wi = 0, d.h. v ⊥ w.
Zu (e): Für u ∈ U und v ∈ U ⊥ gilt hu|L(v)i = hL(u)|vi = 0, da L(u) ∈ L(U ) ⊆ U . Es folgt L(v) ⊥ u für
alle u ∈ U , d.h. L(v) ∈ U ⊥ und dann auch L(U ⊥ ) ⊆ U ⊥ .
4.5 Eigenschaften symmetrischer bzw. hermitescher Matrizen. Jede der Eigenschaften 4.4
(a)–(e) kann sofort in eine entsprechende Eigenschaft für symmetrische bzw. hermitesche Matrizen übersetzt werden. Wir notieren die beiden Wichtigsten.
Ist A eine symmetrische oder hermitesche (n × n)-Matrix, so gilt:
(f) alle Eigenwerte von A sind reell,
(g) Eigenvektoren zu verschiedenen Eigenwerten von A sind orthogonal bezüglich des Standardskalarprodukts.
274
§6. VEKTORRÄUME MIT SKALARPRODUKT
4.6 Hermitesche Operatoren in der Quantenmechanik In der Quantenmechanik werden die möglichen Zustände eines Systems als die Vektoren eines unitären Vektorraums modelliert, wobei alle Vektoren
λψ mit λ ∈ C r {0} denselben Zustand darstellen. Die messbaren Größen wie Ort, Impuls, etc. (genannt
„Observable“) werden durch lineare Operatoren beschrieben. Ist L solch ein linearer Operator, so bedeutet
hψ|L(ψ)i
,
hψ|ψi
ψ 6= 0,
den Erwartungswert der Observablen L im Zustand ψ, d.h. den Mittelwert der Messwerte für die Eigenschaft L, wenn sich das System im Zustand ψ befindet. Da Messwerte reell sind, d.h. hψ|L(ψ)i ∈ R,
werden als Observable nur hermitesche Operatoren zugelassen. Die Eigenvektoren von L stellen die einzigen Zustände des Systems dar, für die die Eigenschaft L einen scharfen Messwert hat. Gilt L(ψ) = λψ,
so ist
hψ|λψi
hψ|L(ψ)i
=
=λ
hψ|ψi
hψ|ψi
nach 4.4 (c) reell. Der zum Eigenvektor ψ gehörige Eigenwert λ ist also der Erwartungswert der Observablen L im Eigenzustand ψ.
4.7 Spektralsatz für symmetrische bzw. hermitesche Operatoren. Ein symmetrischer (hermitescher ) Operator eines endlichdimensionalen euklidischen (unitären) Vektorraums besitzt eine Orthonormalbasis aus Eigenvektoren.
Beweis. Wir betrachten zunächst einen hermiteschen Operator L auf einem unitären Vektorraum V und
führen einen Induktionsbeweis nach dim V = n.
Induktionsverankerung (n = 1): Wähle u ∈ V normiert, dann gilt V = Span(u) und (u) ist eine einelementige ONB von V . Wegen L(V ) ⊆ V muss L(u) = λu mit einem Skalar λ gelten. Dann ist λ ein
Eigenwert von L und u ein Eigenvektor.
Induktionsschritt (n → n + 1): Das charakteristische Polynom von L zerfällt über C in Linearfaktoren.
Also hat L einen Eigenwert λ und dazu einen normierten Eigenvektor u ∈ V . Ergänze u zu einer (n + 1)elementigen ONB (u, v1 , . . . , vn ) von V . Für U = Span(u) gilt dann U ⊥ = Span(v1 , . . . , vn ). Nach 4.4
(e) ist L(U ⊥ ) ⊆ U ⊥ und wir können die Einschränkung von L auf den n-dimensionalen Unterraum U ⊥
betrachten. Selbige ist wieder hermitesch und hat nach Induktionsannahme eine ONB aus Eigenvektoren
u1 , . . . , un . Damit ist (u, u1 , . . . , un ) eine ONB von V aus Eigenvektoren von L.
Den euklidischen Fall können wir genauso beweisen, sobald wir die Existenz eines reellen Eigenwerts
sichergestellt haben. Ist V ein euklidischer Vektorraum und ist L ∈ L(V ) symmetrisch, so wähle eine
ONB B von V und setze A := MB (L). Nach 4.3 ist A ∈ Rn×n symmetrisch. Fasse x 7→ Ax als lineare
Abbildung Cn → Cn auf. Diese Abbildung ist dann hermitesch, es gilt ja AT = A∗ . Nach dem bisher
Gezeigten hat A und damit L einen reellen Eigenwert.
4.8 Hauptachsentransformation. Jede symmetrische Matrix kann durch eine orthogonale Matrix
diagonalisiert werden: zu jedem A ∈ Rn×n mit A = AT existiert ein S ∈ Rn×n mit S T S = E, so dass
S −1 AS = S T AS = diag(λ1 , . . . , λn )
mit λ1 , . . . , λn ∈ R.
Jede hermitesche Matrix kann durch eine unitäre Matrix diagonalisiert werden: zu jedem A ∈ Cn×n mit
A = A∗ existiert ein S ∈ Cn×n mit S ∗ S = E, so dass
S −1 AS = S ∗ AS = diag(λ1 , . . . , λn )
mit λ1 , . . . , λn ∈ R.
Die k-te Spalte von S ist in beiden Fällen ein normierter Eigenvektor von A zum Eigenwert λk .
Beweis. Das ist die Matrizenversion des Spektralsatzes 4.7.
4.9 Durchführung der Hauptachsentransformation. Bei einer Hauptachsentransformation will
man entweder nur wissen, welche Einträge in der Diagonalmatrix herauskommen — dann genügt die Berechnung der Eigenwerte, oder man benötigt auch die transformierende Matrix (z.B. um den Basiswechsel
explizit auszuführen). Dann geht man nach folgendem Rezept vor:
275
KAPITEL 5. LINEARE ALGEBRA
Schritt 1: Bestimme alle Eigenwerte von A.
Schritt 2: Finde zu jedem Eigenwert eine Basis des zugehörigen Eigenraums.
Schritt 3: Orthonormiere jeder der Eigenraumbasen.
Schritt 4: Setze alles zu einer ONB zusammen.
Der Spektralsatz 4.7 stellt dabei sicher, dass wir genügend viele linear unabhängige Eigenvektoren finden. Eigenvektoren zu verschiedenen Eigenwerten sind gemäß 4.4 (d) automatisch orthogonal. Zu einem
k-fachen Eigenwert existieren immer k linear unabhängige Eigenvektoren, die allerdings ggf. noch orthonormiert werden müssen.
Beispiel. Wir zeigen wie man die symmetrische Matrix


51 4 −3
A :=  4 36 12  ,
−3 12 43
durch eine orthogonale Matrix S diagonalisiert. Für hermitesche Matrizen geht das dann genauso.
Schritt 1: Berechnung des charakteristischen Polynoms
χA (t) = det(tE3 − A) = t3 − 130t2 + 5408t − 70304 = (t − 26)(t − 52)2
liefert einfachen Eigenwert 26 und zweifachen Eigenwert 52.
Schritt 2: Gauß-Elimination liefert eine Basis für die beiden Eigenräume N26 (eindimensional) und N52
(zweidimensional):
   
 
4
−3
1
N52 = Kern(52E3 − A) = Span( 0  , 1).
N26 = Kern(26E3 − A) = Span(−4),
0
1
3
Schritt 3: Orthonormalisieren der einzelnen Eigenraumbasen. Für N26 müssen wir nur Normieren, für
N52 ist nach Normieren des ersten Eigenvektors noch ein Gram-Schmidt-Schritt auszuführen.
 
 
 
1
−3
2
1   1  
1  
−4 ),
0 ,√
5 ).
N52 = Kern(52E3 − A) = Span( √
N26 = Span( √
26
10
65 6
3
1
Schritt 4: Zusammensetzen der ONB für die einzelnen Eigenräume liefert eine ONB für den gesamten R3
und diagonalisierenden Basiswechsel
√
√ 
 √
1/ √26 −3/ 10 2/√65
S = −4/√ 26
0
5/√65 .
√
3/ 26
1/ 10 6/ 65
Wir erhalten
S −1 AS = S T AS = diag(26, 52, 52).
Das rechnet man nicht aus, sondern man weiß aus der vorangegangenen Rechnung, welche Diagonalmatrix
entstehen muss. Die Reihenfolge der Eigenwerte in der Diagonalen wird dadurch bestimmt, in welcher
Reihenfolge man die Eigenvektoren in S anordnet.
4.10 Simultane Hauptachsentransformation. Eine positiv definite und eine symmetrische Matrix
können simultan diagonalisiert werden: zu jedem A ∈ Rn×n mit A = AT und xT Ax > 0 für alle x 6= 0
und jedem B ∈ Rn×n mit B = B T existiert ein invertierbares S ∈ Rn×n , so dass
S T AS = En ,
S T BS = diag(λ1 , . . . , λn )
Analog gilt das für eine hermitesche Matrix.
Achtung. Diesmal ist S nicht notwendigerweise orthogonal.
mit λ1 , . . . , λn ∈ R.
276
§6. VEKTORRÄUME MIT SKALARPRODUKT
Beweis. Ist A positiv definit, so existiert nach 2.11 eine invertierbare Matrix P ∈ Rn×n mit A = P T P .
T
Mit B ist auch C = P −1 BP −1 symmetrisch und kann durch eine orthogonale Matrix U ∈ Rn×n
diagonalisiert werden: U T CU = D = diag(λ1 , . . . , λn ). Dann ist S := P −1 U als Produkt invertierbarer
Matrizen invertierbar und es gilt
S T AS
T
T
(P −1 U )T A(P −1 U ) = U T (P −1 AP −1 )U = U T (P −1 P T P P −1 )U
=
= U T (En En )U = U T U = En ,
S T BS
T
(P −1 U )T B(P −1 U ) = U T (P −1 BP −1 )U = U T CU = D.
=
4.11 Klassifikation quadratischer Formen. Als erste Anwendung der Hauptachsentransformation
klassifizieren wir die fünf Typen von quadratischen Formen.
Gegeben sei eine relle quadratische Form Q(x) = xT Ax mit symmetrischen A ∈ Rn×n oder eine komplexe
quadratische Form Q(x) = x∗ Ax mit hermiteschem A ∈ Cn×n . Dann gilt:
• Sind alle Eigenwerte von A positiv, so ist Q positiv definit.
• Sind alle Eigenwerte von A nichtnegativ, so ist Q positiv semidefinit.
• Hat A sowohl positive als auch negative Eigenwerte, so ist Q indefinit.
• Sind alle Eigenwerte von A nichtpositiv, so ist Q negativ semidefinit.
• Sind alle Eigenwerte von A negativ, so ist Q negativ definit.
Die Klassifikation merkt man sich am besten an den typischen reell-quadratischen Formen in zwei Variablen.
positiv definit
positiv semidefinit
indefinit
λ = 0, µ > 0
λ > 0, µ < 0
λ, µ > 0
0
0
0
0
0
0
negativ semidefinit
λ = 0, µ < 0
0
0
0
negativ definit
λ, µ < 0
0
0
0
0
0
0
0
0
0
0
0
Abbildung 5.4: Q(x, y) = λx2 + µy 2 für verschiedene Wahlen der Vorzeichen von λ, µ ∈ R.
Beweis. Gilt A = AT und sind λ1 , . . . , λn ∈ R die Eigenwerte von A, so führt eine Hauptachsentransformation S T AS = D = diag(λ1 , . . . , λn ) mit orthogonalem S und mit x0 = S T x zu
Q(x)
= xT Ax = xT EAEx = xT (SS T )A(SS T )x = (S T x)T (S T AS)(S T x)
2
2
= x0T Dx0 = λ1 x01 + · · · + λn x0n .
Hieraus liest man alle Behauptungen ab. Im komplexen Fall schließe man analog.
277
KAPITEL 5. LINEARE ALGEBRA
Beispiel. Wir betrachten reell-quadratische Form
 T 
x
34 −12
Q(x, y, z) = 34x2 − 24xy + 41y 2 + 2z 2 = y  −12 41
z
0
0
{z
|
=:A
 
x
0
0 y 
z
2
}
und berechnen χA (t) = (t − 2)(t − 25)(t − 50). Also hat A die drei positiven Eigenwerte 2, 25, 50. Damit
ist Q positiv definit, d.h.
34x2 − 24xy + 41y 2 + 2z 2 > 0
für alle x, y, z ∈ R mit (x, y, z) 6= (0, 0, 0).
Hauptachsentransformation für A liefert


25 0 0
S T AS =  0 50 0
0
0 2
Setzen wir also

4/5
mit S = 3/5
0
 0 
x
4/5 3/5
y 0  = −3/5 4/5
0
0
z0
{z
|
−3/5
4/5
0

0
0 .
1

   4
3
x
0
5x + 5y
0 y  = − 35 x + 45 y  ,
z
1
z
}
=S T
so gilt wie im Beweis vorgeführt
Q(x, y, z) = 25x02 + 50y 02 + 2z 02 = 25
4
3
x+ y
5
5
2
2
3
4
+ 50 − x + y + 2z 2 .
5
5
4.12∗ Rayleigh-Prinzip. Ist Q(x) = xT Ax eine reelle quadratische Form mit einer symmetrischen
Fundamentalmatrix A ∈ Rn×n und ist λmax der größte, λmin der kleinste Eigenwert von A, so gilt
λmax
=
λmin
=
xT Ax
=
max
xT Ax,
r{0} xT x
x∈Rn , kxk=1
max
n
x∈R
xT Ax
=
min
xT Ax,
r{0} xT x
x∈Rn , kxk=1
min
n
x∈R
Für eine komplex quadratische Form gilt das analog, wenn man xT durch x∗ und Rn durch Cn ersetzt.
Beweis. Dass das erste Maximum bzw. Minimum gleich dem zweiten ist, erkennt man dadurch, dass
T
1
man xxTAx
durch kxk2 > 0 kürzt, d.h. zum normierten Vektor kxk
x übergeht.
x
Für A = diag(λmin , . . . , λmax ) mit der Größe nach geordneten Diagonaleinträgen folgt die Behauptung
aus
λmin (x1 2 + · · · + xn 2 ) ≤ λmin x1 2 + · · · + λmax xn 2 ≤ λmax (x1 2 + · · · + xn 2 ),
|
{z
}
|
{z
}
|
{z
}
=xT x
=xT Ax
=xT x
T
weil Gleichheit in der ersten Ungleichung für x = (1, 0, . . . , 0) , in der zweiten für x = (0, . . . , 0, 1)T
angenommen wird. Ist A keine Diagonalmatrix, so gelangt man nach einer Hauptachsentransformation
x := Sy, xT Ax = y T S T ASy = y T Dy, xT x = xT S T Sx = y T y auf die eben diskutierte Situation.
4.13 Polynome zweiten Grades in mehreren Variablen haben im Reellen die Gestalt
xT Ax + bT x + c
mit A ∈ Rn×n symmetrisch, b ∈ Rn , c ∈ R,
bzw. analog im Komplexen
x∗ Ax + b∗ x + c
mit A ∈ Cn×n hermitesch, b ∈ Cn , c ∈ C.
Neben den Gliedern xj xk zweiten Grades treten auch Glieder xk ersten Grades und nullten Grades auf.
278
§6. VEKTORRÄUME MIT SKALARPRODUKT
Beispiel. Darstellung eines reellen Polynom zweiten Grades in zwei Variablen im Matrizenkalkül:
T T x
x
−2
x
1 −2
x2 − 4xy + y 2 − 2x + 4 =
+
+ 4.
−2 1
y
y
0
y
4.14∗ Quadratische Ergänzung. Falls das LGS −2AT u = b lösbar ist (d.h. falls b ∈ Bild(A)) erhält
man wegen uT Ax = uT AT x = (Au)T x = xT Au
(x − u)T A(x − u) = xT Ax − 2uT Ax + uT Au = xT Ax + bT x + uT Au,
d.h.
xT Ax + bT x + c = (x − u)T A(x − u) + d
mit d := c − uT Au ∈ R.
Das nennt man eine quadratische Ergänzung.
Beispiel.
T x
1
x + 2xy + y − 6x − 6y + 5 =
1
y
2
x
−6 x
1
+
+ 5.
1
y
−6 y
2
Wir lösen
T u1
−6
1 1
−2
=
1 1
u2
−6
u1
2
beispielsweise durch u2 = 1 und erhalten
x2 + 2xy + y 2 − 6x − 6y + 5
=
x−2
y−1
⇔
T 1
1
1
1
1
1
T u1
3
1
=
1
u2
3
T x−2
2
1
+5−
1
y−1
1
{z
|
=−4
=
2
1
1
1
}
(x − 2)2 + 2(x − 2)(y − 1) + (y − 1)2 − 4.
4.15 Quadriken. Eine Quadrik ist das Nullstellengebilde eines Polynoms zweiten Grades in mehreren
Veränderlichen, d.h. eine Menge der Gestalt
{x ∈ Rn | xT Ax + bT x + c = 0}
bzw.
{x ∈ Cn | x∗ Ax + b∗ x + c = 0}.
Im Fall R2 spricht man auch von einem Kegelschnitt, im Fall R3 von einer Fläche zweiter Ordnung.
Eine Quadrik versteht man am besten, wenn man sie bezüglich eines an die Quadrik angepassten ONS
betracht. Man führt also eine Bewegung 3.12 durch und erhält eine der folgenden „Normalformen“.
4.16 Normalformen von Quadriken. Durch eine Bewegung des Rn bzw. des Cn lässt sich jede Quadrik
in eine der drei Formen
m
X
k=1
λk xk 2 = 0,
m
X
λk xk 2 = 1,
k=1
m
X
λk xk 2 = 2xm+1
k=1
mit 0 ≤ m ≤ n und reellen λ1 , . . . , λm 6= 0 transformieren.
Beweisidee. Die Bewegung x 7→ Sx+d bestehend aus einer orthogonalen bzw. unitären (n×n)-Matrix S
und einem Verschiebungsvektor d können wir nach dem Satz über die Hauptachsentransformation so
wählen, dass S T AS = diag(λ1 , . . . , λm , 0, . . . , 0) eine Diagonalmatrix wird mit reellen λ1 , . . . , λm 6= 0 (für
m = 0 hat A nur den Eigenwert 0, für m = n keinen Eigenwert 0). Durch geschickte Wahl von d kann
man schließend die meisten linearen Terme eliminieren.
4.17 Kegelschnitte. Ein Kegelschnitt wird von den Punkten (x, y) ∈ R2 mit
ax2 + bxy + cy 2 + dx + ey + f = 0
gebildet. Die Zahlen a, b, c, d, e, f ∈ R sind vorgegeben. Nach einer Bewegung des R2 gemäß 4.16, welche
die Quadrik in Normalform bringt, erhalten wir die folgende Klassifikation der Kegelschnitte.
279
KAPITEL 5. LINEARE ALGEBRA
Degenerierte Fälle. 0 = 1 oder −y 2 = 1, die leere Menge; x2 + y 2 = 0, der Punkt; y = 0 oder x2 = 0, die
Gerade; 0 = 0, die Ebene.
√
Geradenpaare. Die Gleichung λx2 = 1, λ > 0 definiert zwei parallele Geraden
x = ±1/ λ, die Gleichung
p
λx2 − µy 2 = 0, λ, µ > 0, definiert zwei sich schneidende Geraden y = ± λ/µx.
y
y
x
x
Abbildung 5.5: Geradenpaare.
2
2
Hyperbel.
Hyperbel
mit den beiden
Asymptoten
p Die Gleichung λx − µy = 1, λ, µ > 0, definiert eine
√
√
√
√
y = ± λ/µx. Das erkennt man am besten mit der Substition x0 = λx − µy, y 0 = λx + µy. Dann
gilt nämlich x0 y 0 = 1.
y
x
Abbildung 5.6: Hyperbel.
Ellipse und Kreis. Die Gleichung λx2 + µy 2 = 1, λ, µ > 0, definiert eine Ellipse. Üblich ist die Darstellung
x2
y2
+
=1
a2
b2
√
√
mit den Hauptachsenradien a := 1/ λ und b := 1/ µ. In dieser Darstellung sind die Koordinatenachsen
die Hauptachsen. Für a = b erhält man einen Kreis mit Radius a.
y



|
y
b
{z
a
} x
Abbildung 5.7: Ellipse und Kreis.
x
280
§6. VEKTORRÄUME MIT SKALARPRODUKT
Parabel. Die Gleichung λx2 = 2y, λ > 0, beschreibt eine Parabel .
y
x
Abbildung 5.8: Parabel.
4.18 Flächen zweiter Ordnung. Analog zu den Quadriken im R2 , den Kegelschnitten, kann man
die Quadriken im R3 durch eine Bewegung des Raumes in Normalform bringen und damit klassifizieren. Neben allerlei entarteten Fällen (leere Menge, Punkt, Gerade, Ebene, Raum) gibt es die folgenden
„wichtigen“ Flächen zweiter Ordnung.
Zylinder über einem Kegelschnitt. Das sind die Gleichungen λx2 = 1, λx2 − µy 2 = 0, λx2 − µy 2 = 1,
λx2 + µy 2 = 1, λx2 = 2y mit λ, µ > 0, in denen die dritte Koordinaten z nicht vorkommt.
Abbildung 5.9: Zylinder über Kegelschnitten.
Kegel. λx2 + µy 2 − νz 2 = 0 mit λ, µ, ν > 0.
Abbildung 5.10: Kegel.
281
KAPITEL 5. LINEARE ALGEBRA
Einschaliges bzw. zweischaliges Hyperboloid. Das sind die beiden Gleichungen λx2 + µy 2 − νz 2 = 1 bzw.
λx2 − µy 2 − νz 2 = 1 mit λ, µ, ν > 0.
Abbildung 5.11: Einschaliges und zweischaliges Hyperboloid.
Ellipsoid. λx2 + µy 2 + νz 2 = 1 mit λ, µ, ν > 0. Die zweite übliche Darstellung lautet
x2
y2
z2
+
+
= 1.
a2
b2
c2
Die Zahlen a, b, c > 0 heißen Hauptachsenradien.
Abbildung 5.12: Ellipsoid.
Paraboloid. λx2 + µy 2 = z mit λ, µ > 0. Die Höhenlinien z = c, d.h. λx2 + µy 2 = c bilden ein System
konzentrischer Ellipsen.
1
0.5
0
-0.5
-1
-1
-0.5
0
Abbildung 5.13: Paraboloid.
0.5
1
282
§6. VEKTORRÄUME MIT SKALARPRODUKT
Sattelfläche. λx2 − µy 2 = z mit λ, µ > 0. Die Höhenlinien der Sattelfläche sind Hyperbeln.
1
0.5
0
-0.5
-1
-1
-0.5
0
0.5
1
Abbildung 5.14: Sattelfläche.
4.19 Entkopplung von schwingenden Systemen. In der Mechanik und anderen Bereichen der Physik
treten DGL-Systeme der Form
mit M ∈ Rn×n positiv definit und K ∈ Rn×n symmetrisch
M ẍ + Kx = 0
auf. Oft sind dies schwingende Systeme. Dann geben die Koordinaten von x die Auslenkungen der einzelnen Teilchen aus der Ruhelage an, die Matrix M trägt Informationen über deren Masse und die Einträge
von K geben die Federkonstanten an, mit der die verschiedenen Teilchen miteinander gekoppelt sind.
Wir können derartige Systeme jetzt mit einer simultanen Hauptachsentransformation entkoppeln. Ist
S T M S = En und S T KS = D = diag(λ1 , . . . , λn ) wie in 4.10, so gehen wir zu den Koordinaten y := S −1 x
über und erhalten
M ẍ + Kx = 0
S T M SS −1 ẍ + S T KSS −1 x = 0
⇔
⇔
ÿ + Dy = 0,
d.h. ein entkoppeltes System ÿk + λk yk = 0, k = 1, . . . , n, in dem wir jede DGL einzeln lösen können.
Für die Berechnung von S bei vorgegebenen M und K gehe man wie im Beweis von 4.10 vor.
5
Matrizenexponentialfunktion
5.1 Lineare Differentialgleichungssysteme erster Ordnung haben im homogenen Fall die Form
ẋ = Ax,
mit A ∈ Rn×n .
Für ein Anfangswertproblem gibt man noch eine Startzeit t0 und einen Startvektor x0 = x(t0 ) vor.
Ohne uns vorerst um Konvergenzfragen zu kümmern erklären wir für eine (n × n)-Matrix A die „Matrizenexponentialfunktion“
eA :=
∞
X
1 k
1
1
A = E n + A + A2 + A3 + · · · .
k!
2!
3!
k=0
Mit A ist auch eA eine (n × n)-Matrix.
Durch das Matrixen-Vektor-Produkt
x(t) := eA(t−t0 ) x0
für t ∈ R
wird eine vektorwertige Funktion x definiert mit x(t0 ) = e0 x0 = En x0 = x0 .
283
KAPITEL 5. LINEARE ALGEBRA
Durch mutiges gliedweises Differenzieren erhalten wir
d A(t−t0 )
d
(t − t0 )2 2 (t − t0 )3 3
ẋ(t) =
e
x0 =
En + A(t − t0 ) +
A +
A + · · · x0
dt
dt
2!
3!
2
(t − t0 )2 2
(t
−
t
)
0
A3 + · · · x0 = A En + (t − t0 )A +
A + · · · x0
=
A + (t − t0 )A2 +
2!
2!
= AeA(t−t0 ) x0 = Ax(t).
Also ist x eine Lösung des AWP ẋ = Ax, x(t0 ) = x0 . Für eine weitere Lösung y betrachten wir
d −At
e
y(t) = −Ae−At y(t) + e−At ẏ(t) = −Ae−At y(t) + e−At Ay(t) = −Ae−At y(t) + Ae−At y(t) = 0.
dt
Also ist t 7→ e−At y(t) ein konstanter Vektor c, d.h. y(t) = eAt c. Für t = t0 folgt x0 = y(t) = c und die
oben gefundene Lösung des AWP ist eindeutig bestimmt. Wir fassen zusammen.
Ist A eine (n × n)-Matrix, so ist die homogene lineare DGL ẋ = Ax für jeden Startwert x(t0 ) = x0
eindeutig lösbar und die Lösung lautet x(t) = eA(t−t0 ) x0 für t ∈ R.
5.2 Was fehlt? Der obige Ansatz ist ohne eine Begründung für die Existenz der Matrizenexponentialfunktion und ohne Methoden zur Berechnung von eA für gegebenes A wertlos. Hierzu brauchen wir die
„Matrizennorm“ und die „Jordansche Normalform“.
5.3 Matrizennorm. Für eine Matrix A ∈ Kn×n nennen wir die Zahl
kAk :=
max
x∈Kn r{0}
kAxk
=
max
kAxk
kxk
x∈Kn , kxk=1
die Matrizennorm von A.
Dass beide Maxima denselben Wert liefern, erkennt man aus
kAxk
1
= kA( kxk
x)k
kxk
für x 6= 0.
Wegen
kAxk
kxk
2
=
(Ax)∗ (Ax)
x∗ (A∗ A)x
=
x∗ x
x∗ x
sagt das Rayleigh-Prinzip 4.12, dass kAk2 gerade der Betrag des größten Eigenwerts von A∗ A ist (im
reellen Fall können wir natürlich auf das Konjugieren verzichten).
5.4 Eigenschaften der Matrizennorm. Für A, B ∈ Kn×n und λ, µ ∈ K gilt
(a) kλA + µBk ≤ |λ|kAk + |µ|kBk,
(b) kABk ≤ kAkkBk,
(c) kAn k ≤ kAkn für n ∈ N,
(d) |aj,k | ≤ kAk für alle j, k = 1, . . . , n.
Den Beweis führe man selbständig.
5.5 Matrizenexponentialfunktion. Für jede (n × n)-Matrix A konvergiert die Matrizenreihe
eA :=
∞
X
1 k
1
1
A = E n + A + A2 + A3 + · · ·
k!
2!
3!
k=0
gliedweise absolut und wird Matrizenexponentialfunktion von A genannt.
284
§6. VEKTORRÄUME MIT SKALARPRODUKT
Mit 5.4 gilt nämlich
n
n
∞
X 1
X
X
1
1
k
A ≤
kAkk ≤
kAkk ≤ ekAk .
k! k!
k!
k=0
k=0
k=0
Pn 1 k
Die Matrizenfolge der Partialsummen von k=0 k! A konvergiert also elementweise absolut. Damit existiert die Grenzmatrix eA .
5.6 Rechenregeln für die Matrizenexponentialfunktion.
(e) eA+B = eA eB falls A und B vertauschen, d.h. AB = BA,
(f) eA e−A = En , insbesondere ist eA immer invertierbar,
(g) eS
−1
AS
= S −1 eA S für invertierbares S.
2
2
2
2
2
Beweis. Zu (e): Im Fall AB = BA beweist
k n−k(A+B) = A +AB+BA+B = A +2AB+B
Pnman nzunächst
n
und dann durch Induktion (A + B) = k=0 k A B
für n ∈ N. Wegen absoluter Konvergenz kann
dann eA eB gliedweise als Cauchy-Produkt ausgewertet werden und ergibt wie in 1.§4.3.9 dann eA+B .
Nun folgt (f) für die Wahl B = −A. Aus (S −1 AS)k = S −1 Ak S (vgl. §2.3.11) erhalten wir (g).
5.7 Matrizenexponentialfunktion einer diagonalisierbaren Matrix. Ist A diagonalisierbar, d.h.
gilt
S −1 AS = D = diag(λ1 , . . . , λn ),
mit einer invertierbaren Matrix S, so erhalten wir
S −1 Ak S = (S −1 AS)k = Dk = diag(λ1 k , . . . , λn k )
und anschließend
S −1 eA S = eS
−1
AS
= eD = diag(eλ1 , . . . , eλn ).
Nach Linksmultiplikation mit S und Rechtsmultiplikation mit S −1 folgt
eA = S diag(eλ1 , . . . , eλn )S −1
und wir können eA berechnen. Insbesondere ist diese Methode für symmetrische oder hermitesche Matrizen verwendbar. Dann nimmt man für S eine orthogonale bzw. unitäre Matrix, die A auf Hauptachsen
transformiert.
Beispiel. Berechnung von
eA
Eine Hauptachsentransformation liefert
8
−1
S AS =
0
für A :=
0
3
4
1
1
.
−1
1
mit S := √
5
1
2
−2
.
1
Für die Matrizenexponentialfunktion folgt mit S −1 = S T dann
8
1 e8 + 4e3
1 1 −2
e
0
1 2
A
8 3
−1
=
e = S diag(e , e )S =
0 e3
−2 1
5 2 1
5 2e8 − 2e3
2e8 − 2e3
.
4e8 + e3
5.8∗ Matrizenexponentialfunktion eines Jordan-Blocks. Wir zeigen nun in einem einfachen Fall,
wie eA für eine nichtdiagonalisierbare Matrix A berechnet wird. Hierzu betrachten wir den aus §5.1.8
bekannten Jordan-Block




λ 1
0 1


 0 1

λ 1








.. ..
.. ..
J = Jn,λ := 
mit N := 
 = λEn + N

.
.
.
.






λ 1
0 1
λ
0
zum Eigenwert λ ∈ C.
285
KAPITEL 5. LINEARE ALGEBRA
Die Matrix N ist nilpotent mit

1

1


N 0 = En = 




..



N =N =





,


.
1
0

1
0
1
..
.
1



,

1
0
..
.
0
1

0



N2 = 


0
0
1
0
..
.

1
..
.
0


.. 
,
.

0
0
...,
N n−1

0



=



0
0
···
..
.
..
.
0
1
..
.
0


0

.. 
,
.


0
0
N n = N n+1 = . . . = 0.
Die „Einserreihe“ steht also bei N k in der k-ten Nebendiagonale. Daher hat die Matrizenreihe für eN nur
endlich viele nichtverschwindende Glieder und es gilt

eN =
n−1
X
k=0
1


1 k 

N =

k!


1
1!
1
···
1
(n−2)!

1
(n−1)!
1

(n−2)! 
1
1!
..
.
..
.
..
.
1
1
1!
1
1!
1


.



1
Da N mit λEn vertauscht, folgt nun
eJ = eλEn +N = eλEn eN = eλ eN

eλ





=




eλ
1!
λ
e
···
eλ
(n−2)!
eλ
1!
..
.
..

..
.
.
eλ
eλ
(n−1)!

eλ 
(n−2)! 
eλ
1!
λ
e
eλ
1!
λ


.




e
Ist A ∈ Cn×n nicht diagonalisierbar, so muss der Satz über die Jordansche Normalform verwendet werden.
5.9 Jordansche Normalform. Zu jedem A ∈ Cn×n existiert eine invertierbare Matrix S ∈ Cn×n mit


Jk1 ,λ1


Jk2 ,λ2


S −1 AS = 
.
.
..


Jkr ,λr
Man kann also S auf „Blockdiagonalgestalt“ transformieren. Die λ1 , . . . , λr sind die Eigenwerte von A und
die Darstellung ist bis auf die Reihenfolge der Jordan-Blöcke eindeutig bestimmt. U.U. gehören zu einem
Eigenwert mehrere Jordan-Blöcke, d.h. die λ1 , . . . , λr müssen nicht paarweise verschieden sein. Aus der
Jordanschen Normalform kann man die geometrische Vielfachheit eines Eigenwerts (Anzahl der zugehörigen Jordan-Blöcke) sowie die algebraische (Summe ihrer Größen) ablesen. Sobald also für einen Eigenwert
ein „echter“ Jordan-Block auftritt (d.h. nicht nur (1 × 1)-Blöcke), ist A nicht mehr diagonalisierbar. Der
zugehörige Eigenwert hat dann eine kleinere geometrische als algebraische Vielfachheit.
Für einen Beweis des Satzes über die Jordansche Normalform und für die Konstruktion von S schlage
man in der Literatur nach (z.B. [Brö, Kapitel V]).
286
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
5.10∗ Matrizenexponentialfunktion im allgemeinen Fall. Wird A durch S auf Jordansche Normalform transformiert, so erhalten wir eA in der Form

 J
e k 1 λ1


eJk2 ,λ2
 −1

eA = S 
S ,
..


.
eJkr λr
wobei man die Matrizenexponentialfunktion der Jordan-Blöcke wie zuvor geschildert berechnet.
§7
Fourier-Analysis und Hilbert-Räume
In Abschnitt §6.2 haben wir zwar allgemein erklärt, was ein euklidischer bzw. unitärer Vektorraum ist,
die Theorie aber hauptsächlich im endlichdimensionalen Fall angewendet. Nun führen wir Skalarprodukte
auf den wichtigsten Funktionenräumen ein und betrachten damit unendlichdimensionale euklidische bzw.
unitäre Vektorräume. Insbesondere erhalten wir dabei der Theorie der Fourier-Reihen.
1
Fourier-Reihen
1.1 Fourier-Koeffizienten und Fourier-Polynome. Existieren für eine 2π-periodische Funktion f
die Integrale
Z π
1
b
f (k) = ck :=
f (t)e−ikt dt,
k ∈ Z,
2π −π
so nennen wir f Fourier-transformierbar und die (i.A. komplexen) Zahlen fb(k) die (komplexen) FourierKoeffizienten von f .
Statt der ck werden auch die reellen Fourier-Koeffizienten
Z
Z
1 π
1 π
ak :=
f (t) cos(kt) dt, k ∈ N0 ,
bk :=
f (t) sin(kt) dt,
π −π
π −π
k ∈ N,
benutzt. (Statt cos(kt) bzw. sin(kt) schreibt man gerne cos kt bzw. sin kt und muss dann ggf. darauf
achten, was genau „in den Cosinus bzw. Sinus hineingesteckt“ wird.)
Für n ∈ N0 nennen wir
Sn [f ](t) :=
n
X
n
fb(k)eikt
bzw.
Sn [f ](t) :=
k=−n
a0 X
+
(ak cos kt + bk sin kt)
2
k=1
das n-te Fourier-Polynom von f .
Wie in 4.§6.1.8 geschildert können wir die reellen Fourier-Koeffizienten und -Polynome in die komplexen
umrechnen und umgekehrt: ak = ck + c−k , bk = i(ck − c−k ).
Fourier-Polynome sind Beispiele für trigonometrische Polynome. Während „normale“ Polynome endliche
Linearkombinationen der Monome xk mit k ∈ N0 , sind, werden bei trigonometrischen Polynomen die
Funktionen eikt mit k ∈ Z (komplexe Darstellung), bzw. 1, cos kt und sin kt mit k ∈ N (reelle Darstellung)
linearkombiniert.
1.2 Fourier-Reihen und Fourier-Entwicklung. Die aus der Folge der Fourier-Polynome zu f gebildete unendliche Reihe
S∞ [f ](t) :=
∞
X
∞
fb(k)eikt
bzw.
S∞ [f ](t) :=
k=−∞
nennen wir Fourier-Reihe von f . Hierbei bezeichnet
a0 X
+
(ak cos kt + bk sin kt)
2
k=1
P∞
k=−∞
den Grenzwert limn→∞
Pn
k=−n .
287
KAPITEL 5. LINEARE ALGEBRA
1.3 Fourier-Analyse und Fourier-Synthese. Beim Bilden der Fourier-Koeffizienten (fb(k))k∈Z wird
eine Funktion f in ihr „Frequenzspektrum“ zerlegt: fb(k) gibt an, mit welcher komplexen Amplitude die
Eigenschwingung eikt in f vorkommt. Die Bestimmung der Fourier-Koeffizienten wird Fourier-Analyse
oder Fourier-Transformation genannt. Die aus den Fourier-Koeffizienten gebildete Zahlenfolge (fb(k))k∈Z
heißt Fourier-Transformierte von f .
Den Versuch, mit Hilfe der aus den Fourier-Koeffizienten gebildeten Fourier-Reihe S∞ [f ] die Funktion f
zu rekonstruieren, nennt man Fourier-Synthese oder Fourier-Rücktransformation.
Achtung. Da eine 2π-periodische Funktion erst durch ihre überabzählbar vielen Funktionswerte f (t),
t ∈] − π, π], festgelegt ist, dürfen wir nicht erwarten, dass die abzählbar vielen Fourier-Koeffizienten fb(k),
k ∈ Z, alle Informationen über f beinhalten. Ohne weitere Annahmen an f dürfen wir also keine Hoffnung
hegen, dass die Fourier-Synthese immer gelingt, d.h. dass S∞ [f ] = f gilt.
1.4 Wichtige Fourier-Reihen. Die folgenden vier Beispiele sollte man sich merken. Nicht nur, weil sich
aus ihnen durch Verschieben und Linearkombinieren viele weitere Fourier-Reihen bilden lassen, sondern
auch weil sie den typischen Zusammenhang zwischen Glattheit der Funktion und Abfallen der FourierKoeffizienten illustrieren (Näheres siehe 1.8).
(a) Rechteck r : R → R, 2π-periodisch mit r(t) = sgn(t) für t ∈] − π, π]. Da r ungerade ist, gilt ak = 0 für
alle k ≥ 0 sowie

Z
 4 für k = 1, 3, 5, . . . ,
2 π
sin kt dt = kπ
bk =
0
π 0
für k = 2, 4, 6, . . . .
Das n-te Fourier-Polynom zur Rechteckschwingung r lautet für ungerades n also
4
1
1
1
Sn [r](t) =
sin t + sin 3t + sin 5t + · · · + sin nt .
π
3
5
n
Es ist nicht klar, für welche t ∈ R die zugehörige Fourier-Reihe
4
1
1
S∞ [r](t) =
sin t + sin 3t + sin 5t + · · · .
π
3
5
konvergiert.
-Π
Π
-1
1
1
1
-Π
Π
-Π
-1
Π
-1
Abbildung 5.15: Die Rechteckschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5).
(b) Sägezahn f : R → R, 2π-periodisch mit f (t) = π − t für t ∈ [0, 2π[. Da f ungerade ist, gilt ak = 0 für
alle k ≥ 0 sowie nach einer partiellen Integration
Z
2 π
2
(π − t) sin kt dt =
für k = 1, 2, 3, . . .
bk =
π 0
k
Die Fourier-Reihe der Sägezahnschwingung f lautet damit
1
1
S∞ [s](t) = 2 sin t + sin 2t + sin 3t + · · · .
2
3
288
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
1
-Π
1
Π
-1
-Π
1
Π
-1
-Π
Π
-1
Abbildung 5.16: Die Sägezahnschwingung und einige ihrer Fourier-Polynome (n = 2, 6, 10).
Auch für diese Reihe ist nicht klar, ob und wo sie konvergiert.
(c) Dreieck d : R → R, 2π-periodisch mit d(t) = |t| für t ∈] − π, π]. Da d gerade ist, gilt bk = 0 für alle
k ≥ 1. Eine partielle Integration liefert unter Ausnutzung der Symmetrie
Z
Z
2 π
2 1 − (−1)k
1 π
|t| cos kt dt =
t cos kt dt = −
für k ∈ N
ak =
π −π
π 0
π
k2
sowie a0 = π. Die Fourier-Reihe zur Dreieckschwingung d lautet damit
π
4
1
1
S∞ [d](t) = −
cos t + 2 cos 3t + 2 cos 5t + · · · .
2
π
3
5
P∞
Das n-te Fourier-Polynom ist gerade die n-te Partialsumme dieser Reihe. Da k=1 1/k 2 eine gleichmäßige
Majorante ist, konvergiert diese Fourier-Reihe auf ganz R und die Grenzfunktion ist stetig. Wie die
Grenzfunktion aussieht, ist aber zunächst nicht klar.
Π
-Π
Π
Π
-Π
Π
Π
-Π
Π
Abbildung 5.17: Die Dreieckschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5).
P∞
Die Majorante k=1 1/k 2 führt offensichtlich zu einer schnelleren
Konvergenz als in (a) und (b), wo sich
P∞
ein Vergleich mit der alternierenden harmonischen Reihe k=1 (−1)k /k nahe liegt.
(d) Parabel p : R → R, 2π-periodisch und ungerade mit p(t) = t(π − t) für t ∈ [0, π[. Dank der Symmetrie
gilt ak = 0 für k ≥ 0 sowie (nach zweimaliger partieller Integration)

Z
 8
2 π
für k = 1, 3, 5, . . . ,
t(π − t) sin kt dt = πk 3
bk =
0
π 0
für k = 2, 4, 6, . . . .
Damit hat die Parabelschwingung p die Fourier-Entwicklung
1
8
1
sin t + 3 sin 3t + 3 sin 5t + · · · .
S∞ [p](t) =
π
3
5
P∞
Hier ist die gleichmäßige Konvergenz durch die Majorante k=1 1/k 3 sichergestellt, ja sogar die gliedweise
Differenzierbarkeit.
289
KAPITEL 5. LINEARE ALGEBRA
-Π
Π
-Π
Π
-Π
Π
Abbildung 5.18: Die Parabelschwingung und einige ihrer Fourier-Polynome (n = 1, 3, 5).
P∞
Da die Majorante k=1 1/k 3 schneller als die Majorante in (c) konvergiert, schmiegen sich die FourierPolynome auch schneller an die Grenzfunktion an.
1.5 Beobachtungen in den Beispielen. Die vier Beispiele der vorherigen Nummer legen folgende
Vermutungen nahe:
1. Überall dort, wo f stetig ist, konvergieren die Fourier-Polynome gegen den Funktionswert. (Falsch,
es gibt Gegenbeispiele!)
2. An einer Sprungstelle von f konvergieren die Fourier-Polynome gegen den Mittelwert aus links- und
rechtsseitigem Grenzwert. (Stimmt fast, aber nur unter einer Zusatzannahme, siehe 1.7.)
3. Je glatter die Funktion ist, desto schneller konvergieren die Fourier-Polynome (Stimmt, siehe 1.8.)
1.6 Integraldarstellung für arithmetischen Mittel von Fourier-Polynomen. Wir wollen uns kurz
mit der punktweisen Konvergenz von Fourier-Reihen beschäftigen. Dies ist ein steiniges Feld. Historisch
gesehen hat die Beschäftigung mit diesem Problem viel zur Klärung des Stetigkeitsbegriffs beigetragen.
Joseph Fourier (1768–1830) selbst war der Meinung, das jede periodische Funktion durch ihre FourierReihe dargestellt wird. Von Du Bois-Reymond stammt aus dem Jahre 1876 ein Beispiel einer stetigen
Funktion, deren Fourier-Reihe in einem Punkt divergiert.
Es stellt sich heraus, dass für punktweise Konvergenzbetrachtungen nicht so sehr die Folge der FourierPolynome Sn [f ], sondern die ihrer arithmetischen Mittel
σn [f ](t) :=
n
n
n
X
1 X
n + 1 − |k| b
a0 X n + 1 − k
Sk [f ](t) =
f (k)eikt =
+
(ak cos kt + bk sin kt)
n+1
n+1
2
n
k=0
k=−n
k=1
b
geeignet ist. Durch Einsetzen der Definition
wir mit der Periodizität von f und den aus
Pn
Pn für kf (k) erhalten
1.§4.2.5 bekannten Summenformeln für k=0 q bzw. k=0 kq k
σn [f ](t)
=
=
=
=
Z π
Z π
n
n
X
n + 1 − |k| 1
1 X n + 1 − |k|
−ikτ
ikt
f (τ )e
dτ e =
f (τ )eik(t−τ ) dτ
n + 1 2π −π
2π
n+1
−π
k=−n
k=−n
Z π
n
X
1
n + 1 − |k| ikτ
f (t + τ )
e dτ
2π
n+1
−π
k=−n
Z π
(1 − ei(n+1)τ )2
f (t + τ )
dτ
2π(n + 1)(1 − eiτ )2
−π
!2
Z π
sin( (n+1)τ
)
1
2
f (t + τ )Fn (τ ) dτ
mit Fn (τ ) :=
.
2π(n + 1)
sin( τ2 )
−π
Die Funktion Fn wird n-ter Fejér-Kern genannt.
290
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
4
F25
3
2
F10
1
F2
-Π
Π
Abbildung 5.19: Graphen einiger Fejer-Kerne.
Die Fejér-Kerne haben die folgenden charakteristischen Eigenschaften
(FK1) Fn (τ ) ≥ 0,
Z π
(FK2)
Fn (τ ) dτ = 1,
−π
Z
Fn (τ ) dτ = 0 für jedes δ > 0.
(FK3) lim
n→∞
[−π,π]r]−δ,δ[
Im Integral
Z
π
σn [f ](t) =
f (t + τ )Fn (τ ) dτ
−π
liefert der Integrand wegen (FK3) und (FK1) nur für τ nahe bei 0 einen Beitrag. Dank (FK2) ist das
Integral σn [f ](t) dann eine Näherung an f (t). Zum Zwecke der Approximation selbst kommt es also gar
nicht so sehr auf die genaue Gestalt der Kerne Fn an, sondern auf die drei oben genannten Eigenschaften.
Genügt eine Funktionenfolge (Fn )n diesen drei Bedingungen, so wird sie eine Dirac-Folge genannt. Damit
die Approximanden allerdings dann trigonometrische Polynome werden, müssen die Kerne Fn geeignete
Form haben.
Über die genauen Approximationseigenschaften der trigonometrischen Polynome σn [f ] gibt der folgende
Satz von Fejér Auskunft. Für den Beweis verweisen wir auf [Kön, Band 2, §10.1]. Wir erinnern uns
daran, dass für eine Regelfunktion f definitionsgemäß an jeder Stelle t im Definitionsbereich die beiden
einseitigen Grenzwerte
f (t−) := lim f (τ )
τ →t−
und
f (t+) := lim f (τ )
τ →t+
existieren (vgl. 4.§4.1.16).
Satz von Fejér. Ist f Fourier-transformierbar, so konvergiert die Folge der arithmetischen Mittel σn [f ]
an jeder Stelle gegen den Mittelwert der beiden einseitigen Grenzwerte von f , d.h.
lim σn [f ](t) =
n→∞
f (t−) + f (t+)
.
2
Ist f insbesondere in einem Punkt t stetig, so gilt limn→∞ σn [f ](t) = f (t). Ist f auf R stetig, so konvergiert
(σn )n auf R gleichmäßig gegen f .
291
KAPITEL 5. LINEARE ALGEBRA
In Sachen punktweiser Konvergenz verhält sich also die Folge (σn [f ])n angenehm und gerecht — wo f
nicht stetig ist, konvergiert sie gegen den Mittelwert aus links- und rechtseitigem Grenzwert von f . Wie
das Beispiel von Du Bois-Reymond zeigt, kann ein entsprechender Satz für die Folge der Fourier-Polynome
selbst nicht stimmen. Dafür gilt folgender Satz von Dirichlet (siehe z.B. [Kön, Band 1, §17.4]).
1.7 An welchen Stellen konvergiert eine Fourier-Reihe? Satz von Dirichlet. Hat eine Fouriertransformierbare Funktion f an der Stelle t eine links- und eine rechtsseitige Ableitung, so konvergiert
die Fourier-Reihe dort gegen den Mittelwert der beiden einseitigen Grenzwerte, d.h.
S∞ [f ](t) = lim Sn [f ](t) =
n→∞
f (t−) + f (t+)
2
falls f 0 (t+) und f 0 (t−) existieren.
Ist insbesondere f in t stetig differenzierbar, so gilt S∞ [f ](t) = f (t).
Beispiele.
(e) Die Rechteckschwingung r in 1.4 (a) hat an jeder Stelle t ∈ R sowohl eine links- als auch die rechtsseitige Ableitung und es gilt r0 (t−) = 0 = r0 (t+). Also konvergiert die Fourier-Reihe S∞ [r] an jeder Stelle t
gegen den Mittelwert von r(t−) und r(t+), d.h. S∞ [r] = r.
(f) Die Sägezahnschwingung s aus 1.4 (b) hat auch an jeder Stelle t ∈ R links- und rechtsseitige Ableitungen. Da aber an den Sprungstellen t = ±π, ±3π, . . . der Funktionswert nicht der Mittelwert zwischen
den beiden einseitigen Grenzwerten ist, konvergiert dort die Fourierreihe gegen 0 = (s(t−) + s(t+))/2
und nicht gegen den Funktionswert d(t).
(g) Die Dreieckschwingung d und die Parabelschwingung p aus 1.4 (c) und (d) sind stetig und haben
überall einseitige Grenzwerte, also gilt S∞ [d] = d und S∞ [p] = p.
(h) Die Parabelgirlande welche durch „Aneinanderhängen“ von q(t) := t(t−π) für t ∈ [0, π[ entsteht, liefert
ebenfalls eine stetige Funktion, die überall einseitige Grenzwerte besitzt. Nach dem Satz von Dirichlet
gilt also S∞ [q] = q. Man berechnet a0 = −π 2 /3, ak = 4/k 2 für k = 2, 4, . . ., ak = 0 für k = 1, 3, . . .,
bk = 0 für k ∈ N und erhält die Fourier-Reihe
2π 2
1
1
S∞ [q](t) = −
+ 4 cos 2t + 2 cos 4t + 2 cos 6t + · · · · · · .
3
2
3
Für t = 0 erhalten wir insbesondere
∞
0 = q(0) = −
X 1
2π 2
+4
,
3
k2
k=1
d.h.
∞
X
1
π2
=
.
2
k
6
k=1
1.8 Glattheit der Funktion und Fallen der Fourier-Koeffizienten. Die beiden folgenden Beobachtungen sind grundlegend für die Anwendung der Fourier-Transformation zur Datenkompression.
(i) Ist f eine C m -Funktion und zusammen mit ihren Ableitungen f, f 0 , . . . , f (m) Fourier-transformierbar,
so gilt fb(k) = O(|k|−m ) für |k| → ∞.
(j) Ist f Fourier-transformierbar und gibt es ein ε > 0 mit fb(k) = O(|k|−m−1−ε ) für |k| → ∞, so ist f
eine C m -Funktion.
Kurz gesagt: „je glatter f , desto schneller fallen die Fourier-Koeffizienten und umgekehrt.“
Diese Beobachtung fußt auf der Formel
fb0 (k) = −ik fb(k)
für k ∈ Z,
292
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
falls f und f 0 Fourier-transformierbar. Eine partielle Integration liefert nämlich
π
Z π
Z π
1
1
1
0
ikt
ikt 0
b
f (t) e
dt =
f (t)ikeikt dt = −ik fb(k).
f (t)ike −
f (k) =
2π −π | {z } |{z}
2π
2π −π
−π
↑
↓
Beweis. Zu (i): Existiert f (m) und ist dies eine stetige Funktion, so ist sie auf [−π, π] durch eine Zahl M
(m) (k)| ≤ M .
beschränkt und die Standardabschätzung für Integrale liefert |k m fb(k)| = | − (ik)m fb(k)| = |fd
P
∞
Zu (j): Im Fall ck = O(|k|−m−1−ε ) fürP|k| → ∞ konvergiert f (t) := k=−∞ ck eikt zusammen mit den
∞
−1−ε
ersten m gliedweisen Ableitungen, da k=1 |k|
jeweils eine gleichmäßige Majorante ist.
1.9 Datenkompression durch Fourier-Analyse funktioniert folgendermaßen: Werden Daten durch
eine glatte Funktion f modelliert (z.B. Bilddaten mit weichen Übergängen oder „vernünftige“ Musik), so
bildet man die Fourier-Transformierte fb, überträgt von dieser schnell fallenden Nullfolge nur die ersten
Glieder und rekonstruiert aus selbigen eine Näherung an f . Damit lässt sich überraschend viel anstellen.
Wo Datenkompression durch Fourier-Transformation mangels Glattheit von f an ihre Grenzen stößt, hilft
eine Wavelet-Transformation, welche die Grundidee der Fourier-Transformation verfeinert.
1.10∗ In der Praxis: diskrete Fourier-Transformation. In der Praxis hat man die zu transformierende Funktion (das „Signal“) oft als einen diskreten Datensatz vorliegen, den wir als einen Vektor
f = (f (0), f (1), . . . , f (n − 1)) ∈ Cn
der Länge n schreiben. Man kann sich f als die Werte einer stückweise konstanten Funktion vorstellen.
Als diskretes Analogon zu den Funktionen ek : t 7→ eikt , k ∈ Z, wählen wir die Vektoren
εk := 1, e2πik/n , e2πi2k/n , . . . , e2πi(n−1)k/n ∈ Cn ,
k = 0, 1, . . . , n − 1,
die als Komponenten gerade die Funktionswerte ek (0), ek (2π/n), . . . , ek (2π(n − 1)/n) besitzen. Bezüglich
des Skalarprodukts
n−1
1X
hf |gi :=
f (l)g(l),
n
l=0
welches bis auf einen Faktor 1/n gerade das Standardskalarprodukt auf dem Cn ist, entpuppen selbige
sich als Orthonormalsystem:
(
n−1
1 für k = m,
1 X 2πi(k−m)l/n
hεk |εm i =
e
=
k, m = 0, 1, . . . , n − 1.
n
0 für k 6= m,
l=0
Die diskreten Fourier-Koeffizienten sind nun
n−1
1X
fb(k) := hf |εk i =
f (l)e−2πikl/n ,
n
k = 0, 1, . . . , n − 1,
l=0
und die diskrete Fourier-Transformation lautet
fb = fb(0), fb(1), . . . , fb(n − 1) .
Damit ist fb selbst ein Vektor des Cn . Die diskrete Fourier-Rücktransformation
f (l) =
n−1
X
k=0
fb(k)εl (k) =
n−1
X
fb(k)e2πikl/n ,
l = 0, 1, . . . , n − 1,
k=0
ist nichts anderes als die Darstellung des Vektors f bezüglich der ONB aus den Vektoren ε0 , ε1 , . . . , εn−1 .
Da wir uns nun in einem endlichdimensionalen Vektorraum bewegen, stellen sich keine Konvergenzfragen.
Die Fourier-Synthese gelingt immer.
293
KAPITEL 5. LINEARE ALGEBRA
1
0.175
1
0.15
0.8
0.8
0.125
0.6
0.6
0.1
0.4
0.4
0.075
0.2
0.2
0.05
0.025
-1
-0.5
0.5
1
10
20
30
40
50
60
10
20
30
40
50
60
Abbildung 5.20: Ein Signal mit Periodenintervall [−1, 1[, seine Diskretisierung f mit 26 Abtastpunkten
f (0), f (1), . . . , f (63) sowie seine diskrete Fourier-Transformierte fb.
1.11∗ Effiziente Berechnung der diskreten Fourier-Transformierten. Bei genauem Hinsehen erweisen sich die beiden Formeln für die diskrete Fourier-Transformation und -Rücktransformation in 1.10
als Polynom-Auswertung der Polynome
x 7→
n−1
1X
f (l)xl
n
x 7→
bzw.
l=0
n−1
X
fb(l)xl
l=0
2πik/n
an den Stellen x = e
, k = 0, 1, . . . , n−1. Mit einer Fast Fourier Inversion [StBul, Band 1, 2.3.3] können die diskrete Fourier-Transformation und -Rücktransformation in O(n log n) Multiplikationen durchgeführt werden.
1.12∗ Datenkompression durch diskrete Fourier-Transformation. Was nützt es nun, statt des
Datensatzes f den Fourier-transformierten Datensatz fb zu übertragen? Nun, zunächst gar nichts. Ist f
strukturlos, so auch fb. Die Fourier-Transformation wird nur interessant, wenn f eine gewisse Glattheit
aufweist. In 1.8 haben wir gesehen, dass die Fourier-Koeffizienten einer Funktion umso schneller gegen
Null konvergieren, je glatter die Funktion ist. Auch im diskreten Fall können wir erwarten, dass dann die
Komponenten von fb schnell klein werden und fb damit erfolgreich komprimiert werden kann.
Eine schnelle und erfolgreiche Kompression eines „glatten“ Datensatzes geschieht also nach folgendem
Prinzip: Der gegebene Datensatz wird durch schnelle Fourier-Interpolation transformiert. Die Komponenten des transformierten Datensatzes werden schnell klein, man überträgt daher nur seine ersten Komponenten. Aus ihnen erhält man durch eine weitere schnelle Fourier-Interpolation eine Approximation an
den ursprünglichen Datensatz zurück.
1
1
1
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.8
-1
-0.5
0.5
1
10
20
30
40
50
60
10
20
30
40
50
60
Abbildung 5.21: Nochmal das Signal aus Abbildung 5.20 sowie die Approximationen an seine Diskretisierung durch Rekonstruktion nur unter Verwendung der 2m + 2 niederfrequenten Anteile für m = 3 bzw.
m = 5. Die Approximationsfehler in diesem Beispiel sind 3% bzw. 0,06%, die Kompressionraten 87,5%
bzw. 78,1%.
Dieses Kompressionsverfahren funktioniert nicht nur bei eindimensionalen Datensätzen. Auch Bilddaten
(also ein zweidimensionaler Datensatz bei einem monochromen Bild, bzw. drei derartige Datensätze bei
einem Farbbild) können so erfolgreich komprimiert werden. Der JPEG-Standard ist ein Beispiel hierfür.
294
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
1.13 Wie geht es weiter? Dieser Abschnitt war einer „bodenständigen“ Einführung in die FourierAnalysis gewidmet: der Definition von Fourier-Koeffizienten, Fourier-Polynomen, Fourier-Entwicklung
sowie den grundlegenden Fragen zum Konvergenzverhalten von Fourier-Reihen.
Im nächsten Abschnitt ordnen wir die gesamte Fourier-Analysis in die lineare Algebra, genauer gesagt in
die Theorie der Orthonormalsysteme, ein. Dass Fourier-Analysis etwas mit Orthonormalsystemen zu tun
hat, merkt man schon bei der diskreten Fourier-Transformation.
In Abschnitt 3 schließlich gehen wir kurz auf die kontinuierliche Fourier-Transformation ein, bei der die
zu transformierende Funktion nicht mehr periodisch sein muss.
2
Hilbert-Räume
2.1 Hilbertsche Funktionenräume. Ist I ein Intervall und ist ρ : I → R+ eine stetige Gewichtsfunktion, so nennen wir
Z
2
2
Lρ (I) := f : I → C | |f (x)| ρ(x) dx < ∞ ,
I
R
einen Hilbertschen Funktionenraum. Er besteht aus den Funktionen, für die I |f (x)|2 ρ(x) dx konvergiert
(für Details siehe §2.1.15). Diese Funktionen nennt man bezüglich des Gewichts ρ quadratintegrabel .
Wir stiften auf dem L2ρ (I) das Standardskalarprodukt
Z
hf |gi :=
f (x) g(x) ρ(x)dx
für f, g ∈ L2ρ (I).
I
Ähnlich wie im „kleinen“ `2 (siehe §6.2.2) zeigt man, dass für f, g ∈ L2ρ (I) das Produkt f gρ über I
integrierbar ist.
In der oben genannten Form sind komplexwertige Funktionen zugelassen und es liegt ein unitärer Vektorraum vor. Will man nur reellwertige Funktionen betrachten, so kann man sich das Konjugieren sparen
und arbeitet in einem euklidischen Vektorraum.
Im einfachsten Fall ist die Gewichtsfunktion ρ = 1 oder eine positive Konstante. Für das Integrationsintervall [0, 2π] und reellwertige Funktionen ist beispielsweise
1
hf |gi :=
π
Z
2π
f (t) g(t) dt
0
üblich, d.h. ρ = 1/π. Die Orthogonalitätsrelationen für Cosinus und Sinus aus 4.§4.2.10 erhalten dann
die Form


Z 2π
2 für m = n = 0,
1
cos(mt) cos(nt) dt =
hcos(mt)| cos(nt)i =
m, n ∈ N0 ,
1 für m = n 6= 0

π 0

0 für m 6= n,
Z 2π
1
hcos(mt)| sin(nt)i =
cos(mt) sin(nt) dt = 0,
m ∈ N0 , n ∈ N,
π 0
(
Z
1 für m = n,
1 2π
hsin(mt)| sin(nt)i =
sin(mt) sin(nt) dt =
m, n ∈ N.
π 0
0 für m 6= n,
Für das Integrationsintervall [−π, π] und komplexwertige Funktionen nimmt man gerne
Z π
1
hf |gi :=
f (x)g(x) dx,
2π −π
295
KAPITEL 5. LINEARE ALGEBRA
d.h. ρ = 1/(2π). Dann bekommen die Orthogonalitätsrelationen für die Exponentialfunktion 4.§4.2.10
die Form
(
Z π
Z π
1 für k = l,
1
1
−ilt ikt
i(k−l)t
ilt ikt
k, l ∈ Z.
e
e dt =
e
dt =
he |e i =
2π −π
2π −π
0 für k =
6 l,
2.2 Anmerkung
R zur Null im Hilbertschen Funktionenraum. Streng genommen ist die quadratische Form f 7→ I |f (t)|2 ρ(t) dt auf dem L2ρ (I) gar nicht positiv definit Rsondern nur positiv semidefinit.
Für eine über I integrierbare Funktion g = |f |2 ρ ≥ 0 gilt nämlich schon I g(t) dt = 0 wenn g fast überall
verschwindet (vgl. später 6.§2.1 oder früher 4.§4.1.22 und 4.§4.1.4).
Dieses Problem kann man auf zwei Arten umgehen: Entweder betrachtet man nur den Unterraum C 0 (I)
der stetigen Funktionen (die sind im Fall I = [c, d] automatisch
R integrierbar, aus g(t0 ) > 0 folgt dann
aber auch g(t) > 0 in einer ganzen Umgebung von t0 , so dass I g(t) dt dann nicht mehr verschwinden
kann). Oder man ist etwas lax und „identifiziert“ in L2ρ (I) zwei Funktionen, die fast überall gleich sind.
2.3 Fourier-Analysis. Wir betrachten den Hilbert-Raum L21/(2π) ([−π, π]). Die Funktionen
. . . , e−2it , e−it , 1, eit , e2it , . . .
erfüllen die Orthogonalitätsrelationen bezüglich des Skalarprodukts
1
hf |gi =
2π
Z
2π
f (t) g(t) dt
0
und bilden damit ein ONS für den L21/(2π) ([−π, π]). Die konstante Gewichtsfunktion ρ = 1/(2π) beim
Skalarprodukt hat wie gesagt normierende Wirkung, andernfalls läge nur ein Orthogonalsystem vor.
Wir können die Fourier-Koeffizienten einer Funktion f als das Skalarprodukt
1
fb(k) =
2π
Z
π
f (t)e−ikt dt = heikt |f i.
−π
von f mit eikt schreiben. Das n-te Fourier-Polynom erhält daher die Darstellung
Sn [f ](t) =
n
X
heikt |f ieikt
k=−n
und entpuppt sich gemäß §6.2.8 als Projektion von f in den von e−int , . . . , eint aufgespannten Unterraum.
Das formulieren wir jetzt abstrakt.
2.4 Fourier-Entwicklung, Fourier-Koeffizienten und Besselsche Ungleichung. Haben wir in einem unendlichdimensionalen euklidischen oder unitären Vektorraum V ein Orthonormalsystem mit abzählbar unendlich vielen Vektoren u1 , u2 , . . ., so können wir zu einem vorgegebenen Vektor v ∈ V für
jedes n ∈ N die orthogonale Projektion
vn := Pn (v) =
n
X
huk |viuk
k=1
von v in den von u1 , . . . , un aufgespannten Teilraum Un = Span(u1 , . . . , un ) bilden. Das nennen wir die
Fourier-Entwicklung und die Zahlen huk |vi die Fourier-Koeffizienten von v bezüglich des ONS u1 , u2 , . . ..
296
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
Die Vektoren v1 , v2 , . . . der Fourier-Entwicklung (die „Fourier-Polynome“) sind gemäß 2.2.9 bestapproximierend (der n-te vn bezüglich des Unterraums Un ) mit
kv − vn k2 = kvk2 −
n
X
|huk |vi|2 .
k=1
Wegen U1 ⊂ U2 ⊂ . . . ist die Folge der Abstände kv − vn k monoton fallend. Damit konvergiert die Reihe
∞
X
|huk |vi|2 ≤ kvk2 .
k=1
Das ist die Besselsche Ungleichung.
Achtung. Bisher wird noch nichts darüber gesagt, dass die Fourier-Reihe
P∞
k=1 huk |viuk
konvergiert.
2.5 Vollständige Orthonormalsysteme. Ein Orthonormalsystem u1 , u2 , . . . eines euklidischen oder
unitären Vektorraums V heißt vollständig (kurz vONS ), wenn
lim kv − vn k = 0
n→∞
für alle v ∈ V wobei vn =
n
X
huk |viuk .
k=1
Für jedes v ∈ V konvergiert also die Fourier-Entwicklung im Sinne der Norm gegen v.
Ist u1 , u2 , . . . ein vollständiges Orthonormalsystem von V , so gilt
kvk2 =
∞
X
|huk |vi|2 ,
hv|wi =
∞
X
huk |vihuk |wi
k=1
k=1
für alle v, w ∈ V .
Beide Beziehungen werden Parsevalsche Gleichung genannt.
Beweis. Die erste Form
Pn der Parsevalschen Gleichung folgt sofort durch Grenzübergang in der Gleichung
kv − vn k2 = kvk2 − k=1 |huk |vi|2 für den minimalen Abstand bei Bestapproximation. Die zweite Form
der Parsevalschen Gleichung beschafft man sich über die Polarisationsgleichung §6.1.8.
2.6 Hilbert-Räume. Einen euklidischen oder unitären Vektorraum mit einem vollständigen Orthonormalsystem nennen wir einen (separablen) Hilbert-Raum.
Anmerkung. Das Adjektiv „separabel“ rührt daher, dass wir nur endliche oder abzählbar unendliche
Orthonormalsysteme betrachten. Ein vollständiges Orthonormalsystem aus abzählbar unendlich vielen
Vektoren kann quasi als ein abzählbar unendlicher Ersatz für eine Basis aus endlich vielen Vektoren
gesehen
werden. Eine Basis im strengen Sinn ist das nicht, da jeder Vektor v nur durch eine Reihe
P∞
λ
n=1 n un aus Linearkombinationen der ONS-Vektoren u1 , u2 , . . . dargestellt wird, nicht durch eine
endliche Summe. Die für die „Linearkombination“ benötigten Skalare λn erhält man — wie bei einem
ONS üblich — bequem mittels λn = hun |vi.
2.7 L2 -Theorie für Fourier-Reihen. Wir wenden die Ergebnisse der letzten Nummern auf FourierReihen an und erhalten:
Ist f Fourier-transformierbar, so gilt
kf − fn k2 ≥ kf k2 −
n
X
|fb(k)|2
k=−n
Pn
ikt
für jedes trigonometrische Polynom fn (t) =
und Gleichheit tritt genau dann ein, wenn
k=−n γk e
P∞
fn = Sn [f ] das n-te Fourier-Polynom ist. Insbesondere konvergiert k=−∞ |fb(k)|2 .
297
KAPITEL 5. LINEARE ALGEBRA
Durch
kf − fn k =
1
2π
π
Z
1/2
|f (t) − fn (t)| dt
2
−π
wird der Fehler im quadratischen Mittel zwischen f und fn gemessen. Das n-te Fourier-Polynom hat also
unter allen trigonometrischen Polynomen vom Grad n den kleinsten Fehler im quadratischen Mittel.
Insbesondere gilt kf − Sn [f ]k ≤ kf − σn [f ]k2 für das arithmetischen Mittel σn [f ] der ersten n FourierPolynome. Da σn [f ] für stetiges f gleichmäßig gegen f konvergiert, folgt kf − Sn [f ]k → 0 für n → ∞.
Damit bilden die reinen Schwingungen
. . . , e−2it , e−it , 1, eit , e2it , . . .
ein vONS für die 2π-periodischen stetigen Funktionen. Mit etwas mehr Aufwand beweist man:
Die reinen Schwingungen bilden ein vollständiges Orthonormalsystem für den L21/(2π) ([−π, π]), d.h. jede
2π-periodische Fourier-transformierbare Funktion wird im quadratischen Mittel durch ihre Fourier-Reihe
approximiert.
Wer will, kann das Ganze auch pompös ausdrücken.
Der L21/(2π) ([−π, π]) ist ein separabler Hilbert-Raum.
2.8∗ Weitere wichtige Orthonormalsysteme. Wir geben einige wichtige Orthonormalsysteme in
Hilbertschen Funktionenräumen an, die durch Gram-Schmidt-Orthonormalisierung erhalten werden. Solche ONS findet man in jeder guten Formelsammlung (z.B. [AbSteg, RyGrad]). Es gibt eine umfangreiche Theorie, welche für solche Funktionenfolgen Differentialgleichungen, Rekursionsformeln, erzeugende
Funktionen und vieles mehr zur Verfügung stellt.
(a) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2 ([−1, 1]) mit dem Standardskalarprodukt
Z
1
hf |gi :=
f (x) g(x) dx
−1
liefert die Legendre-Polynome oder Kugelfunktionen 1. Art
Pn (x) =
1
-1
1 dn 2
(t − 1)n ,
2n n! dtn
1
1
1
1
-1
1
-1
-1
-1
n ∈ N0 ;
-1
1
1
-1
Abbildung 5.22: Graphen der ersten Legendre-Polynome Ln (n = 0, 1, 2, 3).
1
1
(3x2 − 1), P3 (x) = (5x3 − 3x),
2
2
Die Legendre-Polynome sind nicht normiert, vielmehr gilt
Z 1
2
kPn k2 =
Pn (x)2 dx =
.
2n
+1
−1
P0 (x) = 1,
P1 (x) = x,
P2 (x) =
....
298
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
(b) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L21/√1−x2 ([−1, 1]) mit dem Skalarprodukt
1
Z
f (x) g(x) √
hf |gi :=
−1
1
dx
1 − x2
liefert die Chebyshev-Polynome 1. Art
T0 (x) = 1,
1
-1
1
cos(n arccos x),
2n−1
Tn (x) =
1
1
1
-1
1
-1
n ∈ N;
1
-1
1
-1
-1
1
-1
-1
Abbildung 5.23: Graphen der ersten Chebyshev-Polynome Tn (n = 0, 1, 2, 3).
T0 (x) = 1,
T1 (x) = x,
T2 (x) = 2x2 − 1,
T3 (x) = 4x3 − 3x,
....
(c) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2e−x ([0, +∞[) mit dem Skalarprodukt
Z
hf |gi :=
+∞
f (x) g(x)e−x dx
0
liefert die Laguerre-Polynome
Ln (x) = ex
1
1
1
-1
dn n −x
(x e ),
dxn
n ∈ N0 ;
1
1
1
1
-1
1
-1
-1
Abbildung 5.24: Graphen von e−x/2 Ln (x) für die ersten Laguerre-Polynome Ln (n = 0, 1, 2, 3).
L0 (x) = 1,
L1 (x) = −x + 1,
L2 (x) =
1 2
(x − 4x + 2),
2
L3 (x) =
1
(−x3 + 92 − 18x + 6),
6
Ohne die Gewichtsfunktion ρ(x) = e−x würde dieser Hilbert-Raum keine Polynme enthalten.
....
299
KAPITEL 5. LINEARE ALGEBRA
(d) Gram-Schmidt-Orthonormalisierung für {1, x, x2 , . . .} in L2e−x2 (] − ∞, +∞[) mit dem Skalarprodukt
Z
+∞
2
f (x) g(x)e−x dx
hf |gi :=
−∞
liefert die Hermite-Polynome
Hn (x) = (−1)n ex
1
-1
dn −x2
(e
),
dxn
1
1
-1
-1
−x2
1
-1
H1 (x) = 2x,
1
1
-1
-1
/2
√ Hn (x)
2n n! π
H0 (x) = 1,
n ∈ N0 ;
1
-1
Abbildung 5.25: Graphen von √e
3
2
1
-1
für die ersten Hermite-Polynome Hn (n = 0, 1, 2, 3).
H2 (x) = 4x2 − 2,
H3 (x) = 8x3 − 12x,
....
Kontinuierliche Fourier-Transformation
3.1 Fourier-Transformation. Jetzt wollen wir ein Signal f : R → C in sein RFrequenz-Spektrum zerle+∞
gen, ohne die Periodizität von f anzunehmen. Um die Existenz der Integrale −∞ f (t)e−ikt dt sicherzustellen, fordern wir die Konvergenz des uneigentlichen Integrals
Z +∞
|f (t)| dt.
−∞
Den Raum aller Regelfunktionen für die dieses Integral existiert bezeichnen wir mit R1 (R). Die durch
Z +∞
1
f (t)e−ixt dt
für x ∈ R
fb(x) := √
2π −∞
definierte Funktion fb: R → C heißt dann die Fourier-Transformierte von f .
3.2 Zur Notation. In der Literatur sind statt des obigen Integrals auch die Integrale
Z +∞
Z +∞
f (t)e−ixt dt,
f (t)e−2πixt dt
−∞
−∞
zusammen mit verschiedenen Vorfaktoren gebräuchlich. Inhaltlich wird sich dabei nichts ändern, lediglich
die Formeln bekommen eine etwas andere Gestalt.
3.3 Interpretation der Fourier-Transformierten. Unter fb(x) stellen wir uns wieder die (komplexe)
Amplitude vor, mit der die reine Schwingung
ex : t 7→ eixt
in f vertreten ist.
300
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
Zur Veranschaulichung dieser Sichtweise betrachten wir ein Signal f , dessen Wert f (t) während eines
längeren Zeitintervalls [c, d] mit der Kreisfrequenz x und den Ursprung herumläuft, während der restlichen Zeit aber kaum messbar ist. Dann ist arg(f (t)e−ixt ) für t ∈ [c, d] im wesentlichen konstant, das
Rd
Integral c f (t)e−ixt
R dt hat also einen großen Betrag, da sich beim Aufsummieren kaum etwas weghebt.
Das Restintegral Rr[c,d] f (t)eixt dt dagegen kann vernachlässigt werden: für t ∈ R r [c, d] ändert sich
f (t) nämlich im Gegensatz zum schnell und harmonisch oszillierenden ex (t) kaum, so dass sich bei der
Integration fast alles weghebt.
3.4 Beispiele. Wir berechnen zwei wichtige Fourier-Transformierte.
(a) Die durch
f (t) := χ[−1,1] (t) =

1 für |t| ≤ 1,
0 für |t| > 1
R +∞
R1
definierte Treppenfunktion f gehört wegen −∞ |f (t)| dt = −1 1 dt = 2 zu R1 (R). Ihre Fourier-Transformierte berechnet sich mit Hilfe der Sinc-Funktion zu
r
2 sin(x)


für x 6= 0,

Z +∞
Z 1

π x
1
1
−ixt
−ixt
b
.
f (t)e
dt = √
e
dt = r
f (x) = √

2π −∞
2π −1

2


für x = 0
π
Es gilt also
r
fb(x) =
2
sinc(x)
π
für x ∈ R.
1
1
0.5
f
-1
1
-10
fb =
-5
5
p
2/π sinc
10
Abbildung 5.26: Die Sinc-Funktion als Fourier-Transformierte.
2
(b) Für a > 0 liegt die durch ga (t) := e−at definierte Funktion g in R1 (R). Ihre Fourier-Transformierte
können wir mit Hilfe der aus 4.§6.3.8 bekannten Formel
Z
+∞
2
e−u
/2
du =
√
2π
−∞
(die allerdings erst in 6.§2.3.5 bewiesen werden kann) und einer Substitution u :=
gba (x)
=
=
=
√
ix
2a(t+ 2a
) ausrechnen:
Z +∞
Z +∞
ix 2
x2
1
1
−at2 −ixt
√
e
e
dt = √
e−a(t+ 2a ) − 4a dt
2π −∞
2π −∞
Z
1 −x2 /(4a) +∞ −[√2a(t+ ix )]2 /2
2a
√ e
e
dt
2π
−∞
Z +∞
2
2
2
2
1
du
1
1 √
1
√ e−x /(4a)
e−u /2 √ = √ e−x /(4a) √
2π = √ e−x /(4a) .
2π
2a
2π
2a
2a
−∞
301
KAPITEL 5. LINEARE ALGEBRA
1
0.5
-5
5
2
Abbildung 5.27: Für g1/2 (t) = e−t
/2
gilt g1/2 = gd
1/2 .
Insbesondere gilt also
g1/2 = gd
1/2
2
für g1/2 (t) = e−t
/2
.
3.5 Stetigkeit der Fourier-Transformierten. In Beispiel (a) haben wir eine unstetige Funktion mit
einer stetigen Fourier-Transformierten kennengelernt. Das ist kein Zufall, es gilt nämlich der folgende
Satz.
Für jede Funktion f ∈ R1 (R) ist die Fourier-Transformierte fb auf ganz R stetig.
R +∞
Beweis∗ . Ist f ∈ R1 (R), so existiert ein M > 0 mit −∞ |f (t)| dt ≤ M . Sei a ∈ R und sei ε > 0. Setzen
√
wir δ := 2πε/M , so gilt wegen e−ixt − e−iat = e−i(x+a)t/2 (e−i(x−a)t/2 − ei(x−a)t/2 ) und | sin(t)/t| ≤ 1
für t ∈ R r {0} für alle x ∈ R mit |x − a| < δ im Fall x 6= a dann
Z
Z
1 +∞
1 +∞
−ixt
−iat
−i(x−a)t/2
i(x−a)t/2
b
b
|f (x) − f (a)| = √ f (t)(e
−e
) dt = √ f (τ )(e
−e
) dt
2π −∞
2π −∞
Z +∞
Z +∞
2 sin( x−a
)
1
2
· |x − a| dt ≤ √1
≤ √
|f (t)| · |f (t)| dt|x − a|
x−a 2π −∞
2π −∞
M
≤ √ |x − a| < ε.
2π
Für x = a ist diese Ungleichung sowieso wahr. Also ist fb in a stetig.
3.6 Fourier-Rücktransformation. Wieder stellt sich die Frage, ob eine Funktion f ∈ R1 (R) aus ihrer
Fourier-Transformierten fb zurückgewonnen werden kann. Wünschenswert wäre eine Darstellung der Art
Z +∞
1
√
fb(x)eixt dx,
2π −∞
bei der f (t) durch Aufsummieren der reinen Schwingungen ex mit den zugehörigen Amplituden fb(x)
synthetisiert wird. Der Frequenzvorrat ist diesmal nicht diskret wie im periodischen Fall, sondern wir
benötigen ex für alle Frequenzen x ∈ R.
Auch wenn wir wissen, dass für jedes f ∈ R1 (R) die Fourier-Transformierte fb auf ganz R stetig ist, so ist
a priori nicht klar, ob das obige Integral überhaupt gebildet werden kann. So gehört die Sinc-Funktion
beispielsweise nicht zu R1 (R). Setzt man seine Existenz aber voraus, so erhalten wir folgendes Analogon
zum Satz von Dirichlet 5.§7.1.7 (vgl. [Kön, Band 2 §10.2]).
Für jede Funktion f ∈ R1 (R) mit fb ∈ R1 (R) gilt
1
f (t) = √
2π
für jeden Punkt t ∈ R, in dem f stetig ist.
Z
+∞
−∞
fb(x)eixt dx
302
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
3.7 Glattheit der Funktion und Fallen der Fourier-Transformierten. Wie schon im periodischen
Fall besteht ein Zusammenhang zwischen der Glattheit der Ausgangsfunktion und der ihrer FourierTransformierten. Wir notieren hierzu zwei Sätze. Der erste besagt, dass für eine schnell fallende Funktion
die Fourier-Transformierte differenzierbar wird, der zweite, dass für eine differenzierbare Funktion die
Fourier-Transformierte schnell fällt.
R +∞
(c) Existiert zu f ∈ R1 (R) ein n ∈ N, so dass −∞ |tn f (t)| dt konvergiert, so besitzt f eine n-mal stetig
differenzierbare Fourier-Transformierte fb und es gilt
kf
fb(k) = (−i)k td
für k = 1, 2, . . . , n.
(d) Ist f ∈ C n (R) eine Funktion mit f (k) ∈ R1 (R) für k = 0, 1, . . . , n, so gilt
(k) = (ix)k fb
fd
für k = 1, 2, . . . , n.
Beweis∗ . Zu (c): Wir behandeln nur den Fall n = 1 aus dem durch Induktion der allgemeine Fall folgt.
Zunächst gilt
Z +∞
e−i(x+h)t − e−ixt
1
fb(x + h) − fb(x)
0
b
√
= lim
f (t)
dt.
f (x) = lim
h→0
h→0
h
h
2π −∞
R +∞
Die Konvergenz von −∞ |tf (t)| dt erlaubt eine gliedweise Integration (vgl. 4.§6.2.3) und liefert
Z +∞
Z +∞
1
1
e−ixt − e−i(x+h)t
0
b
b (x).
dt = √
f (x) = √
f (t) lim
f (t)(−it)e−ixt dt = −itf
h→0
h
2π −∞
2π −∞
Aus dieser Darstellung als Fourier-Transformierte folgt auch die Stetigkeit von fb0 .
Rt
Zu (d): Wieder genügt die Betrachtung von n = 1. Aus f (t) = f (0) + 0 f 0 (τ ) dτ und der Integrierbarkeit
von f 0 über R folgt die Existenz von limt→∞ f (t) und limt→−∞ f (t). Diese Grenzwerte müssen dann beide
verschwinden, sonst wäre f nicht über R integrierbar. Eine partielle Integration liefert nun wie behauptet
Z +∞
Z +∞
ix
1
f 0 (t)e−ixt dt = √
f (t)e−ixt dt = ixfb(x).
fb0 (x) = √
2π −∞
2π −∞
3.8 Fourier-Transformation algebraisiert. Die Fourier-Transformation übersetzt also die Differentiation in die Multiplikation mit ix. Ähnliches haben wir schon in 4.§6.4.7 bei der Laplace-Transformation
erlebt. Dank dieser „Algebraisierung“ kann auch die Fourier-Transformation zum Lösen von Differentialgleichungen eingesetzt werden.
3.9∗ Wie geht es weiter?. Unser Hauptanliegen in diesem Abschnitt ist das Abtast-Theorem von Shannon, auch Sampling Theorem genannt. Hier geht es um eine überraschende Antwort auf folgende Frage:
Kann man ein Zeitsignal f aus diskreten Werten {f (kT ) | k ∈ Z} rekonstruieren? Im Allgemeinen ist
das natürlich unmöglich. In den offenen Intervallen zwischen den Messpunkten kT , k ∈ Z, kann sich f
ja noch ganz beliebig verhalten. Unter einer — für die technischen Anwendungen oft unbedenklichen —
Zusatzannahme gelingt die Rekonstruktion aber doch.
Wir stellen jetzt zuerst das notwendige Vokabular bereit und formulieren dann das Abtast-Theorem.
3.10∗ Bandbegrenzte Funktionen. Eine Funktion f ∈ R1 (R) heißt Ω-bandbegrenzt für ein Ω > 0,
wenn ihre Fourier-Transformierte fb außerhalb des Intervalls [−Ω, Ω] verschwindet:
fb(x) = 0
für |x| > Ω.
Die kleinste Zahl Ω ≥ 0 mit dieser Eigenschaft wird Bandbreite von f genannt. Eine Funktion heißt
bandbegrenzt, wenn sie Ω-bandbegrenzt ist für ein Ω > 0.
303
KAPITEL 5. LINEARE ALGEBRA
3.11∗ Träger einer Funktion. Für eine Funktion g : R → C wird der Abschluss der Menge {x ∈ R |
g(x) 6= 0} der Träger von g genannt.
Eine Funktion ist also genau dann bandbegrenzt, wenn ihre Fourier-Transformierte einen kompakten
Träger besitzt.
f
fb
Abbildung 5.28: Eine bandbegrenzte Funktion: die Fourier-Transformierte hat kompakten Träger.
3.12∗ Abtast-Theorem von Shannon. Eine stetige Ω-bandbegrenzte Funktion f ∈ R1 (R) kann für
jedes T ∈]0, π/Ω[ aus den Werten f (kT ), k ∈ Z, rekonstruiert werden. Für alle t ∈ R gilt
f (t) =
∞
X
k=−∞
π
(t − kT ) .
f (kT ) sinc
T
Man nennt π/T die Nyquist-Frequenz zum Abtastintervall T .
Beweis∗ . Ist f bandbegrenzt, so ist fb sicher über R integrierbar. Daher ist eine Rücktransformation 3.6
möglich, und es gilt (da f außerhalb von [−π/T, π/T ] verschwindet)
Z +∞
Z π/T
Z π 1
1
1
τ
dτ
f (t) = √
.
fb(x)eixt dx = √
fb(x)eixt dx = √
fb
eiτ t/T
T
T
2π −∞
2π −π/T
2π −π
Wir betrachten die 2π-periodischen Funktionen F, Et : R → C, die im Periodenintervall [−π, π[ durch
√
2π b τ F (τ ) :=
f
,
Et (τ ) := e−iτ t/T
T
T
festgelegt sind. Für ihre Fourier-Koeffizienten gilt dann nach obiger Formel und Beispiel 3.4 (a)
Z π √
1
2π b τ −ikτ
Fb(k) =
f
e
dτ = f (−kT ),
2π −π T
T
Z π
π
ct (k) = 1
e−iτ t/T e−ikτ dτ = sinc
(t + kT ) ,
E
2π −π
T
Z π
1
f (t) =
F (τ )Et (τ ) dτ.
2π −π
Mit der allgemeinen Parsevalschen Gleichung §7.2.5 und der Ersetzung von k durch −k folgt nun
Z π
∞
π
X
1
f (t) =
F (τ )Et (τ ) dτ =
f (kT ) sinc
(t − kT ) .
2π −π
T
k=−∞
3.13∗ Anmerkungen zum Abtast-Theorem. Eine stetige bandbegrenze Funktion lässt sich also aus
ihren Werten auf einem genügend feinen Raster rekonstruieren. Gerade in der Tonübertragung ist eine
Beschränkung auf solche Funktionen kein Verlust — unser Gehör nimmt sowieso nur Töne bis zu einer
bestimmten Frequenz wahr. Die Mathematik steuert dann die Grundlage zur verlustlosen Digitalisierung
des Klangerlebnisses bei.
304
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
Im Abtast-Theorem ist die Feinheit des Abtastrasters wesentlich. Ist f bandbegrenzt mit Bandbreite Ω,
so hat jede in f auftretende reine Schwingung ex eine Schwingungsdauer von mindestens 2π/Ω. Das
Abtast-Theorem sagt, dass für ein vollständiges Klangerlebnis die Länge T des Abtastintervalls so klein
gewählt werden muss, dass jede auftretende reine Schwingung mindestens zweimal pro Periode erfasst
wird: die Nyquist-Frequenz muss größer als die Bandbreite sein.
3.14∗ Kardinalreihen. Die im Abtast-Theorem zur Rekonstruktion von f verwendete Reihe ist von
der Bauart
∞
X
ak sinc(t − kπ).
k=−∞
Solche Reihen werden Kardinalreihen genannt. Man kann davon ausgehen, dass eine Verfeinerung des
Abtastrasters — sogenanntes Oversampling — zu einer besseren Konvergenz der zugehörigen Kardinalreihe führt. Beim Undersampling dagegen wird das Abtastraster zu grob, d.h. die Nyquist-Frequenz zu
klein, gewählt. Dann treten unerwünschte Effekte wie das Aliasing auf.
3.15 Fourier-Transformierte bei Verschiebung, Stauchung, Modulierung. Zum Schluss dieses
Abschnitts wollen wir kurz untersuchen, wie sich die Fourier-Transformierte ändert, wenn die zu transformierende Funktion einer einfachen Operation, beispielsweise einer Verschiebung, einer Stauchung oder
einer Modulierung mit einer reinen Schwingung, unterzogen wird.
Für f : R → C definieren wir durch
Th [f ](t)
Mξ [f ](t)
Da [f ](t)
:= f (t − h)
für h ∈ R,
:= eξ (t)f (t) = eiξt f (t)
:= f at
für ξ ∈ R,
für a > 0
drei weitere Funktionen Th [f ], Mξ [f ], Da [f ] : R → C. Offensichtlich liegen mit f auch diese drei Funktionen in R1 (R). Für h > 0 bewirkt Th eine Verschiebung des Graphen von f nach rechts. Durch Mξ
wird f mit einer reinen Schwingung moduliert. Die Operation Da zieht den Graphen von f für a > 1 in
die Breite, für 0 < a < 1 wird er dagegen horizontal gestaucht.
f
Th [f ]
Da [f ]
f
Abbildung 5.29: Translation Th und Dilatation Da einer Funktion.
Was mit den Fourier-Transformierten geschieht, wenn f einer dieser drei Operationen unterworfen wird,
können wir uns durch einfaches Anwenden der Substitutionsregel 4.§6.3.10 überlegen.
Für f ∈ R1 (R) gilt
:= e−h (x)fb(x) = e−ihx fb(x)
für h ∈ R,
\
M
ξ [f ](x)
:= fb(x − ξ)
für ξ ∈ R,
\
D
a [f ](x)
:= aD1/a [fb](x) = afb(ax)
für a > 0.
T[
h [f ](x)
Statt der langweiligen Rechnung für den Beweis machen wir uns geometrisch klar, was geschieht.
305
KAPITEL 5. LINEARE ALGEBRA
• Wird f auf der t-Achse um h verschoben, so wird fb mit dem Faktor e−h moduliert.
• Wird f mit eξ moduliert, so verschiebt sich fb um ξ auf der x-Achse.
• Wird der Graph von f mit dem Faktor a > 1 in die Breite gezogen (bzw. für 0 < a < 1 um den
Faktor a gestaucht), so wird der Graph von fb mit dem Faktor 1/a < 1 horizontal gestaucht (bzw.
mit dem Faktor 1/a > 1 horizontal gestreckt) und zusätzlich mit dem Faktor a vertikal gestreckt
(bzw. gestaucht).
3.16 Beispiel. Die drei eben diskutierten Operationen sind bei der Berechnung von Fourier-Transformierten nützlich.
Zum Beleg hierfür bestimmen wir die Fourier-Transformierte der durch f (t) := e−2t(t+1) definierten
2
2
Funktion f ∈ R1 (R). Es gilt f (t) = e1/2 e−(2t+1) /2 . Setzen wir g(t) := e−t /2 für t ∈ R, so erhalten
1/2
wir für f die Darstellung f = e T−1 [D1/2 [g]]. Die Fourier-Transformierte von g ist aus Beispiel 3.4 (b)
2
bekannt, sie lautet gb(x) = e−x /2 . Damit folgt
2
2
1
1
1
1/2 1 ix/2
x
e
fb(x) = e1/2 T−1\
[D1/2 [g]](x) = e1/2 T\
gb( x2 ) = e1/2 eix/2 e−x /8 = e−(x−2i) /8 .
−1 [g]( 2 ) = e
2
2
2
2
3.17 Faltung von Funktionen (Version für Fourier-Transformation). Ein weiteres nützliches
Hilfsmittel, um aus bekannten Fourier-Transformierten weitere zu erhalten, benutzt die „Faltung“ von
Funktionen, welche als eine etwas eigentümliche Art von Produktbildung angesehen werden kann. Die
Faltung ist uns schon von der Laplace-Transformation bekannt, wurde dort (4.§6.4.8) aber in einer für die
dortigen Zwecke angepassten Form eingeführt (die im wesentlichen der Tatsache Rechnung trägt, dass bei
der Laplace-Transformation Funktionen immer auf dem Definitionsbereich [0, +∞[ betrachtet werden).
Existiert für zwei Funktionen f, g ∈ R1 (R) das Integral
Z ∞
(f ∗ g)(t) :=
f (τ )g(t − τ ) dτ
−∞
für alle t ∈ R, so wird die hierdurch definierte Funktion f ∗ g : R → C die Faltung von f und g genannt.
3.18 Faltungssatz für die Fourier-Transformation. Die Fourier-Transformierte der Faltung zweier
Funktionen ist nun einfach das Produkt der Fourier-Transformierten der gefalteten Funktionen.
Sind f, g ∈ R1 (R) Fourier-transformierbar, existiert die Faltung f ∗ g und ist sie Fourier-transformierbar,
so gilt
√
f[
∗ g = 2π fbgb.
Die zum Beweis notwendige Rechnung erscheint verführerisch einfach. Definitionsgemäß gilt
Z +∞ Z +∞
1
\
(f ∗ g)(x) = √
f (τ )g(t − τ ) dτ e−ixt dt
2π −∞
−∞
Z ∞ Z ∞
1
= √
f (τ )e−ixτ g(t − τ )e−ix(t−τ ) dτ dt.
2π −∞
−∞
Wenn wir nun die Reihenfolge der Integration vertauschen dürften, so erhielten wir
Z ∞
Z ∞
1
−ixτ
−ix(t−τ )
\
(f ∗ g)(x) = √
f (τ )e
g(t − τ )e
dt dτ
2π −∞
−∞
Z ∞
√
f (τ )e−ixτ gb(x) dτ = 2π fb(x)b
=
g (x).
−∞
Tatsächlich ist diese Vertauschung erlaubt. Die Rechtfertigung hierfür erfordert aber Ergebnisse der mehrdimensionalen Integrationstheorie (Satz von Fubini, 6.§2.2.5), die uns erst später zur Verfügung stehen.
306
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
Beispiel. (e) Die Faltung des aus Beispiel 3.4 (a) bekannten Rechteckimpulses f = χ[−1,1] ∈ R1 (R) mit
sich selbst erhalten wir nach kurzer Rechnung zu
(
Z 1
Z ∞
2 − |t| für |t| ≤ 2,
f (t − τ ) dτ =
f (τ )f (t − τ ) dτ =
(f ∗ f )(t) =
0
für |t| > 2.
−1
−∞
Damit ist f ∗ f ein Dreieckimpuls. Die Fourier-Transformierte lautet wegen fb =
r
f[
∗f =
p
2/π sinc dann
8
sinc2 .
π
3.19 Fazit. Außer dem Abtast-Theorem von Shannon hat uns dieser Abschnitt nicht Überraschendes
gebracht. Das meiste begegnet uns schon bei der Fourier-Transformation periodischer Funktionen. Auch
das Fazit über die Stärken und Schwächen bleibt erhalten: die Fourier-Transformation behandelt eine
Funktion als ein Gesamtobjekt. Man erkennt an ihr nur, wie glatt die transformierte Funktion höchstens
sein kann, aber nicht, wo sie sich unangenehm erhält. Weist eine Funktion eine regelmäßige Textur auf,
so kann sie gut Fourier-transformiert werden. Die Fourier-Transformierte fällt dann schnell und eignet
sich gut zur Datenkompression.
Mit diesem Wissen über die Fourier-Transformation und der Kenntnis der drei Operationen Th , Mξ und
Da sind wir in der Lage, die Grundidee der Wavelet-Transformation zu verstehen.
4∗
Wavelet-Transformation
4.1 Grundidee der Wavelet-Transformation. Die Fourier-Transformation erlaubt die Analyse komplexwertiger Zeitsignale und zehrt dabei von den überragenden Eigenschaften der Funktion t 7→ eit .
Selbige wird mit einem rellen Frequenzparameter x zu ex : t 7→ eixt dilatiert.
Die Grundidee der Wavelet-Transformation besteht darin, dass man als Abfragemuster statt den Dilatationen ex von e1 ein „Wavelet“ verwendet, welches einerseits der Schwingungscharakter von ex erhält,
andererseits eine Lokalisierung ermöglicht. Letztlich ist nämlich die Periodizität von ex für die Stärken
und Schwächen der Fourier-Transformation verantwortlich.
4.2 Definition: Wavelet. Eine Funktion ψ : R → C heißt Wavelet oder Mutter-Wavelet, wenn ψ und
|ψ|2 über R integrierbar sind mit
Z
+∞
Z
ψ(τ ) dτ = 0
−∞
∞
und
|ψ(τ )|2 dτ = 1.
−∞
Die zu diesem Mutter-Wavelet durch Dilatation und Verschiebung gebildeten Funktionen
t−b
1
,
a ∈ R+ , b ∈ R,
ψa,b : R → C,
ψa,b (t) := √ ψ
a
a
werden Wavelet-Funktionen genannt, a heißt Skalenparameter, b Verschiebungsparameter.
Ein typisches Mutter-Wavelet ψ mit kompaktem Träger hat die in Bild 5.30 gezeigte Form. Der Skalenparameter a bewirkt, dass die Breite des Abfragemusters bzw. -fensters proportional zu a wächst und im
Abfragefenster immer eine vollständige Kopie des analysierenden Wavelets sichtbar ist. Skalenparameter
a > 1 liefern breite Abfragefenster und erfassen langsame Vorgänge. Skalenparameter a mit 0 < a <
√1
liefern schmale Fenster und fangen hochfrequente bzw. kurzlebige Phänomene ein. Der Vorfaktor 1/ a
beim Bilden der Wavelet-Funktionen ist technischer Natur.
307
KAPITEL 5. LINEARE ALGEBRA
1
ψ = ψ1,0
-1
1
2
3
-1
ψ2,1
-1
1
1
2
3
-1
ψ1/2,2
1
2
3
-1
Abbildung 5.30: Ein Mutterwavelet ψ und zugehörige Wavelet-Funktionen ψa,b mit großem bzw. kleinem
Skalierungsfaktor.
4.3 Wavelet-Transformation. Die Wavelet-Transformierte eines Zeitsignals f wird in Analogie zur
Fourier-Transformierten durch
Z ∞
1
τ −b
W[f ] : R+ × R → C,
W[f ](a, b) := √
f (τ ) ψ
dτ
a
a −∞
gebildet.
Ein gegebenes Zeitsignal einer reellen Variablen t wird also als eine Funktion W[f ] von zwei reellen
Veränderlichen kodiert. Damit ist f im Datensatz
{W[f ](a, b) : a ∈ R+ , b ∈ R}
hochredundant abgespeichert. Dies erleichtert die Rekonstruktion des Ausgangssignals f aus W[f ] ungemein. Tatsächlich gibt es nicht nur eine Umkehrformel (wie bei der Fourier-Transformation), sondern
beliebig viele.
4.4 Diskrete Wavelet-Transformation. Bei vielen Wavelets kann man sogar den Datensatz diskretisieren und trotzdem f vollständig rekonstruieren. Für die Wavelet-Transformation existiert also ebenfalls
ein Abtast-Theorem, diesmal sogar für beliebige (und nicht nur für bandbegrenzte) Funktionen. Als
Dreingabe erhält man effektive Kompressionsmethoden, schnelle Algorithmen zur Berechnung der Waveletkoeffizienten bzw. zur Synthese des Signals.
4.5 Wavelet-Gitter. Für die Diskretisierung im Frequenzbereich erweist sich eine logarithmische Skala,
wie sie von der Akustik bekannt ist, als geeignet. Gleiche Tonschritte gehören zu gleichen Frequenzverhältnissen, nicht zu gleichen Frequenzdifferenzen. Der diskretisierte Skalenparameter a hat also die Form
a = σ r , r ∈ Z, mit einem Zoomschritt σ > 1. Der Verschiebungsparameter b muss entsprechend angepasst
werden: ist der Skalenparameter fein diskretisiert, so muss es auch der zugehörige Verschiebungsparameter
sein. Man erhält als Gitterpunkte die in Abbildung 5.31 (Waveletgitter ) gezeigten Paare
(a, b) = (σ r , kσ r β),
r, k ∈ Z,
308
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
mit fest gewähltem Zoomschritt σ > 1 und Grundschrittweite β > 0.
a
σ1
σ0
(σ, σβ)
(1, β)
(σ, 2σβ)
(σ, 3σβ)
(1, 2β)
σ −1
0
b
Abbildung 5.31: Abtastgitter für eine diskrete Wavelet-Transformation.
4.6 Wavelet-Koeffizienten. Der zu einer diskreten Wavelet-Transformierten gehörige Datensatz hat
dann die Form
{W[f ](σ r , kσ r β) : r, k ∈ Z},
und zur Rücktransformation werden nur die Wavelet-Koeffizienten
cr,k := W[f ](σ r , kσ r β) =
1
σ r/2
Z
∞
f (τ )ψ
−∞
τ − kσ r β
σr
dτ,
r, k ∈ Z,
benötigt.
4.7 Datenkompression und Wavelet-Synthese. Wie bei der diskreten Fourier-Transformation wird
die Datenkompression dadurch erzielt, dass man nur Wavelet-Koeffizienten überträgt, die einen gewissen
Schwellenwert übersteigen. Diesmal werden aber hierbei nicht nur die „wesentlichen“ Frequenzen, sondern
auch die wesentlichen Kanten übertragen.
Auf Details der Wavelet-Synthese können wir aus Zeitgründen leider nicht weiter eingehen (Interessierte
seien z.B. auf [Bla] verwiesen). Dafür wiederholen wir die obigen Ausführungen nochmal an Hand des
folgenden Szenarios. Wir betrachten ein reales Bild- oder Tondokument. Selbiges enthält typischer Weise
einerseits Regionen hoher Informationsdichte und andererseits informationsarme Bereiche. (Man stelle
sich ein Haus mit grobem Verputz vor grauem Hintergrund vor.) Analysieren wir dieses Bild mit einer
Wavelet-Transformation, so können wir leicht diejenigen Wavelet-Koeffizienten herausfiltern, die einen
gewissen Schwellenwert überschreiten. Nur diese Koeffizienten werden übermittelt. Hierbei dürfen wir eine
hohe Datenkompression erwarten, weil ja von jedem Teil des Bildes soviel Inhalt übermittelt wird, wie
dort vorhanden ist. Die Bildauflösung wird also dynamisch der wechselnden Informationsdichte angepasst.
309
KAPITEL 5. LINEARE ALGEBRA
Abbildung 5.32: Rekonstruktion eines Bildes aus einem diskreten Satz von Wavelet-Koeffizienten.
4.8 Haar-Wavelet. Für das Weitere beschränken wir uns auf das durch
ψHaar (t) :=



1



für 0 ≤ t <
1
,
2
1
−1 für ≤ t < 1,


2



0
für t < 0 oder t ≥ 1
definierte Haar-Wavelet. An ihm kann man die Grundideen der Wavelet-Theorie studieren und die schnellen Algorithmen zur Wavelet-Analyse illustrieren.
310
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
Das Haar-Wavelet ist zwar unstetig, aber im Zeitbereich gut lokalisiert. Nach kurzer Rechnung erhalten
wir seine Fourier-Transformierte zu
!
Z 1
Z 1/2
1
−ixτ
−ixτ
√
e
dτ
e
dτ −
ψ\
Haar (x) =
2π
1/2
0
1/2
1 !
1
1 sin2 ( x4 ) −ix/2
e−ixτ e−ixτ √
= √
=
−
e
.
x
−ix 0
−ix 1/2
2π
2π
4
Wir erkennen, dass |ψ\
Haar | eine gerade Funktion ist, die ihr Maximum an der Stelle x0 = 4, 662 . . . erreicht
und für |x| → ∞ wie 1/x fällt. Damit ist ψ\
Haar selbst ziemlich gut bei der Frequenz x0 lokalisiert.
0.4
1
0.2
ψHaar
-1
1
−8π
−4π
0
|ψ\
Haar |
x0
4π
8π
-1
Abbildung 5.33: Das Haar-Wavelet ψHaar und der Betrag seiner Fourier-Transformierten ψ\
Haar .
4.9 Diskrete Wavelet-Transformation mit dem Haar-Wavelet. Wir zeigen nun konstruktiv, dass
das Haar-Wavelet eine diskrete Wavelet-Transformation zulässt. Dabei erhalten wir einen schnellen Algorithmus zur diskreten Wavelet-Transformation. Man vergleiche mit §7.2.5.
Die zum Haar-Wavelet ψHaar gehörigen Wavelet-Funktionen
1
t + k2r
,
ψHaar r,k (t) := r/2 ψHaar
2r
2
r, k ∈ Z,
bilden ein Orthonormalsystem bezüglich des Skalarprodukts
Z ∞
hf, gi :=
f (τ )g(τ ) dτ
−∞
auf dem R1 (R). Jede Funktion f ∈ R1 (R) kann im quadratischen Mittel, d.h. im Sinne der Norm
kf k :=
p
Z
1/2
∞
2
hf, f i =
|f (τ )| dτ
,
−∞
beliebig genau durch endliche Linearkombinationen diese Wavelet-Funktionen approximiert werden: zu
jedem ε > 0 existieren Zahlen r1 , r2 , k1 , k2 ∈ Z und komplexe Koeffizienten λr,k , r = r1 , r1 + 1 . . . , r2 ,
k = k1 , k1 + 1 . . . , k2 , mit
kf − Ψk < ε,
Ψ(t) :=
r2 X
k2
X
r=r1 k=k1
λr,k ψr,k (t).
311
KAPITEL 5. LINEARE ALGEBRA
Beweis. Wir schreiben ψ statt ψHaar . Durch Nachrechnen verifiziert man, dass durch die angegebenen
Formeln für hf, gi und kf k ein Innenprodukt sowie eine Norm auf dem R1 (R) definiert werden.
Wir zeigen zunächst, dass die ψr,k , r, k ∈ Z, ein Orthonormalsystem bilden: Für k 6= l besitzen die
Wavelet-Funktionen ψr,k und ψr,l disjunkte Träger. Damit gilt hψr,k , ψr,l i = 0 für k 6= l. Ist r < s, so ist
ψs,l auf dem Träger
R ∞ von ψr,k konstant. Also gilt hψr,k , ψs,l i = 0 für s 6= r und beliebige k, l. Zusammen
mit kψr,k k2 = −∞ |ψr,k (τ )|2 dτ = 1 folgt nun die Orthonormalität der ψr,k .
ψr,k
ψr,l
ψr,k
ψs,l
k2r
(k+1)2r
l2r
l2s
(l+1)2r
k2r
Abbildung 5.34: Zur Orthonormalität der ψr,k .
Nun müssen wir noch zeigen, dass jede Funktion f ∈ R1 (R) im quadratischen Mittel beliebig genau durch
endliche Linearkombinationen der Wavelet-Funktionen ψr,k (kurz: Wavelet-Polynome) approximiert werden kann. Indem man f zunächst durch Treppenfunktionen approximiert (vgl. Satz 4.§4.1.11), kann man
sich hierbei auf Funktionen f der folgenden Bauart beschränken: Es gibt Zahlen m, n ∈ Z mit
(i) f (t) = 0 für |t| > 2m ,
(ii) f ist eine Treppenfunktion und im Inneren von Intervallen der Form I−n,k := [k2−n , (k + 1)2−n ],
k ∈ Z, konstant.
Wir konstruieren nun eine Folge von Wavelet-Polynomen
R
X
ΨR :=
k2
X
λr,k ψr,k
r=−n+1 k=k1
indem wir, beginnend mit den feinsten Sprüngen von f , Schritt für Schritt immer langwelligere Anteile
aus dem noch „unerledigten Rest“ fR := f − ΨR heraussieben. Die langwelligsten Anteile von f werden
also zuletzt behandelt, gerade umgekehrt wie bei der Fourier-Analyse.
Wir beginnen die Konstruktion bei R = −n mit Ψ−n := 0 und f−n := f . Für den Schritt von R nach
R + 1 treffen wir folgende Annahmen.
A(R) Für das Wavelet-Polynom ΨR und den Rest fR gilt f = ΨR + fR .
B(R) fR ist auf den Intervallen IR,k := [k2R , (k + 1)2R ], k ∈ Z, konstant mit Wert fR,k . Dieser Wert
fR,k ist dabei der Mittelwert von f auf IR,k .
Um fR+1 zu erhalten, mitteln wir fR auf zwei benachbarten Intervallen wie in Abbildung 5.35 skizziert.
D.h. wir setzen
fR+1 (t)
:=
ΨR+1 (t)
:=
fR,2k + fR,2k+1
für t ∈ IR+1,k ,
2
X fR,2k − fR,2k+1
ΨR (t) +
2(R+1)/2 ψR+1,k (t).
2
k
Dann gelten offensichtlich die Aussagen A(R + 1) und B(R + 1), und wir können im nächsten Approximationsschritt mit fR+1 und ΨR+1 fortfahren.
312
§7. FOURIER-ANALYSIS UND HILBERT-RÄUME
fR,2k
fR+1,k
fR,2k+1
IR+1,k
}|
z
2k2R
|
{
(2k + 1)2R
}|
{z
IR,2k
(2k + 2)2R
}
{z
IR,2k+1
Abbildung 5.35: Approximationsschritt bei der Approximation einer Treppenfunktion durch WaveletPolynome zum Haar-Wavelet.
Nach n + m Schritten sind wir bei einer Darstellung f = fm + Ψm angelangt, in welcher der Rest fm im
Inneren der beiden Intervallen [−2m , 0] und [0, 2m ] jeweils konstant ist und als Wert jeweils den Mittelwert
von f auf dem entsprechenden Intervall annimmt, ansonsten aber verschwindet. Wir bezeichnen diese
beiden Mittelwerte mit A und B.
Setzen wir das Verfahren an diesem Punkt wie beschrieben fort, so ist nach p weiteren Schritten fm+p
im Inneren der beiden Intervalle [−2m+p , 0] und [0, 2m+p ] konstant mit Werten fm+p,−1 = A/2p bzw.
fm+p,0 = B/2p und verschwindet außerhalb von [−2m+p , 2m+p ]. Daher gilt
Z
kf − Ψm+p k
∞
= kfm+p k =
|fm+p (τ )|2 dτ
1/2
−∞
=
2
(m+p)/2
|B|2
|A|2
+
22p
22p
1/2
= 2m/2
p
|A|2 + |B|2
1
2p/2
,
und wir erhalten für p → ∞ tatsächlich kf − Ψm+p k → 0.
4.10 Analyse des Beweises aus algorithmischer Sicht. Der erste Approximationsschritt in obigem
Beweis entspricht dem Diskretisieren des vorgegebenen Datensatzes f . Anschließend haben wir die Koeffizienten λr,k konstruktiv bestimmt und damit einen Algorithmus zur Bestimmung der Wavelet-Polynome
ΨR angegeben. Wir werden nun die hierzu benötigten Rechenoperationen bestimmen. Hierbei werden wir
erkennen, dass es sich um einen schnellen Algorithmus handelt.
Die betrachtete Funktion f ist durch
N := 2 · 2m · 2n
Einzeldaten bestimmt. Der erste Reduktionsschritt bezieht sich auf N/2 Intervallpaare und benötigt
pro Paar zwei Additionen (das Halbieren und die Skalierung zählen nicht, da sie durch einen Binärshift
realisiert werden können). Jeder weitere Reduktionsschritt benötigt halb soviele Operationen wie der
vorangehende. Nach m + n Schritten wird abgebrochen. Die Bestimmung aller Koeffizienten λr,k erfordert
also
N
1 1
1 + + + · · · · 2 = 2N
2
2 4
Operationen. Man kann zeigen, dass die Rücktransformation mit derselben Anzahl von Operationen
realisiert werden kann. Zum Vergleich: Die Multiplikation eines Datenvektors mit N Komponenten mit
einer N -reihigen Matrix erfordert O(N 2 ) Operationen.
4.11 Fazit. Die Wavelet-Transformation kombiniert die Stärken der Fourier-Transformation in der Erkennung regelmäßiger Muster mit der Fähigkeit, Sprünge und Kanten zu lokalisieren. Diese Informationen
können i.a. hochredundant in den Wavelet-Koeffzienten gespeichert werden und ermöglichen dann eine
gute Datenkompression. Für die Analyse und Synthese stehen schnelle Algorithmen zur Verfügung.
313
Kapitel 6
Analysis in mehreren Variablen
In diesem Kapitel führen wir die Analysis fort. Im Gegensatz zu Kapitel 4 stehen jetzt Funktionen in
mehreren Variablen im Vordergrund. Wir verwenden wieder Vektorpfeile, insbesondere um zwischen reellund vektorwertigen Funktionen zu unterscheiden, und lassen aus Platzgründen bei Spaltenvektoren auch
Zeilenschreibweise zu. Zur Vorbereitung empfiehlt sich die Lektüre von 4.§1–4.§3, insbesondere 4.§3.7.
§1
1
Differentialrechnung in mehreren Variablen
Differenzierbarkeit
1.1 Erinnerung: Differenzierbarkeit und lineare Approximierbarkeit bei Funktionen einer
Variablen. Wir erinnern uns an die O-Charakterisierung für Differenzierbarkeit einer Funktion in einer
Variablen aus 4.§3.1.6: Genau dann ist f : ]c, d[→ R in a ∈]c, d[ differenzierbar, wenn es eine Zahl m gibt
(die dann Ableitung von f in a genannt und mit f 0 (a) bezeichnet wird) mit
f (x) = f (a) + m(x − a) + O(|x − a|)
für x → a, x ∈]c, d[.
Geometrisch interpretiert bedeutet das: „Genau dann ist f in a differenzierbar, wenn es eine affine Abbildung x 7→ f (a) + m(x − a) gibt, die f für x → a besser als linear approximiert.“ Die Steigung m der
Tangente ist dann gerade der Wert der Ableitung von f in a.
Diese Charakterisierung von Differenzierbarkeit übertragen wir jetzt auf Funktionen in mehreren Variablen.
1.2 Totale Differenzierbarkeit, Ableitung und Differential. Sei f~ : D ⊂ Rn → Rm eine Funktion
in n Variablen. Um zu erklären, was es bedeutet, dass f~ in einem Punkt ~a ∈ D differenzierbar ist, müssen
wir im Definitionsbereich um diesen Punkt herum „Platz haben“. Wir verlangen daher, dass ~a ein innerer
Punkt von D ist, d.h. dass es eine Kugel um ~a gibt, die in D liegt: Kr (~a) ⊂ D für ein r > 0.
~ : Rn → Rm gibt mit
Wir nennen f~ im Punkt ~a (total ) differenzierbar , wenn es eine lineare Abbildung L
~ x − ~a) + O(k~x − ~ak)
f~(~x) = f~(~a) + L(~
für ~x → ~a.
~ heißt dann die Ableitung von f in ~a. Übliche Bezeichnungen sind
Die lineare Abbildung L
df~(~a),
f~0 (~a),
Df~(~a),
Df~(~a).
Ist D offen und ist f~ in jedem Punkt von D differenzierbar, so heißt f~ (total ) differenzierbar .
Im Fall m = 1, d.h. für eine reellwertige Funktion f , ist die Ableitung df (~a) eine Linearform Rn → R.
Man nennt sie auch Differential .
314
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
1.3 Tangentialabbildung und Tangentialraum. Totale Differenzierbarkeit von f~ im Punkt ~a mit
Ableitung df~(~a) bedeutet, dass f~ in einer Umgebung von ~a durch die affine Abbildung T~1 : Rn → Rm ,
T~1 (~x) := f~(~a) + df~(~a)(~x − ~a),
so gut approximiert werden kann, dass der Fehler
~ x − ~a) := f~(~x) − T~1 (~x) = f~(~x) − f~(~a) − df~(~a)(~x − ~a)
R(~
für ~x → ~a schneller als von erster Ordnung gegen Null geht:
~ x − ~a)k
kR(~
= 0.
~
x→~
a
k~x − ~ak
lim
Dabei bedeutet „ f~(~a) + df~(~a)(~x − ~a)“: werte die lineare Abbildung df~(~a) an der Stelle ~x − ~a aus und
verschiebe das Ergebnis um den Bildvektor f~(~a).
Die affine Abbildung T~1 nennen wir die Tangentialabbildung von f~ im Punkt ~a. Sie parametrisiert den
Tangentialraum an den Graphen von f~ im Punkt ~a. Wenn wir die Abhängigkeit von f~ und ~a deutlich
machen wollen, so schreiben wir auch T~1 [f~, ~a] statt T~1 .
Achtung. Im Sinn unserer Definition 1.2 ist die Ableitung einer Funktion f~ an einer Stelle ~a selbst
eine Funktion und zwar eine lineare Abbildung. Die Schreibweise df~(~a) macht deutlich, dass diese lineare Abbildung vom Punkt ~a abhängt. Aus der Ableitung df~(~a) wird dann die Tangentialabbildung
~x 7→ T~1 (~x) := f~(~a) + df~(~a)(~x − ~a). Dabei wird im Argument und im Bild so verschoben, dass die T~1 im
Punkt ~a den richtigen Wert hat: T~1 (~a) = f~(~a).
1.4 Lokale Koordinaten. Nach Übergang zur Variablen ~h := ~x − ~a können wir Differenzierbarkeit
auch in lokalen Koordinaten schreiben:
f~(~a + ~h) = f~(~a) + df~(~a)(~h) + O(k~hk)
für ~h → ~0.
~ x) + ~b, gebildet aus einer linearen
1.5 Erstes Beispiel. Jede affine Abbildung f~ : Rn → Rm , f~(~x) := L(~
n
m
m
~ ∈ L(R , R ) und einem Vektor ~b ∈ R , ist überall differenzierbar mit df~(~a) = L.
~ Dank der
Abbildung L
~
~
~
~
~
Linearität von L gilt nämlich f (~x) = f (~a) + L(~x − ~a), d.h. das Restglied R verschwindet.
Insbesondere ist die Abbildung x 7→ xk , Rn → R, auf die k-te Koordinate differenzierbar und stimmt
überall mit Ihrer Ableitung dxk überein. (Das ist eine korrekte Interpretation des Differentials dxk .)
1.6 Zusammenhang mit der Ableitung einer Funktion einer Variablen. Ist f eine reellwertige
differenzierbare Funktion einer Variablen, so ist die Ableitung von f im Sinn unserer Definition 1.2 selbst
eine reellwertige Funktion einer Variablen und zwar die lineare Abbildung
h 7→ f 0 (a) · h.
Selbige haben wir bisher stillschweigend mit der Zahl f 0 (a) identifiziert.
1.7 Differenzierbarkeit impliziert Stetigkeit. Ist f~ im Punkt ~a differenzierbar, so ist f~ dort auch
auch stetig.
Beweis. Lineare Abbildungen sind stetig. Aus der Darstellung f~(~x) = f~(~a) + df~(~a)(~x − ~a) + O(k~x − ~ak)
für ~x → ~a folgt insbesondere wegen df~(~a)(~x − ~a) → df~(~a)(~0) = ~0 für ~x → ~a auch f~(~x) → f~(~a) für ~x → ~a.
1.8 Komponentenweise Differenzierbarkeit. Genau dann ist f~ im Punkt ~a differenzierbar, wenn
dort alle Komponentenfunktionen f1 , . . . , fm differenzierbar sind.
Beweis. Unsere Definition von Differenzierbarkeit ist eine Grenzwertaussage und die Existenz eines
Grenzwerts kann komponentenweise nachgewiesen werden (vgl. 4.§2.1.3).
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
315
1.9 Wie bestimmen wir die Ableitung? Ist f~ im Punkt ~a total differenzierbar, so gilt definitionsgemäß
1 ~
f (~a + ~h) − f~(~a) − df~(~a)(~h) → ~0
für ~h → ~0
khk
und für ~h ist hierbei eine beliebige Annäherung an ~0 zugelassen. Insbesondere dürfen wir ~h auf den
Koordinatenachsen gegen Null schicken, d.h. wir setzen ~h = tek , k = 1, . . . , n, und betrachten t → 0.
Damit existieren auch für k = 1, . . . , n die Grenzwerte
~0
=
=
1 ~
f (~a + te~k ) − f~(~a) − df~(~a)(te~k )
t→0 t
1 ~
f (~a + te~k ) − f~(~a) − df~(~a)(e~k ) = ∂xk f~(~a) − df~(~a)(e~k ).
lim
t→0 t
lim
(zur Definition der partiellen Ableitung ∂xk f~ siehe 4.§3.7.2). Totale Differenzierbarkeit von f~ im Punkt
~a impliziert dort also die Existenz aller partiellen Ableitungen. Und die partielle Ableitung ∂xk f~(~a) nach
der k-ten Variablen liefert gerade das Bild des k-ten Standardbasisvektors ~ek unter der Ableitung df~(~a).
f (a1 , a2 )
Schnitt parallel zur (x1 , y)-Ebene,
Tangentensteigung in x1 -Richtung: ∂x1 f (a1 , a2 ).
a2
(a1 , a2 )
a1
Schnitt parallel zur (x2 , y)-Ebene,
Tangentensteigung in y-Richtung: ∂x2 f (a1 , a2 ).
Abbildung 6.1: Zur Bestimmung der Ableitung df (~a) (hier für n = 2, m = 1).
Damit haben wir die Darstellungsmatrix der Ableitung df~(~a) bezüglich der Standardbasis bestimmt und
ein notwendiges Kriterium für totale Differenzierbarkeit erhalten. Das notieren wir in den nächsten beiden
Nummern.
316
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
1.10 Jacobi-Matrix. Existieren für f~ : D ⊂ Rn → Rm im Punkt ~a ∈ D alle n partiellen Ableitungen,
so nennen wir die aus diesen Vektoren als Spaltenvektoren gebildete (m × n)-Matrix


!
∂x1 f1 (~a) · · · ∂xn f1 (~a)
~
~
∂f
∂f


..
..
m×n
(~a), . . . ,
(~a) = 
Jf~(~a) :=
∈R
.
.
∂x1
∂xn
∂x1 fm (~a) · · · ∂xn fm (~a)
die Jacobi-Matrix oder Funktionalmatrix von f~ in ~a. Weitere übliche Bezeichnungen sind
∂~x f~(~a),
∂ f~
(~a)
∂~x
∂(f1 , . . . , fm )
(~a).
∂(x1 , . . . , xn )
oder
Im Fall m = 1, d.h. für eine reellwertige Funktion f , ist die Jacobi-Matrix ein Zeilenvektor.
1.11 Notwendige Bedingung für Differenzierbarkeit. Ist f~ im Punkt ~a total differenzierbar, so
existieren dort alle partiellen Ableitungen ∂x1 f~(~a), . . . , ∂xn f~(~a). Die totale Ableitung df~(~a) ist eindeutig
bestimmt und besitzt als Darstellungsmatrix (bzgl. der Standardbasen) die Jacobi-Matrix von f~ in ~a, d.h.

 
∂x1 f1 (~a) · · · ∂xn f1 (~a)
x1



.
.
. 
..
..
df~(~a)(~x) = Jf~(~a)~x = 
  ..  .
∂x1 fm (~a) · · ·
∂xn fm (~a)
xn
Die Jacobi-Matrix ist also die Darstellungsmatrix der Ableitung bezüglich der Standardbasen im Raum
bzw. Bildraum. Daher ist Jf~(~a)~x das Matrix-Vektor-Produkt aus der Jacobi-Matrix Jf~(~a) und dem
Vektor ~x.
1.12 Vereinbarung. Da wir in der Analysis durchweg mit den Standardbasen arbeiten, können wir die
Ableitung mit der Jacobi-Matrix identifizieren.
1.13 Bemerkung nur Notation in der Physik. Durch Auswerten des obigen Matrix-Vektor-Produkts
erhalten wir für eine reellwertige Funktion f (bzw. für eine vektorwertige komponentenweise)
df (~a)(~x) =
∂f
∂f
(~a)x1 + · · · +
(~a)xn
∂x1
∂xn
für alle ~x ∈ Rn .
In der Physik schreibt man hierfür (nach klassischem Vorbild und unter Weglassung aller Argumente)
df =
∂f
∂f
dx1 + · · · +
dxn .
∂x1
∂xn
Die Differentiale df , dx1 , . . . , dxn sollte man dabei nicht als „unendlich kleine Größen“ deuten. Eine
korrekte Interpretation ist die in 1.5 genannte: Das Differential dxk ist diejenige Linearform Rn → R, die
jedem Vektor ~x = (x1 , . . . , xn ) seine k-te Komponente xk zuordnet. Die Linearform df wird also mittels
df = ∂x1 f dx1 +· · ·+∂xn f dxn als Linearkombination der „Standardlinearformen“ dxk dargestellt und man
müsste eigentlich df (~a) = ∂x1 f (~a)dx1 + · · · + ∂xn f (~a)dxn schreiben, da die Ableitung von f und damit
auch die Koeffizienten ∂x1 f (~a), . . . , ∂xn f (~a) der Linearkombination ja i.A. von der Stelle ~a abhängen, an
der sie gebildet werden.
1.14 Beispiele.
2
2
(a) Die durch f (x, y) := ye2−x −y definierte reellwertige Funktion f : R2 → R besitzt in jedem Punkt
(a, b) ∈ R2 partielle Ableitungen bezüglich beider Variablen. Es gilt
∂x f (a, b)
∂y f (a, b)
=
=
−2xye2−x
2
2
(1 − 2y )e
−y 2 (x,y)=(a,b)
2−x2 −y 2 = −2abe2−a
2
−b2
2
(x,y)=(a,b)
= (1 − 2b )e
,
2−a2 −b2
.
317
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Die Ableitung von f in (a, b) lautet also
2
2
2
2
df (a, b) = −2abe2−a −b , (1 − 2b2 )e2−a −b .
Wenn f in (a, b) differenzierbar ist, so wird die Tangentialebene an den Graphen von f in (a, b) parametrisiert durch die Tangentialabbildung
x−a
T1 (x, y) = T1 [f, (a, b)](x, y) = f (a, b) + df (a, b)
y−b
x − a
2
2
−a −b
−a2 −b2
2 2−a2 −b2
= be
+ −2abe
, (1 − 2b )e
y−b
=
2
[−2abx + (1 − 2b2 )y + 2b(a2 + b2 )]e2−a
−b2
4
2
0
1
-2
-4
0
-1
0
-1
1
2
Abbildung 6.2: Graphen von f (x, y) = ye2−x
−y 2
und Tangentialabbildung im Punkt (a, b) = (−1/2, 3/4).
Wir wissen noch nicht, ob f in (a, b) wirklich differenzierbar ist, haben aber mit der Jacobi-Matrix die
Darstellungsmatrix der einzigen in Frage kommenden linearen Abbildung bestimmt. In 1.15 werden wir
tatsächlich belegen können, dass f differenzierbar ist und dass T1 [f, (a, b)] diejenige affine Abbildung ist,
die f im Punkt (a, b) im Sinn der Definition 1.2 O-approximiert.
(b) Nun betrachten wir die vektorwertige Abbildung f~ : R2 → R2 mit der Zuordnungsvorschrift
f~(x, y) := (ex cos y, ex sin y) .
Hier lautet die Ableitung
df~(x, y) =
!
∂x f1 (x, y) ∂y f1 (x, y)
∂x f2 (x, y) ∂y f2 (x, y)
=
ex cos y
−ex sin y
ex sin y
ex cos y
!
.
Damit erhalten wir die Tangentialabbildung zu f~ im Punkt (1, π/6) zu
x−1
T~1 (x, y) = T~1 [f~, (1, π/6)](x, y) = f~(1, π/6) + df~(1, π/6)
y − π/6
√
!
√
3e/2 −e/2
3e/2
x−1
+
=
√
e/2
y − π/6
e/2
3e/2
√
!
6 3x − 6y + π
e
=
.
√
√
12 6x + 6 3y − 3π
318
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
f~
1
1
1
-1
1
-1
-1
PP
q
P
f~, T~1
1
-1
1
-1
1
-1
Abbildung 6.3: Lokales Abbildungsverhalten der Funktion f~(x, y) = (ex cos y, ex sin y) und der zugehörigen Tangentialabbildung im Punkt (1, π/6).
(c) Dieses Beispiel beleuchtet das Verhältnis zwischen partieller und totaler Differenzierbarkeit. Wir
betrachten die aus 4.§2.2.4 bekannte Funktion g mit

 2xy
für (x, y) 6= (0, 0),
g(x, y) := x2 + y 2
0
für (x, y) = (0, 0).
Die Existenz der beiden partiellen Ableitungen im Ursprung zeigen wir unter Verwendung der Definition:
∂g
(0, 0)
∂x
∂g
(0, 0)
∂y
g(h, 0) − g(0, 0)
0−0
= lim
= 0,
h→0
h
h
g(0, h) − g(0, 0)
0−0
lim
= lim
= 0.
h→0
h→0
h
h
=
lim
h→0
=
Wie in 4.§2.2.4 gezeigt ist g aber im Ursprung nicht einmal stetig.
-1
0
1
-1
0
1
-1
0
2
1
1
1
1
1
0
0
0
-1
-1
-1
-1
0
-1
1
0
0
-1
-1
1
0
1
-2
-2
-1
0
1
2
Abbildung 6.4: Eine in (0, 0) unstetige und damit auch nicht differenzierbare Funktion, die dort alle
partiellen Ableitungen besitzt.
Die Existenz der partiellen Ableitungen ist also keine Gewähr für totale Differenzierbarkeit, ja nicht
einmal für Stetigkeit. Das ist eigentlich auch klar: Zur Bestimmung der partiellen Ableitungen von f~ in ~a
muss man die Werte von f~ nur auf den zu den Achsen parallelen Geraden durch ~a kennen. Außerhalb
kann sich f~ beliebig „unanständig“ verhalten. Genau das haben wir in obigem Beispiel ausgenutzt.
319
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
1.15 Hauptkriterium für Differenzierbarkeit. Existieren für f~ im Punkt ~a alle partiellen Ableitungen und sind selbige in ~a stetig, so ist f~ in ~a total differenzierbar. Insbesondere ist eine C 1 -Funktion in
jedem Punkt ihres Definitionsbereichs differenzierbar.
Beweis∗ . Differenzierbarkeit wird gemäß 1.8 komponentenweise nachgeprüft. Wir müssen also nur reellwertige Funktionen (d.h. den Fall m = 1) betrachten. Wir führen den Beweis für n = 2, für n ≥ 2 verläuft
er analog. Sei also f : D ⊂ R2 → R im Punkt (a, b) ∈ D stetig partiell differenzierbar. In der Zerlegung
f (a + h1 , b + h2 ) − f (a, b) = [f (a + h1 , b + h2 ) − f (a, b + h2 )] + [f (a, b + h2 ) − f (a, b)]
wenden wir auf beide Summanden den eindimensionalen Mittelwertsatz an, d.h. es gibt Zahlen ah zwischen a und a + h1 bzw. bh zwischen b und b + h2 mit
∂f
∂f
∂f
∂f
(ah , b + h2 ) −
(a, b) ,
f (a + h1 , b + h2 ) − f (a, b + h2 ) = h1 (ah , b + h2 ) = h1 (a, b) + h1
∂x
∂x
∂x
∂x
∂f
∂f
∂f
∂f
f (a, b + h2 ) − f (a, b) = h2 (a, bh ) = h2 (a, b) + h2
(a, bh ) −
(a, b) .
∂y
∂y
∂y
∂y
Für h = (h1 , h2 ) → (0, 0) gilt auch h1 , h2 → 0 und damit ah , bh → 0. Mit der Stetigkeit der beiden
partiellen Ableitungen in (a, b) folgt nun
f (a + h1 , b + h2 ) − f (a, b)
2
∂f
∂f
(a, b) + h2 (a, b) + h1 O(1) + h2 O(1)
∂x
∂y
= df (a, b)h + O(khk)
für h = (h1 , h2 ) → (0, 0).
= h1
Umgang mit differenzierbaren Funktionen
2.1 Rechenregeln für Ableitungen.
(a) (Linearität) Sind f~, ~g : D ⊂ Rn → Rm im Punkt ~a ∈ D differenzierbar, so ist für λ, µ ∈ R auch die
Funktion λf~ + µ~g : D → Rm in ~a differenzierbar mit
d(λf~ + µ~g )(~a) = λdf~(~a) + µd~g (~a),
(b) (Produktregel ) Sind f, g : D ⊂ Rn → R reellwertig und im Punkt ~a ∈ D differenzierbar, so ist auch
die Funktion f g : D → R in ~a differenzierbar mit
d(f g)(~a) = f (~a)dg(~a) + g(~a)df (~a),
(c) (Kettenregel ) Ist f~ : D ⊂ Rn → Rm im Punkt ~a ∈ D differenzierbar, ist G ⊂ Rm eine Umgebung von
f~(~a) und ist ~g : G → Rp in f~(~a) differenzierbar, so ist auch ~g ◦ f~ : D → Rp in ~a differenzierbar mit
d(~g ◦ f~)(~a) = d~g (f~(~a)) ◦ df~(~a).
Linearität und Produktregel kann man unter Weglassung der Argumente kurz in der Form
d(λf~ + µ~g ) = λdf~ + µd~g ,
bzw.
d(f g) = f dg + gdf
notieren. Für die Kettenregel ist das nicht empfehlenswert, da es dort ja darauf ankommt, welche Ableitung an welcher Stelle ausgewertet wird.
Wenn wir gemäß unserer Vereinbarung 1.12 die Ableitung mit ihrer Jacobi-Matrix (bezüglich der Standardbasen) identifizieren, ist auf der rechten Seite der Kettenregel (c) die Hintereinanderausführung von
d~g (f~(~a)) und df~(~a) als eine Matrizenmultiplikation zu lesen.
Achtung. Die Produktregel kann nur für reellwertige Funktionen angewendet werden. (Warum?)
320
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Beweis∗ . (a) ergibt sich aus der Linearität des Grenzwerts und den Rechenregeln für lineare Abbildungen.
Zu (c): Wir setzen A := df~(~a), ~b := f~(~a) und B := d~g (~b). Sind f~ in ~a und ~g in ~b differenzierbar, so gilt
f~(~a + ~h)
~ ~h)
= f~(~a) + A~h + R(
~g (~b + ~k)
~ ~k)
= ~g (~b) + B~k + S(
1 ~ ~
R(h) = ~0,
~
khk
1 ~ ~
S(k) = ~0.
mit lim
~
~
k→~
0 kkk
mit lim
~
h→~
0
Wir erhalten
(~g ◦ f~)(~a + ~h)
~ ~h))
= ~g (f~(~a + ~h)) = ~g (f~(~a) + A~h + R(
~ ~h)) + S(A~h + R(
~ ~h))
= ~g (f~(~a)) + B(A~h + R(
=
(~g ◦ f~)(~a) + BA~h + T~ (~h)
~ ~h) + S(A
~ ~h + R(
~ ~h))
mit T(~h) := B R(
und müssen zeigen, dass
lim
~
h→~
0
1 ~ ~
T (h) = ~0.
~
khk
Um dies nachzuweisen benützen wir die Darstellung
1 ~ ~
1
~ ~h) +
T (h) =
B R(
k~hk
k~hk
| {z }
→~
0
~ ~h)k
kA~h + R(
k~hk
{z
}
|
beschränkt für ~
h →~
0
1
~ ~h + R(
~ ~h))
S(A
~ ~h)k
kA~h + R(
{z
}
|
für ~h → ~0
→~
0
und zeigen, dass die drei Teilterme sich wie angegeben verhalten.
Für den ersten Teilterm folgt dies wegen
1
~ ~h) = B 1 R(
~ ~h) → ~0
B R(
k~hk
k~hk
| {z }
für ~h → ~0
→~
0
~ da die lineare Abbildung ~x 7→ B~x in ~x = ~0 stetig ist mit B~0 = ~0.
aus der Voraussetzung über R,
Mit ähnlicher Argumentation gilt auch
~ ~h) → ~0
A~h + R(
für ~h → ~0
~
und wir erhalten das Grenzverhalten des dritten Teilterms aus der Voraussetzung über S.
Die Beschränktheit des zweiten Teilterms schließlich ergibt sich mit der Definition der Matrizennorm
5.§6.5.3 und der Stetigkeit der Norm aus
1
~ ~h)k
~ ~h)k
kA~h + R(
kAkk~hk + kR(
~
~
≤
= kAk + R(h) → ~0
für ~h → ~0.
k~hk
k~hk
k~hk
Zu (b): Durch Anwenden der Kettenregel (c) auf G(u, v) := uv und F~ (~x) := (f (~x), g(~x)) erhalten wir
d(f g)(~a) = d(G ◦ F~ )(~a) = (g(~a), f (~a))dF~ (~a) = g(~a)df (~a) + f (~a)dg(~a).
2.2 Beispiele zur Kettenregel.
(d) Die Ableitung eines Vektorfeldes ~v längs einer Bahnkurve t 7→ ~x(t) lautet
n
X ∂
d
~v (~x(t)) = d~v (~x(t))~x˙ (t) =
~v (~x(t))ẋk (t).
dt
∂xk
k=1
321
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Man beachte, dass d~v (~x(t)) eine (n × n)-Matrix ist und ~x˙ (t) ein Vektor.
(e) Eine wichtige Anwendung der Kettenregel betrifft den Fall, dass g eine reellwertige Funktion in m
Variablen ist. Komponentenweise lautet sie dann
m
X
∂fl
∂(g ◦ f~)
∂g ~
(~x) =
(f (~x))
(~x)
∂xk
∂yl
∂xk
für k = 1, . . . , n.
l=1
Es wird also wie bei der eindimensionalen Kettenregel nachdifferenziert, jetzt aber nach allen Komponenten und mit Aufsummieren.
Genügen daher zwei differenzierbare Funktionen f : D ⊂ R → R und g : D ×f (D) ⊂ R2 → R der Identität
für x ∈ D,
g(x, f (x)) = 0
so folgt durch Differenzieren mit der Kettenregel auch
0=
∂g
∂g
(x, f (x)) +
(x, f (x))f 0 (x)
∂x
∂y
für x ∈ D,
2.3∗ Wiederholung: höhere partielle Ableitungen. Wir rufen uns an zwei Beispielen in Erinnerung,
wie man höhere partielle Ableitungen berechnet (vgl. 4.§3.7.3).
(f) Für die durch
f (x, y) := ye2−x
2
−y 2
definierte C ∞ -Funktion f : R2 → R lauten die sämtlichen partiellen Ableitungen bis zur Ordnung zwei
2
2
∂f
(x, y) = −2xye2−x −y ,
∂x
2
2
∂f 2
(x, y) = 2(2x2 − 1)ye2−x −y ,
∂2x
2
2
∂f
(x, y) = (1 − 2y 2 )e2−x −y
∂y
2
2
∂f 2
(x, y) = 2(2y 2 − 3)ye2−x −y ,
∂2y
2
2
∂f 2
∂f 2
(x, y) = 2(2x2 − 1)xe2−x −y =
(x, y).
∂y∂x
∂x∂y
In diesem Beispiel stimmen die beiden gemischten partiellen Ableitungen ∂y,x f und ∂x,y f überein und
sind auf dem ganzen Definitionsbereich stetig.
(g) Jetzt präsentieren wir eine Funktion, bei der die gemischten partiellen Ableitungen zweiter Ordnung
nicht übereinstimmen. Wir setzen

2
2
 4xy(x − y ) für (x, y) 6= (0, 0),
2
2
f (x, y) :=
x +y

0
für (x, y) = (0, 0),
und definieren so eine Funktion f : R2 → R, die in Polarkoordinaten die Darstellung
f (r cos(ϕ), r sin(ϕ)) = r2 sin(4ϕ)
besitzt. In jedem Punkt (x, y) 6= (0, 0) besitzt f stetige partielle Ableitungen beliebiger Ordnung. Unter
Beachtung der Symmetrie f (x, y) = −f (y, x) berechnen wir dann
4y(x4 + 4x2 y 2 − y 4 )
∂f
∂f
(x, y) =
= − (x, y),
2
2
2
∂x
(x + y )
∂y
∂2f
4(x6 + 9x4 y 2 − 9x2 y 4 − y 6 )
∂2f
(x, y) =
=
(y, x).
∂x∂y
(x2 + y 2 )3
∂y∂x
322
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Weil f auf den Koordinatenachsen verschwindet, gilt
∂f
∂f
(0, 0) = 0 =
(0, 0).
∂x
∂y
Für partiellen Ableitungen zweiter Ordnung erhalten wir somit
∂2f
(0, 0)
∂y∂x
=
∂2f
(0, 0)
∂x∂y
=
lim
∂f
∂x (0, h)
h→0
lim
∂f
∂y (h, 0)
−
h
∂f
∂x (0, 0)
−
∂f
∂y (0, 0)
h
h→0
= lim
−4h5
h4
h
h→0
= lim
h→0
−0
= −4,
4h5
h4
−0
= 4.
h
Im Ursprung führt also eine unterschiedliche Differentiationsreihenfolge zu unterschiedlichen Ergebnissen.
Man kann zeigen, das die beiden gemischten partiellen Ableitungen ∂y,x f und ∂x,y f in (0, 0) unstetig sind.
Zum Glück passiert das nur bei „unanständigen“ Funktionen.
2.4 Vertauschbarkeit gemischter partieller Ableitungen. (Satz von Schwarz) Für jede C 2 -Funktion
f~ gilt
∂ 2 f~
∂ 2 f~
=
für k, l = 1, . . . , n.
∂xk ∂xl
∂xl ∂xk
Beweis∗ . Da im Satz f~ nur als eine Funktion von zwei Veränderlichen betrachtet wird, genügt es, den Fall
n = 2 zu betrachten. Nach einer Verschiebung brauchen wir die angegebene Beziehung nur im Ursprung
zu beweisen. Da der Beweis für jede Komponentenfunktionen einzeln geführt werden kann, können wir f
außerdem als reellwertig voraussetzen. Wir werden zeigen, dass der Ausdruck
D(h) :=
f (h, h) − f (h, 0) − f (0, h) + f (0, 0)
h2
für h → 0 sowohl gegen ∂x,y f (0, 0) als auch gegen ∂y,x f (0, 0) konvergiert. Setzen wir
ϕ(x) :=
f (x, h) − f (x, 0)
,
h
ψ(y) :=
f (h, y) − f (0, y)
,
h
so erhalten wir
ϕ(h) − ϕ(0)
ψ(h) − ψ(0)
=
.
h
h
Wenden wir den Mittelwertsatz 4.§3.3.5 für Funktionen einer Variablen an, so gilt D(h) = ϕ0 (x1 ) = ψ 0 (y2 )
mit gewissen x1 , y2 zwischen 0 und h. Unter Beachtung der Definition von ϕ und ψ folgt
D(h) =
D(h) =
∂x f (x1 , h) − ∂x f (x1 , 0)
∂y f (h, y2 ) − ∂y f (0, y2 )
=
.
h
h
Auf die erste Differenz wenden wir nun den Mittelwertsatz 4.§3.3.5 in der zweiten Variablen, auf die
zweite Differenz in der ersten Variablen an. Wir erhalten D(h) = ∂y,x f (x1 , y1 ) = ∂x,y f (x2 , y2 ) mit
gewissen x2 , y1 zwischen 0 und h. Für h → 0 gilt (x1 , y1 ) → (0, 0) und (x2 , y2 ) → (0, 0). Die Stetigkeit
der beiden gemischten partiellen Ableitungen impliziert dann wie behauptet ∂y,x f (0, 0) = ∂x,y f (0, 0).
3
Reellwertige Funktionen: Gradient und Richtungsableitungen
3.1 Der Gradient. Ist eine reellwertige Funktion f : D ⊂ Rn → R in einem Punkt ~a ∈ D total
differenzierbar, lautet die Tangentialabbildung in lokalen Koordinaten
~h 7→ f (~a) + df (~a)(~h).
Da wir in der Analysis den Rn immer mit der Standardbasis versehen, können wir den Wert der Linearform
df (~a) an der Stelle ~h als das Produkt des Zeilenvektors (∂x1 f (~a), . . . , ∂xn f (~a)) mit dem Spaltenvektor ~h
323
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
berechnen. Nun kann jede Linearform Rn → R als ein Skalarprodukt ~h 7→ h~c|~hi mit einem festen Vektor
~c ∈ Rn dargestellt werden. In unserem Fall ist dies gerade der Vektor


∂x1 f (~a)


..
∇f (~a) = grad f (~a) := 
,
.
∂xn f (~a)
genannt Gradient von f an der Stelle ~a. Es gilt also
df (~a)(~h) = h∇f (~a)|~hi
und für die Tangentialabbildung zu f im Punkt ~a erhalten wir
T1 (~x) = T1 [f, ~a](~x) = f (~a) + h∇f (~a)|~x − ~ai.
3.2 Rechenregeln für den Gradienten erhalten wir sofort aus 2.1.
(a) (Linearität) ∇(λf + µg) = λ∇f + µ∇g,
(b) (Produktregel ) ∇(f g) = f ∇g + g∇f ,
(c) (Kettenregel )
d
x(t))
dt u(~
= h∇u(~x(t)|~x˙ (t)i für ein C 1 -Skalarfeld u und einen Weg ~x.
3.3 Richtungsableitungen. Jeder Vektor ~v ∈ Rn mit k~v k = 1 heißt eine Richtung im Rn . Existiert
für eine Funktion f : D ⊂ Rn → R und einen inneren Punkt ~a ∈ D der Grenzwert
d
1
∂f
f (~a) := f (~a + t~v )
= lim (f (~a + t~v ) − f (~a)),
t→0 t
∂~v
dt
t=0
so nennen wir f in ~a in der Richtung ~v differenzierbar und den obigen Grenzwert Richtungsableitung
von f an der Stelle ~a in Richtung ~v . Weitere gebräuchliche Bezeichnungen sind
f~v (~a)
oder
∂~v f (~a).
Die Richtungsableitung in Richtung ~v = ~ek für einen der Standardbasisvektoren ist gerade die partielle
Ableitung nach der k-ten Variablen
∂f
∂f
=
∂~ek
∂xk
für k = 1, . . . , n.
Eine geometrische Interpretation der Richtungsableitung erhalten wir folgendermaßen: Sie gibt die Steigung des Graphen von t 7→ f (~a + t~v ) in t = 0 an.
Beispiel. Die Richtungen ~v ∈ R2 haben die Form ~v = (cos(ϕ), sin(ϕ)) mit ϕ ∈ [0, 2π[. Für die Funktion

2
 2x y
für (x, y) 6= (0, 0),
g(x, y) := x2 + y 2

0
für (x, y) = (0, 0),
berechnen wir die Richtungsableitung in Richtung ~v mit Hilfe der Definition zu
g(t cos(ϕ), t sin(ϕ)) − g(0, 0)
1
2t3 cos(ϕ)2 sin(ϕ)
= lim
= cos(ϕ) sin(2ϕ).
t→0
t→0 t (t cos(ϕ))2 + (t sin(ϕ))2
t
∂~v g(0, 0) = lim
Insbesondere gilt ∂~v g(0, 0) = 0 genau dann, wenn ~v eine der beiden Koordinatenrichtungen ~e1 oder ~e2 ist.
Damit ist g in (0, 0) nicht total differenzierbar, andernfalls würde die in der nächsten Nummer beweisene
Formel zeigen, dass auch alle anderen Richtungsableitungen verschwinden müssen.
3.4 Berechnung von Richtungsableitungen. Ist f im Punkt ~a total differenzierbar, so existieren die
Richtungsableitungen für alle Richtungen ~v ∈ Rn , k~v k = 1, und es gilt
∂~v f (~a) = h∇f (~a)|~v i.
324
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
-1
0
1
-1
0
1
-1
0
2
1
1
1
1
1
0
0
0
-1
-1
-1
-1
0
-1
1
0
0
-1
-1
1
0
-2
-2
1
-1
0
1
2
Abbildung 6.5: Eine Funktion, die in (0, 0) alle Richtungsableitungen besitzt, aber nicht total differenzierbar ist.
Beweis. Man wende die Kettenregel 3.2 (c) auf u = f und ~x(t) = ~a + t~v an.
3.5 Geometrische Bedeutung des Gradienten. Ist f im Punkt ~a total differenzierbar, so nimmt
∂~v f (~a) für n ≥ 2 alle Werte im Intervall [−k∇f (~a)k, k∇f (~a)k] an. Ist ∇f (~a) 6= ~0, so wird die Richtungsableitung maximal bzw. minimal in Richtung
~vmax =
1
∇f (~a),
k∇f (~a)k
~vmin = −~vmax =
−1
∇f (~a).
k∇f (~a)k
Für jede Richtung ~v ⊥ ~vmax dagegen gilt ∂~v f (~a) = 0.
Kurz gesagt: „Der Gradient gibt die Richtung stärksten Anstiegs (lat. gradiens: fortschreitend) an, sein
Betrag die maximale Steigung. Die gegengesetzte Richtung ist diejenige stärkstens Abfalls, senkrecht zu
diesen Richtungen bewegt man sich in erster Näherung auf gleicher Höhe.“
Beweis. Aus der geometrischen Interpretation der Cauchy-Schwarzschen Ungleichung folgt, dass das
Skalarprodukt h∇f (~a)|~v i alle Werte zwischen −k∇f (~a)k und k∇f (~a)k durchläuft, wenn wir den normierten Vektor ~v ∈ Rn so bewegen können, dass grad f (~a) und ~v alle Winkel zwischen 0 und π miteinander
einschließen. Dies ist für Raumdimensionen n ≥ 2 möglich. Der maximale (minimale) Wert wird hierbei
für ~v = ~vmax (~vmin = −vmax ) angenommen.
Beispiel. Abbildung 6.6 zeigt den Graphen und Niveaumengen einer Funktion zusammen mit den Gradienten in ausgewählten Punkten. In Bereichen mit eng aneinander liegenden Niveaulinien ist große
Steigung zu erwarten, d.h. ein betragsmäßig großer Gradient.
Abbildung 6.6: Gradienten für vier Punkte, davon einer mit verschwindendem Gradienten.
3.6 Hauptsatz der Differential- und Integralrechung für Skalarfelder. Ist f : D ⊂ Rn → R eine
C 1 -Funktion und ist ~x : [c, d] → D ein C 1 -Weg in D mit Anfangspunkt ~x1 = ~x(c) und Endpunkt ~x2 = ~x(d),
325
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
so gilt
d
Z
h∇f (~x(t))|~x˙ (t)i dt.
f (~x2 ) − f (~x1 ) =
c
Beweis. Das ergibt sich aus dem Hauptsatz 4.§4.2.5 und der Kettenregel 3.2 (c) mittels
Z
d
f (~x2 ) − f (~x1 ) = f (~x(d)) − f (~x(c)) =
c
d
f (~x(t)) dt =
dt
Z
d
h∇f (~x(t))|~x˙ (t)i dt.
c
3.7 Schrankensätze. Ist f : D ⊂ Rn → R ein C 1 -Skalarfeld und liegt für zwei Punkte ~x1 , ~x2 ∈ D auch
die Verbindungsstrecke S ganz in D, so gilt
|f (~x2 ) − f (~x1 )| ≤ M k~x2 − ~x1 k
mit M := max{k∇f (~x)k | ~x ∈ S}.
Ist ~v : D ⊂ Rn → Rm eine vektorwertige C 1 -Funktion und liegt für zwei Punkte ~x1 , ~x2 ∈ D auch die
Verbindungsstrecke S ganz in D, so gilt
k~v (~x2 ) − ~v (~x1 )| ≤ Lk~x2 − ~x1 k
mit L := max{kd~v (~x)k | ~x ∈ S}.
Beweis. Für ein Skalarfeld folgt die Behauptung aus dem Hauptsatz für Skalarfelder 3.6 und der Standardabschätzung für Integrale 4.§4.1.18. Für ein Vektorfeld gehe man komponentenweise vor und verwende
die Cauchy-Schwarzsche Ungleichung.
3.8 Identitätssatz für Skalarfelder. Verschwindet der Gradient einer C 1 -Funktion f auf einem Gebiet,
so ist f dort konstant.
Beweis. Da f auf einem Gebiet definiert ist, können wir zwei beliebige Punkte durch einen Polygonzug
verbinden. Längs der einzelnen Teilstrecken ist dann f nach dem Schrankensatz 3.7 konstant. Also hat f
auch in den beiden betrachteten Punkten denselben Wert.
4
Taylor-Entwicklung und lokale Extrema
4.1 Unser Wunsch. Wir wollen eine Funktion f : D ⊂ Rn → R in n Variablen lokal in einem Punkt ~a
durch Polynome in n Variablen approximieren mit einem Fehler der schneller als von n-ter Ordnung
gegen Null geht. Liegt für ein ~h ∈ Rn die Verbindungsstrecke von ~a mit ~a + ~h in D, so können wir für die
Funktion
g(t) := f (~a + t~h),
t ∈ [0, 1],
eine Taylor-Entwicklung in einer Variablen bei t = 0 machen und selbige in t = 1 auswerten. Falls f eine
C 1 -Funktion ist, so erhalten wir mit der Kettenregel
g 0 (t) = h∇f (~a + t~h)|~hi =
n
X
∂
f (~a + t~h)hk ,
∂xk
k=1
das ist ein Polynom ersten Grades in den n Variablen h1 , . . . , hn . Falls f sogar eine C 2 -Funktion ist, liefert
eine nochmalige Anwendung der Kettenregel
g 00 (t) =
n
X
k=1
hk
n
n
X
X
∂ ∂f
∂2f
(~a + t~h)hl =
(~a + t~h)hk hl ,
∂xl ∂xk
∂xk xl
l=1
k,l=1
326
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
also ein Polynom zweiten Grades in n Variablen. Wenn f stetige partielle Ableitungen dritter und höherer
Ordnung besitzt, können wir entsprechend fortfahren. Die Funktionen
g(0)
0
g(0) + tg (0)
= f (~a),
n
X
∂f
(~a)hν1 ,
= f (~a) +
∂x
ν1
ν =1
1
t2
g(0) + tg 0 (0) + g 00 (0)
2
n
n
X
1 X
∂2f
∂f
(~a)hν1 +
(~a)hν1 hν2 ,
= f (~a) +
∂xν1
2 ν ,ν =1 ∂xν1 xν2
ν =1
1
1
2
..
.
(für t = 1) bieten sich uns daher als Taylor-Polynome an.
4.2 Taylor-Polynome in mehreren Variablen. Ist f in einer Umgebung von ~a von der Klasse C r ,
r ∈ N0 , so nennen wir
Tr (~x)
:=
r
X
1 (k)
d f (~a)(~x − ~a),
k!
k=0
wobei d(k) f (~a)(~h) :=
n
X
νk =1
···
n X
n
X
ν2 =1 ν1
∂kf
(~a) · hνk · · · hν2 hν1
∂xνk · · · ∂xν2 ∂xν1
=1
!
für h ∈ Rn ,
das r-te Taylor-Polynom (oder den r-Jet) von f im Punkt ~a. Will man die Abhängigkeit von f und ~a
deutlich machen, so schreibt man statt Tr auch Tr [f ] oder Tr [f, ~a]. Die Abbildung df (k) (~a) heißt k-te
Ableitung von f im Punkt ~a.
Beispiel. Für zwei Variable (d.h. n = 2) und dem Ursprung als Entwicklungspunkt lautet das r-te
Taylor-Polynom
Tr (x, y)
=
1
f (0, 0)
0! 1
1 ∂f
1 ∂f
+
(0, 0)x +
(0, 0)y
1!
0 ∂x
1 ∂y
1
+
2!
2
2
2
2 ∂ f
2 ∂ f
2 ∂ f
2
2
(0, 0)x +
(0, 0)xy +
(0, 0)y
0 ∂x2
1 ∂x∂y
2 ∂y 2
1
+
3!
3
3
3
3
3 ∂ f
3 ∂ f
3 ∂ f
3 ∂ f
3
2
2
3
(0, 0)x +
(0, 0)x y +
(0, 0)xy +
(0, 0)y
0 ∂x3
1 ∂x2 ∂y
2 ∂x∂y 2
3 ∂y 3
+···
r
r
1
r ∂ f
r
∂rf
r ∂ f
r
r−1
r
+
(0, 0)x +
(0, 0)x y + · · · +
(0, 0)y .
r!
0 ∂xr
1 ∂xr−1 ∂y
r ∂y r
Hierbei haben wir wieder den Satz von Schwarz 2.4 über gemischte partielle Ableitungen berücksichtigt.
4.3 Erstes und zweites Taylor-Polynom im Matrizenkalkül, Hesse-Matrix. Das erste TaylorPolynom können wir mit Hilfe des Gradienten in der Form
T1 (~x) = f (~a) + ∇f (~a)T (~x − ~a)
schreiben. Beim zweiten Taylor-Polynom kommt offensichtlich eine quadratische Form hinzu. Wir schreiben
1
T2 (~x) = f (~a) + ∇f (~a)T (~x − ~a) + (~x − ~a)T Hf (~a)(~x − ~a),
2
327
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
mit der sogenannten Hesse-Matrix

Hf (~a) :=
∂2f
(~a)
∂xj , xk
∂x1 ,x1 f (~a)

..
=
.
···
∂xn ,x1 f (~a) · · ·

∂x1 ,xn f (~a)

..
n×n
.
∈R
.
∂xn ,xn f (~a)
Nach dem Satz von Schwarz 2.4 ist die Hesse-Matrix einer C 2 -Funktion symmetrisch.
Beispiel. In 2.3 (f) haben wir für f (x, y) = ye2−x
bestimmt. Wir erhalten insbesondere
∂f
(1, 1) = −2,
∂x
∂f
(1, 1) = −1,
∂y
∂f
∂f
−1
−1
)=
) = 0,
(0, √
(0, √
2
2
∂x
∂y
2
−y 2
die partiellen Ableitungen bis zur Ordnung zwei
∂2f
(1, 1) = 2,
∂2x
√
∂2f
−1
) = 2e3/2 ,
(0, √
2
2
∂ x
∂2f
(1, 1) = 2,
∂x∂y
∂2f
−1
) = 0,
(0, √
2
∂x∂y
∂2f
(1, 1) = −2,
∂2y
√
∂2f
−1
) = 2 2e3/2 ,
(0, √
2
2
∂ y
und damit
T2 [f, (1, 1)](x, y)
=
1+
−2
−1
T x−1
1 x−1
2
+
2
y−1
2 y−1
x−1
2
−2
y−2
= x2 + 2xy − y 2 − 6x − y + 6,
−1
)](x, y)
T2 [f, (0, √
2
√ 3/2
T e3/2
1
0
x
x
2e
√ +
+
−1
−1
√
0
2
0
y− √
y
−
2
2
2
!
2
e3/2
1
= −√
−1 + x2 + 2 y + √
.
2
2
=
√0
2 2e3/2
x
−1
y− √
2
4
2
0
1
-2
-4
0
-1
0
-1
1
Abbildung 6.7: √
Graphen der Funktion f (x, y) = ye2−x
(a, b) = (0, −1/ 2).
2
−y 2
und ihres zweiten Taylor-Polynoms im Punkt
4.4 Taylor-Entwicklung mit Restglied. Ist f : D ⊂ Rn → R eine reellwertige C r+1 -Funktion und liegt
für einen Punkt ~a ∈ D und ein ~h ∈ Rn die Verbindungsstrecke von ~a mit ~a + ~h ganz in D, so gibt es ein
(von ~h abhängiges) θ ∈]0, 1[ mit
f (~a + ~h) = Tr [f, ~a](~a + ~h) +
1
df (r+1) (~a + θ~h)(~h).
(r + 1)!
328
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Beweis. Man wende auf die in 4.1 betrachtete Hilfsfunktion g die Lagrange-Darstellung für das Restglied
4.§3.4.12 an.
Für eine quantitative Fehlerabschätzung muss man also das Fehlerglied, d.h. df (r+1) abschätzen können.
Ähnlich wie in 4.§3.4.14 erhält man dann eine qualitative Fehlerabschätzungen.
4.5 Qualitative Restgliedabschätzung. Ist f in einer Umgebung von ~a eine C r -Funktion, so gilt für
das r-te Taylor-Polynom Tr von f in ~a
f (~x) = Tr (~x) + O(k~x − ~akr )
für ~x → ~a.
Ist f sogar von der Klasse C r+1 , so gilt
f (~x) = Tr (~x) + O(k~x − ~akr+1 )
für ~x → ~a.
4.6 Mittelwertsatz für Skalarfelder. Ist f : D ⊂ Rn → R eine C 1 -Funktion und liegt die Verbindungsstrecke S von ~x und ~y ganz in D, so gibt es einen Punkt ζ~ ∈ S mit
~ y − ~xi.
f (~y ) − f (~x) = h∇f (ζ)|~
Beweis. Das ist die Taylor-Entwicklung 4.4 mit Restglied für r = 0.
4.7 Lokale Extrema. Ist f : D ⊂ Rn → R eine C 2 -Funktion und ist ~a ∈ D ein innerer Punkt so gilt:
• Hat f in ~a ein lokales Maximum (Minimum), so gilt ∇f (~a) = ~0 und Hf (~a) ist negativ (positiv )
semidefinit.
• Ist ~a ein kritischer Punkt, d.h. gilt ∇f (~a) = ~0, so hat f in ~a ein lokales Maximum (Minimum),
falls Hf (~a) negativ (positiv ) definit ist. Ist dagegen Hf (~a) indefinit, so liegt in ~a sicher kein lokales
Extremum vor.
Achtung. Gilt ∇f (~a) = ~0 und ist Hf (~a) nur semidefinit, so kann mit diesen beiden Informationen allein
nicht entschieden werden, ob f in ~a ein lokales Extremum hat.
Beweisidee. Die notwendige Bedingung ∇f (~a) = ~0 für ein lokales Extremum ist uns schon bekannt
(4.§3.7.7). Das zweite Taylor-Polynom von f lautet also f (~a) + 21 ~hT Hf (~a)~h und man kann aus der Definitheit der quadratischen Form Q(~h) = 21 ~hT Hf (~a)~h alles über das lokale Verhalten von f ablesen, was
nicht durch ein O(k~hk2 ) verfälscht wird (was passieren kann, wenn Q semidefinit ist).
Beweis∗ . Zum ersten Teil (notwendige Bedingungen): Wir müssen nur noch die zweiten Behauptung
beweisen und tun dies im Fall eines lokalen Maximums. Dann existiert eine Kugel Kr (~a) ⊂ D, r > 0, mit
f (~x) ≤ f (~a) für alle ~x ∈ Kr (~a). Zu ~v ∈ Rn r{0} betrachten wir t 7→ f (~a +t~v ) mit t ∈ I :=]−r/k~v k, r/k~v k[.
Wegen ∇f (~a) = ~0 lautet die qualitative Taylor-Formel für f somit
f (~a + t~v ) = f (~a) + Q(t~v ) + O(kt~v k2 ) = f (~a) + t2 Q(~v ) + O(t2 )
für t → 0.
Das bedeutet
f (~a + t~v ) − f (~a)
= Q(~v ).
t2
Wegen f (~a + t~v ) ≤ f (a) für t ∈ I folgt Q(~v ) ≤ 0. Also ist Hf (~a) negativ semidefinit. Für ein lokales
Minimum schließe man analog.
lim
t→0
Zum zweiten Teil (hinreichende Bedingungen): Die quadratische Form Q nimmt als stetige Funktion auf
der kompakten Menge {~v ∈ Rn | k~v k = 1} nach dem Hauptsatz über stetige Funktionen 4.§2.4.10 ein
Maximum M und ein Minimum m an. Ist Q positiv definit, so gilt m > 0. Wir betrachten wieder die
qualitative Taylor-Formel
f (~a + ~h) = f (~a) + Q(~h) + O(k~hk2 )
für ~h → 0.
329
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
f (~a)
a2
~a
a1
Abbildung 6.8: Zur notwendigen Bedingung ∇f (~a) = ~0 für eine Extremalstelle einer C 2 -Funktion, hier in
zwei Veränderlichen.
Es gibt also ein ε > 0 mit Kε (~a) ⊂ D und
m
f (~a + ~h) − f (~a) − Q(~h) < k~hk2
4
für k~hk < ε.
Für ~h ∈ Rn mit 0 < k~hk < ε setzen wir ~v := ~h/k~hk. Dann gilt k~v k = 1 und es folgt
k~hk2
m
m
m
Q(~v ) − k~hk2 ≥ f (~a) + k~hk2 > f (~a).
f (~a + ~h) ≥ f (~a) + Q(~h) − k~hk2 = f (~a) +
4
2
4
4
Damit hat f in ~a ein lokales Minimum. Ist Hf (~a) und damit Q positiv definit, so schließe man analog.
T2 [f, ~a]
f
a2
~a
a1
Abbildung 6.9: Zur hinreichenden Bedingung für eine lokale Extremalstelle einer C 2 -Funktion, hier in
zwei Veränderlichen.
Ist Hf (~a) und damit Q indefinit, so existieren ~v , w
~ ∈ Rn mit M := Q(~v ) > 0 bzw. m := −Q(w)
~ > 0. Die
qualitative Taylor-Formel liefert ähnlich wie zuvor
f (~a + t~v )
f (~a + tw)
~
M 2
t + O(t2 )
2
m
= f (~a) + t2 Q(w)
~ + O(t2 ) = f (~a) − t2 + O(t2 )
2
= f (~a) + t2 Q(~v ) + O(t2 ) = f (~a) +
für t → 0,
für t → 0,
Daher existiert ein ε > 0 mit
f (~a + t~v ) ≥ f (~a) +
M 2
t ,
4
f (~a + tw)
~ ≤ f (~a) −
m 2
t
4
für t ∈] − ε, ε[.
330
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Also nimmt f in jeder Umgebung von ~a sowohl Werte an, die größer als f (~a) sind, also auch Werte, die
kleiner sind. Daher kann f in a nicht extremal sein.
4.8 Beispiel für eine Extremwertaufgabe. Wir beweisen die Ungleichung
x2 + y 2 ≤ 4ex+y−2
für x, y ≥ 0,
indem wir die durch
f (x, y) := (x2 + y 2 )e−x−y
definierte C ∞ -Funktion f : R2 → R auf dem ersten Quadranten D := {(x, y) ∈ R2 | x, y ≥ 0} diskutieren.
Zunächst berechnen wir Gradient und Hesse-Matrix und erhalten
2
2
−x−y x + y − 2x
∇f (x, y) = −e
,
x2 + y 2 − 2y
2
x + y 2 − 4x + 2 x2 + y 2 − 2x − 2y
−x−y
Hf (x, y) = e
.
x2 + y 2 − 2x − 2y x2 + y 2 − 4y + 2
Die kritischen Punkte von f bestimmen wir nun durch Lösen des nichtlinearen Gleichungssystems ∇f (x, y) =
(0, 0). Durch Subtrahieren der beiden Gleichungen x2 + y 2 − 2x = 0 und x2 + y 2 − 2y = 0 erhalten wir
x = y, durch Einsetzen anschließend die beiden Lösungen (0, 0) und (1, 1). Nachdem nur (1, 1) ein innerer
Punkt von D ist, benötigen wir nur die Hesse-Matrix
0
−2e−2
Hf (1, 1) =
.
−2e−2
0
Selbige ist indefinit, wie man durch Berechnen der Eigenwerte oder durch Betrachten von ~v T Hf (1, 1)~v
für ~v = (−1, 1) bzw. ~v = (1, 1) erkennen kann.
Also hat f im Inneren von D keine lokalen Extrema und wir können mit der Randbetrachtung fortfahren.
Auf der x-Achse gilt f (x, 0) = x2 e−x . Eine Diskussion der Hilfsfunktion g(x) := x2 e−x für x ≥ 0 zeigt,
dass g für x ∈ [0, 2] streng monoton steigt und für x ∈ [2, +∞[ streng monoton fällt. Also liegt für f in
(2, 0) ein Randmaximum vor mit Wert f (2, 0) = 4e−2 . Aus Symmetriegründen hat f in (0, 2) ein weiteres
Randmaximum mit demselben Wert.
Für x, y ≥ 0 mit x + y ≥ 2 besteht die Abschätzung f (x, y) ≤ (x2 + 2xy + y 2 )e−x−y = g(x + y) ≤ g(2) =
4e−2 . Damit kann f auf D außerhalb des Dreiecks D0 := {(x, y) ∈ R2 | 0 ≤ x, y ≤ 0, x + y ≤ 2} keinen
größeren Wert als 2e−4 annehmen. Im Kompaktum D0 muss f als stetige Funktion ein globales Maximum
haben. Nach unseren bisherigen Überlegungen hat selbiges den Wert 4e−2 und wird den Randpunkten
(2, 0) und (0, 2) angenommen. Damit muss dies auch das globale Maximum von f auf ganz D sein. Also
gilt f (x, y) ≤ 4e−2 für x, y ≥ 0. Wir haben die behauptete Ungleichung bewiesen und dabei auch die
Extremalsituation entlarvt: Gleichheit tritt genau für (x, y) = (2, 0) oder (x, y) = (0, 2) ein.
4
3
0.4
4
0.2
2
3
0
0
2
1
1
1
2
3
4 0
1
2
3
4
Abbildung 6.10: Graph und Niveaulinien von f (x, y) := (x2 + y 2 )e−x−y .
331
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
4.9 Quadratischer Fit. Für einen Satz von Messdaten (t1 , y1 ), . . . , (tm , ym ) (beispielsweise die Menge yk einer radioaktiven Substanz zur Zeit tk ) vermuten wir einen Zusammenhang der Gestalt
y(t) = c1 e−t + c2 te−t + c3 t2 e−t
(Statt e−t , te−t , t2 e−t sind je nach Problemstellung auch Linearkombinationen aus anderen Funktionen
möglich, z.B. 1, t, t2 , t3 oder cos ωt, sin ωt). Das lässt sich als ein LGS
 

 −t
y1
e 1
t1 e−t1
t1 2 e−t1 c1 
    .. 
 ..
..
..
 c2 =  . 
 .
.
.
2 −tm
−tm
−tm
c3
ym
e
tm e
tm e
|
{z
} | {z } | {z }
=:A
=:~
x
=:~b
schreiben, in dem die Eingabedaten in der Matrix A ∈ Rm×n und die zugehörigen Messergebnisse im
Vektor ~b ∈ Rm abgelegt sind. Die Spaltenzahl n von A hängt hängt davon ab, wie viele „Grundfunktionen“ zur Modellbildung verwendet werden (hier sind es n = 3). Gesucht sind die Koeffizienten für die
Linearkombination dieser Grundfunktionen, d.h. Lösungen ~x von A~x = ~b.
Im Allgemeinen wird dieses LGS nicht lösbar sein: Es liegen zu viele Messungen vor (n > m) und es gibt
Messfehler. Darum geben wir uns ersatzweise mit einem Vektor ~x zufrieden, der kA~x − ~bk minimiert. Das
nennt man einen quadratischen Fit oder Gaußsche Methode der kleinsten Quadrate. Dabei dürfen wir die
Grundfunktionen linear unabhängig wählen, d.h. rg A = n.
Für A ∈ Rm×n mit rg A = n ≤ m und ~b ∈ Rm wird kA~x − ~bk genau für ~x = (AT A)−1 AT ~b minimal.
Beweis. Wegen der Monotonie der Wurzelfunktion genügt es, das Minimum der Funktion f : Rn → R,
f (~x) := kA~x − ~bk2 = (A~x − ~b)T (A~x − ~b) = ~xT AT A~x − 2~bT A~x + ~bT ~b
zu bestimmen. Wir berechnen Gradient und Hesse-Matrix zu
∇f (~x) = 2AT A~x − 2AT ~b,
Hf (~x) = AT A.
Da rg A = m maximal ist, ist Hf positiv definit: Aus 0 = ~xT AT A~x = (AT ~x)(A~x) = kA~xk2 folgt A~x = ~0
und dann ~x = ~0. Das zeigt auch, dass AT A invertierbar ist. Damit hat f genau einen kritischen Punkt,
nämlich die eindeutig bestimmte Lösung der Gaußsche Normalengleichungen AT A~x = AT ~b. Dieser liefert
ein lokales Minimum von f . Wegen f (~x) → +∞ für k~xk → ∞ muss dieses Minimum global sein.
5
Lokale Umkehrbarkeit und Koordinatentransformationen
5.1 Worum geht es? In diesem und dem nächsten Abschnitt beschäftigen wir uns mit Gleichungssystemen. Liegen m Gleichungen für n Unbekannte vor, so schreiben wir das System in der Form
f~(~x) = ~b
mit einer Funktion f~ : D ⊂ Rn → Rm
und können so Mittel der Analysis einsetzen, indem wir das Abbildungsverhalten von f~ diskutieren. Im
Fall f~(~x) = A~x liegt ein lineares Gleichungssystem vor. Wir sind hier primär an nichtlinearen Gleichungssystemen interessiert. Es wird sich aber zeigen, dass man vieles aus der Theorie linearer Gleichungssysteme
übertragen kann — allerdings in einer „lokalisierten“ Form.
Wie in der linearen Algebra werden wir zwei grundlegende Fälle unterscheiden:
• A~x = ~b mit invertierbarem A ∈ Rn×n , d.h. det(A) 6= 0 („genauso viele Gleichungen wie Unbekannte“). Dann ist das LGS für jede rechte Seite ~b eindeutig lösbar und wir erhalten die Lösung in
Abhängigkeit von ~b durch Invertieren: ~x = A−1~b.
332
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
• A~x = ~b mit A ∈ Rm×n und rg(A) = m < n („weniger Gleichungen als Unbekannte“). Auch dann
ist das LGS für jede rechte Seite ~b lösbar. Jetzt können aber in jedem Lösungsvektor m (geeignete)
Variable frei gewählt werden, die restlichen n − m Variablen hängen dann von den freien ab und
sind nach deren Wahl festgelegt.
In diesem Abschnitt beschäftigen wir uns mit der ersten Situation und behandeln dabei auch „krummlinige Koordinatentransformationen“. Im Abschnitt 6 geht es dann um Gleichungssysteme mit „freien“
und „abhängigen“ Variablen und um „implizite Funktionen“, mit denen Abhängigkeit der abhängigen
Variablen von den freien beschrieben wird.
5.2 Koordinatentransformationen, Diffeomorphismen. Gegeben sind zwei Gebiete D ⊂ Rn und
G ⊂ Rm . Eine Abbildung f~ : D → G heißt eine C r -Koordinatentransformation oder ein C r -Diffeomorphismus, wenn f~ eine bijektive Abbildung von D auf G ist und wenn sowohl f~ als auch die Umkehrabbildung
f~−1 eine C r -Funktion ist.
Beispiel. Die Darstellung in Polarkoordinaten
r
x(r, ϕ)
r cos ϕ
~
f:
7→
:=
ϕ
y(r, ϕ)
r sin ϕ
ϕ/2
ist ein C ∞ -Diffeomorphismus von D :=]0, +∞[×] − π, π[ auf
G := R2 r {(x, 0) ∈ R2 | x ≤ 0}, die längs der negativen
x-Achse geschlitzte Ebene. Die auf G definierte Umkehrabbildung f~−1 erhalten wir gemäß nebenstehender Skizze zu
p
x2 + y 2
r(x, y)
x
−1
~
.
7→
=
f :
2 arctan √y 2 2
ϕ(x, y)
y
x+
x +y
r
ϕ/2
r
y
ϕ
x
Abbildung 6.11: Umrechung in Polarkoordinaten.
5.3 Wann ist eine Abbildung eine Koordinatentransformation? Das ist eine wichtige Frage, die
sich nicht leicht beantworten lässt. Die explizite Berechnung der Umkehrfunktion ist meist mühsam oder
gar unmöglich. Die folgende Beobachtung liefert uns zumindest ein notwendiges Kriterium: Ist f~ : D → G
ein C r -Diffeomorphismus mit r ≥ 1 und Umkehrabbildung ~g = f~−1 : G → D, so folgt aus
(~g (f~(~x)) = ~x
und
(f~(~g (~y )) = ~y
für ~x ∈ D ⊂ Rn und ~y = f~(~x) ∈ G ⊂ Rm durch Differenzieren mit der Kettenregel
d~g (~y ) · df~(~x) = En
sowie
df~(~x) · d~g (~y ) = Em .
Die beiden Jacobi-Matrizen A = df~(~x) und B = d~g (~y ) genügen also den Gleichungen AB = Em , BA =
En . Damit müssen beide Matrizen quadratisch und invertierbar sein: m = n und B = A−1 .
5.4 Notwendige Bedingung für Diffeomorphie. Ist f~ : D ⊂ Rn → G ⊂ Rm eine C r -Koordinatentransformation mit r ≥ 1, so gilt n = m und an jeder Stelle ~x ∈ D ist die Jacobi-Matrix df~(~x) invertierbar.
Die Umkehrabbildung ~g := f~−1 : G → D erhalten wir dann zu
d~g (~y ) = (df~(~x))−1
für ~x ∈ D, ~y = f~(~x) ∈ G.
Anmerkung. Das ist eine Verallgemeinerung der Regel 4.§3.2.7 für die Ableitung der Umkehrfunktion.
Beispiel. Für die Polarkoordinatentransformation
r
r cos ϕ
cos ϕ −r sin ϕ
f~ :
7→
mit df~(r, ϕ) =
sin ϕ r cos ϕ
ϕ
r sin ϕ
erhalten wir det(df~(r, ϕ)) = r > 0 für (r, ϕ) ∈]0, +∞[×] − π, π[ und berechnen
1 r cos ϕ r sin ϕ
−1
~
(df (r, ϕ)) =
.
r − sin ϕ cos ϕ
333
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Mit x = r cos ϕ und y = r sin ϕ folgt damit für die Umkehrabbildung ~g = f~−1
!
p
p
x/ x2 + y 2 y/ x2 + y 2
.
d~g (x, y) =
−y/(x2 + y 2 ) x/(x2 + y 2 )
Die notwendige Bedingung „df~(~x) ist für jedes ~x ∈ D invertierbar“ für Diffeomorphie ist (zumindest
für n ≥ 2) leider nicht hinreichend. Die Problematik können wir schon bei der Polarkoordinatentransformation studieren. Es gilt zwar det(df~(r, ϕ)) = r 6= 0 sobald r 6= 0, aber f~ ist beispielsweise auf dem
Gebiet D =]0, +∞[×R nicht invertierbar, da f~(r, ϕ) = f~(r, ϕ+2π). Erst, wenn wir den Definitionsbereich
„genügend klein“ wählen (z.B. D =]0, +∞[×] − π, π[, vgl. 5.2), erhalten wir auch Invertierbarkeit.
Der folgende Satz besagt nun, dass die notwendige Bedingung 5.4 „lokal“ immer hinreichend ist.
5.5 Satz über lokale Umkehrbarkeit. Ist f~ : D ⊂ Rn → Rn eine C r -Abbildung mit r ≥ 1 und ist
für ein ~a ∈ D die Jacobi-Matrix df~(~a) invertierbar (d.h. gilt det(df~(~a)) 6= 0), so ist f~ lokal eine C r Koordinatentransformation. Das bedeutet: es gibt offene Umgebungen U ⊂ D von ~a und V ⊂ Rn von
f~(~a), so dass f~|U eine Koordinatentransformation von U auf V ist.
f~(D)
D
f~
-
a2
f2 (a)
a1
f1 (a)
Abbildung 6.12: Zum Satz über lokale Umkehrbarkeit: Eine C 1 -Funktion f~ : D ⊂ R2 → R2 mit
det(df~(~a)) 6= 0 für ein ~a ∈ D. Auf D selbst (graues Gitter) ist f~ nicht injektiv, die Umgebung U
von ~a (schwarzes Gitter) wird aber von f~ bijektiv auf V = f~(U ) abgebildet.
Der Beweis dieses Satzes gehört zu den harten Brocken einer jeden Vorlesung in Analysis. Wir verweisen
auf [HeuA, Band 2, 171], [Köh, §26] oder [Kön, Band 2 §3.3]. Zusammen mit der notwendigen Bedingung 5.4 erhalten wir aus dem Satz über lokale Umkehrbarkeit das folgende Kriterium.
5.6 Hinreichende Bedingung für Diffeomorphie. Ist D ⊂ Rn ein Gebiet, ist f~ : D → Rn eine
injektive C r -Abbildung mit r ≥ 1 und ist df~(~a) in jedem Punkt ~a ∈ D invertierbar, so ist G = f~(D) ein
Gebiet und f~ eine C r -Koordinatentransformation zwischen D und G.
Beweis∗ . Nach dem Satz über lokale Umkehrbarkeit gibt es zu jedem Punkt ~b = f~(~a) ∈ G := f~(D) eine
Umgebung V ⊂ G, die Bild einer Umgebung U ⊂ D von ~a unter dem C r -Diffeomorphismus f~|U ist. Damit
ist G offen und f~−1 stimmt auf V mit der C r -Umkehrabbildung von f~|U überein, ist also selbst von der
Klasse C r . Da stetige Bilder von wegezusammenhängenden Mengen selbst wegezusammenhängend sind,
ist G ein Gebiet.
5.7 Generalisierte Koordinaten. In allgemeinen Aussagen wird meist mit kartesischen Koordinaten
~x = (x1 , . . . , xn ) ∈ Rn gearbeitet. In den Anwendungen gibt man aber gerne denjenigen Koordinaten
den Vorzug, die dem Problem auf Grund dessen Geometrie am besten angepasst sind. Der Übergang von
diesen krummlinigen oder generalisierten Koordinaten (q1 , . . . , qn ) = ~q zu den kartesischen
~x = ~x(q1 , . . . , qn ) = ~x(~q)
334
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
ist nichts anderes als eine spezielle bijektive Abbildung.
Um die Methoden der Analysis anwendbar zu machen, verlangen wir, dass diese bijektive Abbildung
geeignet oft differenzierbar ist. Dann haben wir es mit einem C r -Diffeomorphismus mit r ≥ 1 zu tun. Wir
studieren nun solch eine C r -Koordinatentransformation
~x : D ⊂ Rn → G := ~x(D) ⊂ Rn ,
~q 7→ ~x(~q),
von generalisierten in kartesische Koordinaten. Für einen Punkt ~x = ~x(~q) mit generalisiertem Koordinatentupel ~q ∈ D liefert die partielle Funktion t 7→ ~x(~q + t~ek ), bei der nur die k-te generalisierte Koordinate
variiert, die (i.A. gekrümmte) k-te Koordinatenlinie durch ~x. Der zugehörige Tangenteneinheitsvektor
dort ist
∂~x
1
~gk (~q)
mit ~gk (~q) :=
(~q).
~eqk (~q) :=
k~gk (~q)k
∂qk
Wir erhalten also den k-ten generalisierten Koordinateneinheitsvektor ~eqk durch Normieren der k-ten
Spalte der Jacobi-Matrix d~x(~q). Im Gegensatz zur Standardbasis (~e1 , . . . , ~en ) bildet (~eq1 (~q), . . . , ~eqn (~q))
kein raumfestes n-Bein. Wir stellen es uns an den Punkt ~x = ~x(~q) angeheftet vor. Wir erhalten (unter
Weglassung des Arguments)
n n
X
X
∂~x ∂~x
dqk =
d~x =
∂qk ~eqk dqk .
∂qk
k=1
k=1
5.8 Generalisierte orthogonale Koordinaten und Maßtensor. Das n-Bein (~eq1 (~q), . . . , ~eqn (~q)) an
der Stelle ~x(~q) ist orthonormal, falls d~x(~q) orthogonal ist, d.h. falls
d~x(~q)T d~x(~q) = En .
Gilt dagegen nur
d~x(~q)T d~x(~q) = diag(λ1 , . . . , λn )
mit λ1 , . . . , λn > 0,
so ist (~eq1 (~q), . . . , ~eqn (~q)) zwar ein orthogonales n-Bein, aber i.A. nicht mehr normiert. Wir sprechen dann
von generalisierten orthogonalen Koordinaten.
Die Matrix

h∂q1 ~x(~q)|∂q1 ~x(~q)i

..
d~x(~q)T d~x(~q) = 
.
···

h∂q1 ~x(~q)|∂qn ~x(~q)i

..

.
h∂qn ~x(~q)|∂q1 ~x(~q)i
···
h∂qn ~x(~q)|∂qn ~x(~q)i
trägt also offensichtlich wichtige Informationen über die generalisierten Koordinaten. Sie wird Maßtensor ,
metrischer Tensor oder Gramsche Matrix von ~x genannt, mit G(~q) bezeichnet und ist die Fundamentalmatrix der durch den Koordinatenwechsel induzierten quadratischen Form
Q(~q) := h~x(~q)|~x(~q)i
5.9 Gradient in generalisierten orthogonalen Koordinaten. Wir betrachten ein C 1 -Skalarfeld
f : D ⊂ Rn → R. Wird selbiges lokal in generalisierten C 1 -Koordinaten ~x = ~x(~q) dargestellt, so erhalten
wir eine neue C 1 -Funktion
F (~q) := f (~x(~q))
in diesen Koordinaten. Wir wollen jetzt den Gradienten ∇f (~x) von f an der Stelle ~x = ~x(~q) in den
Gradienten der lokalen Darstellung F an der Stelle ~q umrechnen. Mit der Kettenregel folgt zunächst
dF (~q) = df (~x(~q))d~x(~q)
und damit für den Gradienten
∇F (~q) = d~x(~q)T ∇f (~x(~q)).
335
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Liegen generalisierte orthogonale Koordinaten vor, so gilt
d~x(~q)T d~x(~q) = diag k∂q1 ~x(~q)k2 , . . . , k∂qn ~x(~q)k2
und damit (da Diagonalmatrizen mit allen Matrizen vertauschen)
1
1
∇f (~x(~q)) = diag
,...,
d~x(~q)∇F (~q).
k∂q1 ~x(~q)k2
k∂qn ~x(~q)k2
Unter Verwendung der Basisvektoren ~eqk (~q) =
1
x(~q)
k∂qk ~
x(~
q )k ∂qk ~
an der Stelle ~q erhalten wir nun
n
X
1
1
∂F
1
∇f (~x(~q)) = diag
~eq1 (~q), . . . ,
~eqn (~q) ∇F (~q) =
(~q)~eqk (~q).
k∂q1 ~x(~q)k
k∂qn ~x(~q)k
k∂qk ~x(~q)k ∂qk
k=1
Das nennt man die Darstellung des Gradienten in generalisierten orthogonalen Koordinaten. In der Physik
lässt man die Argumente gerne weg und schreibt einfach
∇f (~x) =
n
X
k=1
1
∂F
~eq .
k∂qk ~xk ∂qk k
5.10 Ein Beispiel für generalisierte orthogonale Koordinaten sind Kugelkoordinaten im R3


r sin θ cos ϕ
r > 0, θ ∈]0, π[, ϕ ∈]0, 2π[,
~x(r, θ, ϕ) :=  r sin θ sin ϕ  ,
r cos θ
die jeden Punkt in G := R3 r Span(~e3 ) durch ein Tripel ~q = (r, θ, ϕ) aus Radius, Breiten- und Längenwinkel im offenen Quader D :=]0, +∞[×]0, π[×]0, 2π[ beschreiben (vgl. 3.§4.3.5, die x3 -Achse muss
ausgeschlossen werden, um Injektivität zu erhalten).
Wir berechnen die Jacobi-Matrix
d~x(r, θ, ϕ) =

sin θ cos ϕ
∂~x
∂~x
∂~x
(r, θ, ϕ),
(r, θ, ϕ),
(r, θ, ϕ) =  sin θ sin ϕ
∂r
∂θ
∂ϕ
cos θ

r cos θ cos ϕ −r sin θ sin ϕ
r cos θ sin ϕ r sin θ cos ϕ  .
−r sin θ
0
Das Dreibein an der Koordinatenstelle (r, θ, ϕ) lautet damit (unter Weglassung der Argumente)

 

sin θ cos ϕ
sin θ cos ϕ
1
 sin θ sin ϕ  =  sin θ sin ϕ  ,
~er = p
(sin θ cos ϕ)2 + (sin θ sin ϕ)2 + (cos θ)2
cos θ
cos θ

 

r cos θ cos ϕ
cos θ cos ϕ
1
 r cos θ sin ϕ  =  cos θ sin ϕ  ,
~eθ = p
(r cos θ cos ϕ)2 + (r cos θ sin ϕ)2 + (−r sin θ)2
−r sin θ
− sin θ

 

−r sin θ sin ϕ
− sin ϕ
1
 r sin θ cos ϕ  =  cos ϕ  .
~eϕ = p
(−r sin θ sin ϕ)2 + (r sin θ cos ϕ)2 + 02
0
0
Der Maßtensor an der Koordinatenstelle (r, θ, ϕ) hat die Form

1
G(r, θ, ϕ) = d~x(r, θ, ϕ)T d~x(r, θ, ϕ) = 0
0
0
r2
0

0
0 .
r2 sin2 θ
Ferner gilt (wieder unter Weglassung der Argumente)
d~x =
∂~x
∂~x
∂~x
dr +
dθ +
dϕ = ~er dr + r~eθ dθ + r sin θ~eϕ dϕ.
∂r
∂θ
∂ϕ
336
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Kugelkoordinaten liefern also keine orthonormalen generalisierten Koordinaten, sondern nur orthogonale,
in Richtung ~er wird um den Faktor 1, in Richtung ~eθ um den Faktor r und in Richtung ~eϕ um den Faktor
r sin θ gestreckt. Die Streckungsfaktoren hängen vom Punkt ~x = ~x(r, θ, ϕ) ab.
Der Gradient eines Skalarfeldes f (~x(r, θ, ϕ)) = F (r, θ, ϕ) in Kugelkoordinaten lautet dann (nochmals
unter Weglassung der Argumente)
∇f =
∂F
1 ∂F
1 ∂F
~er +
~eθ +
~eϕ .
∂r
r ∂θ
r sin θ ∂ϕ
~er
1
~x = ~x(r, θ, ϕ) ~eϕ
r θ
~eθ
ϕ
Abbildung 6.13: Lokales Dreibein in Kugelkoordinaten.
6
Implizite Funktionen und Lösungsmannigfaltigkeiten
6.1 Problematik beim Lösen nichtlinearer Gleichungen. Eine einzelne nichtlineare Gleichung
für n Unbekannte können wir mit Hilfe einer C 1 -Funktion f : D ⊂ Rn → R in der Form
f (x1 , . . . , xn−1 , xn ) = 0
schreiben. Dass rechts die Null steht, ist keine Spezialisierung: Wir können ja, z.B. durch Subtraktion,
immer „alles“ auf die linke Seite bringen. Unter der Auflösung dieser Gleichung nach einer Variablen,
etwa nach xn , verstehen wir eine C 1 -Funktion g mit der Eigenschaft
f (x1 , . . . , xn−1 , xn ) = 0
⇔
xn = g(x1 , . . . , xn−1 ).
Damit solch eine Funktion g überhaupt existiert, muss die Gleichung Lösungen haben, d.h. es muss
mindestens einen Lösungspunkt ~c = (c1 , . . . , cn ) ∈ D geben mit f (~c) = 0.
Im Allgemeinen dürfen wir nicht erhoffen, die Lösungsfunktion explizit darstellen zu können. Daher suchen
wir zuerst nach einer Bedingung, die uns zumindest theoretisch die Auflösbarkeit einer nichtlinearen
Gleichung sicherstellt. Wenn eine Auflösung existiert, so wird sie in der Regel nur in einer Umgebung des
Lösungspunkts ~c existieren. Wir illustrieren diese Problematik an einem überschaubaren Beispiel.
Die Kreisgleichung x2 + y 2 − 1 = 0 ist für |y|√> 1 nicht nach y auflösbar (kein ~c = (x, y) mit |y| > 1 ist
Lösungspunkt).
Für 0 < y ≤ 1 liefert g(x) = 1 − x2 eine Auflösung nach y, für −1 ≤ y < 0 müssen wir
√
g(x) = − 1 − x2 wählen. In Umgebungen der beiden Lösungspunkte (±1, 0) können wir die Gleichung
x2 + y 2 − 1 = 0 zwar nicht nach y, dafür aber nach x auflösen. Man mache sich das geometrisch klar!
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
337
Wissen wir nun, dass die Gleichung f (x, y) = 0 mit zwei Unbekannten in einer Umgebung eines Lösungspunktes (a, b) durch eine C 1 -Funktion g nach y auflösbar ist, d.h. gilt
f (x, g(x)) = 0
für alle x nahe bei a wobei f (a, b) = 0 und g(a) = b,
so können wir diese Identität mit der Kettenregel differenzieren und erhalten
0=
∂f
∂f
d
f (x, g(x)) =
(x, g(x)) +
(x, g(x))g 0 (x).
dx
∂x
∂y
Insbesondere gilt also an der Stelle x = a
∂f
∂f
(a, b) +
(a, b)g 0 (a) = 0
∂x
∂y
und wir können g 0 (a) berechnen, falls ∂y f (a, b) 6= 0. Damit kennen wir g(a) = b und g 0 (a), d.h. das erste
Taylor-Polynom zu g im Entwicklungspunkt a, ohne die implizite Funktion g selbst zu kennen.
Darum werden wir uns im Weiteren nicht nur damit beschäftigen, unter welchen Bedingungen eine Gleichung lokal nach einer Variablen auflösbar ist, sondern auch damit, welche Glattheitseigenschaften die
implizite Funktion hat.
6.2 Zur Notation bei nichtlinearen Gleichungssystemen. Beim Lösen eines nichtlinearen Gleichungssystems mit m Gleichungen für n Unbekannte wollen wir die Variablen offensichtlich in zwei Gruppen aufteilen: die „abhängigen“, nach denen aufgelöst wird, und die „unabhängigen“, welche die Lösung
parametrisieren. Zu diesem Zweck schreiben wir das Gleichungssystem in der Form
f1 (x1 , . . . , xp , y1 , . . . , ym )
fm (x1 , . . . , xp , y1 , . . . , ym )
=
..
.
0
=
0
oder knapp f~(~x, ~y ) = ~0 mit ~x ∈ Rp , ~y ∈ Rm und m + p = n.
Dabei stellen wir uns die Variablen so nummeriert vor, dass y1 , . . . , ym die abhängigen Variablen sind,
nach denen aufgelöst werden soll, und x1 , . . . , xp die unabhängigen, mit denen die Lösungen parametrisiert
werden.
Unter welchen Bedingungen solch eine Auflösung möglich ist und wie man die abhängigen Variablen
identifiziert, werden wir in der übernächsten Nummer erfahren. Als Einstimmung betrachten wir zuvor
die lineare Variante.
6.3 Wiederholung: Auflösen von linearen Gleichungssystemen. Das LGS Aζ~ = ~b mit A ∈ Rm×n
und ~b ∈ Rm ist genau dann für jedes ~b ∈ Rm lösbar, wenn A regulär ist, d.h. wenn A genau m linear
unabhängige Spalten besitzt. Genau dann ist auch die Anzahl der Freiheitsgrade der Lösung minimal
(genauer: der Lösungsraum des homogenen Systems Aζ~ = ~0 ist von der Dimension p = n − m). Indem
wir die Variablen geeignet umbenennen, können wir dann erzwingen, dass die letzten m Spalten von A
linear unabhängig sind. In unserer Notation schreiben wir daher das LGS
Aζ~ = ~b
mit A = (~a1 , . . . , ~ap , ~ap+1 , . . . , ~an ) ∈ Rm×n , ~b ∈ Rm , ζ~ ∈ Rn ,
in der Form
B~x + C~y = ~b
mit B := (~a1 , . . . , ~ap ) ∈ Rm×p , C := (~ap+1 , . . . , ~an ) ∈ Rm×m , ~x ∈ Rp , ~y ∈ Rm .
Hierbei wird die Matrix B aus den ersten p Spalten von A gebildet, die Matrix C besteht aus den letzen
m Spalten von A und ist nach unserer Annahme regulär, d.h. es gilt det(C) 6= 0. Die n = p + m Variablen
des Gleichungssystems sind gerade die Komponenten von ~x bzw. ~y . In dieser Schreibweise manifestieren
sich unsere Freiheitsgrade beim Lösen des Systems gerade darin, dass wir ~x ∈ Rp frei wählen können
und ~y anschließend durch Lösen von C~y = ~b − B~x erhalten. Unter der „Auflösebedingung“ det(C) 6= 0
können wir das System nach ~y auflösen und erhalten ~y = C −1 (~b − B~x).
338
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Der folgende Satz sagt nun, dass dies bei nichtlinearen Gleichungen „lokal“ genauso geht.
6.4 Der Satz über implizite Funktionen. Seien D ⊂ Rp und G ⊂ Rm zwei offene Mengen. Ist
f~ : D × G → Rm eine C r -Funktion mit r ≥ 1 und gilt an einer Stelle (~a, ~b) mit ~a ∈ D, ~b ∈ G
∂(f1 , . . . , fm ) ~
~
~
~
(~a, b) 6= 0,
f (~a, b) = 0
sowie
det
∂(y1 , . . . , ym )
so ist das Gleichungssystem f~(~x, ~y ) = 0 lokal bei (~a, ~b) eindeutig durch eine C r -Funktion nach ~y auflösbar:
Es gibt offene Umgebungen U ⊂ D von ~a und V ⊂ G von ~b sowie eine C r -Funktion ~g : U → V mit
f~(~x, ~g (~x)) = ~0
für alle ~x ∈ U
und aus f~(~x, ~y ) = ~0 mit (~x, ~y ) ∈ U × V folgt stets ~y = ~g (~x).
Durch die Gleichung f~(~x, ~y ) = ~0 ist ~g also implizit bestimmt. Eine explizite (d.h. formelmäßige) Angabe
von ~g ist in der Regel nicht möglich. Die Bedingung
∂(f1 , . . . , fm )
det
(~c) 6= 0,
~c = (~a, ~b),
∂(y1 , . . . , ym )
nennen wir Auflösebedingung. Zur Anwendung des Satzes über implizite Funktionen muss man in der
Jacobi-Matrix df~(~c) ∈ Rm×n nach m linear unabhängigen Spalten suchen (und hat sie gefunden, sobald die aus diesen Spalten gebildete (m × m)-Teilmatrix nichtverschwindende Determinante hat). Dann
nummeriert man die Variablen so um, dass diese Spalten die letzten m werden.
Beweis∗ . Mit f~ ist auch die Funktion
F~ : D × G ⊂ Rn → Rn ,
F~ (~x, ~y ) := (~x, f~(~x, ~y ))
von der Klasse C r . Die Jacobi-Matrix von f~ in (~a, ~b) berechnen wir zu


1
···
0
0
···
0




..
..
..
..
..


.
.
.
.
.

 




0
···
0
0
···
1

  En
dF~ (~a, ~b) = 
=
 ∂f1 (~a, ~b) · · · ∂f1 (~a, ~b) ∂f1 (~a, ~b) · · · ∂f1 (~a, ~b) 
∗
 ∂x1

∂xn
∂y1
∂ym


..
..
..
..




.
.
.
.


∂f
∂f
∂f
∂fm
m
m
m
~b) · · ·
~b)
~b) · · ·
~b)
(~
a
,
(~
a
,
(~
a
,
(~
a
,
∂x1
∂xn
∂y1
∂ym
0
∂(f1 ,...,fm )
a, ~b)
∂(y1 ,...,ym ) (~

.
∂(f1 ,...,fm )
(~a, ~b)) 6= 0 folgt det(dF~ (~a, ~b)) 6= 0. Also ist F~ in einer Umgebung
Aus der Auflösebedingung det( ∂(y
1 ,...,ym )
von (~a, ~b) lokal umkehrbar. Wegen F~ (~a, ~b) = (~a, 0) ist damit die Gleichung f~(~x, ~y ) = ~0 wie behauptet
lokal bei (~a, ~b) durch eine C r -Funktion nach ~y auflösbar.
Anmerkung. Wir haben den Satz über implizite Funktionen aus dem Satz über lokale Umkehrbarkeit
abgeleitet. Das geht auch umgekehrt (vgl. z.B. [HeuA, Band 2, 171]. Beide Sätze sind also äquivalent.
6.5 Wozu ist der Satz über implizite Funktionen nützlich? Zunächst kann man aus dem Satz über
implizite Funktionen nicht ablesen, wie die Auflösung einer nichtlinearen Gleichung bewerkstelligt wird.
Damit erscheint der Satz ähnlich „unnütz“ wie der Satz vom Maximum 4.§2.4.7. Beide Sätze sind aber
von grundlegender Bedeutung, weil sie die Voraussetzung schaffen, konstruktive Methoden anzuwenden.
Für den Satz über implizite Funktionen illustrieren wir das an zwei Beispielen.
6.6 Zustandsgleichungen in der Thermodynamik. Zwischen dem Druck p, dem Molvolumen v und
der Temperatur T eines Gases besteht die Zustandsgleichung
F (p, v, T ) = 0
339
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
mit einer C ∞ -Funktion F . Für ein van der Waals Gas gilt beispielsweise
a
p + 2 (v − b) − RT = 0.
v
Ist nun im Zustand (p0 , v0 , T0 ) die Auflösebedingung
∂F
(p0 , v0 , T0 ) 6= 0
∂v
erfüllt, so können wir die Zustandsgleichung in der Nähe dieses Zustands durch eine Funktion ϕ nach v
auflösen. Aus der Identität
F (p, ϕ(p, T ), T ) = 0
erhalten wir durch partielles Differenzieren
∂F
∂ϕ
∂F
(p, v, T ) +
(p, v, T ) (p, T )
∂p
∂v
∂p
∂F
∂F
∂ϕ
(p, v, T ) +
(p, v, T )
(p, T )
∂T
∂v
∂T
Man nennt
κ := −
1 ∂ϕ
(p, T )
v ∂p
bzw.
α :=
=
0,
=
0.
1 ∂ϕ
(p, T )
v ∂T
die Kompressibiliät bzw. den thermischen Ausdehnungskoeffizient des Gases und schreibt häufig
∂v
∂ϕ
∂v
∂ϕ
statt
statt
,
bzw.
.
∂p T
∂p
∂T p
∂T
Ist also das Molvolumen v0 zum Druck p0 und zur Temperatur T0 bekannt, so erhalten wir durch Auflösen
der beiden obigen Gleichungen Kompressibilität und Ausdehnungskoeffizient in diesem Zustand zu
1
κ0 =
v0
∂F
∂p
∂F
∂v
(p0 , v0 , T0 )
(p0 , v0 , T0 )
,
α0 = −
1
v0
∂F
∂T
∂F
∂v
(p0 , v0 , T0 )
(p0 , v0 , T0 )
.
Die Veränderung des Molvolumen wird in erster Näherung beschrieben durch
(p, T ) 7→ ϕ(p0 , T0 ) +
∂ϕ
∂ϕ
(p0 , T0 )(p − p0 ) +
(p0 , T0 )(T − T0 ) = v0 (1 − κ0 (p − p0 ) + α0 (T − T0 )) .
∂p
∂T
6.7 Taylor-Approximation einer impliziten Funktion. Wir wollen die Gleichung
x = yexy
nach y auflösen. Ein einfaches Argument zeigt, dass dies für jedes x ∈ R eindeutig möglich ist: Für x = 0
muss y = 0 gelten. Für x > 0 ist y 7→ yexy eine streng monoton wachsende Abbildung von R auf sich,
d.h. die Gleichung x = yexy hat genau eine Lösung. Aus Symmetriegründen gilt gleiches für x < 0.
Also existiert genau eine Funktion g : R → R mit x = g(x)exg(x) für x ∈ R. Momentan wissen wir nur,
dass g punktsymmetrisch ist. Mit dem Satz über implizite Funktionen erhalten wir weitere Informationen.
Hierzu betrachten wir die C ∞ -Funktion
f : R2 → R,
f (x, y) := x − yexy .
Die partielle Ableitung ∂y f (x, y) = −(1 + xy)exy verschwindet nur für xy = −1. Für solche Punkte gilt
aber sicher x 6= 0 und dann f (x, −1/x) = x+1/(ex) = (ex2 +1)/(ex) 6= 0. Also ist der Satz über implizite
Funktionen anwendbar. Er zeigt uns, dass g eine C ∞ -Funktion ist.
340
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Mit dieser Information können wir g beispielsweise in x = 0 approximieren. Hierzu differenzieren wir die
Identität x = g(x)exg(x) und erhalten
1 = [g(x)2 + xg(x)g 0 (x) + g 0 (x)]exg(x)
für x ∈ R.
Durch Auswerten in x = 0 folgt aus g(0) = 0 dann g 0 (0) = 1. Da g punktsymmetrisch ist, muss g 00 (0) = 0
gelten. Durch weiteres Differenzieren der obigen Identität und Auswerten in x = 0 kann man sukzessive
höhere Ableitungen von g bestimmen. Man erhält g 000 (0) = −6, g (4) (0) = 0 und g (5) (0) = 180. Die ersten
sechs Taylor-Polynome von g in 0 lauten also
T1 (x) = T2 (x) = x,
T3 (x) = T4 (x) = x − x3 ,
3
T5 (x) = T6 (x) = x − x3 + x5 .
2
T1 = T2
T5 = T6
g
0.6
0.4
T3 = T4
0.2
-0.6
-0.4
-0.2
0.2
0.4
0.6
-0.2
-0.4
-0.6
Abbildung 6.14: Die implizite Funktion g mit x = g(x)exg(x) und ihre ersten sechs Taylor-Polynome in 0.
6.8 Parametrisierung von Lösungsmannigfaltigkeiten. Wir betrachten wieder eine C r -Abbildung
f~ : D ⊂ Rn → Rm mit n > m. Das Nullstellengebilde
Nf~ := {~x ∈ D | f~(~x) = ~0}
nennen wir Lösungsmannigfaltigkeit von f~, falls Nf~ 6= ∅ und falls df~(~x) in jedem Punkt ~x ∈ D die
Regularitätsbedingung rg df~(~x) = m erfüllt, d.h. die Gradienten der Komponentenfunktionen sind
∇f1 (~x), . . . , ∇fm (~x)
in jedem Punkt ~x ∈ D linear unabhängig.
Die Regularitätsbedingung stellt sicher, dass der Satz über implizite Funktionen anwendbar ist. An jeder
Stelle kann Nf~ daher lokal durch p = n − m Parameter beschrieben werden. Wir sagen, dass Nf~ die
Dimension p oder p Freiheitsgrade hat. Die Lösungsmannigfaltigkeit stellen wir uns als ein gekrümmtes
p-dimensionales Objekt im Rn vor.
6.9 Tangentialräume an Lösungsmannigfaltigkeiten. Ist ~a ∈ Nf~ ein Punkt auf der Lösungsmannigfaltigkeit und ist ~x : ] − ε, ε[→ D ein C 1 -Weg mit ~x(0) = ~a, der in der Lösungsmannigfaltigkeit verläuft,
so erhalten wir aus f~(~x(t)) = 0 mit der Kettenregel
~0 = d f~(~x(t))
= df~(~a)~x˙ (0).
dt
t=0
341
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
z
z
(x1 , y1 , z1 )
Nf
Nf
(x2 , y2 , z2 )
y
)
1
g2
g1
6
y
x
x
Abbildung 6.15: Eine zweidimensionale Lösungsmannigfaltigkeit Nf im R3 . An der Stelle (x1 , y1 , z1 ) ist
Nf lokal in der Form f (x, y, g1 (x, y)) = 0 nach z aufgelöst, an der Stelle (x2 , y2 , z2 ) lokal in der Form
f (x, g2 (x, z), z) nach y.
Komponentenweise gelesen bedeutet dies
h∇f1 (~a)|~x˙ (0)i = . . . = h∇fm (~a)|~x˙ (0)i = 0.
Für jeden Weg durch ~a in der Lösungsmannigfaltigkeit steht also der Tangentenvektor senkrecht auf
den Gradienten der Komponentenfunktionen von f~ an dieser Stelle. Den von diesen Tangentenvektoren
aufgespannte Raum nennen wir Tangentialraum der Lösungsmannigfaltigkeit im Punkt ~a und bezeichnen
ihn mit Tf~(~a). Es gilt dann
Tf~(~a)
= ~a + Span(∇f1 (~a), . . . , ∇fm (~a))⊥
= {~x ∈ Rn | h∇f1 (~a)|~x − ~ai = . . . = h∇fm (~a)|~x − ~ai = 0}.
Beispiel. Ein achsenparalleles Ellipsoid mit den Hauptachsenradien a, b, c > 0, d.h. die Menge der Punkte
(x, y, z) ∈ R3 mit
x 2 y 2 z 2
+
+
= 1,
a
b
c
ist eine zweidimensionale Lösungsmannigfaltigkeit im R3 . Das Ellipsoid lässt sich nämlich als Nullstellengebilde der Funktion
x 2 y 2 z 2
+
+
−1
f (x, y, z) :=
a
b
c
schreiben und der Gradient


2x/a2
∇f (x, y, z) =  2y/b2 
2z/c2
verschwindet nur für (x, y, z) = (0, 0, 0), d.h. für keinen Punkt auf dem Ellipsoid. Den Tangentialraum
an den „Nordpol“ (a, 0, 0) des Ellipsoids erhalten wir wegen ∇f (a, 0, 0) = (2/a, 0, 0)T zu
Tf (a, 0, 0) = {(x, y, z) ∈ R3 | 2/a(x − a) = 0} = {(a, y, z) ∈ R3 | x, y ∈ R}.
Das ist wie erwartet die Parallele zur (x, y)-Ebene durch den Nordpol.
342
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
Abbildung 6.16: Ein Ellipsoid als zweidimensionale Lösungsmannigfaltigkeit im R3 zusammen mit einem
Tangentialraum.
6.10 Niveaumengen und Gradientenlinien. Ist f : D ⊂ Rn → R eine C 1 -Funktion, so heißt für
c ∈ R die Menge
Nf,c := {~x ∈ D | f (~x) = c}
die Niveaumenge von f zum Niveau c.
Ist Nf,c nichtleer und gilt ∇f (~x) 6= ~0 für alle ~x ∈ Nf,c , so ist Nf,c eine (n − 1)-dimensionale Lösungsmannigfaltigkeit im Rn (nämlich das Nullstellengebilde von f − c) und wird auch eine (reguläre) Hyperfläche
genannt. Der Tangentialraum an einen Punkt ~a ∈ Nf,c ist dann ebenfalls (n − 1)-dimensional und in
Normalenform gegeben durch
Tf,c (~a) = {~x ∈ Rn | h∇f (~a)|~x − ~ai = 0}.
Eine Gradientenlinie von f ist ein C 1 -Weg ~x : ]c, d[→ D, dessen Tangentenvektor nirgends verschwindet
und an jeder Stelle in Richtung des Gradienten von f zeigt, d.h.
~x˙ (t) = λ(t)∇f (~x(t)) 6= ~0
mit λ(t) > 0.
Hieraus folgt unmittelbar: Jede Gradientenlinie ist orthogonal zu den Niveauflächen.
Im Fall n = 2 sind die Niveaumengen einer Funktion f : D ⊂ R2 → R mit (∂x f (x, y), ∂y f (x, y)) =
6 (0, 0)
entweder leer, einpunktig oder eindimensional. Fassen wir den Graphen (x, y) 7→ (x, y, f (x, y)) als eine
Gebirgslandschaft auf, so sind die Niveaulinien gerade die Höhenlinien. Ein Weg
t 7→ (x(t), y(t), f (x(t), y(t))
in diesem „Graphengebirge“ ist genau dann ein Weg steilsten Anstiegs, wenn t 7→ (x(t), y(t)) eine Gradientenlinie ist.
7
Lokale Extrema mit Nebenbedingungen
7.1 Problemstellung und Lösungsskizze. In den Anwendungen (z.B. in der theoretischen Mechanik)
hat man oft eine (reellwertige) Zielfunktion unter Nebenbedingungen zu maximieren oder zu minimieren.
Wir nehmen für das Weitere an, dass die Zielfunktion f : D ⊂ Rn → R eine C 1 -Funktion und der
Definitionsbereich D eine offene Menge ist. Die Nebenbedingungen, sagen wir m Stück, sollen mittels
einer C 1 -Funktion ~g : D → Rm in der Form ~g (~x) = 0 formulierbar sein. Unter der weiteren Annahme,
343
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Abbildung 6.17: Niveau- und Gradientenlinien sowie Graph einer Funktion in zwei Variablen.
dass d~g überall auf D maximalen Rang hat, können wir unser Problem nun folgendermaßen formulieren:
Suche die lokalen Maxima von f auf der Lösungsmannigfaltigkeit N~g , d.h. diejenigen Punkte ~a ∈ N~g mit
f (~x) ≤ f (~a)
für alle ~x ∈ N~g ∩ Br (~a)
für ein geeignetes r > 0, bzw. entsprechend für lokale Minima.
Bildlich gesprochen: Ein Wanderer will bei einer Gebirgswanderung (in der Gebirgslandschaft des Graphen von f ) die Hoch- und Tiefpunkte auf seinem Weg (modelliert durch die Nebenbedingungsgleichungen
~g = ~0) bestimmen. Die Gipfel und Senken des Gebirges (d.h. die lokalen Extrema von f ) sind für ihn
damit unwichtig. Es zählen nur die lokalen Extrema auf seinem Weg. Als Kandidaten hierfür kommen
nur diejenigen Punkte in Frage, in denen seine Bewegungsrichtung senkrecht zum Gradienten der Gebirgslandschaft läuft. Innerhalb der Gebirgslandschaft können das ganz unspektakuläre Punkte sein, für
den Wanderer sind sie aber extremal.
Etwas formaler: ein Punkt ~a ∈ D kann nur dann eine Extremalstelle sein, wenn für jede durch die
Nebenbedingung zugelassene Richtung ~v die Richtungsableitung ∂~v f (~a) = h∇f (~a)|~v i verschwindet, d.h.
~v ⊥ ∇f (~a). Die zulässigen Richtungen ihrerseits liegen im Tangentialraum T~g (~a) und stehen damit
senkrecht auf ∇g1 (~a), . . . , ∇gm (~a) (vgl. 6.9). Also muss ∇f (~a) in Span(∇g1 (~a), . . . , ∇gm (~a)) liegen. Dieses
Argument ist allerdings nur zulässig, wenn wir überhaupt Differentialrechnung ins Spiel bringen können
(über C 1 -Funktionen sprechen) und der Tangentialraum T~g (~a) existiert, d.h. d~g (~a) maximalen Rang hat.
Das erklärt die zuvor gemachten „technischen“ Annahmen.
Damit haben wir den Beweis der folgenden Multiplikatorenregel von Lagrange skizziert (vgl. z.B. [FiKau,
Band 1, §22.6], [HeuA, Band 2, 174] oder [Kön, Band 2, §3.6]).
7.2 Notwendige Bedingung für Extrema mit Nebenbedingungen. Gegeben sind eine offene Menge D ⊂ Rn sowie C 1 -Funktionen f : D → R und ~g : D → Rm . Besitzt f an der Stelle ~a ∈ D unter den
Nebenbedingungen ~g (~a) = ~0 ein lokales Extremum und ist die Regularitätsbedingung rg d~g (~a) = m erfüllt,
so gibt es eindeutig bestimmte Zahlen λ1 , . . . , λm ∈ R mit
∇f (~a) +
m
X
λk ∇gk (~a) = ~0.
k=1
Die Zahlen λ1 , . . . , λm werden Lagrange-Multiplikatoren genannt.
Anmerkung. Um die kritischen Punkte (d.h. die Kandidaten für lokale Extrema) von f ohne Nebenbedingungen zu bestimmen, hat man die n nichtlinearen Gleichungen
∇f (~x) = ~0
344
§1. DIFFERENTIALRECHNUNG IN MEHREREN VARIABLEN
für die n Unbekannten x1 , . . . , xn zu lösen. Um die kritischen Punkte von f unter den m Nebenbedingungen g1 (~x) = 0, . . . , gm (~x) = 0 zu finden, muss man die n + m nichtlinearen Gleichungen
∇f (~x) +
m
X
λk ∇gk (~x) = ~0,
g1 (~x) = 0,
...,
gm (~x) = 0,
k=1
für die n + m Unbekannten x1 , . . . , xn und λ1 , . . . , λm lösen. Das ist gleichbedeutend damit, die kritischen
Punkte (ohne Nebenbedingungen) des durch
F (~x, ~λ) := f (~x) +
n
X
λk gk (~x) = f (~x) + ~λT ~g (~x)
k=1
definierten Lagrange-Funktionals F : D × Rm → R zu bestimmen.
Achtung. Die Multiplikatorenregel von Lagrange liefert nur Kandidaten für lokale Extrema unter Nebenbedingungen (ähnlich wie die notwendige Bedingung ∇f (~x) = ~0 für lokale Extrema ohne Nebenbedingungen). Anschließend muss man die Kandidaten näher betrachten (vgl. 4.§3.5.3 und 4.§3.5.4 sowie 7.4).
7.3 Beispiel. Wir bestimmen
min x(x2 − 3) − 4y 2 + 28 | x2 + y 2 = 1 .
Das Minimum existiert, da eine stetige Funktion (nämlich (x, y) 7→ x(x2 − 3) − 4y 2 + 28) auf einer
kompakten Menge (hier der durch x2 + y 2 = 1 beschriebenen Einheitskreislinie) betrachtet wird.
30
1.5
20
1
0.5
10
0
1
0
-2
0
-1
0
-1
1
2
-0.5
-1
-1.5
-2
-1
0
1
2
Abbildung 6.18: Graph und Niveaulinien der Funktion f (x, y) = x(x2 − 3) − 4y 2 + 28 zusammen mit der
durch die Nebenbedingung x2 + y 2 = 1 gegebene Lösungsmannigfaltigkeit (hier eine Kreislinie).
Wir führen die C ∞ -Funktionen f, g : R2 → R mit
f (x, y) := x(x2 − 3) − 4y 2 + 28,
g(x, y) := x2 + y 2 − 1
ein und minimieren f unter der Nebenbedingung g = 0. Es gilt
2
3(x − 1)
2x
∇f (x, y) =
,
∇g(x, y) =
.
−8y
2y
345
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Da g nur in (0, 0) nicht regulär ist, dort aber g(0, 0) 6= 0 gilt, können wir beide Funktionen auf der
punktieren Ebene R2 r {(0, 0)} betrachten und die Multiplikatorenregel von Lagrange anwenden. Wir
müssen dann das Gleichungssystem
∇f (x, y) + λ∇g(x, y) = 0,
g(x, y) = 0
d.h. die drei nichtlinearen Gleichungen
3(x2 − 1) + 2λx = 0,
−8y + 2λy = 0,
x2 + y 2 − 1 = 0
lösen. Die zweite Gleichung ist nur für y = 0 oder λ = 4 erfüllt. Gilt y = 0, so folgt aus der dritten
Gleichung x = ±1 und aus der ersten λ = 0. Gilt λ = 4, so liefert die erste Gleichung
x = −3 oder
√
x = 1/3. Für x = −3 ist die dritte Gleichung√nicht lösbar, für x = 1/3 folgt y = ±2 2/3. Damit haben
wir die vier Kandidaten (±1, 0) und (1/3, ±2 2/3) für diejenigen Stellen ausgesondert, an denen f unter
der Nebenbedingung
g minimal wird. Durch Einsetzen erhalten wir f (1, 0) = 26, f (−1, 0) = 30 bzw.
√
f (1/3, ±2 2/3) = 634/27 < 26. Also gilt
√
7
min x(x2 − 3) − 4y 2 + 28 | x2 + y 2 = 1 = f ( 13 , ± 2 3 2 ) = 23 .
27
7.4∗ Hinreichende Bedingung für lokale Extrema unter Nebenbedingungen. Gegeben sind eine
offene Menge D ⊂ Rn sowie C 2 -Funktionen f : D → R und ~g : D → Rm . Wenn f an der Stelle ~a ∈ N~g
auf der Lösungsmannigfaltigkeit ein lokales Extremum besitzt, so erfüllt das Lagrange-Funktional
F (~x, ~λ) = ∇f (~x) + ~λT ~g (~x)
die zwei Bedingungen
∇F (~a, ~λ) = ~0,
und
~v T HF (~a, ~λ)~v > 0
für alle ~v ∈ Rn+m r {~0} mit d~g (~a)~v = ~0.
Eine Beweisidee findet man in [FiKau, Band 1, §22.6]. Die erste Bedingung ist gerade die notwendige
Bedingung aus der Multiplikatorenregel von Lagrange 7.2.
§2
Integralrechnung in mehreren Variablen
Der Umfang der mathematischen Vorbereitungen für eine Integrationstheorie hängt im Wesentlichen
davon ab, wieviele Funktionen man über welche Mengen integrieren möchte und wie einfach das Integral
rechentechnisch handzuhaben sein soll. Das klassische Riemann-Integral ist zwar leicht zu motivieren, für
viele Anwendungen in der theoretischen Physik (z.B. in der Quantenmechanik) aber nicht leistungsfähig
genug. Das für derartige Zwecke standardgemäß verwendete Lebesgue-Integral erfordert für eine saubere
Behandlung umfangreiche beweistechnische Vorbereitungen, die wir uns im Rahmen dieser Vorlesung
nicht leisten können (wer es genau wissen will, lese [Köh, Kapitel VI], [Kön, Band 2, 7] oder [HeuA,
Band 2, XVI und XXVI]. Wir wählen also einen Mittelweg, skizzieren in Abschnitt 1 die Grundidee des
Lebesgue-Integrals (die der des Regelintegrals aus 4.§4 ähnelt), geben die wichtigsten Rechenregeln ohne
Beweis an und legen den Schwerpunkt auf die Anwendungen.
1
Das Lebesgue-Integral
R
1.1 Überblick. Wie beim Regelintegral benötigen wir zunächst ein „Elementarintegral“ P f (~x) dvn (~x),
mit dem wir einfachen Mengen (den „Quadergebäuden“ P ⊂ Rn ) ein n-dimensionales Volumen vn (P )
zuordnen und einfache Funktionen (Treppenfunktionen f : Rn → R) integrieren können. Nachdem wir
dieses Elementarintegral eingeführt haben, setzen wir dieses durch einen Grenzübergang fort. Dabei
erhalten wir alle für den Umgang mit Integralen wichtigen Rechenregeln sowie einen genügend allgemeinen
346
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
Volumenbegriff. Im Abschnitt 2 wird die Berechnung von konkreten Integralen bzw. Volumina durch
sukzessive Integration auf den eindimensionalen Fall zurückgeführt. Im Abschnitt 3 erklären wir die
Transformationsformel für Integrale als zusätzliches Mittel zur Berechnung.
1.2 Quader und ihr Volumen. Was ein (achsenparalleler ) Quader
Q = I1 × · · · × In := {(x1 , . . . , xn ) ∈ Rn | xk ∈ Ik }
mit beschränkten Intervallen I1 , . . . , In
im Rn ist, haben wir schon in 4.§1.3.12 erklärt. Für unsere weiteren Zwecke ist es unerheblich, ob die
Intervalle Ik offen, halboffen oder abgeschlossen sind. Sie dürfen auch leer sein, aber nicht unbeschränkt.
Sind ck = inf Ik , dk = sup Ik ∈ R, die Randpunkte von Ik , so setzen wir |Ik | := dk − ck . Dann ist |Ik |
gerade die Länge des Intervalls Ik . Das n-dimensionale Volumen erklären wir durch
vn (Q) :=
n
Y
|Ik | = (d1 − c1 ) · · · (dn − cn ).
k=1
Gilt Ik = ∅ oder ist Ik einpunktig (ck = dk ) für ein k, so folgt vn (Q) = 0.
Der Rand ∂Q eines Quaders Q ist eine Vereinigung aus 2(n + 1) Seitenhyperflächen
∂Q = {c1 } × I2 × · · · × In ∪ {d1 } × I2 × · · · × In ∪ . . . ∪ I1 × · · · × In−1 × {cn } ∪ I1 × · · · × In−1 × {dn }.
Beispiel. Ein eindimensionaler Quader ist ein Intervall. Sein Rand besteht aus den beiden Intervallendpunkten.
Für n = 2 ist Q = I1 × I2 ein achsenparalleles Rechteck mit den vier Ecken (c1 , c2 ) (d1 , c2 ), (d1 , d2 ) und
(c1 , d2 ) und v2 (Q) = (d1 − c1 )(d2 − c2 ) gibt dessen Fläche („zweidimensionales Volumen“) an. Der Rand
∂Q besteht aus den vier Seitenlinien {c1 } × [c2 , d2 ], {d1 } × [c2 , d2 ], [c1 , d1 ] × {c2 } und [c1 , d1 ] × {d2 }.
Für n = 3 ist Q = I1 × I2 × I3 ein achsenparalleler Quader, der durch die beiden raumdiagonal gegenüberliegenden Ecken (c1 , c2 , c3 ) und (d1 , d2 , d3 ) festgelegt ist. Sein Rand setzt sich aus sechs Seitenflächen
zusammen.
Abbildung 6.19: Quader und ihr Ränder für n = 1, 2, 3.
1.3 Quadergebäude und ihr Volumen. Ein Quadergebäude oder eine parkettierbare Menge im Rn
P = Q1 ∪ Q2 ∪ · · · ∪ Qr ,
Qj1 ∩ Qj2 = ∅ für j1 6= j2
ist eine disjunkte Vereinigung von endlich vielen Quadern. Die Familie (Qj )j=1,...,r heißt Parkettierung
von P .
Jeder Quader ist parkettierbar. Eine parkettierbare Menge P besitzt viele verschiedene Parkettierungen.
Man kann aber zeigen, dass unabhängig von der Wahl der Parkettierung einem Quadergebäude durch
vn (P ) :=
r
X
j=1
vn (Qj )
347
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Abbildung 6.20: Ein Quadergebäude im R2 mit drei verschiedenen Parkettierungen.
ein n-dimensionales Volumen vn (P ) zugeordnet werden kann.
1.4 Charakteristische Funktionen und Treppenfunktionen. Für eine Teilmenge D ⊂ Rn nennen
wir
(
1 für ~x ∈ D,
n
χD : R → R,
χD (~x) :=
0 für ~x ∈ Rn r D
die charakteristische Funktion von D.
Sind Q1 , . . . , Qr ⊂ Rn paarweise disjunkte achsenparallele Quader und sind Zahlen c1 , . . . , cr ∈ R vorgegeben, so nennen wir
r
X
n
t : R → R,
t(~x) =
cj χQj (~x)
j=1
eine (reelle) Treppenfunktion.
Eine Treppenfunktion ist eine endliche Linearkombinationen von charakteristischen Funktionen achsenparalleler Quader. Sie ist auf ganz Rn definiert, nimmt aber nur auf dem Quadergebäude P = Q1 ∪· · ·∪Qr
von Null verschiedene Werte an und ist auf jedem der Quader Qj konstant mit Wert cj .
Pr
1.5 Elementarintegral für Treppenfunktionen. Für eine Treppenfunktion t = j=1 cj χQj erklären
wir durch
Z
r
X
t(~x) dvn (~x) :=
cj vn (Qj )
Rn
j=1
das (Elementar -)Integral von t.
RAnmerkung. Da t außerhalb des Quadergebäudes P = Q1 ∪ · · · ∪ Qr verschwindet, hätten wir auch
t(~x) dvn (~x) schreiben können.
P
Das Elementarintegral einer Treppenfunktion kann man sich (zumindest für n = 1, 2) als die Summe der
Volumina der (n + 1)-dimensionalen Quader über den Quadern Qj mit Höhen cj vorstellen. Für cj < 0
wird das Volumen negativ gezählt.
1.6 Nullmengen. Eine Teilmenge N ⊂ Rn heißt Nullmenge, falls es zu jedem ε > 0 eine Folge (Qj )j
von achsenparallelen Quadern Qj ∈ Rn gibt mit
N⊆
∞
[
j=1
Qj
und
∞
X
j=1
vn (Qj ) < ε.
348
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
Abbildung 6.21: Zum Elementarintegral einer reellen Treppenfunktion im R2 .
Abbildung 6.22: Nullmengen (hier im R2 bzw. R3 ) werden von Quaderfolgen überdeckt, deren Gesamtvolumen beliebig klein gemacht werden kann.
Beispiel. Jede endliche oder abzählbar unendliche Punktmenge ist eine Nullmenge, ebenso wie jeder entartete Quader (bei dem ein Intervall leer oder einpunktig ist) oder jede Hyperebene. Jede Teilmenge einer
Nullmenge ist selbst Nullmenge, ebenso endliche und abzählbar unendliche Vereinigungen. Insbesondere
ist der Rand eines Quaders oder eines Quadergebäudes eine Nullmenge.
1.7 „Fast überall“. Da die Ränder von Quadern Nullmengen sind, ist es beim Volumen eines Quaders,
eines Quadergebäudes oder dem Elementarintegral einer Treppenfunktion egal, ob die Intervalle der
beteiligten Quader offen, halboffen oder abgeschlossen sind. Insbesondere kann eine Treppenfunktion auf
einer Nullmenge abgeändert werden, ohne ihr Integral zu verändern.
Für derartige, im Rahmen der Integrationstheorie belanglose Abänderungen von Funktionen oder Mengen
benutzen wir folgende Sprechweise.
Wir nennen zwei reell- oder komplexwertige Funktionen f und g mit gemeinsamen Definitionsbereich
D ⊆ Rn fast überall gleich, wenn
f (~x) = g(~x)
für alle ~x ∈ D r N
mit einer Nullmenge N ⊂ Rn und schreiben dafür
f =g
f.ü.
f.ü.
f = g.
oder
Das verallgemeinert unsere Notation in 4.§4.1.4. Analog erklären wir
f.ü.
f ≤ g,
f.ü.
f < g,
f.ü.
f > g,
f.ü.
f ≥ g.
349
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Für eine Folge von reell- oder komplexwertigen Funktionen fk auf D erklären wir schließlich
lim fk = f
k→∞
f.ü.
oder
f.ü.
lim fk = f
k→∞
durch
für fast alle ~x ∈ D.
lim fk (~x) = f (~x)
k→∞
Die Funktionenfolge (fk )k konvergiert also auf D mit eventueller Ausnahme einer Nullmenge punktweise
gegen f .
Beispiel. Für die aus 4.§2.3.15 bekannte erste Dirichlet-Funktion d := χQ gilt d = 0 f.ü., da Q abzählbar
und damit eine Nullmenge in R ist.
1.8 Lebesgue-integrierbare Funktionen und Lebesgue-Integral. Nach diesen „elementaren“ Vorbereitungen erklären wir nun, was eine Lebesgue-integrierbare Funktion und deren Integral sind. Das
Motiv ist einfach: das Elementarintegral für Treppenfunktionen soll erhalten bleiben und möglichst viele
Funktionen sollen integrierbar werden. Dieser Wunsch wird durch den folgenden Existenzsatz erfüllt.
Für jede Dimension n ∈ N existiert ein eindeutig bestimmter R-Vektorraum V von Funktionen f : Rn → R
und eine eindeutig bestimmte Linearform
Z
f 7→
f (~x) dvn (~x)
Rn
mit den folgenden drei Eigenschaften:
(L1) Für f, g ∈ V gilt
Z
Z
f (~x) dvn (~x) ≤
g(~x) dvn (~x)
Rn
falls f ≤ g f.ü..
Rn
(L2) Für jede Treppenfunktion t = c1 χQ1 + · · · + cr χQr : Rn → R gilt
Z
t∈V
und
t(~x) dvn (~x) = c1 vn (Q1 ) + · · · + cr vn (Qr ).
Rn
(L3) Ist
Folge von Funktionen fk ∈ V , ist die Folge der Zahlen
R (fk )k eine fast überall monoton wachsende
n
f
(~
x
)
dv
(~
x
)
beschränkt
und
ist
f
:
R
→
R
eine Funktion mit f = limk→∞ fk f.ü., so gilt
k
n
n
R
Z
Z
f ∈V
und
f (~x) dvn (~x) = lim
fk (~x) dvn (~x).
k→∞
Rn
Rn
Wir nennen V den Raum der Lebesgue-integrierbaren Funktionen in n Variablen und bezeichnen ihn mit
L(Rn , R)
oder
L(Rn ).
R
Für das (Lebesgue-)Integral Rn f (~x) dvn (~x) sind unter anderem die folgenden Bezeichnungen gebräuchlich
Z
Z
Z
Z
Z
n
n
f (~x) dvn (~x),
f dvn ,
d ~x f,
f (x1 , . . . , xn ) d (x1 , . . . , xn ),
f dx1 · · · dxn .
Rn
Rn
Rn
Die ersten beiden Varianten tragen u.a. der Tatsache Rechnung, dass formal immer über den gesamten
Rn integriert wird und dürfen nicht als unbestimmte Integrale (siehe 4.§4.2.4) interpretiert werden.
Eine Funktion f : D ⊂ Rn → R nennen wir auf D Lebesgue-integrierbar, wenn die durch f (~x) := 0 für
~x ∈ Rn r D auf den ganzen Rn fortgesetzte Funktion integrierbar ist. Ihr Integral bezeichnen wir dann
mit
Z
f (~x) dvn (~x)
D
350
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
und den R-Vektorraum dieser Funktionen mit L(D, R) oder L(D). Bei einem Integrationsbereich D ⊆ R2
in der Ebene schreibt man auch
ZZ
Z
Z
ZZ
f (x, y) dF,
f dA,
f (x, y) d2 (x, y),
f (x, y) dx dy
D
D
D
D
und bei einer Integration über eine Teilmenge D ⊆ R3 im Raum
ZZZ
Z
Z
f (~x) dV,
f (x, y, z) d3 (x, y, z),
dx dy dz f (x, y, z)
D
D
D
oder Ähnliches.
1.9 Volumen einer Menge. Ist D eine Teilmenge des Rn deren charakteristische Funktion χD Lebesgueintegrierbar ist, so erklären wir das n-dimensionale Volumen von D durch
Z
vn (D) :=
χD (~x) dvn (~x).
D
Anmerkung. Man kann zeigen, dass insbesondere offene und beschränkte sowie kompakte Teilmengen
des Rn ein Volumen besitzen. Es gibt aber auch Teilmengen des Rn , deren charakteristische Funktionen
nicht Lebesgue-integrierbar sind. Das Spiel mit solchen Mengen führt zum Banach-Hausdorff-TarskiParadoxon, das in seiner allgemeinen Form folgendes besagt: Ist n ≥ 3 und sind A, B ⊂ Rn beliebige
Mengen mit inneren Punkten, dann gibt es eine Zahl m ∈ N und diskjunkte Zerlegungen A = A1 ∪· · ·∪Am
bzw. B = B1 ∪ · · · ∪ Bm mit fj (Aj ) = Bj , wobei f1 , . . . , fm Bewegungungen des Rn sind. Insbesondere
kann eine Kugel (das ist A) im R3 in m = 5 Teile zerlegt werden, die, geeignet bewegt, zusammen zwei
Kugeln (die bilden B) ergeben. Die Paradoxie der scheinbaren Volumenverdoppelung löst sich dadurch
auf, dass den Aj kein Volumen zugeordnet werden kann.
1.10 Anmerkungen.
R
• Die Forderungen „f 7→ Rn f (~x) dvn (~x) ist eine Linearform“ und (L1) liefern grundlegende Rechenregeln für ein Integral: Linearität und Monotonie.
• Durch (L2) wird sichergestellt, dass Treppenfunktionen integriert werden können und Quadergebäude ein Volumen erhalten, welches unserer Anschauung entspricht.
• (L3) kann als eine Verallgemeinerung des Monotoniekriteriums für Zahlenfolgen 1.§2.8.3 angesehen
werden und garantiert ähnlich wie die Supremumseigenschaft (A9), dass genügend viele Funktionen Lebesgue-integrierbar sind. Im Gegensatz zu unserem Vorgehen in 4.§4.1 bei der Einführung
des Regelintegrals wird aber über die Grenzfunktion weniger verlangt (punktweise Konvergenz der
Funktionenfolge fast überall und Beschränktheit der Integrale statt gleichmäßiger Konvergenz der
Funktionenfolge). Folgen mit den in (L3) genannten Eigenschaften heißen Levi-Folgen.
• Lebesgue-integrierbare Funktionen dürfen auf Nullmengen modifiziert werden, ohne die Integrierbarkeit zu verlieren und den Wert des Integrals zu verändern.
• Das Lebesgue-Integral unterscheidet nicht zwischen eigentlichen und uneigentlichen Integralen. Jede
Funktion wird (nach Fortsetzung auf Rn wie zuvor geschildert) über den ganzen Rn integriert.
• Die Volumenberechnung wird auf die Integration von charakteristischen Funktionen zurückgeführt
(man hätte es auch umgekehrt machen können).
1.11 Rechenregeln für Integrale. Sind f, g : D ⊂ Rn → R integrierbar und sind λ, µ ∈ R, so gilt
(a) λf + µg, max{f, g}, min{f, g}, f + := sup{f, 0}, f − := inf{f, 0} sowie |f | sind integrierbar,
R
R
R
(b) (Linearität) D (λf + µg) dvn = λ D f dvn + µ D g dvn ,
R
R
(c) (Monotonie im Integranden) D f dvn ≤ D g dvn falls f ≤ g f.ü.,
351
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
R
|f | dvn ≥ 0 mit Gleichheit genau dann, wenn f = 0 f.ü.,
R
(e) (Beschränktheit) | D f dvn | ≤ kf k∞,D vn (D).
(d) (Definitheit)
D
Ist f auf D1 ⊂ Rn und D2 ⊂ Rn integrierbar, so gilt
R
R
R
(f) (Additivität im Integrationsbereich) D1 f dvn + D2 f dvn = D1 ∪D2 f dvn falls D1 ∩ D2 Nullmenge ist,
R
R
(g) (Monotonie im Integrationsbereich) D1 f dvn ≤ D2 f dvn falls D1 ⊆ D2 und f ≥ 0 f.ü.
1.12 Rechenregeln für Volumina. Sind A, B ⊂ Rn zwei Teilmengen mit Volumen, so gilt
(h) A ∪ B, A ∩ B und A r B haben Volumen,
(i) vn (A r B) = vn (A) − vn (A ∩ B),
(j) vn (A ∪ B) = vn (A) + vn (B) − vn (A ∩ B).
1.13 Integrale von komplex- oder vektorwertigen Funktionen erklären wir durch Real- und Imaginärteilbildung bzw. komponentenweise:
Z
Z
Z
f dvn :=
Re(f ) dvn + i
Im(f ) dvn ,
D
D
D
falls f komplexwertig und Re f, Im f Lebesgue-integrierbar, bzw.
R

f dvn
Z
D 1


..
f~ dvn := 
,
.
R
D
f dvn
D m
falls f~ vektorwertig mit Werten im Rm und Lebesgue-integrierbaren Komponentenfunktionen f1 , . . . , fm .
1.14 Vertauschungssätze. Die beiden folgenden Vertauschungssätze machen den Umgang mit dem
Lebesgue-Integral angenehm. Den ersten kennen wir schon aus (L3).
(Satz von Levi über monotone Konvergenz) Ist (fk )k eine
fast überall monoton wachsende Folge von
R
Funktionen fk ∈ L(Rn ) und ist die Folge der Zahlen Rn fk dvn beschränkt, so gibt es eine Funktion
f ∈ L(Rn ) mit
Z
Z
f.ü.
f = lim fk
und
f dvn = lim
fk dvn .
k→∞
k→∞
Rn
Rn
(Satz von Lebesgue über beschränkte Konvergenz) Ist (fk )k eine Folge von Funktionen fk ∈ L(Rn ), die
fast überall punktweise gegen eine Funktion f : Rn → R konvergiert, und existiert eine Funktion g ∈ L(Rn )
mit
f.ü.
|fk | ≤ g
für alle k,
so gilt f ∈ L(Rn ) und
Z
Z
f dvn = lim
Rn
k→∞
fk dvn .
Rn
1.15∗ Hilbertsche Funktionenräume. Für D ⊂ Rn und stetiges ρ : D → R+ nennt
man eine auf D
R
definierte Funktion f bezüglich des Gewichts ρ über D quadratintegrierbar , falls D |f (~x)|2 ρ(~x) dvn (~x)
existiert. Die Klasse dieser Funktionen wird ein Hilbertscher Funktionenraum genannt und mit L2 (D)
bezeichnet. Auf solch einem (reellen bzw. komplexen) Funktionenraum kann man ein Skalarprodukt
erklären und die Theorie von Vektorräumen mit Skalarprodukten einsetzen (vgl. 5.§7.2).
352
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
1.16 Regelintegral und Lebesgue-Integral. Für Funktionen einer Variablen haben wir in 4.§4.1
und 4.§6.3 Integrale erklärt. Zunächst konnten wir gewisse Funktionen (Regelfunktionen) über kompakte
Intervalle integrieren, anschließend haben wir den Integralbegriff auf (absolut bzw. bedingt) uneigentliche
Integrale über halboffene, offene oder unbeschränkte Intervalle erweitert. Zwischen diesen Integralen und
dem Lebesgue-Integral im R1 besteht folgender Zusammenhang.
Jede über ein kompaktes Intervall integrierbare Regelfunktion und jede uneigentlich absolut integrierbare
Funktion in einer Variablen ist Lebesgue-integrierbar und die Werte der Integrale stimmen überein.
Integrale für Funktionen in einer Variablen können wir also wie bisher ausrechnen. Die Integration von
Funktionen mehrerer Variablen wird im folgenden Abschnitt auf die sukzessive Integration von Funktionen
einer Variablen zurückgespielt.
2
Berechnung von Integralen durch sukzessive Integration
R
2.1 Wie geht es weiter? Ein Lebesgue-Integral D f dvn können wir bisher nur im Fall n = 1 und
D = [c, d] ausrechnen und auch nur dann, wenn f eine Regelfunktion ist, also überall einseitige Grenzwerte
besitzt. Für n ≥ 2 wird die Integration „scheibchenweise“ ausgeführt. Diesen Zugang motivieren wir
zunächst historisch und geben anschließend eine saubere Formulierung.
2.2 Cavalierisches Prinzip. Wenn zwei Körper von jeder Ebene einer Schar paralleler Ebenen in
Flächen mit gleichem Inhalt geschnitten werden, dann haben die beiden Körper gleiches Volumen.
Dieses Cavalieri (1598–1647), einem Schüler von Galilei, zugeschriebene Prinzip legt nahe, das n-dimensionale Volumen eines Körpers K ⊂ Rn rekursiv durch Zerlegung desselben in Schnittkörper
Kt := {(x1 , . . . , xn−1 ) ∈ Rn−1 | (x1 , . . . , xn−1 , t) ∈ K}
und Berechnung von
d
Z
vn (K) =
vn−1 (Kt ) dt
c
auszuführen. Die Volumenberechnung wird also auf Flächenberechnungen zurückgeführt.
Auf diese Weise hat schon Archimedes im 3. Jahrhundert v. Chr. — also lange vor Cavalieri — das
Volumen von Zylindern, Kegeln und Kugeln im R3 bestimmt.
Für einen Zylinder Z der Höhe h und mit Grundkreisradius r ist beispielsweise jeder Schnittkörper Zt
mit der Ebene z = t eine Kreisscheibe der Fläche πr2 und wir erhalten
Z h
v3 (Z) =
πr2 dt = πr2 h.
0
2.3 Kegelvolumen nach Cavalieri. Ein gerader Kreiskegel im R3 mit Höhe h und Grundkreisradius r
ist eine Menge der Gestalt
z 2 2
r .
A = (x, y, z) ∈ R3 | 0 ≤ z ≤ h, x2 + y 2 ≤ 1 −
h
Der Schnitt von A mit der Ebene z = t ist für 0 ≤ t ≤ h ein Kreis mit Radius (1−t/h)r und Flächeninhalt
π(1 − t/h)2 r2 . Nach Cavalieri hat der Kegel also das Volumen
Z
vn (A) =
0
h
t
π 1−
h
2
2
r dt = πr
2
Z
0
1
ht2 dt =
π 2
r h.
3
Diese Volumenformel bleibt nach Cavalieri auch für schiefe Kreiskegel gültig.
353
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
h
t
0
Abbildung 6.23: Gerader und schiefer Kreiskegel im R3 .
2.4 Kugelvolumen nach Cavalieri. Eine Kugel
K = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 ≤ r2 }
mit Radius r schneidet mit der Ebene z = t für −r ≤ t ≤ r eine Kreisscheibe Kt vom Radius
aus. Selbige ist flächengleich zu einem Kreisring At mit Innenradius t und Außenradius r:
v2 (Bt ) = π(r2 − t2 ),
√
r 2 − t2
v2 (At ) = πr2 − πt2 .
Die Kreisringe At ihrerseits schneiden aus einem Zylinder Z der Höhe 2r zwei Kreiskegel A mit Grundkreisradius r und Höhe r aus. Daher gilt für das Kugelvolumen
π
4π 3
v3 (K) = v3 (Z) − 2v3 (A) = πr2 · 2r − 2 r2 · r =
r .
3
3
r
t
0
−r
Abbildung 6.24: Kugelvolumen im R3 nach Cavalieri.
2.5 Sukzessive Integration. Dem Cavalierischen Prinzip fehlt eine Rechtfertigung dafür, dass für
einen Körper K ⊂ Rn mit n-dimensionalem Volumen auch jeder Schnittkörper Kt ⊂ Rn−1 ein (n − 1)dimensionales Volumen besitzt und dass man das Volumen „scheibchenweise“ berechnen kann. Dies wollen
wir auch für Integrale über Funktionen tun. Im Fall n = 2 wäre das für ein Flächenstück K mit Schnittlinien Ky , c ≤ y ≤ d, parallel zur x-Achse die Beziehung
!
ZZ
Z d Z
2
f (x, y) d (x, y) =
f (x, y) dx dy,
K
c
Ky
wobei die Integrierbarkeit
von f über K die von x 7→ f (x, y) über Ky für jedes y ∈ [c, d] und dann auch
R
die von y 7→ Ky f (x, y) dx implizieren sollte.
Dass alles gut geht, besagt der folgende Satz in einer recht allgemeinen Form.
354
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
(Satz von Fubini) Ist f über den Rn Lebesgue-integrierbar und ist k = 1, 2, . . . , n − 1 so gilt Folgendes.
• Die Funktion (x1 , . . . , xk ) 7→ f (x1 , . . . , xn ) ist für fast alle (xk+1 , . . . , xn ) über den Rk Lebesgueintegrierbar und
Z
(xk+1 , . . . , xn ) 7→
f (x1 , . . . , xn ) dx1 · · · dxk
Rk
ist dann über den R
n−k
Lebesgue-integrierbar.
• Die Funktion (xk+1 , . . . , xn ) 7→ f (x1 , . . . , xn ) ist für fast alle (x1 , . . . , xk ) über den Rn−k Lebesgueintegrierbar und
Z
(x1 , . . . , xk ) 7→
f (x1 , . . . , xn ) dxk+1 · · · dxn
Rn−k
ist dann über den Rk Lebesgue-integrierbar.
• Es gilt
Z
f (x1 , . . . , xn ) dx1 · · · dxn
Z
Z
f (x1 , . . . , xn ) dx1 · · · dxk
=
Rn
Rn−k
Rk
Z
Z
=
Rk
dxk+1 · · · dxn
f (x1 , . . . , xn ) dxk+1 · · · dxn dx1 · · · dxk .
Rn−k
Eine wiederholte Anwendung des Satzes von Fubini liefert
Z
Z
Z Z
f (x1 , . . . , xn ) dx1 . . . dxn =
···
f (x1 , . . . , xn ) dx1 · · · dxn−1 dxn .
Rn
R
R
R
Kurz gesagt: ein n-dimensionales Lebesgue-Integral kann sukzessive ausgerechnet werden und es kommt
dabei nicht auf die Reihenfolge an. Darum werden wir im Weiteren auch die Klammern weglassen.
Falls f auf einem Quader Q = [c1 , d1 ] × · · · [cn , dn ] definiert ist, erhalten wir insbesondere
!
!
Z
Z
Z
Z
dn−1
dn
Q
d1
···
f (x1 , . . . , xn ) dx1 . . . dxn =
cn
cn−1
· · · dxn−1
f (x1 , . . . , xn ) dx1
dxn .
c1
Anmerkung. Umgekehrt sagt ein Satz von Tonelli, dass aus der absoluten Integrierbarkeit der partiellen
Funktionen auch die der Funktion selbst folgt.
2.6 Integration über achsenparallele Quader. Wollen wir eine Funktion über einen achsenparallelen
Quader integrieren, so erhalten wir nach Fubini beispielsweise
π
ZZ
Z π/2 Z π
Z π/2
cos(x + y) d2 (x, y) =
cos(x + y) dx dy =
sin(x + y) dy
[0,π]×[0,π/2]
0
Z
0
0
π/2
0
Z
π/2
(sin(π + y) − sin(y)) dy =
=
0
(−2 sin y) dy
0
π/2
= 2 cos y = 2(0 − 1) = −2,
0
Z 1Z 1Z 1
Z 1
Z
xyz d3 (x, y, z) =
xyz dx dy dz =
x dx
ZZZ
[0,1]3
0
0
0
0
1
Z
1
y dy
0
z dz
0
3 3
1
1
= ,
t dt =
2
8
0
∞ Z
Z ∞
Z +∞
2
2
2xe−x dx
e−|y| dy = −e−x · 2
=
Z
1
=
ZZ
R+ ×R
2
2xe−x
−|y|
d2 (x, y)
0
=
−∞
[0 − (−1)] · 2 · 1 = 2.
0
0
∞
e−y dy
355
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
2.7 Integration nach Darstellung des Integrationsbereichs durch Randfunktionen. Kann der
Integrationsbereich durch Randfunktionen beschrieben werden, so ist ebenfalls eine sukzessive Integration
möglich.
Die Kreisfläche K = {(x, y) ∈ R2 | x2 +√y 2 ≤ 1} kann beispielsweise als das Flächenstück zwischen den
Graphen der beiden Funktionen x 7→ ± 1 − x2 , x ∈ [−1, 1], interpretiert werden. Damit gilt
ZZ
2
v2 (K) =
d (x, y)
=
(1 − x2 − y 2 ) d2 (x, y)
√
Z
1−x2
√
− 1−x2
√
1−x2
1 Z
Z
Z
=
−1
K
1
dy dx =
−1
K
ZZ
1
Z
−1
(1
√
− 1−x2
1
p
p
2
2
2 1 − x dx = x 1 − x + arcsin x = π,
−1
− x2 − y 2 ) dy dx =
Z
1
−1
4
π
(1 − x2 )3/2 dx = .
3
2
Das zweite Integral kann man als Integration der Funktion (x, y) 7→ 1 − x2 − y 2 über die Kreisscheibe
K
√
auffassen oder als das Volumen des „Zuckerhuts“ Z := {(x, y, z) ∈ R3 | 0 ≤ z ≤ 1, x2 + y 2 ≤ 1 − z}.
√
1
1
0.5
1 − x2
0.5
0
0
-0.5
-0.5
-1
1
1-1
0.8
0.75
0.6
0.5
0.4
0.25
√
− 1 − x2
0.2
0
-1
0
-1
-0.5
-0.5
0
0
0.5
0.5
1
1
Abbildung 6.25: Sukzessive Integration zur Berechnung der Kreisfläche bzw. des Zuckerhutvolumens.
3
Transformationsformel für Integrale
3.1 Transformationsformel. Wir notieren die Substitutionsregel 4.§4.3.4 in einer leicht modifizierten
Form: Ist ϕ : [c, d] → R eine injektive C 1 -Funktion mit ϕ0 (x) 6= 0 für alle x ∈ [c, d], so gilt
Z
ϕ(d)
Z
f (y) dy =
ϕ(c)
d
f (ϕ(x))|ϕ0 (x)| dx.
c
Dem entspricht im Rn die folgende Transformationsformel .
Ist D ⊆ Rn eine offene Menge und ist ϕ
~ : D → Rn eine injektive C 1 -Funktion mit det(d~
ϕ(~x)) 6= 0 für
1
alle ~x ∈ D (d.h. ist ϕ
~ ein C -Diffeomorphismus von D auf ϕ
~ (D)), so ist für jede über ϕ
~ (D) integrierbare
Funktion f die Funktion (f ◦ ϕ
~ ) · | det d~
ϕ| über D integrierbar mit
Z
Z
f (~y ) dvn (~y ) =
f (~
ϕ(~x)) · | det(d~
ϕ(~x))| dvn (~x).
ϕ
~ (D)
D
Der Beweis der Transformationsformel ist ziemlich kompliziert und erfordert umfassende Vorbereitungen.
Das liegt daran, dass anders als im Fall einer Variablen kein Hauptsatz der Differential- und Integralrechnung zur Verfügung steht. Ja umgekehrt: die Integralsätze in §3, welche man als höherdimensionale
Analoga des Hauptsatzes auffassen kann, werden aus der Transformationsformel abgeleitet.
Statt eines Beweises begnügen wir uns daher mit der nachfolgenden heuristischen Betrachtung und gehen
anschließend auf Anwendungen der Transformationsformel ein.
356
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
3.2 Heuristik zur Transformationsformel.
Ist ϕ
~ : D → Rn stetig
und injektiv, so
R
Pdifferenzierbar
r
approximieren wir das Volumen vn (D) = D dvn durch die Summe j=1 vn (Qj ) der Volumina eines
Systems von disjunkten achsenparallelen Quadern Qj , deren Vereinigung ungefähr mit D übereinstimmt.
Wenn die Qj klein sind, so kann ϕ
~ auf Qj näherungsweise durch eine lineare Abbildung d~
ϕ(~aj ) mit
einem Punkt ~aj ∈ Qj ersetzt werden. Das Bild d~
ϕ(~aj )(Qj ) ist ein Parallelotop, welches das etwas verzerrte Parallelotop ϕ
~ (Qj ) in erster Ordnung approximiert, also ungefähr dasselbe Volumen besitzt. Das
Bildparallelotop d~
ϕ(~aj )(Qj ) hat gemäß 5.§4.3.6 das Volumen
vn (d~
ϕ(~aj )(Qj )) = | det(~
ϕ(~aj )| · vn (Qj ).
Wir erhalten also näherungsweise
vn (~
ϕ(D)) ≈
r
X
vn (~
ϕ(Qj )) ≈
j=1
r
X
| det(~
ϕ(~aj )| · vn (Qj )
j=1
und nach einem geeignet ausgeführten Grenzübergang vermutlich
Z
Z
vn (~
ϕ(D)) =
dvn (~y ) =
| det(d~
ϕ(~x))| dvn (~x).
ϕ
~ (D)
D
Ist nun f eine stetige Funktion auf ϕ
~ (D), so ändert sich an dieser Überlegung nicht viel, da f sich lokal
(z.B. auf einem verzerrten Parallelotop ϕ
~ (Qj )) nur wenig ändert. Dies motiviert die Transformationsformel
Z
Z
f (~y ) dvn (~y ) =
f (~
ϕ(~x)) · | det(d~
ϕ(~x))| dvn (~x).
ϕ
~ (D)
D
ϕ
~ (D)
ϕ
~
*
D
ϕ
~ (D)
HH
j
H
Abbildung 6.26: Heuristik zur Transformationsformel
3.3 Bewegungsinvarianz des Volumens. Ist
ϕ
~ (~x) := U~x + ~b
mit U ∈ O(n), ~b ∈ Rn
eine Bewegung des Rn mit einer orthogonalen Matrix U , so gilt | det(d~
ϕ(~a))| = | det(U )| = 1 und damit
Z
Z
Z
vn (~
ϕ(K)) =
dvn =
| det(d~
ϕ)(~x)| dvn (~x) =
dvn = vn (K)
ϕ
~ (K)
K
n
für jede Teilmenge K ⊂ R , die ein Volumen besitzt.
Das n-dimensionale Volumen ist invariant unter Bewegungen des Rn .
K
357
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
3.4 Volumenänderung bei affinen Abbildungen. Analog verifizieren wir für eine affine Abbildung
ϕ
~ (~x) := Ax + ~b
mit A ∈ GL(n), ~b ∈ Rn
die Beziehung
vn (~
ϕ(K)) = | det A|vn (K).
Das n-dimensionale Volumen ändert sich bei einer affinen Abbildung ~x 7→ A~x + ~b um den Faktor | det A|.
3.5 Transformation auf Polarkoordinaten. Ist
K = K(R1 , R2 ) := {(x, y) ∈ R2 | R1 2 ≤ x2 + y 2 ≤ R2 2 }
der Kreisring um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞, und ist f über K
integrierbar, so gilt
ZZ
Z 2π Z R2
2
f (r cos ϕ, r sin ϕ) rdr dϕ.
f (x, y) d (x, y) =
R1
0
K
Ist f insbesondere rotationssymmetrisch, d.h. gilt f (x, y) = F (r) für alle (x, y) ∈ K mit r =
so folgt
ZZ
Z R2
f (x, y) d2 (x, y) = 2π
F (r) rdr.
K
p
x2 + y 2 ,
R1
~ ϕ) = (r cos ϕ, r sin ϕ) von
Beweis. Transformationsformel für die Polarkoordinatentransformation Φ(r,
]R1 , R2 [×]0, 2π[ auf den offenen geschlitzten Kreisring
{(x, y) ∈ R2 | R1 2 < x2 + y 2 < R2 2 , y = 0 ⇒ x ≤ 0}.
~ ϕ)) = r. Die beiden angegebenen Integrationsbereiche werden von Φ
~ C ∞ -diffeomorph
Es gilt det(dΦ(r,
aufeinander abgebildet. Sie unterscheiden sich vom Quader [R1 , R2 ]×[0, 2π] bzw. dem Kreisring K(R1 , R2 )
nur um eine Nullmenge, erlauben aber die Anwendung der Transformationsformel.
R +∞
√
2
Beispiel. −∞ e−x dx = π.
Wir berechnen dieses Integral mit folgendem Trick, der mittels Fubini zu einer Funktion in zwei Variablen
übergeht.
Z
+∞
e
−x2
2
dx
Z
=
−∞
e
−x2
Z
dx
e
R
Z
=
+∞
−r 2
e
0
ZZ
dy =
e
−x2 −y 2
e
ZZ
+y 2 )
d2 (x, y)
K(0,∞)
+∞
Z
rdr dϕ = 2π
−r 2
re
0
2
e−(x
dx dy =
R2
R
2π
Z
−y 2
0
2 R
−e−r = π.
dr = 2π lim
R→+∞
2 0
3.6 Transformation auf Zylinderkoordinaten. Ist
Z = Z(R1 , R2 , z1 , z2 ) := {(x, y, z) ∈ R3 | R1 2 ≤ x2 + y 2 ≤ R2 2 , z1 ≤ z ≤ z2 }
der Zylinderring um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞ und Anfangshöhe z1 bzw.
Endhöhe z2 , und ist f über Z integrierbar, so gilt
ZZZ
Z 2π Z R2 Z z2
3
f (x, y, z) d (x, y, z) =
f (r cos ϕ, r sin ϕ, z) dz rdr dϕ.
Z
0
R1
z1
Ist f insbesondere
rotationssymmetrisch zur z-Achse, d.h. gilt f (x, y, z) = F (r, Z) für alle (x, y, z) ∈ Z
p
mit r = x2 + y 2 , so folgt
ZZZ
f (x, y, z) d3 (x, y, z) = 2π
Z
Z
z2
Z
R2
F (r, z) rdr dz.
z1
R1
358
§2. INTEGRALRECHNUNG IN MEHREREN VARIABLEN
Beweis. Transformationsformel für die Zylinderkoordinatentransformation


r cos ϕ
~ ϕ, z) =  r sin ϕ 
Φ(r,
z
~ ϕ, z)) = r. Man muss die Halbebene {(x, 0, z) ∈ R3 | x > 0, z ∈ R} — also eine Nullmenge
mit det(dΦ(r,
— ausschließen.
3.7 Transformation auf Kugelkoordinaten. Ist
K = K(R1 , R2 ) := {(x, y, z) ∈ R3 | R1 2 ≤ x2 + y 2 + z 2 ≤ R2 2 }
die Kugelschale um den Ursprung mit Radien R1 und R2 , 0 ≤ R1 < R2 ≤ +∞, und ist f über K
integrierbar, so gilt
ZZZ
Z 2π Z π Z R2
f (r sin θ cos ϕ, r sin θ sin ϕ, r cos θ) r2 dr sin θdθ dϕ.
f (x, y, z) d3 (x, y, z) =
K
R1
0
0
Ist f radialsymmetrisch, d.h. gilt f (x, y, z) = F (r) für alle (x, y, z) ∈ K mit r =
ZZZ
3
Z
R2
f (x, y, z) d (x, y, z) = 4π
Z
p
x2 + y 2 + z 2 , so folgt
F (r) r2 dr.
R1
Beweis. Transformationsformel für die Kugelkoordinatentransformation


r sin θ cos ϕ
~ θ, ϕ) =  r sin θ sin ϕ 
Φ(r,
r cos θ
~ θ, ϕ)) = r2 sin θ unter Ausschluss einer geeigneten Nullmenge (der Halbebene durch den
mit det(dΦ(r,
Nullmeridian).
Beispiel. Wir betrachten das rotationssymmetrische Potential ~x 7→ k~xk−α und erhalten
Z
0<k~
xk<R
Z
1≤k~
xk<R
1
d3 (~x)
k~xkα
1
d3 (~x)
k~xkα
Z
=
R
4π
0
Z
=
4π
1
R
4π
1 2
r dr =
R3−α
für α < 3,
rα
3−α

 4π (1 − R3−α ) für α > 0, α 6= 3,
1 2
α−3
r
dr
=
4π ln R
rα
für α = 3.
R
R
Insbesondere folgt k~xk≥1 k~xk−α d3 (~x) = 4π/(α − 3) für α > 3. Das Integral 0<k~xk<R
divergiert für R → ∞.
1
k~
xk3
d3 (~x) dagegen
3.8 Allgemeines Kugelvolumen. Das Volumen einer n-dimensionalen Kugel
p
Kn (R) := {~x ∈ Rn | k~xk = x1 2 + · · · + xn 2 ≤ R}
vom Radius R > 0 bestimmen wir entweder durch sukzessive Integration oder für n ≥ 3 mit ndimensionalen Kugelkoordinaten


r sin θn−2 · · · sin θ1 cos ϕ
 r sin θn−2 · · · sin θ1 sin ϕ 


 r sin θn−2 · · · cos θ1



~ θ1 , . . . , θn−2 , ϕ) := 
Φ(r,
r > 0, θn−2 , . . . , θ1 ∈]0, π[, ϕ ∈]0, 2π[.
,
..


.


 r sin θn−2 · · · cos θn−3 
r cos θn−2
359
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Man mache sich selbst klar, dass dies eine geeignete Verallgemeinerung von Polar- und Kugelkoordinaten
ist. Wegen
~ θ1 , . . . , θn−2 , ϕ) = sin θ1 · · · (sin θn−2 )n−2 rn−1
det dΦ(r,
liefert die Transformationsformel (nach Ausschluss einer geeigneten Nullmenge)
Z π Z 2π Z R
Z π
rn−1 dr dϕ sin(θn−2 )n−2 dθn−2 · · · sin(θ1 )dθ1
···
vn (Kn (R)) =
Z
=
0
0
0
2π
R
rn−1 dr
0
0
n−2
YZ π
k=1
sink θ dθ.
0
Durch einen Induktionsbeweis erhält man unter Verwendung der Gamma-Funktion (siehe 4.§6.3.14)
Z π
√ Γ( k+1
2 )
sink θ dθ = π k+2
Γ( 2 )
0
und damit die Volumenformel
2π n/2
Rn .
nΓ(n/2)
Insbesondere gilt für das Volumen der Einheitskugel im Rn
vn (Kn (R)) =
1
2
3
4
5
6
7
8
Vn (Kn (1)) 2
π
4π
3
π2
2
8π 2
15
π3
6
16π 3
105
π4
24
n
Man kann zeigen, dass
Vn (Kn (1)) → 0
§3
für n → ∞.
Integralsätze
Integralsätze spielen in vielen Bereichen der Natur- und Ingenieurswissenschaften eine wichtige Rolle
(z.B. in der Elektrodynamik oder der Strömungsmechanik, siehe auch [HeuA, Band 2, XXV]). Sie sind
höherdimensionale Analoga des Hauptsatzes der Differential- und Integralrechnung 4.§4.2.5:
Ist [c, d] ein kompaktes Intervall, so gilt für jede C 1 -Funktion f auf [c, d]
Z d
f 0 (x) dx = f (d) − f (c).
c
Eine Verallgemeinerung für die Integration von Potentialfeldern haben wir schon in §1.3.6 und 4.§4.6.3
behandelt:
~ so gilt für jedes C 1 -Skalarfeld u auf einer
Ist γ eine C 1 -Kurve im Rn mit Anfangspunkt ~c und Endpunkt d,
offenen Umgebung von γ
Z
~ − u(~c).
∇u(~x) d~x = u(d)
γ
In beiden Fällen wird die Integration der „Ableitung“ einer geeignet glatten Funktion über eine gewisse
Menge (bisher ein Intervall oder eine Kurve, d.h. etwas „Eindimensionales“) auf die Integration der
Funktion selbst über den „Rand“ dieser Menge (bisher die Randpunkte, d.h. etwas „Nulldimensionales“)
zurückgeführt. Das ist charakteristisch für den allgemeinen Satzes von Stokes
Z
Z
dω =
ω,
Ω
∂Ω
der alle Integralstze beinhaltet und die Integration von ω über einen k-dimensionalen „Bereich Ω“ im Rn
mit der der „Ableitung dω“ über den (k − 1)-dimensionalen „Rand ∂Ω“ verbindet. Wir behandeln die
folgenden Fälle:
360
§3. INTEGRALSÄTZE
• k = 1, n ≥ 1: Ω ist eine Kurve (s.o., Integration eines Potentialfeldes, §1.3.6 und 4.§4.6.3),
• k = n, n ≥ 1: Ω ist ein „zulässiger Bereich“ im Rn (Satz von Gauß, Abschnitt 2), das beinhaltet
insbesondere die Fälle n = 2 (Satz von Gauß in der Ebene: Ω ist ein Flächenstück im R2 ) und n = 3
(Satz von Gauß im Raum: Ω ist ein dreidimensionaler Körper im R3 ),
• k = 2, n = 3: Ω ist ein zweidimensionales Flächenstück im R3 (Satz von Stokes im Raum, Abschnitt 3).
Unsere Hauptarbeit wird darin bestehen, jeweils zu erklären, was und worüber integriert werden darf. Dazu führen wir insbesondere im Abschnitt 1 Oberflächenintegrale im Raum und deren Verallgemeinerungen
im Rn ein.
Tatsächlich machen derartige Vorbereitungen auch die Formulierung und den Beweis des allgemeinen
Satzes von Stokes so aufwendig. Ein Versuch, zu erklären, was dort mit „ω“, „dω“, „Ω“ und „∂Ω“ genau
gemeint ist, würden den Rahmen dieses Skriptes sprengen. Wir beschränken uns auf die oben genannten
Spezialfälle. (Wer mehr wissen will, lese [HeuA, Band 2, XXIV], [Köh, Teil VII], [Kön, Band 2, 11–13].)
Der allgemeine Satz von Stokes wurde eigentlich von Elie Cartan (1869–1951) gefunden und bewiesen.
Die Bezeichnung „allgemeiner Satz von Stokes“ hat sich wohl eingebürgert, weil die von Stokes gefundene
Version für k = 2 und n = 3 schon alle Kennzeichen des allgemeinen Satzes sichtbar macht.
1
Oberflächenintegrale und Integration auf Hyperflächen
1.1 Parameterdarstellung eines Flächenstücks im Raum. Eine (reguläre glatte) Flächenparametrisierung (kurz auch Parametrisierung genannt)


Φ1 (~u)
~ : D → R3 ,
~ u) = Φ2 (~u) ,
Φ
~u = (u1 , u2 ) 7→ Φ(~
Φ3 (~u)
ist eine injektive C r -Abbildung, r ≥ 1, auf einem Gebiet D ⊂ R2 , deren partielle Ableitungen




∂u1 Φ1 (~u)
∂u2 Φ1 (~u)
~
~
∂
Φ
∂Φ
(~u) = ∂u1 Φ2 (~u) ,
(~u) = ∂u2 Φ2 (~u) ,
∂u1
∂u2
∂u1 Φ2 (~u)
∂u2 Φ2 (~u)
in jedem Punkt ~u ∈ D linear unabhängig sind.
~
Φ(u)
~
∂2 Φ(u)
x3
u2
~
∂1 Φ(u)
~
Φ
u
x2
Flächenstück im R3
x1
u1
Parameterebene
Abbildung 6.27: Flächenparametrisierung.
~ im Punkt ~u. Sie spannen
Wir nennen diese beiden partiellen Ableitungen die Tangentenvektoren von Φ
den Tangentialraum im Punkt ~u auf und liefern die Tangenten an die beiden Koordinatenlinien
~ 1 + t, u2 ),
t 7→ Φ(u
~ 1 , u2 + t).
t 7→ Φ(u
361
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
~
Diese zwei C r -Kurven verlaufen auf der Bildmenge Φ(D).
Die obige Forderung nach linearer Unabhän~ u)) = 2 und stellt sicher, dass die Bildmenge Φ(D)
~
gigkeit lautet in Kurzform rg(dΦ(~
unserer Vorstellung
einer Fläche, d.h. eines „zweidimensionalen Gebildes im Raum“ entspricht.
1.2 Beispiele für Flächenparametrisierungen. Man überlege sich in den folgenden Beispielen jeweils
selbst, wie die Koordinatenlinien verlaufen.
(a) Ebene in Parameterdarstellung
(u1 , u2 ) 7→ ~a + u1~v1 + u2~v2 ,
u1 , u2 ∈ R,
3
mit einem Aufpunkt ~a ∈ R und linear unabhängigen Vektoren ~v1 , ~v2 ∈ R3 .
(b) Der Graph einer Funktion f : D ⊂ R2 → R wird parametrisiert durch


x
(x, y) 7→  y  ,
(x, y) ∈ D.
f (x, y)
Ist D = {(x, y) ∈ R2 | x2 + y 2 < 1} die Einheitskreissscheibe und f (x, y) :=
wir insbesondere die obere Halbkugel der Einheitssphäre ohne Äquator.
p
1 − x2 − y 2 , so erhalten
(c) Einheitssphäre ohne Nullmeridian


sin θ cos ϕ
(θ, ϕ) 7→  sin θ sin ϕ  ,
cos θ
θ ∈]0, π[, ϕ ∈]0, 2π[
1.3 Flächenstücke. Wir nennen eine Teilmenge M ⊂ R3 ein C r -Flächenstück , r ≥ 1, wenn M die
~ : D ⊂ R2 → Φ(D)
~
Bildmenge einer C r -Flächenparametrisierung Φ
= M mit stetiger Umkehrabbildung
ist.
Anmerkung. Flächenstücke sind die zweidimensionalen Analoga zu Kurven (vgl. 4.§1.2). Wie schon
bei Kurven gilt auch hier: „ein Flächenstück ist weniger als seine Parametrisierung aber mehr als eine
Menge“. Ein Flächenstück besitzt viele Parameterdarstellungen. Um damit umgehen zu können, erklären
wir wieder, was ein Parameterwechsel ist (vgl. 4.§1.2.4).
1.4 Hyperflächenstücke. Das eben geschilderte Konzept lässt sich problemlos vom R3 auf einen beliebigen Rn mit n ≥ 2 übertragen.
~ : D → Φ(D)
~
Ein C r -Hyperflächenstück M ⊂ Rn ist die Bildmenge einer injektiven C r -Abbildung Φ
=M
n−1
~
auf einem Gebiet D ⊂ R
mit stetiger Umkehrabbildung und rg(dΦ(~u)) = n − 1 für alle ~u ∈ D. Die
~ heißt dann (reguläre glatte) Hyperflächenparametrisierung von M .
Abbildung Φ
~ : D ⊂ Rn−1 → Rn und
1.5 Orientierung und Parameterwechsel. Zwei C r -Parametrisierungen Φ
n−1
n
r
~:G⊂R
Ψ
→ R eines C -Hyperflächenstücks M heißen Parametrisierungen desselben Hyperflächen~ =Ψ
~ ◦ϕ
stücks im Rn , wenn es einen C r -Diffeomorphismus ϕ
~ : D → G gibt mit Φ
~ . Wir nennen ϕ
~ dann
einen Flächenparameterwechsel oder kurz Parameterwechsel.
Da d~
ϕ überall invertierbar ist, gilt det(d~
ϕ)(~x) 6= 0 für alle ~x ∈ D. Als stetige Funktion muss det(d~
ϕ) damit
~ und Ψ
~ gleichorientiert. Jedes Hyperein einheitliches Vorzeichen haben. Im Fall det(d~
ϕ) > 0 heißen Φ
flächenstück besitzt also zwei disjunkte Klassen von untereinander gleichorientierten Parametrisierungen
und damit zwei Orientierungen.
Wenn wir eine dieser beiden Orientierungen auszeichnen — beispielsweise durch Auszeichnung einer speziellen Flächenparametrisierung — so sprechen wir von einem orientierten Hyperflächenstück . Dann sind
nur noch gleichorientierte Parameterwechsel zulässig und wir nennen diese positive Parametrisierungen.
Die in der anderen Klasse heißen negative Parametrisierungen.
Geometrisch interpretiert bedeutet das, ein Einheitsnormalenfeld auf M auszuzeichnen, das ist ein stetiges
Vektorfeld ~n : M → Rn mit k~nk = 1 für alle ~x ∈ M .
362
§3. INTEGRALSÄTZE
1.6 Einheitsnormalenfeld. Ein orientiertes Hyperflächenstück M ⊂ Rn besitzt genau ein Einheitsnormalenfeld ~n : M → Rn mit der Eigenschaft
~ u), . . . , ∂u Φ(~
~ u), ~n(~x) > 0
det ∂u1 Φ(~
mit ~x := Φ(~u)
n−1
~ von M . Für alle negativen Orientierungen gilt die gleiche Formel mit
für alle positiven Orientierungen Φ
einem Minuszeichen. Im Fall n = 3 erhält man ~n durch die Formel
~n(~x) =
1
~ u) × ∂u Φ(~
~ u)k
k∂u1 Φ(~
2
~ u) × ∂u Φ(~
~ u)
∂u1 Φ(~
2
~ u).
mit ~x := Φ(~
Beweis. Wir führen den Beweis nur für n = 3 (in der allgemeinen Situation ist die Konstruktion von
~ von M und
~n etwas schwieriger zu beschreiben). Wir wählen eine positive Flächenparametrisierung Ψ
setzen für ~x ∈ M
~n(~x) =
1
~ u) × ∂u Ψ(~
~ u)
∂ Ψ(~
2
~
~ u)k u1
k∂u1 Ψ(~u) × ∂u2 Ψ(~
~ −1 (~x).
mit ~u := Ψ
~ −1 ist auch ~n auf M stetig. Ist Φ
~ eine weitere Parametrierung und ist ϕ
Mit Ψ
~ der Parameterwechsel mit
~
~
~
~ u) = det(d~
~ ϕ(~u)) × ∂u Φ(~
~ ϕ(~u)) und liest hieraus
Ψ = Φ◦ϕ
~ , so berechnet man ∂u1 Ψ(~u) × ∂u2 Ψ(~
ϕ(~u)) · ∂u1 Φ(~
2
alles weitere ab.
1.7 Anmerkung zur Nichtorientierbarkeit. Das durch


[1 + v cos(u/2)] sin(u)
~
(u, v) ∈ [0, 2π[×] − 1/2, 1/2[,
Φ(u,
v) := [1 + v cos(u/2)] cos(u) ,
v sin(u/2)
parametrisierte Möbius-Band ist nicht orientierbar.
Wenn man einmal um den „Äquator“ herumläuft, dreht
sich der Einheitsnormalenvektor um π, ist also nicht
stetig. Das ist kein Widerspruch zu unserer vorherigen Überlegung: das Möbius-Band ist nämlich kein Flächenstück! Dazu müsste nämlich der Definitionsbereich
der obigen Parametrisierung ein Gebiet, d.h. insbesondere offen, sein. Wenn man den obigen nicht offenen
Definitionsbereich durch ]0, 2π[×] − 1/2, 1/2[ ersetzt, erhält man zwar ein Gebiet, schneidet aber das MöbiusBand einmal quer durch, so dass das zuvor genannte
Argument nicht mehr gilt.
1
0
-1
1
0
-1
1
0
-1
Abbildung 6.28: Ein Möbius-Band.
Wir werden uns mit derartigen Problemen nicht herumschlagen müssen, da wir nur Flächenstücke benötigen, die als Teil des Randes eines „Kompaktums mit glattem Rand“ auftreten.
1.8 Kompakta mit glattem Rand. Eine Teilmenge Ω ⊂ Rn nennen wir Kompaktum mit glattem
Rand , wenn folgendes gilt:
• Ω ist kompakt (d.h. Ω ist beschränkt und enthält alle seine Randpunkte),
• zu jedem Randpunkt ~a ∈ ∂Ω existiert eine offene Umgebung U ⊂ Rn und eine C 1 -Funktion
g : U → R mit
Ω ∩ U = {~x ∈ U | g(~x) ≤ 0}
und
∇g(~x) 6= ~0 für alle ~x ∈ U.
Man kann zeigen, dass dann automatisch
∂Ω ∩ U = {~x ∈ U | g(~x) = 0}
363
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
gilt. Der Rand von Ω lässt sich also überall lokal als eine (n − 1)-dimensionale C 1 -Lösungsmannigfaltigkeit
(vgl. §1.6.8) darstellen: wir können lokal n − 1 geeignete Variablen wählen und die n-te als Funktion der
anderen darstellen um den Rand lokal durch ein C 1 -Flächenstück zu parametrisieren. Damit haben wir
den ersten Teil des folgenden Satzes bewiesen.
1.9 Rand eines Kompaktums mit glattem Rand. Ist Ω ⊂ Rn ein Kompaktum mit glattem Rand,
so kann der Rand überall lokal durch C 1 -Hyperflächenstücke dargestellt werden und es existiert genau ein
Einheitsnormalenfeld ~n : ∂Ω → Rn , so dass es zu jedem ~x ∈ ∂Ω ein ε > 0 gibt mit ~x + t~n(~x) ∈
/ Ω für
t ∈]0, ε[. Dieses Einheitsnormalenfeld ist stetig.
Wir nennen ~n das äußere Einheitsnormalenfeld des Randes ∂Ω von Ω.
Beweis. Wird ∂Ω lokal bei ~a ∈ ∂Ω durch g(~x) = 0 für ~x ∈ ∂Ω ∩ U und g(~x) ≤ 0 für ~x ∈ Ω ∩ U dargestellt,
so setzen wir
1
∇g(~a)
~n(~a) :=
k∇g(~a)k
und erhalten gerade den äußeren Einheitsnormalenvektor an den Tangentialraum zu ∂Ω in ~a. Selbiger ist
eindimensional. Damit ist ~n(~a) eindeutig bestimmt. Die obige Darstellung zeigt dann auch die Stetigkeit.
1.10 Wie erklären wir den Inhalt eines Flächenstücks? Ist M ein zweidimensionales Flächenstück
im R3 , so wird das Volumen Null sein. Der naheliegende Gedanke, ähnlich wie bei der Bogenlänge eine Approximation durch Rechtecke vorzunehmen, scheitert (das kann man an Beispielen belegen). Der
folgende Zugang bietet einen plausiblen Ersatz.
Wir denken uns das Flächenstück in eine dünne Schale M2ε der Dicke 2ε eingebettet, berechnen deren
Volumen v3 (M2ε ) und erklären den Flächeninhalt v2 (M ) durch den Grenzwert
v2 (M ) := lim
ε→0
1
v3 (M2ε )
2ε
sofern dieser existiert.
)
2ε
Abbildung 6.29: Zum Flächeninhalt eines Flächenstücks.
~ : D ⊂ R2 → M eine Parametrisierung für M und ist ~n : M → R3 ein Einheitsnormalenfeld, so
Ist Φ
können wir die Schale M2ε mittels
~ u) + t(~n ◦ Φ)(~
~ u)),
(~u, t) = (u1 , u2 , t) 7→ ϕ
~ (~u, t) := Φ(~
(~u, t) ∈ D×] − ε, ε[,
parametrisieren. Man kann zeigen, dass ϕ
~ für genügend kleine ε ein C 1 -Diffeomorphismus ist. (Falls ε zu
364
§3. INTEGRALSÄTZE
groß wird, kann es zu Überlappungen kommen.) Wir berechnen mit einer Laplace-Entwicklung
!
~
~
~
~
∂Φ
∂(~n ◦ Φ)
∂Φ
∂(~n ◦ Φ)
~
det(d~
ϕ(~u, t)) = det
(~u) + t
(~u),
(~u) + t
(~u), (~n ◦ Φ)(~u)
∂u1
∂u1
∂u2
∂u2
!
~
~
∂Φ
∂Φ
~ u)) + tR(~u, t),
= det
(~u),
(~u), ~n(Φ(~
∂u1
∂u2
wobei in (~u, t) 7→ R(~u, t) auf D×] − ε, ε[ stetig und reellwertig ist. Mit der Transformationsformel und
scheibchenweise Integration erhalten wir
ZZZ
ZZZ
v3 (M2ε ) =
dv3 (~y ) =
| det(d~
ϕ(~u, t))| dv3 (~u, t)
M2ε
D×]−ε,ε[
!
!
Z Z Z ε ~
~
∂Φ
∂Φ
~
(~u),
(~u), ~n(Φ(~u)) + tR(~u, t) dt dv2 (~u)
=
det
∂u1
∂u2
D −ε !
ZZ Z ε
ZZ ~
~
∂Φ
∂Φ
~ u)) dv2 (~u) +
tR(~u, t) dt dv2 (~u).
= 2ε
(~u),
(~u), ~n(Φ(~
det
∂u1
∂u2
D −ε
D
Liegt nun der Parameterbereich D in einem Rechteck derRFläche A und ist R(~u, t) durch eine Zahl C ≥ 0
ε
2
beschränkt, so können wir das letzte Integral durch AC −ε |t| dt = AC
2 ε abschätzen und erhalten nach
Grenzübergang ε → 0 für die Oberfläche die Formel
!
Z Z ~
~
∂Φ
1
∂Φ
~ u)) dv2 (~u).
v2 (M ) = lim v3 (M2ε ) =
(~u),
(~u), ~n(Φ(~
det
ε→0 2ε
∂u1
∂u2
D
Die Determinante berechnen wir (unter Weglassung der Argumente) mit folgendem Trick: wir multiplizie~ ∂u Φ,
~ ~n) mit ihrer Transponierten und erhalten, da ~n auf ∂u Φ
~ und ∂u Φ
~ senkrecht
ren die Matrix (∂u1 Φ,
2
1
2
steht und normiert ist
~ ~n)
~ ∂u Φ,
~ ~n)T (∂u Φ,
~ ∂u Φ,
~ ~n)|2 = det (∂u Φ,
~ ∂u Φ,
| det(∂u1 Φ,
2
1
2
1
2


~
~ u Φi
~
~ u Φi
0
h∂u1 Φ|∂
h∂u1 Φ|∂
2
1
~ u Φi
~
~ u Φi
~
= deth∂u2 Φ|∂
h∂u2 Φ|∂
0
1
2
0
0
1
~
~
~
~
h∂u1 Φ|∂u1 Φi h∂u1 Φ|∂u2 Φi
= det
~ u Φi
~
~ u Φi
~ .
h∂u Φ|∂
h∂u Φ|∂
2
1
2
2
Damit gilt
v2 (M ) =
ZZ p
g(~u) dv2 (~u)
D
mit
~ u Φi
~
~ u Φi
~
h∂u1 Φ|∂
h∂u1 Φ|∂
1
2
g := det
~ u Φi
~
~ u Φi
~ .
h∂u2 Φ|∂
h∂u2 Φ|∂
1
2
Diese Argumentation funktioniert für beliebige n ≥ 2, nicht nur für n = 3 (man prüfe das Schritt für
Schritt nach). Sie motiviert die folgende Definition.
1.11 Hyperflächeninhalt, Gramsche Determinante. Für ein Hyperflächenstück M ⊂ Rn parame~ : D → M nennen wir die Zahl
trisiert durch Φ
Z p
g(~u) dv2 (~u)
vn−1 (M ) :=
D
den Hyperflächeninhalt von M , sofern dieses Integral konvergiert. Hierbei ist die Funktion


~ u Φi
~
~ u Φi
~
h∂u1 Φ|∂
···
h∂u1 Φ|∂
1
n−1

..
..
~ u Φi)
~ = det
g := det(h∂uj Φ|∂


k
.
.
~
~
~
~
h∂u Φ|∂u Φi · · · h∂u Φ|∂u Φi
n−1
1
n−1
n−1
365
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
~
die Gramsche Determinante von Φ.
1.12 Flächeninhalt. Im Fall n = 3 sprechen wir einfach vom Flächeninhalt. Dann werden nach Gauß
die Einträge der Gramschen Determinante auch mit
~ u Φi,
~
E := g1,1 = h∂u1 Φ|∂
1
~ u Φi,
~
F := g1,2 = g2,1 = h∂u1 Φ|∂
2
~ u Φi,
~
E := g2,2 = h∂u2 Φ|∂
2
bezeichnet. In dieser Notation gilt
ZZ p
E(u1 , u2 )G(u1 , u2 ) − F (u1 , u2 )2 d2 (u1 , u2 ).
v2 (M ) =
D
Für n = 3 existiert noch eine andere Formel für die Gramsche Determinante. Mit der aus 1.6 bekannten
Darstellung des Einheitsnormalenfeldes
~ =
~n ◦ Φ
1
~ × ∂u Φ
~
∂ Φ
2
~
~ u1
k∂u1 Φ × ∂u2 Φk
~ ∂u Φ,
~ ~n)| bis auf den obigen Normierungsfaktor als Spatprodukt und wir erhalten
entpuppt sich | det(∂u1 Φ,
2
√
~ ∂u Φ,
~ ~n)| = k∂u Φ
~ × ∂u Φk
~
g = | det(∂u1 Φ,
2
1
2
d.h.
ZZ ∂Φ
~
∂Φ
~
v2 (M ) =
(u1 , u2 ) ×
(u1 , u2 ) d2 (u1 , u2 ).
∂u
∂u
1
2
D
Wir illustrieren diese beiden Flächenformeln jetzt an je einem Beispiel.
1.13 Kugeloberfläche. Die Oberfläche Sr einer Kugel im R3 mit Radius r > 0 wird durch


r sin θ cos ϕ
~
θ ∈]0, π[, ϕ ∈]0, 2π[
Φ(θ,
ϕ) :=  r sin θ sin ϕ  ,
r cos θ
parametrisiert. Streng genommen ist in dieser Parametrisierung der Nullmeridian ausgenommen (und
dafür unsere Regularitätsannahme für eine Parametrisierung eines Flächenstücks erfüllt). Für die Integration ist es aber unerheblich, ob wir eine Nullmenge hinzunehmen. Wir berechnen zunächst




r cos θ sin ϕ
−r sin θ sin ϕ
~
~
∂Φ
∂
Φ
(θ, ϕ) = r cos θ cos ϕ ,
(θ, ϕ) =  r sin θ cos ϕ 
∂θ
∂ϕ
−r sin θ
0
und erhalten
gθ,θ (θ, ϕ) = r2 sin2 θ,
gθ,ϕ (θ, ϕ) = 0,
gϕ,ϕ (θ, ϕ) = r2 .
Damit gilt für die Gramsche Determinante
g (θ, ϕ) gθ,ϕ (θ, ϕ)
g(θ, ϕ) = det θ,θ
= r4 sin2 θ.
gθ,ϕ (θ, ϕ) gϕ,ϕ (θ, ϕ)
und es folgt wie zu erwarten
ZZ
p
v2 (Sr ) =
[0,π]×[0,2π]
2
Z
π
Z
g(θ, ϕ) d (θ, ϕ) =
2π
2
r sin θ dϕ dθ = 2πr
0
0
2
Z
0
π
sin θ dθ = 4πr2 .
366
§3. INTEGRALSÄTZE
z
z
h
y
x
r(z)
Abbildung 6.30: Rotationsfläche und Mantellinie.
1.14 Rotationsflächen. Eine Rotationsfläche M im R3 mit der z-Achse als Rotationsachse parametrisieren wir mittels einer stetigen Funktion r : [0, h] → R+
0 (der Mantellinie) in der Form


r(z) cos ϕ
~
(ϕ, z) ∈ [0, 2π[×[0, h].
Φ(ϕ,
z) :=  r(z) sin ϕ  ,
z
Wegen

  0
 

r(z) cos ϕ r (z) cos ϕ −r(z) sin ϕ
∂Φ
~
p
∂Φ
~
 r(z) cos ϕ  ×  r0 (z) sin ϕ  =  r(z) sin ϕ  = r(z) 1 + r0 (z)2
(~u) ×
(~u) = ∂u1
∂u2
r(z)r0 (z) 1
0
erhalten wir für den Flächeninhalt des Mantels nach einer scheibchenweisen Integration die Formel
Z h
p
v2 (M ) = 2π
r(z) 1 + r0 (z)2 dz.
0
1.15 Skalares Hyperflächenintegral. Für ein Hyperflächenstück M ⊂ Rn und ein integrierbares
Skalarfeld f : M → R erklären wir das skalare Hyperflächenintegral durch
Z
Z
p
~ u)) g(~u) dvn−1 (~u).
f (~x) dσ(~x) :=
f (Φ(~
M
D
~:D⊂R
Hierbei ist Φ
→ M eine Parametrisierung von M und g die zugehörige Gramsche Determinante. Man schreibt dafür auch
Z
Z
Z
Z
f dσ,
f (~x) • dσ(~x),
f dS,
f (~x) dS(~x).
n−1
M
M
M
M
oder Ähnliches.
Im Fall n = 3 sprechen wir von einem skalaren Oberflächenintegral und erhalten aus 1.12 die alternative
Formel
ZZ
ZZ
~
~
~
f dσ =
(f ◦ Φ)k∂
u1 Φ × ∂u2 Φk dv2 .
M
D
367
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Anmerkung. Man führe sich die Analogie zum skalaren Kurvenintegral 4.§4.5.1 vor Augen. Genauso wie
dort ist unsere Definition zunächst scheinbar von der Wahl der Parametrisierung des Flächenstücks abhängig. Man rechnet aber nach, dass das obige Integral invariant gegenüber zulässigen Parameterwechsel
ist, und zwar unabhängig davon, ob diese die Orientierung erhalten oder wechseln.
Beispiel. Unsere Hyperflächenformel 1.11 ist gerade das skalare Hyperflächenintegral des konstanten
Skalarfeldes ~x 7→ 1.
1.16 Vektorielles Hyperflächenintegral, Fluss eines Vektorfeldes. Ist M ⊂ Rn ein orientiertes
Hyperflächenstück und ist ~v : M → Rn ein Vektorfeld, so nennen wir
Z
Z
p
~ u))|~n(Φ(~
~ u))i g(~u) dvn−1 (~u)
~v (~x) d~σ (~x) :=
h~v (Φ(~
M
D
~ : D ⊂ Rn−1 → M eine Parametrisierung
das vektorielle Hyperflächenintegral von ~v über M . Hierbei ist Φ
von M , g ist die zugehörige Gramsche Determinante und ~n bezeichnet das gemäß 1.6 zur Orientierung
von M gehörige Einheitsnormalenfeld.
Weitere gebräuchliche Bezeichnungen sind
Z
Z
~v d~σ ,
~v (~x) • d~σ (~x),
M
M
Z
M
~
~v dS
Z
~ x).
~v (~x) dS(~
M
Für n = 3 sprechen wir auch von einem vektoriellen Oberflächenintegral und bekommen gemäß 1.12 als
weitere Darstellung
ZZ
ZZ
~ u Φ
~ × ∂u Φi
~ dv2 .
~v d~σ =
h~v ◦ Φ|∂
1
2
M
D
Auch hier rechnet man Invarianz unter Parameterwechseln nach — allerdings nur, sofern selbige orientierungserhaltend sind. Bei einem Orientierungswechsel ändert sich das Vorzeichen.
Die definierende Formel zeigt, dass
das vektorielle Hyperflächenintegral des
Vektorfeldes ~v als skalares Hyperflächenintegral über die Normalenkomponente h~v |~ni geschrieben werden kann:
Z
Z
~v d~σ =
h~v |~ni dσ.
M
~n
~v
M
Es wird daher auch Fluss von ~v durch
M genannt. Bei diesem Übergang von
vektoriellem zu skalarem Hyperflächenintegral muss auf das richtige Einheitsnormalenfeld geachtet werden.
M
Abbildung 6.31: Fluss eines Vektorfeldes durch eine
Hyperfläche.
1.17 Berechnung eines Oberflächenintegrals. Wir berechnen den Fluss des Vektorfeldes ~v (~x) := ~x
durch die Oberfläche Sr der Kugel {(x, y, z) ∈ R3 | x2 + y 2 + z 2 = r2 }. Hierzu wählen wir die aus 1.13
bekannte Parametrisierung


r sin θ cos ϕ
~
Φ(θ,
ϕ) =  r sin θ sin ϕ  ,
θ ∈]0, π[, ϕ ∈]0, 2π[,
r cos θ
(bei der das Einheitsnormalenfeld nach außen zeigt) und berechnen




r cos θ sin ϕ
−r sin θ sin ϕ
~
~
∂
Φ
∂Φ
(θ, ϕ) = r cos θ cos ϕ ,
(θ, ϕ) =  r sin θ cos ϕ  .
∂θ
∂ϕ
−r sin θ
0
368
§3. INTEGRALSÄTZE
Weil wir ein Oberflächenintegral berechnen wollen (Fall n = 3), können wir die zweite der zuvor angegebenen Formeln verwenden und kommen schneller zum Ziel (da wir nicht das äußere Einheitsnormalenfeld und die Gramsche Determinante bestimmen müssen). Wir erhalten unter Verwendung der Formeln
3.§4.2.2 für das Spatprodukt
ZZ
ZZ
~ θΦ
~ × ∂ϕ Φi
~ dv2
~x d~σ (~x) =
hΦ|∂
Sr
[0,π]×[0,2π]

 
 

r sin θ cos ϕ
r cos θ sin ϕ
−r sin θ sin ϕ
h r sin θ sin ϕ  | r cos θ cos ϕ ×  r sin θ cos ϕ i d(θ, ϕ)
[0,π]×[0,2π]
r cos θ
−r sin θ
0
Z π Z 2π
r3 sin θ dϕ θ = 4πr3 .
ZZ
=
=
0
0
Der Fluss dieses Vektorfeldes wächst also mit dem Volumen der Kugel.
1.18 Zusammenfassung. Wir haben nun alle technischen Hilfsmittel für die Sätze von Gauß und Stokes
zur Verfügung, d.h. wir können insbesondere Skalar- und Vektorfelder über Kompakta mit glattem Rand
(dreidimensionale Objekte im Raum), über Oberflächen (zweidimensionale Objekte im Raum) und Wege
(eindimensionale Objekte im Raum) integrieren.
2
Der Satz von Gauß
2.1 Gaußscher Integralsatz. Ist Ω ⊂ Rn ein Kompaktum mit glattem Rand und äußerem Einheitsnormalenfeld ~n : Ω → Rn und ist ~v : D → Rn ein C 1 -Vektorfeld auf einer offenen Obermenge D ⊂ Rn von Ω,
so gilt
Z
Z
div ~v dvn =
h~v |~ni dσ.
Ω
∂Ω
In Worten: „der Fluss des Vektorfeldes ~v durch den Rand des Bereichs Ω entspricht der Divergenz von ~v
in Ω.“
Der Gaußsche Integralsatz gilt auch dann noch, wenn der Rand ∂Ω von Ω nicht glatt ist, sondern niederdimensionale Singularitäten (Kanten, Ecken oder Ähnliches) enthält. Einen Beweis für die obige Form
kann man in [Fo, Band 3, §15] finden.
Pn
Die Divergenz div ~v = k=1 ∂xk vk haben wir schon in 4.§4.6.11 eingeführt und erhalten jetzt folgende
Interpretation.
2.2 Deutung der Divergenz. An jeder Stelle ~a ∈ Ω gilt
Z
1
h~v |~ni dvn .
div ~v (~a) = lim
r→0+ Vn S (~
r a)
Hierbei bezeichnet Sr (~a) := {~x ∈ Rn | k~x − ~ak = r} die Sphäre mit Radius r um ~a und Vn =
das Volumen der Kugel Kr (~a).
2π n/2
n
nΓ(n/2) r
Die Divergenz div ~v (~a) gibt also die Quelldichte des Vektorfeldes ~v an der Stelle ~a an. Ist sie positiv, so
liegt eine Quelle vor, ist sie negativ, eine Senke.
Beweis. Für jeden genügend kleinen Kugelradius r > 0 gilt Kr (~a) ⊂ Ω und mit dem Gaußschen Integralsatz folgt
Z
Z
h~v |~ni dσ =
div ~v dvn .
Sr (~
a)
Kr (~
a)
369
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
Da div ~v an der Stelle ~a stetig ist, gilt damit
Z
1
div ~v (~x) dvn (~x)
div ~v (~a) −
vn (Kr (~a)) Kr (~a)
Z
Z
1
div ~v (~a) dvn (~x) −
div ~v (~x) dvn (~x)
=
vn (Kr (~a)) Kr (~a)
Kr (~
a)
≤ k div ~v (~a) − div ~v (~x)kKr (~a),∞ → 0
für r → 0 + .
Beispiel. Ist ~v die Strömung einer inkompressiblen Flüssigkeit im Raum (oder in der Ebene), so verschwindet der Gesamtfluss
durch die Oberfläche eines jeden (gedachten) Bereichs Ω. Mit dem Gaußschen
R
Integralsatz folgt Ω div ~v dv3 = 0 für alle Ω, also div ~v = 0. Gleiches gilt für das elektrische Feld im
ladungsfreien Raum.
2.3 Sätze von Gauß und Green in der Ebene. Ist Ω ⊂ R2 ein Kompaktum mit glattem Rand und
sind P, Q : D → R zwei C 1 -Funktionen in einer offenen Umgebung D ⊂ R2 von Ω, so gilt
Z Z
∂Q
∂P
+
d2 (x, y) =
Q dx − P dy
(Satz von Gauß in der Ebene),
∂x
∂y
∂Ω
Ω
Z
Z
∂Q ∂P
−
d2 (x, y) =
P dx + Q dy
(Satz von Green in der Ebene).
∂x
∂y
∂Ω
Ω
Beweis. Die zweite Formel folgt durch Ersetzung von (P, Q) durch (Q, −P ) aus der ersten. Zum Beweis
der ersten Formel betrachten wir das Vektorfeld (P, Q) und wenden den Satz von Gauß für n = 2 an. Der
Rand ∂Ω besteht aus einer oder mehreren Kurven. Für eine (reguläre) Parametrisierung t 7→ (x(t), y(t)),
t ∈ [c, d], einer solchen gilt
1
−ẏ(t)
p
~n(x(t), y(t)) =
ẋ2 (t) + ẏ 2 (t) ẋ(t)
und daher
h
P (x(t), y(t))
Q(x(t), y(t))
1
ẋ(t)
|~n(x(t), y(t))i = h
|p
i.
Q(x(t), y(t))
−P (x(t), y(t))
ẋ2 (t) + ẏ 2 (t) ẏ(t)
Wir können also das Integral über ∂Ω als ein Kurvenintegral für das Vektorfeld (Q, −P ) schreiben.
2.4 Flächenberechnung mit dem Satz von Gauß in der Ebene. Für jedes Kompaktum Ω ⊂ R2
mit glattem Rand gilt
Z
1
v2 (Ω) =
x dy − y dx.
2 ∂Ω
Beweis. Satz von Green in der Ebene mit P (x, y) = −y/2 und Q(x, y) = x/2.
Beispiel. Die Punkte (x, y) ∈ R2 mit
x
2/3
+y
2/3
a
2/3
=a
für a > 0 bilden eine Hypozykloide γ. Diese kann durch
t 7→ (x(t), y(t)) = (a cos3 t, a sin3 t),
t ∈ [0, 2π],
parametrisiert werden. Die Fläche A des von der Hypozykloide berandeten Bereichs berechen wir mit obiger Flächenformel zu
Z
Z
1 2π
1
x dy − y dx =
[x(t)ẏ(t) − y(t)ẋ(t)] dt
A =
2 γ
2 0
Z
3a2 2π 2
3
=
sin t cos2 t dt = πa2 .
2 0
8
a
-a
-a
Abbildung 6.32: Hypozykloide.
370
§3. INTEGRALSÄTZE
2.5 Greensche Formeln. Ist Ω ⊂ Rn ein Kompaktum mit glattem Rand und äußerem Einheitsnormalenfeld ~n : Ω → Rn und sind f, g : D → R zwei C 2 -Skalarfelder auf einer offenen Obermenge D ⊂ Rn
von Ω, so gilt
Z
Z
∂g
dσ,
(h∇f |∇gi + f ∆g) dvn =
f
∂~
n
Ω
Z
Z∂Ω ∂f
∂g
−g
dσ.
(f ∆g − g∆f ) dvn =
f
∂~n
∂~n
Ω
∂Ω
Beweis. Man wende den Gaußschen Integralsatz auf das C 1 -Vektorfeld ~v := f ∇g an und beachte div ~v =
h∇f |∇gi + f ∆g. Die zweite Formel folgt dann durch Vertauschen und Subtrahieren aus der ersten.
Beispiel. Sei u 6= 0 auf Ω eine Eigenfunktion des Laplace-Operators mit u(~x) = 0 für ~x ∈ ∂Ω, d.h.
−∆u(~x) = λu(~x)
für ~x ∈ Ω,
zum Eigenwert λ. Wir zeigen, dass λ dann positiv sein muss.
Aus der ersten Greenschen Formel für f = g = u folgt
Z
Z
Z
Z
(k∇uk2 − λu2 ) dvn = (k∇uk2 + u∆u) dvn = (h∇u|∇ui + u∆u) dvn =
Ω
Ω
Ω
∂Ω
u
∂u
dσ = 0,
∂~n
da u auf ∂Ω verschwindet. Dies zeigt
Z
k∇uk2 dvn = λ
Ω
Z
u2 dvn .
Ω
Dann muss aber λ > 0 gelten, da beide Integrale einen wegen u 6= 0 und der Stetigkeit von u positiv sind.
2.6 Archimedisches Prinzip. Wir betrachten einen festen Körper Ω in einer Flüssigkeit konstanter
Dichte ρ > 0. Wir wählen ein Koordinatensystem im R3 , dessen (x1 , x2 )-Ebene mit der Oberfläche der
Flüssigkeit zusammenfüllt so dass x3 < 0 für Punkte ~x in der Flüssigkeit. Im Randpunkt ~x ∈ ∂Ω übt
die Flüssigkeit auf den Körper Ω den Druck p(~x) = ρx3~n(~x) aus. Dabei ist ~n(~x) der äußere Einheitsnormalenvektor an Ω im Punkt ~x. Wegen x3 < 0 ist der Druck tatsächlich nach Innen gerichtet. Für die
Gesamtauftriebskraft F~ erhalten wir
Z
F~ =
ρx3~n(~x) dσ(~x).
∂Ω
Auf die drei Komponenten wenden wir den Gaußschen Integralsatz für n = 3 an und erhalten

Z
Z
0 Z
für j = 1, 2,
∂x3
Fj =
ρx3~nj (~x) dσ(~x) =
ρx3
dv3 (~x) =
ρ
∂xj
dv3 (~x) = ρv3 (Ω) für j = 3.
∂Ω
Ω
Ω
Also erfährt der Körper einen Auftrieb in x3 -Richtung, dessen Betrag dem Gewicht der verdrängten
Flüssigkeit entspricht.
2.7 Massenerhaltung und Kontinuitätsgleichung. Ist ~v (t, ~x) das Geschwindigkeitsfeld einer Gasoder Flüssigkeitsströmung und ist ρ(t, ~x) die Massendichte zur Zeit t am Ort ~x, so ist die in einem
Raumgebiet Ω zur Zeit t enthaltene Masse gegeben durch
Z
ρ(t, ~x) dv3 (~x).
Ω
Die pro Zeiteinheit durch den Rand ∂Ω nach außen abfließende Masse ist
Z
ρh~v (t, ~x)|~n(~x)i dσ(~x),
∂Ω
371
KAPITEL 6. ANALYSIS IN MEHREREN VARIABLEN
wobei ~n das äußere Einheitsnormalenfeld von Ω bezeichnet. Das Gesetz der Massenerhaltung („Zunahme
der Masse in Ω und Abfluss der Masse durch ∂Ω gleichen sich aus“) besagt daher
Z
Z
d
ρ(t, ~x) dv3 (~x) +
ρ(t, ~x)h~v (t, ~x)|~n(~x)i dσ(~x) = 0
dt Ω
∂Ω
für jedes (für die Anwendung des Integralsatzes geeignete) Raumgebiet Ω ⊂ R3 und zu jedem Zeitpunkt
t ∈ R. Das ist die Integralform des Massenerhaltungssatzes.
Wenden wir auf das zweite Integral den Gaußschen Integralsatz an und vertauschen wir mutig Integration
und Differentiation, so gilt
Z ∂ρ
(t, ~x) + div(ρ(t, ~x)~v (t, ~x)) dv3 (~x) = 0
∂t
Ω
für jedes Raumgebiet Ω. Daher gilt die Kontinuitätsgleichung
∂ρ
+ div(ρ(t, ~x)~v ) = 0,
∂t
die differentielle Fassung des Massenerhaltungssatzes. Wäre nämlich der Integrand an einer Stelle positiv,
so wegen Stetigkeit auch in einer kleinen Kugel um diese Stelle. Wählen wir selbige als Raumgebiet, so
würde das obige Integral nicht verschwinden.
Bei einer inkompressiblen Flüssigkeit ist die Dichte ρ räumlich konstant und es gilt div(ρ~v ) = ρ div ~v .
Ist ρ auch zeitlich konstant, so sprechen wir von einer inkompressiblen stationären Strömung und es gilt
div ~v = 0.
3
Der Satz von Stokes im Raum
3.1 Satz von Stokes im Raum. Ist M ⊂ R3 ein C 1 -Flächenstück und ~v : D → R3 ein C 1 -Vektorfeld
auf einer offenen Obermenge D ⊂ R3 von M , so gilt
Z
Z
rot ~v d~σ =
~v d~x.
M
∂M
Wir sagen: „die Zirkulation des Vektorfeldes ~v längs des Randes der Fläche M entspricht der Rotation
von ~v auf M .“
Der Satz von Stokes kann auch auf allgemeinere Flächenstücke übertragen werden. Die Hauptarbeit
besteht darin, dann vernünftig zu erklären, was der Rand ist.
Beispiel. Wir berechnen den Fluss der Rotation des Feldes ~v (x, y, z) := (−y 2 , x, z 2 ) durch die obere
Hälfte der Einheitssphäre M = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 = 1, z ≥ 0} auf zwei Arten: direkt und mit
dem Satz von Stokes im Raum.
Direkte Berechnung: Es gilt rot ~v (x, y, z) = (0, 0, 2y +1). Das Flächenstück M wird (in Kugelkoordinaten)
parametrisiert durch
~
Φ(θ,
ϕ) := (cos θ cos ϕ, cos θ sin ϕ, sin θ),
Damit gilt
Z
Z
rot ~v d~σ
=
M
=
=
2π
Z
ϕ ∈ [0, 2π], θ ∈ [0, π/2], .
π/2
~
~
~
hrot ~v (Φ(θ,
ϕ))|∂ϕ Φ(θ,
ϕ) × ∂θ Φ(θ,
ϕ)i dθ dϕ

 
 

Z 2π Z π/2
0
− cos θ sin ϕ
− sin θ cos ϕ
 |  cos θ cos ϕ  ×  − sin θ sin ϕ i dθ dϕ
0
h
0
0
2 cos θ sin ϕ + 1
0
cos θ
Z 2π Z π/2
(2 sin θ sin ϕ + 1) sin θ cos θ dθ dϕ = π.
0
0
0
0
372
§3. INTEGRALSÄTZE
Berechnung mit dem Satz von Stokes im Raum: M ist durch den Einheitskreis in der (x, y) Ebene
berandet. Dieser wird parametrisiert durch t 7→ (cos t, sin t, 0), t ∈ [0, 2π]. Mit dem Satz von Stokes erhält
man den Fluss zu
Z
Z
Z
rot ~v d~σ =
~v d~x =
−y 2 dx + x dy + z 2 dz
M
∂M
∂M

 

Z 2π − sin2 t
Z 2π
− sin t




=
h
| cos t i dt =
(sin3 t + cos2 t) dt = π.
cos t
0
0
0
0
3.2 Deutung der Rotation. Bezeichnen wir mit Dr (~a, ~n) die Kreisscheibe an der Stelle ~a mit Normalenvektor ~n und mit γr (~a, ~n) deren positiv orientierten Rand, so erhalten wir mit einer ähnlichen
Rechnung wie in 2.2 die Beziehung
Z
1
~v d~x.
rot ~v (~a) = lim
r→0+ πr 2 γ (~
n)
r a,~
Die Rotation rot ~v des Vektorfeldes ~v gibt also die Wirbeldichte von ~v an der Stelle ~a an.
373
Literaturverzeichnis
[AbSteg]
M. Abramovitz, I. A. Stegun, Handbook of Mathematical Functions.
Dover Publications Inc., 1965.
[BeWei]
G. Behrendt, E. Weimar, Mathematik für Physiker.
Band 1: Analysis und Lineare Algebra,
Band 2: Funktionentheorie, gewöhnliche und partielle Differentialgleichungen.
VCH Verlagsgesellschaft, Weinheim, 2. Auflage 1990 (Band 1), 2. Auflage 1990 (Band 2).
[Bla]
Chr. Blatter, Wavelets — eine Einführung.
Vieweg Verlag, 1998.
[BöRee]
M. Böhm, G. Reents, Mathematik für Ingenieure I und II,
Manuskript zu einer zweisemestrigen Vorlesung.
Band 1: Differential- und Integralrechnung,
Band 2: Vektorräume, Lineare Algebra, Analysis mehrerer Variablen, Vektoranalysis.
Würzburg, Version Oktober 2004 (Band 1), Version April 2005 (Band 2).
[Brö]
Th. Bröcker, Lineare Algebra und Analytische Geometrie,
Ein Lehrbuch für Physiker und Mathematiker.
Vektorräume, Matrizenrechnung, Determinante, Bilinearformen, Jordansche Normalform,
Geometrie, Tensorrechnung, Lineare Gruppen und Liealgebren, Quaternionen und orthogonale Gruppen, Ringe und Moduln.
Birkhäuser, Basel/Boston/Berlin, 1. Auflage 2003.
[DaCa]
M. P. DoCarmo, Differentialgeometrie von Kurven und Flächen,
Vieweg, Braunschweig, 3. Auflage 1993.
[FiKau]
H. Fischer, H. Kaul, Mathematik für Physiker.
Band 1: Grundlagen, Vektorrechnung im Rn , Analysis einer Veränderlichen, Lineare Algebra,
Analysis mehrerer Variablen, Vektoranalysis, Einführung in die Funktionentheorie,
Band 2: Gewöhnliche und partielle Differentialgleichungen, mathematische Grundlagen der
Quantenmechanik,
Band 3: Variationsrechnung, Differentialgeometrie, mathematische Grundlagen der allgemeinen Relativitätstheorie.
Teubner, Stuttgart, 5. Auflage 2005 (Band 1), 2. Auflage 2004 (Band 2), 2. Auflage 2006
(Band 3).
[Fo]
O. Forster, Analysis.
Band 1: Differential- und Integralrechnung einer Veränderlichen,
Band 2: Differentialrechnung im Rn , Gewöhnliche Differentialgleichungen,
Band 3: Integralrechnung im Rn mit Anwendungen.
Vieweg+Teubner, Braunschweig/Wiesbaden, 10. Auflage 2011 (Band 1), 9. Auflage 2011 (Band
2), 6. Auflage 2011 (Band 3).
374
LITERATURVERZEICHNIS
[HeuA]
H. Heuser, Lehrbuch der Analysis.
Band 1: Mengen und Zahlen, Folgen und Reihen, Differential- und Integralrechnung in einer
Variablen,
Band 2: Differential- und Integralrechung in mehreren Variablen, Integralsätze, Banachräume,
Fourierreihen, Fixpunktsätze.
Teubner, Stuttgart, 15. Auflage 2003 (Band 1), 13. Auflage 2004 (Band 2).
[HeuD]
H. Heuser, Gewöhnliche Differentialgleichungen.
Allgemeine Theorie, spezielle Typen, Stabilitätstheorie und viele Beispiele.
Teubner, Stuttgart, 5. Auflage 2006.
[Ka]
E. Kamke, Differentialgleichungen: Lösungsmethoden und Lösungen.
Band 1: gewöhnliche Differentialgleichungen,
Band 2: partielle Differentialgleichungen.
Teubner, Leipzig, 1959.
[Köh]
G. Köhler, Analysis.
Heldermann Verlag, Lemgo, 1. Auflage 2006.
[Kön]
K. Königsberger, Analysis.
Band 1: Grundlagen, Differential- und Integralrechung in einer Variablen, Differentialgleichungen, Fourierreihen,
Band 2: Differential- und Integralrechung in mehreren Variablen, Kurvenintegrale, LebesgueIntegral.
Springer, Berlin, 6. Auflage 2004 (Band 1), 5. Auflage 2004 (Band 2).
[MaTro]
J. E. Marsden, A. J. Tromba, Vector Calculus.
The Geometry of Euclidean Space; Differentiation; Vector-Valued Functions; Higher-Order
Derivatives: Maxima and Minima; Double Integrals; The Triple Integral, The Change of Variables Formula, And Applications; Integrals Over Paths and Sucfaces; The Integral Theorems
of Vector Analysis.
W. H. Freeman and Company, 3. Auflage 1988.
[RyGrad] I. S. Gradstein, I. M. Ryshik, Summen-, Produkt- und Integraltafeln / Tables of Series, Products and Integrals.
zwei Bände deutsch/englisch.
Verlag Harri Deutsch, dt. Übersetzung der 5. russ. Auflage, 1981.
[StBul]
J. Stoer, R. Bulirsch, Einführung in die Numerische Mathematik,
Springer-Verlag, 2005 (Band 1, 9. Auflage), 2000 (Band 2, 4. Auflage).
375
Index
·, 6, 32
∗, Faltung von Funktionen (Fourier-Transf.), 305
∗, Faltung von Funktionen (Laplace-Transf.), 215
+ in Körpern, 3
−γ (bei Kurven), 176
< in geordneten Körpern, 5
A−1 , 232
H, 118
K(~a), 101
Kr (a) in C, 32
L(γ), 175
L(γ) (Bogenlänge), 175
MB (L), 227
MBC (L), 227
P (~a), 103
S1 , 101
S2 , 101
Sn−1 , 101
T∞ [f, a], 142
Tn [f, a], 142
[c, d[, 12
[c, d], 12
Bild(A), 239
Bild(L), 221
def(A), 239
def(L), 224
∆, 188
End(V ), 225
GL(2), 86
GL(n, K, 271
Γ, 211
Hom(V, W ), 225
Im, 31
Kern(A), 239
Kern(L), 221
O für Folgen, 29
O für Funktionen, 123
O für Folgen, 29
O für Funktionen, 123
⇔, 1
O(n), 271
Re, 31
rg(A), 239
rg(L), 224
⇒, 1
SO(2), 89
SO(n), 271
SU(n), 271
Span, 95
Spin(3), 271
Spur(A), 256
U(n), 271
≈,25
c
k , 9
∩, 2
χA (t), 256
χD , 347
∪, 2
f¨(a), 140
δk,l , 101
diag(λ1 , . . . , λn ), 256
dim, 223
div, 188
f˙(a), 132
ẋ(t0 ), 133
`2 (C), 266
`2 (R), 266
ε-δ-Kriterium für Grenzwert, 119
ε-δ-Kriterium für Stetigkeit, 125
ε-Schlauch um eine Funktion, 158
εklm , 105
exp, 50
d2
dxn2 , 140
d
dxn , 140
d
dx , 132
γ + δ (bei Kurven), 176
inf,
R 15
~v (~x) d~x, 182
Rγ
f (~x) ds, 180
γ
R ~x2
~v (~x) d~x, 183
~
x1
h·, ·i bei R-VR 99, bei C-VR 266
ld, 55
b·c, 16
lg, 55
limn→∞ , 19, 21
limx→a+ , 121
limx→a− , 121
limx→a , 119
ln, 53
376
loga , 55
~ 179
B,
C, 31
CN , 93
Cn , 93
Cm×n , 227
N, 7
Q, 11
R, 15
R+ , 12
R+
0 , 12
R− , 12
R−
0 , 12
R2 , 82
RN , 93
Rn , 92
Rm×n , 227
Z, 7
C 0 , 126
C 0 -Funktion (eine Var.), 126
C 1 , 153
C 1 (eine Var.), 142
C 1 -Funktion, 142
C 1 -Funktion (mehrere Var.), 153
C ∞ , 142, 153
C ∞ -Funktion (eine Var.), 142
C ∞ -Funktion (mehrere Var.), 153
C n , 142, 153
C n -Funktion (eine Var.), 142
C n -Funktion (mehrere Var.), 153
F(D, K), 93
L2 , 294
R1 (R), 299
max, 13
min, 13
∇, 153
¬,
H 1
~v (~x) d~x, 183
γ
z, 32
K(~a), 101
∂D für D ⊂ Rn , 116
∂K
Q (~a), 101
,8
· in Körpern, 3
det, 248
rot, 189
r, 2
sgn, 6
' für Folgen, 30
' für Funktionen, 123
sinc,
118
√
n
·,
16
√
·, 16
⊂, 2
INDEX
⊆, 2
(,
P2
,8
sup, 15
τ (Torsion), 180
~ , 177
N
~
T , 177
~σ (Bogenlängenparametrisierung), 177
e~k , 95
∨, 1
∧, 1
]c, d[, 12
]c, d], 12
cn , n ∈ Z, 9
f 00 (a), 140
f 0 (a), 132
f 0 (a+), 132
f 0 (a−), 132
f (a+), 125
f (a−), 125
f (x) → b für x → a, 119
f (n) (a), 140
n!, 9
nA,λ , 257
vn (P ), 347
vn (Q), 346
0
, 132
00
, 140
1-1-Abbildung, 48
Ähnlichkeitssatz, Laplace-Transformation, 214
Äquivalenz von Aussagen, 1
ähnliche Matrizen, 237
äußeres Einheitsnormalenfeld, 363
Abbildung, 46
Abel, Niels Hendrik, 69
abelsche Gruppe, 86
Abfall, exponentieller, 30
Abfall, polynomialer, 30
abgeschlossen bzgl. + und ·, 4
abgeschlossen bzgl. Vektorraumoperationen, 92
abgeschlossene Menge, 116
abgeschlossenes Intervall, 12
Ableitung, 133
Ableitung der Umkehrfunktion (eine Var.), 136
Ableitung in einem Punkt, 132
Ableitung in einem Punkt, 313
Ableitungsoperator, 220
abschnittsweise erklärte Zuordnungsvorschrift, 47
absolut uneigentlich integrierbar, 207
absolut konvergente Reihe, 42
Abspalten einer Nullstelle (bei Polynomen), 67
Abstand im R2 , 87
abstandserhaltende Abbildung, 90
377
INDEX
Abtast-Theorem von Shannon, 303
Abzählbarkeit von Q, 11
achsensymmetrische Funktion, 50
Additionstheorem für Binomialkoeff., 9, 68
Additionstheorem für trig. Funktionen, 58
Additionstheoreme der Hyperbelfunktionen, 56
Additivität des Integrals, 162
adjungierte Matrix, 234
affiner Teilraum, 95
algebarische Funktion, 72
Algebra, 232
algebraische Vielfachheit eines Eigenwerts, 257
Aliasing, 304
allgemeine Exponentialfunktion, 54
allgemeiner Logarithmus, 55
Alternieren (bei Determinanten), 248
alternierende Reihe, 41
alternierende harmonische Reihe, 41
analytische Funktion, 143
Aneinanderhängen von Kurven, 176
Anfangsbedingung (Beispiel), 151
Anfangspunkt einer Kurve, 113
Anfangswerte (lin. hom. DGL 2. Ordung), 97
Anfangswertproblem, 192
antilinear, 263
Antisymmetrie (Kreuzprodukt), 105
Antisymmetrie (Spatprodukt), 106
antisymmetrische Matrix, 234
Archimedische Anordnung von Q, 11
Archimedische Anordnung von R, 15
Archimedisches Prinzip, 15, 370
Arcuscosinus, 60
Arcuscotangens, 65
Arcussinus, 61
Arcustangens, 65
Arcustangensreihe, 145
Areacosinus Hyperbolicus, 57
Areasinus Hyperbolicus, 57
Areatangens Hyperbolicus, 57
Argument einer komplexen Zahl, 61
arithmetisches Mittel, 6
Assoziativgesetz, 3
Asymptoten einer Hyperbel, 279
asymptotische Gleichheit von Folgen, 30
asymptotische Gleichheit von Funktionen, 123
Auflösebedingung, 338
Aussage, 1
AWP, 192
Babylonisches Wurzelziehen, 27
Banach-Hausdorff-Tarski-Paradoxon, 157, 350
bandbegrenzte Funktion, 302
Bandbreite, 302
Basis, 96
Basis einer Potenz, 9
Basis einer Potenz, 54
Basisaustauschsatz, 224
Basisergänzungssatz, 224
Basislösung (lin. DGL 2. Ordnung), 97
Basiswechsel, 236
bedingt konvergente Reihe, 42
bedingt uneigentlich integrierbar, 207
begleitendes Dreibein, 179
begleitendes Zweibein, 178
Bernnoullische DGL, 199
Bernoulli-Zahlen, 78
Bernoullische Ungleichung, 10
beschränkte Funktion, 49
beschränkte Teilmenge von C, 32
beschränkte Teilmenge von R, 13
beschränktes Intervall, 12
Beschränktheit des Integrals für Treppenfkt., 161
Besselsche Ungleichung, 296
Bestapproximation im Quadratmittel, 268
bestimmte Divergenz, 28
Betrag einer reellen Zahl, 6
Bewegung des Rn , 272
bijektiv, 48
Bild einer linearen Abbildung, 221
Bild einer Matrix, 239
Bild unter einer Abbildung, 46
Bilinearform, 263
Binomialkoeffizient, 9
Binomialreihe, 41
binomische Formel, 10
Binormalenvektor, 179
Bogenlänge, 175
Bogenlängenparametrisierung, 177
Bogenmaß eines Winkels, 64
Cantorsches Diagonalverfahren, 11
Cauchy-Folge im Rn , 112
Cauchy-Folge in C, 36
Cauchy-Folge in R, 28
Cauchy-Hauptwert, 208
Cauchy-Integral, 157
Cauchy-Kriterium, 28
Cauchy-Produkt zweier Reihen, 44
Cauchy-Schwarzsche Ungleichung, 100
Cavalierisches Prinzip, 253
charakteristische Funktion, 156, 347
charakteristisches Polynom einer Matrix, 256
charakteristisches Polynom einer quad. Gl., 97
charakteristisches Polynom eines Diff.Op., 261
Chebyshev-Polynome 1. Art, 298
Cosinus, 58
Cosinus Hyperbolicus, 55
Cosinus-Reihe, 203
378
Cosinussatz, 88
Cotangens, 64
Cotangens Hyperbolicus, 57
Cramersche Regel, 107
Dämpfungssatz, Laplace-Transformation, 214
Defekt einer Matrix, 239
Defekt einer lin.Abb., 224
Definitionsbereich, 46
dekadischer Logarithmus, 55
Determinante (n × n), 248
Determinante (3 × 3), 106
Determinante (2 × 2), 85
Determinante (lineare Abbildung), 250
Determinantenform, 248
Dezimalbruchentwicklung, 24
Dezimalkomma, 24
Dezimalpunkt, 24
DGL, 191
DGL mit getrennten Variablen, 193
DGL mit rationalem Richtungsfeld, 200
diagonalähnliche Matrix, 256
Diagonaleintrag (Matrix), 233
diagonalisierbare Matrix, 256
Diagonalmatrix, 256
Dichtheit von Q, 11
Diffeomorphismus, 332
Differential, 313
Differentialgleichung, 191
Differentiationssatz, Laplace-Transformation, 214
Differenzenquotient, 132
differenzierbar, 133, 313
differenzierbar in einem Punkt, 132, 313
Differenzierbarkeit (eine Variable), 132
Differenzierbarkeit (mehrere Variable), 313
Dimension einer DGL, 191
Dimension einer Lösungsmannigfaltigkeit, 340
Dimension eines Vektorraums, 223
Dimensionsformel für lin.Abb., 224
Dirac-Folge, 290
direkter Beweis, 14
Dirichlet, 201
Dirichlet-Funktion, 128
diskrete Wavelet-Transformation, 307
Distributivgesetz, 3
divergente Folge, 29
divergente Reihe, 37
Divergenz, 188
divergenzfrei, 188
Division, 3
Doppelkreuzung mit parallelen Geraden, 80
Doppelreihe, 43
Drehmatrix (2 × 2), 89
Drehstreckung (in der Zahlenebene), 34
INDEX
Dreieckschwingung, 288
Dreiecksmatrix, 233
Dreiecksungleichung in C, 33
Dreiecksungleichung (Norm), 100
Dreiecksungleichung (Supremumsnorm), 158
Dreiecksungleichung im R2 , 87
Dreiecksungleichung in R, 6
Durchschnitt, 2
Ebene, 95
echt rationale Funktion, 71
Eigenraum bei lin. Abb., 257, 260
eigentliche Konvergenz, 29
Eigenvektor bei lin. Abb., 260
Eigenvektor bei Matrizen, 256
Eigenwert bei lin. Abb., 260
Eigenwert bei Matrizen, 256
eineindeutig, 48
Einheitskreis im R2 , 101
Einheitsmatrix (2 × 2), 85
Einheitsmatrix (n×), 227
Einheitsnormalenfeld, 361
Einheitsnormalenvektor, 106
Einheitspunkte, 81
Einheitssphäre im R3 , 101
Einheitssphäre im Rn , 101
Einheitsvektor, 81
Einheitswürfel, 252
Einheitswurzel, 70
einschaliges Hyperboloid, 281
Einschränkung einer Funktion, 48
einseitiger Grenzwert, 121
Einsfunktion, 50
Einsteinsche Summenkonvention, 8
1-1-Abbildung, 48
Element, 1
Ellipse, 279
Ellipsoid, 281
Emissionsmaxium eines strahlenden Körpers, 129
Endomorphismen, 225
Endpunkt einer Kurve, 113
entgegengesetzt orientiert, 254
Entwickeln eines Polynoms, 68
Entwicklungspunkt einer Potenzreihe, 73
Entwicklungssatz (Determinante), 249
Erzeugnis, 94
euklidische Bewegung, 90
euklidischer Vektorraum, 99
Euler-Konstante, 211
Euler-Produkt (Zeta-Funktion), 210
Eulersche DGL, 200
Eulersche Formel, 58
Eulersche Zahl, 52
exaktes Vektorfeld, 183
INDEX
explizite DGL erster Ordnung, 191
explizite Funktion, 338
explizite Zuordnungsvorschrift, 47
Exponent einer Potenz, 9, 54
Exponentialfunktion, 50
Exponentialreihe, 39
Faktorisierung eines Polynoms, 69
Fakultät, 9
Faltung von Funktionen (Fourier-Transf.), 305
Faltung von Funktionen (Laplace-Transf.), 215
Faltungssatz (Fourier-Transf.), 305
Faltungssatz (Laplace-Transf.), 215
fast überall gleich, 156, 348
Fast Fourier Inversion, 293
Fejér-Kern, 289
Fibonacci-Zahlen, 17
Flächen zweiter Ordnung, 278
Flächeninhalt, 365
Flächenparameterwechsel, 361
Flächenparametrisierung, 360
Flächenstück, 361
Fluss eines Vektorfeldes, 367
Folgenglied, 17
Folgenkriterium für Grenzwert, 119
Folgenkriterium für Stetigkeit, 126
Fortsetzung einer Funktion, 48
Fourier, 200
Fourier-Entwicklung (allg.), 295
Fourier-Koeffizienten, 203
Fourier-Koeffizienten (allg.), 295
Fourier-Koeffizienten (diskret), 292
Fourier-Koeffizienten (komplex), 286
Fourier-Koeffizienten (reell), 286
Fourier-Polynom, 286
Fourier-Rücktransformation, 287
Fourier-Rücktransformation (diskret), 292
Fourier-Reihe, 286
Fourier-Reihe (komplexe), 203
Fourier-Reihe (reelle), 203
Fourier-Synthese, 287
Fourier-Transformation, 287
Fourier-Transformation (diskret), 292
Fourier-Transformation in R1 R, 299
Fourier-transformierbar, 286
Freiheitsgrade einer Lösungsmannigfaltigkeit, 340
Frenet-Formeln, 180
Fundamentallösung (lin. DGL 2. Ordnung), 97
Fundamentalmatrix (Bi-, Sesquilinearform), 263
Funktion, 46
Funktion einer komplexen Variablen, 112
Funktion einer reellen Variablen, 112
Funktion mehrerer Variablen, 112
Funktional, 47
379
Funktionalgleichung der Exponentialfunktion, 51
Funktionalgleichung der trig. Funktionen, 58
Funktionalgleichungen der Hyperbelfunkt., 56
Funktionenfolge, 201
Funktionenreihe, 203
gültige Stellen, 25
Galois, Evariste, 69
Gamma-Funktion, 211
ganze Zahlen, 7
Gauß, Carl Friedrich, 69
Gauß-Klammer, 16
Gauß-Methode kleinster Quadrate, 331
Gaußsche Normalengleichungen, 331
Gaußsche Zahlenebene, 32
Gaußscher Integralsatz, 368
Gaußsches Fehlerintegral, 173
Gebiet, 185
gedämpfte kollabierende Oszillation, 118
gekoppelte Pendel, 255
gemischte partielle Ableitungen, 153
generalisierte Koordinaten, 333
geographische Breite, 110
geographische Länge, 110
geometrische Summenformel, 10
geometrische Reihe, 37
geometrische Vielfachheit eines Eigenwerts, 257
geordneter Körper, 5
Gerade, 95
gerade Funktion, 50
Gerade im R2 , 83
gerade Zahl, 4
gerichtete Größe, 79
Gewichtsfunktion (Mittelwertsatz der Int.), 164
glatte Kurve, 176
Gleichheit von Funktionen, 47
Gleichheit von Vektoren, 81
gleichmäßiger Abstand zweier Funktionen, 158
gleichorientiert, 254
Glieder einer Reihe, 37
Graßmannscher Entwicklungssatz, 105
Grad eines Polynoms, 66
Gradient, 153, 323
Gradient in generalisierten Koordinaten, 335
Gradientenfeld, 184
Gradientenlinie, 342
Gradmaß eines Winkels, 64
Gramsche Matrix, 334
Gramsche Determinante, 365
Graph einer Funktion, 48, 114
Greensche Formeln, 370
Grenzfunktion, 201
Grenzvektor einer Folge, 111
Grenzwert einer Folge, 21
380
Grenzwert einer Funktion, 119
Grenzwert einer Reihe, 37
Grenzwertkriterium für Stetigkeit, 125
Grundkörper eines Vektorraums, 92
Gruppe, 86
Häufungspunkt, 115
höhere Ableitung, 140
höhere partielle Ableitung, 153
Haar-Wavelet, 309
halboffenes Intervall, 12
harmonisch, 188
harmonische Reihe, 37
Hauptachsen einer Ellipse, 279
Hauptachsenradien eines Ellipsoids, 281
Hauptachsenradien einer Ellipse, 279
Hauptachsentransformation, 274
Hauptnormalenvektor, 177
Hauptsatz über stetige Funktionen, 130
Hauptsatz der Diff.- und Int. (Integralfkt.), 165
Hauptsatz der Diff.- und Int. (Skalarfeld), 324
Hauptsatz der Diff.- und Int. (Stammfkt.), 166
Hauptteil einer rationalen Funktion, 71
Hauptzweig des Logarithmus, 63
Hauptzweig des Arcuscosinus, 60
Hauptzweig des Arcussinus, 61
Hauptzweig des Arguments, 62
Heaviside-Funktion, 118
hebbarer Pol, 128
Hermite-Polynome, 299
hermitesche Abbildung, 273
hermitesche Matrix, 234
hermitesche Sesqilinearform, 263
Hermitezität (Skalarprodukt für C-VR), 266
Hesse-Matrix, 327
Hessesche Normalform, 106
Hilbert-Raum, 296
Hilbertscher Folgenraum (komplex), 266
Hilbertscher Folgenraum (reell), 266
Hilbertscher Funktionenraum, 294, 351
hinreichende Bed. für lokale Extrema, 146
hinreichende Bedingung, 14
Hintereinanderausführung von Funktionen, 48
homogene Gleichung, 220
Homogenität (Norm), 100
Homogenität (Supremumsnorm), 158
Homomorphismus, 225
Horner-Schema, 66
Hyperbel, 279
Hyperboloid, 281
Hyperfläche, 342
Hyperflächeninhalt, 364
Hyperflächenparametrisierung, 361
Hyperflächenstück, 361
INDEX
Hypozykloide, 369
identisch verschwindende Funktion, 50
identische Abbildung, 47
Identität, 47, 220
Identitätssatz für Skalarfelder, 325
Identitätssatz für das Integral, 163
Identitätssatz für diff. bare Fkt., 140
Identitätssatz für Polynome, 68
Identitätssatz für Potenzreihen, 75
imaginäre Einheit, 31
Imaginärteil, 31
Implikation, 1, 13
implizite, 47
implizite Funktion, 338
implizite Funktion (Beispiel), 137
indefinite quad. Form, 265
Index (bei Folgen), 17
Indexverschiebung, 8
indirekter Beweis, 14
Induktionsschluss, 7
Induktionsschritt, 7
Induktionsverankerung, 7
induktive Menge, 6
Infimum, 15
inhomogene Gleichung, 220
injektiv, 48
inkompressible Flüssigkeit, 371
inkompressible stationäre Strömung, 371
Innenprodukt im R2 , 87
innerer Punkt, 115
Integrabilitätsbedingung, 186
Integral einer Regelfunktion, 159
Integral einer Treppenfunktion, 157, 347
Integralfunktion, 165
Integrallogarithmus, 173
Integralsinus, 173
integrierbare Funktion, 349
integrierbare Funktion, 158
Intervall, 12
Intervallgrenze, 12
Intervallschachtelung, 24
inverse Matrix (2 × 2), 85
inverses Element, 3
inverses Element in einer Gruppe, 86
Inversion in der Zahlenebene, 35
invertierbare Matrix, 232
isolierter Punkt, 115
Isometrie, 269
Jacobi-Identität, 105
Jet, 326
Jordan-Block, 257
Jordansche Normalform, 285
381
INDEX
Körper, 4
Körperaxiome, 3
Kardinalreihe, 304
kartesische Koordinaten, 81
kartesische Koordinaten, 32
Katenoide, 56
Kegel, 280
Kegelschnitt, 278
Kern einer Matrix, 239
Kern einer linearen Abbildung, 221
Kettenlinie, 56
Kettenregel für Ableitungen (eine Variable), 135
Koeffizienten einer Matrix, 227
Koeffizientenvergleich bei Polynomen, 68
kollabierende Oszillation, 118
kommutative Gruppe, 86
Kommutativgesetz, 3
kompakte Menge, 116
kompaktes Intervall, 12
Kompaktum mit glattem Rand, 362
Komplement, 2
komplexe Zahlen, 31
komplexes Polynom, 66
komplexwertige Funktion, 112
Komponenten eines Koordinatenvektors, 81
Komponentenfunktion, 112
Komposition von Funktionen, 48
konforme Abbildung, 62
Kongruenzabbildung, 90
konjugierte Matrix, 234
konjugierte Zahl, 32
konservatives Vektorfeld, 183
konstante Funktion, 47
Kontinuitätsgleichung, 371
konvergente Doppelreihe, 44
konvergente Folge komplexer Zahlen, 35
konvergente Folge reeller Zahlen, 21
konvergente Folge von Vektoren, 111
konvergente Majorante, 39
konvergente Reihe, 37
Konvergenzabszisse bei Laplace-Transformation, 212
Konvergenzradius, 74
Koordinatenachsen, 81
Koordinatentransformation, 332
Koordinatenvektor, 81
Koordinatenwechsel, 237
Krümmung einer Kurve, 177
Krümmungskreis, 178
Kreiselbewegung, 272
Kreisgleichung, 58
Kreisinneres in C, 32
Kreislinie in C, 32
Kreisscheibe in C, 32
Kreuzprodukt, 104
kritischer Punkt (Fkt. einer Variablen), 146
kritischer Punkt (Fkt. mehrerer Variablen, 154
Kronecker-Symbol, 101
krummlinige Koordinaten, 333
Kugel, 101
Kugelfunktionen 1. Art, 297
Kugelkoordinaten, 110
Kugelkoordinaten (n-dimensional), 358
Kugeloberfläche, 101
Kugelvolumen, 358
Kurve, 113
Länge eines Kreisbogens, 64
Länge im R2 , 86
längenerhaltende Abbildung, 90
längentreu, 271
Lösung einer DGL, 192
Lösungsmannigfaltigkeit, 340
Lagrange-Funktional, 344
Lagrange-Multiplikatoren, 343
Lagrange-Polynome, 68
Laguerre-Polynome, 298
Landau-O für Folgen, 29
Landau-O für Folgen, 29
Landau-O für Funktionen, 123
Landau-O für Funktionen, 123
Landau-Notation für Folgen, 29
Landau-Notation für Funktionen, 123
Laplace-Integral, 212
Laplace-Operator, 188
Laplace-transformierbare Funktion, 212
Laplace-Transformierte einer Funktion, 212
Laplacescher Entwicklungssatz, 249
Lebesgue-Integral, 349
Lebesgue-integrierbare Funktion, 349
leere Menge, 2
Legendre-Polynome 1. Art, 297
Leibniz, Gottfried Wilhelm, 132
Leibniz-Kalkül, 136
Leibniz-Kriterium für Reihen, 40
Leibniz-Regel, 140
Leibniz-Reihe, 40
Leitkoeffizient eines Polynoms, 66
Levi-Civita-Tensor, 105
Levi-Folge, 350
LGS, 238
linear abhängig, 94
linear-logarithmische Darstellung, 55
lineare Abbildung, 219
lineare DGL 1. Ord mit konst. Koeff., 151
lineare DGL erster Ordnung, 197
lineare Hülle, 94
lineare homogene DGL r-ter Ordnung, 261
lineare homogene DGL 2. Ordnung, 96
382
lineare inhomogene DGL 2. Ordnung, 98
linearer Differentialoperator, 261
linearer Operator, 220
lineares Funktional, 220
lineares Gleichungssystem, 238
Linearform, 220
Linearität (Kreuzprodukt), 105
Linearität (Skalarprodukt für C-VR), 266
Linearität (Skalarprodukt in R-VR), 99
Linearität (Spatprodukt), 107
Linearität der Ableitung (eine Variable), 134
Linearität des Integrals für Treppenfkt., 161
Linearitätssatz, Laplace-Transformation, 214
Linearkombination, 94
linksseitig differenzierbar, 132
linksseitig stetig, 125
linksseitige Ableitung, 132
linksseitiger Grenzwert, 121
Linkssystem, 106
logarithmisch-lineare Darstellung, 55
logarithmisch-logarithmische Darstellung, 55
Logarithmus dualis, 55
Logarithmusfunktion, 53
Logarithmusreihe, 145
logisches oder, 1
logisches und, 1
logistische DGL, 194
lokale Koordinaten, 133, 314
lokales Extremum, 139
lokales Maximum, 139
lokales Minimum, 139
Lorentz-Form, 264
Lotfußpunkt, 89
Möbius-Band, 362
Maßtensor, 334
Majorantenkriterium für Funktionenreihen, 203
Majorantenkriterium für Reihen, 39
Mantellinie einer Rotationsfläche, 366
Massenerhaltungssatz, 371
Matrix (3 × 3), 108
Matrix (m × n), 227
Matrix (2 × 2), 85
Matrizenexponentialfunktion, 283
Matrizengruppe, 271
Matrizennorm, 283
Maximum einer Menge, 13
mehrfach stetig differenzierbar, 142
mehrfacher Eigenwert, 257
Menge, 1
metrischer Tensor, 334
Minimum einer Menge, 13
Minkowski-Metrix, 264
Mittelpunkt, 84
INDEX
Mittelpunkt einer Kugel, 101
Mittelwertsatz der Int., 163
Mittelwertsatz für Skalarfelder, 328
momentaner Drehvektor, 272
Monom, 222
monoton wachsende Funktion, 49
monoton fallende Funktion, 49
monoton fallende Folge, 27
monoton wachsende Folge, 27
Monotonie des Grenzwerts, 22
Monotonie des Integrals für Treppenfkt., 161
Monotoniekriterium für Reihen, 39
Monotoniekriterium für Folgen, 27
Monotoniekriterium für differenzierbare Fkt., 140
Multilinearität (bei Det.), 248
Multiplikatorenregel von Lagrange, 343
Mutter-Wavelet, 306
Nabla-Operator, 153
nach oben beschränkte Menge, 12
nach unten beschränkte Menge, 12
natürliche Zahlen, 7
natürlicher Definitionsbereich, 47
natürlicher Logarithmus, 53
Nebenteil einer rationalen Funktion, 71
negativ definite quad. Form, 265
negativ orientiert, 254
negativ orientiertes ONS, 106
negativ semidefinite quad. Form, 265
negative Zahl, 5
Nennerpolynom einer rationalen Funktion, 71
neutrales Element, 3
neutrales Element einer Gruppe, 86
Newton, Isaac, 132
Newton-Iteration, 148
nichtorientierter Winkel, 100
nilpotente Matrix, 230
Niveaumenge, 342
Niveaumenge einer Funktion, 114
Norm (zu einem Skalarprodukt), 99
Norm im R2 , 86
Norm im Rn , 99
Norm zu einem Skalarprodukt, 267
Normale im R3 , 106
Normalendarstellung einer Geraden, 88
Normalenvektor im R2 , 88
Normalform einer Quadrik, 278
normierter Vektor, 267
normierter Vektor im R2 , 86
Normiertheit (bei Det.), 248
notwendige Bedingung, 14
notwendige Bedingung für lokale Extrema, 139
notwendiges Konvergenzkriterium für Reihen, 37
Nullfolge, 19
383
INDEX
Nullfunktion, 50
Nullmatrix, 227
Nullmenge, 347
Nulloperator, 220
Nullpunkt, 81
Nullraum, 92
Nullstelle eines Polynoms, 67
Nullstellen stetiger Funktionen, 129
nullte Ableitung, 140
Nullvektor, 81, 92
Nyquist-Frequenz, 303
obere Schranke, 12
offene Menge, 116
offenes Intervall, 12
ONB, 102, 267
ONS, 102, 267
Operator, 47
Optimierungsproblem, 147
Ordnung einer DGL, 191
Ordnungsaxiome, 5
orientierte Kurve, 113
orientiertes Hyperflächenstück, 361
Orientierung eines Hyperflächenstücks, 361
orientierungstreu, 254
orthogonal, 101
orthogonal zu einer Menge, 267
Orthogonalbasis, 267
orthogonale Projektion, 268
orthogonale Abbildung, 269
orthogonale Gruppe, 271
orthogonale Matrix, 235
orthogonale Menge, 267
orthogonale Projektion, 89, 103
orthogonale Vektoren, 267
orthogonale Vektoren im R2 , 88
orthogonales Komplement, 101, 267
Orthogonalitätsrelationen (cos, sin), 169
Orthogonalitätsrelationen (exp), 168
Orthogonalsystem, 267
Orthonormalbasis, 102, 267
orthonormale Menge, 267
Orthonormalisieren, 103
Orthonormalisierungsverfahren, 103
Orthonormalsystem, 267
Ortsvektor, 81
Oszillationsstelle, 127
Oversampling, 304
Parabel, 280
Parabelschwingung, 288
Paraboloid, 281
Parallelenaxiom, 80
Parallelotop, 252
Parameterwechsel, 113
Parametrisierung einer Ebene, 95
Parametrisierung einer Geraden, 83, 95
Parametrisierung einer Kurve, 113
parkettierbare Menge, 346
Parkettierung, 346
Parsevalsche Gleichung, 296
Partialsumme, 36
partielle Ableitung, 152
partielle Funktion, 152
Pascalsches Dreieck, 9
periodische Funktion, 50
Perronsches Paradoxon, 130
Poincaré-Lemma, 186
Pol, 128
Polarisationsgleichung, 265
Polarkoordinaten im Raum, 110
Polarkoordinaten in C, 61
Polordnung, 128
Polynom, 66
Polynom 2. Grades in n Variablen, 277
Polynomdivision, 66
positiv definite quad. Form, 265
positiv orientiert, 254
positiv orientiertes ONS, 106
positiv semidefinite quad. Form, 265
positive Definitheit (Skalarprodukt C-VR), 266
positive Definitheit (Skalarprodukt R-VR), 99
positive Definitheit (Norm), 100
positive Definitheit (Supremumsnorm), 158
positive Hyperflächenparametrisierung, 361
positive Zahl, 5
Potential, 184
Potential (eine Variable), 166
Potentialfeld, 184
Potentialgleichung, 188
Potenz, beliebige, 54
Potenz, ganzzahlige, 9
Potenzreihe, 73
Potenzreihenansatz bei DGL, 152
Potenzschreibweise, 25
Produkt von Matrix mit Vektor (2 × 2), 85
Produkt von Matrix mit Vektor (3 × 3), 108
Produkt zweier Matrizen (3 × 3), 108
Produkt zweier Matrizen, 230
Produkt zweier Matrizen (2 × 2), 85
Produktregel für Ableitungen (eine Variable), 134
Produktzeichen, 8
punktsymmetrische Funktion, 50
punktweise stetig, 126
Quader, 117, 346
Quadergebäude, 346
Quadrat, 117
quadratintegrable Funktion, 294
384
quadratintegrierbar, 351
quadratische Ergänung, 69
quadratische Ergänzung, 278
quadratische Form, 263
quadratischer Fit, 331
Quadrik, 278
Quaternionen, 271
Quaternionengruppe, 271
Quelldichte, 188, 368
Quotientenregel für Ableitungen (eine Var.), 134
Radiant, 64
radioaktiver Zerfall, 27
Radius einer komplexen Zahl, 61
Radius einer Kugel, 101
Randpunkt einer Menge, 116
Rang einer linearen Abbildung, 224
Rang einer Matrix, 239
rationale Funktion, 71
rationale Zahlen, 11
Rayleigh-Prinzip, 277
Realteil, 31
Rechteck, 117
Rechteckschwingung, 287
rechtsseitig differenzierbar, 132
rechtsseitig stetig, 125
rechtsseitige Ableitung, 132
rechtsseitiger Grenzwert, 121
Rechtssystem, 106
reelle Zahlen, 15
reellwertige Funktion, 112
Regelfunktion, 158
Regelintegral, 157
reguläre Parametrisierung einer Kurve, 177
Regularitätsbedingung, 340
Reihenrest, 39
rein imaginäre Zahl, 32
reine Schwingung, 297
rektifizierbare Kurve, 175
Rekursionsprinzip, 17
Restglied bei Taylor-Entw., Cauchy-Darst., 143
Restglied bei Taylor-Entw., Fehler, 144
Restglied bei Taylor-Entw., Lagrange-Darst., 143
Restglied bei Taylor-Entwicklung, 143
Richtungsableitung, 323
Richtungsvektor einer Geraden, 83
Riemann, 201
Riemann-Integral, 164
Riemannsche Fläche der Exponentialfunktion, 63
Riemannsche Obersumme, 164
Riemannsche Untersumme, 164
Riemannsche Vermutung, 210
Rotation, 189
Rotationsfläche, 366
INDEX
rotationsfreies Vektorfeld, 186
Russellsche Antinomie, 2
Sägezahnschwingung, 287
Sampling Theorem, 303
Sandwichprinzip bei Folgen, 22
Sandwichprinzip bei Funktionen, 120
Sattelfläche, 282
Satz über die Jordansche Normalform, 285
Satz über implizite Funktionen, 338
Satz über lokale Umkehrbarkeit, 333
Satz des Eudoxos, 16
Satz des Pythagoras, 32
Satz vom Maximum, 130
Satz vom Maximum für Skalarfelder, 130
Satz von Bolzano-Weierstraß, 28
Satz von Dirichlet, 291
Satz von Fejér, 290
Satz von Fubini, 354
Satz von Gauß im R2 , 369
Satz von Green im R2 , 369
Satz von Lebesgue, 351
Satz von Levi, 351
Satz von Peano für DGL, 193
Satz von Picard-Lindelöf für DGL, 193
Satz von Schwarz, 322
Satz von Stokes, allgemeine Form, 359
Satz von Tonelli, 354
Satz von Weierstraß, 130
Satz von Weierstraß für Skalarfelder, 130
Schmiegparabel, 144
Schranke, 13
Schrankensatz, 325
Schraubenlinie, 113
Schwerpunkt einer Kurve, 181
selbstadjungierte Abbildung, 273
senkrecht, 101
senkrechte Vektoren im R2 , 88
Sesquilinearform, 263
simultane Hauptachsentransformation, 275
Sinc-Funktion, 118
Sinus, 58
Sinus Hyperbolicus, 55
Sinus-Reihe, 203
Skalar, 92
skalare Größe, 79
skalares Hyperflächenintegral, 366
skalares Kurvenintegral, 180
skalares Oberflächenintegral, 366
Skalarfeld, 114
Skalarmultiplikation, 91
Skalarmultiplikation im R2 , 82
Skalarprodukt, 99
Skalarprodukt bei C-VR, 266
385
INDEX
Skalarprodukt im R2 , 87
Skalarprodukt im Rn , 99
Skalenparameter, 306
Spalten einer Matrix, 227
Spaltenindex einer Matrix, 227
Spaltenvektor, 92
Spaltfunktion der Frauenhofer-Beugung, 117
Spann, 94
Spatprodukt, 106
Spektralsatz, 274
spezielle orthogonale Gruppe, 89, 271
spezielle unitäre Gruppe, 271
Sphäre, 101
Spiegelung an einem Kreis, 35
Sprungstelle, 127
Spur einer Kurve, 113
Spur einer Matrix, 256
stückweise glatte Kurve, 176
stückweise reguläre Param. einer Kurve, 177
Stammfunktion, 166
Standardbasis, 82
Sterngebiet, 186
stetig, 126
stetig differenzierbar, 142
stetig in einem Punkt, 125
stetige Fortsetzung, 127
Stirling-Formel, 150
Streckung (in der Zahlenebene), 33
streng monoton fallende Folge, 27
streng monoton fallende Funktion, 49
streng monoton wachsende Funktion, 49
streng monoton wachsende Folge, 27
Subtraktion, 3
Summe zweier Matrizen, 229
Summenzeichen, 8
Superpositionsprinzip, 94
Supremum, 15
Supremumsaxiom, 15
Supremumsnorm, 157
surjektiv, 48
Symmetrie (Skalarprodukt in R-VR), 99
symmetrische Abbildung, 273
symmetrische Bilinearform, 263
symmetrische Matrix, 234
System, dynamisches, 191
System, statisches, 191
Tangens, 64
Tangens Hyperbolicus, 57
Tangenteneinheitsvektor, 177
Tangentenproblem, 132
Tangentenvektoren an eine Fläche, 360
Tangentialraum, 314
Tangentialraum an eine Lösungsmannigf., 341
Taylor-Entwicklung, 143
Taylor-Polynom (eine Variable), 142
Taylor-Polynom (mehrere Variable), 326
Taylor-Reihe (eine Variable), 142
Teiler, 4
Teiler eines Polynoms, 67
teilerfremde Polynome, 67
Teilfolge, 18
Teilmenge, 2
Teilraum, 92
Teleskopreihe, 37
Toricelli-Gesetz, 196
Torsion einer Kurve, 179
total differenzierbar, 313
Träger einer Funktion, 303
Trägheitsmoment einer Kurve, 181
Transformationsformel für Integrale, 355
Translation, 90
transzendente Funktion, 72
Trapezregel, 174
Treppenfunktion, 156, 347
trigonometrisches Polynom, 286
triviale Linearkombination, 94
triviale Lösung, 220
Umgebung eines Punktes, 117
umgekehrte Dreiecksungleichung in C, 33
umgekehrte Dreiecksungleichung in R, 6
Umkehrabbildung, 48
umkehrbare Abbildung, 48
Umordnung einer Reihe, 41
Umordnungssatz, 42
Umordnungssatz, großer, 43
unbeschränktes Intervall, 12
unbestimmtes Integral, 166
Undersampling, 304
uneigentlich integrierbar, 207
uneigentliche Konvergenz, 28
uneigentlicher Grenzwert 1. Art bei Fkt., 122
uneigentlicher Grenzwert 2. Art bei Fkt., 122
unendlichdimensionaler Vektorraum, 223
unendliche Reihe, 36
unendliches Produkt, 37
ungerade Funktion, 50
ungerade Zahl, 4
Ungleichungskette, 5
unitäre Matrix, 235
unitäre Abbildung, 269
unitäre Gruppe, 271
unitärer Vektorraum, 266
Universalität expl. DGL erster Ordnung, 192
untere Schranke, 12
Untergruppe, 86
Unterraum, 92
386
Untervektorraum, 92
Unvollständigkeit von Q, 11
Ursprung, 81
Ursprungsebene, 95
Ursprungsgerade, 95
Variation der Konstanten, 198
Vektor, 92
Vektoraddition, 91
Vektoraddition im R2 , 82
Vektorfeld, 114
vektorielle Größe, 79
vektorielles Hyperflächenintegral, 367
vektorielles Kurvenintegral, 182
vektorielles Oberflächenintegral, 367
Vektorprodukt, 104
Vektorraum, 91
Vektorraum Cn , 93
Vektorraum R2 , 82
Vektorraum Rn , 92
Vektorrechnung, 80
vektorwertige Funktion, 112
verallg. Mittelwertsatz der Differentialr., 140
verallg. Mittelwertsatz der Int., 163
verallgemeinerte geometrische Reihe, 40
verallgemeinerte harmonische Reihe, 40
Verbindungsstrecke zweier Punkte, 84
Verdoppelungsformel für Hyperbelfunktionen, 56
Vereinigung, 2
Vergleichskriterium für Folgen, 19
Verhulst-Gleichung, 18
Verkettung von Funktionen, 48
Verneinung einer Aussage, 1
Verschiebung, 90
Verschiebung (in der Zahlenebene), 33
Verschiebungsätze für cos, sin und exp, 60
Verschiebungsparameter, 306
Verschiebungssatz, Laplace-Transformation, 214
Vertauschungssatz, 201
Vielfaches einer Matrix, 230
Vielfachheit einer Nullstelle (bei Polynomen), 67
vollständige Induktion, 7
Vollständigkeit der Regelfunktionen, 162
Vollständigkeit von R, 28
Volumen, 350
Volumen eines Quadergebäudes, 347
Volumen eines Quaders, 346
vONS, 296
Vorzeichen einer reellen Zahl, 6
Würfel, 117
Wachstum, exponentielles, 30
Wachstum, polynomiales, 30
Wahrheitstafel, 1
Wallis-Produkt, 212
INDEX
Wavelet, 306
Wavelet-Funktionen, 306
Wavelet-Koeffizient, 308
Wavelet-Polynom, 311
Wavelet-Transformation, 292, 307
Weg, 113
wegezusammenhängend, 117
Wert einer Funktion, 46
Wertemenge, 46
Wertevorrat, 46
Widerspruchsbeweis, 14
Wiensches Gesetz, 129
Winkel, 100
Winkel im R2 , 87
winkelerhaltende Abbildung in R2 , 90
winkelerhaltende Abbildung in C, 62
Wirbeldichte, 189, 372
wirbelfrei, 189
Wohlordnung der natürlichen Zahlen, 8
Wronski-Matrix, 97
Wurzel aus einer Zahl in R+
0 , 16
Zählerpolynom einer rationalen Funktion, 71
Zahlenebene, 32
Zahlenfolge, 47
Zahlengerade, 3
Zeilen einer Matrix, 227
Zeilenindex einer Matrix, 227
Zeilenmatrix, 228
Zeilenvektor, 93
Zentralfeld, 185
Zerlegungssatz, 261
Zeta-Funktion, 210
Zielbereich, 46
Ziffer, 24
Zoomschritt, 307
Zuordnungsvorschrift, 46
zusammenhängend, 117
zweimal differenzierbar, 140
zweischaliges Hyperboloid, 281
zweiseitiger Grenzwert, 121
zweite Ableitung, 140
zweite partielle Ableitung, 153
Zwischenwertsatz, 129
Zwischenwertsatz für Skalarfelder, 130
zyklische Symmetrie (Spatprodukt), 107
Zykloide, 175
Zylinder über Kegelschnitt, 280
Zylinderkoordinaten im R3 , 107
Herunterladen