Analysis-Skript Datei

Werbung
Analysis 1/2 und Vertiefung Analysis
Jürgen Grahl, WS 2011/12, SS 2012 und WS 2012/13
Version: 6.2.2013 - komplettes Skript mit Index
1
Inhaltsverzeichnis
Vorwort
1
I
6
Grundlagen
1 Das Prinzip der vollständigen Induktion und einige Anwendungen
7
1.1
Vollständige Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2
Erste Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.3
Der Binomische Lehrsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.4
Arithmetisches und geometrisches Mittel . . . . . . . . . . . . . . . . . . . .
12
1.5
Die geometrische Summenformel . . . . . . . . . . . . . . . . . . . . . . . . .
15
2 Die reellen Zahlen
17
2.1
Die algebraische Struktur der reellen Zahlen . . . . . . . . . . . . . . . . . .
17
2.2
Die Ordnungsstruktur der reellen Zahlen . . . . . . . . . . . . . . . . . . . .
23
2.3
Die metrische Struktur der reellen Zahlen: Absolutbetrag und euklidischer
Abstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.4
Das Vollständigkeitsaxiom . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.5
Eine exakte Definition der natürlichen Zahlen∗ . . . . . . . . . . . . . . . . .
34
2.6
Vergleich der rationalen und der reellen Zahlen . . . . . . . . . . . . . . . . .
37
3 Die komplexen Zahlen und die Räume Rn und Cn
43
3.1
Warum komplexe Zahlen? . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.2
Konstruktion der komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . .
43
3.3
Rn und Cn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4 Metrische Räume
53
II
57
Konvergenz und Stetigkeit
5 Konvergenz von Folgen
57
5.1
Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.2
Der Begriff der Konvergenz
. . . . . . . . . . . . . . . . . . . . . . . . . . .
59
5.3
Regeln für Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
5.4
Einige wichtige Grenzwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
2
6 Konvergenzkriterien für Folgen
71
6.1
Beschränkte und monotone Folgen . . . . . . . . . . . . . . . . . . . . . . . .
71
6.2
Häufungswerte und der Satz von Bolzano-Weierstraß . . . . . . . . . . . . .
73
6.3
Cauchy-Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
7 Unendliche Reihen
81
7.1
Nur eine Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
7.2
Die geometrische, die harmonische und die Exponentialreihe . . . . . . . . .
82
7.3
Allgemeine Konvergenzkriterien für Reihen . . . . . . . . . . . . . . . . . . .
85
7.4
Kriterien für absolute Konvergenz . . . . . . . . . . . . . . . . . . . . . . . .
90
7.5
Umordnung von Reihen
97
7.6
Produkte von Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.7
Die Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.8
Partielle Summation und das Abelsche Konvergenzkriterium∗ . . . . . . . . . 105
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8 Ein wenig Topologie
108
8.1
Häufungspunkte von Mengen und Abgeschlossenheit . . . . . . . . . . . . . . 108
8.2
Kompakte Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9 Stetige Funktionen
114
9.1
Der Begriff der Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
9.2
Das Folgenkriterium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.3
Bildung neuer stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 120
9.4
Beispiele stetiger und unstetiger Funktionen . . . . . . . . . . . . . . . . . . 122
9.5
Grenzwerte von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.6
Uneigentliche und einseitige Grenzwerte . . . . . . . . . . . . . . . . . . . . 131
10 Abbildungseigenschaften stetiger Funktionen
134
10.1 Bilder kompakter Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.2 Topologische Kennzeichnung der Stetigkeit . . . . . . . . . . . . . . . . . . . 135
10.3 Der Zwischenwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.4 Umkehrfunktionen stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . 140
11 Gleichmäßige Konvergenz
145
11.1 Punktweise und gleichmäßige Konvergenz und die Stetigkeit der Grenzfunktion145
11.2 Kriterien für gleichmäßige Konvergenz . . . . . . . . . . . . . . . . . . . . . 149
11.3 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
11.4 Der Abelsche Stetigkeitssatz∗ . . . . . . . . . . . . . . . . . . . . . . . . . . 162
3
12 Spezielle Funktionen
165
12.1 Die Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
12.2 Der natürliche Logarithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
12.3 Allgemeine Potenzen und Logarithmen . . . . . . . . . . . . . . . . . . . . . 168
12.4 Trigonometrische Funktionen und Hyperbelfunktionen . . . . . . . . . . . . . 171
12.5 Die Kreiszahl π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
12.6 Der Fundamentalsatz der Algebra∗ . . . . . . . . . . . . . . . . . . . . . . . 186
13 Vertiefte topologische Betrachtungen
190
13.1 Bild und Urbild von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 190
13.2 Weitere topologische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
13.3 Kompaktheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
13.4 Gleichmäßige Stetigkeit und Dehnungsbeschränktheit . . . . . . . . . . . . . 208
13.5 Der Banachsche Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 211
13.6 Ausblick: Topologische Räume . . . . . . . . . . . . . . . . . . . . . . . . . . 213
III
Differential- und Integralrechnung einer Variablen
14 Differenzierbarkeit
215
215
14.1 Die Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
14.2 Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
14.3 Höhere Ableitungen und stetige Differenzierbarkeit . . . . . . . . . . . . . . 229
15 Die Mittelwertsätze der Differentialrechnung und Folgerungen daraus
233
15.1 Lokale Extrema und stationäre Punkte . . . . . . . . . . . . . . . . . . . . . 233
15.2 Die beiden Mittelwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
15.3 Monotone Funktionen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
15.4 Konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
15.5 Zwischenwertsatz für Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . 249
15.6 Regeln von Bernoulli und de l’Hospital . . . . . . . . . . . . . . . . . . . . . 251
16 Stammfunktionen und Integrationstechniken
255
16.1 Stammfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
16.2 Partielle Integration und Substitutionsregel . . . . . . . . . . . . . . . . . . . 256
16.3 Partialbruchzerlegung rationaler Funktionen . . . . . . . . . . . . . . . . . . 260
4
17 Das Riemann-Integral
265
17.1 Intervallzerlegungen und Treppenfunktionen . . . . . . . . . . . . . . . . . . 265
17.2 Definition des Riemann-Integrals . . . . . . . . . . . . . . . . . . . . . . . . 268
17.3 Operationen mit integrierbaren Funktionen . . . . . . . . . . . . . . . . . . . 274
17.4 Die Integrierbarkeit der stetigen und der monotonen Funktionen . . . . . . . 279
18 Der Hauptsatz der Differential- und Integralrechnung
282
19 Grenzwertvertauschung bei der Differentiation und Integration
288
19.1 Vertauschung der Integration mit Grenzübergängen . . . . . . . . . . . . . . 288
19.2 Vertauschung der Differentiation mit Grenzübergängen . . . . . . . . . . . . 291
20 Taylorpolynome und Taylorreihe
295
20.1 Lokale Approximation durch Taylor-Polynome . . . . . . . . . . . . . . . . . 295
20.2 Taylorsche Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
20.3 Die Taylorreihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
21 Uneigentliche Riemann-Integrale
308
21.1 Definition uneigentlicher Integrale . . . . . . . . . . . . . . . . . . . . . . . . 308
21.2 Konvergenzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
22 Wege, Kurven und ihre Länge
316
22.1 Wege . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
22.2 Die Länge von Wegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
22.3 Funktionen von beschränkter Variation . . . . . . . . . . . . . . . . . . . . . 326
22.4 Parametertransformationen und Kurven . . . . . . . . . . . . . . . . . . . . 328
IV
Differentialrechnung in mehreren Variablen
23 Benötigte Hilfsmittel aus der Linearen Algebra
331
331
23.1 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
23.2 Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . 333
23.3 Normierte Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
24 Partielle Ableitungen und totale Differenzierbarkeit
342
24.1 Partielle Differenzierbarkeit und Richtungsableitungen - Auf der Suche nach
dem richtigen“ Differenzierbarkeitsbegriff . . . . . . . . . . . . . . . . . . . 342
”
24.2 Totale Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
24.3 Die Ableitung und die Jacobi-Matrix . . . . . . . . . . . . . . . . . . . . . . 347
5
24.4 Rechenregeln für Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . 352
24.5 Der Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
24.6 Niveaumengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
25 Höhere Ableitungen und lokale Extrema
360
25.1 Die Reihenfolge partieller Ableitungen . . . . . . . . . . . . . . . . . . . . . 360
25.2 Die Hesse-Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
25.3 Bestimmung von Extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
26 Der Satz über lokale Umkehrbarkeit und der Satz über implizite Funktionen
375
26.1 Der Satz über lokale Umkehrbarkeit . . . . . . . . . . . . . . . . . . . . . . . 375
26.2 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
26.3 Der Satz über implizite Funktionen . . . . . . . . . . . . . . . . . . . . . . . 384
26.4 Beispiele und Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
27 Lokale Extrema unter Nebenbedingungen
391
28 Untermannigfaltigkeiten und Tangentialräume
396
28.1 Untermannigfaltigkeiten in Rn . . . . . . . . . . . . . . . . . . . . . . . . . . 396
28.2 Der Satz vom regulären Wert und der Immersionssatz . . . . . . . . . . . . . 399
28.3 Tangentialebenen an Untermannigfaltigkeiten . . . . . . . . . . . . . . . . . 403
28.4 Ausblick: Der Begriff der Mannigfaltigkeit . . . . . . . . . . . . . . . . . . . 408
V
Die Lebesguesche Integrationstheorie
29 Quader, Nullmengen und Treppenfunktionen
410
412
29.1 Quader . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
29.2 Nullmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
29.3 Treppenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
30 Das Lebesgue-Integral
421
30.1 Integration von Treppenfunktionen . . . . . . . . . . . . . . . . . . . . . . . 421
30.2 Monotone Folgen von Treppenfunktionen . . . . . . . . . . . . . . . . . . . . 423
30.3 Integrierbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
30.4 Die Konvergenzsätze der Lebesgue-Theorie . . . . . . . . . . . . . . . . . . . 432
30.5 Vergleich zwischen Riemann- und Lebesgue-Integral . . . . . . . . . . . . . . 440
6
31 Messbarkeit
445
31.1 Messbare Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
31.2 Eine nicht-messbare Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
31.3 Messbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
32 Die Lp -Räume∗
456
32.1 Die Räume Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
32.2 Die Höldersche und die Minkowskische Ungleichung . . . . . . . . . . . . . . 457
32.3 Der Raum L∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
32.4 Hilberträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
32.5 Die Vollständigkeit der Räume Lp . . . . . . . . . . . . . . . . . . . . . . . . 461
VI
Mehrfachintegrale, Transformationsformel, Integralsätze 465
33 Mehrfache Integrale
465
33.1 Der Satz von Fubini für stetige Funktionen zweier Variabler . . . . . . . . . 465
33.2 Die Sätze von Fubini und Tonelli . . . . . . . . . . . . . . . . . . . . . . . . 467
33.3 Das Cavalierische Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
34 Die Transformationsformel
472
35 Die Integralsätze von Green, Stokes und Gauß
478
35.1 Vektorfelder und Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . 478
35.2 Divergenz, Rotation und Kreuzprodukt . . . . . . . . . . . . . . . . . . . . . 480
35.3 Der Satz von Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
35.4 Der Satz von Stokes im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
35.5 Der Integralsatz von Gauß . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
Literatur
489
Index
489
7
Vorwort
Bei der Erstellung des vorliegenden Skripts wollte ich bewusst nicht das Rad neu erfinden,
sondern aus zahlreichen hervorragenden Vorlagen das aus meiner Sicht Gelungenste zusammenstellen. In erster Linie basiert es auf den Vorlesungsausarbeitungen von G. Köhler, aus
denen ich selbst die Analysis gelernt habe. Eine unschätzbare Erleichterung war es für mich,
dass mir Herr Köhler den LATEX-Quellcode seines Vorlesungsskripts sowie die zugehörigen
Grafiken zur Verfügung gestellt hat; auch die meisten der Abbildungen in diesem Skript
gehen auf ihn zurück. Darüberhinaus habe ich – neben eigenen Vorstellungen und Erfahrungen – zahlreiche Anregungen aus anderen Analysis-Texten einfließen lassen. Insbesondere
die Vorlesungsskripten von C. Kanzow, H. Pabel, O. Roth und J. Steuding sowie die Bücher
von E. Behrends und H. Heuser waren in dieser Hinsicht sehr inspirierend für mich, und ich
verdanke ihnen eine Menge. Insofern beansprucht dieses Skript in keiner Weise Originalität.
Sehr habe ich von den Kommentaren und Anregungen kritischer Leser profitiert. Insbesondere Frank Feustel und Florian Möller danke ich für viele wertvolle Verbesserungsvorschläge.
Aus Zeitgründen können einige wenige Themen nicht bzw. nur kursorisch in der Vorlesung
behandelt werden. Sie sind durch Sternchen (∗) gekennzeichnet. Für das Verständnis der
übrigen Vorlesung sind diese Abschnitte nicht erforderlich, und sie sind auch für die Semesterabschlussklausuren bzw. später für die mündlichen Prüfungen nicht relevant. Dennoch
empfehle ich im Hinblick auf das weitere Mathematik-Studium, diese Inhalte in einer ruhigen Stunde (z.B. in den Semesterferien) im Selbststudium durchzuarbeiten.
1
Ein paar Worte der Ermutigung zum Studienanfang. . .
Ein Fremder in New York: Können Sie mir
”
sagen, wie ich zur Carnegie Hall komme?“
Antwort: Üben, üben, üben“.1
”
Das Mathematikstudium steht nicht gerade im Ruf, ein sonderlich einfaches Studium zu
sein, und insbesondere die Umstellung von der Schulmathematik auf die universitäre Mathematik bereitet erfahrungsgemäß der Mehrzahl der Studienanfänger mehr oder minder große
Schwierigkeiten. Als um so entmutigender, ja mitunter provokanter wird es daher oft empfunden, wenn sich in Vorlesungen und Lehrbüchern Floskeln wie Offensichtlich gilt. . .“, wie
”
”
man leicht einsieht“, Die Gültigkeit der Behauptung ist klar“ oder Der Beweis ist trivial
”
”
und wird daher dem Leser als leichte Übung überlassen“ aneinanderreihen. Das vorliegende
Skript bemüht sich, diesen (für den Autor bequemen, für den Leser hingegen um so unbequemeren und frustrierenden) Stil, an dem ich mich selbst seit meinem eigenen Studium oft
gestört habe, weitgehend zu vermeiden, alle Überlegungen ausführlich zu erläutern und auf
diese Weise möglichst flüssig lesbar zu sein.
Aber auch ein noch so ausführliches Skript und noch so umfangreiche Erläuterungen während
der Vorlesung ebenso wie alle begleitenden Hilfsangebote in Form von Übungen, Tutorien
und Fragestunden können es nicht ersparen, die Inhalte der jeweiligen Vorlesung eigenständig
zu durchdenken. Die Argumentationsdichte in mathematischen Vorlesungen ist in der Regel
so hoch, dass ein sofortiges Verstehen aller Details oder gar ein sofortiges Überblicken der
tieferen Zusammenhänge nicht zu erwarten sind. Daher ist ein gründliches Nacharbeiten
der Vorlesung in Ruhe und mit Muße unbedingt erforderlich. Wieviel Zeit dies in Anspruch
nimmt, ist individuell natürlich höchst unterschiedlich; als grobe Richtschnur dürften aber
90 bis 120 Minuten pro Vorlesungsdoppelstunde realistisch sein.
Die Bedeutung des Nacharbeitens der Vorlesung (und insbesondere des schrittweisen Nachvollziehens der Beweise) wird von Studienanfängern häufig erheblich unterschätzt. Ein typisches Anfängerproblem ist regelrechte Ratlosigkeit, wie man die in Übungs- oder Klausuraufgaben auftretenden Beweise überhaupt angehen soll. Ich will dieses Problem nicht
bagatellisieren; in der Tat lernt man mathematisches Argumentieren, das ja in der Schulmathematik höchstens noch ein Randdasein fristet, meist nicht von heute auf morgen. Zu
bedenken ist aber, dass alle in der Vorlesung vorgeführten Beweise Anschauungsbeispiele
darstellen, anhand derer man (wenn auch ganz allmählich) lernen kann, wie man mathematisch korrekt und sinnvoll argumentiert. Wer ein Übungsblatt bearbeiten will, ohne sich
vorher gründlich mit der Vorlesung (und insbesondere mit den dort vorkommenden Beweisen) vertraut gemacht zu haben, trägt viel selbst dazu bei, wenn sich alsbald ein Gefühl der
Überforderung einstellt.
Selbst bei intensiver Beschäftigung mit der Vorlesung und den Übungsaufgaben ist freilich nicht zu erwarten, dass sogleich ein umfassendes Verständnis entsteht; für den Anfang
genügt es durchaus, einen Beweis Schritt für Schritt nachvollziehen zu können (im Sinne
eines lediglich lokalen“ Verständnisses) – wobei es äußerst hilfreich ist, sich am Ende ei”
1
entnommen aus dem nicht nur für Musikliebhaber lesenswerten Buch C. Drösser: Der Musikverführer Warum wir alle musikalisch sind, Rowohlt, Reinbek 2011
2
nes Beweises Rechenschaft darüber abzulegen, was denn die zentralen Ideen und Argumente
des Beweises waren2 . Ein vertieftes, globales“ Verständnis – insbesondere die Einsicht in
”
größere Zusammenhänge – entwickelt sich oft erst mit einigem zeitlichen Abstand, z.B. gegen Semesterende bei der Vorbereitung auf die Klausur oder später bei der Vorbereitung
auf die mündlichen Prüfungen. Dies lässt sich vielleicht damit vergleichen, wie man sich in
einer neuen, unbekannten Stadt schrittweise orientiert: Als erstes wird man sich die täglich
benutzten Routen (zur Arbeitsstätte, zu den wichtigsten Geschäften etc.) einprägen – und
vielleicht ängstlich bemüht sein, von diesen möglichst wenig abzuweichen; nach einer Weile
wird man nach und nach mutiger werden und die Sicherheit gewinnen, auch einmal andere
Wege zu erkunden, wird sich in bisher unbekannte Stadtviertel vorwagen, bis man nach einigen Jahren die meisten Winkel kennt – und vor allem eine Übersichtskarte der Stadt vor
dem geistigen Auge hat, die einen davor bewahrt, sich hoffnungslos zu verlaufen, wenn man
doch einmal in eine unbekannte Ecke der Stadt gerät. Aus dem anfänglichen geronnenen
”
Wissen“, einem kargen Vorrat an wenigen, mühsam einstudierten Rezepten, wie man gewisse Routinewege zurücklegen kann, ist ein fluides Wissen“ geworden, das einem hilft, sich
”
auch in neuen und unerwarteten Situationen flexibel zurechtzufinden. Sich im Laufe dieses
Orientierungsprozesses mal so richtig verlaufen zu haben, ist zwar zunächst ärgerlich, hilft
aber oftmals entscheidend dabei, sich künftig besser zurechtzufinden, denn aus den Fehlern,
die man selber begeht, lernt man meist am besten.
Wichtig ist dabei natürlich, sich überhaupt erst einmal dem Risiko, sich zu verlaufen, auszusetzen; niemand käme auf die Idee, Orientierung in einer Stadt zu erlangen, indem er Abend
für Abend den Stadtplan auswendig lernt, ohne dabei sein Haus zu verlassen. Und genauso
muss man auch in der Mathematik erst einmal manche geistigen Irr- und Umwege gehen,
Rückschläge und Frustrationen überstehen, bis sich nach und nach die Erfolge in Form eines
sich zunehmend vertiefenden Verständnisses einstellen.
Konkret bedeutet das, dass es neben dem Nachvollziehen fremder Beweise ebenso wichtig
ist, das mathematische Argumentieren selbst aktiv zu üben. Dazu dienen die Übungsaufgaben in Form von Haus- und Präsenzaufgaben. Beweise zu führen lernt man nur, indem
man sich selbst daran versucht, ebenso wie man Klavierspielen nur durch beharrliches Üben
und nicht durch Zuhören lernt – und dabei als unvermeidlich in Kauf nimmt, dass sich
das erste Herantasten an das Klavier oft grauenhaft oder zumindest sehr holprig anhört.
In beiden Fällen – beim Klavierspielenlernen wie in der Mathematik – bedarf es zugegebenermaßen einiger Frustrationstoleranz, nicht gleich vor den ersten Schwierigkeiten zu
kapitulieren, sondern sich diesen zu stellen und an ihrer Bewältigung zu arbeiten. Leider
ist es ein verbreiteter Reflex unter Studienanfängern, auf die Schwierigkeiten, die sich beim
Bearbeiten der ersten Übungsblätter einstellen, mit dem Abschreiben fremder Lösungen zu
reagieren; begründet wird dies oft damit, man wolle sich auf diese Weise wenigstens“ die
”
2
Letztlich ist die Herausforderung, sich mathematische Beweise sinnvoll einzuprägen, mit dem Problem
der effizienten Datenkompression vergleichbar: Man kann ein Bild, das z.B. ein schwarzes Dreieck auf weißem
Grund zeigt, pixelweise abspeichern und wird hierfür vielleicht 1 MB Speicherplatz benötigen. Man kann
aber auch, wenn man sich der Struktur des Dreiecks bewusst ist, lediglich die Koordinaten der Eckpunkte
abspeichern zusammen mit der Information, dass diese drei Punkte die Eckpunkte eines Dreiecks sind, dass
dessen Inneres Schwarz und dessen Äußeres Weiß ist. Auf diese Weise wird man mit einem Bruchteil des
Speicherplatzes auskommen. Ähnlich verhält es sich mit mathematischen Beweisen: Man kann einen Beweis
Schritt für Schritt auswendig lernen – was sehr aufwändig und fehleranfällig ist, sicher nicht zur Freude an der
Mathematik und schon gar nicht zu einem tieferen Verständnis beiträgt. Sinnvoller ist es, die Grundstruktur
eines Beweises herauszudestillieren, sich nur diese einzuprägen und sich die zusätzlich benötigten, oftmals
rein technischen Details bei Bedarf selbst wieder abzuleiten.
3
Klausurzulassung sichern. Dies mag zwar als Panikreaktion3 verständlich sein, ist aber etwa so erfolgversprechend, als würde man für einen 10-Kilometer-Lauf trainieren“, indem
”
man jeden Abend die Laufstrecke mit dem Auto abfährt. Umgekehrt gilt: Wer sich während
des Semesters immer selbst mit den Übungsaufgaben abgemüht hat, ohne der kurzfristigen
Bequemlichkeit des Abschreibens nachzugeben, ist eigentlich bestmöglich auf die Klausur
vorbereitet und darf dieser zuversichtlich und ohne Angst entgegensehen.
Dies soll andererseits kein Plädoyer dafür sein, isoliert für sich alleine zu arbeiten. Gemeinsame Diskussionen über den Vorlesungsstoff und die Aufgaben können sehr wertvoll sein, um
ein tieferes Verständnis zu gewinnen und die Einsicht in mathematische Zusammenhänge zu
fördern. Freilich ist die aktive Mitarbeit eines jeden Einzelnen in einer Arbeitsgruppe wichtig;
bloße Mitläuferschaft ist nutzlos. Auch zum Aufschreiben gemeinsam erarbeiteter Lösungen
sollten alle Beteiligten beitragen; es reicht nicht aus, lediglich Ideen beizusteuern, nicht aber
an deren Ausformulierung mitzuarbeiten: Die Anforderung, gute Ideen auch verständlich auszudrücken, ist nicht zu unterschätzen. U.a. um die Bildung von Arbeitsgruppen zu fördern,
lassen wir bei den Hausaufgaben Doppelabgaben (zwei Namen pro Bearbeitung) zu.
Noch einige Bemerkungen zum Wesen des Wissenserwerbs in der Mathematik: Beim Ler”
nen“ in der Mathematik steht weniger als in anderen Disziplinen der Erwerb von Faktenwissen im Vordergrund; und schon gar nicht geht es um ein pures Auswendiglernen“. Vielmehr
”
geht es vor allem um das Verständnis von Zusammenhängen, in zweiter Linie auch um die
Aneignung gewisser Fähigkeiten und Techniken (in der Analysis z.B. der sog. ε-δ-Technik).
Solch fluides Wissen“ erreicht man nur durch beständige aktive Beschäftigung mit der Ma”
terie; das erforderliche Faktenwissen stellt sich dann eher nebenbei automatisch ein, so wie
man sich – um auf obiges Beispiel zurückzukommen – Straßennamen sinnvollerweise nicht
durch tägliches Lernen“ eines abstrakten Stadtplans einprägt, sondern dadurch, dass man
”
oft genug in der Stadt spazieren geht. Wichtig für das mathematische Verständnis ist dabei
das Wechselspiel zwischen mathematischem Formalismus und mathematischer Vorstellung
bzw. Anschauung. Beide sind wichtig, bleiben für sich genommen aber einseitig: Bloßer
Formalismus bleibt blutleer und degradiert die Mathematik zum Gespenst, vor dem man
verständlicherweise Angst hat. Bloße Anschauung ohne Formalismus bleibt vage und unpräzise und genügt den strengen logischen Ansprüchen der Mathematik nicht. Ich will dies
an einem wichtigen Begriff der Analysis erläutern, der Stetigkeit: In der Schulmathematik
stellt man sich unter einer stetigen Funktion meist eine Funktion vor, die keine Sprünge hat,
oder auch eine Funktion, deren Graph man zeichnen kann, ohne den Stift abzusetzen. Beide
Vorstellungen erweisen sich, wie wir später sehen werden, als zu unpräzise für eine sinnvolle
Definition des Stetigkeitsbegriffs. Stattdessen sieht die offizielle“ Definition der Stetigkeit
”
einer Funktion f : R −→ R im Punkt a in der universitären Mathematik wie folgt aus:
∀ ε>0 ∃ δ>0 ∀ x∈R |x − a| < δ =⇒ |f (x) − f (a)| < ε .
Das sieht erst einmal fürchterlich abschreckend aus. Natürlich gilt es, diese rein formale
Definition mit Leben zu füllen, damit sie kein furchteinflößendes Gespenst bleibt; niemand
sollte sich damit selbst kasteien, eine solche Definition auswendigzulernen, ohne zu verstehen,
was sie bedeutet. Dazu freilich bedarf es einer Menge an Erläuterungen, die insbesondere die
Brücke schlagen müssen zu den aus der Schule gewohnten Vorstellungen. Keine Sorge: Wir
werden uns für diese Erläuterungen in Kapitel 9 ausführlich Zeit nehmen.
3
Bei etwas gelassenerer Betrachtung sollte klar sein, dass die Befürchtungen, die Klausurzulassung zu
verfehlen, in der Regel weit übertrieben sind: Die 30%-Grenze für die Klausurzulassung ist bewusst niedrig
gewählt, so dass sie im Regelfall keine allzu ernsthafte Hürde darstellen sollte.
4
Womit wir wieder beim schon oben angeklungenen Stichwort Zeit wären: Das hier skizzierte
mathematische Verständnis entwickelt sich natürlich nicht über Nacht, sondern braucht wie
alle geistigen Entwicklungs- und Reifungsprozesse seine Zeit, und man sollte sich diese auch
gönnen, ohne mit sich selbst zu ungeduldig zu sein: Gras wächst nicht schneller, wenn man
daran zieht.
Leider gehen die gesellschaftlichen Erwartungen derzeit oftmals in genau die entgegengesetzte Richtung: Der ideale Bewerber aus Sicht der Unternehmen scheint der 25jährige zu
sein, der in sechs Semestern zwei Bachelorstudiengänge und nebenbei vier Firmenpraktika
absolviert, fünf Fremd- und vier Programmiersprachen gelernt, zwei Semester im Ausland
verbracht hat und bereits über sieben Jahre Berufserfahrung verfügt. Tanjev Schultz hat es in
dem Artikel Generation der Lebenslauf-Optimierer“ (Süddeutsche Zeitung vom 26.08.2011)
”
treffend auf den Punkt gebracht: Politiker, Manager und Eltern schärfen den Jugendlichen
”
gerne ein, dass sie bloß nicht den Anschluss verlieren dürften. So haben sie eine Generation von Getriebenen geschaffen, die unvereinbare Erwartungen erfüllen und möglichst wenig
nach links und rechts schauen sollen. Der Bildungsweg folgt streng den vorgegebenen Bahnen. Immer mehr Eindrücke und Wissensschnipsel in immer kürzerer Zeit zu sammeln – das
gelingt nur akademischen Pauschaltouristen.“ Ich halte es nicht nur für an der Zeit, sondern
für dringend überfällig, sich diesem kollektiven Beschleunigungswahn zu widersetzen. Es ist
sicherlich nicht leicht, unbeirrt seinen eigenen Weg zu gehen; aber nur wer gegen den Strom
schwimmt, kommt an der Quelle an.
Und über allem Engagement im Studium, auf dessen Notwendigkeit wir im Laufe der kommenden zwei oder drei Semester noch oft genug mahnend hinweisen werden, sollte man
schließlich auch nicht vergessen, dass es neben Analysis und Linearer Algebra noch viele andere schöne und interessante Dinge im Leben gibt, viele weitere Möglichkeiten der persönlichen
Entwicklung und Entfaltung, die ebenfalls zu ihrem Recht kommen sollten. Entscheidend ist
auch hier natürlich die richtige Balance; Richard David Precht drückt es in seinem Bestseller
Wer bin ich – und wenn ja, wie viele?“ wie folgt aus: Lernen und Genießen sind das
”
”
Geheimnis eines erfüllten Lebens: Lernen ohne Genießen verhärmt, Genießen ohne Lernen
verblödet.“ Daran sollten wir uns halten – und dabei eines bedenken: Wir leben für uns selber
– nicht für unseren Lebenslauf.
Würzburg, im September 2011,
5
Jürgen Grahl
Teil I
Grundlagen
Die Analysis handelt vorwiegend von reellwertigen Funktionen von einer oder mehreren reellen Variablen. Deshalb muss zunächst erklärt werden, was reelle Zahlen überhaupt sind.
Allerdings wollen wir uns nicht allzu lange mit der Frage aufhalten, wie man reelle Zahlen
mathematisch präzise definiert bzw. konstruiert, sondern uns im Wesentlichen auf den pragmatischen Standpunkt stellen, dass die reellen Zahlen aus dem Schulunterricht bekannt“
”
sind.
Man könnte die reellen Zahlen in konstruktiver Form einführen, indem man den in vielen Schuljahren zurückgelegten Weg von den natürlichen Zahlen über die ganzen zu den
rationalen Zahlen (den Brüchen) und schließlich zu den reellen Zahlen nachvollzieht und
dabei mathematisch präzisiert. Dabei würde jedoch der Weg zu den eigentlichen Inhalten
der Analysis unvertretbar lang werden, und zudem würde ein solcher konstruktiver Zugang
vermutlich vor allem Verwirrung stiften. Er entspräche auch nicht der historischen Entwicklung: Eine hochentwickelte Analysis gab es spätestens im 17. und 18. Jahrhundert, während
eine befriedigende Konstruktion des Systems der reellen Zahlen erst um 1870 gelang.
Dennoch wollen wir (in Kapitel 2) kurz (und teilweise von einer abstrakteren Ebene als im
Schulunterricht) zusammenstellen, was wir von den reellen Zahlen wissen (sollten), und dabei
auf einige bisher vermutlich eher weniger vertraute Aspekte besonders eingehen. Wir werden
im Folgenden allerdings nicht einfach davon sprechen, dass gewisse Eigenschaften der reellen
Zahlen bekannt“ seien. Vielmehr werden wir – etwas vornehmer – die betreffenden Eigen”
schaften als Axiome formulieren, d.h. wir postulieren kurzerhand, dass die reellen Zahlen die
Eigenschaften haben, von denen wir ohnehin wissen (oder besser: zu wissen glauben), dass
sie sie haben.
Auch wenn in der Analysis I und II die eindimensionale“ reelle Analysis im Vordergrund
”
stehen wird, lassen sich viele Betrachtungen fast wörtlich auf etwas allgemeinere Situationen übertragen, nämlich auf Funktionen einer komplexen Variablen oder auf Abbildungen
zwischen metrischen Räumen. In den Kapiteln 3 und 4 führen wir daher den Körper der
komplexen Zahlen und den allgemeinen Begriff des metrischen Raumes ein.
Wir beginnen in Kapitel 1 mit einem wichtigen Beweisprinzip, dem Prinzip der vollständigen
Induktion, und einigen mithilfe dieses Prinzips beweisbaren Resultaten, die wir später immer
wieder benötigen werden.
Hier aber zunächst ein Überblick über die allgemein üblichen Symbole für die Zahlenbereiche,
mit denen wir im Folgenden hauptsächlich zu tun haben werden:
• die natürlichen Zahlen N := {1, 2, 3, . . .}
• die natürlichen Zahlen mit Null N0 := N ∪ {0} = {0, 1, 2, 3, . . .}
• die ganzen Zahlen Z := {0, ±1, ±2, ±3, . . .}
|
m
∈
Z,
n
∈
N
• die rationalen Zahlen Q := m
n
• die reellen Zahlen R
• die komplexen Zahlen C (Kapitel 3)
6
1
Das Prinzip der vollständigen Induktion und einige
Anwendungen
Jeder kennt die natürlichen Zahlen 1, 2, 3, . . ., und jeder weiß, dass die natürlichen Zahlen als
Teilmenge in den reellen Zahlen enthalten sind. Wir verwenden sie in diesem Kapitel vorerst
in einer sog. naiven“ Weise und gehen zunächst nicht weiter auf die Frage ein, wie man
”
die natürlichen Zahlen und ihre Beziehung zu den reellen Zahlen exakt definiert. Wie dies
möglich ist, werden wir später (in Abschnitt 2.5) zumindest andeuten.
1.1
Vollständige Induktion
Bereits aus dem Vorkurs bekannt ist eine der wichtigsten Beweismethoden der Mathematik:
die vollständige Induktion, mit der wir uns nun etwas eingehender beschäftigen wollen. Sie
wird häufig bei folgendem Problem angewandt: Für jede natürliche Zahl n sei A(n) eine
Aussage (die a priori wahr oder falsch sein kann). Es soll bewiesen werden, dass die Aussage
A(n) für alle natürlichen Zahlen n wahr ist. Dazu geht man wie folgt vor:
Prinzip der vollständigen Induktion:
• Induktionsanfang (Induktionsverankerung): Man zeigt, dass die Aussage A(1)
richtig ist.
• Induktionsvoraussetzung (Induktionsannahme): Man betrachtet ein festes, aber
beliebiges n ∈ N und nimmt an, dass A(n) wahr ist.
• Induktionsschritt (Induktionsschluss): Man zeigt, dass auch A(n + 1) gültig ist.
Hat man sowohl den Induktionsanfang als auch den Induktionsschritt bewiesen, so gilt die
Aussage A(n) für alle natürlichen Zahlen n: Zunächst ist nämlich A(1) aufgrund des Induktionsanfangs richtig. Anwendung des Induktionsschritts mit n = 1 liefert anschließend die
Gültigkeit von A(2). Erneute Anwendung des Induktionsschrittes mit n = 2 ergibt dann,
dass auch A(3) gilt. Durch wiederholte Benutzung des Induktionsschrittes zeigt man dann
nacheinander auch A(4), A(5) usw.4
Im Induktionsprinzip ist es unwesentlich, die Induktionsverankerung bei n = 1 vorzunehmen;
stattdessen ist dies mit einer beliebigen ganzen Zahl möglich. Es gilt also folgende
Variante des Induktionsprinzips. Es sei ein n0 ∈ Z gegeben, und für jede ganze Zahl
n ≥ n0 sei eine Aussage A(n) gegeben. Wenn A(n0 ) wahr ist und wenn für jede ganze Zahl
n ≥ n0 die Implikation A(n) =⇒ A(n + 1) wahr ist, dann gilt die Aussage A(n) für alle
ganzen Zahlen n ≥ n0 .
Mitunter benutzt man auch eine Modifikation des Induktionsprinzips, bei der man im Induktionsschritt zum Beweis von A(n + 1) nicht nur die Gültigkeit von A(n), sondern von
A(1), A(2), . . . , A(n) verwendet:
4
Wir verwenden hier das Induktionsprinzip als anschaulich klar“. Wie man es – bei geeigneter Definition
”
der natürlichen Zahlen – zu einem beweisbaren Satz macht, werden wir ebenfalls in Abschnitt 2.5 sehen.
7
Modifiziertes Prinzip der vollständigen Induktion. Für jedes n ∈ N sei eine Aussage
A(n) gegeben. Es seien die folgenden beiden Bedingungen erfüllt:
(1) Die Aussage A(1) ist wahr.
(2) Für alle n ∈ N folgt aus der Gültigkeit von A(1), A(2), . . . , A(n) auch die Gültigkeit
von A(n + 1).
Dann ist A(n) für alle n ∈ N wahr.
1.2
Erste Anwendungen
Wir illustrieren das Prinzip der vollständigen Induktion im Folgenden an mehreren Beispielen. Dabei benutzen wir insbesondere die Notation
n
X
ak := am + am+1 + . . . + an
k=m
für die Summe und
n
Y
ak := am · am+1 · . . . · an
k=m
für das Produkt von gewissen Zahlen am , am+1 . . . , an . Es erweist sich als sinnvoll, sog. leeren
Summen (mit null Summanden) den Wert 0 und leeren Produkten den Wert 1 zuzuweisen5 .
Dementsprechend setzt man
n
n
X
Y
ak := 0,
ak := 1,
falls n < m.
k=m
k=m
Unser erstes Resultat gibt einen geschlossenen Ausdruck für die Summe der ersten n natürlichen Zahlen an.
Satz 1.1
Für alle n ∈ N gilt
n
X
n(n + 1)
.
k = 1 + 2 + ... + n =
2
k=1
Beweis. Induktionsanfang: Für n = 1 haben beide Seiten der behaupteten Formel den Wert
1. In diesem Fall ist also die Formel gültig. Der Induktionsanfang ist damit gemacht.
Induktionsvoraussetzung: Nun nehmen wir an, für ein n ∈ N sei die Formel gültig.
Induktionsschritt: Dann folgt
n+1
X
k=1
k=
n
X
k=1
k + (n + 1)
(IV) n(n + 1)
1
=
+ (n + 1) = (n + 1)(n + 2).
2
2
(Hierbei haben wir mit (IV) den Schritt markiert, in dem die Induktionsvoraussetzung benutzt wurde.) Damit ist die Formel für n + 1 anstelle von n bewiesen. Der Induktionsschluss
ist also geleistet.
Aufgrund des Prinzips der vollständigen Induktion gilt die behauptete Formel somit für alle
n ∈ N.
5
Der Wert 1 für das leere Produkt mag überraschen. Er erklärt sich daraus, dass 1 das neutrale Element
der Multiplikation ist (vgl. Definition 2.1).
8
Mit der Formel aus Satz 1.1 erregte der achtjährige C. F. Gauß (1777 – 1855) die Aufmerksamkeit seines Lehrers. Dieser hatte, um eine Weile seine Ruhe zu haben, seinen Schülern
die Aufgabe gestellt, die Zahlen von 1 bis 100 zu addieren. Zu seiner Verblüffung konnte
der kleine Gauß fast augenblicklich das Ergebnis 5050 verkünden. Er hatte sich dabei des
folgenden Tricks bedient: Unter die Summe S(n) = 1 + 2 + . . . + (n − 1) + n schreibt man
noch einmal S(n) = n + (n − 1) + . . . + 2 + 1 mit umgekehrter Reihenfolge der Summanden
hin. Jedes Paar untereinander stehender Zahlen hat dann die Summe n + 1, und man hat n
solche Paare. Also folgt 2S(n) = n(n + 1).
Warnung: Ein häufiger Anfängerfehler besteht darin, als Induktionsannahme zu schreiben:
Nun nehmen wir an, für alle n ∈ N sei die Aussage A(n) gültig.“ (statt korrekterweise für
”
”
ein n ∈ N“). Dies ist offensichtlich sinnlos: Wäre diese Annahme richtig, so wäre ja nichts
mehr zu beweisen.
Auch die folgende wichtige Ungleichung lässt sich induktiv beweisen.
Satz 1.2 (Bernoullische Ungleichung)
Für alle reellen Zahlen x > −1 und alle
n ∈ N0 gilt die Ungleichung
(1 + x)n ≥ 1 + nx .
Falls x 6= 0 und n ≥ 2 ist, gilt sogar (1 + x)n > 1 + nx.
Beweis. Für n = 0 haben beide Seiten in der behaupteten Ungleichung den Wert 1. Für
n = 1 haben beide Seiten den Wert 1 + x. Für x = 0 und beliebige n haben beide Seiten den
Wert 1. Nach Erledigung dieser trivialen Fälle genügt es also aufgrund des Induktionsprinzips, die folgende Implikation zu beweisen: Ist n ∈ N, x ∈ R, x > −1, x 6= 0, und setzt man
(1 + x)n ≥ 1 + nx voraus, dann folgt (1 + x)n+1 > 1 + (n + 1)x.
Dies zeigt man folgendermaßen. Aus den Voraussetzungen folgt 1 + x > 0 und nx2 > 0.
Damit ergibt sich
(1 + x)n+1 = (1 + x)n · (1 + x) ≥ (1 + nx) · (1 + x)
= 1 + (n + 1)x + nx2 > 1 + (n + 1)x .
Das war zu zeigen.
Das Resultat ist nach Jakob Bernoulli (1654 – 1705) benannt, dem ältesten Vertreter der
Baseler Mathematiker-Familie der Bernoullis.
Beispiel 1.3
In den obigen beiden Induktionsbeweisen bestand die Hauptarbeit jeweils
im Induktionsschritt, während der Induktionsanfang höchst einfach war. Dies ist für die
meisten Induktionsbeweise typisch. Dennoch ist der Induktionsanfang, die Induktionsverankerung ein unverzichtbarer Beweisbestandteil, wie folgendes Beispiel zeigt:
Betrachten wir die Aussage
A(n) :
Es gilt 1n = 0.
Hier gelingt für alle natürlichen Zahlen n der Induktionsschritt A(n) =⇒ A(n + 1); aus
1n = 0 folgt nämlich 1n+1 = 1n · 1 = 0 · 1 = 0. Dennoch ist A(n) für kein einziges n ∈ N
richtig; der Induktionsbeweis scheitert nämlich bereits an der Induktionsverankerung.
9
1.3
Der Binomische Lehrsatz
Definition 1.4
Für ganze Zahlen n ≥ 0 definiert man Fakultäten in der Form
n! :=
n
Y
j = 1 · ... · n
(gelesen n Fakultät“).
”
j=1
Insbesondere ist 0! = 1. Für ganze Zahlen n, k ≥ 0 setzt man
n(n − 1)(n − 2) · . . . · (n − k + 1)
n
n!
=
,
falls k ≤ n,
:=
k!(n − k)!
k!
k
und man setzt nk := 0 für ganze Zahlen k > n ≥ 0. Man liest nk als n über k“ oder k
”
”
aus n“. Diese Zahlen heißen Binomialkoeffizienten.
Die Fakultäten und Binomialkoeffizienten haben die folgende kombinatorische Bedeutung:
Für beliebige ganze n ≥ 0 ist n! gleich der Anzahl der Permutationen einer Menge aus
n Elementen. Für k ≤ n ist sodann nk gleich der Anzahl der Möglichkeiten, k Objekte
ohne Zurücklegen und ohne Beachtung der Reihenfolge aus einer Menge von n Elementen
auszuwählen. Zugleich ist das die Anzahl der k-elementigen Teilmengen einer Menge aus n
Elementen. Alle diese Feststellungen könnte man formal exakt durch Induktion beweisen;
die Beweise würden aber vermutlich mehr Verwirrung als Klarheit stiften.
Ein bekanntes Beispiel für dieses Ziehen ohne
Zurücklegen und ohne Beachtung der Reihenfolge stellt das Lottospiel dar: Z.B. ist 49
= 13983816 die Zahl der möglichen Ziehungser6
gebnisse beim Lotto 6 aus 49“.
”
Proposition 1.5
Für beliebige ganze Zahlen n, k mit 1 ≤ k ≤ n gilt die Formel
n
n
n+1
+
=
.
k−1
k
k
Beweis. Mit den Definitionen berechnet man
n!
n
n
n!
+
+
=
k−1
k
(k − 1)!(n − k + 1)! k!(n − k)!
n!
· (k + (n − k + 1))
k!(n − k + 1)!
n! · (n + 1)
n+1
=
=
.
k!((n + 1) − k)!
k
=
Diese Beziehung
stellt eine Rekursionsformel für die Binomialkoeffizienten dar: Sind die
Werte von nk für ein n ∈ N0 und alle
k ∈ {1, . . . , n} bekannt, so lassen
sich unter Berückn
n+1
n
sichtigung der Randwerte“ 0 =
n = 1n alle
Binomialkoeffizienten k berechnen, indem
”
n
man jeweils die beiden Werte k und k−1 addiert. Man kann sich diese Rekursionsformel
leicht merken, indem man die Binomialkoeffizienten in Form des sog. Pascalschen Drei
ecks6 (Abbildung 1) anordnet. Dabei stehen in der (n + 1)-ten Zeile die Einträge nk für
k = 0, 1, . . . , n. In diesem Dreieck ist jede Zahl gleich der Summe der beiden schräg darüber
stehenden Zahlen.
6
Es ist nach B. Pascal (1623 – 1662) benannt, der bei Untersuchungen zur Wahrscheinlichkeitstheorie auf
Binomialkoeffizienten und die Formel in Proposition 1.5 stieß.
10
1
1
1
2
1
1
1
1
..
.
3
4
1
3
6
5
6
1
10
15
4
10
20
..
.
1
..
.
1
5
15
..
.
1
6
..
.
1
..
.
Abbildung 1: Das Pascalsche Dreieck
Die Binomialkoeffizienten verdanken ihren Namen der Tatsache, dass sie im binomischen
Satz als Koeffizienten auftreten.
Für alle a, b ∈ R und alle ganzen Zahlen n ≥ 0 gilt
Satz 1.6 (Binomischer Lehrsatz)
n X
n k n−k
(a + b) =
a b
.
k
k=0
n
Bei festem n enthält der Ausdruck (a + b)n zwei Variable oder Namen“ a und b; er ist ein
”
Binom“. Das erklärt den Namen des Satzes 1.6. Dieser Satz ist also nicht nach einer Person
”
benannt7 .
Beweis. Es seien beliebige a, b ∈ R gegeben. Für n = 0 haben beide Seiten in der behaupteten Formel den Wert 1 (Induktionsanfang).
Für ein n ∈ N0 wird nun die Gültigkeit der Formel angenommen (Induktionsvoraussetzung).
Dann folgt
(a + b)n+1 = (a + b) · (a + b)n
n X
n k n−k
= (a + b) ·
a b
k
k=0
n n X
n k+1 n−k X n k n+1−k
=
a b
+
a b
.
k
k
k=0
k=0
7
Lediglich in einem alten Mathematiker-Witz wird dieser Satz einem fiktiven Alessandro Binomi (17271643) zugeschrieben.
11
In der ersten Summe verschiebt“ man den Index: Man setzt k = j − 1 und schreibt danach
”
wieder k statt j. Mit Hilfe von Proposition 1.5 erhält man dann
n+1
(a + b)
=
=
=
=
n+1 n X
X
n
n k n+1−k
j n+1−j
ab
+
a b
j−1
k
j=1
k=0
n n X
X
n k n+1−k
n
n+1
k n+1−k
a
+
a b
+
a b
+ bn+1
k−1
k
k=1
k=1
n
X
n
n
an+1 +
+
ak bn+1−k + bn+1
k
−
1
k
k=1
n+1
X n + 1
ak bn+1−k .
k
k=0
Dies ist die behauptete Formel mit n + 1 anstelle von n. Nach dem Induktionsprinzip ist die
Formel somit für alle ganzen n ≥ 0 gültig.
Bemerkung 1.7
Für a = b = 1 liefert der binomische Satz
n
2 =
n X
n
k=0
k
.
Dies lässt sich wie folgt interpretieren: Es sei M eine beliebige Menge mit n Elementen (z.B.
M = {1, . . . , n}). Dann ist 2n die Gesamtzahl der Teilmengen von M ; dies lässt sich wie folgt
einsehen: Man kann jede dieser Teilmengen dadurch charakterisieren, dass man für jedes der
n Elemente angibt, ob es zur Menge gehört oder nicht. Die Gesamtzahl der Teilmengen von
M ist also gleich der Zahl der Wörter“ der Länge n, die man mit den Buchstaben J und N
”
bilden kann. Diese Zahl ist 2n .
Andererseits lassen sich die Teilmengen von M nach ihrer Elementanzahl sortieren: Es gibt
Teilmengen mit 0, 1, . . . , n Elementen.
Wie oben festgestellt, beträgt die Zahl der Teilmengen
n
mit genau k Elementen gerade k . Daher ist es nicht verwunderlich, dass die Summe dieser
Anzahlen nk genau 2n ergibt, wie es der binomische Satz besagt.
1.4
Arithmetisches und geometrisches Mittel
In einem rechtwinkligen Dreieck seien a und b die Hypotenusenabschnitte, h die Höhe und
s die Seitenhalbierende (vgl. Abbildung 2). Nach dem Satz von Thales und dem Höhensatz
gilt dann
1
und
h2 = ab.
h ≤ s = (a + b)
2
Es folgt
√
a+b
ab = h ≤
.
2
Dies ist die Ungleichung zwischen dem geometrischen und dem arithmetischen Mittel von a
und b.
12
s
h
a
b
Abbildung 2: Zur Ungleichung zwischen geometrischem und arithmetischem Mittel
Diese geometrische Begründung ist im Rahmen eines deduktiven Zugangs zur Analysis
natürlich nicht zu gebrauchen, denn die verwendeten Sätze der elementaren euklidischen
Geometrie stehen hier nicht zur Verfügung. Man kann die Ungleichung aber auch wie folgt
rechnerisch begründen: Für a, b ≥ 0 ist
(a + b)2 − 4ab = a2 + 2ab + b2 − 4ab = a2 − 2ab + b2 = (a − b)2 ≥ 0,
(1.1)
also
√
1
(a + b) ≥ ab.
2
Hierbei gilt Gleichheit genau dann, wenn a = b ist. (Dass für a = b Gleichheit gilt, ist
klar. Umgekehrt folgt aus der Gleichheit in der letzten Abschätzung, dass bereits in (1.1)
Gleichheit vorliegt, also (a − b)2 = 0 ist. Dies hat aber a = b zur Folge.)
Wir wollen nun mittels vollständiger Induktion eine allgemeinere Ungleichung zwischen dem
arithmetischen und dem geometrischen Mittel von beliebig vielen positiven reellen Zahlen
beweisen, die wir später öfters benötigen.
Definition 1.8
Für beliebige positive reelle Zahlen a1 , . . . , an nennt man
1
· (a1 + . . . + an )
n
das arithmetische Mittel und
√
n
a1 · . . . · an
das geometrische Mittel von a1 , . . . , an .
Wir gehen hier naiv mit dem Wurzelsymbol um. Die Existenz von Wurzeln werden wir später
(in Korollar 10.16) auch exakt begründen.
Satz 1.9 (Ungleichung zwischen arithmetischem und geometrischem Mittel)
Für jede natürliche Zahl n und beliebige positive reelle Zahlen a1 , a2 , . . . , an gilt
√
n
1
· (a1 + a2 + . . . + an ).
n
Hierin besteht genau dann Gleichheit, wenn a1 = a2 = . . . = an ist.
a1 · a2 · . . . · an ≤
Trost: Auf den nachstehenden kunstvoll arrangierten Beweis (der einer Vorlesung von Horst
Alzer entnommen ist) muss man nicht selbst kommen – schon gar nicht im ersten Semester.
Vorerst genügt es völlig, ihn schrittweise nachvollziehen zu können.
13
Beweis. Für n = 1 haben beide Seiten in der behaupteten Ungleichung den Wert a1 . Für
n = 2 haben wir die Behauptung bereits oben begründet.
Es sei ein n ≥ 2 gegeben. Wir treffen die Induktionsannahme, dass für beliebige positive
b1 , . . . , bn die Ungleichung
p
1
n
b1 · . . . · bn ≤ · (b1 + . . . + bn )
n
gilt und dass in dieser Ungleichung genau dann Gleichheit vorliegt, wenn b1 = . . . = bn ist.
Es seien positive a1 , . . . , an+1 gegeben. Für k = 1, . . . , n + 1 setzen wir
Gk :=
√
k
a1 · . . . · ak ,
Ak :=
1
· (a1 + . . . + ak ) .
k
Gk und Ak sind also das geometrische bzw. arithmetische Mittel der Zahlen a1 , . . . , ak . Weiter
seien
q
e
e := 1 (an+1 + (n − 1) · An+1 )
G := n an+1 An−1
A
n+1 ,
n
die geometrischen bzw. arithmetischen Mittel der Zahlen b1 := · · · := bn−1 := An+1 und
bn := an+1 . Nach der Induktionsvoraussetzung gilt dann
Gn ≤ An
und
e ≤ A.
e
G
Aus der Gültigkeit der Behauptung für das geometrische und arithmetische Mittel von zwei
Zahlen folgt ferner
q
e ≤ 1 · An + A
e .
An · A
2
Nun berechnet man
q
q
n
n−1
n−1
e
Gn G = a1 · . . . · an · an+1 · An+1 = n Gn+1
n+1 · An+1
und
1
1e
A + An =
(an+1 + (n − 1) · An+1 + a1 + · · · + an )
2
2n
1
=
(a1 + · · · + an + an+1 + (n − 1) · An+1 )
2n
1
=
((n + 1) · An+1 + (n − 1) · An+1 ) = An+1 .
2n
(1.2)
Damit ergibt sich insgesamt
An+1
q
q
q
1 2n
n−1
e
e
e
= · An + A ≥ An · A ≥ Gn · G =
Gn+1
n+1 · An+1 ,
2
also
n+1
n−1
A2n
n+1 ≥ Gn+1 · An+1
und somit
n+1
An+1
n+1 ≥ Gn+1 ,
d.h.
An+1 ≥ Gn+1 .
Falls hierin Gleichheit gilt, so muss bereits in allen verwendeten Abschätzungen Gleichheit
vorgelegen haben. Insbesondere muss
Gn = An
und
14
e=A
e
G
gelten. Aus Gn = An und der Induktionsvoraussetzung folgt dann a1 = · · · = an . Damit ist
e=A
e und der Induktionsvoraussetzung
aber auch An = a1 = · · · = an . Ebenso folgt aus G
e
e = an+1 . Damit und mit (1.2)
An+1 = an+1 . Gemäß der Definition von A bedeutet dies A
ergibt sich nun insgesamt
an+1 = An+1
1
1e
=
A + An = (an+1 + a1 )
2
2
(1.2)
und hieraus an+1 = a1 . Insgesamt erhält man also die Gleichheit aller Zahlen a1 , . . . , an , an+1 .
Damit ist der Induktionsschluss beendet, und der Satz ist bewiesen.
1.5
Die geometrische Summenformel
Satz 1.10
Für alle n ∈ N0 und alle x ∈ R \ {1} gilt
n
X
1 − xn+1
x =
.
1−x
k=0
k
Für x = P
1 trifft der P
Satz keine Aussage. Dieser Fall ist jedoch unproblematisch, denn für
x = 1 ist nk=0 xk = nk=0 1 = n + 1.
Beweis. Variante 1: Wohl am einprägsamsten ist die folgende Begründung: Wenn wir die
Summe 1 + x + x2 + · · · + xn mit 1 − x multiplizieren, stellen wir fest, dass sich fast alle
Terme wegheben; wir erhalten
(1 − x) · (1 + x + x2 + · · · + xn ) = 1 +x + x2 + · · · + xn
−x − x2 − · · · − xn − xn+1 = 1 − xn+1 .
Wegen 1 − x 6= 0 darf man durch 1 − x dividieren und erhält die Behauptung.
Etwas präziser kann man denselben Sachverhalt mithilfe der Summenschreibweise ausdrücken: Für alle n ∈ N0 und alle x ∈ R ist
(1 − x) ·
n
X
k
x =
k=0
n
X
k=0
k
x −
n
X
x
k+1
=
k=0
n
X
k=0
k
x −
n+1
X
xk = 1 − xn+1 .
k=1
Im zweiten Schritt haben wir hierbei eine Indexverschiebung durchgeführt. Im letzten Schritt
haben wir wiederum ausgenutzt, dass sich fast alle Terme der Form xk wegheben, mit Ausnahme des ersten (nämlich x0 = 1) und des letzten (xn+1 ). (Man bezeichnet solche Summen
auch als Teleskopsummen.)
Variante 2: Man kann auch vollständige Induktion benutzen: Für n = 0 hat man
n
X
xk = x0 = 1 =
k=0
1−x
1 − xn+1
=
1−x
1−x
d.h. die Formel gilt für n = 0.
15
für alle x ∈ R \ {1} ,
Es sei
Pn
k=0
xk =
1−xn+1
1−x
n+1
X
k=0
k
x =
für ein n ∈ N0 und alle x ∈ R \ {1} bereits bewiesen. Dann folgt
n
X
k
x +x
n+1
k=0
1 − xn+2
1 − xn+1 xn+1 − xn+2
+
=
=
1−x
1−x
1−x
für alle x ∈ R \ {1}. Damit ist der Induktionsschritt vollzogen, und die geometrische Summenformel ist für alle n ∈ N0 und alle x ∈ R \ {1} bewiesen.
n+1
Ausblick. Der Ausdruck 1−x
auf der rechten Seite der geometrischen Summenformel
1−x
ist für x = 1 natürlich nicht definiert (Nennernullstelle!). Man kann sich jedoch fragen, ob
n+1
existiert. Dies ist in der Tat der Fall, und wir werden ihn
evtl. der Grenzwert limx→1 1−x
1−x
später als Ableitung der Funktion h(x) := xn+1 im Punkt x0 = 1 interpretieren: Es ist
1 − xn+1
xn+1 − 1
h(x) − h(1)
= lim
= lim
= h0 (x0 ) = (n + 1) · xn0 = n + 1.
x→1 1 − x
x→1 x − 1
x→1
x−1
P
Dies ist das zu erwartende Ergebnis, denn für x = 1 hat nk=0 xk ja den Wert n + 1.
lim
Die geometrische Summenformel werden wir später zur Berechnung des Werts der unendlichen geometrischen Reihe benötigen. Sie spielt aber auch eine überragende Rolle in der
Zinsrechnung, wie wir anhand eines Beispiels illustrieren wollen.
Beispiel 1.11
Auf ein Konto werden jedes Jahr 1000 Euro eingezahlt. Diese werden mit
4% pro Jahr verzinst. Welches Kapital hat sich zu Beginn des 40. Jahres (d.h. unmittelbar
nach der 40. Einzahlung) angesammelt? Dessen Wert (in Euro) ist
K = 1000 · 1 + 1,04 + 1,042 + · · · + 1,0439 .
Selbst mit einem gewöhnlichen (nicht-programmierbaren) Taschenrechner ist dieser Wert nur
mühsam zu berechnen. Hier erweist sich die geometrische Summenformel als große Erleichterung: Sie liefert unmittelbar
K = 1000 ·
1,0440 − 1
= 95.025,51....
1,04 − 1
Der Wert des Kapitals ist also fast zweieinhalb mal so groß wie die insgesamt eingezahlte
Summe; diese beträgt nämlich nur 40.000 Euro.
16
2
Die reellen Zahlen
Anschaulich stellen wir uns unter den reellen Zahlen die Gesamtheit der Punkte auf einer
Geraden vor, der sogenannten Zahlengeraden. Eine einzelne reelle Zahl stellen wir uns als
eine Dezimalzahl vor mit einer abbrechenden oder auch nicht abbrechenden Folge von Ziffern
hinter dem Komma. Diese Menge der reellen Zahlen, die wir wie üblich mit R bezeichnen,
hat drei Strukturen:
• eine algebraische Struktur: R ist mit der Addition und Multiplikation ein sog.
Körper.
• eine Ordnungsstruktur: Die reellen Zahlen sind (der Größe“ nach) angeordnet.
”
• eine metrische Struktur: Man kann in R Abstände messen.
Diese drei Strukturen werden wir im Folgenden genauer unter die Lupe nehmen. Dies ist
der Inhalt der Abschnitte 2.1 bis 2.3. Allerdings charakterisieren diese Strukturen die reellen
Zahlen noch nicht eindeutig; sie sind z.B. alle drei auch bei den rationalen Zahlen zu finden.
Es stellt sich also die Frage, was den Unterschied zwischen den rationalen und den reellen
Zahlen ausmacht. Dieser liegt in der sog. Vollständigkeit von R, der wir in Abschnitt 2.4
genauer nachgehen werden. Sie wird sich später als bedeutsam für Konvergenzüberlegungen,
die ja den Kern der Analysis ausmachen, erweisen.
2.1
Die algebraische Struktur der reellen Zahlen
Mit Zahlen, insbesondere mit reellen Zahlen, kann man rechnen. Es gibt die vier Grundrechnungsarten der Addition, Subtraktion, Multiplikation und Division, und für diese Operationen gelten gewisse Regeln. Außer der Menge R der reellen Zahlen gibt es zahlreiche andere
Mengen, auf denen analoge Operationen bestehen und dieselben Rechenregeln gelten. Einen
solchen Bereich nennt man einen Körper (im Englischen field).
Wir definieren zunächst in voller Allgemeinheit den Begriff des Körpers und postulieren
erst dann axiomatisch8 , dass R ein Körper ist. Um die Körperdefinition zu vereinfachen
8
H. Heuser [Heuser 1, § 3] erläutert die axiomatische Vorgehensweise treffend (wenn auch etwas pathetisch) wie folgt: Dieses Verfahren, an den Anfang einer Theorie einige Grund-Sätze, sogenannte Axiome zu
”
stellen (die man nicht mehr diskutiert, nicht mehr ‘hinterfragt’, sondern einfach hinnimmt) und aus ihnen
durch logisches Schließen (durch Deduktion) den ganzen Aussagebestand der Theorie zu gewinnen, nennt
man die axiomatische oder deduktive Methode. Sie ist der Lebensnerv der Mathematik, das, wodurch die
Mathematik zur Wissenschaft wird. Sie geht vermutlich auf den großen Eudoxos zurück und findet ihre erste
volle Entfaltung in den ‘Elementen’ des Euklid von Alexandria (um 300 v. Chr.). Seit diesem epochalen
Werk ist sie konstitutiv für die Mathematik und vorbildlich für die exakten Wissenschaften geworden. [...]
Das axiomatische Verfahren ist wohl die ehrlichste Methode, die je ersonnen wurde: Ihr moralischer Kern
besteht darin, dass man alle seine Voraussetzungen offen darlegt, dass man im Laufe der Spieles keine Karten aus dem Ärmel holt und dass man somit alle seine Behauptungen überprüfbar macht. Sie darf als der
größte Beitrag angesehen werden, den das erstaunliche Volk der Griechen der Mathematik zugebracht hat.
[...] Ob man die Grund-Sätze ansieht als Folgerungen aus der [...] Konstruktion des Zahlensystems, oder als
vertraute Bekannte aus dem Schulalltag, oder ob man sie sich einfach gefallen lässt und nicht fragt, warum
sie gelten, sondern was aus ihnen folgt – das ist der axiomatischen Methode ganz gleichgültig. Diese Methode
sagt nur: ‘Hier sind gewisse Objekte, genannt reelle Zahlen und bezeichnet mit Buchstaben a, b, . . . ; gehe mit
diesen Objekten um nach gewissen Regeln, die in den Axiomen fixiert sind, und sieh zu, welche Folgerungen
Du durch regel-rechtes Schließen gewinnen kannst. Was diese Objekte sind, was ihr Wesen“ ist, braucht
”
Dich im übrigen nicht zu kümmern.’“
17
und übersichtlicher zu gestalten, führen wir als erstes einen anderen wichtigen algebraischen
Begriff ein: den der Gruppe.
Definition 2.1
Verknüpfung
(G0)
Eine Gruppe ist ein Paar (G, ◦), bestehend aus einer Menge G und einer
◦ : G × G −→ G,
wofür die folgenden drei Bedingungen erfüllt sind:
(G1) Es gilt das Assoziativgesetz, d.h. es ist
(a ◦ b) ◦ c = a ◦ (b ◦ c)
für alle a, b, c ∈ G.
(G2) Es gibt ein neutrales Element e ∈ G für die Verknüpfung ◦, d.h. es ist
e ◦ a=a◦ e=a
für alle a ∈ G.
(G3) Zu jedem a ∈ G gibt es ein inverses Element b ∈ G mit
a ◦ b = b ◦ a = e.
Die Aussagen (G0) bis (G3) heißen die Gruppenaxiome.
Eine Gruppe (G, ◦) heißt eine abelsche9 oder eine kommutative Gruppe, falls auch das
Kommutativgesetz gilt, d.h. falls
a ◦ b=b ◦ a
für alle a, b ∈ G.
Eine Teilmenge H von G heißt eine Untergruppe von G, falls H mit der auf G gegebenen
Verknüpfung ◦ selber eine Gruppe ist.
Bemerkung 2.2
(1) Die runden Klammern im Assoziativgesetz sollen eine bestimmte Reihenfolge vorschreiben, in der die Operationen auszuführen sind. Das Assoziativgesetz besagt gerade, dass
es auf diese Reihenfolge nicht ankommt, und im Falle seiner Gültigkeit schreibt man
daher einfacher a ◦ b ◦ c anstelle von a ◦ (b ◦ c) oder (a ◦ b) ◦ c.
(2) Falls die Verknüpfung ◦ kommutativ ist (wie im Falle der Addition und der Multiplikation von reellen Zahlen), dann genügt es natürlich, eine der beiden Bedingungen
e ◦ x = x oder x ◦ e = x an ein neutrales Element e zu stellen.
(3) Die Notation (G, ◦) für eine Gruppe macht deutlich, dass außer der Menge G auch die
Verknüpfung ◦ Bestandteil der Gruppe ist. Eventuell könnte eine Menge durch ganz
verschiedene Verknüpfungen zu einer Gruppe gemacht werden. Trotzdem spricht man
meist von einer Gruppe G“ und lässt die Verknüpfung unerwähnt, sofern sie sich aus
”
9
nach dem norwegischen Mathematiker N. H. Abel (1802 – 1829).
18
dem Zusammenhang ergibt. Man nennt a ◦ b das Produkt aus den Faktoren a und
b. Oft schreibt man ab anstelle von a ◦ b.
Andererseits verwendet man gerade in abelschen Gruppen häufig auch + anstelle von ◦
als Verknüpfungszeichen; in diesem Fall vermeidet man es natürlich, von einem Pro”
dukt“ zu sprechen. Die Verknüpfung auf G wird in dieser Situation die Addition
genannt, das neutrale Element wird mit 0 bezeichnet und die Null in G genannt, und
a + b heißt die Summe von a und b.
(4) Von einer Gruppe G wird verlangt, dass für beliebige a, b ∈ G stets auch a ◦ b ∈ G gilt;
dies ist implizit in der Forderung ◦ : G × G −→ G in (G0) enthalten. Man sagt auch,
G sei abgeschlossen unter der Operation ◦.
Tipp: Beim Nachweis der Gruppeneigenschaften besteht oftmals die Hauptaufgabe
darin, die Abgeschlossenheit unter der Gruppenverknüpfung und unter Inversenbildung nachzuweisen. Ein häufiger Anfängerfehler besteht darin, relativ langatmig die
Gültigkeit der Rechenregeln“ (Assoziativ- und evtl. Kommutativgesetz) nachzuweisen
”
(die in vielen gängigen Situationen mehr oder minder klar ist), aber über die eigentlich
entscheidende Frage der Abgeschlossenheit achtlos hinwegzugehen.
Diese Bemerkung betrifft insbesondere die Situation, dass eine Teilmenge H einer
Gruppe G als Untergruppe nachzuweisen ist: Die Gültigkeit der Rechenregeln ist hier
unproblematisch, da diese bereits in G gelten; ebenso sichern die Gruppenaxiome die
Existenz des neutralen Elements und der inversen Elemente in G. Es kommt also nur
darauf an, zu zeigen, dass H unter der Verknüpfung in G abgeschlossen ist, dass also
für beliebige a, b ∈ H auch a ◦ b ∈ H ist, und dass das neutrale Element und das zu
einem a ∈ H inverse Element in H liegen.
(5) In (G2) wird insbesondere G 6= ∅ gefordert; jede Gruppe ist eine nicht-leere Menge.
(6) Mit der Redewendung es gibt ein“ ist in der Mathematik immer es gibt mindestens
”
”
ein“ gemeint. Das Axiom (G2) lässt also die Möglichkeit der Existenz mehrerer neutraler Elemente offen. Diese Möglichkeit werden wir aber in Korollar 2.4 ausschließen:
Das neutrale Element einer Gruppe ist eindeutig bestimmt.
Ebenfalls in Korollar 2.4 wird gezeigt: Das inverse Element b, dessen Existenz in Axiom
(G3) gefordert wird, ist eindeutig durch a bestimmt. Dies rechtfertigt die Schreibweise
a−1 für das zu a inverse Element.
Falls man + als Verknüpfungszeichen verwendet, die Gruppe also als additive Gruppe
ansieht, nennt man das zu a inverse Element das Negative von a, und man bezeichnet
es mit − a.
Beispiel 2.3
(1) Die Menge R aller reellen Zahlen mit der Addition ist eine abelsche Gruppe, die man
exakt mit (R, +) bezeichnet. Die Menge R \ {0} aller von 0 verschiedenen reellen
Zahlen mit der Multiplikation ist eine abelsche Gruppe; man schreibt (R \ {0}, ·).
Diese Gruppeneigenschaften werden in unserem ersten Axiom über die reellen Zahlen
gefordert werden.
Hingegen ist (R, ·) keine Gruppe, da 0 kein multiplikatives Inverses besitzt.
19
(2) Es sei M eine Menge und M 6= ∅. Es bezeichne G = Sym(M ) die Menge aller bijektiven
Abbildungen f : M −→ M von M auf sich selber. Für beliebige f, g ∈ G sei f ◦ g die
Komposition (Hintereinanderausführung) von f und g. Dann ist G eine Gruppe mit der
identischen Abbildung idM als neutralem Element; das inverse Element eines Elements
f ∈ G ist die Umkehrabbildung f −1 : M −→ M ; diese existiert, weil die Abbildung
f : M −→ M nach Definition von G bijektiv ist, und sie ist ebenfalls bijektiv, liegt
also in G.
Die Gruppe G ist i.Allg. nicht abelsch (nämlich immer dann nicht, falls M mindestens
drei verschiedene Elemente enthält). Man nennt Sym(M ) die symmetrische Gruppe
von M oder die Permutationsgruppe von M . Jede bijektive Abbildung f : M −→
M heißt auch eine Permutation von M .
(3) Eine Menge G = {e} aus einem einzigen Element e wird durch die Festsetzung e◦e = e
zu einer Gruppe gemacht. Diese Gruppe {e} heißt die triviale Gruppe.
Korollar 2.4
In einer Gruppe sind das neutrale Element und die inversen Elemente
eindeutig bestimmt.
Beweis. Es sei (G, ◦) eine Gruppe, und e und ee seien neutrale Elemente in G. Aus der
Definition neutraler Elemente folgt dann einerseits e = e ◦ ee, weil ee neutral ist, und es folgt
andererseits e◦e
e = ee, weil e neutral ist. Hieraus ergibt sich e = ee. Damit ist die Eindeutigkeit
des neutralen Elements gezeigt.
Nun sei a ∈ G, und die Elemente b, c ∈ G seien beide invers zu a. Es wird also a◦b = b◦a = e
und a ◦ c = c ◦ a = e vorausgesetzt. Unter Verwendung des Assoziativgesetzes folgt dann
c = c ◦ e = c ◦ (a ◦ b) = (c ◦ a) ◦ b = e ◦ b = b ,
also c = b. Dies zeigt die Eindeutigkeit des zu a inversen Elements.
Die Addition und die Multiplikation der reellen Zahlen stehen nicht beziehungslos nebeneinander. Sie sind vielmehr durch das Distributivgesetz gekoppelt. Dieses ist ein Bestandteil
der nun folgenden Körperaxiome (K1), (K2) und (K3).
Definition 2.5 Eine Menge K mit zwei Verknüpfungen + und · , die man die Addition
und die Multiplikation auf K nennt, heißt ein Körper, falls die folgenden drei Bedingungen
erfüllt sind.
(K1) Mit der Verknüpfung + ist K eine abelsche Gruppe. Das neutrale Element dieser
Verknüpfung wird mit 0 bezeichnet und heißt die Null von K.
(K2) Die Menge K \ {0} mit der Verknüpfung · ist eine abelsche Gruppe, und diese Verknüpfung ist auf der gesamten Menge K kommutativ. Das neutrale Element dieser
Verknüpfung wird mit 1 bezeichnet und heißt die Eins von K.
(K3) Es gilt das Distributivgesetz: Für alle a, b, c ∈ K gilt
a(b + c) = ab + ac .
20
Bemerkung 2.6
(1) Anstelle von a·b schreibt man kürzer auch ab. Davon haben wir beim Distributivgesetz
Gebrauch gemacht, ebenso von der Konvention Punkt vor Strich“.
”
(2) Das inverse Element a−1 eines Elements a 6= 0 in K wird üblicherweise auch mit
1
a
oder
1/a
bezeichnet. Für a, b ∈ K und a 6= 0 hat die Gleichung ax = b gemäß (K2) und (G3)
eine Lösung, nämlich a−1 b. Diese ist nach Korollar 2.4 eindeutig bestimmt; sie wird
mit
b
oder
b/a
a
bezeichnet. (Aufgrund der Kommutativität der Multiplikation kommt es nicht auf die
Reihenfolge der Faktoren a−1 und b an; das macht die gewohnte Schreibweise ab erst
möglich.)
Eine Summe der Gestalt b + (−a) schreibt man üblicherweise als Differenz b − a. Die
Abbildung (b, a) 7→ b − a von K × K nach K heißt die Subtraktion auf K, und die
Abbildung (b, a) 7→ ab von K × (K \ {0}) nach K heißt die Division auf K.
Außerdem können wir noch die Potenzen
x0 := 1
für x ∈ K,
xn := x
. . · x}
| · .{z
für x ∈ K, n ∈ N,
n−mal
x−n := (x−1 )n
für x ∈ K \ {0} , n ∈ N
definieren. Dafür gelten dann die üblichen Potenzgesetze. (Diese kann man mittels
vollständiger Induktion beweisen. Wir wollen dies nicht ausführen, da dies wohl eher
verwirrend als erhellend wäre.)
(3) Da nur K \ {0}, nicht aber K eine multiplikative Gruppe ist, besitzt die Null kein
inverses Element. Darin spiegelt sich die altbekannte Tatsache wider, dass man niemals
durch Null dividieren darf.
(4) Die zweite Forderung in (K2) stellt klar, dass a · 0 = 0 · a für alle a ∈ K gilt. Das ist in
der ersten Forderung in (K2) nicht enthalten, weil diese sich nur auf die Menge K \ {0}
bezieht.
Natürlich erwarten wir, dass stets a · 0 = 0 · a = 0 gilt. Dies begründet man wie folgt:
Aufgrund des Distributivgesetzes gilt für alle a ∈ K
0 · a = (0 + 0) · a = 0 · a + 0 · a;
indem man auf beiden Seiten 0 · a subtrahiert, folgt tatsächlich 0 · a = 0.
21
Axiom (K). Die Menge R der reellen Zahlen mit der gewöhnlichen Addition und
Multiplikation bildet einen Körper.
Das Axiom (K) lässt es natürlich völlig offen, was eine reelle Zahl eigentlich ist. Das liegt im
Wesen der axiomatischen Methode.
Beispiel 2.7
• Die Menge
o
nm Q=
m ∈ Z, n ∈ N
n
der rationalen Zahlen bildet (mit den auf R gegebenen Verknüpfungen + und ·)
einen Körper. Die neutralen Elemente 0 und 1 von Q sind dieselben wie in R. Man
nennt daher Q einen Teilkörper10 von R.
Wer bis hierhin kritisch mitgedacht hat, sollte sich soeben eine Frage gestellt haben:
Warum eigentlich ist Q ein Körper? Wenn wir die Körpereigenschaft von R bereits
zur Verfügung haben (wie hier aufgrund unseres Axioms (K)), ist der Nachweis, dass
auch Q ein Körper ist, gar nicht so schwer – und weniger mühselig, als die langwierige
Körperdefinition befürchten lässt: Wir sind hier nämlich gerade in der in Bemerkung
2.2 beschriebenen komfortablen Situation, nicht jede einzelne der von einem Körper
verlangten Rechenregel nachprüfen zu müssen, sondern uns darauf berufen zu können,
dass diese ja in R und damit erst recht in der Teilmenge Q gelten. Wir müssen daher im
Wesentlichen nur nachweisen, dass Q abgeschlossen unter Addition, Multiplikation und
Bildung der additiven bzw. multiplikativen Inversen ist, dass also Summen, Produkte
und Inverse von rationalen Zahlen wieder rational sind. Dies aber ist klar“ aufgrund
”
der Rechenregeln für Brüche.
• In § 3 wird der Körper C der komplexen Zahlen eingeführt. Die reellen Zahlen bilden
einen Teilkörper von C.
• In der Linearen Algebra und vor allem in der Algebra betrachtet man Körper mit einer
endlichen Anzahl von Elementen. Beispielsweise kann man F2 := {0, 1} durch geeignete
Festlegung der Verknüpfungen + und · zu einem Körper machen; diese definiert man
überwiegend“ wie in Z, mit einer Ausnahme: Man setzt 1 + 1 := 0. (Der Nachweis,
”
dass damit die Körperaxiome erfüllt sind, ist mühsam und wenig inspirierend.) Der
Körper F2 hat eine enorme Bedeutung in der Daten- und Signalverarbeitung.
Es drängt sich die Frage auf, für welche natürlichen Zahlen q es einen Körper mit genau
q Elementen gibt. Dies ist, wie später in der Algebra gezeigt werden wird, genau dann
der Fall, wenn q eine Primzahlpotenz ist.
Aus den Körperaxiomen lassen sich jetzt die üblichen Rechenregeln, wie sie von den reellen
Zahlen bekannt sind, herleiten. Z.B. kann man für jeden Körper K Folgendes zeigen:
• Sind a, b ∈ K mit a 6= 0, dann gilt −(−b) = b und 1/(1/a) = a.
• Lineare Gleichungen in K sind eindeutig lösbar: Zu beliebigen a, b, c ∈ K mit a 6= 0
gibt es genau ein x ∈ K mit ax + b = c.
10
Die an sich ebenfalls mögliche Bezeichnung Unterkörper“ hat sich aus naheliegenden Gründen nicht
”
durchgesetzt.
22
• Für beliebige Elemente a, b, c ∈ K gilt
a · 0 = 0,
(−1) · a = −a,
(−b)a = −ba,
a(b − c) = ab − ac .
Wenn ab = 0 ist, dann folgt a = 0 oder b = 0.
• (Kürzungsregel) Wenn a, b, c Elemente in K sind, die ab = ac und a 6= 0 erfüllen,
dann gilt b = c.
Wir führen dies nicht näher aus, zum einen um nicht mit der formalen Begründung scheinbarer Selbstverständlichkeiten zu verwirren oder zu langweilen, zum anderen weil diese Beweise
ihrer Natur nach eher der Linearen Algebra zuzurechnen sind; sie sind z.B. in [Köhler, § 2.3]
oder [Behrends, Satz 1.3.6] zu finden. Wichtiger ist folgende
Warnung: Die Kürzungsregel ab = ac =⇒ b = c ist falsch für a = 0. Z.B. kann man
aus 0 · 2 = 0 · 1 natürlich nicht auf 2 = 1 schließen. Bei der Anwendung dieser Regel muss
man daher zunächst überprüfen, ob der Faktor a, der gekürzt werden soll, wirklich von Null
verschieden ist. Hier liegt eine Quelle für viele vermeidbare Fehler.
2.2
Die Ordnungsstruktur der reellen Zahlen
Zur weiteren Kennzeichnung der reellen Zahlen verwenden wir die Vorstellung der Zahlengeraden, auf der die Zahlen aufgereiht sind. Reelle Zahlen können in ihrer Größe verglichen
werden. Eine Zahl x ist größer als jede links von ihr liegende und kleiner als jede rechts von
ihr liegende. Die rechts von 0 liegenden Zahlen sind positiv. Die Summe und das Produkt von
zwei positiven Zahlen sind ebenfalls positiv. Diese Eigenschaften der reellen Zahlen werden
nun in den Anordnungsaxiomen zusammengefasst.
Definition 2.8 Ein Körper K heißt angeordnet oder geordnet, falls in ihm gewisse
Elemente a ∈ K als positiv“ ausgezeichnet sind (in Zeichen: a > 0), so dass folgende
”
Anordnungsaxiome erfüllt sind:
(O1) (Trichotomie) Für alle a ∈ K gilt genau eine der drei Beziehungen
a > 0,
a = 0,
−a > 0.
(O2) Für alle a, b ∈ K gilt: Wenn a > 0 und b > 0 ist, so ist auch ab > 0.
(O3) Für alle a, b ∈ K gilt: Wenn a > 0 und b > 0 ist, so ist auch a + b > 0.
Die Forderung (O1) besagt, dass jedes Element des Körpers mit der 0 vergleichbar ist. Die
Forderungen (O2) und (O3) bringen die Verträglichkeit“ der Ordnungsrelation mit der
”
Addition und der Multiplikation zum Ausdruck.
Damit definieren wir Größer-/Kleiner-Relationen“ zwischen je zwei Elementen wie folgt.
”
Definition 2.9 Es sei K ein geordneter Körper, und es seien a, b ∈ K. Wir schreiben
(1) a > b, falls a − b > 0 ist.
(2) a < b, falls b − a > 0 ist.
(3) a ≥ b, falls a − b > 0 oder a = b ist.
(4) a ≤ b, falls b − a > 0 oder a = b ist.
23
Korollar 2.10
Für beliebige Elemente a, b, c eines geordneten Körpers K gelten die
folgenden Aussagen.
(1) (Trichotomie) Es gilt genau eine der Beziehungen a > b, a = b, a < b.
(Antisymmetrie) Gilt a ≤ b und b ≤ a, so ist a = b.
(2) (Transitivität) Aus a > b und b > c folgt a > c.
(3) (Translationsinvarianz) Aus a > b folgt a + c > b + c.
Insbesondere gilt: Falls a > 0 ist, so ist −a < 0.
(4) Aus a > b und c > 0 folgt ca > cb.
(5) Ist a 6= 0, dann gilt a2 > 0. Insbesondere gilt 1 > 0.
(6) Aus a > 0 folgt
1
a
> 0.
(7) Aus a > b > 0 folgt
1
a
<
1
b
und
a
b
> 1.
Beweis.
(1) Nach (O1) gilt für das Element a − b ∈ K genau eine der Beziehungen a − b > 0,
a − b = 0 oder b − a > 0. Hieraus folgt die erste Behauptung in (1).
Nun sei a ≤ b und b ≤ a. Wäre a 6= b, so würde aus den Definitionen sowohl a − b > 0
als auch b − a > 0 folgen, im Widerspruch zu der soeben begründeten ersten Aussage
in (1). Also gilt a = b. Damit ist auch die zweite Aussage in (1) bewiesen.
(2) Definitionsgemäß bedeuten die Voraussetzungen a > b und b > c, dass a − b > 0 und
b − c > 0 ist. Aus (O3) folgt dann auch a − c = (a − b) + (b − c) > 0, d.h. a > c.
(3) Falls a > b ist, so ist a − b > 0, also auch (a + c) − (b + c) = a − b > 0 und somit
definitionsgemäß a + c > b + c.
Falls a > 0 ist, so folgt insbesondere 0 = a − a > 0 − a = −a, also die zweite
Behauptung.
(4) Es sei a > b und c > 0. Dann ist a − b > 0, und mit (O2) und dem Distributivgesetz
folgt ca − cb = c(a − b) > 0. Folglich ist ca > cb.
(5) Es sei a 6= 0. Wegen (O1) ist dann a > 0 oder a < 0. Falls a > 0 ist, so folgt aus (O2)
a2 = a · a > 0. Falls a < 0 ist, so ist −a > 0 aufgrund von (3), und damit folgt ebenfalls
a2 = (−a)2 > 0.
Insbesondere ist 1 = 12 > 0. Damit ist (5) bewiesen.
(6) Es sei a > 0. Dann ist natürlich a1 6= 0 (denn K \ {0} ist abgeschlossen bezüglich
Inversenbildung). Wäre a1 < 0, so wäre − a1 > 0 gemäß (3), und mit (O2) würde
−1 = − a1 · a > 0 folgen, im Widerspruch zu 1 > 0. Also muss a1 > 0 sein.
(7) Es sei a > b > 0. Dann ist a − b > 0, und aus (6) folgt a1 > 0, 1b > 0. Wegen (O2) folgt
hieraus
1 1
1 1
− = (a − b) · · > 0 ,
b a
a b
also 1b > a1 . Hieraus und aus (4) erhält man noch ab = a · 1b > a · a1 = 1. Damit ist (7)
bewiesen.
24
Die wohlbekannte Tatsache“, dass die reellen Zahlen angeordnet sind, formulieren wir nun
”
wie angekündigt als Axiom:
Axiom (O): Der Körper R der reellen Zahlen ist ein geordneter Körper.
Die Definitionsbereiche von reellen Funktionen sind oftmals Intervalle oder Vereinigungen
endlich vieler Intervalle. Diese können wir, nachdem wir R angeordnet haben, auch offi”
ziell“ einführen: Ein Intervall ist eine Teilmenge von R, die mit je zwei Punkten auch alle
dazwischen liegenden Punkte enthält:
Definition 2.11 Eine Teilmenge I ⊆ R heißt ein Intervall, falls für alle x, y ∈ I mit
x < y und für beliebige t ∈ R mit x < t < y stets auch t ∈ I gilt. Ein Intervall I heißt ein
echtes Intervall, falls I mindestens zwei verschiedene Punkte enthält.
Bemerkung 2.12
(1) Auch die leere Menge ∅ und die einpunktigen Mengen {a} für beliebige a ∈ R sind Intervalle. Diese sind in der Praxis natürlich weniger interessant; dies erklärt die Einführung
des Begriffs der echten Intervalle.
(2) Jedes echte Intervall enthält unendlich viele Punkte.
Beweis. Dies zeigt man sinnvollerweise indirekt: Wäre I ein echtes Intervall mit nur
endlich vielen Punkten, so könnte man I in der Form I = {x1 , . . . , xn } mit gewissen
paarweise verschiedenen xj ∈ I schreiben. Da I echt ist, ist n ≥ 2. O.B.d.A. darf man
x1 < x2 < · · · < xn annehmen. (Andernfalls nummeriert man die xj geeignet um.) Es
ist dann s := 21 (x1 + x2 ) eine von allen xj verschiedene reelle Zahl, die jedoch nach der
Definition von Intervallen zu I gehören müsste, im Widerspruch dazu, dass x1 , . . . , xn
sämtliche Elemente aus I sind.
(3) Der Durchschnitt zweier Intervalle ist ebenfalls ein Intervall. Dieser Satz wäre nicht
ausnahmslos richtig, wenn man nur die echten Intervalle als Intervalle gelten lassen
würde. (Denn der Schnitt zweier solcher Intervalle kann leer oder einelementig sein.)
Es gibt verschiedene Typen von Intervallen. Dafür werden jetzt Benennungen und Notationen
eingeführt.
Definition 2.13
Es seien a und b reelle Zahlen mit a ≤ b. Man setzt
]a, b[:= {x ∈ R | a < x < b},
] − ∞, b[:= {x ∈ R | x < b},
]a, ∞[:= {x ∈ R | x > a}.
Diese Intervalle (sowie auch R selbst) heißen offene Intervalle. Der Fall a = b ist zulässig,
und daher ist auch die leere Menge ∅ =]a, a[ ein offenes Intervall. Weiter setzt man
[a, b] := {x ∈ R | a ≤ x ≤ b},
] − ∞, b] := {x ∈ R | x ≤ b},
[a, ∞[:= {x ∈ R | x ≥ a}.
Diese Intervalle sowie auch R und ∅ heißen abgeschlossene Intervalle. Der Fall a = b
besagt, dass die einpunktigen Mengen abgeschlossene Intervalle sind. Die Intervalle
[a, b[:= {x ∈ R |a ≤ x < b}
und
]a, b] := {x ∈ R | a < x ≤ b}
heißen halboffene Intervalle. Die abgeschlossenen Intervalle des Typs [a, b] und auch die
leere Menge ∅ heißen kompakte Intervalle.
Die Punkte a und b in obigen Notationen heißen der linke bzw. der rechte Endpunkt
(oder Randpunkt) des jeweiligen Intervalls. Diese müssen nicht zu dem Intervall gehören.
25
Man könnte auch noch das uneigentliche Intervall ] − ∞, ∞[ definieren. Dieses ist aber nichts
anderes als R selbst.
Den Adjektiven offen“, abgeschlossen“ und kompakt“ wird bald eine eigenständige Be”
”
”
deutung zukommen, losgelöst von den Intervallen. Dass die Mengen R und ∅ sowohl offen
als auch abgeschlossen genannt werden, läuft dem umgangssprachlichen Sinn dieser Wörter
zuwider und ist insofern gewöhnungsbedürftig, wird sich später aber als sehr sinnvoll erweisen. Die Notationen für Intervalle in der Literatur sind nicht einheitlich; oft sieht man (a, b)
anstelle von ]a, b[, [a, b) anstelle von [a, b[ und (a, b] anstelle von ]a, b].
2.3
Die metrische Struktur der reellen Zahlen: Absolutbetrag und
euklidischer Abstand
Dass der Körper R angeordnet ist, ermöglicht es, den Absolutbetrag einer reellen Zahl und
den Abstand zweier reeller Zahlen zu definieren. Damit erhält man auf R eine sog. metrische
Struktur. Eine bessere anschauliche Vorstellung von einer Metrik wird sich erst in Abschnitt
3.3 ergeben, wenn die analogen Begriffe für die Ebene R2 und den Raum R3 eingeführt
werden.
Definition 2.14
Für reelle Zahlen x wird der Absolutbetrag oder der Betrag |x| durch

 x für x > 0,
0 für x = 0,
|x| :=

−x für x < 0
definiert. Für zwei reelle Zahlen a, b wird der (euklidische) Abstand oder die Distanz,
euklidische d(a, b) durch
d(a, b) := |a − b|
definiert. Das Vorzeichen einer reellen Zahl x ist

 1 für x > 0,
0 für x = 0,
sgn (x) :=

−1 für x < 0.
Die Funktionen x 7→ |x| und x 7→ sgn (x) auf R sind in Abbildung 3 dargestellt.
sgn (x)
|x|
x
x
Abbildung 3: Betrag und Vorzeichen
Unmittelbar aus den Definitionen ergeben sich die folgenden Regeln.
26
Korollar 2.15
(1) Für alle x ∈ R gilt x = |x| · sgn (x), | − x| = |x| und x ≤ |x|.
(2) Für alle reellen x 6= 0 gilt |x| > 0.
(3) Für alle x, y ∈ R gilt |xy| = |x| · |y| und sgn (xy) = sgn (x) · sgn (y).
(4) Für beliebige reelle x, a und beliebige reelle ε > 0 ist |x − a| < ε äquivalent mit
a − ε < x < a + ε. Insbesondere ist |x| < ε äquivalent mit −ε < x < ε.
Wir beweisen nun die Dreiecksungleichung, die außerordentlich wichtig für die Analysis ist.
In der Zahlengeraden R gibt es keine Dreiecke, so dass der Name vorerst nicht verständlich
wird. Die in Abschnitt 3.3 zu beweisende Verallgemeinerung auf Punkte in R2 , R3 , Rn und
Cn erklärt den Namen.
Satz 2.16 (Dreiecksungleichung)
Für beliebige reelle Zahlen a, b gelten die Ungleichungen
|a + b| ≤ |a| + |b| ,
|a − b| ≥ |a| − |b| .
Beweis. Für alle x ∈ R gilt x ≤ |x|. Wenn also a + b ≥ 0 ist, dann folgt
|a + b| = a + b ≤ |a| + |b|.
Ist jedoch a + b < 0, dann ist −(a + b) > 0, und es folgt
|a + b| = −(a + b) = −a + (−b) ≤ | − a| + | − b| = |a| + |b|.
Damit ist die erste Behauptung bewiesen. Mit ihrer Hilfe folgt
|a| = |(a − b) + b| ≤ |a − b| + |b|,
also
|a| − |b| ≤ |a − b|.
Vertauscht man hierin die Rollen von a und b, so ergibt sich
|b| − |a| ≤ |b − a| = |a − b|.
Also folgt |a − b| ≥ |a| − |b|.
Korollar 2.17 (Dreiecksungleichung)
Für beliebige reelle Zahlen a, b, c gilt
d(a, c) ≤ d(a, b) + d(b, c) .
Beweis. Satz 2.16 mit a − b und b − c anstelle von a und b ergibt
d(a, c) = |a − c| = |(a − b) + (b − c)| ≤ |a − b| + |b − c| = d(a, b) + d(b, c) .
27
2.4
Das Vollständigkeitsaxiom
Eine ernsthafte Unzulänglichkeit der rationalen Zahlen wurde bereits in der Antike entdeckt.
Damals waren nur die rationalen Zahlen bekannt. Ein Verwendungszweck der positiven Zahlen war (und ist) die Messung von Längen. Wie selbstverständlich ging man davon aus, dass
jede beliebige Länge ein Vielfaches, und zwar ein rationales Vielfaches einer fest gewählten
Einheitslänge ist. Das würde auch bedeuten, dass je zwei Längen l1 und l2 in einem rationalen Verhältnis l1 /l2 = q ∈ Q zueinander stehen und dass somit natürliche Zahlen m und
n existieren mit ml2 = nl1 . Zwei Längen mit dieser Eigenschaft heißen kommensurabel.
Die Entdeckung inkommensurabler Längen lässt sich am leichtesten mittels der Seite und
der Diagonale eines Quadrats nachvollziehen.
Wir betrachten ein Quadrat, dessen Seite die Einheitslänge 1 hat. Für die Länge x der
Diagonalen gilt dann nach dem Satz von Pythagoras die Beziehung x2 = 2. Ist x eine
rationale Zahl? Das folgende, vielleicht schon aus dem Schulunterricht bekannte Lemma gibt
eine negative Antwort.
Lemma 2.18
Es gibt keine rationale Zahl x mit x2 = 2.
Beweis. Der Beweis ist ein typisches Beispiel für einen Widerspruchsbeweis: Man nimmt
an, die Aussage gilt nicht, und führt diese Annahme dann zu einem Widerspruch, so dass
die Aussage doch gelten muss.
Wir nehmen also an, dass es eine rationale Zahl x ∈ Q gibt mit x2 = 2. Dann können wir
x = pq mit gewissen ganzen Zahlen p, q schreiben, wobei q 6= 0 ist. Nun ist diese Darstellung
einer rationalen Zahl zwar nicht eindeutig, durch geeignetes Kürzen können wir allerdings
stets erreichen, dass p und q teilerfremd sind, also keinen gemeinsamen (von Eins verschiedenen) Teiler haben. Aus x2 = 2 folgt nun durch Quadrieren
p2 = 2q 2 .
Diese Gleichung zeigt, dass p2 gerade ist. Daher ist p selber gerade, denn Quadrate ungerader
Zahlen sind ungerade. Somit ist p = 2u mit einer ganzen Zahl u. Es folgt 2q 2 = p2 = 4u2
und q 2 = 2u2 . Diese Gleichung zeigt, dass q 2 und folglich auch q selber gerade sind. Also sind
p und q beide gerade, und man hat einen Widerspruch dazu, dass p und q als teilerfremd
vorausgesetzt waren. Daher existiert keine rationale Zahl x mit x2 = 2.
Die Antwort der antiken Mathematiker auf die Entdeckung inkommensurabler Längen war
nicht etwa die Erfindung eines größeren Bereiches von Zahlen. Vielmehr wurden Zahlen wegen ihrer vermeintlich erwiesenen Unzulänglichkeit aus der messenden Geometrie entfernt,
und es wurde eine Theorie der Längenverhältnisse geschaffen. Dies ist die Proportionenlehre des Eudoxos von Knidos (4. Jahrhundert v. Chr.), die uns im 5. und 10. Buch der
Elemente des Euklid überliefert ist. Mit der Erfindung der Analytischen Geometrie im 17.
Jahrhundert durch R. Descartes und P. de Fermat wurden die Zahlen wieder zu einem wirksamen Werkzeug in der Geometrie. Eine logisch zufriedenstellende Grundlage für ein System
von Zahlen, das für die Analysis und die Geometrie ausreicht, wurde aber erst um 1870 von
G. Cantor (1845 – 1918) und R. Dedekind (1831 – 1916) geschaffen.
Man stellt sich die Zahlen als ausdehnungslose Punkte einer Geraden vor, die diese Gerade
lückenlos ausfüllen. Trägt man auf der Geraden eine beliebige Strecke ab, dann sollen also
den Endpunkten der Strecke Zahlen entsprechen. Dieser Vorstellung werden die rationalen
28
Zahlen nicht gerecht, wie das Beispiel der Diagonalen eines Quadrats der Seitenlänge 1
und viele andere Beispiele zeigen. Die Menge der rationalen Zahlen füllt die Gerade nicht
lückenlos aus. Es verbleiben Löcher – so schwer es auch fallen mag, sich diese vorzustellen.
Die Löcher müssen mit Zahlen ausgestopft“ werden. Zu diesem Zweck fanden Cantor und
”
Dedekind recht verschiedene Methoden. Im Nachhinein könnte man sagen, dass Dedekind
nur“ die Proportionenlehre des Eudoxos in geeigneter Weise umbaute. Wir behandeln diese
”
beiden Methoden nicht näher, sondern gehen weiterhin axiomatisch vor. Dazu müssen wir
zunächst einige neue Begriffe einführen.
Definition 2.19
Es sei K ein geordneter Körper und A ⊆ K eine nicht-leere Teilmenge.
(1) Man nennt A nach oben (bzw. nach unten) beschränkt, falls es ein c ∈ K gibt,
so dass x ≤ c für alle x ∈ A (bzw. x ≥ c für alle x ∈ A) gilt. Jedes solche c heißt eine
obere (bzw. untere) Schranke von A.
Man nennt A beschränkt, falls A nach oben und nach unten beschränkt ist.
(2) Eine obere Schranke von A, die in A liegt, heißt ein Maximum von A. Ebenso heißt
eine untere Schranke von A, die in A liegt, ein Minimum von A.
Ein Element M ∈ K ist also genau dann ein Maximum von A, falls x ≤ M für alle
x ∈ A gilt und falls M ∈ A ist. Eine analoge Aussage gilt für Minima.
(3) Ein Element s ∈ K heißt Supremum von A, falls s eine kleinste obere Schranke
von A ist, d.h. wenn die beiden folgenden Eigenschaften gelten:
(a) Es ist x ≤ s für alle x ∈ A.
(b) Ist c ∈ K eine obere Schranke von A, so gilt s ≤ c.
Analog heißt r ∈ K Infimum von A, falls r eine größte untere Schranke von A ist,
d.h. falls r eine untere Schranke von A ist und r ≥ c für jede untere Schranke c von A
gilt.
Falls die Menge A nicht nach oben beschränkt ist, dann schreibt man sup A = ∞, und
falls A nicht nach unten beschränkt ist, dann schreibt man inf A = −∞.
Bemerkung 2.20
(1) Im Falle ihrer Existenz sind Maximum und Minimum einer Menge eindeutig bestimmt:
Sind nämlich z.B. M ∈ A und M 0 ∈ A zwei Maxima von A, so muss einerseits M 0 ≤ M
gelten (wegen der Maximumseigenschaft von M ), andererseits aber auch M ≤ M 0
(wegen der Maximumseigenschaft von M 0 ). Aus Korollar 2.10 (1) folgt M = M 0 . Für
Minima argumentiert man entsprechend.
Diese Eindeutigkeit rechtfertigt es, von dem Maximum bzw. Minimum von A zu sprechen und dieses mit
max A
bzw.
min A
zu bezeichnen.
Ebenso ist klar, dass Supremum und Infimum einer Menge im Falle ihrer Existenz
eindeutig bestimmt sind. Man bezeichnet sie mit
sup A
bzw.
29
inf A .
(2) Die Voraussetzung A 6= ∅ ist für Teil (3) der Definition wichtig. Bevor man das Supremum oder Infimum einer Menge bildet, muss man sich davon überzeugen, dass
diese Menge nicht leer ist. (Manchmal erweist es sich als nützlich, sup ∅ := −∞ und
inf ∅ := +∞ zu setzen. Wir machen davon freilich keinen Gebrauch.)
(3) Der wesentliche Unterschied zwischen Supremum und Maximum einer (nach oben beschränkten) Menge A 6= ∅ besteht darin, dass das Maximum (sofern es existiert) definitionsgemäß zu A gehört, während das Supremum zu A gehören kann, aber nicht
muss.
Falls A ein Maximum besitzt, so ist dieses auch Supremum von A (denn es ist obere
Schranke für A, und da es zu A gehört, kann A keine kleinere obere Schranke haben).
In diesem Fall gilt also sup A = max A.
Entsprechendes gilt für den Zusammenhang zwischen Minimum und Infimum.
(4) Die beiden unendlichen“ Objekte ∞ und −∞ können relativ beliebig sein; wesentlich
”
ist nur, dass ∞ und −∞ untereinander und von allen x ∈ K verschieden sind. Man
setzt −∞ < x < ∞ für alle x ∈ K fest.
Beispiel 2.21
(1) Es sei K = Q und
A := {x ∈ Q | x < 0} ,
B := {x ∈ Q | x ≤ 0} .
Dann gilt
sup A = 0
und
sup B = 0.
Das Supremum von A gehört nicht zu A, das Supremum von B hingegen ist ein Element
von B; es ist sup B = max B = 0.
(2) Wieder sei K = Q, und es sei
1 1 1
1
| n ∈ N = 1, , , , . . . .
A :=
n
2 3 4
Dann ist sup A = 1 und inf A = 0, wobei sup A zu A gehört (also ein Maximum ist),
während inf A kein Element von A ist. Die Menge A besitzt also kein Minimum.
(3) Abermals sei K = Q. Wir betrachten die Teilmenge
A := x ∈ Q | x2 < 2
und behaupten, dass diese kein Supremum in Q besitzt. (Würde man A√hingegen als
Teilmenge von R auffassen, so hätte diese ein Supremum in R, nämlich 2.)
Begründung. Wir nehmen an, s ∈ Q wäre ein Supremum von A. Wegen 1 ∈ A ist
dann natürlich s ≥ 1 > 0. Wäre s2 < 2, so wäre s keine obere Schranke für A, denn
durch geringfügige Vergrößerung von s würde man dann ein t ∈ Q mit t > s und t2 < 2
finden. Wäre s2 > 2, so wäre s nicht die kleinste obere Schranke für A, denn es gäbe
dann ein u ∈ Q mit 0 < u < s und u2 > 2, so dass auch u obere Schranke für A
wäre.
30
Die beiden Behauptung über die Existenz von t und u sind intuitiv klar. Man kann solche
t und u auch konkret vorweisen, indem man z.B.
t = u := s −
s2 − 2
2s + 2
=
s+2
s+2
setzt. Mit s ∈ Q ist dann auch t ∈ Q, wegen s > 0 ist t > 0, und es gilt
t2 − 2 =
(2s + 2)2 − 2(s + 2)2
s2 − 2
(2s + 2)2
−
2
=
=
2
·
.
(s + 2)2
(s + 2)2
(s + 2)2
Nimmt man s2 < 2 an, so folgt t > s und t2 < 2. Analog folgt aus der Annahme s2 > 2
sowohl t < s als auch t2 > 2.
Sowohl die Annahme s2 < 2 als auch die Annahme s2 > 2 führen also auf einen
Widerspruch zur Definition des Supremums. Daher ist s2 = 2. Dies widerspricht jedoch
Lemma 2.18, wonach es kein x ∈ Q mit x2 = 2 gibt. Also kann sup A in Q nicht
existieren.
Definition 2.22
Ein geordneter Körper K heißt vollständig oder ordnungsvollständig, wenn jede nichtleere und nach oben beschränkte Teilmenge A ⊆ K ein Supremum sup A ∈ K besitzt.
Wie Beispiel 2.21 (3) zeigt, ist Q nicht vollständig.
Unsere Forderung, dass die reellen Zahlen keine Lücken enthalten, können wir nun wie folgt
formulieren.
Axiom (V) (Vollständigkeitsaxiom). Der geordnete Körper R der reellen Zahlen
ist ordnungsvollständig.
Mit diesem Axiom wird eigentlich nur ein Wunsch zum Ausdruck gebracht. Dass dieser Wunsch erfüllt werden kann, dass es also einen ordnungsvollständigen Körper gibt,
kann mit den Konstruktionen von Cantor oder Dedekind bewiesen werden. Hierzu sei auf
[Cohen/Ehrlich] und [Ebbinghaus et al.] verwiesen.
Die Vollständigkeit von R spielt ab Kapitel 6 in Konvergenzkriterien eine entscheidende
Rolle.
Als Folgerung aus dem Vollständigkeitsaxiom können wir nun das sog. Intervallschachtelungsprinzip beweisen.
Definition 2.23 Eine Intervallschachtelung ist eine Folge I1 , I2 , I3 , . . . von kompakten
echten Intervallen In = [an , bn ] mit den folgenden Eigenschaften:
(1) Für alle n ∈ N gilt In+1 ⊆ In .
(2) Zu jeder reellen Zahl ε > 0 gibt es ein n ∈ N mit bn − an < ε.
Von einer Intervallschachtelung setzen wir also nicht nur voraus, dass die Intervalle gemäß (1)
ineinander geschachtelt“ sind, sondern ihre Längen sollen auch gemäß (2) für wachsendes
”
n beliebig klein werden. Das Intervallschachtelungsprinzip besagt, dass jede Intervallschachtelung eine eindeutig bestimmte reelle Zahl festlegt (die im Durchschnitt aller beteiligten
Intervalle liegt). Verzichtet man auf Forderung (2) und betrachtet lediglich ineinander geschachtelte Intervalle, so kann man immerhin noch sagen, dass deren Schnitt nichtleer ist.
(Er könnte allerdings mehr als ein Element enthalten.)
31
Satz 2.24
(1) Ist I1 , I2 , I3 , . . . eine Folge von kompakten echten Intervallen In mit In+1 ⊆ In für alle
n ∈ N, so ist der Durchschnitt der In nichtleer:
\
In 6= ∅.
n∈N
(2) (Prinzip der Intervallschachtelung) Ist I1 , I2 , I3 , . . . eine Intervallschachtelung,
dann existiert genau eine reelle Zahl c mit c ∈ In für alle n ∈ N, und es gilt
\
In = {c} .
n∈N
Beweis. Es sei In = [an , bn ]. Unter den Voraussetzungen von (1) bzw. (2) gilt dann
am ≤ an ≤ b n ≤ b m
für alle m, n ∈ N mit m ≤ n.
(Wir werden später davon sprechen, dass (an )n monoton steigt und (bn )n monoton fällt, vgl.
Definition 6.1.)
(1) Wir betrachten die Menge
A := {an | n ∈ N}
der linken Endpunkte der In . Dann ist A nach oben beschränkt; obere Schranken sind
z.B. alle bm ; für alle m, n ∈ N gilt nämlich
(
am ≤ bm falls n ≤ m,
an ≤
bn ≤ bm falls m ≤ n,
in jedem Fall also an ≤ bm .
Nach dem Vollständigkeitsaxiom existiert also das Supremum
c := sup A ∈ R.
Es gilt dann an ≤ c ≤ bn für alle n ∈ N. (Weil c obere Schranke von A ist, gilt an ≤ c;
weil alle bn obere Schranken von A sind und c die kleinste obere Schranke ist, gilt
c ≤ bn .) Also liegt c in jedem In und damit auch im Durchschnitt sämtlicher Intervalle
In .
T
(2) Aus (1) folgt sofort die Existenz eines c ∈ n∈N In . Es bleibt noch die Eindeutigkeit
von c zu zeigen. Es seien also c und d reelle Zahlen, die beide im Durchschnitt aller In
liegen. O.B.d.A. darf man c ≤ d annehmen. Für alle n ∈ N gilt dann
an ≤ c ≤ d ≤ b n ,
also
0 ≤ d − c ≤ b n − an .
Aus der Eigenschaft (2) von Intervallschachtelungen folgt 0 ≤ d − c < ε für jede reelle
Zahl ε > 0. Dies ist nur möglich, wenn d − c = 0, also c = d ist.
32
Das Intervallschachtelungsprinzip ist sogar äquivalent zum Vollständigkeitsaxiom, d.h. aus
ihm kann das Vollständigkeitsaxiom hergeleitet werden. Das wird hier nicht ausgeführt.
Ferner bieten die Schachtelungen von Intervallen mit rationalen Endpunkten eine Möglichkeit zur Konstruktion der reellen Zahlen. Auch darauf gehen wir nicht näher ein. Dass die
Vollständigkeit von R für die Gültigkeit des Intervallschachtelungsprinzips entscheidend ist,
wird auch durch folgendes Gegenbeispiel illustriert:
Beispiel 2.25
Wenn wir den Körper R durch Q ersetzen, verliert das Intervallschachtelungsprinzip seine Gültigkeit.
Es sei z.B.
In :=
1
1
x ∈ Q | x > 0, − ≤ x2 − 2 ≤
n
n
.
Dann kann man die In als Intervalle“ in Q auffassen. (Es handelt sich dabei freilich nicht um
”
Intervalle im Sinne von Definition 2.13; diese müssten ja auch sämtliche irrationalen Zahlen
zwischen den
enthalten.) Es gilt In+1 ⊆ In für alle n.
T∞rationalen Zahlen dieses ”Intervalls“ T
Jedoch ist n=1 In leer: Gäbe es nämlich ein x ∈ ∞
n=1 In , so wäre nach Definition der In
einerseits x ∈ Q, andererseits
−
1
1
≤ x2 − 2 ≤
n
n
für alle n.
Letzteres ist nur möglich, wenn x2 − 2 = 0 ist. Gemäß Lemma 2.18 gibt es jedoch in Q kein
solches x.
Bemerkung 2.26 (Existenz von Wurzeln)
Eine weitere wichtige Konsequenz der
Vollständigkeit von R ist die Existenz von Wurzeln: Zu jeder reellen Zahl a ≥ 0 und jeder natürlichen
Zahl n gibt es eine eindeutig bestimmte reelle Zahl x ≥ 0 mit xn = a. Man
√
= a1/n und nennt
schreibt x = n a √
√ x die n-te Wurzel aus a. Für die Quadratwurzel schreiben
2
wir anstelle von a einfacher a.
Wir wollen den Beweis für diese Existenzaussage an dieser Stelle nicht ausführen; er wird
sich später (in Korollar 10.16) als Spezialfall eines viel allgemeineren Satzes, nämlich des
Zwischenwertsatzes für stetige Funktionen (Satz 10.9) ergeben; dieser beruht ganz wesentlich auf dem Vollständigkeitsaxiom. Bis dahin verwenden wir dennoch gelegentlich Wurzeln
bereits in der aus der Schule vertrauten Weise, auch wenn deren Existenz erst später gerechtfertigt wird. (Natürlich wird gewährleistet sein, dass der spätere Beweis keinen Gebrauch von
Resultaten macht, die die Existenz von Wurzeln bereits vorausgesetzt haben, d.h. dass wir
keinen Zirkelschluss begehen.)
Damit haben wir alle Axiome kennengelernt, die die reellen Zahlen R charakterisieren: R
ist ein Körper (Axiom (K)), er ist geordnet (Axiom (O)), und er ist vollständig (Axiom
(V)). (Die metrische Struktur von R hatte keines eigenen Axioms bedurft, sondern sich
aus der Körper- und der Ordnungsstruktur ergeben.) Wenn man die reellen Zahlen nicht
axiomatisch einführt, sondern konstruiert, würde man beweisen, dass es tatsächlich einen
Körper gibt, der diesen drei Axiomen genügt. Man kann noch mehr zeigen: Dieser Körper
ist im Wesentlichen“, d.h. bis auf Umbenennung“ der Elemente eindeutig bestimmt. Man
”
”
kann also auch so vorgehen, dass man zunächst die Existenz und Quasi-Eindeutigkeit dieses
Körpers beweist und dann vereinbart, dass man ihn den Körper der reellen Zahlen nennt.
33
2.5
Eine exakte Definition der natürlichen Zahlen∗
Bisher (insbesondere in Kapitel 1) waren wir mit den natürlichen Zahlen naiv umgegangen.
Es stellt sich nun die Frage, wie sich die natürlichen Zahlen mathematisch exakt in den
axiomatischen Aufbau der reellen Zahlen einfügen lassen. Mit anderen Worten: Was sind
die natürlichen Zahlen eigentlich, und was dürfen wir über sie als bekannt annehmen? Wir
erklären, dass die reelle Zahl 1 (das neutrale Element der Multiplikation) eine natürliche Zahl
ist, wir definieren 2 := 1 + 1, 3 := 2 + 1, und so weiter, und wir definieren die Menge N aller
natürlichen Zahlen durch N := {1, 2, 3, . . .}. Das Problem besteht aber in der Präzisierung,
was mit und so weiter“ gemeint ist. Eine Lösung dieses Problems bietet der Begriff der
”
induktiven Menge.
Definition 2.27 Eine Teilmenge S der reellen Zahlen R heißt induktiv oder eine induktive Menge, falls sie die beiden folgenden Eigenschaften hat.
(N1) Es gilt 1 ∈ S.
(N2) Für jedes x ∈ S gilt auch x + 1 ∈ S.
Beispiel 2.28
Es gibt viele Beispiele von induktiven Mengen. Eines ist R selber. Ein
anderes ist die Menge
R+ := {x ∈ R | x > 0}
aller positiven reellen Zahlen. Auch die Menge {x ∈ R | x ≥ 1} ist induktiv.
Nicht-induktive Teilmengen von R sind z.B. die Mengen {x ∈ R | x ≥ 2} oder
{x ∈ R | x ≤ 2011}.
Jede induktive Menge enthält die Zahlen 1, 2 = 1 + 1, 3 = 2 + 1 und so weiter. Diese
Beobachtung legt es nahe, die Menge N der natürlichen Zahlen als die kleinste induktive
Teilmenge von R zu definieren:
Definition 2.29 Die Menge N der natürlichen Zahlen ist der Durchschnitt aller induktiven Teilmengen S von R. Wir notieren die Definition von N in der Form
T
N :=
{S ⊆ R | S ist induktiv}
= {n ∈ R | für jede induktive Menge S ⊆ R gilt n ∈ S} .
Man setzt N0 := {0} ∪ N = {0, 1, 2, 3, . . .} und
Z := {n ∈ R | n ∈ N oder n = 0 oder − n ∈ N} .
Die Elemente . . . , −3, −2, −1, 0, 1, 2, 3, . . . von Z heißen die ganzen Zahlen.
Dass die solchermaßen definierte Menge N selber eine induktive Menge ist, erscheint selbstverständlich, bedarf aber eines Beweises. Die zweite Behauptung des folgenden Satzes stellt
klar, dass N die kleinste11 induktive Menge ist. Erstaunlicherweise erhält man auf diese Weise auch einen Beweis für das Prinzip der vollständigen Induktion, das wir in Kapitel 1 ohne
nähere Begründung formuliert hatten.
11
Hier begegnet uns eine Idee, die sich in vielen Bereichen der Mathematik immer wieder als nützlich
erweist: Die kleinste Menge mit einer gewissen Eigenschaft ergibt sich oft als der Durchschnitt aller Mengen
mit dieser Eigenschaft.
34
Satz 2.30 (Prinzip der vollständigen Induktion)
Die Menge N der natürlichen Zahlen ist eine induktive Menge. Falls S eine induktive Menge mit S ⊆ N ist, dann ist S = N.
Beweis. Für jede induktive Menge S ⊆ R gilt 1 ∈ S. Daher liegt 1 auch im Durchschnitt N
aller induktiven Mengen. Es gilt also 1 ∈ N.
Es sei n ∈ N. Für jede induktive Menge S ⊆ R gilt dann n ∈ S. Wegen (N2) folgt somit
n+1 ∈ S für jede induktive Menge S ⊆ R. Also liegt n+1 im Durchschnitt N aller induktiven
Mengen. Es gilt also n + 1 ∈ N. Damit ist gezeigt, dass N induktiv ist.
Wenn S ⊆ R eine induktive Menge ist, dann gilt N ⊆ S nach Definition von N. Unter der
Voraussetzung S ⊆ N folgt also S = N.
Bemerkung 2.31
Warum enthält Satz 2.30 das Prinzip der vollständigen Induktion?
Dieses besagt, wie in Kapitel 1 erläutert, Folgendes:
Für jede natürliche Zahl n sei eine Aussage A(n) gegeben, und es sei folgendes erfüllt:
(IA) Die Aussage A(1) ist wahr.
(IS) Für jedes n ∈ N ist die Implikation A(n) =⇒ A(n + 1) wahr.
Dann ist die Aussage A(n) für alle n ∈ N wahr.
Zur Begründung betrachten wir die Menge S := {n ∈ N | es gilt A(n)}. Diese ist aufgrund
der Voraussetzungen (IA) und (IS) eine induktive Menge. Wegen Satz 2.30 folgt also S = N,
und dies war zu zeigen.
Aus der Definition der natürlichen Zahlen und dem Induktionsprinzip lassen sich nun die
üblichen wohlbekannten Eigenschaften von N herleiten, z.B. dass Summen und Produkte
natürlicher Zahlen wieder natürliche Zahlen sind, dass 1 die kleinste natürliche Zahl ist und
dass es zwischen einer natürlichen Zahl n und n + 1 keine weiteren natürlichen Zahlen gibt.
Detailliert ist dies z.B. in [Köhler, § 3.3] ausgeführt. Wir übergehen die Beweise, da diese
keinen nennenswerten Erkenntnisgewinn versprechen.
Beweisen wollen wir hingegen die folgende wichtige Eigenschaft der natürlichen Zahlen:
Satz 2.32 (Wohlordnung der natürlichen Zahlen)
N besitzt ein Minimum.
Jede nicht-leere Teilmenge von
Beweis. Es sei A eine Teilmenge von N, die kein Minimum besitzt. Zum Beweis des Satzes
muss gezeigt werden, dass A = ∅ ist. Zu diesem Zweck wird die Menge
S = {n ∈ N | für alle x ∈ A gilt x > n}
betrachtet. Wäre 1 6∈ S, dann gäbe es ein x ∈ A mit x ≤ 1. Wegen A ⊆ N und weil 1
die kleinste natürliche Zahl ist, könnte dies nur x = 1 sein. Dann wäre also 1 ∈ A, d.h.
1 = min A, im Widerspruch dazu, dass A kein Minimum hat. Damit ist 1 ∈ S gezeigt.
Nun sei ein beliebiges n ∈ S gegeben. Für alle m ∈ A gilt dann m > n, also m ≥ n + 1. Wir
nehmen an, es wäre n + 1 6∈ S. Dann gibt es ein x ∈ A mit x ≤ n + 1. Weil m ≥ n + 1 für
alle m ∈ A ist, folgt x = n + 1. Also folgt n + 1 = min A im Widerspruch zur Voraussetzung
35
über A. Folglich ist n + 1 ∈ S. Damit ist gezeigt, dass S eine induktive Menge ist. Aus Satz
2.30 folgt somit S = N.
Wäre nun A 6= ∅, so gäbe es ein n0 ∈ A = A ∩ N = A ∩ S, und aus der Definition von S folgt
n0 < n0 im Widerspruch zu den Ordnungsaxiomen. Also ist A = ∅.
Die Wohlordnung der natürlichen Zahlen (Satz 2.32) ist die Grundlage für eine wichtige
Beweisstrategie. Vorgelegt sei eine Aussage A(n) über natürliche Zahlen, die für alle n ∈ N
bewiesen werden soll. Man führt den Beweis indirekt. Wenn A(n) nicht für alle n ∈ N wahr
ist, dann gibt es nach Satz 2.32 ein kleinstes n0 ∈ N, so dass A(n0 ) falsch ist. Durch problemspezifische Überlegungen lässt sich daraus manchmal ein n1 ∈ N mit n1 < n0 gewinnen,
so dass A(n1 ) ebenfalls falsch ist, im Widerspruch zur Minimalität von n0 . Diese Strategie
wurde von Pierre de Fermat (1601 oder 1607 – 1665) in die Mathematik eingeführt und
Methode des unendlichen Abstiegs genannt. Er konnte hiermit beispielsweise beweisen,
dass die Gleichung x4 + y 4 = z 4 keine Lösung in natürlichen Zahlen x, y, z besitzt. Manchmal nennt man die Methode scherzhaft auch das Prinzip des kleinsten Verbrechers“; das
”
hypothetische n0 in der obigen Argumentation ist der kleinste Verbrecher“.
”
Zum Abschluss dieses Abschnitts diskutieren wir noch eine andere Eigenschaft unseres Zahlensystems, die auf den ersten Blick als selbstverständlich erscheint: Jede reelle Zahl x wird
bekanntlich“ von einer natürlichen Zahl übertroffen; es gibt also ein n ∈ N mit n > x. Ent”
gegen der Anschauung folgt dies jedoch nicht aus den Axiomen eines geordneten Körpers12 .
Erstaunlicherweise kommt uns hier das Vollständigkeitsaxiom zu Hilfe.
Satz 2.33 (Archimedisches Axiom)
Zu jeder reellen Zahl a gibt es eine natürliche Zahl n mit n > a. Die Teilmenge N der natürlichen Zahlen in R ist nicht nach oben
beschränkt.
Beweis. Man nimmt an, die Menge N wäre nach oben beschränkt. Nach Axiom (V) existiert
dann das Supremum s = sup N ∈ R. Nach Definition des Supremums ist s − 1 keine obere
Schranke von N. Also gibt es eine natürliche Zahl m mit s − 1 < m ≤ s. Für die natürliche
Zahl m + 1 folgt m + 1 > s im Widerspruch zu s = sup N. Die anfängliche Annahme ist also
unhaltbar. Damit ist die zweite Behauptung bewiesen.
Gäbe es ein a ∈ R mit n ≤ a für alle n ∈ N, so wäre a obere Schranke für N, im Widerspruch
zur soeben gezeigten zweiten Behauptung. Also gibt es für alle a ∈ R ein n ∈ N mit n > a.
Dies zeigt die erste Behauptung.
Die (historisch bedingte) Einstufung von Satz 2.33 als Axiom“ mag zunächst irritieren.
”
Eine mathematische Aussage kann je nach der logischen Organisation des Kontextes die
Rolle eines Axioms, einer Definition oder eines beweisbaren Satzes annehmen. Bei dem hier
gewählten Zugang ist das Archimedische Axiom“ aus dem Vollständigkeitsaxiom ableitbar.
”
Der Beweis des Satzes 2.33 enthält folgende Schlussweise, die häufig nützlich ist.
12
Dies wird durch Beispiele von geordneten Körpern K belegt, in denen es unendlich große“ Elemente
”
a gibt, die also a > n für alle natürlichen Zahlen n erfüllen. Es sei z.B. K der Körper aller rationalen
Funktionen f auf R. Das sind die Funktionen der Gestalt f = p/q, worin p und q reelle Polynome sind
und q nicht das Nullpolynom ist. Zu K gehören insbesondere die konstanten Funktionen, und insofern ist
R ein Teilkörper von K. Eine Funktion f ∈ K wird positiv genannt, falls es eine reelle Zahl ε > 0 gibt, so
dass f (x) > 0 für alle reellen Zahlen x mit 0 < x < ε gilt. Hierdurch wird K zu einem geordneten Körper
gemacht. Die Funktion f : x 7→ 1/x gehört zu K und erfüllt f > n für alle natürlichen Zahlen n.
36
Proposition 2.34 Es sei A ⊆ R eine nichtleere Menge. Wenn t ∈ R und t < sup A ist,
dann gibt es ein a ∈ A mit t < a. Wenn t ∈ R und t > inf A ist, dann gibt es ein a ∈ A mit
t > a. Dies gilt auch, falls sup A = ∞ oder inf A = −∞ ist.
Beweis. Es sei t ∈ R und t < sup A. Man nimmt an, die Behauptung wäre falsch. Dann
gilt a ≤ t für alle a ∈ A. Somit ist t eine obere Schranke von A, und es folgt t ≥ sup A im
Widerspruch zur Voraussetzung. Die Behauptung über das Infimum folgt analog.
Nun werden drei wichtige Folgerungen aus dem Archimedischen Axiom bewiesen.
Satz 2.35 (Satz des Eudoxos)
(1) Zu jeder reellen Zahl ε > 0 gibt es eine natürliche Zahl n mit
1
n
< ε.
(2) Zu beliebigen reellen Zahlen ε > 0 und M > 0 gibt es eine natürliche Zahl n mit
nε > M .
(3) Ist a ∈ R und 0 ≤ a ≤
1
n
für alle n ∈ N, dann ist a = 0.
Beweis.
(1) Aus ε > 0 folgt 1ε > 0. Nach Satz 2.33 gibt es also ein n ∈ N mit n > 1ε . Es folgt
Damit ist (1) bewiesen.
1
n
< ε.
(2) Zum Beweis von (2) wenden wir Satz 2.33 auf a := Mε > 0 an und finden ein n ∈ N
mit n > a. Dieses erfüllt dann nε > M . Also gilt (2).
(3) Aus (1) und aus den Voraussetzungen in (3) folgt zunächst a ≤ 0 und sodann a = 0.
Dies zeigt (3).
In der Analysis werden mit den Buchstaben ε und δ vorzugsweise positive reelle Zahlen
bezeichnet, die man sich sehr klein vorstellen soll. Mit M oder C werden vorzugsweise positive
reelle Zahlen bezeichnet, die man sich sehr groß vorstellen soll.
2.6
Vergleich der rationalen und der reellen Zahlen
In Beispiel 2.7 hatten wir die Menge
nm o
m
∈
Z,
n
∈
N
n
der rationalen Zahlen eingeführt, und wir hatten begründet, dass Q mit den auf R gegebenen
Verknüpfungen ein Körper ist, der Körper der rationalen Zahlen. Auch die Ordnungsstruktur überträgt sich von R auf Q, d.h. Q ist ein angeordneter Körper. Es gelten die echten
Inklusionen
N ( Z ( Q ( R.
Q=
Denn beispielsweise ist 12 ∈ Q, 12 6∈ Z. Dass auch die Inklusion Q ⊆ R echt ist, ergibt sich
daraus, dass R vollständig ist, Q hingegen nicht (siehe Beispiel 2.21 (3)).
Natürlich sind die meisten“ rationalen Zahlen nicht ganzzahlig. Die Menge Q ist also sehr
”
viel größer als Z und noch viel größer als N. Im nächsten Satz wird bewiesen, dass alle drei
Mengen dennoch in einem bestimmten Sinne gleich groß sind. Zur Auflösung der Paradoxie
in dieser Behauptung braucht man die von Cantor eingeführten Begriffe zum Größenvergleich
von Mengen.
37
Definition 2.36 Zwei Mengen A und B heißen gleich mächtig oder von gleicher
Mächtigkeit, falls es eine bijektive Abbildung φ : A −→ B gibt.
Eine Menge A heißt endlich, falls entweder A = ∅ ist oder eine natürliche Zahl n und eine
bijektive Abbildung von A auf den Zahlenabschnitt An = {j ∈ N | 1 ≤ j ≤ n} existieren.
Eine Menge heißt unendlich, falls sie nicht endlich ist.
Eine Menge A heißt abzählbar unendlich, falls A und die Menge N der natürlichen Zahlen
gleich mächtig sind.
Eine Menge A heißt abzählbar, falls sie entweder endlich oder abzählbar unendlich ist.
Eine Menge A heißt überabzählbar, falls sie nicht abzählbar ist, falls sie also weder endlich
noch abzählbar unendlich ist.
Bemerkung 2.37
(1) Dieser Definition der Mächtigkeit von Mengen liegt folgende anschauliche Vorstellung
zugrunde: Wenn man nachprüfen möchte, ob in einem Saal ebenso viele Personen wie
Stühle vorhanden sind, dann kann man je eine Person auf je einem Stuhl Platz nehmen
lassen und nachsehen, ob weder Personen noch Stühle übrig geblieben sind.
In diesem Kontext ist das sog. Schubfachprinzip erwähnenswert: Versucht man, n
Gegenstände auf n Schubfächer zu verteilen, so kann jeder Gegenstand dann und nur
dann seine eigene Schublade bekommen, wenn man alle Schubfächer tatsächlich benutzt. Anders ausgedrückt: Falls man n Objekte auf k Schubfächer verteilt und n > k
ist, so müssen in einem dieser Schubfächer mindestens zwei Objekte landen. Dieses
Prinzip beschreibt eigentlich eine Selbstverständlichkeit, ist aber dennoch oftmals überraschend nützlich; z.B. ergibt sich daraus sofort, dass unter 32 beliebigen Personen zwei
am gleichen Tag im Monat Geburtstag haben müssen.
Mathematisch lässt sich das Schubfachprinzip wie folgt ausdrücken: Eine Abbildung
zwischen zwei endlichen Mengen gleicher Elementeanzahl (Mächtigkeit) ist genau dann
surjektiv, wenn sie injektiv ist. Für Abbildungen zwischen unendlichen Mengen ist diese
Aussage nicht richtig: Es gibt durchaus Abbildungen f : M −→ M einer unendlichen
Menge M in sich, die injektiv, aber nicht surjektiv sind oder umgekehrt. Es sei beispielsweise M := N, und es seien S, T : N −→ N definiert durch
1,
falls n = 1,
S(n) := n + 1
für alle n ∈ N,
T (n) :=
n − 1, falls n ≥ 2.
Dann ist S injektiv, aber nicht surjektiv (da 1 6∈ S(N), während T surjektiv, aber
nicht injektiv ist (denn es ist T (1) = T (2) = 1). Durch S wird N bijektiv auf die echte
Teilmenge S(N) = N \ {1} abgebildet; eine unendliche Menge kann also gleich mächtig
zu einer echten Teilmenge sein.
(2) Wenn es eine bijektive Abbildung φ : N −→ A gibt, dann kann man φ(n) = an für
n ∈ N und
A = {a1 , a2 , a3 , a4 , . . .}
schreiben. Die Elemente von A werden also mit den natürlichen Zahlen als Indizes
durchnummeriert, und damit ist die Menge A abgezählt“. Beispielsweise ist
”
Z = {0, 1, −1, 2, −2, 3, −3, . . .}
38
eine Abzählung der Menge Z aller ganzen Zahlen. In diesem Beispiel ist die Menge Z
von gleicher Mächtigkeit wie die echte Teilmenge N und auch von gleicher Mächtigkeit
wie das Komplement Z \ N.
Dieses Beispiel und das aus (1) geben einen ersten kleinen Einblick in die Abgründe,
die sich bei unendlichen Mengen eröffnen. Einen noch etwas tieferen Blick in diese
Abgründe eröffnet der folgende Satz.
Satz 2.38
Die Menge Q der rationalen Zahlen ist abzählbar unendlich, also gleich
mächtig zur Menge N der natürlichen Zahlen.
mit m, n ∈ N denkt man sich in dem folgenden Schema
Beweis. Die positiven Brüche m
n
aufgeschrieben, worin in der n-ten Zeile die Brüche mit dem Nenner n in aufsteigender
Reihenfolge stehen. Sodann werden sie den Pfeilen folgend nummeriert.
1
1
→
2
1
5
1
...
4
2
5
2
...
3
3
4
3
5
3
...
2
4
3
4
4
4
5
4
...
2
5
3
5
4
5
5
5
.
1
2
3
1
%
2
2
↓ %
1
3
.
.
4
1
.
3
2
2
3
1
4
→
%
%
%
↓ %
1
5
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
...
.. . .
.
.
Erscheint eine Zahl mehrfach, wie etwa 11 = 22 = 33 = . . . oder 23 = 64 = . . . , dann
erhält sie nur bei ihrem ersten Auftreten eine Nummer. Auf diese Weise erhält man eine
Abzählung q1 , q2 , q3 , . . . der positiven Zahlen in Q. Dann ist aber 0, q1 , −q1 , q2 , −q2 , q3 , −q3 , . . .
eine Abzählung von Q.
Hingegen lassen sich die reellen Zahlen nicht abzählen; es gilt sogar:
Satz 2.39
Jedes echte Intervall in R ist überabzählbar.
Beweis. Es sei I ein echtes Intervall. Wir nehmen an, I wäre abzählbar. Dann gibt es eine
bijektive Abbildung ϕ : N −→ I. Wir schreiben xn := ϕ(n). Wir konstruieren nun rekursiv
eine Intervallschachtelung I1 , I2 , I3 , . . . so, dass In ⊆ I, aber xn 6∈ In für alle n ≥ 1 gilt.
Hierzu wählen wir für I1 ein beliebiges kompaktes, echtes Intervall mit I1 ⊆ I und x1 6∈ I1 .
(Dies ist offensichtlich möglich.) Falls In für ein n bereits konstruiert ist, zerlegen wir In
in drei gleichgroße abgeschlossene Teilintervalle. Mindestens eines dieser drei Teilintervalle
enthält dann xn+1 nicht. (Diese Feststellung wäre falsch, wenn wir In nicht gedrittelt, sondern
nur halbiert hätten!) Wir wählen dann In+1 als eines der Teilintervalle, das xn+1 nicht enthält.
1
· |I1 | für alle
Es ist dann nach Konstruktion klar, dass In+1 ⊆ In , xn 6∈ In und |In | = 3n−1
n ∈ N gilt. (Hierbei bezeichnet |J| die Länge eines Intervalls J, d.h. die Differenz von rechtem
39
und linkem Endpunkt.) Zu jedem ε > 0 gibt es also ein n ∈ N mit |In | < ε. Somit bildet
I1 , I2 , I3 , . . . eine Intervallschachtelung.
Nach dem Intervallschachtelungsprinzip (Satz 2.24 (2)) gibt es ein c ∈ R mit c ∈ In für alle
n. Wegen I1 ⊆ I ist insbesondere c ∈ I. Da x1 , x2 , x3 , . . . eine Abzählung von I ist, gibt es
also ein N ∈ N mit c = xN . Nach Konstruktion ist aber xN 6∈ IN , im Widerspruch zu c ∈ In
für alle n. Die Annahme der Existenz einer Bijektion ϕ : N −→ I ist damit widerlegt.
Variante: Bekannter ist eine Beweisvariante mithilfe des sog. Cantorschen Diagonalverfahrens, die wir freilich nur kurz skizzieren wollen. Sie benutzt die Tatsache, dass jede reelle
Zahl eine Dezimaldarstellung hat, welche eindeutig ist, sofern man Neunerenden“ (wie in
”
0,201099999 · · · = 0,2011) ausschließt. Was eine solche Dezimaldarstellung genau bedeutet,
können wir strenggenommen erst nach Einführung unendlicher Reihen in Kapitel 7 präzise
fassen; zudem müsste man die Existenz einer solchen Darstellung erst beweisen. Wir verweisen hierzu auf [Köhler, Satz 4.6 und Satz 6.8] und verwenden die Dezimaldarstellung wieder
einmal in naiver“ Weise.
”
O.B.d.A. genügt es, die Überabzählbarkeit von [0, 1] zu zeigen. Dazu nehmen wir wieder
an, dass x1 , x2 , x3 , . . . eine Abzählung von [0, 1] ist. Wir denken uns nun die xn in Dezimaldarstellung geschrieben und konstruieren uns nun eine neue Zahl x ∈ [0, 1] mit der
Dezimaldarstellung
x = 0, b1 b2 b3 . . .
so, dass für alle n die Ziffer bn nicht mit der n-ten Ziffer in der Dezimaldarstellung von xn
übereinstimmt und dass x keine Neunerenden hat. (Man könnte z.B. im Regelfall bn = 1
setzen, aber bn = 2, falls xn an der n-ten Stelle eine 1 stehen hat.) Dann ist x von allen xn
verschieden, im Widerspruch dazu, dass x1 , x2 , x3 , . . . alle reellen Zahlen in [0, 1] erschöpfend
abzählt.
Bemerkung 2.40
Die Mächtigkeiten von Q und R werden oft mit der (leicht surrealen) Geschichte von Hilberts Hotel13 illustriert. Dieses besitzt abzählbar unendlich viele
Zimmer. Zu jeder natürlichen Zahl n gibt es ein Hotelzimmer mit der Nummer n. Dieser
Umstand erlaubt es dem Hotelier auf wundersame Weise, Gruppen neuer Gäste in seinem
voll belegten Hotel ohne Mehrfachbelegungen unterzubringen. Nehmen wir z.B. an, dass eine
Gruppe von N neuen Gäste erscheint. Dann bittet der Hotelier den Gast im Zimmer n, dieses
Zimmer zu räumen und in das Zimmer n + N umzuziehen. In die frei gewordenen Zimmer
mit den Nummern 1, . . . , N ziehen die neuen Gäste ein.
Wir stellen uns nun vor, dass der Hotelier noch ein zweites Hilbertsches Hotel besitzt, das
ebenfalls voll belegt ist. Zur Halbierung seiner Unkosten kann er dann bedenkenlos das zweite
Hotel schließen, ohne Gäste zu verlieren. Zu diesem Zweck bittet er den Gast in Zimmer n
des ersten Hotels, in das Zimmer mit der Nummer 2n − 1 im gleichen Haus umzuziehen.
Sodann weist er den Gast in Zimmer n des zweiten Hauses in das nun freie Zimmer mit der
Nummer 2n im ersten Haus ein. Das somit evakuierte zweite Hotel kann aufgelöst werden.
Wer den Beweis des Satzes 2.38 aufmerksam studiert, findet noch erheblich größere Einsparpotentiale. Stellen wir uns nämlich vor, in einer Stadt gebe es abzählbar unendlich viele
13
David Hilbert (1862 – 1943) hat große Beiträge zu vielen verschiedenen Teilen der Mathematik geleistet, u.a. zur Algebra, Algebraischen Zahlentheorie, Logik, Mengenlehre, Funktionalanalysis, Mathematischen
Physik und zu den Grundlagen der Geometrie. Seine Rede auf dem Internationalen Mathematikerkongress
1900 in Paris, auf der er eine Liste von 23 ungelösten Problemen vorstellte, war wegweisend für die Entwicklung der Mathematik im 20. Jahrhundert.
40
Hilbertsche Hotels, die alle voll belegt sind. Dann ist es möglich, alle Hotels mit einer einzigen Ausnahme zu schließen, und in dem verbliebenen Hotel kann man trotzdem alle Gäste
ohne Mehrfachbelegungen unterbringen.
Eines Tages widerfuhr dem Hotelier Schreckliches. Ein Omnibus mit dem Einheitsintervall
]0, 1[ fuhr vor. Jeder Punkt des Intervalls begehrte ein Zimmer für sich allein. Diesen vorgeblich so bescheidenen Wunsch konnte der Hotelier nicht erfüllen. . . .
Wie die beiden letzten Sätze zeigen, gibt es viel mehr reelle als rationale Zahlen. Man könnte
sagen, dass die Zahlengerade R fast nur aus den Löchern“ zwischen den rationalen Zahlen
”
besteht; diese Löcher“ sind natürlich keine wirklichen Löcher“, sondern irrationale Zahlen.
”
”
Andererseits liegen die rationalen Zahlen dicht in den reellen in folgendem Sinne: In jedem
beliebig kleinen echten Intervall liegen, wie wir als nächstes zeigen werden, rationale Zahlen.
Definition 2.41
Intervall I gilt.
Satz 2.42
Zahlen.
Eine Teilmenge A in R heißt dicht in R, falls A ∩ I 6= ∅ für jedes echte
Die Menge Q ist dicht in R. In jedem echten Intervall I gibt es rationale
Beweis. Es genügt, die Behauptung für beschränkte Intervalle I zu beweisen. Dann sind die
Endpunkte a = inf I und b = sup I reelle Zahlen, und es gilt a < b. Also ist ε := b − a > 0.
Man darf auch a > 0 voraussetzen. Denn anderenfalls ersetzt man I durch ein Intervall
{x + m | x ∈ I}, wobei m ∈ N gemäß Satz 2.33 so groß zu wählen ist, dass a + m > 0 ist.
Nach Teil (1) von Satz 2.35 gibt es ein n ∈ N mit n1 < ε. Nach Satz 2.33 gibt es ein k ∈ N
mit k > na. Es sei k die kleinste natürliche Zahl mit dieser Eigenschaft. Sie existiert wegen
Satz 2.32. Dann gilt k − 1 ≤ na < k. Es folgt
a<
also
k
n
k−1 1
1
k
=
+ ≤ a + < a + ε = b,
n
n
n
n
∈ I ∩ Q.
Bemerkung 2.43
(1) Umgekehrt liegen auch die irrationalen Zahlen dicht in R. Insbesondere gibt es also zu
je zwei rationalen Zahlen q1 , q2 mit q1 < q2 eine irrationale Zahl x mit q1 < x < q2 .
Dies werden wir in Aufgabe 4.3 beweisen.
(2) (Kontinuumshypothese) Man kann zeigen, dass alle echten Intervalle von gleicher
Mächtigkeit sind, nämlich der Mächtigkeit von R. Andererseits ist Q von gleicher
Mächtigkeit wie N, obwohl doch Q so viel größer als N zu sein scheint und dicht in R
liegt. Gibt es eine Menge X, deren Mächtigkeit echt größer als diejenige von N und
echt kleiner als diejenige von R ist? Cantor vermutete, dass es keine solche Menge X
gibt. Dies nennt man die Kontinuumshypothese. (Jede Menge mit der Mächtigkeit
von R wird auch ein Kontinuum genannt.) Cantor konnte die Kontinuumshypothese
nicht beweisen. Im Jahr 1938 bewies K. Gödel (1906 – 1978), dass die Kontinuumshypothese im Rahmen der üblichen (Zermelo-Fraenkelschen) Axiome der Mengenlehre
41
nicht widerlegbar ist. Und 1963 bewies P. J. Cohen (geb. 1934), dass sie in diesem
Rahmen auch nicht beweisbar ist. Gewissermaßen ist also die Kontinuumshypothese
ein unabhängiger Satz, der innerhalb einer genau umgrenzten Theorie reeller Zahlen
nicht herleitbar ist und den man in die Vorstellungen über reelle Zahlen aufnehmen
darf, ohne Widersprüche befürchten zu müssen, die nicht bereits ohne Annahme dieses
Satzes auftreten könnten.
Zum Abschluss dieses Abschnitts stellen wir einige Eigenschaften der reellen und der rationalen Zahlen noch einmal in Tabellenform gegenüber.
Q
vollständig nein
R
ja
abzählbar
ja
nein
dicht in R
ja
ja
42
Die komplexen Zahlen und die Räume Rn und Cn
3
3.1
Warum komplexe Zahlen?
In R besitzt die Gleichung
x2 = −1
keine Lösung. Wir erweitern R daher zum Körper C der komplexen Zahlen, worin diese
Gleichung lösbar ist – um den Preis, dass C nicht zu einem geordneten Körper gemacht
werden kann.
Auf den ersten Blick mag sich die Frage stellen, was mit einer solchen Erweiterung, die
zunächst nur die Lösung einer ganz speziellen Gleichung erlaubt, gewonnen ist. Denn
natürlich kann man sich viele andere Gleichungen ausdenken, von denen a priori zu befürchten ist, dass sie in C ebenso unlösbar sind wie in R, so dass man C immer weiter vergrößern
müsste, um auch diese Gleichungen lösen zu können. Tatsächlich stellt sich jedoch heraus,
dass in C bereits alle Polynomgleichungen lösbar sind, so dass solche zusätzlichen Erweiterungsschritte unnötig sind. Dies ist der Inhalt des berühmten Fundamentalsatzes der Algebra,
den wir in dem optionalen Abschnitt 12.6 beweisen werden.
Die Kenntnis komplexer Zahlen und Funktionen erweist sich auch für die reelle Analysis als
unverzichtbar und außerordentlich gewinnbringend.
1. Jedes nicht-konstante Polynom mit reellen oder komplexen Koeffizienten besitzt nach
dem Fundamentalsatz der Algebra komplexe Nullstellen (möglicherweise aber keine
reelle Nullstelle). Die Existenz komplexer Nullstellen benötigt man z.B. in der Linearen
Algebra für die Eigenwerttheorie von linearen Abbildungen und in der Analysis zur
Lösung von Systemen linearer Differentialgleichungen mit konstanten Koeffizienten.
2. Zwischen den elementaren transzendenten Funktionen exp(x) = ex , sin(x) und cos(x)
besteht die von Leonhard Euler (1707 – 1783) entdeckte wundervolle Identität
eiz = cos(z) + i sin(z)
für alle z ∈ C.
Sie ist u.a. in der Elektrotechnik bei der Berechnung von Wechselstromkreisen außerordentlich nützlich. Ein Spezialfall der Eulerschen Identität ist die Formel
eiπ + 1 = 0,
die fünf der wichtigsten mathematischen Konstanten (0, 1, i, e und π) miteinander in
Zusammenhang bringt.
3. Manche Beweise funktionieren im Komplexen genauso wie im Reellen. Dann muss man
sie nur einmal führen, nämlich im Komplexen.
3.2
Konstruktion der komplexen Zahlen
Den Anlass und auch den Ansatz zur Konstruktion der komplexen Zahlen gibt die Tatsache,
dass die Gleichung
x2 + 1 = 0
43
keine reelle Lösung x besitzt. Denn für jeden geordneten Körper K und alle x ∈ K gilt nach
Korollar 2.10 (5)
x2 + 1 ≥ 1 > 0.
Man stellt sich nun vor, in einer größeren Menge als R habe man eine Lösung der Gleichung
x2 + 1 = 0; man bezeichnet sie mit i wie imaginär“. Es ist wünschenswert, mit dem neuen
”
Symbol in gewohnter Weise rechnen zu können. Konkret bedeutet dies: Wir möchten R zu
einem Körper C erweitern, für den i ∈ C (und natürlich R ⊆ C) gilt. Für alle reellen Zahlen
a, b gilt dann auch a + bi ∈ C, und aus i2 = −1 und den Körperaxiomen folgen für alle
a, b, c, d ∈ R die Gleichungen
(a + bi) + (c + di) = (a + c) + (b + d)i
und
(a + bi)(c + di) = (ac − bd) + (ad + bc)i .
Jetzt kann man den Spieß umdrehen und die gefundenen Gleichungen zur Konstruktion des
Körpers C verwenden.
Wir werden dabei C zunächst als den R2 definieren, den wir mit einer zusätzlichen multiplikativen Struktur versehen. Dies ist auch insofern sinnvoll, als wir uns die komplexen Zahlen
als Punkte in der Ebene veranschaulichen werden. Für konkrete Rechnungen ist es hingegen
wenig praktikabel, komplexe Zahlen in der für Vektoren im R2 üblichen Schreibweise (a, b)
darzustellen; wir werden daher nach der formalen Definition sofort zu der Schreibweise a + bi
umschwenken.
Die Menge R2 = {(a, b) | a, b ∈ R} mit den beiden
Satz 3.1 (Komplexe Zahlen)
Verknüpfungen
(a, b) + (c, d) = (a + c, b + d) ,
(a, b) · (c, d) = (ac − bd, ad + bc)
ist ein Körper. Er heißt der Körper der komplexen Zahlen und wird mit C bezeichnet.
Beweis. Die in C definierte Addition ist identisch mit der Addition im Vektorraum R2 .
Daher ist (C, +) eine abelsche Gruppe mit dem Nullelement (0, 0). Die Multiplikation ist
offensichtlich kommutativ, und (1, 0) ist ein neutrales Element. Es sei ein Element (a, b) 6=
(0, 0) in C gegeben. Dann gilt a2 + b2 > 0. Daher ist
(a, b)
−1
:=
b
a
,
−
a2 + b 2
a2 + b 2
(3.1)
ein wohldefiniertes Element von C. Aus der Definition der Multiplikation in C folgt
a
−b
b
a
−1
(a, b) · (a, b) = a · 2
−b· 2
, −a · 2
+b· 2
= (1, 0).
a + b2
a + b2
a + b2
a + b2
Somit ist jedes von der Null (0, 0) verschiedene Element in C bezüglich der Multiplikation
invertierbar.
44
Der Nachweis der Assoziativität der Multiplikation ist relativ lästig. (Dies ist eine der eher
seltenen Situationen, in denen man das Assoziativitätsgesetz wirklich nachprüfen muss und
es nicht von vornherein offensichtlich“ ist.) Man berechnet für alle (a, b), (c, d), (x, y) ∈ C
”
(a, b) · (c, d) · (x, y) = (ac − bd, ad + bc) · (x, y)
= (acx − bdx − ady − bcy, acy − bdy + adx + bcx)
und
(a, b) · (c, d) · (x, y)
= (a, b) · (cx − dy, cy + dx)
= (acx − ady − bcy − bdx, acy + adx + bcx − bdy),
also
(a, b) · (c, d) · (x, y) = (a, b) · (c, d) · (x, y) .
Dies zeigt die Assoziativität der Multiplikation.14 Die Gültigkeit des Distributivgesetzes ergibt sich aus
(a, b) + (c, d) · (x, y) = (a + c, b + d) · (x, y)
= (ax + cx − by − dy, ay + cy + bx + dx)
= (ax − by, ay + bx) + (cx − dy, cy + dx)
= (a, b) · (x, y) + (c, d) · (x, y).
Notationen. Durch die Abbildung a 7→ (a, 0) wird R in C eingebettet, wobei die Rechenoperationen in R und C miteinander verträglich sind:
(a, 0) + (b, 0) = (a + b, 0),
(a, 0) · (b, 0) = (ab, 0).
Deshalb ist es sinnvoll, den Unterschied zwischen der komplexen Zahl (a, 0) und der reellen
Zahl a aufzuheben und a = (a, 0) als Element in C aufzufassen. Es wird dann R ⊆ C, und
R wird zu einem Teilkörper von C. Setzen wir nun
i := (0, 1) ,
so folgt i2 = (−1, 0) = −1. Damit haben wir in C die gewünschte Lösung i der Gleichung
x2 + 1 = 0 gefunden. Selbstverständlich gilt auch (−i)2 = −1. Für beliebige a, b ∈ R folgt
nun
(a, b) = (a, 0) + (0, b) = (a, 0) + (b, 0) · (0, 1) = a + bi .
Das rechtfertigt die Notation
a + bi
für komplexe Zahlen, die von jetzt an anstelle von (a, b) benutzt wird.
14
Der obige Beweis des Assoziativgesetzes der Multiplikation in C liefert keine Einsicht in den eigentlichen
Grund für die Gültigkeit des Gesetzes. Man findet einen eleganteren Beweis, der zudem die geometrische
Bedeutung der Multiplikation in C erhellt, wenn man anstelle der Paare (a, b) die Matrizen
a −b
b
a
betrachtet und mit diesen wie in der Linearen Algebra rechnet. Die zu diesen speziellen Matrizen gehörigen
linearen Abbildungen sind Drehstreckungen. Die Matrizenmultiplikation entspricht der Komposition der
zugehörigen linearen Abbildungen R2 −→ R2 . Für die Komposition von Abbildungen ist das Assoziativgesetz
klar. – Dieser Beweis wird verständlich, sobald die nötigen Hilfsmittel aus der Linearen Algebra verfügbar
sind.
45
Definition 3.2 Es sei a, b ∈ R und z = a + bi. Dann heißt a = Re (z) der Realteil und
b = Im(z) der Imaginärteil der komplexen Zahl z. Man setzt
z := a − bi
und nennt z die zu z konjugiert komplexe Zahl. Es ist
z · z = (a + bi)(a − bi) = a2 + b2
eine reelle Zahl und nicht negativ, und für z 6= 0 ist z · z > 0. Man definiert
√
|z| := zz
und nennt diese reelle Zahl |z| ≥ 0 den Betrag oder den Absolutbetrag der komplexen
Zahl z. (Zur Existenz der Quadratwurzel siehe Bemerkung 2.26.)
Satz 3.3 (Rechenregeln in C)
z = z,
Für alle z, w ∈ C gilt
1
Re (z) = (z + z) ,
2
| Re (z)| ≤ |z|,
| Im(z)| ≤ |z|,
Das Inverse z −1 =
1
z
zw = z · w,
z +w = z +w,
1
(z − z),
2i
|zw| = |z| · |w|,
Im(z) =
|z| = |z|.
einer komplexen Zahl z 6= 0 ist
1
z
= 2.
z
|z|
Beweis. Die meisten dieser Regeln sind unmittelbar klar aufgrund der Definitionen. Wir
gehen nur auf diejenigen ein, bei denen die Gültigkeit nicht offensichtlich ist:
Es seien z, w ∈ C gegeben, und es sei z = a + ib, w = c + id mit a, b, c, d ∈ R. Dann ist
z · w = (a − ib)(c − id) = ac − bd − i(ad + bc) = ac − bd + i(ad + bc) = zw.
Damit folgt weiter
|zw|2 = zw · zw = z · w · z · w = (zz)(ww) = |z|2 · |w|2 .
Indem man auf beiden Seiten die Quadratwurzel zieht, ergibt sich |zw| = |z| · |w|. Weiter ist
√
√
| Re (z)| = |a| = a2 ≤ a2 + b2 = |z|,
und analog ergibt sich | Im(z)| ≤ |z|. Für die Inverse
1
z
erhält man schließlich
1
z
z
=
= 2.
z
zz
|z|
Dasselbe Ergebnis kann man auch aus (3.1) ablesen; demzufolge ist
1
a − ib
z
= 2
= 2;
2
z
a +b
|z|
46
Im(z)
6
z = a + bi
bi
i
a
0
1
- Re (z)
z = a − bi
Abbildung 4: Geometrische Interpretation der komplexen Konjugation
Bemerkung 3.4 Es ist sehr nützlich, sich die komplexe Zahl z = a + bi (mit a, b ∈ R) als
Punkt (a, b) in der Ebene R2 zu veranschaulichen. In diesem Zusammenhang nennt man R2
auch die komplexe Zahlenebene bzw. zu Ehren von Gauß die Gauß’sche Zahlenebene.
Die Darstellung z = a+bi für komplexe Zahlen ist dann die aus dem R2 vertraute Darstellung
von Vektoren in kartesischen Koordinaten.
Die komplexe Konjugation lässt sich geometrisch als Achsenspiegelung an der reellen Achse
interpretieren (Abbildung 4).
√
Auch der Betrag |z| = a2 + b2 von z hat in der Zahlenebene eine einfache anschauliche
Bedeutung: Er ist aufgrund des Satzes von Pythagoras der Abstand des Punktes z vom
Nullpunkt, wenn man wie üblich den euklidischen Abstandsbegriff in der Ebene zugrunde
legt.
Die Addition komplexer Zahlen z und w entspricht der Addition von Vektoren im R2 . Hingegen ist auf den ersten Blick nicht ersichtlich, welche geometrische Bedeutung die Multiplikation komplexer Zahlen haben könnte. Diese wird sich erst später ergeben, wenn wir komplexe
Zahlen in Polarkoordinaten schreiben werden: In Satz 12.14 (5) werden wir sehen, dass
wir jede komplexe Zahl z in der Form
z = reit
mit einem r ≥ 0 und einem t ∈ [0, 2π[ darstellen können und dass hierbei |eit | = 1 ist. Daher
ist r = |z| der Betrag von z. Weiter erweist sich t als der Winkel (das Argument), den z
(als Vektor im R2 aufgefasst) mit der positiven reellen Achse einschließt. Wir werden auch
zeigen, dass das aus dem Reellen bekannte Additionstheorem der Exponentialfunktion auch
in C seine Gültigkeit behält, so dass insbesondere stets
eis eit = ei(s+t)
gilt. Für das Produkt zweier komplexer Zahlen z = r1 eit1 und w = r2 eit2 ergibt sich damit
z1 z2 = (r1 r2 ) · ei(t1 +t2 ) .
47
Hierbei ist r1 r2 der Betrag und t1 +t2 das Argument von zw. Dies kann man so interpretieren:
Bei der Multiplikation komplexer Zahlen multiplizieren sich die Beträge, und die Winkel
addieren sich.
Der Betrag |z − w| hat die anschauliche Bedeutung des Abstands von z und w. Das gibt uns
den Anlass zu folgender Definition.
Definition 3.5
Für komplexe Zahlen z, w heißt
d(z, w) := |z − w|
der (euklidische) Abstand oder die Distanz von z und w.
z+w
w
|z − w|
z
w
|z + w|
z
0
z−w
0
Abbildung 5: Abstand und Dreiecksungleichung
Satz 3.6 (Dreiecksungleichung)
Für alle z, w, v ∈ C gilt
|z + w| ≤ |z| + |w| ,
d(z, w) ≤ d(z, v) + d(v, w) .
Beweis. Man berechnet unter Verwendung der Regeln aus Satz 3.3
|z + w|2 =
=
=
≤
≤
(z + w)(z + w)
zz + zw + zw + ww
|z|2 + |w|2 + 2 Re (zw)
|z|2 + |w|2 + 2| Re (zw)|
|z|2 + |w|2 + 2|zw| = (|z| + |w|)2 .
Hieraus folgt |z + w| ≤ |z| + |w|. Das ist die erste Behauptung. Daraus ergibt sich die zweite
gemäß
d(z, w) = |z − w| = |(z − v) + (v − w)|
≤ |z − v| + |v − w| = d(z, v) + d(v, w) .
In der Zahlenebene hat die Dreiecksungleichung eine offensichtliche anschauliche Bedeutung
(vgl. Abbildung 5). Wir können jetzt die Situation in Satz 2.16 als einen degenerierten
eindimensionalen Fall ansehen.
48
3.3
Rn und Cn
Die Mengen Rn bzw. Cn bestehen aus allen n-Tupeln z = (z1 , . . . , zn ) von reellen bzw.
komplexen Zahlen z1 , . . . , zn . Zwei solche Vektoren z und w = (w1 , . . . , wn ) werden gemäß
der Vorschrift
z + w := (z1 + w1 , . . . , zn + wn )
addiert, und die skalare Multiplikation mit einer komplexen beziehungsweise einer reellen
Zahl λ ist durch
λ(z1 , . . . , zn ) := (λz1 , . . . , λzn )
definiert. In der Linearen Algebra zeigt man, dass Rn und Cn damit zu Vektorräumen über
R bzw. über C der Dimension n gemacht werden15 . Wir benötigen hier das Skalarprodukt,
das in der Linearen Algebra erst an späterer Stelle behandelt wird.
Definition 3.7
Für beliebige Vektoren z = (z1 , . . . , zn ) und w = (w1 , . . . , wn ) in Cn heißt
hz, wi :=
n
X
zk wk
k=1
das euklidische Skalarprodukt oder (Standard-)Skalarprodukt aus z und w.
Bemerkung 3.8
dere
Für Vektoren a = (a1 , . . . , an ) und b = (b1 , . . . , bn ) in Rn gilt insbesonha, bi = a1 b1 + . . . + an bn .
Für beliebige z, v und w in Cn und für beliebige λ ∈ C gelten die Rechenregeln
hw, zi
hz + v, wi
hz, v + wi
hλz, wi
hz, λwi
n
X
hz, zi =
|zk |2
=
=
=
=
=
hz, wi ,
hz, wi + hv, wi ,
hz, vi + hz, wi ,
λhz, wi ,
λhz, wi ,
≥ 0
hz, zi = 0 ⇐⇒ z = 0 = (0, . . . , 0).
mit
k=1
Für reelle Vektoren a, b ∈ Rn und für λ ∈ R vereinfachen sich die erste und die fünfte
Rechenregel zu
hb, ai = ha, bi
und
ha, λbi = λha, bi .
Das Skalarprodukt wird nun zur Definition des Abstands von Punkten in Cn oder in Rn
verwendet.
15
Was ein Vektorraum genau ist, wird ebenfalls in der Linearen Algebra erklärt.
49
Definition 3.9
Es seien z = (z1 , . . . , zn ) ∈ Cn und w = (w1 , . . . , wn ) ∈ Cn . Man nennt
p
√
||z|| := hz, zi = z1 z1 + . . . + zn zn
die (euklidische) Norm von z. Wegen hz, zi ≥ 0 ist ||z|| eine wohldefinierte nicht-negative
reelle Zahl, und es gilt ||z|| = 0 genau dann, wenn z = 0 der Nullvektor ist. Für a =
(a1 , . . . , an ) ∈ Rn gilt insbesondere
q
||a|| = a21 + . . . + a2n .
Man nennt
d(z, w) := ||z − w|| =
n
X
!1/2
|zk − wk |2
k=1
den (euklidischen) Abstand oder die (euklidische) Distanz der Punkte z und w. Für
Punkte a = (a1 , . . . , an ) und b = (b1 , . . . , bn ) in Rn vereinfacht sich die Definition zu
p
d(a, b) = (a1 − b1 )2 + . . . + (an − bn )2 .
Bemerkung 3.10
(1) Für alle z ∈ Cn und alle λ ∈ C gilt
||λz|| = |λ| · ||z||.
Dies folgt sofort aus
||λz||2 = hλz, λzi = λλ · hz, zi = |λ|2 · ||z||2
durch Wurzelziehen.
(2) Für alle z, w ∈ Cn gilt
d(z, w) = d(w, z),
d(z, w) ≥ 0
und
d(z, w) = 0 ⇐⇒ z = w.
(3) Im Spezialfall n = 1 ist die Norm ||z|| eines Vektors z ∈ C1 = C gerade der Betrag |z|
der komplexen Zahl z.
Daher ist die zuletzt gegebene Definition des Abstands zweier Punkte im Cn mit den
früheren Definitionen des Abstands zweier komplexer (Definition 3.5) bzw. reeller Zahlen (Definition 2.14) verträglich: Für n = 1 stimmt der soeben definierte Abstand
zweier Punkte in C1 mit dem in Definition 3.5 erklärten überein; ebenso ist der Abstand zweier Punkte in R nach allen drei Definitionen der gleiche.
(4) Die Schreibweisen für die euklidische Norm sind in der Literatur nicht einheitlich. Oft
schreibt man dafür auch |z| oder |z|2 oder ||z||2 . Falls man die Schreibweise |z| benutzt,
sollte man besonders darauf achten, nicht aus Gedankenlosigkeit Regeln für die Norm
zu benutzen, die lediglich für den Betrag, nicht jedoch für Vektoren im Cn mit n ≥ 2
gültig sind.
50
In den Räumen Rn mit n ≤ 3 hat dieser Abstand die anschauliche Bedeutung des üblichen
(euklidischen) Abstandes. Die Räume Rn mit n ≥ 4 und die Räume Cn mit n ≥ 2 sind unserer
Anschauung nicht zugänglich. Dennoch erlauben es die Eigenschaften des Skalarproduktes
und des Abstands, in diesen Räumen Geometrie zu treiben. Zum Beispiel könnte man den
Winkel α zwischen zwei Vektoren a 6= 0 und b 6= 0 in Rn durch die Formel
cos(α) =
ha, bi
||a|| · ||b||
definieren, sobald die Umkehrfunktion des Cosinus zur Verfügung steht. Dies ist aus dem
Schulunterricht vermutlich für den Fall n = 3 bekannt. Da der Cosinus nur Werte im Intervall [−1, 1] annimmt, muss hierzu freilich gewährleistet sein, dass auf der rechten Seite
dieser Formel nur Werte vom Betrag ≤ 1 auftauchen. Die Grundlage hierfür ist die CauchySchwarzsche Ungleichung16 .
Satz 3.11 (Cauchy-Schwarzsche Ungleichung)
und w = (w1 , . . . , wn ) des Cn gilt
Für alle Vektoren z = (z1 , . . . , zn )
|hz, wi| ≤ ||z|| · ||w||,
also
n
X
zk wk ≤
k=1
n
X
!1/2
|zk |2
k=1
·
n
X
!1/2
|wk |2
.
k=1
Hierin besteht genau dann Gleichheit, wenn es komplexe Zahlen λ und µ gibt, die nicht beide
0 sind und die λz + µw = 0 erfüllen (d.h. in der Sprache der Linearen Algebra: wenn z und
w linear abhängig sind).
Dies gilt insbesondere auch für den Spezialfall z, w ∈ Rn .
In [Heuser 1, S. 97] findet sich ein Beweis, der die Ungleichung zwischen dem arithmetischen
und dem geometrischen Mittel (Satz 1.9) benutzt. Der folgende Beweis ist unabhängig von
diesem Resultat und lässt sich wörtlich auf beliebige Skalarprodukte übertragen, wie sie in
der Linearen Algebra in allgemeinerem Rahmen betrachtet werden.
Beweis. Es seien z, w ∈ Cn gegeben. Für alle λ, µ ∈ C gilt gemäß den Rechenregeln aus
Bemerkung 3.8
0 ≤ hλz + µw, λz + µwi = λλ · hz, zi + µµ · hw, wi + λµ · hz, wi + λµ · hw, zi.
Insbesondere gilt dies für λ := hw, wi = ||w||2 ≥ 0 und µ := −hz, wi. Für diese Wahl von
λ, µ ist λ = λ und µ = −hw, zi, also µ · hz, wi = µ · hw, zi = −|hz, wi|2 , und es ergibt sich
0 ≤ ||w||4 · ||z||2 + ||w||2 · |hz, wi|2 − ||w||2 · |hz, wi|2 − ||w||2 · |hz, wi|2
= ||w||2 · ||w||2 · ||z||2 − |hz, wi|2 .
Im Falle ||w|| > 0 folgt hieraus
||w||2 · ||z||2 − |hz, wi|2 ≥ 0,
16
also |hz, wi|2 ≤ ||w||2 · ||z||2
nach A. Cauchy (1789 – 1857) und H. A. Schwarz (1843 – 1921)
51
und sodann durch Wurzelziehen die behauptete Abschätzung. Im Falle ||w|| = 0 ist w = 0,
und beide Seiten der Abschätzung sind 0. Damit ist die Gültigkeit der Cauchy-Schwarzschen
Ungleichung gezeigt.
Es bleibt noch der Fall der Gleichheit zu diskutieren. Hierfür darf man wieder o.B.d.A.
w 6= 0 annehmen. (Im Fall w = 0 sind ja beide Seiten der Ungleichung 0, und es gilt dann
0 · z + 1 · w = 0.)
Falls in der Cauchy-Schwarzschen Ungleichung Gleichheit auftritt, so zeigt die obige Rechnung hλz + µw, λz + µwi = 0 mit den dort gewählten λ, µ. Dies hat aber λz + µw = 0 zur
Folge, wobei w 6= 0 sicherstellt, dass λ = ||w||2 6= 0 gilt. Dies zeigt die eine der behaupteten
Implikationen.
Nun sei umgekehrt λz + µw = 0 für gewisse λ, µ ∈ C mit (λ, µ) 6= (0, 0). Wegen w 6= 0 ist
dabei λ 6= 0. Für α := − µλ gilt daher z = α · w, und mit den Regeln aus Bemerkung 3.8 und
Bemerkung 3.10 (1) folgt wie gewünscht
|hz, wi| = |hαw, wi| = |α · hw, wi| = |α| · ||w||2 = ||αw|| · ||w|| = ||z|| · ||w||.
Eine direkte Folgerung aus der Cauchy-Schwarzschen Ungleichung ist die Dreiecksungleichung:
Satz 3.12 (Dreiecksungleichung)
Für beliebige z, v, w in Cn gilt
||z + w|| ≤ ||z|| + ||w|| ,
d(z, w) ≤ d(z, v) + d(v, w) .
Beweis. Die erste Behauptung ergibt sich aus
||z + w||2 =
=
=
=
≤
≤
hz + w, z + wi
hz, zi + hz, wi + hw, zi + hw, wi
hz, zi + hz, wi + hz, wi + hw, wi
||z||2 + 2 Re hz, wi + ||w||2
||z||2 + 2|hz, wi| + ||w||2
||z||2 + 2||z|| · ||w|| + ||w||2 = (||z|| + ||w||)2
durch Wurzelziehen. Hierin ist die letzte Abschätzung durch die Cauchy-Schwarzsche Ungleichung begründet. Die zweite Behauptung ergibt sich nun wie in Satz 3.6 aus
d(z, w) = ||z − w|| = ||(z − v) + (v − w)||
≤ ||z − v|| + ||v − w|| = d(z, v) + d(v, w) .
52
4
Metrische Räume
In Abschnitt 3.3 hatten wir den euklidischen Abstand zweier Punkte in Rn bzw. Cn definiert,
und zwar durch Verallgemeinerung des aus den Anschauungsräumen“ R (Zahlengerade), R2
”
(Ebene) und R3 (dreidimensionaler Raum) bekannten Abstandsbegriffs.
Wir werden später Abstände“ auch zwischen anderen mathematischen Objekten (wie etwa
”
Funktionen oder Folgen) messen wollen, nicht nur zwischen Punkten im Rn oder Cn . Hierzu führen wir einen neuen abstrakten Begriff ein, nämlich den des metrischen Raumes. In
den folgenden Kapiteln werden wir Konvergenz von Folgen und Stetigkeit von Funktionen
gleich allgemein in beliebigen metrischen Räumen definieren, uns dann aber überwiegend
auf die Untersuchung reeller Folgen und reellwertiger Funktionen in einer reellen Variablen
beschränken. Verallgemeinerungen auf Funktionen mehrerer Variabler oder auf allgemeine
metrische Räume bleiben weiterführenden Vorlesungen wie Vertiefung Analysis, Funktionalanalysis und Topologie vorbehalten.
Definition 4.1 Es sei X eine Menge und X 6= ∅. Eine Abbildung d : X × X −→ R heißt
eine Metrik auf X, falls für alle p, q, r ∈ X die folgenden Aussagen gelten.
(M1) (Positive Definitheit) Es ist d(p, q) ≥ 0. Genau dann gilt d(p, q) = 0, wenn p = q
ist.
(M2) (Symmetrie) Es ist d(p, q) = d(q, p).
(M3) (Dreiecksungleichung) Es ist d(p, q) ≤ d(p, r) + d(r, q).
Das Paar (X, d) oder auch X selber heißt dann ein metrischer Raum, und die nichtnegative reelle Zahl d(p, q) heißt der Abstand oder die Distanz der Punkte p und q in
diesem Raum.
Beispiel 4.2
(1) Der in Definition 3.9 erklärte euklidische Abstand im Rn bzw. Cn ist aufgrund von
Bemerkung 3.10 (2) und Satz 3.12 eine Metrik; diese heißt die euklidische Metrik
auf Rn bzw. Cn . Sie ist für uns vorläufig das einzige wichtige Beispiel einer Metrik.
Damit werden Rn bzw. Cn also zu metrischen Räumen. Aber auch eine beliebige Teilmenge von Rn bzw. Cn können wir mit dieser Metrik ausstatten und damit zu einem
metrischen Raum machen.
(2) Metrik des französischen Eisenbahnsystems
Es sei F eine nicht-leere Teilmenge der Ebene R2 . Man wählt einen Punkt P ∈ F . Für
beliebige A, B ∈ F setzt man dann
||A − B||,
falls A, B, P auf einer Geraden liegen,
dF (A, B) :=
||A − P || + ||P − B|| sonst.
Man kann dann für dF die drei Eigenschaften einer Metrik verifizieren (Aufgabe 6.3).
Man hat dF scherzhaft die Metrik des französischen Eisenbahnsystems (mit P aris als
Zentrum) genannt (Abbildung 6).
53
Abbildung 6: Die Metrik des französischen Eisenbahnsystems (Zeichnung: Jens Jordan)
(3) Es sei X eine beliebige nichtleere Menge. Für x, y ∈ X definieren wir
0, falls x = y,
d(x, y) :=
1, falls x 6= y.
Dann ist d eine Metrik auf X, die sog. diskrete Metrik (Aufgabe 6.3).
(4) Die Codierungstheorie ist ein Zweig der angewandten Algebra, der bei Datenübertragungen zur Absicherung gegen Übermittlungsfehler eingesetzt wird. In dieser Theorie kommt die folgende wichtige Metrik vor. Es sei X = {0, 1}n die Menge aller (endlichen) Folgen aus n Binärziffern 0 und 1. Für zwei solche Folgen x = (x1 , . . . , xn ) und
y = (y1 , . . . , yn ) wird D(x, y) gleich der Anzahl der Indizes k gesetzt, wofür xk 6= yk ist.
Man stellt sich vor, dass x eine gesendete Nachricht und y die empfangene Nachricht
ist. Dann ist D(x, y) die Anzahl der Übertragungsfehler. Man kann diese Anzahl auch
in der Form
n
X
|xk − yk |
D(x, y) =
k=1
schreiben. Hierdurch lässt sich die Funktion D auf ganz Rn ×Rn fortsetzen. In Aufgabe
6.1 zeigen wir, dass D eine Metrik auf X und auch auf Rn ist. Für x, y ∈ X heißt
D(x, y) die Hamming-Distanz von x und y. Die Metrik D auf X wurde 1948 von
R. W. Hamming (1915 – 1998) in die Nachrichtentechnik eingeführt.
Als Metrik auf Rn ist D auch in der Analysis von Bedeutung. Anschaulich könnte man
sie als Metrik des Straßensystems von Manhattan beschreiben: Dort sind die Straßen
gitterförmig angeordnet, so dass es keine direkten“ Verbindungen (im Sinne der eu”
klidischen Metrik) gibt, sondern sich der Abstand zweier Adressen danach bemisst,
wieviele (in Nord-Süd-Richtung verlaufende) Längsstraßen (Avenues) und wie viele
(ost-westlich verlaufende) Querstraßen (Streets) die beiden Adressen trennen.
Die in Abschnitt 2.2 für Intervalle eingeführten Bezeichnungen offen“ und abgeschlossen“
”
”
können auf beliebige Teilmengen beliebiger metrischer Räume übertragen werden.
Definition 4.3
Menge
Es sei (X, d) ein metrischer Raum, und es sei a ∈ X, ε ∈ R, ε > 0. Die
Uε (a) := {p ∈ X | d(p, a) < ε}
54
heißt dann die offene Kugel vom Radius ε (oder die offene ε-Kugel) um den Punkt a
oder auch die offene ε-Umgebung von a. Ebenso heißt
Bε (a) := {p ∈ X | d(p, a) ≤ ε}
die abgeschlossene Kugel vom Radius ε (oder die abgeschlossene ε-Kugel) um a. Eine
beliebige Teilmenge U von X heißt offen (in X), falls es zu jedem Punkt a ∈ U ein ε > 0
gibt, so dass die offene Kugel Uε (a) vollständig in U enthalten ist. In Quantorenschreibweise
lautet diese Bedingung
∀a∈U ∃ε>0 Uε (a) ⊆ U.
Eine Teilmenge A ⊆ X heißt abgeschlossen (in X), falls ihr Komplement X \ A offen ist.
Bemerkung 4.4
(1) Die Abhängigkeit von dem metrischen Raum X kommt in der Notation Uε (a) bzw.
Bε (a) nicht zum Ausdruck. Im Regelfall ist sie aus dem Kontext klar. Je nachdem,
in welchem metrischen Raum sich die jeweiligen Betrachtungen abspielen, kann Uε (a)
also z.B. ein Intervall (falls X = R), eine Kreisscheibe (falls X = C oder X = R2 ),
eine Kugel im umgangssprachlichen Sinn (falls X = R3 ) oder eine abstraktere Kugel“
”
bezeichnen.
(2) Ein Intervall I ⊆ R ist als Menge genau dann offen beziehungsweise abgeschlossen,
wenn I ein offenes beziehungsweise ein abgeschlossenes Intervall ist. (Selbstverständlich
legt man die Bedeutung der Vokabeln“ so fest, dass dies zutrifft.)
”
Der Begriff der offenen Menge ist aber viel allgemeiner als der des offenen Intervalls:
Die meisten“ offenen Mengen in R sind keine Intervalle.
”
(3) Warnung: Ein häufiger Anfängerfehler besteht in der Annahme, jede Menge in R oder
auch in Rn bzw. Cn müsse entweder offen oder abgeschlossen sein. Dies verführt zu
Fehlschlüssen wie Weil A nicht offen ist, ist A abgeschlossen.“
”
Tatsächlich sind die meisten“ Mengen weder offen noch abgeschlossen. Beispiele für
”
solche Mengen (in R) sind die halboffenen Intervalle [a, b[ und ]a, b], aber auch Q, R \ Q
oder N ∪ ] − 1, 0[.
(4) Für jeden beliebigen metrischen Raum (X, d) sind die leere Menge ∅ und der Gesamtraum X sowohl offene als auch abgeschlossene Mengen.
In den Beispielen 4.2 (3) bzw. (4) einer beliebigen Menge mit der diskreten Metrik bzw.
des Raumes X = {0, 1}n mit der Hamming-Distanz D ist jede beliebige Teilmenge von
X sowohl offen als auch abgeschlossen. (Denn in beiden Fällen gilt für jedes x ∈ X
und für 0 < ε < 1 jeweils Uε (x) = {x}.)
(5) Die Offen- bzw. Abgeschlossenheit einer Menge hängt wesentlich von dem umgeben”
den“ metrischen Raum X ab. So ist z.B. das offene Intervall I :=]0, 1[ als Teilmenge des
metrischen Raumes R, versehen mit der euklidischen Metrik, (erwartungsgemäß) nicht
abgeschlossen. Betrachtet man hingegen den metrischen Raum X =]0, 1[ (ebenfalls
versehen mit der euklidischen Metrik), so ist I (überraschenderweise) abgeschlossen in
X, denn das Komplement X \ I = ∅ ist offen in X (siehe (4)).
Im Regelfall, wenn der Bezug auf den umgebenden“ Raum X unzweideutig ist, spricht
”
man nur von offenen bzw. abgeschlossenen Mengen und lässt den präzisierenden Zusatz
in X“ weg.
”
55
(6) Eine offene ε-Kugel Uε (c) ist tatsächlich eine offene Menge im Sinne der obigen Definition. Ebenso ist eine abgeschlossene ε-Kugel Bε (c) tatsächlich abgeschlossen im obigen
Sinne.
Begründung:
(i) Es sei ein a ∈ Uε (c) gegeben. Wir müssen ein δ > 0 finden mit Uδ (a) ⊆ Uε (c).
Nach Definition der ε-Kugel ist d(a, c) < ε, also δ := ε − d(a, c) > 0. (Abbildung
7 illustriert, wie man auf diese Wahl von δ kommt.) Es sei x ∈ Uδ (a). Dann ist
aufgrund der Dreiecksungleichung (M3)
d(x, c) ≤ d(x, a) + d(a, c) < δ + d(a, c) = ε,
also x ∈ Uε (c). Dies gilt für alle x ∈ Uδ (a). Daher ist Uδ (a) ⊆ Uε (c), wie gewünscht.
Damit ist die Offenheit von Uε (c) gezeigt.
δ
a
ε
c
Abbildung 7: Die Offenheit offener Kugeln
(ii) Zum Nachweis der Abgeschlossenheit von Bε (c) müssen wir definitionsgemäß zeigen, dass
U := X \ Bε (c) = {x ∈ X | d(x, c) > ε}
offen ist. Dies geht ganz analog wie in (1). Der Vollständigkeit halber führen
wir die Details aus: Es sei ein a ∈ U gegeben. Dann ist d(a, c) > ε, also δ :=
d(a, c) − ε > 0. Es sei x ∈ Uδ (a). Dann ist wiederum aufgrund von (M3)
d(x, c) = d(c, x) ≥ d(c, a) − d(a, x) > d(a, c) − δ = ε,
also x ∈ U . Dies gilt für alle x ∈ Uδ (a). Daher ist Uδ (a) ⊆ U , womit U als offen
nachgewiesen ist.
Die Begriffe offen“ und abgeschlossen“ sind sog. topologische Begriffe. Wir werden sie
”
”
später noch genauer unter die Lupe nehmen. So werden wir u.a. (in Satz 8.6) eine alternative
Beschreibung abgeschlossener Mengen kennenlernen, und wir werden auch den Begriff der
Kompaktheit (der bisher nur bei Intervallen auftrat) in allgemeinerem Rahmen definieren.
Hierzu benötigen wir das Konzept der Konvergenz von Folgen. Um dieses soll es im nächsten
Kapitel gehen. Und damit sind wir auch schon“ am Ende des Grundlagen-Teils angelangt.
”
Jetzt geht es richtig los.
56
Teil II
Konvergenz und Stetigkeit
5
5.1
Konvergenz von Folgen
Folgen
Unter einer Folge stellt man sich anschaulich eine geordnete Auflistung von Zahlen oder auch
anderen Objekten vor. Beispielsweise ist
2, 3, 5, 7, 11, 13, 17, . . .
die Folge der Primzahlen oder
Herberger, Schön, Derwall, Beckenbauer, Vogts, . . . , Löw
die Folge der bisherigen deutschen Fußball-Bundestrainer (bzw. Teamchefs). Mathematisch
präzise führt man eine Folge als Funktion ein, deren Definitionsbereich die natürlichen Zahlen
sind.
Definition 5.1 Es sei eine beliebige Menge X 6= ∅ gegeben. Jede Abbildung a : N −→ X
heißt auch eine Folge in X. Die Funktionswerte a(n) schreibt man im Kontext von Folgen
meistens in der Form an , und man nennt sie die Folgenglieder oder die Glieder der Folge.
Für die Folge a sind Notationen wie
(an )n∈N ,
(an )n≥1 ,
(an )∞
n=1
(an )n ,
oder
a1 , a2 , a3 , . . .
gebräuchlich. Oft lässt man die Indizierung der Folgenglieder nicht bei 1, sondern bei einer
beliebigen Zahl n0 ∈ Z beginnen und nennt daher auch Abbildungen a : {n ∈ Z | n ≥
n0 } −→ X Folgen in X.
Die so definierten Folgen sind unendliche, d.h. nicht abbrechende Folgen. Die endliche Folge
Herberger, Schön, . . . , Löw
der bisherigen Bundestrainer ist also keine Folge im soeben definierten Sinne. Formal sind
Folgen zwar als Abbildungen eingeführt, diese Sichtweise steht aber in der Praxis nicht im
Vordergrund; vielmehr ist die anschauliche Vorstellung einer Auflistung oft hilfreicher.
Beispiel 5.2
(1) Es sei an := c für alle n ∈ N mit einem c ∈ R. Dann ist (an )n die konstante Folge
c, c, c, c, c, c, . . . .
(2) Es sei an :=
1
n
für alle n ∈ N. Dies liefert die sog. harmonische Folge 1, 12 , 13 , 41 , . . . .
(3) Es sei an := (−1)n für alle n ∈ N. Damit ergibt sich die Folge −1, +1, −1, +1,
−1, +1, −1, +1, . . . , deren Folgenglieder alternierendes Vorzeichen besitzen.
57
(4) Es sei an := 2n für alle n ∈ N. Dann ist (an )n die Folge der Zweierpotenzen
2, 4, 8, 16, 32, 64, . . . .
(5) Wenn wir a1 = a2 := 1 setzen und an+1 für n ≥ 2 rekursiv17 durch
an+1 := an + an−1
erklären, erhalten wir die Folge
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, . . .
der sog. Fibonacci-Zahlen18 .
Bemerkung 5.3
(1) Wichtig ist, eine Folge (an )n≥1 von der Menge {an | n ∈ N} ihrer Folgenglieder zu unterscheiden19 . Beispielsweise umfasst die Folge der bisherigen US-Präsidenten (die, da
sie endlich ist, strenggenommen ebenfalls gar keine Folge im oben definierten Sinne ist)
derzeit 44 Folgenglieder, die Menge der bisherigen US-Präsidenten hat jedoch nur 43
Elemente. Dies liegt daran, dass Grover Cleveland zweimal mit einer Unterbrechung
von vier Jahren (nämlich 1885-1889 und 1893-1897) Präsident war und daher sowohl
als 22. als auch als 24. US-Präsident gezählt wird. Ein mathematisches Beispiel liefert
die konstante Folge (an )n mit an := 2011 für alle n; sie hat unendliche viele Folgenglieder, die alle gleich sind, so dass die Menge der Folgenglieder nur ein Element, nämlich
2011, enthält.
17
Das Wesen der Rekursion illustriert folgende Karikatur von Jens Jordan:
18
Sie ist nach Leonardo von Pisa (ca. 1180 – ca. 1250, mit Spitznamen Fibonacci) benannt, der diese Folge
in einem stark vereinfachten (und daher realitätsfernen) Modell zur Beschreibung des Wachstums einer
Population von (als unsterblich angenommenen!) Kaninchen verwendete. Die Fibonacci-Zahlen treten auch
vielerorts in der Natur auf (z.B. in den spiralförmigen Mustern der Ananas oder Sonnenblume). Wir werden
später sehen, dass die Verhältnisse aufeinanderfolgender Fibonacci-Zahlen besonders gute Approximationen
für den Goldenen Schnitt darstellen.
19
Manche Autoren schreiben Folgen in der Form {an }n . Aufgrund der Verwechslungsgefahr mit der Menge
der Folgenglieder vermeiden wir diese Notation.
58
(2) Warnung: Die oben verwendete Pünktchenschreibweise“ für Folgen (wie z.B. in
”
2, 3, 5, 7, 11, 13, 17, . . . ) ist mit einer gewissen Vorsicht zu verwenden; man sollte
sich ihrer nur bedienen, wenn aus der Angabe einiger weniger Anfangsglieder wirklich
unzweideutig klar wird, welches Bildungsgesetz der Folge zugrundeliegt20 .
5.2
Der Begriff der Konvergenz
Wir beschäftigen uns vor allem mit Folgen von reellen Zahlen, gelegentlich auch mit Folgen
in den Räumen Rn und Cn oder in allgemeineren metrischen Räumen. Manche dieser Folgen
haben die Eigenschaft, dass ihre Glieder sich einem bestimmten Wert a mehr und mehr
”
annähern“. Dieser Wert heißt dann der Grenzwert der Folge, und die Folge heißt konvergent
(gegen diesen Grenzwert). Der Begriff der Konvergenz ist der zentrale Begriff der Analysis
und macht ihr eigentliches Wesen aus.
Unsere erste Aufgabe ist es, eine präzise Definition für diesen Begriff zu geben. Wir beginnen
mit einigen Beispielen.
Beispiel 5.4
(1) Es sei an :=
n
n+1
für alle n ∈ N. Die ersten Glieder dieser Folge sind
1 2 3 4 5 6 7
, , , , , , ,....
2 3 4 5 6 7 8
Diese nähern sich immer mehr dem Wert 1 an. Es ist zu erwarten, dass diese Folge
gegen 1 konvergiert.
(2) Die Folge (an )n in R sei rekursiv definiert durch
1
2
a1 := 2
und
an+1 :=
an +
für n ≥ 1.
2
an
Die Berechnung einiger Folgenglieder
577
= 1, 4142 . . . , . . .
408
√
lässt vermuten, dass diese Folge konvergiert und den Grenzwert 2 hat. Wir werden
in Satz 6.5 zeigen, dass diese Vermutung
zutrifft. Tatsächlich ist die Folge (an )n sogar
√
besonders gut zur Berechnung von 2 geeignet.
a2 =
3
= 1, 5 ,
2
a3 =
17
= 1, 416 . . . ,
12
20
a4 =
Dass aus der Vorgabe einiger weniger (insbesondere endlich vieler) Anfangsglieder einer Folge keineswegs
logisch zwingend auf ein eindeutiges (!) Bildungsgesetz geschlossen werden kann, dem alle weiteren (unendlich
vielen) Folgenglieder gehorchen, ist häufig gerade den Verfassern sog. IQ-Tests offenbar nicht bewusst. In
solchen Tests könnte beispielsweise danach gefragt werden, wie die Folge 27, 11, 29, 29, 13, . . . fortzusetzen
sei, und wahrscheinlich würde als richtige“ Antwort 27, 11, 29, 29, 13, 31, 31, 15, 33, 33, 17, 35, . . .
”
erwartet. Aber man könnte die Folge auch so fortführen: 27, 11, 29, 29, 13, 4, 1, 13, . . . , wenn man sie
nämlich als Folge der Geburtstage der in der Vorrunden-Partie Deutschland – Australien bei der Fußball-WM
2010 eingesetzten deutschen Nationalspieler interpretiert; diese waren: M. Neuer (geboren am 27.3.1986),
P. Lahm (11.11.1983), P. Mertesacker (29.9.1984), A. Friedrich (29.5.1979), H. Badstuber (13.3.1989), S.
Khedira (4.4.1987), B. Schweinsteiger (1.8.1984), T. Müller (13.9.1989),. . . .
59
(3) Wir betrachten eine konstante Folge: Für ein a ∈ R und alle n ∈ N sei an := a. Diese
Folge ist konvergent mit dem Grenzwert a. Die Redeweise, wonach sich die Folgenglieder dem Grenzwert mehr und mehr annähern“, passt nicht recht auf dieses Beispiel:
”
Sie nähern sich nicht an, sie sind schon angekommen“.
”
(4) Es sei an := (−1)n · (1 + n1 ). Die Anfangsglieder dieser Folge sind
−2 ,
4 5
6 7
3
, − , , − , ,... .
2
3 4
5 6
Die Folgenglieder streben abwechselnd gegen 1 beziehungsweise −1“. Diese Folge ist
”
nicht konvergent. Beispiele dieser Art geben in Abschnitt 6.2 Anlass zur Betrachtung
von Teilfolgen und zur Definition von Häufungswerten.
(5) Die Folge der Primzahlen
2, 3, 5, 7, 11, 13, 17, . . .
wächst unbeschränkt an. Eine solche Folge ist nicht konvergent.
Wie können wir die anschauliche Vorstellung der Konvergenz mathematisch präzisieren?
Was meinen wir damit, wenn wir sagen, dass die Folge (an )n gegen a konvergiert? Wir geben
einige verbale Umschreibungen dieses Sachverhalts, die sukzessive immer präziser werden –
bis wir schließlich bei einer mathematisch verwertbaren Definition angelangt sind:
• Man könnte sagen: (an )n konvergiert gegen a, wenn für genügend großes“ n der Grenz”
wert a hinreichend gut“ durch an approximiert wird.
”
Hier stellt sich die Frage: Was heißt genügend groß“ und hinreichend gut“?
”
”
• Es wird eine gewisse Abweichung bzw. Fehlertoleranz ε > 0 für die Abweichung zwischen an und a vorgegeben, die (aus welchen Gründen auch immer) als gerade noch
erträglich für die Zwecke der jeweiligen Betrachtung angesehen wird. Dann sollte sich
an ab einem gewissen, hinreichend großen Index um weniger als ε vom Grenzwert a
unterscheiden. Es soll also ein N ∈ N geben, so dass |an − a| < ε für alle n ≥ N gilt.
• Es stellt sich nun die Frage, wie groß diese Fehlertoleranz ε zu wählen ist. Wesentlich
für den Grenzwertprozess ist, dass man mit an dem Grenzwert a beliebig nahe kommen
kann, dass also jedes beliebig kleine ε > 0 zulässig ist21 . Es soll also zu jedem ε > 0
ein N ∈ N geben, so dass |an − a| < ε für alle n ≥ N gilt. Dieses N wird i. Allg.
natürlich von ε abhängen; es wird immer größer gewählt werden müssen, je kleinere
Fehlertoleranzen ε > 0 man vorgibt, je ambitionierter“ die Approximation also sein
”
soll. Um diese Abhängigkeit von ε zum Ausdruck zu bringen, könnten wir z.B. Nε
schreiben.
Damit sind wir bei der angestrebten Präzisierung des Konvergenzbegriffs angelangt.
21
In Anwendungen der Mathematik (in der Numerik, Physik oder den Ingenieurwissenschaften) würde man
sich vermutlich mit einer festen, je nach angestrebter Genauigkeit
der jeweiligen Untersuchung hinreichend
√
klein gewählten Fehlertoleranz ε begnügen – falls man z.B. 2 auf 20 Dezimalstellen genau approximieren
will. Dem Wesen der Konvergenz, dass man nämlich dem Grenzwert unendlich nahe kommen will, wird dies
nicht gerecht.
60
Definition 5.5 Es sei (an )n≥1 eine Folge von reellen Zahlen. Diese heißt konvergent,
falls es eine reelle Zahl a gibt, so dass zu jeder Zahl ε > 0 ein Nε ∈ N existiert mit |an −a| < ε
für alle n ≥ Nε . Man sagt dann, dass (an )n gegen a konvergiert und nennt die Zahl a den
Grenzwert oder den Limes der Folge, und man schreibt
a = lim an
n→∞
an → a
oder auch
für n → ∞ .
Die Definition der Konvergenz von (an )n gegen a lautet in Quantorenschreibweise
∀ ε>0 ∃ Nε ∈N ∀ n≥Nε |an − a| < ε .
Wenn eine Folge nicht konvergent ist, dann heißt sie divergent.
Bemerkung 5.6
(1) Der Vorteil der (anfangs sicherlich etwas gewöhnungsbedürftigen) Quantorenschreibweise liegt darin, dass sie logisch komplexe Aussagen sauber zu strukturieren vermag.
Dies ist insbesondere von Vorteil, wenn man solche Aussagen negieren will und man
ansonsten Gefahr laufen würde, sich hoffnungslos zu verheddern. Hier ist die generelle
Regel, dass man eine Negation an einem Quantor vorbeiziehen“ kann, sofern man
”
dabei die Rolle von Existenz- und Allquantor vertauscht. Etwas präziser:
Es sei X eine Menge, und für alle x ∈ X sei A(x) eine Aussage. Dann gelten die
folgenden (nur kompliziert aussehenden, aber eigentlich unmittelbar einleuchtenden)
Äquivalenzen
¬∃x∈X A(x)
¬∀x∈X A(x)
⇐⇒
⇐⇒
∀x∈X ¬A(x);
∃x∈X ¬A(x).
(5.1)
(5.2)
In Worten: (5.1) Genau dann gibt es kein x ∈ X, so dass A(x) gilt, wenn für alle x ∈ X
die Aussage A(x) falsch ist. (5.2) Genau dann gilt A(x) nicht für alle x ∈ X, wenn es
ein x ∈ X gibt, für das A(x) nicht gilt.
Beispiel: Wir möchten folgende Aussage negieren: In jeder Galaxie gibt es einen Planeten, auf dem es in jedem Land eine Stadt gibt, deren sämtliche Bewohner mindestens
einmal eine Analysis-Vorlesung oder eine Lineare-Algebra-Vorlesung besucht haben.
Hierzu sei A(b) die Aussage Bewohner b hat mindestens einmal eine Analysis”
Vorlesung besucht“, und L(b) die Aussage Bewohner b hat mindestens einmal eine
”
Lineare-Algebra-Vorlesung besucht“. Um eine griffige Schreibweise zur Verfügung zu
haben, betrachten wir die Planeten als Elemente der Galaxien, die Länder als Elemente der Planeten, die Städte als Elemente der Länder und die Bewohner als Elemente
der Städte. Die Galaxien selbst werden als Elemente des Universums U angesehen. Damit lautet die angegebene Aussage in (einer pseudo-mathematischen, aber intuitiven)
Quantorenschreibweise
∀G∈U ∃P ∈G ∀L∈P ∃S∈L ∀b∈S (A(b) ∨ L(b)).
Die Negation dieser Aussage lässt sich nun in den folgenden äquivalenten Formen
ausdrücken:
61
¬ ∀G∈U ∃P ∈G ∀L∈P ∃S∈L ∀b∈S (A(b) ∨ L(b))
⇐⇒ ∃G∈U ∀P ∈G ∃L∈P ∀S∈L ∃b∈S ¬(A(b) ∨ L(b))
⇐⇒ ∃G∈U ∀P ∈G ∃L∈P ∀S∈L ∃b∈S (¬A(b) ∧ ¬L(b))
Die Negation der angegebenen Aussage lautet also: Es gibt eine Galaxie, in der es
”
auf jedem Planeten ein Land gibt, in dessen sämtlichen Städten jeweils mindestens
ein Bewohner lebt, der noch nie eine Analysis- und noch nie eine Lineare-AlgebraVorlesung gehört hat.“
Warnung: Das Vertauschen der Reihenfolge von All- und Existenzquantoren ist nicht
zulässig.
Beispiel: Es sei M die Menge aller Männer und F die Menge aller Frauen. Es sei
B(m, f ) := m hat eine Beziehung mit f“.
”
Dann haben die beiden Aussagen
∀m∈M ∃f ∈F B(m, f )
und
∃f ∈F ∀m∈M B(m, f )
offensichtlich krass unterschiedliche Bedeutung.
(2) In der Konvergenzdefinition haben wir die Notation Nε verwendet, um zu betonen,
dass N von ε abhängt. Es ist jedoch logisch ebenso korrekt, statt Nε lediglich N zu
schreiben. Die Definition der Konvergenz von (an )n gegen a sieht dann so aus:
∀ ε>0 ∃ N ∈N ∀ n≥N |an − a| < ε .
In der Praxis verwenden wir meist letztere Schreibweise und unterdrücken in der Notation die Abhängigkeit des N von ε. Statt N oder Nε schreibt man häufig22 auch
n0 .
(3) Dass eine Folge (an )n nicht gegen a konvergiert (also entweder divergiert oder gegen
einen Grenzwert 6= a konvergiert), lässt sich aufgrund von (1) wie folgt schreiben:
∃ ε>0 ∀ N ∈N ∃ n≥N |an − a| ≥ ε .
(4) Warnung: Einer der häufigsten Anfängerfehler im Umgang mit der Definition von
Konvergenz besteht darin, diese mit den Worten Es existiert ein ε > 0 . . .“ einzuleiten.
”
Wie oben erläutert, ist es aber gerade das Entscheidende an der Konvergenz, dass man
den Abstand |an − a| für jedes ε > 0 unter die Fehlertoleranz ε drücken“ kann, wenn
”
man nur n hinreichend groß wählt.
(5) Und noch eine Warnung: Der Begriff der Folge ist sehr allgemein und lässt auch
völlig regellose Beispiele zu. Nur den allerwenigsten Folgen wird die Eigenschaft der
Konvergenz zukommen. Gerade diesen Folgen gehört unser größtes Interesse. Dies sollte
allerdings nicht zu dem Fehlschluss verleiten, Folgen grundsätzlich für konvergent zu
halten.
22
Welche Variablennamen man benutzt, ist letztlich eine Frage der guten Einprägbarkeit, der im jeweiligen
Gebiet üblichen Konvention und auch des persönlichen Geschmacks. Mathematisch wäre es beispielsweise
völlig korrekt, die Konvergenzdefinition wie folgt zu schreiben: ∀ N >0 ∃ x∈N ∀ f ≥x |af − a| < N . Dies würde
allerdings mit hoher Wahrscheinlichkeit zu heilloser Konfusion führen. . . .
62
(6) Das Konvergenzverhalten einer Folge hängt nur von den Endstücken“ der Folge ab:
”
Man kann beliebig viele Anfangsglieder der Folge abändern, ohne an der Konvergenz
bzw. Divergenz oder ggf. am Grenzwert etwas zu ändern.
(7) In der Konvergenzdefinition darf man die Bedingung |an − a| < ε“ ohne weiteres
”
durch |an − a| ≤ ε“ ersetzen. Ebenso kann man sie für jedes feste C > 0 durch
”
|a − a| < C · ε“ ersetzen.
” n
Beispiel 5.7
(1) Es sei an :=
1
n
für alle n ∈ N. Wir erwarten selbstverständlich
1
=0
n→∞ n
lim
und beweisen das folgendermaßen. Es sei eine beliebige reelle Zahl ε > 0 gegeben. Nach
dem Satz von Eudoxos (Satz 2.35) existiert dann eine natürliche Zahl N mit 1/N < ε.
Für alle n ≥ N folgt
1
− 0 = 1 ≤ 1 < ε .
n
n
N
Dies war zu zeigen.
(2) Es sei a ∈ R und an := a für alle n ∈ N. Zum Beweis der Konvergenz einer solchen
konstanten Folge denken wir uns eine Zahl ε > 0 gegeben. Wir können N = 1 wählen.
Für alle n ≥ 1 gilt nämlich |an − a| = 0 < ε. Damit ist limn→∞ an = a gezeigt. Wir
schreiben hierfür
lim a = a .
n→∞
Der Begriff der Konvergenz lässt sich mühelos auf Folgen in beliebigen metrischen Räumen
übertragen, insbesondere also auf Folgen in C, Rm oder in Cm . Wir müssen lediglich den
Abstand |an − a| in R durch den Abstand d(an , a) in der jeweiligen Metrik d ersetzen.
Definition 5.8 Es sei (X, d) ein metrischer Raum. Eine Folge (xn )n≥1 in X heißt konvergent mit dem Grenzwert oder dem Limes x ∈ X, falls es zu jeder reellen Zahl ε > 0
eine natürliche Zahl Nε gibt mit d(xn , x) < ε für alle n ≥ Nε . In Quantorenschreibweise:
∀ ε>0 ∃ Nε ∈N ∀ n≥Nε d(xn , x) < ε .
Man schreibt dann
lim xn = x
n→∞
oder auch
xn → x für n → ∞.
Wenn eine Folge in X nicht konvergent ist, dann heißt sie divergent.
Selbstverständlich erwarten wir, dass der Grenzwert einer konvergenten Folge eindeutig bestimmt ist, so dass der Gebrauch des bestimmten Artikels für den Grenzwert berechtigt ist.
Dies ist der Inhalt der folgenden Proposition.
63
Proposition 5.9
einen Grenzwert.
Eine Folge (xn )n≥1 in einem metrischen Raum (X, d) besitzt höchstens
Beweis. Es sei (xn )n≥1 eine Folge in X, und x, y ∈ X seien Grenzwerte dieser Folge. Es sei
eine beliebige Zahl ε > 0 gegeben. Dann ist auch 2ε > 0. Nach Definition des Grenzwerts gibt
es also natürliche Zahlen N1 und N2 , so dass die Ungleichungen
d(xn , x) <
ε
2
für alle n ≥ N1
und
d(xn , y) <
ε
2
für alle n ≥ N2
gelten. Wir setzen N := max{N1 , N2 }. Für alle n ≥ N folgt dann mit der Dreiecksungleichung
ε ε
d(x, y) ≤ d(x, xn ) + d(xn , y) < + = ε .
2 2
Für jede reelle Zahl ε > 0 gilt also 0 ≤ d(x, y) < ε. Hieraus folgt d(x, y) = 0. Aufgrund von
Axiom (M1) in der Definition 4.1 von metrischen Räumen hat dies x = y zur Folge. Also ist
der Grenzwert von (xn )n eindeutig bestimmt.
5.3
Regeln für Grenzwerte
Oben haben wir die Folge der Primzahlen erwähnt und ihre Divergenz damit begründet,
dass ihre Glieder unbeschränkt anwachsen. Diese Beobachtung führt zu einer notwendigen
Bedingung für Konvergenz.
Definition 5.10 Eine Folge (xn )n≥1 in Rm oder in Cm heißt beschränkt, falls es eine
reelle Zahl M > 0 gibt, so dass ||xn || ≤ M für alle n ∈ N gilt.
Allgemeiner nennt man eine Folge (xn )n≥1 in einem metrischen Raum (X, d) beschränkt,
falls es ein M > 0 und ein a ∈ X gibt, so dass d(xn , a) ≤ M für alle n ∈ N gilt.
Proposition 5.11
schränkt.
Jede konvergente Folge in einem metrischen Raum (X, d) ist be-
Beweis. Es sei (xn )n≥1 eine konvergente Folge in X, und es sei x = limn→∞ xn ihr Grenzwert.
Es sei a ∈ X beliebig. Die Definition der Konvergenz liefert für ε = 1 die Existenz eines
N ∈ N mit d(xn , x) < 1 für alle n ≥ N . Wir setzen
M := max{1 + d(x, a), d(x1 , a), d(x2 , a), . . . , d(xN , a)}.
Für alle n ≥ N gilt dann
d(xn , a) ≤ d(xn , x) + d(x, a) < 1 + d(x, a) ≤ M.
Nach Definition von M gilt d(xn , a) ≤ M auch für alle n = 1, . . . , N . Daher folgt d(xn , a) ≤
M für alle n ∈ N. Mithin ist (xn )n beschränkt.
64
Aus konvergenten Folgen lassen sich durch algebraische Operationen neue konvergente Folgen
gewinnen. Das wird im nächsten Satz festgestellt.
Satz 5.12
Es seien (an )n≥1 und (bn )n≥1 konvergente Folgen in R oder in C, und es sei
a = limn→∞ an und b = limn→∞ bn . Dann gelten die folgenden Aussagen.
(1) Die Folge (an + bn )n≥1 konvergiert. Sie hat den Grenzwert
lim (an + bn ) = a + b .
n→∞
(2) Die Folge (an bn )n≥1 konvergiert. Sie hat den Grenzwert
lim (an bn ) = ab .
n→∞
(3) Es sei a 6= 0. Dann gibt es ein n0 ∈ N mit an 6= 0 für alle n ≥ n0 . Die Folge
ist konvergent, und sie hat den Grenzwert limn→∞
1
an
1
an
= a1 .
n≥n0
Die Aussage (1) gilt auch für Folgen in Rm oder in Cm .
Beweis.
(1) Es sei ein ε > 0 gegeben. Dazu existieren natürliche Zahlen N1 und N2 mit
|an − a| <
ε
2
für alle n ≥ N1
und
|bn − b| <
ε
2
für alle n ≥ N2 .
Für alle n ≥ N := max{N1 , N2 } folgt
|(an + bn ) − (a + b)| = |(an − a) + (bn − b)| ≤ |an − a| + |bn − b| <
ε ε
+ = ε.
2 2
Damit ist (1) bewiesen. Die Überlegung bleibt fast wörtlich auch für Folgen von Vektoren in Rm oder Cm gültig; wir müssen nur überall die Absolutbeträge | . | durch die
Normen || . || ersetzen.
(2) Nach Proposition 5.11 gibt es eine Konstante C > 0, so dass |an | ≤ C und |bn | ≤ C für
alle n sowie auch |a| ≤ C und |b| ≤ C gilt. Es sei ein ε > 0 gegeben. Dazu existieren
natürliche Zahlen N1 und N2 mit
|an − a| <
ε
2C
für alle n ≥ N1
und
|bn − b| <
ε
2C
Für alle n ≥ N := max{N1 , N2 } folgt dann
|an bn − ab| = |an bn − an b + an b − ab|
≤ |an | · |bn − b| + |b| · |an − a|
ε
ε
< C·
+C ·
= ε.
2C
2C
Damit ist (2) bewiesen.
65
für alle n ≥ N2 .
(3) Es sei a 6= 0. Dann gibt es (zu ε := 12 |a| > 0) ein n0 ∈ N mit |an − a| < 21 |a| für alle
n ≥ n0 . Es ist dann nach der umgekehrten Dreiecksungleichung auch
1
1
|an | = |a − (a − an )| ≥ |a| − |an − a| > |a| − |a| = |a| > 0
2
2
für alle n ≥ n0 . (5.3)
Insbesondere ist an 6= 0 für alle n ≥ n0 , womit die erste Behauptung bewiesen ist.
Es sei ein beliebiges ε > 0 gegeben. Dazu gibt es ein n1 ∈ N mit |an − a| < 12 ε|a|2 für
alle n ≥ n1 . Für alle n ≥ N := max {n0 , n1 } folgt an 6= 0 und wegen (5.3) weiter
1
1
− = 1 · |an − a| < 2 · ε |a|2 = ε .
an a |aan |
|a|2 2
Damit ist auch (3) bewiesen.
Bemerkung 5.13
Die Konvergenzbeweise lassen ein geradezu rituelles Muster erkennen,
das von der Definition des Konvergenzbegriffes gefordert wird. Gemäß der Formel
∃ a∈R ∀ ε>0 ∃ Nε ∈N ∀ n≥Nε |an − a| < ε
muss zuerst der Grenzwert a gefunden werden. Das kann ein ernstes Problem sein. Manchmal
kann man a erraten, etwa durch Berechnung einiger Folgenglieder. In Satz 5.12 (und ebenso
in einigen der folgenden Sätze) blieb das Problem verborgen, weil in den Behauptungen die
Grenzwerte einfach mitgeteilt wurden. Im zweiten Schritt wird eine Toleranz ε > 0 vorgegeben. Der dritte Schritt ist das Auffinden eines passenden Nε , und dies verlangt wiederum
Kreativität. Wenn man sich obigen Beweis durchliest, wirkt die Wahl von Nε vielleicht trickreich und unmotiviert und damit entmutigend. Tatsächlich geht man heuristisch meist in
anderer Reihenfolge vor und überlegt sich zuerst, warum und wie schnell die Differenzbeträge |an − a| klein werden. Nach erfolgreicher Abschätzung kann man dann sagen, wie das
Nε in Abhängigkeit von ε zu wählen ist.
Leicht zu beweisen, aber von großem Wert in der Praxis sind die im nächsten Satz zusammengefassten Regeln.
Satz 5.14 In R seien zwei konvergente Folgen (an )n und (cn )n sowie eine weitere Folge
(bn )n gegeben.
(1) Gilt an ≤ cn für alle n ∈ N, so folgt limn→∞ an ≤ limn→∞ cn .
(2) (Sandwich-Theorem, Carabinieri-Lemma“) Haben (an )n und (cn )n denselben
”
Grenzwert s und gilt an ≤ bn ≤ cn für alle n ∈ N, so ist auch (bn )n konvergent gegen s.
(3) Ist (an )n eine konvergente Folge in Cm , so ist auch die Folge (||an ||)n ihrer euklidischen
Normen konvergent mit
lim ||an || = || lim an ||.
n→∞
n→∞
Beweis. Aufgabe 7.3
66
Wir können jetzt auch das Intervallschachtelungsprinzip aus Satz 2.24 in eine neue, aber zur
früheren äquivalente Form bringen.
Satz 5.15 (Prinzip der Intervallschachtelung)
Die Folge (In )n≥1 der Intervalle In =
[an , bn ] sei eine Intervallschachtelung.
Für die hierdurch gemäß Satz 2.24 eindeutig festgelegte
T
reelle Zahl c ∈ ∞
I
gilt
dann
n=1 n
lim an = lim bn = c .
n→∞
n→∞
Beweis. Nach Definition einer Intervallschachtelung konvergiert (bn − an )n gegen Null. (Solche Folgen bezeichnet man auch als Nullfolgen.) Für alle n gilt c ∈ In , also an ≤ c ≤ bn .
Damit ergibt sich
|an − c| ≤ |bn − an | → 0 (n → ∞),
|bn − c| ≤ |bn − an | → 0 (n → ∞).
Dies zeigt limn→∞ an = c und limn→∞ bn = c.
Fragen über die Konvergenz von Folgen in Rm oder in Cm können prinzipiell stets auf
Konvergenzfragen über Folgen in R zurückgeführt werden. Wir dürfen uns also auf Folgen
von reellen Zahlen konzentrieren. Das ist der Inhalt des folgenden Satzes.
Satz 5.16
Es sei (an )n≥1 eine Folge in Rm oder in Cm , und es sei an = (an1 , . . . , anm ).
Dann gelten die folgenden Aussagen.
(1) Die Folge (an )n≥1 ist genau dann konvergent, wenn für alle j = 1, . . . , m die Komponentenfolgen (anj )n≥1 konvergieren.
(2) Es gilt limn→∞ an = c = (c1 , . . . , cm ) genau dann, wenn limn→∞ anj = cj für alle
j = 1, . . . , m ist.
(3) Eine Folge (zn )n≥1 in C konvergiert genau dann, wenn die beiden Folgen (Re zn )n≥1
und (Im zn )n≥1 in R konvergieren. In diesem Fall gilt
lim zn = lim Re zn + i · lim Im zn .
n→∞
n→∞
n→∞
Beweis. Es sei x = (x1 , . . . , xm ) ein Vektor in Rm oder in Cm . Für alle j = 1, . . . , m gelten
dann die Ungleichungen
m
X
|xj | ≤ ||x|| ≤
|xk | .
k=1
2
Pm
2
2
Die erste folgt aus ||x|| = k=1 |xk | ≥ |xj | . Die zweite folgt aus der Dreiecksungleichung,
indem man x als Summe der m Vektoren (0, . . . , 0, xk , 0, . . . , 0) schreibt, worin xk an der
k-ten Stelle steht.
Wir zeigen zunächst (2). Hierzu sei limn→∞ an = c = (c1 , . . . , cm ) vorausgesetzt. Zu jedem
ε > 0 gibt es also ein N ∈ N mit ||an − c|| < ε für alle n ≥ N . Für alle diese n und alle
j = 1, . . . , m folgt dann |anj − cj | ≤ ||an − c|| < ε. Für alle j = 1, . . . , m ergibt sich damit
limn→∞ anj = cj .
Jetzt wird umgekehrt vorausgesetzt, dass für jedes j = 1, . . . , m die Folge (anj )n einen
Grenzwert limn→∞ anj = cj besitzt. Wir setzen c := (c1 , . . . , cm ). Es sei eine beliebige Zahl
67
ε > 0 gegeben. Zu jedem j = 1, . . . , m gibt es dann nach Voraussetzung ein Nj ∈ N mit
|anj − cj | < mε für alle n ≥ Nj . Wir setzen N := max{N1 , . . . , Nm }. Für alle n ≥ N folgt
dann
m
X
ε
||an − c|| ≤
= ε.
|anj − cj | < m ·
m
j=1
Also ist limn→∞ an = c.
Damit ist die Behauptung (2) und insbesondere auch (1) bewiesen. Indem man zn ∈ C mit
(Re zn , Im zn ) ∈ R2 identifiziert, folgt auch (3).
5.4
Einige wichtige Grenzwerte
Satz 5.17
(1) Für jedes k ∈ N gilt
1
lim √
= 0.
k
n
n→∞
(2) Es gilt limn→∞
√
n
n = 1.
(3) Für jedes q ∈ C mit |q| < 1 gilt limn→∞ q n = 0.
(4) Für jedes k ∈ N0 und jedes q ∈ C mit |q| < 1 gilt
lim (nk · q n ) = 0 .
n→∞
Beweis.
(1) Zur Gewöhnung an das typische Vorgehen bei Konvergenzbeweisen beginnen wir sehr
ausführlich:
Wir haben zu zeigen, dass zu jedem vorgegebenen ε > 0 ein N existiert,
√1
so dass k n − 0 < ε für alle n ≥ N gilt.
1
Dazu stellen wir folgende heimliche“ Vorüberlegung an: √
−
0
< ε bedeutet dasselbe
k n
”
wie n1 < εk , d.h. wie n > ε1k . Es wird also reichen, ein N ∈ N mit N > ε1k zu finden.
Diese Vorüberlegung schreibt man in aller Regel nicht auf, sondern lässt das fragliche N
gewissermaßen vom Himmel fallen - oftmals zur Verblüffung oder auch Verärgerung des
geneigten Lesers“. Das kann dann wie folgt aussehen:
”
Es sei eine Zahl ε > 0 gegeben. Dann gibt es (nach dem archimedischen Axiom, Satz
2.33) ein N ∈ N mit N > ε1k . Für alle natürlichen Zahlen n ≥ N gilt dann
√
1
√ − 0 = √1 ≤ √1 < k εk = ε.
k
kn
k
n
N
Damit ist (1) bewiesen.
68
(2) Zum Beweis von (2) verwenden wir die Ungleichung zwischen dem arithmetischen und
geometrischen Mittel (Satz 1.9). Für n ≥ 2 schreiben wir
√ 2
n = 1n−2 · n
√
als Produkt von n − 2 Faktoren, die alle 1 sind, und zwei Faktoren n. Die genannte
Ungleichung ergibt dann
q
√ √
√ √
1
2
2
n
n
n = 1n−2 n n ≤ · (n − 2) · 1 + 2 · n = 1 + √ − ,
n
n n
also
√
n
2
2
n≤1+ √ − .
n n
Der Ausdruck auf der rechten Seite hat (wegen (1) und der Rechenregeln aus Satz
5.12) den Grenzwert √
1 für n → ∞. Damit und mit dem Sandwich-Theorem folgt die
Behauptung limn→∞ n n = 1.
1<
(3) Da (3) ein Spezialfall von (4) ist (mit k = 0), genügt es eigentlich, (4) nachzuweisen.
Wir geben dennoch einen eigenen Beweis für (3), da dieser etwas besser verständlich
ist als der für die allgemeinere Situation in (4).
Für q = 0 ist (3) klar. Wir dürfen also q 6= 0 voraussetzen. Dann ist 0 < |q| < 1, also
1
= 1 + h mit einem gewissen h > 0. Hieraus und aus der Bernoullischen Ungleichung
|q|
(Satz 1.2) folgt
1
1
1
|q n − 0| = |q|n =
≤
<
.
n
(1 + h)
1 + nh
nh
Es sei eine Zahl ε > 0 gegeben. Wegen limn→∞
für alle n ≥ N . Für alle diese n folgt
|q n | <
1
n
= 0 gibt es ein N ∈ N mit
1
n
< hε
1
1
< · hε = ε.
nh
h
Damit ist limn→∞ q n = 0 bewiesen.
(4) Für q = 0 ist (4) klar. Auch hier dürfen wir also 0 < |q| < 1 voraussetzen, und es ist
1
dann |q| = 1+h
mit einem h > 0. Wir verwenden den Binomischen Lehrsatz (Satz 1.6).
Er liefert die Abschätzung
n
n
n
k+1
n
(1 + h) = 1 + nh + . . . +
·h
+ ... + h >
· hk+1
k+1
k+1
für alle natürlichen Zahlen n ≥ k + 1. Für diese n folgt
|nk · q n | =
nk
<
(1 + h)n
nk
n
· hk+1
k+1
nk+1 · (k + 1)!
n · hk+1 · n · (n − 1) · . . . · (n − k)
(k + 1)!
1
·
=
1
k+1
h
n · 1 · 1 − n · 1 − n2 · . . . · 1 − nk
1
(k + 1)!
≤
· k+1
1
2
k
n h
· 1 − k+1 · 1 − k+1
· . . . · 1 − k+1
A
=
,
n
=
69
worin die letzte Gleichheit als Definition der Zahl A zu verstehen ist. Es ist A > 0.
Wichtig ist die Beobachtung, dass die Zahl A nicht von n abhängt. Es sei nun ein ε > 0
gegeben. Dann existiert eine natürliche Zahl N ≥ k + 1 mit An < ε für alle n ≥ N . Für
alle diese n folgt |nk q n | < ε. Es folgt limn→∞ nk q n = 0. Damit ist auch (4) bewiesen.
Beispiel 5.18
Mit den Rechenregeln in Satz 5.12 und aus bekannten Grenzwerten lassen
sich routinemäßig viele neue Grenzwerte berechnen. Ein Beispiel ist
√
n
3
1 + n · (3n2 + 1)
√
3 + n−2
n
3
lim
= lim
1+ n ·
n→∞
n→∞
(5n + 1)2
25 + 10n−1 + n−2
√ 3
limn→∞ (3 + n−2 )
=
1 + lim n n
·
n→∞
limn→∞ (25 + 10n−1 + n−2 )
3
6
= (1 + 13 ) ·
=
.
25
25
In diesem und in vielen ähnlichen Beispielen ist die Existenz des Grenzwerts nicht von
vornherein klar. Eigentlich dürfte man das Limeszeichen zu Beginn der Rechnung gar nicht
verwenden, sondern erst dann, wenn die Existenz des Grenzwerts nachgewiesen ist. Der Verstoß gegen dieses Prinzip ist jedoch zu tolerieren, sofern (!) die Existenz aus der Rechnung
hervorgeht. Rechnungen wie die soeben ausgeführte sind also letztlich von hinten nach vorne
zu interpretieren: Die Existenz der zuletzt auftauchenden Grenzwerte ist klar bzw. unproblematisch; diese rechtfertigt mithilfe der obigen Rechenregeln die Existenz der Grenzwerte
im Schritt davor usw.
70
6
Konvergenzkriterien für Folgen
Gemäß der Definition der Konvergenz in Abschnitt 5.2 muss man den Grenzwert einer Folge
kennen (oder zumindest erahnen), wenn man ihre Konvergenz beweisen will. Das ist oft
schwierig und manchmal sogar prinzipiell unerwünscht oder unmöglich, wenn man nämlich
z.B. eine neue Zahl mit Hilfe eines Grenzwertes definieren möchte. Ein Beispiel dieser Art
ist die Eulersche Zahl e. In solchen Fällen muss die Konvergenz der Folge bewiesen werden,
ohne dass man ihren Grenzwert kennt. Kriterien für diesen Zweck werden in diesem Kapitel
bewiesen.
6.1
Beschränkte und monotone Folgen
In Proposition 5.11 hatten wir gezeigt, dass jede konvergente Folge automatisch beschränkt
ist. Die Umkehrung muss keinesfalls gelten: Beschränkte Folgen brauchen nicht zu konvergieren. Ein Gegenbeispiel stellt die divergente, aber beschränkte Folge ((−1)n )n dar.
Setzt man allerdings zusätzlich zur Beschränktheit noch Monotonie voraus (was freilich eine
starke Einschränkung ist!), so kann man auf Konvergenz schließen.
Definition 6.1
Eine Folge (an )n≥1 von reellen Zahlen heißt



an ≤ an+1
monoton steigend 








an < an+1
streng monoton steigend
, falls

an ≥ an+1
monoton fallend 








a >a
streng monoton fallend
n
Bemerkung 6.2
für alle n ∈ N.
n+1
Ist die Folge (an )n≥1 monoton steigend, so folgt induktiv sofort
am ≤ an
für alle m, n ∈ N mit m < n,
und analoge Aussagen gelten auch für streng monoton steigende und für (streng) monoton
fallende Folgen.
Satz 6.3 (Monotonieprinzip)
Jede monotone beschränkte Folge (an )n≥1 von reellen
Zahlen konvergiert. Setzt man W = {an | n ∈ N}, so gilt limn→∞ an = sup W für monoton
steigende Folgen und limn→∞ an = inf W für monoton fallende Folgen.
Beweis. Nach Voraussetzung ist W eine beschränkte Teilmenge von R. Das Vollständigkeitsaxiom ergibt also, dass a = sup W und b = inf W existieren und reelle Zahlen sind. Wir
nehmen zunächst an, dass die Folge (an )n monoton steigt. Es sei eine Zahl ε > 0 gegeben.
Dazu gibt es nach Proposition 2.34 ein N ∈ N mit a − ε < aN ≤ a. Wegen der Monotonie
folgt hieraus a − ε < an für alle n ≥ N . Zudem ist an ≤ a für alle n ∈ N, da a obere Schranke
von W ist. Insgesamt gilt also a − ε < an ≤ a für alle n ≥ N .
Da dies für jedes ε > 0 gilt, folgt limn→∞ an = a. Für monoton fallende Folgen argumentiert
man analog.
71
Bemerkung 6.4
In Satz 6.3 kommt es im Fall von monoton steigenden Folgen auf die
Beschränktheit nach oben und im Fall von monoton fallenden Folgen auf die Beschränktheit nach unten an. Denn jede monoton steigende Folge (an )n ist automatisch nach unten
beschränkt (z.B. durch a1 ), und ebenso ist jede monoton fallende Folge automatisch nach
oben beschränkt. Die erste Aussage in Satz 6.3 kann man also auch wie folgt formulieren:
• Jede monoton steigende, nach oben beschränkte Folge reeller Zahlen konvergiert.
• Jede monoton fallende, nach unten beschränkte Folge reeller Zahlen konvergiert.
Als Anwendung von Satz 6.3 stellen wir ein Verfahren zur effizienten Berechnung von Quadratwurzeln vor.
Satz 6.5 (Heron-Verfahren oder babylonisches Wurzelziehen)
Es sei a > 0 eine
beliebige positive reelle Zahl. Mit einem Startwert x0 > 0 definieren wir eine Folge (xn )n≥0
rekursiv durch die Vorschrift
1
a
xn+1 := · xn +
2
xn
√
für n ≥ 0. Dann konvergiert (xn )n gegen a.
Beweis. Wir zeigen zunächst, dass (xn )n konvergiert. Den Grenzwert können wir dann
bestimmen, indem wir in der Rekursionsvorschrift auf beiden Seiten den Grenzübergang
n → ∞ ausführen und auf diese Weise eine Gleichung für den Grenzwert erhalten.
Aus x0 > 0 und der Rekursionsvorschrift ergibt sich induktiv xn > 0 für alle n. (Insbesondere
ist die Folge (xn )n wohldefiniert.)
Da xn+1 das arithmetische Mittel aus xn und xan darstellt, folgt aus der Ungleichung zwischen
arithmetischem und geometrischem Mittel (Satz 1.9)
r
√
a
= a
xn+1 ≥ xn ·
für alle n ≥ 0.
xn
√
Also ist xn ≥ a für alle n ≥ 1. Damit folgt weiter
1
1
a
xn+1 − xn = ·
− xn =
(a − x2n ) ≤ 0
2
xn
2xn
für alle n √≥ 1. Die Folge (xn )n≥1 ist also streng monoton fallend. Sie besitzt die untere
Schranke
a > 0. Nach Satz 6.3 existiert also der reelle Grenzwert x = limn→∞ xn . Es ist
√
x ≥ a > 0.
Wir bilden nun auf beiden Seiten der Rekursionsgleichung den Grenzwert. Das Schöne dabei
ist, dass mit limn→∞ xn = x auch limn→∞ xn+1 = x gilt. Damit ergibt sich
1
a
1 a
x = lim xn+1 = lim
xn +
= · x+
.
n→∞
n→∞ 2
xn
2
x
Eine solche Fixpunktgleichung“ für x ist oft nützlich zum Berechnen oder Erraten von
”
Grenzwerten, selbst wenn deren Existenz noch gar nicht gesichert ist. Wenn wir sie nach x
auflösen, erhalten wir nacheinander
√
a
a
2x = x + ,
also
x= ,
also
x2 = a,
also
x = a.
x
x
72
√
(Die Möglichkeit x = − a scheidet aus, da x > 0 ist.) Damit ist der √
Satz bewiesen.
(Tatsächlich haben wir hier auch die Existenz der reellen Quadratwurzel a unabhängig
von dem später folgenden Korollar 10.16 bewiesen.)
Das hier beschriebene Verfahren ist unempfindlich gegenüber (nicht allzu großen) Rechenfehlern: Eine fehlerhaft berechnete Iterierte xn kann als neuer Startwert verwendet werden.
Man kann zeigen, dass das Heron-Verfahren quadratisch konvergiert [Köhler, Satz 7.7]. Das
bedeutet, dass sich in jedem Schritt die Zahl der korrekten Dezimalstellen ungefähr verdoppelt, sofern man mit einer hinreichend guten Näherung x0 startet. Dies hat einen erheblichen
praktischen Nutzen: Tippt man auf einem Taschenrechner auf die Wurzeltaste, so liefert dieser so gut wie augenblicklich eine Näherung für die gesuchte Quadratwurzel. Eine Möglichkeit
zur schnellen Berechnung besteht in der Anwendung des Heron-Verfahrens.
6.2
Häufungswerte und der Satz von Bolzano-Weierstraß
Aus dem letzten Abschnitt wissen wir, dass beschränkte monotone Folgen reeller Zahlen konvergieren. Beschränktheit alleine reicht hingegen nicht aus für Konvergenz. Allerdings kann
man, wie wir in diesem Abschnitt sehen werden, aus beschränkten Folgen stets konvergente
Teilfolgen aussondern. Dies ist der Inhalt eines der ganz wichtigen Resultate der Analysis,
des Satzes von Bolzano-Weierstraß23 .
Beispiel 6.6
In Beispiel 5.4 (4) hatten wir die Folge der Zahlen an := (−1)n · (1 + n1 )
betrachtet. Sie ist divergent. Allerdings gibt es zwei Werte, nämlich 1 und −1, denen sich
die Folgenglieder abwechselnd annähern, bei denen sie sich häufen“. Betrachtet man nur
”
die Folgenglieder a2n mit geradem Index, so streben diese für n → ∞ gegen +1, während die
Glieder a2n+1 mit ungeradem Index gegen −1 streben. Es gibt also konvergente Teilfolgen
mit verschiedenen Grenzwerten.
Dieses Beispiel motiviert die folgenden Begriffsbildungen.
Definition 6.7 Es sei (X, d) ein metrischer Raum und (an )n≥1 eine Folge in X. Ein Punkt
c ∈ X heißt ein Häufungswert24 dieser Folge, falls es zu jeder Zahl ε > 0 unendlich viele
n ∈ N gibt mit d(an , c) < ε. Äquivalent hierzu ist die Bedingung, dass es zu jeder Zahl ε > 0
und zu jedem N ∈ N ein n ≥ N mit d(an , a) < ε gibt, in Quantoren:
∀ε>0 ∀N ∈N ∃n≥N d(an , c) < ε.
23
Karl Weierstraß (1815 – 1897) war sicherlich der wichtigste unter den Mathematikern, die in der zweiten
Hälfte des 19. Jahrhunderts die Analysis in ihre formal endgültige, logisch unanfechtbare Form brachten. Auf
ihn geht die Epsilontik“ zurück, mit deren Hilfe sich Begriffe wie Konvergenz und Stetigkeit präzise fassen
”
lassen und die das wichtigste und mächtigste Werkzeug der Analysis darstellt. Weierstraß hat die Analysis,
vornehmlich die komplexe Analysis, auch inhaltlich durch wesentliche neue Beiträge gefördert.
Bernard Bolzano (1781 – 1848) war Mathematiker, Philosoph und Theologe und hatte eine Art Welt”
anschauungsprofessur“ in Prag inne, die in der Zeit der Restauration zum Zwecke der Eindämmung des
Freidenkertums eingerichtet wurde. Infolge unerwünschter Lehren wurde er 1819 entlassen, er erhielt Publikationsverbot und durfte auch nicht als Assistent für Mathematik tätig sein. Auf diese Weise sind wichtige
Schriften von Bolzano erst lange nach seinem Tod bekannt geworden. Darin ist manches vorweggenommen, zum Beispiel ein korrekter Beweis des Zwischenwertsatzes, was erst Jahrzehnte später zum allgemein
bekannten Bestand der Mathematik wurde.
24
In der Literatur ist statt von Häufungswerten oft auch von Häufungspunkten, Akkumulationspunkten oder Verdichtungspunkten einer Folge die Rede. Wir vermeiden den Begriff Häufungspunkt im
Kontext von Folgen, da wir später Häufungspunkte von Mengen einführen werden.
73
Bemerkung 6.8
(1) Es ist nützlich, die Definitionen von Grenzwert und Häufungswert in Quantorenschreibweise gegenüberzustellen, um sich den Unterschied vor Augen zu führen:
⇐⇒
⇐⇒
c ist Grenzwert von (an )n
c ist Häufungswert von (an )n
∀ε>0 ∃N ∈N ∀n≥N d(an , c) < ε.
∀ε>0 ∀N ∈N ∃n≥N d(an , c) < ε.
(2) Unter Verwendung des Begriffs der ε-Kugel (siehe Definition 4.3) lässt sich die Definition von Häufungswerten auch wie folgt schreiben:
∀ε>0 ∀N ∈N ∃n≥N an ∈ Uε (c).
In jeder noch so kleinen Kugel um den Punkt c sollen also unendlich viele Glieder der
Folge liegen.
Ebenso lässt sich die Definition der Konvergenz (gegen c) wie folgt umschreiben:
∀ε>0 ∃N ∈N ∀n≥N an ∈ Uε (c).
In jeder noch so kleinen Kugel um den Punkt c sollen also alle Folgenglieder mit endlich
vielen Ausnahmen liegen.
Man beachte den Unterschied zwischen unendlich viele“ und alle mit endlich vielen
”
”
Ausnahmen“!
Definition 6.9 Es sei (an )n≥1 eine Folge in irgendeiner Menge A. Es sei (nk )k≥1 eine
streng monoton steigende Folge von natürlichen Zahlen. Dann heißt die Folge
(ank )k≥1
eine Teilfolge oder auch eine Auswahlfolge der gegebenen Folge (an )n . Man notiert eine
solche Teilfolge auch in der Form
an1 , an2 , an3 , . . .
mit
n1 < n2 < n3 < . . . .
Beispiel 6.10
(1) Die Beobachtungen in Beispiel 6.6 lassen sich mit den soeben eingeführten Begriffen
nunmehr wie folgt formulieren: Es sei an = (−1)n · (1 + n1 ). Dann hat die Folge (an )n
die Häufungswerte 1 und −1. Die Teilfolge (a2n )n≥1 hat den Grenzwert 1. Die Teilfolge
(a2n+1 )n≥0 hat den Grenzwert −1.
Dieser Zusammenhang zwischen Häufungswerten und konvergenten Teilfolgen ist kein
Zufall, wie unser nächster Satz zeigen wird.
(2) Nach Satz 2.38 ist Q abzählbar, d.h. es gibt eine bijektive Abbildung n 7→ an von N
auf Q (eine Abzählung“ von Q). Diese ist nach Definition 5.1 gerade eine Folge in Q.
”
Wir zeigen, dass jede Zahl c ∈ R ein Häufungswert von (an )n ist: Wesentlich hierfür
ist, dass Q nach Satz 2.42 dicht in R liegt. Zu jedem ε > 0 und jedem N ∈ N gibt es
daher eine rationale Zahl q ∈]c − ε; c + ε[\ {a1 , . . . , aN }. Diese tritt als ein geeignetes
Folgenglied q = an mit n > N auf. Für dieses gilt also an ∈ Uε (a).
Eine Folge kann demnach überabzählbar viele Häufungswerte besitzen – obwohl sie
selbst nur aus abzählbar vielen Gliedern besteht.
74
Satz 6.11
Es sei (an )n≥1 eine Folge in einem metrischen Raum (X, d). Dann gelten die
folgenden Aussagen.
(1) Ein Punkt c ∈ X ist genau dann ein Häufungswert von (an )n , wenn es eine konvergente
Teilfolge (ank )k mit dem Grenzwert c gibt.
(2) Wenn die Folge (an )n konvergiert und den Grenzwert a hat, dann ist a ihr einziger
Häufungswert, und jede Teilfolge konvergiert gegen a.
Beweis.
(1) ⇐=“: Es sei zunächst c ∈ X der Grenzwert einer konvergenten Teilfolge (ank )k von
”
(an )n . Zu jedem ε > 0 existiert dann ein k0 ∈ N, so dass d(ank , c) < ε für alle k ≥ k0
ist. Daher enthält Uε (c) unendlich viele Folgenglieder an (nämlich alle ank mit k ≥ k0 ),
so dass c ein Häufungswert der Folge (an )n ist.
=⇒ “: Jetzt setzen wir voraus, dass c ∈ X ein Häufungswert der Folge (an )n ist.
”
Eine Teilfolge (ank )k wird dann rekursiv auf folgende Weise konstruiert: Man wählt
n1 ∈ N minimal mit d(an1 , c) < 1. Das ist möglich, weil in U1 (c) sogar unendlich viele
Folgenglieder liegen. Für ein k ∈ N nehmen wir nun an, dass wir natürliche Zahlen
n1 , . . . , nk mit n1 < . . . < nk und
1
d anj , c <
j
für
j = 1, . . . , k
bereits gefunden haben. Weil c ein Häufungswert der Folge (an )n ist, gibt es dann ein
1
. Induktiv folgt also die Existenz einer
(minimales) nk+1 > nk mit d(ank+1 , c) < k+1
streng monoton steigenden Folge (nk )k≥1 natürlicher Zahlen mit
d(ank , c) <
1
k
für alle k.
Es ist dann limk→∞ ank = c. Damit ist (1) bewiesen.
(2) Nun wird limn→∞ an = a vorausgesetzt. Dann ist klar, dass a ein Häufungswert der
Folge (an )n ist (z.B. wegen (1)).
Es sei (ank )k eine Teilfolge. Es sei ein ε > 0 gegeben. Dann gibt es ein N ∈ N mit
an ∈ Uε (a) für alle n ≥ N . Wegen nk ≥ k für alle k ist dann insbesondere ank ∈ Uε (a)
für alle k ≥ N . Es gilt also
∀ε>0 ∃N ∈N ∀k≥N ank ∈ Uε (a),
d.h. (ank )k konvergiert ebenfalls gegen den Grenzwert a.
Es bleibt noch zu zeigen, dass (an )n keine weiteren Häufungswerte außer a hat. Hierzu
sei auch c ∈ X ein Häufungswert von (an )n . Nach (1) gibt es dann eine konvergente
Teilfolge (ank )k mit Grenzwert c. Nach dem soeben Gezeigten muss diese jedoch auch
gegen a konvergieren. Wegen der Eindeutigkeit des Grenzwerts (Proposition 5.9) muss
also c = a sein. Also ist a der einzige Häufungswert von (an )n . Damit ist auch (2)
bewiesen.
75
Satz 6.12 (Satz von Bolzano-Weierstraß)
Jede beschränkte Folge in R besitzt wenigstens eine konvergente Teilfolge und wenigstens einen Häufungswert.
Wir geben für diesen Satz zwei Beweisvarianten.
Beweis 1. Es sei (an )n≥1 eine beschränkte Folge in R. Wir definieren rekursiv eine Intervallschachtelung (Ik )k≥0 von Intervallen Ik = [ck , dk ] derart, dass jedes Ik unendlich viele
Folgenglieder enthält. Dies geschieht wie folgt:
Da (an )n beschränkt ist, gibt es c0 , d0 ∈ R mit c0 ≤ an ≤ d0 für alle n. Wir setzen I0 :=
[c0 , d0 ].
Nun nehmen wir an, dass wir bereits ein Intervall Ik = [ck , dk ] mit der gewünschten Eigenschaft haben. Es sei mk := 21 (ck + dk ) dessen Mittelpunkt. Dann enthält mindestens eines
der beiden Teilintervalle [ck , mk ] und [mk , dk ] unendlich viele Folgenglieder an . Wir setzen
daher
(
[ck , mk ], falls [ck , mk ] unendlich viele an enthält,
Ik+1 = [ck+1 , dk+1 ] :=
[mk , dk ] sonst.
Hierdurch ist eine Intervallschachtelung definiert: Die Ik sind ineinander geschachtelt, und
die fortwährende Halbierung gewährleistet, dass die Intervalllänge gegen 0 strebt. Nach dem
Intervallschachtelungsprinzip (Satz 2.24) gibt es genau ein s ∈ R, das in allen Ik liegt.
Es sei nun ein ε > 0 gegeben. Dann gibt es ein k mit |Ik | < ε. Nach Konstruktion liegen
unendlich viele Folgenglieder an in Ik . Da auch s in Ik liegt, gilt für alle diese Folgenglieder
|an − s| ≤ dk − ck = |Ik | < ε.
Also enthält Uε (s) unendlich viele an . Da dies für alle ε > 0 gilt, ist s in der Tat ein
Häufungswert von (an )n .
Die Existenz einer (gegen s) konvergenten Teilfolge von (an )n folgt nun aus Satz 6.11.
Beweis 2. Es sei (an )n≥1 eine beschränkte Folge in R. Wir zeigen zunächst, dass (an )n eine
monotone Teilfolge enthält. (Ob diese steigt oder fällt, haben wir allerdings i. Allg. nicht in
der Hand.)
Hierzu nennen wir N ∈ N eine Gipfelstelle dieser Folge, wenn am < aN für alle m > N gilt.
(Der Begriff der Gipfelstelle wird außerhalb dieses Beweises nirgends gebraucht und daher
auch nicht offiziell“ definiert.) Wenn die Folge unendlich viele Gipfelstellen n1 , n2 , n3 , . . . mit
”
n1 < n2 < n3 < . . . besitzt, dann ist (ank )k eine streng monoton fallende Teilfolge. Es genügt
also, die Alternative dieses Falles zu diskutieren. Sie besagt, dass die Folge nur endlich viele
oder überhaupt keine Gipfelstelle besitzt. Insbesondere gibt es dann ein n1 ∈ N, das größer
ist als jede Gipfelstelle der Folge. Weil n1 keine Gipfelstelle ist, gibt es ein n2 > n1 mit
an2 ≥ an1 . Weil auch n2 keine Gipfelstelle ist, gibt es ein n3 > n2 mit an3 ≥ an2 . Rekursiv
erhält man in dieser Weise eine monoton steigende Teilfolge (ank )k≥1 .
In jedem Fall enthält (an )n also eine monotone Teilfolge. Diese ist beschränkt, also nach Satz
6.3 konvergent. Ihr Grenzwert ist nach Satz 6.11 (1) ein Häufungswert der Folge.
Das Resultat ist auf Folgen von Vektoren im Rp bzw. Cp übertragbar; der Beweis wirkt nur
wegen des unvermeidbaren Aufwands an Notationen etwas kompliziert:
76
Satz 6.13 (Satz von Bolzano-Weierstraß)
Jede beschränkte Folge in Rp oder in Cp
besitzt wenigstens eine konvergente Teilfolge und wenigstens einen Häufungswert.
Beweis. Da wir Cp mit R2p identifizieren können, genügt es, Folgen in Rp zu diskutieren.
(1)
(p)
Es sei (an )n eine beschränkte Folge in Rp . Wir schreiben an = (an , . . . , an ) mit reellen
(j)
(j) Zahlen an . Mit (an )n sind dann auch alle Komponentenfolgen an n (j = 1, . . . , p) beschränkt. Nach dem Satz von Bolzano-Weierstraß
in der Version von Satz
6.12 können wir
(1) (1) aus der ersten Komponentenfolge an n eine konvergente Teilfolge an1,k k auswählen. Wir
(2) betrachten nun die zugehörige Teilfolge an1,k k der zweiten Komponentenfolge. Diese ist
(2) ebenfalls beschränkt, so dass wir wiederum eine konvergente Teilfolge an2,k k auswählen
(1) können. Natürlich ist auch an2,k k konvergent (Satz 6.11 (2)), denn sie ist Teilfolge der kon(1) vergenten Folge an1,k k . So fortfahrend erhält man schließlich nach p-maliger Anwendung
(p) von Satz 6.12 eine konvergente Teilfolge anp,k k der p-ten Komponentenfolge, so dass auch
(p−1) (1) anp,k k , . . . , anp,k k konvergieren. Gemäß Satz 5.16 (1) ist dann (anp,k )k eine konvergente
Teilfolge von (an )n .
Bemerkung 6.14
(1) Beide Beweise des Satzes von Bolzano-Weierstraß (Satz 6.12) beruhen wesentlich auf
der Vollständigkeit von R: Die erste Variante benutzt das Intervallschachtelungsprinzip,
für dessen Beweis das Vollständigkeitsaxiom (V) entscheidend ist. Die zweite Variante basiert auf Satz 6.3, dessen Beweis ebenfalls die Existenz von Suprema, also die
Vollständigkeit von R ausnutzte.
Tatsächlich kann man das Intervallschachtelungsprinzip auch aus Satz 6.3 ableiten; die
Verwandtschaft beider Resultate wird ersichtlich, wenn man ihre Beweise miteinander
vergleicht.
(2) Wir können jetzt die in den Sätzen 6.3 und 6.12 sowie in Proposition 5.11 bewiesenen
Beziehungen zwischen den Eigenschaften Konvergenz, Beschränktheit und Monotonie
von reellen (!) Folgen (an )n in nachstehendem Diagramm zusammenfassen:
(an )n konvergent
w
w

~
w
w, falls (an )n monoton
(an )n beschränkt
w
w

(an )n hat konvergente Teilfolge
Die Umkehrungen dieser Implikationen sind jeweils i.Allg. nicht gültig. Zudem kann
man aus keiner der übrigen Eigenschaften auf die Monotonie einer Folge schließen –
dazu handelt es sich bei der Monotonie um eine viel zu spezielle Eigenschaft.
Die linken beiden Implikationen bleiben allgemein für Folgen in Rp und Cp gültig
(Proposition 5.11 und Satz 6.13). Hingegen lässt sich das Monotonieprinzip nicht auf
diesen allgemeineren Rahmen übertragen, denn Monotonie lässt sich nur für Folgen
reeller Zahlen sinnvoll definieren.
77
6.3
Cauchy-Folgen
Unser Ziel in diesem Kapitel ist es, Kriterien zu finden, mit deren Hilfe sich die Konvergenz
einer Folge überprüfen lässt, auch wenn man keinen Kandidaten für den Grenzwert zur Hand
hat. Das Monotonieprinzip, das wir in Satz 6.3 kennengelernt hatten, erfüllt zwar diesen
Zweck, ist aber leider eher selten anwendbar, da die Monotonie eine sehr einschränkende
Voraussetzung ist, die nicht allzu oft erfüllt ist.
Ein wesentlich universeller einsetzbares (wenn auch auf den ersten Blick weniger griffiges)
Kriterium ist das Cauchy-Kriterium25 . Seine Formulierung ähnelt sehr der Definition von
Konvergenz selbst. Allerdings kommt darin der Grenzwert nicht mehr vor; vielmehr werden die Abstände d(an , a) zwischen den Folgengliedern an und dem Grenzwert a durch die
Abstände d(an , am ) zweier beliebiger Folgenglieder ersetzt.
Definition 6.15 Es sei (X, d) ein metrischer Raum. Eine Folge (an )n≥1 in X heißt eine
Cauchy-Folge, falls zu jeder Zahl ε > 0 ein Nε ∈ N existiert, so dass für alle m ≥ Nε
und alle n ≥ Nε die Ungleichung d(am , an ) < ε besteht. In Quantorenschreibweise lautet die
Bedingung
∀ ε>0 ∃ Nε ∈N ∀ m,n≥Nε d(am , an ) < ε .
Proposition 6.16
Folge.
In einem metrischen Raum ist jede konvergente Folge eine Cauchy-
Beweis. Es sei (X, d) ein metrischer Raum, es sei (an )n≥1 eine konvergente Folge in X, und
a = limn→∞ an sei ihr Grenzwert. Es sei eine Zahl ε > 0 gegeben. Dazu gibt es ein N mit
d(an , a) < 2ε für alle n ≥ N . Für alle m, n ≥ N folgt dann mit der Dreiecksungleichung (die
in metrischen Räumen ja per definitionem gültig ist)
d(am , an ) ≤ d(am , a) + d(a, an ) <
Also ist (an )n eine Cauchy-Folge.
ε ε
+ = ε.
2 2
Das Ziel dieses Abschnitts besteht darin zu zeigen, dass für Folgen reeller oder komplexer
Zahlen die Umkehrung von Proposition 6.16 gilt, dass in diesen Räumen Cauchy-Folgen also
automatisch konvergieren. Dies ist allerdings keineswegs selbstverständlich und hängt eng
mit der Vollständigkeit von R zusammen. Um die Problematik zu verdeutlichen, betrachten
wir zum Vergleich den Körper Q.
√
Beispiel 6.17
Es sei a := 2, und es sei (xn )n die gegen 2 konvergente Folge aus dem
Heron-Verfahren (Satz 6.5) mit einem beliebigen Startwert x0 ∈ Q. Aus der Rekursionsvorschrift für die xn folgt unmittelbar, dass die gesamte Folge (xn )n in Q liegt. Da (xn )n in R
konvergiert, handelt es sich dabei nach
√ Proposition 6.16 um eine Cauchy-Folge rationaler
Zahlen. Hingegen liegt der Grenzwert 2 nicht in Q, d.h. in Q ist (xn )n divergent!
25
Auch A. Cauchy (1789 – 1857) hat große Beiträge zur Weiterentwicklung der Analysis, insbesondere
der komplexen Analysis geleistet, und er gehört zu den Pionieren, die mit der Klärung der Grundlagen der
Analysis begonnen haben. Unser heutiger Grenzwertbegriff geht auf Cauchy zurück. Seine Vorstellungen
über reelle Zahlen sind nicht völlig präzise zu fixieren, und sie weichen wohl von denjenigen ab, die sich seit
Cantor und Dedekind durchgesetzt haben. Wir werden in Abschnitt 11.1 hierauf zurückkommen.
78
Damit haben wir eine Cauchy-Folge in Q gefunden, die keinen
√ Grenzwert in Q besitzt.
(Dasselbe leisten auch die Anfänge der Dezimaldarstellung von 2: Sie liefern eine CauchyFolge von rationalen Zahlen ohne rationalen Grenzwert.)
Die Umkehrung von Proposition 6.16 gilt in Q also nicht: Cauchy-Folgen rationaler Zahlen
haben i. Allg. keinen Grenzwert in Q.
Entscheidend für die Konvergenz von Cauchy-Folgen ist die Vollständigkeit von R.
Satz 6.18 (Cauchy-Kriterium)
Eine Folge (an )n≥1 in Rp oder in Cp ist genau dann
konvergent, wenn sie eine Cauchy-Folge ist.
Beweis. Dass jede konvergente Folge eine Cauchy-Folge ist, haben wir in Proposition 6.16
gezeigt.
Es sei (an )n≥1 eine Cauchy-Folge in Rp oder in Cp . Zuerst wird gezeigt, dass die Folge
beschränkt ist. Weil es sich um eine Cauchy-Folge handelt, gibt es (zu ε := 1) ein N ∈ N
mit ||an − am || < 1 für alle m, n ≥ N . Speziell für m = N folgt hieraus unter Verwendung
der Dreiecksungleichung
||an || ≤ ||an − aN || + ||aN || ≤ ||aN || + 1
für alle n ≥ N.
Setzt man also C := 1 + max{||a1 ||, ||a2 ||, . . . , ||aN ||}, dann folgt ||an || ≤ C für alle n ∈ N.
Damit ist die Beschränktheit der Folge nachgewiesen.
Nach Satz 6.13 besitzt (an )n daher eine konvergente Teilfolge (ank )k . Wir setzen
a := lim ank
k→∞
und wollen zeigen, dass sogar die ganze Folge (an )n gegen a konvergiert. Hierzu sei eine Zahl
ε > 0 gegeben. Aufgrund der Definition von Cauchy-Folgen gibt es dazu ein N 0 ∈ N, so dass
für alle m, n ≥ N 0 die Ungleichung ||an − am || < 2ε gilt. Außerdem gibt es nach Definition
von a ein k ∈ N mit nk ≥ N 0 und ||ank − a|| < 2ε . Für alle n ≥ N 0 folgt somit
ε ε
+ = ε.
2 2
Damit ist limn→∞ an = a bewiesen. Die Folge ist also konvergent.
||an − a|| ≤ ||an − ank || + ||ank − a|| <
Wir fassen noch einmal zusammen, in welchen Schritten wir das Cauchy-Kriterium aus der
Vollständigkeit von R abgeleitet haben:
Vollständigkeit von R (Supremumseigenschaft)
w
w

Intervallschachtelungsprinzip (Satz 2.24)
w
w

Satz von Bolzano-Weierstraß (Sätze 6.12, 6.13)
w
w

Cauchy-Kriterium (Satz 6.18)
79
Aus dem Cauchy-Kriterium und dem Archimedischen Axiom (Satz 2.33) kann man wiederum die Gültigkeit des Vollständigkeitsaxioms in R folgern, siehe [Ebbinghaus et al.]. Daher
kann man die Vollständigkeit von R statt durch die Supremumseigenschaft auch durch das
Intervallschachtelungsprinzip oder das Cauchy-Kriterium oder auch durch die Gültigkeit des
Satzes von Bolzano-Weierstraß erklären.
Der Satz von Bolzano-Weierstraß und das Cauchy-Kriterium gelten sogar in C und in Rp
und Cp . Hingegen lassen sich die Supremumseigenschaft und das Intervallschachtelungsprinzip dort gar nicht formulieren, da C, Rp und Cp keine geordneten Körper sind; dieselbe
Schwierigkeit ergibt sich erst recht in allgemeinen metrischen Räumen. Der enge Zusammenhang zwischen Vollständigkeit und Gültigkeit des Cauchy-Kriteriums ist der Schlüssel, um
Vollständigkeit auch in solchem allgemeineren Rahmen definieren zu können:
Definition 6.19 Ein metrischer Raum (X, d) heißt vollständig, falls jede Cauchy-Folge
in X einen Grenzwert in X besitzt.
Das Cauchy-Kriterium stellt sicher, dass R auch im Sinne dieser Definition vollständig ist.
Abbildung 8: Cauchy-Folgen und Vollständigkeit (Zeichnung: Jens Jordan)
80
7
7.1
Unendliche Reihen
Nur eine Notation
Definition 7.1
Es sei (an )n≥0 eine Folge in R oder C. Für ganze n ≥ 0 setzen wir
sn := a0 + a1 + . . . + an =
n
X
ak .
k=0
Die Folge (sn )n≥0 heißt dann eine (unendliche) Reihe, und sie wird mit dem Symbol
∞
X
ak
k=0
bezeichnet. Man nennt sn die n-te Partialsumme der Reihe. Die ak heißen die Glieder
oder die
der Reihe. Falls die Folge (sn )n konvergiert, dann heißt die unendliche
PSummanden
∞
Reihe k=0 ak konvergent, man nennt den Grenzwert den Wert der Reihe, und man
bezeichnet ihn mit demselben Symbol wie die Reihe selbst; man schreibt also
∞
X
k=0
ak = lim
n→∞
n
X
ak .
k=0
Wenn die Folge (sn )n divergiert, dann heißt die unendliche Reihe
P∞
k=0
ak divergent.
Bemerkung 7.2
P∞
ak bezeichnet also sowohl
Pn
– die Folge ( k=0 ak )n der Partialsummen als auch
P
– im Fall der Konvergenz den Grenzwert limn→∞ nk=0 ak .
(1) Das Symbol
k=0
Auf keinen Fall darf man eine unendliche Reihe als bloße Summe von unendlich vielen
Gliedern ansehen und naiv davon ausgehen, dass die üblichen Rechenregeln wie das
Kommutativgesetz und das Assoziativgesetz uneingeschränkt gültig bleiben. Wir werden in Abschnitt 7.5 sehen, dass dies i. Allg. nicht der Fall ist, aber wir werden auch
Kriterien kennenlernen, die sicherstellen, dass diese Regeln doch gelten.
(2) Reihen sind also auch nur“ Folgen. Damit bleiben alle Resultate über Folgen aus den
”
letzten Kapiteln prinzipiell auch für Reihen gültig. Wir werden im Folgenden aber
etliche weitere Konvergenzkriterien kennenlernen, die speziell auf die Bedürfnisse der
Reihen zugeschnitten sind.
(3) Die Summation in Reihen muss nicht bei k = 0 beginnen: Für
P∞beliebiges m ∈ Z kann
man in analoger Weise auch unendliche Reihen der Gestalt k=m ak einführen.
Dabei ist zu beachten, dass das Hinzunehmen oder Wegnehmen von endlich vielen
Summanden nichts an der Konvergenz der Reihe – also der Folge ihrer Partialsummen
– ändert (denn diese werden nur umP
eine Konstante verschoben“), sehr wohl aber den
”
Grenzwert. Konvergiert eine Reihe P∞
k=0 ak beispielsweise gegen den Grenzwert S und
ist a0 = 1, so konvergiert die Reihe ∞
k=1 ak gegen den Grenzwert S − 1.
81
7.2
Die geometrische, die harmonische und die Exponentialreihe
Wir stellen drei Reihen vor, die von besonderer Bedeutung für die Analysis sind: die geometrische Reihe, die harmonische Reihe und die Exponentialreihe.
Satz 7.3 Für alle q ∈ C mit |q| < 1 ist die geometrische Reihe
mit dem Grenzwert
∞
X
1
.
qk =
1−q
k=0
P∞
k=0
q k konvergent
Beweis. Nach der geometrischen Summenformel (Satz 1.10) gilt für alle n ∈ N
n
X
qk =
k=0
1
q n+1
1 − q n+1
=
−
.
1−q
1−q 1−q
Gemäß Satz 5.17 (3) gilt hierbei limn→∞
lim
n→∞
q n+1
1−q
n
X
= 0. Damit folgt
qk =
k=0
1
,
1−q
wie behauptet.
Das Schöne an der geometrischen Reihe ist, dass man eine einfache Formel für ihren Grenzwert hat. Für q = 12 beispielsweise ergibt sich
∞ k
X
1
2
k=0
=1+
1 1 1
1
+ + + ··· =
2 4 8
1−
= 2,
1
2
während man für q = − 21 den Wert
k
∞ X
1
1 1 1
1
−
= 1 − + − ± ··· =
2
2 4 8
1+
k=0
erhält. Für q =
1
4
1
2
=
2
3
liefert die geometrische Reihe
∞ k
X
1
k=0
4
=1+
1
1
1
1
+ 2 + 3 + ··· =
4 4
4
1−
1
4
4
= .
3
Für die letzte Identität kann man auch folgende etwas unkonventionelle Begründung geben:
Wir stellen uns ein gleichseitiges Dreieck vom Flächeninhalt 4 vor. Dessen Seitenmitten
bilden ebenfalls ein gleichseitiges Dreieck, und zwar vom Flächeninhalt 1. Hierdurch wird
das urspüngliche Dreieck in vier Dreiecke der Fläche 1 zerlegt. Dieses Verfahren iterieren wir:
Jeweils in das mittlere Dreieck beschreiben wir ein neues gleichseitiges Dreieck von halber
Seitenlänge und einem Viertel der Fläche ein, und zwar ad infinitum, wie es Abbildung
7.2 andeutet. (Dort sind nur die ersten 5 Iterationsschritte gezeichnet.) Von den in jedem
Schritt verbleibenden drei äußeren“ Dreiecken (die nicht weiter zerlegt werden) färben wir
”
jeweils eines in einer bestimmten Farbe ein. Es ist dann klar, dass damit insgesamt ein
82
Abbildung 9: Eine geometrische Begründung für
P∞
1
n=0 4n
=
4
3
Drittel des ursprünglichen Dreiecks eingefärbt wird, also eine Fläche von 34 . Andererseits ist
die Gesamtfläche der eingefärbten Dreiecke 1 + 14 + 412 + 413 + . . . . Dieser Wert muss also
tatsächlich 34 betragen.
Die Konvergenz der geometrischen Reihe ist auch nützlich, wenn man das Zenonsche Paradoxon von Achill und der Schildkröte auflösen will: Zenon von Elea wollte nachweisen,
dass ein schneller Läufer wie der griechische Sagenheld Achill niemals eine Schildkröte einholen könne, wenn dieser ein anfänglicher Vorsprung gewährt werde. Hierzu argumentierte
er sinngemäß wie folgt: Bevor Achill die Schildkröte überholen kann, muss er zuerst ihren
Vorsprung einholen. In der hierfür benötigten Zeit hat die Schildkröte einen neuen, kleineren
Vorsprung gewonnen, den Achill wiederum einholen muss. Ist ihm auch das gelungen, hat die
Schildkröte bereits einen neuen Vorsprung gewonnen, und so weiter ad infinitum. So kann
sich Achill der Schildkröte zwar immer weiter nähern, sie aber niemals einholen und somit
auch nicht überholen. Dies widerspricht natürlich jeder Anschauung26 .
Die Auflösung dieses Paradoxons liegt in der geometrischen Reihe: Nehmen wir der Einfachheit an, Achill laufe nur doppelt so schnell wie die Schildkröte (auch wenn hier mindestens
der Faktor 100 realistischer sein dürfte), und die Schildkröte habe einen anfänglichen Vorsprung von 100 Metern. Sobald Achill diesen Vorsprung aufgeholt hat, befindet sich die
Schildkröte noch 50 Meter vor ihm. Hat Achill auch diese 50 Meter zurückgelegt, so beträgt
26
Vermutlich wollte Zenon damit die These des Parmenides stützen, dass es keine Bewegung gebe: Er war
so sehr von seinem Argument überzeugt, dass er glaubte, damit werde die Beobachtung, dass Achill die
Schildkröte doch überholt, als Illusion entlarvt – eines von vielen Beispielen für die Tendenz in manchen
Wissenschaftsdisziplinen, nach dem Motto zu verfahren: Wenn die Wirklichkeit nicht zur Theorie passt –
”
um so schlimmer für die Wirklichkeit.“
83
der Vorsprung der Schildkröte noch 25 Meter usw. Aufgrund der Formel für den Grenzwert
der geometrischen Reihe (mit q = 12 ) addieren sich diese einzelnen Wegstücke zu einer Strecke von 200 Metern, also zu einer endlichen Gesamtstrecke. Nach diesen 200 Metern wird
Achill die Schildkröte eingeholt haben – ganz so, wie wir es erwarten. Auch die zugehörigen
Zeiten, die zum Durchlaufen dieser Strecke benötigt werden, addieren sich zu einer endlichen
Gesamtzeit. Der Irrtum Zenons liegt letztlich darin begründet, dass man durch Summation
von unendlich vielen positiven Zahlen sehr wohl einen endlichen Wert erhalten kann.
Nun ein wichtiges Beispiel einer divergenten Reihe:
Satz 7.4
Die harmonische Reihe
∞
X
1 1 1
1
= 1 + + + + ...
k
2 3 4
k=1
ist divergent.
P
Beweis. Für die Folge der Partialsummen sn = nk=1 k1 bildet man die Differenzen s2n − sn
und schätzt darin jeden der n Summanden nach unten durch den kleinsten ab. Das ergibt
s2n − sn =
1
1
1
1
1
+
+ ... +
>n·
=
n+1 n+2
2n
2n
2
für alle n ≥ 2. Es folgt
3
s2 = ,
2
s4 = s2 + (s4 − s2 ) >
3 1
+ = 2,
2 2
s8 = s4 + (s8 − s4 ) > 2 +
1
5
=
2
2
und allgemein
m+2
2
für alle m ≥ 2. Die Folge der sn ist also unbeschränkt und somit divergent.
s2 m >
Die Folge der sn ist zwar unbeschränkt, aber sie wächst so langsam, dass die Divergenz der
harmonischen Reihe durch numerische Berechnungen der sn nicht leicht zu erraten ist. Um
das zu sehen, schätzt man in s2n − sn jeden Term nach oben durch den größten ab. Man
erhält
1
1
1
+ ... +
≤n·
<1
s2n − sn =
n+1
2n
n+1
für alle n ≥ 1. Hieraus und aus s3 = 1 + 12 + 31 < 2 ergibt sich also s6 < 3, s12 < 4 und
allgemein
s3·2m < m + 2.
Beispielsweise ist s196608 < 18. Wir werden später zeigen, dass die Partialsummen sn ungefähr
wie log n gegen ∞ streben. Hierbei bzeichnet log n den natürlichen Logarithmus von n, d.h.
den Logarithmus zur Basis e. Was die Eulersche Zahl e genau ist, erklärt der folgende Satz.
Satz 7.5
Die Reihe
∞
X
1
k!
k=0
84
konvergiert; ihren Grenzwert bezeichnet man mit e und nennt ihn die Eulersche Zahl27 .
Beweis. Für n ∈ N sei
n
X
1
sn =
k!
k=0
die n-te Partialsumme der gegebenen Reihe. Offensichtlich ist (sn )n monoton steigend, da
die Summenden k!1 positiv sind. Weiter gilt für alle n ≥ 2
n
n
n−1
∞
X
X
X
X
1
1
1
1
sn = 2 +
≤ 2+
=2+
<1+
= 1 + 2 = 3;
k−1
k
k
k!
2
2
2
k=2
k=2
k=1
k=0
hierbei haben wir die für k ≥ 2 gültige Abschätzung k! ≥ 2k−1 und die Konvergenz der
geometrischen Reihe ausgenutzt. Also ist (sn )n auch beschränkt. Aus Satz 6.3 folgt sofort
die Konvergenz von (sn )n .
Die Reihe
∞
X
zk
k!
k=0
mit variablem z ∈ C heißt die Exponentialreihe. Wir haben soeben gezeigt, dass sie für
z = 1 konvergiert. In Beispiel 7.23 (2) werden wir sehen, dass sie sogar für jedes z ∈ C
konvergiert. Sie wird uns dann (in Abschnitt 7.7) zur Definition der Exponentialfunktion
dienen, die eine der wichtigsten Funktionen der Analysis ist.
Vorher benötigen wir allerdings noch einige Werkzeuge zum Nachweis der Konvergenz unendlicher Reihen.
7.3
Allgemeine Konvergenzkriterien für Reihen
Da Reihen spezielle Folgen sind, gelten für sie auch die Resultate über konvergente Folgen.
Wir notieren zwei dieser Resultate explizit: Summen und skalare Vielfache konvergenter
Reihen sind ebenfalls konvergent, und es gilt das Cauchy-Kriterium.
P
P∞
Satz 7.6
Es seien ∞
k=0 ak und
k=0 bk zwei konvergente Reihen mit Gliedern in R oder
C, und es sei c ∈ C beliebig. Dann sind auch die Reihen
∞
X
(ak + bk )
und
k=0
∞
X
cak
k=0
konvergent, und für ihre Grenzwerte gilt
∞
∞
∞
X
X
X
(ak + bk ) =
ak +
bk
k=0
k=0
und
k=0
∞
X
k=0
27
cak = c ·
∞
X
ak .
k=0
Der Grenzwert e und seine Bezeichnung mit dem Buchstaben e tritt vermutlich erstmals in Eulers Lehrbuch der Analysis [Euler] aus dem Jahr 1748 auf. Euler berechnet (auf S. 91) die 23 gültigen Dezimalstellen
e = 2, 71828 18284 59045 23536 028 . . . .
85
P
P
Beweis. Es seien An := nk=0 ak und Bn := nk=0 bk die Partialsummen der beiden gegebenen Reihen. Dann ist für alle n ∈ N
n
n
n
X
X
X
(ak + bk ) =
ak +
bk = An + Bn ;
k=0
k=0
k=0
dieser Schritt ist möglich, da es sich hier P
um endliche Summen handelt. Dies zeigt, dass (An +
Bn )n die Partialsummenfolge der Reihe ∞
k=0 (ak + bk ) ist. Nach Voraussetzung konvergieren
die Folgen (An )n und (Bn )n . Aus Satz 5.12 (1) folgt daher die Konvergenz von (An + Bn )n
und
∞
∞
∞
X
X
X
(ak + bk ) = lim (An + Bn ) = lim An + lim Bn =
ak +
bk .
k=0
n→∞
n→∞
n→∞
k=0
k=0
P∞
Analog sieht man, dass (c · An )n die Partialsummenfolge der Reihe k=0 cak ist, und mit
Satz 5.12 (2) (oder Aufgabe 7.1 (d)) folgt die Konvergenz von (c · An )n und
∞
X
cak = lim cAn = c · lim An = c ·
n→∞
k=0
n→∞
∞
X
ak .
k=0
Man beachte, dass sich für das Produkt zweier konvergenter Reihen kein so einfaches Resultat
beweisen lässt. Wir kommen hierauf in Abschnitt 7.6 zurück.
P
Satz 7.7 (Cauchy-Kriterium für Reihen)
Es sei ∞
k=0 ak eine unendliche Reihe in
R oder C. Diese Reihe ist genau dann konvergent, wenn es zu jeder Zahl ε > 0 ein Nε ∈ N
gibt, so dass für alle m, n ∈ N mit n ≥ m ≥ Nε die Ungleichung
n
X
ak = |am + am+1 + . . . + an | < ε
k=m
gilt.
Beweis. Für die Partialsummen sn =
Pn
k=0
ak gilt
am + am+1 + . . . + an = sn − sm−1 .
Die Bedingung im Satz besagt demnach, dass (sn )n eine Cauchy-Folge ist. Nach dem CauchyKriterium (Satz 6.18) gilt daher die Behauptung.
Als unmittelbare Folgerung aus dem Cauchy-Kriterium ergibt sich ein notwendiges Konvergenzkriterium für Reihen.
P
Satz 7.8 (Notwendiges Konvergenzkriterium)
Es sei ∞
k=0 ak eine konvergente unendliche Reihe in R oder in C. Dann bilden die Reihenglieder eine Nullfolge, d.h. es gilt
lim ak = 0.
k→∞
Beweis. Es sei ein ε > 0 gegeben. Nach Satz 7.7 gibt es dazu ein N ∈ N mit
|am + am+1 + . . . + an | < ε
für alle m, n mit n ≥ m ≥ N.
Speziell für n = m folgt |an | < ε für alle n ≥ N . Damit ist limk→∞ ak = 0 gezeigt.
86
Bemerkung 7.9
(1) Die Bedingung limk→∞ ak = 0 ist
notwendig, aber nicht hinreichend für die KonPzwar
∞
vergenz der unendlichen Reihe k=0 ak .
Dies zeigt das Beispiel der harmonischen Reihe: Für sie ist das notwendige Konvergenzkriterium in Satz 7.8 erfüllt, denn es ist limk→∞ k1 = 0. Jedoch ist sie nach Satz 7.4
divergent.
(2) Aus dem
Konvergenzkriterium in Satz 7.8 folgt, dass die geometrische
P∞notwendigen
k
Reihe k=0 q für |q| ≥ 1 divergiert, denn dann ist |q|k ≥ 1 für alle k ≥ 1, so dass
(q k )k keine Nullfolge bildet.
Eine weitere Konsequenz des Cauchy-Kriteriums ist, dass die Reihenreste“ konvergenter
”
Reihen beliebig klein werden:
Korollar 7.10
Ist
P∞
k=0
ak eine konvergente Reihe in C und setzt man
rn :=
∞
X
ak ,
k=n
so gilt limn→∞ rn = 0.
Beweis. Zunächst ist zu beachten, dass mit
so dass die rn wohldefiniert sind.
P∞
k=0
ak auch die Reihe
P∞
k=n
ak konvergiert,
Es sei ein ε > 0 gegeben. Nach dem Cauchy-Kriterium gibt es ein N ∈ N mit
n
X ak < ε
für alle n ≥ m ≥ N.
k=m
Hierin kann man bei festem m den Grenzübergang n → ∞ durchführen und erhält mit Satz
5.14 (3)
n
n
X
X
|rm − 0| = lim
ak = lim ak ≤ ε
für alle m ≥ N.
n→∞
n→∞
k=m
k=m
Dies zeigt limm→∞ rm = 0.
Für eine reelle Reihe mit nichtnegativen Gliedern gilt das folgende Konvergenzkriterium.
P
Satz 7.11 Eine Reihe ∞
k=0 ak mit ak ≥ 0 für alle k ∈ N0 ist genau dann konvergent,
wenn die Folge ihrer Partialsummen beschränkt ist.
Beweis. Wegen ak ≥ 0 für alle k ist die Folge der Partialsummen
s n = a0 + a1 + · · · + an
monoton wachsend. Falls sie zusätzlich beschränkt ist,P
so ist sie nach dem Monotonieprinzip
in Satz 6.3 konvergent. Dies bedeutet, dass die Reihe ∞
k=0 ak konvergiert.
Falls umgekehrt die Reihe konvergiert, so ist die Folge ihrer Partialsummen nach Proposition
5.11 beschränkt. (Dieser letzte Schluss gilt für beliebige Reihen, auch ohne die Voraussetzung
ak ≥ 0.)
87
Bemerkung
7.12
Aufgrund dieses Kriteriums drückt man die Konvergenz einer reellen
P
Reihe ∞
a
mit
nichtnegativen
Gliedern oft kurz und intuitiv durch
k=0 k
∞
X
ak < ∞
k=0
aus.
Warnung: Für beliebige Reihen in R (oder gar in dem nicht angeordneten Körper C) ist
dies keine angemessene bzw. sinnvolle Weise, Konvergenz zum Ausdruck zu bringen. Hierzu
zwei Beispiele:
P
• Der Aussage ∞
k=0 −1 < ∞ wird man sicherlich sofort zustimmen. Das bedeutet aber
nicht, dass diese Reihe konvergiert. Vielmehr ist sie divergent; ihre Partialsummen
streben gegen −∞. (Später, in Definition 9.20, werden wir für diese Art der Divergenz
die Bezeichnung bestimmte Divergenz“ einführen.)
”
P∞
• Die Reihe k=0 (−1)k divergiert, da ihre Glieder keine Nullfolge bilden. Ihre Partialsummenfolge ist aber trotzdem beschränkt, denn sie ist (1, 0, 1, 0, 1, . . . ).
Für Reihen mit nichtnegativen Gliedern gibt Satz 7.11 zwar eine sehr allgemeine Charakterisierung von Konvergenz, diese ist aber eher selten anwendbar. Für die Praxis bedeutsamere
Konvergenzkriterien für solche Reihen lernen wir in Abschnitt 7.4 kennen.
Wesentlich komplizierter ist die Situation bei Reihen, deren Glieder kein einheitliches Vorzeichen haben. Ein nützliches Kriterium, das sog. Leibniz-Kriterium28 , beschäftigt sich mit
der Situation, dass die Reihenglieder abwechselnd positives und negatives Vorzeichen haben,
mit sog. alternierenden Reihen.
Satz 7.13 (Leibniz-Kriterium)
Es sei (ck )k eine monoton fallende Nullfolge reeller
Zahlen.
(Insbesondere
gelte
also
c
≥
0
für
alle k.) Dann P
konvergiert die alternierende Reihe
k
P∞
n
k
k
k=0 (−1) ck ihre Partialsummen,
k=0 (−1) ck . Bezeichnet s ihren Grenzwert und sn =
dann bilden die Intervalle
In := [s2n+1 , s2n ]
T∞
eine Intervallschachtelung mit n=1 In = {s}.
Beweis. Wir betrachten die Partialsummen s2n und s2n+1 . Weil (ck )k ≥ 0 eine monoton
fallende Folge nichtnegativer reeller Zahlen ist, gilt für alle n
s2n+3 = s2n+1 + (c2n+2 − c2n+3 ) ≥ s2n+1 ,
s2n+2 = s2n + (c2n+2 − c2n+1 ) ≤ s2n
28
Gottfried Wilhelm Leibniz (1646 – 1716) war Diplomat, Philosoph und Mathematiker. Er und Isaac Newton (1642 – 1727) sind die Begründer der Differential- und Integralrechnung. Die Leibnizschen Bezeichnungen
haben sich wegen ihrer Zweckmäßigkeit bis heute in der Analysis erhalten. Die Vorstellungen von Leibniz
und Newton über unendlich kleine (infinitesimale) Zahlen waren logisch anfechtbar und wurden durch die
Methoden von Weierstraß formal aus der Analysis verbannt. Aber sie sind in den Naturwissenschaften von
unverändert großem heuristischen Wert, und sie haben eine späte Erneuerung in der Nichtstandard-Analysis
von Abraham Robinson (1918 – 1974) gefunden.
88
sowie
s2n+3 = s2n+2 − c2n+3 ≤ s2n+2 ,
insgesamt also
s2n+1 ≤ s2n+3 ≤ s2n+2 ≤ s2n .
Für die Intervalle In = [s2n+1 , s2n ] gilt daher In+1 ⊆ In für alle n. Weil (ck )k und daher auch
(s2n − s2n+1 )n eine Nullfolge ist, bilden die In somit eine Intervallschachtelung. Nach dem
Intervallschachtelungsprinzip (Satz 2.24) legt diese genau eine reelle Zahl s fest, und nach
Satz 5.15 gilt
s = lim s2n+1 = lim s2n .
n→∞
n→∞
Dies bedeutet aber, dass auch (sn )n selbst konvergiert29 , und zwar gegen s. Dies zeigt die
Behauptung.
Im Leibniz-Kriterium kann auf die Monotonie der Folge (ck )k nicht verzichtet werden; ein
Beispiel hierzu werden wir in Aufgabe 10.3 (a) kennenlernen.
Beispiel 7.14
(1) Die Reihe
∞
X
1 1 1
1
(−1)n−1 · = 1 − + − + − . . .
n
2 3 4
n=1
heißt die alternierende harmonische Reihe. Sie ist nach Satz 7.13 konvergent. Wie
wir in Kapitel 20 zeigen werden, gilt für den Grenzwert
∞
X
1
(−1)n−1 · = log 2.
n
n=1
(2) Die Reihe
∞
X
(−1)n ·
n=0
1 1 1
1
= 1 − + − + −...
2n + 1
3 5 7
heißt die Leibnizsche Reihe. Sie ist ebenfalls nach Satz 7.13 konvergent. Wie wir in
Satz 20.15 sehen werden, ist
∞
X
(−1)n
n=0
1
π
= .
2n + 1
4
Alternierende Reihen haben den Vorzug, dass je zwei aufeinander folgende Partialsummen eine obere und eine untere Schranke für den Grenzwert liefern. Andererseits
konvergieren sie oft so langsam, dass sie zur numerischen Berechnung des Grenzwerts
völlig ungeeignet sind. Will man etwa mit der Leibnizschen Reihe nur 5 Nachkommastellen von π ausrechnen, so muss man 500.000 Brüche aufaddieren und die dabei
auftretenden Rundungsfehler unter Kontrolle halten.
29
Warnung: Aus der Konvergenz der beiden Teilfolgen (s2n )n und (s2n+1 )n folgt i.Allg. nicht die Konvergenz der Folge (sn )n . Wir können hier nur deshalb so schließen, weil beide Teilfolgen den gleichen Grenzwert
haben.
89
7.4
Kriterien für absolute Konvergenz
Nach der Dreiecksungleichung ist der Betrag einer Summe höchstens so groß wie die Summe
der Beträge. Es ist daher zu erwarten, dass sich die Konvergenz einer Reihe tendenziell
verschlechtert, wenn man die Reihenglieder durch deren Beträge ersetzt. Reihen, die auch
nach diesem relativ rabiaten“ Eingriff noch konvergieren, nennt man absolut konvergent:
”
P∞
Definition 7.15 Eine unendliche
P∞Reihe k=0 ak in R oder in C heißt absolut konvergent, falls die unendliche Reihe k=0 |ak | konvergiert.
Natürlich erwarten wir, dass absolut konvergente Reihen auch im herkömmlichen Sinne konvergieren. Dass sich diese Hoffnung bewahrheitet, verdanken wir der Dreiecksungleichung:
P
Satz 7.16
Jede absolut konvergente Reihe ∞
k=0 ak ist konvergent. Für die Werte der
Reihen gilt die Ungleichung
∞
∞
X
X
ak ≤
|ak |.
k=0
k=0
Beweis. Für beliebige m, n mit n ≥ m ≥ 0 gilt nach der Dreiecksungleichung
n
n
X
X
|ak |.
ak ≤
(7.1)
k=m
k=m
P∞
P
Wir setzen die absolute Konvergenz der Reihe ∞
k=0 |ak |
k=0 ak , d.h. die Konvergenz von
voraus. Es sei eine Zahl ε > 0 gegeben. Nach dem Cauchy-Kriterium in Satz 7.7 gibt es dann
ein N mit
n
X
|ak | < ε
für alle n, m ∈ N mit n ≥ m ≥ N.
k=m
Mit der Abschätzung (7.1) ergibt sich
n
X
ak < ε
für alle n, m ∈ N mit n ≥ m ≥ N.
k=m
Wiederum aus Satz 7.7 folgt somit die Konvergenz der Reihe
P∞
k=0
ak .
Ferner besagt (7.1) für m = 0 insbesondere
n
n
X
X
ak ≤
|ak |
k=0
k=0
für alle n ∈ N. Durch den Grenzübergang n → ∞ folgt hieraus die behauptete Ungleichung
für die Grenzwerte. (Hierbei stützen wir uns auf Satz 5.14 (3).)
90
Aus der Konvergenz einer Reihe kann man umgekehrt nicht auf deren absolute Konvergenz
schließen. So ist etwa die alternierende harmonische Reihe nach dem Leibniz-Kriterium konvergent (Beispiel 7.14 (1)); jedoch ist sie nicht absolut konvergent, da die harmonische Reihe
divergiert. Dies motiviert die folgende Begriffsbildung:
Definition 7.17 Eine unendliche Reihe in R oder C heißt bedingt konvergent, falls
sie konvergiert, aber nicht absolut konvergiert.
Die alternierende harmonische Reihe ist also ein Beispiel für eine bedingt konvergente Reihe.
Zum Nachweis der absoluten Konvergenz ist es oftmals hilfreich, eine Reihe mit einer anderen, deren Konvergenzverhalten bereits bekannt ist, zu vergleichen. Dazu dienen das sog.
Majoranten- und Minorantenkriterium.
P∞
Satz 7.18 (Majorantenkriterium und
Minorantenkriterium)
Es
sei
k=0 ak eine
P∞
unendliche Reihe in R oder C, und es sei k=0 ck eine unendliche Reihe mit reellen Gliedern
ck ≥ 0. Dann gelten die folgenden Aussagen.
P
(1) Wenn die Reihe ∞
k=0 ck konvergiert und
P wenn es ein k0 ∈ N0 gibt, so dass |ak | ≤ ck
für alle k ≥ k0 gilt, dann ist die Reihe ∞
k=0 ak absolut konvergent.
P
und wenn es ein k0 ∈ N0 gibt, so dass |ak | ≥ ck für
(2) Wenn die Reihe ∞
k=0 ck divergiert P
alle k ≥ k0 gilt, dann ist die Reihe ∞
k=0 |ak | divergent.
P
Die Reihe ∞
k=0 ck heißt unter den Voraussetzungen in Teil (1) des Satzes eine konvergente
Majorante
und unter den Voraussetzungen in Teil (2) eine divergente Minorante der
P
|a
Reihe ∞
k |.
k=0
Beweis.
P∞
ist auch
k=k0 ck konvergent. Daher ist die Partialsummenfolge
c
beschränkt.
Hieraus
und aus 0 ≤ |ak | ≤ ck für alle k ≥ k0 ergibt sich,
k=k0 k n
Pn
dass auch die Partialsummenfolge
|a
|
beschränkt ist. Aus Satz 7.11 folgt
k
k=k
0
n∞
P
P
die Konvergenz von ∞
|a
|
und
damit
von
k
k=k0
k=0 |ak |.
(1) Mit
Pn
P∞
c
k=0
k
(2) P
ergibt sich aus (1), wobei allerdings ak und cP
k ihre Rollen tauschen: Wäre die Reihe
∞
∞
k=0 |ak | konvergent, so wäre nach (1) auch
k=0 ck konvergent, im Widerspruch zur
Voraussetzung.
Beispiel
7.19
In Teil (2) von Satz 7.18 kann man nicht auf die Divergenz der Reihe
P∞
k=0 ak schließen, sondern nur auf die Divergenz der Reihe der Absolutbeträge. Auch dies
wird durch die harmonische und die alternierende harmonische
Reihe illustriert: Setzt man
P∞
1
n 1
an := (−1) · n und cn := n , so gilt |an | ≤ cn für alle n, und n=1 cn divergiert. Jedoch ist
P
∞
n=1 an konvergent.
91
Zwei nützliche Konvergenzkriterien erhält man als Spezialfälle aus Satz 7.18, wenn man die
geometrische Reihe zum Vergleich heranzieht: das Wurzel- und das Quotientenkriterium.
P
Satz 7.20 (Wurzelkriterium)
Es sei ∞
k=0 ak eine unendliche Reihe in R oder C. Es
existiere eine Zahl q mit 0 < q < 1 und eine natürliche Zahl k0 mit
p
k
|ak | ≤ q
für alle k ≥ k0 .
Dann ist die Reihe
P∞
k=0
ak absolut konvergent.
Beweis. Wegen der Konvergenz der geometrischen Reihe
k ≥ k0 ist Satz 7.18 (1) anwendbar.
P∞
k=0
q k und wegen |ak | ≤ q k für
P
Satz 7.21 (Quotientenkriterium)
Es sei ∞
k=0 ak eine unendliche Reihe in R oder C.
Wenn eine Zahl q mit 0 < q < 1 und ein k0 ∈ N0 existieren, so dass
ak 6= 0
dann ist die Reihe
P∞
k=0
|ak+1 |
≤q
|ak |
und
für alle k ≥ k0 ,
ak absolut konvergent.
Beweis. Aus der Voraussetzung folgt durch Induktion |ak0 +n | ≤ q n · |ak0 | für alle natürlichen
Zahlen n. Wegen der Konvergenz der geometrischen Reihe ist wieder Satz 7.18 (1) anwendbar.
Bemerkung 7.22
Man kann auch Versionen des Wurzel- bzw. Quotientenkriteriums für
Divergenz formulieren; diese besagen freilich nicht mehr als das notwendige Konvergenzkriterium für Reihen und sind daher eigentlich unnötig. Sie lauten wie folgt:
P
Es sei ∞
k=0 ak eine unendliche Reihe in R oder C. Es sei eine der beiden folgenden Bedingungen erfüllt.
(1) Es gibt ein k0 ∈ N0 , so dass
ak 6= 0
und
|ak+1 |
≥1
|ak |
für alle k ≥ k0 .
(2) Es gibt ein k0 ∈ N0 mit
p
k
Dann ist die Reihe
P∞
k=0
|ak | ≥ 1
für alle k ≥ k0 .
ak divergent.
Begründung: In beiden Fällen ist (ak )k keine Nullfolge. Die Divergenz der Reihe folgt daher
aus Satz 7.8.
92
Beispiel 7.23
(1) Die Reihe
P∞
n
n=0 2n
ist absolut konvergent nach dem Wurzelkriterium: Es gilt nämlich
r
√
n
n
n
n
,
=
n
2
2
√
√
und wegen limn→∞ n n = 1 gibt es ein n0 mit n n < 32 für alle n ≥ n0 . (Tatsächlich
gilt dies sogar für n0 = 1, was hier aber unwesentlich ist.) Es ist dann
r
n
3
n
für alle n ≥ n0 ,
≤
2n
4
so dass wir das Wurzelkriterium mit q :=
3
4
anwenden können.
(2) Die Exponentialreihe
∞
X
zn
n=0
n!
ist für jedes z ∈ C absolut konvergent.
Dies begründen wir mithilfe des Quotientenkriteriums: Für z = 0 ist die Reihe konvergent mit dem Wert 1. (Hier wird die Konvention wirksam, wonach z 0 = 1 für alle
z ∈ C und somit auch für z = 0 ist.) Weiterhin darf also z 6= 0 vorausgesetzt werden.
Dann sind alle Reihenglieder 6= 0, und der Betrag des Quotienten zweier aufeinander
folgender Glieder ist
n+1
z
z n |z|
(n + 1)! : n! = n + 1 .
|z|
Zu gegebenem z gibt es ein N ∈ N mit N ≥ 2|z|. Für alle n ≥ N gilt dann n+1
< 12 . Die
Anwendung des Quotientenkriteriums (Satz 7.21) mit q = 21 liefert somit die absolute
Konvergenz der Exponentialreihe an der Stelle z.
(3) Es sei
(
an :=
Dann ist
(
p
n
|an | =
1
,
2n
1
,
5n
falls n gerade,
falls n ungerade.
)
1
,
2
1
,
5
falls n gerade
2n
5n+1
5n
2n+1
< 1,
falls n gerade,
> 1,
falls n ungerade.
1
≤ .
2
falls n ungerade
P
Nach dem Wurzelkriterium ist daher die Reihe ∞
n=0 absolut konvergent.
Hingegen ist
|an+1 |
=
|an |
(
Das Quotientenkriterium erlaubt daher keine Aussage über die Konvergenz oder Divergenz dieser Reihe.
Wir werden später sehen, dass ganz allgemein das Wurzelkriterium universeller ist als
das Quotientenkriterium: Wenn die Konvergenz einer Reihe mit dem Quotientenkriterium nachweisbar ist, so prinzipiell auch mit dem Wurzelkriterium - jedenfalls in der
Theorie. Der praktische Vorteil des Quotientenkriteriums liegt einzig und allein darin,
dass es manchmal einfacher zu handhaben ist.
93
p
(4) Warnung: Im Wurzelkriterium ist es wesentlich, dass alle n |an | gleichmäßig
von 1
p
n
|an | gibt. Ein
entfernt bleiben, es also eine feste obere Schranke
q < 1 für alle
p
n
häufiger Anfängerfehler besteht darin, P
lediglich
|an | < 1 für alle n nachzuweisen.
Dies ist für die Konvergenz der Reihe ∞
a
viel
zu schwach; es bedeutet nämlich
n=0 n
nicht mehr als |an | < 1 und sichert noch nicht einmal, dass (an )n eine Nullfolge ist.
p
p
Für an := n1 beispielsweise gilt n |an | < 1 für alle n. Jedoch ist limn→∞ n |an | =
p
1, und daher lässt sich kein q < 1 mit n |an | < q für alle n finden. Dies steht in
Übereinstimmung damit, dass die harmonische Reihe divergiert, das Wurzelkriterium
also gar nicht anwendbar sein kann.
≤ q für
Ebenso ist es im Quotientenkriterium wesentlich, ein q < 1 zu finden mit an+1
an alle n; die Bedingung bn+1
< 1 für alle n genügt nicht für Konvergenz, wie wiederum
bn das Beispiel der harmonischen Reihe zeigt.
(5) Die Grenzen des Wurzel- und des Quotientenkriterium werden deutlich, wenn man
sich an deren Beweise erinnert: Beide Kriterien sind nur auf Reihen anwendbar, die
mindestens so gut wie eine geometrische Reihe konvergieren.
Beispielsweise versagen beide Kriterien bei der Reihe
∞
X
1
.
n2
n=1
Denn ebenso wie bei der harmonischen Reihe (siehe (4)) gilt auch hier für die Reihenglieder an := n12
p
an+1
lim
=1
und
lim n |an | = 1.
n→∞ an
n→∞
Tatsächlich ist diese Reihe konvergent (wenngleich wesentlich langsamer als die geometrischen Reihen). Zum Beweis verwendet man die Abschätzung
0<
1
1
1
1
<
= −
2
(n + 1)
n(n + 1)
n n+1
für n ≥ 1. Es folgt für alle N ≥ 1
N
+1
X
n=1
N
X
1
1
= 1+
2
n
(n + 1)2
n=1
N X
1
1
1
< 1+
−
=1+1−
< 2.
n
n
+
1
N
+
1
n=1
Die Folge der Partialsummen
nach oben beschränkt. Aus Satz 7.11 folgt
P∞ist demnach
1
daher die Konvergenz von n=1 n2 , wie behauptet.
Angesichts
letzten Beispiels stellt sich nun die Frage, für welche reellen Zahlen s die
P∞ des
1
Reihe n=1 ns konvergiert30 . Hierbei ist nur der Fall s > 0 von Interesse, denn für s ≤ 0
30
Was die Potenz ns für nicht-ganzzahliges s genau bedeutet, werden wir strenggenommen erst in Abschnitt
12.3 erklären. Einstweilen gehen wir mit solchen Potenzen naiv um und benutzen die aus der Schule dafür
bekannten Rechenregeln.
94
bildet n1s n keine Nullfolge, so dass die fragliche Reihe nicht konvergieren kann. Aus dem
Majorantenkriterium (Satz 7.18) folgt sofort:
∞
X
1
ns
n=1
konvergiert für alle reellen Zahlen s ≥ 2;
denn für alle n ∈ N und alle reellen s ≥ 2 gilt 0 < n1s ≤ n12 . Dieses Ergebnis ist für kein s ≥ 2
direkt aus dem Quotienten- oder Wurzelkriterium herleitbar.
P
1
Nicht konvergent ist die Reihe ∞
n=1 ns für s = 1 (denn dann handelt es sich ja gerade um
die harmonische Reihe), und aufgrund des Minorantenkriteriums erst recht nicht für s < 1.
Es bleibt noch der Fall 1 < s < 2 zu betrachten. Hier kommen wir mit dem Majorantenkriterium nicht weiter. Als hilfreich erweist sich stattdessen das nun folgende Konvergenzkriterium für Reihen mit nichtnegativen Gliedern (das daher im Kern ein Kriterium für absolute
Konvergenz ist).
Satz 7.24 (Verdichtungskriterium)
Zahlen. Dann gilt:
∞
X
Es sei (ak )k eine monoton fallende Folge positiver
∞
X
⇐⇒
ak ist konvergent
2n · a2n ist konvergent.
n=0
k=1
Dass die Monotonievoraussetzung hierbei unverzichtbar ist, werden wir in Aufgabe 10.2
sehen.
Beweis. Der Beweis ähnelt der Argumentation im Beweis von Satz 7.4. Die Idee ist, in den
Partialsummen der gegebenen Reihe jeweils 2k Summanden zusammenzufassen:
N
2
X
ak = a1 + a2 + (a3 + a4 ) + (a5 + · · · + a8 ) + (a9 + · · · + a16 ) + · · · + (a2N −1 +1 + · · · + a2N )
k=1
. . . und diese dann jeweils durch den größten (d.h. ersten) oder kleinsten (letzten) Summanden abzuschätzen. Präziser als in Pünktchenschreibweise lässt sich dies mit dem Summenzeichen ausdrücken. Wir erhalten für alle N ∈ N folgende Abschätzungen:
N
2
X
ak = a1 +
k=1
= a1 +
n
N
X
2
X
n=1
k=2n−1 +1
N
X
(M)
ak ≥ a1 +
n
n−1
2 −2
· a2n
n=1
n
N
X
2
X
n=1
k=2n−1 +1
a2 n
N
1 X n
= a1 + ·
2 · a2n
2 n=1
und
N
2
X
ak = a1 +
n
N
X
2
X
(M)
ak ≤ a1 +
n=1 k=2n−1 +1
k=1
= a1 +
N
X
n−1
2
·a
2n−1
n=1
N
X
n=1 k=2n−1 +1
= a1 +
N
−1
X
n=0
95
n
2
X
2n · a2n ,
a2n−1
wobei wir in (M) jeweils
P N dieMonotonie von (ak )k verwendet haben. Diese beiden
PAbschätzun
2
N
n n
gen zeigen, dass
a
genau
dann
nach
oben
beschränkt
ist,
wenn
2
a
2
k=1 k
n=0
N
N
nach oben beschränkt ist. Hieraus und aus Satz 7.11 ergeben sich nun die folgenden Äquivalenzen:
!
∞
M
X
X
7.11
ak konvergiert ⇐⇒
ak
ist nach oben beschränkt
k=1
k=1

(∗)
⇐⇒ 
2N
X
M
ak 
k=1
⇐⇒
7.11
⇐⇒
N
X
ist nach oben beschränkt
N
!
2n a2n
n=0
∞
X
n
ist nach oben beschränkt
N
2 a2n konvergiert;
n=0
hierbei ist für die Implikation ⇐=“ in (∗) die Monotonie von
”
alle k) wesentlich. Dies zeigt die Behauptung.
P
M
k=1
ak
M
(d.h. ak ≥ 0 für
Beispiel 7.25 Wir greifen
die an Beispiel 7.23 (5) anschließende Frage auf, für welche
P
1
reellen s > 0 die Reihe ∞
n=1 ns konvergiert. Hierzu
wenden wir das Verdichtungskriterium
1
1
auf an := ns an; dies ist möglich, da die Folge ns n monoton fällt. Es gilt
k
1
1
k
k
2 a2k = 2 · k s =
(2 )
2s−1
für alle k. Für s > 1 ist q :=
1
2s−1
< 1. Daher ist die verdichtete Reihe“
”
∞
∞
X
X
1
qk
2k · k s =
(2
)
k=0
k=0
als geometrische Reihe konvergent (und zwar gegen
P
1
Reihe ∞
n=1 ns nach dem Verdichtungskriterium.
1
).
1−q
Also konvergiert für s > 1 die
Auch für die Divergenz der harmonischen Reihe erhalten wir auf diese
einen neuen
P∞ Weise
k
Beweis: Für s = 1 ist nämlich 2k a2k = 1 für alle k, so
dass
die
Reihe
2
·
a
2k divergiert
P∞ 1 k=0
P∞
- und damit nach dem Verdichtungskriterium auch n=1 an = n=1 n .
Damit können wir zusammenfassen: Die Reihe
(
∞
X
konvergiert für alle reellen s > 1,
1
n=1
ns
divergiert für alle reellen s ≤ 1.
Bei s = 1 liegt also die Grenze zwischen Konvergenz und Divergenz.
Eine andere (verwandte) Methode, diese Ergebnisse zu beweisen, werden wir in der Integralrechnung in Form des Integralvergleichskriteriums (Satz 21.4) kennenlernen.
Ausblick: Erstaunlicherweise kann man für geradzahliges s die Werte dieser Reihe explizit
angeben. Beispielsweise gilt nach einem berühmten Resultat von Euler
∞
X
1
π2
=
.
2
n
6
n=1
96
7.5
Umordnung von Reihen
Eine (endliche) Summe von Zahlen bleibt ungeändert, wenn man die Reihenfolge der Summanden ändert. Gilt diese Aussage auch für unendliche Reihen?
Beispiel 7.26
Wir betrachten die alternierende harmonische Reihe 1 − 12 + 13 − 14 + − . . ..
Hierin stellen wir die Summationsreihenfolge um, indem wir abwechselnd zwei positive und
ein negatives Glied berücksichtigen. Es entsteht die Reihe
1+
1 1 1 1 1
− + + − + + − ... .
3 2 5 7 4
(7.2)
Bezeichnet s den Grenzwert der alternierenden harmonischen Reihe, so gilt nach den
Abschätzungen im Leibniz-Kriterium
s<1−
1 1 1 1
47
+ − + = .
2 3 4 5
60
Für die Partialsummen un der umgeordneten Reihe (7.2) gilt
u3n =
n X
k=1
1
1
1
+
−
4k − 3 4k − 1 2k
.
Wegen
1
1
1
+
−
>0
4k − 3 4k − 1 2k
folgt u3 < u6 < u9 < . . . , wobei u3 = 1 + 31 −
u3n ≥ u3 =
1
2
=
für alle k ≥ 1
5
6
ist. Es ist also für alle n ∈ N
47
5
>
> s.
6
60
Daher kann die umgeordnete Reihe – wenn sie denn überhaupt konvergiert – jedenfalls nicht
gegen den gleichen Grenzwert wie die alternierende harmonische Reihe streben.
Wie wir in Satz 7.28 zeigen werden, ist ein solches Phänomen bei absolut konvergenten Reihen
ausgeschlossen. Zunächst müssen wir erklären, was genau wir unter einer Reihenumordnung
verstehen.
P
Definition 7.27 Es sei ∞
n=0 an eine unendliche Reihe in R oder C. Ist σ eine beliebige
Permutation von N0 , also σ ∈ Sym(N0 ) (vgl. Beispiel 2.3 (2)), dann heißt die Reihe
∞
X
aσ(n) = aσ(0) + aσ(1) + aσ(2) + . . .
n=0
eine Umordnung der Reihe
P∞
n=0
an .
Jedes Glied an der Ausgangsreihe tritt also genau einmal als Glied in der umgeordneten Reihe
auf, aber möglicherweise erst an einer sehr späten Stelle. Als Beispiel betrachte man etwa die
Permutation σ, die die gerade Zahl 2n auf 10n abbildet und zwischen den Zehnerpotenzen
alle ungeraden Zahlen der Größe nach auflistet.
97
P
Satz 7.28 (Reihenumordnung)
Es sei ∞
k=0 ak eine absolut konvergente Reihe in R
oder C, und es sei s ihr Wert. Dann ist auch jede Umordnung dieser Reihe absolut konvergent
mit dem Wert s.
Beweis. Es seien eine Permutation σ von N0 und eine Zahl ε > 0 gegeben. Wir setzen
bk := aσ(k) .
P
Wegen der absoluten Konvergenz der Reihe ∞
k=0 ak existiert nach Korollar 7.10 ein N1 ∈ N
mit
∞
X
|ak | < ε.
k=N1
Weil σ surjektiv ist, gibt es ein N2 ≥ N1 mit
{0, 1, 2, . . . , N1 } ⊆ {σ(0), σ(1), σ(2), . . . , σ(N2 )}.
Es sei n ≥ N1 und t ≥ N2 . In jeder der beiden Partialsummen
n
X
ak
t
X
und
bj
j=0
k=0
kommen dann alle Reihenglieder a0 , a1 , . . . , aN1 vor. Für die Differenz der beiden Partialsummen folgt also
∞
t
n
X
X
X
|ak | < ε .
ak ≤
bj −
j=0
k=N1 +1
k=0
Das gilt bei festem t ≥ N2 für jedes n ≥ N1 . Deshalb folgt auch
t
X
bj − s ≤ ε
j=0
für jedes t ≥ N2 . Damit ist die Konvergenz der Reihe über die bj und auch die Behauptung
∞
X
bj = s
j=0
über den Grenzwert bewiesen. Die Überlegung bleibt mit |ak | und |bk | anstelle von ak und
bk gültig, und somit ist die umgeordnete Reihe auch absolut konvergent.
Wie wir am Beispiel der alternierenden harmonischen Reihe plausibel gemacht haben, wird
das Konvergenzverhalten bedingt konvergenter Reihen durch Umordnen gestört. Durch geeignetes Umordnen kann man sogar eine Reihe mit einer beliebig vorgegebenen Zahl als
Grenzwert herstellen:
P
Satz 7.29 (Umordnungssatz von Riemann31 )
Es sei ∞
n=0 an eine bedingt konvergente Reihe von reellen Zahlen an . Zu jeder Zahl c ∈ R gibt es dann eine Umordnung der
Reihe, die gegen den Wert c konvergiert. Außerdem gibt es Umordnungen, die divergieren.
31
Das Werk von Bernhard Riemann (1826 – 1866) ist nicht allzu umfangreich, aber äußerst gehaltvoll. Es
enthält bahnbrechende Beiträge zur Analysis, Geometrie und Zahlentheorie. Berühmt sind seine Habilitationsvorlesung Ueber die Hypothesen, welche der Geometrie zu Grunde liegen, und sein Aufsatz Ueber die
Anzahl der Primzahlen unter einer gegebenen Grösse mit der noch immer nicht bewiesenen (oder widerlegten) Riemannschen Vermutung, die als das wohl größte ungelöste Problem der gesamten Mathematik gilt.
Wir werden vor allem in der Integrationstheorie wieder auf Riemann treffen.
98
Beweisidee. Vollständige Beweise finden sich u.a. in [Blatter], Band 1, S. 98 oder [Heuser 1],
S.198. Der Beweis ist recht technisch. Daher und weil wir das Resultat später nicht benötigen
werden, beschränken wir uns auf eine kurze Skizze der Beweisidee:
Zunächst zeigt man, dass die Teilreihe aus allen Gliedern an > 0 und auch die Teilreihe aus
allen Gliedern an < 0 divergiert; in etwas suggestiver Schreibweise
X
X
an = ∞,
an >0
Begründung: Wäre
P
an >0
an = −∞.
an <0
an konvergent, so auch
X
an =
an <0
∞
X
X
an −
n=0
an
an >0
als Differenz zweier konvergenter Reihen. Dann wäre aber auch
∞
X
n=0
|an | =
X
an >0
an −
X
an
an <0
konvergent, im Widerspruch
nicht abPzu der Voraussetzung, dass die ursprüngliche ReiheP
solut konvergiert. Also ist an >0 an divergent. Analog folgt die Divergenz von an <0 an .
Sowohl die positiven als auch die negativen Glieder stellen also gewissermaßen ein unerschöpfliches Reservoir dar.
Nun sei ein c ∈ R gegeben. Dann addiert man so viele Anfangsglieder an > 0 auf, bis
c erstmals übertroffen wird. Hierauf addiert man so viele Anfangsglieder an < 0, bis der
Wert c erstmals wieder unterschritten wird. Beides ist möglich wegen der Divergenz der
Teilreihen der positiven und der negativen Glieder. Anschließend addiert man wieder so
viele positive an vom Anfang des verbliebenen positiven Reservoirs“ auf, bis c überschritten
”
wird. So fortfahrend erhält man eine Umordnung der ursprünglichen Reihe; dass man sich
jeweils aus dem Anfang des positiven bzw. negativen Reservoirs bedient, stellt sicher, dass
tatsächlich alle Folgenglieder verwendet werden, keines für immer vergessen“ wird. Und
”
da wir jedesmal nur so viele Summanden wählen, dass c gerade über- oder unterschritten
wird, ist der Abstand der Partialsummen zu c höchstens so groß wie der Betrag des zuletzt
beim Umschalten“ zwischen positiven und negativen an verwendeten Folgengliedes; dieser
”
Abstand bildet also eine Nullfolge. Dies bedeutet definitionsgemäß, dass der Reihenwert bei
dieser Umordnung gerade c ist.
Mit einer leichten Modifikation dieser Überlegung kann man zeigen, dass es auch Umordnungen gibt, deren Partialsummen gegen +∞ oder −∞ streben (also divergieren).
Der Umordnungssatz von Riemann zeigt eindrucksvoll, dass für unendliche Reihen i.Allg.
kein Kommutativgesetz gilt – ein Grund mehr, diese nicht einfach als unendliche Summen“
”
anzusehen!
99
7.6
Produkte von Reihen
Das Produkt zweier (endlicher) Summen
Zahlen an und bn kann als Doppelsumme
PN
n=0
N X
N
X
an und
PN
n=0 bn
von reellen oder komplexen
aj b k
(7.3)
j=0 k=0
geschrieben werden. Hierbei kommt es aufgrund der Kommutativität der Addition nicht auf
die Reihenfolge der Summanden an. Wenn wir die (N + 1)2 =: m Produkte aj bk also in
irgendeiner Reihenfolge c1 , . . . , cm sortieren, so ist
N
X
an ·
n=0
N
X
bn =
n=0
m
X
c` .
(7.4)
`=0
Nun seien zwei konvergente unendliche Reihen
A :=
∞
X
an
und
B :=
n=0
∞
X
bn
n=0
von reellen oder komplexen Zahlen an und bn gegeben. Unser Ziel ist es, deren Produkt
wieder als (konvergente) Reihe darzustellen.
P
Natürlich werden wir die beiden Reihen als Grenzwerte der Partialsummen N
n=0 an und
PN
n=0 bn für N → ∞ ansehen wollen. Es scheint daher naheliegend, auch in (7.3) den
Grenzübergang N → ∞ zu betrachten. Dabei stellt sich aber das Problem, dass es sich
bei (7.3) um eine Doppelsumme handelt, in der die Summationsobergrenze N an zwei Stellen auftaucht und die daher keine Partialsumme einer unendlichen Reihe ist. Dieser Ansatz
führt also zu nichts.
Stattdessen müssen wir aus der Doppelsumme (7.3) erst eine gewöhnliche Summe machen,
wie auf der rechten Seite von (7.4), und können dann den Grenzübergang N → ∞ (bzw.
m → ∞) ausführen. Dabei stellt sich aber die Frage, in welcher Reihenfolge die Terme aj bk
in der Liste c1 , . . . , cm sortiert sein sollen. Dass es bei unendlichen Reihen durchaus auf die
Reihenfolge der Glieder ankommt, haben wir ja im letzten Abschnitt leidvoll“ erfahren. Und
”
damit sind wir wieder mitten in den Verstrickungen, die das Unendliche mit sich bringt...
Beim Multiplizieren der beiden Reihen A und B müssen wir also zunächst alle Produkte
a0 b 0 a0 b 1 a0 b 2
a1 b 0 a1 b 1 a1 b 2
a2 b 0 a2 b 1 a2 b 2
..
..
..
.
.
.
...
...
...
..
.
bilden, diese in einer geeigneten Reihenfolge zu einer Folge
c0 , c1 , c2 , . . .
ordnen und uns anschließend um zwei Fragen kümmern, die im Fall endlicher Summen gar
nicht auftreten:
• Konvergiert die Reihe
P∞
n=0 cn ?
100
• Wenn ja, stimmt ihr Wert mit dem Produkt AB der Werte der beiden gegebenen
Reihen überein?
Durchaus vorstellbar ist, dass nur für gewisse Anordnungen der Produkte aj bk zu einer Folge
(c
Pn∞)n Konvergenz vorliegt und dass von diesen Anordnungen nur für einige die Beziehung
n=0 cn = AB gilt.
Angesichts von Satz 7.28 ist es nicht sonderlich überraschend, dass es wiederum die absolute
Konvergenz ist, die eine positive Antwort auf beide Fragen
P∞sicherstellt: Falls beide Reihen A
und B absolut konvergieren, so ist die Produktreihe“ n=0 cn konvergent gegen AB, und
”
zwar unabhängig von der gewählten Reihenfolge der aj bk .
P
P∞
Satz 7.30
Es seien ∞
n=0 an und
n=0 bn absolut konvergente Reihen von reellen oder
komplexen Zahlen an und bn , und es seien A und B ihre Grenzwerte. Es sei (cn )P
n≥0 eine
∞
beliebige Abzählung der Produkte aj bk (j, k = 0, 1, 2, . . . ). Dann ist die Reihe
n=0 cn
absolut konvergent, und es gilt
∞
X
cn = A · B.
n=0
Beweis. Es sei ein N ∈ N gegeben. Dann gibt es ein p ∈ N, so dass c0 , . . . , cN allesamt in
der Liste der Produkte aj bk mit j, k ≤ p vorkommen. Damit folgt
N
X
n=0
|cn | ≤
p
p
X
X
j=0 j=0
|aj bk | =
p
X
j=0
|aj | ·
p
X
k=0
|bk | ≤
∞
X
|aj | ·
j=0
∞
X
|bk | =: M.
k=0
Hierbei sind die beiden Reihen rechts konvergent aufgrund der Voraussetzung über die absolute Konvergenz; M ist also
Zahl, und sie ist unabhängig von N . Dies zeigt, dass
Peine reelle
N
beschränkt ist. Gemäß Satz 7.11 ist also die Reihe
die Partialsummenfolge
n=0 |cn |
N
P∞
n=0 cn absolut konvergent.
Wegen Satz 7.28 liefern daher alle Umordnungen dieser Reihe den gleichen Grenzwert. Dieser
sei mit C bezeichnet.
Um die noch ausstehende Grenzwertbeziehung C = A · B zu zeigen, genügt es daher, wenn
wir dies für eine spezielle Anordnung der cn tun. Hierzu betrachten wir folgende quadratische
Anordung:
a0 b 0
a0 b 1
a0 b 2
a0 b 3 . . .
↑
a1 b 0 → a1 b 1
↑
a1 b 2
↑
a2 b 0 → a2 b 1 → a2 b 2
↑
a1 b 3 . . .
↑
a2 b 3 . . .
↑
a3 b 0 → a3 b 1 → a3 b 2 → a3 b 3 . . .
..
..
..
..
..
.
.
.
.
.
101
Es sei also c0 := a0 b0 , c1 := a1 b0 , c2 := a1 b1 , c3 := a0 b1 , c4 := a2 b0 usw. Diese Anordnung ist
so gewählt, dass die ersten n2 Folgenglieder c` gerade die n2 Produkte aj bk mit j, k ≤ n − 1
abdecken. Daher ist für alle n
n X
n
X
c0 + c1 + · · · + c(n+1)2 −1 =
aj b k =
n
X
j=0 k=0
aj ·
j=0
n
X
bk −→ AB
(n → ∞).
k=0
Andererseits gilt aufgrund des bereits Bewiesenen (und der Definition von C)
c0 + c1 + · · · + c(n+1)2 −1 −→ C
(n → ∞).
Die Eindeutigkeit des Grenzwerts ergibt C = AB. Damit ist der Satz bewiesen.
Die wohl wichtigste Anordnung der Produkte aj bk geht auf Cauchy zurück. Die Idee dabei ist,
diese Terme nach der Indexsumme j + k =: n zu sortieren (und die mit gleicher Indexsumme
zusammenzufassen). Wenn man sich die aj bk wie oben zweidimensional angeordnet vorstellt,
läuft dies darauf hinaus, nacheinander die Diagonalen dieser Anordnung zu durchlaufen:
a0 b 0
a0 b 1
%
a1 b 0
a0 b 2
%
a1 b1
%
a2 b 0
a1 b 2
a2 b 1
a3 b 0
%
%
%
a0 b 3
a0 b 4 . . .
%
a1 b 3
...
%
a2 b 2
...
%
a3 b 1
...
%
a4 b0
..
.
...
P∞
P
Definition 7.31 Es seien ∞
n=0 bn unendliche Reihen aus reellen oder komn=0 an und
plexen
Zahlen
a
und
b
.
Das
Cauchy-Produkt
dieser Reihen ist die unendliche Reihe
n
n
P∞
n=0 cn mit
cn :=
X
k+j=n
ak b j =
n
X
ak bn−k = a0 bn + a1 bn−1 + . . . + an−1 b1 + an b0 .
k=0
Als Spezialfall von Satz 7.30 ergibt sich nun:
P
P∞
Korollar 7.32 (Cauchy-Produkte) Es seien ∞
n=0 an und
n=0 bn absolut konvergente
Reihen von reellen oder komplexen Zahlen an und bn , und es seien A und B ihre Grenzwerte.
Dann ist das Cauchy-Produkt der beiden Reihen absolut konvergent mit dem Grenzwert AB.
Für bedingt konvergente Reihen bleiben Satz 7.30 und Korollar 7.32 i. Allg. nicht gültig.
102
7.7
Die Exponentialfunktion
Ein gutes Beispiel zur Anwendung des Cauchy-Produktes bietet die Exponentialfunktion,
die wir jetzt offiziell definieren wollen.
Definition 7.33 Nach Beispiel 7.23 (3) ist die Exponentialreihe
absolut konvergent. Durch
∞
X
zn
exp(z) :=
n!
n=0
P∞
zn
n=0 n!
in jedem z ∈ C
wird daher eine Funktion exp : C −→ C definiert. Diese heißt die Exponentialfunktion.
Satz 7.34 (Exponentialfunktion)
schaften.
Die Exponentialfunktion hat die folgenden Eigen-
(1) Es gilt exp(0) = 1, exp(1) = e und exp(x) ∈ R für alle x ∈ R.
(2) (Additionstheorem der Exponentialfunktion) Für alle z, w ∈ C gilt
exp(z + w) = exp(z) · exp(w).
(3) Für alle z ∈ C ist exp(z) 6= 0 und 1/ exp(z) = exp(−z).
Für alle x ∈ R ist exp(x) > 0.
(4) Für alle m ∈ Z gilt exp(m) = em . (Hierbei ist em wie in Bemerkung 2.6 (2) definiert.
Insbesondere ist em = e| · .{z
. . · e} für m ∈ N).
m−mal
Beweis.
(1) Die Aussagen exp(0) = 1 und exp(x) ∈ R für alle x ∈ R sind klar. Aus der Definition
der Exponentialfunktion und der Eulerschen Zahl (Satz 7.5) folgt sofort exp(1) = e.
(2) Für alle z, w ∈ C folgt aus dem Satz über Cauchy-Produkte (Korollar 7.32) und aus
dem Binomischen Lehrsatz
∞
∞
X
z n X wn
exp(z) · exp(w) =
·
n!
n!
n=0
n=0
∞
n
X
X
z k wn−k
=
k!(n − k)!
n=0
k=0
∞
X
1
=
n!
n=0
=
∞
X
n=0
n
X
k=0
!
n!
· z k wn−k
k!(n − k)!
1
(z + w)n = exp(z + w) .
n!
103
!
(3) Aus dem soeben bewiesenen Additionstheorem ergibt sich
exp(z) exp(−z) = exp(z − z) = exp(0) = 1
für alle z ∈ C.
Hieraus folgt exp(z) 6= 0 und 1/ exp(z) = exp(−z) für alle z ∈ C.
Für reelle x > 0 hat die Exponentialreihe nur positive Glieder und das Anfangsglied
1. Deshalb gilt exp(x) > 1 für alle reellen x > 0. Wegen exp(0) = 1 und exp(−x) =
1/ exp(x) folgt exp(x) > 0 für alle reellen x. Damit ist (3) bewiesen.
(4) Aus exp(0) = 1, exp(1) = e und dem Additionstheorem in (2) folgt durch Induktion
exp(m) = em für alle m ∈ N0 .
Mit (3) ergibt sich für m ∈ N weiter exp(−m) = 1/ exp(m) = 1/em = e−m . Damit ist
(4) bewiesen.
Satz 7.34 (4) rechtfertigt die bekannte Schreibweise exp(z) = ez zumindest für den Fall
reeller, ganzzahliger z. Dass diese Formel für alle z ∈ C gilt, werden wir erst in Kapitel 12
begründen; dazu müssen wir insbesondere erklären, was ez für nicht-ganzzahliges z überhaupt
bedeutet.
Wir zeigen nun noch die Irrationalität der Eulerschen Zahl.
Korollar 7.35
Die Zahl e ist irrational.
Beweis. Wir nehmen an, dass e ∈ Q ist. Dann gibt es a, b ∈ N mit e = ab . Für jedes N ≥ b
ist dann
!
N
N
X
N! X N!
1
=a·
−
∈Z
αN := N ! · e −
k!
b
k!
k=0
k=0
eine ganze Zahl (da b und k! für k ≤ N Teiler von N ! sind). Andererseits gilt
∞
X
1
N!
1
1
αN = N ! ·
=
· 1+
+
+ ... ,
k!
(N
+
1)!
N
+
2
(N
+
2)(N
+
3)
k=N +1
und mit einer Abschätzung durch die geometrische Reihe folgt für N ≥ b
1
1
1
1
1
1
1
0 < αN <
· 1+
+
+ ... =
·
=
≤ ,
1
2
N +1
N + 1 (N + 1)
N + 1 1 − N +1
N
2
womit wir eine natürliche Zahl gefunden hätten, die echt zwischen 0 und 1 liegt. Dies ist
absurd. Also ist e irrational.
Die Folge der Partialsummen der e definierenden Reihe liefert also ein weiteres Beispiel einer
Cauchyfolge rationaler Zahlen, die nicht in Q konvergiert.
104
7.8
Partielle Summation und das Abelsche Konvergenzkriterium∗
Wir wollen noch ein Kriterium beweisen, das sich zur Anwendung auf bedingt konvergente
Reihen eignet und allgemeiner als das Leibnizsche Kriterium in Satz 7.13 ist. Zum Beweis
benötigen wir einen Trick, der auch in anderem Kontext gelegentlich nützlich ist:
Lemma 7.36 (Partielle Summation)
Es seien (ck )k≥0 und (sk )k≥0 Folgen von komplexen Zahlen. Für alle ganzen Zahlen m und n mit m > n ≥ 0 gilt dann
m
X
ck (sk − sk−1 ) = (cm+1 sm − cn+1 sn ) −
k=n+1
m
X
(ck+1 − ck )sk .
k=n+1
Beweis. Wir zerlegen die Summe
m
X
Am,n :=
ck (sk − sk−1 )
k=n+1
in zwei Summen gemäß
Am,n =
m
X
m
X
ck s k −
ck sk−1 .
k=n+1
k=n+1
Eine Indexverschiebung in der zweiten Summe ergibt
Am,n =
m
X
ck s k −
k=n+1
=
m
X
m−1
X
ck+1 sk
k=n
(ck − ck+1 )sk + cm+1 sm − cn+1 sn .
k=n+1
Der Witz bei der partiellen Summation ist, dass der Übergang von den Differenzen sk −
sk−1 zu den Differenzen ck+1 − ck manchmal vorteilhaft ist. Im Beweis des folgenden Satzes
werden wir ein Beispiel hierzu sehen. Ein Analogon zur partiellen Summation ist die partielle
Integration, die wir in den Kapiteln 16 und 18 kennenlernen werden.
Satz 7.37 (Abelsches Konvergenzkriterium)
Es sei (zn )n≥0 eine Folge von (reellen
oder) komplexen Zahlen, und es sei (cn )n≥0Peine monoton fallende Nullfolge von positiven
Zahlen. Die Folge der Partialsummen sn = nk=0 zk sei beschränkt. Dann ist die Reihe
∞
X
cn zn
n=0
konvergent.
105
Beweis. Nach Voraussetzung gibt es eine Zahl M > 0 mit |sn | ≤ M für alle n ∈ N0 . Für
m > n ≥ 0 erhält man durch partielle Summation (Lemma 7.36)
m
X
k=n+1
ck zk =
m
X
ck (sk − sk−1 )
k=n+1
= cm+1 sm − cn+1 sn −
m
X
(ck+1 − ck )sk .
k=n+1
Weil die Folge der cn > 0 monoton fällt, folgt hieraus mit der Dreiecksungleichung
m
m
X
X
ck zk ≤ cm+1 |sm | + cn+1 |sn | +
(ck − ck+1 )|sk |
k=n+1
k=n+1
!
m
X
≤ M · cm+1 + cn+1 +
(ck − ck+1 )
k=n+1
= M · (cm+1 + cn+1 + cn+1 − cm+1 )
= 2M cn+1 .
Da (cn )n eine Nullfolge ist, ergibt sich die Behauptung aus dem Cauchy-Kriterium für Reihen
(Satz 7.7).
Beispiel 7.38
P
(1) Es sei zn = (−1)n . Die Partialsummen sn = nk=0 zk sind dann abwechselnd 1 und 0,
bleiben also beschränkt. Somit ist das Abelsche Kriterium anwendbar. Es liefert die
Konvergenz von
∞
X
(−1)n cn
n=0
für jede monoton fallende Nullfolge von Zahlen cn > 0. Dies ist gerade die Aussage des
Leibniz-Kriteriums (Satz 7.13).
(2) Nun ein Beispiel, in dem das Leibniz-Kriterium nicht anwendbar ist, das Abelsche
Kriterium hingegen schon.
Es sei z eine komplexe Zahl mit dem Betrag |z| = 1, aber es sei z 6= 1. Es sei also
z irgendein von 1 verschiedener Punkt auf der Einheitskreislinie. Wir setzen zn = z n .
Für die Partialsummen
sn =
n
X
zk = 1 + z + z2 + . . . + zn
k=0
ergibt die geometrische Summenformel
1 − z n+1
;
sn =
1−z
hieraus erhalten wir die Abschätzung
|sn | ≤
1
2
· (1 + |z n+1 |) =
.
|1 − z|
|1 − z|
106
Demnach
Folge der sn beschränkt. Aus Satz 7.37 folgt somit die Konvergenz
P ist die
n
von ∞
c
z
für
jede monoton fallende Nullfolge von Zahlen cn > 0. Für cn = n1
n=0 n
erhalten wir: Die Reihe
∞
X
1 n
·z
n
n=1
konvergiert für jedes z ∈ C mit |z| = 1, z 6= 1 .
Ausblick: Sobald in Kapitel 12 die trigonometrischen Funktionen sin und cos
verfügbar sind, kann man hierin z = eix = cos x + i sin x mit 0 < x < 2π einsetzen. Wegen z n = einx = cos(nx) + i sin(nx) liefert das die Konvergenz der Reihen
∞
X
cos(nx)
n
n=1
und
für 0 < x < 2π.
∞
X
sin(nx)
n
n=1
Abbildung 10: Die harmonische Reihe: Sie konvergiert zwar nicht, klingt aber schön. (Zeichnung:
Jens Jordan)
107
8
Ein wenig Topologie
In Kapitel 4 hatten wir die topologischen Grundbegriffe Offenheit und Abgeschlossenheit
in allgemeinen metrischen Räumen eingeführt. Die Theorie der Konvergenz von Folgen
ermöglicht nun einige weiterführende topologische Betrachtungen.
Trost und Ermutigung: Die topologischen Schlussweisen, mit denen wir im Folgenden zu
tun haben, sind relativ abstrakt und dadurch anfangs sicherlich gewöhnungsbedürftig. Es ist
empfehlenswert, sich die Überlegungen zunächst in R, R2 oder R3 zu veranschaulichen (wobei
man sich manches in R2 oder R3 vielleicht sogar besser vorstellen kann als in R). Aufgrund
ihrer Abstraktheit führen wir topologische Begriffe nur behutsam und schrittweise ein. Mit
dem relativ komplizierten Begriff der Überdeckungskompaktheit beispielsweise warten wir
bis zur Analysis II.
8.1
Häufungspunkte von Mengen und Abgeschlossenheit
Aus Kapitel 4 kennen wir den Begriff der ε-Umgebung (als Synonym für ε-Kugel). Etwas
allgemeiner können wir Umgebungen eines Punktes wie folgt erklären.
Definition 8.1 Es sei X ein metrischer Raum und a ∈ X. Eine Teilmenge U von X heißt
eine Umgebung von a, falls es eine offene Kugel um a gibt, die ganz in U enthalten ist,
falls also ein ε > 0 existiert mit Uε (a) ⊆ U . Wenn U eine Umgebung von a ist, dann nennen
wir U \ {a} eine punktierte Umgebung von a. Insbesondere ist U̇ε (a) := Uε (a) \ {a} die
punktierte ε-Umgebung von a.
Die Umgebungen eines Punktes müssen keine offenen Mengen sein. In jeder Umgebung U
von a ist jedoch eine offene Umgebung von a enthalten, nämlich eine ε-Umgebung Uε (a).
In Abschnitt 6.2 hatten wir Häufungswerte von Folgen kennengelernt. Eng verwandt damit –
aber begrifflich dennoch davon zu unterscheiden – ist der Begriff des Häufungspunktes einer
Menge.
Definition 8.2 Es sei D eine Teilmenge eines metrischen Raumes X, und es sei a ∈ X.
Man nennt a einen Häufungspunkt der Menge D, falls eine (und folglich jede) der vier
folgenden äquivalenten Bedingungen erfüllt ist.
(a) Zu jeder Zahl ε > 0 gibt es einen Punkt x ∈ D mit x 6= a und x ∈ Uε (a).
(b) In jeder punktierten Umgebung von a gibt es einen Punkt von D.
(c) In jeder Umgebung von a gibt es unendlich viele Punkte von D.
(d) Es gibt eine Folge (xn )n in D \ {a}, die gegen a konvergiert.
Beweis der Äquivalenz von (a), (b), (c), (d). Es genügt, folgende Implikationen zu
zeigen: (a) =⇒ (b) =⇒ (c) =⇒ (a) ⇐⇒ (d).
Hierbei sind die Implikationen (a) =⇒ (b) und (c) =⇒ (a) klar. Die Implikation (d) =⇒
(a) folgt sofort aus der Definition von Konvergenz.
108
Zum Nachweis von (b) =⇒ (c) setzen wir voraus, dass (c) nicht gültig ist. Dann gibt es eine
Umgebung U von a, in der nur endlich viele Punkte von D liegen. Im Falle U ∩ D ⊆ {a} ist
(b) nicht gültig. Anderenfalls haben die Abstände zwischen a und den endlich vielen Punkten
x 6= a in U ∩ D ein positives Minimum δ. Es folgt U̇δ (a) ∩ D = ∅, und somit ist (b) nicht
gültig.
Schließlich bleibt noch (a) =⇒ (d) zu zeigen. Unter der Voraussetzung in (a) kann man zu
jedem n ∈ N ein xn ∈ D ∩ U̇1/n (a) finden. Hierdurch erhält man eine Folge (xn )n in D \ {a}.
Bezeichnet d die Metrik auf X, so gilt d(xn , a) < n1 für alle n. Hieraus folgt, dass (xn )n gegen
a konvergiert. Also gilt (d).
Beispiel 8.3
(1) Ein Häufungspunkt einer Menge D kann selber zu D gehören, muss es aber nicht.
Beispielsweise haben die Intervalle [a, b] und ]a, b[ beide den Häufungspunkt a, dieser
gehört aber nur zu dem ersten der beiden Intervalle.
(2) Man muss Häufungspunkte von Mengen von Häufungswerten einer Folge unterscheiden:
Ist (an )n eine Folge in X, dann ist jeder Häufungspunkt der Menge {an | n ∈ N} auch
ein Häufungswert der Folge (an )n ; aber die Umkehrung gilt nicht, wie folgendes Beispiel
zeigt:
Die reelle Zahlenfolge (an )n sei durch an := (−1)n definiert. Diese Folge hat die beiden
Häufungswerte 1 und −1. Aber die Menge A = {an | n ∈ N} besteht nur aus den
beiden (isolierten) Punkten 1 und −1 und besitzt somit keinen Häufungspunkt.
(3) Es sei
1 D := m + m ∈ Z, n ∈ N .
n
Die Menge der Häufungspunkte von D in R ist dann gleich der Menge Z aller ganzen
Zahlen.
(4) Nach Satz 2.42 ist Q dicht in R. Jede reelle Zahl ist also ein Häufungspunkt der Menge
Q der rationalen Zahlen.
Im Kontrast zu den Häufungspunkten einer Menge stehen die isolierten Punkte.
Definition 8.4 Es sei X ein metrischer Raum und D ⊆ X. Ein Punkt a ∈ D heißt ein
isolierter Punkt von D, falls er kein Häufungspunkt von D ist, falls es also ein δ > 0 gibt
mit
D ∩ Uδ (a) = {a},
d.h.
D ∩ U̇δ (a) = ∅.
Eine Teilmenge N ⊆ X heißt isoliert in X oder diskret in X, falls N keine Häufungspunkte
in X hat, falls es also zu jedem x ∈ X ein δ > 0 gibt, so dass U̇δ (x) ∩ N = ∅ ist.
109
Beispiel 8.5
(1) Jeder Punkt von Z ist ein isolierter Punkt von Z (als Teilmenge von R). Die Menge Z
liegt isoliert in R.
(2) Es sei
D :=
1 n∈N .
n
Jeder Punkt n1 ist ein isolierter Punkt von D, d.h. D besteht nur aus isolierten Punkten.
Jedoch ist 0 ein Häufungspunkt von D, d.h. die Menge D ist nicht isoliert in R.
Der Begriff des Häufungspunktes gestattet eine neue, wichtige Charakterisierung von Abgeschlossenheit. Wir erinnern daran, dass abgeschlossene Mengen definitionsgemäß die Komplemente offener Mengen sind. Eine Teilmenge V eines metrischen Raumes heißt nach unserer
Definition in Abschnitt 4 offen, falls es zu jedem Punkt a ∈ V ein ε > 0 gibt mit Uε (a) ⊆ V .
Satz 8.6 (Abgeschlossenheit)
Für Teilmengen A eines metrischen Raumes X sind
die drei folgenden Aussagen äquivalent.
(a) Die Menge A ist abgeschlossen, d.h. das Komplement X \ A ist offen.
(b) Die Menge A enthält alle ihre Häufungspunkte.
(c) Für jede Folge (an )n in A gilt: Falls (an )n in X konvergiert, so ist limn→∞ an ∈ A.
Beweis. (a) =⇒ (c)“: Wir setzen voraus, dass U = X \ A offen ist. Es sei eine konvergente
”
Folge (an )n von Punkten an ∈ A gegeben. Wir nehmen an, ihr Grenzwert a = limn→∞ an
läge in U . Weil U offen ist, gibt es dann ein ε > 0 mit Uε (a) ∩ A = ∅. Zu diesem ε gibt es
ein N ∈ N mit an ∈ Uε (a) für alle n ≥ N . Es folgt an 6∈ A für n ≥ N , und wir haben einen
Widerspruch. Daher ist a ∈ A. Damit ist die Implikation (a) =⇒ (c) bewiesen.
(c) =⇒ (b)“: Nun wird (c) vorausgesetzt. Es sei a ∈ X ein Häufungspunkt von A. Nach
”
Definition 8.2 (d) gibt es eine Folge (an )n von Punkten an ∈ A mit limn→∞ an = a, und
wegen (c) folgt a ∈ A. Also gilt (b).
(b) =⇒ (a)“: Wir nehmen an, dass (a) nicht gilt. Dann gibt es einen Punkt c ∈ X \A =: V ,
”
so dass keine Kugel Uε (c) vollständig in V enthalten ist. Für jedes ε > 0 gilt also A∩Uε (c) 6= ∅,
und wegen c 6∈ A ist sogar A ∩ U̇ε (c) 6= ∅. Demnach ist c ein Häufungspunkt von A, der nicht
in A liegt. Also ist (b) nicht gültig.
Wir können den Satz von Bolzano-Weierstraß nun auch in einer Version für Mengen (statt
Folgen) ausdrücken.
Satz 8.7 (Satz von Bolzano-Weierstraß)
Rm hat einen Häufungspunkt.
110
Jede unendliche beschränkte Teilmenge des
Beweis. Es sei M eine unendliche beschränkte Teilmenge des Rm . Da sie unendlich ist,
gibt es eine Folge (an )n in M , so dass alle an paarweise verschieden sind. Diese Folge ist
nach Voraussetzung beschränkt, besitzt also nach dem Satz von Bolzano-Weierstraß in der
Version von Satz 6.13 einen Häufungswert a; dieser ist der Grenzwert einer konvergenten
Teilfolge (ank )k . Da alle an paarweise verschieden sind und a daher höchstens einmal als
Glied der Folge (ank )k auftreten kann, gibt es ein k0 ∈ N mit ank 6= a für alle k ≥ k0 . Somit
ist (ank )k≥k0 eine Folge in M \ {a}, die gegen a konvergiert. Nach Definition 8.2 (d) ist a
somit ein Häufungspunkt von M .
8.2
Kompakte Mengen
Der Begriff der Kompaktheit ist von fundamentaler Bedeutung für die Analysis. Bisher haben
wir ihn nur für Intervalle definiert: Kompakte Intervalle sind genau die Intervalle der Form
[a, b], also die abgeschlossenen und beschränkten Intervalle. Ganz allgemein kann man eine
Menge in Rm oder Cm kompakt nennen, wenn sie abgeschlossen und beschränkt ist. Manche
Lehrbücher gehen in der Tat so vor. Dies führt allerdings zu gewissen Problemen, wenn man
den Kompaktheitsbegriff später auf beliebige metrische Räume übertragen will, denn dort
erweist sich die Eigenschaft abgeschlossen und beschränkt“ nicht mehr als adäquate De”
finition für Kompaktheit. (Mit dieser Definition würden wichtige Resultate über kompakte
Mengen, auf die man nicht verzichten möchte, nicht mehr gelten.) Der folgende Satz liefert
daher für Mengen in Rm oder Cm zunächst eine äquivalente Charakterisierung der Eigenschaft abgeschlossen und beschränkt“, die sich für die Übertragung auf beliebige metrische
”
Räume als geeigneter erweist.
Satz 8.8
Für Teilmengen K von X = Rm oder X = Cm sind die beiden folgenden
Aussagen äquivalent.
(a) Die Menge K ist abgeschlossen und beschränkt.
(b) Jede Folge in K besitzt einen Häufungswert in K, d.h. eine konvergente Teilfolge, die
gegen ein Element aus K konvergiert.
Beweis. (a) =⇒ (b)“: Es sei K abgeschlossen und beschränkt. Es sei eine Folge (an )n in
”
K gegeben. Weil K beschränkt ist, besitzt die Folge nach dem Satz von Bolzano-Weierstraß
(Satz 6.13) einen Häufungswert a ∈ X, d. h. eine gegen a konvergente Teilfolge (Satz
6.11 (1)). Weil K abgeschlossen ist, folgt a ∈ K wegen Satz 8.6 (c). Somit ist (b) gültig.
(b) =⇒ (a)“: Jetzt setzen wir voraus, dass (a) nicht gilt. Dann ist K nicht beschränkt oder
”
nicht abgeschlossen.
Wenn K nicht beschränkt ist, dann gibt es zu jedem n ∈ N einen Punkt an ∈ K mit ||an || > n.
Die Folge (an )n in K hat keine beschränkte Teilfolge und damit keinen Häufungswert (in X),
denn dieser wäre nach Proposition 5.11 der Grenzwert einer konvergenten (und insbesondere
beschränkten) Teilfolge.
Nun sei K nicht abgeschlossen. Nach Satz 8.6 besitzt K dann einen Häufungspunkt a ∈ X
mit a 6∈ K. Hierzu gibt es nach Definition 8.2 (d) eine gegen a konvergente Folge (an )n von
Punkten an ∈ K mit an 6= a für alle n. Diese Folge hat keinen Häufungswert in K. Also ist
(b) nicht gültig.
111
Im Schluss von (a) nach (b) sichert die Beschränktheit von K die Existenz von Häufungswerten von Folgen, und die Abgeschlossenheit von K bewirkt, dass die Häufungswerte in K
liegen.
Wir definieren nun in beliebigen metrischen Räumen Kompaktheit durch die Eigenschaft (b)
in Satz 8.8.
Definition 8.9 Es sei (X, d) ein metrischer Raum. Eine Teilmenge K ⊆ X heißt kompakt (oder genauer folgenkompakt), falls jede Folge in K eine konvergente Teilfolge besitzt,
deren Grenzwert in K liegt.
Wir werden später einen weiteren Kompaktheitsbegriff, den der Überdeckungskompaktheit
kennenlernen, der sich freilich in metrischen Räumen glücklicherweise als äquivalent zur
Folgenkompaktheit erweist.
Jetzt können wir Satz 8.8 kürzer wie folgt formulieren:
Korollar 8.10
Eine Teilmenge des Rm oder Cm ist genau dann kompakt, wenn sie abgeschlossen und beschränkt ist.
In allgemeinen metrischen Räumen gilt diese Äquivalenz nicht mehr; dort impliziert die
Kompaktheit immerhin noch die Abgeschlossen- und Beschränktheit. Wir kommen darauf
in Kapitel 13 zurück.
Beispiel 8.11
(1) Für k = 1, . . . , m seien reelle Zahlen ak und bk mit ak ≤ bk gegeben. Die Menge
Q = {x = (x1 , . . . , xm ) ∈ Rm | ak ≤ xk ≤ bk für 1 ≤ k ≤ m}
ist kompakt. Wir nennen Q einen achsenparallelen kompakten Quader.
(2) Die m-dimensionale Einheitssphäre
n
o m
m+1 S = x∈R
||x|| = 1 = (x1 , . . . , xm+1 ) ∈ Rm+1 | x21 + . . . + x2m+1 = 1
ist eine kompakte Menge.
(3) Die m-dimensionale Einheitskugel oder der Einheitsball
n
o m
m B = x ∈ R ||x|| ≤ 1 = (x1 , . . . , xm ) ∈ Rm | x21 + . . . + x2m ≤ 1
ist kompakt.
(4) Es sei a eine reelle Zahl, und es sei ein k ∈ {1, 2, . . . , m} gegeben. Jede der Mengen
{(x1 , . . . , xm ) ∈ Rm | xk ≤ a}
und
{(x1 , . . . , xm ) ∈ Rm | xk ≥ a}
heißt ein Halbraum (für m = 2: Halbebene). Diese Mengen sind abgeschlossen, aber
nicht beschränkt und somit nicht kompakt.
112
In den ersten drei Beispielen ist die Beschränktheit klar. In allen vier Beispielen zeigt man
die Abgeschlossenheit bequem mit Hilfe von Satz 8.6: Die (nicht-strikten!) Ungleichungen,
die die Mengen Q, S m usw. definieren, bleiben unter Grenzübergängen erhalten.
Ist eine Menge hingegen durch eine oder mehrere strikte Ungleichungen ( <“ oder >“) de”
”
finiert, so ist diese Menge i. Allg. nicht abgeschlossen; solche Ungleichungen bleiben nämlich
unter Grenzübergängen i. Allg. nicht erhalten (d.h. sie werden zu lediglich nicht-strikten
Ungleichungen: ≤“ bzw. ≥“ – vgl. hierzu auch Aufgabe 8.4 (a)). Beispiele hierfür sind die
”
”
offene Einheitskugel
n
o m x ∈ R ||x|| < 1 = (x1 , . . . , xm ) ∈ Rm | x21 + . . . + x2m < 1
des Rm (für die immerhin das Komplement abgeschlossen ist) oder der Quader
{x = (x1 , x2 ) ∈ R2 | a1 ≤ x1 ≤ b1 , a2 < x2 < b2 },
der (sofern er nicht leer ist) weder offen noch abgeschlossen ist.
Oftmals nützlich ist die folgende (nicht sehr überraschende) Beobachtung.
Proposition 8.12
Es sei K eine kompakte Teilmenge von R. Dann besitzt K ein Maximum und ein Minimum.
Beweis. Nach Satz 8.8 ist K abgeschlossen und beschränkt. Insbesondere ist s := sup K
eine reelle Zahl. Nach Proposition 2.34 gibt es zu jedem n ∈ N einen Punkt xn ∈ K, so dass
s−
1
< xn ≤ s
n
gilt. Für die Folge (xn )n in K gilt also
lim xn = s.
n→∞
Da K abgeschlossen ist, liegt der Grenzwert s gemäß Satz 8.6 in K. Daher ist das Supremum
s sogar das Maximum von K.
Analog zeigt man, dass K ein Minimum besitzt.
113
9
Stetige Funktionen
9.1
Der Begriff der Stetigkeit
Funktionen dienen unter anderem zur Modellierung von Vorgängen in der Natur und zur
Beschreibung und Kontrolle von technischen Abläufen. Dabei beobachtet man, dass in vielen
Fällen die betrachteten Funktionen folgende Eigenschaft haben: Ändert man das Argument
(die Eingabe“) der Funktion hinreichend wenig, so ändert sich auch der Funktionswert
”
(die Ausgabe“) nur wenig. Dieses Phänomen bezeichnet man als Stetigkeit. Wir wollen es
”
zunächst anhand einiger Alltagsbeispiele erläutern:
• Wir können sicher sein, dass wir die Bahn eines Fußballs bei hinreichend feinfühliger
Variation unserer Fußbewegung zumindest theoretisch so beeinflussen können, dass
er beim angespielten Mitspieler (oder im Tor) ankommt; ob dies auch in der Praxis
mit der gewünschten Genauigkeit gelingt, ist eine Frage des fußballerischen Könnens,
aber jedenfalls müssen wir nicht befürchten, dass eine leichte Variation im Krafteinsatz
den Ball durch ein Wurmloch katapultiert und ihn in einer ganz anderen Gegend des
Universums (oder einem Parallel-Universum) stranden lässt.
Solche Bewegungsvorgänge sind ein typisches Beispiel für stetige Zusammenhänge zwischen Ursache und Wirkung.
• Ebenso wissen wir, dass wir durch hinreichend kleine Bewegungen am Heizkörperthermostat die Zimmertemperatur praktisch stufenlos“ variieren können: Sie hängt
”
stetig von der Thermostateinstellung ab. Wir müssen also nicht befürchten, dass ein
fast unmerkliches Drehen am Thermostat zu einer Temperaturerhöhung um 10 Grad
führt. (Falls dies doch passieren sollte, dann war das Thermostat verkalkt und ist durch
das Drehen daran abrupt wieder gängig geworden. Aber selbst in diesem Fall ändert
sich die Zimmertemperatur nur allmählich; sie hängt stetig von der Zeit ab - wenn
auch nicht stetig von der Thermostateinstellung.)
• Ein Kuchen wird nicht wesentlich anders schmecken, wenn man die Mengen der Zutaten
geringfügig (um z.B. 1%) variiert: Sein Geschmack hängt stetig von den verwendeten
Mengen an Zutaten ab.
• Ganz anders gelagert ist folgende Situation: Nehmen wir an, wir wollen per Zug von
Frankfurt nach Würzburg fahren. Eine Verspätung von wenigen Sekunden, mit der
man am Bahnhof in Frankfurt eintrifft, kann dann gravierende Auswirkungen auf die
Zeit haben, zu der man in Würzburg ankommt – wenn nämlich in diesen wenigen Sekunden gerade ein Zug nach Würzburg losgefahren ist und der nächste erst 80 Minuten
später fährt (und zudem 40 Minuten länger benötigt). Hier hängt die Ankunftszeit in
Würzburg also nicht stetig von der Zeit ab, zu der man in Frankfurt am Bahnhof
eintrifft.
Die weitaus meisten Gesetzmäßigkeiten der Physik werden durch stetige Funktionen beschrieben. Eine Welt, in der sich die Grundgesetze der Physik durchweg unstetig verhalten,
würde die Phantasie jedes Science-Fiction-Autors bei weitem übersteigen. (Tatsächlich beziehen Science-Fiction-Filme ja oftmals ihren Reiz gerade aus der punktuellen, aber eben
nicht durchgängigen Verletzung gewisser physikalischer Gesetze.)
114
Ähnlich wie beim Konvergenzbegriff stellt sich nun die Frage, wie wir die obigen relativ vagen
Vorstellungen von Stetigkeit mathematisch präzise fassen können. Was bedeutet es, dass die
Funktion f stetig im Punkt a ist? (Dabei denken wir der Einfachheit halber zunächst einmal
an reellwertige Funktionen, die auf Intervallen definiert sind.) Wir können die Überlegungen,
die uns zur Definition von Konvergenz geführt haben, weitgehend übertragen:
• Man könnte sagen: f ist stetig in a, wenn für alle Argumente x genügend nahe“ bei
”
a die Funktionswerte f (x) hinreichend nahe“ bei f (a) liegen.
”
Hier gilt es zu präzisieren: Was heißt genügend nahe“ und hinreichend nahe“?
”
”
• Hierzu geben wir eine gewisse Fehlertoleranz ε > 0 für die Abweichung zwischen f (x)
und f (a) vor, die als gerade noch erträglich für die Zwecke der jeweiligen Betrachtung
angesehen wird. Dann sollten sich f (x) und f (a) um weniger als ε voneinander unterscheiden, sofern nur x genügend nahe“ bei a liegt. Es soll also |f (x) − f (a)| < ε für
”
alle x genügend nahe“ bei a gelten.
”
• Dieses letzte genügend nahe“ präzisieren wir wiederum durch Einführung einer ge”
wissen Toleranz δ > 0: Es soll ein δ > 0 geben, so dass |f (x) − f (a)| < ε für alle
(zulässigen) x mit |x − a| < δ gilt.
• Wie bei der Konvergenzdefinition ist auch hier wesentlich, dass dies für jedes beliebig
kleine ε > 0 gelten soll (auch wenn man sich in praktischen Anwendungen vielleicht
mit einer festen, hinreichend klein gewählten Fehlertoleranz ε begnügen würde). Es
soll also zu jedem ε > 0 ein δ > 0 geben, so dass |f (x) − f (a)| < ε für alle (zulässigen)
x mit |x − a| < δ gilt.
Hierbei wird δ i. Allg. von ε abhängen; es wird um so kleiner gewählt werden müssen,
je kleiner die vorgegebene Fehlertoleranz ε > 0 ist.
Damit können wir die Stetigkeit nunmehr mathematisch präzise definieren32 .
Definition 9.1 Es sei I ⊆ R ein Intervall und a ∈ I. Eine Funktion f : I −→ R heißt
stetig im Punkt a, falls es zu jeder Zahl ε > 0 eine Zahl δ > 0 gibt, so dass für alle x ∈ I
mit |x − a| < δ die Ungleichung |f (x) − f (a)| < ε gilt. In Quantorenschreibweise lautet die
Bedingung
∀ ε>0 ∃ δ>0 ∀ x∈I |x − a| < δ =⇒ |f (x) − f (a)| < ε .
Die Funktion f heißt stetig, falls sie in jedem Punkt a ∈ I stetig ist.
Bemerkung 9.2
(1) Zur Veranschaulichung der Stetigkeitsdefinition ist es hilfreich, den horizontalen Streifen
Sε = {(x, y) ∈ R2 | f (a) − ε < y < f (a) + ε}
mit der Breite 2ε in der reellen Ebene, den sog. ε-Streifen um f (a), zu betrachten. Für
die Stetigkeit von f in a wird dann (x, f (x)) ∈ Sε für alle x ∈ I, die genügend wenig
32
Der hier erklärte Stetigkeitsbegriff erscheint erstmals 1817 bei Bolzano. Das wurde aber damals aus den in
Fußnote 23 genannten Gründen nicht bekannt. Deshalb muss man Cauchy als den Schöpfer unseres heutigen
Stetigkeitsbegriffes ansehen. Er verbreitete ihn in seinen Vorlesungen und ab 1821 in seinem Lehrbuch Cours
d’Analyse. Unsere heutige Formulierung mit der ε-δ-Bedingung stammt von Weierstraß.
115
von a abweichen, verlangt. Die Betonung in der Definition liegt wiederum darauf, dass
ε beliebig klein vorgegeben sein kann.
Stetigkeit von f im Punkt a bedeutet also anschaulich, dass man zu jedem horizontalen
ε-Streifen um f (a) stets einen vertikalen δ-Streifen um a finden kann, so dass die
Funktionswerte von f in dem ε-Streifen bleiben, sofern man den Definitionsbereich auf
den δ-Streifen einschränkt. Je schmaler man den ε-Streifen wählt, desto schmaler wird
i. Allg. auch der δ-Streifen ausfallen.
y
6
ε
f (a)
ε
δ
δ
a
-
x
Abbildung 11: Die ε-δ-Bedingung für Stetigkeit
Das δ in der Stetigkeitsdefinition hängt also von ε ab, ebenso wie in der Definition
der Konvergenz von Folgen N von ε abhing. Wir könnten diese Abhängigkeit durch
eine Schreibweise wie δε zum Ausdruck bringen. Um die Notationen nicht zu überladen
verzichten wir darauf jedoch.
(2) Sofern der Stetigkeitsbegriff im Schulunterricht überhaupt behandelt wird, wird die
Stetigkeit einer Funktion f im Punkt a dort meist so erklärt, dass die links- und
rechtsseitigen Grenzwerte limx→a− f (x) und limx→a+ f (x) existieren und mit dem Funktionswert f (a) übereinstimmen. Wir werden in Satz 9.18 sehen, dass dies äquivalent
zu der soeben gegebenen Definition ist. Allerdings ist diese Schuldefinition“ insofern
”
unbefriedigend, als sie unerklärt lässt, was man unter den vorkommenden Grenzwerten
überhaupt versteht. Dies zu präzisieren läuft doch wieder auf eine ε-δ-Definition wie
oben hinaus (vgl. Definition 9.16).
Zudem verleitet die Art und Weise, wie Stetigkeit im Schulunterricht behandelt wird,
zu falschen, viel zu oberflächlichen Vorstellungen über stetige Funktionen, insbesondere
zu den Vorstellungen, stetige Funktionen seien genau die Funktionen ohne Sprungstellen, oder stetige Funktionen seien Funktionen, deren Graph sich zeichnen lasse, ohne
den Stift abzusetzen. Diese Vorstellungen haben durchaus eine gewisse Berechtigung,
werden der Bandbreite des Stetigkeitsbegriffs (und auch den vielfältigen Möglichkeiten
für Unstetigkeiten) aber nicht wirklich gerecht: Stetige Funktionen müssen keinesfalls
so harmlos sein wie die aus der Schule bekannten Funktionen33 ; es gibt z.B. sogar stetige Funktionen, die nirgends (!) differenzierbar sind. In Anlehnung an Hamlet möchte
33
Von daher erscheint es als nicht übermäßig bedauerlich, dass im bayerischen G8-Lehrplan die Stetigkeit
nicht mehr auftaucht.
116
man fast sagen: Es gibt mehr stetige Funktionen zwischen Himmel und Erde, als eure
”
Schulweisheit sich träumen lässt.“ Auf solche Phänomene kommen wir im Laufe der
Vorlesung noch vielfach zurück.
Stetigkeit ist also gar keine so starke Forderung, wie es auf den ersten Blick erscheinen
mag. An wirklich harmlose“ Funktionen stellt man daher häufig restriktivere Erwar”
tungen als die Stetigkeit: Man verlangt Differenzierbarkeit oder besser noch stetige
Differenzierbarkeit. Das ist Gegenstand von Teil III der Vorlesung.
Andererseits darf man nicht aus dem Auge verlieren, dass natürlich nur die aller”
wenigsten“ Funktionen stetig sind. Dass wir uns dennoch hauptsächlich mit stetigen
Funktionen beschäftigen, liegt daran, dass diese für praktische Anwendungen am wichtigsten sind.
(3) Bei vielen Vorgängen bewirken winzige Änderungen in einem Anfangszustand f (t0 )
auf lange Sicht, also für hinreichend große Werte von T > 0, gewaltige Unterschiede im
Wert f (t0 +T ). Das ist der Grund für die Unvorhersagbarkeit zum Beispiel des Wetters
über längere Zeiten. Dieses (auch als Schmetterlingseffekt bekannte) Phänomen hat
jedoch nichts mit Stetigkeit (bzw. Unstetigkeit) zu tun. Die Stetigkeit (und auch die
Differenzierbarkeit) sind Bedingungen an das lokale Verhalten einer Funktion in der
Nähe eines Punktes. Nur für kleine h werden Forderungen an die Unterschiede zwischen
f (t0 ) und f (t0 + h) gestellt. Die Frage, wie stark sich kleine Änderungen langfristig
auswirken, fällt hingegen in den Bereich der Stabilitätstheorie.
Die Definition der Stetigkeit kann ohne weiteres auf Abbildungen zwischen beliebigen metrischen Räumen übertragen werden:
Definition 9.3 Es seien X und Y metrische Räume mit den Metriken dX bzw. dY . Es sei
a ∈ X. Eine Funktion f : X −→ Y heißt stetig im Punkt a, falls es zu jeder Zahl ε > 0 eine
Zahl δ > 0 gibt, so dass für alle x ∈ X mit dX (x, a) < δ die Abschätzung dY (f (x), f (a)) < ε
gilt. In Quantorenschreibweise:
∀ ε>0 ∃ δ>0 ∀ x∈X dX (x, a) < δ =⇒ dY (f (x), f (a)) < ε .
Die Funktion f heißt stetig, falls sie in jedem Punkt a ∈ X stetig ist.
Bemerkung 9.4
(1) Die Bedingung der Stetigkeit lässt sich umformulieren, wenn wir die in Abschnitt 4
eingeführten offenen Kugeln Ur (c) verwenden: Die Funktion f : X −→ Y ist im Punkt
a ∈ X genau dann stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt, so dass aus x ∈ Uδ (a)
stets f (x) ∈ Uε (f (a)) folgt, wenn also Folgendes gilt:
∀ ε>0 ∃ δ>0 f (Uδ (a)) ⊆ Uε (f (a)) .
(2) Durch Negation der Quantorenbedingung für Stetigkeit ergibt sich: Genau dann ist
eine Funktion f : X −→ Y zwischen metrischen Räumen (X, dX ) und (Y, dY ) unstetig
in a ∈ X, wenn Folgendes gilt:
∃ ε>0 ∀ δ>0 ∃ x∈X dX (x, a) < δ ∧ dY (f (x), f (a)) ≥ ε .
117
Es gibt also eine spezielle Zahl ε > 0, so dass man für jedes δ > 0 einen (von δ
abhängigen) Punkt x ∈ X in der offenen δ-Kugel um a findet, wofür der Funktionswert
f (x) nicht in der offenen ε-Kugel um f (a) liegt.
(3) Der Einprägsamkeit halber haben wir die Stetigkeitsdefinition für Funktionen formuliert, deren Definitionsbereich der gesamte metrische Raum X ist. Oft liegt die Situation vor, dass eine Funktion f : D −→ Y nur auf einer Teilmenge D eines metrischen
Raumes (X, d) definiert ist. Brauchen wir nun eine neue Definition, wenn wir die Stetigkeit einer solchen Funktion erklären wollen?
Die Antwort ist glücklicherweise nein: Mit X wird auch D durch die Metrik d zu einem
metrischen Raum gemacht. (Man bezeichnet (D, d) dann als Teilraum des metrischen
Raumes (X, d).) Damit ist durch Definition 9.3 auch erklärt, was die Stetigkeit von
f : D −→ Y in einem Punkt a ∈ D bedeutet, nämlich Folgendes:
∀ ε>0 ∃ δ>0 ∀ x∈D dX (x, a) < δ =⇒ dY (f (x), f (a)) < ε
bzw.
∀ ε>0 ∃ δ>0 f (D ∩ Uδ (a)) ⊆ Uε (f (a)) .
Bei der Interpretation der letzten Bedingung ist die Beobachtung nützlich, dass die
offenen Kugeln in (D, d) gerade die Mengen der Gestalt D ∩ Ur (c) sind (wobei Ur (c)
die offenen Kugeln in X bezeichnet34 ).
(4) Angesichts von (3) haben wir den Begriff der Stetigkeit mittels Definition 9.3 insbesondere für Funktionen mit Definitionsbereichen in Rm oder in Cm und mit Werten in
einem dieser Räume erklärt. (Man vergleiche Beispiel 4.2 (1); dort hatten wir bereits
festgestellt, dass nicht nur Rm und Cm , sondern auch beliebige Teilmengen hiervon
durch die euklidische Metrik zu metrischen Räumen gemacht werden.)
Eine einfache, aber oftmals sehr nützliche Folgerung aus der Stetigkeitsdefinition ist das sog.
Permanenzprinzip.
Lemma 9.5 (Permanenzprinzip)
Es sei X ein metrischer Raum, a ∈ X, und die
Funktion f : X −→ R sei im Punkt a stetig. Falls f (a) > c (für ein c ∈ R) ist, dann gibt es
ein δ > 0 mit f (x) > c für alle x ∈ Uδ (a).
Beweis. Zu der nach Voraussetzung positiven Zahl ε := f (a) − c gibt es ein δ > 0 mit
f (Uδ (a)) ⊆ Uε (f (a)) =]f (a) − ε, f (a) + ε[. Dies bedeutet insbesondere
f (x) > f (a) − ε = c
für alle x ∈ Uδ (a).
34
An dieser Stelle empfiehlt es sich, sich an Bemerkung 4.4 (1)/(5) zu erinnern. Wir sind gerade in einer
der seltenen Situationen, in denen wir es mit mehr als einem metrischen Raum gleichzeitig zu tun haben
und es daher schön wäre, für die offenen Kugeln in D und X zwei unterschiedliche Notationen zu haben.
118
9.2
Das Folgenkriterium
Die obige Motivation für die Definition der Stetigkeit verlief weitgehend analog zu den Überlegungen in Abschnitt 5.2 bei der Definition der Konvergenz, und auch die Definitionen
der beiden Begriffe weisen eine sehr ähnliche Struktur auf. Dies lässt vermuten, dass beide
Begriffe eng miteinander verwandt sind. Tatsächlich kann die Stetigkeit anstelle der obigen
Definition ebenso gut durch eine Bedingung über konvergente Folgen definiert werden. Das
ist der Inhalt des sog. Folgenkriteriums für Stetigkeit.
Satz 9.6 (Folgenkriterium)
Es seien X und Y metrische Räume, und es sei a ∈ X.
Für eine Funktion f : X −→ Y sind die beiden folgenden Aussagen äquivalent.
(a) Die Funktion f ist stetig im Punkt a.
(b) Für jede (!) Folge (xn )n≥1 von Punkten xn ∈ X mit limn→∞ xn = a ist die Folge der
Funktionswerte f (xn ) konvergent mit dem Grenzwert
lim f (xn ) = f (a).
n→∞
Die in (b) beschriebene Eigenschaft bezeichnet man manchmal auch als Folgenstetigkeit.
Das Folgenkriterium besagt also, dass Stetigkeit und Folgenstetigkeit äquivalent sind.
Beweis. =⇒ “: Es sei f stetig in a. Es sei eine Folge (xn )n in X mit limn→∞ xn = a
”
gegeben.
Es sei ein ε > 0 gegeben. Dazu gibt es wegen der Stetigkeit von f in a ein δ > 0 mit
f (Uδ (a)) ⊆ Uε (f (a)).
Zu diesem δ gibt es wegen limn→∞ xn = a ein N ∈ N mit xn ∈ Uδ (a) für alle n ≥ N . Es folgt
f (xn ) ∈ Uε (f (a)) für alle n ≥ N .
Damit ist gezeigt, dass es zu jedem ε > 0 ein N ∈ N gibt, so dass f (xn ) ∈ Uε (f (a)) für alle
n ≥ N ist. Dies bedeutet limn→∞ f (xn ) = f (a). Die Aussage (b) ist also gültig.
⇐=“: Nun setzen wir voraus, dass f in a unstetig ist. Dann gilt
”
∃ ε>0 ∀ δ>0 ∃ x∈X dX (x, a) < δ ∧ dY (f (x), f (a)) ≥ ε .
Wir dürfen hierin δ = n1 wählen. Dadurch erhalten wir für jedes n ∈ N einen Punkt xn ∈ X
mit
1
dX (xn , a) <
und
dY (f (xn ), f (a)) ≥ ε
n
(oder mit anderen Worten“:
”
xn ∈ U1/n (a)
und
f (xn ) 6∈ Uε (f (a)).)
Somit ist (xn )n eine Folge von Punkten in X mit limn→∞ xn = a, deren Bildfolge (f (xn ))n
entweder divergiert oder gegen einen Wert 6= f (a) konvergiert. Die Aussage (b) ist also nicht
gültig.
119
Die Betonung in (b) liegt auf den Worten für jede Folge“. Es genügt nicht, dass die Bezie”
hung limn→∞ f (xn ) = f (a) für einige Folgen (oder gar nur für eine einzige Folge) (xn )n mit
limn→∞ xn = a gilt.
Einprägsam lässt sich das Folgenkriterium auch wie folgt formulieren: Genau dann ist f
stetig in a ∈ X, wenn für alle gegen a konvergenten Folgen (xn )n in X gilt:
lim f (xn ) = f ( lim xn ).
n→∞
n→∞
Man kann hier also die Grenzwertbildung mit der Funktionsauswertung vertauschen. Dies ist
ein erstes Beispiel zur Vertauschbarkeit von Grenzübergängen – ein Thema, das uns später
immer wieder beschäftigen wird und zu den zentralen Fragestellungen der Analysis gehört.
9.3
Bildung neuer stetiger Funktionen
Aus bekannten stetigen Funktionen kann man mittels verschiedener Operationen neue stetige
Funktionen konstruieren. Zunächst definieren wir die benötigten Objekte.
Definition 9.7 Es sei D eine nichtleere Menge und Y einer der Räume Rm oder Cm . Es
seien Funktionen f : D −→ Y und g : D −→ Y sowie eine reelle oder komplexe Zahl c
gegeben. Die Funktionen
f + g : D −→ Y,
cf : D −→ Y,
||f || : D −→ [0, ∞[
werden dann durch
(cf )(x) := c · f (x),
(f + g)(x) := f (x) + g(x),
||f ||(x) := ||f (x)||
für alle x ∈ D
definiert. Eine Kombination dieser Definitionen liefert beliebige Linearkombinationen cf +dg
mit c, d ∈ C und insbesondere f − g.
Nun sei speziell m = 1. Dann können die Werte von f und g multipliziert und eventuell auch
dividiert werden. Das Produkt f g : D −→ C wird definiert durch
(f g)(x) := f (x) · g(x)
Für g 6= 0 wird der Quotient
f
g
definiert durch
f
f (x)
(x) :=
g
g(x)
Der Definitionsbereich von
f
g
für alle x ∈ D.
für alle
x ∈ D mit g(x) 6= 0.
ist also möglicherweise eine echte Teilmenge von D.
Satz 9.8
Es sei X ein metrischer Raum, a ∈ X und Y einer der Räume Rm oder Cm .
Die Funktionen f : X −→ Y und g : X −→ Y seien stetig in a. Dann gelten die folgenden
Aussagen.
(1) Die Funktionen cf + dg mit beliebigen c, d ∈ C sind stetig in a.
(2) Die Funktion ||f || ist stetig in a.
120
(3) Im Fall m = 1 ist das Produkt f g stetig in a.
(4) Es sei m = 1 und g(a) 6= 0. Dann ist
f
g
stetig in a.
Das Folgenkriterium (Satz 9.6) macht es möglich, beim Beweis dieser Aussagen die Rechenregeln aus Satz 5.12 anzuwenden. Man könnte die Stetigkeit der hier genannten Funktionen
auch direkt mit der ε-δ-Bedingung beweisen; die Beweise würden sehr denen von Satz 5.12
ähneln.
Beweis. Wir verwenden das Folgenkriterium für Stetigkeit. Es sei eine beliebige Folge (xn )n
in X mit limn→∞ xn = a gegeben. Nach Voraussetzung und dem Folgenkriterium (Satz 9.6)
gilt dann limn→∞ f (xn ) = f (a) und limn→∞ g(xn ) = g(a).
Aus Satz 5.12 (1)/(2) folgt also für beliebige c, d ∈ C
lim (cf + dg)(xn ) = lim (cf (xn ) + dg(xn )) = cf (a) + dg(a).
n→∞
n→∞
Gemäß Satz 5.14 (3) gilt außerdem
lim ||f ||(xn ) = lim ||f (xn )|| = || lim f (xn )|| = ||f (a)||.
n→∞
n→∞
n→∞
Im Fall m = 1 liefert Satz 5.12 (2) auch
lim (f g)(xn ) = lim f (xn ) · g(xn ) = f (a) · g(a).
n→∞
n→∞
Wenn m = 1 und g(a) 6= 0 ist, dann gibt es aufgrund der Stetigkeit von g in a ein δ > 0 mit
g(x) 6= 0 für alle x ∈ Uδ (a). (Im Falle Y = R kann man sich hier auch auf das Permanenzprinzip (Lemma 9.5) berufen.) Hieraus und aus Satz 5.12 (2) und (3) folgt
f (xn )
f (a)
f
(xn ) = lim
=
.
n→∞ g(xn )
n→∞ g
g(a)
lim
Aus den aufgelisteten Beziehungen und aus dem Folgenkriterium ergeben sich alle Behauptungen.
Auch die Verkettung (Komposition) stetiger Funktionen liefert wieder stetige Funktionen:
Satz 9.9
Es seien X, Y und Z metrische Räume. Die Funktion f : X −→ Y sei im
Punkt a ∈ X stetig, und die Funktion g : Y −→ Z sei im Punkt b = f (a) ∈ Y stetig. Dann
ist die Verkettung g ◦ f : X −→ Z im Punkt a stetig.
Um den Umgang mit den neuen Techniken einzuüben, geben wir zwei Beweise, einen mithilfe
der ε-δ-Bedingung und einen mithilfe des Folgenkriteriums.
Beweis 1. Wir setzen c := g(b) = (g ◦ f )(a). Es sei ein ε > 0 gegeben. Dazu gibt es wegen
der Stetigkeit von g im Punkt b ein η > 0 mit
g(Uη (b)) ⊆ Uε (c).
Wegen der Stetigkeit von f in a gibt es zu η ein δ > 0 mit
f (Uδ (a)) ⊆ Uη (b).
Es folgt
(g ◦ f )(Uδ (a)) = g(f (Uδ (a))) ⊆ g(Uη (b)) ⊆ Uε (c).
Das war zu zeigen.
121
Beweis 2. Es sei (xn )n eine beliebige gegen a konvergente Folge in X. Da f in a stetig ist,
konvergiert (f (xn ))n nach dem Folgenkriterium gegen f (a) = b. Setzt man yn := f (xn ), so ist
(yn )n also eine gegen b konvergente Folge in Y . Nun ist g aber stetig in b, so dass wiederum
nach dem Folgenkriterium (g(yn ))n gegen g(b) konvergiert. Insgesamt haben wir daher
lim (g ◦ f )(xn ) = lim g(yn ) = g(b) = g(f (a)) = (g ◦ f )(a).
n→∞
n→∞
Dies gilt für alle gegen a konvergenten Folgen (xn )n in X. Also ist g ◦ f in a stetig.
9.4
Beispiele stetiger und unstetiger Funktionen
Bisher haben wir nur abstrakt über stetige Funktionen geredet, ohne eine einzige konkrete
Funktion als stetig identifiziert zu haben. Dies hatte seinen Grund darin, dass uns erst die
Resultate des letzten Abschnitts brauchbare Werkzeuge lieferten, um in größerem Maßstab
stetige Funktionen zu konstruieren.
Wir beginnen mit dem Nachweis, dass Polynome und rationale Funktionen stetig sind.
Definition 9.10
Eine Funktion P : C −→ C heißt eine Polynomfunktion oder ein
Polynom, falls es ein n ∈ N0 und Elemente a0 , a1 , . . . , an ∈ C gibt mit
n
X
ak z k
für alle z ∈ C.
P (z) = a0 + a1 z + . . . + an z n =
k=0
Die Elemente a0 , a1 , . . . , an heißen die Koeffizienten des Polynoms P . Falls nicht alle Koeffizienten 0 sind, dann heißt das größte m mit am 6= 0 der Grad von P , und man schreibt
m = grad (P ).
Für m = 0 ist P die konstante Funktion a0 6= 0. Die konstante Funktion 0 heißt auch das
Nullpolynom. Sein Grad wird als grad (0) = −∞ vereinbart.
Es seien P, Q Polynome, Q sei nicht das Nullpolynom, und es sei D := {z ∈ C | Q(z) 6= 0}.
Dann bezeichnet man die durch
P (z)
R : D −→ C,
R(z) :=
Q(z)
definierte Funktion R als eine rationale Funktion.
Bemerkung 9.11
(1) Unsere Definition von Polynomen schließt auch den Fall reeller Polynome ein, deren
Koeffizienten sämtlich reell sind und die man daher als Abbildungen P : R −→ R
betrachten kann.
(2) Sind p und q Polynome, so sind auch ihre Summe p + q und ihr Produkt pq Polynome.
Für deren Grad gelten die Rechenregeln
grad (pq) = grad (p) + grad (q)
und
grad (p + q) ≤ max{grad (p), grad (q)}.
Damit diese Regeln auch gelten, falls p oder q das Nullpolynom ist, war es sinnvoll,
dessen Grad auf −∞ festzusetzen. Hierbei müssen wir allerdings erklären, wie wir mit
−∞ rechnen: Es ist (−∞) + n := −∞ und −∞ < n für alle n ∈ N0 (und allgemeiner
für alle n ∈ R) zu setzen.
122
Korollar 9.12 Jedes Polynom ist stetig in C. Jede rationale Funktion ist in allen Punkten
ihres Definitionsbereiches (d.h. außerhalb der Nullstellen ihres Nennerpolynoms) stetig.
Beweis. Wir zeigen zunächst, dass konstante Funktionen und die Identität stetig sind (was
natürlich ziemlich banal ist):
Es sei f : C −→ C konstant, d.h. es gebe ein c ∈ C mit f (z) = c für alle z ∈ C. Es sei ein
a ∈ C gegeben. Es sei (xn )n eine Folge in C, die gegen a konvergiert. Dann ist f (xn ) = c für
alle n, d.h. die Bildfolge (f (xn ))n ist konstant und daher konvergent gegen c = f (a). Nach
dem Folgenkriterium ist f also stetig in a. Dies gilt für alle a ∈ C, so dass f stetig in C ist.
Nun sei f : C −→ C die identische Abbildung, d.h f (z) = z für alle z ∈ C. Wir könnten wie
soeben die Stetigkeit mit dem Folgenkriterium nachweisen. Aus Gründen der Abwechslung
ziehen wir diesmal aber das ε-δ-Kriterium heran. Es seien also ein Punkt a ∈ C (in dem wir
die Stetigkeit nachweisen wollen) und ein ε > 0 gegeben. Wir setzen dann δ := ε(> 0). Für
alle z ∈ C mit |z − a| < δ gilt dann
|f (z) − f (a)| = |z − a| < δ = ε.
Somit ist f in a und damit in ganz C stetig. (In diesem Fall hängt δ also nicht von dem
speziellen Punkt a ab – wohl aber von ε.)
Das war relativ viel Arbeit für ein scheinbar mageres Ergebnis. An dieser Stelle mag man
sich fragen: Wenn wir uns mit dem Nachweis der Stetigkeit der beiden denkbar einfachsten
Funktionen zwölf Zeilen aufgehalten haben – wie soll das dann erst bei beliebigen Polynomen
werden?
Tatsächlich geht nun aber alles ganz schnell: Nachdem wir nun wissen, dass konstante Funktionen und die Identität stetig sind, folgt aus Satz 9.8 (3) die Stetigkeit aller Monome
x 7→ ak z k (die ja als Produkte aufgefasst werden können, als deren Faktoren die Identität
und die konstanten Funktionen auftreten). Aus Satz 9.8 (1) ergibt sich dann die Stetigkeit
aller Polynome. Satz 9.8 (4) liefert zu guter Letzt auch die Stetigkeit der rationalen Funktionen.
Nun noch einige weitere Beispiele zur besseren Illustration des Stetigkeitsbegriffes:
Beispiel 9.13
(1) Ausblick: Von den aus der Schule bekannten elementaren Funktionen Sinus, Cosinus,
Exponentialfunktion, Logarithmus usw. erwarten wir intuitiv, dass sie stetig sind.
Mit den derzeit zur Verfügung stehenden Methoden können wir dies noch nicht zeigen; schlimmer noch: Bisher haben wir die meisten dieser Funktionen offiziell“ noch
”
gar nicht eingeführt; wir werden dies in Kapitel 12 nachholen. Diese Funktionen werden im Wesentlichen als sog. Potenzreihen definiert werden. Die Exponentialfunktion
beispielsweise hatten wir in Definition 7.33 durch die Exponentialreihe
exp(z) :=
∞
X
zn
n=0
n!
erklärt. Potenzreihen erhält man durch einen Grenzübergang aus Polynomen (indem
man deren Grad gegen ∞“ streben lässt.) Hier deutet sich eine neue Möglichkeit
”
123
zur Konstruktion stetiger Funktionen an: als Grenzfunktionen von bereits bekannten
stetigen Funktionen unter geeigneten Grenzübergängen. Was das genau bedeutet, werden wir in Kapitel 11 klären. Wir werden dort auch sehen, dass die Stetigkeit unter
Grenzübergängen keinesfalls erhalten bleiben muss.
Einstweilen werden wir die elementaren Funktionen Sinus, Cosinus etc. wie in der Schule naiv verwenden und auch deren Stetigkeit benutzen, so etwa unten in (3) und (4).
(2) Es sei f : R −→ R definiert durch
(
f (x) :=
0
für x ≤ 0,
1
für x > 0.
Dann ist f in jedem Punkt x ∈ R \ {0} stetig, jedoch in x = 0 unstetig. (Denn zu
ε := 21 > 0 lässt sich keine Umgebung Uδ (0) finden, in der |f (x)| = |f (x) − f (0)| < ε
für alle x ∈ Uδ (0) gelten würde.)
Hier haben wir das wohl bekannteste Beispiel einer Unstetigkeitsstelle: eine Sprungstelle.
(3) Dass Unstetigkeitsstellen keinesfalls Sprungstellen sein müssen, illustriert folgendes
Beispiel: Es sei f : R −→ R definiert durch
(
sin x1 für x 6= 0,
f (x) :=
0
für x = 0.
-4
1
1
0.5
0.5
-2
4
2
-0.75
-0.5
-0.25
-0.5
0.5
0.75
-0.5
-1
-1
-0.2
0.25
1
1
0.5
0.5
-0.1
0.1
0.2
-0.04
-0.02
0.02
-0.5
-0.5
-1
-1
0.04
Abbildung 12: Das Verhalten von x 7→ sin x1 nahe bei 0
Auf R \ {0} ist f (als Verkettung stetiger Funktionen) stetig. An der Stelle x = 0 ist
f unstetig, es liegt aber keine Sprungstelle“ vor, sondern eine Oszillationsstelle“. In
”
”
124
jeder Umgebung Uδ (0) (mit beliebig kleinem δ > 0) nimmt f jeden Wert aus [−1, 1]
an, und zwar unendlich oft! Das Verhalten von f bei 0 illustrieren die in Abbildung 12
gezeichneten Ausschnitte aus dem Graphen.
(4) Es sei f : R −→ R definiert durch
(
f (x) :=
x sin x1
für x 6= 0,
0
für x = 0.
Dann ist f in ganz R stetig – auch in x = 0. Dies folgt z.B. aus Aufgabe 11.3. In
Abbildung 13 sind wieder mehrere Ausschnitte aus dem Graphen gezeichnet.
1
0.2
0.8
0.1
0.6
0.4
-0.2
-0.1
0.1
0.2
0.2
-0.1
-2
-1
1
2
-0.2
-0.2
0.02
0.015
0.05
0.01
0.025
0.005
-0.1
-0.05
0.05
0.1
-0.02
-0.01
0.01
0.02
-0.025
-0.005
-0.05
-0.01
-0.075
-0.015
Abbildung 13: Das Verhalten von x 7→ x sin x1 nahe bei 0
Später werden wir zeigen, dass der Graph von f in [−δ, δ] für jedes δ > 0 unendlich lang
ist. Dieses Beispiel widerlegt die Vorstellung, eine Funktion sei genau dann stetig, wenn
sich ihr Graph ohne abzusetzen zeichnen lässt: Startet man damit im Nullpunkt, so
müsste man in jedem beliebig kleinen Abszissen-Intervall [0; δ] mit δ > 0 ein unendlich
langes Wegstück durchlaufen; man kann hier nicht mehr sinnvoll erklären, was man
mit einem Nachzeichnen“ des Graphens überhaupt meint.
”
Die letzten Beispiele waren zwar sicherlich überraschend, aber letztlich noch gut zu veranschaulichen. Wir diskutieren nun zwei Funktionen, deren Graphen sich nicht mehr angemessen zeichnen lassen und die recht verblüffende Stetigkeitseigenschaften aufweisen.
125
Beispiel 9.14
(1) Die sog. Dirichlet-Funktion35 f : R −→ R wird definiert durch
f (x) :=
1 für rationale x,
0 für irrationale x.
Nach Satz 2.42 ist Q dicht in R. Nach Aufgabe 4.2 ist auch die Menge R \ Q aller
irrationalen Zahlen dicht in R. Es sei nun ein beliebiger Punkt a ∈ R gegeben. In jeder
(beliebig kleinen) punktierten Umgebung von a existieren dann rationale Zahlen x und
irrationale Zahlen y, wofür also f (x) = 1 und f (y) = 0 ist. Daher ist die Funktion f
in jedem Punkt a unstetig.
Der Graph von f kann nicht adäquat gezeichnet werden. Man könnte in der (x, y)Ebene die beiden Geraden mit den Gleichungen y = 1 und y = 0 zeichnen. Aber man
muss sich dann beide Geraden als porös“ vorstellen, wobei die Lücken in der einen
”
Geraden den Nicht-Lücken in der anderen entsprechen. Natürlich ist es unmöglich,
diese Lücken graphisch darzustellen.
mit m ∈ Z und n ∈ N geschrieben
(2) Jede rationale Zahl q kann in der Gestalt q = m
n
werden. Wenn der Nenner n minimal gewählt wird, dann sind m und n eindeutig
durch q bestimmt. (Die Quotientendarstellung m
ist dann vollständig gekürzt.) Durch
n
die Vorschrift
1
für rationale x = m
mit m ∈ Z und n ∈ N minimal,
n
n
g(x) :=
0 für irrationale x ,
ist also eine Funktion g : R −→ R definiert.
Es gilt g(x) > 0 für alle x ∈ Q. Abbildung 14 versucht eine Vorstellung vom Graphen
von g im Intervall 0 ≤ x ≤ 1 zu vermitteln. Darin sind die Punkte (x, g(x)) für die
rationalen x mit Nennern n ≤ 8 eingetragen. Auf der x-Achse ist das Intervall von 0 bis
1 dick markiert; dort liegen die Punkte des Graphen von g dicht. Weil die irrationalen
Zahlen dicht in R liegen, ist g in jedem Punkt a ∈ Q unstetig. Man könnte nun wegen
der Dichtheit von Q in R glauben, dass g auch in den irrationalen Punkten unstetig
ist. Aber das Gegenteil ist richtig, und das wird folgendermaßen bewiesen.
Es sei eine irrationale Zahl a gegeben, und es sei ε > 0. Dazu gibt es ein N ∈ N mit
1
< ε. Im Intervall [a − 1, a + 1] gibt es nur endlich viele rationale Zahlen q = m
mit
N
n
Nennern n ≤ N . Daher und wegen der Irrationalität von a ist die Zahl
n
o
m
∈ Q, 1 ≤ n ≤ N
δ := min |q − a| q =
n
35
nach P. G. L. Dirichlet (1805 – 1859) . Von ihm stammen wichtige Beiträge zur Zahlentheorie und zur
Analysis, insbesondere zur Entwickelbarkeit von Funktionen in trigonometrische Reihen. Ihm wird auch die
Prägung unseres heutigen Begriffes einer Funktion als einer im Prinzip willkürlichen Zuordnungsvorschrift
zugeschrieben. An der Entwicklung des Begriffs waren mehrere Personen beteiligt. Im Grunde kannte Euler
bereits willkürliche“ Funktionen, und er unterschied sie von den in seinem Sinne stetigen“ Funktionen.
”
”
Die Diskussion von Funktionen mit zunehmend schlechteren“ Eigenschaften wurde durch den Wunsch er”
zwungen, zunehmend kompliziertere Naturvorgänge mathematisch zu beschreiben. Dabei gab die Theorie
der trigonometrischen Reihen wesentliche Impulse.
126
y
6
1
-
0
1 x
1/2
Abbildung 14: Die Funktion aus Beispiel 9.14 (2)
positiv. Es sei x ∈ R und |x − a| < δ. Wenn x irrational ist, dann gilt g(x) = g(a) = 0.
einen minimalen Nenner n > N
Nun sei x rational. Nach Wahl von δ hat dann x = m
n
m
(denn jede rationale Zahl q = n mit n ≤ N hat von a einen Abstand ≥ δ). Also ist
1
1
<
< ε,
d.h.
|g(x) − g(a)| < ε.
n
N
Somit gilt g(Uδ (a)) ⊆ Uε (g(a)). Damit ist die Stetigkeit von g in allen irrationalen
Punkten a bewiesen.
0 < g(x) =
Die Funktion g hat also die bizarre Eigenschaft, dass sowohl ihre Stetigkeitsstellen als
auch ihre Unstetigkeitsstellen dicht in R liegen.
Bei der Überprüfung einer Funktion auf Stetigkeit muss man auch auf deren Definitionsbereich achten. Dafür sollen die folgenden Beispiele sensibilisieren.
Beispiel 9.15
(1) Wir wandeln Beispiel 9.13 (2) geringfügig ab: Es sei f : R \ {0} −→ R definiert durch
(
0 für x < 0,
f (x) :=
1 für x > 0.
Gegenüber 9.13 (2) haben wir also lediglich den Nullpunkt aus dem Definitionsbereich
der Funktion entfernt. Die so definierte Funktion f : R \ {0} −→ R ist stetig – denn
sie ist ja in jedem Punkt x ∈ R \ {0} stetig.
(2) Es seien X und Y metrische Räume, D ⊆ X, und f : D −→ Y sei eine Funktion. Falls
a ∈ D ein isolierter Punkt von D ist, so ist f stetig in a.
Begründung: Nach Definition 8.4 gibt es ein δ > 0, so dass D ∩ Uδ (a) = {a} ist.
Für dieses δ gilt dann
f (D ∩ Uδ (a)) = f ({a}) = {f (a)} ⊆ Uε (f (a))
für alle ε > 0,
d.h. dieses δ leistet sogar für jedes ε > 0 das in der Definition von Stetigkeit
Verlangte. Dies zeigt, dass f in a stetig ist.
127
Beispielsweise ist jede Funktion f : Z −→ R stetig, denn Z besteht nur aus isolierten
Punkten.
(3) Die Funktion
1
x
ist stetig (in ihrem Definitionsbereich R \ {0}). Hingegen ist die Frage, ob f in x =
0 unstetig ist, schlicht sinnlos, da 0 gar nicht zum Definitionsbereich der Funktion
gehört36 .
f : R \ {0} −→ R,
9.5
x 7→
Grenzwerte von Funktionen
Für Funktionen f und Punkte a soll jetzt die Bedeutung des Grenzwertes limx→a f (x) erklärt
werden. Es wird nicht verlangt, dass a im Definitionsbereich von f liegt. Wenn dies aber doch
der Fall ist, dann ist der Funktionswert f (a) völlig irrelevant für den fraglichen Grenzwert.
Vielmehr sind nur die Werte f (x) an den Stellen x 6= a in unmittelbarer Nähe“ von a (d.h.
”
in einer punktierten Umgebung von a) ausschlaggebend. Wir müssen voraussetzen, dass es
solche Stellen gibt. Der nötige präzise Begriff wurde in Kapitel 8 bereitgestellt: Der Punkt
a soll ein Häufungspunkt des Definitionsbereiches von f sein.
Definition 9.16 Es seien metrische Räume X und Y mit den Metriken dX bzw. dY , eine
Teilmenge D ⊆ X und eine Funktion f : D −→ Y gegeben. Der Punkt a ∈ X sei ein
Häufungspunkt von D. Die Funktion f hat den Grenzwert b ∈ Y für x → a, und man
schreibt
lim f (x) = b,
x→a
falls zu jeder Zahl ε > 0 eine Zahl δ > 0 existiert, so dass für alle x ∈ D\{a} mit dX (x, a) < δ
die Abschätzung dY (f (x), b) < ε gilt. In Quantorenschreibweise:
∀ ε>0 ∃ δ>0 ∀ x∈D\{a} dX (x, a) < δ =⇒ dY (f (x), b) < ε .
Äquivalent hierzu ist folgende Bedingung:
∀ ε>0 ∃ δ>0 f (D ∩ U̇δ (a)) ⊆ Uε (b) .
Diese Definition ähnelt stark der Definition von Stetigkeit. Den engen Zusammenhang zwischen beiden Begriffen werden wir in Satz 9.18 herausarbeiten.
Beispiel 9.17
(1) Wir betrachten die rationale Funktion
x2 − 1
f (x) :=
x−1
36
Richtig wäre allerdings die Aussage, dass es keine Fortsetzung von f zu einer in ganz R stetigen Funktion
gibt.
128
mit dem Definitionsbereich D = R \ {1}. Für alle x ∈ D gilt f (x) = x + 1. (Man kann
den Faktor x − 1 kürzen.) Deswegen gilt
lim f (x) = 2.
x→1
Der Punkt x = 1 liegt zwar nicht im Definitionsbereich von f , jedoch lässt sich f durch
die Festsetzung f (1) := 2 stetig in x = 1 ergänzen, d.h. zu einer auf ganz R stetigen
Funktion fortsetzen.
(2) Es sei sgn : R −→ {−1, 0, 1} die in Definition 2.14 erklärte Vorzeichenfunktion auf
R. Sie nimmt in jeder beliebig kleinen Umgebung von 0 die Werte 1 und −1 an. Der
Grenzwert limx→0 sgn (x) existiert daher nicht. Für die Funktion g(x) := (sgn (x))2 gilt
jedoch
lim g(x) = lim (sgn (x))2 = 1,
x→0
x→0
und dieser Grenzwert ist verschieden von dem Funktionswert g(0) = 0.
Der neue Grenzwertbegriff erlaubt einige Umformulierungen von bekannten Aussagen:
Satz 9.18
Es seien metrische Räume X und Y , eine Teilmenge D ⊆ X und eine Funktion
f : D −→ Y gegeben. Der Punkt a ∈ X sei ein Häufungspunkt von D. Dann gelten die
folgenden Aussagen.
(1) Genau dann gilt limx→a f (x) = b, wenn für jede Folge (xn )n von Punkten in D \ {a},
die gegen a konvergiert, die Folge der Funktionswerte f (xn ) gegen b konvergiert.
(2) Der Grenzwert limx→a f (x) existiert genau dann, wenn es eine Funktion
F : D ∪ {a} −→ Y
gibt, die im Punkt a stetig ist und die F (x) = f (x) für alle x ∈ D \ {a} erfüllt. In
diesem Fall ist F (a) = limx→a f (x).
(3) Im Falle a ∈ D ist f genau dann stetig im Punkt a, wenn limx→a f (x) = f (a) gilt.
Man beachte, dass wir in (3) – im Gegensatz zu (1) und (2) und zu Definition 9.16 –
voraussetzen, dass der betrachtete Punkt a zum Definitionsbereich D von f gehört. Dies
ist erforderlich, da wir andernfalls nicht von der Stetigkeit von f in diesem Punkt sprechen
könnten.
Beweis.
(1) Der Beweis verläuft fast wörtlich wie der Beweis des Folgenkriteriums (Satz 9.6). Aus
Gründen der Vollständigkeit führen wir ihn dennoch aus:
=⇒ “: Es sei limx→a f (x) = b. Es sei (xn )n eine Folge in D \ {a} mit limn→∞ xn = a.
”
Es sei ein ε > 0 gegeben. Dazu gibt es wegen limx→a f (x) = b ein δ > 0 mit
f (D ∩ U̇δ (a)) ⊆ Uε (b).
129
Zu diesem δ gibt es wegen limn→∞ xn = a ein N mit xn ∈ Uδ (a) für alle n ≥ N .
Aufgrund der Voraussetzungen über die Folge (xn )n ist sogar xn ∈ D ∩ U̇δ (a) für alle
n ≥ N . Damit folgt f (xn ) ∈ Uε (b) für alle n ≥ N .
Dies zeigt limn→∞ f (xn ) = b.
⇐=“: Diese Implikation beweisen wir mittels Kontraposition. Wir setzen also voraus,
”
dass der Grenzwert limx→a f (x) gar nicht existiert oder jedenfalls nicht b ist. Dann gilt:
∃ ε>0 ∀ δ>0 ∃ x∈D\{a} dX (x, a) < δ ∧ dY (f (x), b) ≥ ε .
Wenn wir hierin δ =
mit
1
n
wählen, erhalten wir für jedes n ∈ N einen Punkt xn ∈ D \ {a}
xn ∈ U1/n (a)
und
f (xn ) 6∈ Uε (b).
Somit ist (xn )n eine Folge von Punkten in D \ {a} mit limn→∞ xn = a, deren Bildfolge
(f (xn ))n entweder divergiert oder gegen einen Wert 6= b konvergiert.
(2) Den Definitionsbereich der Funktion F , um die es in (2) geht, bezeichnen wir zur
Abkürzung mit Da := D ∪ {a}.
=⇒“: Der Grenzwert limx→a f (x) =: b möge existieren. Wir definieren die Funktion
”
F : D ∪ {a} −→ Y durch
(
f (x) für alle x ∈ D \ {a} ,
F (x) :=
b
für x = a.
Es gilt dann F (x) = f (x) für alle x ∈ D \ {a}. Nach Definition des Grenzwerts gilt
∀ ε>0 ∃ δ>0 f (D ∩ U̇δ (a)) ⊆ Uε (b) = Uε (F (a)) .
Wegen F (Da ∩ Uδ (a)) = f (D ∩ U̇δ (a)) ∪ {F (a)} und weil F (a) natürlich stets in
Uε (F (a)) liegt, folgt hieraus auch
∀ ε>0 ∃ δ>0 F (Da ∩ Uδ (a)) ⊆ Uε (F (a)) .
Dies bedeutet gerade, dass F : Da −→ Y in a stetig ist.
⇐=“: Nun sei umgekehrt vorausgesetzt, dass eine Funktion F mit den in (2) genannten
”
Eigenschaften existiert. Dann gilt also
∀ ε>0 ∃ δ>0 F (D ∩ Uδ (a)) ⊆ Uε (F (a)) .
Wegen F (x) = f (x) für alle x ∈ D \ {a} folgt insbesondere
∀ ε>0 ∃ δ>0 f (D ∩ U̇δ (a)) ⊆ Uε (F (a)) .
Dies zeigt, dass der Grenzwert limx→a f (x) existiert und gleich F (a) ist.
Damit ist (2) bewiesen.
(3) Nun sei a ∈ D.
Es sei f stetig in a. Dann hat F := f : D −→ Y die in (2) genannten Eigenschaften.
Gemäß (2) existiert also der Grenzwert limx→a f (x), und es ist limx→a f (x) = F (a) =
f (a).
130
Nun sei umgekehrt limx→a f (x) = f (a) vorausgesetzt. Dann existiert insbesondere der
Grenzwert limx→a f (x). Aus (2) folgt die Existenz einer Funktion F : D −→ Y , die
im Punkt a stetig ist und F (x) = f (x) für alle x ∈ D \ {a} sowie F (a) = limx→a f (x)
erfüllt. Es ist dann also F (a) = limx→a f (x) = f (a). Damit ist F (x) = f (x) für alle
x ∈ D, d.h. F = f . Mit F ist also auch f stetig in a.
In der Situation von Satz 9.18 (2) sagt man: Die Funktion f ist im Punkt a stetig ergänzbar. Durch geeignete Neufestsetzung oder Abänderung des Wertes im Punkt a erhält man
eine Funktion F , die im Punkt a stetig ist.
Satz 9.19 (Rechenregeln)
Es sei D eine Teilmenge von Rn oder von Cn , der Punkt a
sei ein Häufungspunkt von D, und Y sei einer der Räume Rm oder Cm . Für die Funktionen
f : D −→ Y und g : D −→ Y mögen die Grenzwerte
lim f (x) =: α
x→a
und
lim g(x) =: β
x→a
existieren. Dann gelten die folgenden Aussagen.
(1) Es ist limx→a (f + g)(x) = α + β.
(2) Im Falle m = 1 ist limx→a (f g)(x) = αβ.
(3) Im Falle m = 1 und β 6= 0 gilt
α
f
(x) = .
x→a g
β
lim
(4) Es sei Y = R, und es existiere ein δ > 0 mit f (x) ≤ g(x) für alle x ∈ D ∩ U̇δ (a). Dann
gilt α ≤ β.
Beweis. Kraft Satz 9.18 (1) können diese Rechenregeln auf Aussagen über Folgen zurückgeführt werden. Man kann daher fast wörtlich wie im Beweis von Satz 9.8 vorgehen, wobei
an die Stelle des Folgenkriteriums nun Satz 9.18 (1) tritt.
9.6
Uneigentliche und einseitige Grenzwerte
Für reellwertige Funktionen f : I −→ R auf reellen Intervallen I haben wir den Grenzwert
limx→a f (x) bisher nur für den Fall definiert, dass a ∈ R (und a ein Häufungspunkt von I) ist.
Ebenso sind als Grenzwerte bisher nur reelle Zahlen zugelassen. Oft möchte man aber auch
+∞ oder −∞ als Grenzwerte im weiteren Sinn (sog. uneigentliche Grenzwerte) ansehen,
oder man möchte das Verhalten von f (x) für x → ±∞ untersuchen. Hierzu müssen wir den
Grenzwertbegriff etwas erweitern. Wir wollen uns dabei natürlich so weit wie möglich an den
bisherigen Definitionen orientieren. In diesen spielten (ε- oder δ-)Umgebungen die zentrale
Rolle. Bei der Definition uneigentlicher Grenzwerte oder von Grenzwerten bei ±∞ treten an
deren Stelle Intervalle der Gestalt ]R, ∞[ bzw. ] − ∞, −R[ mit R > 0; diese kann man als
Umgebungen von ∞ auffassen. (Hierbei sollte man bei R an große“ reelle Zahlen denken.)
”
Auch Folgen reeller Zahlen sind häufig in einer so übersichtlichen Weise divergent, dass man
ihnen einen uneigentlichen Grenzwert ∞ oder −∞ zuschreiben möchte. Dies geschieht ganz
analog wie bei Funktionen.
131
Definition 9.20
(1) Eine Folge (xn )n von reellen Zahlen xn heißt bestimmt divergent gegen ∞, falls es
zu jedem R > 0 eine natürliche Zahl N gibt mit xn ≥ R für alle n ≥ N . Man schreibt
in diesem Fall
lim xn = ∞.
n→∞
Analog werden die bestimmte Divergenz gegen −∞ und die Schreibweise limn→∞ xn =
−∞ erklärt.
(2) Es sei f : D −→ R eine Funktion auf einer Teilmenge D von R. Der Punkt a ∈ R sei
ein Häufungspunkt von D. Man schreibt
lim f (x) = ∞,
x→a
falls die folgende Bedingung erfüllt ist: Zu jedem R > 0 gibt es ein δ > 0, so dass
f (x) ≥ R
für alle x ∈ D ∩ U̇δ (a).
Man nennt ∞ den uneigentlichen Grenzwert von f (x) für x → a. Analog erklärt
man den uneigentlichen Grenzwert limx→a f (x) = −∞.
(3) Es sei f : ]x0 , ∞[−→ R eine Funktion auf einem Intervall ]x0 , ∞[ mit x0 ∈ R. Es sei
c ∈ R. Man schreibt
lim f (x) = c,
x→∞
falls die folgende Bedingung erfüllt ist: Zu jedem ε > 0 gibt es ein % ≥ x0 mit
f (x) ∈ Uε (c)
für alle x ≥ %.
Man nennt c den (eigentlichen) Grenzwert von f (x) für x → ∞. Analog erklärt
man Grenzwerte limx→−∞ f (x) von Funktionen f : ] − ∞, x0 [−→ R mit x0 ∈ R.
(4) Es sei f : ]x0 , ∞[−→ R eine Funktion auf einem Intervall ]x0 , ∞[ mit x0 ∈ R. Man
schreibt
lim f (x) = ∞,
x→∞
falls die folgende Bedingung erfüllt ist: Zu jedem R > 0 gibt es ein % > 0 mit
f (x) ≥ R
für alle x ≥ %.
Man nennt ∞ den uneigentlichen Grenzwert von f (x) für x → ∞. Analog erklärt man die uneigentlichen Grenzwerte limx→∞ f (x) = −∞, limx→−∞ f (x) = ∞ und
limx→−∞ f (x) = −∞.
Bemerkung 9.21
Satz 9.18 (1) und die Rechenregeln in Satz 9.19 bleiben im Wesentlichen sinngemäß für uneigentliche Grenzwerte und Grenzwerte bei ±∞ gültig. Im Falle
uneigentlicher Grenzwerte α und β muss man dabei allerdings voraussetzen, dass α + β, αβ
beziehungsweise αβ auf sinnvolle Weise“ definiert werden können. Beispielsweise ist
”
∞
für α > 0,
α + ∞ := ∞ für α ∈ R,
∞ + ∞ := ∞
α · ∞ :=
−∞ für α < 0
zu setzen. Ausdrücke wie ∞ − ∞, 0 · ∞,
0
0
oder
∞
∞
müssen zwangsläufig undefiniert bleiben.
Beweisen kann man diese Aussagen, indem man sie – wie beim Beweis von Satz 9.19 angedeutet – auf entsprechende Rechenregeln für Folgen zurückführt. Wir verzichten darauf, dies
näher auszuführen.
132
Beispiel 9.22
Man zeigt leicht
lim xn
x→∞

 ∞ für n ∈ N,
1 für n = 0,
=

0 für n ∈ Z, n < 0,
lim exp(x) = ∞,
lim exp(x) = 0,
x→∞
lim
x→0
x→−∞
1
= ∞.
x2
Hierbei folgt limx→∞ exp(x) = ∞ aus der für alle x > 0 gültigen Abschätzung
exp(x) =
∞
X
xk
k=0
x2 x3
=1+x+
+
+ · · · > 1 + x.
k!
2!
3!
Wegen exp(−x) = 1/ exp(x) folgt dann auch limx→−∞ exp(x) = 0.
Die übrigen Behauptungen bedürfen sicherlich keiner weiteren Begründung.
Im letzten Beispiel kann man statt 1/x2 auch das Verhalten von 1/x, 1/x3 usw. in der Nähe
von Null betrachten. Hierfür erweist es sich aber als notwendig, einseitige Grenzwerte zu
definieren.
Definition 9.23 Es sei f : D −→ R eine Funktion auf einer Teilmenge D von R. Der
Punkt a ∈ R sei ein Häufungspunkt von D ∩ ] − ∞, a[. Die Funktion f hat für x → a den
linksseitigen Grenzwert c ∈ R, und man schreibt
lim f (x) = c,
x→a−
falls die folgende Bedingung erfüllt ist:
∀ ε>0 ∃ δ>0 f (D ∩ ]a − δ, a[ ) ⊆ Uε (c).
Unter der Voraussetzung, dass a ein Häufungspunkt von D ∩ ]a, ∞[ ist, definiert man analog
den rechtsseitigen Grenzwert von f für x → a und die Schreibweise limx→a+ f (x) = c.
Ebenso kann man uneigentliche links- und rechtsseitige Grenzwerte ähnlich wie in Definition
9.20 (2) erklären.
Die einseitigen Grenzwerte können auch als gewöhnliche Grenzwerte (im Sinne der Definitionen 9.16 und 9.20) aufgefasst werden, nämlich als Grenzwerte der Einschränkungen
(Restriktionen) von f auf D ∩ ] − ∞, a[ bzw. auf D ∩ ]a, ∞[. Somit gelten die Rechenregeln
und Konvergenzkriterien für Grenzwerte sinngemäß auch für einseitige Grenzwerte.
Beispiel 9.24
Man bestätigt leicht
1
1
lim n = ∞,
lim n = −∞
für ungerade
x→0+ x
x→0− x
lim sgn (x) = 1,
lim sgn (x) = −1,
x→0+
x→0−
1
1
lim exp
= ∞,
lim exp
= 0.
x→0+
x→0−
x
x
n > 0,
Die vorletzte Behauptung folgt (wie in Beispiel 9.22) aus exp(t) > 1 + t für alle t > 0, und
die letzte ergibt sich dann mittels exp(−t) = 1/ exp(t).
133
10
Abbildungseigenschaften stetiger Funktionen
Die wichtigsten Ergebnisse dieses Kapitels sind der Satz vom Maximum und der Zwischenwertsatz. Allgemeiner wird untersucht, wie sich topologische Eigenschaften von Mengen
(nämlich Offenheit, Abgeschlossenheit und Kompaktheit) unter der Einwirkung von stetigen
Abbildungen verhalten.
10.1
Bilder kompakter Mengen
Der folgende Satz zählt zu den zentralen Resultaten der Analysis.
Satz 10.1
Es seien X und Y metrische Räume und f : X −→ Y eine stetige Abbildung.
Für jede kompakte Teilmenge K von X ist dann das Bild f (K) kompakt in Y .
Beweis. Es sei eine kompakte Teilmenge K ⊆ X gegeben. Es sei (yn )n eine Folge in f (K).
Dann gibt es eine Folge (xn )n in K mit yn = f (xn ) für alle n. Da K kompakt ist, besitzt
(xn )n gemäß Definition 8.9 eine Teilfolge (xnj )j , die gegen ein a ∈ K konvergiert. Da f stetig
ist, ergibt sich aus dem Folgenkriterium (Satz 9.6), dass die Bildfolge (ynj )j = (f (xnj ))j
gegen f (a) konvergiert. Hierbei ist f (a) ∈ f (K). Also hat (yn )n eine konvergente Teilfolge
mit Grenzwert in f (K).
Dies zeigt, dass f (K) kompakt ist.
Ein wichtiger Spezialfall hiervon ist der sog. Satz vom Maximum. Wir müssen zunächst
erklären, was wir unter einem Maximum einer Funktion verstehen.
Definition 10.2 Es sei f : D −→ R eine reellwertige Funktion auf irgendeiner Menge
D 6= ∅. Die Funktion f hat im Punkt a ∈ D ein Maximum oder ein absolutes Maximum,
falls
f (x) ≤ f (a)
für alle x ∈ D
gilt. Sie hat in a ein Minimum oder ein absolutes Minimum, falls
f (x) ≥ f (a)
für alle x ∈ D.
Korollar 10.3 (Satz vom Maximum)
Es sei K eine kompakte, nicht-leere Teilmenge
von Rm oder Cm , und f : K −→ R sei eine stetige Funktion. Dann besitzt f auf K sowohl
ein absolutes Maximum als auch ein absolutes Minimum.
Beweis. Nach Satz 10.1 ist f (K) eine kompakte Teilmenge von R. Nach Proposition 8.12
besitzt f (K) daher ein Maximum und ein Minimum. Es gibt also a, b ∈ K mit f (a) ≤
f (x) ≤ f (b) für alle x ∈ K. Dies bedeutet gerade, dass f auf K ein Maximum (in b) und ein
Minimum (in a) annimmt.
Der Beweis des Satzes liefert kein Verfahren, wie man die Maximalstelle b und den Maximalwert f (b) finden kann. Unter stärkeren Voraussetzungen an f stellt die Differentialrechnung
Methoden hierfür bereit.
134
10.2
Topologische Kennzeichnung der Stetigkeit
Die Stetigkeit einer Funktion kann durch die Urbilder abgeschlossener Mengen oder offener
Mengen gekennzeichnet werden:
Satz 10.4
Es seien X und Y metrische Räume. Für eine Funktion f : X −→ Y sind die
folgenden drei Aussagen äquivalent:
(a) Die Funktion f ist stetig.
(b) Für jede offene Menge V in Y ist das Urbild f −1 (V ) offen in X.
(c) Für jede abgeschlossene Menge B in Y ist das Urbild f −1 (B) abgeschlossen in X.
Beweis. (b) ⇐⇒ (c)“: Für jede Teilmenge W von Y gilt
”
X \ f −1 (W ) = {x ∈ X | f (x) 6∈ W }
= {x ∈ X | f (x) ∈ Y \ W } = f −1 (Y \ W ) .
Das Komplement des Urbildes von W ist also gleich dem Urbild des Komplementes von W .
Weil abgeschlossene Mengen die Komplemente offener Mengen sind und umgekehrt, folgt
damit die Äquivalenz der Aussagen (b) und (c).
Ausführlich begründet man das wie folgt: Es sei (b) gültig. Es sei B ⊆ Y abgeschlossen. Dann
ist Y \ B offen. Nach (b) ist das Urbild f −1 (Y \ B) offen. Wegen f −1 (Y \ B) = X \ f −1 (B)
bedeutet dies, dass f −1 (B) abgeschlossen ist. Damit ist (c) gezeigt.
Analog schließt man für die Implikation (c) =⇒ (b)“.
”
(a) =⇒ (b)“: Nun wird die Stetigkeit von f vorausgesetzt. Es sei eine offene Menge V ⊆ Y
”
gegeben. Es sei a ∈ f −1 (V ). Dann ist b := f (a) ∈ V . Weil V offen ist, gibt es ein ε > 0 mit
Uε (b) ⊆ V . Weil f im Punkt a stetig ist, gibt es hierzu ein δ > 0 mit f (Uδ (a)) ⊆ Uε (b) ⊆ V .
Es folgt
Uδ (a) ⊆ f −1 (f (Uδ (a))) ⊆ f −1 (V ).
Zu jedem a ∈ f −1 (V ) gibt es also ein δ > 0, so dass Uδ (a) ⊆ f −1 (V ). Daher ist f −1 (V ) offen.
Damit ist die Implikation (a) =⇒ (b) bewiesen.
(b) =⇒ (a)“: Es sei (b) gültig. Es sei ein Punkt a ∈ X gegeben. Wir wollen zeigen,
”
dass f in a stetig ist. Hierzu sei eine Zahl ε > 0 gegeben. Wir setzen b := f (a). Die Menge
V := Uε (b) ist offen. Nach Voraussetzung ist daher auch U := f −1 (V ) offen. Wegen a ∈ U
gibt es also ein δ > 0 mit Uδ (a) ⊆ U . Es folgt
f (Uδ (a)) ⊆ f (U ) = f (f −1 (V )) ⊆ V = Uε (b).
Hierbei haben wir die Inklusion f (f −1 (V )) ⊆ V benutzt. Diese begründet man wie folgt: Es
sei y ∈ f (f −1 (V )) beliebig. Dann gibt es ein x ∈ f −1 (V ) mit f (x) = y. Wegen x ∈ f −1 (V ) gilt
f (x) ∈ V , also y = f (x) ∈ V . Da dies für alle y ∈ f (f −1 (V )) gilt, ist damit f (f −1 (V )) ⊆ V
gezeigt.
Warnung: I. Allg. gilt in dieser Inklusion keine Gleichheit.
Somit ist f stetig im Punkt a. Das gilt für jedes a ∈ X. Damit ist die Implikation (b) =⇒ (a)
bewiesen.
135
In Korollar 10.6 wollen wir eine einfache, aber nützliche Folgerung aus Satz 10.4 explizit
festhalten. Zu deren Beweis benötigen wir das folgende möglicherweise etwas spitzfindig
wirkende Lemma.
Lemma 10.5 Es sei (X, d) ein metrischer Raum. Es seien A ⊆ X abgeschlossen in X
und C ⊆ A abgeschlossen in A (d.h. in dem metrischen Raum (A, d)). Dann ist C auch
abgeschlossen in X.
Beweis. Wir benutzen die Charakterisierung von Abgeschlossenheit aus Satz 8.6 (c).
Es sei (cn )n eine Folge in C, die in X konvergiert, die also einen Grenzwert x0 ∈ X besitzt.
Wir müssen zeigen, dass x0 ∈ C ist. Wegen C ⊆ A ist (cn )n auch eine Folge in A. Da sie in X
konvergiert und A in X abgeschlossen ist, gilt x0 ∈ A nach Satz 8.6 (c). Also ist (cn )n sogar
in A konvergent. Da C abgeschlossen in A ist, folgt wiederum aus Satz 8.6 (c) nunmehr auch
x0 ∈ C.
Für alle Folgen (cn )n in C, die in X konvergieren, gilt also limn→∞ cn ∈ C. Gemäß Satz
8.6 (c) ist C daher abgeschlossen in X.
Korollar 10.6
Es sei A eine abgeschlossene Teilmenge eines metrischen Raumes X, und
f : A −→ R sei eine stetige Funktion. Für jedes c ∈ R sind dann die Mengen
{x ∈ A | f (x) ≤ c}
und
f −1 ({c}) = {x ∈ A | f (x) = c}
abgeschlossene Teilmengen von X.
Beweis. Zur Abkürzung setzen wir C := {x ∈ A | f (x) ≤ c}. Dann ist C = f −1 (] − ∞, c]).
Da das Intervall ] − ∞, c] abgeschlossen und die Funktion f : A −→ R stetig ist, ist C nach
Satz 10.4 abgeschlossen in A (d.h. als Teilmenge des metrischen Raumes A, versehen mit
derselben Metrik wie X). Da A abgeschlossen in X ist, folgt aus Lemma 10.5, dass C auch
abgeschlossen in X ist.
Völlig analog argumentiert man für die Menge f −1 ({c}), die als Urbild des abgeschlossenen
Intervalls {c} abgeschlossen ist – zunächst in A, sodann dank Lemma 10.5 auch in X.
Korollar 10.6 ist von großer praktischer Relevanz zum Nachweis der Abgeschlossenheit: Alle
wie in Korollar 10.6 durch Gleichungen und nicht-strikte Ungleichungen zwischen stetigen
Funktionen definierten Mengen sind abgeschlossen. Dies verallgemeinert einen Gedanken,
der uns bereits in Beispiel 8.11 (1) – (3) beim Nachweis der Abgeschlossenheit der dort vorkommenden Mengen begegnet war.
10.3
Der Zwischenwertsatz
Eine der wichtigsten Eigenschaften stetiger Funktionen f : I −→ R auf Intervallen ist die
Zwischenwerteigenschaft: Mit je zwei Werten nimmt f auch alle dazwischenliegenden Werte
an. Der folgende Nullstellensatz ist ein Spezialfall, der aber bereits alles Wesentliche enthält.
136
Satz 10.7 (Nullstellensatz von Bolzano)
Es sei I = [a, b] ein kompaktes Intervall,
und f : I −→ R sei eine stetige Funktion mit f (a) < 0 < f (b) oder mit f (b) < 0 < f (a).
Dann besitzt f wenigstens eine Nullstelle im offenen Intervall ]a, b[.
Wir geben zwei Beweise für diesen wichtigen Satz.
Beweis 1. Die Grundidee des ersten Beweises ist recht anschaulich: Wir halbieren das Intervall I. In (mindestens) einem der beiden entstehenden Teilintervalle hat f dann einen
Vorzeichenwechsel. Dieses Teilintervall halbieren wir erneut und greifen wieder das Teilintervall heraus, in dem f das Vorzeichen wechselt, usw. Auf diese Weise erhalten wir eine
Intervallschachtelung (In )n , bei der f in jedem In einen Vorzeichenwechsel hat. Diese definiert einen Punkt x0 ∈ I. Aufgrund der Stetigkeit von f entpuppt sich x0 als Nullstelle von
f . Wenn man diese Idee umsetzt, erweist es sich als günstig, die Bedingung f hat einen
”
Vorzeichenwechsel in In“ durch die etwas stärkere und technisch leichter zu handhabende
Bedingung f hat an den beiden Intervallgrenzen von In unterschiedliches Vorzeichen“ zu
”
ersetzen. Nun zu den Details:
Es genügt, den Fall f (a) < 0 < f (b) zu betrachten. (Andernfalls ersetzen wir f durch −f .)
Wir definieren eine Folge (In )n≥0 von Intervallen In = [an , bn ] ⊆ I rekursiv wie folgt: Es sei
I0 := I. Ist In für ein n ∈ N0 bereits definiert, so setzen wir cn := 21 (an + bn ) und
(
[an , cn ], falls f (an ) · f (cn ) < 0,
In+1 :=
[cn , bn ] sonst.
Es gilt dann offensichtlich In+1 ⊆ In und |bn+1 − an+1 | = 21 · |bn − an | für alle n, und induktiv
folgt |bn − an | = 21n · |b0 − a0 | für alle n. Daher ist (In )n eine T
Intervallschachtelung. Diese
legt nach Satz 2.24 eine (eindeutig bestimmte) reelle Zahl x0 ∈ ∞
n=0 In fest. Nach Satz 5.15
gilt x0 = limn→∞ an = limn→∞ bn . Aufgrund der Stetigkeit von f in x0 erhält man mit dem
Folgenkriterium (Satz 9.6)
f (x0 ) = lim f (an ) = lim f (bn ).
n→∞
n→∞
Wir können annehmen, dass f (cn ) 6= 0 für alle n ist. (Andernfalls ist die Behauptung des
Satzes gezeigt.) Induktiv ergibt sich dann aus unserer Konstruktion, dass f in jedem In einen
Vorzeichenwechsel hat, präziser: dass f (an ) < 0 < f (bn ) für alle n gilt.
Für n = 0 folgt dies aus der Voraussetzung f (a) < 0 < f (b). Es sei f (an ) < 0 < f (bn )
für ein n bereits gezeigt. Falls f (an ) · f (cn ) < 0 ist, so ist gemäß obiger Konstruktion
an+1 = an , bn+1 = cn , und aus f (an ) < 0 folgt f (cn ) > 0, so dass man
f (an+1 ) = f (an ) < 0 < f (cn ) = f (bn+1 )
erhält. Andernfalls ist f (an ) · f (cn ) ≥ 0, und mit f (an ) < 0 und der Annahme f (cn ) 6= 0
folgt f (cn ) < 0; ferner ist in diesem Fall an+1 = cn , bn+1 = bn , und es ergibt sich
f (an+1 ) = f (cn ) < 0 < f (bn ) = f (bn+1 ).
Damit folgt nun insgesamt
0 ≥ lim f (an ) = f (x0 ) = lim f (bn ) ≥ 0,
n→∞
n→∞
Dies zeigt die Behauptung.
also
f (x0 ) = 0.
137
Beweis 2. Wiederum genügt es, den Fall f (a) < 0 < f (b) zu diskutieren. Man betrachtet
die Menge
A := {t ∈ I | f (t) ≤ 0}.
f (b)
A
A
x0
a
b
f (a)
Abbildung 15: Zum 2. Beweis des Nullstellensatzes
Wegen a ∈ A ist A 6= ∅, und mit I ist auch A beschränkt. Wegen der Vollständigkeit von
R existiert also das Supremum x0 := sup A, und es ist a ≤ x0 ≤ b, also x0 ∈ I. Nach
Proposition 2.34 gibt es zu jedem n ∈ N einen Punkt xn ∈ A mit x0 − n1 < xn ≤ x0 . Es folgt
limn→∞ xn = x0 . Wegen xn ∈ A gilt f (xn ) ≤ 0 für alle n. Aus der Stetigkeit von f im Punkt
x0 ergibt sich also mit dem Folgenkriterium (Satz 9.6)
f (x0 ) = f ( lim xn ) = lim f (xn ) ≤ 0.
n→∞
n→∞
Somit ist x0 ∈ A und insbesondere x0 < b (da f (x0 ) ≤ 0 < f (b)). Weil x0 obere Schranke von
A ist, gilt f (t) > 0 für alle t ∈ ]x0 , b]. Es gibt eine Folge (yn )n in ]x0 , b] mit limn→∞ yn = x0 .
Hieraus und aus der Stetigkeit von f folgt
f (x0 ) = lim f (yn ) ≥ 0.
n→∞
Damit ist f (x0 ) = 0 bewiesen.
Bemerkung 10.8
(1) Die Funktion f in Satz 10.7 kann selbstverständlich mehrere Nullstellen haben. Im
zweiten Beweis wird die größte herausgegriffen.
(2) Der Nullstellensatz scheint anschaulich evident zu sein. Der Grund hierfür ist die Vorstellung von der Lückenlosigkeit der Zahlengeraden. Diese spiegelt sich im Vollständigkeitsaxiom wider. Tatsächlich benutzen beide Beweise wesentlich die Vollständigkeit
von R (im ersten Fall in Form des Intervallschachtelungsprinzips). Betreibt man Analysis über Q, so ist der Nullstellensatz nicht mehr richtig:
Beispielsweise hat die durch f (x) := x2 − 2 definierte Funktion f : Q −→ Q keine
Nullstelle in Q.
138
Dedekind berichtet, er habe bei der Vorbereitung einer Anfängervorlesung (etwa um
1870) bemerkt, dass für diesen Satz noch niemals ein strenger Beweis gegeben worden
sei. Das war für ihn der Anlass, seine Theorie der reellen Zahlen zu entwickeln.
Satz 10.9 (Zwischenwertsatz von Bolzano)
Es sei f : I −→ R eine stetige Funktion
auf einem echten Intervall I. Es sei α = inf f (I) und β = sup f (I). Dann nimmt f jede reelle
Zahl y mit α < y < β mindestens einmal als Wert an.
Beweis. Im Fall α = β ist nichts zu zeigen. Es sei also α < β, und es sei eine Zahl y mit
α < y < β gegeben. Dann existieren nach Definition des Infimums bzw. Supremums Punkte
a, b ∈ I mit
α < f (a) < y < f (b) < β.
Es sei J das kompakte Intervall [a, b] oder [b, a], je nachdem ob a < b oder a > b ist.
Wir fassen g(t) := f (t) − y als Funktion auf J auf. Diese Funktion ist stetig und erfüllt
g(a) < 0 < g(b). Nach Satz 10.7 gibt es also wenigstens eine Stelle x0 ∈ J ⊆ I mit g(x0 ) = 0,
und es folgt f (x0 ) = y.
Bevor wir zu Anwendungen des Zwischenwertsatzes kommen, hier zwei Beispiele dafür, dass
dieser Satz auch in unserem Alltagsleben eine Rolle spielt:
• Empfinden wir das Duschwasser bei Stellung S1 des Misch-Hebels als zu kalt, bei
Stellung S2 hingegen als zu warm, so können wir sicher sein, dass es dazwischen eine
Stellung gibt, bei der wir die Temperatur als angenehm empfinden.
• Wenn man ein neues asiatisches Essensrezept ausprobiert und das Essen beim ersten
Zubereiten zu scharf und beim zweiten Versuch (mit der Hälfte an Gewürzen) fade
schmeckt, so wissen wir, dass es irgendwo“ dazwischen einen Punkt geben muss, an
”
dem der Grad an Schärfe gerade als richtig“ empfunden wird. (Diesen Punkt kann man
”
z.B. mithilfe einer Intervallschachtelung herauszufinden versuchen. Wesentlich hierfür
.)
ist allerdings die Vollständigkeit von R
Die nächsten drei Resultate sind einfache, aber wichtige Anwendungen des Zwischenwertsatzes.
Korollar 10.10
Es sei f : I −→ R eine stetige Funktion auf einem echten Intervall I.
Dann ist die Bildmenge f (I) ein Intervall.
Beweis. Aus Satz 10.9 geht hervor, dass J := f (I) ein Intervall mit den Endpunkten
α = inf J und β = sup J ist. Es spielt keine Rolle, ob die Endpunkte zu J gehören.
Korollar 10.11
Es sei p : R −→ R ein Polynom mit reellen Koeffizienten und mit
ungeradem Grad. Dann besitzt p wenigstens eine reelle Nullstelle.
139
Beweis. Es bezeichne n den Grad von p. Mit gewissen reellen Zahlen a0 , a1 , . . . , an und
an 6= 0 ist dann
p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 .
Wir setzen ck := ak /an . Für alle x 6= 0 gilt dann
p(x) = an xn f (x)
mit
f (x) = 1 +
cn−1
c1
c0
+ . . . + n−1 + n .
x
x
x
Die Beispiele in Abschnitt 9.6 und die Rechenregeln in Satz 9.19 zeigen
lim f (x) = lim f (x) = 1.
x→∞
x→−∞
Folglich gibt es eine Zahl R > 0 mit f (x) > 0 für alle reellen x mit |x| ≥ R. Weil n ungerade
ist, haben daher p(R) und p(−R) verschiedene Vorzeichen. Nach Satz 10.9 (oder auch Satz
10.7) gibt es also einen Punkt x0 ∈] − R, R [ mit p(x0 ) = 0.
Korollar 10.12 (Fixpunktsatz)
Es sei I = [a, b] ein kompaktes Intervall und f : I −→
I eine stetige Funktion. Dann gibt es wenigstens einen Punkt x0 ∈ I mit f (x0 ) = x0 , d.h.
einen Fixpunkt von f .
Beweis. Wenn f (a) = a oder f (b) = b ist, dann gilt die Behauptung. Man kann daher
f (a) 6= a und f (b) 6= b voraussetzen. Wegen f (I) ⊆ I gilt dann f (a) > a, f (b) < b. Durch
g(x) := f (x) − x
wird eine stetige Funktion g : I −→ R definiert (Satz 9.8 (1)). Es gilt g(a) = f (a) − a > 0
und g(b) = f (b) − b < 0. Nach Satz 10.7 besitzt g also eine Nullstelle in I, und diese ist ein
Fixpunkt von f .
10.4
Umkehrfunktionen stetiger Funktionen
In einer etwas schwierigeren Anwendung des Zwischenwertsatzes wird jetzt die Stetigkeit der
Umkehrfunktionen von streng monotonen stetigen Funktionen bewiesen.
Definition 10.13 Es sei f : I −→ R eine Funktion auf einem echten Intervall I. Man
nennt f monoton steigend oder monoton wachsend, falls
f (u) ≤ f (v)
für alle u, v ∈ I mit u < v
f (u) < f (v)
für alle u, v ∈ I mit u < v
gilt. Falls sogar
gilt, dann heißt f streng monoton steigend. Analog wird erklärt, wann f monoton
fallend beziehungsweise streng monoton fallend heißt. Man nennt f monoton, wenn f
monoton steigend oder monoton fallend ist, und man nennt f streng monoton, wenn f
streng monoton steigend oder streng monoton fallend ist.
Offensichtlich ist jede streng monotone Funktion injektiv. Für stetige Funktionen auf Intervallen gilt sogar die Umkehrung:
140
Satz 10.14
Es sei f : I −→ R eine stetige Funktion auf einem echten Intervall I. Dann
gelten die folgenden Aussagen:
(1) Die Funktion f ist genau dann injektiv, wenn sie streng monoton ist.
(2) Wenn f streng monoton steigt (fällt), dann existiert die Umkehrfunktion f −1 : f (I) −→
I, und diese ist streng monoton steigend (fallend) und stetig.
Beweis.
(1) Dass aus der strengen Monotonie die Injektivität von f folgt, ist klar.
Ausführlich: O.B.d.A. sei f streng monoton steigend. Es seien x1 , x2 ∈ mit f (x1 ) =
f (x2 ) gegeben. Wäre x1 < x2 , so wäre aufgrund der Monotonie f (x1 ) < f (x2 ), ein
Widerspruch! Also ist x1 ≥ x2 . Analog folgt x1 ≤ x2 und damit insgesamt x1 = x2 .
Dies zeigt die Injektivität von f .
Nun wird vorausgesetzt, dass f injektiv ist. Wir wählen zwei Punkte a, b ∈ I mit a < b.
Dann ist f (a) 6= f (b). O.B.d.A. dürfen wir
f (a) < f (b)
voraussetzen. (Anderenfalls betrachtet man −f anstelle von f ). Wir nehmen an, es
gäbe ein x im offenen Intervall ]a, b[ mit f (x) ≤ f (a) oder f (x) ≥ f (b). Aus Satz
10.9 folgt dann im ersten Fall die Existenz eines t ∈ [x, b[ mit f (t) = f (a), und im
zweiten Fall erhält man ein t ∈ ]a, x] mit f (t) = f (b). (Der Fall t = x tritt hierbei für
f (x) = f (a) bzw. f (x) = f (b) ein.) Beides widerspricht der Injektivität von f . Damit
ist
f (a) < f (x) < f (b)
für alle
x ∈ ] a, b [
nachgewiesen. Für beliebige x, y mit a < x < y < b betrachtet man nun f auf den
Intervallen [a, y] und [x, b], und wie zuvor erhält man f (a) < f (x) < f (y) < f (b). Also
ist f auf [a, b] streng monoton steigend. Man kann das Teilintervall [a, b] in I beliebig
(groß) wählen. Folglich ist f auf I streng monoton. Damit ist (1) bewiesen.
(2) Wir dürfen o.B.d.A. annehmen, dass f streng monoton steigt.
Nach (a) ist f injektiv, so dass die Umkehrfunktion g := f −1 : f (I) −→ I existiert. Ihr
Definitionsbereich ist J := f (I), und nach Korollar 10.10 ist J ein Intervall.
Zum Nachweis der Monotonie von g seien u, v ∈ J mit u < v gegeben. Wäre g(u) ≥
g(v), so würde aus dem monotonen Ansteigen von f
u = f (g(u)) ≥ f (g(v)) = v
folgen, ein Widerspruch. Also ist g(u) < g(v). Damit ist gezeigt, dass g streng monoton
steigt.
Wir müssen nun noch die Stetigkeit von g in einem beliebigen Punkt b ∈ J beweisen.
Wir setzen a := g(b) und nehmen zunächst an, dass a kein Endpunkt von I ist. Für
ein geeignetes r > 0 ist dann das kompakte Intervall [a − r, a + r] in I enthalten.
Es sei ein ε > 0 gegeben. O.E. dürfen wir ε ≤ r annehmen. Dann gehören die Punkte
a − ε und a + ε zu I, und wegen der strengen Monotonie von f gilt
f (a − ε) < f (a) = b < f (a + ε).
141
f (x)
6
f (a + ε)
=b+δ
b
b−δ
f (a − ε)
-
a−ε
a
a+ε
x
Abbildung 16: Zur Stetigkeit der Umkehrfunktion (Satz 10.14 (2))
Für
δ := min{b − f (a − ε), f (a + ε) − b}
gilt daher δ > 0, und für jedes y ∈ Uδ (b) ist
f (a − ε) < y < f (a + ε).
Da J = f (I) ein Intervall ist, liegt jedes solche y zudem in J, also im Definitionsbereich
von g. Weil g streng monoton steigt, folgt hieraus
a − ε < g(y) < a + ε,
d. h.
|g(y) − a| < ε
für alle y ∈ Uδ (b).
Damit ist die Stetigkeit von g im Punkt b nachgewiesen.
Es bleibt noch der Fall zu diskutieren, dass a ein Endpunkt von I ist. O.B.d.A. sei a
der linke Endpunkt von I. Da f streng monoton steigt, ist dann b der linke Endpunkt
von J. Für ein geeignetes r > 0 liegt das Intervall [a, a + r] noch ganz in I. Ist wieder
ε > 0 mit o.E. ε ≤ r gegeben, so gehört a + ε zu I, und wir haben f (a) = b < f (a + ε).
Wir setzen δ := f (a + ε) − b. Dann ist δ > 0, und für jedes y ∈ [b, b + δ[ ist
f (a) ≤ y < f (a + ε).
Weil f (I) ein Intervall ist, liegt jedes solche y zudem in f (I), so dass
[b, b + δ[ ⊆ Uδ (b) ∩ f (I)
gilt. Da b der linke Endpunkt des Intervalls J = f (I) ist, gilt auch
Uδ (b) ∩ f (I) ⊆ [b, b + δ[,
insgesamt also
[b, b + δ[ = Uδ (b) ∩ f (I).
142
Mit der strengen Monotonie von g folgt nun
a ≤ g(y) < a + ε,
d. h.
|g(y) − a| < ε
für alle y ∈ Uδ (b) ∩ f (I).
Auch in diesem Fall ist also g stetig in Punkt b. Da b ∈ J beliebig war, ist damit die
Stetigkeit von g auf J nachgewiesen.
Beispiel 10.15
In Satz 10.14 (1) sind sowohl die Stetigkeit von f als auch die Voraussetzung, dass der Definitionsbereich I ein Intervall ist, unverzichtbar. Dies zeigen die beiden
folgenden Beispiele:
(1) Es sei I := [−1, 1] und f : I −→ R definiert durch
−x
für − 1 ≤ x < 0,
f (x) :=
x − 1 für 0 ≤ x ≤ 1.
Dann ist f injektiv auf I, aber nicht monoton. Die Funktion f ist unstetig in x = 0.
(2) Es sei D := [−1, 1] \ {0} und f : D −→ R definiert durch
−x
für − 1 ≤ x < 0,
f (x) :=
x − 1 für 0 < x ≤ 1.
Dann ist f stetig und injektiv auf D, aber nicht monoton.
Mithilfe des Zwischenwertsatzes können wir nunmehr, wie in Bemerkung 2.26 angekündigt,
die Existenz von Wurzeln beweisen. Dass diese stetig vom Radikanden abhängen, wird durch
Satz 10.14 sichergestellt.
Korollar 10.16 (Existenz und Stetigkeit von Wurzeln)
(1) Es sei n ∈ N und a ∈ R mit a ≥ 0. Dann gibt es genau eine reelle Zahl w ≥ 0 mit
wn = a. Man schreibt
√
w = n a = a1/n
und nennt w die n-te Wurzel aus a.
(2) Für festes n ∈ N ist die Wurzelfunktion x 7→
streng monoton steigend.
√
n
x auf dem Intervall [0, ∞[ stetig und
Beweis. Man betrachtet f (x) := xn als Funktion auf dem Intervall I := [0, ∞[. Dort ist f
stetig (Korollar 9.12) und streng monoton steigend. Es sei ein a ≥ 0 gegeben. Dann gilt
f (0) = 0 ≤ a ≤ 1 + a ≤ (1 + a)n = f (1 + a).
Aus dem Zwischenwertsatz folgt daher die Existenz eines w ∈ [0, 1 + a] mit f (w) = a, d.h.
wn = a. Da f streng monoton steigt, also injektiv ist, ist w eindeutig bestimmt. Dies zeigt
die Behauptung in (1).
Da f auf [0, ∞[ stetig ist und streng monoton steigt, ist nach Satz 10.14 die Umkehrfunktion
f −1 :√f (I) −→ I streng monoton steigend und stetig. Sie ist gerade die Wurzelfunktion
x 7→ n x, und nach dem soeben Gezeigten ist ihr Definitionsbereich f (I) = [0, ∞[. Damit ist
auch (2) bewiesen.
143
y
y
√
6
6
x5
x
√
5
x
1
x2
1
1
-x
1
-
x
Abbildung 17: Potenzen und Wurzeln
Etwas schneller könnte man auch wie folgt argumentieren: Die Funktion f (x) := xn ist
auf dem Intervall I := [0, ∞[ stetig und streng monoton steigend. Wegen
f (x) = xn ≥ x
für alle x ≥ 1
ist f (I) nicht nach oben beschränkt. Deswegen und weil f (I) nach Korollar 10.10 ein
Intervall ist, gilt f (I) = [0, ∞[= I. Nach Satz 10.14 ist f −1 also auf I definiert, stetig
und streng monoton steigend. Daraus folgen alle Behauptungen in (1) und (2). – Hierbei
ist der Zwischenwertsatz auf dem Umweg über Korollar 10.10 eingeflossen.
144
11
Gleichmäßige Konvergenz
Bei der Vertauschung von Grenzprozessen ist stets äußerste Vorsicht ratsam, wie bereits
folgendes Beispiel zeigt:
m
m
= 1 6= 0 = lim lim
.
lim lim
m→∞ n→∞ m + n
n→∞ m→∞ m + n
Das Studium der Frage, wann das Vertauschen zweier Grenzprozesse dennoch möglich ist, ist
eines der zentralen Themen der Analysis. Zu beachten ist dabei, dass auch die Stetigkeit über
das Folgenkriterium eng mit Grenzprozessen zu tun hat und dass es sich – wie wir später
sehen werden – auch bei der Differentiation und der Integration letztlich um Grenzprozesse
handelt.
11.1
Punktweise und gleichmäßige Konvergenz und die Stetigkeit
der Grenzfunktion
Neue Funktionen werden häufig als Grenzfunktionen von Folgen oder Reihen bekannter
einfacher“ Funktionen definiert – z.B. als Potenzreihen, die man als Grenzfunktionen von
”
Folgen von Polynomen mit wachsendem Grad auffassen kann. Ein solches Beispiel haben wir
bereits in Abschnitt 7.7 in Gestalt der Exponentialfunktion kennengelernt. Wir beginnen mit
dem Studium allgemeiner Funktionenfolgen.
Definition 11.1
Es seien D und W nichtleere Mengen. Für jedes n ∈ N0 sei eine Funktion fn : D −→ W gegeben. Dann heißt (fn )n eine Funktionenfolge oder eine Folge von
Funktionen von D nach W .
Pn
Nun sei W = R oder W = C.PDann kann man die Summen sn =
k=0 fk bilden. Die
∞
Funktionenfolge (sn )n wird mit k=0 fk bezeichnet, sie heißt eine unendliche Reihe von
Funktionen, und die Funktionen sn heißen die Partialsummen dieser Reihe.
Es stellt sich die Frage nach einem sinnvollen“ Konvergenzbegriff für Funktionenfolgen
”
(fn )n . Am einfachsten ist es, für jedes x im Definitionsbereich der Funktionen die Konvergenz
der Bildfolge (fn (x))n zu verlangen. Damit diese Forderung sinnvoll ist, sollte die Zielmenge
W ein metrischer Raum sein.
Definition 11.2
Es seien D eine nichtleere Menge, Y ein metrischer Raum und (fn )n eine
Folge von Funktionen fn : D −→ Y . Diese Folge heißt in einem Punkt a ∈ D konvergent,
falls die Folge (fn (a))n in Y konvergiert. Die Folge (fn )n heißt punktweise konvergent,
falls für jedes x ∈ D die Folge (fn (x))n in Y konvergiert. In diesem Fall wird durch
f (x) := lim fn (x)
n→∞
für
x∈D
eine Funktion f : D −→ Y definiert. Sie heißt die Grenzfunktion der Folge (fn )n ; man
schreibt
f = lim fn .
n→∞
Bei Funktionenfolgen ist man vor allem an Eigenschaften der Grenzfunktionen interessiert:
Überträgt sich z.B. die Stetigkeit (oder Differenzierbarkeit oder Integrierbarkeit) von den
einzelnen Funktionen der Folge auf die Grenzfunktion?
145
Beispiel 11.3
Es sei I := [0, 1] und fn (x) := xn für n ∈ N und x ∈ I. Alle Funktionen
fn sind stetig auf I. Es gilt limn→∞ fn (x) = 0 für 0 ≤ x < 1. Für alle n ist fn (1) = 1. Somit
existiert
0 für 0 ≤ x < 1,
f (x) := lim fn (x) =
n→∞
1 für x = 1.
Die Grenzfunktion f ist im Punkt 1 unstetig.
Bemerkung 11.4 (Cauchy und die Stetigkeit der Grenzfunktion) Die Grenzfunktion einer punktweise konvergenten Folge von stetigen Funktionen kann also Unstetigkeitsstellen haben. Cauchy behauptete das Gegenteil: Die Grenzfunktion einer überall konvergenten Folge von reellwertigen Funktionen sei stetig. Es ist lehrreich, Cauchys falschen Beweis in
die Weierstraßsche ε-δ-Terminologie“ zu übersetzen, um dann den Fehler zu lokalisieren37 :
”
Cauchys Beweis“ in Weierstraßscher Terminologie: Es sei eine punktweise konver”
gente Folge (fn )n von stetigen Funktionen fn : I −→ R auf einem Intervall I gegeben, und
es sei f = limn→∞ fn die Grenzfunktion. Wir wollen die Stetigkeit von f in einem beliebigen
Punkt a ∈ I beweisen. Es sei also eine Zahl ε > 0 gegeben. Wegen limn→∞ fn (x) = f (x) gibt
es ein N , so dass für alle n ≥ N die Abschätzung
|fn (x) − f (x)| <
ε
3
(11.1)
besteht. Das gilt insbesondere auch für x = a. Weil fN im Punkt a stetig ist, gibt es ein
δ > 0 mit
ε
für alle x ∈ I mit |x − a| < δ.
|fN (x) − fN (a)| <
3
Für alle diese x folgt nun mithilfe der Dreiecksungleichung
|f (x) − f (a)| ≤ |f (x) − fN (x)| + |fN (x) − fN (a)| + |fN (a) − f (a)| <
ε ε ε
+ + = ε.
3 3 3
Damit ist die Stetigkeit von f im Punkt a bewiesen“.
”
Beispiel 11.3 zeigt, dass der Beweis“ nicht in Ordnung sein kann. Der Fehlschluss besteht
”
darin, dass die Zahl N i. Allg. von der Stelle x abhängt. In der abschließenden Anwendung
der Dreiecksungleichung wurde aber für jedes x ∈ I ∩ Uδ (a) dasselbe N verwendet38 . Wenn
es ein solches von x unabhängiges N gibt, dann ist die Schlussweise vollkommen in Ordnung.
Die Beweisanalyse führt somit zur Entdeckung eines stärkeren Konvergenzbegriffes, der für
die Stetigkeit der Grenzfunktion hinreichend ist.
37
Letztlich beruht Cauchys Beweis“ auf einer aus heutiger Sicht unpräzisen und unhaltbaren Formulierung
”
des Konvergenzbegriffs: Cauchys Definition für die Konvergenzaussage limn→∞ an = a kann folgendermaßen
ausgedrückt werden: Für alle unendlich großen Zahlen n ist die Differenz an −a unendlich klein.“ Im Körper
”
R der reellen Zahlen gibt es aber weder unendlich große“ noch unendlich kleine“ (infinitesimale) Zahlen.
”
”
In der unpräzisen Terminologie von Cauchy fällt sein Fehler nicht auf – wohl aber in der logisch klaren ε-δ”
Terminologie“. – Erst in den 1960er Jahren wurde (von Abraham Robinson) ein Ansatz entwickelt (die sog.
Nicht-Standard-Analysis), um auch mit unendlich großen“ bzw. unendlich kleinen“ Zahlen logisch präzise
”
”
und widerspruchsfrei operieren zu können.
38
Dies wurde dadurch verschleiert, dass (11.1) logisch unpräzise formuliert ist; es wird nicht erklärt, für
welche x dies gilt, d.h. ob gemeint ist, dass es für alle x ein (evtl. von x abhängiges) N gibt, so dass (11.1)
für alle n ≥ N gilt, oder ob gemeint ist, dass es ein N gibt, so dass (11.1) für alle n ≥ N und alle x gilt.
146
Definition 11.5 Es seien D 6= ∅ eine Menge, (Y, d) ein metrischer Raum und (fn )n eine
Folge von Funktionen fn : D −→ Y . Diese Folge heißt gleichmäßig konvergent auf D
mit der Grenzfunktion f : D −→ Y , falls es zu jeder Zahl ε > 0 eine natürliche Zahl N
gibt, so dass für alle x ∈ D und alle n ≥ N die Ungleichung d(fn (x), f (x)) < ε gilt. In
Quantorenschreibweise:
∀ε>0 ∃N ∈N ∀x∈D ∀n≥N d(fn (x), f (x)) < ε.
Bemerkung 11.6
(1) In der Definition ist ausdrücklich gefordert, dass die Zahl N nur von ε und nicht von x
abhängt. Es ist aufschlussreich, die Definitionen der punktweisen und der gleichmäßigen
Konvergenz in Quantorenschreibweise miteinander zu vergleichen:
∀x∈D ∀ε>0 ∃N ∈N
∀n≥N d(fn (x), f (x)) < ε
∀ε>0 ∃N ∈N ∀x∈D ∀n≥N d(fn (x), f (x)) < ε
(punktweise Konvergenz)
(gleichmäßige Konvergenz)
Der Unterschied besteht nur in der Reihenfolge zweier Quantoren.
Es ist klar, dass aus der gleichmäßigen Konvergenz die punktweise Konvergenz folgt.
(2) Für reellwertige Funktionen fn : I −→ R auf einem Intervall I kann die gleichmäßige Konvergenz gegen eine Funktion f gut veranschaulicht werden: Für jedes ε > 0
verlaufen die Graphen der Funktionen fn für alle genügend großen n innerhalb der
Menge
{(x, y) ∈ R2 | x ∈ I, f (x) − ε < y < f (x) + ε} .
Diese Menge wird der ε-Schlauch um die Grenzfunktion f genannt.
y 6
f +ε
fn
f
@
R
@
f −ε
-
x
Abbildung 18: Gleichmäßige Konvergenz – der ε-Schlauch
Wir betrachten nochmals die Funktionen
fn (x) := xn
für
0≤x≤1
aus Beispiel 11.3. In Abbildung 19 ist gut zu sehen, dass der Graph von fn auch für
große n nicht vollständig im ε-Schlauch um die Grenzfunktion verläuft, sofern ε < 1
ist. Die Konvergenz ist also nicht gleichmäßig.
147
y 6
1•
f3
f5
f +ε
-
1 x
Abbildung 19: Die Funktionen fn aus Beispiel 11.3
(3) Da auch unendliche Reihen von Funktionen nur“ Funktionenfolgen (nämlich von Par”
tialsummen) sind, haben wir mit Definition 11.5 insbesondere auch erklärt, was unter
der gleichmäßigen Konvergenz von Funktionenreihen zu verstehen ist.
(4) Für Funktionen f : D −→ Cm kann man die gleichmäßige Konvergenz auch mithilfe
der sog. Supremumsnorm39
||f ||∞ := sup {||f (x)|| : x ∈ D}
formulieren: Eine Folge (fn )n von Funktionen fn : D −→ Cm konvergiert genau dann
gleichmäßig auf D gegen eine Grenzfunktion f , wenn
lim ||fn − f ||∞ = 0
n→∞
(denn Letzteres ist gleichbedeutend damit, dass es für alle ε > 0 ein N ∈ N gibt mit
||fn − f ||∞ ≤ ε für alle n ≥ N , d.h. mit ||fn (x) − f (x)|| ≤ ε für alle n ≥ N und alle
x ∈ D).
Damit ist die gleichmäßige Konvergenz auf die gewöhnliche“ Konvergenz (allerdings
”
bezüglich einer komplizierteren“ Metrik) zurückgeführt.
”
Satz 11.7 (Satz von Cauchy und Weierstraß)
Es seien X und Y metrische Räume
und (fn )n eine Folge von stetigen Funktionen fn : X −→ Y , die auf X gleichmäßig konvergiert. Dann ist die Grenzfunktion f : X −→ Y stetig auf X.
39
In der Linearen Algebra bzw. in der Analysis 3 wird später gezeigt, dass es sich dabei um eine Norm
auf dem Raum der beschränkten Funktionen f : D −→ V handelt. Für unbeschränktes f ist natürlich
||f ||∞ = ∞.
148
Beweis. Wir können Cauchys Beweis aus Bemerkung 11.4 kopieren – diesmal allerdings
unter der stärkeren Voraussetzung der gleichmäßigen Konvergenz. Es bezeichne d die Metrik
auf Y , und es seien ein Punkt a ∈ X und eine Zahl ε > 0 gegeben. Dazu existiert wegen der
gleichmäßigen Konvergenz ein N ∈ N mit
d(fn (x), f (x)) <
ε
3
für alle x ∈ X und alle n ≥ N.
Weil fN im Punkt a stetig ist, gibt es ein δ > 0 mit
d(fN (x), fN (a)) <
ε
3
für alle
x ∈ Uδ (a).
Für alle x ∈ Uδ (a) folgt mit der Dreiecksungleichung
d(f (x), f (a)) ≤ d(f (x), fN (x)) + d(fN (x), fN (a)) + d(fN (a), f (a))
ε ε ε
+ + = ε.
<
3 3 3
Damit ist die Stetigkeit von f im Punkt a bewiesen.
11.2
Kriterien für gleichmäßige Konvergenz
Das Cauchy-Kriterium für gewöhnliche Folgen (Satz 6.18) hat den Vorteil, Konvergenz ohne
Bezugnahme auf einen Grenzwert formulieren zu können. Ein solches Kriterium gilt auch
für gleichmäßige Konvergenz. Man bezeichnet es ebenfalls als Cauchy-Kriterium – obwohl
Cauchy den Begriff der gleichmäßigen Konvergenz gar nicht kannte.
Satz 11.8 (Cauchy-Kriterium für gleichmäßige Konvergenz)
Es sei D eine nichtp
p
leere Menge, Y sei einer der Räume R oder C , und (fn )n sei eine Folge von Funktionen
fn : D −→ Y . Dann sind die folgenden beiden Aussagen äquivalent:
(a) Die Folge (fn )n ist gleichmäßig konvergent auf D.
(b) Zu jeder Zahl ε > 0 gibt es eine natürliche Zahl N , so dass für alle x ∈ D und alle
m, n ≥ N die Ungleichung ||fn (x) − fm (x)|| < ε besteht. In Quantorenschreibweise:
∀ε>0 ∃N ∈N ∀x∈D ∀m,n≥N ||fn (x) − fm (x)|| < ε.
Beweis. =⇒“: Es sei (fn )n gleichmäßig konvergent auf D. Dann existiert die Grenzfunktion
”
f := limn→∞ fn auf D. Es sei eine Zahl ε > 0 gegeben. Dazu gibt es nach Voraussetzung ein
N , so dass
ε
||fn (x) − f (x)|| <
für alle x ∈ D und alle n ≥ N
2
gilt. Für alle x ∈ D und alle m, n ≥ N folgt
||fm (x) − fn (x)|| ≤ ||fm (x) − f (x)|| + ||f (x) − fn (x)|| <
ε ε
+ = ε.
2 2
Damit ist die Implikation (a) =⇒ (b) bewiesen.
⇐=“: Nun wird (b) vorausgesetzt. Für jedes x ∈ D ist dann (fn (x))n eine Cauchy-Folge
”
in Y . Nach dem gewöhnlichen Cauchy-Kriterium (Satz 6.18) existiert also der Grenzwert
f (x) := limn→∞ fn (x). Hierdurch ist eine Grenzfunktion f : D −→ Y definiert.
149
Es sei eine Zahl ε > 0 gegeben. Wegen (b) gibt es hierzu ein N mit
||fm (x) − fn (x)|| < ε
für alle x ∈ D und alle m, n ≥ N.
Bei festem m und festem x kann man hierin den Grenzübergang n → ∞ ausführen (wobei
Satz 5.14 (3) benötigt wird) und erhält
||fm (x) − f (x)|| ≤ ε
für alle x ∈ D und alle m ≥ N.
Also konvergiert die Folge (fn )n auf D gleichmäßig gegen f . Damit ist auch (b) =⇒ (a)
bewiesen.
Satz 11.9 (Weierstraßsches Majoranten-Kriterium)
Es sei D eine nichtleere Menge, Y = R oder Y = C, und (fk )k≥0 sei eine Folge von Funktionen
fk : D −→ Y . Es existiere
P∞
eine Folge (ck )k≥0 von Zahlen ck > 0, so dass die Reihe k=0 ck konvergiert und
|fk (x)| ≤ ck
für alle x ∈ D und alle k ≥ 0
gilt. Dann sind die beiden Reihen
∞
X
fk
und
∞
X
|fk |
k=0
k=0
gleichmäßig konvergent auf D.
Beweis. Nach dem Majorantenkriterium (Satz 7.18) ist die Reihe
absolut konvergent. Man muss die Partialsummen
sn :=
n
X
fk
und
Sn :=
n
X
P∞
k=0
fk (x) für jedes x ∈ D
|fk |
k=0
k=0
untersuchen. Es sei eine Zahl ε > 0 gegeben. Es gibt dann nach dem Cauchy-Kriterium für
Reihen (Satz 7.7) ein N ∈ N mit
n
X
ck < ε
für alle m, n mit n > m ≥ N.
k=m+1
Für alle x ∈ D und alle diese m und n folgt
n
n
n
X
X
X
|sn (x) − sm (x)| = fk (x) ≤
|fk (x)| = Sn (x) − Sm (x) ≤
ck < ε.
k=m+1
k=m+1
k=m+1
Somit ist Satz 11.8 auf beide Folgen (sn )n und (Sn )n anwendbar. Damit ergibt sich die
Behauptung.
150
Oftmals ist auch das folgende Kriterium nützlich, in dem die gleichmäßige Konvergenz von
(fn )n durch die Konvergenz der Zahlenfolgen (fn (xn ))n für beliebige konvergente Folgen (xn )n
gekennzeichnet wird:
Satz 11.10
Es sei K ein kompakter metrischer Raum, Y sei einer der Räume Rm oder
m
C , und (fn )n sei eine Folge stetiger Funktionen fn : K −→ Y . Genau dann konvergiert (fn )n
gleichmäßig, wenn für jede konvergente Folge (xn )n in K die Folge (fn (xn ))n konvergiert. In
diesem Fall gilt für jede konvergente Folge (xn )n in K mit Grenzwert x
e die Beziehung
lim fn (xn ) = f (e
x),
n→∞
wobei f = limn→∞ fn die Grenzfunktion ist.
Beweis. =⇒“: Es sei (fn )n gleichmäßig konvergent gegen f , und es sei (xn )n ⊆ K konver”
gent gegen x
e ∈ K.
Es sei ein ε > 0 gegeben. Wegen der gleichmäßigen Konvergenz von (fn )n gibt es dann ein
N1 ∈ N mit
ε
für alle n ≥ N1 und alle x ∈ K.
||fn (x) − f (x)|| <
2
Da die Grenzfunktion f nach Satz 11.7 stetig ist und (xn )n gegen x
e ∈ K konvergiert, gilt
nach dem Folgenkriterium für Stetigkeit (Satz 9.6)
lim f (xn ) = f (e
x).
n→∞
Daher gibt es ein N2 ∈ N mit
||f (xn ) − f (e
x)|| <
ε
2
für alle n ≥ N2 .
Es sei N := max {N1 , N2 }. Dann folgt für alle n ≥ N
||fn (xn ) − f (e
x)|| ≤ ||fn (xn ) − f (xn )|| + ||f (xn ) − f (e
x)|| <
ε ε
+ = ε.
2 2
Damit ist gezeigt, dass (fn (xn ))n gegen f (e
x) konvergiert.
Also gilt =⇒“; zugleich ist die zweite Behauptung des Satzes bewiesen.
”
⇐=“: Nun sei für jede konvergente Folge (xn )n in K die Folge (fn (xn ))n konvergent. Dann
”
ist auch für jede Teilfolge (fσk )k von (fn )n und jede konvergente Folge (yk )k in K die Folge
(fσk (yk ))k konvergent.
Denn es gibt hierzu eine konvergente Folge (xn )n , so dass xσk = yk für alle k ist; diese erhält
man z.B., indem man die Lücken“ zwischen den yk durch den Grenzwert dieser Folge auffüllt.
”
Auf (fn )n und (xn )n kann man jetzt die Voraussetzung anwenden und erhält die Konvergenz
von (fn (xn ))n und damit auch von (fσk (xσk ))k = (fσk (yk ))k .
Wir nehmen an, dass (fn )n nicht gleichmäßig konvergiert. Nach dem Cauchy-Kriterium (Satz
11.8) gilt dann
¬ ∀ε>0 ∃N ∈N ∀x∈K ∀n,m≥N ||fn (x) − fm (x)|| < ε,
also
∃ε>0 ∀N ∈N ∃x∈K ∃n,m≥N ||fn (x) − fm (x)|| ≥ ε.
151
Dies können wir etwas suggestiver auch wie folgt schreiben:
∃ε0 >0 ∀k∈N ∃xk ∈K ∃nk ,mk ≥k ||fnk (xk ) − fmk (xk )|| ≥ ε0 .
Hierbei gilt limk→∞ mk = limk→∞ nk = ∞. Daher können wir (nach Übergang zu geeigneten
Teilfolgen von (mk )k bzw. (nk )k ) o.E. annehmen, dass (mk )k und (nk )k streng monoton
wachsen (vgl. den zweiten Beweis von Satz 6.12). Es gibt also ein ε0 > 0, Teilfolgen (fmk )k
und (fnk )k und eine Folge (xk )k in K, so dass
||fnk (xk ) − fmk (xk )|| ≥ ε0
für alle k
(11.2)
gilt. Da K (folgen-)kompakt ist, finden wir eine Teilfolge von (xk )k , die gegen ein x
e ∈ K konvergiert. Um die Notation nicht durch Mehrfachindizes wie fnkj zu verkomplizieren, nehmen
wir o.E. an, dass (xk )k selbst gegen x
e ∈ K konvergiert. (Hierzu müssen wir gedanklich auch
die Folgen (fmk )k und (fnk )k durch die entsprechenden Teilfolgen ersetzen!) Nach weiterer
Teilfolgenauswahl können wir ferner
mk < nk < mk+1
für alle k
annehmen. Wir mischen“ nun die Folgen (fmk )k und (fnk )k , d.h. wir setzen
”
σ2k := mk ,
σ2k+1 := nk ,
y2k = y2k+1 := xk .
Dann ist (yk )k eine gegen x
e konvergente Folge in K und (fσk )k eine Teilfolge von (fn )n . Es
folgt nun aus der Voraussetzung, dass die Folge (fσk (yk ))k konvergiert. Insbesondere gibt es
ein k0 ∈ N, so dass
||fnk (xk ) − fmk (xk )|| = ||fσ2k+1 (y2k+1 ) − fσ2k (y2k )|| < ε0
für alle k ≥ k0
ist. Dies widerspricht (11.2). Damit ist ⇐=“ bewiesen.
”
Die Kompaktheitsvoraussetzung in Satz 11.10 ist unverzichtbar, wie wir in einer späteren
Aufgabe sehen werden.
11.3
Potenzreihen
Viele wichtige Funktionen der Analysis, z.B. die Exponentialfunktion oder die trigonometrischen Funktionen, werden über sog. Potenzreihen definiert.
Definition 11.11
Es sei z0 ∈ C und (an )n≥0 eine Folge in C. Dann heißt die Reihe
∞
X
an (z − z0 )n
n=0
eine Potenzreihe. Man nennt z0 den Entwicklungspunkt und die Zahlen an die Koeffizienten dieser Potenzreihe.
Jede Potenzreihe stellt für ein festes z ∈ C eine gewöhnliche Reihe dar, die in diesem Punkt
konvergieren
kann oder auch nicht. Ist D eine Teilmenge von C und konvergiert die PotenzP
n
reihe ∞
a
n=0 n (z − z0 ) für alle z ∈ D, so ist durch
f : D −→ C,
z 7→
∞
X
n=0
152
an · (z − z0 )n
eine Funktion f definiert. In Korollar 20.13 werden wir sehen, dass (im Fall D 6= {z0 })
die Koeffizienten an durch die Grenzfunktion f und den Entwicklungspunkt z0 eindeutig
bestimmt sind.
Es stellt sich die Frage, wie der maximale Definitionsbereich einer solchen durch eine Potenzreihe definierten Funktion aussehen kann. Zur Einstimmung betrachten wir zunächst zwei
uns bereits bekannte Beispiele für Potenzreihen:
Beispiel 11.12
(1) Aus Definition 7.33 ist die Exponentialfunktion
exp(z) =
∞
X
zn
n!
n=0
bekannt. Sie ist durch eine Potenzreihe mit dem Entwicklungspunkt 0 und mit reellen
(sogar rationalen) Koeffizienten gegeben. Die Reihe ist für alle z ∈ C konvergent.
(2) Die geometrische Reihe
∞
X
qn
n=0
ist ebenfalls eine Potenzreihe (in der Variablen q) mit dem Entwicklungspunkt 0. Nach
Satz 7.3 und Bemerkung 7.9 (2) konvergiert sie genau für |q| < 1, also in der offenen
1
.
Einheitskreisscheibe U1 (0) ⊆ C, und die Grenzfunktion ist q 7→ 1−q
Jede Potenzreihe konvergiert offenbar in ihrem Entwicklungspunkt z0 . Es kann vorkommen,
dass sie sonst nirgends konvergiert; solche Reihen sind nutzlos. Wir werden im Folgenden
zeigen, dass Potenzreihen generell ein sehr übersichtliches und angenehmes Konvergenzverhalten haben; die beiden obigen Beispiele, in denen der Konvergenzbereich ein Kreis bzw.
die gesamte Ebene (also ein Kreis mit Radius ∞“) war, sind typisch.
”
Zunächst
aber
nehmen
wir
eine
naheliegende Vereinfachung vor: Eine beliebige Potenzreihe
P∞
n
a
(z
−
z
)
mit
Entwicklungspunkt
z0 geht durch die Substitution w := z − z0 in die
n=0 n
P0∞
n
Potenzreihe n=0 an w mit dem Entwicklungspunkt 0 über. Aus der Konvergenz in einem
Punkt z1 bzw. der gleichmäßigen Konvergenz auf einer Menge D wird dabei die Konvergenz
im Punkt w1 = z1 − z0 bzw. die gleichmäßige Konvergenz auf {w ∈ C | w + z0 ∈ D}.
Deshalb werden wir im Folgenden o.B.d.A. z0 = 0 annehmen, also nur Potenzreihen mit
dem Nullpunkt als Entwicklungspunkt betrachten. Diese Annahme ist zulässig, solange man
nicht simultan Potenzreihen mit verschiedenen Entwicklungspunkten zu behandeln hat.
Wir kommen nun zu der angekündigten Beschreibung des Konvergenzverhaltens von Potenzreihen. Der Beweis des folgenden Satzes fußt auf dem Weierstraßschen Majorantenkriterium
(Satz 11.9) und dem Konvergenzverhalten der geometrischen Reihe.
Satz 11.13 (Konvergenz von Potenzreihen)
Für jede Potenzreihe
es ein eindeutig bestimmtes R ∈ [0, ∞] mit den folgenden Eigenschaften:
P∞
n=0
an z n gibt
(1) Die Potenzreihe ist in jedem Punkt z ∈ C mit |z| < R konvergent und in jedem Punkt
z ∈ C mit |z| > R divergent.
153
(2) Ist 0 < r < R, so ist die Potenzreihe
Kreisscheibe Br (0) gleichmäßig
P auf der kompakten
n
konvergent, und auch die Reihe ∞
|a
|
·
|z|
(bei
der
es sich nicht um eine Potenzn
n=0
reihe handelt!) ist auf jeder solchen Kreisscheibe gleichmäßig konvergent.
(3) Im Falle R > 0 wird durch
f (z) :=
∞
X
an z n
n=0
eine stetige Funktion f : UR (0) −→ C auf der offenen Kreisscheibe UR (0) in C definiert.
Die Größe R heißt der Konvergenzradius der Potenzreihe, und die Kreisscheibe UR (0)
heißt ihr Konvergenzkreis.
Für R = ∞ ist die Behauptung so zu verstehen, dass die Potenzreihe in jedem z ∈ C
konvergiert und dass sie eine stetige Funktion auf C definiert; man hat hierbei also UR (0) :=
C zu setzen. Dieser Fall liegt z.B. bei der Exponentialreihe vor.
P
n
Beweis. Es sei eine Potenzreihe ∞
n=0 an z gegeben. Wir definieren R ∈ [0, ∞] durch
)
(
∞
X
an z n konvergiert für ein z ∈ C mit |z| = % .
R := sup % ≥ 0 n=0
(Man beachte, dass die Potenzreihe in jedem Fall in z = 0 konvergiert, so dass das Supremum
wirklich über eine nichtleere Teilmenge von R gebildet wird und R somit wohldefiniert ist.
– Evtl. ist R = ∞.)
Es sei ein r ∈ ]0; R[ gegeben. Nach Definition des Supremums gibt es dann ein % ∈ ]r, R] und
ein z1 ∈ C mit |z1 | = %, so dass die Potenzreihe in z1 konvergiert. Nach dem notwendigen
Konvergenzkriterium für Reihen (Satz 7.8) bildet daher (an z1n )n eine Nullfolge. Insbesondere
ist diese Folge beschränkt (Proposition 5.11), es gibt also eine Konstante M > 0 mit
|an z1n | ≤ M
Für q :=
r
%
für alle n ≥ 0.
ist dann 0 < q < 1, und für alle z ∈ C mit |z| ≤ r folgt
n
|an z | =
|an z1n |
n
n
z
r
· ≤ M ·
= M · qn.
z1
%
P∞
n
Die Reihe
konvergiert. Nach dem Weierstraßschen Majoranten-Kriterium
n=0 M q
(Satz 11.9) sind also die beiden Reihen
∞
X
an z n
und
n=0
∞
X
|an z n |
n=0
auf der Kreisscheibe Br (0) gleichmäßig konvergent.
Damit ist die Behauptung (2) bewiesen. Zudem ist damit die Konvergenz der Potenzreihe
in jedem z ∈ C mit |z| < R, also die erste Behauptung in (1) gezeigt. Es sei ein z ∈ C
mit |z| > R gegeben. Wäre die Potenzreihe in z konvergent, so würde für % := |z| die
Abschätzung R ≥ % gelten (nach Definition von R), im Widerspruch zu R < |z|. Also
divergiert die Potenzreihe in z. Damit ist auch (1) vollständig bewiesen.
154
P
n
Im Falle R > 0 wird also durch f (z) := ∞
n=0 an z eine Funktion f : UR (0) −→ C definiert.
Es sei ein z0 ∈ UR (0) gegeben. Hierzu wähle man eine reelle Zahl r mit |z0 | < r < R. Weil
die Potenzreihe gemäß (2) auf Br (0) und somit auch in Ur (0) gleichmäßig konvergiert und
alle Reihenglieder Polynome und somit stetig sind, folgt aus Satz 11.7 die Stetigkeit von f in
der offenen Kreisscheibe40 Ur (0) und insbesondere im Punkt z0 . Also ist f stetig auf UR (0).
Damit ist auch (3) bewiesen.
Mithin hat R die verlangten Eigenschaften. Dass R hierdurch (und sogar schon durch (1))
eindeutig bestimmt ist, ist klar.
Beispiel 11.14
(1) Anschaulich besagt Satz 11.13, dass man jeder (um 0 entwickelten) Potenzreihe eine
eindeutig bestimmte Zahl R ∈ [0, ∞] zuordnen kann, so dass die Potenzreihe innerhalb
des Kreises mit Radius R um 0 konvergiert und außerhalb dieses Kreises divergiert.
Somit genügt eine einzige Größe R zu einer fast vollständigen Kennzeichnung des
Konvergenzverhaltens einer Potenzreihe.
Über die Konvergenz in den Randpunkten des Konvergenzkreises, d.h. in den Punkten
z mit |z| = R ist hingegen keine allgemeine Aussage möglich. Tatsächlich kann auf
dem Rand sehr verschiedenartiges und kompliziertes Verhalten vorliegen. Drei einfache
Beispiele hierfür sind die Potenzreihen
f0 (z) :=
∞
X
n=1
n
z ,
∞
X
1 n
z ,
f1 (z) :=
n
n=1
∞
X
1 n
f2 (z) :=
z .
n2
n=1
Alle drei Reihen haben den Konvergenzradius 1. (Denn für |z| < 1 folgt die Konvergenz
aus der Konvergenz der geometrischen Reihe und dem Majorantenkriterium, und für
|z| > 1 bilden die Reihenglieder in allen drei Fällen keine Nullfolge (vgl. Satz 5.17
(4)), so dass die Reihen nach dem notwendigen Konvergenzkriterium aus Satz 7.8 für
|z| > 1 divergieren. – Das gleiche Ergebnis liefert der folgende Satz 11.15.) Für |z| = 1
verhalten sich die drei Reihen hingegen alle unterschiedlich:
– Die Reihe f0 ist nach Satz 7.8 in jedem Punkt z mit |z| = 1 divergent; denn die
Reihenglieder bilden dort keine Nullfolge.
P
1
– In Beispiel 7.25 wurde die Konvergenz der Reihe ∞
n=1 n2 bewiesen. Diese ist eine
Majorante der Potenzreihe f2 auf der kompakten Kreisscheibe vom Radius 1 um
den Nullpunkt. Aus dem Weierstraßschen Majorantenkriterium (Satz 11.9) folgt
daher die gleichmäßige Konvergenz von f2 auf dem Konvergenzkreis einschließlich
aller Randpunkte.
– Schließlich ist die Reihe f1 nach Beispiel 7.38 (2) in jedem Punkt z 6= 1 auf dem
Rand des Konvergenzkreises konvergent, aber in z = 1 divergent.
40
Hingegen wäre es nicht ganz richtig, direkt auf die Stetigkeit von f in Br (0) zu schließen: Es ist bei der
Anwendung von Satz 11.7 zu beachten, dass hierbei der metrische Raum Br (0), nicht UR (0) zugrunde gelegt
wird, denn nur dort hat man ja gleichmäßige Konvergenz vorausgesetzt. Dementsprechend liefert dieser Satz
nur die Stetigkeit der Einschränkung f |Br (0) von f auf Br (0). Diese ist schwächer als die Stetigkeit von f auf
Br (0), d.h. in jedem Punkt von Br (0). – Ersetzt man hierin hingegen Br (0) durch Ur (0), so erhält man zwar
wiederum nur die Stetigkeit der Einschränkung f |Ur (0) von f auf Ur (0). Diese ist jedoch gleichbedeutend
mit der Stetigkeit von f auf Ur (0); dies liegt an der Offenheit von Ur (0).
155
(2) Die Konvergenz einer Potenzreihe ist i. Allg. nicht gleichmäßig im Konvergenzkreis,
sondern nur gleichmäßig auf kompakten Kreisscheiben in dessen Innerem. (Man spricht
hier auch von lokal gleichmäßiger Konvergenz.)
P
n
Dies wird ebenfalls durch die Potenzreihe ∞
n=1 z (also die geometrische Reihe) illustriert, die in ihrem Konvergenzkreis U1 (0) nicht gleichmäßig konvergiert: Wäre sie
nämlich gleichmäßig konvergent, so gäbe es nach dem Cauchy-Kriterium in Satz 11.8
zu ε := 1 ein N ∈ N, so dass
n
X
xk < 1
für alle m, n mit n > m ≥ N und alle x ∈ U1 (0)
k=m+1
gelten würde. Der Grenzübergang x → 1 würde dann (bei festen m, n)
1≥
n
X
1=n−m
für alle m, n ≥ N mit n > m
k=m+1
liefern. Dies ist offensichtlich absurd.
Es stellt sich nun die Frage, wie man den Konvergenzradius von Potenzreihen berechnen
kann. Der folgende Satz ist sehr einfach und oft wirkungsvoll, aber er ist nicht in jedem Fall
anwendbar.
Satz 11.15
Es sei (an )n≥0 eine Folge von komplexen Zahlen. Es gebe ein n0 ∈ N, so dass
an 6= 0 für alle n ≥ n0 ist, und es existiere der (eigentliche oder uneigentliche) Grenzwert
an .
R = lim n→∞ an+1 P
n
Dann ist R der Konvergenzradius der Potenzreihe ∞
n=0 an z .
Beweis. Für beliebige komplexe Zahlen z 6= 0 gilt nach Definition des Grenzwerts R
an+1 z n+1 |z|
=
,
lim
n→∞ an z n R
wobei hierunter im Fall R = ∞ der Grenzwert 0 und im Fall R = 0 der uneigentliche
Grenzwert ∞ zu verstehen ist. Aus dem Quotientenkriterium (Satz 7.21) folgt somit die
Konvergenz der Potenzreihe in allen Punkten z ∈ C mit |z| < R und die Divergenz in allen
Punkten z ∈ C mit |z| > R. Nach Satz 11.13 ist also R der Konvergenzradius.
Satz 11.15 ist eine Konsequenz aus dem Quotientenkriterium. Aus dem Wurzelkriterium
gewinnt man eine allgemeiner anwendbare Formel für den Konvergenzradius. Hierfür wird
eine Verallgemeinerung des Grenzwertbegriffs benötigt.
Definition 11.16
Es sei (cn )n eine Folge von reellen Zahlen. Wir nennen ∞ bzw. −∞
einen uneigentlichen Häufungswert der Folge (cn )n , falls es eine Teilfolge von (cn )n gibt,
die bestimmt gegen ∞ bzw. −∞ divergiert.
Es bezeichne H ⊆ R ∪ {∞, −∞} die Menge der eigentlichen und uneigentlichen Häufungswerte von (cn )n . Dann heißt
lim cn = lim sup cn := sup H
n→∞
bzw.
n→∞
limn→∞ cn = lim inf cn := inf H
der Limes superior bzw. der Limes inferior der Folge (cn )n .
156
n→∞
Bemerkung 11.17
Wenn die Folge (cn )n beschränkt ist, dann besitzt sie nach dem Satz
von Bolzano-Weierstraß (Satz 6.12) einen Häufungswert in R. Anderenfalls hat sie wenigstens
einen uneigentlichen Häufungswert (d.h. ∞ oder −∞). Daher ist H ⊆ R ∪ {∞, −∞} und
H 6= ∅. Das Supremum und das Infimum dieser Menge sind also wohldefiniert, sofern man
sup H = ∞ für ∞ ∈ H, inf H = −∞ für −∞ ∈ H sowie inf {∞} = ∞ und sup {−∞} = −∞
vereinbart.
Beispiel 11.18
(1) Es sei
1
.
cn := (−1) · 1 +
n
n
Dann gilt
lim inf cn = −1,
lim sup cn = +1.
n→∞
n→∞
(2) Es sei n 7→ cn eine Abzählung der Menge Q der rationalen Zahlen. Da Q dicht in R
ist, ist jede reelle Zahl ein Häufungswert von (cn )n , und auch ±∞ sind uneigentliche
Häufungswerte. Daher ist
lim sup cn = ∞,
lim inf cn = −∞.
n→∞
n→∞
Wir stellen einige Rechenregeln für den Limes superior und den Limes inferior von Folgen
zusammen:
Satz 11.19
Für Folgen (an )n und (bn )n von reellen Zahlen gelten die folgenden Aussagen:
(1) Die Folge (an )n ist genau dann konvergent oder bestimmt divergent, wenn
lim inf an = lim sup an = lim an .
n→∞
n→∞
n→∞
(2) Es sei c < lim supn→∞ an < C. Dann gibt es unendlich viele n mit an > c, aber nur
endlich viele k mit ak > C.
Ist c < lim inf n→∞ an < C, so gibt es unendlich viele n mit an < C, aber nur endlich
viele k mit ak < c.
(3) Setzt man sn := sup {ak | k ≥ n}, so ist
lim sup an = lim sn .
n→∞
n→∞
(4)
lim sup(an + bn ) ≤ lim sup an + lim sup bn ,
n→∞
n→∞
n→∞
sofern nicht auf der rechten Seite ein Summand ∞ und der andere −∞ ist.
157
Beweis.
(1) Eine Folge ist genau dann konvergent oder bestimmt divergent, wenn die Menge ihrer
(evtl. uneigentlichen) Häufungswerte einelementig ist. Daraus folgt sofort (1).
Ausführlich begründet man diese Feststellung wie folgt: Es sei H die Menge der eigentlichen oder uneigentlichen Häufungswerte von (an )n .
=⇒“: Die Folge (an )n sei konvergent. Dann hat sie gemäß Satz 6.11 (2) nur einen
”
(eigentlichen) Häufungswert (nämlich den Grenzwert). Zudem ist sie nach Proposition
5.11 beschränkt, so dass ±∞ keine uneigentlichen Häufungswerte sind. Daher ist in
diesem Fall H einelementig.
Nun sei (an )n bestimmt divergent gegen ∞ bzw. gegen −∞. Dann ist klar, dass ∞ bzw.
−∞ der einzige uneigentliche Häufungswert von (an )n ist und dass es keine eigentlichen
Häufungswerte dieser Folge gibt. Also ist H auch in diesem Fall einelementig.
⇐=“: Nun sei H = {a} einelementig. Falls a = ∞ oder a = −∞ ist, ist (an )n bestimmt
”
divergent gegen a. Ist hingegen a ∈ R, so ist (an )n beschränkt (denn sonst wäre ∞
oder −∞ ein uneigentlicher Häufungswert); hieraus und aus Aufgabe 10.4 (a) folgt die
Konvergenz von (an )n .
(2) Für c = −∞ wie auch für C = +∞ ist nichts zu zeigen. Wir dürfen daher c, C ∈ R
annehmen. Wir zeigen nur die erste Behauptung; die zweite ergibt sich analog.
Es sei also c < lim supn→∞ an < C.
Nach Definition des Limes superior gibt es einen Häufungswert h von (an )n mit h > c.
Zu der positiven Zahl ε := h − c gibt es unendlich viele n mit an ∈ Uε (h). Für alle
diese n folgt an > h − ε = c.
Wäre ak > C für unendlich viele k, dann gäbe es nach dem Satz von Bolzano-Weierstraß
einen (eigentlichen) Häufungswert h von (an )n mit h ≥ C (denn (an )n hat wegen
lim supn→∞ an < C < ∞ nicht ∞ als Häufungswert und ist daher nach oben beschränkt). Nach Definition des Limes superior ist aber h ≤ lim supn→∞ an < C. Dieser
Widerspruch zeigt, dass es nur endlich viele k mit ak > C gibt.
(3) Für n > m ist
sn = sup ak ≤ sup ak = sm
k≥n
k≥m
(denn die Supremumsbildung auf der rechten Seite erstreckt sich über eine größere
Menge als die auf der linken Seite). Daher ist die Folge (sn )n monoton fallend und somit
entweder konvergent (falls sie beschränkt ist, vgl. Satz 6.3) oder bestimmt divergent
gegen −∞. In jedem Fall ist also die Schreibweise limn→∞ sn wohlerklärt. Es sei s :=
limn→∞ sn .
Wir geben zwei Varianten des Beweises:
Variante 1: Falls s = ∞ ist, so ist sn = ∞ für alle n ∈ N. Induktiv findet man dann
eine Teilfolge (ank )k mit ank ≥ k für alle k.
Denn zu k = 1 gibt es wegen s1 = ∞ ein n1 ≥ 1 mit an1 ≥ 1. Hat man n1 , . . . , nk mit
den gewünschten Eigenschaften bereits bestimmt, so findet man wegen snk +1 = ∞ ein
nk+1 ≥ nk + 1 mit ank+1 ≥ k + 1.
Es strebt dann (ank )k gegen ∞. Somit ist ∞ ein Häufungswert von (an )n , und es folgt
lim supn→∞ an = ∞ = s. Für diesen Fall ist (3) damit nachgewiesen.
158
Es sei nun s < ∞. O.B.d.A. dürfen wir sn < ∞ für alle n annehmen.
Wir zeigen zunächst, dass s ein (evtl. uneigentlicher) Häufungswert der Folge (an )n ist.
Nach Definition des Supremums sn = sup {ak | k ≥ n} gibt es zu jedem n ein kn ≥ n,
so dass
1
s n − ≤ ak n ≤ s n .
n
Es strebt dann (akn )n ebenso wie (sn )n gegen s. (Dies gilt auch im Fall s = −∞.)
Also ist s tatsächlich ein Häufungswert von (an )n .
Aus der Definition des Limes superior folgt nun sofort s ≤ lim supn→∞ an .
Zum Nachweis der umgekehrten Abschätzung sei ein (evtl. uneigentlicher) Häufungwert
h von (an )n gegeben. Dieser ist Grenzwert einer geeigneten Teilfolge (ank )k . Wegen
nk ≥ k ist ank ≤ snk für alle k gemäß der Definition von snk . Damit folgt
h = lim ank ≤ lim snk = lim sn = s.
k→∞
n→∞
k→∞
Dies gilt für alle Häufungswerte h von (an )n , so dass auch lim supn→∞ an ≤ s ist.
Insgesamt gilt also lim supn→∞ an = s auch in diesem Fall.
Variante 2:∗ Wir betrachten zunächst die beiden Fälle lim supn→∞ an = ±∞. Im Falle
lim supn→∞ an = −∞ strebt (an )n gegen −∞. Damit ist auch limn→∞ sn = −∞. Im Falle
lim supn→∞ an = +∞ gibt es eine Teilfolge (ank )k , die gegen ∞ strebt. Damit ist sn = ∞ für
alle n und somit limn→∞ sn = +∞. Für diese beiden Fälle ist (3) damit nachgewiesen.
Von nun an dürfen wir lim supn→∞ an ∈ R annehmen.
≥“: Es sei ein ε > 0 gegeben. Nach (2) gibt es dann ein N ∈ N mit
”
ak ≤ lim sup an + ε
für alle k ≥ N.
n→∞
Hieraus folgt
sn0 = sup ak ≤ lim sup an + ε
k≥n0
für alle n0 ≥ N.
n→∞
Da dies für alle n0 ≥ N gilt, ergibt sich
lim sn ≤ lim sup an + ε.
n→∞
n→∞
Diese Betrachtung gilt für alle ε > 0. Daher ist limn→∞ sn ≤ lim supn→∞ an .
≤“: Erneut sei ein ε > 0 gegeben.
”
Es sei n0 ∈ N beliebig. Da es nach (2) unendlich viele n mit an > lim supn→∞ an − ε gibt,
gibt es insbesondere ein n1 ≥ n0 mit
an1 ≥ lim sup an − ε.
n→∞
Daher ist
sn0 = sup ak ≥ an1 ≥ lim sup an − ε.
n→∞
k≥n0
Weil dies für alle (beliebig großen) n0 ∈ N gilt, folgt
lim sn ≥ lim sup an − ε.
n→∞
n→∞
Diese Abschätzung gilt für alle ε > 0, so dass wir schließlich limn→∞ sn ≥ lim supn→∞ an
folgern können.
Insgesamt ist also limn→∞ sn = lim supn→∞ an , wie behauptet.
159
(4) Es sei
A = lim sup an ,
B = lim sup bn ,
n→∞
S = lim sup(an + bn ).
n→∞
n→∞
Wir setzen {A, B} =
6 {∞, −∞} voraus. Weiter dürfen wir A < ∞ und B < ∞ annehmen. (Andernfalls ist A + B = ∞, und die Behauptung ist klar.)
Wir nehmen an, es wäre S > A + B. Dann gibt es reelle Zahlen α und β mit
S > α + β,
α > A,
β > B.
Hieraus und aus (2) folgt die Existenz unendlich vieler n mit an + bn > α + β. Also ist
wenigstens eine der Ungleichungen an > α oder bn > β für unendlich viele n erfüllt.
Das steht im Widerspruch zu (2). Damit ist S ≤ A + B bewiesen.
Beispiel 11.20
In Teil (4) des Satzes kann strikte Ungleichheit auftreten. Ein Beispiel
hierzu liefert an := (−1)n und bn := (−1)n+1 . Hier ist lim supn→∞ an = lim supn→∞ bn = 1.
Aber es ist an + bn = 0 für alle n und somit lim supn→∞ (an + bn ) = 0.
Damit können wir die angekündigte allgemeine Formel für den Konvergenzradius einer Potenzreihe formulieren und beweisen.
Satz P
11.21 (Hadamardsche Formel41 )
Für den Konvergenzradius R einer Potenzn
a
z
gilt
reihe ∞
n=0 n
p
1
= lim sup n |an |.
R
n→∞
Beweis. Es sei R durch die Formel im Satz definiert.
Wir haben zu zeigen, dass es sich bei
P∞
R um den Konvergenzradius der Potenzreihe n=0 an z n handelt.
Hierzu sei ein Punkt z ∈ C mit |z| < R gegeben. Wir wählen eine Zahl r mit |z| < r < R
und setzen q := |z|
. Dann ist 0 < q < 1. Wegen
r
p
1
1
>
= lim sup n |an |
r
R
n→∞
p
und Satz 11.19 (2) gibt es ein N mit n |an | ≤ 1r für alle n ≥ N . Es folgt
p
p
|z|
n
|an z n | = n |an | · |z| ≤
=q
r
für alle n ≥ N.
Aus dem Wurzelkriterium (Satz 7.20) folgt somit die Konvergenz der Potenzreihe im Punkt z.
Nun sei z ∈ C und |z| > R. Dann folgt
lim sup
n→∞
p
|z|
n
|an z n | =
> 1.
R
p
Nach Satz 11.19 (2) gibt es daher unendlich viele n mit n |an z n | > 1. Insbesondere ist
(an z n )n keine Nullfolge. Folglich ist die Potenzreihe im Punkt z divergent. Nach Satz 11.13
ist also R ihr Konvergenzradius.
41
Der Satz ist nach J. Hadamard (1866 – 1963) benannt. Von ihm stammen wesentliche Beiträge zur
Analysis, insbesondere zur komplexen Analysis. Er bewies 1896 den Primzahlsatz, eine asymptotische Formel
für die Anzahl der Primzahlen p unterhalb einer beliebig gegebenen Schranke x, und war damit neben C.-J.
de La Vallée Poussin einer der beiden ersten Mathematiker, die dieses lange angestrebte Ziel erreichten.
160
Beispiel 11.22
(1) Die Exponentialreihe
∞
X
1
· zn
exp(z) =
n!
n=0
hat die Koeffizienten an = 1/n!. Es ist an /an+1 = n + 1 für alle n. Aus Satz 11.15
erhält man somit für den Konvergenzradius R das bekannte Ergebnis R = ∞.
(2) Für ein beliebiges k ∈ Z betrachten wir die Potenzreihe
∞
X
an z n
an = n k .
mit
n=1
Es gilt
an
nk
=
=
an+1
(n + 1)k
1−
1
n+1
k
und daher
lim
n→∞
an
= 1.
an+1
Nach Satz 11.15 haben diese Potenzreihen also unabhängig von k den Konvergenzradius
√
n
1. Dasselbe Ergebnis liefert die Hadamardsche Formel, denn es ist limn→∞ nk = 1.
(3) Auf die Potenzreihe
∞
X
1
· z 2n
n
3
n=0
ist Satz 11.15 nicht direkt anwendbar, weil alle Koeffizienten mit ungeradem Index verschwinden. Man kannP
die Reihe aber als Potenzreihe in der Variablen w := z 2 auffassen.
1
n
Konvergenzradius 3.
Für die Potenzreihe ∞
n=0 3n · w erhält man mit Satz 11.15 den √
Somit hat die ursprüngliche
Potenzreihe den Konvergenzradius
3 (denn sie ist für
√
√
|z 2 | < 3, also für |z| < 3 konvergent und für |z| > 3 divergent).
(4) Dieses Argument versagt z.B. bei der Potenzreihe
( 1
∞
X
3n
n
an z
mit
an :=
1
5n
n=0
für gerade n
für ungerade n
Ebensowenig ist Satz 11.15 anwendbar. Hingegen liefert die Hadamardsche Formel
sofort den Konvergenzradius 3.
Eine ganz ähnliche Beobachtung hatten wir bereits in Beispiel 7.23 (3) im Kontext von
gewöhnlichen Reihen gemacht.
(5) In Anbetracht der Hadamardschen Formel könnte man hoffen, auch Satz 11.15 ließe sich dadurch
verallgemeinern, dass man den (nicht immer existenten) Grenzwert
an an limn→∞ an+1 durch den (immer vorhandenen) Limes Superior lim supn→∞ an+1
ersetzt. Diese Hoffnung istP
vergeblich: I.Allg. stellt letztere Größe nicht den Konvergenzn
radius der Potenzreihe ∞
n=0 an z dar.
Dies
wird ebenfalls durch das Beispiel aus (4)
an belegt; dort ist nämlich lim supn→∞ an+1 = ∞, während der Konvergenzradius der
betreffenden Potenzreihe 3 ist.
161
Man kann für den Konvergenzradius R von
P∞
n=0
an z n allerdings zeigen, dass
an an ≤ R ≤ lim sup lim inf an+1 n→∞
an+1 n→∞
gilt.
Bemerkung 11.23
Mithilfe des Begriffs des Limes superior können wir nunmehr auch
das Wurzel- und das Quotientenkriterium für allgemeine Reihen umformulieren, und zwar
wie folgt:
P
Es sei ∞
n=0 an eine unendliche Reihe in R oder C. Es sei eine der beiden folgenden Bedingungen erfüllt:
(1) (Wurzelkriterium) Es ist
lim sup
p
n
|an | < 1.
n→∞
(2) (Quotientenkriterium) Es gibt ein n0 ∈ N0 , so dass an 6= 0 für alle n ≥ n0 , und es
ist
|an+1 |
< 1.
lim sup
|an |
n→∞
Dann ist die Reihe
P∞
n=0
an absolut konvergent.
Begründung: Im Falle des Wurzelkriteriums begründet man dies wie folgt: Für
p
1
n
q := · 1 + lim sup |an |
2
n→∞
p
gilt lim supn→∞pn |an | < q < 1 nach der Voraussetzung in (1). Gemäß Satz 11.19 (2) gibt es
ein N ∈ N mit n |an | ≤ q für alle n ≥ N . Damit folgt die absolute Konvergenz der gegebenen
Reihe aus dem Wurzelkriterium in der Version von Satz 7.20. Für das Quotientenkriterium
schließt man analog.
p
|
= 1 kann man keine Aussage über
Im Falle lim supn→∞ n |an | = 1 bzw. lim supn→∞ |a|an+1
n|
P∞ 1
das
Konvergenzverhalten
der
Reihe
treffen:
Dieser
Fall
liegt
z.B.
für
die
Reihen
n=1 n und
P∞ 1
n=1 n2 vor; die erste dieser beiden Reihen divergiert, während die zweite konvergiert. Vgl.
hierzu auch Beispiel 7.23 (4).
11.4
Der Abelsche Stetigkeitssatz∗
Eine Potenzreihe definiert eine stetige Funktion auf dem im Konvergenzkreis gelegenen offenen reellen Intervall. Wir betrachten jetzt die spezielle Situation, dass die Reihe in einem
Endpunkt dieses Intervalls konvergiert. Die Frage ist dann, ob die Grenzfunktion in diesem
Endpunkt noch stetig ist. N. H. Abel konnte diese Frage bejahend beantworten.
162
P
n
Satz 11.24 (Abelscher Stetigkeitssatz)
Die Potenzreihe ∞
n=0 an x (mit Koeffizienten an ∈ C) habe den Konvergenzradius 1, und sie sei im Punkt x = 1 konvergent. Dann
definiert
∞
X
f (x) :=
an xn
n=0
eine stetige Funktion f auf dem Intervall ] − 1, 1].
Beweis. Nach Satz 11.13 (3) definiert die Potenzreihe eine stetige Funktion f auf der offenen
Einheitskreisscheibe U1 (0) in C. Insbesondere ist f auf ] − 1, 1[ stetig. Nach Voraussetzung
existiert der Grenzwert
∞
X
an = f (1) =: s.
n=0
Angesichts von Satz 9.18 (3) besagt die Behauptung des Satzes
lim f (x) = f (1).
x→1−
Wir setzen
s−1 := 0,
sn :=
n
X
ak
n ≥ 0.
für
k=0
Dann ist limn→∞ sn = s. Mittels partieller Summation (Satz 7.36) erhalten wir
n
X
k=0
ak x k =
n
X
(sk − sk−1 )xk
k=0
= sn x
n+1
−
n
X
sk (x
k+1
k
− x ) = sn x
n+1
− (x − 1) ·
k=0
n
X
s k xk
k=0
für alle x ∈ C. Nun wird |x| < 1 vorausgesetzt. (Auf reelle x müssen wir uns erst an einer
späteren Stelle beschränken.) Der Grenzübergang n → ∞ ergibt dann
f (x) = (1 − x) ·
∞
X
s k xk ;
k=0
hierbei ist es wesentlich, dass (sn )n als konvergente Folge beschränkt ist, so dass
limn→∞ sn xn+1 = 0 ist.PMan schreibt die Formel für die geometrische Reihe trickreich in
k
der Form 1 = (1 − x) · ∞
k=0 x und erhält
f (x) − f (1) = f (x) − s = f (x) − s(1 − x) ·
∞
X
k=0
k
x = (1 − x) ·
∞
X
(sk − s)xk .
k=0
Es sei eine Zahl ε > 0 gegeben. Dazu existiert wegen limk→∞ sk = s ein N mit |sk − s| <
für alle k ≥ N . Weiterhin gibt es eine Zahl δ ∈]0, 1[ mit
δ·
N
X
ε
|sk − s| < .
2
k=0
163
ε
2
Für alle reellen x mit 1 − δ < x < 1 folgt nun
|f (x) − f (1)| ≤ (1 − x) ·
N
X
k
|sk − s| · x + (1 − x) ·
k=0
∞
X
|sk − s| · xk
k=N +1
∞
X
ε
xk
< δ·
|sk − s| + · (1 − x) ·
2
k=N +1
k=0
N
X
<
ε ε
+ = ε.
2 2
Damit ist limx→1− f (x) = f (1) bewiesen.
Beispiel 11.25
Die Potenzreihe
∞
X
1
(−1)n+1 · · xn
n
n=1
hat den Konvergenzradius 1 und ist nach dem Leibniz-Kriterium auch in x = 1 konvergent.
Nach dem Abelschen Stetigkeitssatz definiert sie also eine in ] − 1, 1] stetige Funktion. Wir
werden später sehen, dass der Wert dieser Potenzreihe gerade log(1 + x) ist.
Bemerkung 11.26
In der Situation von Satz 11.24 kann f mittels der gegebenen Potenzreihe als Funktion auf D := U1 (0)∪{1} definiert werden, wobei U1 (0) die Einheitskreisscheibe
in C ist. Der Abelsche Stetigkeitsssatz besagt dann gerade, dass die Restriktion f |]−1,+1] stetig ist. Man könnte nun vermuten, dass f auf ganz D stetig ist. Diese Vermutung ist falsch.
Hinweise auf Gegenbeispiele findet man in [Remmert, S. 95]. Immerhin gilt die folgende, von
O. Stolz 1875 bewiesene Verallgemeinerung des Satzes von Abel:
P
n
Wenn eine Potenzreihe ∞
n=0 an z in einem Randpunkt w ihres Konvergenzkreises konvergiert, dann konvergiert sie gleichmäßig auf jedem kompakten Dreieck ∆, dessen eine Ecke w
ist und dessen beide anderen Ecken im Inneren des Konvergenzkreises liegen.
164
12
Spezielle Funktionen
12.1
Die Exponentialfunktion
In Definition 7.33 hatten wir die Exponentialfunktion exp : C −→ C mithilfe der Exponentialreihe erklärt:
∞
X
zn
für alle z ∈ C.
exp(z) :=
n!
n=0
Hierfür war es wesentlich, dass die Exponentialreihe in ganz C konvergiert, wie wir in Beispiel 7.23 (2) mithilfe des Quotientenkriteriums nachgewiesen hatten. Einige wichtige Eigenschaften der Exponentialfunktion hatten wir in Satz 7.34 zusammengestellt. Von zentraler
Bedeutung hierbei war das Additionstheorem
exp(z + w) = exp z · exp w
für alle z, w ∈ C,
aus dem sich u.a. die Nullstellenfreiheit der Exponentialfunktion ergibt. Aus Beispiel 9.22
wissen wir ferner
lim exp(x) = ∞,
lim exp(x) = 0.
(12.1)
x→∞
x→−∞
Unsere Überlegungen zu Potenzreihen in Abschnitt 11.3 hatten eine neue Begründung für
das Konvergenzverhalten der Exponentialreihe, bei der es sich ja um eine Potenzreihe handelt, geliefert: In Beispiel 11.22 (1) hatten wir gezeigt, dass sie den Konvergenzradius ∞
besitzt. Aus unseren Resultaten über Potenzreihen ergibt sich nun auch mühelos die Stetigkeit der Exponentialfunktion. Diese und weitere Eigenschaften sind im folgenden Korollar
zusammengestellt.
Korollar 12.1 (Eigenschaften der Exponentialfunktion)
(a) Die Exponentialfunktion exp : C −→ C ist stetig in ganz C.
(b) Auf R ist die Exponentialfunktion streng monoton wachsend.
(c) Die Abbildung exp : R −→]0, ∞[ ist bijektiv.
Beweis.
(a) Die Stetigkeit der Exponentialfunktion folgt sofort aus Satz 11.13 (3) in Verbindung
mit der Tatsache, dass die Exponentialreihe den Konvergenzradius ∞ hat.
(b) Aus der Reihenentwicklung der Exponentialfunktion ist unmittelbar ersichtlich, dass
exp h = 1 + h +
h2 h3
+
+ ··· > 1
2!
3!
für alle h > 0
(12.2)
ist.
Es seien reelle u, v mit u < v gegeben. Dann ist v − u > 0. Nach (12.2) ist daher
exp(v − u) > 1. Hiermit und mit dem Additionstheorem der Exponentialfunktion folgt
exp(v) = exp(v − u) · exp(u) > exp(u).
Dies zeigt, dass exp auf R streng monoton wächst.
165
(c) Nach Satz 7.34 (3) ist exp(x) > 0 für alle x ∈ R, so dass exp eine Abbildung R −→]0, ∞[
ist. Wegen der in (b) gezeigten strengen Monotonie ist die Abbildung exp : R −→]0, ∞[
injektiv (Satz 10.14 (1)). Es bleibt zu zeigen, dass sie auch surjektiv ist. Es sei also
ein y0 > 0 gegeben. Wegen (12.1) gibt es a, b ∈ R mit exp a < y0 < exp b. Aus dem
Zwischenwertsatz (welcher wegen der Stetigkeit der Exponentialfunktion anwendbar
ist) folgt die Existenz eines x0 ∈]a, b[ mit exp x0 = y0 . Dies zeigt die Behauptung.
Als Nächstes zeigen wir, dass exp(x) auf der reellen Achse für x → ∞ schneller“ gegen
”
Unendlich strebt als jede Potenz xN und für x → −∞ schneller“ gegen Null strebt als jede
”
Potenz xN gegen ±∞:
Satz 12.2
Für jede Zahl ε > 0 und jede natürliche Zahl N gilt
exp(εx)
= ∞,
x→∞
xN
lim xN exp(εx) = 0.
lim
x→−∞
Beweis. Für reelle x > 0 hat die Exponentialreihe exp(x) =
Bei gegebenem N ∈ N und ε > 0 gilt daher
exp(εx) >
(εx)N +1
,
(N + 1)!
also
P∞
n=0
exp(εx)
εN +1
>
·x
xN
(N + 1)!
xn /n! nur positive Glieder.
für alle x > 0.
Da N und ε fest sind und limx→∞ x = ∞ ist, folgt hieraus sofort
exp(εx)
−→ ∞
xN
für x −→ ∞,
also die erste Behauptung. Die zweite Behauptung lässt sich hierauf zurückführen: Durch
xN
= 0. Indem man von x zu t := −x
Reziprokenbildung erhält man zunächst limx→∞ exp(εx)
übergeht, ergibt sich schließlich
tN
= (−1)N · 0 = 0.
t→∞ exp(εt)
lim xN exp(εx) = lim (−t)N exp(−εt) = (−1)N · lim
x→−∞
12.2
t→∞
Der natürliche Logarithmus
Die reelle Exponentialfunktion exp : R −→]0, ∞[ ist nach Korollar 12.1 stetig und bijektiv
(genauer: streng monoton wachsend). Nach Satz 10.14 gibt es also eine auf ]0, ∞[ definierte
stetige Umkehrfunktion. Sie hat einen eigenen Namen:
Definition 12.3 Die auf ]0, ∞[ definierte Umkehrfunktion der Exponentialfunktion auf
R heißt der Logarithmus oder der natürliche Logarithmus oder auch die Logarithmusfunktion. Übliche Bezeichnungen für diese Funktion sind log oder auch ln. (Die zweite
Bezeichnung ist eine Abkürzung des lateinischen Namens logarithmus naturalis.) Für x > 0
heißt der Funktionswert log(x) der (natürliche) Logarithmus von x.
166
Satz 12.4 (Logarithmus)
Eigenschaften:
Die Logarithmusfunktion log : ]0, ∞[−→ R hat folgende
(1) Sie ist stetig und streng monoton steigend.
(2) Es gilt limx→∞ log(x) = ∞ und limx→0+ log(x) = −∞.
(3) Für alle x > 0 und y > 0 und alle m ∈ Z gilt
log(xy) = log(x) + log(y)
log(xm ) = m · log(x).
und
Beweis. Die Behauptungen (1) und (2) folgen – unter Beachtung von Satz 10.14 – aus den
oben erwähnten Eigenschaften der Exponentialfunktion.
Für gegebene x > 0 und y > 0 setze man u := log(x) und v := log(y). Dann ist exp(u + v) =
exp(u) exp(v) = xy. Daraus folgt u + v = log(xy), also die erste Behauptung in (3). Aus
dieser und aus log(1) = 0 folgt durch Induktion log(xm ) = m · log(x) zunächst für alle
m ∈ N0 . Weiter ergibt sich für alle m ∈ N0
log(xm ) + log(x−m ) = log xm · x−m = log(1) = 0,
also
log(x−m ) = − log(xm ) = −m · log(x).
Damit ist log(xm ) = m · log(x) sogar für alle m ∈ Z bewiesen.
y6
y6
log
1
1
-
x
exp
1
1
-
x
Abbildung 20: Exponentialfunktion und Logarithmus
Bemerkung 12.5
Die Funktionalgleichung in Satz 12.4 (3) macht es möglich, eine Multiplikationsaufgabe auf eine schneller ausführbare Additionsaufgabe zurückzuführen. Man
benötigt dazu eine Logarithmentafel oder einen Rechenschieber:
• Eine Logarithmentafel ist eine Tabelle der Werte log(x); ihre Ausführlichkeit bestimmt
die erreichbare Rechengenauigkeit. Zur Anpassung an das Dezimalsystem tabelliert
man nicht die natürlichen Logarithmen, sondern die Logarithmen zur Basis 10 (vgl.
Abschnitt 12.3). Für seine umfangreichen numerischen Rechnungen hat Gauß großen
Wert auf genaue und bequem zu benutzende Logarithmentafeln gelegt.
167
• Ein Rechenschieber besteht aus zwei gegeneinander verschiebbaren Stäben mit gleichen
Längeneinteilungen, wobei an der zur Länge u gehörigen Position der Wert x mit
u = log(x) vermerkt ist. Zwei Längen u und v mit v = log(y) werden durch Verschieben
der Stäbe addiert, und bei der Längensumme ist das Produkt xy ablesbar.
Beide Methoden werden seit dem Aufkommen von Taschenrechnern und Computern nicht
mehr benutzt.
12.3
Allgemeine Potenzen und Logarithmen
Bisher hatten wir Potenzen ax lediglich für ganzzahlige Exponenten x erklärt (Bemerkung
2.6 (2)). Für a > 0 wollen wir nun die Potenzen ax für beliebige reelle x definieren. Wie sich
zeigt, kann man sogar beliebige komplexe x zulassen.
Zunächst betrachten wir rationale Exponenten x. Es sei also a > 0 und x ∈ Q, d.h. x = m/n
mit gewissen m ∈ Z und n ∈ N. Dann setzt man
√
(12.3)
ax = am/n := n am .
Hier stellt sich das Problem der Wohldefiniertheit: Ist diese Festsetzung unabhängig von der
? Diese Frage ist leicht zu beantworten: Für
Wahl von m und n in der Darstellung x = m
n
alle p ∈ N gilt
√
pn
√ pn
pn
apm
= apm = (am )p = n am
und daher
√
pn
apm =
√
n
am ;
dies zeigt, dass unsere Definition von ax tatsächlich unabhängig von der Darstellung der Zahl
x als Bruch ist.
Wie aber definiert man ax , wenn x nicht rational ist? Man könnte wie folgt vorgehen: Weil
Q dicht in R ist, gibt es eine Folge (qn )n von rationalen Zahlen qn mit limn→∞ qn = x. Man
setzt dann
ax := lim aqn .
n→∞
Hierbei wurden die Potenzen auf der rechten Seite gemäß (12.3) definiert. Es ist auch nicht
schwierig, die Existenz des Grenzwertes zu beweisen. Dann muss man aber noch die Unabhängigkeit des Grenzwerts von der Auswahl der gegen x konvergierenden Folge (qn )n ⊆ Q
nachweisen. Dies erweist sich als relativ mühsam. Details hierzu sind in [Heuser 1, § 25] zu
finden. Weil uns hier die Exponentialfunktion bereits zur Verfügung steht, können wir unser
Ziel wesentlich müheloser erreichen und zudem sogar az für beliebige komplexe Zahlen z
definieren.
Proposition 12.6
Es sei a > 0. Für alle x ∈ Q gilt dann
ax = exp(x · log(a)).
Insbesondere ist ex = exp(x).
168
m
n
∈ Q mit m ∈ Z und n ∈ N. Dann folgt mit Satz 12.4 (3)
√ n (12.3)
n
n · log(ax ) = log((ax )n ) = log
am
= log(am ) = m · log(a),
Beweis. Es sei x =
also
log(ax ) =
m
· log(a) = x · log(a)
n
und somit
ax = exp (log(ax )) = exp(x log(a)).
Damit ist die erste Behauptung gezeigt. Setzt man hierin speziell a := e, so ergibt sich
ex = exp(x log(e)). Wegen exp(1) = e ist log e = 1 und somit ex = exp(x). Dies zeigt auch
die zweite Behauptung.
Definition 12.7
Es sei a > 0. Für beliebige z ∈ C wird
az := exp(z · log(a))
gesetzt, und insbesondere wird ez := exp(z) gesetzt. Man nennt az die Potenz von a zum
Exponenten z und a die Basis der Potenz az .
Durch Proposition 12.6 wird sichergestellt, dass die hier definierte Potenz az im Falle einer
rationalen Zahl z mit der bereits oben in (12.3) erklärten Potenz identisch ist.
Satz 12.8
Für jede positive Zahl a wird durch z 7→ az eine stetige Funktion auf C
definiert. Für alle positiven Zahlen a und b, alle komplexen Zahlen z und w und für alle
reellen Zahlen x und y gelten die Rechenregeln
az+w = az · aw ,
(ax )y = axy = (ay )x ,
az · bz = (ab)z .
Beweis. Kompositionen stetiger Funktionen sind nach Satz 9.9 stetig. Aus der Stetigkeit
der Exponentialfunktion folgt daher die Stetigkeit von z 7→ az = exp(z log(a)) auf C. Die
Rechenregeln ergeben sich wie folgt aus den Additionstheoremen der Exponentialfunktion
(Satz 7.34 (2)) und des Logarithmus (Satz 12.4 (3)): Es ist
az+w = exp((z + w) log(a)) = exp(z log(a)) · exp(w log(a)) = az · aw
und
(ax )y = exp(y log(ax )) = exp(y · log(exp(x log(a))))
= exp(y · x log(a)) = exp(xy · log(a)) = axy
und analog auch (ay )x = ayx = axy . Hierbei ist die Einschränkung auf reelle x und y nötig,
damit ax > 0 bzw. ay > 0 im Definitionsbereich der Logarithmusfunktion liegt. Schließlich
folgt
az · bz = exp(z log(a)) · exp(z log(b)) = exp(z · (log(a) + log(b)))
= exp(z · log(ab)) = (ab)z .
169
Es sei a > 1. Dann ist log(a) > 0, und folglich ist x 7→ ax = exp(x log(a)) ebenso wie exp
streng monoton steigend auf R. Es gilt
lim ax = 0,
lim ax = ∞.
x→−∞
x→∞
Wegen der Stetigkeit ist daher x 7→ ax eine Bijektion von R auf das Intervall ]0, ∞[. Die
Umkehrfunktion ist nach Satz 10.14 ebenfalls stetig. Dies ermöglicht die Definition von Logarithmen zu beliebigen Basen:
Definition 12.9
Es sei a > 1. Dann bezeichne
loga : ]0, ∞[ −→ R
die Umkehrfunktion der Funktion x 7→ ax . Diese Funktion heißt der Logarithmus zur
Basis a. Für y > 0 heißt der Funktionswert loga (y) der Logarithmus von y zur Basis a.
Für die Logarithmen zur Basis 10 gilt die Identität log10 (10x) = 1 + log10 (x). In einer Logarithmentafel braucht man daher die Werte log10 (x) nur für 1 ≤ x < 10 zu tabellieren.
Deswegen und wegen der Bedeutung von Logarithmentafeln zur Vereinfachung von Multiplikationen (s. Bemerkung 12.5) waren die Logarithmen zur Basis 10 lange Zeit von großer
praktischer Bedeutung.
Man kann jeden Logarithmus durch jeden anderen und insbesondere durch den natürlichen
Logarithmus ausdrücken. Es sei nämlich u = loga (y). Dann ist y = au = exp(u log(a)) und
somit log(y) = u log(a), also
log(y)
.
loga (y) =
log(a)
Die Logarithmen zur Basis a unterscheiden sich von den natürlichen Logarithmen also nur
durch die multiplikative Konstante 1/ log(a).
Von theoretischer Bedeutung ist in der Mathematik nur der natürliche Logarithmus, und
nur diesen werden wir weiterhin studieren. Der eigentliche Grund für die Auszeichnung der
Zahl e gegenüber anderen Basen ist darin zu sehen, dass – wie wir später sehen werden –
die Exponentialfunktion gleich ihrer eigenen Ableitung ist.
Die Wachstumsaussage über die Exponentialfunktion in Satz 12.2 hat ein Gegenstück für
den Logarithmus: Er strebt zwar gegen ∞ für x → ∞, jedoch langsamer als jede noch so
kleine positive Potenz von x.
Satz 12.10 (Wachstum des Logarithmus)
log(x)
=0
x→∞
xε
lim
und
Für jede Zahl ε > 0 gilt
lim xε · log(x) = 0.
x→0+
Beweis. Wir setzen y = y(x) = log(x) und t = t(x) = − log(x). Dann gilt xε = exp(εy) =
1/ exp(εt), und nach Satz 12.4 (2) ist
lim y(x) = ∞,
lim y(x) = −∞.
x→∞
x→0+
Mit Hilfe von Satz 12.2 folgt also
lim
x→∞
log(x)
y
= lim
=0
ε
y→∞ exp(εy)
x
und
lim xε · log(x) = lim exp(εy) · y = lim
x→0+
y→−∞
t→∞
170
−t
= 0.
exp(εt)
Beispiel 12.11
Wie unvorstellbar langsam der Logarithmus anwächst, mag folgendes
Beispiel verdeutlichen. Wir denken uns ein Koordinatensystem in der Ebene mit einer
Längeneinheit von 1 Zentimeter. Die Sonne ist etwa 1, 5 · 1013 Zentimeter von uns entfernt. Es gilt log(1, 5 · 1013 ) = 30, 339... . Der Graph der Logarithmusfunktion erreicht also
in Sonnenentfernung nicht einmal 31 Zentimeter Höhe.
Die zweite Aussage in Satz 12.10 über das Verhalten des Logarithmus bei 0 illustriert Abbildung 21 für den Fall ε = 31 .
y 6
-
1
x
Abbildung 21: Die Funktion x 7→
12.4
√
3
x log(x)
Trigonometrische Funktionen und Hyperbelfunktionen
x
1
sin(x)
cos(x)
Abbildung 22: Trigonometrische Funktionen
Die Winkelfunktionen oder trigonometrischen Funktionen oder auch Kreisfunktionen Sinus, Cosinus und Tangens werden im Schulunterricht durch Längenverhältnisse im
Einheitskreis wie in Abbildung 22 definiert. Wollte man hier diese Definition übernehmen,
171
dann müsste man zuvor Winkel oder die Länge von Kreisbogenstücken diskutieren. Vom
logischen Standpunkt ist es einfacher, Bogenlängen erst später, in der Integralrechnung zu
studieren, die Winkelfunktionen aber bereits jetzt mit Hilfe der Exponentialfunktion einzuführen. Selbstverständlich wäre diese Vorgehensweise für den Schulunterricht ungeeignet.
Definition 12.12
Die Funktionen sin, cos, sinh, cosh : C −→ C werden definiert durch
1 iz
e + e−iz ,
2
1 z
cosh(z) :=
e + e−z
2
1 iz
e − e−iz
2i
1 z
sinh(z) :=
e − e−z ,
2
cos(z) :=
sin(z) :=
für alle z ∈ C. Diese vier Funktionen auf C heißen der Reihe nach der Sinus, der Cosinus,
der Sinus hyperbolicus und der Cosinus hyperbolicus.
Offensichtlich sind alle diese vier Funktionen stetig auf C. Für reelle x ist ex reell, und
aufgrund der Definition sind somit auch cosh(x) und sinh(x) reell. Es ist nicht schwierig,
sich ein Bild vom Verlauf der beiden Funktionen cosh und sinh im Reellen zu verschaffen:
y 6
cosh(x)
-
x
sinh(x)
Abbildung 23: Hyperbelfunktionen
Der Graph des Cosinus hyperbolicus beschreibt eine Kettenlinie (Katenoide), d.h. den
Verlauf einer an ihren Enden aufgehängten Kette unter dem Einfluss der Gravitation.
Hingegen ist es aufgrund der Definitionen überhaupt nicht offensichtlich, wie die Funktionen
Cosinus und Sinus im Reellen verlaufen. Der Nachweis der Richtigkeit der in Abbildung 22
gezeigten Sachverhalte ist eine nicht ganz einfache Herausforderung. Dieser werden wir uns
im nächsten Abschnitt stellen.
Aus den Definitionen folgt sofort
sinh(−z) = − sinh(z),
sin(−z) = − sin(z)
cosh(−z) = cosh(z),
cos(−z) = cos(z),
für alle z ∈ C. Solche Funktionen bezeichnet man als gerade beziehungsweise ungerade
Funktionen:
172
Definition 12.13 Es sei f : D −→ C eine Funktion auf einer Menge D ⊆ C, und für alle
z ∈ D sei auch −z ∈ D. Man nennt f eine gerade Funktion, falls f (−z) = f (z) für alle
z ∈ D gilt, und f heißt eine ungerade Funktion, falls f (−z) = −f (z) für alle z ∈ D ist.
Wir haben festgestellt, dass cosh und cos gerade Funktionen, sinh und sin ungerade Funktionen auf C sind. Eine Reihe weiterer Folgerungen aus den Definitionen sind in dem folgenden
Satz gesammelt.
Satz 12.14
Die trigonometrischen Funktionen und die Hyperbelfunktionen haben die
folgenden Eigenschaften: Für alle z ∈ C gilt
(1)
cosh(iz) = cos(z),
sinh(iz) = i · sin(z),
(2)
eiz = cos(z) + i sin(z)
ez = cosh(z) + sinh(z).
(Formel von Euler-Moivre),
(3)
cosh2 (z) − sinh2 (z) = 1,
cos2 (z) + sin2 (z) = 1.
Die zweite Beziehung bezeichnet man auch als trigonometrischen Pythagoras.
(4) Es bestehen die auf ganz C gültigen Potenzreihenentwicklungen
cos(z) =
∞
X
(−1)n z 2n
n=0
(2n)!
,
sin(z) =
∞
X
(−1)n z 2n+1
n=0
∞
X
z 2n
cosh(z) =
,
(2n)!
n=0
sinh(z) =
∞
X
n=0
(2n + 1)!
.
z 2n+1
,
(2n + 1)!
(5) Für reelle x sind alle Funktionswerte cosh(x), sinh(x), cos(x) und sin(x) reell. Die
Punkte (cos(x), sin(x)) liegen auf der Kreislinie
S 1 = {(u, v) ∈ R2 | u2 + v 2 = 1},
und die Punkte (cosh(x), sinh(x)) liegen auf dem Hyperbelast
H = {(u, v) ∈ R2 | u > 0, u2 − v 2 = 1}.
Dieses Resultat erklärt die Namen Kreisfunktionen für cos und sin und Hyperbelfunktionen für cosh und sinh.
(6) Für alle z, w ∈ C gelten die Additionstheoreme
cos(z + w) = cos(z) cos(w) − sin(z) sin(w),
sin(z + w) = sin(z) cos(w) + cos(z) sin(w),
cosh(z + w) = cosh(z) cosh(w) + sinh(z) sinh(w),
sinh(z + w) = sinh(z) cosh(w) + cosh(z) sinh(w).
173
Beweis.
(1) Ersetzt man im hyperbolischen Cosinus und Sinus die Variable z durch iz, so erhält
man die Identitäten in (1). Demnach ist das Verhalten des Cosinus und des Sinus auf
der reellen Achse durch das Verhalten von cosh und sinh auf der imaginären Achse
gegeben.
(2) Die Definitionsgleichungen können nach ez und eiz aufgelöst werden. Das ergibt die
beiden Identitäten in (2). Hierdurch werden die beiden Funktionen z 7→ ez und z 7→ eiz
jeweils in einen geraden und einen ungeraden Anteil zerlegt.
(3) Aus den Definitionen und aus (exp(z))2 = exp(2z) folgt
2 1 z
2
1 z
e + e−z −
e − e−z
4
4
1 2z
=
e + 2 + e−2z − e2z + 2 − e−2z
4
= 1.
cosh2 (z) − sinh2 (z) =
Das ist die erste Identität in (3). Die zweite folgt, indem man z durch iz ersetzt und
(1) verwendet.
(4) Die Exponentialfunktion hat eine auf ganz C gültige Potenzreihenentwicklung. Aus
dieser und aus den Definitionen folgt
1
(exp(iz) + exp(−iz))
2
!
∞
∞
1 X ik z k X (−i)k z k
=
+
2 k=0 k!
k!
k=0
cos(z) =
∞
X
1 k
1
(i + (−i)k ) · z k
=
2
k!
k=0
=
∞
X
i2n
· z 2n
(2n)!
n=0
∞
X
(−1)n 2n
=
·z
(2n)!
n=0
und ebenso
∞
∞
X
ik − (−i)k k X (−1)n
sin(z) =
·z =
· z 2n+1 .
2i
·
k!
(2n
+
1)!
n=0
k=0
Dabei wurde ik + (−i)k = 0 für ungerade k und ik − (−i)k = 0 für gerade k verwendet.
Indem man z durch iz ersetzt, erhält man unter Beachtung von (1)
cosh z = cos(−iz) = cos(iz) =
∞
∞
X
X
(−1)n
1
· (iz)2n =
· z 2n
(2n)!
(2n)!
n=0
n=0
und ebenso
sinh z = −i · sin(iz) = −i ·
∞
X
n=0
∞
X
(−1)n
1
· (iz)2n+1 =
· z 2n+1 ,
(2n + 1)!
(2n + 1)!
n=0
174
also die Potenzreihenentwicklungen für cosh(z) und sinh(z).
(5) Alle vier Potenzreihen haben reelle Koeffizienten. Für reelle x sind folglich auch die
Werte cosh(x), sinh(x), cos(x) und sin(x) reell. Für cosh(x) und sinh(x) war das bereits
aufgrund der Definition klar. Hieraus und aus (3) folgen die Behauptungen
(cosh(x), sinh(x)) ∈ H
(cos(x), sin(x)) ∈ S 1
und
für
x ∈ R.
Damit ist (5) bewiesen.
(6) Das Additionstheorem der Exponentialfunktion und die Definitionen ergeben
cos(z) cos(w) − sin(z) sin(w)
1 iz
1 iz
e + e−iz eiw + e−iw +
e − e−iz eiw − e−iw
=
4
4
1 iz iw
=
e e + e−iz e−iw
2
1 i(z+w)
=
e
+ e−i(z+w)
2
= cos(z + w),
cos(z) sin(w) + sin(z) cos(w)
1 iz
1 iz
=
e + e−iz eiw − e−iw +
e − e−iz eiw + e−iw
4i
4i
1 i(z+w)
=
e
− e−i(z+w)
2i
= sin(z + w),
also die Additionstheoreme für Sinus und Cosinus. Hieraus folgen dann mittels (1) die
Additionstheoreme der Hyperbelfunktionen:
cosh(z + w) = cos(iz + iw)
= cos(iz) cos(iw) − sin(iz) sin(iw)
= cosh(z) cosh(w) + sinh(z) sinh(w),
sinh(z + w) = −i · sin(iz + iw)
= −i cos(iz) sin(iw) − i sin(iz) cos(iw)
= cosh(z) sinh(w) + sinh(z) cosh(w).
Bemerkung 12.15
Ein leichter zu merkender, allerdings nur für reelle Argumente gültiger Beweis für die Additionstheoreme von Sinus und Cosinus funktioniert wie folgt: Aufgrund
des Additionstheorems der Exponentialfunktion sowie der Formel von Euler-Moivre gilt für
alle z, w ∈ R
cos(z + w) + i sin(z + w) = ei(z+w) = eiz · eiw
= (cos z + i sin z) · (cos w + i sin w)
= cos z cos w − sin z sin w + i (sin z cos w + cos z sin w) .
175
Durch Vergleich von Real- und Imaginärteil erhält man hieraus die Additionstheoreme für
den Sinus und Cosinus. – Für beliebige z, w ∈ C bleiben die Umformungen zwar richtig, nicht
aber der Vergleich von Real- und Imaginärteil: Dieser beruhte nämlich wesentlich darauf,
dass alle auftretenden Funktionswerte sin z, sin w, cos z, cos w reell sind, was nur für reelle
z, w gewährleistet ist.
Aus den Additionstheoremen für Sinus und Cosinus lassen sich zahlreiche andere trigonometrische Identitäten herleiten. Einige Beispiele dafür lernen wir in den Übungen kennen.
Aus den Potenzreihenentwicklungen von Sinus und Cosinus erhält man insbesondere zwei
Grenzwerte, die sich immer wieder als nützlich erweisen:
Korollar 12.16
Es gilt
sin z
=1
z→0 z
lim
und
cos z − 1
= 0.
z→0
z
lim
Beweis. Für alle z ∈ C \ {0} erhält man aus den Potenzreihendarstellungen in Satz 12.14
∞
z2 z4
sin z X (−1)n z 2n
=
=1−
+
− +...,
z
(2n
+
1)!
3!
5!
n=0
∞
z z3
cos z − 1 X (−1)n z 2n−1
=
=− +
− +....
z
(2n)!
2
4!
n=1
Die zunächst nur für z 6= 0 definierten Funktionen z 7→ sinz z und z 7→ cos zz−1 besitzen also
Potenzreihenentwicklungen um 0. Insbesondere sind sie stetig in z = 0 ergänzbar (Satz 11.13
(3)), so dass die Grenzwerte
sin z
=1
z→0 z
lim
und
cos z − 1
=0
z→0
z
lim
existieren.
12.5
Die Kreiszahl π
Das Ergebnis (cos(x), sin(x)) ∈ S 1 für reelle x in Satz 12.14 (5) kann auch folgendermaßen
formuliert werden: Durch
x 7→ Φ(x) := eix = cos(x) + i sin(x)
ist eine stetige Abbildung von R in die Einheitskreislinie in der komplexen Ebene gegeben.
Wie bereits in Bemerkung 3.4 angedeutet, lässt sich hierbei das Argument x in eix als Winkel
zwischen der positiven reellen Achse und dem vom Nullpunkt ausgehenden Strahl durch den
Punkt eix auffassen, d.h. als Länge des Kreisbogenstücks zwischen Φ(0) = 1 und Φ(x) = eix
auf dem Einheitskreis. Wir können also vermuten, dass Φ das Intervall [0, ∞[ längentreu auf
die Einheitskreislinie abwickelt und dass deren Umfang, den wir wie üblich mit 2π bezeichnen
wollen, die kleinste positive Zahl mit der Eigenschaft e2πi = 1 ist. Diese Sachverhalte näher
zu begründen, ist eines der Ziele dieses Abschnitts.
176
Hiezu müssen wir zunächst die Kreiszahl π definieren. Wir tun dies so, dass sie die soeben
genannte Eigenschaft hat. Aus beweistechnischen Gründen führen wir π zunächst allerdings
etwas anders ein, nämlich als das Doppelte der kleinsten positiven Nullstelle des Cosinus. Es
ist klar, dass es nicht mehr als eine solche Zahl geben kann. Das Problem besteht darin zu
zeigen, dass der Cosinus überhaupt eine positive Nullstelle hat. (Außerdem muss man sich
vergewissern, dass es unter seinen positiven Nullstellen eine kleinste gibt; dies ergibt sich aus
der Stetigkeit des Cosinus.)
Satz 12.17 (Die Kreiszahl π)
Es gibt eine eindeutig bestimmte Zahl π mit den Eigenschaften
π π
π > 0,
cos
=0
und
cos(x) > 0 für 0 ≤ x < .
2
2
Weiter ist sin x > 0 für alle x ∈ ]0, 2] sowie
π sin
= 1.
2
Beweis. Für alle x ∈ R besitzt der Cosinus die Potenzreihenentwicklung
cos x =
∞
X
(−1)n x2n
n=0
(2n)!
=1−
x2 x4
+
− +....
2!
4!
Diese Reihe ist für jedes x ∈ R alternierend. Für 0 < x ≤ 2 bildet ferner
monoton fallende Nullfolge: Für an :=
0<
x2n
(2n)!
x2n
(2n)!
eine
n≥1
gilt nämlich
an+1
x2n+2
x2n
x2
4
1
=
:
=
≤
=
an
(2n + 2)! (2n)!
(2n + 1)(2n + 2)
12
3
für n ≥ 1 und 0 < x ≤ 2.
(Für n = 0 ist dies hingegen nicht richtig!) Nach dem Leibniz-Kriterium (Satz 7.13) kann
man daher
∞
X
x2n
cos x − 1 =
(−1)n ·
(2n)!
n=1
durch die Partialsummen dieser Reihe nach oben bzw. unten abschätzen und erhält
cos x − 1 ≤ −
x2 x4
+
2
24
Insbesondere ist
für alle x ∈ ]0, 2].
16
1
= − < 0 < 1 = cos 0.
24
3
Nach dem Zwischenwertsatz (Satz 10.9) besitzt der Cosinus im Intervall [0, 2] also mindestens
eine Nullstelle. Wegen der Stetigkeit des Cosinus ist die Menge seiner Nullstellen abgeschlossen (Korollar 10.6). Daher gibt es eine kleinste Nullstelle x0 des Cosinus im (kompakten!)
Intervall [0, 2] (vgl. Proposition 8.12). Wegen cos 0 = 1 > 0 ist x0 6= 0 und (wiederum nach
dem Zwischenwertsatz) cos x > 0 für alle x ∈ [0, x0 [. Setzen wir nun π := 2x0 , so leistet π
offensichtlich das im ersten Teil des Satzes Behauptete.
cos 2 ≤ 1 − 2 +
177
Zu zeigen bleibt noch sin x > 0 für alle x ∈ ]0, 2] und sin π2 = 1. Aus cos π2 = 0 und
cos2 + sin2 = 1 folgt zunächst sin π2 ∈ {+1, −1}. In der Potenzreihenentwicklung
sin x =
∞
X
(−1)n x2n+1
n=0
ist die Folge
x2n+1
(2n+1)!
(2n + 1)!
=x−
x3 x5
+
− +...
3!
5!
für alle x ∈ [0, 2] eine monoton fallende Nullfolge. Wie oben erhält
n≥0
man daher aus dem Leibniz-Kriterium die Abschätzung
x3
x2
sin x ≥ x −
=x· 1−
für alle x ∈ [0, 2].
6
6
Daher ist sin x > 0 für alle x ∈ ]0, 2] und insbesondere sin π2 > 0, denn π2 = x0 liegt ja im
Intervall [0, 2]. Damit und mit sin π2 ∈ {+1, −1} ergibt sich nunmehr auch sin π2 = 1, wie
gewünscht.
Korollar 12.18
tabelle:
Für die Funktionen x 7→ eix , Sinus und Cosinus gilt folgende Werte-
x
π/2
eix
i
cos x
sin x
π
3π/2
2π
−1
−i
1
0
−1
0
1
1
0
−1
0
Beweis. Aufgrund der Formel von Euler-Moivre und der Beziehungen cos π2 = 0 und sin π2 =
1 aus Satz 12.17 gilt zunächst
eiπ/2 = cos
π
π
+ i sin = i.
2
2
Die weiteren Werte für eix ergeben sich dann aus einπ/2 = in für n ∈ N. (Hier fließt also
einmal mehr das Additionstheorem der Exponentialfunktion wesentlich ein!)
Die Werte für Cosinus bzw. Sinus erhält man durch Übergang zum Real- bzw. Imaginärteil
unter Beachtung von cos x = Re eix , sin x = Im eix für x ∈ R.
Die Ergebnisse von Korollar 12.18 kombinieren wir nun abermals mit dem Additionstheorem
der Exponentialfunktion. Dadurch erhalten wir die Periodizität der Exponentialfunktion und
damit auch von Cosinus und Sinus. Zudem können wir die Nullstellen der beiden letzteren
Funktionen angeben.
Definition 12.19 Es sei K = R oder K = C. Man nennt p ∈ K eine Periode der
Funktion f : K −→ K, falls f (z + p) = f (z) für alle z ∈ K gilt. Die Zahl 0 ist offensichtlich
Periode einer jeden Funktion f : K −→ K. Die Funktion f : K −→ K heißt periodisch,
falls sie eine Periode p 6= 0 besitzt.
178
Satz 12.20
(1) Die Funktionen exp, cos und sin sind periodisch. Die sämtlichen Perioden von exp sind
die Zahlen 2kπi mit k ∈ Z, und das sind die sämtlichen Stellen, an denen exp den Wert
1 annimmt. Für reelle x und y gilt
|ex+iy | = ex .
Die sämtlichen Perioden von Cosinus und Sinus sind die Zahlen 2kπ mit k ∈ Z, und
zwar sowohl für cos, sin : R −→ R als auch für cos, sin : C −→ C.
(2) Für alle z ∈ C gilt
π
cos z +
= − sin z,
2
π
sin z +
= cos z,
2
cos(z + π) = − cos z,
sin(z + π) = − sin z.
(3) Der Sinus hat in C genau die (reellen) Nullstellen kπ mit k ∈ Z.
Der Cosinus hat in C genau die (reellen) Nullstellen
π
2
+ kπ mit k ∈ Z.
Beweis.
(1) Wir zeigen zunächst, dass die Zahlen 2kπi bzw. 2kπ mit k ∈ Z Perioden der Exponentialfunktion bzw. des Sinus und Cosinus sind, und weisen hierauf nach, dass dies
sämtliche Perioden sind.
(a) Aus dem Additionstheorem der Exponentialfunktion und aus der in Korollar 12.18
bewiesenen Beziehung e2πi = 1 folgt
exp(z + 2πi) = ez · e2πi = exp(z)
für alle z ∈ C.
Daher ist 2πi eine Periode der Exponentialfunktion. Offensichtlich ist dann auch
2kπi für jedes k ∈ Z eine Periode der Exponentialfunktion.
Damit sind die Zahlen 2kπ mit k ∈ Z Perioden von z 7→ eiz und von z 7→ e−iz .
Aus den Definitionen von Sinus und Cosinus folgt, dass sie auch Perioden von
Sinus und Cosinus sind.
(b) Wegen exp(z + p) = exp(z) · exp(p) und der Nullstellenfreiheit der Exponentialfunktion ist die Identität exp(z + p) = exp(z) äquivalent mit exp(p) = 1. Daher
ist eine Zahl p ∈ C genau dann eine Periode von exp, wenn exp(p) = 1 ist.
Es sei nun ein p ∈ C mit exp(p) = 1 gegeben. Wir schreiben p = x + iy mit reellen
x und y. Wie am Anfang dieses Abschnitts ausgeführt, gilt |eiy | = 1. Damit und
mit ex > 0 folgt
1 = |ep | = ex+iy = |ex | · |eiy | = ex .
Aufgrund der strengen Monotonie der reellen Exponentialfunktion (Korollar 12.1)
hat dies x = 0 zur Folge. Es ist also p = iy mit y ∈ R. Wir zerlegen y in der Form
y = 2kπ + t mit k ∈ Z und −π < t ≤ π. Wegen eiy = 1 und e2kπi = 1 folgt dann
179
auch eit = 1. Für z := eit/2 folgt z 2 = 1, also z ∈ {1, −1}, sowie z = z −1 = e−it/2 .
Mit der Definition des Sinus folgt
t
1 it/2
1
sin
=
e − e−it/2 =
· (z − z) = 0
2
2i
2i
und damit auch sin − 2t = 0. Also ist | 12 t| eine Nullstelle des Sinus mit
0 ≤ | 12 t| ≤ π2 ≤ 2. In Satz 12.17 wurde gezeigt, dass der Sinus im Intervall
]0, 2] keine Nullstelle besitzt. Also folgt t = 0 und y = 2kπ, d.h. p = 2kπi. Die
ganzzahligen Vielfachen von 2πi sind also die einzigen Stellen, an denen die Exponentialfunktion den Wert 1 annimmt, und damit deren einzige Perioden. Damit
sind die die Exponentialfunktion betreffenden Aussagen in (1) komplett bewiesen.
Es sei p ∈ C eine Periode von cos; wir schreiben sie in der Form p = 2πv mit
v ∈ C. Für alle z ∈ C gilt dann
eiz e2πiv + e−iz e−2πiv = 2 cos(z + 2πv) = 2 cos(z) = eiz + e−iz ,
also
e2iz · e2πiv − 1 = 1 − e−2πiv = e−2πiv · e2πiv − 1 ,
also
e2πiv − 1 · e2iz − e−2πiv = 0.
Weil die Exponentialfunktion nicht konstant ist, folgt hieraus e2πiv = 1 und somit nach dem bereits Bewiesenen v ∈ Z. Diese Betrachtung bleibt sinngemäß
gültig, wenn man den Cosinus als Funktion cos : R −→ R betrachtet und voraussetzt, dass p ∈ R eine Periode dieser Funktion ist. Sowohl der reelle als auch der
komplexe Cosinus haben also nur die Perioden 2kπ mit k ∈ Z.
Genauso schließt man für den Sinus. Damit ist (1) vollständig bewiesen.
(2) Mit den Additionstheoremen und den aus Korollar 12.18 bekannten Werten des Sinus
und Cosinus an den Stellen π2 und π folgt für alle z ∈ C
π
π
π
= cos z · cos − sin z · sin = − sin z,
cos z +
2
2
2
π
π
π
sin z +
= sin z · cos + cos z · sin = cos z,
2
2
2
sin(z + π) = sin z · cos(π) + cos z · sin(π) = − sin z,
cos(z + π) = cos z · cos(π) − sin z · sin(π) = − cos z.
Dies zeigt (2).
(3) Für alle z ∈ C gelten aufgrund der Definition des Sinus und aufgrund von (1) die
Äquivalenzen
sin z = 0 ⇐⇒ eiz = e−iz ⇐⇒ e2iz = 1
⇐⇒ 2iz = 2kπi für ein k ∈ Z ⇐⇒ z = kπ für ein k ∈ Z.
Dies zeigt die Behauptung über die Nullstellen des Sinus.
Da gemäß (2) cos z + π2 = − sin z gilt, entstehen die Nullstellen des Cosinus aus
denen des Sinus durch eine Verschiebung um π2 . Damit folgt auch die Behauptung
über die Nullstellen des Cosinus.
180
Bemerkung 12.21
(1) Die Sätze 12.17 bis 12.20 in Verbindung mit dem trigonometrischen Pythagoras“
”
ermöglichen eine Vorstellung vom Verlauf des Cosinus und des Sinus auf der reellen
Achse (vgl. Abbildung42 24).
Aus sin2 x + cos2 x = 1 folgt nämlich zunächst −1 ≤ sin x ≤ 1 und −1 ≤ cos x ≤ 1 für
alle x ∈ R. Wegen cos(π/2) = sin(0) = 0 und cos(0) = sin(π/2) = 1 ergibt sich dann
aus dem Zwischenwertsatz, dass
cos : [0, π/2] −→ [0, 1]
und
sin : [0, π/2] −→ [0, 1]
surjektive Funktionen sind. Ihr Verlauf auf der übrigen reellen Achse ist dann durch
die Beziehungen in Satz 12.20 (2) festgelegt.
y 6
1
sin
cos
-
2π
x
Abbildung 24: Der reelle Sinus und Cosinus
(2) Abbildung 25 zeigt die Partialsummen
n
X
(−1)k
sn (x) =
x2k+1
(2k
+
1)!
k=0
der Sinusreihe für n = 6 und n = 12 im Intervall [−12, 12]. Wir beobachten eine
gute Übereinstimmung zwischen sn (x) und sin x in einem Intervall um den Nullpunkt,
dessen Länge mit n anwächst. Hier begegnet uns zum ersten Mal der Gedanke, eine
durch eine Potenzreihe definierte Funktion durch die Partialsummen dieser Potenzreihe
zu approximieren. Mit diesem Konzept der sog. Taylor-Approximation werden wir uns
in Kapitel 20 ausführlich beschäftigen.
Wir können jetzt auch zeigen, dass x 7→ eix eine surjektive Abbildung von R auf die Einheitskreislinie ist.
42
Tatsächlich reichen die bisher bewiesenen Resultate über den Sinus und Cosinus noch nicht ganz aus, um
den genauen Verlauf der Graphen in Abbildung 24 zu begründen. Strenggenommen wissen wir bisher z.B.
noch nichts über das Monotonieverhalten auf geeigneten Teilintervallen, und auch die waagrechten Tangenten
an den Graphen in den Maximal- und Minimalstellen sind nicht selbstverständlich. Hier greifen wir bereits
Erkenntnissen vor, die wir später im Rahmen der Differentialrechnung gewinnen werden.
181
s6
s12
s12
s6
Abbildung 25: Partialsummen der Sinusreihe
Korollar 12.22
(a) Für jede reelle Zahl a wird das Intervall [a, a + 2π[ durch x 7→ eix bijektiv und stetig
auf die Einheitskreislinie in C abgebildet.
(b) Für jede reelle Zahl a wird der horizontale Streifen {z ∈ C | a ≤ Im(z) < a + 2π}
durch z 7→ ez bijektiv und stetig auf die punktierte Ebene C \ {0} abgebildet.
Beweis.
(a) Wir betrachten die Funktion Φ : x 7→ eix auf dem Intervall I = [0, 2π[ .
Sie ist injektiv: Ist nämlich Φ(x) = Φ(y) für gewisse x, y ∈ I, so folgt ei(x−y) = 1, also
x − y = 2kπ für ein k ∈ Z (Satz 12.20 (1)). Da x und y jedoch beide in I = [0, 2π[
liegen, muss k = 0, also x = y sein. Dies beweist die Injektivität von Φ auf I. (Auf
größeren Intervallen, z.B. auf R, ist Φ selbstverständlich nicht mehr injektiv.)
Deswegen und weil die Funktionen
cos : [0, π/2] −→ [0, 1]
und
sin : [0, π/2] −→ [0, 1]
surjektiv sind (Bemerkung 12.21 (1)), bildet Φ das Intervall [0, π/2] bijektiv auf den
Viertelkreis E1 := {z ∈ C : |z| = 1, Re (z) ≥ 0, Im(z) ≥ 0} (d.h. auf das im
abgeschlossenen ersten Quadranten der komplexen Ebene liegende Stück der Einheitskreislinie) ab. Wegen eiπ/2 = i gilt
π
= iΦ(x).
Φ x+
2
Daher wird das Intervall [π/2, π] durch Φ bijektiv auf den Viertelkreis E2 := {z ∈
C : |z| = 1, Re (z) ≤ 0, Im(z) ≥ 0} abgebildet. Entsprechend schließt man für
die Intervalle [π, 3π/2] und [3π/2, π]. Insgesamt bildet Φ das Intervall I bijektiv auf
die Einheitskreislinie {z ∈ C : |z| = 1} ab. Dasselbe folgt dann auch für verschobene
Intervalle a + I = [a, a + 2π[ mit reellen a. Damit ist (a) bewiesen.
182
(b) Es sei
S := {z ∈ C | a ≤ Im(z) < a + 2π}.
Wegen der Nullstellenfreiheit der Exponentialfunktion ist exp(S) ⊆ C \ {0}.
Zum Nachweis der Surjektivität sei ein w ∈ C \ {0} gegeben. Dann ist r := |w| > 0,
und für ζ := wr gilt |ζ| = 1 und w = rζ. Es gibt ein x ∈ R mit ex = r. Nach (a)
gibt es ferner ein y ∈ [a, a + 2π[ mit eiy = ζ. Für z := x + iy gilt dann z ∈ S und
ez = ex · eiy = rζ = w. Also ist exp : S −→ C \ {0} surjektiv.
Die Injektivität kann man ganz ähnlich begründen wie die Injektivität von Φ in (a):
Es seien z, w ∈ S mit ez = ew gegeben. Dann ist ez−w = 1, also z − w = 2kπi für ein
k ∈ Z. Da z und w beide in dem halboffenen Streifen S der Breite 2π liegen, muss
k = 0, also z = w sein. Also ist exp : S −→ C \ {0} injektiv und damit insgesamt
bijektiv. Hiermit ist auch (b) bewiesen.
Mit Hilfe von Satz 12.20 kann jetzt die Einführung von Polarkoordinaten in der Ebene
begründet werden.
Definition 12.23 Es sei z ∈ C \ {0}, und man setze r := |z|. Dann ist r > 0 und zr = 1.
Nach Korollar 12.22 (a) gibt es also genau eine reelle Zahl ϕ mit
0 ≤ ϕ < 2π
und
z
= eiϕ ,
r
also
z = reiϕ .
Für x := Re (z) und y := Im(z) folgt
x = r · cos(ϕ),
y = r · sin(ϕ)
und
r=
p
x2 + y 2 .
Man nennt (r, ϕ) die Polarkoordinaten der komplexen Zahl z und auch des Punktes
(x, y) ∈ R2 , und man schreibt
ϕ = arg(z)
und nennt ϕ den Hauptwert des Arguments von z.
Die sämtlichen reellen Zahlen t mit z = reit sind nach Satz 12.20 (1) die Zahlen t = ϕ + 2πik
mit beliebigen k ∈ Z. Jede solche Zahl t wird ein Argument von z genannt.
Das Argument einer komplexen Zahl 6= 0 ist also nur bis auf ganzzahlige Vielfache von 2π
eindeutig bestimmt.
Bemerkung 12.24
(1) Wir können jetzt endlich die in Bemerkung 3.4 erwähnte geometrische Deutung der
Multiplikation komplexer Zahlen begründen: Es sei z = reiϕ wie zuvor und w = %eiψ
mit % > 0 und 0 ≤ ψ < 2π. Dann folgt
zw = r% · ei(ϕ+ψ) .
Wegen 0 ≤ ϕ + ψ < 4π folgt für den Hauptwert des Arguments von zw
arg(zw) = ϕ + ψ
oder
183
arg(zw) = ϕ + ψ − 2π.
Zwei komplexe Zahlen 6= 0 werden demnach multipliziert, indem man ihre (positiven)
Beträge multipliziert und ihre Argumente addiert (wobei man mit den Argumenten
modulo 2π zu rechnen hat, d.h. Argumente, die sich nur um 2π unterscheiden, miteinander zu identifizieren hat). Bei variablem z ist die Multiplikation mit einem festen
w 6= 0 eine Drehstreckung ; die Beträge werden um den Faktor |w| gestreckt, und es
wird mit dem Winkel arg(w) entgegen dem Uhrzeigersinn gedreht.
(2) Wir können jetzt auch die Interpretation des Arguments x in eix als Länge des Kreisbogenstücks (auf dem Einheitskreis) zwischen 1 und eix besser plausibilisieren. (Hierbei
greifen wir allgemeineren Überlegungen in Kapitel 22 vor, in dem wir die Weglänge
offiziell definieren werden.)
zn = eit
•
•
•
sin(t)
•
•
it/n
• z1 = e
0
z0 = 1
cos(t)
Abbildung 26: Geometrische Veranschaulichung von eix
Bei fest gewähltem x ∈ [0, 2π[ betrachten wir Φ(t) := eit auf dem Intervall
I := [0, x].
Wir wählen eine natürliche Zahl n und zerlegen I in n gleich lange Teilintervalle mit
den Endpunkten kx/n, und wir setzen
kx
zk := Φ
= eikx/n
für
k = 0, 1, . . . , n.
n
Alle Punkte zk liegen auf der Einheitskreislinie. Insbesondere ist z0 = Φ(0) = 1 und
zn = Φ(x) = eix . Um zu der angestrebten Interpretation von x als Winkel, d.h. als
Länge eines Kreisbogens zu gelangen, berechnen wir zunächst die Abstände aufeinander
folgender Teilpunkte: Es gilt
|zk+1 − zk | = ei(k+1)x/n − eikx/n = eikx/n · eix/n − 1
= eix/n − 1 = |z1 − z0 |.
184
Der Abstand ist demnach unabhängig von k. Die Summe der Abstände ist daher
Ln :=
n−1
X
|zk+1 − zk | = n · |z1 − z0 |.
k=0
Dies ist die Länge des Polygonzuges durch die Punkte z0 , z1 , . . . , zn . Sie approximiert
bei größer werdendem n immer besser die Länge des Kreisbogens von z0 = 1 bis
zn = eix . Wir wollen daher den Grenzübergang n → ∞ ausführen. Es gilt
ix/n
e
ix/n
−
1
.
L n = n · e
− 1 = |ix| ·
|ix/n|
Aufgrund der Reihendarstellung der Exponentialfunktion gilt für alle z ∈ C \ {0}
∞
∞
ez − 1 X z j−1 X z j
z
z2
=
=
=1+ +
+ ....
z
j!
(j + 1)!
2! 3!
j=1
j=0
z
Dies zeigt, dass die (zunächst nur für z 6= 0 definierte) Funktion z 7→ e z−1 eine Potenzreihenentwicklung um 0 besitzt. Insbesondere ist sie stetig in z = 0 ergänzbar, so dass
der Grenzwert
ez − 1
=1
lim
z→0
z
existiert. Also existiert auch der Grenzwert
ix/n
z
e
e − 1
− 1
= |ix|.
lim Ln = |ix| · lim
= |ix| · lim n→∞
n→∞
z→0
|ix/n|
z Anschaulich ist dieser Grenzwert als Länge des Kreisbogens von 1 bis eix zu interpre
tieren; die Länge ist x, also identisch mit der Länge von I.
Als weitere Folgerung aus der Polarkoordinatendarstellung komplexer Zahlen ergibt sich das
folgende Resultat:
Lemma 12.25 (Einheitswurzeln)
Es sei n ∈ N. Die Gleichung z n − 1 = 0 hat in C
die n verschiedenen Lösungen
2πik
zk = exp
mit k ∈ {0, 1, . . . , n − 1}.
n
Für jede komplexe Zahl a 6= 0 gibt es n verschiedene Lösungen der Gleichung z n = a in C.
Die Lösungen zk der Gleichung z n −1 = 0 bilden die auf der Einheitskreislinie gelegenen Ecken
eines regelmäßigen n-Ecks. Deswegen nennt man z n − 1 = 0 eine Kreisteilungsgleichung,
und die Lösungen zk = exp(2πik/n) heißen n-te Einheitswurzeln.
Beweis. Die Zahlen zk = exp(2πik/n) mit 0 ≤ k ≤ n − 1 erfüllen
zkn = e2πik = 1,
und sie sind nach Korollar 12.22 (a) paarweise verschieden (da x 7→ eix auf [0, 2π[ injektiv
ist). Damit ist die erste Behauptung bewiesen. Es sei a ∈ C und a 6= 0. In Polarkoordinaten
ist a = reiϕ mit r > 0 und 0 ≤ ϕ < 2π. Die Zahlen
√
√
n
r · eiϕ/n · zk = n r · ei(2kπ+ϕ)/n
ergeben dann n verschiedene Lösungen der Gleichung z n = a.
185
e2πi/7
1
Abbildung 27: 7-teEinheitswurzeln
12.6
Der Fundamentalsatz der Algebra∗
In Kapitel 3 wurden die komplexen Zahlen durch die Erfindung“ einer Nullstelle des Poly”
noms X 2 + 1 konstruiert. Man kann jetzt zeigen, dass damit sehr viel mehr erreicht wurde:
Jedes nicht-konstante komplexe Polynom besitzt eine komplexe Nullstelle.
Die speziellen Polynome X n − 1 mit beliebigen natürlichen Zahlen n hatten wir bereits in
Lemma 12.25 behandelt. Wir betrachten nun beliebige nicht-konstante Polynome. Zunächst
zeigen wir, dass der Betrag |f (z)| eines Polynoms
f (z) = an z n + an−1 z n−1 + . . . + a1 z + a0
vom Grad n ≥ 1 und mit führendem Koeffizienten an 6= 0 sowohl nach oben als auch nach
unten im Wesentlichen durch |an | · |z|n abgeschätzt werden kann, wenn |z| genügend groß
ist.
Lemma 12.26 (Wachstum von Polynomen)
Es sei
f (z) = an z n + an−1 z n−1 + . . . + a1 z + a0
ein Polynom vom genauen Grad n ≥ 1 mit Koeffizienten aν ∈ C. Dann gibt es eine Zahl
R > 0, so dass für alle z ∈ C mit |z| ≥ R die Ungleichung
1
· |an | · |z|n ≤ |f (z)| ≤ 2|an | · |z|n
2
besteht.
Beweis. Da f genauen Grad n hat, ist an 6= 0. Es ist
f (z) = an z n · (1 + Q(z))
mit
186
Q(z) :=
n−1
1 X
ak z k .
n
an z k=0
Es sei
n−1
R := 1 +
2 X
|ak | .
|an | k=0
Dann gilt für alle z ∈ C mit |z| ≥ R
n−1
n−1
n−1
X
1
1 X |ak |
1 X |ak |
1
·
|Q(z)| ≤
≤
≤
|ak | < ;
n−k
n−k
|an | k=0 |z|
|an | k=0 R
|an | · R k=0
2
hierbei haben wir in der vorletzten Abschätzung R ≥ 1 ausgenutzt. Somit ergibt sich für
alle z ∈ C mit |z| ≥ R
1
· |an | · |z|n ≤ |an z n | · (1 − |Q(z)|) ≤ |f (z)| ≤ |an z n | · (1 + |Q(z)|) ≤ 2|an | · |z|n .
2
Den ersten vollständigen Beweis des Fundamentalsatzes der Algebra gab Gauß in seiner
Dissertation 1799. Wir folgen einem Beweis von Argand (1768 – 1822) aus dem Jahr 1814.
Satz 12.27 (Fundamentalsatz der Algebra, Nullstellensatz für Polynome)
Jedes Polynom mit Koeffizienten in C und mit einem Grad ≥ 1 hat wenigstens eine Nullstelle
in C.
Beweis. Es sei ein Polynom
f (z) = an z n + an−1 z n−1 + . . . + a1 z + a0
mit Koeffizienten aν ∈ C und mit n = grad (f ) ≥ 1 gegeben. Für n = 1 ist die Behauptung
klar, und daher dürfen wir n ≥ 2 annehmen.
Nach Lemma 12.26 gibt es ein R > 0 mit
|f (z)| ≥
1
· |an | · |z|n
2
für alle z ∈ C mit |z| ≥ R.
O.B.d.A. dürfen wir hierbei R so groß wählen, dass |an |·Rn > 2|f (0)| ist. Auf der kompakten
Menge K := BR (0) = {z ∈ C : |z| ≤ R} besitzt die stetige Funktion z 7→ |f (z)| nach
Korollar 10.3 ein absolutes Minimum. Es sei z0 eine Stelle, an der das Minimum angenommen
wird. Für alle z ∈ C mit |z| = R gilt dann
|f (z)| ≥
|an |
· Rn > |f (0)| ≥ min |f (ζ)| = |f (z0 )|.
ζ∈BR (0)
2
Deshalb folgt |z0 | < R; der Punkt z0 liegt im Inneren UR (0) von K. Falls z0 eine Nullstelle
von f ist, ist die Behauptung gezeigt.
Wir dürfen also f (z0 ) 6= 0 annehmen. Dann ist
g(w) :=
1
· f (z0 + w).
f (z0 )
ein Polynom vom Grad n mit dem konstanten Koeffizienten g(0) = 1. Wir können dieses
Polynom in der Form
g(w) = 1 + bm wm + bm+1 wm+1 + . . . + bn wn
187
mit
bν ∈ C,
1 ≤ m ≤ n,
bm , bn 6= 0
schreiben. Nach Lemma 12.25 gibt es ein β ∈ C mit β m = −1/bm . Es folgt
g(βw) = 1 − wm + cm+1 wm+1 + . . . + cn wn
mit Koeffizienten cm+1 , . . . , cn ∈ C und cn 6= 0.
Wenn m = n ist, dann ist g(βw) = 1 − wm , und es folgt g(β) = 0, also f (z0 + β) = 0, und
somit hat f eine Nullstelle.
Im Falle m < n schreiben wir
g(βw) = 1 − wm + wm+1 · h(w)
mit einem Polynom h 6= 0, und wir setzen
M := 1 + max{|h(w)| : w ∈ C, |w| ≤ 1},
δ :=
1
.
M
Für alle w ∈ C mit 0 < |w| < δ ist |w| < 1 und daher
|wm+1 · h(w)| ≤ M · |w|m+1 < M · δ · |w|m = |w|m .
Für alle reellen x mit 0 < x < δ folgt
|g(βx)| ≤ |1 − xm | + |xm+1 h(x)| < 1 − xm + xm = 1,
also |g(βx)| < 1 und somit |f (z0 + βx)| < |f (z0 )|. Das ist ein Widerspruch zur Minimalität
von |f (z)| im Punkt z0 ; denn da z0 im Inneren von K liegt, gibt es ein x ∈]0, δ[ mit z0 + βx ∈
K. Damit ist der Satz bewiesen.
Der Widerspruch am Ende des Beweises kam durch eine Beobachtung zu Stande, die man
auch positiv“ wie folgt aussprechen kann: Ist f ein komplexes Polynom, f nicht konstant
”
und f (z0 ) 6= 0, dann gibt es eine komplexe Zahl β mit |f (z0 + βx)| < |f (z0 )| für alle
genügend kleinen positiven reellen Zahlen x. In einer gewissen Richtung von z0 aus nehmen
die Beträge der Werte von f ab. Eine solche Richtung findet man mit Hilfe von Lemma 12.25,
und für dieses Ergebnis benötigen wir alle unsere Kenntnisse über die Exponentialfunktion.
Die Schlussweise bleibt für eine viel größere Klasse von Funktionen gültig. Dies besagt das
Minimumprinzip (Korollar 26.8).
Eine Konsequenz aus Satz 12.27 ist die Zerlegbarkeit komplexer Polynome in Linearfaktoren.
Zur Begründung benötigen wir ein Hilfsmittel aus der Algebra, die Division mit Rest für
Polynome.
Lemma 12.28 (Divisionsalgorithmus)
Es seien f und g Polynome mit Koeffizienten
aus einem Körper K, und g sei nicht das Nullpolynom. Dann gibt es Polynome q und r mit
Koeffizienten in K und mit
f = qg + r,
grad (r) < grad (g).
Beweisskizze. Im Falle grad (f ) < grad (g) gilt die Behauptung mit q = 0, r = f . Es sei
grad (f ) = m ≥ n = grad (g) und f (x) = am xm + . . . + a1 x + a0 , g(x) = cn xn + . . . + c1 x + c0
mit Koeffizienten aµ , cν ∈ K und am 6= 0, cn 6= 0. Dann setzen wir
q1 (x) := (am /cn )xm−n
und
f1 (x) := f (x) − q1 (x)g(x).
Es folgt grad (f1 ) < grad (f ). Wir setzen das Verfahren mit f1 anstelle von f fort. Nach
endlich vielen Schritten erhalten wir die Behauptung, worin q1 (x) der Term in q(x) mit der
höchsten Potenz in x ist.
188
In Lemma 12.28 nennen wir q(x) den Quotienten und r(x) den Rest bei der Division von
f (x) durch g(x).
Wir betrachten nun in Lemma 12.28 den speziellen Fall, dass g(x) = x − x0 mit x0 ∈ K ist
und f (x0 ) = 0 gilt. Man erhält dann f = qg + r mit grad (r) < 1. Also ist r(x) ein konstantes
Polynom. Setzt man in
f (x) = q(x) · (x − x0 ) + r(x)
x = x0 ein, so erkennt man, dass r die Konstante 0 ist. Die Division von f durch g geht
also ohne Rest auf. Jetzt sei f ein Polynom mit Koeffizienten im Körper C, und f sei nicht
konstant. Nach Satz 12.27 besitzt f eine Nullstelle z1 ∈ C. Also können wir von f (z) den
Faktor z − z1 abspalten. Auf den Quotienten können wir die gleiche Überlegung anwenden.
Nach endlich vielen Schritten erhalten wir das folgende Ergebnis.
Korollar 12.29
Es sei f ein Polynom mit Koeffizienten aus C und mit n = grad (f ) ≥ 1.
Dann besteht eine Zerlegung
f (z) = an · (z − z1 )(z − z2 ) · . . . · (z − zn )
mit an ∈ C, an 6= 0 und mit (nicht notwendigerweise verschiedenen) z1 , z2 , . . . , zn ∈ C.
Eine andere Konsequenz aus Lemma 12.28 ist, dass ein Polynom vom Grad n ≥ 1 mit
Koeffizienten in einem Körper K höchstens n Nullstellen in K haben kann. Über einem
Körper mit unendlich vielen Elementen wie etwa Q, R oder C ist daher eine Polynomfunktion
f nur dann konstant 0, wenn alle Koeffizienten 0 sind, wenn also f das Nullpolynom ist.
Durch die Polynomfunktion sind dann die Koeffizienten und insbesondere der Grad eindeutig
bestimmt. (Diese Aussagen sind über endlichen Körpern nicht mehr richtig. Dort muss man
daher zwischen Polynomen und Polynomfunktionen unterscheiden.)
Für reelle Polynome erhalten wir die folgende Zerlegung:
Korollar 12.30
Es sei f (x) = xn +an−1 xn−1 +. . .+a1 x+a0 ein Polynom mit Koeffizienten
aν ∈ R und mit n = grad (f ) ≥ 1. Dann besteht eine Zerlegung
f (x) = (x − x1 ) · . . . · (x − xm ) · g1 (x) · . . . · gr (x)
mit reellen Zahlen x1 , . . . , xm , worin m ≥ 0, r ≥ 0, m + 2r = n ist und g1 , . . . , gr reelle
Polynome vom Grad 2 ohne reelle Nullstellen sind.
Beweis. Nach Korollar 12.29 gilt f (x) = (x − x1 ) · . . . · (x − xn ) mit x1 , . . . , xn ∈ C. Es sei
m ≥ 0 die Anzahl der ν mit xν ∈ R. Wir dürfen x1 , . . . , xm ∈ R und xν 6∈ R für ν > m
annehmen. Weil f reelle Koeffizienten hat, folgt aus f (xν ) = 0 auch f (xν ) = f (xν ) = 0. Die
nicht-reellen Nullstellen treten also in Paaren konjugiert komplexer Zahlen auf. Das Produkt
zweier solcher Linearfaktoren ist
(x − xν )(x − xν ) = x2 − (xν + xν )x + xν xν .
Wegen xν + xν = 2 Re (xν ) ∈ R und xν xν = |xν |2 ∈ R ist das ein reelles Polynom vom Grad
2 ohne reelle Nullstellen. Hieraus folgt die Behauptung.
189
13
Vertiefte topologische Betrachtungen
Zum Abschluss von Teil II. der Vorlesung setzen wir unsere topologischen Betrachtungen
aus Kapitel 8 fort und stellen damit wichtige Hilfsmittel für spätere Überlegungen bereit.
Wir führen neue topologische Begriffe wie Abschluss, Rand und Inneres einer Menge ein
und geben eine neue Charakterisierung von Kompaktheit mithilfe der sog. Heine-Borelschen
Überdeckungseigenschaft. Ferner lernen wir die Konzepte der gleichmäßigen Stetigkeit und
der Dehnungsbeschränktheit kennen und beweisen den Banachschen Fixpunktsatz.
Trost und Ermutigung: Dieses Kapitel ist aufgrund des relativ hohen Abstraktionsgrades das vermutlich anspruchvollste der gesamten Vorlesung. Die folgenden Kapiteln werden
wieder deutlich anschaulicher.
13.1
Bild und Urbild von Funktionen
Wir werden im Folgenden immer wieder einige allgemeine Regeln für das Urbild und das
Bild von Mengen unter Funktionen benötigen. Diese Regeln haben nichts mit analytischen
Eigenschaften der Funktionen wie Stetigkeit oder Differenzierbarkeit zu tun, sondern gelten
in viel allgemeinerem Rahmen.
Die Überlegungen dieses Abschnitts hätte man auch an den Beginn der Analysis I stellen
(oder im Vorkurs behandeln) können. Wir bringen sie bewusst so spät, in der Hoffnung, dass
sie nunmehr – zu Beginn des zweiten (oder vierten) Semesters – besser verständlich sind als
es bei Studienanfängern erfahrungsgemäß meist der Fall ist.
Wir beginnen mit der Wiederholung einiger bekannter (wenn auch evtl. noch nicht vertrauter) Definitionen.
Definition 13.1
Es seien X und Y nichtleere Mengen und f : X −→ Y eine Funktion.
(1) Für eine beliebige Teilmenge A ⊆ X nennt man die Menge
f (A) := {y ∈ Y | ∃x∈A y = f (x)} = {f (x) | x ∈ A} ⊆ Y
das Bild von A unter f .
Für eine beliebige Teilmenge B ⊆ Y nennt man
f −1 (B) := {x ∈ X | f (x) ∈ B} ⊆ X
das Urbild von B unter f . Dieses Urbild besteht also aus allen denjenigen x ∈ X, die
von f in die Menge B hinein abgebildet werden.
(2) Die Funktion f heißt surjektiv, falls f (X) = Y gilt, falls es also zu jedem y ∈ Y ein
x ∈ X gibt, wofür f (x) = y gilt. In Quantorenschreibweise:
∀y∈Y ∃x∈X f (x) = y.
In diesem Fall nennt man f auch eine Abbildung von X auf Y (englisch: onto).
Man nennt f injektiv oder eineindeutig (englisch: one-to-one), falls aus x1 , x2 ∈ X
und f (x1 ) = f (x2 ) stets x1 = x2 folgt. In Quantorenschreibweise:
∀x1 ,x2 ∈X (f (x1 ) = f (x2 ) =⇒ x1 = x2 ) .
Falls f surjektiv und injektiv ist, nennt man f bijektiv.
190
Bemerkung 13.2
(1) Warnung: In der Notation f −1 (B) für das Urbild taucht dasselbe Symbol f −1 auf,
mit dem man auch die Umkehrfunktion bezeichnet. Das Urbild f −1 (B) ist aber auch
dann erklärt, wenn f gar keine Umkehrfunktion besitzt. (Um hier Verwechslungen zu
vermeiden, schreibt man oft auch f − (B) für das Urbild.)
Auch wird in der Definition von f −1 (B) keineswegs B ⊆ f (X) vorausgesetzt. Im Falle
B ∩ f (X) = ∅ beispielsweise ist f −1 (B) = ∅.
(2) Für eine surjektive Funktion f : X −→ Y ist also die Zielmenge (der Wertevorrat)
Y identisch mit der Wertemenge f (X). Die Zielmenge einer Funktion ist oft43 von
untergeordneter Bedeutung: Man kann prinzipiell die Zielmenge so einschränken, dass
die Funktion surjektiv wird, indem man nämlich f : X −→ Y als eine Funktion
f : X −→ f (X) auffasst.

 surjektiv
injektiv ist, bedeutet, dass für jedes y ∈ Y die Gleichung
(3) Dass f : X −→ Y

bijektiv

 mindestens
höchstens eine Lösung x ∈ X hat.
f (x) = y

genau
Im Fall der durchweg eindeutigen Lösbarkeit kann man die Richtung der Zuordnung
x 7→ f (x) umkehren:
Definition 13.3 Es sei f : X −→ Y eine injektive Funktion. Dann ist f : X −→ f (X)
bijektiv. Man setzt
f −1 (y) := x,
falls
y ∈ f (X)
und
f (x) = y
gilt. Einem Wert y ∈ f (X) der Funktion f wird also der eindeutig bestimmte Punkt x
zugeordnet, in dem dieser Wert angenommen wird. Hierdurch ist eine Funktion
f −1 : f (X) −→ X
wohldefiniert. Man nennt f −1 die Umkehrfunktion oder die Umkehrabbildung von f
oder die zu f inverse Funktion. Es gilt
f −1 ◦ f = idX ,
f ◦ f −1 = idf (X) .
Im Falle X, Y ⊆ R und bei der üblichen Veranschaulichung des Graphen erhält man den Graphen der Umkehrfunktion f −1 , indem man den Graphen von f an der Winkelhalbierenden
des ersten und dritten Quadranten spiegelt (Abbbildung 28).
Lemma 13.4 Es seien X, Y, Z nichtleere Mengen und f : X −→ Y , g : Y −→ Z Abbildungen. Dann gilt:
43
Diese Feststellung gilt z.B. nicht in der Linearen Algebra.
191
f
f (A)
f −1
A
A
f (A)
Abbildung 28: Eine injektive Funktion und ihre Umkehrung
(a) Sind f und g injektiv, so ist auch g ◦ f injektiv.
Sind f und g surjektiv, so ist auch g ◦ f surjektiv.
Sind f und g bijektiv, so ist auch g ◦ f bijektiv.
(b) Ist g ◦ f : X −→ Z surjektiv, so ist g surjektiv.
(c) Ist g ◦ f : X −→ Z injektiv, so ist f injektiv.
Beweis.
(a) Die Resultate in (a) sind aus dem Vorkurs bekannt.
(b) Zum Nachweis der Surjektivität von g sei ein z ∈ Z gegeben. Da g ◦ f surjektiv
ist, gibt es ein x ∈ X mit z = (g ◦ f )(x). Setzt man y := f (x), so ist y ∈ Y und
g(y) = g(f (x)) = (g ◦ f )(x) = z. Dies zeigt die Surjektivität von g.
(c) Zum Nachweis der Injektivität von f seien x1 , x2 ∈ X mit f (x1 ) = f (x2 ) gegeben.
Dann ist auch (g ◦ f )(x1 ) = g(f (x1 )) = g(f (x2 )) = (g ◦ f )(x2 ). Da g ◦ f injektiv ist,
folgt x1 = x2 . Dies zeigt die Injektivität von g.
Wir wenden uns nun der Frage zu, wie sich Urbilder und Bilder unter den mengentheoretischen Operationen Vereinigung“ und Durchschnittsbildung“ verhalten: Ist der Durch”
”
schnitt der Bilder/Urbilder gewisser Mengen dasselbe wie das Bild bzw. Urbild des Durchschnittes dieser Mengen usw.? Um Durchschnitte bzw. Vereinigungen beliebig vieler Mengen
bequem schreiben zu können, ist es nützlich, zunächst den Begriff der Familie einzuführen:
Definition 13.5 Eine Familie von Teilmengen einer Menge X ist eine Abbildung A :
I −→ P(X) zwischen einer nichtleeren Menge I (der Indexmenge) und der Potenzmenge
P(X) von X. Wir schreiben
Aj := A(j)
für
j∈I
und bezeichnen diese Familie mit (Aj )j∈I .
Man kann Familien als Verallgemeinerungen von Folgen ansehen: Bei diesen ist I = N oder
allgemeiner I abzählbar.
Im Folgenden benutzen wir immer wieder stillschweigend, dass sich Mengeninklusionen auf
Bild und Urbild übertragen. Diese Beinahe-Selbstverständlichkeit halten wir als Proposition
fest:
192
Es seien X und Y nichtleere Mengen und f : X −→ Y eine Funktion.
Proposition 13.6
Dann gilt:
(a) Sind A1 , A2 Teilmengen von X mit A1 ⊆ A2 , so ist f (A1 ) ⊆ f (A2 ).
(b) Sind B1 , B2 Teilmengen von Y mit B1 ⊆ B2 , so ist f −1 (B1 ) ⊆ f −1 (B2 ).
Beweis.
(a) Es seien A1 , A2 Teilmengen von X mit A1 ⊆ A2 . Es sei ein b ∈ f (A1 ) beliebig vorgegeben. Dann gibt es ein a ∈ A1 mit b = f (a). Wegen A1 ⊆ A2 ist auch a ∈ A2 . Dies
bedeutet b = f (a) ∈ f (A2 ). Damit ist auch f (A1 ) ⊆ f (A2 ) nachgewiesen.
(b) Es seien B1 , B2 Teilmengen von Y mit B1 ⊆ B2 . Es sei ein a ∈ f −1 (B1 ) gegeben. Dann
ist nach Definition des Urbilds f (a) ∈ B1 . Wegen B1 ⊆ B2 ist somit auch f (a) ∈ B2 , so
dass also (wiederum nach Definition) a ∈ f −1 (B2 ) gilt. Damit ist f −1 (B1 ) ⊆ f −1 (B2 )
gezeigt.
Satz 13.7
Es seien X und Y nichtleere Mengen und f : X −→ Y eine Abbildung.
(a) Es sei (Bi )i∈I eine Familie von Teilmengen von Y . Dann gilt:
!
!
\
[
\
[
f −1 (Bi ).
f −1 (Bi )
und
f −1
Bi =
f −1
Bi =
i∈I
i∈I
i∈I
i∈I
(b) Sind B1 und B2 Teilmengen von Y , so gilt f −1 (B1 \ B2 ) = f −1 (B1 ) \ f −1 (B2 ).
Angesichts dieser Resultate kann man die (mathematisch unpräzise) Merkregel aufstellen:
Bei f −1 (Urbild) geht alles gut.“ Dass die Lage beim Bild von Mengen ein wenig kompli”
zierter ist, werden wir im nächsten Satz sehen.
Beweis.
(a) Für alle x ∈ X gilt nach Definition des Urbilds sowie der Vereinigung folgende Äquivalenzkette:
!
[
[
Bi ⇐⇒ ∃i∈I f (x) ∈ Bi
x ∈ f −1
Bi ⇐⇒ f (x) ∈
i∈I
i∈I
⇐⇒ ∃i∈I x ∈ f −1 (Bi ) ⇐⇒ x ∈
[
f −1 (Bi ).
i∈I
Dies zeigt die erste Behauptung. Analog folgt die Gültigkeit der zweiten Behauptung
aus der Äquivalenzkette
!
\
\
x ∈ f −1
Bi ⇐⇒ f (x) ∈
Bi ⇐⇒ ∀i∈I f (x) ∈ Bi
i∈I
i∈I
⇐⇒ ∀i∈I x ∈ f −1 (Bi ) ⇐⇒ x ∈
\
i∈I
193
f −1 (Bi ).
(b) Für alle x ∈ X gilt nach Definition des Urbilds sowie der Mengendifferenz die folgende
Äquivalenzkette:
x ∈ f −1 (B1 \ B2 ) ⇐⇒
⇐⇒
⇐⇒
⇐⇒
f (x) ∈ B1 \ B2
f (x) ∈ B1 und f (x) 6∈ B2
x ∈ f −1 (B1 ) und x 6∈ f −1 (B2 )
x ∈ f −1 (B1 ) \ f −1 (B2 ).
Dies zeigt f −1 (B1 \ B2 ) = f −1 (B1 ) \ f −1 (B2 ), wie behauptet.
Satz 13.8
Es seien X und Y nichtleere Mengen und f : X −→ Y eine Abbildung.
(a) Es sei (Ai )i∈I eine Familie von Teilmengen von X. Dann gilt
!
!
[
[
\
\
(1) f
Ai =
f (Ai )
und
(2) f
Ai ⊆
f (Ai ).
i∈I
i∈I
i∈I
i∈I
(b) Genau dann ist f injektiv, wenn in (a) (2) stets Gleichheit gilt, wenn also
!
\
\
f
Ai =
f (Ai ) für alle Familien (Ai )i∈I von Teilmengen von X ist.
i∈I
i∈I
(c) Sind A1 , A2 Teilmengen von X, so gilt f (A1 ) \ f (A2 ) ⊆ f (A1 \ A2 ).
(d) Genau dann ist f injektiv, wenn in (c) stets Gleichheit gilt, wenn also f (A1 ) \ f (A2 ) =
f (A1 \ A2 ) für alle Teilmengen A1 , A2 ⊆ X gilt.
Beweis.
(a), (c) und (d): Aufgabe 3.1
(b) =⇒ “: Es sei f als injektiv vorausgesetztTund (Ai )i∈I eineTFamilie
von Teilmengen
”
A
von X. Wegen
(a)
(2)
genügt
es,
f
(A
)
⊆
f
i
i∈I i zu zeigen. Es sei
i∈I
T
also ein b ∈ i∈I f (Ai ) gegeben. Zu jedem i ∈ I gibt es dann ein ai ∈ Ai mit
f (ai ) = b. Für alle i, j ∈ I gilt dann f (ai ) = f (aj ), wegen der Injektivität
von f also ai = aj . Es sei i0 ∈ I beliebig (Hier wird I 6= ∅ benötigt!)
und
T
e
a := ai0 , so dass also e
aT= ai für
a ∈ i∈I Ai und
alle i ∈ I gilt. Es folgt e
fT(e
a) = b, also bT ∈ f i∈I Ai . Damit ist die noch ausstehende Inklusion
i∈I f (Ai ) ⊆ f
i∈I Ai nachgewiesen.
⇐=“: Wir setzen voraus, dass in (a) (2) stets Gleichheit gilt, und wollen die Injek”
tivität von f nachweisen.
Hierzu seien a1 , a2 ∈ X mit f (a1 ) = f (a2 ) gegeben. Wenn wir die Voraussetzung auf I := {1; 2}, A1 := {a1 }, A2 := {a2 } anwenden, erhalten wir
f ({a1 } ∩ {a2 }) = f ({a1 }) ∩ f ({a2 }) = {f (a1 )} ∩ {f (a2 )} = {f (a1 )} =
6 ∅.
Damit muss auch {a1 } ∩ {a2 } =
6 ∅ sein, d.h. a1 = a2 . Also ist f injektiv.
194
Satz 13.9
Es seien X und Y nichtleere Mengen und f : X −→ Y eine Abbildung.
(a) Für alle Teilmengen A ⊆ X gilt die Inklusion A ⊆ f −1 (f (A)).
(b) Für alle Teilmengen B ⊆ Y gilt die Inklusion f (f −1 (B)) ⊆ B.
(c) f : X −→ Y ist genau dann injektiv, wenn für alle A ⊆ X gilt: f −1 (f (A)) = A.
(d) f : X −→ Y ist genau dann surjektiv, wenn für alle B ⊆ Y gilt: f (f −1 (B)) = B.
Beweis.
(a) Es sei eine Teilmenge A ⊆ X gegeben. Es sei a ∈ A. Dann ist f (a) ∈ f (A), also per
definitionem a ∈ f −1 (f (A)). Dies zeigt A ⊆ f −1 (f (A)).
(b) Es sei eine Teilmenge B ⊆ Y gegeben.
Es sei b ∈ f (f −1 (B)) beliebig. Dann gibt es ein a ∈ f −1 (B) mit f (a) = b. Wegen
a ∈ f −1 (B) gilt f (a) ∈ B, also b = f (a) ∈ B. Dies zeigt die Inklusion f (f −1 (B)) ⊆ B.
(c)
”
=⇒ “: Es sei f injektiv und A ⊆ X.
Die Inklusion A ⊆ f −1 (f (A)) ist aus (a) bekannt.
Zum Nachweis der umgekehrten Inklusion sei ein x ∈ f −1 (f (A)) gegeben.
Dann ist (nach Definition des Urbilds!) b := f (x) ∈ f (A). Also gibt es ein
a ∈ A mit f (a) = b. (A priori ist hier nicht klar, ob x = a möglich ist, da wir
nicht wissen, ob x ∈ A; dies ist ja gerade nachzuweisen!) Wegen b = f (x) ist
f (a) = f (x), und wegen der Injektivität von f folgt a = x, also x ∈ A. Damit
ist die noch fehlende Inklusion gezeigt.
⇐=“: Es sei nun vorausgesetzt, dass f −1 (f (A)) = A für alle A ⊆ X gilt.
”
Zum Nachweis der Injektivität betrachten wir a1 , a2 ∈ X mit f (a1 ) = f (a2 )
und versuchen, a1 = a2 zu zeigen. Nach Voraussetzung, angewandt auf die
Mengen {a1 } bzw. {a2 }, gilt
f −1 (f ({a1 })) = {a1 }
und
f −1 (f ({a2 })) = {a2 }.
Wegen f (a1 ) = f (a2 ) ist aber f ({a1 }) = f ({a2 }), also
{a1 } = f −1 (f ({a1 })) = f −1 (f ({a2 })) = {a2 },
d.h. a1 = a2 . Somit ist f injektiv.
(d)
”
=⇒ “: Es sei f surjektiv. Es sei eine Teilmenge B ⊆ Y gegeben.
Nach (b) gilt f (f −1 (B)) ⊆ B.
Zum Nachweis der umgekehrten Inklusion sei ein b ∈ B gegeben. Wegen der
Surjektivität von f gibt es ein a ∈ X mit f (a) = b. Dies bedeutet aber a ∈
f −1 (B), also b = f (a) ∈ f (f −1 (B)). Damit folgt B ⊆ f (f −1 (B)), insgesamt
also f (f −1 (B)) = B.
⇐=“: Nun gelte f (f −1 (B)) = B für alle B ⊆ Y .
”
Wir wollen zeigen, dass f surjektiv ist. Hierzu sei ein beliebiges b ∈ Y gegeben.
Nach Voraussetzung, angewandt auf die (einelementige) Menge {b}, gilt {b} =
f (f −1 ({b})). Dies bedeutet aber gerade, dass es ein a ∈ f −1 ({b}) ⊆ X gibt
mit b = f (a). Dies zeigt die Surjektivität von f .
195
13.2
Weitere topologische Begriffe
Wir beginnen mit einer Zusammenstellung von beinahe selbstverständlichen, aber wichtigen
Eigenschaften des Systems der offenen Mengen:
Lemma 13.10
Es sei (X, d) ein metrischer Raum, und T bezeichne die Menge aller
offenen Teilmengen von X. Dann gelten die folgenden Aussagen:
(T1) Es ist ∅ ∈ T und X ∈ T .
(T2) Ist (Uj )j∈I eine Familie von Mengen Uj ∈ T , dann gilt auch
S
j∈I
Uj ∈ T .
(T3) Wenn U ∈ T und V ∈ T ist, dann folgt U ∩ V ∈ T .
Endliche Durchschnitte und beliebige Vereinigungen offener Mengen sind also offen. Außerdem sind die leere Menge und der gesamte Raum offen.
Beweis. Die Offenheit von ∅ und X, d.h. die Gültigkeit von (T1) ist trivial.
S
Es sei (Uj )j∈I eine Familie von Mengen Uj ∈ T und U := j∈I Uj deren Vereinigung. Ist
a ∈ U , dann gibt es ein k ∈ I mit a ∈ Uk und hierzu eine Zahl δ > 0 mit Uδ (a) ⊆ Uk ⊆ U .
Somit ist U offen. Dies zeigt (T2).
Es seien U, V offene Mengen. Es sei ein a ∈ U ∩ V gegeben. Dann gibt es ε1 , ε2 > 0 mit
Uε1 (a) ⊆ U und Uε2 (a) ⊆ V . Für ε := min {ε1 , ε2 } > 0 folgt Uε (a) ⊆ U ∩ V . Also ist U ∩ V
offen und (T3) gezeigt.
Durch Komplementbildung erhält man aus Lemma 13.10 das folgende Resultat über abgeschlossene Mengen.
Korollar 13.11
Es sei (X, d) ein metrischer Raum. Dann gelten die folgenden Aussagen:
(A1) ∅ und X sind abgeschlossen.
(A2) Der Durchschnitt beliebig vieler abgeschlossener Teilmengen von X ist abgeschlossen.
(A3) Die Vereinigung endlich vieler abgeschlossener Teilmengen von X ist abgeschlossen.
Beweis. (A1) ist klar. Zum Beweis
von (A2) sei eine Familie (Ai )i∈I abgeschlossener Mengen
T
Ai ⊆ X gegeben. Es sei A := i∈I Ai deren Durchschnitt. Da alle Komplemente X \ Ai offen
sind, ist auch deren Vereinigung
[
\
(X \ Ai ) = X \ Ai .
i∈I
i∈I
nach Lemma 13.10 offen. Dies bedeutet, dass
gezeigt. Analog argumentiert man bei (A3).
196
T
i∈I
Ai abgeschlossen ist. Damit ist (A2)
Beispiel 13.12
T
(1) Es sei In := − n1 , n1 . Die Intervalle In sind alle offen. Jedoch ist ∞
n=1 In = {0} nicht
offen.
Warnung: Beliebige (unendliche) Schnitte offener Mengen sind i. Allg. nicht offen.
(2) S
Es sei In := −1 + n1 , 1 − n1 . Die Intervalle In sind alle abgeschlossen. Jedoch ist
∞
n=1 In =] − 1, 1[ nicht abgeschlossen.
Warnung: Beliebige (unendliche) Vereinigungen abgeschlossener Mengen sind i. Allg.
nicht abgeschlossen.
Eine Teilmenge eines metrischen Raumes ist i. Allg. weder offen noch abgeschlossen. Man
kann eine solche beliebige Teilmenge jedoch durch Hinzunahme fehlender“ Punkte zu einer
”
abgeschlossenen und durch Wegnahme von Randpunkten zu einer offenen Teilmenge machen.
Dies gibt Anlass zu folgenden Definitionen, die recht abstrakt aussehen, aber zumindest im
R2 und R3 gut zu veranschaulichen sind.
Definition 13.13
ge.
Es sei (X, d) ein metrischer Raum und M ⊆ X eine beliebige Teilmen-
Ein Punkt x ∈ M heißt ein innerer Punkt von M , wenn es ein (von x abhängiges) ε > 0
gibt, so dass Uε (x) ⊆ M ist. Die Menge
M ◦ := {x ∈ X | ∃ε>0 Uε (x) ⊆ M }
der inneren Punkte von M nennt man das Innere (oder den offenen Kern) von M .
Weiter nennt man
M := {x ∈ X | ∀ε>0 Uε (x) ∩ M 6= ∅}
die abgeschlossene Hülle oder kurz den Abschluss von M in X und
∂M := {x ∈ X | ∀ε>0 (Uε (x) ∩ M 6= ∅) ∧ (Uε (x) ∩ (X \ M ) 6= ∅)}
den Rand von M . Schließlich bezeichnet man mit
M 0 := {x ∈ X | ∀ε>0 (Uε (x) \ {x}) ∩ M 6= ∅}
die Menge der Häufungspunkte von M .
Die in der Definition von M 0 verwendete Charakterisierung von Häufungspunkten ist aus
Definition 8.2 (a) bekannt. Die Definition von ∂M bedeutet anschaulich: Ein Punkt x ist
genau dann ein Randpunkt von M , wenn sich in jeder beliebig kleinen Umgebung von x
sowohl Punkte aus M selbst als auch aus dem Komplement X \ M finden.
Der folgende Satz stellt einige wichtige Eigenschaften der neuen Objekte zusammen.
197
Satz 13.14
Es sei (X, d) ein metrischer Raum und M ⊆ X eine beliebige Teilmenge.
(a) Es gilt
(1)
M◦ ⊆ M ⊆ M,
(2)
M0 ⊆ M,
(3)
∂M = M \ M ◦ ,
(4)
∂M = ∂(X \ M ),
(5)
X \ M = (X \ M )◦ ,
(6)
M = M ∪ ∂M = M ◦ ∪ ∂M = M ∪ M 0 .
X \ M◦ = X \ M,
(b) Die Menge M ◦ ist offen; die Mengen M , ∂M und M 0 sind abgeschlossen.
(c) Ist M ⊆ N ⊆ X, so gilt M ⊆ N , M 0 ⊆ N 0 und M ◦ ⊆ N ◦ .
Beweis.
(a) (1) Es sei ein x ∈ M ◦ gegeben. Dann gibt es ein ε > 0 mit Uε (x) ⊆ M . Wegen
x ∈ Uε (x) ist dann auch x ∈ M . Dies zeigt M ◦ ⊆ M .
Es sei ein x ∈ M gegeben. Es sei ε > 0. Dann ist x ∈ Uε (x) ∩ M und somit
Uε (x) ∩ M 6= ∅. Da dies für alle ε > 0 gilt, ist x ∈ M . Hiermit ist auch die
Inklusion M ⊆ M gezeigt.
(2) Es sei ein x ∈ M 0 gegeben. Dann gilt nach Definition (Uε (x) \ {x}) ∩ M 6= ∅ für
alle ε > 0. Insbesondere ist dann auch Uε (x) ∩ M 6= ∅ für alle ε > 0, also x ∈ M .
Somit gilt M 0 ⊆ M .
(3) Es gilt die Äquivalenz
Uε (x) ⊆ M
⇐⇒
Uε (x) ∩ (X \ M ) = ∅
und somit auch
¬∃ε>0 Uε (x) ⊆ M
⇐⇒
∀ε>0 ¬(Uε (x) ⊆ M )
⇐⇒
∀ε>0 Uε (x)∩(X\M ) 6= ∅.
Daher ist
∂M =
=
=
=
{x ∈ X
{x ∈ X
{x ∈ X
{x ∈ X
| ∀ε>0 (Uε (x) ∩ M 6= ∅) ∧ (Uε (x) ∩ (X \ M ) 6= ∅)}
| (∀ε>0 Uε (x) ∩ M 6= ∅) ∧ (∀ε>0 Uε (x) ∩ (X \ M ) 6= ∅)}
| (∀ε>0 Uε (x) ∩ M 6= ∅) ∧ (¬∃ε>0 Uε (x) ⊆ M )}
| ∀ε>0 Uε (x) ∩ M 6= ∅} \ {x ∈ X | ∃ε>0 Uε (x) ⊆ M } = M \ M ◦ .
(4) Die Gleichheit ∂M = ∂(X \ M ) ist klar, da die Definition von ∂M symmetrisch
ist bezüglich Vertauschung von M und X \ M .
(5) Es ist
X \M =
=
=
=
X \ {x ∈ X | ∀ε>0 Uε (x) ∩ M 6= ∅}
{x ∈ X | ¬∀ε>0 Uε (x) ∩ M 6= ∅}
{x ∈ X | ∃ε>0 Uε (x) ∩ M = ∅}
{x ∈ X | ∃ε>0 Uε (x) ⊆ X \ M } = (X \ M )◦ .
198
Hieraus folgt außerdem M = X \ (X \ M )◦ . Ersetzt man hierin M durch X \ M ,
so ergibt sich auch
X \ M = X \ M ◦.
(6) Aufgabe 4.1
(b) Die Offenheit von M ◦ und die Abgeschlossenheit von M und ∂M wird in Aufgabe 4.1
gezeigt.
Zum Nachweis der Abgeschlossenheit von M 0 ziehen wir Satz 8.6 heran, wonach eine
Menge genau dann abgeschlossen ist, wenn sie alle ihre Häufungspunkte enthält.
Es sei a ein Häufungspunkt von M 0 (!). Wir wollen zeigen, dass a ∈ M 0 ist, d.h. dass a
ein Häufungspunkt auch von M ist. Wir müssen also zeigen, dass in jeder punktierten
ε-Umgebung von a ein Element von M liegt.
Hierzu sei ein ε > 0 gegeben. Da a Häufungspunkt von M 0 ist, gibt es einen Punkt
x ∈ M 0 ∩ Uε/2 (a) mitx 6= a. (Es gibt sogar unendlich viele solche Punkte.) Es sei
δ := min d(x, a); 21 · ε . Dann ist δ > 0, da ja d(x, a) > 0. Wegen x ∈ M 0 gibt es ein
y ∈ M ∩ Uδ (x) mit y 6= x. Es ist dann
d(y, a) ≤ d(y, x) + d(x, a) < δ +
ε
≤ ε,
2
also y ∈ Uε (a). Wäre y = a, so wäre d(x, a) = d(x, y) < δ, im Widerspruch zur
Definition von δ. Also ist y 6= a. Damit haben wir einen Punkt y ∈ M ∩ Uε (a) mit
y 6= a gefunden. Dies ist für alle ε > 0 möglich. Also ist a ein Häufungspunkt von M ,
d.h. a ∈ M 0 .
Mithin enthält die Menge M 0 alle ihre Häufungspunkte und ist somit gemäß Satz 8.6
abgeschlossen.
(c) (1) Es sei ein x ∈ M gegeben. Es sei ε > 0. Dann gilt nach Definition Uε (x) ∩ M =
6 ∅.
Wegen M ⊆ N ist dann erst recht Uε (x) ∩ N 6= ∅. Dies gilt für alle ε > 0, so dass
wir auf x ∈ N schließen können. Also gilt M ⊆ N .
(2) Die Inklusion M 0 ⊆ N 0 folgt analog; man hat in der obigen Begründung nur Uε (x)
durch die punktierte Umgebung Uε (x) \ {x} zu ersetzen.
(3) Es sei ein x ∈ M ◦ gegeben. Dann gibt es ein ε > 0 mit Uε (x) ⊆ M . Wegen M ⊆ N
ist dann auch Uε (x) ⊆ N , nach Definition also x ∈ N ◦ .
Korollar 13.15
Es sei (X, d) ein metrischer Raum und M ⊆ X eine Teilmenge von X.
(a) Es gilt
M = {x ∈ X | Es gibt eine Folge (xn )n in M mit lim xn = x.}
n→∞
\
=
{A ⊆ X | A abgeschlossen mit M ⊆ A} .
Der Abschluss von M ist also die Menge aller Grenzwerte von Folgen in M und auch
die kleinste abgeschlossene Menge, die M enthält. Ebenso ist
[
M◦ =
{U ⊆ X | U offen mit U ⊆ M } .
Das Innere von M ist also die größte offene Menge, die in M enthalten ist.
199
(b) Die Menge M ist genau dann abgeschlossen, wenn sie gleich ihrer abgeschlossenen Hülle
ist, wenn also M = M gilt.
Die Menge M ist genau dann offen, wenn sie gleich ihrem Inneren ist, wenn also
M ◦ = M gilt.
Hierbei ist die Aussage, dass M die kleinste abgeschlossene Menge ist, die M enthält, wie
folgt zu verstehen: Ist A eine beliebige abgeschlossene Menge, die M enthält, so kann man
auf A ⊇ M schließen.
Beweis.
(a) (1) Es sei
G := {x ∈ X | Es gibt eine Folge (xn )n in M mit lim xn = x.}.
n→∞
Wir zeigen, dass G = M ist. Hierzu sei ein x ∈ G gegeben. Es gibt dann also eine
Folge (xn )n in M mit limn→∞ xn = x. Falls (xn )n sogar eine Folge in M \ {x} ist,
ist x ein Häufungspunkt von M (Definition 8.2 (d)), also x ∈ M 0 ⊆ M ∪ M 0 = M
(Satz 13.14 (a)). Andernfalls gibt es ein n ∈ N mit xn = x, so dass x ∈ M ist; in
diesem Fall ist x ∈ M ebenfalls klar. Dies zeigt G ⊆ M .
Nun sei umgekehrt ein x ∈ M gegeben. Nach Satz 13.14 (a) ist dann x ∈ M
oder x ∈ M 0 . Im Fall x ∈ M setzt man xn := x für alle n. Dann ist (xn )n
trivialerweise eine gegen x konvergente Folge in M . Im Fall x ∈ M 0 gibt es nach
Definition 8.2 (d) sogar eine Folge (xn )n in M \ {x} (erst recht also in M ), die
gegen x konvergiert. In beiden Fällen gilt also x ∈ G. Damit ist auch M ⊆ G,
also insgesamt G = M gezeigt.
(2) Es sei
\
S :=
{A ⊆ X | A abgeschlossen mit M ⊆ A} .
Da A := M eine abgeschlossene Teilmenge von X mit M ⊆ A ist, ist nach
Definition des Durchschnitts klar, dass S ⊆ A = M gelten muss.
Zum Nachweis der umgekehrten Inklusion sei eine abgeschlossene Teilmenge A
von X mit M ⊆ A gegeben. Wir müssen zeigen, dass M ⊆ A ist.
Hierzu sei x ∈ M . Nach dem in (1) Gezeigten gibt es dann eine Folge (xn )n in
M mit limn→∞ xn = x. Wegen M ⊆ A ist (xn )n auch eine Folge in A. Wegen der
Abgeschlossenheit von A liegt dann gemäß Satz 8.6 auch der Grenzwert x in A.
Da dies für alle x ∈ M gilt, ist damit M ⊆ A gezeigt. Dies gilt wiederum für alle
abgeschlossenen Teilmengen A von X mit M ⊆ A. Hieraus folgt M ⊆ S gemäß
der Definition von S.
Also ist insgesamt M = S. Mit (1) und (2) sind die Behauptungen über M gezeigt.
(3) Die Behauptung über M ◦ ergibt sich hieraus durch Übergang zu den Komplementen unter Benutzung von X \ M = X \ M ◦ (Satz 13.14 (a)): Es ist
M ◦ = X \ (X \ M )
\
= X \
{A ⊆ X | A abgeschlossen mit X \ M ⊆ A}
[
=
{X \ A | A ⊆ X abgeschlossen mit X \ M ⊆ A}
[
=
{X \ A | A ⊆ X abgeschlossen mit X \ A ⊆ M }
[
=
{U ⊆ X | U offen mit U ⊆ M } .
200
(b) Es sei M abgeschlossen. Für die Menge M 0 der Häufungspunkte von M gilt dann nach
Satz 8.6 M 0 ⊆ M . Mit Satz 13.14 (a) folgt M = M ∪ M 0 ⊆ M ⊆ M , also M = M .
Falls umgekehrt M = M ist, so folgt die Abgeschlossenheit von M direkt daraus, dass
M immer abgeschlossen ist (Satz 13.14 (b)). Damit ist die erste Äquivalenz bewiesen.
Die zweite ergibt sich hieraus durch Komplementbildung unter Verwendung von
X \ M = X \ M ◦ (Satz 13.14 (a)) wie folgt:
M offen ⇐⇒
⇐⇒
⇐⇒
⇐⇒
X \ M abgeschlossen
X \M =X \M
X \ M◦ = X \ M
M ◦ = M.
Bemerkung 13.16
Der Abschluss Uε (c) der offenen ε-Kugel Uε (c) ist i.Allg. nicht gleich
der abgeschlossenen Kugel Bε (c). Zwar gilt stets die Inklusion Uε (c) ⊆ Bε (c) (denn Bε (c)
ist eine abgeschlossene Menge, die Uε (c) enthält, und Uε (c) ist die kleinste abgeschlossene
Menge mit dieser Eigenschaft). Jedoch kann die Inklusion durchaus echt sein.
Es sei beispielsweise X eine beliebige Menge mit mindestens zwei Elementen, und d sei die
diskrete Metrik auf X aus Beispiel 4.2 (3). Dann ist für alle c ∈ X
U1 (c) = {x ∈ X | d(x, c) < 1} = {c}
und daher auch U1 (c) = {c}. Für die abgeschlossene Kugel hingegen folgt
B1 (c) = {x ∈ X | d(x, c) ≤ 1} = X 6= {c} .
In Definition 2.41 hatten wir erklärt, was wir unter dichten Teilmengen von R verstehen.
Der Begriff der Dichtheit lässt sich in naheliegender Weise auf beliebige metrische Räume
verallgemeinern.
Definition 13.17 Eine Teilmenge D eines metrischen Raumes X heißt dicht in X, falls
für jedes x ∈ X und jedes ε > 0 der Schnitt D ∩ Uε (x) nichtleer ist.
Proposition 13.18
Eine Teilmenge D eines metrischen Raumes X ist genau dann dicht
in X, falls D = X gilt, falls also ihr Abschluss der gesamte Raum ist.
Beweis. Aufgrund der Definitionen gelten die folgenden Äquivalenzen:
D ist dicht in X
⇐⇒ ∀x∈X ∀ε>0 D ∩ Uε (x) 6= ∅
⇐⇒ ∀x∈X x ∈ D
⇐⇒ D = X.
Beispiel 13.19
Die rationalen Zahlen liegen dicht in R – ebenso die irrationalen Zahlen.
Q + iQ liegt dicht in C.
201
13.3
Kompaktheit
In Definition 8.9 hatten wir den Begriff der (Folgen-)Kompaktheit kennengelernt: Eine Teilmenge K eines metrischen Raumes X heißt folgenkompakt, falls jede Folge in K eine konvergente Teilfolge besitzt, deren Grenzwert in K liegt. Wir führen nun einen neuen Kompaktheitsbegriff ein, der sich in metrischen Räumen freilich als äquivalent zur Folgenkompaktheit
erweisen wird.
Definition 13.20
Es sei (X, d) ein metrischer Raum.
(1) Es sei M eine Teilmenge von X. Eine offene Überdeckung von M ist eine Familie
(Uj )j∈I von offenen Teilmengen Uj ⊆ X, so dass
[
M⊆
Uj
j∈I
gilt. (Hierbei ist I eine beliebige, evtl. auch überabzählbare Indexmenge.)
(2) Eine Teilmenge K ⊆ X heißt überdeckungskompakt, falls jede (!) offene Überdeckung (Uj )j∈I von K eine endliche Teilüberdeckung enthält, d.h. wenn es endlich viele
Indizes j1 , . . . , jm ∈ I gibt, so dass
K ⊆ Uj1 ∪ · · · ∪ Ujm .
In diesem Fall sagt man auch, dass K die Heine-Borelsche Überdeckungseigenschaft hat.
Warnung: Jede Menge K ⊆ X besitzt eine endliche offene Überdeckung – z.B. durch
X selbst. In der Definition von Überdeckungskompaktheit wird jedoch gefordert, dass eine
beliebig vorgegebene offene Überdeckung eine endliche Teilüberdeckung enthält.
Beispiel 13.21
Das Intervall I = ]0, 1[ ist nicht überdeckungskompakt. Eine offene Überdeckung von
I,
zu
der
es keine endliche Teilüberdeckung gibt, wird durch die Folge der offenen
1
Intervalle 0 , 1 − n mit n ∈ N gegeben.
Wir wollen nun für beliebige metrische Räume zeigen, dass die Begriffe Folgenkompaktheit
und Überdeckungskompaktheit äquivalent sind. (In etwas allgemeineren Räumen, sog. topologischen Räumen, die wir in Abschnitt 13.6 einführen werden, ist dies nicht der Fall.) Dabei
ist insbesondere der Schluss von der Folgen- auf die Überdeckungskompaktheit nicht leicht.
Die Hauptschwierigkeit bereiten dabei überabzählbare offene Überdeckungen. Wir lagern die
hierfür erforderlichen Überlegungen in ein Lemma aus.
Lemma 13.22
Es sei (X, d) ein metrischer Raum und K ⊆ X folgenkompakt. Dann gilt:
(1) Es gibt eine abzählbare Menge D ⊆ K, die dicht in K liegt. (Man sagt auch, dass K
separabel ist.)
(2) Jede offene Überdeckung von K besitzt eine abzählbare Teilüberdeckung. (Man sagt
auch, dass K ein Lindelöf-Raum ist.)
202
Beweis.
(1) Die Idee zur Konstruktion der Menge D besteht darin, K mit abzählbar vielen Git”
ternetzen“ zunehmender Feinheit zu überziehen. Die Vereinigung aller hierbei auftretender Gitterpunkte bildet dann die Menge D. Nun zu den Details:
Im Falle K = ∅ leistet D = ∅ das Gewünschte. O.E. sei also K 6= ∅. Zu jedem ε > 0
gibt es endlich viele Punkte a1 , . . . , am ∈ K, so dass
K ⊆ Uε (a1 ) ∪ · · · ∪ Uε (am );
man kann K also mit endlich vielen ε-Kugeln überdecken.
Wäre dies nämlich nicht der Fall, so fände man induktiv – beginnend mit einem
beliebigen a1 ∈ K – eine Folge (an )n in K mit
d(an , am ) ≥ ε
für alle n 6= m.
Die Folge (an )n könnte dann keine konvergente Teilfolge (die ja auch Cauchy-Folge
wäre!) besitzen, im Widerspruch zur Folgenkompaktheit von K.
(k)
(k)
Insbesondere gibt es für jedes k ∈ N endlich viele Punkte a1 , . . . , amk ∈ K, so dass
(k)
K ⊆ U1/k a1 ∪ · · · ∪ U1/k a(k)
(13.1)
mk .
Es sei
n
o
(k)
D := aj | 1 ≤ j ≤ mk , k ∈ N
(k)
die Menge aller dieser Punkte aj . Dann ist D abzählbar und D ⊆ K. Um zu zeigen,
dass D dicht in K liegt, seien ein x ∈ K und ein ε > 0 gegeben. Hierzugibtes ein
(k)
k ∈ N mit k1 < ε. Wegen (13.1) gibt es ein j ∈ {1, . . . , mk } mit x ∈ U1/k aj . Dies
(k)
bedeutet aber auch aj ∈ U1/k (x) ⊆ Uε (x). Also ist Uε (x) ∩ D 6= ∅. Damit ist D als
dicht in K nachgewiesen.
(2) Nach (1) gibt es eine abzählbare Menge D ⊆ K, die dicht in K liegt. Wegen der
Abzählbarkeit von D ist das Mengensystem
B := U1/n (a) | a ∈ D, n ∈ N
abzählbar, wir können B also in der Form
B = {B1 , B2 , B3 , . . .}
schreiben, wobei jedes Bm eine der Mengen U1/n (a) mit a ∈ D, n ∈ N ist.
Es sei eine offene Überdeckung (Uj )j∈I von K gegeben.
Für alle j ∈ I sei
Sj := {k ∈ N | Bk ⊆ Uj }
die Menge der Indizes k ∈ N, für die Bk in Uj enthalten ist, und es sei
[
S :=
Sj .
j∈I
203
Als Teilmenge von N ist S abzählbar. Wir zeigen, dass die Mengen Bm mit m ∈ S zur
Überdeckung von K ausreichen.
Hierzu sei ein x ∈ K gegeben. Da (Uj )j∈I eine Überdeckung von K ist, gibt es ein j ∈ I
mit x ∈ Uj . Wegen der Offenheit von Uj existiert hierzu ein N ∈ N mit U1/N (x) ⊆ Uj .
Da D dicht in K liegt, gibt es ein a ∈ D ∩ U1/(2N ) (x). Für alle y ∈ U1/(2N ) (a) folgt mit
der Dreiecksungleichung
d(y, x) ≤ d(y, a) + d(a, x) <
1
1
1
+
= .
2N
2N
N
Also gilt
U1/(2N ) (a) ⊆ U1/N (x) ⊆ Uj .
Nach Definition des Mengensystems B gibt es ein m ∈ N mit U1/(2N ) (a) = Bm . Es
ist also Bm ⊆ Uj . Dies bedeutet m ∈ Sj ⊆ S. Wegen a ∈ U1/(2N ) (x) ist ferner auch
x ∈ U1/(2N ) (a) = Bm . Damit ist ein m ∈ S gefunden mit x ∈ Bm . Da dies für alle
x ∈ K gilt, gilt in der Tat
[
K⊆
Bm .
m∈S
Zu jedem m ∈ S gibt es ein jm ∈ I mit m ∈ Sjm , und nach Definition von Sjm folgt
Bm ⊆ Ujm . Damit ergibt sich insgesamt
[
[
Ujm .
Bm ⊆
K⊆
m∈S
m∈S
K wird also bereits von den abzählbar vielen Mengen Ujm mit m ∈ S überdeckt.
Satz 13.23
Es sei (X, d) ein metrischer Raum. Dann gilt:
(1) Eine Teilmenge von X ist genau dann überdeckungskompakt, wenn sie folgenkompakt
ist.
(2) Jede überdeckungs- bzw. folgenkompakte Teilmenge von X ist abgeschlossen und beschränkt.
Beweis.
(1)
=⇒ “: Es sei K ⊆ X überdeckungskompakt.
”
Es sei (xn )n eine Folge in K. Falls die Menge {xn | n ∈ N} der Folgenglieder endlich ist,
ist die Existenz einer konvergenten (nämlich einer ab einem gewissen Index konstanten)
Teilfolge klar. Wir dürfen also annehmen, dass {xn | n ∈ N} unendlich ist.
Wir nehmen an, (xn )n hätte keine in K konvergente Teilfolge (d.h. keine Teilfolge mit
Grenzwert in K). Dann besitzt jeder Punkt a ∈ K eine offene Umgebung Uεa (a), in der
nur endlich viele xn liegen. (Denn lägen in jeder Umgebung eines solchen a unendlich
viele Folgenglieder xn , so wäre a ein Häufungswert von (xn )n , es gäbe also gemäß
Satz 6.11 (1) eine gegen a konvergente Teilfolge von (xn )n .) Es gilt
[
K⊆
Uεa (a),
a∈K
204
da ja a ∈ Uεa (a) für jedes a ∈ K. Die Umgebungen Uεa (a) mit a ∈ K bilden also
eine offene Überdeckung von K. Da K überdeckungskompakt ist, gibt es endlich viele
Punkte a1 , . . . , am ∈ K mit
m
[
K⊆
Uεaµ (aµ ).
µ=1
Damit liegen aber nur endliche viele Folgenglieder xn in K, ein Widerspruch.
⇐=“: Nun sei K ⊆ X folgenkompakt. Es sei eine offene Überdeckung (Uj )j∈I von K
”
gegeben. Hieraus können wir nach Lemma 13.22 (2) eine abzählbare Teilüberdeckung
auswählen. Wir dürfen daher o..d.A. annehmen, dass I = N ist.
Wir nehmen an, dass sich aus (Uj )j∈I keine endliche Teilüberdeckung von K auswählen
lässt. Dann gilt
n
[
An := K \
Uj 6= ∅
für alle n ∈ N.
j=1
Daher finden wir eine Folge (xn )n mit xn ∈ An für alle n. Da (xn )n eine Folge in K und
K folgenkompakt ist, gibt es eine Teilfolge (xnk )k , die gegen ein x0 ∈ K konvergiert.
Da (Uj )j∈I eine Überdeckung von K ist, ist x0 ∈ UN für ein N ∈ I = N. Da UN offen
ist, gibt es ein ε > 0 mit Uε (x0 ) ⊆ UN . Wegen der Konvergenz von (xnk )k gibt es hierzu
ein k0 ≥ N , so dass
xnk ∈ Uε (x0 ) ⊆ UN
für alle k ≥ k0 .
Für alle n ≥ N und alle k ≥ k0 folgt xnk 6∈ An . Wegen nk0 ≥ k0 ≥ N ist insbesondere
xnk0 6∈ Ank0 , im Widerspruch zur Wahl der xn .
Also enthält (Uj )j∈I eine endliche Teilüberdeckung von K. Damit ist die Überdeckungskompaktheit von K nachgewiesen.
(2) Es sei K ⊆ X überdeckungs- und damit nach (1) auch folgenkompakt.
Wir zeigen zunächst, dass K abgeschlossen ist. Hierzu sei (an )n eine Folge in K, die
gegen ein a ∈ X konvergiert. Es ist zu zeigen, dass der Grenzwert a in K liegt. Aufgrund der Folgenkompaktheit von K gibt es eine Teilfolge (xnk )k , die gegen ein e
a∈K
konvergiert. Andererseits konvergiert diese Teilfolge natürlich auch gegen a. Aus der
Eindeutigkeit des Grenzwerts folgt a = e
a ∈ K. Damit ist K als abgeschlossen nachgewiesen.
Den Nachweis der Beschränktheit stützen wir hingegen auf die Überdeckungskompaktheit von K: Die offenen Kugeln vom Radius 1 um die Punkte x ∈ K bilden
eine offene Überdeckung von K. Da K überdeckungskompakt ist, genügen endlich viele
dieser Kugeln zur Überdeckung von K. Hieraus folgt die Beschränktheit von K.
Angesichts von Satz 13.23 (1) geben wir die Unterscheidung zwischen Überdeckungs- und
Folgenkompaktheit nunmehr wieder auf und sprechen nur noch von Kompaktheit.
In Satz 8.8 bzw. Korollar 8.10 hatten wir gezeigt, dass im Rn und Cn die Kompaktheit sogar
äquivalent zur Abgeschlossen- und Beschränktheit ist. Diese Aussage (genauer: die Äquivalenz zwischen Abgeschlossen- und Beschränktheit einerseits und Überdeckungskompaktheit
andererseits) ist auch als Satz von Heine-Borel44 bekannt. Während der Schluss von der
44
nach E. Heine (1821 - 1881) und E. Borel (1871 – 1956)
205
Kompaktheit auf die Abgeschlossenheit und Beschränktheit in beliebigen metrischen Räumen gilt, haben wir für die umgekehrte Implikation im Rn in Satz 8.8 die Vollständigkeit des
Rn bezüglich der euklidischen Metrik benutzt, und zwar in Gestalt des Satzes von BolzanoWeierstraß. Hierauf kann nicht verzichtet werden. Tatsächlich ist in beliebigen unendlichdimensionalen normierten Vektorräumen die abgeschlossene Einheitskugel nicht kompakt.
(Dies liefert eine interessante Charakterisierung der Endlichdimensionalität: Die endlichdimensionalen normierten Vektorräume sind genau diejenigen, in denen Kompaktheit äquivalent ist mit Abgeschlossenheit und Beschränktheit.) Für den Beweis sei auf [Heuser 3,
Satz 11.7] verwiesen.
I.Allg. ist Abgeschlossenheit eine wesentlich schwächere Eigenschaft als Kompaktheit. Falls
man sich jedoch bereits in einem kompakten umgebenden Raum befindet, kann man von der
Abgeschlossenheit auf Kompaktheit schließen:
Lemma 13.24
Es sei X ein metrischer Raum und K ⊆ X kompakt. Dann ist jede
abgeschlossene Teilmenge von K kompakt.
Wir geben zwei Beweise; der erste beruht auf der Überdeckungs-, der zweite auf der Folgenkompaktheit von X.
Beweis 1. Es sei A ⊆ K abgeschlossen. Es sei eine offene Überdeckung (Uj )j∈I von A
gegeben. Da X \ A offen ist und
[
Uj
K ⊆ X = (X \ A) ∪ A ⊆ (X \ A) ∪
j∈I
gilt, bilden die Mengen Uj sowie X \ A eine offene Überdeckung von K. Da K kompakt ist,
gibt es endlich viele Indizes j1 , . . . , jm ∈ I mit
K ⊆ (X \ A) ∪ Uj1 ∪ . . . ∪ Ujm .
Wegen A ⊆ K und weil A natürlich disjunkt zu X \ A ist, folgt
A ⊆ Uj1 ∪ . . . ∪ Ujm .
Also lässt sich A bereits durch endlich viele der Uj überdecken. Dies zeigt, dass A
(überdeckungs-)kompakt ist.
Beweis 2. Es sei A ⊆ K abgeschlossen. Es sei (xn )n eine Folge in A. Da (xn )n auch eine Folge
in K ist und K kompakt ist, gibt es eine Teilfolge (xnk )k , die gegen ein x ∈ K konvergiert.
Da A abgeschlossen ist, ist sogar x ∈ A. Dies zeigt, dass A (folgen-)kompakt ist.
Das folgende Lemma stellt ein Analogon zu Lemma 13.10 und Korollar 13.11 dar.
Lemma 13.25
In einem metrischen Raum sind beliebige Durchschnitte und endliche
Vereinigungen kompakter Mengen wieder kompakt.
Beweis. Aufgabe 5.?
206
Aus Satz 10.1 wissen wir, dass Kompaktheit unter stetigen Abbildungen erhalten bleibt.
Wir hatten den Beweis mithilfe des Begriffs der Folgenkompaktheit geführt. Das neue Konzept der Überdeckungskompaktheit in Verbindung mit der topologischen Charakterisierung
von Stetigkeit in Satz 10.4 ermöglicht einen weiteren Beweis dieses wichtigen Satzes. Wir
verweisen hierfür auf die Übungen, Aufgabe 5.4.
In der Analysis ist es oftmals wünschenswert, dass sich schöne“ Eigenschaften (wie Ste”
tigkeit, Differenzierbarkeit usw.) einer bijektiven Abbildung auf deren Umkehrabbildung
übertragen. Nicht immer geht dieser Wunsch freilich in Erfüllung. So muss z.B. die Umkehrabbildung einer bijektiven stetigen Abbildung keinesfalls stetig sein, wie folgendes Beispiel
zeigt45 :
Beispiel 13.26
Es sei X =]0; 2π], Y = ∂U1 (0) der Rand des Einheitskreises in R2 und
für alle t ∈]0; 2π].
f (t) := (cos t, sin t)
Nach Korollar 12.22 bildet x 7→ eix das halboffene Intervall ]0; 2π] stetig und bijektiv auf
die Einheitskreislinie in C ab. Angesichts von eix = cos x + i sin x bedeutet dies, dass ]0; 2π]
durch f stetig und bijektiv auf ∂U1 (0) abgebildet wird. (Anschaulich: Wir wickeln das Intervall ]0; 2π] auf den Einheitskreisrand ab.) Jedoch ist die Umkehrabbildung im Punkt (1, 0)
unstetig46 . Anschaulich ist dies klar. Exakt argumentiert man wie folgt: Für die Folge (xn )n
mit
1
1
xn := cos , sin
n
n
gilt
lim xn = (1, 0),
n→∞
aber
1
= 0 6= 2π = f −1 (1, 0).
n→∞ n
lim f −1 (xn ) = lim
n→∞
Definition 13.27 Es seien X und Y metrische Räume. Eine Abbildung f : X −→ Y
heißt ein Homöomorphismus, falls f stetig und bijektiv und die Umkehrabbildung f −1 :
Y −→ X ebenfalls stetig ist.
Die Kompaktheit des Definitionsbereichs (die in Beispiel 13.26 verletzt war) sichert die Stetigkeit der Umkehrabbildung:
Satz 13.28
Es seien K und Y metrische Räume, und K sei kompakt. Dann ist jede
bijektive stetige Abbildung f : K −→ Y ein Homöomorphismus (d.h. f −1 ist automatisch
stetig).
45
Man beachte andererseits Satz 10.14 (2), wonach für reellwertige stetige injektive Funktionen f : I −→ R
auf reellen Intervallen I die Umkehrfunktion automatisch stetig ist.
46
Ohne die Unstetigkeit wirklich nachzuprüfen, kann man auch wie folgt schließen: Wäre f −1 stetig, so
wäre nach Satz 10.1 mit Y auch das Bild (!) f −1 (Y ) = X =]0; 2π] von Y unter f −1 kompakt in X =]0, 2π].
Analog zu Beispiel 13.21 sieht man jedoch, dass X =]0, 2π] nicht (überdeckungs-)kompakt in X ist.
207
Beweis. Es ist nur zu zeigen, dass f −1 stetig ist. Hierzu genügt es gemäß Satz 10.4 nachzuweisen, dass Urbilder offener Mengen unter f −1 wieder offen sind. (Dies ist äquivalent damit,
dass f offene Mengen auf offene Mengen abbildet.)
Es sei U ⊆ K offen. Dann ist K \ U abgeschlossen. Aus Lemma 13.24 folgt, dass K \ U sogar
kompakt ist. Nach Satz 10.1 ist auch f (K \ U ) kompakt und damit abgeschlossen. Wegen
der Bijektivität von f ist gemäß Satz 13.8 (d)
f (K \ U ) = f (K) \ f (U ) = Y \ f (U ),
und es folgt, dass f (U ) offen ist. Nun ist aber
f (U ) = f −1
−1
(U ).
Dies zeigt, dass für jede offene Teilmenge U ⊆ K das Urbild (f −1 )
offen ist. Also ist f −1 stetig. Damit ist f ein Homöomorphismus.
13.4
−1
(U ) von U unter f −1
Gleichmäßige Stetigkeit und Dehnungsbeschränktheit
In Quantorenschreibweise lässt sich die Stetigkeit einer Funktion f : X −→ Y zwischen zwei
metrischen Räumen (X, dX ) und (Y, dY ) wie folgt ausdrücken:
∀x0 ∈X ∀ε>0 ∃δ>0 ∀x∈X dX (x, x0 ) < δ =⇒ dY (f (x), f (x0 )) < ε .
Hierbei hängt δ nicht nur von ε, sondern auch von x0 ab. Oft ist die Situation interessant,
in der man für alle x0 mit demselben, nur von ε abhängigen δ auskommt. Dies führt auf den
Begriff der gleichmäßigen Stetigkeit.
Definition 13.29
Es seien (X, dX ) und (Y, dY ) metrische Räume. Eine Funktion
f : X −→ Y heißt gleichmäßig stetig, falls zu jeder Zahl ε > 0 eine Zahl δ > 0 existiert, so dass für alle x1 , x2 ∈ X mit dX (x1 , x2 ) < δ stets dY (f (x1 ), f (x2 )) < ε gilt. In
Quantorenschreibweise:
∀ε>0 ∃δ>0 ∀x1 ,x2 ∈X dX (x1 , x2 ) < δ =⇒ dY (f (x1 ), f (x2 )) < ε .
Der Unterschied zwischen Stetigkeit und gleichmäßiger Stetigkeit besteht (ebenso wie beim
Unterschied zwischen punktweiser und gleichmäßiger Konvergenz) nur in der Reihenfolge
zweier Quantoren.
Offensichtlich folgt aus der gleichmäßigen Stetigkeit einer Funktion die Stetigkeit. Die Umkehrung gilt i.Allg. nicht:
Beispiel 13.30
Auf dem halboffenen Intervall I := ]0, 1] ist die Funktion f (x) := x1
stetig. Sie ist dort allerdings nicht gleichmäßig stetig. Hierzu müssen wir zeigen, dass zu
einem gewissen ε > 0 kein δ > 0 existiert, das für jedes x ∈ I den erforderlichen Dienst
leistet. Dazu wählen wir ε := 1. Es sei eine Zahl δ > 0 gegeben. Es gibt eine natürliche Zahl
1
n mit n1 < δ. Für die beiden Punkte x := n1 und y := n+1
in I gilt
1 1
1
|x − y| < < δ
und
|f (x) − f (y)| = − = |n − (n + 1)| = 1 6< ε.
n
x y
Damit ist die Behauptung bewiesen.
Der Grund für die mangelnde Gleichmäßigkeit ist natürlich die Unbeschränktheit des Graphen von f in der Nähe von 0.
208
Auf kompakten Mengen fallen Stetigkeit und gleichmäßige Stetigkeit jedoch zusammen; anschaulich: Auf einem Kompaktum kann die Stetigkeit einer Funktion nicht beliebig schlecht“
”
werden. Dies wird später (im Beweis von Satz 17.14) der Schlüssel für den Nachweis sein,
dass stetige Funktionen auf kompakten Intervallen Riemann-integrierbar sind.
Satz 13.31
Es seien (X, dX ) und (Y, dY ) metrische Räume, und X sei kompakt. Dann
ist jede stetige Funktion f : X −→ Y gleichmäßig stetig.
Wir geben einmal mehr zwei Beweise, einen mithilfe der Überdeckungs- und einen mithilfe
der Folgenkompaktheit von X.
Beweis 1. Es sei eine Zahl ε > 0 gegeben. Weil f stetig ist, gibt es zu jedem Punkt x ∈ X
eine Zahl δ(x) > 0, so dass
dY (f (y), f (x)) <
ε
2
für alle y ∈ Uδ(x) (x)
gilt. Wir betrachten die offenen Kugeln U%(x) (x) mit den halben Radien %(x) := 21 δ(x). Sie
bilden eine offene Überdeckung von X; es ist
[
X⊆
U%(x) (x) .
x∈X
Wegen der (Überdeckungs-)Kompaktheit von X genügen endlich viele dieser Kugeln zur
Überdeckung von X. Es gibt also Punkte x1 , x2 , . . . , xN in X mit
X ⊆ U%(x1 ) (x1 ) ∪ U%(x2 ) (x2 ) ∪ . . . ∪ U%(xN ) (xN ) .
Wir setzen
δ := min{%(x1 ), %(x2 ), . . . , %(xN )}
und erhalten damit eine Zahl δ > 0. Es seien beliebige Punkte x, y ∈ X mit dX (x, y) <
δ gegeben. Der Punkt x liegt in einer der endlich vielen überdeckenden Kugeln; für ein
geeignetes ν gilt also x ∈ U%(xν ) (xν ). Dann folgt
dX (y, xν ) ≤ dX (y, x) + dX (x, xν ) < δ + %(xν ) ≤ 2%(xν ),
es liegen also x und y beide in der offenen Kugel vom Radius 2%(xν ) = δ(xν ) um den Punkt
xν . Daher folgt
ε ε
dY (f (x), f (y)) ≤ dY (f (x), f (xν )) + dY (f (xν ), f (y)) < + = ε.
2 2
Damit ist die gleichmäßige Stetigkeit von f bewiesen.
Beweis 2. Wir nehmen an, die Funktion f wäre nicht gleichmäßig stetig. Die Negation der
Bedingung für gleichmäßige Stetigkeit lautet
∃ε0 >0 ∀δ>0 ∃x,y∈X dX (x, y) < δ ∧ dY (f (x), f (y)) ≥ ε0 .
Wir können für δ nacheinander die Zahlen k1 mit k ∈ N wählen. So erhalten wir zwei Folgen
(xk )k und (yk )k von Punkten xk , yk ∈ X mit
dX (xk , yk ) <
1
k
dY (f (xk ), f (yk )) ≥ ε0 .
und
209
Weil X (folgen-)kompakt ist, besitzt die Folge (xk )k eine gegen ein ξ ∈ X konvergente
Teilfolge (xkν )ν . Wegen dX (xk , yk ) < k1 ist auch
lim ykν = ξ.
ν→∞
Aus der Stetigkeit von f ergibt sich mithilfe des Folgenkriteriums
lim f (xkν ) = f (ξ) = lim f (ykν ).
ν→∞
ν→∞
Das steht im Widerspruch zu
dY (f (xkν ), f (ykν )) ≥ ε0
für alle ν.
Damit ist die Behauptung abermals bewiesen.
Ein einfaches Beispiel gleichmäßig stetiger Funktionen sind die dehnungsbeschränkten Funktionen.
Definition 13.32 Es seien (X, dX ) und (Y, dY ) metrische Räume. Eine Funktion f :
X −→ Y heißt dehnungsbeschränkt oder Lipschitz-stetig47 oder auch quasikontrahierend, falls es ein L < ∞ gibt, so dass
dY (f (x1 ), f (x2 )) ≤ L · dX (x1 , x2 )
für alle x1 , x2 ∈ X.
Man bezeichnet jedes solche L als Dehnungsschranke oder Lipschitz-Konstante für f .
Wenn f eine Dehnungsschranke L < 1 besitzt, dann heißt f kontrahierend.
Die Anwendung einer kontrahierenden Abbildung auf zwei Punkte verkleinert die Abstände
zwischen diesen Punkten; die Anwendung einer quasikontrahierenden Abbildung kann sie
nicht allzu sehr“ vergrößern.
”
Die Dehnungsbeschränktheit einer reellwertigen Funktion f : I −→ R auf einem Intervall
I ⊆ R bedeutet anschaulich, dass der Betrag der Steigung der Sekante durch zwei beliebige
Punkte des Graphen von f nirgends größer als eine gewisse Konstante L ist.
Proposition 13.33 Es seien (X, dX ) und (Y, dY ) metrische Räume. Falls f : X −→ Y
dehnungsbeschränkt ist, so ist f gleichmäßig stetig.
Beweis. Es sei L > 0 eine Dehnungsschranke für f . Es sei ein ε > 0 gegeben. Dann ist
δ := Lε > 0. Es seien x1 , x2 ∈ X mit dX (x1 , x2 ) < δ gegeben. Dann folgt
dY (f (x1 ), f (x2 )) ≤ L · dX (x1 , x2 ) < L · δ = ε.
Dies zeigt die gleichmäßige Stetigkeit von f .
47
Der Name Lipschitz-stetig“ erinnert an R. Lipschitz (1832 – 1903), der die Bedeutung der Dehnungs”
beschränktheit für die Theorie der Differentialgleichungen erkannt hat: Ist f eine stetige Funktion von zwei
Variablen x und y und bezüglich der zweiten Variablen y dehnungsbeschränkt, dann besitzt die Differentialgleichung y 0 = f (x, y) durch jeden Punkt eine eindeutig bestimmte Lösung.
210
√
Beispiel 13.34 Die Quadratwurzelfunktion f (x) := x ist auf dem kompakten Intervall
[0, 1] stetig und damit nach Satz 13.31 gleichmäßig stetig. Sie ist dort jedoch nicht dehnungsbeschränkt: Wäre nämlich L > 0 eine Dehnungsschranke, so müsste insbesondere
√
| x| = |f (x) − f (0)| ≤ L · |x − 0| = L · |x|
für alle x ∈ [0, 1]
gelten. Dies hätte L2 x ≥ 1 für alle x ∈]0, 1] zur Folge, was offensichtlich absurd ist.
√
Jedoch ist x 7→ x auf jedem Intervall [ε, ∞[ mit ε > 0 dehnungsbeschränkt, denn es ist
√
√
|x1 − x2 |
1
| x1 − x2 | = √
für alle x1 , x2 ∈ [ε, ∞[.
√ ≤ √ · |x1 − x2 |
x1 + x2
2 ε
√
Aus Proposition 13.33 folgt daher, dass x 7→ x z.B. auf [1, ∞[ gleichmäßig stetig ist.
Zusammen mit der bereits begründeten gleichmäßigen Stetigkeit auf [0, 1] ergibt sich, dass
f insgesamt auf [0, ∞[ gleichmäßig stetig ist.
13.5
Der Banachsche Fixpunktsatz
Wir haben nun die Hilfsmittel, um ein Fixpunktprinzip zu beweisen, das sich in der Analysis
bei vielen Gelegenheiten als nützlich erweist.
Erinnerung: Laut Definition 6.19 nennen wir einen metrischen Raum (X, d) vollständig,
falls jede Cauchy-Folge in X einen Grenzwert in X besitzt. Das Cauchy-Kriterium in Satz
6.18 besagt dann gerade, dass die metrischen Räume Rm und Cm vollständig sind.
Satz 13.35 (Banachscher Fixpunktsatz48 , Kontraktionslemma)
Es sei (X, d) ein
vollständiger metrischer Raum, und f : X −→ X sei eine kontrahierende Abbildung. Dann
besitzt f genau einen Fixpunkt ξ ∈ X.
Es sei λ < 1 eine Dehnungsschranke für f . Wenn man einen beliebigen Punkt a0 ∈ X wählt
und die Folge (an )n≥0 in X rekursiv durch an = f (an−1 ) für n ≥ 1 definiert, dann gilt
d(an , ξ) ≤
λn
· d(a1 , a0 )
1−λ
und
ξ = lim an .
n→∞
Beweis. Wir erklären die Folge (an )n wie im Satz. Induktiv ergibt sich dann
d(an+1 , an ) ≤ λn · d(a1 , a0 )
48
für alle n ∈ N0 .
Stefan Banach (1892 – 1945) war einer der hervorragendsten polnischen Mathematiker des 20. Jahrhunderts. Die wichtigste Leistung von Banach sind grundlegende Beiträge zu einem Gebiet, das sich damals aus
Fragen über reelle Funktionen und ihre Entwicklung in Orthogonalreihen neu entwickelte und jetzt Funktionalanalysis genannt wird. Hierzu gehört die Theorie der Banachräume. Das sind normierte Vektorräume,
die bezüglich der von der Norm induzierten Metrik vollständig sind. In den in der Funktionalanalysis interessanten Fällen haben diese Vektorräume zumeist unendliche Dimension. Wichtige Beispiele sind die aus
gewissen messbaren Funktionen bestehenden Lp -Räume, die wir in Kapitel 32 behandeln werden.
Bekannt ist Banach außerdem u.a. durch das sog. Banach-Tarski-Paradoxon: Eine Kugel in R3 ist in
endlich viele (fünf) Teilmengen zerlegbar, die durch geeignete Bewegungen zu einer Kugel mit doppeltem
Volumen (!) zusammensetzbar sind (vgl. Abbildung 29). Ein entscheidendes Hilfsmittel im Beweis ist das in
Abschnitt 31.2 diskutierte Auswahlaxiom der Mengenlehre.
211
Denn dies ist offensichtlich richtig für n = 0, und aus der Gültigkeit für ein n folgt
d(an+2 , an+1 ) = d(f (an+1 ), f (an )) ≤ λ · d(an+1 , an ) ≤ λn+1 · d(a1 , a0 ).
Aus der Dreiecksungleichung und aus der Voraussetzung λ < 1 folgt nun mithilfe der geometrischen Summenformel
d(an+k , an ) ≤
n+k−1
X
d(aν+1 , aν )
ν=n
λn
· d(a1 , a0 )
1−λ
für alle natürlichen Zahlen n und k. Hierbei strebt die rechte Seite für n → ∞ gegen 0. Dies
zeigt, dass (an )n eine Cauchy-Folge in X ist. Wegen der Vollständigkeit von X ist die Folge
konvergent; es existiert also der Grenzwert
≤ (λn + . . . + λn+k−1 ) · d(a1 , a0 ) ≤
ξ = lim an ∈ X.
n→∞
Wegen
|d(an+k , an ) − d(ξ, an )| ≤ d(ξ, ank ) −→ 0
für k → ∞
ist dann auch limk→∞ d(an+k , an ) = d(ξ, an ) für alle n. Hieraus und aus der Abschätzung für
d(an+k , an ) folgt für k → ∞ weiter
d(ξ, an ) = lim d(an+k , an ) ≤
k→∞
λn
· d(a1 , a0 ).
1−λ
Die dehnungsbeschränkte Funktion f ist nach Proposition 13.33 stetig, und mit dem Folgenkriterium ergibt sich
f (ξ) = f ( lim an ) = lim f (an ) = lim an+1 = ξ.
n→∞
n→∞
n→∞
Somit ist ξ ein Fixpunkt von f .
Zu zeigen bleibt noch die Eindeutigkeit des Fixpunkts. Hierzu sei neben ξ auch η ∈ X ein
Fixpunkt von f , also f (η) = η. Dann folgt
d(η, ξ) = d(f (η), f (ξ)) ≤ λ · d(η, ξ).
Wegen λ < 1 folgt hieraus d(η, ξ) = 0, also η = ξ. Der Fixpunkt ξ von f ist demnach
eindeutig bestimmt.
Beispiel 13.36
(1) Im Banachschen Fixpunktsatz kann auf die Vollständigkeit von X nicht verzichtet
werden, wie das Beispiel des Raumes X = Q ∩ [1, 2] und der Abbildung f : x 7→ x2 + x1
zeigt (vgl. hierzu auch Satz 6.5):
Zunächst ist offensichtlich 1 ≤ f (x) ≤ 2 für alle x ∈ [1, 2], und f bildet rationale
Zahlen auf ebensolche ab, so dass f : X −→ X eine Selbstabbildung von X ist. Für
alle x, y ∈ [1, 2] ist
1
1
y
−
x
1
= − · |x − y| ≤ 1 · |x − y|,
|f (x) − f (y)| = (x − y) +
2
xy 2 xy 2
d.h. f ist kontrahierend (mit Dehnungsschranke 21 ).
√
Jedoch liegt der einzige Fixpunkt ξ = 2 von f nicht in Q.
212
(2) Die Voraussetzung λ ≤ 1 ist zu schwach, wie das Beispiel X = R, f (x) = x + 1
zeigt: Offensichtlich ist f dehnungsbeschränkt mit Dehnungsschranke 1, hat aber keinen
Fixpunkt.
Abbildung 29: Zum in Fußnote 48 erwähnten Banach-Tarski-Paradoxon (Zeichnung: Jens Jordan)
13.6
Ausblick: Topologische Räume
Nach Satz 10.4 lässt sich Stetigkeit dadurch charakterisieren, dass die Urbilder offener Mengen offen sind. Hierbei kommt es letztlich nicht darauf an, dass die offenen Mengen mit Hilfe
von Kugeln, also mithilfe einer Metrik definiert wurden: Wichtig sind nur die in Lemma
13.10 gelisteten Eigenschaften des Systems der offenen Mengen. Ausgehend von diesen kann
man noch weiter abstrahieren:
Definition 13.37
Es sei X eine Menge, und es sei T ⊆ P(X) eine Menge von Teilmengen
von X, wofür die Aussagen (T1), (T2) und (T3) in Lemma 13.10 gelten; es sollen also
beliebige Vereinigungen und endliche Durchschnitte von Mengen aus T wieder in T liegen;
zudem sollen die leere Menge und X selbst zu T gehören. Dann heißt T eine Topologie auf
X, das Paar (X, T ) oder auch die Menge X selber heißt ein topologischer Raum, und
die Mengen U ∈ T heißen die offenen Mengen in X.
Es seien X und Y topologische Räume. Eine Abbildung f : X −→ Y heißt stetig, falls für
jede offene Menge V in Y das Urbild U = f −1 (V ) offen in X ist.
213
Aufgrund von Lemma 13.10 ist jeder metrische Raum ein topologischer Raum; die zugehörige
Topologie ist das System der bezüglich der betreffenden Metrik offenen Mengen.
Bemerkung 13.38
Es sei (X, T ) ein topologischer Raum, und A sei eine Teilmenge von
X. Die Menge A wird in naheliegender Weise zu einem topologischen Raum gemacht, indem
man
TA := {U ∩ A | U ∈ T }
setzt und TA als System von offenen Mengen in A deklariert. Eine Menge ist also genau dann
offen in A, wenn sie sich als Durchschnitt einer in X offenen Menge mit A darstellen lässt.
Es ist leicht zu sehen, dass die Axiome (T1), (T2) und (T3) für TA erfüllt sind. Man nennt
TA die von T induzierte Teilraumtopologie oder Relativtopologie auf A.
Topologische Räume in voller Allgemeinheit werden in dieser Vorlesung nur am Rande auftauchen. Mit Relativtopologien hingegen hat man häufig (teils ohne diesen Begriff explizit zu
benutzen) durchaus auch im Kontext metrischer Räume zu tun, nämlich z.B. immer dann,
wenn man als metrischen Raum eine bestimmte feste Teilmenge des Rn , versehen mit der
euklidischen Metrik, verwendet. Dabei kommt es immer wieder zu paradoxen Situationen,
die zu Fehlschlüssen verleiten (vgl. auch Bemerkung 4.4 (5)):
Beispiel 13.39
Es sei A =]0; 1[. Man kann A als Teilraum des topologischen Raumes
X = R(versehen
mit
der von der euklidischen Metrik erzeugten Topologie) auffassen. Die
1
Menge 0; 2 ist abgeschlossen in A, aber (natürlich) nicht in X. Hingegen ist sie weder in A
noch in X kompakt. Dies kann man analog zu Beispiel 13.21 begründen, indem man offene
Überdeckungen von A angibt, die keine endliche Teilüberdeckung besitzen. Alternativ kann
man zeigen, dass A nicht folgenkompakt ist: Beispielsweise besitzt die Folge ( n1 )n in A keine
konvergente Teilfolge mit Grenzwert in A.
214
Teil III
Differential- und Integralrechnung
einer Variablen
14
14.1
Differenzierbarkeit
Die Ableitung
Zwei Probleme sind es vor allem, die zur Differentialrechnung führen:
1. Eine Grundaufgabe der Mechanik ist es, den Ort und die Geschwindigkeit eines bewegten Körpers als Funktionen der Zeit zu beschreiben und eine Beziehung zwischen
den beiden Funktionen zu finden. Wie kann man überhaupt die momentane Geschwindigkeit eines ungleichmäßig bewegten Körpers definieren?
2. Eine wichtige Aufgabe in der Geometrie ist es, die Tangente an eine gegebene Kurve
in einem gegebenen Punkt zu finden. Wie wird die Tangente durch eine Gleichung
beschrieben? Unter welchen Umständen gibt es überhaupt eine Tangente?
Parallel zur Differentialrechnung wurde auch die Integralrechnung geschaffen. Die Arbeiten
an den Problemen beider Theorien gehen bis in die Antike zurück. Hierbei ist vor allem
die Inhalts- und die Längenmessung des Archimedes (ca. 287 – 212 v. Chr.) zu nennen.
Die eigentliche Erfindung der Differential- und Integralrechnung und ihre Etablierung als
mathematische Disziplin gelang aber erst im 17. Jahrhundert. Die Begründer sind I. Newton
(1643 – 1727) und G. W. Leibniz (1646 – 1716). Unklarheiten in den von beiden benutzten
infinitesimalen Vorstellungen wurden von Bischof G. Berkeley (1684 – 1753) in seiner Schrift
The Analyst kritisiert. Angesichts der überwältigenden Erfolge der Infinitesimalrechnung in
der Mathematik und in ihren Anwendungsgebieten im 18. Jahrhundert trat die Kritik in den
Hintergrund. Erst im 19. Jahrhundert wurde eine logisch unanfechtbare Differential- und
Integralrechnung geschaffen, letztlich durch die Verbannung infinitesimaler Größen und die
Einführung der Weierstraßschen Epsilontik“. Aus Teil I und II der Vorlesung stehen uns
”
die hierbei relevanten Methoden zur Verfügung. Daher können wir jetzt mit geringer Mühe
eine Einführung in die Differentialrechnung geben.
Wir gehen von der Tangente an den Graphen einer Funktion in einem gegebenen Punkt aus,
die wir uns als Grenzlage von Sekanten vorstellen.
Definition 14.1 Es sei I =]a, b[⊆ R ein offenes Intervall. Eine Funktion f : I −→ R heißt
differenzierbar im Punkt x0 ∈ I, falls der Grenzwert
lim
x→x0
f (x) − f (x0 )
=: f 0 (x0 )
x − x0
(als reelle Zahl) existiert. In diesem Fall heißt f 0 (x0 ) die Ableitung von f im Punkt x0 .
Gebräuchliche Notationen hierfür sind
df
df 0
f (x0 ) =
(x0 ) =
.
dx
dx x=x0
215
Die Funktion f : I −→ R heißt differenzierbar, falls sie in jedem Punkt x0 ∈ I differenzierbar ist. In diesem Fall existiert die Ableitung f 0 (x0 ) in jedem Punkt x0 ∈ I. Die hierdurch
definierte Funktion f 0 : I −→ R heißt die Ableitung von f . Notationen für die Ableitung
sind 49
df
.
f 0 = f˙ =
dx
Bemerkung 14.2
(1) Die Ableitung einer Funktion f : I −→ R in einem Punkt x0 ∈ I kann auch in der
Form
f (x0 + h) − f (x0 )
f 0 (x0 ) = lim
h→0
h
geschrieben werden. (Diese triviale Umformulierung wird im Schulunterricht mitunter
mit dem etwas hochtrabenden Begriff h-Methode“ belegt.)
”
(2) Der Quotient
f (x) − f (x0 )
q(x) :=
x − x0
ist für x = x0 natürlich nicht definiert. Bei der Grenzwertbildung genügt es dennoch,
lim zu schreiben (und nicht etwa x→x
lim ), denn unsere Definition 9.16 des Grenzwerts
x→x0
0
x6=x0
lim q(x) einer Funktion q war gerade so eingerichtet, dass es keine Rolle spielt, ob q
x→x0
in x0 definiert ist.
Der nächste Satz liefert eine Charakterisierung von Differenzierbarkeit, die einen wichtigen
Aspekt dieses Begriffs besser betont: die lokale lineare Approximierbarkeit.
Satz 14.3
Es sei I = ]a, b[ ⊆ R ein offenes Intervall, x0 ∈ I und f : I −→ R eine Funktion.
(a) Die folgenden Aussagen sind äquivalent:
(1) Die Funktion f ist differenzierbar im Punkt x0 mit der Ableitung c = f 0 (x0 ).
(2) Es gibt eine Funktion r : I −→ R, die im Punkt x0 stetig ist und den Wert
r(x0 ) = 0 hat, so dass
f (x) = f (x0 ) + c · (x − x0 ) + r(x) · (x − x0 )
für alle x ∈ I gilt.
(b) Wenn f im Punkt x0 differenzierbar ist, dann ist f dort stetig.
49
Der Punkt zur Bezeichnung der Ableitung f˙ einer Funktion f geht auf Newton zurück. Diese Notation
wird in der theoretischen Physik und in der Differentialgeometrie verwendet, falls mit der Variablen, nach
df
der man differenziert, die Zeit gemeint ist. Vorwiegend sind die Notationen f 0 und dx
gebräuchlich. Die
df
letzte wurde von Leibniz eingeführt. Man nennt dx auch den Differentialquotienten von f . Da es in der
modernen, Weierstraßschen Analysis keine von 0 verschiedenen unendlich kleinen Größen gibt, haben dx
df
und df für uns vorerst keine eigene Bedeutung, und wir können das Symbol dx
nur als Ganzes benutzen. Im
Rahmen der Nicht-Standard-Analysis von A. Robinson kann man formale Definitionen für die Differentiale
dx und df geben, ebenso in der Theorie der Differentialformen. In letzterer haben diese Differentiale allerdings
mit unendlich kleinen“ Größen überhaupt nichts zu tun.
”
216
Beweis.
(a) =⇒ “: Es sei (1) gültig. Wir definieren die Funktion r durch die Formeln in (2); wir
”
setzen also
( f (x)−f (x )
0
− c für x ∈ I \ {x0 } ,
x−x0
r(x) :=
0
für x = x0 .
Aus der Voraussetzung (1) folgt dann die Existenz des Grenzwerts
lim r(x) = f 0 (x0 ) − c = 0 = r(x0 ).
x→x0
Also ist r stetig im Punkt x0 (Satz 9.18 (3)), und somit ist (2) gültig.
⇐=“: Nun wird (2) vorausgesetzt. Aufgrund der Stetigkeit von r in x0 ist dann
”
limx→x0 r(x) = r(x0 ) = 0. Hieraus und aus
f (x) − f (x0 )
= c + r(x)
x − x0
folgt die Existenz des Grenzwerts
lim
x→x0
f (x) − f (x0 )
= lim (c + r(x)) = c + r(x0 ) = c.
x→x0
x − x0
Somit gilt (1).
(b) Im Falle der Differenzierbarkeit folgt aus der Darstellung in (a) (2) insbesondere
limx→x0 f (x) = f (x0 ). Dies bedeutet, dass f im Punkt x0 stetig ist.
Bemerkung 14.4
Wir können die Differenzierbarkeit einer Funktion f : I −→ R im
Punkt x0 ∈ I wie folgt veranschaulichen:
(1) Geometrisch beschreibt der Differenzenquotient
f (x) − f (x0 )
x − x0
die Steigung der Sekante des Graphen von f durch die Punkte (x0 , f (x0 )) und
(x, f (x)). Dass f in x0 differenzierbar ist, bedeutet, dass der Grenzwert dieser Sekantensteigungen beim Grenzübergang x → x0 existiert (Abbildung 30). Die Sekante
geht bei diesem Grenzübergang in die Tangente an den Graphen im Punkt (x0 , f (x0 ))
über; diese wird durch die Gleichung
y = f (x0 ) + f 0 (x0 ) · (x − x0 )
beschrieben. Der Wert f 0 (x0 ) ist die Steigung dieser Tangente.
(2) Ist f in x0 differenzierbar und besitzt daher nach Satz 14.3 (a) die Darstellung
f (x) = f (x0 ) + (f 0 (x0 ) + r(x)) · (x − x0 )
mit in x0 stetigem r und r(x0 ) = 0, so kann f 0 (x0 ) + r(x) in einer kleinen“ Umgebung
”
von x0 durch f 0 (x0 ) angenähert werden, d.h. es ist
f (x) ≈ f (x0 ) + f 0 (x0 ) · (x − x0 )
217
für x nahe bei“ x0 .
”
f
•
•
•
x
x0
Abbildung 30: Sekanten und die Tangente
Hierbei ist y = f (x0 ) + f 0 (x0 ) · (x − x0 ) wiederum die Gleichung der Tangente an den
Graphen von f im Punkt (x0 , f (x0 )).50
In diesem Sinne kann man Differenzierbarkeit als (lokale) lineare Approximierbarkeit
interpretieren. Dies wird sich später als der Schlüssel erweisen, um den Differenzierbarkeitsbegriff auf Funktionen von mehreren Variablen zu verallgemeinern.
Beispiel 14.5
(1) Es sei f (x) = ax + b mit reellen Zahlen a und b. Für jedes x0 ∈ R ist dann der
Differenzenquotient
f (x) − f (x0 )
= a.
x − x0
Folglich ist f überall differenzierbar mit f 0 (x) = a: Die Ableitung ist die konstante
Funktion mit dem Wert a. Das Ergebnis ist anschaulich klar, denn der Graph von f
ist eine Gerade mit der Steigung a.
(2) In Bemerkung 12.24 (2) hatten wir aus der Reihendarstellung der Exponentialfunktion
die Existenz des Grenzwerts
ez − 1
lim
=1
z→0
z
50
Selbstverständlich ist damit nichts darüber ausgesagt, wie groß oder klein die Umgebung von x ist, in
der diese Approximation gut“ ist; ohnehin handelt es sich bei suggestiven Formulierungen wie annähern“
”
”
und klein“ um mathematisch unpräzise Sprechweisen – die man allerdings mithilfe von ε-δ-Formulierungen
”
(wie sie ja auch der Grenzwertdefinition zugrundeliegen!) präzisieren kann. Global gesehen wird sich f (x)
jedenfalls i.Allg. stark von der approximierenden Tangente unterscheiden.
218
hergeleitet. Hierbei waren für den Grenzübergang z → 0 sogar komplexe z zugelassen.
Erst recht existiert der reelle Grenzwert
ex − e0
ex − 1
= lim
= 1,
x→0 x − 0
x→0
x
exp0 (0) = lim
also die Ableitung der Exponentialfunktion im Nullpunkt. Mit dem Additionstheorem
folgt nun für beliebige x0 ∈ R die Existenz des Grenzwerts
exp0 (x0 ) = lim
x→x0
ex−x0 − 1
ex − ex0
eh − 1
= ex0 · lim
= ex0 · lim
= e x0 .
x→x0 x − x0
h→0
x − x0
h
Dies zeigt, dass die Exponentialfunktion auf ganz R differenzierbar ist und dass
exp0 = exp
gilt.
(3) Die Funktion f (x) := |x| ist auf R stetig. Wie im ersten Beispiel erhält man f 0 (x0 ) = 1
für alle x0 > 0 und f 0 (x0 ) = −1 für alle x0 < 0. Wegen
|x|
|x|
f (x) − f (0)
f (x) − f (0)
= lim
= 1 6= −1 = lim
= lim
x→0+ x
x→0− x
x→0−
x→0+
x−0
x−0
lim
ist f im Punkt 0 nicht differenzierbar.
Warnung: Stetige Funktionen müssen nicht differenzierbar sein.
Die volle Wahrheit ist noch erstaunlicher: Es gibt Funktionen f : R −→ R, die überall
stetig, aber nirgends differenzierbar sind. Ein Beispiel steht u.a. in [Königsberger 1, S.
153]. Das erste solche Beispiel hat Weierstraß 1861 bekannt gemacht: Die Funktion
f (x) :=
∞
X
cos(an πx)
n=0
mit b > 1 und
bn
a
3π
>1+
b
2
hat die geforderten Eigenschaften. (Ein Beispiel von Bolzano aus dem Jahr 1834 wurde
erst später bekannt.)
Das letzte Beispiel gibt Anlass, einseitige Ableitungen einzuführen:
Definition 14.6 Es sei f : I −→ R eine Funktion auf einem echten Intervall I, und es
sei x0 ∈ I. Falls die einseitigen Grenzwerte
f (x) − f (x0 )
x→x0 +
x − x0
f 0 (x0 +) := lim
bzw.
f (x) − f (x0 )
x→x0 −
x − x0
f 0 (x0 −) := lim
existieren (als reelle Zahlen), so nennt man sie die rechtsseitige bzw. linksseitige Ableitung von f im Punkt x0 .
219
Bemerkung 14.7
(1) Geometrisch bedeutet die Existenz einseitiger Ableitungen, dass der Graph von f im
Punkt (x0 , f (x0 )) Halbtangenten besitzt; darunter versteht man die beiden Halbgeraden
{(x0 + t, f (x0 ) + tf 0 (x0 +)) | t ≥ 0},
{(x0 + t, f (x0 ) + tf 0 (x0 −)) | t ≤ 0}.
(2) Anders als in Definition 14.1 haben wir hier nicht vorausgesetzt, dass das Definitionsintervall I offen ist: Der Begriff der einseitigen Ableitung ist auch und gerade dann
sinnvoll, wenn x0 ein Randpunkt von I ist. (In diesem Fall kann natürlich nur allenfalls
eine der beiden einseitigen Ableitungen existieren; im Fall eines linken Randpunktes
beispielsweise ist die Frage nach einer linksseitigen Ableitung nicht sinnvoll.)
Ist x0 hingegen ein innerer Punkt von I und existieren die einseitigen Ableitungen
f 0 (x0 +) und f 0 (x0 −) und sind gleich, so ist f differenzierbar in x0 .
Beispiel 14.8
(1) Für die Funktion f (x) := | sin(x)| gilt
f (x)
f (x) − f (0)
=
=
x−0
x
sin x
x
− sinx x
für 0 < x < π,
für − π < x < 0.
Mit Korollar 12.16 folgt, dass im Nullpunkt die einseitigen Ableitungen
f 0 (0+) := lim
x→0+
f (x) − f (0)
= 1,
x−0
f 0 (0−) := lim
x→0−
f (x) − f (0)
= −1
x−0
existieren. Jedoch ist f im Nullpunkt nicht differenzierbar. Abbildung 31 zeigt neben
dem Graphen von f auch die oben erwähnten Halbtangenten im Punkt (0, 0).
Abbildung 31: Der Graph von x 7→ | sin(x)|
(2) Wir wollen nun ein Beispiel einer stetigen Funktion betrachten, bei der im Nullpunkt
die einseitigen Ableitungen nicht existieren.
Aus Beispiel 9.13 (4) wissen wir, dass die durch
(
x sin x1 für x 6= 0,
f (x) :=
0
für x = 0
definierte Funktion f : R −→ R stetig ist – auch in x = 0. Den Graphen zeigt Abbildung 32. Wir werden alsbald (mithilfe der Produkt- und Kettenregel) auch begründen
220
0.05
0.025
-0.1
-0.05
0.05
0.1
-0.025
-0.05
-0.075
Abbildung 32: Das Verhalten von x 7→ x sin x1 nahe bei 0
können, dass f auf ganz R \ {0} differenzierbar ist. Hier interessiert uns allerdings die
Frage der Differenzierbarkeit in x = 0, und für diese müssen wir auf die Definition von
Differenzierbarkeit zurückgreifen: Für alle x 6= 0 ist
f (x) − f (0)
f (x)
1
=
= sin .
x−0
x
x
Der Grenzwert limx→0
differenzierbar.
f (x)−f (0)
x−0
existiert nicht51 . Daher ist f im Punkt x = 0 nicht
Auch die links- und rechtsseitigen Ableitungen f 0 (0−) und f 0 (0+) existieren nicht.
Bisher hatten wir Differenzierbarkeit nur für Funktionen auf offenen Intervallen erklärt. Wir
können die Definition nun auf Funktionen verallgemeinern, die auf beliebigen Intervallen
definiert sind.
Definition 14.9 Eine Funktion f : I −→ R auf einem kompakten Intervall I = [a, b]
nennt man differenzierbar in a bzw. in b , falls die rechtsseitige Ableitung f 0 (a+) bzw.
die linksseitige Ableitung f 0 (b−) existiert.
Eine Funktion f : I −→ R auf einem beliebigen Intervall heißt differenzierbar, falls sie in
jedem Punkt x0 ∈ I differenzierbar ist (im Falle eines Randpunktes im soeben definierten
Sinne, im Falle eines inneren Punktes im Sinne von Definition 14.1).
51
Darin spiegelt sich gerade der aus Beispiel 9.13 (3) bekannte Umstand wider, dass die auf R \ {0}
definierte Funktion x 7→ sin x1 nicht stetig in den Nullpunkt fortsetzbar ist.
221
Bemerkung 14.10 Satz 14.3 bleibt sinngemäß auch für den Fall gültig, dass eine Funktion in einem Randpunkt des Definitionsintervalls differenzierbar (im soeben definierten Sinne)
ist. Wir können daher in zukünftigen Anwendungen dieses Satzes auf die Offenheitsvoraussetzung verzichten.
14.2
Rechenregeln
Satz 14.11 (Rechenregeln für Ableitungen)
Es sei I = ]a, b[ ⊆ R ein offenes
Intervall und x0 ∈ I. Die Funktionen f : I −→ R und g : I −→ R seien in x0 differenzierbar.
Dann gilt:
(1) Für jedes a ∈ R ist a · f im Punkt x0 differenzierbar mit der Ableitung
(af )0 (x0 ) = a · f 0 (x0 ).
(2) Die Summe f + g ist in x0 differenzierbar mit der Ableitung
(f + g)0 (x0 ) = f 0 (x0 ) + g 0 (x0 ).
(3) (Produktregel) Das Produkt f · g ist in x0 differenzierbar mit der Ableitung
(f · g)0 (x0 ) = f 0 (x0 ) · g(x0 ) + f (x0 ) · g 0 (x0 ).
(4) (Quotientenregel) Wenn g(x0 ) 6= 0 ist, dann ist die Funktion
mit der Ableitung
0
f
f 0 · g − f · g0
(x0 ) =
(x0 ) .
g
g2
f
g
differenzierbar in x0
Beweis. Wir setzen α := f 0 (x0 ) und β := g 0 (x0 ). Nach Voraussetzung und nach Satz 14.3
(a) gibt es reellwertige Funktionen r1 und r2 auf I, die im Punkt x0 stetig sind mit r1 (x0 ) =
r2 (x0 ) = 0 und mit denen die Identitäten
f (x) = f (x0 ) + (α + r1 (x)) · (x − x0 ),
g(x) = g(x0 ) + (β + r2 (x)) · (x − x0 )
für alle x ∈ I gelten. Die Funktionen a · r1 und r1 + r2 sind nach Satz 9.8 (1) stetig in x0
und haben dort den Wert 0. Es gelten die Identitäten
(af )(x) = (af )(x0 ) + (aα + ar1 (x)) · (x − x0 ) ,
(f + g)(x) = (f + g)(x0 ) + (α + β + (r1 + r2 )(x)) · (x − x0 ) .
Hieraus und aus Satz 14.3 (a) folgen die Behauptungen (1) und (2).
Aus den Voraussetzungen folgt die Identität
(f g)(x) = (f g)(x0 ) + (αg(x0 ) + βf (x0 )) · (x − x0 ) + r(x) · (x − x0 ) ,
worin
r(x) := f (x0 ) · r2 (x) + g(x0 ) · r1 (x) + (α + r1 (x)) · (β + r2 (x)) · (x − x0 )
222
gesetzt ist. Nach Satz 9.8 ist r im Punkt x0 stetig; der Wert dort ist r(x0 ) = 0. Hieraus und
aus Satz 14.3 (a) folgt die Behauptung (3).
Es sei g(x0 ) 6= 0. Aus der Offenheit von I und aus der Stetigkeit von g in x0 in Verbindung mit
dem Permanenzprinzip (Lemma 9.5) folgt, dass x0 ein innerer Punkt des Definitionsbereiches
D := {x ∈ I | g(x) 6= 0} des Quotienten f /g ist. Für alle x ∈ D gilt
1
g(x) − g(x0 )
β + r2 (x)
1
−
=−
=−
· (x − x0 ) .
g(x) g(x0 )
g(x) · g(x0 )
g(x) · g(x0 )
Nach Division durch x − x0 ergibt sich hieraus die Differenzierbarkeit von 1/g in x0 und
0
1
− g(x10 )
1
β + r2 (x)
β
g0
g(x)
= − lim
=−
(x0 ) = lim
=
−
(x0 ),
x→x0 g(x)g(x0 )
x→x0
g
x − x0
(g(x0 ))2
g2
wobei wir abermals die Stetigkeit von r2 in x0 und r2 (x0 ) = 0 ausgenutzt haben. Hieraus
und aus der Produktregel in (3) folgt
0
0
1
f
1
f 0 · g − f · g0
0
+ f (x0 ) ·
(x0 ) = f (x0 ) ·
(x0 ) =
(x0 ),
g
g(x0 )
g
g2
also die Behauptung (4).
Satz 14.12 (Kettenregel)
Es seien I und J echte Intervalle. Die Funktion f : I −→ J
sei im Punkt x0 ∈ I differenzierbar, und die Funktion g : J −→ R sei im Punkt y0 := f (x0 )
differenzierbar. Dann ist die Funktion g ◦ f im Punkt x0 differenzierbar mit der Ableitung
(g ◦ f )0 (x0 ) = g 0 (y0 ) · f 0 (x0 ).
Falls f auf I und g auf J differenzierbar sind, dann ist g ◦ f auf I differenzierbar mit
(g ◦ f )0 = (g 0 ◦ f ) · f 0 .
Beweis. Es genügt, die erste Behauptung zu beweisen. Wir setzen α := f 0 (x0 ) und β :=
g 0 (y0 ). Nach Satz 14.3 (a) gelten dann die Identitäten52
f (x) = y0 + (α + r1 (x)) · (x − x0 ),
g(y) = g(y0 ) + (β + r2 (y)) · (y − y0 ),
worin r1 : I −→ R stetig im Punkt x0 und r2 : J −→ R stetig im Punkt y0 ist und
r1 (x0 ) = r2 (y0 ) = 0 gilt. Es folgt
(g ◦ f )(x) − (g ◦ f )(x0 ) = (β + r2 (f (x))) · (f (x) − y0 )
= (β + r2 (f (x))) · (α + r1 (x)) · (x − x0 )
= (βα + r(x)) · (x − x0 )
mit
r(x) := βr1 (x) + αr2 (f (x)) + r2 (f (x)) · r1 (x).
Die hierdurch definierte Funktion r ist nach den Sätzen 9.8 und 9.9 im Punkt x0 stetig mit
dem Wert r(x0 ) = 0. Nach Satz 14.3 (a) ist g ◦ f somit differenzierbar im Punkt x0 mit der
Ableitung
(g ◦ f )0 (x0 ) = βα = g 0 (f (x0 )) · f 0 (x0 ).
52
Dies gilt auch für den Fall, dass x0 bzw. y0 Randpunkte der betreffenden Definitionsintervalle sind, vgl.
Bemerkung 14.10.
223
Merkregel: Wenn wir in Satz 14.12 y = f (x) und z = g(y) = g(f (x)) schreiben, lautet
die Kettenregel im Leibnizschen Kalkül
dz
dy
dz
(x0 ) = (y0 ) · (x0 ).
dx
dy
dx
Wenn man die Argumentstellen weglässt, bekommt man
dz
dz dy
=
· .
dx
dy dx
Das sieht so aus, als könne man das Differential dy im Zähler und im Nenner einfach
wegkürzen. Als Merkregel ist diese suggestive Schreibweise gut geeignet. Sie hat jedoch keinerlei Beweiswert, da die Differentiale dx, dy, dz nicht definiert sind und daher auch nicht
naiv gekürzt werden können.
Beispiel 14.13
(1) Es sei fn (x) := xn . Dann gilt fn0 (x) = nxn−1 für alle n ∈ Z und alle x ∈ R (falls n ≥ 0)
bzw. alle x ∈ R \ {0} (falls n < 0).
Dies beweist man am einfachsten induktiv mithilfe der Produktregel: Für n = 0 und
n = 1 ist die Behauptung klar nach Beispiel 14.5 (1), und aus der Gültigkeit für ein n
folgt
0
fn+1
(x) = (f1 · fn )0 (x)
= f10 (x) · fn (x) + f1 (x) · fn0 (x)
= 1 · xn + x · nxn−1
= (n + 1) · xn .
Vermöge vollständiger Induktion gilt die Behauptung also für alle n ∈ N.
Damit und mit der Quotientenregel folgt für alle n ∈ N und alle x 6= 0:
0
f−n
(x) =
f 0 (x)
n · xn−1
d 1
=− n
=
−
= −nx−n−1 .
2
2n
dx fn (x)
(fn (x))
x
Daher gilt die Behauptung sogar für alle n ∈ Z.
(2) Aus (1) und aus Satz 14.11 (1)/(2) folgt, dass jede Polynomfunktion
p(x) := a0 + a1 x + a2 x2 + . . . + an xn
auf R differenzierbar ist und die Ableitung
p0 (x) = a1 + 2a2 x + . . . + nan xn−1
hat. Hieraus und aus der Quotientenregel (4) in Satz 14.11 folgt weiter, dass jede
rationale Funktion in jedem Punkt ihres Definitionsbereichs differenzierbar ist und
dass die Ableitung ebenfalls eine rationale Funktion ist.
224
(3) Es sei a > 0 und f (x) := ax = exp(x·log(a)). Aus Beispiel 14.5 (2) und der Kettenregel
(Satz 14.12) erhält man
f 0 (x) = exp(x · log(a)) · log(a) = ax · log(a),
also
d x
a = log(a) · ax .
dx
(4) Aus der Ableitung von exp erhält man nun auch die Ableitungen der hyperbolischen
Funktionen: Es ist
d
d 1 x
1
−x
cosh(x) =
(e + e ) = (ex − e−x ) = sinh(x) ,
dx
dx 2
2
d
d 1 x
1
sinh(x) =
(e − e−x ) = (ex + e−x ) = cosh(x) .
dx
dx 2
2
Auf R gilt also
cosh0 = sinh,
sinh0 = cosh .
(5) Die trigonometrischen Funktionen cos(x) = 21 (eix + e−ix ) und sin(x) = 2i1 (eix − e−ix )
kann man nicht genauso wie im vorigen Beispiel behandeln, denn in der Kettenregel
(Satz 14.12) sind keine komplexwertigen Funktionen vorgesehen. Man könnte warten,
bis der Satz über das Differenzieren von Potenzreihen (Satz 20.12) verfügbar ist. Schneller kommen wir zum Ziel, indem wir das Additionstheorem des Sinus (Satz 12.14 (6))
mit den aus Korollar 12.16 bekannten Grenzwerten
cos z − 1
sin z
=1
und
lim
=0
lim
z→0
z→0 z
z
verbinden: Es sei ein x0 ∈ R gegeben. Für alle h ∈ R gilt dann
1
sin(x0 + h) − sin x0
=
· (sin x0 · cos h + cos x0 sin h − sin x0 )
h
h
cos h − 1
sin h
= sin x0 ·
+ cos x0 ·
.
h
h
Mit den genannten Grenzwerten ergibt sich die Existenz des Grenzwerts
sin(x0 + h) − sin x0
= sin x0 · 0 + cos x0 · 1 = cos x0 .
h→0
h
lim
Also ist der Sinus an der Stelle x0 differenzierbar mit sin0 x0 = cos x0 . Da dies für alle
x0 ∈ R gilt, ist also sin0 = cos .
Für den Cosinus könnte man genauso vorgehen. Man kann aber auch die Identität
π
cos(x) = sin x +
2
aus Satz 12.20 (2) verwenden. Hiermit und aus der Kettenregel (Satz 14.12) folgt dann
π
π
cos0 (x) = sin0 x +
· 1 = cos x +
= sin(x + π) = − sin(x).
2
2
Somit sind die trigonometrischen Funktionen Sinus und Cosinus auf R differenzierbar
mit den Ableitungen
sin0 = cos,
cos0 = − sin .
225
(6) Wichtige trigonometrische Funktionen sind neben dem Sinus und dem Cosinus noch
der Tangens und der Cotangens. Sie werden durch die Formeln
sin(x)
cos(x)
tan(x) :=
,
cot(x) :=
cos(x)
sin(x)
definiert. Ihre Definitionsbereiche im Reellen sind die Komplemente der Nullstellenmengen der jeweiligen Nenner, also im Falle des Tangens R \ {(2k + 1) · π2 | k ∈ Z}
beziehungsweise im Falle des Cotangens R \ {kπ | k ∈ Z} . Aus der Quotientenregel,
den Formeln in (5) und aus der Identität sin2 + cos2 = 1 in Satz 12.14 erhält man
1
cos2 (x) + sin2 (x)
= 1 + tan2 (x) =
tan (x) =
2
cos (x)
cos2 (x)
0
und ebenso
cot0 (x) = −1 − cot2 (x) =
−1
.
sin2 (x)
Aus der Differenzierbarkeit einer injektiven Funktion f , deren Ableitung nirgends verschwindet, kann man auf die Differenzierbarkeit und auf den Wert der Ableitung der Umkehrfunktion f −1 schließen. Weil der Graph von f −1 aus dem Graphen von f durch Spiegelung an
der Geraden y = x hervorgeht, gilt dasselbe für Tangenten. Daher ist der folgende Satz
anschaulich klar.
Satz 14.14 (Ableitung der Umkehrfunktion)
Es sei I ein echtes Intervall. Die
Funktion f : I −→ R sei stetig und streng monoton und im Punkt x0 ∈ I differenzierbar
mit f 0 (x0 ) 6= 0. Dann ist die Umkehrfunktion f −1 : f (I) −→ I im Punkt y0 := f (x0 )
differenzierbar, und die Ableitung ist
1
1
= 0
.
(f −1 )0 (y0 ) = 0 −1
f (f (y0 ))
f (x0 )
Beweis. Da f stetig ist, ist f (I) nach Korollar 10.10 ein Intervall. Wir setzen g := f −1 und
c := f 0 (x0 ). Für alle x ∈ I gilt gemäß Satz 14.3 (a)
f (x) − f (x0 ) = (c + r(x)) · (x − x0 )
mit einer Funktion r : I −→ R, die im Punkt x0 stetig ist und den Wert r(x0 ) = 0 hat. Nach
Voraussetzung gilt c 6= 0, und aus der Injektivität von f folgt sogar c + r(x) 6= 0 für alle
x ∈ I. Deshalb folgt
1
x − x0
=
für alle x ∈ I \ {x0 } .
f (x) − f (x0 )
c + r(x)
Für alle y ∈ f (I) folgt daher
g(y) − x0
1
g(y) − g(y0 )
=
=
.
y − y0
f (g(y)) − f (x0 )
c + r(g(y))
Da r stetig in x0 und g nach Satz 10.14 stetig auf f (I) ist, ist die auf f (I) definierte Funktion
1
% : y 7→
c + r(g(y))
im Punkt y0 stetig mit dem Wert %(y0 ) = 1c . Es folgt daher, dass die Ableitung
g(y) − g(y0 )
1
1
= lim %(y) = %(y0 ) = = 0
y→y0
y→y0
y − y0
c
f (x0 )
existiert. Dies zeigt die Behauptung.
g 0 (y0 ) = lim
226
f
f −1
Abbildung 33: Ableitung der Umkehrfunktion
Bemerkung 14.15
Die Formel in Satz 14.14 für die Ableitung der Umkehrfunktion kann
man auch herleiten, indem man die Identität
(f ◦ f −1 )(y) = y
für alle y ∈ f (I)
mithilfe der Kettenregel differenziert. Dabei ergibt sich nämlich
f 0 (f −1 (y)) · (f −1 )0 (y) = 1,
also
(f −1 )0 (y) =
1
f 0 (f −1 (y))
für alle y ∈ f (I).
Diese Betrachtung ist eine gute Merkhilfe, aber kein Beweis von Satz 14.14, denn hierbei
wird bereits die Differenzierbarkeit von f −1 vorausgesetzt!
Beispiel 14.16
(1) Für f (x) := ex ist f −1 (y) = log(y). Aus exp0 = exp und Satz 14.14 folgt
log0 (x) =
1
1
1
=
=
.
exp0 (log(x))
exp(log(x))
x
Somit ist die Logarithmusfunktion auf ihrem Definitionsbereich ]0, ∞[ differenzierbar
mit der Ableitung
1
log0 (x) = .
x
d
(2) Gemäß Beispiel 14.13 gilt dx
(xn ) = n · xn−1 für alle n ∈ N. Wir können diese Formel
jetzt mithilfe von (1) und der Kettenregel (Satz 14.12) auf beliebige reelle Exponenten
anstelle der natürlichen Zahl n verallgemeinern: Es ist
d α
d
1
α
(x ) =
(exp(α · log x)) = exp(α · log x) · α · = · xα = α · xα−1 .
dx
dx
x
x
227
(3) Das nächste Beispiel belegt, dass man in Satz 14.14 auf die Voraussetzung f 0 (x0 ) 6= 0
nicht verzichten kann:
Es sei f (x) := xn für x ∈ [0, ∞[ mit einem n ∈ N. Diese Funktion ist stetig und streng
monoton steigend, und sie hat die auf [0, ∞[ definierte Umkehrfunktion
√
f −1 : y 7→ n y.
Wir setzen nun n ≥ 2 voraus. Dann ist
1
f −1 (y) − f −1 (0)
= lim y n −1 = ∞.
y→0+
y→0+
y−0
lim
Hiernach ist g im Punkt y0 = 0 nicht differenzierbar. Dies liegt daran, dass die Voraussetzung f 0 (x0 ) 6= 0 in Satz 14.14 im Punkt x0 = f −1 (0) = 0 verletzt ist. Geometrisch
besagt unser Ergebnis, dass der Graph von f −1 im Punkt (0, 0) eine vertikale Halbtangente hat.
(4) Der Sinus hyperbolicus bildet R bijektiv auf sich ab. Die Umkehrfunktion heißt der
Areasinus hyperbolicus, und sie wird üblicherweise mit
Arsinh := sinh−1
bezeichnet. Wir wollen die Ableitung dieser Funktion berechnen. Weil sinh0 (x) =
cosh(x) ≥ 1 für alle reellen x ist, kann man Satz 14.14 in jedem Punkt anwenden.
Nutzt man noch die Identität cosh2 − sinh2 = 1 aus Satz 12.14 (3) sowie cosh t ≥ 0 für
alle t ∈ R, so folgt
1
1
=
Arsinh0 (x) =
0
cosh(Arsinh(x))
sinh (Arsinh(x))
1
1
,
= p
=√
1 + x2
1 + (sinh(Arsinh(x)))2
also
d
1
Arsinh(x) = √
dx
1 + x2
für alle x ∈ R.
Der hyperbolische Cosinus bildet das Intervall [0, ∞[ streng monoton steigend auf das
Intervall [1, ∞[ ab. Die Umkehrfunktion heißt der Areacosinus hyperbolicus und
wird mit
Arcosh : [1, ∞[−→ [0, ∞[
bezeichnet. Aus Satz 14.14 folgt die Differenzierbarkeit dieser Funktion auf ]1, ∞[, und
wie zuvor findet man eine Formel für ihre Ableitung.
Als Konsequenz aus dem Resultat über die Ableitung des Logarithmus gewinnen wir eine
interessante neue Grenzwertdarstellung der Exponentialfunktion:
Korollar 14.17
Für alle x ∈ R gilt
lim
n→∞
Insbesondere ist
1+
x n
= ex .
n
n
1
lim 1 +
= e.
n→∞
n
228
Beweis. Für x = 0 ist die Behauptung klar. Daher dürfen wir x 6= 0 annehmen.
Nach Beispiel 14.16 (1) ist der Logarithmus differenzierbar mit log0 (1) = 1. Dies bedeutet
log(1 + h)
= log0 (1) = 1.
h→0
h
Für alle reellen x 6= 0 folgt hieraus
lim
log(1 + hx)
log(1 + hx)
= x · lim
= x.
h→0
h→0
h
hx
!
log 1 + nx
x n
1+
= exp
1
n
n
lim
Hieraus und aus
folgt nun wegen der Stetigkeit der Exponentialfunktion
x n
lim 1 +
= ex
für alle x ∈ R.
n→∞
n
Bemerkung 14.18
Die Exponentialfunktion tritt in natürlicher Weise bei der Zinseszinsrechnung auf: Ein zum Zinssatz q angelegtes und jährlich verzinstes Kapital K wächst
nach N Jahren unter Berücksichtigung der Zinseszinsen auf den Betrag K(1 + q)N an.
Wenn die Zinsen monatlich oder sogar täglich gut geschrieben und weiter verzinst
wer
q 12
bezieden, dann ist das Kapital nach einem Jahr bereits auf den Betrag K 1 + 12
q 365
hungsweise K 1 + 365
angewachsen. Kann man durch unbeschränkte Verkleinerung der
Zinsintervalle einen beliebig großen Gewinn erzielen? Korollar 14.17 zeigt, dass dies nicht
der Fall ist: Bei kontinuierlicher“ Zinsgutschrift beträgt das Kapital nach einem Jahr
”
n
= Keq . Für kleine“ Zinssätze q ist dies nur unwesentlich mehr als
limn→∞ K 1 + nq
”
K(1 + q), d.h. als das bei lediglich jährlicher Zinsgutschrift nach einem Jahr vorhandene
Kapital.
14.3
Höhere Ableitungen und stetige Differenzierbarkeit
Die Ableitung einer differenzierbaren Funktion ist selbst eine Funktion, die man auf Differenzierbarkeit untersuchen kann. Dies führt auf den Begriff der mehrfachen Differenzierbarkeit:
Definition 14.19 Es sei eine differenzierbare Funktion f : I −→ R auf einem Intervall
I ⊆ R gegeben. Falls die Ableitung
f 0 : I −→ R,
x 7→ f 0 (x)
in einem Punkt x0 ∈ I selbst differenzierbar ist, so nennen wir f 00 (x0 ) := (f 0 )0 (x0 ) die
zweite Ableitung von f in x0 . Ist f 0 in jedem Punkt x0 ∈ R differenzierbar, so nennen
wir f zweimal differenzierbar. Allgemein definiert man rekursiv die n-te Ableitung f (n)
von f als Ableitung von f (n−1) , sofern f (n−1) differenzierbar ist; in diesem Fall sagt man,
f sei n-mal differenzierbar. Man nennt f unendlich oft differenzierbar, falls die n-te
Ableitung f (n) für alle n ∈ N existiert.
Die n-te Ableitung bezeichnet man oft auch mit
Für n = 1, 2, 3 schreibt man statt f (n)
dn f
.
dxn
meist f 0 , f 00 , f 000 .
229
In vielen unserer Beispiele existiert die Ableitung nicht nur, sondern sie ist sogar eine stetige
Funktion. Dies motiviert die folgende Definition:
Definition 14.20 Eine Funktion f : I −→ R auf einem Intervall I ∈ R heißt stetig
differenzierbar, falls f differenzierbar und die Ableitung f 0 stetig ist. Allgemeiner nennt
man f n-mal stetig differenzierbar, falls f n-mal differenzierbar und die n-te Ableitung
f (n) stetig ist. Man setzt
C(I) = C 0 (I) := {f : I −→ R | f stetig auf I} ,
C n (I) := {f : I −→ R | f n-mal stetig differenzierbar auf I} ,
C ∞ (I) := {f : I −→ R | f unendlich oft stetig differenzierbar auf I} .
Wenn man in den Sätzen 14.11, 14.12 und 14.14 statt Differenzierbarkeit sogar stetige Differenzierbarkeit der Funktionen f und g (auf dem gesamten Definitionsintervall) voraussetzt,
so kann man schließen, dass die auftretenden Verknüpfungen f + g, f · g, g ◦ f , f −1 etc.
ebenfalls stetig differenzierbar sind. Denn die Stetigkeit der Ableitungen dieser Funktionen
ergibt sich aus den Rechenregeln für stetige Funktionen.
Die differenzierbaren Funktionen, die uns bisher begegnet waren, waren allesamt stetig differenzierbar. Dies sollte nicht zu der Annahme verführen, Ableitungen seien grundsätzlich
stetig; dass es sich hierbei um einen Fehlschluss handelt, illustrieren die folgenden beiden
Beispiele:
Beispiel 14.21
(1) Wir definieren f : R −→ R durch
(
f (x) :=
x2 sin x1
für x 6= 0,
0
für x = 0.
Aus den vorangegangenen Rechenregeln und Beispielen erhält man, dass f auf R \ {0}
differenzierbar ist mit
1
1
1
1
1
0
2
f (x) = 2x · sin + x · cos · − 2 = 2x · sin − cos
x
x
x
x
x
für alle x 6= 0. Für alle reellen x 6= 0 ist | sin(x)| ≤ 1, also |x · sin x1 | ≤ |x|. Daher
existiert der Grenzwert
f (x) − f (0)
f (x)
1
= lim
= lim x · sin = 0,
x→0
x→0 x
x→0
x−0
x
f 0 (0) = lim
d.h. f ist auch in x = 0 differenzierbar mit f 0 (0) = 0. Somit ist f auf ganz R differenzierbar mit
2x · sin x1 − cos x1 , falls x 6= 0,
0
f (x) =
0,
falls x = 0.
Für x 6= 0 hat der erste Term in der Formel für f 0 (x) den Grenzwert 0 für x → 0,
während der zweite Term cos x1 in jeder punktierten Umgebung von 0 jeden Wert
230
0.00006
0.00004
0.00002
-0.01
-0.005
0.005
0.01
-0.00002
-0.00004
Abbildung 34: Das Verhalten von x 7→ x2 sin x1 nahe bei 0
zwischen −1 und 1 annimmt. Daher existiert der Grenzwert von f 0 (x) für x → 0 nicht,
und somit ist die Ableitung f 0 im Punkt 0 unstetig: Sie hat dort eine Oszillationsstelle.
Abbildung 34 zeigt den Graphen von f in einer kleinen“ Umgebung von 0. Der zu”
gehörige Graph von f 0 sieht fast genauso aus wie der uns aus Beispiel 9.13 (3) wohlbekannte Graph von x 7→ sin x1 .
(2) Stetige reellwertige Funktionen auf Kompakta sind beschränkt; genauer: Sie haben
dort ein Maximum und ein Minimum (Korollar 10.3). Wie wir soeben gesehen haben,
müssen Ableitungen nicht stetig sein. Es gibt daher auch keinen Grund anzunehmen,
dass Ableitungen auf Kompakta beschränkt sind. Ein Gegenbeispiel erhält man, indem
man die Funktion aus (1) leicht variiert:
Es sei
(
f (x) :=
x2 sin x12
für x ∈ R \ {0} ,
0
für x = 0.
Wie in (1) sieht man, dass f auf ganz R differenzierbar ist mit
2x · sin x12 − x2 · cos x12 , falls x 6= 0
0
f (x) =
0,
falls x = 0
Hieraus sieht man sofort die Unbeschränktheit von f 0 auf jedem kompakten Intervall
[−ε; ε] mit ε > 0. Wir werden später (Beispiel 22.13) zeigen, dass der Graph von f auf
jedem solchen Intervall unendliche Länge hat.
231
200
0.1
0.05
100
-0.4
-0.2
0.2
0.4
-0.05
-0.3
-0.2
-0.1
0.1
0.2
0.3
-0.1
-100
-0.15
-200
-0.2
Abbildung 35: Die Graphen von f (x) := x2 sin x12 und f 0 nahe bei 0
Ähnlich wie in Beispiel 14.21 kann man Funktionen f konstruieren, die überall differenzierbar
sind, deren Ableitung f 0 aber viele“ Unstetigkeitsstellen besitzt. Allerdings kann man zeigen,
”
dass f 0 nicht überall unstetig sein kann (vgl. [Gelbaum/Olmsted, S. 53]).
Abbildung 36: Zu den Funktionen aus Beispiel 14.21 (Zeichnung: Jens Jordan)
232
15
Die Mittelwertsätze der Differentialrechnung und
Folgerungen daraus
Was lässt sich aus der Differenzierbarkeit einer Funktion f und aus Eigenschaften der Ableitung f 0 über den Verlauf von f selber folgern? Der Inhalt dieses Kapitels besteht aus
verschiedenen Antworten auf diese Frage. Zuerst begründen wir eine wohlbekannte Methode
zur Ermittlung von Extremalstellen von Funktionen. Das betreffende Resultat über stetige
Funktionen in Korollar 10.3 trifft nur eine Existenzaussage.
15.1
Lokale Extrema und stationäre Punkte
Definition 15.1 Es sei D eine Teilmenge eines metrischen Raumes, x0 ∈ D und
f : D −→ R eine reellwertige Funktion auf D. Die Funktion f hat ein lokales Maximum
in x0 , wenn es ein δ > 0 gibt mit
f (x) ≤ f (x0 )
für alle x ∈ D ∩ Uδ (x0 ).
Die Funktion f hat ein striktes lokales Maximum in x0 , wenn es ein δ > 0 gibt mit
f (x) < f (x0 )
für alle x ∈ D ∩ (Uδ (x0 ) \ {x0 }).
Analog definiert man ein lokales Minimum bzw. striktes lokales Minimum von f in x0 .
Die Funktion f hat ein (striktes) lokales Extremum in x0 , falls sie in x0 ein (striktes)
lokales Maximum oder ein (striktes) lokales Minimum hat. Die Stelle x0 nennt man in diesen
Fällen eine (strikte) lokale Extremal- bzw. Maximal- bzw. Minimalstelle.
Satz 15.2 (Notwendige Bedingung für lokale Extrema)
Es sei I ein Intervall und
x0 ein innerer Punkt von I. Die Funktion f : I −→ R habe im Punkt x0 ein lokales Extremum
und sie sei in x0 differenzierbar. Dann gilt f 0 (x0 ) = 0.
Wir geben zwei Beweise für diesen wichtigen Satz:
Beweis 1. O.B.d.A. dürfen wir annehmen, dass x0 ein lokales Maximum ist. Deshalb und
weil x0 ein innerer Punkt von I ist, existiert dann ein δ > 0 mit Uδ (x0 ) ⊆ I und
f (x) ≤ f (x0 )
für alle x ∈ Uδ (x0 ).
Es folgt
f (x) − f (x0 )
x − x0
(
≥0
für alle x ∈ Uδ (x0 ) mit x < x0 ,
≤0
für alle x ∈ Uδ (x0 ) mit x > x0 .
Da f differenzierbar ist, können wir hierin den Grenzübergang x → x0 ausführen und erhalten einerseits
f (x) − f (x0 )
f 0 (x0 ) = lim
≥ 0,
x→x0 −
x − x0
andererseits
f (x) − f (x0 )
f 0 (x0 ) = lim
≤ 0,
x→x0 +
x − x0
so dass f 0 (x0 ) = 0 sein muss.
233
Beweis 2. Wir setzen c := f 0 (x0 ). Nach Satz 14.3 (a) gilt
f (x) − f (x0 ) = (c + r(x)) · (x − x0 )
für alle x ∈ I, worin r : I −→ R eine Funktion ist, die im Punkt x0 stetig ist und den Wert
r(x0 ) = 0 hat.
Wir nehmen an, es wäre c 6= 0. Nach dem Permanenzprinzip in Lemma 9.5 gibt es dann eine
Umgebung Uδ (x0 ) von x0 , so dass die Funktion x 7→ c + r(x) auf Uδ (x0 ) ∩ I entweder nur
positive oder nur negative Werte annimmt. Da x0 ein innerer Punkt von I ist, dürfen wir
Uδ (x0 ) ⊆ I annehmen. Die obige Gleichung für f zeigt dann, dass die auf der Umgebung
Uδ (x0 ) von x0 definierte Funktion x 7→ f (x) − f (x0 ) im Punkt x0 ihr Vorzeichen wechselt;
denn das trifft für den Faktor x − x0 zu, während der Faktor c + r(x) keinen Vorzeichenwechsel hat. Somit ist x0 keine lokale Extremalstelle von f . Dies ist ein Widerspruch zur
Voraussetzung. Also muss c = 0 sein.
Wegen Satz 15.2 verdienen die Nullstellen der Ableitung einer Funktion besondere Aufmerksamkeit.
Definition 15.3 Es sei I ein Intervall. Ein innerer Punkt x0 von I heißt ein kritischer
Punkt oder eine stationäre Stelle einer Funktion f : I −→ R, falls f in x0 differenzierbar
ist und f 0 (x0 ) = 0 gilt.
Bemerkung 15.4
(1) Dass die Bedingung f 0 (x0 ) = 0 in Satz 15.2 nur notwendig, aber nicht hinreichend
für lokale Extremalstellen ist, illustriert das Beispiel der durch f (x) := x3 für x ∈ R
definierten Funktion f : R −→ R: Diese hat in x0 = 0 eine stationäre Stelle, aber kein
lokales Extremum.
(2) Warnung: Das notwendige Kriterium in Satz 15.2 ist nur auf innere Punkte des Definitionsbereichs anwendbar. Extrema an den Rändern des Definitionsbereichs lassen sich
grundsätzlich nicht dadurch charakterisieren, dass die Ableitung verschwindet. Dies
zeigen schon banale Beispiele: So hat die Funktion f : [0, 1] −→ R mit f (x) := x ein
lokales (sogar globales) Minimum in x = 0 und ein lokales (sogar globales) Maximum
in x = 1, aber an keiner dieser Stellen verschwindet die Ableitung.
Bei der Suche nach Extrema einer differenzierbaren Funktion genügt es daher
i.d.R. nicht, nur ihre kritischen Punkte zu betrachten; man muss die Randpunkte
des Definitionsbereichs (sofern es solche gibt!) separat untersuchen. Diese eigentlich
selbstverständliche Feststellung wird leider bei Anwendungen der Differentialrechnung
in anderen Disziplinen, insbesondere in den Wirtschaftswissenschaften, immer wieder
außer acht gelassen: Dort werden Extremalstellen oft unreflektiert durch das Nullsetzen
der Ableitung beschrieben, was zu mitunter gravierenden Fehlschlüssen führen kann.
Siehe hierzu ausführlich z.B. [Grahl/Kümmel].
Trotzdem hat der Satz eine große praktische Bedeutung. Er reduziert nämlich die
Extremwertsuche bei differenzierbaren Funktionen f : I −→ R auf die Berechnung
der Werte von f in den Randpunkten von I und in den Nullstellen der Ableitung
f 0 in inneren Punkten von I. In günstigen Fällen sind nur wenige, leicht zu findende
Funktionswerte zu vergleichen. Dies ist in dem folgenden Korollar näher ausgeführt. Es
betrifft stetige Funktionen auf kompakten Intervallen, wofür Korollar 10.3 die Existenz
eines (globalen) Maximums und Minimums garantiert:
234
Korollar 15.5
Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R
sei stetig und auf ]a, b[ differenzierbar. Auf ]a, b[ habe f nur endlich viele stationäre Stellen
x1 , x2 , . . . , xm . Dann ist das (absolute) Maximum von f auf I gleich dem Maximum der
endlich vielen Zahlen
f (a), f (b), f (x1 ), f (x2 ), . . . , f (xm ),
und das (absolute) Minimum von f auf I ist gleich dem Minimum dieser Zahlen.
Beispiel 15.6
(1) Korollar 15.5 hat eine Vielzahl an praktischen Anwendungen. Die folgende ist
[Heuser 1, S. 304] entnommen:
Aus einem Baumstamm mit kreisförmigem Querschnitt und Durchmesser d soll ein
Balken mit rechteckigem Querschnitt und mit maximaler Tragfähigkeit T herausgeschnitten werden. In der Statik zeigt man, dass T proportional zur Grundlinie g und
zum Quadrat der Höhe h des Querschnitts ist. Die Proportionalitätskonstanten dürfen
wir außer acht lassen und daher
T = gh2
annehmen. Hierbei hängen zudem g und h durch die Beziehung g 2 + h2 = d2 (aus dem
Satz des Pythagoras!) zusammen. Es ist also das Maximum der Funktion
T : g 7→ gh2 = g(d2 − g 2 )
auf dem kompakten Intervall
[0, d] zu bestimmen. Die Ableitung ist T 0 (g) = d2 − 3g 2 .
√
Hiernach ist g0 = d/ 3 der einzige kritische Punkt der Funktion. Wegen T (0) =
T (d) = 0 und T (g0 ) > 0 folgt aus Korollar 15.5, dass in g0 tatsächlich das Maximum
angenommen wird.
d
h
g
Abbildung 37: Zu Beispiel 15.6 (1)
(2) In Korollar 15.5 hatten wir vorausgesetzt, dass f nur endlich viele stationäre Stellen in
]a, b[ hat. In praktischen Anwendungen ist diese Voraussetzung in aller Regel erfüllt.
Jedoch kann eine differenzierbare Funktion auf einem beschränkten (und sogar auf
einem kompakten) Intervall durchaus unendlich viele stationäre Stellen besitzen. Ein
Beispiel hierfür liefert die Funktion f (x) := x2 sin x1 aus Beispiel 14.21 (1), die im
Intervall [−1, 1] unendlich viele lokale Maxima und unendlich viele lokale Minima hat.
Man kann dieses Beispiel so variieren, dass f sogar stetig differenzierbar ist, indem man
nämlich z.B. f (x) := x3 sin x1 setzt: Es ist dann leicht nachzuprüfen, dass f 0 auch in
x = 0 stetig ist mit f 0 (0) = 0.
235
15.2
Die beiden Mittelwertsätze
Eine Konsequenz aus Satz 15.2 von großer Tragweite sind die Mittelwertsätze.
Um zu illustrieren, worum es dabei geht, stellen wir uns vor, dass wir eine Radtour durch eine
bergige Gegend unternehmen. Falls der Zielort die gleiche Höhe über dem Meeresspiegel hat
wie der Ausgangsort, so kann es nicht auf der ganzen Strecke nur bergauf oder nur bergab
gegangen sein, sondern an mindestens einer Stelle muss der Weg horizontal verlaufen (wenn
man von dem Fall absieht, dass der Weg an einer Stelle eine Spitze hat, also durch eine an
dieser Stelle nicht differenzierbare Funktion beschrieben wird.)
Der Mittelwertsatz kann als abstrakte Formulierung dieser Erfahrungstatsache angesehen
werden. In dem folgenden Satz von M. Rolle (1652 – 1719) ist alles Wesentliche bereits
enthalten.
Satz 15.7 (Satz von Rolle)
Es sei I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei stetig, auf ]a, b[ differenzierbar, und es sei f (a) = f (b). Dann gibt es
einen Punkt x0 ∈]a, b[ mit f 0 (x0 ) = 0.
Beweis. Für konstante Funktionen f ist die Behauptung mit beliebigem x0 in ]a, b[ gültig.
Nun sei f nicht konstant. Dann gibt es ein x0 ∈]a, b[ mit f (x0 ) > f (a) = f (b) oder f (x0 ) <
f (a) = f (b). Daher wird das Maximum oder das Minimum von f auf [a, b] (deren Existenz
wegen der Stetigkeit von f aus Korollar 10.3 folgt) in einem x0 ∈]a, b[ angenommen. Also
hat f ein lokales Extremum x0 in ]a, b[. Wegen Satz 15.2 gilt hierbei f 0 (x0 ) = 0.
Satz 15.8 (Mittelwertsatz der Differentialrechnung)
Es sei I = [a, b] ein echtes
kompaktes Intervall. Die Funktion f : I −→ R sei stetig und auf ]a, b[ differenzierbar. Dann
gibt es einen Punkt x0 ∈]a, b[ mit
f 0 (x0 ) =
f (b) − f (a)
.
b−a
Die Behauptung besagt geometrisch, dass die Tangente an den Graphen von f in einem
geeigneten Punkt parallel zur Sekante durch die Punkte (a, f (a)) und (b, f (b)) ist. Die Parallelität kann auch in mehreren Punkten eintreten. Ebenso wie im Fall des Satzes von Rolle
– der ein Spezialfall des Mittelwertsatzes ist – ist die Behauptung anschaulich klar, und sie
kann leicht aus diesem Spezialfall gefolgert werden.
Beweis. Wir setzen
F (x) := f (x) −
f (b) − f (a)
· (x − a)
b−a
für alle x ∈ I.
Dann gilt F (b) = F (a) = f (a), und F erfüllt alle Voraussetzungen in Satz 15.7. Danach gibt
es also ein x0 ∈ I mit F 0 (x0 ) = 0. Es folgt
f 0 (x0 ) =
f (b) − f (a)
.
b−a
236
•
•
•
•
a
•
x0
•
b
Abbildung 38: Zum Mittelwertsatz der Diffferentialrechnung
Beispiel 15.9
(1) Der Satz von Rolle und der Mittelwertsatz verlieren ihre Gültigkeit, wenn f auf [a, b]
zwar stetig ist, die Ableitung f 0 aber nicht in jedem Punkt existiert: Beispielsweise ist
die Betragsfunktion f (x) := |x| auf [−1, 1] stetig und auf [−1, 1] \ {0} differenzierbar
mit f (1) = f (−1), aber es gibt kein x0 ∈ [−1, 1] \ {0} mit f 0 (x0 ) = 0.
(2) Der Mittelwertsatz besagt, dass (unter den dort genannten Voraussetzungen) jede Sekantensteigung auch als Tangentensteigung auftritt. Die Umkehrung gilt nicht, wie wir
in den Übungen sehen werden.
(3) In [Behrends, S. 250] findet sich folgende Illustration des Mittelwertsatzes: Auf einem
20 km langen Autobahnstück gelte durchweg eine Geschwindigkeitsbegrenzung auf 100
Kilometer pro Stunde. Wenn jemand am Beginn und am Ende dieses Autobahnstücks
beobachtet wurde und sich dadurch zweifelsfrei feststellen lässt, dass er die 20 km in 10
Minuten zurückgelegt hat, so muss er irgendwo unterwegs eine Geschwindigkeitsübertretung begangen haben – auch wenn man aus diesen Informationen nicht ermitteln
kann, wo genau zu schnell gefahren wurde.
Korollar 15.10
Es sei I = [a, b] ein echtes kompaktes Intervall.
(a) Die Funktion f : I −→ R sei stetig und auf ]a, b[ differenzierbar. Auf ]a, b[ sei die
Ableitung f 0 konstant 0. Dann ist f konstant.
(b) Die Funktion f, g : I −→ R seien stetig und auf ]a, b[ differenzierbar mit f 0 = g 0 . Dann
gibt es eine Konstante c ∈ R mit f = c + g.
Beweis.
(a) Wir nehmen an, f wäre nicht konstant. Dann gibt es Punkte x1 , x2 ∈ [a, b] mit x1 < x2
und f (x1 ) 6= f (x2 ). Nach Satz 15.8 gibt es dann ein x0 ∈]x1 , x2 [ mit
f 0 (x0 ) =
f (x2 ) − f (x1 )
6= 0,
x2 − x1
im Widerspruch zur Voraussetzung.
(b) Dies folgt sofort aus (a), angewandt auf die Funktion f − g anstelle von f .
237
Auch die Aussage in (a) ist anschaulich evident: Wenn die Tangente an den Graphen von f
überall horizontal ist, dann verläuft auch f selber horizontal. Das Ergebnis in (b) lässt sich
wie folgt interpretieren: Eine differenzierbare Funktion f auf einem Intervall I ist durch ihre
Ableitung f 0 und einen einzigen Wert f (α) vollständig festgelegt.
Als weitere Folgerung aus dem Mittelwertsatz können wir jetzt auch zeigen, dass stetig differenzierbare Funktionen auf kompakten Intervallen dehnungsbeschränkt (Lipschitz-stetig)
sind:
Korollar 15.11 Es sei f : I −→ R eine stetig differenzierbare Funktion auf einem
kompakten Intervall I. Dann ist f dehnungsbeschränkt. Als Dehnungsschranke kann man
L := maxx∈I |f 0 (x)| wählen.
Beweis. Wegen der Stetigkeit von |f 0 | und der Kompaktheit von I existiert nach Korollar 10.3 das Maximum
L := max |f 0 (x)|.
x∈I
Es seien x, y ∈ I mit o.E. x < y gegeben. Nach dem Mittelwertsatz gibt es ein ξ ∈]x, y[ mit
f (x) − f (y)
= f 0 (ξ).
x−y
Damit folgt
|f (x) − f (y)| = |f 0 (ξ)| · |x − y| ≤ L · |x − y|.
Dies gilt für alle x, y ∈ I. Also ist f dehnungsbeschränkt mit Dehnungsschranke L.
Das folgende Korollar gibt einen Überblick über die Zusammenhänge zwischen einigen wichtigen Begriffen:
Korollar 15.12
Es sei f : I −→ R eine Funktion auf einem reellen Intervall I. Dann
gelten die folgenden Implikationen:
f stetig differenzierbar, I kompakt
w
w

f dehnungsbeschränkt
w
w

f gleichmäßig stetig
w
~
w
w

w, falls I kompakt
f stetig
Beweis. Dies ist eine Zusammenfassung der Ergebnisse aus Satz 13.31, Proposition 13.33
und Korollar 15.11.
238
Beispiel 15.13
Dass man aus der gewöhnlichen Differenzierbarkeit nicht auf Dehnungsbeschränktheit auf Kompakta schließen kann, zeigen Funktionen mit auf Kompakta unbeschränkter Ableitung, wie etwa f (x) := x2 sin x12 (Beispiel 14.21 (2)).
Bereits in Beispiel 13.34 hatten wir ein Beispiel einer gleichmäßig stetigen, aber nicht dehnungsbeschränkten (und in x = 0 nicht differenzierbaren) Funktion betrachtet: die Wurzelfunktion
√
f : [0, ∞[−→ R, f (x) := x.
Diese ist zugleich ein Beispiel dafür, dass man in Korollar 15.11 nicht auf die Kompaktheitsvoraussetzung verzichten kann: f ist auf ]0, 1[ stetig differenzierbar, aber dort nicht
dehnungsbeschränkt.
Satz 15.14 (Verallgemeinerter Mittelwertsatz der Differentialrechnung)
Es sei
I = [a, b] ein echtes kompaktes Intervall. Die Funktionen f : I −→ R und g : I −→ R seien
stetig und auf ]a, b[ differenzierbar. Für alle x ∈ ]a, b[ sei g 0 (x) 6= 0. Dann ist g(a) 6= g(b),
und es gibt ein x0 ∈ ]a, b[ mit
f (b) − f (a)
f 0 (x0 )
=
.
g 0 (x0 )
g(b) − g(a)
Für g(x) = x erhält man hieraus den gewöhnlichen Mittelwertsatz (Satz 15.8) als Spezialfall
zurück.
Beweis. Wäre g(a) = g(b), dann gäbe es nach dem Satz von Rolle (Satz 15.7) ein t ∈ I
mit g 0 (t) = 0, im Widerspruch zur Voraussetzung. Also ist g(a) 6= g(b) und der in der
Behauptung auftretende Nenner somit von Null verschieden. Wir setzen
F (x) := f (x) −
f (b) − f (a)
· (g(x) − g(a))
g(b) − g(a)
für alle x ∈ I.
Dann gilt F (a) = F (b) = f (a), und F erfüllt alle Voraussetzungen im Satz von Rolle
(Satz 15.7). Also gibt es ein x0 ∈ ]a, b[ mit F 0 (x0 ) = 0. Es folgt
f 0 (x0 ) =
15.3
f (b) − f (a) 0
· g (x0 ) .
g(b) − g(a)
Monotone Funktionen
Aus den Mittelwertsätzen folgt ein Kriterium für die Monotonie differenzierbarer Funktionen.
Satz 15.15 (Monotone Funktionen)
Es sei I = [a, b] ein echtes kompaktes Intervall.
Die Funktion f : I −→ R sei stetig und auf ]a, b[ differenzierbar. Dann gelten die folgenden
Aussagen:
(1) Die Funktion f ist genau dann monoton steigend, wenn f 0 (x) ≥ 0 für alle x ∈ ]a, b[ ist.
(2) Die Funktion f ist genau dann streng monoton steigend, wenn f 0 (x) ≥ 0 für alle
x ∈ ]a, b[ gilt und kein echtes Intervall J = ]α, β[ ⊆ I existiert mit f 0 (x) = 0 für alle
x ∈ J.
Analog lassen sich (streng) monoton fallende Funktionen charakterisieren.
239
Beweis.
(1)
”
=⇒ “: Die Funktion f sei monoton steigend. Für alle x, y ∈ I mit x 6= y ist dann
f (y) − f (x)
≥ 0.
y−x
Führt man hierin den Grenzübergang y → x aus, so folgt aus der Definition der
Ableitung f 0 (x) ≥ 0 für alle x ∈ ]a, b[.
⇐=“: Jetzt wird f 0 (x) ≥ 0 für alle x ∈ ]a, b[ vorausgesetzt. Es seien Punkte u, v ∈ I
”
mit u < v gegeben. Nach dem Mittelwertsatz (Satz 15.8) gibt es dann ein t ∈ ]u, v[ mit
f (v) − f (u) = f 0 (t) · (v − u),
und wegen f 0 (t) ≥ 0 folgt f (v) − f (u) ≥ 0, also f (u) ≤ f (v). Demnach ist f monoton
steigend.
(2)
=⇒ “: Es sei f streng monoton steigend. Aus (1) folgt dann insbesondere f 0 (x) ≥ 0
”
für alle x ∈ ]a, b[.
Wir nehmen nun an, für gewisse α und β mit a ≤ α < β ≤ b und alle x ∈ J = ]α, β[
sei f 0 (x) = 0. Nach Korollar 15.10 ist f dann auf dem Intervall [α, β] konstant, im
Widerspruch zur strengen Monotonie von f . Also gibt es kein echtes Intervall J =
]α, β[ ⊆ I mit f 0 (x) = 0 für alle x ∈ J.
⇐=“: Jetzt setzen wir voraus, dass f 0 (x) ≥ 0 für alle x ∈ ]a, b[ gilt und dass kein
”
echtes Intervall J = ]α, β[ ⊆ I existiert mit f 0 (x) = 0 für alle x ∈ J.
Nach (1) ist dann f jedenfalls monoton steigend. Wäre f nicht streng monoton steigend,
so gäbe es Zahlen α und β mit a ≤ α < β ≤ b und f (α) = f (β), und es folgt sogar
f (x) = f (α) für alle x ∈ [α, β]. Also ist f auf dem Intervall [α, β] konstant. Es folgt
f 0 (x) = 0 für alle x ∈ ]α, β[, im Widerspruch zur Voraussetzung. Also ist f streng
monoton steigend.
Wenn man diese Ergebnisse auf −f anstelle von f anwendet, erhält man analoge Charakterisierungen für (streng) monoton fallende Funktionen.
Bemerkung 15.16
(1) Das Kriterium in Teil (2) des Satzes erscheint etwas schwerfällig. Für die meisten praktischen Anwendungen genügt folgende schwächere, aber leichter zu merkende Aussage:
Wenn (unter den Voraussetzungen von Satz 15.15) f 0 (x) > 0 für alle x ∈ ]a, b[ gilt, so
ist f streng monoton steigend.
Man muss sich aber bewusst bleiben, dass die Umkehrung hiervon nicht richtig ist:
Auch streng monoton steigende Funktionen können einzelne Ableitungsnullstellen haben (wie es etwa bei f (x) := x3 in x = 0 der Fall ist) – es dürfen nur nicht zu viele“
”
sein.
(2) Setzt man in der Situation des Satzes voraus, dass f sogar auf dem kompakten Intervall
[a, b] (statt nur auf ]a, b[) differenzierbar ist, so kann man auch in (1) und (2) überall
]a, b[ durch [a, b] ersetzen. Der Beweis bleibt praktisch wörtlich gültig.
240
Beispiel 15.17
(1) Aus Beispiel 14.13 (5) und Satz 12.17 folgt
sin0 (x) = cos(x) > 0
für −
π
π
<x< .
2
2
Daher ist der Sinus auf dem Intervall [− π2 , π2 ] streng monoton steigend. Er bildet dieses
Intervall bijektiv auf das Intervall [−1, 1] ab. Die Umkehrfunktion
h π πi
arcsin : [−1, 1] −→ − ,
2 2
heißt der Arcussinus. Nach Satz 14.14 ist der Arcussinus auf dem Intervall ] − 1, 1[
differenzierbar, und für die Ableitung berechnet man
arcsin0 (x) =
1
1
=
sin (arcsin(x))
cos(arcsin(x))
für alle x ∈ ] − 1, 1[.
0
Für diese x ist − π2 < arcsin(x) < π2 , also cos(arcsin(x)) > 0. Mit dem trigonometri”
schen Pythagoras“ folgt daher
1
1
=√
arcsin0 (x) = p
.
2
1 − x2
1 − (sin(arcsin(x)))
arcsin
sin
•
−1
•
− π2
•
1
•
π
2
Abbildung 39: Sinus und Arcussinus
(2) Aus cos0 (x) = − sin(x) < 0 für 0 < x < π folgt, dass der Cosinus auf [0, π] streng
monoton fällt. Die Umkehrfunktion
arccos : [−1, 1] −→ [0, π]
heißt der Arcuscosinus. Wie in (1) findet man
arccos0 (x) = − √
1
1 − x2
241
für
− 1 < x < 1.
(3) In Beispiel 14.13 (6) wurde der Tangens
tan =
sin
cos
eingeführt. Er ist eine ungerade Funktion, denn der Sinus im Zähler ist eine ungerade
und der Cosinus im Nenner eine gerade Funktion. Auf dem Intervall [0, π2 ] steigt der
Sinus streng monoton von 0 auf 1, und der Cosinus fällt streng monoton von 1 auf
0. Deshalb bildet der Tangens das Intervall [0, π2 [ streng monoton steigend auf das
Intervall [0, ∞[ ab. Weil die Funktion zudem ungerade ist, erhält man eine streng
monoton steigende bijektive Abbildung
i π πh
tan : − ,
−→ R.
2 2
Die Umkehrfunktion
i π πh
arctan : R −→ − ,
2 2
heißt der Arcustangens. Er ist differenzierbar, und da nach der Quotientenregel
tan0 =
cos2 + sin2
= 1 + tan2
cos2
gilt, erhält man für alle x ∈ R
arctan0 (x) =
1
1
1
=
=
.
2
tan (arctan(x))
1 + (tan(arctan(x)))
1 + x2
0
tan
π/2
arctan
− π2
π
2
−π/2
Abbildung 40: Tangens und Arcustangens
Im Alltag treten der Tangens und Arcustangens u.a. bei Steigungsangaben auf Verkehrsschildern in Erscheinung: Eine Steigung von z.B. 15% bedeutet einen Höhenunterschied von 15 Metern pro 100 Metern horizontalem Abstand. Der zugehörige
Steigungswinkel ist dann arctan(0.15). Insbesondere bedeuten 100% Steigung einen
Steigungswinkel von arctan(1) = π4 = 45◦ ; der Wert für arctan(1) ergibt sich hierbei
wie folgt: Weil der Cosinus gerade ist und wegen Satz 12.20 (2) gilt
π
π π
π
π
cos = cos −
= sin − +
= sin .
4
4
4
2
4
242
Daher ist tan π4 = 1 und somit arctan(1) = π4 .
Mit dem Tangens wurde auch der Cotangens eingeführt. Er bildet das Intervall ]0, π[
streng monoton fallend auf R ab. Für die Ableitung der als Arcuscotangens bezeichneten Umkehrfunktion
arccot : R −→]0, π[
erhält man wie zuvor
arccot0 (x) = −
1
.
1 + x2
(4) Üblicherweise stellt man sich differenzierbare Funktionen mit strikten lokalen Minima
so vor, dass sie in einem gewissen Intervall links von der Minimalstelle streng monoton
fallen und in einem gewissen Intervall rechts davon streng monoton steigen. Diese
Vorstellung ist unzutreffend, wie wir anhand der Funktion
( 2
für x ∈ R \ {0} ,
x 2 + sin x1
f (x) :=
0
für x = 0
illustrieren wollen (Abbildung 41).
Wegen 2 + sin x1 ≥ 1 für alle x 6= 0 ist
f (x) ≥ x2 > 0 = f (0)
für alle x 6= 0,
so dass f in x = 0 ein striktes lokales (sogar globales) Minimum besitzt.
Klar ist, dass f differenzierbar auf R \ {0} ist, und aus der Produkt- und Kettenregel
folgt für alle x 6= 0
1
1
1
1
1
0
2
f (x) = 2x · 2 + sin
+ x · cos · − 2 = 2x · 2 + sin
− cos .
x
x
x
x
x
Aber auch in x = 0 ist f differenzierbar; es ist nämlich
f (x) − f (0)
1
= x · 2 + sin
für alle x 6= 0,
x−0
x
und hierbei ist stets 2 + sin x1 ≤ 3, so dass der Grenzwert
f (x) − f (0)
=0
x→0
x−0
f 0 (0) = lim
existiert. Insgesamt ist f also differenzierbar auf R mit
(
1
2x
·
2
+
sin
− cos x1 für alle x 6= 0,
x
0
f (x) =
0
für x = 0.
Gäbe es ein δ > 0, so dass f im Intervall ]0, δ[ monoton steigt, so würde f 0 (x) ≥ 0 für
alle x ∈ ]0, δ[ gelten. Es ist jedoch
1
1
2
0
f
=
· (2 + sin(2nπ)) − cos(2nπ) =
−1<0
2nπ
nπ
nπ
1
1
0
für alle n ∈ N, und es gibt ein n0 ∈ N mit 2n0 π ∈]0, δ[, wofür dann also f 2n0 π < 0
ist. Dieser Widerspruch zeigt, dass f in keinem Intervall ]0, δ[ monoton steigt. Analog
folgt, dass f in keinem Intervall ] − δ, 0[ mit δ > 0 monoton fällt.
243
0.012
0.25
0.01
0.2
0.008
0.15
0.006
0.1
0.004
0.05
-0.4
-0.2
0.002
0.2
0.4
-0.1
-0.05
0.05
0.1
0.00025
0.0002
0.00015
0.0001
0.00005
-0.01
-0.005
0.005
0.01
Abbildung 41: Die Funktion f (x) := x2 2 + sin x1 nahe bei 0
Dieser Argumentation liegt folgende etwas anschaulichere Überlegung zugrunde: In dem
Ausdruck f 0 (x) = 2x · 2 + sin x1 − cos x1 ist für x nahe“ bei 0 der Term − cos x1 der
”
bestimmende, während 2x · 2 + sin x1 kaum ins Gewicht fällt. Nun oszilliert aber cos x1
bekanntlich für jedes δ > 0 in ]0; δ[ unendlich oft zwischen −1 und +1, d.h. in jedem
solchen Intervall wechselt das Verhalten von f unendlich oft zwischen monoton fallend
und monoton steigend hin und her.
15.4
Konvexe Funktionen
Eine reellwertige Funktion f wird konvex genannt, wenn ihr Graph in jedem Intervall [a, b]
unterhalb der Sekante durch die Punkte (a, f (a)) und (b, f (b)) verläuft. Da diese Sekante
durch
λ 7→ (λ · a + (1 − λ)b, λ · f (a) + (1 − λ) · f (b))
mit λ ∈ [0, 1]
parametrisiert wird, lässt sich die angegebene Bedingung folgendermaßen präzisieren:
244
a
λ · a + (1 − λ) · b
b
Abbildung 42: Strenge Konvexität
Definition 15.18 Es sei I ein echtes Intervall. Eine Funktion f : I −→ R heißt konvex,
falls für alle a, b ∈ I und alle λ ∈ ]0, 1[ die Ungleichung
f (λ · a + (1 − λ) · b) ≤ λ · f (a) + (1 − λ) · f (b)
gilt. Sie heißt streng konvex, falls für alle a, b ∈ I und alle λ ∈ ]0, 1[
f (λ · a + (1 − λ) · b) < λ · f (a) + (1 − λ) · f (b)
gilt. Weiter heißt f konkav bzw. streng konkav, falls −f konvex bzw. streng konvex ist.
Eine einfache Folgerung aus der Definition ist die Jensensche Ungleichung:
Lemma 15.19 (Jensensche Ungleichung) Es sei f : I −→ R eine konvexe Funktion auf dem echten Intervall I, n ∈ N, und es seien x1 , . . . , xn ∈ I, λ1 , . . . , λn ≥ 0 mit
λ1 + · · · + λn = 1. Dann gilt
f (λ1 x1 + . . . λn xn ) ≤ λ1 f (x1 ) + · · · + λn f (xn ).
Hierbei bezeichnet man einen Ausdruck der Form λ1 x1 + · · · + λn xn mit λ1 , . . . , λn ≥ 0 und
λ1 +· · ·+λn = 1 als Konvexkombination der x1 , . . . , xn . Setzt man M := max {x1 , . . . , xn }
und m := min {x1 , . . . , xn }, so ist offensichtlich
m = (λ1 + · · · + λn ) · m ≤ λ1 x1 + · · · + λn xn ≤ (λ1 + · · · + λn ) · M = M.
Daher liegen mit x1 , . . . , xn auch alle Konvexkombinationen der xj im Intervall I. Dies stellt
sicher, dass in der Situation von Lemma 15.19 der Funktionswert f (λ1 x1 + · · · + λn xn ) wohldefiniert ist.
Beweis. Aufgabe 9.1
245
Auch die folgende Umformulierung der Definition konvexer Funktionen ist oftmals nützlich.
Lemma 15.20 Es sei I ein echtes Intervall. Eine Funktion f : I −→ R ist genau dann
konvex, wenn für alle a, b, t ∈ I gilt:
a<t<b
=⇒
f (t) − f (a)
f (b) − f (t)
≤
.
t−a
b−t
Falls f konvex ist, so gilt für alle a, b, t ∈ I genauer
a<t<b
=⇒
f (b) − f (a)
f (b) − f (t)
f (t) − f (a)
≤
≤
.
t−a
b−a
b−t
Analoge Aussagen gelten für streng konvexe Funktionen mit <“ anstelle von ≤“.
”
”
Interpretiert man die hierbei auftretenden Differenzenquotienten als Sekantensteigungen, so
sind die Aussagen des Satzes anschaulich klar (vgl. Abbildung 42).
Beweis.
=⇒ “: Es sei f konvex.
”
Es seien a, b, t ∈ I mit a < t < b gegeben. Setzt man dann λ :=
0<λ<1
und
λa + (1 − λ)b =
b−t
,
b−a
so ist
(b − t)a + (t − a)b
= t.
b−a
Aus der Konvexität von f ergibt sich daher
f (t) = f (λa + (1 − λ)b) ≤ λ · f (a) + (1 − λ) · f (b) =
t−a
b−t
· f (a) +
· f (b).
b−a
b−a
Hieraus folgt
f (t) − f (a) ≤
t−a
· (f (b) − f (a))
b−a
und
f (t) − f (b) ≤
b−t
· (f (a) − f (b))
b−a
und daher
f (t) − f (a)
f (b) − f (a)
f (b) − f (t)
≤
≤
.
t−a
b−a
b−t
=⇒“: Nun sei vorausgesetzt, dass für alle a, b, t ∈ I mit a < t < b die Abschätzung
”
f (t) − f (a)
f (b) − f (t)
≤
(15.1)
t−a
b−t
gilt. Zum Nachweis der Konvexität von f seien a, b ∈ I mit o.E. a < b und ein λ ∈ ]0, 1[
gegeben. Wir setzen t := λa+(1−λ)b. Dann ist a < t < b, so dass nach Voraussetzung (15.1)
gilt. Durch Multiplikation mit b−a > 0 folgt dann unter Beachtung von t−a = (1−λ)(b−a)
und b − t = λ(b − a)
f (t) − f (a)
f (b) − f (t)
≤
,
1−λ
λ
also
λ · (f (t) − f (a)) ≤ (1 − λ) · (f (b) − f (t))
und somit
f (λa + (1 − λ)b) = f (t) ≤ λf (a) + (1 − λ)f (b).
Dies zeigt die Konvexität von f .
Völlig analog schließt man für streng konvexe Funktionen und <“ anstelle von ≤“.
”
”
246
Differenzierbare konvexe Funktionen lassen sich mithilfe ihrer Ableitung charakterisieren:
Satz 15.21 (Konvexe Funktionen)
Es sei I = [α, β] ein echtes kompaktes Intervall.
Die Funktion f : I −→ R sei stetig und auf ]α, β[ differenzierbar. Dann ist f genau dann
(streng) konvex auf [α, β], wenn die Ableitung f 0 auf ]α, β[ (streng) monoton wächst.
Beweis. =⇒ “: Es sei f konvex. Es seien Punkte a, b ∈]α, β[ mit a < b fixiert. Gemäß
”
Lemma 15.20 gilt dann
f (b) − f (a)
f (b) − f (t)
f (t) − f (a)
≤
≤
t−a
b−a
b−t
für alle t ∈ ]a, b[.
Führt man hierin einerseits den Grenzübergang t → a+, andererseits den Grenzübergang
t → b− aus, so erhält man
f (t) − f (a)
t→a+
t−a
f (b) − f (a)
≤
b−a
f (b) − f (t)
= f 0 (b−) = f 0 (b).
≤ lim
t→b−
b−t
f 0 (a) = f 0 (a+) =
lim
Da dies für alle a, b ∈ I mit a < b gilt, ist f 0 monoton steigend.
Nun sei f sogar streng konvex. Man kann dann in voranstehender Überlegung nicht einfach ≤“ durch <“ ersetzen, da die strikten Ungleichungen in Lemma 15.20 bei den
”
”
Grenzübergängen verloren gehen könnten. Stattdessen muss man etwas genauer argumentieren:
Es seien wieder a, b ∈]α, β[ mit a < b fixiert. Dann ist die Sekantensteigung
s(t) =
f (t) − f (a)
t−a
für t ∈ ]a, b[ streng monoton wachsend; für t1 , t2 ∈]a, b[ mit t1 < t2 gilt nämlich gemäß der
zweiten Abschätzung in Lemma 15.20 (mit t2 anstelle von b und t1 anstelle von t)
s(t1 ) =
f (t1 ) − f (a)
f (t2 ) − f (a)
≤
= s(t2 ).
t1 − a
t2 − a
Daher ist
f (b) − f (a)
.
t→a+
a<t≤b
b−a
Man kann nun die weitere Argumentation von oben übernehmen und erhält
lim s(t) = inf s(t) < s(b) =
f 0 (a) = lim
t→a+
f (t) − f (a)
=
t−a
<
lim s(t)
t→a+
f (b) − f (a)
f (b) − f (t)
≤ lim
= f 0 (b).
t→b−
b−a
b−t
Also ist f 0 streng monoton steigend.
247
=⇒“: Jetzt wird vorausgesetzt, dass f 0 monoton steigt. Es seien Punkte a, b, t ∈ I mit
”
a < t < b gegeben. Nach dem Mittelwertsatz (Satz 15.8) existieren dann Punkte ξ, η mit
a < ξ < t < η < b und
f (t) − f (a)
f (b) − f (t)
= f 0 (ξ) ≤ f 0 (η) =
.
t−a
b−t
Hieraus folgt mittels Lemma 15.20 die Konvexität von f . Analog argumentiert man, falls f 0
als streng monoton vorausgesetzt wird.
Für den Fall zweimal differenzierbarer konvexer Funktionen erhält man hieraus das folgende
einprägsame Resultat:
Es sei I ein echtes Intervall, und f : I −→ R
Korollar 15.22 (Konvexe Funktionen)
sei zweimal differenzierbar. Dann gilt:
(1) Genau dann ist die Funktion f konvex, wenn
f 00 (x) ≥ 0
für alle x ∈ I gilt.
(2) Genau dann ist die Funktion f streng konvex, wenn
f 00 (x) ≥ 0
für alle x ∈ I
gilt und wenn es kein echtes Teilintervall von I gibt, auf dem f 00 konstant 0 ist.
Beweis. Nach Satz 15.21 ist die Konvexität bzw. strenge Konvexität äquivalent damit, dass
f 0 monoton bzw. streng monoton wächst. Aus der Charakterisierung monotoner Funktionen
in Satz 15.15 folgen daher alle Behauptungen.
Bemerkung 15.23
Konvexe Funktionen müssen nicht differenzierbar sein, wie etwa die
Betragsfunktion x 7→ |x| zeigt. Dann sind Satz 15.21 und Korollar 15.22 nicht anwendbar.
Man kann jedoch zeigen [Köhler, Satz 14.8], dass konvexe Funktionen automatisch stetig sind,
und dass in jedem Punkt x des Definitionsbereichs die einseitigen Ableitungen existieren und
f 0 (x−) ≤ f 0 (x+) gilt.
Aus Korollar 15.22 folgt ein notwendiges Kriterium für Wendepunkte.
Definition 15.24 Es sei c ein innerer Punkt eines Intervalles I. Eine Funktion f : I −→ R
hat in c einen Wendepunkt, falls es eine Zahl δ > 0 gibt, so dass f entweder auf [c − δ, c]
streng konkav und auf [c, c + δ] streng konvex oder aber auf [c − δ, c] streng konvex und auf
[c, c + δ] streng konkav ist.
Korollar 15.25 (Wendepunkte)
Es sei c ein innerer Punkt eines Intervalles I. Die
Funktion f : I −→ R sei zweimal differenzierbar, und c sei ein Wendepunkt von f . Dann
gilt f 00 (c) = 0.
Beweis. O.B.d.A. genügt es den Fall zu betrachten, dass f für ein geeignetes δ > 0 auf
[c − δ, c] streng konkav und auf [c, c + δ] streng konvex ist. Aus Korollar 15.22 folgt dann
f 00 (x) ≤ 0
für alle x ∈ [c − δ, c]
und
f 00 (x) ≥ 0
Insbesondere ist f 00 (c) ≤ 0 und f 00 (c) ≥ 0, also f 00 (c) = 0.
248
für alle x ∈ [c, c + δ].
Abbildung 43: Ein Wendepunkt
Bemerkung 15.26
Die Bedingung f 00 (x) = 0 ist nicht hinreichend für einen Wendepunkt, wie der Punkt c = 0 für die Funktion f (x) = x4 zeigt.
15.5
Zwischenwertsatz für Ableitungen
In Beispiel 14.21 hatten wir differenzierbare Funktionen kennengelernt, deren Ableitung nicht
überall stetig ist, nämlich x 7→ x2 · sin x1 und x 7→ x2 · sin x12 . In beiden Fällen verhält sich
die Ableitung in der Nähe der Unstetigkeitsstelle ziemlich wild; sie oszilliert. Das ist keine
Besonderheit dieses Beispiels, sondern ein typisches Verhalten. Dies ergibt sich daraus, dass
für Ableitungen der Zwischenwertsatz gilt. Zur Begründung darf man natürlich nicht auf den
Zwischenwertsatz für stetige Funktionen verweisen, denn Ableitungen müssen nicht stetig
sein; die Argumentation ist tiefliegender.
Satz 15.27 (Satz von Darboux53 , Zwischenwertsatz für Ableitungen)
Es sei
I = [a, b] ein echtes kompaktes Intervall. Die Funktion f : I −→ R sei differenzierbar. Dann
nimmt die Ableitung f 0 auf dem offenen Intervall ]a, b[ jeden Wert an, der echt zwischen
f 0 (a) und f 0 (b) liegt.
Beweis 1. Wir dürfen f 0 (a) < f 0 (b) annehmen. Es sei ein m mit f 0 (a) < m < f 0 (b) gegeben.
Hierzu betrachten wir die Funktion
g : I −→ R,
g(x) := f (x) − mx.
Diese ist differenzierbar auf I mit
g 0 (a) = f 0 (a) − m < 0 < f 0 (b) − m = g 0 (b).
Da g 0 in a und in b unterschiedliches Vorzeichen hat, kann g gemäß Satz 15.15 (2) (in der
in Bemerkung 15.16 (2) erwähnten Variante) nicht streng monoton auf I sein. Gemäß Satz
10.14 (1) ist g damit auch nicht injektiv. Es gibt also c, d ∈ I mit g(c) = g(d).
Aus dem Satz von Rolle folgt nun sofort die Existenz eines ξ ∈]c, d[⊆ I mit g 0 (ξ) = 0, d.h.
mit f 0 (ξ) = m.
53
Der Satz ist nach G. Darboux (1842 – 1917) benannt. Der Name wird uns am Beginn der Integrationstheorie wieder begegnen.
249
Beweis 2 (∗). Wir dürfen wieder f 0 (a) < f 0 (b) annehmen. Wir setzen
s1 (x) :=
f (x) − f (a)
x−a
für x ∈]a, b],
s2 (x) :=
f (b) − f (x)
b−x
für x ∈ [a, b[ .
Weil f in den Punkten a und b differenzierbar ist, sind s1 bzw. s2 stetig in die Punkte a bzw.
b fortsetzbar, nämlich durch s1 (a) := f 0 (a) und s2 (b) := f 0 (b). Damit sind s1 und s2 stetig auf
ganz I. Nach dem Zwischenwertsatz für stetige Funktionen (Satz 10.9) ist das Intervall mit den
Endpunkten
f (b) − f (a)
s1 (a) = f 0 (a)
und
s1 (b) =
b−a
im Bild s1 (I) enthalten, und das Intervall mit den Endpunkten
s2 (b) = f 0 (b)
und
s2 (a) =
f (b) − f (a)
= s1 (b)
b−a
ist im Bild s2 (I) enthalten. Es gilt daher insbesondere
[f 0 (a), f 0 (b)] ⊆ s1 (I) ∪ s2 (I).
Nun sei eine Zahl m mit f 0 (a) < m < f 0 (b) gegeben. Dann folgt die Existenz eines Punktes t ∈ [a, b]
mit s1 (t) = m oder s2 (t) = m. Wegen s1 (a) = f 0 (a) < m und s2 (b) = f 0 (b) > m liegt wenigstens
einer der Fälle
a < t ≤ b, s1 (t) = m
oder
a ≤ t < b, s2 (t) = m
vor. In jedem der beiden Fälle folgt aus dem Mittelwertsatz (Satz 15.8) die Existenz eines Punktes
ξ ∈ ]a, b[ mit f 0 (ξ) = s1 (t) = m beziehungsweise f 0 (ξ) = s2 (t) = m. Die Ableitung f 0 nimmt also in
]a, b[ den Wert m an.
Aus dem Zwischenwertsatz für Ableitungen folgt insbesondere, dass Unstetigkeitsstellen von
Ableitungen keine Sprungstellen sein können. Eine Funktion wie x 7→ sgn (x) kann also nicht
die Ableitung einer differenzierbaren Funktion f : R −→ R sein. Genauer gilt:
Korollar 15.28
Es sei f : I −→ R eine differenzierbare Funktion auf einem offenen
Intervall I, und x0 ∈ I sei eine Unstetigkeitsstelle der Ableitung f 0 . Dann gibt es ein ε > 0,
so dass f 0 in jeder (beliebig kleinen) Umgebung von x0 jeden Wert aus [f 0 (x0 ), f 0 (x0 )+ε] oder
aber jeden Wert aus [f 0 (x0 ) − ε, f 0 (x0 )] annimmt. Man sagt, dass x0 eine Oszillationsstelle
der Ableitung f 0 ist.
Beweis. Da f 0 in x0 unstetig ist, gibt es nach Definition der Stetigkeit ein ε > 0 mit folgender
Eigenschaft: Zu jedem δ > 0 gibt es ein xδ ∈ Uδ (x0 ) ∩ I mit |f 0 (xδ ) − f 0 (x0 )| ≥ ε. Nach Satz
15.27 ist jeweils das ganze Intervall mit den Endpunkten f 0 (xδ ) und f 0 (x0 ) in f 0 (Uδ (x0 ) ∩ I)
enthalten, und dieses Intervall hat die Länge ≥ ε. Dies bedeutet, dass für jedes δ > 0 das
Intervall [f 0 (x0 ), f 0 (x0 ) + ε] oder das Intervall [f 0 (x0 ) − ε, f 0 (x0 )] in f 0 (Uδ (x0 ) ∩ I) enthalten
ist.
Bei der Funktion f (x) := x2 · sin x12 aus Beispiel 14.21 (2) war die Ableitung f 0 in jeder
Umgebung von 0 sogar unbeschränkt gewesen; hier nimmt f 0 in jeder Umgebung der Oszillationsstelle also sogar jeden reellen Wert an.
250
Bemerkung 15.29 Es sei f : I −→ R eine differenzierbare Funktion auf einem reellen
Intervall I mit f 0 (x) 6= 0 für alle x ∈ I. Nach dem Zwischenwertsatz für Ableitungen (Satz
15.27) hat dann f 0 auf I einheitliches Vorzeichen; es ist also entweder f 0 (x) > 0 für alle
x ∈ I oder f 0 (x) < 0 für alle x ∈ I. Daher ist f auf I streng monoton (Satz 15.15) und somit
injektiv.
Die Injektivität von f erhält man schneller auch aus dem Satz von Rolle (mit demselben
Argument wie am Ende des ersten Beweises von Satz 15.27): Wäre f nämlich nicht injektiv,
so gäbe es a, b ∈ I mit f (a) = f (b). Nach dem Satz von Rolle hätte dann f 0 zwischen a und
b eine Nullstelle, im Widerspruch zur Voraussetzung.
15.6
Regeln von Bernoulli und de l’Hospital
Aus den Mittelwertsätzen können Regeln hergeleitet werden, mit denen man manchmal einen
Grenzwert
f (x)
lim
x→b g(x)
bestimmen kann, wenn die Grenzwerte limx→b f (x) und limx→b g(x) beide 0 oder beide ±∞
sind.
Satz 15.30 (Regeln von Bernoulli und de l’Hospital54 )
Es sei I = [a, b[ ein halboffenes Intervall, wobei der Fall b = ∞ zugelassen ist. Die Funktionen f : I −→ R und
g : I −→ R seien differenzierbar. Für alle x ∈ I sei g 0 (x) 6= 0. Es sei entweder
lim f (x) = lim g(x) = 0
x→b
x→b
oder
lim f (x) = lim g(x) = ±∞.
x→b
x→b
Falls der eigentliche oder uneigentliche Grenzwert
lim
f 0 (x)
=λ
g 0 (x)
lim
f (x)
= λ.
g(x)
x→b
existiert, dann ist auch
x→b
Beweis. Wegen der Nullstellenfreiheit von g 0 ist g injektiv (Bemerkung 15.29). Es gibt daher
ein a1 ∈ I mit g(x) 6= 0 für alle x ∈ [a1 , b[. Indem man a ggf. durch a1 ersetzt, darf man
o.B.d.A. annehmen, dass g(x) 6= 0 für alle x ∈ I ist.
Fall 1: Es sei λ ∈ R.
Es sei eine Zahl ε > 0 gegeben. Nach Voraussetzung gibt es dann ein x0 ∈ I mit
0
f (x)
ε
für alle
x ∈ [x0 , b[.
g 0 (x) − λ < 2
54
Der Marquis G. F. A. de l’Hospital (1661 – 1704) publizierte 1696 das erste Lehrbuch der Infinitesimalrechnung. Darin steht auch die nach ihm benannte Regel. Das Resultat selber wird Johann Bernoulli (1667
– 1748) zugeschrieben, dem jüngeren Bruder von Jakob Bernoulli und Lehrer Eulers.
251
Zu beliebigen x und y mit x0 ≤ x < y < b gibt es nach dem verallgemeinerten Mittelwertsatz
(Satz 15.14) ein ξ ∈]x, y[ mit
f 0 (ξ)
f (y) − f (x)
.
= 0
g(y) − g(x)
g (ξ)
(Für die Anwendbarkeit dieses Satzes ist die Nullstellenfreiheit von g 0 entscheidend.) Für
alle x und y mit x0 ≤ x < y < b folgt somit
ε
f (y) − f (x)
< .
−
λ
(15.2)
2
g(y) − g(x)
Fall 1.1: Es sei limx→b f (x) = limx→b g(x) = 0.
Bei festem x führt man dann in (15.2) den Grenzübergang y → b durch und erhält
ε
f (x)
für alle x ∈ [x0 , b[.
g(x) − λ ≤ 2
(15.3)
Zu jedem ε > 0 gibt es also ein x0 ∈ I, so dass (15.3) gilt. Hiermit folgt die Behauptung
lim
x→b
f (x)
= λ.
g(x)
Fall 1.2: Es sei limx→b f (x) = limx→b g(x) = +∞. (Der Fall des uneigentlichen Grenzwerts
−∞ lässt sich hierauf zurückführen.)
In (15.2) setzen wir x = x0 ein und dividieren Zähler und Nenner durch g(y). So folgt
f (y) f (x0 )
ε
g(y) − g(y)
für alle y ∈]x0 , b[.
−
λ
<
g(x
)
0
1−
2
g(y)
Weil g(y) für y → b gegen ∞ strebt, gibt es ein y0 ∈]x0 , b[ mit
1−
g(x0 )
>0
g(y)
für alle
y ∈ [y0 , b[.
Wir multiplizieren die Ungleichung mit dieser positiven Größe und erhalten
f (y) f (x0 )
ε
g(x
)
g(x
)
0
0
g(y) − g(y) − λ 1 − g(y) < 2 · 1 − g(y) ,
also mit der umgekehrten Dreiecksungleichung
f (y)
ε ε g(x0 ) f (x0 ) g(x0 ) g(y) − λ < 2 + 2 · g(y) + g(y) + λ · g(y) für alle y ∈ [y0 , b[. Für y → b streben alle drei Beträge auf der rechten Seite gegen 0. Deshalb
gibt es ein y1 ∈ [y0 , b[ mit
f (y)
<ε
−
λ
für alle
y ∈ [y1 , b[.
g(y)
Hiermit folgt die Behauptung
lim
x→b
f (y)
= λ.
g(y)
252
Fall 2: Es sei λ = ∞. (Der Fall λ = −∞ wird hierauf zurückgeführt.)
Es sei eine Zahl M > 0 gegeben. Nach Voraussetzung gibt es hierzu ein x0 ∈ I mit
f 0 (x)
> 2M
g 0 (x)
für alle
x ∈ [x0 , b[.
Wie zuvor folgt mit dem verallgemeinerten Mittelwertsatz
f (y) − f (x)
> 2M
g(y) − g(x)
für alle x, y mit x0 ≤ x < y < b.
Analog zu Fall 1 schließt man hieraus auf die Existenz eines y1 ∈ [x0 , b[ mit
f (y)
>M
g(y)
für alle
y ∈ [y1 , b[.
Damit folgt die Behauptung
lim
y→b
f (y)
= ∞.
g(y)
Bemerkung 15.31
(1) In Satz 15.30 genügt es natürlich, wenn die Voraussetzung g 0 (x) 6= 0 in einem Teilintervall [a1 , b[ von I erfüllt ist.
(2) Analoge Aussagen wie in Satz 15.30 gelten selbstverständlich auch für Funktionen auf
Intervallen ]a, b] mit Grenzwertaussagen für x → a+.
(3) Für mehrfach differenzierbare Funktionen kann man den Satz mehrfach anwenden und
(k) (x)
somit gegebenenfalls aus der Existenz eines Grenzwerts limx→b fg(k) (x)
auf den Grenzwert
limx→b
f (x)
g(x)
schließen.
(4) Die Grenzwerte, von denen Satz 15.30 handelt, lassen sich in der Praxis statt durch eine
Anwendung der Regel von Bernoulli und de l’Hospital oftmals schneller und geschickter
durch die Untersuchung geeigneter Potenzreihenentwicklungen bestimmen. Beispiele
hierfür lernen wir in den Übungen kennen.
Beispiel 15.32
(1) Es sei α > 0. Aus Satz 15.30 folgt
lim
x→∞
α · eαx
eαx
= lim
= ∞.
x→∞
x
1
Durch wiederholte Anwendung folgt
lim
x→∞
eαx
αn · eαx
=
lim
=∞
x→∞
xn
n!
für jede natürliche Zahl n. Das Ergebnis ist aus Satz 12.2 bereits bekannt. Wir haben
es jetzt ganz mühelos aus Satz 15.30 folgern können.
253
(2) Es gilt cos π2 = 0 und
lim exp(− tan(x)) = 0.
x→ π2 −
Man kann Satz 15.30 auf die Funktionen
f (x) := exp(− tan x)
und
g(x) := cos x
auf jedem Intervall a, π2 mit 0 < a < π2 anwenden, denn die Ableitungen
f 0 (x) = − exp(− tan x) · (1 + tan2 x)
und
g 0 (x) = − sin x
sind dort nullstellenfrei. Es folgt
lim
π
x→ 2 −
exp(− tan x)
=
cos x
lim
π
x→ 2 −
− exp(− tan x) · (1 + tan2 x)
− sin x
1
· lim (1 + y 2 )e−y
sin(π/2) y→∞
= 0,
=
wobei zuletzt (1) beziehungsweise Satz 12.2 benutzt wurde.
254
16
Stammfunktionen und Integrationstechniken
Eine wesentliche Aufgabe der Integralrechnung ist die Inhaltsmessung von Flächen. In Kapitel 17 werden wir eine Theorie zur Messung von Ordinatenmengen {(x, y) | a ≤ x ≤
b, 0 ≤ y ≤ f (x)} positiver Funktionen f : [a, b] −→ [0, ∞[ entwickeln. In Kapitel 18 lernen
wir einen überraschenden Bezug dieser Theorie zur Differentialrechnung kennen: Wir konstruieren differenzierbare Funktionen F , deren Ableitung gleich einer gegebenen Funktion f
ist, als sog. Integralfunktionen von f . Es besteht also ein innerer Zusammenhang zwischen
zwei geometrischen Problemen, die auf den ersten Blick nichts miteinander zu tun zu haben
scheinen, nämlich dem Inhalt von Ordinatenflächen einer Funktion und der Konstruktion
von Funktionen, deren Graph vorgegebene Tangentensteigungen hat.
In diesem Kapitel wollen wir uns zunächst mit formalen Aspekten des Integrationskalküls
beschäftigen. Wir lernen Techniken kennen, mit denen man manchmal zu einer gegebenen
Funktion f eine differenzierbare Funktion F mit der Ableitung F 0 = f finden kann. Die
Techniken haben den prinzipiellen Nachteil, dass zunächst nicht klar wird, wann sie zum
Erfolg führen und wann nicht. Erst die Theorie in den Kapiteln 17 und 18 wird Klarheit
schaffen.
16.1
Stammfunktionen
Definition 16.1 Es sei f : I −→ R eine Funktion auf einem echten Intervall I. Eine
Funktion F : I −→ R heißt eine Stammfunktion von f oder ein unbestimmtes Integral
von f , falls F differenzierbar ist und die Ableitung F 0 = f hat. Mit den Symbolen
Z
Z
f (x) dx
oder
f
wird die Menge aller Stammfunktionen von f bezeichnet.
Proposition 16.2 Es sei F eine Stammfunktion einer Funktion f : I −→ R auf einem
echten Intervall I. Für jede reelle Zahl C ist dann auch x 7→ F (x) + C eine Stammfunktion
von f , und in dieser Gestalt erhält man alle Stammfunktionen von f ; es gilt
Z
f (x) dx = {F + C | C ∈ R}.
Beweis. Aus F 0 = f folgt (F + C)0 = f für jede reelle Zahl C, so dass mit F auch F + C
Stammfunktion von f ist. Ist neben F auch G Stammfunktion von f , gilt also F 0 = f und
G0 = f , so ist (G − F )0 = 0, und nach Korollar 15.10 (b) ist dann G − F konstant.
Bemerkung 16.3
(1) Anstelle der etwas schwerfälligen Mengenschreibweise in Proposition 16.2 werden wir
wie in Formelsammlungen und in vielen Lehrbüchern auch die (eigentlich unexakte,
aber nützliche) Schreibweise
Z
f (x) dx = F (x) + C
255
R
verwenden.
Hierin
heißt
C
eine
Integrationskonstante.
Die
Symbole
f (x) dx und
R
f werden oft auch zur Bezeichnung einzelner Stammfunktionen verwendet. Man
schreibt also beispielsweise
Z
1
dx = log(x) für x > 0.
x
Warnung: Das Weglassen der Integrationskonstanten kann zu Fehlschlüssen
verführen. So gilt etwa gemäß Beispiel 15.17 (3)
Z
Z
1
1
dx = arctan(x)
und
dx = −arccot(x).
2
1+x
1 + x2
Hieraus darf man nicht auf die Gleichheit der rechten Seiten schließen. Richtig ist
vielmehr
π
für alle x ∈ R.
arctan(x) = − arccot(x)
2
Und erst recht ist ein Schluss wie
Z
Z
x2
x2
x dx =
∧
x dx =
+1
=⇒
1=0
2
2
natürlich nicht zulässig.
(2) Jede Formel für Ableitungen liefert in der Umkehrung eine Formel für unbestimmte
Integrale. Die Beispiele in Kapitel 14 können also zur Aufstellung einer Liste von
Stammfunktionen verwendet werden. So findet man etwa die beiden Stammfunktionen
1
x 7→ arctan(x) und x 7→ −arccot(x) von x 7→ 1+x
2.
(3) Die Aussagen (1) und (2) in Satz 14.11 liefern die Integrationsregel
Z
Z
Z
(af (x) + bg(x)) dx = a f (x) dx + b g(x) dx
für beliebige reelle Zahlen a, b und Funktionen f und g, die Stammfunktionen besitzen. Die Linearität der Operation des Differenzierens impliziert die Linearität der
umgekehrten Operation des Integrierens.
(4) Die Konstruktion von Stammfunktionen ist die Umkehrung der Differentiation und
hat insofern zunächst nichts mit der Integration zur Flächenmessung zu tun. Dass
hier – wie eingangs angesprochen – doch einR enger Zusammenhang besteht (welcher
es rechtfertigt, in beiden Fällen das Symbol zu verwenden), wird sich erst aus dem
Hauptsatz der Differential- und Integralrechnung in Kapitel 18 ergeben.
16.2
Partielle Integration und Substitutionsregel
Das Produkt zweier differenzierbarer Funktionen u und v hat nach Satz 14.11 (3) die Ableitung
(uv)0 = u0 v + uv 0 .
Es sei G eine Stammfunktion von u0 v. Setzt man dann F := uv − G, so folgt
F 0 = u0 v + uv 0 − G0 = uv 0 .
Also ist F eine Stammfunktion von uv 0 . Damit ist das folgende Ergebnis bewiesen:
256
Satz 16.4 (Partielle Integration)
Es seien u : I −→ R und v : I −→ R differenzierbare Funktionen auf einem echten Intervall I, und G sei eine Stammfunktion von u0 v. Dann
ist F := uv − G eine Stammfunktion von uv 0 . Es gilt also
Z
Z
0
u(x)v (x) dx = u(x)v(x) − u0 (x)v(x) dx
Gemäß unserer Vereinbarung über das Symbol
strenggenommen Mengen von Funktionen.
R
stehen auf beiden Seiten dieser Formel
Die partielle Integration ist ein Analogon zur partiellen Summation in Lemma 7.36. Zur
Ermittlung von Stammfunktionen wird die partielle Integration eingesetzt, wenn das Produkt
u0 v irgendwie einfacher“ erscheint als uv 0 . Ähnlich wie
R die0 partielle Summation dient die
”
partielle Integration auch dazu, um
R aus einem Integral uv einen ”wesentlichen“ Anteil uv
auszusondern und den Rest“ − u0 v weiter zu untersuchen.
”
Beispiel 16.5
(1) Wir suchen eine Stammfunktion von x 7→ log(x). Hierzu setzen wir u(x) := log(x) und
v(x) := x, und wir erhalten für x > 0
Z
Z
log(x) dx =
1 · log(x) dx
Z
1
= x log(x) − x · dx
x
Z
= x log(x) − 1 dx
= x log(x) − x + C.
(2) Wir suchen eine Stammfunktion von x 7→ sin2 (x). Setzt man v(x) := − cos(x) und
u(x) := v 0 (x) = sin(x), dann ist scheinbar keine Vereinfachung zu erwarten. Man
erhält aber
Z
Z
2
sin (x) dx = − sin(x) cos(x) + cos2 (x) dx
Z
= − sin(x) cos(x) + (1 − sin2 (x)) dx
Z
= − sin(x) cos(x) + x − sin2 (x) dx .
R
Wir können diese Gleichung nach sin2 (x) dx auflösen; damit folgt
Z
1
sin2 (x) dx = (x − sin(x) cos(x)) + C .
2
(3) Die Funktion F0 (x) := − 12 exp(−x2 ) hat die Ableitung f0 (x) := F00 (x) = x exp(−x2 ).
Für beliebige ganze Zahlen k ≥ 0 suchen wir nun eine Stammfunktion Fk von
2
fk (x) := x2k+1 e−x .
257
Mittels partieller Integration gewinnen wir eine Rekursionsformel für Fk (x). Denn es
ist
fk+1 (x) = u(x)v 0 (x)
mit
u(x) = x2k+2 ,
2
v 0 (x) = xe−x = f0 (x) = F00 (x).
Aus Satz 16.4 folgt daher
Z
Z
2k + 2
2
· x2k+1 e−x dx
fk+1 (x) dx = u(x)F0 (x) +
2
1
2
= − x2k+2 e−x + (k + 1)Fk (x) + C .
2
Wir können daher Stammfunktionen Fk von fk rekursiv durch
1
2
Fk+1 (x) := − x2k+2 e−x + (k + 1)Fk (x)
2
definieren. Es ist dann Fk (x) = pk (x) · exp(−x2 ) mit Polynomen pk , welche p0 (x) = − 12
und die Rekursionsgleichung
1
pk+1 (x) = − x2k+2 + (k + 1) · pk (x)
2
erfüllen; hieraus ergibt sich, dass pk für alle k ∈ N0 den Grad 2k hat.
Die Kettenregel der Differentialrechnung (Satz 14.12) lautet (f ◦ ϕ)0 = (f 0 ◦ ϕ) · ϕ0 unter
geeigneten Voraussetzungen an f und ϕ. Sie lässt sich mühelos in ein Resultat über Stammfunktionen umschreiben:
Satz 16.6 (Substitutionsregel)
Es seien f : I −→ R und ϕ : J −→ I differenzierbare
Funktionen auf echten Intervallen I und J.
(a) Es sei F eine Stammfunktion von f . Dann ist F ◦ϕ eine Stammfunktion von (f ◦ϕ)·ϕ0 .
(b) Es sei ϕ(J) = I und ϕ0 (t) 6= 0 für alle t ∈ J. Dann existiert die Umkehrfunktion
ϕ−1 : I −→ J, und wenn G eine Stammfunktion von (f ◦ϕ)·ϕ0 ist, dann ist F = G◦ϕ−1
eine Stammfunktion von f . Man notiert diese Regel in der Formel
Z
Z
f (x) dx = f (ϕ(t))ϕ0 (t) dt .
−1
t=ϕ
(x)
Beweis.
(a) Dies ist klar aufgrund der Kettenregel.
(b) Aus Bemerkung 15.29 folgt, dass ϕ injektiv (sogar streng monoton) ist. Also existiert
die Umkehrfunktion, und diese ist nach Satz 14.14 differenzierbar mit der Ableitung
1
.
(ϕ−1 )0 = 0
ϕ ◦ ϕ−1
Aus der Voraussetzung G0 = (f ◦ ϕ) · ϕ0 folgt also
F 0 = (G ◦ ϕ−1 )0 = (G0 ◦ ϕ−1 ) · (ϕ−1 )0
1
=
(f ◦ ϕ) · ϕ0 ◦ ϕ−1 · 0
ϕ ◦ ϕ−1
1
= f · (ϕ0 ◦ ϕ−1 ) · 0
ϕ ◦ ϕ−1
= f.
258
Zur Anwendung der Substitutionsregel müssen wir eine gegebene Funktion g in der Form
g = (f ◦ ϕ) · ϕ0 schreiben. Dazu wird in g(x) die Variable durch x = ϕ(t) ersetzt. Das
erklärt den Namen der Regel, und es erklärt auch, warum meistens die Variante (b) benötigt
wird. Die Kunst bei der Anwendung der Substitutionsregel besteht im geschickten Erraten“
”
erfolgreicher Substitutionen.
Merkregel. Die Substitutionsregel ist ebenso wie die ihr zugrundeliegende Kettenregel
im Leibnizschen Kalkül einprägsam zu merken: Schreibt man die Ableitung von x = ϕ(t) in
und löst formal nach dx auf, so ergibt sich nämlich gerade dx = ϕ0 (t) dt.
der Form ϕ0 (t) = dx
dt
Man muss sich freilich wiederum bewusst sein, dass diese suggestive Schreibweise eigentlich
mathematisch unsinnig und daher ohne Beweiswert ist, da wir den Differentialen dx und dt
keine eigene Bedeutung gegeben haben; dass sie dennoch das richtige“ Ergebnis liefert, liegt
”
daran, dass die Notationen entsprechend geschickt eingerichtet worden sind.
Beispiel 16.7
(1) Wir betrachten noch einmal die Funktion f (x) := sin2 (x), zu der wir bereits in Beispiel
16.5 (2) mithilfe partieller Integration eine Stammfunktion bestimmt hatten.
Wir wollen nun die aus Aufgabe 2.5 bekannte trigonometrische Identität
1
sin2 (x) = (1 − cos(2x))
2
ausnutzen. Wir setzen also x = ϕ(t) := 2t und erhalten
Z
Z
1
1
2
x−
sin (x) dx =
cos(2x) dx
2
2
Z
1
1
=
x−
cos(t) dt 2
4
t=2x
1
1
x − sin(t) +C
=
2
4
t=2x
1
1
=
x − sin(2x) + C
2
4
1
(x − sin(x) cos(x)) + C,
=
2
wobei wir zuletzt das Additionstheorem des Sinus angewandt haben. Dies stimmt mit
dem Ergebnis aus Beispiel 16.5 (2) überein.
(2) Es sei
f (x) :=
2−x
.
1 − 4x + x2
Setzt man
ϕ(x) := 1 − 4x + x2 ,
so ist
f (x) = −
−4 + 2x
ϕ0
=
−
(x).
2(1 − 4x + x2 )
2ϕ
259
Mit der Substitutionsregel in der Fassung von Satz 16.6 (b) erhalten wir
Z 0
Z
Z
ϕ (x)
1
1 1
1
dx = −
dt = − log |1 − 4x + x2 | + C,
f (x) dx = −
2
ϕ(x)
2
t 2
t=ϕ(x)
und diese Formel ist in jedem Intervall gültig, in dem der Nenner von f keine Nullstelle
hat.
Die Methode in diesem Beispiel führt offenbar zu dem folgenden allgemeineren Resultat:
Proposition 16.8 Es sei g : I −→ R eine differenzierbare und nullstellenfreie Funktion
0 (x)
auf einem echten Intervall I. Dann ist x 7→ log |g(x)| eine Stammfunktion von x 7→ gg(x)
. Es
gilt also
Z 0
g (x)
dx = log |g(x)| + C .
g(x)
16.3
Partialbruchzerlegung rationaler Funktionen
Wir haben im letzten Abschnitt einige Methoden zur Konstruktion von Stammfunktionen
kennengelernt. In diesem Zusammenhang stellen sich nun zwei Fragen:
(1) Welche Funktionen besitzen überhaupt eine Stammfunktion? Eine zumindest teilweise Antwort hierauf werden uns die Riemann’sche Integrationstheorie und speziell der
Hauptsatz der Differential- und Integralrechnung geben.
(2) Welche Funktionen sind elementar integrierbar“ in dem Sinne, dass sie Stammfunk”
tionen besitzen, welche sich durch die uns bisher bekannten elementaren Funktionen
ausdrücken lassen? Hierbei nennen wir eine reellwertige Funktion auf einem Intervall
eine elementare Funktion, falls sie aus Polynomen, der Exponentialfunktion sowie
aus den trigonometrischen und den Hyperbelfunktionen und aus Umkehrfunktionen
dieser Funktionen durch endlich viele Operationen (Addition, Subtraktion, Multiplikation, Division und Komposition von Funktionen) entsteht.
Zumindest die rationalen Funktionen besitzen stets eine elementare Funktion als Stammfunktion. Wir wollen dies nicht formal beweisen, sondern uns darauf beschränken, die für
das tatsächliche Auffinden solcher Stammfunktionen relevanten Methoden vorzustellen. Eine
zentrale Rolle hierbei spielt die Partialbruchzerlegung rationaler Funktionen:
Bemerkung 16.9
Es sei eine rationale Funktion
f=
p
q
gegeben, worin p und q Polynome mit reellen Koeffizienten sind und q nicht konstant ist.
Der Nenner q lässt sich gemäß Korollar 12.30 in reelle Faktoren vom Grad 1 und 2 zerlegen.
Dabei ist zu beachten, dass Faktoren auch mehrfach auftreten können. Somit besitzt q eine
Darstellung der Form
s
t
Y
Y
mj
q(x) = c · (x − xj ) ·
(x2 + ak x + bk )nk
j=1
k=1
260
mit paarweise verschiedenen reellen Nullstellen x1 , . . . , xs , ebenfalls paarweise verschiedenen
quadratischen Faktoren x2 + a1 x + b1 , . . . , x2 + at x + bt ohne reelle Nullstellen und mit
Vielfachheiten mj , nk ∈ N.
Man kann zeigen, dass f dann eine (reelle) Partialbruchzerlegung
f (x) = p0 (x) +
mj
s X
X
j=1 µ=1
t
n
k
XX
Aj,µ
Bk,ν · x + Ck,ν
+
(x − xj )µ k=1 ν=1 (x2 + ak x + bk )ν
mit geeigneten Koeffizienten Aj,µ , Bk,ν , Ck,ν ∈ R und einem reellen Polynom p0 besitzt55 .
Die Partialbruchzerlegung bestimmt man wie folgt:
• Den Polynom-Anteil p0 von f = pq gewinnt man durch Polynomdivision mit Rest:
Gemäß Lemma 12.28 hat p eine Darstellung p = p0 · q + r mit Polynomen p0 und r
und mit grad (r) < grad (q).
• Nach Abspaltung des Polynoms p0 bleibt noch eine rationale Funktion qr zu zerlegen,
bei der der Zählergrad kleiner als der Nennergrad ist. Welche Partialbrüche dabei auftreten können, entnimmt man der Zerlegung des Nenners in Linear- und quadratische
Faktoren. Für die auftretenden Koeffizienten kann man ein lineares Gleichungssystem
aufstellen, das mit Methoden der Linearen Algebra zu lösen ist.
Das eigentliche numerische Problem bei der Partialbruchzerlegung besteht in der Faktorisierung des Nenners q(x). Übungsbeispiele sind immer so konstruiert, dass diese Aufgabe mit
algebraischen Methoden bewältigt werden kann.
Die Ermittlung einer Stammfunktion für eine beliebige rationale Funktion wird durch die
Partialbruchzerlegung auf die Aufgabe reduziert, für die speziellen rationalen Funktionen
1
,
(x − x0 )k
(x2
1
+ ax + b)k
und
(x2
x
+ ax + b)k
mit beliebigen k ∈ N Stammfunktionen zu finden, wobei x2 + ax + b keine reellen Nullstellen hat. Solche Stammfunktionen gibt es stets, und zwar sogar unter den o.g. elementaren
Funktionen. Man findet sie mit den im letzten Abschnitt vorgestellten Methoden:
55
Von der komplexen Warte aus sind die Dinge wieder einmal viel einfacher – was daran liegt, dass
Polynome über C, nicht aber über R vollständig in Linearfaktoren zerfallen: Es sei f = pq eine rationale
Funktion mit Polynomen p und q mit Koeffizienten in C, und q sei nicht konstant. Dann besitzt der Nenner
q nach dem Fundamentalsatz der Algebra (Satz 12.27) eine Zerlegung
q(z) = c ·
s
Y
(z − zj )mj
j=1
mit paarweise verschiedenen komplexen Nullstellen z1 , . . . , zr . Die Funktion f hat dann die Partialbruchzerlegung
mj
s X
X
Aj,µ
f (z) = p0 (z) +
(z
− zj )µ
j=1 µ=1
mit geeigneten Koeffizienten Aj,µ ∈ C. Ein elementarer Beweis hierfür findet sich in [Königsberger 1, S. 3637]. In der Funktionentheorie wird sich dies als einfache Folgerung aus dem Satz von Mittag-Leffler ergeben.
261
• Es ist
Z
1
dx = log |x − x0 | + C,
x − x0
und für k ≥ 2 ist
Z
1
1
1
·
dx =
+ C.
k
(x − x0 )
1 − k (x − x0 )k−1
• Das unbestimmte Integral
Z
1
dx
+ ax + b)k
lässt sich mittels quadratischer Ergänzung und einer geeigneten Substitution auf das
Integral
Z
1
Ik :=
dx
(x2 + 1)k
zurückführen. Hierbei ist
Z
1
dx = arctan x + C,
I1 =
2
x +1
(x2
und für k ∈ N gilt
1
1 − (x2 + 1)
=
+ 2k · 2
dx
(x2 + 1)k
(x + 1)k+1
Z 2kx2
1
−
dx
=
(x2 + 1)k (x2 + 1)k+1
0
Z x
x
dx = 2
+ C,
=
2
k
(x + 1)
(x + 1)k
Z 2k · Ik+1 + (1 − 2k) · Ik
also
x
1
·
+ (2k − 1) · Ik + C 0 .
Ik+1 =
2k
(x2 + 1)k
Damit kann man die Ik im Prinzip rekursiv bestimmen. Für größere k wird dies
natürlich alsbald recht aufwändig.
• Die Integrale
Z
x
dx
+ ax + b)k
kann man mittels quadratischer Ergänzung und einer geeigneten Substitution auf die
oben behandelten Integrale vom Typ
Z
Z
1
x
dx
sowie auf
dx
2
k
2
(x + ax + b)
(x + 1)k
(x2
zurückführen. Hierbei ist gemäß Proposition 16.8
Z
x
1
dx = · log |x2 + 1| + C
2
x +1
2
und
Z
x
1
dx =
2
k
(x + 1)
2
Z
1
1
1
dt
· 2
+C
=
k
(t + 1)
2(1 − k) (x + 1)k−1
t=x2
Wir illustrieren dieses Vorgehen an zwei Beispielen:
262
für k ≥ 2.
Beispiel 16.10
(1) Für eine beliebige reelle Zahl a suchen wir eine Stammfunktion von
f (x) :=
Für a = ±1 ist f (x) =
1
,
(x∓1)2
1
.
1 − 2ax + x2
und wir können mühelos die Stammfunktion
F (x) = −
1
x∓1
angeben. Wir setzen jetzt
√ |a| > 1 voraus. Dann hat der Nenner von f die beiden reellen
Nullstellen x1,2 = a ± a2 − 1. Somit hat f die Partialbruchzerlegung
1
(x − x1 )(x − x2 )
1
1
1
=
·
−
x1 − x2
x − x1 x − x2
1
1
1
·
−
.
= √
x − x1 x − x2
2 a2 − 1
f (x) =
Dies führt uns zu der Stammfunktion
x − x1 1
1
.
· log |x − x1 | − log |x − x2 | = √
· log F (x) = √
x − x2 2 a2 − 1
2 a2 − 1
Schließlich wird der Fall −1 < a < 1 diskutiert. Der Nenner von f hat dann keine
reellen Nullstellen. Wir können f (x) durch eine geeignete Substitution in die Form
1
mit der Stammfunktion t 7→ arctan(t) bringen. Es ist nämlich
1+t2
f (x) =
Wir setzen daher
(x −
a)2
1
1
=
·
2
+ (1 − a )
1 − a2
1
1+
√x−a
1−a2
2 .
x−a
t = ϕ(x) := √
,
1 − a2
und wir erhalten
Z
1
f (x) dx =
·
1 − a2
Z
1
1+
√x−a
1−a2
2 dx
Z
√
1
1
2·
=
·
1
−
a
dt
2
2
1−a
1+t
t=ϕ(x)
1
= √
· arctan(t) +C
t=ϕ(x)
1 − a2
1
x−a
= √
· arctan √
+C .
1 − a2
1 − a2
263
(2) Es sei
2x5 + 2x4 + 2x3 + 2x2 − 1
.
x 3 + x2 + x + 1
Der Nenner hat die Faktoren x + 1 und x2 + 1. Eine Polynomdivision mit Rest gemäß
Lemma 12.28 ergibt
f (x) :=
f (x) = 2x2 −
x3
+
1
1
= 2x2 −
.
+x+1
(x + 1)(x2 + 1)
x2
Die Partialbruchzerlegung ist in der Gestalt
1
a
bx + c
=
+ 2
2
(x + 1)(x + 1)
x+1 x +1
mit noch zu bestimmenden Koeffizienten a, b, c ∈ R anzusetzen. Dies ist äquivalent zu
(a + b)x2 + (b + c)x + (a + c)
1
=
,
(x + 1)(x2 + 1)
(x + 1)(x2 + 1)
und durch Koeffizientenvergleich erhält man das lineare Gleichungssystem
a + b
= 0,
b + c = 0,
a
+ c = 1.
Die eindeutig bestimmte Lösung ist a = c = 12 , b = − 12 . Also ist
f (x) = 2x2 −
1
1
1
x
1
1
·
+ · 2
− · 2
.
2 x+1 2 x +1 2 x +1
Damit ergibt sich
Z
1
1
1
2
f (x) dx = x3 − log |x + 1| + log(x2 + 1) − arctan(x) + C .
3
2
4
2
Wie am Anfang dieses Kapitels bereits angekündigt, sind die bisherigen Ausführungen zur Integralrechnung in vieler Hinsicht noch unbefriedigend. Ob wir eine explizite Stammfunktion
zu einer gegebenen Funktion f finden, hängt von unserem Geschick (bzw. den verwendeten Formelsammlungen) ab. Die Sätze 16.4 und 16.6 und die Partialbruchzerlegung geben
Rezepte zur Berechnung von Stammfunktionen, die manchmal zum Erfolg führen, meistens
aber nicht. Wir benötigen deshalb eine Theorie, die unter möglichst geringen Annahmen
über f die Existenz von Stammfunktionen sichert. Die Entwicklung einer solchen Theorie
ist der Inhalt der beiden folgenden Kapitel.
264
17
17.1
Das Riemann-Integral
Intervallzerlegungen und Treppenfunktionen
Integrale sind bisher lediglich als unbestimmte Integrale, d.h. als Menge aller Stammfunktionen einer gegebenen Funktion aufgetreten. Probleme der Inhaltsmessung führen in natürlicher Weise zum Begriff des bestimmten Integrals:
+
+
+
− −
a
+
−
+
b
Abbildung 44: Inhaltsmessung von Ordinatenmengen
Unter der Ordinatenmenge der Funktion f : I −→ R auf einem kompakten Intervall I
wird die Menge
{(x, y) ∈ R2 | x ∈ I, f (x) ≤ y ≤ 0 oder 0 ≤ y ≤ f (x) }
verstanden. Für diese soll ein orientierter Flächeninhalt definiert werden. Die oberhalb
der x-Achse gelegenen Teile mit 0 ≤ y ≤ f (x) sollen positiv gerechnet werden, und die Teile
mit f (x) ≤ y ≤ 0 sollen negativ gerechnet werden.
Die Idee zur Definition des orientierten Flächeninhalts ist einfach: Wir zerlegen das Intervall
I in viele“ kleine“ Teilintervalle [x0 , x1 ], [x1 , x2 ], . . . , [xn−1 , xn ]. Die zu einem Teilintervall
”
”
[xν−1 , xν ] gehörige Ordinatenmenge ist näherungsweise ein Rechteck, falls sich die Funktion
f nicht zu wild“ verhält. Der Flächeninhalt dieser Menge ist daher ungefähr“ f (xν ) · (xν −
”
”
xν−1 ). Diese Messgröße trägt bereits das gewünschte Vorzeichen. Ein Näherungswert für den
gesuchten orientierten Flächeninhalt ist daher die Summe
n
X
f (xν ) · (xν − xν−1 ) .
ν=1
Ein geeigneter Grenzübergang sollte zur Definition des orientierten Flächeninhalts führen.
Das Problem liegt darin, diesen Grenzübergang zu präzisieren. Die Riemannsche und die
(in der Vertiefung Analysis behandelte) Lebesguesche Integrationstheorie stellen zwei unterschiedliche Möglichkeiten dar, wie die skizzierte Idee in eine exakte Definition umgesetzt
werden kann.
Definition 17.1 Es sei I = [a, b] ein echtes kompaktes Intervall. Eine Zerlegung von I
ist ein (n + 1)-Tupel Z = (x0 , x1 , . . . , xn ) mit einer beliebigen natürlichen Zahl n und reellen
265
Zahlen x0 , x1 , . . . , xn , die
a = x0 < x1 < . . . < xn−1 < xn = b
erfüllen. Die Punkte xν heißen die Teilpunkte der Zerlegung Z, und die positive Zahl
|Z| := max{ |xν − xν−1 | : 1 ≤ ν ≤ n}
heißt die Feinheit der Zerlegung Z.
Es seien Z1 = (x0 , x1 , . . . , xn ) und Z2 = (y0 , y1 , . . . , ym ) zwei Zerlegungen von I.
• Wir nennen Z1 feiner als Z2 oder eine Verfeinerung von Z2 , und wir schreiben
Z1 ≤ Z2 ,
falls jeder Teilpunkt von Z2 auch ein Teilpunkt von Z1 ist, falls also {y0 , y1 , . . . , ym } ⊆
{x0 , x1 , . . . , xn } gilt.
• Wenn man die Zahlen in der Menge {x0 , x1 , . . . , xn , y0 , y1 , . . . , ym } der Größe nach anordnet, insbesondere also doppelt vorkommende nur einmal auflistet, dann erhält man
wieder eine Zerlegung von I. Diese ist feiner als Z1 und feiner als Z2 . Wir bezeichnen
sie mit Z1 Z2 und nennen sie eine gemeinsame Verfeinerung von Z1 und Z2 .
Definition 17.2 Eine Funktion t : I −→ R auf einem echten kompakten Intervall I =
[a, b] heißt eine Treppenfunktion, falls es eine Zerlegung Z = (x0 , x1 , . . . , xn ) von I gibt,
so dass t auf jedem offenen Teilintervall ]xν−1 , xν [ konstant ist. Es soll also reelle Zahlen
c1 , . . . , cn geben mit
für alle x ∈ ]xν−1 , xν [ und alle ν = 1, . . . , n.
t(x) = cν
Das Integral (oder Elementarintegral) der Treppenfunktion t ist die Zahl
Z
b
Z
t=
a
b
t(x) dx :=
a
Ergänzend definieren wir
Z a
t(x) dx := 0 ,
a
n
X
cν (xν − xν−1 ) .
ν=1
Z
a
Z
t(x) dx := −
b
b
t(x) dx .
a
Mit T (I) bezeichnen wir die Menge aller Treppenfunktionen auf einem kompakten Intervall
I = [a, b].
Das Integral einer Treppenfunktion t gibt offenbar die richtige“ Definition des orientierten
”
Flächeninhalts der Ordinatenmenge von t. In Abbildung 45 sind die Werte von t in den
endlich vielen Teilpunkten xν der Intervallzerlegung durch dicke Punkte markiert. Diese
Werte sind irrelevant für den Flächeninhalt; sie bleiben bei der Definition des Integrals von
t unberücksichtigt. Aus diesem Grund haben wir bei der Definition von Treppenfunktionen
über die Werte t(xν ) in den Teilpunkten nichts vorausgesetzt.
266
1111
0000
0000
1111
0000
1111
0000
1111
00
00000
11111
000
111
000
111
000011
1111
000
111
00
11
00000
11111
000
111
000
0000
1111
000
00
11
00000
11111
000111
111
000 111
111
0000
1111
000
111
00
11
00000
11111
000
111
000
111
0000
1111
000
111
00
11
00000
11111
000
111
000
111
0000
1111
000
111
0000
1111
000
111
00000
11111
00
11
000x =b
111
00
11
00000
11111
000
111
000
111
0000
1111
000
111
0000
1111
000
111
00000
11111
00
11
x =a
000
111
0000
1111
000
111
00000
11111
00
11
000
111
0000
1111
000
111
00000
11111
000
111
0000
1111
000
111
000
0000
1111
000111
111
000
111
000
111
000
111
n
0
Abbildung 45: Treppenfunktionen und ihr Integral
Bemerkung 17.3
Die Definition des Integrals von Treppenfunktionen wirft ein (kleines)
Wohldefiniertheitsproblem auf: Es gibt viele Zerlegungen Z = (x0 , x1 , . . . , xn ) des Intervalls
I, so dass t auf jedem offenen Teilintervall ]xν−1 , xν [ konstant ist. Die Summe in der Definition
des Integrals von t stützt sich auf eine bestimmte solche Zerlegung. Das Integral sollte aber
nur von t und nicht von der Wahl der Zerlegung von I abhängen. Es ist nicht schwierig, die
Unabhängigkeit von der Wahl der Intervallzerlegung zu beweisen:
Je zwei Zerlegungen von I besitzen eine gemeinsame Verfeinerung. Es genügt daher den
Fall zu diskutieren, dass die Zerlegung Z1 = (x0 , . . . , xk−1 , ξ, xk , . . . , xn ) aus der Zerlegung
Z = (x0 , . . . , xk−1 , xk , . . . , xn ) durch Hinzunahme eines einzigen Teilpunktes ξ entsteht. Die
Differenz der zu Z1 und zu Z gehörigen Summen ist dann
ck (ξ − xk−1 ) + ck (xk − ξ) − ck (xk − xk−1 ) = 0.
Hieraus folgt die Behauptung im allgemeinen Fall durch einen Induktionsschluss.
Lemma 17.4 (Integral von Treppenfunktionen)
Es seien t, t1 und t2 Treppenfunktionen auf einem echten kompakten Intervall I = [a, b]. Dann gilt:
Rb
Rb
Rb
(1) Auch t1 + t2 ist eine Treppenfunktion, und es ist a (t1 + t2 ) = a t1 + a t2 .
(2) Für alle λ ∈ R ist λt eine Treppenfunktion, und es ist
(3) Wenn t1 (x) ≤ t2 (x) für alle x ∈ I ist, dann ist
Rb
a
t1 ≤
(4) Für beliebige α, β, γ ∈ I gilt
Z
γ
Z
β
t=
α
Z
t+
α
267
γ
t.
β
Rb
a
Rb
a
(λt)(x) dx = λ ·
t2 .
Rb
a
t(x) dx .
Beweis. Wir dürfen annehmen, dass t, t1 und t2 bezüglich derselben Zerlegung Z von I
definiert sind. (Anderenfalls ersetzt man die zugehörigen Zerlegungen durch eine gemeinsame
Verfeinerung.) Die Behauptungen (1), (2) und (3) sind unmittelbare Folgerungen aus der
Definition. (In (3) wird die Voraussetzung t1 (x) ≤ t2 (x) nur für diejenigen x benötigt, die
keine Teilpunkte von Z sind.)
Beliebig gegebene α, β, γ ∈ I kann man als zusätzliche Teilpunkte in die Zerlegung Z aufnehmen. Dann folgt (4) im Falle α < β < γ sofort aus der Definition des Integrals von t als
Summe. In den übrigen Fällen folgt es aus den zusätzlichen Vereinbarungen in Definition
17.2.
In der Sprache der Linearen Algebra kann man die Aussagen (1) und (2) in Lemma 17.4 wie
folgt ausdrücken: Bezüglich der punktweisen Addition von Funktionen und der Multiplikation mit
Skalaren λ ∈ R ist T (I) ein Vektorraum über dem Körper R. Die Abbildung
Z b
t(x) dx
t 7→
a
ist linear. Es handelt sich bei dieser Abbildung also um eine Linearform oder ein lineares Funktional auf dem reellen Vektorraum T (I). Wegen der Regel (3) heißt dieses lineare Funktional
monoton. Eine Aufgabe der Integrationstheorie ist es, dieses monotone lineare Funktional auf
T (I) zu einem Funktional mit den gleichen Eigenschaften auf einen möglichst großen Vektorraum
von Funktionen fortzusetzen.
17.2
Definition des Riemann-Integrals
Definition 17.5 Für Funktionen f : D −→ R und g : D −→ R schreiben wir f ≤ g oder
auch g ≥ f , falls f (x) ≤ g(x) für alle x ∈ D gilt.
Es sei f : I −→ R eine beschränkte Funktion auf einem echten kompakten Intervall I = [a, b].
Wegen der Beschränktheit gibt es Treppenfunktionen t1 und t2 auf I mit t1 ≤ f ≤ t2 . Die
Mengen
(Z
)
(Z
)
b
b
U :=
t(x) dx t ∈ T (I), t ≤ f
und
O :=
t(x) dx t ∈ T (I), t ≥ f
a
a
von reellen Zahlen sind deshalb nicht leer. Nach Lemma 17.4 (3) gilt u ≤ v für alle u ∈ U
und alle v ∈ O. Daher ist sup U =
6 ∞ und inf O 6= −∞. Die Elemente von U (d.h. die
Rb
Zahlen a t(x) dx mit t ∈ T (I), t ≤ f ) heißen Riemannsche Untersummen für f , und
die Elemente von O heißen Riemannsche Obersummen für f . Das Supremum
(Z
)
Z b
Z b
b
f=
f (x) dx := sup U = sup
t(x) dx t ∈ T (I), t ≤ f
a
a
a
heißt das Riemannsche oder Darbouxsche Unterintegral der Funktion f . Das Infimum
(Z
)
Z b
Z b
b
f=
f (x) dx := inf O = inf
t(x) dx t ∈ T (I), t ≥ f
a
a
a
heißt das Riemannsche oder Darbouxsche Oberintegral der Funktion f .
Wir beweisen einige funktionale Eigenschaften des Ober- und des Unterintegrals:
268
Lemma 17.6 (Ober- und Unterintegral)
Es seien f : I −→ R und g : I −→ R
beschränkte Funktionen auf einem echten kompakten Intervall I = [a, b]. Dann gilt:
(1) Das Ober- und das Unterintegral von f sind reelle Zahlen, und es ist
b
Z
b
Z
f (x) dx ≤
a
f (x) dx .
a
(2) Es ist
Z
b
b
Z
(f + g) ≥
b
Z
f+
a
Z
g
a
b
b
Z
(f + g) ≤
und
a
Z
f+
a
a
b
g.
a
(3) Für alle reellen Zahlen λ ≥ 0 ist
Z
b
Z
b
λ·f =λ·
Z
f
a
b
Z
b
λ·f =λ·
und
a
f.
a
a
(4) Für alle reellen Zahlen λ < 0 ist
Z
b
Z
λ·f =λ·
a
b
Z
f
b
Z
λ·f =λ·
und
a
b
f.
a
a
Beweis. Die Bemerkungen in der Definition machen die Behauptung (1) klar.
Es sei eine Zahl ε > 0 gegeben. Nach Definition des Unterintegrals als Supremum gewisser
Untersummen und nach Proposition 2.34 gibt es Treppenfunktionen t1 und t2 auf I mit
t1 ≤ f , t2 ≤ g und
Z b
Z b
Z b
Z b
ε
ε
t2 >
f − ,
g − .
t1 >
2
2
a
a
a
a
Dann ist t1 + t2 eine Treppenfunktion auf I mit t1 + t2 ≤ f + g, und es gilt
Z b
Z b
Z b
Z b
Z b
Z b
(f + g) ≥
(t1 + t2 ) =
t1 +
t2 >
f+
g − ε.
a
a
a
a
a
a
Die Ungleichung
Z
b
Z
(f + g) >
a
b
Z
a
b
g −ε
f+
a
besteht somit für jedes ε > 0. Hieraus folgt die erste Behauptung in (2), nämlich
Z b
Z b
Z b
(f + g) ≥
f+
g.
a
a
a
Die Behauptung (3) ist für λ = 0 klar, denn die konstante Funktion 0 hat offenbar das Oberund das Unterintegral 0. Nun sei λ > 0, und es sei eine Zahl ε > 0 gegeben. Wie zuvor gibt
es dann Treppenfunktionen t3 und t4 auf I mit t3 ≤ f , t4 ≤ λf ,
Z b
Z b
Z b
Z b
ε
t3 >
f −
und
t4 >
λf − ε .
λ
a
a
a
a
269
Die Treppenfunktionen λt3 und t4 /λ auf I erfüllen λt3 ≤ λf und t4 /λ ≤ f sowie
b
Z
b
Z
λf ≥
λt3 = λ
b
b
Z
f ≥λ
λ
a
a
a
a
a
Z
Z b
t3 > λ f − ε ,
b
Z
a
b
Z
1
· t4 =
λ
Z
b
λf − ε .
t4 >
a
a
Hieraus folgt
Z
−ε < λ
b
b
Z
f −
λf < ε.
a
a
Weil das für jedes ε > 0 gilt, folgt
Z
b
b
Z
λf = λ
f.
a
a
Damit ist die erste Behauptung in (3) bewiesen.
Die übrigen Behauptungen des Satzes können analog bewiesen werden. Man kann aber auch
folgendermaßen schließen: Für eine beliebige beschränkte Funktion h : I −→ R ergeben die
Definitionen
Z b
Z b
h = − (−h) .
a
a
Hieraus und aus den bereits bewiesenen Eigenschaften der Unterintegrale folgen die Behauptungen in (2) und in (3) über Oberintegrale, und mit (3) folgen dann auch die beiden
Behauptungen in (4).
Definition 17.7 Es sei I = [a, b] ein echtes kompaktes Intervall. Eine Funktion
f : I −→ R heißt Riemann-integrierbar, falls sie beschränkt ist und
Z
b
Z
f (x) dx =
b
f (x) dx
a
a
gilt. In diesem Fall heißt der gemeinsame Wert des Unter- und des Oberintegrals von f das
(Riemann-)Integral von f oder auch das bestimmte Integral von f in den Grenzen von
a bis b. Es wird mit
Z
Z b
Z
Z b
f
oder
f
oder
f (x) dx oder
f (x) dx
I
a
I
a
bezeichnet. Ergänzend setzen wir
Z
a
Z
f (x) dx := 0
a
a
Z
f (x) dx = −
und
b
b
f (x) dx ,
a
und wir sehen jede Funktion f : [a, a] −→ R als Riemann-integrierbar an.
Mit R(I) bezeichnen wir die Menge aller Riemann-integrierbaren Funktionen auf einem
kompakten Intervall I.
270
Wir werden in Teil V der Vorlesung die etwas subtilere Integrationstheorie von H. Lebesgue
(1875 – 1941) studieren. Wie sich herausstellen wird, ist jede Riemann-integrierbare Funktion
f auch Lebesgue-integrierbar, und das Integral von f nachR Lebesgue hat denselben Wert wie
b
das Integral nach Riemann. Deshalb können wir die Zahl a f (x) dx in der obigen Definition
kurz das Integral von f nennen und die umständlichere Bezeichnung Riemann-Integral
vermeiden.
R
Das Integralsymbol geht auf Leibniz zurück.
P Es soll historisch aus einem handschriftlich
sehr in die Länge gezogenen Summenzeichen
oder S entstanden sein.
Das folgende Kriterium für Integrierbarkeit ergibt sich direkt aus den Definitionen, stellt
aber dennoch ein wichtiges beweistheoretisches Hilfsmittel dar:
Lemma 17.8 (Integrabilitätskriterium von Riemann)
Eine Funktion f : I −→ R
auf einem kompakten Intervall I = [a, b] ist genau dann Riemann-integrierbar, wenn es zu
jeder Zahl ε > 0 Treppenfunktionen t und T auf I gibt mit
Z b
(T − t) < ε.
t≤f ≤T
und
a
Beweis. =⇒ “: Es sei f als Riemann-integrierbar vorausgesetzt. Es sei ein ε > 0 gegeben.
”
Nach Definition des Unter- bzw. Oberintegrals gibt es dann Treppenfunktionen t, T ∈ T (I)
mit t ≤ f ≤ T und
Z b
Z b
Z b
Z b
ε
ε
T <
f+ .
f− ,
t>
2
2
a
a
a
a
Hieraus und aus der Riemann-Integrierbarkeit von f folgt sofort
Z b
Z b
Z b
Z b
Z b
ε
ε
(T − t) =
T−
t<
f+ −
f + = ε.
2
2
a
a
a
a
a
⇐=“: Nun sei vorausgesetzt, dass die im Lemma angegebene Bedingung erfüllt ist. Es sei
”
ein ε > 0 gegeben. Hierzu gibt es dann also Treppenfunktionen t0 und T0 auf I mit
Z b
t0 ≤ f ≤ T0
und
(T0 − t0 ) < ε.
a
Wegen der Beschränktheit der Treppenfunktionen t0 und T0 bedeutet dies zunächst, dass f
beschränkt ist. Nach Definition des Unter- und Oberintegrals folgt außerdem
(Z
)
Z b
b
f = inf
T T ∈ T (I), T ≥ f
a
a
Z b
Z b
≤
T0 <
t0 + ε
a
a
(Z
)
Z b
b ≤ sup
t t ∈ T (I), t ≤ f + ε =
f + ε.
a
a
Rb
f ≤ a f . Da andererseits gemäß Lemma 17.6 (1)
Rb
Rb
auch die umgekehrte Abschätzung gilt, ist a f = a f . Dies bedeutet definitionsgemäß, dass
f Riemann-integrierbar ist.
Dies gilt für alle ε > 0. Daher ist sogar
Rb
a
271
Beispiel 17.9
(1) Es sei f : I −→ R eine Treppenfunktion auf I = [a, b]. In Definition 17.2 haben wir das
Rb
(Elementar-)Integral a f (x) dx erklärt. Natürlich möchten wir, dass f auch Riemannintegrierbar im Sinne von Definition 17.7 ist, und dass beide Integrale den gleichen
Wert haben. Dass dies der Fall ist, ist leicht einzusehen. Wegen f ∈ T (I) gilt nämlich
f ∈ {t ∈ T (I) | t ≤ f }
f ∈ {t ∈ T (I) | t ≥ f } .
und
Die Definition des Ober- und des Unterintegrals sowie Lemma 17.6 (1) ergeben daher
Z
b
Z
b
Z
f≤
f≤
b
Z
f≤
f,
a
a
a
b
a
wobei an zweiter Stelle das Elementarintegral der Treppenfunktion f im Sinne von
Definition 17.2 steht. Hieraus folgt
Z
b
Z
f=
a
b
Z
b
f=
a
f.
a
Dies bedeutet, dass f Riemann-integrierbar ist und das Riemann-Integral von f mit
dem Elementarintegral der Treppenfunktion f übereinstimmt. Es gilt also
T (I) ⊆ R(I).
(2) (∗) Es sei A > 0. Wir wollen nachvollziehen, wie Archimedes den Flächeninhalt der Ordinatenmenge
P = {(x, y) ∈ R2 | 0 ≤ x ≤ A, 0 ≤ y ≤ x2 }
unter der Parabel y = x2 gemessen hat.
Mit einer natürlichen Zahl n zerlegen wir I = [0, A] in n gleich lange Teilintervalle mit den
Teilpunkten xk = kA
n , k = 0, 1, . . . , n. Zwei Treppenfunktionen tn ≤ f und Tn ≥ f auf I
werden durch tn (0) = Tn (0) = 0 und
tn (x) = x2k−1 =
(k − 1)2 A2
,
n2
Tn (x) = x2k =
k 2 A2
n2
für xk−1 < x ≤ xk
und k = 1, . . . , n definiert. Mit der bekannten Beziehung
m
X
k=1
k2 =
1
· m(m + 1)(2m + 1)
6
für alle m ∈ N
berechnen wir ihre Elementarintegrale
Z
A
tn =
0
n
X
A
(k − 1)A 2 A3 1
1
1
1
= 3 · (n − 1) · n · (2n − 1) = A3 · 1 −
·
1−
n
n
n 6
3
n
2n
k=1
und
Z
0
A
n
X
A
kA 2 A3 1
1 3
1
1
Tn =
·
= 3 · n(n + 1)(2n + 1) = A · 1 +
1+
.
n
n
n 6
3
n
2n
k=1
272
x1 x2
xn = A
Abbildung 46: Parabelmessung des Archimedes
Die Formeln zeigen
Z
lim
n→∞ 0
A
Z
tn (x) dx = lim
n→∞ 0
A
1
Tn (x) dx = A3 .
3
Hieraus folgt mittels Lemma 17.8, dass die Funktion x 7→ x2 auf I Riemann-integrierbar ist
und das Integral
Z A
1
x2 dx = A3
3
0
hat. – Wir konnten hier die Definition des Integrals erfolgreich anwenden. Das Beispiel zeigt
aber auch, wie wünschenswert Methoden sind, mit denen man Integrale mit weniger Mühe
ausrechnen kann.
(3) Auf dem Intervall I = [0, 1] betrachten wir die aus Beispiel 9.14 (1) bekannte DirichletFunktion f . Es sei also f (x) = 1 für rationale x und f (x) = 0 für irrationale x in I.
Es sei t eine Treppenfunktion auf I mit t ≤ f . Weil R \ Q dicht in R ist, gibt es
dann eine endliche Menge E ⊆ R , so dass t(x) ≤ 0 für alle x ∈ [0, 1] \ E gilt.
(Die Ausnahmemenge E tritt dadurch auf, dass t(x) in den Teilpunkten x der die
Treppenfunktion definierenden
Zerlegung beliebig festgelegt werden kann, sofern nur
R1
t(x) ≤ 1 ist.) Es ist dann 0 t ≤ 0.
Ebenso gibt es wegen der Dichtheit von Q in R für jede Treppenfunktion T auf I mit
T ≥ f eine
R 1 endliche Menge E ⊆ R , so dass T (x) ≥ 1 für alle x ∈ [0, 1] \ E gilt, und
es folgt 0 T ≥ 1 für jedes solche T .
Deshalb ist
Z
1
Z
f (x) dx ≤ 0
0
0
273
1
f (x) dx ≥ 1 .
und
Die Betrachtung der Treppenfunktionen t ≡ 0 und T ≡ 1, welche t ≤ f ≤ T erfüllen,
zeigt, dass hierin sogar Gleichheit gilt, also
Z 1
Z 1
f (x) dx = 0
und
f (x) dx = 1
0
0
ist. Damit ist gezeigt, dass die Dirichlet-Funktion f nicht Riemann-integrierbar ist.
Für die Funktion g := 1 − f folgt mit analoger Begründung
Z 1
Z 1
g(x) dx = 0
und
g(x) dx = 1 .
0
0
Die Summe f + g = 1 ist eine Treppenfunktion, und daher folgt
Z 1
Z 1
Z 1
Z 1
Z 1
f+
g=0<1=
(f + g) < 2 =
f+
g.
0
0
0
0
0
Wir haben damit ein Beispiel für strikte Ungleichungen in Lemma 17.6 (2).
Wir werden später (in Beispiel 30.14)
R 1 zeigen, dass die Dirichlet-Funktion f Lebesgueintegrierbar ist und das Integral 0 f (x) dx = 0 hat. Der Grund dafür ist, dass Q als
abzählbare Menge eine zwar unendliche, aber in einem gewissen Sinne trotzdem sehr
”
kleine“ Menge (eine sog. Nullmenge) ist und f nur auf dieser kleinen“ Menge von der
”
Konstanten 0 abweicht.
17.3
Operationen mit integrierbaren Funktionen
Satz 17.10
Es seien f und g Riemann-integrierbare Funktionen auf dem kompakten
Intervall I = [a, b], und es sei λ ∈ R. Dann sind die Funktionen f + g und λf Riemannintegrierbar, und es gilt:
Rb
Rb
Rb
(1) Es ist a (f + g) = a f + a g .
Rb
Rb
(2) Es ist a λf = λ a f .
Rb
Rb
(3) Wenn f ≤ g ist, dann folgt a f ≤ a g .
Beweis. Offenbar sind f + g und λf beschränkt. Aus Lemma 17.6 (1)/(2) und aus der
Riemann-Integrierbarkeit von f und g folgt
Z b
Z b
Z b
Z b
Z b
Z b
Z b
(f + g) ≤
f+
g=
(f + g) .
f+
g ≤
(f + g) ≤
a
a
a
a
a
a
a
Hieraus folgt die Riemann-Integrierbarkeit von f + g und die Behauptung (1). Ganz ähnlich
folgt (2).
Wir setzen nun f ≤ g voraus. Für jede Treppenfunktion t auf I mit t ≤ f gilt dann
auch t ≤ g. Daher folgt gemäß der Definition des Unterintegrals als Supremum gewisser
Untersummen
Z
Z
Z
Z
b
b
f≤
f=
a
b
a
g=
a
Damit ist (3) bewiesen.
b
g.
a
274
In der Sprache der Linearen Algebra haben wir damit gezeigt, dass R(I) ein reeller Vektorraum
R
ist und dass durch f 7→ I f ein monotones lineares Funktional auf diesem Vektorraum definiert
ist. Wir zeigen nun, dass innerhalb dieses Vektorraums noch einige andere Operationen ausführbar
sind, die aus Funktionen in R(I) wieder Funktionen in R(I) machen.
Definition 17.11
Für eine Funktion f : D −→ R auf einer Menge D setzen wir
f + (x) := max{f (x), 0}
f − (x) := − min{f (x), 0} .
und
Offenbar gilt dann
f + ≥ 0,
f − ≥ 0,
f = f + − f −,
|f | = f + + f − .
Wir können f + den positiven Anteil und f − den positiv gemachten negativen Anteil von f
nennen.
f−
f+
f
Abbildung 47: f + und f −
Satz 17.12
Es seien f : I −→ R und g : I −→ R Riemann-integrierbare Funktionen auf
einem echten kompakten Intervall I = [a, b]. Dann gilt:
(1) Die Funktionen f + und f − sind Riemann-integrierbar.
(2) Die Funktion |f | ist Riemann-integrierbar, und es gilt die Standardabschätzung für
Integrale
Z b
Z b
≤
f
(x)
dx
|f (x)| dx .
a
a
(3) Für jede reelle Zahl p ≥ 1 ist die Funktion |f |p Riemann-integrierbar.
(4) Die Funktion f · g ist Riemann-integrierbar.
(5) Die Funktion f ist auf jedem kompakten Teilintervall von I Riemann-integrierbar. Für
beliebige α, β, γ ∈ I ist
Z γ
Z β
Z γ
f=
f+
f.
α
α
275
β
Beweis.
(1) Es sei eine Zahl ε > 0 gegeben. Nach dem Riemann’schen Integrabilitätskriterium
(Lemma 17.8) gibt es dann Treppenfunktionen t1 und t2 auf I mit t1 ≤ f ≤ t2 und
Rb
+
(t − t1 ) < ε. Auch t+
1 und t2 sind Treppenfunktionen auf I. Es gilt
a 2
+
+
t+
1 ≤ f ≤ t2
+
0 ≤ t+
2 − t1 ≤ t2 − t1 .
und
Die letzte Abschätzung ergibt sich durch folgende naheliegende Fallunterscheidung: Ist
+
+
t2 (x) ≥ 0, so ist t+
2 (x) − t1 (x) = t2 (x) − t1 (x) ≤ t2 (x) − t1 (x). Ist hingegen t2 (x) < 0,
+
so ist auch t1 (x) ≤ t2 (x) < 0, also t+
2 (x) − t1 (x) = 0 − 0 = 0 ≤ t2 (x) − t1 (x).
Aus Lemma 17.4 (3) folgt also
Z
0≤
b
(t+
2
−
t+
1)
Z
≤
b
(t2 − t1 ) < ε .
a
a
Gemäß Lemma 17.8 ist f + somit Riemann-integrierbar. Wegen Satz 17.10 ist f − =
f + − f folglich ebenfalls Riemann-integrierbar. Damit ist (1) bewiesen.
(2) Aus (1) und aus Satz 17.10 folgt nun, dass |f | = f + + f − Riemann-integrierbar
R R ist.
b b
Wegen f ≤ |f | und −f ≤ |f | folgt aus Satz 17.10 auch die Ungleichung a f ≤ a |f |.
Damit ist (2) bewiesen.
(3) Es sei eine Zahl p ≥ 1 gegeben. Weil f beschränkt ist, gibt es eine Zahl λ > 0 mit
0 ≤ h :=
1
· |f | ≤ 1.
λ
Wegen (2) und Satz 17.10 (2) ist die Funktion h Riemann-integrierbar. Es sei eine Zahl
ε > 0 gegeben. Hierzu gibt es nach Lemma 17.8 Treppenfunktionen t und T auf I mit
Z b
ε
(T − t) < .
t≤h≤T
und
p
a
O.B.d.A. dürfen wir t ≥ 0 und T ≤ 1 annehmen. Auch tp und T p sind Treppenfunktionen auf I, und diese erfüllen
0 ≤ tp ≤ hp ≤ T p ≤ 1.
Wir müssen das Integral der Differenz T p − tp abschätzen. Dazu wenden wir den Mittelwertsatz (Satz 15.8) auf die Funktion x 7→ xp mit der Ableitung x 7→ pxp−1 an. Wir
erhalten für beliebige x, y mit 0 ≤ x < y ≤ 1 die Ungleichung
0 < y p − xp ≤ (y − x) · sup{p ξ p−1 | 0 < ξ < 1} = p · (y − x).
Damit folgt 0 ≤ T p − tp ≤ p · (T − t), mittels Lemma 17.4 also
Z
b
p
p
Z
(T − t ) ≤ p
a
b
(T − t) < p ·
a
ε
= ε.
p
Nach Lemma 17.8 ist daher hp Riemann-integrierbar. Also ist auch |f |p = λp hp
Riemann-integrierbar. Damit ist (3) bewiesen.
276
(4) Aus der Identität
1
· ((f + g)2 − (f − g)2 )
4
und aus (3) und Satz 17.10 folgt die Behauptung (4).
f ·g =
(5) Es sei ein kompaktes Teilintervall [c, d] ⊆ I gegeben. Zum Nachweis der RiemannIntegrierbarkeit von f auf [c, d] ziehen wir abermals das Integrabilitätskriterium von
Riemann (Lemma 17.8) heran.
Es sei also ein ε > 0 gegeben. Da f auf I Riemann-integrierbar ist, gibt es Treppenfunktionen t, T ∈ T (I) mit
b
Z
t≤f ≤T
(T − t) < ε.
und
a
Die Restriktionen e
t := t|[c,d] und Te := T |[c,d] sind dann Treppenfunktionen auf [c, d],
und sie erfüllen selbstverständlich e
t ≤ f |[c,d] ≤ Te. Mit Lemma 17.4 (4) und mit T −t ≥ 0
erhält man außerdem
Z d
Z b
Z c
Z b
Z d
e
e
(T − t) =
(T − t) −
(T − t) −
(T − t)
T −t =
c
a
a
d
c
Z b
≤
(T − t) − 0 − 0 < ε.
a
Aus Lemma 17.8 folgt also die Riemann-Integrierbarkeit von f auf [c, d]. Damit ist die
erste Behauptung in (5) gezeigt.
Die zweite Behauptung ist für Treppenfunktionen bereits aus Lemma 17.4 (4) bekannt.
Wir wollen sie auf beliebige Riemann-integrierbare Funktionen übertragen. Hierzu seien
α, β, γ ∈ [a, b] gegeben. O.B.d.A. darf man α < γ < β annehmen. (Die übrigen Fälle
Rc
Rd
kann man mittels der Konventionen d f = − c f hierauf zurückführen.) Durch das
Rβ Rγ
Rγ
soeben Gezeigte ist dann die Existenz der Integrale α f , α f und β f gesichert.
Es sei wiederum ein ε > 0 gegeben. Wegen der Riemann-Integrierbarkeit von f auf
[α, β] findet man hierzu Treppenfunktionen t, T ∈ T ([α, β]) mit
β
Z
t ≤ f |[α,β] ≤ T
(T − t) < ε.
und
α
Mit der Monotonie des Integrals (Satz 17.10 (3)) und mit Lemma 17.4 (4) folgt nun
Z
β
β
Z
f≤
T ≤
α
Z
Z
f≥
α
Z
t≥
α
T −ε=
α
α
β
Z
Z
α
γ
Z
γ
α
γ
Z
Z
β
f −ε≤
f+
α
β
γ
Z
γ
f≤
α
277
Z
f+
α
β
f + ε.
γ
β
f − ε,
f+
insgesamt also
Z
f +ε
γ
T −ε≥
T+
β
Z
f+
γ
γ
γ
Z
t+ε≤
α
β
β
Z
t+
α
β
γ
Z
t+ε=
α
und analog
Z β
β
Z
γ
Da dies für alle ε > 0 gilt, muss
Z
β
Z
γ
f=
Z
β
f+
α
α
f
γ
sein. Damit ist auch die zweite Behauptung in (5) gezeigt.
Die Voraussetzung p ≥ 1 in Satz 17.12 (3) wird im Beweis zur Abschätzung des Supremums von
pξ p−1 über 0 < ξ < 1 benötigt. Das Ergebnis selber gilt auch unter der schwächeren Voraussetzung p > 0. Das können wir in Kapitel 30.4 aus einem Kriterium von Lebesgue folgern. In der
Lebesgueschen Integrationstheorie spielen Funktionen f eine Rolle, wofür |f |p integrierbar ist. Der
Vektorraum dieser Funktionen kann unter der Voraussetzung p ≥ 1 zu einem sogenannten normierten Raum gemacht werden. Damit werden wir uns in Kapitel 32 beschäftigen.
In Satz 17.12 (4) gilt natürlich i. Allg.
Z b
Z
b
Z
f·
f g 6=
g.
a
a
a
b
Jedoch besteht die folgende Abschätzung, die ein Analogon zur Cauchy-Schwarzschen Ungleichung aus Satz 3.11 darstellt.
Satz 17.13 (Cauchy-Schwarzsche Ungleichung)
Es seien f, g : I −→ R Riemannintegrierbare Funktionen auf einem kompakten Intervall I = [a, b]. Dann gilt
s
Z b sZ b
Z b
2
f g ≤
f ·
g2.
a
a
a
Die Analogie zu Satz 3.11 ist nicht zufällig: Beide Resultate erweisen sich vom Standpunkt der
Linearen Algebra aus als Spezialfälle derselben allgemeinen Cauchy-Schwarzschen Ungleichung
für Skalarprodukte: Die Riemann-integrierbaren Funktionen auf I bilden nach Satz 17.10 einen
reellen Vektorraum R(I), das Integral ist eine Linearform auf R(I), und für beliebige f, g ∈
R(I) gilt nach Satz 17.12 auch f g ∈ R(I). Daher ist
Z b
Z b
hf , gi :=
fg =
f (x)g(x) dx
a
a
wohldefiniert, und hierdurch ist eine symmetrische Bilinearform h , i auf R(I) gegeben, d.h.
für alle f, f1 , f2 , g ∈ R(I) und alle λ ∈ R gilt
hg, f i = hf, gi ,
hf1 + f2 , gi = hf1 , gi + hf2 , gi
und
hλf, gi = λ · hf, gi.
Weiter gilt
||f || :=
p
hf , f i ≥ 0
für alle
f ∈ R(I).
Die Bilinearform unterscheidet sich nur dadurch von einem Skalarprodukt auf R(I), dass sie
nicht positiv definit ist, d.h. dass der Fall ||f || = 0 auch für Funktionen f 6= 0 in R(I) eintreten
kann.
Unter Verwendung der Schreibweisen hf, gi und ||f || können wir den Beweis von Satz 3.11 fast
wörtlich übernehmen (und dort sogar auf die komplexe Konjugation verzichten). Die Behauptung lautet dann
|hf, gi| ≤ ||f || · ||g||
für alle f, g ∈ R(I).
Lediglich in dem Fall, dass auf der rechten Seite der behaupteten Abschätzung Null steht,
müssen wir anders argumentieren.
278
Beweis. Es seien f, g ∈ R(I) gegeben. Für alle λ, µ ∈ C gilt gemäß den oben zusammengefassten Regeln
0 ≤ hλf + µg, λf + µgi = λ2 · hf, f i + µ2 · hg, gi + 2λµ · hf, gi.
Insbesondere gilt dies für λ := hg, gi = ||g||2 ≥ 0 und µ := −hf, gi. Für diese Wahl von λ, µ
ergibt sich
0 ≤ ||g||4 · ||f ||2 + ||g||2 · |hf, gi|2 − 2||g||2 · |hf, gi|2
= ||g||2 · ||g||2 · ||f ||2 − |hf, gi|2 .
Im Falle ||g|| > 0 folgt hieraus
||g||2 · ||f ||2 − |hf, gi|2 ≥ 0,
also |hf, gi|2 ≤ ||g||2 · ||f ||2
und sodann durch Wurzelziehen die behauptete Abschätzung.
Nun sei ||g|| = 0. Dieser Fall bedarf besonderer Aufmerksamkeit, da hier anders als im Beweis
von Satz 3.11 der Schluss g = 0 nicht zulässig ist. Wir geben uns ein ε > 0 vor. Es gilt dann
|g(x)| ≤ ε +
1 2
· g (x)
ε
für alle x ∈ I
(denn diese Abschätzung ist für alle x ∈ I mit |g(x)| ≤ ε und auch für alle x ∈ I mit
Rb
|g(x)| > ε offensichtlich richtig). Aus der Monotonie des Integrals und aus a g 2 = 0 folgt
daher
Z b
Z b
Z b
Z b
1
1 2
g 2 = (b − a) · ε.
0≤
|g| ≤
ε+ ·
ε+ ·g =
ε
ε
a
a
a
a
Rb
Da dies für alle ε > 0 gilt, muss a |g| = 0 sein. Nun ist f als Riemann-integrierbare
Funktion beschränkt, es gibt also ein M > 0 mit |f (x)| ≤ M für alle x ∈ I. Damit und mit
der Standardabschätzung für Integrale in Satz 17.12 (2) folgt
Z b Z b
Z b
0≤
f g ≤
|f g| ≤
M · |g(x)| dx = 0,
a
also auch
17.4
Rb
a
a
a
f g = 0. Damit ist die Behauptung auch in diesem Fall gezeigt.
Die Integrierbarkeit der stetigen und der monotonen Funktionen
Stetige Funktionen auf kompakten Intervallen sind Riemann-integrierbar. Als Hilfsmittel
zum Beweis benötigen wir die aus Satz 13.31 bekannte Tatsache, dass stetige Funktionen auf
Kompakta sogar gleichmäßig stetig sind.
Satz 17.14
integrierbar.
Jede stetige Funktion auf einem kompakten Intervall ist Riemann-
279
Beweis. Im Fall I = [a, a] ist die Behauptung klar. Es sei also o.B.d.A. I = [a, b] mit a < b
ein echtes kompaktes Intervall und f : I −→ R eine stetige Funktion.
Nach dem Satz vom Maximum (Korollar 10.3) ist f beschränkt auf I.
Es sei eine Zahl ε > 0 gegeben. Nach Satz 13.31 ist f gleichmäßig stetig. Daher gibt es ein
die Ungleichung
n ∈ N, so dass für alle x, y ∈ I mit |x − y| ≤ b−a
n
|f (x) − f (y)| <
ε
b−a
gilt. Es sei Z = (x0 , x1 , . . . , xn ) die Zerlegung von I mit den äquidistanten Teilpunkten
xk = a + k · b−a
. Wegen der Beschränktheit von f sind
n
ck := inf{f (x) | xk−1 ≤ x ≤ xk }
und
Ck := sup{f (x) | xk−1 ≤ x ≤ xk }
reelle Zahlen56 , und es gilt
ε
.
b−a
Wir definieren Treppenfunktionen t, T auf I durch
0 ≤ C k − ck ≤
t(x) := ck ,
T (x) := Ck
für xk−1 ≤ x < xk und k = 1, . . . , n;
im Punkt b können wir t(b) = T (b) := f (b) setzen. Dann gilt t ≤ f ≤ T und
Z
b
(T − t) =
a
n
X
(Ck − ck ) · (xk − xk−1 )
k=1
≤
n
X
k=1
ε
ε
· (xk − xk−1 ) =
· (xn − x0 ) = ε .
b−a
b−a
Nach Lemma 17.8 ist f somit Riemann-integrierbar.
Satz 17.15
integrierbar.
Jede monotone Funktion auf einem kompakten Intervall ist Riemann-
Beweis. Es sei I = [a, b], und f : I −→ R sei monoton. Wiederum genügt es, den Fall a < b
zu betrachten.
Wir dürfen annehmen, dass f monoton steigt. Für alle x ∈ I gilt dann f (a) ≤ f (x) ≤
f (b). Insbesondere ist f beschränkt. Für eine beliebige natürliche Zahl n betrachten wir die
Zerlegung Z = (x0 , x1 , . . . , xn ) von I mit den äquidistanten Teilpunkten xk = a + k · b−a
.
n
Nun definieren wir zwei Treppenfunktionen t und T auf I durch
t(x) := f (xk−1 )
und
T (x) := f (xk )
für xk−1 ≤ x < xk und k = 1, . . . , n
sowie t(b) = T (b) := f (b). Weil f monoton steigt, gilt
t≤f ≤T.
56
Aufgrund der Stetigkeit von f handelt es sich bei Ck und ck sogar um Maxima bzw. Minima.
280
a = x0 x1 x2
xn = b
Abbildung 48: Integrierbarkeit monotoner Funktionen
Das Integral der Differenz T − t ist
Z
b
(T − t) =
a
n X
f (xk ) − f (xk−1 ) · (xk − xk−1 )
k=1
b−a
· (f (xn ) − f (x0 ))
n
b−a
=
· (f (b) − f (a)) .
n
=
Zu jeder Zahl ε > 0 gibt es eine natürliche Zahl n, wofür in dieser Abschätzung die rechte
Seite kleiner als ε ist. Für die zu diesem n gehörigen Treppenfunktionen ist also die Bedingung
in Lemma 17.8 erfüllt, und somit ist f Riemann-integrierbar.
281
18
Der Hauptsatz der Differential- und Integralrechnung
In diesem Kapitel wird die bereits in Abschnitt 16.1 erwähnte Verbindung zwischen der Differentiation und der (bestimmten) Integration (im Sinne von Kapitel 17) hergestellt. Dies
ist der Inhalt des Hauptsatzes der Differential- und Integralrechnung. Dadurch erhalten wir
machtvolle Werkzeuge mit vielfältigen Anwendungsmöglichkeiten. Wir lernen, dass jede stetige Funktion eine Stammfunktion besitzt und dass diese mit Hilfe eines Integrals konstruiert
werden kann. Zugleich erhalten wir eine effiziente Methode, mit der viele Integrale mittels
Stammfunktionen mühelos berechnet werden können.
Ein entscheidendes Hilfsmittel im Beweis des Hauptsatzes stellt der folgende Mittelwertsatz
dar.
Satz 18.1 (Mittelwertsatz der Integralrechnung)
Es seien f, p : I −→ R stetige
Funktionen auf einem echten kompakten Intervall I = [a, b]. Für alle x ∈ I sei p(x) ≥ 0.
Dann gilt:
(1) Es gibt ein ξ ∈ I mit
Z
b
f (x) dx = f (ξ) · (b − a).
a
(2) Es gibt ein η ∈ I mit
Z
b
Z
f (x)p(x) dx = f (η) ·
a
b
p(x) dx.
a
Beweis. Aus (2) erhält man die Behauptung (1), wenn man für p die konstante Funktion 1
wählt. Es genügt daher, (2) zu beweisen.
Weil f stetig und I kompakt ist, existieren nach dem Satz vom Maximum (Korollar 10.3)
M := max f (x)
x∈I
und
m := min f (x).
x∈I
Wegen p ≥ 0 folgt
m · p(x) ≤ f (x) · p(x) ≤ M · p(x)
für alle x ∈ I.
Nach Satz 17.14 sind f und f · p als stetige Funktionen Riemann-integrierbar. Mit Satz
17.10 (3) folgt daher
Z b
Z b
Z b
m·
p(x) dx ≤
f (x)p(x) dx ≤ M ·
p(x) dx .
a
Rb
a
a
Rb
Im Falle a p(x) dx = 0 folgt hiernach auch a f (x)p(x) dx = 0, und dann gilt (2) bei
Rb
beliebiger Wahl von η ∈ I. Jetzt wird a p(x) dx 6= 0 vorausgesetzt. Dieses Integral ist dann
positiv (da p ≥ 0), und es folgt
Rb
f (x)p(x) dx
≤ M.
m ≤ aR b
p(x) dx
a
Da f stetig ist, gilt nach dem Zwischenwertsatz (Satz 10.9) f (I) = [m; M ]; es gibt also ein
η ∈ I, so dass der Funktionswert f (η) gleich dem Quotienten in diesen Ungleichungen ist.
Damit ist (2) auch in diesem Fall bewiesen.
282
Bemerkung 18.2
(1) Die Behauptung (1) ist anschaulich evident: Falls f stetig ist, ist der Flächeninhalt der
Ordinatenmenge von f gleich einer Rechtecksfläche f (ξ)(b − a) mit geeignetem ξ.
Abbildung 49: Zum Mittelwertsatz der Integralrechnung
(2) Die Stetigkeitsvoraussetzung im Mittelwertsatz der Integralrechnung ist unverzichtbar.
Ein Beispiel hierfür lernen wir in den Übungen kennen.
Der erste Teil des Hauptsatzes liefert eine Konstruktion von Stammfunktionen, der zweite
Teil eine Methode zur Berechnung von Integralen mit Hilfe von Stammfunktionen:
Satz 18.3 (Hauptsatz der Differential- und Integralrechnung)
eine stetige Funktion auf einem echten Intervall I. Dann gilt:
Es sei f : I −→ R
(a) Die Funktion f besitzt eine Stammfunktion. Wählt man ein a ∈ I und setzt man
Z x
Fa (x) :=
f (t) dt
für alle x ∈ I,
a
dann ist Fa eine Stammfunktion57 von f ; es ist also Fa differenzierbar mit Fa0 = f .
(b) Es sei F eine beliebige Stammfunktion von f . Für beliebige a, b ∈ I gilt dann
Z b
f (t) dt = F (b) − F (a).
a
Notation.
Für die Formel in (b) ist die Schreibweise
Z b
t=b
b
f (t) dt = F (b) − F (a) = F (t)
= F (t)
t=a
a
üblich und nützlich. Die Funktion Fa (x) =
funktion von f .
Rx
a
a
f (t) dt in (a) bezeichnet man als Integral-
57
Die Ableitung heißt auf Englisch derivative, und eine Stammfunktion wird antiderivative genannt.
Man könnte sie auch im Deutschen eine Antiderivierte nennen und damit zum Ausdruck bringen, dass es
sich beim Integrieren um eine Umkehrung des Differenzierens handelt.
283
Beweis.
(a) Nach Satz 17.14 ist f auf jedem kompakten Teilintervall von I Riemann-integrierbar.
Wählt man also ein a ∈ I, dann ist durch die Formel im Satz eine Funktion Fa : I −→ R
wohldefiniert.
Es sei ein x0 ∈ I gegeben. Es sei (xn )n eine beliebige Folge in I, die gegen x0 konvergiert.
Für jedes n ist dann
Z xn
Z x0
Z xn
1
Fa (xn ) − Fa (x0 )
1
f (t) dt =
f (t) dt .
=
·
f (t) dt −
·
xn − x0
xn − x0
x n − x 0 x0
a
a
Nach dem Mittelwertsatz der Integralrechnung (Satz 18.1) gibt es ein ξn zwischen x0
und xn mit
Z xn
1
f (t) dt = f (ξn ).
·
x n − x 0 x0
Wegen limn→∞ xn = x0 und |ξn − x0 | ≤ |xn − x0 | ist auch limn→∞ ξn = x0 . Weil f im
Punkt x0 stetig ist, ergibt sich mit dem Folgenkriterium für Stetigkeit
Fa (xn ) − Fa (x0 )
= lim f (ξn ) = f (x0 ).
n→∞
n→∞
xn − x0
lim
Dies gilt für jede gegen x0 konvergente Folge (xn )n in I. Gemäß Satz 9.18 (1) existiert
also der Grenzwert
Fa (x) − Fa (x0 )
lim
= f (x0 ).
x→x0
x − x0
Also ist Fa in x0 differenzierbar, und die Ableitung ist Fa0 (x0 ) = f (x0 ). Das gilt für
jedes x0 ∈ I. Somit ist Fa eine Stammfunktion von f .
(b) Es sei ein x0 ∈ I fest gewählt. Dann definiert
Z x
Fx0 (x) :=
f (t) dt
x0
gemäß (a) eine Stammfunktion Fx0 von f . Da auch F eine Stammfunktion von f ist,
unterscheiden sich F und Fx0 nach Proposition 16.2 nur durch eine additive Konstante,
es ist also F = Fx0 + C mit einem C ∈ R. Für alle a, b ∈ I folgt nun
Z b
Z b
Z a
f (t) dt =
f (t) dt −
f (t) dt = Fx0 (b) − Fx0 (a) = F (b) − F (a).
a
x0
x0
Satz 18.3 ist das zentrale Ergebnis zur Berechnung konkreter Integrale. Man benötigt danach
nur“ eine Stammfunktion und hat von dieser lediglich die Differenz der Funktionswerte an
”
den beiden Endpunkten des Integrationsintervalls zu bilden. Insbesondere spielt es keine
Rolle, welche Werte die Stammfunktion im Inneren des Integrationsintervalls annimmt.
Rb
In Abschnitt 17.2 hatten wir vereinbart, ein Integral a f (t) dt ein bestimmtes Integral zu
nennen. Wenn FR eine Stammfunktion einer stetigen Funktion f ist, dann gilt nach Satz 18.3
b
(b) die Formel a f (t) dt = F (b) − F (a). Hierdurch wird es erklärlich, warum Stammfunktionen auch unbestimmte Integrale genannt werden.
Die Resultate hierüber in Kapitel 16 erscheinen jetzt in neuem Licht und von größerem
Wert. Wir müssen nicht mehr die Existenz von Stammfunktionen voraussetzen, sondern
wir wissen, dass es für stetige Funktionen stets eine solche gibt. Es lohnt sich, die damaligen
Integrationsregeln nochmals in Versionen für bestimmte Integrale zu formulieren. Die Beweise
ergeben sich unmittelbar aus den Sätzen in Kapitel 16 und aus dem Hauptsatz.
284
Satz 18.4 (Partielle Integration)
Es seien u : I −→ R und v : I −→ R stetig
differenzierbare Funktionen auf einem Intervall I. Für beliebige a, b ∈ I gilt dann
Z
b
a
t=b Z b
u0 (t)v(t) dt .
−
u(t)v (t) dt = u(t)v(t) 0
t=a
a
Beweis. Dies folgt direkt aus Satz 16.4 und dem Hauptsatz 18.3.
Satz 18.5 (Substitutionsregel)
Auf Intervallen I und J seien eine stetige Funktion
f : I −→ R und eine stetig differenzierbare Funktion ϕ : J −→ I gegeben. Dann gilt:
(1) Für alle a, b ∈ J ist
b
Z
Z
0
ϕ(b)
f (ϕ(t))ϕ (t) dt =
a
f (x) dx .
ϕ(a)
(2) Falls ϕ bijektiv ist, dann gilt
Z
β
Z
ϕ−1 (β)
f (ϕ(t))ϕ0 (t) dt
f (x) dx =
ϕ−1 (α)
α
für alle α, β ∈ I.
Beweis.
(1) Nach dem Hauptsatz besitzt f eine Stammfunktion F . Nach der Kettenregel ist F ◦ ϕ
dann eine Stammfunktion von (F 0 ◦ ϕ) · ϕ0 = (f ◦ ϕ) · ϕ0 . Aus Satz 18.3 (b) folgt daher
Z
a
b
x=ϕ(b) Z
t=b
=
f (ϕ(t))ϕ (t)dt = (F ◦ ϕ)(t) = F (x) ϕ(b)
0
t=a
x=ϕ(a)
f (x) dx,
ϕ(a)
d.h. (1).
(2) Ist ϕ bijektiv, so wendet man (1) mit a := ϕ−1 (α) und b := ϕ−1 (β) an und erhält
sofort (2).
Beispiel 18.6
(1) Für r > 0 bezeichne Ar den Flächeninhalt des Kreises vom Radius r mit dem Mittelpunkt (0, 0) in der Ebene. Wir interpretieren 14 · Ar als den Flächeninhalt der Ordinatenmenge der Funktion
√
x 7→ r2 − x2
für
0 ≤ x ≤ r.
Somit ist
Ar = 4 ·
Z r√
0
285
r2 − x2 dx .
Das Integral existiert wegen der Stetigkeit (oder der Monotonie) des Integranden. Um
es zu berechnen, wenden wir die Substitutionsregel mit x = rt an und erhalten
Z rr
Z 1√
x 2
2
Ar = 4r ·
1−
dx = 4r ·
1 − t2 dt = r2 · A1 .
r
0
0
Wie erwartet ist also Ar proportional zum Quadrat des Radius r. Durch t = ϕ(y) :=
sin(y) ist eine bijektive Abbildung des Intervalls [0, π2 ] auf das Intervall [0, 1] gegeben
(vgl. Bemerkung 12.21 (1)). Die Ableitung ist ϕ0 (y) = cos(y). Satz 18.5 (2) ergibt daher
2
Z
Ar = 4r ·
π/2
Z
q
2
2
1 − sin (y) · cos(y) dy = 4r
0
π/2
cos2 (y) dy,
0
wobei wir noch den trigonometrischen Pythagoras“ und cos y ≥ 0 für alle y ∈ [0, π/2]
”
benutzt haben. Aus Beispiel 16.5 (2) ist
Z
1
sin2 (y) dy = (y − sin(y) cos(y)) + C
2
bekannt. Damit und mit cos2 (y) = 1 − sin2 (y) folgt
Z
1
cos2 (y) dy = (y + sin(y) cos(y)) + C .
2
Also ist
y=π/2
= πr2 .
Ar = 2r2 · (y + sin(y) cos(y)) y=0
Damit haben wir endlich die bekannte Formel für den Flächeninhalt von Kreisen bewiesen, die den Namen Kreiszahl“ für π rechtfertigt.
”
(2) Die Funktion t 7→ exp(−t2 ) ist stetig auf R. Durch
Z x
Φ(x) :=
exp(−t2 ) dt
0
wird also nach Satz 18.3 (a) eine differenzierbare Funktion Φ auf R mit der Ableitung
Φ0 (x) = exp(−x2 ) definiert. Die Funktion Φ spielt in der Wahrscheinlichkeitstheorie
und Statistik eine große Rolle. Sie heißt die (Gaußsche) Fehlerfunktion oder das
(Gaußsche) Fehler- oder Wahrscheinlichkeitsintegral.
Oft wird in der Definition
√
von Φ noch der Normierungsfaktor 2/ π angebracht.
Man kann zeigen, dass die Fehlerfunktion Φ keine elementare Funktion im Sinne der
Erklärung in Abschnitt 16.3 ist. Man kann also Φ(x) nicht durch eine Formel ausdrücken, in der nur Funktionen aus dem uns bereits bekannten Fundus auftreten. Wir
sollten dies nicht als betrübliche Unmöglichkeitsaussage werten, sondern eher positiv
sehen: Wir können den Vorrat an differenzierbaren Funktionen mit Hilfe des Hauptsatzes (Satz 18.3) gewaltig vergrößern.
Es bereitet keine Probleme, die Werte Φ(x) numerisch zu approximieren: Aus der
Potenzreihenentwicklung
∞
X
(−1)n 2n
2
exp(−t ) =
·t
n!
n=0
286
1√
π
2
•
1
−1,8
−2
1,8
•
2
H
Y
H − 1 √π
2
Abbildung 50: x 7→ exp(−x2 ) (links) und die Fehlerfunktion Φ(x) (rechts)
folgt durch gliedweise Integration
Φ(x) =
∞
X
n=0
(−1)n
· x2n+1 .
(2n + 1) · n!
Für nicht zu große“ Werte von |x| ist diese (alternierende) Reihe rasch“ konver”
”
gent und daher gut“ durch eine geeignete Partialsumme approximierbar. Dass wir
”
hier die Potenzreihe für exp(−t2 ) gliedweise integrieren dürfen, bedarf allerdings einer
ausführlichen Rechtfertigung. Wir werden uns diesem Problem in Kapitel 19 zuwenden
(Korollar 19.4).
Bemerkung 18.7
Unpräzise formuliert, besagt der Hauptsatz der Differential- und Integralrechnung, dass Differentiation und Integration unter geeigneten Voraussetzungen zueinander inverse Operationen sind. Die Tatsache, dass Stammfunktionen nur bis auf additive
Konstanten eindeutig sind, macht allerdings eine gewisse Vorsicht erforderlich:
Setzt man X := C 0 ([a, b]) und Y := C 1 ([a, b]) und definiert für festes x0 ∈ [a, b] die beiden
(linearen) Abbildungen
Ix0 : X −→ Y,
D : Y −→ X
durch
Z
x
(Ix0 (f ))(x) :=
f (t) dt
für alle f ∈ X und alle x ∈ [a, b]
x0
und
D(f ) := f 0
für alle f ∈ Y,
so gilt zwar
D ◦ Ix0 = idX ,
aber
Ix0 ◦ D 6= idY .
Aus D ◦ Ix0 = idX folgt mittels Lemma 13.4 (b)/(c), dass Ix0 : X −→ Y injektiv und
D : Y −→ X surjektiv ist. Hingegen ist Ix0 : X −→ Y nicht surjektiv (denn als Bilder unter
Ix0 treten nur Funktionen auf, die in x0 eine Nullstelle haben), und D : Y −→ X ist nicht
injektiv.
287
19
Grenzwertvertauschung bei der Differentiation und
Integration
Wie im Falle der Stetigkeit (Satz 11.7) stellt sich die Frage, unter welchen Voraussetzungen sich die Differenzierbarkeit bzw. Riemann-Integrierbarkeit einer Funktionenfolge auf die
Grenzfunktion überträgt – und ob man Limesbildung und Differentiation bzw. Integration
vertauschen darf.
19.1
Vertauschung der Integration mit Grenzübergängen
Einfache Beispiele zeigen, dass die punktweise Konvergenz eine zu schwache Voraussetzung
ist, um Limesbildung und Integration zu vertauschen:
Beispiel 19.1
(1) Für n ≥ 2 definieren wir die Funktion fn : [0, 1] −→ R durch die Vorschrift

2
für 0 ≤ x < n1 ,

 nx
−n2 x + 2n für n1 ≤ x < n2 ,
fn (x) :=

 0
für n2 ≤ x ≤ 1.
y
6
n•
fn
f +ε
•
1
n
-
1 x
2
n
Abbildung 51: Eine der Funktionen fn aus Beispiel 19.1 (1)
Wir haben fn aus linearen Funktionen zusammengestückelt. Die Überprüfung der linksseitigen Grenzwerte an den Stellen n1 und n2 zeigt, dass fn stetig ist. Die Folge (fn )n
konvergiert punktweise gegen die Nullfunktion. Denn zu jedem x > 0 gibt es ein N mit
2
< x, so dass fn (x) = 0 für alle n ≥ N gilt. Ferner gilt fn (0) = 0 für alle n. Also ist
N
tatsächlich
f (x) := lim fn (x) = 0
für alle x ∈ [0, 1].
n→∞
288
Die Grenzfunktion f ist somit stetig auf [0, 1]. Wie im Beispiel der Funktionen x 7→ xn
(Beispiel 11.3 und Bemerkung 11.6 (2)) ist klar, dass die Konvergenz nicht gleichmäßig
ist.58
Die Dreiecksfläche zwischen der x-Achse und dem Graphen von fn hat für jedes n den
Flächeninhalt 1. Es gilt also
1
Z
fn (x) dx = 1
für alle n ∈ N
0
und somit auch
Z
Z
fn (x) dx = 1 6= 0 =
lim
n→∞
1
1
lim fn (x) dx.
0 n→∞
0
In diesem Beispiel ist die Grenzfunktion der Folge (fn )n Riemann-integrierbar, aber
ihr Integral ist verschieden vom Grenzwert der Folge der Integrale der Funktionen fn .
(2) Es sei q1 , q2 , q3 , . . . eine Abzählung der Menge Q ∩ [0, 1] aller rationalen Zahlen im
Intervall [0, 1]. Wir definieren fn : [0, 1] −→ R durch
fn (x) :=
1 für x ∈ {q1 , q2 , . . . , qn },
0 sonst.
Für jedes n ∈ N ist fn eine Treppenfunktion auf [0, 1] mit dem Integral 0. Daher gilt
1
Z
fn (x) dx = 0.
lim
n→∞
0
Die Grenzfunktion f = limn→∞ fn ist die Dirichlet-Funktion mit den Werten f (x) = 1
für rationale x und f (x) = 0 für irrationale x im Intervall [0, 1]. Gemäß Beispiel 17.9 (3)
ist f nicht Riemann-integrierbar.
Hinreichend für die Vertauschbarkeit der Integration mit einem Grenzübergang ist die
gleichmäßige Konvergenz der Funktionenfolge:
Satz 19.2
Es sei (fn )n eine Folge von Riemann-integrierbaren Funktionen fn : I −→ R
auf einem echten kompakten Intervall I = [a, b]. Die Folge sei auf I gleichmäßig konvergent
mit der Grenzfunktion f = limn→∞ fn . Dann ist f Riemann-integrierbar und es gilt
Z
b
Z
lim fn (x) dx = lim
a n→∞
n→∞
58
b
fn (x) dx.
a
Damit haben wir nebenbei (wie schon in Aufgabe I 14.5 (c)) ein Beispiel dafür gefunden, dass sich auch
bei nicht-gleichmäßiger Konvergenz die Stetigkeit auf die Grenzfunktion übertragen kann.
289
Bemerkung 19.3 Setzt man hierbei die fn sogar als stetig voraus, so lässt sich die Aussage des Satzes in wenigen Zeilen beweisen:
Es ist dann f stetig nach Satz 11.7 und damit Riemann-integrierbar. Mit der Standardabschätzung für Integrale (Satz 17.12 (2)) folgt unter Verwendung der Supremumsnorm
||.||∞ aus Bemerkung 11.6 (4)
Z b
Z b
Z b
fn (x) dx −
f (x) dx ≤
|fn (x) − f (x)| dx
a
a
a
≤ (b − a) · ||fn − f ||∞ −→ 0 (n → ∞).
Ohne diese zusätzliche Stetigkeitsvoraussetzung besteht die Hauptarbeit im Beweis darin,
erst einmal die Integrierbarkeit der Grenzfunktion nachzuweisen.
Beweis von Satz 19.2. Es sei ein ε > 0 gegeben. Dazu gibt es wegen der gleichmäßigen
Konvergenz der Folge (fn )n eine natürliche Zahl N , so dass für alle n ≥ N und alle x ∈ I
die Ungleichungen
ε
ε
f (x) −
< fn (x) < f (x) +
2(b − a)
2(b − a)
gelten. Da jedes fn beschränkt ist, folgt hieraus insbesondere die Beschränktheit von f .
Ferner erhält man für alle n ≥ N die Ungleichungen
Z b
Z b
Z b
ε
ε
f (x) dx ≤
fn (x) +
fn (x) dx +
dx =
2(b − a)
2
a
a
a
und
Z
b
Z b
f (x) dx ≥
a
a
ε
fn (x) −
2(b − a)
Z
b
fn (x) dx −
dx =
a
ε
.
2
Hieraus folgt
Z
b
b
Z
f (x) dx + ε ≥
a
Z
b
f (x) dx.
a
a
Das gilt für jedes ε > 0. Daher ist
Z
b
f (x) dx ≥
Z
b
f (x) dx =
f (x) dx.
a
a
Also ist f Riemann-integrierbar. Mit derselben Abschätzung wie in Bemerkung 19.3 folgt
nun
Z b
Z b
f (x) dx = lim
fn (x) dx.
n→∞ a
a
Selbstverständlich gibt es zu Satz 19.2 auch eine analoge Version für Reihen:
Korollar 19.4 (Gliedweise Integration)
Es sei (fn )n eine Folge von Riemannintegrierbaren
Funktionen
f
:
I
−→
R
auf
einem
echten
kompakten Intervall I = [a,
Die
n
P∞
Pb].
∞
Reihe n=0 fn sei auf I gleichmäßig konvergent. Dann ist die Grenzfunktion f = n=0 fn
Riemann-integrierbar, und es gilt
Z bX
∞
∞ Z b
X
fn (x) dx =
fn (x) dx .
a n=0
n=0
290
a
Insbesondere kann jede (reelle) Potenzreihe mit Entwicklungspunkt x0 und Konvergenzradius
R > 0 auf jedem kompakten Teilintervall ihres (offenen) Konvergenzintervalles ]x0 −R, x0 +R[
gliedweise integriert werden.
Für viele Anwendungen sind die Voraussetzung der gleichmäßigen Konvergenz sowie die
Beschränkung auf kompakte Integrationsintervalle unnötig starke Vorbedingungen für die
Vertauschung von Integration und Limesbildung.59 Das Bedürfnis nach einer leistungsfähigeren Integrationstheorie, in der ein solches Vertauschen unter schwächeren Voraussetzungen
möglich ist, war einer der Hauptgründe für die Entwicklung der Lebesgue-Theorie, mit der
wir uns in der Vertiefung Analysis beschäftigen werden. Auf die Vertauschbarkeitsfrage“
”
werden wir hauptsächlich in Abschnitt 30.4 zurückkommen.
19.2
Vertauschung der Differentiation mit Grenzübergängen
Auch für die Vertauschbarkeit von Differentiation und Limesbildung spielt die gleichmäßige
Konvergenz eine wichtige Rolle. Allerdings ist hier die gleichmäßige Konvergenz der Funktionenfolge selbst zu schwach – man benötigt die gleichmäßige Konvergenz der Folge der
Ableitungen.
Beispiel 19.5
(1) Setzt man
1
· sin(nx),
n
so konvergiert (fn )n gleichmäßig gegen die Nullfunktion, aber die Folge der Ableitungen
fn0 (x) = cos(nx) ist in den meisten“ Punkten x ∈ R divergent.
”
(2) Es sei
x
fn (x) :=
für alle x ∈ R, n ∈ N.
1 + nx2
Wir werden zeigen, dass die Funktionenfolge (fn )n gleichmäßig auf R gegen eine differenzierbare Grenzfunktion f konvergiert und dass die Folge (fn0 )n der Ableitungen
punktweise auf R konvergiert, aber nicht gegen f 0 .
fn (x) :=
Wir bestimmen zunächst eine obere Schranke für |fn | auf R, in der Hoffnung, dass
diese Schranke für n → ∞ gegen 0 strebt.
Es sei also ein festes n ∈ N gegeben. Es ist
fn (0) = 0,
lim fn (x) = 0
sowie fn (x)
x→±∞
>0
<0
für alle x > 0,
für alle x < 0.
Daher besitzt fn auf ]0; ∞[ ein positives (absolutes) Maximum und auf ] − ∞; 0[ ein
negatives (absolutes) Minimum (vgl. Aufgabe I 13.1 (a)). Nach dem notwendigen Kriterium für lokale Extrema (Satz 15.2) sind die beiden zugehörigen Extremalstellen
59
In der Riemannschen Integrationstheorie befreit man sich von der Beschränkung auf kompakte Integrationsbereiche nachträglich mithilfe eines geeigneten Grenzwertprozesses, nämlich durch die Einführung sog.
uneigentlicher Integrale (Kapitel 21). Bei uneigentlichen Integralen ist aber selbst die gleichmäßige Konvergenz einer Funktionenfolge nicht mehr ausreichend für die Vertauschung von Integration und Grenzübergang,
wie wir in Beispiel 21.6 sehen werden.
291
f1
0.4
f3
0.2
f10
-4
-2
2
4
-0.2
-0.4
Abbildung 52: Die Graphen von f1 , f3 und f10
Nullstellen von fn0 . Die Ableitung von fn ist
fn0 (x) =
(1 + nx2 ) − 2nx2
1 − nx2
=
.
(1 + nx2 )2
(1 + nx2 )2
Hieraus erkennt man, dass fn0 (x) = 0 genau dann gilt, wenn x = ± √1n ist. Also ist
√1 eine Maximal- und − √1 eine Minimalstelle von fn . Die Funktionswerte an diesen
n
n
Stellen sind
1
1
fn ± √
=± √ .
n
2 n
Also gilt
1
1
1
1
− √ = fn − √
≤ fn (x) ≤ fn √
= √
2 n
n
n
2 n
und damit
1
|fn (x)| ≤ √
2 n
für alle x ∈ R
für alle x ∈ R.
Dies gilt für alle n ∈ N. Hieraus und aus limn→∞
gleichmäßig auf R gegen f ≡ 0 strebt.
1
√
2 n
= 0 folgt nunmehr, dass (fn )n
Die Grenzfunktion f ist differenzierbar, und ihre Ableitung ist ebenfalls die Konstante
0. Andererseits liest man aus obiger Formel für fn0 ab, dass
1 für x = 0 ,
0
lim fn (x) =
n→∞
0 für x 6= 0
292
ist. Die Folge (fn0 )n konvergiert also punktweise auf R, aber es ist
0
lim fn0 6≡ 0 ≡ f 0 = lim fn .
n→∞
n→∞
Dieses Beispiel zeigt, dass für die Vertauschung von Differentiation und Grenzübergang
die gleichmäßige Konvergenz der Funktionenfolge nicht ausreicht. Vielmehr kommt es,
wie wir sogleich sehen werden, auf die gleichmäßige Konvergenz der zugehörigen Folge
der Ableitungen an. (Diese ist hier verletzt, wie man z.B. aus der Unstetigkeit von
limn→∞ fn0 ersehen kann.)
Satz 19.6 (Ableitung von Grenzfunktionen)
Es sei (fn )n eine Folge von stetig
differenzierbaren Funktionen fn : I −→ R auf einem echten kompakten Intervall I = [a; b].
Die Folge (fn0 )n der Ableitungen sei auf I gleichmäßig konvergent. Für einen Punkt x0 ∈ I
sei die Zahlenfolge (fn (x0 ))n konvergent. Dann konvergiert die Folge (fn )n auf I gleichmäßig
gegen eine stetig differenzierbare Funktion
f = lim fn ,
n→∞
und deren Ableitung ist
f0 =
lim fn
0
n→∞
= lim fn0 .
(19.1)
n→∞
Eine analoge Aussage gilt für Reihen von stetig differenzierbaren Funktionen.
Beweis. Es sei g := limn→∞ fn0 die Grenzfunktion der Folge der Ableitungen fn0 . Nach
Satz 11.7 ist g stetig auf I. Es sei ein beliebiges x ∈ I gegeben. Nach dem Hauptsatz der
Differential- und Integralrechnung gilt
Z x
fn (x) = fn (x0 ) +
fn0 (t) dt.
x0
(fn0 )n
ist nach Satz 19.2
Aufgrund der gleichmäßigen Konvergenz von
Z x
Z x
lim
fn0 (t) dt =
g(t) dt.
n→∞
x0
x0
Da zudem (fn (x0 ))n konvergiert, folgt die Existenz des Grenzwerts
Z x
f (x) := lim fn (x) = lim fn (x0 ) +
g(t) dt.
n→∞
n→∞
x0
Dies gilt für alle x ∈ I. Also konvergiert (fn )n punktweise gegen eine Grenzfunktion f , die
sich aufgrund der Integraldarstellung als differenzierbar erweist. Differentiation bezüglich x
liefert nunmehr f 0 = g. Dies zeigt (19.1).
Dass (fn )n sogar gleichmäßig konvergiert, sieht man wie folgt ein: Es sei y0 := limn→∞ fn (x0 ).
Dann gilt für alle x ∈ I aufgrund der obigen Darstellungen
Z x
Z x
0
|fn (x) − f (x)| = fn (x0 ) +
fn (t) dt − y0 −
g(t) dt
x0
x0
Z x
0
≤ |fn (x0 ) − y0 | + |fn (t) − g(t)| dt
x0
≤ |fn (x0 ) − y0 | + (b − a) · ||fn0 − g||∞
293
und somit
||fn − f ||∞ ≤ |fn (x0 ) − y0 | + (b − a) · ||fn0 − g||∞ → 0
(n → ∞).
Als gleichmäßiger Limes der stetigen Funktionen fn0 ist f 0 nach Satz 11.7 stetig, so dass f
sogar stetig differenzierbar ist.
Bemerkung 19.7
Satz 19.6 bleibt gültig, wenn man darin stetige Differenzierbarkeit durch gewöhnliche Differenzierbarkeit ersetzt. Der Beweis wird allerdings wesentlich
aufwändiger. Man findet ihn z.B. in [Köhler, Satz 15.6].
294
20
20.1
Taylorpolynome und Taylorreihe
Lokale Approximation durch Taylor-Polynome
Nach Satz 14.3 (a) bedeutet die Differenzierbarkeit von f in einem Punkt x0 , dass f in
der Nähe von x0 gut durch eine lineare Funktion, d.h. durch ein Polynom mit einem Grad
≤ 1 approximiert werden kann. Man kann erwarten, dass Polynome höheren Grades bessere
Approximationen ermöglichen. Wir fragen hier nach lokalen Approximationen: Wir suchen
Polynome, die mit f in der Nähe eines Punktes x0 besonders gut“ übereinstimmen. Das
”
Verhalten in größerer Entfernung von x0 wird nicht beachtet. Es ist nicht schwierig zu erraten,
was präziser von solchen lokalen Approximationen zu erwarten ist: Die Funktion f sollte
im Punkt x0 mehrfach, etwa n-mal differenzierbar sein, und die ersten n Ableitungen des
approximierenden Polynoms in x0 sollten mit denjenigen von f übereinstimmen. Vermutlich
ist die Approximation (für eine feste Funktion f ) umso besser, je größer n ist. Im folgenden
Satz 20.1 wird gezeigt, dass es für diesen Zweck nur eine vernünftige Möglichkeit zur Wahl
der Polynome gibt.
Satz 20.1 (Taylorpolynome)
Es sei I ein echtes Intervall, a ∈ I und n ∈ N. Die
Funktion f : I −→ R sei n-mal differenzierbar im Punkt a. Dann gibt es genau ein Polynom
Tn mit grad (Tn ) ≤ n und
Tn(k) (a) = f (k) (a)
für alle k = 0, . . . , n.
Es gilt
n
X
1 (k)
f (a) · (x − a)k .
Tn (x) =
k!
k=0
Definition 20.2 Das Polynom Tn in Satz 20.1 heißt das n-te Taylorpolynom60 von f
im Punkt a (selten auch der n-Jet von f bei a). Wenn f und a nicht aus dem Kontext
hervorgehen, verwendet man anstelle von Tn die präziseren Notationen Tn,a oder Tn f oder
Tn,a f . Die Differenz
Rn,a = Rn := f − Tn,a f
heißt das zu Tn gehörige Restglied von f im Punkt a.
Beweis von Satz 20.1. Jedes reelle Polynom p mit grad (p) ≤ n kann eindeutig in der
Form
n
X
p(x) =
cj · (x − a)j
j=0
mit Koeffizienten cj ∈ R geschrieben werden.61 Die Rechenregeln für das Differenzieren
ergeben
n
X
(k)
p (x) =
j(j − 1) · . . . · (j − k + 1) · cj · (x − a)j−k
j=k
60
Die Polynome Tn sind nach Brook Taylor (1685 – 1731) benannt.
Dies begründet man z.B. wie folgt: Man kann jedes Monom xν = (x − a + a)ν mittels des Binomischen
Satzes (Satz 1.6) nach Potenzen von x − a entwickeln und erhält somit die Behauptung für Monome. Bilden
geeigneter Linearkombinationen ergibt die Behauptung für beliebige Polynome.
61
295
und insbesondere
p(k) (a) = k! · ck
für alle k = 0, 1, . . . , n. Somit ist p(k) (a) = f (k) (a) für 0 ≤ k ≤ n genau dann erfüllt, wenn
man ck = k!1 f (k) (a) für 0 ≤ k ≤ n wählt. Daraus folgen alle Behauptungen.
Für die Sinusfunktion haben wir bereits in Abbildung 25 die Graphen zweier Taylorpolynome
(im Nullpunkt) gezeigt – diese sind nämlich gerade die Partialsummen der Sinusreihe. Die
Graphen einiger weiterer Taylorpolynome des Sinus sind in Abbildung 53 dargestellt.
-7.5
-7.5
-5
-5
4
4
2
2
-2.5
2.5
5
7.5
-7.5
-5
-2.5
-2
-2
-4
-4
4
4
2
2
-2.5
2.5
5
7.5
-7.5
-5
-2.5
-2
-2
-4
-4
2.5
5
2.5
5
7.5
7.5
Abbildung 53: Das n-te Taylorpolynom des Sinus für n = 3, 5, 9, 15
Die Abbildung 54 zeigt die Funktion f (x) = sin(x) + 51 cos(5x) + 51 und Taylorpolynome der
Grade 1, 3 und 6 zur Approximation im Punkt a = 0.
f
T3
T6
T1
Abbildung 54: Drei Taylorpolynome von f (x) = sin(x) + 15 cos(5x) +
1
5
In allen diesen Fällen ist gut zu verfolgen, wie mit wachsendem Grad des Taylorpolynoms
der Bereich, in dem approximierendes Taylorpolynom und approximierte Funktion gut“
”
übereinstimmen, größer wird. Es zeigt sich aber auch, dass man alle Hoffnung fahren lassen
muss, mit Taylor-Polynomen eine gleichmäßige Approximation (z.B. auf ganz R) zu erzielen.
296
20.2
Taylorsche Formeln
Ob und inwieweit Taylor-Polynome brauchbare Näherungen einer Funktion f darstellen,
kann erst aus einer Abschätzung des Fehlers Rn = f −Tn beantwortet werden. Dieser Aufgabe
wenden wir uns nunmehr zu.
Vorüberlegung.
Es sei f : I −→ R differenzierbar im Punkt a ∈ I. Dann gilt
T1,a f (x) = f (a) + f 0 (a) · (x − a),
R1,a (x) = f (x) − f (a) − f 0 (a) · (x − a).
also
Andererseits besteht nach Satz 14.3 (a) die Darstellung
f (x) = f (a) + f 0 (a) · (x − a) + r(x) · (x − a)
mit einer in a stetigen Funktion r : I −→ R, welche r(a) = 0 erfüllt. Hieraus ersieht man
R1,a (x) = r(x) · (x − a) und somit
R1,a (x)
f (x) − T1,a (x)
= lim
= lim r(x) = 0.
x→a x − a
x→a
x→a
x−a
lim
Diese Aussage wird in Satz 20.6 auf die Reste Rn mit beliebigen n verallgemeinert.
Satz 20.3 (Integral-Form des Restglieds)
Es sei I ein echtes offenes Intervall, a ∈ I
und n ∈ N0 . Die Funktion f : I −→ R sei (n + 1)-mal stetig differenzierbar. Es sei Rn = Rn,a
das zum n-ten Taylorpolynom Tn,a f von f im Punkt a gehörige Restglied. Für alle x ∈ I
gilt dann
Z x
1
·
(x − t)n · f (n+1) (t) dt.
Rn (x) =
n! a
Beweis. Wir beweisen die Behauptung mittels Induktion:
Im Fall n = 0 folgt aus dem Hauptsatz der Differential- und Integralrechnung
Z x
f 0 (t) dt = f (x) = T0 (x) + R0 (x) = f (a) + R0 (x).
f (a) +
a
(Hierfür ist es wesentlich, dass f 0 nach Voraussetzung stetig ist.) Es ist also
Z x
f 0 (t) dt,
R0 (x) =
a
womit der Induktionsanfang n = 0 erbracht ist.
Es sei ein n ∈ N0 gegeben, und die Behauptung sei für dieses n und alle Funktionen f mit
den im Satz angegebenen Eigenschaften gültig. Es sei eine (n + 2)-mal stetig differenzierbare
Funktion f : I −→ R gegeben. Nach Induktionsvoraussetzung gilt dann für alle x ∈ I
Z x
1
Rn (x) =
·
(x − t)n · f (n+1) (t) dt.
n! a
Mittels partieller Integration erhält man hieraus für alle x ∈ I
t=x
Z x
(x − t)n+1
1
(n+1)
Rn (x) = −
·f
(t) +
·
(x − t)n+1 · f (n+2) (t) dt
(n + 1) · n!
(n
+
1)
·
n!
a
t=a
Z x
n+1
(x − a)
1
=
· f (n+1) (a) +
·
(x − t)n+1 · f (n+2) (t) dt;
(n + 1)!
(n + 1)! a
297
die Stetigkeit von f (n+2) benötigen wir hierbei, da wir den Hauptsatz der Differential- und
Integralrechnung angewandt haben. Es folgt nun weiter
Rn+1 (x) = f (x) − Tn+1 (x)
(x − a)n+1 (n+1)
·f
(a)
(n + 1)!
Z x
(x − a)n+1 (n+1)
1
= Rn (x) −
·f
(a) =
·
(x − t)n+1 · f (n+2) (t) dt.
(n + 1)!
(n + 1)! a
= f (x) − Tn (x) −
Damit ist der Induktionsschluss vollzogen.
Als unmittelbare Folgerung erhält man eine Verallgemeinerung der Aussage in Korollar 15.10,
wonach auf Intervallen definierte Funktionen, deren erste Ableitung überall verschwindet,
konstant sein müssen:
Korollar 20.4
Es sei n ∈ N0 und f : I −→ R eine (n + 1)-mal differenzierbare Funktion
auf einem echten Intervall I mit f (n+1) (x) = 0 für alle x ∈ I. Dann ist f ein Polynom vom
Grad grad (f ) ≤ n.
Beweis. Es sei ein a ∈ R gegegeben. Aus der Integraldarstellung in Satz 20.3 folgt sofort,
dass das Restglied Rn,a von f im Punkt a verschwindet. Also stimmt f mit seinem n-ten
Taylorpolynom Tn,a überein.
Satz 20.5 (Lagrange’sche Form des Restglieds)
Es sei I ein echtes offenes Intervall,
a ∈ I und n ∈ N0 . Die Funktion f : I −→ R sei (n + 1)-mal stetig differenzierbar. Es sei
Rn = Rn,a das zum n-ten Taylorpolynom Tn,a f von f im Punkt a gehörige Restglied. Zu
jedem Punkt x ∈ I gibt es dann ein ξ zwischen x und a, so dass
Rn (x) =
f (n+1) (ξ)
· (x − a)n+1
(n + 1)!
gilt. Dieser Ausdruck für Rn (x) heißt das n-te Lagrange’sche62 Restglied von f im
Punkt a.
Beweis. Es sei ein x ∈ I gegeben. Nach Satz 20.3 gilt dann
Z x
1
(x − t)n · f (n+1) (t) dt.
Rn (x) =
·
n! a
Die Funktion p(t) := (x − t)n ist stetig und hat einheitliches Vorzeichen für alle t zwischen a
und x. Daher können wir den Mittelwertsatz der Integralrechnung (Satz 18.1 (2)) anwenden;
dieser liefert ein ξ zwischen a und x, so dass
Z x
f (n+1) (ξ)
Rn (x) =
·
(x − t)n dt
n!
a
t=x
(n+1)
f
(ξ)
f (n+1) (ξ)
n+1 = −
· (x − t) =
· (x − a)n+1 .
(n + 1) · n!
(n
+
1)!
t=a
62
Hier begegnet uns erstmals der Name des bedeutenden Analytikers und theoretischen Physikers J. L.
Lagrange (1736 – 1813). Er kam 1766 als Nachfolger von Euler an die Akademie der Wissenschaften in Berlin.
298
Satz 20.5 trifft eine quantitative Aussage über das Restglied Rn = f − Tn . Um sie auszunutzen, benötigt man eine Abschätzung der (n + 1)-ten Ableitung von f . Wir folgern aus Satz
20.5 eine qualitative Aussage über Rn , in die keine speziellen Eigenschaften von f eingehen.
Sie verallgemeinert die obige Vorüberlegung bzw. das Resultat in Satz 14.3 (a) über die
lokale lineare Approximierbarkeit differenzierbarer Funktionen.
Satz 20.6 (Qualitative Taylor-Formel)
Es sei I ein offenes Intervall, a ∈ I und
n ∈ N. Die Funktion f : I −→ R sei n-mal stetig differenzierbar. Es sei Tn das n-te
Taylorpolynom von f im Punkt a. Dann gilt
lim
x→a
f (x) − Tn (x)
= 0.
(x − a)n
Es besteht eine Identität
f (x) = Tn (x) + r(x) · (x − a)n
mit einer Funktion r : I −→ R, die im Punkt a stetig ist und dort den Wert r(a) = 0 hat.
Beweis. Wir definieren die Funktion r : I −→ R für x ∈ I, x 6= a durch die Formel im Satz,
und wir setzen ergänzend r(a) := 0. Zu beweisen ist dann
lim r(x) = 0 ;
x→a
denn hieraus folgen alle Aussagen im Satz.
Mit der Lagrange’schen Darstellung des Restglieds Rn−1 (!) aus Satz 20.5 ergibt sich für alle
x 6= a
1
(x − a)n
1
=
(x − a)n
1
=
(x − a)n
r(x) =
· (f (x) − Tn (x))
f (n) (a)
n
· f (x) − Tn−1 (x) −
· (x − a)
n!
f (n) (a)
1
n
· Rn−1 (x) −
· (x − a) =
· f (n) (ηx ) − f (n) (a)
n!
n!
mit einem geeigneten ηx zwischen a und x. Es ist dann limx→a ηx = a. Damit und mit der
Stetigkeit von f (n) folgt sofort
lim r(x) = 0.
x→a
Die qualitative Taylor-Formel kann besonders suggestiv mithilfe des sog. Landau-Symbols
o( · ) ausgedrückt werden.
Definition 20.7 Sind f, g : D −→ C Funktionen auf einer offenen Menge D ⊆ R oder
D ⊆ C und ist a ∈ D, so schreibt man

(x)

falls limx→a fg(x)
= 0,
 o(g(x)) für x → a,
f (x) =
falls es ein C > 0 und ein δ > 0 gibt mit

 O(g(x)) für x → a,
|f (x)| ≤ C · |g(x)| für alle x ∈ Uδ (a).
Falls D = [x0 , ∞[ bzw. D =] − ∞, x0 ] mit einem x0 ∈ R ist, so definiert man analoge
Schreibweisen auch für x → ∞ bzw. für x → −∞.
Die Symbole o( · ) und O( · ) bezeichnet man als Landau-Symbole.
299
Mit dieser Symbolik lautet die qualitative Taylor-Formel
f (x) = Tn (x) + o ((x − a)n )
für x → a,
sofern f mindestens n-mal stetig differenzierbar in einer Umgebung von a ist.
Mit der Taylor-Formel kann man das notwendige Kriterium für lokale Extremalstellen in
Satz 15.2 verschärfen und auch ein hinreichendes Kriterium gewinnen.
Satz 20.8 (Lokale Extrema)
Es sei I ein echtes Intervall, a ein innerer Punkt von I
und n ≥ 2 eine natürliche Zahl. Die Funktion f : I −→ R sei n-mal stetig differenzierbar.
Es sei
f 0 (a) = f 00 (a) = . . . = f (n−1) (a) = 0, f (n) (a) 6= 0.
Falls n ungerade ist, dann hat f in a einen Wendepunkt, aber kein lokales Extremum. Falls
n gerade ist, dann hat f im Punkt a ein striktes lokales Extremum. Dieses ist im Falle
f (n) (a) > 0 ein Minimum und im Falle f (n) (a) < 0 ein Maximum.
Beweis. Aus Satz 20.6 und aus den Voraussetzungen erhalten wir eine Identität
f (x) − f (a) = Tn,a f (x) − f (a) + r(x) · (x − a)n
(n)
f (a)
+ r(x) · (x − a)n
=
n!
mit einer Funktion r : I −→ R, die im Punkt a stetig ist und dort den Wert r(a) = 0
hat. Aus f (n) (a) 6= 0 und aus dem Permanenzprinzip (Lemma 9.5) folgt die Existenz einer
(n)
Umgebung U = Uδ (a) ⊆ I des Punktes a, so dass der Faktor f n!(a) + r(x) sein Vorzeichen
auf U nicht wechselt.
Für gerade n ist (x − a)n stets nichtnegativ, und es folgt
sgn (f (x) − f (a)) = sgn (f (n) (a))
für alle x ∈ U.
Hieraus folgen die Behauptungen für gerade n.
Nun sei n ungerade und n ≥ 3. Dann wechselt f (x) − f (a) im Punkt a das Vorzeichen.
Folglich ist a keine lokale Extremalstelle von f . Wir können Satz 20.6 auf f 00 anstelle von f
(und mit n − 2 statt n) anwenden und erhalten analog zu oben eine Darstellung
(n)
f (a)
00
00
+ re(x) · (x − a)n−2
f (x) − f (a) =
(n − 2)!
mit einer in a stetigen Funktion re : I −→ R, welche re(a) = 0 erfüllt. Hieraus erkennt man,
dass auch f 00 (x) im Punkt a das Vorzeichen wechselt. Aus Korollar 15.22 und der Definition
der Wendepunkte folgt somit, dass a ein Wendepunkt von f ist.
20.3
Die Taylorreihe
Häufig liegt der Fall vor, dass die Funktion f unendlich oft differenzierbar ist. Dann sind die
Taylorpolynome Tn für alle n definiert, und man kann zu einer Potenzreihe übergehen.
300
Definition 20.9 Es sei I ein echtes Intervall und a ein innerer Punkt von I. Die Funktion
f : I −→ R sei unendlich oft differenzierbar. Dann heißt die Potenzreihe
∞
X
f (k) (a)
· (x − a)k
T (x) =
k!
k=0
die Taylorreihe von f im Punkt a, gelegentlich auch der Jet von f in a. Die Taylorreihe
wird präziser mit Ta f bezeichnet, wenn f und a nicht aus dem Kontext hervorgehen.
Mit der Definition kommen sogleich Fragen auf: Für welche x konvergiert die Taylorreihe
T (x)? Gilt im Falle der Konvergenz die Identität f (x) = T (x), d.h. stellt die Taylorreihe die
Funktion f dar?
Beide Fragen können nicht zwangsläufig bejaht werden:
• Als Potenzreihe hat die Taylor-Reihe einen Konvergenzradius; dieser kann durchaus 0
betragen, so dass die Taylor-Reihe nirgends (außer im Entwicklungspunkt) konvergiert.
Und auch wenn dieser etwas pathologisch anmutende Sonderfall nicht vorliegt, ist zumindest nicht zu erwarten, dass der Konvergenzradius ∞ ist, d.h. dass die Taylorreihe
auf ganz R konvergiert!
• Selbst wenn die Taylor-Reihe in einem Punkt x konvergiert, dann nicht zwangsläufig
gegen den Funktionswert f (x): Klar ist, dass f (x) = T (x) genau dann gilt, wenn
limn→∞ Rn (x) = 0 ist. Dies muss nicht zwangsläufig erfüllt sein, wie folgendes Beispiel
zeigt:
Beispiel 20.10
Wir definieren die Funktion f : R −→ R durch
(
für x ∈ R \ {0} ,
exp − x12
f (x) :=
0
für x = 0.
Es gilt f (x) > 0 für alle x 6= 0. Daher hat f im Nullpunkt ein striktes lokales (und globales)
Minimum. Wir wollen zeigen, dass die Funktion f unendlich oft differenzierbar ist und dass
ihre Taylorreihe im Nullpunkt die Nullreihe ist. Es folgt dann: Die Taylorreihe ist überall
konvergent, aber ihre Grenzfunktion ist 0 und stellt nirgends (außer im Entwicklungspunkt)
die Funktion f dar.
Zu diesem Zweck beweisen wir f (n) (0) = 0 für alle n ∈ N0 und die Existenz von Polynomen
pn : R −→ R mit
1
1
(n)
· exp − 2
für alle x ∈ R \ {0} und alle n ∈ N0 .
f (x) = pn
x
x
Nach Definition von f gelten diese beiden Aussagen für n = 0 mit p0 (x) = 1. Wir nehmen
die Gültigkeit der beiden Aussagen für ein n ≥ 0 an. Mit Hilfe von Satz 12.2 folgt dann die
Existenz von
f (n+1) (0) = lim
x→0
f (n) (x) − f (n) (0)
f (n) (x)
= lim
x→0
x
x 1
1
1
= lim · pn
· exp − 2
x→0 x
x
x
=
lim y · pn (y) · exp(−y 2 )
y→±∞
= 0.
301
1
Abbildung 55: Die Funktion x 7→ exp − x12
Für x 6= 0 folgt
f
(n+1)
(x) =
1
− 2 · p0n
x
2
1
1
1
+ 3 · pn
· exp − 2 .
x
x
x
x
Damit ist die Behauptung für n + 1 anstelle von n mit dem Polynom
pn+1 (y) := − y 2 p0n (y) + 2y 3 pn (y)
bewiesen. (Nebenbei ergibt die Rekursionsformel für die pn noch grad (pn ) = 3n.)
200
3
−1.5
1.5
1
−2
2
−0.5
0.5
−200
Abbildung 56: Zweite und vierte Ableitung von x 7→ exp − x12
In diesem Beispiel existiert also die Taylorreihe von f , aber die Restglieder sind Rn =
f − Tn = f für alle n. Außerdem haben wir hier ein striktes lokales Extremum, das mit dem
Kriterium von Satz 20.8 nicht entdeckt werden kann. Abbildung 56 zeigt die zweite und die
vierte Ableitung von f .
Ausblick: Das überraschende Verhalten von f wird erst vom Standpunkt der komplexen
Analysis aus besser verständlich: Während f : R −→ R im Nullpunkt stetig und sogar
302
unendlich oft differenzierbar ist, ist f (z) := exp − z12 als Funktion der komplexen Variablen
z im Nullpunkt unstetig. Dies sieht man, indem man rein imaginäre Werte z = iy mit y ∈ R
einsetzt: Es gilt
1
f (iy) = exp + 2 −→ ∞
für y → 0.
y
Genauer gilt sogar
f (U̇δ (0)) = C \ {0}
für jedes (beliebig kleine) δ > 0,
d.h. f nimmt in beliebig kleinen Umgebungen von 0 sämtliche Werte an, die die Exponentialfunktion in C überhaupt annimmt.
Dies begründet man folgendermaßen: U̇δ (0) wird durch z 7→
A := {w ∈ C : |w| >
1
z2
auf das Kreisäußere
1
}
δ2
abgebildet, für ein geeignetes R > 0 ist der Streifen S := {w ∈ C | R ≤ Im(w) < R + 2π} in
A enthalten, und aus Korollar 12.22 (b) folgt
f (U̇δ (0)) = exp(A) ⊇ exp(S) = C \ {0},
während anderseits wegen der Nullstellenfreiheit der Exponentialfunktion natürlich auch
f (U̇δ (0)) = exp(A) ⊆ C \ {0} ist.
Die Funktion f verhält sich in der Nähe der Singularität z = 0 also außerordentlich turbulent. Derartige Singularitäten bezeichnet man in der Funktionentheorie als wesentliche
Singularitäten. Hier liegt die tiefere Ursache dafür, dass f um Null nicht in eine Taylorreihe
entwickelt werden kann. Wäre dies nämlich in R möglich, so auch in C, und dies hätte zur
Folge, dass f : C −→ C in einer Umgebung von 0 stetig und damit beschränkt wäre. –
Eine andere Funktion mit einer wesentlichen Singularität im Nullpunkt ist x 7→ sin x1 ; bei
ihr demaskiert sich der turbulente“ Charakter dieser Singularität ansatzweise bereits im
”
Reellen.
Wir definieren nun eine Klasse von Funktionen, die nirgends das pathologische“ Verhalten
”
wie in Beispiel 20.10 aufweisen:
Definition 20.11 Es sei I ein echtes offenes Intervall. Eine Funktion f : I −→ R heißt
reell-analytisch, falls zu jedem a ∈ I ein ε > 0 mit Uε (a) ⊆ I existiert, so dass f auf Uε (a)
durch eine konvergente Potenzreihe mit dem Entwicklungspunkt a darstellbar ist, falls also
f (x) =
∞
X
ak (x − a)k
für alle x ∈ ]a − ε, a + ε[
k=0
mit geeigneten a0 , a1 , a2 , . . . ∈ R gilt.
Die reell-analytischen Funktionen sind also diejenigen Funktionen, die überall lokal in eine
Potenzreihe entwickelbar sind. Die Betonung liegt hierbei auf lokal“: Es wird nicht voraus”
gesetzt, dass diese Potenzreihen auf dem gesamten Definitionsintervall der Funktion konvergieren; dies wäre auch eine i. Allg. unerfüllbare Forderung, da ja das Konvergenzintervall
303
einer Potenzreihe im Wesentlichen (bis evtl. auf die Randpunkte) symmetrisch bezüglich des
Entwicklungspunktes ist.
Beispiel 20.10 zeigt, dass unendlich oft differenzierbare Funktionen keinesfalls reell-analytisch
sein müssen.
Umgekehrt erwarten wir natürlich, dass reell-analytische Funktionen unendlich oft differenzierbar sind, dass ihre Taylorreihe in a identisch mit der Potenzreihe in a ist und dass ihre Ableitungen durch gliedweises Differenzieren der Potenzreihe zu erhalten sind. Dies ergibt sich
recht einfach aus Satz 19.6 über die Vertauschung von Differentiation und Grenzübergängen
und aus der Tatsache, dass Potenzreihen lokal gleichmäßig konvergieren:
Satz
(Ableitungen und Stammfunktionen von Potenzreihen)
Es sei
P∞ 20.12
k
k=0 ak x eine Potenzreihe mit reellen Koeffizienten ak und mit einem Konvergenzradius
R > 0. Auf dem Intervall I =] − R, R[ wird dann durch
f (x) :=
∞
X
ak x k
k=0
eine unendlich oft differenzierbare Funktion f definiert. Es gilt
0
f (x) =
∞
X
kak xk−1 ,
k=1
und diese Potenzreihe hat ebenfalls den Konvergenzradius R. Die Taylorreihe von f im Punkt
0 ist die gegebene Potenzreihe; für alle k ∈ N0 gilt
ak =
f (k) (0)
.
k!
Weiter ist
F : I −→ R, F (x) =
∞
X
k=0
ak
· xk+1
k+1
eine Stammfunktion von f auf I.
√
Beweis. Aus Satz 5.17 ist limk→∞ k k = 1 bekannt. Daher haben die Folgen
p p
k
k
|ak |
und
k|ak |
k
k
dieselben Häufungswerte. Die Hadamardsche Formel (Satz 11.21) zeigt somit, dass die gliedweise differenzierte Potenzreihe
∞
X
kak xk−1
k=1
denselben Konvergenzradius R wie die Ausgangsreihe hat. Nach Satz 11.13 ist die differenzierte Reihe auf jedem kompakten Teilintervall von I gleichmäßig konvergent. Auf die
Funktion f und jedes kompakte Teilintervall von I ist also Satz 19.6 anwendbar. Weil jedes
x ∈ I in einem solchen Teilintervall enthalten ist, folgt die Differenzierbarkeit von f auf I
und die behauptete Formel
∞
X
f 0 (x) =
kak xk−1 .
k=1
304
Induktiv folgt nun, dass f unendlich oft differenzierbar ist und dass für jedes n die n-te
Ableitung durch
∞
X
(n)
f (x) =
k(k − 1) · . . . · (k − n + 1) ak xk−n
k=n
für x ∈ I gegeben ist. Für x = 0 erhält man
f (n) (0) = n! · an .
Die Taylorreihe von f im Nullpunkt ist also die gegebene Potenzreihe, und die Funktion f
wird durch ihre Taylorreihe dargestellt.
√
Ebenfalls wegen limk→∞ k k + 1 = 1 und der Hadamardschen Formel (Satz 11.21) haben
auch die beiden Potenzreihen für f und für F den gleichen Konvergenzradius. Nach dem
bereits Gezeigten ist also F eine differenzierbare Funktion auf I mit der Ableitung
∞
∞
X
X
ak
· xk =
F (x) =
ak xk = f (x) .
(k + 1) ·
k
+
1
k=0
k=0
0
Man kann zeigen, dass die Grenzfunktion f einer Potenzreihe mit Entwicklungspunkt 0
und Konvergenzradius R > 0 auf I = ] − R, R[ reell-analytisch ist: f lässt sich um jeden
Punkt a ∈ I (nicht nur um den Entwicklungspunkt 0) in eine Potenzreihe entwickeln, deren
Konvergenzradius mindestens R − |a| ist. Dieses Ergebnis ist jedoch nicht in Satz 20.12 enthalten; es wird später in der komplexen Analysis bewiesen. In Sonderfällen können spezielle
Eigenschaften von f zum Ziel führen – z.B. bei der Exponentialfunktion.
Die Werte einer reell-analytischen Funktion f unterliegen starken inneren Bindungen. Das
wird bereits aus Satz 20.12 klar, wonach f durch die Folge der Ableitungen (f (n) (a))n in einem
einzigen Punkt a vollständig festgelegt ist. In der Funktionentheorie wird später gezeigt, dass
eine solche Funktion f bereits durch die Werte auf recht kleinen Punktmengen eindeutig
bestimmt ist; diese müssen lediglich einen Häufungspunkt im Innern des Definitionsbereich
von f haben. Dieses sog. Identitätsprinzip lässt sich auch mit den uns derzeit zur Verfügung
stehenden Mitteln beweisen, siehe z.B. [Köhler, Satz 15.10].
Auf Satz 20.12 beruht die Methode des Koeffizientenvergleichs: Eine Funktion f kann um
einen Punkt a auf höchstens eine Weise in eine Potenzreihe entwickelt werden.
Korollar 20.13 (Koeffizientenvergleich)
f (x) =
∞
X
Mit reellen Zahlen an und bn sei
n
an · (x − x0 ) =
n=0
∞
X
bn · (x − x0 )n
n=0
für alle x in einem offenen Intervall I = Uε (x0 ) um den Punkt x0 (wobei ε > 0). Dann gilt
an = b n
für alle n ≥ 0.
Beweis. Nach Satz 20.12 wird die Funktion f auf I durch ihre Taylorreihe um den Punkt
x0 dargestellt, und die Koeffizienten der beiden f darstellenden Potenzreihen sind an =
1
· f (n) (x0 ) und ebenso bn = n!1 · f (n) (x0 ). Also gilt an = bn für alle n.
n!
305
Wir haben nunmehr die Hilfsmittel, um für einige weitere wichtige Funktionen Reihenentwicklungen zu finden:
Satz 20.14 (Logarithmus-Reihe)
Für 0 < x ≤ 2 gilt
∞
X
(−1)n+1
log(x) =
· (x − 1)n .
n
n=1
Insbesondere gilt für den Grenzwert der alternierenden harmonischen Reihe
∞
X (−1)n+1
1 1 1
1 − + − + −... =
= log(2).
2 3 4
n
n=1
Beweis. Für alle x ∈ I :=] − 1, 1[ gilt
∞
X
1
=
(−x)n =: f (x).
log (1 + x) =
1 + x n=0
0
Eine Stammfunktion von f auf I ist nach Satz 20.12
F (x) :=
∞
X
(−1)n
n=0
n+1
·x
n+1
=
∞
X
(−1)n+1
n=1
n
· xn .
Da auch x 7→ log(1 + x) eine Stammfunktion von f ist, gibt es nach Korollar 15.10 ein C ∈ R
mit
log(1 + x) = F (x) + C
für alle x ∈ I.
Wegen log(1) = 0 = F (0) muss C = 0 sein. Also ist log(1 + x) = F (x) für alle x ∈ I.
P
(−1)n+1
ist nach dem LeibnizEs bleibt noch der Fall x = 1 zu diskutieren: Die Reihe ∞
n=1
n
Kriterium (Satz 7.13) konvergent. Nach dem Abelschen Stetigkeitssatz (Satz 11.24) ist F
daher stetig auf ] − 1, 1] (vgl. auch Beispiel 11.25), ebenso wie x 7→ log(1 + x). Damit und
mit der soeben bewiesenen Übereinstimmung von F (x) und log(1 + x) auf I folgt
log(2) = lim log(1 + x) = lim F (x) = F (1) =
x→1−
Also gilt
log(1 + x) = F (x) =
x→1−
∞
X
(−1)n+1
n=1
n
∞
X
(−1)n+1
n=1
· xn
n
.
für alle x ∈] − 1, 1].
Indem man hierin 1 + x durch x ersetzt, ergibt sich die behauptete Identität.
Satz 20.15 (Arcustangens-Reihe)
Für −1 < x ≤ 1 gilt
∞
X
(−1)n
1
1
1
arctan(x) =
· x2n+1 = x − x3 + x5 − x7 + − . . . .
2n + 1
3
5
7
n=0
Insbesondere hat die Leibnizsche Reihe den Wert
∞
X (−1)n
1 1 1
π
= .
1 − + − + −... =
3 5 7
2n + 1
4
n=0
306
Beweis. Gemäß Beispiel 15.17 (3) gilt für alle x ∈ I :=] − 1, 1[
∞
X
1
arctan (x) =
=
(−1)n · x2n .
2
1+x
n=0
0
Nach Satz 20.12 ist daher
∞
X
(−1)n
F (x) :=
· x2n+1
2n
+
1
n=0
eine Stammfunktion von arctan0 auf I, so dass F − arctan konstant ist. Wegen F (0) = 0 =
arctan(0) folgt sogar
∞
X
(−1)n
arctan(x) = F (x) =
· x2n+1
2n
+
1
n=0
für alle x ∈ I.
Setzt man x = 1 in die Reihe ein, so entsteht die (nach dem Leibniz-Kriterium) konvergente
Leibnizsche Reihe (vgl. Beispiel 7.14 (2)). Folglich können wir den Abelschen Stetigkeitssatz
(Satz 11.24) anwenden. Damit erhalten wir auch F (1) = arctan(1) = π4 . Damit folgt für den
Wert der Leibnizschen Reihe
1 1 1
π
= F (1) = 1 − + − + − . . . .
4
3 5 7
307
21
21.1
Uneigentliche Riemann-Integrale
Definition uneigentlicher Integrale
Motivation: Bislang können wir nur beschränkte Funktionen auf kompakten Intervallen
integrieren. Oftmals kann man jedoch auch unbeschränkten Funktionen oder Funktionen mit
unbeschränktem Definitionsbereich in sinnvoller Weise ein Integral zuordnen. Dies geschieht
in der Riemannschen Integrationstheorie nachträglich durch Grenzwertbildung.63
Definition 21.1 Es sei I = [a, b[ mit −∞ < a < b ≤ ∞, und es sei f : I −→ R auf jedem
Intervall [a; c] mit c < b Riemann-integrierbar. Dann heißt
Z b
f (x) dx
a
ein an der oberen Grenze uneigentliches Integral. Dieses heißt konvergent und man
sagt, dass es existiert, falls der Grenzwert
Z c
lim
f (x) dx
c→b−
a
existiert (als reelle Zahl!). Man schreibt dann
Z c
Z b
f (x) dx
f (x) dx := lim
c→b−
a
a
und nennt diese Zahl den Wert des uneigentlichen Integrals. Analog erklärt man Integrale,
die an der unteren Grenze uneigentlich beziehungsweise beidseitig uneigentlich sind.
Rb
Ein beidseitig uneigentliches Integral a f (x) dx heißt konvergent, falls für ein c ∈ ]a, b[
Rc
Rb
die uneigentlichen Integrale a f (x) dx und c f (x) dx beide konvergieren. Das gilt dann für
jedes c ∈ ]a, b[, und der Wert
Z b
Z c
Z R
Z R
f (x) dx = lim
f (x) dx + lim
f (x) dx =
lim
f (x) dx
a
r→a+
R→b−
r
r→a+,R→b−
c
r
ist unabhängig von der Wahl der Stelle c. Wesentlich hierbei ist, dass r und R unabhängig
voneinander gegen a bzw. b streben.
Beispiel 21.2
(1) Es gilt
Z
lim
R→∞
R
−x
e
0
dx = lim
R→∞
R −e = lim 1 − e−R = 1 ,
−x 0
also existiert das uneigentliche Integral
Z ∞
R→∞
e−x dx = 1.
0
63
In der Lebesgueschen Integrationstheorie, die wir später besprechen werden, sind von vornherein auch
unbeschränkte Funktionen auf offenen und auf unbeschränkten Intervallen zugelassen.
308
(2) Es sei α > 0. Für alle R > 1 ist

x=R
x1−α 1

 1−α = 1−α
· (R1−α − 1) ,
Z R

x=1
dx
=
α

1 x


log x|x=R
x=1 = log R,
falls α 6= 1,
falls α = 1.
Hierbei existiert der Grenzwert limR→∞ R1−α = 0 genau für α > 1, und es ist
limR→∞ log R = ∞. Daher gilt

1
Z ∞
falls α > 1,
dx  = α−1 ,
xα  ist divergent,
1
falls α ≤ 1.
(3) Es sei wieder α > 0. Für alle ε ∈ ]0; 1] ist

x=1
1
x1−α 

= 1−α
· (1 − ε1−α ) ,
Z 1

1−α x=ε
dx
=
α

ε x


log x|x=1
x=ε = − log ε,
Analog zu (2) erkennt man hieraus:

Z 1
dx  ist divergent,
α
0 x  = 1 ,
1−α
falls α 6= 1,
falls α = 1.
falls α ≥ 1,
falls α < 1.
R∞
(4) Das uneigentliche Integral −∞ x dx ist divergent. Jedoch gilt
Z R
Z
x dx = 0 für alle R > 0
und damit auch
lim
R→∞
−R
R
x dx = 0.
−R
R∞
Dies täuscht den Wert 0 für das uneigentliche Integral −∞ x dx vor.
RR
Der Grenzwert limR→∞ −R f (x) dx heißt der Cauchy’sche Hauptwert des beidseitig
R∞
R∞
uneigentlichen Integrals −∞ f (x) dx. Falls das Integral −∞ f (x) dx existiert, so auch
sein Cauchy’scher Hauptwert, und er stimmt mit dem Wert des uneigentlichen Integrals
überein. Aus der Existenz des Cauchy’schen Hauptwerts darf man jedoch nicht auf die
Existenz des betreffenden Integrals selbst schließen.
(5) Es gilt
Z
R
−r
dx
= arctan R − arctan(−r),
1 + x2
und hieraus folgt
Z
R
lim
r→∞,R→∞
−r
π π
dx
= lim arctan R + lim arctan r = + = π.
2
r→∞
R→∞
1+x
2
2
Somit konvergiert das beidseitig uneigentliche Integral
Z ∞
dx
= π.
2
−∞ 1 + x
309
21.2
Konvergenzkriterien
Für die Konvergenz uneigentlicher Integrale gilt folgendes zum Majorantenkriterium für
Reihen analoge Vergleichskriterium.
Satz 21.3 (Majorantenkriterium für uneigentliche Integrale)
Es sei I = [a, b[ mit
−∞ < a < b ≤ ∞. Die Funktionen f : I −→ R und g : I −→ R seien auf jedem Intervall
[a; c] mit a < c < b Riemann-integrierbar. Es sei
|f (x)| ≤ g(x)
und das uneigentliche Integral
Rb
gentliche Integral a f (x) dx.
Beweis. Für x ∈ I setzen wir
Z
F (x) :=
Rb
a
x ∈ I,
für alle
g(x) dx sei konvergent. Dann konvergiert auch das unei-
x
Z
f (t) dt
und
G(x) :=
a
x
g(t) dt .
a
Für alle x, y mit a ≤ x < y < b gilt dann
Z y
Z
|F (y) − F (x)| = f (t) dt ≤
x
y
Z
|f (t)| dt ≤
x
y
g(t) dt = G(y) − G(x).
x
Nach Voraussetzung existiert der reelle Grenzwert limx→b− G(x). Zu jedem ε > 0 gibt es
daher ein x0 ∈ I, so dass
|G(y) − G(x)| < ε
für alle x, y ∈ [x0 , b[
|F (y) − F (x)| < ε
für alle x, y ∈ [x0 , b[.
gilt. Also ist auch
Aus dem Cauchy-Kriterium (vgl. Aufgabe 5.3 (a)) folgt daher die Existenz des reellen Grenzwerts
Z
b
lim F (x) =
x→b−
f (t) dt .
a
Der folgende Satz stellt einen Zusammenhang her zwischen der Konvergenz von Reihen und
der von uneigentlichen Integralen.
Satz 21.4 (Integralvergleichskriterium oder Reihenvergleichskriterium) Es sei
f : [0, ∞[ −→ [0, ∞[ eine monoton fallende Funktion. Dann gilt: Das uneigentliche Integral
Z ∞
f (x) dx
0
konvergiert genau dann, wenn die unendliche Reihe
310
P∞
n=0
f (n) konvergiert.
1
2
3
4
5
6
7
8
Abbildung 57: Zum Beweis des Integralvergleichskriteriums
Beweis. Da f monoton ist, ist f auf jedem Intervall [0; x] mit x ≥ 0 Riemann-integrierbar.
Für x ≥ 0 und n ∈ N0 setzen wir
x
Z
F (x) :=
f (t) dt ,
sn :=
0
n
X
f (k) .
k=0
Weil f (t) ≥ 0 für alle t ist, sind die Funktion F und die Folge (sn )n beide monoton steigend.
Gemäß dem Monotonieprinzip genügt es daher zu zeigen, dass die Funktion F genau dann
beschränkt ist, wenn die Folge (sn )n beschränkt ist. Die Skizze in Abbildung 57 illustriert
die Beweisidee.
Für k ∈ N0 und k ≤ t ≤ k + 1 gilt nach Voraussetzung f (k + 1) ≤ f (t) ≤ f (k). Hieraus folgt
Z
k+1
f (k + 1) ≤
f (t) dt ≤ f (k).
k
Für alle n ∈ N gilt somit
sn − f (0) =
n
X
f (k) ≤
k=1
=
k=1
n−1 Z
X
k=0
n Z
X
k
Z
f (t) dt =
k−1
k+1
f (t) dt ≤
k
n−1
X
n
f (t) dt = F (n)
0
f (k) = sn−1 ,
k=0
also
sn − f (0) ≤ F (n) ≤ sn−1 .
Daher sind die Folgen (sn )n und (F (n))n entweder beide beschränkt oder beide unbeschränkt.
Zudem ist die Folge (F (n))n genau dann beschränkt, wenn F beschränkt ist (aufgrund der
Monotonie von F !). Daraus folgt die Behauptung.
311
Beispiel 21.5 (Die Riemannsche Zeta-Funktion)
uneigentliche Integral
Z ∞
dx
xs
1
1
xs
für s > 1 konvergent. Da die Funktion x 7→
Integralvergleichskriterium, dass die Reihe
Nach Beispiel 21.2 (2) ist das
auf ]1, ∞[ monoton fällt, folgt mit dem
∞
X
1
ζ(s) :=
ns
n=1
für s > 1 konvergiert. (Dieses Resultat hatten wir bereits in Beispiel 7.25 aus dem Verdichtungskriterium gewonnen.) Die Funktion ζ heißt die Riemannsche Zetafunktion. Sie
wurde bereits von Euler untersucht. Er bewies die Produktdarstellung
Y
ζ(s) =
p prim
1
.
1 − p1s
Aufgrund dieser Darstellung enthält die Zeta-Funktion wichtige Informationen über die Verteilung der Primzahlen. Sie ist daher von überragender Bedeutung in der analytischen Zahlentheorie. Bernhard Riemann zeigte 1859, dass die Zeta-Funktion in natürlicher Weise auf
ganz C fortgesetzt werden kann. (Die angegebene Reihe selbst ist nur für Re s > 1 konvergent.) Diese Fortsetzung hat in den Punkten −2, −4, −6, . . . Nullstellen. Riemann vermutete, dass alle übrigen (sog. nichttrivialen“) Nullstellen von ζ auf der Geraden mit der
”
Gleichung Re (s) = 21 liegen. Bei dieser bis heute ungelösten Riemannschen Vermutung
handelt es sich um das wahrscheinlich größte“ offene Problem der Mathematik (eines der
”
sog. Millenniums-Probleme). Mit einem Beweis der Riemannschen Vermutung könnten die
bisher bekannten Aussagen über die Verteilung der Primzahlen erheblich verbessert werden.
Beispiel 21.6 Gemäß Satz 19.2 lassen sich unter der Voraussetzung der gleichmäßigen
Konvergenz Integration auf kompakten Intervallen und Grenzübergang vertauschen. Das folgende Beispiel illustriert die Problematik des Vertauschens von Grenzübergängen mit der
uneigentlichen Integration: Wir setzen
fn (x) :=
Es ist |fn (x)| ≤
1
n
1 −x/n
·e
n
für n ∈ N und x ≥ 0.
für alle x ≥ 0, und daher gilt
gleichmäßig auf [0, ∞[ .
lim fn (x) = 0
n→∞
Infolgedessen ist
Z
∞
lim fn (x) dx = 0.
0
n→∞
Andererseits gilt nach Beispiel 21.2 (1)
Z ∞
Z
Z ∞
1 ∞ −x/n
fn (x) dx =
e
dx =
e−y dy = 1
n 0
0
0
312
1
0.8
f1
0.6
0.4
f2
0.2
f7
1
2
3
4
5
6
Abbildung 58: Die Graphen der Funktionen f1 , f2 und f7 aus Beispiel 21.6
für alle n, und daher ist
Z
∞
lim
fn (x) dx = 1.
n→∞
0
Warnung: Die Aussage in Satz 19.2 über die Vertauschbarkeit von Grenzübergängen mit
der Integration gilt nicht für uneigentliche Integrale. Die gleichmäßige Konvergenz einer
Funktionenfolge ist keine hinreichende Voraussetzung für die Vertauschbarkeit!
Beispiel 21.7
Das uneigentliche Integral
Z ∞
sin(πt)
dt
tα
1
ist für alle α > 0 konvergent. Hingegen ist
Z ∞
1
| sin(πt)|
dt
tα
für 0 < α ≤ 1 divergent und für α > 1 konvergent.
Warnung: Der Betrag einer uneigentlich Riemann-integrierbaren Funktion muss nicht uneigentlich Riemann-integrierbar sein. Die Aussage aus Satz 17.12 (2), wonach mit f auch |f |
Riemann-integrierbar ist, ist also nicht auf uneigentliche Riemann-Integrale übertragbar.
Beweis: Es sei α > 1. Dann folgt die Konvergenz von
Z ∞
Z ∞
sin(πt)
| sin(πt)|
dt
und von
dt
α
t
tα
1
1
R∞
mittels Satz 21.3 aus der Konvergenz von 1 t1α dt.
R∞
Nun sei 0 < α ≤ 1. In diesem Fall ist die Abschätzung durch das Integral 1
denn dieses ist jetzt divergent. Es ist eine feinere Untersuchung erforderlich.
313
1
tα
dt zu grob,
0.6
0.4
0.2
5
15
10
20
-0.2
-0.4
-0.6
-0.8
Abbildung 59: Die Funktion f (x) =
Wir setzen
Z
an :=
n
n+1
sin(πx)
√
x
aus Beispiel 21.7
| sin(πt)|
dt
tα
für n ∈ N. Es gilt
| sin(πt)|
| sin(πt)|
| sin(πt)|
≤
≤
α
α
(n + 1)
t
nα
und
n+1
Z
Z
1
sin(πt) dt = −
| sin(πt)| dt =
n
für
0
n≤t≤n+1
t=1 2
1
· cos(πt) = .
π
π
t=0
Hiermit folgt für alle n ∈ N
2
2
≤ an ≤
α
π(n + 1)
πnα
und damit auch
an+1 ≤
2
≤ an .
π(n + 1)α
Demnach ist (an )n eine monoton fallende
von positiven Zahlen. Nach dem LeibnizP Nullfolge
n
Kriterium (Satz 7.13) ist die Reihe ∞
(−1)
a
konvergent.
Für beliebige x > 1 erhalten
n
n=1
wir unter Verwendung der Gauß-Klammer bxc := max {n ∈ Z | n ≤ x}
Z
1
x
bxc−1 Z n+1
X
Z x
sin(πt)
sin(πt)
dt +
dt
α
α
t
t
n
bxc
n=1
Z x
bxc−1
X
sin(πt)
n
=
(−1) an +
dt .
tα
bxc
n=1
sin(πt)
dt =
tα
314
Hierbei ist
x
Z x
sin(πt) 1
1
dt
≤
dt
≤
−→ 0
(x → ∞).
α
tα
(x − 1)α
bxc
x−1 t
P
n
Hieraus und aus der Konvergenz der Reihe ∞
n=1 (−1) an folgt somit, dass das uneigentliche
Integral
Z ∞
sin(πt)
dt
tα
1
P∞ 1
2
konvergiert. Wegen an ≥ π(n+1)
α und der Divergenz der Reihe
n=1 nα ist jedoch das uneigentliche Integral
Z ∞
| sin(πt)|
dt
tα
0
Z
divergent.
Alternativ kann man die Konvergenz von
einsehen.
R∞
1
sin(πt)
tα
dt auch mittels partieller Integration
Beispiel 21.8
Nach Satz 7.8 kann eine Reihe höchstens dann konvergieren, wenn ihre
Glieder eine Nullfolge bilden. Angesichts der durch das Integralvergleichskriterium suggerierten Analogie zwischen Reihen und uneigentlichen
Integralen klingt folgende Vermutung
R∞
plausibel: Wenn das uneigentliche Integral 0 f (x) dx konvergiert, so ist limx→∞ f (x) = 0.
Diese Vermutung ist falsch; schlimmer noch: f muss nicht einmal beschränkt sein. Dies lehrt
folgendes Beispiel:
Es sei f (x) := x sin(x3 ). Offensichtlich ist f unbeschränkt auf [1; ∞[.
4
7.5
5
2
2.5
1
2
4
3
2
4
6
8
-2.5
-2
-5
-7.5
-4
Abbildung 60: Das Verhalten von f (x) = x sin(x3 ) in den Intervallen [0; 4] bzw. [0; 8]
Wir substituieren y = ϕ(x) := x3 , so dass ϕ0 (x) = 3x2 ist, und erhalten
Z
R
Z
f (x) dx =
1
R3
y
1
1/3
dy
· sin y 2/3 =
3y
Z
1
R3
sin y
dy
3y 1/3
für alle R > 0. Aus Beispiel 21.7 (mit α = 13 ) folgt, dass der Grenzwert limR→∞
existiert, so dass f auf [1; ∞[ uneigentlich Riemann-integrierbar ist.
315
RR
1
f (x) dx
22
Wege, Kurven und ihre Länge
Mithilfe der Integralrechnung können wir auch Kurvenlängen berechnen. Unter einer Kurve
stellt man sich anschaulich meistens eine linienhafte, eindimensionale Menge im Raum vor,
die in einem Zuge gezeichnet werden kann. Oft wird auch verlangt, dass sie einen bestimmten
Durchlaufungssinn haben soll. Diese vage Vorstellung muss allerdings noch präzisiert werden
- und ist zudem auch nicht ganz unproblematisch, wie manche Gegenbeispiele zeigen werden.
In diesem Kapitel betrachten wir zwar Abbildungen mit mehrdimensionalem Zielbereich,
aber der Definitionsbereich bleibt eindimensional, so dass beim Differenzieren und Integrieren
nichts konzeptionell Neues passiert. Wir können die folgenden Betrachtungen daher eher der
ein- als der mehrdimensionalen Analysis zuordnen.
22.1
Wege
Definition 22.1 Es sei I ein echtes Intervall. Jede stetige Abbildung γ : I −→ Rn heißt
ein Weg im Rn (oder eine parametrisierte Kurve oder eine Parameterdarstellung
einer Kurve im Rn ). Die Bildmenge
Spur (γ) := γ(I) = {γ(t) | t ∈ I} ⊆ Rn
heißt die Spur des Weges γ. (Weitere geläufige Notationen sind z.B. T (γ) oder tr(γ).)
Falls I = [a, b] ein kompaktes Intervall ist, dann heißt γ(a) der Anfangspunkt und γ(b) der
Endpunkt des Weges γ. Im Falle γ(a) = γ(b) heißt γ ein geschlossener Weg.
Kinematische Interpretation: Oft fasst man die Variable t als Zeit und γ(t) als Ort auf.
Der Weg beschreibt dann die zeitliche Bewegung eines Punktes im Rn . Die Abbildungsvorschrift γ liefert dabei gewissermaßen einen Fahrplan, mit dem die Bildmenge γ(I) = Spur (γ)
zu durchlaufen ist.
Wenn wir Wege zeichnen, dann zeichnen wir nur die Spur, und der Fahrplan γ bleibt unsichtbar; allenfalls wird ein Pfeil die Durchlaufungsrichtung anzeigen. Man sollte jedoch Wege und
ihre Spur ebensowenig verwechseln wie Urlaubsreisen und die hierfür benutzten Autobahnen.
Beispiel 22.2
(1) Für a, b > 0 parametrisiert der (geschlossene) Weg
γ : [0; 2π] −→ R2 ,
t 7→ (a cos t, b sin t)
eine Ellipse mit den Halbachsen a und b (für a = b einen Kreis mit Radius a).
(2) Für r > 0 und h > 0 ist der Weg
γ : R −→ R3 ,
t 7→ (r cos t, r sin t, ht)
eine Schraubenlinie im R3 mit der Ganghöhe 2πh (Abbildung 61).
(3) Ist f : I −→ R stetig, so kann der Graph
Gf := {(t, f (t)) | t ∈ I}
von f als Spur eines Weges im R2 aufgefasst werden. Eine mögliche Parameterdarstellung ist
γ : I −→ R2 ,
t 7→ (t, f (t)).
316
z
γ(4π)
y
γ(2π)
γ(0)
x
Abbildung 61: Eine Schraubenlinie
Bemerkung 22.3 (Peano-Wege) Die Voraussetzung der Stetigkeit von γ ist relativ
schwach und lässt Spielraum für sehr komplizierte Wege, die gar nicht der anschaulichen
Vorstellung von einem linienhaften Gebilde entsprechen. Beispielsweise gibt es stetige surjektive Abbildungen
γ : [0; 1] −→ [0; 1] × [0; 1],
also Wege, die das Einheitsquadrat im R2 ausfüllen, sog. Peano-Wege64 . Diese erhält man
als Grenzfunktionen γ = limn→∞ γn von Folgen elementar“ definierter Funktionen γn . Hier”
bei werden die γn meist durch ein Rekursionsverfahren erklärt, dem das Prinzip Verkleinere,
”
transformiere und kopiere!“ zugrunde liegt. Abbildung 62 zeigt den Beginn einer solchen Rekursion. In diesem Beispiel haben alle Wege γn den Anfangspunkt (0, 0) und den Endpunkt
(1, 0). Die Stetigkeit der Grenzfunktion wird in der Regel dadurch sichergestellt, dass die
Folge (γn )n gleichmäßig konvergiert.
Wir wollen uns damit nicht näher beschäftigen und gehen insbesondere nicht darauf ein,
weshalb die Grenzfunktion γ tatsächlich flächenfüllend ist. Man kann zeigen, dass γ nicht
injektiv sein kann65 .
Zur Vermeidung derartiger pathologischer“ Fälle werden wir hauptsächlich nur differenzier”
bare Wege studieren. Die Übertragung des Differenzierbarkeitsbegriffs auf Wege im Rn (d.h.
auf Abbildungen vom Ein- ins Mehrdimensionale) ist dabei völlig unproblematisch.
64
Die Entdeckung derartiger Monster“ durch G. Peano (1858 - 1932) im Jahr 1890 löste einen Schock unter
”
Mathematikern aus und trug wesentlich dazu bei, das Vertrauen in anschauliche Evidenz zu untergraben
und stattdessen auf formale Beweise Wert zu legen.
65
Wir skizzieren hier nur die Grundidee dieses Beweises: Wäre γ : [0; 1] −→ [0; 1] × [0; 1] bijektiv und
stetig, so würde aus der Kompaktheit des Definitionsbereichs mithilfe von Satz 13.28 folgen, dass γ sogar
ein Homöomorphismus ist. Es wären [0; 1] und [0; 1] × [0; 1] also homöomorph zueinander. Damit wären auch
[0; 1] \ {0.5} und ([0; 1] × [0; 1]) \ {γ(0.5)} homöomorph. Dies kann aber nicht sein, da die zweite dieser beiden
Mengen zusammenhängend ist, die erste hingegen nicht, und da der Zusammenhang eine Invariante unter
Homöomorphismen ist.
317
-
@
R
γ1
γ2
γ3
γ4
Abbildung 62: Ein Peano-Weg γ = limn→∞ γn
Definition 22.4 Ein Weg γ : I −→ Rn , t 7→ γ(t) = (γ1 (t), . . . , γn (t)) heißt differenzierbar in t0 ∈ I, wenn der Grenzwert
lim
t→t0
γ(t) − γ(t0 )
=: γ 0 (t0 )
t − t0
existiert. In diesem Falle nennt man γ 0 (t0 ) den Tangentialvektor von γ zum Parameterwert
t0 . Falls γ 0 (t0 ) 6= 0 ist, so heißt der auf Betrag 1 normierte Vektor
γ 0 (t0 )
||γ 0 (t0 )||
der zugehörige Tangenten-Einheitsvektor.
Geometrische Interpretation:
γ(t) − γ(t0 )
t − t0
ist der Vektor der Durchschnittsgeschwindigkeit im Zeitintervall zwischen t0 und t; für t → t0
strebt dieser gegen γ 0 (t0 ), den momentanen Geschwindigkeitsvektor zum Zeitpunkt t0 . Siehe
hierzu Abbildung 63.
Bemerkung 22.5
Wie im Eindimensionalen (vgl. Satz 14.3 (a)) gilt: Ein Weg γ : I −→
n
R ist genau dann differenzierbar in t0 ∈ I mit Tangentialvektor γ 0 (t0 ), wenn es eine in t0
stetige Abbildung r : I −→ Rn gibt, so dass
γ(t) = γ(t0 ) + γ 0 (t0 ) · (t − t0 ) + r(t) · (t − t0 ) für alle t ∈ I
also genau dann, wenn γ lokal linear approximierbar ist.
318
und
r(t0 ) = 0,
γ(t)
γ(t0 )
γ 0 (t0 )
Abbildung 63: Tangentialvektor
Klar ist auch, dass ein Weg γ = (γ1 , . . . , γn ) : I −→ Rn genau dann differenzierbar in t0 ∈ I
ist, wenn alle Komponentenfunktionen γj in t0 differenzierbar (im Sinne von Definition 14.1)
sind; in diesem Fall gilt
γ 0 (t0 ) = (γ10 (t0 ), . . . , γn0 (t0 )).
Definition 22.6 Ein Weg γ : I −→ Rn heißt differenzierbar in I, wenn γ in allen t0 ∈ I
differenzierbar ist; γ heißt stetig differenzierbar, wenn γ 0 : I −→ Rn stetig ist. (Man sagt
in diesem Fall auch, dass γ von der Klasse C 1 ist.)
Ein Weg γ : I −→ Rn heißt regulär (oder glatt), falls er stetig differenzierbar ist mit
γ 0 (t) 6= 0 für alle t ∈ I.
Gilt γ(t1 ) = γ(t2 ) = p mit t1 6= t2 (so dass γ nicht injektiv ist), so heißt p ein Doppelpunkt
des Weges.
Im Folgenden zwei Beispiele für die möglichen Folgen mangelnder Regularität und für Wege
mit Doppelpunkten.
Beispiel 22.7
(1) Durch
γ(t) := (t2 , t3 ),
t ∈ R,
wird die sog. Neilsche Parabel parametrisiert (Abbildung 64). Ihre Spur ist die
Lösungsmenge der Gleichung y 2 = x3 in R2 . Der Weg γ ist stetig differenzierbar mit
γ 0 (t) = (2t, 3t2 )
Es ist γ 0 (0) = (0; 0). Dem Parameterwert t = 0 entspricht eine Spitze“ (0, 0); diese
”
rührt - anschaulich gesprochen - daher, dass die Bewegung im Punkt (0; 0) für einen
(infinitesimal kurzen) Moment zur Ruhe kommt und daher dort ihre Richtung wechseln
kann.
0
(t)
stetig von t ab. Dies
Bei regulären Wegen hängt der Tangenteneinheitsvektor ||γγ 0 (t)||
garantiert einen glatten“ Kurvenverlauf und schließt Spitzen“ aus.
”
”
319
Abbildung 64: Die Neilsche Parabel
(2) Wir betrachten den in Abbildung 65 skizzierten Weg
γ(t) := (t2 − 1, t3 − t),
t ∈ R.
Abbildung 65: Tangentialvektoren in einem Doppelpunkt
Er hat den Doppelpunkt γ(1) = γ(−1) = (0, 0). Es ist
γ 0 (t) = (2t, 3t2 − 1) 6= (0, 0)
für alle t ∈ R,
d.h. γ ist regulär. Die zum Doppelpunkt gehörigen Tangentialvektoren sind
γ 0 (−1) = (−2, 2)
und
γ 0 (1) = (2, 2).
In Doppelpunkten gibt es also i.Allg. verschiedene Tangentialvektoren.
Daher kann der Tangentialvektor γ 0 (t0 ) nur der Parameterstelle t0 und nicht dem Punkt
γ(t0 ) eindeutig zugeordnet werden.
320
22.2
Die Länge von Wegen
Anschaulich scheint es klar zu sein, dass jeder Weg γ : I −→ Rn mit kompaktem Definitionsintervall I eine endliche Länge hat. Das Beispiel der Peano-Wege führt diese Erwartung
jedoch ad absurdum, und nicht einmal die Differenzierbarkeit von γ stellt sicher, dass γ
endliche Länge hat, wie wir in Beispiel 22.13 sehen werden.
Es stellt sich zunächst die Frage, wie man die Länge eines Weges sinnvoll definieren kann.
Ein naheliegender Ansatz ist der folgende: Wir bilden Polygonzüge durch Punkte des Weges,
die zu einer aufsteigenden Folge von Parameterwerten gehören, und sehen die Länge der
Polygonzüge als Approximationen der gesuchten Länge des Weges an (Abbildung 66).
Abbildung 66: Approximation eines Weges durch einen Polygonzug
Definition 22.8 Es sei I = [a, b] ein kompaktes Intervall und γ : I −→ Rn ein Weg im
Rn . Für eine beliebige Zerlegung Z = (t0 , t1 , . . . , tm ) von I setzen wir
VZ (γ) :=
m
X
||γ(tj ) − γ(tj−1 )|| .
j=1
(Dies ist die Länge des Polygonzuges mit den Ecken γ(tj ).) Wir nennen
L(γ) := sup{VZ (γ) | Z ist Zerlegung von I}
die Länge des Weges γ. Im Falle L(γ) < ∞ heißt γ rektifizierbar.
Bemerkung 22.9
Man beachte, dass wir die Länge eines Weges γ : I −→ Rn nur für den
Fall definieren, dass I ein kompaktes Intervall ist. Dies liegt daran, dass wir zur Definition
von VZ (γ) die Werte von γ in den Randpunkten von I benötigen. Durch einen geeigneten
Grenzübergang könnte man natürlich auch den Fall eines nicht-kompakten Definitionsintervalls erfassen.
321
Heuristische Betrachtung. Es ist wenig praktikabel, die Länge eines Weges gemäß der
Definition mit Hilfe von approximierenden Polygonzügen zu berechnen. Die Integralrechnung
bietet zumindest für stetig differenzierbare Wege eine bequemere Methode. Die folgende
heuristische Überlegung führt zu der richtigen Formel.
Es sei I = [a, b] ein kompaktes Intervall und γ : I −→ R2 ein stetig differenzierbarer Weg im
R2 . Es sei Z = (t0 , t1 , . . . , tm ) eine Zerlegung von I. Die Summanden in VZ (γ) sind
1/2
2
2
||γ(tk ) − γ(tk−1 )|| = (γ1 (tk ) − γ1 (tk−1 )) + (γ2 (tk ) − γ2 (tk−1 ))
.
Wegen der Differenzierbarkeit von γ1 und γ2 gibt es nach dem Mittelwertsatz der Differentialrechnung (Satz 15.8) Punkte τk und θk im offenen Intervall ]tk−1 , tk [ mit
2
0
2
0
2
||γ(tk ) − γ(tk−1 )|| = γ1 (τk ) + γ2 (θk ) · (tk − tk−1 )2 .
Weil die Ableitungen γ10 und γ20 stetig sind, begeht man nur einen kleinen“ Fehler, wenn man
”
hierin τk und θk beide durch tk ersetzt - jedenfalls dann, wenn die Zerlegung fein genug“
”
gewählt wird. Daher ist VZ (γ) ungefähr gleich der Summe
m
X
p
γ10 (tk )2 + γ20 (tk )2 · (tk − tk−1 ) .
k=1
Diese Summe ist eine Approximation für das Integral
Z bp
γ10 (t)2 + γ20 (t)2 dt .
a
Für die Länge von γ gilt daher vermutlich die Formel
Z bp
γ10 (t)2 + γ20 (t)2 dt .
L(γ) =
a
Es liegt auf der Hand, wie diese auf den Fall von Wegen im Rn statt R2 zu verallgemeinern
ist.
Satz 22.10 (Längenformel)
Ist I = [a; b] ein kompaktes Intervall und γ : I −→ Rn
ein stetig differenzierbarer Weg im Rn , so ist γ rektifizierbar, und es gilt
Z b
Z bp
0
||γ (t)|| dt =
γ10 (t)2 + . . . + γn0 (t)2 dt.
L(γ) =
a
a
Beweis. Wir dürfen a < b annehmen. Es sei ein ε > 0 gegeben. Als stetige Funktionen
sind die Komponentenfunktionen γk0 auf dem Kompaktum I sogar gleichmäßig stetig (Satz
13.31). Folglich gibt es ein δ > 0, so dass für alle k = 1, . . . , n und für beliebige τ, θ ∈ I mit
|τ − θ| < δ die Ungleichung
ε
|γk0 (τ ) − γk0 (θ)| <
n(b − a)
gilt. Es sei Z = (t0 , t1 , . . . , tm ) eine Zerlegung von I, deren Feinheit maxj (tj − tj−1 ) < δ ist.
Wir wollen zeigen, dass
Z b
0
VZ (γ) −
< ε.
||γ
(t)||
dt
(22.1)
a
322
Es sei ein j ∈ {1, . . . , m} gegeben. Es sei Ij := ]tj−1 , tj [. Nach dem Mittelwertsatz der Differentialrechnung gibt es Punkte τk ∈ Ij mit
γk (tj ) − γk (tj−1 )
= γk0 (τk ).
tj − tj−1
Daher gilt
||γ(tj ) − γ(tj−1 )|| = ||(γ10 (τ1 ), . . . , γn0 (τn ))|| · (tj − tj−1 ).
Nach dem Mittelwertsatz der Integralrechnung (Satz 18.1) gibt es ein θ ∈ Ij mit
Z tj
||γ 0 (t)|| dt = ||γ 0 (θ)|| · (tj − tj−1 ) = ||(γ10 (θ), . . . , γn0 (θ))|| · (tj − tj−1 ) .
tj−1
Weiter gilt aufgrund der Dreiecksungleichung
n
X
||x|| − ||y|| ≤ ||x − y|| ≤
|xk − yk |
für alle x, y ∈ Rn .
k=1
Damit können wir den Beitrag des Intervalls Ij zur linken Seite in (22.1) abschätzen:
Z tj
||γ 0 (t)|| dt
∆j := ||γ(tj ) − γ(tj−1 )|| −
tj−1
= (tj − tj−1 ) · ||(γ10 (τ1 ), . . . , γn0 (τn ))|| − ||(γ10 (θ), . . . , γn0 (θ))||
≤ (tj − tj−1 ) ·
n
X
|γk0 (τk ) − γk0 (θ)| .
k=1
Weil die Feinheit von Z kleiner als δ ist und τk und θ beide in Ij liegen, gilt |τk − θ| < δ und
somit
ε
für alle k = 1, . . . , n.
|γk0 (τk ) − γk0 (θ)| <
n(b − a)
Also folgt
ε
.
b−a
Dies gilt für alle j ∈ {1, . . . , m}. Summation über j ergibt mittels der Dreiecksungleichung
Z b
m
m Z tj
X
X
0
0
VZ (γ) −
||γ (t)|| dt = ||γ (t)|| dt
||γ(tj ) − γ(tj−1 )|| −
a
j=1
j=1 tj−1
Z tj
m X
≤
||γ 0 (t)|| dt
||γ(tj ) − γ(tj−1 )|| −
tj−1
∆j < (tj − tj−1 ) ·
j=1
m
X
m
X
ε
=
∆j <
·
(tj − tj−1 ) = ε,
b
−
a
j=1
j=1
also (22.1). Dies gilt für alle Zerlegungen Z von I der Feinheit < δ.
Hieraus erhalten wir unmittelbar
Z
L(γ) = sup {VZ (γ) | Z ist Zerlegung von I} >
a
323
b
||γ 0 (t)|| dt − ε .
Jede Zerlegung Z ∗ von I besitzt eine Verfeinerung Z mit einer Feinheit < δ. Daher folgt aus
(22.1) auch
Z b
||γ 0 (t)|| dt + ε .
VZ ∗ (γ) ≤ VZ (γ) <
a
(Die erste Abschätzung ergibt sich direkt aus der Dreiecksungleichung: Beim Übergang zur
Verfeinerung einer Zerlegung nimmt die Länge des approximierenden Polygonzuges zu.) Man
bildet das Supremum über alle Z ∗ und erhält
Z b
∗
||γ 0 (t)|| dt + ε .
L(γ) = sup {VZ ∗ (γ) | Z ist Zerlegung von I} ≤
a
Insgesamt ist also
Z
b
Z
0
||γ (t)|| dt − ε < L(γ) ≤
a
b
||γ 0 (t)|| dt + ε.
a
Dies gilt für jedes ε > 0. Daraus folgt die Behauptung
Z b
L(γ) =
||γ 0 (t)|| dt.
a
Insbesondere ist L(γ) < ∞, d.h. γ ist rektifizierbar.
Wendet man dieses Resultat auf die aus Beispiel 22.2 (3) bekannte Parametrisierung t 7→
(t, f (t)) des Graphen einer stetigen Funktion f an, so erhält man insbesondere:
Korollar 22.11
Der Weg γ im R2 sei eine Parametrisierung des Graphen einer stetig
differenzierbaren Funktion f : [a, b] −→ R. Dann gilt
Z bp
L(γ) =
1 + f 0 (x)2 dx .
a
Beispiel 22.12
Es sei
γ(t) := (a cos t, b sin t) ,
0 ≤ t ≤ 2π,
(mit a, b > 0) eine Parameterdarstellung einer Ellipse mit großer Halbachse a und kleiner
Halbachse b. Es ist
γ 0 (t) = (−a sin t, b cos t).
Aus Satz 22.10 ergibt sich für den Umfang der Ellipse
Z 2π p
a2 sin2 t + b2 cos2 t dt.
L(γ) =
0
Im Spezialfall a = b eines Kreises erhält man
Z 2π p
L(γ) = a
sin2 t + cos2 t dt = 2πa.
0
Im Fall a 6= b besitzt der Integrand keine elementare Stammfunktion. Es liegt ein sog.
elliptisches Integral vor.
324
Beispiel 22.13 Nicht einmal differenzierbare Wege (mit kompaktem Definitionsintervall)
müssen rektifizierbar sein. Hierzu betrachten wir die Funktion66
( 2
x · cos x12 für x ∈ [−1; 1] \ {0} ,
f (x) :=
0
für x = 0
und den Weg
für − 1 ≤ t ≤ 1,
γ(t) := (t, f (t))
der eine Parametrisierung des Graphen von f darstellt (vgl. Abbildung 67).
100
0.15
50
0.10
0.05
-0.4
-0.4
0.2
-0.2
0.2
-0.2
0.4
0.4
-50
-0.05
-0.10
-100
Abbildung 67: Die Graphen von f und f 0 aus Beispiel 22.13 im Intervall [−0.5; 0.5]
Aus der Beschränktheit des Cosinus folgt, dass f (und damit γ) auf dem ganzen Intervall
[−1; 1] differenzierbar ist mit
2x · cos x12 + x2 · sin x12 , falls x =
6 0,
0
f (x) =
0,
falls x = 0.
Für natürliche Zahlen N ≥ 2 bilden wir die Zerlegungen
ZN :=
!
1
1
1
,..., √ ,1
0, √
,p
π
πN
π(N − 1)
von [0, 1]. In den von 0 und 1 verschiedenen Teilpunkten nimmt cos x12 abwechselnd die Werte
1 und −1 an. Deshalb gilt
!
!
N N X
X
1
1
1
1
√
p
√
p
VZN (γ) ≥
−
γ
−
f
γ
≥
f
πk
πk
π(k − 1)
π(k − 1) k=2
k=2
N N X
X
1
1
1
1
=
+
kπ cos(kπ) − (k − 1)π cos((k − 1)π) =
kπ (k − 1)π
k=2
k=2
N
2 X 1
≥
·
.
π k=2 k
Die eineiige Zwillingsschwester“ x 7→ x2 sin x12 von f hatten wir bereits in Beispiel 14.21 (2) kennenge”
lernt, als Beispiel für eine differenzierbare Funktion, deren Ableitung auf einem Kompaktum unbeschränkt
ist.
66
325
Wegen der Divergenz der harmonischen Reihe folgt hieraus
L(γ) ≥ sup VZN (γ) = ∞,
N ∈N
also L(γ) = ∞.
Dieses Beispiel widerlegt in dramatischer Weise die Vorstellung, eine Funktion sei stetig,
wenn sich ihr Graph ohne abzusetzen zeichnen lässt: Startet man damit im Nullpunkt, so
müsste man in jedem beliebig kleinen Abszissen-Intervall [0; ε] mit ε > 0 ein unendlich
langes Wegstück durchlaufen; man kann hier nicht mehr sinnvoll erklären, was man mit
einem Nachzeichnen“ des Graphens überhaupt meint.
”
22.3
Funktionen von beschränkter Variation
Wir können auch stetige reellwertige Funktionen als Wege (im R1 ) auffassen und nach ihrer
Weglänge bzw. nach Rektifizierbarkeit fragen. Für die Bildung der Größen VZ (γ) und L(γ)
aus Definition 22.8 kann man dabei sogar von der Stetigkeitsvoraussetzung absehen. Dies
führt auf den Begriff der Funktionen von beschränkter Variation, der auf C. Jordan (1838 1922) zurückgeht.
Definition 22.14 Es sei f : I −→ R eine reellwertige Funktion auf einem kompakten
Intervall I = [a, b]. Es sei VZ (f ) wie in Definition 22.8 erklärt. Dann heißt
V[a;b] (f ) = V (f ) := sup{VZ (f ) | Z ist Zerlegung von I}
die totale Variation der Funktion f auf I. Falls V (f ) < ∞ ist, so heißt f von beschränkter
Variation.
Bemerkung 22.15
Die totale Variation V (f ) stimmt mit der Weglänge L(f ) überein
(die wir freilich nur für stetiges f definiert hatten). Dabei darf man allerdings V (f ) nicht
mit der Länge des Graphen von f verwechseln. (Dieser lebt“ ja im R2 , nicht in R.)
”
Die korrekte Veranschaulichung für V (f ) ist vielmehr die folgende: Wird die Auf- und Abbewegung eines Punktes auf einer Geraden durch f beschrieben, so misst V (f ) die insgesamt
von diesem Punkt zurückgelegte Strecke.
Es gilt jedoch: Genau dann ist eine stetige Funktion f : I −→ R auf einem kompakten
Intervall I von beschränkter Variation, wenn ihr Graph Gf ⊆ R2 endliche Länge hat (vgl.
Aufgabe 2.1).
Beinahe selbstverständlich ist folgende Additivitätseigenschaft der totalen Variation.
Lemma 22.16
Es sei f : I −→ R eine reellwertige Funktion auf einem kompakten
Intervall I = [a, b]. Dann gilt67
V[a,b] (f ) = V[a,c] (f ) + V[c,b] (f )
Beweis. siehe Übungen, Aufgabe 2.2
für alle c ∈ ]a; b[.
Statt V[x,y] (f ) müssten wir im Folgenden strenggenommen V[x,y] f |[x,y] schreiben. Um diese
Schwerfälligkeit in der Notation zu vermeiden, verwechseln“ wir also die Funktion f mit ihrer Restrik”
tion auf das Intervall [x, y].
67
326
Für Funktionen von beschränkter Variation gilt die folgende überraschende Charakterisierung:
Satz 22.17
Es sei f : I −→ R eine reellwertige Funktion auf einem kompakten Intervall
I = [a, b]. Genau dann ist f von beschränkter Variation, wenn f die Differenz zweier monoton
steigender Funktionen ist.
Beweis. ⇐=“: Es sei f = g − h die Differenz zweier monoton steigender Funktionen g
”
und h.
Es sei Z = (t0 , . . . , tm ) (mit a = t0 < t1 < · · · < tm = b) eine beliebige Zerlegung von [a; b].
Dann erhalten wir mit der Dreiecksungleichung
VZ (f ) =
≤
(∗)
=
m
X
j=1
m
X
j=1
m
X
|f (tj ) − f (tj−1 )|
|g(tj ) − g(tj−1 )| +
(g(tj ) − g(tj−1 )) +
j=1
m
X
j=1
m
X
|h(tj ) − h(tj−1 )|
(h(tj ) − h(tj−1 ))
j=1
= g(tm ) − g(t0 ) + h(tm ) − h(t0 )
= (g + h)(b) − (g + h)(a).
(Dafür, dass wir in (∗) die Beträge weglassen konnten, ist die Monotonie von g und h wesentlich.)
Hierbei ist die obere Schranke (g + h)(b) − (g + h)(a) unabhängig von der Wahl der Zerlegung
Z. Somit folgt auch
V (f ) = sup {VZ (f ) | Z ist Zerlegung von I} ≤ (g + h)(b) − (g + h)(a) < ∞.
Dies zeigt, dass f von beschränkter Variation ist.
=⇒“: Nun sei vorausgesetzt, dass f von beschränkter Variation ist.
”
Wir setzen g(x) := V[a;x] (f ) für a ≤ x ≤ b.
Es seien x, y ∈ [a; b] mit x < y vorgegeben. Dann ist gemäß Lemma 22.16
g(y) − g(x) = V[a;y] (f ) − V[a;x] (f ) = V[x;y] (f ) ≥ 0.
(22.2)
Dies zeigt, dass g monoton wächst.
Wir setzen h := g − f . Dann ist wie gewünscht f = g − h. Wir müssen noch nachweisen,
dass auch h monoton wächst.
Hierzu seien x, y ∈ [a; b] mit x < y gegeben. Nach Definition der totalen Variation V[x;y] (f )
ist dann
|f (x) − f (y)| ≤ V[x;y] (f ),
da ja V[x;y] (f ) das Supremum über alle Variationen VZ (f ) mit beliebigen Zerlegungen Z des
Intervalls [x; y] ist und auch Z = (x; y) eine solche Zerlegung ist. Es folgt mit (22.2)
h(y) − h(x) = g(y) − g(x) − f (y) + f (x)
= V[x;y] (f ) − (f (y) − f (x))
≥ |f (y) − f (x)| − (f (y) − f (x)) ≥ 0.
327
Also ist auch h monoton wachsend. Somit ist f = g − h die Differenz zweier monoton
wachsender Funktionen.
22.4
Parametertransformationen und Kurven
Oft will man Wege mit gleicher Spur, gleicher Durchlaufungsrichtung und ähnlichem Fahr”
plan“ miteinander identifizieren. (Wege mit lediglich gleicher Spur zu identifizieren ist nicht
sinnvoll, wie das Beispiel von einfach bzw. mehrfach durchlaufenen Kreislinien zeigt.)
Beispiel 22.18
Die beiden Wege
h πi
−→ R2 ,
α : 0,
2
α(t) = (cos(t), sin(t))
und
β : [0, 1] −→ R2 ,
β(y) =
p
1 − y2, y
haben die gleiche Spur, nämlich die Viertelkreislinie
Spur (α) = Spur (β) = {(u, v) ∈ R2 | u2 + v 2 = 1, u ≥ 0, v ≥ 0 }.
Beide Wege haben auch den gleichen Durchlaufungssinn mit dem Anfangspunkt (1, 0) und
dem Endpunkt (0, 1). Nur die Fahrpläne“ sind verschieden. Wir können den einen Weg wie
”
folgt in den anderen transformieren: Es gilt
π
β ◦ ϕ = α mit ϕ(t) = sin(t) für 0 ≤ t ≤ .
2
Definition 22.19 Es seien I und J echte Intervalle. Jede stetige und bijektive Funktion
ϕ : I −→ J heißt eine Parametertransformation. Es seien α : I −→ Rn und β : J −→ Rn
zwei Wege im Rn . Wir nennen α und β äquivalent, und wir schreiben
α ∼ β,
falls es eine Parametertransformation ϕ : I −→ J gibt mit β ◦ ϕ = α.
Erinnerung: Äquivalenzrelationen
Es sei A 6= ∅ eine Menge. Eine Relation ∼ auf A heißt eine Äquivalenzrelation auf A, falls
die folgenden drei Bedingungen erfüllt sind.
(Ä1) Die Relation ist reflexiv: Für alle x ∈ A gilt x ∼ x.
(Ä2) Die Relation ist symmetrisch: Aus x ∼ y folgt stets y ∼ x.
(Ä3) Die Relation ist transitiv: Aus x ∼ y und y ∼ z folgt stets x ∼ z.
Nun sei ∼ eine Äquivalenzrelation auf A. Für a ∈ A heißt dann
C(a) = {x ∈ A | x ∼ a}
die Äquivalenzklasse von a; jedes Element von C(a) heißt ein Repräsentant dieser Äquivalenzklasse. Aus (Ä3) geht hervor, dass für beliebige a, b ∈ A entweder
C(a) = C(b)
oder
C(a) ∩ C(b) = ∅
ist; zwei Äquivalenzklassen sind entweder identisch oder disjunkt. Die Äquivalenzklassen
bilden also eine Zerlegung von A in disjunkte Teilmengen.
328
Bemerkung 22.20
(a) Bei der Äquivalenz von Wegen handelt es sich tatsächlich um eine Äquivalenzrelation:
(1) Die Reflexivität folgt daraus, dass die identische Abbildung eines Intervalls eine
Parametertransformation ist.
(2) Wenn ϕ : I −→ J eine Parametertransformation ist, dann ist ϕ−1 : J −→ I nach
Satz 10.14 (2) stetig, also ebenfalls eine Parametertransformation. Daher ist die
Relation symmetrisch.
(3) Die Transitivität ergibt sich aus der Beobachtung, dass die Verkettung von zwei
Parametertransformationen ebenfalls eine Parametertransformation ist.
(b) Es sei ϕ : I −→ J eine Parametertransformation. Dann ist ϕ streng monoton (Satz
10.14 (1)). Falls ϕ streng monoton wächst, so ist ϕ orientierungstreu; falls ϕ streng
monoton fällt, so ist ϕ orientierungsumkehrend.
(c) Ist ϕ : I −→ J eine Parametertransformation und ist I kompakt, so ist auch J = ϕ(I)
kompakt (Satz 10.1). Hat ein Weg einen kompakten Definitionsbereich, so gilt dies also
auch für alle zu ihm äquivalenten Wege, so dass die Frage nach deren Länge sinnvoll
ist.
Es ist zu erwarten, dass die Weglänge invariant unter Parametertransformationen ist,
dass äquivalente Wege also die gleiche Länge haben. Diese Erwartung wird Satz 22.21
bestätigen.
Satz 22.21
Sind α : I −→ Rn und β : J −→ Rn (mit echten kompakten Intervallen I
und J) äquivalente Wege im Rn , so haben α und β die gleiche Länge.
Beweis. Es sei β = α ◦ ϕ mit einer Parametertransformation ϕ : J −→ I. Es sei Z 0 =
(t0 , t1 , . . . , tm ) eine Zerlegung von J. Weil ϕ surjektiv und streng monoton ist, ist dann
(
ϕ(t0 ), ϕ(t1 ), . . . , ϕ(tm )
falls ϕ streng monoton steigt
Z :=
ϕ(tm ), ϕ(tm−1 ), . . . , ϕ(t0 )
falls ϕ streng monoton fällt
eine Zerlegung von I. Es folgt
VZ 0 (β) =
m
X
j=1
||β(tj ) − β(tj−1 )|| =
m
X
||α(ϕ(tj )) − α(ϕ(tj−1 ))|| = VZ (α) ≤ L(α).
j=1
Das gilt für jede Zerlegung Z 0 von J; daher ist L(β) ≤ L(α). Durch Rollentausch von α und
β erhält man auch L(α) ≤ L(β). Also ist L(α) = L(β).
Bemerkung 22.22
Falls die Wege α und β sowie die Parametertransformation ϕ im
voranstehenden Beweis sogar stetig differenzierbar sind, so folgt die Behauptung einfacher
aus Satz 22.10 und aus der Substitutionsregel (Aufgabe 2.5)
329
Definition 22.23
Eine Kurve im Rn ist eine Äquivalenzklasse von Wegen im Rn . Ist Γ
n
eine Kurve im R und γ : I −→ Rn ein Weg in der Äquivalenzklasse Γ, dann heißt γ eine
Parameterdarstellung der Kurve Γ. Das Bild γ(I) = Spur (γ) hängt offensichtlich nur
von der Äquivalenzklasse Γ ab. Wir dürfen es daher die Spur der Kurve Γ nennen und
mit Spur (Γ) bezeichnen.
Weiter hängt nach Satz 22.21 die Weglänge L(γ) nur von Γ ab, nicht von der Wahl des
Repräsentanten γ. Durch
L(Γ) := L(γ)
ist daher die Länge der Kurve Γ wohldefininiert. Im Falle L(Γ) < ∞ heißt Γ rektifizierbar.
Warnung: Die Unterscheidung zwischen Wegen und Kurven ist in der Literatur nicht einheitlich.
330
Teil IV
Differentialrechnung in mehreren
Variablen
23
Benötigte Hilfsmittel aus der Linearen Algebra
Die Ableitung (genauer: das totale Differential) einer Funktion mehrerer Variabler wird sich
als lineare Abbildung erweisen. Daher benötigt die mehrdimensionale Differentialrechnung
einige Grundkenntnisse der Linearen Algebra, die wir im Folgenden ohne Beweis bereitstellen
wollen.
23.1
Vektorräume
Als erstes müssen wir den (in der Linearen Algebra zentralen) Begriff des Vektorraums
erklären.
Definition 23.1 Ein Vektorraum V über einem Körper K (kurz: ein K-Vektorraum)
ist eine nichtleere Menge, auf der eine Addition + : V × V −→ V und eine Skalarmultiplikation · : K × V −→ V erklärt sind, so dass (V, +) eine abelsche Gruppe bildet und die
Skalarmultiplikation folgenden Bedingungen genügt:
(S1) Es gilt
λ · (v + w) = λ · v + λ · w
für alle λ ∈ K und alle v, w ∈ V.
(λ + µ) · v = λ · v + µ · v
für alle λ, µ ∈ K und alle v ∈ V.
(S2) Es gilt
(S3) Es gilt
(λµ) · v = λ · (µ · v)
für alle λ, µ ∈ K und alle v ∈ V.
(S4) Es gilt
1·v =v
für alle v ∈ V,
wobei 1 das Einselement in dem Körper K bezeichnet.
Eine Teilmenge U ⊆ V eines K-Vektorraums V heißt ein Unterraum oder Teilraum von V ,
falls U mit der von V geerbten Addition + und Skalarmultiplikation · selbst ein Vektorraum
ist.
331
Bemerkung 23.2
(1) Um nachzuprüfen, dass U ⊆ V Unterraum eines K-Vektorraums V ist, genügt der
Nachweis, dass für alle u, u1 , u2 ∈ U und alle λ ∈ K stets auch u1 + u2 ∈ U und λu ∈ U
gilt, d.h. dass U abgeschlossen bezüglich der Verknüpfungen + und · ist. (Die Gültigkeit aller anderen Vektorraumaxiome überträgt sich automatisch von dem größeren“
”
Vektorraum V auf U . Ein analoges Phänomen hatten wir bereits bei Gruppen und
Untergruppen beobachtet, vgl. Bemerkung 2.2 (4)).
Ebenso wie Gruppen sind Vektorräume (und damit auch Unterräume von Vektorräumen) stets nichtleer: Sie enthalten zumindest den Nullvektor.
(2) In der Analysis betrachtet man meist nur Vektorräume über den Körpern R und C.
Um in diesen grundlegende Begriffe wie Konvergenz und Stetigkeit erklären zu können,
benötigt man zudem eine Metrik, in aller Regel in Form einer Norm. Wir kommen
hierauf in Abschnitt 23.3 zurück.
(3) Die bekanntesten Beispiele für Vektorräume sind die Räume Rn und Cn , versehen mit
der komponentenweisen Addition und Skalarmultiplikation (Abschnitt 3.3).
Aber auch viele wichtige Funktionenklassen der Analysis bilden Vektorräume, etwa die Menge aller stetigen (bzw. differenzierbaren bzw. integrierbaren) Funktionen
f : [a, b] −→ R oder die Menge aller Polynome. Dies ist lediglich eine abstrakte Umformulierung der altbekannten (und nicht sonderlich tiefliegenden) Tatsache, dass Summen und skalare Vielfachen von stetigen Funktionen wieder stetig sind (bzw. analoge
Aussagen für die Eigenschaften differenzierbar“, integrierbar“ und ist Polynom“
”
”
”
gelten).
Definition 23.3
Es sei V ein K-Vektorraum.
(a) Eine endliche Teilmenge M = {v1 , . . . , vn } von V heißt linear unabhängig, falls gilt:
∀λ1 ,...,λn ∈K (λ1 v1 + · · · + λn vn = 0
=⇒
λ1 = · · · = λn = 0) ,
wenn also die Gleichung λ1 v1 + · · · + λn vn = 0 nur in trivialer Weise erfüllbar ist.
M heißt linear abhängig, falls M nicht linear unabhängig ist, falls es also Skalare
λ1 , . . . , λn ∈ K gibt, so dass λ1 v1 + · · · + λn vn = 0 und (λ1 , . . . , λn ) 6= (0, . . . , 0) ist.
(b) Eine Menge B ⊆ V heißt eine Basis von V , falls jede endliche Teilmenge von B linear
unabhängig ist und falls sich jedes Element in V als (endliche) Linearkombination von Elementen aus B schreiben lässt, falls es also zu jedem v ∈ V endlich viele
b1 , . . . , bn ∈ B und λ1 , . . . , λn ∈ K gibt, so dass
v = λ1 b1 + · · · + λn bn
gilt. (Hierbei kann n von v abhängen.)
Zu beachten ist, dass hier stets nur endliche Linearkombinationen betrachtet werden. Dies
liegt u.a. auch daran, dass ohne eine geeignete Metrik auf V (bzw. einen geeigneten Konvergenzbegriff) unendliche Linearkombinationen (d.h. unendliche Reihen!) gar nicht sinnvoll
erklärt werden können.
332
Satz 23.4
(a) Ist B eine Basis des Vektorraums V , so lässt sich jedes v ∈ V eindeutig als endliche
Linearkombination von Elementen aus B schreiben.
(b) Jeder Vektorraum besitzt eine Basis.
(c) Falls ein K-Vektorraum V eine endliche Basis besitzt, so ist deren Elementanzahl eindeutig bestimmt, d.h. je zwei Basen sind gleich mächtig. Diese gemeinsame Mächtigkeit
der Basen von V heißt die Dimension von V und wird mit dim V (oder genauer auch
mit dimK V ) bezeichnet.
Der Begriff der Basis ermöglicht es, jeden endlichdimensionalen Vektorraum V über einem
Körper K mit dem K n zu identifizieren (wobei n = dimK V ). Daher konzentriert man sich
in der Linearen Algebra für viele Zwecke auf das Studium der Räume K n .
Beispiel 23.5
(1) Der R-Vektorraum Rn hat die Dimension n. Eine Basis des Rn ist die Standardbasis
{e1 , . . . , en }; sie besteht aus den Einheitsvektoren ek = (0, . . . , 0, 1, 0, . . . , 0)T , worin
die k-te Komponente den Wert 1 und alle übrigen Komponenten den Wert 0 haben.
(2) Man kann C als R-Vektorraum, aber auch als C-Vektorraum auffassen. Es ist
dimR C = 2,
dimC C = 1.
Eine R-Basis von C ist {1, i}, eine C-Basis von C ist {1} .
23.2
Lineare Abbildungen und Matrizen
Der zweite zentrale Begriff der Linearen Algebra ist der der linearen Abbildung:
Definition 23.6 Es seien V und W zwei Vektorräume über einem Körper K. Eine Abbildung L : V −→ W heißt eine lineare Abbildung, falls
L(v1 + v2 ) = L(v1 ) + L(v2 )
für alle v1 , v2 ∈ V
(Additivität)
und
L(λv) = λL(v)
für alle v ∈ V und alle λ ∈ K
(Homogenität)
gilt. Man setzt
Kern (L) := {v ∈ V | L(v) = 0} ,
Bild (L) := {L(v) | v ∈ V }
und nennt Kern (L) den Kern und Bild (L) das Bild der linearen Abbildung L.
Eine lineare Abbildung L : V −→ K des K-Vektorraums V in den Körper K (aufgefasst als
eindimensionaler K-Vektorraum K 1 ) heißt auch eine Linearform auf V .
Eine einfache Folgerung aus den Definitionen ist, dass für jede lineare Abbildung L : V −→
W stets L(0) = 0 gilt. Ebenso leicht sieht man, dass eine lineare Abbildung L : V −→ W
genau dann injektiv ist, wenn Kern (L) = {0} ist. Dass die Surjektivität von L äquivalent
ist mit Bild (L) = W , ist ohnehin klar nach Definition.
333
Warnung: Anders als im Sprachgebrauch des Schulunterrichts sieht man in der Linearen
Algebra Abbildungen
f : R −→ R,
x 7→ mx + t
nur dann als linear an, wenn t = 0 ist. Vielmehr bezeichnet man solche Abbildungen x 7→
mx + t als affine Abbildungen.
Satz 23.7 (Dimensionsformel für lineare Abbildungen) Es sei L : V −→ W eine
lineare Abbildung. Dann ist Kern (L) ein Unterraum von V und Bild (L) ein Unterraum von
W.
Im Falle dim V < ∞ gilt
dim Kern (L) + dim Bild (L) = dim V.
Eine wichtige Klasse von linearen Abbildungen sind die durch Matrizen vermittelten zwischen
den Räumen Rn und Rm .
Definition 23.8
(Matrizen)
(1) Es seien m, n ∈ N. Mit Rm×n bezeichnet man die Menge der m × n-Matrizen


a11 a12 . . . a1n
 a21 a22 . . . a2n 


A = (ajk )j,k =  ..
(23.1)
..
..
.. 
 .
.
.
. 
am1 am2 . . . amn
mit Einträgen ajk ∈ R.
(2) Summen und skalare Vielfache von Matrizen erklärt man komponentenweise.
(3) Die Transponierte einer m × n-Matrix
n × m-Matrix

a11
 a12

AT := (akj )j,k =  ..
 .
a1n
A = (ajk )j,k ∈ Rm×n wie in (23.1) ist die

a21 . . . am1
a22 . . . am2 

n×m
,
..
..
..  ∈ R
.
.
. 
a2n . . . amn
bei der gegenüber A Zeilen und Spalten vertauscht sind.
(4) Zu zwei Matrizen B = (bjk )j,k ∈ Rm×n , A = (akl )k,l ∈ Rn×p definiert man das Produkt
C = (cjl )jl := B · A = BA ∈ Rm×p
durch
cjl :=
n
X
bjk akl
für alle j = 1, . . . , m,
l = 1, . . . , p.
k=1
Der Eintrag in der j-ten Zeile und l-ten Spalte eines Produkts von Matrizen ergibt
sich also, indem man die j-te Zeile der linken mit der l-ten Spalte der rechten Matrix
multipliziert“, wobei die Multiplikation“ einer Zeile mit einer Spalte sich so vollzieht,
”
”
dass man die einzelnen Einträge multipliziert und die Ergebnisse aufaddiert.
334
Natürlich ist die Multiplikation von Matrizen nur dann definiert, wenn die Formate“ der
”
beteiligten Matrizen zueinander passen.
Ein Spezialfall der Matrixmultiplikation ist die Multiplikation einer Matrix A ∈ Rm×n mit
einem (Spalten-)Vektor68 x ∈ Rn (den man als n × 1-Matrix ansehen kann): Es ist

a11
 ..
Ax =  .
am1

a11 x1 + a12 x2 + · · · + a1n xn
. . . a1n
x1
..


.

..
..   ..  = 

.



.
.
.
.
..


. . . amn
xn
am1 x1 + am2 x2 + · · · + amn xn



Transponiert man einen Spaltenvektor x ∈ Rm , so erhält man den Zeilenvektor xT (eine
1 × m-Matrix); diesen kann man von links an eine m × n-Matrix multiplizieren und damit
dann auch xT A für x ∈ Rn und A ∈ Rm×n erklären.
Zur Vereinfachung der Notationen will man gelegentlich mehrere (Spalten-)Vektoren
v1 , . . . , vn ∈ Rm (nebeneinander angeordnet gedacht) zu einer Matrix zusammenfassen. Man
schreibt dann z.B. A := (v1 , . . . , vn ).69
Ist A ∈ Rm×n eine reelle m × n-Matrix, so ist die Abbildung L : Rn −→ Rm , die definiert ist
durch L(x) := Ax für alle x ∈ Rn , linear, wie man relativ schnell sieht. Bemerkenswerterweise
lassen sich alle linearen Abbildungen zwischen den Räumen Rn und Rm in dieser Weise
beschreiben. Dies ist der Inhalt des folgenden Satzes und erklärt die zentrale Bedeutung von
Matrizen in der Linearen Algebra.
Satz 23.9
Eine Abbildung L : Rn −→ Rm ist genau dann linear, wenn es eine Matrix A ∈ Rm×n gibt, so dass L(x) = Ax für alle x ∈ Rn ist. In diesem Fall heißt A die
Darstellungsmatrix von L (bezüglich der Standardbasen des Rn und Rm ).
Die Matrixmultiplikation ist gerade so eingeführt worden, dass die Multiplikation zweier
Matrizen der Komposition der durch sie vermittelten linearen Abbildungen entspricht. Etwas
präziser:
Korollar 23.10
Sind L1 : Rp −→ Rn und L2 : Rn −→ Rm lineare Abbildungen und
sind A1 bzw. A2 die zugehörigen Darstellungsmatrizen bezüglich der Standardbasen des
Rm , Rn und Rp , so ist das Produkt A2 A1 die Darstellungsmatrix der linearen Abbildung
L2 ◦ L1 : Rp −→ Rm .
Aufgrund dieser Interpretation der Matrixmultiplikation ist es nicht verwunderlich, dass
diese assoziativ ist. (Dies kann man auch direkt nachrechnen, was allerdings etwas mühsam
ist). Diese und einige andere Rechenregeln fassen wir im nächsten Satz zusammen.
68
Hier begehen wir strenggenommen einen Bruch mit früheren Konventionen: Bisher hatten wir Elemente
des Rn meist als Zeilenvektoren aufgefasst und in der Form x = (x1 , . . . , xn ) notiert. Wollen wir sie als Spaltenvektoren auffassen, müssten wir strenggenommen x = (x1 , . . . , xn )T schreiben. Wir werden im Folgenden
immer wieder zwischen beiden Notationen wechseln; dies erklärt sich daraus, dass einerseits die Zeilenschreibweise platzsparender ist, andererseits aber aus Sicht der Linearen Algebra die Spaltenschreibweise die
angemessene ist, um Matrizen und Vektoren korrekt zu multiplizieren.
69
In etwas vornehmerer algebraischer Ausdrucksweise: Man hat den Rm×n in kanonischer Weise mit dem
n
(Rm ) = Rm × · · · × Rm zu identifizieren
|
{z
}
.
n−mal
335
Es seien A, A1 , A2 ∈ Rm×n , B, B1 , B2 ∈
Satz 23.11 (Rechenregeln für Matrizen)
Rn×p , C ∈ Rp×q . Dann gilt:
(AB)T = B T AT ,
A(BC) = (AB)C,
A(B1 + B2 ) = AB1 + AB2 ,
(A1 + A2 )B = A1 B + A2 B.
Definition 23.12
Es sei A ∈ Rm×n . Die Maximalzahl linear unabhängiger Zeilen von A
nennt man den Zeilenrang von A. Analog nennt man die Maximalzahl linear unabhängiger
Spalten von A den Spaltenrang von A.
A priori nicht klar, ob ein Zusammenhang zwischen dem Spalten- und dem Zeilenrang einer
Matrix besteht. Das folgende Ergebnis ist daher zunächst relativ überraschend.
Satz 23.13
Es sei A ∈ Rm×n . Dann stimmen der Zeilenrang und der Spaltenrang von A
überein. Man nennt diese Größe kurz den Rang der Matrix A und bezeichnet sie mit rang(A).
Offensichtlich ist rang(A) ≤ min {m, n}. Falls hierin Gleichheit gilt, falls also rang(A) =
min {m, n} ist, so sagt man, dass A vollen Rang hat.
Ein Schwerpunkt der Linearen Algebra liegt auf dem Studium quadratischer Matrizen;
diese sind (im Fall reeller Einträge) die Darstellungsmatrizen sog. Endomorphismen des
Rn , d.h. von linearen Abbildungen L : Rn −→ Rn des Rn in sich. Für solche quadratischen
Matrizen führen wir einige neue Begriffe ein, die für nicht-quadratische Matrizen keinen Sinn
ergeben würden:
Definition 23.14 (Quadratische Matrizen) Es sei n ∈ N und A = (ajk )j,k ∈ Rn×n
eine quadratische n × n-Matrix.
(a) Die Matrix A heißt symmetrisch, falls A = AT gilt, falls also ajk = akj für alle
j, k = 1, . . . , n gilt.
(b) Die Matrix A heißt eine Diagonalmatrix, falls ajk = 0 für alle j, k ∈ {1, . . . , n} mit
j 6= k gilt, falls A also die Gestalt


a11 0 . . . 0
 0 a22 . . . 0 


A =  ..
.. . .
.. 
 .
.
.
. 
0
0 . . . ann
hat. Insbesondere setzt man


0 ... 0
1 . . . 0

.. . . .. 
. .
.
0 0 ... 1
1
0

En :=  ..
.
und nennt En die Einheitsmatrix des Rn .
336
(c) Die Matrix A heißt regulär oder invertierbar, falls die von ihr vermittelte lineare
Abbildung L : Rn −→ Rn , x 7→ Ax bijektiv ist. In diesem Fall existiert eine eindeutig
bestimmte Matrix A−1 ∈ Rn×n , so dass
AA−1 = A−1 A = En
ist. Man bezeichnet A−1 als die Inverse von A; sie ist die Darstellungsmatrix der
Umkehrabbildung L−1 : Rn −→ Rn von L : x 7→ Ax.
(d) Die Matrix A heißt diagonalisierbar, falls es eine reguläre Matrix T ∈ Rn×n gibt, so
dass T −1 AT eine Diagonalmatrix ist.
(e) Eine Zahl λ ∈ C heißt ein Eigenwert von A, falls es einen Vektor v ∈ Cn \ {0} gibt,
so dass
Av = λv
gilt. In diesem Fall heißt v ein Eigenvektor zum Eigenwert λ.
Eine große Rolle für den praktischen Umgang mit quadratischen Matrizen spielen deren
Determinanten:
Satz 23.15
Es sei n ∈ N. Dann gibt es genau eine Abbildung
det : Rn×n −→ R
mit folgenden Eigenschaften:
(1) Es ist det(En ) = 1.
(2) In jeder Spalte ist det linear, d.h. für alle k ∈ {1, . . . , n} und alle v1 , . . . , vn ∈ Rn sind
die Abbildungen
w 7→ det(v1 , . . . , vk−1 , w, vk+1 , . . . , vn )
linear.
(3) Sind A, B ∈ Rn×n und entsteht B aus A durch Vertauschen zweier Spalten, so gilt
det(B) = − det(A).
Aufgrund der Eigenschaften (2) und (3) sagt man auch, dass det : Rn×n −→ R eine alternierende Multilinearform auf Rn×n ist.
Die reelle Zahl det(A) bezeichnet man als die Determinante der Matrix A ∈ Rn×n .
In der Praxis kann man Determinanten z.B. rekursiv berechnen, indem man sie nach einer
Zeile oder Spalte entwickelt. Diese und andere Regeln zum Umgang mit Determinanten fasst
der folgende Satz zusammen:
Satz 23.16
Es seien A, B ∈ Rn×n .
[
(1) Für j, k ∈ {1, . . . , n} sei A(j,k) ∈ R(n−1)×(n−1) die Matrix, die entsteht, wenn man aus
A die j-te Zeile und k-te Spalte streicht. Dann gilt für alle j, k ∈ {1, . . . , n}
det(A) =
n
X
j+µ
(−1)
[
(j,µ)
aj,µ det A
µ=1
n
X
\
=
(−1)µ+k aµ,k det A(µ,k) .
µ=1
337
(2) Es gilt det(A) = det(AT ).
(3) Es gilt det(AB) = det(A) · det(B).
Die folgenden Sätze fassen einige zentrale Resultate der Theorie der quadratischen Matrizen
zusammen:
Satz 23.17
Es sei A ∈ Rn×n eine quadratische Matrix und L : Rn −→ Rn , x 7→ Ax die
von ihr vermittelte lineare Abbildung. Dann sind die folgenden Aussagen äquivalent:
(1) Die Matrix A ist regulär.
(2) Die Abbildung L : Rn −→ Rn ist bijektiv.
(3) Die Abbildung L : Rn −→ Rn ist injektiv (d.h. Kern (L) = {0}).
(4) Die Abbildung L : Rn −→ Rn ist surjektiv (d.h. Bild (L) = Rn ).
(5) 0 ist kein Eigenwert von A.
(6) Alle Zeilen von A sind linear unabhängig.
(7) Alle Spalten von A sind linear unabhängig.
(8) Es ist rang(A) = n.
(9) Es ist det(A) 6= 0.
Satz 23.18
Es sei A ∈ Rn×n eine quadratische Matrix.
(a) Eine Zahl λ ∈ C ist genau dann ein Eigenwert von A, falls λ eine Nullstelle des
charakteristischen Polynoms
χA (t) := det(tEn − A)
von A ist.
(b) A ist genau dann diagonalisierbar, falls es eine Basis {b1 , . . . , bn } des Rn gibt, die aus
Eigenvektoren von A besteht. In diesem Fall gilt mit T := (b1 , . . . , bn )


λ1


..
T −1 AT = 
,
.
λn
wobei die λj die Eigenwerte von A zu den Eigenvektoren bj sind.
Insbesondere gilt: Falls A n verschiedene reelle Eigenwerte hat, so ist A diagonalisierbar.
(c) Falls A symmetrisch ist, so sind alle Eigenwerte von A reell (d.h. χA zerfällt über R in
Linearfaktoren), und A ist diagonalisierbar.
I.Allg. sind quadratische Matrizen jedoch nicht diagonalisierbar. Ein weiteres wichtiges Thema der Linearen Algebra ist die Frage, in welche einfacheren sog. Normalformen nichtdiagonalisierbare quadratische Matrizen transformiert werden können. Diese spielt für unsere
Zwecke freilich eine untergeordnete Rolle, und wir gehen daher hierauf nicht näher ein.
338
23.3
Normierte Räume
Normierte Räume sind spezielle metrische Räume, nämlich Vektorräume, die mit einer Norm,
d.h. einer Art verallgemeinertem Betrag versehen sind.
Definition 23.19
Es sei K = R oder K = C und V ein K-Vektorraum. Eine Abbildung
|| . || : V −→ R heißt eine Norm auf V , falls für alle v, w ∈ V und alle λ ∈ K die folgenden
Aussagen gelten:
(N1) (Positive Definitheit) Es ist kv|| ≥ 0. Genau dann gilt kv|| = 0, wenn v = 0 ist.
(N2) (Homogenität) Es ist kλv|| = |λ| · kv||.
(N3) (Dreiecksungleichung) Es ist kv + w|| ≤ kv|| + kw||.
Das Paar (V, || . ||) oder auch V selbst heißt dann ein normierter Raum, und die nichtnegative reelle Zahl kv|| heißt die Norm des Vektors v ∈ V .
Bemerkung 23.20
Ist (V, || . ||) ein normierter Raum und setzen wir
d(v, w) := ||v − w||
für alle v, w ∈ V,
so genügt die Abbildung d : V × V −→ R offensichtlich allen Eigenschaften einer Metrik.
Jeder normierte Raum wird hierdurch zu einem metrischen Raum gemacht.
Beispiel 23.21
(1) Die in Definition 3.9 eingeführte euklidische Norm ist eine Norm (im obigen Sinne) auf
den Vektorräumen Rn bzw. Cn . Im Folgenden denken wir uns diese Räume stets mit
der euklidischen Norm versehen.
(2) Die Menge
C 0 ([a, b]) := {f : [a, b] −→ R | f stetig}
der auf dem Intervall [a, b] stetigen reellwertigen Funktionen bildet – wie oben erwähnt
– einen R-Vektorraum. Durch
kf k∞ := max {|f (x)| : 0 ≤ x ≤ 1}
für alle f ∈ C 0 ([0; 1])
ist hierauf eine Norm definiert, die sog. Maximumsnorm.
Wie bereits in Bemerkung 11.6 begründet, ist eine Funktionenfolge (fn )n in C 0 ([a, b])
genau dann konvergent bezüglich dieser Norm, wenn sie gleichmäßig konvergiert (im
Sinne von Definition 11.5).
339
In normierten Vektorräumen kann man neben den algebraischen auch analytische Aspekte linearer Abbildungen untersuchen – z.B. die Stetigkeit. Im endlich-dimensionalen Fall
gibt es dabei keine unliebsamen Überraschungen: Lineare Abbildungen zwischen endlichdimensionalen normierten Vektorräumen sind stetig und sogar dehnungsbeschränkt. Dies
werden wir in Abschnitt 24.2 benötigen.
Lemma 23.22 Jede lineare Abbildung L : Rn −→ Rm ist dehnungsbeschränkt und insbesondere gleichmäßig stetig.
Beweis. Es sei A = (ajk )j,k die Matrix der linearen Abbildung L bezüglich der Standardbasen des Rn und des Rm . Sie besteht aus m Zeilen und n Spalten. Mithilfe der CauchySchwarzschen Ungleichung erhalten wir
!2
! n
m
n
m
n
m X
n
X
X
X
X
X
X
2
2
2
2
||L(X)|| =
ajk Xk
≤
ajk ·
Xk = ||X|| ·
a2jk .
j=1
j=1
k=1
k=1
k=1
j=1 k=1
Für alle X ∈ Rn gilt also ||L(X)|| ≤ M · ||X|| mit der nur von L abhängigen Zahl
M=
m X
n
X
!1/2
a2jk
.
j=1 k=1
Weil L linear ist, folgt
||L(X) − L(Y )|| = ||L(X − Y )|| ≤ M · ||X − Y ||
für alle X, Y ∈ Rn .
Somit ist L dehnungsbeschränkt. Gemäß Proposition 13.33 ist L insbesondere gleichmäßig
stetig.
Die Voraussetzung der Endlichdimensionalität in Lemma 23.22 ist wesentlich: Lineare Abbildungen zwischen beliebigen Vektorräumen sind i.Allg. nicht dehnungsbeschränkt und nicht
stetig.
Beispiel 23.23
Es sei X := C 1 ([0; 1]) der Unterraum der stetig differenzierbaren Funktionen auf dem Intervall [0; 1] und Y := C 0 ([0; 1]), beide versehen mit der Maximumsnorm. Dann ist durch D(f ) := f 0 eine lineare Abbildung (nämlich der Ableitungsoperator)
D : X −→ Y definiert, die in 0 nicht stetig (und damit auch nicht dehnungsbeschränkt) ist.
Für die durch
1
fn (x) := · xn
n
definierten Funktionen fn ∈ X gilt nämlich
kfn k∞ =
1
−→ 0
n
(n → ∞),
so dass (fn )n gegen die Nullfunktion f ≡ 0 konvergiert. Jedoch ist D(fn ) = (x 7→ xn−1 ), also
kD(fn )k∞ = 1
für alle n,
so dass (D(fn ))n nicht gegen L(f ) = 0 konvergieren kann.
340
In der Unstetigkeit des Ableitungsoperators D : f 7→ f 0 spiegelt sich natürlich der Umstand
wider, dass die gleichmäßige Konvergenz einer Folge differenzierbarer Funktionen nicht die
gleichmäßige Konvergenz der zugehörigen Folge der Ableitungen nach sich zieht. Hingegen
kann man Satz 19.6 auch so ausdrücken, dass der Integraloperator I : Y −→ X, der definiert
ist durch
Z x
f (t) dt
für alle f ∈ Y und alle x ∈ [0, 1],
(I(f ))(x) :=
0
stetig ist: Die Konvergenz von (fn )n in der Maximumsnorm ||.||∞ hat die Konvergenz von
(I(fn ))n in der Maximumsnorm zur Folge.
Wie wir in Bemerkung 18.7 gesehen haben, sind die Operatoren D und I zwar nicht im
strengen Sinne invers zueinander, aber fast“ invers. Setzt man X0 := {f ∈ X | f (0) = 0},
”
so gilt für die Abbildungen D|X0 : X0 −→ Y und I : Y −→ X0 sogar
I ◦ D|X0 = idX0 ,
D ◦ I = idY .
Damit haben wir ein Beispiel dafür, dass die Umkehrabbildung einer stetigen Abbildung
nicht stetig sein muss. Das Resultat aus Satz 10.14, wonach Umkehrfunktionen reellwertiger stetiger Funktionen auf reellen Intervallen wieder stetig sind, lässt sich also nicht auf
allgemeinere Situationen übertragen.
Definition 23.24
Größe
Gemäß Lemma 23.22 ist für jede lineare Abbildung L : Rn −→ Rm die
(
||L|| := sup
)
||L(x)|| n
x ∈ R \ {0} = sup ||L(x)|| x ∈ Rn , ||x|| = 1
||x|| endlich. Man bezeichnet sie als die Operatornorm von L.
Es ist leicht zu zeigen, dass es sich bei der Operatornorm tatsächlich um eine Norm auf
dem Vektorraum der linearen Abbildungen L : Rn −→ Rm handelt. In Satz 27.5 werden wir
zeigen, dass die Operatornorm einer Matrix A die Wurzel aus dem größten Eigenwert der
symmetrischen Matrix AT A ist.
341
24
Partielle Ableitungen und totale Differenzierbarkeit
Wir erweitern nun den Differentiationskalkül auf Funktionen mehrerer Veränderlicher.
Im letzten Kapitel hatten wir Wege, d.h. Funktionen von einer Variablen mit Werten im Rn
studiert. Bei der Betrachtung ihrer Ableitungen traten keine wirklich neuen Gesichtspunkte
im Vergleich zum eindimensionalen Fall (n = 1) auf; die Differenzierbarkeit eines Weges
konnte man auf die aus Kapitel 14 vertraute Differenzierbarkeit der einzelnen Komponentenfunktionen zurückführen.
Prinzipiell neue Aspekte gibt es jedoch bei der Differenzierbarkeit von Funktionen mit mehrdimensionalen Definitionsbereichen.
24.1
Partielle Differenzierbarkeit und Richtungsableitungen - Auf
der Suche nach dem richtigen“ Differenzierbarkeitsbegriff
”
Die Schul-Definition“ der Ableitung als Grenzwert des Differenzenquotienten lässt sich nicht
”
auf Funktionen von mehreren Variablen übertragen, da im Rn für n ≥ 2 keine Division
erklärt ist. Ein naheliegender Ansatz, die Differenzierbarkeit einer reellwertigen Funktion in
n Variablen zu definieren, besteht darin, diese als Funktion von jeweils nur einer Variablen
und die übrigen n − 1 Variablen als feste Parameter aufzufassen. Dieser Zugang führt auf
den Begriff der partiellen Ableitung.
Definition 24.1 Es seien ein n ∈ N, eine offene Teilmenge U des Rn , ein Punkt ξ =
(ξ1 , . . . , ξn ) ∈ U und eine Funktion f : U −→ R gegeben. Für jedes k = 1, . . . , n nennen wir
die Funktion
xk 7→ f (ξ1 , . . . , ξk−1 , xk , ξk+1 , . . . , ξn )
die k-te partielle Funktion von f zum Punkt ξ. Ihr Definitionsbereich ist die Menge
Uk := {xk ∈ R | (ξ1 , . . . , ξk−1 , xk , ξk+1 , . . . , ξn ) ∈ U } ⊆ R
mit dem inneren Punkt ξk . Falls diese Funktion im Punkt ξk differenzierbar ist, dann heißt
f im Punkt ξ partiell differenzierbar nach der k-ten Variablen, und der Wert der
betreffenden Ableitung heißt die partielle Ableitung von f nach der k-ten Variablen
an der Stelle ξ. Gebräuchliche Notationen für diese partielle Ableitung sind
∂f
(ξ) ,
∂xk
∂f
(x) ,
∂xk
x=ξ
fxk (ξ)
oder
Dk f (ξ).
Wenn f in jedem Punkt ξ ∈ U nach der k-ten Variablen partiell differenzierbar ist, dann
heißt f auf U partiell differenzierbar nach der k-ten Variablen. partielle Ableitung
∂f
ist dann eine reellwertige Funktion auf U .
∂xk
Falls f für alle k = 1 . . . , n auf U partiell differenzierbar nach der k-ten Variablen ist, so
heißt f auf U partiell differenzierbar.
342
Bemerkung 24.2
In der Situation der voranstehenden Definition gilt (im Falle der Existenz der partiellen Ableitung)
f (ξ1 , . . . , ξk−1 , xk , ξk+1 , . . . , ξn ) − f (ξ)
f (ξ + hek ) − f (ξ)
∂f
(ξ) = lim
= lim
,
xk →ξk
h→0
∂xk
xk − ξk
h
worin h nur reelle Zahlen als Werte annehmen darf.
Beispiel 24.3
Es sei f : R2 −→ R definiert durch
1 , falls x 6∈ Q und y 6∈ Q ,
f (x, y) :=
0 , falls x ∈ Q oder y ∈ Q .
Auf den Koordinatenachsen ist f konstant 0. Deshalb existieren die partiellen Ableitungen
∂f
∂f
(0, 0) =
(0, 0) = 0.
∂x
∂y
Aber f nimmt in jeder Umgebung des Nullpunkts die Werte 0 und 1 an, und daher ist f
unstetig im Nullpunkt.
Die Beobachtung in diesem Beispiel kann verallgemeinert werden: In die Definition der partiellen Ableitungen einer Funktion f in einem Punkt ξ gehen nur die Werte von f auf
denjenigen Geraden durch ξ ein, die zu den Koordinatenachsen parallel sind, und nur das
Verhalten von f auf diesen Geraden in der Nähe von ξ entscheidet über die Existenz der
partiellen Ableitungen. Ansonsten darf sich f in der Nähe von ξ völlig willkürlich verhalten.
Dies ist nun so ganz und gar nicht das Verhalten, das man sich von einer differenzierbaren
Funktion erwarten würde. Es scheint also, dass die partielle Differenzierbarkeit nicht ganz
der angemessene Differenzierbarkeitsbegriff für Funktionen mehrerer Variabler ist.
Nun ist freilich zu bedenken, dass es im Falle n ≥ 2 durch einen Punkt ξ ∈ Rn sehr viel mehr
Geraden gibt als die zu den Koordinatenachsen parallelen. Für jede solche Gerade können
wir ein Analogon zur partiellen Ableitung bilden (die sog. Richtungsableitungen von f im
Punkt ξ). Vielleicht sollten wir mehrdimensionale Differenzierbarkeit über die Existenz der
Richtungsableitungen in beliebige Richtungen erklären?
Definition 24.4
Jeder Vektor v ∈ Rn mit ||v|| = 1 heißt eine Richtung.
Es sei U eine offene Teilmenge des Rn , ξ ∈ U und v eine Richtung in Rn . Eine Funktion
f : U −→ R heißt im Punkt ξ in der Richtung v differenzierbar, falls der Grenzwert
f (ξ + hv) − f (ξ)
∂f
(ξ) := lim
h→0
∂v
h
existiert. (Auch hier darf h nur reelle Zahlen als Werte annehmen.) Dieser Grenzwert heißt
die Richtungsableitung von f im Punkt ξ in der Richtung v.
Spezielle Richtungen sind die Vektoren e1 , . . . , en der Standardbasis des Rn . Daher sind die
partiellen Ableitungen
∂f
∂f
(ξ) =
(ξ)
∂xk
∂ek
spezielle Richtungsableitungen.
343
0
0
1
1
0
0
Abbildung 68:
Beispiel 24.5
Wir definieren die Funktion f : R2 −→ R durch
f (x, y) =
0 , falls y ≤ 0 oder y ≥ x2 ,
1 , falls 0 < y < x2 .
Offensichtlich ist f im Nullpunkt ξ = (0, 0) unstetig. Es sei eine Richtung v in R2 gegeben.
Im Falle v = ±e1 und im Falle v = ±e2 ist f auf der Geraden durch ξ mit der Richtung v
konstant 0. Anderenfalls treffen sich die Parabel mit der Gleichung y = x2 und die Gerade
durch ξ mit der Richtung v in einem gewissen Punkt (x0 , x20 ) mit x0 6= 0, und daher gibt es
eine Zahl ε > 0 mit
f (hv) = 0
für alle
h ∈ ] − ε, ε[ .
Somit existiert für alle Richtungen v die Richtungsableitung
∂f
(0, 0) = 0.
∂v
Dieses Beispiel beraubt uns der Illusion, mit der Einführung der Richtungsableitung die
Frage nach dem richtigen“ Differenzierbarkeitsbegriff im Mehrdimensionalen beantwortet
”
zu haben. So werden wir von einer differenzierbaren Funktion wie im Eindimensionalen (vgl.
Satz 14.3 (b)) erwarten, dass sie zumindest auch stetig ist. Beispiel 24.5 zeigt jedoch, dass
auch die Existenz sämtlicher Richtungsableitungen noch keine Stetigkeit in dem betreffenden
Punkt gewährleistet.
Diese entmutigenden Erfahrungen vermitteln den Eindruck, als ob wir bei unserer Suche
nach einer sinnvollen Definition der Differenzierbarkeit im Mehrdimensionalen eine falsche
Fährte verfolgten. Im nächsten Abschnitt 24.2 werden wir die richtigen“ Definitionen der
”
Differenzierbarkeit und der Ableitung angeben. Anschließend zeigen wir in Abschnitt 24.3,
dass die partiellen Ableitungen doch sehr eng mit der Differenzierbarkeit verbunden sind.
344
24.2
Totale Differenzierbarkeit
Die entscheidende Idee, wie man mehrdimensionale Differenzierbarkeit definieren sollte,
erhält man, indem man die Beobachtung aus Satz 14.3 (a) verallgemeinert, wonach eine
Funktion in einem Punkt genau dann differenzierbar ist, wenn sie dort lokal linear approximierbar ist.
Erinnerung: Differenzierbarkeit als lokale lineare Approximierbarkeit
Aus Satz 14.3 (a) ist bekannt: Eine Funktion f : I −→ R auf einem offenen Intervall I ⊆ R
ist genau dann differenzierbar in ξ ∈ I, falls es eine Funktion r : I −→ R gibt, die in ξ stetig
ist mit r(ξ) = 0, so dass
f (x) = f (ξ) + f 0 (ξ) · (x − ξ) + r(x) · (x − ξ)
für alle x ∈ I
gilt.
Anschaulich: In diesem Fall wird f nahe“ bei ξ in guter Näherung“ durch die lineare
”
”
(genauer: affine) Funktion
x 7→ f (ξ) + f 0 (ξ) · (x − ξ)
beschrieben. Deren Graph ist dann die Tangente an den Graphen von f im Punkt (ξ, f (ξ)).
Der richtige“ Ansatz ist es also, die Ableitung in einem Punkt als Linearisierung der
”
Funktion in diesem Punkt zu betrachten. Tatsächlich ist die lokale lineare Approximierbarkeit
das eigentliche Wesen der Differenzierbarkeit.
Wir formulieren die Definition allgemein für vektorwertige und nicht nur reellwertige Funktionen. Fortan verwenden wir für eine Funktion f : U −→ Rm stets die Notation
f = (f1 , . . . , fm )T ,
bezeichnen die Komponentenfunktionen von f also mit fj .
Definition 24.6 Es sei U eine offene Teilmenge des Rn und ξ ∈ U . Eine Funktion f :
U −→ Rm heißt (total) differenzierbar in ξ, falls es eine lineare Abbildung
L : Rn −→ Rm
und eine Funktion r : U −→ Rm gibt, so dass
f (X) = f (ξ) + L(X − ξ) + r(X)
für alle
X∈U
und
r(X)
=0
X→ξ ||X − ξ||
gilt. In diesem Fall heißt L die Ableitung oder das (totale) Differential von f im Punkt
ξ. Gebräuchliche Notationen für L sind
lim
Df (ξ),
Df (ξ),
D1 f (ξ),
f 0 (ξ)
oder
df (ξ).
Wir werden vorwiegend die Bezeichnung Df (ξ) verwenden. Die Bedingung für Differenzierbarkeit lautet dann
r(X)
f (X) = f (ξ) + (Df (ξ))(X − ξ) + r(X)
mit
lim
= 0.
X→ξ ||X − ξ||
Die Funktion f heißt differenzierbar, falls sie in jedem Punkt ξ ∈ U differenzierbar ist.
345
Bemerkung 24.7
(1) Veranschaulichung: Tangentialhyperebenen
Für Abbildungen f : U −→ R mit U ⊆ Rn bedeutet die (totale) Differenzierbarkeit (d.h. die lokale lineare Approximierbarkeit) in geometrischer Ausdrucksweise, dass
eine Tangentialhyperebene an den Graphen existiert (vgl. Abbildung 69). Wirklich
anschaulich ist dies freilich nur für n = 2.
z
f (ξ)
y
ξ
x
Abbildung 69: Tangentialhyperebene (n = 2, m = 1)
(2) Zur Rechtfertigung der Definition der Ableitung ist zu zeigen, dass die lineare Abbildung L = Df (ξ) eindeutig bestimmt ist. Dazu nehmen wir an, es seien L1 und L2 zwei
lineare Abbildungen des Rn in den Rm , die beide die Bedingungen in der Definition
erfüllen. Dann ist l := L1 − L2 eine lineare Abbildung des Rn in den Rm mit der
Eigenschaft
l(Y )
l(X − ξ)
= 0,
d.h.
lim
=0
lim
Y →0 ||Y ||
X→ξ ||X − ξ||
Für jeden Vektor Y 6= 0 in Rn ist ν1 Y ν≥1 eine Nullfolge, und wegen der Linearität
von l folgt
l( 1 Y )
l(Y )
0 = lim 1ν =
.
ν→∞
||Y ||
Y
ν
Hieraus folgt l(Y ) = 0 für alle Y ∈ Rn , also l = 0. Somit ist L1 = L2 , was zu zeigen
war.
(3) Im Spezialfall n = m = 1 ist L(X) = cX mit einem c ∈ R, und die Bedingung der
Differenzierbarkeit lautet
r(X)
f (X) = f (ξ) + c(X − ξ) + r(X)
mit
lim
= 0,
X→ξ |X − ξ|
346
in Übereinstimmung mit der aus dem Eindimensionalen bekannten Situation (Satz
14.3 (a)). Die Zahl c = f 0 (ξ) ist die Ableitung der Funktion f an der Stelle ξ.
Im Sinne der neuen allgemeineren Definition ist jedoch die Abbildung X 7→ cX (und
nicht die Zahl c) die Ableitung von f an der Stelle ξ.
(4) Man beachte, dass es im Mehrdimensionalen nicht möglich ist, die Ableitung in der
aus der eindimensionalen Analysis vertrauten Weise als Grenzwert eines Differenzenquotienten zu schreiben - weil keine Division durch Vektoren im Rn erklärt ist.
(5) Offensichtlich ist eine Funktion genau dann differenzierbar, wenn ihre sämtlichen Komponentenfunktionen differenzierbar sind.
Unser neuer Differenzierbarkeitsbegriff genügt - anders als die partielle Differenzierbarkeit
oder die Existenz von Richtungsableitungen - dem Erfordernis, Stetigkeit nach sich zu ziehen. Der Beweis dieser Tatsache ist einfach und beruht im Wesentlichen auf der Dehnungsbeschränktheit linearer Abbildungen zwischen endlichdimensionalen Räumen.
Satz 24.8
Es sei U ⊆ Rn offen, und die Funktion f : U −→ Rm sei im Punkt ξ ∈ U
total differenzierbar. Dann ist f stetig in ξ.
Beweis. Für alle X ∈ U gilt
f (X) = f (ξ) + L(X − ξ) + r(X)
mit
L = Df (ξ)
und
r(X)
= 0.
X→ξ ||X − ξ||
lim
Insbesondere ist auch limX→ξ r(X) = 0. Weil L als lineare Abbildung zwischen endlichdimensionalen Räumen stetig ist (Lemma 23.22) und L(0) = 0 gilt, folgt
lim f (X) = f (ξ).
X→ξ
Also ist f stetig im Punkt ξ (Satz 9.18 (3)).
24.3
Die Ableitung und die Jacobi-Matrix
Lineare Abbildungen zwischen endlichdimensionalen Vektorräumen werden (nach Vorgabe
geeigneter Basen) bekanntlich durch Matrizen beschrieben. Es stellt sich die Frage, ob man
etwas über die Darstellungsmatrix der im letzten Abschnitt erklärten Ableitung aussagen
kann. Die Antwort ist so einfach wie verblüffend: Die Einträge in der Darstellungsmatrix
der Ableitung einer total differenzierbaren Funktion (bzgl. der Standardbasen) sind gerade
die partiellen Ableitungen der Komponenten dieser Funktion. Insbesondere sind die Komponentenfunktionen einer total differenzierbaren Funktion also nach allen Variablen partiell
differenzierbar.
Im Folgenden bezeichnen wir die Darstellungsmatrix einer linearen Abbildung L : Rn −→ Rm
bezüglich der Standardbasen mit [L]. Für einen Spaltenvektor X = (X1 , . . . , Xn )T in Rn ist
dann L(X) = [L] · X.
347
Satz 24.9
Es sei U ⊆ Rn offen. Die Funktion f : U −→ Rm sei in ξ ∈ U differenzierbar.
∂fk
Dann existieren sämtliche partiellen Ableitungen ∂x
, und die Matrix der Ableitung Df (ξ)
j
n
m
bezüglich der Standardbasen des R und des R ist

 ∂f1
∂f1
∂f1
(ξ)
(ξ)
.
.
.
(ξ)
∂x1
∂x2
∂xn



 ∂f2
∂f2
∂f2

 ∂x (ξ) ∂x
(ξ)
.
.
.
(ξ)
∂x
n
2

 1
[Df (ξ)] = 
.


..
..
..


.
.
.


∂fm
∂fm
∂fm
(ξ) ∂x2 (ξ) . . . ∂xn (ξ)
∂x1
Beweis. Es sei A = (ajk )j,k := [Df (ξ)] die Darstellungsmatrix von Df (ξ) bezüglich der
Standardbasen. Nach Definition der Differenzierbarkeit gibt es eine Funktion r : U −→ Rn ,
so dass
f (X) = f (ξ) + A · (X − ξ) + r(X)
für alle X ∈ U
und
lim
X→ξ
r(X)
=0
||X − ξ||
gilt.
Es seien ein j ∈ {1, . . . , m} und ein k ∈ {1, . . . , n} gegeben. Man betrachtet X := ξ + t · ek
und erhält
f (ξ + tek ) = f (ξ) + t · Aek + r(ξ + tek ),
also
rj (ξ + tek )
fj (ξ + tek ) − fj (ξ)
= ajk +
t
t
für alle t in einer Umgebung von 0. Hierbei ist
rj (ξ + tek )
= 0.
t→0
t
lim
Damit folgt die Existenz von
fj (ξ + tek ) − fj (ξ)
= ajk .
t→0
t
lim
Dieser Grenzwert ist definitionsgemäß die partielle Ableitung
und es gilt
∂fj
(ξ) = ajk .
∂xk
∂fj
(ξ).
∂xk
Diese existiert also,
Definition 24.10 Die Matrix [Df (ξ)] in Satz 24.9 heißt die Funktionalmatrix oder die
Jacobi-Matrix70 von f an der Stelle ξ. Gebräuchliche Notationen sind


∂f1
∂f1
.
.
.
∂xn
 ∂x1

∂fj
∂(f1 , . . . , fm )
 ..
.. 
[Df (ξ)] = Jf (ξ) =  .
(ξ)
=
.
.  (ξ) =
∂xk
∂(x1 , . . . , xn ) ξ


j,k
∂fm
m
. . . ∂f
∂x1
∂xn
70
nach C. G. Jacobi (1804 - 1851).
348
Wenn f durch analytische Formeln definiert ist, dann sind die partiellen Ableitungen und
damit die Funktionalmatrix meistens leicht“ zu berechnen. Kann man aber daraus schon
”
auf totale Differenzierbarkeit schließen? Dass dies i. Allg. nicht möglich ist, wissen wir aus
den Beispielen 24.3 und 24.5.
In der Praxis kann man aber doch sehr häufig schon aus den partiellen Ableitungen ablesen,
dass eine Funktion total differenzierbar in einem Punkt ξ ist - nämlich dann, wenn die
partiellen Ableitungen in einer Umgebung von ξ existieren und im Punkt ξ stetig sind:
Satz 24.11
Es seien eine offene Menge U ⊆ Rn , ein Punkt ξ ∈ U und eine Funktion
f : U −→ Rm gegeben. Für alle j = 1, . . . , m, alle k = 1, . . . , n und für alle x in einer
e ⊆ U von ξ mögen die partiellen Ableitungen
gewissen Umgebung U
∂fj
(x)
∂xk
existieren, und diese partiellen Ableitungen seien im Punkt ξ stetig. Dann ist f im Punkt ξ
total differenzierbar.
Beweis. Die Funktion f ist im Punkt ξ genau dann differenzierbar, wenn dort die sämtlichen
Komponentenfunktionen f1 , . . . , fm differenzierbar sind. Deshalb dürfen wir o.B.d.A. m = 1
annehmen.
Wir führen den Beweis mittels Induktion über n. Für n = 1 ist die Behauptung offensichtlich
richtig. (Für Funktionen einer Variabler fallen partielle und totale Differenzierbarkeit zusammen.) Es sei n ≥ 2, und die Behauptung sei für alle Funktionen f mit den entsprechenden
Eigenschaften für n − 1 anstelle von n gültig.
Als Ableitung von f im Punkt ξ kommt nach Satz 24.9 nur die Multiplikation mit dem
(Zeilen-)Vektor Jf (ξ) in Frage. (Man beachte, dass m = 1.) Wir setzen daher
Jf (ξ) = (a1 , . . . , an )
mit
ak =
∂f
(ξ)
∂xk
und erklären die lineare Abbildung L : Rn −→ R durch
L(X) := Jf (ξ) · X = a1 X1 + . . . + an Xn
für alle X = (X1 , . . . , Xn )T .
Wir definieren eine Funktion r : U −→ R mittels
r(X) := f (X) − f (ξ) − L(X − ξ)
für alle X ∈ U.
Die Funktion f ist im Punkt ξ genau dann differenzierbar, wenn
lim
X→ξ
r(X)
=0
||X − ξ||
ist. Das ist also die Behauptung, die wir beweisen müssen.
Wir schreiben im Folgenden
ξ = (ξ 0 , ξn ), X = (X 0 , Xn )
mit
ξ 0 , X 0 ∈ Rn−1
349
und
ξn , Xn ∈ R.
R
X
Xn
ξn
ξ
(X 0 , ξn )
ξ0
Rn−1
X0
Abbildung 70: Zum Beweis von Satz 24.11
∂f
in ξ gibt es dazu ein δ1 > 0 mit
Es sei ein ε > 0 gegeben. Wegen der Stetigkeit von ∂x
n
e und
Uδ1 (ξ) ⊆ U
∂f
ε
<
(X)
−
a
für alle X ∈ Uδ1 (ξ).
n
∂xn
2
Auf die Funktion X 0 7→ f (X 0 , ξn ) ist die Induktionsvoraussetzung anwendbar. Diese ist also
im Punkt ξ 0 total differenzierbar; ihre Ableitung ist nach Satz 24.9 die lineare Abbildung
X 0 7→ a1 X1 + · · · + an−1 Xn−1 .
Daher gibt es ein δ2 > 0, so dass für alle X 0 ∈ Rn−1 mit ||X 0 − ξ 0 || < δ2 die Ungleichung
n−1
ε
X
ak (Xk − ξk ) < · ||X 0 − ξ 0 ||
f (X 0 , ξn ) − f (ξ) −
2
k=1
erfüllt ist.
Nun sei δ := min{δ1 , δ2 } > 0. Es sei ein X ∈ Rn mit ||X − ξ|| < δ gegeben. Dann folgt
n
X
|r(X)| = f (X) − f (ξ) −
ak (Xk − ξk )
k=1
n−1
X
≤ f (X) − f (X 0 , ξn ) − an (Xn − ξn ) + f (X 0 , ξn ) − f (ξ) −
ak (Xk − ξk ) .
k=1
Im ersten Betrag sind in f (X) und f (X 0 , ξn ) die ersten n − 1 Variablen X 0 fest, und wegen
e existiert die partielle Ableitung ∂f (X 0 , t) für alle t zwischen ξn und Xn . Wir
X ∈ Uδ (ξ) ⊆ U
∂xn
350
können daher den Mittelwertsatz der Differentialrechnung (Satz 15.8) anwenden. Danach
gibt es ein (von X abhängiges) τ zwischen ξn und Xn mit
f (X) − f (X 0 , ξn ) =
∂f
(X 0 , τ ) · (Xn − ξn ) .
∂xn
Damit erhält man
∂f
ε
0
|r(X)| ≤ (X , τ ) − an · |Xn − ξn | + · ||X 0 − ξ 0 ||
∂xn
2
ε
ε
0
0
≤
· |Xn − ξn | + · ||X − ξ || ≤ ε · ||X − ξ||.
2
2
Damit ist gezeigt, dass es für jedes ε > 0 ein δ > 0 gibt, so dass
|r(X)|
<ε
||X − ξ||
für alle X ∈ Uδ (ξ).
Dies bedeutet gerade
lim
X→ξ
r(X)
= 0.
||X − ξ||
Damit ist der Induktionsschluss beendet.
Das Ergebnis in Satz 24.11 gibt Anlass, den Begriff der stetigen Differenzierbarkeit zu erklären:
Definition 24.12 Es sei f = (f1 , . . . , fm ) : U −→ Rm eine Funktion auf einer offenen
Menge U ⊆ Rn . Die Funktion f heißt stetig differenzierbar, falls für alle j und k die
partiellen Ableitungen
∂fj
(x)
∂xk
in allen Punkten x ∈ U existieren und stetige Funktionen auf U sind.
Zusammenfassung: Wir können die Ergebnisse der Sätze 24.8, 24.9 und 24.11 kurz wie
folgt zusammenstellen:
partiell differenzierbar mit stetigen partiellen Ableitungen
w
w

total differenzierbar
w
w

=⇒
stetig
partiell differenzierbar
Die Umkehrungen dieser Implikationen gelten i. Allg. nicht, wie obige Beispiele (bzw. für
die obere und die rechte Implikation bekannte Beispiele aus der eindimensionalen Analysis)
zeigen.
351
24.4
Rechenregeln für Ableitungen
Die Übertragung der aus der eindimensionalen Analysis bekannten Differentiationsregeln auf
Funktionen von mehreren Variablen gestaltet sich unterschiedlich schwierig. Wir beginnen
mit den relativ leicht beweisbaren Regeln wie Produkt- und Kettenregel. Der Satz über die
Ableitung der Umkehrfunktion wird erst in Kapitel 26 verallgemeinert. Denn der Begriff
der Monotonie ist in mehreren Variablen nicht verfügbar, und daher sind neue Konzepte zu
entwickeln.
Satz 24.13
Es sei U eine offene Teilmenge des Rn . Die Funktionen f : U −→ R und
g : U −→ R seien im Punkt ξ ∈ U differenzierbar. Dann gelten die folgenden Aussagen.
(1) Die Funktion f + g ist im Punkt ξ differenzierbar. Ihre Ableitung ist
D(f + g)(ξ) = Df (ξ) + Dg(ξ).
(2) Für jede reelle Zahl c ist die Funktion cf im Punkt ξ differenzierbar mit der Ableitung
D(cf )(ξ) = c · Df (ξ).
(3) (Produktregel) Die Funktion f · g ist im Punkt ξ differenzierbar. Ihre Ableitung ist
D(f · g)(ξ) = f (ξ) · Dg(ξ) + g(ξ) · Df (ξ).
(4) Wenn f in einer Umgebung von ξ konstant ist, dann ist Df (ξ) = 0.
(5) Jede lineare Abbildung L : Rn −→ Rm ist differenzierbar, und es gilt
DL(ξ) = L
für alle
ξ ∈ Rn .
Die Formeln in (1) und (2) gelten auch für Funktionen mit Werten in Rm .
Beweis. Zur Abkürzung setzen wir L1 := Df (ξ) und L2 := Dg(ξ). Aufgrund von Definition 24.6 gilt
f (ξ + X) = f (ξ) + L1 (X) + r1 (X),
g(ξ + X) = g(ξ) + L2 (X) + r2 (X)
für alle X in einer Umgebung des Nullpunkts in Rn , wobei r1 und r2 Funktionen mit
lim
X→0
r2 (X)
r1 (X)
= lim
=0
X→0 ||X||
||X||
sind. Mit L := L1 + L2 und r := r1 + r2 folgt dann
(f + g)(ξ + X) = (f + g)(ξ) + L(X) + r(X)
und
lim
X→0
r(X)
= 0.
||X||
Das beweist (1). Den einfachen Beweis von (2) übergehen wir. Die Übertragung von (1) und
(2) auf Funktionen f : U −→ Rm macht keine Mühe.
Für das Produkt f · g erhalten wir
(f · g)(ξ + X) = (f · g)(ξ) + f (ξ) · L2 (X) + g(ξ) · L1 (X) + R(X)
352
mit
R(X) := f (ξ) · r2 (X) + g(ξ) · r1 (X) + L1 (X) · r2 (X) + L2 (X) · r1 (X)
+L1 (X) · L2 (X) + r1 (X) · r2 (X).
Die Formel für das Restglied R(X) sieht zwar kompliziert aus, es ist aber leicht zu erkennen,
dass
R(X)
lim
=0
X→0 ||X||
gilt; wesentlich hierbei ist die Dehnungsbeschränktheit linearer Abbildungen zwischen endlichdimensionalen Räumen (Lemma 23.22). Daraus folgt (3).
Die Behauptung (4) ist klar.
Ist L : Rn −→ Rm linear, dann gilt für alle ξ und alle X in Rn
L(ξ + X) = L(ξ) + L(X) + r(X)
mit r := 0, und daher ist DL(ξ) = L für alle ξ ∈ Rn . Damit ist (5) bewiesen.
Satz 24.14 (Kettenregel)
Es seien U eine offene Menge in Rp und V eine offene Menge
in Rn . Die Funktion f : U −→ V sei im Punkt ξ ∈ U differenzierbar, und g : V −→ Rm
sei im Punkt η = f (ξ) differenzierbar. Dann ist die Funktion g ◦ f : U −→ Rm im Punkt ξ
differenzierbar, und die Ableitung ist
D(g ◦ f )(ξ) = Dg(f (ξ)) ◦ Df (ξ).
Für die Jacobi-Matrizen und für die partiellen Ableitungen gilt
Jg◦f (ξ) = Jg (η) · Jf (ξ)
und
n
X ∂gj
∂fk
∂(g ◦ f )j
(ξ) =
(η) ·
(ξ)
∂xl
∂yk
∂xl
k=1
für 1 ≤ j ≤ m, 1 ≤ l ≤ p.
Beweis. Wir setzen L1 := Df (ξ) und L2 := Dg(η). Dann gilt
f (ξ + X) − f (ξ) = L1 (X) + r1 (X),
g(η + Y ) − g(η) = L2 (Y ) + r2 (Y ),
worin r1 und r2 Funktionen auf gewissen Umgebungen der Nullpunkte in Rp beziehungsweise
Rn sind, die
r1 (X)
r2 (Y )
lim
= 0,
lim
=0
X→0 ||X||
Y →0 ||Y ||
erfüllen. Es folgt
(g ◦ f )(ξ + X) − (g ◦ f )(ξ) = g η + L1 (X) + r1 (X) − g(η)
= L2 (L1 (X) + r1 (X)) + r2 (L1 (X) + r1 (X))
= (L2 ◦ L1 )(X) + L2 (r1 (X)) + r2 (L1 (X) + r1 (X)) .
353
Da lineare Abbildungen zwischen endlichdimensionalen Räumen dehnungsbeschränkt sind
(Lemma 23.22), ist
L2 (r1 (X))
lim
= 0.
X→0
||X||
Ferner gilt mit einer gewissen Konstanten c > 0
||L1 (X) + r1 (X)|| ≤ c · ||X||
für alle X in einer Umgebung von 0 in Rp , und daher ist
lim
X→0
r2 (L1 (X) + r1 (X))
= 0.
||X||
Folglich ist g ◦ f im Punkt ξ differenzierbar, und die Ableitung ist
D(g ◦ f )(ξ) = L2 ◦ L1 = Dg(f (ξ)) ◦ Df (ξ).
Beim Übergang zu den Funktionalmatrizen ist nur zu beachten, dass die Darstellungsmatrix
Jg◦f (ξ) = [L2 ◦L1 ] der Komposition zweier linearer Abbildungen gleich dem Produkt [L2 ]·[L1 ]
der Darstellungsmatrizen der beiden Abbildungen ist (Korollar 23.10).
Die Definition des Matrizenprodukts ergibt die Formel für die partiellen Ableitungen.
24.5
Der Gradient
Ein wichtiger Spezialfall in Satz 24.9 ist m = 1, d.h. der Fall von reellwertigem f . In diesem
Fall ist die Jacobi-Matrix ein Zeilenvektor. Er hat einen besonderen Namen:
Definition 24.15 Es sei U ⊆ Rn offen, und die Funktion f : U −→ R sei im Punkt ξ ∈ U
differenzierbar. Die Jacobi-Matrix
∂f
∂f
∂f
Jf (ξ) =
(ξ),
(ξ), . . . ,
(ξ)
∂x1
∂x2
∂xn
heißt der Gradient von f im Punkt ξ. Gebräuchliche Notationen für den Gradienten sind
grad f (ξ)
und
∇f (ξ) .
Das Symbol ∇ wird Nabla“ gelesen.
”
Bemerkung 24.16 (Einige Spitzfindigkeiten)
Zunächst ist - wie schon oben - zu unterscheiden zwischen
• der Ableitung Df (ξ); sie ist eine lineare Abbildung Rn −→ R, d.h. eine Linearform auf
dem Rn
• und dem Gradienten grad f (ξ), einem Zeilenvektor; dieser ist die Darstellungsmatrix
der linearen Abbildung Df (ξ) bezüglich der Standardbasen.
354
Durch Df (ξ) wird einem (Spalten-)Vektor X = (X1 , . . . , Xn )T die reelle Zahl
n
X
∂f
(Df (ξ))(X) = grad f (ξ) · X =
(ξ) · Xk
∂xk
k=1
zugeordnet, also das Matrizenprodukt der Zeile grad f (ξ) mit der Spalte X. Dieses Produkt
kann man auch als Skalarprodukt lesen; deshalb schreibt man auch
(Df (ξ))(X) = hgrad f (ξ), Xi.
Strenggenommen ist dies nicht ganz korrekt: Das Skalarprodukt ist ja eine Abbildung Rn ×
Rn −→ R, die also je zwei (Spalten-)Vektoren in Rn eine reelle Zahl zuordnet. Hingegen
repräsentiert der Gradient keinen Vektor im Rn , sondern eine Linearform auf dem Rn . Man
verwechselt hier also den Zeilenvektor grad f (ξ) mit dem Spaltenvektor (grad f (ξ))T .
In der Literatur wird gelegentlich auch ∇f (ξ) := (grad f (ξ))T gesetzt, oder es wird sogar
der Gradient selbst als Spaltenvektor definiert.
Aus der Differenzierbarkeit folgt nicht nur die partielle Differenzierbarkeit, sondern auch
die Existenz sämtlicher Richtungsableitungen. Sie lassen sich mithilfe des Gradienten ausdrücken.
Satz 24.17
Es sei U ⊆ Rn offen und ξ ∈ U . Die Funktion f : U −→ R sei im Punkt ξ
differenzierbar. Dann besitzt f in jeder Richtung v eine Richtungsableitung, und diese ist
∂f
(ξ) = hgrad f (ξ), vi .
∂v
Beweis. Es sei v ∈ Rn eine Richtung, also ||v|| = 1. Für alle reellen Zahlen h mit genügend
kleinem Betrag gilt dann nach Definition der Differenzierbarkeit und nach Satz 24.9 die
Gleichung
f (ξ + hv) − f (ξ) = Df (ξ)(hv) + r(ξ + hv)
= h · hgrad f (ξ), vi + r(ξ + hv) ,
wobei r : U −→ R eine Funktion mit der Eigenschaft
r(ξ + hv)
r(ξ + hv)
= lim
=0
h→0
h→0
|h|
||hv||
lim
ist. Hieraus folgt die Existenz des Grenzwerts
∂f
f (ξ + hv) − f (ξ)
r(ξ + hv)
(ξ) = lim
= hgrad f (ξ), vi + lim
= hgrad f (ξ), vi .
h→0
h→0
∂v
h
h
355
Im Fall grad f (ξ) 6= 0 hat das Skalarprodukt in Satz 24.17 seinen maximalen Wert, wenn
v=
grad f (ξ)
||grad f (ξ)||
ist. Der Gradient zeigt also in die Richtung des steilsten Anstiegs der Funktion f im Punkt ξ.
Interessant sind auch die Richtungen v, für die die Richtungsableitung ∂f
(ξ) verschwin∂v
det. Es sind dies die Richtungen, die senkrecht zum Gradienten stehen. Diese Beobachtung
ermöglicht uns eine weitere geometrische Deutung des Gradienten. Hierfür müssen wir aber
zunächst (im nächsten Abschnitt) den Begriff der Niveaumenge einführen.
Vorher aber beweisen wir noch zwei zum eindimensionalen“ Mittelwertsatz analoge Aussa”
gen für Funktionen mehrerer Variabler. Der Beweis beruht auf dem gewöhnlichen Mittelwertsatz und der mehrdimensionalen Kettenregel. Zu beachten ist, dass wir mehrdimensionale
Versionen des Mittelwertsatzes quotientenfrei“ formulieren müssen.
”
Satz 24.18 (Verallgemeinerter Mittelwertsatz)
Es sei f : U −→ R eine differenn
zierbare Funktion auf einer offenen Menge U ⊆ R . Es seien p, q ∈ U , und die Verbindungsstrecke S = {p + t · (q − p) | 0 ≤ t ≤ 1} dieser beiden Punkte sei in U enthalten. Dann gibt
es einen Punkt ξ ∈ S mit
f (q) − f (p) = hgrad f (ξ) , q − p i.
Beweis. Übungen, Aufgabe 5.4
Beispiel 24.19
In Satz 24.18 ist es wesentlich, dass f reellwertig ist. Eine analoge Aussage für Funktionen f : U −→ Rm mit m ≥ 2 gilt nicht. Das wird durch das folgende Beispiel
belegt: Es sei U = R, p = 0, q = 2π, m = 2 und
f (t) = (cos t, sin t)T .
Dann ist f (q) − f (p) der Nullvektor, aber die Jacobi-Matrix
Jf (t) = (− sin t, cos t)T
ist nirgends Null. Es gibt daher kein θ mit f (q) − f (p) = Jf (θ) · (q − p).
Es gibt jedoch eine auch für m ≥ 2 gültige Abschätzung für die Norm ||f (q) − f (p)||; diese
wird sich im Beweis des Satzes über lokale Umkehrbarkeit (Satz 26.4) als nützlich erweisen.
Darin tritt die aus Definition 23.24 bekannte Operatornorm linearer Abbildungen auf.
Satz 24.20 (Schrankensatz)
Es sei f : U −→ Rm eine differenzierbare Funktion auf
n
einer offenen Menge U ⊆ R . Es sei p, q ∈ U , und die Verbindungsstrecke S = {p + t · (q −
p) | 0 ≤ t ≤ 1} dieser beiden Punkte sei in U enthalten. Es gebe eine Zahl M > 0, so dass
||Df (x)|| ≤ M
für alle
Dann gilt ||f (q) − f (p)|| ≤ M · ||q − p||.
356
x ∈ S.
Beweis. Wir setzen c = f (q) − f (p). Für c = 0 ist die Behauptung klar. Es sei also c 6= 0.
Wir definieren Funktionen ϕ : Rm −→ R und g : U −→ R durch
ϕ(y) := hc, yi ,
g(x) := (ϕ ◦ f )(x) = hc, f (x)i.
Die Abbildung ϕ ist linear, und ihre Operatornorm ist
|ϕ(y)| hc, ci
m
||ϕ|| = sup
= ||c||.
y ∈ R , y 6= 0 =
||y||
||c||
Für alle y ∈ Rm gilt nach Satz 24.13 (5)
Dϕ(y) = ϕ
und somit
||Dϕ(y)|| = ||c||.
Auf die Funktion g ist Satz 24.18 anwendbar. Danach gibt es einen Punkt ξ ∈ S mit
g(q) − g(p) = hgrad g(ξ) , q − p i = Dg(ξ)(q − p).
Aus der Kettenregel (Satz 24.14) folgt
||c||2 = hc, f (q) − f (p)i = ||g(q) − g(p)||
= ||Dg(ξ)(q − p)|| = ||(Dϕ(f (ξ)) ◦ Df (ξ))(q − p)||
≤ ||Dϕ(f (ξ))|| · ||Df (ξ)(q − p)|| ≤ ||c|| · ||Df (ξ)|| · ||q − p||
≤ ||c|| · M · ||q − p|| .
Wir kürzen einen Faktor ||c|| und erhalten die Behauptung.
24.6
Niveaumengen
Funktionen f : U −→ R auf Definitionsbereichen U ⊆ R2 können durch ihren Graphen
veranschaulicht werden. Er ist eine Teilmenge des R3 , in günstigen Fällen eine Fläche“.
”
Verschiedene Computeralgebrasysteme sind in der Lage, Bilder solcher Graphen zu zeichnen. Für einen ungeübten Betrachter ist es manchmal nicht leicht, diese Bilder richtig zu
interpretieren. Oft ist es daher nützlich, statt des (dreidimensionalen) Graphen ein (zweidimensionales) Bild der Niveaulinien von f zu betrachten71 , wie es traditionell in vielen
Situationen benutzt wird: Eine Wetterkarte zeigt Linien konstanten Luftdrucks (Isobaren)
oder auch konstanten Niederschlags (Isohyeten), eine Wanderkarte zeigt Linien konstanten
Meeresniveaus, die Höhenlinien (Isohypsen). Aus den Höhenlinien gewinnt der Wanderer
wertvolle Informationen über die Steilheit des Geländes. In der folgenden Definition sprechen
wir vorläufig nicht von Linien, sondern wählen den neutralen Ausdruck Niveaumengen“.
”
Definition 24.21 Es sei f : U −→ R eine Funktion auf einer nicht-leeren Menge U ⊆ Rn .
Für c ∈ R heißt die Menge
Nc (f ) := f −1 ({c}) = {x ∈ U | f (x) = c}
die Niveaumenge der Funktion f zum Niveau c.
71
In Mathematica lassen sich Niveaulinien mithilfe des Befehls ContourPlot graphisch darstellen.
357
16
8
6
4
6
6
8
6
6
8
6
1
6
4
2
4
2
1
1
2
1
0
0
Abbildung 71: Höhenlinien
Wir werden in Kapitel 28 Kriterien dafür kennenlernen, dass eine Niveaumenge im Fall n = 2
lokal wie eine Kurve und allgemein für n ≥ 2 wie eine Hyperfläche aussieht. Dann sind die
Ausdrücke Niveaulinie“ bzw. Niveauhyperfläche“ berechtigt.
”
”
Auch für gutartige“ (z.B. stetig differenzierbare) Funktionen f muss Nc (f ) keinesfalls li”
nienförmig verlaufen; insbesondere kann eine Niveaumenge gelegentlich auch ein ganzes
Flächenstück ausfüllen (d.h. innere Punkte enthalten), nämlich dann, wenn die Funktion
ein ebenes Plateau“ aufweist. Und selbstverständlich kann Nc (f ) = ∅ für viele Werte von c
”
sein. Wenn f in ξ ein striktes lokales Extremum hat, dann enthält die Niveaumenge Nf (ξ) (f )
den isolierten Punkt ξ.
Beispiel 24.22
Es sei
f (x, y) := x2 + y 2 ,
g(x, y) := x2 − y 2
Die (nichtleeren) Niveaulinien von f sind Kreise um den Ursprung. Die Niveaulinien von g
sind Hyperbeln, die durch Gleichungen x2 − y 2 = c beschrieben werden. (Für c = 0 ergeben
sich deren Asymptoten, nämlich die Winkelhalbierenden der einzelnen Quadranten.)
Wie am Ende von Abschnitt 24.5 festgestellt, zeigt der Vektor grad f (ξ) in die Richtung
des steilsten Anstieges der Funktion f im Punkt ξ. Diese Richtung ist im Falle von zwei
Variablen in einem Höhenlinienbild von f gut erkennbar; es ist die Richtung mit der größten
Dichte an Höhenlinien. Es ist anschaulich zu erwarten, dass der Gradient grad f (ξ) orthogonal zum Tangentialvektor an die Höhenlinie von f im Punkt ξ (zum Niveau f (ξ)) ist.
Dies ist unter der Voraussetzung, dass eine Höhenlinie eine glatte Kurve ist, einfach zu beweisen. Wir formulieren dieses Resultat etwas allgemeiner für Wege, die in beliebigen (auch
höherdimensionalen) Niveaumengen verlaufen.
358
4
4
2
2
0
0
-2
-2
-4
-4
-4
-2
0
2
4
-4
-2
0
2
4
Abbildung 72: Niveaulinien von f (x, y) = x2 + y 2 (links) und g(x, y) = x2 − y 2 (rechts)
Satz 24.23 Es sei f : U −→ R eine differenzierbare Funktion auf einer offenen Teilmenge
U des Rn . Es sei γ : [−1; 1] −→ U ein regulärer Weg, der ganz in einer Niveaumenge Nc (f )
verläuft, d. h. es gelte f (γ(t)) = c für alle t ∈ [−1; 1].
Dann ist für alle t0 ∈ ] − 1; 1[ der Tangentialvektor γ 0 (t0 ) orthogonal zum Gradienten
grad f (γ(t0 )), und die Richtungsableitung von f in Richtung dieses Tangentialvektors ist
Null.
Eine Verallgemeinerung dieses Resultats werden wir in Satz 28.13 kennenlernen.
Beweis. Es sei ein t0 ∈] − 1, 1[ gegeben. Mit der Kettenregel folgt
0=
d
f (γ(t)) = Jf (γ(t)) · γ 0 (t) = hgrad f (γ(t)), γ 0 (t)i
dt
für alle t ∈ [−1, 1].
Insbesondere ist hgrad f (γ(t0 )), γ 0 (t0 )i = 0, d.h. der Tangentialvektor γ 0 (t0 ) ist orthogonal
zum Gradienten grad f (γ(t0 )).
Wegen der Regularität von γ ist γ 0 (t0 ) 6= 0. Daher ist
v0 :=
γ 0 (t0 )
||γ 0 (t0 )||
die Richtung des Tangentialvektors. Mit Satz 24.17 folgt
∂f
(γ(t0 )) = hgrad f (γ(t0 )), v0 i = 0,
∂v0
d. h. die Richtungsableitung von f in Richtung des Tangentialvektors ist 0.
Beispiel 24.24
Es sei
f (x, y, z) := x2 + y 2 + z 2 .
Für c > 0 ist die Niveaumenge Nc (f ) eine Sphäre (Kugeloberfläche) von Radius
√
c. Es ist
grad f (x, y, z) = (2x, 2y, 2z) = 2(x, y, z).
Der Gradient grad f (x, y, z) zeigt in die gleiche Richtung wie (x, y, z), nämlich senkrecht von
der Sphäre nach außen“.
”
359
25
Höhere Ableitungen und lokale Extrema
Wir greifen ein wichtiges Thema der eindimensionalen Analysis wieder auf: die Bestimmung
von Extrema von Funktionen. Lokale Extrema im Innern des Definitionsbereichs kann man
dabei in der Regel durch die Betrachtung geeigneter Ableitungen aufspüren und klassifizieren. Wie im eindimensionalen Fall liefert die erste Ableitung freilich nur eine notwendige
Bedingung für das Vorliegen eines Extremums. Für eine detailliertere Analyse benötigen wir
höhere Ableitungen.
25.1
Die Reihenfolge partieller Ableitungen
Höhere partielle Ableitungen können ohne weiteres rekursiv definiert werden. Wir dürfen
uns auf Funktionen mit Werten in R beschränken.
Definition 25.1 Es sei f : U −→ R eine Funktion auf einer offenen Menge U ⊆ Rn ,
und es sei ξ ∈ U . Es seien eine natürliche Zahl r und Indizes k1 , k2 , . . . , kr ∈ {1, 2, . . . , n}
gegeben. Wir nehmen an, dass die Funktion
∂ r−1 f
∂xkr−1 . . . ∂xk1
in allen Punkten einer gewissen Umgebung von ξ definiert ist. (Für r = 1 ist hierunter die
Funktion f selbst zu verstehen, die auf der Umgebung U von ξ definiert ist.) Falls diese
Funktion im Punkt ξ nach der Variablen xkr partiell differenzierbar ist, dann heißt
∂
∂ r−1 f
(ξ)
∂xkr ∂xkr−1 . . . ∂xk1
eine r-te partielle Ableitung von f im Punkt ξ. Wir bezeichnen diese r-te partielle
Ableitung mit
∂rf
(ξ)
oder
fxk1 ...xkr (ξ).
∂xkr . . . ∂xk1
Die Funktion f heißt r-mal stetig differenzierbar auf U oder auch eine Funktion der
Klasse C r , falls die sämtlichen r-ten partiellen Ableitungen von f in allen Punkten x ∈ U
existieren und stetige Funktionen auf U sind. Die Funktionen der Klasse C 0 sind die stetigen
Funktionen auf U . Wenn f für jedes r ∈ N von der Klasse C r ist, dann heißt f unendlich
oft differenzierbar oder von der Klasse C ∞ .
Satz 24.11 besagt, dass Funktionen der Klasse C 1 tatsächlich (total) differenzierbar sind.
In den partiellen Ableitungen fxk1 ...xkr (ξ) ist die Reihenfolge der Indizes k1 , . . . , kr wichtig. Sie
zeigt an, dass zuerst nach der Variablen xk1 , dann nach xk2 und zuletzt nach xkr differenziert
wird. A priori ist nicht klar, dass man hier die Reihenfolge vertauschen darf.
Beispiel 25.2
(1) Es sei
f (x, y) := x2 · sin(xy).
360
Man berechnet
∂f
(x, y) = 2x · sin(xy) + x2 y · cos(xy),
∂x
∂f
(x, y) = x3 · cos(xy),
∂y
∂ 2f
(x, y) = 3x2 · cos(xy) − x3 y sin(xy),
∂y∂x
∂ 2f
(x, y) = 3x2 · cos(xy) − x3 y sin(xy).
∂x∂y
Somit gilt überall
∂ 2f
∂ 2f
(x, y) =
(x, y);
∂y∂x
∂x∂y
verblüffenderweise sind die gemischten zweiten partiellen Ableitungen von der Differentiationsreihenfolge unabhängig.
(2) Unsere durch das letzte Beispiel genährte Hoffnung, man könne die Reihenfolge partieller Ableitungen grundsätzlich vertauschen, erweist sich freilich als voreilig. Dazu
betrachten wir die Funktion f : R2 −→ R, die durch
f (0, 0) := 0
und
xy 3
f (x, y) := 2
x + y2
für (x, y) 6= (0, 0)
definiert ist.
Offensichtlich besitzt f in jedem Punkt 6= (0, 0) stetige partielle Ableitungen beliebiger
Ordnung. Mithilfe der Quotientenregel berechnet man für alle (x, y) 6= (0, 0)
y 3 (x2 + y 2 ) − 2x2 y 3
∂f
y 5 − x2 y 3
(x, y) =
=
,
∂x
(x2 + y 2 )2
(x2 + y 2 )2
3xy 2 (x2 + y 2 ) − 2xy 4
3x3 y 2 + xy 4
∂f
(x, y) =
=
.
∂y
(x2 + y 2 )2
(x2 + y 2 )2
Weil f auf den Koordinatenachsen verschwindet, gilt außerdem
∂f
∂f
(0, 0) =
(0, 0) = 0.
∂x
∂y
Damit ist
∂f
(0, y) = y,
∂x
∂f
(x, 0) = 0
∂y
für alle x, y ∈ R.
Für die partiellen Ableitungen zweiter Ordnung im Nullpunkt folgt daher
∂ 2f
(0, 0) = 1,
∂y∂x
∂ 2f
(0, 0) = 0.
∂x∂y
Im Nullpunkt führt also eine verschiedene Reihenfolge der Differentiationen zu verschiedenen Werten der Ableitungen. Dabei ist die Funktion f nicht einmal allzu patholo”
gisch“: Sie ist auf ganz R2 partiell differenzierbar, und die partiellen Ableitungen sind
(auch) im Nullpunkt stetig, so dass f gemäß Satz 24.11 dort auch total differenzierbar
ist.
361
Um die Reihenfolge partieller Ableitungen vertauschen zu dürfen, benötigen wir zweimal
stetig differenzierbare Funktionen.
Satz 25.3 (Satz von Schwarz)
Es sei f : U −→ R eine zweimal stetig differenzierbare
Funktion auf einer offenen Teilmenge U des Rn . Für alle ξ ∈ U und alle j, k ∈ {1, . . . , n} gilt
dann
∂ 2f
∂ 2f
(ξ) =
(ξ).
∂xj ∂xk
∂xk ∂xj
Beweis. Bei naiver Betrachtung mag es als ziemlich mysteriös erscheinen, weshalb zwischen
zwei unterschiedlich gebildeten partiellen Ableitungen überhaupt ein Zusammenhang bestehen sollte. Wir geben einen Beweis, der die verborgene Symmetrie herauszuarbeiten versucht,
welche hinter unserem Resultat steckt.
O.B.d.A. dürfen wir n = 2 und ξ = 0 annehmen und uns somit auf die Betrachtung des Falls
j = 1, k = 2 beschränken. Ferner schreiben wir zur Vereinfachung (x, y) statt (x1 , x2 ).
Es sei ein ε > 0 gegeben. Wegen der Stetigkeit der partiellen Ableitung fxy gibt es ein δ > 0,
so dass
Q := (x, y) ∈ R2 : |x| < δ, |y| < δ ⊆ U
und
2
2
∂ f
∂
f
∂y∂x (x, y) − ∂y∂x (0, 0) < ε
für alle (x, y) ∈ Q.
Es sei ein t ∈ ] − δ; δ[ =: I gegeben.
y
(σ,t)
(t,t)
(0,t)
(σ,τ )
(0,0)
(σ,0)
(t,0)
Abbildung 73: Zum Beweis von Satz 25.3
Wir betrachten die Funktion
g : I −→ R,
g(x) := f (x, t) − f (x, 0).
Diese ist differenzierbar mit
g 0 (x) =
∂f
∂f
(x, t) −
(x, 0).
∂x
∂x
362
x
(25.1)
Nach dem Mittelwertsatz gibt es ein σ ∈ I (sogar σ zwischen t und 0) mit
g(t) − g(0)
= g 0 (σ).
t
Es folgt
∂f
∂f
g(t) − g(0)
(σ, t) −
(σ, 0) = g 0 (σ) =
∂x
∂x
t
1
· (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) .
=
t
Andererseits kann man auch auf die Funktion
y 7→
∂f
(σ, y)
∂x
den Mittelwertsatz anwenden und erhält ein τ ∈ I mit
1
∂f
∂f
∂ 2f
·
(σ, t) −
(σ, 0) =
(σ, τ ).
t
∂x
∂x
∂y∂x
Insgesamt ist also
1
∂ 2f
·
(f
(t,
t)
−
f
(t,
0)
−
f
(0,
t)
+
f
(0,
0))
=
(σ, τ ).
t2
∂y∂x
Auf die rechte Seite dieser Gleichung können wir (25.1) anwenden (denn (σ, τ ) ∈ Q). Damit
ergibt sich
2
1
· (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) − ∂ f (0, 0) < ε.
t2
∂y∂x
Dies gilt für alle t ∈] − δ, δ[. Damit haben wir gezeigt, dass
∂ 2f
1
(0, 0) = lim 2 · (f (t, t) − f (t, 0) − f (0, t) + f (0, 0)) .
t→0 t
∂y∂x
Das Entscheidende hieran ist, dass die rechte Seite symmetrisch bezüglich Vertauschung der
beiden Variablen ist. Damit sind wir praktisch am Ziel: Wir können mit exakt der gleichen
Argumentation auch zeigen, dass
∂ 2f
1
(0, 0) = lim 2 · (f (t, t) − f (t, 0) − f (0, t) + f (0, 0))
t→0 t
∂x∂y
ist. Hieraus folgt unsere Behauptung.
Analoge Aussagen gelten natürlich auch für die Vertauschung der Reihenfolge höherer partieller Ableitungen; durch Induktion folgt:
Korollar 25.4
Ist die Funktion f : U −→ R auf der offenen Menge U ⊆ Rn von der
Klasse C r , dann sind je zwei Ableitungen r-ter Ordnung, in denen gleich oft nach den gleichen
Variablen differenziert wird, identisch.
363
25.2
Die Hesse-Matrix
Für eine differenzierbare reellwertige Funktion f : U −→ R auf einer offenen Teilmenge U
des Rn ist das totale Differential Df (ξ) von f in ξ eine Linearform auf dem Rn . Allgemein
erweist sich das k-te Differential einer solchen Funktion als eine Multilinearform auf dem Rn
in k Variablen - also als ein recht komplexes Objekt. Um die Betrachtungen überschaubar zu
halten, beschränken wir uns auf den Fall der zweiten Ableitung. Bei ihr handelt es sich um
eine Bilinearform. Sie wird durch die sog. Hesse-Matrix repräsentiert. Der allgemeine Fall
von Differentialen höherer Ordnung ist z.B. in [Köhler, § 25.1-25.2] behandelt.
Definition 25.5 Es sei U ⊆ Rn offen, ξ ∈ U und f : U −→ R eine Funktion der Klasse
C 2 . Dann nennt man

 ∂2f
∂2f
∂2f
(ξ)
(ξ)
.
.
.
(ξ)
2
∂x1 ∂x2
∂x1 ∂xn
 ∂ 2f
 ∂x1


..
..
..
(ξ)
Hf (ξ) := 
=
.
.
.
∂xj ∂xk


j,k=1,...,n
∂2f
∂2f
∂2f
(ξ)
(ξ)
.
.
.
(ξ)
2
∂xn ∂x1
∂xn ∂x2
∂x
n
die Hesse-Matrix72 von f in ξ.
Aus Satz 25.3 folgt (unter der Voraussetzung der zweimaligen stetigen Differenzierbarkeit
von f ), dass die Hesse-Matrix Hf (ξ) symmetrisch ist.
Satz 25.6
Es sei U ⊆ Rn offen, ξ ∈ U und f : U −→ R eine Funktion der Klasse C 2 .
Dann gibt es ein r > 0 und eine Funktion R : Ur (0) −→ R, so dass
f (ξ + h) = f (ξ) + Jf (ξ) · h +
1 T
· h · Hf (ξ) · h + R(h)
2
für alle h ∈ Ur (0)
(25.2)
und
R(h)
=0
h→0 ||h||2
lim
gilt.
Beweis. Wir wählen ein r > 0 so, dass Ur (ξ) ⊆ U . Es sei ein h ∈ Rn mit ||h|| < r gegeben.
Dann liegt die gesamte Verbindungsstrecke [ξ; ξ + h] von ξ und ξ + h in U , und wir können
die Funktion
ϕ(t) := f (ξ + th),
t ∈ [0; 1]
betrachten. Aufgrund der Kettenregel ist ϕ zweimal stetig differenzierbar, und die ersten
beiden Ableitungen sind
ϕ0 (t) = Jf (ξ + th) · h =
72
nach L. O. Hesse (1811 – 1874)
364
n
X
∂f
(ξ + th) · hj
∂x
j
j=1
und
n
X
n
X
d ∂f
hj ·
hj ·
ϕ00 (t) =
(ξ + th) =
dt ∂xj
j=1
j=1
=
n X
n
X
j=1 k=1
hj ·
n
X
k=1
∂ 2f
(ξ + th) · hk
∂xk ∂xj
!
∂ 2f
(ξ + th) · hk = hT Hf (ξ + th) · h.
∂xk ∂xj
Auf die Funktion ϕ ist die (eindimensionale) Taylor-Formel mit (Lagrange’schem) Restglied
(Satz 20.5) anwendbar. Hiernach gibt es für alle t ∈ [0; 1] ein τ ∈ [0; t], so dass
1
ϕ(t) = ϕ(0) + ϕ0 (0) · t + ϕ00 (τ ) · t2
2
ist. Insbesondere gibt es ein τ ∈ [0; 1] mit
1
f (ξ+h) = ϕ(1) = ϕ(0) + ϕ0 (0) + ϕ00 (τ )
2
1 T
= f (ξ) + Jf (ξ) · h + h Hf (ξ + τ h) · h
2
1
1 T
= f (ξ) + Jf (ξ) · h + h Hf (ξ) · h + hT (Hf (ξ + τ h) − Hf (ξ)) · h,
2
2
und hierbei ist
n n X X
2
2
T
∂
f
∂
f
h (Hf (ξ + τ h) − Hf (ξ)) · h = (ξ + τ h) −
(ξ) · hj hk ∂x
∂x
∂x
∂x
k
j
k
j
j=1 k=1
n X
n X
∂ 2f
∂ 2f
2
≤
∂xk ∂xj (ξ + τ h) − ∂xk ∂xj (ξ) · ||h|| .
j=1 k=1
Definiert man also R durch (25.2), so gibt es für jedes h ∈ Ur (0) ein τh ∈ [0; 1], so dass
R(h) =
und
1 T
· h (Hf (ξ + τh h) − Hf (ξ)) · h
2
n
n |R(h)|
1 X X ∂ 2 f
∂ 2f
≤ ·
(ξ + τh h) −
(ξ) .
2
||h||
2 j=1 k=1 ∂xk ∂xj
∂xk ∂xj
Hierbei gilt limh→0 (ξ + τh h) = ξ. Daher folgt mithilfe der Stetigkeit der zweiten partiellen
Ableitungen
R(h)
lim
= 0.
h→0 ||h||2
Bemerkung 25.7 Der in der Darstellung für f in Satz 25.6 auftretende Term hT ·Hf (ξ)·h
besitzt eine anschauliche Interpretation als zweifache Richtungsableitung:
Wie im Satz sei U ⊆ Rn offen und f : U −→ R eine Funktion der Klasse C 2 . Weiter sei
v ∈ Rn eine beliebige Richtung (d.h. ||v|| = 1). Dann gilt für alle x ∈ U gemäß Satz 24.17
n
X
∂f
∂f
(x) = hgrad f (x), vi =
vk ·
(x).
∂v
∂x
k
k=1
365
Die zweite Richtungsableitung von f in Richtung v ist dann die Richtungsableitung
von x 7→ ∂f
(x) in Richtung v; sie berechnet sich mithilfe des soeben benutzten Satzes (und
∂v
aus Linearitätsgründen) zu
n
X
∂ 2f
∂ ∂f
(x)
(x) =
vk ·
2
∂v
∂v ∂xk
k=1
n X
n
X
∂ 2f
(x)
∂xj ∂xk
k=1 j=1
 2
∂ f
...
2 (x)
 ∂x1.
..
= (v1 , . . . , vn ) 

2
∂ f
(x) . . .
∂xn ∂x1
=
25.3
vk vj ·
 
v
  .1 
..
  ..  = v T Hf (x) · v.
.

∂2f
vn
(x)
∂x2
∂2f
(x)
∂x1 ∂xn
n
Bestimmung von Extrema
Erinnerung: In Definition 15.1 hatten wir den Begriff des lokalen Extremums für reellwertige Funktionen erklärt, deren Definitionsbereich ein beliebiger metrischer Raum ist. Speziell
für Funktionen f : U −→ R auf einer offenen Menge U ⊆ Rn bedeuten die Definitionen
folgendes: Ein Punkt ξ ∈ U ist eine lokale Maximalstelle von f , falls es eine Umgebung
V ⊆ U von ξ gibt, so dass f (x) ≤ f (ξ) für alle x ∈ V. Gilt sogar f (x) < f (ξ) für alle
x ∈ V \ {ξ} , so nennt man ξ eine strikte lokale Maximalstelle von f . Analoge Aussagen
gelten für (strikte) lokale Minimalstellen.
Satz 25.8 (Notwendiges Kriterium für lokale Extremalstellen)
Es sei U ⊆ Rn
offen und f : U −→ R von der Klasse C 1 . Wenn f im Punkt ξ ∈ U eine lokale Extremalstelle
hat, dann gilt Df (ξ) = 0, d.h.
∂f
∂f
(ξ) = . . . =
(ξ) = 0.
∂x1
∂xn
Beweis. Es sei ξ eine lokale Extremalstelle von f . Für jedes k ∈ {1, . . . , n} hat dann die
partielle Funktion
gk : x 7→ f (ξ1 , . . . , ξk−1 , x, ξk+1 , . . . , ξn )
eine lokale Extremalstelle im Punkt x = ξk . Nach dem notwendigen Kriterium für lokale
Extrema im Eindimensionalen (Satz 15.2) folgt hieraus
0 = gk0 (ξk ) =
∂f
(ξ).
∂xk
Definition 25.9 Es sei U ⊆ Rn offen, und die Funktion f : U −→ R sei von der Klasse
C 1 . Ein Punkt ξ ∈ U heißt eine stationäre Stelle oder ein kritischer Punkt der Funktion
f , falls grad f (ξ) = 0 ist.
366
Warnung: Ebenso wie in der eindimensionalen Analysis (vgl. Bemerkung 15.4 (2)) ist das
notwendige Kriterium in Satz 25.8 nur auf innere Punkte des Definitionsbereichs anwendbar.
Extrema an den Rändern des Definitionsbereichs lassen sich nicht ohne weiteres dadurch charakterisieren, dass bestimmte Ableitungen verschwinden. (Wichtige Fälle, in denen dies doch
gelingt, behandelt die Lagrange’sche Multiplikatorenregel in Kapitel 27.) Bei der Suche nach
Extrema einer differenzierbaren Funktion genügt es daher i.d.R. nicht, nur ihre kritischen
Punkte zu betrachten; man muss die Randpunkte des Definitionsbereichs (sofern es solche
gibt!) separat untersuchen.
Beispiel 25.10
Wie im Fall n = 1 brauchen stationäre Stellen keine lokalen Extremalstellen von f zu sein: Für
f (x, y) := x2 − y 2
beispielsweise gilt grad f (0, 0) = (0, 0), aber f hat in (0, 0) kein lokales Extremum.
Das notwendige Kriterium in Satz 25.8 ist also kein hinreichendes!
Um zu klären, ob an stationären Stellen tatsächlich ein lokales Extremum vorliegt und ggf.
um welchen Typ von Extremum es sich handelt, ist es wie im eindimensionalen Fall oft
hilfreich, höhere Ableitungen zu betrachten. Im Folgenden beschränken wir uns darauf, die
Rolle der zweiten Ableitung zu untersuchen.
Definition 25.11
Eine symmetrische reelle n × n-Matrix A heißt
• positiv definit, falls xT Ax > 0 für alle x ∈ Rn \ {0} gilt.
• negativ definit, falls xT Ax < 0 für alle x ∈ Rn \ {0} gilt.
• positiv semidefinit, falls xT Ax ≥ 0 für alle x ∈ Rn gilt.
• negativ semidefinit, falls xT Ax ≤ 0 für alle x ∈ Rn gilt.
• indefinit, falls es x, y ∈ Rn mit xT Ax > 0, y T Ay < 0 gibt.
Man beachte, dass die positive (bzw. negative) Definitheit die positive (bzw. negative) Semidefinitheit impliziert und dass jede symmetrische Matrix entweder positiv semidefinit oder
negativ semidefinit oder indefinit ist.
In welche der in Definition 25.11 aufgelisteten Klassen eine symmetrische Matrix gehört,
hängt nur von den Vorzeichen ihrer Eigenwerte ab. (Man beachte, dass symmetrische reelle
Matrizen diagonalisierbar sind und ihre sämtlichen Eigenwerte reell sind.) Man kann die
positive Definitheit aber auch anhand eines Determinanten-Kriteriums erkennen:
Satz 25.12
(1) Eine symmetrische reelle n × n-Matrix A ist genau dann
– positiv definit, wenn ihre sämtlichen Eigenwerte positiv sind.
– negativ definit, wenn ihre sämtlichen Eigenwerte negativ sind.
367
– positiv semidefinit, wenn ihre sämtlichen Eigenwerte ≥ 0 sind.
– negativ semidefinit, wenn ihre sämtlichen Eigenwerte ≤ 0 sind.
– indefinit, falls A mindestens einen positiven und mindestens einen negativen
Eigenwert besitzt.
(2) (Routh-Hurwitz-Kriterium) Genau dann ist eine symmetrische reelle n × n-Matrix
A positiv definit, wenn für alle k = 1, . . . , n


a11 . . . a1k

..  > 0
det  ...
. 
ak1 . . . akk
gilt, wenn also alle durch sukzessives Streichen der jeweils letzten Zeile und Spalte sich
ergebenden Matrizen positive Determinante haben.
Beweis. Lineare Algebra, siehe z.B. [Huppert, Satz 7.3 und Satz 8.9]
Man könnte das Routh-Hurwitz-Kriterium auch für negative Definitheit formulieren. Dies ist
aber unpraktisch und verwirrend. Sinnvoller ist es, zum Nachweis der negativen Definitheit
von A die Matrix −A auf positive Definitheit zu untersuchen. Es gibt auch ein entsprechendes Kriterium für positive Semidefinitheit (siehe z.B. [Huppert, Satz 8.10]); dieses ist
freilich komplizierter: Es genügt nicht, in obiger Formulierung einfach > 0“ durch ≥ 0“
”
”
zu ersetzen.
Satz 25.13 (Hinreichendes Kriterium für lokale Extremalstellen)
Es sei U eine
offene Teilmenge des Rn . Die Funktion f : U −→ R sei von der Klasse C 2 . Es sei ξ ∈ U ein
kritischer Punkt von f (d.h. grad f (ξ) = 0). Dann gilt:
(1) Wenn Hf (ξ) positiv definit ist, dann ist ξ ein striktes lokales Minimum von f .
(2) Wenn Hf (ξ) negativ definit ist, dann ist ξ ein striktes lokales Maximum von f .
(3) Wenn Hf (ξ) indefinit ist, dann ist ξ keine lokale Extremalstelle von f .
Beweis. Unter den hier gegebenen Voraussetzungen gibt es nach Satz 25.6 ein r > 0 und
eine Funktion R : Ur (0) −→ R, so dass
f (ξ + h) = f (ξ) +
1 T
· h Hf (ξ) · h + R(h)
2
und
für alle h ∈ Ur (0)
R(h)
= 0.
h→0 ||h||2
lim
Zur Abkürzung setzen wir
1 T
· h Hf (ξ) · h.
2
Zunächst sei Hf (ξ) positiv definit. Dann nimmt die Funktion q außer im Nullpunkt nur
positive Werte an und hat daher als stetige Funktion auf der kompakten Einheitssphäre des
Rn ein positives Minimum. Es gibt also ein c > 0, so dass
q(h) :=
q(h) ≥ c
für alle h ∈ Rn mit ||h|| = 1.
368
Da q homogen vom Grad 2 ist (d.h. q(λh) = λ2 q(h) für alle h ∈ Rn ), folgt
q(h) ≥ c · ||h||2
für alle h ∈ Rn .
Weiter gibt es ein δ ∈ ]0; r], so dass
|R(h)| ≤
c
· ||h||2
2
für alle h ∈ Uδ (0).
Für alle h ∈ Uδ (0) \ {0} folgt
f (ξ + h) − f (ξ) = q(h) + R(h) ≥ c · ||h||2 −
c
c
· ||h||2 = · ||h||2 > 0.
2
2
Damit ist ξ ein striktes lokales Minimum von f . Dies zeigt (1).
Wenn Hf (ξ) negativ definit ist, so betrachtet man statt f die Funktion −f und wendet
hierauf (1) an. Damit ergibt sich (2).
Nun sei Hf (ξ) indefinit. Dann gibt es a, b ∈ Rn mit
c− := q(a) < 0 < q(b) =: c+ .
O.B.d.A. darf man ||a|| = ||b|| = 1 annehmen. Hierzu gibt es ein δ ∈ ]0; r], so dass
|R(h)| ≤
1
· min {c+ , −c− } · ||h||2
2
für alle h ∈ Uδ (0).
Für alle t ∈ ]0, δ[ ist dann ta, tb ∈ Uδ (0) und somit
c− 2 c− 2
·t =
· t < 0,
2
2
c+ 2 c+ 2
f (ξ + tb) − f (ξ) = q(tb) + R(tb) ≥ c+ · t2 −
·t =
· t > 0.
2
2
Da dies für beliebig kleine t > 0 gilt, nimmt die Differenz X 7→ f (X) − f (ξ) in jeder
Umgebung von ξ sowohl positive wie auch negative Werte an. Somit hat f im Punkt ξ kein
lokales Extremum. Damit ist auch (3) bewiesen.
f (ξ + ta) − f (ξ) = q(ta) + R(ta) ≤ c− · t2 −
Der Satz trifft keine Aussage über das Verhalten von f in der Nähe von ξ, wenn Hf (ξ)
semidefinit, aber nicht definit ist. In diesem Fall sind allein aus der Betrachtung der zweiten
Ableitung keine allgemeinen Aussagen über das lokale Verhalten der Funktion möglich, wie
wir im Folgenden anhand einiger Beispiele sehen werden. In diesem Fall könnte man höhere Ableitungen betrachten, für die man analoge hinreichende Kriterien für lokale Extrema
formulieren kann. (Für den eindimensionalen Fall ist dies in Satz 20.8 geschehen. Der allgemeine Fall findet sich z.B. in [Köhler, Satz 25.4].) Meist ist es jedoch geschickter, andere,
dem jeweiligen Problem angepasste Überlegungen einzusetzen.
Definition 25.14 Es sei U ⊆ Rn offen und f : U −→ R eine Funktion von der Klasse
C 2 . Ein Punkt ξ ∈ U heißt ein Sattelpunkt von f , falls grad f (ξ) = 0 und Hf (ξ) indefinit
ist.
Ob ein Extremum oder ein Sattelpunkt vorliegt, zeigt sich auch anhand der Niveaulinien:
Typischerweise werden lokale Extrema von den Niveaulinien umrundet“, während sich in
”
Sattelpunkten zwei Niveaulinien zum gleichen Niveau kreuzen“; siehe hierzu Abbildung 72.
”
369
Beispiel 25.15
(1) Die beiden geradezu prototypischen Beispiele dafür, dass man ein striktes Minimum
bzw. einen Sattelpunkt mithilfe der positiven Definitheit bzw. Indefinitheit der HesseMatrix identifizieren kann, sind die Funktionen
f (x, y) := x2 + y 2
und
g(x, y) := x2 − y 2
(vgl. auch Beispiel 24.22 für die Niveaulinien). Es ist
grad g(x, y) = (2x, −2y),
grad f (x, y) = (2x, 2y),
so dass der Nullpunkt ein stationärer Punkt beider Funktionen ist. Ihre Hesse-Matrizen
sind
2 0
2 0
Hf (x, y) =
,
Hg (x, y) =
,
0 2
0 −2
haben also bereits Diagonalgestalt. Aus der Betrachtung der Eigenwerte wird die positive Definitheit von Hf (0, 0) und die Indefinitheit von Hg (0, 0) offensichtlich.
Die Graphen von f bzw. g stellen ein elliptisches bzw. hyperbolisches Paraboloid dar
(Abbildung 74). An diesem und ähnlichen Beispielen sieht man, dass der Graph einer
Funktion in der Nähe eines Sattelpunktes wirklich einem Gebirgssattel oder Pferdesattel ähnlich sieht.
4
-2
0
2
-4
10
40
0
4
20
2
-10
0
0
-4
-2
4
-2
0
2
-4
2
0
-2
4
-4
Abbildung 74: Die Graphen von f (x, y) := x2 + y 2 und g(x, y) := x2 − y 2
(2) Es sei
f (x, y) := x2 + y 4
und
g(x, y) := x2 − y 4 .
Auch hier ist der Nullpunkt offensichtlich ein stationärer Punkt beider Funktionen. Die
zugehörigen Hesse-Matrizen sind
2 0
Hf (0, 0) = Hg (0, 0) =
;
0 0
sie sind also positiv semidefinit. Aber nur f hat im Nullpunkt ein striktes Minimum,
während g dort kein Extremum hat.
370
(3) Es sei
f (x, y) := sin(xy).
Wegen
grad f (x, y) = cos(xy) · (y, x)
sind die stationären Stellen von f der Nullpunkt (0, 0) und alle Punkte auf den unendlich vielen Hyperbeln mit den Gleichungen
1
xy = k +
·π
mit beliebigem k ∈ Z.
2
-2
0
−1
1
0
0
0
−1
1
1
−1
0
2
0
0
−1
0
1
0.5
0
0
-0.5
1
-1
2
0
-2
Abbildung 75: Höhenlinien und Graph von (x, y) 7→ sin(xy)
Es gibt also unendlich viele stationäre Stellen, und unter diesen liegt nur der Nullpunkt
isoliert. In einem beliebigen Punkt (x, y) hat f die Hesse-Matrix
!
−y 2 · sin(xy)
−xy · sin(xy) + cos(xy)
Hf (x, y) =
.
−xy · sin(xy) + cos(xy)
−x2 · sin(xy)
Insbesondere ist
0 1
Hf (0, 0) =
.
1 0
Die Eigenwerte dieser Matrix sind +1 und −1, sie ist also indefinit. Somit ist (0, 0) ein
Sattelpunkt von f .
In allen stationären Stellen (x, y) 6= (0, 0) ist cos xy = 0 und somit
det H(x, y) = x2 y 2 sin2 (xy) − (xy sin(xy))2 = 0.
Daher hat Hf (x, y) in allen diesen stationären Punkten den Eigenwert 0 (ist also semidefinit), und Satz 25.13 erlaubt keine Entscheidung über das lokale Verhalten von f .
Die bekannten Eigenschaften des Sinus machen die Entscheidung jedoch leicht: In allen Punkten der Hyperbeln xy = (k + 21 )π mit geraden k hat f ein lokales und sogar
ein absolutes (globales) Maximum, während bei ungeraden k Minima vorliegen. Die
Extremalstellen liegen nicht isoliert, und insbesondere sind sie keine strikten Extremalstellen.
371
(4) Kann man allein daraus, dass für jede Richtung v die Funktion t 7→ f (ξ + tv) in t = 0
ein striktes Minimum hat, darauf schließen, dass dann auch f selbst in ξ ein striktes
Minimum hat? Dies erscheint zwar sehr plausibel, ist aber i.Allg. nicht richtig, wie
folgendes Beispiel zeigt:
Es sei
f (x, y) := (5y − x2 )(y − x2 ) = 5y 2 − 6x2 y + x4 .
Dann ist
grad f (x, y) = (4x3 − 12xy, 10y − 6x2 ),
also grad f (0, 0) = (0, 0), d.h. (0, 0) ist stationärer Punkt von f . Für alle Richtungen
v und alle t ∈ R gilt
f (tv) = f (tv1 , tv2 ) = t2 · (5v22 − 6v12 v2 t + v14 t2 ).
Ist v2 6= 0, so sieht man daraus, dass t 7→ f (tv) in t = 0 ein striktes lokales Minimum
besitzt. Im Falle v2 = 0 ist v1 6= 0 und
f (tv) = v14 t4 ,
so dass t 7→ f (tv) ebenfalls ein striktes lokales Minimum in t = 0 hat.
1
0
-1
15
10
5
0
1.5
0.5
1
0
-0.5
Abbildung 76: Der Graph von f (x, y) := (5y − x2 )(y − x2 ).
Andererseits zeigt die Betrachtung von
f (2t, t2 ) = −3t4
für t > 0, dass f in jeder Umgebung des Nullpunkts negative Werte annimmt, im
Nullpunkt also kein lokales Minimum besitzt.
Betrachtet man f also nur auf Geraden durch den Ursprung, so hat f (genauer: die
Einschränkung von f auf diese Gerade) stets ein striktes Minimum in 0, bei Annäherung an den Nullpunkt auf einer Parabel hingegen sehen wir, dass im Nullpunkt doch
kein Minimum vorliegt.
Abbildung 76 zeigt den Graphen von f . Er vermittelt leider nur eine grobe Vorstellung
der hier beschriebenen Phänomene.
372
(5) Es sei
2
f (x, y) := −y 4 − e−x + 2y 2
p
ex + e−x2 .
Wir zeigen in den Übungen (Aufgabe 7.1), dass die Funktion f : R2 → R genau eine
stationäre Stelle besitzt, dass die Hesse-Matrix Hf dort positiv definit ist (so dass es
sich also um ein striktes lokales Minimum handelt), dass jedoch f in diesem Punkt
kein globales Minimum annimmt.
1
2
0.5
0
-0.5
-1
0
8
-2
-4
6
2
2
4
1
1
2
2.5
0
0
0
0
-2.5
-1
-1
-1
-0.5
-2
0
-5
-2
2
0
0.5
-2
1
-7.5
1
0
-1
-4
Abbildung 77: Die Funktion aus Beispiel 25.15 (5)
Bemerkung 25.16
In Bemerkung 25.7 hatten wir gesehen, dass man den Ausdruck
T
v Hf (x) v als zweite Richtungsableitung der Funktion f an der Stelle x in Richtung v
interpretieren kann. Es ist aufschlussreich, die oben diskutierten Kriterien für lokale Extrema
noch einmal unter diesem Aspekt zu betrachten:
Ist ξ eine stationäre Stelle der in einer Umgebung U von ξ definierten Funktion f : U −→ R
und ist Hf (ξ) positiv definit, so ist also
∂ 2f
(ξ) = v T Hf (ξ) · v > 0
2
∂v
für alle Richtungen v.
Nach dem eindimensionalen“ hinreichenden Kriterium für lokale Extrema hat dann für jede
”
Richtung v die Funktion
t 7→ f (ξ + tv)
in t = 0 ein striktes Minimum.
Man ist geneigt, hieraus bereits darauf zu schließen, dass dann auch f selbst in ξ ein striktes
Minimum hat. Dieser Schluss ist freilich falsch, wie wir in Beispiel 25.15 (4) gesehen hatten:
Die Einschränkungen der Funktion f aus diesem Beispiel auf Geraden durch den Ursprung
haben allesamt ein striktes Minimum in 0, bei Annäherung an den Nullpunkt auf einer
Parabel hingegen sehen wir, dass f im Nullpunkt doch kein Minimum besitzt.
Im Falle der positiven Definitheit von Hf (ξ) liegt jedoch eine stärkere Voraussetzung vor:
Hier hat für alle Richtungen v die Funktion t 7→ f (ξ + tv) in t = 0 ein striktes lokales Minimum mit von Null verschiedener zweiter Ableitung73 (anschaulich: mit nichtverschwindender
73
Eben diese Bedingung war in unserem Beispiel 25.15 (4) verletzt: Es gibt dort eine (bis auf das Vorzeichen) einzige (!) Richtung, nämlich v = ±(1, 0), für die die zweite Ableitung von t 7→ f (tv) in t = 0
verschwindet, da nämlich f (tv) = t4 ist.
373
Krümmung). Hieraus können wir in der Tat darauf schließen, dass f selbst in ξ ein striktes
lokales Minimum besitzt; dies hatten wir nämlich gerade in Satz 25.13 bewiesen.74
Jetzt wird auch einsichtig, dass im Falle einer indefiniten Hesse-Matrix Hf (ξ) kein lokales
Extremum in ξ vorliegen kann: Es gibt dann nämlich Richtungen v, w mit
∂ 2f
(ξ) > 0
∂v 2
und
∂ 2f
(ξ) < 0.
∂w2
Die Restriktion von f auf die Gerade durch ξ in Richtung v hat dann ein striktes lokales
Minimum in ξ, während die Restriktion auf die Gerade durch ξ in Richtung w dort ein
striktes lokales Maximum hat.
Die Kriterien in Satz 25.13 sind hinreichende, aber nicht notwendige Kriterien, wie obige
Beispiele gezeigt haben. Umgekehrt gilt jedoch:
Satz 25.17
Es sei U eine offene Teilmenge des Rn . Die Funktion f : U −→ R sei von
der Klasse C 2 . Es sei ξ ∈ U ein kritischer Punkt von f . Dann gilt:
(1) Wenn f in ξ ein lokales Minimum hat, so ist Hf (ξ) positiv semidefinit.
(2) Wenn f in ξ ein lokales Maximum hat, so ist Hf (ξ) negativ semidefinit.
Beweis. Aufgabe 7.4
74
Letztlich liegt hier ein Kompaktheitsschluss vor: Auf der kompakten Menge S n−1 = {v ∈ Rn : ||v|| = 1}
2
aller Richtungen im Rn hat die stetige Funktion v 7→ ∂∂vf2 (ξ) ein Minimum µ, und dieses ist immer noch
positiv; man kann dann f (ξ + h) für hinreichend kleine h nach unten durch f (ξ) + 41 µ||h||2 abschätzen. - Es
ist empfehlenswert, den Beweis von Satz 25.13 im Lichte dieser Ausführungen noch einmal zu lesen.
374
26
26.1
Der Satz über lokale Umkehrbarkeit und der Satz
über implizite Funktionen
Der Satz über lokale Umkehrbarkeit
Erinnerung: Es sei f : I −→ R eine differenzierbare Funktion auf einem Intervall I mit
f 0 (x) 6= 0 für alle x ∈ I. Aus dem Zwischenwertsatz von Darboux für Ableitungen (Satz
15.27) folgt dann leicht, dass f streng monoton und damit injektiv ist (Bemerkung 15.29).
Nach Satz 14.14 ist die Umkehrfunktion f −1 : f (I) −→ I differenzierbar, und ihre Ableitung
ist
1
für alle y ∈ f (I).
(f −1 )0 (y) = 0 −1
f (f (y))
In diesem Kapitel wollen wir dieses Resultat auf Funktionen von mehreren Variablen übertragen. Freilich ist nicht ganz klar, wie eine sinnvolle Verallgemeinerung aussehen könnte.
An die Stelle von f 0 (x) tritt für eine Funktion f : Rn −→ Rm das totale Differential Df (x),
also eine lineare Abbildung des Rn in den Rm . Die Forderung Df (x) 6= 0 (d.h. Df (x) ist
nicht die Nullabbildung) ist sehr schwach und sicherlich keine hinreichende Voraussetzung
für die Injektivität von f .
Das folgende - im Sinne einer Vorüberlegung zu verstehende - Lemma liefert zwei notwendige
Kriterien für die zumindest lokale Existenz einer differenzierbaren Umkehrfunktion sowie die
richtige Formel für deren Ableitung:
Lemma 26.1
Es seien U ⊆ Rn und V ⊆ Rm offen und f : U −→ V bijektiv. Es sei f
total differenzierbar in einem Punkt a ∈ U und f −1 total differenzierbar in b := f (a) ∈ V .
Dann gilt m = n, und die Ableitung Df (a) ist invertierbar mit
Df −1 (b) = (Df (a))−1 .
Beweis. Die Kettenregel (Satz 24.14), angewandt auf f −1 ◦ f = idU , und Satz 24.13 (5)
ergeben
Df −1 (b) ◦ Df (a) = D(f −1 ◦ f )(a) = (DidRn )(a) = idRn .
Ausgehend von f ◦ f −1 = idV erhält man analog
Df (a) ◦ Df −1 (b) = idRm .
Somit sind die linearen Abbildungen Df −1 (b) : Rm −→ Rn und Df (a) : Rn −→ Rm beide
bijektiv und zueinander invers. Aus der Linearen Algebra wissen wir, dass hieraus m = n
folgt. (Dies ergibt sich aus der Dimensionsformel für lineare Abbildungen in Satz 23.7.)
Damit sind alle Behauptungen bewiesen.
Eine Chance auf die Existenz einer differenzierbaren Umkehrabbildung besteht also nur,
wenn der Startraum und der Zielraum die gleiche Dimension haben und wenn die zugehörige
Jacobi-Matrix invertierbar (regulär) ist. Erfreulicherweise sind diese Voraussetzungen auch
hinreichend für die lokale Umkehrbarkeit. Das wird in Satz 26.4 gezeigt. Dass man grundsätzlich nur auf lokale, nicht auf globale Umkehrbarkeit hoffen kann, illustriert das folgende Beispiel:
375
Beispiel 26.2
R2 durch
Auf der Menge U := ]0, ∞[×R ⊆ R2 definieren wir die Funktion ϕ : U −→
ϕ(r, t) := (r cos t, r sin t).
Es seien also r und t die Polarkoordinaten des Punktes (x, y) = ϕ(r, t) 6= (0, 0). Die Determinante der Jacobi-Matrix von ϕ in einem beliebigen Punkt (r, t) ∈ U ist
cos t −r sin t
det Jϕ (r, t) = det
= r > 0.
sin t r cos t
Für jeden Punkt (r, t) ∈ U ist daher das Differential Dϕ(r, t) eine invertierbare lineare
Abbildung. Die Funktion ϕ ist jedoch nicht injektiv, denn sie hat in der Variablen t die
Periode 2π. Allerdings ist ϕ für jedes reelle α auf der Teilmenge ]0, ∞[× ]α, α + 2π[ von U
injektiv.
Aus Eigenschaften der Ableitung einer Funktion von mehreren Variablen können wir also
nicht auf ihre globale Umkehrbarkeit schließen. Allenfalls ist die Injektivität auf genügend
kleinen Teilen des Definitionsbereiches zu erwarten. Wir führen daher den folgenden Begriff
ein.
Definition 26.3 Es sei A eine offene Teilmenge des Rn , es sei ξ ∈ A, und die Funktion
f : A −→ Rn sei von der Klasse C 1 . Man nennt f im Punkt ξ lokal umkehrbar oder
lokal invertierbar, falls es eine offene Umgebung U ⊆ A von ξ gibt, so dass die Restriktion
f |U injektiv ist, die Menge V = f (U ) offen ist und die Umkehrfunktion (f |U )−1 : V −→ U
wieder von der Klasse C 1 ist. Falls dies für jedes ξ ∈ A zutrifft, dann nennen wir f lokal
umkehrbar oder lokal invertierbar.
Hierbei ist die Forderung, dass f (U ) offen sein soll, wichtig dafür, dass man überhaupt von
Differenzierbarkeit von (f |U )−1 reden kann.
Der Beweis des Satzes über lokale Umkehrbarkeit beruht wesentlich auf dem Banachschen
Fixpunktsatz (Satz 13.35). Wir erinnern kurz an die in diesem Kontext relevanten Begriffe.
Erinnerung:
(1) Ein metrischer Raum (X, d) heißt vollständig, falls jede Cauchy-Folge in X einen
Grenzwert in X besitzt (Definition 6.19).
(2) Es sei (X, d) ein metrischer Raum. Eine Abbildung f : X −→ X heißt gemäß Definition
13.32 eine Kontraktion, falls es eine Zahl λ mit 0 ≤ λ < 1 gibt, so dass
d(f (x), f (y)) ≤ λ · d(x, y)
für alle x, y ∈ X.
(3) Banachscher Fixpunktsatz: Es sei (X, d) ein vollständiger metrischer Raum und
f : X −→ X eine Kontraktion. Dann besitzt f genau einen Fixpunkt ξ ∈ X. Wenn
man einen beliebigen Punkt a0 ∈ X wählt und die Folge (an )n≥0 in X rekursiv durch
an = f (an−1 ) für n ≥ 1 definiert, dann gilt ξ = limn→∞ an .
376
Satz 26.4 (Satz über lokale Umkehrbarkeit)
Es sei A eine offene Teilmenge in
Rn , ξ ∈ A, und die Abbildung f : A −→ Rn sei von der Klasse C r mit einem r ≥ 1.
Die Abbildung f ist im Punkt ξ genau dann lokal umkehrbar, wenn das Differential Df (ξ)
invertierbar ist. In diesem Fall ist die lokale Umkehrabbildung g ebenfalls von der Klasse C r ,
und für alle u in einer geeigneten Umgebung U von ξ gilt
Dg(f (u)) = (Df (u))−1 .
Beweis. =⇒ “: Diese Implikation ist durch Lemma 26.1 im Wesentlichen bereits erledigt:
”
Die Funktion f sei im Punkt ξ lokal umkehrbar, und g = (f |U )−1 sei die lokale Umkehrfunktion von f auf einer offenen Umgebung U von ξ. Für jeden Punkt u ∈ U ist dann f auch im
Punkt u lokal umkehrbar, und g ist die lokale Umkehrfunktion von f auf der Umgebung U
von u. Daher liefert das Lemma die Invertierbarkeit von Df (u) und
Dg(f (u)) = (Df (u))−1
für alle u ∈ U,
also
Dg(v) = (Df (g(v)))−1
für alle v ∈ f (U ).
Die aus der Linearen Algebra bekannte Cramersche Regel zeigt, dass die Einträge der Inversen einer Matrix M Funktionen von der Klasse C ∞ in den Einträgen von M selber sind. Man
kann die partiellen Ableitungen von g also als Verkettung von Df ◦ g mit C ∞ -Funktionen
schreiben. Hierbei ist g gemäß der Definition lokaler Umkehrbarkeit stetig differenzierbar.
Hieraus folgt induktiv, dass g ebenso wie f von der Klasse C r ist. Dies zeigt =⇒ “.
”
⇐=“: Aufgrund des bereits Gezeigten genügt es, den Fall r = 1 zu diskutieren. Wir müssen
”
aus der Regularität des Differentials Df (ξ) die lokale Umkehrbarkeit von f im Punkt ξ
folgern. Wir gliedern den langen Beweis in mehrere Abschnitte.
I. Man darf o.B.d.A. ξ = 0 und f (ξ) = f (0) = 0 voraussetzen.
Weiter dürfen wir annehmen, dass Df (0) = idRn die identische Abbildung, also Jf (0) = En
die n-reihige Einheitsmatrix ist. Zur Begründung setzen wir
L := Df (0)
F := f ◦ L−1 .
und
Die Funktion f ist genau dann im Punkt 0 lokal umkehrbar, wenn das für F gilt. Für die
Ableitung von F in 0 erhält man aus der Kettenregel
DF (0) = Df (0) ◦ D(L−1 )(0) = L ◦ L−1 = idRn .
Nach dieser Reduktion des Problems setzen wir von jetzt an voraus, dass f von der Klasse C 1
sowie ξ = 0, f (0) = 0 und Df (0) = idRn ist. Wir müssen zeigen, dass f auf einer Umgebung
U des Nullpunkts injektiv ist, dass f (U ) offen ist und dass die lokale Umkehrfunktion von
der Klasse C 1 ist.
II. Unsere Aufgabe besteht hauptsächlich darin, für alle y in einer Umgebung des Nullpunkts
die Gleichung
f (x) = y
eindeutig nach x aufzulösen. Diese können wir auch in der Form
hy (x) = x
mit
hy (x) := y + x − f (x)
377
schreiben. Für jedes feste y ist das eine Fixpunktgleichung in x. Zu ihrer Behandlung werden
wir den Banachschen Fixpunktsatz heranziehen.
Die Funktion h0 (x) = x − f (x) ist von der Klasse C 1 , und ihre Ableitung im Nullpunkt ist
Dh0 (0) = idRn − Df (0) = 0.
Wegen der Stetigkeit der partiellen Ableitungen von h0 und weil für die Operatornorm einer
Matrix C = (cjk )jk ∈ Rn×n , wie im Beweis von Lemma 23.22 gezeigt, die Abschätzung
n X
n
X
||C|| ≤
!1/2
c2jk
j=1 k=1
gilt, ist die Operatornorm des Differentials von h0 in allen Punkten einer geeigneten Umgebung von 0 höchstens 21 ; es gibt also eine Zahl R > 0, so dass die kompakte Kugel BR (0) in
der offenen Menge A enthalten ist und so dass
||Dh0 (u)|| ≤
1
2
für alle u ∈ BR (0)
erfüllt ist. Hieraus und aus dem Schrankensatz (Satz 24.20) folgt
||h0 (x1 ) − h0 (x2 )|| ≤
1
· ||x1 − x2 ||
2
x1 , x2 ∈ BR (0).
für alle
Hierin setzen wir x2 = 0 und erkennen wegen h0 (0) = 0, dass
h0 (BR (0)) ⊆ B 1 R (0)
2
ist. Es folgt
hy (x) = h0 (x) + y ∈ BR (0)
für alle x ∈ BR (0) und alle y ∈ B 1 R (0).
2
Für jedes feste y ∈ B 1 R (0) ist daher hy eine Abbildung der kompakten Kugel BR (0) in sich.
2
Diese Abbildung ist kontrahierend, denn es gilt
||hy (x1 ) − hy (x2 )|| = ||h0 (x1 ) − h0 (x2 )|| ≤
1
· ||x1 − x2 ||
2
für alle x1 , x2 ∈ BR (0).
Zudem ist BR (0) als abgeschlossener Teilraum des vollständigen metrischen Raumes Rn
vollständig (Aufgabe 7.3). Somit ist der Banachsche Fixpunktsatz anwendbar, und wir erhalten das folgende Resultat:
Zu jedem Punkt y ∈ B 1 R (0) gibt es einen eindeutig bestimmten Punkt x ∈
2
BR (0) mit hy (x) = x, also mit f (x) = y.
Deswegen definieren wir
U := x ∈ Rn
R
||x|| < R, ||f (x)|| <
2
und
V := f (U ).
Wegen der Stetigkeit von f ist U offen, und es gilt
U ⊆ UR (0) ⊆ BR (0) ⊆ A
378
und
V ⊆ U 1 R (0).
2
(26.1)
Aufgrund von (26.1) ist daher f auf U injektiv. Somit können wir die lokale Umkehrfunktion
g = (f |U )−1 : V −→ U
einführen. Wir müssen zeigen, dass V eine offene Menge und g von der Klasse C 1 ist.
III. In diesem Beweisschritt zeigen wir, dass V offen und g stetig ist.
Für beliebige x, u ∈ BR (0) besteht die Abschätzung75
||x − u|| = ||h0 (x) + f (x) − h0 (u) − f (u)||
≤ ||h0 (x) − h0 (u)|| + ||f (x) − f (u)||
≤
1
2
· ||x − u|| + ||f (x) − f (u)||,
also
||x − u|| ≤ 2 · ||f (x) − f (u)||.
(26.2)
Es sei ein Punkt v ∈ V gegeben, und es sei u := g(v) ∈ U , also v = f (u). Dann ist ||v|| < 21 R.
Weil U offen ist, gibt es ein ε > 0 mit Uε (u) ⊆ U . Nun sei
y ∈ U 1 R (0) ∩ U 1 ε (v).
2
2
Wir werden zeigen, dass alle diese Punkte y in V liegen.
f
v
u
Uε (u)
Uε/2 (v)
g
V
U
Abbildung 78: Zum Beweis des Satzes über lokale Umkehrbarkeit
Nach Teil II gibt es zu jedem solchen y (genau) ein x ∈ BR (0) mit f (x) = y. Die Abschätzung
(26.2) für ||x − u|| liefert
||x − u|| ≤ 2||f (x) − f (u)|| = 2||y − v|| < ε.
Somit ist x ∈ Uε (u) ⊆ U , also y = f (x) ∈ V . Somit gilt
U 1 R (0) ∩ U 1 ε (v) ⊆ V.
2
2
Wir haben damit bewiesen, dass V offen ist. Wir verwenden nochmals (26.2) und erhalten
||g(y) − g(v)|| ≤ 2||f (g(y)) − f (g(v))|| = 2||y − v||
75
für alle y, v ∈ V.
Diese zeigt übrigens erneut die Injektivität von f auf BR (0); für diese Teilaussage in (26.1) bedarf es
also nicht des Banachschen Fixpunktsatzes.
379
Daher ist g dehnungsbeschränkt, also stetig.
IV. Schließlich beweisen wir die stetige Differenzierbarkeit von g.
Für alle u ∈ U ist ||Dh0 (u)|| ≤ 21 . Wegen Df (u) = idRn − Dh0 (u) folgt für diese u
||Df (u)(X)|| = ||X − Dh0 (u)(X)||
≥ ||X|| − ||Dh0 (u)|| · ||X|| ≥
1
· ||X||
2
für alle X ∈ Rn .
Für alle X 6= 0 in Rn ist daher Df (u)(X) 6= 0. Damit ist die Invertierbarkeit von Df (u) für
alle u ∈ U bewiesen.
Es sei ein v ∈ V fixiert, und es sei u := g(v) ∈ U . Wir wollen zeigen, dass g in v total
differenzierbar ist. Die Differenzierbarkeit von f in u liefert
f (x) − f (u) = Df (u)(x − u) + r(x)
für alle x ∈ U
mit einer Funktion r, welche die Eigenschaft
lim
x→u
||r(x)||
=0
||x − u||
hat. Für alle y 6= v in V folgt
y − v = Df (u)(g(y) − g(v)) + r(g(y)).
Wegen der Regularität von Df (u) können wir hierfür auch
g(y) − g(v) = (Df (u))−1 (y − v) − (Df (u))−1 (r(g(y)))
schreiben. Nach Teil III des Beweises ist g dehnungsbeschränkt. In
||(Df (u))−1 (r(g(y)))||
||r(g(y))|| ||g(y) − g(v)||
≤ ||(Df (u))−1 || ·
·
||y − v||
||g(y) − u||
||y − v||
strebt für y → v also der mittlere Faktor auf der rechten Seite gegen 0, während der letzte
Faktor beschränkt ist. (Hierbei haben wir implizit die Stetigkeit der linearen Abbildung
(Df (u))−1 benutzt, die sich in der Existenz einer endlichen Operatornorm ausdrückt.) Daher
gilt
||(Df (u))−1 (r(g(y)))||
lim
= 0.
y→v
||y − v||
Nach Definition der Differenzierbarkeit ist g somit im Punkt v (total) differenzierbar mit der
Ableitung
Dg(v) = (Df (u))−1 .
Das gilt für alle v ∈ V . Die Stetigkeit der partiellen Ableitungen von f und die Cramersche
Regel für die Inverse einer Matrix zeigen schließlich, dass die partiellen Ableitungen von g
ebenfalls stetig sind. Also ist g von der Klasse C 1 .
380
26.2
Anwendungen
Wir beweisen zwei wichtige Folgerungen aus Satz 26.4.
Korollar 26.5 (Offenheitsprinzip)
Es sei A eine offene, nicht leere Teilmenge in Rn ,
n
die Abbildung f : A −→ R sei von der Klasse C 1 , und für alle ξ ∈ A sei das Differential Df (ξ) regulär. Für jede offene Teilmenge U ⊆ A ist dann die Bildmenge f (U ) offen.
Insbesondere ist also f (A) offen.
Beweis. Es sei eine offene Teilmenge U ⊆ A gegeben. Wendet man Teil III des Beweises von
Satz 26.4 auf f |U an, so folgt, dass jeder Punkt ξ ∈ U eine offene Umgebung U 0 mit U 0 ⊆ U
besitzt, deren Bild f (U 0 ) offen ist. Dies zeigt die Offenheit von f (U ).
111111111
000000000
000000000
111111111
000000000
111111111
000000000
111111111
f (ξ)
000000000
111111111
f (U )
f (ξ)
1111111
0000000
0000000
1111111
0000000
1111111
f (U ) 1111111
0000000
0000000
1111111
0000000
1111111
0000000
1111111
0
0
Abbildung 79: Zum Beweis von Korollar 26.8
Korollar 26.5 gibt uns den Anlass, den Begriff der offenen Abbildung einzuführen:
Definition 26.6 Es seien X und Y metrische Räume. Eine Abbildung f : X −→ Y heißt
eine offene Abbildung, falls für jede offene Teilmenge U in X das Bild f (U ) offen in Y
ist.
Bemerkung 26.7
Dieser Begriff steht im Kontrast zur Stetigkeit; denn bekanntlich (Satz
10.4) ist eine Abbildung f : X −→ Y genau dann stetig, falls für jede offene Menge V in Y
das Urbild f −1 (V ) offen in X ist.
Eine wichtige Klasse von offenen Abbildungen bilden die Homöomorphismen: Die Stetigkeit
der Umkehrfunktion f −1 einer bijektiven Funktion f : X −→ Y ist äquivalent damit, dass
f offen ist.
381
Korollar 26.8
Es sei A eine offene, nicht leere Teilmenge in Rn , die Abbildung f :
n
A −→ R sei von der Klasse C 1 , und für alle ξ ∈ A sei das Differential Df (ξ) regulär. Dann
gilt:
(1) (Maximumprinzip) Die reelle Funktion x 7→ ||f (x)|| besitzt nirgends in A ein lokales
Maximum.
(2) (Minimumprinzip) Wenn die Funktion x 7→ ||f (x)|| in einem Punkt ξ ∈ A ein lokales
Minimum hat, dann ist f (ξ) = 0.
Beweis. Hätte x 7→ ||f (x)|| in einem Punkt ξ ∈ A ein lokales Maximum, dann gäbe es eine
offene Umgebung U von ξ in A, so dass f (U ) in der Kugel B||f (ξ)|| (0) enthalten ist. Dann
wäre f (ξ) ∈ f (U ) kein innerer Punkt von f (U ) (vgl. Abbildung 79). Also wäre f (U ) nicht
offen, im Widerspruch zu Korollar 26.5.
Die Funktion x 7→ ||f (x)|| besitze im Punkt ξ ∈ A ein lokales Minimum. Dann gibt es eine
offene Umgebung U von ξ in A mit f (U ) ⊆ {y ∈ Rn : ||y|| ≥ ||f (ξ)||}. Wäre f (ξ) 6= 0, dann
wäre also f (ξ) ∈ f (U ) kein innerer Punkt von f (U ). Also wäre f (U ) nicht offen, abermals
ein Widerspruch zu Korollar 26.5.
Das Offenheitsprinzip und das Maximum-/Minimumprinzip werden uns in der Funktionentheorie erneut begegnen; sie zählen zu den fundamentalen Eigenschaften komplex differenzierbarer Funktionen.
Wie wir in Abschnitt 26.1 festgestellt haben, bieten die Polarkoordinaten in der Ebene ein
Beispiel zum lokalen Umkehrsatz. Wir diskutieren jetzt Kugelkoordinaten in R3 .
Beispiel 26.9 (Kugelkoordinaten)
Auf der offenen Menge A = ]0, ∞[ ×R2 in R3 defi3
nieren wir die Funktion Φ : A −→ R durch
Φ(r, ϕ, λ) = (r cos ϕ cos λ, r cos ϕ sin λ, r sin ϕ).
Wir nennen (r, ϕ, λ) Kugelkoordinaten des Punktes (x, y, z) = Φ(r, ϕ, λ) ∈ R3 , falls Φ im
Punkt (r, ϕ, λ) lokal umkehrbar ist. In diesem Fall heißt ϕ die geografische Breite und λ
die geografische Länge von (x, y, z).
Die anschauliche Bedeutung der Kugelkoordinaten geht aus der Abbildung 80 hervor.
Für (x, y, z) = Φ(r, ϕ, λ) ergibt sich aus der Definition von Φ unmittelbar
x2 + y 2 + z 2 = r 2 .
Also ist r der Abstand des Punktes (x, y, z) ∈ R3 vom Nullpunkt. Anschaulich ist klar, dass
jeder nicht auf der z-Achse gelegene Punkt Kugelkoordinaten besitzt. Analytisch ergibt sich
382
z
P
r
z
y
ϕ
x
y
λ
x
Abbildung 80: Kugelkoordinaten
das folgendermaßen: Die Determinante der Jacobi-Matrix ist


cos ϕ cos λ −r sin ϕ cos λ −r cos ϕ sin λ


det JΦ (r, ϕ, λ) = det  cos ϕ sin λ −r sin ϕ sin λ r cos ϕ cos λ 
sin ϕ
r cos ϕ
0


cos ϕ cos λ − sin ϕ cos λ − sin λ


= r2 cos ϕ · det  cos ϕ sin λ − sin ϕ sin λ cos λ 
sin ϕ
cos ϕ
0
= r2 cos ϕ · sin2 ϕ · (− cos2 λ − sin2 λ) − cos2 ϕ · (cos2 λ + sin2 λ)
= −r2 cos ϕ .
Nach Satz 26.4 ist Φ im Punkt (r, ϕ, λ) also genau dann lokal umkehrbar, wenn r2 cos ϕ 6= 0
ist. Das sind genau diejenigen Punkte, deren Bilder nicht auf der z-Achse liegen. Tatsächlich
ist Φ auf der (ziemlich großen) offenen Teilmenge
U = ]0, ∞[ × ] − π/2, π/2[ × ]0, 2π[
von A injektiv, und deren Bild ist
Φ(U ) = {(x, y, z) ∈ R3 | y 6= 0 oder x < 0}.
Polarkoordinaten in R2 und Kugelkoordinaten in R3 sind typische Beispiele für lokale Koordinaten.
383
26.3
Der Satz über implizite Funktionen
Den Satz über die lokale Umkehrbarkeit (Satz 26.4) können wir als einen Satz über die
Lösungen eines Systems von n Gleichungen
f1 (x1 , . . . , xn ) = y1 ,
..
..
.
.
fn (x1 , . . . , xn ) = yn
in n Unbekannten x1 , . . . , xn auffassen. Unter den Voraussetzungen im Satz sind die Lösungen als Funktionen von y1 , . . . , yn eindeutig bestimmt, sofern man nur Lösungen x1 , . . . , xn
in kleinen“ Teilmengen des Rn in Betracht zieht und zudem die Werte y1 , . . . , yn nur in
”
hinreichend kleinen Mengen variieren lässt; man sagt, dass man das Gleichungssystem lokal
eindeutig nach den Variablen y1 , . . . , yn auflösen kann.
Schreiben wir das obige Gleichungssystem in der Form f (x) − y = 0 (mit x, y ∈ Rn ), so wird
einsichtig, dass darin die Variablen y1 , . . . , yn in einer sehr speziellen Weise auftreten. Stattdessen können wir auch allgemeinere Gleichungssysteme der Form f (x, y) = 0 untersuchen.
Beispiel 26.10
Es sei
f (x, y) := x2 + y 2 − 1.
Die Menge der Lösungen von f (x, y) = 0 ist die Einheitskreislinie S 1 = ∂U1 (0). In jedem
Punkt (a, b) ∈ S 1 \ {(±1, 0)} können wir diese Gleichung lokal nach y auflösen, nämlich
durch
√
√
oder
y = − 1 − x2 .
y = 1 − x2
In der Umgebung der Punkte (±1, 0) ist dies offensichtlich nicht möglich; y lässt sich hier
nicht als Funktion von x schreiben. In diesen Punkten verläuft die Tangente an die Lösungsmenge in y-Richtung, d.h. es ist
∂f
(±1, 0) = 0.
∂y
Wir betrachten nun Systeme von n Gleichungen
f1 (x1 , . . . , xm , y1 , . . . , yn ) = 0,
..
..
.
.
fn (x1 , . . . , xm , y1 , . . . , yn ) = 0
in n Unbekannten y1 , . . . , yn mit den Parametern x1 , . . . , xm . Unter den Voraussetzungen des
folgenden Satzes sagt man, dass die Variablen y durch die Gleichungen f (x, y) = 0 lokal als
implizite Funktionen der Parameter x festgelegt sind.
Notation: Es seien offene Mengen A ⊆ Rm , W ⊆ Rn und eine (total) differenzierbare
Abbildung f : A × W −→ Rn gegeben. Die Variablen in A seien mit x = (x1 , . . . , xm ) und
diejenigen in W mit y = (y1 , . . . , yn ) bezeichnet. Dann setzen wir

 ∂f1
 ∂f1
∂f1 
∂f1
.
.
.
. . . ∂x
∂y
∂y
∂x1
n
1
m


..  ,
..  .
Dx f (x, y) :=  ...
Dy f (x, y) :=  ...
. 
. 
∂fn
∂x1
...
∂fn
∂xm
∂fn
∂y1
...
∂fn
∂yn
Es handelt sich dabei also um die Jacobi-Matrizen der Abbildungen x 7→ f (x, y) bzw. y 7→
f (x, y). Sie sind zu unterscheiden vom totalen Differential Df (x, y), welches ja eine lineare
Abbildung und keine Matrix ist.
384
Satz 26.11 (Satz über implizite Funktionen)
Es seien offene Mengen A ⊆ Rm ,
n
n
W ⊆ R und eine Abbildung f : A × W −→ R von der Klasse C r mit r ≥ 1 gegeben.
Die Variablen in A seien mit x = (x1 , . . . , xm ) und diejenigen in W mit y = (y1 , . . . , yn )
bezeichnet. Es sei (a, b) ∈ A × W ein Punkt mit
f (a, b) = 0
det Dy f (a, b) 6= 0.
und
Dann ist das Gleichungssystem
f (x, y) = 0
lokal um (a, b) eindeutig durch C r -Funktionen nach y auflösbar: Es gibt eine offene Umgebung
U von a in A, eine offene Umgebung V von b in W , und es gibt eine Funktion g : U −→ V
von der Klasse C r , so dass
f (x, g(x)) = 0
für alle
x∈U
gilt und so dass aus (x, y) ∈ U × V und f (x, y) = 0 stets y = g(x) folgt. Für alle x ∈ U gilt
−1
Jg (x) = − Dy f (x, g(x))
· Dx f (x, g(x)).
Bemerkung 26.12
(1) Der Satz garantiert also die Existenz einer Funktion g : U −→ V auf einer genügend
kleinen Umgebung U von a mit zwei wichtigen Eigenschaften: Erstens sind die sämtlichen Punkte (x, y) des Graphen von g Lösungen der Gleichung f (x, y) = 0 und zweitens
erhält man alle in der Umgebung U ×V von (a, b) gelegenen Lösungen dieser Gleichung
als Punkte des Graphen von g.
y
v
U ×V
U ×f (U ×V )
y=g(x)
F
v=0
(a,b)
(a,0)
x
x
Abbildung 81: Zum Satz über implizite Funktionen
Abbildung 81 verdeutlicht (für den Fall m = n = 1) diesen Sachverhalt: Alle in einer
geeigneten Umgebung U × V der Lösung (a, b) gelegenen Lösungen der Gleichung
f (x, y) = 0 sind die Punkte des Graphen einer Funktion g : U −→ V . Der Graph von
g wird durch
F : (x, y) 7→ (x, f (x, y))
auf eine Strecke abgebildet, die auf der x-Achse liegt. Die Betrachtung dieser Funktion
F wird eine der wesentlichen Ideen im Beweis sein.
385
(2) Die Abbildung 82 zeigt für den Fall m = n = 1 einige der Möglichkeiten, die bei
Lösungsmengen von Gleichungen f (x, y) = 0 auftreten können.
• In der Nullstelle (a, b) von f mögen beide partiellen Ableitungen von f nicht verschwinden, so dass die Tangente an die Niveaulinie von f in (a, b) weder horizontal
noch vertikal ist. In diesem Punkt kann die Gleichung f (x, y) = 0 lokal nach jeder
der beiden Variablen aufgelöst werden. Die Figur zeigt eine Umgebung U × V
von (a, b), auf der die Gleichung eine Auflösung y = g(x) nach der Variablen y
besitzt. (Hingegen ist in U × V keine Auflösung nach x möglich; dies gelingt erst
nach entsprechender Verkleinerung von U × V .)
P5
P4
P6
P2
P3
P1
1111111111
0000000000
0000000000
1111111111
0000000000
1111111111
0000000000
1111111111
N
0000000000
1111111111
(a,b)
U ×V
Abbildung 82: Eine Nullstellenmenge
• Auf dem schraffierten Gebiet N soll die Funktion f konstant 0 sein. Hier besteht
keine Chance zur Auflösung der Gleichung nach einer Variablen; der Satz über
implizite Funktionen ist nicht anwendbar.
• Im Punkt P1 kann die Gleichung f (x, y) = 0 lokal nach y aufgelöst werden, nicht
jedoch nach x. Im Punkt P2 ist es gerade umgekehrt.
• In den Punkten P3 , P4 und P5 verzweigen sich die Lösungskurven. Hier ist der Satz
über implizite Funktionen nicht anwendbar, die Gleichung kann nach keiner der
Variablen lokal aufgelöst werden. Ein spezielles Beispiel hierzu bietet die Funktion
f (x, y) := y 2 − x3
im Punkt
(0, 0);
ihre Nullstellenmenge ist in Abbildung 64 dargestellt. Hier sind die ersten partiellen Ableitungen von f im Nullpunkt nach beiden Variablen gleich 0.
• Im Punkt P6 kreuzen sich zwei Lösungskurven transversal. Auch hier ist die Gleichung nach keiner der Variablen lokal auflösbar. Ein konkretes Beispiel hierzu ist
die Funktion
f (x, y) := y 2 − x2 (x + 1)
im Punkt P = (0, 0); es ist ∂f
(P ) = ∂f
(P ) = 0. Die Nullstellenmenge ist in
∂x
∂y
Abbildung 83 zu sehen. Sie ist die Spur des Weges γ(t) := (t2 − 1, t3 − t) aus
Beispiel 22.7 (2). Wir kommen am Ende von Abschnitt 28.1 auf dieses Beispiel
zurück.
386
Abbildung 83: Die Lösungen von y 2 = x2 (x + 1)
(3) Der Satz über die lokale Umkehrbarkeit ist als Spezialfall im Satz über implizite Funktionen enthalten:
Es sei F eine C r -Funktion in n Variablen, die die Voraussetzungen im Satz über lokale
Umkehrbarkeit (Satz 26.4) erfüllt. Wir wollen die lokale Umkehrbarkeit von F in einem
Punkt a nachweisen. Hierzu wenden wir Satz 26.11 mit m = n und f (x, y) := F (x) − y
an. Setzt man b := F (a), so ist f (a, b) = 0. Wegen
Dx f (x, y) = JF (x)
besagt die Invertierbarkeitsvoraussetzung im Satz über lokale Umkehrbarkeit gerade,
dass det Dx f (a, b) 6= 0 ist. Mit Satz 26.11 folgt, dass die Gleichung F (x) − y = 0 lokal
um (a, b) durch eine C r -Funktion g nach x auflösbar ist (so dass g also die lokale Inverse
von F ist) und
−1
Jg (y) = − Dx f (g(y), y)
· Dy f (g(y), y) = (JF (g(y)))−1
gilt. Dies ist gerade die Behauptung in Satz 26.4.
Wir werden anschließend den Satz über lokale Umkehrbarkeit zum Beweis des Satzes über implizite Funktionen verwenden. Man kann (wie beispielsweise in [Heuser 2,
S. 292]) auch den umgekehrten Weg gehen, also zuerst den Satz über implizite Funktionen beweisen und daraus den Satz über lokale Umkehrbarkeit als Korollar ableiten.
Beweis von Satz 26.11. I. Wir definieren die Funktion F : A × W −→ Rm+n durch
F (x, y) := (x, f (x, y)).
Sie ist von der Klasse C r . Ihre Jacobi-Matrix ist
JF (x, y) =
Em
0
!
.
Dx f (x, y) Dy f (x, y)
Hierin steht 0 für die Nullmatrix aus m Zeilen und n Spalten. Die Determinante im Punkt
(a, b) ist
det JF (a, b) = det Dy f (a, b) 6= 0.
387
Somit ist Satz 26.4 anwendbar; er liefert die lokale Umkehrbarkeit von F im Punkt (a, b).
Dieser Punkt besitzt also eine offene Umgebung, auf der F injektiv ist. Also gibt es auch
eine offene Umgebung U von a in A und eine offene Umgebung V von b in W , so dass F auf
U × V injektiv ist, F (U × V ) offen ist und so dass die Umkehrfunktion
G := (F |U ×V )−1 : F (U × V ) −→ U × V
von der Klasse C r ist. Es gilt
F (U × V ) ⊆ U × f (U × V ),
und wegen F (a, b) = (a, 0) kann man nach etwaiger Verkleinerung von U o.B.d.A.
U × {0} ⊆ F (U × V )
annehmen.76 Wir haben folgendes Diagramm von Abbildungen:
F
U ×V F (U × V )
G
@
f @
R
@
π2
f (U × V )
Darin bezeichnet π2 : Rm × Rn −→ Rn die Projektionsabbildung π2 (x, y) = y auf die zweite
Komponente y. Es gilt
π2 ◦ F = f
und
f ◦ G = π2 ◦ F ◦ G = π2 |F (U ×V ) ,
d.h. das Abbildungsdiagramm ist kommutativ. Die Aufgabe, die Gleichung f (x, y) = 0
zu lösen, wird durch die Transformation F in die Aufgabe zur Lösung von π2 (x, y) = 0
umgewandelt. Diese Lösung ist offenbar y = 0. Wir definieren deshalb die Funktion g :
U −→ V durch
(F |U ×V )−1 (x, 0) = G(x, 0) = (x, g(x))
für alle x ∈ U.
(Dies ist möglich, da (x, 0) ∈ F (U × V ) für alle x ∈ U und da F und damit auch G den
x-Anteil festlassen.) Die Funktion g ist ebenso wie G von der Klasse C r . Für alle x ∈ U ist
f (x, g(x)) = (f ◦ G)(x, 0) = π2 (x, 0) = 0.
Damit ist die Behauptung f (x, g(x)) = 0 für alle x ∈ U nachgewiesen.
Es sei (x, y) ∈ U × V irgendeine Lösung von f (x, y) = 0. Dann folgt
F (x, y) = (x, f (x, y)) = (x, 0)
und somit
(x, y) = G(x, 0) = (x, g(x)),
schließlich also y = g(x). Jede in U × V gelegene Lösung ist also ein Punkt des Graphen
von g.
II. Aus der Identität f (x, g(x)) = 0 folgt für die Jacobi-Matrizen mittels der Kettenregel
!
Em
0 = (Dx f Dy f ) (x, g(x)) ·
= Dx f (x, g(x)) + Dy f (x, g(x)) · Jg (x).
Jg (x)
Dy f (x, y) ist in allen Punkten (x, y) ∈ U × V regulär. Man kann also nach Jg (x) auflösen.
Das liefert die im Satz behauptete Formel.
76
Bei dieser Verkleinerung sollte man sich der Gefahr bewusst sein, dass die Offenheit von F (U × V )
verlorengehen könnte. Dies ist jedoch nicht der Fall, wie z.B. aus dem Offenheitsprinzip (Korollar 26.5) folgt.
388
26.4
Beispiele und Anwendungen
Beispiel 26.13
Wir betrachten im Folgenden nur Beispiele mit m = n = 1.
(1) Es sei
f (x, y) := x − y 3 .
(ξ) = 0. Daher ist Satz 26.11 nicht anwendbar. Die Gleichung
Im Punkt ξ = (0, 0) ist ∂f
∂y
f (x, y) = 0 ist dennoch überall
eindeutig nach y auflösbar. Ihre Lösungsmenge ist der
√
3
Graph der Funktion g : x 7→ x; diese ist jedoch im Punkt 0 nicht differenzierbar.
(2) Als nächstes betrachten wir die Funktion
f (x, y) := (x − y)2 .
Die Lösungsmenge von f (x, y) = 0 ist die Winkelhalbierende des ersten und dritten
Quadranten; sie ist also der Graph einer Funktion von der Klasse C ∞ . Für alle Lösungen
(a, a) gilt jedoch ∂f
(a, a) = ∂f
(a, a) = 0. Daher ist Satz 26.11 bezüglich keiner der
∂y
∂x
beiden Variablen anwendbar.
(3) Jetzt sei
f (x, y) := x2 + y 2 .
Die einzige Lösung der Gleichung f (x, y) = 0 in R2 ist ξ = (0, 0). Daher kann von
lokaler Auflösbarkeit keine Rede sein. Passenderweise ist Satz 26.11 nicht anwendbar,
(ξ) = ∂f
(ξ) = 0.
denn es ist ∂f
∂x
∂y
(4) Die Gleichung
f (x, y) := e2x−y + 3x − 2y − 1 = 0
kann nicht elementar nach x oder y aufgelöst werden. Es gilt jedoch f (0, 0) = 0, und
man berechnet
∂f
(x, y) = 2e2x−y + 3,
∂x
∂f
(x, y) = −e2x−y − 2,
∂y
also
∂f
(0, 0) = −3 6= 0.
∂y
Somit ist Satz 26.11 anwendbar, und die Gleichung lässt sich in einer Umgebung von
x = 0 durch eine C ∞ -Funktion g nach y auflösen; genauer: Es existieren offene Intervalle
I und J um den Nullpunkt und eine Funktion g : I −→ J von der Klasse C ∞ , so dass
die Punkte (x, g(x)) mit x ∈ I die sämtlichen in I×J gelegenen Lösungen der Gleichung
f (x, y) = 0 sind. Aus dem Satz folgt noch
g 0 (0) = −
5
fx
(0, 0) = .
fy
3
In Anwendungen der Mathematik sind die Koeffizienten eines Polynoms p oftmals Ergebnisse von Messungen und daher nicht exakt bekannt. Wir können uns z.B. vorstellen, dass
die Koeffizienten von einem Parameter s abhängen und stetig differenzierbare Funktionen
dieses Parameters sind. Wir hoffen, dass dann auch die Nullstellen von p differenzierbare
Funktionen des Parameters sind. Das ist für die Praxis sehr wichtig: Kleine Fehler in den
Koeffizienten sollen nur kleine Änderungen der Nullstellen verursachen. Mit dem Satz über
implizite Funktionen können wir dieses Prinzip leicht verifizieren. Wir müssen uns jedoch
auf einfache Nullstellen beschränken.
389
Satz 26.14 (Polynome mit parameterabhängigen Koeffizienten)
N
p(s, x) = x +
N
−1
X
Es sei
ak (s) · xk ,
k=0
worin die ak : A −→ R Funktionen auf einer offenen Menge A in Rm von der Klasse C r mit
einem r ≥ 1 seien. Für den Punkt s0 ∈ A sei x0 ∈ R eine einfache Nullstelle des Polynoms
x 7→ p(s0 , x). Dann gibt es eine offene Umgebung U von s0 in A, ein offenes Intervall I um
x0 und eine Funktion g : U −→ I von der Klasse C r mit
g(s0 ) = x0
und
p(s, g(s)) = 0 für alle s ∈ U.
Beweis. Wir wenden Satz 26.11 mit n = 1, f = p, a = s0 , b = x0 und (s, x) anstelle von
(x, y) an. Weil x0 eine einfache Nullstelle des Polynoms x 7→ p(s0 , x) ist, gilt
∂p
(s0 , x0 ) 6= 0.
∂x
Daher ist der Satz über implizite Funktionen tatsächlich anwendbar, und er liefert die Behauptung.
Auch im Falle einer mehrfachen Nullstelle von p(s0 , x) hängen die Nullstellen von p(s, x)
stetig, aber möglicherweise sehr empfindlich vom Parameter s ab. Zur Illustration möge das
Beispiel p(s, x) = x2012 − s dienen: Beim Übergang von s0 = 0 zu s = 2−2012 macht die
Nullstelle in x0 = 0 einen großen Sprung“ nach x = 21 .
”
In allgemeinerem Rahmen kann man die stetige Abhängigkeit der Nullstellen eines Polynoms
von den Koeffizienten in der Funktionentheorie mithilfe des Satzes von Rouché begründen.
Abbildung 84: Zum Satz über lokale Umkehrbarkeit (Zeichnung: Jens Jordan)
390
27
Lokale Extrema unter Nebenbedingungen
Bei vielen Optimierungsproblemen ist nicht einfach das Extremum einer Funktion gesucht,
sondern das Extremum unter zusätzlichen Bedingungen.
Beispiel 27.1
Es sei
M := (x, y, x2 − y 2 ) | x, y ∈ R
der Graph der Funktion (x, y) 7→ x2 − y 2 , welcher bekanntlich ein hyperbolisches Paraboloid
ist. Die Frage nach dem Abstand eines Punktes (a, b, c) ∈ R3 \ M zu M läuft darauf hinaus,
die Funktion
f (x, y, z) := (x − a)2 + (y − b)2 + (z − c)2
unter der Nebenbedingung z = x2 − y 2 zu minimieren.
Definition 27.2 Es sei f : A −→ R eine Funktion auf einer offenen Menge A ⊆ Rn ,
und M sei eine Teilmenge von A. Die Funktion f heißt im Punkt p ∈ M bedingt lokal
maximal bezüglich M , falls es eine Umgebung U von p in A gibt, so dass f (x) ≤ f (p)
für alle x ∈ M ∩ U gilt. Man sagt dann auch, dass f (x) im Punkt p lokal maximal
unter der Nebenbedingung x ∈ M ist. Analog werden bedingte lokale Minima sowie
strikte lokale Extremalstellen mit Nebenbedingungen definiert. Falls die Menge M
als Lösungsmenge eines Gleichungssystems g(x) = 0 definiert ist, dann spricht man auch von
lokalen Extremalstellen unter der Nebenbedingung g(x) = 0.
Bei der Frage nach lokalen Extrema unter Nebenbedingungen untersucht man also die Einschränkung der zu maximierenden (bzw. zu minimierenden) Funktion auf die Niveaumenge
einer anderen Funktion, welche die Nebenbedingung beschreibt.
In manchen Fällen, so auch in Beispiel 27.1, kann man das Problem auf ein Extremalproblem ohne Nebenbedingungen reduzieren, indem man jede Nebenbedingung nach jeweils
einer Variable auflöst und in die zu maximierende oder zu minimierende Funktion (die sog.
Zielfunktion) einsetzt. Das resultierende Problem kann dann prinzipiell mit den Methoden
aus Kapitel 25 angegangen werden. Dies ist freilich nicht immer praktikabel. Zudem versagt
in anderen Fällen diese Methode auch grundsätzlich, wenn man nämlich die Nebenbedingungen nicht explizit nach einer Variablen auflösen kann. Eine Methode, auch solche Probleme
anzugehen, stellt die Multiplikatorenregel von Lagrange bereit.
Motivation: Die Grundidee hinter der Multiplikatorenregel von Lagrange versucht Abbildung 85 für den Fall von Funktionen zweier Variabler zu veranschaulichen: Für ein lokales
Extremum von f im Punkt ξ unter der Nebenbedingung g(x, y) = 0 ist es erforderlich, dass
die Niveaulinien von f und von g durch ξ die gleiche Richtung haben, dass ihre Tangentenrichtungen also parallel sind (wie in der Skizze im Punkt p). Im Punkt q der Skizze, in dem
sich die Niveaulinien von f und von g kreuzen, kann f nicht bedingt lokal extremal sein;
denn wenn man längs der Niveaulinie von g durch q hindurchwandert, erreicht man sowohl
größere als auch kleinere Niveaus von f .
Da gemäß Satz 24.23 unter geeigneten Voraussetzungen die Tangenten an die Niveaulinien
jeweils orthogonal zu den Gradienten der betreffenden Funktionen sind, bedeutet dies, dass
in einem bedingten lokalen Extremalpunkt ξ die Gradienten grad f und grad g ebenfalls
parallel sein müssen.
391
q
×
p
Abbildung 85: Mehrere Niveaulinien von f und (dick gezeichnet) die Niveaulinie von g, die der
Nebenbedingung entspricht.
Dieser Gedanke lässt sich auf Funktionen von mehr als zwei Variablen und auch auf mehrere
Nebenbedingungen verallgemeinern.
Satz 27.3 (Multiplikatorenregel von Lagrange)
Es sei U ⊆ Rn offen, 1 ≤ m ≤ n−1,
m
und f : U −→ R und g : U −→ R seien stetig differenzierbare Funktionen. Es sei
M = {x ∈ U | g(x) = 0}.
Im Punkt p ∈ M habe Dg vollen Rang, es sei also rang Dg(p) = m, und f sei in p bedingt
lokal extremal bezüglich M . Dann gibt es reelle Zahlen λ1 , . . . , λm , so dass die Funktion
f + λ1 g1 + . . . + λm gm
im Punkt p eine kritische Stelle hat, so dass also
grad f (p) = −
m
X
λj · grad gj (p).
j=1
Die Zahlen λ1 , . . . , λm heißen Lagrange-Multiplikatoren.
Beweis. Wir schreiben im Folgenden
x = (v, w),
p = (a, b)
mit a, v ∈ Rm ,
b, w ∈ Rn−m .
Wegen rang Dg(p) = m können wir nach eventueller Umnummerierung der Koordinaten
det Dv g(p) 6= 0
annehmen. Deswegen und wegen g(a, b) = 0 gibt es dann nach dem Satz über implizite
Funktionen (Satz 26.11) eine offene Umgebung W von b und eine stetig differenzierbare
Abbildung ϕ : W −→ Rm , so dass (ϕ(w), w) ∈ U für alle w ∈ W ,
ϕ(b) = a
und
g(ϕ(w), w) = 0
392
für alle w ∈ W.
Differenziert man diese Beziehung mithilfe der Kettenregel, so erhält man
0 = Dv g(ϕ(w), w) · Jϕ (w) + Dw g(ϕ(w), w)
für alle w ∈ W,
für w = b also insbesondere
0 = Dv g(p) · Jϕ (b) + Dw g(p).
(27.1)
Die reellwertige Funktion
F : W −→ R,
F (w) := f (ϕ(w), w)
ist differenzierbar, und wiederum mit der Kettenregel folgt an der Stelle w = b
grad F (b) = Dv f (p) · Jϕ (b) + Dw f (p).
Aufgrund der Voraussetzung und der Wahl von g besitzt F in b ein lokales Extremum ohne
Nebenbedingung. Nach Satz 25.8 ist also grad F (b) = 0, und es folgt
0 = Dv f (p) · Jϕ (b) + Dw f (p).
(27.2)
Es fällt auf, dass die Gleichungen (27.1) und (27.2) die gleiche Struktur haben. Für die
(1 × m)-Matrix
−1
L = (λ1 , . . . , λm ) := −Dv f (p) · Dv g(p)
ergibt sich nun
Dw f (p) + L · Dw g(p)
(27.2)
=
=
−1
−Dv f (p) · Jϕ (b) − Dv f (p) · Dv g(p)
· Dw g(p)
−1
(27.1)
−Dv f (p) · Dv g(p)
· (Dv g(p) · Jϕ (b) + Dw g(p)) = 0.
Zudem gilt nach Definition von L
Dv f (p) + L · Dv g(p) = 0.
Wegen Jg = (Dv g Dw g) (und einer entsprechenden Beziehung für f ) können wir diese
beiden Identitäten zusammenfassen zu
Jf (p) + L · Jg (p) = 0.
Dies bedeutet aber gerade
grad f (p) = −
m
X
λj · grad gj (p).
j=1
393
Bei der Anwendung der Lagrange’schen Multiplikatorenregel muss man neben den n linearen
Gleichungen für die m Multiplikatoren λj auch die m Gleichungen gj (x) = 0 heranziehen.
Es ergibt sich somit folgendes Verfahren zur Bestimmung lokaler Extrema der Funktion f
unter den Nebenbedingungen g1 (x) = · · · = gm (x) = 0:
Man löse das Gleichungssystem
m
X ∂gj
∂f
(x) +
λj
(x) = 0
∂xk
∂xk
j=1
(k = 1, . . . , n)
g1 (x) = · · · = gm (x) = 0
aus n + m Gleichungen in den n + m Unbekannten x1 , . . . , xn , λ1 , . . . , λm . Die Lösungen sind
freilich nur Kandidaten für bedingte lokale Extremalstellen. Ob es sich wirklich um Extremalstellen handelt und von welcher Art sie sind, muss (wie bei dem notwendigen Kriterium
aus Satz 25.8) auf andere Weise überprüft werden.
Die Lagrange’sche Multiplikatorenregel spielt insbesondere in der Ökonomie eine bedeutende
Rolle. Die Multiplikatoren λj werden dort oft als Schattenpreise interpretiert.
Beispiel 27.4
Wir suchen das Maximum der Funktion
f (x, y, z) := x + y + z
auf dem Ellipsoid
2 y2 z2
3 x
M = (x, y, z) ∈ R 2 + 2 + 2 = 1 .
a
b
c
Darin sind a, b, c > 0 die Halbachsen des Ellipsoids. Weil M kompakt und f stetig ist,
existiert das Maximum. Die Nebenbedingung lautet
g(x, y, z) :=
x2 y 2 z 2
+ 2 + 2 − 1 = 0.
a2
b
c
In jedem Punkt p = (x, y, z) ∈ M gilt
grad g(p) =
2x 2y 2z
, ,
a2 b 2 c 2
6= 0.
Die Regularitätsbedingung in der Multiplikatorenregel von Lagrange (Satz 27.3) ist also
erfüllt. Aus ihr erhalten wir für eine bedingte lokale Extremalstelle p von f die notwendige
Bedingung
grad f (p) + λ grad g(p) = 0,
also
2λy
2λz
2λx
=
1
+
=
1
+
=0
a2
b2
c2
mit einer reellen Zahl λ. Es folgt λ 6= 0 und
x
y
z
1
= 2 = 2 = α mit α = − ,
also
p = α · (a2 , b2 , c2 ).
2
a
b
c
2λ
Wir setzen p in die Gleichung für M ein und erhalten
1
α2 · (a2 + b2 + c2 ) = 1, also p = ±p0 mit p0 := √
· (a2 , b2 , c2 ).
2
2
2
a +b +c
Im Punkt p0 nimmt f das Maximum auf M an. Der Maximalwert ist
√
f (p0 ) = a2 + b2 + c2 .
1+
394
Die Multiplikatorenregel von Lagrange ermöglicht es auch, die in Definition 23.24 eingeführte
Operatornorm einer reellen Matrix exakt zu bestimmen:
Satz 27.5
Die Operatornorm ||A|| einer reellen (m × n)-Matrix A ist gleich der Quadratwurzel aus dem größten Eigenwert der symmetrischen Matrix AT A.
Beweis. Per definitionem ist
||A|| = sup {||Ax|| : x ∈ Rn , ||x|| = 1} .
Aus Kompaktheitsgründen handelt es sich bei diesem Supremum sogar um ein Maximum.
Das Quadrat ||A||2 der Operatornorm ist also gleich dem Maximum der Funktion
f (x) := ||Ax||2 = hAx, Axi = (Ax)T (Ax) = xT AT Ax
auf der Einheitssphäre S n−1 , d.h. unter der Nebenbedingung
g(x) := ||x||2 − 1 = xT x − 1 = 0.
Dieses Maximum werde im Punkt p ∈ S n−1 angenommen, d.h. f (p) = ||A||2 . Nach Aufgabe
5.5 ist
grad f (x) = 2xT AT A,
grad g(x) = 2xT .
Für alle x ∈ S n−1 ist grad g(x) 6= 0, d.h. grad g(x) hat vollen Rang (nämlich 1). Daher ist
die Multiplikatorenregel von Lagrange anwendbar. Ihr zufolge gibt es ein λ ∈ R, so dass
0 = grad f (p) − λ · grad g(p) = 2pT AT A − 2λpT .
Es folgt
pT AT A = λpT ,
also
AT Ap = λp,
d.h. λ ist ein Eigenwert von AT A und p(6= 0) ein zugehöriger Eigenvektor. Ist µ ein beliebiger
Eigenwert von AT A und q ein zugehöriger Eigenvektor mit ||q|| = 1, so ist
f (q) = q T AT Aq = µ · q T q = µ;
insbesondere ist
||A||2 = f (p) = λ.
Dies zeigt, dass λ der größte Eigenwert von AT A ist. Hieraus folgt die Behauptung.
Dieses Resultat beruht darauf, dass wir die Vektorräume Rm und Rn mit der euklidischen
Norm ausgestattet haben; es bleibt nicht gültig, wenn man andere Normen verwendet und die
zu diesen gehörige Operatornorm betrachtet. Weitere Resultate zu Operatornormen findet
man z.B. in [Huppert, § 3 und § 5].
395
28
28.1
Untermannigfaltigkeiten und Tangentialräume
Untermannigfaltigkeiten in Rn
Untermannigfaltigkeiten sind die krummlinigen Analoga der affinen Unterräume der linearen Algebra. Sie treten in natürlicher Weise bei der Extremwertbestimmung von Funktionen
unter Nebenbedingungen (siehe Kapitel 27) auf und spielen auch in der mehrdimensionalen
Integrationstheorie eine wichtige Rolle. Ihre Einführung verdanken wir der Habilitationsschrift von Riemann (1854).
Definition 28.1 Eine Abbildung f : U −→ V einer offenen Menge U ⊆ Rn auf eine offene
Menge V ⊆ Rn heißt ein Diffeomorphismus, falls f bijektiv ist und sowohl f als auch die
Umkehrabbildung f −1 stetig differenzierbar sind77 . Insbesondere ist jeder Diffeomorphismus
ein Homöomorphismus.
Es sei 1 ≤ k ≤ n − 1. Eine nicht-leere Teilmenge M ⊆ Rn heißt eine k-dimensionale
differenzierbare Untermannigfaltigkeit des Rn , falls es zu jedem Punkt ξ ∈ M eine
offene Umgebung U von ξ in Rn und einen Diffeomorphismus
σ : U −→ σ(U )
auf eine offene Teilmenge σ(U ) ⊆ Rn gibt, so dass
σ(U ∩ M ) = σ(U ) ∩ {(x, 0) ∈ Rn | x ∈ Rk }
gilt. Jedes solche Paar (U, σ) heißt eine Karte für M , und σ heißt eine Kartenabbildung.
Eine Familie (Uj , σj )j∈J von Karten von M heißt ein Atlas von M , falls
[
M ⊆
Uj
j∈J
gilt. Im Fall k = n − 1 nennt man M eine Hyperfläche.
Falls (U, σ) und (V, τ ) zwei Karten von M mit U ∩ V 6= ∅ sind, so bezeichnet man die
Abbildung
σ ◦ (τ |U ∩V )−1 : τ (U ∩ V ) −→ σ(U ∩ V )
als Kartenwechsel.
Abbildung 86 veranschaulicht den Begriff der Untermannigfaltigkeit für n = 2, k = 1.
In einprägsamer, aber nicht exakter Ausdrucksweise besagt die Definition, dass genügend
kleine Teile von M in geeigneten krummlinigen Koordinaten überall wie ein Stück des Rk
aussehen. Präziser: Eine Karte σ : U −→ V einer k-dimensionalen differenzierbaren Untermannigfaltigkeit M des Rn induziert einen Homöomorphismus
der in M offenen78 Menge
n−k
M ∩ U auf die in Rk × {0}n−k ∼
. Nach eventueller
= Rk offene Menge V ∩ Rk × {0}
Verkleinerung von U ist daher M ∩ U homöomorph zu einer offenen Kugel in Rk . Insbesondere besitzt jeder Punkt einer solchen Untermannigfaltigkeit eine Umgebung, die dieselben
topologischen Eigenschaften wie offene Kugeln in Rk hat.
Mit diesen neuen Begrifflichkeiten können wir den Satz über implizite Funktionen (Satz
26.11) wie folgt umformulieren:
77
Aus Lemma 26.1 geht hervor, dass man sich hier von vornherein auf den Fall beschränken kann, in dem
Definitionsbereich U und Zielbereich V die gleiche Dimension haben.
78
Man beachte, dass wir hier die Relativtopologie bzgl. M benutzen, siehe Bemerkung 13.38. In Rn ist
M ∩ U i.Allg. nicht offen.
396
Rn−k
σ(U )
U ⊆ Rn
σ(U ∩M )
σ
ξ
Rk
σ(ξ)
M
Abbildung 86: Eine eindimensionale Untermannigfaltigkeit des R2 mit Kartenabbildung
Korollar 28.2
Es seien offene Mengen A ⊆ Rm , W ⊆ Rn und eine stetig differenzierbare
Abbildung f : A × W −→ Rn gegeben. Die Variablen in A seien mit x = (x1 , . . . , xm ) und
diejenigen in W mit y = (y1 , . . . , yn ) bezeichnet. Es sei (a, b) ∈ A × W ein Punkt mit
f (a, b) = 0
det Dy f (a, b) 6= 0.
und
Dann gibt es offene Umgebungen U von a und V von b, so dass
M = {(x, y) ∈ U × V | f (x, y) = 0}
eine m-dimensionale differenzierbare Untermannigfaltigkeit in Rn+m ist.
Beweis. Wir wählen U und V wie im Beweis von Satz 26.11, nämlich so, dass die stetig
differenzierbare Abbildung
F : U × V −→ U × Rn ,
F (x, y) = (x, f (x, y))
injektiv, F (U × V ) offen und die Umkehrabbildung wieder stetig differenzierbar ist. Es ist
dann F ein Diffeomorphismus. Es gilt
F (M ) = F (U × V ) ∩ {(x, 0) | x ∈ Rm }.
Somit ist M eine m-dimensionale differenzierbare Untermannigfaltigkeit des Rn+m mit (U ×
V, F ) als alleiniger Karte.
Beispiel 28.3
Es sei
f (x, y) := y 2 − x2 (x + 1),
M := (x, y) ∈ R2 | f (x, y) = 0 .
Die Funktion f ist uns bereits am Ende von Bemerkung 26.12 (2) begegnet. Für eine Skizze
von M siehe Abbildung 83.
In jedem Punkt (a, b) 6= (0, 0) von M ist wenigstens eine der partiellen Ableitungen von
f von 0 verschieden, und man kann die Gleichung f (x, y) = 0 lokal nach y oder nach x
397
f = M \ {(0, 0)} eine Umgebung
auflösen. Nach Korollar 28.2 besitzt also jeder Punkt von M
f ∩ U eine eindimensionale differenzierbare Untermannigfaltigkeit in R2
U ⊆ R2 , so dass M
f eine solche Untermannigfaltigkeit.
ist, und folglich ist auch M
Jedoch ist M selbst keine Untermannigfaltigkeit in R2 , da sich in (0, 0) zwei Zweige“ von
”
M kreuzen: Hier sieht M nicht aus wie ein Stück des R1 !
Andererseits ist M die Spur eines stetig differenzierbaren Weges, nämlich von
t 7→ (t2 − 1, t(t2 − 1));
anhand dieses Weges hatten wir in Beispiel 22.7 (2) das Phänomen von Doppelpunkten
illustriert.
Auch wenn ein stetig differenzierbarer Weg im Rn sich nicht selbst überschneidet, braucht
seine Spur keine Untermannigfaltigkeit zu sein; dies wird durch Wege wie die Neilsche Parabel γ(t) := (t2 , t3 ) (Beispiel 22.7 (1)) illustriert, die aufgrund mangelnder Regularität
in einem Punkt eine Spitze“ haben. Aber selbst die Regularität und Injektivität (d.h.
”
Selbstüberschneidungsfreiheit) eines Weges gewährleistet noch nicht, dass seine Spur eine
Untermannigfaltigkeit ist:
Beispiel 28.4
Der Weg γ : ]0; ∞[−→ R2 sei definiert durch
 9π 2
4

für 0 < t ≤

 3π · t, sin 4t
γ(t) :=



3π
2
< t ≤ 3π
(2 + 2 cos t, 1 + 2 sin t)
für
(0, 3π + 1 − t)
für 3π < t
• (2, 1)
Abbildung 87: Der Weg γ aus Beispiel 28.4
398
3π
2
Man überlegt sich leicht“, dass γ ein injektiver regulärer Weg ist, dass also γ stetig diffe”
renzierbar mit γ 0 (t) 6= 0 für alle t ist. Jedoch ist Spur (γ) keine Untermannigfaltigkeit des
R2 ; dies wird einsichtig, wenn man kleine Umgebungen der Punkte (0, y) mit −1 ≤ y ≤ 1
betrachtet.
28.2
Der Satz vom regulären Wert und der Immersionssatz
Wir sind in Abschnitt 24.6 auf die Frage gestoßen, unter welchen Voraussetzungen die Niveaumengen einer reellwertigen Funktion von zwei Variablen die Spur eines regulären Weges
sind und berechtigterweise Niveaulinien“ genannt werden können. Der Satz über implizite
”
Funktionen ermöglicht eine Antwort auf eine allgemeinere Frage: Es sei f : A −→ R eine
differenzierbare Funktion auf einer offenen Menge A in Rn . Unter welchen Voraussetzungen
sind die Niveaumengen f −1 ({c}) Untermannigfaltigkeiten, genauer Hyperflächen in Rn ?
Satz 28.5 (Satz vom regulären Wert)
Es sei m < n und f : A −→ Rm eine
stetig differenzierbare Funktion auf einer offenen, nicht-leeren Teilmenge A des Rn . Es sei
c ∈ Rm , und für alle ξ ∈ A mit f (ξ) = c habe Df (ξ) den maximalen Rang m. Dann ist die
Niveaumenge
f −1 ({c}) = {x ∈ A | f (x) = c}
entweder leer oder eine differenzierbare Untermannigfaltigkeit des Rn der Dimension n − m.
Beweis. Wir dürfen annehmen, dass f −1 ({c}) nicht leer ist. Es sei ein Punkt ξ ∈ f −1 ({c})
gegeben. Dann ist ξ eine Nullstelle der Funktion g := f − c. Nach Voraussetzung gilt
rang Dg(ξ) = rang Df (ξ) = m.
Die Jacobi-Matrix Jg (ξ) enthält also m linear unabhängige Spalten. Daher gibt es Indizes
1 ≤ j1 < · · · < jm ≤ n, so dass

 ∂g1
∂g1
. . . ∂x
∂xj1
jm
 .
.. 
..
det 
. 
 (ξ) 6= 0.

∂gm
∂gm
. . . ∂x
∂xj
j
m
1
Durch geeignete Nummerierung der Koordinaten x1 , . . . , xn in Rn können wir jν = ν, also
∂(g1 , . . . , gm )
det
(ξ) 6= 0
∂(x1 , . . . , xm )
erreichen. Damit ist Korollar 28.2 anwendbar; es folgt die Existenz einer Umgebung W von
ξ, so dass
M := {x ∈ W | g(x) = 0} = f −1 ({c}) ∩ W
eine differenzierbare Untermannigfaltigkeit des Rn der Dimension n − m ist. Damit ist auch
f −1 ({c}) selbst eine solche Untermannigfaltigkeit.
399
Ein Wert c wie in Satz 28.5, für den also Df (ξ) in allen Punkten ξ ∈ f −1 ({c}) maximalen
Rang hat, bezeichnet man auch als regulären Wert. Dies erklärt den Namen des Satzes.
Definition 28.6 Unter den Voraussetzungen in Satz 28.5 heißt die Mannigfaltigkeit
f −1 ({c}) im Falle m = 1 eine Niveauhyperfläche und im Falle m = 1, n = 2 eine Niveaulinie der Funktion f .
Beispiel 28.7
Wir betrachten die Funktionen
f1 (x, y) := x2 + y 2
und
f2 (x, y) := xy.
Für beide Funktionen ist die Niveaumenge zum Niveau c = 0 keine Untermannigfaltigkeit
in R2 , denn f1−1 ({0}) besteht nur aus einem Punkt, und f2−1 ({0}) besteht aus zwei sich
schneidenden Geraden.
Für c < 0 ist f1−1 ({c}) = ∅. Die Niveaumengen f1−1 ({c}) mit c > 0 und f2−1 ({c}) mit
beliebigem c 6= 0 sind Untermannigfaltigkeiten in R2 , nämlich Kreise bzw. Hyperbeln.
Diese Beobachtungen stehen im Einklang damit, dass die Gradienten
grad f1 (x, y) = (2x, 2y),
grad f2 (x, y) = (y, x)
genau in den Punkten (x, y) 6= (0, 0) den maximalen Rang haben, der Wert f1 (0, 0) =
f2 (0, 0) = 0 also der einzige nicht-reguläre Wert von f1 wie auch von f2 ist.
Für differenzierbare Abbildungen f : Rn −→ Rm mit m < n sind die Urbilder f −1 ({c})
von Punkten c ∈ Rm gemäß Satz 28.5 also meistens“ Untermannigfaltigkeiten im Rn der
”
Dimension n−m. Wir beweisen nun ein Gegenstück hierzu: Für differenzierbare Abbildungen
f : Rk −→ Rn mit k < n sind die Bilder f (U ) von offenen Mengen U ⊆ Rk lokal meistens“
”
Untermannigfaltigkeiten in Rn der Dimension k.
Satz 28.8 (Immersionssatz)
Es sei k < n und f : A −→ Rn stetig differenzierbar auf
einer offenen Menge A ⊆ Rk . Im Punkt ξ ∈ A habe Df (ξ) den vollen Rang k. Dann gibt es
eine offene Umgebung U von ξ in A mit den folgenden Eigenschaften:
(1) Die Funktion f bildet U homöomorph auf S = f (U ) ab.
(2) Es gibt eine offene Menge V ⊆ Rk und eine stetig differenzierbare Funktion ϕ : V −→
Rn−k , so dass bei geeigneter Nummerierung der Koordinaten in Rn
S = {(x, ϕ(x)) | x ∈ V } = {(x1 , . . . , xk , ϕk+1 (x), . . . , ϕn (x)) | x = (x1 , . . . , xk ) ∈ V }
gilt.
(3) Das Bild S = f (U ) ist eine k-dimensionale differenzierbare Untermannigfaltigkeit in
Rn .
Wir können den Immersionssatz einprägsam, aber etwas ungenau wie folgt aussprechen:
Wenn Df (ξ) den Raum Rk bijektiv auf einen k-dimensionalen Teilraum des Rn abbildet,
dann bildet f eine Umgebung U von ξ bijektiv auf eine k-dimensionale Untermannigfaltigkeit
S in Rn ab. Die Menge U ⊆ A wird also mittels f als Untermannigfaltigkeit S in den Rn
eingebettet“ ( immersiert“); das erklärt den Namen des Satzes.
”
”
400
Beweis von Satz 28.8. Wir bezeichnen die Variablen in Rk und Rn mit x = (x1 , . . . , xk )
beziehungsweise mit y = (y1 , . . . , yn ). Die Jacobi-Matrix Jf (ξ) aus n Zeilen und k Spalten
hat nach Voraussetzung den Rang k. Sie hat also k linear unabhängige Zeilen, d.h. es gibt
eine (k × k)-Untermatrix, deren Determinante nicht 0 ist. Indem wir die Koordinaten in Rn ,
also die Funktionen f1 , . . . , fn geeignet nummerieren, erreichen wir
∂(f1 , . . . , fk )
(ξ) 6= 0.
det
∂(x1 , . . . , xk )
Wir setzen
h(x) := (f1 (x), . . . , fk (x))
für
x ∈ A.
Es ist h = p ◦ f mit der Projektionsabbildung
p : Rn −→ Rk ,
p(u1 , . . . , uk , uk+1 , . . . , un ) = (u1 , . . . , uk ).
Die Funktion h ist ebenso wie f stetig differenzierbar. Es gilt
∂(f1 , . . . , fk )
(ξ) 6= 0.
det Jh (ξ) = det
∂(x1 , . . . , xk )
Somit erfüllt h im Punkt ξ die Voraussetzungen des Satzes über lokale Umkehrbarkeit (Satz
26.4). Danach gibt es eine offene Umgebung U von ξ in A mit den folgenden Eigenschaften:
Das Bild V = h(U ) ist offen in Rk , h ist injektiv auf U , Dh ist in jedem Punkt von U regulär,
und die Umkehrabbildung g = (h|U )−1 : V −→ U ist stetig differenzierbar.
Wir setzen S := f (U ) und erhalten das folgende Diagramm von Abbildungen:
f |U
U
S = f (U )
-
I g
@@
@
h|U@@
R@
p|S
V
Nach Definition von h und g gilt
p ◦ f ◦ g = h ◦ g = idV
und
g ◦ p ◦ f |U = g ◦ h|U = idU .
Das Abbildungsdiagramm ist also kommutativ. Die zweite Formel zeigt, dass nicht nur h|U ,
sondern auch f |U injektiv ist, und dass
(f |U )−1 = g ◦ p|S
gilt. Demnach ist (f |U )−1 stetig, und damit ist (1) bewiesen. (Wegen k < n ist der Definitionsbereich S dieser Funktion nicht offen in Rn , und daher wäre es nicht sinnvoll, von
Differenzierbarkeit zu reden.)
Weil p die ersten k Koordinaten fest lässt und p ◦f ◦g = idV gilt, sind die ersten k Koordinaten
von (f ◦ g)(x) identisch mit x. Für x = (x1 , . . . , xk ) ∈ V gilt also
(f ◦ g)(x1 , . . . , xk ) = (x1 , . . . , xk , ϕk+1 (x1 , . . . , xk ), . . . , ϕn (x1 , . . . , xk ))
401
mit gewissen Funktionen ϕj : V −→ R. Diese Funktionen sind stetig differenzierbar, weil
das für f und g zutrifft. Mit ϕ := (ϕk+1 , . . . , ϕn ) gilt also
S = f (U ) = (f ◦ g ◦ h)(U ) = (f ◦ g)(V ) = {(x, ϕ(x)) | x ∈ V } .
Dies zeigt die Behauptung (2).
e := V × Rn−k definieren wir
Auf der offenen Menge U
e −→ Rn ,
σ:U
σ(x, z) := (x, z − ϕ(x))
für x ∈ V, z ∈ Rn−k .
Dann ist σ offensichtlich injektiv, und aus
Jσ (x, z) =
Ek
0
−Jϕ (x) En−k
e . Gemäß Korollar 26.5 und Satz 26.4
folgt die Regularität von Dσ(x, z) für alle (x, z) ∈ U
e ) offen und σ −1 stetig differenzierbar. Also ist σ ein Diffeomorphismus. Weiter
ist daher σ(U
e und
folgt S ⊆ U
e ∩ S) = σ(S) = {(x, 0) | x ∈ V }.
σ(U
e , σ) eine Karte für S. Damit ist (3) bewiesen.
Demnach ist (U
Beispiel 28.9
(1) Ist k = 1 und A = I ein offenes Intervall sowie f : I −→ Rn ein regulärer Weg in Rn
im Sinne von Definition 22.6, d.h.
f 0 (t) = (f10 (t), . . . , fn0 (t))T 6= (0, . . . , 0)
für alle t ∈ I,
so gibt es gemäß Satz 28.8 für alle t0 ∈ I ein δ > 0, so dass das Bild f ( ]t0 − δ, t0 + δ[ )
eine eindimensionale Untermannigfaltigkeit in Rn ist.
Dennoch braucht f (I) selbst keine Untermannigfaltigkeit in Rn zu sein: Es können
Selbstüberkreuzungen auftreten, siehe Beispiel 28.3.
(2) Wir definieren f : R2 −→ R3 durch
f (θ, λ) := (sin θ, cos θ sin λ, cos θ cos λ).
Das Bild f (R2 ) = S 2 ist die Einheitssphäre. Offenbar ist f nicht injektiv. Im Punkt
ξ = (0, 0) ist f (ξ) = (0, 0, 1). Man berechnet




cos θ
0
1 0


Jf (θ, λ) =  − sin θ sin λ cos θ cos λ  ,
also
Jf (ξ) = 0 1 .
0 0
− sin θ cos λ − cos θ sin λ
Im Punkt ξ ist also die Rangbedingung von Satz 28.8 erfüllt. Für eine geeignete offene
Umgebung U von ξ ist demnach das Bild S = f (U ) gleich dem Graphen einer Funktion
ϕ : V −→ R. In diesem Beispiel können wir ϕ explizit angeben: Es ist
p
p
und
f (U ) = {(x, y, 1 − x2 − y 2 ) | (x, y) ∈ V }
ϕ(x, y) = 1 − x2 − y 2
für geeignete Umgebungen U und V von (0, 0) in R2 .
402
z
S = f (U )
λ
U
f
θ
y
V
x
Abbildung 88: Die Einheitssphäre S 2 als Untermannigfaltigkeit (Beispiel 28.9 (2))
28.3
Tangentialebenen an Untermannigfaltigkeiten
Aus Definition 22.4 ist der Begriff des Tangentialvektors an einen Weg im Rn bekannt. Wir
wollen jetzt erklären, was eine Tangentialebene in einem Punkt p einer Untermannigfaltigkeit
M in Rn ist. Wir betrachten dazu Wege durch den Punkt p, die in M verlaufen. Diese besitzen
Tangentialvektoren, welche die Tangentialebene aufspannen.
γ2 v2
p
γ1
v1
M
Abbildung 89: Tangentialvektoren
Definition 28.10 Es sei k < n, und M sei eine k-dimensionale differenzierbare Untermannigfaltigkeit in Rn . Ein Vektor v ∈ Rn heißt ein Tangentialvektor an M im Punkt
p ∈ M , falls es einen stetig differenzierbaren Weg γ : ] − ε, ε[ −→ M mit γ(0) = p und
γ 0 (0) = v gibt. Die Gesamtheit aller Tangentialvektoren an M in p heißt Tangentialraum
von M im Punkt p; er wird mit Tp M bezeichnet.
In Satz 28.11 wird gezeigt, dass Tp M ein k-dimensionaler Untervektorraum des Rn ist. Diesen
denken wir uns im Punkt p angeheftet“; wir bilden also den k-dimensionalen affinen Raum
”
Ep (M ) := p + Tp M = {p + v | v ∈ Tp M }.
Wir nennen Ep (M ) die Tangentialebene an M im Punkt p.
403
Satz 28.11
Ist M eine k-dimensionale differenzierbare Untermannigfaltigkeit in Rn und
p ∈ M , so ist der Tangentialraum Tp M ein k-dimensionaler Untervektorraum des Rn .
Beweis. Wir betrachten zunächst den Prototypen einer k-dimensionalen Untermannigfaltigkeit des Rn , nämlich den Untervektorraum
M = Rk × {0}n−k .
Ist v ∈ Tp M , so ist v = γ 0 (0) für einen stetig differenzierbaren Weg γ : ] − ε, ε[ −→ M mit
γ(0) = p. Wegen γk+1 (t) = · · · = γn (t) = 0 für alle t ist auch
0
γk+1
(0) = · · · = γn0 (0) = 0,
d.h.
v ∈ Rk × {0}n−k .
Ist umgekehrt ein v ∈ Rk × {0}n−k gegeben, so ist v der Tangentialvektor des in M verlaufenden Weges γ(t) := p + tv an der Stelle t = 0. Dies zeigt
Tp M = M
im Falle
M = Rk × {0}n−k .
Der allgemeine Fall einer beliebigen Untermannigfaltigkeit M ergibt sich mithilfe einer Karte
(U, ϕ) von M zum Punkt p; es sei also U eine offene Umgebung von p in Rn , ϕ : U −→ ϕ(U )
sei ein Diffeomorphismus, und es sei
ϕ(U ∩ M ) = ϕ(U ) ∩ Rk × {0}n−k .
Rn−k
p
γ
ϕ
Γ
v
X
U ∩M
ϕ(U ∩ M )
M
Abbildung 90: Zum Beweis von Satz 28.11
Es sei v ∈ Tp M . Dann gibt es einen Weg γ : ] − ε, ε[ −→ M durch den Punkt γ(0) = p mit
v = γ 0 (0). O.B.d.A. dürfen wir Spur (γ) ⊆ U annehmen. Dann ist die Komposition Γ := ϕ◦γ
wohldefiniert; sie ist ein Weg in Rk × {0}n−k durch den Punkt Γ(0) = ϕ(p). Daher ist
Γ0 (0) ∈ Tϕ(p) Rk × {0}n−k ,
und nach der Kettenregel ist
Γ0 (0) = (ϕ ◦ γ)0 (0) = Jϕ (γ(0)) · γ 0 (0) = Jϕ (p) · v.
n−k
k
Ist umgekehrt X ∈ Tϕ(p) R × {0}
, also X = Γ0 (0) für einen Weg Γ : ] − ε, ε[ −→
Rk × {0}n−k durch Γ(0) = ϕ(p), so gibt es ein δ > 0, so dass Γ(t) ∈ ϕ(U ) für alle t ∈ ] − δ; δ[
gilt. Durch
γ := ϕ−1 ◦ Γ|]−δ;δ[
404
ist dann ein Weg in M durch γ(0) = p definiert, und es folgt
γ 0 (0) ∈ Tp M
und
X = Γ0 (0) = Jϕ (p) · γ 0 (0) ∈ Jϕ (p) (Tp M ).
Damit und mit dem eingangs Gezeigten ergibt sich
n−k
k
Jϕ (p) (Tp M ) = Tϕ(p) R × {0}
= Rk × {0}n−k .
Da ϕ ein Diffeomorphismus ist, ist Jϕ (p) invertierbar (Satz über lokale Umkehrbarkeit!).
Also ist
Tp M = Jϕ (p)−1 Rk × {0}n−k .
Als Bild von Rk × {0}n−k unter der injektiven linearen Abbildung (Dϕ(p))−1 ist damit auch
Tp M ein k-dimensionaler Unterraum des Rn .
Der Satz vom regulären Wert und der Immersionssatz stellen zwei wichtige Methoden zur
Konstruktion von Untermannigfaltigkeiten dar. In beiden Fällen können wir die Tangentialräume mehr oder minder explizit bestimmen. Dies ist der Inhalt der beiden folgenden
Sätze.
Satz 28.12
Es sei k < n und f : A −→ Rn eine stetig differenzierbare Funktion auf
einer offenen Menge A ⊆ Rk . Es sei ξ ∈ A, Df (ξ) habe den maximalen Rang k, und
es sei eine Umgebung U ⊆ A von ξ so gewählt79 , dass S = f (U ) eine k-dimensionale
Untermannigfaltigkeit im Rn ist. Dann wird der Tangentialraum an S im Punkt p = f (ξ)
von den Spaltenvektoren der Jacobi-Matrix Jf (ξ) von f in ξ aufgespannt, d.h. es ist
Tp S = Jf (ξ) (Rk ).
Beweis. Es sei ein j ∈ {1, . . . , k} gegeben. Wegen der Offenheit von U gibt es ein ε > 0 mit
{ξ + tej | − ε < t < ε} ⊆ U. Wir können also einen Weg ϕ : ] − ε; ε[−→ U durch
ϕ(t) := ξ + tej
für − ε < t < ε
definieren. Es sei γ := f ◦ ϕ. Dann ist γ : ] − ε; ε[−→ S ein Weg in S mit
γ(0) = f (ϕ(0)) = f (ξ) = p.
Folglich ist
γ 0 (0) = Jf (ϕ(0)) · ϕ0 (0) = Jf (ξ) · ej
ein Tangentialvektor an S in p, d. h. Jf (ξ) · ej ∈ Tp S. Da dies für alle j = 1, . . . , k gilt und
Tp S nach Satz 28.11 ein Vektorraum ist, ist damit
Jf (ξ)(Rk ) = hh Jf (ξ) · e1 , . . . , Jf (ξ) · ek ii ⊆ Tp S
gezeigt80 . Wiederum nach Satz 28.11 ist
dim Tp S = k = rang Jf (ξ),
Jf (ξ)(Rk ) und Tp S haben also gleiche Dimension. Daher ist sogar
Jf (ξ)(Rk ) = Tp S.
79
Eine solche Umgebung existiert nach dem Immersionssatz.
Hierbei bezeichnet hh M ii die lineare Hülle (das Erzeugnis) einer Teilmenge M eines Vektorraums
V , d.h. die Menge aller (endlichen) Linearkombinationen von Elementen von M . Es handelt sich dabei um
den kleinsten Untervektorraum von V , der M enthält.
80
405
Satz 28.13 Es sei m < n und f : A −→ Rm eine stetig differenzierbare Funktion auf einer
offenen, nicht-leeren Teilmenge A des Rn . Es sei c ∈ Rm , und für alle ξ ∈ A mit f (ξ) = c
habe Df (ξ) den maximalen Rang m. Es sei
M = {x ∈ A | f (x) = c} = f −1 ({c})
und p ∈ M . Dann gilt
Tp M = Kern Df (p) = {v ∈ Rn | hgrad fk (p) , vi = 0 für alle k = 1, . . . , m}.
Der Tangentialraum Tp M besteht hier also aus sämtlichen Vektoren v, die zu allen Gradienten grad fk (p) orthogonal sind. Das verallgemeinert die Beobachtung aus Satz 24.23 über
Tangentialvektoren an in Niveaumengen von Funktionen verlaufende Wege.
Beweis. Aufgabe 9.1
Falls M eine Hyperfläche ist, gibt es durch jeden Punkt p ∈ M genau eine Gerade, die
orthogonal zu M ist:
Definition 28.14 Es sei M eine Hyperfläche in Rn . Nach Satz 28.11 ist dann für jedes
p ∈ M der Tangentialraum Tp M ein (n − 1)-dimensionaler Teilvektorraum in Rn , und der
dazu orthogonale Raum
Np M = {X ∈ Rn | hX, vi = 0 für alle v ∈ Tp M }
hat die Dimension 1. Die Gerade
Np (M ) = p + Np M = {p + X | X ∈ Rn , hX, vi = 0 für alle v ∈ Tp M }
heißt die Flächennormale von M im Punkt p.
Np (M )
p
Abbildung 91: Eine Flächennormale
Wenn M wie im Satz vom regulären Wert lokal durch eine Gleichung f (x) = c definiert ist,
dann können wir die Flächennormale leicht angeben:
406
Satz 28.15
Es sei M eine Hyperfläche in Rn . Im Punkt p ∈ M sei M lokal durch eine
Gleichung f (x) = c definiert, wobei c ein regulärer Wert von f sei. Dann gibt der Vektor
grad f (p) die Richtung der Flächennormalen von M im Punkt p an.
Auch dieser Sachverhalt ist im Kern aus Satz 24.23 bekannt.
Beweis. Die Voraussetzung besagt ausführlich, dass es eine offene Umgebung U von p in Rn
und eine stetig differenzierbare Funktion f : U −→ R gibt, so dass
M ∩ U = {x ∈ U | f (x) = c}
ist und grad f (x) 6= 0 für alle x ∈ U ist. Aus Satz 28.13 folgt
Tp M = Kern Df (p) = {X ∈ Rn | hX , grad f (p)i = 0}.
Dies zeigt grad f (p) ∈ Np M . Weil der Vektorraum Np M eindimensional ist, wird er sogar
von grad f (p) aufgespannt. Dies zeigt die Behauptung.
Beispiel 28.16
Sphäre
Wir bestimmen den Tangentialraum und die Flächennormale an die
M := S n−1 = {x ∈ Rn | f (x) = 1}
mit
f (x) = x21 + . . . + x2n .
Es ist
grad f (x) = (2x1 , . . . , 2xn ) = 2x 6= 0
für alle x ∈ M.
Für alle p ∈ M ist daher gemäß Satz 28.13
Tp M = {v ∈ Rn | hv, pi = 0} ,
und aus Satz 28.15 erhalten wir die Flächennormale
Np (M ) = {t · p | t ∈ R}.
Bemerkung 28.17
Licht:
Die Multiplikatorenregel von Lagrange erscheint nun in einem neuen
Wie in Satz 27.3 sei U ⊆ Rn offen, 1 ≤ m ≤ n − 1, und f : U −→ R und g : U −→ Rm seien
stetig differenzierbare Funktionen. Es sei
M = {x ∈ U | g(x) = 0}.
Für ein p ∈ M habe Dg(p) den vollen Rang m und f sei in p bedingt lokal extremal bezüglich
M.
Nach etwaiger Verkleinerung von U (so dass Dg(q) für alle q ∈ U vollen Rang hat) können
wir gemäß Satz 28.5 o.B.d.A. annehmen, dass M eine Untermannigfaltigkeit des Rn der
Dimension n − m ist. Ist γ ein stetig differenzierbarer Weg in M durch γ(0) = p, so ist f ◦ γ
lokal extremal in t = 0, es ist also
0 = (f ◦ γ)0 (0) = hgrad f (p), γ 0 (0)i.
407
Daher steht grad f (p) senkrecht auf dem Tangentialraum Tp M . Dieser ist nach Satz 28.13
das orthogonale Komplement des Unterraums
W := hhgrad g1 (p), . . . , grad gm (p)ii.
Es ist also
grad f (p) ∈ Tp M ⊥ = W ⊥⊥ = W.
(Für die Gleichheit von W und W ⊥⊥ ist die endliche Dimension des Rn wesentlich!) Also ist
grad f (p) eine Linearkombination von grad g1 (p), . . . , grad gm (p). Dies ist gerade die Aussage
der Lagrangeschen Multiplikatorenregel.
28.4
Ausblick: Der Begriff der Mannigfaltigkeit
Der abstrakte Begriff der Mannigfaltigkeit ist für viele Anwendungen der Mathematik, namentlich in der neueren theoretischen Physik, unverzichtbar. Wir lösen uns von der Vorstellung, dass eine Mannigfaltigkeit M eine Teilmenge irgend eines Raumes Rn sein soll. Wir
verzichten also auf eine Einbettung“ M ⊆ Rn . Vielmehr soll M nur überall lokal wie ein
”
Stück des Rm aussehen. Diese Forderung wird folgendermaßen präzisiert:
Definition 28.18 Es sei m ∈ N und r ∈ N0 oder r = ∞. Eine m-dimensionale Mannigfaltigkeit der Klasse C r ist ein Paar (M, A) mit den folgenden Eigenschaften:
(M1) Die Menge M trägt die Struktur T eines topologischen Raumes mit der Hausdorffschen Trennungseigenschaft (d.h. für alle paarweise verschiedenen u, v ∈ M gibt
es offene Mengen U, V ∈ T mit u ∈ U , v ∈ V und U ∩ V = ∅).
(M2) Die Familie A = ((Uj , σj ))j∈I ist ein Atlas auf M . Damit ist gemeint, dass jedes Uj
eine offene Teilmenge in M (also Uj ∈ T ) ist, dass
[
M=
Uj
j∈I
gilt, und dass σj : Uj −→ Rm ein Homöomorphismus von Uj auf eine offene Teilmenge
σj (Uj ) in Rm ist. Die Paare (Uj , σj ) heißen Karten von M .
(M3) Falls für zwei Indizes j, k ∈ I der Durchschnitt Uj ∩ Uk 6= ∅ ist, dann ist die Abbildung
σk ◦ σj−1 : σj (Uj ∩ Uk ) −→ σk (Uj ∩ Uk )
zwischen offenen Teilmengen in Rm eine Abbildung von der Klasse C r . Die Abbildungen
τkj = σk ◦ σj−1 heißen Kartenwechsel.
Einige Erläuterungen zur Definition erscheinen nötig. Die Situation in der Forderung (M3)
kann man sich wie in Abbildung 92 vorstellen.
Gemäß (M2) und (M3) sind die Kartenabbildungen σj : Uj −→ σj (Uj ) Homöomorphismen
und die Kartenwechsel sogar Diffeomorphismen.
Im Falle r = 0 wird in (M3) nur verlangt, dass alle Kartenwechsel stetig sind. Das folgt aber
bereits aus (M2). Für r = 0 kann also die Forderung (M3) weggelassen werden.
408
Uj
11111111
00000000
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
M
σj
Rm
111111
000000
000000
111111
000000
111111
000000
111111
000000
111111
Uk
σk
σk ◦ σj−1
1111111
0000000
0000000
1111111
0000000
1111111
0000000
1111111
0000000
1111111
Abbildung 92: Kartenwechsel
Strenggenommen müsste man die Kartenwechsel eigentlich in der Form τkj = σk ◦(σj |Uj ∩Uk )−1
schreiben. In der Praxis vermeidet man derartig pedantische Schreibweisen jedoch.
Bei vielen Untersuchungen ist es zweckmäßig und üblich, von einer Mannigfaltigkeit M
zusätzlich zu verlangen, dass der topologische Raum M zusammenhängend ist, d.h. dass
es keine nichttriviale disjunkte Zerlegung von M in zwei offene Teilmengen gibt.
Ein berühmtes Problem im Zusammenhang mit Mannigfaltigkeiten (eines der MillenniumProbleme) war die
Poincaré-Vermutung: Jede kompakte dreidimensionale Mannigfaltigkeit M mit der Eigenschaft, dass sich jeder geschlossene Weg in M stetig zu einem Punkt deformieren lässt,
ist homöomorph zu S 3 .
Sie wurde 2003 von dem russischen Mathematiker G. Perelman bewiesen.
409
Teil V
Die Lebesguesche Integrationstheorie
In den folgenden Abschnitten wird eine Integrationstheorie für reellwertige Funktionen von
mehreren Variablen entwickelt. Die Theorie leistet auch im Falle einer Variablen deutlich
mehr als die Riemannsche Integrationstheorie. Das Riemannsche Integral ist für die meisten
praktischen Bedürfnisse völlig ausreichend, und es hat den unschätzbaren Vorzug einfacher
Definitionen und leichter Verständlichkeit. Einige theoretische Nachteile führten aber zu
Bemühungen, bessere Integrationstheorien zu entwickeln:
1. Der vielleicht gravierendste Nachteil des Riemannschen Integrals liegt in den eingeschränkten Möglichkeiten der Vertauschung mit Grenzübergängen. In Satz 19.2 wird
die gleichmäßige Konvergenz der zu integrierenden Folge oder Reihe vorausgesetzt.
Diese Voraussetzung ist oft nicht erfüllt, obwohl die Vertauschung sinnvoll und richtig
erscheint. Die Lebesgue-Theorie stellt wesentlich leistungsfähigere Vertauschungssätze
zur Verfügung; wir werden diese in Kapitel 30.4 behandeln.
2. Die Riemannsche Integrationstheorie erfasst zunächst nur beschränkte Funktionen auf
kompakten Intervallen. Dieser Einschränkungen entledigt man sich erst nachträglich“
”
durch die Einführung von uneigentlichen Integralen. Hierfür haben wir jedoch keinen
Satz über die Vertauschung mit Grenzübergängen kennengelernt. In der Lebesgueschen
Theorie wird von vornherein auf die Beschränktheit der Funktionen und ihrer Definitionsbereiche verzichtet. Alle Vertauschungssätze in Kapitel 30.4 kommen ohne derartige
Voraussetzungen aus.
3. Die Riemann-integrierbaren Funktionen auf einem Intervall [a, b] bilden einen Vektorraum, und auf diesem Vektorraum ist durch
Z
||f ||1 =
b
|f (x)|dx
a
eine Norm gegeben. Das ist recht erfreulich. Weniger schön ist es, dass dieser Vektorraum nicht vollständig bezüglich der Norm ist. (Wir erinnern uns an die rationalen
Zahlen, die nicht vollständig bezüglich der euklidischen Metrik sind.) Die Lebesguesche
Integrationstheorie behebt auch diesen Nachteil. Wir werden in Kapitel 32 den Raum
der integrierbaren Funktionen mit der Norm ||.||1 und einige andere normierte Räume
von Funktionen behandeln und zeigen, dass diese vollständig sind.
Henri Lebesgue (1875 – 1941) hat seine Integrationstheorie 1902 begründet. In den folgenden
beiden Jahrzehnten wurde die Theorie von mehreren Mathematikern weiter ausgebaut, neben
Lebesgue selber insbesondere von B. Levi (1875 – 1961) und G. Fubini (1879 – 1943).
Die stärkere Integrationstheorie ist nicht umsonst zu erhalten. Man bezahlt“ mit einem
”
höheren Aufwand bei den Definitionen und den Beweisen. Die Lehrbücher der Analysis
bieten unterschiedliche Zugänge zur Lebesgueschen Integrationstheorie. Der im Folgenden
gewählte Zugang entspricht weitgehend dem in [Köhler]; allerdings wird aus Zeitgründen
statt allgemeiner Maße nur das gewöhnliche Volumenmaß betrachtet.
410
Ein wichtiges Problem im Hinblick auf den Hauptsatz der Differential- und Integralrechnung
ist die Integration der Ableitung differenzierbarer Funktionen. Im Jahr 1881 fand V. Volterra (1860 – 1940) eine differenzierbare Funktion f : [0, 1] −→ R, deren Ableitung f 0 zwar
beschränkt, aber auf keinem echten Teilintervall von [0, 1] Riemann-integrierbar ist. Dieses
Beispiel war für Lebesgue eine der Triebfedern zur Entwicklung einer besseren Integrationstheorie. In seiner Theorie ist die Ableitung f 0 einer differenzierbaren Funktion f integrierbar,
falls f 0 beschränkt ist, und es gilt dann die Formel
Z b
f 0 (x) dx = f (b) − f (a)
a
des Hauptsatzes (Satz 30.33).
Dennoch erfüllt das Lebesguesche Integral nicht alle Wünsche, die man an eine Integrationstheorie stellen könnte. Zum Beispiel gibt es differenzierbare Funktionen f von einer Variablen, deren Ableitung f 0 nicht Lebesgue-integrierbar ist. Das aus Beispiel 21.7 bekannte
konvergente uneigentliche Integral
Z ∞
sin x
dx
x
0
existiert in der Lebesgueschen Theorie nicht, weil nach Satz 30.11 für jede integrierbare
Funktion auch ihr Betrag integrierbar ist und weil der Betrag von sinx x auf [0, ∞[ nicht
integrierbar ist.
Wir betrachten im Folgenden stets Funktionen auf mehrdimensionalen Definitionsbereichen.
Diese Erweiterung des Definitionsbereichs ist jedoch nicht der Grund für den Übergang vom
Riemann- zum Lebesgue-Integral: Auch im Rahmen der Riemannschen Integrationstheorie
ist es problemlos möglich, Integrale von Funktionen mehrerer Veränderlicher zu definieren,
und umgekehrt hat das Lebesgue-Integral auch im eindimensionalen Fall die oben erläuterten wichtigen Vorzüge gegenüber dem Riemann-Integral. Freilich bringt die Ausweitung ins
Mehrdimensionale einigen zusätzlichen Aufwand mit sich, und zwar erstaunlicherweise bereits auf der untersten Stufe des Aufbaus der Theorie: beim Umgang mit Treppenfunktionen.
411
29
Quader, Nullmengen und Treppenfunktionen
Das Riemann-Integral hatten wir durch einen Grenzprozess aus den Integralen von approximierenden Treppenfunktionen gewonnen. Auch beim Aufbau der Lebesgue-Theorie spielen
Treppenfunktionen eine wichtige Rolle. Wir beginnen mit der Betrachtung von Quadern als
den mehrdimensionalen Analoga von Intervallen.
29.1
Quader
Definition 29.1
Eine Teilmenge Q in Rn heißt ein Quader, falls
Q = I1 × . . . × In
mit beschränkten Intervallen I1 , . . . , In ist; ein Punkt x = (x1 , . . . , xn ) ∈ Rn soll also genau
dann zu Q gehören, wenn xν ∈ Iν für alle ν = 1, . . . , n ist.
Ein Quader Q = I1 × . . . × In heißt ein ausgearteter Quader, falls wenigstens eines der
Intervalle Iν ausgeartet ist (d.h. leer ist oder nur aus einem einzigen Punkt besteht).
Die Menge aller Quader in Rn bezeichnen wir mit Qn .
Bemerkung 29.2
(1) Quader im Sinne der obigen Definition sind also stets achsenparallel.
(2) Ein Quader Q = I1 × . . . × In ist genau dann eine abgeschlossene Teilmenge in Rn ,
wenn entweder Q = ∅ ist oder Q 6= ∅ und alle Iν abgeschlossen sind. Wegen der
Beschränktheit ist dann Q sogar kompakt, und im zweiten Fall sind alle Iν = [aν , bν ]
kompakte Intervalle (mit reellen Zahlen aν ≤ bν ).
(3) Ein Quader Q = I1 ×. . .×In ist genau dann eine offene Teilmenge in Rn , wenn entweder
Q = ∅ ist oder Q 6= ∅ und alle Iν beschränkte echte offene Intervalle, also von der Form
Iν = ]aν , bν [ mit reellen Zahlen aν < bν sind.
(4) Es seien Q = I1 × . . . × In und Q0 = I10 × . . . × In0 zwei Quader. Dann ist auch der
Durchschnitt
Q ∩ Q0 = (I1 ∩ I10 ) × . . . × (In ∩ In0 )
ein Quader (vgl. Abbildung 93). (Diese Feststellung wäre nicht ausnahmslos gültig,
wenn ausgeartete Quader von der Betrachtung ausgeschlossen worden wären.)
(5) Wenn Q ein Quader in Rn und Q0 ein Quader in Rm ist, dann ist Q × Q0 ein Quader
in Rn+m .
Die Beschränktheit von Quadern ermöglicht die Definition des gewöhnlichen Volumens:
Definition 29.3 Es sei Q = I1 × . . . × In ein Quader mit Intervallen Iν 6= ∅. Es seien
aν = inf Iν der Anfangspunkt und bν = sup Iν der Endpunkt von Iν . Dann heißt
vn (Q) := (b1 − a1 ) · . . . · (bn − an )
das Volumen von Q. Ergänzend wird vn (∅) := 0 gesetzt.
412
111111
000000
000000
111111
000000
111111
000000
111111
Abbildung 93: Durchschnitt von Quadern
Bemerkung 29.4
e Quader in Rn . Aus der Definition des Volumens folgt unmittelbar
(1) Es seien Q und Q
e
vn (Q) ≤ vn (Q),
falls
e
Q ⊆ Q.
Das Volumen vn ist also monoton.
(2) Der Quader Q = I1 × . . . × In ⊆ Rn sei disjunkt in zwei Teilquader Q0 und Q00 zerlegt,
also
Q = Q0 ∪ Q00
und
Q0 ∩ Q00 = ∅.
Eine solche Zerlegung von Q entsteht, wenn für ein k das Intervall Ik disjunkt in
Teilintervalle Ik0 und Ik00 zerlegt und Iν0 = Iν00 = Iν für alle ν 6= k sowie
Q0 = I10 × . . . × In0 ,
Q00 = I100 × . . . × In00
gesetzt wird. Das Distributivgesetz des Rechnens mit reellen Zahlen ergibt dann
vn (Q) = vn (Q0 ) + vn (Q00 )
für
Q = Q0 ∪ Q00 ,
Q0 ∩ Q00 = ∅.
Das Volumen vn ist also additiv.
(3) Für das Volumen eines Quaders Q = I1 × . . . × In spielt es keine Rolle, ob die Intervalle
Iν offen, abgeschlossen oder halboffen sind. Es gilt
vn (Q◦ ) = vn (Q) = vn (Q).
(4) Zu jedem ε > 0 und zu jedem Quader Q ∈ Qn gibt es einen offenen Quader Q0 ∈ Qn
mit
Q ⊆ Q0
und
vn (Q0 ) ≤ vn (Q) + ε.
Dies folgt aus der Stetigkeit von vn (Q) als Funktion von 2n Variablen, den Anfangsund Endpunkten der Intervalle Ik in Q = I1 × · · · × In .
Diese Eigenschaft des Volumens bezeichnet man auch als Regularität. Die Eigenschaften der Additivität, Monotonie und Regularität dienen als definierende Eigenschaften
für sog. Quadermaße. Anstelle des Volumens kann man der Lebesgueschen Integrationstheorie auch allgemeine Quadermaße zugrundelegen, siehe z.B. [Köhler, § 29 ff.].
(5) Es gilt vn (Q) = 0 für alle ausgearteten Quader Q ⊆ Rn und vn (Q) > 0 für alle nicht
ausgearteten Quader Q ⊆ Rn .
413
Selbstverständlich können wir uns nicht damit begnügen, das Volumen achsenparalleler Quader zu messen. In einem ersten bescheidenen Erweiterungsschritt betrachten wir Vereinigungen von endlich vielen Quadern.
Definition 29.5 Eine Teilmenge P in Rn heißt ein Quadergebäude oder eine parkettierbare Menge, falls
P = Q1 ∪ Q2 ∪ . . . ∪ Qr
mit endlich vielen paarweise disjunkten Quadern Q1 , Q2 , . . . , Qr ∈ Qn ist. In diesem Fall
heißt die Familie (Qj )1≤j≤r eine Parkettierung von P .
Mit Pn bezeichnen wir die Menge aller parkettierbaren Teilmengen in Rn .
Sind (Qj )1≤j≤r und (Q0k )1≤k≤s zwei Parkettierungen einer parkettierbaren Menge P , so nennen wir (Q0k )1≤k≤s feiner als (Qj )1≤j≤r oder eine Verfeinerung von (Qj )1≤j≤r , falls es zu
jedem Index k ∈ {1, 2, . . . , s} einen Index j ∈ {1, 2, . . . , r} gibt mit Q0k ⊆ Qj , falls also jeder
der Quader Q0k komplett in einem der Quader Qj liegt.
Bemerkung 29.6
Offensichtlich gilt Qn ⊆ Pn . Insbesondere ist also die leere Menge
parkettierbar. Eine parkettierbare Menge besitzt i.Allg. viele verschiedene Parkettierungen.
Wie Abbildung 94 zeigt, braucht von zwei Parkettierungen einer Menge P keineswegs eine
feiner als die andere zu sein.
Abbildung 94: Parkettierungen einer Menge
Problem: Das Volumen eines Quadergebäudes werden wir in naheliegender Weise als
die Summe der Volumina der an dessen Aufbau beteiligten (disjunkten!) Quader definieren
wollen. Wenn P ∈ Pn die Parkettierung P = Q1 ∪ . . . ∪ Qr hat, werden wir also
vn (P ) :=
r
X
vn (Qj ) = vn (Q1 ) + . . . + vn (Qr )
j=1
setzen wollen. (Dies ist zwangsläufig, wenn man verlangt, dass das Volumenmaß additiv
sein soll.) Ein nicht zu unterschätzendes Problem liegt hierbei in der Wohldefiniertheit von
vn (P ): Da eine parkettierbare Menge auf viele verschiedene Weisen parkettiert werden kann,
muss man nachweisen, dass alle denkbaren Parkettierungen zum selben Ergebnis führen.
Bereits bei der disjunkten Zerlegung eines Quaders Q in Teilquader Q1 , . . . , Qr tritt ein
Problem auf: Zum Nachweis von vn (Q) = vn (Q1 ) + . . . + vn (Qr ) kann man sich nicht ohne
weiteres auf die in Bemerkung 29.4 (2) begründete Additivität von vn berufen, da nämlich die
Vereinigung zweier Quader im Allgemeinen kein Quader ist (siehe Abbildung 95). Vielmehr
414
ist zur Begründung dieser Beziehung zunächst eine weitere Zerlegung der Teilquader Qj
erforderlich.
Dieses Wohldefiniertheitsproblem wird sich später in allgemeinerem Rahmen erneut stellen,
nämlich bei der Definition des Elementarintegrals von Treppenfunktionen (Satz 30.1). Die
Überwindung der Schwierigkeiten ist letztlich elementar, wenn auch recht lästig. Um Doppelarbeit zu vermeiden, verzichten wir daher vorerst auf eine Definition des Volumens von
Quadergebäuden. Wir beweisen aber einige Hilfsresultate, die wir später beim Hantieren mit
Treppenfunktionen wiederholt benötigen. Die Beweise vermitteln keine wichtigen Einsichten,
müssen aber der Vollständigkeit wegen durchgeführt werden.
Abbildung 95: Die Vereinigung von Quadern ist i.Allg. kein Quader
Lemma 29.7
Parkettierung
Es seien Quader Q, Q0 ∈ Qn mit Q ⊆ Q0 gegeben. Dann besitzt Q0 eine
0
Q =
2n
[
Qj = Q0 ∪ Q1 ∪ . . . ∪ Q2n
j=0
mit den folgenden Eigenschaften: Es ist Q0 = Q, und für jedes k = 0, 1, . . . , 2n ist die
Vereinigung Q0 ∪ . . . ∪ Qk ein Quader. Die Differenzmenge Q0 \ Q ist parkettierbar.
Beweis. Die Abbildung 96 zeigt, wie man für n = 1 und n = 2 vorgeht. Die Durchführung
eines Induktionsschlusses ist etwas technisch, aber eigentlich eine Routinesache.
Q0
Q4
Q1
InL
In
InR
Q0 = Q
Q2
Q3
Abbildung 96: Zum Beweis von Lemma 29.7
Es sei Q = I1 × . . . × In und Q0 = I10 × . . . × In0 . Wegen Q ⊆ Q0 ist insbesondere In ⊆ In0 .
Daher gibt es eine disjunkte Intervallzerlegung
In0 = InL ∪ In ∪ InR
von In0 in drei Teilintervalle mit u < t < v für alle u ∈ InL , t ∈ In , v ∈ InR . (Dabei können InL
und InR ggf. leer sein.)
415
Im Fall n = 1 erhält man die Behauptung, wenn man Q0 = Q = I1 , Q1 = I1L , Q2 = I1R
wählt. Es sei n > 1, und die Aussage des Lemmas sei für n − 1 anstelle von n gültig. Wir
betrachten dann die Quader
b = I1 × . . . × In−1
Q
0
b0 = I10 × . . . × In−1
Q
und
b⊆Q
b0 . Nach Induktionsannahme besitzt also Q
b0 eine Parkettierung
in Qn−1 . Es gilt Q
b0 = Q
b0 ∪ Q
b1 ∪ . . . ∪ Q
b2n−2
Q
b0 = Q,
b wobei die Vereinigung Q
b0 ∪ . . . ∪ Q
bk für jedes k = 0, 1, . . . , 2n − 2 ein Quader
mit Q
ist. Wir definieren nun
bj × In
Qj := Q
j = 0, 1, . . . , 2n − 2,
für
b0 × InR .
Q2n := Q
b0 × InL ,
Q2n−1 := Q
Dann ist
b0 × In = Q
b × In = Q,
Q0 = Q
die Qj sind offensichtlich paarweise disjunkt, und es ist
b0 ∪ . . . ∪ Q
b2n−2 × In ∪ Q2n−1 ∪ Q2n
Q0 ∪ . . . ∪ Q2n = Q
b0 × In ∪ Q
b0 × I L ∪ Q
b0 × I R = Q
b0 × I 0 = Q0 .
= Q
n
n
n
Aus
 b0 ∪ . . . ∪ Q
bk × In ,

Q


b0 × I L ∪ In ,
Q0 ∪ . . . ∪ Qk =
Q
n


 0
Q,
falls k ≤ 2n − 2
falls k = 2n − 1
falls k = 2n
erkennt man ferner Q0 ∪ . . . ∪ Qk ∈ Qn für alle k = 0, 1, . . . , 2n. Damit ist (Qj )j=0,...,2n eine
Parkettierung von Q0 mit den geforderten Eigenschaften. Der Induktionsschluss ist somit
beendet. Zugleich folgt Q0 \ Q = Q1 ∪ . . . ∪ Q2n ∈ Pn .
Satz 29.8
(1) Für beliebige parkettierbare Mengen P, P 0 ⊆ Rn ist auch P 0 \ P parkettierbar.
(2) Für beliebige (endlich viele) parkettierbare Mengen P1 , . . . , Pr ⊆ Rn sind auch der
Durchschnitt P1 ∩ . . . ∩ Pr und die Vereinigung P1 ∪ . . . ∪ Pr parkettierbar.
Beweis. Dass die disjunkte Vereinigung parkettierbarer Mengen parkettierbar ist, ist klar
nach Definition. Wir werden dies im Folgenden mehrfach benutzen.
(1) Im ersten Schritt seien Quader Q, Q0 ∈ Qn gegeben. Dann ist Q ∩ Q0 ein in Q0 enthaltener Quader, und nach Lemma 29.7 ist Q0 \ Q = Q0 \ (Q ∩ Q0 ) parkettierbar.
Im zweiten Schritt seien ein Q ∈ Qn und ein P 0 ∈ Pn mit einer Parkettierung P 0 =
Q01 ∪ . . . ∪ Q0s gegeben. Dann erhalten wir eine disjunkte Zerlegung
0
P \Q=
s
[
j=1
416
(Q0j \ Q).
Jede der Mengen Q0j \ Q ist nach dem ersten Beweisschritt parkettierbar. Folglich ist
auch ihre disjunkte (!) Vereinigung P 0 \ Q parkettierbar.
Im dritten Schritt seien beliebige P, P 0 ∈ Pn mit Parkettierungen P = Q1 ∪. . .∪Qr und
P 0 = Q01 ∪. . . ∪Q0s gegeben. Aus dem zweiten Beweisschritt ergibt sich dann sukzessive,
dass alle Mengen der Folge
P1 = P 0 \ Q1 , P2 = P1 \ Q2 = P 0 \ (Q1 ∪ Q2 ), . . . , Pr = Pr−1 \ Qr = P 0 \ P
parkettierbar sind. Damit ist (1) bewiesen.
(2) Es genügt, die Behauptung für r = 2 zu beweisen. Denn induktiv folgt sie dann für
beliebige r.
Es seien Parkettierungen P1 = Q01 ∪ . . . ∪ Q0s und P2 = Q001 ∪ . . . ∪ Q00t gegeben. Dann ist
s [
t
[
P1 ∩ P2 =
(Q0j ∩ Q00k )
j=1 k=1
eine Parkettierung des Durchschnitts, und damit ist P1 ∩ P2 ∈ Pn gezeigt. (Viele der
Durchschnitte Q0j ∩ Q00k können leer sein.)
Da P1 nach Voraussetzung und P2 \ P1 nach (1) parkettierbar ist, ist auch die disjunkte
Vereinigung P1 ∪ (P2 \ P1 ) = P1 ∪ P2 parkettierbar. Dies zeigt die Behauptung über die
Vereinigung parkettierbarer Mengen.
29.2
Nullmengen
Für das Integral einer Funktion f spielen die Werte von f auf genügend kleinen Teilmengen des Definitionsbereiches von f keine Rolle. Zum Beispiel ändert sich das Riemannsche
Integral nicht, wenn die Werte von f in endlich vielen Punkten beliebig abgeändert werden. Was genügend kleine“ Mengen in der Lebesgueschen Integrationstheorie sind, wird
”
folgendermaßen festgelegt:
Definition 29.9 Eine Menge N ⊆ Rn heißt eine Nullmenge, falls es zu jeder Zahl ε > 0
eine Folge (Qk )k∈N von Quadern Qk ∈ Qn gibt, so dass
N⊆
∞
[
Qk
und
k=1
∞
X
vn (Qk ) < ε.
k=1
Nullmengen sind also dadurch gekennzeichnet, dass sie durch Folgen von Quadern überdeckt
werden können, deren Gesamtvolumen beliebig klein ist. Es wird keineswegs verlangt, dass
die überdeckenden Quader Qk paarweise disjunkt sind.
Satz 29.10
(1) Zu jeder Nullmenge N ⊆ Rn und zu jeder Zahl ε > 0 gibt es eine Folge (Qk )k≥1 von
offenen Quadern Qk ∈ Qn mit
∞
∞
[
X
N⊆
Qk
und
vn (Qk ) < ε.
k=1
k=1
(2) Ist (Nk )k≥1 eine Folge von Nullmengen, dann ist auch ihre Vereinigung
Nullmenge.
417
S∞
k=1
Nk eine
Beweis.
(1) Aufgabe 10.4
(2) Es seien eine Folge (Nk )k≥1 von Nullmengen Nk und eine Zahl ε > 0 gegeben. Zu jedem
k gibt es nach Definition eine Folge (Qkj )j≥1 von Quadern Qkj ∈ Qn mit
∞
∞
[
X
Nk ⊆
Qkj
und
vn (Qkj ) < 2−k ε.
j=1
j=1
Weil N2 abzählbar unendlich ist, gibt es eine Bijektion (k, j) 7→ l(k, j) von N2 auf N.
Wir setzen Q0l(k,j) := Qkj . Damit erhalten wir eine Folge (Q0l )l≥1 von Quadern Q0l mit
∞
[
Nk ⊆
∞
X
vn (Q0l ) =
Also ist
k=1
∞ X
∞
X
vn (Qkj ) <
k=1 j=1
l=1
S∞
Qkj =
k=1 j=1
k=1
und
∞ [
∞
[
∞
[
Q0l
l=1
∞
X
2−k ε = ε.
k=1
Nk eine Nullmenge. Damit ist (2) bewiesen.
Beispiel 29.11
(1) Jeder ausgeartete Quader Q hat das Volumen vn (Q) = 0, ist also eine Nullmenge. Jede achsenparallele Hyperebene ist eine Vereinigung von abzählbar vielen ausgearteten
Quadern. Nach Satz 29.10 ist also jede solche Hyperebene eine Nullmenge. Selbstverständlich werden wir später, jedoch erst in Kapitel 34 zeigen, dass nicht nur die
achsenparallelen, sondern alle Hyperebenen Nullmengen sind.
(2) Für jeden Punkt p ∈ Rn ist offenbar die Einermenge {p} eine Nullmenge. Nach Satz
29.10 (2) ist folglich jede abzählbare Teilmenge des Rn eine Nullmenge. Insbesondere
ist also Qn eine Nullmenge. Dieses Beispiel ist insofern bemerkenswert, als Qn unbeschränkt und dicht in Rn ist.
Andererseits müssen Nullmengen keineswegs abzählbar sein. Im Mehrdimensionalen
ist es leicht, überabzählbare Nullmengen anzugeben - beispielsweise die Hyperebenen
aus (1). Ein Beispiel einer überabzählbaren Nullmenge in R ist das Cantorsche Dis
kontinuum (vgl. Aufgabe 11.4).
Notation. Es sei A ⊆ Rn . Eine Funktion f heißt fast überall definiert auf A, falls es
eine Nullmenge N ⊆ Rn gibt, so dass f auf A \ N definiert ist. Zwei Funktionen f und g
heißen fast überall gleich auf A, und man schreibt
vn
f.ü.
f =
g
oder
f =
g
oder
f = g fast überall,
falls diese Funktionen fast überall auf A definiert sind und eine Nullmenge N existiert mit
f (x) = g(x) für alle x ∈ A \ N . Analog werden die Relationen
v
v
vn
vn
f ≤n g,
f ≥n g,
f <
g,
f >
g
erklärt. Wegen Satz 29.10 (2) sind alle diese Relationen transitiv. Analog wird auch definiert,
wann eine Folge von Funktionen fast überall monoton bzw. fast überall konvergent
ist usw. Wir sagen, dass eine Aussage P (x) für fast alle x ∈ A gilt, falls es eine Nullmenge
N gibt, so dass P (x) für alle x ∈ A \ N gilt.
418
29.3
Treppenfunktionen
Für eine beliebige Teilmenge A ⊆ Rn wird die charakteristische
Definition 29.12
Funktion χA durch
χA (x) =
1
0
für
für
x ∈ A,
x ∈ Rn \ A
definiert. Eine Funktion t : Rn −→ R heißt eine Treppenfunktion, falls es endlich viele
paarweise disjunkte Quader Q1 , . . . , Qr ∈ Qn und reelle Zahlen c1 , . . . , cr gibt, so dass
t = c1 · χQ1 + . . . + cr · χQr .
ist. Wir bezeichnen mit Tn die Menge aller Treppenfunktionen auf Rn .
Bemerkung 29.13
(1) Eine Funktion t : Rn −→ R ist genau dann eine Treppenfunktion, wenn die Wertemenge t(Rn ) endlich ist und wenn für jede reelle Zahl c 6= 0 das Urbild t−1 ({c}) = {x ∈
Rn | t(x) = c} eine parkettierbare Menge ist.
(2) Die in der Definition auftauchende Darstellung t = c1 · χQ1 + . . . + cr · χQr der Treppenfunktion ist keinesfalls eindeutig; die nichtleeren Urbilder t−1 ({c}) besitzen nämlich
i.Allg. viele verschiedene Parkettierungen.
(3) Ist t : R −→ R eine Treppenfunktion im Sinne von Definition 29.12, so ist die Restriktion t|I auf ein geeignetes kompaktes Intervall I eine Treppenfunktion im Sinne
von Definition 17.2. In diesem Sinne ist der Spezialfall n = 1 von Definition 29.12
konsistent mit Definition 17.2.
Lemma 29.14
Die Menge Tn der Treppenfunktionen auf Rn ist ein reeller Vektorraum.
Für beliebige t, T ∈ Tn sind auch
t · T,
|t|,
min{t, T },
max{t, T },
t+ := max{t, 0},
t− := − min{t, 0}
Treppenfunktionen.
Beweis. Zunächst folgt direkt aus den Definitionen: Sind P1 , . . . , Pr ∈ Pn disjunkte parkettierbare Mengen und c1 , . . . , cr ∈ R, so ist
c1 · χP1 + . . . + cr · χPr
eine Treppenfunktion.
Zum Nachweis der Abgeschlossenheit von Tn unter Addition genügt es zu zeigen, dass für
jede Treppenfunktion t ∈ Tn , alle Quader Q ∈ Qn und alle c ∈ R auch
t + c · χQ
eine Treppenfunktion ist; induktiv folgt dann nämlich, dass auch die Summe beliebiger Treppenfunktionen in Tn eine Treppenfunktion ist.
419
Es seien also eine Treppenfunktion t ∈ Tn , ein Quader Q ∈ Qn und ein c ∈ R gegeben.
Definitionsgemäß besitzt t eine Darstellung
t = c1 · χQ1 + . . . + cr · χQr
mit disjunkten Quadern Q1 , . . . , Qr ∈ Qn und reellen Zahlen c1 , . . . , cr . Es sei P := Q1 ∪
. . . ∪ Qr . Nach Satz 29.8 sind die Mengendifferenzen Q1 \ Q, . . . , Qr \ Q und Q \ P sowie
die Durchschnitte Q1 ∩ Q, . . . , Qr ∩ Q parkettierbar, und alle diese Mengen sind paarweise
disjunkt. Daher ist gemäß der Beobachtung zu Beginn des Beweises
r
r
X
X
e
t :=
(cj + c) · χQj ∩Q +
cj · χQj \Q + c · χQ\P
j=1
j=1
eine Treppenfunktion. Es ist
e
t =
=
r
X
j=1
r
X
cj · (χQj ∩Q + χQj \Q ) + c ·
χQ\P +
r
X
!
χQj ∩Q
j=1
cj · χQj + c · χQ = t + c · χQ .
j=1
Damit ist die Abgeschlossenheit von Tn unter Addition gezeigt. Dass für alle t ∈ Tn und alle
a ∈ R auch a · t ∈ Tn ist, ist klar. Also ist Tn ein R-Vektorraum.
Es seien zwei Treppenfunktionen
t = c1 · χQ1 + . . . + cr · χQr
T = d1 · χQ01 + . . . + ds · χQ0s
und
mit paarweise disjunkten Quadern Q1 , . . . , Qr ∈ Qn und paarweise disjunkten Quadern
Q01 , . . . , Q0s ∈ Qn gegeben. Dann gilt
t·T =
s
r X
X
cj dk · χQj · χQ0k =
s
r X
X
cj dk · χQj ∩Q0k ;
j=1 k=1
j=1 k=1
hierbei sind die Qj ∩ Q0k nach Bemerkung 29.2 (4) Quader in Qn , und sie sind paarweise
disjunkt. Aus dieser Darstellung folgt t · T ∈ Tn .
Weiter gilt wegen der Disjunktheit der Qj
|t| = |c1 | · χQ1 + . . . + |cr | · χQr ,
so dass auch |t| eine Treppenfunktion ist. Es folgt nunmehr unter Verwendung des bereits
Bewiesenen, dass auch
max {t, T } =
1
· (t + T + |T − t|) ,
2
min {t, T } =
1
· (t + T − |T − t|)
2
und insbesondere
t− = − min{t, 0}
t+ = max{t, 0},
Treppenfunktionen sind. Damit sind alle Behauptungen gezeigt.
420
30
Das Lebesgue-Integral
30.1
Integration von Treppenfunktionen
Wie bei der Definition des Riemann-Integrals beginnen wir mit der Integration von Treppenfunktionen.
Satz 30.1 (Elementarintegral)
(1) Auf dem Vektorraum Tn der Treppenfunktionen auf Rn gibt es genau eine Linearform
Z
Z
t(x) dvn (x),
t 7→
t dvn =
Rn
die
Z
χQ dvn = vn (Q)
für alle
Q ∈ Qn
erfüllt. Wir nennen
R
t dvn das Integral von t.
(2) Die Linearform t 7→
R
t dvn ist monoton: Für alle Treppenfunktionen t, T ∈ Tn gilt
Z
Z
t dvn ≤
T dvn ,
falls
t≤T
ist. Für alle Treppenfunktionen t ∈ Tn gilt
Z
Z
t dvn ≤
|t| dvn .
Beweis. Es sei t 7→
R
t dvn eine Linearform auf Tn mit den in (1) genannten Eigenschaften.
Es sei t ∈ Tn eine Treppenfunktion. Diese besitzt eine Darstellung
t = c1 · χQ1 + . . . + cr · χQr
mit Quadern Q1 , . . . , Qr ∈ Qn und reellen Zahlen c1 , . . . , cr . (Man kann die Qj sogar disjunkt
wählen; dies wird im FolgendenR allerdings irrelevant sein.) Aus der Forderung, dass das
Elementarintegral linear ist mit χQ dvn = vn (Q) für alle Q ∈ Qn , folgt dann
Z
t dvn = c1 · vn (Q1 ) + · · · + cr · vn (Qr ).
Somit existiert höchstens eine Linearform auf Tn mit den gewünschten Eigenschaften.
Zum Beweis der Existenz definieren wir das Elementarintegral durch die soeben gefundene
Formel
Z
r
r
X
X
t dvn :=
cj · vn (Qj ),
falls
t=
cj · χQj mit Q1 , . . . , Qr ∈ Qn .
(30.1)
j=1
j=1
R
Die Hauptschwierigkeit besteht
im
Nachweis,
dass
t dvn dadurch wohldefiniert ist, d.h.
R
dass der so definierte Wert t dvn unabhängig81 von der Wahl der Darstellung von t ist
81
Dies ist die bereits avisierte allgemeinere Fassung des auf S. 414 aufgeworfenen Problems der Wohldefiniertheit des Volumens von Quadergebäuden!
421
(und zwar auch dann, wenn die Qj nicht disjunkt sind). Sobald dieser Nachweis erbracht ist,
ist aufgrund (30.1) klar, dass das Elementarintegral linear, also eine Linearform auf Tn ist.
Die Wohldefiniertheit beweisen wir mittels Induktion nach der Raumdimension n. Für n = 1
ist sie unmittelbar einsichtig bzw. folgt leicht aus den Regeln in Abschnitt 17.1. Nun sei n ≥ 2,
und die Wohldefiniertheit des Elementarintegrals sei für die Raumdimensionen 1, . . . , n − 1
bereits gezeigt.
Jeder Quader Q ∈ Qn ist das kartesische Produkt Q = Q0 × I eines Quaders Q0 ∈ Qn−1 und
eines reellen Intervalls I ⊆ R, und es gilt
für alle x ∈ Rn−1 , y ∈ R.
χQ (x, y) = χQ0 (x) · χI (y)
Es sei eine Treppenfunktion t ∈ Tn mit der Darstellung aus (30.1) gegeben. Es ist Qj = Q0j ×Ij
für j = 1, . . . , r mit Quadern Q0j ∈ Qn−1 und Intervallen Ij ⊆ R.
Für jedes feste y ∈ R ist dann durch
für alle x ∈ Rn−1
ty (x) := t(x, y)
eine Treppenfunktion ty ∈ Tn−1 definiert; es ist
ty =
r
X
cj · χIj (y) · χQ0j .
j=1
Deren Elementarintegral ist nach Induktionsannahme wohldefiniert mit
Z
r
X
ty (x) dvn−1 (x) =
cj · χIj (y) · vn−1 (Q0j ) =: τ (y).
Rn−1
j=1
Diese Darstellung für τ zeigt, dass τ eine Treppenfunktion auf R ist, d.h. τ ∈ T1 . Damit ist
auch deren Elementarintegral wohldefiniert mit
Z
r
r
X
X
τ (y) dv1 (y) =
cj · vn−1 (Q0j ) · v1 (Ij ) =
cj · vn (Qj ).
R
j=1
j=1
Insgesamt erhalten wir
r
X
j=1
Z Z
Z
cj · vn (Qj ) =
ty (x) dvn−1 (x) dv1 (y).
τ (y) dv1 (y) =
R
R
Rn−1
P
Hierbei hängt die rechte Seite nur von t ab, nicht von der Darstellung t = rj=1 cj · χQj .
Also ist die linke Seite unabhängig von der speziellen Wahl der Qj und cj . Daher ist das
Elementarintegral durch (30.1) wohldefiniert.
Gleichzeitig ist aufgrund dieser Beziehung klar, dass das Elementarintegral linear ist, d.h.
Z
Z
Z
(at1 + bt2 ) dvn = a ·
t1 dvn + b ·
t2 dvn
für alle t1 , t2 ∈ Tn und alle a, b ∈ R gilt. (Hierfür ist es entscheidend, dass wir in (30.1) auch
den Fall nicht-disjunkter Qj zugelassen haben.) Auch die Eigenschaft
Z
χQ dvn = vn (Q)
für alle Q ∈ Qn
422
ist klar. Damit sind alle Behauptungen in (1) bewiesen.
RIst t ∈ Tn und t ≥ 0, dann folgt aus der Definition des Elementarintegrals unmittelbar
t dvn ≥ 0. Hieraus und aus der Additivität ergibt sich die Monotonie des Elementarintegrals.
Für eine beliebige Treppenfunktion t ∈ Tn gilt auch |t| ∈ Tn (Lemma 29.14), und es ist t ≤ |t|
und −t ≤ |t|. Aus der Linearität und der Monotonie folgt somit
Z
Z
Z
Z
Z
t dvn ≤
|t| dvn
und
−
t dvn = (−t) dvn ≤
|t| dvn ,
R
R
also t dvn ≤ |t| dvn . Damit sind auch die Behauptungen in (2) bewiesen.
Satz 30.1 erlaubt es uns nunmehr auch, das Volumen von Quadergebäuden offiziell einzuführen; das auf S. 414 angesprochene Wohldefiniertheitsproblem ist durch den Nachweis
der Wohldefiniertheit des Elementarintegrals gelöst:
Definition 30.2 Es sei P ∈ Pn eine parkettierbare Menge. Dann ist χP eine Treppenfunktion. Wir setzen
Z
vn (P ) := χP dvn
und nennen vn (P ) das Volumen von P .
30.2
Monotone Folgen von Treppenfunktionen
Die Lebesgue-Integrierbarkeit von Funktionen wird mit Hilfe von monotonen und fast überall
konvergenten Folgen von Treppenfunktionen definiert. Wir beginnen mit monotonen Nullfolgen. Im folgenden Satz ist das Ergebnis als solches weniger erstaunlich als die Tatsache
seiner Nützlichkeit und die Länge des Beweises. Die Schwierigkeit ist durch die möglichen
positiven Werte der Grenzfunktion auf einer Nullmenge bedingt.
Lemma 30.3
Es sei (tk )k eine Folge von Treppenfunktionen tk : Rn −→ R, die monoton
fallend fast überall gegen 0 konvergiert, das heißt es sei
0 ≤ tk+1 ≤ tk
für alle k
und
lim tk (x) = 0
k→∞
für fast alle x ∈ Rn .
Dann gilt
Z
lim
k→∞
tk dvn = 0.
R
Beweis. I. Nach Satz 30.1 (2) ist die Folge der Integrale tk dvn monoton fallend und nach
unten durch 0 beschränkt. Daher existiert der Grenzwert
Z
a = lim
tk dvn ,
k→∞
und es gilt a ≥ 0. Zu beweisen istR nur“ a = 0. Es genügt zu zeigen, dass es zu jeder Zahl
”
ε > 0 eine natürliche Zahl m mit tm dvn < ε gibt.
423
Weil t1 nur endlich viele Werte annimmt und die Folge (tk )k monoton fällt, gibt es eine
Schranke C > 0 mit
0 ≤ tk (x) ≤ C
k∈N
für alle
und alle
x ∈ Rn .
Nach Voraussetzung gibt es eine Nullmenge N mit
lim tk (x) = 0
x ∈ Rn \ N.
für alle
k→∞
II. Es sei eine Zahl ε > 0 gegeben. Nach Satz 29.10 (1) wird N von einer Folge (Q0j )j≥1 von
offenen Quadern Q0j überdeckt, für die
∞
X
vn (Q0j ) <
j=1
ε
3C
gilt. Da t1 eine Treppenfunktion ist, ist das Urbild t−1
1 (R \ {0}) beschränkt. Es gibt daher
einen kompakten Quader K ∈ Qn mit
t−1
1 (R \ {0}) ⊆ K
und vn (K) > 0. Außerhalb von K sind alle tk konstant 0. Für jedes k ist nach Satz 29.8 auch
)
(
ε
Pk := x ∈ K 0 ≤ tk (x) ≤
3vn (K)
parkettierbar. Hierzu gibt es offene parkettierbare Mengen Pk0 mit
Pk ⊆ Pk0
vn (Pk0 ) ≤ vn (Pk ) + 2−k ·
und
ε
3C
für alle k. Es gilt also
vn (Pk0 \ Pk ) = vn (Pk0 ) − vn (Pk ) ≤ 2−k ·
ε
.
3C
III. Wir zeigen nun
K⊆
∞
[
!
Q0j
∪
j=1
∞
[
!
Pk0
.
k=1
Zum Beweis sei ein Punkt x ∈ K gegeben, der in keinem der Quader Q0j liegt. Weil N von
diesen Quadern überdeckt wird, folgt x 6∈ N . Das bedeutet aber limk→∞ tk (x) = 0. Nach
Definition der Pk gibt es folglich ein k mit x ∈ Pk ⊆ Pk0 . Damit ist die Behauptung bewiesen.
Es liegt somit eine Überdeckung von K durch (abzählbar unendlich viele) offene Mengen
Q0j und Pk0 vor. Weil K (überdeckungs-)kompakt ist, gibt es hierzu eine endliche Teilüberdeckung. Es gibt also eine natürliche Zahl m mit
K ⊆ Q01 ∪ . . . ∪ Q0m ∪ P10 ∪ . . . ∪ Pm0 .
Folglich gilt auch K ⊆ P 0 ∪ P mit
P = P1 ∪ . . . ∪ Pm ,
P 0 = Q01 ∪ . . . ∪ Q0m ∪ (P10 \ P1 ) ∪ . . . ∪ (Pm0 \ Pm ).
424
Die Mengen P und P 0 sind nach Satz 29.8 parkettierbar. Folglich sind
t0 = C · χP 0
t00 =
und
ε
· χP
3vn (K)
Treppenfunktionen. Die erste ist nur auf der kleinen“ Menge P 0 von 0 verschieden, und die
”
zweite hat kleine Werte.
IV. Der letzte Beweisschritt beginnt mit dem Nachweis von
tm ≤ t0 + t00 .
Wenn x ∈ Rn und x 6∈ K ist, dann ist tm (x) = 0. Für x ∈ P 0 gilt tm (x) ≤ t1 (x) ≤ C =
t0 (x) ≤ t0 (x) + t00 (x). Schließlich gibt es im Falle x ∈ P ein k ≤ m mit x ∈ Pk , und es folgt
tm (x) ≤ tk (x) ≤
ε
= t00 (x) ≤ t0 (x) + t00 (x).
3vn (K)
Wegen K ⊆ P 0 ∪ P ist damit tm (x) ≤ (t0 + t00 )(x) für alle x ∈ Rn gezeigt.
Jetzt verwenden wir die Linearität und Monotonie des Elementarintegrals (Satz 30.1) sowie
unsere Abschätzungen für das Gesamtmaß der Q0j und die Maße der Mengen Pk0 \ Pk . Damit
folgt
Z
Z
Z
0
tm dvn ≤
t dvn +
t00 dvn
= C · vn (P 0 ) +
≤ C·
m
X
ε
· vn (P )
3vn (K)
vn (Q0j ) +
j=1
< C·
m
X
!
vn (Pk0 \ Pk )
k=1
∞
ε X −k
ε
2
+
·
3C
3C k=1
!
+
+
ε
· vn (K)
3vn (K)
ε
3
= ε.
Das war zu zeigen.
Im nächsten Satz werden monoton steigende Folgen von Treppenfunktionen betrachtet, deren
Integralfolge beschränkt ist, und es wird gezeigt, dass solche Folgen fast überall konvergieren.
Lemma 30.4
Es sei (tk )k≥1 eine
R monoton steigende Folge von Treppenfunktionen tk :
n
R −→ R. Die Folge der Integrale tk dvn dieser Funktionen sei beschränkt. Dann ist
N = {x ∈ Rn | lim tk (x) = ∞}
k→∞
eine Nullmenge. Es gibt eine Funktion f : Rn −→ R mit
lim tk = f
k→∞
425
fast überall.
Beweis. Wir dürfen tk ≥ 0 für alle k annehmen. (Andernfalls betrachten wir die Folge der
Differenzen tk − t1 , wobei sich an den Voraussetzungen nichts ändert und auch die Menge N
ungeändert bleibt.)
Nach Voraussetzung gilt tk ≤ tk+1 für alle k, und es gibt ein a > 0 mit
Z
tk dvn < a
für alle k ∈ N.
Es sei eine Zahl ε > 0 gegeben. Für jedes k ist dann
n
ao
n
Pk := x ∈ R | tk (x) >
ε
eine parkettierbare Menge. Wegen tk ≤ tk+1 und nach Definition der Menge N bestehen die
Inklusionen
∞
[
Pk ⊆ Pk+1
und
N⊆
Pk .
k=1
Aus tk ≥ 0 und der Definition von Pk folgt
Z
Z
a
a
a
also
a>
tk dvn ≥ · χPk dvn = · vn (Pk )
tk ≥ · χPk ,
ε
ε
ε
und somit
vn (Pk ) < ε
für alle
k.
Die Quadergebäude Pk , auf denen tk groß“ ist, sind also klein“ bezüglich des Volumenma”
”
ßes.
Die Komplemente Pk+1 \Pk sind nach Satz 29.8 parkettierbar. Wegen Pk ⊆ Pk+1 gibt es daher
eine Folge (Qj )j≥1 von paarweise disjunkten Quadern Qj und eine Folge (mj )j≥1 natürlicher
Zahlen mj mit m1 < m2 < m3 < . . . und
Pk =
mk
[
Qj
für alle
k ∈ N.
j=1
Es folgt
mk
X
vn (Qj ) = vn (Pk ) < ε
für alle k,
also auch
j=1
∞
X
vn (Qj ) ≤ ε,
j=1
und es ist
N⊆
∞
[
Pk =
∞
[
Qj .
j=1
k=1
Da dies für jedes ε > 0 gilt, ist N eine Nullmenge.
Wir definieren die Funktion f : Rn −→ R durch f (x) := limk→∞ tk (x), falls dieser Grenzwert
in R existiert, und anderenfalls legen wir den Wert fest, indem wir willkürlich f (x) := 0
setzen. Dann gilt limk→∞ tk = f fast überall.
426
Satz 30.5
Es seien (tk )k≥1 und (e
tk )k≥1 zwei monoton steigende Folgen von Treppenfunkn
tionen auf R . Dann gelten die folgenden Aussagen:
vn
(1) Wenn limk→∞ tk ≤ limk→∞ e
tk ist, dann ist
Z
Z
e
lim
tk dvn ≤ lim
tk dvn .
k→∞
k→∞
vn
(2) Wenn limk→∞ tk =
limk→∞ e
tk ist, dann ist
Z
Z
e
lim
tk dvn = lim
tk dvn .
k→∞
k→∞
Beweis. Offenbar folgt (2) aus (1), denn tk und e
tk können ihre Rollen tauschen. Es genügt
also, die Behauptung (1) zu beweisen.
Zunächst vergewissert man sich, dass die im Satz genannten Grenzwerte tatsächlich existieren
(evtl. im uneigentlichen Sinne), da die auftretenden Integralfolgen monoton steigen.
Es sei eine natürliche Zahl m gegeben. Wir setzen
Tk := (tm − e
tk )+ = max{tm − e
tk , 0}
für k ∈ N. Nach Lemma 29.14 erhalten wir auf diese Weise eine Folge (Tk )k von Treppenfunktionen Tk ∈ Tn . Weil die Folge der e
tk monoton steigt, gilt 0 ≤ Tk+1 ≤ Tk für alle k. Aus
der Voraussetzung in (1) erhalten wir
v
tm ≤ lim tk ≤n lim e
tk .
k→∞
k→∞
Hieraus folgt
vn
lim Tk =
0.
k→∞
Somit ist Lemma 30.3 anwendbar, und danach ist
Z
lim
Tk dvn = 0.
k→∞
Aus Satz 30.1 folgt
Z
Z
Z
Z
Z
e
e
e
tm dvn =
tk dvn + (tm − tk ) dvn ≤
tk dvn +
Tk dvn
für alle k. Für k → ∞ ergibt sich daher
Z
Z
e
tm dvn ≤ lim
tk dvn .
k→∞
Das gilt für jedes m ∈ N. Für m → ∞ folgt daher die Behauptung in (1).
427
Aus Satz 30.5 ergibt sich die Möglichkeit zu einer vernünftigen Definition des Integrals
von Funktionen f , die fast überall gleich der Grenzfunktion einer monotonen Folge von
Treppenfunktionen mit beschränkter Integralfolge sind:
Definition 30.6
Wir bezeichnen mit
M(Rn )
die Menge aller Funktionen f : Rn −→ R, zu denen es eine monoton steigende Folge (tk )k≥1
von Treppenfunktionen tk : Rn −→ R mit beschränkter Integralfolge und
f = lim tk
k→∞
fast überall
gibt. In dieser Situation setzen wir
Z
Z
Z
f dvn =
f (x) dvn (x) =
Rn
Z
f (x) dx := lim
k→∞
Rn
tk dvn ,
und wir nennen diese Zahl das (Lebesgue-)Integral von f .
Die Wohldefiniertheit dieses Integrals ist durch Satz 30.5 (2) gesichert: Es ist unabhängig
von der Wahl der Folge der Treppenfunktionen, die monoton steigend und fast überall gegen
f konvergiert.
Der Buchstabe M in der Bezeichnung M(Rn ) soll an das Wort monoton“ erinnern.
”
Satz 30.7
Für beliebige Funktionen f, g ∈ M(Rn ) und reelle Zahlen a ≥ 0 gelten die
folgenden Aussagen:
(1) Die Funktionen f + g und af gehören zu M(Rn ), und es gilt
Z
Z
Z
Z
Z
(f + g) dvn = f dvn +
g dvn
und
(af ) dvn = a · f dvn .
vn
(2) Wenn f ≤ g ist, dann ist
R
f dvn ≤
R
g dvn .
vn
vn
Beweis. Es gilt f =
limk→∞ tk und g =
limk→∞ Tk , worin (tk )k und (Tk )k gewisse monoton steigende Folgen von Treppenfunktionen mit beschränkten Integralfolgen sind. Da die
Vereinigung zweier Nullmengen wieder eine Nullmenge ist, folgt
vn
f +g =
lim (tk + Tk )
k→∞
und
vn
af =
lim (atk ),
k→∞
worin auch die Folgen (tk + Tk )k und (atk )k die erforderlichen Eigenschaften haben. Somit
gehören f + g und af zu M(Rn ). (Wir benötigen die Voraussetzung a ≥ 0, denn für a < 0
ist die Folge (atk )k monoton fallend statt steigend.) Aus Satz 30.1 erhalten wir
Z
Z
Z
Z
Z
Z
tk dvn + lim
Tk dvn = f dvn + g dvn
(f + g) dvn = lim (tk + Tk ) dvn = lim
k→∞
R
und ebenso (af ) dvn = a ·
k→∞
R
k→∞
f dvn .
vn
Wenn wir f ≤ g voraussetzen, dann folgt aus Teil (1) in Satz 30.5 die Behauptung
Z
Z
f dvn ≤ g dvn .
428
Beispiel 30.8
Es sei
f (x) :=
√1
x
für 0 < x ≤ 1
.
für x ∈ R\]0; 1]
0
Bekanntlich ist f auf ]0, 1] uneigentlich Riemann-integrierbar. In Abschnitt 30.5 werden
wir sehen, dass f auch Lebesgue-integrierbar auf R ist, und durch explizite Angabe einer
approximierenden Folge von Treppenfunktionen kann man zeigen, dass sogar f ∈ M(Rn )
ist.
Jedoch ist −f 6∈ M(Rn ), denn es gibt offensichtlich keine Treppenfunktion, die fast überall
unterhalb von −f verläuft.
Leider ist M(Rn ) also kein Vektorraum. Deshalb müssen wir diese Menge im folgenden
Abschnitt noch etwas vergrößern.
30.3
Integrierbare Funktionen
Die Menge M(Rn ) wird jetzt zu einem Vektorraum erweitert, und das Integral wird zu einem
monotonen linearen Funktional auf diesem Vektorraum gemacht. Es liegt auf der Hand, wie
das zu geschehen hat:
Definition 30.9
Wir bezeichnen mit
L(Rn )
die Menge aller Funktionen f : Rn −→ R, die als Differenzen f = g − h von Funktionen
g, h ∈ M(Rn ) darstellbar sind, und setzen
Z
Z
Z
Z
Z
f (x) dx := g dvn − h dvn .
f (x) dvn (x) =
f dvn =
Rn
Rn
n
Die
R Funktionen f ∈ L(R ) heißen integrierbar oder Lebesgue-integrierbar. Die Zahl
f dvn heißt das (Lebesgue-)Integral von f .
Der Buchstabe L in der Bezeichnung L(Rn ) erinnert an H. Lebesgue.
R
Bemerkung 30.10
Zum Nachweis der Wohldefiniertheit des Integrals f dvn müssen
wir uns wiederum vergewissern, dass es unabhängig von der Wahl der Darstellung von f =
g − h als Differenz zweier Funktionen aus M(Rn ) ist:
Wenn neben f = g − h auch f = g1 − h1 eine solche Darstellung ist, dann ist g + h1 = g1 + h,
und aus Satz 30.7 (1) folgt
Z
Z
Z
Z
Z
Z
g dvn + h1 dvn = (g + h1 ) dvn = (g1 + h) dvn = g1 dvn + h dvn ,
also
Z
Z
g1 dvn −
Z
h1 dvn =
429
Z
g dvn −
h dvn .
Satz 30.11 (Integrierbare Funktionen)
Die Menge
L(Rn ) der integrierbaren FunkR
tionen ist ein reeller Vektorraum. Das Integral f 7→ f dvn ist eine monotone Linearform
auf diesem Vektorraum. Für beliebige f, g ∈ L(Rn ) gehören auch
max{f, g} ,
min{f, g} ,
f + = max{f, 0} ,
f − = − min{f, 0}
und
|f |
zu L(Rn ). Es gilt
Z
Z
f dvn ≤ |f |dvn .
Beweis. Aus Satz 30.7 und aus den Definitionen folgt unmittelbar, dass L(Rn ) ein reeller
Vektorraum ist und dass das Integral eine Linearform auf diesem Vektorraum ist.
Auch die Monotonie folgt leicht aus Satz 30.7. Es sei nämlich f ≤ g und f = f1 − f2 ,
g = g1 − g2R mit Funktionen
f1 , fR2 , g1 , g2 in RM(Rn ). Dann ist f1 + g2 ≤ f2 + g1 , und aus Satz
R
30.7 folgt f1 dvn + g2 dvn ≤ f2 dvn + g1 dvn , also
Z
Z
Z
Z
Z
Z
f dvn = f1 dvn − f2 dvn ≤ g1 dvn − g2 dvn = g dvn .
Die Behauptung über das Maximum beweisen wir zunächst nur für Funktionen f, g ∈
vn
vn
M(Rn ). Es ist dann f =
limk→∞ tk und g =
limk→∞ Tk , wobei (tk )k und (Tk )k monoton steigende Folgen von Treppenfunktionen mit beschränkten Integralfolgen sind. Nach
Lemma 29.14 gilt auch max{tk , Tk } ∈ Tn . Die Folge dieser Treppenfunktionen ist monoton
steigend, und wegen
Z
Z
Z
Z
max{tk , Tk } dvn ≤ max{t1 , T1 } dvn + (tk − t1 ) dvn + (Tk − T1 ) dvn
ist ihre Integralfolge beschränkt. Weil die Vereinigung zweier Nullmengen ebenfalls eine
solche ist, gilt auch
vn
max{f, g} =
lim max{tk , Tk }.
k→∞
n
Damit ist max{f, g} ∈ M(R ) nachgewiesen.
Jetzt seien f, g beliebige Funktionen in L(Rn ). Es gilt f = f1 − f2 und g = g1 − g2 mit
Funktionen f1 , f2 , g1 , g2 in M(Rn ). Ferner gilt
f + = max{f1 − f2 , 0} = max{f1 , f2 } − f2 .
Wie zuvor gezeigt wurde, ist max{f1 , f2 } ∈ M(Rn ). Die Formel für f + zeigt somit, dass
f + ∈ L(Rn ) ist. In derselben Weise folgt
f − = − min{f1 − f2 , 0} = max{f1 , f2 } − f1 ∈ L(Rn ).
Folglich ist auch
|f | = f + + f −
in dem Vektorraum L(Rn ) enthalten.
Aus
R f ≤ |f |, −f ≤ |f | und aus der Monotonie und
R
Linearität des Integrals folgt | f dvn | ≤ |f | dvn . Schließlich folgt nun auch
max{f, g} =
min{f, g} =
1
2
1
2
(f + g + |f − g|) ∈ L(Rn ),
(f + g − |f − g|) ∈ L(Rn ).
430
Satz 30.12
Es sei f ∈ L(Rn ), und es sei g : Rn −→ R eine Funktion mit f (x) = g(x)
für fast alle x ∈ Rn . Dann ist auch g ∈ L(Rn ), und es ist
Z
Z
f dvn = g dvn .
Beweis. Zunächst sei f ∈ M(Rn ). Dann gibt es eine monoton steigende Folge (tk )k von
Treppenfunktionen tk ∈ Tn mit beschränkter Integralfolge, die fast überall gegen f konvergiert. Da f und g fast überall übereinstimmen und die Vereinigung zweier Nullmengen
wieder eine Nullmenge ist, konvergiert (tk )k dann auch fast überall gegen g. Dies bedeutet
nach Definition g ∈ M(Rn ) und
Z
Z
Z
g dvn = lim
tk dvn = f dvn .
k→∞
Damit ist die Behauptung für den Fall f ∈ M(Rn ) gezeigt.
Im allgemeinen Fall ist f = f1 − f2 mit f1 , f2 ∈ M(Rn ). Es sei
g2 := f2 + (f − g).
Dann stimmen f2 und g2 fast überall überein. Aus dem bereits Bewiesenen folgt daher
g2 ∈ M(Rn ) und
Z
Z
f2 dvn = g2 dvn .
Hieraus und aus der Vektorraumeigenschaft von L(Rn ) folgt
g = f + f2 − g2 = f1 − g2 ∈ L(Rn )
und
Z
Z
Z
f1 dvn −
g dvn =
Z
g2 dvn =
Z
f1 dvn −
Z
f2 dvn =
f dvn .
In unseren bisherigen Definitionen haben wir nur Integrale über den gesamten Raum Rn
gebildet. Häufig sind Funktionen nur auf einer Teilmenge des Rn definiert, oder man möchte
sie nur über eine Teilmenge ihres Definitionsbereiches integrieren. Der hierzu nötige Formalismus ist leicht einzuführen:
Definition 30.13 Es seien eine Menge A ⊆ Rn und eine Funktion f : A −→ R gegeben.
Dann definieren wir die Funktion fA : Rn −→ R durch
f (x) für x ∈ A,
fA (x) :=
0
für x ∈ Rn \ A.
Die Funktion Rf heißt integrierbar auf der Menge A, falls die Funktion fA integrierbar ist.
Das Integral fA dvn heißt das Integral von f über die Menge A. Wir schreiben es in
der Form
Z
Z
Z
f dvn =
f (x) dvn (x) =
fA (x) dvn (x).
A
Rn
A
Wir bezeichnen mit L(A) die Menge aller integrierbaren Funktionen auf A. Die Aussagen in
Satz 30.11 gelten analog für L(A). Insbesondere ist diese Menge ein reeller Vektorraum, und
das Integral ist eine monotone Linearform auf diesem Vektorraum.
431
Beispiel 30.14
Es sei f : R −→ R die Dirichlet-Funktion. Es sei also f (x) = 1 für x ∈ Q
und f (x) = 0 für irrationale x ∈ R. Bekanntlich ist f nicht Riemann-integrierbar, und zwar
auch dann nicht, wenn die Funktion auf ein kompaktes Intervall eingeschränkt wird (Beispiel 17.9 (3)). Die Menge Q ist abzählbar, also nach Satz 29.10 eine Nullmenge. Wenn wir
also tk konstant 0 setzen für alle k ∈ N, dann erhalten wir eine Folge von Treppenfunktionen, die fast überall auf R gegen f konvergiert und außerdem
auch monoton steigt
und eine
R
R
beschränkte Integralfolge hat. Folglich ist f ∈ L(R) und f (x) dx = limk→∞ tk dx = 0.
Dies folgt schneller auch aus Satz 30.12 und der Integrierbarkeit der Nullfunktion.
Wie wir sehen, spielen die Funktionswerte 1 auf der Nullmenge Q überhaupt keine Rolle bei
der Integration von f , und es ist auch unproblematisch, dass das Integrationsintervall ganz
R ist.
30.4
Die Konvergenzsätze der Lebesgue-Theorie
Es sei (fk )Rk eine monoton steigende Folge von integrierbaren Funktionen, und die Folge der
Integrale fk dvn sei beschränkt. Wenn alle fk Treppenfunktionen sind, dann konvergiert
die Folge nach Lemma 30.4 fast überall gegen eine Funktion, und unsere Definition 30.9 hat
dafür gesorgt, dass die Grenzfunktion integrierbar ist. Der Satz von Levi besagt, dass in der
allgemeineren Situation integrierbarer fk beide Aussagen – die Existenz und die Integrierbarkeit der Grenzfunktion – gültig bleiben. Der Vektorraum L(Rn ) ist demnach abgeschlossen
gegenüber der beschriebenen Art von Grenzübergängen. Aus dem langen Beweis nehmen wir
ein Stück heraus, indem wir ein Lemma voraus schicken:
Lemma 30.15
Es seien eine Funktion f ∈ L(Rn ) und eine Zahl ε > 0 gegeben. Dann
existieren Funktionen g, h ∈ M(Rn ) mit
Z
f = g − h,
h≥0
und
0 ≤ h dvn ≤ ε.
Beweis. Zunächst ist f = ge − e
h mit Funktionen ge und e
h in M(Rn ). Nach Definition der
Menge M(Rn ) gibt es eine Treppenfunktion t mit
Z
vn e
t≤ h
und
(e
h − t) dvn ≤ ε.
Auch −t ist eine Treppenfunktion. Nach Satz 30.7 gehören also die Funktionen g0 := ge − t
und h0 := e
h − t zu M(Rn ). Diese erfüllen
Z
vn
f = g0 − h0 ,
h0 ≥ 0
und
h0 dvn ≤ ε.
vn
vn
Schließlich setzen wir h := h+
0 = max{h0 , 0} und g := f + h. Dann gilt h = h0 und g = g0 ,
und deshalb gehören auch g und h zu M(Rn ) (Satz 30.12), und es ist
Z
f = g − h,
h≥0
und
h dvn ≤ ε.
432
Satz 30.16 (Satz von Levi von der monotonen Konvergenz, 1906)
Es seiR(fk )k≥1
eine monoton steigende Folge von Funktionen fk ∈ L(Rn ). Die Folge der Integrale fk dvn
sei beschränkt. Dann gibt es eine Funktion f ∈ L(Rn ) mit
vn
f =
lim fk ,
k→∞
und es gilt
Z
Z
lim fk dvn =
k→∞
Z
f dvn = lim
k→∞
fk dvn .
Beweis. Nach Voraussetzung ist das Supremum
Z
Z
c := lim
fk dvn = sup
fk dvn k ∈ N
k→∞
eine reelle Zahl.
I. Im ersten Schritt beweisen wir die Behauptung unter der zusätzlichen Voraussetzung, dass
fk ∈ M(Rn )
für alle k ∈ N
ist. Zu jedem k gibt es dann eine monoton steigende Folge (tk,m )m von Treppenfunktionen
tk,m mit (beschränkter Integralfolge und)
vn
fk =
lim tk,m .
m→∞
Wir setzen
Tm = max{t1,m , t2,m , . . . , tm,m }.
Nach Lemma 29.14 ist hierdurch eine Folge (Tm )m von Treppenfunktionen definiert.
Wir können die Treppenfunktionen tk,m und Tm in dem folgenden Schema anordnen:
vn
t1,1 ≤ t1,2 ≤ t1,3 ≤ . . .
t2,1 ≤ t2,2 ≤ t2,3 ≤ . . .
t3,1 ≤ t3,2 ≤ t3,3 ≤ . . .
..
..
..
..
..
..
.
.
.
.
.
. ...
T1
≤
≤
T2
T3
−→
vn
−→
vn
−→
..
.
f1
f2
f3
..
.
≤ ...
Die Funktion Tm ist das Supremum der ersten m Funktionen tk,m in der m-ten Spalte.
Wegen tk,m ≤ tk,m+1 gilt
Tm ≤ Tm+1
für alle m.
Da (tk,m )m fast überall monoton steigend gegen fk strebt, ist außerdem
v
Tm = max{t1,m , t2,m , . . . , tm,m } ≤n max{f1 , f2 , . . . , fm } = fm
Wegen der Monotonie des Integrals folgt daher
Z
Z
Tm dvn ≤ fm dvn ≤ c
433
für alle m.
für alle m.
Somit ist (Tm )m eine monoton steigende Folge von Treppenfunktionen mit beschränkter
Integralfolge. Nach Lemma 30.4 und der Definition des Lebesgue-Integrals gibt es daher eine
Funktion f ∈ M(Rn ) mit
Z
Z
vn
f = lim Tm
und
f dvn = lim
Tm dvn .
(30.2)
m→∞
m→∞
Es ist
tk,m ≤ Tm
für k ≤ m
und daher
vn
vn
f,
lim tk,m ≤ lim Tm =
fk =
m→∞
m→∞
insgesamt also
vn
Z
vn
Tk ≤ fk ≤ f
Z
Tk dvn ≤
und somit
Z
fk dvn ≤
f dvn
für alle k. Hieraus und aus (30.2) ergibt sich
Z
vn
f = lim fk
k→∞
Z
f dvn = lim
und
fk dvn
k→∞
(denn mit den MengenSNk := {x ∈ Rn | fk (x) < Tk (x) oder fk (x) > f (x)} ist auch die
abzählbare Vereinigung ∞
k=1 Nk eine Nullmenge.)
Unter der Voraussetzung fk ∈ M(Rn ) für alle k ist damit die Behauptung bewiesen.
II. Jetzt sei (fk )k eine beliebige Folge, wie sie im Satz gegeben ist. Die Differenzen
Fk := fk − fk−1
gehören nach Satz 30.11 zu L(Rn ). Es gilt
m
X
F k = fm − f1
m ≥ 2.
für alle
k=2
Weil die Folge der fk monoton steigt, gilt Fk ≥ 0 für alle k ≥ 2. Nach Lemma 30.15 gibt es
Funktionen Gk und Hk in M(Rn ) mit
Z
Fk = Gk − Hk ,
Hk ≥ 0
und
Hk dvn ≤ 2−k
für alle k ≥ 2. Wegen Fk ≥ 0 und Hk ≥ 0 ist auch Gk = Fk + Hk ≥ 0. Wir setzen
gm :=
m
X
Gk
und
hm :=
k=2
m
X
Hk
k=2
für m ≥ 2. Nach Satz 30.7 gehören diese Funktionen zu M(Rn ). Wegen Gk ≥ 0 und Hk ≥ 0
sind die Folgen (gm )m und (hm )m monoton steigend. Für alle m ≥ 2 ist
Z
hm dvn =
m Z
X
Hk dvn ≤
k=2
m
X
k=2
434
2−k <
1
.
2
Die Folge der Integrale der Funktionen gm ist ebenfalls beschränkt, denn es ist
m
X
gm =
(Fk + Hk ) = fm − f1 + hm
(30.3)
k=2
und somit
Z
Z
gm dvn =
Z
fm dvn −
Z
f1 dvn +
Z
hm dvn < c −
f1 dvn +
1
.
2
Auf die Folgen (gm )m und (hm )m ist somit das Ergebnis aus Teil I des Beweises anwendbar.
Danach gibt es Funktionen g und h in M(Rn ) mit
vn
g = lim gm ,
m→∞
vn
h = lim hm ,
m→∞
Z
Z
g dvn = lim
m→∞
Z
gm dvn ,
Z
h dvn = lim
m→∞
hm dvn .
Wir setzen nun
f := g − h + f1 .
Nach Satz 30.11 ist f ∈ L(Rn ). Gemäß (30.3) ist fm = gm − hm + f1 , und es folgt
vn
f = g − h + f1 =
lim (gm − hm ) + f1 = lim fm .
m→∞
m→∞
In derselben Weise erhält man
Z
Z
Z
Z
Z
f dvn = lim
gm dvn − lim
hm dvn + f1 dvn = lim
fm dvn .
m→∞
m→∞
m→∞
Damit ist die Behauptung auch im allgemeinen Fall bewiesen.
Definition 30.17 Wie in Satz 30.16 sei (fk )k eine monoton steigende Folge von Funktionen in L(Rn ) mit beschränkter Integralfolge. Dann heißt (fk )k eine Levi-Folge. Ist
f ∈ L(Rn ) und
vn
f =
lim fk ,
k→∞
dann heißt (fk )k eine Levi-Folge zur Funktion f .
Die Monotonie der Folge (fk )k ist eine ziemlich einschränkende Voraussetzung in Satz 30.16.
Es ist wichtig zu wissen, dass auch einige andere Grenzübergänge nicht aus dem Vektorraum
der integrierbaren Funktionen hinausführen. Das wird in den Sätzen von Lebesgue und Fatou
gezeigt. Zur Vorbereitung dient das folgende Resultat:
Lemma 30.18R
Es sei f ∈ L(Rn ) und f ≥ 0. Genau dann gilt f (x) = 0 für fast alle
x ∈ Rn , wenn f dvn = 0 ist.
Beweis. Aufgabe 11.1
435
Satz 30.19 (Satz von Lebesgue über dominierte Konvergenz)
Es sei (fk )k
eine Folge von Funktionen in L(Rn ), die fast überall gegen eine Funktion f : Rn −→ R
konvergiert, und es existiere eine Funktion g ∈ L(Rn ) mit
|fk | ≤ g
k ∈ N.
für alle
Dann gilt f ∈ L(Rn ) und
Z
Z
f dvn = lim
k→∞
fk dvn .
Dieser und der folgende Satz von Lebesgue sind unter den Namen Satz über dominierte
”
Konvergenz“, Satz über majorisierte Konvergenz“ und Satz über beschränkte Konvergenz“
”
”
bekannt. Alle Bezeichnungen sind durch die entscheidende Bedingung begründet, dass die
Funktionen |fk | eine gemeinsame integrierbare obere Schranke g besitzen.
Beweis. Für x ∈ Rn und natürliche Zahlen m setzen wir
gm (x) := sup{fk (x) | k ≥ m}
und
hm (x) := inf{fk (x) | k ≥ m}.
Die Einführung dieser Funktionen dient dazu, den Satz von Levi (Satz 30.16) zur Anwendung
zu bringen. Offenbar bestehen die Ungleichungen
hm ≤ fm ≤ gm ,
gm+1 ≤ gm ,
hm ≤ hm+1 .
Ob die Funktionen gm und hm zu L(Rn ) gehören, geht aus Satz 30.11 nicht direkt hervor.
Dieser Satz zeigt jedoch, dass für alle natürlichen Zahlen m und j die Funktionen
Gm,j := max{fm , fm+1 , . . . , fm+j }
in L(Rn ) liegen. Für jedes m ist die Folge (Gm,j )j monoton steigend und nach oben durch
g beschränkt, und sie konvergiert gegen
R die Grenzfunktion gm . Die Folge der Integrale der
Funktionen Gm,j ist nach oben durch g dvn beschränkt. Also ist (Gm,j )j eine Levi-Folge.
Nach Satz 30.16 konvergiert sie fast überall gegen eine integrierbare Funktion gem , die fast
überall mit gm identisch ist.
Analog erhalten wir für jedes m eine monoton fallende Folge (Hm,j )j von Funktionen
Hm,j := min{fm , fm+1 , . . . , fm+j }
R
in L(Rn ), die gegen hm konvergieren und deren Integrale nach unten durch (−g) dvn beschränkt sind. Wir können den Satz von Levi (Satz 30.16) auf die Folge (−Hm,j )j anwenden;
danach konvergiert (Hm,j )j fast überall gegen eine integrierbare Funktion e
hm , die fast überall
mit hm identisch ist.
In Anbetracht von Satz 30.12 ist damit gm , hm ∈ L(Rn ) nachgewiesen. Die Folge (gm )m ist
monoton fallend, und (hm )m ist monoton steigend. Gemäß Satz 11.19 gilt
lim gm = lim sup fm ,
m→∞
lim hm = lim inf fm .
m→∞
m→∞
m→∞
R
R
R
Die Folgen der Integrale (−gm ) dvn und hm dvn sind nach oben durch g dvn beschränkt.
Daher ist der Satz von Levi nochmals anwendbar. Er liefert eine Funktion fe ∈ L(Rn ) mit
vn
vn
vn
fe =
lim hm = lim inf fk =
f =
lim sup fk = lim gm .
m→∞
m→∞
k→∞
k→∞
436
vn
Es ist also fe =
f . Aus Satz 30.12 folgt f ∈ L(Rn ). Der Satz von Levi liefert außerdem auch
Z
Z
Z
Z
e
hm dvn = lim
gm dvn .
f dvn = f dvn = lim
m→∞
m→∞
Wegen hm ≤ fm ≤ gm folgt also
Z
Z
f dvn = lim
m→∞
Bemerkung 30.20
fm dvn .
Die Formel in Satz 30.19 schreibt man gerne in der Gestalt
Z
Z
lim fk (x) dvn (x) = lim
fk (x) dvn (x).
k→∞
k→∞
Das ist gut einprägsam, aber nicht ganz korrekt. Denn der Grenzwert limk→∞ fk (x) braucht
vn
nicht für alle x zu existieren. Es gilt vielmehr nur limk→∞ fk =
f für eine integrierbare
Funktion f . Ein einfaches Beispiel für n = 1 erhalten wir, wenn wir fk (x) := 0 für irrationale
x und fk (x) := (−1)k für rationale x setzen.
Es fragt sich, ob die Voraussetzung |fk | ≤ g ∈ L(Rn ) in Satz 30.19 durch eine andere und
möglichst schwächere ersetzbar ist. Einfache Beispiele zeigen, dass man jedenfalls nicht völlig
auf eine derartige Voraussetzung verzichten kann:
Beispiel 30.21
Es sei n = 1. Wir definieren
k · xk für 0 ≤ x ≤ 1,
fk (x) :=
0
für x < 0 und für x > 1.
Dann gilt
lim fk (x) = 0
k→∞
für alle
x ∈ R \ {1}.
Fast überall ist also limk→∞ fk = 0, und es ist
Z
lim fk dv1 = 0.
k→∞
Andererseits erhalten wir, wenn wir das Ergebnis von Satz 30.11 über die Übereinstimmung
von Riemann- und Lebesgue-Integral vorwegnehmen,
Z
Z 1
k
= 1.
lim
fk dv1 = lim
kxk dx = lim
k→∞
k→∞ 0
k→∞ k + 1
Wir beweisen nun eine Variante des Satzes über dominierte Konvergenz. Darin wird die Existenz einer integrierbaren Schranke g nicht für die Folgenglieder fk , sondern für die Grenzfunktion f postuliert:
Satz 30.22 (Satz von Lebesgue über dominierte Konvergenz)
Es sei (fk )k eine
n
n
Folge von Funktionen in L(R ), die fast überall gegen eine Funktion f : R −→ R konvergiert. Es existiere eine Funktion g ∈ L(Rn ) mit
|f | ≤ g.
Dann gilt f ∈ L(Rn ).
437
g
fk
gk
fk
−g
Abbildung 97: Zum Beweis von Satz 30.22
Beweis. Wir führen das Problem auf Satz 30.19 zurück, indem wir


 fk (x)
g(x)
gk (x) :=

 −g(x)
für
für
für
|fk (x)| ≤ g(x),
fk (x) > g(x),
fk (x) < −g(x)
setzen. (In Abbildung 97 wird die Definition der Funktionen gk illustriert.) Es gilt
gk = min{g, max{fk , −g}}.
Nach Satz 30.11 ist also gk ∈ L(Rn ) für alle k. Offenbar ist |gk | ≤ g für alle k. Wegen
vn
vn
f =
limk→∞ fk und |f | ≤ g gilt auch f =
limk→∞ gk . Daher ist die erste Version des Satzes
von Lebesgue über dominierte
Konvergenz
(Satz
30.19) auf die Folge (gk )k anwendbar. Damit
R
R
n
folgt f ∈ L(R ) und f dvn = limk→∞ gk dvn .
Beispiel 30.23
Im Gegensatz zu Satz 30.19 enthält Satz 30.22
das
R keine Aussage über
R
Integral der Grenzfunktion f . Im Allgemeinen gilt hier keineswegs f dvn = limk→∞ fk dvn .
Das wird durch das folgende Beispiel belegt. Wir definieren die Funktionen fk : R −→ R
durch
fk := χ[k;2k] .
R
R
Jedes fk ist eine Treppenfunktion. Es ist fk (x) dx = k und limk→∞ fk (x) dx = ∞. Die
einzige Stufe“ der Treppenfunktion fk verschiebt sich mit wachsenden k immer weiter nach
”
rechts. Daher ist lim
R k→∞ fk (x) = 0 für alle x. Folglich ist Satz 30.22 mit f = 0 und g = 0
anwendbar. Es ist limk→∞ fk (x) dx = 0. Das Integral der Grenzfunktion f hat nichts mit
dem (uneigentlichen) Grenzwert der Integralfolge zu tun. Man kann in diesem Beispiel die
Funktionen fk durch (−1)k fk ersetzen; dann bleibt die Grenzfunktion ungeändert, aber die
Folge der Integrale wird sogar divergent.
Wenn eine Folge von integrierbaren Funktionen nicht fast überall konvergiert, dann kann
man unter gewissen Voraussetzungen immerhin zeigen, dass ihr Limes superior und Limes
inferior integrierbar sind. Das folgende Resultat ist nach P. Fatou (1878 – 1929) benannt.
438
Satz 30.24 (Lemma von Fatou)
Es sei (fk )k eine Folge von Funktionen in L(Rn ). Es
n
existiere eine Funktion g ∈ L(R ) und eine reelle Zahl c mit
Z
fk ≥ g
und
fk dvn ≤ c
für alle k. Dann gibt es eine Funktion f ∈ L(Rn ) mit
Z
vn
f = lim inf fk ,
k→∞
Z
f dvn ≤ lim inf
und es gilt
k→∞
fk dvn .
R
Unter den Voraussetzungen fk ≤ g und fk dvn ≥ c für alle k gilt
Z
Z
lim sup fk dvn ≥ lim sup fk dvn .
k→∞
k→∞
Beweis. Wir gehen ähnlich vor wie im Beweis von Satz 30.19 und setzen
hm (x) := inf{fk (x) | k ≥ m}
und
Hmj := min{fm , fm+1 , . . . , fm+j }.
Dann gilt
g ≤ hm−1 ≤ hm ≤ fm ,
und für jedes m ist (Hmj )j eine monoton fallende Folge von Funktionen mit
lim Hmj = hm .
j→∞
Nach Satz 30.11 gehören alle Hmj zu L(Rn ). Es gilt
Z
Z
Hmj ≥ g,
also
Hmj dvn ≥ g dvn
für alle j.
Aus dem Satz von Levi (Satz 30.16) folgt daher hm ∈ L(Rn ). Dies gilt für jedes m.
R
Die Folge (hm )m ist monoton steigend. Wegen hm ≤ fm und der Voraussetzung fk dvn ≤ c
ist die Folge der Integrale der Funktionen hm nach oben beschränkt. Daher ist Satz 30.16
nochmals anwendbar. Man erhält danach eine Funktion f ∈ L(Rn ) mit
Z
Z
vn
f = lim hm = lim inf fk
f dvn = lim
hm dvn .
und
m→∞
m→∞
k→∞
(Dass (hm )m gegen lim inf k→∞ fk konvergiert, folgt wieder aus Satz 11.19.) Wegen hm ≤ fm
ist
Z
Z
hm dvn ≤ fm dvn
und folglich
Z
Z
f dvn = lim
m→∞
Z
hm dvn ≤ lim inf
k→∞
fk dvn .
Damit sind die Aussagen über den Limes inferior bewiesen. Die analogen Aussagen über den
Limes superior sind dann klar.
439
Bemerkung 30.25
R
R
(1) In Satz 30.24 sind lim inf k→∞ fk dvn und lim inf k→∞ fk dvn im Allgemeinen verschieden. Dies wird ebenfalls durch Beispiel 30.21 belegt.
(2) Wenn in Satz 30.24 die Voraussetzungen zum Limes inferior und Limes superior beide
erfüllt sind, dann erhält man (mit derselben kleinen Unkorrektheit wie in der Bemerkung zu Satz 30.19) die Ungleichungskette
Z
Z
Z
Z
lim inf fk dvn ≤ lim inf fk dvn ≤ lim sup fk dvn ≤
lim sup fk dvn .
k→∞
k→∞
k→∞
k→∞
So kann man insbesondere unter den Voraussetzungen in Satz 30.19
R schließen. Dann
vn
lim
sup
f
,
und
es
folgt
limk→∞ fk dvn =
gilt zusätzlich
lim
inf
f
k→∞ k =
k→∞ k
R
limk→∞ fk dvn . Insofern ist Satz 30.19 als Spezialfall in Satz 30.24 enthalten.
(3) Alle Konvergenzsätze dieses Abschnitts gelten auch für Integrale über Teilmengen A ⊆
Rn . Definition 30.13 macht klar, wie dies zu begründen ist.
30.5
Vergleich zwischen Riemann- und Lebesgue-Integral
Definition 30.26
Für eine beliebige Funktion f : Rn −→ R setzt man
Tr(f ) = supp(f ) := f −1 (R \ {0}) = {x ∈ Rn | f (x) 6= 0}
und nennt Tr(f ) den Träger von f . (Die zweite Notation supp(f ) rührt vom englischen
support“ her.)
”
Beispiel 30.27
Für die Dirichlet-Funktion f = χQ : R −→ R gilt f −1 (R \ {0}) = Q.
Weil Q dicht in R ist, ist hier Tr(f ) = R.
Definition 30.28
Es sei f : Rn −→ R eine beschränkte Funktion mit beschränktem und
folglich kompaktem Träger. Dann existieren Treppenfunktionen t und T mit t ≤ f ≤ T . Wie
im eindimensionalen Fall sind daher das Riemannsche Unterintegral bzw. Oberintegral
von f , nämlich
(Z
)
Z
t dvn t ∈ Tn , t ≤ f ,
f dvn = sup
(
)
Z
Z
f dvn = inf
T dvn T ∈ Tn , T ≥ f
R
R
wohldefinierte reelle Zahlen. Offenbar gilt f dvn ≤ f dvn . Falls hierin Gleichheit besteht,
R
dann heißt die Funktion f Riemann-integrierbar, und der gemeinsame Wert f dvn =
R
R
f dvn = f dvn heißt das (Riemann-)Integral von f .
R
Die Schreibweise f dvn für das Riemann-Integral ist dieselbe wie für das Lebesgue-Integral.
Dies wird durch den folgenden Satz legitimiert.
440
Satz 30.29
Es sei f : Rn −→ R eine beschränkte Funktion mit kompaktem Träger. Wenn
f Riemann-integrierbar ist, dann ist f Lebesgue-integrierbar, und das Riemann-Integral von
f ist gleich dem Lebesgue-Integral von f .
Beweis. Die Funktion f sei Riemann-integrierbar. Zu jeder natürlichen Zahl k gibt es dann
Treppenfunktionen tk und Tk mit
Z
1
tk ≤ f ≤ Tk
und
(Tk − tk ) dvn < .
k
Diese Eigenschaften bleiben erhalten, wenn wir tk durch max{t1 , t2 , . . . , tk } und Tk durch
min{T1 , T2 , . . . , Tk } ersetzen. Daher dürfen wir annehmen, dass (tk )k eine
R monoton steigende
R
und (Tk )k eine monoton fallende Folge ist. Die Folgen Rder Integrale tk dvn und Tk dvn
sind monoton und beschränkt, also konvergent. Wegen (Tk − tk ) dvn < k1 sind die beiden
Grenzwerte identisch und gleich dem Riemannschen Integral von f .
Die monotonen Folgen (tk )k und (Tk )k haben reellwertige Grenzfunktionen f1 = limk→∞ tk
und f2 = limk→∞ Tk . Diese erfüllen f1 ≤ f ≤ f2 , und gemäß Definition 30.6 gehören f1 und
−f2 beide zu M(Rn ). Es gilt
Z
Z
Z
Z
f1 dvn = lim
tk dvn = lim
Tk dvn = f2 dvn
k→∞
k→∞
vn
vn
vn
und f2 − f1 ≥ 0. Hieraus und aus Lemma 30.18 folgt f1 =
f2 und somit f =
f1 =
R f2 . Also
n
ist f Lebesgue-integrierbar, es ist sogar f ∈ M(R ), und das Lebesgue-Integral f dvn ist
gleich dem Riemann-Integral von f .
Die Stetigkeit bzw. die Monotonie sind hinreichend für die Riemannsche Integrierbarkeit
einer Funktion von einer Variablen. Wir kennen aber bisher kein zugleich hinreichendes
und notwendiges Kriterium für die Riemannsche Integrierbarkeit, das sich nur auf innere“
”
Eigenschaften der Funktionen beruft. Erstaunlicherweise liefert die Lebesguesche Integrationstheorie ein solches Kriterium: Die Funktion f muss fast überall stetig sein. Monotone
Funktionen haben diese Eigenschaft, weil sie höchstens abzählbar unendlich viele Unstetigkeitsstellen haben (Aufgabe 3.3).
Satz 30.30 (Kriterium von Lebesgue)
Es sei f : Rn −→ R eine beschränkte Funktion mit kompaktem Träger. Die Funktion f ist genau dann Riemann-integrierbar, wenn sie
fast überall stetig ist.
Beweis. I. Die Funktion f sei Riemann-integrierbar. Wie im Beweis von Satz 30.29 erhalten
wir dann Folgen (tk )k und (Tk )k von Treppenfunktionen tk und Tk , wobei (tk )k monoton
steigt, (Tk )k monoton fällt, tk ≤ f ≤ Tk für alle k ist und
lim tk = lim Tk = f
k→∞
k→∞
fast überall
gilt. Die Funktionen tk und Tk sind mit Ausnahme der Ränder gewisser Quader überall
stetig. Diese Ränder sind Nullmengen (Beispiel 29.11 (1)). Deshalb sind
tk und Tk
fast überall stetig.
441
Aus Satz 29.10 (2) folgt somit die Existenz einer Nullmenge N , so dass alle Funktionen tk
und Tk auf Rn \ N stetig sind und die Folgen (tk )k und (Tk )k auf dieser Menge gegen f
konvergieren.
Es seien ein Punkt ξ ∈ Rn \ N und eine Zahl ε > 0 gegeben. Dazu gibt es eine natürliche
Zahl m mit
f (ξ) − ε ≤ tm (ξ) ≤ f (ξ) ≤ Tm (ξ) ≤ f (ξ) + ε.
Weil die Treppenfunktionen tm und Tm im Punkt ξ stetig sind, gibt es eine Umgebung U
von ξ, auf der tm und Tm konstant sind. Für alle x ∈ U folgt daher
f (ξ) − ε ≤ tm (ξ) = tm (x) ≤ f (x) ≤ Tm (x) = Tm (ξ) ≤ f (ξ) + ε
und somit |f (x) − f (ξ)| ≤ ε. Also ist f im Punkt ξ stetig. Damit ist gezeigt, dass f in jedem
Punkt außerhalb der Nullmenge N stetig ist.
II. Jetzt wird vorausgesetzt, dass f fast überall stetig ist. Der Träger von f ist in einem
gewissen Quader Q = I1 × . . . × In enthalten. Durch fortgesetzte Halbierung der Intervalle
I1 , . . . , In gewinnen wir eine Folge von Parkettierungen
Q = Qk1 ∪ Qk2 ∪ . . . ∪ Qk,N (k)
des Quaders Q in N (k) = 2kn Teilquader gleichen Volumens, so dass die Parkettierung zum
Index k + 1 eine Verfeinerung der Parkettierung zum Index k ist und so dass die gemeinsamen Durchmesser δk der Quader Qk1 , . . . , Qk,N (k) eine Nullfolge bilden. Wir definieren
Treppenfunktionen tk und Tk , indem wir tk (x) = Tk (x) = 0 für x ∈ Rn \ Q und
tk (x) = inf{f (y) | y ∈ Qkj },
Tk (x) = sup{f (y) | y ∈ Qkj }
für
x ∈ Qkj
und j = 1, . . . , N (k) setzen. Offenbar gilt dann
tk ≤ tk+1 ≤ f ≤ Tk+1 ≤ Tk
für alle k. Daher sind die Folgen (tk )k und (Tk )k überall konvergent, und es gilt
lim tk (x) ≤ f (x) ≤ lim Tk (x)
k→∞
k→∞
für alle
x ∈ Rn .
Wir zeigen nun: Wenn f im Punkt ξ stetig ist, dann gilt
lim tk (ξ) = f (ξ) = lim Tk (ξ).
k→∞
k→∞
Beweis: Es sei eine Zahl ε > 0 gegeben. Wegen der Stetigkeit von f in ξ gibt es eine
Umgebung U von ξ mit |f (x) − f (ξ)| < ε für alle x ∈ U . Weil die zuvor erklärten Durchmesser δk eine Nullfolge bilden, gibt es ein k0 , so dass für jedes k ≥ k0 der Teilquader Qkj
mit ξ ∈ Qkj vollständig in U enthalten ist. Für jedes k ≥ k0 folgt daher nach Definition
der Funktionen tk , Tk
|tk (ξ) − f (ξ)| ≤ ε
und
Daraus folgt die Behauptung.
442
|Tk (ξ) − f (ξ)| ≤ ε.
Weil f nach unserer Annahme fast überall stetig ist, erhalten wir aus dem letzten Ergebnis
für fast alle x ∈ Rn .
lim tk (x) = f (x) = lim Tk (x)
k→∞
k→∞
Auf die Folgen (tk )k und (−Tk )k ist der Satz von Levi (Satz 30.16) anwendbar. Danach gibt
es Funktionen g und h in L(Rn ) mit
g = lim tk ,
k→∞
und es ist
Z
h = lim Tk
k→∞
Z
g dvn = lim
k→∞
fast überall,
Z
tk dvn ,
Z
h dvn = lim
k→∞
Tk dvn .
Folglich ist auch f = g und f = h fast überall. Daher ist f Lebesgue-integrierbar, und es ist
sogar f ∈ M(Rn ). Weiter folgt
Z
Z
Z
Z
Z
Z
f dvn ≥ lim
tk dvn = g dvn = h dvn = lim
Tk dvn ≥ f dvn .
k→∞
k→∞
R
R
Es folgt f dvn = f dvn , und somit ist f Riemann-integrierbar.
Die Stellung uneigentlicher Riemann-Integrale im Rahmen der Lebesgueschen Integrationstheorie wird durch den folgenden Satz geklärt:
Satz 30.31
Für
R die Funktion f : I −→ R auf dem reellen Intervall I sei das uneigentliche
Riemann-Integral I f (x) dx konvergent. Dann gilt: Die Funktion
R f ist genau dann Lebesgueintegrierbar, wenn auch das uneigentliche Riemann-Integral I |f (x)| dx konvergiert, und in
diesem Fall ist das Lebesgue-Integral von f gleich dem uneigentlichen Riemann-Integral
von f .
Beweis. Aufgabe 12.1
R∞
Beispiel 30.32
Das uneigentliche Riemann-Integral −∞ sinx x dx konvergiert (Beispiel
21.7). Dennoch ist die Funktion x 7→ sinx x nicht Lebesgue-integrierbar, denn das uneigentliche
Integral ihres Betrages divergiert.
Nach dem zweiten Teil des Hauptsatzes der Differential- und Integralrechnung (Satz 18.3)
lässt sich das Integral über die Ableitung f 0 einer differenzierbaren Funktion f : [a; b] −→ R
als Differenz der Funktionswerte von f an den Integrationsgrenzen darstellen, sofern f 0 stetig ist. Es stellt sich die Frage, inwieweit man hierbei die Voraussetzung der Stetigkeit von
f 0 abschwächen kann. Im Rahmen der Riemannschen Integrationstheorie kann man zeigen,
dass der Satz gültig bleibt, wenn man von f 0 lediglich die Riemann-Integrierbarkeit voraussetzt. Diese Voraussetzung ist natürlich unverzichtbar, und sie folgt nicht automatisch aus
der Tatsache, dass f 0 eine Ableitung ist. Offensichtliche Gegenbeispiele liefern differenzierbare Funktionen mit auf Kompakta unbeschränkter Ableitung wie f (x) := x2 · sin x12 (Beispiel 14.21 (2)). Aber auch die Beschränktheit der Ableitung sichert nicht deren RiemannIntegrierbarkeit, wie ein berühmtes Beispiel von Volterra zeigt (Aufgabe 12.2). Im Rahmen
der Lebesgue-Theorie können solche Pathologien nicht auftreten: Hier genügt es, die Beschränktheit von f 0 vorauszusetzen, damit f 0 Lebesgue-integrierbar ist und die Aussage im
zweiten Teil des Hauptsatzes für f 0 gilt.
443
Satz 30.33 Es sei f : [a; b] −→ R differenzierbar, und die Ableitung f 0 sei beschränkt.
Dann ist f 0 Lebesgue-integrierbar, und es gilt
Z
f 0 (x) dv1 (x) = f (b) − f (a).
[a,b]
Beweis. O.B.d.A. dürfen wir annehmen, dass f auf ganz R definiert und differenzierbar ist
mit |f 0 (x)| ≤ M für alle x ∈ R. Wir betrachten die Funktionen gk : R −→ R, die durch
1
− f (x)
für alle x ∈ R
gk (x) := k · f x +
k
erklärt sind. Die Riemann- und damit die Lebesgue-Integrierbarkeit von gk auf [a; b] ist
klar, da gk stetig ist. Nach Definition der Ableitung konvergiert (gk )k punktweise gegen f 0 .
Es seien ein x ∈ R und ein k ∈ N gegeben. Dann gibt es nach dem Mittelwertsatz der
Differentialrechnung ein ξ zwischen x und x + k1 mit
f x + k1 − f (x)
gk (x) =
= f 0 (ξ).
1/k
Dies zeigt |gk (x)| ≤ M für alle x ∈ R und alle k. Aufgrund der Integrierbarkeit der konstanten
Funktion x 7→ M auf dem beschränkten Intervall [a, b] folgt mit dem Satz von Lebesgue über
dominierte Konvergenz (Satz 30.19) die Lebesgue-Integrierbarkeit von f 0 auf [a, b] und
Z
k→∞
k→∞
[a,b]
Wegen der Stetigkeit von f ist
Z
b
gk (x) dx.
gk (x) dv1 (x) = lim
f (x) dv1 (x) = lim
[a,b]
Z
Z
0
a
x
f (t) dt
F (x) :=
a
nach dem Hauptsatz der Differential- und Integralrechnung differenzierbar mit F 0 = f . Damit
folgt für alle k
Z b
Z b 1
gk (x) dx = k ·
f x+
− f (x) dx
k
a
a
1
1
= k· F b+
− F (b) − F a +
+ F (a)
k
k
−→ F 0 (b) − F 0 (a) = f (b) − f (a)
(k → ∞).
Dies zeigt die Behauptung.
444
31
31.1
Messbarkeit
Messbare Mengen
In den Definitionen 29.3 und 30.2 haben wir das Volumen zunächst von Quadern und dann
von parkettierbaren Mengen erklärt. Wir wenden uns jetzt der Aufgabe zu, das Volumenmaß
vn (M ) für eine möglichst große Menge von Teilmengen M ⊆ Rn zu definieren. Es liegt
nahe, wieRin Definition 30.2 die charakteristische Funktion χM von M zu verwenden und
vn (M ) = χM dvn zu setzen, falls χM Lebesgue-integrierbar ist. Auf diese Weise erhält man
tatsächlich alle messbaren Mengen mit endlichem Volumen. Es ist jedoch sinnvoll, auch einige
viel zu große“ Mengen M messbar zu nennen und ihnen das Volumenmaß vn (M ) = ∞ zu
”
geben. Dies geschieht wie folgt:
Definition 31.1
Zur Abkürzung setzen wir fortan
Wn (j) := [−j; j]n ;
Wn (j) soll also der n-dimensionale abgeschlossene Würfel der Kantenlänge 2j mit dem Nullpunkt als Mittelpunkt sein.
Eine Menge A ⊆ Rn heißt messbar, falls die charakteristische Funktion χA für alle j ∈ N
auf dem Würfel Wn (j) Lebesgue-integrierbar ist. Der (evtl. uneigentliche Grenzwert)
Z
vn (A) := lim
χA dvn ∈ R ∪ {∞}
j→∞
Wn (j)
heißt das Volumenmaß oder das Volumen der Menge A.
Bemerkung 31.2
(1) Die Existenz
Rdes Grenzwerts
in der Definition von vn (A) ergibt sich daraus, dass die Integralfolge Wn (j) χA dvn monoton steigt. Natürlich ist der Fall vn (A) = ∞ möglich.
j
(2) Ist A ⊆ Rn eine beschränkte messbare Menge, so ist A in einem geeigneten Würfel
Wn (j) enthalten, und daher ist
Z
vn (A) = χA dvn .
Allgemeiner gilt: Ist A ⊆ Rn eine messbare Menge mit vn (A) < ∞, so ist
(χA · χWn (j) )j eine punktweise gegen χA konvergente, monoton steigende Folge
Lebesgue-integrierbarer Funktionen mit durch vn (A) beschränkter Integralfolge; aus
dem Satz von Levi (Satz 30.16) folgt daher die Lebesgue-Integrierbarkeit von χA auf
ganz Rn und
Z
vn (A) = χA dvn .
(3) Jede parkettierbare Menge P ist messbar, und ihr Volumen vn (P ) ist identisch mit
dem in Definition 30.2 erklärten Volumen von P .
445
(4) Jede Nullmenge N ⊆ Rn ist messbar, und sie hat das Volumen vn (N ) = 0. Dies folgt
aus Lemma 30.18.
(5) Der Gesamtraum Rn ist messbar mit vn (Rn ) = ∞.
(6) Aus der Monotonie des Integrals folgt die Monotonie des Maßes: Für messbare Mengen
A, B im Rn mit A ⊆ B gilt vn (A) ≤ vn (B).
Ist f ∈ L(Rn ) und ist A eine messbare Menge, dann existiert das Integral
RLemma 31.3
R
f dvn = f · χA dvn .
A
Beweis. Nach Definition von Lebesgue-Integrierbarkeit gibt es eine Folge (tk )k von Treppenfunktionen, die fast überall gegen f konvergiert.
Es sei ein j ∈ N gegeben. Da χA · χWn (j) = χA∩Wn (j) wegen der Messbarkeit von A Lebesgueintegrierbar ist, gibt es auch eine Folge (Tk )k von Treppenfunktionen, die fast überall gegen
χA∩Wn (j) konvergiert. Nach Lemma 29.14 sind auch tk · Tk Treppenfunktionen (insbesondere
Lebesgue-integrierbar), die Folge (tk · Tk )k konvergiert fast überall gegen f · χA∩Wn (j) , und es
ist |f · χA∩Wn (j) | ≤ |f | ∈ L(Rn ). Daher ist die zweite Variante des Satzes von Lebesgue über
dominierte Konvergenz (Satz 30.22) anwendbar, und es folgt f · χA∩Wn (j) ∈ L(Rn ). Dies gilt
für alle j ∈ N.
Setzt man fj := f · χA∩Wn (j) , so ist (fj )j also eine Folge Lebesgue-integrierbarer Funktionen,
die punktweise gegen f · χA konvergiert, und es gilt |fj | ≤ |f | ∈ L(Rn ) für alle j. Aus der
ersten (oder wegen |f · χA | ≤ |f | ∈ L(Rn ) auch aus der zweiten) Variante des Satzes von
Lebesgue über dominierte Konvergenz (Satz 30.19) folgt nunmehr auch f · χA ∈ L(Rn ), wie
behauptet.
Satz 31.4
Die Mengen A1 , A2 , A3 , . . . ⊆ Rn seien messbar. Dann gelten die folgenden
Aussagen:
(1) Die Differenz A1 \ A2 ist messbar. Für jedes k sind die Mengen A1 ∩ . . . ∩ Ak und
A1 ∪ . . . ∪ Ak messbar. Wenn vn (A1 ∩ A2 ) 6= ∞ ist, dann ist
vn (A1 \ A2 ) = vn (A1 ) − vn (A1 ∩ A2 ),
vn (A1 ∪ A2 ) = vn (A1 ) + vn (A2 ) − vn (A1 ∩ A2 ).
(2) Der Durchschnitt
T∞
k=1
Ak und die Vereinigung
S∞
k=1
Ak sind messbar.
(3) Es gilt
vn
∞
\
k=1
!
Ak
= lim vn (Ak ),
k→∞
falls
A1 ⊇ A2 ⊇ A3 ⊇ . . .
und die Volumenmaße vn (Ak ) von einem gewissen k an endlich sind, und
!
∞
[
vn
Ak = lim vn (Ak ), falls A1 ⊆ A2 ⊆ A3 ⊆ . . . .
k=1
k→∞
(4) Für alle k, l mit k 6= l sei Ak ∩ Al eine Nullmenge. Dann gilt
!
!
m
m
∞
∞
[
X
[
X
vn
Ak =
vn (Ak ) für alle m
und
vn
Ak =
vn (Ak ).
k=1
k=1
k=1
446
k=1
Beweis.
(1) Die charakteristischen Funktionen χAk sind nach Voraussetzung auf allen Würfeln
Wn (j) Lebesgue-integrierbar. Es gilt
χA1 ∩A2 = χA1 · χA2 ,
χA1 \A2 = χA1 · (1 − χA2 ) = χA1 − χA1 · χA2 ,
χA1 ∪A2 = χA1 + χA2 − χA1 ∩A2 = max{χA1 , χA2 }
und allgemeiner
χA1 ∩...∩Ak = χA1 · . . . · χAk = min{χA1 , . . . , χAk },
χA1 ∪...∪Ak = 1 − (1 − χA1 ) · . . . · (1 − χAk ) = max{χA1 , . . . , χAk }.
Aus Lemma 31.3, angewandt auf A1 statt A und auf die Funktion f := χA2 · χWn (j) ∈
L(Rn ), folgt die Lebesgue-Integrierbarkeit von χA1 ·χA2 auf Wn (j) für alle j ∈ N. Damit
und mit Satz 30.11 ergibt sich aus obigen Formeln die Lebesgue-Integrierbarkeit von
χA1 \A2 , χA1 ∩...∩Ak und χA1 ∪...∪Ak auf allen Wn (j). Dies zeigt die Messbarkeit aller in (1)
genannten Mengen.
Aus der Additivität des Integrals folgen die Formeln in (1), sofern vn (A1 ∩ A2 ) 6= ∞.
(2) Die charakteristischen Funktionen der Vereinigung und des Durchschnitts aller Ak
können als Grenzfunktionen
lim max{χA1 , . . . , χAk }
k→∞
und
lim min{χA1 , . . . , χAk }
k→∞
geschrieben werden; dabei sind die Funktionenfolgen (max{χA1 , . . . , χAk })k und
(min{χA1 , . . . , χAk })k monoton steigend bzw. fallend, und die zugehörigen Integralfolgen sind auf jedem Würfel Wn (j) nach oben durch vn (Wn (j)) bzw. nach unten durch
0 beschränkt. Aus dem Satz von Levi folgt daher die Integrierbarkeit der o.g. Grenzfunktionen auf allen Würfeln Wn (j) und hieraus die Messbarkeit der Vereinigung und
des Durchschnitts aller Ak . Dies zeigt (2).
(3) Unter den Voraussetzungen in (3) sind die charakteristischen Funktionen der Vereinigung beziehungsweise des Durchschnitts der Ak einfach die Grenzfunktion
lim χAk ,
k→∞
und die Folgen (χAk )k sind monoton steigend beziehungsweise fallend.
Falls die Ak eine absteigende Folge bilden und vn (Ak ) < ∞ (also χAk ∈ L(Rn )) für
hinreichend große k gilt, so folgt aus dem Satz von Levi (angewandt auf die Folge
(−χAk )k , deren Integralfolge nach oben durch 0 beschränkt ist)
! Z
Z
∞
\
vn
Ak =
lim χAk dvn = lim
χAk dvn = lim vn (Ak ).
k=1
k→∞
k→∞
k→∞
Nun sei die Folge (Ak )k Raufsteigend. Falls vn (Ak ) < ∞ für alle k und falls die Folge
der Integrale vn (Ak ) = χAk dvn beschränkt ist, so folgt die Behauptung über das
447
Volumen der Vereinigung der Ak wiederum aus dem Satz von Levi. Anderenfalls ist
limk→∞ vn (Ak ) = ∞, und aufgrund von
!
∞
[
vn
Ak ≥ vn (Am )
für alle m
k=1
ist auch das Volumen der Vereinigung gleich ∞.
(4) Unter den Voraussetzungen in (4) ist
vn
χA1 ∪...∪Am =
χA1 + . . . + χAm
für alle m, und eine entsprechende Formel gilt für die charakteristische Funktion der
Vereinigung aller Ak . Hieraus ergibt sich sofort die Formel für das Volumen der endlichen Vereinigung. Aus dem Satz von Levi (angewandt auf die Würfel Wn (j)) folgt
auch die Formel für das Volumen der unendlichen Vereinigung.
Beispiel 31.5
Wenn vn (Ak ) = ∞ für alle k ist, dann ist T
die Formel in (3) für das Maß
des Durchschnitts nicht allgemein richtig. Es könnte nämlich ∞
k=1 Ak = ∅ sein. Ein Beispiel
hierfür liefern die Mengen Ak := [k; ∞[ mit k ∈ N.
Alle topologisch gutartigen“ Mengen sind messbar:
”
Satz 31.6
Alle offenen, alle abgeschlossenen und alle kompakten Teilmengen in Rn sind
messbar.
Beweis. Es sei eine offene Menge D ⊆ Rn gegeben. Für natürliche Zahlen k bezeichnen wir
mit Qnk die Menge aller kompakten Quader Q = I1 × . . . × In , worin die Anfangs- und die
Endpunkte aller Intervalle Ij rationale Zahlen der Gestalt a/2k mit a ∈ Z sind. (Die Nenner
dieser Zahlen sollen also Teiler von 2k sein; es wird nicht verlangt, dass die Zähler a ungerade
sind.) Die Menge Qnk ist abzählbar unendlich. Es bezeichne
[
Pk =
Q
Q∈Qnk ,Q⊆D
die Vereinigungsmenge aller in D enthaltenen Quader aus Qnk . Die Menge Pk ist nach Satz
31.4 (2) messbar, weil nur endlich oder abzählbar unendlich viele Quader Q vereinigt werden.
Offenbar gilt
∞
[
P1 ⊆ P 2 ⊆ P3 ⊆ . . .
und
Pk ⊆ D,
k=1
und nach Satz 31.4 (2) ist auch die Vereinigung aller Pk eine messbare Menge.
Wir zeigen nun, dass D gleich dieser Vereinigungsmenge und somit messbar ist. Dazu sei
ein beliebiger Punkt x ∈ D gegeben. Weil D offen ist, gibt es eine offene Kugel U mit
x ∈ U ⊆ D. Also gibt es auch ein k und einen Quader Qk ∈ Qnk mit x ∈ Qk ⊆ U ⊆ D.
Folglich ist x ∈ Pk . Damit ist
∞
[
D=
Pk
k=1
und die Messbarkeit von D nachgewiesen.
Nun sei eine abgeschlossene Menge A ⊆ Rn gegeben. Das Komplement D = Rn \ A ist offen,
also messbar, wie wir gerade gezeigt haben. Nach Satz 31.4 ist somit A = Rn \ D ebenfalls
messbar. Das gilt insbesondere dann, wenn A kompakt ist.
448
31.2
Eine nicht-messbare Menge
Jede offene und jede abgeschlossene Menge ist nach Satz 31.6 messbar. Alle vernünftigen“
”
mengentheoretischen Operationen mit messbaren Mengen liefern nach Satz 31.4 wiederum
messbare Mengen. Gibt es überhaupt Mengen, die nicht messbar sind? Zur Klärung dieser
Frage benötigt man das Auswahlaxiom aus der Mengenlehre. Eine einfache Formulierung
lautet wie folgt:
Auswahlaxiom. Es sei M eine nicht-leere Menge. Die Elemente von M seien nicht-leere
und paarweise disjunkte Mengen. Dann gibt es eine Menge A mit den folgenden Eigenschaften: Jedes x ∈ A ist ein Element einer gewissen Menge M ∈ M, und für jede Menge M ∈ M
gibt es genau ein Element x ∈ M mit x ∈ A.
Bemerkung 31.7
Aus jeder Menge M ∈ M wird also ein Vertreter“ x ∈ M aus”
gewählt, und es wird postuliert, dass man diese Vertreter in einem Vertretersystem“ zu
”
einer Auswahlmenge“ A zusammenfassen kann. Diese Forderung mag beinahe wie eine
”
Selbstverständlichkeit erscheinen. Das Auswahlaxiom hat jedoch Konsequenzen, die unserer
Intuition zuwider laufen, wie zum Beispiel das Paradoxon von Banach, Hausdorff und
Tarski: Eine Kugel in R3 ist in endlich viele (fünf) Teilmengen zerlegbar, die durch geeignete Bewegungen zu einer Kugel mit doppeltem Volumen zusammensetzbar sind. (Diese
Teilmengen sind nicht messbar. Niemand kann die Teilmengen “herstellen” und die wundersame Kugelverdoppelung zustande bringen. Nähere Informationen zu diesem und ähnlichen
Paradoxa finden sich in [Wagon] und [Kirsch].)
Deshalb war es eine Weile umstritten, ob das Auswahlaxiom legitim ist oder ob seine Verwendung zu wirklichen Widersprüchen führen könnte. Die Rolle des Auswahlaxioms wurde
von E. Zermelo (1871 – 1953) erkannt, und er hat es 1908 als Axiom in die Mengenlehre
eingeführt. Ein Problem bei seiner Anwendung besteht darin, dass man in typischen Fällen
keinerlei Möglichkeit zur tatsächlichen Angabe einer Auswahlmenge A hat. Man erhält daher
nicht-konstruktive Resultate, also Beweise der Existenz von Objekten, die niemand wirklich
vorzeigen“ kann. Was die befürchteten Widersprüche angeht, kann es nach Resultaten von
”
Gödel keine Beweise geben, die Widersprüche in der Mathematik absolut ausschließen. Es
gibt jedoch relative Widerspruchsfreiheitsbeweise. So bewies P. J. Cohen 1963: Wenn aus
den Axiomen der Mengenlehre mit Einschluss des Auswahlaxioms ein Widerspruch herleitbar ist, dann gelangt man bereits ohne das Auswahlaxioms zu einem Widerspruch. Hierdurch
wurde die Position der Mehrzahl der Mathematiker gestärkt, die schon längst für eine freie
Verwendung des Auswahlaxioms eintraten.
Das Auswahlaxiom ist logisch äquivalent zu zwei anderen Aussagen, nämlich zum sog. Wohlordnungssatz und zum Lemma von Zorn. Letzteres ist den Bedürfnissen in der Algebra gut
angepasst. Zum Beispiel benutzt man es zum Beweis des Satzes, dass jeder (unendlichdimensionale) Vektorraum eine Basis besitzt.
Wir wollen eine Teilmenge des Intervalls [0, 1[ konstruieren“, die nicht messbar ist. Die
”
Methode kann auch zum Nachweis von nicht-messbaren Mengen in Rn verwendet werden.
Sie beruht auf einer Eigenschaft des Volumenmaßes vn und speziell des Längenmaßes v1 ,
wodurch sich diese Maße vor anderen auszeichnen, nämlich auf ihrer Translationsinvarianz.
Lemma 31.8 (Translationsinvarianz des Lebesgue-Integrals und des Volumens)
Für jede Funktion f ∈ L(Rn ) und jeden Vektor p ∈ Rn ist auch die Funktion g(x) := f (x+p)
449
Lebesgue-integrierbar, und die Integrale von f und g stimmen überein. Insbesondere ist für
jede messbare Menge M ⊆ Rn und jeden Vektor p ∈ Rn auch das Translat
M + p := {x + p | x ∈ M }
messbar, und es gilt
vn (M + p) = vn (M ).
Beweis. Für beliebige Quader Q ∈ Qn und Vektoren p ∈ Rn geht aus der Definition des Quadervolumens direkt vn (Q + p) = Rvn (Q) hervor. Aus Rder Definition des Elementarintegrals in
Abschnitt 30.1 folgt dann sofort t(x + p) dvn (x) = t(x) dvn (x) für alle Treppenfunktionen
t. Aus der Definition des Lebesgue-Integrals ergibt sich dann dessen Translationsinvarianz.
Die Translationsinvarianz des Volumens ist nur ein Spezialfall hiervon.
Beispiel 31.9
Wir gehen von der Menge X = [0, 1[ aus. Zwei Zahlen a, b ∈ X werden
äquivalent genannt, falls a − b ∈ Q ist. Man sieht sofort, dass hierdurch tatsächlich eine
Äquivalenzrelation auf X definiert ist. Die Äquivalenzklasse eines Punktes a ∈ X ist
A(a) = {x ∈ X | a − x ∈ Q}.
Die Menge X wird disjunkt in die Äquivalenzklassen zerlegt. Aus dem Auswahlaxiom folgt
die Existenz einer Menge E, die aus jeder Äquivalenzklasse genau einen Repräsentanten
enthält82 . Die Menge E ist nicht messbar.
Beweis. Wir nehmen an, E wäre messbar. Dann bilden wir für q ∈ X ∩ Q die Menge
Eq = {x + q + nq (x) | x ∈ E}
mit
nq (x) =
0 für x < 1 − q,
−1 für x ≥ 1 − q.
Die Menge Eq entsteht, indem man E mit den Intervallen [0, 1 − q[ und [1 − q, 1[ zum
Durchschnitt bringt und den einen Durchschnitt um q und den anderen um q − 1 verschiebt.
Insbesondere gilt Eq ⊆ X. Die Menge Eq ist die disjunkte Vereinigung der beiden solchermaßen verschobenen Durchschnitte. Aus der Messbarkeit von E und der Translationsinvarianz
des Längenmaßes v1 folgt die Messbarkeit von Eq und
v1 (Eq ) = v1 (E)
für alle
q ∈ X ∩ Q.
Weil E ein Vertretersystem der Äquivalenzklassen ist, gilt
[
Eq = X.
q∈X∩Q
82
Formal schließt man dabei wie folgt: Die Axiome der Mengenlehre postulieren die Existenz der Potenzmenge P(X); das ist die Menge aller Teilmengen von X. Die Axiome erlauben die Bildung der Menge aller
Äquivalenzklassen A(a) in der Form
K = {K ∈ P(X) | es gibt ein a ∈ X mit K = A(a)}.
Da die Äquivalenzklassen paarweise disjunkt sind, ist das Auswahlaxiom anwendbar.
450
Begründung: Die Inklusion ⊆“ ist klar. Es sei ein y ∈ X gegeben. Dann gibt es ein
”
x ∈ E und ein q ∈ Q, so dass y = x + q. Wegen x = y − q < 1 − q ist nq (x) = 0, also
y = x + q + nq (x) ∈ Eq . Dies zeigt auch die umgekehrte Inklusion.
Die Mengen Eq sind paarweise disjunkt. Zum Beweis nehmen wir an, für Zahlen q, r ∈ X ∩ Q
existiere ein Punkt y ∈ Eq ∩ Er . Dann gilt
y = x1 + q + nq (x1 ) = x2 + r + nr (x2 )
mit gewissen
x1 , x2 ∈ E.
Hieraus folgt x1 − x2 ∈ Q, nach Definition von E also x1 = x2 . Daher ist q − r = nr (x2 ) −
nq (x1 ) ∈ Z. Wegen q, r ∈ X folgt somit q = r. Die Darstellung von X als Vereinigung der
Mengen Eq ist also tatsächlich disjunkt. Aus Satz 31.4 (4) folgt nun
X
X
1 = v1 (X) =
v1 (Eq ) =
v1 (E).
q∈X∩Q
q∈X∩Q
Die rechte Seite hat den Wert 0 für v1 (E) = 0 und den Wert ∞ für v1 (E) > 0. Beides ergibt
einen Widerspruch. Damit ist gezeigt, dass E nicht messbar ist.
Die Verwendung des Auswahlaxioms zur Konstruktion“ einer nicht-messbaren Menge ist
”
unvermeidbar, wie R. Solovay (geb. 1938) gezeigt hat [Solovay].
31.3
Messbare Funktionen
Definition 31.10
Eine Funktion f : Rn −→ R heißt messbar, falls es eine Folge von
Treppenfunktionen gibt, die fast überall gegen f konvergiert. Wir bezeichnen mit M(Rn ) die
Menge aller messbaren Funktionen.
In einem ersten Resultat geben wir Beispiele von messbaren Funktionen an:
Proposition 31.11
ist messbar.
Jede integrierbare Funktion ist messbar, und jede konstante Funktion
Beweis. Es sei f ∈ L(Rn ). Definitionsgemäß gilt dann f = g − h mit Funktionen g und
h, die fast überall Grenzfunktionen monotoner Folgen von Treppenfunktionen sind. Also ist
auch f selber fast überall die Grenzfunktion einer Folge von Treppenfunktionen.
Nun sei f (x) = c eine konstante Funktion auf Rn . Dann definieren wir für natürliche Zahlen
k die Treppenfunktion tk durch tk := c · χWn (k) . Offenbar ist f die Grenzfunktion der Folge
(tk )k .
Alle vernünftigen endlichen“ Operationen mit messbaren Funktionen ergeben wieder mess”
bare Funktionen:
Proposition 31.12 Für beliebige messbare Funktionen f und g und für beliebige reelle
Zahlen c und d sind auch die Funktionen
cf + dg, max{f, g}, min{f, g}, f + , f − , |f | und f · g
messbar. Wenn f (x) 6= 0 für fast alle x ist, dann ist auch die Funktion
451
1
f
messbar.
Beweis. Es seien (tk )k und (Tk )k Folgen von Treppenfunktionen, die fast überall gegen f
beziehungsweise gegen g konvergieren. Nach Lemma 29.14 sind auch tk · Tk Treppenfunkvn
tionen, und es gilt f · g =
limn→∞ (tk · Tk ). Also ist f · g messbar. Analog folgert man aus
Lemma 29.14, dass die übrigen Funktionen in der Liste messbar sind.
1
Es sei f (x) 6= 0 für fast alle x. Wir definieren die Funktion h = f1 , indem wir h(x) = f (x)
für
f (x) 6= 0 setzen und im Falle f (x) = 0 willkürlich h(x) = 0 festlegen. Es gibt eine Folge (tk )k
von Treppenfunktionen, die fast überall gegen f konvergiert. Wir setzen Tk (x) = 1/tk (x) für
tk (x) 6= 0 und Tk (x) = 0 für tk (x) = 0. Dann ist (Tk )k eine Folge von Treppenfunktionen,
die fast überall gegen h konvergiert. Also ist h = f1 messbar.
Aus der Messbarkeit einer Funktion und verschiedenen anderen Voraussetzungen kann die
Integrierbarkeit gefolgert werden:
Satz 31.13
Es seien f, g : Rn −→ R Lebesgue-integrierbare und h : Rn −→ R eine
messbare Funktion. Dann gelten die folgenden Aussagen:
(1) Aus |h| ≤ f folgt h ∈ L(Rn ). Aus |h| ∈ L(Rn ) folgt h ∈ L(Rn ).
(2) Wenn h beschränkt ist, dann ist f · h ∈ L(Rn ).
Beweis. Nach Voraussetzung gibt es eine Folge von Treppenfunktionen, die fast überall
gegen h konvergiert. Unter der Annahme |h| ≤ f ∈ L(Rn ) ist also die zweite Variante
des Satzes von Lebesgue über dominierte Konvergenz (Satz 30.22) anwendbar, und es folgt
h ∈ L(Rn ). Damit ist die erste Behauptung in (1) bewiesen. Die zweite ergibt sich als
Spezialfall mit f = |h|.
Die Zahl c sei eine obere Schranke für die Funktion |h|. Dann ist |f · h| ≤ c · |f |, und nach
Satz 30.11 gilt c · |f | ∈ L(Rn ). Nach Proposition 31.12 gilt f · h ∈ M(Rn ). Somit ist die
Aussage (1) anwendbar, und es folgt f · h ∈ L(Rn ). Damit ist (2) bewiesen.
Grenzfunktionen beliebiger konvergenter Folgen messbarer Funktionen sind messbar.
Satz 31.14
Es sei (fk )k eine Folge von messbaren Funktionen fk , und es existiere eine
n
Funktion f : R −→ R mit
vn
f =
lim fk .
k→∞
Dann ist f ebenfalls messbar.
Beweis. Wie man sich leicht überlegt, gibt es eine integrierbare Funktion h auf Rn mit
nur positiven Werten. (Diese muss für ||x|| → ∞ schnell genug“ gegen 0 abfallen.) Damit
”
definieren wir
h·f
h · fk
für k ∈ N,
g=
.
gk =
h + |fk |
h + |f |
vn
Es folgt g =
limk→∞ gk . Aus Proposition 31.12 folgt gk ∈ M(Rn ) für alle k. Die Definition
zeigt |gk | < h für alle k sowie auch |g| < h. Aus Satz 31.13 (1) folgt also gk ∈ L(Rn ) für
alle k. Auf die Folge (gk )k ist der Satz über dominierte Konvergenz (Satz 30.19 oder auch
Satz 30.22) anwendbar, und damit folgt g ∈ L(Rn ). Nach Proposition 31.11 ist also auch
g ∈ M(Rn ). Die Definitionsgleichung für g kann nach f aufgelöst werden, und das ergibt
f=
hg
.
h − |g|
452
Aus Proposition 31.12 folgt somit die Behauptung f ∈ M(Rn ).
Jetzt lässt sich die Messbarkeit einer Menge auch durch die Messbarkeit ihrer charakteristischen Funktion ausdrücken:
Lemma 31.15 Eine Menge A ⊆ Rn ist genau dann messbar, wenn die charakteristische
Funktion χA messbar ist.
Häufig benutzt man diese Charakterisierung zur Definition der Messbarkeit von Mengen, wie
etwa in [Köhler, § 33].
Beweis. Es sei A messbar. Für jedes j ∈ N ist dann χA∩Wn (j) Lebesgue-integrierbar, also
insbesondere messbar. Wegen χA = limj→∞ χA∩Wn (j) folgt aus Satz 31.14 die Messbarkeit
von χA .
Nun sei χA messbar. Es sei ein j ∈ N gegeben. Nach Proposition 31.12 ist auch das Produkt
χA · χWn (j) = χA∩Wn (j) messbar. Hieraus und aus |χA · χWn (j) | ≤ χWn (j) ∈ L(Rn ) folgt mit
Satz 31.13 (1) die Lebesgue-Integrierbarkeit von χA · χWn (j) . Also ist χA auf jedem Würfel
Wn (j) Lebesgue-integrierbar. Dies bedeutet gerade, dass A messbar ist.
Der folgende Satz zeigt, dass man die Messbarkeit von Funktionen f mit Hilfe der Messbarkeit gewisser Urbildmengen von f definieren kann. Deshalb ist es möglich, die LebesgueTheorie in anderer Reihenfolge aufzubauen, also zuerst die Messbarkeit von Mengen und
danach die Integrierbarkeit von Funktionen zu behandeln.
Satz 31.16
Für Funktionen f : Rn −→ R sind die folgenden Aussagen äquivalent:
(a) Die Funktion f ist messbar.
(b) Für jede reelle Zahl c ist f −1 (] − ∞, c]) = {x ∈ Rn | f (x) ≤ c} eine messbare Menge.
(c) Für jede reelle Zahl c ist f −1 (] − ∞, c[) = {x ∈ Rn | f (x) < c} eine messbare Menge.
(d) Für jede reelle Zahl c ist f −1 ([c, ∞[) = {x ∈ Rn | f (x) ≥ c} eine messbare Menge.
(e) Für jede reelle Zahl c ist f −1 (]c, ∞[) = {x ∈ Rn | f (x) > c} eine messbare Menge.
Beweis. I. Die Funktion f sei messbar, und es sei eine reelle Zahl c gegeben. Für reelle
Zahlen h 6= 0 setzen wir dann
Gh =
1
· (max{f, c + h} − max{f, c}) .
h
Nach Proposition 31.12 sind alle Funktionen Gh

0


1
Gh (x) =

 1 · (c + h − f (x))
h
messbar. Für h > 0 gilt
für
f (x) ≥ c + h,
für
f (x) ≤ c,
für c < f (x) < c + h,
und ähnliche Formeln gelten für h < 0. Es folgt
0 für f (x) > c,
lim Gh (x) =
h→0+
1 für f (x) ≤ c.
453
Das ist die charakteristische Funktion von f −1 (] − ∞, c]). Analog ist limh→0− Gh (x) die
charakteristische Funktion von f −1 (] − ∞, c[). Nach Satz 31.14 sind die Grenzfunktionen
messbar. Aus Lemma 31.15 folgen somit die Aussagen (b) und (c). Indem man f und c
durch −f und −c ersetzt, erhält man auch die Gültigkeit von (d) und (e).
II. Jetzt setzen wir die Gültigkeit von (b) voraus. Für alle k ∈ N und alle j ∈ Z sind dann
die Mengen
j
n j −1
Akj = x ∈ R < f (x) ≤
= f −1 (] − ∞, j/k]) \ f −1 (] − ∞, (j − 1)/k])
k
k
messbar. Ihre charakteristischen Funktionen sind also gemäß Lemma 31.15 messbar. Für
jedes k ist der Raum Rn die disjunkte Vereinigung der Mengen Akj , und
∞
X
j
fk =
· χAkj
k
j=−∞
ist nach Satz 31.14 eine messbare Funktion. Es gilt |f (x) − fk (x)| ≤
ist
f = lim fk
1
k
für alle x ∈ Rn . Daher
k→∞
nach Satz 31.14 ebenfalls messbar. Damit ist die Gültigkeit von (a) nachgewiesen.
Wenn (c) oder (d) oder (e) vorausgesetzt wird, dann folgt in derselben Weise die Gültigkeit
von (a).
Bemerkung 31.17
Der zweite Teil des Beweises von Satz 31.16 liefert für das Integral
n
einer Funktion f ∈ L(R ) Approximationen durch Ausdrücke der Gestalt
∞
X
yk · vn (f −1 (]yk , yk+1 ])),
k=−∞
worin die Punkte yk irgendeine Zerlegung des Wertebereiches R von f bilden, also yk < yk+1
und limk→−∞ yk = −∞ und limk→∞ yk = ∞ erfüllen. Im Unterschied hierzu beruht die
Definition des Integrals in Abschnitt 30.3 und auch des Riemann-Integrals auf Zerlegungen
des Definitionsbereiches.
Aus Satz 31.6 folgt unter anderem die Integrierbarkeit von beschränkten messbaren Funktionen auf kompakten Mengen:
Satz 31.18
Es sei A eine messbare Teilmenge in Rn mit endlichem Maß vn (A), und
f : Rn −→ R sei eine messbare und beschränkte Funktion. Dann ist f auf A Lebesgueintegrierbar. Wenn c ≤ f (x) ≤ C für alle x ∈ Rn ist, dann gilt
Z
c · vn (A) ≤
f dvn ≤ C · vn (A).
A
Jede stetige Funktion g : K −→ R auf einer kompakten Menge K ⊆ Rn ist Lebesgueintegrierbar.
454
Beweis. Aus den Voraussetzungen folgt f ∈ M(Rn ) und χA ∈ L(Rn ). Wegen der Beschränktheit von f und Satz 31.13 (2) folgt also f ·χA ∈ L(Rn ). Also ist f auf A integrierbar.
Die behaupteten Ungleichungen folgen aus der Monotonie des Integrals.
Es sei g : K −→ R eine stetige Funktion auf einer kompakten Menge K ⊆ Rn . Für jede reelle
Zahl c ist g −1 ([c, ∞[) als Urbild einer abgeschlossenen Menge unter einer stetigen Funktion
eine abgeschlossene Menge in K, also auch abgeschlossen in Rn (Lemma 10.5). Nach Satz
31.6 ist diese Menge also messbar. Nach Satz 31.16 ist daher die Funktion g messbar. Als
stetige Funktion ist g auf dem Kompaktum K zudem beschränkt. Nach Satz 31.6 ist K
eine messbare Menge. Das Maß vn (K) ist endlich, weil K beschränkt ist. Aus der ersten
Behauptung des Satzes folgt somit die Lebesgue-Integrierbarkeit von g auf K.
455
32
32.1
Die Lp-Räume∗
Die Räume Lp
Die Lebesguetheorie ist jetzt so weit entwickelt, dass wir die normierten Vektorräume Lp (Rn )
einführen und ihre Vollständigkeit beweisen können. Diese Räume gaben den Anlass zur
Einführung des Begriffs des Banachraumes. Mit ihrer Behandlung geben wir zugleich eine
erste Einführung in ein Teilgebiet der Funktionalanalysis. Wir erinnern zunächst an den aus
Definition 23.19 bekannten Begriff des normierten Vektorraums.
Erinnerung: Ein normierter Vektorraum ist ein Paar (V, || . ||), wobei V ein Vektorraum
über dem Körper K = R oder K = C und || . || : V −→ R eine Abbildung mit folgenden
Eigenschaften ist:
(N1) (Positive Definitheit) Es ist kv|| ≥ 0 für alle v ∈ V . Genau dann gilt kv|| = 0, wenn
v = 0 ist.
(N2) (Homogenität) Es ist kλv|| = |λ| · kv|| für alle v ∈ V und alle λ ∈ K.
(N3) (Dreiecksungleichung) Es ist kv + w|| ≤ kv|| + kw|| für alle v, w ∈ V .
Definition 32.1 Ein Banachraum ist ein normierter Vektorraum (V, ||.||) über dem
Körper K = R oder K = C, welcher vollständig bezüglich der von der Norm induzierten
Metrik d(v, w) := ||v − w|| ist.
Die Banachräume Lp (Rn ), die wir hier diskutieren wollen, erhält man folgendermaßen:
Definition 32.2
Wie in Abschnitt 31.3 bezeichne M(Rn ) den reellen Vektorraum aller
messbaren Funktionen f : Rn −→ R. Für reelle Zahlen p > 0 sei dann
Lp = Lp (Rn ) := {f ∈ M(Rn ) : |f |p ∈ L(Rn )} .
Das ist die Menge aller derjenigen messbaren Funktionen f : Rn −→ R, wofür die Potenz
|f |p integrierbar ist. Für f ∈ Lp (Rn ) wird
Z
1/p
p
||f ||p =
|f | dvn
gesetzt. Diese Zahl heißt die p-Norm von f .
Es ist nicht von vornherein klar, ob und warum Lp ein normierter Vektorraum ist. Wir stellen
zunächst ein paar Folgerungen zusammen, die leicht einzusehen sind:
Proposition 32.3
Für jede reelle Zahl p > 0 ist Lp (Rn ) ein reeller Vektorraum. Es gilt
L1 (Rn ) = L(Rn ).
Die p-Norm auf Lp (Rn ) hat die Eigenschaft (N2) einer Norm. Für f ∈ Lp (Rn ) gilt
||f ||p = 0
genau dann, wenn
ist.
456
vn
f =
0
Beweis. Es seien Funktionen f, g ∈ Lp und eine reelle Zahl c gegeben. Offenbar ist dann
auch c · f ∈ Lp . Die Summe f + g ist nach Proposition 31.12 messbar, und die Definition in
Abschnitt 31.3 zeigt, dass |f + g|p ebenfalls messbar ist. Es besteht die Abschätzung
|f + g|p ≤ (|f | + |g|)p ≤ (2 · max{|f |, |g|})p = 2p · max{|f |p , |g|p }.
Weil |f |p und |g|p nach Voraussetzung integrierbar sind, ist nach Satz 30.11 auch die obere
Schranke für |f +g|p integrierbar. Weil |f +g|p messbar ist, folgt aus Satz 31.13 (1) schließlich
die Integrierbarkeit von |f + g|p , also f + g ∈ Lp . Damit ist gezeigt, dass Lp ein reeller
Vektorraum ist.
Von Funktionen f ∈ L1 wird |f | ∈ L(Rn ) verlangt. Mit Satz 31.13 und der Messbarkeit von
f folgt hieraus f ∈ L(Rn ). Nach Satz 30.11 gilt auch die umgekehrte Implikation. Damit ist
die Behauptung L1 (Rn ) = L(Rn ) bewiesen.
Die Eigenschaft (N2) der p-Norm folgt direkt aus der Definition. Für f ∈ Lp ist die Bedingung
vn
||f ||p = 0 nach Lemma 30.18 äquivalent mit |f |p =
0, und das ist gleichbedeutend mit
vn
f = 0.
Die Proposition 32.3 zeigt, dass die p-Norm nicht die Eigenschaft (N1) einer Norm auf dem
Vektorraum Lp hat. Dieser Mangel lässt sich leicht beheben, indem man zwei Funktionen
nicht unterscheidet, wenn sie fast überall gleich sind.
Definition 32.4
Es sei p > 0. Zwei Funktionen f, g ∈ Lp werden äquivalent genannt,
vn
wenn f = g ist. Hierdurch ist offenbar eine Äquivalenzrelation auf Lp gegeben. Es bezeichne
Lp = Lp (Rn )
die Menge aller Äquivalenzklassen.
Üblicherweise wird die Äquivalenzklasse einer Funktion f ∈ Lp ebenfalls mit f bezeichnet;
damit ist beabsichtigt, den Unterschied zwischen einer Funktion und ihrer Äquivalenzklasse
möglichst zu vergessen“. Für Funktionen f, g ∈ Lp und reelle Zahlen c sind die Äquiva”
lenzklassen der Funktionen f + g und c · f nur von den Äquivalenzklassen von f und g
abhängig. Somit sind f + g und c · f als Elemente von Lp wohldefiniert, und Lp ist ein reeller
Vektorraum. Auch die p-Norm ||f ||p hängt nur von der Äquivalenzklasse von f ab. Daher
ist auf dem Vektorraum Lp die p-Norm
|| ||p : Lp (Rn ) −→ R
wohldefiniert. Offenbar hat sie die Eigenschaft (N2). Aus Proposition 32.3 folgt, dass sie
auch die Bedingung (N1) erfüllt. Über die Dreiecksungleichung (N3) werden wir im folgenden
Abschnitt 32.2 nachdenken.
Mit einem Begriff aus der Linearen Algebra können die Vektorräume Lp auch folgendermaßen
vn
definiert werden: Die Menge N aller Funktionen f ∈ Lp mit f =
0 ist offenbar ein Teilvektorraum in Lp . Wir nennen ihn den Raum der Nullfunktionen. Damit wird Lp = Lp /N
der Faktorraum.
32.2
Die Höldersche und die Minkowskische Ungleichung
Die p-Norm auf Lp (Rn ) erfüllt die Dreiecksungleichung (N3) nicht für alle p > 0, sondern nur
für p ≥ 1. Der Beweis erfordert einige Vorbereitungen. Wir beginnen mit einem Hilfsresultat,
das im Spezialfall p = q = 2 die bekannte Ungleichung zwischen dem arithmetischen und
dem geometrischen Mittel ist:
457
Lemma 32.5
Für alle reellen Zahlen a ≥ 0, b ≥ 0, p > 1 und q > 1 mit
a·b ≤
1
p
+
1
q
= 1 gilt83
ap b q
+ .
p
q
Beweis. Es sei speziell b = ap−1 . Dann folgt ab = ap und
ap b q
ap a(p−1)q
1 1
p
+ =
+
=a ·
+
= ap = a · b.
p
q
p
q
p q
In diesem Fall gilt also die behauptete Ungleichung mit dem Gleichheitszeichen.
Im allgemeinen Fall bestimmen wir bei festem a ≥ 0 das Minimum der Funktion
b 7→
ap b q
+ −a·b
p
q
für b ≥ 0. Die Ableitung b 7→ bq−1 − a dieser Funktion hat nur eine einzige Nullstelle b0 . Sie
= a, also b0 = ap−1 . Das Verhalten für b = 0 und für b → ∞ zeigt, dass bei b0
erfüllt bq−1
0
ein absolutes Minimum liegt. Der Wert an dieser Stelle ist mittels der Voraussetzung über p
und q leicht zu berechnen; er ist 0. Somit gilt
ap b q
+
> a·b
p
q
für alle b ≥ 0 mit b 6= ap−1 .
Satz 32.6 (Höldersche Ungleichung)
Es seien p > 1 und q > 1 reelle Zahlen mit
1
1
p
n
q
+
=
1.
Für
beliebige
f
∈
L
(R
)
und
g
∈
L
(Rn ) gilt dann f · g ∈ L1 (Rn ) und
p
q
||f · g||1 ≤ ||f ||p · ||g||q .
Beweis. Wir arbeiten mit Funktionen f ∈ Lp (Rn ) und g ∈ Lq (Rn ) als Repräsentanten ihrer
Äquivalenzklassen in Lp und Lq . Ihre Normen sind
Z
Z
1/p
1/q
p
q
||f ||p =
|f | dvn
und
||g||q =
|g| dvn
.
vn
Wenn ||f ||p = 0 oder ||g||q = 0 ist, dann folgt f ·g =
0. In diesem Fall sind die Behauptungen
offenbar gültig.
Wir können nun ||f ||p > 0 und ||g||q > 0 voraussetzen. Für beliebige x ∈ Rn erhalten wir
dann aus Lemma 32.5 die Ungleichung
1 |f (x)|p
1 |g(x)|q
|f (x)| |g(x)|
·
≤ ·
+ ·
.
p
||f ||p ||g||q
p ||f ||p
q ||g||qq
Die Funktion auf der rechten Seite ist nach Voraussetzung integrierbar. Nach Proposition
31.12 ist die Funktion auf der linken Seite messbar. Aus der Ungleichung und Satz 31.13
83
Oftmals ist es nützlich, die Voraussetzung über p und q äquivalent wie folgt auszudrücken:
1 1
+ = 1 ⇐⇒ p + q = pq ⇐⇒ p(q − 1) = q ⇐⇒ q(p − 1) = p ⇐⇒ (p − 1)(q − 1) = 1.
p q
458
folgt somit, dass die linke Seite sogar integrierbar ist. Folglich ist f · g ∈ L(Rn ) = L1 (Rn ).
Aus der Ungleichung zwischen den Funktionen folgt nun durch Integrieren
Z
Z
Z
1
1
1
1
1
p
· |f · g| dvn ≤
·
· |f | dvn + ·
· |g|q dvn
||f ||p · ||g||q
p ||f ||pp
q ||g||qq
1 1
=
+ = 1,
p q
also ||f · g||1 ≤ ||f ||p · ||g||q .
Es seien f und g Funktionen in Lp (Rn )
Satz 32.7 (Minkowskische Ungleichung)
mit einer Zahl p ≥ 1. Dann gilt
||f + g||p ≤ ||f ||p + ||g||p .
Für p ≥ 1 ist Lp (Rn ) mit der Norm || ||p ein normierter Vektorraum.
Beweis. Wir dürfen wieder annehmen, dass f und g Funktionen in L(Rn ) sind. Im Falle
p = 1 folgt aus der gewöhnlichen Dreiecksungleichung
Z
Z
||f + g||1 =
|f + g| dvn ≤ (|f | + |g|) dvn = ||f ||1 + ||g||1 .
Wir setzen jetzt p > 1 voraus. Die Dreiecksungleichung ergibt
|f + g|p = |f + g|p−1 · |f + g| ≤ |f + g|p−1 · |f | + |f + g|p−1 · |g|.
p
, so dass p1 + 1q = 1 ist. Nach
Alle Funktionen hierin sind messbar. Wir setzen q = p−1
Proposition 32.3 ist (|f + g|p−1 )q = |f + g|p ∈ L(Rn ), und daher folgt |f + g|p−1 ∈ Lq (Rn ).
Aus der Hölderschen Ungleichung (Satz 32.6) und aus der Ungleichung für |f + g|p folgt
somit
Z
Z
Z
p
p
p−1
||f + g||p =
|f + g| dvn ≤ |f + g|
· |f | dvn + |f + g|p−1 · |g| dvn
Z
|f + g|
≤
Z
=
(p−1)·q
p
|f + g| dvn
1/q
· (||f ||p + ||g||p )
dvn
1/q
· (||f ||p + ||g||p )
= ||f + g||p/q
p · (||f ||p + ||g||p )
= ||f + g||p−1
· (||f ||p + ||g||p ) .
p
Im Falle ||f + g||p = 0 ist die behauptete Ungleichung trivialerweise gültig. Anderenfalls
folgt sie jetzt, indem man durch ||f + g||p−1
dividiert.
p
Damit ist die Dreiecksungleichung (N3) für die Norm || ||p auf Lp (Rn ) bewiesen. Die übrigen
Eigenschaften wurden bereits in Abschnitt 32.1 begründet. Also ist Lp (Rn ) ein normierter
Vektorraum.
459
32.3
Der Raum L∞
Der Familie der normierten Vektorräume Lp mit reellen Zahlen p ≥ 1 wird noch ein Mitglied
L∞ hinzugefügt:
Definition 32.8
Es bezeichne L∞ = L∞ (Rn ) die Menge aller messbaren Funktionen
f : Rn −→ R, die fast überall beschränkt sind. Zu den Funktionen f ∈ L∞ existieren also
v
reelle Zahlen c mit |f | <n c. Wir setzen
v
||f ||∞ = inf c ∈ R |f | <n c .
Die Zahl ||f ||∞ heißt die ∞-Norm oder das wesentliche Supremum der Funktion f .
Die ∞-Norm auf L∞ hat offenbar die Eigenschaft (N2), und auch die Dreiecksungleichung
(N3) für || ||∞ ist leicht zu begründen. Für alle f ∈ L∞ ist ||f ||∞ ≥ 0, und es gilt ||f ||∞ = 0
vn
genau dann, wenn f =
0 ist. Wie in Abschnitt 32.1 nennen wir deshalb zwei Funktionen f
vn
∞
n
und g in L (R ) äquivalent, falls f =
g ist, bezeichnen mit
L∞ = L∞ (Rn )
die Menge aller Äquivalenzklassen und schreiben für die Äquivalenzklasse einer Funktion
f ebenfalls wieder f . Die ∞-Norm ||f ||∞ ist unabhängig von der Wahl der Funktion f in
ihrer Äquivalenzklasse. Daher ist die ∞-Norm auf L∞ wohldefiniert, und sie hat offenbar alle
Eigenschaften (N1), (N2), (N3) einer Norm. Demnach ist L∞ ein normierter Vektorraum.
Ein Analogon der Hölderschen Ungleichung ist leicht zu begründen:
Proposition 32.9 Der Raum L∞ (Rn ) mit der Norm || ||∞ ein normierter Vektorraum.
Für alle f ∈ L∞ (Rn ) und alle g ∈ L1 (Rn ) gilt f · g ∈ L1 (Rn ) und
||f · g||1 ≤ ||f ||∞ · ||g||1 .
Beweis. Die erste Behauptung wurde bereits begründet. Für f ∈ L∞ und g ∈ L1 folgt
1
mittels einer leichten Verallgemeinerung
der Aussage
R
R (2) in Satz 31.13, dass f · g ∈ L ist.
vn
Für jede Zahl c mit |f | < c gilt |f · g| dvn ≤ c · |g| dvn . Daraus folgt die Behauptung
||f · g||1 ≤ ||f ||∞ · ||g||1 .
32.4
Hilberträume
In der Hölderschen Ungleichung (Satz 32.6) darf man p = q = 2 wählen. Dadurch wird es
möglich, auf den Räumen L2 (Rn ) ein Skalarprodukt zu definieren, und deswegen sind diese
Räume besonders wichtig. Wir erinnern zunächst an die aus der Linearen Algebra bekannte
Definition des Skalarprodukts:
460
Definition 32.10
Es sei V ein R-Vektorraum. Ein Skalarprodukt auf V ist eine symmetrische, positiv definite Bilinearform h , i : V × V −→ K.
Bekanntlich gilt die Cauchy-Schwarzsche Ungleichung
|hf , gi|2 ≤ hf , f i · hg , gi
für alle f, g in einem beliebigen R-Vektorraum V mit Skalarprodukt. Hieraus folgt die Dreiecksungleichung für die vom Skalarprodukt induzierte Norm
p
||f || := hf , f i,
und somit ist V in natürlicher Weise ein normierter Vektorraum.
Definition 32.11
Es sei H ein Banachraum über dem Körper R mit der Norm || ||.
Man nennt
p H einen Hilbertraum, falls ein Skalarprodukt h , i auf H gegeben ist, so dass
||f || = hf, f i für alle f ∈ H ist.
Von einem Hilbertraum wird wie von jedem Banachraum verlangt, dass er vollständig
bezüglich der Norm ist. Wir erklären jetzt das Skalarprodukt auf L2 (Rn ), das diesen Raum
zu einem Hilbertraum macht. Die Vollständigkeit wird jedoch erst in Abschnitt 32.5 im Satz
von Riesz und Fischer bewiesen.
Definition 32.12
Für beliebige f und g in L2 (Rn ) gilt f · g ∈ L1 (Rn ) auf Grund von
Satz 32.6. Daher ist das Integral
Z
hf, gi := f · g dvn
wohldefiniert. Wir nennen hf, gi das Skalarprodukt der Funktionen f und g.
Es ist klar, dass hf, gi die Eigenschaften eines Skalarproduktes p
auf dem reellen Vektorraum
2
n
L (R ) hat. Die Norm auf diesem Vektorraum ist ||f ||2 = hf, f i. Zum Nachweis der
Eigenschaften eines Hilbertraumes fehlt also nur noch der Beweis der Vollständigkeit. Die
Cauchy-Schwarzsche Ungleichung
|hf, gi| ≤ ||f ||2 · ||g||2
für f, g ∈ L2 (Rn ) ergibt sich in diesem Fall auch aus der Hölderschen Ungleichung (Satz
32.6) gemäß
Z
Z
|hf, gi| = f · g dvn ≤ |f · g| dvn = ||f · g||1 ≤ ||f ||2 · ||g||2 .
32.5
Die Vollständigkeit der Räume Lp
Als Höhepunkt dieses Kapitels wird nun die Vollständigkeit der Räume Lp bewiesen. Das
Resultat ist nach F. Riesz (1880 – 1956) und E. Fischer (1875 – 1954) benannt, die den Satz
im Jahr 1907 für die Räume L2 bewiesen.
461
Satz 32.13 (Satz von Riesz und Fischer)
Für jede reelle Zahl p ≥ 1 und für p = ∞
ist Lp (Rn ) ein Banachraum, und L2 (Rn ) ist ein Hilbertraum. Ist (fn )n eine Cauchy-Folge
in Lp (Rn ) und limn→∞ fn = f ∈ Lp (Rn ) bezüglich der p-Norm, dann gibt es eine Teilfolge
dieser Folge, die fast überall punktweise gegen f konvergiert.
Beweis. I. Zuerst wird der Fall p = ∞ diskutiert. Er ist am einfachsten, aber methodisch
ganz verschieden von den übrigen Fällen. Es sei eine Cauchy-Folge (fk )k in L∞ (Rn ) gegeben.
Zu jedem ε > 0 gibt es dann ein n0 , so dass für alle k, j ≥ n0 die Ungleichung ||fk − fj ||∞ < ε
gilt. Diese Ungleichung besagt, dass
|fk (x) − fj (x)| < ε
für fast alle
x ∈ Rn
gilt. Die Folge (fk )k ist demnach fast überall gleichmäßig konvergent. (An dieser Stelle wird
Satz 29.10 (2) benötigt, wonach die Vereinigungsmenge abzählbar vieler Nullmengen eine
Nullmenge ist.) Folglich existiert der reelle Grenzwert f (x) = limk→∞ fk (x) für fast alle x.
Setzt man willkürlich f (x) = 0 für die übrigen x ∈ Rn , dann konvergiert die Folge (fk )k
bezüglich der Norm || ||∞ gegen f , und es ist f ∈ L∞ (Rn ). Damit ist die Vollständigkeit
dieses Raumes bewiesen.
II. Von nun an sei p eine reelle Zahl und p ≥ 1. Es sei eine Cauchy-Folge (fk )k in Lp gegeben.
Wir dürfen annehmen, dass die fk Funktionen in Lp (Rn ) sind. Nach Voraussetzung gibt es
zu jeder natürlichen Zahl m ein Nm mit
||fk − fNm ||p < 2−m
für alle k > Nm . Hierbei dürfen wir N1 < N2 < N3 < . . . annehmen.
Es sei Q ∈ Qn ein nicht-ausgearteter Quader und χ = χQ seine charakteristische Funktion.
Für alle k und j ist |fk − fj | ∈ Lp , und für alle reellen Zahlen q > 0 ist χ ∈ Lq (Rn ). Das gilt
insbesondere, wenn p1 + 1q = 1 ist. Aus der Hölderschen Ungleichung (Satz 32.6) folgt daher
|fk − fj | · χ ∈ L1 (Rn ) für alle k und j. Speziell ist also
fNm+1 − fNm · χ ∈ L1 (Rn )
für alle
m ≥ 1.
Die Partialsummen der Reihe
∞
X
fNm+1 − fNm · χ
m=1
bilden daher eine monoton steigende Folge von Funktionen in L1 (Rn ). Für die Integrale
dieser Partialsummen erhalten wir mit Hilfe von Satz 32.6 die Schranke
r Z
r
X
X
fNm+1 − fNm · χ dvn ≤
||fNm+1 − fNm ||p · ||χ||q
m=1
m=1
< ||χ||q ·
∞
X
2−m = ||χ||q .
m=1
Daher ist der Satz von Levi (Satz 30.16) anwendbar. Hiernach konvergiert die betrachtete
Reihe fast überall gegen eine Funktion in L1 (Rn ).
Wir können den Raum Rn als Vereinigungsmenge von abzählbar unendlich vielen nichtausgearteten Quadern darstellen. Wegen Satz 29.10 (2) ist daher die Reihe
∞
X
fNm+1 − fNm m=1
462
P
ebenfalls fast überall konvergent. Das gilt dann auch für die Reihe ∞
f
−
f
. Es
N
N
m
m+1
m=1
sei
∞
X
vn
fNm+1 − fNm = lim fNm − fN1
g=
m→∞
m=1
die Grenzfunktion, und es sei
vn
lim fNm .
f = g + fN 1 =
m→∞
Die Teilfolge (fNm )m der gegebenen Cauchy-Folge konvergiert also fast überall punktweise
gegen eine Funktion f .
III. Im dritten und letzten Teil des Beweises wird gezeigt, dass die soeben gefundene Grenzfunktion f zu Lp gehört und dass die Folge (fk )k bezüglich der Norm || ||p gegen f konvergiert.
vn
limk→∞ fk . Dies ist auch nicht immer gültig.)
(Wir behaupten keineswegs f =
Als Grenzfunktion messbarer Funktionen ist f nach Satz 31.14 eine messbare Funktion. Die
Funktionenfolge (|fNm |p )m≥1 konvergiert fast überall gegen |f |p . Die Folge der Integrale
Z
|fNm |p dvn = ||fNm ||pp
ist beschränkt, denn nach Voraussetzung ist (||fk ||p )k sogar eine Cauchy-Folge. Somit ist das
Lemma von Fatou (Satz 30.24) anwendbar, und hiernach ist |f |p eine integrierbare Funktion.
Somit gilt
f ∈ Lp (Rn ).
Es sei m > j, also auch Nm > Nj , und es sei k > Nj . Dann folgt
||fk − fNm ||p ≤ ||fk − fNj ||p + ||fNj − fNm ||p < 2−j + 2−j = 2−j+1 .
Bei festem k > Nj betrachten wir die Folge
(|fk − fNm |p )m≥1 .
vn
Sie konvergiert fast überall gegen |fk − f |p , weil f =
limm→∞ fNm ist. Für die Folge der
Integrale besteht für m > j die Abschätzung
Z
p
|fk − fNm |p dvn = ||fk − fNm ||pp < 2−j+1 = 2−p(j−1) .
Daher ist das Lemma von Fatou (Satz 30.24) nochmals anwendbar. Das ergibt ||fk − f ||pp =
R
|fk − f |p dvn ≤ 2−p(j−1) , also
||fk − f ||p ≤ 2−j+1 .
Diese Ungleichung gilt für jedes j ∈ N und alle k > Nj . Somit konvergiert die Folge (fk )k
bezüglich der Norm || ||p gegen f .
Nun sei fe irgendeine Funktion in Lp (Rn ), so dass (fk )k bezüglich der p-Norm gegen fe konvergiert. Wegen Proposition 32.3 gibt es dann auch eine Teilfolge, die fast überall punktweise
gegen fe konvergiert.
463
Im Beweis des Satzes von Riesz und Fischer wurden alle wichtigen Sätze der LebesgueTheorie aus den vorausgehenden Kapiteln als Hilfsmittel benötigt, und insofern stellt dieser
Beweis einen kompositorischen Höhepunkt dar. Tatsächlich steht der Satz am Anfang einer
umfangreichen Theorie, wie ein Blick in Lehrbücher der Funktionalanalysis zeigt.
Beispiel 32.14
Eine Cauchy-Folge (fk )k in Lp (Rn ) hat bezüglich der Norm eine Grenzfunktion f in diesem Raum, aber sie konvergiert im Allgemeinen keineswegs fast überall
punktweise gegen f . Wir zeigen das an einem Beispiel für n = 1 und p = 1. Für jede
natürliche Zahl k sei m = mk ≥ 0 die ganze Zahl mit 2m ≤ k < 2m+1 , und es sei
1 für (k − 2m )/2m ≤ x ≤ (k + 1 − 2m )/2m ,
fk (x) =
0 sonst.
R
Dann ist (fk )k eine Folge von Treppenfunktionen.
Für 2m ≤ k < 2m+1 ist fk (x) dx =
R
2−m < k2 , und daher gilt limk→∞ fk (x) dx = 0. Also konvergiert die Folge (fk )k bezüglich
der Norm in L1 (R) gegen 0. Die Folgen (fk (x))k sind jedoch in allen Punkten x des Intervalls
[0, 1] divergent. Denn zu jedem solchen x und jeder natürlichen Zahl m existieren j, k ∈
{2m , . . . , 2m+1 − 1} mit fj (x) = 1 und fk (x) = 0. Die Menge der Punkte x, in denen die
Folge (fk (x))k divergiert, ist also keine Nullmenge.
464
Teil VI
Mehrfachintegrale,
Transformationsformel, Integralsätze
Die Integrationstheorie hat uns bislang keine Methoden zur effizienten Berechnung von Integralen in mehreren Variablen geliefert. Nur für das Längenmaß in der Dimension n = 1
ergibt der Hauptsatz der Differential- und Integralrechnung ein bequemes Rechenverfahren,
sofern eine stetige Funktion zu integrieren und eine Stammfunktion bekannt ist. Im abschließenden Teil der Vorlesung stellen wir die wichtigsten Methoden vor, die bei der praktischen
Berechnung von Integralen im Mehrdimensionalen zum Einsatz kommen: die Reduktion auf
iterierte Integrale, die Transformationsformel und (einen Ausblick auf) die Integralsätze, die
sich mit den Namen Green, Stokes und Gauß verbinden. Aus Zeitgründen können wir Beweise entweder gar nicht oder nur für relativ einfache Spezialfälle dieser Sätze geben und
beschränken uns dabei zumeist auf stetige Funktionen und Riemann-Integrale.
33
Mehrfache Integrale
Das Integral einer Funktion von n Variablen über ein Gebiet im Rn kann meist“ durch
”
sukzessive Integrationen nach den einzelnen Variablen berechnet werden. Diese Tatsache ist
im Prinzip seit Jahrhunderten bekannt, aber sie wurde in ihrer definitiven Form erst im
Rahmen der Lebesgueschen Integrationstheorie 1915 von G. Fubini (1879 – 1943) bewiesen.
Im Falle einer Treppenfunktion f von zwei Variablen besagt dieser Satz nichts weiter als die
Unabhängigkeit einer Doppelsumme endlich vieler Zahlen von der Summationsreihenfolge.
Wir beweisen im Folgenden eine sehr einfache Version des allgemeinen Resultats, nämlich für
stetige Funktionen von zwei Variablen, die auf einem Rechteck definiert sind. Den allgemeinen
Satz von Fubini formulieren wir nur ohne Beweis.
33.1
Der Satz von Fubini für stetige Funktionen zweier Variabler
Wir benötigen ein aus den Übungen bekanntes Resultat über parameterabhängige Integrale
sowie die auch für sich genommen sehr nützliche Leibnizsche Regel über das Differenzieren
unter dem Integral.
Satz 33.1
Es seien I = [a, b] und J = [α, β] echte kompakte Intervalle, und es sei
A = I × J. Die Funktion f : A −→ R sei stetig. Es sei
Z y
ϕ(x, y) =
f (x, t) dt
α
für (x, y) ∈ A. Dann ist ϕ stetig auf A.
Beweis. Aufgabe 10.3
465
Satz 33.2 (Leibnizsche Regel, Ableitung von Integralen nach Parametern)
Es sei A = I × J ein achsenparalleles Rechteck mit echten kompakten Intervallen I = [a, b]
und J = [α, β]. Die Funktion f : A −→ R sei stetig und nach der zweiten Variablen stetig
partiell differenzierbar. Man setze
Z b
f (x, t) dx .
F (t) :=
a
Dann ist F eine differenzierbare Funktion auf J, und für alle t ∈ J gilt
Z b
∂f
0
F (t) =
(x, t) dx .
a ∂t
Beweis. Es seien ein Punkt t0 ∈ J und eine Zahl ε > 0 gegeben. Auf dem Kompaktum A
gleichmäßig stetig (Satz 13.31). Daher gibt es ein δ > 0, so dass für alle x ∈ I und alle
ist ∂f
∂t
t ∈ J mit |t − t0 | < δ die Ungleichung
∂f
(x, t) − ∂f (x, t0 ) < ε
∂t
b−a
∂t
gilt. Für t 6= t0 setzen wir
R(x, t) =
f (x, t) − f (x, t0 ) ∂f
(x, t0 ) .
−
t − t0
∂t
Für alle t ∈ J mit t 6= t0 gilt dann
F (t) − F (t0 )
=
t − t0
Z
b
a
Z
=
a
b
f (x, t) − f (x, t0 )
dx
t − t0
Z b
∂f
(x, t0 )dx +
R(x, t)dx .
∂t
a
Der erste Summand hängt nicht von t ab. Auf f als Funktion der zweiten Variablen t wenden
wir den Mittelwertsatz an. Danach gibt es zu jedem t 6= t0 in J und zu jedem x ∈ I ein θ
zwischen t0 und t mit
∂f
∂f
R(x, t) =
(x, θ) −
(x, t0 ) .
∂t
∂t
Für |t − t0 | < δ ist auch |θ − t0 | < δ, und es folgt
ε
|R(x, t)| <
für alle x ∈ I und alle t ∈ J mit |t − t0 | < δ, t 6= t0 .
b−a
Damit ergibt sich
Z b
Z b
ε
≤
R(x,
t)dx
|R(x, t)|dx <
· (b − a) = ε
b−a
a
a
für alle t ∈ J mit |t − t0 | < δ, t 6= t0 . Hieraus folgt
Z b
lim
R(x, t)dx = 0.
t→t0
a
Somit folgt auch die Existenz von
F (t) − F (t0 )
F (t0 ) = lim
=
t→t0
t − t0
0
Das gilt für jedes t0 ∈ J.
Z
a
b
∂f
(x, t0 )dx .
∂t
466
Damit können wir den angekündigten Spezialfall des Satzes von Fubini beweisen:
Satz 33.3 (Satz von Fubini für stetige Funktionen zweier Variabler)
Es sei
A = I × J ein achsenparalleles Rechteck mit kompakten Intervallen I = [a, b] und J = [α, β].
Die Funktion f : A −→ R sei stetig. Dann gilt
Z b Z β
Z β Z b
f (x, t)dt dx .
f (x, t)dx dt =
α
a
a
α
Beweis. Wir dürfen a < b und α < β annehmen. Wir setzen
Z
Z b
f (x, t) dx für t ∈ J
und
ϕ(x, y) :=
F (t) :=
y
f (x, t) dt für (x, y) ∈ A.
α
a
Nach Satz 33.1 ist ϕ stetig auf A. Als Spezialfall dieses Satzes (für feste Integrationsobergrenze) erhält man auch die Stetigkeit von F . Daher wird nach dem Hauptsatz der Differentialund Integralrechnung durch
Z
y
g(y) :=
F (t)dt
α
eine differenzierbare Funktion g : J −→ R mit der Ableitung g 0 (y) = F (y) definiert. Die Definition von ϕ und der Hauptsatz ergeben, dass ϕ nach der Variablen y partiell differenzierbar
ist und die partielle Ableitung
∂ϕ
(x, y) = f (x, y)
∂y
hat. Somit ist ∂ϕ
stetig. Wir können also die Leibnizsche Regel (Satz 33.2) anwenden. Dem∂y
nach wird durch
Z b
Z b Z y
h(y) =
ϕ(x, y)dx =
f (x, t)dt dx
a
a
α
eine differenzierbare Funktion h : J −→ R definiert, und ihre Ableitung ist
Z b
Z b
∂ϕ
0
h (y) =
(x, y)dx =
f (x, y)dx = F (y) = g 0 (y).
∂y
a
a
Daher ist h − g eine konstante Funktion. Wegen g(α) = 0 und h(α) = 0 folgt g = h.
Insbesondere ist g(β) = h(β), also
Z β Z b
Z b Z β
f (x, t)dx dt =
f (x, t)dt dx .
α
a
a
α
Das ist die Behauptung des Satzes.
33.2
Die Sätze von Fubini und Tonelli
In der Situation
Vermutung nahe, dass das iterierte Integral
von Satz 33.3 liegt die
Rβ Rb
R
f (x, t)dx dt gleich dem Integral [a,b]×[α,β] f dv2 ist. Darüber hinaus ist zu erwarα
a
ten, dass fürRjede stetige Funktion f : Q −→ R auf einem achsenparallelen Quader Q ⊆ Rn
das Integral Q f dvn durch sukzessive Integrationen bezüglich jeder einzelnen Variablen, im
467
Prinzip also durch eine n-fache Anwendung des Hauptsatzes berechnet werden kann. Auch
für Funktionen auf allgemeineren Definitionsbereichen als Quadern ist ein derartiges Resultat zu erwarten, und es ist die Frage, inwieweit man die Voraussetzung der Stetigkeit von f
abschwächen kann.
Eine allgemeine Antwort auf diese Fragen und Vermutungen liefert das bereits erwähnte
Resultat, das G. Fubini 1915 im Rahmen der Lebesgue-Theorie bewiesen hat. In dieser
Theorie ist die angemessene Voraussetzung an Funktionen f nicht die Stetigkeit, sondern f ∈
L(Rn ). Unter dieser relativ schwachen Voraussetzung kann es vorkommen, dass f auf vielen
achsenparallelen Hyperebenen nicht integrierbar (bezüglich vn−1 ) ist. Man muss zunächst
zeigen, dass dieses Unglück nur auf relativ wenigen“ Hyperebenen eintreten kann. Dieser
”
Umstand macht es verständlich, warum der Beweis des Satzes von Fubini ziemlich schwierig
ist. Wir müssen ihn aus Zeitgründen übergehen.
Satz 33.4 (Satz von Fubini)
Es sei n = r + s mit natürlichen Zahlen r und s. Es
n
sei f ∈ L(R ). Dann gibt es eine Nullmenge N 0 ⊆ Rr (bezüglich vr ) und eine Nullmenge
N 00 ⊆ Rs (bezüglich vs ), so dass die folgenden Aussagen gelten:
(1) Für alle x ∈ Rr \ N 0 ist y 7→ f (x, y) eine Lebesgue-integrierbare Funktion auf Rs , und
die Funktion
Z
x 7→ f (x, y) dvs (y)
ist Lebesgue-integrierbar auf Rr \ N 0 .
(2) Für alle y ∈ Rs \ N 00 ist x 7→ f (x, y) eine Lebesgue-integrierbare Funktion auf Rr , und
die Funktion
Z
y 7→ f (x, y) dvr (x)
ist Lebesgue-integrierbar auf Rs \ N 00 .
(3) Es gilt
Z Z
Z
f dvn =
Z Z
f (x, y) dvs (y) dvr (x) =
f (x, y) dvr (x) dvs (y).
Beweis. [Köhler, S.507-511].
Es stellt sich die Frage nach einer Umkehrung“ des Satzes von Fubini: Folgt aus der Existenz
”
der iterierten Integrale bereits die Integrierbarkeit von f , oder sind die iterierten Integrale
zumindest stets unabhängig von der Reihenfolge der Integration? Das ist nicht immer der
Fall, wie wir in Aufgabe 13.1 sehen werden.
Falls die iterierten Integrale existieren, genügt jedoch eine milde zusätzliche Voraussetzung,
um die (Lebesgue-)Integrierbarkeit von f sicherzustellen. Das folgende Resultat stammt von
L. Tonelli (1885 – 1946):
Satz 33.5 (Satz von Tonelli)
Die Funktion f : Rn −→ R sei messbar, und wie in
Satz 33.4 sei n = r + s. Für fast alle x ∈ Rr sei die Funktion f (x) : y →
7 f (x, y) Lebesgueintegrierbar. Die Funktion
Z
Z
(x)
x 7→ |f | dvs = |f (x, y)| dvs (y)
468
sei Lebesgue-integrierbar. Dann ist f ∈ L(Rn ), und es gelten die Formeln
Z Z
Z
f dvn =
Z Z
f (x, y) dvs (y) dvr (x) =
f (x, y) dvr (x) dvs (y).
Beweis. [Köhler, S. 512]
Für praktische Anwendungen des Satzes von Fubini benötigt man die Integrierbarkeit stetiger
Funktionen auf Kompakta. Aus Satz 31.18 ist diese im Sinne von Lebesgue-Integrierbarkeit
bekannt. Tatsächlich sind solche Funktionen sogar Riemann-integrierbar:
Satz 33.6
Es sei K ⊆ Rn kompakt. Jede stetige Funktion f : K −→ R ist dann Riemannund Lebesgue-integrierbar.
Beweis. Man kann den aus Satz 17.14 für den Fall n = 1, K = [a; b] bekannten Beweis der Riemann-Integrierbarkeit fast wörtlich übertragen. Wesentliches Hilfsmittel ist die
gleichmäßige Stetigkeit von f auf dem Kompaktum K (Satz 13.31).
Aus der Riemann-Integrierbarkeit folgt die Lebesgue-Integrierbarkeit gemäß Satz 30.29. Unabhängig davon ist die Lebesgue-Integrierbarkeit auch in Satz 31.18 gezeigt worden.
33.3
Das Cavalierische Prinzip
Resultate von der Art des Satzes von Fubini haben eine lange Geschichte. Nach B. Cavalieri
(1598 – 1647), einem Schüler von Galilei, ist das folgende Prinzip für das Volumen kompakter
Mengen in R3 benannt:
Cavalierisches Prinzip. Es seien zwei Körper und eine Schar von parallelen Ebenen gegeben. Wenn die beiden Körper von jeder Ebene der Schar in inhaltsgleichen Flächen geschnitten werden, dann haben die beiden Körper das gleiche Volumen.
Es ist nicht schwierig, aus diesem Prinzip eine Formel für das Volumen vn (K) von kompakten
Mengen K ⊆ Rn zu gewinnen. Wegen der Beschränktheit von K dürfen wir annehmen, dass
mit einer Konstanten h > 0 die letzten Koordinaten aller Punkte x = (x1 , . . . , xn ) ∈ K die
Ungleichungen 0 ≤ xn ≤ h erfüllen. Für 0 ≤ t ≤ h bezeichne dann
Kt = {(x1 , . . . , xn−1 ) ∈ Rn−1 | (x1 , . . . , xn−1 , t) ∈ K}
die Projektion des Durchschnitts von K und der Hyperebene mit der Gleichung xn = t in
den Rn−1 . Schließlich sei vn−1 (Kt ) der Inhalt des Hyperebenenstückes Kt . Dann gilt
Z
vn (K) =
h
vn−1 (Kt ) dv1 (t).
0
Diese Formel - und damit das Cavalierische Prinzip - lässt sich nunmehr mithilfe des Satzes
von Fubini exakt begründen:
469
Begründung: Als kompakte Menge ist K nach Satz 31.6 messbar. Wegen der Beschränktheit
von K ist also χK Lebesgue-integrierbar (vgl. Bemerkung 31.2 (2)). Nach dem Satz von Fubini
ist (x1 , . . . , xn−1 ) 7→ χK (x1 . . . , xn−1 , t) für fast alle t ∈ R Lebesgue-integrierbar, und es gilt
Z
vn (K) =
Z
hZ
χK (x1 , . . . , xn−1 , t) dvn−1 (x1 , . . . , xn−1 ) dv1 (t)
χK dvn =
Rn−1
0
Z
hZ
=
Rn−1
0
Z
=
χKt (x1 , . . . , xn−1 ) dvn−1 (x1 , . . . , xn−1 ) dv1 (t)
h
vn−1 (Kt ) dv1 (t).
0
Mit Hilfe dieses Prinzips hat Archimedes in der Dimension n = 3 das Volumen von Kegeln
und Kugeln berechnen können. Das Cavalierische Prinzip war also lange vor Cavalieri bereits
in der wissenschaftlichen Blütezeit des 3. Jahrhunderts v. Chr. bekannt. Wir erläutern die
Schlussweise von Archimedes in den folgenden Beispielen.
Beispiel 33.7 Ein gerader Kreiskegel mit einem Kreis vom Radius r > 0 als Grundfläche und einer Höhe h > 0 lässt sich darstellen in der Form
z 2 2
3
2
2
·r .
K = (x, y, z) ∈ R | 0 ≤ z ≤ h, x + y ≤ 1 −
h
Für 0 ≤ t ≤ hist der Durchschnitt von K mit derEbene z = t eine Kreisscheibe mit dem
2
Radius 1 − ht · r und dem Flächeninhalt π 1 − ht · r2 . Die Volumenformel liefert also
v3 (K) = πr
2
h
Z
0
t
1−
h
2
dt = πr
2
Z
0
1
1
hu2 du = πr2 h.
3
h
t
0
Abbildung 98: Schiefer Kreiskegel
Die Volumenformel bleibt für schiefe Kreiskegel wie in der Abbildung 98 gültig. Das war
Archimedes aufgrund des Cavalierischen Prinzips“ klar. Man kann die Formel leicht auf
”
Kegel verallgemeinern, deren Grundflächen keine Kreisscheiben sind.
470
Beispiel 33.8
Nach der Methode von Archimedes wollen wir das Volumen einer Kugel
vom Radius r > 0 bestimmen. Dazu betrachten wir die kompakte Halbkugel
B = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 ≤ r2 , z ≥ 0}
und vergleichen sie mit dem Kreiskegel
K = {(x, y, z) ∈ R3 | x2 + y 2 ≤ z 2 , 0 ≤ z ≤ r}.
Wir stellen uns K als Teilmenge des Zylinders
Z = {(x, y, z) ∈ R3 | x2 + y 2 ≤ r2 , 0 ≤ z ≤ r}
vor. Für 0 ≤ t ≤ r bezeichnen wir mit Bt und At die Durchschnittsmengen der horizontalen
Ebene z = t mit der Halbkugel B und mit der Differenzmenge A = Z \ K.
r
t
Bt
At
0
r
r
Abbildung 99: Kugelvolumen nach Archimedes
√
Dann ist Bt eine Kreisscheibe mit dem Radius r2 − t2 , und At ist ein Kreisring mit dem
Außenradius r und dem Innenradius t. Die Flächeninhalte
v2 (Bt ) = π(r2 − t2 )
und
v2 (At ) = πr2 − πt2
sind gleich. Nach dem Cavalierischen Prinzip haben daher B und A das gleiche Volumen.
Gemäß Beispiel 33.7 hat A das Volumen
1
2
v3 (A) = v3 (Z) − v3 (K) = πr2 · r − πr2 · r = πr3 .
3
3
Das Volumen einer Kugel vom Radius r ist das Doppelte des Volumens der Halbkugel B,
also gleich
4 3
πr .
3
Beispiel 33.9
Eine Menge A ⊆ R3 heißt ein Rotationskörper mit der z-Achse als
Rotationsachse, falls es ein kompaktes Intervall I = [a, b] und eine stetige Funktion r : I −→
[0, ∞[ gibt, so dass
A = {(x, y, t) ∈ R3 | a ≤ t ≤ b, x2 + y 2 ≤ (r(t))2 }
ist.
besitzen also ein endliches Volumen v3 (A) =
R Solche Rotationskörper sind kompakt,
2
2
dv3 . Setzt man Ft = {(x, y) ∈ R | x + y 2 ≤ (r(t))2 }, dann ist v2 (Ft ) = π · (r(t))2 , und
A
aus dem Cavalierischen Prinzip folgt
Z b
Z b
v3 (A) =
v2 (Ft ) dt = π ·
(r(t))2 dt.
a
a
471
34
Die Transformationsformel
Die Substitutionsregel
Z
ϕ(b)
Z
b
f (x) dx =
ϕ(a)
f (ϕ(t)) ϕ0 (t) dt
a
ergibt sich als leichte Folgerung aus dem Hauptsatz der Differential- und Integralrechnung.
Hierin ist f eine stetige und ϕ eine stetig differenzierbare Funktion. Es wäre wünschenswert,
ein Analogon dieser Regel für mehrdimensionale Integrale zur Verfügung zu haben, zum Beispiel aus dem folgenden Grund: Manche Probleme beschreibt und löst man zweckmäßigerweise nicht in kartesischen Koordinaten, sondern in krummlinigen“ Koordinaten, die ir”
gendwelchen Symmetrien des Problems angepasst sind, etwa in Kugelkoordinaten. Deshalb
muss man wissen, wie sich Integrale bei Koordinatentransformationen ändern.
Eine Antwort hierauf liefert die sog. Transformationsformel. Deren Beweis ist viel schwieriger
als der Beweis der Substitutionsregel. Einer der Gründe hierfür ist, dass uns für mehrere
Variable kein Analogon des Hauptsatzes der Differential- und Integralrechnung zur Verfügung
steht. Wir müssen aus Zeitgründen auf den (ca. 15 Seiten langen) Beweis verzichten und
beschränken uns auf eine heuristische Überlegung, die zur Transformationsformel hinführt
und ihre Richtigkeit plausibel macht.
Heuristische Überlegung: Es sei A ⊆ U ⊆ Rn , A kompakt und U offen. Die Abbildung
ϕ : U −→ Rn sei differenzierbar und auf A injektiv. Wir suchen eine Formel für das Volumen
der Bildmenge ϕ(A).
R
P
• Das Volumen vn (A) = A dvn wird durch die Summen Q vn (Q) approximiert, worin
über ein System von endlich vielen disjunkten kleinen Quadern Q ∈ Qn summiert wird,
deren Vereinigungsmenge ungefähr“ mit A übereinstimmt.
”
• Dann sind die Summen
Z
X
dvn .
vn (ϕ(Q))
Approximationen für
vn (ϕ(A)) =
ϕ(A)
Q
• Weil die Quader Q klein“ gewählt werden und ϕ differenzierbar ist, kann ϕ auf Q
”
näherungsweise durch die lineare Abbildung Dϕ(a) mit einem fest gewählten Punkt
a ∈ Q ersetzt werden.
Das Bild (Dϕ(a))(Q) ist ein Parallelotop, und das Bild ϕ(Q) ist ein etwas verzerrtes
”
Parallelotop“, dessen Volumen näherungsweise gleich dem Volumen des Parallelotops
(Dϕ(a))(Q) ist.
• Für eine beliebige lineare Abbildung L : Rn −→ Rn ist L(Q) ein Parallelotop mit
dem Volumen vn (L(Q)) = | det L| · vn (Q). Diese elementare Tatsache dürfte aus der
Linearen Algebra bekannt sein. Somit kommt der Betrag | det Dϕ(a)| = | det Jϕ (a)| der
Jacobi-Determinante von ϕ ins Spiel.
• Wir gelangen so zu einer Approximation
X
X
vn (ϕ(A)) ≈
vn (ϕ(Q)) ≈
| det Jϕ (aQ )| · vn (Q)
Q
Q
472
mit
aQ ∈ Q.
ϕ(Q)
ϕ
Q
a
Dϕ(a)
(Dϕ(a))(Q)
Abbildung 100: Bilder von Quadern und ihr Volumen
• Wir hoffen und erwarten, dass diese Approximation beim Grenzübergang zu beliebig
feinen Zerlegungen von A zu einer exakten Gleichheit wird. Wir gelangen so zu der
Vermutung
Z
Z
| det Jϕ | dvn
dvn =
vn (ϕ(A)) =
ϕ(A)
A
für das Volumen des Bildes ϕ(A).
An dieser Überlegung ändert sich nicht viel, wenn eine stetige Funktion
f : ϕ(U ) −→ R über
R
die Menge ϕ(A) integriert werden soll. Approximationen für ϕ(A) f dvn sind die Summen
P
Q f (ϕ(aQ )) · vn (ϕ(Q)). Das führt uns zu der Vermutung
Z
Z
f dvn = (f ◦ ϕ) · | det Jϕ | dvn .
ϕ(A)
A
Diese heuristische Betrachtung zeigt auch bereits die Schwierigkeiten auf, die ein exakter
Beweis mit sich bringt. Man muss Fehler von zweierlei Art unter Kontrolle halten und zeigen,
dass sie für genügend feine Zerlegungen von A beliebig klein werden: Es entstehen Fehler bei
der Ersetzung von A durch eine Vereinigungsmenge von Quadern, und es entstehen Fehler
bei der lokalen Ersetzung von ϕ durch lineare Abbildungen Dϕ(a).
Satz 34.1 (Transformationsformel für Integrale)
Es sei ϕ : D −→ Rn eine stetig
differenzierbare und injektive Funktion auf einer offenen Menge D ⊆ Rn , und in jedem Punkt
a ∈ D sei die Ableitung Dϕ(a) regulär. Es sei A ⊆ D eine messbare Menge und f : Rn −→ R
eine Lebesgue-integrierbare Funktion.
Dann ist auch ϕ(A) messbar, (f ◦ ϕ) · | det Jϕ | ist Lebesgue-integrierbar auf A, und es gilt
Z
Z
f dvn = (f ◦ ϕ) · | det Jϕ | dvn .
ϕ(A)
A
Beweis. [Köhler, S. 520-537]
473
Beispiel 34.2
Ist A eine messbare Menge mit endlichem Inhalt vn (A) und erfüllt ϕ die
Voraussetzungen in Satz 34.1, so ist das Bild ϕ(A) messbar, aber es braucht keineswegs einen
endlichen Inhalt zu haben. Dies wird durch das Beispiel n = 1, A = D = ] − π/2, π/2 [ und
ϕ(x) = tan x belegt. In diesem Fall ist ϕ(A) = R.
Aus der Transformationsformel folgt insbesondere, dass Nullmengen von stetig differenzierbaren Abbildungen auf Nullmengen abgebildet werden.
Satz 34.3
Für ϕ und D seien die Voraussetzungen in Satz 34.1 erfüllt. Dann ist für jede
Nullmenge N ⊆ D das Bild ϕ(N ) eine Nullmenge.
Beweis. Es sei eine Nullmenge N ⊆ D gegeben. Wir wenden Satz 34.1 mit ϕ(D) und ϕ−1
anstelle von D und ϕ an; dies ist möglich, da ϕ−1 nach dem Satz über lokale Umkehrbarkeit
(Satz 26.4) stetig differenzierbar und ϕ(D) nach dem Offenheitsprinzip (Korollar 26.5) offen
ist.
R
Die Funktion χN ist fast überall 0; also ist sie Lebesgue-integrierbar, und es gilt χN dvn = 0.
Aus
Satz 34.1 folgt daher die Integrierbarkeit von (χN ◦ ϕ−1 ) · |det Jϕ−1 | = χϕ(N ) ·
det Jϕ−1 ◦ ϕ−1 auf ϕ(D) sowie
Z
Z
χϕ(N ) · | det Jϕ−1 ◦ ϕ−1 | dvn .
χN dvn =
0=
D
ϕ(D)
Hieraus und aus Lemma 30.18 folgt, dass χϕ(N ) · | det Jϕ−1 ◦ ϕ−1 | fast überall 0 ist. Der zweite
Faktor ist nach Voraussetzung nirgends 0. Folglich ist χϕ(N ) fast überall 0. Also ist ϕ(N )
eine Nullmenge. Damit ist der Satz bewiesen.
Bemerkung 34.4
Aus Satz 34.3 ergibt sich insbesondere, dass beliebige Hyperebenen
im Rn Nullmengen sind (nicht nur achsenparallele Hyperebenen wie in Beispiel 29.11 (1)
gezeigt). Denn jede Hyperebene ist das Bild einer achsenparallelen Hyperebene unter einer
geeigneten Drehung, und diese erfüllt die Voraussetzungen der Transformationsformel.
Allgemeiner hat Satz 34.3 zur Folge, dass m-dimensionale Flächen in Rn Nullmengen sind,
falls m < n ist. Zum Beweis müssen wir auf einige Resultate aus Kapitel 28 zurückgreifen.
Zunächst erklären wir, was wir unter einer Fläche im Rn verstehen.
Definition 34.5
Es sei m < n, D ⊆ Rm sei offen und f : D −→ Rn stetig differenzierbar
mit rang Df (a) = m für alle a ∈ D. Dann heißt das Bild f (D) eine m-dimensionale Fläche
im Rn .
Satz 34.6
Nullmenge.
Es sei m < n, und S sei eine m-dimensionale Fläche in Rn . Dann ist S eine
Beweis. Es sei S = f (D), wobei f und D die Bedingungen in der vorstehenden Definition
erfüllen. Nach dem Immersionssatz (Satz 28.8) gibt es zu jedem Punkt a ∈ D eine offene
Umgebung U von a in D, auf der f injektiv ist, und bei geeigneter Nummerierung der
Koordinaten in Rn gilt
f (U ) = {(x, ϕ(x)) | x ∈ V }
474
mit einer offenen Menge V ⊆ Rm und einer Funktion ϕ : V −→ Rn−m von der Klasse C 1 .
Wir zeigen zunächst, dass f (U ) eine Nullmenge ist. Hierzu definieren wir die Funktionen
g : V −→ Rn und ψ : V × Rn−m −→ Rn durch
g(x) := (x, ϕ(x))
und
ψ(x, y) := g(x) + (0, y) = (x, ϕ(x) + y).
Beide Funktionen sind injektiv und von der Klasse C 1 , und es ist
Em
0
Jψ (x, y) =
.
Jϕ (x) En−m
Also ist Jψ überall regulär. Es gilt
f (U ) = g(V ) = ψ(N )
mit
N = {(x, 0) | x ∈ V }.
Als Teilmenge einer Hyperebene ist N eine Nullmenge. Nach Satz 34.3 ist folglich auch
f (U ) = ψ(N ) eine Nullmenge.
Nun sei K eine kompakte Teilmenge von D. Jeder Punkt a ∈ K besitzt eine offene Umgebung
Ua , wofür die Überlegungen im vorigen Absatz zutreffen. Die Mengen Ua überdecken die
kompakte Menge K. Daher genügen endlich viele der Mengen Ua zur Überdeckung von K.
Also wird f (K) von endlich vielen Bildern f (Ua ) überdeckt. Jedes ist nach dem vorigen
Absatz eine Nullmenge, und folglich ist auch f (K) eine Nullmenge.
Schließlich können wir D als Vereinigung von abzählbar unendlich vielen kompakten Teilmengen Kj darstellen. (Das folgt wie im Beweis von Satz 31.6.) Somit ist f (D) als Vereinigung
von abzählbar vielen Nullmengen f (Kj ) nach Satz 29.10 (2) ebenfalls eine Nullmenge.
Bemerkung 34.7
Die Transformationsformel gilt für beliebige integrierbare Funktionen,
und insofern ist sie bestmöglich. Andererseits ist in typischen Anwendungen der Formel ϕ
nur fast überall injektiv, und die Ableitung Dϕ(a) ist nur in fast allen Punkten a regulär.
In diesen Fällen gibt es jedoch typischerweise jeweils eine Nullmenge N , so dass D \ N offen
ist und für D \ N die Voraussetzungen der Transformationsformel erfüllt sind. Daher kann
man D durch D \ N ersetzen. Auf der linken Seite der Transformationsformel erhält man
den Integrationsbereich ϕ(D \ N ); dieser darf durch ϕ(D) ersetzt werden, weil ϕ(N ) nach
Satz 34.3 eine Nullmenge ist.
Beispiel 34.8
Es sei
ϕ(r, θ) = (r · cos θ, r · sin θ)
für
r > 0, θ ∈ R.
Dann sind r und θ Polarkoordinaten des Punktes ϕ(r, θ) = (x, y) in R2 . Eine Umkehrabbildung ϕ−1 heißt dort, wo sie existiert, eine Transformation auf Polarkoordinaten in der
Ebene. Auf der offenen Menge
D = ]0, ∞[ × ]0, 2π[
ist ϕ injektiv. Die Funktionaldeterminante
det Jϕ (r, θ) = det
cos θ −r sin θ
sin θ
r cos θ
475
=r
e = ]0, ∞[ × R von ϕ. Nach Satz
verschwindet in keinem Punkt des Definitionsbereiches D
34.1 gilt also
Z
Z
f (x, y) dx dy =
r · f (ϕ(r, θ)) dr dθ
ϕ(D)
D
2
für jede integrierbare Funktion f : R −→ R. Weil ϕ(D) = R2 \ N mit der Nullmenge
N = {(x, 0) | x > 0} ist, gilt auch
Z
Z
Z ∞Z ∞
r · f (ϕ(r, θ)) dr dθ.
f (x, y) dx dy =
f dv2 =
D
−∞ −∞
Beispiel 34.9
Das Integral
Z
∞
2
e−x dx
Φ=
−∞
bezeichnet man als das Gaußsche Fehlerintegral. Sein Wert lässt sich mit Hilfe der
Transformationsformel (Satz 34.1) und des Satzes von Fubini (Satz 33.4) mühelos berechnen:
Z ∞
Z ∞
Z
2
2
2
−x2
−y 2
Φ =
e dx ·
e dy =
e−(x +y ) dx dy
−∞
R2
−∞
Z
−r2
r·e
=
Z
dr dθ = 2π ·
]0,∞[×]0,2π[
∞
−r2
r·e
Z
dr = π ·
0
∞
e−t dt
0
= π.
Da offenbar Φ > 0 ist, ergibt sich Φ =
√
π.
e −→ R3 auf der offenen Menge D
e =
Beispiel 34.10
Wir definieren die Funktion ϕ : D
{(r, θ, λ) | r > 0, θ ∈ R, λ ∈ R} durch
ϕ(r, θ, λ) = (r · cos θ · cos λ, r · cos θ · sin λ, r · sin θ).
Wie in Beispiel 26.9 sind r, θ, λ Kugelkoordinaten des Punktes ϕ(r, θ, λ) = (x, y, z) in R3 .
Eine Umkehrabbildung ϕ−1 heißt dort, wo sie existiert, eine Transformation auf Kugelkoordinaten in R3 . Aus Beispiel 26.9 kennen wir auch die Funktionaldeterminante
det Jϕ (r, θ, λ) = − r2 cos θ.
e mit der Vereinigungsmenge
Sie verschwindet nur in den Punkten des Durchschnitts von D
1
0
N aller Ebenen mit den Gleichungen θ = (k + 2 )π, k ∈ Z, und nach Beispiel 29.11 ist N 0
eine Nullmenge. Auf der offenen Menge
D = ]0, ∞[ × ] − π/2, π/2[ × ]0, 2π[
ist ϕ injektiv, und es gilt ϕ(D) = R3 \ N mit der Nullmenge N = {(x, 0, z) | x ≥ 0, z ∈ R}.
Wie in Beispiel 34.8 folgt daher aus Satz 34.1 die Formel
Z
Z
Z
f dv3 =
f (x, y, z) dx dy dz =
r2 · cos θ · f (ϕ(r, θ, λ)) dr dθ dλ
R3
D
für alle integrierbaren Funktionen f : R3 −→ R.
476
Zur Illustration berechnen wir hiermit nochmals das Volumen einer Kugel K vom Radius
R > 0 um den Nullpunkt. Das Urbild ϕ−1 (K \ N ) ist ein Quader, und zu integrieren ist ein
Produkt von Funktionen von jeweils nur einer Variablen; deshalb ergibt sich recht einfach
Z
Z
v3 (K) =
dv3 =
r2 cos θ dr dθ dλ
ϕ−1 (K\N )
K
Z
R
2
π/2
r dr ·
=
Z
cos θ dθ ·
−π/2
0
=
Z
2π
dλ
0
1 3
4
R · 2 · 2π = πR3 .
3
3
3
Beispiel 34.11
Es seien eine kompakte Menge
p K ⊆ R und eine stetige Funktion % :
K −→ [0, ∞[ gegeben. Es bezeichne r(x, y, z) = x2 + y 2 den Abstand des Punktes (x, y, z)
von der z-Achse. In der Mechanik heißt das Integral
Z
T =
(r2 · %)(x, y, z) d(x, y, z)
K
das Trägheitsmoment des Körpers K mit der Dichteverteilung % bezüglich der z-Achse.
Es ist zweckmäßig, mittels
ϕ(r, θ, z) = (r cos θ, r sin θ, z)
für
r > 0, 0 < θ < 2π, z ∈ R
Zylinderkoordinaten r, θ, z bezüglich der z-Achse einzuführen. Aus Beispiel 34.8 ergibt
sich det Jϕ (r, θ, z) = r. Aus Satz 34.1 folgt also
Z
r3 · %(ϕ(r, θ, z)) dr dθ dz.
T =
ϕ−1 (K)
Wir nehmen an, dass K und % eine Symmetrie zur z-Achse aufweisen, dass also die Funktion
% ◦ ϕ nicht von der Variablen θ abhängt. Dann reduziert sich das dreifache Integral für T auf
ein zweifaches von der Gestalt
Z
T = 2π · r3 %(ϕ(r, θ, z)) dr dz.
Es sei beispielsweise K eine Kugel vom Radius R um den Nullpunkt, und % sei konstant.
Dann folgt
!
Z R Z √R2 −z2
Z R
1
3
T = 2π%
r dr dz = · π%
(R2 − z 2 )2 dz
2
0
−R
−R
Z R
2
1
8
4
2 2
4
5
5
5
= π%
(R − 2z R + z ) dz = π% R − · R + · R = π%R5 .
3
5
15
0
477
35
Die Integralsätze von Green, Stokes und Gauß
In diesem abschließenden Kapitel stellen wir drei zentrale Integralsätze der Vektoranalysis für
den R2 und R3 vor, die man allesamt als mehrdimensionale Verallgemeinerungen des Hauptsatzes der Differential- und Integralrechnung ansehen kann. Zu ihrer Formulierung müssen
wir zunächst erklären, was wir unter Kurven- und Oberflächenintegralen verstehen. Dieses
Kapitel hat reinen Berichtcharakter; aus Zeitgründen müssen wir für (fast) alle Beweise auf
die Literatur verweisen. Ebensowenig können wir auf die Theorie der Differentialformen und
den allgemeinen Satz von Stokes in beliebigen Dimensionen eingehen.
35.1
Vektorfelder und Kurvenintegrale
Definition 35.1
Jede stetige Abbildung F : D −→ Rn auf einer offenen Menge D ⊆ Rn
heißt ein Vektorfeld auf D.
Mit einem Vektorfeld F auf D verbindet man die Vorstellung, dass im Punkt x ∈ D der
Vektor F (x) angeheftet“ ist.
”
Heuristische Überlegung: Die in der Physik auftretenden Vektorfelder üben irgendwelche Wirkungen aus. Zum Beispiel kann F (x) eine Kraft sein, die auf eine im Punkt x
befindliche Masse einwirkt. Bewegt sich die Masse im Feld, dann kann Energie frei werden
oder es muss Arbeit gegen die Kraft“ geleistet werden. Wir wollen eine Formel für diese
”
Energie herleiten und auf diese Weise zum Begriff des Kurvenintegrals gelangen. Im einfachsten Fall ist F konstant (ein sog. homogenes Vektorfeld). Bewegt man eine Masse in diesem
Feld geradlinig von einem Punkt a zu einem Punkt b, dann wird die Energie
E = hF, b − ai
frei; je nach dem Winkel zwischen den Vektoren F und b − a ist sie positiv, negativ oder
0, und im Falle E < 0 ist die Arbeit |E| aufzuwenden. Wie lautet die Formel für E in dem
allgemeineren Fall, wenn eine Masse in einem beliebigen Feld F längs eines beliebigen Weges
x : [0, 1] −→ D von x(0) = a nach x(1) = b bewegt wird?
F (b)
F
F (a)
F
a
a
F
F (x)
F
b
x
b
Abbildung 101: Arbeit im Vektorfeld
Wir denken uns den Weg x in kleine, annähernd gerade Stücke von x(tk ) bis x(tk+1 ) zerlegt,
auf denen F annähernd konstant ist; hierbei ist (t, t − 1, . . . , tm ) eine Zerlegung des Intervalls
[0, 1]. Dann ist die Summe
X
hF (x(tk )) , x(tk+1 ) − x(tk )i
k
478
ein Näherungswert für E. Die Differenz x(tk+1 ) − x(tk ) ist ungefähr gleich x0 (tk ) · (tk+1 − tk ),
und die Summe ist ein Näherungswert für ein Integral. Das macht die Formel
Z 1
hF (x(t)) , x0 (t) idt
E=
0
für die Energie plausibel. Wir zeigen, dass dieses Integral nur vom Feld F und der von x parametrisierten Kurve (sowie von deren Orientierung) abhängt, also unabhängig von der Wahl
der Parameterdarstellung x ist. Dazu benötigen wir zunächst den Begriff der orientierten
Kurve.
Definition 35.2
In Abwandlung von Definition 22.19 seien zwei Wege α : I −→ Rn und
β : J −→ Rn im Rn äquivalent, falls es eine orientierungserhaltende Parametertransformation ϕ : I −→ J gibt mit β ◦ ϕ = α. Die Äquivalenzklassen von Wegen bezüglich dieser
Äquivalenzrelation bezeichnen wir als orientierte Kurven im Rn .
Lemma 35.3
Es sei F : D −→ Rn ein Vektorfeld auf einer offenen Menge D ⊆ Rn ,
und γ sei eine orientierte Kurve in D mit einer stetig differenzierbaren Parameterdarstellung
x : [α, β] −→ D. Dann ist das Integral
Z
β
hF (x(t)) , x0 (t)i dt
α
nur von F und γ abhängig. Es ist invariant gegenüber orientierungserhaltenden, stetig differenzierbaren Parametertransformationen.
Beweis. Das Integral ist ein Riemannsches Integral; die Existenz ist also klar. Es sei auch
y : [a, b] −→ D eine Parameterdarstellung der Kurve γ, und es sei x = y ◦ ϕ mit einer
orientierungserhaltenden, stetig differenzierbaren Parametertransformation ϕ : [α, β] −→
[a, b]. Dann ist ϕ(α) = a und ϕ(β) = b, und aus der Kettenregel und der Substitutionsregel
folgt
Z β
Z β
0
hF (y(ϕ(t))) , y 0 (ϕ(t))i · ϕ0 (t) dt
hF (x(t)) , x (t)i dt =
α
α
b
Z
hF (y(u)) , y 0 (u)i du.
=
a
Das war zu zeigen.
Das Resultat rechtfertigt die folgende Definition.
Definition 35.4
Es sei F : D −→ Rn ein Vektorfeld auf einer offenen Menge D ⊆ Rn ,
und γ sei eine orientierte Kurve in D mit einer stückweise stetig differenzierbaren Parameterdarstellung x : [α, β] −→ D. Dann heißt
Z
β
hF (x(t)) , x0 (t)i dt
α
479
das Kurvenintegral von F längs γ oder auch das Linienintegral von F längs γ. Es wird
mit den Symbolen
Z
Z
hF (x) , dxi
oder
(F1 dx1 + . . . + Fn dxn )
γ
γ
bezeichnet, worin F1 , . . . , Fn die Komponentenfunktionen von F sind.
R
Falls die Kurve γ geschlossen ist, so heißt das Kurvenintegral γ hF (x) , dxi auch die Zirkulation des Feldes F längs der Kurve γ.
R
In der Schreibweise γ hF (x), dxi wird die Unabhängigkeit des Kurvenintegrals von der Wahl
der Parameterdarstellung zum Ausdruck gebracht. Das (undefinierte!) Symbol
dx = x0 (t) dt
wird das vektorielle Linienelement längs γ genannt. Seine Einführung kommt der infinitesimalen Denkweise zustatten.
Der Begriff Zirkulation bekommt eine anschauliche Bedeutung, wenn zum Beispiel F (x) der
Geschwindigkeitsvektor einer Flüssigkeitsströmung in der Ebene ist. Die Zirkulation von F
längs γ ist besonders groß, wenn die Flüssigkeit um das von γ berandete Gebiet herum fließt;
im Extremfall könnte F (x) überall parallel zum Tangentialvektor von γ sein.
35.2
Divergenz, Rotation und Kreuzprodukt
Definition 35.5 Es sei F ein stetig differenzierbares Vektorfeld auf einer offenen Menge
D in R3 . Dann heißt
∂F1 ∂F2 ∂F3
+
+
divF :=
∂x1
∂x2
∂x3
die Divergenz oder auch die Quellstärke und
 ∂F

∂F2
3
−
∂x
∂x3
 2

 ∂F1 ∂F3 
rot F :=  ∂x3 − ∂x1 


∂F2
∂F1
− ∂x2
∂x1
die Rotation des Feldes F .
Die Divergenz und die Rotation eines Vektorfeldes spielen insbesondere in der Physik eine
große Rolle, beispielsweise für die Formulierung der Maxwell-Gleichungen, der grundlegenden
Gleichungen der Elektrodynamik.
Lemma 35.6
(1) Es sei F ein Vektorfeld von der Klasse C 2 auf einer offenen Menge D ⊆ R3 . Dann gilt
div rot F = 0.
(2) Es sei f : D −→ R eine Funktion der Klasse C 2 auf einer offenen Menge D ⊆ R3 .
Dann gilt
rot grad f = 0.
480
Beweis. Aufgrund der zweimaligen stetigen Differenzierbarkeit kann man gemäß dem Satz
von Schwarz (Satz 25.3) die Reihenfolge der partiellen Ableitungen von F1 , F2 , F3 und f
vertauschen und erhält
∂ 2 F2
∂ 2 F1
∂ 2 F3
∂ 2 F2
∂ 2 F1
∂ 2 F3
−
+
−
+
−
=0
div rot F =
∂x1 ∂x2 ∂x1 ∂x3 ∂x2 ∂x3 ∂x2 ∂x1 ∂x3 ∂x1 ∂x3 ∂x2
und
 ∂2f

∂2f
−
 
∂x ∂x
∂x3 ∂x2
0
 2 3

 ∂2f
∂2f 

rot grad f =  ∂x3 ∂x1 − ∂x1 ∂x3  = 0 .


0
∂2f
∂2f
− ∂x2 ∂x1
∂x1 ∂x2
Beide Ergebnisse dieses Lemmas sind Spezialfälle eines allgemeinen Satzes über Differentialformen [Köhler, Satz 43.5 (3)].
Ein zweidimensionales Analogon zur Rotation stellt die sog. Wirbeldichte dar.
Definition 35.7
in R2 heißt
Für ein stetig differenzierbares Vektorfeld F auf einer offenen Menge
∂F2
∂F1
−
∂x1
∂x2
die Wirbeldichte von F .
Zur Definition des Integrals von Funktionen über Hyperflächen benötigen wir noch zwei
Hilfsmittel aus der Linearen Algebra: Das Kreuzprodukt und die Gramsche Determinante.
Erinnerung:
definiert durch
Das Kreuzprodukt oder Vektorprodukt zweier Vektoren a, b ∈ R3 ist


a2 b 3 − a3 b 2


a × b =  a3 b 1 − a1 b 3  ,
a1 b2 − a2 b1

falls

a1


a =  a2  ,
a3


b1


b =  b2  .
b3
Im folgenden Satz sind einige Eigenschaften des Kreuzprodukts zusammengestellt:
Satz 35.8 (Kreuzprodukt)
Für alle a, b, c ∈ R3 und alle λ ∈ R gilt
(1) det(a, b, c) = ha × b , ci.
(2) b × a = − a × b,
a × (b + c) = a × b + a × c,
(λa) × b = λ · (a × b).
Das Kreuzprodukt ist also bilinear und alternierend auf R3 .
(3) Genau dann ist a × b = 0, wenn a und b linear abhängig sind.
(4) Bezeichnet γ den Winkel zwischen a und b in R3 , dann gilt
||a × b|| = ||a|| · ||b|| · | sin γ|.
Die Länge von a × b ist gleich dem Flächeninhalt des von a und b aufgespannten
Parallelogramms.
(5) Der Vektor a × b ist orthogonal zu a und zu b.
481
Beweis. Lineare Algebra oder [Köhler, Satz 38.4]
Definition 35.9 Es sei V ein euklidischer Vektorraum mit einem Skalarprodukt h . , . i,
und es seien v1 , . . . , vm ∈ V . Dann heißt


hv1 , v1 i . . . hv1 , vm i


..
G(v1 , . . . , vm ) := det  ...
 = det (hvj , vk i)j,k=1,...,m
.
hvm , v1 i . . . hvm , vm i
die Gramsche Determinante von v1 , . . . , vm .
p
Im Falle V = Rn , m = n − 1 kann man G(v1 , . . . , vn−1 ) als die (n − 1)-dimensionale
Oberfläche des von v1 , . . . , vn−1 aufgespannten (n − 1)-dimensionalen Parallelogramms interpretieren [Gantmacher, S. 258-266]. Angesichts von Satz 35.8 (4) ist insbesondere
p
für alle a, b ∈ R3 .
||a × b|| = G(a, b)
Dies rechnet man leicht auch direkt nach.
Die Interpretation der Norm des Kreuzprodukts bzw. der Quadratwurzel der Gramschen Determinante als Flächeninhalt macht es verständlich, weshalb diese Größen bei der Definition
von Oberflächenintegralen eine Rolle spielen.
35.3
Der Satz von Green
In dem nach G. Green (1793 – 1841) (oder auch nach C. F. Gauß) benannten Integralsatz
wird die Zirkulation eines ebenen Vektorfeldes längs einer geschlossenen Kurve umgewandelt
in das Integral der Wirbeldichte des Feldes über den von der Kurve berandeten Bereich.
Definition 35.10
Ein geschlossener Weg x : [a, b] −→ R2 , der auf [a; b[ injektiv ist, heißt
ein Jordan-Weg. Die Äquivalenzklasse eines Jordanweges (bezüglich der in Definition 22.19
bzw. in Definition 35.2 erklärten Äquivalenz von Wegen) bezeichnet man als Jordan-Kurve
bzw. als orientierte Jordan-Kurve.
In Anbetracht von Satz 13.28 können wir Jordan-Wege auch als homöomorphe Abbildungen
der Einheitskreislinie S 1 definieren.
Jeder Jordan-Weg zerlegt die Ebene R2 in zwei disjunkte Teilmengen, das Innere und das
Äußere dieses Weges. Dieser Sachverhalt (der Jordansche Kurvensatz) erscheint unmittelbar einleuchtend und beinahe selbstverständlich. Der Beweis ist jedoch sehr schwierig und
aufwändig; wir müssen für ihn auf Lehrbücher der Topologie verweisen.
Bei den im Folgenden auftretenden Kurvenintegralen verwechseln“ wir zur Vereinfachung
”
der Notation positiv orientierte Jordan-Kurven mit ihrer Spur (die wir uns also mit einer
Orientierung versehen denken).
Satz 35.11 (Satz von Green; Satz von Gauß in der Ebene)
Es sei M ⊆ R2
kompakt, und ∂M sei die Spur eines stückweise stetig differenzierbaren, positiv orientierten
Jordan-Weges. Es sei F : D −→ R2 ein stetig differenzierbares Vektorfeld auf einer offenen
Umgebung D von M . Dann gilt
Z
Z ∂F2 ∂F1
−
dx dy =
(F1 dx + F2 dy).
∂x
∂y
∂M
M
Die Zirkulation von F längs ∂M ist gleich dem Integral der Wirbeldichte von F über M .
482
Beweis. [Apostol], [Köhler, § 40]
Der Satz von Green liefert eine Formel für den Flächeninhalt von durch Jordan-Kurven
berandete Gebiete. Sie ist gut anwendbar, wenn man eine günstige Parameterdarstellung für
die Randkurve besitzt.
Satz 35.12
Es sei M ⊆ R2 kompakt, und ∂M sei die Spur eines stückweise stetig differenzierbaren, positiv orientierten Jordan-Weges. Für den Flächeninhalt von M gilt dann
Z
Z
Z
1
(x dy − y dx) =
x dy = −
y dx.
v2 (M ) = ·
2 ∂M
∂M
∂M
Beweis. Für eine beliebige reelle Zahl α definieren wir das Vektorfeld F auf R2 durch
F (x, y) = (−αy, (1 − α)x). Seine Wirbeldichte ist konstant 1: Es ist
∂F2 ∂F1
−
(x, y) = (1 − α) − (−α) = 1.
∂x
∂y
Das Integral der Wirbeldichte über M ist daher der Flächeninhalt von M , und aus Satz
35.11 folgt
Z
Z
v2 (M ) =
(F1 dx + F2 dy) =
(1 − α)x dy − αy dx .
∂M
Mit den Werten
1
,
2
∂M
0 und 1 für α folgen die Behauptungen.
t→−1+
t=1
M
Z
~
Z
−a
@
I
@ t=0,∞,−∞
−a
@
R
@
t→−1−
Abbildung 102: Descartes’sches Blatt
Beispiel 35.13
Es sei a eine positive Zahl. Die Lösungsmenge der Gleichung
x3 + y 3 = 3axy
heißt ein Descartes’sches Blatt. Eine Parameterdarstellung dieser Kurve ist
3at2
3at
,
für
−∞≤t≤∞
f : t 7→ (x(t), y(t)) = 3
t + 1 t3 + 1
483
mit f (−∞) = f (∞) = (0, 0). Es genügt hier zu wissen, dass f (t) für jedes t die Kurvengleichung erfüllt, und das ist leicht nachzurechnen. Das Parameterintervall 0 ≤ t ≤ ∞ bestimmt
eine Jordan-Kurve γ, die eine Menge M ⊆ R2 berandet. Man könnte ∂M auch der Vorschrift entsprechend mit einem kompakten Parameterintervall darstellen; die Verwendung
von f ergibt jedoch eine bequemere Rechnung.
Es ist nämlich (wenn wir aus Gründen der Übersichtlichkeit das Argument t jeweils unterdrücken)
xy 0 − x0 y = x · (tx)0 − x0 · tx = x · (x + t · x0 ) − x0 · tx = x2 =
9a2 t2
.
(t3 + 1)2
Aus Satz 35.12 folgt somit
9a2
v2 (M ) =
·
2
Z
0
∞
t2
3a2
·
dt
=
(t3 + 1)2
2
Z
1
∞
du
3a2
.
=
u2
2
35.4
Der Satz von Stokes im R3
Im Satz von Green (Satz 35.11) denken wir uns jetzt die Ebene R2 in den R3 eingebettet, und
wir stellen uns den Integrationsbereich M verbeult“ vor. M soll jetzt also ein kompaktes
”
Flächenstück in R3 sein. Wir müssen dann ein räumliches Vektorfeld F in einer Umgebung
von M zugrunde legen. Es ist zu erwarten, dass der Satz von Green eine Verallgemeinerung
besitzt, worin ein Integral über M in ein Integral längs des (bezüglich der Relativtopologie
von M gebildeten) Randes von M umgewandelt wird. Zunächst benötigen wir eine Reihe
neuer Begriffe.
Definition 35.14 Es seien U und D offene Mengen in Rm . Die abgeschlossene Hülle
A = U sei kompakt und in D enthalten. Es sei f : D −→ Rm+1 stetig differenzierbar und
injektiv, und das Differential Df (q) habe überall vollen Rang m. Dann heißt M = f (A)
ein kompaktes (Hyper-)Flächenstück in Rm+1 , und f : A −→ M heißt eine reguläre
Parameterdarstellung von M .
Das Hyperflächenstück M heißt orientierbar, falls es eine stetige Abbildung N : M −→
Rm+1 gibt, so dass N (p) für jedes p ∈ M ein Normaleneinheitsvektor (im Sinne von Definition
28.14) von M im Punkt p ist.
e offene Mengen in Rm . Eine bijektive, stetig differenzierbare Abbildung ϕ :
Es seien D und D
e mit det Jϕ (q) 6= 0 für alle q ∈ D heißt eine reguläre Parametertransformation.
D −→ D
Gilt sogar det Jϕ (q) > 0 für alle q ∈ D, so heißt ϕ orientierungserhaltend.
Ein bekanntes Beispiel eines nicht orientierbaren Flächenstücks ist das sog. Möbiusband
(Abbildung 103).
Definition 35.15 Es sei F ein Vektorfeld auf einer offenen Menge D ⊆ R3 . Es sei M
ein kompaktes orientierbares Flächenstück in D mit einer regulären Parameterdarstellung
f : A −→ M wie in Definition 35.14. Die Orientierung sei durch
p 7→ N (p) =
a×b
||a × b||
mit
a=
∂f
∂f
(q), b =
(q)
∂x
∂y
484
für
p = f (q), q ∈ A
Abbildung 103: Möbiusband
gegeben. Dann heißt
Z
Z ∂f
∂f
×
(q) dv2 (q)
hF (p) , dω(p)i :=
F (f (q)) ,
∂x ∂y
M
A
der Fluss des Feldes F durch die Fläche M . Hierbei nennen wir das (strenggenommen
undefinierte!) Symbol
∂f
∂f
dω(f (q)) =
×
(q) dv2 (q)
∂x ∂y
das vektorielle Oberflächenelement von M im Punkt q.
Bemerkung 35.16
(1) Zum Nachweis der Wohldefiniertheit des Flusses ist zu zeigen, dass der Fluss invariant
ist unter orientierungserhaltenden Parametertransformationen. Wir verweisen hierzu
auf [Köhler, Proposition 41.1]. Unter beliebigen regulären Parametertransformationen
ist der Fluss jedoch nicht invariant: Diese können die Orientierung von M umdrehen,
und dabei ändert der Fluss sein Vorzeichen.
(2) Unter Verwendung des Normaleneinheitsvektorfeldes N können wir das Integral für
den Fluss auch in der Form
Z
∂f
∂f
(q) dv2 (q)
×
h F (f (q)) , N (f (q)) i · ∂x ∂y A
schreiben, wobei f : A −→ M wie in Definition 35.15 eine reguläre Parametrisierung von M ist. Allgemeiner erklärt man das (Oberflächen-)Integral einer stetigen
Funktion ϕ : M −→ R über M durch
Z
Z
∂f
∂f ×
ϕ dS :=
ϕ(f (q)) · (q) dv2 (q).
∂x ∂y M
A
Diese Definition kann man auch noch auf beliebige Raumdimensionen verallgemeinern:
Ist M ⊆ Rn ein kompaktes Hyperflächenstück mit einer regulären Parametrisierung
f : A −→ M (mit A ⊆ Rn−1 ), so setzt man
Z
Z
p
ϕ dS :=
ϕ(f (q)) · G(q) dvn−1 (q),
M
A
485
wobei
G(q) := det
∂f
∂f
(q),
(q)
∂xj
∂xk
j,k=1,...,n−1
die Gramsche Determinante von Df ist. Diese
stimmt
im Fall n = 3, wie im Anschluss
∂f ∂f 2
an Definition 35.9 erläutert, gerade mit ∂x × ∂y (q) überein.
Natürlich muss man auch diese Definitionen rechtfertigen, indem man die Unabhängigkeit der definierten Integrale von der speziellen Wahl der Parametrisierung nachweist.
Für Details verweisen wir auf [Forster 3, § 14] und [Königsberger 2, § 9.2/9.3].
Schließlich kann man auch noch Integrale über Untermannigfaltigkeiten erklären, die
nur lokale Parametrisierungen im bisher besprochenen Sinne besitzen (vgl. Definition
28.1). Hierzu überdecken wir die Untermannigfaltigkeit M mit abzählbar vielen Kartengebieten Uj ; auf diesen können wir wie oben erklärt integrieren. Gemäß der auf
J. Dieudonné (1906-1992) zurückgehenden Methode der Zerlegung der Eins konstruiert man nun stetige bzw. hinreichend glatte“
P∞ Funktionen εj : M −→ [0; 1], so
”
dass εj außerhalb von Uj verschwindet und j=1 εj (x) = 1 für alle x ∈ M ist. Ist
eine Funktion ϕ auf jedem Kartengebiet Uj integrierbar im oben definierten Sinne, so
können wir das Integral von ϕ über M durch
Z
∞ Z
X
ϕ dS :=
(ϕ · εj ) dS
M
j=1
Uj
erklären. Genauer ist dies in [Forster 3, § 14] und [Königsberger 2, § 9.4/9.5] ausgeführt.
Die in Abschnitt 35.5 auftretenden Oberflächenintegrale sind - sofern man keine glo”
bale“ Parametrisierung hat - in dem soeben umrissenen Sinne zu verstehen.
Definition 35.17 Es seien U und D offene Mengen in R2 . Die abgeschlossene Hülle A = U
sei kompakt und in D enthalten, und ∂A sei die Spur eines stückweise stetig differenzierbaren,
positiv orientierten Jordan-Weges γ.
Es sei f : D −→ R3 eine reguläre Parameterdarstellung des orientierbaren kompakten
Flächenstücks M = f (A). Dann wird die durch f ◦ γ parametrisierte Kurve der positiv
orientierte Rand von M genannt und mit ∂M bezeichnet.
Warnung: Die Notation ∂M ist strenggenommen problematisch. Es handelt sich dabei
nicht um den Rand von M im Sinne der Topologie des R3 . (Dieser ist vielmehr i.Allg.
ganz M , da M ein zweidimensionales“ Objekt ist, das keine dreidimensionalen Kugeln,
”
also keine inneren Punkte enthält.) Die Notation ∂M ist dennoch gerechtfertigt, wenn man
sich vorstellt, dass die zweidimensionale Topologie von A mittels f auf M übertragen wird.
Etwas präziser ist die Spur der mit ∂M bezeichneten Kurve der Rand von M bezüglich der
in Definition 13.38 erklärten Relativtopologie von M .
Satz 35.18 (Satz von Stokes)
Es sei M ⊆ R3 ein orientierbares kompaktes Flächenstück mit positiv orientiertem Rand ∂M wie in Definition 35.17. Es sei F ein stetig differenzierbares Vektorfeld auf einer offenen Umgebung von M . Dann gilt
Z
Z
hF (p) , dpi =
hrot F (p) , dω(p)i.
∂M
M
Die Zirkulation von F längs ∂M ist gleich dem Fluss der Rotation von F durch M .
486
Beweis. [Köhler, § 41]
Den Satz von Stokes kann man auf die Greensche Formel zurückführen. Umgekehrt ist der
Satz von Green als Spezialfall im Satz von Stokes enthalten, wie z.B. in [Köhler, S. 595]
gezeigt wird.
Beispiel 35.19
Es sei M = {(x, y, z) ∈ R3 | x2 + y 2 + z 2 = 1, z ≥ 0} die obere Hälfte
der Einheitssphäre, und es sei
F (x, y, z) = (−y 2 , x, z 2 )T .
Wir wollen den Fluss Φ der Rotation des Feldes F durch die Fläche M berechnen.
Hierzu wählen wir für M die Parameterdarstellung f : A −→ M mit f (λ, θ) =
(cos θ cos λ, cos θ sin λ, sin θ), wobei A = [0, 2π] × [0, π2 ] ist. Eine Parametrisierung für den
positiv orientierten Rand ∂M ist t 7→ (cos t, sin t, 0), 0 ≤ t ≤ 2π. Wir wenden den Satz von
Stokes an und erhalten den Fluss
Z
Z
hF (p) , dpi =
(−y 2 dx + x dy + z 2 dz)
Φ =
∂M
∂M
2π
Z
3
=
2π
Z
2
cos2 t dt = π .
(sin t + cos t)dt =
0
0
Mit nur wenig größerem Aufwand kann man den Fluss auch direkt berechnen. Dazu benötigen
wir das vektorielle Oberflächenelement dω(p). Die Reihenfolge der Koordinaten λ, θ ist so
gewählt, dass der Normalenvektor

 

− sin λ
− sin θ cos λ
∂f
∂f
×
(λ, θ) = cos θ ·  cos λ  ×  − sin θ sin λ  = cos θ · f (λ, θ)
∂λ ∂θ
0
cos θ
überall ins Äußere von M zeigt - sofern er nicht 0 ist, was jedoch nur für θ =
einer für die Integration irrelevanten Nullmenge der Fall ist. Es ist also
π
,
2
also auf
dω(p) = cos θ · f (λ, θ) dλ dθ
für p = f (λ, θ), und wir benötigen die Rotation rot F (x, y, z) = (0, 0, 1 + 2y)T von F . Damit
folgt
Z
Φ =
hrot F (p) , dω(p)i
M
*
 

0
cos θ cos λ +
 ,  cos θ sin λ  dλ dθ
0
=
cos θ · 
A
1 + 2 cos θ sin λ
sin θ
Z π/2 Z 2π
=
cos θ · sin θ · (1 + 2 cos θ sin λ) dλ dθ
Z
0
0
Z
= 2π ·
π/2
Z
cos θ · sin θ dθ = π ·
0
= −
π/2
sin(2θ) dθ
0
π
θ=π/2
· cos(2θ)|θ=0 = π.
2
487
35.5
Der Integralsatz von Gauß
Definition 35.20
Es sei A ⊆ Rn kompakt. Wir sagen, A habe glatten Rand, falls es
zu jedem Randpunkt a ∈ ∂A eine offene Umgebung U ⊆ Rn und eine stetig differenzierbare
Funktion ψ : U −→ R gibt, so dass
A ∩ U = {x ∈ U | ψ(x) ≤ 0}
grad ψ(x) 6= 0 für alle x ∈ U.
und
Bemerkung 35.21
(1) Man kann leicht zeigen, dass in der Situation der voranstehenden Definition stets
∂A ∩ U = {x ∈ U | ψ(x) = 0}
gilt [Forster 3, § 15]. Der Rand eines Kompaktums A ⊆ Rn mit glattem Rand ist nach
dem Satz vom regulären Wert (Satz 28.5) also eine (n − 1)-dimensionale Untermannigfaltigkeit des Rn im Sinne von Definition 28.1. Dies erlaubt es, in dem am Ende
von Bemerkung 35.16 (2) nur angedeuteten Sinne über ∂A zu integrieren. (Dies ist
natürlich dann unproblematisch, wenn man eine globale“ Parametrisierung von ∂A
”
wie in Definition 35.14 zur Verfügung hat.)
(2) Man kann weiter zeigen, dass es zu jedem Kompaktum A ⊆ Rn mit glattem Rand ein
(stetiges!) äußeres Normaleneinheitsvektorfeld N : ∂A −→ Rn gibt (d.h. N (a) sei der
äußere Normaleneinheitsvektor der Fläche ∂A im Punkt a). Damit kann man den in
Definition 35.15 eingeführten Fluss eines Vektorfeldes durch ∂A bilden.
Satz 35.22 (Integralsatz von Gauß)
Es sei A ⊆ R3 ein Kompaktum mit glattem
Rand. Es sei F ein stetig differenzierbares Vektorfeld auf einer offenen Umgebung D von A.
Dann gilt
Z
Z
hF (q) , dω(q)i.
divF (q) dv3 (q) =
∂A
A
Beweis. [Forster 3, § 15] oder [Köhler, § 42]
Bemerkung 35.23
(1) Der Integralsatz von Gauß gilt auch noch, wenn der Rand von A nicht glatt ist, sondern
Kanten, Ecken o.ä. aufweist. Siehe hierzu z.B. [Köhler, § 42].
(2) Falls F = rot G die Rotation eines zweimal stetig differenzierbaren Feldes G ist, dann
gilt div F = 0 nach Lemma 35.6, und der Satz von Gauß liefert
Z
hF (q), dω(q)i = 0.
∂A
Das gleiche Ergebnis erhält man auch aus dem Satz von Stokes (Satz 35.18), denn
für die geschlossene Fläche M = ∂A kann man sich die Randkurve ∂M aus zwei
in gegenläufiger Richtung durchlaufenen Kurven mit gleicher Spur zusammengesetzt
denken, so dass Integrale längs dieser Kurve stets verschwinden.
Die in diesem Kapitel vorgestellten Integralsätze besitzen eine weitreichende Verallgemeinerung, den in der Terminologie von Differentialformen formulierten allgemeinen Satz von
Stokes. Hierzu verweisen wir auf [Forster 3, § 19-21] und [Köhler, § 43-44].
488
Literatur
[Apostol] Apostol, T. M.: Mathematical Analysis. A modern approach to advanced calculus,
Addison-Wesley, Massachusetts-London 1957
[Behrends] E. Behrends. Analysis 1. Vieweg Verlag, 2003. Analysis 2. Vieweg Verlag, 2004.
[Blatter] C. Blatter. Analysis I. Springer Verlag, 1974. Analysis II. Springer Verlag, 1974.
Analysis III. Springer Verlag, 1974.
[Cohen/Ehrlich] L. W. Cohen and G. Ehrlich. The Structure of the Real Number System. R.
E. Krieger Publ., 1977.
[Ebbinghaus et al.] H.-D. Ebbinghaus, H. Hermes, F. Hirzebruch, M. Koecher, K. Mainzer,
A. Prestel und R. Remmert. Zahlen. Springer Verlag, 1983.
[Euler] L. Euler. Introductio in Analysin Infinitorum. Lausanne, 1748. Deutsche Übersetzung: Einleitung in die Analysis des Unendlichen. Springer Verlag, 1983.
[Forster 3] Forster, O.: Analysis 3. Integralrechnung im Rn mit Anwendungen, 5. Aufl.,
Vieweg-Teubner, Wiebaden 2009
[Gantmacher] Gantmacher, F.: Matrizentheorie, Springer, Berlin 1986
[Gelbaum/Olmsted] B. R. Gelbaum und J. H. M. Olmsted. Theorems and Counterexamples
in Mathematics. Problem Books in Math., Springer Verlag, 1990.
[Grahl/Kümmel] J. Grahl und R. Kümmel: Das Loch im Fass - Energiesklaven, Arbeitsplätze
und die Milderung des Wachstumszwangs, Nachhaltiges Wachstum: Wissenschaft und
Umwelt Interdiziplinär 13 (2009), 195 – 212.
[Heuser 1] Heuser, H.: Lehrbuch der Analysis. Teil 1. Teubner, Stuttgart 1980, 4. Aufl. 1986,
15. Aufl. 2003.
[Heuser 2] Heuser, H.: Lehrbuch der Analysis. Teil 2. Teubner, Stuttgart 1981
[Heuser 3] Heuser, H.: Funktionalanalysis. Teubner, Stuttgart 1992
[Huppert] Huppert, B.: Angewandte Lineare Algebra. de Gruyter, Berlin 1990
[Kirsch] Kirsch, A.: Das Paradoxon von Hausdorff, Banach und Tarski: Kann man es ver”
stehen“?, Math. Semesterber. 37 (1990), 216 – 239.
[Köhler] Köhler, G.: Analysis. Heldermann, Lemgo 2006
[Königsberger 1] Königsberger, K.: Analysis 1, Springer, Berlin 1992
[Königsberger 2] Königsberger, K.: Analysis 2, Springer, Berlin 1993
[Remmert] Remmert, R.: Funktionentheorie 1. Springer Verlag, 4. Aufl., 1995.
[Solovay] Solovay, R.: A model of set-theory in which every set of reals is Lebesgue measurable, Ann. Math. 92 (1970), 1-56
[Wagon] Wagon, S.: The Banach-Tarski Paradox. Cambridge Univ. Press, 1985.
489
Index
∞-Norm, 460
π, 286
n-Ableitung, 229
n-mal stetig differenzierbar, 230
p-Norm, 456
Äquivalenz
von Wegen, 328
Äquivalenzklasse, 328
Äquivalenzrelation, 328
Überdeckung
offene, 202
überabzählbar, 38
überdeckungskompakt, 202
Abbildung
affine, 334
lineare, 333
offene, 381
Abel, N. H., 18, 162
abelsche Gruppe, 18
Abelscher Stetigkeitssatz, 163, 307
Abelsches Konvergenzkriterium, 105
abgeschlossen
Intervall, 25
Kugel, 55
Menge, 55, 110
abgeschlossene Hülle, 197
Ableitung, 216, 345
n-te, 229
höhere partielle, r-te, 360
in einem Punkt, 215
linksseitige, 219
partielle, 342
rechtsseitige, 219
zweite, 229
absolut konvergent, 90
Absolutbetrag, 26, 46
Abstand, 53
euklidischer, 26, 48, 50
abzählbar, 38
abzählbar unendlich, 38
Addition, 19, 20
Additionstheorem
der Exponentialfunktion, 103
der Hyperbelfunktionen, 173
der trigonometrischen Funktionen, 173
alternierende Reihe, 88
alternierende harmonische Reihe, 89, 306
alternierende Multilinearform, 337
Anordnungsaxiome, 23
Antisymmetrie, 24
Archimedes, 215, 272, 470, 471
Axiom des, 36
Arcuscosinus, 241
Arcussinus, 241
Arcustangens, 242, 306
Areacosinus hyperbolicus, 228
Areasinus hyperbolicus, 228
Argand, J. R., 187
Argument, 183
Hauptwert, 183
arithmetisches Mittel, 13
Atlas, 396, 408
ausgearteter Quader, 412
Auswahlaxiom, 449
Auswahlfolge, 74
Axiom des Archimedes, 36
Banach, S., 211
Banach-Tarski-Paradoxon, 449
Banachraum, 211, 456
Banachscher Fixpunktsatz, 211, 376
Basis, 169, 332
des Logarithmus, 170
bedingt konvergent, 91
bedingt lokal extremal, 391
Berkeley, G., 215
Bernoulli
Jakob, 9
Johann, 251
Bernoullische Ungleichung, 9
beschränkt, 29
Folge, 64
Variation, 326
beschränkte Konvergenz, Satz, 436, 437
bestimmt divergent, 132
bestimmtes Integral, 270, 284
Betrag, 26, 46
bijektiv, 190
Bild, 190
einer linearen Abbildung, 333
Binomialkoeffizienten, 10
490
Binomischer Lehrsatz, 11
Bolzano, B., 73, 115, 137, 139, 219
Borel, E., 205
Breite
geografische, 382
Cantor, G., 28, 37, 40, 41
Cantorsches Diskontinuum, 418
Carabinieri-Lemma, 66
Cauchy’scher Hauptwert, 309
Cauchy’sches Konvergenzkriterium, 79, 86,
149
Cauchy, A., 51, 78, 115, 146
Cauchy-Folge, 78
Cauchy-Produkt, 102
Cauchy-Schwarzsche Ungleichung, 51, 340,
461
Cavalieri, B., 469
Cavalierisches Prinzip, 469
charakteristische Funktion, 419
charakteristisches Polynom, 338
Codierungstheorie, 54
Cohen, P. J., 42, 449
Cosinus, 172, 179
Cosinus hyperbolicus, 172
Cotangens, 226, 243
Cramersche Regel, 377
Darboux, G., 249, 268
Darbouxsches Oberintegral, 268
Darbouxsches Unterintegral, 268
Darstellungsmatrix, 335
de l’Hospital, 251
Dedekind, R., 28, 139
dehnungsbeschränkt, 210
Dehnungsschranke, 210
Descartes, R., 28
Descartessches Blatt, 483
Determinante, 337
Gramsche, 482
Diagonalisierbarkeit, 337
Diagonalmatrix, 336
Diagonalverfahren
Cantorsches, 40
dicht, 41, 201
Diffeomorphismus, 396
Differential, 345
Differential- und Integralrechnung
Hauptsatz, 283
Differentialquotient, 216
Differenz, 21
differenzierbar, 216, 221, 345, 349
n-mal, 229
n-mal stetig, 230
Grenzfunktion, 293
in einer Richtung, 343
in einem Punkt, 215
in einem Randpunkt, 221
partiell, 342
stetig, 230, 351, 360
unendlich oft, 229, 360
zweimal, 229
Differenzieren unter dem Integral, 466
Dimension, 333
einer Mannigfaltigkeit, 396
Dirichlet, P. G. L., 126, 273, 432
Dirichlet-Funktion, 126
diskrete Menge, 109
Distanz, 26, 53
euklidische, 48, 50
Distributivgesetz, 20
divergent
bestimmt, 132
Folge, 61, 63
Reihe, 81
Divergenz
eines Vektorfeldes, 480
Division, 21
Divisionsalgorithmus für Polynome, 188
dominierte Konvergenz, Satz, 436, 437
Drehstreckung, 184
Dreiecksungleichung, 48, 53
eigentlicher Grenzwert, 132
Eigenvektor, 337
Eigenwert, 337
eineindeutig, 190
Einheitsball, 112
Einheitskugel, 112
Einheitsmatrix, 336
Einheitssphäre, 112
Einheitswurzel, 185
Eins, 20
elementare Funktion, 260
Ellipse, 316
Umfang, 324
Ellipsoid, 394
elliptisches Integral, 324
491
endliche Menge, 38
Endomorphismus, 336
Endpunkt, 25
Entwicklungspunkt, 152
Eudoxos, 28, 37
Euklid, 28
euklidische Metrik, 53
Euler, L., 43, 85, 126, 312
Eulersche Zahl, 84
Exponent, 169
Exponentialfunktion, 103, 166, 179, 229
Exponentialreihe, 85, 93
Extremum
lokales, 233, 300, 366, 368
Faktor, 19
Fakultäten, 10
fallend, 140
Familie, 192
fast überall, 418
Fatou, P., 438
Fehlerfunktion, 286
Fehlerintegral, 286, 476
Feinheit einer Zerlegung, 266
Fermat, P. de, 28, 36
Fibonacci-Zahlen, 58
Fischer, E., 461
Fixpunkt, 140
Fixpunktsatz, 140
Banachscher, 211, 376
Fläche
m-dimensionale, 474
Parameterdarstellung, 484
Flächeninhalt
orientierter, 265
Flächennormale, 406
Fluss eines Vektorfeldes, 485
Folge, 57
Cauchy-, 78
konvergente, 61
monotone, 71
Folge von Funktionen, 145
Folgenglieder, 57
folgenkompakt, 112
Folgenkriterium, 119
Folgenstetigkeit, 119
Fubini, G., 410, 465
Fubinische Formel, 467
Fundamentalsatz der Algebra, 187
Funktion, 126
rationale, 122
Funktional, lineares, 268
Funktionalmatrix, 348
Funktionenfolge, 145
Gödel, K., 41, 449
ganze Zahlen, 34
Gauß, C. F., 9, 47, 167, 187
Gaußsche Zahlenebene, 47
Gaußsches Wahrscheinlichkeitsintegral, 286,
476
geografische Breite und Länge, 382
geometrische Reihe, 82
geometrisches Mittel, 13
gerade Funktion, 173
geschlossener Weg, 316
glatt, 319
glatter Rand, 488
gleich mächtig, 38
gleichmäßig konvergent, 147
gleichmäßig stetig, 208, 280, 322
Glieder, Reihe, 81
gliedweise Integration, 290
Grad eines Polynoms, 122
Gradient, 354
Gramsche Determinante, 482
Graph, 316
Green, G., 482
Grenzfunktion, 145
Differenzierbarkeit, 293
Stetigkeit, 148
Grenzwert
eigentlicher, 132
einer Folge, 61, 63
einer Funktion, 128
linksseitiger, 133
rechtsseitiger, 133
uneigentlicher, 132
Gruppe, 18
abelsche, 18
symmetrische, 20
Gruppenaxiome, 18
Häufungspunkt
einer Menge, 108
Häufungswert
einer Folge, 73
Höldersche Ungleichung, 458
492
Hülle
abgeschlossene, 197
Hadamard, J., 160
Hadamardsche Formel, 160
Halbachsen eines Ellipsoids, 394
halboffenes Intervall, 25
Halbraum, 112
Halbtangente, 220
Hamming, R. W., 54
Hamming-Distanz, 54
harmonische Reihe, 84
Hauptsatz der Differential- und
Integralrechnung, 283
Hauptwert
des Arguments, 183
eines uneigentlichen Integrals, 309
Heine, E., 205
Heine-Borelsche Überdeckungseigenschaft,
202
Hesse, L. O., 364
Hesse-Matrix, 364
Hilbert, D., 40
Hilbertraum, 461
Hilberts Hotel, 40
Homöomorphismus, 207, 408
Homogenität, 333
Hyperbelfunktionen, 173
Hyperfläche, 396
kompakte, 484
Imaginärteil, 46
Immersionssatz, 400, 474
implizite Funktion, 384
indefinit, 367
Indexmenge, 192
Induktionsprinzip, 8, 35
induktiv, 34
induktive Menge, 34
Infimum, 29
injektiv, 190
innerer Punkt, 197
Integral
über eine Menge, 431
Ableitung nach einem Parameter, 466
bestimmtes, 270, 284
einer Treppenfunktion, 266
elliptisches, 324
Lebesgue-, 428, 429
Oberflächen-, 485
unbestimmtes, 255, 284
uneigentliches, 308
Integration
gliedweise, 290
partielle, 257, 285
Integrationskonstante, 256
integrierbar
auf einer Menge, 431
Lebesgue-, 428, 429
Riemann-, 270, 440
Intervall, 25
abgeschlossenes, 25
ausgeartetes, 412
echtes, 25
halboffenes, 25
kompakt, 25
offenes, 25
Intervallschachtelung, 31
Intervallschachtelungsprinzip, 32, 67
Intervallzerlegung, 265
inverse Funktion, 191
isolierter Punkt, 109
Jacobi, C. G., 348
Jacobi-Matrix, 348
Jet, 295, 301
Jordan, C., 326
Jordan-Kurve, 482
orientierte, 482
Jordanscher Kurvensatz, 482
Körper, 20
(an)geordneter, 23
Körperaxiome, 20
Kürzungsregel, 23
Karte, 396, 408
Kartenabbildung, 396
Kartenwechsel, 396, 408
kartesische Koordinaten, 47
Katenoide, 172
Kegel, 470
Kern, 333
Kettenlinie, 172
Kettenregel, 223, 258, 353
Klasse C r
Funktion, 360
Mannigfaltigkeit, 408
Untermannigfaltigkeit, 396
Koeffizienten, 122, 152
493
Koeffizientenvergleich, 305
kommensurabel, 28
kommutativ
-es Diagramm, 388
kompakt, 112
Intervall, 25
kompaktes Hyperflächenstück, 484
komplexe Zahlen, 44
Komposition, 121
konjugiert komplex, 46
konkav, 245
streng, 245
Kontinuum, 41
Kontinuumshypothese, 41
kontrahierend, 210
Kontraktionslemma), 211
konvergent, 61
absolut, 90
bedingt, 91
Folge, 63
gleichmäßig, 147
punktweise, 145
Reihe, 81
uneigentliches Integral, 308
Konvergenzkreis, 154
Konvergenzkriterium
Abelsches, 105
Cauchy’sches, 79, 86, 149
Leibnizsches, 88, 106
Konvergenzradius, 154
konvex, 245
streng, 245
Konvexkombination, 245
Koordinaten
kartesische, 47
Polar-, 47, 183
Kreisfunktionen, 173
Kreiskegel, 470
Kreisteilungsgleichung, 185
Kreiszahl, 286
Kreuzprodukt, 481
Kriterium von Lebesgue, 278, 441
kritischer Punkt, 234, 366
Kugel
abgeschlossene, 55
offene, 55
Kugelkoordinaten, 382, 476
Kugelvolumen, 471, 477
Kurve, 330
Länge, 330
orientierte, 479
Parameterdarstellung, 316, 330
rektifizierbare, 330
Kurve, Spur, 330
Kurvenintegral eines Vektorfeldes, 480
l’Hospitalsche Regel, 251
Länge
einer Kurve, 330
eines Weges, 321, 322
geografische, 382
Lagrange
Restglied, 298
Lagrange, J. L., 298
Lagrange, Multiplikatorenregel, 392
Lagrangesche Multiplikatoren, 392
Landau-Symbole, 299
Lebesgue
Kriterium von, 278, 441
Lebesgue, H., 271, 410, 429
Lebesgue-Integral, 428
Lebesgue-integrierbar, 428, 429
Leibniz, G. W., 88, 215, 216, 271
Leibnizsche Regel, 466
Leibnizsche Reihe, 89, 307
Leibnizsches Kriterium, 88, 106
Lemma von Fatou, 439, 463
Leonardo von Pisa, 58
Levi, B., 410
Levi, Satz von, 433
Levi-Folge, 435
Limes, 63
einer Folge, 61
Limes inferior, 156
Limes superior, 156
linear abhängig, 332
linear unabhängig, 332
lineare Abbildung, 333
lineare Gleichung, 22
lineare Hülle, 405
Linearform, 268, 333
Linearkombination, 332
Linienelement, 480
Linienintegral, 480
linksseitige Ableitung, 219
linksseitiger Grenzwert, 133
Lipschitz, R., 210
494
Lipschitz-Konstante, 210
Lipschitz-stetig, 210
Logarithmentafel, 167
Logarithmus, 166, 170, 227, 306
Logarithmus zur Basis a, 170
lokal invertierbar, 376
lokal umkehrbar, 376
lokales Extremum, 233, 300, 366, 368
mit Nebenbedingung, 391
lokales Maximum, 233
bedingtes, 391
lokales Minimum, 233
bedingtes, 391
Mächtigkeit, 38
Möbiusband, 484
Majorante, 91
Majorantenkriterium, 91
Weierstraßsches, 150
Mannigfaltigkeit, 408
Matrix, 334
diagonalisierbare, 337
inverse, 337
invertierbare, 337
quadratische, 336
reguläre, 337
symmetrische, 336
transponierte, 334
Matrixprodukt, 334
Maximum
absolutes, 134
bedingtes lokales, 391
einer Funktion, 134
einer Menge, 29
lokales, 233
Satz vom, 134
Maximumprinzip, 382
Maximumsnorm, 339
Menge
abgeschlossen, 110
diskrete, 109
endliche, 38
isolierte, 109
unendliche, 38
messbar
Funktion, 451
Menge, 445
Metrik, 53
des französischen Eisenbahnsystems, 53
diskrete, 54
euklidische, 53
metrischer Raum, 53
vollständiger, 80, 211, 376
Minimum
absolutes, 134
bedingtes lokales, 391
einer Funktion, 134
einer Menge, 29
lokales, 233
Minimumprinzip, 188, 382
Minkowskische Ungleichung, 459
Minorante, 91
Minorantenkriterium, 91
Mittel
arithmetisches, 13
geometrisches, 13
Mittelwertsatz
der Differentialrechnung, 236
der Differentialrechnung
(verallgemeinerter), 239
der Integralrechnung, 282
Mittelwertsatz, verallgemeinerter, 356
Monom, 123
monoton
Funktion, 140, 239
lineares Funktional, 268
monoton fallend
Folge, 71
monoton steigend
Folge, 71
Multiplikation, 20
Multiplikatoren, Lagrangesche, 392
Multiplikatorenregel von Lagrange, 392
natürliche Zahlen, 34
natürlicher Logarithmus, 166
Nebenbedingung
lokales Extremum mit, 391
negativ definit, 367
negativ semidefinit, 367
negatives Element, 19
Neilsche Parabel, 319
Newton, I., 88, 215, 216
Niveauhyperfläche, 400
Niveaulinie, 400
Niveaumenge, 357, 399
Norm, 339, 456
euklidische, 50
495
Norm einer Funktion, 460
Norm einer linearen Abbildung, 395
Normale
an eine Hyperfläche, 406
normierter Vektorraum, 339, 456
Null, 19, 20
Nullfolge, 67
Nullfunktion, 457
Nullmenge, 274, 417, 474
Nullpolynom, 122
Nullstellensatz für Polynome, 187
Nullstellensatz von Bolzano, 137
Oberflächenintegral, 485
Oberintegral
Darbouxsches (Riemannsches), 268
Riemannsches, 440
Obersumme
Riemannsche, 268
offen
Intervall, 25
Kugel, 55
Menge, 213
offen, Menge, 55
offene Überdeckung, 202
offene Abbildung, 381
Offenheitsprinzip, 381
Operatornorm, 341
Ordinatenmenge, 265
ordnungsvollständig, 31
orientierbar, 484
orientierte Jordan-Kurve, 482
orientierte Kurve, 479
orientierter Flächeninhalt, 265
orientierungstreu, 329
orientierungsumkehrend, 329
Oszillationsstelle, 250
Parabel
Neilsche, 319
Paradoxon
von Banach, Hausdorff und Tarski, 449
Zenonsches, 83
Parameterdarstellung
einer Fläche, 484
einer Kurve, 316
Parameterdarstellung einer Kurve, 330
Parametertransformation, 328
parkettierbar, 414
Parkettierung, 414
Partialbruchzerlegung, 261
Partialsumme, 81, 145
partiell differenzierbar, 342
partielle Ableitung, 342
r-te, 360
Reihenfolge, 362
partielle Funktion, 342
partielle Integration, 257, 285
partielle Summation, 105
Pascal, B., 10
Pascalsches Dreieck, 10
Peano, G., 317
Peano-Weg, 317
Periode, 178
periodisch, 178
Permutation, 20
Permutationsgruppe, 20
Poincaré-Vermutung, 409
Polarkoordinaten, 47, 183, 475
Polynom, 122
charakteristisches, 338
Nullstelle, 139, 187
Wachstum, 186
Polynomdivision, 188
Polynomfunktion, 122
positiv orientierter Rand, 486
positiv definit, 367
positiv semidefinit, 367
Potenz, 168, 169
Potenzen, 21
Potenzreihe, 152, 153, 304
Prinzip
von Cavalieri, 469
Produkt, 19
Cauchy-, 102
von Matrizen, 334
Produktregel, 222, 256, 352
Proportionenlehre, 28
Punkt
innerer, 197
kritischer, 234
punktierte Umgebung, 108
punktweise konvergent, 145
Pythagoras, 28
trigonometrischer, 173
Quader, 112, 412
Quader, ausgeartet, 412
496
Quadergebäude, 414
quasikontrahierend, 210
Quellstärke, 480
Quotient
Polynomdivision, 189
Quotientenkriterium, 92, 162
Quotientenregel, 222
Rand
eines Flächenstücks, 486
glatter, 488
Randpunkt (eines Inervalls), 25
Rang
einer Matrix, 336
voller, 336
rationale Funktion, 122
rationale Zahlen, 22
Raum
metrischer, 53
topologischer, 213
Realteil, 46
Rechenschieber, 167
rechtsseitige Ableitung, 219
rechtsseitiger Grenzwert, 133
reell-analytisch, 303
regulär, 319
regulärer Wert, 400
Reihe, 81
alternierende, 88
alternierende harmonische, 89
geometrische, 82
harmonische, 84
Leibnizsche, 89, 307
Umordnung, 97
von Funktionen, 145
rektifizierbar, 330
rektifizierbarer Weg, 321
Relation
reflexive, 328
symmetrische, 328
transitive, 328
Relativtopologie, 214
Rest
Polynomdivision, 189
Restglied, 295
Restglied von Lagrange, 298
Richtung, 343
Richtungsableitung, 343, 355
zweite, 366
Riemann, B., 98, 268, 312
Riemann, Umordnungssatz, 98
Riemann-integrierbar, 270, 440
Riemannsche Obersumme, 268
Riemannsche Untersumme, 268
Riemannsche Zetafunktion, 312
Riemannsches Oberintegral, 268, 440
Riemannsches Unterintegral, 268, 440
Riesz, F., 461
Robinson, A., 88
Rolle, M., 236
Rotationskörper, 471
Routh-Hirwitz-Kriterium, 368
Sandwich-Theorem, 66
Sattelpunkt, 369
Satz
binomischer, 11
vom Maximum, 134
von Abel, 163, 307
von Bernoulli und de l’Hospital, 251
von Bolzano - Weierstraß, 76, 77
Satz über beschränkte Konvergenz, 436, 437
Satz über implizite Funktionen, 385, 397
Satz über lokale Umkehrbarkeit, 377
Satz über monotone Konvergenz, 433
Satz vom regulären Wert, 399
Satz von Green, 482
Satz von Darboux, 249
Satz von Eudoxos, 37
Satz von Fubini, 468
Satz von Gauß, 488
Satz von Lebesgue, 436, 437
Satz von Levi, 433
Satz von Riesz und Fischer, 462
Satz von Rolle, 236
Satz von Stokes, 486
Satz von Tonelli, 468
Satz, Polynome mit parameterabhängigen
Koeffizienten, 390
Schranke
größte untere, 29
kleinste obere, 29
obere, 29
Schraubenlinie, 316
Schubfachprinzip, 38
Schwarz, H. A., 51
Schwarzsche Ungleichung, 278
Sinus, 172, 179
497
Sinus hyperbolicus, 172
Skalarprodukt, 461
euklidisches, 49
von Funktionen, 461
Spaltenrang, 336
Sprungstelle, 124
Spur einer Kurve, 330
Spur eines Weges, 316
Stammfunktion, 255
Standardbasis, 333
stationäre Stelle, 234, 366
steigend, 140
stetig, 115, 117, 213, 381
Folgenkriterium, 119
gleichmäßig, 208, 280
Grenzfunktion, 148
stetig differenzierbar, 230, 351
stetig ergänzbar, 131
stetig, gleichmäßig, 322
Stolz, O., 164
streng konkav, 245
streng konvex, 245, 247, 248
streng monoton, 140
Folge, 71
Funktion, 140, 141, 239
striktes lokales Extremum
mit Nebenbedingung, 391
Substitutionsregel, 258, 285
Subtraktion, 21
Summation
partielle, 105
Summe, 19
Supremum, 29
wesentliches, 460
Supremumsnorm, 148
surjektiv, 190
Sym, 20
symmetrische Gruppe, 20
Tangens, 226, 242
Tangente, 217
Tangenten-Einheitsvektor, 318
Tangentialebene, 403
Tangentialhyperebene, 346
Tangentialraum, 403, 404
Tangentialvektor, 318, 403
Taylor, B., 295
Taylorpolynom, 295
Taylorreihe, 301
Taylorsche Formel, 299
mit Restglied, 297, 298
Teilüberdeckung
endliche, 202
Teilfolge, 74
Teilkörper, 22
Teilraum eines metrischen Raumes, 118
Teilraum eines Vektorraums, 331
Teilraumtopologie, 214
Teleskopsumme, 15
Tonelli, L., 468
Topologie, 213
topologischer Raum, 213
total differenzierbar, 345
totale Variation, 326
totales Differential, 345
Träger einer Funktion, 440
Trägheitsmoment, 477
Transformationsformel für Integrale, 473,
474
transitiv, 24
Translationsinvarianz, 24
Transponierte, 334
Treppenfunktion, 266, 419
Integral, 266
Trichotomie, 23, 24
trigonometrischer Pythagoras, 173
Umgebung, 108
punktierte, 108
umgeordnete Reihe, 97
Umkehrabbildung, 191
Umkehrfunktion, 141, 191, 226
Umordnung, 97
Umordnungssatz, Riemannscher, 98
unbestimmtes Integral, 255, 284
uneigentlich
-er Grenzwert, 132
-es Integral, 308
unendlich
überabzählbar, 38
abzählbar, 38
Menge, 38
Symbol, 30
unendliche Reihe, 81, 145
ungerade Funktion, 173
Ungleichung
Bernoullische, 9
Cauchy-Schwarzsche, 51, 278, 340, 461
498
Höldersche, 458
Minkowskische, 459
zwischen arithmetischem und
geometrischem Mittel, 13, 457
Untergruppe, 18
Unterintegral
Darbouxsches (Riemannsches), 268
Riemannsches, 440
Untermannigfaltigkeit
in Rn , 396
Tangentialebene, 403
Tangentialraum, 403, 404
Unterraum eines Vektorraums, 331
Untersumme
Riemannsche, 268
Urbild, 190
Variation
beschränkte, 326
totale, 326
Vektorfeld, 478
vektorielles Linienelement, 480
vektorielles Oberflächenelement, 485
Vektorprodukt, 481
Vektorraum, 331
Verfeinerung
einer Parkettierung, 414
einer Zerlegung, 266
Verkettung, 121
Vertauschung von Grenzübergängen, 289,
293, 433, 436
vollständig, 31, 80, 211, 376
vollständige Induktion, 8, 35
vollständiger metrischer Raum, 80, 211, 376
Vollständigkeitsaxiom, 31, 33
Volterra, V., 411, 443
Volumen
einer parkettierbaren Menge, 423
einer messbaren Menge, 445
eines Quaders, 412
Volumenmaß, 445
Vorzeichen, 26
glatter, 319
Länge, 321, 322
regulärer, 319
rektifizierbarer, 321
Spur, 316
stetig differenzierbarer, 319
Weierstraß, K., 73, 88, 115, 215, 219
Majorantenkriterium für gleichmäßige
Konvergenz, 150
Wendepunkt, 248, 300
Wert
einer Reihe, 81
regulärer, 400
wesentliches Supremum, 460
Wirbeldichte, 481
Wurzel, 33, 72, 143
Wurzelkriterium, 92, 162
Zahlen
ganze, 34
komplexe, 44
natürliche, 34
rationale, 22
Zeilenrang, 336
Zerlegung
eines Intervalls, 265
Feinheit, 266
Teilpunkte, 266
Verfeinerung, 266
Zermelo, E., 449
Zetafunktion, Riemannsche, 312
Zinseszins, 229
zusammenhängend, 409
Zusammensetzung, 121
zweite Ableitung, 229
Zwischenwertsatz, 139, 282
für Ableitungen, 249
Zylinderkoordinaten, 477
Weg, 316
äquivalenter, 328
Anfangspunkt, 316
differenzierbarer, 318, 319
Endpunkt, 316
geschlossener, 316
499
Herunterladen