Analysis für Lehramt

Univ.Prof.Dr.
Aicke Hinrichs
TNF
Institut für Analysis
Version vom
20. Juni 2017
Analysis für Lehramt
Vorlesungsnotizen – 2016/2017
JOHANNES KEPLER
UNIVERSITÄT LINZ
Altenbergerstraße 69
4040 Linz, Österreich
www.jku.at
DVR 0093696
i
Inhaltsverzeichnis
1 Mengen, Logik, Funktionen – Die Sprache der Mathematik
1
1.1
Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Relationen und Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2 Zahlen
14
2.1
Die Axiomatik der reellen Zahlen - Algebra . . . . . . . . . . . . . . . . . . . .
14
2.2
Die Axiomatik der reellen Zahlen - Ordnung . . . . . . . . . . . . . . . . . . .
17
2.3
Die natürlichen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
2.4
Die Axiomatik der reellen Zahlen - Vollständigkeit . . . . . . . . . . . . . . . .
25
2.5
Die komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.6
Endlichkeit, Abzählbarkeit und Überabzählbarkeit . . . . . . . . . . . . . . . .
34
3 Folgen
36
3.1
Der Folgenbegriff und Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . .
36
3.2
Monotone Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.3
Teilfolgen, Satz von Bolzano-Weierstraß . . . . . . . . . . . . . . . . . . . . . .
45
3.4
Cauchyfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4 Reihen
49
4.1
Der Reihenbegriff, Konvergenz und Eigenschaften . . . . . . . . . . . . . . . . .
49
4.2
Absolute Konvergenz und Konvergenzkriterien . . . . . . . . . . . . . . . . . .
53
4.3
Alternierende Reihen und Leibniz-Kriterium . . . . . . . . . . . . . . . . . . .
56
5 Stetige Funktionen
57
5.1
Reelle Funktionen, algebraische Operationen, Ordnung . . . . . . . . . . . . . .
57
5.2
Stetigkeit - Definition, Charakterisierung, grundlegende Sätze . . . . . . . . . .
57
5.3
Grenzwerte von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
5.4
Zwischenwertsatz und Satz vom Maximum und Minimum . . . . . . . . . . . .
68
5.5
Elementare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
5.5.1
Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
5.5.2
Potenzfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
5.5.3
Logarithmusfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
5.5.4
Trigonometrische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . .
74
5.5.5
Umkehrfunktionen der trigonometrischen Funktionen . . . . . . . . . . . . .
76
5.5.6
Hyperbelfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
6 Differentialrechnung
78
ii
6.1
Der Ableitungsbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
6.2
Differentiationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
6.3
Lokale Extrema und Mittelwertsatz . . . . . . . . . . . . . . . . . . . . . . . .
82
6.4
Höhere Ableitungen, Taylorsche Formel und Taylorreihen . . . . . . . . . . . .
84
6.5
Monotonie und Konvexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
6.6
Extrema und Wendepunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
6.7
Die Regel von l’Hospital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
7 Integralrechnung
90
7.1
Stammfunktionen und unbestimmte Integrale . . . . . . . . . . . . . . . . . . .
90
7.2
Das Riemann-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
7.3
Der Hauptsatz der Differential- und Integralrechnung . . . . . . . . . . . . . .
99
7.4
Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.5
Anwendungen der Integralrechnung . . . . . . . . . . . . . . . . . . . . . . . . 105
8 Potenzreihen
106
8.1
Konvergenz von Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.2
Rechnen mit Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.3
Der Abelsche Grenzwertsatz
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
9 Differentialrechnung multivariater Funktionen
114
9.1
Darstellung von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
9.2
Grenzwerte und Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.3
Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9.4
Kettenregeln für partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . 121
9.5
Richtungsableitungen, Gradient, Tangentialebene . . . . . . . . . . . . . . . . . 122
9.6
Mittelwertsatz und Satz von Taylor . . . . . . . . . . . . . . . . . . . . . . . . 127
9.7
Bestimmung lokaler Extremwerte . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.8
Lokale Extrema mit Nebenbedingungen - der Lagrange-Formalismus . . . . . . 135
10 Integralrechnung multivariater Funktionen
10.1
137
Wege, Kurven, Kurvenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.1.1
Wege und Kurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
10.1.2
Kurvenintegrale 1. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.1.3
Kurvenintegrale 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.2
Das mehrdimensionale Riemann-Integral . . . . . . . . . . . . . . . . . . . . . . 149
10.2.1
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
10.2.2
Berechnung zweidimensionaler Riemann-Integrale - Satz von Fubini . . . . . 153
10.2.3
Substitutionsregel und Koordinatenwechsel . . . . . . . . . . . . . . . . . . . 156
1
1
Mengen, Logik, Funktionen – Die Sprache der Mathematik
In diesem Abschnitt wollen wir uns mit der Sprache der Mathematik vertraut machen. Einiges
davon werden Sie auch in anderen Grundvorlesungen ähnlich hören. Da dies aber die Grundlage
für alle Mathematikvorlesungen sein wird, schadet ein wenig Wiederholung nicht.
Zunächst werden wir uns mit den grundlegenden Objekten der Mathematik beschäftigen - mit
Mengen und ihren Elementen. Anschließend schauen wir uns ein wenig Logik an - wie schließt
man logisch korrekt, um mathematische Tatsachen nachzuweisen. Schließlich geht es um den
allgemeinen Funktionsbegriff, der ebenfalls für die ganze Mathematik wichtig ist und funktionale
Zusammenhänge zwischen verschiedenen Größen erfasst.
1.1
Mengen
Naiver Mengenbegriff nach Georg Cantor (1845 – 1918, Begründer der Mengenlehre)
Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens, welche die Elemente von M genannt werden, zu einem Ganzen.
Wir benutzen also eine (letztlich undefinierte, aber intuitive) Beziehung zwischen zwei mathematischen Objekten x und M :
x ist Element der Menge M, kurz x ∈ M.
Ist x kein Element der Menge M , schreiben wir x ∈
/ M.
x∈M
M
x∈
/M
M
x
x
Mengen von Zahlen - Bezeichnungen:
• N = {1, 2, 3, . . . } ist die Menge der natürlichen Zahlen
• N0 = {0, 1, 2, 3, . . . } ist die Menge der natürlichen Zahlen inklusive 0
• Z = {0, 1, −1, 2, −2, 3, −3 . . . } ist die Menge der ganzen Zahlen
• Q ist die Menge der rationalen Zahlen
• R ist die Menge der reellen Zahlen
Definition von Mengen durch ...
... Aufzählung aller Elemente:
2
• M := {0, 17, 42}
• N := {Informatik, Mathematik, Mechatronik, Medizin}
... Pünktchen:
• G := {2, 4, 6, . . . }
... Eigenschaft:
• P := {n ∈ N : n ist Primzahl}
• G := {n ∈ N : n ist gerade}
• S := {u ∈ N : u ist Studienfach an der JKU}
Eine besondere Menge ist die leere Menge ∅, die kein Element enthält. Diese Menge ist eindeutig
bestimmt.
Zwischen Mengen können Beziehungen bestehen. Eine Menge M heißt Teilmenge einer Menge N ,
wenn jedes Element von M auch Element von N ist. Man schreibt dafür M ⊆ N . Zum Beispiel
gilt
N ⊆ N0 ⊆ Z ⊆ Q ⊆ R
und in den obigen Beispielen haben wir N ⊆ S. Für jede Menge M ist auch M ⊆ M und
∅ ⊆ M ! Eine Teilmenge N von M heißt echte Teilmenge, falls N 6= M ist. Man schreibt dann
auch N ⊂ M oder N ( M .
Zwei Mengen M und N heißen gleich oder identisch wenn sie dieselben Elemente enthalten, wenn
also M ⊆ N und N ⊆ M gilt. Zum Beispiel ist
{0, 17, 42} = {42, 0, 17} = {0, 17, 0, 42, 17}.
Die Potenzmenge P(M ) einer Menge M ist die Menge aller Teilmengen von M . Ihre Elemente
sind also selbst Mengen. Zum Beispiel ist
P({0, 17, 42}) = ∅, {0}, {17}, {42}, {0, 17}, {0, 42}, {17, 42}, {0, 17, 42} .
Aus Mengen M, N kann man durch Mengenoperationen neue Mengen bilden. Insbesondere sind
das ...
... die Vereinigung M ∪ N , die alle Elemente aus M und alle Elemente aus N enthält.
... der Durchschnitt M ∩N , der alle Elemente enthält, die sowohl zu M als auch zu N gehören.
M ∪N
M
N
M ∩N
M
N
3
... die Differenzmenge M \ N , die alle Elemente aus M enthält, die nicht Elemente von N
sind.
Oft hat man auch eine Grundmenge G, von der alle betrachteten Mengen Teilmengen sind. Ist
diese Grundmenge fixiert und M eine solche Teilmenge, schreibt man auch M für G \ M und
nennt M die Komplementärmenge oder das Komplement von M . Hier muss die Grundmenge
aber immer klar sein!
M \N
M
M
N
M
Solche Mengendiagramme nennt man übrigens Venn-Diagramme nach John Venn (1834–1923).
Die zweielementigen Mengen {x, y} und {y, x} sind nach dem oben gesagten identisch. Oft will
man aber die Reihenfolge der Elemente unterscheiden. Deshalb bildet man das geordnete Paar
(x, y) mit der Vereinbarung, dass (x1 , y1 ) = (x2 , y2 ) dann und nur dann gilt, wenn x1 = x2 und
y1 = y2 . Dann sind also (x, y) und (y, x) verschiedene geordnete Paare, falls x 6= y ist.
Sind nun M und N zwei Mengen, so ist die Produktmenge oder das kartesische Produkt M × N
die Menge aller geordneten Paare (x, y) mit x ∈ M und y ∈ N .
Beispiel 1.1. Ist M = {1, 2} und N = {1, 2, 3}, dann ist
M × N = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3)}.
Die Menge R2 := R × R ist die Menge aller geordneten Paare (x, y) von reellen Zahlen x und y.
1.2
Logik
Mathematik besteht im wesentlichen aus dem Beweisen von Aussagen aus anderen Aussagen,
die man schon als richtig erkannt hat. Grundlage dafür ist ein System von Axiomen. Das sind
Grundaussagen, die man nicht weiter hinterfragt und als gültig voraussetzt. Im nächsten Kapitel
werden wir ein Axiomensystem für reelle Zahlen finden, aus dem dann alle Aussagen der Analysis
durch logisches Folgern abgeleitet werden können.
Zur axiomatischen Begründung der Mathematik geht man eigentlich noch einen Schritt weiter
und benutzt ein Axiomensystem für die Mengenlehre, das System von Zermelo-Fraenkel mit dem
Auswahlaxiom. Das ist für uns aber viel zu schwerfällig. Deshalb fangen wir ein Stockwerk höher
an.
Trotzdem wollen wir uns kurz mit dem logischen Folgern beschäftigen. Keine Angst, eigentlich ist
das nur die konsequente Anwendung des gesunden Menschenverstands. In der Mathematik geht
es nur um Aussagen, die entweder wahr oder falsch sein können. Sinnvolle Aussagen sind zum
Beispiel
√ 29 ist eine Primzahl oder jede gerade Zahl größer als 2 ist Summe zweier Primzahlen
oder 2 ist eine rationale Zahl. Die erste Aussage ist wahr, die dritte ist falsch (was wir noch
4
beweisen werden). Die zweite Aussage ist die Goldbachsche Vermutung, ein berühmtes Problem
der Zahlentheorie. Ob diese Aussage wahr oder falsch ist, ist trotz großer Bemühungen vieler
Mathematiker seit fast 300 Jahren unbekannt.
Aus sinnvollen Aussagen kann man mittels der Operationen und, oder, nicht und folgt neue
Aussagen bilden.
Sind p und q zwei Aussagen, so ist die Aussage p und q genau dann wahr, wenn sowohl p als auch q
wahr sind. Mathematiker schreiben auch p∧q statt p und q. Ein Beispiel aus der Umgangssprache
ist die Aussage Ich studiere Mathematik und Biologie, die genau dann wahr ist, wenn ich sowohl
Mathematik als auch Biologie studiere.
Die Aussage p oder q ist genau dann wahr, wenn p oder q (oder beide) wahr sind. Mathematiker
schreiben auch p ∨ q statt p oder q. Ein Beispiel aus der Umgangssprache ist die Aussage Ich
studiere Mathematik oder Biologie. Mathematiker verwenden also oder nicht in der Bedeutung
des ausschließenden entweder oder, die Aussage aus dem letzten Satz ist auch wahr, wenn ich
Mathematik und Biologie studiere.
Die Aussage nicht p ist einfach das logische Gegenteil der Aussage p, ist also genau dann wahr,
wenn p falsch ist. Abgekürzt schreibt man auch ¬p.
Die Aussage aus p f olgt q kommt in der Mathematik sehr häufig vor. Sie ist immer dann
wahr, wenn mit der Wahrheit von p auch die Wahrheit von q gilt. Achtung: Sie ist insbesondere
auch wahr, wenn p falsch ist, dafür ist der Wahrheitsgehalt von q unerheblich! Zum Beispiel
ist die Aussage Wenn der Mond ein gelber Käse ist, dann ist 27 eine Primzahl eine wahre
Aussage. Statt aus p f olgt q schreibt man auch kurz p ⇒ q und sagt auch p impliziert q oder
p ist hinreichend für q oder q ist notwendig für p.
Die Aussagen p und q heißen äquivalent, kurz p ⇔ q, falls p genau dann wahr ist, wenn q wahr
ist, also falls sowohl p ⇒ q als auch q ⇒ p gilt. Um die Äquivalenz zweier Aussagen zu beweisen,
beweist man meist diese beiden Implikationen.
Man kann sich diese Verknüpfungen von Aussagen gut an Wahrheitstabellen klarmachen. In eine
solche Tabelle schreibt man zunächst alle möglichen Wahrheitswerte für die Grundaussagen. Dabei steht w für die Aussage ist wahr und f für Die Aussage ist falsch. Anschließend füllt man nach
und nach die Spalten für die logischen Verknüpfungen mit den entsprechenden Wahrheitswerten.
Hier ist die Wahrheitstabelle für die Negation:
P
w
f
¬P
f
w
Hier sind Konjunktion (und) und Disjunktion (oder):
P Q
w w
w f
f w
f f
P∨Q
w
w
w
f
P Q
w w
w f
f w
f f
P∧Q
w
f
f
f
Hier sind Implikation p ⇒ q und die Aussage ¬p ∨ q.
5
P Q
w w
w f
f w
f f
P⇒Q
w
f
w
w
P Q
w w
w f
f w
f f
¬P ¬P ∨ Q
f
w
f
f
w
w
w
w
Man sieht, dass die beiden letzten Spalten in diesen Tabellen die gleichen Wahrheitswerte enthalten. Deshalb finden wir:
P Q
w w
w f
f w
f f
¬P ¬P ∨ Q P ⇒ Q (¬P ∨ Q) ⇔ (P ⇒ Q)
f
w
w
w
f
f
f
w
w
w
w
w
w
w
w
w
Diese Aussage ist immer wahr. Man nennt so eine Aussage auch Tautologie.
Mathematik besteht nun (zumindest formal) darin, mathematische Sätze zu beweisen. Ein mathematischer Satz ist gerade eine Implikation p ⇒ q, wobei man p Voraussetzung und q Behauptung
des Satzes nennt. Ein Beispiel ist
Satz 1.2.
Ist n eine natürliche Zahl und ist n2 gerade, so ist auch n gerade.
Hier ist die Voraussetzung p gerade die Aussage n ist eine natürliche Zahl und n2 ist gerade, also
eine und-Verknüpfung von zwei Aussagen, die Behauptung q ist n ist gerade. Zu einem mathematischen Satz gehört ein Beweis, der die Wahrheit der Behauptung durch logisches Schließen aus
der Wahrheit der Voraussetzung ableitet. Für Satz 1.2 kann man einen Beweis folgendermaßen
führen, indem man aus der Schule bekannte einfache Teilbarkeitseigenschaften der natürlichen
Zahlen benutzt. Außerdem zeigt dieser Beweis die Methode des Beweises durch Kontraposition,
den indirekten Beweis: Man nimmt an, dass q falsch ist und zeigt dann, dass auch p falsch ist.
Falls also p richtig ist, ist auch q richtig. Formal ist das die logische Äquivalenz
(p ⇒ q) ⇔ (¬q ⇒ ¬p).
Die Wahrheitstabelle zeigt, dass dies tatsächlich eine Tautologie ist.
P Q
w w
w f
f w
f f
¬Q ¬P P ⇒ Q ¬Q ⇒ ¬P (P ⇒ Q) ⇔ (¬Q ⇒ ¬P)
f
f
w
w
w
w
f
f
f
w
f
w
w
w
w
w
w
w
w
w
Beweis von Satz 1.2. Sei n ungerade, also in der Form n = 2m − 1 mit einer natürlichen Zahl m
darstellbar. Dann ist
n2 = (2m − 1)2 = 4m2 − 4m + 1 = 2(2m2 − 2m) + 1
ebenfalls ungerade. Ist also n2 gerade, so ist auch n gerade.
6
Es gilt auch die Umkehrung der Implikation in Satz 1.2, ist n gerade, so auch n2 (Beweis?!).
Beide Implikationen liefern
Satz 1.3.
Ist n eine natürliche Zahl, so ist n2 gerade genau dann, wenn n gerade ist.
Neben Sätzen und Beweisen braucht die mathematische Sprache noch Definitionen. Das sind
sinnvolle Begriffsbildungen, die erst eine kompakte Darstellung von Mathematik ermöglichen.
Wir haben schon eine Reihe von Definitionen kennengelernt, z.B. haben wir eine Abkürzung für
die Menge der natürlichen Zahlen eingeführt durch
N := {1, 2, 3, . . . }.
Hier heißt der Doppelpunkt Definitionsdoppelpunkt. Definiert wird das Symbol oder der Begriff,
der am Doppelpunkt steht, durch das, was auf der anderen Seite steht. Weitere Definitionen waren
die Mengenoperationen und die logischen Operationen. Oft werden wir Definitionen abheben, z.B.
so:
Definition 1.4. Eine natürliche Zahl heißt gerade, wenn sie ohne Rest durch 2 teilbar ist.
oder
Definition 1.5. Die Menge Q der rationalen Zahlen ist gegeben durch
p
Q :=
: p ∈ Z und q ∈ N .
q
Wir wollen zu guter letzt auch noch den Gebrauch der sogenannten Quantoren für alle ∀ und es
gibt ein ∃ erläutern, der insbesondere später in der Vorlesung viele Formulierungen von Aussagen
verkürzt und übersichtlicher macht. Sei X eine Menge und A(x) eine Aussage, die für jedes
Element x ∈ X sinnvoll ist. Man nennt A(x) auch eine Aussageform mit der Grundmenge oder
Einsetzungsmenge X. Noch genauer spricht man von einer einstelligen Aussageform, da sie von
einer Variablen x ∈ X abhängt.
Für ein festes x ∈ X kann A(x) wahr oder falsch sein. Dann schreibt man
∀x ∈ X : A(x)
für die Aussage Für alle x ∈ X gilt die Aussage A(x) und
∃ x ∈ X : A(x)
für die Aussage Es gibt ein x ∈ X, für das die Aussage A(x) gilt. Zum Beispiel kann man die
Aussage des Satzes 1.2 nun auch wie folgt formalisieren. Dazu sei für einen natürliche Zahl n die
Aussage G(n) einfach n ist gerade:
∀n ∈ N : G(n2 ) ⇒ G(n).
Die (falsche) Negation dieser Aussage ist offenbar
∃ n ∈ N : G(n2 ) ∧ ¬G(n).
Man erhält also die Negation, indem man die Quantoren vertauscht und die Aussage negiert.
Hat man eine zweistellige Aussageform A(x, y) mit Variablen x ∈ X und y ∈ Y , so kann man
nun mit den Quantoren z.B. folgende Aussagen bilden:
∀x ∈ X ∃ y ∈ Y : A(x, y)
und
∃ y ∈ Y ∀x ∈ X : A(x, y).
Formulieren Sie diese Aussagen in einem (möglichst einfachen) Satz und machen Sie sich insbesondere klar, dass diese Aussagen nicht äquivalent sind. Wie lauten die Negationen dieser
Aussagen?
7
1.3
Relationen und Funktionen
Relationen beschreiben Beziehungen zwischen zwei Mengen. Die Definition ist einfach:
Definition 1.6. Eine Relation R zwischen den Mengen M und N ist eine Teilmenge des kartesischen Produkts, also R ⊆ M × N .
Man stellt sich das oft so vor, dass einem Element x ∈ M das Element y ∈ N zugeordnet ist,
falls (x, y) ∈ R ist. Einem Element x können dabei auch mehrere y zugeordnet werden oder auch
gar keines.
eine Relation
N
M
Beispiele sind die Ordnungsrelationen <, ≤, ≥, > der reellen Zahlen, die wir später betrachten
werden. So schreibt man z.B. für die kleiner als-Relation statt (x, y) ∈ R einfach kurz x < y.
Wichtiger für uns an dieser Stelle ist der Begriff der Funktion, die ebenfalls eine spezielle Relation
ist. Dazu definieren wir zunächst die folgenden Eigenschaften einer Relation. Eine Relation R ⊆
M × N heißt
linkstotal
falls jedes x ∈ M mindestens einen Partner y ∈ N hat.
rechtsstotal oder surjektiv
falls jedes y ∈ N mindestens einen Partner x ∈ M hat.
linkseindeutig oder injektiv
falls kein Element y ∈ N mehr als einen Partner x ∈ M hat.
rechtseindeutig oder funktional falls kein Element x ∈ M mehr als einen Partner y ∈ N hat.
eineindeutig oder bijektiv
falls jedes Element y ∈ N genau einen Partner x ∈ M hat.
Hier sagen wir kurz: x ∈ M hat einen Partner y ∈ N , falls (x, y) ∈ R ist.
8
linkstotal
N
M
rechtstotal - surjektiv
N
M
9
linkseindeutig - injektiv
N
M
rechtseindeutig
N
M
10
eineindeutig - bijektiv
N
M
Eine Funktion ist eine linkstotale und rechtseindeutige Relation.
Eine Funktion f ordnet jedem Element x ∈ M genau ein Element y ∈ N zu. Man benutzt dann
die suggestivere Schreibweise f : M → N und schreibt f (x) = y. Die Begriffe Abbildung und
Funktion werden synonym verwendet. Zu einer Funktion gehört also immer auch die Angabe des
Definitionsbereichs M und des Wertebereichs N !
eine Funktion
N
M
Die Menge
Gf = {(x, f (x)) : x ∈ M } ⊆ M × N,
nennt man auch den Graph der Funktion f . Ist M = N = R, so kann man sich den Graph der
Funktion wie üblich als Teilmenge des R2 , also der Ebene, veranschaulichen.
11
f (x)
f (x) = x2
f (x) = x + 1
x
Eine Funktion ist also per Definition immer (rechts)eindeutig. Sie heißt injektiv, falls aus der
Gleichheit der Funktionswerte f (x1 ) = y und f (x2 ) = y schon die Gleichheit der Argumente
x1 = x2 folgt. Sie ist surjektiv, falls es zu jedem y ∈ N ein x ∈ M gibt mit f (x) = y. Sie ist
bijektiv, falls sie sowohl injektiv als auch surjektiv ist.
Ist f : M → N bijektiv, so kann man die inverse Funktion oder Umkehrfunktion f −1 : N → M
bilden, indem man setzt:
f −1 (y) = x ⇐⇒ f (x) = y.
Zum Beispiel ist die Umkehrfunktion der auf den nichtnegativen reellen Zahlen
R≥0 := {x ∈ R : x ≥ 0}
definierten Funktion f : R≥0 → R≥0 , x 7→ x2 die Quadratwurzelfunktion f −1 : R≥0 → R≥0 , y 7→
√
y.
f (x) = x2
4 y
3
f (x) =
2
√
x
1
x
0.5
1
1.5
2
2.5
3
3.5
4
Auf jeder Menge M gibt es die identische Funktion IdM : M → M gegeben durch IdM (x) = x
für x ∈ M . Jedes Element von M wird also einfach auf sich selbst abgebildet. Diese Funktion ist
bijektiv und ihre Umkehrfunktion ist sie selbst: Id−1
M = IdM (tatsächlich?!).
12
IdM
M
Sind M und N beliebige nichtleere Mengen und ist y0 ∈ N ein festes Element, so heißt die
Funktion f : M → N mit f (x) = y0 für alle x ∈ M konstante Funktion.
konstante Funktion
N
M
Sind X, Y, Z drei Mengen und f : X → Y, g : Y → Z zwei Funktionen, so kann man g und f
hintereinander ausführen und erhält die Verknüpfung oder Komposition g ◦ f : X → Z gegeben
durch
g ◦ f (x) = g f (x) für x ∈ X.
13
Komposition
X
X
f
Y
g◦f
g
Z
Z
So ist z.B. die Funktion h(x) = sin x2 auf R die Verknüpfung der Funktionen g, f : R → R mit
g(y) = sin y und f (x) = x2 . Man erhält h = g ◦ f durch Einsetzen von y = f (x) = x2 in die
Funtion g(y).
14
2
Zahlen
In diesem Kapitel werden wir uns mit den für die Analysis interessanten Zahlbereichen der reellen
Zahlen R und der komplexen Zahlen C beschäftigen. Die reellen Zahlen führen wir axiomatisch
ein, das heißt wir geben ihnen Struktureigenschaften, die den Bereich der reellen Zahlen eindeutig
charakterisieren. Diese Eindeutigkeit werden wir allerdings nicht beweisen.
Aus den Axiomen für die reellen Zahlen leiten wir dann alle anderen Sätze der Vorlesung ab.
Insbesondere können wir die natürlichen Zahlen innerhalb der reellen Zahlen als kleinste induktive
Menge erhalten. Insofern unterscheidet sich unser Aufbau der Analysis von einem konstruktiven
Aufbau, der von Axiomen der natürlichen Zahlen ausgehend nacheinander die rationalen Zahlen
und dann die reellen Zahlen durch sukzessive Erweiterung liefert. Der letzte Zugang ist der für
die Schulmathematik natürliche, auch wenn er dort nicht mathematisch stringent durchgeführt
werden kann.
Die Einführung der natürlichen Zahlen als induktive Menge gibt uns Gelegenheit, das Beweisverfahren der vollständigen Induktion kennenzulernen und zu üben.
2.1
Die Axiomatik der reellen Zahlen - Algebra
Mit reellen Zahlen kann man rechnen, das wissen Sie aus der Schule. Dabei gibt es eine Reihe von
Rechenregeln - Kommutativgesetze, Assoziativgesetze und das Distributivgesetz. Diese Rechenregeln werden wir natürlich auch als Axiome für unseren axiomatisch begründeten Bereich der
reellen Zahlen fordern. Wir gelangen so zum Begriff eines Körpers, der die algebraische Struktur
der reellen Zahlen fasst.
Dazu betrachten wir zunächst den Begriff einer (inneren) Verknüpfung bzw. Operation auf einer
Menge X, was nur eine andere Bezeichnung für eine Abbildung ◦ : X × X → X ist. Das ist
also eine Zuordnung eines Elementes aus X zu jedem Paar von Elementen aus X, eine Rechenoperation. Statt ◦(x, y) schreibt man bei Operationen auch kurz x ◦ y. Das soll natürlich an die
Addition x + y oder die Multiplikation xy = x · y erinnern.
Wir nennen die Operation ◦ kommutativ, falls für alle x, y ∈ X die Gleichheit x ◦ y = y ◦ x gilt.
Sowohl von der Addition als auch von der Multiplikation reeller Zahlen kennen wir diese Regel
aus der Schule als Kommutativgesetz der Addition bzw. Multiplikation. Wir werden diese also
als Axiom fordern.
Wir nennen die Operation ◦ assoziativ, falls für alle x, y, z ∈ X die Gleichheit (x◦y)◦z = x◦(y◦z)
gilt. Sowohl von der Addition als auch von der Multiplikation reeller Zahlen kennen wir diese
Regel aus der Schule als Assoziativgesetz. Wir werden diese also ebenfalls als Axiom fordern. Hat
man Assoziativität, so kann man Klammern also einfach weglassen und kurz x ◦ y ◦ z schreiben.
Ein Element e ∈ X heißt neutrales Element oder Einselement, falls für alle x ∈ X die Gleichung
x ◦ e = e ◦ x = x gilt. Das neutrale Element ist also universell in dem Sinn, dass diese Gleichung
für alle x ∈ X gelten muss! Ein neutrales Element ist eindeutig bestimmt - es kann nur eines
geben. Sind nämlich e und e0 beide neutral, so folgt aus der Neutralität von e die Gleichheit
e0 = e ◦ e0 , aus der Neutralität von e0 folgt e ◦ e0 = e und beides zusammen liefert e = e0 .
Hat ◦ ein neutrales Element e, so heißt ein y ∈ X inverses Element zu x ∈ X, falls x◦y = y◦x = e
ist. Ist ◦ assoziativ, so sind auch inverse Elemente eindeutig bestimmt. Sind nämlich y und z
inverse Elemente zu x, so folgt
z = e ◦ z = (y ◦ x) ◦ z = y ◦ (x ◦ z) = y ◦ e = y.
Hier haben wir nacheinander die Neutralität von e, die Inversität von y, die Assoziativität, die
15
Inversität von z und wieder die Neutralität von e verwendet. Man schreibt dann im allgemeinen
y = x−1 , bei der Addition auch −x, für das zu x inverse Element. Das inverse Element zu x ist
also individuell, für x 6= y ist im allgemeinen x−1 6= y −1 .
Nun können wir die Axiome eines Körpers zusammenstellen und fordern für die reellen Zahlen
R kategorisch:
R ist ein Körper!
Definition 2.1. Ein Körper (K, +, ·) ist eine Menge K mit zwei Operationen + (Addition) und
· (Multiplikation) mit den folgenden Eigenschaften:
(A1) Die Addition ist assoziativ, kommutativ und besitzt ein neutrales Element 0.
(A2) Zu jedem x ∈ K gibt es ein bezüglich der Addition inverses Element −x.
(M1) Die Multiplikation ist assoziativ, kommutativ und besitzt ein neutrales Element 1 6= 0.
(M2) Zu jedem x ∈ K \ {0} gibt es ein bezüglich der Multiplikation inverses Element x−1 .
(D) Es gilt das Distributivgesetz, d.h. (x + y) · z = x · z + y · z für alle x, y, z ∈ K. (Punkt- vor
Strichrechnung)
Wir überlegen uns zunächst ein paar Beispiele und Nichtbeispiele.
Beispiel 2.2. Die aus der Schule „bekannten“ reellen Zahlen bilden einen Körper.
Beispiel 2.3. Die aus der Schule bekannten rationalen Zahlen bilden einen Körper.
Beispiel 2.4. Die ganzen Zahlen bilden keinen Körper (welche Eigenschaft ist verletzt?).
Beispiel 2.5. Der kleinste Körper ist der Körper K = {0, 1} mit den üblichen Rechenoperationen
(also 0 + 0 = 0, 0 + 1 = 1 + 0 = 1, 0 · 0 = 0 · 1 = 1 · 0 = 0 und 1 · 1 = 1) mit Ausnahme der
Addition 1 + 1 = 0.
Es gibt also einige verschiedene Körper, in der Übung werden wir weitere kennenlernen. Die
später behandelten komplexen Zahlen bilden ebenfalls einen Körper. Die algebraische Struktur
bestimmt die reellen Zahlen also noch lange nicht eindeutig.
Beruhigend ist aber, dass sich alle algebraischen Rechenregeln, die wir kennen, aus obigen Körperaxiomen ableiten lassen. Damit gelten sie auch in jedem anderen Körper. Dies verdeutlicht die
Stärke der axiomatischen Methode: man beweist Sätze aus den Axiomen, die man dann in jeder
Struktur automatisch hat, sofern diese nur die Axiome erfüllt. Das können durchaus Strukturen
sein, an die der Erfinder der Sätze keinesfalls gedacht hat!
Es folgt ein Satz, der eine Reihe von Rechenregeln in einem Körper zusammenfasst. Einige davon
werden wir anschließend beweisen, andere sollten Sie sich selbst überlegen.
16
Satz 2.6. Sei (K, +, ·) ein Körper. Dann gelten die folgenden Eigenschaften.
(i) Einmal Null, immer Null: Sind x, y ∈ K mit x + y = x, so ist y = 0.
(ii) Einmal Eins, immer Eins: Sind x, y ∈ K mit x · y = x und x 6= 0, so ist y = 1.
(iii) Von Nichts kommt Nichts: Für jedes x ∈ K ist 0 · x = 0.
(iv) Für alle x ∈ K ist (−1) · x = −x.
(v) Für alle x ∈ K mit x 6= 0 ist auch x−1 6= 0.
(vi) Doppelt bringt gar nichts: Für x ∈ K ist −(−x) = x.
(vii) Doppelt bringt gar nichts: Für x ∈ K mit x 6= 0 ist (x−1 )−1 = x.
Beweis. Wir zeigen exemplarisch die Eigenschaften (i) und (iv), die anderen Eigenschaften sollten
Sie zur Übung selbst beweisen.
Beim Beweis von (i) setzen wir also voraus, dass wir ein x und ein y in K haben mit x + y = x.
Wir müssen aus den Axiomen ableiten, dass y = 0 ist. Die Idee ist klar, wir müssen auf beiden
Seiten x abziehen. Dies müssen wir mit Hilfe der Axiome realisieren. Mit dem Axiom (A2) finden
wir zunächst das zu x inverse Element −x und addieren es auf beiden Seiten der Voraussetzung
x + y = x. Dann erhalten wir
(−x) + (x + y) = (−x) + x.
Nach Definition des inversen Elements ist nun die rechte Seite tatsächlich 0. Die linke Seite
formen wir noch so um:
(−x) + (x + y) = (−x) + x + y = 0 + y = y.
Hier haben wir nacheinander angewendet: die Assoziativität der Addition, die Definition des
inversen Elements −x, die Neutralität der 0 für die Addition.
Wir haben diesen Beweis hier in aller Ausführlichkeit aufgeschrieben, um ganz deutlich zu machen, wie die Körperaxiome in jedem Körper eine Eigenschaft implizieren, die für Sie für die
reellen Zahlen schon lange „klar“ ist. Kurz und ohne weitere Erklärungen kann man den Beweis
auch so aufschreiben:
x + y = x ⇒ y = 0 + y = (−x) + x + y = (−x) + (x + y) = (−x) + x = 0.
Überlegen Sie sich nochmals, welche Axiome hier in jedem Schritt benutzt wurden! Wo geht die
Voraussetzung der Implikation ein?
Den Beweis von (iv) schreiben wir nun nur noch in Kurzform auf: Die Gleichungskette (was
benutzen wir hier jeweils?!)
x + (−1) · x = 1 · x + (−1) · x = 1 + (−1) · x = 0 · x = 0
zeigt, dass (−1) · x additives inverses Element zu x ist. Da −x per Definition das additive Inverse
zu x ist und inverse Elemente eindeutig bestimmt sind, folgt die Behauptung (−1) · x = −x.
Der obige Satz zeigt also, dass man in jedem Körper so rechnen und Gleichungen umstellen kann,
wie Sie das von reellen Zahlen gewohnt sind.
17
2.2
Die Axiomatik der reellen Zahlen - Ordnung
Wir haben schon eingesehen, dass es eine ganze Reihe von verschiedenen Körpern gibt. Die
Körperaxiome reichen also nicht aus, um die reellen Zahlen eindeutig zu charakterisieren. Der
nächste Schritt folgt durch die Forderung, dass man reelle Zahlen miteinander vergleichen kann,
die reellen Zahlen bilden einen angeordneten Körper. Die Ordnung auf R führen wir ein, indem
wir die bekannten Eigenschaften der positiven Zahlen
R>0 = {x ∈ R : x > 0}
bezüglich der Ordnung in Axiome fassen.
Definition 2.7. Sei (K, +, ·) ein Körper und P ⊆ K. Dann heißt P ein Positivbereich, falls gilt:
(O1) Für jedes x ∈ K gilt genau eine der drei Eigenschaften
x∈P
oder
x=0
oder
− x ∈ P.
(O2) Sind x, y ∈ P , so sind auch x + y, x · y ∈ P .
Wir schreiben dann kurz
• x < y und y > x für y − x ∈ P .
• x ≤ y und y ≥ x für x < y oder x = y.
Ein Körper zusammen mit einem Positivbereich heißt angeordneter Körper.
Ist x ∈ P , so nennt man x positiv, das ist also äquivalent zu x > 0. Ist −x ∈ P , so nennt man
x negativ, das ist also äquivalent zu x < 0. Ist x ≥ 0, so sagt man auch x ist nichtnegativ, ist
x ≤ 0, dann heißt x nichtpositiv.
Wieder fordern wir für die reellen Zahlen R kategorisch:
R ist ein angeordneter Körper!
Allerdings charakterisiert diese Forderung die reellen Zahlen immer noch nicht eindeutig. Auch
die rationalen Zahlen Q bilden einen angeordneten Körper mit dem Positivbereich
Q>0 = {x ∈ Q : x > 0}.
Es folgt ein Satz, der eine Reihe von Regeln in einem angeordneten Körper zusammenfasst. Einige
davon werden wir anschließend beweisen, andere sollten Sie sich selbst überlegen. Wieder ist es
so, dass Sie alle diese Regeln vom Rechnen mit Ungleichungen von reellen Zahlen aus der Schule
kennen sollten.
18
Satz 2.8. Sei (K, +, ·, P ) ein angeordneter Körper. Dann gelten die folgenden Eigenschaften.
(i) Ungleichungen kann man addieren: x1 < y1 und x2 ≤ y2 impliziert x1 + x2 < y1 + y2 .
(ii) Ungleichungen kann man mit positiven Zahlen multiplizieren: x < y und z > 0 impliziert
x · z < y · z.
(iii) Achtung: x < y und z < 0 impliziert x · z > y · z.
(iv) Quadrate sind nichtnegativ: x 6= 0 impliziert x2 > 0. Insbesondere ist 1 > 0.
(v) Reziproke haben gleiches Vorzeichen: x > 0 impliziert x−1 > 0.
Beweis. Wir wollen nur beispielhaft (i) zeigen, die anderen Beweise sollten Sie sich selbst überlegen. Die Voraussetzung x1 < y1 bedeutet laut Definition y1 − x1 ∈ P . Die Voraussetzung x2 ≤ y2
bedeutet laut Definition y2 − x2 ∈ P oder y2 = x2 . Mit Axiom (O2) und der Assoziativität der
Addition folgt dann
(y1 + y2 ) − (x1 + x2 ) = (y1 − x1 ) + (y2 − x2 ) ∈ P.
Daraus folgt nun wieder per Definition y1 + y2 > x1 + x2 .
Eine wichtige Folgerung ist
Korollar 2.9. Sei (K, +, ·) ein Körper. Lässt sich −1 als Summe von Quadraten schreiben, so
existiert in K kein Positivbereich, K kann also nicht angeordnet werden.
Zum Beweis dieses Satzes führen wir einen Widerspruchsbeweis. Hier geht man zum Beweis einer
Implikation p ⇒ q davon aus, dass p ∧ ¬q gilt und zeigt, dass dies nicht sein kann. Dann muss
also ¬(p ∧ ¬q) gelten, was logisch äquivalent zu p ⇒ q ist.
Beweis. Nehmen wir also im Gegenteil zur Behauptung an, dass der Körper K angeordnet werden
kann. Da nach (iv) in obigem Satz Quadrate nichtnegativ sind, sind mit (i) auch Summen von
Quadraten nichtnegativ. Damit ist also −1 nichtnegativ und wegen −1 6= 0 folgt −1 > 0. Nun
ist aber nach (iv) auch 1 > 0. Mit (i) erhalten wir dann aus −1 > 0 und 1 > 0 durch Addition
0 = (−1) + 1 > 0,
und damit einen Widerspruch. Also ist unsere Annahme, dass K angeordnet werden kann, falsch
und die Behauptung des Korollars bewiesen.
Beispiel 2.10. Im Körper mit zwei Elementen aus Beispiel 2.5 gilt −1 = 1 = 12 . Dieser Körper
kann also nicht angeordnet werden.
Wir wollen nun mit Hilfe der Ordnung der reellen Zahlen noch die Betrags- und Signumfunktion
und Intervalle einführen. Das kann man wieder in einem beliebigen angeordneten Körper machen,
wir benutzen gleich K = R, den für uns relevanten Fall.
Für x ∈ R setzen wir
|x| :=
x
−x
für x ≥ 0
für x < 0
und nennen |x| den Betrag von x.
Die Betragsfunktion | · | : R → R ist dann die Funktion x 7→ |x|. Der Graph der Funktion sieht
folgendermaßen aus:
19
f (x) = |x|
3 y
2.5
2
1.5
1
0.5
x
−3
−2
−1
1
2
3
Die Eigenschaften des Absolutbetrags fasst der nächste Satz zusammen:
Satz 2.11. Seien x, y ∈ R. Dann gilt
(i) x ≤ |x|.
(ii) |xy| = |x| |y|.
(iii) |x + y| ≤ |x| + |y|.
(iv) |x| − |y| ≤ |x − y|.
Die Eigenschaft (iii) ist die Dreiecksungleichung für reelle Zahlen.
Beweis. Die Eigenschaft (i) folgt direkt aus der Definition. Die Eigenschaft (ii) zeigt man mit
Hilfe einer Fallunterscheidung der vier Fälle x, y ≥ 0; x ≥ 0, y < 0; x < 0, y ≥ 0 und x, y < 0.
Die Eigenschaft (iii) ergibt sich dann aus den beiden Ungleichungen
x + y ≤ |x| + |y|
und
− (x + y) = (−x) + (−y) ≤ |x| + |y|,
die beide aus (i) folgen.
Um (iv) zu zeigen, benutzen wir die Dreiecksungleichung (iii), um die Ungleichung
|x| = |x − y + y| ≤ |x − y| + |y|
zu erhalten, die dann durch Subtraktion von |y| zur Ungleichung
|x| − |y| ≤ |x − y|
führt. Durch Vertauschen der Rollen von x und y erhält man auch
−(|x| − |y|) = |y| − |x| ≤ |y − x| = |x − y|.
Beide Ungleichungen zusammen liefern die Behauptung (iv).
20
Für x ∈ R setzen wir

 +1
0
sgn(x) :=

−1
für x > 0
für x = 0
für x < 0
und nennen sgn(x) das Vorzeichen oder Signum von x. Dann hat man für x, y ∈ R
• x = sgn(x) |x| und
• sgn(xy) = sgn(x) sgn(y).
1 y
0.5
x
−3
−2
−1
1
2
3
−0.5
−1
Schließlich benötigen wir noch für a, b ∈ R mit a < b die Begriffe des
abgeschlossenen Intervalls
offenen Intervalls
halboffenen Intervalls
halboffenen Intervalls
[a, b]
(a, b)
(a, b]
[a, b)
:=
:=
:=
:=
{x ∈ R
{x ∈ R
{x ∈ R
{x ∈ R
:
:
:
:
a ≤ x ≤ b}
a < x < b}
a < x ≤ b}
a ≤ x < b}.
Wir werden auch die naheliegenden Bezeichnungen [a, ∞), (a, ∞), (−∞, b] und (−∞, b] für unendliche Intervalle benutzen.
2.3
Die natürlichen Zahlen
Sowohl die rationalen Zahlen Q als auch die reellen Zahlen R sind angeordnete Körper. Also
sind die reellen Zahlen noch immer nicht eindeutig charakterisiert. Bevor wir mit der Forderung
der Vollständigkeit die Axiomatik der reellen Zahlen abschließen, wollen wir zunächst in einem
beliebigen angeordneten Körper die natürlichen Zahlen finden.
Sie kennen die natürlichen Zahlen schon sehr gut aus der Schule. Wir wollen im Folgenden
einsehen, dass man die Menge der natürlichen Zahlen tatsächlich in unserem axiomatisch charakterisierten Körper der reellen Zahlen wiederfinden kann - als kleinste induktive Menge. Das
wird uns Gelegenheit geben, das Verfahren der vollständigen Induktion kennenzulernen.
21
Man könnte einfach versuchen, die natürlichen Zahlen gerade als die Menge der Zahlen 1, 2 :=
1 + 1, 3 := 2 + 1, . . . zu definieren. Was den Mathematiker hieran stört sind die Pünktchen, die
nicht klar ausdrücken, was gemeint ist. Dieses Problem wollen wir jetzt beheben und eine auch
mathematisch befriedigende Definition der natürlichen Zahlen geben.
Dazu benötigen wir den Begriff des Durchschnitts von Mengensystemen. Ist eine Grundmenge
M gegeben und ist M eine Teilmenge der Potenzmenge P(M ) von M , dann nennen wir M
ein System von Teilmengen von M . Der Durchschnitt dieses Mengensystems M ist dann die
Teilmenge von Elementen von M , die zu jeder der Mengen im Mengensystem M gehören:
\
M = {x ∈ M : x ∈ N für jedes N ∈ M}.
Analog bildet man die Vereinigung
[
M = {x ∈ M : x ∈ N für ein N ∈ M}.
Beispiel 2.12. Sei M = {0, 17, 42} und sei
M = {0}, {0, 17}, {0, 42} .
Dann ist
\
M = {0} ∩ {0, 17} ∩ {0, 42} = {0}
und
[
M = {0} ∪ {0, 17} ∪ {0, 42} = {0, 17, 42}.
Beispiel 2.13. Sei M das System aller Teilmengen der reellen Zahlen, die die Zahlen 0, 17, 42
als Elemente enthalten. Dann ist
\
\
M = {N ⊆ R : 0, 17, 42 ∈ N } = {0, 17, 42}.
Vielleicht halten Sie sich an dieses letzte Beispiel für die nächsten zwei Definitionen. Dazu sei K
ein beliebiger angeordneter Körper.
Definition 2.14. Eine Teilmenge M ⊆ K heißt induktiv, falls gilt:
(I1) 1 ∈ M
(I2) Ist x ∈ M , so ist auch x + 1 ∈ M .
Ein triviales Beispiel ist: M = K ist induktiv.
Definition 2.15. Den Durchschnitt des Mengensystems M aller induktiven Mengen bezeichnen
wir mit N und nennen ihn die Menge der natürlichen Zahlen (in K).
Offensichtlich ist die Menge N der natürlichen Zahlen selbst induktiv. Die Menge N ist die kleinste
induktive Menge. Dies zeigt der folgende Satz, der uns auch das Beweisprinzip der vollständigen
Induktion liefert.
Satz 2.16. Ist A eine induktive Teilmenge von N, so gilt A = N.
Beweis. Der Beweis ist fast trivial. Da nach Voraussetzung A induktiv ist, gilt nach Definition
von N die Inklusion N ⊆ A. Nun ist aber nach Voraussetzung auch A ⊆ N. Damit muss A = N
sein.
22
Mit dem Prinzip der vollständigen Induktion kann man sauber definieren, ohne Fortsetzungspünktchen zu verwenden.
Beispiel 2.17 (Fakultät). Wir setzen 1! := 1 und (n + 1)! := (n + 1) · n!. Damit ist n! (sprich
n-Fakultät) für jede natürliche Zahl n ∈ N per Induktion definiert. Die Pünktchenschreibweise
wäre
n! = 1 · 2 · · · (n − 1) · n.
Man setzt auch noch 0! := 1.
Beispiel 2.18 (Summen- und Produktzeichen). Für jedes n ∈ N sei xn ∈ K. Dann definieren
wir
1
X
xk := x1
k=1
und
n+1
X
n
X
xk :=
!
xk
+ xn+1 .
k=1
k=1
Die Pünktchenschreibweise wäre
n
X
xk = x1 + · · · + xn .
k=1
Analog definiert man Produkte durch
n
Y
xk = x1 · · · xn .
k=1
Ein Spezialfall sind die Potenzen
n
x =
n
Y
x.
k=1
Man setzt x0 = 1 für x 6= 0.
Mit dem Prinzip der vollständigen Induktion kann man Eigenschaften E(n) für alle natürlichen
Zahlen n beweisen, indem man
• E(1) für n = 1 beweist (Induktionsanfang) und
• aus der Induktionsvoraussetzung E(n) die Induktionsbehauptung E(n + 1) zeigt, also die
Implikation E(n) ⇒ E(n+1) beweist. Diesen Schritt nennt man auch den Induktionsschritt.
Das klassische erste Beispiel für einen Induktionsbeweis ist die Summenformel für die ersten n
natürlichen Zahlen:
Satz 2.19. Für jede natürliche Zahl n gilt
n
X
k=1
k = 1 + 2 + ··· + n =
(n + 1)n
.
2
Beweis.
• Induktionsanfang:
P1 Wir müssen2·1die Behauptung für n = 1 nachprüfen. Diese ist
offensichtlich richtig: k=1 k = 1 und 2 = 1 sind gleich.
23
• Induktionschritt: Wir schreiben zunächst die Induktionsvoraussetzung auf:
n
X
k=
k=1
(n + 1)n
.
2
Der Induktionsschritt besteht dann darin, mit Hilfe dieser Voraussetzung die Induktionsbehauptung
n+1
X
(n + 2)(n + 1)
k=
2
k=1
zu beweisen. Das macht man sich klar durch die Rechnung
!
n+1
n
X
X
(n + 1)n + 2(n + 1)
(n + 2)(n + 1)
(n + 1)n
+ (n + 1) =
=
.
k=
k + (n + 1) =
2
2
2
k=1
k=1
Wo haben wir die Induktionsvoraussetzung benutzt?
Als zweites Beispiel wollen wir die Bernoulli-Ungleichung beweisen. Sie gilt in jedem angeordneten
Körper K, insbesondere in den reellen Zahlen.
Satz 2.20. Sei x ≥ −1 und n ∈ N. Dann gilt
(1 + x)n ≥ 1 + nx.
Beweis. Für n = 1 gilt offensichtlich (1 + x)1 = 1 + x = 1 + 1 · x ≥ 1 + 1 · x, womit der Induktionsanfang erledigt ist. Der Induktionsschritt besteht nun im Beweis der Induktionsbehauptung
(1 + x)n+1 ≥ 1 + (n + 1) · x,
wobei wir die Gültigkeit der Induktionsvoraussetzung
(1 + x)n ≥ 1 + nx
annehmen dürfen. Dieser Beweis geht dann so:
(1 + x)n+1 = (1 + x)n (1 + x) ≥ (1 + nx)(1 + x) = 1 + (n + 1)x + nx2 ≥ 1 + (n + 1)x.
Hier haben wir neben der Induktionsvoraussetzung noch x2 ≥ 0 benutzt. Auch x ≥ −1 haben
wir benutzt, wo eigentlich?
Wir geben schließlich noch einen Satz an, der die Eigenschaften der natürlichen Zahlen zusammenfasst. Diese Eigenschaften sind Ihnen aus der Schule wohlbekannt, bewiesen werden sie jetzt
mit dem Prinzip der vollständigen Induktion.
Satz 2.21. Sei (K, +, ·, P ) ein angeordneter Körper und N die Menge der natürlichen Zahlen
(in K). Dann gelten die folgenden Eigenschaften.
(i) Summen und Produkte natürlicher Zahlen sind natürliche Zahlen.
(ii) Jede natürliche Zahl n ∈ N mit n 6= 1 hat einen Vorgänger m ∈ N mit m + 1 = n
(iii) Sind n ∈ N und x ∈ K mit x > 0 derart, dass n + x ∈ N ist, so ist x ∈ N.
(iv) Sind m, n ∈ N mit m > n, so ist m − n ∈ N und damit m ≥ n + 1.
(v) Jede nichtleere Menge A ⊆ N enthält ein Minimum n0 ∈ A, d.h. n ≥ n0 für alle n ∈ A.
24
Beweis. Wir beweisen wieder nur beispielhaft die Eigenschaft (iii) und (iv). Für die anderen
Eigenschaften verweisen wir auf Übung und Literatur.
Also zeigen wir zunächst (iii) durch Induktion. Der Induktionsanfang ist die Behauptung: Ist
x + 1 ∈ N und x > 0, so ist x ∈ N. Dies folgt aus (ii), was man also vorher zeigen sollte.
Für den Induktionsschluss müssen wir aus (n + 1) + x ∈ N die Folgerung x ∈ N ableiten. Dazu
können wir die Induktionsvoraussetzung verwenden, die liefert nämlich aus n+(1+x) ∈ N wegen
1 + x > 0 zunächst 1 + x ∈ N. Wenden wir darauf wieder den Induktionsanfang an, erhalten wir
x ∈ N.
Die Eigenschaft (iv) erhält man nun direkt aus der Eigenschaft (iii) durch setzen von x = m − n.
Dann ist n ∈ N, x > 0 und n + x = m ∈ N und (iii) liefert die Folgerung x = m − n ∈ N. Damit
ist x = m − n ≥ 1 und folglich m ≥ n + 1.
Wir wollen nun noch einen kleinen Ausflug in die Kombinatorik unternehmen und Binomialkoeffizienten, ihre kombinatorische Bedeutung und den binomischen Satz kennenlernen. Zunächst
interpretieren wir die Zahl n! kombinatorisch als die Anzahl der möglichen Anordnungen einer
Menge aus n Elementen. Dazu überlegt man sich, dass man als erstes Element ein beliebiges der
n Elemente wählen kann, man hat also n Möglichkeiten für die Auswahl des ersten Elementes.
Für das zweite Element hat man nur noch n − 1 Elemente zur Auswahl usw.
Eine kombinatorische Grundaufgabe ist auch die Bestimmung der Anzahl von k-elementigen
Teilmengen einer n-elementigen Menge. Hier geht ganz man analog vor und erhält zunächst
n(n − 1) · · · (n − k + 1) Möglichkeiten für die Auswahl unter Beachtung der Reihenfolge. Nun gibt
es aber für jede Auswahl von k Elementen k! Reihenfolgen, für die gesuchte Anzahl erhält man
also
n
n(n − 1) · · · (n − k + 1)
n!
:=
=
.
k
k!
k!(n − k)!
Diese Zahlen, die wir also für k, n ∈ N0 mit 0 ≤ k ≤ n gefunden haben, nennt man Binomialkoeffizienten. An der rechten Darstellung erkennt man sofort die Symmetrie
n
n
=
.
k
n−k
Außerdem hat man die Randterme
n
n
=
= 1.
0
n
Der binomische Satz ist dann für Elemente x, y in einem Körper K und n ∈ N0 die Formel
n X
n k n−k
(x + y) =
x y
.
k
n
k=0
Diese ergibt sich durch Ausmultiplizieren der rechten Seite und Zusammenfassen gleicher Terme.
Beim Ausmultiplizieren erhält man nämlich eine Summe aus allen Produkten z1 z2 · · · zn , wobei
jedes zi entweder x oder y ist. Zusammenfassen
aller Summanden, in denen genau k mal x (und
damit n − k mal y) auftritt, ergibt nk gleiche Summanden der Form xk y n−k und beweist die
Formel. Für n = 0, 1 erhalten wir Trivialitäten, für n = 2 haben wir die aus der Schule bekannte
erste binomische Formel
(x + y)2 = x2 + 2xy + y 2 .
25
Durch Einsetzen von x = y = 1 erhält man die Summenformel
n X
n
k=0
k
= 2n .
Durch Einsetzen von x = −1, y = 1 erhält man die alternierende Summe
n
X
k=0
(−1)k
n
= 0.
k
Die folgende Anordnung der Binomialkoeffizienten nennt man Pascalsches Dreieck:
0
1
0
1
1
1
1
0
1
2
2
2
1
2
1
0
1
2
3
3
3
3
1
3
3
1
0
1
2
3
4
4
4
4
4
1
4
6
4
4
3
2
1
0
1
Auf der rechten Seite entdeckt man die Rekursionsformel
n+1
n
n
=
+
.
k+1
k
k+1
Zum Beweis dieser Formel berechnet man
n
n(n − 1) · · · (n − k + 1) n(n − 1) · · · (n − k)
n
+
=
+
k!
(k + 1)!
k+1
k
n(n − 1) · · · (n − k + 1)
=
(k + 1) + (n − k)
(k + 1)!
n(n − 1) · · · (n − k + 1)
=
n+1
(k + 1)!
(n + 1)n(n − 1) · · · (n − k + 1)
=
(k + 1)!
n+1
=
.
k+1
Wir schließen diesen Abschnitt mit der Anmerkung, dass wir nun, nachdem wir in jedem angeordneten Körper K die natürlichen Zahlen N ⊆ K identifiziert haben, auch die ganzen Zahlen
Z := {m − n : m, n ∈ N} ⊆ K und die rationalen Zahlen Q := { m
n : m ∈ Z, n ∈ N} ⊆ K haben.
2.4
Die Axiomatik der reellen Zahlen - Vollständigkeit
Zur eindeutigen Beschreibung der reellen Zahlen R fehlt uns noch die Vollständigkeit. Dass die
rationalen Zahlen noch nicht „vollständig genug“ sind, um z. B. Wurzeln aus beliebigen positiven
Zahlen ziehen zu können, zeigt der folgende Satz.
Satz 2.22. Es gibt keine rationale Zahl x mit x2 = 2.
26
Beweis. Wir nehmen das Gegenteil der Behauptung an, d.h. es gibt ein x ∈ Q mit x2 = 2. Wegen
(−x)2 = x2 können wir zusätzlich noch x > 0 annehmen und erhalten natürliche Zahlen m, n
mit x = m
n . Außerdem können wir fordern, dass m und n nicht beide gerade sind, sonst kürzen
wir durch den gemeinsamen Faktor 2. Dann liefert x2 = 2 die Gleichung m2 = 2n2 , also ist m2
gerade. Aus dem Satz 1.3 folgt dann, dass auch m gerade ist, sich also in der Form m = 2k
mit k ∈ N schreiben läßt. Dann erhalten wir 2n2 = m2 = 4k 2 , also n2 = 2k 2 . Wieder folgern
wir, dass n2 und damit n gerade ist. Also sind sowohl m als auch n gerade im Widerspruch zur
Annahme.
Eine reelle Zahl x mit x2 = 2 soll es aber geben, und dazu benötigen wir den Begriff der
Vollständigkeit, den wir mit Hilfe des Begriffs Supremum oder kleinste obere Schranke definieren
wollen.
Wir gehen wieder von einem angeordneten Körper K aus und schreiben für nichtleeres A ⊆ K
und x ∈ K kurz A ≤ x, falls für alle a ∈ A die Ungleichung a ≤ x gilt. Dann nennen wir x
eine obere Schranke der Menge A. Falls es eine obere Schranke der Menge A gibt, nennen wir A
nach oben beschränkt. Entsprechend schreiben wir x ≤ A, falls für alle a ∈ A die Ungleichung
x ≤ a gilt. Dann nennen wir x eine untere Schranke der Menge A. Falls es eine untere Schranke
der Menge A gibt, nennen wir A nach unten beschränkt. Die Menge A heißt beschränkt, falls sie
sowohl nach unten als auch nach oben beschränkt ist.
Ist A ≤ x und x ∈ A, so heißt x Maximum der Menge A und wird mit max A bezeichnet. Ist
x ≤ A und x ∈ A, so heißt x Minimum der Menge A und wird mit min A bezeichnet. Falls das
Maximum (Minimum) einer Menge A existiert, ist es eindeutig bestimmt.
Beispiel 2.23. Die Menge N der natürlichen Zahlen in K ist nach unten beschränkt. Außerdem
ist min N = 1.
Beispiel 2.24. Seinen a, b ∈ R mit a < b. Die Intervalle [a, b], [a, b), (a, b], (a, b) sind beschränkt.
Welche der Intervalle haben ein Maximum, welche der Intervalle ein Minimum?
Obwohl das Intervall (0, 1) beschränkt ist, hat es weder Maximum noch Minimum. Es gibt
aber eine kleinste obere Schranke, nämlich 1. Das motiviert die wichtigste Definition in diesem
Abschnitt:
Definition 2.25. Sei A ⊆ K nichtleer und x ∈ K. Dann heißt x kleinste obere Schranke oder
Supremum von A (bezeichnet mit x = sup A), falls gilt:
• A ≤ x, also x ist obere Schranke von A und
• Aus A ≤ y folgt x ≤ y.
Entsprechend heißt x größte untere Schranke oder Infimum von A (bezeichnet mit x = inf A),
falls gilt:
• x ≤ A, also x ist untere Schranke von A und
• Aus y ≤ A folgt y ≤ x.
Infimum und Supremum sind eindeutig bestimmt. Sind z. B. x1 , x2 Suprema von A, so folgt aus
der zweiten definierenden Eigenschaft für x1 die Ungleichung x1 ≤ x2 . Analog gilt aber auch
x2 ≤ x1 , also x1 = x2 .
27
Beispiel 2.26. Seien a, b ∈ R mit a < b. Dann ist
sup[a, b] = sup[a, b) = sup(a, b] = sup(a, b) = b
und
inf[a, b] = inf[a, b) = inf(a, b] = inf(a, b) = a.
Beispiel 2.27. Sei A ⊆ K nichtleer und sei −A := {−x : x ∈ A}. Dann ist A nach oben
beschränkt genau dann, wenn −A nach unten beschränkt ist. Also hat A ein Supremum genau
dann, wenn −A ein Infimum hat und in diesem Fall gilt inf(−A) = − sup A.
Supremum und Infimum kann man auch folgendermaßen charakterisieren, was für die Berechnung
in gewissen Fällen vorteilhaft ist. Sei wieder A nach oben beschränkt. Dann ist x = sup A genau
dann, wenn gilt
• A ≤ x, also x ist obere Schranke von A und
• Für jedes ε > 0 gibt es ein a ∈ A mit a > x − ε.
Analog ist für A nach unten beschränkt x = inf A genau dann, wenn gilt
• x ≤ A, also x ist untere Schranke von A und
• Für jedes ε > 0 gibt es ein a ∈ A mit a < x + ε.
Definition 2.28. Ein angeordneter Körper K heißt vollständig, falls jede nichtleere nach oben
beschränkte Teilmenge von K ein Supremum in K hat.
Ist K vollständig, dann hat auch jede nichtleere nach unten beschränkte Teilmenge von K ein
Infimum in K. Man hätte alternativ also auch die Existenz von Infima fordern können.
Wieder fordern wir für die reellen Zahlen R kategorisch:
R ist ein vollständiger angeordneter Körper!
Damit ist der Zahlenbereich R (bis auf Isomorphie = Strukturgleichheit) eindeutig bestimmt, d.h.
hat man zwei Strukturen R und R mit obigen Eigenschaften, so gibt es eine bijektive Abbildung
f : R −→ R mit den folgenden Eigenschaften:
• f (a + b) = f (a)+f (b) und f (a · b) = f (a)·f (b)
• f (0) = 0 und f (1) = 1
• f (−a) = −f (a) und f (a−1 ) = f (a)−1
• f (R>0 ) = R>0
• f (sup A) = supf (A)
Den Beweis dieser Eindeutigkeitsaussage können wir hier nicht führen. Wir begnügen uns damit,
ab jetzt das Axiomensystem für R als Grundlage für unsere weitere Arbeit zu nutzen.
Wir wollen nun die Vollständigkeit der reellen Zahlen ausnutzen, um uns zwei Tatsachen klarzumachen. Das ist erstens die Unbeschränktheit der natürlichen Zahlen, die man auch archimedische
28
Eigenschaft von R nennt, und zweitens die Existenz von Wurzeln positiver Zahlen, die man in Q
im allgemeinen nicht hat.
Die archimedische Eigenschaft in verschiedenen Varianten enthält der folgende Satz. Die archimedische Eigenschaft im engeren Sinne ist die Eigenschaft (i). Die Eigenschaft (iv) besagt, dass
die rationalen Zahlen überall in den reellen Zahlen dicht liegen.
Satz 2.29.
(i) N ist eine unbeschränkte Teilmenge von R, d.h. zu jedem x ∈ R gibt es ein n ∈ N mit
x ≤ n.
(ii) Zu jedem ε > 0 gibt es ein n ∈ N mit
1
n
≤ ε.
(iii) Zu ε > 0 und M ∈ R gibt es ein n ∈ N mit nε ≥ M .
(vi) Zu x, y ∈ R mit x < y gibt es eine rationale Zahl
m
n
∈ Q mit x ≤
m
n
≤ y.
Beweis. Wir starten mit dem Beweis von (i). Nehmen wir im Gegenteil zur Behauptung an, dass
N beschränkt ist, also die kleinste obere Schranke x = sup N existiert. Hier nutzen wir also schon
die Vollständigkeit von R aus. Da x die kleinste obere Schranke von N ist, ist x − 1 keine obere
Schranke von N, es gibt also n ∈ N mit x − 1 < n. Dies impliziert aber durch Addition von 1
auch x < n + 1. Nun ist aber n + 1 ∈ N wegen n ∈ N, also ist x doch keine obere Schranke von
N im Widerspruch zur Annahme.
Nun ist (iii) leicht einzusehen, wir wählen ein n ∈ N mit n >
Spezialfall von (iii) mit M = 1.
M
ε .
Die Eigenschaft (ii) ist der
Für den Beweis von (iv) genügt es, den Fall x, y > 0 zu betrachten (warum?). Dann suchen wir
also m, n ∈ N mit nx ≤ m ≤ ny. Dazu wählen wir zunächst mit der Eigenschaft (i) ein n ∈ N mit
n(y − x) ≥ 1. Nun gibt es wieder nach (i) natürliche Zahlen m mit m ≥ nx. Nach Eigenschaft (v)
in Satz 2.21 gibt es eine kleinste Zahl m dieser Art. Dann ist also m ≥ nx und m − 1 < nx. Die
letzte Bedingung impliziert nun m < nx + 1 ≤ ny, also haben wir nx ≤ m ≤ ny wie gesucht.
Und nun kommen wir zur Existenz von Wurzeln.
Satz 2.30. Sei x ∈ R mit x ≥ 0 und sei n ∈ N. Dann existiert genau eine reelle Zahl y ≥ 0
√
mit y n = x. Diese Zahl y heißt n-te Wurzel von x und wird mit n x oder x1/n bezeichnet.
Beweis. Für x = 0 ist y = 0 die eindeutig bestimmte n-te Wurzel. Sei also ab jetzt x > 0. Die
Eindeutigkeit ist auch klar, da aus 0 < y1 < y2 die Ungleichung y1n < y2n folgt.
Wir definieren nun die Menge
A := {z ∈ R : z > 0 und z n ≤ x}.
Die Menge A ist nichtleer, für x ≤ 1 ist x ∈ A und für x > 1 ist 1 ∈ A. Die Menge A ist nach
oben beschränkt durch 1 + x, da für z > 1 + x die Ungleichung z n > (1 + x)n ≥ xn gilt. Die
Vollständigkeit von R liefert uns nun die Existenz von y = sup A.
Wir zeigen nun y n = x, indem wir die Ungleichungen y n < x und y n > x beide zum Widerspruch
führen. In beiden Fällen benutzen wir die oft nützliche Identität
an − bn = (a − b) an−1 + an−2 b + an−3 b2 + · · · + bn−1 .
29
Nehmen wir also zunächst an, dass y n < x ist. Wir werden jetzt ein z ∈ A konstruieren mit
z > y im Widerspruch dazu, dass y obere Schranke von A ist. Dazu setzen wir z = y + ε für ein
0 < ε < 1 und folgern aus der obigen Identität
z n − y n = ε z n−1 + z n−2 y + z n−3 y 2 + · · · + y n−1 ≤ εn(y + 1)n−1 .
Wählen wir nun ε > 0 so klein, dass die rechte Seite kleiner als x − y n > 0 ist, so erhalten wir
wie gewünscht z n < x. Die Existenz so eines ε > 0 sichert uns die archimedische Eigenschaft von
R!
Der Fall y n > x wird analog behandelt. Wir werden jetzt ein t < y konstruieren mit tn > x.
Dann folgt für alle z ∈ A die Ungleichung z < t im Widerspruch dazu, dass y die kleinste
obere Schranke von A sein sollte. Jetzt benutzen wir die obige Identität, um für t = y − ε die
Abschätzung
y n − tn = ε y n−1 + y n−2 t + y n−3 t2 + · · · + tn−1 ≤ εny n−1
einzusehen. Nun wählen wir wieder ε > 0 klein genug, so dass die rechte Seite kleiner als y n −x > 0
ist, und erhalten wie gewünscht tn > x.
Es gibt verschiedene äquivalente Möglichkeiten, die Vollständigkeit der reellen Zahlen axiomatisch zu fassen. Eine dieser Möglichkeiten sind Intervallschachtelungen. Eine Folge (In ) von abgeschlossenen Intervallen heißt Intervallschachtelung, falls I1 ⊃ I2 ⊃ . . . gilt. Wir wollen diese
nützliche äquivalente Formulierung der Vollständigkeit aus unserem Axiom der Existenz von
kleinsten oberen Schranken ableiten.
Satz 2.31.
Ist (In ) eine Intervallschachtelung, so ist der Durchschnitt
T∞
n=1 In
nichtleer.
Beweis. Sei In = [an , bn ]. Die Intervallschachtelungsbedingung I1 ⊃ I2 ⊃ . . . bedeutet
a1 ≤ a2 ≤ a3 ≤ · · · ≤ b3 ≤ b2 ≤ b1 .
Die Vollständigkeit von R impliziert dann die Existenz von
a = sup{a1 , a2 , a3 , . . . }
und
b = inf{b1 , b2 , b3 , . . . },
da die Menge {a1 , a2 , a3 , . . . } (z.B. durch b1 ) nach oben beschränkt und die Menge {b1 , b2 , b3 , . . . }
(z.B. durch a1 ) nach unten beschränkt ist. Es folgt
a1 ≤ a2 ≤ a3 ≤ · · · ≤ a ≤ b ≤ · · · ≤ b3 ≤ b2 ≤ b1 .
Damit liegen a und b in jedem der Intervalle In , also auch in ihrem Durchschnitt.
2.5
Die komplexen Zahlen
Im Bereich der reellen Zahlen kann man, wie wir gesehen haben, keine Lösung der Gleichung
z 2 + 1 = 0 finden. Es ist aber wünschenswert, auch Nullstellen beliebiger Polynome
p(z) = z n + an−1 z n−1 + · · · + a1 z + a0
mit reellen Koeffizienten a0 , a1 , . . . , an−1 zu haben. Die Existenz solcher Nullstellen liefert der
Fundamentalsatz der Algebra, aber nur nach der Erweiterung des Zahlkörpers R der reellen Zahlen
zum Körper C der komplexen Zahlen. Diese Erweiterung wollen wir jetzt durchführen.
30
Dazu schreiben wir i für eine Lösung der Gleichung z 2 + 1 = 0, also ist
i2 = −1.
Die Zahl i nennt man die imaginäre Einheit. Wir wollen nun den kleinsten Körper C konstruieren,
der sowohl die reellen Zahlen als auch die Zahl i ∈
/ R enthält. Da Addition und Multiplikation
nicht aus dem Körper C hinausführen dürfen, sind dann auch alle Zahlen der Form
z = x + iy
mit x, y ∈ R
in unserem Körper C. Da wir den kleinstmöglichen Zahlbereich suchen, der sowohl R als auch i
enthält, wollen wir einsehen, dass diese Konstruktion (mit geeigneten Operationen) tatsächlich
ein Körper ist. Wir führen gleich noch die Bezeichnungen Realteil Re z := x und Imaginärteil
Im z := y der komplexen Zahl z = x + iy ein. Die Darstellung z = x + iy nennt man kanonische
Darstellung oder algebraische Darstellung.
Seien nun z = x + iy und w = u + iv zwei komplexe Zahlen in der kanonischen Darstellung. Dann
erhält man die Summe
z + w = (x + u) + i(y + v),
also addiert man komplexe Zahlen, indem man die Realteile und die Imaginärteile addiert. Wie
erhält man nun das Produkt? Dazu bemühen wir die Gleichung i2 = −1 und erhalten
zw = (x + iy)(u + iv) = xu + ixv + iyu + i2 yv = (xu − yv) + i(xv + yu),
kurz
zw = (xu − yv) + i(xv + yu).
Formal kann man also die komplexen Zahlen identifizieren mit den Paaren (x, y) reeller Zahlen,
also mit dem R2 , wobei die Operationen dann gegeben sind durch
(x, y) + (u, v) = (x + u, y + v)
und
(x, y) · (u, v) = (xu − yv, xv + yu).
Damit kann man sich die komplexen Zahlen graphisch als Gaußsche Zahlenebene vorstellen. Die
Addition entspricht dann der Addition von Vektoren.
Gaußsche Zahlenebene
Im z
iy
z = x + iy
x
Re z
31
Satz 2.32. Die komplexen Zahlen mit den definierten Operationen bilden einen Körper.
Beweis. Kommutativität, Assoziativität und Distributivität rechnet man einfach nach. Die 0 in
C ist natürlich die Zahl 0 = 0 + i · 0 = (0, 0) und die 1 in C ist die 1 = 1 + i · 0 = (1, 0). Weiter
ist −z = −(x + iy) = −x − iy = (−x, −y) und
z −1 =
y
x
1
−i 2
.
= (x + iy)−1 = 2
2
x + iy
x +y
x + y2
Prüfen Sie das nach!
Die reellen Zahlen R findet man als Teilkörper der komplexen Zahlen, für die der Imaginärteil
verschwindet. In der Darstellung als Zahlenpaare sind das die Paare (x, 0), in der Gaußschen
Zahlenebene ist das die x-Achse, die man deshalb auch reelle Achse nennt. Die komplexen Zahlen
auf der y-Achse der Gaußschen Zahlenebene - der imaginären Achse, also die Zahlen iy mit y ∈ R,
nennt man rein imaginär.
Die zu z = x + iy konjugiert komplexe Zahl ist die Zahl z = x − iy. Die komplexe Konjugation
spiegelt also die Gaußsche Zahlenebene an der reellen Achse. Es gelten die folgenden Rechenregeln:
• z + w = z + w und zw = z · w
• z + z = 2 Re z und z − z = 2 i Im z
• z = z ⇐⇒ z ∈ R
• zz = x2 + y 2 , also ist zz ∈ R>0 für z 6= 0.
Die nichtnegative reelle Zahl
|z| =
√
zz =
p
x2 + y 2
nennt man den Betrag der komplexen Zahl z = x + iy. Für z ∈ R stimmt der Betrag mit dem
vorher definierten Betrag für reelle Zahlen überein. In der Gaußschen Zahlenebene ist |z| der
Abstand von z zum Ursprung 0. Man erhält für z, w ∈ C die Regeln:
• |z| ≥ 0
• |z| = 0 ⇐⇒ z = 0
• |Re z| ≤ |z| und |Im z| ≤ |z|
• |zw| = |z||w|
• |z + w| ≤ |z| + |w| (Dreiecksungleichung)
• |z| − |w| ≤ |z − w|
Die ersten drei Eigenschaften sind hierbei offensichtlich. Die vierte erhält man aus
|zw|2 = (zw) · zw = zz · ww = |z|2 |w|2 .
Die Dreiecksungleichung folgt aus
|z + w|2 = (z + w)(z + w) = zz + (zw + zw) + ww = |z|2 + 2 Re (zw) + |w|2
2
≤ |z|2 + 2|z||w| + |w|2 = |z| + |w| .
32
Die letzte Ungleichung folgt wie im reellen Fall aus der Dreiecksungleichung (tatsächlich?!).
Die Dreiecksungleichung kann man äquivalent formulieren als
|z1 − z3 | ≤ |z1 − z2 | + |z2 − z3 |
für z1 , z2 , z3 ∈ C
indem man z = z1 − z2 und w = z2 − z3 setzt. In der Gaußschen Zahlenebene ist |z − w| der
Abstand von z und w. Dies motiviert den Namen Dreiecksungleichung.
Dreiecksungleichung
Im z
z2
|z1 − z2 |
z1
|z2 − z3 |
|z1 − z3 |
z3
Re z
Da wir in C die Zahl −1 als Quadrat darstellen können, kann man den Körper C nicht anordnen. Es gibt also keine Möglichkeit, die Ordnung der reellen Zahlen auf die komplexen Zahlen
auszuweiten. Deshalb vereinbaren wir, dass Schreibweisen wie a ≥ b, a > b, a ≤ b oder a < b
immer implizit die Forderung a, b ∈ R enthalten!
Wir stellen noch eine Tabelle zusammen über die anschauliche Deutung des Rechnens mit komplexen Zahlen in der Gaußschen Zahlenebene.
C
z = x + iy
Re z
Im z
reelle Zahlen
rein imaginäre Zahlen
−z
z
|z|
|z1 − z2 |
z1 + z 2
Dreiecksungleichung
Gaußsche Zahlenebene
Punkt mit den Koordinaten (x, y)
x-Koordinate
y-Koordinate
Punkte auf der x-Achse
Punkte auf der y-Achse
z am Ursprung gespiegelt
z an der x-Achse gespiegelt
Abstand von z zum Ursprung
Abstand von z1 und z2
„Vektoraddition“
Dreiecksungleichung
Um das Rechnen mit komplexen Zahlen hier bereits vollständig abzuhandeln, setzen wir ab
jetzt die Kenntnis der trigonometrischen Funktionen sin und cos aus der Schule voraus. In der
33
Vorlesung werden wir diese erst später behandeln. Sei nun z eine komplexe Zahl mit r = |z|.
Dann erhält man aus der Darstellug von z in der Gaußschen Zahlenebene die Darstellung von z
in Polarkoordinaten
z = r(cos ϕ + i sin ϕ).
Hierbei ist ϕ = arg z ∈ R das Argument von z. Die 2π-Periodizität der trigonometrischen Funktionen bewirkt, dass (für z 6= 0) ϕ nur bis auf additive Vielfache von 2π eindeutig bestimmt ist.
Die Polarkoordinatendarstellung nennt man auch trigonometrische Darstellung.
Diese trigonometrische Darstellung ist gut geeignet, um komplexe Zahlen multiplikativ zu verknüpfen. Dazu benötigen wir die Additionstheoreme
cos(ϕ + ψ) = cos ϕ cos ψ − sin ϕ sin ψ
sin(ϕ + ψ) = sin ϕ cos ψ + cos ϕ sin ψ
für die wir an dieser Stelle auf Ihre Kenntnisse aus der Schule oder das Tafelwerk verweisen. Auch
diese werden wir in der Vorlesung erst später beweisen. Hat man nun zwei komplexe Zahlen
z = r(cos ϕ + i sin ϕ)
w = s(cos ψ + i sin ψ)
und
in trigonometrischer Darstellung, so ergibt sich für das Produkt
zw = rs(cos ϕ + i sin ϕ)(cos ψ + i sin ψ)
= rs (cos ϕ cos ψ − sin ϕ sin ψ) + i(sin ϕ cos ψ + cos ϕ sin ψ) .
Die Additionstheoreme liefern dann die Multiplikationsformel
zw = rs cos(ϕ + ψ) + i sin(ϕ + ψ) .
Beim Multiplizieren zweier komplexer Zahlen multiplizieren sich die Beträge (das wussten wir
schon) und addieren sich die Argumente. In der Gaußschen Zahlenebene entspricht die Multiplikation also einer Drehstreckung.
Eine bequeme Darstellung für eine komplexe Zahl ist die Eulersche Darstellung
z = r(cos ϕ + i sin ϕ) =: reiϕ .
An dieser Stelle soll das für uns nichts anderes als eine sinnvolle Kurzschreibweise für die trigonometrische Darstellung sein. Die Exponentialfunktion für komplexe Argumente werden wir dann
später in der Vorlesung ausführlich behandeln. Mit den Werten der trigonometrischen Funktionen
an den Stellen π2 , π, 3π
2 , 2π erhält man
πi
e2 =i
eπi = −1
e
3πi
2
= −i
e2πi = 1.
Die Multiplikationsformel kann man dann mit
z = reiϕ
und
w = seiψ
schreiben als
zw = reiϕ seiψ = rsei(ϕ+ψ) .
Die bekannte Regel für das Multiplizieren von Potenzen wird also respektiert.
Aus der Multiplikationsformel erhält man per Induktion die Formel von Moivre für Potenzen z n
von z = r(cos ϕ + i sin ϕ) = reiϕ :
z n = rn (cos nϕ + i sin nϕ) = rn einϕ .
34
Als Beispiel berechnen wir (1 + i)42 . Dazu bringen wir zunächst 1 + i in die trigonometrische
Form
√
1 + i = 2 cos π4 + i sin π4
und erhalten anschließend mit der Formel von Moivre
√ 42
42π
(1 + i)42 =
2
cos 42π
= 221 cos π2 + i sin π2 = 221 i.
4 + i sin 4
Vergleichen Sie dies mit einer Berechnung über die binomische Formel! Mit der Eulerschen Darstellung kann man dies noch kompakter schreiben als
√ πi 42
42πi
πi
2e 4
(1 + i)42 =
= 221 e 4 = 221 e10πi e 2 = 221 i.
Überlegen Sie sich an dieser Stelle als Übung, wie man aus der Standardform z = x + iy der
komplexen Zahl die trigonometrische Form berechnen kann!
2.6
Endlichkeit, Abzählbarkeit und Überabzählbarkeit
Im letzten Abschnitt dieses Kapitels wollen wir uns damit beschäftigen, wie man die Größe von
(insbesondere unendlichen) Mengen miteinander vergleichen kann. Dabei werden wir einsehen,
dass es (in gewissem Sinne) genauso viele rationale Zahlen wie natürliche Zahlen, aber mehr
reelle Zahlen als rationale Zahlen gibt.
Definition 2.33. Zwei Mengen A und B heißen gleichmächtig, falls es eine Bijektion von A auf
B gibt. In diesem Fall schreiben wir A ∼ B.
Eine Menge A mit n ∈ N Elementen ist gleichmächtig zur Menge {1, 2, . . . , n}. Solche Mengen
nennen wir natürlich endliche Mengen und die Zahl n ist die Kardinalität der Menge A, die
man oft mit #A oder |A| bezeichnet. Auch die leere Menge ist eine endliche Menge mit der
Kardinalität 0.
Die Gleichmächtigkeit ist eine Relation zwischen Mengen. Sie ist reflexiv, d.h. für jede Menge A
gilt A ∼ A. Sie ist symmetrisch, d.h. für je zwei Mengen A und B folgt aus A ∼ B auch B ∼ A.
Sie ist transitiv, d.h. für drei Mengen A, B, C folgt aus A ∼ B und B ∼ C auch A ∼ C.
Eine reflexive, symmetrische und transitive Relation heißt Äquivalenzrelation. Die Gleichmächtigkeit ist also eine Äquivalenzrelation.
Definition 2.34. Eine Menge heißt abzählbar, falls sie gleichmächtig zur Menge N der natürlichen Zahlen ist. Eine Menge, die weder endlich noch abzählbar ist, heißt überabzählbar.
Abzählbare Mengen sind also (im Sinne gleicher Mächtigkeit) genauso groß wie die Menge der
natürlichen Zahlen, überabzählbare Mengen sind größer. Eine Menge A ist also abzählbar, wenn
es eine Bijektion f : N → A gibt, also jedem Element aus A genau eine Nummer n ∈ N zugeordnet
wird. Man kann A also schreiben als
A = {a1 , a2 , a3 , . . . }.
Beispiele für abzählbare Mengen sind
• die geraden Zahlen {2, 4, 6, 8, . . .}
35
• die ganzen Zahlen Z = {0, +1, −1, +2, −2, +3, −3, . . . }
• die rationalen Zahlen Q (Bild!!!)
Überlegen Sie sich (zumindest für die beiden ersten Beispiele) eine explizite Bijektion f ! Auch
Vereinigungen endlich oder abzählbar vieler abzählbarer Mengen sich wieder abzählbar. Eine
schöne Veranschaulichung dazu ist Hilberts Hotel.
Kommen wir nun zur Mächtigkeit der reellen Zahlen.
Satz 2.35. Die Menge R der reellen Zahlen ist überabzählbar.
Beweis. Wir wollen für diesen Satz zwei Beweise geben. Beide sind Widerspruchsbeweise, wir
nehmen also an, dass die reellen Zahlen abzählbar sind, wir also alle reellen Zahlen in eine Liste
{x1 , x2 , x3 , . . . } schreiben können. Wir konstruieren dann im Widerspruch zur Annahme eine
reelle Zahl x, die nicht in dieser Liste auftaucht.
Das erste (und vielleicht anschaulichere) Argument benutzt die Dezimaldarstellung der reellen
Zahlen. Das Argument heißt Cantorsches Diagonalargument. Die Zahl x hat die Dezimaldarstellung
0.a1 a2 a3 . . . ,
wobei wir die Ziffer an = 0 wählen, falls die n-te Ziffer von xn verschieden von 0 ist. Ist die
n-te Ziffer von xn gleich 0, so wählen wir an = 1. Dann ist x eine reelle Zahl, die sich von xn in
der n-ten Dezimalstelle unterscheidet. Folglich ist x 6= xn für alle n ∈ N, die Zahl x taucht also
tatsächlich nicht in der Liste auf und der Beweis ist erbracht.
Da wir die Dezimaldarstellung bei unserem axiomatischen Zugang zu den reellen Zahlen noch
nicht zur Verfügung haben (das werden wir im Kapitel über Reihen nachholen), geben wir noch
eine zweite Konstruktion für x an, die den Satz 2.31 benutzt. Die Intervallschachtelung konstruieren wir induktiv. Wir beginnen mit dem Intervall I1 = [x1 + 1, x1 + 2]. Dann ist sicher x1 ∈
/ I1 .
Haben wir das Intervall In−1 schon konstruiert, dann zerlegen wir es in drei abgeschlossene Teilintervalle und wählen als In eines der Teilintervalle, das xn nicht enthält. Ein solches Teilintervall
gibt es sicher, da xn höchstens in zwei der Teilintervalle liegen kann. Also ist xn ∈
/ In . Nach
Konstruktion ist I1 ⊃ I2 ⊃ . . . eine Intervallschachtelung. Nach Satz 2.31 gibt es ein x ∈ R mit
x ∈ In für alle n ∈ N. Damit muss aber x verschieden von allen xn sein, es taucht also nicht in
der Liste auf und der Beweis ist wieder beendet.
36
3
Folgen
In diesem Kapitel beginnen wir die Untersuchung von Grenzprozessen. Sie gehören zu den wichtigsten Prinzipien der Mathematik und bilden das Fundament der Analysis. Wir untersuchen hier
zunächst den Begriff der Konvergenz einer Zahlenfolge. Als motivierendes Beispiel betrachten wir
die Flächenberechnung des Kreises, wie sie Archimedes mit Hilfe der Exhaustionsmethode (d.h.
Ausschöpfungsmethode) durchgeführt hat.
Dazu beschrieb er in einen Kreis vom Radius 1 regelmäßige n-Ecke ein. Für den Flächeninhalt
An dieser n-Ecke kann man elementargeometrisch eine Rekursionsformel herleiten, mit der man
einfach A2n aus An berechnen kann. Archimedes startete mit dem regelmäßigen Sechseck: Die
Zahlenfolge
A6 = 2.5981, A12 = 3.0000, A24 = 3.1058, A48 = 3.1326, A96 = 3.1394, A192 = 3.1410 . . .
konvergiert recht schnell gegen den Flächeninhalt π des Kreises.
Auf diese Weise fand Archimedes die guten Schranken
3+
3.1
10
1
<π <3+ .
71
7
Der Folgenbegriff und Konvergenz
Definition 3.1. Sei X eine Menge. Eine Folge in X ist eine Funktion a : N → X. Mit der
Bezeichnung an := a(n) schreibt man die Folge dann als (an )∞
n=1 oder (an )n∈N oder (an ) oder
(a1 , a2 , . . . ).
Wir werden in diesem Kapitel Zahlenfolgen betrachten, also Folgen in X = R und in X = C.
Diese nennt man reelle Folgen bzw. komplexe Folgen. Jede reelle Folge ist natürlich auch eine
komplexe Folge.
Beispiel 3.2. Die Folge (1, 4, 9, 16, . . . ) = (n2 )n∈N ist die Folge der Quadratzahlen.
Beispiel 3.3. Für jedes z ∈ C ist (z, z 2 , z 3 , . . . ) = (z n )n∈N die Folge der Potenzen von z.
Veranschaulichen Sie sich diese Folge für z = 21 , 2i , i, 2i in der Gaußschen Zahlenebene!
Beispiel 3.4. Sei fn für n ∈ N die Funktion fn : R → R, x 7→ xn . Dann ist (fn )n∈N eine Folge
von Funktionen. Auch solche Folgen werden wir später betrachten.
Komplexe Folgen kann man sich als das Durchlaufen der Punkte a1 , a2 , . . . in der Gaußschen
Zahlenebene vorstellen. Reelle Folgen kann man sich auch durch ihren (diskreten) Graph veranschaulichen.
37
Die Folge (an ) = 1 +
1
n
2
1.75
1.5
1.25
1
n
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Die Folge (an ) = 1 +
(−1)n n
2
1.5
1
0.5
n
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Der Konvergenzbegriff fasst die Eigenschaft gewisser Zahlenfolgen (an ), für wachsendes n beliebig
nahe an einen Grenzwert a ∈ C zu streben. Die Nähe fassen wir dabei durch den Abstand |an −a|,
beliebig nahe heißt kleiner als jedes vorgegebene ε > 0 und für wachsendes n meint für genügend
großes n. Damit kommen wir zur wichtigen Definition der Konvergenz.
Definition 3.5. Eine komplexe Folge (an ) heißt konvergent, falls es ein a ∈ C gibt mit folgender
Eigenschaft:
Zu jedem ε > 0 existiert ein n0 ∈ N, so dass |an − a| < ε ist für alle n ∈ N mit n ≥ n0 .
In diesem Fall heißt a Grenzwert oder Limes der Folge (an ) und man schreibt a = limn→∞ an
oder an → a für n → ∞ oder auch kurz a = lim an . Ist lim an = 0, so heißt die Folge (an )
Nullfolge. Eine Folge, die nicht konvergent ist, heißt divergent.
38
Formalisiert lautet die Konvergenzeigenschaft an → a also:
∀ε > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ |an − a| < ε.
Hierbei hängt das n0 von ε ab, weshalb man manchmal der Deutlichkeit halber n0 (ε) schreibt.
Wir wollen diesen wichtigen Begriff noch weiter erläutern. Dazu geben wir zunächst eine geometrische Deutung der Konvergenz einer Folge (an ) gegen a ∈ C in der Gaußschen Zahlenebene.
Wir betrachten für gegebenes ε > 0 die offene Kreisscheibe
Uε (a) = {z ∈ C : |z − a| < ε}
mit Mittelpunkt a und Radius ε. Diese Kreisscheibe heißt ε-Umgebung von a. Die Konvergenzeigenschaft bedeutet dann, dass in jeder solchen Kreisscheibe bis auf endlich viele Ausnahmen alle
Folgenglieder an liegen. Für bis auf endlich viele Ausnahmen alle n sagt man auch fast alle n ∈ N
oder für genügend großes n ∈ N. Man kann die Konvergenzbedingung also auch so formulieren:
In jeder ε-Umgebung von a liegen fast alle Folgenglieder an .
Übrigens nennt man jede Obermenge U ⊇ Uε (a) eine Umgebung von a. Dann kann man auch
formulieren:
a = lim an
⇐⇒
Jede Umgebung von a enthält fast alle an .
Offensichtlich gilt
an → a
⇐⇒
(an − a) ist Nullfolge.
Beispiel 3.6. Die Folge n1 n∈N ist eine Nullfolge. Dies ist eine Umformulierung der archimedischen Eigenschaft: Zu jedem ε > 0 gibt es ein n0 ∈ N mit n10 < ε. Damit gilt auch für alle n ≥ n0
die Ungleichung 0 < n1 < ε.
Wir wollen uns zunächst überlegen, dass der Grenzwert einer konvergenten Folge eindeutig bestimmt ist. Dies ist eine Konsequenz der Dreiecksungleichung. Wir führen einen Widerspruchsbeweis, nehmen also an → a und an → b mit a 6= b an. Dann definieren wir ε > 0 durch 2ε = |a − b|
und wählen n1 , n2 ∈ N mit
|an − a| < ε
für
n ≥ n1
|an − b| < ε
für
n ≥ n2 .
Wählen wir nun ein beliebiges n ≥ max{n1 , n2 }, so erhalten wir den Widerspruch
2ε = |a − b| = |(a − an ) + (an − b)| ≤ |a − an | + |an − b| < ε + ε = 2ε.
Am folgenden Beispiel wollen wir uns überlegen, wie man einen Konvergenzbeweis findet und
wie man ihn anschließend kurz aufschreibt.
Beispiel 3.7. Die Folge √1n n∈N ist eine Nullfolge.
Wir müssen zu vorgegebenem ε > 0 ein n0 finden, so dass die Ungleichung
1 √ ≤ ε für n ≥ n0
n
39
gilt. Diese Ungleichung ist aber äquivalent zu
1
≤ ε2 für n ≥ n0 .
n
Ein n0 , dass diese Ungleichung erfüllt, können wir wieder mit der archimedischen Eigenschaft
finden. Damit gilt die Ungleichung dann auch für alle n ≥ n0 .
Nun dazu, wie man diesen Beweis kurz und elegant aufschreibt.
Beweis. Sei ε > 0 gegeben. Die archimedische Eigenschaft liefert ein n0 ∈ N mit
folgt √1n ≤ √1n0 < ε für n ≥ n0 .
1
n0
< ε2 . Dann
Wir schließen einige Bemerkungen dazu an, die das Beweisen von Konvergenzaussagen für Folgen
vereinfachen können.
Bemerkung. Sei (an ) eine komplexe Folge und a ∈ C.
(i) Falls man zeigen kann: Es gibt ein K > 0 mit der Eigenschaft:
∀ε > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ |an − a| < Kε,
dann gilt an → a.
(ii) Ist (bn ) eine Folge mit bn = an für genügend großes n, so gilt
an → a
⇐⇒
bn → a.
Das Konvergenzverhalten einer Folge hängt also nicht ab von endlich vielen Anfangsgliedern
der Folge.
(iii) Ist (an ) eine Nullfolge und (bn ) eine Folge mit |bn | ≤ K|an | für ein K > 0 und fast alle n,
so ist auch (bn ) eine Nullfolge.
Definition 3.8. Eine Teilmenge A ⊂ C heißt beschränkt, wenn es ein R > 0 gibt, so dass
|a| ≤ R für alle a ∈ A gilt. Eine Folge (an ) heißt beschränkt, wenn die Menge A = {a1 , a2 , . . . }
der Folgenglieder beschränkt ist.
Satz 3.9. Konvergente Folgen sind beschränkt.
Beweis. Sei (an ) eine konvergente Folge mit Grenzwert a. Wenden wir die Konvergenzdefinition
für ε = 1 an, so finden wir ein n0 mit
n ≥ n0 ⇒ |an − a| < 1 ⇒ |an | < |a| + 1
wobei die letzte Implikation aus der Dreiecksungleichung folgt. Setzen wir
M = max{|a1 |, |a2 |, . . . , |an0 −1 |, |a| + 1}
so erhalten wir |an | ≤ M für alle n ∈ N, die Folge (an ) ist also beschränkt.
Kommen wir zur Berechnung einiger wichtiger Grenzwerte.
40
Beispiel 3.10.
lim
√
n
n→∞
Wir setzen xn =
√
n
n = 1.
n − 1 und müssen dann xn → 0 zeigen. Aus dem binomischen Satz folgt
n 2
n(n − 1) 2
n
n = (1 + xn ) ≥ 1 +
xn = 1 +
xn .
2
2
Umstellen nach xn liefert für n ≥ 2 die Abschätzung
r
|xn | = xn ≤
Da
√1
n
2
.
n
eine Nullfolge ist, ist nach Bemerkung (iii) auch xn eine Nullfolge.
Beispiel 3.11. Sei a > 0. Dann gilt
lim
√
n
n→∞
a = 1.
Sei zunächst a ≥ 1. Dann ist n > a für genügend großes n und somit
√
√
√
√
n a − 1 = n a − 1 ≤ n n − 1 = n n − 1
√
für genügend großes n. Damit ist ( n a−1) nach Bemerkung (ii) und (iii) ebenfalls eine Nullfolge.
Den Fall a < 1 kann man analog behandeln oder auf den Fall a > 1 mit den unten aufgeführten
Rechenregeln für Grenzwerte zurückführen.
Beispiel 3.12. Sei z ∈ C mit |z| < 1. Dann gilt
lim z n = 0.
n→∞
1
Für z = 0 ist die Behauptung klar. Zum Beweis für z 6= 0 setzen wir x > 0 so, dass |z| = 1+x
ist.
n
Dann erhalten wir aus der Bernoulli-Ungleichung oder der binomischen Formel (1 + x) ≥ 1 + nx
und damit
1
1 1
1
≤
≤
.
|z n | =
n
(1 + x)
1 + nx
xn
Da ( n1 ) eine Nullfolge ist, ist nach Bemerkung (iii) auch z n eine Nullfolge.
Beispiel 3.13. Sei z ∈ C mit |z| > 1 und k ∈ N. Dann gilt
nk
= 0.
n→∞ z n
lim
Wir setzen |z| = 1 + x mit x > 0. Ist n > 2k, so ergibt sich aus der binomischen Formel
nk+1
n
n(n − 1) . . . (n − k) k+1
n
n
|z| = (1 + x) >
xk+1 =
x
> k+1
xk+1 .
k+1
(k + 1)!
2 (k + 1)!
Es folgt
k
k+1
k
n = n < 2 (k + 1)! 1 =: K 1 .
z n |z|n
n
n
xk+1
k
Da n1 eine Nullfolge ist, ist also auch nz n eine Nullfolge.
Der folgende Satz beinhaltet wichtige Rechenregeln für konvergente komplexe Folgen.
41
Satz 3.14.
Seien (an ), (bn ) komplexe Folgen mit an → a und bn → b. Dann gilt:
(i) an → a
(ii) |an | → |a|
(iii) Re an → Re a und Im an → Im a
(iv) an + bn → a + b
(v) an bn → ab
(vi) Falls b 6= 0 ist, ist bn 6= 0 für fast alle n ∈ N und
an
bn
→ ab .
Die Regeln kann man auch einprägsamer schreiben. Zum Beispiel bedeutet (i)
lim an = lim an .
Das muss man aber korrekt lesen als: Falls lim an existiert, dann existiert auch lim an und es gilt
lim an = lim an .
Analog bedeutet (iii)
lim(an + bn ) = lim an + lim bn .
Was ist hier die Voraussetzung? Schreiben Sie auch die anderen Eigenschaften in dieser einprägsamen Schreibweise!
Beweis. (i) Sei ε > 0 und sei n0 so gewählt, dass |an − a| < ε für n ≥ n0 gilt. Dann folgt für
n ≥ n0 auch
|an − a| = |an − a| = |an − a| < ε
und damit die behauptete Konvergenz an → a.
(ii) Sei ε > 0 und sei n0 so gewählt, dass |an − a| < ε für n ≥ n0 gilt. Dann folgt für n ≥ n0
mit der Dreiecksungleichung auch
|an | − |a| ≤ |an − a| < ε
und damit die behauptete Konvergenz |an | → |a|.
(iii) Sei ε > 0 und sei n0 so gewählt, dass |an − a| < ε für n ≥ n0 gilt. Dann folgt für n ≥ n0
auch
Re an − Re a = |Re (an − a)| ≤ |an − a| < ε
und damit die behauptete Konvergenz Re an → Re a. Die Konvergenz der Imaginärteile
beweist man analog.
(iv) Sei ε > 0 und seien n1 und n2 so gewählt, dass |an − a| < ε für n ≥ n1 und |bn − b| < ε für
n ≥ n2 gilt. Dann folgt für n ≥ n0 := max{n1 , n2 } mit der Dreiecksungleichung auch
(an + bn ) − (a + b) = (an − a) + (bn − b) ≤ |an − a| + |bn − b| < 2ε
und damit die behauptete Konvergenz an + bn → a + b.
42
(v) Wir benutzen die Abschätzung
|an bn − ab| = |an bn − abn + abn − ab| ≤ |an bn − abn | + |abn − ab| = |bn ||an − a| + |a||bn − b|.
Nun ist (bn ) als konvergente Folge beschränkt, sagen wir |bn | ≤ M für alle n ∈ N. Dann
erhalten wir
|an bn − ab| ≤ M |an − a| + |a||bn − b|.
Da (an − a) und (bn − b) Nullfolgen sind, ist auch (M |an − a| + |a||bn − b|) eine Nullfolge,
also auch (an bn − ab). Es folgt die behauptete Konvergenz an bn → ab.
(vi) Nach (ii) gilt |bn | → |b| > 0, also gibt es zu ε = |b|
2 ein n0 ∈ N mit |bn | > |b| − ε =
n ≥ n0 . Damit ist bn 6= 0 für n ≥ n0 . Weiter folgt für n ≥ n0
b − bn 1
1
≤ 2 |b − bn |.
− =
bn
b bn b |b|2
Wegen bn → b folgt also
1
bn
→ 1b . Mit (v) folgt dann auch
an
bn
|b|
2
für
→ ab .
Mittels dieser Regeln und den schon bekannten Grenzwerten lassen sich schon sehr viele Grenzwerte berechnen. Zum Beispiel ist
√
42 + 2 n + 23n
1
1
lim
= 42 lim
+ 2 lim √ + lim 23 = 0 + 0 + 23 = 23.
n→∞
n→∞ n
n→∞
n
n n→∞
Ein weiteres Beispiel folgt:
√
n
Beispiel 3.15. Sei k ∈ N. Dann gilt limn→∞ nk = 1. Für k = 1 haben wir das schon gezeigt.
Der Rest folgt per vollständiger Induktion aus
√
√
√
√
n
n
n
lim nk+1 = lim nk n = lim nk lim n n = 1 · 1 = 1.
n→∞
n→∞
n→∞
n→∞
Weiter zeigt Satz 3.14 auch:
• Grenzwerte reeller Folgen sind reell.
• Eine komplexe Folge konvergiert genau dann, wenn die Folgen der Realteile und der Imaginärteile konvergieren. In diesem Fall ist
lim an = lim Re an + i lim Im an .
Für reelle Folgen liefert die Ordnung der reellen Zahlen einige weitere nützliche Regeln für Grenzwerte, die wir im folgenden Satz zusammenfassen.
Satz 3.16. Seien (an ), (bn ), (cn ) reelle Folgen. Dann gilt:
(i) Aus an → a, bn → b und an ≤ bn für fast alle n folgt a ≤ b.
(ii) Ist an → a und an ∈ [b, c] für fast alle n, so ist auch a ∈ [b, c].
(iii) Ist an → a und cn → a und an ≤ bn ≤ cn für fast alle n, dann ist die Folge bn konvergent
mit bn → a. Diese Regel wollen wir in Zukunft Sandwichregel nennen.
43
Beweis. (i) Wegen an → a und bn → b und an ≤ bn für fast alle n gibt es zu jedem ε > 0 ein
n0 ∈ N mit a − ε ≤ an ≤ bn ≤ b + ε für n ≥ n0 . Es folgt also a − b ≤ 2ε, und zwar für jedes
ε > 0. Also ist a − b ≤ 0 und folglich a ≤ b.
(ii) Hier betrachten wir neben der Folge (an ) noch die konstanten Folgen (bn ) mit bn = b und
(cn ) mit cn = c. Nach Voraussetzung ist bn ≤ an ≤ cn für fast alle n. Ebenfalls nach
Voraussetzung ist an → a. Außerdem ist offensichtlich bn → b und cn → c. Mit (i) folgt
b ≤ a ≤ c.
(iii) Sei ε > 0. Wegen an → a und an ≤ bn gilt a − bn ≤ a − an < ε für fast alle n. Wegen
cn → a und bn ≤ cn gilt bn − a ≤ cn − a < ε für fast alle n. Zusammen folgt |bn − a| < ε
für fast alle n und damit die behauptete Konvergenz bn → a.
√
Beispiel 3.17. Für a, b ≥ 0 gilt lim n an + bn = max{a, b}. Sei ohne Beschränkung der Allgemeinheit b ≥ a. Dann folgt mit der Sandwichregel (iii) aus den Ungleichungen
√
√
√
√
n
n
n
n
b = bn ≤ an + bn ≤ 2bn = 2b
√
√
und n 2 → 1 sofort n an + bn = b = max{a, b}.
3.2
Monotone Folgen
In diesem Abschnitt wollen wir uns weiter mit reellen Folgen beschäftigen und die Ordnungsstruktur ausnutzen. Wir wollen einsehen, dass man für monotone Folgen zeigen kann, dass sie
konvergieren (unter der zusätzlichen Voraussetzung der Beschränktheit), ohne explizit den Grenzwert bestimmen zu können. Als Anwendung werden wir die Eulersche Zahl e als Grenzwert einer
monotonen Folge finden.
Definition 3.18. Eine reelle Folge (an ) heißt monoton wachsend, falls a1 ≤ a2 ≤ a3 ≤ . . . gilt.
Sie heißt monoton fallend, falls a1 ≥ a2 ≥ a3 ≥ . . . gilt. Sie heißt monoton, falls sie monoton
wachsend oder monoton fallend ist. Falls sogar a1 < a2 < a3 < . . . (bzw. a1 > a2 > a3 > . . . )
gilt, nennen wir die Folge (an ) strikt monoton wachsend (bzw. strikt monoton fallend).
Im folgenden bezeichnen wir kurz mit sup an (inf an ) das Supremum (Infimum) der Menge der
Folgenglieder einer beschränkten reellen Folge (an ).
Beispiel 3.19. Die Folge ( n1 ) ist (strikt) monoton fallend. Sie konvergiert gegen
0 = inf n1 . Die
Folge (− n1 ) ist (strikt) monoton wachsend. Sie konvergiert gegen 0 = sup − n1 . Ist (an ) (strikt)
monoton wachsend, so ist (−an ) (strikt) monoton fallend.
Satz 3.20 (Monotonieprinzip). Eine monotone Folge konvergiert genau dann, wenn sie beschränkt ist. Außerdem ist an → sup an (an → inf an ), falls (an ) monoton wachsend (fallend)
und beschränkt ist.
Beweis. Da konvergente Folgen beschränkt sind, genügt es zu zeigen, dass an → a := sup an für
eine monoton wachsende und beschränkte Folge (an ) gilt. Sei dazu ε > 0 beliebig. Die Definition
des Supremums liefert dann ein n0 ∈ N mit an0 > a − ε. Aus der Monotonie der Folge ergibt
sich damit an > a − ε für n ≥ n0 . Nun ist aber stets an ≤ a, da a eine obere Schranke für die
Folgenglieder an ist. Zusammen haben wir also a − ε < an ≤ a < a + ε, also |an − a| < ε für alle
n ≥ n0 . Da ε > 0 beliebig war, ist an → a gezeigt.
44
Beispiel 3.21 (Eulersche Zahl). Wir betrachte die beiden Folgen (an ), (bn ) gegeben durch
1 n
n+1 n
an = 1 +
=
n
n
1 n+1
n + 1 n+1
bn = 1 +
=
.
n
n
und
Wir zeigen die Monotonie beider Folgen.
Zunächst zeigen wir, dass (an ) monoton wachsend ist. Dazu betrachten wir
an+1
=
an
n+1
n+2
n+1
n+1 n
n
=
(n + 2)n
(n + 1)2
n+1
n+1
=
n
1−
1
(n + 1)2
n+1
n+1
n
1
und benutzen die Bernoulli-Ungleichung (1 + x)n+1 ≥ 1 + (n + 1)x für x = − (n+1)
2 > −1, um
an+1
≥
an
1
1−
n+1
n+1
=1
n
zu erhalten.
Analog zeigen wir, dass (bn ) monoton fallend ist. Dazu betrachten wir
bn
bn+1
=
n+1 n+1
n
n+2
n+2
n+1
=
(n + 1)2
n(n + 2)
n+2
n
=
n+1
1+
1
n(n + 2)
n+2
n
≥
n+1
1
1+
n
n
= 1,
n+1
wobei wir in der Abschätzung wieder die Bernoulli-Ungleichung benutzt haben.
Wir erhalten also
2 = a1 ≤ a2 ≤ · · · ≤ an ≤ · · · ≤ bn ≤ · · · ≤ b2 ≤ b1 = 4.
Also sind (an ) und (bn ) monotone und beschränkte Folgen und damit konvergent mit
an → a := sup an
und
bn → b := inf bn .
Wir zeigen nun noch, dass die Grenzwerte übereinstimmen, also a = b ist. Dazu betrachten wir
1 n
1
an
4
bn − an = 1 +
1+ −1 =
≤ .
n
n
n
n
Folglich ist an ≤ bn ≤ an +
4
n
und die Sandwichregel liefert a = lim an = lim bn = b.
Der gemeinsame Grenzwert der Folgen (an ) und (bn ) wird Eulersche Zahl genannt und mit e
bezeichnet:
1 n
1 n
1 n+1
1 n+1
e = lim 1 +
= sup 1 +
= lim 1 +
= inf 1 +
.
n
n
n
n
Wir bemerken noch, dass die Monotonie beider Folgen sogar strikt ist, da die Bernoulli-Ungleichung
in unserer Anwendung eine strikte Ungleichung ist.
45
3.3
Teilfolgen, Satz von Bolzano-Weierstraß
Ist (n1 , n2 , . . . ) eine strikt monoton wachsende Folge natürlicher Zahlen, so heißt die Folge
∞
ank k=1 = an1 , an2 , . . .
Teilfolge
∞ der Folge (an ). Aus limn→∞ an = a folgt offensichtlich limk→∞ ank = a für jede Teilfolge
ank k=1 . Jede Teilfolge einer konvergenten Folge konvergiert also ebenfalls, und zwar gegen den
gleichen Grenzwert.
Mit Hilfe des Teilfolgenbegriffs und des Monotonieprinzips kann man den wichtigen Auswahlsatz
von Bolzano-Weierstraß einsehen.
Satz 3.22. Jede beschränkte komplexe Folge besitzt eine konvergente Teilfolge.
Beweis. Wir zeigen den Satz zunächst für eine beschränkte reelle Folge (an ). Dazu nennen wir
m ∈ N einen Peak der Folge (an ), falls für n > m immer an < am gilt. Hat die Folge (an )
unendlich viele Peaks n1 < n2 < . . . , so ist die Teilfolge ank strikt monoton fallend und somit
nach dem Monotonieprinzip konvergent. Hat die Folge (an ) nur endlich viele Peaks, so wählen
wir n1 größer als den größten Peak. Falls es überhaupt keinen Peak gibt, wählen wir n1 beliebig,
z.B. n1 = 1. Damit ist n1 kein Peak und wir finden n2 > n1 mit an1 ≤ an2 . Auch n2 ist kein
Peak, also finden wir n3 > n2 mit an2 ≤ an3 . Setzen wir dies induktiv fort, erhalten wir eine
monoton wachsende und damit konvergente Teilfolge. Damit ist der Satz für reelle Folgen richtig.
Ist nun (an ) eine beschränkte komplexe Folge, so stellen wir an = xn + iyn mit Realteil und
Imaginärteil dar. Dann sind die Folgen (xn ) und (yn ) reell und beschränkt. Nach dem gerade gezeigten finden wir eine konvergente Teilfolge von (xn ) und anschließend eine konvergente Teilfolge
der entsprechenden Teilfolge von (yn ). Seien
(n1 , n2 , . . . ) die Indizes dieser nach zwei Schritten
entstandenen
Teilfolgen, für die also xnk und ynk konvergieren. Dann konvergiert auch die
Folge ank .
Der Satz von Bolzano-Weierstraß wird oft in einer Version mit dem Begriff Häufungspunkt formuliert.
Definition 3.23. Sei (an ) eine komplexe Folge und a ∈ C. Dann heißt a Häufungspunkt oder
Häufungswert der Folge (an ), wenn jede ε-Umgebung von a unendlich viele Folgenglieder (an )
enthält, wenn es also unendlich viele n ∈ N gibt mit |an − a| < ε.
Vergleichen Sie das mit der Konvergenz an → a: hier müssen fast alle Folgenglieder in jeder
ε-Umgebung liegen. Insbesondere ist also der Grenzwert einer konvergenten Folge ein Häufungspunkt. Offenbar ist a genau dann Häufungspunkt von (an ), wenn es eine Teilfolge von (an ) gibt,
die gegen a konvergiert. Die Menge der Häufungspunkte einer Folge ist gerade die Menge der
Grenzwerte konvergenter Teilfolgen. Dies führt zu einer alternativen Formulierung des Satzes von
Bolzano-Weierstraß:
Satz 3.24. Jede beschränkte komplexe Folge besitzt einen Häufungspunkt.
Eine komplexe Folge ist genau dann konvergent, wenn sie beschränkt ist und genau einen Häufungpunkt hat.
Die Menge der Häufungspunkte einer beschränkten reellen Folge (an ) ist eine beschränkte Menge
in R. Das Supremum dieser Menge heißt Limes Superior der Folge (an ) und wird mit lim sup an
46
bezeichnet. Das Infimum heißt Limes Inferior und wird mit lim inf an bezeichnet. Offensichtlich
gelten die Ungleichungen
inf an ≤ lim inf an ≤ lim sup an ≤ sup an .
Limes Superior und Limes Inferior sind selbst Häufungspunkte von (an ). Wir überlegen uns
das hier für a = lim sup an . Nehmen wir an, das a kein Häufungspunkt ist, dann existiert eine
ε-Umgebung (a − ε, a + ε), die nur endlich viele an enthält. Es können aber auch nur endlich
viele an die Ungleichung an ≥ a + ε erfüllen, ansonsten würde es wegend es Satzes von BolzanoWeierstrass einen Häufungspunkt größer als a geben. Also gibt es keinen Häufungspunkt h > a−ε
und es folgt der Widerspruch a ≤ a − ε.
Also ist lim sup an der größte Häufungspunkt von (an ) und lim inf an der kleinste.
Wir zeigen noch die nützlichen Formeln
lim inf an = lim inf an
k→∞ n≥k
und
lim sup an = lim sup an .
k→∞ n≥k
Da (an ) beschränkt ist, existieren bk = inf n≥k an und ck = supn≥k an und es gilt bk ≤ ck .
Außerdem ist die Folge (bk ) monoton wachsend und die Folge (ck ) monoton fallend, es existieren
nach Satz 3.20 b = limk→∞ inf n≥k an und c = limk→∞ supn≥k cn . Wir setzen noch a = lim inf an
und zeigen a = b. Die Gleichung für lim sup an folgt analog.
Da a Häufungspunkt von (an ) ist, gibt es zu jedem ε > 0 und jedem k ∈ N ein n ≥ k mit
an < a + ε. Also ist bk = inf n≥k an < a + ε für alle k. Es folgt b = lim bk ≤ a + ε, und da dies für
jedes ε > 0 gilt auch b ≤ a. Weiter gibt es zu jedem ε > 0 nur endlich viele an < a − ε, woraus
bk = inf n≥k an ≥ a − ε für genügend großes k und schließlich b = lim bk ≥ a − ε folgt. Wieder ist
ε > 0 beliebig und damit b ≥ a. Zusammen erhalten wir wie behauptet b = a.
Beispiel 3.25. Die Folge (an ) sei gegeben durch an = (−1)n + n1 . Für die Teilfolge (a2n )
1
finden wir a2n = 1 + 2n
→ 1. Also ist 1 ein Häufungspunkt. Für die Teilfolge (a2n+1 ) ist
1
a2n+1 = −1 + 2n+1 → −1. Also ist -1 ein Häufungspunkt. Weitere Häufungspunkte gibt es nicht.
Wir haben also
lim inf an = −1
und
lim sup an = 1.
Beispiel 3.26. Sei (an ) eine Aufzählung aller rationalen Zahlen im Intervall [0, 1]. Da die rationalen Zahlen in [0, 1] dicht in [0, 1] liegen, finden wir zu jedem x ∈ [0, 1] eine Teilfolge von (an ),
die gegen x konvergiert. Also ist die Menge der Häufungspunkte von (an ) das ganze Intervall
[0, 1] und damit überabzählbar. Insbesondere haben wir für jede solche Folge
lim inf an = 0
und
lim sup an = 1.
Wir werden diesen Begriffen beim Studium der Konvergenz von Potenzreihen wiederbegegnen.
3.4
Cauchyfolgen
In diesem Abschnitt wollen wir ein weiteres Kriterium kennenlernen, mit dem man ohne die
Kenntnis des Grenzwertes auf die Konvergenz einer Folge schließen kann. Dieses Kriterium hängt
eng mit der Vollständigkeit der reellen Zahlen zusammen. Zentral ist der Begriff der Cauchyfolge.
Definition 3.27. Eine komplexe Folge (an ) heißt Cauchyfolge, falls sie die folgende Eigenschaft
hat:
Zu jedem ε > 0 existiert ein n0 ∈ N, so dass |an − am | < ε ist für alle n, m ∈ N mit n, m ≥ n0 .
47
Vergleichen Sie diese Definition mit der Konvergenzdefinition! Formal liest sich die Cauchyfolgenbedingung so:
∀ε > 0 ∃ n0 ∈ N ∀n, m ∈ N : n, m ≥ n0 ⇒ |an − am | < ε.
Für eine komplexe Folge (an ) mit an = xn + iyn und xn , yn ∈ R gilt:
(an ) ist Cauchyfolge ⇐⇒ (xn ) und (yn ) sind Cauchyfolgen.
Dies folgt aus
|xn − xm |, |yn − ym | ≤ |an − am | =
p
(xn − xm )2 + (yn − ym )2 .
Das zentrale Ergebnis dieses Abschnitts ist
Satz 3.28. Sei (an ) eine komplexe Folge. Dann ist (an ) genau dann konvergent, wenn (an ) eine
Cauchyfolge ist.
Beweis. Wir überlegen uns zunächst die einfache Implikation: Ist (an ) konvergent, dann ist (an )
eine Cauchyfolge. Dazu sei an → a und ε > 0. Dann finden wir ein n0 so dass |an − a| < 2ε für
alle n ≥ n0 gilt. Aus der Dreiecksungleichung folgt dann für n, m ≥ n0
|an − am | ≤ |an − a| + |a − am | <
ε ε
+ =ε
2 2
und die Cauchyfolgeneigenschaft ist erwiesen.
Für die andere Implikation ist zu zeigen: Ist (an ) eine Cauchyfolge, dann ist (an ) konvergent.
Nach obiger Bemerkung genügt es, dies für reelle Folgen zu zeigen. Zunächst zeigen wir dazu,
dass eine Cauchyfolge beschränkt ist. Dazu wählen wir zu ε = 1 ein n0 mit |an − am | < 1 für
n, m ≥ n0 . Mit der Dreiecksungleichung folgt dann
|an | ≤ |an − an0 | + |an0 | < 1 + |an0 |
für n ≥ n0 . Damit ist max{|a1 |, . . . , |an0 −1 |, 1 + |an0 |} eine Schranke für |an | für alle n ∈ N,
vergleiche den entsprechenden Beweis für Beschränktheit konvergenter Folgen.
Aus dem Satz von Bolzano-Weierstraß folgt nun die Existenz einer konvergenten Teilfolge von
(an ), deren Grenzwert wir a nennen. Wir zeigen schließlich, dass a sogar Grenzwert der gesamten
Folge (an ) ist. Dazu fixieren wir ε > 0 und wählen n0 so, dass |an − am | < ε für n, m ≥ n0 ist.
Dies ist die Cauchy-Folgen-Eigenschaft. Aus der gegen a konvergenten Teilfolge wählen wir nun
ein am mit m ≥ n0 und |am − a| < ε. Die Dreiecksungleichung liefert dann für jedes n ≥ n0
|an − a| ≤ |an − am | + |am − a| < 2ε,
was die Konvergenz an → a zeigt.
Wir diskutieren jetzt noch einmal die Vollständigkeit der reellen Zahlen. Für diese Eigenschaft
gibt es eine Reihe von äquivalenten Formulierungen, die im Zusammenhang mit zentralen Resultaten aus der Vorlesung stehen. Dazu sei K ein angeordneter Körper. Dann sind die folgenden
Aussagen über K äquivalent:
1. K ist ordnungsvollständig, d.h. jede nichtleere nach oben beschränkte Teilmenge von K
hat ein Supremum. (das war unser Axiom der Vollständigkeit!)
48
2. K ist archimedisch (d.h. die natürlichen Zahlen in K sind unbeschränkt) und jede Intervallschachtelung aus abgeschlossenen Intervallen hat einen nichtleeren Durchschnitt.
3. Jede monotone und beschränkte Folge in K besitzt einen Grenzwert.
4. Jede beschränkte Folge in K besitzt eine konvergente Teilfolge (Bolzano-Weierstraß).
5. K ist archimedisch und jede Cauchyfolge in K konvergiert.
Dass die Eigenschaft 1. die Eigenschaften 2.-5. impliziert, haben wir in der Vorlesung gezeigt. Es
ist eine gute Übungsaufgabe, auch die umgekehrten Implikationen zu zeigen.
Wir schließen dieses Kapitel mit der Einführung des Begriffs der bestimmten Divergenz (in
manchen Büchern uneigentliche Konvergenz) einer reellen Folge. Dazu benutzen wir die Symbole
∞ = +∞ und −∞. Sei also (an ) eine reelle Folge. Dann heißt (an ) bestimmt divergent gegen
+∞, falls gilt
∀R > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ an > R.
Dafür schreiben wir an → +∞ oder lim an = +∞. Weiter heißt (an ) bestimmt divergent gegen
−∞, falls gilt
∀R > 0 ∃ n0 ∈ N ∀n ∈ N : n ≥ n0 ⇒ an < −R.
Dafür schreiben wir an → −∞ oder lim an = −∞.
Zum Beispiel gilt
√
√
n = +∞,
lim − n) = −∞.
n→∞
√
Hingegen ist die Folge (an ) mit an = (−1)n n nicht bestimmt divergent. Viele der Rechenregeln
für Grenzwerte reeller Folgen lassen sich auf uneigentliche Grenzwerte verallgemeinern. Ist zum
Beispiel an → a ∈ R und bn → +∞, so gilt an + bn → +∞ und an − bn → −∞. Allerdings muss
man vorsichtig sein, aus an → +∞ und bn → −∞ kann man nichts über die Konvergenz von
an + bn schlussfolgern! Überlegen Sie sich an dieser Stelle, welche Rechenregeln gelten und finden
Sie Gegenbeispiele für Regeln, die nicht gelten!
lim
n→∞
49
4
Reihen
Reihen sind spezielle Folgen (sn ), die mit Hilfe der Zuwächse an = sn − sn−1 beschrieben werden,
also
s 1 = a1
s 2 = a1 + a2
s 3 = a1 + a2 + a3
s 4 = a1 + a2 + a3 + a4
..
.
Sie werden sich als wichtiges Hilfsmittel zur Konstruktion und Behandlung von Funktionen herausstellen.
4.1
Der Reihenbegriff, Konvergenz und Eigenschaften
Sei also (an ) eine komplexe Folge und
sn =
n
X
ak
k=1
für n ∈ N. Dann heißt die Folge (sn ) eine unendliche Reihe oder kurz Reihe, für die man auch
∞
X
ak
a1 + a2 + a3 + . . .
oder
oder kurz
X
ak
k=1
schreibt. Die Zuwächse ak heißen Glieder der Reihe und die Summen sn heißen Partialsummen
P
der Reihe. Ist die Folge der Partialsummen (sn ) konvergent mit sn → s, so heißt die Reihe
ak
konvergent und wir schreiben auch für den Grenzwert s
∞
X
ak := s = lim sn = lim
n→∞
k=1
n→∞
n
X
ak .
k=1
Reihen, die nicht konvergent sind, heißen divergent.
Sind die Reihenglieder ak reell und gilt sn → ∞ oder sn → −∞, so schreibt man auch
∞
X
ak = ∞
bzw.
k=1
∞
X
ak = −∞
k=1
und nennt die Reihe bestimmt divergent oder uneigentlich konvergent.
Natürlich kann man auch Reihen der Form
∞
X
ak
oder
k=0
betrachten, die Definition sollte nun klar sein.
Ein nicht sonderlich interessantes Beispiel ist
∞
X
k=42
ak
50
Beispiel 4.1 (Endliche Reihen). P
Ist (ak ) eine abbrechende Folge, also ak = 0 für k > k0 , so sind
die Partialsummen sn der Reihe ∞
k=1 ak für n > k0 konstant und die Reihe somit konvergent
mit
k0
∞
X
X
ak =
ak .
k=1
k=1
Ein wesentlich spannenderes Beispiel ist das folgende
Beispiel 4.2 (Geometrische Reihen). Ist (ak ) eine geometrische Folge, d.h. ak = q k für eine
komplexe Zahl q, so nennt man die resultierende Reihe
∞
X
qk
k=0
eine geometrische Reihe. Für q 6= 1 kennen Sie aus den Übungen bereits die Formel für die
Partialsummen
n
X
1 − q n+1
sn =
qk =
,
1−q
k=0
die man leicht einsieht, indem man
(1 − q)sn =
n
X
qk −
k=0
n+1
X
q k = 1 − q n+1
k=1
beobachtet. Da für |q| < 1 die Folge (q n+1 ) eine Nullfolge ist, gilt lim sn =
P k
die geometrische Reihe
q also konvergent mit
∞
X
qk =
k=0
1
1−q .
Für |q| < 1 ist
1
.
1−q
Für q = 0 muss man für die Gültigkeit dieser Formel 00 := 1 setzen. Für |q| ≥ 1 ist die
geometrische Reihe divergent.
Ein weiteres wichtiges Beispiel ist
Beispiel 4.3 (Harmonische Reihe). Die harmonische Reihe ist die Reihe
ist bestimmt divergent
∞
X
1
= ∞.
k
P∞
1
k=1 k .
Diese Reihe
k=1
Dies sieht man ein, indem man beobachtet, dass die Partialsummen monoton wachsend sind und
die Abschätzung
1
1 1
1 1 1 1
1
1
1
s2n = 1 + +
+
+
+ + +
+ ··· +
+
+ ··· + n
2
3 4
5 6 7 8
2n−1 + 1 2n−1 + 2
2
1
1
1
1
≥ 1 + + 2 · + 4 · + · · · + 2n−1 · n
2
4
8
2
1
1 1 1
= 1 + + + + ··· +
2 2 2
2
n
= 1+
2
benutzt.
51
Aus der Definition der Reihenkonvergenz und den entsprechenden Regeln für konvergente Folgen
leitet man leicht die beiden folgenden Rechenregeln ab (tatsächlich?!):
• Sind
P
ak und
P
bk konvergent, so ist auch
∞
X
(ak + bk ) =
k=1
• Ist
P
P
(ak + bk ) konvergent mit
∞
X
ak +
k=1
ak konvergent und c ∈ C, so ist auch
∞
X
P
∞
X
bk .
k=1
cak konvergent mit
cak = c
k=1
∞
X
ak .
k=1
Wir übersetzen jetzt das Cauchykriterium für die
P Konvergenz der Partialsummenfolge (sn ) in das
Cauchykriterium für die Konvergenz der Reihe ak . Dabei ist nichts zu beweisen, wir beobachten
nur, dass für die Differenz
sm − sn =
m
X
ak −
k=1
n
X
k=1
ak =
m
X
ak
k=n+1
gilt, falls m > n ist.
P
ak ist genau dann konvergent, wenn gilt
m
X
∀ε > 0 ∃ n0 ∈ N ∀n, m ∈ N : m > n ≥ n0 ⇒ ak < ε.
Satz 4.4 (Cauchykriterium).
Die Reihe
k=n+1
Indem man nur den Fall m = n + 1 betrachtet, erhält man für eine konvergente Reihe
dem Cauchykriterium die Aussage
P
ak aus
∀ε > 0 ∃ n0 ∈ N ∀m ∈ N : m > n0 ⇒ |am | < ε.
Das ist aber nichts anderes als die Aussage, dass (an ) eine Nullfolge ist. Es gilt also das wichtige
P
Korollar 4.5. Ist
ak konvergent,
so ist die Folge der Reihenglieder (ak ) eine Nullfolge. Ist
P
(ak ) keine Nullfolge, so ist
ak nicht konvergent.
Auch das Monotoniekriterium liefert ein nützliches Konvergenzkriterium für Reihen mit nichtnegativen reellen Gliedern:
P
• Eine Reihe
ak mit ak ≥ 0 für alle k ∈ N konvergiert genau dann, wenn ihre Partialsummen beschränkt sind.
Dies liegt einfach daran, dass die Partialsummen einer solchen Reihe monoton wachsend sind.
Beispiel 4.6. Mit Hilfe des Monotoniekriteriums erhält man zum Beispiel die Konvergenz der
Reihe
∞
X
1
.
k!
k=0
52
Tatsächlich sieht man durch die Abschätzung
sn = 1 +
1
1
1
1
1
1
+ + ··· +
≤ 1 + 1 + + 2 + . . . n−1 < 3
1! 2!
n!
2 2
2
die Beschränktheit der Partialsummen und damit die Konvergenz der Reihe. Es gilt
∞
X
1 n
1
= lim 1 +
= e.
k! n→∞
n
k=0
Dies sieht man durch die folgenden Betrachtungen ein.
Zunächst folgt aus dem binomischen Satz
1 n
n 1
n 1
n 1
1+
= 1+
+
+ ··· +
2
n
1 n
2 n
n nn
1
1
1
2
n−1
1
1−
+ ··· +
1−
1−
... 1 −
.
= 1+1+
2!
n
n!
n
n
n
Daraus ergibt sich einerseits
1 n
1
1
1
1+
≤ 1 + + + ··· +
n
1! 2!
n!
und damit
e = lim
n→∞
1
1+
n
n
≤
∞
X
1
.
k!
k=0
Andererseits folgt für festes ` ∈ N auch
1 n
1
1
1
1
2
`−1
lim 1 +
≥ lim 1 + 1 +
1−
+ ··· +
1−
1−
... 1 −
n→∞
n→∞
n
2!
n
`!
n
n
n
`
X
1
=
k!
k=0
und damit
∞
X
1
.
e≥
k!
k=0
Beispiel 4.7. Das Monotoniekriterium benutzen wir jetzt, um die Dezimalbruchentwicklung
und allgemeiner b-adische Entwicklungen von reellen Zahlen über den Reihenbegriff einzuführen.
Sei dazu b ∈ N, b ≥ 2. Für die Dezimalbruchentwicklung ist b = 10. Auch der Fall b = 2
spielt eine gewisse Rolle, die entsprechende b-adische Entwicklung heißt Binärdarstellung oder
Dualdarstellung. Die Zahlen 0, 1, . . . , b − 1 nennen wir jetzt Ziffern und schreiben für eine Folge
z1 , z2 , z3 , . . . von Ziffern
∞
X
zk
0.z1 z2 z3 · · · :=
.
bk
k=1
Die Glieder dieser Reihe sind nichtnegativ und die Partialsummen sind beschränkt durch
!
∞
∞
X
X
1
b−1
1
= (b − 1)
= (b − 1)
− 1 = 1,
bk
bk
1 − 1b
k=1
k=1
53
die Reihensumme ist also eine reelle Zahl in [0, 1].
Um sich zu überlegen, dass auch jede reelle Zahl im Intervall [0, 1) in der Form 0.z1 z2 z3 . . .
geschrieben werden kann, brauchen wir die Definition
[x] := max{n ∈ Z : n ≤ x}
des größten Ganzen einer reellen Zahl x. Setzt man dann nämlich z1 := [bx] und induktiv
"
!#
n−1
X zk
n
zn = b x −
,
bk
k=1
so erhält man
n−1
X zk
1
zk
≤
x
<
+ n−1
k
k
b
b
b
k=1
k=1
P
zk
und damit induktiv 0 ≤ zn < b und x = ∞
k=1 bk . Will man die b-adische Darstellung eindeutig
machen, so muss man wie üblich verbieten, dass die Folge (zk ) ab einer gewissen Stelle konstant
gleich b − 1 ist.
4.2
n−1
X
Absolute Konvergenz und Konvergenzkriterien
Eine wichtige Klasse konvergenter Reihen sind die absolut konvergenten Reihen.
Definition 4.8. Die Reihe
beträge konvergent ist.
P
ak heißt absolut konvergent, falls die Reihe
P
|ak | ihrer Absolut-
Beispiel 4.9 (Geometrische Reihen). Die geometrische Reihe
∞
X
qk
k=0
mit |q| < 1 ist absolut konvergent, da die Reihe ihrer Absolutbeträge die (konvergente) geometrische Reihe
∞
X
|q|k
k=0
ist.
Beispiel 4.10 (Alternierende harmonische Reihe). Die alternierende harmonische Reihe ist die
Reihe
∞
X
1
1 1 1
(−1)k−1 = 1 − + − ± . . . .
k
2 3 4
k=1
Diese Reihe ist nicht absolut konvergent, da die Reihe ihrer Absolutbeträge die (divergente)
harmonische Reihe ist. Wir werden bald einsehen, dass die alternierende harmonische Reihe
trotzdem konvergent ist.
Wir haben schon angekündigt:
Satz 4.11. Absolut konvergente Reihen sind konvergent.
54
Beweis. Dies folgt aus der zweifachen
Anwendung des Cauchykriteriums zusammen mit der
P
Dreiecksungleichung. Sei
dazu
a
absolut
konvergent und ε > 0. Dann existiert wegen der
k
P
Konvergenz der Reihe
|ak | ein n0 , so dass für m > n ≥ n0
m
X
|ak | < ε
k=n+1
ist (Cauchykriterium). Die Dreiecksungleichung liefert
m
m
X
X
ak ≤
|ak | < ε
k=n+1
für m > n ≥ n0 , also ist
P
k=n+1
ak konvergent (Cauchykriterium).
Das liefert die folgenden nützlichen Vergleichskriterien:
P
• Majorantenkriterium:
Ist
bk absolut konvergent und |ak | ≤ |bk | für (fast) alle k, so ist
P
auch
ak absolut konvergent.
P
• Minorantenkriterium:
Ist 0 ≤ bk ≤ ak für (fast) alle k und ist
bk divergent, so ist auch
P
ak divergent.
P
So ist z.B. jede Reihe
ak konvergent, für die es ein q ∈ (0, 1) gibt mit |ak | ≤ q k für fast alle
k ∈ N. Hieraus ergeben sich zwei der wichtigsten Konvergenzkriterien für Reihen:
• Wurzelkriterium: Gibt es ein k0 und ein q ∈ R mit 0 ≤ q < 1, so dass
p
k
|ak | ≤ q
für k ≥ k0
P
gilt, so ist
ak absolut konvergent (und damit konvergent).
• Quotientenkriterium: Gibt es ein k0 und ein q ∈ R mit 0 ≤ q < 1, so dass
ak+1 ak 6= 0
und
für k ≥ k0
ak ≤ q
P
gilt, so ist
ak absolut konvergent (und damit konvergent).
Die Bedingung beim Wurzelkriterium ist nämlich äquivalent zu |ak | ≤ q k für k ≥ k0 . Beim
Quotientenkriterium nehmen wir o.B.d.A. an, dass die Bedingung für alle k gilt und erhalten
induktiv
|ak | ≤ q|ak−1 | ≤ q 2 |ak−2 | ≤ · · · ≤ q k−1 |a1 |.
Es ist wichtig, dass in den Bedingungen tatsächlich q
gen zu
p
k
|ak | < 1
oder
< 1 ist. Eine Abschwächung der Bedingun
ak+1 ak < 1
für alle k ∈ N reicht nicht aus, wie das Beispiel der harmonischen Reihe
Oft kann man die folgenden Limes-Versionen der Kriterien anwenden:
P1
k
zeigt.
55
• Wurzelkriterium: Falls der Grenzwert
lim
k→∞
existiert, so ist
P
p
k
|ak | < 1
ak absolut konvergent (und damit konvergent).
• Quotientenkriterium: Falls der Grenzwert
ak+1 <1
lim
k→∞ ak existiert, so ist
P
ak absolut konvergent (und damit konvergent).
Beispiel 4.12. Für jedes z ∈ C konvergiert die Reihe
∞
X
zk
k=0
k!
,
denn es gilt
z k+1 ak+1 (k+1)! |z|
ak = z k = k + 1 ,
k!
was mit k → ∞ gegen 0 konvergiert und damit sicher die Bedingung im Quotientenkriterium
erfüllt.
Beispiel 4.13. Die Reihe
∞
X
1
kk
k=1
p
konvergiert nach dem Wurzelkriterium, da k |ak | =
1
k
≤
1
2
für k ≥ 2 gilt.
Beispiel 4.14. Für jedes z ∈ C mit |z| < 1 und jedes m ∈ N konvergiert die Reihe
∞
X
km z k ,
k=1
denn es gilt
lim
p
k
|ak | = lim
√
k
m
k |z| = |z| < 1,
womit die Bedingung im Wurzelkriterium erfüllt ist.
Absolute Konvergenz ist sehr wichtig, wenn man Reihenglieder umordnen möchte, also in gewissem Sinne Kommutativität und Assoziativität der Addition bei Reihen anwenden möchte. Damit
muss man im Allgemeinen sehr vorsichtig sein, wie der folgende „Beweis“ der Gleichung 0 = 1
zeigt:
0 = (1 − 1) + (1 − 1) + (1 − 1) + · · · = 1 + (−1 + 1) + (−1 + 1) + · · · = 1.
Offensichtlich ist das Gleichheitszeichen in der Mitte nicht gültig. Hat man hingegen eine absolut
konvergente Reihe, so kann man die Reihenglieder beliebig umordnen und zusammenfassen
und
P
die entstehende Reihe ist wieder konvergent mit der gleichen Summe. Formal: Ist ∞
a
absolut
k
k=1
konvergent
und
π
:
N
→
N
eine
Bijektion
(also
eine
Permutation
der
natürlichen
Zahlen),
so ist
P∞
auch k=1 aπ(k) konvergent und es gilt
∞
X
k=1
aπ(k) =
∞
X
ak .
k=1
Reihen mit dieser Eigenschaft für beliebige Permutationen π nennt man übrigens unbedingt
konvergent. Mit dieser Terminologie gilt dann
56
• Eine Reihe ist unbedingt konvergent genau dann, wenn sie absolut konvergent ist.
Für einen Beweis dieses Satzes verweisen wir hier auf die Literatur. Übrigens kann man eine
konvergente, aber nicht absolut konvergente Reihe mit reellen Gliedern so umordnen, dass jede
beliebige vorgegebene reelle Zahl als Reihensumme herauskommt. Dieses Resultat ist als Riemannscher Umordnungssatz bekannt.
4.3
Alternierende Reihen und Leibniz-Kriterium
Reihen mit reellen Gliedern, deren Vorzeichen alternieren, heißen alternierende Reihen. Ein Beispiel ist die bereits erwähnte alternierende harmonische Reihe
∞
X
1
1 1 1
(−1)k−1 = 1 − + − ± . . . .
k
2 3 4
k=1
Für alternierende Reihen gilt das folgende wichtige Konvergenzkriterium:
Satz 4.15 (Leibniz-Kriterium). Ist (ak ) eine monoton fallende Nullfolge reeller Zahlen (also
insbesondere ak ≥ 0 für alle k ∈ N), so ist die alternierende Reihe a1 − a2 + a3 − a4 ± . . .
konvergent.
Beweis. Aus der Monotonie der Folge (ak ) folgt, dass a1 − a2 , a3 − a4 , . . . nichtnegativ sind.
Damit bilden die Partialsummen der alternierenden Reihe
a1 − a2 + a3 − a4 ± . . .
mit geradem Index n eine monoton wachsende Folge:
s2n+2 = s2n + (a2n+1 − a2n+2 ) ≥ s2n .
Analog sieht man ein, dass die Partialsummen mit ungeradem Index eine monoton fallende Folge
bilden. Außerdem ist s2n+1 − s2n = a2n+1 ≥ 0 für jedes n ∈ N, also s2n+1 ≥ s2n . Wir erhalten
dann
s2 ≤ s4 ≤ · · · ≤ s2n ≤ · · · ≤ s2n+1 ≤ · · · ≤ s3 ≤ s1 .
Als monotone und beschränkte Folgen konvergieren die beiden Folgen (s2n ) und (s2n+1 ), und
zwar wegen s2n+1 − s2n = a2n+1 → 0 gegen den gleichen Grenzwert s. Damit konvergiert aber
die gesamte Partialsummenfolge (sn ) gegen s, die alternierende Reihe ist konvergent.
Insbesondere konvergiert also die alternierende harmonische Reihe, obwohl sie nicht absolut konvergent ist. Übrigens ist
1 1 1
1 − + − ± · · · = ln 2,
2 3 4
was wir aber an dieser Stelle noch nicht zeigen können.
57
5
Stetige Funktionen
In diesem Kapitel geht es um einen weiteren wichtigen Begriff der Analysis - die Stetigkeit. Auch
dieser beruht auf der Betrachtung von Grenzübergängen. Eine Funktion soll stetig sein, wenn
kleine Änderungen im Argument nur kleine Änderungen im Funktionswert zur Folge haben. Eng
verbunden mit dem Begriff der stetigen Funktion ist der Begriff des Grenzwertes einer Funktion.
Diesen werden wir im Anschluss an das Studium der Grundlagen der Stetigkeit untersuchen. Weiter behandelt das Kapitel zwei wichtige Sätzen über stetige Funktionen - den Zwischenwertsatz
und den Satz vom Maximum und Minimum. Wir schließen mit einer Übersicht über elementare
Funktionen.
5.1
Reelle Funktionen, algebraische Operationen, Ordnung
Wiederholen Sie an dieser Stelle den allgemeinen Begriff der Funktion sowie die damit zusammenhängenden Begriffe Bild, Urbild, Graph, Injektivität, Surjektivität, Bijektivität, Umkehroder inverse Funktion, Komposition oder Hintereinanderausführung.
Wir wollen nun noch kurz auf reellwertige Funktionen auf einer allgemeinen Menge D eingehen,
also Funktionen f : D → R. Da man im Bildbereich algebraische Operationen hat, kann man
diese punktweise auch für solche Funktionen definieren. Seinen dazu f, g : D → R zwei derartige
Funktionen. Dann definieren wir die Summe f + g : D → R durch (f + g)(x) = f (x) + g(x) für
x ∈ D. Das Produkt f g : D → R ist gegeben durch (f g)(x) = f (x)g(x) für x ∈ D. Ist a ∈ R, so
definiert man die Funktion af : D → R ebenfalls punktweise durch (af )(x) = af (x) für x ∈ D.
Ist z.B. D = R und f (x) = x, so ist g = f 2 = f · f die Funktion g(x) = x2 und h = 42g + 5f + 1
ist die Funktion h(x) = 42x2 + 5x + 1. Ebenso definiert man punktweise die Funktionen f − g,
f
g (falls g(x) 6= 0 für alle x ∈ D ist).
Funktionen f, g : D → R kann man punktweise miteinander vergleichen. So schreibt man f ≤ g,
falls f (x) ≤ g(x) für alle x ∈ D ist. Analog sind f < g, f ≥ g und f > g definiert.
Ist D ⊆ R und f : D → R, so heißt f monoton wachsend, falls aus x1 , x2 ∈ X und x1 ≤
x2 die Ungleichung f (x1 ) ≤ f (x2 ) folgt. Gilt sogar f (x1 ) < f (x2 ) für x1 < x2 , so heißt f
strikt monoton wachsend. Definieren Sie selbst monoton fallende und strikt monoton fallende
Funktionen. Machen Sie sich klar, dass eine monoton wachsende Funktion a : N → R gerade eine
monoton wachsende Folge reeller Zahlen ist.
5.2
Stetigkeit - Definition, Charakterisierung, grundlegende Sätze
Die „Schuldefinition“ für Stetigkeit, die man manchmal lernt, ist: eine Funktion heißt stetig, wenn
man sie ohne Absetzen durchzeichnen kann. Anschaulich soll diese Definition besagen, dass eine
stetige Funktion „keine Sprünge macht“. Diese „Definition“ hat einige Nachteile.
• Was soll das eigentlich genau heißen?
• Sinn macht das nur für Funktionen f : [a, b] → R auf Intervallen [a, b]. Was ist mit Funktionen mit anderem Definitionsbereich? Was mit komplexen Funktionen?
• Sind die Funktionen in den folgenden Beispielen nun stetig oder nicht?
– f : [0, 1] → R gegeben durch
f (x) =
0 für x ∈ Q
1 für x 6∈ Q.
58
– f : R → R mit
sin x1
0
f (x) =
– f : R → R mit
f (x) =
für x 6= 0
für x = 0
x sin x1
0
für x 6= 0
für x = 0
Für die intuitive Vorstellung, was Stetigkeit bedeutet, ist die Schuldefinition natürlich trotzdem
gut geeignet.
Um zu einer mathematisch sauberen und brauchbaren Definition zu kommen, orientieren wir
uns an der Grenzwertdefinition für Folgen. Wir wollen sagen: falls die Argumente x und x0 dicht
beieinander liegen (also mit einem δ > 0 die Ungleichung |x − x0 | < δ gilt), sollen sich auch die
Funktionswerte nur wenig unterscheiden (also soll |f (x) − f (x0 )| < ε gelten). Wir brauchen also
die Folgerung
|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε,
und zwar für alle ε > 0, wobei wir das δ passend zu ε wählen müssen. Diese Wahl von δ in
Abhängigkeit von ε > 0 entsprach bei der Definition der Folgenkonvergenz der Wahl des n0 .
Damit gelangen wir zu folgender Definition, die sogenannte ε-δ-Definition der Stetigkeit.
Definition 5.1. Sei D ⊆ R und sei f : D → R eine Funktion. Weiterhin sei x0 ∈ D. Dann heißt
f stetig im Punkt x0 , falls es zu jedem ε > 0 ein δ > 0 gibt, so dass für alle x ∈ D die Implikation
|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε
gilt. Mit Quantoren: f ist stetig im Punkt x0 , wenn gilt
∀ε > 0 ∃ δ > 0 ∀x ∈ D : |x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε.
Die Stetigkeit nach dieser Definition ist also eine lokale Eigenschaft in einem Punkt x0 des
Definitionsbereich der Funktion. In jedem Punkt x0 ∈ D können wir entscheiden, ob die Funktion
stetig ist oder nicht. Zur Deutlichkeit schreiben wir die Eigenschaft von f , in einem Punkt x0 ∈ D
nicht stetig zu sein, auf:
∃ ε0 > 0 ∀δ > 0 ∃ x ∈ D : |x − x0 | < δ
und
|f (x) − f (x0 )| ≥ ε0 .
Um zu zeigen, dass eine Funktion in einem Punkt x0 nicht stetig ist, muss man also nur ein
ε0 finden, so dass es in jeder δ-Umgebung des Punktes x0 einen Punkt x gibt, so dass sich die
Funktionswerte f (x) und f (x0 ) um wenigstens ε0 unterscheiden.
Verlangt man nun, dass f in jedem Punkt des Definitionsbereichs stetig ist, gelangt man zur
globalen Definition einer stetigen Funktion.
Definition 5.2. Sei D ⊆ R und sei f : D → R eine Funktion. Dann heißt f stetig (oder global
stetig), wenn f in jedem Punkt x0 ∈ D stetig ist.
Beispiel 5.3. Konstante Funktionen sind stetig.
Beispiel 5.4. Die identische Funktion f : R → R ist stetig (auf ganz R), denn für diese Funktion
gilt
|f (x) − f (x0 )| = |x − x0 |
59
und man kann zu gegebenem ε > 0 das δ > 0 einfach als δ = ε wählen:
|x − x0 | < δ =⇒ |f (x) − f (x0 )| = |x − x0 | < δ = ε.
Analog folgt mit der Dreiecksungleichung
|x| − |x0 | ≤ |x − x0 |
die Stetigkeit der Betragsfunktion g(x) = |x| auf R.
Beispiel 5.5. Die Funktion f : R → R gegeben durch f (x) = x2 ist stetig (auf ganz R). Wir
werden bald einen einfacheren Weg sehen, um dies zu zeigen. An dieser Stelle beweisen wir die
Stetigkeit von f (x) = x2 direkt mit der ε-δ-Definition. Sei also x0 ∈ R beliebig. Um die Stetigkeit
von f im Punkt x0 zu zeigen, müssen wir zu gegebenem ε > 0 ein δ > 0 finden, so dass
2
x − x20 < ε
für
|x − x0 | < δ
gilt. Dazu schätzen wir mit der Dreiecksungleichung folgendermaßen ab:
2
x − x20 = (x − x0 )(x + x0 ) = |x − x0 | |x + x0 | ≤ |x − x0 | |x − x0 | + 2|x0 |
Ist nun
|x − x0 | < 1,
(1)
so können wir den zweiten Faktor durch
|x − x0 | + 2|x0 | ≤ 1 + 2|x0 |
abschätzen. Ist außerdem
|x − x0 | <
ε
,
1 + 2|x0 |
(2)
so erhalten wir insgesamt
2
x − x20 <
Wählen wir also
ε
1 + 2|x0 | = ε.
1 + 2|x0 |
ε
δ = min 1,
1 + 2|x0 |
> 0,
so sind für alle x mit |x − x0 | < δ beide Ungleichungen (1),(2) erfüllt und es folgt wie gewünscht
2
x − x20 < ε.
Im letzten Beispiel hängt das gewählte δ nicht nur von ε, sondern auch vom Punkt x0 ∈ D ab.
Das ist in der Definition der Stetigkeit natürlich zulässig. Der Punkt x0 wird ja festgehalten. Die
stetigen Funktionen, für die man das δ unabhängig von x0 wählen kann, spielen aber ebenfalls
eine wichtige Rolle. Dies führt uns zur nächsten Definition, bei der wir aus Symmetriegründen
x, x0 durch x1 , x2 ersetzen.
Definition 5.6. Sei D ⊆ R und sei f : D → R eine Funktion. Dann heißt f gleichmäßig stetig,
falls es zu jedem ε > 0 ein δ > 0 gibt, so dass für alle x1 , x2 ∈ D die Implikation
|x1 − x2 | < δ =⇒ |f (x1 ) − f (x2 )| < ε
gilt. Mit Quantoren: f ist gleichmäßig stetig, wenn gilt
∀ε > 0 ∃ δ > 0 ∀x1 , x2 ∈ D : |x1 − x2 | < δ =⇒ |f (x1 ) − f (x2 )| < ε.
60
Gleichmäßige Stetigkeit ist also eine Verschärfung der Stetigkeit, es gilt:
f gleichmäßig stetig =⇒ f stetig.
Die Funktionen aus den Beispielen 5.3 und 5.4 sind gleichmäßig stetig, die Funktion aus 5.5 nicht
(tatsächlich?). Betrachtet man aber die Funktion aus Beispiel 5.5 eingeschränkt auf ein Intervall
[a, b], also f : [a, b] → R mit f (x) = x2 , so zeigt der Beweis oben, dass man dann δ unabhängig
von x0 ∈ [a, b] wählen kann, also f gleichmäßig stetig ist.
Die Funktionen aus den Beispielen 5.3 und 5.4 haben sogar noch eine stärkere Stetigkeitseigenschaft, die wir jetzt einführen - sie sind Lipschitz-stetig.
Definition 5.7. Sei D ⊆ R und sei f : D → R eine Funktion. Dann heißt f Lipschitz-stetig,
falls es eine Konstante L ≥ 0 gibt, so dass für alle x1 , x2 ∈ D die Ungleichung
f (x1 ) − f (x2 ) ≤ L |x1 − x2 |
gilt.
Offenbar sind Lipschitz-stetige Funktionen gleichmäßig stetig, denn hier kann man δ = Lε wählen. Lipschitz-stetige Funktionen sind also gerade die stetigen Funktionen, für die man in der
ursprünglichen Stetigkeitsdefinition δ linear in ε wählen kann (und unabhängig von x0 ). Wir
haben dann die Implikationen
f Lipschitz-stetig =⇒ f gleichmäßig stetig =⇒ f stetig.
Beispiel 5.8. Lineare Funktionen sind Lipschitz-stetig. Eine lineare Funktion f : R → R ist eine
Funktion der Form f (x) = ax + b mit Konstanten a, b ∈ R. Die Lipschitz-Stetigkeit folgt aus
f (x1 ) − f (x2 ) = (ax1 + b) − (ax2 + b) = |a| |x1 − x2 |.
Hier kann man also L = |a| wählen.
Beispiel 5.9. Die Funktionen f : R → R gegeben durch f (x) = |x|, f (x) = Re x, f (x) = Im x,
f (x) = x sind Lipschitz-stetig. Hier kann man L = 1 wählen.
Wir kommen nun zum nützlichen Folgenkriterium für Stetigkeit, das in manchen Lehrbüchern
auch als Ausgangsdefinition benutzt wird.
Satz 5.10 (Folgenkriterium). Sei D ⊆ R, sei f : D → R eine Funktion und sei x0 ∈ D. Dann
ist f im Punkt x0 stetig genau dann, wenn für jede Folge (xn ) ⊆ D aus der Konvergenz xn → x0
die Konvergenz f (xn ) → f (x0 ) folgt.
Dieses Kriterium zeigt also, dass Stetigkeit eine Aussage über die Vertauschbarkeit von Folgengrenzwerten und Funktionswerten ist:
lim f (xn ) = f lim xn .
n→∞
n→∞
Beweis. Sei zunächst f stetig in x0 und sei (xn ) ⊆ D eine Folge mit xn → x0 . Wir haben die
Konvergenz f (xn ) → f (x0 ) zu zeigen. Dazu wählen wir zunächst zu gegebenem ε > 0 mit Hilfe
der Stetigkeitsdefinition ein δ > 0, so dass
|x − x0 | < δ =⇒ |f (x) − f (x0 )| < ε
61
für alle x ∈ D gilt. Anschließend wählen wir mit Hilfe der Definition der Konvergenz xn → x0
ein n0 ∈ N mit
n ≥ n0 =⇒ |xn − x0 | < δ.
Beide Implikationen zusammen liefern
n ≥ n0 =⇒ |f (xn ) − f (x0 )| < ε.
Da ε > 0 beliebig war, folgt die Konvergenz f (xn ) → f (x0 ).
Für die andere Richtung setzen wir voraus, dass f in x0 nicht stetig ist und konstruieren eine
Folge (xn ) ⊆ D mit xn → x0 , aber f (xn ) 6→ f (x0 ). Die Unstetigkeit von f in x0 liefert uns ein
ε0 > 0, so dass für alle δ > 0 ein x ∈ D existiert mit den beiden Eigenschaften
|x − x0 | < δ
und
|f (x) − f (x0 )| ≥ ε0
existiert. Für n ∈ N benutzen wir jetzt diese Aussage mit δ = n1 , um ein xn ∈ D mit den beiden
Eigenschaften
1
|xn − x0 | <
und
|f (xn ) − f (x0 )| ≥ ε0
n
zu finden. Wir erhalten also eine Folge (xn ) ⊆ D. Die Eigenschaft
|xn − x0 | <
1
für n ∈ N
n
liefert xn → x0 , die zweite Eigenschaft
|f (xn ) − f (x0 )| ≥ ε0 für n ∈ N
liefert f (xn ) 6→ f (x0 ).
Damit ist der Beweis vollständig.
Aus dem Folgenkriterium für die Stetigkeit ergeben sich nun sofort folgende wichtige Rechengesetze für stetige Funktionen.
Algebraische Operationen
Seien f, g : D → R stetig im Punkt x0 ∈ D. Dann sind auch die Funktionen
f + g, f − g, f g : D → R
stetig in x0 . Ist g(x) 6= 0 für x ∈ D, so ist auch die Funktion
f
:D→R
g
stetig in x0 . Wir beweisen nur die Stetigkeit von f + g, die anderen Funktionen behandelt man
komplett analog.
Beweis. Sei (xn ) ⊆ D eine Folge mit xn → x0 . Aus der Stetigkeit von f und g im Punkt x0 folgt
mit dem Folgenkriterium f (xn ) → f (x0 ) und g(xn ) → g(x0 ). Damit gilt auch
(f + g)(xn ) = f (xn ) + g(xn ) → f (x0 ) + g(x0 ) = (f + g)(x0 ).
Anwendung des Folgenkriteriums liefert die Stetigkeit von f + g in x0 .
62
Insbesondere sind also Summen, Differenzen und Produkte stetiger Funktionen wieder stetig.
Ebenso sind Quotienten stetiger Funktionen stetig, wenn man den Definitionsbereich einschränkt
auf die Punkte x ∈ D, in denen der Nenner nicht verschwindet.
Beispiel 5.11. Polynome sind auf ganz R stetig. Ein Polynom ist eine Funktion p : R → R der
Form
p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 .
Damit ergibt sich die Stetigkeit aus der Stetigkeit der konstanten Funktionen, der identischen
Funktion f (x) = x und der Stetigkeit von Summen und Produkten stetiger Funktionen.
Beispiel 5.12. Rationale Funktionen sind stetig auf ihrem natürlichen Definitionsbereich. Eine
rationale Funktion r ist ein Quotient r = pq zweier Polynome p und q. Ihr natürlicher Definitionsbereich ist D = {x ∈ R : q(x) 6= 0}. Die Stetigkeit von r : D → R ergibt sich aus der Stetigkeit
von p, q und der Stetigkeit von p/q in allen Punkten, in denen der Nenner q nicht verschwindet.
Kompositionen
Auch die Komposition stetiger Funktionen ist wieder stetig. Seien D, E ⊆ R und seien f : D → E
und g : E → R. Dann ist die Komposition g ◦ f : D → R definiert. Ist f stetig in x0 ∈ D und ist
g stetig in y0 = f (x0 ), so ist g ◦ f stetig in x0 . Insbesondere folgt also aus der Stetigkeit von f
und g die Stetigkeit von g ◦ f .
Beweis. Für den Beweis nutzen wir wieder das Folgenkriterium. Sei also (xn ) ⊆ D eine Folge mit
xn → x0 . Aus der Stetigkeit von f im Punkt x0 folgt mit dem Folgenkriterium yn := f (xn ) →
f (x0 ) = y0 . Aus der Stetigkeit von g im Punkt y0 folgt nun mit dem Folgenkriterium
g ◦ f (xn ) = g f (xn ) = g(yn ) → g(y0 ) = g f (x0 ) = g ◦ f (x0 ).
Anwendung des Folgenkriteriums liefert die Stetigkeit von g ◦ f in x0 .
Beispiel 5.13. Ist f : D → R stetig, so ist auch die Funktionen |f | stetig auf D. Diese ist
nämlich Kompositionen von f mit den auf ganz R stetigen Funktion g(x) = |x|.
Beispiel 5.14. Sind f, g : D → R stetig, so sind auch die Funktionen max{f, g} und min{f, g}
stetig. Dies folgt aus den Gleichungen
max{f, g} =
1
f + g + |f − g|
2
und
min{f, g} =
1
f + g − |f − g|
2
und den obigen Beispielen und Rechengesetzen.
Umkehrfunktionen
Sei f : [a, b] → D ⊂ R eine stetige bijektive Funktion auf einem abgeschlossenen Intervall [a, b].
Dann ist die Umkehrfunktion f −1 : D → [a, b] stetig.
Beweis. Hier müssen wir das Folgenkriterium gemeinsam mit dem Satz von Bolzano-Weierstraß
verwenden. Sei also (yn ) ⊆ D eine Folge mit yn → y0 . Unser Ziel ist es, die Konvergenz f −1 (yn ) →
f −1 (y0 ) zu zeigen. Dazu setzen wir xn = f −1 (yn ) und x0 = f −1 (y0 ). Es folgt f (xn ) = yn und
f (x0 ) = y0 .
Die Folge (xn ) ist im Intervall [a, b] enthalten, besitzt also nach dem Satz von Bolzano-Weierstraß
eine konvergente Teilfolge (xnk ), sagen wir limk→∞ xnk = ξ ∈ [a, b]. Die Stetigkeit der Funktion
f liefert nun mit dem Folgenkriterium die Konvergenz
lim ynk = lim f xnk = f (ξ).
k→∞
k→∞
63
Aus der Voraussetzung yn → y0 folgt jetzt f (x0 ) = y0 = f (ξ). Die Bijektivität von f liefert
ξ = x0 .
Dieses Argument liefert auch, dass jeder Häufungspunkt der Folge (xn ) gleich x0 ist, die Folge
hat also nur einen Häufungspunkt x0 und ist damit konvergent:
f −1 (yn ) = xn → x0 = f −1 (y0 ).
√
Beispiel 5.15. Da die Wurzelfunktion x 7→ k x die Umkehrfunktion der bijektiven stetigen
Funktion f : R≥0 → R≥0 , f (x) = xk ist, folgt die Stetigkeit der Wurzelfunktionen.
Ebenfalls aus dem Folgenkriterium für die Stetigkeit und dem Satz von Bolzano-Weierstraß erhält
man den folgenden Satz.
Satz 5.16. Eine stetige Funktion f : [a, b] → R auf einem abgeschlossenen Intervall ist gleichmäßig stetig.
Beweis. Nehmen wir an, dass f stetig aber nicht gleichmäßig stetig ist. Dann existieren ε0 > 0
und Folgen (xn ), (x0n ) in [a, b] mit
|xn − x0n | → 0
und
|f (xn ) − f (x0n | ≥ ε0 .
Der Satz von Bolzano-Weierstraß liefert dann eine konvergente Teilfolge (xnk ) von (xn ), sagen
wir xnk → x0 . Wegen
|x0nk − x0 | ≤ |x0nk − xnk | + |xnk − x0 | → 0
gilt auch x0nk → x0 . Da f stetig ist, impliziert dads Folgenkriterium nun
f (xn ) − f (x0n ) → |f (x0 ) − f (x0 )| = 0,
k
k
im Widerspruch zu |f (xnk ) − f (x0nk | ≥ ε0 . Also ist f gleichmäßig stetig, wenn f stetig ist.
5.3
Grenzwerte von Funktionen
Der Begriff des Grenzwerts einer Funktion hängt sehr eng mit dem Stetigkeitsbegriff zusammen.
Allerdings braucht der Punkt x0 , in dem man den Grenzwert limx→x0 f (x) bestimmen will, nicht
zum Definitionsbereich der Funktion f gehören. Er sollte aber an D angrenzen. Dies fassen wir
mit folgender Definition.
Definition 5.17. Sei D ⊆ R und x0 ∈ R. Dann heißt x0 Häufungspunkt von D, falls es eine
Folge (xn ) ⊆ D gibt mit xn 6= x0 für alle n ∈ N und xn → x0 .
Beispiel 5.18. Häufungspunkte der Menge D = (0, 1) sind alle Punkte x0 ∈ [0, 1].
Beispiel 5.19. Die Menge Z der ganzen Zahlen hat keine Häufungspunkte.
Beispiel 5.20. Die Menge { n1 : n ∈ N} hat genau einen Häufungspunkt x0 = 0.
In manchen Büchern findet man die folgende äquivalente Definition: x0 ist Häufungspunkt von
D ⊆ R genau dann, wenn es zu jedem ε > 0 ein x ∈ D gibt mit 0 < |x − x0 | < ε, wenn es also
in jeder Umgebung von x0 einen von x0 verschiedenen Punkt aus D gibt.
64
Definition 5.21. Sei D ⊆ R und x0 ∈ R ein Häufungspunkt von D. Weiter sei f : D → R und
a ∈ R. Dann ist a der Grenzwert von f für x → x0 , wenn für alle Folgen (xn ) ⊆ D mit xn 6= x0
für alle n ∈ N und xn → x0
f (xn ) → a
gilt. Dann schreibt man
lim f (x) = a.
x→x0
Man beachte, dass im Fall x0 ∈ D der Funktionswert f (x0 ) für die Existenz des Grenzwerts keine
Rolle spielt! Mit dem Folgenkriterium für Stetigkeit ergibt sich, dass limx→x0 f (x) = a genau
dann gilt, wenn die Funktion g : D ∪ {x0 } → R definiert durch
f (x) für x 6= x0
g(x) =
a
für x = x0
im Punkt x0 stetig ist. Insbesondere gilt für eine im Punkt x0 ∈ D stetige Funktion f : D → R
lim f (x) = f (x0 ).
x→x0
Beispiel 5.22. Sei D = R \ {1}, x0 = 1 und
f (x) =
x2 − 1
.
x−1
Dann ist f im Punkt x0 = 1 nicht definiert, aber es gilt
x2 − 1
(x + 1)(x − 1)
= lim
= lim (x + 1) = 2.
x→1 x − 1
x→1
x→1
x−1
lim
Dies ist äquivalent dazu, dass die fortgesetzte Funktion g : R → R gegeben durch
( 2
x −1
für x 6= 1
x−1
g(x) =
2
für x = 1
im Punkt x0 = 1 stetig ist. Dies ist offensichtlich, wenn man g(x) = x + 1 für alle x ∈ R
beobachtet.
Aus den Rechenregeln für stetige Funktionen ergeben sich sofort die folgenden Eigenschaften.
• lim f (x) = a, lim g(x) = b =⇒ lim f (x) ± g(x) = a ± b
x→x0
x→x0
x→x0
• lim f (x) = a, lim g(x) = b =⇒ lim f (x) g(x) = a b
x→x0
x→x0
x→x0
• lim f (x) = a, lim g(x) = b =⇒ lim
x→x0
x→x0
x→x0
f (x)
a
= , falls b 6= 0 ist.
g(x)
b
• Ist f : D → E ⊆ R und existiert limx→x0 f (x) = a ∈ E, und ist g : E → R stetig in a ∈ E,
so existiert limx→x0 g ◦ f (x) = g(a).
• lim f (x) = lim f (x)
x→x0
x→x0
65
Beispiel 5.23.
r
lim
x→1
3
x2 − 1
=
x−1
r
3
√
x2 − 1 q
3
= 3 lim (x + 1) = 2.
x→1 x − 1
x→1
lim
Zum Abschluß dieses Abschnitts führen wir noch zwei Modifikationen von Grenzwerten von
Funktionen ein. Zunächst kann man wie bei reellen Folgen uneigentliche Grenzwerte betrachten.
Dazu sei D ⊆ R und f : D → R.
• Ist x0 Häufungspunkt von D und gilt limn→∞ f (xn ) = +∞ für jede Folge (xn ) ⊆ D mit
xn 6= x0 für alle n ∈ N und xn → x0 , so schreiben wir lim f (x) = +∞.
x→x0
• Ist x0 Häufungspunkt von D und gilt limn→∞ f (xn ) = −∞ für jede Folge (xn ) ⊆ D mit
xn 6= x0 für alle n ∈ N und xn → x0 , so schreiben wir lim f (x) = −∞.
x→x0
• Ist D nach oben unbeschränkt und gilt limn→∞ f (xn ) = a für jede Folge (xn ) ⊆ D mit
xn → +∞, so schreiben wir lim f (x) = a. Hierbei kann a ∈ R oder a = ±∞ sein.
x→+∞
• Ist D nach unten unbeschränkt und gilt limn→∞ f (xn ) = a für jede Folge (xn ) ⊆ D mit
xn → −∞, so schreiben wir lim f (x) = a. Hierbei kann a ∈ R oder a = ±∞ sein.
x→−∞
Beispiel 5.24. Sei f : R \ {0} → R gegeben durch f (x) =
1
.
x2
Dann gilt
1
= +∞.
x→0 x2
lim f (x) = lim
x→0
Beispiel 5.25. Sei p : R → R ein Polynom n-ten Grades gegeben durch
p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0
mit an 6= 0. Dann gilt limx→+∞ p(x) = +∞, falls an > 0 ist, und limx→+∞ p(x) = −∞, falls
an < 0 ist (tatsächlich?). Überlegen Sie sich die verschiedenen Möglichkeiten für limx→−∞ p(x)
(das hängt auch davon ab, ob n gerade oder ungerade ist!).
Außerdem kann man bei reellem Definitionsbereich auch einseitige Grenzwerte betrachten. Dazu
sei D ⊆ R und f : D → R. Weiter sei x0 ein Häufungspunkt der Menge D+ = {x ∈ D : x > x0 }.
Dann heißt a rechtsseitiger Grenzwert von f für x → x0 (oder Grenzwert von oben/rechts), wenn
für alle Folgen (xn ) ⊆ D+ mit xn → x0 die Konvergenz f (xn ) → a gilt. Dann schreibt man
lim f (x) =
x&x0
lim
f (x) = a.
x→(x0 )+
Ist x0 ein Häufungspunkt der Menge D− = {x ∈ D : x < x0 }, so heißt a linksseitiger Grenzwert
von f für x → x0 (oder Grenzwert von unten/links), wenn für alle Folgen (xn ) ⊆ D− mit xn → x0
die Konvergenz f (xn ) → a gilt. Dann schreibt man
lim f (x) =
x%x0
lim
f (x) = a.
x→(x0 )−
Ist x0 Häufungspunkt von D+ und von D− , so existiert limx→x0 f (x) genau dann, wenn limx&x0 f (x)
und limx%x0 f (x) existieren und übereinstimmen. In diesem Fall ist
lim f (x) = lim f (x) = lim f (x).
x→x0
x&x0
x%x0
66
Beispiel 5.26. Die Heavyside-Funktion ist eine stückweise definierte Funktion f : R → R gegeben durch
0 für x < 0
f (x) =
1 für x ≥ 0
Sie ist zwar im Punkt x0 = 0 unstetig und macht dort einen Sprung, aber rechts- und linksseitige
Grenzwerte existieren
lim f (x) = lim f (x) = 1
und
x→0+
x&0
lim f (x) = lim f (x) = 0.
x→0−
x%0
Der Grenzwert limx→0 f (x) existiert nicht.
1.2 y
1
0.8
0.6
0.4
0.2
x
−3
−2
−1
1
2
3
−0.2
Beispiel 5.27. Wir betrachten die Funktion
f (x) =
1
1 − x2
auf ihrem natürlichen Definitionsbereich D = R \ {±1}. Dann gilt
1
= −∞,
x&1 1 − x2
lim
1
= ∞,
x%1 1 − x2
lim
1
1
= lim
= 0.
2
x→+∞ 1 − x
x→−∞ 1 − x2
lim
Die Funktion f hat bei x0 = −1 und bei x0 = 1 Polstellen.
67
y
f (x) =
1
1−x2
4
2
x
−3
−2
−1
1
2
3
−2
−4
Beispiel 5.28. Wir betrachten die Funktion
x−2
x2 −4
f (x) =
0
für x 6= ±2
für x = ±2
auf dem Definitionsbereich D = R. Wegen
f (x) =
x−2
1
x−2
=
=
2
x −4
(x − 2)(x + 2)
x+2
für x 6= ±2 erhalten wir
1
1
= .
x→2 x + 2
4
lim f (x) = lim
x→2
Durch umdefinieren der Funktion an der Stelle x0 = 2 zu f (2) = 14 statt f (2) = 0 können wir
die Funktion dort stetig machen, die Funktion hat dort eine hebbare Unstetigkeit. Bei x0 = −2
liegt wieder eine Polstelle vor.
y
2
1
x
−4
−3
−2
−1
1
−1
−2
−3
2
3
4
68
5.4
Zwischenwertsatz und Satz vom Maximum und Minimum
In diesem Abschnitt wollen wir zwei wichtige Sätze über stetige Funktionen kennenlernen, den
Zwischenwertsatz und den Satz vom Maximum und Minimum.
Der Zwischenwertsatz ist die intuitiv einleuchtende Tatsache, dass eine stetige reelle Funktion auf
einem abgeschlossenen Intervall jeden Wert zwischen den Funktionswerten an den Intervallenden
annimmt.
Satz 5.29. Sei f : [a, b] → R stetig und sei y ∈ R ein Wert zwischen f (a) und f (b) (d.h.
f (a) ≤ y ≤ f (b) oder f (b) ≤ y ≤ f (a)). Dann gibt es ein x ∈ [a, b] mit f (x) = y.
y
20
15
10
5
x
3
4
5
6
7
8
Beweis. Wir betrachten nur den Fall f (a) ≤ f (b). Der Fall f (b) ≤ f (a) kann analog behandelt
werden oder durch den Übergang von f zu −f .
Sei also f (a) ≤ y ≤ f (b). Wir konstruieren eine Intervallschachtelung, die schließlich das gesuchte
x im Durchschnitt liefert. Dazu setzen wir
a1 = a
Ist nun
f
a1 + b1
2
a1 + b1
2
b1 = b.
und
≥ y, setzen wir a2 = a1
und
b2 =
a1 + b1
.
2
Ist hingegen
f
< y, setzen wir a2 =
a1 + b1
2
und
b2 = b1 .
In jedem Fall ist [a2 , b2 ] eine Hälfte des Intervalls [a1 , b1 ] und es gilt f (a2 ) ≤ y ≤ f (b2 ).
Dieses Verfahren setzen wir induktiv fort. Sind an , bn mit f (an ) ≤ y ≤ f (bn ) bereits konstruiert
und ist
an + bn
an + bn
f
≥ y, setzen wir an+1 = an
und
bn+1 =
.
2
2
69
Ist hingegen
f
an + bn
2
< y, setzen wir an+1 =
an + bn
2
und
bn+1 = bn .
Wir erhalten zwei Folgen (an ) und (bn ) mit
a = a1 ≤ a2 ≤ · · · ≤ an ≤ · · · ≤ bn ≤ · · · ≤ b2 ≤ b1 = b
und |an − bn | → 0. Also sind (an ) und (bn ) monotone und beschränkte Folgen und damit konvergent mit dem gleichen Grenzwert
x = lim an = lim bn .
Die Stetigkeit von f und das Folgenkriterium liefern nun
f (x) = lim f (an ) = lim f (bn ).
Außerdem gilt für jedes n ∈ N nach Konstruktion f (an ) ≤ y ≤ f (bn ), was nun
lim f (an ) ≤ y ≤ lim f (bn )
impliziert. Es folgt
f (x) = lim f (an ) = lim f (bn ) = y.
Wir betrachten drei Anwendungen des Zwischenwertsatzes, um seine Bedeutung zu demonstrieren.
Beispiel 5.30. Der Zwischenwertsatz liefert sehr einfach die Existenz von Wurzeln, für die wir
mit Hilfe der Vollständigkeit der reellen Zahlen früher ein komplizierteres Argument brauchten.
Dazu sei a > 0, n ∈ N und f : R≥0 → R gegeben durch f (x) = xn − a. Als Polynom ist f stetig.
Außerdem ist f (0) = −a < 0 und f (1 + a) = (1 + a)n − a > 0. Der Zwischenwertsatz liefert ein
√
x ∈ [0, 1 + a] mit f (x) = 0, also xn = a bzw. x = n a.
Beispiel 5.31. Der Zwischenwertsatz liefert ebenfalls die Existenz von reellen Nullstellen von
Polynomen mit ungeradem Grad. Sei dazu n ∈ N ungerade und p : R → R ein Polynom n-ten
Grades gegeben durch
p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0
mit an 6= 0. Wir nehmen o.B.d.A. an > 0 an. Die Betrachtungen in Beispiel 5.25 haben
limx→+∞ p(x) = +∞ und limx→−∞ p(x) = −∞ gezeigt. Es gibt also a, b ∈ R mit a < b und
p(a) < 0, p(b) > 0. Der Zwischenwertsatz liefert ein x ∈ [a, b] mit p(x) = 0.
Beispiel 5.32. Die nächste Anwendung ist ein einfacher Fixpunktsatz. Sei f : [0, 1] → [0, 1]
stetig. Dann existiert ein x ∈ [0, 1] mit f (x) = x.
Zum Beweis betrachten wir die stetige Funktion g(x) = f (x) − x. Dann ist g(0) = f (0) − 0 ≥ 0
und g(1) = f (1) − 1 ≤ 0. Der Zwischenwertsatz liefert ein x ∈ [0, 1] mit g(x) = 0, also f (x) = x.
Wir kommen nun zum Satz vom Maximum und Minimum.
Satz 5.33.
Sei f : [a, b] → R stetig. Dann gibt es xm und xM in [a, b] mit
f (xm ) ≤ f (x) ≤ f (xM )
für alle x ∈ [a, b].
70
Eine stetige Funktion auf einem abgeschlossenen Intervall ist also beschränkt und nimmt ihr
Maximum M = f (xM ) und ihr Minimum m = f (xm ) auf diesem Intervall an. Zusammen mit
dem Zwischenwertsatz liefert dies, dass das Bild einer stetigen Funktion f : [a, b] → R ein
abgeschlossenes Intervall ist, f [a, b] = [m, M ].
Die Abgeschlossenheit des Intervalls [a, b] in der Voraussetzung des Satzes ist wichtig. So ist die
Funktion f (x) = x1 auf (0, 1] stetig, aber unbeschränkt.
Beweis. Die wichtigsten Zutaten des Beweises sind der Satz von Bolzano-Weierstraß und das
Folgenkriterium für Stetigkeit.
Sei A = f [a, b] und sei S = sup A. Beachten Sie, dass im Moment der Fall S = +∞ noch nicht
ausgeschlossen ist. In jedem Fall gibt es eine Folge (yn ) ⊆ A mit yn → S. Wir wählen zu jedem
yn ein Urbild xn ∈ [a, b] mit f (xn ) = yn . Der Satz von Bolzano-Weierstraß liefert uns nun eine
konvergente Teilfolge (xnk ) von (xn ) mit Grenzwert xM ∈ [a, b],
lim xnk = xM .
k→∞
Das Folgenkriterium für die Stetigkeit gibt dann
S = lim ynk = lim f xnk = f (xM ).
k→∞
k→∞
Es folgt die Endlichkeit von S und dass das Supremum tatsächlich angenommen wird, also ein
Maximum ist.
Die Existenz von xm erhält man analog oder durch Übergang von f zu −f .
5.5
Elementare Funktionen
In diesem Abschnitt wollen wir kurz wichtige elementaren Funktionen einführen. Polynome und
rationale Funktionen kennen wir bereits. Es folgen Exponentialfunktion, Potenzfunktion, Logarithmusfunktion, trigonometrische Funktionen und deren Umkehrfunktionen sowie Hyperbelfunktionen und deren Umkehrfunktionen.
5.5.1
Exponentialfunktion
Sei a ∈ R mit a > 0 fixiert. Für rationales x =
m
n
mit m ∈ Z und n ∈ N definieren wir dann
ax = am/n :=
√
n
am .
Die Funktion x 7→ ax definiert auf Q ist dann streng monoton wachsend für a > 1 und streng
monoton fallend für a < 1. Für a > 1 ergibt sich das aus der Monotonie der Wurzelfunktion
durch Ziehen der (n1 n2 )-ten Wurzel aus
am1 n2 < am2 n1 ,
was für
m2
m1
<
⇐⇒ m1 n2 < m2 n1
n1
n2
aus a > 1 folgt. Den Beweis für 0 < a < 1 führt man analog.
Für beliebiges x ∈ R kann man nun ax durch Grenzübergang gewinnen. Grundlage ist der
folgende Satz.
71
Satz 5.34. Sei (xn ) ⊂ Q monoton wachsend und konvergent mit lim xn = x. Dann konvergiert
die Folge (axn ). Der Grenzwert hängt nur von x ab, nicht von der konkreten Auswahl der Folge
(xn ).
Beweis. Wir nehmen ohne Beschränkung der Allgemeinheit a > 1 an. Dann ist die Folge (axn )
nach den vorhergehenden Bemerkungen monoton wachsend und außerdem nach oben beschränkt,
z. B. durch ay für ein y ∈ Q mit y > x. Nach dem Monotoniekriterium konvergiert (axn ).
Um die Unabhängigkeit des Grenzwerts von der Auswahl der Folge (xn ) einzusehen, sei (x0n ) eine
beliebige Folge rationaler Zahlen mit x0n → x. Dann ist für fixiertes k ∈ N
xn − x0n < 1
k
√
k
0
a → 1 folgt axn −xn → 1 und damit
0
0
axn − axn = axn 1 − axn −xn → 0.
für genügend großes n. Wegen
Also existiert auch
0
lim axn = lim axn .
Im Beweis haben wir sogar gezeigt, dass für jede (auch nicht monotone) Folgen (x0n ) rationaler
Zahlen der Grenzwert existiert und nur von x abhängt. Wir können also definieren:
Definition 5.35. Sei a > 0 und x ∈ R. Dann setzen wir
ax := lim axn ,
n→∞
wobei (xn ) eine beliebige Folge rationaler Zahlen mit xn → x ist.
Insbesondere ist hiermit die Exponentialfunktion
exp(x) = ex
definiert. Wie für x = 1 kann man zeigen, dass
x
e = lim
n→∞
∞
x n X x k
1+
=
n
k!
k=0
gilt. Die letzte Darstellung heißt Exponentialreihe und kann zur Definition der Exponentialfunktion für komplexe x genutzt werden. Die Reihe ist nämlich für alle x ∈ C absolut konvergent.
Wir fassen nun noch einige Eigenschaften der Exponentialfunktionen zusammen.
• f (x) = ax , x ∈ R ist stetig.
• f (x) = ax , x ∈ R ist für a > 1 streng monoton wachsend und für 0 < a < 1 streng monoton
fallend.
• Das Bild der Exponentialfunktion f (x) = ax für a 6= 1 ist (0, ∞.
• Es gilt ax+y = ax ay .
72
6 y
a>1
5
4
3
2
1
x a<1
−2
−1
1
2
Die folgenden Abschätzungen für die Exponentialfunktion sind oft nützlich:
ex ≥ 1 + x für x ≥ −1
und
ex ≤
1
1−x
für x < 1.
n
Hier folgt die Abschätzung nach unten aus der Bernoulli-Ungleichung 1 + nx ≥ 1+x für n ∈ N
n
und x ≥ −1, die Abschätzung nach oben aus der Bernoulli-Ungleichung 1 − nx ≥ 1 − x für
n
−n
n ∈ N und x < 1 und der Ungleichung 1 + nx ≤ 1 − nx
. Die Abschätzung nach unten gilt
natürlich auch für x < −1, ist dort aber wegen ex > 0 trivial.
5.5.2
Potenzfunktion
Unter Verwendung der Exponentialfunktion aus dem vorhergehenden Abschnitt definiert man
sofort die Potenzfunktion
y = f (x) = xa
für a ∈ R. Im allgemeinen ist der Definitionsbereich von f dabei R>0 , natürlich kann man wie
üblich für a ∈ N als Definitionsbereich ganz R verwenden, und für ganzzahliges a mit a < 0 kann
man R \ {0} benutzen. Die Potenzfunktion ist stetig.
73
a>1
4 y
3
2
a=1
0<a<1
1
a<0
x
0.2 0.4 0.6 0.8
5.5.3
1
1.2 1.4 1.6 1.8
2
Logarithmusfunktion
Für a > 0, a 6= 1 ist die Exponentialfunktion f : R → R>0 definiert durch f (x) = ax streng
monoton, stetig und bijektiv. Also existiert die Umkehrfunktion f −1 : R>0 → R. Dies ist die
Logarithmusfunktion mit Basis a. Man bezeichnet sie mit f −1 (x) = loga x. Sie ist für den angegebenen Definitions- und Wertebereich bijektiv und stetig, für a > 1 streng monoton wachsend
und für a < 1 streng monoton fallend. Die Logarithmusfunktion zur Basis e wird natürlicher
Logarithmus genannt und durch log x := ln x := loge x bezeichnet.
4 y
a>1
2
x
2
4
6
−2
8
10
0<a<1
−4
Es ist also
y = loga x ⇐⇒ x = ay
74
Damit ergeben sich aus den Rechengesetzen für die Exponentialfunktion die folgenden Regeln
für die Logarithmusfunktion für jede Basis a und x, y > 0:
loga xy = loga x + loga y
x
loga
= loga x − loga y
y
loga xy = y loga x.
Außerdem kann man mit der Formel
logb x =
loga x
loga b
Logarithmen zu verschiedenen Basen ineinander umrechnen.
5.5.4
Trigonometrische Funktionen
Die trigonometrischen Funktionen wiederholen wir mit ihren Definitionen am Einheitskreis, die
aus der Schule bekannt sind. Dazu brauchen wir die Bogenlänge eines Kreisbogens am Einheitskreis, die dem Winkels des entsprechenden Kreissektors im Bogenmaß entspricht. Da die Bogenlänge einer Kurve an dieser Stelle der Vorlesung mathematisch eigentlich noch nicht klar ist, ist
dieser Zugang nicht ganz befriedigend. Man kann die trigonometrischen Funktionen auch alternativ und dann gleich für komplexe Argumente durch Potenzreihen einführen. Die Potenzreihen
der trigonometrischen Funktionen behandeln wir hier aber erst später.
1
1
2
−1
sin x
sin x x tan x = cos x
cos x
− 12
1
− 21
−1
Man findet also cos x (Kosinus) und sin x (Sinus) als Koordinaten des Endpunktes des Kreisbogens mit der Bogenlänge x, der im Punkt (1, 0) beginnt und im mathematisch positiven Sinn
sin x
verläuft. Ist cos x 6= 0, also x 6= π2 + kπ für alle k ∈ Z, dann definiert man noch tan x = cos
x . Ist
cos x
sin x 6= 0, also x 6= kπ für alle k ∈ Z, dann definiert man entsprechend und cot x = sin x .
75
1 y
0.5
x
π
π
2
− π2
−π
3π
2
sin x
−0.5
cos x
−1
tan x
6 y
4
2
x
−π
π
− π2
2
3π
2
2π
−2
−4
−6
cot x
Es folgen einige Eigenschaften dieser Funktionen, viele weitere finden Sie in Nachschlagewerken.
• sin, cos, tan, cot sind auf ihren Definitionsbereichen stetig.
• cos und sin sind periodisch mit Periode 2π: cos(x + 2π) = cos x, sin(x + 2π) = sin x
• tan und cot sind periodisch mit Periode π: tan(x + π) = tan x, cot(x + π) = cot x
• cos ist eine gerade Funktion: cos(−x) = cos x
• sin ist eine ungerade Funktion: sin(−x) = − sin x
• tan und cot sind ungerade Funktionen
• Es gelten die Additionstheoreme
sin(x + y) = sin x cos y + cos x sin y
cos(x + y) = cos x cos y − sin x sin y
76
• Es gilt
sin x
= 1.
x→0 x
lim
Wir überlegen uns nur die letzte Eigenschaft, die vorhergehenden setzen wir als bekannt voraus.
Da sinx x eine gerade Funktion ist, genügt es
lim
x&0
sin x
=1
x
zu zeigen. Um diesen Grenzwert zu berechnen, beobachten wir, dass der Kreissektor mit Bogenlänge x für 0 < x < π2 das rechtwinklige Dreieck mit den Kathetenlängen sin x und cos x
sin x
enthält und andererseits im rechtwinkligen Dreieck mit den Kathetenlängen tan x = cos
x und 1
enthalten ist. Vergleich der Flächen des Kreissektors mit diesen Dreiecken liefert
sin x cos x ≤ x ≤
sin x
,
cos x
also
sin x
1
≤
.
x
cos x
Da cos stetig ist, ist limx→0 cos x = 1. Damit folgt aus dem Sandwichlemma
cos x ≤
lim
x&0
5.5.5
sin x
= 1.
x
Umkehrfunktionen der trigonometrischen Funktionen
Für die Definition der Umkehrfunktionen der trigonometrischen Funktionen, den Arcus-Funktionen,
benötigen wir Intervalle, auf denen die trigonometrischen Funktionen streng monoton sind. Dazu
benutzt man für
• cos das Intervall [0, π], wo cos streng monoton fallend ist
• sin das Intervall [−π/2, π/2], wo sin streng monoton wachsend ist
• tan das Intervall (−π/2, π/2), wo tan streng monoton wachsend ist
und erhält die inversen Funktionen
• arccos : [−1, 1] → [0, π], die stetig und monoton fallend ist
• arcsin : [−1, 1] → [−π/2, π/2], die stetig und monoton wachsend ist
• arctan : R → (−π/2, π/2), die stetig und monoton wachsend ist.
Man hat also
y arccos x
⇐⇒ x = cos y und y ∈ [0, π]
y arcsin x
⇐⇒ x = sin y und y ∈ [−π/2, π/2]
y arctan x
⇐⇒ x = tan y und y ∈ (−π/2, π/2)
77
5.5.6
Hyperbelfunktionen
Schließlich betrachten wir noch die beiden Hyperbelfunktionen oder hyperbolischen Funktionen
• hyperbolischer Sinus, sinus hyperbolicus: sinh x =
ex −e−x
2
• hyperbolischer Kosinus, cosinus hyperbolicus: cosh x =
ex +e−x
2
Diese Funktionen haben die folgenden Eigenschaften:
• sinh, cosh sind auf ganz R stetig.
• sinh ist ungerade, cosh ist gerade.
• sinh ist streng monoton wachsend.
• cosh ist für x ≥ 0 streng monoton wachsend und für x ≤ 0 streng monoton fallend.
Damit kann man auch die Umkehrfunktionen der hyperbolischen Funktionen definieren:
• area sinus hyperbolicus: arsinh : R → R
• area cosinus hyperbolicus: arcosh : [1, ∞) → [0, ∞)
Direkt mittels Definitionen rechnet man folgende Formeln nach:
• cosh(x + y) = cosh x cosh y + sinh x sinh y
• sinh(x + y) = sinh x cosh y + cosh x sinh y
• cosh2 x − sinh2 x = 1
√
• arsinh x = ln x + x2 + 1
√
• arcosh x = ln x + x2 − 1
78
6
Differentialrechnung
In diesem Kapitel studieren wir den Begriff der Ableitung einer Funktion von einer Variablen. Wir
wenden diesen an, um Extremwerte von Funktionen zu bestimmen. Außerdem beschäftigen wir
uns mit höheren Ableitungen und der Approximation von Funktionen durch Taylorpolynome, mit
Bedingungen für Monotonie, Konvexität, Extremal- und Wendepunkten. Abschließend studieren
wir die l’Hospitalsche Regel zur Berechnung von Grenzwerten.
6.1
Der Ableitungsbegriff
Definition 6.1. Sei I = (a, b) ein Intervall und f : I → R. Dann heißt f in einem Punkt x0 ∈ I
differenzierbar, falls der Grenzwert
f (x0 + h) − f (x0 )
f (x) − f (x0 )
= lim
x→x0
h→0
h
x − x0
lim
existiert. In diesem Fall heißt dieser Grenzwert die Ableitung von f in x0 und wird mit f 0 (x0 )
df
oder dx
(x0 ) bezeichnet. Ist f in jedem Punkt von I differenzierbar, so heißt f differenzierbar und
f 0 : I → R heißt Ableitung von f .
Für festes h 6= 0 ist der Differenzenquotient
f (x0 + h) − f (x0 )
h
der Anstieg der Sekante durch die Punkte x0 , f (x0 ) und x0 + h, f (x0 + h) des Graphen von
f . Die Ableitung f 0 (x0 ), auch Differentialquotient genannt, ist also der Grenzwert der Anstiege
dieser Sekanten für
h → 0, geometrisch also der Anstieg der Tangente an den Graph von f im
Punkt x0 , f (x0 ) . Damit erhält man auch die Geradengleichung der Tangente in diesem Punkt
als
y = f (x0 ) + f 0 (x0 )(x − x0 ).
Physikalisch kann man die Ableitung auch als Momentangeschwindigkeit deuten. Dazu sei s(t)
der Ort eines sich auf einer Geraden bewegenden Massepunktes zur Zeit t. Dann ist der Differenzenquotient
s(t + h) − s(t)
h
die Durchschnittsgeschwindigkeit des Punktes im Zeitintervall [t, t + h] und die Ableitung
v(t) = ṡ(t) = s0 (t)
ist die Geschwindigkeit zum Zeitpunkt t.
Beispiel 6.2. Sei f (x) = xn mit n ∈ N. Dann ist f auf ganz R differenzierbar und es gilt
f 0 (x) = nxn−1 . Dies folgt nach Anwendung der binomischen Formel aus
n n−2
n n−3 2
n n−1
f (x + h) − f (x)
(x + h)n − xn
n−1
=
= nx
+
x
h++
x
h + ··· + +
h
h
h
2
3
n
und Grenzwertbildung h → 0.
79
Beispiel 6.3. Sei f (x) = sin x. Dann ist f auf ganz R differenzierbar und es gilt f 0 (x) = cos x.
Dies folgt nach Anwendung des Additionstheorems
sin a − sin b = 2 cos
a+b
a−b
sin
2
2
aus
2 cos x +
f (x + h) − f (x)
sin(x + h) − sin x
=
=
h
h
h
h
2
sin h2
h sin h2
= cos x +
h
2
2
und Grenzwertbildung h → 0.
Beispiel 6.4. Sei f (x) = ex . Dann ist f auf ganz R differenzierbar und es gilt f 0 (x) = f (x) = ex .
Zum Beweis beobachten wir zunächst
f (x + h) − f (x)
ex+h − ex
eh − 1
=
= ex
.
h
h
h
Es genügt also limh→0
eh −1
h
= 1 zu zeigen. Dies folgt sofort aus den Ungleichungen
1
eh − 1
≤
≤1
1−h
h
für − 1 < h < 1,
die wiederum direkt aus den schon bewiesenen Abschätzungen
1
1−h
≤ eh ≤ 1 + h folgen.
Der folgende Satz zeigt, dass Differenzierbarkeit eine stärkere Forderung als Stetigkeit ist.
Satz 6.5. Ist f in x0 differenzierbar, so ist f in x0 stetig.
Beweis. Wir führen den Beweis mit dem Folgenkriterium für die Stetigkeit. Sei also (xn ) ⊂ I
eine Folge mit xn 6= x0 für alle n ∈ N und xn → x0 . Die Differenzierbarkeit in x0 liefert die
Existenz des Grenzwerts
f (xn ) − f (x0 )
lim
= f 0 (x0 ).
n→∞
xn − x0
Folglich existiert auch
lim f (xn ) − f (x0 ) = lim xn − x0 f 0 (x0 ) = 0
n→∞
n→∞
und damit ist
lim f (xn ) = f (x0 ).
n→∞
Die Umkehrung in diesem Satz gilt nicht, wie die stetige Betragsfunktion f (x) = |x| zeigt, die
im Punkt x = 0 nicht differenzierbar ist.
80
6.2
Differentiationsregeln
Aus den Rechenregeln für Grenzwerte ergeben sich wichtige Rechenregeln für Ableitungen. Dazu
seien f, g : I → R im Punkt x ∈ I differenzierbare Funktionen. Dann gelten:
• f + g ist in x differenzierbar und (f + g)0 (x) = f 0 (x) + g 0 (x).
• Für jedes c ∈ R ist cf in x differenzierbar und (cf )0 (x) = cf 0 (x).
Diese beiden Eigenschaften nennt man Linearität der Ableitung. Auch f g ist in x differenzierbar
und es gilt die Produktregel
• (f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x).
Ist g 6= 0 zumindest in einer Umgebung von x, so gilt die Quotientenregel
•
0
f
g
(x) =
f 0 (x)g(x)−f (x)g 0 (x)
.
g(x)2
Die Linearität der Ableitung folgt direkt aus der Definition. Wir zeigen die Produktregel:
f (x + h)g(x + h) − f (x)g(x)
h→0
h
g(x + h) − g(x)
f (x + h) − f (x)
= lim f (x + h)
+ lim
g(x)
h→0
h→0
h
h
= f (x)g 0 (x) + f 0 (x)g(x).
(f g)0 (x) =
lim
0
g 0 (x)
Die Quotientenregel folgt aus der Produktregel, sobald die einfachere Variante g1 (x) = − g(x)
2
benutzt werden kann. Diese werden wir unten als einfache Anwendung der Kettenregel zeigen.
Beispiel 6.6. Die Tangensfunktion ist auf ihrem gesamten Definitionsbereich differenzierbar mit
Ableitung
d sin x
sin0 x cos x − sin x cos0 x
cos2 x + sin2 x
1
d
tan x =
=
=
=
= 1 + tan2 x.
2
2
dx
dx cos x
cos x
cos x
cos2 x
Auch Umkehrfunktionen kann man bequem durch Zurückführung auf die Ausgangsfunktion differenzieren, wie der nächste Satz zeigt.
Satz 6.7. Sei f : I → R auf dem Intervall I = (a, b) streng monoton und stetig. Ist f im Punkt
x ∈ I differenzierbar und ist f 0 (x) 6= 0, dann ist die Umkehrfunktion f −1 im Punkt y = f (x)
differenzierbar und es gilt
0
1
1
= 0 −1 .
f −1 (y) = 0
f (x)
f f (y)
Sehr einprägsam ist diese Regel in der mathematisch nicht ganz exakten Formulierung
dx
1
= dy .
dy
dx
81
Beweis. Sei (yn ) eine Folge im Intervall f (I) mit yn → y. Wir setzen xn = f −1 (yn ), also ist
yn = f (xn ). Aus der im vorhergehenden Kapitel gezeigten Stetigkeit der Umkehrfunktion f −1
folgt
xn = f −1 (yn ) → f −1 (y) = x.
Dann folgt weiter
xn − x
f −1 (yn ) − f −1 (y)
= lim
= lim
n→∞ f (xn ) − f (x)
n→∞
n→∞
yn − y
lim
1
f (xn )−f (x)
xn −x
=
1
f 0 (x)
.
Beispiel 6.8. Wir betrachten die Exponentialfunktion y = f (x) = ex mit der Ableitung y 0 =
f 0 (x) = ex . Dann ergibt sich die Differenzierbarkeit der Umkehrfunktion x = f −1 (y) = ln y mit
der Ableitung
d
1
1
1
ln y = 0
= x = .
dy
f (x)
e
y
π
Beispiel 6.9. Sei jetzt y = f (x) = tan x mit −π
2 < x < 2 . Dann ergibt sich die Differenzierbarkeit der Umkehrfunktion x = f −1 (y) = arctan y mit der Ableitung
d
1
1
1
arctan y = 0
=
=
.
2
dy
f (x)
1 + y2
1 + tan x
Schließlich zeigt der folgende Satz, wie man Kompositionen von Funktionen mittels der sogenannten Kettenregel differenziert.
Satz 6.10. Seien f : I → J und g : J → R zwei Funktionen. Ist f im Punkt x ∈ I differenzierbar
und g im Punkt y = f (x) differenzierbar, dann ist die Komposition g ◦ f in x differenzierbar und
es gilt
0
d
g ◦ f (x) =
g f (x) = g 0 f (x) f 0 (x).
dx
Beweis. Wir zeigen Differenzierbarkeit im Punkt x0 und setzen y0 = f (x0 ). Dazu betrachten wir
die Hilfsfunktion
(
g(y)−g(y0
für y 6= y0
y−y0
h(y) =
g 0 (y0 )
für y = y0
Nach Definition ist h stetig in y0 und es gilt g(y) − g(y0 ) = h(y)(y − y0 ). Wir erhalten
h f (x) f (x) − f (x0 )
g f (x) − g f (x0 )
= lim
lim
x→x0
x→x0
x − x0
x − x0
f (x) − f (x0 )
= lim h f (x) lim
x→x0
x→x0
x − x0
0
0
0
= h(y0 )f (x0 ) = g (y0 )f (x0 ).
Beispiel 6.11. Wir wollen die allgemeine Potenzfunktion y = xa differenzieren und benutzen
y = ea ln x = exp(a ln x).
Damit ergibt sich
a
dy
a
a
= exp0 (a ln x) = exp(a ln x) = xa = axa−1
dx
x
x
x
für beliebiges reelles a.
82
0
g 0 (x)
Beispiel 6.12. Wir tragen den Beweis der Kehrwertregel g1 (x) = − g(x)
2 nach, die wir beim
Beweis der Quotientenregel benutzt haben. Die Funktion 1/g ist Verkettung der Funktionen g(x)
und der Potenzfunktion h(y) = 1/y = y −1 . Aus der Kettenregel und h0 (y) = − y12 ergibt sich
dann sofort die Kehrwertregel.
Beispiel 6.13. Die logarithmische Ableitung ist ein bequemes Mittel, um sehr multiplikativ
aufgebaute Funktionen zu differenzieren. Diese ergibt sich mittels Anwendung der Kettenregel
0
auf die Funktion g = ln f . Aus g 0 = ff erhält man
f 0 = f (ln f )0 .
Ist zum Beispiel f (x) = xx , so ist ln f (x) = x ln x mittels Produktregel einfach zu differenzieren
und man erhält
f 0 (x) = f (x)(ln x + 1) = xx (ln x + 1).
6.3
Lokale Extrema und Mittelwertsatz
In diesem Abschnitt wollen eine notwendige Bedingung für das Vorliegen einer lokalen Extremalstelle einer Funktion kennenlernen und daraus die Mittelwertsätze ableiten.
Definition 6.14. Sei I = (a, b) und f : I → R. Ein Punkt x0 ∈ I heißt lokale Minimalstelle
von f , falls es ein ε > 0 gibt mit
f (x) ≥ f (x0 )
für x0 − ε < x < x0 + ε.
Ein Punkt x0 ∈ I heißt lokale Maximalstelle von f , falls es ein ε > 0 gibt mit
f (x) ≤ f (x0 )
für x0 − ε < x < x0 + ε.
Der entsprechende Funktionswert f (x0 ) heißt lokales Minimum bzw. lokales Maximum. Eine
lokale Extremalstelle ist eine lokale Minimalstelle oder Maximalstelle, ein lokales Extremum ist
ein lokales Minimum oder ein lokales Maximum.
Die folgende Bedingung für das Vorliegen einer lokalen Extremalstelle besagt anschaulich, dass
in einem solchen Punkt die Tangente an den Graph der Funktion horizontal verlaufen muss.
Satz 6.15 (notwendiges Kriterium für lokales Extremum). Ist x0 eine lokale Extremalstelle von
f und ist f in x0 differenzierbar, dann gilt f 0 (x0 ) = 0.
Beweis. Sei x0 eine lokale Minimalstelle und sei ε > 0 so gewählt wie in der Definition. Dann
gilt für den Differenzenquotienten und für x0 < x < x0 + ε
f (x) − f (x0 )
≥ 0,
x − x0
woraus durch Grenzübergang x & x0 sofort f 0 (x0 ) ≥ 0 folgt. Für x0 − ε < x < x0 folgt
f (x) − f (x0 )
≤ 0,
x − x0
woraus durch Grenzübergang x % x0 sofort f 0 (x0 ) ≤ 0 folgt. Zusammen ergibt sich die behauptete Bedingung f 0 (x0 ) = 0.
83
Der folgende Satz ist ein erster Mittelwertsatz, aus dem wir dann allgemeinere Mittelwertsätze
ableiten wollen. Er folgt direkt aus der gerade gezeigten notwendigen Bedingung für eine lokale
Extremalstelle zusammen mit dem Satz vom Maximum und Minimum. Anschaulich besagt er,
dass der Graph einer Funktion auf einem Intervall mit gleichen Randwerten eine horizontale
Tangente besitzen muss.
Satz 6.16 (Satz von Rolle). Sei f : [a, b] → R stetig und in (a, b) differenzierbar. Weiter sei
f (a) = f (b). Dann gibt es eine Stelle ξ ∈ (a, b) mit f 0 (ξ) = 0.
Beweis. Ist f konstant, dann ist nichts zu zeigen. Ist f nicht konstant, dann sind die nach dem
Satz 5.33 existenten Extremalstellen von f verschieden voneinander und wegen f (a) = f (b) gibt
es eine Extremalstelle ξ ∈ (a, b). Dann liefert Satz 6.15 die Behauptung.
Es folgt der klassische Mittelwertsatz der Differentialrechnung. Er besagt anschaulich, dass der
Graph einer Funktion auf einem Intervall eine Tangente besitzen muss, deren Anstieg gleich dem
Anstieg der Sekante durch die Endpunkt ist.
Satz 6.17 (Mittelwertsatz der Differentialrechnung).
differenzierbar. Dann gibt es eine Stelle ξ ∈ (a, b) mit
f 0 (ξ) =
Sei f : [a, b] → R stetig und in (a, b)
f (b) − f (a)
.
b−a
Beweis. Betrachte die Funktion
h(x) = f (x) −
f (b) − f (a)
(x − a)
b−a
und wende auf diese den Satz von Rolle an.
Der letzte Satz in diesem Abschnitt ist eine weitere Verallgemeinerung. Den Mittelwertsatz erhält
man als Spezialfall mit g(x) = x.
Satz 6.18 (verallgemeinerter Mittelwertsatz). Sei f, g : [a, b] → R stetig und in (a, b) differenzierbar und sei g 0 6= 0. Dann gibt es eine Stelle ξ ∈ (a, b) mit
f 0 (ξ)
f (b) − f (a)
=
.
0
g (ξ
g(b) − g(a)
Beweis. Betrachte die Funktion
h(x) = f (x) −
f (b) − f (a)
g(x) − g(a)
g(b) − g(a)
und wende auf diese den Satz von Rolle an.
84
6.4
Höhere Ableitungen, Taylorsche Formel und Taylorreihen
Ist f : D → R differenzierbar und ist die Ableitung f 0 in x0 ∈ D differenzierbar, so heißt f in x0
zweimal differenzierbar. Die Ableitung von f 0 in x0 wird dann mit
f 00 (x0 )
d2 f
(x0 )
dx2
oder
oder
d2 f (x0 )
dx2
bezeichnet und heißt zweite Ableitung von f in x0 . Ist f 0 (in ganz D) differenzierbar, so heißt f
zweimal differenzierbar. Induktiv definiert man dann analog die n-te Ableitung
f (n) (x0 ) =
dn f
dn f (x0 )
(x
)
=
0
dxn
dxn
sowie n-fache Differenzierbarkeit von f .
Mittels der ersten Ableitung findet man die Tangente an den Graph der Funktion f , also eine
gute lokale Approximation von f mittels einer linearen Funktion. Mit höheren Ableitungen wollen
wir nun f durch Polynome noch besser lokal approximieren. Dies führt zu den Taylorpolynomen.
Dazu schauen wir uns zunächst an, wie man ein Polynom mittels Ableitungen an einer Stelle x0
beschreiben kann.
Satz 6.19. Sei n ∈ N und sei p ein Polynom vom Grad höchstens n. Weiter sei x0 ∈ R beliebig.
Dann gilt
p(x) =
n
X
p(k) (x0 )
k=0
k!
(x − x0 )k = p(x0 ) +
p0 (x0 )
p00 (x0 )
p(n) (x0 )
(x − x0 ) +
(x − x0 )2 + · · · +
(x − x0 )n
1!
2!
n!
für alle x ∈ R.
Beweis. Mittels der binomischen Formel
k X
k
x = (x − x0 + x0 ) =
(x − x0 )` xk−`
0
`
k
k
`=0
kann man das Polynom p aus der Standarddarstellung
p(x) = a0 + a1 x + · · · + an xn
in die Darstellung
p(x) = b0 + b1 (x − x0 ) + · · · + bn (x − x0 )n
bringen. Sukzessives Differenzieren liefert
p(x) = b0 + b1 (x − x0 ) + · · · + bn (x − x0 )n
p0 (x) = b1 + 2b2 (x − x0 ) + nbn (x − x0 )n−1
p00 (x) = 2b2 + 3 · 2b3 (x − x0 ) + n(n − 1)bn (x − x0 )n−2
..
.
p(n) (x) = n! bn .
Einsetzen von x = x0 in diese Gleichungen liefert schließlich die behaupteten Gleichungen
p(k) (x0 ) = k! bk .
85
Dieser Satz motiviert die folgende Definition.
Definition 6.20. Ist f : D → R in einer Umgebung von x0 ∈ D mindestens n-mal differenzierbar, so heißt das Polynom
Tn (x) =
n
X
f (k) (x0 )
k=0
k!
(x−x0 )k = f (x0 )+
f 0 (x0 )
f 00 (x0 )
f (n) (x0 )
(x−x0 )+
(x−x0 )2 +· · ·+
(x−x0 )n
1!
2!
n!
das Taylorpolynom n-ten Grades (oder der Ordnung n) der Funktion f an der (Entwicklungs)Stelle x0 .
Um die Güte der Approximation von f durch das Taylorpolynom abzuschätzen benutzt man den
folgenden Satz.
Satz 6.21 (Taylorsche Formel, Restglied nach Lagrange). Ist f : D → R in einer Umgebung
von x0 ∈ D mindestens (n + 1)-mal differenzierbar, dann gilt für alle x in dieser Umgebung
f (x) = Tn (x) + Rn (x)
mit dem Restglied
Rn (x) =
f (n+1) (ξ)
(x − x0 )n+1 ,
(n + 1)!
wobei ξ eine (von x abhängige) Zahl zwischen x0 und x ist.
Für n = 0 ist diese Aussage nichts anderes als der Mittelwertsatz.
Beweis. Wir betrachten o.B.d.A. den Fall x > x0 und setzen
g(t) = f (x) −
n
X
f (k) (t)
k=0
k!
(x − t)k −
m
(x − t)n+1 ,
(n + 1)!
wobei wir m so wählen, dass g(x0 ) = 0 ist. Offensichtlich ist auch g(x) = 0. Also erfüllt g die
Voraussetzungen des Satzes von Rolle und wir finden ein ξ mit x0 < ξ < x und g 0 (ξ) = 0.
Differentiation von g ergibt
g 0 (t) = −
n
X
f (k+1) (t)
k=0
k!
n
X
f (k) (t)
m
f (n+1) (t)
(x − t)n
(x−t)k +
(x−t)k−1 + (x−t)n = −
(x−t)n +m
.
(k − 1)!
n!
n!
n!
k=1
Es folgt
0 = g 0 (ξ) = −
f (n+1) (ξ)
(x − ξ)n
(x − ξ)n + m
n!
n!
und damit m = f (n+1) (ξ). Umstellen von 0 = g(x0 ) = f (x) − Tn (x) −
die Behauptung.
m
(n+1)! (x
− x0 )n+1 liefert
Beispiel 6.22. Sei f (x) = ex und x0 = 0. Dann sind alle Ableitungen von f an der Stelle x0 = 0
gleich 1 und wir erhalten
n
X
xk
x
e =
+ Rn (x)
k!
k=0
86
mit
Rn (x) =
f (n+1) (ξ) n+1
eξ
x
=
xn+1 .
(n + 1)!
(n + 1)!
Es folgt Rn (x) → 0 für jedes x ∈ R und somit die Konvergenz der Exponentialreihe
ex =
∞
X
xk
k=0
k!
.
Beispiel 6.23. Sei f (x) = cos x und x0 = 0. Dann sind die Ableitungen von f an der Stelle
x0 = 0 periodisch 1,0,-1,0 und wir erhalten
cos x = 1 −
x2 x4
+
− + · · · + Rn (x).
2!
4!
Wieder folgt Rn (x) → 0 für jedes x ∈ R und somit die Konvergenz der Kosinusreihe
cos x = 1 −
x2 x4
+
− +....
2!
4!
Haben wir wie in den beiden Beispielen die Situation, dass f beliebig oft differenzierbar ist und
dass in einer Umgebung von x0 für jedes x die Konvergenz Rn (x) → 0 gilt, dann besitzt f in
dieser Umgebung die Reihendarstellung
f (x) =
∞
X
f (k) (x0 )
k=0
k!
(x − x0 )k = f (x0 ) +
f 0 (x0 )
f 00 (x0 )
(x − x0 ) +
(x − x0 )2 + . . . .
1!
2!
Diese Reihe heißt dann Taylorreihe oder Taylorentwicklung von f an der Stelle x0 .
Wichtige Taylorreihen, die für alle x ∈ R konvergieren, sind
x
x2
+
+ ...
1!
2!
x2 x4
1−
+
− +...
2!
4!
x3 x5
x−
+
− +...
3!
5!
x2 x4
1+
+
+ ...
2!
4!
x3 x5
x+
+
+ ...
3!
5!
ex = 1 +
cos x =
sin x =
cosh x =
sinh x =
Diese Reihen konvergieren sogar (absolut) für alle komplexen Zahlen x ∈ C und ermöglichen so
die Definition dieser Funktionen für komplexe Argumente. Dann liest man aus den Taylorreihen
die Eulersche Formel
eix = cos x + i sin x
ab.
87
6.5
Monotonie und Konvexität
In diesem Abschnitt wollen wir weitere Eigenschaften von Funktionen, nämlich Monotonie und
Konvexität/Konkavität mittels Ableitungen charakterisieren. Dazu sei in diesem Abschnitt I =
(a, b) ein offenes Intervall und f : I → R eine Funktion.
Satz 6.24 (Charakterisierung der Monotonie). Sei f differenzierbar. Dann ist f in I genau
dann monoton wachsend (fallend), wenn f 0 (x) ≥ 0 (f 0 (x) ≤ 0) für alle x ∈ I gilt.
Beweis. Wir zeigen die Äquivalenz im Fall einer monoton wachsenden Funktion.
Sei dazu zunächst f monoton wachsend und x0 ∈ I. Dann gilt f (x) ≤ f (x0 ) für x < x0 und
f (x) ≥ f (x0 ) für x ≥ x0 . In jedem Fall ist der Differenzenquotient
f (x) − f (x0 )
≥0
x − x0
und folglich auch f 0 (x0 ) ≥ 0.
Gilt umgekehrt f 0 (x) ≥ 0 für alle x ∈ I, so liefert der Mittelwertsatz für x1 , x2 ∈ I ein ξ ∈ I mit
f (x2 ) − f (x1 )
= f 0 (ξ) ≥ 0,
x2 − x1
woraus f (x1 ) ≤ f (x2 ) für x1 < x2 folgt.
Eine konvexe Funktion ist eine Funktion, bei der die Sekanten des Graphen oberhalb des Graphen
liegen. Eine konkave Funktion ist eine Funktion, bei der die Sekanten des Graphen unterhalb des
Graphen liegen. Die formale Definition ist
Definition 6.25. f heißt im Intervall I konvex, falls für alle x0 , x1 ∈ I und alle λ ∈ (0, 1) die
Ungleichung
f (1 − λ)x0 + λx1 ≤ (1 − λ)f (x0 ) + λf (x1 )
gilt. f heißt im Intervall I konkav, falls für alle x0 , x1 ∈ I und alle λ ∈ (0, 1) die Ungleichung
f (1 − λ)x0 + λx1 ≥ (1 − λ)f (x0 ) + λf (x1 )
gilt.
Also ist f konkav genau dann, wenn −f konvex ist.
Satz 6.26 (Charakterisierung der Konvexität). Sei f zweimal differenzierbar. Dann ist f in I
genau dann konvex (konkav), wenn f 00 (x) ≥ 0 (f 00 (x) ≤ 0) für alle x ∈ I gilt.
Beweis. Wir zeigen die Äquivalenz im Fall einer konvexen Funktion.
Gilt f 00 (x) ≥ 0 für alle x ∈ I = (a, b) und sind x0 , x1 derart, dass a < x0 < x1 < b ist, so
definieren wir für λ ∈ (0, 1)
x = (1 − λ)x0 + λx1 .
Dann ist x0 < x < x1 und x − x0 = λ(x1 − x0 ), x1 − x = (1 − λ)(x1 − x0 ). Der Mittelwertsatz
liefert ξ0 ∈ (x0 , x) und ξ1 ∈ (x, x1 ) mit
f (x) − f (x0 )
= f 0 (ξ0 )
x − x0
und
f (x1 ) − f (x)
= f 0 (ξ1 ).
x1 − x
88
Der vorhergehende Satz impliziert, dass f 0 monoton wachsend ist, also ist f 0 (ξ0 ) ≤ f 0 (ξ1 ) und es
folgt
f (x) − f (x0 )
f (x1 ) − f (x)
f (x) − f (x0 )
f (x1 ) − f (x)
≤
=
=
.
λ(x1 − x0 )
x − x0
x1 − x
(1 − λ)(x1 − x0 )
Umstellen der Ungleichung zwischen den äußeren Termen führt dann zur Konvexitätsungleichung
f (1 − λ)x0 + λx1 = f (x) ≤ (1 − λ)f (x0 ) + λf (x1 ).
Ist andererseits f konvex, so rechnet man mit den vorhergehenden Bezeichnungen die Ungleichung
f (x1 ) − f (x0 )
f (x1 ) − f (x)
f (x) − f (x0 )
≤
≤
x − x0
x1 − x0
x1 − x
für jeden Wert x mit x0 < x < x1 nach. Durch die Grenzübergänge x → x0 und x → x1 erhält
man daraus
f (x1 ) − f (x0 )
≤ f 0 (x1 ),
f 0 (x0 ) ≤
x1 − x0
also ist f 0 monoton wachsend und damit f 00 (x) ≥ 0 für x ∈ I.
6.6
Extrema und Wendepunkte
In diesem Abschnitt wollen wir auch hinreichende Bedingungen für das Vorliegen einer lokalen
Extremalstelle behandeln. Anschaulich passiert an lokalen Minimalstellen ein Übergang von Fallen zu Wachstum, die Ableitung sollte also ihr Vorzeichen von negativ zu positiv wechseln, die
zweite Ableitung also positiv sein.
Wir sagen, dass eine Funktion f : I → R n-mal stetig differenzierbar ist, wenn sie n-mal differenzierbar ist und f (n) stetig ist.
Satz 6.27. Sei I = (a, b) und f : I → R sei zweimal stetig differenzierbar. Weiter sei x0 ∈ I
mit f 0 (x0 ) = 0. Ist dann f 00 (x0 ) > 0, so ist x0 eine lokale Minimalstelle von f , ist f 00 (x0 ) < 0,
so ist x0 eine lokale Maximalstelle von f .
Beweis. Wir benutzen die Taylorsche Formel für n = 2 und erhalten
f (x) = f (x0 ) +
f 0 (x0 )
f 00 (ξ)
f 00 (ξ)
(x − x0 ) +
(x − x0 )2 = f (x0 ) +
(x − x0 )2
1!
2!
2!
mit einem ξ zwischen x0 und x. Ist f 00 (x0 ) > 0, so folgt aus der Stetigkeit von f 00 auch f 00 (ξ) > 0
für alle x (und damit ξ) in einer Umgebung von x0 . Also ist f (x) ≥ f (x0 ) in dieser Umgebung,
x0 ist eine lokale Minimalstelle.
Im Fall f 00 (x0 ) = 0 kann keine Aussage getroffen werden, es kann eine Extremalstelle vorliegen oder auch nicht. Allerdings kann man ebenfalls mit der Taylorschen Formel und höheren
Ableitungen die folgende Verallgemeinerung zeigen:
Ist n ∈ N und ist f (n + 1)-mal stetig differenzierbar und gilt
f 0 (x0 ) = f 00 (x0 ) = · · · = f (n) (x0 ) = 0
und
f (n+1) (x0 ) 6= 0,
so ist x0 für ungerades n eine lokale Extremalstelle, deren Art wieder durch das Vorzeichen von
f (n+1) (x0 ) bestimmt ist. Dagegen liegt für gerades n keine lokale Extremalstelle, sondern ein
Wendepunkt vor.
89
Definition 6.28. Sei I = (a, b) und f : I → R stetig und x0 ∈ I. Dann heißt x0 ein Wendepunkt
von f , falls es ein ε > 0 gibt, so dass f in (x0 − ε, x0 ) konvex und in (x0 , x0 + ε) konkav ist oder
umgekehrt. f wechselt also in x0 das Krümmungsverhalten.
Ist f zweimal stetig differenzierbar, dann sind also die folgenden Eigenschaften äquivalent:
• x0 ist Wendepunkt von f .
• Für f 0 findet in x0 ein Wechsel fallend-wachsend oder umgekehrt statt.
• f 00 (x) wechselt in x0 das Vorzeichen.
Insbesondere ist ein Wendepunkt von f immer eine lokale Extremalstelle von f 0 . Falls f dreimal
stetig differenzierbar ist und f 00 (x0 ) = 0 und f 000 (x0 ) 6= 0 ist, dann ist x0 ein Wendepunkt von f .
6.7
Die Regel von l’Hospital
Wir schließen dieses Kapitel mit der Behandlung der Regel von l’Hospital, mit der Grenzwerte
berechnet werden können, die auf unbestimmte Ausdrücke der Form 00 oder ∞
∞ führen.
Satz 6.29 (l’Hospitalsche Regel). Seien f, g reelle Funktionen, die in einer Umgebung von x0
(außer evtl. in x0 ) definiert sind, dort zumindest differenzierbar sind und in der g 0 6= 0 ist. Weiter
gelte limx→x0 f (x) = limx→x0 g(x) = 0 oder limx→x0 f (x) = ±∞, limx→x0 g(x) = ±∞. Dann gilt
lim
x→x0
f 0 (x)
f (x)
= lim 0
,
g(x) x→x0 g (x)
falls der rechte Grenzwert existiert.
Beweis. Wir betrachten nur den Fall limx→x0 f (x) = limx→x0 g(x) = 0 und setzen f, g in x0
durch f (x0 ) = g(x0 ) = 0 stetig fort. Der verallgemeinerte Mittelwertsatz liefert dann zu jedem
x in der Umgebung von x0 ein ξ zwischen x0 und x mit
f (x) − f (x0 )
f (x)
f 0 (ξ)
=
=
.
g 0 (ξ)
g(x) − g(x0 )
g(x)
Betrachtet man nun den Grenzübergang x → x0 , so ist auch ξ → x0 und die Existenz des
0 (ξ)
Grenzwerts limξ→x0 fg0 (ξ)
liefert die Behauptung.
Die l’Hospitalsche Regel gilt sinngemäß für einseitige Grenzwerte. Durch Umformungen kann
man auch unbestimmte Ausdrücke wie ∞ − ∞, 0 · ∞, 00 , ∞0 , 1∞ behandeln.
Beispiel 6.30.
Beispiel 6.31.
Beispiel 6.32.
sin x
cos x
= lim
=1
x→0 x
x→0 1
lim
cos x
1 − cos x
sin x
1
= lim
= lim
=
x→0 2x
x→0 2
x2
2
ln x
x−1
x
lim x = exp lim x ln x = exp lim −1 = exp lim
= e0 = 1
x&0
x&0
x&0 x
x&0 −x−2
lim
x→0
90
7
Integralrechnung
In diesem Kapitel studieren wir zunächst die unbestimmte Integration als Umkehroperation des
Differenzierens. Im Gegensatz zum Differenzieren, das mittels der Differentiationsregeln einen
Algorithmus zum Berechnen der Ableitung einer explizit gegebenen Funktion liefert, ist das
Integrieren, das Auffinden einer Stammfunktion, nicht generell möglich und benötigt oft gewisse
Kunstgriffe. Wir werden einige Integrationsmethoden kennenlernen.
Anschließend behandeln wir das bestimmte oder Riemannsche Integral, das anschaulich durch
die Berechnung der Fläche unter einer Kurve motiviert wird.
Den Zusammenhang zwischen unbestimmter und bestimmter Integration stellt dann der Hauptsatz der Differential- und Integralrechnung her. Mit seiner Hilfe können dann die Integrationsmethoden für die Bestimmung einer Stammfunktion zur Berechnung bestimmter Integrale nutzbar
gemacht werden.
7.1
Stammfunktionen und unbestimmte Integrale
Definition 7.1. Sei f : I → R eine auf einem Intervall I definierte Funktion. Eine differenzierbare Funktion F : I → R mit F 0 = f heißt Stammfunktion von f .
Ist F eine Stammfunktion von f , so offenbar auch F + c für jede Konstante c ∈ R. Sind andererseits F1 , F2 zwei Stammfunktionen von f , so unterscheiden sich F1 und F2 nur um eine additive
Konstante, also F1 − F2 = c. Tatsächlich ist dann nämlich g = F1 − F2 differenzierbar auf I und
g 0 = 0, womit aus dem Mittelwertsatz der Differentialrechnung für x1 , x2 ∈ I mit x1 6= x2 die
Existenz eines ξ ∈ I mit
g(x1 ) − g(x2 )
= g 0 (ξ) = 0
x1 − x2
und damit folgt, dass g eine Konstante ist.
R
R
Eine beliebige Stammfunktion von f bezeichnet man mit f = f (x) dx und nennt sie unbestimmtes Integral von f . Den Vorgang des Auffindens einer Stammfunktion nennt man unbestimmtes Integrieren. In Tafelwerken findet man mehr oder weniger umfangreiche Tabellen mit
unbestimmten Integralen vieler Funktionen. Ein paar wichtige Integrale, die aus den bekannten
Ableitungen elementarer Funktionen abgeleitet werden, folgen.
91
Z
1
xa+1 , a 6= −1
xa dx =
a+1
Z
dx
= ln |x|
x
Z
cos x dx = sin x
Z
sin x dx = − cos x
Z
dx
cos2 x
Z
dx
2
sin
x
Z
dx
1 + x2
Z
dx
√
1 − x2
Z
dx
√
x2 − 1
Z
dx
√
2
Zx + 1
= tan x
= − cot x
= arctan x
= arcsin x
= arcosh x
= arsinh x
ax dx =
ax
, a > 0, a 6= 1
ln a
Mit diesen Grundintegralen und Integrationsregeln, die wir jetzt kennenlernen wollen, lassen sich
viele weitere Integrale berechnen.
Die Linearität des Integrals
Z
Z
Z
af (x) + bg(x) dx = a f (x) dx + b g(x) dx
folgt direkt aus der Linearität der Ableitung.
Beispiel 7.2.
Z
Z
2
√
x + x dx =
3/2
x + 2x
+x
2
Z
dx =
Z
x dx + 2
3/2
x
Z
dx +
x2 dx =
x2 2x5/2 x3
+
+
2
5
3
Die Regel für die partielle Integration
Z
Z
0
f (x)g (x) dx = f (x)g(x) − f 0 (x)g(x) dx
folgt direkt aus der Produktregel.
Beispiel 7.3. Wir wollen mit partieller Integration eine Stammfunktion von ln x berechnen.
Dazu setzen wir f (x) = ln x und g 0 (x) = 1. Das liefert f 0 (x) = x1 und g(x) = x. Partielle
Integration ergibt
Z
Z
Z
1
ln x dx = ln x · 1 dx = x ln x −
· x dx = x ln x − x = x(ln x − 1)
x
92
Beispiel 7.4.
Z
Z
Z
x sin x dx = x(− cos x) − (− cos x) dx = −x cos x + cos x dx = sin x − x cos x
Beispiel 7.5. Wir wollen mit partieller Integration eine Rekursionsformel für Integrale der Form
Z
Z
n
Sn = x sin x dx
und
Cn = xn cos x dx
herleiten. Dazu setzen wir f (x) = xn und g 0 (x) = sin x bzw. g 0 (x) = cos x und erhalten
Z
Z
Sn =
xn sin x dx = −xn cos x + n xn−1 cos x dx = −xn cos x + nCn−1
Z
Z
Cn =
xn cos x dx = xn sin x − n xn−1 sin x dx = xn sin x − nSn−1
Auf diese
R Weise führt
R man die Berechnung der Integrale Sn und Cn rekursiv auf die Grundintegrale sin x dx und cos x dx zurück.
Ist x = g(t) eine stetig differenzierbare und bijektive Funktion, so liefert die Anwendung der
Kettenregel
d
F (g(t)) = f (g(t)) · g 0 (t)
dt
R
für eine Stammfunktion F = f die Substitutionsregel
Z
Z
f (x) dx = f g(t) · g 0 (t) dt
wobei man t = g −1 (x) setzen muss.
Beispiel 7.6. So erhält man mittels der Substitution t = g(x) = ax + b
Z
F (ax + b)
f (ax + b) dx =
a
R
mit einer Stammfunktion F = f (x) dx. Damit berechnet man zum Beispiel leicht
Z
Z
dx
1
dx
1
3
=
=
arctan
x
−
.
2
4x2 − 12x + 13
4
4
2
x − 32 + 1
Beispiel 7.7. Ebenfalls sehr nützlich ist die allgemeine Substitution t = f (x), die z.B. für
Integrale der Form
Z 0
f (x)
dx = ln |f (x)|
f (x)
liefert. Damit berechnet man zum Beispiel leicht
Z
Z
x
1
2x
dx =
dx = ln(1 + x2 ).
2
1+x
2
1 + x2
93
Wir wollen jetzt beschreiben, wie man mittels der bisher gefundenen Grundintegrale und Integrationsregeln und dem Verfahren der Partialbruchzerlegung Integrale rationaler Funktionen
f (x) =
p(x)
q(x)
mit Polynomen p, q berechnen kann. Zunächst spaltet man durch Polynomdivision den polynomialen Anteil von r(x) ab, so dass wir nur noch den Fall einer echt gebrochenen rationalen
Funktion haben, bei der der Grad von p kleiner als der Grad von q ist.
Außerdem benötigen wir den Fundamentalsatz der Algebra, der uns eine eindeutige Darstellung
q(x) = an (x − x1 )k1 . . . (x − xr )kr
liefert, wobei x1 , . . . , xr die verschiedenen komplexen Nullstellen und k1 , . . . , kr die entsprechenden Vielfachheiten sind. Da wir voraussetzen, dass die Koeffizienten aj , bj alle reell sind, können
wir nun die Tatsache benutzen, dass komplexe nicht reelle Nullstellen als Paare auftreten: Ist z
eine Nullstele der Vielfachheit k, so ist auch z eine Nullstelle der Vielfachheit k. Wir können
also die Faktoren
k
(x − z)k (x − z)k = (x − a)2 + b2
zusammenfassen zu einer k-ten Potenz eines quadratischen Polynoms. Hierbei ist a der Realteil
und b der Imaginärteil von z. Insgesamt erhalten wir die Faktorzerlegung eines reellen Polynoms
in der Form
q(x) = an (x − x1 )k1 . . . (x − xr )kr (x2 + p1 x + q1 )`1 . . . (x2 + ps x + qs )`s .
Dabei sind x1 , . . . , xr die reellen Nullstellen und die Nullstellen der quadratischen Terme x2 +
p1 x + q1 , . . . , x2 + ps x + qs sind die Paare konjugiert komplexer Nullstellen.
Beispiel 7.8. Das Polynom q(x) = x4 + 1 vierten Grades besitzt die vier komplexen Nullstellen
±1 ± i
√ .
2
Das liefert die komplexe Zerlegung in Linearfaktoren
1+i
1−i
−1 + i
−1 − i
4
q(x) = x + 1 = x − √
x− √
x− √
x− √
.
2
2
2
2
Fasst man hier konjugiert komplexe Nullstellen zusammen, so erhält man die reelle Zerlegung
! !
1 2
1 2
1 2
1 2
4
q(x) = x + 1 =
x− √
+ √
x+ √
+ √
2
2
2
2
√
√
=
x2 − 2x + 1 x2 + 2x + 1 .
Mittels quadratischer Ergänzung kann man diese Zerlegung in diesem Fall auch einfacher so
bestimmen:
√ √ 2 √ 2 2
x4 + 1 = x4 + 2x2 + 1 − 2x2 = x2 + 1 −
2x = x + 1 + 2x x2 + 1 − 2x .
94
Mit Hilfe der reellen Faktorisierung kann man nun die echt gebrochene rationale Funktion r(x) =
p(x)
q(x) eindeutig darstellen als
X
s r X
aj,kj
bj,`j x + cj,`j
bj1 x + cj1
aj1
+ ··· +
+
+ ··· + 2
(3)
r(x) =
x − xj
x2 + pj x + qj
(x − xj )kj
(x + pj x + qj )`j
j=1
j=1
Diese Darstellung heißt Partialbruchzerlegung von r, die einzelnen Summanden sind die Partialbrüche.
Beispiel 7.9. Für die rationale Funktion
r(x) =
x+1
x3 − x2 + x − 1
besitzt der Nenner die Zerlegung
x3 − x2 + x − 1 = x2 (x − 1) + (x − 1) = (x2 + 1)(x − 1),
also lässt sich r(x) darstellen als
r(x) =
x3
x+1
a
bx + c
=
+ 2
.
2
−x +x−1
x−1 x +1
Beispiel 7.10. Die rationale Funktion
r(x) =
x2 − x + 1
(x − 1)(x + 1)3 (x2 + x + 1)2
besitzt die Partialbruchdarstellung
r(x) =
b1
b2
b3
c1 x + d1
c1 x + d1
a1
+
+
+
+
+
.
x − 1 x + 1 (x + 1)2 (x + 1)3 x2 + x + 1 (x2 + x + 1)2
Die Koeffizienten in der Partialbruchzerlegung bestimmt man durch Multiplikation des Ansatzes
(3) mit dem Nenner q(x), was auf eine Gleichung zwischen einem bekannten Polynom auf der
linken und einem Polynom mit den gesuchten Koeffizienten auf der rechten Seite führt. Dann
wählt man eine von zwei Methoden:
• Koeffizientenvergleich
• Einsetzen n verschiedener Werte für x
Beides führt zu einem linearen Gleichungssystem von n Gleichungen für n zu bestimmende
Koeffizienten.
Beispiel 7.11. Für die rationale Funktion
r(x) =
x3
x+1
− x2 + x − 1
besitzt der Nenner die Zerlegung
x3 − x2 + x − 1 = x2 (x − 1) + (x − 1) = (x2 + 1)(x − 1),
95
also lässt sich r(x) darstellen als
r(x) =
x3
x+1
a
bx + c
=
+ 2
.
2
−x +x−1
x−1 x +1
Multiplikation mit x3 − x2 + x − 1 = (x2 + 1)(x − 1) liefert
x + 1 = a(x2 + 1) + (bx + c)(x − 1).
Durch Einsetzen von x = 1 erhält man 2 = 2a, also a = 1. Durch Einsetzen von x = 0 erhält
man dann 1 = 1 − c, also c = 0. Durch Einsetzen von x = −1 erhält man dann 0 = 2 + 2b, also
b = −1. Insgesamt ergibt sich
x3
x+1
1
x
=
− 2
.
2
−x +x−1
x−1 x +1
Alternativ kann man ausmultiplizieren und erhält
x + 1 = (a + b)x2 + (c − b)x + (a − c)
und anschließend durch Koeffizientenvergleich die drei Gleichungen a + b = 0, c − b = 1, a − c = 1
und daraus die gleichen Werte für a, b, c.
Nach der Zerlegung in Partialbrüche muss man also nur noch Terme der Form
1
(x − a)k
mit q >
und
(x2
Bx + C
+ px + q)k
p2
4
integrieren. Dies geschieht mit den Formeln
Z
dx
= ln |x − a|
x−a
Z
dx
1
=
für k = 2, 3, . . .
k
(x − a)
(1 − k)(x − a)k−1
Z
Bx + C
B
C − Bp/2
x + p/2
dx =
ln(x2 + px + q) + p
arctan p
2
x2 + px + q
2
q − p /4
q − p2 /4
Z
Z
1
Bx + C
B
dx
dx
=
−
+
(C
−
Bp/2)
2(k − 1) (x2 + px + q)k−1
(x2 + px + q)k
(x2 + px + q)k
Z
Z
dx
1
2x + p
4k − 6
dx
=
+
2
2
2
k
2
k−1
2
(k − 1)(4q − p ) (x + px + q)
(k − 1)(4q − p )
(x + px + q)
(x + px + q)k−1
Die letzte Formel wird als Rekursionsformel benutzt.
Beispiel 7.12. Wir wollen die rationale Funktion
2x4 + x − 1
x3 − x2 + x − 1
integrieren. Da der Zählergrad größer als der Nennergrad ist, müssen wir zunächst eine Polynomdivision und anschließend die Partialbruchzerlegung durchführen, was zu
2x4 + x − 1
x+1
1
x
= 2x + 2 + 3
= 2x + 2 +
−
x3 − x2 + x − 1
x − x2 + x − 1
x − 1 x2 + 1
führt. Integration der einzelnen Summanden liefert dann
Z
2x4 + x − 1
1
dx = x2 + 2x + ln |x − 1| − ln(x2 + 1).
3
2
x −x +x−1
2
96
7.2
Das Riemann-Integral
Das Riemann-Integral einer Funktion f über einem Intervall [a, b] berechnet die Fläche unter dem
Graphen von f zwischen a und b. Wir möchten das Integral für eine möglichst große Klasse von
Funktionen berechnen. Das erreichen wir, indem wir zunächst das Integral für Treppenfunktionen
definieren und anschließend andere Funktionen von oben und unten durch Treppenfunktionen
approximieren.
Definition 7.13. Eine Zerlegung Z eines Intervalls [a, b] ist gegeben durch Unterteilungspunkte
a = x0 < x1 < · · · < xn−1 < xn = b.
Die Feinheit dieser Zerlegung Z ist die maximale Länge eines Teilintervalls:
|Z| = max (xi − xi−1 ).
1≤i≤n
Eine Treppenfunktion ist eine Funktion f : [a, b] → R, die auf den offenen Teilintervallen (xi−1 , xi )
einer Zerlegung konstant ist.
Zu zwei Treppenfunktionen f, g auf [a, b] kann man immer eine Zerlegung finden, so dass beide
Funktionen f, g auf den Teilintervallen dieser Zerlegung konstant sind. Dies erreicht man, indem
man alle Unterteilungspunkte der zu f und g gehörenden Zerlegungen als eine neue Zerlegung
auffasst. Das ist eine gemeinsame Verfeinerung beider Zerlegungen.
Die Treppenfunktionen auf einem Intervall [a, b] bilden einen linearen Raum, sind also f, g Treppenfunktionen und c, d ∈ R, so ist cf + dg ebenfalls eine Treppenfunktion.
Definition 7.14. Sei f : [a, b] → R eine Treppenfunktion mit f (x) = ci auf dem Zerlegungsintervall (xi−1 , xi ), i = 1, . . . , n. Dann ist das Integral von f über [a, b] gegeben durch
Z
b
f (x) dx =
a
n
X
ci (xi − xi−1 ).
i=1
Das Integral einer Treppenfunktion ist unabhängig von der konkreten Wahl der Zerlegung Z.
Daraus ergibt sich sofort die Linearität des Integrals für Treppenfunktionen. Sind f, g Treppenfunktionen auf [a, b] und c, d ∈ R, dann gilt
Z
b
cf (x) + dg(x) dx = c
a
Z
b
Z
f (x) dx + d
a
b
g(x) dx.
a
Ebenfalls sofort aus der Definition folgt die Monotonie des Integrals für Treppenfunktionen
Z
f (x) ≤ g(x) für x ∈ [a, b]
b
Z
f (x) dx ≤
=⇒
a
b
g(x) dx.
a
Ist nun f eine beschränkte Funktion, so kann man Treppenfunktionen (sogar konstante Funktionen) g, h finden mit g ≤ f ≤ h Das rechtfertigt die Existenz von Supremum und Infimum in der
folgenden
97
Definition 7.15. Sei f : [a, b] → R beschränkt. Dann heißt
Zb
b
Z
g(x) dx
f (x) dx = sup
∗
a
a
Unterintegral von f , wobei das Supremum über alle Treppenfunktionen g mit g ≤ f gebildet
wird. Entsprechend heißt
Zb ∗
Z b
h(x) dx
f (x) dx = inf
a
a
Oberintegral von f , wobei das Infimum über alle Treppenfunktionen h mit f ≤ h gebildet wird.
Sind g, h Treppenfunktionen
mitR g ≤ f ≤ h, so folgt aus der Monotonie des Integrals für
Rb
b
Treppenfunktionen a g(x) dx ≤ a h(x) dx. Also ist immer
Zb
Zb
∗
f (x) dx ≤
f (x) dx.
∗
a
a
Allerdings können sich Ober- und Unterintegral unterscheiden. Ein Beispiel dafür ist die Dirichletfunktion f : [0, 1] → R, die 1 ist für rationales x und 0 für irrationales x. Da in jedem
Teilintervall einer Zerlegung von [0, 1] sowohl rationale als auch irrationale Zahlen liegen, gilt
für Treppenfunktionen Rg, h mit g ≤ f ≤ h auf
R 1 jedem Teilintervall (xi−1 , xi ), dass g(x) ≤ 0 und
1
h(x) ≥ 1 ist. Es folgt 0 g(x) dx ≤ 0 und 0 h(x) dx ≥ 1. Außerdem hat man für g = 0 und
R1
R1
h = 1 auch g ≤ f ≤ h und 0 g(x) dx = 0 und 0 h(x) dx = 1. Damit ist
Z1
Z
Z1
1
f (x) dx = sup
∗
0
g(x) dx = 0
∗
Z
0
h(x) dx = 1.
0
0
Definition 7.16 (Riemann-Integral).
1
f (x) dx = inf
und
Sei f : [a, b] → R beschränkt. Gilt
Zb
Zb
f (x) dx =
∗
a
∗
f (x) dx,
a
dann heißt f Riemann-integrierbar und der gemeinsame Wert
Z
Zb
Zb
b
f (x) dx =
a
f (x) dx =
∗
a
∗
f (x) dx.
a
heißt Riemann-Integral von f über [a, b].
Die Bestimmung des Riemann-Integrals nennt man auch bestimmte Integration, um sie von der
Bestimmung der Stammfunktion, also der unbestimmten Integration, zu unterscheiden.
Unmittelbar aus den Definitionen der Integrierbarkeit und von Supremum und Infimum folgt die
Charakterisierung in
98
Satz 7.17. Sei f : [a, b] → R beschränkt. Dann ist f Riemann-integrierbar genau dann, wenn
es zu jedem ε > 0 Treppenfunktionen g, h : [a, b] → R gibt mit g ≤ f ≤ h und
Z
b
b
Z
h(x) dx −
a
g(x) dx ≤ ε.
a
Mittels dieser Charakterisierung kann man für zwei große Klassen beschränkter Funktionen Integrierbarkeit zeigen.
Satz 7.18. Sei f : [a, b] → R stetig oder monoton. Dann ist f Riemann-integrierbar.
Beweis. Sei zunächst f monoton wachsend. Wir betrachten eine äquidistante Zerlegung in Interb−a
valle der Länge b−a
n , also xi = a + n i für i = 0, 1, . . . , n. Dann erfüllen die Treppenfunktionen
g, h definiert durch
g(x) = f (xi−1 )
und
für x ∈ [xi−1 , xi )
h(x) = f (xi )
offenbar g ≤ f ≤ h. Außerdem ist
Z b
Z b
n
X
b − a
f (b) − f (a) (b − a)
=
.
h(x) dx −
g(x) dx =
f (xi ) − f (xi−1
n
n
a
a
i=1
Da wir n beliebig groß machen können, liefert Satz 10.24, dass f Riemann-integrierbar ist.
Für stetiges f benötigen wir die in Satz 5.16 gezeigte Tatsache, dass jede stetige Funktion auf
einem abgeschlossenen Intervall sogar gleichmäßig stetig ist, d.h. dass es zu jedem ε > 0 ein δ > 0
gibt mit
|x − x0 | < δ =⇒ f (x) − f (x0 ) < ε.
Wir wählen nun wieder eine äquidistante Zerlegung wie oben und definieren die Treppenfunktionen
g(x) = min f (ξ)
und
h(x) = max f (ξ)
für x ∈ [xi−1 , xi ).
ξ∈[xi−1 ,xi ]
ξ∈[xi−1 ,xi ]
Nach dem Satz von Maximum und Minimum existieren diese max und min. Dann ist wieder
g ≤ f ≤ h klar. Ist n genügend groß, so ist außerdem die Länge der Teilintervalle b−a
n < δ und
damit h(x) − g(x) < ε für alle x ∈ [a, b]. Es folgt sofort
Z b
Z b
Z b
h(x) dx −
g(x) dx =
h(x) − g(x) dx ≤ ε(b − a)
a
a
a
und damit wieder mittels Satz 10.24 die Behauptung, dass f Riemann-integrierbar ist.
Die grundlegenden Eigenschaften des Integrals für Treppenfunktionen übertragen sich auf das
Riemann-Integral. Die Riemann-integrierbaren Funktionen auf [a, b] bilden also einen linearen
Raum, sind f, g Riemann-integrierbar und c, d ∈ R, dann ist auch cf + dg Riemann-integrierbar.
Wir haben wieder die Linearität des Integrals
Z b
Z b
Z b
cf (x) + dg(x) dx = c
f (x) dx + d
g(x) dx.
a
a
a
Ebenfalls gilt die Monotonie des Riemann-Integrals:
Z
f (x) ≤ g(x) für x ∈ [a, b]
b
Z
f (x) dx ≤
=⇒
a
b
g(x) dx.
a
99
Weiter kann man direkt die Riemann-Integrierbarkeit von f · g und von |f |p für 0 < p < ∞
folgern.
Wir kommentieren noch kurz den klassischen Zugang von Riemann zum Riemann-Integral über
Zwischensummen. Wieder liegt eine Zerlegung Z des Intervalls [a, b] zugrunde, also
a = x0 < x1 < · · · < xn−1 < xn = b.
In jedem Teilintervall sei zusätzlich ein Punkt ξi ∈ [xi−1 , xi ] gewählt. Dann heißt die Summe
n
X
f (ξi )(xi − xi−1 )
i=1
Zwischensumme. Man kann nun zeigen, dass eine beschränkte Funktion auf dem Intervall [a, b]
genau dann Riemann-integrierbar ist, wenn für jede Folge von Zerlegungen mit gegen 0 konvergierender Feinheit und für jede Wahl von Zwischenpunkten die Folge
R b der zugehörigen Zwischensummen gegen eine Zahl I konvergiert. Dann ist außerdem I = a f (x) dx.
Will man direkt mit der Definition oder mittels Zwischensummen das Integral berechnen, ist das
sehr umständlich.
Beispiel 7.19. Wir wollen mit der Definition das Integral
Z a
x2 dx
0
berechnen, das wegen der Stetigkeit oder auch der Monotonie des Integranden existiert. Dazu
betrachten wir eine äquidistante Zerlegung xi = na i für i = 0, 1, . . . , n. Da f (x) = x2 monoton
wachsend ist, erhalten wir mit den Treppenfunktionen
g(x) = f (xi−1 ) =
(i − 1)2 a2
n2
und
h(x) = f (xi ) =
i2 a2
n2
für x ∈ [xi−1 , xi )
die Ungleichungen g ≤ f ≤ h. Nun ist nach Definition des Integrals für Treppenfunktionen
Z a
n
n
X
(i − 1)2 a2 a
a3 X
a3 (n − 1)n(2n − 1)
a3 (n − 1)n(2n − 1)
2
g(x) dx =
=
(i
−
1)
=
=
n2
n
n3
n3
6
3
2n3
0
i=1
i=1
und
Z
0
a
n
n
X
a3 X 2
a3 n(n + 1)(2n + 1)
a3 n(n + 1)(2n + 1)
i2 a2 a
h(x) dx =
=
i
=
=
.
n2 n
n3
n3
6
3
2n3
i=1
i=1
Hier haben wir die Formel für Summen von Quadraten benutzt. Für n → ∞ konvergieren beide
3
Integrale gegen a3 , also ist
Z a
a3
x2 dx = .
3
0
7.3
Der Hauptsatz der Differential- und Integralrechnung
Wir wollen nun bestimmte und unbestimmte Integration miteinander verknüpfen. Das leistet der
Hauptsatz der Differential- und Integralrechnung, mit dem die Berechnung des Riemann-Integrals
auf die Bestimmung einer Stammfunktion zurückgeführt wird.
Dazu benötigen wir den ebenfalls wichtigen
100
Satz 7.20 (Mittelwertsatz der Integralrechnung). Seien f, g : [a, b] → R stetige Funktionen mit
g ≥ 0. Dann existiert ein ξ ∈ [a, b] derart, dass
b
Z
b
Z
f (x)g(x) dx = f (ξ)
g(x) dx
a
a
ist. Insbesondere (g = 1) gibt es ein ξ ∈ [a, b] derart, dass
1
b−a
b
Z
f (x) dx = f (ξ)
a
ist.
Beweis. Der Beweis beruht auf dem Zwischenwertsatz. Ist nämlich
m = min f (x)
M = max f (x),
und
x∈[a,b]
x∈[a,b]
so folgt
mg(x) ≤ f (x)g(x) ≤ M g(x)
und damit
Z
b
Z
g(x) dx ≤
m
für x ∈ [a, b]
b
Z
a
a
Also ist
Z
b
f (x)g(x) dx ≤ M
g(x) dx.
a
b
Z
f (x)g(x) dx = µ
a
b
g(x) dx
a
mit einem µ ∈ [m, M ]. Nun liefert aber der Zwischenwertsatz ein ξ ∈ [a, b] mit f (ξ) = µ und die
Behauptung ist bewiesen.
Für eine Riemann-integrierbare Funktion f : I → R auf einem Intervall I und a ∈ I betrachten
wir nun das Integral
Z x
F (x) =
f (t) dt
a
mit variabler oberer Grenze x. Für x < a setzen wir dabei
Z x
Z a
F (x) =
f (t) dt = −
f (t) dt.
a
x
Die Funktion F 0 (x) beschreibt also die Änderungsrate der Fläche unter dem Graphen von f an
der Stelle x. Für stetige Funktionen ist anschaulich klar, dass diese Rate gerade f (x) ist. Das ist
die Aussage des folgenden Satzes.
Satz 7.21.
Sei f : I → R auf einem Intervall I stetig und sei a ∈ I. Dann ist die Funktion
Z x
F (x) =
f (t) dt
a
eine Stammfunktion von f .
101
Beweis. Der Beweis beruht auf dem Mittelwertsatz der Integralrechnung. Dazu betrachten wir
den Differenzenquotienten
R x+h
F (x + h) − F (x)
=
h
a
f (t) dt −
h
Rx
a
f (t) dt
1
=
h
Z
x+h
f (t) dt.
x
Der Mittelwertsatz 7.20 liefert dann ein ξ zwischen x und x + h mit
F (x + h) − F (x)
= f (ξ).
h
Für h → 0 haben wir ξ → x, womit die Stetigkeit von f die Behauptung
F (x + h) − F (x)
= lim f (ξ) = lim f (ξ) = f (x)
h→0
ξ→x
h
F 0 (x) = lim
h→0
liefert.
Nun ist es nur noch ein kleiner Schritt zum Beweis des
Satz 7.22 (Hauptsatz der Differential- und Integralrechnung). Ist f : I → R auf einem Intervall
I stetig und ist F eine Stammfunktion von f , dann gilt für a, b ∈ I
b
Z
b
f (x) dx = F (x)a := F (b) − F (a).
a
Beweis. Da sich Stammfunktionen nur um eine Konstante unterscheiden, ist die Differenz F (b)−
F (a) unabhängig von der konkreten Auswahl von F . Mit Satz 7.21 können wir also
Z x
F (x) =
f (t) dt
a
wählen. Dann ist F (a) = 0 und somit
Z
b
f (t) dt = F (b) = F (b) − F (a).
a
Nun ergeben sich aus den Differentiationsregeln für das unbestimmte Integral direkt entsprechende Rechenregeln und -methoden für das bestimmte Integral. Zunächst können wir nochmals
die Linearität des Riemann-Integrals
Z
b
cf (x) + dg(x) dx = c
a
Z
b
Z
f (x) dx + d
a
b
g(x) dx
a
für Riemann-integrierbare Funktionen f, g ableiten.
Weiter erhält man die Regel für die partielle Integration
Z
a
b
b
f (x)g (x) dx = f (x)g(x)a −
0
Z
b
0
Z
f (x)g(x) dx = f (b)g(b) − f (a)g(a) −
a
a
b
f 0 (x)g(x) dx.
102
Die Substitutionsregel für bestimmte Integrale kann man folgendermaßen formulieren. Sei f : I →
R auf einem Intervall I stetig und sei g : [a, b] → I stetig differenzierbar und streng monoton
und damit bijektiv als Abbildung von [a, b] auf [g(a), g(b)] (bzw. [g(b), g(a)]). Dann gilt
Z g(b)
Z b
f (x) dx.
f g(t) g 0 (t) dt =
g(a)
a
Zum Beweis beobachten wir,
dass aus der Kettenregel folgt,dass für eine Stammfunktion F von
f die Komposition F g(t) eine Stammfunktion von f g(t) g 0 (t) ist. Mit Satz 7.21 erhalten wir
also einerseits
Z b
f g(t) g 0 (t) dt = F g(b) − F g(a) .
a
Andererseits folgt aus Satz 7.21 ebenfalls
Z g(b)
f (x) dx = F g(b) − F g(a) .
g(a)
Beispiel 7.23. Mit der Substitution x = g(t) = t2 ergibt sich dx = 2t dt und damit
Z 3
Z
9 1 − e−9
1 9 −x
1
2
te−t dt =
e dx = − e−x =
.
2
2
2
0
0
0
7.4
Uneigentliche Integrale
Das Riemann-Integral ist definiert für beschränkte Funktionen auf einem endlichen Integrationsintervall [a, b]. Wir wollen diese beiden Einschränkungen jetzt fallen lassen und auch unbeschränkte
Integranden und unendliche Integrationsintervalle zulassen. Dies gelingt durch Betrachtung geeigneter Grenzwerte.
Betrachten wir zunächst unbeschränkte Integrationsintervalle. Dann definieren wir die uneigentlichen Integrale
Z ∞
Z b
f (x) dx = lim
f (x) dx
b→∞ a
a
Z b
Z b
f (x) dx =
lim
f (x) dx
a→−∞ a
0
−∞
∞
Z
Z
f (x) dx =
−∞
Z
f (x) dx +
−∞
∞
f (x) dx
0
für beschränktes f , falls die Integrale und Grenzwerte auf der rechten Seite existieren. Man sagt
dann, dass die Integrale auf der linken Seite konvergieren, existieren die Grenzwerte nicht, spricht
man von divergenten Integralen. Ist F eine Stammfunktion von f und existieren die Grenzwerte
F (∞) = lim F (x)
x→∞
und/oder
F (−∞) = lim F (x),
x→−∞
so kann man diese berechnen als
Z ∞
∞
f (x) dx = F (x)a = F (∞) − F (a)
a
Z b
b
f (x) dx = F (x)−∞ = F (b) − F (−∞)
Z−∞
∞
∞
f (x) dx = F (x)−∞ = F (∞) − F (−∞).
−∞
103
Beispiel 7.24.
Z
∞
−∞
∞
dx
π π
=
arctan
x
=
− −
= π.
−∞
1 + x2
2
2
1
Beispiel 7.25. Eine Stammfunktion der Funktion f (x) = x−α ist die Funktion F (x) = − 1−α
x1−α
für α 6= 1 und F (x) = ln x für α = 1. Damit ergibt sich
1
Z ∞
dx
für α > 1
α−1
= F (∞) − F (1) =
α
∞
für α ≤ 1.
x
1
Aus dem letzten Beispiel und der Monotonie des Integrals ergibt sich das folgende nützliche
Konvergenzkriterium für uneigentliche Integrale.
• Gibt es ein α > 1 und c > 0, so dass für x R≥ a > 0 die Ungleichung 0 < f (x) <
∞
dann konvergiert das uneigentliche Integral a f (x) dx.
• Gibt es ein α ≤ 1 und c > 0, so dassRfür x ≥ a > 0 die Ungleichung f (x) >
∞
divergiert das uneigentliche Integral a f (x) dx.
c
xα
c
xα
gilt,
gilt, dann
Für einen unbeschränkten Integranden f betrachten wir die Fälle, dass f eine Polstelle an einer
der Intervallgrenzen oder im Inneren des Integrationsintervalls hat.
Hat f eine Polstelle in a, also ist limx&a = ±∞, so setzen wir
b
Z
Z
b
f (x) dx = lim
α&a α
a
f (x) dx,
falls dieser Grenzwert existiert. Wieder nennt man in diesem Fall das uneigentliche Integral auf
der linken Seite konvergent. Existiert der Grenzwert nicht spricht man von einem divergenten
Integral.
Hat f eine Polstelle in b, also ist limx%b = ±∞, so setzen wir entsprechend
b
Z
Z
f (x) dx = lim
β%b a
a
β
f (x) dx,
falls dieser Grenzwert existiert.
Wieder erhält man mit den entsprechenden Grenzwerten F (a) = limα&a F (x), F (b) = limβ%b F (b)
einer Stammfunktion F von f
Z
b
f (x) dx = F (b) − F (a).
a
Hat f eine Polstelle in c im Inneren des Intervalls [a, b], also ist limx&c = ±∞ und limx%c = ±∞,
so setzen wir
Z
Z
Z
b
c
f (x) dx =
a
b
f (x) dx +
a
f (x) dx
c
falls die beiden uneigentlichen Integrale auf der rechten Seite existieren. Dies ist äquivalent zur
Existenz von limx→c F (x) für eine geeignete Stammfunktion F von f und man hat dann wieder
die Formel
Z
b
f (x) dx = F (b) − F (a).
a
104
Beispiel 7.26. Eine Stammfunktion der Funktion f (x) = ln x auf (0, ∞) ist die Funktion F (x) =
x(ln x − 1). Dann ist
ln x − 1
1/x
lim F (x) = lim
= lim
=0
x&0
x&0
x&0 −1/x2
1/x
und es ergibt sich
Z
1
ln x dx = F (1) − F (0) = −1.
0
Beispiel 7.27. Was ist an der Rechnung
Z
1
−1
dx
1 1
= − = −2
x2
x −1
(positiver Integrand, negatives Integral) falsch? Man integriert über die Polstelle x = 0 des Integranden hinweg, ohne die Nichtexistenz von limx→0 F (x) zu beachten. Richtig ist die Rechnung
!
!
Z 1
Z 0
Z 1
dx
dx
dx
1 0
1 1
=
+
= − + − = (∞ − 1) + (−1 + ∞) = ∞.
2
2
2
x −1
x 0
−1 x
−1 x
0 x
Beispiel 7.28. In diesem Beispiel wollen wir die wichtige Eulersche Gammafunktion
Z ∞
Γ(t) =
e−x xt−1 dx
0
kennenlernen. DiesesRIntegral konvergiert für alle t > 0. Dies sieht man ein, indem man einerseits
∞
die Konvergenz von 1 e−x xt−1 dx aus der Ungleichung
0 < e−x xt−1 =
xt−1
xt−1
n!
< n
= 1−t+n
x
e
x /n!
x
für n > t schlussfolgern kann. Andererseits konvergiert auch
xt−1 und
1
Z 1
xt 1
t−1
x dt =
= .
t 0
t
0
R1
0
e−x xt−1 dx wegen 0 < e−x xt−1 ≤
Für t = 1 erhält man sofort
Z
Γ(1) =
0
∞
∞
e−x dx = −e−x 0 = 1.
Außerdem ergibt sich durch partielle Integration die Funktionalgleichung
Z ∞
Z ∞
−x t
−x t ∞
Γ(t + 1) =
e x dx = −e x 0 + t
e−x xt−1 dx = tΓ(t).
0
0
Aus der Rekursionsformel erhält man induktiv
Γ(n + 1) = n!,
die Gammafunktion Γ(t + 1) ist also eine Fortsetzung der Fakultätsfunktion von den natürlichen
Zahlen auf die nichtnegativen reellen Zahlen unter Erhaltung der Rekursionsformel (n + 1)! =
(n + 1)n!.
105
7.5
Anwendungen der Integralrechnung
In diesem Abschnitt wollen wir zwei Anwendungen der Integralrechnung für Funktionen einer
Variablen betrachten: Das Integralkriterium für die Konvergenz von Reihen und die Berechnung
von Volumina von Rotationskörpern.
Mittels des Integralkriteriums lässt sich oft bequem entscheiden, ob eine Reihe konvergent oder
divergent ist. Außerdem ergeben sich Abschätzungen für die Reihensumme. Sei dazu m ∈ N und
sei f : [m, ∞) → R>0 eine monoton fallende Funktion. Aus der Monotonie von f folgt dann
n+1
X
Z
n
f (k) ≤
f (x) dx ≤
m
k=m+1
n
X
f (k)
k=m
für jedes n > m und damit
X
Z
R∞
Beispiel 7.30. Wegen
R∞
1
1
f (x) dx < ∞.
m
k
Beispiel 7.29. Wegen
∞
f (k) ist konvergent ⇐⇒
dx
x2
dx
x
∞
P
1
= − x1 1 = 1 ist ∞
k=1 k2 konvergent.
P∞ 1
= ln x|∞
k=1 k divergent.
1 = ∞ ist
Ein Rotationskörper entsteht durch die Rotation der Fläche zwischen dem Graph einer stetigen
Funktion f : [a, b] → [0, ∞) und der x-Achse um die x-Achse. Einfache Beispiele sind Kugel, Zylinder und Kegel. Zerlegt man den Rotationskörper mittels einer Zerlegung Z = {x0 , x1 , . . . , xn }
des Intervalls [a, b] in Scheiben und approximiert die Funktionswerte von f im Intervall (xi−1 , xi )
durch eine Konstante ci , so erhält man einen aus zylindrischen Schichten mit Radius ci und Höhe
xi − xi−1 aufgebauten Körper. Dieser hat dann Volumen
n
X
πc2i (xi − xi−1 ).
i=1
Durch Grenzübergang erhalten wir das Volumen des Rotationskörpers
Z
V =π
b
f (x)2 dx.
a
Beispiel 7.31. Die Kugel mit Radius r und Mittelpunkt√0 erhält man als Rotationskörper für
die Funktion f : [−r, r] → [0, ∞) gegeben durch f (x) = r2 − x2 . Das Volumen der Kugel ist
also
r
Z r
x3
4πr3
V =π
(r2 − x2 ) dx = π r2 x −
=
.
3 −r
3
−r
106
8
Potenzreihen
P
In diesem Kapitel wollen wir uns mit Reihen ∞
k=0 fk beschäftigen, deren Glieder Funktionen
fk : D → R mit D ⊂ R sind. Dabei beschränken wir uns auf den mit Abstand wichtigsten Fall der
Potenzreihen. Diesen sind wir bereits beim Studium von Taylorreihen begegnet. Ist f : (a, b) → R
eine beliebig oft differenzierbare Funktion und ist x0 ∈ (a, b), dann ist die Taylorreihe von f
gegeben durch
∞
X
f (k) (x0 )
(x − x0 )k .
k!
k=0
Ein prominentes Beispiel ist die Reihe der Exponentialfunktion
ex =
∞
X
xk
k=1
k!
,
P
k
die für alle x ∈ R, sogar für alle x ∈ C konvergiert. Allgemeine Reihen der Form ∞
k=0 ak x heißen
Potenzreihen. Wir kennen bereits weitere Beispiele: die Reihen der trigonometrischen Funktionen
sin
P∞x, cosk x und die Reihen der Hyperbelfunktionen sinh x, cosh x. Auch die geometrische Reihe
k=0 x , die für |x| < 1 konvergiert, ist eine Potenzreihe.
8.1
Konvergenz von Potenzreihen
Wir beginnen mit der Definition einer formalen Potenzreihe.
Definition 8.1. Ist (ak ) eine Folge reeller Zahlen, dann heißt die Reihe
∞
X
ak xk
k=0
eine Potenzreihe mit der Variablen x ∈ R. Die Zahlen ak heißen Koeffizienten der Potenzreihe.
P
k
Bemerkung. Auch Reihen der Form ∞
k=0 ak (x−x0 ) für ein festes x0 ∈ R heißen Potenzreihen.
Die folgenden Resultate lassen sich durch eine einfache Translation x → x − x0 auch für solche
Reihen formulieren.
Bemerkung. Man kann auch komplexe Potenzreihen betrachten. Dann sind die Koeffizienten
ak komplexe
Zahlen und mit einer komplexen Variablen z ∈ C hat eine Potenzreihe dann die
P
k
Form ∞
a
k=0 k z .
Das Konvergenzgebiet einer Potenzreihe ist ein Intervall der Form (−R, R) (möglicherweise mit
R = 0, wenn die Reihe nur für x = 0 konvergiert, oder R = ∞, wenn die Reihe für alle x ∈ R
konvergiert wie bei der Exponentialreihe). Darüber, und wie man diesen Konvergenzradius R
berechnet, gibt der folgende Satz Auskunft.
Satz 8.2. Für eine Folge (ak ) reeller Zahlen setzen wir
α = lim sup
k→∞
Dann ist die Potenzreihe
P∞
k=0 ak x
k
p
k
|ak |
und
R=
1
.
α
absolut konvergent für |x| < R und divergent für |x| > R.
107
Beweis. Setzen wir bk = ak xk , so erhalten wir die Aussage über die absolute Konvergenz für
|x| < R und Divergenz für |x| > R aus dem Wurzelkriterium:
lim sup
k→∞
p
p
|x|
k
|bk | = |x| lim sup k |ak | = α|x| =
.
R
k→∞
Bemerkung. Man kann den Konvergenzradius ebenfalls berechnen als
ak 1
,
p
bzw.
R = lim R=
k→∞ ak+1 limk→∞ k |ak |
falls diese Grenzwerte existieren. Die erste Formel ist dabei klar, die zweite folgt aus dem Quotientenkriterium.
Bemerkung.
Für komplexe Reihen liefert der gleiche Beweis die Konvergenz der Potenzreihe
P∞
k
k=0 ak z für |z| < R und Divergenz für |z| > R.
P k k
Beispiel 8.3. Die Potenzreihe
k x hat den Konvergenzradius R = 0, da
p
lim k |ak | = lim k = ∞
k→∞
k→∞
ist.
Beispiel 8.4. Die geometrische Reihe
Konvergenzkreises, also für |x| < 1, ist
P
xk hat den Konvergenzradius R = 1. Im Inneren des
∞
X
xk =
k=0
1
.
1−x
Beispiel 8.5. Wir erinnern an die Taylorreihen von Exponentialfunktion und trigonometrischen
Funktionen:
x
x2
+
+ ...
1!
2!
x2 x4
cos x = 1 −
+
− +...
2!
4!
x3 x5
sin x = x −
+
− +...
3!
5!
ex = 1 +
Diese konvergieren für x ∈ R (sogar für x ∈ C) und haben deshalb den Konvergenzradius R = ∞.
Bei allen Beispielen sieht man, dass die durch die jeweilige Potenzreihe im Konvergenzkreis
gegebene Funktion eine stetige Funktion ist. Das ist kein Zufall.
P
k
Satz 8.6. Sei f (x) = ∞
k=0 ak x eine Potenzreihe mit dem Konvergenzradius R > 0. Dann ist
f im Konvergenzintervall (−R, R) eine stetige Funktion.
108
Beweis. Sei r ∈ R so, dass 0 < r < R gilt. Weiter seien x1 , x2 ∈ R mit |x1 |, |x2 | ≤ r. Wir erhalten
nun aus der Identität
k−3 2
k−1
xk1 − xk2 = (x1 − x2 )(x1k−1 + xk−2
1 x2 + x1 x2 + · · · + x2 )
für k ∈ N die Ungleichung
|xk1 − xk2 | ≤ krk−1 |x1 − x2 |.
Es folgt
|f (x1 ) − f (x2 )| ≤
∞
X
|ak ||xk1 − xk2 | ≤ |x1 − x2 |
k=1
∞
X
k|ak |rk−1 .
k=1
Die letzte Reihe ist wegen
lim sup
q
k
k|ak |rk−1 = r lim sup
k→∞
k→∞
p
r
k
|ak | =
<1
R
nach dem Wurzelkriterium konvergent, sagen wir mit Summe M . Es folgt
|f (x1 ) − f (x2 )| ≤ M |x1 − x2 |
für beliebige x1 , x2 mit |x1 |, |x2 | ≤ r. Die Funktion f ist also in jedem Intervall [−r, r] ⊂ (−R, R)
sogar Lipschitz-stetig.
Über das Konvergenzverhalten einer Potenzreihe auf dem Rand des Konvergenzintervalls kann
man keine einfache Aussage treffen, was die folgenden Beispiele zeigen.
P k
Beispiel 8.7. Die geometrische Reihe
x konvergiert weder für x = 1 noch für x = −1, da
die Glieder der Reihe keine Nullfolge bilden.
P xk
Beispiel 8.8. Die Reihe
k hat ebenfalls den Konvergenzradius R = 1, sie divergiert für
x = 1 (harmonische Reihe) und konvergiert für x = −1 (alternierende harmonische Reihe).
P k
Beispiel 8.9. Die Reihe P xk2 hat ebenfalls den Konvergenzradius R = 1 und konvergiert für
1
x = ±1 sogar absolut, da
konvergiert.
k2
Wir werden später den Abelschen Grenzwertsatz behandeln, der etwas über die Konvergenz auf
dem Rand des Konvergenzintervalls aussagt.
8.2
Rechnen mit Potenzreihen
Potenzreihen kann man im gemeinsamen Konvergenzgebiet addieren.
Satz 8.10. Sind
f (x) =
∞
X
ak xk
und
k=0
g(x) =
∞
X
bk xk
k=0
zwei Potenzreihen mit Konvergenzradien R1 , R2 , so gilt für |x| < min(R1 , R2 )
f (x) + g(x) =
∞
X
k=0
(ak + bk )xk .
109
Während dies sofort aus der absoluten Konvergenz der Potenzreihen folgt, benötigt man zum
Beweis der entsprechenden Eigenschaft für die Multiplikation das sogenannte Cauchyprodukt,
welches ebenfalls unter der Voraussetzung der absoluten Konvergenz der einzelnen Reihen konvergiert. Wir zeigen das hier nicht.
Satz 8.11. Sind
f (x) =
∞
X
ak xk
g(x) =
und
k=0
∞
X
bk xk
k=0
zwei Potenzreihen mit Konvergenzradien R1 , R2 , so gilt für |x| < min(R1 , R2 )
f (x)g(x) =
∞
X
ck xk
k=0
mit
ck = a0 bk + a1 bk−1 + a2 bk−2 + · · · + ak b0 .
Praktisch bedeutet dies, dass man zwei Potenzreihen formal wie zwei Polynome multiplizieren
kann.
Man darf Potenzreihen im Inneren des Konvergenzkreises auch gliedweise differenzieren und integrieren. Das besagt der folgende Satz, den wir ebenfalls ohne vollständigen Beweis angeben. Die
Gleichheit der Konvergenzradien der auftretenden Potenzreihen ist aber einfach nachzurechnen.
Satz 8.12. Ist f (x) =
Potenzreihen
P∞
k=0 ak x
g(x) =
∞
X
k
eine Potenzreihe mit Konvergenzradius R, so haben auch die
ak kxk−1
h(x) =
und
k=1
∞
X
ak k+1
x
k+1
k=0
den Konvergenzradius R und es gilt
Z
0
f (x) = g(x)
und
f (x) dx = h(x).
Insbesondere ist jede Potenzreihe in ihrem Konvergenzintervall eine beliebig oft differenzierbare
Funktion.
Die Aussagen in diesem Satz sind nicht selbstverständlich. Es sind für die Analysis typische
Vertauschungssätze für Grenzwertprozesse. Im Fall der Ableitung werden hier der Grenzwert,
der die Ableitung definiert, und der Grenzwert, den die Reihe darstellt, vertauscht.
Dass solche Vertauschungen von Grenzwerten nicht immer harmlos sind, wollen wir uns an einem
Beispiel einer Doppelfolge klarmachen.
m
Beispiel 8.13. Wir betrachten Doppelfolge am,n = m+n
für m, n ∈ N. Für jedes feste n ist
limm→∞ am,n = 1, für jedes feste m hingegen limn→∞ am,n = 0. Wir haben also
lim lim am,n = 0 6= 1 = lim lim am,n .
m→∞ n→∞
n→∞ m→∞
Man kann die beiden Grenzwerte nicht einfach vertauschen.
Den Zusammenhang von Potenzreihen und Taylorreihen macht das folgende Beispiel klar.
110
Beispiel 8.14 (Potenzreihe ist ihre eigene
Taylorreihe). Durch sukzessives Differenzieren erhalP
k
a
ten wir die Ableitungen von f (x) = ∞
k=0 k x als
f (n) (x) =
∞
X
k(k − 1) . . . (k − n + 1)ak xk−n ,
k=n
insbesondere gilt also
als an =
f (n) (0)
n!
f (n) (0)
= n! an . Man kann also die Koeffizienten der Potenzreihe berechnen
und erhält
f (x) =
∞
X
f (k) (0)
k!
k=0
xk .
Dieses Beispiel zeigt, dass zwei Potenzreihen, die in einem beliebig kleinen Intervall um 0 die
gleiche Funktion darstellen, übereinstimmen. Erstaunlicherweise gilt dies schon, wenn Gleichheit
nur in einer Folge von Punkten gefordert wird, die gegen 0 konvergieren.
P∞
P
k
k
Satz 8.15 (Identitätssatz für Potenzreihen). Seien f (x) = ∞
k=0 bk x
k=0 ak x und g(x) =
zwei Potenzreihen mit Konvergenzradius mindestens R und sei (xm ) ⊂ (−R, R) \ {0} eine Folge
mit xm → 0 und f (xm ) = g(xm ). Dann gilt ak = bk für alle k ∈ N0 und f (x) = g(x) für alle
reellen (sogar komplexen) x mit |x| < R.
Beweis. Wir zeigen induktiv ak = bk . Aus der Stetigkeit von f und g folgt
a0 = f (0) = lim f (xm ) = lim g(xm ) = g(0) = b0 .
m→∞
m→∞
Sei nun ai = bi für i = 0, 1, . . . , n − 1 schon gezeigt. Dann betrachten wir die Potenzreihen
u(x) =
∞
X
an+k xk
v(x) =
und
∞
X
bn+k xk
k=0
k=0
sowie das Polynom
p(x) =
n−1
X
ak xk =
k=0
n−1
X
bk xk .
k=0
Wegen
xn u(x) = f (x) − p(x)
xn v(x) = g(x) − p(x)
und
und xm 6= 0 folgt aus der Voraussetzung des Satzes u(xm ) = v(xm ). Aus der Stetigkeit von u
und v folgt
an = u(0) = lim u(xm ) = lim v(xm ) = v(0) = bn .
m→∞
m→∞
Wir schließen diesen Abschnitt mit einigen weiteren Beispielen für wichtige Taylorreihen, die wir
mit den nun bereitgestellten Mitteln untersuchen können.
Beispiel 8.16 (Logarithmusreihe). Hier gehen wir von der geometrischen Reihe
∞
X
1
=
(−t)k
1+t
k=0
aus, die für |t| < 1 absolut konvergiert. Dann erhalten wir für für |x| < 1
Z x
∞ Z x
∞
X
X
dt
xk+1
x2 x3
log(1 + x) =
=
(−1)k tk dt =
(−1)k
=x−
+
− +...
k+1
2
3
0 1+t
0
k=0
k=0
111
Beispiel 8.17 (Arcustangensreihe). Hier gehen wir von der geometrischen Reihe
∞
X
1
=
(−t2 )k
1 + t2
k=0
aus, die ebenfalls für |t| < 1 absolut konvergiert. Dann erhalten wir für für |x| < 1
Z
arctan x =
0
x
∞
X
dt
=
2
1+t
k=0
Z
x
(−1)k t2k dt =
0
∞
X
x3 x5
x2k+1
=x−
+
− +...
(−1)k
2k + 1
3
5
k=0
Beispiel 8.18 (Binomialreihe). Wir wollen die binomische Formel
n X
n k
(1 + x) =
x
k
n
k=0
auf f (x) = (1 + x)α für beliebige reelle Koeffizienten α verallgemeinern. Dazu leiten wir zunächst
die Taylorreihe von f (x) her, die man mittels sukzessiven Ableitens als
bα (x) =
∞ X
α k
x
k
k=0
mit den verallgemeinerten Binomialkoeffizienten
α
α(α − 1) · · · (α − k + 1)
=
k
k!
berechnet. Den Konvergenzradius erhalten wir für α ∈
/ N0 durch
α ak k+1
k+1
α+1
k
= lim R = lim = lim
= 1 − lim
= 1.
α = lim
k→∞ ak+1 k→∞ |α − k|
k→∞ k − α
k→∞ k − α
k→∞ k+1
Es bleibt noch zu zeigen, dass tatsächlich bα (x) = (1 + x)α für |x| < 1 gilt. Dazu differenzieren
wir die Potenzreihe für bα und erhalten
∞ ∞ ∞ X
X
X
α
α
α
0
k−1
k
bα (x) =
=
kx
(k + 1)x =
(α − k)xk .
k
k+1
k
k=1
k=0
k=0
Multiplikation mit 1 + x liefert
∞ ∞ ∞ X
X
X
α
α
α
0
k
k
(1 + x)bα (x) =
(α − k)x +
kx =
αxk = αbα (x).
k
k
k
k=0
k=1
k=0
Für die Funktion g(x) = (1 + x)−α bα (x) gilt dann g(0) = 1 und
g 0 (x) = (−α)(1 + x)−α−1 bα (x) + (1 + x)−α b0α (x) = 0.
Damit muss g(x) = 1 für alle x ∈ (−1, 1) sein, was die Behauptung war.
Beispiel 8.19 (Arcussinus-Reihe). Wir beginnen mit der Binomialreihe für α = − 12 und erhalten
für |x| < 1
∞ 1
X
1
−2 k
√
=
x .
k
1+x
k=0
112
Substituieren wir hier x = −u2 mit |u| < 1, ergibt sich
1
∞
X
1
− 2 2k
√
=
u .
(−1)k
2
k
1−u
k=0
Durch Integration erhalten wir
1 2k+1
Z x
∞
X
du
u
1 x3 1 · 3 x5 1 · 3 · 5 x7
k −2
√
arcsin x =
=
(−1)
=x+ ·
+
·
+
·
+ ...
k 2k + 1
2 3
2·4 5
2·4·6 7
1 − u2
0
k=0
8.3
Der Abelsche Grenzwertsatz
Wir kommen nun zum Abelschen Grenzwertsatz, der etwas über die Konvergenz auf dem Rand
des Konvergenzintervalls aussagt. Genauer besagt er, dass im Falle der Konvergenz der Potenzreihe inPx = R oder x = −R die dann auch für x = R bzw. x = −R definierte Funktion
k
f (x) = ∞
k=0 ak x auch dort stetig ist. Wir formulieren den Satz nur für x = R = 1, da sich der
allgemeine Fall leicht auf diesen zurückführen lässt.
Satz
8.20 (Abelscher Grenzwertsatz). Sei
Folge reeller Zahlen, für die die Reihe
P
P (ak ) eine
k für x ∈ (−1, 1), so gilt
a
x
ak konvergiert. Setzen wir dann f (x) = ∞
k=0 k
lim f (x) =
x%1
Beweis. Mit den Partialsummen sn =
n
X
k
ak x =
k=0
n
X
∞
X
ak .
k=0
Pn
k=0 ak
und s−1 = 0 erhalten wir
k
(sk − sk−1 )x = (1 − x)
n−1
X
sk xk + sn xn .
k=0
k=0
Für |x| < 1 ergibt sich durch Grenzübergang n → ∞
f (x) = (1 − x)
∞
X
sk xk .
k=0
P∞
Sei nun s = lim sn = k=0 ak und
P∞sei εk> 0 gegeben. Dann wählen wir n0 ∈ N, so dass |sn −s| <
für n ≥ n0 gilt. Wegen (1 − x) k=0 x = 1 erhalten wir schließlich
n0
∞
X
X
ε
k
(sk − s)x ≤ (1 − x)
|sk − s||x|k + < ε
|f (x) − s| = (1 − x)
2
k=0
ε
2
k=0
für x > 1 − δ mit geeignet gewähltem δ > 0. Das liefert aber gerade die behauptete Grenzwertaussage limx%1 f (x) = s.
Beispiel 8.21. Anwendung des Abelschen Grenzwertsatzes auf die Logarithmusreihe
log(1 + x) = x −
x2 x3
+
− +...
2
3
für |x| < 1 liefert für x = 1 die Summe der alternierenden harmonischen Reihe
log 2 = 1 −
1 1 1
+ − + −...
2 3 4
113
Beispiel 8.22. Anwendung des Abelschen Grenzwertsatzes auf die Arcustangensreihe
arctan x = x −
x3 x5
+
− +...
3
5
für |x| < 1 liefert für x = 1 die Identität
π
1 1 1
= 1 − + − + −...
4
3 5 7
114
9
Differentialrechnung multivariater Funktionen
Viele praktisch relevante Funktionen hängen von mehr als einem Parameter ab. So ist das Volumen eines Kreiszylinders V = πr2 h eine Funktion von Höhe h und Radius der Grundfläche r. Ein
ideales Gas ist beschrieben durch die Gleichung p V = n R T mit Druck p, Volumen V , Stoffmenge
n, Gaskonstante R und Temperatur T . Durch Umstellen erhält man z.B. den Druck als Funktion
der restlichen Parameter. Die Temperatur in einem Raum ist eine Funktion T (x, y, z, t) von drei
Ortsparametern x, y, z und einem Zeitparameter t. Ziel dieses Kapitels ist die Ausdehnung der
Differentialrechnung samt ihrer Anwendungen auf solche Funktionen mit mehreren Variablen.
Dabei werden wir uns teilweise der Übersichtlichkeit halber auf drei Tyypen von Funktionen
beschränken. Dies sind zunächst Funktionen f : R2 → R oder z = f (x, y), die von zwei reellen
Variablen Variablen x, y abhängen. Auf solche Funktionen wollen wir die Begriffe und Methoden
aus der Differentialrechnung für Funktionen einer Variablen verallgemeinern. Dazu führen wir
insbesondere partielle Ableitungen ein. Mit ihrer Hilfe lassen sich diese Funktionen qualitativ
untersuchen, man kann lokale Extrema bestimmen und Krümmungen untersuchen. Weiterhin
werden wir Kurven im R2 und im R3 betrachten. Diese sind gegeben durch Funktionen f :
[a, b] → R2 oder f : [a, b] → R3 auf einem Intervall. Schließlich behandeln wir noch Vektorfelder,
das sind Funktionen f : R2 → R2 oder f : R3 → R3 .
Wir werden uns zunächst mit der Veranschaulichung solcher Funktionen beschäftigen. Danach
wollen wir den Begriff der Stetigkeit auf solche Funktionen übertragen, wobei wir die Folgenstetigkeit als Grundlage nehmen. Anschließend lernen wir die Grundbegriffe der Differentialrechnung multivariater Funktionen kennen. Diese wenden wir dann an zur Untersuchung von Flächen
und Kurven.
9.1
Darstellung von Funktionen
Dieser Abschnitt dient hauptsächlich zur Erklärung, wie sich Funktionen f : R2 → R, f : R → Rd
(mit d = 2, 3) und f : Rd → Rd (mit d = 2, 3) veranschaulichen lassen. Im ersten Fall erhalten
wir als Funktionsgraphen (gekrümmte) Flächen im R3 , im zweiten Fall stellt man sich am besten
die Bildmenge als Kurve im Rd vor, der letzte Fall beschreibt Vektorfelder.
2
1
0
-1
-2
-2
Abbildung 1: Der Paraboloid z = x2 + y 2
-1
0
1
2
115
Betrachten wir zunächst eine Funktion f : D → R auf einem Definitionsbereich D ⊆ R2 . Um ein
konkretes Beispiel zu haben, sei f : R2 → R gegeben durch f (x, y) = x2 +y 2 . Der Funktionsgraph
dieser Funktion in der (x, y, z)-Ebene ist dann also
{(x, y, z) ∈ R3 : z = x2 + y 2 }
und ist dargestellt in Abbildung 1. Diese Fläche heißt Paraboloid. Eine zweite Möglichkeit der
Darstellung ergibt sich durch die zweidimensionale Abbildung der Höhenlinien
{(x, y) ∈ R2 : f (x, y) = c}
für verschiedene Werte der Konstanten c. Man erhält eine topographische Karte der Fläche. Für
den Paraboloiden f (x, y) = x2 + y 2 sind die Höhenlinien Kreise. Dies ist ebenfalls in Abbildung
1 dargestellt, zusätzlich sind verschiedene Intervalle im Wertebereich farbig hinterlegt.
In Abbildung 2 ist der Hyperboloid gegeben durch die Funktion f (x, y) = x2 − y 2 dargestellt, in
Abbildung 3 ein komplexeres Beispiel.
2
1
0
-1
-2
-2
0
-1
1
2
Abbildung 2: Der Hyperboloid z = x2 − y 2
2
1
0
-1
-2
-3
-2
-1
0
1
2
3
Abbildung 3: Die Funktion z = sin(x + y 2 )
Betrachten wir nun Funktionen f : [a, b] → Rd , die auf einem Intervall definiert sind und deren Wertebereich der Rd ist. Hier ist oftmals die Vorstellung hilfreich, dass das Argument der
116
Funktion ein Zeitparameter t ∈ [a, b] ist und f (t) ∈ Rd den Ort darstellt, zu dem sich ein
sich bewegender Punkt zum Zeitpunkt t befindet. Vernachlässigt man dann in der Darstellung
den Zeitparameter, so erhält man eine Kurve im Rd , die vom sich bewegenden Punkt durchlaufen wird. So stellt zum Beispiel die Funktion f (t) = (cos t, sin t) für t ∈ R einen (mehrfach
durchlaufenen) Einheitskreis dar. In den Abbildungen 4 und 5 sind als Beispiele die Funktionen f (t) = (t cos t, t sin t) und g(t) = (cos t, sin t, t) dargestellt, die Kurven heißen archimedische
Spirale und Schraubenlinie.
100
50
-100
50
-50
100
-50
-100
Abbildung 4: Archimedische Spirale
Abbildung 5: Schraubenlinie
Eine Kurve f : [a, b] → R2 setzt sich also formal
aus zwei Komponentenfunktionen x : [a, b] →
R und y : [a, b] → R als f (t) = x(t), y(t) zusammen. Dies sind einfach Funktionen einer
Variablen, die wir schon sehr gut kennen. Hierbei beschreiben x(t) und y(t) die jeweilige xbzw. y-Koordinate des Kurvenpunktes zur Zeit t. Entsprechend setzt sich eine räumliche Kurve
f : [a, b] → R3 aus drei Komponentenfunktionen x, y, z : [a, b] → R als f (t) = x(t), y(t), z(t)
zusammen.
Betrachten wir schließlich Funktionen f : D → Rd , die auf einem Definitionsbereich D ⊆ Rd
definiert sind. Hier sind also Dimension von Definitionsbereich und Wertebereich gleich. Solche
Funktionen treten z.B. als Vektorfelder auf, stellen Sie sich das Gravitationsfeld der Erde oder das
Geschwindigkeitsfeld einer strömenden Flüssigkeit vor. In jedem Punkt des Definitionsbereichs
denkt man sich dazu einen Vektor angeheftet. Ist zum Beispiel d = 2, so zeichnen wir in gewissen
Punkten (x, y) des Definitionsbereichs einen Vektor f (x, y) mit Anfangspunkt (x, y). Als Beispiel
ist in Abbildung 6 das Vektorfeld f (x, y) = (x, −y) in zwei Varianten dargestellt.
Auch ein Vektorfeld kann man sich als Zusammensetzung von Komponentenfunktionen vorstellen. Allerdings hängen hier die Komponentenfunktionen anders als bei Kurven schon von
mehreren Variablen ab. Soist ein Vektorfeld f : D → R2 mit D ⊆ R2 eine Zusammensetzung
f (x, y) = f1 (x, y), f2 (x, y) der Funktionen f1 , f2 : D → R, die die jeweilige x und y-Koordinate
des Bildvektors f (x, y) beschreiben.
9.2
Grenzwerte und Stetigkeit
Im folgenden sei f : D → R eine Funktion f (x, y) von zwei Variablen (x, y) ∈ D ⊆ R2 . Die
Begriffe in diesem Abschnitt lassen sich ohne Schwierigkeiten auf Funktionen von mehr als zwei
Variablen übertragen.
117
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-3
-2
-1
0
1
2
3
-3
-2
-1
0
1
2
3
Abbildung 6: Das Vektorfeld (x, −y)
Definition 9.1. Sei (xn , yn ) n∈N eine Folge von Punkten (xn , yn ) ∈ R2 . Dann heißt diese Folge
konvergent, wenn es einen Punkt (x0 , y0 ) ∈ R2 gibt mit lim
n→∞ xn = x0 und limn→∞ yn = y0 .
In diesem Fall heißt (x0 , y0 ) Grenzwert der Folge (xn , yn ) n∈N und wird mit
(x0 , y0 ) = lim (xn , yn )
n→∞
bezeichnet.
Konvergenz einer Folge von Punkten im R2 ist also nichts anderes als die Konvergenz der jeweiligen Zahlenfolgen der Koordinaten. Der Grenzwert ist wieder eindeutig bestimmt.
Damit lässt sich nun leicht der Begriff Grenzwert von Funktionen und damit der Begriff Stetigkeit
auf multivariate Funktionen übertragen.
Definition 9.2. Sei f : D → R eine Funktion f (x, y) von zwei Variablen (x, y) ∈ D ⊆ R2 und
sei (x0 , y0) ∈ D. Dann heißt a ∈ R Grenzwert von f für (xn , yn ) → (x0 , y0 ), wenn für jede Folge
(xn , yn ) n∈N in D \ {(x0 , y0 )} mit (x0 , y0 ) = limn→∞ (xn , yn )
a = lim f (xn , yn )
n→∞
gilt. Dann schreiben wir a = lim(x,y)→(x0 ,y0 ) f (x, y). Ist zusätzlich a = f (x0 , y0 ), dann heißt f
stetig in (x0 , y0 ). Ist f in jedem (x0 , y0 ) ∈ D stetig, dann heißt f (global) stetig.
Beispiel 9.3.
lim
(x,y)→(0,0)
sin(x + y)
sin t
= lim
=1
t→0 t
x+y
Beispiel 9.4. Der Grenzwert
x2 − y 2
(x,y)→(0,0) x2 + y 2
lim
existiert nicht. Für die Folge (xn , yn ) = ( n1 , n1 ) erhält man
x2n − yn2
= 0,
2
n→∞ x2
n + yn
lim
118
für die Folge (xn , yn ) = ( n2 , n1 ) hingegen
x2n − yn2
= lim
2
n→∞ x2
n→∞
n + yn
lim
4
n2
4
n2
−
+
1
n2
1
n2
3
= .
5
Man kann auch eine ε − δ-Definition der Stetigkeit geben. Für unsere Zwecke ist diese Definition
über die Folgenstetigkeit aber bequemer. Die Übertragung des Grenzwert- und Stetigkeitsbegriffs
auf Funktionen f : D → Rd (wichtig für Kurven und Vektorfelder) erfolgt einfach durch die
entsprechenden Begriffe für die einzelnen Komponentenfunktionen.
Aus der Definition der Stetigkeit ergibt sich damit auch direkt die Stetigkeit von Kompositionen
stetiger Funktionen und von Verknüpfungen mittels algebraischer Operationen.
Beispiel 9.5 (Polynome in mehreren Variablen). Ist (x, y) ∈ R2 und (a, b) ∈ N20 , dann nennen
wir die Funktion f : R2 → R gegeben durch f (x, y) = xa y b Monom, genauer eine Monom in
den zwei Variablen x, y. Linearkombinationen von Monomen heißen Polynome in zwei Variablen
oder bivariate Polynome. Als Produkte stetiger R-wertiger Funktionen sind Monome und damit
auch Polynome in mehreren Variablen stetig. Ein Beispiel für ein Polynom in zwei Variablen ist
f (x, y) = x42 + x2 y 3 + 27xy + 6,
ein Beispiel für ein Polynom in drei Variablen in der üblichen Schreibweise ist
f (x, y, z) = x4 + y 4 + z 4 + 2x3 y 2 z + 42x + 27.
Abbildung 7: Eine separat stetige, nicht stetige Funktion
Beispiel 9.6. Wir betrachten weiter Funktionen f : D → R mit D ⊆ R2 . Eine solche Funktion
heißt separat stetig oder getrennt stetig, wenn für jedes fixierte y die Funktion x 7→ f (x, y) (als
Funktion von R nach R) stetig ist und ebenso für jedes fixierte x die Funktion y 7→ f (x, y)
(als Funktion von R nach R) stetig ist. Jede stetige Funktion ist natürlich separat stetig. Die
Umkehrung gilt allerdings nicht, wie das folgende illuminierende Beispiel zeigt. Sei f : R2 → R
gegeben durch
(
2xy
für (x, y) 6= (0, 0)
x2 +y 2
f (x, y) =
0
für (x, y) = (0, 0).
119
Offensichtlich ist f stetig in allen Punkten (x, y) 6= (0, 0). In (0, 0) ist f auch separat stetig, da
x 7→ f (x, 0) = 0 und y 7→ f (0, y) = 0 stetig
sind. Aber f ist nicht stetig, da für die gegen (0, 0)
1 1
konvergierende Folge (xn , yn ) = n , n die Funktionswerte f (xn , yn ) = 1 sind und nicht gegen
f (0, 0) = 0 konvergieren. In Abbildung 7 ist die Funktion dargestellt.
9.3
Partielle Ableitungen
Für Begriffe, die mit der Differenzierbarkeit von multivariaten Funktionen f : D → R zusammenhängen, benötigen wir, dass der Definitionsbereich D ⊆ R2 mit einem Punkt (x0 , y0 ) ∈ D
auch eine ganze Umgebung des Punktes, also einen (evtl. sehr kleinen) Kreis um den Punkt
(x0 , y0 ) enthält. Eine solche Menge D nennt man eine offene Menge.
Definition 9.7 (Partielle Ableitung). Sie D ⊆ R2 offen, f : D → R und sei (x0 , y0 ) ∈ D.
Ist die Funktion x 7→ f (x, y0 ), die nur von der einen Variablen y abhängt, in x0 differenzierbar,
dann heißt f in (x0 , y0 ) partiell nach x differenzierbar und ihre Ableitung
fx (x0 , y0 ) =
∂f
f (x0 + h, y0 ) − f (x0 , y0 )
(x0 , y0 ) = lim
h→0
∂x
h
die partielle Ableitung von f nach x in (x0 , y0 ). Entsprechend ist die partielle Differenzierbarkeit
nach y und die partielle Ableitung nach y
fy (x0 , y0 ) =
∂f
f (x0 , y0 + h) − f (x0 , y0 )
(x0 , y0 ) = lim
h→0
∂y
h
definiert.
Man erhält also die partielle Ableitung von f (x, y) nach x, indem man y wie eine Konstante
betrachtet und wie üblich nach der einen Variablen x ableitet. Bei der partiellen Ableitung nach
y hingegen behandelt man x als Konstante. Man kann also alle Differentiationsregeln (Produktund Quotientenregel, Kettenregel) anwenden.
2
Beispiel 9.8. Sei f (x, y) = exy . Offensichtlich ist f überall nach x und y partiell differenzierbar
mit
2
2
fx = y 2 exy
und
fy = 2xyexy .
Beispiel 9.9. Sei f (x, y, z) = sin x+ln(y 2 +z 4 ). Offensichtlich ist f überall im Definitionsbereich
(welcher ist das?) nach x, y, z partiell differenzierbar mit
fx = cos x,
fy =
2y
2
y + z4
und
fz =
4z 3
.
y2 + z4
Wir wollen nun auf die geometrische Interpretation der partiellen Ableitungen eingehen, siehe
Abbildung 8. Dazu betrachten wir die partielle Ableitung fx (x0 , y0 ) nach der Variable x. Diese
ist nach Definition wieder der Anstieg einer Tangente, und zwar einer Tangente an die durch
den Graph von f dargestellten Fläche, die in der Ebene y = y0 liegt. Man betrachtet durch
Festhalten der y-Koordinate y = y0 nur den Schnitt der Fläche mit dieser Ebene, die Funktion
f (x, y0 ). Dies ist aber eine Kurve. Der Anstieg der Tangente an diese Kurve im Punkt (x0 , y0 )
ist die partielle Ableitung fx (x0 , y0 ).
120
Abbildung 8: Veranschaulichung Partielle Ableitung als Anstieg
Sind die partiellen Ableitungen selbst wieder partiell differenzierbar, kann man die partiellen
Ableitungen zweiter Ordnung
∂2f
∂2f
=
∂x∂x
∂x2
2
∂ f
=
∂y∂x
∂2f
∂x∂y
∂2f
∂2f
=
=
∂y∂y
∂y 2
fxx =
fxy =
fyx
fyy
bilden.
2
Beispiel 9.10. Sei wieder f (x, y) = exy mit den partiellen Ableitungen
fx = y 2 exy
2
und
2
fy = 2xyexy .
Diese sind offensichtlich wieder partiell differenzierbar und wir erhalten
fxx = y 4 exy
2
fyx = 2xy(y 2 + 1)exy
fxy = 2xy(y 2 + 1)exy
2
2
2
fyy = 2x(2xy 2 + 1)exy .
Die Übereinstimmung der gemischten Ableitungen in diesem Beispiel ist kein Zufall. Formal
vertauscht man zwar beim Bilden der Ableitungen zwei Grenzwerte miteinander:
f (x0 + h, y0 + k) − f (x0 + h, y0 ) − f (x0 , y0 + k) + f (x0 , y0 )
hk
f (x0 + h, y0 + k) − f (x0 + h, y0 ) − f (x0 , y0 + k) + f (x0 , y0 )
fyx (x0 , y0 ) = lim lim
,
h→0 k→0
hk
fxy (x0 , y0 ) = lim lim
k→0 h→0
121
und diese Vertauschung führt nicht immer zum gleichen Ergebnis.
Dass die Vertauschung aber erlaubt ist unter sehr allgemeinen Voraussetzungen ist der Inhalt
des folgenden Satzes.
Satz 9.11 (Vertauschungssatz von Schwarz). Sei D ⊆ R2 offen, f : D → R und (x0 , y0 ) ∈ D.
Falls die partiellen Ableitungen fx , fy und fxy in einer Umgebung von (x0 , y0 ) existieren und dort
stetig sind, dann existiert auch fyx in (x0 , y0 ) und es gilt
fyx (x0 , y0 ) = fxy (x0 , y0 ).
Unter den Voraussetzungen der Stetigkeit der benutzten partiellen Ableitungen spielt also die
Reihenfolge des partiellen Differenzierens keine Rolle. Dies überträgt sich dann auch auf die
höheren gemischten Ableitungen. Bei der Berechnung der Ableitung
∂ m+n f
∂xm ∂y n
ist nur wichtig, dass man insgesamt m mal nach x und n mal nach y ableitet. Für einen Beweis
des Schwarzschen Vertauschungssatzes verweisen wir auf die Literatur.
9.4
Kettenregeln für partielle Ableitungen
Für das praktische Rechnen mit partiellen Ableitungen ist die Erweiterung der Kettenregel auf
multivariate Funktionen notwendig. Eine einheitliche Kettenregel für alle Anwendungen ist dabei
nur möglich, wenn man Verkettungen g ◦ f von Funktionen f : Rd → Rm und g : Rm → Rk mit
allgemeinen d, m, g ∈ N benutzt. Dann kann man aus den partiellen Ableitungen der Komponentenfunktionen von f und g die sogenannten Jacobi-Matrizen Jf , Jg von f und g aufstellen und
die Kettenregel besagt, dass die Jacobi-Matrix Jg◦f von g ◦ f das Matrixprodukt Jg ◦ Jf ist:
Jg◦f = Jg ◦ Jf .
Interpretiert man die Jacobi-Matrizen als Ableitungen, hat man also wieder die klassische Kettenregeln: Ableitung der Verkettung ist äußere Ableitung mal innere Ableitung.
Da wir aber multivariate Funktionen nicht in dieser Allgemeinheit betrachten wollen, untersuchen
wir die für uns wichtigen Fälle von Verkettungen
f ϕ(x, y) ,
f ϕ(t), ψ(t)
undf ϕ(s, t), ψ(s, t)
direkt. Wir setzen dabei jeweils Stetigkeit der (partiellen) Ableitungen der betrachteten Funktionen voraus.
(a) g(x, y) = f ϕ(x, y) mit einer Funktion f (t) von einer Variable und einer Funktion ϕ(x, y)
von zwei Variablen.
Hier kann man einfach die Kettenregel von Funktionen einer Variablen anwenden und erhält
die partiellen Ableitungen von g als
gx (x, y) = f 0 ϕ(x, y) ϕx (x, y)
und
gy (x, y) = f 0 ϕ(x, y) ϕy (x, y).
Zum Beispiel finden wir für die Funktion g(x, y) = sin(x2 y 3 ) die partiellen Ableitungen
gx = 2x cos(x2 y 3 )
und
gy = 3y 2 cos(x2 y 3 ).
122
(b) g(t) = f ϕ(t), ψ(t) mit einer Funktion f (x, y) von zwei Variablen und zwei Funktionen
ϕ(t), ψ(t) von einer Variablen. Hier ist
g 0 (t) = fx ϕ(t), ψ(t) ϕ0 (t) + fy ϕ(t), ψ(t) ψ 0 (t).
Leicht zu merken ist diese Regel auch in der alternativen Form
dz
∂z dx ∂z dy
=
+
,
dt
∂x dt
∂y dt
wobei man (nicht ganz sauber)
z einerseits auffasst als Funktion z(x, y) und andererseits
als Verkettung z x(t), y(t) .
Als Beispiel wollen wir die Ableitung der Funktion g(t) = (cos t)1+sin t ) berechnen, die eine
Verkettung der äußeren Funktion f (x, y) = xy und der inneren Funktionen x = ϕ(t) = cos t
und y = ψ(t) = 1 + sin t ist. Die partiellen Ableitungen von f sind fx = yxy−1 und
fy = (ln x) xy , die Ableitungen von ϕ und ψ sind ϕ0 (t) = − sin t und ψ 0 (t) = cos t. Mit der
Kettenregel erhalten wir
g 0 (t) = (1 + sin t)(cos t)sin t (− sin t) + ln(cos t)(cos t)1+sin t cos t.
Fasst man die Ableitungen (fx , fy ) und (ϕ0 , ψ 0 ) als Vektoren auf, so ist dies das Skalarprodukt dieser Vektoren. Man hat also tatsächlich die Kettenregel in der Form äußere
Ableitung mal innere Ableitung.
(c) g(s, t) = f ϕ(s, t), ψ(s, t) mit einer Funktion f (x, y) von zwei Variablen und zwei Funktionen ϕ(s, t), ψ(s, t) von zwei Variablen.
Hier hat die Kettenregel die Form
∂g
∂f ∂ϕ ∂f ∂ψ
=
·
+
·
∂s
∂x ∂s
∂y ∂s
∂g
∂f ∂ϕ ∂f ∂ψ
=
·
+
·
.
∂t
∂x ∂t
∂y ∂t
Einprägsamer ist die Formel, wenn man die inneren Funktionen schreibt als x(s, t) = ϕ(s, t)
und y(s, t) = ψ(s, t). Dann ist die verkettete Funktion g(s, t) = f (x, y) und die Kettenregel
hat die Form
gs = fx xs + fy ys
gt = fx xt + fy yt .
Als Beispiel betrachten wir die Verkettung der Funktionen f (x, y) = x2 + y 2 mit den
Funktionen x(s, t) = set und y(s, t) = tes und erhalten für die Funktion g(s, t) = (set )2 +
(tes )2 die Ableitungen
gs = fx xs + fy ys = 2xet + 2ytes = 2se2t + 2t2 e2s
gt = fx xt + fy yt = 2xset + 2yes = 2s2 e2t + 2te2s .
9.5
Richtungsableitungen, Gradient, Tangentialebene
Die partiellen Ableitungen einer Funktion f : R2 → R sind Ableitungen in Koordinatenrichtungen. Möchte man den Anstieg einer Fläche in andere Richtungen betrachten, benötigt man den
allgemeinen Begriff der Richtungsableitung.
123
Definition 9.12 (Richtungsableitungen). Sei D ⊆ R2 offen und sei f : D → R. Weiter sei
(x0 , y0 ) ∈ D und r = (g, h) ∈ R2 . Falls der Grenzwert
f (x0 + tg, y0 + th) − f (x0 , y0 )
df
d
= lim
(x0 , y0 ) :=
f (x0 + tg, y0 + th)
,
t→0
dr
dt
t
t=0
so heißt
df
dr (x0 , y0 )
die Richtungsableitung von f in Richtung r.
Die Richtungsableitung kann man also interpretieren als Anstieg des Funktionsgraphen in Richtung des Vektors r. Allerdings hängt die Richtungsableitung auch von der Länge des Vektors r
ab. Dies diskutieren wir weiter unten.
Beispiel 9.13. Die partielle Ableitung nach x ist die Richtungsableitung in Richtung des Einheitsvektors ex = (1, 0), die partielle Ableitung nach y ist die Richtungsableitung in Richtung
des Einheitsvektors ey = (0, 1):
fx (x0 , y0 ) =
∂f
df
(x0 , y0 ) =
(x0 , y0 )
∂x
dex
und
fy (x0 , y0 ) =
∂f
df
(x0 , y0 ) =
(x0 , y0 ).
∂y
dey
Beispiel 9.14. Sei f (x, y) = x2 + y 2 . Wir wollen die Richtungsableitungen von f berechnen.
Seien dazu (x0 , y0 ) ∈ R2 und r = (g, h) ∈ R2 . Dann ist
df
d (x0 , y0 ) =
(x0 + tg)2 + (y0 + th)2 t=0 = 2x0 g + 2y0 h.
dr
dt
Für x0 = y0 = 0 sind z.B. alle Richtungsableitungen gleich 0.
Bemerkung. Die Richtungsableitung in der Definition hängt nicht nur von der Richtung des
Vektors r = (g, h), sondern auch von dessen Länge ab. So gilt offenbar für λ ∈ R
df
df
(x0 , y0 ) = λ
(x0 , y0 ).
d(λr)
dr
Aus diesem Grund wird in manchen
Büchern die Definition eingeschränkt auf normierte Richp
tungsvektoren r mit Länge g 2 + h2 = 1. Das ist manchmal aber sehr unpraktisch. Will man
allerdings die Interpretation der Richtungsableitung als Anstieg der Tangenten an die Funktionsfläche in Richtung r haben, dann gilt dies nur für normierte Richtungsvektoren r.
Fasst man die partiellen Ableitungen einer Funktion f : D → R in einem Punkt (x0 , y0 ) ∈ D als
Vektor auf, erhält man den Gradienten
∇f (x0 , y0 ) = fx (x0 , y0 ), fy (x0 , y0 ) .
Formal ist es vorteilhaft, den Gradienten als Zeilenvektor aufzufassen, also als eine 1 × d-Matrix.
Der folgende Satz stellt den Zusammenhang zwischen dem Gradienten, also den partiellen Ableitungen, und den Richtungsableitungen her.
Satz 9.15. Sei D ⊆ R2 offen und sei f : D → R eine Funktion mit stetigen partiellen
Ableitungen. Dann existieren in jedem Punkt (x0 , y0 ) alle Richtungsableitungen und es gilt für
r = (g, h) ∈ R2
df
(x0 , y0 ) = fx (x0 , y0 )g + fy (x0 , y0 )h.
dr
124
Bemerkung. Kurz kann man diese Beziehung schreiben als
df
= ∇f · r,
dr
g
wobei wir hier das Matrixprodukt der 1 × 2-Matrix ∇f mit dem Richtungsvektor r =
, also
h
einem 2 × 1-Vektor, gebildet haben. Würde man stattdessen den Gradienten auch als Spaltenvektor auffassen, wäre dies das Skalarprodukt des Gradienten mit dem Richtungsvektor.
Beweis. Dies folgt aus der Kettenregel angewendet auf die Funktion ϕ(t) = f (x0 +tg, y0 +th).
Für die Länge eines Vektors r = (g, h) ∈ R2 , also seine euklidische Norm, werden wir ab jetzt
die Bezeichnung |r| benutzen. Also ist
p
|r| = g 2 + h2 .
Die Benutzung der Betragsstriche passt gut zur analogen Bezeichnung für den Betrag einer
komplexen Zahl. Dann ist aus der linearen Algebra bekannt, dass das Skalarprodukt zweier
Vektoren r1 = (g1 , h1 ) und r2 = (g2 , h2 ) gleich
r1 · r2 = g1 g2 + h1 h2 = |r1 | |r2 | cos α
ist, wobei α der Winkel zwischen den Vektoren r1 , r2 ist. Aus dieser Darstellung des Skalarprodukts erhält man sofort die wichtige Cauchy-Schwarz-Ungleichung
|r1 · r2 | ≤ |r1 | |r2 |.
Gleichheit gilt offensichtlich genau dann, wenn r1 , r2 in gleiche oder entgegengesetzte Richtung
zeigen. Sind r1 und r2 orthogonal, ist das Skalarprodukt 0.
Aus der Cauchy-Schwarz-Ungleichung folgt für normiertes r mit krk = 1
df dr ≤ |∇f | · |r| = |∇f |.
Gleichheit gilt, wenn r in Richtung des Gradienten zeigt. Der Gradient zeigt also immer in die
Richtung des steilsten Anstiegs. Das ist der Weg, den ein sehr motivierter Bergsteiger nehmen
würde. Je steiler der Anstieg, desto länger ist der Gradient. Andererseits ist die Richtungsableitung 0 in Richtung orthogonal zu ∇f . Das ist gerade in Richtung der Höhenlinien, wo die
Funktion konstant ist. Diesen Weg würde ein nicht sehr motivierter Wanderer wählen.
Besitzt f : D → R in jedem Punkt partielle Ableitungen (und sind diese stetig), so liefert die
Abbildung ∇ : D → Rd ein Vektorfeld, das sogenannte Gradientenfeld. Dieses kann man sich
am Höhenlinienprofil von f leicht veranschaulichen: Der Gradient ist immer orthogonal zu den
Höhenlinien, je enger die Höhenlinien beieinanderliegen liegen, desto steiler ist der Anstieg, also
desto länger der Gradient.
Beispiel 9.16. Wir betrachten nochmals die Funktion f (x, y) = x2 + y 2 . Die partiellen Ableitungen sind fx = 2x und fy = 2y und damit ist der Gradient ∇f = (2x, 2y). Die partiellen
Ableitungen sind offensichtlich stetig. Also existieren alle Richtungsableitungen. Diese können
wir für r = (g, h) ∈ R2 berechnen als
df
= ∇f · r = fx g + fy h = 2xg + 2yh.
dr
Veranschaulichen Sie sich das Gradientenfeld!
125
Die Analogie zur Tangente an den Graphen einer Funktion von einer Variablen für eine Funktion
f (x, y) von zwei Variablen ist die Tangentialebene in einem Punkt (x0 , y0 ). Dies ist eine Ebene
durch den Punkt (x0 , y0 , z0 ) mit z0 = f (x0 , y0 ), der auf der durch f dargestellten Fläche liegt.
Die Tangentialeben ist die Ebene, die sich am besten an die Fläche anschmiegt.
Wir wollen jetzt zeigen, wie die Gleichung der Tangentialebene aus den Ableitungen gefunden
werden kann. Die Funktionsgleichung einer Ebene im R3 durch den Punkt (x0 , y0 , z0 ) hat die
Form z = T (x, y) = z0 + a(x − x0 ) + b(y − y0 ). Dabei sind a, b reelle Parameter, die die Lage der
Ebene beschreiben.
Abbildung 9: Tangentialebenen an z = x2 + y 2 und z = x2 − y 2
Die Tangentialebene ist dadurch ausgezeichnet, dass alle Tangenten an die durch f dargestellten Fläche, die durch den Punkt (x0 , y0 , z0 ) gehen, in dieser Ebene liegen. Die Anstiege dieser
Tangenten sind gerade die Richtungsableitungen von f in (x0 , y0 ). Also müssen die Richtungsableitungen von T mit den Richtungsableitungen von f übereinstimmen. Insbesondere gilt dies
für die partiellen Ableitungen. Damit erhalten wir
a = Tx (x0 , y0 ) = fx (x0 , y0 )
und
b = Ty (x0 , y0 ) = fy (x0 , y0 ).
Als Ergebnis erhalten wir die Gleichung der Tangentialebene als
T (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 ).
Beispiel 9.17. Wir betrachten wieder die Funktion f (x, y) = x2 +y 2 . Die partiellen Ableitungen
im Punkt (x0 , y0 ) sind fx (x0 , y0 ) = 2x0 und fy (x0 , y0 ) = 2y0 . Die Tangentialebene im Punkt
(x0 , y0 , z0 ) mit z0 = f (x0 , y0 ) = x20 + y02 lautet also
T (x, y) = x20 + y02 + 2x0 (x − x0 ) + 2y0 (y − y0 ).
Zum Beispiel ist die Tangentialebene für (x0 , y0 ) = ( 12 , 12 ) gegeben durch die Gleichung
1
1
1
1
T (x, y) = + x −
+ y−
=x+y−
2
2
2
2
in Abbildung 9 dargestellt.
126
Bemerkung (Das totale Differential). Eine besonders in der älteren Literatur und der Ingenieursliteratur anzutreffender Begriff ist der des totalen Differentials für den Ausdruck
df = fx dx + fy dy.
Damit soll ausgedrückt werden, dass bei sehr kleinen (infinitesimalen) Änderungen der Variablen
x und y um dx bzw. dy sich der Funktionswert in erster Näherung um gerade diesen Wert ändert.
Abbildung 10: Veranschaulichung totales Differential
Wir wollen schließlich noch die Problematik des Zusammenhangs zwischen Existenz der Richtungsableitungen und Existenz einer Tangentialebene beleuchten. Unter den Voraussetzungen
des Satzes 9.15, also der Stetigkeit der partiellen Ableitungen, folgt die Gleichung
df
(x0 , y0 ) = fx (x0 , y0 )g + fy (x0 , y0 )h.
dr
(4)
Die Richtungsableitungen setzen sich also linear aus den Komponenten g und h des Richtungsvektors zusammen. Dies zeigt die Existenz einer Tangentialebene.
Es gibt allerdings Funktionen, die in einem Punkt sämtliche Richtungsableitungen besitzen, aber
keine Tangentialebene in diesem Punkt haben, da die Gleichung (4) nicht gilt. Wir präsentieren
ein allgemeines anschauliches Beispiel.
Beispiel 9.18. Sei eine Stange im Mittelpunkt drehbar gelagert. Dieser Mittelpunkt sei der
Koordinatenursprung. Bei Rotation der Stange um diesen Punkt um 180 Grad in der (x, y)Ebene überstreicht die Stange eine Kreisfläche in der (x, y)-Ebene. Stellen Sie sich nun vor,
dass die Stange bei der Drehung auch vertikal wackelt, allerdings nach einer 180-Grad-Drehung
wieder in Ausgangslage ist. Wenn sie dabei niemals senkrecht steht, überstreicht sie eine Fläche,
die einem Funktionsgraph einer Funktion z = f (x, y) entspricht. Da die Stange nicht verbogen
wird, existieren im Punkt 0 alle Richtungsableitungen, die Funktionen ϕ(t) = f (tr, ts) sind ja
linear. Aber f hat im Punkt (0, 0) nur dann eine Tangentialebene, wenn die Stange sich in einer
(evtl. geneigten) Ebene bewegt.
127
Abbildung 11: Gedrehte Stange
Zur mathematischen
Beschreibung benutzen wir am besten Polarkoordinaten, schreiben also
p
r = r(x, y) = x2 + y 2 für den Abstand des Punkts (x, y) vom Ursprung und ϕ = ϕ(x, y) für das
Argument. Dann erhält man die durch die Stange beschriebene Funktion als f (x, y) = rw(ϕ) mit
einer 2π-periodischen Funktion w : [0, 2π] → R, die die Symmetriebedingung w(x + π) = −w(x)
erfüllt. Die Richtungsableitung in Richtung (r, s) ∈ R2 im Punkt 0 ist dann
df
f (tr, ts) − f (0, 0)
(0, 0) = lim
= f (r, s),
t→0
d(r, s)
t
existiert also sogar für unstetiges w. Andererseits existiert die Tangentialebene im Punkt (0, 0)
nur dann, wenn die Stange in einer Ebene rotiert.
9.6
Mittelwertsatz und Satz von Taylor
In diesem Abschnitt wollen wir den Mittelwertsatz und den Satz von Taylor auf Funktionen von
zwei Variablen verallgemeinern.
Den klassischen Mittelwertsatz haben wir in Satz 6.17 kennengelernt. Setzen wir dort a = x0 und
b = x0 + h, so können wir ihn auch folgendermaßen formulieren: Ist f : (a, b) → R differenzierbar
und sind x0 , x0 + h ∈ (a, b), dann gibt es ein θ ∈ (0, 1) mit
f (x0 + h) = f (x0 ) + f 0 (x0 + θh)h.
In dieser Form wollen wir den Mittelwertsatz verallgemeinern.
Dazu muss f (x, y) in einer konvexen Menge definiert sein. Eine konvexe Menge ist eine Menge,
die mit zwei Punkten auch die gesamte Strecke zwischen den beiden Punkten enthält.
128
Satz 9.19 (Mittelwertsatz für Funktionen zweier Variabler). Sei f : D → R auf einer offenen konvexen Menge D definiert und habe dort stetige partielle Ableitungen. Weiter seinen
(x0 , y0 ), (h, k) ∈ R2 derart, dass (x0 , y0 ) und (x0 + h, y0 + k) in D liegen. Dann gibt es ein
θ ∈ (0, 1) mit
f (x0 + h, y0 + k) = f (x0 , y0 ) + fx (x0 + θh, y0 + θk)h + fy (x0 + θh, y0 + θk)k.
Beweis. Definieren wir
ϕ(t) = f (x0 + th, y0 + tk),
dann folgt mit der Kettenregel
ϕ0 (t) = fx (x0 + th, y0 + tk)h + fy (x0 + th, y0 + tk)k.
Der klassische Mittelwertsatz angewendet auf ϕ liefert ein θ ∈ (0, 1) mit ϕ(1) = ϕ(0) + ϕ0 (θ).
Einsetzen von ϕ und ϕ0 gibt die Behauptung.
Der klassische Mittelwertsatz ist gerade der Satz 6.21 von Taylor im Fall n = 0. Analog ist der
obige multivariate Mittelwertsatz der multivariate Satz von Taylor für n = 0. Der Satz von Taylor
liefert auch im multivariaten Fall die besten lokalen Approximationen der Funktion f (x, y) durch
ein Polynom vom Grad n. Insbesondere hat das Taylorpolynom n-ten Grades im Punkt (x0 , y0 )
die gleichen partiellen Ableitungen bis zur n-ten Ordnung wie f .
Um den multivariaten Satz von Taylor zu formulieren, benötigen wir eine geeignete Notation
für die auftretenden höheren Ableitungen. Diese ist angelehnt an die binomische Formel. Wir
schreiben
n X
∂
∂ n
n
∂nf
h
+k
f=
hi k n−i .
∂x
∂y
i ∂xi ∂y n−i
i=0
Zum Beispiel haben die Fälle n = 0, 1, 2 die Form
∂
∂ 0
h
+k
f =f
∂x
∂y
∂
∂ 1
h
+k
f = fx h + fy k
∂x
∂y
∂
∂ 2
h
+k
f = fxx h2 + 2fxy hk + fyy k 2 .
∂x
∂y
In Analogie zur Definition
Tn (x) =
n
X
f (k) (x0 )
k=0
k!
(x−x0 )k = f (x0 )+
f 0 (x0 )
f 00 (x0 )
f (n) (x0 )
(x−x0 )+
(x−x0 )2 +· · ·+
(x−x0 )n
1!
2!
n!
des Taylorpolynoms n-ten Grades einer Funktion f (x) von einer Variablen definieren wir nun
das Taylorpolynom einer Funktion von zwei Variablen.
Definition 9.20. Hat f : D → R mit einer offenen Menge D ⊂ R2 in einer Umgebung von
(x0 , y0 ) ∈ D alle partiellen Ableitungen bis zur n-ten Ordnung, so heißt das Polynom
n
X
∂ n
1
∂
Tn (x, y) =
(x − x0 )
+ (y − y0 )
f (x0 , y0 )
k!
∂x
∂y
k=0
das Taylorpolynom n-ten Grades (oder der Ordnung n) der Funktion f an der (Entwicklungs)Stelle (x0 , y0 ).
129
Beispiel 9.21. Für n = 0, 1, 2 erhalten wir die Taylorpolynome
T0 f (x, y) = f (x0 , y0 )
T1 f (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 )
T2 f (x, y) = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 )
1
1
+ fxx (x0 , y0 )(x − x0 )2 + fxy (x0 , y0 )(x − x0 )(y − y0 ) + fyy (x0 , y0 )(y − y0 )2
2
2
Um die Güte der Approximation von f durch das Taylorpolynom abzuschätzen benutzt man den
folgenden Satz.
Satz 9.22 (Taylorsche Formel, Restglied nach Lagrange). Hat f : D → R in einer offenen
konvexen Menge D ⊂ R2 alle partiellen Ableitungen bis zur (n + 1)-ten Ordnung und sind diese
stetig, dann gilt für jedes (x, y) ∈ D
f (x, y) = Tn (x, y) + Rn (x, y)
mit dem Restglied
1
Rn (x, y) =
(n + 1)!
∂
∂ n+1
h
+k
f (x0 + θh, y0 + θk),
∂x
∂y
wobei h = x − x0 , k = y − y0 und θ ∈ (0, 1) ist.
Dies folgt aus der Anwendung des Taylorschen Satzes auf die Funktion
ϕ(t) = f (x0 + th, y0 + tk)
unter Anwendung der Kettenregel. Auf einen ausführlichen Beweis verzichten wir hier.
Beispiel 9.23. Wir wollen die Taylorpolynome bis zur 2. Ordnung der Funktion f (x, y) = y x
definiert für x ∈ R und y > 0 im Punkt (x0 , y0 ) = (1, 1) bestimmen. Dazu berechnen wir die
partiellen Ableitungen 1. Ordnung
fx = y x ln y,
fy = xy x−1
und 2. Ordnung
fxx = y x (ln y)2 ,
fxy = xy x−1 ln y + y x−1 ,
fyy = x(x − 1)y x−2 .
Einsetzen von (x0 , y0 ) = (1, 1) ergibt
fx (1, 1) = 0,
fy (1, 1) = 1
und
fxx (1, 1) = 0,
fxy (1, 1) = 1,
fyy (1, 1) = 0.
Zusammen mit dem Funktionswert z0 = f (1, 1) = 1 erhalten wir für n = 0, 1, 2 die Taylorpolynome
T0 f (x, y) = 1
T1 f (x, y) = 1 + (y − 1) = y
T2 f (x, y) = 1 + (y − 1) + (x − 1)(y − 1) = xy − x + 1.
130
Die Matrix
Hf (x0 , y0 ) =
fxx (x0 , y0 ) fxy (x0 , y0 )
fyx (x0 , y0 ) fyy (x0 , y0 )
der zweiten Ableitungen heißt Hesse-Matrix von f in (x0 , y0 ). Nach dem Vertauschungssatz von
Schwarz ist die Hesse-Matrix symmetrisch, wenn f stetige partielle Ableitungen 2. Ordnung
besitzt. Ähnlich wie die zweite Ableitung einer Funktion einer Variablen die Krümmung des
Graphen der Funktion beschreibt, beschreibt die Hesse-Matrix die Krümmung der durch die
Funktion f (x, y) beschriebenen Fläche. Wir wollen darauf hier nicht genau eingehen, nutzen das
aber im nächsten Abschnitt zur Bestimmung lokaler Extremwerte. Allerdings wollen wir nicht
unerwähnt lassen, dass sich dann das Taylorpolynom 2. Ordnung durch den Gradienten und die
Hesse-Matrix kurz schreiben lässt als
T2 f (x, y) = f (x0 , y0 ) + ∇f (x0 , y0 ) · a +
1 T
a Hf (x0 , y0 )a,
2
x − x0
wobei a der Vektor
ist.
y − y0
9.7
Bestimmung lokaler Extremwerte
Die Definitonen von lokalen Extrema läßt sich einfach auf multivariate Funktionen ausdehnen.
Definition 9.24. Sei D ⊆ R2 offen und sei f : D → R. Ein Punkt (x0 , y0 ) ∈ D heißt lokale
Minimalstelle von f , falls es eine Umgebung U ⊆ D von (x0 , y0 ) gibt mit
f (x, y) ≥ f (x0 , y0 )
für (x, y) ∈ U.
Ein Punkt (x0 , y0 ) ∈ D heißt lokale Maximalstelle von f , falls es eine Umgebung U ⊆ D von
(x0 , y0 ) gibt mit
f (x, y) ≤ f (x0 , y0 )
für (x, y) ∈ U.
Der entsprechende Funktionswert f (x0 , y0 ) heißt lokales Minimum bzw. lokales Maximum. Eine
lokale Extremalstelle ist eine lokale Minimalstelle oder Maximalstelle, ein lokales Extremum ist
ein lokales Minimum oder ein lokales Maximum.
Aus der Analysis 1 wissen wir, dass für das Vorliegen einer lokalen Extremalstelle in x0 bei einer
differenzierbaren Funktion f (x) die Bedingung f 0 (x0 ) = 0 notwendig ist. Daraus ergibt sich sofort
Satz 9.25 (Lokale Extrema - notwendige Bedingung). Sei D ⊆ R2 offen und sei f : D → R
partiell differenzierbar. Hat f in (x0 , y0 ) ∈ D eine lokale Extremalstelle, dann sind die partiellen
Ableitungen von f in (x0 , y0 ) gleich 0, also
∇f (x0 , y0 ) = (0, 0).
Diese notwendige Bedingung liefert also die zwei (im Allgemeinen nichtlinearen) Gleichungen
fx (x0 , y0 ) = 0 und fy (x0 , y0 ) = 0 zur Bestimmung von Kandidaten (x0 , y0 ) für lokale Extremalstellen. Geometrisch bedeutet die Bedingung ∇f (x0 , y0 ) = 0 gerade, dass die Tangentialebene
in x0 horizontal verläuft, also parallel zur (x, y)-Ebene ist, eine auch intuitiv einleuchtende notwendige Bedingung für eine lokale Extremalstelle.
Die Punkte (x0 , y0 ) ∈ D mit ∇f (x0 , y0 ) = 0 nennt man auch kritische Punkte oder stationäre
Punkte von f .
131
Beispiel 9.26. Für jede der Funktionen
f1 (x, y) = x2 + y 2 ,
f2 (x, y) = x2 − y 2
und f3 (x, y) = −x2 − y 2
mit (x, y) ∈ R2 erhalten wir als einzigen Kandidaten für eine lokale Extremalstelle den Punkt
(0, 0).
Ebenfalls aus der Analysis 1 wissen wir, dass für eine zweimal stetig differenzierbare Funktion
eine hinreichende Bedingung für eine Minimalstelle die Positivität der zweiten Ableitung, also
f 00 (x0 ) > 0, ist. Im multivariaten Fall muss man für hinreichende Bedingungen die Hesse-Matrix
untersuchen. Entscheidend ist die sogenannte Definitheit der Hesse-Matrix. Diese wird in der
linearen Algebra studiert. Wir wollen hier die allgemeine Definition anführen. Allerdings gibt es
im für uns relevanten Fall von 2×2-Matrizen sehr einfach nachprüfbare äquivalente Bedingungen,
die wir anschließend anführen und für die Bestimmung der Art von lokalen Extrema benutzen
wollen.
Definition 9.27. Eine symmetrische d × d-Matrix A heißt
• positiv definit, wenn aT Aa > 0 für alle a ∈ Rd mit a 6= 0 ist.
• positiv semidefinit, wenn aT Aa ≥ 0 für alle a ∈ Rd ist.
• negativ definit, wenn aT Aa < 0 für alle a ∈ Rd mit a 6= 0 ist.
• negativ semidefinit, wenn aT Aa ≥ 0 für alle a ∈ Rd ist.
• indefinit, wenn sie weder positiv noch negativ semidefinit ist.
Die Definitheit lässt sich auch an den Eigenwerten der Matrix ablesen. Diese werden ebenfalls
in der linearen Algebra studiert. Es gilt:
A
A
A
A
A
ist
ist
ist
ist
ist
positiv definit
positiv semidefinit
negativ definit
negativ semidefinit
indefinit
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
alle Eigenwerte von A sind > 0
alle Eigenwerte von A sind ≥ 0
alle Eigenwerte von A sind < 0
alle Eigenwerte von A sind ≤ 0
A hat positive und negative Eigenwerte.
Für eine symmetrische 2 × 2-Matrix
a b
A=
b c
ist es sehr einfach, positive oder negative Definitheit und Indefinitheit zu erkennen. Dazu benötigt
man die Determinante
D = ac − b2
von A. Dann gilt:
A ist positiv definit
A ist negativ definit
A ist indefinit
⇐⇒
⇐⇒
⇐⇒
D > 0 und a > 0
D > 0 und a < 0
D < 0.
132
Beispiel 9.28. Für die Funktionen aus Beispiel 9.26 erhalten wir als Hesse-Matrix im kritischen
Punkt (0, 0) das folgende:
Funktion:
f1 (x, y) = x2 + y 2
f2 (x, y) = x2 − y 2
Hesse-Matrix:
2 0
Hf1 (0, 0) =
0 2
Determinante
4
−4
4
positiv definit
Minimum
indefinit
kein Extremum
negativ definit
Maximum
Definitheit:
Extremum:
Hf2 (0, 0) =
2 0
0 −2
f3 (x, y) = −x2 − y 2
−2 0
Hf3 (0, 0) =
0 −2
Der aus dieser Zusammenstellung ersichtliche Zusammenhang gilt auch allgemein. Dies formulieren wir im folgenden Kriterium.
Satz 9.29 (Lokale Extrema - hinreichende Bedingung). Sei D ⊆ R2 offen und sei f : D → R
zweimal stetig differenzierbar mit ∇f (x0 , y0 ) = 0. Ist die Hesse-Matrix Hf (x0 , y0 ) positiv definit,
so hat f in (x0 , y0 ) ein lokales Minimum. Ist Hf (x0 , y0 ) negativ definit, so hat f in (x0 , y0 ) ein
lokales Maximum. Ist Hf (x0 , y0 ) indefinit, so hat f in (x0 , y0 ) weder ein lokales Minimum noch
ein lokales Maximum, es liegt ein Sattelpunkt vor.
Bemerkung. Dieses hinreichende Kriterium gilt in dieser Form entsprechend auch für Funktionen mit mehr als zwei Variablen.
Beweisskizze. Wir wollen nur den Beweis im Fall der positiven Definitheit skizzieren. Die anderen
beiden Fälle kann man ähnlich einsehen.
Der Satz von Taylor für k = 1 liefert zusammen mit der Bedingung ∇f (x0 , y0 ) = 0 die Gleichung
f (x0 + h, y0 + k) = f (x0 , y0 ) +
1 T
a Hf (x0 + th, y0 + tk)a,
2
h
. Ist Hf (x0 , y0 ) positiv definit, so ist wegen der Stetigkeit
mit einem t ∈ [0, 1] und dem Vektor
k
der zweiten partiellen Ableitungen auch Hf (x0 + th, y0 + tk) für genügend kleine h, k positiv
definit. Also ist f (x0 + h, y0 + tk) > f (x0 , y0 ) für (h, k) 6= (0, 0) und genügend kleine h, k. Also
liegt in (x0 , y0 ) ein lokales Minimum von f vor.
Beispiel 9.30. Wir wollen die lokalen Extrema der Funktion f (x, y) = x2 + 4y + y4 für x, y ∈ R
mit y 6= 0 bestimmen. Der Definitionsbereich ist also
D = {(x, y) ∈ R2 : y 6= 0},
eine offene Menge. Wir berechnen zunächst die partiellen Ableitungen fx = 2x und fy = 4 − y42 .
Die kritischen Punkte (x, y) mit ∇f (x, y) = 0 sind also gerade die Punkte, die die Gleichungen
fx = 2x = 0
und
fy = 4 −
1
=0
y2
erfüllen. Wir erhalten die zwei kritischen Punkte (x1 , y1 ) = (0, 1) und (x2 , y2 ) = (0, −1). Zur
Bestimmung, ob eine Extremalstelle vorliegt und welcher Art diese ist, betrachten wir die Hessematrix
2 0
fxx fxy
Hf (x, y) =
=
.
0 y83
fyx fyy
133
In den kritischen Punkten ist diese
2 0
Hf (0, 1) =
0 8
und
Hf (0, −1) =
2 0
.
0 −8
Im ersten Fall erhalten wir die Determinante 16, im zweiten Fall −16. Die Matrix Hf (0, 1) ist
deshalb positiv definit, also liegt in (0, 1) ein lokales Minimum mit dem Funktionswert f (0, 1) = 8
vor. Die Matrix Hf (0, −1) ist offensichtlich indefinit, also liegt in (0, −1) kein lokales Extremum,
sondern ein Sattelpunkt vor. Der Funktionswert ist hier f (0, −1) = −8. Lokale Maxima gibt es
nicht. Die Funktion hat kein globales Maximum oder Minimum.
Die Sätze zur Bestimmung lokaler Extrema verlangen als Definitionsbereich eine offene Menge.
Ist dies nicht der Fall, so muss man zur Bestimmung von globalem Maximum und Minimum
auch die Randpunkte des Definitionsbereichs anschauen. Anders als im Fall von Funktionen
einer Variabel, die auf einem Intervall [a, b] definiert sind, besteht nun im Allgemeinen der Rand
des Definitionsbereichs aus einer Kurve, also unendlich vielen Punkten.
Die Existenz von globalem Maximum und Minimum sichert wieder ein Satz von Maximum und
Minimum. Für Funktionen einer Variable galt dieser unter der Voraussetzung, dass f eine stetige
Funktion auf einem abgeschlossenen Intervall ist. Um die Voraussetzung an den Definitionsbereich
auf Funktionen mehrerer Variabler zu übertragen benötigt man den Begriff einer abgeschlossenen
Menge. Eine Menge A ⊆ R2 heißt abgeschlossen, wenn sie mit einer konvergenten Folge auch
deren Grenzwert enthält. Anschaulich bedeutet dies, dass der Rand zur Menge gehört. Diese
Bedingung ist äquivalent dazu, dass das Komplement R2 \ A eine offene Menge ist. In Analogie
zur Beschränktheit einer Teilmenge der komplexen Zahlen heißt eine Menge D ⊂ R2 beschränkt,
wenn sie in einem genügend großen Kreis enthalten ist. Eine abgeschlossene und beschränkte
Menge nennt man kompakt.
Dann kann man den Satz von Maximum und Minimum, den wir hier ohne Beweis angeben,
folgendermaßen formulieren.
Satz 9.31 (Satz von Maximum und Minimum). Sei f : D → R eine stetige Funktion definiert
auf einer kompakten Menge D. Dann nimmt f in D Maximum und Minimum an.
Beispiel 9.32. Wir wollen das globale Maximum und Minimum der Funktion
f (x, y) = sin x + sin y − sin(x + y)
auf dem Definitionsbereich
M = {(x, y) ∈ R2 : 0 ≤ x, y ≤ 2π, 0 ≤ x + y ≤ 2π}
bestimmen. Diese Menge ist ein (abgeschlossenes) Dreieck. Um die Extremwerte der Funktion f
zu finden, suchen wir zunächst die lokalen Extrema im offenen Dreieck
D = {(x, y) ∈ R2 : 0 < x, y < 2π, 0 < x + y < 2π}
und betrachten anschließend die Randpunkte.
Nullsetzen der partiellen Ableitungen
fx = cos x − cos(x + y)
und
fy = cos y − cos(x + y)
und
cos y = cos(x + y)
liefert die Gleichungen
cos x = cos(x + y)
134
Abbildung 12: Die Funktion aus Beispiel 9.32
für die kritischen Punkte. Also muss cos x = cos y sein, was wegen 0 < x, y < 2π entweder y = x
oder y = 2π − x bedeutet.
Einsetzen von y = 2π − x in die Gleichung cos x = cos(x + y) liefert cos x = cos 2π = 1, was für
0 < x < 2π nicht möglich ist.
Einsetzen von y = x in die Gleichung cos x = cos(x + y) liefert
cos x = cos 2x = 2 cos2 x − 1
und damit für t = cos x die quadratische Gleichung
1
1
t2 − t − = 0
2
2
mit den Lösungen t1 = − 12 und t2 = 1. Wieder ist cos x = t1 = 1 wegen 0 < x, y < 2π nicht
4π
möglich. Für cos x = t1 = − 12 gibt es die beiden Lösungen x1 = 2π
3 und x2 = 3 . In diesen
2π
4π
2π 2π
Fällen ist dann y1 = x1 = 3 und y2 = x2 = 3 . Der Punkt (x1 , y1 ) = 3 , 3 liegt im
4π
Definitionsbereich von M , der Punkt (x2 , y2 ) = 4π
wegen x2 + y2 > 2π nicht. Wir erhalten
3 , 3
also im Inneren des Definitionsbereichs nur eine kritische Stelle
2π 2π
(x1 , y1 ) =
,
3 3
135
mit dem Funktionswert
√
3 3
f (x1 , y1 ) =
.
2
Um die globalen Extrema zu finden, müssen wir noch den Rand des Definitionsbereichs M
betrachten. Dort ist x, y oder x + y gleich 0 oder 2π. In jedem dieser Fälle ist f (x, y) = 0.
√
2π
angeAlso ist das globale Maximum von f gleich 3 2 3 und wird (nur) in (x1 , y1 ) = 2π
3 , 3
nommen, das globale Minimum von f ist gleich 0 und wird in jedem der Randpunkte von M
angenommen.
9.8
Lokale Extrema mit Nebenbedingungen - der Lagrange-Formalismus
Wir haben bereits gelernt, wie man lokale Extrema von Funktionen f : D → R definiert auf
einem offenen Gebiet D ⊆ R2 durch Nullsetzen des Gradienten findet. In Anwendungen treten
aber häufiger Extremwertprobleme unter Nebenbedingungen auf. Gesucht wird ein Extremum
von f (x, y), wobei der Variablenbereich durch eine Gleichung g(x, y) = 0 mit einer Funktion
g : D → R eingeschränkt ist.
Dieses Problem und auch der Lösungsalgorithmus, den wir hier vorstellen, lassen sich auf Extremalprobleme für Funktionen f : D → R mit D ⊂ Rd für d ≥ 2 mit mehreren Nebenbedingungen
erweitern. Wieder beschreiben wir der Übersichtlichkeit halber nur den einfachsten nichttrivialen
Fall.
Ein offensichtlicher Lösungsweg ist der folgende: Durch Auflösen der Nebenbedingungen bestimmt man eine der Variablen x oder y in Abhängigkeit der anderen, setzt diese in f ein und
erhält ein Extremalproblem ohne Nebenbedingungen mit einer Variablen. Dieses kann man dann
mit dem aus der Analysis 1 bekannten Verfahren lösen.
Beispiel 9.33. Aus einem kreisrunden Blech vom Radius 1 soll ein Rechteck mit größtmöglichem
Inhalt ausgeschnitten werden. Legen wir den Kreis in den Koordinatenursprung, das Rechteck
achsenparallel, und bezeichnen den rechten oberen Eckpunkt des Rechtecks mit (x, y), so muss
dieser im Extremalfall offenbar auf dem Kreis liegen, also die Nebenbedingung g(x, y) = x2 +
y 2 − 1 = 0 erfüllen. Maximiert werden soll der Flächeninhalt des Rechtecks, also die Funktion
f (x, y)
√ = 4xy. Lösen wir die Nebenbedingung auf, so erhalten wir wegen y > 0 die Gleichung
y = 1 − x2 mit 0 < x < 1. Setzen√wir diese Gleichung in die Zielfunktion ein, ergibt sich
das Problem, die Funktion h(x) = x 1 − x2 für 0 < x < 1 zu maximieren. Einfacher ist es
h(x)2 = x2 (1 − x2 ) zu maximieren, man erhält als Lösung nach dem üblichen Verfahren x2 = 12 ,
also x = y = √12 . Die Lösung ist ein Quadrat.
Problematisch an diesem Verfahren ist, dass das explizite Auflösen der Gleichung g(x) = 0 im
allgemeinen schwierig oder unmöglich ist. Um das Extremalproblem trotzdem zu behandeln,
kann man die kritischen Punkte mit dem Multiplikatorverfahren von Lagrange, dem LagrangeFormalismus bestimmen. Wir beschreiben dieses hier nur. Zum Beweis benötigt man den Satz
von der impliziten Funktion, den wir in dieser Vorlesung nicht behandeln können.
Man betrachtet die Lagrange-Funktion
F (x, y, λ) = f (x, y) + λg(x, y)
mit der neuen Variable λ und bestimmt die kritischen Punkte dieser Funktion, also die (x, y, λ),
136
die die drei Gleichungen
Fx (x, y, λ) = fx (x, y) + λgx (x, y) = 0
Fy (x, y, λ) = fy (x, y) + λgy (x, y) = 0
Fλ (x, y, λ) = g(x, y) = 0
erfüllen. Man sieht, dass die Ableitungen nach den Lagrange-Multiplikator λ gerade wieder die
Nebenbedingung liefert. Diese ist also für die berechneten kritischen Punkte automatisch erfüllt.
Eine wichtige Voraussetzung für das Vorliegen eines kritischen Punktes in (x0 , y0 ) ist, dass mindestens eine der Bedingungen
gx (x0 , y0 ) 6= 0,
oder
gy (x0 , y0 ) 6= 0
erfüllt ist. Diese Voraussetzung muss man immer zusätzlich prüfen!
Mit diesem Verfahren erhält man jede lokale Extremalstelle unter den gegebenen Nebendingungen, aber eventuell noch weitere kritische Punkte. Eine Aussage, ob tatsächlich ein Maximum
oder Minimum vorliegt, ist mit diesem Verfahren direkt nicht möglich. Dazu muss man gesonderte
Betrachtungen anstellen, die sich aber oft aus der Natur des konkreten Problems ergeben.
Beispiel 9.34. Wir führen nun dieses Verfahren an obigem Beispiel durch: Maximiert werden
soll die Funktion f (x, y) = 4xy für x, y ≥ 0 unter der Nebenbedingung g(x, y) = x2 + y 2 − 1 = 0.
Wegen fx = 4y und fy = 4x ist die Voraussetzung
gx (x0 , y0 ) 6= 0,
oder
gy (x0 , y0 ) 6= 0
für alle Punkte (x0 , y0 ), die die Nebenbedingung erfüllen, richtig. Die Lagrangefunktion lautet
dann
F (x, y, λ) = 4xy + λ(x2 + y 2 − 1).
Ableiten nach den Variablen x, y, λ und Nullsetzen liefert das Gleichungssystem
∂F
= 4y + 2λx = 0
∂x
∂F
= 4x + 2λy = 0
∂y
∂F
= x2 + y 2 − 1 = 0.
∂λ
Multiplikation der ersten Gleichung mit y und der zweiten Gleichung mit x zeigt x2 = y 2 . Dann
folgt aus der Nebenbedingung x2 = y 2 = 21 und wir erhalten unter der Voraussetzung x, y > 0 als
einzigen kritischen Punkt wieder x = y = √12 . Aus anschaulichen Gründen (oder durch geeignete
Anwendung des Satzes vom Maximum und Minimum) ist klar, dass es ein Maximum geben muss,
welches wir damit gefunden haben.
137
10
Integralrechnung multivariater Funktionen
In diesem Kapitel wollen wir uns mit der Integration von Funktionen mehrerer Variabler beschäftigen. Dieses Kapitel gliedert sich in mehrere Abschnitte, die unterschiedliche Typen von
Integralen behandeln. Wie schon im Kapitel über Differentialrechnung geht es hauptsächlich
um die Vermittlung eines anschaulichen Verständnisses der Begriffe und nicht so sehr um eine
ausführliche mathematische Darstellung mit allen Details.
Im ersten Abschnitt geht es um Integrale über Kurven. Im zweiten Abschnitt behandeln wir den
Begriff des Riemann-Integrals über zweidimensionale Bereiche.
10.1
Wege, Kurven, Kurvenintegrale
In diesem Abschnitt führen wir zunächst die Begriffe Kurve und Weg ein und ordnen Kurven eine
Länge zu. Anschließend werden zwei Typen von Kurvenintegralen behandelt: Kurvenintegrale
bezüglich Skalarfeldern, mit denen man zum Beispiel das Gewicht einer inhomogen mit Masse
belegten Kurve berechnen kann, und Kurvenintegrale bezüglich Vektorfeldern, mit denen man
zum Beispiel die Arbeit berechnen kann, die bei der Bewegung durch ein Kraftfeld verrichtet
wird. Wir werden sogenannte konservative Felder kennenlernen, in denen die verrichtete Arbeit
nur von Anfangs- und Endpunkt des Weges, nicht vom konkret durchlaufenen Weg, abhängt.
10.1.1
Wege und Kurven
Definition 10.1 (Weg und Kurve). Ein Weg im Rd ist eine stetige Funktion γ : [a, b] → Rd
definiert auf einem abgeschlossenen Intervall [a, b] mit a < b. Die Punkte γ(a) und γ(b) heißen
Anfangspunkt bzw. Endpunkt des Weges. Eine Kurve im Rd ist das Bild C = γ([a, b]) eines
Weges. In diesem Fall heißt γ auch Parameterdarstellung der Kurve C. Ist γ(a) = γ(b), so heißt
γ geschlossener Weg und C geschlossene Kurve.
Bemerkung. Wir erinnern daran, dass eine Funktion γ : [a, b] → Rd zusammengesetzt ist aus
d Komponentenfunktionen γ1 , . . . , γd : [a, b] → R:
γ(t) = γ1 (t), . . . , γd (t) ∈ Rd .
In der Literatur sind die Begriffe Weg und Kurve nicht eindeutig festgelegt. Historisch wurde
zwischen Weg und Kurve nicht genau unterschieden. Man findet ebenfalls die Begriffe Bogen und
Spur.
Bemerkung. Der Begriff Kurve in unserer Definition ist eigentlich zu allgemein. So kann man
z.B. einen Weg im R2 finden, der das ganze Quadrat [0, 1]2 ausfüllt, eine Peanokurve. Der natürlichen Vorstellung einer Kurve als eindimensionales Objekt kommt man erst nahe, wenn man
Kurven ohne Doppelpunkte betrachtet.
Bemerkung. Zur dynamischen Betrachtung eines Weges stellt man sich den Parameter t als
Zeitparameter vor. Zur Zeit t befindet man sich also im Punkt γ(t) des Weges.
Wir wollen nun einem Weg auf natürliche Weise eine Länge zuordnen. Dazu betrachten wir
alle Polygonzüge, die dem Weg einbeschrieben sind. Dazu benutzen wir für den Abstand zweier
Punkte p, q ∈ Rd wie schon im vorhergehenden Kapitel die Bezeichnung |p − q|. Insbesondere ist
also für Punkte p = (xp , yp ), q = (xq , yq ) ∈ R2
q
|p − q| = (xp − xq )2 + (yp − yq )2
138
und für p = (xp , yp , zp ), q = (xq , yq , zq ) ∈ R3
q
|p − q| = (xp − xq )2 + (yp − yq )2 + (zp − zq )2 .
Definition 10.2 (Rektifizierbarkeit und Länge). Ein Weg γ : [a, b] → Rd heißt rektifizierbar,
wenn
n
X
L(γ) = sup
|γ(ti ) − γ(ti−1 )|
i=1
endlich ist, wobei das Supremum über alle Zerlegungen a = t0 < t1 < · · · < tn = b gebildet wird.
Dann heißt L(γ) die Länge der Kurve γ.
Beispiel 10.3. Wir wollen uns überlegen, dass nach dieser Definition die Länge der Strecke
zwischen zwei Punkten p, q ∈ Rd gleich |q − p| ist. Dazu parametrisieren wir die Strecke durch
γ : [0, 1] → Rd mit γ(t) = p + t(q − p). Für jede Zerlegung 0 = t0 < t1 < · · · < tn = 1 erhalten
wir dann
n
X
|γ(ti ) − γ(ti−1 )| =
i=1
n
X
|(ti − ti−1 )|q − p| = (tn − t0 )|q − p| = |q − p|.
i=1
Es folgt L(γ) = |q − p|.
Hat man zwei Wege, die dieselbe Kurve parametrisieren, soll natürlich die Länge nicht von der
konkreten Parametrisierung abhängen. Dies führt uns zur Definition der Äquivalenz von Wegen.
Definition 10.4 (Äquivalenz von Wegen). Zwei Wege γ : [a, b] → Rd und γ
e : [c, d] → Rd heißen
äquivalent, wenn es eine stetige streng monoton wachsende bijektive Funktion h : [a, b] → [c, d]
gibt mit γ = γ
e ◦ h, also γ(t) = γ
e h(t) für t ∈ [a, b].
Bemerkung. Offensichtlich ist die Äquivalenz von Wegen eine Äquivalenzrelation. Insbesondere
ist für äquivalente Wege γ(a) = γ
e(c) und γ(b) = γ
e(d), also bleiben Anfangs- und Endpunkt bei
Äquivalenz erhalten. Wichtige Eigenschaften von Kurven sollten unabhängig von der konkreten
Parametrisierung sein, für äquivalente Wege also das gleiche ergeben. Das werden wir bei der
Längendefinition nachweisen, bei weiteren Beispielen nur erwähnen.
Im nächsten Satz zeigen wir, dass die Länge unabhängig von der Parametrisierung ist. Deshalb
spricht man auch von der Länge einer Kurve.
Satz 10.5 (Unabhängigkeit der Länge von der Parameterdarstellung). Sind die Wege γ :
[a, b] → Rd und γ
e : [c, d] → Rd äquivalent, dann ist γ
e rektifizierbar genau dann, wenn γ rektifizierbar ist. In diesem Fall ist L(γ) = L(e
γ ).
Beweis. Sei h : [a, b] → [c, d] die zugehörige Parametertransformation mit γ = γ
e ◦ h und sei
a = t0 < t1 < · · · < tn = b eine Zerlegung von [a, b]. Dann ist c = h(t0 ) < h(t1 ) < · · · < h(tn ) = d
eine Zerlegung von [c, d] und es gilt
n
X
i=1
|γ(ti ) − γ(ti−1 )| =
n
X
|e
γ (h(ti )) − γ
e(h(ti−1 )| ≤ L(e
γ ).
i=1
Mit der Definition von L(γ) folgt L(γ) ≤ L(e
γ ). Analog gilt L(e
γ ) ≤ L(γ) und damit L(γ) =
L(e
γ ).
139
Der Längenbegriff von Wegen erfüllt folgende elementare Eigenschaften:
• Ist γ : [a, b] → Rd linear, also γ(t) = x0 + tx1 , dann ist γ rektifizierbar und es gilt
L(γ) = |x1 |(b − a) = |γ(b) − γ(a)|.
• Ist γ : [a, b] → Rd eine Lipschitzfunktion mit |γ(t1 ) − γ(t2 )| ≤ L|t1 − t2 | für t1 , t2 ∈ [a, b],
dann ist γ rektifizierbar und es gilt
L(γ) ≤ L(b − a).
Ist insbesondere γ stetig differenzierbar mit |γ 0 (t)| ≤ L für t ∈ (a, b), dann gilt L(γ) ≤
L(b − a).
• Sind γ, γ
e : [a, b] → Rd rektifizierbare Wege, so sind γ + γ
e und γ − γ
e rektifizierbar mit
e).
γ ) ≤ L(γ − γ
L(γ + γ
e) ≤ L(γ) + L(e
γ ) und L(γ) − L(e
• Ist γ : [a, b] → Rd ein rektifizierbarer Weg, dann gilt
L(γ) ≥ |γ(b) − γ(a)|.
Sind γ : [a, b] → Rd und γ
e : [b, c] → Rd zwei Wege mit γ(b) = γ
e(b), dann definiert man den
d
zusammengesetzten Weg γ ⊕ γ
e : [a, c] → R durch γ(t) = γ(t) für t ∈ [a, b] und γ ⊕ γ
e(t) = γ
e(t)
für t ∈ [b, c]. Offenbar ist dann γ ⊕ γ
e rektifizierbar, wenn γ und γ
e rektifizierbar sind und es gilt
L(γ) = L(γ1 ) + L(γ2 ).
Um die Länge eines Weges einfach zu berechnen, schränken wir uns auf glatte Wege und Kurven
ein.
Definition 10.6. Der Weg γ : [a, b] → Rd heißt (stetig) differenzierbar, wenn γ (stetig)
differenzierbar ist, also alle Komponentenfumnktionen (stetig) differenzierbar sind. Der Weg
γ : [a, b] → Rd heißt stückweise stetig differenzierbar, wenn es eine Zerlegung von [a, b] gibt,
so dass γ auf jedem Teilintervall stetig differenzierbar ist. Eine Kurve heißt (stückweise stetig)
differenzierbar, wenn sie eine (stückweise stetig) differenzierbare Parameterdarstellung besitzt.
Satz 10.7. Ist γ : [a, b] → Rd ein stückweise stetig differenzierbarer Weg mit den Komponentenfunktionen γ1 , . . . , γd : [a, b] → R, dann ist γ rektifizierbar und es gilt
Z
L(γ) =
a
b
Z bp
|γ̇(t)| dt =
γ̇1 (t)2 + · · · + γ̇d (t)2 dt,
a
wobei γ̇(t) = γ̇1 (t), . . . , γ̇d (t) ist und γ̇i (t) = γi0 (t) die Ableitung von γi bezeichnet.
Bemerkung. Die Bezeichnung γ̇ für die Ableitung nach dem Zeitparameter t ist aus der Physik
entlehnt und gerade in physikalischen Zusammenhängen oft bequem. Die Ableitung γ̇(t) ist die
Momentangeschwindigkeit. Diese ist ein Vektor, dessen Komponenten γ̇i (t) die Geschwindigkeit
in Richtung der i-ten Koordinate zur Zeit t sind. Der Satz beschreibt also den intuitiv einsichtigen
Zusammenhang zwischen Geschwindigkeit und Weglänge: Letztere ergibt sich als Integral der
(Norm der) Geschwindigkeit über die Zeit. Wir verzichten hier auf einen Beweis.
140
Beispiel 10.8 (Länge von Funktionsgraphen). Ist f : [a, b] → R eine stetig differenzierbare
Funktion, so parametrisiert γ : [a, b] → R2 mit γ(t) = t, f (t) den Funktionsgraphen. Dann ist
p
γ̇(t) = 1, f 0 (t) und |γ̇(t)| = 1 + |f 0 (t)|2 . Für die Länge des Funktionsgraphen ergibt sich also
L=
Z bp
1 + |f 0 (t)|2 dt.
a
Zum Beispiel ist die Länge eines Bogens der Sinusfunktion gegebenen durch
Z πp
L=
1 + cos2 t dt.
0
Beispiel 10.9 (Umfang einer Ellipse). Die Ellipse mit den Halbachsen a ≥ b > 0 ist parametrisiert durch γ(t) = (a cos t, b sin t) mit t ∈ [0, 2π]. Dann ist γ̇(t) = (−a sin t, b cos t) und
p
p
|γ̇(t)| = a2 cos2 t + b2 sin2 t = a 1 − k 2 cos2 t
√
2
2
mit der sogenannten Exzentrizität k = a a−b der Ellipse. Für den Umfang L der Ellipse ergibt
sich
Z 2π p
Z π/2 p
2
2
L=a
1 − k cos t dt = 4a
1 − k 2 cos2 t dt.
0
0
Das auftretende Integral ist ein elliptisches Integral, das sich nicht mittels elementarer Funktionen
auflösen lässt.
Der Spezialfall a = b = r und k = 0 ist der Kreis mit dem Radius r. Für den Kreisumfang erhalten
wir mit L = 2πr die bekannte Formel für den Kreisumfang. Damit ist der Zusammenhang der
früher definierten Kreiszahl π mit dem Umfang des Kreises hergestellt. Dies konnten wir erst an
dieser Stelle machen, da wir eben dazu einen Begriff von der Länge einer Kurve benötigen.
Beispiel 10.10 (Wege in Polarkoordinaten-Darstellung). Wege γ : [a, b] → R2 der Form
γ(t) = r(t) cos t, r(t) sin t
mit einer stetigen Funktion r : [a, b] → R heißen Wege in Polarkoordinaten-Darstellung. Hier ist
r(t) der Abstand des Kurvenpunktes γ(t) zum Ursprung und t ist das Argument. Ist r stetig
differenzierbar, dann finden wir γ̇(t) = (r0 (t) cos t − r(t) sin t, r0 (t) sin t + r(t) cos t) und damit
p
|γ̇(t)| = r0 (t)2 + r(t)2 .
Wir erhalten
L(γ) =
Z bp
r0 (t)2 + r(t)2 dt.
a
1.0
2.0
0.5
1.5
1.0
-2
1
-1
2
0.5
-0.5
1
2
3
4
5
-1.0
Abbildung 14: Zykloide
Abbildung 13: Ellipse
6
141
Beispiel 10.11 (Zykloide). Die durch γ(t) = (t − sin t, 1 − cos t) für t ∈ [0, 2π] definierte Kurve
heißt Zykloide. Ihre Länge ist
Z 2π q
Z 2π
Z π
L=
1 − cos t)2 + sin2 t dt = 2
| sin(t/2)| dt = 4
sin u du = 8.
0
0
0
Um den Längenbegriff auf Kurven zu übertragen, ist es notwendig, sich auf Wege zu beschränken,
die keine Doppelpunkte enthalten.
Definition 10.12. Eine Kurve C ⊂ Rd heißt Jordan-Kurve, wenn es einen Weg γ : [a, b] → Rd
gibt, so dass γ : [a, b] → C bijektiv ist. Der Weg γ heißt dann Jordan-Darstellung von C. Eine
Kurve C ⊂ Rd heißt geschlossene Jordan-Kurve, wenn es einen geschlossenen Weg γ : [a, b] → Rd
gibt, so dass γ : [a, b) → C bijektiv ist. Eine (geschlossene) Jordan-Kurve heißt glatt, wenn es
eine stetig differenzierbare Jordan-Darstellung γ : [a, b] → C gibt mit γ̇(t) 6= 0 für alle t ∈ [a, b].
Zwei Jordan-Darstellungen einer Jordan-Kurve mit der gleichen Durchlaufrichtung sind äquivalent. Also können wir die Länge einer Jordankurve definieren als L(C) = L(γ), wobei γ irgendeine
Jordan-Darstellung von C ist.
Für glatte Jordankurven C ⊂ Rd gibt es eine ausgezeichnete Parametrisierung nach der Bogenlänge γ : [0, L(C)] → Rd , für die t die Länge des Weges γ|[0,t] ist. Ist γ
e : [a, b] → C eine beliebige
stetig differenzierbare Jordan-Darstellung mit γ
e˙ (s) 6= 0 für alle s ∈ [a, b] und ist `(s) die Länge
des Weges γ
e|[a,s] , so erhält man mit Satz 10.7
Z s
`(s) =
|γ
e˙ (σ)| dσ.
a
Da γ
e˙ (s) 6= 0 für alle s ∈ [a, b] ist, ist ` : [a, b] → [0, L(C)] eine streng monoton wachsende
˙ = |γ
Bijektion und `(s)
e˙ (s)| für s ∈ [a, b]. Definieren wir dann γ : [0, L(C)] → Rd durch
γ(t) = γ
e `−1 (t) ,
so erhalten wir eine stetig differenzierbare Jordan-Darstellung γ von C mit
γ̇(t) =
γ
e˙ (s)
γ
e˙ (s)
=
˙
`(s)
|γ
e˙ (s)|
für s = `−1 (t).
Folglich ist |γ̇(t)| = 1 für t ∈ [0, L(C)] und damit ist die Länge von γ|[0,t] gerade t.
10.1.2
Kurvenintegrale 1. Art
Mittels Kurvenintegralen bezüglich Skalarfeldern, sogenannten Kurvenintegralen 1. Art, kann
man zum Beispiel das Gewicht einer inhomogen mit Masse belegten Kurve berechnen. An diesem
Beispiel wollen wir die Definition motivieren.
Dazu sei ein Weg γ : [a, b] → Rd und eine Dichtefunktion f : D → R gegeben, wobei die
Kurve C = γ([a, b]) ganz in D liegt. Die Dichtefunktion f nennt man auch Skalarfeld. Zur
Approximation des Gesamtgewichts betrachten wir wie bei der Berechnung der Weglänge eine
Zerlegung a = t0 < t1 < · · · < tn = b des Intervalls [a, b] und Zwischenpunkte τi ∈ [ti−1 , ti ] für
i = 1, . . . , n. Ist `(t) wieder die Länge des Weges γ|[a,t] , so stellt die Zwischensumme
n
X
i=1
f γ(τi ) `(ti ) − `(ti−1
142
für stetiges f und genügend feine Zerlegungen eine gute Approximation für das Gesamtgewicht
dar. Ist γ zusätzlich stetig differenzierbar, zeigt man ähnlich wie im Beweis von Satz 10.7, dass
dies für eine Folge von Zerlegungen, deren Feinheit gegen 0 konvergiert, gegen das Integral
Z b
f γ(t) |γ̇(t)| dt
a
konvergiert. Allerdings ist der Beweis nicht ganz einfach, man arbeitet am besten mit sogenannten
Riemann-Stieltjes-Integralen. Um diese Schwierigkeit zu vermeiden, definieren wir einfach das
Kurvenintegral 1. Art nur für glatte Jordan-Kurven durch diese Formel.
Definition 10.13 (Kurvenintegral 1. Art). Sei C ⊂ Rd eine glatte Jordan-Kurve und sei
f : C → R stetig. Das Kurvenintegral 1. Art von f entlang C ist gegeben durch
b
Z
Z
f γ(t) |γ̇(t)| dt =
f (x) ds :=
Z
p
f γ(t)
γ̇1 (t)2 + · · · + γ̇d (t)2 dt,
a
a
C
b
wobei γ : [a, b] → C eine stetig differenzierbarer Jordan-Darstellung und γ̇(t) 6= 0 für alle t ∈ [a, b]
ist.
Bemerkung. Für stückweise glatte Wege und Kurven definiert man das Kurvenintegral 1. Art
als Summe der Kurvenintegrale über die glatten Teilstücke.
R
Bemerkung. Das ds in der Bezeichnung C f (x) ds soll darauf hinweisen, dass über die Bogenlänge integriert wird. Man nennt ds = |γ̇(t)| dt auch das Bogenelement.
Bemerkung. Das Kurvenintegral 1. Art hängt nicht von der konkreten Jordan-Darstellung ab,
ist also wohldefiniert. Zum Beweis seien γ : [a, b] → Rd und γ
e : [c, d] → Rd äquivalente glatte
Jordan-Darstellungen und sei h : [a, b] → [c, d] eine zugehörige Parametertransformation mit
γ =γ
e ◦ h. Wir können voraussetzen, dass h stetig differenzierbar ist, indem wir z.B. für γ
e die
Parametrisierung nach der Bogenlänge wählen. Mit der Kettenregel und der Substitutionsregel
folgt dann
Z d
Z b
Z b
0
˙
f γ
e(h(t)) |γ
e(h(t))| h (t) dt =
f γ
e(τ ) |γ
e˙ (τ )| dτ.
f γ(t) |γ̇(t)| dt =
a
a
c
Das Kurvenintegral 1. Art hat offenbar die folgenden Eigenschaften:
• Linearität:
Z
Z
(αf (x) + βg(x)) ds = α
C
Z
f (x) ds + β
C
• Additivität bezüglich Zusammensetzung:
Z
Z
f (x) ds =
C1 ⊕C2
g(x) ds.
C
Z
f (x) ds +
C1
f (x) ds.
C2
Hierbei seien C1 und C2 zwei glatte Jordan-Kurven und γ1 : [a, b] → Rd und γ2 : [b, c] → Rd
stetig differenzierbare Jordan-Darstellungen mit γ1 (b) = γ2 (b) und C1 ⊕ C2 = γ1 ⊕ γ2 ([a, c])
die zusammengesetzte Kurve.
Außerdem gilt offensichtlich die Abschätzung
Z
f (x) ds ≤ max |f (x)| L(C).
C
x∈C
143
1.0
0.5
0.5
1.0
1.5
2.0
-0.5
-1.0
Abbildung 15: Kardioide
Beispiel 10.14. Die in Polarkoordinatendarstellung gegebene Kurve r = 1 + cos t für t ∈ [0, 2π]
heißt Kardioide. Dies ist eine glatte geschlossene Jordankurve C. Wir wollen das Kurvenintegral
1. Art
Z p
4
x2 + y 2 ds
C
berechnen. Das Bogenelement ergibt sich als
ds = |γ̇(t)| dt =
p
r0 (t)2 + r(t)2 dt =
q
p
sin2 t + (1 + cos t)2 dt = 2(1 + cos t) dt
In Polarkoordinaten ist x2 + y 2 = r2 und damit ist die zu integrierende Funktion auf der Kurve
p
√
√
f (x, y) = 4 x2 + y 2 = r = 1 + cos t.
Zusammen ergibt sich
Z p
Z
4
2
2
x + y ds =
C
10.1.3
2π
√
p
√ Z
1 + cos t 2(1 + cos t) dt = 2
0
2π
√
(1 + cos t) dt = 2 2π.
0
Kurvenintegrale 2. Art
Mittels Kurvenintegralen bezüglich Vektorfeldern, sogenannten Kurvenintegralen 2. Art, kann
man zum Beispiel die Arbeit berechnen kann, die bei der Bewegung durch ein Kraftfeld verrichtet
wird.
In diesem Fall hängt das Resultat anders als bei Kurvenintegralen 1. Art im Allgemeinen von
der Durchlaufrichtung der Kurve ab. Um dies zu formalisieren, betrachten wir zu einem Weg
γ : [a, b] → Rd den inversen Weg γ̄ : [a, b] → Rd gegeben durch γ̄(t) = γ(a + b − t). Durchlaufen
wird die gleiche Kurve C, aber in umgekehrtem Durchlaufsinn. Anfangs- und Endpunkt werden vertauscht. Wir bezeichnen eine Kurve mit gegebenem Durchlaufsinn als orientierte Kurve.
Die orientierte Kurve C̄ ist (als Punktmenge) die gleiche Kurve wie C, aber mit umgekehrtem
Durchlaufsinn.
144
Ist der Weg γ : [a, b] → Rd stetig differenzierbar, so stellt in der dynamischen Betrachtungsweise
die Ableitung γ̇(t) den Geschwindigkeitsvektor zur Zeit t dar. Er zeigt in Richtung des Weges und
ist tangential zur Kurve C = γ([a, b]). Ist nun F : D → Rd ein stetiges Vektorfeld gegeben auf
D ⊆ Rd mit C ⊆ D, dann berechnet sich die Komponente des Kraftvektors F γ(t) , die in Richtung der Kurve im Punkt γ(t) wirkt, als Skalarprodukt mit dem normierten Tangentialvektor,
also als
γ̇(t)
f (t) = F γ(t) ,
.
|γ̇(t)|
Die verrichtete Arbeit (Weg mal Zeit) ist dann das Kurvenintegral 1. Art von f über C, also
Z b
Z b
F γ(t) , γ̇(t) dt.
f γ(t) |γ̇(t)| dt =
a
a
Damit ist die folgende Definition motiviert.
Definition 10.15 (Kurvenintegral 2. Art). Sei C ⊂ Rd eine glatte orientierte Jordan-Kurve
und sei F : C → Rd stetig. Das Kurvenintegral 2. Art von F entlang C ist gegeben durch
Z
b
F γ(t) , γ̇(t) dt,
a
wobei γ : [a, b] → C eine stetig differenzierbarer Jordan-Darstellung und γ̇(t) 6= 0 für alle t ∈ [a, b]
ist.
Bemerkung. Für stückweise glatte Wege und Kurven definiert man das Kurvenintegral 2. Art
als Summe der Kurvenintegrale über die glatten Teilstücke.
Bemerkung. Wir wollen noch die üblichen Bezeichnungen für Kurvenintegrale 2. Art in den
Fällen d = 2, 3 diskutieren. Sei zunächst d = 2. Dann besteht das Vektorfeld F : D → R2
mit D ⊆ R2 aus zwei Komponentenfunktionen
P, Q : D → R2 , also F = (P, Q), genauer
F (x, y) = P (x, y), Q(x, y) . Dann schreibt man für das Kurvenintegral 2. Art auch
Z
Z
Z
F (x, y) · d(x, y) =
P (x, y) dx + Q(x, y) dy =
P dx + Q dy.
C
C
C
Der Punkt in der ersten Schreibweise soll die Bildung des Skalarprodukts andeuten, in den
anderen beiden Schreibweisen ist dieses Skalarprodukt ausgeschrieben. Ist γ wieder mit den
Komponentenfunktionen γ = (γ1 , γ2 ) gegeben und schreibt man kurz x(t) = γ1 (t) und y(t) =
γ2 (t), so erhält man formal dx = γ˙1 (t) dt und dy = γ˙2 (t) dt und damit
Z
Z
Z
P dx + Q dy =
P x(t), y(t) γ˙1 (t) + Q x(t), y(t) γ˙2 (t) dt =
F γ(t) , γ̇(t) dt,
C
was die Sinnhaftigkeit dieser Bezeichnung zeigt.
Ist d = 3 und sind die Komponentenfunktionen von F nun P, Q, R, also F = (P, Q, R), dann
schreibt man entsprechend
Z
Z
Z
F (x, y, z) · d(x, y, z) =
P (x, y, z) dx + Q(x, y, z) dy + R(x, y, z) dz =
P dx + Q dy + R dz
C
C
C
für das Kurvenintegral 2. Art.
Bemerkung. Bei gleicher Orientierung hängt das Kurvenintegral 2. Art nicht von der konkreten
Jordan-Darstellung ab, ist also wohldefiniert. Dies folgt wie bei Kurvenintegralen 1. Art mittels
der Substitutionsregel.
145
Das Kurvenintegral 2. Art hat offenbar die folgenden Eigenschaften:
• Linearität:
Z
Z
Z
G(x, y) · d(x, y)
F (x, y) · d(x, y) + β
(αF (x, y) + βG(x, y)) · d(x, y) = α
C
C
C
• Additivität bezüglich Zusammensetzung:
Z
Z
Z
F (x, y) · d(x, y) +
F (x, y) · d(x, y) =
C1 ⊕C2
F (x, y) · d(x, y)
C2
C1
• Verhalten bei Umkehrung der Orientierung:
Z
Z
F (x, y) · d(x, y) = −
F (x, y) · d(x, y)
C̄
C
Außerdem folgt aus der Cauchy-Schwarz-Ungleichung die Abschätzung
Z
F (x, y) · d(x, y) ≤ max |F (x, y)| L(C).
(x,y)∈C
C
Wir haben diese Eigenschaften hier nur für d = 2 aufgeschrieben, für d = 3 gelten sie natürlich
entsprechend.
Beispiel 10.16. Wir betrachten drei orientierte Kurven C1 , C2 , C3 , die vom Punkt (0, 0) zum
Punkt (1, 1) führen und gegeben sind durch die folgenden Parameterdarstellungen:
(
(
(t, 0),
t ∈ [0, 1]
(0, t),
t ∈ [0, 1]
γ1 (t) = (t, t) für t ∈ [0, 1], γ2 (t) =
γ3 (t) =
(1, t − 1), t ∈ [1, 2],
(t − 1, 1), t ∈ [1, 2].
Die Ableitungen dieser Parameterdarstellungen sind dann
(
(1, 0), t ∈ [0, 1]
γ˙1 (t) = (1, 1) für t ∈ [0, 1], γ˙2 (t) =
(0, 1), t ∈ [1, 2],
(
(0, 1), t ∈ [0, 1]
γ˙3 (t) =
(1, 0), t ∈ [1, 2].
Wir betrachten die zwei Vektorfelder F (x, y) = (x, y) und G(x, y) = (y, 0).
Zur Berechnung der Kurvenintegrale 2. Art bezüglich des Vektorfelds F bestimmen wir
(
(
(t, 0),
t ∈ [0, 1]
(0, t),
t ∈ [0, 1]
F γ1 (t) = (t, t), F γ2 (t) =
F γ3 (t ) =
(1, t − 1), t ∈ [1, 2],
(t − 1, 1), t ∈ [1, 2]
und damit
F γ2 (t) , γ˙2 (t) = F γ3 (t) , γ˙3 (t) =
F γ1 (t) , γ˙1 (t) = 2t und
Schließlich erhalten wir die Kurvenintegrale
Z
Z 1
Z
F (x, y) · d(x, y) =
F γ1 (t) , γ˙1 (t) dt =
C1
0
Z
Z
F (x, y) · d(x, y) =
C2
Z
F (x, y) · d(x, y) =
C3
0
1
2t dt = 1,
0
2
F γ2 (t) , γ˙2 (t) dt =
0
Z
(
t,
t ∈ [0, 1]
t − 1, t ∈ [1, 2].
Z
1
Z
0
2
F γ3 (t) , γ˙3 (t) dt =
2
(t − 1) dt = 1,
t dt +
Z
1
1
Z
0
2
(t − 1) dt = 1.
t dt +
1
146
In diesem Fall hängt das Kurvenintegral 2. Art offenbar nicht vom konkreten Weg, sondern nur
von Anfangs- und Endpunkt ab.
Zur Berechnung der Kurvenintegrale 2. Art bezüglich des Vektorfelds G bestimmen wir
(
(
(t, 0), t ∈ [0, 1]
(0, 0),
t ∈ [0, 1]
G γ1 (t) = (t, 0), G γ2 (t) =
G γ3 (t ) =
(1, 0), t ∈ [1, 2],
(t − 1, 0), t ∈ [1, 2]
und damit
G γ1 (t) , γ˙1 (t) = t,
G γ2 (t) , γ˙2 (t) = 0,
G γ3 (t) , γ˙3 (t) =
Schließlich erhalten wir die Kurvenintegrale
Z
Z
Z 1
G γ1 (t) , γ˙1 (t) dt =
G(x, y) · d(x, y) =
C1
0
0
Z
Z
G(x, y) · d(x, y) =
C2
1
2
(
0, t ∈ [0, 1]
1, t ∈ [1, 2].
1
t dt = ,
2
G γ2 (t) , γ˙2 (t) dt = 0,
0
Z
Z
G(x, y) · d(x, y) =
C3
0
2
Z
G γ3 (t) , γ˙3 (t) dt =
1
Z
0 dt +
0
2
1 dt = 1.
1
In diesem Fall hängt das Kurvenintegral 2. Art offenbar vom konkreten Weg ab.
In vielen physikalisch relevanten Fällen hängt die Arbeit, die bei der Bewegung entlang einer
Kurve verrichtet wird, nicht von der konkreten Kurve, sondern nur von Anfangs- und Endpunkt
der Kurve ab. Denken Sie zum Beispiel an die Arbeit, die beim Heben eines Körpers im Gravitationsfeld der Erde verrichtet werden muss. Dabei spielt für die verrichtete Arbeit nur eine Rolle,
wie groß die Änderung der Höhe ist. Vektorfelder mit dieser Eigenschaft nennt man konservative
Felder. Wir wollen solche konservativen Felder als Abschluss dieses Abschnitts diskutieren. Wir
beschränken uns zunächst wieder auf den Fall d = 2 von zweidimensionalen Vektorfeldern. Alles
geht ganz analog für d = 3.
Dazu benötigen wir noch den Begriff des Potential- oder Gradientenfelds. Ein Potential ist ein
Skalarfeld V : D → R. Bildet man den Gradienten ∇V = (Vx , Vy ) von V , so erhält man ein
Vektorfeld. Vektorfelder dieser Art heißen Potential- oder Gradientenfelder. Umgekehrt heißt
das Skalarfeld V dann Potential oder Stammfunktion des Vektorfelds F = (P, Q) = (Vx , Vy ).
Es stellt sich nun heraus, dass konservative Felder gerade Potentialfelder sind. Dazu muss das
Definitionsgebiet D zusammenhängend sein, d.h. zwei beliebige Punkte von D müssen durch
einen (stückweise stetig differenzierbaren) Weg verbunden werden können. Für ein Potentialfeld
kann man das Kurvenintegral 2. Art über jede Kurve C, die von einem Punkt p = (xp , yp ) zu
einem Punkt q = (xq , yq ), einfach berechnen als
Z
F (x, y) · d(x, y) = V (p) − V (q).
C
Beobachten Sie die Analogie zum Hauptsatz der Differential- und Integralrechnung! Dieser stellt
den entsprechenden Sachverhalt im Fall d = 1 dar.
Wir wollen zunächst einsehen, dass ein Potentialfeld tatsächlich konservativ ist. Sei also F =
(P, Q) ein Potentialfeld mit Potential V , d.h. P = Vx und Q = Vy . Weiter sei γ : [a, b] → D eine
147
stetig differenzierbare Jordan-Darstellung der Jordan-Kurve C. Dann folgt mit der Kettenregel
und dem Hauptsatz der Differential- und Integralrechnung
Z
Z
∂V
∂V
P dx + Q dy =
dx +
dy
∂x
C ∂x
C
Z b
=
Vx γ1 (t), γ2 (t) γ̇1 (t) + Vy γ1 (t), γ2 (t) γ̇2 (t) dt
a
Z b
d
=
V γ(t) dt
a dt
= V γ(b) − V γ(a) .
Diese Gleichung gilt dann auch durch Zusammensetzen für stückweise glatte Jordan-Kurven.
Also ist F konservativ und die Formel zur Berechnung des Kurvenintegrals 2. Art ist gezeigt.
Ist umgekehrt F konservativ, dann definieren wir für beliebiges festes (x0 , y0 ) ∈ D und variables
z = (u, v) ∈ D
Z
V (z) =
F (x, y) · d(x, y),
C
wobei C eine beliebige stetig differenzierbare Kurve mit Anfangspunkt (x0 , y0 ) und Endpunkt
z = (u, v) ist. Man zeigt dann, dass V stetig differenzierbar ist mit ∇V = F , also dass V eine
Stammfunktion von F ist. Diesen Beweis führen wir hier nicht aus.
Beispiel 10.17. Wir betrachten die beiden Vektorfelder F, G : R2 → R2 gegeben durch F (x, y) =
(x, y) und G(x, y) = (0, y) aus Beispiel 10.16. In diesem Beispiel haben wir gesehen, dass G nicht
konservativ ist, also existiert kein Potential zu G. Aus dem Beispiel vermuten wir, dass F konservativ ist. Falls dem so wäre, können wir eine Stammfunktion berechnen als
Z (x0 ,y0 )
Z (x0 ,y0 )
V (x0 , y0 ) =
F (x, y) · d(x, y) =
x dx + y dy.
(0,0)
(0,0)
Wählen wir als Kurve die Strecke von (0, 0) nach (x0 , y0 ) parametrisiert durch γ(t) = (tx0 , ty0 )
für t ∈ [0, 1], so erhalten wir
Z 1
Z 1
x2 + y02
V (x0 , y0 ) =
hF (tx0 , ty0 ), γ̇(t)i dt =
t(x20 + y02 ) dt = 0
.
2
0
0
Tatsächlich ist für V (x, y) =
x2 +y 2
2
∇V = (x, y) = F (x, y),
also ist F ein Potentialfeld und V ein Potential. Nun können wir einfach das Kurvenintegral 2.
Art für eine beliebige Kurve C von (xa , ya ) nach (xb , yb ) berechnen als
Z
x2 − x2a + yb2 − ya2
x dx + y dy = V (xb , yb ) − V (xa , ya ) = b
.
2
C
Beispiel 10.18 (Gravitationsfeld einer punktförmigen Masse). Eine punktförmige Masse M im
Punkt (0, 0, 0) erzeugt in D = R3 \{(0, 0, 0} ein Gravitationsfeld. Dabei ist die Gravitationskraft,
die auf einen Körper im Abstand r zum Ursprung ausgeübt wird, nach dem Newtonschen Gesetz
gleich G mM
und in Richtung des Ursprugs gerichtet. Hierbei ist G die universelle Gravitationsr2
konstante. Das zugehörige Gravitationspotential ist
V (x, y, z) = G
M
r
148
mit r =
p
x2 + y 2 + z 2 . Tatsächlich ist der Gradient von V gerade
F (x, y, z) = ∇V (x, y, z) = −G
mM
(x, y, z),
r3
.
zeigt also in Richtung des Ursprungs und hat den Betrag |F | = G mM
r2
Eine notwendige Bedingung für das Vorliegen eines Potentialfeldes sind die Integrabilitätsbedingungen, die sich sofort aus dem Vertauschungssatz von Schwarz ergeben. Im Fall d = 2 und
F = (P, Q) ist dies die Bedingung
P y = Qx ,
die sich aus Vx = P, Vy = Q ergibt. Im Fall d = 3 und F = (P, Q, R) sind dies die drei
Bedingungen
Py = Qx , Pz = Rx , Qz = Ry .
Diese Bedingungen kann man leicht prüfen, ohne das Potential zu kennen. Im Fall, dass das Gebiet
D sternförmig ist, sind diese Bedingungen auch hinreichend dafür, dass das Feld tatsächlich ein
Potentialfeld ist.
Beispiel 10.19. An folgendem Beispiel wollen wir erläutern, wie man nach Prüfung der Integrabilitätsbedingungen eine Stammfunktion finden kann. Dazu sei das Vektorfeld
F (x, y, z) = (P, Q, R) = (y + z, x + z, x + y)
gegeben. Offensichtlich sind die Integrabilitätsbedingungen
Py = Qx = 1, Pz = Rx = 1, Qz = Ry = 1
im sternförmigen Gebiet D = R3 erfüllt, also ist F ein Potentialfeld mit einem Potential V =
V (x, y, z). Dann folgt aus
∂V
y + z = P (x, y, z) =
∂x
durch unbestimmte Integration nach x, dass V die Gestalt
V (x, y, z) = xy + xz + C(y, z)
hat. Hierbei ist die Integrationskonstante C noch abhängig von y und z. Leiten wir diese Gleichung nach y ab, so erhalten wir
x + z = Q(x, y, z) =
∂V
∂C
=x+
,
∂y
∂y
also ist
∂C
.
∂y
Durch unbestimmte Integration nach y folgt, dass C die Gestalt
z=
C(y, z) = yz + D(z)
hat. Hierbei ist die Integrationskonstante D noch abhängig von z. Dann hat also V die Form
V (x, y, z) = xy + xz + yz + D(z).
Leiten wir diese Gleichung nach z ab, so erhalten wir
∂V
= x + y + D0 (z),
∂z
also ist D(z) eine Konstante, die wir auch 0 setzen können. Ein Potential von F ist also gegeben
durch
V (x, y, z) = xy + xz + yz.
x + y = R(x, y, z) =
149
10.2
Das mehrdimensionale Riemann-Integral
In diesem Abschnitt wollen wir die Verallgemeinerung des Riemann-Integrals für multivariate
Funktionen kennenlernen. Dabei gehen wir zunächst ganz analog zur Einführung des RiemannIntegrals von Funktionen einer Variablen vor. Wir betrachten wieder nur den Fall von Funktionen
f (x, y) zweier Variablen.
10.2.1
Definition und Eigenschaften
Abbildung 16: Volumen unter einer Fläche
Die Motivation für das Riemann-Integral war die Berechnung des Flächeninhalts unter dem Graphen einer Funktion f : [a, b] → R, wobei [a, b] ⊂ R ein eindimensionales abgeschlossenes Intervall
war. Nun wollen wir den Inhalt unter dem Graphen einer Funktion f : [a, b] → R berechnen, wobei
[a, b] ein abgeschlossenes achsenparalleles Rechteck ist. Hier sind a = (α1 , α2 ), b = (β1 , β2 ) ∈ R2
mit αi < βi und [a, b] ist nichts anderes als die Produktmenge
[a, b] = [α1 , β1 ] × [α2 , β2 ].
Die Fläche des Rechtecks R = [a, b] ist
|R| = (β1 − α1 )(β2 − α2 ).
Haben wir nun für jedes der beiden Intervalle [αi , βi ] eine Zerlegung Zi in Teilintervalle gegeben,
so bilden die Produkte dieser Teilintervalle eine Zerlegung Z = (Z1 , Z2 ) von [a, b] in achsenparallele Rechtecke. Die Menge dieser Teilrechtecke bezeichnen wir mit T R(Z). Die Feinheit von Z
definieren wir als
|Z| = max |Zi |,
i=1,2
das ist also die maximale Länge, die unter allen Seiten der Teilrechtecke auftritt.
Eine Treppenfunktion ist nun in Analogie zum Fall von Funktionen einer Variablen eine Funktion
f : [a, b] → R, die auf den offenen Teilrechtecken einer Zerlegung konstant ist. Auch hier kann man
zu zwei Treppenfunktionen f, g auf [a, b] immer eine Zerlegung finden, so dass beide Funktionen
f, g auf den Teilrechtecken dieser Zerlegung konstant sind. Dies erreicht man, indem man alle
Unterteilungspunkte der zu f und g gehörenden Zerlegungen als eine neue Zerlegung auffasst.
Das ist eine gemeinsame Verfeinerung beider Zerlegungen.
Die Treppenfunktionen auf einem Rechteck [a, b] bilden einen linearen Raum, sind also f, g
Treppenfunktionen und c, d ∈ R, so ist cf + dg ebenfalls eine Treppenfunktion.
150
Abbildung 17: Eine Treppenfunktion
Definition 10.20. Sei f : [a, b] → R eine Treppenfunktion mit f (x, y) = cR im Inneren des
Zerlegungsrechtecks R ∈ T R(Z). Dann ist das Integral von f über [a, b] gegeben durch
Z
X
f (x, y) d(x, y) =
cR |R|.
[a,b]
R∈T R(Z)
Das Integral einer Treppenfunktion ist unabhängig von der konkreten Wahl der Zerlegung Z.
Daraus ergibt sich sofort die Linearität des Integrals für Treppenfunktionen. Sind f, g Treppenfunktionen auf [a, b] und c, d ∈ R, dann gilt
Z
Z
Z
cf (x, y) + dg(x, y) d(x, y) = c
f (x, y) d(x, y) + d
g(x, y) d(x, y).
[a,b]
[a,b]
[a,b]
Ebenfalls sofort aus der Definition folgt die Monotonie des Integrals für Treppenfunktionen
Z
Z
f (x, y) ≤ g(x, y) für (x, y) ∈ [a, b]
=⇒
f (x, y) d(x, y) ≤
g(x, y) d(x, y).
[a,b]
[a,b]
Ist nun f eine beschränkte Funktion, so kann man Treppenfunktionen (sogar konstante Funktionen) g, h finden mit g ≤ f ≤ h Das rechtfertigt wieder die Existenz von Supremum und Infimum
in der folgenden
Definition 10.21. Sei f : [a, b] → R beschränkt. Dann heißt
Z
Z
f (x, y) d(x, y) = sup
g(x, y) d(x, y)
∗
[a,b]
[a,b]
Unterintegral von f , wobei das Supremum über alle Treppenfunktionen g mit g ≤ f gebildet
wird. Entsprechend heißt
Z ∗
Z
f (x, y) d(x, y) = inf
h(x, y) d(x, y)
[a,b]
[a,b]
Oberintegral von f , wobei das Infimum über alle Treppenfunktionen h mit f ≤ h gebildet wird.
151
Sind g, h Treppenfunktionen
mit g ≤ fR ≤ h, so folgt aus der Monotonie des Integrals für
R
Treppenfunktionen [a,b] g(x, y) d(x, y) ≤ [a,b] h(x, y) d(x, y). Also ist immer
Z
Z ∗
f (x, y) d(x, y) ≤
f (x, y) d(x, y).
∗
[a,b]
[a,b]
Definition 10.22 (Riemann-Integral). Sei f : [a, b] → R beschränkt. Gilt
Z
Z ∗
f (x, y) d(x, y),
f (x, y) d(x, y) =
∗
[a,b]
[a,b]
dann heißt f Riemann-integrierbar und der gemeinsame Wert
Z
Z
Z ∗
f (x, y) d(x, y).
f (x, y) d(x, y) =
f (x, y) d(x, y) =
∗
[a,b]
[a,b]
[a,b]
heißt Riemann-Integral von f über [a, b].
R
Beispiel 10.23. Wir wollen das Riemann-Integral [0,1]2 xy d(x, y) mittels der Definition berechnen. Dazu betrachten wir die Zerlegung
n [
i−1 i
j−1 j
2
,
×
,
.
[0, 1] =
n n
n n
i,j=1
Das Minimum von f (x, y) = xy auf dem Zerlegungsrechteck
i−1
n
i
h
j
, ni × j−1
,
n
n wird im lin-
(i−1)(j−1)
.
n2
ken unteren Eckpunkt angenommen, ist also
Das Maximum wird im rechten oberen
ij
Eckpunkt angenommen, ist also n2 . Die Flaäche jedes Zerlegungsrechtecks ist n12 . Wir erhalten
also für das Integral der Treppenfunktion g ≤ f , die auf jedem Zerlegungsrechteck gleich dem
Minimum von f ist, das Integral
!2
Z
n
n
X
(i − 1)(j − 1) 1
1 X
n2 (n − 1)2
(n − 1)2
g(x, y) d(x, y) =
·
=
(i
−
1)
=
=
.
n2
n2
n4
4n4
4n2
[a,b]
i,j=1
i=1
Also gilt für das Unterintegral von f
Z ∗
1
(n − 1)2
xy d(x, y) ≥ sup
= .
2
4n
4
n∈N
[0,1]2
Für das Integral der Treppenfunktion h ≥ f , die auf jedem Zerlegungsrechteck gleich dem Maximum von f ist, haben wir
!2
Z
n
n
X
ij 1
1 X
n2 (n + 1)2
(n + 1)2
h(x, y) d(x, y) =
· 2 = 4
i
=
=
.
2
4
n n
n
4n
4n2
[a,b]
i,j=1
i=1
Also gilt für das Oberintegral von f
Z
(n + 1)2
1
xy d(x, y) ≤ inf
= .
2
n∈N
4n
4
∗
[0,1]2
152
Also sind Ober- und Unterintegral gleich, f ist Riemann-integrierbar und wir erhalten
Z
1
xy d(x, y) = .
4
[0,1]2
Wieder erhält man direkt aus der Definition die folgende Charakterisierung.
Satz 10.24. Sei f : [a, b] → R beschränkt. Dann ist f Riemann-integrierbar genau dann, wenn
es zu jedem ε > 0 Treppenfunktionen g, h : [a, b] → R gibt mit g ≤ f ≤ h und
Z
Z
h(x, y) d(x, y) −
g(x, y) d(x, y) ≤ ε.
[a,b]
[a,b]
Mittels dieser Charakterisierung kann man wieder ganz analog zur Analysis 1 die RiemannIntegrierbarkeit stetiger Funktionen zeigen.
Satz 10.25. Sei f : [a, b] → R stetig. Dann ist f Riemann-integrierbar.
Auch die grundlegenden Eigenschaften des Integrals für Treppenfunktionen übertragen sich auf
das Riemann-Integral. Die Riemann-integrierbaren Funktionen auf [a, b] bilden also einen linearen
Raum, sind f, g Riemann-integrierbar und c, d ∈ R, dann ist auch cf + dg Riemann-integrierbar.
Wir haben wieder die Linearität des Integrals
Z
Z
Z
cf (x, y) + dg(x, y) d(x, y) = c
f (x, y) d(x, y) + d
g(x, y) d(x, y).
[a,b]
[a,b]
[a,b]
Ebenfalls gilt die Monotonie des Riemann-Integrals:
Z
f (x, y) ≤ g(x, y) für (x, y) ∈ [a, b]
=⇒
Z
f (x, y) d(x, y) ≤
[a,b]
g(x, y) d(x, y).
[a,b]
Weiter kann man direkt die Riemann-Integrierbarkeit von f · g und von |f |p für 0 < p < ∞
folgern. Es gilt die Cauchy-Schwarz-Ungleichung für Riemann-Integrale
Z
f g d(x, y) ≤
[a,b]
Z
[a,b]
!1/2
|f |2 d(x, y)
Z
!1/2
|g|2 d(x, y)
,
[a,b]
die aus der Cauchy-Schwarz-Ungleichung für die Integrale von Treppenfunktionen folgt (dies sind
ja endliche Summen).
Bemerkung (Zwischensummen). Alternativ kann man ebenfalls den Zugang zum RiemannIntegral über Zwischensummen gehen.
Um nun Integrale von Funktionen f : D → R zu definieren, die auf einem beschränkten Definitionsgebiet D ⊂ R2 gegeben sind, das kein achsenparalleles Rechteck ist, setzen wir die Funktion
f außerhalb von D mit 0 fort.
153
Definition 10.26. Sei D ⊂ R2 beschränkt, sei [a, b] ein Intervall mit D ⊆ [a, b] und sei f : D →
R eine beschränkte Funktion. Dann heißt f Riemann-integrierbar (über D), wenn die Funktion
g : [a, b] → R gegeben durch
(
f (x, y) (x, y) ∈ D
g(x, y) =
0
(x, y) ∈
/D
Riemann-integrierbar ist. Dann setzt man
Z
Z
f (x, y) d(x, y) :=
g(x, y) d(x, y).
[a,b]
D
Bemerkung. Man sieht leicht, dass die Definition unabhängig von der Wahl des Rechtecks [a, b]
mit D ⊆ [a, b] ist. Problematisch an dieser Definition ist, dass nicht mehr klar ist, ob eine stetige
Funktion f : D → R Riemann-integrierbar ist. Die fortgesetzte Funktion ist ja im allgemeinen
am Rand von D nicht mehr stetig. Wir können auf diese Feinheiten im Rahmen dieser Vorlesung
nicht eingehen.
Die obige Definition ermöglicht es nun leicht, Gebieten D ⊂ R2 einen Flächeninhaltinhalt zuzuordnen.
Definition 10.27. Eine beschränkte Menge D ⊂ R2 heißt Jordan-messbar, wenn die charakteristische Funktion χD von D Riemann-integrierbar ist. Dann heißt
Z
Z
area(D) :=
χD (x, y) d(x, y) =
1 d(x, y)
D
D
Jordan-Inhalt oder Flächeninhalt von D.
Die Eigenschaften des Riemann-Integrals auf Intervallen übertragen sich direkt auf das RiemannIntegral über Jordan-messbare Mengen. insbesondere gelten also wieder Linearität und Monotonie
Die Monotonie des Riemann-Integrals liefert auch die Monotonie des Jordan-Inhalts: Sind D, E ⊂
R2 Jordan-messbare Mengen mit D ⊆ E, dann gilt area(D) ≤ area(E).
10.2.2
Berechnung zweidimensionaler Riemann-Integrale - Satz von Fubini
Im letzten Abschnitt haben wir die Theorie des Riemann-Integrals für Funktionen einer Variablen
so weit auf Funktionen zweier Variabler übertragen, wie dies ohne große Änderungen möglich ist.
Natürlich müssen wir nun aber auch noch untersuchen, wie man solche Integrale überhaupt in
der Praxis berechnen kann, ohne jedes mal Grenzwerte von Unter- und Obersummen bestimmen
zu müssen.
Zur Motivation betrachten wir
R eine Funktion f : [α1 , β1 ] × [α2 , β2 ] → R, von der wir das Volumen
unter dem Graphen, also [α1 ,β1 ]×[α2 ,β2 ] f (x, y) d(x, y) berechnen wollen. Halten wir zunächst
y ∈ [α2 , β2 ] fest, so liefert das eindimensionale Integral
Z β1
F (y) =
f (x, y) dx
α1
gerade die Querschnittsfläche des betrachteten Volumens mit einer senkrechten Ebene beim festen Wert y. Anschaulich ist also F (y) dy das Volumen einer dünnen Scheibe des betrachteten
154
Volumens mit Querschnittsfläche F (y) und Dicke dy. Aufsummieren der Volumina dieser dünnen
Scheiben liefert einerseits (im Grenzwert)
Z β2
F (y) dy,
α2
andererseits ist das das gesuchte Gesamtvolumen. Diese Betrachtung legt nahe, dass wir das
zweidimensionale Integral als zwei iterierte eindimensionale Integrale nach der Formel
Z
Z β2 Z β1
f (x, y) d(x, y) =
f (x, y) dx dy
[α1 ,β1 ]×[α2 ,β2 ]
α2
α1
berechnen können.
Dies ist unter relativ allgemeinen Bedingungen richtig und stellt den Inhalt des Satzes von Fubini
dar.
Satz 10.28 (Fubini für Rechtecke). Sei f : [α1 , β1 ]×[α2 , β2 ] → R RRiemann-integrierbar. Weiter
existiere für jedes feste y ∈ [α2 , β2 ] das Riemann-Integral F (y) := [α1 ,β1 ] f (x, y) dx. Dann ist F
auf [α2 , β2 ] Riemann-integrierbar und es gilt
Z
Z
β2
f (x, y) d(x, y) =
[α1 ,β1 ]×[α2 ,β2 ]
Z
β2
Z
β1
F (y) dy =
α2
f (x, y) dx
α2
dy.
α1
Bemerkung. Die Voraussetzung des Satzes ist für stetige Funktionen f erfüllt. Man kann dann
natürlich auch die Reihenfolge der Integrationen vertauschen. Die Klammern um das innere
Integral lässt man meist weg und schreibt
Z β2 Z β1
f (x, y) dx dy.
α2
α1
R
Beispiel 10.29. Wir wollen das Riemann-Integral [0,1]2 xy d(x, y) aus Beispiel 10.23 mittels des
Satzes von Fubini berechnen. Da f (x, y) = xy stetig ist, erhalten wir
Z
Z 1 Z 1
Z 1
y
1
xy d(x, y) =
xy dx dy =
dy = .
4
[0,1]2
0
0
0 2
Wir wollen nun eine Version des Satzes von Fubini für Integrale über allgemeine Jordan-messbare
Mengen ableiten. Dazu sei D ⊂ R2 zunächst eine beliebige Menge. Die Projektion von D auf den
R ist dann die Menge
P (D) := y ∈ R : ∃x ∈ R mit (x, y) ∈ D .
Für y ∈ P (D) ist dann die Menge
Dy := x ∈ R : (x, y) ∈ D ⊆ R
der (nichtleere) Schnitt von D mit der Geraden parallel zur x-Achse durch y.
Satz 10.30 (Fubini). Sei D ⊂ R2 Jordan-messbar und sei f : D → RR Riemann-integrierbar.
Weiter existiere für jedes feste y ∈ P (D) das Riemann-Integral F (y) := Dy f (x, y) dx. Dann ist
F auf P (D) Riemann-integrierbar und es gilt
!
Z
Z
Z
Z
f (x, y) d(x, y) =
D
F (y) dy =
P (D)
f (x, y) dx
P (D)
Dy
dy.
155
Beweis. Zum Beweis wählen wir einfach abgeschlossene Intervalle [α2 , β2 ] ⊂ R mit P (D) ⊆
[α2 , β2 ] und [α1 , β1 ] ⊂ R mit D ⊆ [α1 , β1 ] × [α2 , β2 ] und wenden den Satz 10.28 von Fubini für
Rechtecke auf die mit 0 fortgesetzte Funktion an.
Aus dem allgemeinen Satz von Fubini folgt sofort
Korollar 10.31 (Prinzip von Cavalieri für Flächen). Sei D ⊂ R Jordan-messbar und sei das
abgeschlossene Intervall [α1 , β1 ] so gewählt, dass x ∈ [α1 , β1 ] für alle (x, y) ∈ D gilt. Für alle
x ∈ [a, b] habe die Menge
Q(x) := y ∈ R : (x, y) ∈ D ⊂ R
die Gesamtlänge q(x). Dann gilt
Z
β1
area(D) =
q(x) dx.
α1
Das eigentliche klassische Prinzip von Cavalieri ist die Verallgemeinerung zur Volumenberechnung
mittels der Berechnung paralleler Schnittflächen, das wir hier nur informell diskutieren. Sei dazu
D ⊆ R3 eine Jordan-messbare Menge und sei wieder [α1 , β1 ] ein Intervall, dass x ∈ [α1 , β1 ] für
alle (x, y, z) ∈ D gilt. Für ein Für alle x ∈ [α1 , β1 ] habe die Menge
Q(x) := (y, z) ∈ R2 : (x, y, z) ∈ D ⊂ R
den Flächeninhalt q(x). Dann hat D das Volumen
Z β1
V =
q(x) dx.
α1
Dieses Prinzip kannte eigentlich schon Archimedes, der damit das Volumen einer Kugel berechnen
konnte.
Beispiel 10.32 (Integration über ebene Normalbereiche). Eine Teilmenge des R2 der Form
D := (x, y) ∈ R2 : a ≤ x ≤ b, ϕ(x) ≤ y ≤ ψ(x)
mit stetigen Funktionen ϕ, ψ : [a, b] → R und ϕ ≤ ψ heißt Normalbereich (bezüglich der x-Achse)
im R2 . Normalbereiche sind Jordan-messbar und das Integral einer stetigen Funktion f : D → R
lässt sich mittels des Satzes von Fubini berechnen als
Z
Z b Z ψ(x)
f (x, y) d(x, y) =
f (x, y) dy dx.
D
a
ϕ(x)
Normalbereiche bezüglich der y-Achse sind symmetrisch definiert.
Zum Beispiel kann man das Innere einer Ellipse
n
o
x2 y 2
D = (x, y) ∈ R2 : 2 + 2 ≤ 1
a
b
mit den Halbachsen a, b > 0 als Normalbereich darstellen durch
(
)
r
r
x2
x2
2
D = (x, y) ∈ R : −a ≤ x ≤ a, −b 1 − 2 ≤ y ≤ b 1 − 2 .
a
a
Der Flächeninhalt von D ist dann
q
Z a Z b 1− x2
Z
a2
1 dy dx = 2b
q
2
−a
−b
1− x2
a
a
−a
r
x2
1 − 2 dx = 2ab
a
Z
1
−1
p
1 − u2 du = πab.
156
10.2.3
Substitutionsregel und Koordinatenwechsel
In diesem Abschnitt wollen wir das Analogon zur Substitutionsregel für Funktionen einer Variablen behandeln. Diese hatte die Form
Z b
Z g(b)
f g(u) g 0 (u) du
f (x) dx =
a
g(a)
für eine streng monoton wachsende stetig differenzierbare (und damit bijektive) Funktion g :
[a, b] → [g(a), g(b)].
Zur Motivation wollen wir zunächst eine Substitution betrachten, die durch eine invertierbare
lineare Abbildung A : R2 → R2 , also eine 2 × 2-Matrix, beschrieben wird. Diese Abbildung
bildet das Einheitsquadrat [0, 1]2 auf ein Parallelogramm mit dem Flächeninhalt | det A| ab. Da
die Abbildung A linear ist, wird jede die Fläche jeder Jordan-messbaren Menge J unter der
Abbildung A einfach mit diesem Faktor | det A| multipliziert:
area A(J) = | det A| area(A).
Nun ist eine allgemeine Substitution T : R2 → R2 nicht linear, kann aber lokal mittels der
Ableitungen linearisiert werden. Betrachten wir die Komponentenfunktionen ϕ, ψ : R2 → R von
T , also T = (ϕ, ψ), so ist die beste lineare Näherung von T im Punkt (x0 , y0 ) gegeben durch die
Jacobi-Matrix
ϕx (x0 , y0 ) ϕy (x0 , y0 )
.
JT (x0 , y0 ) =
ψx (x0 , y0 ) ψy (x0 , y0 )
In der Nähe von (x0 , y0 ) werden
also Flächen bei Anwendung der Transformation T etwa mit
dem Faktor det JT (x0 , y0 ) multipliziert.
Satz 10.33 (Substitutionsregel, Transformationssatz). Sei T : G → R2 eine stetig differenzierbare Abbildung auf einer offenen Menge G ⊆ R2 und sei D ⊂ G kompakt und Jordan-messbar,
so dass T auf G injektiv ist und det JT auf G entweder überall positiv oder überall negativ ist.
Dann ist T (D) Jordan-messbar und für jede stetige Funktion f : T (D) → R gilt
Z
Z
f (x, y) d(x, y) =
f T (u, v) det JT (u, v) d(u, v).
T (D)
D
Die Substitutionsregel wird meist angewendet, wenn das Integrationsgebiet D und eventuell auch
die zu integrierende Funktion f am besten in einem anderen als dem kartesischen Koordinatensystem dargestellt wird.
Beispiel 10.34 (Polarkoordinaten). Zu jedem Punkt (x, y) ∈ R2 \ {(0, 0} gibt es genau ein Paar
(r, ϕ) ∈ (0, ∞) × [0, 2π) mit x = r cos ϕ, y = r sin ϕ. Dies sind die Polarkoordinaten von (x, y).
Setzen wir nun T (r, ϕ) = (r cos ϕ, r sin ϕ) auf G = R2 , dann ist T stetig differenzierbar mit
cos ϕ −r sin ϕ
det(JT (r, ϕ)) = det
= r.
sin ϕ r cos ϕ
Ist also D ⊆ [0, ∞) × [0, 2π] kompakt und Jordan-messbar, dann sind die Voraussetzungen der
Substitutionsregel erfüllt. Also ist T (D) Jordan-messbar und für jede stetige Funktion f : g(D) →
R gilt
Z
Z
f (x, y) d(x, y) =
T (D)
f (r cos ϕ, r sin ϕ) r d(r, ϕ).
D
157
Gebiete, die gut für die Behandlung mit Polarkoordinaten geeignet sind, sind Sektoren von
Kreisringen T (K) mit
K = (r, ϕ) ∈ [0, ∞) × [0, 2π] : r1 ≤ r ≤ r2 , ϕ1 ≤ ϕ ≤ ϕ2
für gegebene r1 , r2 , ϕ1 , ϕ2 . Dann liefert der Satz von Fubini
Z ϕ2 Z r2
Z
f (r cos ϕ, r sin ϕ) r dr dϕ).
f (x, y) d(x, y) =
T (K)
ϕ1
r1
Zum Beispiel erhält man den Flächeninhalt des Kreissektors als
Z
Z ϕ 2 Z r2
1
area(T (K)) =
1 d(x, y) =
r dr dϕ = (r22 − r12 )(ϕ2 − ϕ1 )
2
T (K)
ϕ1
r1
und das Integral über die Funktion f (x, y) = x2 + y 2 als
Z
Z ϕ2 Z r2
1
2
2
(x + y ) d(x, y) =
r3 dr dϕ = (r24 − r14 )(ϕ2 − ϕ1 )
4
T (K)
ϕ1
r1