Mathematik für Chemiker

Mathematik für Chemiker
Kerstin Hesse
Universität Paderborn, Sommersemester 2016
y
11111111111111
00000000000000
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
+
a
+
−
b
x
Dieses Skript wurde im Herbst/Winter 2013 und im Frühjahr 2014 als Vorlesungsskript
für den Kurs Mathematik für Chemiker“ erstellt. Als Vorlagen dienten dabei das Skript
”
Mathematik für Chemiker“ von Dieter Bothe, Hermann Hembd und Norbert Köckler
”
(von 2005), sowie die Unterlagen diverser Vorlesungen, die ich im Verlauf der letzten 10
Jahre an verschiedenen Universitäten im In- und Ausland gehalten habe.
Paderborn, April 2016
Kerstin Hesse
c Dr. Kerstin Hesse, Universität Paderborn
Einleitung
Der Kurs Mathematik“ für Chemiker behandelt die grundlegenden mathematischen
”
Techniken, welche Sie für Ihr Chemiestudium benötigen. Dabei geht der Kurs
an einigen Stellen über die Schulmathematik hinaus, und Sie werden feststellen, dass
alles etwas formalisierter“ ist, als Sie es in der Regel aus der Schule gewöhnt sind. Dies
”
erfordert eine gewisse Umstellung, und es ist sehr wichtig, dass sie Übungsaufgaben
rechnen, um sich mit den mathematischen Techniken und deren Anwendung vertraut zu
machen.
Warum sollten Sie Zeit investieren, um diese mathematischen Techniken zu
lernen? Mathematik ist die Sprache der Naturwissenschaften, denn physikalische, chemische und technische Phänomene lassen sich nur mit der Sprache der Mathematik
exakt beschreiben und modellieren. So können in der Chemie zum Beispiel Reaktionsvorgänge mit Hilfe von Differentialgleichungen beschrieben werden. In der Quantenphysik/Quantenchemie kommen Sie ohne mathematische Techniken und Notation nicht aus
und nutzen auch mathematische Techniken, die weit über den Inhalt dieses Kurses hinausgehen. Wir werden im Laufe des Kurses einige kleine Anwendungen aus der Chemie
und Physik betrachten. – Zudem erfordert das Analysieren chemischer Vorgänge in einem hohen Maß logisches Denkvermögen; dieses wir durch diesen Kurs ebenfalls bestens
trainiert.
Was wird in dem Kurs besprochen?
Im Teil I: Grundlagen“ werden wir einige mathematische Grundlagen wiederholen
”
bzw. einführen. Neu sind hier vor allem die komplexen Zahlen, die Grundzüge der Aussagenlogik und elementare Beweistechniken. Auch wenn es in dem Kurs primär um das
Lernen, Verstehen und Anwenden mathematischer Techniken geht und wir nur wenige Resultate beweisen werden, ist es trotzdem nützlich, die Grundzüge mathematischer
Beweistechniken kennenzulernen. Diese helfen später beim Verständnis mancher mathematischer Aussagen und Resultate und können auch Aufschluss darüber geben, wie man
mathematische offene Fragen“ in der Chemie angehen soll.
”
Im Teil II: Analysis“ besprechen wir die Themenbereiche Differentiation und Integra”
tion. Hier werden große Teile des Materials aus der Schule bekannt sein. Allerdings werden
auch neue Themen, wie z.B. die Konvergenz von Folgen, auftauchen, und viele Themen,
z.B. Stetigkeit und die Ableitung, werden nun klarer eingeführt, als Sie es vermutlich aus
der Schule gewöhnt sind. Wir werden hier vieles mathematisch stringenter“ formulieren,
”
I
II
Einleitung
als Sie es aus der Schule gewöhnt sind, aber davon sollten Sie sich nicht abschrecken lassen: Sobald Sie sich daran gewöhnt haben, werden Sie feststellen, dass dies die Klarheit
erhöht und es vereinfacht, mit den mathematischen Methoden zu arbeiten.
Im Teil III: Gewöhnliche Differentialgleichungen“ werden Sie im wesentlichen neu”
es Material kennenlernen. Das einfachste Beispiel einer Differentialgleichung ist y ′ (t) =
−k y(t), wobei k eine positive Konstante ist und y = y(t) eine unbekannte zeitabhängige
Funktion. Beispielsweise beschreibt diese Differentialgleichung den radioaktiven Zerfall;
hierbei ist dann y(t) die Menge der radioaktiven Substanz zum Zeitpunkt t. Das Lösen
einer solchen Differentialgleichung bedeutet, dass wir die Funktionen y = y(t) finden, die
diese Differentialgleichung erfüllen. Für die Differentialgleichung y ′(t) = −k y(t) erfüllen
alle Funkionen y(t) = c · e−kt (mit beliebigen Konstanten c) diese Differentialgleichung.
Im Teil IV: Lineare Algebra“ besprechen wir schließlich Vektoren, Matrizen, Deter”
minanten und lineare Gleichungssysteme. Diese Themen werden den meisten von Ihnen
aus der Schule bekannt sein.
Was für mathematisches Wissen wird vorausgesetzt? Generell werden in diesem
Kurs im wesentlichen grundlegende Rechentechniken aus der Mittelstufe vorausgesetzt,
aber je mehr Mathematik Sie bereits beherrschen, desto besser sind sie natürlich auf den
Kurs vorbereitet. Erwartet wird vor allem, dass Sie grundlegende Rechentechniken
wie das Rechnen mit Ungleichungen, die Bruchrechnung und die binomischen
Formeln beherrschen. Wenn Sie bei diesen grundlegenden Rechentechniken Defizite
haben, müssen Sie selbst daran arbeiten, diese zu beheben! Weiterführendes Material
wird in der Regel vollständig eingeführt.
Wie sollte man dieses Skript verwenden, und wie sollte
man für den Kurs lernen?
• Kommen Sie immer zu der Vorlesung und schreiben Sie mit: Durch das Mitschreiben machen Sie sich mit dem Material vertraut, und außerdem ist es leichter,
dabei konzentriert zu bleiben. Wenn Sie nicht mitschreiben und nur zuhören, werden
Sie vermutlich feststellen, dass das Sie leicht müde werden und Schwierigkeiten haben
sich zu konzentrieren.
• Lassen Sie sich in der Vorlesung nicht durch Ihr Smartphone, Tablet oder
Handy ablenken! Nur wenn Sie sich ganz auf die Vorlesung konzentrieren, haben Sie
eine Chance die mathematischen Inhalte direkt in der Vorlesung zu verstehen.
• Gehen Sie immer zu Ihrer Übungsgruppe/Ihrem Tutorium und bearbeiten
Sie die Präsenzübungen (diese werden im Tutorium bearbeitet) und die Hausübungen (diese sollten Sie nach dem Tutorium zu Hause bearbeiten). Mathematik lernt
sich nur durch Übung, d.h. indem man die mathematischen Techniken für
Beispiele und Übungsaufgaben anwendet. Daher ist es unerlässlich, dass Sie die
Übungsaufgaben bearbeiten!
• Wenn Sie die Übungsaufgaben lösen, dann sollten Sie parallel dazu das zugehörige Material aus der Vorlesung nacharbeiten. Dies geht ganz natürlich“,
”
Einleitung
III
denn die Übungsaufgaben sind so konzipiert, dass Sie mit Ihnen den Vorlesungsstoff anwenden und üben. Das Nacharbeiten kann mit Ihren handschriftlichen Notizen und/oder
diesem Skript erfolgen. Das Skript ist dabei wesentlich ausführlicher als der Tafelanschrieb und somit als Ihre handschriftlichen Notizen. Im Skript finden Sie weitere und
teilweise andere Beispiele und zusätzliche Erklärungen. Das Skript kann wie ein Lehrbuch verwendet werden.
• Was machen Sie, wenn Sie etwas nicht verstehen? Wichtig ist vor allem, zu
wissen, dass dies bei mathematischen Themen völlig normal ist und allen Studenten
hin und wieder passiert. Was können Sie tun, um das Problem zu beheben?
- Geben Sie nicht auf, sondern befassen Sie sich weiter mit dem Material! Manche
mathematischen Themen muss man mehrfach studieren, bis der Groschen fällt“.
”
- Fragen Sie Ihre Kommilitonen danach und diskutieren Sie mit ihnen darüber.
- Fragen Sie den Dozenten in der Vorlesung oder den Tutor in der Übung.
- Schauen Sie die zu dem Material gehörigen Beispiele an: Mathematik lernt sich durch
das Verständnis der Beispiele! Wenn Sie das Beispiel verstehen, dann wird die mathematische Technik klarer. Können Sie nun vielleicht ein ähnliches Bespiel selber
durchrechnen? Wenn ja, dann sind Sie einen Schritt weiter gekommen.
• Nutzen Sie die Gelegenheit und trauen Sie sich, in der Vorlesung und im Tutorium
Fragen zu stellen. Es gibt keine dummen Fragen, sondern dumm ist nur, wenn man
nicht fragt und ignorant bleibt. Die Vorlesung und das Tutorium sind dazu da, Sie
beim Lernen zu unterstützen – also machen Sie von der Gelegenheit, Fragen zu stellen,
Gebrauch!
• Gruppenarbeit: Gruppenarbeit ist nützlich und kann sehr produktiv sein. Übungsaufgaben sind oft leichter zu lösen, wenn verschiedene Personen ihre Ideen beisteuern.
Indem Sie sich von anderen etwas erklären lassen, lernen Sie etwas dazu. Wenn Sie anderen etwas erklären, so lernen Sie auch etwas dazu und gewinnen größere Klarheit über
das bereits verstandene Material. Wichtig ist aber, dass Sie nach der Gruppenarbeit
nun auch in der Lage sind, die gelösten Aufgaben eigenständig zu rechnen, denn in
der Klausur sind Sie auf sich alleine gestellt und haben keine Gruppe zur Hand.
• Klausurvorbereitung: Wenn Sie während des Semesters die Vorlesungen gut nachgearbeitet haben und die Übungsaufgaben erfolgreich gelöst haben, dann sind Sie bereits
gut vorbereitet. Wiederholen Sie den Stoff noch einmal, rechnen Sie zu allen Themen
passende Übungsaufgaben und lernen Sie das nötige Wissen! (Es gibt in der Klausur
keine Formelsammlung und keinen Taschenrechner!)
Ich freue mich auf Ihre Teilnahme an dem Kurs!
Kerstin Hesse
Paderborn, April 2016
Inhaltsverzeichnis
I
Grundlagen
1
1 Grundlagen und Notation
1.1 Wichtige Mengen von Zahlen . . . . . . . . . . . . . .
1.2 Rechnen mit der Gleitpunktdarstellung . . . . . . . . .
1.3 Binominalkoeffizienten und binomischer Lehrsatz . . .
1.4 Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . .
1.5 Trigonometrische Funktionen . . . . . . . . . . . . . .
1.6 Darstellung komplexer Zahlen mittels trigonometrischer
1.7 Ungleichungen und Beträge . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Funktionen
. . . . . . .
2 Mengenlehre, mathematische Aussagen und Beweistechniken
2.1 Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mathematische Aussagen und Aussagenlogik . . . . . . . . . . .
2.3 Implikationen, Äquivalenzen und elementare Beweismethoden .
2.4 Vollständige Induktion . . . . . . . . . . . . . . . . . . . . . . .
II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
11
15
23
35
39
.
.
.
.
49
49
56
58
65
Analysis
71
3 Funktionen und ihre grundlegenden Eigenschaften
3.1 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Wachstumsverhalten von Funktionen . . . . . . . . . . . . . . . . .
3.3 Injektive Funktionen und ihre Umkehrfunktionen . . . . . . . . . .
3.4 Beispiele: Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
4 Folgen und Grenzwerte
4.1 Einführung: Folgen reeller Zahlen . . . . . . . . . . .
4.2 Eigenschaften von Folgen reeller Zahlen . . . . . . . .
4.3 Konvergenz von Folgen . . . . . . . . . . . . . . . . .
4.4 Grenzwertsätze: Aussagen über konvergente Folgen .
4.5 Weiterführendes Material: Beweise der Aussagen über
V
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
konvergente
.
.
.
.
.
73
73
81
83
87
93
. . . . .
. . . . .
. . . . .
. . . . .
Folgen∗
99
99
103
106
114
119
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
VI
Inhaltsverzeichnis
5 Reihen
5.1 Endliche Summen und arithmetische und geometrische Summe
5.2 Unendliche Reihen . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Konvergenzkriterien für Reihen . . . . . . . . . . . . . . . . .
5.4 Weiterführendes Material: Beweise der Konvergenzkriterien für
.
.
.
.
123
. 123
. 131
. 135
. 141
.
.
.
.
.
145
. 145
. 150
. 157
. 164
. 167
7 Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
7.1 Potenzen, Wurzeln und Exponentialfunktionen . . . . . . . . . . . . . . .
7.2 Logarithmusfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Basiswechsel für Exponentialfunktionen und Logarithmen . . . . . . . . .
7.4 Hyperbolische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . .
173
. 173
. 180
. 183
. 186
8 Ableitungen und Differenzieren
8.1 Tangente und Ableitung . . . . . . . . . . . . . . . . . .
8.2 Ableitungen wichtiger Funktionen . . . . . . . . . . . . .
8.3 Differentiationsregeln . . . . . . . . . . . . . . . . . . . .
8.4 Mittelwertsatz der Differentialrechnung und Folgerungen
8.5 Extrema und Wendepunkte . . . . . . . . . . . . . . . .
8.6 Taylorsche Formel, Taylorreihen und Potenzreihen . . . .
.
.
.
.
.
.
193
. 193
. 201
. 203
. 210
. 219
. 227
.
.
.
.
.
.
.
235
. 235
. 241
. 246
. 249
. 252
. 265
. 280
6 Grenzwerte von Funktionen und Stetigkeit
6.1 Grenzwerte von Funktionen . . . . . . . . . . .
6.2 Uneigentliche und einseitige Grenzwerte . . . .
6.3 Asymptoten . . . . . . . . . . . . . . . . . . . .
6.4 Stetigkeit und Rechnen mit stetigen Funktionen
6.5 Resultate über stetige Funktionen . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
. . . . .
Reihen∗
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Integration
9.1 Das bestimmte Integral . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Eigenschaften des bestimmten Integrals . . . . . . . . . . . . . . . . .
9.3 Zusammenhang zwischen Differential- und Integralrechnung . . . . .
9.4 Partielle Integration . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.5 Integration durch Substitution . . . . . . . . . . . . . . . . . . . . . .
9.6 Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
9.7 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . .
III
Gewöhnliche Differentialgleichungen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
289
10 Gewöhnliche Differentialgleichungen
291
10.1 Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele291
10.2 Differentialgleichungen erster Ordnung mit getrennten Variablen . . . . . . 300
Inhaltsverzeichnis
VII
10.3 Lineare Differentialgleichungen erster Ordnung . . . . . . . . . . . . . . . . 307
10.4 Lineare Differentialgleichungen zweiter Ordnung . . . . . . . . . . . . . . . 318
IV
Lineare Algebra
337
11 Vektoren im euklischen Vektorraum Rn und ihre
11.1 Einführung: Vektoren in der Ebene . . . . . . . .
11.2 Vektoren im euklidischen Vektorraum Rn . . . . .
11.3 Linearkombination und lineare Unabhängigkeit . .
11.4 Teilräume, Basis und Dimension . . . . . . . . . .
Eigenschaften
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
339
. 339
. 342
. 352
. 362
12 Matrizen
373
12.1 Matrizen: Einführende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . 373
12.2 Matrizen und Matrizenoperationen . . . . . . . . . . . . . . . . . . . . . . 378
13 Lineare Gleichungssysteme und Matrizen
391
13.1 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
13.2 Bild, Kern und Rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
13.3 Ergänzendes Material ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
14 Quadratische Matrizen und Determinanten
14.1 Inverse Matrix für quadratische Matrizen . .
14.2 Definition der Determinante . . . . . . . . .
14.3 Rechenregeln für Determinanten . . . . . . .
14.4 Anwendungen der Determinante . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
411
. 411
. 422
. 429
. 435
Teil I
Grundlagen
1
Kapitel 1
Grundlagen und Notation
1.1
Wichtige Mengen von Zahlen
In diesem Kurs werden wir die folgenden grundlegenden Mengen von Zahlen benötigen:
Name
Symbol
Definition
Natürliche Zahlen
N
N = {1, 2, 3, . . .}
Natürliche Zahlen mit 0
N0
N0 = {0, 1, 2, 3, . . .}
Ganze Zahlen
Z
Rationale Zahlen
Q
Reelle Zahlen
R
Z = {0, ±1, ±2, ±3, . . .}
o
nm Q=
m ganze Zahl, n natürliche Zahl
n
R = {rationale und irrationale Zahlen}
Tabelle 1.1: Mengen von Zahlen.
Die reellen Zahlen R sind also die größte Zahlenmenge in der obigen Tabelle 1.1 und
beinhalten alle anderen Zahlenmengen in der Tabelle 1.1. Die rationalen Zahlen sind die
aus der Schulmathematik gut bekannten Brüche und
√ bei den irrationalen Zahlen handelt
es sich um reelle aber nicht rationale Zahlen, z.B. 2 oder π.
Wir führen hier im Zusammenhang mit Tabelle 1.1 direkt unsere erste neue Notation ein:
Notation 1.1. (Mengenklammern, Elemente und Element-Symbol) Wir bemerken in Tabelle 1.1, dass die Mengen von Zahlen immer mit geschweiften Klammern {. . .},
sogenannten Mengenklammern, dargestellt werden. Analog könnten wir auch die Zahlenmenge M = {1, 2, 3} betrachten. Wir bezeichnen die Zahlen in einer Zahlenmenge
auch als Elemente der Zahlenmenge. Der senkrechte Strich |“ in der Beschreibung von
”
Q bedeutet, dass hinter diesem Strich Bedingungen (hier an m und n) angeben werden;
man kann |“ als für die gilt“ interpretieren. Um in Formeln zu beschreiben, dass 2 eine
”
”
3
4
1.1. Wichtige Mengen von Zahlen
rationale Zahlen (Brüche)
−3
−2
−1
0
1
2
3
4
Abb. 1.1: Geometrische Darstellung durch die Zahlengerade.
natürliche Zahl ist, schreiben wir 2 ∈ N“ (wir sagen 2 ist (Element) in N“). Das Symbol
”
”
∈“ ist das Element-Symbol. Um in Formeln zu schreiben, dass −1 keine natürliche
”
Zahl ist, schreiben wir −1 ∈
/ N“ (wir sagen 2 ist nicht (Element) in N“).
”
”
Wir können uns alle diese Zahlen an der Zahlengeraden (oder den Zahlenstrahl) veranschaulichen, wie es in Abbildung 1.1 illustriert ist.
Das Rechnen mit rationalen Zahlen ist aus der Schulmathematik bekannt, und wir
geben hier nur die wichtigsten Regeln der Bruchrechnung kurz an:
a c
a c
a·d+b·c
a+c
aber
,
+ =
+ 6=
b d
b·d
b d
b+d
a c
a·c
· =
,
b d
b·d
a d
a·d
a c
: = · =
.
b d
b c
b·c
Zwar gibt es zwischen je zwei Brüchen noch beliebig viele weitere Brüche (also rationale
Zahlen); dennoch wird die Zahlengerade durch die rationalen Zahlen nicht vollständig
ausgefüllt!
√
√ 2
Die Zahl 2, definiert durch die Beziehung
2 = 2, lässt sich nicht als Bruch darstellen
√
und ist daher kleine Zahl von Q; deshalb heißt 2 auch eine irrationale Zahl.
Wir halten noch fest, dass die Menge der rationalen Zahlen Q ist abzählbar ist, d.h.
die Zahlen in Q können durchnummeriert werden. Die Menge der reellen Zahlen R ist
überabzählbar, d.h. R hat unendlich viele Zahlen und ist nicht abzählbar. Insbesondere
liegen zwischen je zwei verschiedenen rationalen Zahlen unendlich viele irrationale Zahlen.
Zuletzt führen wir die folgende Schreibweise für Intervalle ein:
Definition 1.2. (endliche Intervalle) Seien a und b reelle Zahlen (also a, b ∈ R) mit
a < b. Dann sind
[a, b] = {x ∈ R | a ≤ x ≤ b}
(abgeschlossenes Intervall),
(a, b] = {x ∈ R | a < x ≤ b}
(halboffenes Intervall),
(a, b) = {x ∈ R | a < x < b}
[a, b) = {x ∈ R | a ≤ x < b}
(offenes Intervall),
(halboffenes Intervall).
1. Grundlagen und Notation
5
Wir nennen a den linken Randpunkt des jeweiligen Intervalls und b den rechten
Randpunkt des jeweiligen Intervalls.
Um die unendlichen Intervalle“ einzuführen brauchen wir das Unendlich-Symbol“ ∞.
”
”
Definition 1.3. (unendliche Intervalle) Sei a eine reelle Zahl (also a ∈ R). Dann sind
(−∞, a] = {x ∈ R | x ≤ a},
(−∞, a) = {x ∈ R | x < a},
[a, ∞) = {x ∈ R | x ≥ a},
(a, ∞) = {x ∈ R | x > a}.
In manchen Büchern werden bei der Intervallnotation statt der runden Klammern auch
umgekehrte eckige Klammern verwendet, d.h.
(a, b) =]a, b[
1.2
und
(a, b] =]a, b],
usw..
Rechnen mit der Gleitpunktdarstellung
Wir betrachten zur Motivation zunächst ein Anwendungsbeispiel aus der physikalischen
Chemie.
Anwendung 1.4. (Anzahl der Sauerstoffatome im Luftvolumen) Wie viele Sauerstoffatome sind in 10 m3 Luft bei Normalbedingungen (also 0 ◦ C und 10132, 5 Pa) enthalten?
Informationen zur Lösung: Um diese Frage zu beantworten brauchen wir folgende weiteren
physikalischen Daten:
• Luft enthält 20, 8 Volumenprozent Sauerstoff, d.h. 20, 8% eines Luftvolumens sind Sauerstoff.
• 1 mol Gasteilchen beanspruchen bei Normalbedingungen ein Volumen von 22, 4 l (Molvolumen; A. Avogadro (1776-1856)).
• 1 mol eines chemischen Stoffes enthält NA = 602 213 670 000 000 000 000 000 mol−1 Teilchen (Avogardo-Zahl).
Probleme bei dem Lösen der Aufgabe:
• Es werden unterschiedliche Einheiten für gleiche Größen verwendet, z.B. m3 und l;
1 m3 = 1000 l bzw. 1 l= 0, 001 m3(= (0, 1 m)3). Man sollte entweder 10000 l Luftmenge“
”
oder 10 m3 Luftmenge“ verwenden!
”
• Rechnen mit derart großen bzw. kleinen Zahlen wie der Avogardo-Zahl NA ist sehr
unhandlich und kann auch zu Problemen auf dem Taschenrechner (z.B. begrenzte Stel-
6
1.2. Rechnen mit der Gleitpunktdarstellung
lenzahl) und Computer führen! Wir verwenden deshalb die sogenannte Gleitpunktdarstellung
NA = 602 213 670 000 000 000 000 000 = 6022, 1367 · 1020 = 6, 0221367 · 1023 ,
(1.1)
die Sie von Ihrem Taschenrechner kennen. Dabei ist die letzte normalisierte“ Darstel”
lung vorzuziehen, bei der die Zehnerpotenz so gewählt wurde, dass die Zahl mit der sie
multipliziert wird (also hier 6, 203) in dem Intervall [1, 10) liegt.
Wir führen nun die sogenannte normalisierte Gleitpunktdarstellung“ des Dezimalsystems
”
ein, die wir bereits in der Anwendung 1.4 kennengelernt haben.
Definition 1.5. ((normalisierte) Gleitpunktdarstellung im Dezimalsystem) Die
normalisierte Gleitpunktdarstellung (oder exponentielle Standardform) einer
reellen Zahl x 6= 0 ist definiert als:
x = v · a · 10b
(1.2)
mit dem Vorzeichen v ∈ {−1, +1}, der Basis 10, dem ganzzahligen Exponenten b ∈ Z
und der Mantisse
a = a0 · 100 + a1 · 10−1 + a2 · 10−2 + · · · + ak · 10−k ,
(1.3)
wobei a0 , a1 , . . . , ak ∈ {0, 1, 2 . . . , 9} und a0 6= 0 gelten. Die Zahl k + 1 mit k aus (1.3)
nennt man die Mantissenlänge. Da a0 6= 0 ist, gilt
1 ≤ a < 10.
Die Darstellung (1.2) von x heißt dann k-stellige normalisierte Gleitpunktdarstellung zur Basis 10.
Haben wir eine Zahl nur in der Form
x = v · c · 10d
(1.4)
mit dem Vorzeichen v ∈ {−1, +1}, dem ganzzahligen Exponenten d ∈ Z und
c = c1 · 10m + c2 · 10m−1 + · · · + cm+k+1 · 10−k ,
(1.5)
wobei c1 6= 0, m ∈ Z \ {0}, −k ≤ m, und c1 , c2 , . . . , cm+k+1 ∈ {0, 1, 2, . . . , 9} vorliegen,
so sprechen wir auch von einer nicht-normalisierten Gleitpunktdarstellung (oder
exponentiellen Darstellung).
Betrachten wir zunächst zwei Beispiele.
Beispiel 1.6. (Avogardo-Zahl) In der Darstellung (1.1) der Avogardo-Zahl Zahl NA
ist 6022, 1367 · 1020 mol−1 eine nicht-normalisierte Gleitpunktdarstellung (oder exponentielle Darstellung) von NA , und +6, 0221367 · 1023 mol−1 ist die (7-stellige) normalisierte
Gleitpunktdarstellung von NA mit dem Exponent b = 23 der Mantisse a = 6, 0221367, der
1. Grundlagen und Notation
7
Mantissenlänge k + 1 = 8 und dem Vorzeichen v = +1. Wir sehen, dass der Absolutbetrag
des Exponenten b der Zehnerpotenz 10b der Anzahl von Stellen entspricht, um die man
das Komma in der normalisierten Gleitpunktdarstellung für b > 0 nach rechts und für
b < 0 nach links verschieben muss.
Beispiel 1.7. (normalisierte Gleitpunktdarstellung im Dezimalsystem) Die Zahl
x = −5678, 3421 hat im Dezimalsystem die normalisierte Gleitpunktdarstellung
x = −5, 6783421 · 103 ,
d.h. wir haben hier das Vorzeichen v = −1, den Exponenten b = 3 und die Mantisse
a = 5, 6783421 = 5 · 100 + 6 · 10−1 + 7 · 10−2 + 8 · 10−3 + 3 · 10−4 + 4 · 10−5 + 2 · 10−6 + 1 · 10−7
mit der Mantissenlänge k + 1 = 8.
Wir wenden das neue Wissen nun auf unser Anwendungsbeispiel aus Anwendung 1.4 an.
Anwendung 1.8. (Anzahl der Sauerstoffatome im Luftvolumen) Wenden wir die
normalisierte Gleitpunktdarstellung nun für unserer Anwendung 1.4 an. Wir finden
1 m3 = +1, 0 · 103 l,
1 l = +1, 0 · 10−3 m3 ,
NA = +6, 0221367 · 1023
1
,
mol
und die Normalbedingungen sind 0 ◦ C und 1, 01325 · 104 Pa.
Wie rechnen wir mit Zahlen in der Gleitpunktdarstellung? Beim Rechnen mit
Zahlen in (normalisierter oder nicht-normalisierter) Gleitpunktdarstellung sind die Rechenregeln für Potenzen mit ganzzahligem Exponenten zu verwenden, die wir in dem
nächsten Lemma (siehe Lemma 1.10) zusammenfassen.
Erinnern wir uns zunächst kurz, wie wir Potenzen für ganzzahlige Exponenten definieren.
Definition 1.9. (Potenzen) Sei a eine reelle Zahl ungleich Null (also a ∈ R und a 6= 0),
und sei n eine ganze Zahl ungleich Null (also n ∈ Z). Dann definieren wir Potenzen wie
folgt:
an = |a · a ·{z. . . · a}
n-mal
wenn n > 0,
a0 = 1,
an =
1
1 1
· · ...·
a}
|a a {z
(−n)-mal
wenn n < 0 d.h. wenn − n > 0.
(1.6)
8
1.2. Rechnen mit der Gleitpunktdarstellung
Alternativ zu (1.6) können wir für n < 0 mit n = −m, m > 0, auch schreiben
a−m =
1
1 1
· · ...·
a}
|a a {z
m-mal
wenn − m < 0 d.h. wenn m > 0.
Wir bezeichnen a als Basis der Potenz an und n als den Exponenten der Potenz an .
Mittels dieser Definition kann man direkt die Rechenregeln für die Potenzrechnung herleiten. So folgt z.B. für n, m ∈ N direkt
n+m
an · am = a
·
a
·
.
.
.
·
a
.
·
a
·
a
·
.
.
.
·
a
|
|
| · a ·{z. . . · a} = a
{z
}
{z
} = a
n-mal
m-mal
(n + m)-mal
Lemma 1.10. (Rechenregeln für ganzzahlige Exponenten) Seien a und b reelle
Zahlen ungleich Null (also a, b ∈ R und a 6= 0 und b 6= 0) und seien n und m ganze
Zahlen (also n, m ∈ Z). Dann gilt
an · am = an+m
n
n
a · b = (a · b)
bei gleicher Basis a,
n
bei gleichem Exponenten n,
n
a
= an−m
m
a
an a n
=
bn
b
bei gleicher Basis a,
bei gleichem Exponenten n.
Daraus folgt für Zahlen x = c1 · 10n und y = c2 · 10m mit c2 6= 0 in (normalisierter oder
nicht-normalisierter) Gleitpunktdarstellung:
x · y = c1 · 10n · c1 · 10m = c1 · c2 · 10n+m ,
c1 · 10n
c1
x
=
=
· 10n−m .
m
y
c2 · 10
c2
Beachten Sie: Auch wenn x und y in normalisierter Gleitpunktdarstellung sind, so ist das
Ergebnis nicht automatisch in normalisierter Gleitpunktdarstellung!
Beispiel 1.11. (Multiplikation von Gleitpunktzahlen) Seien x = 7, 2 · 104 und
y = 2, 1 · 10−2 . Dann gilt
x · y = 7, 2 · 104 · 2, 1 · 10−2 = 7, 2 · 2, 1 · 104−2 = 15, 12 · 102 = +1, 512 · 103 ,
wobei wir im letzten Schritt unser Ergebnis in die normalisierter Gleitpunktdarstellung
gebracht haben.
Mit den Rechenregeln aus Lemma 1.10 ergibt sich für die Anwendung 1.4 die nachfolgende
Lösung.
1. Grundlagen und Notation
9
Anwendung 1.12. (Anzahl der Sauerstoffatome im Luftvolumen) Das Volumen
10 m3 = 104 l Luft enthalten
20, 8
· 104 l = 20, 8 · 102 l = 2, 08 · 103 l
100
Sauerstoff. 2, 08 · 103 l Gas entsprechen
1 mol
2, 08 · 103 mol
2, 08
2, 08 · 10 l ·
=
=
· 102 mol ≈ 9, 3 · 101 mol
1
1
2, 24 · 10 l
2, 24 · 10
2, 24
3
Gasteilchen. 9, 3 · 101 mol Gas enthalten
9, 3 · 101 mol · 6, 0221367 · 1023
1
= 9, 3 · 6, 0221367 · 1024 = 56, 00587131 · 1024 ≈ 5, 6 · 1025
mol
Gasteilchen. 10 m3 = 104 l Luft enthalten daher ungefähr 5, 6 · 1025 Sauerstoffmoleküle
(O2 ), also
2 · 5, 6 · 1025 = 11, 2 · 1025 = 1, 12 · 1026 Sauerstoffatome.
Potenzieren wir Zahlen in der normalisierten Gleitpunktdarstellung oder ziehen wir deren Wurzel, so brauchen wir das nachfolgende Lemma (siehe Lemma 1.15) über das Potenzieren bzw. Wurzel Ziehen von Potenzen. Dabei sei zunächst an die Definition der
(Quadrat-)Wurzel und allgemeiner der n-ten Wurzel erinnert.
Definition 1.13. (Quadratwurzel und n-te Wurzel) Sei a ≥ 0 eine nicht-negative
reelle Zahl und n ∈ N.
√
(i) Die (Quadrat-)Wurzel a = a1/2 von a ist definiert als die nicht-negative reelle
Zahl b, für die gilt
b2 = a.
√
(ii) Analog ist die n-te Wurzel n a = a1/n von a definiert als die nicht-negative reelle
Zahl b, für die gilt
bn = a.
Für n = 2 erhalten wir als Sonderfall von (b) die Quadratwurzel.
Beispiel 1.14. (Wurzeln)
√
√
(a) Es gilt 16 = 4, da 42 = 16. Beachten Sie, dass aber nicht zusätzlich gilt 16 = −4,
obwohl (−4)2 = 16, denn wir haben verlangt, dass die Wurzeln nicht-negative Zahlen
sind.
√
(b) Die 3-te Wurzel von 8 ist 3 8 = 2, da 23 = 8.
√
(c) 3 −8 können wir nach der obigen Definition nicht berechnen. Wir wissen aber, dass
gilt (−2)3 = −8. Hieran sieht man, dass wir noch eine Erweiterung des Zahlenbegriffs
benötigen. Diese erhalten wir mit den komplexen Zahlen.
Nur formulieren wir die Rechenregeln, die man durch direktes Nachrechnen bzw. Anwenden der Definition der Wurzel nachweisen kann.
10
1.2. Rechnen mit der Gleitpunktdarstellung
Lemma 1.15. (Rechenregeln für das Potenzieren und Wurzel Ziehen) Sei a ∈ R
ungleich Null, und seien n, m ∈ Z. Dann gilt
(am )n = am·n = (an )m .
Seien a und b nicht-negative reelle Zahlen und n ∈ N und m ∈ Z. Dann gilt
√
√ √
a·b= a· b
(Quadrat-Wurzel, also n = 2),
√
√
√
n
n
a·b= na· b
(n-te Wurzel),
und
√
am = am
√
n
am = am
1/2
1/n
√ m
a
m
√ m
= a1/n = n a
= am/2 = a1/2
= am/n
m
=
(Quadrat-Wurzel, also n = 2),
(n-te Wurzel).
Wir wenden diese Rechenregeln für ein paar Beispiele in normalisierter Gleitpunktdarstellung an.
Beispiel 1.16. (Potenzen der normalisierten Gleitpunktdarstellung)
(4, 2 · 103 )2 = 4, 22 · 102·3 = 17, 64 · 106 = 1, 764 · 107 = +1, 764 · 107 .
Wir sehen, dass das Ergebnis nicht automatisch die normalisierte Gleitpunktdarstellung
hat!
Beispiel 1.17. (Wurzel ziehen in der normalisierten Gleitpunktdarstellung)
√
(a) Für 4 · 106 finden wir die normalisierte Gleitpunktdarstellung
√
1
4 · 106 = (4 · 106 )1/2 = 41/2 · (106 )1/2 = 2 · 106· 2 = 2 · 103 = +2 · 103 .
(b) Für
p
4, 2 · 105 finden wir analog
p
p
p
1
4, 2 · 105 = 4, 2 · 105· 2 = 4, 2 · 105/2 .
Hier erhalten wir mit der direkten“ Rechnung keine Darstellung in Gleitpunktdarstel”
lung. Um zur Gleitpunktdarstellung des Ergebnisses zu gelangen, muss der ganzzahlige
Anteil des Exponenten abgespalten werden:
p
√
p
p
p
4, 2 · 105 = 4, 2 · 105/2 = 4, 2 · 102+1/2 = 4, 2 · 10 · 102
p
√
= 4, 2 · 10 · 102 = 42 · 102 ≈ 6, 5 · 102 = +6, 5 · 102 .
Es ist klar, wie zwei Zahlen in Gleitpunktdarstellung addiert (bzw. subtrahiert) werden,
falls die Zehnerpotenzen den gleichen Exponenten n besitzen: Nach dem Distributivgesetz
dürfen wir den gemeinsamen Faktor 10n ausklammern und erhalten
c1 · 10n + c2 · 10n = (c1 + c2 ) · 10n .
1. Grundlagen und Notation
11
Beispiel 1.18. (Addieren von Zahlen in der Gleitpunktdarstellung mit gleichem
Exponenten)
7, 4 · 10−3 + 4, 2 · 10−3 = (7, 4 + 4, 2) · 10−3 = 11, 6 · 10−3 = 1, 16 · 10−2 .
Wir sehen, dass sich bei der Addition zweier Zahlen in normalisierter Gleitpunktdarstellung mit gleichem Exponenten nicht automatisch eine Zahl in normalisierter Gleitpunktdarstellung ergibt.
Haben zwei Zahlen in Gleitpunktdarstellung verschiedene Exponenten, so müssen die
Zahlen erst umgeformt werden:
c1 · 10n + c2 · 10m = c1 · 10n + (c2 · 10m−n ) · 10n = (c1 + c2 · 10m−n ) · 10n .
Statt 10n auszuklammern hätten wir genauso gut auch 10m ausklammern können. Das
Ergenbis als Zahl ist natürlich dasselbe; nur die berechneten Gleitpunktdarstellungen unterscheiden sich. Auch hier hat das Ergebnis nicht automatisch eine normalisierte Gleitpunktdarstellung!
Betrachten wir zwei Beispiele.
Beispiel 1.19. (Addieren/Subtrahieren von Zahlen in normalisierter Gleitpunktdarstellung)
(a) Klammern wir die Potenz 103 aus, so finden wir
6, 04 · 104 + 3, 6 · 103 = 60, 4 · 103 + 3, 6 · 103 = (60, 4 + 3, 6) · 103 = 64 · 103 = 6, 4 · 104 ,
und klammern wir die Potenz 104 aus, so finden wir
6, 04 · 104 + 3, 6 · 103 = 6, 04 · 104 + 0, 36 · 104 = (6, 04 + 0, 36) · 104 = 6, 4 · 104 .
Das Ergebnis ist also (wie erwartet) dasselbe, aber im zweiten Fall erhalten wir das
Ergebnis direkt in normalisierter Gleitpunktdarstellung.
(b) Klammern wir 10−4 aus, so finden wir
9, 82 · 10−4 − 7, 1 · 10−5 = 9, 82 · 10−4 − 0, 71 · 10−4 = (9, 82 − 0, 71) · 10−4 = 9, 11 · 10−4.
1.3
Binominalkoeffizienten und binomischer Lehrsatz
Wir erinnern uns an die binomischen Formeln
Satz 1.20. (binomische Formeln) Seien a, b ∈ R. Dann gelten die binomischen
Formeln
(a + b)2 = a2 + 2 a b + b2
(erste binomische Formel),
(a − b)2 = a2 − 2 a b + b2
(zweite binomische Formel),
(a + b) (a − b) = a2 − b2
(dritte binomische Formel).
12
1.3. Binominalkoeffizienten und binomischer Lehrsatz
(a + b)0 =
1
ւց
(a + b)1 =
(a + b)2 =
(a + b)3 =
(a + b)4 =
1 a+ 1 b
ւ ցւ ց
1 a2 + 2 a b + 1 b2
ւ ց ւ ց ւ ց
(1.8)
1 a3 + 3 a2 b + 3 a b2 + 1 b3
ւ ց ւ ց ւ ց ւ ց
1 a4 + 4 a3 b + 6 a2 b2 + 4 a b3 + 1 b4
Abb. 1.2: Das Pascalsche Dreieck: Die Koeffizienten in der Formel für (a + b)n erhält man
indem man die Koeffizienten in der Formel für (a + b)n−1 addiert, von denen Pfeile auf
den Koeffizienten in der Formel für (a + b)n weisen.
Wir interessieren uns nun dafür, was passiert, wenn wir (a + b)n berechnen und möchten
eine Formel analog zur ersten binomischen Formel herleiten. Wir berechnen dazu zunächst
(a + b)3 und erhalten mit Hilfe der ersten binomischen Formel
(a + b)3 = (a + b) (a + b)2 = (a + b) (a2 + 2 a b + b2 )
= a (a2 + 2 a b + b2 ) + b (a2 + 2 a b + b2 )
= a3 + 2 a2 b + a b2 + a2 b + 2 a b2 + b3
= a3 + 3 a2 b + 3 a b2 + b3 .
Multiplizieren wir (a + b)4 aus so finden wir
(a + b)4 = a4 + 4 a3 b + 6 a2 b2 + 4 a b3 + b4 .
(1.7)
Wir bemerken, dass sich die Koeffizienten mit dem sogenannten Pascalschen Dreieck
(siehe Abbildung 1.2) berechnen lassen.
Die Berechnung der Koeffizienten mit dem Pascalschen Dreieck ist aber rekursiv“, d.h. um
”
die Koeffizienten in der Formel für (a+b)10 zu berechnen, muss erst man nacheinander die
Koeffizienten von (a + b)n mit n = 1, 2, . . . , 9 berechnen. Dies ist nicht effizient, und wir
suchen eine Formel, mit der die Koeffizienten in der ausmultiplizierten Form von (a + b)n
direkt berechnet werden können. Multiplizieren wir (a + b)n aus, so erhalten wir eine
Summe von Termen der Form
Koeffizient · an−k bk
mit k = 0, 1, 2, . . . , n.
Wie ist nun der Koeffizient von an−k bk als Formel von n und k zu berechnen? Die Antwort
gibt der binomische Lehrsatz.
1. Grundlagen und Notation
13
Satz 1.21. (binomischer Lehrsatz) Für a, b ∈ R und n ∈ N gilt der binomische
Lehrsatz:
n X
n n−k k
n
a
b
(a + b) =
k
k=0
n n
n
n n−2 2
n n−1
n n
n−1
b
ab
+
a
b +···+
a
b+
a +
=
n
n−1
2
1
0
n
n n−2 2
n n−1
n
a bn−1 + bn .
(1.9)
a
b +···+
a
b+
=a +
n−1
2
1
n
, k = 0, 1, . . . , n, definiert durch
Dabei sind die Binominalkoeffizienten
k
n!
n
=
(1.10)
k
k! (n − k)!
mit den Fakultäten n! und k!, die durch
0! = 1,
1! = 1,
2! = 1·2,
...,
m! = 1·2·. . .·(m−1)·m,
m ∈ N, (1.11)
definiert sind.
Man kann den binomischen Lehrsatz mit Hilfe von vollständiger Induktion beweisen. Diese
Beweistechnik werden wir in Kapitel 2 kennenlernen. Betrachten wir zunächst den Satz
und versuchen die Einzelteile zu verstehen:
Die Fakultäten m! erfüllen nach ihrer Definition (1.11) die Formel
m! = (m − 1)! · m.
Damit berechnen wir leicht
1! = 1,
2! = 1! · 2 = 2,
3! = 2! · 3 = 2 · 3 = 6,
4! = 3! · 4 = 6 · 4 = 24.
Die Binominalkoeffizienten (1.10) sind als Brüche definiert, aber in der Tat kann man
nachweisen, dass die Binominalkoeffizienten immer positive ganze Zahlen sind. Wir werden
weiter unten als Beispiel den binomischen Lehrsatz für (a + b)4 berechnen und dabei auch
die zugehörigen Binominalkoeffizienten berechnen.
Betrachten wir nun den binomischen Lehrsatz (1.9) selber. Hier wird die Summen-Notation
verwendet: Für gegebene reelle Zahlen a0 , a1 , a2 , . . . , an gilt
n
X
ak = a0 + a1 + a2 + . . . + an .
k=0
Dabei spielt der Name des Summationsindexes k keine Rolle, d.h.
n
X
k=0
ak =
n
X
j=0
aj = a0 + a1 + a2 + . . . + an .
14
1.3. Binominalkoeffizienten und binomischer Lehrsatz
Dies erklärt die erste und zweite Zeile in (1.9). Falls Sie mit der Summennotation Schwierigkeiten haben, so nehmen Sie die (a + b)n ist gleich der zweiten Zeile in (1.9)“ als die
”
Aussage des binomischen Lehrsatzes.
Die dritte Zeile in (1.9) unterscheidet sich von der
n
zweiten Zeile nur dadurch, dass 0 und nn durch 1 ersetzt wurden. Dass dies korrekt ist,
sieht man durch Berechnung der beiden Binomialkoeffizienten:
n!
n
n!
1
1
=
=
=
= = 1,
0
0! (n − 0)!
0! n!
0!
1
n!
1
1
n!
n
=
=
= = 1.
=
n! (n − n)!
n! 0!
0!
1
n
Beispiel 1.22. (binomischer Lehrsatz für n = 4) Wir wollen den binomischen Lehr
satz (1.9) für n = 4 berechnen. Zunächst berechnen wir die Bimomialkoeffizienten k4 für
k = 0, 1, 2, 3, 4.
4!
4
4!
=
=
= 1,
0
0! (4 − 0)!
1 · 4!
4!
3! · 4
4!
4
=
=
= 4,
=
1! (4 − 1)!
3!
3!
1
4!
4
4!
4!
3! · 4
=
=
=
=
= 3! = 6,
2
2! (4 − 2)!
2! 2!
4
4
4!
4!
4!
4
4!
4
= 4,
=
=
=
=
=
3! (4 − 3)!
3! 1!
1! · 3!
1! (4 − 1)!
1
3
4!
4
4!
4!
4!
4
=
= 1,
=
=
=
=
4
0
4! (4 − 4)!
4! 0!
0! 4!
0! (4 − 0)!
und wir erhalten in der Tat dieselben Zahlen wie im Pascalschen Dreieck (siehe Abbildung 1.2). Einsetzen in den binomischen Lehrsatz (1.9) ergibt
4 X
4 0 4
4 1 3
4 2 2
4 3 1
4 4 0
4 4−k k
4
a b
a b +
a b +
a b +
a b +
a
b =
(a + b) =
4
3
2
1
0
k
k=0
= a4 + 4 a3 b + 6 a2 b2 + 4 x3 + x4 .
und wir erhalten in der Tat die Formel (1.7).
Im dem nachfolgenden Lemma halten wir noch einige nützliche Eigenschaften der Binomialkoeffizienten fest, die man durch Nachrechnen direkt nachweisen kann.
Lemma 1.23. (Eigenschaften der Binomialkoeffizienten) Die Binomialkoeffizienten haben die folgenden Eigenschaften:
n
n
,
=
n−k
k
(n − k + 1) · (n − k + 2) · . . . · (n − 1) · n
n
=
.
k
1 · 2 · . . . · (k − 1) · k
1. Grundlagen und Notation
Weiter gilt die Formel
15
n+1
n
n
.
=
+
k+1
k+1
k
(1.12)
Wir bemerken, dass (1.12) gerade die Formel zur Berechnung der Koeffizienten
im Pascalschen Dreieck beschreibt. Zur Übung beweisen wir (1.12) durch Nachrechnen:
n!
n!
n
n
=
+
+
k! (n − k)! (k + 1)! (n − (k + 1))!
k+1
k
=
=
(k + 1) n!
(n − k) n!
+
(k + 1) k! (n − k)! (k + 1)! (n − k) (n − (k + 1))!
(k + 1) n!
(n − k) n!
+
(k + 1)! (n − k)! (k + 1)! (n − k)!
(k + 1) n! + (n − k) n!
(k + 1)! (n − k)!
(k + 1) + (n − k) n!
=
(k + 1)! (n − k)!
=
=
=
(n + 1) n!
(k + 1)! (n − k)!
(n + 1)!
(k + 1)! (n − k)!
(n + 1)!
(k + 1)! (n + 1) − (k + 1))!
n+1
.
=
k+1
=
1.4
Komplexe Zahlen
Der Startpunkt für die Einführung der komplexen Zahlen ist die quadratische Gleichung
x2 + 1 = 0
⇐⇒
x2 = −1,
(1.13)
welche keine reellen Lösungen hat. Dies ist unschön, und eigentlich sollte diese Gleichung zwei Lösungen haben! Da es keine reelle Zahl x mit x2 = −1 gibt, definiert man
eine neue Zahl i, die sogenannte imaginäre Einheit durch die Festlegung
(Anschaulich ist i ein Ersatz für
Lösungen +i und −i, denn
i2 = −1
und
√
i2 = −1.
−1.) Mit der imaginären Einheit i hat (1.13) nun zwei
2
(−i)2 = (−1) · i = (−1)2 |{z}
i2 = −1.
| {z }
= 1 = −1
16
1.4. Komplexe Zahlen
Wir können die imaginäre Einheit mit reellen Zahlen multiplizieren und Vielfache der
imaginären Einheit addieren und subtrahieren. Beispielsweise gilt
5i+3i = 8i
2 i − 10 i = −8 i.
und
Wir können auch Vielfache der imaginären Einheit potenzieren und diese Potenzen dann
unter Ausnutzung von (±i)2 = −1 vereinfachen. Beispielsweise gilt
(2 i)2 = 22 i2 = 4 (−1) = −4,
(−3 i)3 = (−3)3 i3 = −27 i2 i = −27 · (−1) · i = 27 i.
Ebenso können wir Vielfache der imaginären Einheit multipizieren, z.B.
(7 i) · (8 i) = 56 i2 = −56
und
(3 i) · (2 i) · i = 6 i3 = 6 · i · i2 = −6 i.
Wir sehen an den Beispielen, dass wir mit der imaginären Einheit ganz normal“ rechnen
”
können unter der Ausnutzung von i2 = −1.
Definition 1.24. (komplexe Zahlen) Eine komplexe Zahl z ist eine Zahl der Form
z = x + i · y = x + i y,
(1.14)
wobei x, y ∈ R reelle Zahlen sind und i die imaginäre Einheit mit i2 = −1 ist. In (1.14)
heißt x der Realteil von z (in Formeln Re(z) = x), und y heißt der Imaginärteil von
z (in Formeln Im(z) = y).
Für die Menge aller komplexen Zahlen schreiben wir C, d.h.
C = x + i y x, y ∈ R
Die Darstellung (1.14) wird auch als die kartesische Form einer komplexen Zahl bezeichnet.
Beispiel 1.25. (komplexe Zahlen) Die komplexe Zahl z = −7 + 3 i hat den Realteil
Re(z) = −7 und den Imaginärteil Im(z) = 3.
Zwei komplexe Zahlen stimmen genau dann überein, wenn jeweils ihre Realteile und ihre
Imaginärteile übereinstimmen.
Definition 1.26. (Gleichheit von komplexen Zahlen) Zwei komplexe Zahlen
z1 = x1 + i y1 und z2 = x2 + i y2 sind genau dann gleich, d.h. z1 = z2 , wenn gilt
Re(z1 ) = Re(z2 )
und Im(z1 ) = Im(z2 )
oder gleichwertig
x1 = x2
und
y1 = y2 .
Wie rechnet man mit komplexen Zahlen? Dies geht mit den uns vertrauten Regeln unter
Beachtung von i2 = −1, wobei wir reelle und imaginäre Anteile nicht mischen“ dürfen.
”
1. Grundlagen und Notation
17
Betrachten wir zunächst ein Beispiel für die Addition komplexer Zahlen: Für die komplexen Zahlen z1 = 1 + 2 i und z2 = −2 − 1 i = −2 − i sortieren wir beim Addieren
die Realteile und Imaginärteile der beiden Zahlen zusammen und addieren diese jeweils
separat, genauer
z1 + z2 = (1 + 2 i) + (−2 − i) = (1 + 2 i) + (−2 + (−1) i)
= 1 + (−2) + (2 + (−1) i = −1 + 1 i = −1 + i.
Wir halten diese Vorgehensweise in der folgenden Definition fest.
Definition 1.27. (Addition und Subtraktion komplexer Zahlen) Für zwei komplexe Zahlen z1 = x1 + i y1 und z2 = x2 + i y2 definieren wir die Addition und die Subtraktion
wie folgt:
(i) Addition:
z1 + z2 = x1 + i y1 + x2 + i y2 = x1 + x2 + i y1 + y2 .
(ii) Subtraktion:
z1 − z2 = x1 + i y1 − x2 + i y2 = x1 − x2 + i y1 − y2 .
Beispiel 1.28. (Addition und Subtraktion komplexer Zahlen)
(a) (1 + 2 i) + (4 + 3 i) = (1 + 4) + (2 + 3) i = 5 + 5 i
(b) (2 + 11 i) − (−1 + 7 i) = (2 − (−1)) + (11 − 7) i = 3 + 4 i
√
√ √
(c) (3 + 5 i) − (2 − 3 i) = (3 − 2) + 5 − (− 3) i = 1 + (5 + 3) i
Auch die Multiplikation der komplexen Zahlen z1 = 1 + 2 i und z2 = −2 − i funktioniert
genauso, wie wir es erwarten:
z1 · z2 = (1 + 2 i) · (−2 − i) = 1 · (−2 − i) + 2 i · (−2 − i)
= −2 − i + (−4) i + 2
i (−i) = −2 − i − 4 i + 2 = −5 i.
| {z }
= −i2 = 1
Wir formulieren dies nun für allgemeine komplexe Zahlen.
Definition 1.29. (Multiplikation komplexer Zahlen) Seien z1 = x1 + i y1 und
z2 = x2 + i y2 zwei komplexe Zahlen. Dann ist das Produkt von z1 und z2 gegeben durch
z1 · z2 = z1 z2 = (x1 + i y1 ) (x2 + i y2 )
= x1 x2 + i x1 y2 + i y1 x2 + i2 y1 y2
= x1 x2 − y1 y2 + i x1 y2 + y1 x2 .
Betrachten wir noch zwei Beispiele.
Beispiel 1.30. (Multiplikation komplexer Zahlen)
(a) (1 + 2 i) (4 + 3 i) = 4 + 3 i + 8 i + 6 i2 = 4 + 11 i + 6 (−1) = −2 + 11 i
18
(b) (2 +
1.4. Komplexe Zahlen
√
2 i)(2 −
√
√
√
2 i) = 4 − 2 2 i + 2 2 i − 2 i2 = 4 − 2 (−1) = 6
Nach der Einführung der komplexen Zahlen erhalten wir nun auch für jede quadratische
Gleichung
0 = x2 + p x + q
(1.15)
zwei Lösungen: Mittels der quadratischen Ergänzung erhält man
2
p 2
p 2
p
p x p 2
2
2
−
+
−q .
+q = x+
−
0 = x +px+q = x +2
2
2
2
2
4
| {z }
=D
Mit der dritten binomischen Formel erhält man nun für den Fall, dass
D=
p2
−q ≥0
4
gilt, die Gleichung
0 = x2 + p x + q =
p
x+ +
2
r
p2
−q
4
!
p
x+ −
2
r
!
p2
−q ,
4
deren Lösungen die aus dem Schulunterricht bekannte p-q-Formel sind:
r
r
p
p2
p2
p
x1 = − −
−q
und
x2 = − +
− q.
2
4
2
4
(1.16)
Mit den komplexen Zahlen können wir nun auch den Fall
p2
D=
−q <0
4
behandeln, indem wir schreiben
p2
p2
p2
2
=i q−
−q =− q−
D=
4
4
4
| {z }
>0
und damit nach der dritten binomischen Formel
!
!
r
r
2
2
p
p
p
p
x+ −i q−
,
0 = x2 + p x + q = x + + i q −
2
4
2
4
erhalten. Für D < 0 erhalten wir also die beiden komplexen Lösungen
r
r
p2
p
p
p2
x1 = − − i q −
und
x2 = − + i q − .
2
4
2
4
Bemerkung 1.31. (Erweiterung des Zahlenkörpers) Wir bemerken, dass die Einführung der komplexen Zahlen zur Erweiterung des Zahlenkörpers der reellen Zahlen eigentlich nicht so geheimnisvoll ist, denn wir haben solch eine Vorgehensweise bereits früher
in der Schule kennengelernt:
1. Grundlagen und Notation
19
• Da x + 1 = 0 in den natürlichen Zahlen N keine Lösung hatte, wurden die negativen
Zahlen (und damit die ganzen Zahlen Z) eingeführt.
• Da die Gleichung 2 x = 1 keine Lösung in den ganzen Zahlen Z hat, wurden die Brüche
(also die rationalen Zahlen Q) eingeführt.
• Da x2 = 2 keine Lösung in den rationalen Zahlen Q hat; wurden die irrationalen und
damit die reellen Zahlen R eingeführt.
Wir sehen also, dass die Einführung der komplexen Zahlen nichts Obskures“ sondern
”
nur eine Weiterentwicklung unserer üblichen Vorgehensweise ist.
Im(z)
2
z1
1
Re(z)
−2
−1
z2
1
2
−1
Abb. 1.3: Darstellung der komplexen Zahlen z1 = 1+2 i und z2 = −2−i in der komplexen
Zahlenebene.
Da komplexe Zahlen aus zwei unabhängigen Anteilen (nämlich dem Realteil und dem
Imaginärteil) bestehen, kann man sie mit Punkten der Ebene identifizieren:
z = x + iy ∈ C
wird gezeichnet als der Punkt
(x, y) ∈ R2 .
(1.17)
Mit R2 bezeichnen wir hier die (x, y)-Ebene, wobei wir auf der x-Achse den Realteil und
auf der y-Achse den Imaginärteil abtragen. In Abbildung 1.3 sind die beiden komplexen
Zahlen z1 = 1 + 2 i und z2 = −2 − i gemäß (1.17) als die Punkte (1, 2) bzw. (−2, −1)
gezeichnet. In dieser geometrischen Darstellung der komplexen Zahlen in der Ebene erweitert man den reellen Zahlenstrahl zur komplexen Zahlenebene (oder Gausßchen
Zahlenebene).
Eine wichtige Operation ist die Spiegelung an der reellen Achse, d.h. der Übergang
von z = x + i y zu z̄ = x − i y, der sogenannten zu z konjugiert komplexen Zahl.
20
1.4. Komplexe Zahlen
Definition 1.32. (konjugiert komplexe Zahl) Sei z = x + i y eine komplexe Zahl. Die
komplexe Zahl
z̄ = x − i y
heißt die zu z konjugiert komplexe Zahl. In der komplexen Zahlenebene erhält man die
zu z konjugiert komplexe Zahl z̄, indem man z an der reellen Achse spiegelt:
z entspricht dem Punkt (x, y) und z̄ enspricht dem Punkt (x, −y) in der komplexen Zahlenebene.
Beispiel 1.33. (konjugiert komplexe Zahl)
(a) Die zu z = −17 − 3 i konjugiert komplexe Zahl ist z̄ = −17 + 3 i.
(b) Die zu z = 1 + 2 i konjugiert komplexe Zahl ist z̄ = 1 − 2 i.
(c) Die zu z̄ = 1 − 2 i konjugiert komplexe Zahl ist z̄¯ = 1 + 2 i = z.
Was wir im letzten Beispiel beobachtet haben, gilt allgemein: Für z = x + i y ist die zu z̄
konjugiert komplexe Zahl
z̄¯ = z − i y = z + i y = z.
Die Bedeutung der zu z konjugiert komplexen Zahl z̄ ergibt sich aus der Gleichung
z z̄ = (x + i y) (x − i y) = x2 + i y x − i x y − |{z}
i2 y 2 = x2 + y 2,
= −1
p
√
und x2 + y 2 ist reell. Nach Pythagoras ist z z̄ = x2 + y 2 der Abstand des Punkts
(x, y) in der komplexen Zahlenebene vom Ursprung (0, 0), also der Abstand der komplexen Zahl z vom Ursprung (0, 0). Analog zum Reellen heißt dieser Wert der Betrag
von z, geschrieben als |z|.
Definition 1.34. (Betrag einer komplexen Zahl) Sei z = x + i y eine komplexe Zahl.
Dann ist der Betrag von z die reelle Zahl
p
√
|z| = z z̄ = x2 + y 2 .
Betrachten wir zwei Beispiele.
Beispiel 1.35. (Betrag einer komplexen Zahl)
p
√
√
(a) Der Betrag von z = −17 − 3 i ist |z| = (−17)2 + 32 = 172 + 32 = 298.
√
√
(b) Der Betrag von z = 1 + 2 i ist |z| = 12 + 22 = 5.
(c) Der Betrag der zu z = 1 + 2 i konjugiert komplexen Zahl z̄ = 1 − 2 i ist
|z̄| =
p
12 + (−2)2 =
√
12 + 22 =
√
5.
1. Grundlagen und Notation
21
Was wir im letzten Beispiel gesehen haben gilt allgemein für jede komplexe Zahl z = x+i y
und ihre konjugiert komplexe Zahl z̄ = x − i y:
p
p
|z| = x2 + y 2 = x2 + (−y)2 = |z̄|.
Mit Hilfe der zu z konjugiert kompexen Zahl z̄ und des Betrags |z| = |z̄| vom z und
z̄ können wir nun auch die Division durch komplexe Zahlen erklären. Betrachten wir
zunächst den einfachsten Fall, nämlich 1 : z = 1/z. Dann erhalten wir durch Erweitern
mit z̄
z̄
z̄
x− iy
x
y
1
=
= 2 = 2
= 2
−i 2
,
(1.18)
2
2
z
z z̄
|z|
x +y
x +y
x + y2
wobei wir den letzten Bruch direkt ausrechnen können, da der Nenner x2 + y 2 reell ist.
Betrachen wir kurz ein Beiepiel: Für z = 1 + 2 i erhalten wir
1−2i
1−2i
1−2i
1 2
1
=
= 2
=
= − i.
2
1+2i
(1 + 2 i) (1 − 2 i)
1 +2
5
5 5
Analog können wir auch z1 /z2 als z1 · (1/z2 ) berechnen, was in der folgenden Definition
festgehalten ist:
Definition 1.36. (Division komplexer Zahlen) Die Division von z1 = x1 + i y1 durch
z2 = x2 + i y2 6= 0 ist definiert durch
z1
z1 z̄2
z1 z̄2
(x1 + i y1 ) (x2 − i y2 )
.
=
=
=
z2
z2 z̄2
|z2 |2
x22 + y22
(1.19)
Wir bemerken, dass der Ausdruck auf der rechten Seite von (1.19) von der Form
1
Produkt zweier komplexer Zahlen
=
· (Produkt zweier komplexer Zahlen)
reelle Zahl
reelle Zahl
ist, und einen solchen Ausdruck können wir mit dem bereits definierten Produkt zweier
komplexer Zahlen berechnen.
Beispiel 1.37. (Division komplexer Zahlen) Wir wollen die folgenden Quotienten
komplexer Zahlen mit Hilfe von Definition 1.36 berechnen:
(a)
2+i
3−i
(b)
1
i3
(c)
1
3+4i
(a) Wir erweitern den Bruch mit 3 − i = 3 + i und vereinfachen
(2 + i)(3 + i)
6 + 2 i + 3 i + i2
6+2i+3i− 1
5+5i
1 1
2+i
=
=
=
=
= + i.
2
3−i
(3 − i)(3 + i)
9+3i−3i− i
9 − (−1)
10
2 2
(b) Wir bemerken, dass gilt i3 = i2 i = (−1) i = −i. Nun erweitern wir den Bruch mit
i3 = −i = i. Dies ergibt
1
i
i
1
=
=
=
= i.
i3
−i
(−i) i
1
22
1.4. Komplexe Zahlen
(c) Wir erweitern den Bruch mit 3 + 4 i = 3 − 4 i und erhalten (unter Ausnutzung von
(3 + 4 i)(3 − 4 i) = 32 + 42 = 9 + 16 = 25)
3− 4i
3− 4i
3− 4i
3
4
1
=
=
=
=
−
i.
3+4i
(3 + 4 i)(3 − 4 i)
9 + 16
25
25 25
Vergessen Sie nicht Ihr Ergebnis immer so weit wie möglich zu vereinfachen!
Abschließend halten wir noch die Eigenschaften des Betrags komplexer Zahlen sowie einige
weitere Eigenschaften komplexer Zahlen fest.
Lemma 1.38. (Eigenschaften des Betrags komplexer Zahlen) Für den Betrag |z|
komplexer Zahlen z = x + i y gilt:
(i) Für jede komplexe Zahl z ist |z| ≥ 0.
(ii) Für eine komplexe Zahl z gilt |z| = 0 genau dann, wenn z = 0 ist.
(iii) Für zwei komplexe Zahlen z und w gilt: |z · w| = |z| · |w|.
(iv) Für zwei komplexe Zahlen z und w gilt: |z + w| ≤ |z| + |w| (Dreiecksungleichung).
Der Name Dreiecksungleichung für Eigenschaft (iv) in Lemma 1.38 ist in Abbildung 1.4
erklärt und motiviert.
Im(z)
w
|z + w|
z+w
|w|
z
|z|
Re(z)
Abb. 1.4: Die Dreiecksungleichung erklärt sich, wenn man z, w und z +w in der komplexen
Zahlenebene zeichnet. Dabei erhält man z + w im Sinne der Vektoraddition (vgl. Teil IV:
”
Lineare Algebra“) als die eingezeichnete Diagonale der Trapezes, dessen Seiten den Vektoren der Punkte z und w in der komplexen Zahlenebene entsprechen. Es ist nun aus
der Zeichnung klar, dass die Länge der Diagonale, also der Betrag |z + w|, nicht länger
ist als die Summe der Längen der beiden Seiten des Trapezes, also |z| + |w|. Also gilt
|z + w| ≤ |z| + |w|.
Bemerkung 1.39. Die komplexen Zahlen sind nicht angeordnet, d.h. es gibt (im Gegensatz zu den reellen Zahlen) keine Relation <“ auf C!
”
1. Grundlagen und Notation
23
Lemma 1.40. (Nullstellen vom Polynomen) Betrachtet man Polynome über C, also
P (z) = an z n + an−1 z n−1 + . . . + a1 z + a0 ,
z ∈ C,
mit Koeffizienten a0 , a1 , . . . , an−1 , an ∈ C, so besitzt jedes Polynom vom Grad n genau
n komplexe Nullstellen, wobei mehrfache Nullstellen (d.h. Faktorisierung mit Faktor
(z − z0 )k ) mit ihrer Vielfachheit (also k-mal) zu zählen sind. Bei Polynomen mit reellen
Koeffizienten treten komplexe Nullstellen immer in konjugiert komplexen Paaren (also z0
und z̄0 ) auf.
Beispiel 1.41. (Nullstellen von Polynomen in C) Das Polynom vom Grad 3,
1
1
1
3
2
2
z + 1 = (z + 1) (z − z + 1) = (z + 1) z − 2 · · z + + 1 −
2
4
4
!
2
3
1
+
= (z + 1)
z−
2
4


√ !2
2
1
3 
= (z + 1)  z −
+
2
2
√ !
√ !
1
1
3
3
i
z− +
i ,
(1.20)
= (z + 1) z − −
2
2
2
2
hat die drei verschiedenen einfachen Nullstellen
√
1
3
z1 = −1,
z2 = −
i
und
2
2
√
3
1
z3 = +
i.
2
2
In (1.20) wurde die erste Umformung mittels Polynomdivision (siehe Teilkapitel 9.6) berechnet, und anschließend haben wir die quadratische Ergänzung und die zweite und die
dritte binomische Formel verwendet.
Beispiel 1.42. (Nullstellen von Polynomen in C) Das Polynom vom Grad 3
z3 + i z2 + z + i = z3 + z + i z2 + i
= z (z 2 + 1) + i (z 2 + 1)
= (z + i) (z 2 + 1)
= (z + i) (z + i) (z − i)
= (z + i)2 (z − i)
hat die drei Nullstellen z1 = z2 = −i (zweifach) und z3 = i (einfach).
1.5
Trigonometrische Funktionen
Wir beginnen unsere Einführung der trigonometrischen Funktionen mit der Wiederholung
der Definition von Sinus und Kosinus am rechtwinkligen Dreieck.
24
1.5. Trigonometrische Funktionen
Definition 1.43. (Sinus und Kosinus im rechtwinkligen Dreieck) Für Winkel α
mit 0◦ < α < 90◦ sind sin(α) ( Sinus von α“) und cos(α) ( Kosinus von α“) im
”
”
rechtwinkligen Dreieck wie folgt definiert:
sin(α) =
a
Gegenkathete (von α)
=
,
c
Hypothenuse
cos(α) =
Ankathete (von α)
b
=
.
c
Hypothenuse
Die Ankathete (von α), die Gegenkathete (von α) und die Hypothenuse, sowie die
Bezeichnungen der Dreiecksseiten sind in Abbildung 1.5 illustriert.
a = Gegenkathete (von α)
c=
p
Hy
se
nu
e
h
ot
90◦
α
b = Ankathete (von α)
Abb. 1.5: Die Definition von Sinus und Kosinus am rechtwinkligen Dreieck: sin(α) = a/c
und cos(α) = b/c.
Wir bemerken hier auch, dass für rechtwinklige Dreiecke der Satz des Pythagoras gilt:
2 2 2
Gegenkathete (von α) + Ankathete (von α) = Hypothenuse
(1.21)
oder in der Beschriftung der Abbildung 1.5
a2 + b2 = c2 .
(1.22)
Lemma 1.44. (Sinussatz und Kosinussatz)
In beliebigen Dreiecken gelten:
sin(β)
sin(γ)
sin(α)
=
=
(i) Sinussatz:
a
b
c
2
2
2
(ii) Kosinussatz: c = a + b − 2 · a · b · cos(γ)
Dabei sind die Bezeichnungen der Winkel und der
Seiten in der nebenstehenden Skizze festgelegt.
β
c
γ
α
b
a
1. Grundlagen und Notation
25
Streng genommen müssen wir für Lemma 1.44 noch erklären, wie wir sin(φ) und cos(φ)
für Winkel φ ∈ [90◦ , 180◦ ) erklären. Wir können dies hier vorläufig über
cos(φ) = − sin(φ − 90◦ ),
sin(φ) = cos(φ − 90◦ ),
φ ∈ [90◦ , 180◦),
erklären. Sauberer ist die Definition 1.47, in der wir weiter unten den Sinus und den
Kosinus für beliebige Winkel definieren.
Betrachten wir zunächst eine Anwendung aus der Chemie, um zu sehen, wieso geometrische Anordnungen mit Rechtecken und Dreiecken und deren Berechnung mit Sinus und
Kosinus wichtig sind.
Anwendung 1.45. Die Verbindung N2 F2 existiert in zwei räumlich verschiedenen Formen
(Isomeren), die nachfolgend gezeichnet sind:
F
✔✔
N
N
❚❚
F
F
Cis-N2 F2
✔✔
N
✔✔
F
N
Trans-N2 F2
Bei beiden Isomeren beträgt der N-N-Abstand 0,125 nm, der N-F-Abstand 0,144 nm, und
die F-N-N-Winkel betragen 115◦. Welchen Abstand haben die Fluoratome?
Im Cis-Isomer gilt (siehe Skizze weiter unten):
d = 2 x + 0, 125,
α = 180◦ − 115◦ = 65◦ ,
cos(α) =
x
.
0, 144
Daraus folgt durch Auflösen der letzten Gleichung nach x und anschließendes Auflösen
der ersten Gleichung nach d:
x = 0, 144 nm · cos(α)
x
◦
= 0, 144 nm · cos(65 ),
N
N
◦
5
11
0, 1
α
d = 0, 125 nm + 2 x
0, 125
44
= 0, 125 nm + 2 · 0, 144 nm · cos(65◦ )
≈ 0, 247 nm.
Also haben die Fluoratome im Cis-Isomer
einen Abstand von d ≈ 0, 247 nm.
F
d
F
26
1.5. Trigonometrische Funktionen
F
Im Trans-Isomer gilt (siehe Skizze):
b = 0, 144,
c=
0, 125
,
2
d = 2 a.
c
Nach dem Kosinussatz gilt:
N
⇒
a ≈ 0, 180 nm
⇒
d ≈ 2 a = 0, 360 nm.
a
a2 ≈ 0, 0322 nm2
b
⇒
N
d
a2 = b2 + c2 − 2 b c cos(115◦ )
F
Also beträgt der Abstand der Fluoratome im Trans-Isomer d ≈ 0, 360 nm.
Wir wollen nun den Sinus und den Kosinus für beliebige Winkel definieren, indem wir die
trigonometrischen Funktionen Sinus und Kosinus als Funktionen am Einheitskreis
einführen.
Es ist üblich, die Variable einer trigonometrischen Funktion nicht in Grad sondern im
sogenannten Bogenmaß anzugeben, welches wir nun einführen.
Definition 1.46. (Bogenmaß)
Das Bogenmaß b zu dem Winkel φ (gemessen in
Grad) ist die Länge des Kreisbogens am Einheitskreis mit Radius r = 1 zu diesem Winkel φ (siehe
Skizze links). Nach der Formel für den Kreisumfang
2π r = 2π hat der Kreisbogen zum Winkel 360◦ die
Länge 2π Damit gilt die Relation
φ
φ
b
=
,
◦
360
2π
mit der wir zwischen Gradmaß und Bogenmaß umrechnen können:
2π
·φ
und
b=
360◦
φ=
360◦
· b.
2π
In der Tabelle 1.2 ist die Umrechnung für das Gradmaß und das Bogenmaß für einige
der wichtigsten Winkel aufgelistet. Sie sollten die Umrechnung zumindest für die in der
Tabelle aufgeführten Winkel im Kopf haben.
Nachdem wir das Bogenmaß eingeführt haben, können wir nun die Sinus- und Kosinus-
1. Grundlagen und Notation
27
Gradmaß
0
30
45
60
90
Bogenmaß
0
π/6 π/4 π/3 π/2
180
270
360
φ
π
3π/2
2π
2π φ/360
Tabelle 1.2: Umrechnung zwischen Gradmaß und Bogenmaß.
funktion am Einheitskreis definieren.
1
y
sin(φ)
φ
−1
x
cos(φ) 1
−1
Abb. 1.6: Definition von Sinus und Kosinus am Einheitskreis.
Definition 1.47. (Sinusfunktion und Kosinusfunktion) Der Einheitskreis ist der
Kreis in der (x, y)-Ebene mit Zentrum im Ursprung (0, 0) und mit Radius r = 1. Es seien
(x, y) die Koordinaten des Punktes P auf dem Einheitskreis, für den der Winkel gegen
den Uhrzeigersinn von der positiven x-Achse aus gerade φ (im Bogenmaß) beträgt (siehe
Abbildung 1.6). Dann definieren wir den Sinus und den Kosinus durch:
sin(φ) = y,
cos(φ) = x.
Dadurch sind sin(φ) und cos(φ) für Winkel φ ∈ [0, 2π) erklärt. Für andere Werte φ ∈ R
definieren wir
sin(φ) = sin(φ − 2kπ),
cos(φ) = cos(φ − 2kπ),
wobei k ∈ Z so gewählt ist, dass φ − 2kπ ∈ [0, 2π) gilt.
28
1.5. Trigonometrische Funktionen
Wir bemerken, dass durch die Definition 1.47 die Sinusfunktion und die Kosinusfunktion
durch sogenannte 2π-periodische Fortsetzung von sin(φ) bzw. cos(φ) von dem Intervall
[0, 2π) auf R entstehen. In Abbildung 1.7 haben wir die Graphen der Sinusfunktion und
der Kosinusfunktion gezeichnet.
Abb. 1.7: Die Sinusfunktion (linkes Bild) und die Kosinusfunktion (rechtes Bild) auf dem
Intervall [−2π, 2π].
In der nachfolgenden Tabelle sind Werte von sin(x) und cos(x) für einige wichtige Winkel
aufgelistet.
x in Bogenmaß
0
π
6
π
4
π
3
π
2
4π
6
3π
4
5π
6
x in Gradmaß
0
30
45
60
90
120
135
150
√
√
√
√
sin(x)
0
cos(x)
1
1
2
√
3
2
2
2
√
2
2
3
2
1
1
2
0
3
2
−
1
2
2
2
√
2
−
2
−
1
2
√
3
2
π
3π
2
2π
180 270 360
0
−1
0
−1
0
1
Tabelle 1.3: Einige wichtige Werte der Sinus- und der Kosinusfunktion.
Man kann die Werte in der obigen Tabelle einfach mittels der Definition von Sinus und
1. Grundlagen und Notation
29
Kosinus über das Dreieck am Einheitskreis ablesen. So sieht man direkt für den Winkel
x=0
sin(0) = 0
und
cos(0) = 1
und für den Winkel x = π/2 (also 90◦ )
π sin
=1
2
und
cos
π 2
= 0.
Für den Winkel π/4 (also 45◦ ) haben wir ein gleichschenkliges Dreieck mit Hypotenuse
der Länge 1, wie in dem linken Bild in Abbildung 1.8 eingezeichnet. Nach dem Satz von
Pythagoras gilt dann für die Länge a = cos(π/4) = sin(π/4) der beiden gleichlangen
Katheten des Dreiecks
r
1
1
1
a2 + a2 = 1
⇒
2 a2 = 1
⇒
a2 =
⇒
a=
=√ .
2
2
2
√
1/ 2
4
= cos
π 4
30◦ =π/6
b
√
1/ 2
45◦ =π/4
b
√
1
2
=√ =
.
2
2
1
1
sin
π
1
Also finden wir
h
1/2
1/2
Abb. 1.8: Skizzen zur Bestimmung von sin(x) und cos(x) für x = π/4 (linkes Bild) und
x = π/6 (rechtes Bild).
Zur Bestimmung von sin(x) und cos(x) für x = π/6 (also 30◦ ) drehen wir das Dreieck am
Einheitskreis und ergänzen eine gespiegelte Kopie des Dreiecks, so dass wir mit beiden
Dreiecken zusammen ein gleichseitiges Dreieck erhalten dessen Höhe h = cos(π/6) und
dessen halbe Grundseite sin(π/6) ist (siehe das rechte Bild in Abbildung 1.8). Wir können
dann direkt ablesen, dass gilt sin(π/6) = 1/2, und nach dem Satz des Pythagoras finden
wir
h π i2 h π i2
+ cos
1 = sin
6
6
30
1.5. Trigonometrische Funktionen
⇒
⇒
Wir finden also
2
h π i2
h π i2
1
1
3
= 1 − sin
= 1−
=1− =
cos
6
6
2
4
4
r
√
π 3
3
=
=
.
cos
6
4
2
sin
π
6
1
=
2
und
cos
π 6
=
√
3
.
2
Wir halten nun einige Eigenschaften des Sinus und des Kosinus fest.
Lemma 1.48. (Anwendung der Satz von Pythagoras)
2 2
sin(x) + cos(x) = 1
für alle x ∈ R.
(1.23)
Beweis von Lemma 1.48. Betrachten wir x ∈ [0, 2π), so können den Satz des Pythagoras (siehe (1.21) und (1.22)) direkt auf das entsprechende rechtwinklige Dreieck am
Einheitskreis anwenden und erhalten
2 2
sin(x) + cos(x) = 1
für alle x ∈ [0, 2π).
Über die 2π-periodische Fortsetzung erhalten wir (1.23) dann auch für alle x ∈ R.
Lemma 1.49. (Symmetrie-Eigenschaften von Sinus und Kosinus) Es gelten
sin(−x) = − sin(x)
und
cos(−x) = cos(x)
für alle x ∈ R.
(1.24)
Beweis von Lemma 1.49. Dies macht man sich leicht klar, indem man negative Winkel
im Einheitskreis einführt: Der Winkel −φ mit φ ∈ [0, 2π) im Einheitskreis ist der Winkel
der von der positiven x-Achse im Uhrzeigersinn abgetragen wird. Auch für den negativen
Winkel −φ sind der Sinus sin(−φ) und der Kosinus cos(−φ) die Gegenkathete und Ankathete in dem entsprechenden Dreieck. Malt man sich die beiden Dreiecke am Einheitskreis
für die Winkel φ und −φ hin, dann kann man an der Zeichnung direkt
sin(−φ) = − sin(φ)
und
cos(−φ) = cos(φ)
für alle φ ∈ [0, 2π)
ablesen. Für beliebige Werte von x folgt die Formel (1.24) über die 2π-Periodizität des
Sinus und des Kosinus.
Lemma 1.50. (Additionstheoreme) Es gelten die Additionstheoreme:
sin(x + y) = sin(x) · cos(y) + cos(x) · sin(y)
für alle x, y ∈ R,
cos(x + y) = cos(x) · cos(y) − sin(x) · sin(y)
für alle x, y ∈ R,
sin(x − y) = sin(x) · cos(y) − cos(x) · sin(y)
cos(x − y) = cos(x) · cos(y) + sin(x) · sin(y)
für alle x, y ∈ R,
für alle x, y ∈ R.
1. Grundlagen und Notation
31
Folgerung 1.51. (weitere Formeln für Sinus und Kosinus) Aus den Additionstheoremen können wir direkt die folgenden Formeln ableiten:
(i) Formeln für die um π/2 oder π verschobene Variable:
π
= cos(x)
sin x +
2
sin(x + π) = − sin(x)
π
cos x +
= − sin(x),
2
und
cos(x + π) = − cos(x).
und
(ii) Halbwinkelformeln:
sin(2x) = 2 · sin(x) · cos(x),
2 2
cos(2x) = cos(x) − sin(x) ,
2
cos(2x) = 2 · cos(x) − 1
und
2
cos(2x) = 1 − 2 · sin(x) .
Als Beispiel leiten wir die erste Formel sin(x + π/2) = cos(x) mit Hilfe des Additionstheorems für den Sinus her:
π π π
sin x +
+ sin
· cos(x) = cos(x).
= sin(x) · cos
2
| {z 2 } | {z2 }
=0
=1
Wir führen noch die Tangens- und Kotangensfunktion ein.
Definition 1.52. (Tangens- und Kotangensfunktion)
(i) Die Tangensfunktion ist definiert durch
tan(x) =
sin(x)
cos(x)
für x ∈ R mit x 6=
(2k + 1)π
, k ∈ Z.
2
Alle reellen Zahlen der Form (2k+1)π/2 mit k ∈ Z sind als Werte von x ausgeschlossen, da in diesen Punkten der Nenner cos(x) in der Definition der Tangensfunktion
Null wird.
(ii) Die Kotangensfunktion ist definiert durch
cot(x) =
cos(x)
sin(x)
für x ∈ R mit x 6= k π, k ∈ Z.
Alle reellen Zahlen der Form k π mit k ∈ Z sind als Werte von x ausgeschlossen, da
in diesen Punkten der Nenner sin(x) in der Definition der Kotangesfunktion Null
wird.
32
1.5. Trigonometrische Funktionen
Abb. 1.9: Der Graph der Tangensfunktion.
Für α ∈ (0, π) kann man sich tan(α) und cot(α)
wie folgt durch die Ankathete b und Gegenkathete a ausdrücken (siehe die Skizze rechts für die
Beschriftung des Dreiecks):
tan(α) =
a
b
und
cot(α) =
b
.
a
Dies folgt durch Einsetzen der Definitionen
sin(α) = a/c und cos(α) = b/c des Sinus und
Kosinus im rechtwinkligen Dreieck in die Definition des Tangens und Kotangens.
c
a
α
b
Die Tangensfunktion ist π-periodisch (d.h. es gilt tan(x) = tan(x + π) für beliebige x),
und in Abbildung 1.9 ist der Graph der Tangensfunktion gezeichnet.
Der Graph der Kotangensfunktion ergibt sich mit den Eigenschaften von Sinus und Kosinus aus dem Zusammenhang mit der Tangensfunktion
π sin x + π2
cos(x)
=
tan x +
=
= − cot(x),
(1.25)
π
2
− sin(x)
cos x + 2
wobei wir im zweiten Schritt Folgerung 1.51 (i) genutzt haben. Der Graph der Kotangensfunktion ist in Abbildung 1.10 gezeichnet.
Anwendung 1.53. (Berechnung des Tetraederwinkels) Gewisse Kristalle bzw. Moleküle, etwa Methan (CH4 ) aber auch Wasser (verzerrter Tetraederwinkel 104.5◦) , haben
räumlich eine Tetraeder-Struktur, wobei die Atome in den Ecken und im Zentrum des Te-
1. Grundlagen und Notation
33
Abb. 1.10: Der Graph der Kotangensfunktion.
traeders angeordnet sind (gekennzeichnet durch die Punkte in der Skizze des Tetraeders).
Wir wollen den Winkel φ berechnen (siehe Skizze).
Die Gesamthöhe des Tetraeders ist H = d + h (siehe Skizze).
Der Winkel φ lässt sich aus d mit dem Kosinussatz berechnen:
1 = 2 d2 − 2 d2 cos(φ).
(1.26)
Nach dem Satz des Pythagoras gilt: d2 = ℓ2 + h2 .
Wir eliminieren nun h mit Hilfe von H = d + h:
d2 − h2 = ℓ2
1
d
1
φ
h
120◦ ℓ
d
ℓ
1
1
⇒
(d − h) (d + h) = ℓ2
⇒
d−h=
⇒
2 d − (d + h) =
⇒
⇒
⇒
(d − h) H = ℓ2
ℓ2
H
ℓ2
H
ℓ2
2d− H =
H
ℓ2
1
H+
.
d=
2
H
(1.27)
34
1.5. Trigonometrische Funktionen
Wir berechnen nun ℓ mit dem Kosinussatz:
1 = 2 ℓ2 − 2 ℓ2 cos(120◦ ).
1
erhalten wir
2
1
= 3ℓ
1 = 2ℓ−2ℓ· −
2
Mit cos(120◦ ) = − sin(30◦ ) = −
Nun berechnen wir H: Mit ℓ2 =
⇒
ℓ2 =
1
.
3
1
folgt
3
r
2
2
1
⇒
H=
.
ℓ +H =1
⇒
H = 1−ℓ = 1− =
3
3
3
p
Damit erhalten wir mittels (1.27), ℓ2 + H 2 = 1 und H = 2/3
√
ℓ2
1 H 2 + ℓ2
1 1
1
1
1
1
3
H+
= ·
= ·
= ·p
d=
= ·√ .
2
H
2
H
2 H
2
2
2
2/3
2
2
2
Nun berechnen wir
2
√ !
1
3
3
1 3
·√
= 2· · = ,
2
4 2
4
2
2 d2 = 2
formen (1.26) wie folgt um und setzen anschließend 2 d2 = 3/4 ein
1 = 2 d2 − 2 d2 cos(φ) = 2 d2 1 − cos(φ)
⇒
1 − cos(φ) =
4
1
=
.
2 d2
3
Damit folgt für den Tetraederwinkel
cos(φ) = 1 −
4
1
=−
3
3
⇒
φ ≈ 109, 5◦.
Bemerkung 1.54. (Platonische Körper) Das Tetraeder ist der einfachste Körper,
dessen Oberfläche durch gleich große regelmäßige n-Ecke (hier n = 3 für die Dreiecke
beim Tetraeder) begrenzt wird. Solche Körper heißen reguläre Polyeder. Es gibt genau
fünf verschiedene reguläre Polyeder, die sogenannten Platonischen Körper:
Tetraeder: 4 Dreiecke
Oktaeder: 8 Dreiecke
1. Grundlagen und Notation
35
Ikosaeder: 20 Dreiecke
Würfel: 6 Quadrate
Dodekaeder: 12 Fünfecke
Diese regulären Polyeder spielen in der Chemie eine wichtige Rolle, da Kristalle und
Moleküle möglichst regelmäßige Konfigurationen bilden.
1.6
Darstellung komplexer Zahlen mittels trigonometrischer Funktionen
Wir kommen nun noch einmal zu den komplexen Zahlen zurück und wollen komplexe
Zahlen in der komplexen Ebene mit Hilfe des Sinus und des Kosinus darstellen. Betrachten
wir das Bild in Abbildung 1.11
Wir erinnern uns zunächst, dass der Betrag der komplexen Zahl z = x + i y als
p
√
|z| = z · z̄ = x2 + y 2
definiert war, was nach Quadrieren nichts weiter ist als der Satz der Pythagoras |z|2 =
x2 + y 2 für das rechtwinklige Dreieck in Abbildung 1.11. Aus der Definition 1.43 von Sinus
und Kosinus am rechtwinkligen Dreieck folgt
x
y
= cos(φ)
und
= sin(φ).
|z|
|z|
Auflösen nach x bzw. y und die Notation r = |z| liefern:
x = |z| · cos(φ) = r · cos(φ)
und
y = |z| · sin(φ) = r · sin(φ).
Damit erhalten wir durch Einsetzen in z = x + i y die sogenannte Polarkoordinatendarstellung von z:
z = r · cos(φ) + i · r · sin(φ) = r · cos(φ) + i sin(φ) .
Wir halten dies als Satz fest.
36
1.6. Darstellung komplexer Zahlen mittels trigonometrischer Funktionen
Im(z)
y
z = x+ iy
r=
|z |
φ
Re(z)
x
Abb. 1.11: Polarkoordinatendarstellung der komplexen Zahlen.
Satz 1.55. (Polarkoordinatendarstellung einer komplexen Zahl) Die komplexe
Zahl z = x + i y hat die Polarkoordinatendarstellung
z = r · cos(φ) + i sin(φ)
(1.28)
mit dem Radius r = |z| und dem Winkel φ ∈ [0, 2π) (im Bogenmaß) zwischen der
reellen positiven Achse und dem Strahl von Ursprung zum Punkt z. Die Zahl φ heißt
Argument von z, kurz φ = arg(z).
Betrachten wir zunächst ein paar Beispiele.
Beispiel 1.56. (komplexe Zahlen in Polarkoordinatendarstellung) Die komplexe
Zahl z = 21 + 21 i hat die Polarkoordinaten-Darstellung
π i
1 h π
z = √ · cos
+ i sin
,
(1.29)
4
4
2
√
ist φ = π/4. Dies sieht man
d.h. der Radius ist r = 1/ 2 und der Winkel/das Argument
√
leicht, wenn man weiss, dass sin(π/4) = cos(π/4) = 1/ 2 ist. Einsetzen in (1.29) liefert
nun
π i
1 h π 1
1
1 1
1
1
1
z = √ · cos
+i
= √ · √ + i √ = + i = + i.
4
4
2
2
2 2
2
2
2
2
In dem letzten Beispiel konnte man den Radius und das Argument durch inspizieren“
”
sehen. Wie aber berechnen wir den Radius und das Argument allgemein?
Wir wissen bereits, dass gilt
r = |z| =
p
x2 + y 2.
1. Grundlagen und Notation
37
Weiter lesen wir aus (1.28) direkt ab, dass gilt
x = r · cos(φ)
und
y = r · sin(φ).
(1.30)
Um den Winkel φ zu finden, nutzen wir unser Wissen über rechtwinklige Dreiecke und
trigonometrische Funktionen. Für das Dreieck in Abbildung 1.11 gilt
tan(φ) =
y
sin(φ)
= .
cos(φ)
x
(1.31)
Noch haben wir nicht gelernt, wie man mit der sogenannten Umkehrfunktion der Tangensfunktion arbeitet. Daher können wir aktuell nur mit den Formeln (die man aus (1.30)
durch Division durch r erhält)
cos(φ) =
x
r
und
y
r
sin(φ) =
(1.32)
zur Bestimmung des Arguments φ arbeiten. Zunächst inspiziert man die Vorzeichen um zu
sehen, in welchem Quadranten man sich befindet (siehe Tabelle 1.4). Danach bestimmt
man den passenden Winkel.
Quadrant
Bedingungen an x und y
zugehörige Winkel
1. Quadrant
x ≥ 0 und y ≥ 0
0≤φ≤
2. Quadrant
x ≤ 0 und y ≥ 0
π
≤φ≤π
2
3. Quadrant
x ≤ 0 und y ≤ 0
π≤φ≤
4. Quadrant
x ≥ 0 und y ≤ 0
3π
≤ φ ≤ 2π
2
π
2
3π
2
(0◦ ≤ φ ≤ 90◦ )
(90◦ ≤ φ ≤ 180◦)
(180◦ ≤ φ ≤ 270◦ )
(270◦ ≤ φ ≤ 360◦ )
Tabelle 1.4: Die Quadranten in (x, y)-Koordinatensystem.
Betrachten wir dazu ein Beispiel.
Beispiel 1.57. (Polarkoordinaten-Darstellung
einer komplexen Zahl) Für die
√
komplexe Zahl z = −1 + 3 i finden wir
q
√
√
√
r = |z| = (−1)2 + ( 3)2 = 1 + 3 = 4 = 2.
√
Wir haben hier x = −1 < 0 und y = 3 > 0, d.h. unsere komplexe Zahl liegt im
2. Quadranten. Damit bekommen wir π/2 ≤ φ ≤ π. Weiter gilt
√
x
−1
1
y
3
cos(φ) = =
=−
und
sin(φ) = =
.
r
2
2
r
2
38
1.6. Darstellung komplexer Zahlen mittels trigonometrischer Funktionen
Wir wissen, dass (beachte π/3 =
b 60◦ und 2π/3 = π − π/3 =
b 120◦ = 180◦ − 60◦ ), also
π 1
1
2π
=
=− ,
und daher
cos
cos
3
2
3
2
√
π 3
2π
sin
= sin
=
.
3
3
2
Mit dem Winkel/Argument φ = 2π/3 liegen wir im richtigen Quadranten. Also folgt die
Polarkoordinaten-Darstellung:
2π
2π
z = 2 cos
+ i sin
.
(1.33)
3
3
Bemerkung 1.58. (Arbeiten mit der Tangensfunktion und ihrer Umkehrfunktion) Wichtig ist, zu beachten, dass für einen Wert des Quotienten x/y mehrere Winkel
φ ∈ [0, 2π) existieren für die (1.31) gilt. Nur wenn man die Vorzeichen von x und y
berücksichtigt, findet man mittels tan(φ) = y/x den korrekten Winkel!
Bemerkung 1.59. (Definition des Arguments/Winkels) Es gibt mehrere Möglichkeiten, das Intervall für arg(z) festzulegen. In der Literatur wird arg(z) manchmal auch
als der Winkel φ definiert, für den z = |z| cos(φ) + i sin(φ) und −π < φ ≤ π gilt.
Die meisten von Ihnen werden die (natürliche) Exponentialfunktion exp(x) = ex mit
der Euler-Zahl e = 2, 71828 . . . aus der Schule kennen. Für die Exponentialfunktion gilt
ex+y = ex · ey .
Wir können die (natürliche) Exponentialfunktion auch für rein imaginäre Exponenten
x = i φ mit φ ∈ R mit dem sogenannten Eulerschen Theoren einführen.
Satz 1.60. (Eulersches Theorem) Es gilt
eiφ = cos(φ) + i sin(φ)
für alle φ ∈ R.
(1.34)
Im Rahmen dieses Kurses betrachten wir (1.34) als Definition von eiφ . Sollten Sie mit der
natürlichen Exponentialfunktion nicht vertraut sein, so warten Sie bis später, wenn wir
diese in Kapitel 7 richtig einführen.
Mit (1.34) können wir die Polarkoordinatendarstellung (1.28) der komplexen Zahlen
wie folgt schreiben
z = r · cos(φ) + i sin(φ) = r eiφ .
(1.35)
Mit (1.34) können in Anlehnung an die üblichen Rechenregeln für die (natürliche) Exponentialfunktion diese auch für komplexen Exponenten z = x + i y mit x, y ∈ R
erklären.
Definition 1.61. (komplexe Exponentialfunktion) Für komplexe Zahlen z = x + i y,
wobei x, y ∈ R, gilt
ez = ex+i y = ex · eiy = ex · cos(y) + i sin(y) .
1. Grundlagen und Notation
39
Mit diesem Informationen können wir leicht zeigen, dass die komplexe Exponentialfunktion die üblichen Eigenschaften hat:
z+w
e
z
w
=e ·e
und
z−w
e
ez
= w
e
für alle z, w ∈ C.
Inbesondere können wir nun komplexe Zahlen in der Polarkoordinatendarstellung
sehr leicht multiplizieren: Für z1 = r1 eiφ1 , z2 = r2 eiφ2 in C gilt
z1 · z2 = r1 eiφ1 · r2 eiφ2 = (r1 · r2 ) · eiφ1 · eiφ2 . = (r1 · r2 ) · ei(φ1 +φ2 ) .
Also werden bei der Multiplikation zweier komplexer Zahlen die Beträge (Längen)
multipliziert und die Argumente (Winkel) addiert.
Ist r2 6= 0, so erhalten wir analog für die Division von z1 = r1 eiφ1 durch z2 = r2 eiφ2 6= 0
z1
r1 eiφ1
r1 i(φ1 −φ2 )
r1
iφ1
−iφ2
=
·
e
·
e
.
=
·e
.
=
iφ
z2
r2 e 2
r2
r2
Beispiel 1.62. (Multiplikation und Division von komplexen Zahlen) Für
z=
1 1
+ i
2 2
und
w = −1 +
√
3i
gilt mit Hilfe von (1.29) und (1.33)
√ 11π
2π
π
2π
2
1
i π4
· 2 · ei 3 = √ · ei( 4 + 3 ) = 2 ei 12
z·w = √ ·e
2
2
und
1.7
π
√1 · ei 4
π
2π
5π
1
z
1
= 2 i 2π = √ · ei( 4 − 3 ) = √ e−i 12 .
w
2 2
2 2
2·e 3
Ungleichungen und Beträge
Bei der Definition der Intervalle in Unterkapitel 1.1 haben wir bereits die Relation
( kleiner als“), >“ ( größer als“), ≤“ ( kleiner als oder gleich“) und
”
”
”
”
”
( größer als oder gleich“) verwendet, die Sie natürlich aus der Schulmathematik
”
nen. Nun wollen wir diese genauer untersuchen und Ungleichungen betrachten.
<“
”
≥“
”
ken-
Für zwei verschiedene reelle Zahlen a und b gilt immer a b. Daher können
wir die reellen Zahlen R anordnen“, was im nächsten Satz konkretisiert wird.
”
Satz 1.63. (Anordnung der reellen Zahlen) Die reellen Zahlen R besitzen folgende
Anordnungseigenschaften:
Für alle a, b ∈ R gilt genau eine der Beziehungen: a b
”
( a ist größer als b“) oder a = b ( a ist gleich b“).
”
”
Für a, b, c ∈ R gilt:
40
1.7. Ungleichungen und Beträge
(i) Aus a 0. (Monotonie der Multiplikation)
Aus a b · c für alle c < 0.
Machen wir uns zunächst an einem Beispiel klar, dass die Aussagen in Satz 1.63 nicht
geheimnisvoll sind.
Beispiel 1.64. Betachten wir die reellen Zahlen a = 3, b = 7, c = 12 und d = −8. Die
erste Aussage im Satz trifft zu, denn es gilt 3 < 7, 7 < 12, 3 < 12, −8 < 3, −8 < 7 und
−8 < 12. Machen wir uns nun klar, was die Eigenschaften (i) bis (iii) bedeuten
(i) besagt, dass aus 3 < 7 und 7 < 12 folgt, dass 3 < 12 gilt.
(ii) besagt, dass aus 3 < 7 folgt, dass 3 + 12 = 15 < 7 + 12 = 19 gilt.
(iii) besagt, dass aus 3 < 7 folgt, dass 3 · 12 = 36 < 7 · 12 = 84 gilt. Weiter besagt (iii)
für −8 < 0, dass gilt 3 · (−8) = −24 > 7 · (−8) = −56.
Alle Eigenschaften bis auf die zweite Aussage in (iii) in Satz 1.63 sind also unsere natürli”
chen“ Rechenregeln für die reellen Zahlen. Die letzte Aussage in (iii) ist die wichtige
Rechenregel für das Multiplizieren von Ungleichungen mit negativen Zahlen:
Multipliziert man eine Ungleichung mit einer negativen reellen Zahl, so kehrt kehrt
sich das Ungleichheitszeichen in der Ungleichung um, d.h. aus <“ wird >“, und
”
”
aus >“ wird <“.
”
”
Bemerkung 1.65. (gleichwertige Relationen) Seien a, b ∈ R. Dann ist a a.
Definition 1.66. (kleiner als oder gleich/größer als oder gleich)
(i) a ≤ b ( a ist kleiner als oder gleich b“) bedeutet, dass gilt: a b oder a = b.
”
In Analogie zu (iii) in Satz 1.63 finden wir:
Lemma 1.67. Seien a, b, c reelle Zahlen.
(i) Aus a ≤ b folgt a · c ≤ b · c für alle c ≥ 0.
Aus a ≤ b folgt a · c ≥ b · c für alle c < 0.
(ii) Aus a ≥ b folgt a · c ≥ b · c für alle c ≥ 0.
Aus a ≥ b folgt a · c ≤ b · c für alle c < 0.
Nach diesen Vorbereitungen können wir erklären, was eine Ungleichung ist.
1. Grundlagen und Notation
41
Definition 1.68. (Ungleichung) Seien a, b ∈ R reelle Zahlen, oder seien a und b allgemeiner Terme, Ausdrücke oder Funktionen, deren Werte reelle Zahlen sind. Dann heißen
Relationen der Form
a < b,
a > b,
a≤b
bzw.
a≥b
Ungleichungen.
Beispiel 1.69. (Ungleichungen)
(a) 3 < 13 und 13 ≥ −7, 5 sind Ungleichungen für reelle Zahlen.
(b) x2 ≤ 2 x − 1 ist eine Ungleichung in Termen oder Funktionen in x. Hier muss man
untersuchen, für welche x die Ungleichung erfüllt ist. Dazu formen wir um
x2 ≤ 2 x − 1
⇔
x2 − 2 x + 1 ≤ 0
⇔
(x − 1)2 ≤ 0,
(1.36)
wobei wir im letzten Schritt die erste binomische Formel verwendet haben. Für welche
reellen x gilt nun (x − 1)2 ≤ 0? Da für reelles x immer (x − 1)2 ≥ 0 gilt, kann nur
(x − 1)2 = 0 eine Lösung haben, und diese ist x = 1. Wir bezeichnen die Menge der
Lösungen der Ungleichung auch mit L, also hier L = {1}. (Die Doppelpfeile ⇔“ in
”
(1.36) sind sogenannte Äquivalenzpfeile“, die bedeuten, dass die Aussagen auf beiden
”
Seiten von ⇔“ gleichwertig oder mathematisch gesprochen äquivalent“ sind. Wir
”
”
werden in Kapitel 2 noch erklären, was die Äquivalenzpfeile“ genau bedeuten.)
”
Wir ziehen noch einige Folgerungen aus den Anordnungseigenschaften der reellen Zahlen
in Satz 1.63.
Folgerung 1.70. (Folgerungen aus Satz 1.63)
(i) a < 0 gilt genau dann, wenn gilt −a > 0 (d.h. gilt a < 0 so folgt −a > 0, und
gilt −a > 0 so folgt a < 0 ).
(ii) Seien a, b ∈ R. Aus 0 < a < b folgt an < bn für alle n ∈ N.
√
√
(iii) Seien a, b ∈ R. Aus 0 < a (−1) · 0 = 0. Und aus −a > 0,
d.h. 0 < −a folgt dann (−1) · 0 = 0 > (−a) · (−1) = a, d.h. a < 0.
Die Aussagen (ii) und (iii) in Folgerung 1.70 kann man mit der Technik der vollständigen
Induktion (vgl. Kapitel 2) beweisen.
Lemma 1.71. (Bernoullische Ungleichung) Für n ∈ N und x ∈ R mit x > −1 gilt
die Bernoullische Ungleichung:
(1 + x)n ≥ 1 + n x.
Gleichheit in (1.37), also (1 + x)n = 1 + n x, gilt nur für x = 0 oder n = 1.
(1.37)
42
1.7. Ungleichungen und Beträge
Die Bernoullische Ungleichung ist nützlich, um komplizierte Terme mit Potenzen nach
unten abzuschätzen. Betrachten wir dazu ein einfaches Beispiel.
Beispiel 1.72. (Anwendung der Bernoullischen Ungleichung) Wir wenden die Bernoullische Ungleichung an, um (2, 2)10 nach unten abzuschätzen:
(2, 2)10 = (2 + 0, 2)10 = [2 (1 + 0, 1)]10
= 210 (1 + 0, 1)10
≥ 210 (1 + 10 · 0, 1)
= 210 · 2
= 2048,
wobei wir die Bernoullische Ungleichung (1.37) in der dritten Zeile für den Term in den
Klammern mit x = 0, 1 und n = 10 verwendet haben. Eine Berechnung mit dem Taschenrechner liefert (2, 2)10 ≈ 2656.
Betrachten wir noch ein weiteres Beispiel zu Ungleichungen.
Beispiel 1.73. (Ungleichungen) Für welche x ∈ R gilt die folgende Ungleichung?
2x+1
<1
x−1
(1.38)
Lösung: Zunächst müssen wir x − 1 = 0, also x = 1, ausschließen, da durch Null teilen
verboten ist. Wir wollen nun beide Seiten der Gleichung (1.38) mit (x − 1) multiplizieren.
Dabei müssen wir aber das Vorzeichen von (x − 1) berücksichtigen, da sich für x − 1 < 0
das <“ in (1.38) in ein >“ umkehrt. Wir nehmen also eine Fallunterscheidung vor:
”
”
Fall 1: Für x − 1 > 0, also für x > 1, erhalten wir nach der Multiplikation von (1.38) mit
(x − 1)
2x+1 < x − 1 − x− 1
⇔
2 x − x < −1 − 1
⇔
x < −2.
Da in diesem Fall aber nach Voraussetzung x > 1 war hat x < −2 keine Lösung.
Fall 2: Für x − 1 < 0, also für x < 1, erhalten wir nach der Multiplikation von (1.38) mit
(x − 1)
⇔
2 x − x > −1 − 1
⇔
x > −2.
2x+1 > x − 1 − x− 1
Wir erhalten also die beiden Bedingung x > −2, also −2 < x, und x < 1 an x.
Fazit: Daher ist die Menge aller Lösungen L der Ungleichung (1.38) das offene Intervall
L = x ∈ R − 2 < x < 1 = (−2, 1).
Die Betragsfunktion oder der (Absolut-)Betrag misst den Abstand eines Punkts auf der
reellen Zahlengerade vom Nullpunkt.
1. Grundlagen und Notation
43
Definition 1.74. (Betragsfunktion/(Absolut-)Betrag) Für x ∈ R, ist die Betragsfunktion durch
x
für x ≥ 0,
|x| =
−x
für x < 0.
definiert. Wir nennen |x| auch den (Absolut-)Betrag von x. Der Absolutbetrag misst
den Abstand (auf der Zahlengeraden) von x zum Nullpunkt 0.
Der Graph der Betragsfunktion ist im linken Bild in Abbildung 1.12 gezeichnet.
Abb. 1.12: Das linke Bild zeigt den Graphen der Betragsfunktion, und das rechte Bild
zeigt den Graphen der Signumfunktion.
Definition 1.75. (Signum/Vorzeichenfunktion) Sei x ∈ R. Das Signum oder Vorzeichen von x (oder die Signum-/Vorzeichenfunktion) ist definiert durch


für x > 0,
 1
0
für x = 0,
sgn(x) :=

 −1
für x < 0.
Der Graph der Signumfunktion ist im rechten Bild in Abbildung 1.12 gezeichnet.
Beispiel 1.76. (Absolutbetrag und Signum)
(a) Für x = 7 haben wir |x| = |7| = 7 und sgn(x) = sgn(7) = 1.
(b) Für y = −13 haben wir |y| = | − 13| = 13 und sgn(y) = sgn(−13) = −1.
(c) Für w = 0 haben wir |w| = |0| = 0 und sgn(w) = sgn(0) = 0.
44
1.7. Ungleichungen und Beträge
Wir halten noch einige Eigenschaften der Betragsfunktion und der Signumfunktion fest.
Bemerkung 1.77. (Eigenschaften vom (Absolut-)Betrag und Signum)
(i) Für x, y ∈ R ist |x − y| der Abstand der beiden Punkte x und y auf der reellen
Zahlengerade.
(ii) Es gilt für jedes x ∈ R
x = |x| · sgn(x)
und
|x| = x · sgn(x).
Lemma 1.78. ( Norm“-Eigenschaften des (Absolut-)Betrags) Die sogenannten
”
Norm“-Eigenschaften des (Absolut-)Betrags | · | sind:
”
(i) |x| ≥ 0 für alle x ∈ R.
(ii) |x| = 0 gilt in R genau dann, wenn x = 0 ist.
(iii) |λ · x| = |λ| · |x|
(iv) |x + y| ≤ |x| + |y|
für alle λ, x ∈ R
für alle x, y ∈ R (Dreiecksungleichung).
Wir werden später in Teil IV: Lineare Algebra“ noch sehen, dass die euklidische Norm
”
im R2 (und allgemeiner im Rn mit n ≥ 2) analoge Eigenschaften zum Absolutbetrag hat.
Genauer betrachtet ist der Absolutbetrag nur ein Spezialfall der Euklidischen Norm für
R = R1 (daher auch die Bezeichnung Norm“-Eigenschaften in Lemma 1.78).
”
Lemma 1.79. (Weitere Eigenschaften des (Absolut-)Betrags) Weitere Eigenschaften des (Absolut-)Betrags | · | sind:
(v) | − x| = |x|
für alle x ∈ R.
(vi) −|x| ≤ x ≤ |x|
für alle x ∈ R.
Aufgrund der stückweisen Definition von |x| können (Un-)Gleichungen in denen |x|
vorkommt, am besten durch Fallunterscheidung aufgelöst werden! Betrachten
wir dazu ein paar Beispiele.
Beispiel 1.80. (Ungleichungen mit Absolutbeträgen) Für welche x ∈ R gilt die
Ungleichung |x − 3| ≤ 1?
Anschaulich besagt |x − 3| ≤ 1, dass der Abstand von x zu 3 kleiner oder gleich 1 ist.
Durch Einzeichnen auf dem Zahlenstrahl erhält man als Lösungsmenge das Intervall
L = [2, 4] = {x ∈ R | 2 ≤ x ≤ 4}.
Lösung: Wir wollen unser anschaulich ermitteltes Ergebnis nun durch mathematische
Berechnungen nachweisen:
Fall 1: Gilt x − 3 ≥ 0, also x ≥ 3, dann ist |x − 3| = x − 3. Also wird |x − 3| ≤ 1 zu
⇔
x ≤ 4.
x−3 ≤1 +3
1. Grundlagen und Notation
45
Die Ungleichungen x ≥ 3 und x ≤ 4 liefern als Lösungsmenge das Intervall
[3, 4] = {x ∈ R | 3 ≤ x ≤ 4}.
Fall 2: Gilt x − 3 < 0, also x < 3, dann ist |x − 3| = −(x − 3) = 3 − x, und die Gleichung
|x − 3| ≤ 1 wird
3−x≤ 1 +x−1
⇔
2 ≤ x.
Die Ungleichungen x < 3 und 2 ≤ x liefern als Lösungsmenge das Intervall
[2, 3) = {x ∈ R | 2 ≤ x < 3}.
Fazit: Nehmen wir die Lösungen aus Fall 1 und Fall 2 zusammen, so erhalten wir als
Lösungsmenge das Intervall
L = [2, 4] = {x ∈ R | 2 ≤ x ≤ 4}.
Beispiel 1.81. (Gleichungen mit Absolutbeträgen) Was sind die Lösungen der Gleichung |x − 2| = |2 x|?
Lösung: Wir treffen drei Fallunterscheidungen.
Fall 1: Für x ≥ 2 ist auch 2 x ≥ 0, und es gilt:
|x − 2| = |2 x|
⇔
x −2 = 2x − x
⇔
−2 = x.
Da für x ≥ 2 der Fall x = −2 nicht auftreten kann, haben wir hier keine Lösung.
Fall 2: Für x < 2 und x ≥ 0, also für 0 ≤ x < 2 ist x − 2 < 0 und damit |x − 2| =
−(x − 2) = 2 − x, und es ist 2 x ≥ 0. Somit gilt
2
⇔
2 = 3x : 3
⇔
x= .
|x − 2| = |2 x|
⇔
2−x = 2x +x
3
Da x = 2/3 die Bedingung 0 ≤ x < 2 erfüllt, ist x = 2/3 eine Lösung.
Fall 3: Sei nun x < 0. Dann ist x − 2 < 0 und damit |x − 2| = −(x − 2) = 2 − x, und es
gilt 2 x < 0 und damit |2 x| = −2 x. Daher haben wir
|x − 2| = |2 x| ⇔ 2 − x = −2 x + x ⇔ 2 = −x · (−1) ⇔ −2 = x.
Da x = −2 die Bedingung x < 0 erfüllt, ist x = −2 ebenfalls eine Lösung.
Wir bemerken, dass wir mit den drei betrachteten Fällen alle reellen Zahlen x abgedeckt
haben. Daher ist die Lösungsmenge von |x − 2| = |2 x|
2
L = −2,
.
3
In Abbildung 1.13 haben wir die Lösungen von |x − 2| = |2 x| graphisch bestimmt, indem
wir die beiden Funktionen f (x) = |x−2| und g(x) = |2 x| gezeichnet haben. Die Lösungen
von |x−2| = |2 x| sind gerade die x-Koordinaten der Schnittpunkte der beiden Funktionen,
und wir finden ebenfalls x = −2 und x = 2/3.
46
1.7. Ungleichungen und Beträge
Abb. 1.13: Die Schnittpunkte der Graphen der Funktionen f (x) = |x−2| und g(x) = |2 x|.
Beispiel 1.82. (Ungleichungen mit Absolutbeträgen) Wir wollen alle Punkte (x, y)
in der Ebene finden, für die gilt
|x| + |y| ≤ 1.
Dazu müssen wir die folgenden vier Fälle betrachten:
Fall 1: x ≥ 0 und y ≥ 0 (d.h. wir befinden uns im 1. Quadranten): Dann gilt
|x| + |y| = x + y ≤ 1,
und wir finden durch Auflösen nach y die Ungleichung y ≤ 1 − x.
Fall 2: x < 0 und y ≥ 0 (d.h. wir befinden uns im 2. Quadranten): Dann gilt
|x| + |y| = −x + y ≤ 1,
und wir finden durch Auflösen nach y die Ungleichung y ≤ 1 + x.
Fall 3: x < 0 und y < 0 (d.h. wir befinden uns im 3. Quadranten): Dann gilt
|x| + |y| = −x − y ≤ 1,
und wir finden durch Auflösen nach y die Ungleichung y ≥ −x − 1.
Fall 4: x ≥ 0 und y < 0 (d.h. wir befinden uns im 4. Quadranten): Dann gilt
|x| + |y| = x − y ≤ 1,
1. Grundlagen und Notation
47
und wir finden durch Auflösen nach y die Ungleichung y ≥ x − 1.
Um die Lösungsmenge zu finden, zeichnen wir die Lösungsmenge für jeden Quadranten
separat und finden die in Abbildung 1.14 dargestellte Menge.
y
1
−1
1
x
−1
Abb. 1.14: Graphische Darstellung der Menge aller Punkte (x, y) mit |x| + |y| ≤ 1 in der
(x, y)-Ebene.
48
1.7. Ungleichungen und Beträge
Kapitel 2
Mengenlehre, mathematische
Aussagen und Beweistechniken
In diesem Kapitel lernen wir zunächst Mengen und Relationen und Operationen für Mengen kennen. Danach werden wir (mathematische) Aussagen betrachten und die Grundzüge
der Aussagenlogik einführen. Insbesondere interessieren wir uns für die Verneinung von
Aussagen und deren Verknüpfung mit und“ bzw. oder“. Zuletzt diskutieren wir “wenn
”
”
dann“-Aussagen und Äquivalenzen und lernen in diesem Kontext auch die Grundzüge
verschiedener Beweistechniken kennen.
2.1
Mengenlehre
Zunächst definieren wir den Begriff einer Menge, und dann werden wir Relationen zwischen Mengen und Operationen auf Mengen betrachten. Bei Relationen zwischen Mengen
geht es darum, ob zwei Mengen gleich sind, oder ob die eine Menge möglicherweise in der
anderen enthalten ist. Bei Operationen auf Mengen geht es z.B. um die Vereinigung der
beiden Mengen.
Definition 2.1. (Menge und Elemente) Eine Menge A ist eine Zusammenfassung
von bestimmten wohlunterschiedenen Objekten unserer Anschauung und unseres Denkens
zu einem Ganzen. Die Objekte, die zur Menge A gehören, bezeichnet man als Elemente
von A. Liegt ein Element x in der Menge A, so schreibt man x ∈ A (ausgesprochen
als x ist (Element) in A“). Liegt ein Element x nicht in A, so schreibt man x ∈
/ A
”
(ausgesprochen als x ist nicht (Element) in A“).
”
Das Symbol ∈“ wird als das Element-Symbol bezeichnet.
”
Beispiel 2.2. (Menge und Elemente) A sei die Menge aller Menschen mit deutscher
Staatsangehörigkeit. Wir bemerken, dass sich über die Behörden eindeutig feststellen lässt,
ob ein Mensch die deutsche Staatsangehörigkeit hat oder nicht. Jeder Mensch mit deutscher Staatsangehörigkeit ist ein Element in A. Jeder Mensch ohne deutsche Staatsan49
50
2.1. Mengenlehre
gehörigkeit ist kein Element von A.
Beispiel 2.3. (Menge und Elemente)
(a) Sei A die Menge aller geraden natürlichen Zahlen, also A = {2, 4, 6, 8, . . .}. Dann ist
z.B. 2 ∈ A und 5 ∈
/ A.
(b) Sie B die Menge B = {α, β, γ, δ, ε}. Dann ist z.B. γ ∈ B aber θ ∈
/ B.
(c) Die Menge C = {!, ?, @} enthält die drei Elemente !, ? und @.
(d) D = {2, 3, 4, 8, 3, 4} ist keine Menge, weil wir die Objekte 3 und 4 doppelt aufgelistet
haben.
Beachten Sie: Für jedes Objekt muss feststehen, ob es zu einer Menge gehört oder nicht.
Es gibt zwei generelle Möglichkeiten zur Festlegung einer Menge A.
(1) Man listet die Objekte auf, die zu A gehören, wobei jedes Objekt nur einmal in
der Liste vorkommt. Die Reihenfolge der Auflistung der Elemente spielt dabei keine
Rolle.
(2) Man gibt eine Eigenschaft an, welche die zu A gehörigen Objekte eindeutig beschreibt.
Bemerkung 2.4. (Darstellungsweisen von Mengen) Um Mengen zu definieren oder
sie in Formeln anzugeben, verwenden wir stets geschweifte Klammern (sogenannte Men”
genklammern“ {. . .}). Darüber hinaus gibt es verschiedene Möglichkeiten eine Menge darzustellen:
(i) Aufzählend: A = {−4, − 21 , 0, 1, 2, 1000}
(ii) Verbal: Es sei B die Menge aller Erstsemesterstudenten der Universität Paderborn
”
im Wintersemester 2013.“
(iii) Charakterisierend: C = {x ∈ B | x beginnt ein Chemiestudium}. Dabei werden
die Elemente meist als spezielle Elemente einer weiteren Menge (hier der Menge B
der Erstsemesterstudenten der Universität Paderborn im WS 2013) genommen, für
die bestimmte Bedingungen gelten. Der vertikale Strich |“ bedeutet für die gilt“.
”
”
(iv) Venn-Diagramme: Ein Venn-Diagramm ist eine grafische Veranschaulichung von
mehreren Mengen durch kreisförmige Gebilde. Die Elemente, die zu einer Menge
gehören, werden dabei innerhalb des jeweiligen Kreises dargestellt, Elemente die
nicht dazugehören, außerhalb. Zur Veranschaulichung ist in Abbildung 2.1 ein VennDiagramm von zwei Mengen dargestellt.
Beispiel 2.5. (Mengen von Zahlen)
(a) Natürliche Zahlen: N = {1, 2, 3, . . .}.
(b) Nicht-negative ganze Zahlen: N0 = {0, 1, 2, . . .}.
(c) Ganze Zahlen: Z = {0, ±1, ±2, ±3, . . .}. Dabei sind ±1 und ±2, etc. jeweils eine Kurzschreibweise für +1 und −1 bzw. +2 und −2, etc..
2. Mengenlehre, mathematische Aussagen und Beweistechniken
A
51
B
Abb. 2.1: Beispiel eines Venn-Diagramms zweier Mengen A und B. Die schraffierte Menge
(der Schnitt der ovalen Gebilde) enthält alle Elemente, die sowohl in A als auch in B liegen
und ist die sogenannte Schnittmenge A ∩ B (vgl. Definition 2.11).
(d) Rationale Zahlen:
o nm o
nm Q=
m ganze Zahl, n natürliche Zahl =
m ∈ Z, n ∈ N .
n
n
Definition 2.6. (leere Menge) Enthält eine Menge keine Elemente, dann bezeichnen
wir sie als leere Menge. Wir schreiben ∅ bzw. { } für die leere Menge.
Wir führen nun Relationen für Mengen, nämlich Gleichheit, sowie die Teilmenge und die
Obermenge ein.
Definition 2.7. (Relationen für Mengen)
(i) Liegt jedes Element der Menge A auch in der Menge B, dann ist A eine Teilmenge
von B, und B ist eine Obermenge von A; in Formeln: A ⊂ B bzw. B ⊃ A. Jede
Menge ist eine Teilmenge und eine Obermenge von sich selbst. Die leere Menge ist
eine Teilmenge jeder Menge!
(ii) Zwei Mengen A und B heißen gleich, in Formeln A = B, wenn A eine Teilmenge
von B ist und wenn B eine Teilmenge von A ist, also wenn gilt A ⊂ B und B ⊂ A.
Sind zwei Mengen A und B nicht gleich, so schreiben wir in Formeln auch A 6= B.
(iii) Ist A eine Teilmenge von B und ist A nicht gleich B, also wenn gilt A ⊂ B und
A 6= B, dann sagen wir, A ist eine echte Teilmenge von B, und B ist eine echte
Obermenge von A. In Formeln schreiben wir dies als A $ B bzw. B % A.
Beispiel 2.8. (Teilmengenbeziehungen für klassische Mengen von Zahlen) Für
die klassischen Mengen von Zahlen N, N0 , Z, Q und R gelten die folgenden Teilmengenbeziehungen:
N ⊂ N0 ⊂ Z ⊂ Q ⊂ R.
Da es sich sogar um echte Teilmengen handelt, können wir auch schreiben:
N $ N0 $ Z $ Q $ R.
Beispiel 2.9. (Relationen von Mengen) Seien A = {1, 2, 3}, B = {−1, 0, 1, 2, 3, 4}
und C = {3, 2, 1}. Dann ist A eine Teilmenge von B, d.h. A ⊂ B. A ist aber auch eine
52
2.1. Mengenlehre
A
B
Abb. 2.2: Veranschaulichung der Teilmenge und Obermenge mit einem Venn-Diagramm:
Hier ist A eine echte Teilmenge von B, also A $ B, und B ist eine echte Obermange von
A, also B % A.
echte Teilmenge von B, d.h. A $ B, denn 0 ∈ B ist nicht in A enthalten. Die Menge B
ist damit eine echte Obermenge von A. Die Menge A ist eine Teilmenge der Menge C,
also A ⊂ C, und die Menge C ist eine Teilmenge der Menge A, also C ⊂ A. Daher sind
die Mengen A und C gleich, d.h. es gilt A = C.
Beispiel 2.10. (gleiche Mengen) Seien
1 1 1
A = 1, , , , . . .
2 3 4
und
B=
1 n∈N .
n
Dann sind alle Elemente von A auch in B enthalten, d.h. es gilt A ⊂ B. Alle Elemente
von B sind auch in A enthalten, d.h. es gilt B ⊂ A. Daher sind die Mengen A und B
gleich, d.h. A = B
Nun lernen wir Operationen für Mengen kennen. So können wir z.B. Mengen vereinigen
oder schneiden, oder aus einer Menge A alle Elemente entfernen, die bereits in einer
anderen Menge B enthalten sind.
Definition 2.11. (Vereinigung, Schnittmenge/Durchschnitt und Differenzmenge zweier Mengen)
(i) Die Vereinigung A ∪ B zweier Mengen A und B enthält alle Elemente, die in A
oder in B oder in beiden Mengen liegen:
A ∪ B = {x | x ∈ A oder x ∈ B}.
(2.1)
Wir sagen für A ∪ B auch A vereinigt mit B“.
”
(ii) Die Schnittmenge (oder der Durchschnitt) A∩B zweier Mengen A und B enthält
alle Elemente, die sowohl in A als auch in B liegen:
A ∩ B = {x | x ∈ A und x ∈ B}.
Wir sagen für A ∩ B auch A geschnitten mit B“. Ist die Schnittmenge die leere
”
Menge, also wenn A ∩ B = ∅ gilt, so nennen wir die Mengen A und B disjunkt.
2. Mengenlehre, mathematische Aussagen und Beweistechniken
53
(iii) Die Differenzmenge A \ B der Menge A ohne die Menge B enthält alle Elemente,
die in A aber nicht in B liegen:
A \ B = {x | x ∈ A und x ∈
/ B}.
Wir sagen für A \ B auch A ohne B“.
”
Beachten Sie, dass in (2.1) das oder“ kein entweder . . . oder“ ist: Elemente in A ∪ B
”
”
dürfen sehr wohl in beiden Mengen A und B liegen.
A
B
Abb. 2.3: Venn-Diagramm der Vereinigung A ∪ B zweier Mengen A und B.
A
B
Abb. 2.4: Venn-Diagramm der Schnittmenge/des Durchschnitts A ∩ B zweier Mengen A
und B.
A
B
Abb. 2.5: Venn-Diagramm der Differenzmenge A \ B.
Betrachten wir ein paar Beispiele.
Beispiel 2.12. (Vereinigung, Schnittmenge/Durchschnitt, Differenzmenge) Sei
A die Menge aller Menschen mit deutscher Staatsbürgerschaft, und sei B die Menge
aller Menschen mit australischer Staatsbürgerschaft. Dann ist die Vereinigung A ∪ B die
Menge aller Menschen, die die deutsche oder die australische Staatsbürgerschaft (oder
auch beide Staatsbürgerschaften) haben. Die Schnittmenge/der Durchschnitt A ∩ B ist
die Menge der Menschen, die die deutsche und die australische Staatsbürgerschaft haben.
Die Differenzmenge A \ B ist die Menge aller Menschen, die die deutsche aber nicht die
australische Staatsbürgerschaft haben. – Was ist die Differenzmenge B \ A?
54
2.1. Mengenlehre
Beispiel 2.13. (Vereinigung, Schnittmenge, Differenzmenge) Seien
A = {−3, −2, −1, 0, 1, 2, 3}
und
B = N.
Dann finden wir die Vereinigung
A ∪ B = {−3, −2, −1, 0, 1, 2, 3} ∪ N = {−3, −2, −1, 0, 1, 2, 3, 4, . . .} = {n ∈ Z | n ≥ −3}
und den Durchschnitt
A ∩ B = {−3, −2, −1, 0, 1, 2, 3} ∩ N = {1, 2, 3}.
Weiter finden wir die Differenzmengen
A \ B = {−3, −2, −1, 0, 1, 2, 3} \ N = {−3, −2, −1, 0},
B \ A = N \ {−3, −2, −1, 0, 1, 2, 3} = {4, 5, 6, . . .} = {n ∈ N | n ≥ 4}.
Nun lernen wir das kartesische Produkt zweier Mengen kennen.
Definition 2.14. (kartesisches Produkt zweier Mengen) Seien A, B zwei Mengen,
und seien a ∈ A, b ∈ B. Die Zusammenfassung (a, b) heißt geordnetes Paar. Anders
als bei einer Menge, bei der es nicht auf die Reihenfolge der Auflistung der Elemente
ankommt, ist bei einem geordneten Paar die Reihenfolge entscheidend und es
gilt:
(a, b) = (c, d)
ist genau dann erfüllt, wenn a = c und b = d gilt.
Insbesondere ist (a, b) 6= (b, a) für a 6= b.
Die Menge aller geordneten Paare von A und B,
A × B = (a, b) a ∈ A und b ∈ B ,
heißt das kartesische Produkt der Mengen A und B.
Beispiel 2.15. ((x, y)-Ebene als kartesisches Produkt) Die (x, y)-Koordinatenebene
ist
R2 = R × R, also das kartesische Produkt von R mit R.
Beispiel 2.16. (kartesisches Produkt) Seien A = {1, 2, 3} und B = {7, 8}. Dann ist
das kartesische Produkt A × B von A und B gegeben durch
A × B = (1, 7), (1, 8), (2, 7), (2, 8), (3, 7), (3, 8) .
Das kartesische Produkt B × A von B und A ist gegeben durch
B × A = (7, 1), (7, 2), (7, 3), (8, 1), (8, 2), (8, 3) .
2. Mengenlehre, mathematische Aussagen und Beweistechniken
B
55
A×B
A
Abb. 2.6: Veranschaulichung des kartesischen Produkts zweier Mengen A und B: Dabei
muss man A als ein (horizontales) Intervall auf der x-Achse und B als ein (vertikales)
Intervall auf der y-Achse interpretieren. Die Menge A × B aller geordneten Paare (a, b)
entspricht dann allen Punkten (a, b) mit a ∈ A und b ∈ B in der (x, y)-Ebene. Dies sind
aber gerade alle Punkte in dem schraffierten Rechteck.
Bemerkung 2.17. (A × B 6= B × A) Wie man an dem vorigen Beispiel direkt sieht, gilt
im Allgemeinem
A × B 6= B × A.
Zuletzt führen wir den Begriff der Mächtigkeit oder Kardinalität einer Menge ein.
Definition 2.18. (Mächtigkeit/Kardinalität einer Menge)
(i) Sei A eine Menge mit endlich vielen Elementen. Dann ist die Mächtigkeit oder
Kardinalität |A| dieser Menge die Anzahl der Elemente in der Menge A.
(ii) Sei B eine Menge mit unendlich vielen Elementen. Dann nennen wir B abzählbar, wenn wir die Elemente der Menge B durchnummerieren (also abzählen) können.
Ist die Menge B nicht abzählbar, so nennen wir sie überabzählbar.
Betrachten wir ein paar Beispiele.
Beispiel 2.19. (Mächtigkeit/Kardinalität einer Menge)
(a) Die Menge A = {3, 4, 5, 6, 7} hat 5 Elemente; also ist ihre Mächtigkeit/Kardinalität
|A| = 5.
(b) Die Menge B = {α, β, γ} hat die Mächtigkeit/Kardinalität |B| = 3.
(c) Die Menge der natürlichen Zahlen N ist abzählbar, indem wir jede natürliche Zahl
gerade mit sich selbst nummerieren.
(d) Die Menge der ganzen Zahlen Z ist abzählbar, indem wir die ganzen Zahlen z.B. in
der aufgelisteten Reihenfolge durchnummerieren:
0, −1, 1, −2, 2, −3, 3, . . . , −n, n, −(n + 1), n + 1, . . . .
56
2.2. Mathematische Aussagen und Aussagenlogik
(e) Die Menge der rationalen Zahlen Q ist ebenfalls abzählbar. Dies ist nicht so leicht
nachzuweisen; man muss sich für den Nachweis eine geeignete Durchnummerierung
der rationalen Zahlen überlegen.
(f) Die Menge der reellen Zahlen R ist überabzählbar. Dies ist nicht so leicht nachzuweisen.
2.2
Mathematische Aussagen und Aussagenlogik
In diesem Teilkapitel diskutieren wir, was eine (mathematische) Aussage ist und lernen,
wie man Aussagen verneint und sie mit und“ bzw. oder“ verknüpfen kann.
”
”
Wir definieren zunächst, was eine (mathematische) Aussage ist.
Definition 2.20. (Aussage) Unter einer Aussage A verstehen wir einen Satz, der
entweder wahr oder falsch ist. Jeder Aussage kann man also einen der beiden Wahrheitswerte wahr (abgekürzt: w) oder falsch (abgekürzt: f ) zuordnen.
Betrachten wir ein paar Beispiele für Aussagen.
Beispiel 2.21. (Aussagen)
(a) Die Aussage Deutschland liegt in Europa.“ ist wahr.
”
(b) Die Aussage 1 · a = a für alle a ∈ R“ ist wahr.
”
(c) Die Aussage Alle Kühe sind weiß.“ ist falsch, da es auch braune, schwarze und ge”
scheckte Kühe gibt.
(d) Die Aussage 0 · 7 = 1“ ist falsch.
”
Wir können für jede Aussage auch ihre Verneinung, mathematisch Negation“ genannt,
”
bilden, die ebenfalls eine Aussage ist.
Definition 2.22. (Negation/Verneinung) Die Negation (oder Verneinung) der
Aussage A wird mit ¬A ( nicht a“) bezeichnet. Der Wahrheitswert der Negation ¬A
”
hängt vom Wahrheitswert der Aussage A ab: Ist A wahr, so ist die Negation ¬A falsch,
und ist A falsch, so ist die Negation ¬A wahr.
Betrachten wir die Negation unserer Aussagen aus Beispiel 2.21.
Beispiel 2.23. (Negation/Verneinung von Aussagen)
(a) Die Negation der wahren Aussage Deutschland liegt in Europa.“ ist die falsche Aus”
sage Deutschland liegt nicht in Europa.“.
”
(b) Die Negation der wahren Aussage 1 · a = a für alle a ∈ R“ ist die falsche Aussage Es
”
”
gibt ein a ∈ R mit 1 · a 6= a.“.
2. Mengenlehre, mathematische Aussagen und Beweistechniken
57
(c) Die Negation der falschen Aussage Alle Kühe sind weiß.“ ist die wahre Aussage Nicht
”
”
alle Kühe sind weiß.“ oder (gleichwertig dazu) Es gibt Kühe, die nicht weiß sind.“
”
(d) Die Negation der falschen Aussage 0 · 7 = 1“ ist die wahre Aussage 0 · 7 6= 1“.
”
”
Beachten Sie, dass die Negation nicht 0 · 7 = 0“ ist.
”
Wir können zwei Aussagen A und B mit und“ bzw. mit oder“ verbinden. Der Wahr”
”
heitswert der so erhaltenen Aussage A und B“ bzw. A oder B“ hängt natürlich von den
”
”
Wahrheitswerten der beiden Aussagen A und B ab.
Definition 2.24. (Konjunktion und Disjunktion)
(i) Die Konjunktion verknüpft zwei Aussagen A, B durch und: A und B“, bzw. in
”
Formeln A∧B“. Beide Aussagen A und B müssen wahr sein, damit die Konjunktion
”
A ∧ B wahr ist.
(ii) Die Disjunktion verknüpft zwei Aussagen A, B durch das nicht ausschließende
oder: A oder B“, bzw. in Formeln A ∨ B“. Es muss mindestens eine der beiden
”
”
Aussagen A oder B wahr sein, damit die Disjunktion A ∨ B wahr ist. (Es dürfen
aber auch beide wahr sein – im Gegensatz zum alltäglichen Gebrauch von oder“ als
”
entweder . . . oder“.)
”
Betrachten wir zunächst ein Beispiel.
Beispiel 2.25. (Konjunktion und Disjunktion) Eine Geldbörse enthalte 20 Euro.
Dann ist die Aussage A Die Geldbörse enthält mehr als 10 Euro.“ wahr. Die Aussage B
”
Die Geldbörse enthält mehr als 30 Euro.“ ist falsch.
”
Die Aussage A ∧ B ist Die Geldbörse enthält mehr als 10 Euro und mehr als 30 Euro.“.
”
Diese Aussage ist offensichtlich falsch. Wir wissen aber auch, dass A ∧ B falsch ist, ohne
die Aussage A ∧ B zu formulieren, weil eine der beiden Aussagen A bzw. B falsch ist.
(Beachten Sie, dass Die Geldbörse enthält mehr als 10 Euro und mehr als 30 Euro.“
”
natürlich gleichwertig zu der Aussage Die Geldbörse enthält mehr als 30 Euro.“ ist.)
”
Die Aussage A ∨ B ist Die Geldbörse enthält mehr als 10 Euro oder mehr als 30 Euro.“.
”
Diese Aussage ist offensichtlich wahr. Wir wissen aber auch, dass A ∨ B wahr ist, ohne
die Aussage A ∨ B zu formulieren, weil (mindestens) eine der beiden Aussagen A bzw. B
wahr ist.
Die Aussage A ∧ ¬B ist wahr, denn A ist wahr und ¬B ist wahr (da B falsch ist). In
dem Beispiel ist ¬B die Aussage Die Geldbörse enthält nicht mehr als 30 Euro.“ (oder
”
gleichwertig Die Geldbörse enthält höchstens 30 Euro.“). Die Aussage A ∧ (¬B) ist dann
”
Die Geldbörse enthält mehr als 10 Euro und nicht mehr als 30 Euro.“.
”
Als Nächstes betrachten wir die Negation/Verneinung der Konjunktion bzw. Disjunktion
zweier Aussagen.
58
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Lemma 2.26. (Negation zweier durch Disjunktion bzw. Konjunktion verknüpfter Aussagen) Seien A, B zwei Aussagen.
(i) Für die Verneinung von durch Disjunktion verknüpften Aussagen gilt:
Die Aussage ¬(A ∨ B)“ ( nicht (A oder B)“) bedeutet dasselbe wie die Aussage
”
”
(¬A) ∧ (¬B)“ ( nicht A und nicht B“).
”
”
(ii) Für die Verneinung von durch Konjunktion verknüpften Aussagen gilt: Die
Aussage ¬(A∧B) ( nicht (A und B)“) bedeutet dasselbe wie die Aussage (¬A)∨(¬B)
”
( nicht A oder nicht B.“).
”
Betrachten wir wieder die Aussagen aus unserem Beispiel 2.25.
Beispiel 2.27. (Kunjunktion und Disjunktion) Eine Geldbörse enthalte 20 Euro.
Dann ist die Aussage A Die Geldbörse enthält mehr als 10 Euro.“ wahr. Die Aussage B
”
Die Geldbörse enthält mehr als 30 Euro.“ ist falsch. Die Verneinungen der beiden Aussa”
gen sind: ¬A Die Geldbörse enthält nicht mehr als 10 Euro.“ oder gleichbedeutend Die
”
”
Geldbörse enthält höchstens 10 Euro.“ und ¬B Die Geldbörse enthält nicht mehr als 30
”
Euro.“ oder gleichbedeutend Die Geldbörse enthält höchstens 30 Euro.“.
”
Da die Aussage A ∧ B Die Geldbörse enthält mehr als 10 Euro und mehr als 30 Eu”
ro.“ falsch ist, folgt, dass die Aussage ¬(A ∧ B) = (¬A) ∨ (¬B) wahr ist. Die Aussage
(¬A) ∨ (¬B) ist Die Geldbörse enthält höchstens 10 Euro oder höchstens 30 Euro.“.
”
Diese Aussage ist in der Tat wahr.
Da die Aussage A ∨ B Die Geldbörse enthält mehr als 10 Euro oder mehr als 30 Eu”
ro.“ wahr ist, folgt, dass die Aussage ¬(A ∨ B) = (¬A) ∧ (¬B) falsch ist. Die Aussage
(¬A) ∧(¬B) ist Die Geldbörse enthält höchstens 10 Euro und höchstens 30 Euro.“. Diese
”
Aussage ist in der Tat falsch, denn die Geldbörse enthält mehr als 10 Euro.
Bemerkung 2.28. (Negation von und“ bzw. oder“) Wir können uns als Faustre”
”
”
gel“ merken, dass bei der Negation einer Verknüpfung von Aussagen aus einem
und“ ein oder“ wird und dass aus einem oder“ ein und“ wird. Vergleiche
”
”
”
”
hierzu auch Lemma 2.26.
2.3
Implikationen, Äquivalenzen und elementare Beweismethoden
In diesem Teilkapitel untersuchen wir die Struktur mathematischer Aussagen und lernen
an Beispielen die grundlegenden Beweistechniken zum Nachweis solcher mathematischer
Aussagen kennen.
Betrachten wir zunächst ein einfaches Beispiel einer mathematischen Aussage.
Beispiel 2.29. ( wenn dann“-Aussage/Implikation) Betrachten wir die folgende
”
Aussage:
2. Mengenlehre, mathematische Aussagen und Beweistechniken
59
Wenn n ∈ N eine gerade Zahl ist, dann ist n2 ∈ N eine gerade Zahl.“
”
Diese Aussage können wir auch wie folgt formulieren:
Aus der Aussage, n ∈ N ist eine gerade Zahl, folgt, dass n2 ∈ N eine gerade Zahl ist.“
”
oder kürzer:
n ∈ N ist eine gerade Zahl. =⇒ n2 ∈ N ist eine gerade Zahl.“
”
Dabei ist der Implikations-Pfeil =⇒“ als daraus folgt“ zu lesen.
”
”
Wir bemerken zuerst, dass diese Aussage richtig ist, indem wir einen direkten Beweis
geben:
Wir definieren für n ∈ N, dass n gerade ist, wenn n durch 2 teilbar ist, also wenn gilt
n/2 = m ∈ N oder gleichwertig n = 2 m mit m ∈ N.
Beweisen wir nun die Aussage:
Per Voraussetzung ist n ∈ N gerade, also durch 2 teilbar, also n = 2 m für ein m ∈ N.
Daraus folgt aber auch, dass n2 durch 2 teilbar ist, denn n2 = (2 m)2 = 2 · (2 m2 ) und
2 m2 ∈ N. Also ist n2 ∈ N gerade.
Betrachten wir nun den Typ Aussage im vorigen Beispiel genauer: Wir haben eine Aussage
der Form:
Wenn die Aussage A gilt, dann gilt die Aussage B.“
”
(2.2)
Aus der Aussage A folgt die Aussage B.“
”
(2.3)
bzw.
oder kürzer:
Aussage A gilt. =⇒ Aussage B gilt.“
(2.4)
”
Im obigen Beispiel sind Aussage A n ∈ N ist eine gerade Zahl.“ und Aussage B n2 ∈ N
”
”
ist eine gerade Zahl.“. Eine Aussage der Form (2.2), (2.3) bzw. (2.4) nennt man eine Implikation. Wir sprechen auch von einer wenn dann“-Aussage. Dabei ist die Aussage
”
A die Voraussetzung und die Aussage B die Behauptung, welche zu zeigen ist, wenn
wir (2.2), (2.3) bzw. (2.4) beweisen wollen. Den Implikations-Pfeil =⇒“ kann man als
”
daraus folgt“ lesen.
”
Im Beispiel 2.29 haben wir die gegebene wenn dann“-Aussage/Implikation bereits bewie”
sen, indem wir eine Reihe von Schlussfolgerungen aus der Voraussetzung gezogen haben,
bis wir die Behauptung nachgewiesen hatten. Dies ist ein direkter Beweis: Man startet
mit der Voraussetzung und leitet daraus mit einer Reihe von Schlussfolgerungen die Behauptung her. Genauer können wir jede Schlussfolgerung auch als eine
Implikation aus der Voraussetzung bzw. aus vorherigen Schlussfolgerungen auffassen.
Betrachten wir noch ein weiteres Beispiel, um uns wenn dann“-Aussagen/Implikationen
”
und einen direkten Beweis klar zu machen.
60
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Beispiel 2.30. ( wenn dann“-Aussage/Implikation) Betrachten wir die folgende
”
Aussage:
Das Produkt einer geraden und einer ungeraden Zahl ist eine gerade Zahl.“
”
Zunächst müssen wir diese Aussage sauber als wenn dann“-Aussage/Implikationen for”
mulieren. Wir haben folgende Voraussetzung (Aussage A): n ∈ N ist eine gerade Zahl
”
und m ∈ N ist eine ungerade Zahl.“ Die Behauptung (Aussage B) ist dann: Das
”
Produkt n · m ∈ N ist eine gerade Zahl.“ Also haben wir die folgende wenn dann“”
Aussage/Implikation:
Wenn n ∈ N eine gerade Zahl und m ∈ N eine ungerade Zahl ist, dann ist das Produkt
”
n · m ∈ N eine gerade Zahl.“
bzw.
Aus der Aussage, n ∈ N ist eine gerade Zahl und m ∈ N ist eine ungerade Zahl, folgt,
”
dass das Produkt n · m ∈ N eine gerade Zahl ist.“
oder kürzer:
n ∈ N ist eine gerade Zahl, und m ∈ N ist eine ungerade Zahl.
”
n · m ∈ N ist eine gerade Zahl.“
=⇒
Das Produkt
Wir wollen diese Aussage nun mit einem direkten Beweis beweisen:
Da n gerade ist, gilt n ist durch zwei teilbar, also n/2 = p bzw. gleichwertig n = 2 p mit
p ∈ N. Also gilt n · m = (2 p) m = 2 (p · m). Division durch 2 liefert (n · m)/2 = p · m ∈ N,
d.h. n · m ist durch 2 teilbar. Also ist n · m gerade.
Wir können den direkten Beweis auch mit Implikations-Pfeilen hinschreiben:
Voraussetzung: n ∈ N ist gerade
=⇒
n ist durch 2 teilbar.
=⇒
n/2 = p mit p ∈ N
=⇒
=⇒
=⇒
=⇒
=⇒
n = 2 p mit p ∈ N
n · m = (2 p) m = 2 (p · m)
(n · m)/2 = p · m ∈ N
n · m ist durch 2 teilbar.
n · m ist gerade.
Wir bemerken, dass wir in dem Beweis gar nicht die andere Voraussetzung, dass m ungerade ist, verwendet haben. Dies liegt daran, dass sie nicht erforderlich ist. Auch wenn
m ∈ N gerade ist, ist das Produkt n · m für gerades n ∈ N eine gerade Zahl!
Wie wir bereits gesehen haben, ist es bei der Implikation (2.2), (2.3) bzw. (2.4) wichtig
zu beachten, dass die Aussage A die Voraussetzung und die Aussage B die Behauptung
2. Mengenlehre, mathematische Aussagen und Beweistechniken
61
ist. Man kann aber natürlich auch die Frage stellen, ob ebenfalls die Implikation
Wenn die Aussage B gilt, dann gilt die Aussage A.“
”
(2.5)
Aus der Aussage B folgt die Aussage A.“
”
(2.6)
Aussage B gilt. =⇒ Aussage A gilt.“
”
gilt? Dies ist im Allgemeinen nicht der Fall!
(2.7)
bzw.
oder kürzer:
Gelten allerdings (2.2) und (2.5) ((2.3) und (2.6) bzw. (2.4) und (2.7)), so sagen
wir Die Aussage A ist äquivalent zur Aussage B.“ und sagen explizit:
”
Die Aussage A gilt genau dann, wenn die Aussage B gilt.“
(2.8)
”
oder kürzer:
Aussage A gilt. ⇐⇒ Aussage B gilt.“
(2.9)
”
Wollen wir eine Äquivalenz, also dass zwei Aussagen A und B äquivalent sind, beweisen,
so müssen wir (2.2) und (2.5) ((2.3) und (2.6) bzw. (2.4) und (2.7)) beweisen.
Betrachten wir zwei Beispiele, um uns die Äquivalenz von Aussagen klar zu machen.
Beispiel 2.31. (Äquivalenz von Aussagen) Wir wollen zeigen, dass gilt:
n2 = 4
⇐⇒
n = 2 oder n = −2 ,
oder in Worten:
Die Zahl n2 hat genau dann den Wert 4, wenn gilt n = 2 oder n = −2.“
”
Um diese Aussage mit einem direkten Beweis nachzuweisen, müssen wir also beide Richtungen zeigen:
n2 = 4
=⇒
n = 2 oder n = −2 ,
(2.10)
n = 2 oder n = −2
=⇒
n2 = 4.
(2.11)
√
Beweis von (2.10): Sei also n2 = 4. Dann ist n = 2 = 4 eine Lösung der Gleichung n2 =
4. Weiter gilt aber auch (−2)2 = 4. Damit sind n1 = 2 und n2 = −2 beides Lösungen von
n2 = 4. Eine quadratische Gleichung hat aber aber maximal zwei verschiedene Lösungen.
Also haben wir mit n1 = 2 und n2 = −2 alle Lösungen von n2 = 4 gefunden.
Beweis von (2.11): Für n = 2 finden wir n2 = 22 = 4, und für n = −2 finden wir
n2 = (−2)2 = 4. Also gilt in beiden Fällen n2 = 4.
Bevor wir ein weiteres Bespiel betrachten, machen wir uns klar, dass nicht alle Aussagen Äquivalenzen sind: Wir haben in Abwandlung des vorigen Beispiels sehr wohl
n=2
=⇒
n2 = 4,
aber aus n2 = 4 folgt nicht n = 2 (sondern n = 2 oder n = −2“).
”
62
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Beispiel 2.32. (Äquivalenz von Aussagen) Wir wollen die folgende Aussage beweisen:
n ist genau dann eine natürliche Zahl, wenn 2 n eine gerade natürliche Zahl ist.“
”
oder kürzer:
n ist eine natürliche Zahl. ⇐⇒ 2 n ist eine gerade natürliche Zahl.“
”
Wir geben also einen direkten Beweis der beiden folgenden Aussagen:
(2.12)
n ist eine natürliche Zahl.
=⇒
2 n ist eine gerade natürliche Zahl.
(2.13)
2 n ist eine gerade natürliche Zahl.
=⇒
n ist eine natürliche Zahl.
(2.14)
Beweis von (2.13):
n ∈ N ⇒ 2 n ∈ N und
2n
= n ∈ N ⇒ 2 n ist durch 2 teilbar ⇒ 2 n ∈ N ist gerade
2
Beweis von (2.14):
2 n ∈ N ist gerade ⇒ 2 n ist durch 2 teilbar ⇒
2n
=n∈N ⇒ n∈N
2
Damit haben wir die Äquivalenz (2.12) bewiesen.
Die wenn dann“-Aussage/Implikation (2.2), (2.3) bzw. (2.4) ist äquivalent zu
”
der Aussage
Wenn die Aussage ¬B gilt, dann gilt die Aussage ¬A.“
”
(2.15)
Aus der Aussage ¬B folgt die Aussage ¬A.“
”
(2.16)
bzw.
oder kürzer:
Aussage ¬B gilt.
=⇒ Aussage ¬A gilt.“
(2.17)
”
Man nennt (2.15), (2.16) bzw. (2.17) die Kontraposition der Aussage (2.2), (2.3) bzw. (2.4).
Um (2.2), (2.2) bzw. (2.4) zu beweisen, können wir also einfach (2.15), (2.16) bzw. (2.17)
beweisen. Manchmal ist dies einfacher.
Betrachten wir ein Beispiel.
Beispiel 2.33. (Beweis einer Aussage mittels Beweis der Kontraposition) Wir
wollen die folgende Aussage beweisen, indem wir ihre Kontraposition beweisen:
Wenn n eine natürliche Zahl ist, dann ist 2 n eine gerade natürliche Zahl.“
”
bzw.
Aus n ∈ N folgt 2 n ∈ N ist gerade.“
”
oder kürzer:
n ist eine natürliche Zahl.
”
=⇒
2 n ist eine gerade natürliche Zahl.“
2. Mengenlehre, mathematische Aussagen und Beweistechniken
63
Zunächst formulieren wir die Kontraposition:
Wenn 2 n keine gerade natürliche Zahl ist, dann ist n keine natürliche Zahl.“
”
bzw.
Aus 2 n ∈ N ist nicht gerade, folgt n ∈
/ N.“
”
oder kürzer:
2 n ist keine gerade natürliche Zahl. =⇒ n ist keine natürliche Zahl.“
”
Beweis mit Kontraposition: Sie 2 n keine gerade natürliche Zahl. Dann ist 2 n nicht durch
2 teilbar; also ist (2 n)/2 = n keine natürliche Zahl.
oder kürzer mit den Implikations-Pfeilen
2 n ist keine gerade natürliche Zahl.
=⇒
=⇒
2n
=n∈
/N
2
n ist keine natürliche Zahl.
Wir lernen noch eine weitere Beweistechnik kennen, um wenn dann“-Aussagen/Implikationen
”
zu beweisen: Die wenn dann“-Aussage/Implikation
”
Wenn die Aussage A gilt, dann gilt die Aussage B.“
”
bzw.
Aus der Aussage A folgt die Aussage B.“
”
oder kürzer
Aussage A gilt. =⇒ Aussage B gilt.“
”
können wir auch wie folgt mit einem sogenannten Widerspruchsbeweis beweisen: Wir
nehmen an, dass die Voraussetzung, also Aussage A, gilt. Dann nehmen wir an, dass
die Aussage B nicht gilt, d.h. wir nehmen an, dass die Negation der Aussage B, also
¬B, gilt. Wenn wir hieraus einen Widerspruch herleiten können, dann wissen wir dass
unsere Annahme, dass ¬B gilt, falsch war. Also muss die Aussage B gelten.
Betrachten wir zunächst ein einfaches Beispiel, um uns klar zu machen, wie ein Widerspruchsbeweis funktioniert.
Beispiel 2.34. (Widerspruchsbeweis) Wir wollen die folgende Aussage mit einem
Widerspruchsbeweis beweisen:
Wenn n ∈ N gerade ist, dann ist n2 ∈ N gerade.“
”
Als Voraussetzung (Aussage A) haben wir dann n ∈ N ist gerade.“, und als Behauptung
”
(Aussage B) haben wir n2 ∈ N ist gerade.“. Für den Widerspruchsbeweis nehmen wir
”
an, dass die Voraussetzung wahr ist, aber dass die Behauptung falsch ist, d.h. dass ihre
Negation wahr ist.
64
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Widerspruchsbeweis: Sei also n ∈ N gerade, und es gelte n2 ∈ N ist nicht gerade. Dann ist
n2 nicht durch 2 teilbar. Daraus folgt, dass n nicht durch 2 teilbar ist (denn ansonsten wäre
n2 auch durch 2 teilbar). Also ist n nicht gerade, und wir haben einen Widerspruch.
Da wir einen Widerspruch gefunden haben, folgt, dass die Annahme n2 ∈ N ist nicht
”
gerade.“ falsch war. Also muss n2 ∈ N gerade sein.
√
Betrachten wir noch ein aufwendigeres Beispiel. Aus√der Schule wissen Sie, das 2 keine
rationale Zahl sondern eine irrationale Zahl ist (d.h. 2 ist eine reelle Zahl, die man nicht
als einen Bruch schreiben kann). Dies wollen wir nun beweisen.
Beispiel 2.35. (Widerspruchsbeweis) Wir wollen die folgende Aussage beweisen:
√
Die Zahl 2 ist nicht in Q.“
”
Wir formulieren dies besser (aber äquivalent) als:
Sei x die nicht-negative Zahl in R mit x2 = 2. Dann ist x nicht in Q.“
(2.18)
”
√
Hierbei haben wir benutzt, das die Quadratwurzel 2 gerade als die nicht-negative Zahl
x in R mit x2 = 2 definiert ist.
Hier ist also die Voraussetzung (Aussage A) Sie x die nicht-negative Zahl in R mit
”
x2 = 2.“, und die Behauptung (Aussage B) ist x ist nicht in Q.“
”
Wir wollen einen Widerspruchsbeweis geben. Also nehmen wir an, dass die Voraussetzung
gilt aber die Behauptung falsch ist, also dass die Negation der Behauptung (also die
Aussage ¬B) gilt:
Widerspruchsbeweis: Sei x die nicht-negative Zahl in R mit x2 = 2. Wir nehmen an, dass
x in Q liegt. Dann gibt es Zahlen p ∈ N und q ∈ N mit
x=
p
.
q
(2.19)
Wir dürfen annehmen, dass wir in dem Bruch x = p/q den Zähler p und Nenner q nicht
mehr kürzen können, also dass p und q keine gemeinsamen Teiler haben.
Durch Quadrieren auf beiden Seiten vom (2.19) erhalten wir
2
p
p2
=
x
=
|{z}
q
q2
=2
2
=⇒
2=
p2
q2
=⇒
2 q 2 = p2
=⇒
p2 = 2 q 2 .
Aus p2 = 2 q 2 folgt, dass p2 durch 2 teilbar ist, denn p2 /2 = (2 q 2 )/2 = q 2 ∈ N. Da 2 eine
Primzahl ist, folgt aus 2 teilt p2“ aber, dass 2 die Zahl p teilt. Also gilt p/2 = m mit
”
m ∈ N, d.h. p = 2 m mit m ∈ N.
Einsetzen von p = 2 m in p2 = 2 q 2 liefert nun
(2 m)2 = 2 q 2
=⇒
2 (2 m2 ) = 2 q 2
=⇒
2 m2 = q 2 .
=⇒
q 2 = 2 m2 .
2. Mengenlehre, mathematische Aussagen und Beweistechniken
65
Also ist (mit der gleichen Argumentation wie oben) q 2 ebenfalls durch 2 teilbar. Da 2 eine
Primzahl ist, folgt aus 2 teilt q 2“ aber, dass 2 die Zahl q teilt. Also gilt q/2 = n mit
”
n ∈ N, d.h. q = 2 n mit n ∈ N.
Wir haben also gefunden, dass sowohl p also auch q durch 2 teilbar sind, also p = 2 m
und q = 2 n. Damit finden wir
x=
p
2m
m
=
= ,
q
2n
n
und dies steht im Widerspruch zu unserer Annahme, dass der Zähler p und Nenner q
in x = p/q keine gemeinsamen Teiler hatten.
√
2 rational
Da wir einen Widerspruch hergeleitet haben,√war unsere Annahme, dass
x
=
√
ist falsch. Also haben wir gezeigt, dass x = 2 irrational ist, also x = 2 ∈
/ Q.
2.4
Vollständige Induktion
Als letzte Beweismethode lernen wir das Prinzip der vollständigen Induktion kennen.
Mit dem Prinzip der vollständigen Induktion kann man Aussagen beweisen, die für alle
natürlichen Zahlen n (oder alle natürlichen Zahlen n ≥ n0 ) gelten.
Betrachten wir zunächst ein paar Beispiele für Aussagen, die man mit vollständiger Induktion beweisen kann.
Beispiel 2.36. (Der kleine Gauß) Für alle natürlichen Zahlen n ∈ N gilt die Aussage
1 + 2 + 3+ ...+ n =
n
X
k=1
k=
n (n + 1)
.
2
Wir haben hier die Aussage A(n) 1 + 2 + 3 + . . . + n = n (n + 1)/2“, die wir für alle
”
n ∈ N beweisen müssen.
Beispiel 2.37. (Abschätzung) Für alle n ∈ N mit n ≥ 5 gilt 2n > n2 .
Hier haben wir also die Aussage A(n) 2n > n2“, die wir für jede natürliche Zahl n ≥ 5
”
beweisen müssen.
Solche Aussagen kann man mit dem Prinzip der vollständigen Induktion beweisen, welches
im nächsten Satz erklärt wird.
Satz 2.38. (Induktionsprinzip – Version I) Für eine Menge von Aussagen A(n),
n ∈ N, gilt: Ist
(i) A(1) wahr,
und gilt
(ii) für n ∈ N :
A(n) ist wahr =⇒ A(n + 1) ist wahr,
66
so gilt:
2.4. Vollständige Induktion
A(n) ist wahr für alle n ∈ N.
Will man zeigen, dass für eine Menge von Aussagen (i) und (ii) gelten, so muss man
in zwei Schritten vorgehen: Den Schritt in dem man (i) beweist nennt man den Induktionsanfang oder die Induktionsverankerung. Der Nachweis von (ii) heißt Induktionsschritt. Die Aussage “A(n) ist wahr” wird Induktionsvoraussetzung genannt,
und die zu zeigende Aussage “A(n + 1) ist wahr” heißt Induktionsbehauptung.
Dieses Vorgehen bezeichnet man als vollständige Induktion, und das Beweisprinzip ist
das Prinzip der vollständigen Induktion.
Wenden wir zunächst das Prinzip der vollständigen Induktion an, um die Aussage in
Beispiel 2.36 zu beweisen. Die Aussage in Beispiel 2.36 wurde übrigens von dem berühmten
Mathematiker Carl Friedrich Gauß (1777-1855) als 10-jährigen Schüler bewiesen.
Beispiel 2.39. (Der kleine Gauß – fortgesetzt) Für alle natürlichen Zahlen n ∈ N
gilt die Aussage
1+ 2 + 3 + ...+ n =
n
X
k=1
k=
n (n + 1)
.
2
(2.20)
Beweis: Wir beweisen die Behauptung durch vollständige Induktion.
Induktionsverankerung/Induktionsanfang (I.A.) n = 1: Dann gilt
1
X
k=1=
k=1
1 · (1 + 1)
.
2
Somit ist der Induktionsanfang gezeigt.
Induktionsvoraussetzung (I.V.): Die Aussage (2.20) gelte für beliebiges aber festes n ∈ N
mit n ≥ 1.
Induktionsschritt (I.S.) n → n + 1: Wir müssen also zeigen, dass die Gleichung (2.20)
auch für n + 1 gilt, wenn Sie für n richtig ist.
n+1
X
k=1
k = 1 + 2 + 3 + . . . + n + (n + 1)
{z
}
|
Pn
(I.V.) n(n+1)
= k=1 k =
2
n (n + 1)
+ (n + 1)
2
1
=
n (n + 1) + 2 (n + 1)
2
1
= (n + 1) (n + 2)
2
(n + 1) (n + 1) + 1
=
.
2
=
2. Mengenlehre, mathematische Aussagen und Beweistechniken
67
Wir haben also gezeigt, dass auch für n + 1 die Formel (2.20) wahr ist, wenn Sie für n
zutrifft. Dies beendet den Induktionsschritt.
Nach dem Prinzip der vollständigen Induktion folgt nun, dass die Aussage (2.20) für alle
n ∈ N wahr ist.
Warum funktioniert das Prinzip der vollständigen Induktion?
Wir wollen eine Aussage A(n) für alle n ∈ N beweisen.
• Wir beweisen als erstes, dass A(1) wahr ist (Induktionsanfang).
• Dann beweisen wir im Induktionsschritt für beliebiges n ∈ N, dass aus A(n) ist wahr.“
”
folgt A(n + 1) ist wahr.“.
”
• Mit dem Induktionsschritt können wir für n = 1 aus der Gültigkeit von A(1) (Induktionsanfang) die Gültigkeit von A(2) schlussfolgern. Anschließend können wir mit dem
Induktionsschritt aus der Gültigkeit von A(2) die Gültigkeit von A(3) schlussfolgern,
usw.. So erhalten wir die Gültigkeit der Aussage A(n) für alle n ∈ N.
Wir haben also eine Art Domino-Effekt“:
”
A(1) ⇒ A(2) ⇒ A(3) ⇒ A(4) ⇒ . . . ⇒ A(n) ⇒ A(n + 1) ⇒ . . .
In der nächsten Bemerkung werden Varianten des Induktionsprinzips erklärt.
Bemerkung 2.40. (Varianten des Induktionsprinzips)
(1) Wir nehmen nun für einen Augenblick an, wir wollten eine Aussage per Induktion
zeigen und hätten den Induktionsanfang bereits bewiesen. In Satz 2.38 haben wir den
Induktionsschritt wie folgt angegeben:
Gilt für beliebiges aber festes n ≥ 1 die Aussage A(n) ist wahr.“ (Induktionsvoraus”
setzung), und folgt daraus A(n + 1) ist wahr.“, dann gilt die Aussage A(n) für alle
”
n ∈ N.
Alternativ hätten wir auch den folgenden Induktionsschritt durchführen können, der
natürlich zum selben Ergebnis führt:
Gilt für beliebiges aber festes n > 1 die Aussage A(n − 1) ist wahr.“ (Induktionsvor”
aussetzung), und folgt daraus A(n) ist wahr.“, dann gilt die Aussage A(n) für alle
”
n ∈ N.
Wir dürfen also den Induktionsschritt auch für n − 1 → n formulieren, ohne dass
sich etwas an dem Beweisprinzip ändert.
(2) Hat man eine Menge von Aussagen A(n) für n ∈ N mit n ≥ n0 , wobei n0 ∈ N,
gegeben, so ist der Induktionsanfang A(1) ist wahr.“ durch A(n0 ) ist wahr.“ zu
”
”
ersetzen, und der Induktionsschritt ist für n ∈ N mit n ≥ n0 zu beweisen. Der
Beweis zeigt dann natürlich nur die Gültigkeit von A(n) für n ≥ n0 .
Die Aussage in Beispiel 2.37 gilt nur für n ≥ 5, wie im Fall (2) der vorigen Bemerkung.
Wir wollen diese nun mit vollständiger Induktion beweisen.
68
2.4. Vollständige Induktion
Beispiel 2.41. (Abschätzung – fortgesetzt) Für alle n ∈ N mit n ≥ 5 gilt 2n > n2 .
D.h. wir wollen die Aussage A(n)
2n > n2
für alle natürlichen Zahlen n ≥ 5 = n0 beweisen.
Induktionsanfang (I.A.) n = 5: Die Aussage gilt für n = 5, denn
25 = 32 > 25 = 52 .
Induktionsvoraussetzung (I.V.): Es gelte 2n > n2 für ein festes (aber beliebiges) n ≥ 5.
Induktionsschritt (I.S.) n → n + 1: Wir starten mit der linken Seite der Abschätzung und
nutzen unsere Induktionsvoraussetzung aus:
2n+1 = 2 · |{z}
2n > 2 · n2 .
> n2
(2.21)
2 · n2 = n2 + n2 = n2 + n · n
(2.22)
Nun schreiben wir die linke Seite als
und nutzen im letzten Term, dass n ≥ 5 und damit n > 3 und n > 1 gilt. Also
n > n2 + 2 n + 1 = (n + 1)2 ,
n2 + |{z}
n · n > n2 + 3 · n = n2 + 2 n + |{z}
>1
>3
(2.23)
wobei wir im letzten Schritt die erste binomische Formel verwendet haben. Durch Kombinieren von (2.21), (2.22) und (2.23) erhalten wir
2n+1 > (n + 1)2 ,
und wir haben die Aussage für n + 1 gezeigt.
Nach dem Prinzip der vollständigen Induktion gilt die Abschätzung 2n > n2 damit für
alle n ∈ N mit n ≥ 5.
Wir formulieren eine zweite Variante des Induktionsprinzips, die natürlich zu der ersten
Variante äquivalent ist.
Satz 2.42. (Induktionsprinzip – Version II) Für eine Menge von Aussagen A(n),
n ∈ N, gilt: Ist
(i) A(1) wahr,
und gilt
(ii) für n ∈ N :
so gilt:
A(k) ist wahr für alle 1 ≤ k ≤ n =⇒
A(n) ist wahr für alle n ∈ N.
A(n + 1) ist wahr,
2. Mengenlehre, mathematische Aussagen und Beweistechniken
69
Gelegentlich ist diese zweite Version der vollständigen Induktion nützlich, weil man im
Induktionsschritt die Gültigkeit der Aussage A(k) nicht nur für k = n sondern auch für
k = n − 1 (und gegebenenfalls weitere k ≤ n) nutzen möchte.
Das Prinzip der vollständigen Induktion gibt uns leider keine Hilfsmittel, um gültige Sätze
zu formulieren. Um das Induktionsprinzip zu nutzen, müssen Sie bereits wissen, was Sie
beweisen wollen!
Bemerkung 2.43. (Was bei vollständiger Induktion zu beachten ist!) Für das
Induktionsverfahren ist es unerlässlich, dass Sie sowohl den Induktionsanfang als
auch den Induktionsschritt beweisen. Allein sagt keiner dieser Beweisschritte etwas
über die Gültigkeit der Aussage für alle natürlichen Zahlen aus.
Betrachten wir noch ein Beispiel.
Beispiel 2.44. (Vollständige Induktion) Wir wollen die Formel
1 + 3 + 5 + . . . + (2n − 3) + (2n − 1) =
mit vollständiger Induktion beweisen.
n
X
k=1
(2k − 1) = n2
für alle n ∈ N
(2.24)
Induktionsverankerung/Induktionsanfang (I.A.) n = 1: Für n = 1 ist
1
X
k=1
d.h. (2.24) gilt für n = 1.
(2k − 1) = 2 · 1 − 1 = 1 = 12 ,
Induktionsvoraussetzung (I.V.): Wir nehmen an, dass (2.24) für ein beliebiges festes n ∈ N
mit n ≥ 1 gilt.
Induktionsschritt (I.S.) n → n + 1: Wir müssen zeigen, dass die Gleichung (2.24) auch
mit n + 1 (statt n) gilt.
n+1
X
k=1
(2k − 1) =
+ 2(n + 1) − 1
1 + 3 + 5 + . . . + (2n − 1)
|
{z
}
P
= nk=1 (2k − 1) = n2 nach (I.V.)
= n2 + (2n + 1)
= n2 + 2 n + 1
= (n + 1)2 ,
d.h. (2.24) gilt auch mit n ersetzt durch n + 1.
Nach dem Prinzip der vollständigen Induktion haben wir damit (2.24) für alle n ∈ N
bewiesen.
Wir gehen noch kurz auf einige typische Probleme beim Erlernen von Induktionsbeweisen ein:
70
2.4. Vollständige Induktion
• Beachten Sie, dass Sie für einen Induktionsbeweis im Induktionsschritt n → n + 1 nicht
zeigen müssen, dass die Aussage für n bereits gilt. Dies setzen Sie voraus! Um sich dies
bewusst zu machen, notiert man die Induktionsvoraussetzung gesondert.
• Häufig ist es anfangs ein Problem, herauszufinden, was Sie eigentlich zeigen wollen.
Daher gilt: Notieren Sie sich die im Induktionsschritt zu beweisende Aussage als Erinnerung, was zu zeigen ist.
Teil II
Analysis
71
Kapitel 3
Funktionen und ihre grundlegenden
Eigenschaften
In diesem Kapitel führen wir den Begriff einer Funktion ein und lernen grundlegende
Eigenschaften von Funktionen, wie z.B. Monotonie und Beschränktheit, aber auch Injektivität, Surjektivität und Bijektivität kennen. Für bijektive und injektive Funktionen können wir schließlich die Umkehrfunktion einführen. In den späteren Teilen dieses
Kapitels werden wir diese neuen Eigenschaften für Polynome (affin lineare Funktionen,
quadratische Funktionen, etc.) und für die bereits in Teilkapitel 1.5 eingeführten trigonometrischen Funktionen betrachten.
3.1
Funktionen
Anschaulich versteht man unter einer Funktion eine Abbildung f , die eine Zuordnung
zwischen gewissen Objekten herstellt.
Dabei wird jedem Element x aus Df genau ein Objekt f (x) in Wf zugeordnet. In
der Abbildung 3.1 werden z.B. den Elementen a, b, c der Menge Df jeweils die ObjekDf
a
Wf
f
f (a)
b
f (b) = f (c)
c
Abb. 3.1: Illustration der Definition einer Funktion.
73
74
3.1. Funktionen
te f (a), f (b), f (c) der Menge Wf zugeordnet: Dies ist so zu verstehen, dass a ∈ Df das
Objekt f (a) ∈ Wf , b ∈ Df das Objekt f (b) ∈ Wf und c ∈ Df das Objekt f (c) ∈ Wf
zugeordnet wird. Dass in diesem Beispiel gilt f (b) = f (c) verursacht keine Probleme. –
Verboten wäre aber eine Zuordnung, die z.B. dem Element a ∈ Df zwei (oder mehrere) Objekte in Wf zuordnet; dies würde dem Begriff einer Funktion widersprechen.
In den naturwissenschaftlichen Anwendungen sind meist Funktionen zwischen Mengen
von reellen Zahlen von Interesse, also Df ⊂ R und Wf ⊂ R. Betrachten wir zunächst ein
Beispiel:
Beispiel 3.1. (Standardparabel) Die Funktion f , die x ∈ R auf f (x) = x2 ∈ R abbildet
beschreiben wir mathematisch als
x 7→ y = f (x) = x2 ,
f : R → R,
wobei f : R → R“ bedeutet, dass f reelle Zahlen im Definitionsbereich Df = R auf reelle
”
Zahlen im Wertebereich Wf = R abbildet. Die Funktionsvorschrift x 7→ y = f (x) = x2“
”
bedeutet, dass wir x aus Df = R auf y = f (x) = x2 aus Wf = R abbilden. Der Pfeil 7→“
”
wird dabei nur verwendet, wenn wir Objekte aufeinander abbilden; hier wird also x aus
Df auf y = f (x) = x2 aus Wf abgebildet.
Nachdem wir den Begriff einer Funktion schon an einem Beispiel betrachtet haben, wollen
wir den Funktionsbegriff nun sauber definieren.
Definition 3.2. (Funktion) Gegeben seien Mengen Df und Wf . Unter einer Funktion
f : Df → Wf
versteht man eine Abbildung f , die jedem Element x ∈ Df genau ein Element y = f (x)
aus Wf zuordnet. Eine konkrete Funktion wird entweder mit Hilfe einer Funktionsvorschrift x 7→ y = f (x)“, wobei f (x) durch eine konkrete Formel gegeben ist oder durch
”
das Aufzählen aller zugeordneten Paare angegeben wird. In einer Funktionsvorschrift, die
durch eine Formel für f (x) gegeben ist, läßt man häufig auch x 7→“ weg und gibt nur die
”
Formel für f (x) an.
Betrachten wir noch weitere Beispiele
Beispiel 3.3. (Sinusfunktion) Die Sinusfunktion
f : R → R,
f (x) = sin(x),
ist eine Funktion in Sinne von Definition 3.2. Hier wird jedem x ∈ R genau der Wert
f (x) = sin(x) zugeordnet.
Beispiel 3.4. (Funktion auf endlichen Mengen) Seien Df = {a, b, c} und Wf =
{α, β, γ}. Dann definiert
f : Df → Wf
eine Funktion.
mit
f (a) = α, f (b) = β, f (c) = γ
3. Funktionen und ihre grundlegenden Eigenschaften
75
Wir führen noch weitere Bezeichnungen im Zusammenhang mit Funktionen ein.
Definition 3.5. (Begriffe rund um Funktionen) Sei f : Df → Wf eine Funktion
mit der Funktionsvorschrift x 7→ y = f (x). Dann verwenden wir folgende Bezeichnungen:
• x heißt das Argument oder die unabhängige Variable.
• y heißt die abhängige Variable.
• f (x) heißt der Funktionswert (an der Stelle x) bzw. der Wert von f an der
Stelle x.
• Für ein festes y ∈ Wf heißt jedes x mit f (x) = y ein Urbild von y.
• Df heißt der Definitionsbereich (oder die Definitionsmenge) von f .
• Wf heißt der Wertebereich (oder die Zielmenge) von f .
Es müssen nicht alle Elemente im Wertebereich Wf als Funktionswerte auftreten. Die
Menge aller Elemente in Wf , die als Funktionswerte auftreten, also
Bf = y ∈ Wf y = f (x) für ein x ∈ Df ,
bezeichnet man als das Bild von f .
Betrachten wir nochmals unser motivierendes Beispiel 3.1 der Standardparabel.
Beispiel 3.6. Die Standardparabel
f : R → R,
x 7→ y = f (x) = x2 ,
hat in der neuen Terminologie den Definitionsbereich Df = R, den Wertebereich Wf = R
und die Funktionsvorschrift x 7→ y = f (x) = x2 oder kürzer f (x) = x2 . Die unabhängige
Variable ist x, die abhängige Variable ist y = f (x) = x2 , und f (x) = x2 ist der Funktionswert von f an der Stelle x. Da Quadrate immer nicht-negativ sind, gilt f (x) = x2 ≥ 0
für alle x ∈ R, und man zeigt leicht, dass das Bild von f die Menge
Bf = [0, ∞) = y ∈ R y ≥ 0
ist. In der Tat gilt wegen f (x) = x2 ≥ 0, dass
Bf = y ∈ R y = x2 für ein x ∈ R
√
eine Teilmenge von [0, ∞) ist, d.h. Bf ⊂ [0, ∞). Andererseits gilt aber für x = y mit
√
y ≥ 0 auch x2 = ( y)2 = y, d.h. y ≥ 0 ist im Bild Bf . Also gilt auch [0, ∞) ⊂ Bf . Aus
Bf ⊂ [0, ∞) und [0, ∞) ⊂ Bf folgt Bf = [0, ∞).
Bemerkung 3.7. Häufig werden Funktionen nur durch eine Funktionsvorschrift angegeben, z.B. f (x) = x2 , d.h. Definitionsbereich und Wertebereich werden nicht explizit
angegeben. In solchen Fällen besteht die Konvention, den sogenannten maximalen Definitionsbereich zu verwenden. Der maximale Definitionsbereich ist die größte Menge,
auf der die Funktion durch ihre Funktionsvorschrift in den reellen (oder komplexen) Zahlen
definiert werden kann.
76
3.1. Funktionen
Betrachten wir zwei Beispiele, um das Konzept des maximalen Definitionsbereichs zu
verstehen.
Beispiel 3.8. (maximaler Definitionsbereich) Die Funktionsvorschriften
√
1
und
(b) g(x) = x + 1
(a) f (x) = 2
x −1
definieren jeweils eine Funktion auf einer geeigneten Teilmenge der reellen Zahlen. Finden
Sie den maximalen Definitionsbereich für jede der beiden Funktionen.
Lösung:
(a) Bei der Funktionsvorschrift f (x) = 1/(x2 − 1) müssen wir beachten, dass der Nenner
für x = −1 und x = 1 Null wird. Da Division durch Null verboten ist, darf die
Variable x nicht die Werte x = −1 und x = 1 annehmen. Alle anderen reellen Zahlen
können wir bedenkenlos in die Funktionsvorschrift einsetzen. Also hat f den maximalen
Definitionsbereich Df = R \ {−1, 1}.
(b) Da die Wurzel nur für nicht-negative Zahlen gezogen werden kann, √
dürfen wir nur
Werte für x mit x + 1 ≥ 0 betrachten, also x ≥ −1. Daher hat g(x) = x + 1 hat den
maximalen Definitionsbereich Dg = {x ∈ R | x ≥ −1} = [−1, ∞).
Zur anschaulichen Darstellung einer Funktion f : Df → Wf mit Df ⊂ R und Wf ⊂ R
zeichnet man den (Funktions-)Graphen von f .
Definition 3.9. (Graph einer Funktion) Der Graph einer Funktion f : Df → Wf ,
x 7→ y = f (x), ist die Menge
Γ(f ) = (x, y) x ∈ Df und y = f (x) = x, f (x) x ∈ Df .
Ist Df ⊂ R und Wf ⊂ R, so können wir den Graphen von f darstellen, indem wir die
Punkte in Γ(f ) im (x, y)-Koordinatensystem zeichnen.
Beispiel 3.10. (Graph der Standardparabel) Der Graph der Funktion f : R → R,
f (x) = x2 , ist
Γ(f ) = (x, y) x ∈ R und y = x2 = (x, x2 ) x ∈ R .
Dieser ist in Abbildung 3.2 gezeichnet.
Beispiel 3.11. (Graph einer affin linearen Funktion) Die affin lineare Funktion
f : R → R, f (x) = a x + b, hat den Graphen
Γ(f ) = (x, y) x ∈ R und y = a x + b = x, a x + b x ∈ R ,
den wir in Abbildung 3.3 gezeichnet haben. Der Graph ist eine Gerade, denn die Steigung
a (x + ∆x) + b − a x + b
f (x + ∆x) − f (x)
f (x + ∆x) − f (x)
a ∆x
=
=
=
=a
(x + ∆x) − x
∆x
∆x
∆x
ist konstant. Wegen f (0) = a 0 + b =
b schneidet der Graph die y-Achse in y = b, oder in
anderen Worten der Punkt 0, f (0) = (0, b) gehört zum Graphen von f .
3. Funktionen und ihre grundlegenden Eigenschaften
77
Abb. 3.2: Graph von f (x) = x2 .
y
y = ax + b
∆y = f (x + ∆x) − f (x)
∆x
b
x
x + ∆x
x
Abb. 3.3: Graph der affin linearen Funktion f : R → R, f (x) = a x + b, wobei im Bild
a > 0 angenommen wurde, so dass die Gerade eine positive Steigung hat.
Wir lernen nun einige grundlegende Eigenschaften von Funktionen kennen.
78
3.1. Funktionen
Definition 3.12. (beschränkte Funktion) Sei f : Df → Wf , y = f (x), eine Funktion,
deren Definitionsbereich Df und Wertebereich Wf jeweils Teilmengen von R sind. Die
Funktion f heißt beschränkt, falls es eine Schranke M ≥ 0 gibt, so dass gilt
|f (x)| ≤ M
für alle x ∈ Df .
Ist eine Funktion nicht beschränkt, so nennt man sie unbeschränkt.
Betrachten wir zwei Beispiele.
Beispiel 3.13. (beschränkte Funktion) Die Funktion f : R → R, f (x) = sin(x), ist
beschränkt, denn mit der Schranke M = 1 gilt
für alle x ∈ R.
|f (x)| = | sin(x)| ≤ 1 = M
Beispiel 3.14. (unbeschränkte Funktion) Die Funktion g : R → R, g(x) = x2 ,
ist unbeschränkt, denn ihre Funktionswerte werden beliebig groß. Daher kann es keine
Schranke M > 0 geben, so dass |g(x)| = |x2 | = |x|2 ≤ M für alle x ∈ R gilt.
Die Begriffe gerade“ und ungerade“ haben mit Symmetrieeigenschaften der Funktion
”
”
zu tun.
Definition 3.15. (gerade und ungerade Funktionen) Sei f : Df → Wf eine Funktion, deren Definitionsbereich Df und Wertebereich Wf jeweils Teilmengen von R sind.
Weiter sei Df symmetrisch“, d.h. ist x ∈ Df , so folgt −x ∈ Df .
”
(i) Die Funktion f heißt gerade, falls gilt
f (−x) = f (x)
für alle x ∈ Df .
(ii) Die Funktion f heißt ungerade, falls gilt
f (−x) = −f (x)
für alle x ∈ Df .
Die Voraussetzung, dass Df symmetrisch“ ist, ist z.B. für Df = R oder Df = [−a, a]
”
mit a > 0 erfüllt.
Betrachten wir wieder zwei Beispiele.
Beispiel 3.16. (gerade Funktion) In Lemma 1.49 in Teilkapitel 1.5 haben wir gesehen,
dass die Kosinusfunktion g : R → R, g(x) = cos(x), die Eigenschaft
g(−x) = cos(−x) = cos(x) = g(x)
hat. Also ist die Kosinusfunktion eine gerade Funktion
für alle x ∈ R
3. Funktionen und ihre grundlegenden Eigenschaften
79
Beispiel 3.17. (ungerade Funktion) In Lemma 1.49 in Teilkapitel 1.5 haben wir gesehen, dass die Sinusfunktion f : R → R, f (x) = sin(x), die Eigenschaft
f (−x) = sin(−x) = − sin(x) = −f (x)
für alle x ∈ R
hat. Also ist die Sinusfunktion eine ungerade Funktion.
Abb. 3.4: Die Sinusfunktion und die Kosinusfunktion auf dem Intervall [−2π, 2π].
Die Eigenschaft, eine gerade bzw. eine ungerade Funktion zu sein, hat mit der Symme”
trie“ des Graphen zu tun, wie man an den Graphen der Sinusfunktion (linkes Bild in
Abbildung 3.4) und der Kosinusfunktion (rechtes Bild in Abbildung 3.4) gut sehen kann.
Die Eigenschaft
f (−x) = f (x)
für alle x ∈ Df .
bedeutet, dass wir für x und −x den gleichen Funktionswert bekommen. Also ist der
Graph einer geraden Funktion spiegelsymmetrisch an der y-Achse. Die Eigenschaft
f (−x) = −f (x)
für alle x ∈ Df .
bedeutet, dass wir für −x den Funktionswert −f (x) bekommen. Also ist der Graph einer
geraden Funktion drehsymmetrisch bzgl. einer Drehung um den Ursprung (0, 0)
mit 180◦ .
Zuletzt definieren wir noch periodische Funktionen.
Definition 3.18. (periodische Funktion) Sei f : Df → Wf eine Funktion mit Definitionsbereich Df = R und Wertebereich Wf . Die Funktion f heißt periodisch (mit der
Periodenlänge L), falls gilt
f (x + L) = f (x)
für alle x ∈ Df .
80
3.1. Funktionen
Anschaulich bedeutet Periodizität mit der Periodenlänge L das Folgende: Betrachten wir den Graphen einer periodischen Funktion mit der Periode L, und betrachten
wir ein beliebiges halboffenes Intervall der Länge L, z.B. [0, L), dann ist der Graph auf den
vorherigen bzw. nachfolgenden Intervallen der Länge L, also [−L, 0), [L, 2L), etc., genau
eine Kopie des Graphen auf dem ursprünglichen Intervall [0, L) der Länge L. Damit ist
eine periodische Funktion mit der Periode L durch ihre Werte auf [0, L) (oder
auf einem beliebigen anderen Intervall [x0 , x0 + L)) bereits eindeutig festgelegt.
Das klassische Beispiel für periodische Funktionen sind die Sinusfunktion und die Kosinusfunktion.
Beispiel 3.19. (periodische Funktionen) Die Funktionen f : R → R, f (x) = sin(x),
und g : R → R, g(x) = cos(x), sind nach ihrer Konstruktion periodisch mit der Periodenlänge 2π, denn (vgl. Definition 1.47 in Teilkapitel 1.5) es gilt:
f (x + 2π) = sin(x + 2π) = sin(x) = f (x)
g(x + 2π) = cos(x + 2π) = cos(x) = g(x)
für alle x ∈ R,
für alle x ∈ R.
Betrachten wir noch ein weiteres Beispiel.
Beispiel 3.20. (Rechteckschwingung) Die Rechteckschwingung (siehe Abbildung 3.5)
ist wie folgt definiert:
f (x) =
(
−1
1
x ∈ [2k − 1, 2k) für k ∈ Z,
wenn
x ∈ [2k, 2k + 1) für k ∈ Z.
wenn
(3.1)
Sie
ist periodisch mit
der Periode L = 2, denn: Für jedes x ∈ [2k − 1, 2k) ist x + 2 in
(2k −1)+2, 2k +2 = 2(k +1)−1, 2(k +1) , und somit gilt f (x)
= f (x+2) = −1. Analog
ist für x ∈ [2k, 2k + 1) der Punkt x + 2 in 2k + 2, (2k + 1) + 2 = 2(k + 1), 2(k + 1) + 1 ,
und damit gilt f (x) = f (x + 2) = 1. Die zeigt die Periodizität mit der Periode L = 2.
y
1
−3
−2
−1
1
2
3 x
−1
Abb. 3.5: Graph der Rechteckschwingung (3.1).
3. Funktionen und ihre grundlegenden Eigenschaften
3.2
81
Wachstumsverhalten von Funktionen
In diesem Teilkapitel beschäftigen wir uns mit dem Wachstumsverhalten von Funktionen,
d.h. mit der Frage, ob die Funktionswerte einer Funktion wachsen (also größer werden)
oder abnehmen (also kleiner werden), wenn die Werte der unabhängigen Variable größer
werden.
Definition 3.21. ((streng) monoton wachsend/fallend) Sei f : Df → Wf eine
Funktion, deren Definitionsbereich Df und deren Wertebereich Wf jeweils Teilmengen
der reellen Zahlen R sind. Sei I ⊂ Df ein Intervall.
(i) Die Funktion f heißt monoton wachsend auf I, falls die folgende Bedingung
erfüllt ist: Für alle x1 , x2 ∈ I mit x1 < x2 gilt f (x1 ) ≤ f (x2 ).
Gilt sogar für alle x1 , x2 ∈ I mit x1 < x2 die strenge Ungleichung f (x1 ) < f (x2 ),
dann heißt f streng monoton wachsend auf I.
(ii) Die Funktion f heißt monoton fallend auf I, falls die folgende Bedingung erfüllt
ist: Für alle x1 , x2 ∈ I mit x1 < x2 gilt f (x1 ) ≥ f (x2 ).
Gilt sogar für alle x1 , x2 ∈ I mit x1 < x2 die strenge Ungleichung f (x1 ) > f (x2 ),
dann heißt f streng monoton fallend auf I.
(iii) Die Funktion f heißt monoton (bzw. streng monoton) auf I, falls f auf I monoton wachsend oder monoton fallend (bzw. streng monoton wachsend oder streng
monoton fallend) ist.
Die Begriffe (streng) monoton wachsend“ und (streng) monoton fallend“ sind in Abbil”
”
dung 3.6 veranschaulicht.
Betrachten wie zwei Beispiele.
Beispiel 3.22. (affin lineare Funktion) Die affin lineare Funktion f : R → R, f (x) =
a x + b, ist:
• monoton wachsend auf R und monoton fallend auf R, wenn a = 0,
• streng monoton wachsend auf R, wenn a > 0,
• streng monoton fallend auf R, wenn a < 0.
Dies sieht man von der geometrischen Anschauung her direkt an dem Graphen der jeweiligen Funktion (vgl. Abbildung 3.7). Formal weist man es wie folgt nach: Seien x1 , x2 ∈ R
mit x1 < x2 . Dann gilt

falls a > 0,

 a x1 + b < a x2 + b = f (x2 )
0 x1 + b = b = 0 x2 + b = f (x2 )
falls a = 0,
f (x1 ) =


a x1 + b > a x2 + b = f (x2 )
falls a < 0,
wobei wir benutzt haben, dass aus x1 < x2 für a > 0 folgt, dass a x1 < a x2 ist, und dass
aus x1 < x2 für a < 0 folgt, dass a x1 > a x2 ist (bei Multiplikation mit negativen Zahlen
kehrt sich das Ungleichheitszeichen um).
82
3.2. Wachstumsverhalten von Funktionen
y
y
f (x2)
11
00
00
11
00
11
1
0
1
f (x1) 0
11
00
00
11
00
11
f (x1)
11
00
00
11
00
11
x2
x1
x
x2
f (x2)
11
00
00
11
00
11
x1
x
Abb. 3.6: Die Funktion im linken Bild ist überall streng monoton wachsend, und die
Funktion im rechten Bild ist überall streng monoton fallend.
Beispiel 3.23. (Standardparabel) Die Standardparabel f : R → R, f (x) = x2 , ist auf
(−∞, 0] streng monoton fallend und ist auf [0, ∞) streng monoton wachsend. Dieses kann
man direkt am Bild des Graphen (vgl. Abbildung 3.2) ablesen. Formal weisen wir diese
Eigenschaften wie folgt nach:
Seien x1 , x2 ∈ [0, ∞) mit 0 ≤ x1 < x2 . Dann gilt
x21 = x1 · x1 < x1 · x2 < x2 · x2 = x22 ,
also x21 < x22 , und es folgt
f (x1 ) = x21 < x22 = f (x2 ),
d.h. f (x) = x2 ist streng monoton wachsend auf [0, ∞).
Seien x1 , x2 ∈ (−∞, 0] mit x1 < x2 ≤ 0. Dann folgt −x1 > −x2 ≥ 0 oder äquivalent
0 ≤ −x2 < −x1 , und wir wissen aus den obigen Überlegungen, dass
(−x2 )2 < (−x1 )2
⇐⇒
(−x1 )2 > (−x2 )2
⇐⇒
x21 > x22
Also gilt
f (x1 ) = x21 > x22 = f (x2 ),
d.h. f (x) = x2 ist streng monoton fallend auf (−∞, 0].
Wenn wir in Kapitel 8 die Ableitung eingeführt haben, dann werden wir lernen, dass man
das Wachstumsverhalten einer Funktion noch einfacher über das Vorzeichen der ersten
Ableitung charakterisieren kann.
3. Funktionen und ihre grundlegenden Eigenschaften
83
y
c
y
f (x2)
f (x1)
f (x2) − f (x1)
=a>0
f (x1)
f (x2) − f (x2)
=a<0
x2 − x1 = 1
f (x2)
c
x1
x2
x
x2 − x1 = 1
x1
x2
x
Abb. 3.7: Der Graph der affin linearen Abbildung f (x) = a x + b mit a > 0 (links) und
a < 0 (rechts).
3.3
Injektive Funktionen und ihre Umkehrfunktionen
Zu jedem x im Definitionsbereich einer Funktion f : Df → Wf gibt es genau einen
Funktionswert f (x) = y im Wertebereich Wf . Allerdings kann zu einem Funktionswert
y durchaus mehr als ein x mit f (x) = y geben, wie das Beispiel der Standardparabel
f : R → R, f (x) = x2 , leicht zeigt: Hier gibt es zu jedem y > 0 genau zwei x-Werte mit
√
√
f (x) = x2 = y, nämlich x = − y und x = y. Z.B. gilt f (x) = x2 = 4 für x = −2 und
x = 2.
Oft ist es aber wünschenswert, dass die Zuordnung Funktionsvorschrift x 7→ f (x) injektiv
ist, d.h. dass zu jedem Funktionswert y ∈ Bf genau ein Urbild (und nicht möglicherweise mehrere Urbilder) x ∈ Df mit y = f (x) gehört. Dann können wir die sogenannte
Umkehrfunktion f −1 von f einführen, die jedem y ∈ Bf das eindeutig bestimmte
x ∈ Df mit f (x) = y zuordnet.
Als Vorbereitung benötigen wir zunächst einige weiteren Begriffe für Funktionen.
Definition 3.24. (injektive, surjektive und bijektive Funktion)
(i) Eine Funktion f : Df → Wf heißt injektiv, falls zu jedem y ∈ Wf höchstens ein
x ∈ Df mit f (x) = y existiert.
Äquivalent dazu können wir injektiv auch wie folgt charakterisieren: Eine Funktion
f : Df → Wf heißt injektiv (oder eineindeutig), falls aus f (x1 ) = f (x2 ) für
x1 , x2 ∈ Df folgt, dass x1 = x2 ist.
(ii) Eine Funktion f : Df → Wf heißt surjektiv, falls der Wertebereich Wf gleich dem
84
3.3. Injektive Funktionen und ihre Umkehrfunktionen
Bild Bf ist (also Wf = Bf ), d.h. falls es zu jedem y ∈ Wf mindestens ein x ∈ Df
gibt mit f (x) = y.
(iii) Eine Funktion f : Df → Wf heißt bijektiv, falls f injektiv und surjektiv ist.
Wir werden gleich sehen, dass jede bijektive Funktion eine Umkehrfunktion besitzt. Auch
für eine nur injektive Funktion können wir auf dem Bild die Umkehrfunktion definieren. Betrachten wir jedoch zunächst ein paar Beispiele, um uns mit den neuen Begriffen
vertraut zu machen.
Beispiel 3.25. (affin lineare Funktion) Die affin lineare Funktion f : R → R, f (x) =
a x + b mit a 6= 0, ist injektiv, surjektiv und bijektiv.
Nachweis der Injektivität: Sei nun y aus Wf = R beliebig. Wir setzen y = f (x) = a x + b
und lösen nach x, was für jedes y ∈ R möglich ist:
y−b
⇐⇒
y = ax+ b −b
⇐⇒
y − b = ax : a
= x,
(3.2)
a
wobei wir durch a teilen dürfen, da a 6= 0 ist. Wir finden also, dass für jedes y aus Wf = R
genau ein x-Wert x = (y − b)/a aus Df = R mit f (x) = y existiert. Also ist f (x) = a x + b
injektiv.
Mit der zweiten äquiavlenten Charakterisierung von Injektivität geht der Nachweis der
Injektivität wie folgt: Seien x1 , x2 aus Df = R mit f (x1 ) = f (x2 ). Dann gilt
⇐⇒
x1 = x2 ,
⇐⇒
a x1 = a x2 : a
a x1 + b = a x2 + b · b
wobei wir durch a teilen dürfen, da a 6= 0 ist. Also folgt aus f (x1 ) = f (x2 ), dass x1 = x2
ist, und wir haben gezeigt, dass f injektiv ist.
Nachweis der Surjektivität: Sei y aus Wf = R beliebig. Wir setzen y = f (x) = a x + b,
und durch Lösen nach x (siehe Rechnung (3.2)) folgt, dass der x-Wert x = (y − b)/a in
Df = R die Bedingung f (x) = y erfüllt. Also treten alle y aus Wf = R als Funktionswerte
auf. Daher ist f surjektiv.
Da f injektiv und surjektiv ist, ist f auch bijektiv.
Beispiel 3.26. (Standardparabel) Die Standardparabel f : R → R, f (x) = x2 , ist
nicht injektiv, nicht surjektiv und damit auch nicht bijektiv.
Nachweis, dass die Standardparabel nicht injektiv ist: Um zu zeigen, das f nicht injektiv
ist, müssen wir zeigen, dass die Bedingung für Injektivität verletzt ist. Dies ist der Fall,
wenn wir x1 , x2 ∈ Df = R finden können, für die gilt f (x1 ) = f (x2 ) aber x1 6= x2 .
(Dann gibt es nämlich für y = f (x1 ) mehr als ein x mit f (x) = y.) Z.B. erhalten wir
für f (x) = x2 = 4 die x-Werte x1 = −2 und x2 = 2, da f (x1 ) = f (2) = 22 = 4 und
f (x2 ) = f (−2) = (−2)2 = 4 gilt. Also ist f nicht injektiv.
Nachweis, dass die Standardparabel nicht surjektiv ist: Um zu zeigen, dass f nicht surjektiv
ist, reicht es, wenn wir einen Wert y ∈ Wf = R finden, für den es kein x ∈ Df = R mit
3. Funktionen und ihre grundlegenden Eigenschaften
85
f (x) = y gibt. Da aber f (x) = x2 ≥ 0 für alle x ∈ R gilt, kann es kein x ∈ R geben mit
f (x) = x2 = −10. Also ist f nicht surjektiv.
Da f nicht injektiv (und nicht surjektiv) ist, ist f auch nicht bijektiv.
Wir halten noch kurz fest, was wir im vorigen Beispiel gesehen haben:
Bemerkung 3.27. (nicht injektive oder nicht surjektive Funktionen)
(1) Um zu zeigen, dass eine Funktion f : Df → Wf nicht injektiv ist, reicht es, zu
zeigen, das es zwei verschiedene Punkte x1 , x2 ∈ Df (also x1 6= x2 ) gibt, für
die gilt f (x1 ) = f (x2 ). (Dann haben wir nämlich für y = f (x1 ) zwei verschiedene
Punkte x1 und x2 in Df mit f (x1 ) = f (x2 ) = y, und die Definition der Injektivität
ist verletzt.)
(2) Um zu zeigen, dass eine Funktion f : Df → Wf nicht surjektiv ist, reicht es, ein
y ∈ Wf zu finden, zu dem es kein x ∈ Df mit f (x) = y gibt.
Wir führen nun die Umkehrfunktion ein.
Definition 3.28. (Umkehrfunktion/inverse Funktion) Sei f : Df → Wf , x 7→
y = f (x), eine bijektive Funktion. Die Funktion g : Wf → Df , die jedem y ∈ Wf
genau das eindeutig bestimmte x ∈ Df zuordnet, für welches f (x) = y gilt, heißt die
Umkehrfunktion von f (oder inverse Funktion von f ). Die Umkehrfunktion wird
in der Regel mit f −1 bezeichnet, also g = f −1 .
Ist f : Df → Wf , x 7→ y = f (x), eine injektive Funktion, so ist die Funktion
f : Df → Bf , x 7→ y = f (x), (bei der wir den Wertebereich Wf durch das Bild Bf
ersetzt haben) eine bijektive Funktion. Wir können also die Umkehrfunktion von f
auf dem Bild Bf definieren:
f −1 : Bf → Df ,
y 7→ x = f −1 (y) wobei x ∈ Df so, dass f (x) = y.
Die Funktionsvorschrift für die Umkehrfunktion f −1 findet man in der Regel
durch Lösen der Gleichung f (x) = y nach x.
Betrachten wir ein paar Beispiele.
Beispiel 3.29. (affin lineare Funktion) In Beispiel 3.25 haben wir bereits gezeigt, dass
die affin lineare Funktion f : R → R, f (x) = a x + b mit a 6= 0, injektiv, surjektiv und
bijektiv ist. Daher hat sie eine Umkehrfunktion f −1 : R → R, deren Funktionsvorschrift
wir durch Lösen von y = f (x) = a x + b nach x finden. Diese Rechnung wurde in (3.2)
bereits durchgeführt, und wir erhielten x = (y − b)/a. Damit ist die Umkehrfunktion von
f : R → R, f (x) = a x + b mit a 6= 0, durch
1
b
y−b
= y− ,
a
a
a
gegeben. Wir sehen, dass die Umkehrfunktion ebenfalls eine affin lineare Funktion ist.
f −1 : R → R,
y 7→ x = f −1 (y) =
86
3.3. Injektive Funktionen und ihre Umkehrfunktionen
Beispiel 3.30. (Standardparabel definiert auf [0, ∞)) Betrachten wir die Standardparabel f : [0, ∞) → R, f (x) = x2 , wobei wir aber nun als Definitionsbereich nur noch
Df = [0, ∞) betrachten. In Beispiel 3.26 haben wir gesehen, dass es kein x ∈ R (und damit auch keine x ∈ [0, ∞)) gibt mit f (x) = x2 = −10. Also ist f : [0, ∞) → R, f (x) = x2 ,
nicht surjektiv.
Als Bild von f finden wir Bf = {y ∈ R | y = x2 für ein x ∈ [0, ∞)} = [0, ∞).
Durch den kleineren Definitionsbereich Df = [0, ∞) wird f (x) = x2 aber injektiv, denn
für y aus Bf = [0, ∞) hat die Gleichung f (x) = x2 = y in [0, ∞) genau eine einzige
√
Lösung x = y.
Also können wir die Funktion f auf ihrem Bild Bf = [0, ∞) invertieren und finden die
Umkehrfunktion
√
f −1 : [0, ∞) → [0, ∞),
y 7→ x = f −1 (y) = y.
Bemerkung 3.31. (Zusammenhang zwischen den Funktionsvorschriften von f
und f −1 ) Sei f : Df → Wf eine injektive Funktion, und sei f −1 : Bf → Df die Umkehrfunktion von f auf dem Bild Bf von f . Dann gilt:
(1) Die Funktionsvorschrift für f −1 lässt sich in der Regel durch Auflösen der Gleichung
f (x) = y nach x berechnen.
(2) Für f −1 gilt nach der Konstruktion der Umkehrfunktion
f f −1 (y) = y
für alle y ∈ Bf .
Ebenso gilt nach der Definition der Umkehrfunktion
f −1 f (x) = x
für alle x ∈ Df .
(3) Die Umkehrfunktion f −1 : Bf → Df ist bijektiv, und ihre Umkehrfunktion ist
(f −1 )−1 = f , also die ursprüngliche Funktion f : Df → Bf , wobei aber der Wertebereich durch das Bild ersetzt werden muss.
Bemerkung 3.32. (Zusammenhang zwischen den Graphen von f und f −1 ) Der
Graph von f −1 ist gegeben durch:
Γ f −1 = (y, x) y ∈ Bf , x = f −1 (y)
= (y, x) x ∈ Df , y = f (x)
= (y, x) (x, y) ∈ Γ(f ) ,
d.h. Γ f −1 entsteht aus Γ(f ) durch Spiegelung an der Winkelhalbierenden
y = x.
In Abbildung 3.8 haben wir jeweils die Funktionen f (x) = x2 für x > 0 und f (x) = 2 x+ 1
zusammen mit ihren Umkehrfunktionen gezeichnet, um den Zusammenhang zwischen dem
Graphen einer injektiven Funktion und den Graphen ihrer Umkehrfunktion (vgl. Bemerkung 3.32) zu erläutern.
3. Funktionen und ihre grundlegenden Eigenschaften
87
Abb. 3.8: Graphen von f (x) = x2 für x > 0 (links) und f (x) = 2 x + 1 (rechts) zusammen
mit ihrer jeweiligen Umkehrfunktionen.
Lemma 3.33. Ist eine Funktion f : Df → Wf , mit Df ⊂ R und Wf ⊂ R, streng
monoton wachsend auf Df oder streng monoton fallend auf Df , so ist f ist
injektiv, und damit existiert die Umkehrfunktion von f auf dem Bild Bf .
Mit Hilfe von Lemma 3.33 hätten wir z.B. die Injektivität von f : R → R, f (x) = a x + b
mit a 6= 0, schon aus der strengen Monotonie dieser Funktion auf Df = R folgern können.
Beweis von Lemma 3.33. Um zu beweisen, dass f injektiv ist, müssen wir zeigen, dass
die Gleichung f (x) = y für jedes y aus Wf ⊂ R höchstens eine Lösung x in Df ⊂ R
hat. Wir machen dies mit einem Widerspruchsbeweis (siehe Teilkapitel 2.3): Dazu nehmen wir an, dass für ein y aus Wf ⊂ R mehr als ein x aus Df ⊂ R mit f (x) = y
existiert, also gelte f (x1 ) = f (x2 ) = y für x1 , x2 ∈ Df mit x1 6= x2 . Wegen x1 6= x2
muss entweder x1 < x2 oder x2 < x1 gelten. Dann folgt aber aus der strengen Monotonie
von f , dass f (x1 ) < f (x2 ) oder f (x2 ) < f (x1 ) gilt. Dies ist aber ein Widerspruch zu
f (x1 ) = f (x2 ) = y. Also wissen wir, dass unsere Annahme falsch war und dass für jedes
y aus Wf ⊂ R die Gleichung f (x) = y höchstens eine Lösung x aus Df ⊂ R hat.
3.4
Beispiele: Polynome
Die einfachsten Beispiele für Polynome sind konstante, lineare und quadratische Funktionen, die wir schon in verschiedenen Beispielen betrachtet haben. Nun werden wir Polynome allgemein einführen. Polynome sind wichtig, weil sie in Anwendungen häufig eingesetzt
88
3.4. Beispiele: Polynome
werden, um kompliziertere Funktionen zu approximieren“, d.h. näherungsweise darzu”
stellen.
Wir beginnen mit der Definition eines Polynoms.
Definition 3.34. (Polynom) Eine Funktion f : R → R der Form
2
n−1
f (x) = a0 + a1 x + a2 x + . . . + an−1 x
n
+ an x =
n
X
ak xk ,
(3.3)
k=0
mit den Koeffizienten a0 , a1 , . . . , an−1 , an ∈ R, wobei an 6= 0, heißt ein Polynom vom
Grad n ∈ N0 .
Beispiel 3.35. (Polynom) Die Funktion f : R → R, f (x) = 3 x5 + 7 x4 − 2 x2 + 3, ist
ein Polynom vom Grad n = 5. Hier sind in der Darstellung (3.3) die Koeffizienten a5 = 3,
a4 = 7, a3 = 0, a2 = −2, a1 = 0 und a0 = 3.
Betrachten wir die aus der Schule vertrauten Klassen der Polynome vom Grad n = 0,
n = 1 und n = 2 und untersuchen wir deren Eigenschaften.
Beispiel 3.36. (Polynome vom Grad 0) Die Polynome vom Grad n = 0 sind die
konstanten Funktionen
f : R → R,
f (x) = c,
wobei c eine reelle Konstante ist. In der Darstellung (3.3) gilt hier n = 0 und a0 = c. Wir
halten die Eigenschaften konstanter Funktionen kurz fest:
• Der Graph der konstanten Funktion f (x) = c ist die Parallele zur x-Achse, die durch
y = c geht. Die konstante Funktion f (x) = c ist monoton fallend auf R und monoton
wachsend auf R (vgl. Beispiel 3.22).
• Die konstante Funktion f (x) = c hat das Bild Bf = {c} und ist somit nicht surjektiv.
• Die konstante Funktion f (x) = c ist auch nicht injektiv, denn für zwei beliebige Punkte
x1 , x2 ∈ R mit x1 6= x2 gilt f (x1 ) = c = f (x2 ).
• Damit sind konstante Funktionen auch nicht bijektiv.
Beispiel 3.37. (Polynome vom Grad 1) Die Polynome vom Grad n = 1 sind die affin
linearen Funktionen
f : R → R,
f (x) = a x + b,
mit reellen Konstanten a 6= 0 und b. In der Darstellung (3.3) gilt hier n = 1 und a0 = b und
a1 = a. In den vorigen Teilkapiteln haben wir die Eigenschaften affin linearer Funktionen
bereits in Beispielen 3.22, 3.25 und 3.29 im Detail untersucht und fanden:
• Der Graph der affin linearen Funktion f (x) = a x + b ist die Gerade mit Steigung a,
welche die y-Achse in (0, b) schneidet.
• Die affine linear Funktion f (x) = a x + b ist streng monoton wachsend auf R, wenn
a > 0 gilt, und f (x) = a x + b ist streng monoton fallend auf R, wenn a < 0 gilt.
3. Funktionen und ihre grundlegenden Eigenschaften
89
• Die affine linear Funktion f (x) = a x + b hat das Bild Bf = R und ist daher surjektiv.
Sie ist auch injektiv und bijektiv, und ihre Umkehrfunktion ist die affin lineare Funktion
f −1 : R → R,
f −1 (y) =
b
1
y− .
a
a
Beispiel 3.38. (Polynome vom Grad 2) Die Polynome vom Grad n = 2 sind die
quadratischen Funktionen
f (x) = a x2 + b x + c
für alle x ∈ R,
(3.4)
mit Konstanten a, b, c ∈ R, wobei a 6= 0. In der Darstellung (3.3) gilt hier n = 2 und a0 = c,
a1 = b, und a2 = a. Wir wollen quadratische Funktionen nun genauer analysieren:
• Mit Hilfe der quadratischen Ergänzung und der ersten binomischen Formel können
wir die quadratische Funktion (3.4) in die sogenannte Scheitelform bringen:
f (x) = a x2 + b x + c
b
c
2
= a x + x+
a
a
"
!
2 ! 2
b
b
b
c
=a
x2 + x +
−
+
a
2a
2a
a
#
"
2 b2
c
b
−
+
= a x+
2a
a
4 a2
2 b
b2
= a x+
,
+ c−
2a
4a
und wir sehen, dass die quadratische Funktion (3.4) eine Parabel mit Scheitelpunkt
b
b2
(xs , ys ) := −
(3.5)
,c−
2a
4a
ist. Die Darstellung
f (x) = a x +
b
2a
|{z}
= −xs
2
2
b2
= a x − xs + ys
+ c−
4a
| {z }
= ys
(3.6)
nennt man die Scheitelform von f (x) = a x2 + b x+ c. Gegenüber der Standardparabel
f (x) = x2 mit Scheitelpunkt (xs , ys ) = (0, 0) ist in (3.6) also der Scheitelpunkt in den
Punkt (3.5) verschoben worden, und die Parabel ist mit dem Faktor a skaliert. In Abbildung 3.9 ist der Einfluss der verschiedenen Parameter in der sogenannten Scheitelform
illustriert, wobei hier a > 0 betrachtet wurde.
• Das Bild der Funktion (3.4) ist Bf = [ys , ∞) wenn a > 0 und Bf = (−∞, ys ] wenn
a < 0 ist. Da in beiden Fällen Bf 6= Wf = R gilt, ist die Funktion (3.4) nicht surjektiv.
90
3.4. Beispiele: Polynome
• Aus der Analyse für die Standardparabel können wir nun leicht ablesen, dass im Falle
a > 0 die quadratische Funktion (3.4) für x ≤ xs , also auf (−∞, xs ], streng monoton
fallend und für x ≥ xs , also auf [xs , ∞), streng monoton wachsend ist. Analog ist im
Falle a < 0 die quadratische Funktion (3.4) für x ≤ xs , also auf (−∞, xs ], streng
monoton wachsend und für x ≥ xs , also auf [xs , ∞), streng monoton fallend.
• Wegen f (xs + d) = f (xs − d) für jedes d ∈ R (im Abstand d von xs haben wir den
gleichen Funktionswert f (xs + d) = f (xs − d) = a d2 + ys ), ist die Funktion (3.4) nicht
injektiv. Also ist die quadratische Funktion (3.4) auch nicht bijektiv.
• Betrachten wir für (3.4) aber nur den Definitionsbereich Df = [xs , ∞) oder nur den
Definitionsbereich Df = (−∞, xs ], so wird die Funktion in (3.4) eine injektive Funktion,
deren Umkehrfunktion wir auf dem Bild von f berechnen können.
Abb. 3.9: Graphen von f (x) := (x − 1)2 (links), g(x) := x2 + 1 (Mitte), sowie h(x) = 2 x2
in blau und k(x) = x2 in rot (rechts).
Betrachten wir nun ein explizites Beispiel eines Polynoms zweiten Grades.
Beispiel 3.39. (Polynom 2. Grades) Betrachten wir das Polynom
f : R → R,
f (x) = x2 − 4 x + 1,
vom Grad n = 2. Hier ist a2 = 1, a1 = −4 und a0 = 1 in der Darstellung (3.3).
• Wir finden mittels quadratischer Ergänzung die Scheitelform
f (x) = x2 − 4 x + 1 = x2 − 4 x + 4 − 4 + 1 = (x − 2)2 − 3.
Daher ist der Graph der Funktion eine nach oben geöffnete Parabel mit dem Scheitelpunkt (xs , ys ) = (2, −3).
• Wir finden das Bild Bf = [−3, ∞), da alle Werte oberhalb des Scheitelpunkts angenommen werden. Da Bf 6= Wf = R gilt, ist die Funktion nicht surjektiv und auch nicht
bijektiv.
3. Funktionen und ihre grundlegenden Eigenschaften
91
• Da bei einer Parabel alle Funktionswerte oberhalb des Scheitelpunkts einmal links und
einmal rechts von Scheitelpunkt auftreten, ist die Funktion f (x) = x2 − 4 x + 1 nicht
injektiv. Genauer gilt z.B. f (1) = (1 − 2)2 − 3 = −2 und f (3) = (3 − 2)2 − 3 = −2,
d.h. die Gleichung f (x) = −2 hat mehr als eine Lösung. Also ist f nicht injektiv.
• Indem wir den Definitionsbereich auf alle Werte links bzw. rechts vom Scheitelpunkt einschränken, können wir aber eine injektive Funktion erhalten. Die Funktionen
f1 : [2, ∞) → R, f1 (x) = x2 − 4 x + 1, und f2 : (−∞, 2] → R, f2 (x) = x2 − 4 x + 1,
sind also jeweils auf ihrem Bild Bf1 = Bf2 = [−3, ∞) invertierbar. Wir berechnen die
Umkehrfunktionen durch Auflösen von
y = x2 − 4 x + 1 = (x − 2)2 − 3
für y ∈ [−3, ∞) nach x:
2
y = (x − 2) − 3 + 3
⇐⇒
⇐⇒
y + 3 = (x − 2)2
p
x−2= ± y+3 +2
⇐⇒
⇐⇒
x= 2±
p
(x − 2)2 = y + 3
y + 3,
wobei wir die Wurzel ziehen dürfen, da y + 3 ≥ 0 gilt wegen y ∈ [−3, ∞). Weiter ist zu
beachten, dass wir als Lösung beide Vorzeichen für die Wurzel bekommen. Wir haben
also zunächst zwei Lösungen:
p
p
und
x2 = 2 − y + 3 .
x1 = 2 + y + 3
Da aber x ∈ Df1 = [2, ∞), also x ≥ 2, bzw. x ∈ Df2 = (−∞, 2], also x ≤ 2,√gelten
muss, erhalten wir für die Umkehrfunktion von f1 nur die Lösung x√= x1 = 2 + y + 3
und für die Umkehrfunktion von f2 nur die Lösung x = x2 = 2 − y + 3. Also finden
wir jeweils die Umkehrfunktion (auf dem Bild [−3, ∞))
p
f1−1 : [−3, ∞) → [2, ∞),
f1−1 (y) = 2 + y + 3,
bzw.
p
f2−1 : [−3, ∞) → (−∞, 2],
f2−1 (y) = 2 − y + 3.
Soweit haben wir nur Polynome ersten und zweiten Grades, also affin lineare und quadratische Funktionen betrachtet. Hier war die Situation besonders einfach, da es sich bei
den Graphen immer um eine Gerade bzw. um eine Parabel handelt. Bei Polynomen dritten und höheren Grades ist die Situation nicht mehr ganz so einfach, da die Graphen
der Polynome sehr viel mehr Variablität aufweisen. Nur wenige Polynome dritten Grades
sehen so aus wie die Funktion f (x) = x3 . Wir werden später noch verschiedene Polynome
dritten und höheren Grades als Beispiele betrachten.
Beispiel 3.40. (Polynom vom Grad 3) Das Polynom f : R → R, f (x) = x3 , vom
Grad 3 ist streng monoton wachsend auf R und injektiv, surjektiv und bijektiv. Seine
Umkehrfunktion ist die Funktion
( √
3 y
wenn y ≥ 0,
p
f −1 : R → R,
f −1 (y) =
− 3 |y|
wenn y < 0,
√
wobei die dritte Wurzel 3 a für a ≥ 0 als die reelle Zahl b definiert ist, für die gilt b ≥ 0
und b3 = a. Dies wird in der Übung nachgewiesen.
92
3.4. Beispiele: Polynome
Abschließend betrachten wir noch einige in der Chemie wichtige Relationen zwischen physikalischen und chemischen Größen, die durch entsprechende Funktionentypen beschrieben
werden können.
Definition 3.41. (direkte Proportionalität) Stehen zwei physikalische oder chemische
Größen x und y in der Beziehung y ∼ x, so bedeutet dies, dass es eine Konstante a 6= 0
gibt mit y = a · x. Wir haben also eine (affin) lineare Funktion
y = f (x) = a · x = a x.
Wir sagen, dass die physikalischen Größen x und y proportional (zueinander) sind.
Anwendung 3.42. (radioaktiver Zerfall) Radioaktivität entsteht durch den Zerfall
der Atomkerne eines radioaktiven Materials. Der Zerfallsprozess ist zufällig, d.h. wir wissen nicht, welches individuelle Atom als nächstes zerfällt. Wir wissen aber, dass die Anzahl
der pro Sekunde zerfallenden Atome proportional zu der Anzahl der Atome ist. Bezeichnet N = N(t) die Anzahl der Atome zum Zeitpunkt t, und ist r = r(t) die Zerfallsrate,
zum Zeitpunkt t, so gilt also
r∼N
oder genauer
r(t) ∼ N(t),
d.h.
r(t) = −λ N(t),
mit einer Proportionalitätskonstante λ > 0. Wir haben in der Proportionalität ein
Minus-Zeichen, weil es sich um eine Zerfallsrate handelt. Wir werden uns später (nach
Einführung der Differentiation) überlegen, dass die Zerfallsrate gerade r(t) = dN(t)/dt =
N ′ (t) ist.
Definition 3.43. (umgekehrte Proportionalität) Stehen zwei physikalische oder chemische Größen x und y in der Beziehung y ∼ 1/x, so bedeutet dies, dass es eine Konstante
a 6= 0 gibt mit y = a/x. Wir haben also eine Hyperbel
a
1
= ,
x
x
wobei natürlich x 6= 0 und y 6= 0 vorausgesetzt werden müssen. Wir sagen, dass die
physikalischen Größen x und y umgekehrt proportional (zueinander) sind.
y = f (x) = a ·
Anwendung 3.44. (Zustandsgleichung bei idealen Gasen) Die Zustandsgleichung
für ein ideales Gas lautet
pV
= kN
T
mit p = Druck, V = Volumen, T = Temperatur, N = Teilchenanzahl (Stoffmenge in
mol), k = Boltzmann-Konstante. Damit folgt
V = kN T
1
,
p
und wir sehen, dass für konstante Temperatur T der Druck p umgekehrt proportional
zum Volumen V ist mit der Proportionalitätskonstante a = k N T . Ebenso können wir
aus der Zustandsgleichung eines idealen Gases ablesen, dass das Produkt p · V aus Druck
und Volumen direkt proportional zur Temperatur T ist, also p · V = (k N) · T mit der
Proportionalitätskonstante a = k N.
3. Funktionen und ihre grundlegenden Eigenschaften
93
Definition 3.45. ((affin) linearer Zusammenhang) Stehen zwei physikalische oder
chemische Größen x und y in der Beziehung y = a x + b, also
y = f (x) = a · x + b = a x + b,
so sagen wir dass die physikalischen Größen x und y in einem (affin) linearen Zusammenhang stehen.
Anwendung 3.46. (Enthalpie) Die Enthalpie H erfüllt die Beziehung
H = U + p V = innere Energie + Verdrängungsarbeit,
wobei U = innere Energie, p = Druck und V = Volumen. Ist die innere Energie U
konstant, so ergibt sich für konstanten Druck p ein (affin) linearer Zusammenhang
zwischen der Enthalpie H und dem Volumen V .
3.5
Beispiele: Trigonometrische Funktionen und ihre
Umkehrfunktionen
In Teilkapitel 1.5 haben wir bereits die trigonometrischen Funkionen Sinus, Kosinus, Tangens und Kotangens eingeführt. Wir wollen diese nun bzgl. der in aktuellen Kapitel eingeführten Eigenschaften von Funktionen untersuchen und soweit möglich ihre Umkehrfunktionen bestimmen.
Betrachten wir zunächst die Sinus- und Kosinusfunktion. An den Graphen der Funktionen
(siehe Abbildung 3.10) können wir die meisten ihrer Eigenschaften direkt ablesen.
Beispiel 3.47. (Eigenschaften des Sinus) Wir haben bereits gesehen, dass die Sinusfunktion sin : R → R ungerade, 2π-periodisch und beschränkt ist (vgl. Beispiele 3.17, 3.19
und 3.13). Durch Inspektion des Graphen finden wir:
• Das Bild ist Bsin = [−1, 1].
• Die Sinusfunktion ist nicht surjektiv da Bsin = [−1, 1] $ R = Wsin .
• Die Sinusfunktion ist nicht injektiv, denn f (x) = 0 hat die Lösungen x = kπ, k ∈ Z.
• Die Sinusfunktion ist nicht bijektiv, da sie nicht injektiv ist.
• Die Sinusfunktion ist streng monoton wachsend auf den Intervallen − π2 +k 2π, π2 +k 2π ,
k ∈ Z, und streng monoton fallend auf den Intervallen π2 + k 2π, 3π
+ k 2π , k ∈ Z. Die
2
Sinusfunktion ist daher auch injektiv auf jedem dieser Intervalle, und wir können für
jedes k ∈ Z die Umkehrfunktion von
i
h π
π
π
3π
+ k 2π,
+ k 2π → [−1, 1]
sin : − + k 2π, + k 2π → [−1, 1] bzw. sin :
2
2
2
2
einführen.
94
3.5. Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
Abb. 3.10: Die Sinusfunktion und die Kosinusfunktion auf dem Intervall [−2π, 2π].
Beispiel 3.48. (Eigenschaften des Kosinus) Wir haben bereits gesehen, dass die
Kosinusfunktion cos : R → R gerade und 2π-periodisch ist (vgl. Beispiele 3.16 und 3.19).
Durch Inspektion des Graphen finden wir:
• Die Kosinusfunkion ist beschränkt, denn | cos(x)| ≤ 1 für alle x ∈ R.
• Das Bild ist Bcos = [−1, 1].
• Die Kosinusfunktion ist nicht surjektiv da Bcos = [−1, 1] $ R = Wcos .
• Die Kosinusfunktion ist nicht injektiv, denn f (x) = 1 hat die Lösungen x = k · 2π,
k ∈ Z.
• Die Kosinusfunktion ist nicht bijektiv, da sie nicht injektiv ist.
• Die Kosinusfunktion ist streng monoton wachsend auf den Intervallen [−π + k 2π, k 2π],
k ∈ Z, und streng monoton fallend auf den Intervallen [k 2π, π + k 2π], k ∈ Z. Die
Kosinusfunktion ist daher auch injektiv auf jedem dieser Intervalle, und wir können für
jedes k ∈ Z die Umkehrfunktion von
cos : [−π + k 2π, k 2π] → [−1, 1]
bzw.
cos : [k 2π, k 2π + π] → [−1, 1]
einführen.
Die Umkehrfunktionen des Sinus und des Kosinus werden üblicherweise für die Einschränkungen dieser Funktionen auf die Intervalle [−π/2, π/2] bzw. [0, π] definiert. Auf
diesen Intervallen sind die Funktionen jeweils streng monoton und damit injektiv.
3. Funktionen und ihre grundlegenden Eigenschaften
95
Definition 3.49. (Arkussinus und Arkuskosinus)
(i) Die Umkehrfunktion sin−1 : [−1, 1] → [−π/2, π/2] von sin : [−π/2, π/2] → [−1, 1]
wird mit sin−1 (x) = arcsin(x) bezeichnet und heißt Arkussinus.
(ii) Die Umkehrfunktion cos−1 : [−1, 1] → [0, π] von cos : [0, π] → [−1, 1] wird mit
cos−1 (x) = arccos(x) bezeichnet und heißt Arkuskosinus.
Der Arkussinus und der Arkuskosinus sind in Abbildung 3.11 gezeichnet.
Abb. 3.11: Der Graph von arcsin(x) (links) und der Graph von arccos(x) (rechts).
Betrachten wir nun die Funktionen Tangens und Kotangens, deren Eigenschaften wir
ebenfalls an den Graphen ablesen können. Der Graph des Tangens ist in Abbildung 3.12
gezeichnet, und gemäß der Beziehung (vgl. (1.25))
π
(3.7)
cot(x) = − tan x +
2
erhalten wir den Graphen des Kotangens, indem wir den Graphen des Tangens an der
x-Achse spiegeln und um π/2 nach links verschieden (siehe Abbildung 3.13). In Abbildung
3.12 können wir folgende Eigenschaften des Tangens ablesen:
Beispiel 3.50. (Eigenschaften des Tangens) Wir sehen mit Hilfe des Graphen der
Tangensfunktion (siehe Abbildung 3.12), dass die Tangensfunktion
tan : R \
nπ
2
o
+ kπ k ∈ Z → R,
die folgenden Eigenschaften hat:
tan(x) =
sin(x)
,
cos(x)
96
3.5. Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
Abb. 3.12: Der Graph der Tangensfunktion und seine Asymptoten.
• Die Tangensfunktion ist unbeschränkt.
• Die Tangensfunktion ist periodisch mit Periode π.
• Die Tangensfunktion ist ungerade, denn
tan(−x) =
− sin(x)
sin(x)
sin(−x)
=
=−
= − tan(x).
cos(−x)
cos(x)
cos(x)
• Die Tangensfunktion ist nicht injektiv, da sie periodisch ist.
• Die Tangensfunktion ist nicht bijektiv, da sie nicht injektiv ist.
• Die Tangensfunktion ist surjektiv, da ihr Bild Btan = R ist.
• Die Tangensfunktion ist auf jedem offenen Intervall − π2 + kπ, π2 + kπ , k ∈ Z, streng
monoton wachsend. Also ist die Tangensfunktion auf jedem Intervall − π2 +kπ, π2 +kπ ,
k ∈ Z, injektiv und surjektiv, d.h. wir können für jedes k ∈ Z die Umkehrfunktion von
π
π
tan : − + kπ, + kπ → R
2
2
bilden.
3. Funktionen und ihre grundlegenden Eigenschaften
Abb. 3.13: Der Graph der Kotangensfunktion und seine Asymptoten.
Abb. 3.14: Der Graph der Arkustangensfunktion und seine Asymptoten.
97
98
3.5. Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
Die Bestimmung der entsprechenden Eigenschaften des Kotangens wird in der Übung
besprochen.
Die Umkehrfunktion des Tangens wird üblicherweise für die Einschränkung des Tangens
auf das Intervall (−π/2, π/2) definiert.
Definition 3.51. (Arkustangens und Arkuskotangens)
(i) Die Umkehrfunktion tan−1 : R → (−π/2, π/2) von tan : (−π/2, π/2) → R wird mit
tan−1 (x) = arctan(x) bezeichnet und heißt Arkustangens.
(ii) Die Umkehrfunktion cot−1 : R → (0, π) von cot : (0, π) → R wird mit cot−1 (x) =
arccot(x) bezeichnet und heißt Arkuskotangens.
In Abbildung 3.14 haben wir den Graphen des Arkustangens gezeichnet.
Der Graph des Arkuskotangens kann aus dem Graphen des Arkustangens mit der Beziehung (3.7) leicht als Übung hergeleitet werden, und wir haben diesen in Abbildung 3.15
gezeichnet.
Abb. 3.15: Der Graph der Arkuskotangensfunktion und seine Asymptoten.
Kapitel 4
Folgen und Grenzwerte
In diesem Kapitel betrachten wir Folgen reeller Zahlen und untersuchen deren mögliche
Eigenschaften, z.B. Monotonie und Beschränktheit. Dabei werden wir viele Begriffe wiedertreffen, die wir bereits im Kontext von Funktionen kennengelernt haben. Es kommen
aber auch neue Begriffe hinzu, z.B. der Begriff einer alternierenden Folge. Zuletzt lernen
wir den anspruchsvollen Begriff des Grenzwertes kennen. Der Grenzwert ist ein zentraler
Begriff der Analysis, der Ihnen immer wieder begegnen wird. So können Stetigkeit und
Differenzierbarkeit nur eingeführt werden, nachdem der Begriff des Grenzwertes eingeführt
und verstanden worden ist.
4.1
Einführung: Folgen reeller Zahlen
Betrachten wir zunächst ein Beispiel und formulieren einige Fragen, die wir im Laufe
dieses Kapitels beantworten werden.
Betrachten wir die Anordnungen“
”
1 1 1 1
1
1
, , , , ..., ,
, ... ,
1 2 3 4
n n+1
12 , 22 , 32 , 42 , . . . , n2 , (n + 1)2 , . . .
und
(−1)1 , (−1)2 , (−1)3 , (−1)4 , . . . , (−1)n , (−1)n+1 , . . . ,
wobei die Einträge geordnet sind, d.h. die Reihenfolge der Einträge ist vorgegeben
und darf nicht verändert werden. In allen drei Anordnungen“ sind eine unendliche
”
abzählbare Menge reeller Zahlen in einer festen Reihenfolge aufgelistet worden. So finden
wir in den drei Beispielen, das der n-te Eintrag jeweils 1/n, n2 bzw. (−1)n ist. Wenn Sie
aus der Schule mit Vektoren vertraut sind, dann können Sie sich die Anordnungen“ als
”
Vektoren mit unendlich aber abzählbar vielen Komponenten“ vorstellen.
”
Wir könnten nun auch jeweils die Kurzschreibweise
1
,
(n2 )n∈N
bzw.
(−1)n n∈N
n n∈N
99
100
4.1. Einführung: Folgen reeller Zahlen
einführen, die so zu verstehen ist, dass man jeweils n ∈ N, also n = 1, 2, 3, . . ., in dieser
Reihenfolge in den Ausdruck 1/n, n2 bzw. (−1)n einsetzt und diese Zahlen in derselben
Reihenfolge hintereinander auflistet.
Bei unseren Anordnungen“ handelt es sich um Folgen reeller Zahlen; den Begriff der
”
Folge kann man sich dabei so erklären, das die Abfolge/Reihenfolge der abzählbar
vielen Zahlen fest vorgegeben ist. Ändern wir die Reihenfolge, so erhalten wir eine
andere Folge.
Wir wollen nun ein paar Fragen formulieren:
• Was für Eigenschaften einer Folge können wir möglicherweise beobachten?
Beispielsweise sehen wir, dass die Werte der Folge (1/n)n∈N immer kleiner werden,
wenn n wächst und dass die Werte der Folge (n2 )n∈N immer größer werden, wenn n
wächst. Analog zu Funktionen könnten wir hier von einer (streng) monoton fallenden bzw. einer (streng) monoton wachsenden Folge sprechen.
Für die Folgen (1/n)n∈N und (−1)n n∈N beobachten wir, dass gilt
1
(−1)n ≤ 1 für alle n ∈ N.
≤ 1 für alle n ∈ N
bzw.
n
Wir könnten also analog zu Funktionen von beschränkten Folgen sprechen.
• Was passiert mit den Werten der Folge, wenn n ∈ N immer größer wird?
Für die Folge (1/n)n∈N beobachten wir, dass die Werte 1/n der Folge sich immer weiter
an Null annähern; mathematisch gesprochen ist die Zahl Null der Grenzwert der Folge
(1/n)n∈N .
Für die Folge (n2 )n∈N finden wir, dass die Wert der Folge beliebig gross werden aber
sich keiner reellen Zahl annähern, da sie immer weiter wachsen. Diese Folge hat keinen
sogenannten Grenzwert, sie ist divergent“.
”
Die Analogie zu Funktionen ist auch formal gegeben, denn wir können Folgen auch als
Funktionen auf den natürlichen Zahlen auffassen! Für unsere drei Beispiele könnten
wir also schreiben:
f : N → R,
g : N → R,
h : N → R,
1
,
n
n 7→ g(n) = n2 ,
n 7→ f (n) =
n 7→ h(n) = (−1)n .
Vielleicht finden einige Leser dieses einfacher und verständlicher, weil wir das Konzept
der Funktion schon ausführlich betrachtet haben. Der Begriff des Grenzwerts entspricht
dann dem Auftreten einer horizontalen Asymptote der Funktion.
Nur definieren wir formal, was eine Folge reeller Zahlen ist.
Definition 4.1. (Folge reeller Zahlen) Eine Folge (reeller Zahlen) ist eine An”
ordnung“
(an )n∈N = (a1 , a2 , a3 , . . . , an , . . .),
(4.1)
4. Folgen und Grenzwerte
101
wobei a1 , a2 , a3 , . . . , an , . . . ∈ R. Die einzelnen Werte an heißen die Folgenglieder der
Folge, und n nennt man den Index der Folge. Hierbei kann man den Index n als Platznummer oder Position des Folgengliedes an auffassen; an ist also das n-te Folgenglied. Wir nutzen für die Folge gelegentlich auch die Kurznotation (an )n bzw. (an ) (wenn
klar ist, dass n ∈ N der laufende Index ist).
Wir können die Folge (4.1) auch als Funktion f : N → R mit dem Definitionsbereich Df = N interpretieren, also
f : N → R,
n 7→ f (n) = an .
Betrachten wir weitere Beispiels für Folgen reeller Zahlen.
Beispiel 4.2. (Folgen reeller Zahlen)
(a) Die Folge (an )n∈N = (n)n∈N mit an = n ist die Folge, deren Folgenglieder gerade die
natürlichen Zahlen sind, also
1, 2, 3, . . . , n, . . . .
Hier werden die Folgenglieder an = n immer größer. Wir werden im nächsten Teilkapitel lernen, dass diese Folge unbeschränkt“ ist.
”
n
n
(b) (bn )n≥0 = (2 )n≥0 mit bn = 2 ist die Folge
1, 2, 4, 8, 16, . . . , 2n , . . . .
Hier zeigt der Index n ≥ 0“ statt n ∈ N“ an, dass wir für n alle ganzen Zahlen n ≥ 0
”
”
betrachten. Die Folgenglieder bn = 2n wachsen über alle Grenzen hinaus. Wir werden
im nächsten Teilkapitel lernen, dass diese Folge unbeschränkt“ ist.
”
(c) Berechnen wir die Folgenglieder der Folge (cn )n∈N = (−1)n n∈N mit cn = (−1)n
explizit, so finden wir
−1
wenn n ungerade ist,
n
cn = (−1) =
1
wenn n gerade ist,
und erhalten somit:
− 1, 1, −1, 1, −1, 1, . . . .
Die Folge oszilliert“ also zwischen den Werten −1 und 1.
”
n n
mit dn = 1 + n1 , hat die Werte
(d) Die Folge (dn )n∈N = 1 + n1
n∈N
n
1
2, 2.25, 2.37, . . . , 1 +
, ... .
n
Die Folgenglieder dn nähern sich der sogenannten Eulerzahl e = 2.71828 . . . immer
weiter, wenn n immer größer wird.
102
4.1. Einführung: Folgen reeller Zahlen
1
0
0
1
8
6
4
2
00
11
00
11
0
1
000
11111111111111111111111111111111111111
00000000000000000000000000000000000000
00
11
0
1
00
11
00
11
0
1
1111
00
11
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
0
1
0
1
0
1
0
1
0
1
0
1
0
1
1
0
0
1
1
0
1
2
3
00
11
4
5
7 n
6
00
11
0
1
000
1111111111111111111111111111111111111
0000000000000000000000000000000000000
0
1
00
11
00
11
0
1
−1111
0
1
00
11
00
11
0
1
1
2
3
n
Abb. 4.1: Im linken Bild sind die ersten drei Folgenglieder der Folge (2n )n∈N gezeichnet.
Im rechten Bild sind die ersten sieben Folgenglieder der Folge (−1)n n∈N gezeichnet.
In Abbildung 4.1 haben wir die ersten Glieder der Folgen (2n )n∈N und (−1)n
zeichnet.
n∈N
ge-
Wir halten noch fest, wann zwei Folgen gleich sind.
Definition 4.3. (gleiche Folgen reeller Zahlen) Zwei Folgen reeller Zahlen (an )n∈N
und (bn )n∈N sind gleich, wenn gilt an = bn für alle n ∈ N.
Nach der vorigen Definition sind also die beiden Folgen
n−1
1
(an )n∈N =
und
(bn )n∈N = 1 −
n
n n∈N
n∈N
gleich, denn es gilt
an =
n−1
n 1
1
= − = 1 − = bn
n
n n
n
für alle n ∈ N.
Bemerkung 4.4. (Weiteres über Folgen)
(i) Gelegentlich ist es sinnvoll, die Folgenglieder bei einem Index n0 ∈ Z mit
n0 6= 1 starten zu lassen. Z.B. ist an = n/(n − 1) nur für n ≥ 2 erklärt. Man
schreibt dann (an )n≥n0 , also in dem konkreten Beispiel n/(n − 1) n≥2 . In Besipiel 4.2 (b) haben wir bereits ein weiteres solches Beispiel gesehen.
(ii) Der Index der Folge ist (genauso wie die Variable einer Funktion) nur ein
Platzhalter“, d.h. beispielsweise bei den Folgen
”
1
1
und
n n∈N
k k∈N
handelt es sich um dieselbe Folge.
4. Folgen und Grenzwerte
4.2
103
Eigenschaften von Folgen reeller Zahlen
Da man eine Folge (an )n∈N als eine Funktion f : N → R, f (n) = an , auf den natürlichen
Zahlen betrachten kann, übertragen sich die meisten Begriffe, die wir bereits für allgemeine
Funktionen kennengelernt haben, auf Folgen reeller Zahlen. Hier geht es insbesondere um
Monotonie sowie Beschränktheit, und wir werden noch einige weitere Begriffe für Folgen
einführen. – Die Begriffe einer geraden, ungeraden oder periodischen Funktion, sowie
Injektivität, Surjektivität und Bijektivität sind für Folgen nicht sinnvoll oder hilfreich.
Wir lernen nun verschiedene Typen von Folgen reeller Zahlen kennen.
Definition 4.5. (konstante Folge und alternierende Folge)
(i) Eine Folge reeller Zahlen (an )n∈N heißt konstant, falls alle Folgenglieder gleich sind,
d.h. falls es eine reelle Zahl c gibt, so dass an = c für alle n ∈ N gilt.
(ii) Eine Folge reeller Zahlen (an )n∈N heißt alternierend, wenn je zwei aufeinander
folgende Folgenglieder entgegengesetzte Vorzeichen besitzen.
Betrachten wir ein paar Beispiele.
Beispiel 4.6. (konstante Folge reeller Zahlen) Die Folge (an )n∈N = (3)n∈N mit an = 3
für alle n ∈ N ist eine konstante Folge reeller Zahlen.
Beispiel 4.7. (alternierende Folge) Die Folge (−1)n n∈N ist alternierend. Dies sieht
man wie folgt: Zunächst berechnen wir die ersten paar Folgenglieder
a1 = (−1)1 = −1,
a2 = (−1)2 = 1,
a3 = (−1)3 = −1,
a4 = (−1)4 = 1,
und wir vermuten, dass gilt
an =
−1
1
wenn n ungerade ist,
wenn n gerade ist.
(4.2)
Um (4.2) nachzuweisen, beobachten wir, dass die Rekursionsformel“
”
an+1 = (−1)n+1 = (−1) · (−1)n = (−1) an
für alle n ∈ N
gilt. Aus dieser Formel können wir direkt ablesen, dass die Folge alternierend ist, und wir
sehen, dass die Werte −1 und 1 immer abwechselnd auftreten, angefangen mit a1 = −1.
Die ersten Folgenglieder der alternierenden Folge (−1)n n∈N ist im rechten Bild in Abbildung 4.1 gezeichnet.
Wir lernen nun einen weiteren Typ von Folgen kennen.
Definition 4.8. (monotone Folge) Sei (an )n∈N eine Folge reeller Zahlen.
104
4.2. Eigenschaften von Folgen reeller Zahlen
(i) Die Folge (an )n∈N heißt monoton wachsend, wenn gilt an ≤ an+1 für alle n ∈ N.
Gilt sogar an < an+1 für alle n ∈ N, so heißt die Folge (an )n∈N streng monoton
wachsend.
(ii) Die Folge (an )n∈N heißt monoton fallend, wenn gilt an ≥ an+1 für alle n ∈ N.
Gilt sogar an > an+1 für alle n ∈ N, so heißt die Folge (an )n∈N streng monoton
fallend.
(iii) Ist eine Folge (streng) monoton wachsend oder (streng) monoton fallend, so nennen
wir sie (streng) monoton.
Wir bemerken, dass der Unterschied in Definition 4.8 (ii) zwischen einer monoton fallenden
und einer streng monoton fallenden Folge genau darin besteht, dass das ≥“durch ein
”
>“ ersetzt wurde. Analog besteht der Unterschied in Definition 4.8 (i) zwischen einer
”
monoton wachsenden und einer streng monoton wachsenden Folge genau darin, dass das
≤“ durch ein <“ ersetzt wurde.
”
”
Da aus an < an+1 (bzw. an > an+1 ) für alle n ∈ N automatisch an ≤ an+1 (bzw. an ≥ an+1 )
für alle n ∈ N folgt, ist eine streng monoton wachsende (bzw. streng monoton
fallende) Folge automatisch auch eine monoton wachsende (bzw. eine monoton
fallende) Folge.
Beispiel 4.9. (streng monoton wachsende Folge) Die Folge reeller Zahlen (an )n∈N ,
an = 2n , ist streng monoton wachsend, denn
an = 2n < 2 · 2n = 2n+1 = an+1
für alle n ∈ N.
Die ersten Folgenglieder der Folge (an )n∈N = (2n )n∈N sind im linken Bild in Abbildung 4.1
gezeichnet.
Beispiel 4.10. (monoton fallende und monoton wachsende Folge) Jede konstante
Folge (an )n∈N , an = c für alle n ∈ N, mit einer Konstante c ∈ R, ist sowohl monoton
wachsend also auch monoton fallend, denn es gilt
für alle n ∈ N,
an = c ≤ c = an+1
für alle n ∈ N.
an = c ≥ c = an+1
Man kann zeigen, dass die konstanten Folgen die einzigen Folgen reeller Zahlen sind, die
sowohl monoton wachsend als auch monoton fallend sind.
Beispiel 4.11. (streng monoton fallende Folge) Die Folge (1/n)n∈N ist streng monoton fallend, denn wegen
n+1>n
⇐⇒
1
1
>
n
n+1
für alle n ∈ N
folgt
an =
1
1
>
= an+1
n
n+1
für alle n ∈ N.
4. Folgen und Grenzwerte
105
Bemerkung 4.12. (monotone Folge)
(i) Ist eine Folge (an )n∈N (streng) monoton wachsend, so gilt
am ≤ an
bzw. am < an )
für alle m, n ∈ N mit m < n.
(ii) Ist eine Folge (an )n∈N (streng) monoton fallend, so gilt
am ≥ an
bzw. am > an )
für alle m, n ∈ N mit m < n.
Eine wichtige Klasse von Folgen reeller Zahlen sind die beschränkten Folgen.
Definition 4.13. (beschränkte Folge und unbeschränkte Folge) Eine Folge reeller
Zahlen (an )n∈N heißt beschränkt, wenn es eine Schranke S ≥ 0 gibt, so dass gilt
|an | ≤ S
für alle n ∈ N.
(4.3)
Ist eine Folge reeller Zahlen (an )n∈N nicht beschränkt, so nennen wir sie unbeschränkt.
Betrachten wir zunächst ein Beispiel.
Beispiel 4.14. (beschränkte Folge) Die Folge (1/n)n∈N ist beschränkt mit der Schranke
S = 1 und, denn
1
|an | = ≤ 1 = S
n
für alle n ∈ N.
Die Bedingung (4.3) an eine beschränkte Folge lässt sich äquivalent wie folgt ausdrücken:
− S ≤ an ≤ S
für alle n ∈ N.
(4.4)
In Bild 4.2 ist eine beschränkte Folge illustriert: Die Formel (4.4) bedeutet, dass die
Folgenglieder alle in dem horizontalen Schlauch“ von y = −S bis y = S liegen.
”
Betrachten wir noch ein paar Beispiele für beschränkte und unbeschränkte Folgen.
Beispiel 4.15. (beschränkte Folge) Die alternierende Folge (−1)n
denn
(−1)n = 1 ≤ S = 1
für alle n ∈ N.
n∈N
ist beschränkt,
Beispiel 4.16. (unbeschränkte Folge) Die Folge (an )n∈N = (n)n∈N ist unbeschränkt,
denn die Folgenglieder an = n werden beliebig groß. Also kann es keine Schranke S ≥ 0
geben für die gilt |an | = n ≤ S für alle n ∈ N.
106
4.3. Konvergenz von Folgen
S
•
2
•
•
1
0
•
1
2
•
3
4
5
6
7
8
•
9
•
−1
−2
•
•
−S
Abb. 4.2: Eine beschränkte Folge (an )n∈N mit Schranke S, d.h. |an | ≤ S für alle n ∈ N
oder äquivalent dazu −S ≤ an ≤ S für alle n ∈ N. Alle Folgenglieder an liegen in dem
Intervall [−S, S], d.h. in dem horizontalen Schlauch“ −S ≤ y ≤ S.
”
4.3
Konvergenz von Folgen
Wir führen nun den Begriff des Grenzwertes ein. Dies ist einer der schwierigsten Begriffe
der Analysis. Lassen Sie sich von dem abstrakten Konzept des Grenzwertes aber nicht
abschrecken. Wenn wir dieses verstanden haben, dann wird es einfach und intuitiv.
Wir betrachten zunächst ein paar Beispiele von sogenannten konvergenten Folgen
und deren Grenzwerten sowie von sogenannten divergenten Folgen, um ein Gefühl
für die Begriffe der Konvergenz, des Grenzwertes und der Divergenz zu bekommen.
Unsere fünf Beispiel-Folgen sind:
1
n
(−1)n
,
,
,
(n)n∈N
(−1)n n∈N .
(4.5)
n n∈N
n + 1 n∈N
n
n∈N
Wenn wir sagen, eine Folge (an )n∈N konvergiert gegen einen Grenzwert g ∈ R“,
”
dann bedeutet dies anschaulich, dass sich die Werte an der Zahl g immer weiter
annähern, wenn der Index n ∈ N immer größer wird. Betrachten wir zunächst die
ersten drei Beispiele:
• Für die Folge (1/n)n∈N nähern sich die Folgenglieder an = 1/n immer dichter der Zahl
g = 0 an, wenn n ∈ N größer wird. Dabei kommen wir der Zahl g = 0 beliebig nahe,
indem wir n groß genug wählen: Z.B. gilt für ε = 1/106 = 10−6 , dass
1
1
für alle n ≥ N = 106 + 1.
(4.6)
|an − g| = − 0 = < 10−6 = ε
n
n
Wichtig ist bei der Idee der Konvergenz auch, dass wir nicht nur ein N ∈ N (hier
also N = 106 + 1) finden können, so dass wir für dieses N nahe bei g sind (also hier
|aN −g| < 10−6 ), sondern dass auch alle nachfolgenden Folgenglieder an mit n ≥ N
4. Folgen und Grenzwerte
107
mindestens genauso nahe bei g sind. In diesem Beispiel ist das erfüllt, denn (4.6)
gilt für alle n ≥ N = 106 + 1.
• Für die Folge n/(n + 1) n∈N sehen wir, dass für großes n ∈ N der Zähler n und der
Nenner n + 1 der Folgenglieder an = n/(n + 1) sich beide relativ zur Größe von n (oder
in anderen Worten prozentual) nur wenig unterscheiden. Wir haben also für großes n
an =
n
≈ 1,
n+1
und je größer n wird, desto dichter liegt der Wert
von an bei der Zahl 1. Also vermuten
wir, dass der Grenzwert der Folge n/(n + 1) n∈N die Zahl g = 1 ist.
Man kann sich dies mit Hilfe des vorigen Beispiels aus noch anders klarmachen: Schreiben wir
n
(n + 1) − 1
n+1
1
1
an =
=
=
−
=1−
,
(4.7)
n+1
n+1
n+1 n+1
n+1
so können wir mit den Überlegungen für (1/n)n∈N vermuten, dass 1/(n + 1) n∈N gegen den Grenzwert g1 = 0 konvergiert.
Daher sollte wegen der Darstellung (4.7) der
Folgenglieder die Folge n/(n + 1) n∈N gegen g = 1 − g1 = 1 − 0 = 1 konvergieren.
• Bei der Folge (−1)n /n n∈N handelt es sich um eine alternierende Folge, aber auch
hier nähern sich die Folgenglieder an = (−1)n /n der Zahl Null immer weiter an. Wir
vermuten also, dass auch hier der Grenzwert g = 0 ist. Analog zur Folge (1/n)n∈N finden
wir für z.B. ε = 1/106 = 10−6 , dass
(−1)n 1 (−1)n
= < 10−6 = ε
für alle n ≥ N = 106 + 1.
− 0 = |an − g| = n
n n
An diesem Beispiel sehen wir, dass es nicht erforderlich ist, dass sich die Folgenglieder
dem Grenzwert von einer Seite“ her nähern: Die Folgenglieder
”

 −1
wenn n ungerade ist,
(−1)n  n
=
an =

1
n

wenn n gerade ist,
n
sind abwechselnd kleiner bzw. größer als der Grenzwert g = 0.
Wir halten noch einmal fest, was wir aus diesen drei Beispielen über konvergente Folgen
gelernt haben:
• Die Folgenglieder an einer konvergenten Folge (an )n∈N nähern sich dem Grenzwert g immer weiter an, wenn n ∈ N wächst. Dabei muss die Annäherung nicht
monoton“ sein, d.h. die Folgenglieder sich können von beiden Seiten dem Grenzwert
”
nähern.
• Wichtig ist aber, dass für jede beliebige fest vorgegebene Entfernung ε > 0, alle
Folgenglieder an ab einem gewissen Index N nicht weiter als diese Entfernung
ε vom Grenzwert g entfernt sind, also dass für alle an mit n ≥ N gilt |an − g| < ε.
Dabei hängt die Wahl von N natürlich von der Entfernung ε ab.
Betrachten wir nun die beiden letzten Beispiele von Folgen in (4.5).
108
4.3. Konvergenz von Folgen
• Die Folgenglieder an = n der Folge (n)n∈N werden beliebig groß, wenn n ∈ N wächst.
Insbesondere könnnen wir keine reelle Zahl g finden, an die sich die Folgenglieder immer
weiter annähern. Daher vermuten wir, dass die Folge (n)n∈N keinen Grenzwert hat
und damit divergent ist. (Man sagt eine Folge ist divergent“, wenn sie nicht gegen
”
einen Grenzwert konvergiert.)
• Die alternierende Folge (−1)n n∈N ist ein anderer Fall als (n)n∈N , denn hier gilt
−1
wenn n ungerade ist,
n
an = (−1) =
+1
wenn n gerade ist.
Die Folgenglieder sind also abwechselnd −1 und +1. Wir könnten nun vermuten, dass
g1 = −1 und g2 = +1 beides Grenzwerte der Folge sind. Dies ist aber nicht der Fall,
denn eine konvergente Folge hat nur einen Grenzwert, und dieser ist eindeutig
bestimmt.
Dass die beiden Zahlen g1 = −1 und g2 = +1 keine Grenzwerte der Folge (−1)n n∈N
sind, kann man sich auch mit unserem bisherigen intuitiven Verständnis der Konvergenz
wie folgt
klar machen: Betrachten wir z.B. g2 = +1. Wäre dies ein Grenzwert der Folge
(−1)n n∈N , dann sollte es für ε = 1/10 ein N geben, so dass alle an mit n ≥ N
höchstens den Abstand ε = 1/10 von g2 = +1 haben. Dies ist aber für alle an = −1
(also alle an mit ungeraden n ≥ N) nicht erfüllt! Genauso kommt g1 = −1 (oder
eine andere
reelle Zahl g) als Grenzwert nicht in Frage. Wir sehen also, dass die Folge
n
(−1) n∈N keinen Grenzwert haben kann und daher divergent sein muss.
Nun definieren wir den Grenzwert und die Begriffe konvergent“ und divergent“ formal.
”
”
Wenn wir anschliessend die abstrakte Definition untersuchen, werden wir sehen, dass diese
lediglich mathematisch beschreibt, was wir bereits an unseren Beispielen gesehen haben.
Definition 4.17. (Grenzwert einer Folge reeller Zahlen, Konvergenz und Divergenz) Sei (an )n∈N eine Folge reeller Zahlen. Eine reelle Zahl g heißt der Grenzwert
(oder Limes) der Folge (an ), wenn für jede reelle Zahl ε > 0 ein N = N(ε) in N
existiert, so das gilt
|an − g| < ε
für alle n ≥ N.
(4.8)
Zu beachten ist dabei, dass die Wahl von N von ε abhängt, was durch die Schreibweise
N = N(ε) ausgedrückt wird.
Folgen reeller Zahlen (an )n∈N , die einen Grenzwert g besitzen, nennt man konvergent.
Man sagt auch, dass die konvergente Folge (an )n∈N gegen den Grenzwert g konvergiert und schreibt an → g für n → ∞“ oder lim an = g.
”
n→∞
Alle Folgen reeller Zahlen, die nicht konvergent sind, nennt man divergent. Man sagt
auch, dass eine divergente Folge divergiert.
Die Idee hinter der abstrakten Definition des Grenzwertes liefert die folgende
Überlegung: Zunächst einmal bemerken wir, dass (4.8) äquivalent ist zu
− ε < an − g < ε für alle n ≥ N + g
4. Folgen und Grenzwerte
⇐⇒
109
g − ε < an < g + ε für alle n ≥ N,
(4.9)
wobei wir in der Umformung überall g addiert haben. Dies bedeutet aber, dass alle Folgenglieder an mit n ≥ N in dem Intervall (g − ε, g + ε) liegen müssen (siehe auch Abbildung 4.3). Da (4.8) für jedes ε > 0 gelten muss, können wir ε > 0 immer kleiner machen,
und zu jedem (beliebig kleinen) ε > 0 finden wir ein N = N(ε), so dass alle Folgenglieder
an mit n ≥ N im Intervall (g − ε, g + ε) liegen. Indem wir ε > 0 immer kleiner machen
schrumpft das Intervall (g − ε, g + ε) irgendwann auf den einen Punkt g zusammen. Dies
ist der Grenzwert der konvergenten Folge (an )n∈N .
aN +2
aN
g−ε
aN +1 aN +4 aN +3
g+ε
g
Abb. 4.3: Zu jedem ε > 0 kann man ein N = N(ε) finden, so dass alle an mit n ≥ N
in dem offenen Intervall (g − ε, g + ε) liegen. Dies ist angedeutet, indem wir die ersten
Folgenglieder an mit n ≥ N eingezeichnet haben. Alle weiteren an mit n ≥ N liegen
ebenfalls in (g − ε, g + ε).
Achtung: Die Limes-Schreibweise darf nur verwendet werden, wenn eine Folge konvergiert! Bevor man schreibt lim an“, muss man sich erst davon überzeugt haben, dass
”n→∞
dieser Grenzwert auch wirklich existiert, d.h. dass die Folge (an )n∈N konvergiert!
Wir wollen nun für einige unserer Beispiele konvergenter Folgen vom Anfang dieses Teilkapitels die Konvergenz mit Hilfe der Definition 4.17 nachweisen.
Beispiel 4.18. (konvergente Folge) Wir wollen zeigen, dass Folge (1/n)n∈N gegen den
Grenzwert g = 0 konvergiert, also dass gilt
1
= 0.
n→∞ n
lim
Nachweis: Wir gehen gemäß Definition 4.17 vor. Sei ε > 0 beliebig. Dann suchen wir ein
N = N(ε) ∈ N (welches von ε abhängt) so, dass gilt
1
1 1
|an − g| = − 0 = = < ε
für alle n ≥ N.
(4.10)
n
n
n
Wir überlegen uns nun, dass für n ≥ N immer gilt
1
1
≤
n
N
für alle n ≥ N.
Damit erhalten wir
1
1
1
|an − g| = − 0 = ≤
n
n
N
für alle n ≥ N.
(4.11)
110
4.3. Konvergenz von Folgen
Wenn wir nun N = N(ε) so wählen können, dass gilt
1
< ε,
N
(4.12)
dann folgt aus (4.11) und (4.12), dass (4.10) erfüllt ist, und wir haben gezeigt, dass die
Folge (1/n)n∈N gegen g = 0 konvergiert.
Umformen von (4.12) liefert
1
< ε : ε
N
⇐⇒
1
< 1 · N
εN
1
< N,
ε
⇐⇒
wobei alle <“-Zeichen erhalten bleiben, da ε > 0 und N > 0 gelten. Wählen wir also
”
N = N(ε) ∈ N so, dass N > 1/ε gilt, so folgt (4.12).
Abschliessend halten wir unseren Nachweis der Konvergenz noch einmal zusammengefasst
fest: Zu jeden beliebigen ε > 0 wählen wir N = N(ε) ∈ N mit N = N(ε) > 1/ε, und
dann gilt
1 1
1
1
<ε
für alle n ≥ N.
|an − g| = − 0 = = ≤
n
n
n
N
Eine konvergente Folge mit Grenzwert Null (wie z.B. im vorigen Beispiel) nennt man eine
sogenannte Nullfolge.
Definition 4.19. (Nullfolge) Eine Folge reeller Zahlen (an )n∈N heißt eine Nullfolge,
wenn die Folge (an )n∈N gegen den Grenzwert g = 0 konvergiert, d.h. lim an = 0.
n→∞
Betrachten wir noch zwei weitere Beispiele konvergenter Folgen, diesmal jeweils mit einem
Grenzwert ungleich Null.
Beispiel 4.20. (Konvergenz einer konstanten Folge) Sei (an )n∈N = (c)n∈N mit an = c
für alle n ∈ N eine konstante Folge. Dann ist die Folge konvergent mit dem Grenzwert
g = c.
Nachweis: Um dies nachzuweisen, müssen wir zu einem beliebigen ε > 0 ein N = N(ε) ∈ N
(das in der Regel von ε abhängt) finden, so dass gilt
|an − g| = |c − c| = 0 < ε
für alle n ≥ N.
Diese Bedingung ist aber automatisch für alle n ∈ N erfüllt, d.h. wir können N = N(ε) = 1
wählen und erhalten: Zu jedem ε > 0 gilt für N = N(ε) = 1, dass
|an − g| = |c − c| = 0 < ε
für alle n ≥ N = 1.
Damit haben wir gezeigt, dass die konstante Folge (c)n∈N gegen den Grenzwert g = c
konvergiert.
4. Folgen und Grenzwerte
111
Beispiel 4.21. (konvergente Folge) Um zu zeigen, dass die Folge
n
(an )n∈N =
n + 1 n∈N
gegen den Grenzwert g = 1 konvergiert, gehen wir wie folgt vor:
Wir betrachten ein beliebiges ε > 0. Wir suchen nun ein N = N(ε) ∈ N, so dass gilt
n − (n + 1) −1 n
=
= 1 <ε
− 1 = für alle n ≥ N.
|an − g| = n+1
n+1
n + 1 n + 1
(4.13)
Da wir nun n ≥ N betrachten müssen können wir 1/(n + 1) in (4.13) wie folgt nach oben
abschätzen
1
1
1
< ≤
für alle n ≥ N.
(4.14)
n+1
n
N
Aus (4.14) folgt also
n
1
1
− 1 =
<
|an − g| = n+1
n+1
N
für alle n ≥ N.
(4.15)
Können wir nun N = N(ε) ∈ N so wählen, dass 1/N ≤ ε gilt, dann folgt aus (4.15), dass
(4.13) gilt. Die Bedingung 1/N ≤ ε kann aber wie folgt in eine äquivalente Bedingung für
N umgewandelt werden:
1
1
1
⇐⇒
⇐⇒
≤ε :ε
≤ 1 · N
≤ N.
N
εN
ε
Wählen wir also N = N(ε) ∈ N so, dass N ≥ 1/ε gilt, so gilt 1/N ≤ ε, und Einsetzen in
(4.15) liefert
n
1
1
|an − g| = − 1 =
<
≤ε
für alle n ≥ N,
n+1
n+1
N
d.h. die Folge n/(n + 1) n∈N konvergiert gegen g = 1.
Bemerkung 4.22. (Tricks zum Umgang mit der Definition von Konvergenz)
Sei (an )n∈N eine Folge reeller Zahlen. Dann gelten folgende Aussagen:
(i) Die Folge (an )n∈N konvergiert genau dann gegen den Grenzwert g, wenn für jede Zahl
ε > 0 ein Index N = N(ε) ∈ N existiert, so dass gilt:
|an − g| ≤ ε
für alle n ≥ N.
Wir dürfen also in unseren Abschätzungen jederzeit |an − g| ≤ ε statt |an − g| < ε
( <“ wurde durch ≤“ ersetzt) für alle n ≥ N beweisen.
”
”
(ii) Es gebe ein K > 0, so dass für jede Zahl ε > 0 ein Index N = N(ε) ∈ N existiert,
so dass gilt
|an − g| ≤ K · ε
für alle n ≥ N.
Auch dann konvergiert (an )n∈N gegen g. – Wichtig ist hier, dass K unabhängig
von ε und N ist.
112
4.3. Konvergenz von Folgen
(iii) Die Folge (an )n∈N besitzt den Grenzwert g genau dann, wenn gilt lim (an − g) = 0,
also wenn (an − g)n∈N eine Nullfolge ist.
n→∞
Nachdem wir nun einige Beispiele gesehen haben, stellen wir uns die sehr natürliche Frage,
ob eine Folge auch mehr als einen Grenzwert haben kann? Die Antwort ist nein“.
”
Satz 4.23. (Eindeutigkeit des Grenzwerts) Der Grenzwert einer konvergenten Folge
ist eindeutig bestimmt, d.h. eine konvergente Folge hat genau einen Grenzwert.
Der obige Satz sagt uns also, dass wir für jede Folge (an )n∈N genau eine der beiden
Situationen haben: Entweder divergiert (an )n∈N ; oder (an )n∈N konvergiert, und in
diesem Fall können wir der Folge einen eindeutigen Grenzwert zuweisen.
Der Beweis von Satz 4.23 ist in Teilkapitel 4.5 mit dem ergänzenden Material zu finden.
Was bedeutet die Divergenz einer Folge?
Mit dem folgenden Lemma können wir in vielen, aber nicht allen, Fällen divergenter
Folgen leicht nachweisen, dass eine Folge divergiert.
Lemma 4.24. (konvergent ⇒ beschränkt) Jede konvergente Folge (an )n∈N reeller
Zahlen ist beschränkt.
Wir bemerken, dass die umgekehrte Aussage aber leider nicht gilt: Eine beschränkte
Folge muss nicht konvergent
sein! Dies zeigt beispielsweise die divergente aber be
n
schränkte Folge (−1) n∈N (vgl. Beispiel 4.15). Wir werden später noch sehen, wie man
zeigt, dass die Folge (−1)n n∈N divergiert.
Der Wert des vorhergehenden Lemmas liegt unter anderem in der Kontraposition
(vgl. Teilkapitel 2.3) der Aussage: Diese besagt, dass eine unbeschränkte Folge nicht
konvergent sein kann.
Folgerung 4.25. (nicht beschränkt ⇒ nicht konvergent) Eine unbeschränkte Folge
reeller Zahlen (an )n∈N ist divergent.
Betrachten wir ein Beispiel, in dem wir diese Folgerung anwenden.
Beispiel 4.26. (Anwendung von Folgerung 4.25) Betrachten wir nun noch einmal die
Folge (n)n∈N , für die wir in Beispiel 4.16 bereits nachgewiesen haben, dass sie unbeschränkt
ist. Da die Folge (n)n∈N unbeschränkt ist, folgt mit Hilfe von Folgerung 4.25, dass sie nicht
konvergent ist.
Der Beweis von Lemma 4.24 befindet sich in Teilkapitel 4.5 mit dem ergänzenden Material.
Wir kommen nun noch einmal auf die Frage zurück, was die Divergenz einer Folge
4. Folgen und Grenzwerte
113
bedeutet. Dies kann aber muss nicht bedeuten, dass eine Folge unbeschränkt ist. Es
kann aber auch lediglich bedeuten, dass die Folge sehr wohl beschränkt ist aber trotzdem
keinen Grenzwert hat. Wir wollen dies am Beispiel der divergenten Folge (−1)n n∈N
untersuchen.
Beispiel 4.27. (alternierende divergente Folge) Die Folge (−1)n n∈N mit an =
(−1)n haben wir bereits in Beispielen 4.7 und 4.15 untersucht. In Beispiel 4.7 haben wir
gesehen, dass die Folge alterniert und dass gilt:
−1
wenn n ungerade ist,
an =
+1
wenn n gerade ist.
Machen wir uns zunächst anschaulich klar, warum diese Folge divergieren muss, bevor wir
dies formal beweisen. Als Kandidaten für Grenzwerte kommen hier nur die beiden Werte
g1 = −1 und g2 = +1 in Frage, da die Folge nur diese beiden Werte annimmt. Wäre
beispielsweise g2 = +1 der Grenzwert von (−1)n n∈N , so müsste gelten, dass zu jedem
ε > 0 ein N = N(ε) ∈ N existiert, so dass für alle n ≥ N gilt:
(
)
|(−1)
−
1|
=
|
−
2|
=
2
wenn
n
ungerade
|an − g2 | = |(−1)n − 1| =
< ε.
|1 − 1| = 0
wenn n gerade
Für alle ungeraden n ≥ N erhalten wir also die Bedingung 2 < ε und diese Bedingung
ist
für alle ε ≤ 2 nicht erfüllbar; egal wie wir N wählen. Daher kann die Folge (−1)n n∈N
nicht gegen g2 = +1 konvergieren. Analog zeigt man, dass die Folge (−1)n n∈N nicht
gegen g1 = −1 konvergieren kann. Dies macht anschaulich klar, dass die Folge (−1)n n∈N
nicht konvergiert, also dass sie divergiert.
Streng genommen muss man aber nachweisen, dass die Folge keinen Grenzwert g hat,
denn dies bedeutet der Definition 4.17 nach, dass die Folge divergiert. Dazu muss man
zeigen, dass es kein g ∈ R gibt, dass ein Grenzwert ist, oder in anderen Worten, dass
für jedes g ∈ R die Grenzwert-Bedingung verletzt ist. Genauer (nach der Negation der
Konvergenz-Bedingung) müssen wir für jedes g ∈ R zeigen, dass es ein ε > 0 gibt, so dass
für kein N ∈ N die Grenzwert-Bedingung erfüllt ist. Dies bedeutet aber, dass für dieses
spezielle ε > 0 für jedes N ∈ N ein n0 ≥ N existiert, so dass |an0 − g| ≥ ε gilt.
Sei g ∈ R beliebig, wir wählen ε = 1, und N ∈ N sei beliebig. Wir wollen nun zeigen,
dass für n0 = N oder n0 = N + 1 die Bedingung |an0 − g| ≥ ε = 1 gilt. Dann ist die
Konvergenz-Bedingung verletzt und wir haben gezeigt, dass die Folge divergiert.
Wir wissen, dass jeweils eine der beiden aufeinander folgenden natürlichen Zahlen N und
N + 1 gerade bzw. ungerade ist. Also erhalten wir unter den Folgengliedern aN = (−1)N
aN +1 = (−1)N +1 einmal den Wert −1 und einmal den Wert +1. Mit der Dreiecksungleichung folgt nun (vgl. auch Abbildung 4.4)
2 = |−2| = |(−1)−1| = |(−1−g)+(g −1)| ≤ |−1−g|+|g −1| = |−1−g|+|1−g| (4.16)
Dies bedeutet aber, dass |−1−g| ≥ 1 oder |1−g| ≥ 1 gelten muss, denn wären |−1−g| < 1
und |1 − g| < 1, so könnten wir in (4.16) beide Terme auf der rechten Seite durch 1 nach
oben abschätzen, und wir bekämen
2 ≤ | − 1 − g| + |1 − g| < 1 + 1 = 2,
| {z } | {z }
<1
<1
114
4.4. Grenzwertsätze: Aussagen über konvergente Folgen
also 2 < 2, was ein Widerspruch ist! Daher muss gelten | − 1 − g| ≥ 1 oder |1 − g| ≥ 1.
Im Fall |1 − g| ≥ 1 ist aber entweder aN = 1 oder aN +1 = 1 und wir haben daher
|aN − g| ≥ 1 = ε oder |aN +1 − g| ≥ 1 = ε. Im Fall | − 1 − g| ≥ 1 ist aber entweder aN = −1
oder aN +1 = −1 und wir haben daher |aN − g| ≥ 1 = ε oder |aN +1 − g| ≥ 1 = ε. Also
ist
n
für ε = 1 die Konvergenzbedingung immer verletzt, und daher ist die Folge (−1) n∈N
divergent.
| − 1 − g|
−1
g
|1 − g|
0
1
Abb. 4.4: Veranschaulichung der Anwendung der Dreiecksungleichung in (4.16).
4.4
Grenzwertsätze: Aussagen über konvergente Folgen
Für komplizierte konvergente Folgen möchte man die Folge als Summe, Differenz, Produkt
und/oder Quotient mehrerer einfacher Folgen schreiben und die Untersuchung auf Konvergenz und die Grenzwertbestimmung für die einzelnen Anteile durchführen. Betrachten
wir zunächst ein Beispiel, um zu sehen, was damit gemeint ist.
Beispiel 4.28. (Rechnen mit Grenzwerten) Betrachten wir die Folge
(an )n∈N =
n2 − n
2 n2 + 1
.
n∈N
Für diese Folge ist es nicht direkt ersichtlich, dass sie konvergiert und was ihr Grenzwert
ist. Da sowohl im Nenner wie im Zähler die höchste Potenz n2 ist, teilen wir den Nenner
und den Zähler durch n2 (oder gleichwertig: wir erweitern den Nenner und den Zähler mit
1/n2 . Damit erhalten wir
1 − n1
n2 − n
an =
.
(4.17)
=
2 n2 + 1
2 + n12
Wir haben bereits gezeigt, dass die Folge (1/n)n∈N gegen Null konvergiert, und wir können
analog zeigen, dass die Folge (1/n2 )n∈N ebenfalls gegen Null konvergiert. Weiter konvergiert die konstante Folge (c)n∈N gegen den Grenzwert c. Damit wissen wir
1
= 0,
n→∞ n
lim
1
= 0,
n→∞ n2
lim
lim c = c
n→∞
für jede Konstante c ∈ R.
Wir würden nun gerne wie folgt argumentieren: Für die Folge im Zähler des umgeformten
4. Folgen und Grenzwerte
115
Folgengliedes (4.17) gilt
1
1
= 1 + 0 = 1,
lim 1 −
= lim 1 − lim
n→∞
n→∞
n→∞
n
| {z } | {z n }
=1
=0
und für die Folge im Nenner gilt
1
1
lim 2 + 2 = lim 2 + lim 2 = 2 + 0 = 2.
n→∞
n→∞
n→∞
n
| {z } | {z n }
=2
=0
(4.18)
(4.19)
Daraus würden wir nun gerne schliessen, dass gilt
lim 1 − n1
1 − n1
n2 − n
1
n→∞
lim
=
=
lim
,
=
1
1
n→∞ 2 n2 + 1
n→∞ 2 + 2
2
lim
2
+
2
n
n
n→∞
wobei wir im letzten Schritt (4.18) und (4.19) verwendet haben.
Der nachfolgende Satz sagt uns, dass unsere Argumentation im letzten Beispiel durchaus
korrekt war, denn alle involvierten Folgen waren konvergent und die Folge im Nenner war
keine Nullfolge.
Satz 4.29. (Rechnen mit konvergenten Folgen) Seien (an )n∈N und (bn )n∈N konvergente Folgen mit den Grenzwerten a bzw. b, also lim an = a und lim bn = b. Dann
n→∞
n→∞
gelten die folgenden Aussagen:
(i) Die Summenfolge (sn )n∈N = (an + bn )n∈N mit sn = an + bn konvergiert gegen den
Grenzwert a + b. In Formeln haben wir
lim sn = lim an + bn = lim an + lim bn = a + b.
n→∞
n→∞
n→∞
n→∞
(ii) Die Differenzenfolge (dn )n∈N = (an − bn )n∈N mit dn = an − bn konvergiert gegen
den Grenzwert a − b. In Formeln haben wir
lim dn = lim an − bn = lim an − lim bn = a − b.
(4.20)
n→∞
n→∞
n→∞
n→∞
(iii) Die Produktfolge (pn )n∈N = (an · bn )n∈N mit pn = an · bn konvergiert gegen den
Grenzwert a · b. In Formeln haben wir
lim pn = lim an · bn = lim an · lim bn = a · b.
n→∞
n→∞
n→∞
n→∞
(iv) Falls b 6= 0 und bn 6= 0 für alle n ∈ N gilt, konvergiert die Quotientenfolge
(qn ) = (an /bn )n∈N mit qn = an /bn gegen den Grenzwert a/b. In Formeln gilt also
lim an
a
an
= n→∞
= .
n→∞ bn
lim bn
b
lim qn = lim
n→∞
n→∞
116
4.4. Grenzwertsätze: Aussagen über konvergente Folgen
Warnung: Die obigen Rechenoperationen gelten nur für konvergente Folgen. Für
beliebige Folgen sind sie im Allgemeinen sinnlos und können sogar zu falschen Ergebnissen
führen!
Die Beweise von (i) und (iii) in Satz 4.29 befinden sich im Teilkapitel 4.5 mit dem ergänzenden Material.
Betrachten wir noch ein Beispiel für die Anwendung von Satz 4.29.
Beispiel 4.30. (Rechnen mit Grenzwerten) Betrachten wir die Folge
38 23
− n − 10
n2
.
27
+ 13
+ 5 n∈N
n2
n
Wir zeigen hier erst, dass die Folge im Zähler und die Folge im Nenner jeweils konvergieren,
sowie dass die Folge im Nenner und ihr Grenzwert ungleich Null sind. Danach können wir
Satz 4.29 (iv) anwenden, um den Grenzwert der Quotientenfolge zu bestimmen.
Weil gilt
lim 38 = 38,
n→∞
lim 23 = 23,
n→∞
lim 10 = 10,
n→∞
1
= 0,
n→∞ n
lim
1
= 0,
n→∞ n2
lim
folgt nach Satz 4.29 (i), (ii) und (iii), dass die Zählerfolge gegen der folgenden Grenzwert
konvergiert:
1
1
38 23
−
− 10 = lim 38 · 2 − 23 · − 10
lim
n→∞
n→∞ n2
n
n
n
1
1
− lim 10
= lim 38 · lim 2 − lim 23 · lim
n→∞
n→∞
n→∞ n
n→∞
n→∞ n
= 38 · 0 − 23 · 0 − 10 = −10.
Weil gilt
lim 27 = 27,
n→∞
lim 13 = 13,
n→∞
lim 5 = 5,
n→∞
1
= 0,
n→∞ n
lim
1
= 0,
n→∞ n2
lim
folgt nach Satz 4.29 (i), (ii) und (iii), dass die Nennerfolge gegen der folgenden Grenzwert
konvergiert:
1
1
27 13
+
+ 5 = lim 27 · 2 + 13 · + 5
lim
n→∞
n→∞ n2
n
n
n
1
1
= lim 27 · lim 2 + lim 13 · lim
+ lim 5
n→∞
n→∞ n
n→∞
n→∞
n→∞ n
= 27 · 0 + 13 · 0 + 5 = 5.
Weiter gilt für die Nennerfolge
13
27
+
+ 5 ≥ 5 > 0.
2
n
n
|{z}
|{z}
≥0 ≥0
4. Folgen und Grenzwerte
117
Daher können wir Satz 4.29 (iv) anwenden und finden dass die Quotientenfolge gegen den
folgenden Grenzwert konvergiert:
38
23
38
23
lim
−
−
10
2
n
n
− 10
−10
2 −
=
= −2.
lim n27 n13
= n→∞ 27 13
n→∞
5
+ n +5
lim n2 + n + 5
n2
n→∞
Bemerkung 4.31. (Anmerkung zu Satz 4.29) Eine Summenfolge (an + bn )n∈N oder
eine Differenzfolge (an − bn )n∈N kann konvergieren, obwohl die beiden Folgen (an )n∈N und
(bn )∈ N divergent sind. So sind z.B. die beiden Folgen (an )n∈N
= (n)n∈N und (bn )n∈N =
(n+1)n∈N divergent, aber die Folge (an −bn )n∈N = n−(n+1) n∈N = (−1)n∈N ist konstant
und konvergiert damit gegen den Grenzwert g = −1.
Wir lernen noch einen nützlichen Satz über die Konvergenz von Nullfolgen kennen.
Satz 4.32. (Aussagen über Nullfolgen)
(i) Gilt für zwei Folgen (an )n∈N und (bn )n∈N für ein geeigentes n0 ∈ N die Abschätzung
|an | ≤ |bn |
für alle n ≥ n0
und ist (bn )n∈N eine Nullfolge, so ist auch (an )n∈N Nullfolge.
(ii) Ist die Folge (an )n∈N beschränkt und ist die Folge (bn )n∈N eine Nullfolge, so ist die
Produktfolge (an · bn )n∈N eine Nullfolge.
Der Beweis zu diesem Satz findet sich ebenfalls in dem Teilkapitel 4.5 mit dem ergänzenden
Material. Betrachten wir zwei Beispiele für die Anwendung von Satz 4.32.
Beispiel 4.33.
(Anwendung von Satz 4.32 (i)) Betrachten wir die Folge (an )n∈N =
sin(n)/n n∈N . Hier gilt
sin(n) | sin(n)|
1
=
≤
für alle n ∈ N,
n n
n
wobei wir genutzt haben, dass gilt | sin(x)| ≤ 1 für alle x ∈ R. Da die Folge
(bn )n∈N =
(1/n)n∈N eine Nullfolge ist, gilt nach Satz 4.32 (i), dass (an )n∈N = sin(n)/n n∈N ebenfalls
eine Nullfolge ist, also
sin(n)
= 0.
lim an = lim
n→∞
n→∞
n
Beispiel 4.34. (Anwendung von Satz 4.32 (ii)) Betrachten wir die Folge
3 n + 17 + cos(n2 )
(cn )n∈N =
n2
n∈N
Dann können wir die Folge (cn )n∈N als Produktfolge
(cn )n∈N =
3 n + 17 + cos(n2 ) 1
·
n
n
|
{z
} |{z}
= an
= bn
!
n∈N
118
4.4. Grenzwertsätze: Aussagen über konvergente Folgen
schreiben mit der Nullfolge (bn )n∈N = (1/n)n∈N und der beschränkten Folge
3 n + 17 + cos(n2 )
(an )n∈N =
.
n
n∈N
Dass (an )n∈N beschränkt ist, folgt aus
2 3 n + 17 + cos(n2 ) 17
cos(n
)
= 3 +
+
|an | = n
n
n ≤3+
17
| cos(n2 )|
≤ 3 + 17 + 1 = 21
+
n
n }
|{z}
| {z
≤ 17 ≤ 1/n ≤ 1
für alle n ∈ N,
wobei wir | cos(n2 )| ≤ 1 für alle n ∈ N genutzt haben. Nach Satz 4.32 (ii) folgt nun, dass
die Folge (cn )n∈N gegen Null konvergiert.
Als Letztes lernen wir einen Satz über die Konvergenz monotoner beschränkter Folgen.
Satz 4.35. (Monotonieprinzip) Eine Folge (an )n∈N , welche beschränkt und monoton (also monoton wachsend oder monoton fallend) ist, ist konvergent.
Bemerkung 4.36. (Abschwächung der Voraussetzungen in Satz 4.35) Satz 4.35
gilt auch, wenn (an )n∈N erst ab einem bestimmten Index n0 ∈ N monoton ist.
Wir betrachten zwei Beispiele, um zu sehen, wie wir das Monotonieprinzip anwenden.
Beispiel 4.37. (Monotonieprinzip) In Beispiel 4.18 haben wir bewiesen, dass die Folge
(1/n)n∈N gegen g = 0 konvergiert. Wir können die Konvergenz dieser Folge nun auch
alternativ mit dem Monotonieprinzip beweisen: Wegen
1 1
= ≤1
für alle n ∈ N
n n
ist die Folge (1/n)n∈N beschränkt mit der Schranke S = 1. Außerdem ist die Folge (1/n)n∈N
streng monoton fallend, denn
an =
1
1
>
= an+1
n
n+1
für alle n ∈ N.
Nach dem Monotonieprinzip folgt daher, dass (1/n)n∈N konvergent ist.
Beispiel 4.38. (Monotonieprinzip) Betrachten wir die Folge
π (an )n∈N = 17 − cos
.
2n n∈N
Wir wollen das Monotonieprinzip nutzen, um zu zeigen, dass die Folge konvergiert:
4. Folgen und Grenzwerte
119
Zunächst folgt mit der Dreiecksungleichung und | cos(x)| ≤ 1 für alle x ∈ R, dass
π h
π i
|an | = 17 + − cos
≤ |17| + − cos
2n
2n
π = 17 + cos
für alle n ∈ N,
≤ 17 + 1 = 18 = S
2n
d.h. die Folge ist beschränkt.
Weiter ist die Funktion cos(x) für x ∈ [0, π/2] streng monoton fallend. Daher ist die Folge
π cos
2n n∈N
streng monoton wachsend.
(Beachten Sie dabei, dass π/(2n) ∈ [0, π/2] für alle n ∈ N gilt
und dass π/(2n) n∈N streng monoton fallend ist.) Die Folge
17 − cos
π 2n n∈N
ist daher streng monoton fallend.
Nach dem Monotonieprinzip ist die gegebene Folge also konvergent, und mit ein bisschen
Übung sieht man, dass ihr Grenzwert g = 16 ist.
4.5
Weiterführendes Material: Beweise der Aussagen
über konvergente Folgen∗
In diesem ergänzenden Teilkapitel werden die meisten der Sätze über Folgen ausführlich
bewiesen. Diese Beweise sind nicht prüfungsrelavent und werden auch nicht in der Vorlesung besprochen. Die Beweise geben aber eine tiefere Einsicht in die Konvergenz von
Folgen und erhöhen daher das Verständnis des Themas Folgen. – Sollten Sie an dieser Mathematikvorlesung besonderen Spass haben und mit dem Rest des Materials gut zurecht
kommen, dann lohnt es sich in jedem Fall die Beweise anzuschauen!
Als erstes beweisen wir Satz 4.23, der besagt, dass der Grenzwert einer konvergenten Folge
eindeutig bestimmt ist.
Beweis von Satz 4.23. Um zu zeigen, dass es genau einen Grenzwert gibt, nehmen
wir an, es gebe zwei Grenzwerte g1 und g2 , und zeigen dann, dass diese übereinstimmen
müssen.
Sei also (an )n∈N eine konvergente Folge, und seien g1 und g2 beide Grenzwerte dieser Folge.
Wenn wir zeigen können, dass für jedes ε > 0 gilt
|g1 − g2 | < ε,
und wird |g1 − g2 | beliebig klein, und daher muss |g1 − g2 | = 0 gelten. Aus |g1 − g2 | = 0
folgt aber, dass g1 − g2 = 0, also g1 = g2 gilt.
120
4.5. Weiterführendes Material: Beweise der Aussagen über konvergente Folgen∗
Da per Annahme (an )n∈N gegen jeweils g1 und g2 konvergiert, existieren zu jedem ε > 0
ein N1 = N1 (ε) ∈ N und ein N2 = N2 (ε) ∈ N, so dass gilt:
ε
für alle n ≥ N1 ,
(4.21)
|an − g1 | <
2
ε
|an − g2 | <
für alle n ≥ N2 .
(4.22)
2
Sei nun N = max{N1 , N2 } das Maximum von N1 und N2 . Dann folgt mit der Dreiecksungleichung und (4.21) und (4.22), dass gilt
ε ε
|g1 − g2 | ≤ (g1 − an ) + (an − g2 ) ≤ |g1 − an | + |an − g2 | < + = ε für alle n ≥ N.
| {z } | {z } 2 2
< ε/2
< ε/2
Da ε > 0 beliebig war, folgt dass |g1 −g2 | beliebig klein wird und daher Null sein muss. Aus
|g1 −g2 | = 0 folgt aber g1 = g2 ist, d.h. der Grenzwert ist in der Tat eindeutig bestimmt. Nun beweisen wir Lemma 4.24, das besagt, dass jede konvergente Folge beschränkt ist.
Beweis von Lemma 4.24. Sei (an )n∈N eine konvergente Folge mit Grenzwert g. Um
zu zeigen, dass (an )n∈N beschränkt ist, müssen wir eine Schranke S > 0 finden so dass
|an | ≤ S für alle n ∈ N gilt.
Wegen der Konvergenz von (an )n∈N gegen g gibt es zu ε = 1 ein N = N(ε) = N(1) ∈ N,
so dass gilt
|an − g| < 1
für alle n ≥ N.
Mit Hilfe der Dreiecksungleichung erhalten wir
|an | = (an − g) + g ≤ |an − g| + |g|
(4.23)
für alle n ∈ N.
Daraus folgt mit Hilfe von (4.23), dass gilt
|an | ≤ |an − g| + |g| < 1 + |g|
für alle n ≥ N.
(4.24)
Für alle n < N gilt aber
|an | ≤ K = max |a1 |, |a2 |, . . . , |aN −1 | .
(4.25)
Aus (4.24) und (4.25) folgt nun |an | ≤ S für alle n ∈ N mit S = max{1 + |g|, K}, d.h. die
Folge (an )n∈N ist beschränkt.
Nun beweisen wir Aussage (i) und (iii) in Satz 4.29 über das Rechen mit Grenzwerten.
Die Aussage (ii) in Satz 4.29 kann ganz analog zur Aussage (i) bewiesen werden, und die
Aussage (iv) ist ähnlich zu (iii) zu beweisen, aber dies ist recht technisch und aufwendig.
Daher zeigen wir den Beweis nicht.
Beweis von (i) in Satz 4.29. Wir wollen zeigen, dass die Folge (an + bn )n∈N gegen a + b
konvergiert. Dies bedeutet, dass wir zu jedem ε > 0 ein N = N(ε) ∈ N finden müssen, so
dass gilt
|(an + bn ) − (a + b)| < ε für alle n ≥ N.
4. Folgen und Grenzwerte
121
Wir starten, indem wir uns unsere Voraussetzungen hinschreiben: Da (an )n∈N gegen den
Grenzwert a und (bn )n∈N gegen den Grenzwert b konvergiert, gibt es zu jedem ε > 0 ein
N1 = N1 (ε) ∈ N und ein N2 = N2 (ε) ∈ N, so dass gilt:
ε
2
ε
|bn − b| <
2
|an − a| <
für alle n ≥ N1 ,
(4.26)
für alle n ≥ N2 .
(4.27)
Sei nun N = N(ε) = max{N1 , N2 } das Maximum von N1 und N2 . Aus der Dreiecksungleichung und (4.26) und (4.27) folgt
|(an + bn ) − (a + b)| = |(an − a) + (bn − b)| ≤ |an − a| + |bn − b| < ε für alle n ≥ N,
| {z } | {z }
< ε/2
< ε/2
d.h. (an + bn )n∈N konvergiert gegen den Grenzwert a + b.
Beweis von (iii) in Satz 4.29. Wir wollen zeigen, dass es zu jedem ε > 0 ein N =
N(ε) ∈ N gibt, so dass gilt
|an · bn − a · b| < K · ε
für alle n ≥ N,
wobei K > 0 eine feste von ε und N unabhängige Konstante ist.
Sei also ε > 0 beliebig. Wir starten damit, dass wir |an · bn − a · b| geeignet abschätzen:
|an · bn − a · b| = |an · bn − an · b + an · b − a · b|
= an · (bn − b) + (an − a) · b
≤ an · (bn − b) + (an − a) · b
≤ |an | · |bn − b| + |an − a| · |b|,
(4.28)
wobei wir die Dreiecksungleichung verwendet haben. Nach Lemma 4.24 ist die konvergente
Folge (an )n∈N beschränkt, d.h. es gibt eine Konstante S > 0 so, dass |an | ≤ S für alle
n ∈ N. Also folgt aus (4.28)
|an · bn − a · b| ≤ |an | ·|bn − b| + |an − a| · |b| ≤ S · |bn − b| + |b| · |an − a|.
|{z}
≤S
(4.29)
Da nach Voraussetzung die Folgen (an )n∈N und (bn )n∈N gegen a bzw. b konvergieren, gibt
es Zahlen N1 = N1 (ε) ∈ N und N2 = N2 (ε) ∈ N, so dass gilt:
|an − a| < ε
|bn − b| < ε
für alle n ≥ N1 ,
für alle n ≥ N2 .
(4.30)
(4.31)
Wir wählen nun N = max{N1 , N2 } als das Maximum von N1 und N2 . Dann können wir
für n ≥ N die beiden Ungleichungen (4.30) und (4.31) in (4.29) nutzen:
|an · bn − a · b| ≤ S · |bn − b| +|b| · |an − a| < S · ε + |b| · ε = (S + |b|) · ε für alle n ≥ N.
| {z }
| {z }
| {z }
<ε
<ε
=K
122
4.5. Weiterführendes Material: Beweise der Aussagen über konvergente Folgen∗
Also konvergiert die Folge (an · bn )n∈N gegen den Grenzwert a · b.
Nun beweisen wir Satz 4.32 mit den Aussagen über Nullfolgen.
Beweis von Satz 4.32. Bevor wir die beiden Aussagen (i) und (ii) beweisen, schreiben
wir uns unsere gemeinsame Voraussetzung in (i) und (ii) mathematisch hin: Per Annahme
ist die Folge (bn )n∈N eine Nullfolge, d.h. sie konvergiert gegen den Grenzwert b = 0. Also
gilt: Für jedes ε > 0 gibt es ein N = N(ε) ∈ N, so dass
|bn − b| = |bn − 0| = |bn | < ε
für alle n ≥ N.
(4.32)
(i) Wir wollen zeigen, dass die Folge (an )n∈N ebenfalls eine Nullfolge ist, also dass (an )n∈N
gegen den Grenzwert a = 0 konvergiert. Dies bedeutet, dass wir für jedes ε > 0 ein
M = M(ε) ∈ N finden müssen, so dass gilt
|an − a| = |an − 0| = |an | < ε
für alle n ≥ M.
Da nach der Voraussetzung an (an )n∈N gilt |an | ≤ |bn | für alle n ≥ n0 finden wir, dass
|an − a| = |an − 0| = |an | ≤ |bn |
für alle n ≥ n0 .
(4.33)
Für |bn | gilt aber bereits (4.32). Daher wählen wir nun für unser (beliebiges aber festes)
ε > 0 die Zahl M = max{n0 , N} als das Maximum von n0 und N, wobei N das N = N(ε)
aus (4.32) ist. Dann folgt aus (4.33) und (4.32), dass
|an − a| = |an − 0| = |an | ≤ |bn | < ε
für alle n ≥ M = max{n0 , N}.
Also konvergiert die Folge (an )n∈N ebenfalls gegen den Grenzwert Null.
(ii) Wir wollen zeigen, dass dass die Folge (an · bn )n∈N ebenfalls eine Nullfolge ist, also
dass (an · bn )n∈N gegen den Grenzwert g = 0 konvergiert. Dies bedeutet, dass wir für jedes
ε > 0 ein M = M(ε) ∈ N finden müssen, so dass gilt
|an · bn − g| = |an · bn − 0| = |an · bn | < ε
für alle n ≥ M.
Per Annahme ist die Folge (an )n∈N beschränkt, d.h. es gibt eine Schranke S ≥ 0, so dass
gilt
|an | ≤ S
für alle n ∈ N.
(4.34)
Daher folgt aus (4.34)
|an · bn − g| = |an · bn − 0| = |an · bn | = |an | ·|bn | ≤ S · |bn |
|{z}
≤S
für alle n ∈ N.
(4.35)
Wählen wir für unser beliebiges (aber festes) ε > 0 nun M = N mit dem N = N(ε) aus
(4.32), so folgt aus (4.35) und (4.32), dass
|an · bn − g| = |an | ·|bn | ≤ S · |bn | ≤ S · ε
|{z}
≤S
für alle n ≥ N.
Also konvergiert die Folge (an · bn )n∈N in der Tat gegen den Grenzwert Null.
Damit haben wir den Satz bewiesen.
Kapitel 5
Reihen
Dieses Kapitel baut auf das Kapitel 4 über Folgen auf. Als erstes werden wir in Teilkapitel 5.1 kurz endliche Summen betrachten und uns in diesem Kontext mit der SummenNotation vertraut machen und die arithmetische und die geometrische Summe kennenlernen. In Teilkapitel 5.2 werden wir dann Reihen (unendliche Summen) kennenlernen und
uns für die Frage der Konvergenz von Reihen interessieren. Da man eine Reihe als die
Folge ihrer Partialsummen interpretieren kann, können wir die Konvergenz von Reihen
als Sonderfall der Konvergenz von Folgen betrachten. Zuletzt werden wir in Teilkapitel 5.3
eine Reihe von Konvergenzkriterien speziell für Reihen kennenlernen. Wir brauchen Reihen später in dem Kapitel über die Differentiation und werden dort die Taylorreihe einer
Funktion kennenlernen. In Teilkapitel 5.4 werden die Beweise der wichtigsten Konvergenzkriterien für Reihen als weiterführendes Material bewiesen.
5.1
Endliche Summen und arithmetische und geometrische Summe
Bevor wir zwei spezielle Typen von endlichen Summen, nämlich die arithmetische Summe und die geometrische Summe, besprechen diskutieren wir kurz separat Summen
und die Summen-Notation im Detail. Wir haben die Summen-Notation bereits kurz in
Teilkapitel 1.3 verwendet, als wir den binomischen Lehrsatz eingeführt haben.
Definition 5.1. (endliche Summe) Seien m und n ganze Zahlen mit m ≤ n. Die
endliche Summe
P der reellen Zahlen am , am+1 , . . . , an−1 , an schreibt man mit dem Summenzeichen
als
n
X
ak = am + am+1 + . . . + an−1 + an .
(5.1)
k=m
Häufig aber nicht immer gilt m ≥ 0. Der Summationsindex k in (5.1) fungiert als
Platzhalter“ für die Werte m, m + 1, . . . , n − 1, n. Der Name des Summationsindexes
”
spielt keine Rolle, und er kann mit einem anderem Namen, z.B. j, bezeichnet werden,
123
124
5.1. Endliche Summen und arithmetische und geometrische Summe
also
n
X
ak =
n
X
aj .
j=m
k=m
Man bezeichnet den kleinsten Wert des Summationsindexes (also m in (5.1)) bzw. den
größten Wert des Summationsindexes (also n in (5.1)) also untere Grenze bzw. obere
Grenze des Summationsindexes.
Wir betrachten ein paar Beispiele endlicher Summen.
Beispiel 5.2. (endliche Summe) Wir wollen die folgenden endlichen Summen explizit
ausrechnen:
(a)
6
X
k=1
k,
(b)
5
X
2
j ,
(c)
4
X
c,
r=2
j=3
wobei c ∈ R eine Konstante ist.
Lösung:
(a)
6
X
k = 1 + 2 + 3 + 4 + 5 + 6 = 21
k=1
(b)
5
X
j 2 = 32 + 42 + 52 = 9 + 16 + 25 = 50
j=3
(c) In der dritten Summe summieren wir die Konstante c, die nicht von dem Summationsindex r abhängt, auf, d.h. für jeden Wert des Summationsindexes addieren wir c
dazu. Also finden wir
4
X
c = c + c + c = 3 c.
r=2
↑
r=2
↑
r=3
↑
r=4
Indem wir Beispiel 5.2 (c) verallgemeinern, finden wir die folgende nützliche Formel für
die Summen über eine Konstante c:
n
X
k=m
c = (n − m + 1) · c = (n − m + 1) c.
(5.2)
Lemma 5.3. (Eigenschaften von Summen) Es gelten folgende Rechenregeln für
Summen, wobei immer m < n vorausgesetzt wird:
n
X
k=m
n
X
k=m
ak + bk =
n
X
k=m
ak +
n
X
bk ,
n
n
X
X
ak − bk =
ak −
bk ,
k=m
(5.3)
k=m
k=m
(5.4)
5. Reihen
125
und für jede Konstante c ∈ R gilt
n
X
k=m
n
X
c ak = c
ak .
(5.5)
k=m
Weiter können wir eine Summe aufteilen“: Für m ≤ p < n gilt
”
p
n
n
X
X
X
ak ,
ak +
ak =
k=m
k=m
(5.6)
k=p+1
Betrachten wir ein paar Beispiele, in denen wir die Rechenregeln aus Lemma 5.3 anwenden.
Beispiel 5.4. (Rechnen mit Summen)
n
X
k=1
k−
n
X
k=1
(k − 1) =
n
n
X
X
k − (k − 1) =
1 = n,
k=1
k=1
wobei wir im ersten Schritt (5.4) und im letzten Schritt (5.2) verwendet haben. Wie man
sieht, ist die Berechnung durch die Regel (5.4) für die Subtraktion von Summen erheblich
vereinfacht worden.
Beispiel 5.5. (Rechnen mit Summen) Die Differenz von zwei Summen
n
X
k=1
n
X
k −
(k + 1)2
2
k=1
können wir mit (5.4) wie folgt vereinfachen, wobei wir in der zweiten Summe zunächst
die erste binomische Formel anwenden:
n
n
n
n
n
n
X
X
X
X
X
2
X
2
2
2
2
2
k −
k +2 k+1 =
k −(k +2 k+1) =
−2 k−1 .
(k+1) =
k −
k=1
k=1
k=1
k=1
k=1
k=1
Nun wenden wir (5.3) an, um die beiden Summen wieder auseinander zu ziehen und
danach weiter zu vereinfachen:
n
n
n
n
n
n
X
X
X
X
X
X
− 2k −1 =
(−2) k +
(−1) = −2
k−
1 = −2
k − n,
k=1
k=1
k=1
k=1
k=1
k=1
| {z }
=n
wobei wir im vorletzten Schritt (5.5) und (5.2) angewendet haben. Die noch verbleibende
Summe werden wir im Beispiel 5.8 berechnen.
Lemma 5.6. (Indexverschiebung für Summen) Seien m ≤ n. Man kann bei einer
Summe auch den Summationsindex um p nach rechts oder links verschieben:
n
X
ak =
n+p
X
k=m
ℓ=m+p
n
X
n−p
X
k=m
ak =
ℓ=m−p
aℓ−p
(Indexverschiebung nach rechts),
(5.7)
aℓ+p
(Indexverschiebung nach links).
(5.8)
126
5.1. Endliche Summen und arithmetische und geometrische Summe
Formal werden die Indexverschiebungen (5.7) bzw. (5.8) durchgeführt, indem man den
neuen Summationsindex ℓ = k + p (Indexverschiebung nach rechts) bzw. ℓ = k − p
(Indexverschiebung nach links) einführt und damit k = ℓ − p (Indexverschiebung nach
rechts) bzw. k = ℓ + p (Indexverschiebung nach links) erhält und entsprechend ersetzt. In
(5.7) erhält man für den neuen Summationsindex ℓ = k + p die neue untere bzw. obere
Grenze m + p bzw. n + p, und der Index k in ak wird durch k = ℓ − p ersetzt. Bei (5.8)
geht man analog vor.
Betrachten wir zwei Beispiele, in denen die Rechenregeln für Summen aus Lemma 5.6 und
Lemma 5.3 angewendet werden.
Beispiel 5.7. (Rechnen mit Summen) Beim Berechnen von
n
X
k=1
2
k −
n
X
(k + 1)2
k=1
bemerken wir zuerst, dass die Terme hinter dem jeweiligen Summenzeichen durch das
Ersetzen von k durch k + 1 ineinander überführt werden können. Daher führen wir in der
zweiten Summe die Indexverschiebung ℓ = k + 1 (vgl. (5.7)) durch und erhalten die neue
untere Grenze 1 + 1 = 2 bzw. die neue obere Grenze n + 1. Anschließend benennen wir ℓ
wieder in k um.
n
X
k=1
k2 −
n
X
(k + 1)2 =
k=1
n
X
k=1
k2 −
n+1
X
ℓ2 =
ℓ=2
n
X
k=1
k2 −
n+1
X
k2.
k=2
Der Unterschied zwischen den beiden Summen besteht nun nur noch in den Grenzen für
den Summationsindex. In der ersten Summe wird über k = 1, 2, . . . , n summiert, und in
der zweiten Summe wird über k = 2, . . . , n, n+1 summiert. Intuitiv ist damit klar, dass bei
der Subtraktion beiden Summen genau der erste Term der ersten Summe und der letzte
Term der zweiten Summe übrig belieben. Wir nutzen (5.6), um den ersten bzw. letzten
Term der der ersten bzw. zweiten Summe herauszuziehen, und erhalten
!
!
n
n+1
n
n
X
X
X
X
k2 −
k 2 = 12 +
k2 −
k 2 + (n + 1)2
k=1
k=2
k=2
=1+
n
X
k=2
k=2
k2 −
= 1 − (n + 1)
2
n
X
k=2
k 2 − (n + 1)2
= 1 − n2 + 2 n + 1
= − n2 − 2 n.
Insgesamt erhalten wir also
n
X
k=1
2
k −
n
X
k=1
(k + 1)2 = − n2 − 2 n = −n (n + 2).
Im nächsten Beispiel werden wir die Summe der Zahlen von 1 bis n ∈ N berechnen.
5. Reihen
127
Beispiel 5.8. (Wert der Summe
wollen die Summe
Pn
k=1
k) Sei n > 0 eine beliebige natürliche Zahl. Wir
sn =
n
X
k
k=1
berechnen.
Lösung: Um sn =
Pn
k=1 k
zu berechnen schreiben wir die Summe sn explizit als
sn = 1 + 2 + 3 + . . . + (n − 1) + n,
(5.9)
und wir schreiben die Summe ebenfalls rückwärts“ hin, d.h. die Terme werden in der
”
umgekehrten Reihenfolge aufsummiert:
sn = n + (n − 1) + (n − 2) + . . . + 2 + 1.
(5.10)
Dann addieren wir (5.9) und (5.10) so, dass wir zuerst die beiden zuerst aufgelisteten
Terme der beiden Summen addieren, dann die beiden als nächstes in den beiden Summen
aufgelisteten Terme addieren, usw.. Also
2 sn = 1 + n + 2 + (n − 1) + 3 + (n − 2) + . . . + (n − 1) + 2 + n + 1
= (n + 1) + (n + 1) + (n + 1) + . . . + (n + 1) + (n + 1)
|
{z
}
n dieser Terme
= n (n + 1).
Division durch 2 ergibt nun
sn =
n
X
k=1
k=
n (n + 1)
.
2
(5.11)
Wir werden (5.11) später benutzen, um die geschlossene Darstellung“ der arithmetischen
”
Summe herzuleiten.
Wir nennen die Darstellung auf der rechten Seite von (5.11) eine geschlossene Darstellung der Summe auf der linken Seite. Das Wort geschlossen“ bezieht sich darauf, dass
”
die Summe in der Darstellung auf der rechten Seite nicht mehr vorkommt. Leider kann
man nicht für alle Summen eine geschlossene Darstellung finden.
Wir diskutieren nun die arithmetische Summe und die geometrische Summe.
Definition 5.9. (arithmetische Summe) Eine Summe der Form
sn =
n
X
k=0
a + kh = a + a + h + a + 2h + ... + a + nh ,
wobei a ∈ R und h ∈ R mit h > 0, heißt eine arithmetische Summe. Wir beobachten,
dass die Differenz zwischen zwei aufeinander folgenden Termen der Summe immer durch
h gegeben ist:
a + k h − a + (k − 1) h = h.
Daher nennt man h auch die gemeinsame Differenz.
128
5.1. Endliche Summen und arithmetische und geometrische Summe
Wir leiten nun eine geschlossene Darstellung für die arithmetische Summe her. Mit Hilfe
von (5.3), (5.5) und (5.2) finden wir
sn =
n
X
k=0
n
n
n
n
n
X
X
X
X
X
k,
k = (n + 1) a + h
a+h
kh =
a+
a+kh =
k=0
k=0
k=1
k=0
k=0
wobei wir im letzten Schritt benutzt haben, dass wir in der zweiten Summe mit der unteren
Grenze k = 1 statt k = 0 anfangen dürfen, da der Term für k = 0 den Wert Null hat
(und somit nichts zu der Summe beiträgt). Nun nutzen wir (5.11), um eine geschlossene
Darstellung der verbleibenden Summe zu finden:
n
n
X
X
n (n + 1)
nh
sn =
k = (n + 1) a + h
a + k h = (n + 1) a + h
.
= (n + 1) a +
2
2
k=0
k=1
Wir halten die geschlossene Darstellung der arithmetischen Summe in einem Lemma fest.
Lemma 5.10. (geschlossene Darstellung der arithmetischen Summe) Seien a ∈ R
und h ∈ R mit h > 0. Dann hat die arithmetische Summe die folgende geschlossene
Darstellung:
n
X
a + (a + n h)
nh
= (n + 1)
.
(5.12)
sn =
a + k h = (n + 1) a +
2
2
k=0
An der Darstellung ganz rechts in (5.12), sehen wir, dass der Term in den eckigen Klammern der Mittelwert des ersten Terms a (für k = 0) und des letzten Terms a + n h
(für k = n) der Summe ist. Die Formel (5.12) beinhaltet natürlich (5.11) als Spezialfall
für a = 0 und h = 1.
Beispiel 5.11. (Anwendung der arithmetischen Summe) Wir wollen
50
X
k=11
10 + 2 k .
mit Hilfe der arithmetischen Summe berechnen. Dazu schreiben wir mit (5.3) die Summe
als die Differenz zweier arithmetischer Summen:
50
X
10 + 2 k =
k=11
50
X
k=0
10 + k 2 −
10
X
k=0
10 + k 2 .
Nun können wir (5.12) mit a = 10 und h = 2 nutzen, um jede der individuellen Summen
auf der rechten Seite auszurechnen.
50
X
50 · 2
10 + k 2 = 51 10 +
= 51 · 60 = 3060,
2
k=0
10
X
k=0
10 · 2
= 11 · 20 = 220.
10 + k 2 = 11 10 +
2
5. Reihen
129
Daher finden wir
50
X
10 + 2 k =
k=11
50
X
k=0
10 + k 2 −
10
X
10 + k 2 = 3060 − 220 = 2840.
k=0
Nun lernen wir die geometrische Summe kennen.
Definition 5.12. (geometrische Summe) Eine Summe der Form
sn =
n
X
a qk = a + a q + a q2 + . . . + a qn,
k=0
wobei a ∈ R und q ∈ R, heißt eine geometrische Summe. Wir beobachten, dass der
Quotient zweier aufeinander folgender Terme (wobei wir den Term mit dem größeren
Index durch den Term mit dem kleineren Index teilen) durch
a qk
=q
a q k−1
gegeben ist. Daher nennt man q den gemeinsamen Quotient,
Wir versuchen eine geschlossene Darstellung der geometrischen Summe zu finden: Zunächst
multiplizieren wir die geometrische Summe
sn =
n
X
a qk
(5.13)
k=0
mit q und erhalten mittels (5.5)
q sn = q
n
X
k
aq =
k=0
n
X
k=0
k
a·q·q =
n
X
a q k+1 .
k=0
Nun ersetzen wir den Summationsindex durch k durch j = k + 1 bzw. k = j − 1. Dabei
müssen wir feststellen, welche Werte j annehmen darf. Wegen k = 0, 1, 2, . . . , n muss der
neue Summationsindex j = k + 1 die Werte j = 1, 2, 3, . . . , n + 1 annehmen, d.h. die neue
untere bzw. obere Grenze des Summationsindexes sind j = 1 bzw. j = n + 1. Daher gilt
q sn =
n
X
aq
k+1
=
n+1
X
a qj .
j=1
k=0
Wir benennen nun j wieder in k um und bekommen
q sn =
n+1
X
a qk .
(5.14)
k=1
Indem wir q sn von sn abziehen, erhalten wir mit Hilfe von (5.13) und (5.14), dass
" n
#
n
n+1
n
X
X
X
X
sn − q sn =
a qk −
a qk = a q0 +
a qk −
a q k + a q n+1 = a q 0 − a q n+1 .
k=0
k=1
k=1
k=1
130
5.1. Endliche Summen und arithmetische und geometrische Summe
Dabei haben wir (5.6) ausgenutzt, um die Summen aufzuteilen, da alle Terme bis auf den
Term für k = 0 in der ersten Summe und bis auf den Term für k = n + 1 in der zweiten
Summe in beiden Summen vorkommen. Die beiden Summen nach der Aufsplittung“ sind
”
gleich und heben sich daher gegenseitig auf. Indem wir beide Seiten der Gleichungskette
nun weiter vereinfachen, finden wir
(1 − q) sn = sn − q sn = a q 0 − a q n+1 = a · 1 − a q n+1 = a 1 − q n+1 .
Ist q 6= 1, so erhalten wir durch Division durch (1 − q)
a 1 − q n+1
1 − q n+1
sn =
=a·
.
1−q
1−q
Ist q = 1, dann gilt nach (5.2)
sn =
n
X
k=0
a 1k =
n
X
k=0
a = (n + 1) · a.
Wir halten die geschlossene Darstellung der geometrischen Summe in einem Lemma fest.
Lemma 5.13. (geschlossene Darstellung der geometrischen Summe) Seien a ∈ R
und q ∈ R. Dann hat die geometrische Summe die geschlossene Darstellung

n+1
n
 a· 1−q
X
wenn q 6= 1,
1−q
sn =
a qk =
(5.15)

k=0
a · (n + 1)
wenn q = 1.
Sie sollten die geschlossene Darstellung (5.15) der geometrischen Summe auswendig wissen. Diese Formel ist ein nützliches Hilfsmittel, das wir später wiederholt ausnutzen werden.
Beispiel 5.14. (Anwendung der geometrischen Summe) Wir wollen die folgenden
geometrischen Summen berechnen:
(a)
3
X
k
2 ,
(b)
k=0
k
5 X
1
,
−
2
k=0
(c)
4
X
k=0
9 · 10−k .
Lösung: Die endliche Summe in (a) ist eine geometrische Summe mit a = 1, q = 2 und
n = 3. Daher gilt wegen (5.15)
3
X
k=0
2k = 1 ·
1 − 24
1 − 16
−15
=
=
= 15.
1−2
−1
−1
Die endliche Summe in (b) ist eine geometrische Summe mit a = 1,
Wegen (5.15) finden wir
6
6
k
5 1
X
1 − 21
1 − − 12
1 − 64
63
1
=
=1·
=
=
−
3
3
1
2
64
1 − −2
2
2
k=0
q = −1/2 und n = 5.
·
2
21
=
.
3
32
5. Reihen
131
Indem wir die Summe in (c) wir folgt schreiben
4
X
k=0
9 · 10
−k
=
4
X
k=0
"
9·
1
10
k #
,
sehen wir, dass es sich um eine geometrische Summe mit a = 9, q = 1/10 = 10−1 und
n = 4 handelt. Somit finden wir wegen (5.15)
4
X
k=0
1 − (10−1 )5
1 − 10−5
−5
9 · 10−k = 9 ·
=
9
·
=
10
·
1
−
10
= 10 · 0, 99999 = 9, 9999.
1 − 10−1
9/10
Wir sehen, wie nützlich die geschlossene Darstellung (5.15) der geometrischen Summe ist.
5.2
Unendliche Reihen
Sei (ak )k≥0 eine Folge reeller Zahlen. Wir betrachten nun unendliche Reihen
∞
X
ak = a0 + a1 + a2 + . . . + ak + ak+1 + . . . .
(5.16)
k=0
Dabei stellt sich die Frage, wie man die Summe bis unendlich“ zu interpretieren hat.
”
Schreiben wir
∞
X
k=0
ak = lim
n→∞
n
X
ak = lim sn
k=0
| {z }
= sn
n→∞
mit
sn =
n
X
ak ,
(5.17)
k=0
so können wir die unendliche Reihe (5.16) als Folge (sn )n≥0 der in (5.17) definierten
Partialsummen sn interpretieren. Falls die Folge (sn )n≥0 der Partialsummen konvergiert
(im Sinne der Konvergenz von Folgen, vgl. Teilkapitel 4.3), so können wir die unendliche
Reihe (5.16) natürlich als Grenzwert der Folge der Partialsummen auffassen.
Betrachten wir zunächst ein Beispiel.
Beispiel 5.15. (arithmetische Reihe) Die artihmetische Reihe ist
∞
X
k=0
a + k h = a + (a + h) + (a + 2 h) + . . . + (a + k h) + . . . ,
wobei wir diese Reihe nun als die Folge (sn )n≥0 der Partialsummen
n
X
nh
a + k h = (n + 1) a +
.
sn =
2
k=0
interpretieren. Die Folge der Partialsummen (sn )n≥0 ist unbeschränkt, da sn für groß genuges n beliebig groß wird. Also ist die Folge der Partialsummen (sn )n≥0 nach Folgerung 4.25
divergent. Damit ist die arithmetische Reihe divergent.
132
5.2. Unendliche Reihen
Wir definieren nun die Konvergenz bzw. Divergenz unendlicher Reihen formal.
Definition 5.16. (unendliche Reihen) Sei (ak )k≥0 eine Folge reeller Zahlen. Die (unendliche) Reihe
∞
X
ak = a0 + a1 + . . . + ak + ak+1 + . . .
(5.18)
k=0
heißt konvergent, falls die Folge (sn )n≥0 der Partialsummen
sn =
n
X
ak = a0 + a1 + . . . + an−1 + an
k=0
konvergiert. Dann nennt man der Grenzwert s = limn→∞ sn den Wert der Reihe
(5.18) und schreibt kurz
∞
X
ak = s.
k=0
Falls die Folge der Partialsummen nicht konvergiert, so nennt am die Reihe (5.18)
divergent.
Bemerkung 5.17. (Reihe muss nicht mit Index k = 0 beginnen) Die unendliche
Reihe kann auch mit einer anderen unteren Grenze als k0 = 0 beginnen, z.B.
∞
X
1
k=1
k
Also kann man allgemein auch unendliche Reihen betrachten
∞
X
k=k0
ak =
X
ak .
k≥k0
Ob die Summe mit k = 0 oder k = k0 startet macht keinen Unterschied für die Konvergenz, denn für die gleiche Folge (ak )k≥0 unterschieden sich die Partialsummen nur
P 0 −1
um dem konstanten Term kk=0
ak falls k0 > 0 (analog im Fall k0 < 0). Dieser konstante
Term hat daher keinen Einfluss auf die Konvergenz der Folge der Partialsummen sondern
lediglich auf den Wert des Grenzwertes, falls die Folge der Partialsummen konvergiert.
Betrachten wir zunächst ein paar Beispiele unendlicher Reihen.
Beispiel 5.18. (unendliche Reihen)
(a)
∞
X
1
k=1
(b)
k
=1+
∞
X
(−1)k
k=1
k
1 1
1
+ + ...+ + ...
2 3
k
= (−1) +
1 1
(−1)k
− + ...+
+ ...
2 3
k
5. Reihen
133
∞
X
1 1
1
1
= 1 + + + ...+ 2 + ...
(c)
2
k
4 9
k
k=1
(d)
∞
X
qk = q0 + q1 + q2 + . . . + qk + . . . = 1 + q + q2 + . . . + qk + . . .
k=0
Wir untersuchen nun die letzte unendliche Reihe im vorigen Beispiel genauer.
Satz 5.19. (Bedingungen für die Konvergenz der geometrischen Reihe) Sei
a ∈ R \ {0} und q ∈ R. Die geometrische Reihe
∞
X
a qk = a + a q + a q2 + a q3 + . . . + a qk + . . .
k=0
hat die Partialsummen

n+1
 a· 1−q
1−q
sn =
a qk =

k=0
a · (n + 1)
n
X
falls q 6= 1.
(5.19)
falls q = 1.
Die Folge der Partialsummen und damit die geometrische Reihe ist genau dann konvergent, wenn |q| < 1 gilt. Genauer gilt
∞
X
k=0
a qk =
a
1−q
wenn |q| < 1 ist,
(5.20)
und für q ∈ R mit |q| ≥ 1 ist die geometrische Reihe divergent.
Beweis von Satz 5.19. Aus Lemma 5.13 über die geometrische Summe wissen wir
bereits, dass die Formel (5.19) für die Partialsummen korrekt ist.
Für q = 1 ist (sn )n≥0 = a (n + 1) n≥0 , und diese Folge ist unbeschränkt und somit nach
Folgerung 4.25 divergent. Also ist die geometrische Reihe für q = 1 divergent.
Betrachten wir nun den Fall q 6= 1. Dann gilt
sn = a ·
1 − q n+1
,
1−q
und das Verhalten der Folge (q n+1 )n≥0 entscheidet über die Konvergenz oder Divergenz
der Folge der Partialsummen (und somit der geometrischen Reihe).
Für |q| > 1 werden wird |q n+1| = |q|n+1 damit |sn | beliebig groß, wenn n wächst; also
ist die Folge der Partialsummen unbeschränkt und damit nach Folgerung 4.25 divergent.
(Genauer multiplizieren wir in |q n+1 | = |q|n+1 eine Zahl |q| > 1 n-mal mit sich selber,
und damit wird die Zahl |q n+1 | = |q|n+1 für n hinreichend groß beliebig groß. Wenn wir
die Exponentialfunktion und den Logarithmus eingeführt haben, dann können wir diese
intuitiv klare Tatsache auch quantitativ nachrechnen.)
134
5.2. Unendliche Reihen
Für |q| < 1 multiplizieren wir in |q n+1 | = |q|n+1 eine Zahl |q| < 1 n-mal mit sich selbst,
und mit jeder Multiplikation mit |q| < 1 wird der Wert kleiner. Also wird für |q| < 1 der
Wert von |q n+1| = |q|n+1 für n groß genug beliebig klein, und wir finden daher, dass die
Folge (q n+1 )n≥0 gegen Null konvergiert. Also gilt
lim q n+1 = 0
für |q| < 1,
n→∞
und nach dem Satz 4.29 über das Rechnen mit Grenzwerten erhalten wir
1 − lim q n+1
1 − q n+1
1
a
n→∞
lim sn = lim a ·
=a·
=a·
=
für |q| < 1.
n→∞
n→∞
1−q
1−q
1−q
1−q
Somit haben wir gezeigt, dass die geometrische Reihe genau dann konvergiert, wenn |q| < 1
gilt, und dass ihr Grenzwert für |q| < 1 durch (5.20) gegeben ist.
Bemerkung 5.20. (notwendige aber nicht hinreichende Bedingung für die Konvergenz einer Reihe) Konvergiert eine unendliche Reihe
∞
X
ak ,
(5.21)
k=0
so muss die Folge (ak )k≥0 eine Nullfolge sein.
Allerdings kann man aus der Tatsache, dass eine Folge (ak )k≥0 gegen Null konvergiert
noch nicht schließen, dass die Reihe (5.21) konvergiert.
Nach dem Prinzip der Kontraposition folgt aber, dass für jede Folge (ak )k≥0 , deren
Grenzwert ungleich Null ist, oder die divergiert, die zugehörige Reihe (5.21)
divergiert.
Betrachten wir zwei Beispiele, welche die Bemerkung erläutern.
Beispiel 5.21. (divergente Reihe) Die unendliche Reihe
∞
X
k=1
k
k+1
(5.22)
ist divergent, denn wir haben in Beispiel 4.21 gesehen, dass die Folge k/(k + 1) k∈N gegen
den Grenzwert g = 1 konvergiert. Also ist k/(k + 1) k∈N keine Nullfolge, und daher kann
nach Bemerkung 5.20 die Reihe (5.22) nicht konvergieren.
Das zweite Beispiel tritt in dem Satz über die harmonische Reihe auf.
Satz 5.22. (Divergenz der harmonischen Reihe) Die harmonische Reihe
∞
X
1
k=1
ist divergent.
k
5. Reihen
135
Beweis von Satz 5.22. Wir gruppieren die Terme der Reihe wie folgt zusammen
∞
X
1
1
1
1 1
1 1 1 1
1
=1+
+
+ + +
+ ...+
+
+
+
+....
k
2
3
4
5
6
7
8
9
16
k=1
| {z } | {z } |
{z
} |
{z
}
≥ 1/2
≥ 1/2
≥ 1/2
≥ 1/2
Dass es gestattet ist, die Terme so zu gruppieren liegt an dem Assoziativgesetz und daran,
dass alle Terme positiv sind. Jede Summe von Termen in einer Klammer ist ≥ 1/2; und
für die Terme bis k = 2n bekommen wir genau n solche Klammern, die wir mit 1/2 nach
unten abschätzen können. Daher gilt für jedes n ∈ N
n
s2n =
2
X
1
k=1
k
≥1+n·
1
n+2
=
,
2
2
d.h. die Folge der Partialsummen (sn )n∈N ist unbeschränkt. Damit haben wir nach Folgerung 4.25 gezeigt, dass die Folge der Partialsummen (sn )n∈N , und damit auch die Reihe,
divergiert.
5.3
Konvergenzkriterien für Reihen
In diesem Teilkapitel wollen wir Kriterien und Grenzwertsätze für die Konvergenz unendlicher Reihen herleiten. Zunächst betrachten wir die Kriterien für die Konvergenz einer
unendlichen Reihe, die wir aus den Grenzwertsätzen für Folgen in Teilkapitel 4.4 direkt
ableiten können.
Aus Satz 4.29 folgt direkt der nachfolgende Satz.
Satz 5.23. (Rechnen mit konvergenten unendlichen Reihen) Seien
P
∞
k=0 bk konvergente Reihen mit den Grenzwerten a bzw. b. Dann gilt:
P
ak + bk ist konvergent mit dem Wert
(i) Die Summenreihe“ ∞
k=0
”
∞
∞
∞
X
X
X
ak + bk =
ak +
bk = a + b,
k=0
k=0
P
(ii) Die Differenzreihe“ ∞
k=0
”
∞
∞
∞
X
X
X
ak − bk =
ak −
bk = a − b,
k=0
(iii) Die Reihe
P∞
k=0
| {z }
=a
k=0
λ · ak ) = λ
∞
X
k=0
ak = λ · a
| {z }
=a
und
(5.23)
(5.24)
k=0
| {z }
=b
λ · ak ist konvergent mit dem Wert
∞
X
k=0 ak
k=0
| {z } | {z }
=a
=b
ak − bk ist konvergent mit dem Wert
k=0
P∞
für jedes λ ∈ R.
(5.25)
136
5.3. Konvergenzkriterien für Reihen
Betrachten wir zunächst ein Beispiel, in dem der Satz angewendet wird.
Beispiel 5.24. (Rechnen mit konvergenten unendlichen Reihen) Betrachten wir
die Reihen
" #
" k #
∞
∞
k
k
X
X
1
1
1
7·
,
(b)
.
+ −
(a)
2
4
2
k=0
k=0
Zunächst betrachten wir die einzelnen involvierten Reihen: Nach Satz 5.19 konvergieren
die nachfolgenden geometrischen Reihen gegen die angegebenen Grenzwerte
k
∞ k
∞ X
X
1
1
1
1
1
4
−
=
=2
und
=
=
= .
2
1 − (1/2)
4
1 − (−1/4)
5/4
5
k=0
k=0
Damit sind die Voraussetzungen in Satz 5.23 erfüllt, und wir erhalten für die Reihe in (a)
nach (5.23)
" k # X
k
∞ ∞
∞ k
k
X
X
1
1
4
1
14
1
−
+
=2+ =
=
.
+ −
2
4
2
4
5
5
k=0
k=0
k=0
{z
}
| {z } |
=2
= 4/5
Mit λ = 7 erhalten wir nach (5.25) für die Reihe in (b)
" #
∞ k
∞
k
X
X
1
1
=7
7·
= 7 · 2 = 14.
2
2
k=0
k=0
| {z }
=2
Beweis von Satz 5.23. Die Aussagen (i) und (ii) in Satz 5.23 folgen direkt aus (i) und
(ii) im Satz 4.29, indem man die konvergenten Partialsummen der beiden konvergenten
Reihen betrachtet.
Die Aussage (iii) in Satz 5.23 folgt aus (iii) im Satz 4.29, wenn man sich die Partialsummen
(sn )n≥0 der Reihe auf der linken Seite hinschreibt: Nach den Rechenregeln für endliche
Summen findet man dann
n
n
X
X
sn =
λ · ak ) = λ ·
ak = λ · tn .
k=0
k=0
| {z }
= tn
Die Folge der Partialsummen (sn )n≥0 ist also das Produkt der konvergenten konstanten
Folge P
(λ)n≥0 und der konvergenten Folge der Partialsummen (tn )n≥0 der konvergenten
Reihe ∞
k=0 ak . Letztere hat per Annahme den Grenzwert a. Daher folgt nach (iii) in Satz
4.29, dass die Folge der Partialsummen (sn )n≥0 = (λ tn )n≥0 gegen den Grenzwert λ · a
konvergiert.
Aus dem Monotonieprinzip (siehe Satz 4.35) können wir ebenfalls einen Satz über die
Konvergenz von Reihen herleiten.
5. Reihen
137
P
Satz 5.25. Es gelte ak ≥ 0 für alle k ∈ N0 . Dann ist die Reihe ∞
k=0 ak genau dann
konvergent, wenn die Folge der Partialsummen (sn )n≥0 der Reihe ist beschränkt ist.
Betrachten wir zunächst ein Beispiel für die Anwendung von Satz 5.25.
Beispiel 5.26. (Anwendung von Satz 5.25) Wir wollen zeigen, dass die Reihe
∞
X
k=1
1
k (k + 1)
(5.26)
konvergiert. Offensichtlich gilt 1/ k (k + 1) ≥ 0 für alle k ∈ N. Weiter finden wir
(k + 1) − k
1
1
1
=
= −
k (k + 1)
k (k + 1)
k k+1
für alle k ∈ N.
Deshalb folgt für die Partialsummen
sn =
n
X
k=1
n
X
1
=
k (k + 1) k=1
1
1
−
k k+1
=
n
X
1
k=1
k
−
n
X
k=1
1
,
k+1
(5.27)
wobei wir die Rechenregeln aus Lemma 5.3 für endliche Summen genutzt haben. Wir
können nun in der zweiten Summe die Indexverschiebung ℓ = k + 1 ⇔ k = ℓ − 1
durchführen (vgl. Lemma 5.6) und finden mit der neuen unteren bzw. oberen Grenze
ℓ = 1 + 1 = 2 bzw. ℓ = n + 1
n
X
k=1
n+1
n+1
X1 X1
1
=
=
,
k+1
ℓ
k
ℓ=2
(5.28)
k=2
wobei wir im zweiten Schritt den Summationsindex wieder von ℓ in k umbenannt haben.
Einsetzen von (5.28) in (5.27) liefert
n
X
n
n+1
X1 X1
1
sn =
=
−
k (k + 1)
k
k
k=1
k=1
k=2
!
n
n
X
X
1
1
1
1
=1+
=1−
−
+
≤ 1.
k
k n+1
n+1
k=2
k=2
für alle n ∈ N.
Damit haben wir gezeigt, dass die Folge (sn )n∈N der Partialsummen beschränkt ist. Nach
Satz 5.25 folgt damit, dass die Reihe 5.26 konvergiert.
Wir zeigen kurz, wie man Satz 5.25 aus den Monotonieprinzip für Folgen (siehe Satz 4.35)
herleitet.
Beweis von Satz 5.25. Da es sich um eine genau dann, wenn“-Aussage, also eine
”
Äquivalenz, handelt, müssen wir zwei Richtungen zeigen.
138
5.3. Konvergenzkriterien für Reihen
Als erstes zeigen wir, dass aus den Voraussetzungen
ak ≥ 0 für alle k ∈ N0 und (sn )n≥0
P∞
ist beschränkt folgt, dass die Reihe k=0 ak konvergent ist: Aus ak ≥ 0 für alle k ∈ N0
folgt nämlich, dass
sn =
n
X
k=0
ak ≤
n
X
ak + an+1 =
|{z}
k=0
≥0
n+1
X
ak = sn+1
k=0
für alle n ∈ N0 ,
d.h. die Folge (sn )n≥0 ist monoton wachsend. Weiter ist (sn )n≥0 nach Voraussetzung beschränkt. Nach dem
P∞ Monotonieprinzip (vgl. Satz 4.35) folgt daher, dass (sn )n≥0 und damit
auch die Reihe k=0 ak konvergent ist.
P∞
Nun zeigen wir, dass aus der Konvergenz der Reihe
k=0 ak unter der Voraussetzung
ak ≥ 0 für alle k ∈ N0 folgt, dass die Folge der Partialsummen (sn )n≥0 beschränkt ist.
Wir wissen aber aus Satz 4.24, dass jede konvergente Folge beschränkt ist. Also ist insbesondere die Folge der Partialsummen (sn )n≥0 beschränkt.
Analog zu alternierenden Folgen definieren wir alternierende Reihen als Reihen, bei denen
eine alternierende Folge aufsummiert wird.
Definition 5.27. (alternierende Reihe) Eine Reihe der Form
∞
X
(−1)k ak
k=0
mit ak > 0 für alle n ∈ N0 oder ak < 0 für alle n ∈ N0
heißt alternierend.
Ein Beispiel für eine alternierende Reihe ist
∞
X
(−1)k
k=1
k
.
Der nächste Satz liefert ein Konvergenzkriterium für alternierende Reihen.
Satz 5.28. (Leibniz-Kriterium) Sei ak > 0 für alle k ∈ N0 , oder sei ak < 0 für alle
k ∈ N0 . Eine Reihe der Form
∞
X
(−1)k ak
(5.29)
ist konvergent, falls die Folge |ak |
k=0
k≥0
eine monoton fallende Nullfolge ist.
Betrachten wir zunächst ein Beispiel.
Beispiel 5.29. (konvergente alternierende Reihe) Nach Satz 5.28 ist die alternierende Reihe
∞
∞
X
1
(−1)k X
=
(−1)k ·
k
k
k=1
k=1
konvergent, da |1/k| k∈N = (1/k)k∈N eine monoton fallende Nullfolge ist.
5. Reihen
139
P∞
An dem letzten Beispiel kann man leicht sehen,
P∞das aus der Konvergenz von k=0 ak im
Allgemeinen nicht die Konvergenz der Reihe k=0 |ak | folgt, denn wir haben in Satz 5.22
gesehen, dass die harmonische Reihe
∞ ∞
X
(−1)k X
1
=
k k
k=1
k=1
divergiert, obwohl
∞
X
(−1)k
k=1
k
nach Beispiel 5.29 konvergiert.
P∞
Definition 5.30.
k=0 ak ,
P∞(absolute Konvergenz einer Reihe) Gilt für eine Reihe P∞
so konvergiert auch die usprüngliche Reihe k=0 ak ,
dass die Reihe k=0 |ak | konvergiert,
P
a
absolut
konvergent.
und wir nennen die Reihe ∞
k=0 k
Der nächste Satz liefert drei ganz wichtige Kriterien für die absolute Konvergenz unendlicher Reihen.
Satz 5.31. (Kriterien für absolute Konvergenz) Die Reihe
vergent, falls eine der folgenden Bedingungen erfüllt ist:
∞
P
ak ist absolut kon-
k=0
(i) Majorantenkriterium:
Es gilt |ak | ≤ bk für alle k ≥ k0 (mit einem k0 ≥ 0) und
P∞
die Reihe k=0 bk ist konvergent.
(ii) Wurzelkriterium: Es gibt ein k0 ≥ 0, so dass gilt
p
k
|ak | ≤ q < 1
für alle k ≥ k0 .
(iii) Quotientenkriterium: Es gibt ein k0 ≥ 0, so dass gilt
ak+1 für alle k ≥ k0 .
ak ≤ q < 1
Bemerkung 5.32. (Ergänzung zu Satz 5.31) Anstelle von (ii) bzw. (iii) verwendet
man oft die folgenden stärkeren Bedingungen:
p
(ii) Verschärftes Wurzelkriterium:
lim k |ak | < 1,
k→∞
ak+1 < 1,
lim (iii) Verschärftes Quotientenkriterium:
k→∞ ak sofern die angegebenen Grenzwerte existieren.
Betrachten wir zunächst zwei Beispiele für die Anwendung des Majorantenkriteriums.
Beispiel 5.33. (Anwendung des Majorantenkriteriums) Mit dem Majorantenkriterium können wir zeigen, dass die Reihe
∞
X
sin(k)
k=0
3k
(5.30)
140
5.3. Konvergenzkriterien für Reihen
absolut konvergiert: Wegen | sin(k)| ≤ 1 für alle k ∈ N0 folgt nämlich, dass
k
sin(k) | sin(k)|
1
1
|ak | = k =
≤ k =
= bk
für alle k ∈ N0 .
k
3
3
3
3
Weiter wissen wir dass, die geometrische Reihe
n
X
bk =
k=0
n k
X
1
k=0
3
konvergiert. Also konvergiert nach dem Majorantenkriterium die Reihe (5.30) absolut.
Beispiel 5.34. (Anwendung des Majorantenkriteriums) Betrachten wir die Reihe
∞
X
1
kp
k=1
mit p ≥ 2.
(5.31)
Für ak = 1/k p mit p ≥ 2 gilt
1
1
1
1 1
1
2
2
|ak | = p = p ≤ 2 = · ≤ ·
=
= bk
k
k
k
k k
k (k + 1)
k (k + 1)
für alle k ∈ N,
wobei wir die Abschätzungen k 2 ≤ k p ⇔ 1/k p ≤ 1/k 2 für alle k ∈ N und 1/k ≤ 2/(k + 1)
für alle k ∈ N (welche wegen
2
1
· k (k + 1)
≤
⇐⇒
k +1 ≤ 2k
⇐⇒
1≤k
k
k+1 gilt) benutzt haben. In dem Beispiel 5.26 haben wir gesehen, dass die Reihe
∞
X
k=1
1
k (k + 1)
und damit auch die Reihe
2
∞
X
k=1
∞
∞
k=1
k=1
X
X
1
2
bk
=
=
k (k + 1)
k (k + 1)
konvergent ist. Nach dem Majorantenkriterium folgt damit, dass auch die Reihe (5.31)
für jedes p ≥ 2 absolut konvergent ist.
Man kann sogar zeigen, dass die Reihe in (5.31) auch für p > 1 konvergiert; dies ist aber
aufwendiger.
Als Beispiel für die Anwendung des Wurzelkriteriums zeigen wir noch einmal, dass die
geometrische Reihe für |q| < 1 absolut konvergiert.
Beispiel 5.35. (Anwendung des Wurzelkriteriums) Für die geometrische Reihe mit
a=1
∞
X
qk
(5.32)
k=0
k
gilt bei dem Wurzelkriterium für ak = q
p
p
p
k
|ak | = k |q k | = k |q|k = |q| < 1
für alle k ∈ N0
5. Reihen
141
genau dann wenn |q| < 1 ist. Also ist die Reihe (5.32) nach dem Wurzelkriterium absolut
konvergent, wenn |q| < 1 ist. Nach den Rechenregeln für konvergente Reihen (siehe (5.25)
in Satz 5.23) können wir daraus auch leicht folgern, dass die allgemeine geometrische
Reihe mit beliebigen a 6= 0 absolut konvergiert, wenn |q| < 1 gilt.
Zuletzt betrachten wir ein Beispiel für die Anwendung des Quotientenkriteriums.
Beispiel 5.36. (Anwendung des Quotientenkriteriums) Betrachten wir die Reihe
∞
X
1
,
k!
k=0
(5.33)
wobei wir uns zunächst erinnern, dass k! als k! = k · (k − 1)! = k · (k − 1) · . . . · 2 · 1 für
k ∈ N und 0! = 1 definiert ist. Hier ist ak = 1/k!, und nach dem Quotientenkriterium
müssen wir
ak+1 1
1
k! 1 1
k!
k!
=
=
=
=
=
= 1
:
·
ak (k + 1)! k! (k + 1)! 1 (k + 1)! (k + 1) k! k + 1 k + 1
untersuchen. Hier gilt
ak+1 1
1
ak = k + 1 ≤ 2 < 1
für alle k ≥ k0 = 1
bzw. alternativ mit dem verschärften Quotientenkriterium
ak+1 = lim 1 = 0 < 1.
lim k→∞
ak k→∞ k + 1
Die Reihe (5.33) ist damit nach dem verschärften Quotientenkriterium absolut konvergent.
5.4
Weiterführendes Material: Beweise der Konvergenzkriterien für Reihen∗
In diesem Teilkapitel befindet sich weiterführendes Material, welches nicht in der Vorlesung besprochen wird und welches nicht prüfungsrelevant ist. Genauer werden wir in diesem Teilkapitel Satz 5.31 beweisen. Die Beweise der drei Kriterien für absolute Konvergenz
in Satz 5.31 sind nicht schwierig und erhöhen das Verständnis dieser Konvergenzkriterien.
Beweis des Majorantenkriteriums in Satz 5.31. Falls k0 > 0 ist, können wir schreiben
kX
∞
∞
0 −1
X
X
|ak |,
|ak | +
|ak | =
k=k0
k=0
k=0
P∞
und wir sehen, dass die Reihe k=0 ak genau dann absolut konvergiert, wenn
absolut konvergiert. Weiter wissen wir für k0 > 0 wegen
∞
X
k=0
bk =
kX
0 −1
k=0
bk +
∞
X
k=k0
bk ,
P∞
k=k0
ak
5.4. Weiterführendes Material: Beweise der Konvergenzkriterien für Reihen∗
142
P
genau dann konvergiert, wenn ∞
k=k0 bk konvergiert.
P∞
Daher reicht es zu zeigen, dass
P∞ die Reihe k=k0 ak absolut konvergiert, wenn |ak | ≤ bk für
alle k ≥ k0 gilt und wenn k=k0 bk konvergiert.
dass
P∞
k=0 bk
Seien
n
X
(sn )n≥k0 =
k=k0
|ak |
!
die Folgen der Partialsummen
von
P∞
vergenten Reihe k0 bk , also
und
(tn )n≥k0 =
n
X
bk
k=k0
n≥k0
P∞
k=k0
|ak | und
t=
∞
X
P∞
k=k0 bk ,
!
n≥k0
und sei t der Wert der kon-
bk .
k=k0
Dann sind beide Folgen von Partialsummen monoton wachsend, denn
sn =
n
X
k=k0
tn =
|ak | ≤
n
X
k=k0
bk ≤
n
X
k=k0
n
X
|ak | + |an+1 | =
bk + bn+1 =
n+1
X
k=k0
n+1
X
|ak | = sn+1
bk = tn+1
k=k0
k=k0
für alle n ≥ k0 ,
für alle n ≥ k0 ,
(5.34)
und die Folge der Partialsummen (tn )n≥k0 ist beschränkt mit der Schranke t. Dabei haben
wir in (5.34) verwendet, dass gilt bk ≥ 0 für alle k ≥ k0 da bk ≥ |ak | ≥ 0 für alle k ≥ k0 .
Wir wissen nun, dass |ak | ≤ bk für alle k0 ≥ 0 gilt. Daher ist
sn =
n
X
k=k0
n
X
|ak | ≤
bk = tn ≤ t
|{z}
k=k0
≤ bk
für alle n ≥ k0 .
Also ist die Folge der Partialsummen (sn )n≥k0 monoton wachsend und beschränkt
und
P∞
damit nach dem Monotonieprinzip
(siehe Satz 4.35) konvergent. Also ist k=k0 |ak | konP
vergent, und damit ist ∞
a
absolut
konvergent.
k=0 k
Beweis des Wurzelkriteriums in Satz 5.31. Nach Voraussetzung gilt
p
k
|ak | ≤ q < 1
für alle k ≥ k0 ,
p
und aus (5.35) folgt wegen k |ak | ≥ 0
|ak | ≤ q k < 1k = 1
und die geometrische Reihe
∞
X
(5.35)
für alle k ≥ k0 ,
qk
k=0
konvergiert weil |q| < 1. Daher sind die Voraussetzungen des Majorantenkriteriums
mit
P
a
absolut
bk = q k mit 0 ≤ q < 1 erfüllt, und das Majorantenkriterium liefert, dass ∞
k=0 k
5. Reihen
143
konvergiert.
Beweis des Quotientenkriteriums in Satz 5.31. Nach Voraussetzung gilt
ak+1 |ak+1|
für alle k ≥ k0 .
ak = |ak | ≤ q < 1
Daraus folgt durch Multiplizieren mit |ak |
|ak+1 | ≤ q |ak |
für alle k ≥ k0 .
(5.36)
Wiederholte Anwendung von (5.36) liefert, dass
|ak+1 | ≤ q
|ak |
|ak |
≤ q 2 |ak−1 | ≤ . . . ≤ q k+1−k0 |ak0 | = k00 q k+1
|{z}
q
| {z }
≤ q |ak−1 |
= bk+1
für alle k ≥ k0 .
(5.37)
Da |q| < 1 gilt, konvergiert die geometrische Reihe
∞
X
∞
∞
X
|ak0 | k |ak0 | X k
bk =
q .
q = k0
q k0
q k=0
k=0
k=0
(5.38)
Mit bk = (|ak0 |/q k0 ) q k ist wegen (5.37) die Voraussetzung der Majorantenkriteriums
P∞
|ak | ≤ bk für alle k ≥ k0 + 1 erfüllt sowie wegen (5.38) die P
Konvergenz von
k=0 bk
∞
gegeben. Daher
kann das Majorantenkriteriums für die Reihe k=0 ak angewendet werP
a
den, und ∞
k=0 k konvergiert nach dem Majorantenkriterium absolut.
144
5.4. Weiterführendes Material: Beweise der Konvergenzkriterien für Reihen∗
Kapitel 6
Grenzwerte von Funktionen und
Stetigkeit
In diesem Kapitel betrachten wir Grenzwerte von Funktionen und führen anschließend den
Begriff der Stetigkeit ein. Der Begriff des Grenzwertes einer Funktion (in einem Punkt x0 )
baut auf den Begriff des Grenzwertes von Folgen auf. Anschaulich bedeutet Stetigkeit,
dass der Graph einer Funktion in einem Stück“ ohne den Stift abzusetzen gezeichnet
”
werden kann. Weist der Graph dagegen Sprünge auf, so hat die Funktion sogenannte
Unstetigkeitsstellen. Zuletzt lernen wir einige Resultate über stetige Funktionen kennen.
6.1
Grenzwerte von Funktionen
Wir beginnen mit den Konzept des Grenzwertes einer Funktion f (x) wenn x gegen einen
Punkt x0 strebt.
Definition 6.1. (Grenzwert einer Funktion) Sei Df ⊂ R, und sei f : Df → R eine
Funktion. Die Funktion f (x) konvergiert für x → x0 gegen a, falls für jede Folge
(xn )n∈N mit xn ∈ Df \ {x0 } gilt:
Aus
lim xn = x0
n→∞
folgt
lim f (xn ) = a.
n→∞
Oder in Worten: Wenn (xn )n∈N gegen x0 konvergiert, dann konvergiert die Folge f (xn )
gegen a. Man schreibt dann
lim f (x) = a
x→x0
n∈N
f (x) → a für x → x0 ,
oder
und man sagt f hat in x0 den Grenzwert a“.
”
Betrachten wir zwei Beispiele.
Beispiel 6.2. (Grenzwerte von Funktionen) Betrachten wir die Quadratwurzel
145
146
6.1. Grenzwerte von Funktionen
f : [0, ∞) → R, f (x) =
√
x. Dann gilt
√
√
lim x = 0 = 0
x→0
und
lim
x→1
√
x=
√
1 = 1.
(6.1)
Dies sieht man mit ein bisschen Übung direkt. Der Graph der Funktion f (x) =
linken Bild in Abbildung 6.1 gezeichnet.
√
x ist im
Wir können (6.1) aber auch ganz sauber mit
√ der Definition des Grenzwertes nachweisen.
Wir führen dies für den Grenzwert limx→0 x = 0 hier noch einmal explizit durch:
Sei also (xn )n∈N mit xn ∈ [0, ∞) \ {0} = (0, ∞) eine beliebige Folge, deren Grenzwert
x0 = 0 ist. Dann gibt es nach der Definition der Konvergenz einer Folge zu jedem εe > 0
ein N = N(e
ε) ∈ N, so dass gilt
|xn − 0| = |xn | = xn < εe
für alle n ≥ N.
(6.2)
√ Wir müssen nun zeigen, dass die Folge f (xn ) n∈N =
xn n∈N den Grenzwert Null hat.
Also müssen wir zeigen, dass zu jedem ε > 0 ein M = M(ε) ∈ N existiert, so dass gilt
√
√
√
|f (xn ) − 0| = | xn − 0| = | xn | = xn < ε
für alle n ≥ M.
(6.3)
Wir wählen nun M = N(ε2 ), wobei N(ε2 ) das N = N(e
ε) in (6.2) mit εe = ε2 ist. Dann
folgt aus (6.2), dass gilt:
√
√
√
xn < εe = ε2 = ε
für alle n ≥ M = N(ε2 ).
Damit folgt aber
√
√
√
|f (xn ) − 0| = | xn − 0| = | xn | = xn < ε
und wir haben (6.3) gezeigt. Also konvergiert f (xn )
für alle n ≥ M = N(ε2 ),
n∈N
gegen 0 wenn lim xn = 0.
Abb. 6.1: Im linken Bild ist der Graph der Funktion f (x) =
der Graph der Funktion (6.4) gezeichnet.
n→∞
√
x und im rechten Bild ist
6. Grenzwerte von Funktionen und Stetigkeit
147
Es ist zu beachten, dass in Definition 6.1 nicht gefordert wird, dass die Funktion f im
Punkt x = x0 definiert ist.
Beispiel 6.3. (Grenzwerte von Funktionen) Betrachten wir die Funktion
g : (0, ∞) → R,
g(x) =
sin(x)
.
x
(6.4)
Für diese Funktion kann man zeigen, dass gilt
sin(x)
= 1.
x→0
x
lim g(x) = lim
x→0
Wir werden später lernen, wie man dieses mit der Regel von de l’Hospital nachweist. Die
Funktion g(x) = sin(x)/x hat also in x0 = 0 einen Grenzwert, obwohl sie in x0 = 0
nicht definiert ist. Der Graph der Funktion (6.4) ist im rechten Bild in Abbildung 6.1
gezeichnet.
Wir werden ab jetzt nicht mehr mit der ε-Definition für die Konvergenz von Folgen argumentieren, sondern direkt die Grenzwerte bestimmen soweit möglich.
Als Nächstes lernen wir einen Satz über das Rechnen mit Grenzwerten von Folgen.
Satz 6.4. (Rechnen mit Grenzwerten von Funktionen) Es seien f : D → R und
g : D → R zwei Funktionen mit der gleichen Definitionsmenge D ⊂ R. Weiter gelten
lim f (x) = a
und
x→x0
lim g(x) = b,
x→x0
d.h. die Grenzwerte von f und g im Punkt x0 existieren. Dann gelten die folgenden Aussagen:
(i) lim f (x) + g(x) = lim f (x) + lim g(x) = a + b,
x→x0
(ii)
(iii)
(iv)
x→x0
lim f (x) − g(x) =
x→x0
lim f (x) · g(x) =
x→x0
lim f (x) −
x→x0
lim g(x)
x→x0
= a − b,
lim f (x) · lim g(x) = a · b,
x→x0
lim f (x)
a
f (x)
x→x0
=
= ,
lim
x→x0 g(x)
lim g(x)
b
x→x0
x→x0
x→x0
falls b 6= 0.
Betrachten wir zwei Beispiele zum Rechnen mit Grenzwerten von Folgen.
Beispiel 6.5. (Rechnen mit Grenzwerten von Folgen) Betrachten wir die Funktion
h : [0, ∞) \ {1} → R,
x−1
h(x) = √
.
x−1
(6.5)
148
6.1. Grenzwerte von Funktionen
Wir wollen die Grenzwerte von h(x) für x → 0 und x → 1 bestimmen. Dazu vereinfachen
wir die Funktion zunächst: Nach der dritten binomischen Formel gilt für x ≥ 0
√
√
√ 2
x −1=
x−1
x+1 .
x−1 =
Einsetzen in die Definition von h und Kürzen ergibt
√
√
√
x−1
x+1
x−1
√
h(x) = √
=
= x + 1.
x−1
x−1
Nach dem Satz 6.4 für das Rechnen mit Grenzwerten gilt
lim h(x) = lim
x→0
x→0
√
√
x + 1 = lim x + lim 1 = 0 + 1 = 1,
x→0
x→0
wobei wir Satz 6.4 (i) nur anwenden durften, weil für h(x) = f (x) + g(x) mit f (x) =
und g(x) = 1 die Grenzwerte
lim f (x) = lim
x→0
x→0
√
x=0
und
√
x
lim g(x) = lim 1 = 1
x→0
x→0
existieren. Analog findet man
lim h(x) = lim
x→1
x→1
√
√
√
x + 1 = lim x + lim 1 = 1 + 1 = 1 + 1 = 2.
x→1
x→1
Der Graph der Funktion (6.5) ist im linken Bild in Abbildung 6.2 gezeichnet.
Abb. 6.2: Im linken Bild ist der Graph der Funktion (6.5) aus Beispiel 6.5 und im rechten
Bild ist der Graph der Funktion (6.6) aus Beispiel 6.6 gezeichnet.
6. Grenzwerte von Funktionen und Stetigkeit
149
Beispiel 6.6. (Rechnen mit Grenzwerten von Folgen) Betrachten wir die Funktion
cos(x)
1
→ R,
f (x) =
.
(6.6)
f : R \ 0, −
4
4 + x1
Wir wollen den Grenzwert von f (x) für x → 0 bestimmen. Dazu formen wir die Funktionsvorschrift zunächst um:
f (x) =
cos(x)
cos(x)
x cos(x)
,
1 = 4 x+1 =
4x+1
4+ x
x
und wir finden nun nach den Regeln für das Rechnen mit Grenzwerten in Satz 6.4
lim
x
·
lim
cos(x)
x cos(x)
0·1
x→0
=
lim f (x) = lim
= x→0
= 0.
x→0
x→0 4 x + 1
0+1
lim 4 x + lim 1
x→0
x→0
Dabei konnten wir Satz 6.4 nur anwenden, weil die individuellen Grenzwerte
lim x = 0,
x→0
lim cos(x) = 1,
x→0
lim 4 x = 0
x→0
und
lim 1 = 1
x→0
existieren und weil der Grenzwert des Nenners ungleich Null ist. Der Graph der Funktion
(6.6) ist im rechten Bild in Abbildung 6.2 gezeichnet.
Als Letztes untersuchen wir noch ein Beispiel, an dem man sieht, warum es sinnvoll ist,
in Definition 6.1 alle Folgen (xn )n∈N in Df \ {x0 } mit lim xn = 0 zu betrachten.
n→∞
Abb. 6.3: Graph der Funktion (6.7).
150
6.2. Uneigentliche und einseitige Grenzwerte
Beispiel 6.7. (Funktion, für die der Grenzwert in einem Punkt nicht existiert)
Betrachten wir die Funktion
1−x
wenn x ≤ 1,
f : R → R,
f (x) =
(6.7)
x
wenn x > 1.
Die Funktion ist in Abbildung 6.3 gezeichnet.
Dann existiert der Grenzwert von f(x) in x0 = 1 nicht. Dies sieht man wirfolgt: Betrachten wir einerseits die Folge 1 + n1 n∈N und andererseits die Folge 1 − n1 n∈N . Dann gilt
für beide Folgen
1
1
=1
und
lim 1 −
= 1.
lim 1 +
n→∞
n→∞
n
n
Wenn der Grenzwert lim f (x) existiert, dann muss aber gelten
x→1
lim f
n→∞
1
1+
n
= lim f
n→∞
1
1−
n
.
Dies ist aber nicht der Fall, denn
1
1
1
= lim 1 − 1 −
= lim = 0,
lim f 1 −
n→∞
n→∞ n
n→∞
n
n
1
1
1
lim f 1 +
= lim 1 +
= lim 1 + lim = 1 + 0 = 1.
n→∞
n→∞
n→∞
n→∞ n
n
n
(6.8)
(6.9)
Wir bemerken, dass wir in (6.8) bzw. (6.9) die Definition f (x) = 1 − x bzw. f (x) = x
verwendet haben, da x = 1 − n1 < 1 bzw. x = 1 + n1 > 1 ist.
6.2
Uneigentliche und einseitige Grenzwerte
Wir führen nun zwei Arten von sogenannten uneigentlichen Grenzwerten von Funktionen ein. Dazu müssen wir als Vorbereitung erklären, was es für eine divergente Folge
(xn )n∈N bedeutet, wenn lim xn = +∞ oder lim xn = −∞ gilt.
n→∞
n→∞
Definition 6.8. (bestimmt divergente Folge) Eine divergente Folge reeller Zahlen
(xn )n∈N heißt bestimmt divergent gegen +∞ (bzw. −∞), wenn die beiden folgenden
Bedingungen erfüllt sind:
(i) Es gibt ein n0 ∈ N, so dass xn > 0 (bzw. xn < 0) für alle n ≥ n0 , und
(ii) die Folge (1/xn )n≥n0 ist eine Nullfolge.
Ist (xn )n∈N bestimmt divergent gegen +∞ (bzw. −∞) so bezeichnet man +∞ (bzw. −∞)
auch als den uneigentlichen Grenzwert und schreibt
lim xn = +∞
bzw. lim xn = −∞
n→∞
n→∞
6. Grenzwerte von Funktionen und Stetigkeit
151
Betrachten wir ein paar Beispiele bestimmt divergenter Folgen.
Beispiel 6.9. (bestimmt divergente Folgen)
(a) Die Folge (n)n∈N ist bestimmt konvergent gegen +∞, denn (i) n > 0 für alle n ≥
n0 = 1, und (ii) ist die Folge (1/n)n≥n0 = (1/n)n∈N eine Nullfolge. Wir haben also in
Formeln lim n = +∞.
n→∞
(b) Die Folge (−2n )n∈N ist bestimmt divergent
gegen −∞, denn
(i) −2n < 0 für alle
n ≥ n0 = 1, und (ii) ist die Folge 1/(−2n ) n≥n0 = 1/(−2n ) n∈N = − 1/2n n∈N eine
Nullfolge. Wir haben also in Formeln lim − 2n = −∞.
n→∞
n
n n
(c) Die Folgen (−1) n n∈N und (−1) 2 n∈N sind nicht bestimmt divergent gegen +∞
oder gegen −∞, denn sie alternieren. Damit gibt es kein n0 für das sich Bedingung (i)
in Definition 6.8 erfüllen lässt.
Nun können wir sogenannte uneigentliche Grenzwerte für eine Funktion f definieren, wenn
wir uns einem Punkt x = x0 nähern und dabei die Funktionswerte f (x) beliebig gross
bzw. beliebig klein werden.
Definition 6.10. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 )
Sei Df ⊂ R, und sei f : Df → R eine Funktion. Wir sagen f (x) hat in x = x0
den uneigentlichen Grenzwert +∞ (bzw. −∞), wenn für jede Folge (xn )n∈N mit
xn ∈ Df \ {x0 } gilt:
Aus lim xn = x0 folgt lim f (xn ) = +∞
bzw. lim f (xn ) = −∞ . (6.10)
n→∞
n→∞
Wir schreiben dann in Formeln
lim f (x) = +∞
x→x0
n→∞
bzw.
lim f (x) = −∞ .
x→x0
Dabei sind limn→∞ f (xn ) = +∞ bzw. limn→∞ f (xn ) = −∞ in (6.10) in dem Sinne zu
lesen, dass die Folge f (xn ) n∈N bestimmt divergent gegen +∞ bzw. gegen −∞ ist.
Betrachten wir zwei Beispiele.
Beispiel 6.11. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 )
Die Funktion f : R \ {0} → R, f (x) = 1/x2 , hat in x0 = 0 den uneigentlichen Grenzwert
+∞, also
1
lim f (x) = lim 2 = +∞.
x→0
x→0 x
2
Der Graph der Funktion f (x) = 1/x ist im linken Bild von Abbildung 6.4 gezeichnet.
Beispiel 6.12. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 ) Die
Funktion f : (0, π) → R, f (x) = cot(x) = cos(x)/ sin(x), hat in x0 = π den uneigentlichen
152
6.2. Uneigentliche und einseitige Grenzwerte
Abb. 6.4: Im linken Bild ist der Graph der Funktion f (x) = 1/x2 und im rechten Bild ist
der Graph der Funktion f (x) = cot(x) gezeichnet.
Grenzwert −∞, also
lim f (x) = lim cot(x) = −∞.
x→0
x→0
Hier ist zu beachten, dass wir nur Folgen (xn )n∈N in (0, π) betrachten, d.h. wir nähern
uns x0 = π nur von links. Der Graph der Funktion f (x) = cot(x) mit x ∈ (0, π) ist im
rechten Bild von Abbildung 6.4 gezeichnet.
Beispiel 6.13. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 )
Die Funktion f : R\{0} → R, f (x) = 1/x, hat in x0 = 0 keinen uneigentlichen Grenzwert,
denn für die Folgen (xn )n∈N = (1/n)n∈N und (zn )n∈N = (−1/n)n∈N gilt:
1
=0
n→∞ n
lim xn = lim
n→∞
und
lim zn = lim −
n→∞
n→∞
1
= 0,
n
aber wir finden
1
= lim n = +∞
n→∞
n→∞ xn
lim f (xn ) = lim
n→∞
und
1
= lim −n = −∞.
n→∞ zn
n→∞
lim f (zn ) = lim
n→∞
Da wir für verschiedene Folgen verschiedene uneigentliche Grenzwerte“ erhalten, hat
”
f (x) = 1/x in x0 = 0 keinen uneigentlichen Grenzwert. Wir haben den Graphen der
Funktion f (x) = 1/x im rechten Bild in Abbildung 6.5 gezeichnet.
Nun führen wir den uneigentlichen Grenzwert einer Funktion ein, wenn die Variable x
gegen +∞ bzw. gegen −∞ strebt.
Definition 6.14. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Sei
Df ⊂ R, und sei f : Df → R eine Funktion. Wir sagen f (x) hat für x → +∞ (bzw. für
6. Grenzwerte von Funktionen und Stetigkeit
153
Abb. 6.5: Der Graph der Funktion f (x) = 1/x ist in linken Bild und der Graph von
f (x) = x · sin(x) im rechten Bild gezeichnet.
x → −∞) den uneigentlichen Grenzwert a, wenn für jede Folge (xn )n∈N mit xn ∈ Df
gilt:
Aus lim xn = +∞
bzw. lim xn = −∞
folgt lim f (xn ) = a.
(6.11)
n→∞
n→∞
Wir schreiben dann in Formeln
lim f (x) = a
x→+∞
n→∞
bzw.
lim f (x) = a .
x→−∞
Die Aussage (6.11) bedeutet also, dass wir Folgen (xn )n∈N mit xn ∈ Df betrachten, die
bestimmt divergent gegen +∞ bzw. −∞ sind. Es ist auch der Fall zugelassen, dass der
Grenzwert a selber uneigentlich ist“, also a = +∞ oder a = −∞.
”
Betrachten wir vier Bespiele.
Beispiel 6.15. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Funktion f : R \ {0} → R, f (x) = 1/x2 , hat f für x → −∞ den uneigentlichen Grenzwert 0,
also
1
lim f (x) = lim 2 = 0.
x→−∞
x→−∞ x
2
Für x → +∞ hat f (x) = 1/x ebenfalls den uneigentlichen Grenzwert 0, also
1
= 0.
x→+∞ x2
lim f (x) = lim
x→+∞
Der Graph der Funktion f (x) = 1/x2 ist im linken Bild von Abbildung 6.4 gezeichnet.
154
6.2. Uneigentliche und einseitige Grenzwerte
Beispiel 6.16. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Arkustangensfunktion f : R → (−π/2, π/2), f (x) = arctan(x), hat f für x → −∞ den
uneigentlichen Grenzwert −π/2, also
lim f (x) = lim arctan(x) = −
x→−∞
x→−∞
π
.
2
Für x → +∞ hat f (x) = arctan(x) den uneigentlichen Grenzwert π/2, also
lim f (x) = lim arctan(x) =
x→+∞
x→+∞
π
.
2
Der Graph der Funktion f (x) = arctan(x) ist im linken Bild von Abbildung 6.6 gezeichnet.
Abb. 6.6: Im linken Bild ist der Graph der Funktion f (x) = arctan(x) und im rechten
Bild ist der Graph der Funktion f (x) = x3 gezeichnet.
Beispiel 6.17. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Funktion f : R → R, f (x) = x3 , hat für x → +∞ den uneigentlichen Grenzwert
lim f (x) = lim x3 = +∞
x→+∞
x→+∞
und hat für x → −∞ den uneigentlichen Grenzwert
lim f (x) = lim x3 = −∞.
x→−∞
x→−∞
Der Graph der Funktion f (x) = x3 ist im rechten Bild von Abbildung 6.6 gezeichnet.
Beispiel 6.18. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Funktion f : R → R, f (x) = x · sin(x), hat weder für x → +∞ noch für x → −∞ einen
6. Grenzwerte von Funktionen und Stetigkeit
155
uneigentlichen Grenzwert, da sie zwischen positiven und negativen Werten oszilliert, die
betraglich beliebig groß werden (siehe das rechte Bild in Abbildung 6.5 für den Graphen
von f (x) = x · sin(x)). Um formal nachzuweisen, dass f (x) = x · sin(x) für x → +∞
keinen Grenzwert hat, betrachten wir die zwei Folgen
3π
π
,
und
(zn )n∈N = 2n π +
(xn )n∈N = 2n π +
2 n∈N
2 n∈N
für welche gilt
lim xn = lim
n→∞
n→∞
Dann finden wir
π
2n π +
=∞
2
3π
lim zn = lim 2n π +
= ∞.
n→∞
n→∞
2
und
π
π
= +∞,
lim f (xn ) = lim 2n π +
sin 2n π +
n→∞
n→∞
2 |
{z 2 }
=1
3π
3π
lim f (zn ) = lim 2n π +
= −∞.
sin 2n π +
n→∞
n→∞
2
2
{z
}
|
= −1
Da wir für die beiden Folgen verschiedene uneigentliche Grenzwerte“ erhalten, hat
”
f (x) = x · sin(x) für x → +∞ keinen uneigentlichen Grenzwert. Analog zeigt man,
dass f (x) = x · sin(x) für x → −∞ keinen uneigentlichen Grenzwert hat.
Als letztes Konzept in diesem Teilkapitel führen wir einseitige Grenzwerte ein, welche
wir für Funktionen mit Sprungstellen“ benötigen. Die Idee ist dabei, dass man sich dem
”
Punkt x0 nur von links oder nur von rechts, also einseitig“, nähert. Ein Beispiel einer
”
Funktion mit einer Sprungstelle haben wir bereits in Beispiel 6.7 gesehen.
Definition 6.19. (einseitiger Grenzwert einer Funktion in einem Punkt x0 ) Sei
Df ⊂ R, und sei f : Df → R eine Funktion.
(i) f (x) konvergiert von links für x → x0 gegen a, falls für jede Folge (xn )n∈N
mit xn ∈ Df \ {x0 } und xn < x0 gilt:
Aus
lim xn = x0
n→∞
folgt
lim f (xn ) = a.
n→∞
Man sagt dann f (x) hat in x0 den linksseitigen Grenzwert a“ und schreibt
”
oder
f (x) → a für x → x−
(6.12)
lim− f (x) = a
0.
x→x0
(ii) f (x) konvergiert von rechts für x → x0 gegen a, falls für jede Folge (xn )n∈N
mit xn ∈ Df \ {x0 } und xn > x0 gilt:
Aus
lim xn = x0
n→∞
folgt
lim f (xn ) = a.
n→∞
Man sagt dann f (x) hat in x0 den rechtsseitigen Grenzwert a“ und schreibt
”
oder
f (x) → a für x → x+
(6.13)
lim+ f (x) = a
0.
x→x0
156
6.2. Uneigentliche und einseitige Grenzwerte
Der obere Index − bzw. + von x0 in (6.12) bzw. (6.13) bedeutet, dass sich in x → x−
0
bzw. x → x+
0 die Variable x von links, d.h. x < x0 , bzw. von rechts, d.h x > x0 , an x0
annähert.
Bemerkung 6.20. (einseitige uneigentliche Grenzwerte) Analog kann man einseitige uneigentliche Grenzwerte einführen. Dies ist intuitiv und wir werden spätestens
in den nachfolgenden Beispielen sehen, was damit gemeint ist.
Betrachten wir nun einige Beispiele zu einseitigen Grenzwerten.
Beispiel 6.21. (einseitige√
Grenzwerte einer Funktion) Betrachten wie die Funktion
f : [0, ∞) → R, f (x) = x. Für x0 = 1 finden wir für den linksseitigen bzw. den
rechtsseitigen Grenzwert
√
√
√
√
lim− f (x) = lim− x = 1 = 1
bzw.
lim+ f (x) = lim+ x = 1 = 1.
x→1
x→1
x→1
x→1
Der linksseitige und der rechtsseitige Grenzwert stimmen also überein. Dies muss aber √
der
x
Fall sein, denn wir haben in Beispiel 6.2
schon
gesehen,
dass
der
Grenzwert
von
f
(x)
=
√
in x0 = 1 existiert und den Wert lim x = 1 hat.
x→1
Für den Punkt x0 = 0 erfüllen alle Folgen (xn )n∈N mit xn ∈ Df = [0, ∞)\{0} automatisch
die Bedingung xn > x0 für alle n ∈ N. Daher ist der Grenzwert von f (x) in x0 = 0
automatisch ein rechtsseitiger Grenzwert, also
√
√
lim f (x) = lim+ f (x) = lim+ x = 0 = 0.
x→0
x→0
Der Graph der Funktion f (x) =
√
x→0
x ist im linken Bild in Abbildung 6.1 gezeichnet.
Was wir im letzten Beispiel für den Punkt x0 = 1 gesehen haben trifft immer zu, und wir
halten dies in einem Lemma fest.
Lemma 6.22. (Grenzwert = linksseitiger Grenzwert = rechtsseitiger Grenzwert) Sei Df ⊂ R, und sei f : Df → R eine Funktion.
(i) Existieren in x = x0 bzw. für x → −∞ oder x → +∞ der eigentliche oder uneigentliche Grenzwert von f , dann haben die entsprechenden einseitigen Grenzwerte
denselben Wert wie der Grenzwert.
(ii) Existieren in x = x0 bzw. für x → −∞ oder x → +∞ der linksseitige und der
rechtsseitige eigentliche oder uneigentliche Grenzwert von f und haben beide den
gleichen Wert a, dann existiert auch der entsprechende Grenzwert von f und hat
denselben Wert a.
Beispiel 6.23. (einseitige uneigentliche Grenzwerte einer Funktion) Betrachten
wir die Funktion f : R\{0} → R, f (x) = 1/x. Dann sind der linksseitige bzw. rechtsseitige
Grenzwert in x0 = 0 gegeben durch
lim− f (x) = lim−
x→0
x→0
1
= −∞
x
und
lim+ f (x) = lim+
x→0
x→0
1
= +∞.
x
6. Grenzwerte von Funktionen und Stetigkeit
157
Wir haben den Graph der Funktion f (x) = 1/x im linken Bild in Abbildung 6.5 gezeichnet.
y
1
0
x
−1
Abb. 6.7: Der Graph der der Signum-Funktion (6.14).
Betrachten wir nun ein Beispiel einer Funktion mit einer sogenannten Sprungstelle“.
”
Beispiel 6.24. (Signum-Funktion oder Vorzeichen-Funktion) Die Signum-Funktion
(oder Vorzeichen-Funktion) ist definiert durch

für x < 0,
 −1
sgn : R → R,
sgn(x) =
0
für x = 0,

+1
für x > 0.
Ihr linksseitiger bzw. rechtsseitiger Grenzwert in x0 = 0 ist
lim sgn(x) = lim− −1 = −1
x→0−
x→0
bzw.
lim sgn(x) = lim+ +1 = +1.
x→0+
x→0
(6.14)
Wir beobachten, dass in diesem Beispiel eine Funktion vorliegt, für die in x0 = 0 sowohl der linksseitige wie auch der rechtsseitige Grenzwert existieren, aber beide haben
unterschiedliche Werte. Die Funktion ist in x0 = 0 auch definiert und nimmt den Wert
sgn(0) = 0 an, der ebenfalls von den beiden einseitigen Grenzwerten verschieden ist.
Wir haben den Graphen der Funktion sgn(x) im rechten Bild in Abbildung 6.7 gezeichnet.
Dabei deutet der leere“ Kreis im Punkt (0, −1) und (0, 1) an, dass hier nicht der Funkti”
onswert von sgn(0) liegt. Der ausgefüllte Kreis in (0, 0) deutet dagegen an, dass sgn(0) = 0
gilt. Wir haben an der Stelle x = 0 eine sogenannte Sprungstelle“ der Funktion.
”
6.3
Asymptoten
Mit Hilfe der eigentlichen und uneigentlichen Grenzwerte von Funktionen können wir nun
sauber definieren, was eine Asymptote einer Funktion f : Df → R mit Df ⊂ R ist. Wir
finden zwei Arten von Asymptoten:
158
6.3. Asymptoten
(1) Vertikale Asymptoten, die durch eine Parallele zur y-Achse gegeben sind,
also durch die vertikale Linie x = x0 : In diesem Fall finden wir für den linksseitigen
uneigentlichen Grenzwert
lim f (x) = −∞
oder
x→x−
0
lim f (x) = +∞
x→x−
0
oder/und für den rechtsseitigen uneigentlichen Grenzwert
lim f (x) = −∞
x→x+
0
oder
lim f (x) = +∞.
x→x+
0
(2) Asymptoten, die durch eine Geradengleichung g(x) = a x + b gegeben sind:
In diesem Fall gilt für x → +∞ bzw. für x → −∞, dass sich die Funktion f der
Geraden g immer mehr annähert. Mathematisch können wir dies ausdrücken, indem
wir sagen, dass der uneigentliche Grenzwert des Abstands der Funktion f von der
Geraden g(x) = a x + b für x → +∞ bzw. für x → −∞ gegen Null strebt, also
lim |f (x) − (a x + b)| = 0
x→−∞
oder
lim |f (x) − (a x + b)| = 0.
x→+∞
Betrachten wir zunächst ein paar Beispiele.
Beispiel 6.25. (Vertikale Asymptoten)
(a) Die Funktion f : R \ {0} → R, f (x) = 1/x, hat in x = 0 eine vertikale Asymptote,
denn wir haben
1
1
lim− = −∞
und
lim+ = +∞.
x→0 x
x→0 x
Der Graph dieser Funktion ist im linken Bild in Abbildung 6.8 gezeichnet.
(b) Die Funktion
f : R \ {−1} → R,
f (x) =
x
,
x+1
hat in x = −1 eine vertikale Asymptote, denn wir haben
lim −
x→−1
x
= +∞
x+1
und
lim +
x→−1
x
= −∞.
x+1
Der Graph dieser Funktion ist im rechten Bild in Abbildung 6.8 gezeichnet.
6. Grenzwerte von Funktionen und Stetigkeit
159
Abb. 6.8: Der Graph der Funktion f (x) = 1/x mit seinen Asymptoten ist im linken Bild
gezeichnet, und der Graph der Funktion f (x) = x/(x + 1) mit seinen Asymptoten ist im
rechten Bild gezeichnet.
Beispiel 6.26. (Asymptoten, die Geraden sind: horizontale Asymptoten)
(a) Die Funktion f : R \ {0} → R, f (x) = 1/x, hat für x → +∞ und für x → −∞ die
horizontale Asymptote g(x) = 0, denn wir haben
1
1
=0
und
lim
= 0.
x→+∞ x
x→−∞ x
Der Graph dieser Funktion ist im linken Bild in Abbildung 6.8 gezeichnet.
lim
(b) Die Funktion
x
,
x+1
hat für x → +∞ und für x → −∞ die horizontale Asymptote g(x) = 1, denn wir
haben
1
x
(x + 1) − 1
= 1,
lim
= lim
= lim 1 −
x→−∞ x + 1
x→−∞
x→−∞
x+1
x+1
1
(x + 1) − 1
x
= 1.
= lim
= lim 1 −
lim
x→+∞
x→+∞
x→+∞ x + 1
x+1
x+1
f : R \ {−1} → R,
f (x) =
Der Graph dieser Funktion ist im rechten Bild in Abbildung 6.8 gezeichnet.
Beispiel 6.27. (Asymptoten,
die Geraden sind: horizontale Asymptoten) Die
π π
Funktion f : R → − 2 , 2 , f (x) = arctan(x), hat die Asymptoten g1 (x) = −π/2 und
g2 (x) = π/2, denn
π π
⇐⇒
lim |arctan(x) − g1 (x)| = lim arctan(x) + = 0,
lim arctan(x) = −
x→+∞
x→−∞
x→−∞
2
2
160
π
lim arctan(x) =
x→+∞
2
6.3. Asymptoten
⇐⇒
π lim |arctan(x) − g2 (x)| = lim arctan(x) − = 0.
x→+∞
x→+∞
2
Der Graph der Funktion f (x) = arctan(x) mit seinen Asymptoten ist im linken Bild in
Abbildung 6.9 gezeichnet.
Die jeweils zweite äquivalente Bedingung brauchen wir im vorigen Beispiel nicht unbedingt, da wir für eine horizontale Gerade, also eine konstante Funktion, auch mit der
ersten Bedingung die Asymptote finden können. Ist die Asymptote dagegen eine Gerade
mit Steigung ungleich Null, so müssen wir die zweite Bedingung verwenden, wie wir im
nächsten Beispiel sehen werden.
Abb. 6.9: Der Graph der Funktion f (x) = arctan(x) mit seinen Asymptoten ist im linken
Bild gezeichnet, und der Graph der Funktion f (x) = (27 x2 + 13 x + 2)/x mit seinen
Asymptoten ist im rechten Bild gezeichnet.
Beispiel 6.28. (Asymptoten, die Geraden sind: Asymptote mit Steigung 6= 0)
Die Funktion
27 x2 + 13 x + 2
f : R \ {0} → R,
f (x) =
,
x
schreiben wir zunächst als
f (x) =
27 x2 + 13 x + 2
2
= 27 x + 13 + .
x
x
Betrachten wir nun x → −∞ bzw. x → +∞, so gilt
2
=0
x→−∞ x
lim
und
2
= 0.
x→+∞ x
lim
6. Grenzwerte von Funktionen und Stetigkeit
161
Also wächst die Funktion f (x) wie die Gerade g(x) = 27 x + 13 wenn x → −∞ oder wenn
x → +∞ strebt, d.h. die Gerade g(x) = 27 x + 13 ist die Asymptote für x → −∞ und
x → +∞. Hier haben wir also, dass gilt
2
2
− 27 x + 13 = lim = 0,
lim |f (x) − g(x)| = lim 27 x + 13 +
x→−∞ x
x→−∞
x→−∞
x
2
2
lim |f (x) − g(x)| = lim 27 x + 13 +
− 27 x + 13 = lim = 0.
x→+∞
x→+∞
x→+∞ x
x
Natürlich besitzt die Funktion auch eine vertikale Asymptote in x = 0, denn
2
= −∞,
lim f (x) = lim− 27 x + 13 +
x→0
x→0−
x
2
lim f (x) = lim+ 27 x + 13 +
= +∞.
x→0
x→0+
x
Der Graph der Funktion f (x) = (27 x2 + 13 x+ 2)/x mit seinen Asymptoten ist im rechten
Bild in Abbildung 6.9 gezeichnet.
Nun definieren wir formal, was eine Asymptote ist.
Definition 6.29. (Asymptote) Sei f : Df → R mit Df ⊂ R eine Funktion.
(i) Existiert für ein x0 ∈
/ Df der uneigentliche linksseitige Grenzwert in x0 , also
lim f (x) = −∞
oder
lim f (x) = +∞,
x→x−
0
x→x−
0
bzw. existiert für ein x0 ∈
/ Df der uneigentliche rechtsseitige Grenzwert in x0 , also
lim f (x) = −∞
x→x+
0
oder
lim f (x) = +∞,
x→x+
0
so nennt man die vertikale Gerade x = x0 (also die Parallele zur y-Achse durch
+
x = x0 ) eine Asymptote von f (für x → x−
0 bzw. für x → x0 ).
(ii) Existiert der uneigentliche Grenzwert
lim f (x) = y0
x→−∞
bzw.
lim f (x) = y0 ,
x→+∞
so nennt man die horizontale Gerade g(x) = y0 eine Asymptote von f (für
x → −∞ bzw. für x → +∞).
(iii) Gilt für die Gerade g(x) = a x + b, dass
lim |f (x) − g(x)| = lim |f (x) − (a x + b)| = 0
x→−∞
x→−∞
bzw.
lim |f (x) − g(x)| = lim |f (x) − (a x + b)| = 0
x→+∞
x→+∞
ist, so nennt man die Gerade g(x) = a x + b eine Asymptote von f (für x → −∞
bzw. für x → +∞).
162
6.3. Asymptoten
Der Fall (ii) ist ein Sonderfall von Fall (iii) mit der Steigung a = 0 und mit b = y0 .
Betrachten wir noch einige Beispiele.
Beispiel 6.30. (horizontale Asymptote) Die Funktion
f : R → R,
f (x) =
1
,
2 + x2
hat für x → −∞ und für x → +∞ die Asymptote g(x) = 0, denn es gilt
1
=0
x→−∞ 2 + x2
lim f (x) = lim
x→−∞
und
1
= 0.
x→+∞ 2 + x2
lim f (x) = lim
x→+∞
Im linken Bild in Abbildung 6.10 haben wir den Graph der Funktion f (x) = 1/(2 + x2 )
mit seiner Asymptote g(x) = 0 gezeichnet.
Abb. 6.10: Der Graph der Funktion f (x) = 1/(2 + x2 ) mit seiner Asymptote ist im linken
Bild gezeichnet, und der Graph der Funktion f (x) = (2 x2 + 1)/x2 mit seinen Asymptoten
ist im rechten Bild gezeichnet.
Beispiel 6.31. (vertikale und horizontale Asymptoten) Die Funktion
f : R \ {0} → R,
f (x) =
2 x2 + 1
,
x2
können wir auch schreiben als
f (x) =
2 x2 + 1
2 x2
1
1
=
+ 2 = 2 + 2.
2
2
x
x
x
x
6. Grenzwerte von Funktionen und Stetigkeit
163
Daraus folgt direkt
1
lim f (x) = lim 2 + 2 = 2
x→−∞
x→−∞
x
und
1
lim f (x) = lim 2 + 2 = 2,
x→+∞
x→+∞
x
d.h. die horizontale Gerade g(x) = 2 ist eine Asymptote für x → −∞ und x → +∞.
Für x → 0 finden wir
1
lim f (x) = lim 2 + 2
x→0
x→0
x
= +∞,
d.h. die vertikale Gerade mit x = 0 ist eine Asymptote für x → 0.
Im rechten Bild in Abbildung 6.10 haben wir den Graph der Funktion f (x) = (2 x2 +1)/x2
mit seinen Asymptoten gezeichnet.
Beispiel 6.32. (vertikale Asymptote) Die Funktion
12 π 12 π
cos(x)
cot : −
\ {−π, 0, π} → R,
cot(x) =
,
,
10 10
sin(x)
hat die vertikalen Geraden durch x = −π, x = 0 und x = π als Asymptoten, denn
lim cot(x) = −∞
und
lim cot(x) = −∞
und
lim cot(x) = −∞
und
x→−π −
x→0−
x→π −
lim cot(x) = +∞,
x→−π +
lim cot(x) = +∞,
x→0+
lim cot(x) = +∞.
x→π +
Der Graph der Funktion f (x) = cot(x) mit seinen Asymptoten ist im linken Bild von
Abbildung 6.11 gezeichnet.
Beispiel 6.33. (Asymptote mit Steigung ungleich Null) Die Funktion
f : R → R,
f (x) =
x3 + 2 x2 + 1
,
2 + x2
können wir schreiben als
x3 + 2 x − 2 x + 2 x2 + 4 − 3
x3 + 2 x2 + 1
=
f (x) =
2 + x2
2 + x2
(x3 + 2 x) + (2 x2 + 4) − (2 x + 3)
=
2 + x2
x (x2 + 2) + 2 (x2 + 2) − (2 x + 3)
=
2 + x2
2
3
+ 2
2x+3
= x+2− x x .
=x+2−
2
2
2+x
+1
x2
164
6.4. Stetigkeit und Rechnen mit stetigen Funktionen
Abb. 6.11: Der Graph der Funktion f (x) = cot(x) mit seinen Asymptoten ist im linken
Bild gezeichnet, und der Graph der Funktion f (x) = (x3 + 2 x2 + 1)/(2 + x2 ) mit seiner
Asymptoten ist im rechten Bild gezeichnet.
Weil der letzte Term für x → ±∞ gegen Null strebt, vermuten wir, dass die Asymptote
die Gerade g(x) = x + 2 ist. Nun weisen wir dies nach:


2
3
+ 2


x
x
lim |f (x) − g(x)| = lim x + 2 −
 − (x + 2) = lim −
2
n→−∞
n→−∞ n→−∞
+1
x2


3
2
+ 2


lim |f (x) − g(x)| = lim x + 2 − x x  − (x + 2) = lim −
2
n→+∞
n→+∞ n→+∞ +1
2
x
3
2
+ 2
x x
2
+1
x2
3
2
+ 2
x x
2
+1
x2
0
= = 0,
1
0
= = 0.
1
Der Graph der Funktion f (x) = (x3 + 2 x2 + 1)/(2 + x2 ) mit seinen Asymptoten ist im
rechten Bild von Abbildung 6.11 gezeichnet.
6.4
Stetigkeit und Rechnen mit stetigen Funktionen
Zunächst definieren wir, was es bedeutet, wenn eine Funktion f : Df → R (wobei Df ⊂ R)
in einem Punkt x0 stetig ist. Danach machen wir uns klar, was dies geometrisch bedeutet
und betrachten diverse Beispiele.
6. Grenzwerte von Funktionen und Stetigkeit
165
Definition 6.34. (Stetigkeit) Sei Df ⊂ R, und sei f : Df → R eine Funktion.
(i) Die Funktion f heißt stetig in x0 ∈ Df , falls gilt
lim f (x) = f (x0 ).
(6.15)
x→x0
(ii) Die Funktion f heißt stetig, falls f in jedem x0 ∈ Df stetig ist. Wollen wir betonen,
dass eine stetige Funktion auf ihrem ganzen Definitionsbereich stetig ist, so sagen
wir auch f ist stetig auf Df “.
”
(iii) Ist die Funktion f in einem Punkt x0 ∈ Df nicht stetig, so sagen wir auch die
Funktion f ist in diesem Punkt unstetig. Man nennt den Punkt x0 dann auch eine
Unstetigkeitsstelle der Funktion f .
Was bedeutet die Definition der Stetigkeit anschaulich? Die Gleichung (6.15) besagt, dass die Funktion im Punkt x0 als Grenzwert (und damit insbesondere auch als
linksseitigen und als rechtsseitigen Grenzwert) den Funktionswert f (x0 ) hat. Dies bedeutet lax“ ausgedrückt, dass der Graph einer auf Df stetigen Funktion eine
”
durchgehende Kurve ist, die in keinem Punkt x0 ∈ Df abreisst oder springt“.
”
Anschaulich ist dies in Abbildung 6.12 dargestellt. Die Funktion im linken Bild in Abbildung 6.12 ist stetig, d.h. sie ist in allen Punkten stetig, wogegen die Funktion im rechten
Bild in allen Punkten außer x0 stetig ist. In x = x0 hat die Funktion im rechten Bild in
Abbildung 6.12 dagegen eine Unstetigkeitsstelle“; sie springt“ im Punkt x = x0 und
”
”
hat dort eine Sprungstelle“.
”
y
y
f (x)
f (x)
x
x0
x
Abb. 6.12: Die Funktion im linken Bild ist (in allen Punkten) stetig. Die Funktion im
rechten Bild ist unstetig im Punkt x0 , weil die Funktion hier eine Sprungstelle“ hat.
”
Betrachten wir zunächst einige Beispiele.
Beispiel 6.35. (stetige Funktionen, Unstetigkeitsstellen)
√
(a) Die Funktion f : [0, ∞) → R, f (x) = x, ist stetig, d.h. sie ist in allen Punkten
x0 ∈ [0, ∞) stetig.
166
6.4. Stetigkeit und Rechnen mit stetigen Funktionen
(b) Die Funktion f : R \ {0} → R, f (x) = 1/x, ist in allen Punkten x0 ∈ R \ {0} stetig;
also ist die Funktion f (x) = 1/x stetig.
(c) Die Signum-Funktion sgn(x) (vgl. Beispiel 6.24 und das rechte Bild in Abbildung 6.7)
ist in allen Punkten x0 6= 0 stetig. In Beispiel 6.24 haben wir bereits gezeigt, dass gilt
lim sgn(x) = lim− −1 = −1
x→0−
x→0
und
lim sgn(x) = lim+ +1 = +1,
x→0+
x→0
und wir haben f (0) = 0. Also ist die Signum-Funktion in x0 = 0 unstetig.
(d) Die trigonometrischen Funktionen sin(x) und cos(x) sind stetig auf R. Ebenso sind
tan(x) und cot(x) auf ihrem jeweiligen Definitionsbereich stetig.
Als unmittelbare Folgerung aus den Grenzwertsätzen (siehe Satz 6.4) erhält man den
folgenden Satz über das Rechnen mit stetigen Funktionen.
Satz 6.36. (Rechnen mit stetigen Funktionen) Seien f : D → R und g : D → R
zwei Funktionen mit dem gleichen Definitionsbereich D ⊂ R. Seien weiter f und g stetig
in x0 ∈ D. Dann gilt:
(i) Die Funktion f + g : D → R, (f + g)(x) = f (x) + g(x), ist ebenfalls stetig in x0 .
(ii) Die Funktion f − g : D → R, (f − g)(x) = f (x) − g(x), ist ebenfalls stetig in x0 .
(iii) Die Funktion f · g : D → R, (f · g)(x) = f (x) · g(x), ist ebenfalls stetig in x0 .
(iv) Gilt g(x) 6= 0 für x ∈ D, so ist die Funktion f /g : D → R, (f /g)(x) = f (x)/g(x),
ebenfalls stetig in x0 .
Insbesondere folgt für stetige Funktionen f und g, dass die Funktionen f +g, f −g und f ·g
immer stetig sind. Gilt zusätzliche g(x) 6= 0 für alle x ∈ D, so ist die Quotientenfunktion
f /g ebenfalls stetig.
Dieser Satz hat weitreichende Folgerungen. Machen wir uns dies an ein paar Beispielen
klar.
Beispiel 6.37. (stetige Funktionen)
(a) Die Funktion p1 : R → R, p1 (x) = x, ist auf R stetig, denn es gilt
lim p1 (x) = lim x = x0 = p1 (x0 ).
x→x0
x→x0
Die Funktion p2 : R → R, p2 (x) = x2 , ist wegen p2 (x) = x2 = x · x = p1 (x) · p1 (x) nach
Satz 6.36 (iii) auf R stetig. Analog sind die Funktionen p3 (x) = x3 = p1 (x) · p2 (x), . . . ,
pn (x) = xn = p1 (x) · pn−1 (x) auf R stetig.
(b) Die Funktionen pk : R → R, pk (x) = xk mit k ∈ N0 , sind alle stetig. Beachten Sie
dabei, dass wir für k = 0 gerade die konstante Funktion p0 (x) = 1 bekommen. Daraus
können wir durch (iii) in Satz 6.36 folgern, dass auch die Funktion g(x) = ak xk mit
einer beliebigen Konstante ak ∈ R stetig ist. (Wir haben dabei auch verwendet, dass
6. Grenzwerte von Funktionen und Stetigkeit
167
die konstante Funktion h(x) = ak stetig ist.) Durch wiederholtes Anwenden von (i) in
Satz 6.36 können nun herleiten, dass alle Funktionen der Form
p : R → R,
p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 ,
also alle Polynome, stetig sind.
(c) Nach (iii) in Satz 6.36 ist die Funktion g : R → R, g(x) = sin(x) · cos(x) auf R stetig,
weil die Funktionen sin(x) und cos(x) auf R stetig sind.
(d) Nach (iv) in Satz 6.36 ist die Funktion cot : (0, π) → R, cot(x) = cos(x)/ sin(x), stetig,
weil die Funktionen sin(x) und cos(x) auf (0, π) stetig sind und weil sin(x) 6= 0 für alle
x ∈ (0, π).
6.5
Resultate über stetige Funktionen
In diesem Teilkapitel lernen wir noch einige nützliche Resultate über stetige Funktionen.
Als erstes Konzept führen wir die sogenannte Verkettung“ zweier Funktionen ein. Auch
”
wenn diese Bezeichnung neu für Sie sein sollte, so haben Sie vermutlich schon beim Anwenden der Kettenregel beim Ableiten mit der Verkettung“ von Funktionen gearbeitet. Bei”
spielsweise ist die Funktion f (x) = sin(x2 ) eine Verkettung der Funktionen g(y) = sin(y)
und h(x) = x2 , d.h. wir können schreiben
f (x) = sin(x2 ) = sin h(x) = g h(x) .
Definition 6.38. (Verkettung von Funktionen) Seien g : Dg → R und h : Dh → R
zwei Funktionen, für die gilt, dass das Bild Bh von h im Definitionsbereich Dg von g liegt,
also Bh ⊂ Dg . Dann definieren wir die Verkettung f = g ◦ h als die Funktion
f = g ◦ h : Dh → R,
f (x) = (g ◦ h)(x) = g h(x) ,
d.h. die Funktion g wird nach der Funktion h ausgeführt.
Betrachten wir unser motivierendes Beispiel im Licht der obigen Definition.
Beispiel 6.39. (Verkettung von Funktionen) Für die oben betrachtete Funktion
f : R → R, f (x) = sin(x2 ), gilt f = g ◦ h mit
g : R → R,
g(y) = sin(y),
und
h : R → R,
h(x) = x2 .
Die Bedingung Bh ⊂ Dg ist hier automatisch erfüllt, weil das Bild Bh von h eine Teilmenge
des Wertebereichs Wh = R ist und weil Dg = R gilt.
Die komisch“ aussehende Bedingung Bh ⊂ Dg garantiert uns, dass g(y) für alle y = h(x)
”
definiert ist. Wir sehen dies am folgenden Beispiel noch besser.
168
6.5. Resultate über stetige Funktionen
Beispiel 6.40. (Verkettung von Funktionen) Betrachten wir die beiden Funktionen
√
g : R → R, g(y) = y + 1,
und
h : [0, ∞) → R, h(x) = x.
Dann gilt Bh = [0, ∞) ⊂ Dg = R und wir können die Verkettung f = g ◦ h bilden:
√ √
f = g ◦ h : [0, ∞) → R,
f (x) = (g ◦ h)(x) = g h(x) = g x = x + 1.
Wir können aber nicht die Verkettung h ◦ g = h g(x) bilden, denn Bg = R ist keine
Teilmenge von Dh = [0, ∞). Pragmatischer ausgedrückt:
√ Für alle Punkte x ∈ R mit
g(x) = x + 1 < 0 können wir die Funktion h g(x) = x + 1 nicht berechnen, weil die
Wurzel nur für nicht-negative Zahlen definiert ist.
Wir formulieren nun eine Aussage über die Verkettung stetiger Funktionen.
Satz 6.41. (Verkettung stetiger Funktionen ist stetig) Seien g : Dg → R und
h : Dh → R zwei Funktionen, wobei das Bild Bh von h im Definitionsbereich Dg von g
liegt, also Bh ⊂ Dg .
(i) Ist die Funktion h in x0 stetig und ist die Funktion g in y0 = f (x0 ) stetig, so ist
die Verkettung (g ◦ h)(x) = g h(x) in x0 stetig.
(ii) Sind die
Funktionen g und h beide stetig, so ist auch die Verkettung (g ◦ h)(x) =
g h(x) auf Dh stetig.
Betrachten wir zwei Beispiele.
Beispiel 6.42. (Verkettung von stetigen Funktionen) In Beispiel 6.39 hatten wir
bereits die Verkettung f : R → R, f (x) = sin(x2 ), der Funktionen g : R → R, g(y) =
sin(y), und h : R → R, h(x) = x2 , untersucht. Da die Funktionen g und h beide auf
Dg = Dh = R stetig sind, ist nach Satz 6.41 auch die Verkettung f (x) = g h(x) = sin(x2 )
der beiden Funktionen auf Dh = R stetig.
Beispiel 6.43. (Verkettung von stetigen Funktionen) Die Funktion
√
1
f : R \ ± kπ | k ∈ N0 → R,
,
f (x) = arctan
sin(x2 )
ist stetig, denn wir können sie als Verkettung
f (x) = g ◦ h ◦ k (x) = g h k(x)
schreiben mit den stetigen Funktionen
π π
g:R→ − ,
,
2 2
h : R \ {0} → R,
g(z) = arctan(z),
h(y) =
1
,
y
6. Grenzwerte von Funktionen und Stetigkeit
k :R\
±
√
kπ | k ∈ N0 → R,
169
k(x) = sin(x2 ).
√
Dabei haben wir wegen der speziellen Definitionsmenge Dk = R \ ± kπ | k ∈ N0 , dass
x2 6= kπ für alle k ∈ Z. Also hat die stetige Funktion k(x) = sin(x2 ) für kein x ∈ Dk den
Wert 0, und es folgt Bk ⊂ R \ {0} = Dh . Also können wir die Verkettung h ◦ k : Dk → R
bilden. Wegen Bh ⊂ R = Dg können wir auch die Verkettung g ◦ h : R \ {0} → − π2 , π2 bilden. Damit können wir auch die (dreifache) Verkettung f = g ◦ h ◦ k : Dk → − π2 , π2
bilden, und diese ist stetig, weil die Funktionen g, h und k stetig sind.
Abschließend lernen wir noch zwei wichtige Sätze über stetige Funktionen kennen.
Satz 6.44. (Existenz von Minimum und Maximum) Sei f : [a, b] → R stetig. Dann
hat f ein Maximum und ein Minimum in [a, b], d.h. es gibt xmin , xmax ∈ [a, b] mit
f (xmin ) ≤ f (x) ≤ f (xmax )
für alle x ∈ [a, b].
(6.16)
Wir schreiben dann auch
f (xmin ) = min f (x)
x∈[a,b]
und
f (xmax ) = max f (x).
x∈[a,b]
Anschaulich bedeutet (6.16), dass es unter den Funktionswerten von f auf dem Intervall
[a, b] einen kleinsten und einen größten Funktionswert gibt! Wichtig ist zu beachten, dass Satz 6.44 nur für stetige Funktionen auf einem abgeschlossenen Intervall
[a, b] gilt.
Betrachten wir zwei Beispiele, um uns die Bedeutung von Satz 6.44 klar zu machen.
Beispiel 6.45. (Minimum und Maximum einer stetigen Funktion) Betrachten
wir die Funktion f : [−2, 3] → R, f (x) = x3 . Da die Funktion stetig ist, muss Satz 6.44
gelten. Da die Funktion f (x) = x3 streng monoton wachsend ist, gilt
f (−2) = (−2)3 = −8 ≤ x3 ≤ 27 = 33 = f (3)
für alle x ∈ [−2, 3].
Also ist sind das Minimum bzw. das Maximum von f (x) = x3 auf [−2, 3] die Funktionswerte f (−2) = −8 bzw. f (3) = 27, und die zugehörigen x-Werte sind xmin = −2 und
xmax = 3. In Formeln gilt also
−8 = f (−2) = min x3
x∈[−2,3]
und
27 = f (3) = max x3 .
x∈[−2,3]
Wir haben den Graph von f : [−2, 3] → R, f (x) = x3 , im linken Bild von Abbildung 6.13
gezeichnet.
In dem nächsten Bespiel werden wir sehen, dass es mehrere x-Werte geben kann, an denen
das Minimum bzw. Maximum angenommen wird.
170
6.5. Resultate über stetige Funktionen
Abb. 6.13: Der Graph der Funktion f : [−2, 3] → R, f (x) = x3 , ist im linken Bild
gezeichnet, und der Graph der Funktion g : [−2π, 2π] → R, g(x) = sin(x), ist im rechten
Bild gezeichnet.
Beispiel 6.46. (Minimum und Maximum einer stetigen Funktion) Betrachten wir
die Funktion g : [−2π, 2π] → R, g(x) = sin(x). Da diese Funktion stetig ist, muss Satz
6.44 gelten. Wir finden
π
π sin −
= −1 ≤ sin(x) ≤ 1 = sin
für alle x ∈ [−2π, 2π].
2
2
es gilt aber auch sin(−3π/2) = 1 und sin(3π/2) = −1, d.h. es gibt mehrere mögliche
Wahlen für die x-Werte xmin und xmax . In Formeln haben wie also
min
x∈[−2π,2π]
sin(x) = −1
und
max
x∈[−2π,2π]
sin(x) = 1.
Wir haben den Graph von g : [−2π, 2π] → R, g(x) = sin(x), im rechten Bild von Abbildung 6.13 gezeichnet.
Als letztes lernen wir den sogenannten Zwischenwertsatz kennen.
Satz 6.47. (Zwischenwertsatz) Sei f : [a, b] → R stetig. Dann nimmt f jeden Wert
zwischen f (a) und f (b) an.
Der Zwischenwertsatz erklärt sich durch die Anschauung für Stetigkeit: Bei
einer stetigen Funktion bricht der Graph nicht ab, d.h. er ist eine durchgehende Kurve.
Diese durchgehende Kurve verbindet die Funktionswerte f (a) für x = a und f (b) für x = b,
wenn x alle Werte aus dem Intervall [a, b] durchläuft (siehe auch Abbildung 6.14). Daher
6. Grenzwerte von Funktionen und Stetigkeit
171
müssen aber alle Werte y zwischen f (a) und f (b) als Funktionswerte für ein passendes
x ∈ [a, b] auftreten; ansonsten hätte der Graph der Funktion eine Unstetigkeitsstelle.
(b, f (b))
f (b)
f (x)
f (a)
(a, f (a))
a
b
Abb. 6.14: Veranschaulichung des Zwischenwertsatzes: Für x aus dem Intervall [a, b] treten
alle Werte
zwischen f (a)
und f (b) als Funktionswerte auf. Der Graph verbindet die Punkte
a, f (a) und b, f (b) .
Machen wir uns an zwei Beispielen die Bedeutung des Zwischenwertsatzes klar.
Beispiel 6.48. Betrachten wir das Polynom f (x) = 17 x7 +5 x3 +2 x2 −1 vom Grad n = 7.
Ein Polynom vom Grad n hat (mit Vielfachheit gezählt) höchstens n reelle Nullstellen.
(Eine Nullstelle einer Funktion f : Df → R ist ein Wert x0 ∈ Df , für den gilt f (x0 ) = 0.)
Allerdings wird es uns für dieses Polynom schwer fallen, per Hand die Nullstellen zu
berechnen. Mit dem Zwischenwertsatz können wir aber leicht ungefähre Informationen“
”
über die Lage der Nullstellen bekommen. Wir haben
f (x) = 17 x7 + 5 x3 + 2 x2 − 1 ≥ f (1) = 17 + 5 + 2 − 1 = 23
für alle x ≥ 1, (6.17)
für alle x ≤ −1.
(6.18)
17 x3 + 5 x + 2) −1 < −1
f (x) = |{z}
x2
|
{z
}
> 0 < 0 wenn x ≤ −1
Da f (x) < −1 für alle x ≤ −1 und f (x) ≥ 23 für alle x ≥ 1 und da das Polynom f
auf ganz R stetig ist, wissen wir nach dem Zwischenwertsatz, dass es ein x0 ∈ [−1, 1]
mit f (x0 ) = 0 gibt. Genauer wissen wir wegen (6.17) und (6.18) sogar, dass alle reellen
Nullstellen des Polynoms f im Intervall (−1, 1) liegen.
Wir haben in Abbildung 6.15 den Graph des Polynoms f (x) = 17 x7 + 5 x3 + 2 x2 − 1
gezeichnet.
Beispiel 6.49. (Lösen einer Fixpunktgleichung) Wir wollen die Frage beantworten,
ob die Gleichung x = cos(x) eine Lösung x ∈ [0, π] besitzt? Falls die Gleichung eine Lösung
172
6.5. Resultate über stetige Funktionen
6 6
Abb. 6.15: Graph der Funktion f (x) = 17 x7 +5 x3 +2 x2 −1 im linken Bild für x ∈ [− 10
, 10 ]
11 11
und im rechten Bild für x ∈ [− 10 , 10 ].
x∗ ∈ [0, π] besitzt wird dieser Punkt von cos(x) auf sich selbst abgebildet: cos(x∗ ) = x∗ .
Man nennt einen Punkt mit dieser Eigenschaft daher auch einen sogenannten Fixpunkt“
”
der Funktion cos(x). ( Der Punkt bleibt fix“/unverändert unter der Funktion f .“)
”
”
Um die gestellte Frage zu beantworten, transformieren wir unser Problem:
x = cos(x)
⇐⇒
x − cos(x) = 0.
Wir definieren uns die Funktion
f : [0, π] → R,
f (x) = x − cos(x),
und suchen nun die Nullstellen dieser Funktion, also die Punkte x0 mit f (x0 ) = 0. Die
Funktion f ist nach (ii) in Satz 6.36 auf [0, π] stetig, weil die Funktionen g(x) = x und
h(x) = cos(x) auf [0, π] stetig sind.
Nun gilt aber f (0) = 0−cos(0) = −1 und f (π) = π−cos(π) = π−(−1) = π+1. Nach dem
Zwischenwertsatz werden alle Werte zwischen f (0) = −1 und f (π) = π + 1 angenommen.
Insbesondere wird der Wert 0 ∈ [−1, π + 1] als Funktionswert angenommen, d.h. es gibt
ein x∗ ∈ [0, π] mit f (x∗ ) = 0 oder äquivalent dazu x∗ = cos(x∗ ).
Kapitel 7
Exponentialfunktionen, Logarithmen
und hyperbolische Funktionen
In diesem Kapitel diskutieren wir Potenzen und Wurzeln, zunächst nur mit einem rationalen Exponenten, und führen von dort aus die Exponentialfunktion expa : R → R,
expa (x) = ax , mit der Basis a und dem Exponent x ∈ R ein. Die für uns besonders
wichtigen Fälle sind die Basen a = 10 und a = e, wobei e = 2, 71828 . . . die Euler-Zahl
ist. Exponentialfunktionen sind injektiv mit dem Bild Bexpa = (0, ∞). Daher können wir
−1
ihre Umkehrfunktionen (auf dem Bild) exp−1
a = loga : (0, ∞) → R, expa (x) = loga (x),
einführen, den sogenannten Logarithmus zur Basis a. Hier erhalten wir für a = 10 den
Zehner-Logarithmus und für a = e den natürlichen Logarithmus. Zuletzt nutzen wir die
natürliche Exponentialfunktion, um die hyperbolischen Funktionen einzuführen.
7.1
Potenzen, Wurzeln und Exponentialfunktionen
In diesem Teilkapitel führen wir Exponentialfunktionen ein. Eine Exponentialfunktion ist
eine Funktion
expa : R → R,
expa (x) = ax ,
wobei a ∈ (0, ∞) \ {1} die Basis ist.
(7.1)
Die Variable x in (7.1) wird auch als Exponent (oder Potenz) bezeichnet. Natürlich
müssen wir noch erklären, wie wir ax für beliebiges x ∈ R berechnen. Wir starten mit
dem Fall, dass x ∈ Z ist.
Definition 7.1. (Potenzen mit ganzzahligem Exponenten) Wir definieren
a0 = 1
für alle a ∈ R \ {0},
und für positive ganze Zahlen, also n ∈ N, ist an definiert durch
an = a
| · a ·{z. . . · a}
n-mal
173
für alle a ∈ R.
174
7.1. Potenzen, Wurzeln und Exponentialfunktionen
Ist n eine negative ganze Zahl, also n ∈ Z \ N0 , so ist n = −m mit m ∈ N, und wir
definieren
1
1
für alle a ∈ R \ {0}.
an = a−m = m =
a
a
·
a
·
.
.
.
·
a
|
{z
}
m-mal
Insbesondere gilt
1
a−1 = .
a
Betrachten wir ein paar Beispiele.
Beispiel 7.2. (Potenzen reeller Zahlen mit ganzzahligem Exponenten)
(a) 23 = 2 · 2 · 2 = 8
(b) 104 = 10 · 10 · 10 · 10 = 10000
1
(c) 2−1 = = 0, 5
2
1
1
=
= 0, 01
(d) 10−2 =
10 · 10
100
1
1
(e) 3−3 =
=
3·3·3
27
3
(f) (−2) = (−2) · (−2) · (−2) = −8
1
1
1
=
=
= 0, 0625
(g) (−4)−2 =
2
(−4)
(−4) · (−4)
16
Lemma 7.3. (Regeln für das Rechnen mit ganzzahligen Exponenten) Seien
a, b ∈ R \ {0}, und seien n und m in Z \ {0}. Dann gilt
an·m = (an )m = (am )n
(7.2)
und
an+m = an · am = an am
und
an−m = an · a−m = an a−m =
an
.
am
(7.3)
Weiter gilt
(a · b)n = an · bn = an bn .
Betrachten wir zunächst ein paar Beispiele.
Beispiel 7.4. (Regeln für das Rechnen mit ganzzahligen Exponenten)
(a) (104 )2 = 104·2 = 108 = 100000000
(b) 24 · 26 = 24+6 = 210 = 1024
(c) 17−5 · 174 = 17−5+4 = 17−1 =
1
≈ 0, 05882
17
(7.4)
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
175
13
13
1
1
13
·2 =
·2
= 113 = 1
(d)
2
2
1
1
(e) 2−3 · 3−3 = (2 · 3)−3 = 6−3 = 3 =
≈ 0, 0046296
6
216
Wir beweisen nun Lemma 7.3 teilweise, weil dies unser Verständnis der Rechenregeln
erhöht.
Beweis von Lemma 7.3. Wir geben den Beweis nur für den Fall n > 0 und m > 0. Die
Fälle n < 0 oder m < 0 können analog bewiesen werden, aber sie sind etwas aufwendiger.
und
m
m
(an )m = |an · an {z
· . . . · an} = a
· . . . · am} = (am )n
| · a ·{z. . . · a} = a
| · a {z
m-mal
n-mal
(n · m)-mal
n
m
=
a
·
a
·
.
.
.
·
a
·
a
·
a
·
.
.
.
·
a
an+m = a
·
a
·
.
.
.
·
a
|
|
{z
}
{z
}
{z
} =a ·a ,
|
n-mal
m-mal
(n + m)-mal
1
n
−m
an−m = a
·
a
·
.
.
.
·
a
=
a
·
a
·
.
.
.
·
a
{z
}
{z
} · a· a· ...· a = a · a .
|
|
{z
}
|
n-mal
(n − m)-mal
m-mal
Damit haben wir die Gleichungen (7.2) und (7.3) für m > 0 und n > 0 bewiesen. Weiter
gilt für n > 0
·
a
·
.
.
.
·
a
·
b
·
b
·
.
.
.
·
b
= an · bn ,
(a · b)n = (a · b) · (a · b) · . . . · (a · b) = a
|
|
{z
}
{z
}
{z
}
|
n-mal
n-mal
n-mal
und wir haben (7.4) ebenfalls bewiesen.
Als nächstes wollen wir Potenzen mit rationalem Exponenten definieren. Dazu benötigen
wir als Vorbereitung die n-te Wurzel.
Definition 7.5. (n-te Wurzel einer nicht-negativen Zahl) Sei a ∈ R eine nichtnegative
reelle Zahl, und sei n ∈ N eine natürliche Zahl. Dann ist die n-te Wurzel
√
1/n
n
a = a als die nicht-negative Zahl b definiert, für die gilt bn = a.
Wir bemerken, dass wir √für n = 2 insbesondere die übliche“ Quadratwurzel
erhalten:
√
”
Für a ∈ R mit a ≥ 0 ist a die nicht-negative reelle Zahl, für die gilt ( a)2 = a.
Beispiel 7.6. (n-te Wurzeln von a > 0)
(a) 10001/3 = 10, weil 103 = 1000
√
√ √
√
(b) 21/2 = 2, da ( 2)2 = 2 · 2 = 2
(c) 811/4 = 3, weil 34 = 81
176
7.1. Potenzen, Wurzeln und Exponentialfunktionen
(d) 81/3 = 2, denn 23 = 8
√
√
√ √
(e) a1/2 = a, weil ( a)2 = a · a = a
(f) 01/7 = 0, da 07 = 0.
Analog zu (7.2) und (7.4) in Lemma 7.3 können wir auch Regeln für das Rechnen mit
n-ten Wurzeln definieren.
Lemma 7.7. (Rechenregeln für n-te Wurzeln) Seien a, b ∈ R nicht-negative reelle
Zahlen, und seinen n und m natürliche Zahlen. Dann gilt
a1/(n·m) = (a1/n )1/m = (a1/m )1/n ,
und
(a · b)1/n = a1/n · b1/n .
Man kann Lemma 7.7 relativ leicht mit Hilfe der Definition der n-ten Wurzel beweisen.
Lemma 7.7 ist nützlich, um n-te Wurzeln zu berechnen und zu vereinfachen. Wir betrachten einige Bespiele.
Beispiel 7.8. (Anwendung von Lemma 7.7)
(a) 81/6 = 81/(2·3) = (81/3 )1/2 , und wegen 23 = 8 gilt
81/6 = (81/3 )1/2 = 21/2 =
√
2.
(b) 65611/8 = 65611/(2·4) = (65611/2 )1/4 , und wegen 812 = 6561 gilt
65611/8 = (65611/2 )1/4 = 811/4 = (811/2 )1/2 = 91/2 = 3,
wobei wir 92 = 81 und 32 = 9 verwendet haben.
(c) 241/3 = (3 · 8)1/3 = 31/3 81/3 = 31/3 · 2 = 2 · 31/3 , wobei wir 23 = 8 ausgenutzt haben.
Mit Hilfe der Potenzen mit ganzzahligem Exponenten und mit der n-ten Wurzel können
wir nun Potenzen mit rationalem Exponenten einführen.
Definition 7.9. (Potenzen mit rationalem Exponenten) Sie a eine positive reelle
Zahl, und sei m ∈ Z und n ∈ N. Dann ist am/n definiert durch
m
am/n = a1/n = (am )1/n .
Beispiel 7.10. (Potenzen mit rationalem Exponenten)
√
√
(a) 2−1/2 = (21/2 )−1 = ( 2)−1 = 1/ 2.
√
(b) 93/2 = (91/2 )3 = ( 9)3 = 33 = 27, wobei wir 32 = 9 verwendet haben.
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
177
(c) 1000−4/3 = (10001/3 )−4 = 10−4 = 1/104 = 0, 0001, wobei wir 103 = 1000 benutzt
haben.
√
√
1/3
1/3
(d) ( 8)−2/3 = ( 8)−2
= (81/2 )−2
= (8−1 )1/3 = (81/3 )−1 = 2−1 = 1/2, wobei wir
3
2 = 8 ausgenutzt haben.
Aus Lemma 7.3 und Lemma 7.7 kann man das folgende Lemma herleiten.
Lemma 7.11. (Rechnen mit Potenzen mit rationalen Exponenten) Seien a, b ∈ R
positive reelle Zahlen, und seinen m, k ∈ Z und n, ℓ ∈ N. Dann gilt
m k
mk
a nℓ = a n · ℓ = (am/n )k/ℓ = (ak/ℓ )m/n .
Weiter gilt
m
k
a n + ℓ = am/n ak/ℓ
und
m
und
(a · b)m/n = am/n · bm/n
k
a n − ℓ = am/n a−k/ℓ =
und
a m/n
b
=
am/n
ak/ℓ
am/n
.
bm/n
Betrachten wir ein paar Beispiele.
Beispiel 7.12. (Rechnen mit Potenzen mit rationalen Exponenten) In diesem
Beispiel wollen wir die Rechenregeln aus Lemma 7.11 anwenden, um zu vereinfachen:
1
2
(a) 21/3 · 22/3 = 2 3 + 3 = 21 = 2.
√
√
(b) 503/2 = (2 · 25)3/2 = 23/2 · 253/2 = 21+1/2 · (251/2 )3 = 2 · 21/2 · 53 = 2 · 2 · 125 = 250 · 2,
wobei wir 52 = 25 benutzt haben.
√
1 1
(c) 85/6 = 8 2 + 3 = 81/2 · 81/3 = (4 · 2)1/2 · 2 = 41/2 · 21/2 · 2 = 2 · 21/2 · 2 = 4 · 2, wobei wir
22 = 4 und 23 = 8 ausgenutzt haben.
Um die Definition von ax auf Potenzen mit einem beliebigen reellen Exponenten auszudehnen, verwenden wir Folgen von rationalen Zahlen. Die nachfolgende Definition nutzt,
dass wir jede reelle Zahl als Grenzwert einer Folge rationaler Zahlen darstellen können.
Dies ist ein tiefgreifendes Ergebnis der Analysis.
Definition 7.13. (Potenzen mit reellem Exponenten) Sei x ∈ R eine beliebige
reelle Zahl. Dann können wir x als Grenzwert einer konvergenten Folge (xn )n∈N
rationaler Zahlen darstellen, also limn→∞ xn = x. Für a ∈ (0, ∞) konvergiert dann die
Folge reeller Zahlen (axn )n∈N , und wir definieren
ax = lim axn
n→∞
für a ∈ (0, ∞).
Alle Rechenregeln für Potenzen mit rationalem Exponenten (siehe Lemma 7.11) übertragen sich direkt auf Potenzen mit reellen Exponenten.
178
7.1. Potenzen, Wurzeln und Exponentialfunktionen
Lemma 7.14. (Rechenregeln für Potenzen mit reellem Exponenten) Seien a und
b positive reelle Zahlen und und seien x, y ∈ R. Dann gilt
ax·y = (ax )y = (ay )x
und
ax+y = ax · ay
ax−y = ax · a−y =
und
Weiter gilt
(a · b)x = ax · bx
und
Wegen a > 0 gilt
ax > 0
a x
b
=
ax
.
ay
ax
.
bx
für alle x ∈ R.
Nachdem wir für a > 0 die Potenz ax für alle x ∈ R definiert haben, können wir nun
endlich Exponentialfunktionen einführen:
Definition 7.15. (Exponentialfunktionen zur Basis a) Sei a ∈ (0, ∞) \ {1} eine
positive reelle Zahl. Die Funktion
expa : R → R,
expa (x) = ax ,
heißt die Exponentialfunktion zur Basis a.
Wir bemerken zunächst, dass wir für a = 1 den Sonderfall exp1 (x) = 1x = 1 für alle x ∈ R,
also eine konstante Funktion, erhalten würden. Daher nehmen wir in Definition 7.15 a 6= 1
an. – Die wichtigsten Fälle der Exponentialfunktion sind die Exponentialfunktion zur
Basis 10 und zur Basis e, wobei e die sogenannte Euler-Zahl ist (siehe unten).
Definition 7.16. (Exponentialfunktion
zur Basis e) Die Euler-Zahl e ist definiert
1 n
als Grenzwert der Folge 1 + n n∈N , also:
n
1
e = lim 1 +
= 2, 71828 . . . .
n→∞
n
Die Exponentialfunktion zur Basis e,
exp = expe : R → R,
exp(x) = ex ,
wird üblicherweise als die (natürliche) Exponentialfunktion bezeichnet.
Wir beobachten, dass per Definition exp(0) = e0 = 1 gilt. Weiter überlegt man sich leicht,
dass mit wachsendem x > 0 die Funktionswerte von exp(x) = ex beliebig groß werden,
da e ≈ 2, 71828 > 1 ist, und dass für x → −∞ die Funktionswerte gegen Null streben.
Zeichnet man die Exponentialfunktion, so erhält man den Graphen in Abbildung 7.1.
Wir stellen die wichtigsten Eigenschaften der (natürlichen) Exponentialfunktion
zusammen:
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
179
Abb. 7.1: Graph der (natürlichen) Exponentialfunktion exp(x) = ex .
• Die Exponentialfunktion exp(x) = ex nimmt nur positive Werte an (und hat damit
auch niemals den Wert Null), d.h.
exp(x) = ex > 0
für alle x ∈ R.
• Die Exponentialfunktion exp(x) = ex hat die folgenden uneigentlichen Grenzwerte
für x → −∞ bzw. x → +∞:
lim exp(x) = lim ex = 0
x→−∞
x→−∞
bzw.
lim exp(x) = lim ex = ∞.
x→+∞
x→+∞
Insbesondere ist die x-Achse eine horizontale Asymptote für exp(x) = ex .
• Die Exponentialfunktion exp(x) = ex ist streng monoton wachsend auf R, d.h. für
alle x1 , x2 ∈ R mit x1 < x2 gilt ex1 < ex2 .
• Da die Exponentialfunktion exp(x) = ex auf ganz R streng monoton wachsend ist, ist
sie auch injektiv, und wir können auf ihrem Bild ihre Umkehrfunktion bilden.
• Das Bild von exp(x) = ex ist Bexp = (0, ∞).
• exp(x) = ex ist stetig auf R.
Wir sehen Exponentialfunktionen mit anderen Basen a > 0 aus?
Betrachten wir zunächst den Fall, dass a > 1 ist. Dann sieht der Graph ähnlich wie in
Abbildung 7.1 aus, lediglich die Stärke des Wachstums“ ist verglichen mit der natürlichen
”
Exponentialfunktion größer wenn a > e und kleiner wenn 1 < a < e. Zur Illustration
haben wir in Abbildung 7.2 in blau die Funktion exp2 (x) = 2x gezeichnet.
Im Fall a < 1 haben wir, dass a = 1/b = b−1 ist mit b = 1/a > 1. Daher gilt
expa (x) = ax = (b−1 )x = b−x = expb (−x),
180
7.2. Logarithmusfunktionen
und wir sehen, dass wir den Graphen von expb (x) = bx mit b > 1 gerade an der y-Achse
spiegeln müssen, da in expa (x) = ax = b−x = expb (−x) die Variable in umgekehrter“
”
Richtung durchlaufen wird. In Abbildung 7.2 haben wir in rot die Funktion exp1/2 (x) =
(1/2)x = exp2 (−x) gezeichnet, und wir sehen, dass ihr Graph gerade das Spiegelbild an
der y-Achse des Graphen von exp2 (x) = 2x ist.
Abb. 7.2: Die Graphen der Exponentialfunktionen exp2 (x) = 2x (blau) und exp1/2 (x) =
(1/2)x = 2−x = exp2 (−x) (rot).
7.2
Logarithmusfunktionen
Wir führen nun die Logarithmen als Umkehrfunktionen der Exponentialfunktionen ein.
Wir starten mit der (natürlichen) Exponentialfunktion und dem zugehörigen (natürlichen)
Logarithmus.
Die (natürliche) Exponentialfunktion exp : R → R, exp(x) = ex , ist injektiv und hat
daher eine Umkehrfunktion auf ihrem Bild Bexp = (0, ∞).
Definition 7.17. (natürlicher Logarithmus) Die Umkehrfunktion exp−1 : (0, ∞) → R
der (natürlichen) Exponentialfunktion exp : R → (0, ∞), exp(x) = ex , heißt der
(natürliche) Logarithmus und wird mit ln : (0, ∞) → R bezeichnet. Für y ∈ (0, ∞)
ist ln(y) die Zahl x in R, für die ex = y gilt.
Von dem allgemeinen Zusammenhang zwischen einer Funktion und ihrer Umkehrfunktion
finden wir folgende wichtige Relationen zwischen der (natürlichen) Exponentialfunktion
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
181
Abb. 7.3: Die (natürliche) Exponentialfunktion exp : R → (0, ∞), exp(x) = ex , (links),
und die (natürliche) Exponentialfunktion zusammen mit ihrer Umkehrfunktion, dem
(natürlichen) Logarithmus, exp−1 = ln : (0, ∞) → R, exp−1 (x) = ln(x), (rechts).
und dem (natürlichen) Logarithmus:
ln exp(x) = ln(ex ) = x
exp ln(y) = eln(y) = y
für alle x ∈ R,
für alle y > 0.
Indem wir den Graphen der (natürlichen) Exponentialfunktion an der Diagonalen y = x
spiegeln, erhalten wir den Graphen des (natürlichen) Logarithmus in Abbildung 7.3
Wir listen die wichtigsten Eigenschaften des natürlichen Logarithmus auf, welche
wir aus den Eigenschaften der (natürlichen) Exponentialfunktion direkt ablesen bzw. herleiten können:
• Aus e0 = 1 folgt, dass ln(1) = 0 ist, und wir finden weiter
ln(x) > 0 für alle x > 1
und
ln(x) < 0 für alle 0 < x < 1.
• Es existieren die folgenden uneigentlichen Grenzwerte:
lim ln(x) = +∞
x→+∞
und
lim ln(x) = −∞.
x→0+
Daher ist die y-Achse eine vertikale Asymptote für ln(x).
• Der (natürliche) Logarithmus ist streng monoton wachsend auf (0, ∞), d.h. für alle
x1 , x2 ∈ (0, ∞) mit 0 < x1 < x2 folgt ln(x1 ) < ln(x2 ).
182
7.2. Logarithmusfunktionen
• Als Umkehrfunktion von exp : R → (0, ∞), exp(x) = ex , ist der (natürliche) Logarithmus ln : (0, ∞) → R bijektiv, und seine Umkehrfunktion ist die (natürliche)
Exponentialfunktion exp : R → (0, ∞), exp(x) = ex .
• ln(x) ist stetig auf (0, ∞).
Weiter gelten für den (natürlichen) Logarithmus folgende wichtige Rechenregeln.
Lemma 7.18. (Rechenregeln für den (natürlichen) Logarithmus) Der (natürliche)
Logarithmus ln : (0, ∞) → R erfüllt die folgenden Rechenregeln:
x
= ln(x) − ln(y),
(7.5)
ln(x · y) = ln(x) + ln(y)
und
ln
y
sowie
ln(xb ) = b · ln(x)
und
mit x, y ∈ (0, ∞) und b ∈ R \ {0}.
1
ln x1/b = · ln(x),
b
(7.6)
Betrachten wir zunächst ein Beispiel.
Beispiel 7.19. (Rechenregeln für den (natürlichen) Logarithmus)
(a) ln(e17 ) = 17 · ln(e) = 17
1
1
= ln 2 ·
= ln(1) = 0
(b) ln(2) + ln
2
2
(c) ln(73 ) − ln(7) = 3 · ln(7) − ln(7) = 2 · ln(7) = ln(72 ) = ln(49)
Beweis von Lemma 7.18. Die Gleichungen in Lemma 7.18 folgen direkt aus der Definition des (natürlichen) Logarithmus und den Eigenschaften/Rechenregeln für die (natürliche) Exponentialfunktion (vgl. Lemma 7.14). Beispielsweise zeigt man die erste Gleichung
in (7.5) wie folgt:
eln(x·y) = x · y = eln(x) · eln(y) = eln(x)+ln(y) ,
(7.7)
und durch Anwenden des Logarithmus auf beiden Seiten folgt ln(x · y) = ln(x) + ln(y).
Die zweite Eigenschaft in (7.5) zeigt man analog.
Weiter haben wir
y
eln(x ) = xy = eln(x)
y
= ey·ln(x) ,
(7.8)
und durch Anwenden des Logarithmus auf beiden Seiten folgt, dass ln(xy ) = y · ln(x) gilt.
Die zweite Eigenschaft in (7.6) zeigt man analog.
Dass wir in (7.7) und (7.8) eine Äquivalenzumformung haben, wenn wir auf beiden Seiten
den Logarithmus anwenden, liegt an der Injektivität des Logarithmus.
Da die Exponentialfunktion expa : R → R, expa (x) = ax , zur Basis a ∈ (0, ∞) \ {1}
injektiv ist, kann sie auf ihrem Bild Bexpa = (0, ∞) invertiert werden. Ihre Umkehrfunktion
ist der Logarithmus zur Basis a.
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
183
Definition 7.20. (Logarithmus zur Basis a 6= 1) Sei a ∈ (0, ∞) \ {1} mit a > 0.
Der Logarithmus zu der Basis a, loga : (0, ∞) → R, ist als Umkehrfunktion der
Exponentialfunktion zur Basis a, expa : R → (0, ∞), expa (x) = ax , definiert. Für
y ∈ (0, ∞) ist loga (y) die Zahl x in R für die gilt ax = y.
Von dem allgemeinen Zusammenhang zwischen einer Funktion und ihrer Umkehrfunktion
finden wir folgende wichtige Relationen zwischen der Exponentialfunktion zur Basis a und
dem Logarithmus zur Basis a:
für alle x ∈ R,
loga expa (x) = loga (ax ) = x
expa loga (y) = aloga (y) = y
für alle y > 0.
Wir bemerken, dass die Basis a = e in Definition 7.20 den (natürlichen) Logarithmus
als Sonderfall für a = e liefert: loge (y) = ln(y).
Wir haben auch ein Lemma mit Rechenregeln für den Logarithmus zur Basis a, welches
analog zu Lemma 7.18 ist und dieses als Sonderfall für a = e enthält. Das unten stehende
Lemma ist das Gegenstück“ zu Lemma 7.14 mit dem Eigenschaften der Exponential”
funktion zur Basis a.
Lemma 7.21. (Rechenregeln für Logarithmusfunktionen) Sei a ∈ (0, ∞) \ {1}.
Dann hat der Logarithmus zur Basis a, loga : (0, ∞) → R, die folgenden Eigenschaften:
x
= loga (x) − loga (y),
(7.9)
loga (x · y) = loga (x) + loga (y)
und
loga
y
sowie
loga (xb ) = b · loga (x),
mit x, y ∈ (0, ∞) und b ∈ R \ {0}.
und
1
loga x1/b = · loga (x),
b
(7.10)
Logarithmen spielen in den Naturwissenschaften eine wichtige Rolle.
Anwendung 7.22. (pH-Wert einer Säure) Der Zehner-Logarithmus ist ein wichtiger
Begriff in der Chemie im Zusammenhang mit dem pH-Wert einer wässrigen Lösung (Säure
oder Lauge):
pH-Wert = negativer dekadischer Logarithmus der H3 O+ -Konzentration cH3 O+
cH 3 O +
= − log10
.
1 mol/l
7.3
Basiswechsel für Exponentialfunktionen und Logarithmen
Unsere genaue Kenntnis der (natürlichen) Exponentialfunktion exp(x) = ex und des
natürlichen Logarithmus ln(x) erlaubt es uns, die Eigenschaften von Exponentialfunk-
184
7.3. Basiswechsel für Exponentialfunktionen und Logarithmen
tionen zu einer anderen Basis a ∈ (0, ∞) \ {1} auf die Eigenschaften von exp(x) = ex mit
einem Basiswechsel wie folgt zurückführen:
x
expa (x) = ax = eln(a) = ex·ln(a) = exp x · ln(a) .
(7.11)
Da ln(a) > 0 für alle a > 1 und da ln(a) < 0 für alle a < 1 gilt, finden wir
| ln(a)|·x
e
wenn a > 1,
x
ln(a)·x
expa (x) = a = e
=
−| ln(a)|·x
e
wenn a < 1.
Also verhält sich expa (x) = ax mit a > 1 wie eine skalierte“ Exponentialfunktion
”
exp(α · x) = eα·x mit α > 0 zur Basis e. Analog verhält sich expa (x) = ax mit a < 1
wie eine skalierte“ Exponentialfunktion exp(−α · x) = e−α·x mit α > 0. Zur Illustration
”
haben wir in Abbildung 7.4 im linken Bild die beiden Exponentialfunktionen exp2 (x) = 2x
and exp1/2 = (1/2)x = 2−x gezeichnet.
Abb. 7.4: Graphen von exp2 (x) = 2x (blau) und exp1/2 (x) = (1/2)x (rot) im linken Bild,
und die Graphen der zugehörigen Umkehrfunktionen log2 (x) (blau) bzw. log1/2 (x) (rot)
im rechten Bild.
Zuletzt bestimmen wir noch den Basiswechsel für beliebige Basen a, b ∈ (0, ∞) \ {1}:
expa (x) = ax = blogb (a) )x = bx·logb (a) = expb x · logb (a) .
Wir halten die Formeln für den Basiswechsel von Exponentialfunktionen als Lemma fest.
Lemma 7.23. (Basiswechsel für Exponentialfunktionen) Seien a, b ∈ R mit a, b > 0
und a, b 6= 1. Dann gilt
expa (x) = ax = blogb (a) )x = bx·logb (a) = expb x · logb (a) ,
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
185
und insbesondere gilt für den Sonderfall b = e
expa (x) = ax = eln(a) )x = ex·ln(a) = exp x · ln(a) .
Unsere Kenntnis des (natürlichen) Logarithmus erlaubt es uns, Logarithmen mit beliebigen Basen mit Hilfe eines einfachen Basiswechsels zu analysieren. Wir finden
loga (x) = loga blogb (x) = logb (x) · loga (b) = loga (b) · logb (x),
wobei wir im zweiten Schritt die erste Eigenschaft in (7.10) genutzt haben. Für den
Spezialfall b = e erhalten wir
loga (x) = loga (e) · loge (x) = loga (e) · ln(x).
Wegen

>0



<0
loga (x) ist
<0



>0
wenn 0 < x < 1
wenn
x>1
wenn 0 < x < 1
wenn
x>1
und
und
und
und
a < 1,
a < 1,
a > 1,
a > 1,
finden wir (beachten Sie 1 < e)
loga (x) = loga (e) · ln(x) =
(
| loga (e)| · ln(x)
−| loga (e)| · ln(x)
wenn
a > 1,
wenn
a < 1.
Zur Illustration haben wir im rechten Bild in Abbildung 7.4 die Graphen der Logarithmen
log2 (x) und log1/2 (x) gezeichnet.
Wir halten die Formel für den Basiswechsel von Logarithmen in einem Lemma fest.
Lemma 7.24. (Basiswechsel für Logarithmusfunktionen) Seien a, b ∈ (0, ∞) \ {1}.
Dann gilt
loga (x) = loga blogb (x) = logb (x) · loga (b) = loga (b) · logb (x)
und insbesondere gilt für den Sonderfall b = e
loga (x) = loga (e) · loge (x) = loga (e) · ln(x).
Wir schließen dieses Teilkapitel mit einigen Bemerkungen über die graphische Darstellung des Logarithmus und den Nutzen des Logarithmus zur Linearisierung“.
”
Betrachten wir zunächst den Zehner-Logarithmus f (x) = log10 (x), der im linken Bild in
Abbildung 7.5 im üblichen kartesischen Koordinatensystem gezeichnet wurde.
Wählen wir dagegen für die x-Achse eine neue Skalierung, bei der die Zehnerpotenzen
10−3 , 10−2, 10−1 , 100 , 101, 102 , 103 in gleichem Abstand abgetragen wurden, so finden wir
wegen log10 (10x ) = x eine Gerade, die die x-Achse in x = 1 = 100 (wegen log10 (1) = 0)
schneidet (siehe das rechte Bild in Abbildung 7.5). Wir bezeichnen solch ein Diagramm
als halb-logarithmisch“.
”
Nun betrachten wir noch ein chemisches Beispiel für eine Linearisierung“ mit dem Lo”
garithmus.
186
7.4. Hyperbolische Funktionen
y
1
log10 (x)
3 y
log10 (x)
2
1
x
0
1 2 3 4 5 6 7 8 9 10 x
0
10−3 10−2 10−1 100 101 102 103
−1
−2
−1
−3
Abb. 7.5: Der Zehner-Logarithmus f (x) = log10 (x) links im normalen“ kartesischen
”
Koordinatensystem und rechts im halb-logarithmischen“ Koordinatensystem, bei dem
”
auf der x-Achse als Skala die Zehnerpotenzen gewählt worden sind.
Anwendung 7.25. (Arrhenius-Gleichung) Die Arrhenius-Gleichung zur Beschreibung
der Temperaturabhängigkeit der Reaktionsgeschwindigkeitskonstante k sagt aus, dass die
Reaktionsgeschwindigkeitskonstante k wie folgt von der Temperatur abhängt:
k = k(T ) = A · e−EA /(R·T )
mit A = Frequenzfaktor, EA = Aktivierungsenergie in J·mol−1 , T = absolute thermodynamische Temperatur (in K) und der universellen Gaskonstante R = 8, 314 J · K−1 · mol−1 .
Um die Abhängigkeit der Reaktionsgeschwindigkeitskonstante k(T ) von der absoluten
Temperatur T leichter darstellen zu können, linearisieren wir, d.h. wir nehmen auf beiden
Seiten der Gleichung den natürlichen Logarithmus:
EA
ln k(T ) = ln A · e−EA /(R·T ) = ln(A) + ln e−EA /(R·T ) = ln(A) −
,
R·T
wobei wir die Rechenregeln für den natürlichen Logarithmus aus Lemma 7.18 angewendet
haben.
7.4
Hyperbolische Funktionen
Das letzte Thema dieses Kapitels sind die sogenannten hyperbolischen“ Funktionen,
”
welche wir nun mit Hilfe der Exponentialfunktion einführen können.
Definition 7.26. (Sinus Hyperbolicus und Kosinus Hyperbolicus) Wir definieren
den Sinus Hyperbolicus sinh : R → R und den Kosinus Hyperbolicus cosh : R → R
wie folgt:
ex + e−x
ex − e−x
und
cosh(x) =
.
sinh(x) =
2
2
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
187
Aus den Definitionen von sinh(x) und cosh(x) folgt wegen limx→+∞ e−x = 0, dass für
großes x gilt sinh(x) ≈ ex /2 und cosh(x) ≈ ex /2. Analog gilt wegen limx→−∞ ex = 0
für kleines x, dass sinh(x) ≈ −e−x /2 und cosh(x) ≈ e−x /2. Weiter haben wir sinh(0) =
(1 − 1)/2 = 0 und cosh(0) = (1 + 1)/2 = 1. Damit können wir die Graphen des Sinus
Hyperbolicus und des Kosinus Hyperbolicus leicht skizzieren. Diese sind in Abbildung 7.6
gezeichnet.
Abb. 7.6: Der Graph von sinh(x) (links) und der Graph von cosh(x) (rechts).
Das nächste Lemma formuliert eine wichtige Beziehung zwischen den beiden Funktionen
Sinus Hyperbolicus und Kosinus Hyperbolicus.
Lemma 7.27. (Gleichung mit sinh(x) und cosh(x)) Es gilt
cosh(x)
2
− sinh(x)
2
für alle x ∈ R.
=1
Beweis von Lemma 7.27. Wir vereinfachen den Ausdruck auf der linken Seite:
2 x
2
x
2
2
e + e−x
e − e−x
cosh(x) − sinh(x) =
−
2
2
2
2
(ex + e−x ) − (ex − e−x )
=
4
2 2 x 2
2 2
2
ex + 2 · ex · e−x + e−x
− e
− 2 · ex · e−x + e−x
=
4
(e2x + 2 + e−2x ) − (e2x − 2 + e−2x )
=
4
188
7.4. Hyperbolische Funktionen
=
2 − (−2)
4
= = 1,
4
4
wobei wir ex · e−x = ex−x = e0 = 1 genutzt haben.
Beispiel 7.28. (sinh(x) ist ungerade und cosh(x) ist gerade) Wir zeigen formal, dass
sinh(x) eine ungerade Funktion und dass cosh(x) eine gerade Funktion ist:
sinh(−x) =
e−x − ex
ex − e−x
e−x − e−(−x)
=
=−
= − sinh(x)
2
2
2
für alle x ∈ R,
und
cosh(−x) =
e−x + e−(−x)
e−x + ex
ex + e−x
=
=
= cosh(x)
2
2
2
für alle x ∈ R.
Das nächste Lemma listet weitere wichtige Eigenschaften von sinh(x) und cosh(x) auf.
Lemma 7.29. (Additionstheoreme) Es gilt für alle x ∈ R, dass
sinh(x + y) = sinh(x) · cosh(y) + sinh(y) · cosh(x),
cosh(x + y) = cosh(x) · cosh(y) + sinh(x) · sinh(y).
Man kann die Additionstheoreme leicht durch Nachrechnen unter Ausnutzung der Eigenschaften der Exponentialfunktion beweisen.
Als Nächstes führen wir weitere hyperbolische Funktionen ein.
Definition 7.30. (Tangens Hyperbolicus und Kotangens Hyperbolicus) Der Tangens Hyperbolicus tanh : R → R und der Kotangens Hyperbolicus coth : R\{0} →
R sind wie folgt definiert:
tanh(x) =
sinh(x)
ex − e−x
= x
cosh(x)
e + e−x
und
coth(x) =
cosh(x)
1
ex + e−x
=
= x
.
sinh(x)
tanh(x)
e − e−x
Die Graphen des Tangens Hyperbolicus tanh(x) und der Kotangens Hyperbolicus coth(x)
sind in Abbildung 7.7 gezeichnet.
Wir bemerken, dass die Geraden g(x) = −1 und h(x) = 1 beide horizontale Asymptoten für tanh(x) und coth(x) sind, weil für große |x| gilt:
ex
ex − e−x
≈
=1
wenn x → +∞,
ex + e−x
ex
−e−x
ex − e−x
≈
= −1
wenn x → −∞
tanh(x) = x
e + e−x
e−x
tanh(x) =
und
coth(x) =
ex
ex + e−x
≈
=1
ex − e−x
ex
wenn x → +∞,
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
189
Abb. 7.7: Die Graphen des tanh(x) (links) und des coth(x) (rechts) mit ihren jeweiligen
Asymptoten.
coth(x) =
ex + e−x
e−x
≈
= −1 wenn x → −∞.
ex − e−x
−e−x
Sie finden in manchen Textbüchern auch die beiden weiteren hyperbolischen Funktionen
cosech : R \ {0} → R und sech : R → R begegnen, die wie folgt definiert sind:
cosech(x) =
1
sinh(x)
und
sech(x) =
1
.
cosh(x)
Zuletzt führen wir die Umkehrfunktionen der hyperbolischen Funktionen (soweit sie existieren) ein. Aus Abbildungen 7.6 und 7.7 ist es leicht ersichtlich, dass die Funktionen
sinh(x) and tanh(x) auf R streng monoton wachsend und damit injektiv sind, wogegen
cosh(x) nur für x ≥ 0 bzw. x ≤ 0 streng monoton (wachsend bzw. fallend) und damit
injektiv ist. Der Kotangens Hyperbolicus coth(x) ist injektiv, da seine beiden Äste“ für
”
x < 0 bzw. x > 0 jeweils streng monoton fallend sind und da gilt coth(x) < −1 für x < 0
bzw. coth(x) > 1 für x > 0 (d.h. kein Funktionswert tritt sowohl für ein x < 0 als auch
für ein x > 0 auf).
Definition 7.31. (Umkehrfunktionen der hyperbolischen Funktionen)
(i) Die Umkehrfunktion von sinh : R → R ist sinh−1 = arcsinh : R → R und heißt
Arkussinus Hyperbolicus.
(ii) Die Umkehrfunktion von cosh : [0, ∞) → [1, ∞) ist cosh−1 = arccosh : [1, ∞) →
[0, ∞) und heißt Arkuskosinus Hyperbolicus.
190
7.4. Hyperbolische Funktionen
(iii) Die Umkehrfunktion von tanh : R → (−1, 1) ist tanh−1 = arctanh : (−1, 1) → R
und heißt Arkustangens Hyperbolicus.
(iv) Die Umkehrfunktion von coth : R \ {0} → R \ [−1, 1] ist coth−1 = arccoth :
R \ [−1, 1] → R \ {0} und heißt Arkuskotangens Hyperbolicus.
Abb. 7.8: In der oberen Reihe der Graph von arcsinh(x) (links) und der Graph von
arccosh(x) (rechts). In der unteren Reihe die Graphen von arctanh(x) (links) und
arccoth(x) (rechts) mit ihren jeweiligen Asymptoten.
Die Graphen der Umkehrfunktionen der hyperbolischen Funktionen sind in Abbildung 7.8
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
191
gezeichnet. Ihre Eigenschaften und Graphen können direkt aus den Eigenschaften und
Graphen von sinh(x), cosh(x), tanh(x) und coth(x) hergeleitet werden. Beispielsweise
wissen wir, dass die Geraden g(x) = −1 und h(x) = 1 horizontale Asymptoten für tanh(x)
und coth(x) sind. Daher wissen wir, dass die vertikale Linie durch (−1, 0) und die vertikale
Linie durch (1, 0) beide vertikale Asymptoten von arctanh(x) und arccoth(x) sind.
Beispiel 7.32. (Darstellung der Umkehrfunktion von sinh(x)) Wir wollen eine
explizite Darstellung der Umkehrfunktion arcsinh(x) von sinh(x) finden. Dazu setzen wir
sinh(x) = y und lösen nach x = arcsinh(y) auf:
sinh(x) =
ex − e−x
=y
2
⇒
ex − e−x = 2 y,
und nach der Substitution z = ex erhalten wir
1
z − = 2 y · z =⇒ z 2 − 1 = 2 y z − 2 y z =⇒ z 2 − 2 y z − 1 = 0 + y 2 − y 2
z
2. Binom. Formel
=⇒
z2 − 2 y z + y2 − 1 − y2 = 0
=⇒
(z − y)2 − (1 + y 2 ) = 0
p
p
p
3. Binom. Formel
=⇒
z − y + 1 + y 2 z − y − 1 + y 2 = 0 =⇒ z = y ± 1 + y 2.
Daher sehen wir, dass gilt
p
ex = y ± 1 + y 2.
p
p
p
Weil ex > 0 gilt und weil aus 1 + y 2 > y 2 = y die Abschätzung y− 1 + y 2 < y−y = 0
folgt, können wir die Lösung mit dem Minuszeichen ausschließen. Daher gilt
p
p
p
ex = y + 1 + y 2 ⇒ x = ln y + 1 + y 2
⇒ arcsinh(y) = ln y + 1 + y 2 ,
und wir haben eine Darstellung von arcsinh(x) mit Hilfe der klassischen Funktionen hergeleitet.
192
7.4. Hyperbolische Funktionen
Kapitel 8
Ableitungen und Differenzieren
In diesem Kapitel werden wir den Begriff der Ableitung und das Differenzieren von Funktionen kennenlernen. Nach der grundlegenden Definition der Ableitung über den Differentialquotienten lernen wir die Ableitungen der wichtigsten klassischen Funktionen“ kennen
”
und führen die vier wichtigen Rechenregeln für das Differenzieren von Funktionen ein: die
Regel für die Ableitung der Summe/Differenz zweiter Funktionen, die Produktregel, die
Quotientenregel und schließlich die Kettenregel. Danach lernen wir den Mittelwertsatz
der Differentialrechnung und die Regel von de l’Hôspital kennen. Mit höheren Ableitungen können wir schließlich Informationen über Extrema, Krümmung und Wendepunkte
gewinnen und Kurvendiskussionen durchführen.
Zuletzt lernen wir die Taylorsche Formel und Taylorreihen kennen. Die Taylorsche Formel gestattet es, Funktionen lokal durch geeignete Polynome angenähert darzustellen.
Kann die Funktion beliebig oft differenziert werden so können wir für die Funktion ihre
Taylorreihe um x0 , eine sogenannte Potenzreihe, berechnen; im Idealfall konvergiert die
Taylorreihe in der Nähe von x0 gegen die Funktion.
8.1
Tangente und Ableitung
Wir starten mit einer geometrischen Erklärung der Ableitung, bevor wir diese formal
definieren.
An eine glatte“ Kurve kann in jedem Punkt eine Tangente gelegt werden. Daher gilt dies
”
auch für hinreichend glatte“ Funktionen bzw. genauer für die Graphen hinreichend glat”
”
ter“ Funktionen. Für den Graphen einer Funktion f : Df → R, wobei Df ⊂ R, nennen wir
die Steigung der Tangente an den Graphen der Funktion im Punkt x0 , f (x0 )
die Ableitung der Funktion im Punkt x0 . In einer kleinen Umgebung des Punktes ist
die Tangente eine gute Approximation der Funktion; Sekanten durch (x0 , f (x0 )) stellen
schlechtere Näherungen dar. Dies ist durch Abbildung 8.1 veranschaulicht.
Da die Tangente an den Graphen von f in x0 durch den Punkt (x0 , f (x0 )) läuft, hat
sie die Darstellung y = ℓ(x) mit der Geradengleichung
ℓ(x) = f (x0 ) + α (x − x0 ),
193
(8.1)
194
8.1. Tangente und Ableitung
Tangente: anschaulich
optimal
y
schlechte Näherung
Sekante durch
x0 , f (x0 ) und
x0 + h, f (x0 + h)
f (x0 + h)
f (x0 )
f (x)
x
x0
x0 + h
Abb. 8.1: Die Steigung der Tangente im Punkt x0 , f (x0 ) gibt den Wert der Ableitung
im Punkt x0 an. Weiter
sehen wir in der Abbildung die Sekante durch x0 , f (x0 ) und
x0 + h, f (x0 + h) .
wobei α die Steigung der Tangente, also den Wert der noch (mathematisch) zu definierenden Ableitung, angibt. (Erklärung zur Formel der Tangente: Durch Umschreiben von
ℓ(x) als
ℓ(x) = α x + f (x0 ) − α x0
sehen wir, dass es sich um eine Gerade mit Steigung α und y-Achsenabschnitt f (x0 )−α x0
handelt, und Einsetzen von x = x0 liefert ℓ(x0 ) = f (x0 ); also handelt
es bei (8.1) in der
Tat um die Tangente an den Graphen von f im Punkt x0 , f (x0 ) .)
Betrachten wir die Tangente ℓ(x) in x0 , f (x0 ) als Näherung für f (x), so ist der
Fehler bei dieser Näherung |f (x) − ℓ(x)|. Diese Näherung ist optimal“, falls gilt
”
f (x) − ℓ(x) =0
lim (8.2)
x→x0 x − x0 gilt, d.h. falls der Fehler schneller gegen Null geht als x − x0“.
”
Setzen wir in (8.2) die Formel (8.1) für ℓ(x) ein, so erhalten wir
f (x) − f (x ) + α (x − x ) f (x) − ℓ(x) f (x) − f (x0 )
0
0 = lim .
0 = lim =
lim
−
α
x→x0
x→x0 x − x0
x − x0 x→x0 x − x0
Nach den Sätzen über das Rechnen mit Grenzwerten von Funktionen, kann die TangentenSteigung α also wie folgt berechnet werden:
f (x) − f (x0 )
,
x→x0
x − x0
α = lim
(8.3)
8. Ableitungen und Differenzieren
195
Tangente an sin(x) + 0.1 x 2 im Punkt x 0 = 1.4
2
1.8
1.6
1.4
1.2
Sekantenfolge
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
2
Abb. 8.2: Graph der Funktion f (x) = sin(x) + 0, 1 · x . Die Folge der Steigungen der eingezeichneten Sekanten im Punkt x0 = 1, 4 ist αn = −0, 0877,
−0, 0323, 0, 0382, 0, 121, 0, 2131, 0, 3108, wenn sich xn , f (xn ) dem Punkt x0 , f (x0 )
immer weiter nähert. Die Tangentensteigung ist α = 0, 45.
oder äquivalent dazu, indem wir x = x0 + h (und damit x − x0 = h) setzen
f (x0 + h) − f (x0 )
.
h→0
h
α = lim
Nach der Definition des Grenzwertes von Funktionen in einem Punkt x0 bedeutet (8.3),
dass für jede konvergente Folge (xn )n∈N in Df \ {x0 } mit dem Grenzwert lim xn = x0 gilt
n→∞
f (xn ) − f (x0 )
.
n→∞
xn − x0
|
{z
}
= αn
α = lim
Dies bedeutet auch, dass für jede konvergente Folge (xn )n∈Nin Df \ {x0 } mit dem Grenzwert lim xn = x0 die Steigung α der Tangente in x0 , f (x0 ) der Grenzwert der Folge der
n→∞
Steigungen
f (xn ) − f (x0 )
(αn )n∈N =
xn − x0
n∈N
ist. Dies sind die Steigungen der Sekanten durch den
Punkt
x
,
f
(x
)
und durch die
0
0
immer näher kommenden Nachbarpunkte xn , f (xn ) . In Abbildung 8.2 haben wir eine
Folge von Sekanten sowie die Tangente für eine Beispielfunktion gezeichnet.
Definition 8.1. (Ableitung und Differenzierbarkeit) Die Funktion f : I → R sei
auf einem offenen Intervall I definiert. Dann heißt f differenzierbar in x0 ∈ I, falls
196
8.1. Tangente und Ableitung
der Grenzwert
f (x0 + h) − f (x0 )
f (x) − f (x0 )
= lim
(8.4)
h→0
x − x0
h
existiert. Diesen Grenzwert bezeichnet man als Ableitung von f in x0 und schreibt
df (x0 )
dafür f ′ (x0 ) oder
. Die Funktion f heißt differenzierbar (auf I), wenn f in
dx
jedem x0 ∈ I differenzierbar ist.
lim
x→x0
Bemerkung 8.2. (Differenzenquotient und Differentialquotient) Falls eine Funktion f : I → R (mit I ⊂ R offenes Intervall) differenzierbar in einem Punkt x0 ∈ I ist,
so bezeichnet man
f ′ (x0 ) =
f (x0 + h) − f (x0 )
f (x) − f (x0 )
df (x0 )
= lim
= lim
x→x
h→0
dx
0
x − x0
h
(8.5)
als den Differentialquotient von f in x0 , obwohl es sich hierbei um den Grenzwert
(für x → x0 bzw. h → 0) des Quotienten
f (x) − f (x0 )
f (x0 + h) − f (x0 )
=
x − x0
h
mit
x = x0 + h
(8.6)
handelt. Den Quotient in (8.6) nennt man auch den Differenzenquotient. Sowohl in
(8.5) wie in (8.6) wird in manchen Textbüchern statt h auch ∆x verwendet.
Betrachten wir zunächst drei einfache Beispiele. Zur Berechnung der Ableitung ist es
häufig bequemer mit der zweiten Darstellung der Ableitung in (8.4) zu arbeiten und h
gegen Null gehen zu lassen.
Beispiel 8.3. (Ableitung einer konstanten Funktion) Wir wollen zeigen, dass die
konstante Funktion f : R → R, f (x) = c, mit einer beliebigen Konstanten c ∈ R, in
jedem Punkt x0 ∈ R differenzierbar ist und die Ableitung f ′ (x0 ) = 0 hat. Berechnen wir
zunächst den Differenzenquotient in einem beliebigen Punkt x0 ∈ R:
f (x0 + h) − f (x0 )
c−c
0
=
= = 0.
h
h
h
Nun berechnen wir die Ableitung, indem wir den Grenzwert für h → 0 bilden:
f ′ (x0 ) = lim
h→0
f (x0 + h) − f (x0 )
= lim 0 = 0.
h→0
h
Beispiel 8.4. (Ableitung einer affin linearen Funktion) Betrachten wir die affin
lineare Funktion f : R → R, f (x) = a x + b, deren Graph eine Gerade mit Steigung
a und y-Achsenabschnitt b ist. Da wir wissen, dass die Steigung a ist, sollte nach der
geometrischen Interpretation der Ableitung die Funktion f (x) = a x + b in jedem Punkt
x0 ∈ R differenzierbar sein mit der Ableitung f ′ (x0 ) = a. Dies ist in der Tat der Fall,
denn der Differenzenquotient ist
a (x0 + h) + b − a x0 + b
f (x0 + h) − f (x0 )
a x0 + a h + b − a x0 − b
ah
=
=
=
= a.
h
h
h
h
8. Ableitungen und Differenzieren
197
Abb. 8.3: Graphen der Funktion f (x) = x2 und ihrer Ableitung f ′ (x) = 2 x.
Damit folgt für den Grenzwert für h → 0
f (x0 + h) − f (x0 )
= lim a = a,
h→0
h→0
h
f ′ (x0 ) = lim
d.h. es gilt in der Tat f ′ (x0 ) = a für jedes x0 ∈ R.
Beispiel 8.5. (Ableitung von f (x) = x2 ) Betrachten wir die Funktion f : R → R,
f (x) = x2 . Wir wollen zeigen, dass diese Funktion in jedem x0 ∈ R differenzierbar ist. Sei
also x0 ∈ R beliebig. Dann ist der Differenzenquotient
(x0 + h)2 − x20
x2 + 2 x0 h + h2 − x20
2 x0 h + h2
f (x0 + h) − f (x0 )
=
= 0
=
= 2 x0 + h.
h
h
h
h
Also finden wir für die Ableitung in x0
f (x0 + h) − f (x0 )
= lim (2 x0 + h) = 2 x0 .
h→0
h→0
h
f ′ (x0 ) = lim
Damit ist f in jedem Punkt x0 differenzierbar mit der Ableitung f ′ (x0 ) = 2 x0 . In Abbildung 8.3 haben wir die Graphen der Funktion f (x) = x2 und ihrer Ableitung f ′ (x) = 2 x
gezeichnet.
Kommen wir noch einmal zur Definition 8.1 der Differenzierbarkeit zurück.
Bemerkung 8.6. (Alternative Definition der Differenzierbarkeit) Aufgrund der
Vorüberlegungen ist es klar, dass genau dann eine eindeutige Tangente an den Graph
198
8.1. Tangente und Ableitung
Γ(f ) von f im Punkt x0 , f (x0 ) existiert, wenn f in x0 differenzierbar ist. Die Tangentengleichung lautet dann y = ℓ(x) = f (x0 ) + f ′ (x0 ) (x − x0 ), und es gilt
f (x) = f (x0 ) + f ′ (x0 ) (x − x0 ) +r(x; x0 )
{z
}
|
= ℓ(x)
mit
|r(x; x0 )|
= 0.
x→x0 |x − x0 |
lim
(8.7)
Diese Beziehung ist äquivalent zur Differenzierbarkeit von f in x0 (vgl. Definition 8.1),
denn aus (8.7) folgt durch Umstellen
f (x)−f (x0 ) = f ′ (x0 ) (x−x0 )+r(x; x0 )
r(x; x0 )
f (x) − f (x0 )
= f ′ (x0 )+
.
x − x0
x − x0
⇐⇒
Als Folgerung aus (8.7) erhält man sofort die Stetigkeit von f in x0 , denn für jede Folge
(xn )n∈N mit xn → x0 für n → ∞ folgt aus (8.7):
f (xn ) = f (x0 ) + f ′ (x0 )(xn − x0 ) + (xn − x0 )
r(xn ; x0 )
→ f (x0 )
xn − x0
für n → ∞.
Also ist Differenzierbarkeit eine stärkere Eigenschaft als Stetigkeit!
Wir halten die letzte Beobachtung als ein Lemma fest.
Lemma 8.7. (Differenzierbarkeit impliziert Stetigkeit) Sei I ⊂ R ein offenes Intervall. Ist eine Funktion f : I → R differenzierbar in x0 ∈ I, so ist f auch stetig in
x0 ∈ I. Ist f differenzierbar auf I, so ist f stetig auf I.
Wir halten hier bereits den nachfolgenden Satz über den Zusammenhang zwischen Differenzierbarkeit und Monotonie fest – auch wenn wir diesen Satz erst später mit dem
Mittelwertsatz beweisen können werden.
Satz 8.8. (Monotonie und Differenzierbarkeit) Seien Df ⊂ R und [a, b] ⊂ Df ein
abgeschlossenes Intervall. Sei f : Df → R stetig auf [a, b] und differenzierbar auf dem
offenen Intervall (a, b). Dann gelten die folgenden Aussagen:
(i) Die Funktion f ist genau dann monoton wachsend auf [a, b], wenn gilt f ′ (x) ≥ 0
für alle x ∈ (a, b).
(ii) Die Funktion f ist genau dann streng monoton wachsend auf [a, b], wenn gilt
f ′ (x) > 0 für alle x ∈ (a, b).
(iii) Die Funktion f ist genau dann monoton fallend auf [a, b], wenn gilt f ′ (x) ≤ 0 für
alle x ∈ (a, b).
(iv) Die Funktion f ist genau dann streng monoton fallend auf [a, b], wenn gilt
f ′ (x) < 0 für alle x ∈ (a, b).
(v) Gilt f ′ (x) = 0 für alle x ∈ (a, b), so ist die Funktion f auf [a, b] konstant.
8. Ableitungen und Differenzieren
199
Verdeutlichen wir uns, dass die Aussagen des vorigen Satzes anschaulich klar sind: Ist
eine Funktion f streng monoton wachsend, so werden die Funktionswerte f (x) größer,
wenn x größer wird. Also erwarten wir, dass die Tangenten an den Graphen eine positive
Steigung haben sollten. Analoges gilt für streng monoton fallendende, sowie monoton
wachsende und monoton fallende Funktionen.
Zuletzt führen wir noch einseitige Ableitungen, genauer linksseitige und rechtsseitige Ableitungen, ein.
Definition 8.9. (linksseitige und rechtsseitige Ableitung) Sei I ein offenes Intervall, und sei f : I → R eine Funktion. Sofern die nachfolgenden Grenzwerte in (8.8) und
(8.9) existieren, definieren wir für x0 ∈ I
f (x0 + h) − f (x0 )
,
(8.8)
h→0
h
f (x0 + h) − f (x0 )
.
(8.9)
und die linksseitige Ableitung:
f−′ (x0 ) = lim−
h→0
h
Ist eine Funktion f : [a, b] → R auf dem abgeschlossenen Intervall [a, b] definiert, so
können wir in den Randpunkten a bzw. b jeweils nur die rechtsseitige bzw. linksseitige
Ableitung betrachten.
die rechtsseitige Ableitung:
f+′ (x0 ) = lim+
An der Definition 8.1 sieht man, dass für eine in x0 differenzierbare Funktion die linksseitige und die rechtsseitige Ableitung übereinstimmen müssen.
Lemma 8.10. (Kriterium für Differenzierbarkeit) Sei I ⊂ R ein offenes Intervall.
Eine Funktion f : I → R ist in x0 ∈ I genau dann differenzierbar, wenn ihre
linksseitige und ihre rechtsseitige Ableitung in x0 existieren und übereinstimmen, also
wenn gilt
f−′ (x0 ) = f+′ (x0 ).
Der Wert der Ableitung in x0 ist dann f ′ (x0 ) = f−′ (x0 ) = f+′ (x0 ).
Betrachten wir ein Beispiel, um uns das Konzept der linksseitigen und der rechtsseitigen
Ableitung klar zu machen.
Beispiel 8.11. (Ableitung des Absolutbetrags) Sei f : R → R, f (x) = |x|, der
Absolutbetrag. Wir wollen – sofern möglich – die Ableitung des Absolutbetrags berechnen.
Nach der Definition des Absolutbetrags gilt

für x < 0,
 −x
0
für x = 0,
|x| =

x
für x > 0.
Für x0 6= 0 ist der Differenzenquotient in x0 6= 0 durch


 −(x0 + h) − (−x0 ) = −h = −1
|x0 + h| − |x0 | 
h
h
=

h
x
+
h
−
x
h
0

 0
= =1
h
h
für x0 < 0 und x0 + h < 0,
für x0 > 0 und x0 + h > 0.
200
8.1. Tangente und Ableitung
gegeben. Da wir h gegen Null gehen lassen, reicht es wenn wir für x0 < 0 auch nur h ∈ R
mit x0 + h < 0 betrachten, und analog reicht es für x0 > 0, wenn wir auch nur h ∈ R mit
x0 + h > 0 betrachten. Nehmen wir nun den Grenzwert für h → 0, so folgt daher

lim −1 = −1
für x0 < 0 und x0 + h < 0,
|x0 + h| − |x0 |  h→0
=
f ′ (x0 ) = lim
h→0
 lim 1 = 1
h
für x0 > 0 und x0 + h > 0.
h→0
Also ist f (x) = |x| in jedem x0 6= 0 differenzierbar, und die Ableitung ist f ′ (x0 ) = −1
wenn x0 < 0 und f ′ (x0 ) = 1 wenn x0 > 0.
Betrachten wir nun x0 = 0. Dann gilt
f (x0 + h) − f (x0 )
f (0 + h) − f (0)
|h| − |0|
|h|
=
=
=
,
h
h
h
h
und wir müssen jetzt zwei Fälle unterscheiden: h ≥ 0 und h < 0, d.h. wir betrachten die
rechtsseitige und linksseitige Ableitung in x0 = 0 separat:
f (0 + h) − f (0)
|h|
h
= lim+
= lim+
= 1,
h→0
h→0
h→0
h
h
h
|{z}
=1
|h|
−h
f (0 + h) − f (0)
= lim+
= lim+
= −1.
f−′ (0) = lim−
h→0
h→0
h→0
h
h
h
|{z}
= −1
rechtsseitige Ableitung: f+′ (0) = lim+
linksseitige Ableitung:
Da für f (x) = |x| die rechtsseitige und die linksseitige Ableitung in x0 = 0 nicht übereinstimmen, ist f (x) = |x| in x0 = 0 nicht differenzierbar. Dies ist auch klar am Graphen
der Funktion abzulesen, den wir in Abbildung 8.4 gezeichnet haben.
Wir haben also gefunden, dass der Absolutbetrag f (x) = |x| in allen x ∈ R \ {0} differenzierbar ist. Für x 6= 0 finden wir, dass f ′ (x) = sgn(x) gilt.
Als letztes führen wir noch sogenannte höhere Ableitungen“ ein.
”
Definition 8.12. (höhere Ableitungen) Sei eine Funktion f auf einem offenen Intervall (x0 − ε, x0 + ε) um den Punkt x0 differenzierbar. Ist die Ableitung f ′ in dem Punkt
x0 differenzierbar, d.h. existiert der Grenzwert
f ′ (x0 + h) − f ′ (x0 )
,
h→0
h
f ′′ (x0 ) = (f ′ )′ (x0 ) = lim
so heißt f zweimal differenzierbar in x0 , und wir nennen f ′′ (x0 ) die zweite Ableitung von f in x0 .
Analog können wir auch noch höhere Ableitungen einer entsprechend oft differenzierbaren Funktion f definieren: f (3) (x0 ), f (4) (x0 ), . . . f (n) (x0 ), wobei wir für die erste bzw. zweite
Ableitung auch f (1) (x0 ) = f ′ (x0 ) bzw. f (2) (x0 ) = f ′′ (x0 ) schreiben können. Mit der Notation f (0) (x0 ) ist die Funktion selber gemeint, also f (0) (x0 ) = f (x0 ).
Betrachten wir ein Beispiel.
8. Ableitungen und Differenzieren
201
Abb. 8.4: Der Graphen des Absolutbetrags f (x) = |x| und seiner Ableitung f ′ (x) = sgn(x)
für x 6= 0.
Beispiel 8.13. (höhere Ableitungen der Standardparabel) Betrachten wir die Funktion f : R → R, f (x) = x2 .
In Beispiel 8.5 haben wir bereits gesehen, dass f auf R differenzierbar ist mit der Ableitung
f ′ (x) = 2 x.
Nach Beispiel 8.4 wissen wir, dass die affin lineare Funktion f ′ (x) = 2 x auf R differenzierbar ist mit der Ableitung (f ′ )′ (x) = 2. Also ist f auf R zweimal differenzierbar mit
der zweiten Ableitung f ′′ (x) = 2.
Nach Beispiel 8.3 ist die konstante Funktion f ′′ (x) = 2 auf R differenzierbar mit der
Ableitung (f ′′ )′ (x) = 0. Also ist f auf R dreimal differenzierbar mit der dritten Ableitung
f ′′′ (x) = 0.
Da die Nullfunktion g(x) = 0 als konstante Funktion differenzierbar ist mit der Ableitung
g ′ (x) = 0, so sehen wir, dass f auch viermal, fünfmal, . . . , n-mal auf R differenzierbar ist
mit den Ableitungen f (4) (x) = 0, f (5) (x) = 0, . . . , f (n) (x) = 0.
Höhere Ableitungen spielen bei der Kurvendiskussion, also dem Analysieren (des Graphen) einer Funktion, eine wichtige Rolle. Diese werden wir in Teilkapitel 8.5 besprechen.
8.2
Ableitungen wichtiger Funktionen
In Tabelle 8.1 haben wir die Ableitungen einiger wichtiger differenzierbarer Funktionen
zusammengestellt. Sie sollten diese Ableitungen im Kopf haben.
202
8.2. Ableitungen wichtiger Funktionen
Definitionsbereich Df
Funktion f (x)
Ableitung f ′ (x)
R
c = Konstante
0
R
xn mit n ∈ N
n xn−1
(0, ∞)
xr mit r ∈ R
r xr−1
R
ex
ex
(0, ∞)
ln(x)
1
x
R
sin(x)
cos(x)
R
cos(x)
− sin(x)
R\
nπ
2
o
+ kπ k ∈ Z
1
tan(x)
cos(x)
1
2
R \ {kπ | k ∈ Z}
cot(x)
R
sinh(x)
cosh(x)
R
cosh(x)
sinh(x)
R
tanh(x)
R \ {0}
coth(x)
−
sin(x)
1
cosh(x)
−
1
2
2
sinh(x)
2
Tabelle 8.1: Ableitungen einiger wichtiger differenzierbarer Funktionen f : Df → R.
Wir geben einige Anmerkungen zu den Funktionen in der Tabelle.
• Dass f (x) = xn mit n ∈ N differenzierbar ist mit der Ableitung f ′ (x) = n xn−1 ,
kann man in Verallgemeinerung von Beispiel 8.5 mit Hilfe des binomischen Lehrsatzes
nachweisen.
• Dass f (x) = xr für x > 0 und r ∈ R differenzierbar ist mit der Ableitung f ′ (x) = r xr−1 ,
kann man mittels xr = er ln(x) und der Kettenregel (siehe Satz 8.24) nachweisen.
′
′
• Hinter sin(x) = cos(x) und cos(x) = − sin(x) steckt die folgende Anschauung:
8. Ableitungen und Differenzieren
203
Die Sinusfunktion steigt bei Null mit einer 45-Grad-Tangente an (also cos(0) = 1), und
die Steigungen der Tangenten nehmen für x > 0 allmählich so ab, wie die Werte der
Kosinusfunktion kleiner werden.
Die Kosinusfunktion beginnt bei x = 0 mit einer waagerechten Tangente (da gilt
− sin(0) = 0), und die Steigungen der Tangenten nehmen für x > 0 dann so ab, wie die
Werte von − sin(x).
Anwendung 8.14. (Ableitung und Geschwindigkeit) Ableitungen treten in Anwendungen bei der Betrachtung dynamischer Prozesse auf:
• Beschreibt die differenzierbare Funktion s(t) der Ort eines Objekts zum Zeitpunkt t, so
ist v(t) = s′ (t) die Geschwindigkeit des Objekts zur Zeit t. Zum Beispiel könnte s(t)
die Position zum Zeitpunkt t eines Autos sein, und s′ (t) ist dann die Geschwindigkeit
des Autos zum Zeitpunkt t.
• Für eine chemische Reaktion A + B → P mit Konzentrationsverläufen cA (t), cB (t) und
cP (t) für die Substanzen A, B und P ist ν(t) = c′P (t) die Reaktionsgeschwindigkeit,
also die Geschwindigkeit, mit der sich die Konzentration cP (t) ändert. Ist diese Reaktion
elementar, so gilt oft ν(t) = k cA (t) cB (t) mit einer Reaktionsgeschwindigkeitskonstanten k > 0. Dies führt auf
c′P (t) = k · cA (t) · cB (t),
eine sogenannte Differentialgleichung. Wie man Differentialgleichungen löst, lernen wir
in Kapitel 10.
8.3
Differentiationsregeln
In diesem Teilkapitel lernen wir die sehr wichtigen Regeln für das Rechnen mit Ableitungen kennen: die Linearität der Ableitung, die Produktregel, die Quotientenregel und die
Kettenregel. Mit Hilfe dieser Rechenregeln und den Informationen aus Tabelle 8.1 können
wir dann auch die Ableitungen sehr komplizierter Funktionen mit geringen Aufwand berechnen.
Satz 8.15. (Linearität der Ableitung, Produktregel und Quotientenregel) Seien
f : I → R und g : I → R zwei Funktionen auf einem offenen Intervall I. Sei x0 ∈ I,
und seien f und g in x0 differenzierbar. Dann sind auch die Funktionen c1 f + c2 g (mit
Konstanten c1 , c2 ∈ R), f · g und f /g (falls g(x) 6= 0 für alle x ∈ I) differenzierbar in x0 ,
und es gelten:
(i) Linearität der Ableitung:
(c1 f + c2 g)′(x0 ) = c1 f ′ (x0 ) + c2 g ′ (x0 ),
(f · g)′ (x0 ) = f ′ (x0 ) · g(x0 ) + f (x0 ) · g ′ (x0 ),
′
f
f ′ (x0 ) · g(x0 ) − f (x0 ) · g ′ (x0 )
(iii) Quotientenregel:
.
(x0 ) =
2
g
g(x0 )
(ii) Produktregel:
204
8.3. Differentiationsregeln
Bemerkung 8.16. (Sonderfall der Quotientenregel mit f (x) = 1) Aus (iii) folgt
für den Sonderfall f (x) = 1 für alle x ∈ I, dass
′
g ′ (x0 )
1
(x0 ) = −
2
g
g(x0 )
für jede differenzierbare Funktion g : I → R mit g(x0 ) 6= 0 und x0 ∈ I.
Betrachten wir einige Beispiele.
Beispiel 8.17. (Differenzierbarkeit von Polynomen und rationalen Funktionen)
(a) Da die Funktion p1 (x) = x als affin lineare Funktion nach Beispiel 8.4 auf R differenzierbar ist, folgt durch wiederholtes Anwenden der Produktregel, dass die Funktionen
p2 (x) = x2 = x · x, p3 (x) = x3 = x · x2 , . . . , pn (x) = xn = x · xn−1 alle auf R
differenzierbar sind.
(b) Aus der Differenzierbarkeit von p0 (x) = 1 und (vgl. Beispiel 8.3) von pn (x) = xn ,
n ∈ N, (vgl. (a)) auf ganz R folgt mit der Linearität der Ableitung, dass jede Funktion
der Form
p(x) = c0 p0 (x) + c1 p1 (x) + c2 p2 (x) + . . . + cn pn (x) = c0 + c1 x + c2 x2 + . . . + cn xn ,
also jedes Polynom, auf R differenzierbar ist.
(c) Da nach (b) alle Polynome auf R differenzierbar sind, kann man alle rationalen
Funktionen, also alle Funktionen p(x)/q(x) mit p(x) und q(x) Polynomen, in allen
Punkten x ∈ R mit q(x) 6= 0 differenzieren.
Beispiel 8.18. (Produktregel: Ableitung der Monome) Wir haben uns im vorigen
Beispiel bereits überlegt, dass die Monome pn (x) = xn für alle n ∈ N auf R differenzierbar
sind. Es gilt p′1 (x) = (x)′ = 1 (vgl. Beispiel 8.4). Mit der Produktregel folgt nun
p2 (x)′ = (x2 )′ = (x · x)′ = 1 · x + x · 1 = 2 x,
p′3 (x) = (x3 )′ = (x · x2 )′ = 1 · x2 + x · (2 x) = 3 x2 ,
und wir vermuten, dass p′n (x) = (xn )′ = n xn−1 für alle n ∈ N gilt. Dies zeigt man leicht
mit vollständiger Induktion:
Induktionsanfang: Wir haben bereits überprüft, dass die Formel für n = 1 stimmt, denn
p′1 (x) = 1 = 1 x0 .
Induktionsvoraussetzung: Nehmen wir nun an, es gelte p′n−1 (x) = (xn−1 )′ = (n − 1) xn−2 .
Induktionsschritt n − 1 → n: Nach der Produktregel gilt:
p′n (x) = (xn )′ = (x · xn−1 )′ = 1 · xn−1 + x · (n − 1) xn−2 = xn−1 + (n − 1) xn−1 = n xn−1 ,
wobei wir im dritten Schritt beim Anwenden der Produktregel die Induktionsvoraussetzung (xn−1 )′ = (n − 1) xn−2 ausgenutzt haben. Damit haben wir dem Induktionsschritt
bewiesen.
Nach dem Prinzip der vollständigen Induktion gilt p′n (x) = (xn )′ = n xn−1 für alle n ∈ N.
8. Ableitungen und Differenzieren
205
Beispiel 8.19. (Ableitung eines beliebigen Polynoms) In Beispiel 8.17 haben wir
gesehen, dass ein beliebiges Polynom vom Grad n
p(x) = c0 p0 (x) + c1 p1 (x) + c2 p2 (x) + . . . + cn pn (x) = c0 + c1 x + c2 x2 + . . . + cn xn ,
differenzierbar ist. Mit Hilfe der Formeln p′0 (x) = (1)′ = 0 sowie p′n (x) = n xn−1 für
pn (x) = xn mit n ∈ N (aus Beispiel 8.18) und der Linearität der Ableitung können wir
nun die Ableitung des Polynoms p leicht berechnen:
p′ (x) = c0 p′0 (x) + c1 p′1 (x) + c2 p′2 (x) + . . . + c′n pn (x)
= 0 + c1 1 + c2 2 x1 + . . . + cn n xn−1
= c1 + 2 c2 x + . . . + n cn xn−1 .
Die Ableitung p′ ist also wieder ein Polynom, allerdings ein Polynom vom Grad n − 1.
Daher können wir die Ableitung p′ wieder differenzieren. Wie sehen also, dass wir Polynome beliebig oft differenzieren können.
Beispiel 8.20. (Produktregel) Da nach Tabelle 8.1 f (x) = ex und g(x) = sin(x) in
allen x ∈ R differenzierbar sind (mit den Ableitungen f ′ (x) = ex und g ′ (x) = cos(x)), ist
nach Satz 8.15 auch h(x) = ex sin(x) = f (x) · g(x) in allen x ∈ R differenzierbar. Mit der
Produktregel finden wir die Ableitung
′
h′ (x) = (ex )′ · sin(x) + |{z}
ex · sin(x)
|{z} | {z }
| {z }
′
=
f
(x)
= f (x) = g(x)
= g ′ (x)
ex · cos(x)
= |{z}
ex · sin(x) + |{z}
| {z }
| {z }
= f ′ (x) = g(x) = f (x) = g ′ (x)
= ex sin(x) + cos(x) .
Beispiel 8.21. (Quotientenregel) Betrachten wir die rationale Funktion
h : R \ {−1, 1} → R,
h(x) =
x3 + 1
.
x2 − 1
Der Nenner und der Zähler sind jeweils Polynome f (x) = x3 + 1 und g(x) = x2 − 1,
und diese sind in allen x ∈ R differenzierbar. Weiter sind die Nullstellen des Nenners
nicht in der Definitionsmenge R \ {−1, 1} von h enthalten, d.h. wir haben g(x) 6= 0 für
alle x ∈ R \ {−1, 1}. Nach Satz 8.15 ist dann die Funktion h(x) = f (x)/g(x) in allen
x ∈ R \ {−1, 1} differenzierbar, und nach der Quotientenregel finden wir
h′ (x) =
=
=
f ′ (x) g(x) − f (x) g ′(x)
2
g(x)
(x3 + 1)′ (x2 − 1) − (x3 + 1) (x2 − 1)′
(x2 − 1)2
(3 x2 ) (x2 − 1) − (x3 + 1) (2 x)
(x2 − 1)2
206
8.3. Differentiationsregeln
=
=
3 x4 − 3 x2 − 2 x4 − 2 x
(x2 − 1)2
x4 − 3 x2 − 2 x
,
(x2 − 1)2
wobei wir
f ′ (x) = (x3 + 1)′ = (x3 )′ + (1)′ = 3 x2 + 0 = 3 x2
und
g ′ (x) = (x2 − 1)′ = (x2 )′ + (−1)′ = 2 x + 0 = 2 x
verwendet haben.
Beispiel 8.22. (Quotientenregel) Betrachten wir die Tangensfunktion
nπ
o
sin(x)
h:R\
h(x) = tan(x) =
+ kπ k ∈ Z → R,
.
2 {z
cos(x)
}
|
= Dh
Dann wissen wir aus Tabelle 8.1, dass die Funktionen f (x) = sin(x) und g(x) = cos(x) auf
R differenzierbar sind mit den Ableitungen f ′ (x) = cos(x) und g ′(x) = − sin(x). Weiter
gilt für die Definitionsmenge Dh von h, dass g(x) = cos(x) 6= 0 für alle x ∈ Dh ist. Also ist
nach Satz 8.15 auch h in allen Punkten x aus seiner Definitionsmenge Dh differenzierbar,
und wir berechnen die Ableitung mit der Quotientenregel:
f ′ (x) g(x) − f (x) g ′(x)
2
g(x)
′
′
sin(x) cos(x) − sin(x) cos(x)
=
2
cos(x)
cos(x) cos(x) − sin(x) − sin(x)
=
2
cos(x)
2
2
cos(x) + sin(x)
=
2
cos(x)
h′ (x) =
1
=
wobei wir cos(x)
2
+ sin(x)
cos(x)
2
2 ,
= 1 für alle x ∈ R verwendet haben.
Beispiel 8.23. (Linearität und Produktregel) Aus der Tabelle 8.1 wissen wir, dass die
Funktionen g(x) = x und h(x) = ln(x) für x > 0 differenzierbar sind mit den Ableitungen
g ′(x) = 1 und h′ (x) = 1/x. Daher wissen wir nach Satz 8.15, dass auch die Funktion
f (x) = x ln(x) − x differenzierbar ist mit der Ableitung
′
′
′
f ′ (x) = x ln(x) − x = x ln(x) − (x)′ = (x)′ ln(x) + x ln(x) − 1
= 1 · ln(x) + x ·
1
− 1 = ln(x) + 1 − 1 = ln(x).
x
8. Ableitungen und Differenzieren
207
Hier haben wir
′ erst die Linearität der Ableitung ausgenutzt und danach die Produktregel
für x ln(x) angewendet.
Als Nächstes lernen wir die sogenannte Kettenregel für das Differenzieren von verketteten
Funktionen kennen.
Satz 8.24. (Kettenregel) Seien g : Dg → R und f : Df → R zwei Funktionen mit
Bf ⊂ Dg , so dass die Verkettung h = g ◦ f : Df → R, h(x) = (g ◦ f )(x) = g f (x) ,
existiert. Es seien f im Punkt x0 und g im Punkt y0 = f (x0 ) differenzierbar. Dann ist die
verkettete Funktion h(x) = (g ◦ f )(x) = g f (x) im Punkt x0 differenzierbar mit der
Ableitung
h′ (x0 ) = (g ◦ f )′ (x0 ) = g ′ f (x0 ) · f ′ (x0 ) = g ′ f (x0 ) f ′ (x0 ) .
Man bezeichnet g ′ f (x0 ) als die äußere Ableitung und f ′ (x0 ) als die innere Ableitung.
Betrachten wir einige Beispiele für die Anwendung der Kettenregel.
Beispiel 8.25. (Kettenregel) Es ist cos(x) = sin(x+ π/2) (nach dem Additionstheorem
π π π
+ sin
cos(x) = cos(x)
sin x +
= sin(x) cos
2
| {z 2 } | {z2 }
=0
=1
für den Sinus.) Also gilt
cos(x) = g f (x)
mit
g(y) = sin(y)
und
f (x) = x +
π
.
2
Da die beiden Funktionen g(y) = sin(y) und f (x) = x + π/2 jeweils auf ganz R differenzierbar sind, folgt, dass cos(x) = sin(x + π/2) auch auf R differenzierbar ist. Nach der
Kettenregel berechnet sich die Ableitung wie folgt:
′
π
π
· 1 = cos x +
= − sin x,
cos(x) = g ′(f (x)) f ′ (x) = cos x +
2
2
wobei wir g ′ (y) = cos(y) und f ′ (x) = 1 und im letzten Schritt
π π
π
− sin(x) sin
= − sin(x)
cos x +
= cos(x) cos
2
| {z 2 }
| {z2 }
=0
=1
nach dem Additionstheorem für den Kosinus genutzt haben. Wir können also aus der
Kenntnis der Ableitung der Sinusfunktion mit der Hilfe der Kettenregel die Ableitung der
Kosinusfunktion herleiten.
Beispiel 8.26. (Kettenregel) Um die Differenzierbarkeit von h(x) = xr für x ∈ (0, ∞)
mit beliebigem r ∈ R herzuleiten und die Ableitung auszurechnen nutzen wir
r
h(x) = xr = eln(x) = er ln(x) ,
208
8.3. Differentiationsregeln
also
h(x) = xr = er ln(x) = g f (x)
mit
g(y) = ey
und
f (x) = r ln(x).
Da die Funktion g(y) = ey für alle y ∈ R differenzierbar ist und da die Funktion
f (x) = r ln(x) für alle x ∈ (0, ∞) differenzierbar ist, folgt, dass h(x) = xr auf (0, ∞)
differenzierbar ist. Nach der Kettenregel berechnet sich die Ableitung wie folgt
h′ (x) = (xr )′ = g ′ f (x) f ′ (x) =
ef (x)
|{z}
= g ′ f (x)
1
r
ln x r
r
= |er{z
= xr = r xr−1 ,
}
x
x
x
|{z}
= xr
′
= f (x)
wobei wir g ′ (y) = ey und f ′ (x) = r (1/x) verwendet haben.
Beispiel
8.27.
√
(mehrfache Anwendung der Kettenregel) Sei h : R → R, h(x) =
2
sin x + 1 . Dann ist
√
h(x) = g f (x)
mit
g(y) = sin(y)
und
f (x) = x2 + 1.
√
x2 + 1 ebenfalls auf R difDa g(y) = sin(y) auf R differenzierbar
ist,
folgt,
wenn
f
(x)
=
√
2
ferenzierbar ist, dass h(x) = sin x + 1 auf R differenzierbar ist. Nach der Kettenregel
finden wir dann mit g ′ (y) = cos(y)
√
(8.10)
h′ (x) = g ′ f (x) f ′ (x) = cos f (x) f ′ (x) = cos x2 + 1 f ′ (x).
√
Wir müssen uns noch überzeugen, dass f (x) = √
x2 + 1 auf R differenzierbar ist und
müssen f ′ (x) noch berechnen. Die Funktion f (x) = x2 + 1 ist wiederum eine verkettete
Funktion:
√
f (x) = u v(x)
mit
u(y) = y = y 1/2
und
v(x) = x2 + 1.
Die Funktion v(x) = x2 + 1 ist als Polynom auf R differenzierbar, und ihr Bild ist Bv =
√
[1, ∞). Weiter ist die Funktion u(y) = y = y 1/2 auf Bv = [1, ∞) ⊂ (0, ∞) = Du
differenzierbar (nach Beispiel 8.26). Also gilt mit v ′ (x) = 2 x und
1 1
1
√
1
= √
u′ (y) = ( y)′ = (y 1/2 )′ = y −1/2 =
1/2
2
2y
2 y
nach der Kettenregel
f ′ (x) = u′ v(x) v ′ (x) =
1
x
1
p
v ′ (x) = √
2x = √
.
2 x2 + 1
x2 + 1
2 v(x)
(8.11)
Einsetzen von (8.11) in (8.10) liefert
h′ (x) = cos
√
√
2 +1
x
x
cos
x
√
=
.
x2 + 1 √
x2 + 1
x2 + 1
Als Anwendung der Kettenregel wollen wir eine Formel für die Ableitung der Umkehrfunktion einer injektiven Funktion herleiten. Natürlich geht dies nur, wenn sowohl die
injektive Funktion als auch ihre Umkehrfunktion differenzierbar sind.
8. Ableitungen und Differenzieren
209
Satz 8.28. (Ableitung der Umkehrfunktion einer differenzierbaren Funktion)
Sei f : Df → Wf (mit Df , Wf ⊂ R) eine injektive Funktion, die in einem Intervall
(x0 − ε, x0 + ε) ⊂ Df um den Punkt x0 ∈ Df differenzierbar ist. Es gelte f ′ (x0 ) 6= 0.
Dann ist die Umkehrfunktion auf dem Bild f −1 : Bf → Df im Punkt y0 = f (x0 )
differenzierbar und es gilt
′
f −1 (y0 ) =
1
f′
f −1 (y
0)
=
1
f ′ (x0 )
.
(8.12)
Beweis von Satz 8.28. Wir zeigen nur einen Teil des Beweises. Wenn wir wissen, dass
die Umkehrfunktion von f in y0 = f (x0 ) differenzierbar ist (dies muss man allerdings
zeigen), dann gilt
h(y) = f f −1 (y) = (f ◦ f −1 )(y) = y
für alle y ∈ Bf ,
d.h. h(y) = y ist die Verkettung von f = f (x) und f −1 = f −1 (y). Wir haben also durch
direkte“ Berechnung h′ (y) = (y)′ = 1, und nach der Kettenregel gilt dann in y = y0
”
1 = h′ (y0 ) = f ′ f −1 (y0 ) · (f −1 )′ (y0) = f ′ (x0 ) · (f −1 )′ (y0 ).
|
{z
} ′
−1
=f f
f (x0 )
′
= f (x0 )
Durch Auflösen nach (f −1 )′ (y0 ) finden wir
′
f −1 (y0 ) =
1
f ′ (x0 )
=
1
f′
f −1 (y
und wir haben (8.12) hergeleitet.
0)
,
Wenden wir Satz 8.28 auf ein paar Beispiele an.
Beispiel 8.29. (Ableitung der Umkehrfunktion) Die natürliche Exponentialfunktion
exp : R → R, exp(x) = ex , mit Definitionsbereich Dexp = R und Bild Bexp = (0, ∞) ist auf
R differenzierbar und es gilt exp′ (x) = ex . Wir wollen diese Informationen und Satz 8.28
nutzen, um die Ableitung der Umkehrfunktion exp−1 : (0, ∞) → R, exp−1 (y) = ln(y),
herzuleiten. Wegen exp′ (x) = ex 6= 0 für alle x ∈ R sind die Voraussetzungen von Satz
8.28 erfüllt. Also finden wir
′
′
ln(y) = exp−1 (y) =
exp′
1
1
1
= ln(y) =
e
y
ln(y)
′
und wir haben die Formel ln(y) = 1/y hergeleitet.
für alle y > 0,
Beispiel 8.30. (Ableitung der Umkehrfunktion) Betrachten wir sin(x) auf dem Definitionsbereich Dsin = (−π/2, π/2). Dann ist sin(x) injektiv und das Bild ist Bsin = (−1, 1).
Also können wir die Umkehrfunktion sin−1 (y) = arcsin(y) auf dem Bild Bsin = (−1, 1)
definieren. Weiter ist sin(x) in allen x ∈ (−π/2, π/2) differenzierbar, und es gilt sin′ (x) =
210
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
cos(x) 6= 0 für alle x ∈ (−π/2, π/2). Also können wir Satz 8.28 anwenden, um die Ableitung der Umkehrfunktion zu berechnen:
′
1
1
1
1
=
=q
=p
arcsin(y) =
,
′
2
2
sin arcsin(y)
cos arcsin(y)
1
−
y
1 − sin arcsin(y)
q
2
2
2
wobei wir im dritten Schritt cos(x) = 1 − sin(x) (aus sin(x) + cos(x) = 1)
benutzt haben und im letzten Schritt sin arcsin(y) = y verwendet haben.
Beispiel 8.31. (Ableitung der Umkehrfunktion in individuellen Punkten) Betrachten wir die Funktion f : R → R, f (x) = x + ex , deren Bild Bf = R ist. Die Funktion
f ist streng monoton wachsend, weil g(x) = x und h(x) = ex beide streng monoton
wachsend sind. Daher ist die Funktion f injektiv und ihre Umkehrfunktion f −1 : R → R
existiert auf dem Bild Bf = R. Da f differenzierbar ist und f ′ (x) = 1 + ex 6= 0 für
alle x ∈ R gilt, wissen wir nach Satz 8.28, dass die Umkehrfunktion f −1 ebenfalls auf R
differenzierbar ist.
Wir möchten nun gerne (f −1 )′ (1) bestimmen. Das Problem dabei ist, dass man für f −1
keine geschlossene Formel angeben kann, da es problematisch ist, f (x) = x + ex nach x
zu lösen.
Allerdings kann man Satz 8.28 auch nur für den einzelnen Punkt y0 = 1 anwenden. Dazu
müssen wir aber den Punkt x0 ∈ Df = R mit f (x0 ) = y0 = 1 finden. Hier gilt offensichtlich
x0 = 0, da f (x0 ) = f (0) = 0 + e0 = 1 = y0 ist. Also folgt aus Satz 8.28
(f −1 )′ (1) = (f −1 )′ (y0 ) =
1
1
1
1
1
=
=
=
=
,
f ′ (x0 )
1 + ex0
1 + e0
1+1
2
wobei wir f ′ (x) = 1 + ex benutzt haben.
8.4
Mittelwertsatz der Differentialrechnung und Folgerungen
Wir lernen nun einen der wichtigsten Sätze der Differentialrechnung kennen, nämlich
den Mittelwertsatz der Differentialrechnung. Aus diesem werden werden wir verschiedene
nützliche Folgerungen ziehen: den Satz 8.8 über den Zusammenhang zwischen Monotonie
und dem Vorzeichen der Ableitung und die Regel von de l’Hôspital.
Satz 8.32. (Mittelwertsatz der Differentialrechnung) Sei f : [c, d] → R stetig
und in (c, d) differenzierbar. Dann gilt der Mittelwertsatz der Differentialrechnung
(kurz MWS): Es gibt einen Punkt x0 ∈ (c, d) mit
f ′ (x0 ) =
f (d) − f (c)
.
d−c
(8.13)
Zu beachten ist, dass der Satz nur eine Existenzaussage ist, denn er garantiert uns nur
die Existenz eines Punktes x0 ∈ (c, d) mit Eigenschaft (8.13). Er gibt uns aber auch für eine
8. Ableitungen und Differenzieren
211
y
f (d)
ang
le T
e
l
l
a
par
ante
Sek
ente
f (c)
x0
c
x0
d
Abb. 8.5:
des Mittelwertsatzes: Betrachtet man die Sekante von
Veranschaulichung
c, f (c) nach d, f (d) , so findet man mindestens einen Punkt x0 ∈ (c, d), in dem die
Tangente parallel zu dieser Sekante ist.
konkrete Funktion und ein konkretes Intervall (c, d) keinerlei Information darüber, welches
der genaue Punkt x0 in (8.13) ist. Der Mittelwertsatz ist daher besonders für theoretische
Überlegungen nützlich (d.h. zum Gewinnen weiterer Erkenntnisse über differenzierbare
Funktionen), wie wir noch im Verlauf dieses Kapitels sehen werden.
Bemerkung 8.33. (Anschauung des Mittelwertsatzes) Anschaulich sagt der Mittelwertsatz, dass es im Intervall (c, d) mindestens eine
Stelle x0 gibt,
an der die Tangente
parallel zur Sekante (durch die Endpunkte c, f (c) und d, f (d) ) verläuft (siehe Abbildung 8.5). Man sieht an der Abbildung 8.5, dass die Stelle x0 im Allgemeinen nicht
eindeutig bestimmt ist.
Als Sonderfall für f (c) = f (d) erhalten wir in (8.13)
f ′ (x0 ) =
0
f (d) − f (c)
=
= 0,
d−c
d−c
d.h. die Ableitung f ′ der Funktion f hat eine Nullstelle in (c, d). Dieser Sonderfall ist der
Satz von Rolle, den wir nun einführen.
Satz 8.34. (Satz von Rolle) Sei f : [c, d] → R stetig und in (c, d) differenzierbar. Ist
f (c) = f (d), so existiert ein x0 ∈ (c, d) mit f ′ (x0 ) = 0.
Bemerkung 8.35. (alternative Formulierungen des Mittelwertsatzes) Der Mittelwertsatz wird oft auch in einer der folgenden äquivalenten Formulierungen
verwendet:
(i) Ist f auf (x, y) wenn x < y, bzw. (y, x) wenn y < x, differenzierbar, so gibt es eine
212
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Zwischenstelle ξ, d.h. x < ξ < y bzw. y < ξ < x mit
f (y) = f (x) + f ′ (ξ) (y − x).
(8.14)
(Beweis: Dies folgt direkt, indem wir in (8.13) c = x und d = y, bzw. c = y und
d = x, setzen und in (8.13) mit (d − c) = (y − x) bzw. (d − c) = (x − y) multiplizieren
und danach nach f (y) auflösen.)
(ii) Setzen wir in (8.14) h = y − x und damit y = x + h so bekommen wir: Ist f auf
(x, x + h) falls h > 0, bzw. (x + h, x) falls h < 0, differenzierbar, so gibt es ein
θ ∈ (0, 1) mit
f (x + h) = f (x) + f ′ (x + θ h) h.
Wir haben dabei die Zwischenstelle ξ in (x, y) bzw. (y, x) als ξ = x+θ h mit θ ∈ (0, 1)
dargestellt.
Betrachten wir zunächst ein Beispiel für eine Anwendung des Mittelwertsetzes.
Beispiel 8.36. (Anwendung des Mittelwertsatzes) Mit dem Mittelwertsatz können
wir leicht die nützliche Abschätzung
| sin(x)| ≤ |x|
für alle x ∈ R
zeigen. Natürlich ist diese Abschätzung nur für kleine x, also x dicht bei Null, wirklich
interessant.
Beweis: sin : R → R ist auf ganz R differenzierbar. Nach dem Mittelwertsatz (8.13) mit
c = 0 und d = x falls x > 0, bzw. c = x und d = 0 falls x < 0, gilt für ein ξ ∈ (0, x)
bzw. ξ ∈ (x, 0), dass
sin(x)
sin(x) − sin(0)
=
wenn x > 0,
x−0
x
sin(0) − sin(x)
− sin(x)
sin(x)
bzw.
cos(ξ) = sin′ (ξ) =
=
=
wenn x < 0,
0−x
−x
x
′
wobei wir sin(x) = cos(x) benutzt haben. Also erhalten wir in beiden Fällen für die
Zwischenstelle ξ
cos(ξ) = sin′ (ξ) =
cos(ξ) =
sin(x)
x
⇐⇒
cos(ξ) · x = sin(x)
⇐⇒
sin(x) = cos(ξ) · x.
Wir nehmen nun auf beiden Seiten den Absolutbetrag und nutzen anschliessend, dass
| cos(ξ)| ≤ 1 ist, also
| sin(x)| = | cos(ξ) · x| = | cos(ξ)| · |x| ≤ |x|,
| {z }
≤1
und wir haben | sin(x)| ≤ |x| gezeigt. Da x ∈ R beliebig war, gilt die Abschätzung für alle
x ∈ R.
8. Ableitungen und Differenzieren
213
Eine wichtige Folgerung aus dem Mittelwertsatz 8.32 ist der Satz 8.8, den wir bereits im
ersten Unterkapitel formuliert haben. Wir wiederholen den Satz hier noch einmal und
werden am Ende des Teilkapitels die erste Aussage dieses Satzes beweisen.
Satz 8.37. (Monotonie und Differenzierbarkeit – Satz 8.8) Seien Df ⊂ R und
[a, b] ⊂ Df ein abgeschlossenes Intervall. Sei f : Df → R stetig auf [a, b] und differenzierbar auf dem offenen Intervall (a, b). Dann gelten die folgenden Aussagen:
(i) Die Funktion f ist genau dann monoton wachsend auf [a, b], wenn gilt f ′ (x) ≥ 0
für alle x ∈ (a, b).
(ii) Die Funktion f ist genau dann streng monoton wachsend auf [a, b], wenn gilt
f ′ (x) > 0 für alle x ∈ (a, b).
(iii) Die Funktion f ist genau dann monoton fallend auf [a, b], wenn gilt f ′ (x) ≤ 0 für
alle x ∈ (a, b).
(iv) Die Funktion f ist genau dann streng monoton fallend auf [a, b], wenn gilt
f ′ (x) < 0 für alle x ∈ (a, b).
(v) Gilt f ′ (x) = 0 für alle x ∈ (a, b), so ist die Funktion f auf [a, b] konstant.
Betrachten wir zwei Anwendungen von Satz 8.37.
Beispiel 8.38. (Anwendung von Satz 8.37) Wir wollen zeigen, dass gilt:
cos(x) ≥ 1 −
x2
2
für alle x ∈ R.
Beweis: Zunächst setzen wir
x2
;
2
dann ist zu zeigen, dass gilt f (x) ≥ 0 für alle x ∈ R. Da
f (x) = cos(x) − 1 +
(−x)2
x2
= cos(x) − 1 +
= f (x)
2
2
gilt, ist f eine gerade Funktion. Daher reicht es, f (x) ≥ 0 für x ≥ 0 zu zeigen.
f (−x) = cos(−x) − 1 +
Es gilt f (0) = cos(0) − 1 + 0 = 0 und
2 ′
′
2x
x
′
′
= − sin(x) − 0 +
= − sin(x) + x.
f (x) = cos(x) − (1) +
2
2
Aus Beispiel 8.36 wissen wir, dass gilt | sin(x)| ≤ |x| für alle x ∈ R. Insbesondere folgt
daraus
sin(x) ≤ | sin(x)| ≤ |x| = x
für alle x ≥ 0.
Also gilt sin(x) ≤ x für x ≥ 0 und äquivalent 0 ≤ − sin(x) + x für x ≥ 0. Damit folgt
f ′ (x) = − sin(x) + x ≥ 0
für alle x ≥ 0.
Nach Satz 8.37 ist f monoton wachsend auf [0, ∞). Also folgt f (x) ≥ f (0) = 0 für x ≥ 0,
und wegen f (−x) = f (x) folgt dann f (x) ≥ 0 für alle x ∈ R. Damit haben wir die
Abschätzung bewiesen.
214
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Beispiel 8.39. (Anwendung von Satz 8.37) Frage: Welche differenzierbaren Funktionen f : R → R genügen der Beziehung
f ′ (x) = a f (x)
mit einer Konstanten a ∈ R?
(8.15)
Wir wissen, dass gilt (ex )′ = ex , und nach der Kettenregel folgt (eax )′ = a eax , d.h. die
Funktionen
f (x) = c eax
mit einer beliebigen Konstanten c ∈ R
erfüllen die Gleichung (8.15).
Umgekehrt gilt die folgende Behauptung: Die einzigen differenzierbaren Funktionen
f : R → R, die (8.15) erfüllen, sind durch f (x) = c eax mit einer beliebigen Konstante c ∈ R gegeben.
Beweis: Gegeben sei eine differenzierbare Funktion f : R → R, die (8.15) erfüllt. Wir
setzen dann g(x) = f (x) · e−ax . Dann gilt nach der Produktregel und der Kettenregel
′
g ′(x) = f (x) e−ax = f ′ (x) e−ax + f (x) e−ax · (−a)
für alle x ∈ R,
= e−ax f ′ (x) − a f (x) = 0
|
{z
}
=0
wobei wir im letzten Schritt genutzt haben, dass wegen (8.15) gilt f ′ (x) − a f (x) = 0
gilt. Nach Satz 8.37 (v) folgt: g ist konstant, also g(x) = c für ein c ∈ R. Also ist
g(x) = f (x) e−ax = c und damit f (x) = c eax .
Wir haben also gezeigt: Ist a ∈ R gegeben, und f : R → R differenzierbar. Dann gilt:
f ′ (x) = a f (x) für alle x ∈ R
f (x) = c eax mit einer Konstanten c ∈ R .
⇐⇒
Eine weitere Folgerung aus dem Mittelwertsatz ist die Regel von der l’Hôspital.
Satz 8.40. (Regel von de l’Hôspital) Seien −∞ ≤ a < b ≤ ∞ und seien f : (a, b) → R
und g : (a, b) → R in (a, b) differenzierbar. Dann gelten die folgenden Aussagen:
(i) Es gelten g(x) 6= 0 und g ′ (x) 6= 0 für x ∈ (a, c) mit einem a < c ≤ b. Gilt
lim+ f (x) = 0
und
lim+ g(x) = 0 ,
x→a
oder gilt
x→a
lim |f (x)| = +∞
x→a+
und
und existiert der Grenzwert
lim+
x→a
so folgt
lim+
x→a
lim |g(x)| = +∞ ,
x→a+
f ′ (x)
,
g ′ (x)
f ′ (x)
f (x)
= lim+ ′
.
g(x) x→a g (x)
8. Ableitungen und Differenzieren
215
(ii) Eine analoge Aussage gilt für den Endpunkt b: Es gelten g(x) 6= 0 und g ′(x) 6= 0 für
x ∈ (d, b) mit einem a ≤ d < b. Gilt
und
lim− g(x) = 0 ,
lim− f (x) = 0
x→b
x→b
oder gilt
lim |f (x)| = +∞
lim |g(x)| = +∞ ,
und
x→b−
und existiert der Grenzwert
lim−
x→b
x→b−
f ′ (x)
,
g ′ (x)
so folgt
lim−
x→b
f ′ (x)
f (x)
= lim− ′
.
g(x) x→b g (x)
Wir halten als Sonderfall des Satzes von de l’Hôspital den Fall beidseitiger Grenzwerte
fest.
Satz 8.41. (Sonderfall der Regel von de l’Hôspital) An einer Stelle x0 ∈ (a, b)
gilt der zu Satz 8.40 analoge Satz mit den üblichen zweiseitigen Grenzwerten, denn für
x0 ∈ (a, b) können wir sowohl den linksseitigen Grenzwert als auch den rechtsseitigen
Grenzwert bilden und beide haben den gleichen Wert, wie der Grenzwert in x0 . Aus beiden
Fällen (i) und (ii) zusammen erhalten wir dann die entsprechenden Aussagen für die
Grenzwerte für x → x0 . Genauer:
Seien −∞ ≤ a 0.
Gilt
lim f (x) = 0
und
lim g(x) = 0,
x→x0
x→x0
und existiert der Grenzwert
f ′ (x)
,
x→x0 g ′ (x)
lim
so folgt
lim
x→x0
f ′ (x)
f (x)
= lim ′
.
g(x) x→x0 g (x)
Betrachten wir einige Anwendungen der Regel von de l’Hôspital.
Beispiel 8.42. (Regel von de l’Hôspital) Wir wollen den Grenzwert
sin(x)
x→0
x
lim
bestimmen, sofern dieser Grenzwert existiert.
216
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Überprüfen wir zuerst, ob alle Bedingungen im Sonderfall des Satzes 8.40, also in Satz 8.41,
erfüllt sind: Es ist x0 = 0. Sowohl f (x) = sin(x) als auch g(x) = x sind auf R differenzierbar und es gelten g ′(x) = 1 6= 0 für x ∈ R und g(x) = x 6= 0 für alle x ∈ R \ {0}. Weiter
gilt
lim f (x) = lim sin(x) = 0
und
lim g(x) = lim x = 0,
x→0
x→0
x→0
x→0
und es existiert der Grenzwert
sin(x)
f ′ (x)
lim ′
= lim
x→0 g (x)
x→0
(x)′
Also gilt
′
cos(x)
= lim cos(x) = cos(0) = 1.
x→0
x→0
1
= lim
f (x)
f ′ (x)
sin(x)
= lim
= lim ′
=1
x→0 g(x)
x→0 g (x)
x→0
x
lim
nach dem Sonderfall (siehe Satz 8.41) der Regel von de l’Hôspital.
Beispiel 8.43. (Regel von de l’Hôspital) Wir wollen bestimmen, was
1 − cos(x)
x→0
x2
lim
ist, sofern dieser Grenzwert existiert.
Überprüfen wir zuerst die Voraussetzungen der Regel von de l’Hôspital in dem Spezialfall
in Satz 8.41: Es ist x0 = 0. Die Funktionen f (x) = 1 −cos(x) und g(x) = x2 sind beide auf
R differenzierbar, und es gelten g(x) = x2 6= 0 und g ′ (x) = 2 x 6= 0 für alle x ∈ R \ {0}.
Weiter gilt
lim f (x) = lim 1 − cos(x) = 1 − cos(0) = 1 − 1 = 0
und
lim g(x) = lim x2 = 0,
x→0
x→0
x→0
x→0
und es existiert der Grenzwert
1 − cos(x)
f ′ (x)
= lim
lim ′
x→0
x→0 g (x)
(x2 )′
′
sin(x)
sin(x)
sin(x)
1
1
1
= lim
= lim
= ·1= ,
x→0 2 x
x→0 2 x
2 x→0
2
| {z x } 2
=1
lim
wobei wir im letzten Schritt das Ergebnis von Beispiel 8.42 verwendet haben. Also folgt
1 − cos(x)
1
f (x)
f ′ (x)
=
lim
=
lim
= .
2
′
x→0
x→0
x→0
x
g(x)
g (x)
2
lim
Betrachten wir noch zwei weitere Beispiele für die Anwendung der Regel von de l’Hôspital,
in denen wir die Regel von de l’Hôspital wirklich in der Form von Satz 8.40 mit den
einseitigen Grenzwerten benötigen.
Beispiel 8.44. (Regel von de l’Hôspital) Wir wollen den Grenzwert
lim x ln(x)
x→0+
bestimmen, falls dieser existiert.
8. Ableitungen und Differenzieren
217
Dazu schreiben wir diesen zunächst als
lim+ x ln(x) = lim+
x→0
x→0
ln(x)
,
1/x
und wir bemerken, dass der Zähler f (x) = ln(x) und der Nenner g(x) = 1/x auf (0, ∞)
differenzierbar sind. Hier ist in Satz 8.40 also der Endpunkt a = 0 für das Intervall
(a, b) = (0, ∞). Weiter gelten g(x) = 1/x 6= 0 und g ′ (x) = −1/x2 6= 0 für alle x ∈ (0, ∞),
und
1
und
lim+ |g(x)| = lim+ = +∞,
lim+ |f (x)| = lim+ | ln(x)| = +∞
x→0
x→0
x→0
x→0
x
und der Grenzwert
′
ln(x)
1/x
1 x2
f ′ (x)
= lim+
= lim+
= lim+ ·
= lim+ −x = 0
lim
x→0
x→0 −1/x2
x→0 x (−1)
x→0
x→0+ g ′ (x)
(1/x)′
existiert. Also ist nach der Regel von de l’Hôspital
lim x ln(x) = 0.
x→0+
Beispiel 8.45. (Regel von de l’Hôspital) Wir wollen den Grenzwert von
lim
x→+∞
−16 x + 5
7 x2 + 6
finden, sofern dieser existiert.
Hier ist im Satz 8.40 (ii) der Endpunkt b = ∞. Die Funktionen f (x) = −16 x + 5 und
g(x) = 7 x2 + 6 sind beide auf R differenzierbar, und es gelten
g ′(x)
p
p = 14 x 6= 0 für alle
2
x ∈ R \ {0} und g(x) = 7 (x − 6/7) 6= 0 für alle x ∈ R \ { 6/7, − 6/7}. Weiter ist
lim |f (x)| = lim −16 x+5 = +∞
und
lim |g(x)| = lim 7 x2 +6 = +∞.
x→+∞
x→+∞
x→+∞
x→+∞
Ferner existiert der Grenzwert
− 16 x + 5
f ′ (x)
lim ′
= lim
′
x→+∞ g (x)
x→+∞
7 x2 + 6
′
−16
= 0.
x→+∞ 14 x
= lim
Also gilt nach der Regel von de l’Hôspital
lim
x→+∞
−16 x + 5
= 0.
7 x2 + 6
In bestimmten Situationen muss man die Regel von de l’Hôspital mehrfach anwenden.
Betrachten wir hierzu auch noch ein Beispiel.
Beispiel 8.46. (wiederholte Anwendung der Regel von de l’Hôspital) Wir wollen
zeigen, dass gilt
x2
lim x = 0.
x→+∞ e
218
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Zunächst überprüfen wir die Voraussetzungen der Regel von de l’Hôspital: Wir sehen,
dass f (x) = x2 und g(x) = ex auf R differenzierbar sind, und es gelten g(x) = ex 6= 0 und
g ′(x) = ex 6= 0 für alle x ∈ R. Weiter gilt
lim |f (x)| = lim |x2 | = +∞
x→+∞
x→+∞
Wenn der Grenzwert
und
lim |g(x)| = lim |ex | = +∞.
x→+∞
x→+∞
′
x2
f ′ (x)
2x
lim
= lim
′ = lim x
x→+∞ g ′ (x)
x→+∞ e
x→+∞ ex
(8.16)
existiert, dann folgt nach der Regel von de l’Hôspital
x2
2x
= lim x .
x
x→+∞ e
x→+∞ e
lim
Bei dem Grenzwert (8.16) befinden uns wieder in einer Situation, in der wir die Regel
von de l’Hôspital (erneut) anwenden können: Die Funktionen h(x) = f ′ (x) = 2 x und
k(x) = g ′ (x) = ex sind auf R differenzierbar, und es gilt k(x) = ex 6= 0 und k ′ (x) = ex 6= 0
für alle x ∈ R. Weiter gilt
lim |h(x)| = lim |2 x| = +∞
x→+∞
Da der Grenzwert
x→+∞
und
lim |k(x)| = lim |ex | = +∞.
x→+∞
x→+∞
′
2x
h′ (x)
2
lim ′
= lim
′ = lim x = 0
x→+∞ k (x)
x→+∞ ex
x→+∞ e
(8.17)
existiert, folgt also durch zweifaches Anwenden des Satzes von de l’Hôspital aus (8.16)
und (8.17)
x2
2x
2
lim x = lim x = lim x = 0.
x→+∞ e
x→+∞ e
x→+∞ e
Zum Abschluss beweisen wir noch eine der Aussagen in Satz 8.8 (siehe auch Satz 8.37) mit
Hilfe des Mittelwertsatzes, um zu sehen, wie der Mittelwertsatz in Beweisen eingesetzt
wird.
Beweis von Beweis von (i) in Satz 8.8 (siehe auch Satz 8.37). Da es sich um eine
genau dann wenn“-Aussage handelt müssen wir beide Richtungen zeigen.
”
• Sei also f auf [a, b] monoton wachsend. Dann gilt per Definition für alle x1 , x2 ∈ [a, b]
mit x1 < x2 , dass
f (x1 ) ≤ f (x2 )
⇐⇒
f (x1 )−f (x2 ) ≤ 0
⇐⇒
f (x2 )−f (x1 ) ≥ 0. (8.18)
Insbesondere folgt aus (8.18) für x2 = x + h und x1 = x mit h > 0, dass gilt
f (x + h) − f (x)
≥ 0 für alle h > 0. (8.19)
f (x + h) − f (x) ≥ 0 : h
⇐⇒
h
Ebenso folgt aus (8.18) für x1 = x + h und x2 = x mit h < 0, dass gilt
f (x + h) − f (x)
f (x + h) − f (x) ≤ 0 : h
⇐⇒
≥ 0 für alle h < 0. (8.20)
h
8. Ableitungen und Differenzieren
219
Aus (8.19) und (8.20) sieht man, dass der Differenzenquotient immer nicht-negativ ist.
Daher muss auch der Differentialquotient, also die Ableitung f ′ (x), immer nicht-negativ
sein, und wir haben f ′ (x) ≥ 0 bewiesen.
• Sei nun umgekehrt f ′ (x) ≥ 0 für alle x ∈ (a, b). Um zu zeigen, dass f auf [a, b] monoton
wachsend ist, müssen wir nachweisen, dass für jedes x1 , x2 ∈ [a, b] mit x1 < x2 gilt
f (x1 ) ≤ f (x2 ). Seien also im Mittelwertsatz in (8.13) c = x1 und d = x2 . Dann gilt für
eine Zwischenstelle x0 ∈ (x1 , x2 )
f (x2 ) − f (x1 )
= f ′ (x0 ) ≥ 0,
x2 − x1
und wegen x2 − x1 > 0 folgt durch Multiplizieren mit (x2 − x1 ), dass f (x2 ) − f (x1 ) ≥ 0,
also f (x2 ) ≥ f (x1 ) ⇔ f (x1 ) ≤ f (x2 ), gilt. Also ist f monoton wachsend auf [a, b].
Damit haben wir beide Richtungen der genau dann wenn“-Aussage bewiesen.
”
8.5
Extrema und Wendepunkte
Zuletzt diskutieren wir die Themen, die Sie aus der Schule vermutlich mit dem Thema
Kurvendiskussion verbinden. In Satz 8.8 haben wir bereits gelernt, wie wir das Wachstumsverhalten einer Funktion mit Hilfe der (ersten) Ableitung charakterisieren können. Im
Folgenden lernen wir nun lokale Extrema (also lokale Minima oder Maxima), Krümmung
und Wendepunkte einer Funktion kennen. Diese werden mit Hilfe der der ersten und
der zweiten und gegebenenfalls auch noch höherer Ableitungen einer Funktion bestimmt.
Mit diesem Begriffen können wir dann den Graphen einer Funktion relativ vollständig
charakterisieren.
Zunächst führen wir den Begriff lokales Minimum bzw. lokales Maximum ein.
Definition 8.47. (lokales Maximum/Minimum und lokales Extremum) Seien
f : (a, b) → R eine Funktion und x0 ∈ (a, b).
(i) Dann hat f in x0 ein lokales Maximum, falls ein Intervall I = (x0 − ε, x0 + ε) ⊂
(a, b) existiert, so dass gilt
f (x) ≤ f (x0 )
für alle x ∈ I.
Sind die Ungleichungen für x 6= x0 streng, also gilt f (x) < f (x0 ) für alle x ∈ I \{x0 },
so spricht man von einem strengen lokalen Maximum in x0 .
(ii) Dann hat f in x0 ein lokales Minimum, falls ein Intervall I = (x0 − ε, x0 + ε) ⊂
(a, b) existiert, so dass gilt
f (x) ≥ f (x0 )
für alle x ∈ I.
Sind die Ungleichungen für x 6= x0 streng, also gilt f (x) > f (x0 ) für alle x ∈ I \{x0 },
so spricht man von einem strengen lokalen Minimum in x0 .
220
8.5. Extrema und Wendepunkte
Abb. 8.6: Die Graphen von f (x) = x2 (links), f (x) = x3 (Mitte) und f (x) = x4 (rechts).
Unter dem Begriff (strenges) lokalen Extremum versteht man ein (strenges) lokales
Minimum oder (strenges) ein lokales Maximum.
Um die Extrema einer differenzierbaren Funktion zu finden, verwendet man den folgenden
Satz.
Satz 8.48. (Bedingung für ein lokales Extremum) Sei f : (a, b) → R auf einem
Intervall I = (x0 − ε, x0 + ε) ⊂ (a, b) differenzierbar.
(i) Hat f in x0 in lokales Extremum, so gilt f ′ (x0 ) = 0.
(ii) Gilt f ′ (x0 ) = 0 und f ′′ (x0 ) 6= 0, so besitzt f im Punkt x0 ein strenges lokales
Extremum und zwar ein strenges lokales Maximum falls f ′′ (x0 ) < 0 bzw. ein
strenges lokales Minimum falls f ′′ (x0 ) > 0.
(iii) Gilt f ′ (x0 ) = 0 und f ′′ (x0 ) = 0, so können wir keine Aussage treffen: f kann in x0
ein lokales Minimum oder ein lokales Maximum oder keines von beiden haben.
Beispiel 8.49. (strenges lokales Minimum) Am Graphen der Funktion f : R → R,
f (x) = x2 , (siehe linkes Bild in Abbildung 8.6) sieht man, dass die Funktion f (x) = x2 in
x = 0 ein strenges lokales (und auch strenges globales) Minimum.
Dies zeigt man wie folgt: Da in allen Extrema x0 nach Satz 8.48 (i) gilt, dass f ′ (x0 ) = 0,
bestimmen wir zuerst die Nullstellen der ersten Ableitung f ′ (x) = 2 x. Also
f ′ (x) = 2 x = 0
=⇒
x = 0.
Nun berechnen wir die zweite Ableitung: Wir finden f ′′ (x) = 2, und insbesondere gilt
f ′′ (0) = 2 > 0. Also liegt nach Satz 8.48 (ii) in x0 = 0 ein strenges lokales Minimum vor.
Bevor wir ein weiteres Beispiel betrachten, halten wir unsere allgemeine Vorgehensweise zum Finden lokaler Extrema kurz fest:
8. Ableitungen und Differenzieren
221
(1) Zuerst bestimmen wir alle Nullstellen der ersten Ableitung. (Erklärung: Nach
Satz 8.48 (i) wissen wir, dass in dem Punkt x0 eines lokalen Extremums gilt f ′ (x0 ) = 0.
Also haben wir mit den Nullstellen der ersten Ableitung alle möglichen Kandidaten
für lokale Extrema identifiziert.)
(2) Dann berechnen wir die zweite Ableitung f ′′ (x0 ) für alle x0 mit f ′ (x0 ) = 0.
• Gilt f ′′ (x0 ) < 0, so liegt in x0 ein strenges lokales Maximum vor.
• Gilt f ′′ (x0 ) > 0, so liegt in x0 ein strenges lokales Minimum vor.
• Gilt f ′′ (x0 ) = 0, so haben wir keine Informationen darüber, ob ein lokales Extremum vorliegt.
Bemerkung 8.50. (Nicht alle Nullstellen der Ableitung sind Extrema) Die Bedingung f ′ (x0 ) = 0 ist notwendig für ein Extremum in x0 , aber sie ist nicht hinreichend, d.h. x0 muss dann kein lokales Extremum sein! Z.B. hat f : R → R, f (x) = x3 ,
kein Extremum in x0 = 0, obwohl f ′ (x) = 3 x2 ist und damit f ′ (0) = 0 gilt. Dass f (x) = x3
in x0 = 0 kein lokales Extremum hat, sieht man daran, dass
f (−x) = (−x)3 = −x3 < 0 = f (0) < x3
für alle x > 0.
Wir haben im mittleren Bild in Abbildung 8.6 den Graphen von f (x) = x3 gezeichnet.
Betrachten wir noch ein weiteres Beispiel, an dem man sieht, dass wir mit den Informationen aus Satz 8.48 nicht alle Extrema erfassen.
Beispiel 8.51. (Satz 8.48 erfasst das Extremum nicht) Betrachten wir die Funktion
f : R → R, f (x) = x4 , so sieht man wegen
f (0) = 04 = 0 < (x2 )2 = x4 = f (x)
für alle x ∈ R \ {0}
sofort, dass die Funktion f (x) = x4 in x0 = 0 ein strenges lokales (und sogar ein strenges
globales) Minimum hat. Dies sieht man auch direkt am Graphen der Funktion (siehe
rechtes Bild in Abbildung 8.6). Allerdings erhalten wir für die erste und zweite Ableitung
f ′ (x) = 4 x3 und f ′′ (x) = 12 x2 , und es gilt somit f ′ (0) = 4·03 = 0 und f ′′ (0) = 12·02 = 0.
Mit Satz 8.48 können wir die Existenz des strengen lokalen Minimums in x0 = 0 nicht
nachweisen.
Das letzte Beispiel macht klar, dass wir noch weitere Informationen für die Kurvendiskussion brauchen.
Definition 8.52. (Krümmung und Wendepunkt) Sei f : (a, b) → R eine mindestens
zweimal differenzierbare Funktion, und sei (c, d) ⊂ (a, b).
(i) Ist f ′′ (x) > 0 für alle x ∈ (c, d), so ist der Graph von f auf (c, d) linksgekrümmt.
(ii) Ist f ′′ (x) < 0 für alle x ∈ (c, d), so ist der Graph von f auf (c, d) rechtsgekrümmt.
(iii) Ein Punkt x0 in dem die Krümmung wechselt heißt Wendepunkt. Konkreter bedeutet dies, dass ein Punkt x0 ein Wendepunkt ist, wenn die zweite Ableitung f ′′ in x0
222
8.5. Extrema und Wendepunkte
ihr Vorzeichen ändert, d.h. wenn in einem geeigneten Intervall (x0 −ε, x0 +ε) ⊂ (a, b)
gilt:
f ′′ (x) < 0 für alle x ∈ (x0 − ε, x0 )
und
und
f ′′ (x0 ) = 0
f ′′ (x) > 0 für alle x ∈ (x0 , x0 + ε),
oder
f ′′ (x) > 0 für alle x ∈ (x0 − ε, x0 )
und
und
f ′′ (x0 ) = 0
f ′′ (x) < 0 für alle x ∈ (x0 , x0 + ε).
In Abbildung 8.7 sind ein Maximums, ein Minimum und ein Wendepunkt sowie ihr Zusammenhang mit rechtsgekrümmt und linksgekrümmt veranschaulicht.
y
lokales Maximum
Wendepunkt
rechtsgekrümmt
linksgekrümmt
y = f (x)
lokales Minimum
x
x0
Abb. 8.7: Veranschaulichung von Extrema, Krümmung und Wendepunkt.
Betrachten wir zunächst noch einmal ein einfaches Beispiel, um ein Verständnis für die
Begriffe Krümmung und Wendepunkt zu bekommen.
Beispiel 8.53. (Krümmung und Wendepunkt) Betrachten wir die Funktion
f : R → R, f (x) = x3 , deren erste Ableitung wir bereits in Bemerkung 8.50 betrachtet hatten. Wir berechnen nun noch die zweite und dritte Ableitung
f ′ (x) = 3 x2 ,
f ′′ (x) = 6 x,
f ′′′ (x) = 6.
Wir haben für x0 = 0 also f ′′ (0) = 6 · 0 = 0, d.h. x0 = 0 ist ein Kandidat für einen
Wendepunkt. Wegen
f ′′ (x) = 6 x < 0 für alle x < 0
und
f ′′ (x) = 6 x > 0 für alle x > 0 (8.21)
8. Ableitungen und Differenzieren
223
wechselt die zweite Ableitung bei x0 = 0 auch tatsächlich ihr Vorzeichen. Also ist x0 = 0
ein Wendepunkt. Wir lesen aus (8.21) weiter ab, dass f (x) = x3 für x < 0 rechtsgekrümmt
und für x > 0 linksgekrümmt ist.
Wir überlegen uns für dieses Beispiel noch, was wir aus der dritten Ableitung f ′′′ (0) =
6 > 0 lernen können: Die dritte Ableitung f ′′′ gibt uns Informationen über das Wachstum
bzw. Monotonieverhalten der zweiten Ableitung f ′′ . f ′′′ (0) = 6 > 0 bedeutet, dass die
zweite Ableitung f ′′ in x0 = 0 monoton wachsend ist. Da f ′′ (0) = 0 können wir daraus
schliessen, dass für x < 0 und dicht bei x0 = 0 gilt f ′′ (x) < 0 und dass für x > 0 und dicht
bei x0 = 0 gilt f ′′ (x) > 0. Also können wir aus f ′′′ (0) = 6 > 0 ebenfalls schliessen, dass die
zweite Ableitung f ′′ einen Vorzeichenwechsel hat und dass daher x0 = 0 ein Wendepunkt
von f (x) = x3 ist.
Die Idee zur Bestimmung eines Wendepunkts mit Hilfe der dritten Ableitung, die wir im
letzten Beispiel entdeckt haben, gilt allgemein, wie der nächste Satz zeigt.
Satz 8.54. (Bedingungen für einen Wendepunkt) Sei f : (a, b) → R eine mindestens
dreimal differenzierbare Funktion, und sei x0 ∈ (a, b). Dann gilt:
(i) Hat f in x0 einen Wendepunkt, so gilt f ′′ (x0 ) = 0.
(ii) Gilt f ′′ (x0 ) = 0 und f ′′′ (x0 ) 6= 0, so hat f in x0 einen Wendepunkt.
Wichtig ist im vorigen Satz, dass aus f ′′ (x0 ) = 0 nur folgt, dass x0 ein möglicher Kandidat für einen Wendepunkt ist. Erst mit der dritten Ableitung überprüfen wir, ob wirklich
ein Wendepunkt vorliegt.
Wir üben dies nun an einem etwas komplizierteren Beispiel.
Beispiel 8.55. (Extrema und Wendepunkte) Wir wollen alle Extrema und Wendepunkte sowie die Krümmung der Funktion f : R → R, f (x) = x e−x , bestimmen.
Zunächst berechnen wir die erste Ableitung und finden deren Nullstellen: Nach der Produktregel und der Kettenregel gilt
′
f ′ (x) = x e−x = e−x + x e−x · (−1) = (1 − x) e−x ,
und aus f ′ (x) = (1 − x) e−x = 0 folgt 1 − x = 0 also x = 1 (da e−x 6= 0 für alle x ∈ R).
Also ist x0 = 1 der einzige Kandidat für ein Extremum.
Nun berechnen wir die zweite Ableitung. Mit der Produktregel und der Kettenregel gilt:
′
f ′′ (x) = (1 − x) e−x = −e−x + (1 − x) e−x · (−1) = −e−x − e−x + x e−x = (x − 2) e−x .
Für x0 = 1 finden wir f ′′ (1) = (1 − 2) e−1 = −e−1 < 0. Also hat f (x) = x e−x in x0 = 1
ein strenges
lokales Maximum. Die Koordinaten dieses strengen lokalen Maximums sind
1, f (1) = (1, e−1 ).
Weiter sehen wir an f ′′ (x) = (x − 2) e−x , dass f ′′ (x) < 0 wenn x < 2 und f ′′ (x) > 0 wenn
x > 2 ist. Also ist f für x < 2 rechtsgekrümmt und für x > 2 linksgekrümmt.
224
8.5. Extrema und Wendepunkte
Um Kandidaten für Wendepunkte zu finden, berechnen wir die Nullstellen der zweiten
Ableitung: Aus f ′′ (x) = (x − 2) e−x = 0 folgt x − 2 = 0, also x = 2. Daher ist x1 = 2
der einzige Kandidat für einen Wendepunkt. Da gilt f ′′ (x) < 0 für x < 2 und f ′′ (x) > 0
für x > 2, hat die zweite Ableitung in x1 = 2 einen Vorzeichenwechsel. Also liegt bei
2, f (2) = (2, 2 e−2) ein Wendepunkt vor.
Alternativ können wir den Wendepunkt in x1 = 2 auch mit der dritten Ableitung nachweisen: Wir berechnen dazu die dritte Ableitung mit der Produktregel und Kettenregel,
also
′
f ′′′ (x) = (x − 2) e−x = e−x + (x − 2) e−x · (−1) = e−x − x e−x + 2 e−x = (3 − x) e−x ,
und für x1 = 2 finden wir f ′′′ (2) = (3 − 2) e−2 = e−2 > 0. Also hat f einen Wendepunkt
in x1 = 2.
Der Graph der Funktion f (x) = x e−x ist in Abbildung 8.8 gezeichnet.
Abb. 8.8: Der Graph von f (x) = x e−x .
Wir kommen nun auf Beispiel 8.51 zurück, in welchen wir die Funktion f (x) = x4 betrachtet hatten, deren strenges lokales Minimum in x0 = 0 wir bisher nur direkt mit
der Definition eines strengen lokalen Minimums aber bis jetzt nicht über die Analyse der
zweiten und höheren Ableitungen bestimmen können. Der nächste Satz liefert uns eine
Möglichkeit dieses Minimum mit höheren Ableitungen nachzuweisen.
Satz 8.56. (Test für Extrema mit Ableitungen gerader Ordnung) Sei f : (a, b) → R
eine hinreichend oft differenzierbare Funktion und sei x0 ∈ (a, b). Gilt f ′ (x0 ) = 0 und gilt
außerdem
f ′′ (x0 ) = f ′′′ (x0 ) = . . . = f (n−1) (x0 ) = 0
und
f (n) (x0 ) 6= 0
(8.22)
8. Ableitungen und Differenzieren
225
für ein gerades n ≥ 2, dann hat f ein lokales Maximum in x0 , wenn gilt f (n) (x0 ) < 0,
und f hat ein lokales Minimum in x0 , wenn gilt f (n) (x0 ) > 0. (Mit hinreichend oft
”
differenzierbar“ ist gemeint, dass f auf (a, b) so oft differenzierbar ist, dass die Ableitungen
in (8.22) alle existieren.)
Wir bemerken, dass Satz 8.56 den Satz 8.48 als Sonderfall enthält: Ist in Satz 8.56
die gerade Zahl n ≥ 2 die Zahl n = 2, so bekommen wir genau die Aussage von Satz 8.48.
Mit Satz 8.56 können nun auch das Minimum von f (x) = x4 in x0 = 0 mittels höherer
Ableitungen nachweisen.
Beispiel 8.57. (Test für Extrema mit Ableitungen gerader Ordnung) Betrachten wir f : R → R, f (x) = x4 . Wir hatten bereits die erste und zweite Ableitung in
Beispiel 8.51 berechnet und berechnen nun noch die dritte und vierte Ableitung:
f ′ (x) = 4 x3 ,
f ′′ (x) = 12 x2 ,
f ′′′ (x) = 12 · 2 · x = 24 x,
f (4) (x) = 24.
Wir finden also für x0 = 0, dass gilt f ′ (0) = 4 · 03 = 0 und
f ′′ (0) = 12 · 02 = 0,
f ′′′ (0) = 24 · 0 = 0
und
f (4) (0) = 24 > 0.
Da 4 gerade ist können wir den Satz 8.56 anwenden, und wir lesen ab, dass f (x) = x4 in
x0 = 0 ein lokales Minimum hat.
Führen wir abschließend noch eine Kurvendiskussion für ein komplizierteres Beispiel
durch, bei der wir unser neues Wissen anwenden können.
Abb. 8.9: Der Graph von f (x) = x (x − 1)4 .
226
8.5. Extrema und Wendepunkte
Beispiel 8.58. (Kurvendiskussion) Wir wollen die Funktion
f : R → R,
f (x) = x (x − 1)4 ,
analysieren und skizzieren.
Lösung: Das Polynom f (x) = x (x − 1)4 hat die Nullstellen x = 0 und x = 1, d.h. es
schneidet die x-Achse in diesen Punkten.
Wir berechnen nun mit der Produktregel die erste Ableitung von f :
f ′ (x) = (x − 1)4 + x 4 (x − 1)3 = (x − 1)3 (x − 1 + 4 x) = (x − 1)3 (5 x − 1),
und wir sehen, dass f ′ (x) = 0 für x0 = 1/5 und x1 = 1 gilt. Diese beiden Punkte sind
unsere beiden Kandidaten für lokale Extrema.
Wir berechnen nun die zweite Ableitung von f :
′
f ′′ (x) = (x − 1)3 (5 x − 1) = 3 (x − 1)2 (5 x − 1) + (x − 1)3 5
= (x − 1)2 (15 x − 3 + 5 x − 5) = (x − 1)2 (20 x − 8) = 4 (x − 1)2 (5 x − 2).
Wir finden für x0 = 1/5 = 0, 2
′′
f (1/5) = 4
1
−1
5
2
2 1
4
64
16
5· −2 = 4 −
(−1) = −
< 0,
(−1) = 4 ·
5
5
25
25
d.h. f hat ein strenges lokales Maximum
in x0 = 1/5. Die Koordinaten dieses strengen
lokalen Maximums sind 1/5, f (1/5) = (1/5, 44/55 ) ≈ (0, 2, 0, 08).
Für x1 = 1 finden wir dagegen f ′′ (1) = 0.
Wir berechnen nun die dritte Ableitung von f :
′
f (3) (x) = 4 (x − 1)2 (5 x − 2) = 8 (x − 1) (5 x − 2) + 4 (x − 1)2 5
= 4 (x − 1) (10 x − 4 + 5 x − 5) = 4 (x − 1) (15 x − 9) = 12 (x − 1) (5 x − 3),
und wir sehen, dass f (3) (1) = 0 gilt. Wir berechnen nun die vierte Ableitung und finden
′
f (4) (x) = 12 (x − 1) (5 x − 3) = 12 (5 x − 3) + 12 (x − 1) 5
= 12 (5 x − 3 + 5 x − 5) = 12 (10 x − 8) = 24 (5 x − 4).
Nun gilt für x1 = 1
f (4) (1) = 24 (5 − 4) = 24 > 0,
und nach Satz 8.56 wissen wir, dass f in x1 = 1 ein strenges lokales
Minimum annimmt.
Die Koordinaten dieses strengen lokalen Minimums sind 1, f (1) = (1, 0).
Wir wollen nun noch die Wendepunkte der Funktion f bestimmen. Die Gleichung f ′′ (x) = 0
liefert als Kandidaten für Wendepunkte:
f ′′ (x) = 4 (x − 1)2 (5 x − 2) = 0
=⇒
x1 = 1 oder x2 =
2
= 0, 4.
5
8. Ableitungen und Differenzieren
227
Da f in x1 = 1 ein strenges lokales Minimum hat, ist der Punkt x1 = 1 kein Wendepunkt.
In x2 = 2/5 = 0, 4 wechselt die zweite Ableitung f ′′ ihr Vorzeichen, denn (x − 1)2 > 0
für x 6= 1 und (5 x − 2) wechselt sein Vorzeichen in x2 = 2/5. Alternativ können wir die
dritte Ableitung in x2 = 2/5 auswerten:
2
36
2
3
(3)
f (2/5) = 12
· (−1) =
−1
5 · − 3 = 12 · −
6= 0.
5
5
5
5
Also können wir auch an der dritten Ableitung ablesen, dass x2 = 2/5 ein Wende
punkt ist. Die Koordinaten dieses Wendepunktes sind 2/5, f (2/5) = 2/5, (2 · 34)/55 ≈
(0, 4, 0, 05).
Wegen
f ′′ (x) = 4 (x − 1)2 (5 x − 2)
| {z }
≥0
folgt, dass f ′′ (x) < 0 wenn x < 2/5 ist und dass f ′′ (x) > 0 wenn 2/5 < x < 1 oder
x > 1 ist. Also ist f auf (−∞, 2/5) rechtsgekrümmt und auf (2/5, 1) und (1, ∞) jeweils
linksgekrümmt.
Um f gut skizzieren zu können, bestimmen wir noch die uneigentlichen Grenzwerte für x
gegen +∞ und x gegen −∞. Wir haben
2
f (x) = x (x − 1)4 = x (x − 1)2 ,
| {z }
>0
d.h. das Vorzeichen von x bestimmt das Vorzeichen von f (x). Also finden wie die uneigentlichen Grenzwerte
lim f (x) = lim x (x − 1)4 = −∞
x→−∞
x→−∞
und
lim f (x) = lim x (x − 1)4 = +∞.
x→+∞
x→+∞
Wir haben die Funktion f (x) = x (x − 1)4 in Abbildung 8.9 gezeichnet.
8.6
Taylorsche Formel, Taylorreihen und Potenzreihen
Mit der Taylorschen Formel können wir Funktionen lokal in der Umgebung eines Punktes x0 durch ein geeignetes Polynom, das sogenannte Taylorpolynom um x0 angenähert
darstellen, also approximieren.
Satz 8.59. (Taylorsche Formel) Sei f : (a, b) → R eine in (a, b) (n + 1)-mal differenzierbare Funktion, und sei x0 ∈ (a, b). Dann gilt für jedes x ∈ (a, b)
f ′ (x0 )
f ′′ (x0 )
f (n) (x0 )
f (x) = f (x0 ) +
(x − x0 )1 +
(x − x0 )2 + . . . +
(x − x0 )n +rn (x)
1!
2!
n!
|
{z
}
= Tn (f, x0 )(x) = Taylorpolynom von f vom Grad n um x0
228
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
=
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k + rn (x)
mit dem Restterm
rn (x) =
f (n+1) (ξx )
(x − x0 )n+1
(n + 1)!
mit einem von x abhängigen Punkt ξx ∈ (x, x0 ) wenn x < x0 bzw. ξx ∈ (x0 , x) wenn
x > x0 .
Die Taylorpolynome in x0 sind nützlich, um eine Funktion für x dicht bei x0 durch Polynome zu approximieren, d.h. angenähert zu berechnen. Häufig kann man mit der angenäherten Darstellung durch ein Polynom sehr viel einfacher arbeiten und verliert dabei
nur wenig an Genauigkeit. Betrachten wir zunächst ein Beispiel.
Abb. 8.10: Die Graphen von f (x) = ex (schwarz) und seinen Taylorpolynome um x0 = 0
vom Grad n = 1 (rot) und n = 2 (blau) und n = 3 (grün).
8. Ableitungen und Differenzieren
229
Beispiel 8.60. (Approximation von exp(±1/2) mit Taylorpolynomen um x0 = 0)
Wir wollen die (natürliche) Exponentialfunktion exp : R → R, exp(x) = ex , durch ihre
Taylorpolynome vom Grad n = 1, n = 2 und n = 3 um x0 = 0 approximieren und diese
Näherungen benutzen, um exp(1/2) und exp(−1/2) angenähert zu berechnen.
Lösung: Wegen exp′ (x) = (ex )′ = ex = exp(x) finden wir für alle Ableitungen der Exponentialfunktion exp(k) (x) = ex , k ∈ N0 , und damit exp(k) (0) = e0 = 1 für alle k ∈ N0 .
Also finden wir für die Taylorpolynome von exp(x) = ex vom Grad n = 1 und n = 2 um
x0 = 0:
exp′ (0)
x
(x − 0) = 1 + = 1 + x,
1!
1!
′′
′
exp (0)
x
x2
x2
exp (0)
(x − 0) +
(x − 0)2 = 1 + +
= 1+x+
,
T2 (exp, 0)(x) = exp(0) +
1!
2!
1! 2!
2
exp′ (0)
exp′′ (0)
exp(3) (0)
T3 (exp, 0)(x) = exp(0) +
(x − 0) +
(x − 0)2 +
(x − 0)3
1!
2!
3!
2
3
2
3
x
x
x
x
x
= 1+ +
+
=1+x+
+
.
1! 2!
3!
2
6
T1 (exp, 0)(x) = exp(0) +
Einsetzen von x = 1/2 und x = −1/2 liefert die Näherungen
3
1
= = 1, 5,
2
2
1
1
T1 (exp, 0)(−1/2) = 1 − = = 0, 5,
2
2
1 1
8+4+1
13
1 (1/2)2
=1+ + =
=
= 1, 625,
T2 (exp, 0)(1/2) = 1 + +
2
2
2 8
8
8
1 (−1/2)2
1 1
8−4+1
5
T2 (exp, 0)(−1/2) = 1 − +
=1− + =
= = 0, 625,
2
2
2 8
8
8
2
3
(1/2)
1 1
1
1 (1/2)
+
=1+ + +
T3 (exp, 0)(1/2) = 1 + +
2
2
6
2 8 48
48 + 24 + 6 + 1
79
=
=
≈ 1, 6458,
48
48
1 1
1
1 (−1/2)2 (−1/2)3
+
=1− + −
T3 (exp, 0)(−1/2) = 1 − +
2
2
6
2 8 48
29
48 − 24 + 6 − 1
=
≈ 0, 60417.
=
48
48
T1 (exp, 0)(1/2) = 1 +
Ein Vergleich mit den wahren“ (mit dem Taschenrechner berechneten) Werten
”
exp(1/2) = e1/2 ≈ 1, 6487
und
exp(−1/2) = e−1/2 ≈ 0, 60653,
liefert die Fehler
|T1 (exp, 0)(1/2) − exp(1/2)| ≈ |1, 5 − 1, 6487| = 0, 1487,
|T1 (exp, 0)(−1/2) − exp(−1/2)| ≈ |0, 5 − 0, 60653| = 0, 10653,
|T2 (exp, 0)(1/2) − exp(1/2)| ≈ |1, 625 − 1, 6487| = 0, 0237,
230
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
|T2 (exp, 0)(−1/2) − exp(−1/2)| ≈ |0, 625 − 0, 60653| = 0, 01847,
|T3 (exp, 0)(1/2) − exp(1/2)| ≈ |1, 6458 − 1, 6487| = 0, 0029,
|T3 (exp, 0)(−1/2) − exp(−1/2)| ≈ |0, 60417 − 0, 60653| = 0, 00236.
(8.23)
(8.24)
Wir sehen, dass wir bereits für die Taylorpolynome um x0 vom Grad n = 2 und n = 3
ziemlich gute Näherungen für exp(1/2) und exp(−1/2) erhalten. In Abbildung 8.10 haben
wir die Graphen von exp(x) = ex und seinen Taylorpolynome in x0 = 0 vom Grad
n = 1, 2, 3 gezeichnet.
Kommen wir noch einmal zum Satz 8.59 zurück und betrachten wir die Darstellung von
f mit Hilfe des Taylorpolynoms um x0 :
f (x) = Tn (f, x0 )(x) + rn (x) = Tn (f, x0 )(x) +
f (n+1) (ξx )
(x − x0 )n+1
(n + 1)!
|
{z
}
= rn (x)
mit einem Punkt ξx zwischen x und x0 , den wir aber nicht kennen. Damit haben wir für
den Fehler der Annäherung durch das Taylorpolynom Tn (f, x0 )(x)
(n+1)
(ξx )
n+1 f (x) − Tn (f, x0 )(x) = |rn (x)| = f
(n + 1)! (x − x0 ) .
Für x dicht bei x0 können wir diesen Fehler angenähert berechnen, indem wir ξx durch
x0 ersetzen. Damit erhalten wir die folgende Faustregel:
f (n+1) (x0 )
n+1
f (x) − Tn (f, x0 )(x) ≈ für x dicht bei x0 .
(x
−
x
)
0
(n + 1)!
Betrachten wir diese Faustregel für das vorige Beispiel für die Approximation mit T3 (exp, 0)(x).
Beispiel 8.61. (Beispiel 8.60 fortgesetzt) Im Beispiel 8.60 finden wir für die Approximation von exp(±1/2) durch T3 (exp, 0)(±1/2)
4 4 exp(4) (0) 1
1
1 1 exp(1/2) − Tn (f, x0 )(1/2) ≈ −0 =
≈ 0, 0026042,
=
24 2 384
4!
2
4 4 exp(4) (0)
1
1 1
1
exp(−1/2) − Tn (f, x0 )(1/2) ≈ − −0 =
−
≈ 0, 0026042.
=
24
4!
2
2 384
Dies ist in der Tat eine recht gute Abschätzung für die realen Fehler (8.23) und (8.24).
Betrachten wir ein weiteres Beispiel.
Beispiel 8.62. (Approximation von sin(π/10) mit Taylorpolynom um x0 = 0) Wir
wollen sin(π/10) mit Hilfe des Taylorpolynoms von sin : R → R um x0 = 0 vom Grad
n = 3 angenähert berechnen. Wegen
sin′ (x) = cos(x),
sin′′ (x) = − sin(x),
sin(3) (x) = − cos(x),
8. Ableitungen und Differenzieren
231
gilt in x0 = 0
sin(0) = 0,
sin′ (0) = cos(0) = 1,
sin′′ (0) = − sin(0) = 0,
sin(3) (0) = − cos(0) = −1,
und das Taylorpolynom von sin(x) um x0 = 0 vom Grad 3 ist durch
sin′′ (0)
sin(3) (0)
x3
sin′ (0)
1
2
(x − 0) +
(x − 0) +
(x − 0)3 = x −
T3 (sin, 0)(x) = sin(0) +
1!
2!
3!
6
gegeben. Für x = π/10 finden wir
sin(π/10) ≈ 0, 309017
und
T3 (sin, 0)(π/10) =
π
(π/10)3
−
≈ 0, 308992.
10
6
Der Fehler der Approximation ist also
sin(π/10) − T3 (sin, 0)(π/10) ≈ |0, 309017 − 0, 308992| = 2, 5 · 10−5 ,
d.h. wir haben eine sehr gute Approximation.
Wie wichtig es ist, dass x dicht bei x0 liegt, sieht man in diesem Beispiel leicht, wenn man
x = π betrachtet:
sin(π) = 0
und
T3 (sin, 0)(π) = π −
π3
≈ −2, 026120,
6
und es liegt eine sehr schlechte Approximation vor.
Wenn man den Grad des Taylorpolynoms erhöht, so kann man eine bessere Approximation
erhalten: Betrachten wir z.B. wieder x = π und verwenden nun das Taylorpolynom vom
Grad n = 7,
x3 x5 x7
+
−
,
T7 (sin, 0)(π) = x −
3!
5!
7!
so finden wir
π3 π5 π7
+
−
≈ −0, 0752206,
T7 (sin, 0)(π) = π −
3!
5!
7!
was bereits eine deutlich bessere Approximation für sin(π) = 0 ist.
In Abbildung 8.11, haben wir die Graphen von sin(x) und seinen Taylorpolynomen um
x0 = 0 vom Grad n = 3, n = 5 und n = 7 gezeichnet.
Ist eine Funktion f in einem Punkt x = x0 beliebig oft differenzierbar, so können wir
ihre Taylorpolynome Tn (f, x0 ) um x0 von beliebig hohem Grad berechnen. Für n gegen
unendlich erhalten wir dabei eine Reihe, die sogenannte Taylorreihe von f um x0 .
Definition 8.63. (Taylorreihe von f um x0 ) Sei f : (a, b) → R eine Funktion, die auf
(a, b) beliebig oft differenzierbar ist, und sei x0 ∈ (a, b). Dann nennen wir die Reihe
T (f, x0 )(x) =
∞
X
f (k) (x0 )
k=0
die Taylorreihe von f um x0 .
k!
(x − x0 )k
(8.25)
232
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
Abb. 8.11: Die Graphen von sin(x) (schwarz) und seinen Taylorpolynomen um x0 = 0
vom Grad n = 3 (rot), n = 5 (blau) und n = 7 (grün).
Es ist zu beachten, dass es sich bei der Reihe (8.25) um eine Funktion von x handelt. Für
jedes feste x ist (8.25) eine Reihe, wie wir sie in Kapitel 5 betrachtet haben, und für jedes
solche feste x stellt sich die Frage, ob die Reihe konvergiert oder divergiert. Dies kann für
ein festes x mit den üblichen Kriterien für die Konvergenz von Reihen überprüft werden.
Falls die Taylorreihe (8.25) für ein x konvergiert, ist aber nicht gewährleistet, dass für
ein solches x auch T (f, x0 )(x) = f (x) gilt!
Betrachten wir ein paar Beispiele.
Beispiel 8.64. (Taylorreihe von exp(x) = ex um x0 = 0) Wir wollen die Taylorreihe
der Exponentialfunktion exp(x) = ex in x0 = 0 berechnen.
Wegen (ex )′ = ex finden wir
exp(k) (x) =
dk ex
= ex ,
k
dx
k = 0, 1, 2, 3, . . . ,
8. Ableitungen und Differenzieren
233
und somit in x0 = 0
exp(k) (0) = e0 = 1,
k = 0, 1, 2, 3, . . . .
Daher ist die Taylorreihe von exp(x) = ex in x0 = 0 durch
T (exp, 0)(x) =
∞
X
exp(k) (0)
k!
k=0
(x − 0)k =
∞
X
1 k
x2 x3 x4
x =1+x+
+
+
+ ....
k!
2!
3!
4!
k=0
gegeben. Man kann zeigen, dass diese Taylorreihe für jedes x ∈ R gegen den Funktionswert
exp(x) = ex konvergiert.
Beispiel 8.65. (Taylorreihe von sin(x) um x0 = 0) Wir wollen die Taylorreihe von
sin(x) um x0 = 0 berechnen.
Wir berechnen die ersten vier Ableitungen von sin(x) und erhalten
sin′ (x) = cos(x),
sin′′ (x) = − sin(x),
sin(3) (x) = − cos(x),
sin(4) (x) = sin(x).
Wenn wir analog weiter differenzieren, so finden wir, dass alle Ableitungen gerader Ordnung k = 2ℓ, ℓ = 0, 1, 2, 3, . . . , durch
sin(2ℓ) (x) = (−1)ℓ sin(x).
(8.26)
gegeben sind. Analog finden wir, dass alle Ableitungen ungerader Ordnung k = 2ℓ + 1,
ℓ = 0, 1, 2, 3, . . . , durch
sin(2ℓ+1) (x) = (−1)ℓ cos(x).
(8.27)
gegeben sind. Die Berechnung von sin(x) und seiner Ableitungen in x0 = 0 liefert
sin′ (0) = cos(0) = 1,
sin(0) = 0,
sin(3) (0) = − cos(0) = −1,
sin′′ (0) = − sin(0) = 0,
sin(4) (0) = sin(0) = 0,
....
Mit den allgemeinen Formeln (8.26) und (8.27) erhält man
sin(2ℓ) (0) = (−1)ℓ sin(0) = 0
für alle ℓ = 0, 1, 2, 3 . . . ,
sin(2ℓ+1) (0) = (−1)ℓ cos(0) = (−1)ℓ · 1 = (−1)ℓ
für alle ℓ = 0, 1, 2, 3 . . . .
Wir sehen, dass alle Ableitungen gerader Ordnung Null sind. Daher ist die Taylorreihe
von sin(x) um x0 = 0 durch
T (sin, 0)(x) =
∞
X
sin(k) (0)
k=0
= x−
k!
(x − 0)k =
∞
X
sin(2ℓ+1) (0)
ℓ=0
(2ℓ + 1)!
x3 x5 x7 x9 x11
+
−
+
−
+ ....
3!
5!
7!
9!
11!
(x − 0)2ℓ+1 =
∞
X
(−1)ℓ 2ℓ+1
x
(2ℓ
+
1)!
ℓ=0
gegeben. Mann kann zeigen, dass die Taylorreihe von sin(x) um x0 = 0 für jedes x ∈ R
gegen sin(x) konvergiert.
234
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
Beispiel 8.66. (Taylorreihe von ln(x) um x0 = 1) Wir wollen die Taylorreihe von
ln(x) um x0 = 1 berechnen.
Wir berechnen die Ableitungen von ln(x) und erhalten
ln′ (x) =
1
,
x
ln′′ (x) =
(−1)
,
x2
ln(3) (x) =
2!
,
x3
...,
ln(k) (x) =
(−1)k−1 (k − 1)!
.
xk
Auswerten in x0 = 1 liefert
ln′ (1) = 1 = 0!,
ln(1) = 0,
ln′′ (1) = −1 = −1!,
ln(3) (1) = 2!
und im allgemeinen Fall
ln(k) (1) = (−1)k−1 (k − 1)!
für alle k = 1, 2, 3, . . . .
Daher ist die Taylorreihe von ln(x) um x0 = 1 durch
T (ln, 1)(x) =
∞
X
ln(k) (1)
k=0
k!
= (x − 1) −
(x − 1)k =
∞
X
(−1)k−1 (k − 1)!
k=1
k!
(x − 1)k =
1
1
1
(x − 1)2 + (x − 1)3 − (x − 1)4 + . . . .
2
3
4
∞
X
(−1)k−1
k=1
k
(x − 1)k
gegeben. Man kann zeigen, dass die Taylorreihe von ln(x) um x0 = 1 für jedes x mit
|x − 1| < 1 gegen ln(x) konvergiert und dass die Reihe für alle x mit |x − 1| > 1 divergiert.
Taylorreihen sind in Anwendungen vor allem deswegen wichtig, weil ihre Partialsummen
die Taylorpolynome sind. Konvergiert die Taylorreihe einer beliebig oft differenzierbaren
Funktion f in x0 für ein x gegen den Funktionswert f (x), so wissen wir dass die Taylorpolynome Tn (f, x0 )(x) eine immer besser werdende Approximation für f (x) liefern, wenn
wir ihren Grad n erhöhen.
Taylorpolynome sind ein Spezialfall der sogenannten Potenzreihen, die wir hier kurz definieren, aber auf die wir nicht weiter im Detail eingehen.
Definition 8.67. (Potenzreihe um x0 ) Eine Potenzreihe um x0 ist eine Reihe
∞
X
k=0
ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . + ak (x − x0 )k + . . .
(8.28)
mit Koeffizienten a0 , a1 , . . . , ak , . . . ∈ R. Die Potenzreihe ist also eine Funktion mit der
Variable x ∈ R. Dabei ist die Reihe (8.28) zunächst formal definiert, ohne dass wir Annahmen über die Konvergenz dieser Reihe machen.
Die in den Beispielen 8.64, 8.65 und 8.66 berechneten Taylorreihen sind Beispiele für
Potenzreihen.
Kapitel 9
Integration
In diesem Kapitel werden wir zunächst das bestimmte Integral einer nicht-negativ-wertigen
Funktion als die Fläche unter dem Graphen (d.h. zwischen dem Graphen und der x-Achse)
betrachten. Wir werden diese Fläche durch Ausschöpfung mit immer schmaler werdenden
Rechtecken berechnen. Dann verallgemeinern wir zu der Situation, wenn die Funktion
positive und negative Funktionswerte annimmt. Danach lernen wir die grundlegenden
Eigenschaften des Integrals kennen und führen den Mittelwertsatz der Integralrechnung
ein.
Anschließend stellen wir mit dem Hauptsatz der der Differential- und Integralrechnung
den Zusammenhang zwischen einerseits einer Funktion und ihrer Ableitung und andererseits einer Funktion und ihrem unbestimmten Integral, also einer Stammfunktion, her.
Damit können wir nun unser Wissen über die Ableitung benutzen, um Integrale zu berechnen. Wir nutzen die Rechenregeln für die Differentiation, um Rechenregeln für die
Ableitung herzuleiten und erhalten die partielle Integration aus der Produktregel und die
Substitutionsregel aus der Kettenregel. Wir lernen sodann einige Standardsubstitutionen
und die Methode der Partialbruchzerlegung zur Integration rationaler Funktionen kennen.
Zuletzt betrachten wir uneigentliche Integrale.
9.1
Das bestimmte Integral
Der Ausgangspunkt zur Berechnung von Integralen sind Probleme der Flächenberechnung: Berechne die Fläche zwischen dem Graphen einen Funktion f : Df → R und
der x-Achse im Bereich a ≤ x ≤ b, wobei [a, b] ⊂ Df und Df ⊂ R. Der Einfachheit halber
nehmen wir zunächst an, dass gilt f (x) ≥ 0 für alle x ∈ [a, b]. Wir erklären zunächst die
grundlegende geometrische Idee zur angenäherten Berechnung der Fläche zwischen dem
Graphen und der x-Achse von x = a bis x = b.
Grundlegende geometrische Idee zur angenäherten Berechnung der Fläche:
Wir approximieren die Fläche zwischen dem Graphen der Funktion f und der
x-Achse von x = a bis x = b folgendermaßen durch Rechtecke:
235
236
9.1. Das bestimmte Integral
y
111
000
000
111
0000
1111
00
11
00011
111
0000
1111
0000
1111
00
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000111
1111
0000
1111
00
11
00
000 11
f (x)
ξ1
a = x0
ξ2
x1
ξ4
ξ3
x2
x3
ξ5
x4
x
b = x5
Abb. 9.1: Die Fläche zwischen der Funktion f und der x-Achse von x = a bis x = b wird
mit geeigneten Rechtecken abgedeckt. Die Summe der Flächen dieser Rechtecke ergibt eine
Näherung (Approximation) für diese Fläche zwischen der Funktion f und der x-Achse von
x = a bis x = b, also für den Wert des Integrals. Wenn man die Rechtecke immer schmaler
macht (und damit immer mehr Rechtecke verwendet), so wird der angenäherte Wert für
die Fläche zwischen der Funktion f und der x-Achse von x = a bis x = b genauer, wenn
die Funktion hinreichend glatt“, z.B. stetig, ist.
”
• Wir zerlegen [a, b] in n Teilintervalle:
a = x0 < x1 < x2 < . . . < xn = b.
Dann heißt Z = (x0 , x1 , x2 , . . . , xn ) eine Zerlegung von [a, b].
• Wir wählen aus jedem Teilintervall [xi−1 , xi ] eine Zwischenstelle ξi ∈ [xi−1 , xi ].
• Wir verwenden als Näherung für den Flächeninhalt zwischen dem Graphen der Funktion
f und der x-Achse über der Grundfläche [xi−1 , xi ] die Rechteckfläche f (ξi ) · (xi − xi−1 )
(vgl. Abbildung 9.1).
• Dies liefert als Näherung für die Gesamtfläche die Zerlegungssumme (Riemannsumme)
n
X
S(Z, ξ) =
f (ξi ) · (xi − xi−1 ),
(9.1)
i=1
wobei ξ = (ξ1 , ξ2 , . . . , ξn ) für den Vektor der Zwischenstellen steht. – Bei dem Beispiel
in Abbildung 9.1 haben wir beispielsweise eine Zerlegung Z mit 6 Punkten a = x0 <
x1 < x2 < x3 < x4 < x5 = b und entsprechend 5 Teilintervallen [xi−1 , xi ], i = 1, 2, 3, 4, 5,
9. Integration
237
gewählt. Die Fläche zwischen dem Graphen und der x-Achse für a ≤ x ≤ b wird somit
angenähert durch die Summe der Flächeninhalte der 5 Rechtecke in Abbildung 9.1.
– Es ist klar, dass dieser Näherungswert für die Fläche zwischen dem Graphen und
der x-Achse sowohl von der Zerlegung Z als auch von der Wahl der Zwischenstellen ξi
abhängt.
Grenzwertbildung zur exakten Berechnung der Fläche:
Wir überlegen uns nun, dass sich die Näherung (Approximation) der Fläche zwischen dem
Graphen und der x-Achse von x = a bis x = b verbessern sollte, wenn wir die Teilintervalle [xi−1 , xi ] kleiner machen und dabei natürlich auch Zerlegungen Z = (x0 , x1 , x2 , . . . , xn )
mit immer mehr Punkten xi verwenden. Wenn die Länge der größten Teilintervalls
[xi−1 , xi ] gegen Null strebt, dann erwarten wir, dass für hinreichend glatte“ (z.B. ste”
tige) Funktionen die Summe der Rechteckflächen gegen die Fläche zwischen dem
Graphen und der x-Achse von x = a bis x = b strebt. Wir versuchen dies nun
mathematisch zu formulieren:
• Unter der Feinheit ℓ(Z) einer Zerlegung Z = (x0 , x1 , x2 , . . . , xn ) versteht man die
Länge des größten Teilintervalls, d.h.
ℓ(Z) = max (xi − xi−1 ).
i=1,2,...,n
(k)
(k)
(k)
(k) • Wir betrachten nun Folgen (Zk )k∈N von Zerlegungen Zk = x0 , x1 , x2 , . . . , xnk , für
die gilt, dass ℓ(Zk ) → 0 wenn k → ∞. Dabei hat Zk nk +1 Punkte und nk Teilintervalle.
• Lässt sich der Flächeninhalt zwischen dem Graphen und der x-Achse von x = a bis
x = b sinnvoll berechnen, so sollte für jede solche Folge (Zk )k∈N von Zerlegungen Zk
(k) (k)
(k) mit einer zugehörigen Folge (ξ k )k∈N von Zwischenstellen ξ k = ξ1 , ξ2 , . . . , ξnk gelten,
dass
Fläche zwischen dem Graphen von f
lim S(Zk , ξ k ) =
,
und der x-Achse von x = a bis x = b
k→∞
wobei die S(Zk , ξ k ) die Riemannsummen (vgl. (9.1)) der Zerlegungen Zk mit den zugehörigen Zwischenstellen ξk sind.
Nach diesen Vorbereitungen können wir die Definition des Integral nun gut verstehen.
Definition 9.1. (integrierbar und bestimmtes Integral) Sei f : [a, b] → R beschränkt. Dann heißt f integrierbar über das Intervall [a, b], wenn für jede Folge
(k)
(k)
(k)
(k) (Zk )k∈N von Zerlegungen Zk = x0 , x1 , x2 , . . . , xnk von [a, b] mit limk→∞ ℓ(Zk ) = 0
(k) (k)
(k) und für jede beliebige Wahl von Zwischenstellen
ξ k = ξ1 , ξ2 , . . . , ξnk für Zk die Fol
ge der Zerlegungssummen S(Zk , ξ k ) k∈N stets konvergent ist und immer denselben
Grenzwert besitzt. Dieser Grenzwert heißt das bestimmte Integral von f über [a, b]
und wird mit
Z
b
f (x) dx
a
bezeichnet.
238
9.1. Das bestimmte Integral
Die folgende Bemerkung hält wichtige Beobachtungen fest, die uns bei der Berechnung
des Integrals mit Hilfe von Definition 9.1 helfen.
Bemerkung 9.2. (Berechnung von Integralen)
(1) Wenn f auf [a, b] integrierbar ist, kann man zur Berechnung von
Z
b
f (x) dx
a
möglichst günstige Zerlegungen und Zwischenstellen verwenden.
(2) Die Bezeichnung der Integrationsvariablen ist willkürlich! Zum Beispiel ist
Z
b
f (x) dx =
a
Z
b
f (t) dt.
a
(3) Die obige Definition 9.1 macht keine Einschränkung an die Funktionswerte, außer
dass diese |f (x)| ≤ S für alle x ∈ [a, b] mit einer Schranke S erfüllen (da f auf [a, b]
beschränkt ist). Die Einschränkung f (x) ≥ 0 unserer geometrischen, anschaulichen
Erklärung wird in Definition 9.1 nicht vorausgesetzt.
Der folgende Satz gibt eine wichtige hinreichende Bedingung für die Integrierbarkeit.
Satz 9.3. (stetig ⇒ integrierbar) Sei f : [a, b] → R stetig. Dann ist f über [a, b]
integrierbar.
Betrachten wir einige einfache Beispiele.
Beispiel 9.4. (bestimmtes Integral einer konstanten Funktion) Sei f : R → R
eine konstante Funktion f (x) = c für alle x ∈ R mit einer Konstante c.
• Diese Funktion ist beschränkt und stetig auf R und somit nach Satz 9.3 über jedes
Intervall [a, b] integrierbar.
• Wir vermuten wegen der Interpretation des Integrals als Fläche zwischen dem Graphen
und der x-Achse von x = a bis x = b, dass gelten sollte
Z
b
a
f (x) dx = c · (b − a).
• Betrachten wir nun sogenannte äquidistante Zerlegungen (Zk )k∈N von [a, b] (also Zerlegungen mit gleichen Abständen der Punkte xi ), d.h. die Zerlegung Zk lieft einer Zerlegung von [a, b] in nk = k Teilintervalle der Länge (b−a)/k. Die Punkte der äquidistanten
Zerlegung sind also
(k)
xi
=a+i·
(b − a)
,
k
i = 0, 1, 2, . . . , n,
9. Integration
239
(k)
und wir wählen die Zwischenstellen ξi
S(Zk , ξ k ) =
k
X
(k)
(k)
(k)
f (ξi ) · xi − xi−1 ) =
| {z } |
{z
}
= c = (b − a)/k
i=1
(k)
= xi . Dann gilt
k
X
i=1
k
c·
X1
(b − a)
= c · (b − a).
= c · (b − a) ·
k
k
i=1
| {z }
=1
Also erhalten wir, wie vermutet,
Z b
Z b
f (x) dx =
c dx = lim S(Zk , ξ k ) = lim c · (b − a) = c · (b − a).
a
k→∞
a
k→∞
Beispiel 9.5. (bestimmtes Integral der Standardparabel) Wir wollen
Z b
x2 dx
mit b > 0
(9.2)
0
berechnen.
• Da die Standardparabel f (x) = x2 auf R stetig ist, ist die Standardparabel nach Satz 9.3
über [0, b] integrierbar, und das Integral (9.2) existiert.
• Wir verwenden hier wieder äquidistante Zerlegungen Zk in nk = k Teilintervalle gleicher
Länge, also
b
(k)
xi = i · ,
i = 0, 1, 2, . . . , k.
k
(k)
Als Zwischenstellen verwenden wir ξi
S(Zk , ξ k ) =
k
X
i=1
(k)
f (ξi )
(k)
· (xi
| {z }
|
2
b
= i·
k
(k)
= xi . Dann erhält man
2
3 X
k k
k
X
b
b3 X 2
b
b
2
i·
=
i = 3
i.
=
k
k
k
k i=1
} i=1
i=1
(k)
xi−1 )
−
{z
b
=
k
Mit vollständiger Induktion kann man zeigen, dass gilt:
k
X
i=1
i2 =
1
k (k + 1) (2k + 1).
6
Damit folgt
3
3 X
k
b
b
1
2
i = lim
lim S(Zk , ξ k ) = lim
k (k + 1) (2k + 1)
k→∞ k
k→∞
k→∞ k
6
i=1
1
1 3 k (k + 1) (2k + 1)
1
= b3 2 = b3 .
b
k→∞ 6
k · {z
k·k
3
} 6
|
→ 2 wenn k → ∞
= lim
• Also finden wir
Z
b
x2 dx =
0
1 3
b.
3
240
9.1. Das bestimmte Integral
Beispiel 9.6. (bestimmtes Integral von 1/x) Wir wollen das bestimmte Integral
Z b
1
dx
für ein festes beliebiges b > 1
1 x
berechnen.
• Die Funktion f (x) = 1/x ist für x > 0 stetig und somit über jedes Intervall [1, b] mit
b > 1 integrierbar.
• Hier nützen uns die äquidistanten Zerlegungen wenig. Statt dessen wählen wir die
(k)
Zerlegungen Zk in nk = k Teilintervalle mit xi = bi/k , i = 0, 1, 2, . . . , k, und die
(k)
(k)
Zwischenstellen ξi = xi−1 = b(i−1)/k . Dann erhält man
S(Zk , ξk ) =
k
X
(k)
f (ξi )
i=1
=
k
X
·
−(i−1)/k
b
i=1
(k)
xi
−
i/k
· b
(k) xi−1
=
(i−1)/k
−b
k
X
i=1
=
1
b(i−1)/k
k
X
i=1
· bi/k − b(i−1)/k
b1/k − 1 = k · b1/k − 1 .
Nun bilden wir den Grenzwert für k → ∞
b1/k − 1
lim S(Zk , ξk ) = lim k · (b1/k − 1) = lim
.
k→∞
k→∞
k→∞
1/k
(9.3)
Da (1/k)k∈N für k → ∞ gegen Null strebt, können wir nun in (9.3) auch 1/k durch x ersetzen und statt dem Grenzwert für k → ∞ entsprechend den rechtsseitigen Grenzwert
für x → 0+ betrachten. Also
b1/k − 1
bx − 1
(eln(b) )x − 1
= lim+
= lim+
k→∞
x→0
x→0
1/k
x
x
lim S(Zk , ξk ) = lim
k→∞
ln(b) eln(b)·x
ln(b) e0
eln(b)·x − 1
= lim+
=
= ln(b),
= lim+
x→0
x→0
x
1
1
wobei im vorvorletzten Schritt die Regel von de l’Hôspital verwendet wurde, da
und
lim+ x = 0.
lim+ eln(b)·x − 1 = 0
x→0
x→0
• Also finden wir
Z
1
b
1
dx = ln(b).
x
Im Schulunterricht wurden Integrale möglicherweise mit Unter- und Obersummen eingeführt. Dies führt zu einer äquivalenten Definition des Integrals, wie es in der folgenden
Bemerkung erklärt ist.
Bemerkung 9.7. (Untersummen und Obersummen) Wählt man die Zwischenstellen ξi ∈ [xi−1 , xi ], so dass
f (ξi ) = min f (x)
x∈[xi−1 ,xi ]
9. Integration
241
gilt, so erhält man die Untersumme U(Z) für die Zerlegung Z. Entsprechend bekommt
man die Obersumme O(Z), wenn man Zwischenstellen ξi ∈ [xi−1 , xi ] mit
f (ξi ) =
max
x∈[xi−1 ,xi ]
f (x)
verwendet. Geometrisch entspricht dies der Verwendung eingeschriebener“ bzw. umbe”
”
schriebener“ Rechtecke (siehe Abbildung 9.2). Es gilt für jede Wahl der Zwischenstellen
ξ = (ξ1 , ξ2 , . . . , ξn )
U(Z) ≤ S(Z, ξ) ≤ O(Z).
In Definition 9.1 kann man daher äquivalent auch verlangen, dass
für jede
Folge von Zerlegungen (Zk )k∈N die zugehörige Folge der Untersummen U(Zk ) k∈N und die
zugehörige Folge der Obersummen O(Zk ) k∈N stets konvergent sind und immer denselben
gemeinsamen Grenzwert haben.
y
O(Z)
000
111
1111
0000
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000 11
1111
0011
00
a = x0
x1
x2
x3
x4
U(Z)
b = x5
x
Abb. 9.2: Illustration der Idee der Untersumme U(Z)und der Obersumme O(Z).
9.2
Eigenschaften des bestimmten Integrals
Als erstes verallgemeinern wir unsere geometrische Interpretation des bestimmten
Integrals
Z b
f (x) dx
a
als Fläche zwischen dem Graphen der Funktion und der x-Achse von x = a bis
x = b zu der Situation, wenn f (x) auf [a, b] sowohl positive wie negative Werte annimmt:
242
9.2. Eigenschaften des bestimmten Integrals
• Ist f : [a, b] → R integrierbar mit f (x) ≥ 0 auf [a, b], so ist das bestimmte Integral
Z b
f (x) dx
a
die Fläche zwischen dem Graphen von f und der x-Achse von x = a bis x = b.
• Für eine integrierbare Funktion f : [a, b] → R mit f (x) ≤ 0 für alle x ∈ [a, b] gilt, dass
−f (x) ≥ 0 für alle x ∈ [a, b] ist, und wir erwarten, dass −f auch über [a, b] integrierbar
ist. Nach dem vorigen Fall erwarten wir dann, dass die Fläche zwischen dem Graphen
von −f und der x-Achse von x = a bis x = b durch
Z b
Z b
− f (x) dx = −
f (x) dx
(9.4)
a
a
gegeben ist. Dies ist auch korrekt. Genau genommen muss man sich noch überlegen,
warum man das Minus-Zeichen aus dem bestimmten Integral herausziehen darf. Dies
sieht man aber leicht mit der Definition 9.1 des bestimmten Integrals, weil man das
Vorzeichen aus den Zerlegungssummen herausziehen kann. Aus (9.4) erhält man nun
Z b
Z b
f (x) dx = −
− f (x) dx.
a
a
Also können wir das Integral von x = a bis x = b als (−1) mal die Fläche zwischen
dem Graphen der Funktion und der x-Achse von x = a bis x = b interpretieren
(wenn wir die Fläche als positiv betrachten).
• Für integrierbare Funktionen f : [a, b] → R mit positiven und negativen Werten auf
[a, b], gilt die folgende Interpretation des Integrals
Z b
f (x) dx = Fläche der Bereiche oberhalb der x-Achse
a
− Fläche der Bereiche unterhalb der x-Achse
Dies ist in Abbildung 9.3 illustriert.
Als nächstes halten wir die grundlegenden Eigenschaften des bestimmten Integrals fest.
Alle diese Eigenschaften kann man mit Hilfe der Definition 9.1 des Integrals mit den
Zerlegungssummen nachweisen.
Satz 9.8. (Eigenschaften des (bestimmten) Integrals)
(i)
Zerlegen“ des Integrals: Ist f über [a, b] integraierbar, so können wir das In”
tegral über [a, b] in die Summe der Integrale über [a, c] bzw. [c, b] (wobei a < c < b)
zerlegen, also
Z b
Z c
Z b
f (x) dx =
f (x) dx +
f (x) dx
für alle c ∈ (a, b).
(9.5)
a
a
c
Ist f über [a, c] und [c, d] integrierbar, wobei a < c < b, so ist f auch über [a, b]
integrierbar, und es gilt (9.5)
9. Integration
243
y
1111111111111
0000000000000
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
+
+
a
b
−
x
Abb. 9.3: Geometrische Interpretation des Integrals
(ii) Linearität des Integrals: Seien f und g über [a, b] integrierbar. Für alle Konstanten α, β ∈ R gilt
Z b
Z b
Z b
α f (x) + β g(x) dx = α
f (x) dx + β
g(x) dx.
a
a
a
(iii) Monotonie des Integrals: Seien f und g über [a, b] integrierbar. Aus f (x) ≤ g(x)
auf [a, b] folgt
Z b
Z b
f (x) dx ≤
g(x) dx.
a
a
(iv) Abschätzung: Sei f über [a, b] integrierbar. Dann gilt
Z b
Z b
≤
f
(x)
dx
|f (x)| dx.
a
a
Betrachten wir ein Beispiel.
Beispiel 9.9. (bestimmtes Integral der Signum-Funktion) Wir wollen (wenn möglich)
das bestimmte Integral
Z
2
sgn(x) dx
−2
der Signum-Funktion
berechnen.

 −1
0
sgn(x) =

+1
wenn x < 0,
wenn x = 0,
wenn x > 0,
244
9.2. Eigenschaften des bestimmten Integrals
Dazu berechnen wir die beiden bestimmten Integrale
Z
Z
0
sgn(x) dx
und
−2
2
sgn(x) dx.
0
Sofern diese existieren, wissen wir nach Satz 9.8 (i), dass f über [−2, 2] integrierbar ist
und dass gilt
Z 2
Z 0
Z 2
sgn(x) dx =
sgn(x) dx +
sgn(x) dx.
−2
−2
0
Der Funktionswert f (x0 ) an einem einzelnen Punkt x0 hat alleine keinen Einfluss auf dem
Wert des Integrals, und wir dürfen die Funktion daher an einzelnen Punkten ändern, ohne
dass sich der Wert des Integrals ändert. Also können wir zur Berechnung des Integrals
über [−2, 0] der Funktion sgn(x) im Punkt x0 = 0 den neuen Wert −1 zuweisen und
finden
Z 0
Z 0
sgn(x) dx =
(−1) dx = (−1) · 0 − (−2) = −2.
−2
Analog finden wir
−2
Z
2
sgn(x) dx =
0
Z
0
2
1 dx = 1 · (2 − 0) = 2.
Daher gilt nach (9.5) aus Satz 9.8 (i)
Z
2
sgn(x) dx =
−2
Z
0
sgn(x) dx +
−2
Z
2
sgn(x) dx = −2 + 2 = 0.
0
Dies stimmt mit unserer Anschauung überein: Die Flächen unterhalb und oberhalb des
Graphen kompensieren sich gerade.
Was wir in dem vorigen Beispiel gesehen haben, halten wir allgemein als Bemerkung fest.
Bemerkung 9.10. (Integration stückweise stetiger Funktionen)
(1) Sei f : [a, b] → R eine integrierbare Funktion, und sei g : [a, b] → R eine weitere
Funktion, die sich von f nur in endlich vielen Punkten unterscheidet. Dann
ist g ebenfalls integrierbar, und es gilt
Z
a
b
f (x) dx =
Z
b
g(x) dx.
a
Die Funktionswerte in endlich vielen Punkten ändern den Wert des Integrals also nicht.
(2) Eine Funktion f : [a, b] → R heißt stückweise stetig, wenn die folgenden drei
Bedingungen alle gelten: (i) Man kann das Intervall [a, b] in endlich viele Intervalle
zerlegen, also
[a, b] = [x0 , x1 ] ∪ [x1 , x2 ] ∪ [x2 , x3 ] ∪ . . . ∪ [xn−1 , xn ]
9. Integration
245
mit a = x0 < x1 < x2 < x3 < . . . < xn−1 < xn = b. (ii) f ist auf jedem der offenen Intervalle (x0 , x1 ), (x1 , x2 ), (x2 , x3 ), . . . , (xn−1 , xn ) stetig. (iii) Die einseitigen
Grenzwerte von f in den Endpunkten dieser Intervalle existieren und sind endlich.
Die Kombination von Satz 9.3 mit Satz 9.8 (i) zeigt, dass alle stückweise stetigen
Funktionen integrierbar sind. Genauer können wir mit (9.5) aus Satz 9.8 das
Integral wie folgt zerlegen
Z
b
f (x) dx =
a
Z
x1
f (x) dx +
a
Z
x2
f (x) dx +
Z
x3
f (x) dx + . . . +
x2
x1
Z
b
f (x) dx.
xn−1
In einer weiteren Bemerkung halten wir eine Verallgemeinerung von (9.5) in Satz 9.8 (i)
fest.
Bemerkung 9.11. (Verallgemeinerung von (9.5) in Satz 9.8) Formel (9.5) in Satz
9.8 (i) bleibt für beliebiges c richtig, falls die Teilintegrale alle existieren. Dabei definiert
man
Z
Z
Z
a
b
f (x) dx = 0
und
a
a
a
f (x) dx = −
f (x) dx für a > b.
b
Als letztes Resultat in diesem Teilkapitel lernen wir den Mittelwertsatz der Integralrechnung für stetige Funktionen kennen.
y
1
0
00
11
00000000000
11111111111
0
1
00
11
00000000000
11111111111
0
1
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
1
0
1
0
1
0
00000000000
11111111111
Rechteck gleicher
Fläche
a
Z
ξ
b
b
f (x) dx
a
x
Abb. 9.4: Geometrische Bedeutung des Mittelwertsatzes der Integralrechnung für stetige
Funktionen: Die Fläche zwischen der x-Achse und dem Graphen der Funktion f (x) (im
Bereich a ≤ x ≤ b) ist gleich der Rechteckfläche über [a, b] mit der Höhe f (ξ) für eine
geeignete Zwischenstelle ξ ∈ (a, b).
246
9.3. Zusammenhang zwischen Differential- und Integralrechnung
Satz 9.12. (Mittelwertsatz der Integralrechnung) Sei f : [a, b] → R stetig. Dann
gibt es ein ξ ∈ (a, b) mit
Z b
f (x) dx = f (ξ) · (b − a).
a
Die geometrische Bedeutung des Mittelwertsatzes der Integralrechnung ist in Abbildung 9.4 illustriert und erklärt.
Ebenso wie der Mittelwertsatz der Differentialrechnung ist der Mittelwertsatz der Integralrechnung vor allem für theoretische Überlegungen interessant.
9.3
Zusammenhang zwischen Differential- und Integralrechnung
Der Hauptsatz der Differential- und Integralrechnung beantwortet die Frage, wie man ein
(bestimmtes) Integral
Z b
f (x) dx
a
ohne eine Betrachtung von Zerlegungssummen leicht berechnen kann. Dieser Satz stellt
eine Verbindung zwischen dem Integral (oder genauer dem noch zu definierenden unbestimmten Integral) und der Ableitung her.
Satz 9.13. (Hauptsatz der Differential- und Integralrechnung)
(i) Sei f : [a, b] → R stetig, x0 ∈ [a, b] ein beliebiger fester Punkt und
F (x) =
Z
x
x0
f (t) dt
für alle x ∈ [a, b].
(9.6)
Dann ist die Funktion F : [a, b] → R differenzierbar, und es gilt F ′ (x) = f (x) für
x ∈ [a, b].
(ii) Sei F : [a, b] → R eine stetig differenzierbare Funktion (d.h. F ist differenzierbar und
ihre Ableitung F ′ ist stetig) mit der Ableitung f (x) = F ′ (x) für x ∈ [a, b]. Dann gilt
Z
a
b
b
f (x) dx = F (b) − F (a) = F (x) .
a
b
Bei F (x)a handelt es sich um eine Kurznotation für F (b) − F (a).
Betrachten wir zunächst ein Beispiel, um uns die Nützlichkeit des Hauptsatzes der Differentialund Integralrechnung klar zu machen.
9. Integration
247
Beispiel 9.14. (Anwendung des Hauptsatzes der Differential- und Integralrechnung) Wir wollen das bestimmte Integral
Z
2
x3 dx
−3
über die stetige Funktion f (x) = x3 berechnen. Wir wissen aus Kapitel 8, dass gilt (x4 )′ =
4 x3 und somit (x4 /4)′ = x3 . Also wissen wir nach Satz 9.13 (ii), dass mit F (x) = x4 /4
und f (x) = F ′ (x) = x3 gilt
2
24 (−3)4
16 81
65
x4 =
−
=
−
=−
.
x dx =
4 −3
4
4
4
4
4
−3
Z
2
3
Da der Hauptsatz der Differential- und Integralrechnung einer der zentralen Sätze der
Analysis ist und sein Beweis instruktiv ist, zeigen wir auch den Beweis.
Beweis von Satz 9.13. Wir nutzen unsere bisherigen Erkenntnisse über das Integral.
(i) Wir wollen den Differenzenquotienten F (x + h) − F (x) /h berechnen, und berechnen
dazu zuerst F (x + h) − F (x). Nach (9.5) in Satz 9.8 (i) gilt
F (x + h) − F (x) =
Z
x+h
x0
f (t) dt −
Z
x
f (t) dt =
x0
Z
x+h
f (t) dt,
x
wobei wir (9.5) in Satz 9.8 (i) mit einer beliebigen Stelle c (mit nicht notwendigerweise
a < c < b) verwendet haben (vgl. auch Bemerkung 9.11).
Nach dem Mittelwertsatz der Integralrechnung (siehe Satz 9.12) gibt es eine Stelle ξ
zwischen x und x + h mit
Z x+h
F (x + h) − F (x) =
f (t) dt = f (ξ) · (x + h) − x = f (ξ) · h.
x
Dabei hängt ξ von h (und x) ab, also ξ = ξ(h). Division durch h liefert eine Darstellung
des Differenzenquotienten
1
F (x + h) − F (x)
=
h
h
Z
x+h
f (t) dt = f (ξ).
x
Wegen x < ξ(h) < x + h für h > 0 bzw. x + h < ξ(h) < x für h < 0 gilt ξ(h) → x für
h → 0. Daher folgt somit
F (x + h) − F (x)
= lim f ξ(h) = f (x),
h→0
h→0
h
lim
da f nach Voraussetzung stetig ist. Also existiert F ′ (x), und es ist F ′ (x) = f (x).
(ii) Wir definieren
G(x) =
Z
a
x
f (t) dt.
248
9.3. Zusammenhang zwischen Differential- und Integralrechnung
Dann ist
G(a) =
Z
a
f (t) dt = 0
und
G(b) =
a
Z
b
f (t) dt =
a
Z
b
f (x) dx.
(9.7)
a
Nach Teil (i) dieses Satzes ist G : [a, b] → R differenzierbar mit der Ableitung G′ (x) =
f (x). Also folgt
(F − G)′ (x) = F ′ (x) − G′ (x) = f (x) − f (x) = 0
für alle x ∈ [a, b].
(9.8)
Nach (iv) in Satz 8.37 ist F −G wegen (9.8) eine konstante Funktion, also F (x)−G(x) = c
für eine Konstante c ∈ R. Insbesondere ist F (a) − G(a) = F (b) − G(b) = c, und damit
folgt durch Umsortieren und Ausnutzen von (9.7)
Z b
Z b
F (b) − F (a) = G(b) − G(a) =
f (x) dx − 0 =
f (x) dx.
a
a
Damit haben wir (i) und (ii) bewiesen.
Wir führen nun noch den Begriff der Stammfunktion ein.
Definition 9.15. (Stammfunktion) Sei f : [a, b] → R eine stetige Funktion. Eine
differenzierbare Funktion F : [a, b] → R mit F ′ (x) = f (x) für alle x ∈ [a, b] heißt eine
Stammfunktion von f .
Nach Satz 9.13 (i) wissen wir, dass für jedes feste x0 ∈ [a, b] die Funktion
Z x
F (x) =
f (t) dt
x0
eine Stammfunktion von f ist. Dies macht direkt deutlich, dass es nicht nur eine sondern
viele mögliche Stammfunktionen gibt. Die nächste Bemerkung hält fest, dass sich alle
Stammfunktionen einer stetigen Funktion höchstens um Konstanten unterscheiden.
Bemerkung 9.16. (Menge aller Stammfunktionen einer stetigen Funktion) Sind
F : [a, b] → R und G : [a, b] → R zwei Stammfunktionen einer stetigen Funktion
f : [a, b] → R. Dann gilt
(G − F )′ (x) = G′ (x) − F ′ (x) = f (x) − f (x) = 0
für alle x ∈ [a, b].
Nach Satz 8.37 (iv) folgt nun, dass gilt
(G − F )(x) = G(x) − F (x) = c
für alle x ∈ [a, b]
mit einer Konstanten c ∈ R. Also gilt G(x) = F (x) + c für alle x ∈ [a, b].
Umgekehrt ist auch jede Funktion
der Form H(x) = F (x) + c mit einer Konstanten c ∈ R
′
wegen H ′ (x) = F (x) + c = F ′ (x) + 0 = F ′ (x) für alle x ∈ [a, b] eine Stammfunktion
von f .
Man erhält also alle Stammfunktionen zu f aus einer Stammfunktion F durch Addition
von Konstanten c.
9. Integration
249
Man kann Stammfunktionen von f auch als sogenanntes unbestimmtes Integral von
f schreiben
Z
f (x) dx.
Dies ist eigentlich eine laxere Kurzschreibweise für
Z x
F (x) =
f (t) dt,
x0
bei der die feste untere Grenze x0 unterdrückt wird. Ist F eine Stammfunktion von f , so
gilt daher
Z
f (x) dx = F (x) + c
mit der beliebigen Integrationskonstanten c ∈ R.
Mit unserem Wissen über Ableitungen können wir nun mit Satz 9.13 leicht Stammfunktionen bestimmen. Betrachten wir ein paar Beispiele
Beispiel 9.17. (Stammfunktionen)
(a) Wegen (xr )′ = r xr−1 ⇔ (xr /r)′ = xr−1 (für r 6= 0) folgt
Z
1
xr dx =
xr+1 + c
für r 6= −1.
r+1
′
(b) Wegen cos(x) = − sin(x) folgt
Z
sin(x) dx = − cos(x) + c.
′
′
(c) Wegen ln(x) = 1/x für x > 0 und ln(−x) = 1/(−x) · (−1) = 1/x für x < 0 ist
′
ln(|x|) = 1/x, und es folgt
Z
1
dx = ln |x| + c.
x
(d) Wegen (ex )′ = ex folgt
Z
ex dx = ex + c.
In der Präsenzübung werden wir systematisch eine Tabelle mit Stammfunktionen zusammenstellen, die analog zu Tabelle 8.1 mit den Ableitungen ist.
9.4
Partielle Integration
Zunächst wollen wir aus der Produktregel für die Differentiation die Regel für die partielle Integration herleiten: Seien f und g zwei differenzierbare Funktionen. Dann ist die
Produktfunktion f · g differenzierbar, und es gilt nach der Produktregel
′
f (x) g(x) = f ′ (x) g(x) + f (x) g ′ (x).
250
9.4. Partielle Integration
Unbestimmte Integration der Produktregel liefert nun
Z
Z
Z
′
′
f (x) g(x) dx = f (x) g(x) dx + f (x) g ′(x) dx
{z
}
|
= f (x) g(x)
oder äquivalent
Z
′
f (x) g(x) dx = f (x) g(x) −
und damit für bestimmte Integrale
Z
b
f (x) g ′(x) dx
b Z b
f (x) g ′ (x) dx.
f (x) g(x) dx = f (x) g(x) −
′
a
Z
a
a
Dies ist die Regel für die partielle Integration, und wir halten diese als Satz fest.
Satz 9.18. (partielle Integration) Seien f : [a, b] → R und g : [a, b] → R zwei stetig
differenzierbare Funktionen (d.h. zwei Funktionen, die auf [a, b] differenzierbar sind und
deren Ableitungen f ′ und g ′ auf [a, b] stetig sind). Dann gilt
Z
b
b Z b
f (x) g(x) dx = f (x) g(x) −
f (x) g ′(x) dx.
′
a
a
(9.9)
a
Analog gilt für die unbestimmten Integrale
Z
Z
′
f (x) g(x) dx = f (x) g(x) − f (x) g ′(x) dx.
(9.10)
Bei der praktischen Anwendung der Produktregel zur Berechnung eines Integrals
Z b
Z
h(x) dx
bzw.
h(x) dx
a
versucht man h als das Produkt zweier Funktionen h(x) = f ′ (x) g(x) zu schreiben, wobei
man eine Stammfunktion f von f ′ bestimmen können muss und das übrig bleibende
Integral in (9.9) bzw. (9.10),
Z
b
′
f (x) g (x) dx
a
bzw.
Z
f (x) g ′(x) dx,
leichter zu berechnen sein sollte.
Betrachten wir ein paar Beispiele.
Beispiel 9.19. (partielle Integration) Um das unbestimmte Integral
Z
x sin(x) dx
9. Integration
251
mit partieller Integration zu berechnen, setzen wir g(x) = x, f ′ (x) = sin(x) und damit
g ′ (x) = 1 und f (x) = − cos(x) und erhalten nach (9.10)
Z
Z
x sin(x) dx = x − cos(x) − 1 · − cos(x) dx
Z
= −x cos(x) + cos(x) dx
= −x cos(x) + sin(x) + c,
′
wobei wir im letzten Schritt benutzt haben, dass sin(x) = cos(x) gilt. Also ist H(x) =
−x cos(x) + sin(x) eine Stammfunktion für h(x) = x sin(x). (Dass man sich nicht verrechnet hat, überprüft man leicht durch ableiten:
′
H ′ (x) = − x cos(x) + sin(x)
= −1 cos(x) − x − sin(x) + cos(x)
= − cos(x) + x sin(x) + cos(x)
= x sin(x) = h(x),
und wir erhalten in der Tat wieder die Funktion h.)
Beispiel 9.20. (partielle Integration) Wir wollen das unbestimmte Integral
Z
ln(x) dx
berechnen. Hier schreiben wir den Integranden h(x) = ln(x) als h(x) = 1·ln(x) und setzen
f ′ (x) = 1 und g(x) = ln(x) und somit f (x) = x und g ′ (x) = 1/x. Also gilt nach (9.10)
Z
Z
Z
Z
1
ln(x) dx = 1 · ln(x) dx = x ln(x) − x dx = x ln(x) − 1 dx = x ln(x) − x + c.
x
Beispiel 9.21. (partielle Integration) Wir wollen das bestimmte Integral
Z π
2
sin(x) dx
−π
2
berechnen. Dazu schreiben wir erst h(x) = sin(x) = sin(x) · sin(x) und setzen dann
f ′ (x) = sin(x), g(x) = sin(x) und somit f (x) = − cos(x) und g ′ (x) = cos(x). Also gilt
nach (9.9), dass
Z π
Z π
π
2
− cos(x) cos(x) dx
sin(x) dx = − cos(x) sin(x) −
−π
−π
−π
= − cos(π) sin(π) + cos(−π) sin(−π) +
|
{z
}
= 0 weil sin(π) = sin(−π) = 0
Z π
2
=
cos(x) dx.
−π
Z
π
−π
cos(x)
2
dx
252
9.5. Integration durch Substitution
Nun addieren wir auf beiden Seiten dieser Gleichung das Integral
Z π
2
sin(x) dx
−π
und erhalten
2
Z
π
sin(x)
−π
2
dx =
Division durch 2 liefert nun
π
cos(x)
−π
Z π
2
dx +
Z
π
sin(x)
−π
2
dx
2 i
dx
+ sin(x)
{z
}
−π |
= 1 für alle x
Z π
π
=
1 dx = x = π − (−π) = 2π.
=
Z
Z
h
cos(x)
−π
−π
π
sin(x)
−π
2
2
dx = π.
Es gibt Situationen, in denen man mehrfach partiell integrieren muss. Wir betrachten
hierzu auch noch ein Beispiel.
Beispiel 9.22. (mehrfache partielle Integration) Wir wollen das bestimmte Integral
Z 1
ex x2 dx
0
mit partieller Integration berechnen. Dazu setzen wir f ′ (x) = ex , g(x) = x2 und somit
f (x) = ex und g ′(x) = 2 x. Also gilt nach (9.9)
Z 1
Z 1
Z 1
1 Z 1
x
1 2
0 2
x
x 2
x 2
e 2 x dx = e 1 − e 0 − 2
e x dx = e − 2
ex x dx.
e x dx = e x −
0
0
0
0
0
Wir verwenden nun noch einmal partielle Integration, um das verbleibende Integral zu
berechnen. Hier setzen wir f ′ (x) = ex , g(x) = x und somit f (x) = ex und g ′ (x) = 1 und
finden nach (9.9)
!
Z 1
Z 1
1 Z 1
ex 1 dx
ex x2 dx = e − 2
ex x dx = e − 2 ex x −
0
0
0
= e − 2 e1 1 − e0 0 −
Z
1
!
ex dx
0
0
1
= e − 2 e − ex 0
!
= e − 2 e − e1 − e0 = e − 2 e − e + 1 = e − 2.
9.5
Integration durch Substitution
Wir wollen nun aus der Kettenregel die Substitutionsregel herleiten. Für differenzierbare
Funktionen F und g gilt nach der Kettenregel
′
F g(t) = F ′ g(t) g ′(t).
9. Integration
253
Also folgt mit f = F ′
′
F g(t) = f g(t) g ′ (t)
′
f g(t) g ′ (t) = F g(t) ,
′
und durch Integration über t (sofern die Ableitung F g(t) stetig und damit integrierbar
ist) erhält man
Z
Z
′
′
f g(t) g (t) dt =
F g(t) dt = F g(t) + c.
⇐⇒
In die Stammfunktion F von f ist also g(t) als Argument einzusetzen. Als Abkürzung für
diese Ersetzung verwendet man auch die Schreibweise
Z
F (x) x=g(t) = F g(t) ,
wobei hier
F (x) = f (x) dx.
Dann lautet die Substitutionsregel für unbestimmte Integrale
Z
Z
′
f g(t) g (t) dt =
f (x) dx
,
x=g(t)
falls f stetig und g stetig differenzierbar ist. Wir halten die Substitutionsregel in einem
Satz fest.
Satz 9.23. (Substitutionsregel/Integration durch Substitution) Sei g : [a, b] → R
stetig differenzierbar, sei f : [c, d] → R stetig, und es gelte Bg ⊂ [c, d]. Dann gilt
Z b
Z g(b)
′
f g(t) g (t) dt =
f (x) dx
(9.11)
a
g(a)
bzw. mit unbestimmten Integralen
Z
Z
′
f g(t) g (t) dt =
f (x) dx
.
(9.12)
x=g(t)
Betrachten wir zunächst ein einfaches Beispiel.
Beispiel 9.24. (Integration durch Substitution) Das unbestimmte Integral
Z
2
sin(t) cos(t) dt
berechnet man wegen (cos(t))′ = − sin(t) und
Z
Z
Z
2
2
sin(t) cos(t) dt = −
cos(t)
− sin(t) dt = −
cos(t)
| {z }
= g(t)
2
′
cos(t) dt
| {z }
= g ′(t)
mit der Substitution g(t) = cos(t) wobei hier in (9.12) gilt f (x) = x2 . Also folgt
Z
Z
3
2
1
1 3
2
cos(t) + c.
=−
sin(t) cos(t) dt = − x dx
= − x +c
3
3
x=cos(t)
x=cos(t)
254
9.5. Integration durch Substitution
Bemerkung 9.25. (Anwendung der Substitutionsregel) In der Praxis wird die Substitutionsregel oft von rechts nach links“ angewendet, d.h. wir ersetzen auf der rechten
”
Seite von (9.12) (bzw. von (9.11)) x = g(t) mit einer injektiven Funktion g und erhalten
somit
Z
Z
′
f (x) dx =
f g(t) g (t) dt
,
(9.13)
t=g −1 (x)
falls f stetig und g stetig differenzierbar ist. Man beachte, dass die Injektivität von g
erforderlich ist, damit man im letzten Schritt nach der Berechnung des Integrals die Substitution x = g(t) durch t = g −1(x) mit Hilfe der Umkehrfunktion g −1 von g wieder
rückgängig machen kann.
Für bestimmte Integrale erhalten wir somit
Z d
Z g−1 (d)
f (x) dx =
f g(t) g ′(t) dt.
c
(9.14)
g −1 (c)
Dabei wird diese Substitution sowohl in (9.13) wir in (9.14) formal wie folgt durchgeführt:
Wir setzen x = g(t) und erhalten damit
dx
= g ′(t)
dt
dx = g ′(t) dt.
⇐⇒
Also wird in dem Integral auf der linken Seite von (9.13) bzw. (9.14) x = g(t) in f (x)
eingesetzt, und dx wird durch g ′(t) dt ersetzt. Weiter müssen wir in (9.14) noch die neuen
Grenzen für die Variable t finden; wegen t = g −1 (x) erhält man also die neuen Grenzen
g −1(c) und g −1(d).
Wir betrachten noch weitere Beispiele für die Anwendung der Substitutionsregel.
Beispiel 9.26. (Integration durch Substitution) Wir wollen das unbestimmte Integral
Z
ex
2 dx
cos(ex )
′
2
berechnen. Wir erinnern uns, dass tan(t) = 1/ cos(t) gilt und substituieren daher
t = ex bzw. äquivalent x = ln(t). Dann gilt
oder äquivalent
′ 1
dx
= ln(t) =
dt
t
=⇒
dx =
1
dt,
t
dt
1
= (ex )′ = ex = t
=⇒
dx = dt.
dx
t
Also ergibt diese Substitution
"Z
#
#
"Z
Z
1
t
ex
1
=
2 dx =
2 dt
2 dt
cos(ex )
cos(t) t
cos(t)
x
t=ex
t=e
h
i
= tan(t)
= tan(ex ).
t=ex
9. Integration
255
Beispiel 9.27. (Integration durch Substitution) Wir wollen das bestimmte Integral
Z π2
√
sin( x) dx
0
√
berechnen. Dazu nehmen wir die Substitution t = x oder äquivalent x = t2 vor, und
2
2
erhalten dx/dt = 2 t√und somit dx
√ = 2 t dt. Auf [0, π ] ist x = t injektiv. Also gilt mit
den neuen Grenzen 0 = 0 und π 2 = π für die Variable t, dass
Z π2
Z π
Z π
√
sin( x) dx =
sin(t) 2 t dt = 2
t sin(t) dt.
(9.15)
0
0
0
Das neue Integral können wir nun leicht mit partieller Integration berechnen
Z π
Z π
π
t
sin(t)
−
1
−
cos(t)
dt
dt
=
t
−
cos(t)
|{z} | {z }
0
0
0
= g(t) = f ′ (t)
π Z π
cos(t) dt
= −t cos(t) +
0
0
π
= − π cos(π) − − 0 cos(0) + sin(t)
= π + 0 + sin(π) − sin(0) = π.
0
Setzen wir dieses Ergebnis in (9.15) so finden wir
Z π2
Z π
√
sin( x) dx = 2
t sin(t) dt = 2π.
0
0
Beispiel 9.28. (Integration durch Substitution) Wir wollen das bestimmte Integral
Z e
1
dt
1 t 1 + ln(t)
berechnen. Dazu ersetzen wir x = ln(t) oder äquivalent t = ex und finden dx/dt = 1/t,
also dx = dt/t, und die neuen Grenzen werden ln(1) = 0 und ln(e) = 1. Also liefert die
Substitution
Z e
Z ln(e)
Z 1
Z e
1
1
1
1
dt
dt =
=
dx =
dx
1 + ln(t) t
1 t 1 + ln(t)
ln(1) 1 + x
0 1+x
1
1
= ln |1 + x| = ln(2) − ln(1) = ln(2) − 0 = ln(2).
0
Wir betrachten nun einige sehr gängige Substitutionen.
Substitution t = ex
Für Integrale mit (ganzzahligen) Potenzen von ex verwenden wir die Substitution t = ex ,
also x = ln(t), und damit
dt
= ex = t
dx
⇐⇒
dx =
1
dt.
t
256
9.5. Integration durch Substitution
Betrachten wir dazu zwei Beispiele.
Beispiel 9.29. (Substitution t = ex ) Wir substituieren in
Z
Z
1 + (ex )2
1 + e2x
dx
=
dx
ex
ex
1
dt
= ex = t d.h. dx = dt. Dann gilt
t = ex , also
dx
t
Z
Z 2
Z Z
2x
2
1+e
1+t 1
1
t +1
dx =
· dt
dt
=
=
1 + 2 dt
ex
t
t
t2
t
t=ex
t=ex
t=ex
1
1
= ex − x + c = ex − e−x + c.
= t− +c
t
e
t=ex
Beispiel 9.30. (Substitution t = ex ) Um das unbestimmte Integral
Z
cosh(x)
dx
1 + ex
zu berechnen drücken wir zunächst den cosh(x) durch die Exponentialfunktion aus, also
cosh(x) = (ex + e−x )/2. Somit
Z
Z x
Z
cosh(x)
e + e−x
1
1 ex + e−x
dx
=
dx
=
dx.
1 + ex
2 1 + ex
2
1 + ex
1
dt
= ex = t d.h. dx = dt. Dann gilt
Wir substituieren nun t = ex , also
dx
t
" Z
#
Z 2
Z x
Z
t + 1t 1
e + e−x
t +1
1
1
1
cosh(x)
dx =
dx =
dt
dt
=
1 + ex
2
1 + ex
2
(1 + t) t
2
t2 + t3
t=ex
x
t=e
Z
Z
Z
1
t2 + 1
t2
1
1
1
=
dt
dt +
dt
=
2
t2 (1 + t)
2
t2 (1 + t)
2
t2 (1 + t)
t=ex
t=ex
Z
Z
Z
1
1
1
1
1
1
1
dt +
dt
ln |1 + t| +
dt
=
=
.
2
1+t
2
t2 (1 + t)
2
2
t2 (1 + t)
t=ex
t=ex
Unklar ist noch, wie man das verbleibende Integral
Z
1
dt
2
t (1 + t)
berechnet. Dies erfordert die Methode der Partialbruchzerlegung, die wir in Teilkapitel 9.6
besprechen.
Substitution t =
√
n
ax + b
√
Für √
Integrale mit Potenzen von x und n a x + b, n ∈ N, verwenden wir die Substitution
t = n a x + b, und durch Auflösen nach x finden wir
√
tn − b
tn − b
n
⇐⇒
tn = a x+b
⇐⇒
=x
⇐⇒
x=
t = ax+ b
a
a
9. Integration
257
und erhalten somit
n tn−1
n
dx
=
= tn−1
dt
a
a
⇐⇒
dx =
n n−1
t
dt.
a
Betrachten wir dazu zwei Beispiele.
Beispiel 9.31. (Substitution t =
√
n
a x + b) Um das unbestimmte Integral
Z
x
√
dx
x−1
√
zu berechnen, substituieren wir t = x − 1 bzw. x = t2 + 1 und somit
dx
= 2t
dt
⇐⇒
dx = 2 t dt.
Also erhalten wir
Z
Z 2
Z
x
t +1
2
√
= 2
t + 1 dt √
2 t dt √
dx =
t
x−1
t= x−1
t= x−1
1 3
2 3
= 2
=
t +t+c
t +2t+2c √
√
3
3
t= x−1
t= x−1
=
2
(x − 1)3/2 + 2 (x − 1)1/2 + c̃
3
mit der neuen Integrationskonstante c̃ = 2 c. Im letzten Schritt haben wir (x − 1)1/2 =
√
x − 1 genutzt.
Beispiel 9.32. (Substitution t =
√
n
zu berechnen setzen wir
√
3
3
t = x + 1 ⇐⇒ x = t − 1
a x + b) Um das unbestimmte Integral
Z √
3
x+1
dx
x
=⇒
dx
= 3 t2
dt
⇐⇒
dx = 3 t dt .
2
Also erhalten wir
Z
Z
Z √
3
t
x+1
t3
2
dx =
3 t dt √
dt √
= 3
x
t3 − 1
t3 − 1
t= 3 x+1
t= 3 x+1
Z Z 3
1
(t − 1) + 1
= 3
1+ 3
dt √
dt √
= 3
t3 − 1
t −1
t= 3 x+1
t= 3 x+1
Z
Z
Z
1
1
= 3t+3
.
dt √
dt √
= 3 1 dt + 3
t3 − 1
t3 − 1
t= 3 x+1
t= 3 x+1
258
9.5. Integration durch Substitution
Wir können bei der Berechnung des ersten unbestimmten Integrals
Z
1 dt
die Integrationskonstante weglassen, weil in dem zweiten unbestimmten Integral
Z
1
dt
3
t −1
noch eine Integrationskonstante enthalten ist.
Unklar ist noch, wie man der verbleibende Integral
Z
1
dt
3
t −1
berechnet. Dies erfolgt ebenfalls mit der Methode Partialbruchzerlegung, die wir im nächsten Teilkapitel besprechen.
Substitution x = sin(t)
√
Für Integrale mit Potenzen von x und 1 − x2 verwenden wir die Substitution
q
√
2
1 − x2 = 1 − sin(t) = cos(t)
x = sin(t) ⇐⇒ t = arcsin(x)
=⇒
und somit
q
2 √
dx
= cos(t) = 1 − sin(t) = 1 − x2
=⇒
dt
1
dx = cos(t) dt
⇐⇒
dt = √
dx .
1 − x2
Betrachten wir hierzu ein einfaches Beispiel.
Beispiel 9.33. (Substitution x = sin(t)) Um das unbestimmte Integral
Z
x2
√
dx
1 − x2
zu berechnen, setzen wir
x = sin(t) ⇐⇒ t = arcsin(x)
=⇒
dx
= cos(x) ⇐⇒ dx = cos(t) dt .
dt
Wir erhalten damit
"Z
Z
x2
√
dx =
1 − x2
#
2
sin(t)
cos(t) dt
cos(t)
=
t=arcsin(x)
Z
√
1 − x2 = cos(t),
sin(t)
2
dt
. (9.16)
t=arcsin(x)
9. Integration
259
Das Integral
Z
sin(t)
2
dt =
Z
sin(t) sin(t) dt
kann mit partieller Integration mit f ′ (t) = sin(t), g(t) = sin(t) und somit f (t) = − cos(t)
und g ′ (t) = cos(t) berechnet werden:
Z
Z
Z
2
sin(t) dt = sin(t) sin(t) dt = − cos(t) sin(t) −
− cos(t)) cos(t) dt
Z
2
= − cos(t) sin(t) +
cos(t) dt.
Addition von
2
Z
Z
sin(t)
sin(t)
2
2
dt auf beiden Seiten und cos(t)
dt = − cos(t) sin(t) +
= − cos(t) sin(t) +
= − cos(t) sin(t) +
Z
cos(t)
Z h
Z
2
cos(t)
1 dt
2
+ sin(t)
dt +
2
Z
2
= 1 liefert
sin(t)
+ sin(t)
2 i
2
dt
dt
= − cos(t) sin(t) + t + c
= t − cos(t) sin(t) + c
und somit
Z
1
t − cos(t) sin(t) + c .
(9.17)
2
q
2
2
2
Wir ersetzen noch den Kosinus durch cos(t) = 1 − sin(t) (da sin(t) + cos(t) = 1)
und erhalten somit
Z
q
2
2
1
t − sin(t) 1 − sin(t) + c .
sin(t) dt =
2
Nach dem Rückgängigmachen der Substitution finden wir nun wegen sin arcsin(x) = x
Z
sin(t)
x2
√
dx =
1 − x2
Z
2
dt =
sin(t)
2
dt
t=arcsin(x)
q
2
1
t − 1 − sin(t) sin(t) + c
=
2
t=arcsin(x)
=
√
1
arcsin(x) − x 1 − x2 + c .
2
Betrachten wir noch ein weiteres Beispiel, welches schwieriger und rechenaufwändiger ist,
da wir mehrfach substituieren müssen.
260
9.5. Integration durch Substitution
Beispiel 9.34. (Substitution x = sin(t)) Um das unbestimmte Integral
Z
√
x2 1 − x2 dx
zu berechnen, setzen wir
x = sin(t) ⇐⇒ t = arcsin(x)
=⇒
dx
= cos(x) ⇐⇒ dx = cos(t) dt .
dt
Wir erhalten damit
Z
Z
√
2
x 1 − x2 dx =
=
Z
Z
1
=
4
sin(t)
2
cos(t) =
√
1 − x2 ,
cos(t) · cos(t) dt
2
sin(t) cos(t) dt
2
sin(2t) dt
t=arcsin(x)
t=arcsin(x)
,
(9.18)
t=arcsin(x)
wobei wir im letzten Schritt das Additionstheorem
⇐⇒
sin(t) cos(t) + sin(t) cos(t) = sin(t + t) = sin(2t)
{z
}
|
= 2 sin(t) cos(t)
sin(t) cos(t) =
1
sin(2t)
2
(9.19)
benutzt haben.
dy
1
= 2 ⇔ dt = dy, erhält man weiter
dt
2
Z
2
2
1
sin(2t) dt
=
sin(y) dy
8
t=arcsin(x)
y=2 arcsin(x)
Mit der Substitution y = 2 t,
Z
1
4
(9.20)
Das Integral auf der rechten Seite wurde bereits im vorigen Beispiel berechnet und wir
erhielten (siehe (9.17))
Z
2
1
y − cos(y) sin(y) + c .
sin(y) dy =
2
Damit folgt aus (9.18) und (9.20)
Z
Z
√
2
1
2
sin(y) dy
x 1 − x2 dx =
8
y=2 arcsin(x)
1 =
y − cos(y) sin(y) + c
16
y=2 arcsin(x)
1
c
1
y−
cos(y) sin(y) +
=
16
16
16
y=2 arcsin(x)
9. Integration
261
1
1
c
arcsin(x) −
cos 2 arcsin(x) sin 2 arcsin(x) +
. (9.21)
8
16
16
Wir nutzen die Additionstheoreme
q
2
sin(2w)
= sin(w) cos(w) + sin(w) cos(w) = 2 sin(w) cos(w) = 2 sin(w) 1 − sin(w) ,
| {z }
= sin(w + w)
2
2
2
2
2
cos(2w)
= cos(w) − sin(w) = 1 − sin(w) − sin(w) = 1 − 2 sin(w) ,
| {z }
= cos(w + w)
q
2
wobei wir cos(w) = 1 − sin(w) genutzt haben, um weiter zu vereinfachen. Wegen
sin(arcsin(x)) = x folgt aus den obigen Formeln
√
und
cos 2 arcsin(x) = 1 − 2 x2 .
sin 2 arcsin(x) = 2 x 1 − x2
=
Einsetzen in (9.21) liefert
Z
√
1
x2 1 − x2 dx = arcsin(x) −
8
1
= arcsin(x) −
8
1
= arcsin(x) −
8
√
1
c
1 − 2 x2 2 x 1 − x2 +
16
16
c
1
(1 − x2 ) − x2 x (1 − x2 )1/2 +
8
16
1
1
x (1 − x2 )3/2 + x3 (1 − x2 )1/2 + c̃
8
8
mit der neuen Integrationskonstanten c̃ = c/16.
Substitution x = cosh(t)
√
Für Integrale mit Potenzen von x und x2 − 1 verwenden wir die Substitution x =
cosh(t). Wir betrachten hier nur x ≥ 0 oder x ≤ 0, da der Kosinus Hyperbolicus nur für
x ≥ 0 oder für x ≤ 0 injektiv ist. Wir substituieren x = cosh(t) und erhalten wegen der
2
2
Beziehung cosh(t) − sinh(t) = 1 für diese Substitution
q
√
2
2
cosh(t) − 1 = sinh(t),
x −1 =
x = cosh(t) ⇐⇒ t = arccosh(t)
=⇒
dx
= sinh(t) ⇐⇒ dx = sinh(t) dt .
dt
Betrachten wir zwei Beispiele.
Beispiel 9.35. (Substitution x = cosh(t)) Um das unbestimmte Integral
Z
1
√
dx
x2 − 1
zu berechnen, substituieren wir
x = cosh(t) ⇐⇒ t = arccosh(x)
=⇒
√
x2
−1 =
q
cosh(t)
2
− 1 = sinh(t),
262
9.5. Integration durch Substitution
dx
= sinh(t)
dt
⇐⇒
dx = sinh(t) dt ,
2
2
wobei wir cosh(t) − sinh(t) = 1 genutzt haben. Damit erhalten wir
Z
Z
Z
1
1
√
sinh(t) dt
=
1 dt
dx =
sinh(t)
x2 − 1
t=arccosh(x)
t=arccosh(x)
= t + c t=arccosh(x) = arccosh(x) + c.
√
2
Wir sehen
√ also, dass arccosh(x) eine Stammfunktion von 1/ x − 1 ist, oder umgekehrt,
dass 1/ x2 − 1 die Ableitung von arccosh(x) ist.
Beispiel 9.36. (Substitution x = cosh(t)) Um das unbestimmte Integral
Z √
x2 − 1 dx
zu berechnen, substituieren wir
q
√
2
x = cosh(t) ⇐⇒ t = arccosh(x)
=⇒
cosh(t) − 1 = sinh(t),
x2 − 1 =
dx
= sinh(t) ⇐⇒ dx = sinh(t) dt ,
dt
2
2
wobei wir cosh(t) − sinh(t) = 1 genutzt haben. Damit erhalten wir
Z
Z
Z √
2
x2 − 1 dx =
sinh(t) dt
sinh(t) sinh(t) dt
=
. (9.22)
t=arccosh(x)
t=arccosh(x)
Mit partieller Integration erhält man mit f ′ (t) = sinh(t) und g(t) = sinh(t) und somit
f (t) = cosh(t) und g ′ (t) = cosh(t)
Z
Z
2
sinh(t) dt = cosh(t) sinh(t) − cosh(t) cosh(t) dt
Z
2
= cosh(t) sinh(t) −
cosh(t) dt
Wir addieren nun auf beiden Seiten
2
Z
sinh(t)
2
Z
sinh(t)
dt = cosh(t) sinh(t) −
= cosh(t) sinh(t) −
= cosh(t) sinh(t) −
2
Z
2
2
dt und nutzen cosh(t) − sinh(t) = 1.
cosh(t)
Z Z
cosh(t)
1 dt
= cosh(t) sinh(t) − t + c.
2
dt +
2
Z
sinh(t)
− sinh(t)
2 2
dt
dt
9. Integration
263
Also finden wir
Z
2
t
c
1
cosh(t) sinh(t) − + .
2
2 2
q
2
2
2
Wir drücken noch sinh(t) mittels cosh(t) − sinh(t) = 1 durch sinh(t) =
cosh(t) − 1
aus.
Z
q
2
2
c
1
t
sinh(t) dt = cosh(t)
cosh(t) − 1 − + .
2
2 2
Einsetzen in (9.22) und Ausnutzen von cosh arccosh(x) = x liefert
Z
Z √
2
x2 − 1 dx =
sinh(t) dt
sinh(t)
dt =
t=arccosh(x)
1
cosh(t)
=
2
=
q
cosh(t)
2
t
c
−1− +
2 2
t=arccosh(x)
1 √ 2
arccosh(x)
x x −1−
+ c̃
2
2
mit der neuen Integrationskonstanten c̃ = c/2.
Substitution von x = sinh(t)
√
Für Integrale mit Potenzen von x und x2 + 1 verwenden wir die Substitution x = sinh(t)
2
2
und erhalten wegen der Beziehung cosh(t) − sinh(t) = 1 für diese Substitution
q
√
2
x2 + 1 =
x = sinh(t) ⇐⇒ t = arcsinh(t)
=⇒
sinh(t) + 1 = cosh(t),
dx
= cosh(t) ⇐⇒ dx = cosh(t) dt .
dt
Betrachten wir zwei Beispiele.
Beispiel 9.37. (Substitution von x = sinh(x)) Um das unbestimmte Integral
Z
1
√
dx
x2 + 1
2
2
zu berechnen, substituieren wir x = sinh(t) und erhalten wegen cosh(t) − sinh(t) = 1
für diese Substitution
q
√
2
2
x = sinh(t) ⇐⇒ t = arcsinh(t)
=⇒
x +1=
sinh(t) + 1 = cosh(t),
dx
= cosh(t) ⇐⇒ dx = cosh(t) dt .
dt
Also gilt
Z
√
1
x2 + 1
dx =
Z
1
cosh(t) dt
cosh(t)
t=arcsinh(x)
264
9.5. Integration durch Substitution
=
Z
1 dt
t=arcsinh(x)
= t + c t=arcsinh(x) = arcsinh(x) + c
√
2
Wir sehen
√ also, dass arcsinh(x) eine Stammfunktion von 1/ x + 1 ist, oder umgekehrt,
dass 1/ x2 + 1 die Ableitung von arcsinh(x) ist.
Beispiel 9.38. (Substitution von x = sinh(x)) Um das unbestimmte Integral
Z r 2
Z √ 2
Z r
x +1
x +1
1
dx =
dx,
wobei x > 0,
1 + 2 dx =
2
x
x
x
2
2
zu berechnen, substituieren wir x = sinh(t) und erhalten wegen cosh(t) − sinh(t) = 1
für diese Substitution
q
√
2
2
x = sinh(t) ⇐⇒ t = arcsinh(t)
=⇒
sinh(t) + 1 = cosh(t),
x +1=
dx
= cosh(t) ⇐⇒ dx = cosh(t) dt .
dt
Also gilt
Z r
1
1 + 2 dx =
x
Z √
x2 + 1
dx =
x
=
Z
"Z
cosh(t)
cosh(t) dt
sinh(t)
t=arcsinh(x)
2 #
cosh(t)
dt
sinh(t)
.
t=arcsinh(x)
Nun ersetzen wir den Kosinus Hyperbolicus und den Sinus Hyperbolicus durch ihre Definitionen mit der Exponentialfunktion cosh(t) = (et + e−t )/2 und sinh(t) = (et − e−t )/2.
2
2
Z 2t
Z 1 t
Z
(e + e−t )
cosh(t)
e + 2 + e−2t
1
2
dt =
dt,
dt =
1
sinh(t)
2
et − e−t
(et − e−t )
2
wobei wir 2 et e−t = 2 et−t = 2 e0 = 1 genutzt haben. Wir substituieren nun y = et , also
t = ln(y), dy/dt = et = y ⇔ dt = dy/y, und somit
" Z 2
#
Z 2t
y + 2 + y12 1
1
e + 2 + e−2t
1
dt =
dy
2
et − e−t
2
y
y − y1
y=ln(x)
Z 4
1
y + 2 y2 + 1
=
dy
2
y4 − y2
y=ln(x)
Z
(y 4 − y 2 ) + (3 y 2 + 1)
1
dy
=
2
y4 − y2
y=ln(x)
Z 3 y2 + 1
1
1+ 4
dy
=
2
y − y2
y=ln(x)
9. Integration
265
Z
Z
1
3 y2 + 1
1
1 dy +
dy
=
2
2
y4 − y2
y=ln(x)
1
1
y+
=
2
2
Z
3 y2 + 1
dy
y4 − y2
y=ln(x)
Wie man das verbleibende Integral
Z
3 y2 + 1
dy
y4 − y2
berechnet ist noch unklar. Wir werden im nächsten Teilkapitel sehen, wie wir solche
Integrale mit der Methode der Partialbruchzerlegung lösen können.
Einige der vorigen Beispiele zeigen, dass man oft Stammfunktionen von rationalen Funktionen (also Funktionen der Form P (x)/Q(x) mit Polynomen P, Q) bestimmen muss.
Dazu benötigt man die sogenannte Methode der Partialbruchzerlegung, die wir im nächsten Teilkapitel besprechen.
9.6
Integrationsmethoden für rationale Funktionen:
Partialbruchzerlegung
Mit der Methode der Partialbruchzerlegung kann man rationale Funktionen
P (x)
,
Q(x)
wobei P (x) und Q(x) Polynome sind,
integrieren. Dazu geht man in zwei groben Schritten vor:
Schritt A: Zunächst prüft man, ob der Grad des Zählerpolynoms P geringer ist als
der Grad des Nennerpolynoms Q. Ist dies nicht der Fall, so führt man eine sogenannte
Polynomdivision durch. Als Ergebnis der Polynomdivision erhält man
Pe(x)
P (x)
= R(x) +
,
Q(x)
Q(x)
mit R(x) und Pe(x) Polynomen,
wobei der Grad von Pe echt kleiner ist als der Grad von Q. Das Polynom R lässt
sich leicht integrieren, und wir müssen uns nun nur noch mit der rationalen Funktion
Pe(x)
Q(x)
befassen. Nun befinden wir uns wieder in der Situation, dass wir eine rationale Funktion
integrieren müssen, bei der der Grad des Zählerpolynoms Pe echt kleiner ist als der Grad
des Nennerpolynoms Q.
Schritt B: Wir brauchen also eine Methode, um rationale P/Q Funktionen zu integrieren, deren Zählerpolynom P einen echt kleinen Grad hat als deren Nennerpolynom Q. Dieses Verfahren wird von der Methode der Partialbruchzerlegung geliefert.
266
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
Die Idee dieses Verfahrens ist zunächst das Nennerpolynom Q zu faktorisieren, also als
Produkt von Faktoren (x − a) und (x − a)2 + b2 mit geeigneten a und b zu schreiben.
Sodann schreiben wir die zu integrierende rationale Funktion P/Q als Summe einfacherer
rationaler Funktionen, deren Zähler Konstanten oder affin lineare Funktionen sind und
deren Nenner Potenzen von (x − a) oder (x − a)2 + b2 sind. Diese rationalen Funktionen
lassen sich nun alle mit Standardverfahren integrieren.
Wir erklären zunächst das Verfahren der Polynomdivision und anschließend die Methode
der Partialbruchzerlegung.
Polynomdivision
Um ein Polynom P durch ein Polynom Q zu dividieren, also
P (x)
= P (x) : Q(x),
Q(x)
führt man eine Polynomdivision wie folgt durch. Dabei muss der Grad des Zählerpolynoms P größer oder gleich dem Grad des Nennerpolynoms Q sein.
(1) Schreiben Sie die Polynome jeweils sortiert nach den Exponenten in absteigender
Reihenfolge auf.
(2) Dividieren Sie den ersten Term des Zählerpolynoms P durch den ersten Term des
Nennerpolynoms Q und notieren Sie das Ergebnis.
(3) Multiplizieren Sie dieses Ergebnis mit dem Nennerpolynom Q und subtrahieren Sie
alles vom Zählerpolynom P .
(4) Wiederholen Sie die Schritte (1) – (3) mit dem Restpolynom in analoger Weise so
lange, bis der Grad des Restpolynoms kleiner ist als der Grad des Nennerpolynoms.
(5) Zu dem bisherigen (Teil-)Ergebnis der Polynomdivision wird ein Bruch addiert, dessen
Zähler das Restpolynom aus Schritt (4) und dessen Nenner das Nennerpolynom Q
ist.
Betrachten wir ein Beispiel.
Beispiel 9.39. (Polynomdivision) Wir dividieren das Polynom P (x) = x2 + 2 x + 2
vom Grad 2 durch das Polynom Q(x) = x + 1 vom Grad 1 mittels Polynomdivision:
(x2
−(x2
+2x +2) : (x + 1) = x + 1 +
+x)
x
−(x
+2
+1)
1
1
.
x+1
9. Integration
267
Wir sehen, dass das Ergebnis
Pe(x)
x2 + 2 x + 2
1
P (x)
=
= x+1 +
= R(x) +
| {z }
Q(x)
x+1
x+1
Q(x)
= R(x)
mit
Pe(x) := 1
kein Polynom ist.
In speziellen Fällen kann die Division eines Polynoms P vom Grad n durch ein Polynom
Q vom Grad m ≤ n aber wieder zu einem Polynom vom Grad n − m führen. Dies ist
genau dann der Fall, wenn die Polynomdivision
P (x)
Pe(x)
R(x) = Polynom vom Grad n − m,
= P (x) : Q(x) = R(x) +
mit
Pe(x) = Restpolynom vom Grad < m,
Q(x)
Q(x)
das Restpolynom Pe(x) = 0 liefert.
Beispiel 9.40. (Polynomdivision mit Rest Null) Seien P (x) = 2 x2 + 10 x + 12 und
und Q(x) = 2 x + 4. Aus der Faktorisierung (wir benutzen den Wurzelsatz von Vieta)
P (x) = 2 x2 + 10 x + 12 = 2 x2 + 5 x + 6 = 2 (x + 2) (x + 3)
und Q(x) = 2 (x + 2) sieht man direkt, dass
2 x2 + 10 x + 12
2 (x + 2) (x + 3)
P (x)
=
=
= x+3
Q(x)
2x+4
2 (x + 2)
das Polynom R(x) = x + 3 vom Grad 2 − 1 = 1 ist.
Wir halten unsere Erkenntnisse in einem Satz fest.
Satz 9.41. (Polynomdivision) Sei P (x) = Pn (x) ein Polynom vom Grad n, und sei
Q(x) = Qm (x) ein Polynom vom Grad m, und sei n ≥ m ≥ 0. Dann liefert die Polynomdivision genau eine Darstellung
Pe(x)
Pn (x)
= Rn−m (x) +
.
Qm (x)
Qm (x)
wobei R(x) = Rn−m (x) ein Polynom vom Grad n − m und Pe(x) das Restpolynom ist,
welches einen Grad echt kleiner als m besitzt oder gleich dem Nullpolynom ist.
Partialbruchzerlegung: Verschiedene Beispiele
Die Grundidee der Partialbruchzerlegung einer rationalen Funktion P (x)/Q(x), wobei
der Grad des Zählerpolynom P echt kleiner als der Grad des Nennerpolynoms Q ist, ist
die rationale Funktion als Summe einfacher“ Brüche zu schreiben, etwa
”
1
1
1
1
=
=
− .
2
x −x
x (x − 1)
x−1 x
268
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
Was für eine genaue Gestalt die einfachen“ Brüche haben sollen und auch wie wir diese
”
berechnen, muss dabei noch präzisiert werden.
Betrachten wir zunächst einige konkrete Beispiele, für die wir die Partialbruchzerlegung
durchführen.
Beispiel 9.42. (Partialbruchzerlegung: Nenner hat nur einfache reelle Nullstellen) Wir wollen das Integral
Z
x4 − 8 x2 − 4 x + 13
dx =
x3 − 2 x2 − 5 x + 6
Z
P (x)
dx
Q(x)
mit P (x) = x4 − 8 x2 − 4 x + 13 und Q(x) = x3 − 2 x2 − 5 x + 6 berechnen.
Da der Grad 4 des Zählerpolynoms P höher ist als der Grad 3 des Nennerpolynoms Q,
führen wir zunächst eine Polynomdivision durch:
(x4
−(x4
−2 x3
3
2x
−(2 x3
−8 x2
−5 x2
3
−3 x
−4 x2
x2
−4 x
+6 x)
+13) : (x3 − 2 x2 − 5 x + 6) = x + 2 +
x2 + 1
x3 − 2 x2 − 5 x + 6
−10 x +13
−10 x +12)
+1
Wir finden also
P (x)
x4 − 8 x2 − 4 x + 13
x2 + 1
= 3
=
x
+
2
+
,
Q(x)
x − 2 x2 − 5 x + 6
x3 − 2 x2 − 5 x + 6
(9.23)
wobei wir das Polynom R(x) = x + 2 nun leicht integrieren können und wobei die verbleibende rationale Funktion
Pe(x)
x2 + 1
= 3
Q(x)
x − 2 x2 − 5 x + 6
nun ein Zählerpolynom Pe mit einem echt kleineren Grad als den Grad des Nennerpolynoms Q hat.
Nun faktorisieren wir den Nenner und finden
x3 − 2 x2 − 5 x + 6 = (x − 3) (x − 1) (x + 2).
(9.24)
Um (9.24) zu bestimmen, geht man wie folgt vor: Man probiert zunächst ganzzahlige
Nullstellen durch Einsetzen aus. So findet man für x = 1
h
i
3
2
Q(1) = x − 2 x − 5 x + 6
= 1 − 2 − 5 + 6 = 0;
x=1
also ist x = 1 eine Nullstelle. Polynomdivision des Nenners Q durch (x − 1) liefert nun
9. Integration
269
(x3
−(x3
−2 x2
−x2 )
−x2
−(−x2
−5 x
+6) : (x − 1) = x2 − x − 6
−5 x
+x)
+6
−6 x
−(−6 x
+6
+6)
0
Also gilt
x3 − 2 x2 − 5 x + 6 = (x − 1) (x2 − x − 6) = (x − 1) (x + 2) (x − 3) = (x − 3) (x − 1) (x + 2),
wobei wir x2 − x − 6 mit dem Wurzelsatz von Vieta faktorisiert haben (kann ebenso mit
p-q-Formel geschehen).
Wir können unsere noch zu integrierende rationale Funktion nun schreiben als
x2 + 1
x2 + 1
Pe(x)
= 3
=
.
Q(x)
x − 2 x2 − 5 x + 6
(x − 3) (x − 1) (x + 2)
Nun nehmen wir die Partialbruchzerlegung vor: In diesem Fall faktorisiert der Nenner
komplett in verschiedene einfache reelle Nullstellen. Daher wählen wir den Ansatz
x2 + 1
A
B
C
=
+
+
(x − 3) (x − 1) (x + 2)
x−3 x−1 x+2
mit noch zu berechnenden Konstanten A, B und C.
Um die Konstanten A, B und C zu berechnen, bringen wir die drei Brüche auf der rechten
Seite zunächst auf einen gemeinsamen Nenner und sortieren im Zähler dann nach Potenzen
von x.
A
B
C
x2 + 1
=
+
+
(x − 3) (x − 1) (x + 2)
x−3 x−1 x+2
=
A (x − 1) (x + 2) + B (x − 3) (x + 2) + C (x − 3) (x − 1)
(x − 3) (x − 1) (x + 2)
=
A (x2 + x − 2) + B (x2 − x − 6) + C (x2 − 4 x + 3)
(x − 3) (x − 1) (x + 2)
=
(A + B + C) x2 + (A − B − 4 C) x + (−2 A − 6 B + 3 C)
(x − 3) (x − 1) (x + 2)
Nun nehmen wir einen Koeffizientenvergleich vor, d.h. die Koeffizienten der gleichen
x-Potenzen im Zähler müssen links und rechts übereinstimmen. Dies liefert das folgende
Gleichungssystem:
A +B
+C = 1
A − B −4C = 0
270
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
−2 A − 6 B + 3 C = 1
Wir subtrahieren zunächst die erste Gleichung von der zweiten Gleichung, und dann
addieren wir die erste Gleichung multipliziert mit 2 zu der letzten Gleichung:
A +B
+C = 1
− 2 B − 5 C = −1
− 4B+5C = 3
Nun subtrahieren wir die neue zweite Gleichung multipliziert mit 2 von der neuen letzten
Gleichung:
A +B +C = 1
− 2 B− 5 C = −1
15 C = 5
Aus der neuen letzten Gleichung können wir nun C = 1/3 ablesen, und die neue zweite
Gleichung liefert
−2 B − 5 C = −1
−2 B = −1 + 5 C = −1 +
=⇒
2
5
=
3
3
=⇒
B=−
1
.
3
Aus der ersten Gleichung erhalten wir schließlich
A+B+C =1
1
1
A= 1−B−C =1− −
− = 1.
3
3
=⇒
Also haben wir die Konstanten
A = 1,
B=−
1
3
und
C=
1
.
3
Somit liefert die Partialbruchzerlegung
x2 + 1
1
1
1
1
1
x2 + 1
=
=
− ·
+ ·
,
3
2
x − 2x − 5x+ 6
(x − 3) (x − 1) (x + 2)
x−3 3 x−1 3 x+2
und wir können das Integral nun leicht berechnen:
Z
Z x2 + 1
1
1
1
1
1
dx
dx =
− ·
+ ·
x3 − 2 x2 − 5 x + 6
x−3 3 x−1 3 x+2
Z
Z
Z
1
1
1
1
1
dx −
dx +
dx
=
x−3
3
x−1
3
x+2
1
1
= ln |x − 3| − ln |x − 1| + ln |x + 2| + c.
3
3
Also finden wir für das Integral über unsere ursprüngliche rationale Funktion (9.23)
Z
Z
Z 4
x2 + 1
x − 8 x2 − 4 x + 13
dx = (x + 2) dx +
dx
x3 − 2 x2 − 5 x + 6
x3 − 2 x2 − 5 x + 6
=
1
1
1 2
x + 2 x + ln |x − 3| − ln |x − 1| + ln |x + 2| + c.
2
3
3
9. Integration
271
In dem vorigen Beispiel hatte das Nennerpolynom lauter einfache reelle Nullstellen, und
es blieben keine quadratischen Terme ohne reelle Nullstellen übrig. Für die beiden Fälle,
dass mehrfache reelle Nullstellen auftreten oder dass bei der Faktorisierung des Nenners
quadratische Terme ohne reelle Nullstellen übrig belieben, muss man den Ansatz in der
Partialbruchzerlegung anpassen. Wir betrachten auch hierzu jeweils ein Beispiel.
Beispiel 9.43. (Partialbruchzerlegung: Nenner hat nur einfache und mehrfache
reelle Nullstellen) Wir wollen die rationale Funktion
P (x)
1
=
Q(x)
(x − 1)2 (x + 2)
integrieren. Hier hat das Zählerpolynom P (x) = 1 bereits einen echt kleineren Grad als
das Nennerpolynom Q, und das Nennerpolynom Q(x) = (x − 1)2 (x + 2) liegt bereits
faktorisiert vor. Also können hier die Schritte Polynomdivision“ und Faktorisierung des
”
”
Nennerpolynoms“ entfallen.
Für die Partialbruchzerlegung macht man nun den folgenden Ansatz:
1
(x −
1)2 (x
+ 2)
=
A
B
C
+
+
.
2
x − 1 (x − 1)
x+2
(9.25)
Wir müssen nun die drei Konstanten A, B und C bestimmen. Anstatt die drei Brüche
auf der rechten Seite auf den gemeinsamen Hauptnenner zu bringen, kann man auch drei
geeignete x-Werte in (9.25) einsetzen und die drei so ermittelten Gleichungen verwenden
und das daraus resultierende Gleichungssystem lösen, um A, B und C zu bestimmen.
Wir verwenden zum Beispiel die x-Werte x = 2, x = −1 und x = 0 und erhalten durch
Einsetzen in (9.25):
x=2:
x = −1 :
x=0:
1
= A
+B +
4
1
1
1
= − A+ B +
4
2
4
1
= −A
+B +
2
1
C
4
C
1
C
2
Wir erhalten also das folgende lineare Gleichungssystem, wobei wir die zweite Gleichung
noch mit 2 multipliziert haben:
1
1
C=
4
4
1
1
−A + B + 2 C =
2
2
1
1
−A + B + C =
2
2
A +B +
Wir addieren die erste Gleichung jeweils zu der zweiten Gleichung und der dritten Gleichung:
A+B+
1
1
C=
4
4
272
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
3
9
3
B+ C =
2
4
4
3
3
2B + C =
4
4
Wir multiplizieren die neue zweite Gleichung mit 4/3 und subtrahieren sie anschließend
von der neuen dritten Gleichung:
1
1
C=
4
4
2B +3C = 1
A+B+
−
9
1
C=−
4
4
Aus der neuen letzten Gleichung können wir nun ablesen, dass C = 1/9 ist. Wir setzen
dies in die neue vorletzte Gleichung ein und lösen nach B:
2B +3C = 1
2B = 1−3C = 1−3·
=⇒
1
1
2
=1− =
9
3
3
=⇒
B=
1
.
3
Nun setzen wir B = 1/3 und C = 1/9 in die erste Gleichung ein und lösen nach A auf:
A+B +
1
1
C=
4
4
=⇒
1
1
1 1
1
9 − 12 − 1
4
1
−B − C = − −
=
=−
=− .
4
4
4 3 36
36
36
9
A=
Wir finden also die Konstanten
A=−
1
,
9
B=
1
3
und
C=
1
.
9
Wir finden somit die Partialbruchzerlegung
1
(x −
1)2
(x + 2)
=−
1
1
1
1
1
1
·
+ ·
+ ·
,
2
9 x − 1 3 (x − 1)
9 x+2
und diese können wir nun leicht integrieren:
Z Z
1
1
1
dx =
− ·
+
2
(x − 1) (x + 2)
9 x−1
Z
1
1
=−
dx +
9
x−1
=−
1
1
1
1
dx
·
+ ·
3 (x − 1)2 9 x + 2
Z
Z
1
1
1
1
dx +
dx
2
3
(x − 1)
9
x+2
1
1
1
1
ln |x − 1| − ·
+ ln |x + 2| .
9
3 x−1 9
Nun betrachten wir noch ein Beispiel für den Fall, wenn der faktorisierte Nenner quadratische Terme ohne reelle Nullstellen enthält.
Beispiel 9.44. (Partialbruchzerlegung: Nenner enthält quadratische Terme ohne reelle Nullstellen) Wir wollen die rationale Funktion
1
P (x)
=
Q(x)
(x − 1) (x2 + 1)
9. Integration
273
integrieren. Hier hat das Zählerpolynom P bereits einen echt kleineren Grad als das Nennerpolynom Q, und das Nennerpolynom Q liegt bereits faktorisiert vor. Also können wir
hier die Schritte Polynomdivision“ und Faktorisierung des Nennerpolynoms“ entfallen
”
”
lassen.
Für die Partialbruchzerlegung macht man nun den folgenden Ansatz:
A
Bx+C
1
=
+ 2
.
2
(x − 1) (x + 1)
x−1
x +1
(9.26)
Zu beachten ist hier insbesondere, dass der Partialbruch mit dem quadratischen Term im
Nenner im Zähler eine affin lineare Funktion B x + C anstatt einer Konstanten hat.
Um ein lineares Gleichungssystem zur Bestimmung der Koeffizienten zu erhalten setzen
wir wieder drei geeignete Punkte in (9.26) ein, nämlich x = 0, x = 2 und x = −1:
−1 = − A
x=0:
+C
1
2
1
= A + B + C
5
5
5
1
1
1
1
− = − A− B + C
4
2
2
2
x=2:
x = −1 :
Wir erhalten also das folgende lineare Gleichungssystem, wobei wir die dritte Gleichung
noch mit 1/2 multipliziert haben:
−A
+ C = −1
2
1
1
B+ C =
5
5
5
1
−A − B
+C = −
2
A+
Nun addieren wir die erste Gleichung zu der zweiten Gleichung und subtrahieren die erste
Gleichung von der letzten Gleichung:
−A
+ C = −1
2
6
4
B+ C =−
5
5
5
1
−B
=
2
Aus der neuen dritten Gleichung können wir B = −1/2 ablesen. Auflösen der neuen
zweiten Gleichung nach C und Einsetzen von B = −1/2 liefert:
6
4 5
2
B+ C=− ·
=⇒
B + 3 C = −2
5
5
5 2
3
1
1
=−
=⇒
C=− .
=⇒
3 C = −2 − B = −2 − −
2
2
2
274
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
Auflösen der ersten Gleichung nach A und Einsetzen von B = C = −1/2 liefert:
−A + C = −1
=⇒
A=C +1=−
1
1
+1= .
2
2
Also erhalten wir die Konstanten
A=
1
2
und
B=C=−
1
.
2
Das Ergebnis der Partialbruchzerlegung ist somit
1
1
1
1 x+1
1
1
1
x
1
1
= ·
− · 2
= ·
− · 2
− · 2
,
2
(x − 1) (x + 1)
2 x−1
2 x +1
2 x−1
2 x +1
2 x +1
wobei wir den letzten Bruch noch weiter zerlegt haben, da sich die beiden einzelnen Brüche
leichter integrieren lassen.
Z
Z 1
1
1
x
1
1
1
dx
dx =
·
− · 2
− · 2
(x − 1) (x2 + 1)
2 x−1
2 x +1
2 x +1
Z
Z
Z
1
1
x
1
1
1
=
dx −
dx −
dx
2
2
2
x−1
2
x +1
2
x +1
Z
Z
1
x
1
1
1
dx −
dx.
(9.27)
= ln |x − 1| −
2
2
2
2
x +1
2
x +1
Um das erste verbleibende Integral auszuwerten, nehmen wir die Substitution y = x2 ,
dy = 2 x dx, also dy/2 = x dx vor und finden so
Z
Z
1 1
1
1
x
2
dx
=
dy
ln
|y
+
1|
+
c
ln
|x
+
1|
+ c1 .
=
=
1
x2 + 1
y+1 2
2
2
y=x2
y=x2
Um das zweite verbleibende Integral zu berechnen, nutzen wir die Substitution
x = tan(t) ⇔ t = arctan(x)
=⇒
dx
=
dt
1
cos(t)
2
⇔ dx =
2
2
und erhalten mit Hilfe von cos(t) + sin(t) = 1
#
"Z
Z
1
1
1
dx =
2 dt
2
1 + x2
cos(t)
1 + tan(t)
t=arctan(x)
=
=
"Z
"Z
1
2
sin(t)
1+
2
cos(t)
cos(t)
2
1
cos(t)
1
+ sin(t)
#
2 dt
#
2 dt
t=arctan(x)
t=arctan(x)
1
cos(t)
!
2 dt ,
9. Integration
275
=
Z
1 dt
t=arctan(x)
h
i
= t + c2
t=arctan(x)
= arctan(x) + c2 .
Einsetzen der beiden Integrale in (9.27) liefert
Z
1
1
1
1
dx = ln |x − 1| − ln |x2 + 1| − arctan(x) + c.
2
(x − 1) (x + 1)
2
4
2
Methode der Partialbruchzerlegung
Wir halten nun allgemein fest, was wir an den Beispielen bereits für Einzelfälle beobachtet
haben.
Rechenschema für die Integration rationaler Funktionen:
Z
P (x)
Ziel: Berechnung von
dx für Polynome P und Q.
Q(x)
1. Schritt: Polynomdivision, falls Grad vom Zählerpolynom ≥ Grad vom Nennerpolynom.
Ist der Grad von P echt kleiner als der Grad von Q? Falls ja, gehen wir zum 2. Schritt.
Falls nein, führen wir die Polynomdivision für P (x)/Q(x) durch. Dies liefert
Pe(x)
P (x)
= R(x) +
Q(x)
Q(x)
mit den Polynomen R und Pe, wobei der Grad von Pe echt kleiner als der Grad von Q ist.
Also gilt nun
Z
Z
Z e
P (x)
P (x)
dx = R(x) dx +
dx,
Q(x)
Q(x)
und das erste Integral über das Polynom R ist leicht zu berechnen. Ist Pe ungleich dem
Nullpolynom, so wenden wir auf die neue rationale Funktion Pe/Q die nachfolgenden
Schritte an.
2. Schritt: Faktorisieren des Nennerpolynoms.
Wir faktorisieren nun das Nennerpolynom
Q(x), um es als Produkt von Faktoren der
n
Form (x − a)m und (x − a)2 + b2 mit geeigneten a und b zu schreiben.
Genauer muss man dazu zunächst alle reellen Nullstellen von Q bestimmen, was für
Polynome höheren Grades als 2 schwierig sein kann. Ist x = a eine Nullstelle, so liefert
diese einen Faktor der Form (x − a). Hat das Polynom Q genau k reelle Nullstellen
x1 , x2 , . . . , xk und kommt xj mit der Häufigkeit mj vor, so liefert dies eine Faktorisierung
Q(x) = (x − x1 )m1 (x − x2 )m2 . . . (x − xk )mk Qr (x)
mit einem Polynom Qr (x) ohne reelle
n Nullstellen. Anschließend ist Qr in quadratische
Faktoren der Form (x − a)2 + b2 zu zerlegen. Finden wir ℓ quadratische Faktoren
276
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
n
(x − aj )2 + b2j j , j = 1, 2, . . . , ℓ mit den Vielfachheiten nj , j = 1, 2, . . . , ℓ, so hat Qr eine
Faktorisierung der Form
n1
n2
n
Qr (x) = (x − a1 )2 + b21
(x − a2 )2 + b22
. . . (x − aℓ )2 + b2ℓ ℓ .
Das Nennerpolynom Q hat nun insgesamt eine Faktorisierung der Form
n
n
Q(x) = (x − x1 )m1 . . . (x − xk )mk (x − a1 )2 + b21 1 . . . (x − aℓ )2 + b2ℓ ℓ .
3. Schritt: Aufspalten in Partialbrüche.
Wir spalten P (x)/Q(x) bzw. Pe(x)/Q(x), falls im ersten Schritt eine Polynomdivision
durchgeführt wurde, mit dem folgenden
n Ansatz in Partialbrüche auf: Für jeden Faktor
(x−a)m bzw. jeden Faktor (x−a)2 +b2 in der Faktorisierung des Nenners wählen wir die
in der Tabelle angegebene Summe von Partialbrüchen. Diese Summen von Partialbrüchen
für die einzelnen Faktoren des Nennerpolynoms werden aufsummiert.
Faktor in Q(x)
Ansatz
(x − a)m
A1
A2
Am
+
+ ...+
2
x − a (x − a)
(x − a)m
(x − a)2 + b2
n
An x + Bn
A1 x + B1
A2 x + B2
n
+
.
.
.
+
+
2
(x − a)2 + b2
(x − a)2 + b2
(x − a)2 + b2
Für P (x)/Q(x) mit Grad von P < Grad von Q“ und
”
n1
n
Q(x) = (x − x1 )m1 . . . (x − xk )mk (x − a1 )2 + b21
. . . (x − aℓ )2 + b2ℓ ℓ
würden wir also den folgende Ansatz erhalten:
(1)
(1)
(1)
C1
C2
Cm1
P (x)
=
+
+ ...+
2
Q(x)
x − x1 (x − x1 )
(x − x1 )m1
(k)
(k)
(k)
C1
C2
Cmk
+ ...+
+
+
.
.
.
+
x − xk (x − xk )2
(x − xk )mk
(1)
+
(1)
(1)
(1)
(1)
(1)
A2 x + B2
An1 x + Bn1
A1 x + B1
n1
+
+ ...+
2
2
2
(x − a1 ) + b1
(x − a1 )2 + b21
(x − a1 )2 + b21
(ℓ)
(ℓ)
(ℓ)
(ℓ)
(ℓ)
(ℓ)
A2 x + B2
A x + B1
Anℓ x + Bnℓ
n ,
+
+ ...+ 1
2 + . . . +
2
2
2
2
(x − aℓ ) + bℓ
(x − aℓ )2 + b2ℓ ℓ
(x − aℓ ) + bℓ
wobei die oberen Indices der Konstanten anzeigen, zu welchem Faktor im Nenner die
Konstanten gehören. (Wir müssen sicherstellen, dass alle Konstanten in den einzelnen
Termen verschiedene Namen haben; sonst bekommen wir falsche Ergebnisse!)
Die Konstanten kann man nun auf verschiedenen Methoden bestimmen:
9. Integration
277
Koeffizientenvergleich: Zum einen können wir alle Partialbrüche auf einen Hauptnenner bringen. Dieser Hauptnenner ist dann nach der Konstruktion der Partialbruchzerlegung gerade das Polynom Q(x). Wie multiplizieren nun den Zähler aus, sortieren nach
Potenzen von x und bestimmen über einen Koeffizientenvergleich wie folgt Gleichungen
für die Konstanten: Zwei Polynome sind genau dann gleich, wenn die gleichen Potenzen
von x auftreten und wenn die Koeffizienten dieser Potenzen übereinstimmen. Da nun auf
beiden Seiten der gleiche Nenner Q(x) auftritt, wissen wir, dass die Zählerpolynome gleich
sind, wenn die gleichen Potenzen von x auftreten und deren Koeffizienten gleich sind. Die
so erhaltenen Gleichungen für die Koeffizienten liefern ein lineares Gleichungssystem für
die noch unbekannten Konstanten in der Partialbruchzerlegung.
Einsetzen spezieller Werte für x: Durch das Einsetzen von speziellen Werte von x, die
keine Nullstellen von Q(x) sind, erhalten wir jeweils eine Gleichung für die Konstanten.
Haben wir N Konstanten und erhalten wir durch Einsetzen von N verschiedenen Werten
von x also N solche Gleichungen und sind diese Gleichungen linear unabhängig“ (siehe
”
Teil IV: Lineare Algebra“), so erhalten wir ebenfalls ein lineares Gleichungssystem, aus
”
dem wir die Konstanten bestimmen können.
Grenzwertverfahren“: Man kann einzelne Konstanten mit einem Grenzwertverfah”
”
ren“ bestimmen, indem man beide Seiten, also P (x)/Q(x) bzw. Pe(x)/Q(x) und den Ansatz, mit der auftretenden höchsten Potenz einer reellen Nullstelle, also mit (x − a)m ,
multipliziert und dann den Grenzwert x → a betrachtet. Wir illustrieren dies unten an
einem Beispiel.
4. Schritt: Integration der Partialbrüche.
Nachdem wir die Partialbruchzerlegung ermittelt haben, können wir bequem integrieren.
Dabei finden wir
Z
1
dx = ln |x − a| + c,
(9.28)
x−a
Z
1
1
1
dx = −
+c
für m ≥ 2,
(9.29)
m
(x − a)
(m − 1) (x − a)m−1
Z
Aa+ B
A
x−a
Ax+ B
2
2
+ c. (9.30)
dx =
ln |(x − a) + b | +
arctan
(x − a)2 + b2
2
b
b
Für den Nenner ((x − a)2 + b2 )n mit n ≥ 2 lässt sich durch partielle Integration eine
Rekursionsformel zur Berechnung von
Z
Ax+ B
n dx
(x − a)2 + b2
herleiten.
Man kann beweisen, dass die Schritte 1 bis 4 stets durchführbar sind. Daher sind alle
rationalen Funktionen elementar integrierbar!
Betrachten wir noch zwei Beispiele.
Beispiel 9.45. (Ansatz zur Partialbruchzerlegung) Für eine rationale Funktion
278
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
P (x)/Q(x) mit
Q(x) = (x − 1) (x − 2)3 (x2 + 1)2 (x − 3)2 + 9 ,
wobei der Grad von P ≤ 9 ist,
verwendet man den folgenden Ansatz zur Partialbruchzerlegung von P (x)/Q(x):
A1
A2
A3
A4
A5 x + A6 A7 x + A8
A9 x + A10
P (x)
=
+
+
+
+
+ 2
+
.
2
3
2
2
Q(x)
x − 1 x − 2 (x − 2)
(x − 2)
x +1
(x + 1)
(x − 3)2 + 9
Beispiel 9.46. (Partialbruchzerlegung) Wir wollen das unbestimmte Integral
Z
x3 + 5 x
dx
x4 − 6 x2 + 8 x + 24
mit Partialbruchzerlegung berechnen.
1. Schritt: Entfällt, weil der Grad 3 des Zählerpolynoms P (x) = x3 + 5 x echt kleiner ist
als der Grad 4 des Nennerpolynoms Q(x) = x4 − 6 x2 + 8 x + 24.
2. Schritt: Ausprobieren von x = ±1, ±2, . . . liefert x = −2 als Nullstelle des Nennerpolynoms:
Q(−2) = (−2)4 − 6 (−2)2 + 8 (−2) + 24 = 16 − 24 − 16 + 24 = 0.
Mit Polynomdivision erhalten wir:
(x4
−(x4
+2 x3 )
−2 x3
−(−2 x3
−6 x2
+8 x
+24) : (x + 2) = x3 − 2 x2 − 2 x + 12
−6 x2
−4 x2 )
+8 x
+24
+8 x
−4 x)
+24
−2 x2
−(−2 x2
12 x +24
−(12 x +24)
0
Also gilt
Q(x) = x4 − 6 x2 + 8 x + 24 = (x + 2) (x3 − 2 x2 − 2 x + 12).
Ausprobieren von x = ±1, ±2, . . . liefert x = −2 als Nullstelle des Restpolynoms:
(−2)3 − 2 (−2)2 − 2 (−2) + 12 = −8 − 8 + 4 + 12 = 0,
und durch erneute Polynomdivision für das Restpolynom finden wir
(x3
−(x3
−2 x2
+2 x2 )
−2 x
+12) : (x + 2) = x2 − 4 x + 6
−4 x2
−(−4 x2
−2 x
−8 x)
+12
6 x +12
−(6 x +12)
0
9. Integration
279
Wegen
x2 − 4 x + 6 = (x2 − 4 x + 4) + 2 = (x − 2)2 + 2
hat der quadratische Term x2 − 4 x + 6 keine reellen Nullstellen. Also finden wir
Q(x) = (x + 2)2 (x2 − 4 x + 6) = (x + 2)2 (x − 2)2 + 2 .
3. Schritt: Wir verwenden den Ansatz
B
Cx+D
A
x3 + 5 x
=
+
+
.
2
2
2
x + 2 (x + 2)
(x − 2)2 + 2
(x + 2) (x − 2) + 2
Wir berechnen B mittels Grenzwertverfahren“: Wir multiplizieren beide Seiten mit
”
(x + 2)2 , also der höchsten Potenz von (x + 2) und erhalten
x3 + 5 x
(C x + D) (x + 2)2
=
A
(x
+
2)
+
B
+
.
(x − 2)2 + 2
(x − 2)2 + 2
Auf der rechten Seite lautet der mittlere Summand dann B, und die anderen Terme auf
der rechten Seite enthalten (mindestens einmal) den Faktor (x + 2). Lässt man nun x
gegen −2 gehen, so bleibt auf der rechten Seite nur B stehen! Lässt man auf der linken
Seite x gegen −2 gehen so findet man
Also gilt B = −1.
−18
(−2)3 + 5 (−2)
−8 − 10
=
= −1.
=
2
16 + 2
18
(−2) − 2 + 2
Zur Bestimmung der restlichen Konstanten A, C, D kann man z.B. drei spezielle Werte
für x einsetzen. Dabei wird B natürlich bereits durch B = −1 ersetzt. Dies gibt drei
Gleichungen für die drei Unbekannten A, C, D, die wir dann lösen können:
x=0:
x=1:
x=2:
A −1 D
+
+
2
4
6
2
A −1 C + D
6
= = +
+
9·3
9
3
9
3
9
A −1 2 C + D
18
=
= +
+
16 · 2
16
4
16
2
0=
Wir multiplizieren die erste Gleichung mit 6, die zweite Gleichung mit 3 und die dritte
Gleichung mit 4 und bringen jeweils den Term von dem Koeffizienten B = −1 auf die
andere Seite der Gleichung. Wir erhalten somit das lineare Gleichungssystem:
3A
A+C
3
2
+D = 1
+D =
A + 4 C+2 D =
5
2
280
9.7. Uneigentliche Integrale
Wir multiplizieren die zweite und dritte Gleichung jeweils mit 3 und subtrahieren von
diesen neuen Gleichungen jeweils die erste Gleichung:
3
3A
+D =
2
3
3 C +2 D =
2
12 C+5 D = 6
Nun multiplizieren wir die neue zweite Gleichung mit 4 und subtrahieren diese anschließend von der neuen letzten Gleichung:
3
3A
+D =
2
3
3 C+2 D =
2
−3 D = 0
Wir sehen an der neuen letzten Gleichung, dass D = 0 ist. Aus der neuen zweiten Gleichung folgt dann 3 C = 3/2, also C = 1/2, und aus der ersten Gleichung folgt 3 A = 3/2,
also A = 1/2. Also finden wir insgesamt die Konstanten
1
1
A= ,
B = −1,
C=
und
D = 0.
2
2
Die Partialbruchzerlegung lautet damit
1
1
x
1 1
x3 + 5 x
=
−
+
.
2
2
2
2 x + 2 (x + 2)
2 (x − 2)2 + 2
(x + 2) (x − 2) + 2
4. Schritt: Nun berechnen wir das Integral mit Hilfe der Formeln (9.28), (9.29) und (9.30):
Z
Z
Z
Z
1
x
1
1
x3 + 5 x
1
dx =
dx −
dx +
dx
4
2
2
x − 6 x + 8 x + 24
2
x+2
(x + 2)
2
(x − 2)2 + 2
1
1
1
1
= ln |x + 2| +
+ ln |(x − 2)2 + 2| + √ arctan
2
x+2 4
2
9.7
x−2
√
2
+ c.
Uneigentliche Integrale
Unter welchen Vorraussetzungen und wie lassen sich bestimmte Integrale über unbeschränkte Integrationsbereiche, z.B.
Z ∞
e−x dx,
0
bzw. bestimmte Integral mit unbeschränktem Integranden, z.B.
Z 1
1
√ dx,
x
0
sinnvoll definieren? Diese Frage werden wir in diesem letzten Teilkapitel untersuchen. Wir
werden solche Integrale mathematisch sauber mit Grenzwertprozessen definieren.
9. Integration
281
Unbeschränkter Integrationsbereich
Wir betrachten zuerst den Fall eines unbeschränkten Integrationsbereichs.
Definition 9.47. (bestimmte Integrale mit unbeschränktem Integrationsbereich)
(i) Es sei f : [a, ∞) → R über jedes Intervall [a, b] (mit b > a) integrierbar. Falls der
Grenzwert
Z b
f (x) dx
lim
b→∞
a
existiert (und endlich ist), so definiert man das uneigentliche Integral von f
über [a, ∞) durch
Z b
Z ∞
f (x) dx = lim
f (x) dx.
b→∞
a
a
(ii) Es sei f : (−∞, b] → R über jedes Intervall [a, b] (mit a < b) integrierbar. Dann
definiert man das uneigentliche Integral von f über (−∞, b] durch
Z b
Z b
f (x) dx = lim
f (x) dx,
a→−∞
−∞
a
falls der Grenzwert auf der rechten Seiter existiert (und endlich ist).
(iii) Sei f : R → R. Dann definiert man das uneigentliche Integral von f über
(−∞, ∞) durch
Z ∞
Z a
Z ∞
f (x) dx =
f (x) dx +
f (x) dx
(mit einem beliebigem a ∈ R),
−∞
−∞
a
(9.31)
falls die Integrale auf der rechten Seite existieren (und endlich sind). Der Wert von
(9.31) hängt dabei nicht von der Wahl von a ab.
Betrachten wir ein Beispiel.
Beispiel 9.48. (bestimmtes Integral mit unbeschränktem Integrationsbereich)
Wir wollen, wenn möglich, das Integral
Z ∞
e−x dx
0
berechnen. Wegen
Z b
b
−x
−x e dx = −e = −e−b − (−e−0 ) = −e−b + 1 = 1 − e−b
0
0
gilt
lim
b→∞
Z
0
b
e−x dx = lim (1 − e−b ) = 1,
b→∞
282
9.7. Uneigentliche Integrale
und somit
Z
∞
−x
e
dx = lim
b→∞
0
Z
b
e−x dx = 1.
0
Bemerkung 9.49. (Integrale mit unbeschränktem Integrationsbereich)
Z b
Z ∞
f (x) dx existiert (und endlich ist), so sagt man auch
f (x) dx
(1) Wenn z.B. lim
b→∞ a
a
Z b
Z ∞
f (x) dx nicht existiert, so heißt
existiert oder konvergiert. Wenn z.B. lim
f (x) dx
b→∞
divergent.
Existiert sogar
Z
∞
a
gent.
a
a
|f (x)| dx, so heißt das Integral
Z
∞
f (x) dx absolut konver-
a
(2) F sei eine Stammfunktion von f . Dann gilt
Z b
Z ∞
f (x) dx = lim F (b) − F (a),
f (x) dx = lim
b→∞
a
b→∞
a
falls der Grenzwert lim F (b) existiert.
b→∞
Z ∞
(3) Damit
f (x) dx existiert, müssen beide Teilintegrale
−∞
Z
Z
a
f (x) dx
und
−∞
∞
f (x) dx
a
(d.h. die entsprechenden Grenzwerte) unabhängig voneinander existieren.
Z b
(4) Zu (1) und (2) analoge Aussagen gelten für
f (x) dx.
−∞
Beispiel 9.50. (bestimmtes Integral mit unbeschränktem Integrationsbereich)
Wir wollen das Integral
Z ∞
1
dx
2
−∞ 1 + x
(wenn möglich) berechnen. Dazu berechnen wir zunächst
Z 0
Z ∞
1
1
dx
und
dx
2
2
1+x
−∞ 1 + x
0
jeweils separat. Zunächst bestimmen wir das unbestimmte Integral
Z
1
dx
1 + x2
mit der Substitution x = tan(x). Da tan : (−π/2, π/2) → R bijektiv ist, ist dieses eine
zulässige Substitution, und es ist gewährleistet, dass x = tan(t) auch alle Werte in R
durchlaufen kann. Wir haben
!
dx
1
1
x = tan(t) ⇔ t = arctan(x)
=⇒
=
2 ⇔ dx =
2 dt ,
dt
cos(t)
cos(t)
9. Integration
283
und erhalten somit
"Z
Z
1
1
dx =
2
2
1+x
1 + tan(t)
=
=
=
"Z
cos(t)
1
1
2
sin(t)
1+
2
cos(t)
"Z
Z
1
cos(t)
1 dt
2
+ sin(t)
t=arctan(x)
2 dt
cos(t)
1
#
t=arctan(x)
#
2 dt
t=arctan(x)
#
2 dt
t=arctan(x)
h
i
= t+c
t=arctan(x)
= arctan(x) + c,
2
2
wobei wir in vorvorletzten Schritt cos(t) + sin(t) = 1 genutzt haben. Also gilt nach
dem Hauptsatz der Differentialrechnung
Z b
b
1
dx = arctan(x) + c = arctan(b) − arctan(a).
2
a
a 1+x
Damit finden wir für die beiden uneigentlichen Integrale mit Hilfe von arctan(0) = 0
Z ∞
Z b
1
π
π
1
dx = lim
dx = lim arctan(b) − arctan(0) = − 0 = ,
2
2
b→∞ 0 1 + x
b→∞
1+x
2
2
0
Z 0
Z 0
π π
1
1
= .
dx
=
lim
dx
=
arctan(0)
−
lim
arctan(a)
=
0
−
−
2
a→−∞ a 1 + x2
a→−∞
2
2
−∞ 1 + x
Also finden wir
Z ∞
−∞
1
dx =
1 + x2
Z
∞
0
1
dx +
1 + x2
Z
0
−∞
π π
1
dx = + = π.
2
1+x
2
2
Beispiel 9.51. (bestimmtes Integral mit unbeschränktem Integrationsbereich)
Wir wollen untersuchen ob das Integral
Z ∞
x dx
−∞
existiert. Da der Integrand f (x) = x für großes x beliebig groß wird, vermuten wir, dass
dieses uneigentliche Integral nicht existiert, also divergiert. Wir berechnen
Z ∞
Z 0
x dx
und
x dx
0
−∞
separat. Wir finden
Z b
Z ∞
x dx = lim
x dx = lim
0
b→∞
0
b→∞
b !
1 2 1
x = lim b2 = +∞.
b→∞ 2
2
0
284
9.7. Uneigentliche Integrale
Da bereits das Integral
Z
∞
x dx nicht existiert, d.h. divergent ist, können wir schon jetzt
Z ∞
schließen, dass auch das Integral
x dx nicht existiert, also divergent ist.
0
−∞
Falsch wäre die folgende Argumentation:
Z
∞
−∞
x dx = lim
b→∞
Z
b
x dx = lim
b→∞
−b
b !
2
x2 b
(−b)2
= lim
= lim 0 = 0.
−
b→∞
b→∞
2 −b
2
2
An dieser Rechnung sehen wir, dass es wichtig ist, die Existenz der beiden Integrale über
(−∞, a] und [a, ∞) separat zu überprüfen (vgl. auch (3) in Bemerkung 9.49).
Wir lernen noch ein Majorantenkriterium für uneigentliche Integrale mit unbeschränktem
Integrationsbereich kennen.
Satz 9.52. (Majorantenkriterium)
(i) Es gelte |f (x)| ≤ g(x) für alle x ∈ [a, ∞), und
Z
∞
g(x) dx
a
existiere. Dann existiert das uneigentliche Integral
Z ∞
f (x) dx
a
und ist (absolut) konvergent, und es gilt
Z
∞
a
Z
f (x) dx ≤
∞
a
|f (x)| dx ≤
Z
∞
g(x) dx.
a
(ii) Es gelte |f (x)| ≤ g(x) für alle x ∈ (−∞, a], und
Z
a
g(x) dx
−∞
existiere. Dann existiert das uneigentliche Integral
Z a
f (x) dx
−∞
und ist (absolut) konvergent, und es gilt
Z
a
−∞
Z
f (x) dx ≤
a
−∞
|f (x)| dx ≤
Z
a
−∞
g(x) dx.
9. Integration
285
(iii) Es gelte |f (x)| ≤ g(x) für alle x ∈ (−∞, ∞), und
Z ∞
g(x) dx
−∞
existiere. Dann existiert das uneigentliche Integral
Z ∞
f (x) dx
−∞
und ist (absolut) konvergent, und es gilt
Z ∞
Z ∞
Z
f (x) dx ≤
|f (x)| dx ≤
−∞
−∞
∞
g(x) dx.
−∞
Betrachten wir ein Beispiel.
Beispiel 9.53. (Majorantenkriterium) Das bestimmte Integral
Z ∞
sin(x)
dx
x2
1
existiert, denn
und
Z
1
∞
sin(x) 1
x2 ≤ x2
1
dx = lim
b→∞
x2
Z
1
b
für alle x ∈ [1, ∞)
b !
1
1 1
= 1.
dx = lim − = lim 1 −
b→∞
b→∞
x2
x 1
b
Unbeschränkter Integrand
Wir betrachten nun den Fall, dass der Integrand auf einen (beschränkten) Intervall unbeschränkt ist.
Definition 9.54. (Integral mit unbeschränktem Integranden) Sei eine Funktion
f stetig auf [a, b] \ {x0 }. (Typischerweise ist f ist bei x0 unbeschränkt.) Unter dem
uneigentlichen Integral
Z
b
f (t) dt
a
versteht man:
(i) im Fall x0 = b:
lim−
x→b
Z
x
f (t) dt,
a
falls der Grenzwert existiert (und einen endlichen Wert hat),
Z b
f (t) dt,
(ii) im Fall x0 = a:
lim+
x→a
x
falls der Grenzwert existiert (und einen endlichen Wert hat),
286
9.7. Uneigentliche Integrale
(iii) im Fall x0 ∈ (a, b):
lim
x→x−
0
Z
a
x
f (t) dt + lim+
x→x0
Z
b
f (t) dt,
x
falls die jeweiligen Grenzwerte existieren (und endliche Werte haben).
Betrachten wir zwei Beispiele.
Beispiel
9.55. (Integral mit unbeschränktem Integranden) Der Integrand f (t) =
√
1/ t des Integrals
Z 1
Z 1
1
√ dt = lim
t−1/2 dt
(9.32)
+
x→0
t
x
0
ist in t = x0 = 0 unbeschränkt. Es gilt
Z 1
1 √ 1
√ 1/2 −1/2
t
dt = lim+ 2 t = lim+ 2 t = lim+ 2 − 2 x = 2.
lim+
x→0
x
x→0
x
x→0
x
x→0
Also existiert das uneigentliche Integral (9.32) und hat den Wert
Z 1
1
√ dt = 2.
t
0
Beispiel 9.56. (Integrale mit unbeschränkten Integranden t−α ) In Verallgemeinerung des letzten Beispiels kann man fragen, wann uneigentliche Integrale der Form
Z 1
1
dt
mit α ∈ R
(9.33)
α
0 t
existieren (und endliche Werte haben).
Betrachten wir zunächst den Fall α = 1 gesondert:
Z 1
Z 1
1 1
1
dt = lim+
dt = lim+ ln(t) = lim+ ln(1) − ln(x) = lim+ − ln(x) = +∞.
| {z }
x→0
x→0
x→0
x→0
x
0 t
x t
=0
(9.34)
Also existiert das uneigentliche Integral (9.33) für α = 1 nicht. (Wir beachten, dass bei
der Berechnung in (9.34) eigentlich gilt
Z
1
dt = ln |t| + c.
t
In unserem Fall ist aber t ∈ [x, 1] mit x > 0 und daher gilt |t| = t und somit ln |t| =
ln(t).) Nun betrachten wir den Fall α 6= 1:
1 !
Z 1
Z 1
Z 1
1
1
1
−α
1−α −α
= lim+
t
dt
=
lim
1 − x1−α
dt
=
t
t
dt
=
lim
α
+
+
x→0 1 − α
x→0
x→0
1−α
x
0 t
0
x

 1
für α < 1,
1
1
1−α
− lim+
x1−α =
=

1 − α x→0 1 − α
−∞
für α > 1.
9. Integration
287
Also existiert das uneigentliche Integral (9.33) für α > 1 nicht, aber für α < 1 existiert es
und hat den Wert
Z 1
1
1
dt
=
.
α
1−α
0 t
Insgesamt finden wir: Für α < 1 existiert das uneigentliche Integral
Z 1
1
dt
α
0 t
und für α ≥ 1 existiert es nicht (d.h. es divergiert).
Mit Hilfe der Erkenntnisse des vorigen Beispiels können wir den folgenden Satz formulieren, den man mit einem Majorantenkriterium für unbeschränkte Integranden beweisen
kann.
Satz 9.57. (Wachstum an Stellen, an denen der Integrand unbeschränkt ist)
Sei f stetig in [a, b] \ {x0 }. Gilt auf einem Intervall I = (x0 − ε, x0 + ε) ∩ [a, b]:
Z b
c
(i) |f (x)| ≤
für alle x ∈ I mit α < 1 und c > 0, so existiert
f (x) dx.
|x − x0 |α
a
Z b
c
für alle x ∈ I mit α ≥ 1 und c > 0, so ist
f (x) dx divergent.
(ii) |f (x)| ≥
|x − x0 |α
a
Betrachten wir zwei Beispiele zur Anwendung dieses Satzes.
Beispiel 9.58. (Anwendung von Satz 9.57) Bei dem uneigentlichen Integral
Z 1
1
dx
(9.35)
2
0 1−x
ist der Integrand in x0 = 1 unbeschränkt. Es gilt nach der 3. binomischen Formel
1 1
1
1
1
1
=
|f (x)| = =
≥
für alle x ∈ [0, 1],
2
1−x
|(1 − x)(1 + x)|
|1 − x| |1 + x|
2 |x − 1|
wobei wir im letzten Schritt |x+1| = x+1 ≤ 2 für alle x ∈ [0, 1] und somit 1/|x+1| ≥ 1/2
für alle x ∈ [0, 1] genutzt haben. Nach Satz 9.57 (ii) existiert das Integral (9.35) somit
nicht und ist divergent.
Beispiel 9.59. (Anwendung von Satz 9.57) Bei dem uneigentlichen Integral
Z 1
1
√
dx
(9.36)
1 − x2
0
ist der Integrand in x0 = 1 unbeschränkt. Es gilt nach der 3. binomischen Formel
1
1
1
1
= p
=
|f (x)| = √
1/2 =
1/2
2
(1 − x) (1 + x)1/2
1−x
(1 − x)(1 + x)
(1 − x)(1 + x)
288
9.7. Uneigentliche Integrale
=
|1 −
1
1
≤
1/2
|1 + x|
|1 − x|1/2
x|1/2
für alle x ∈ [0, 1],
wobei wir folgende Informationen genutzt
haben: Zunächst dürfen wir im zweiten Schritt
p
die Absolutstriche weglassen, weil (1 − x)(1 + x) ≥ 0 ist. Weiter gilt für x ∈ [0, 1], dass
1−x = |1−x| und 1+x = |1+x| ist, was wir im zweitletzten Schritt verwendet haben. Im
letzten Schritt nutzen wir |1+x|1/2 ≥ 1 für alle x ∈ [0, 1] und somit 1/|1+x|1/2 ≤ 1/1 = 1.
Nach Satz 9.57 (i) folgt nun, dass das Integral (9.36) existiert (und einen endlichen Wert
hat).
Teil III
Gewöhnliche Differentialgleichungen
289
Kapitel 10
Gewöhnliche Differentialgleichungen
In dem einführenden Teilkapitel 10.1 werden wir zur Motivation diverse Anwendungen
aus der Chemie und Physik kennenlernen, bei denen Differentialgleichungen auf ganz
natürliche Art auftreten. Nachdem wir uns mit Differentialgleichungen vertraut gemacht
haben, werden wir die unterschiedlichen Typen von Differentialgleichungen einführen und
definieren, mit denen wir uns in Teilkapiteln 10.2, 10.3 und 10.4 befassen werden. Dies
sind im Wesentlichen separable Differentialgleichungen erster Ordnung und lineare Differentialgleichungen erster und zweiter Ordnung. Bei den linearen Differentialgleichungen
zweiter Ordnung befassen wir uns primär mit Differentialgleichungen mit konstanten Koeffizienten, die man leicht mit einem Standardansatz lösen kann.
10.1
Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
Wir starten mit einem Anwendungsbeispiel für sogenannte Differentiatialgleichungen erster Ordnung mit konstanten Koeffizienten.
Anwendung 10.1. (Wachstum einer Population) Eine Population (Bevölkerung)
bestehe zur Zeit t aus N(t) Individuen. Die Population habe eine konstante Geburtsrate
und eine konstante Sterberate:
• β = Anzahl der Geburten pro Individuum und Zeiteinheit (Geburtenrate),
• δ = Anzahl der Todesfälle pro Individuum und Zeiteinheit (Sterberate).
Also finden wir für ein Zeitintervall [t, t + ∆t] der Länge ∆t:
• die Anzahl der Geburten = β · N(t) · ∆t = β N(t) ∆t,
• die Anzahl der Todesfälle = δ · N(t) · ∆t = δ N(t) ∆t.
Damit folgt für die Anzahl N(t + ∆t) der Individuen zum Zeitpunkt t + ∆t
N(t + ∆t) = N(t) + β · N(t) · ∆t − δ · N(t) · ∆t
291
292 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
⇐⇒
⇐⇒
N(t + ∆t) − N(t) = (β − δ) · N(t) · ∆t
N(t + ∆t) − N(t)
= (β − δ) N(t).
∆t
(10.1)
Der Differenzenquotient auf der linken Seite von (10.1) beschreibt eine Näherung für die
Wachstumsrate der Population pro Zeit, also die Änderung der Anzahl der
Individuen in dem Zeitintervall [t, t + ∆t] pro Zeit ∆t.
Die Gleichung (10.1) ist nur näherungsweise gültig, weil bei der Berechnung der Anzahl
von Geburten bzw. Todesfällen im Zeitintervall [t, t+ ∆t] für die Anzahl N der Individuen
der konstante Wert N(t) zum (festen) Zeitpunkt t verwendet wurde. Tatsächlich wird N
im Intervall [t, t + ∆t] variieren. Die Näherung wird umso genauer, je kleiner ∆t ist. Wir
lassen deshalb ∆t gegen Null gehen, und aus dem Differenzenquotienten auf der linken
Seite von (10.1) wird der Differentialquotient und wir erhalten die Ableitung von N:
N(t + ∆t) − N(t)
= (β − δ) N(t).
∆t→0
∆t
N ′ (t) = lim
Dabei ist N ′ (t) die Wachstumsrate der Population (pro Zeit).
Anforderung: Stetigkeit und Differenzierbarkeit von N(t). Um den Grenzwertprozess ∆t → 0 durchführen zu können, muss die Funktion N(t) differenzierbar, also
insbesondere stetig sein.
Dies erscheint zunächst eine unrealistische Idealisierung zu sein, da die Anzahl der Individuen N(t) nur diskrete Werte aus N0 annimmt und somit unstetig ist (außer im
uninteressanten Fall N(t) = Konstante). Dennoch ist diese Idealisierung sinnvoll, wenn
die Population aus sehr vielen Individuen besteht. In diesem Fall entspricht eine Änderung
der Anzahl um Eins einer sehr kleinen relativen Änderung von N(t). Betrachtet man z.B.
die Population einer gewissen chemischen Spezies (Molekülsorte), so wird N(t) typischerweise im Bereich 1020 bis 1024 liegen. Die geringe relative Änderung, wenn ein Molekül
entsteht oder abreagiert, wird durch die molare Konzentration deutlich: diese ändert sich
dann (in einem Liter) um etwa 1, 6 · 10−24 mol/L.
Fazit: Für große Populationen kann die Anzahl der Individuen mit kleinem (relativen)
Fehler durch eine stetige Funktion N(t) beschrieben werden.
Unter der zusätzlichen Annahme, dass die Anzahl der Individuem N(t) in der Population auch nach der Zeit t differenzierbar ist, ergibt sich also das folgende
mathematische Modell für die Wachstumsrate N ′ (t) dieser Population:
N ′ (t) = (β − δ) N(t).
(10.2)
Dabei sind β und δ die Geburten- bzw. Sterberate.
Lösung der Differentialgleichung (10.2): Aufgrund der Form der Differentialgleichung (10.2) vermuten wir, dass ihre Lösungen von der Form c eλ t (mit geeigneten Konstanten c und λ) sind, und man überzeugt sich durch Einsetzen und Nachrechnen leicht,
dass
N(t) = c · e(β−δ)t
(10.3)
10. Gewöhnliche Differentialgleichungen
293
eine Lösung ist. In der Tat gilt
N ′ (t) =
d
c · e(β−δ)t = c (β − δ) e(β−δ)t = (β − δ) N(t).
dt
Bei der Lösung (10.3) handelt es sich um die sogenannte allgemeine Lösung der Differentialgleichung (10.2); sie hängt noch von einer Konstanten c ab. Dieses ist nicht überraschend, denn um konkrete Zahlenwerte für N(t) zu bekommen müssen wir einen Anfangswert, also die Anzahl der Population zu einem Zeitpunkt t = t0 vorgeben. Geben
wir z.B. den Wert N(0) = N0 vor (d.h. die Bevölkerung hat zum Zeitpunkt t0 = 0 genau
N0 Individuen), so finden wir aus der Anfangsbedingung
N0 = N(0) = c · |e(β−δ)0
{z } = c,
=1
dass die Konstante der Wert c = N0 hat. Also ist die Lösung des Anfangswertproblems
N ′ (t) = (β − δ) N(t),
N(0) = N0 ,
die Funktion
N(t) = N0 · e(β−δ)t .
In Gleichung (10.2) treten eine (unbekannte) Funktion N(t) und deren Ableitung N ′ (t)
auf. Solche Gleichungen heißen Differentialgleichungen (kurz DGLen), wobei auch
höhere Ableitungen der gesuchten“ unbekannten Funktion auftreten können. Da in der
”
Modellgleichung (10.2) nur die erste Ableitung vorkommt, spricht man von einer Differentialgleichung erster Ordnung.
Definition 10.2. (gewöhnliche Differentialgleichung erster Ordnung) Unter einer
gewöhnlichen Differentialgleichung erster Ordnung versteht man eine Gleichung,
die von einer (unbekannten) Funktion y = y(t), deren Ableitung y ′ = y ′(t) und der Variablen t dieser Funktion abhängt, also
F (t, y, y ′) = F t, y(t), y ′(t) = 0,
(10.4)
wobei die Funktion F den funktionalen Zusammenhang“ zwischen t, y(t) und y ′ (t) be”
schreibt. Dabei muss die erste Ableitung y ′(t) in (10.4) explizit auftreten.
Beispiel 10.3. (Anwendung 10.1 fortgesetzt) In (10.2) in unserer Anwendung 10.1
haben wir also
N ′ (t) = (β − δ) N(t)
=⇒
N ′ (t) − (β − δ) N(t) = 0,
{z
|
}
′
= F t, N(t), N (t)
d.h. die Funktion F ist als F (t, N, N ′ ) = N ′ − (β − δ) N definiert.
Betrachten wir ein paar weitere Beispiele von Differentialgleichungen erster Ordnung.
294 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
Beispiel 10.4. (Differentialgleichungen erster Ordnung)
(a) y ′ (t) = 58 cos(t)
2
27
(b) y ′(t) + y(t) − sin y(t) + t = 0
e
(c) 17 y ′(t) − 2 y(t) + 13 t2 = 0
Wir bemerken, dass wir Beispiel (a) durch Integrieren von 58 cos(t) lösen können, weil
y = y(t) eine Stammfunktion von 58 cos(t) ist.
Z
y(t) = 58 cos(t) dt = 58 sin(t) + c
mit der Integrationskonstante c. Wir sehen an Beispiel (a) auch, dass die Funktion y =
y(t) nicht selber explizit in der Differentialgleichung vorkommen muss, sondern dass es
reicht, wenn ihre erste Ableitung y ′ = y ′ (t) explizit vorkommt. Beispiel (b) ist deutlich
komplizierter, da hier Potenzen von y ′ auftreten und wir auch Funktionen auf y anwenden.
Beispiel (c) ist eine sogenannte lineare inhomogene Differentialgleichung (mit konstanten
Koeffizienten); wir werden noch lernen, wie man dieser Sorte von Differentialgleichungen
löst.
Betrachten wir ein weiteres Anwendungsbeispiel.
Federkonstante c
Dämpfung d
Ruhelage
Auslenkung x = x(t)
Masse m
Fext
Abb. 10.1: Das Federpendel: Eine Masse m hängt an einer elastischen Feder, die dem
Hookschen Gesetz genügt. Gemessen wird die Auslenkung x = x(t) der Feder gegenüber
der Ruhelage als Funktion der Zeit t.
Anwendung 10.5. (Schwingungsgleichung beim Federpendel) Betrachten wir ein
Federpendel“, wie es in Abbildung 10.1 skizziert ist.
”
Eine Masse m hängt an einer elastischen Feder, welche dem Hookschen Gesetz genügt.
Wie beschreiben die Auslenkung der Feder gegenüber der Ruhelage durch x = x(t) als
10. Gewöhnliche Differentialgleichungen
295
Funktion der Zeit t, wie in Abbildung 10.1 eingezeichnet. Dabei ist die Ruhelage die
Position, welche die Masse annimmt, wenn Sie sich nicht bewegt (also wenn nur die Dehnbarkeit der Feder und die Gravitationskraft FGravitation = m · g als Einflüsse auftreten).
Das Hooksche Gesetz besagt, dass die Feder die kontrahierende Kraft FFeder auf die
Masse m ausübt, welche antiproportional zur Auslenkung der Feder ist, also
FFeder = −c · x(t) = −c x(t)
(10.5)
mit der Federkonstante c > 0. Weiter tritt durch das die Feder umgebende Medium
(normalerweise Luft) eine die Schwingung der Feder dämpfende Kraft auf, die antiproportional zu der Geschwindigkeit x′ (t) der Bewegung der Masse m ist, also
FDämpfung = −d · x′ (t) = −d x′ (t)
(10.6)
mit der Dämpfungskonstante d > 0.
Auf die Feder kann auch noch eine äußere Kraft Fext (t) einwirken, die aber nicht von der
Auslenkung x = x(t), der Geschwindigkeit x′ = x′ (x) oder der Beschleunigung x′′ = x′′ (t)
der Bewegung der Masse abhängt.
Andererseits wissen wir, dass nach dem Newtonschen Gesetz
FNewton = m · a
(Kraft = Masse · Beschleunigung)
für die Bewegung der Masse m gilt
F = m · x′′ (t) = m x′′ (t),
(10.7)
wobei x′′ (t) die Beschleunigung der Masse m ist.
Durch Gleichsetzen von (10.7) mit der Summe der Kraft (10.5) aus dem Hookschen Gesetz,
der dämpfenden Kraft (10.6) und der externen Kraft Fext finden wir
m · x′′ (t) = FFeder + FDämpfung + Fext = −c x(t) − d x′ (t) + Fext (t).
Durch Umsortieren erhalten wir die Differentialgleichung
m x′′ (t) + d x′ (t) + c x(t) = Fext (t),
(10.8)
und teilen wir die Gleichung (10.8) durch m, so erhalten wir
x′′ (t) +
Fext (t)
c
d
· x(t) =
· x′ (t) +
.
m
m
m }
|{z}
|{z}
| {z
=a
=b
= f (t)
Wir können also diese Gleichung mit den neuen Konstanten a = d/m und b = c/m und
der neuen Funktion f (t) = Fext (t)/m in der vereinfachten Form
x′′ (t) + a x′ (t) + b x(t) = f (t)
(10.9)
schreiben. Dies ist eine sogenannte (lineare) Differentialgelichung zweiter Ordnung
mit konstanten Koeffizienten. Wir werden diesen Typ von Differentialgleichungen
in Teilkapitel 10.4 ausführlich besprechen. Um eine eindeutige Lösung der Differentialgleichung (10.9) zu bekommen, muss man hier zwei Anfangswerte vorgeben, nämlich
jeweils einen Wert für die Auslenkung x(t0 ) und die Geschwindigkeit x′ (t0 ) zum (selben)
Zeitpunkt t = t0 .
296 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
φ=
φ(t)
φ
φL =
(t) L m
φ
mg
Abb. 10.2: Das Fadenpendel. Auch das Kräfteparallelogramm, mit dessen Hilfe man die
Kräftebilanz aufstellt, ist in der Zeichnung angegeben.
Betrachten wir noch ein zweites Beispiel einer Differentialgleichung zweiter Ordnung.
Anwendung 10.6. (Schwingungsgleichung beim Fadenpendel) In Abbildung 10.2
ist ein übliches Fadenpendel gezeichnet. Um die Bewegung zu modellieren stellen wir
wieder die Kräftebilanz auf:
Sei x(t) die Auslenkung der Masse m zum Zeitpunkt t gegenüber der Ruhelage gemessen
als Auslenkung längs des Kreisbogens mit Radius L (siehe Abbildung 10.2): Dann ist
die Auslenkung beim Auslenkungswinkel φ = φ(t) in Bogenlänge zum Zeitpunkt t gerade
x(t) = L · φ(t).
Daraus folgt durch zweifaches Ableiten, dass gilt
x′′ (t) = L · φ′′ (t),
und nach dem Newtonschen Gesetz (Kraft = Masse · Beschleunigung) gilt für die Kraft
auf die Masse m
FNewton (t) = m · x′′ (t) = m · L · φ′′ (t).
(10.10)
Bewegen wir nun die Masse m gedanklich zu einer Position (längs des Kreisbogens mit
Radius L) außerhalb der Ruhelage und lassen die Masse los. Dann wird ihre Bewegung
durch die Einwirkung der Schwerkraft bestimmt. Die relevante Kraft ist hier also
FGravitation = m · g
10. Gewöhnliche Differentialgleichungen
297
mit der Gravitationsbeschleunigung g ≈ 9, 81 m/s2 auf der Erdoberfläche.
Da sich die Masse aber nur längs des Kreisbogens fortbewegen kann, spielt auch nur
die Komponente der Kraft in diese Richtung, also tangential zum Kreisbogen, eine Rolle.
Aus dem Kräftediagramm im Abbildung 10.2 lesen wir ab, dass die relevante tangentiale
Komponente der Gravitationskraft
Ftang (t) = − m · g · sin φ(t) = −FGravitation · sin φ(t)
(10.11)
ist. Wir haben ein Minuszeichen, weil die Gravitationskraft der Auslenkung aus der Ruhelage entgegen wirkt.
Durch Gleichsetzen der Kräfte in (10.10) und (10.11) erhält man
m · L · φ′′ (t) = −m · g · sin φ(t) .
Wir teilen auf beiden Seiten durch m · L und bringen alle Terme auf eine Seite:
φ′′ (t) +
g
· sin φ(t) = 0.
L
(10.12)
Dies ist ebenfalls eine Differentialgleichung
zweiter Ordnung. Sie ist allerdings nicht
”
linear“, da in ihr der Term sin φ(t) auftaucht. Wir werden später noch definieren, was
linear“ (und nichtlinear“) bedeutet.
”
”
In Gleichungen (10.9) und (10.12) tritt eine (unbekannte) Funktion x(t) bzw. φ(t) und
deren zweite Ableitung x′′ (t) bzw. φ′′ (t) auf. Nur in (10.9) – aber nicht in (10.12) –
tritt auch eine erste Ableitung der unbekannten Funktion auf. Da in (10.9) und (10.12)
die höchste vorkommende Ableitung eine zweite Ableitung ist, spricht man von einer
Differentialgleichung zweiter Ordnung.
Definition 10.7. (gewöhnliche Differentialgleichung zweiter Ordnung) Unter einer gewöhnlichen Differentialgleichung zweiter Ordnung versteht man eine Gleichung, die von einer (unbekannten) Funktion y = y(t), deren erster und zweiter Ableitung
y ′ = y ′(t) und y ′′ = y ′′(t) und der Variablen t dieser Funktion abhängt, also
F (t, y, y ′, y ′′) = F t, y(t), y ′(t), y ′′(t) = 0,
(10.13)
wobei die Funktion F den funktionalen Zusammenhang“ zwischen t, y(t), y ′ (t) und y ′′(t)
”
beschreibt. Dabei muss die zweite Ableitung y ′′(t) in (10.13) explizit auftreten.
Beispiel 10.8. (Anwendung 10.6 fortgesetzt) In (10.12) haben wir
φ′′ (t) +
g
· sin φ(t) = 0,
L
d.h. die Funktion F ist als F (t, φ, φ′, φ′′ ) = φ′′ + (g/L) · sin(φ) definiert.
Betrachten wir ein paar weitere Beispiele für Differentialgleichungen zweiter Ordnung.
298 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
Beispiel 10.9. (Differentialgleichungen zweiter Ordnung)
(a) 17 y ′′(t) + 13 y ′(t) + 15 y(t) = 23
(b) y ′′ (t) · y(t) − y ′(t) = cos(t)
(c)
1
+ y(t) = 0
y ′′ (t)
Wir werden in dieser Vorlesung nur Differentialgleichungen zweiter Art des Typs in Beispiel (a), nämlich linear“ und mit sogenannten konstanten Koeffizienten“, zu lösen ler”
”
nen. Wir werden noch lernen, was linear“ und mit konstanten Koeffizienten“ genau
”
”
bedeutet.
Bemerkung 10.10. (gewöhnliche und partielle Differentialgleichungen) Wir werden in diesem Kapitel nur gewöhnliche Differentialgleichungen betrachten. Dabei wird
man im normalen Sprachgebrauch das Wort gewöhnliche“ in der Regel weglassen; spricht
”
man also von Differentialgleichungen“, so meint man in der Regel gewöhnliche Diffe”
”
rentialgleichungen“. – Was sind nun Differentialgleichungen, die nicht gewöhnlich“ sind?
”
Man nennt diese partielle Differentialgleichungen“, und es handelt sich um Diffe”
rentialgleichungen, in denen Ableitungen nach mehreren Variablen vorkommen. Betrachten wir ein Beispiel: Die Temperatur T in einem dünnen Stab der Länge L kann als
Funktion des Ortes x längs des Stabs und der Zeit t beschrieben werden: T = T (x, t).
Die Temperatur T (x, t) kann mit Hilfe der Wärmeleitungsgleichung, einer partiellen
Differentialgleichung, modelliert werden, die sowohl Ableitungen von T nach x als auch
nach t involviert:
α2
∂ 2 T (x, t)
∂T (x, t)
=
,
∂x2
∂t
0 ≤ x ≤ L,
t ≥ 0,
(10.14)
wobei α eine Konstante ist und das runde d, ∂“, bedeutet, dass wir eine Funktion von
”
mehreren Variablen nach einer ihrer Variablen ableiten. Gibt man nun Randbedingungen
T (0, t) und T (L, t) für die Temperatur an den Enden des Stabes (als Funktion der Zeit
t ≥ 0) vor, sowie die Temperatur als Funktion des Ortes x zum Zeitpunkt t = 0, also
T (x, 0) = f (x), 0 ≤ x ≤ L, so kann man die partielle Differentialgleichung (10.14) lösen,
um den Temperaturverlauf T (x, t) im Stab als Funktion des Ortes x und der Zeit t zu
bestimmen.
Betrachten wir abschließend noch ein Anwendungsbeispiel aus der Chemie.
Anwendung 10.11. (Differentialgleichungen der Reaktionskinetik) Wir betrachten hier einige typische Differentialgleichungen der Reaktionskinetik.
Zur Modellierung verwenden wir das Massenwirkungsgesetz:
Seien cA (t), cB (t), cC (t), cP (t), . . . die Konzentrationen der an einer chemischen Reaktion
beteiligten Substanzen A, B, C, P, . . . . Bei konstantem Druck, konstantem Volumen und
konstanter Temperatur ist sind die Reaktionsgeschwindigkeiten c′A (t), c′B (t), c′C (t),
c′P (t), . . . (also die zeitlichen Änderungen der Konzentrationen der Substanzen) proportional zu der Wahrscheinlichkeit, dass die Moleküle der entsprechenden Reaktion aufein-
10. Gewöhnliche Differentialgleichungen
299
andertreffen, also proportional zu dem Produkt der Konzentrationen der beteiligten Substanzen. Die Proportionalitätskonstante ist die Reaktionsrate k > 0.
c′A (t) = −k cA (t)
(a) Chemische Reaktion 1. Ordnung:
mit k > 0
Diese Differentialgleichung beschreibt z.B. den Konzentrationsverlauf bei einer Zerk
k
fallsreaktion A → B + C oder einer Isomerisierung A → B. Wir haben in der Differentialgleichung die Proportionalitätskonstante −k, weil die Konzentration cA (t) der
k
k
Substanz A bei chemischen Reaktionen A → B + C bzw. A → B zeitlich abnimmt.
2
(b) Chemische Reaktion 2. Ordnung: c′A (t) = −k cA (t)
mit k > 0
Diese Differentialgleichung tritt z.B. bei elementaren (also nicht aus weiteren Einzelrek
aktionen zusammengesetzten) Reaktionen der Form 2 A →1 B + C auf. In diesem Fall
ist k = 2 k1 , da in jedem Reaktionsschritt 2 Moleküle A abreagieren (und sich damit
die Reaktionsrate verdoppelt). Wir im ersten Beispiel haben wir die Proportionalitätskonstante −k = −2 k1 , weil die Konzentration cA (t) der Substanz A abnimmt. Auf der
2
rechten Seite der Reaktionsgleichung taucht cA (t) auf, weil wir in der Reaktion zwei
Moleküle der Substanz A brauchen: Nach dem Massenwirkungsgesetz müssen wir daher auf der rechten Seite das Produkt der Konzentration von A mit sich selbst, also
2
cA (t) , verwenden.
(c) Reaktion mit mehreren chemischen Substanzen: Oft hängt die Änderungsrate
einer Konzentration auch von den Konzentrationen anderer beteiligter Spezies ab, so
dass mehrere gekoppelte Differentialgleichungen auftreten. Beispielsweise ergibt sich
k
für die Elementarreaktion A + B → P nach dem Massenwirkungsgesetz das (nichtlineare) Differentialgleichungssystem:
c′A (t) = −k cA (t) cB (t),
c′B (t) = −k cA (t) cB (t),
c′P (t) =
k cA (t) cB (t).
k
k
(d) Folgereaktion: Für eine Folgereaktion A →1 B →2 P erhält man das System von
Differentialgleichungen
c′A (t) = −k1 cA (t),
c′B (t) =
c′P (t) =
k1 cA (t) − k2 cB (t),
k2 cB (t).
Dies ist ein sogenanntes lineares Differentialgleichungssystem 1. Ordnung. Wir
können das obige Differentialgleichungssystem lösen, indem wir nacheinander erst
durch Lösen der ersten Gleichung cA (t) berechnen, und dann nach Einsetzen von cA (t)
in die zweite Gleichung die zweite Gleichung lösen, um cB (t) zu berechnen. Nachdem
wir cB (t) in die letzte Gleichung eingesetzt haben, können wir durch Integrieren cP (t)
berechnen.
300
10.2
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
Differentialgleichungen erster Ordnung mit getrennten Variablen
In diesen Teilkapitel betrachten wir einen speziellen Typ von gewöhnlichen Differentialgleichungen erster Ordnung, nämlich Differentialgleichungen erster Ordnung mit getrennten Variablen. Diese können nach dem Sortieren“ nach den Variablen, der sogenannten
”
Separation der Variablen“, mittels Integration gelöst werden.
”
Definition 10.12. (Differentialgleichung mit getrennten Variablen) Eine Differentialgleichung erster Ordnung der Form
y ′ (t) = g(t) · h y(t)
oder kürzer y ′ = g(t) · h(y)
(10.15)
heißt eine Differentialgleichung mit getrennten Variablen.
Entscheidend ist also, dass sich auf der linken Seite der Gleichung nur die Ableitung y ′(t)
befindet und dass auf der rechten Seite das Produkt einer Funktion
g(t), die nur von t
′
aber nicht von y(t) oder y (t) abhängt, und einer Funktion h y(t) , die nur von y(t) aber
nicht von t oder y ′(t) abhängt, steht. Die Variablen t und y = y(t) auf der rechten Seite
von (10.15) lassen sich also trennen, indem wir die rechte Seite als ein Produkt einer
Funktion g(t) der Variable t und einer Funktion h(y) der Variable y = y(t) schreiben.
Betrachten wir zunächst einige Beispiele
Beispiel 10.13. (Differentialgleichung 1. Ordnung mit getrennten Variablen)
2
(Hier haben wir: g(t) = −k und h(y) = y 2 .)
(a) y(t)′ = −k y(t)
(b) y ′(t) = ey(t) sin(t) (Hier haben wir: g(t) = sin(t) und h(y) = ey .)
2
(c) y ′(t) = y(t) + t2 hat keine getrennten Variablen.
(d) y ′(t) = t y(t) (Hier haben wir: g(t) = t und h(y) = y.)
Wir erklären nun, wie man eine Differentialgleichung erster Ordnung mit getrennten Variablen mittels Integration löst. Diese Methode wird auch als Separation der Variablen“
”
bezeichnet.
Lösungsmethode 10.14. (Separation/Trennung der Variablen für Differentialgleichungen erster Ordnung mit getrennten Variablen) Man teilt die Differentialgleichung erster Ordnung mit getrennten Variablen
y ′ (t) = g(t) · h y(t)
zunächst auf beiden Seiten durch h y(t) :
y ′ (t)
= g(t)
h y(t)
falls
h y(t) =
6 0.
10. Gewöhnliche Differentialgleichungen
301
Unbestimmte Integration bzgl. t liefert
Z
Z
y ′ (t)
dt = g(t) dt,
h(y(t))
(10.16)
und unter Anwendung der Substitutionsregel für y = y(t) (und damit dy/dt = y ′ (t) ⇔
dy = y ′(t) dt) erhält man für das linke Integral
Z
Z
dy
y ′ (t)
.
dt =
h(y(t))
h(y) y=y(t)
Wir können (10.16) daher auch noch einfacher als
Z
Z
dy
= g(t) dt
h(y) y=y(t)
(10.17)
schreiben. Die Berechnung dieser unbestimmten Integrale(mit Integrationskonstante) und
Auflösen nach y ergibt alle Lösungen y(t) für die h y(t) 6= 0 gilt.
Der Spezialfall h y(t) = 0 muss gesondert behandelt werden.
Bei der Lösung des Anfangswertproblems
y ′(t) = g(t) · h y(t) ,
y(t0) = y0 ,
kann der Anfangswert sofort eingerechnet werden. Dazu integriert man in (10.17) von t0
bis t, also
Z y(t)
Z y(t)
Z t
dy
dy
=
=
g(s) ds.
(10.18)
h(y)
y(t0 ) h(y)
y0
t0
Ausrechnen und Auflösen nach y(t) liefert die Lösung.
Betrachten wir einige Beispiele für das Lösen von Differentialgleichungen mit getrennten
Variablen mittels Separation/Trennung der Variablen.
Beispiel 10.15. (Differentialgleichung 1. Ordnung mit getrennten Variablen)
Die Differentialgleichung y ′(t) = k y(t) ist eine Differentialgleichung
mit getrennten Va
riablen (mit g(t) = k und h(y) = y). Wir teilen für h y(t) = y(t) 6= 0 auf beiden Seiten
durch h y(t) = y(t), also
y ′(t)
′
=⇒
y (t) = k y(t) : y(t) 6= 0
= k,
y(t)
und integrieren anschließend
Z
Z ′
Z
y (t)
dy
=
dt = k dt
y y=y(t)
y(t)
=⇒
ln |y(t)| = ln |y| = k t + c1
mit einer Integrationskonstante c1 . Anwenden der (natürlichen) Exponentialfunktion auf
beiden Seiten liefert
ln |y(t)| = k t + c1
=⇒
|y(t)| = ekt+c1 = ekt · ec1
302
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
=⇒
y(t) = ec1 ekt
oder y(t) = −ec1 ekt .
Beide Fälle lassen sich zusammenfassen: y(t) = c ekt mit c 6= 0, wobei das Vorzeichen von
c = ±ec1 nun durch die neue Konstante c berücksichtigt wird.
Offensichtlich ist aber y(t) = 0 auch eine Lösung der Differentialgleichung y ′(t) = k y(t).
Also sind alle Lösungen von y ′(t) = k y(t) von der Form y(t) = c ekt mit c ∈ R beliebig.
Beispiel 10.16. (Anfangswertproblem für eine Differentialgleichung 1. Ordnung
mit getrennten Variablen) Betrachten wir das Anfangswertproblem
y ′(t) = t y(t),
y(0) = y0 .
(10.19)
Diese Differentialgleichung
erster Ordnung hat getrennte Variablen
(mit g(t) = t und
h(y) = y). Ist h y(t) = y(t) 6= 0, so können wir durch h y(t) = y(t) teilen und erhalten
y ′(t)
= t,
y(t)
und wir integrieren anschliessend über t von 0 bis s, wobei wir y0 6= 0 voraussetzen müssen,
damit das Integral existiert. Dann gilt
s
Z s ′
Z s
Z y(s)
y(s)
1 2
y (t)
dy
=
=
dt =
t
t dt
=⇒
ln |y|
y
2
0 y(t)
0
y0
0
y0
y(s) 1
= 1 s2 .
=⇒
ln =⇒
ln |y(s)| − ln |y0 | = s2
2
y0 2
Nun nehmen wir auf beiden Seiten die (natürliche) Exponentialfunktion:
y(s) y(s) 1
2
2
= s
= es2 /2
ln =⇒
y(s) = y0 es /2 .
=⇒
y0
2
y0
Der Absolutbetrag kann dabei weggelassen werden, weil das das Vorzeichen durch y0
2
bestimmt wird. Wir finden also die eindeutig bestimmte Lösung y(t) = y0 et /2 für y0 6= 0.
2
Ist y0 = 0, so ist y(t) = y0 et /2 = 0 ebenfalls eine Lösung von y ′ (t) = t y(t). Also hat das
2
Anfangswertproblem (10.19) für alle Anfangswerte y0 ∈ R die Lösung y(t) = y0 et /2 .
Beispiel 10.17. (Anfangswertproblen für Differentialgleichung 1. Ordnung mit
getrennten Variablen) Betrachten wir das Anfangswertproblem
2
y ′(t) = −k y(t) ,
y(0) = y0
mit Anfangswert y0 > 0.
2
Für y(t) 6= 0 erhalten wir nach Division durch y(t)
y ′(t)
2 = −k,
y(t)
und durch Integration über t von 0 bis s erhalten wir
Z y(s)
Z s
Z s ′
dy
y (t)
k dt
=⇒
=
2 dt = −
y2
y0
y(t)
0
0
y(s)
s
1
= − k t 0.
−
y y0
10. Gewöhnliche Differentialgleichungen
303
Durch Einsetzen der Intergrationsgrenzen und Auflösen nach y(s) finden wir
−
1
1
+
= −k s
y(s) y0
=⇒
ks+
1
1
=
y0
y(s)
=⇒
y(s) =
1
.
k s + (1/y0 )
Alternativ hätten wir auch zunächst die Differentialgleichung ohne den Anfangswert lösen
können und am Ende den Anfangswert benutzen können, um die Integrationskonstante
zu bestimmen. Das Ergebnis ist natürlich das Gleiche!
Wir fassen unsere Vorgehensweise noch einmal zusammen.
Bemerkung 10.18. (Zusammenfassung: Separation/Trennung der Variablen für
Differentialgleichungen erster Ordnung mit getrennten Variablen) Liegt eine
Differentialgleichung in der Form
y ′ (t) = g(t) · h y(t)
=⇒
y ′(t)
= g(t)
h y(t)
für h y(t) =
6 0
vor, so finden wir die Lösung durch die (unbestimmte) Integration
Z
Z
Z
y ′ (t)
dy
dt = g(t) dt
=
h(y) y=y(t)
h y(t)
und anschließendes Auflösen nach t.
Zuletzt betrachten wir noch ein Anwendungsproblem aus der Chemie.
Anwendung 10.19. (Reaktionsgleichungen: DGL-System mit getrennten Variablen) Betrachten wir die Elementarreaktion A + B → P , für welche wir bereits in
Anwendung 10.11 (c) das System von Differentialgleichungen erster Ordnung aufgestellt
hatten. Für Anwendungen typische Anfangswerte sind cA (0) = a, cB (0) = b und cP (0) = 0,
d.h. zu Beginn der Reaktion liegt noch keine Substanz P vor, weil A und B noch nicht
miteinander reagiert haben. Damit eine Reaktion stattfindet muss a, b > 0 gelten. Gesucht
ist die Produktkonzentration cP (t) für jedem Zeitpunkt t > 0.
Das gesamte Differentialgleichungssystem mit diesen Anfangswerten lautet also (vgl. Anwendung 10.11 (c))
c′A (t) = −k cA (t) cB (t),
c′B (t) = −k cA (t) cB (t),
c′P (t) =
k cA (t) cB (t),
cA (0) = a,
(10.20)
cB (0) = b,
(10.21)
cP (0) = 0.
(10.22)
Direkt lässt sich das volle System nicht lösen. Andererseits wäre es ausreichend,
die letzte Gleichung zu lösen. Dies ist getrennt nur dann möglich, wenn man cA (t)
und cB (t) durch cP (t) ausdrücken kann. Hier hilft uns die Anschauung: Wenn (zur Zeit
t ≥ 0) N Moleküle P entstanden sind, so sind dafür jeweils N Moleküle von A
304
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
und jeweils N Moleküle von B verbraucht worden. Für die Konzentrationen cA (t)
und cB (t) sollte also gelten:
⇐⇒
cA (t) = a − cP (t),
cB (t) = b − cP (t)
cA (t) + cP (t) = a,
cB (t) + cP (t) = b
für alle t ≥ 0
für alle t ≥ 0.
Dass diese Vermutung richtig ist, sieht man wie folgt:
′
cA (t) + cP (t) = c′A (t) + c′P (t) = −k cA (t) cB (t) + k cA (t) cB (t) = 0,
′
cB (t) + cP (t) = c′B (t) + c′P (t) = −k cA (t) cB (t) + k cA (t) cB (t) = 0,
(10.23)
(10.24)
(10.25)
(10.26)
wobei wir im zweiten Schritt die Differentialgleichungen (10.20) und (10.22) bzw. (10.21)
und (10.22) eingesetzt haben. Aus (10.25) bzw. (10.26) folgt, dass die Funktion cA (t) +
cP (t) bzw. cB (t) + cP (t) jeweils konstant ist, also cA (t) + cP (t) = d1 und cB (t) + cP (t) = d2
mit Konstanten d1 , d2 ∈ R. Da aber auch für t = 0 die Gleichungen cA (t) + cP (t) = d1
und cB (t) + cP (t) = d2 gelten müssen, folgt aus den Anfangswerten
d1 = cA (0) + cP (0) = a
| {z } | {z }
=a
=0
und
d2 = cB (0) + cP (0) = b.
| {z } | {z }
=0
=b
Also gilt d1 = a und d2 = b, und wir haben bewiesen, dass (10.24) und damit (10.23) gilt.
Durch Einsetzen von (10.23) in die dritte Differentialgleichung (10.20) folgt
c′P (t) = k a − cP (t) b − cP (t) .
Dies ist eine Differentialgleichung
mit getrennten Variablen. Wir teilen auf beiden Seiten
durch a − cP (t) b − cP (t) und erhalten
c′P (t)
=k
a − cP (t) b − cP (t)
und integrieren anschließend über t von t = 0 bis t = s
Z
cP (s)
0
dcP
=
(a − cP ) (b − cP )
Z
s
0
c′P (t)
dt =
a − cP (t) b − cP (t)
Z
s
k dt = k s,
(10.27)
0
wobei wir cP (0) = 0 für die untere Grenze im linken Integral verwendet haben.
Um die linke Seite zu integrieren müssen wir zwei Fälle unterscheiden: a = b und a 6= b.
Betrachten wir zuerst den einfacheren Fall a = b. Dann gilt
Z
0
cP (s)
dcP
=
(a − cP )(b − cP )
Z
0
cP (s)
cP (s)
1
dcP
1
1
=
=
− . (10.28)
2
(a − cP )
a − cP 0
a − cP (s) a
Einsetzen von (10.28) in (10.27) und Auflösen nach cP (s) liefert
1
1
− = ks
a − cP (s) a
⇐⇒
1
1
= ks+
a − cP (s)
a
10. Gewöhnliche Differentialgleichungen
⇐⇒
1
= a − cP (s)
k s + 1/a
305
⇐⇒
cP (s) = a −
1
.
k s + 1/a
Betrachten wir nun den (realistischeren) Fall a 6= b. Dann berechnet man das unbestimmte Integral
Z
dx
(a − x)(b − x)
mittels Partialbruchzerlegung (vgl. Teilkapitel 9.6): Mit der Partialbruchzerlegung
1
1
1
1
=
−
(a − x) (b − x)
b−a a−x b−x
erhält man für x = cP
Z cP (s)
Z cP (s)
1
1
1
dcP
−
dcP
=
(a − cP ) (b − cP )
b − a a − cP
b − cP
0
0
!
Z cP (s)
Z cP (s)
1
dcP
dcP
=
−
b−a
a − cP
b − cP
0
0
cP (s) !
cP (s) 1
− − ln |b − cP | − ln |a − cP | =
b−a
0
0
cP (s)
1
=
ln |b − cP | − ln |a − cP | b−a
0
cP (s)
b − cP 1
=
ln b−a
a − cP 0
b − cP (s) b
1
1
−
=
(10.29)
ln ln .
b−a
a − cP (s)
b−a
a
Einsetzen von (10.29) in (10.27) liefert
b − cP (s) b
1
1
−
ln ln = k s.
b−a
a − cP (s)
b−a
a
Wir multiplizieren zunächst auf beiden Seiten mit (b − a) und nutzen − ln(x) = ln(1/x)
für − ln(|b/a|) aus
a b − cP (s) ln + ln = k (b − a) s.
a − cP (s)
b
Dann nehmen wir die (natürliche) Exponentialfunktion auf beiden Seiten
a b − cP (s) a b − cP (s) · = ek(b−a)s ,
+ ln =
exp ln a − cP (s) b
a − cP (s) b
| {z
}
a b − cP (s) · exp ln = exp ln a − cP (s)
b
306
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
wobei wir das Gesetz ex+y = ex ·ey für die Exponentialfunktion benutzt haben. Nun nutzen
wir, dass nach Voraussetzung a > 0 und b > 0 gilt, d.h. wir können die Betragsstriche bei
|a/b| weglassen. Wir multiplizieren mit b/a und erhalten
b − cP (s) b k(b−a)s
.
(10.30)
a − cP (s) = a · e
Solange cP (s) ≤ a und cP (s) ≤ b, also cP (s) ≤ min{a, b}, für alle s ≥ 0 gilt, können
die Beträge entfallen. Anschaulich sollte dies für alle Zeiten s ≥ 0 gelten, denn erst beim
vollständigen Umsatz einer der in die Reaktion eingehenden Substanzen sollte cP (s) =
min{a, b} gelten. Für eine mathematisch korrekte Lösung muss diese Annahme im Nachhinein geprüft werden, was wir am Ende machen werden! – Wir nehmen also zunächst an,
dass
cP (s) ≤ a
und
cP (s) ≤ b
für alle s ≥ 0
⇐⇒
cP (s) ≤ min{a, b}
für alle s ≥ 0
gilt, d.h.
a − cP (s) ≥ 0
und
b − cP (s) ≥ 0
für alle s ≥ 0.
Daher lassen wir also die Betragsstriche in (10.30) weg und lösen nach cP (s):
b
b − cP (s)
= · ek(b−a)s
a − cP (s)
a
=⇒
=⇒
=⇒
=⇒
=⇒
b
b − cP (s) = a − cP (s) · · ek(b−a)s
a
b
b − cP (s) = b · ek(b−a)s − cP (s) · · ek(b−a)s
a
b k(b−a)s
cP (s)
·e
− 1 = b · ek(b−a)s − b
a
−1
a − b ek(b−a)s = −b 1 − ek(b−a)s
cP (s) ·
a
1 − ek(b−a)s
cP (s) = a b ·
.
a − b ek(b−a)s
Also finden wir für a 6= b unter der Annahme cP (t) ≤ min{a, b} für alle t ≥ 0 die
folgende Lösung
1 − ek(b−a)t
.
(10.31)
cP (t) = a b ·
a − b ek(b−a)t
Zuletzt müssen wir noch unsere Annahme cP (t) ≤ min{a, b} für alle t ≥ 0 für die
Lösung (10.31) überprüfen. Dazu zeigen wir zunächst, dass cP monoton wachsend
ist. Wenn wir dies nachgewiesen haben, dann wissen wir, dass 0 ≤ cP (t) ≤ limt→∞ cP (t).
Wenn wir anschließend zeigen können, dass limt→∞ cP (t) ≤ min{a, b} gilt, dann haben
wir unsere Annahme nachgewiesen. Ableiten von (10.31) liefert
c′P (t) = a b ·
−k (b − a) ek(b−a)t (a − b ek(b−a)t ) − (1 − ek(b−a)t ) (−1) k (b − a) b ek(b−a)t
(a − b ek(b−a)t )2
= a b k (b − a) ek(b−a)t ·
−(a − b ek(b−a)t ) + b (1 − ek(b−a)t )
(a − b ek(b−a)t )2
10. Gewöhnliche Differentialgleichungen
= a b k (b − a) ek(b−a)t ·
= a b k (b − a) ek(b−a)t ·
= a b k ek(b−a)t ·
307
−a + b ek(b−a)t + b − b ek(b−a)t
(a − b ek(b−a)t )2
b−a
(a − b ek(b−a)t )2
(b − a)2
.
(a − b ek(b−a)t )2
Wegen k > 0, a > 0, b > 0, a 6= b und ex > 0 für alle x ∈ R finden wir also c′P (t) > 0,
d.h. cP ist streng monoton wachsend für alle t.
Betrachten wir nun cP (t) für t → ∞, so müssen wir die beiden Fälle b < a und b > a
unterscheiden.
• Für b < a ist b − a < 0 und b = min{a, b}, und daher gilt
lim ek(b−a)t = 0.
t→∞
Also finden wir
1 − lim ek(b−a)t
1 − ek(b−a)t
1
t→∞
lim cP (t) = lim a b ·
= ab·
= a b = b = min{a, b}.
k(b−a)t
k(b−a)t
t→∞
t→∞
a − be
a − b lim e
a
t→∞
• Für b > a ist b − a > 0 und a = min{a, b}, und daher gilt
lim e−k(b−a)t = 0.
t→∞
Also erweitern wir den Bruch in cP (t) erst mit e−k(b−a)t und erhalten
cP (t) = a b ·
Damit finden wir
e−k(b−a)t − 1
1 − ek(b−a)t
=
a
b
·
.
a − b ek(b−a)t
a e−k(b−a)t − b
lim e−k(b−a)t − 1
e−k(b−a)t − 1
t→∞
lim cP (t) = lim a b · −k(b−a)t
= ab·
t→∞
t→∞
ae
−b
a lim e−k(b−a)t − b
t→∞
= ab·
−1
0−1
= ab ·
= a = min{a, b}.
a·0−b
−b
Wegen c′P (t) > 0 für alle t ≥ 0 folgt cP (t) ≤ limt→∞ cP (t) = min{a, b}, und die Annahme
cP (t) ≤ min{a, b} für alle t ≥ 0 ist gerechtfertigt.
10.3
Lineare Differentialgleichungen erster Ordnung
In diesem Teilkapitel betrachten wir lineare Differentialgleichungen erster Ordnung. Wir
werden sehen, dass alle Lösungen der sogenannten (zugehörigen) homogenen linearen Differentialgleichung von der Form yh (t) = e−A(t) mit einer geeigneten Funktion A(t) sind.
Danach lernen wir, wie man mit dem sogenannten Ansatz der Variation der Konstan”
ten“ ys (t) = u(t) yh(t) eine Lösung der inhomogenen linearen Differentialgleichung erster
Ordnung findet.
308
10.3. Lineare Differentialgleichungen erster Ordnung
Definition 10.20. (lineare Differentialgleichung erster Ordnung) Eine lineare
Differentialgleichung erster Ordnung ist von der Form
a1 (t) y ′(t) + a0 (t) y(t) = g(t).
(10.32)
Ist die Funktion g(t) die Nullfunktion (also g(t) = 0 für alle t) so nennt man (10.32) eine
homogene lineare Differentialgleichung erster Ordnung. Ist g(t) nicht die Nullfunktion,
so nennt man (10.32) eine inhomogene lineare Differentialgleichung erster Ordnung.
Ist (10.32) eine inhomogene lineare Differentialgleichung erster Ordnung, so nennen
wir
a1 (t) y ′(t) + a0 (t) y(t) = 0.
(10.33)
die zu (10.32) zugehörige homogene lineare Differentialgleichung erster Ordnung.
Indem wir (10.32) und (10.33) durch a1 (t) 6= 0 teilen, können wir jeweils zu der Stan”
dardform“ eine linearen Differentialgleichung erster Ordnung übergehen:
y ′(t) + a(t) y(t) = f (t)
bzw.
y ′ (t) + a(t) y(t) = 0,
(10.34)
wobei wir a(t) = a0 (t)/a1 (t) und f (t) = g(t)/a1(t) gesetzt haben.
Betrachten wir zunächst ein paar Beispiele.
Beispiel 10.21. (lineare Differentialgleichungen erster Ordnung)
(a) y ′ (t) + y(t)/t = 0 ist eine homogene lineare Differentialgleichung erster Ordnung in
Standardform mit a(t) = 1/t.
(b) y ′ (t) = t + y(t) können wir schreiben als
y ′(t) − y(t) = t.
Also ist dieses eine inhomogene lineare Differentialgleichung erster Ordnung in Standardform mit a(t) = −1 und f (t) = t.
(c) t2 y ′ (t) − t3 y(t) = 7 t3 ist eine inhomogene lineare Differentialgleichung erster Ordnung, die sich nicht in Standardform befindet. Um die Differentialgleichung in die
Standardform zu überführen, teilen wir (für t 6= 0) durch t2 und erhalten
y ′(t) − t y(t) = 7 t.
2
(d) y ′ (t) + y(t) = 17 ist keine lineare Differentialgleichung erster Ordnung, weil der
2
Term y(t) quadratisch (und nicht linear) in y(t) ist.
Die allgemeine Lösung einer linearen Differentialgleichung erster Ordnung (10.32) ist
die Summe aus einer (speziellen) Lösung ys dieser Gleichung und der allgemeinen
Lösung yh der zugehörigen homogenen linearen Differentialgleichung erster Ordnung
(10.33). Unter einer allgemeinen Lösung einer Differentialgleichung versteht man dabei
die allgemeinste Form der Lösung, bei der alle involvierten Konstanten noch passend
10. Gewöhnliche Differentialgleichungen
309
gewählt werden können. Geben wir einen Anfangswert vor, so werden die Konstanten
natürlich festgelegt.
Wir erklären nun wie man zunächst die zugehörige homogene Differentialgleichung erster
Ordnung (10.33) und anschließend die inhomogene Differentialgleichung erster Ordnung
(10.32) löst.
Lösungsmethode 10.22. (für eine lineare Differentialgleichung 1. Ordnung)
(1) Wir teilen (10.32) durch a1 (t) 6= 0 und bringen die lineare Differentialgleichung erster
Ordnung in die Standardform (10.34), also
y ′(t) + a(t) y(t) = f (t)
(10.35)
mit a(t) = a0 (t)/a1 (t) und f (t) = g(t)/a1 (t).
(2) Nun bestimmen wir die allgemeine Lösung der zugehörigen homogenen linearen Differentialgleichung erster Ordnung
y ′(t) + a(t) y(t) = 0
y ′ (t) = −a(t) y(t).
⇐⇒
(10.36)
Dies ist eine Differentialgleichung mit getrennten Variablen, die wir mit
Separation/Trennung der Variablen lösen können. Für y(t) 6= 0 folgt
y ′(t)
= −a(t),
y(t)
und Integration über t liefert
Z
y ′(t)
dt = −
y(t)
Z
a(t) dt,
und für die linke Seite erhalten wir mit der Substitution y = y(t), dy = y ′(t) dt,
Z
Z ′
h
i
1
y (t)
dt =
dy
= ln |y| + c
= ln |y(t)| + c.
y(t)
y
y=y(t)
y=y(t)
Also finden wir
ln |y(t)| + c = −
⇐⇒
⇐⇒
⇐⇒
Z
a(t) dt ⇐⇒
ln |y(t)| = −c −
Z
R
|y(t)| = exp −c − a(t) dt = e−c e− a(t) dt
y(t) = e−c e−
y(t) = C e−
R
R
a(t) dt
a(t) dt
oder
Z
y(t) = −e−c e−
a(t) dt
R
a(t) dt
mit einer Konstanten C 6= 0.
Da y(t) = 0 aber auch eine Lösung der homogenen Differentialgleichung (10.36) ist,
dürfen wir die Konstante C auch als C = 0 wählen. Also ist die allgemeine Lösung
der homogenen Differentialgleichung (10.36) durch
Z
R
yh (t) = C exp − a(t) dt = C e− a(t) dt
mit einer Konstanten C ∈ R
(10.37)
310
10.3. Lineare Differentialgleichungen erster Ordnung
gegeben.
Falls unsere lineare Differentialgleichung erster Ordnung homogen ist, also falls in
(10.35) f (t) = 0 ist, sind wir fertig. Andernfalls führen wir die nächsten beiden
Schritte aus.
(3) Nun bestimmen wir eine spezielle Lösung der inhomogenen linearen Differentialgleichung erster Ordnung (10.35) mit dem sogenannten Ansatz der Variation
”
der Konstanten“: Hier macht man den Ansatz
ys (t) = u(t) yh (t)
(10.38)
für eine spezielle Lösung der inhomogenen Gleichung (10.35), wobei yh die bereits in Schritt (2) berechnete Lösung (10.37) der zugehörigen homogenen Gleichung
(10.36) ist. Setzen wir unseren Ansatz ys (t) = u(t) yh (t) in die inhomogene Gleichung
(10.35) ein, so finden wir mit der Produktregel
f (t) = ys′ (t) + a(t) ys (t)
′
= u(t) yh (t) + a(t) u(t) yh (t)
= u′(t) yh (t) + u(t) yh′ (t) + a(t) u(t) yh(t)
= u′(t) yh (t) + u(t) yh′ (t) + a(t) yh (t)
{z
}
|
=0
= u′(t) yh (t),
wobei wir im vorletzten Schritt genutzt haben, dass yh eine Lösung der zugehörigen
homogenen linearen Differentialgleichung ist. Also finden wir, dass u = u(t) die
folgende Differentialgleichung erfüllen muss
u′ (t) yh (t) = f (t)
⇐⇒
u′ (t) =
die wir durch direkte“ Integration lösen können:
”
Z
f (t)
u(t) =
dt.
yh (t)
f (t)
,
yh (t)
(10.39)
Hierbei darf die Integrationskonstante weglassen werden, denn wir interessieren uns
nur für eine spezielle Lösung (und nicht für die allgemeine Lösung). Ebenso können
wir im Ansatz (10.38) und damit dann in (10.39) die Integrationskonstante C in der
allgemeinen Lösung (10.37) fest (aber ungleich Null) wählen, z.B. C = 1.
(4) Die allgemeine Lösung der linearen inhomogenen Differentialgleichung erster Ordnung ist die Summe aus der allgemeinen Lösung yh der zugehörigen homogenen Gleichung und einer speziellen Lösung ys der inhomogenen
Gleichung, also
y(t) = yh (t) + ys (t) = yh (t) + u(t) yh (t),
(10.40)
| {z }
= ys (t)
wobei wir die allgemeine Lösung yh = yh (t) der zugehörigen homogenen Gleichung
mit (10.37) und die Funktion u = u(t) mit (10.39) berechnen.
10. Gewöhnliche Differentialgleichungen
311
Man kann sich entweder einfach die relevanten Formeln (10.40), (10.37) und (10.39) merken, oder man kann auch den Lösungsprozess direkt durchführen, indem man die homogene Differentialgleichung mit Separation der Variablen löst und anschliessend den Ansatz
Variation der Konstanten“ ys (t) = u(t) yh(t) verwendet. Dies ist Geschmacksache. Die
”
zweite Variante ist weniger fehleranfällig aber dafür mehr Schreibaufwand. Wir führen
beide Vorgehensweisen für Beispiele durch. Das Ergebnis ist natürlich immer das gleiche.
Betrachten wir einige Beispiele. Wir verwenden erst die kürzere Variante“ der Lösung,
”
bei der wir die Formeln (10.40), (10.37) und (10.39) einfach anwenden.
Beispiel 10.23. (inhomogene lineare DGL erster Ordnung) Betrachten wir das
Anfangswertproblem
y ′(t) + y(t) = sin(t),
y(0) = 1.
(10.41)
Diese lineare Differentialgleichung erster Ordnung ist bereits in Standardform.
Da a(t) = 1 ist, finden wir nach (10.37) für die allgemeine Lösung der zugehörigen homogenen Gleichung die Formel
Z
Z
yh (t) = C exp − a(t) dt = C exp − 1 dt = C exp(−t) = C e−t
mit einer Konstanten C ∈ R. Um eine spezielle Lösung ys (t) = u(t) yh (t) der inhomogenen
Gleichung zu finden, setzen wir in dem Ansatz C = 1 und berechnen wir u = u(t) mit
(10.39) wie folgt:
Z
Z
Z
sin(t)
sin(t)
u(t) =
dt =
dt =
et
sin(t) dt
|{z}
| {z }
yh (t)
e−t
= h′ (t) = v(t)
Z
t
cos(t) dt
= e sin(t) −
et
|{z}
| {z }
= w ′ (t) = x(t)
Z
t
t
t
= e sin(t) − e cos(t) − e − sin(t) dt
t
=e
sin(t) − cos(t) −
Z
et sin(t) dt,
wobei wir im zweiten Schritt partielle Integration mit h(t) = et , h′ (t) = et , v(t) = sin(t),
v ′ (t) = cos(t) und im dritten Schritt partielle Integration mit w(t) = et , w ′(t) = et ,
x(t) = cos(t), x′ (t) = − sin(t) verwendet haben. Wir können nun das Restintegral auf der
rechten Seite auf beiden Seiten addieren und erhalten
Z
1
2 u(t) = 2 et sin(t) dt = et sin(t) − cos(t)
=⇒
u(t) = et sin(t) − cos(t) .
2
Also ist eine spezielle Lösung der inhomogenen linearen Differentialgleichung durch
ys (t) = u(t) yh (t) =
1
1 t
sin(t) − cos(t)
e sin(t) − cos(t) e−t =
2
2
312
10.3. Lineare Differentialgleichungen erster Ordnung
gegeben, wobei wir in yh (t) wieder C = 1 gesetzt haben. Die allgemeine Lösung der
inhomogenen Differentialgleichung ist also
y(t) = yh (t) + ys (t) = C e−t +
Für den Anfangswert y(0) = 1 finden wir
1 = y(0) = C e0 +
1
sin(t) − cos(t) .
2
1
1
1
sin(0) − cos(0) = C + (0 − 1) = C −
2
2
2
=⇒
C=
3
.
2
Also ist die Lösung des Anfangswertproblems (10.41)
y(t) =
3 −t 1
sin(t) − cos(t) .
e +
2
2
Wollen wir uns die Formeln (10.40), (10.37) und (10.39) nicht merken, so müssen wir
etwas mehr Arbeit leisten. Wir führen dies für die Differentialgleichung aus dem vorigen
Beispiel auch einmal durch.
Beispiel 10.24. (inhomogene lineare DGL erster Ordnung) Betrachten wir wieder
das Anfangswertproblem aus dem vorigen Beispiel
y ′ (t) + y(t) = sin(t),
y(0) = 1.
Diese lineare Differentialgleichung erster Ordnung ist bereits in Standardform.
Wir lösen zuerst die zugehörige homogene Gleichung
y ′ (t) + y(t) = 0
y ′(t) = −y(t).
⇐⇒
Für y(t) 6= 0 teilen wir durch y(t) und finden
y ′ (t)
= −1.
y(t)
Integration auf beiden Seiten über t liefert jeweils
Z
(−1) dt = −t + c0 ,
Z
Z ′
1
y (t)
dt =
dy
= ln |y| + c1 y=y(t) = ln |y(t)| + c1 .
y(t)
y
y=y(t)
Also finden wir
ln |y(t)| + c1 = −t + c0
=⇒
⇐⇒
|y(t)| = e−t+c = ec e−t
ln |y(t)| = −t + c0 − c1
| {z }
=c
=⇒
y(t) = ±ec · e−t = C e−t ,
|{z}
=C
10. Gewöhnliche Differentialgleichungen
313
wobei wir in der zweiten Zeile auf beiden Seiten die (natürliche) Exponentialfunktion
genommen haben. Da auch y(t) = 0 eine Lösung von y ′(t) + y(t) = 0 ist, können wir
die Konstante C auch als C = 0 wählen. Also ist die allgemeine Lösung der homogenen
Gleichung y ′(t) + y(t) = 0
yh (t) = C e−t
mit einer Konstanten C ∈ R.
Nun finden wir eine Lösung der inhomogenen Gleichung y ′(t) + y(t) = sin(t) mit dem
Ansatz der Variation der Konstanten“
”
ys (t) = u(t) yh (t) = u(t) e−t ,
wobei wir hier die Konstante C in yh als C = 1 wählen dürfen. Einsetzen in die inhomogene
Gleichung liefert:
′
sin(t) = ys′ (t) + ys (t) = u(t) yh(t) + u(t) yh(t)
= u′ (t) yh (t) + u(t) yh′ (t) + u(t) yh (t)
= u′ (t) yh (t) + u(t) yh′ (t) + yh (t)
|
{z
}
=0
= u′ (t) yh (t).
Also gilt
u′ (t) yh (t) = u′ (t) e−t = sin(t)
=⇒
u′ (t) =
sin(t)
= et sin(t).
−t
e
Mittels zweifacher partieller Integration finden wir wie in Beispiel 10.23
u(t) =
1 t
e sin(t) − cos(t) .
2
Also ist eine spezielle Lösung der Differentialgleichung durch
ys (t) = u(t) yh (t) =
1 t
1
sin(t) − cos(t)
e sin(t) − cos(t) e−t =
2
2
gegeben, wobei wir in yh (t) wieder C = 1 gesetzt haben. Die allgemeine Lösung der
inhomogenen Differentialgleichung ist also
y(t) = yh (t) + ys (t) = C e−t +
1
sin(t) − cos(t) .
2
Für den Anfangswert y(0) = 1 finden wir analog zu Beispiel 10.23 die Konstante C = 3/2,
und die Lösung des Anfangswertproblems ist
y(t) =
3 −t 1
sin(t) − cos(t) .
e +
2
2
Die nachfolgenden Beispiele lösen wir, indem wir die Formeln (10.40), (10.37) und (10.39)
einfach anwenden.
314
10.3. Lineare Differentialgleichungen erster Ordnung
Beispiel 10.25. (lineare inhomogene DGL erster Ordnung) Wir wollen die lineare
inhomogene Differentialgleichung
y ′ (t) − y(t) = t
lösen. Diese ist bereits in der Standardform mit a(t) = −1. Wir wenden Formel (10.37)
an, um die allgemeine Lösung der zugehörigen homogenen Gleichung y ′(t) − y(t) = 0 zu
finden: Mit a(t) = −1 erhalten wir
Z
Z
1 dt = C exp(t) = C et .
yh (t) = C exp − (−1) dt = C exp
Um eine spezielle Lösung der inhomogenen Gleichung zu finden, nutzen wir den Ansatz
ys (t) = u(t) yh (t). Nach Formel (10.39) berechnet sich u(t) wir folgt:
Z
Z
Z
t
−t
−t
u(t) =
dt =
t
e
dt = t · (−e ) − 1 · (−e−t ) dt
|{z}
|{z}
et
= w(t) = v ′ (t)
Z
−t
= −t e + e−t dt = −t e−t − e−t = (−1 − t) e−t ,
wobei wir in der ersten Zeile partielle Integration mit w(t) = t, w ′ (t) = 1, v(t) = e−t ,
v ′ (t) = −e−t benutzt haben. Also finden wir als eine spezielle Lösung
ys (t) = u(t) yh (t) = (−1 − t) e−t et = −1 − t.
Damit ist die allgemeine Lösung der inhomogenen Differentialgleichung
y(t) = yh (t) + ys (t) = C et − 1 − t.
Beispiel 10.26. (lineare inhomogene DGL erster Ordnung) Wir wollen das Anfangswertproblem
t2 y ′ (t) − t3 y(t) = 7 t3 ,
y(1) = 0,
lösen. Diese inhomogene Differentialgleichung ist noch nicht in Standardform. Mittels
Division durch t2 6= 0 erhalten wir die Standardform
y ′ (t) − t y(t) = 7 t,
und wir haben a(t) = −t. Also finden wir als allgemeine Lösung der zugehörigen homogenen Gleichung
Z
Z
2
t
2
= C et /2 .
yh (t) = C exp − (−t) dt = C exp
t dt = C exp
2
Um eine spezielle Lösung ys der inhomogenen Gleichung zu finden, nutzen wir den Ansatz
der Variation der Konstanten“ ys (t) = u(t) yh (t) und haben als Formel für u = u(t)
”
Z
Z
Z
7t
7t
2
e−t /2 (−t) dt.
dt =
u(t) =
2 /2 dt = −7
t
yh (t)
e
10. Gewöhnliche Differentialgleichungen
315
Mit der Substitution s = −t2 /2 und damit ds/dt = −2t/2 = −t, also −t dt = ds, finden
wir
Z
Z
2
−t2 /2
s
u(t) = −7 e| {z } (−t) dt = −7 e ds
= − 7 es s=−t2 /2 = −7 e−t /2 .
| {z }
s=−t2 /2
es
= ds
Also finden wir als eine spezielle Lösung
2 /2
ys (t) = u(t) yh(t) = −7 e−t
2 /2
et
= −7.
Die allgemeine Lösung der inhomogenen Gleichung ist damit durch
2 /2
y(t) = yh (t) + ys (t) = C et
−7
gegeben, und für den Anfangswert y(1) = 0 erhalten wir
0 = y(1) = C e1/2 − 7
=⇒
7 = C e1/2
=⇒
7
e1/2
= C.
Also ist die Lösung der Anfangswertproblems
2
7 2
2
y(t) = 1/2 et /2 − 7 = 7 e−1/2 et /2 − 1 = 7 e(t −1)/2 − 1 .
e
Wir fassen unsere Vorgehensweise noch einmal zusammen.
Bemerkung 10.27. (Zusammenfassung: Lösen einer inhomogenen linearen Differentialgleichung erster Ordnung) Um eine inhomogene lineare Differentialgleichung
erster Ordnung
y ′(t) + a(t) y(t) = f (t)
(10.42)
zu lösen, lösen wir zuerst die zugehörige homogene Gleichung
y ′ (t) + a(t) y(t) = 0
(10.43)
mit Separation der Variablen (vgl. Bemerkung 10.18). Mit der allgemeinen Lösung yh von
(10.43) wählen wir dann für eine spezielle Lösung
Z
f (t)
ys (t) = u(t) yh (t)
mit
u(t) =
dt.
yh (t)
Die allgemeine Lösung von (10.42) ist dann
y(t) = yh (t) + ys (t).
Betrachten wir am Ende des Kapitels noch ein Anwendungsproblem aus der Chemie.
Anwendung 10.28. (Folgereaktion in der Chemie) Betrachten wir die Folgereaktion
k
k
A →1 B →2 P . Zur Zeit t = 0 seien die Konzentrationen cA (t), cB (t) und cP (t) der
Substanzen A, B und P gegeben durch cA (0) = a, cB (0) = 0, cP (0) = 0, d.h. wenn die
316
10.3. Lineare Differentialgleichungen erster Ordnung
chemische Reaktion startet liegt nur die Substanz A vor (also nur die Substanz A hat eine
Konzentration cA (0) = a größer als Null).
Wir wollen die Frage beantworten, wie sich die Konzentration von P zeitlich verändert?
Zunächst stellen wir das System der Differentialgleichungen auf (vgl. auch Anwendung
10.11 (d)):
c′A (t) = −k1 cA (t),
c′B (t) =
c′P (t) =
k1 cA (t) − k2 cB (t),
k2 cB (t),
cA (0) = a,
(10.44)
cB (0) = 0,
(10.45)
cP (0) = 0.
(10.46)
1. Schritt: Zunächst lösen wir die erste Gleichung: Diese ist eine lineare homogene Differentialgleichung erster Ordnung
c′A (t) + k1 cA (t) = 0
(10.47)
in Standardform mit a(t) = k1 . Also finden wir die allgemeine Lösung
Z
Z
cA (t) = C exp − a(t) dt = C exp − k1 dt = C exp(−k1 t) = C e−k1 t . (10.48)
Aus der Anfangsbedingung folgt a = cA (t) = C e−k1 0 = C, also C = a. Damit ist die
Lösung des Anfangswertproblems (10.44)
cA (t) = a e−k1 t .
(10.49)
2. Schritt: Wir setzen nun (10.49) in (10.45) ein und erhalten
c′B (t) + k2 cB (t) = k1 a e−k1 t ,
cB (0) = 0.
(10.50)
Dies ist eine inhomogene lineare Differentialgleichung erster Ordnung in Standardform
mit einem Anfangswert und mit a(t) = k2 . Wir finden für die Lösung der zugehörigen
homogenen Gleichung
c′B (t) + k2 cB (t) = 0
(10.51)
die allgemeine Lösung
cB,h (t) = C exp(−k2 t) = C e−k2 t .
Hier haben wir benutzt, dass (10.51) gerade die Differentialgleichung (10.47) wird, wenn
wir cB durch cA und k2 durch k1 ersetzen. Daher erhalten wir aus (10.48) gerade die
allgemeine Lösung von (10.51), indem wir cA durch cB und k1 durch k2 ersetzen. Mit
dem Ansatz der Variation der Konstanten“ cB,s (t) = u(t) cB,h (t) (mit C = 1 in cB,h )
”
berechnen wir eine spezielle Lösung der inhomogenen Gleichung. Dabei ist die Formel für
u = u(t)
u(t) =
Z
k1 a e−k1 t
dt =
cB,h (t)
Z
k1 a e−k1 t
dt = k1 a
e−k2 t
Z
e(k2 −k1 )t dt
10. Gewöhnliche Differentialgleichungen
317
=





a k1
e(k2 −k1 )t
(k2 − k1 )
für k1 6= k2 ,
a k1 t
für k1 = k2 .
Also finden wir als eine spezielle Lösung der inhomogenen Differentialgleichung (10.50)

a k1
a k1


e(k2 −k1 )t e−k2 t =
e−k1 t
für k1 6= k2 ,
−k2 t
(k2 − k1 )
(k2 − k1 )
cB,s (t) = u(t) e
=


a k1 t e−k2 t = a k1 t e−k1 t
für k1 = k2 .
Also finden wir für die allgemeine Lösung der inhomogenen Differentialgleichung (10.50)

a k1

 C e−k2 t +
e−k1 t
für k1 6= k2 ,
(k
−
k
)
2
1
cB (t) = cB,h (t) + cB,s (t) =


C e−k1 t + a k1 t e−k1 t
für k1 = k2 .
Einsetzen der Anfangswertbedingung cB (0) = 0 liefert

a k1
a k1

 C e−k2 0 +
e−k1 0 = C +
(k2 − k1 )
(k2 − k1 )
0 = cB (0) =


C e−k1 0 + a k1 0 e−k1 0 = C
Also erhalten wir
C=


 −


0
a k1
(k2 − k1 )
für k1 6= k2 ,
für k1 = k2 .
für k1 6= k2 ,
für k1 = k2 ,
und die Lösung des Anfangswertsproblems (10.45) ist

a k1


e−k1 t − e−k2 t
(k2 − k1 )
cB (t) =


a k1 t e−k1 t
für k1 6= k2 ,
(10.52)
für k1 = k2 .
Schritt 3: Wir setzen (10.52) in (10.46) ein und erhalten die lineare inhomogene Differentialgleichung erster Ordnung

a k1 k2


e−k1 t − e−k2 t
für k1 6= k2 ,
(k2 − k1 )
c′P (t) = k2 cB (t) =


a k12 t e−k1 t
für k1 = k2 .
Durch direkte“ Integration erhalten wir
”
 Z
a k1 k2

−k1 t
−k2 t

e
−
e
dt


(k2 − k1 )
cP (t) =
Z



a k 2 t e−k1 t dt

1
für k1 6= k2 ,
für k1 = k2 .
318
10.4. Lineare Differentialgleichungen zweiter Ordnung
Wir berechnen die beiden Integrale separat: Für den Fall k1 6= k2 finden wir
Z
a k1 k2
a k1 k2
1
1
−k1 t
−k2 t
−k1 t
−k2 t
+C
e
−e
dt =
e
−
e
(k2 − k1 )
(k2 − k1 ) (−k1 )
(−k2 )
a
k1 e−k2 t − k2 e−k1 t + C,
=
(k2 − k1 )
und für den Fall k1 = k2 finden wir mittels partieller Integration
Z
Z
1
1
2
−k1 t
2
−k1 t
a k1 t e
dt = a k1 t
e
− a k12
e−k1 t dt
(−k1 )
(−k1 )
1
= −a k1 t e−k1 t + a k1
e−k1 t = −a k1 t e−k1 t − a e−k1 t + C.
(−k1 )
Also finden wir für die allgemeine Lösung von c′P (t) = k2 cB (t)

a


k1 e−k2 t − k2 e−k1 t + C
für k1 6= k2 ,
(k2 − k1 )
cP (t) =

 −a k t e−k1 t − a e−k1 t + C
für k1 = k2 .
1
Mit der Anfangsbedingung cP (0) = 0 erhalten wir somit

a
a (k1 − k2 )


k1 e−k2 0 − k2 e−k1 0 + C =
+ C = −a + C
(k2 − k1 )
(k2 − k1 )
0 = cP (0) =


−a k1 0 e−k1 0 − a e−k1 0 + C = −a + C
für k1 6= k2 ,
für k1 = k2 ,
d.h. in beiden Fällen erhalten wir 0 = −a + C, also C = a. Somit ist die Lösung des
Anfangswertproblems (10.46)
 1

−k2 t
−k1 t
 a 1+
für k1 6= k2 ,
k1 e
− k2 e
(k2 − k1 )
cP (t) =


−a k1 t e−k1 t − a e−k1 t + a = a 1 − (k1 t + 1) e−k1t
für k1 = k2 .
10.4
Lineare Differentialgleichungen zweiter Ordnung
In diesem Teilkapitel lernen wir lineare gewöhnliche Differentialgleichungen zweiter Ordnung kennen. Im Gegensatz zur linearen Differentialgleichungen erster Ordnung, die wir
immer lösen können, indem wir zunächst die zugehörige homogene Gleichung mit Separation/Trennung der Variablen lösen und dann eine Lösung zu der inhomogenen Gleichung mit dem Ansatz Variation der Konstanten“ bestimmen, gibt es keinen allgemeinen
”
Lösungsansatz für lineare Differentialgleichungen zweiter Ordnung. Wir werden hier nur
einen Spezialfall, nämlich lineare Differentialgleichungen zweiter Ordnung mit konstanten
Koeffizienten betrachten. In diesem Sonderfall lässt sich die zugehörige homogene Differentialgleichung mit dem Ansatz y(t) = eλt leicht lösen. Für rechte Seiten der inhomogenen Differentialgleichung, die eine bestimmte Form haben, findet man mit der Methode
”
der unbestimmten Koeffizienten“ eine spezielle Lösung der inhomogenen Gleichung. Falls
10. Gewöhnliche Differentialgleichungen
319
dieser Ansatz nicht verwendet werden kann, liefert eine Verallgemeinerung des Ansatzes
der Variation der Konstanten“ für Differentialgleichungen zweiter Ordnung eine spezielle
”
Lösung der inhomogenen Gleichung. Wie im Fall linearer Differentialgleichungen erster
Ordnung erhält man die allgemeine Lösung der inhomogenen Gleichung, indem man die
Summe einer speziellen Lösung der inhomogenen Gleichung und der allgemeinen Lösung
der zugehörigen homogenen Gleichung bildet.
Definition 10.29. (lineare Differentialgleichung zweiter Ordnung) Eine lineare
Differentialgleichung zweiter Ordnung ist von der Form
a2 (t) y ′′(t) + a1 (t) y ′(t) + a0 (t) y(t) = g(t).
(10.53)
Ist die Funktion g(t) die Nullfunktion (also g(t) = 0 für alle t) so nennt man (10.53) eine
homogene lineare Differentialgleichung zweiter Ordnung. Ist g(t) nicht die Nullfunktion,
so nennt man (10.53) eine inhomogene lineare Differentialgleichung zweiter Ordnung.
Ist (10.53) eine inhomogene lineare Differentialgleichung zweiter Ordnung, so nennen
wir
a2 (t) y ′′(t) + a1 (t) y ′(t) + a0 (t) y(t) = 0
(10.54)
die zu (10.53) zugehörige homogene lineare Differentialgleichung zweiter Ordnung.
Indem wir (10.53) und (10.54) durch a2 (t) 6= 0 teilen, können wir jeweils zu der Stan”
dardform“ einer linearen Differentialgleichung zweiter Ordnung übergehen:
y ′′(t) + a(t) y ′(t) + b(t) y(t) = f (t)
bzw.
y ′′(t) + a(t) y ′ (t) + b(t) y(t) = 0, (10.55)
wobei wir a(t) = a1 (t)/a2 (t), b(t) = a0 (t)/a2 (t) und f (t) = g(t)/a2 (t) gesetzt haben.
Betrachten wir zunächst ein paar Beispiele.
Beispiel 10.30. (lineare Differentialgleichungen zweiter Ordnung)
(a) Die Differentialgleichung
sin(t) y ′′ (t) +
1 ′
y (t) + 17 y(t) = 13 et
t
ist eine inhomogene lineare Differentialgleichung zweiter Ordnung, die sich nicht in
Standardform befindet. Teilen wir für t 6= kπ, k ∈ Z, durch sin(t) 6= 0, so erhalten wir
die Standardform
y ′′(t) +
17
13 et
1
y ′ (t) +
y(t) =
,
t sin(t)
sin(t)
sin(t)
t 6= kπ mit k ∈ Z.
(b) Die Differentialgleichung
cos(t)
y(t) = sin(t)
t2 + 1
ist eine inhomogene lineare Differentialgleichung zweiter Ordnung in Standardform.
y ′′ (t) +
320
10.4. Lineare Differentialgleichungen zweiter Ordnung
2
(c) y ′′ (t) + 13 y ′(t) + 7 y(t) = 0 ist keine lineare (sondern eine nichtlineare) Differentialgleichung zweiter Ordnung, denn die erste Ableitung tritt quadriert auf.
(d) Die Differentialgleichung
23 y ′′(t) + 46 y ′(t) + 69 y(t) = 92 et
(10.56)
ist eine inhomogene Differentialgleichung zweiter Ordnung, die sich noch nicht in Standardform befindet. Wir erhalten die Standardform, indem wir durch 23 teilen, also
y ′′ (t) + 2 y ′(t) + 3 y(t) = 4 et .
(10.57)
Bei dieser Sorte von Differentialgleichung sprechen wir von einer linearen Differentialgleichung mit konstanten Koeffizienten, da die Koeffizientenfunktionen a2 (t) = 23,
a1 (t) = 46 und a0 (t) = 69 in (10.56) bzw. die Koeffizientenfunktionen a(t) = 2 und
b(t) = 3 in (10.57) alle konstante Funktionen sind. Dies ist der Typ linearer Differentialgleichungen zweiter Ordnung, mit dem wir uns in diesem Teilkapitel befassen
werden.
Analog zu linearen Differentialgleichungen erster Ordnung können wir auch bei linearen
Differentialgleichungen zweiter Ordnung die Lösung als Summe der allgemeinen Lösung
der zugehörigen homogenen Differentialgleichung und einer speziellen Lösung der inhomogenen Differentialgleichung schreiben. Ist also yh die allgemeine Lösung zu (10.54)
und ist ys eine spezielle Lösung zu (10.53), so ist die allgemeine Lösung der inhomogenen Gleichung (10.53) von der Form y(t) = yh (t) + ys (t). Dabei ist yh von der Form
yh (t) = c1 y1 (t) + c2 y2 (t), mit Konstanten c1 und c2 , wobei die Funktionen y1 und y2 beide
Lösungen von (10.53) sind und es keine Konstante c gibt, so dass gilt y1 (t) = c y2 (t) oder
y2 (t) = c y1(t) (d.h. keine der beiden Funktionen y1 bzw. y2 ist ein Vielfaches der anderen
Funktion). Also finden wir, dass die allgemeine Lösung der linearen inhomogenen
Differentialgleichung zweiter Ordnung (10.53) von der Form
y(t) = yh (t) + ys (t) = c1 y1 (t) + c2 y2 (t) + ys (t)
ist, wobei die Konstanten c1 und c2 festgelegt sind, sobald wir zwei Anfangswerte y(t0 )
und y ′(t0 ) vorgeben.
Nur in speziellen Fällen können wir aber ein Lösungsverfahren für die zugehörige homogene Differentialgleichung (10.54) angeben. Ein solcher Fall sind Differentialgleichungen
mit konstanten Koeffizienten.
Definition 10.31. (lineare Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten) Eine lineare Differentialgleichung zweiter Ordnung von der Form
a2 y ′′ (t) + a1 y ′(t) + a0 y(t) = g(t).
(10.58)
mit Konstanten a2 , a1 , a0 , wobei a2 6= 0 ist, heißt eine lineare Differentialgleichung
zweiter Ordnung mit konstanten Koeffizienten. Ist die Funktion g(t) die Nullfunktion (also g(t) = 0 für alle t) so nennt man (10.58) homogen, und ist g(t) nicht die
Nullfunktion, so nennt man (10.58) inhomogen. Ist (10.58) inhomogen, so nennt man
a2 y ′′(t) + a1 y ′(t) + a0 y(t) = 0.
(10.59)
10. Gewöhnliche Differentialgleichungen
321
die zu (10.58) zugehörige homogene lineare Differentialgleichung zweiter Ordnung
mit konstanten Koeffizienten. Indem wir (10.58) und (10.59) durch a2 6= 0 teilen, können
wir jeweils zu der Standardform“ übergehen:
”
y ′′ (t) + a y ′(t) + b y(t) = f (t)
bzw.
y ′′(t) + a y ′ (t) + b y(t) = 0,
(10.60)
wobei wir a = a1 /a2 , b = a0 /a2 und f (t) = g(t)/a2 gesetzt haben.
Wir lösen eine Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten wie im
Folgenden in Lösungsmethoden 10.32, 10.38 und 10.43 beschrieben.
Lösungsmethode 10.32. (lineare DGL 2. Ordnung mit konstanten Koeffizienten – Teil 1: Lösung der zugehörigen homogenen Gleichung)
(1) Wir teilen (10.58) durch a1 6= 0 und bringen die lineare Differentialgleichung zweiter
Ordnung mit konstanten Koeffizienten in die Standardform (10.60), also
y ′′(t) + a y ′(t) + b y(t) = f (t)
(10.61)
mit a = a1 /a2 , b = a0 /a2 und f (t) = g(t)/a2.
(2) Wir berechnen die Lösung der zugehörigen homogenen Gleichung
y ′′ (t) + a y ′ (t) + b y(t) = 0
(10.62)
mit dem Exponentialfunktion-Ansatz
y(t) = eλt .
Dazu berechnen wir zunächst die erste und zweite Ableitung dieser Funktion,
y(t) = eλt ,
y ′ (t) = λ eλt ,
y ′′ (t) = λ2 eλt ,
und setzen anschließend in die Differentialgleichung (10.62) ein
′′
′
2 λt
λt
λt
2
0 = y (t) + a y (t) + b y(t) = λ e + a λ e + b e = λ + a λ + b eλt .
Da die Exponentialfunktion eλt niemals den Wert Null hat, muss also gelten
0 = λ2 + a λ + b.
(10.63)
Man nennt (10.63) die charakteristische Gleichung der Differentialgleichung
(10.62). Nun finden wir die Lösungen dieser Gleichung:
2
a2 a2
a 2
a
a
2
2
−
+b= λ+
−b
−
0 = λ + aλ+ b = λ + 2 λ +
2
4
4
2
4
| {z }
=D
√
√
a
a
= λ+ − D
λ+ + D ,
2
2
322
10.4. Lineare Differentialgleichungen zweiter Ordnung
wobei wir zunächst die quadratische Ergänzung, dann die zweite binomische Formel und zuletzt die dritte binomische Formel angewendet haben. Die quadratische
Gleichung 0 = λ2 + a λ + b hat also die beiden Lösungen
λ1 = −
a √
+ D
2
und
λ2 = −
a √
− D
2
mit
D=
a2
− b.
4
Das Vorzeichen der Diskriminante D entscheidet also über den Typ der allgemeinen Lösung.
(3) Wir betrachten nun die drei Fälle D > 0, D = 0 und D < 0 separat.
1. Fall: Ist D > 0, so sind beide Lösungen λ1 und λ2 reell und verschieden.
Dann ist die allgemeine Lösung zu der homogenen Gleichung (10.62)
yh (t) = c1 eλ1 t + c2 eλ2 t
mit Konstanten c1 , c2 ∈ R.
(10.64)
2. Fall: Ist D = 0 so haben wir eine doppelte“ reelle Lösung λ1 = λ2 = −a/2.
”
Dann ist die allgemeine Lösung zu der homogenen Gleichung (10.62)
yh (t) = c1 eλ1 t + c2 t eλ1 t
mit Konstanten c1 , c2 ∈ R.
(10.65)
(Durch Einsetzen in (10.62) überzeugt man sich leicht, dass auch t eλ1 t eine Lösung
der homogenen Gleichung (10.62) ist:
(t eλ1 t )′′ + a (t eλ1 t )′ + b t eλ1 t
= (eλ1 t + t λ1 eλ1 t )′ + a (eλ1 t + t λ1 eλ1 t ) + b t eλ1 t
= (λ1 eλ1 t + λ1 eλ1 t + t λ21 eλ1 t ) + a (eλ1 t + t λ1 eλ1 t ) + b t eλ1 t
λ1 t
2
= 2 λ1 + a e + λ1 + a λ1 + b t eλ1 t
a λ1 t 2
e + λ1 + a λ1 + b t eλ1 t = 0,
= 2 λ1 +
2
|
{z
}
| {z }
=0
=0
wobei wir in der vierten Zeile nach Termen mit dem Faktor t eλ1 t bzw. dem Faktor
eλ1 t sortiert haben. In der letzten Zeile nutzen wir λ1 = −a/2 und die Information,
dass λ1 gerade die Gleichung λ2 + a λ + b = 0 löst.)
3. Fall: Ist D < 0, so liegen zwei zueinander konjugiert komplexe Lösungen
√
a
a
λ1 = − + i ω
und
λ2 = − − i ω
mit
ω = −D
2
2
vor. Dann gilt nach dem Eulerschen Theorem (vgl. Satz 1.60)
λ1 t
(− a2 +iω)t
− a2 t+iωt
− a2 t iωt
− a2 t
e =e
cos(ωt) + i sin(ωt) ,
=e
=e
e =e
a
a
a
a
eλ2 t = e(− 2 −iω)t = e− 2 t−iωt = e− 2 t e−iωt = e− 2 t cos(ωt) − i sin(ωt) .
Dies sind zwei komplexwertige Lösungen von (10.62), die zueinander konjugiert komplex sind. Alle Funktionen der Form
y(t) = c1 eλ1 t + c2 eλ2 t
10. Gewöhnliche Differentialgleichungen
323
mit beliebigen komplexen Konstanten c1 , c2 ∈ C sind ebenfalls Lösungen der DGL
(10.62). Insbesondere sind die beiden reellwertigen Funktionen
a
e− a2 t 1 λ1 t 1 λ2 t e− 2 t cos(ωt) + i sin(ωt) +
cos(ωt) − i sin(ωt)
e + e =
2
2
2
2
a
= e− 2 t cos(ωt),
a
e− a2 t 1 λ1 t
1 λ2 t e− 2 t cos(ωt) + i sin(ωt) −
cos(ωt) − i sin(ωt)
e − e =
2i
2i
2i
2i
− a2 t
=e
sin(ωt)
jeweils Lösungen der homogenen Differentialgleichung (10.62). Also ist die allgemeine (reellwertige) Lösung der homogenen Differentialgleichung (10.62)
a
a
a
(10.66)
yh (t) = c1 e− 2 t cos(ωt) + c2 e− 2 t sin(ωt) = e− 2 t c1 cos(ωt) + c2 sin(ωt)
mit beliebigen Konstanten c1 , c2 ∈ R.
Betrachten wir einige Beispiele.
Beispiel 10.33. (lin. hom. DGL 2. Ord. mit konst. Koeff.: zwei reelle Lösungen
der charakteristischen Gleichung) Die lineare homogene Differentialgleichung zweiter
Ordnung
y ′′ (t) + 4 y ′(t) + 2 y(t) = 0
(10.67)
befindet sich bereits in Standardform. Mit dem Ansatz y(t) = eλt erhalten wir
0 = λ2 eλt + 4 λ eλt + 2 eλt = λ2 + 4 λ + 2 eλt = (λ2 + 4 λ + 4) − 2 eλt
√ √ = (λ + 2)2 − 2 eλt = λ + 2 + 2 λ + 2 − 2 eλt ,
d.h. die charakteristische Gleichung λ2 + 4 λ + 2 = 0 hat zwei unterschiedliche reelle
Lösungen
√
√
und
λ2 = −2 + 2.
λ1 = −2 − 2
Also ist die allgemeine Lösung von (10.67)
yh (t) = c1 e(−2−
√
2)t
+ c2 e(−2+
√
2)t
.
Beispiel 10.34. (lin. hom. DGL 2. Ord. mit konst. Koeff.: doppelte reelle
Lösung der charakteristischen Gleichung) Um die lineare homogene Differentialgleichung zweiter Ordnung
2 y ′′(t) − 12 y ′(t) + 18 y(t) = 0
in Standardform zu erhalten, teilen wir durch 2, also
y ′′(t) − 6 y ′(t) + 9 y(t) = 0.
(10.68)
324
10.4. Lineare Differentialgleichungen zweiter Ordnung
Nun setzen wir den Ansatz y(t) = eλt ein und finden
0 = λ2 eλt − 6 λ eλt + 9 eλt = λ2 − 6 λ + 9 eλt = (λ − 3)2 eλt ,
d.h. die charakteristische Gleichung 0 = (λ − 3)2 hat eine doppelte reelle Lösung
λ1 = λ2 = 3.
Daher hat (10.68) die allgemeine Lösung
yh (t) = c1 e3t + c2 t e3t .
Beispiel 10.35. (lin. hom. DGL 2. Ord. mit konst. Koeff.: zwei zueinander
konjugiert komplexe Lösungen der charakteristischen Gleichung) Die lineare
homogene Differentialgleichung zweiter Ordnung
y ′′(t) + 4 y ′(t) + 6 y(t) = 0
(10.69)
ist bereits in Standardform. Mit dem Ansatz y(t) = eλt erhalten wir
0 = λ2 eλt + 4 λ eλt + 6 eλt = λ2 + 4 λ + 6 eλt = (λ2 + 4 λ + 4) + 2 eλt
√ √ √ 2 λt
2
e = λ + 2 + 2 i λ + 2 − 2 i eλt ,
= (λ + 2) − i 2
d.h. die charakteristische Gleichung λ2 + 4 λ + 6 = 0 hat zwei zueinander konjugiert
komplexe Lösungen
√
√
und
λ2 = −2 + 2 i.
λ1 = −2 − 2 i
Also ist die allgemeine Lösung von (10.69)
√ √ √ √ yh (t) = c1 e−2t cos 2 t + c2 e−2t sin 2 t = e−2t c1 cos 2 t + c2 sin 2 t ,
wobei wir in der Darstellung (10.66) ω =
√
2 und −a/2 = −2 haben.
Bevor wir als zweiten Schritt der Lösung einer linearen Differentialgleichung mit konstanten Koeffizienten diskutieren, wie man eine spezielle Lösung der inhomogenen Gleichung
findet, kommen wir noch einmal auf den Fall zurück, in dem λ1 und λ2 zueinander konjugiert komplex sind.
Bemerkung 10.36. (Interpretation von Fall 3: zwei zueinander konjugiert komplexe Lösungen der charakteristischen Gleichung) Eine andere Darstellung von
(10.66) ist
der Amplitude A ≥ 0 und
− a2 t
sin(ωt − δ)
mit
(10.70)
yh (t) = A e
der Phasenverschiebung δ ∈ [0, 2π).
a
Dies ist eine exponentiell mit dem Faktor e− 2 t abklingende (für a > 0) bzw. anwachsende
(für a < 0) Schwingung mit der Schwingungsfrequenz f = ω/(2π) und der Schwingungsdauer T = 2π/ω.
10. Gewöhnliche Differentialgleichungen
325
Um zu sehen, dass (10.70) wirklich zu (10.66) äquivalent ist, wählt man in (10.66) die
Konstanten c1 und c2 als
c1 = −A sin(δ)
und
c2 = A cos(δ).
(10.71)
Dann liefert Einsetzen in (10.66) und Anwenden des Additionstheorems für den Sinus
a
yh (t) = e− 2 t c1 cos(ωt) + c2 sin(ωt)
h
i
a
= e− 2 t − A sin(δ) cos(ωt) + A cos(δ) sin(ωt)
h
i
a
= A e− 2 t sin(ωt) cos(δ) − sin(δ) cos(ωt)
a
= A e− 2 t sin(ωt − δ).
2
2
Löst man (10.71) nach A und δ, so erhält man wegen sin(δ) + cos(δ) = 1
q
c1
c2
und sin(δ) = − .
und
δ ∈ [0, 2π) mit cos(δ) =
A = c21 + c22
A
A
Einsetzen in (10.70) liefert dann (10.66).
Wir fassen unsere Vorgehensweise beim Bestimmen der Lösung der zu (10.61)
zugehörigen homogenen Gleichung (10.62) noch einmal kurz zusammmen:
Bemerkung 10.37. (Zusammenfassung: Lösung einer homogenen DGL zweiter Ordnung mit konstanten Koeffizienten) Die allgemeine Lösung der homogenen
linearen Differentialgleichung zweiter Ordnung
y ′′ (t) + a y ′ (t) + b y(t) = 0
mit konstanten Koeffizienten hat die Form
y(t) = c1 y1 (t) + c2 y2 (t)
mit Konstanten c1 , c2 ∈ R.
Dabei sind
y1 (t) = eλ1 t
und
y2 (t) = eλ2 t
für D > 0,
y1 (t) = eλ1 t
und
y2 (t) = teλ1 t
für D = 0,
und
y2 (t) = e− 2 t sin(ωt)
a
y1 (t) = e− 2 t cos(ωt)
a
für D < 0,
mit den Abkürzungen
D=
a2
− b,
4
ω=
√
−D,
und
λ1 = −
a √
− D,
2
λ2 = −
a √
+ D.
2
Nun lernen wir, wie wir eine spezielle Lösung zu einer inhomogenen linearen Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten finden.
326
10.4. Lineare Differentialgleichungen zweiter Ordnung
Lösungsmethode 10.38. (lineare DGL 2. Ordnung mit konstanten Koeffizienten – Teil 2: Finden einer speziellen Lösung der inhomogenen Gleichung)
(4) Verfahren I: Methode der unbestimmten Koeffizienten. Hat die rechte Seite
f = f (t) der Differentialgleichung
y ′′ (t) + a y ′ (t) + b y(t) = f (t)
(10.72)
eine Form wie in der linken Spalte in Tabelle 10.1, so wählen wir als Ansatz für eine
spezielle Lösung ys die Funktion in der entsprechenden Zeile der rechten Spalte.
f (t)
ys (t)
γn tn + . . . + γ1 t + γ0
tk cn tn + . . . + c1 t + c0
γ eαt
c tk eαt
γn tn + . . . + γ1 t + γ0 eαt
tk cn tn + . . . + c1 t + c0 eαt
pn (t) cos(βt) + qm (t) sin(βt),
tk PN (t) cos(βt) + QN (t) sin(βt) ,
γ1 cos(βt) + γ2 sin(βt)
tk c1 cos(βt) + c2 sin(βt)
wobei pn (t) bzw. qm (t) jeweils ein Polynom vom Grad n bzw. m ist.
wobei PN (t) und QN (t) Polynome vom
Grad N = max{n, m} sind.
γ1 eαt cos(βt) + γ2 eαt sin(βt)
tk c1 eαt sin(βt) + c2 eαt cos(βt)
pn (t) eαt cos(βt) + qm (t) eαt sin(βt),
wobei pn (t) bzw. qm (t) jeweils ein Polynom vom Grad n bzw. m ist.
tk PN (t) eαt cos(βt) + QN (t) eαt sin(βt) ,
wobei PN (t) und QN (t) Polynome vom
Grad N = max{n, m} sind.
Tabelle 10.1: Die nicht-negative ganze Zahl k in der rechten Spalte wird dabei als die
kleinste Zahl in N0 gewählt, so dass kein Term in dem Lösungsansatz ys bereits eine
Lösung zu der zugehörigen homogenen Gleichung ist.
Wir setzen den gewählten Ansatz in die inhomogene Differentialgleichung (10.72) ein
und erhalten so Bedingungen, um die Koeffizienten in unserem Ansatz zu bestimmen.
(5) Verfahren II: Methode der Variation der Konstanten. Sollte Verfahren I
nicht anwendbar sein, so wählen wir den folgenden Ansatz: Sind y1 und y2 die beiden Lösungen in der allgemeinen Lösung yh (t) = c1 y1 (t) + c2 y2 (t) der zugehörigen
homogenen Gleichung, so setzen wir
ys (t) = α(t) y1(t) + β(t) y2 (t).
(10.73)
10. Gewöhnliche Differentialgleichungen
327
Wir setzen diesen Ansatz nun in die inhomogene Differentialgleichung
y ′′(t) + a y ′(t) + b y(t) = f (t)
(10.74)
ein, nutzen aus, dass y1 und y2 Lösungen der zugehörigen homogenen Gleichung
sind, und erhalten so jeweils eine Differentialgleichung erster Ordnung für α = α(t)
bzw. β = β(t), die jeweils direkt mit Integration gelöst werden kann. Mit der Bestimmung von α = α(t) und β = β(t) haben wir (10.73) unsere spezielle Lösung
gefunden.
Wie zeigen nun die einzelnen skizzierten Schritte im Detail: Ableiten von
(10.73) liefert mit der Produktregel
ys′ (t) = α′ (t) y1(t) + α(t) y1′ (t) + β ′ (t) y2 (t) + β(t) y2′ (t)
′
′
= α (t) y1 (t) + β (t) y2 (t) + α(t) y1′ (t) + β(t) y2′ (t).
Zusätzlich verlangen wir noch, dass gilt
α′ (t) y1 (t) + β ′ (t) y2 (t) = 0.
(10.75)
Damit vereinfacht sich die vorige Gleichung zu
ys′ (t) = α(t) y1′ (t) + β(t) y2′ (t).
(10.76)
Ein zweites mal ableiten ergibt
ys′′(t) = α′ (t) y1′ (t) + α(t) y1′′(t) + β ′ (t) y2′ (t) + β(t) y2′′(t)
= α′ (t) y1′ (t) + β ′ (t) y2′ (t) + α(t) y1′′(t) + β(t) y2′′(t).
(10.77)
Jetzt setzen wir ys , ys′ und ys′′ (vgl. (10.73), (10.76) und (10.77)) in die inhomogene
Differentialgleichung (10.74) ein:
f (t) = ys′′(t) + a ys′ (t) + b ys (t)
′
′
′
′
= α (t) y1 (t) + β (t) y2 (t) + α(t) y1′′(t) + β(t) y2′′(t)
+ a α(t) y1′ (t) + a β(t) y2′ (t) + b α(t) y1 (t) + b β(t) y2(t)
= α′ (t) y1′ (t) + β ′ (t) y2′ (t)
+ α(t) y1′′ (t) + a y1′ (t) + b y1 (t) + β(t) y2′′ (t) + a y2′ (t) + b y2 (t) ,
|
{z
}
{z
}
|
=0
=0
wobei die Ausdrücke in den beiden hinteren runden Klammern verschwinden, weil
die Funktionen y1 (t) und y2 (t) jeweils Lösungen der zugehörigen homogenen Differentialgleichung sind. Also muss gelten:
α′ (t) y1′ (t) + β ′ (t) y2′ (t) = f (t).
(10.78)
328
10.4. Lineare Differentialgleichungen zweiter Ordnung
Die beiden Gleichungen (10.75) und (10.78) bilden ein lineares Gleichungssystem für
die beiden Unbekannten α′ (t) und β ′ (t). Wir lösen dieses Gleichungssystem nun nach
α′ (t) und β ′ (t) auf:
α′ (t) y1 (t) + β ′ (t) y2 (t) = 0,
(10.79)
α′ (t) y1′ (t) + β ′ (t) y2′ (t) = f (t).
Wir multiplizieren die erste Gleichung mit y1′ (t) und multiplizieren die zweite Gleichung mit y1 (t):
α′ (t) y1 (t) y1′ (t) + β ′ (t) y1′ (t) y2(t) = 0,
α′ (t) y1 (t) y1′ (t) + β ′ (t) y1 (t) y2′ (t) = f (t) y1(t).
Dann subtrahieren wir die erste Gleichung von der zweiten Gleichung und erhalten
β ′ (t) y1 (t) y2′ (t) − β ′ (t) y1′ (t) y2 (t) = f (t) y1(t)
{z
}
|
= β ′ (t) y1 (t) y2′ (t) − y1′ (t) y2 (t)
und somit
β ′ (t) =
f (t) y1 (t)
.
− y1′ (t) y2(t)
y1 (t) y2′ (t)
(10.80)
Auflösen von (10.79) nach α′ (t) und Einsetzen von (10.80) liefert
α′ (t) = −
y2 (t)
f (t) y1(t)
f (t) y2(t)
y2 (t) ′
β (t) = −
=−
,
′
′
′
y1 (t)
y1 (t) y1 (t) y2 (t) − y1 (t) y2 (t)
y1 (t) y2 (t) − y1′ (t) y2 (t)
also
α′ (t) = −
f (t) y2 (t)
.
− y1′ (t) y2 (t)
y1 (t) y2′ (t)
(10.81)
Die Integration der Differentialgleichungen (10.81) und (10.80) liefert α(t) und β(t)
und damit
Z
Z
f (t) y1(t)
f (t) y2(t)
ys (t) = − y1 (t)
dt + y2 (t)
dt .
′
′
′
y1 (t) y2(t) − y1 (t) y2 (t)
y1 (t) y2 (t) − y1′ (t) y2(t)
{z
}
{z
}
|
|
= α(t)
= β(t)
Betrachten wir zunächst einige Beispiele, bei denen man die spezielle Lösung mit Verfahren I finden kann.
Beispiel 10.39. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Für die lineare inhomogene Differentialgleichung zweiter Ordnung
y ′′(t) + 4 y ′(t) + 2 y(t) = et
(10.82)
können wir Verfahren I anwenden, um eine spezielle Lösung zu finden. Wir wählen gemäß
Tabelle 10.1 den Ansatz
ys (t) = c t0 et = c et
10. Gewöhnliche Differentialgleichungen
329
√
mit k = 0, √
weil et kein Vielfaches einer der beiden Lösungen y1 (t) = e(−2− 2)t oder
y2 (t) = e(−2+ 2)t der zugehörigen homogenen Gleichung (vgl. Beispiel 10.33) ist. Einsetzen
unseres Ansatzes in (10.82) liefert
et = ys′′(t) + 4 ys′ (t) + 2 ys(t) = c et + 4 c et + 2 c et = 7 c et
Also ist eine spezielle Lösung
ys (t) =
⇒
c=
1
.
7
1 t
e.
7
Beispiel 10.40. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Um die lineare inhomogene Differentialgleichung zweiter Ordnung
2 y ′′(t) − 12 y ′(t) + 18 y(t) = 8 e3t
in Standardform zu erhalten, teilen wir durch 2, also
y ′′ (t) − 6 y ′(t) + 9 y(t) = 4 e3t .
(10.83)
Mit Verfahren I wählen wir gemäß Tabelle 10.1 den Ansatz
ys (t) = c t2 e3t ,
denn y1 (t) = e3t und y2 (t) = t e3t sind bereits Lösungen der zugehörigen homogenen
Gleichung (vgl. Beispiel 10.34), und daher müssen wir in dem Ansatz ys (t) = c tk e3t mit
k = 2 wählen. Bevor wir in (10.83) einsetzen, berechnen wir die Ableitungen unseres
Ansatzes separat:
ys′ (t) = c 2 t e3t + c 3 t2 e3t = 2 c t e3t + 3 c t2 e3t ,
ys′′(t) = c 2 e3t + c 6 t e3t + c 6 t e3t + c 9 t2 e3t = 2 c e3t + 12 c t e3t + 9 c t2 e3t .
Einsetzen in (10.83) liefert nun
4 e3t = ys′′ (t) − 6 ys′ (t) + 9 ys(t)
= 2 c e3t + 12 c t e3t + 9 c t2 e3t − 6 2 c t e3t + 3 c t2 e3t + 9 c t2 e3t
= 2 c e3t + 12 c t e3t + 9 c t2 e3t − 12 c t e3t − 18 c t2 e3t + 9 c t2 e3t
= 2 c e3t ,
und es folgt c = 2. Also ist
ys (t) = 2 t2 e3t
eine spezielle Lösung von (10.83).
Beispiel 10.41. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Für die lineare inhomogene Differentialgleichung zweiter Ordnung
y ′′ (t) + 4 y ′(t) + 6 y(t) = sin(t)
(10.84)
330
10.4. Lineare Differentialgleichungen zweiter Ordnung
wählen wir mit Verfahren I gemäß Tabelle 10.1 den folgenden Ansatz für eine spezielle
Lösung:
ys (t) = c1 cos(t) + c2 sin(t).
Dabei dürfen wir in dem Ansatz k =√
0 wählen,
weil weder cos(t) √
noch sin(t) ein Vielfaches
−2t
−2t
einer der Lösungen y1 (t) = e
cos 2 t oder y1 (t) = e
sin 2 t (vgl. Beispiel 10.35)
der zugehörigen homogenen Gleichungen ist. Wir berechnen zuerst die erste und zweite
Ableitung unseres Ansatzes:
ys′ (t) = −c1 sin(t) + c2 cos(t),
ys′′ (t) = −c1 cos(t) − c2 sin(t).
Einsetzen in (10.84) liefert
sin(t) = ys′′(t) + 4 ys′ (t) + 6 ys (t)
= − c1 cos(t) − c2 sin(t) + 4 − c1 sin(t) + c2 cos(t) + 6 c1 cos(t) + c2 sin(t)
= (5 c1 + 4 c2) cos(t) + (−4 c1 + 5 c2 ) sin(t).
Also muss gelten
5 c1 + 4 c2 = 0,
−4 c1 + 5 c2 = 1.
Wir multiplizieren die erste Gleichung mit 4 und die zweite Gleichung mit 5 und erhalten
20 c1 + 16 c2 = 0,
−20 c1 + 25 c2 = 5.
Anschließendes Addieren der ersten Gleichung zur zweiten Gleichung liefert die neue zweite Gleichung
5
.
41 c2 = 5
=⇒
c2 =
41
Lösen der ursprünglichen ersten Gleichung nach c1 und Einsetzen von c2 = 5/41 liefert
nun
4
4 5
4
5 c1 = −4 c2
=⇒
c1 = − c2 = −
=−
.
5
5 41
41
Also ist die Funktion
5
4
cos(t) +
sin(t)
ys (t) = −
41
41
eine spezielle Lösung der inhomogenen Gleichung (10.84).
Nun betrachten wir noch ein Beispiel, bei dem man das Verfahren II benötigt, um eine
spezielle Lösung der inhomogenen Gleichung zu finden.
Beispiel 10.42. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Betrachten wir die inhomogene lineare Differentialgleichung mit konstanten Koeffizienten
y ′′(t) + y(t) =
1
,
cos(t)
10. Gewöhnliche Differentialgleichungen
331
−1
welche sich bereits in Standardform befindet. Hier ist die rechte Seite g(t) = cos(t)
von einer Form, die in nicht Tabelle 10.1 aufgeführt ist. Daher müssen wir das Verfahren II
Variation der Konstanten“ anwenden, um eine spezielle Lösung der inhomogenen Glei”
chung zu finden. Wir lösen zunächst die zugehörige homogene Gleichung y ′′ (t) + y(t) = 0,
da wir deren allgemeine Lösung benötigen, um die Variation der Konstanten“ durch”
zuführen.
Mit dem Ansatz y(t) = eλt finden wir
0 = y ′′ (t) + y(t) = λ2 eλt + eλt = λ2 + 1 eλt ,
also λ2 + 1 = 0, d.h. λ1 = −i und λ2 = i. Damit hat die zugehörige homogene Gleichung
a
y ′′ (t) + y(t) = 0 die allgemeine Lösung (beachte hier e− 2 t = e0 = 1 und ω = 1)
y(t) = c1 cos(t) + c2 sin(t) .
| {z }
| {z }
= y1 (t)
= y2 (t)
Damit erhalten wir als Ansatz für die Variation der Konstanten“
”
ys (t) = α(t) y1 (t) + β(t) y2(t) = α(t) cos(t) + β(t) sin(t).
Es gilt also y1 (t) = cos(t), y2 (t) = sin(t), y1′ (t) = − sin(t) und y2′ (t) = cos(t). Nach (10.81)
und (10.80) erhalten wir damit für α = α(t) und β = β(t) die Differentialgleichungen
−1
cos(t)
sin(t)
f (t) y2(t)
sin(t)
′
α (t) = −
=−
= − tan(t),
2
2 = −
′
′
y1 (t) y2 (t) − y1 (t) y2 (t)
cos(t)
cos(t) + sin(t)
−1
cos(t)
cos(t)
f
(t)
y
(t)
1
=
β ′ (t) =
2
2 = 1,
′
′
y1 (t) y2 (t) − y1 (t) y2 (t)
cos(t) + sin(t)
2
2
wobei wir cos(t) + sin(t) = 1 ausgenutzt haben, um die Nenner zu vereinfachen.
Durch Integration finden wir
Z
Z
Z
− sin(t)
1
α(t) = − tan(t) dt =
dt =
dx
cos(t)
x
x=cos(t)
h
i
= ln |x| + c1
= ln | cos(t)| + c1 ,
x=cos(t)
Z
β(t) = 1 dt = t + c2 ,
wobei wir in dem ersten Integral die Substitution x = cos(t), dx/dt = − sin(t), also
dx = − sin(t) dt, benutzt haben. Hier dürfen wir die Integrationskonstanten c1 und c2
Null setzen, da wir nur an einer Stammfunktion (und nicht an allen möglichen Stammfunktionen) interessiert sind. Also finden wir als eine spezielle Lösung
ys (t) = α(t) cos(t) + β(t) sin(t) = ln | cos(t)| cos(t) + t sin(t).
Abschließend halten wir fest, wie man die allgemeine Lösung der inhomogenen linearen
Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten findet.
332
10.4. Lineare Differentialgleichungen zweiter Ordnung
Lösungsmethode 10.43. (lineare DGL 2. Ordnung mit konstanten Koeffizienten
– Teil 3: Finden der allgemeinen Lösung der inhomogenen Gleichung) Mit den
bereits in Lösungsmethoden 10.32 und 10.38 ausgeführten Schritten (1) bis (5) haben
wir bereits die allgemeine Lösung yh (t) = c1 y1 (t) + c2 y2 (t) der zugehörigen homogenen
Gleichung
y ′′ (t) + a y ′(t) + b y(t) = 0
und eine spezielle Lösung ys der inhomogenen Gleichung
y ′′ (t) + a y ′ (t) + b y(t) = f (t)
(10.85)
bestimmt.
(6) Die allgemeine Lösung der inhomogenen Gleichung (10.85) ist nun durch
y(t) = yh (t) + ys (t) = c1 y1 (t) + c2 y2 (t) + ys (t)
(10.86)
gegeben.
Wir geben abschließend noch die Erklärung, warum die allgemeine Lösung der inhomogenen Gleichung die Form (10.86) hat: Dazu setzen wir einfach y(t) = yh (t) + ys (t) in die
Differentialgleichung (10.85) ein, und finden
′′
′
y ′′ (t) + a y ′(t) + b y(t) = yh (t) + ys (t) + a yh (t) + ys (t) + b yh (t) + ys (t)
= yh′′(t) + ys′′(t) + a yh′ (t) + ys′ (t) + b yh (t) + ys (t)
= yh′′ (t) + ys′′ (t) + a yh′ (t) + a ys′ (t) + b yh (t) + b ys (t)
= yh′′ (t) + a yh′ (t) + b yh (t) + ys′′ (t) + a ys′ (t) + b ys (t)
{z
}
{z
}
|
|
=0
= f (t)
= 0 + f (t) = f (t),
wobei wir genutzt haben, dass yh bzw. ys die zugehörige homogene bzw. die inhomogene
Gleichung löst.
Betrachten wir einige Beispiele.
Beispiel 10.44. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Für die inhomogene lineare Differentialgleichung zweiter Ordnung
y ′′(t) + 4 y ′(t) + 2 y(t) = et
finden wir mit den Ergebnissen aus Beispielen 10.33 und 10.39, die allgemeine Lösung
y(t) = yh (t) + ys (t) = c1 e(−2−
√
2)t
+ c2 e(−2+
√
2)t
+
1 t
e.
7
Beispiel 10.45. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Die allgemeine Lösung der inhomogenen linearen Differentialgleichung zweiter Ordnung
2 y ′′(t) − 12 y ′(t) + 18 y(t) = 8 e3t
10. Gewöhnliche Differentialgleichungen
333
ist nach unseren Berechnungen in den Beispielen 10.34 und 10.40 die Funktion
y(t) = yh (t) + ys (t) = c1 e3t + c2 t e3t + 2 t2 e3t .
Beispiel 10.46. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Nach den Berechnungen in den Beispielen 10.35 und 10.41 hat die inhomogene lineare
Differentialgleichung zweiter Ordnung
y ′′ (t) + 4 y ′(t) + 6 y(t) = sin(t)
die allgemeine Lösung
y(t) = yh (t) + ys (t) = c1 e−2t cos
√
√ 5
4
cos(t) +
sin(t).
2 t + c2 e−2t sin 2 t −
41
41
Beispiel 10.47. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Die inhomogene lineare Differentialgleichung zweiter Ordnung
y ′′(t) + y(t) =
1
cos(t)
hat nach den Berechnungen in Beispiel 10.42 die allgemeine Lösung
y(t) = yh (t) + ys (t) = c1 cos(t) + c2 sin(t) + ln | cos(t)| cos(t) + t sin(t).
Betrachten wir zum Abschluss noch ein Anwendungsbeispiel.
Anwendung 10.48. (Fadenpendel) In Beispiel 10.6 hatten wir bereits das Fadenpendel betrachtet und für dieses die nichtlineare homogenen Differentialgleichung zweiter
Ordnung
g
φ′′ (t) + sin φ(t) = 0
L
hergeleitet.
Wir wollen zunächst die Frage beantworten, welche ungefähre Schwingungsdauer T
ein 1 m langes Fadenpendel für kleine Auslenkungen hat? Wir haben also L = 1 m
und für kleine Auslenkungen φ(t) können wir die Näherung
sin φ(t) ≈ φ(t)
verwenden. Daher betrachtet man (für kleine Auslenkungen φ(t)) als Näherung die li”
nearisierte“ Differentialgleichung
φ′′ (t) +
g
φ(t) = 0.
L
Einsetzen des Ansatzes φ(t) = eλt liefert
g
0 = λ2 eλt + eλt =
L
"
λ2 −
!2 #
g
i
eλt ,
L
|{z}
=ω
r
(10.87)
334
10.4. Lineare Differentialgleichungen zweiter Ordnung
und wir erhalten zwei zueinander konjugiert komplexe Lösungen
r
r
g
g
i
und
λ2 =
i.
λ1 = −
L
L
Nach (10.66) ist die allgemeine Lösung von (10.87) (beachte hier a = 0)
r r g
g
φh (t) = c1 cos
t + c2 sin
t .
L
L
(10.88)
Äquivalent finden wir nach (10.70) die allgemeine Lösung von (10.87) (beachte a = 0) als
r
g
der Amplitude A ≥ 0 und
t−δ
mit
φh (t) = A sin
der Phasenverschiebung δ ∈ [0, 2π).
L
a
Dies ist eine ungedämpfte Schwingung, da der exponentielle Faktor e− 2 t wegen a = 0
gleich Eins ist. Die Schwingungsdauer ist dann
√
2π
2π L
2π
2π · 1 m1/2
=√
s ≈ 2 s.
= √
T =p
=√
2
1/2
g
9, 81 (m/s )
9, 81
g/L
Nun wollen wir eine ungefähre/genäherte Lösung der inhomogenen Differentialgleichung
φ′′ (t) +
g
sin φ(t) = sin(ω0 t)
L
bestimmen, also der Bewegung des Fadenpendels unter Einwirkung der äußeren
Kraft (pro Masse m) f (t) = sin(ω0 t). Wir
betrachten wieder kleine Auslenkungen und
linearisieren“ auf der linken Seite sin φ(t) ≈ φ(t). Die linearisierte“ Gleichung ist dann
”
”
g
(10.89)
φ′′ (t) + φ(t) = sin(ω0 t),
L
und wir wissen bereits, dass (10.88) die allgemeine Lösung der zugehörigen homogenen
Gleichung ist. Hier können wir Verfahren I anwenden, um eine spezielle Lösung der inhomogenen Gleichung (10.89) zu finden. Dabei wählen wir gemäß Tabelle 10.1 den Ansatz
r
g
φs (t) = c3 cos(ω0 t) + c4 sin(ω0 t)
wenn ω0 6=
,
(10.90)
L
r
g
.
(10.91)
φs (t) = c3 t cos(ω0 t) + c4 t sin(ω0 t)
wenn ω0 =
L
p
Wir betrachten zunächst den Fall ω0 6= g/L und berechnen die ersten beiden Ableitungen unseres Ansatzes (10.90) für φs .
φ′s (t) = −c3 ω0 sin(ω0 t) + c4 ω0 cos(ω0 t),
φ′′s (t) = −c3 ω02 cos(ω0 t) − c4 ω02 sin(ω0 t).
Einsetzen in (10.89) liefert
sin(ω0 t) = φ′′s (t) +
g
φs (t)
L
10. Gewöhnliche Differentialgleichungen
335
g
c3 cos(ω0 t) + c4 sin(ω0 t)
= −
cos(ω0 t) −
sin(ω0 t) +
L
g
g
=
− ω02 c3 cos(ω0 t) +
− ω02 c4 sin(ω0 t),
L
L
c3 ω02
und wir erhalten
c3 = 0
Also ist für ω0 6=
und
p
c4 ω02
g
L
−
ω02
⇔
c4 = 1
c4 =
g
L
−
ω02
−1 g/L eine spezielle Lösung durch
g
−1
φs (t) =
− ω02
sin(ω0 t)
L
.
(10.92)
gegeben, und die allgemeine
Lösung der inhomogenen linearisierten Differentialgleichung
p
(10.89) ist für ω0 6= g/L nach (10.92) und (10.88)
r r −1
g
g
g
2
φ(t) = c1 cos
t + c2 sin
t +
− ω0
sin(ω0 t).
L
L
L
p
Nun betrachten wir den Fall ω0 = g/L und berechnen die ersten beiden Ableitungen
unseres Ansatzes (10.91) für φs .
φ′s (t) = c3 cos(ω t) − c3 ω0 t sin(ω0 t) + c4 sin(ω0 t) + c4 ω0 t cos(ω0 t),
φ′′s (t) = − c3 ω0 sin(ω0 t) − c3 ω0 sin(ω0 t) − c3 ω02 t cos(ω0 t)
+ c4 ω0 cos(ω0 t) + c4 ω0 cos(ω0 t) − c4 ω02 t sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) − c3 ω02 t cos(ω0 t) + 2 c4 ω0 cos(ω0 t) − c4 ω02 t sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t) + t − c3 ω02 cos(ω0 t) − c4 ω02 sin(ω0 t) .
Einsetzen in (10.89) und ω02 = g/L liefert
sin(ω0 t) = φ′′s (t) +
g
φs (t) = φ′′s (t) + ω02 φs (t)
L
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t) + t −
+ ω02 c3 t cos(ω0 t) + c4 t sin(ω0 t)
c3 ω02
cos(ω0 t) −
c4 ω02
sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t)
2
2
2
+ t − c3 ω0 cos(ω0 t) − c4 ω0 sin(ω0 t) + ω0 c3 cos(ω0 t) + c4 sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t) + 0.
Also erhalten wir
sin(ω0 t) = −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t),
und damit
−2 c3 ω0 = 1
⇔
1
c3 = −
2 ω0
und
c4 = 0.
336
10.4. Lineare Differentialgleichungen zweiter Ordnung
Also ist eine spezielle Lösung durch
φs (t) = −
t
cos(ω0 t)
2 ω0
(10.93)
gegeben, und die allgemeine
Lösung der inhomogenen linearisierten Differentialgleichung
p
(10.89) ist für ω0 = g/L nach (10.93) und (10.88) mit g/L = ω02
φ(t) = c1 cos(ω0 t) + c2 sin(ω0 t) −
t
cos(ω0 t).
2 ω0
Wir bemerken hier noch, dass
mathematisch untersucht werden muss, ob ein kleiner Fehler
beim Ersetzen von sin φ(t) durch φ(t) in der DGL auch nur zu einer kleinen Abweichung
zwischen der so berechneten Lösung und der Lösung der nichtlinearen Gleichung führt.
Dies ist nicht selbstverständlich, aber im obigen Beispiel stimmt dies.
Teil IV
Lineare Algebra
337
Kapitel 11
Vektoren im euklischen Vektorraum
Rn und ihre Eigenschaften
In diesem Kapitel führen wir den euklidischen Vektorraum Rn ein und lernen, wie man
Vektoren addiert und mit einer reellen Zahl (einem Skalar) multipliziert. Weiter lernen
wir das Skalarprodukt (oder innere Produkt) zweier Vektoren und die Länge (oder die
euklidische Norm) eines Vektors kennen, sowie den Begriff der Orthogonalität. Vektoren
in Rn können wir leicht geometrisch veranschaulichen, und alle der erwähnten Konzepte
haben eine geometrische Interpretation, die wir erklären werden. In Teilkapitel 11.3 lernen wir Linearkombinationen und das wichtige Konzept der linearen Unabhängigkeit von
Vektoren kennen. In Teilkapitel 11.4 werden wir schließlich den Begriff eines Teilraumes
von Rn , sowie den Begriff einer Basis und der Dimension von Rn bzw. eines Teilraumes
von Rn einführen.
11.1
Einführung: Vektoren in der Ebene
Wir betrachten zunächst als Beispiel die (x, y)-Ebene
R2 = R × R = (x, y) x, y ∈ R ,
um uns die neuen Ideen an einem vertrauten Beispiel klar zu machen. Mit dem neuen
Begriff des euklidischen Raumes Rn werden wir die (x, y)-Ebene dann auch als den euklidischen Vektorraum R2 = R × R bezeichnen. Wir erinnern uns hier daran, dass
R × R das kartesische Produkt von R und R ist, welches wir in Teilkapitel 2.1 eingeführt
haben. Statt die beiden Koordinaten eines Punktes in der Ebene mit (x, y) zu bezeichnen,
werden wir diese nun aber mit (x1 , x2 ) bezeichnen, und wir notieren die Ebene also dann
als
R2 = R × R = x = (x1 , x2 ) x1 , x2 ∈ R .
Dabei ist der Fettbuchstabe x eine Kurznotation für (x1 , x2 ), und wir nennen x = (x1 , x2 )
einen Vektor in der Ebene R2 . Geometrisch interpretieren wir x = (x1 , x2 ) auch als
den Pfeil“ von Nullpunkt 0 = (0, 0) zum Punkt x = (x1 , x2 ), wie es in Abbildung 11.1
”
339
340
11.1. Einführung: Vektoren in der Ebene
eingezeichnet ist. Beispiele für Vektoren in R2 wären also
x = (1, 2),
y = (−2, 7)
und
z = (−14, −3).
(11.1)
x2-Achse
Hier hat also x = (1, 2) die Komponenten oder Koordinaten x1 = 1 und x2 = 2. Analog hat y = (−2, 7) die Koordinaten y1 = −2 und y2 = 7. Die geometrische Interpretation
der Vektoren macht es auch klar, dass die beiden Vektoren (1, 2) und (2, 1) nicht identisch
sind. Die Reihenfolge der Komponenten oder Koordinaten eines Vektors spielt
also eine Rolle.
x = (x1, x2)
kx
k=
r
x12
2
+ x2
x2
0 = (0, 0)
x1
x1-Achse
Abb. 11.1: Veranschaulichung des Vektors x = (x1 , x2 ) als Pfeil“ von Nullpunkt 0 = (0, 0)
”
zum Punkt x = (x1p
, x2 ). Mit dem Satz des Pythagoras sehen wir sofort, dass die Länge
der Pfeils“ gerade x21 + x22 ist.
”
Wir wollen nun Vektoren in R2 addieren und mit reellen Zahlen (sogenannten Skalaren)
multiplizieren. Dabei gehen wir ganz naiv vor und nehmen die Addition und Subtraktion einfach komponentenweise vor. So finden wir beispielsweise für die Vektoren x
und y in (11.1)
x + y = (1, 2) + (−2, 7) = 1 + (−2), 2 + 7 = (−1, 9),
x − y = (1, 2) − (−2, 7) = 1 − (−2), 2 − 7 = (3, −5).
Allgemein addieren bzw. subtrahieren wir zwei Vektoren x = (x1 , x2 ) und y = (y1, y2 )
analog dazu wie folgt
x + y = (x1 , x2 ) + (y1 , y2) = x1 + y1 , x2 + y2 ,
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
341
x − y = (x1 , x2 ) − (y1 , y2) = x1 − y1 , x2 − y2 .
x2-Achse
In Abbildung 11.2 sehen wir eine geometrische Veranschaulichung der Vektoraddition.
Die beiden Vektoren x bzw. y sind in blau bzw. rot eingezeichnet. Verschieben wir den
Vektor x bzw. y parallel und heften seinen Fußpunkt an die Spitze von y bzw. x wie
eingezeichnet, so erhalten wir ein Parallelogramm, dessen Diagonale der Vektor x + y ist.
Genauer ist der Vektor x + y der Vektor vom Nullpunkt 0 = (0, 0) zu dem Punkt an der
Spitze der wie beschrieben parallelverschobenen Vektoren.
x + y = (x1 + y1, x2 + y2)
x2 + y2
x2
x = (x1, x2)
y2
y = (y1, y2)
x1-Achse
0 = (0, 0)
x1
y1
x1 + y1
−0.5 · y = (y1/2, y2/2)
Abb. 11.2: Der Vektor x + y ist die Diagonale (mit Fußpunkt im Ursprung) in dem von x,
y und ihren parallelverschobenen Kopien gebildeten Parallelogramm. Der Vektor −0, 5 · y
hat die halbe Länge von y und zeigt in die entgegengesetzte Richtung.
Analog multiplizieren wir Vektoren einfach komponentenweise mit reellen Zahlen.
Z.B. gilt für die Vektoren x und y in (11.1)
2 x = 2 (1, 2) = (1 · 2, 2 · 2) = (2, 4),
−0, 5 y = −0, 5 (−2, 7) = (−0, 5) · (−2), −0, 5 · 7 = (1, −3, 5).
Allgemein definieren wir nun die skalare Multiplikation eines Vektors x = (x1 , x2 ) mit
einer reellen Zahl λ ∈ R wie folgt
λ x = λ (x1 , x2 ) = (λ x1 , λ x2 ).
342
11.2. Vektoren im euklidischen Vektorraum Rn
Die skalare Multiplikation eines Vektors x ∈ R2 mit einer reellen Zahl λ ist ebenfalls in
Abbildung 11.2 veranschaulicht: Ist λ > 0, so zeigt der Vektor λ x in die gleiche Richtung
wir der Vektor x aber sein Pfeil ist λ-mal so lang. Ist λ < 0, so zeigt der Vektor λ x in
die entgegengesetzte Richtung, und der Pfeil hat die |λ|-fache Länge. Insbesondere ist −x
der Vektor, den wir erhalten, indem wir den Vektor x um 180 Grad um den Nullpunkt
drehen.
Die Länge der Pfeils von 0 = (0, 0) nach x = (x
p1 , x2 ), der den Vektor x = (x1 , x2 )
veranschaulicht, ist nach dem Satz des Pythagoras x21 + x22 (vgl. Abbildung 11.1), und
wir bezeichnen diese Länge auch als euklidische Norm des Vektors, notiert als
q
kxk = x21 + x22
für
x = (x1 , x2 ).
So hat beispielsweise der Vektor x = (1, 2) die Länge oder euklidische Norm
√
√
kxk = (1, 2) = 12 + 22 = 5,
und der Vektor y = (−2, 7) hat die Länge oder euklidische Norm
√
p
kxk = (−2, 7) = (−2)2 + 72 = 53.
In dem nächsten Teilkapitel werden wir diese Ideen nun von Vektoren in der Ebene R2 , also
Vektoren mit 2 Komponenten (oder 2 Koordinaten), auf Vektoren in Rn , also Vektoren
x = (x1 , x2 , . . . , xn )
mit n Komponenten (oder n Koordinaten) verallgemeinern. Dabei lernen wir auch noch
weitere Begriffe im Zusammenhang mit Vektoren kennen.
11.2
Vektoren im euklidischen Vektorraum Rn
Wir verallgemeinern nun die Ideen, die wir im vorigen Teilkapitel kennengelernt haben.
Definition 11.1. (euklidische Vektorraum Rn ) Unter dem euklidischen Vektorraum Rn versteht man das kartesische Produkt R × R × . . . × R (n-mal), d.h. die Menge
aller n-Tupel
x = (x1 , x2 , . . . , xn )
reeller Zahlen x1 , x2 , . . . , xn . Als Menge können wir Rn wie folgt schreiben:
Rn = x = (x1 , x2 , . . . , xn ) xk ∈ R für k = 1, 2, . . . , n .
Wir nennen die Punkte x in Rn Vektoren, und die reelle Zahl xk heißt k-te Koordinate
oder k-te Komponente von x.
Wir veranschaulichen x = (x1 , x2 , . . . , xn ) als einen Pfeil vom Nullpunkt 0 = (0, 0, . . . , 0)
zu dem Punkt x = (x1 , x2 , . . . , xn ) im n-dimensionalen Raum. Dabei ist 0 = (0, 0, . . . , 0)
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
343
der Fußpunkt des Pfeils und seine Spitze ist im Punkt x = (x1 , x2 , . . . , xn ). Damit können
wir dem Vektor x als Richtung die Richtung dieses Pfeils zuordnen.
Zwei Vektoren x = (x1 , x2 , . . . , xn ) und y = (y1 , y2 , . . . , yn ) in Rn sind gleich, falls gilt:
xk = yk für k = 1, 2, . . . , n.
In Rn erklären wir komponentenweise eine Addition bzw. eine Subtraktion durch
x + y = (x1 , x2 , . . . , xn ) + (y1 , y2 , . . . , yn ) = (x1 + y1 , x2 + y2 , . . . , xn + yn ),
x − y = (x1 , x2 , . . . , xn ) − (y1 , y2, . . . , yn ) = (x1 − y1 , x2 − y2 , . . . , xn − yn ),
sowie eine skalare Multiplikation mit reellen Zahlen λ durch
λ x = λ (x1 , x2 , . . . , xn ) = (λ x1 , λ x2 , . . . , λ xn ).
Man bezeichnet reelle Zahlen λ im Kontext der skalaren Multiplikation auch als Skalare.
Die Länge eines Vektors x = (x1 , x2 , . . . , xn ) wird mit der euklidischen Norm gemessen:
v
u n
q
uX
2
2
2
x2k .
kxk = x1 + x2 + . . . + xn = t
k=1
Betrachten wir zunächst einige Beispiele.
Beispiel 11.2. (Addition, Subtraktion und skalare Multiplikation) Seien
x = (1, 2, 3, 4),
y = (−1, 1, −1, 1),
z = (1, 0, 1, 0)
Vektoren im euklidischen Raum R4 . Dann gilt
x + y = (1, 2, 3, 4) + (−1, 1, −1, 1) = 1 + (−1), 2 + 1, 3 + (−1), 4 + 1 = (0, 3, 2, 5),
y + z = (−1, 1, −1, 1) + (1, 0, 1, 0) = − 1 + 1, 1 + 0, −1 + 1, 1 + 0 = (0, 1, 0, 1),
x − z = (1, 2, 3, 4) − (1, 0, 1, 0) = 1 − 1, 2 − 0, 3 − 1, 4 − 0 = (0, 2, 2, 4),
und wir haben
13 x = 13 (1, 2, 3, 4) = 13 · 1, 13 · 2, 13 · 3, 13 · 4 = (13, 26, 39, 52),
−7 y = −7 (−1, 1, −1, 1) = (−7) · (−1), (−7) · 1, (−7) · (−1), (−7) · 1 = (7, −7, 7, −7).
Also haben wir auch
13 x − 7 y = 13 x + (−7) y = (13, 26, 39, 52) + (7, −7, 7, −7)
= 13 + 7, 26 − 7, 39 + 7, 52 − 7
= (20, 19, 46, 45).
Natürlich hätten wir diese Rechnung auch direkt ausführen können, ohne vorher 13 x und
(−7) y separat zu berechnen.
11.2. Vektoren im euklidischen Vektorraum Rn
344
Beispiel 11.3. (euklidische Norm) Berechnen wir noch die euklidische Norm der Vektoren x = (1, 2, 3, 4), y = (−1, 1, −1, 1) und z = (1, 0, 1, 0)
√
√
√
kxk = 12 + 22 + 32 + 42 = 1 + 4 + 9 + 16 = 30,
p
√
√
kyk = (−1)2 + 12 + (−1)2 + 12 = 1 + 1 + 1 + 1 = 4 = 2,
√
√
√
kzk = 12 + 02 + 12 + 02 = 1 + 0 + 1 + 0 = 2.
Wir bemerken, dass wir die Subtraktion von Vektoren eigentlich nicht zu erklären brauchen, denn es gilt
x − y = x + (−1) · y.
Wir können also die Subtraktion über die Addition und die skalare Multiplikation erklären.
Anschaulich können wir uns nur Vektoren in der Ebene R2 und im drei-dimensionalen
Raum R3 vorstellen. Für mehr als 3 Dimensionen ist unser geometrisches Vorstellungsvermögen nicht gut ausgerüstet, da wir in einer drei-dimensionalen räumlichen Welt leben.
Der euklidische Raum Rn mit n > 3 ist aber kein obskures mathematisches Konstrukt“.
”
So spielt beispielsweise R4 in der Relativitätstheorie ein wichtige Rolle. Hier
sind die Koordinaten in R4 die drei Raumdimensionen (x, y, z), und die vierte Koordinate
ist die Zeit t.
Definition 11.4. (Einheitsvektor und Nullvektor)
(i) Ein Vektor x ∈ Rn ist ein Einheitsvektor, wenn gilt kxk = 1, also wenn der Vektor
die euklidische Norm (also die Länge) Eins hat.
(ii) Der Vektor 0 = (0, 0, . . . , 0) heißt der Nullvektor von Rn .
Beispiel 11.5. (Einheitsvektoren) Die Vektoren
x = (1, 0, 0, 0, 0),
y = (0, 0, 1, 0, 0),
z=
1 1
1
, 0, √ , , 0
2
2 2
sind Einheitsvektoren in R5 , denn
√
√
kxk = 12 + 02 + 02 + 02 + 02 = 1 = 1,
√
√
kyk = 02 + 02 + 12 + 02 + 02 = 1 = 1,
s r
2 2
2
1 1 1 √
1
1
1
kzk =
+ + = 1 = 1.
+ 02 + √
+ 02 =
+
2
2
4 2 4
2
Der Vektor u = (1, 2, 3, 4) in R4 ist kein Einheitsvektor, aber indem wir u durch kuk
teilen, können einen Einheitsvektor mit der gleichen
Richtung wie u erhalten. In Beispiel
√
11.2 hatten wir bereits berechnet, dass kuk = 30 ist. Also finden wir, dass
2
3
4
1
1
1
u
=
u = √ (1, 2, 3, 4) = √ , √ , √ , √
kuk
kuk
30
30 30 30 30
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
345
in die gleiche Richtung wie u zeigt und die Länge 1 hat. Dass u/kuk die Länge 1 hat
braucht man eigentlich nicht mehr nachzurechnen, denn dies folgt direkt aus der Tatsache,
dass wir den Vektor durch seine Länge geteilt haben:
s 2
u u1 u2 u3 u4 u22
u23
u24
u1
=
=
,
,
,
+
+
+
kuk kuk kuk kuk kuk kuk2 kuk2 kuk2 kuk2
s
q
1
1
1
2
2
2
2
u21 + u22 + u23 + u24 =
=
kuk = 1.
u1 + u2 + u3 + u4 =
2
kuk
kuk
kuk
Wir halten unsere Beobachtung aus dem letzten Beispiel allgemein fest.
Bemerkung 11.6. (Einheitsvektor zu einem gegebenen Vektor) Zu einem gegebenen Vektor x ist der Vektor x/kxk der Einheitsvektor, der in die gleiche Richtung wie
x zeigt.
Wir gehen nun bereits kurz auf den Unterschied zwischen sogenannten Zeilenvektoren und
sogenannten Spaltenvektoren ein. Dieser Unterschied wird aber erst wichtig, wenn wir im
Kapitel 12 mit Matrizen arbeiten.
Bemerkung 11.7. (Zeilenvektoren und Spaltenvektoren) Wir können Vektoren in
Rn als Zeilenvektoren
x = (x2 , x2 , . . . , xn )
oder als Spaltenvektoren


x1
 x2 
 
x =  .. 
.
xn
schreiben. Solange wir nur mit Vektoren arbeiten, macht es keinen Unterschied, ob wir
mit Zeilenvektoren oder Spaltenvektoren arbeiten, aber sobald wir Matrizen einführen
ist es besser, mit Spaltenvektoren zu arbeiten. Wir gewöhnen uns dies daher schon
jetzt an. Man kann einen Zeilenvektor durch die Transposition (symbolisiert durch den
oberen Index T) in einen Spaltenvektor überführen und umgekehrt, d.h.


x1
 x2 
 
T
(x1 , x2 , . . . , xn ) =  .. 
.
xn
und

T
x1
x2 
 
 ..  = (x1 , x2 , . . . , xn ).
.
xn
Als Anwendung des Vektorbegriffs nutzen wir Vektoren, um Geraden in Rn nun einfach
darzustellen.
11.2. Vektoren im euklidischen Vektorraum Rn
346
a
1
a
(0, b)
b
a)
(1,
1
x
x+1
Abb. 11.3: Darstellung einer Gerade f (x) = a x + b mit Hilfe von Vektoren.
Anwendung 11.8. (Geraden in Rn )
(a) Wir betrachten zunächst den Fall n = 2. In der Ebene R2 wird eine Gerade durch eine
affin lineare Funktion
f (x) = a x + b
mit der Steigung a und dem y-Achsenabschnitt b
beschrieben. Genau genommen ist der Graph dieser Funktion
Γ(f ) =
x, f (x) x ∈ R = (x, a x + b) x ∈ R
die Gerade. Diese Gerade geht durch den Punkt 0, f (0) = (0, b), und bewegen wir uns
um ∆x = 1 in Richtung der x-Achse, so bewegen wir uns um ∆y = a in Richtung der
y-Achse. Wenn wir also den Vektor (1, a) parallel verschieben und mit seinem Fußpunkt
an die Spitze des Vektors (0, b) anheften, so liegt dieser parallelverschobene Vektor auf der
Geraden f (vgl. Abbildung 11.3). Vielfache dieses Vektors haben nun eine unterschiedliche
Länge (und zeigen gegebenenfalls in entgegengesetzte Richtung) und liegen daher immer
noch auf der Geraden. Wir können die Gerade f (x) = a x + b, oder genauer alle Punkte
auf der Geraden, also darstellen als
y1
0
1
λ
λ
y=
=
+λ
=
=
y2
b
a
b +λa
aλ + b
mit λ ∈ R.
(11.2)
Mit λ = x erhalten wir also y1 = x und y2 = a x + b = f (x), d.h. wir haben in der Tat
alle Punkte x, f (x) des Graphen der Funktion f (x) = a x + b erfasst.
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
a−
347
b
a
b
Abb. 11.4: Darstellung der Geraden durch a = (a1 , a2 , a3 ) und b = (b1 , b2 , b3 ) in R3 mit
Hilfe von Vektoren.
(b) Betrachten wir eine Gerade in Rn (stellen Sie sich R3 ) vor, und nehmen wir zwei
verschiedene Punkte a = (a1 , a2 , . . . , an )T und b = (b1 , b2 , . . . , bn )T auf der Geraden, dann
können wir die Gerade analog zu (11.2) schreiben als
y = b + λ (a − b)
bzw. expliziter
   
y1
b1
 y2   b2 
   
 ..  =  ..  + λ
. .
yn
bn
mit λ ∈ R,


a1 − b1
 a2 − b2 


 .. 
 . 
(11.3)
mit λ ∈ R.
an − bn
Dies ist so zu interpretieren: Für λ = 0 erhalten wir den Vektor y = b + 0 (a − b) = b,
und der Punkt b liegt auf der Geraden y = b + λ (a − b). Weiter sehen wir für λ = 1, dass
y = b + 1 (a − b) = a ist, d.h. a liegt auf der Geraden y = b + λ (a − b). Also beschreibt
(11.3) in der Tat die Gerade, auf der die Punkte a und b liegen.
Dass es sich bei y = b + λ (a − b) um eine Gerade handelt, sieht man wie folgt: Durch die
Addition von λ (a−b) zu b heften wir Vielfache des Vektors a−b mit ihrem Fußpunkt an
die Spitze das Vektors b. Eine Parallelverschiebung des Vektors a − b liegt aber auf der
Geraden durch die Punkte a = (a1 , a2 , . . . , an )T und b = (b1 , b2 , . . . , bn )T (vgl. Abbildung
11.4). Also liegen alle Punkte y = b + λ (a − b) mit λ ∈ R auf der Geraden durch die
beiden Punkte a und b.
Im nächsten Lemma halten wir einige wichtige Eigenschaften der euklidischen Norm fest.
Diese sind analog zu den Eigenschaften des Absolutbetrags |x| einer reellen Zahl (vgl. Lem-
11.2. Vektoren im euklidischen Vektorraum Rn
348
ma 1.78). Dies ist nicht überraschend, denn
√ der Absolutbetrag ist nichts weiter als die
1
euklidische Norm auf R = R , also |x| = x2 .
Lemma 11.9. (Eigenschaften der euklidischen Norm) Die wichtigsten Eigenschaften der euklidischen Norm sind:
(i) kxk ≥ 0 für alle x ∈ Rn , und kxk = 0 ⇔ x = 0 .
(ii) kλ xk = |λ| kxk für alle λ ∈ R und alle x ∈ Rn .
(iii) kx + yk ≤ kxk + kyk für alle x, y ∈ Rn (Dreiecksungleichung).
Als letzte Begriffe in diesem Teilkapitel führen wir das euklidische Skalarprodukt für Rn ,
sowie den Begriff der Orthogonalität von Vektoren ein.
y
y
φ
kyk cos(φ) > 0
φ
π/2
π/2
x
x
kyk cos(φ) < 0
Abb. 11.5: Der Wert des Skalarprodukts hx, yi ist das Produkt der Länge kxk von x und
der Länge kyk · cos(φ) der Projektion von y auf x.
Definition 11.10. (euklidisches Skalarprodukt) Seien x = (x1 , x2 , . . . , xn ) und y =
(y1 , y2, . . . , yn ) Vektoren in Rn . Dann spannen beide Vektoren zusammen eine Ebene auf,
und in dieser Ebene haben die Vektoren zueinander einen Winkel φ ∈ [0, π]. Dann heißt
hx, yi = kxk · kyk · cos(φ)
(11.4)
das euklidische Skalarprodukt (oder das innere Produkt) von x und y. Dieses hat
eine anschauliche Bedeutung (vgl. Abbildung 11.5): Wir können kyk · cos(φ) als die Länge
der Projektion von y auf x auffassen. Also projizieren wir y auf x und multiplizieren dann
die Längen von x und der Projektion von y auf x miteinander.
Man kann das Skalarprodukt von x und y einfacher mit der folgenden Formel berechnen,
aus der man aber keine geometrische Anschauung gewinnen kann:
hx, yi = x1 y1 + x2 y2 + . . . + xn yn =
n
X
k=1
xk yk .
(11.5)
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
349
Betrachten wir zunächst ein paar Bespiele.
Beispiel 11.11. (euklidisches Skalarprodukt) Seien
 
 
 
1
−1
1
0
 1
2



z=
y=
x=
1
−1 ,
3 ,
0
1
4
Vektoren im euklidischen Raum R4 . Dann gilt
   
−1 +
* 1
2  1
  
hx, yi = 
3 , −1 = 1 · (−1) + 2 · 1 + 3 · (−1) + 4 · 1 = −1 + 2 − 3 + 4 = 2,
1
4
   
1 +
* −1
 1 0
  
hy, zi = 
−1 , 1 = (−1) · 1 + 1 · 0 + (−1) · 1 + 1 · 0 = −1 + 0 − 1 + 0 = −2.
0
1
Bemerkung 11.12. (andere Schreibweisen des euklidischen Skalarprodukts) Andere Schreibweisen für hx, yi sind x · y oder gelegentlich (x, y).
Das nächste Lemma hält wichtige Eigenschaften des euklidischen Skalarprodukts fest.
Lemma 11.13. (Eigenschaften des euklidischen Skalarprodukts) Die wichtigsten
Eigenschaften des euklidischen Skalarprodukts von Rn sind:
p
(i) hx, xi = kxk2 für alle x ∈ Rn , d.h. kxk = hx, xi für alle x ∈ Rn .
(ii) hx, xi ≥ 0 für alle x ∈ Rn , und hx, xi = 0 nur für x = 0 .
(iii) hx, yi = hy, xi für alle x, y ∈ Rn (Symmetrie).
(iv) hα x + β y, zi = α hx, zi + β hy, zi für alle x, y, z ∈ Rn und alle α, β ∈ R.
(v) Cauchy-Schwarzsche Ungleichung:
|hx, yi| ≤ kxk · kyk
für alle x, y ∈ Rn .
Machen wir uns klar, dass die Eigenschaften in Lemma 11.13 nicht überraschend sind.
Die erste Eigenschaft hx, xi = kxk2 stellt einen Zusammenhang zwischen der euklidischen
Norm und dem euklidischen Skalarprodukt her und folgt direkt aus der Definition beider
Größen
hx, xi = x1 x1 + x2 x2 + . . . + xn xn = x21 + x22 + . . . + x2n = kxk2 .
Die Eigenschaften (ii) bis (iv) rechnet man ebenfalls leicht mit Hilfe der Definition (11.5)
des euklidischen Skalarprodukts nach bzw. führt sie in Fall von (ii) auf die Eigenschaften
der euklidischen Norm zurück.
11.2. Vektoren im euklidischen Vektorraum Rn
350
Die Cauchy-Schwarzsche Ungleichung (v) folgt direkt aus der anderen Darstellung (11.4)
des Skalarprodukts
|hx, yi| = kxk · kyk · cos(φ) = kxk · kyk · | cos(φ)| ≤ kxk · kyk.
| {z }
≤1
Das Skalarprodukt kann genutzt werden, um die Winkel im Raum zwischen zwei Vektoren
zu berechnen.
Anwendung 11.14. (Berechnung des Winkels zwischen Vektoren) Seien x und y
zwei Vektoren in Rn . Wir suchen den Winkel φ zwischen den beiden Vektoren. Nach den
beiden Definitionen des Skalarprodukts haben wir
kxk kyk cos(φ) = x1 y1 + x2 y2 + . . . + xn yn .
Also folgt durch Auflösen nach cos(φ)
cos(φ) =
x1 y1 + x2 y2 + . . . + xn yn
,
kxk kyk
(11.6)
und wir können für φ ∈ [0, π] leicht die Umkehrfunktion des Kosinus nehmen und erhalten
x1 y1 + x2 y2 + . . . + xn yn
φ = arccos
.
kxk kyk
Betrachten wir dazu zwei Beispiele.
Beispiel 11.15. (Berechnung des Winkels zwischen Vektoren) Wir suchen den
Winkel φ ∈ [0, π] zwischen den Vektoren
 
 
1
1
√
−1 .
und
y = √
x =  2
1
2
Wir berechnen zunächst das euklidische Skalarprodukt und die Längen der beiden Vektoren:
* 1  1+
√
√
√
√
√
−1 = 1 · 1 + 2 · (−1) + 1 · 2 = 1 + 2 − 2 = 1,
hx, yi =  2 , √
2
1
q
√ 2
√
√
2 + 12 = 1 + 2 + 1 = 4 = 2,
kxk = 12 +
q
√
√ 2 √
2 = 1 + 1 + 2 = 4 = 2.
kyk = 12 + (−1)2 +
Also finden wir nach (11.6)
1
1
hx, yi
=
=
cos(φ) =
kxk kyk
2·2
4
=⇒
1
≈ 75, 52◦.
φ = arccos
4
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
351
Beispiel 11.16. (Berechnung des Winkels zwischen Vektoren) Wir suchen den
Winkel zwischen den beiden Vektoren
 
 
1
1
u = −1
und
v = 1 .
1
0
Wir berechnen zunächst das euklidische Skalarprodukt und die Längen der beiden Vektoren:
*   +
1
1
hu, vi = −1 , 1 = 1 · 1 + (−1) · 1 + 1 · 0 = 1 − 1 + 0 = 0,
1
0
p
√
√
kxk = 12 + (−1)2 + 12 = 1 + 1 + 1 = 3,
√
√
√
kyk = 12 + 12 + 02 = 1 + 1 + 0 = 2.
Also finden wir nach (11.6)
cos(φ) =
0
hx, yi
= √ √ =0
kxk kyk
3· 2
=⇒
hx, yi
0
=
=0
kxk kyk
kxk kyk
=⇒
φ = arccos(0) =
π
.
2
Wir finden also, dass die beiden Vektoren einen Winkel von π/2 oder 90◦ zueinander
haben. Sie stehen also senkrecht aufeinander. Dies ist immer der Fall, wenn für zwei vom
Nullvektor verschiedene Vektoren x und y gilt hx, yi = 0, denn dann folgt nach (11.6)
cos(φ) =
φ = arccos(0) =
π
.
2
Definition 11.17. (orthogonale/zueinander senkrechte Vektoren) Seien x, y in
Rn \ {0}. Gilt hx, yi = 0, so haben die Vektoren x und y zueinander einen Winkel von
π/2 (also 90◦ ), d.h. sie stehen zueinander senkrecht. Wir sagen dann, die Vektoren x
und y sind orthogonal.
Wir haben in Beispiel 11.16 bereits ein Beispiel für orthogonale Vektoren gesehen. Betrachten wir nun noch ein weiteres Beispiel.
Beispiel 11.18. (orthogonale/zueinander senkrechte Vektoren) Die Vektoren
 
 
 
1
0
0





e1 = 0 ,
e2 = 1 ,
e3 = 0
0
0
1
sind paarweise zueinander orthogonal. Damit ist gemeint, das jeweils zwei beliebige dieser
Vektoren zueinander orthogonal sind.
Wir weisen dies nach, indem wir die euklidischen Skalarprodukte von jeweils zwei verschiedenen Vektoren berechnen:
*1 0+
he1 , e2 i =
0 , 1
0
0
= 1 · 0 + 0 · 1 + 0 · 0 = 0 + 0 + 0 = 0,
352
11.3. Linearkombination und lineare Unabhängigkeit
*1 0+
he1 , e3 i = 0 , 0 = 1 · 0 + 0 · 0 + 0 · 1 = 0 + 0 + 0 = 0,
0
1




* 0
0 +
he2 , e3 i = 1 , 0 = 0 · 0 + 1 · 0 + 0 · 1 = 0 + 0 + 0 = 0.
0
1
11.3
Linearkombination und lineare Unabhängigkeit
In diesem Teilkapitel lernen wir die zentralen Begriffe der Linearkombination und der
linearen Unabhängigkeit von Vektoren kennen. Betrachten wir zunächst ein Beispiel im
euklidischen Raum R3 , um ein Gefühl für die neuen Begriffe Linearkombination, Basis
und linear unabhängig“ zu bekommen.
”
Betrachten wir die folgenden drei Vektoren in R3
 
 
 
1
0
0





1
1
a1 =
,
a2 =
,
a3 = 1 .
0
0
1
Dann können wir uns dafür interessieren, welche Vektoren x wir als
 
 
 
 
0
0
1
x1
x = x2  = λ1 a1 + λ2 a2 + λ3 a3 = λ1 1 + λ2 1 + λ3 1
1
0
0
x3
(11.7)
mit beliebigen reellen Zahlen λ1 , λ2 , λ3 ∈ R darstellen können. Indem man die skalare
Multiplikation und Vektoraddition in (11.7) ausführt, erhält man
  
 

x1
1 · λ1 + 0 · λ2 + 0 · λ3
λ1
x = x2  = 1 · λ1 + 1 · λ2 + 1 · λ3  = λ1 + λ2 + λ3  ,
x3
0 · λ1 + 0 · λ2 + 1 · λ3
λ3
d.h. wir erhalten das folgende lineare Gleichungssystem:
λ1
= x1
λ1 + λ2 + λ3 = x2
λ3 = x3
Wir sehen sofort, dass wir für die Wahl von λ1 , λ2 , λ3 als
λ1 = x1 ,
λ3 = x3
=⇒
λ2 = x2 − λ1 − λ3 = x2 − x1 − x3
(11.8)
den Vektor x bekommen. Also können wir alle Vektoren in R3 in der Form (11.7) darstellen. Man nennt (11.7) eine Linearkombination der Vektoren a1 , a2 , a3 , und wir sagen,
der Vektor x in (11.7) ist eine Linearkombination der Vektoren a1 , a2 , a3 . Es ist
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
353
aber nicht selbstverständlich, dass man alle Vektoren in R3 als Linearkombination von
mehreren fest gewählten Vektoren schreiben kann. Definieren wir z.B. noch
 
0

a4 = −1
1
und betrachten wir
 
 
 
 
x1
0
0
0







x = x2 = λ2 a2 + λ3 a3 + λ4 a4 = λ2 1 + λ3 1 + λ4 −1 ,
x3
0
1
1
(11.9)
so erhalten wir analog zu (11.7)

 
  
0
0 · λ2 + 0 · λ3 + 0 · λ4
x1
x = x2  = 1 · λ2 + 1 · λ3 − 1 · λ4  = λ2 + λ3 − λ4  ,
λ3 + λ4
0 · λ2 + 1 · λ3 + 1 · λ4
x3
d.h. wir erhalten das folgende lineare Gleichungssystem:
0 = x1
λ2 + λ3 − λ4 = x2
λ3 + λ4 = x3
Wir sehen, dass – egal, wie wir λ2 , λ3 , λ4 ∈ R wählen – man nie einen Vektor x mit x1 6= 0
erhält. Genauer kann man leicht zeigen, dass die Linearkombination (11.9) alle Vektoren
x ∈ R3 mit x1 = 0 erzeugt.
Betrachtet man dagegen die Linearkombination
 
 
 
 
 
x1
1
0
0
0









x = x2 = λ1 a1 + λ2 a2 + λ3 a3 + λ4 a4 = λ1 1 + λ2 1 + λ3 1 + λ4 −1 ,
x3
0
0
1
1
(11.10)
so können wir natürlich jeden Vektor x in R3 darstellen, indem wir λ1 , λ2 , λ3 wie in (11.8)
wählen und λ4 = 0 wählen. Man überzeugt sich leicht, dass dies keine eindeutige Wahl
ist: Z.B. kann man den folgenden Vektor auf zwei Arten als eine Linearkombination (11.10)
darstellen:
 
 
 
0
0
0
0 = −2 a2 + 2 a3 = −2 1 + 2 1 , also λ1 = 0, λ2 = −2, λ3 = 2, λ4 = 0,
2
0
1
   
 
0
0
0
0 = a3 + a4 = 1 + −1 , also λ1 = 0, λ2 = 0, λ3 = 1, λ4 = 1.
2
1
1
Obwohl beide Systeme {a1 , a2 , a3 } und {a1 , a2 , a3 , a4 } jeweils alle Vektoren in R3 als
Linearkombinationen erzeugen, gibt es einen fundamentalen Unterschied zwischen den
354
11.3. Linearkombination und lineare Unabhängigkeit
beiden Systemen. Nur für das System {a1 , a2 , a3 } besitzt jedes x ∈ R3 eine eindeutige
Darstellung als Linearkombination der Vektoren dieses Systems. Mathematisch nennt
man ein solches System eine sogenannte Basis von R3 .
Die eine Anforderung an eine Basis {a1 , a2 , . . . , am } von R3 (und allgemeiner von Rn )
ist, dass alle Vektoren in R3 (und allgemeiner in Rn ) als Linearkombinationen von Vektoren der Basis dargestellt werden können. Die zweite Anforderung an eine Basis ist,
dass die Vektoren einer Basis linear unabhängig sind. Wir sagen, dass die Vektoren
a1 , a2 , . . . , am voneinander linear unabhängig sind, wenn sich keiner dieser Vektoren als Linearkombination der restlichen Vektoren darstellen lässt. Dann lässt
sich insbesondere jeder Vektor in R3 (und allgemeiner in Rn ) eindeutig als Linearkombination von Vektoren der Basis darstellen.
Um den Begriff linear unabhängig“ zu verstehen, betrachten wir zunächst noch einmal
”
unsere Beispielvektoren a1 , a2 , a3 , a4 in R3 . Dann gilt
 
 
 
0
0
0
1
1   1   1


1 −
−1 = a3 − a4 ,
a2 = 1 =
2
2
2
2
1
1
0
d.h. wir können a2 als Linearkombination von a1 , a3 , a4 (und genauer sogar also Linearkombination von a3 und a4 ) schreiben. Also sind die Vektoren a1 , a2 , a3 , a4 nicht linear
unabhängig. Wir sagen dann auch, die Vektoren a1 , a2 , a3 , a4 sind linear abhängig.
(Damit sehen wir auch direkt, dass die Vektoren a2 , a3 , a4 ebenfalls linear abhängig sind.)
Betrachten wir dagegen nur die drei Vektoren a1 , a2 , a3 in R3 und versuchen jeweils einen
der drei Vektoren als Linearkombination der beiden verbleibenden Vektoren darzustellen,
so finden wir
 
 
 
1
0
0





1
1
a1 =
= λ2
+ λ3 1 = λ2 a2 + λ3 a3 ,
(11.11)
0
0
1
 
 
 
0
1
0
a2 = 1 = µ1 1 + µ3 1 = µ1 a1 + µ3 a3 ,
(11.12)
0
0
1
 
 
 
0
1
0
a3 = 1 = γ1 1 + γ2 1 = γ1 a1 + γ2 a2 .
(11.13)
1
0
0
Die zu untersuchenden Linearkombinationen (11.11), (11.12) und (11.13) führen jeweils
auf die folgenden Bedingungen.
  
 

1
0 · λ2 + 0 · λ3
0
a1 = 1 = 1 · λ2 + 1 · λ3  = λ2 + λ3  ,
(11.14)
0
0 · λ2 + 1 · λ3
λ3
  
 

0
1 · µ1 + 0 · µ3
µ1
a2 = 1 = 1 · µ1 + 1 · µ3  = µ1 + µ3  ,
(11.15)
0
0 · µ1 + 1 · µ3
µ3
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
355
  
 

0
1 · γ1 + 0 · γ2
γ1
a3 = 1 = 1 · γ1 + 1 · γ2  = γ1 + γ2  .
1
0 · γ1 + 0 · γ2
0
(11.16)
Man sieht direkt, dass die Bedingung 1 = 0 für die erste Koordinate in (11.14) und die
dritte Koordinate in (11.16) nicht erfüllbar ist. Also lassen sich a1 und a3 jeweils nicht als
Linearkombination der beiden verbleibenden Vektoren darstellen. Betrachten wir (11.15),
so folgt aus der Bedingung für die erste bzw. die dritte Koordinate µ1 = 0 bzw. µ3 = 0.
Damit ist aber auch µ1 + µ3 = 0, und die Bedingung 1 = µ1 + µ3 für die zweite Koordinate
lässt sich nicht erfüllen. Also lässt sich auch a2 nicht als Linearkombination der beiden
verbleibenden Vektoren a1 und a3 darstellen. Damit haben wir gezeigt, dass die Vektoren
a1 , a2 , a3 linear unabhängig sind.
Es scheint ziemlich mühselig, die lineare Unabhängigkeit von Vektoren zu untersuchen,
indem wir überprüfen, ob jeder einzelne der Vektoren als eine Linearkombination der restlichen Vektoren darzustellen ist. Wir würden dieses gerne in einem Schritt überprüfen. Um
auf eine geeignete Gleichung zu kommen, stellen wir zunächst die Bedingungen (11.11),
(11.12) und (11.13) wie folgt um:
 
0
0 = 0 = (−1) a1 + λ2 a2 + λ3 a3 ,
(11.17)
0
 
0

0 = 0 = µ1 a1 + (−1) a2 + µ3 a3 ,
(11.18)
0
 
0

0 = 0 = γ1 a1 + γ2 a2 + (−1) a3 .
(11.19)
0
Statt der drei einzelnen Gleichungen (11.17), (11.18) und (11.19) schreiben wir nun die
Gleichung
 
 
 
 
0
1
0
0







0 = 0 = λ1 a1 + λ2 a2 + λ3 a3 = λ1 1 + λ2 1 + λ3 1 ,
(11.20)
0
0
0
1
welche die Gleichungen (11.17), (11.18) bzw. (11.19) jeweils als Sonderfälle mit λ1 = −1
bzw. λ1 = µ1 , λ2 = −1, λ3 = µ3 , bzw. λ1 = γ1 , λ2 = γ2 , λ3 = −1 beinhaltet. Um zu
zeigen, dass a1 , a2 , a3 linear unabhängig sind, haben wir für die einzelnen drei Gleichungen
(11.17), (11.18) bzw. (11.19) gezeigt, dass es in (11.20) keine Lösungen λ1 , λ2 , λ3 gibt
mit λ1 = −1 oder λ2 = −1 oder λ3 = −1. Statt dessen weisen wir die lineare
Unabhängigkeit von a1 , a2 , a3 nun wir folgt nach: Wir zeigen, dass die einzige
Lösung von (11.20) die Koeffizienten λ1 = λ2 = λ3 = 0 sind. Daraus folgt dann
insbesondere, dass (11.20) keine Lösungen λ1 , λ2 , λ3 mit λ1 = −1 oder λ2 = −1 oder
λ3 = −1 besitzt. Gibt es umgekehrt keine Lösungen λ1 , λ2 , λ3 mit λ1 = −1 oder λ2 = −1
oder λ3 = −1, so kann man daraus auch folgern, dass die einzige Lösung von (11.20)
λ1 = λ2 = λ3 = 0 ist. Dies ist allerdings nicht ganz so offensichtlich.
356
11.3. Linearkombination und lineare Unabhängigkeit
Konkret führt (11.20) auf die Gleichungen

  
1 · λ1 + 0 · λ2 + 0 · λ3
0
1 · λ1 + 1 · λ2 + 1 · λ3  = 0 ,
0 · λ1 + 0 · λ2 + 1 · λ3
0
d.h. wir erhalten das folgende lineare Gleichungssystem:
λ1
=0
λ1 + λ2 + λ3 = 0
λ3 = 0
Wir sehen sofort, dass die einzige Wahl von λ1 , λ2 , λ3 durch
λ1 = 0,
λ3 = 0
=⇒
λ2 = 0 − λ1 − λ3 = 0 − 0 − 0 = 0
(11.21)
gegeben ist. Also sind die Vektoren a1 , a2 , a3 linear unabhängig.
Nach diesem motivierenden Beispiel definieren wir nun die neuen Begriffe Linearkombination, Basis und linear unabhängig mathematisch.
Definition 11.19. (Linearkombination) Seien a1 , a2 , . . . , am Vektoren in Rn . Dann
heißt jeder Vektor der Form
x = λ1 a1 + λ2 a2 + . . . + λm am =
m
X
λk ak
k=1
mit den Koeffizienten λ1 , λ2 , . . . , λm ∈ R eine Linearkombination von a1 , a2 , . . . , am .
Betrachten wir noch zwei Beispiele.
Beispiel 11.20. (Linearkombination in R5 ) Seien
 
 
 
2
−1
0
−1
 1
1
 
 
 
 
 
 
−2
 1 ,
,
0
z
=
y
=
x=
 
 
 
 
 3
 
2
−1
 2
 
−1
1
3
Vektoren in R5 . Dann ist z eine Linearkombination von x und y, denn es gilt
  
 
  
−1
2
0
0+2
 1 1 − 2 −1
1
  
 
  
  
 
  


 



x − 2 y = 0 − 2  1 = 0 − 2
 = −2 = z.
 3 
 
  
 2  2 − 3 −1
2
1
−1
1+2
3
(11.22)
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
357
Beispiel 11.21. (Linearkombination in R2 ) Jeder Vektor in R2 ist eine Linearkombination der Vektoren
0
1
,
und
e2 =
e1 =
1
0
denn für x = (x1 , x2 ) gilt
0
1
x1
= x1 e1 + x2 e2 .
+ x2
= x1
x=
1
0
x2
Als Nächstes definieren wir lineare Unabhängigkeit.
Definition 11.22. (linear unabhängig und linear abhängig)
(i) Die Vektoren a1 , a2 , . . . , am in Rn heißen linear unabhängig, falls gilt: Die Gleichung
 
0
m
0
X
 
λk ak = λ1 a1 + λ2 a2 + . . . + λm am = 0 =  ..
 .
k=1
0
(mit λ1 , λ2 , . . . , λm ∈ Rn ) hat nur die Lösung λ1 = λ2 = . . . = λm = 0.
(ii) Sind die Vektoren a1 , a2 , . . . , am in Rn nicht linear unabhängig, so nennen wir
die Vektoren a1 , a2 , . . . , am linear abhängig.
Betrachten wir wieder zwei Beispiele.
Beispiel 11.23. (linear unabhängige Vektoren) Die Vektoren
1
0
e1 =
und
e2 =
0
1
in R2 sind linear unabhängig, denn die Gleichung
0
λ1
0
1
=0=
=
+ λ2
λ1 e1 + λ2 e1 = λ1
0
λ2
1
0
hat nur die Lösung λ1 = λ2 = 0.
Beispiel 11.24. (linear abhängige Vektoren) Die Vektoren
 
0
1
 
 

x=
0 ,
 
2
1

−1

 1
 
 

y=
 1 ,
 3
 2
−1

2

−1
 
 

z=
−2
 
−1
3
358
11.3. Linearkombination und lineare Unabhängigkeit
in R5 sind linear abhängig, denn aus (11.22) in Beispiel 11.20 wissen wir, dass
x− 2y = z
⇐⇒
x + (−2) y + (−1) z = 0.
Also hat die Gleichung
λ1 x + λ2 y + λ3 z = 0
(neben der Lösung λ1 = λ2 = λ3 = 0) auch die Lösung λ1 = 1, λ2 = −2 und λ3 = −1.
Somit sind die Vektoren x, y, z nicht linear unabhängig, d.h. sie sind linear abhängig.
Bemerkung 11.25. (linear unabhängig und linear abhängig)
(1) Die Bedingung dafür, dass die Vektoren a1 , a2 , . . . , am ∈ Rn linear unabhängig
sind, bedeutet, dass die Gleichung
λ1 a1 + λ2 a2 + . . . + λm am = 0
nach keinem der ak aufgelöst werden kann. Dazu wäre es nämlich nötig, dass ak
einen Koeffizient λk 6= 0 hätte. Also kann bei linear unabhängigen Vektoren
kein Vektor als eine Linearkombination der übrigen Vektoren geschrieben werden.
(2) Sind die Vektoren a1 , a2 , . . . , am ∈ Rn linear abhängig, also nicht linear unabhängig,
so gibt es Koeffizienten λ1 , λ2 , . . . , λm , von denen mindestens einer ungleich Null ist
und die
λ1 a1 + λ2 a2 + . . . + λm am = 0
(11.23)
erfüllen. Ist z.B. λℓ 6= 0, so können wir (11.23) nach aℓ auflösen:
λℓ aℓ = −
m
X
λk ak
=⇒
k=1, k6=ℓ
m
X
λk
aℓ = −
ak .
λ
ℓ
k=1, k6=ℓ
Also bedeutet die lineare Abhängigkeit der Vektoren a1 , a2 , . . . , am ∈ Rn ,
dass mindestens einer dieser Vektoren als Linearkombination der übrigen Vektoren darstellbar ist.
Betrachten wir noch ein paar weitere Beispiele.
Beispiel 11.26. (linear unabhängige Vektoren) Die Vektoren
 
 
 
1
0
0





e1 = 0 ,
e2 = 1 ,
e3 = 0 ,
0
0
1
in R3 sind linear unabhängig. Dies kann analog zu Beispiel 11.23 nachgewiesen werden.
Beispiel 11.27. (linear unabhängige Vektoren) Behauptung: Die Vektoren
 
 
1
0



a1 = −1 ,
a2 = 2
0
1
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
359
in R3 sind linear unabhängig.
Um dies nachzuweisen, betrachtet man

also

 
 
1
0
0
λ1 a1 + λ2 a2 = λ1 −1 + λ2 2 = 0 = 0 ,
0
1
0

  
λ1
0
−λ1 + 2 λ2  = 0 .
λ2
0
Aus der Gleichung λ1 = 0 für die erste Komponente und aus der Gleichung λ2 = 0 für
die dritte Komponente folgt λ1 = λ2 = 0. Also sind die Vektoren a1 , a2 in der Tat linear
unabhängig.
Beispiel 11.28. (linear abhängige Vektoren) Wir wollen untersuchen, ob die Vektoren
 
 
 
1
0
1





a1 = −1 ,
a2 = 2 ,
a3 = 1
0
1
1
linear unabhängig oder linear abhängig sind.
Hier zeigt eine clevere Inspektion der Vektoren, dass gilt
a3 = a1 + a2
⇐⇒
1 · a1 + 1 · a2 + (−1) · a3 = 0.
Daraus folgt, dass a1 , a2 , a3 linear abhängig sind. Geometrisch bedeutet die Gleichung
a3 = a1 + a2 , dass a3 in der Ebene liegt, die von a1 und a2 aufgespannt wird.
Natürlich kann man nicht immer durch eine clevere Inspektion der gegebenen Vektoren
a1 , a2 , . . . , am (wie im vorigen Beispiel) sehen, wenn diese linear abhängig sind. Kann
man nicht erkennen, ob ein Vektor als Linearkombination der restlichen darstellbar ist
oder nicht und somit lineare Abhängigkeit bzw. lineare Unabhängigkeit vorliegt, so setzt
man einfach die Gleichung
λ1 a1 + λ2 a2 + . . . + λm am = 0
(11.24)
an und löst nach λ1 , λ2 , . . . , λm . Findet man Lösungen mit mindestens einem von Null
verschiedenen λk , so sind die Vektoren a1 , a2 , . . . , am linear abhängig. Ist dagegen
λ1 = λ2 = . . . = λn = 0 die einzige Lösung von (11.24) so sind die Vektoren a1 , a2 , . . . , am
linear unabhängig. Wir führen diese Rechnung einmal für die Vektoren aus dem vorigen
Beispiel durch.
Beispiel 11.29. (lineare Abhängigkeit) Untersuchen wir die Vektoren
 
 
 
1
0
1





a1 = −1 ,
a2 = 2 ,
a3 = 1
0
1
1
360
11.3. Linearkombination und lineare Unabhängigkeit
auf lineare Abhängigkeit bzw. linear Unabhängigkeit, so setzen wir
 
 
   
1
0
1
0







λ1 a1 + λ2 a2 + λ3 a3 = λ1 −1 + λ2 2 + λ3 1 = 0
0
1
1
0
und finden
(11.25)

  
λ1 + λ3
0
−λ1 + 2 λ2 + λ3  = 0 .
λ2 + λ3
0
Also erhalten wir das lineare Gleichungssystem:
λ1
+ λ3 = 0
−λ1 + 2 λ2 + λ3 = 0
λ2 + λ3 = 0
Wir addieren zunächst die erste Gleichung zu der zweiten Gleichung und erhalten so:
λ1
+ λ3 = 0
2 λ2 + 2 λ3 = 0
λ2 + λ3 = 0
Anschließend teilen wir die neue zweite Gleichung durch 2 und subtrahieren danach die
so erhaltene neue zweite Gleichung von der dritten Gleichung:
λ1
+ λ3 = 0
λ2 + λ3 = 0
0 =0
Also gilt λ1 = λ2 = −λ3 und λ3 ist in R frei wählbar. Damit haben wir eine Lösung von
(11.25) gefunden, bei der nicht alle λk gleich Null sind. Daher sind die Vektoren a1 , a2 , a3
linear abhängig.
Betrachten wir abschließend noch einen Sonderfall.
Lemma 11.30. (lineare Un-/Abhängigkeit zweier Vektoren)
(i) Zwei Vektoren x und y in Rn sind genau dann linear abhängig, wenn ein Vektor
ein Vielfaches des anderen Vektors ist, d.h. wenn es eine Zahl λ ∈ R oder eine Zahl
µ ∈ R gibt mit
x = λy
oder
y = µ x.
(ii) Zwei Vektoren x und y in Rn sind genau dann linear unabhängig, wenn keiner
der beiden Vektoren ein Vielfaches des anderen Vektors ist, d.h. wenn es keine Zahl
λ ∈ R und keine Zahl µ ∈ R gibt mit
x = λy
bzw.
y = µ x.
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
361
Betrachten wir zunächst ein Besipiel.
Beispiel 11.31. (lineare Unabhängigkeit zweier Vektoren) Die beiden Vektoren
 
 
−1
2
−1
5


und
y=
x=
 1
7
0
3
sind linear unabhängig, weil keiner der beiden Vektoren ein Vielfaches des anderen Vektors
ist.
Wichtig ist zu beachten, dass Lemma 11.30 (ii) nur für die lineare Unabhängigkeit
von zwei Vektoren gilt. Wollen wir die lineare Unabhängigkeit von drei oder
mehr Vektoren a1 , a2 , . . . , am ∈ Rn überprüfen, so reicht es nicht zu untersuchen, ob
es ein λ ∈ R geben kann mit aj = λ ak für zwei verschiedene Vektoren aj und ak . Finden
wir ein solches λ, so wissen wir zwar, dass a1 , a2 , . . . , am linear abhängig sind. Finden
wir aber kein solches λ, so dürfen wir daraus nicht schließen, dass a1 , a2 , . . . , am linear
unabhängig sind! Das nächste Beispiel erläutert diesen Sachverhalt.
Beispiel 11.32. (lineare Abhängigkeit) In Beispiel 11.29 haben wir gezeigt, dass die
drei Vektoren
 
 
 
1
0
1





a1 = −1 ,
a2 = 2 ,
a3 = 1
0
1
1
linear abhängig sind. Trotzdem ist keiner dieser Vektoren ein Vielfaches eines der übrigen
Vektoren.
Als Abschluss beweisen wir Lemma 11.30.
Beweis von Lemma 11.30. Wir bemerken zunächst, dass man Aussage (ii) in Lemma
11.30 direkt durch Negation von Aussage (i) erhält. Also reicht es, Aussage (i) zu beweisen.
Beweis von (i): Da es sich um eine genau dann wenn“-Aussage handelt müssen wir beide
”
Implikationen der Aussage (i) beweisen.
Beweis von ⇒“: Seien die Vektoren x und y linear abhängig. Dann gibt es α, β ∈ R, die
”
nicht beide gleich Null sind, mit
α x + β y = 0.
Für den Fall α 6= 0 können wir diese Gleichung nach x auflösen:
β
⇐⇒
x = − y,
α x = −β y : α
α
und wir haben x = λ y mit λ = −β/α.
Für den Fall β 6= 0 können wir die obige Gleichung nach y auflösen:
α
β y = −α x : β
⇐⇒
y = − x,
β
362
11.4. Teilräume, Basis und Dimension
und wir haben y = µ x mit µ = −α/β.
Beweis von ⇐“: Es gebe eine Konstante λ ∈ R mit x = λ y oder es gebe eine Konstante
”
µ ∈ R mit y = µ x. Dann haben wir
x −λy = 0
bzw.
µ x − y = 0.
Aus jeder dieser Gleichungen folgt direkt, dass die Vektoren x und y linear abhängig sind,
denn die Gleichung
λ1 x + λ2 y = 0
hat die nicht-triviale Lösung (λ1 = 1 und λ2 = −λ) bzw. (λ1 = µ und λ2 = −1).
11.4
Teilräume, Basis und Dimension
Wir wollen nun den Begriff eines Teilraumes von Rn und anschließend den Begriff einer
Basis einführen. Zuletzt definieren wir die Dimension mir Hilfe einer Basis.
Auch zum Begriff des Teilraumes betrachten wir zunächst ein Beispiel.
Beispiel 11.33. ((x1 , x2 )-Ebene als Teilraum von R3 ) Die Ebene

 

 
 
x1
x1 
 

3 



E = x = x2 x1 , x2 ∈ R = x = x2 ∈ R x3 = 0

 

x3
0 ist ein Beispiel eines sogenannten Teilraumes“ von R3 . Die zweite Darstellung von E
”
macht dies deutlicher, denn hier wird E als Teilmenge von R3 dargestellt.
Was charakterisiert aber einen Teilraum im Gegensatz zu einer Teilmenge?
Nehmen wir zwei beliebige Vektoren x und y aus E und bilden eine beliebige Linearkombination dieser Vektoren, also
 
  
 

x1
y1
λ x1 + µ y1
λ x1 + µ y1
λ x + µ y = λ x2  + µ y2  = λ x2 + µ y2  = λ x2 + µ y2
0
0
λ0+µ0
0
so erhalten wir wieder einen Vektor, der in E liegt.
Dass die im letzten Beispiel erläuterte Eigenschaft eines Teilraumes nicht für jede interessante Teilmenge des Vektorraumes R3 gegeben ist, zeigt das nächste Beispiel.
Beispiel 11.34. (Gerade, die nicht durch den Ursprung 0 geht) Betrachten wir
die Menge aller Punkte auf der Geraden durch die Punkte
 
 
1
0



1 ,
a= 1
und
b=
1
−1
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
363
also
   



0
1−0

 y1






y2 =
1 +λ
1−1
G = y = b + λ (a − b) λ ∈ R =
λ ∈ R

y3
−1
1 − (−1) 
   
   

 
λ
0
1 
  y1
 y1
 λ∈R
1
= y2  =  1 + λ 0 λ ∈ R = y2  = 

 

y3
−1 + 2 λ y3
−1
2 



λ


3 

1
mit λ ∈ R .
= y∈R y=


−1 + 2 λ
An der ersten Darstellung von G sieht man, dass alle Vektoren in G Linearkombinationen
von a und b der Form
y = b + λ (a − b) = b + λ a − λ b = λ a + (1 − λ) b
sind. Dies sind aber spezielle Linearkombinationen, und die Linearkombination
    
  
1
0
1+0
1







1 = 1 + 1 = 2
x=a+b= 1 +
1
−1
1−1
0
gehört nicht zu G. In der Tat, setzen wir (mit Hilfe der letzten Darstellung von G)
  

1
λ
,
1
x = a + b = 2 = 
0
−1 + 2 λ
so erhalten wir für die zweite Komponente die unerfüllbare Bedingung 2 = 1.
Nun definieren wir den Begriff eines Teilraumes mathematisch.
Definition 11.35. (Teilraum/Unterraum von Rn ) Eine Teilmenge V ⊂ Rn heißt ein
Teilraum von Rn (oder ein Unterraum von Rn ), wenn Addition und Multiplikation
mit Skalaren nicht aus V herausführt, d.h. wenn gilt:
Aus
x, y ∈ V
und
λ, µ ∈ R folgt λ x + µ y ∈ V.
(11.26)
Will man überprüfen, ob eine gegebene Teilmenge V von Rn ein Teilraum von Rn ist, so
muss man überprüfen, ob die Bedingung (11.26) erfüllt ist.
Betrachten wir hierzu noch drei Beispiele.
Beispiel 11.36. (Geraden in R2 )
(a) Jede Gerade in R2 , die durch den Ursprung/Nullpunkt 0 geht, ist ein Teilraum von R2 .
In der Tat hat eine Gerade durch den Nullpunkt die Darstellung
V = z = 0 + λ (x − 0) λ ∈ R = z = λ x λ ∈ R
364
11.4. Teilräume, Basis und Dimension
für einen beliebigen Punkt/Vektor x 6= 0, der auf der Geraden liegt. Also gilt für zwei
beliebige z, y ∈ V , also z = λ1 x und y = λ2 x, und für beliebige µ1 , µ2 ∈ R
µ1 z + µ2 y = µ1 (λ1 x) + µ2 (λ2 x) = (µ1 λ1 + µ2 λ2 ) x = λ x ∈ V.
{z
}
|
=λ
(b) Jede Gerade, die nicht durch den Ursprung/Nullpunkt 0 geht, ist kein Teilraum
von R2 . In der Tat ist eine Gerade, die nicht durch den Ursprung/Nullpunkt 0 geht,
durch
W = z = y + λ (x − y) λ ∈ R = z = λ x + (1 − λ) y λ ∈ R
gegeben, wobei die beiden Punkte/Vektoren x, y auf der Geraden liegen und linear unabhängig sind und keiner der beiden Vektoren x und y als der Nullvektor gewählt werden
kann. Betrachten wir nun den Punkt z = x + y, der eine Linearkombination von x und y
ist. Falls W ein Teilraum von R2 ist, so muss z = x + y in W liegen, d.h. wir müssen ein
λ ∈ R finden, so dass gilt
z = x + y = λ x + (1 − λ) y
⇐⇒
(1 − λ) x + 1 − (1 − λ) y = 0.
|
{z
}
=λ
Daraus folgt aber wegen der linearen Unabhängigkeit von x und y, dass 1 − λ = 0 und
λ = 0 gelten muss. Die beiden Bedingungen sind aber nicht gleichzeitig erfüllbar sondern
führen jeweils auf λ = 1 bzw. λ = 0. Also ist die Linearkombination z = x + y nicht in
W , und wir haben nachgewiesen, dass W kein Teilraum ist.
Dass der Vektor x + y nicht in W liegen kann, kann man sich auch leicht geometrisch klar
machen; siehe dazu Abbildung 11.6.
x2
x+y
1
0
0
1
W
y
x
V
x1
Abb. 11.6: Illustration zum Beispiel 11.36: Man sieht in der Zeichnung direkt, dass in Fall
(b) die Linearkombination x + y einen Punkt liefert, der nicht auf der Geraden liegt.
Beispiel 11.37. (Ebene in R3 ) Die Teilmenge V ⊂ R3 ,


 
x1


V = x = x2  ∈ R3 x1 + x2 + x3 = 0


x3
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
365
ist ein Teilraum des R3 . Genauer handelt es sich dabei um eine Ebene in R3 . Dies sieht
man wie folgt: Seien x, y ∈ V und λ, µ ∈ R beliebig, und setze
 
 
  

z1
x1
y1
λ x1 + µ y1
z = z2  = λ x + µ y = λ x2  + µ y2  = λ x2 + µ y2 .
z3
x3
y3
λ x3 + µ y3
Um zu überprüfen, ob z in V liegt, müssen wir untersuchen, ob z1 + z2 + z3 = 0 erfüllt
ist. Es gilt aber
z1 + z2 + z3 = (λ x1 + µ y1) + (λ x2 + µ y2) + (λ x3 + µ y3)
= λ (x1 + x2 + x3 ) +µ (y1 + y2 + y3 ) = 0,
|
{z
}
{z
}
|
=0
=0
weil x1 + x2 + x3 = 0 und y1 + y2 + y3 = 0 ist (da x, y ∈ V ). Also ist die beliebige
Linearkombination z = λ x + µ y in V , und wir haben nachgewiesen, dass V ein Teilraum
von R3 ist.
Wie sieht man, dass es sich bei V um eine Ebene in R3 handelt? Schreiben wir die
Bedingung x1 + x2 + x3 = 0 als
x3 = −x1 − x2 ,
so können wir V auch folgendermaßen darstellen:

 


 
x1
x1 
 

 x1 , x2 ∈ R
V = x = x2  x3 = −x1 − x2 mit x1 , x2 ∈ R =  x2

 

−x1 − x2 x3 
   

 
 

1
x1
0 0 
 









0 + x2
0 +
1 x1 , x2 ∈ R ,
x2 x1 , x2 ∈ R = x1
=

 

−1
−x1
−1 −x2 und wir sehen, dass der Teilraum V alle Linearkombinationen der beiden Vektoren
 
 
1
0
b1 =  0
und
b2 =  1
−1
−1
enthält. Da diese beiden Vektoren linear unabhängig sind, ist V eine Ebene durch den
Ursprung/Nullpunkt 0, die von diesen beiden Vektoren aufgespannt wird.
Beispiel 11.38. ({0} und Rn als Teilräume von Rn ) Der Nullraum V = {0} und der
Vektorraum V = Rn selber sind jeweils Teilräume von Rn . Dass die Teilraumeigenschaft
(11.26) hier erfüllt ist, kann man jeweils direkt ohne Rechnung sehen.
Bei einer Basis von Rn handelt es sich um ein System von Vektoren mit der Eigenschaft,
dass man jeden Vektor in Rn eindeutig als Linearkombination dieser Vektoren darstellen
kann. Betrachten wir zunächst ein Beispiel.
366
11.4. Teilräume, Basis und Dimension
Beispiel 11.39. (Basen für R2 )
(a) Jedes Element x ∈ R2 lässt sich eindeutig als Linearkombination der beiden Vektoren
0
1
und
e2 =
e1 =
1
0
darstellen, denn
0
1
0
x1
x1
= x1 e1 + x2 e2 .
+ x2
= x1
+
=
x=
1
0
x2
0
x2
Das System {e1 , e2 } bildet eine Basis von R2 .
(b) Ebenso lässt sich jedes Element in x ∈ R2 eindeutig durch die Vektoren
1
1
und
b2 =
b1 =
−1
1
darstellen, denn aus dem Ansatz
λ+µ
1
1
x1
=
+µ
= λ b1 + µ b2 = λ
x=
λ−µ
−1
1
x2
folgen die beiden Gleichungen
λ + µ = x1
=⇒
λ − µ = x2
also
λ=
x1 + x2
2
2 λ = x1 + x2
und
µ=
und 2 µ = x1 − x2 ,
x1 − x2
.
2
Also gilt
x1 + x2
x1 − x2
x1 − x2
x1 + x2 1
x1
1
=
x=
+
.
b1 +
b2 =
x2
1
−1
2
2
2
2
Das System von Vektoren {b1 , b2 } bildet ebenfalls eine Basis von R2 .
(c) Betrachten wir dagegen die drei Vektoren
0
1
,
a2 =
a1 =
1
0
und
1
,
a3 =
1
dann können wir auch jeden Vektor x ∈ R2 als Linearkombination von a1 , a2 , a3 darstellen.
Dies ist klar, denn wir können nach (a) schon jeden Vektor in R2 als Linearkombination
von a1 und a2 darstellen (also wählen wir einfach den Koeffizienten von a3 in der Linearkombination als 0). Die Darstellung eines Vektors x ∈ R2 als Linearkombination der
Vektoren a1 , a2 , a3 ist aber nicht mehr eindeutig, denn beispielsweise ist der Vektor a3
auf die zwei folgenden Arten als Linearkombination darstellbar:
a3 = 0 a1 + 0 a2 + 1a3
und
Daher ist {a1 , a2 , a3 } keine Basis von R2 .
a3 = 1 a1 + 1 a2 + 0 a3 .
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
367
(d) Machen wir uns noch klar, dass man die Bedingung, dass die Koeffizienten in
der Linearkombination eindeutig bestimmt sind, auch mit Hilfe der linearen
Unabhängigkeit ausdrücken kann: Wir betrachten dabei wieder R2 .
Sind die Koeffizienten in der Darstellung
x = λ b1 + µ b2
(wie in (a) und (b)) eindeutig bestimmt, so können wir insbesondere den Nullvektor 0
nur als
0 = λ b1 + µ b2
mit
λ=µ=0
darstellen, d.h. die Vektoren b1 , b2 sind linear unabhängig. Umgekehrt kann man aus der
linearen Unabhängigkeit von b1 , b2 auch folgern, dass sich jeder Vektor x eindeutig als
Linearkombination dieser Vektoren darstellen lässt.
Lässt sich dagegen x wir in (c) auf mehrere Weisen
x = λ b1 + µ b2 + κ b3
und
x = α b1 + β b2 + γ b3 ,
mit λ 6= α oder µ 6= β oder κ 6= γ, als Linearkombination der Vektoren b1 , b2 , b3 darstellen, so folgt durch subtrahieren der beiden Gleichungen
0 = (λ − α) b1 + (µ − β) b2 + (κ − γ) b3
mit λ 6= α oder µ 6= β oder κ 6= γ, d.h. λ − α 6= 0 oder µ − β 6= 0 oder κ − γ 6= 0. Also sind
b1 , b2 , b3 linear abhängig. Sind umgekehrt b1 , b2 , b3 linear abhängig, so kann man einen
dieser drei Vektoren als Linearkombination der beiden anderen schreiben. Daraus folgert
man leicht, dass es für x mehrere verschiedene Darstellungen als Linearkombination von
b1 , b2 , b3 geben muss.
Die Überlegungen in Beispiel 11.39 (d) motivieren, warum in der nachfolgenden Definition einer Basis von Rn (und allgemeiner der Basis eines Teilraumes von Rn ) nicht von
eindeutig bestimmten Koeffizienten in der Linearkombination sondern von der linearen
Unabhängigkeit der Vektoren der Basis die Rede ist.
Definition 11.40. (Basis eines Teilraumes von Rn ) Sei V ein Teilraum des Rn , der
nicht der Nullraum {0} ist. Ein System/eine Menge {b1 , b2 , . . . , bm } von Vektoren in V
heißt eine Basis von V , wenn die folgenden zwei Bedingungen beide gelten:
(i) Die Vektoren b1 , b2 , . . . , bm sind linear unabhängig.
(ii) Jedes x ∈ V ist als eine Linearkombination der b1 , b2 , . . . , bm darstellbar.
Da Rn auch ein Teilraum von Rn ist, gilt die obige Definition insbesondere für den euklidischen Vektorraum V = Rn selber: {b1 , b2 , . . . , bm } ⊂ Rn ist eine Basis von Rn ,
wenn gilt: (i) Die Vektoren b1 , b2 , . . . , bm sind linear unabhängig, und (ii) jedes x ∈ Rn
ist als eine Linearkombination der b1 , b2 , . . . , bm darstellbar.
Betrachten wir nun einige Beispiele.
368
11.4. Teilräume, Basis und Dimension
Beispiel 11.41. (Basen von Rn )
(a) Basen von R2 : In Beispiel 11.39 haben wir bereits gesehen, dass
( )
0
1
,
{e1 , e2 } =
1
0
|{z} |{z}
= e1 = e2
(11.27)
eine Basis von R2 ist. Ebenso haben wir gesehen, dass
( )
1
1
{b1 , b2 } =
,
1
−1
|{z} | {z }
= b1 = b2
eine Basis von R2 ist. Man sieht hieran, das R2 (und allgemeiner auch jeder Teilraum von
Rn , außer dem Nullraum V = {0}) mehr als eine Basis besitzt.
(b) In Beispiel 11.39 haben wir ebenfalls gesehen, dass {a1 , a2 , a3 }, mit
1
0
1
,
und
a3 =
,
a2 =
a1 =
1
1
0
keine Basis von R2 ist, denn die Bedingung (i) der linearen Unabhängigkeit der Vektoren
ist wegen
a3 = a1 + a2
⇐⇒
a1 + a2 − a3 = 0
verletzt.
(c) Das System {a} mit
1
a=
1
ist keine Basis von R2 , denn die Bedingung (ii) in Definition 11.40 ist verletzt. (Z.B. können
wir den Vektor
1
x=
0
nicht als Linearkombination x = λ a mit einem geeigneten λ ∈ R darstellen.)
(d) Basis von Rn : In einer Verallgemeinerung der Basis (11.27) ist {e1 , e2 , . . . , en } mit
 
 
 
 
0
0
0
1
0
0
1
0
 
 
 
 
0
1
0
0
 
 
 
 
 
 
 
 
...,
en = 0
e3 = 0 ,
e2 = 0 ,
e1 = 0 ,
 ..
 ..
 ..
 ..
 .
 .
 .
 .
 
 
 
 
0
0
0
0
1
0
0
0
eine Basis für Rn . Dabei tritt in ek die 1 als die kte Komponente auf, und alle anderen
Komponenten von ek haben den Wert 0. Man nennt {e1 , e2 , . . . , en } die Standardbasis
von Rn oder die kanonische Basis von Rn
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
369
Dass {e1 , e2 , . . . , en } eine Basis von Rn ist, sieht man wie folgt: Für beliebiges x ∈ Rn gilt

    
 
x1
x1
0
0
 x2   0  x2 
 0

    
 
 x3   0   0 
 0

    
 
x =  ..  =  ..  +  ..  + . . . +  .. = x1 e1 + x2 e2 + . . . + xn en .
 .  . .
 .

    
 
xn−1   0   0 
 0
xn
0
0
xn
Also ist (ii) in Definition 11.40 erfüllt. Weiter folgt aus
 
 
0
1
1
0
 
 
0
0
 
 
λ1 e1 + λ2 e2 + . . . + λn en = λ1  .. + λ2  .. + . . . + λn
 .
 .
 
 
0
0
0
0
dass


λ1
 λ2 
 
 ..  = 0
.
=⇒
   
0
0
0 0
   
0 0
   
 .. =  .. = 0,
 .  .
   
0 0
0
1
λ1 = λ2 = . . . = λn = 0
λn
gilt, und damit haben wir die lineare Unabhängigkeit der Vektoren (Bedingung (i) in
Definition 11.40) nachgewiesen.
Beispiel 11.42. (Gerade durch den Ursprung/Nullpunkt) Eine Gerade in Rn durch
den Ursprung/Nullpunkt 0, also


 


a
1






 a2   
G = λ a = λ  ..  λ ∈ R


.






an (mit a 6= 0) ist ein Teilraum von Rn , denn es gilt für zwei beliebige x, y ∈ G, mit x = λ1 a
und y = λ2 a, und zwei beliebige α, β ∈ R, dass
α x + β y = α λ1 a + β λ2 a = (α λ1 + β λ2 ) a ∈ G.
Per Definition lässt sich jedes y ∈ G als y = λ a mit einem geeigneten λ ∈ R darstellen.
Weiter folgt aus λ a = 0, dass λ = 0 gelten muss, da a 6= 0 ist. Also ist a linear unabhängig.
Das System {a} ist somit eine Basis für G.
Beispiel 11.43. (Basis einer Ebene in R3 ) In Beispiel 11.37 haben wir gesehen, dass


 
x1


V = x = x2  ∈ R3 x1 + x2 + x3 = 0


x3
370
11.4. Teilräume, Basis und Dimension
ein Teilraum des R3 ist. Weiter haben wir gezeigt, dass wir V auch folgendermaßen darstellen können:
  

 
1
0 

V = x1  0 + x2  1 x1 , x2 ∈ R .


−1
−1 An dieser Darstellung sieht man, dass wir jeden Vektor in V als Linearkombination von
 
 
1
0



b1 =
0
und
b2 =
1
−1
−1
schreiben können. Diese beiden Vektoren sind linear unabhängig, denn aus
 
  
  
1
0
λ1
0







0 + λ2
1 =
λ2
λ1 b1 + λ2 b2 = λ1
= 0 = 0
−1
−1
−λ1 − λ2
0
folgt direkt λ1 = λ2 = 0. Daher ist {b1 , b2 } eine Basis von der Ebene V .
Im nachfolgenden Lemma halten wir noch zwei wichtige Eigenschaften von Basen fest.
Lemma 11.44. (Eigenschaften einer Basis) Sei V ein Teilraum von Rn . Dann gelten
folgende Aussagen:
(i) Das System {b1 , b2 , . . . , bm } ⊂ V ist genau dann eine Basis von V , wenn jedes
x ∈ V eine eindeutige Darstellung als Linearkombination der b1 , b2 , . . . , bm hat.
(ii) Jede Basis von V hat die gleiche Anzahl von Elementen.
Die Informationen aus dem letzten Lemma machen die nachfolgende Definition sinnvoll.
Definition 11.45. (Dimension eines Teilraums von Rn ) Sei V ein Teilraum des
Rn . Ist V 6= {0}, so bezeichnet man als Dimension von V , abgekürzt mit dim(V ), die
Anzahl der Elemente einer Basis von V . Für den Nullvektorraum V = {0} setzt man
dim(V ) = 0.
Betrachten wir dazu einige Beispiele.
Beispiel 11.46. (Dimension von Teilräumen von Rn )
(a) Aus Beispiel 11.41 (d) sehen wir, dass Rn die Standardbasis {e1 , e2 , . . . , en } hat. Also
hat Rn die Dimension dim(Rn ) = n.
(b) In Beispiel 11.42 haben wir gesehen, dass eine Gerade in Rn durch den Ursprung/Nullpunkt
0, also


 


a1 





 a2   
G = λ a = λ  ..  λ ∈ R


.






an 11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
371
(mit a 6= 0), ein Teilraum von Rn mit der Basis {a} ist. Also hat G die Dimension
dim(G) = 1.
(c) In Beispiel 11.43 haben wir gesehen, dass die Ebene


 
x1


3 

V = x = x2 ∈ R x1 + x2 + x3 = 0


x3
ist ein Teilraum des R3 mit der Basis
{b1 , b2 }
mit


1
b1 =  0
−1
und
ist. Also hat die Ebene V die Dimension dim(V ) = 2.


0
b2 =  1
−1
Abschließend halten wir noch einen nützlichen Satz fest und betrachten zwei Beispiele,
um zu zeigen, wir man den Satz anwendet.
Satz 11.47. (Basis, Dimension und lineare Unabhängigkeit)
(i) In einem Teilraum V von Rn mit Dimension dim(V ) = m sind k Vektoren immer
linear abhängig, wenn gilt k > m.
(ii) In einem Teilraum V von Rn mit Dimension dim(V ) = m bilden m linear unabhängige Vektoren immer eine Basis von V .
Beispiel 11.48. (Anwendung von Satz 11.47) Wir wissen, dass gilt dim(R4 ) = 4.
Nach Satz 11.47 (i) sind daher die fünf Vektoren
 
 
 
 
 
0
−1
7
1
1
 1
 3
13
1
2





und
a5 = 
a4 = 
a3 = 
a2 = 
a1 = 
−3 .
−7
 4 ,
1 ,
3 ,
7
22
2
1
4
linear abhängig. Insbesondere bilden sie keine Basis von R4 .
Beispiel 11.49. (Anwendung von Satz 11.47) Betrachten wir die drei Vektoren
 
 
 
0
1
0





b1 = 2 ,
b2 = 0
und
b3 = −1
3
1
0
in R3 . Aus
 
 
  

0
1
0
λ2
0 = λ1 b1 + λ2 b2 + λ3 b3 = λ1 2 + λ2 0 + λ3 −1 = 2 λ1 − λ3 
3
1
0
3 λ1 + λ2
372
11.4. Teilräume, Basis und Dimension
folgt das linear Gleichungssystem:
λ2
2 λ1
− λ3
3 λ1 + λ2
= 0
= 0
= 0
Aus der ersten Gleichung können wir direkt λ2 = 0 ablesen, und aus der dritten Gleichung
folgt somit λ1 = −λ2 /3 = 0. Aus der zweiten Gleichung können wir nun schließlich ablesen
λ3 = 2 λ1 = 0. Also ist λ1 = λ2 = λ3 = 0 die einzige Lösung, und die drei Vektoren
b1 , b2 , b3 sind linear unabhängig. Wegen dim(R3 ) = 3 folgt aus Satz 11.47 (ii), dass
{b1 , b2 , b3 } eine Basis für R3 ist.
Kapitel 12
Matrizen
In diesem Kapitel lernen wir Matrizen kennen. Ähnlich wie bei Vektoren handelt es sich bei
Matrizen um eine rechteckige Anordnung“ von reellen Zahlen. Genauer sind Vektoren ein
”
Sonderfall von Matrizen, und in diesem Kapitel werden wir dann auch sehen, dass es einen
Unterschied macht, ob wir Zeilenvektoren oder Spaltenvektoren betrachten. Wie Vektoren
kann man Matrizen addieren und mit reellen Zahlen multiplizieren. Man kann aber auch
Matrizen miteinander multiplizieren, so dass man als Ergebnis wieder eine Matrix erhält.
Dies geht nur, wenn die Typen der beiden miteinander zu multiplizierenden Matrizen
zueinander passen“ – wir werden noch sehen, was dieses genau bedeutet. Hier sei aber
”
bereits festgehalten, dass die Multiplikation nicht definiert ist, indem man (wie bei der
Addition von Vektoren und Matrizen) Einträge an der gleichen Stelle der Anordnung
miteinander multipliziert.
In Kapitel 13 werden wir uns mit linearen Gleichungssystemen befassen, die Ihnen vermutlich aus dem Schulunterricht vertraut sind. Wir werden sehen, dass man solche linearen
Gleichungssysteme mit Hilfe von Matrizen und der Multiplikation von Matrizen bequem
darstellen und lösen kann.
12.1
Matrizen: Einführende Beispiele
Betrachten wir zunächst ein paar Beispiele von Matrizen und rechnen mit diesen ganz
analog zu unserer Vorgehensweise bei Vektoren.
Bei der rechteckigen Anordnung“
”
A=
1 2 3
4 5 6
(12.1)
handelt es sich um eine sogenannte 2 ×3-Matrix. Dabei steht 2 ×3 dafür, dass es 2 Zeilen
und 3 Spalten gibt.
7 −2 5
B=
(12.2)
4 −5 2
373
374
12.1. Matrizen: Einführende Beispiele
ist also ebenfalls eine 2 × 3-Matrix. Dagegen ist


3
9
C = 6 −2
8 −1
(12.3)
eine 3 × 2-Matrix, da 3 Zeilen und 2 Spalten vorliegen. Natürlich können wir auch
quadratische“ Matrizen mit gleichviel Zeilen wie Spalten haben. So sind
”


1
0
−1
10
 2 −1 −3
7
1 2

und
E=
D=

4
2
0 −5
3 4
−1 −7
3
2
eine 2 × 2-Matrix und eine 4 × 4-Matrix.
Wir trachten noch zwei spezielle Fälle, nämlich die Nullmatrix und die Einheitsmatrix,
wobei die letztere nur für quadratische Matrizen auftritt. Wie der Name anzeigt, hat die
Nullmatrix nur Nullen als Einträge. So ist z.B. die 2 × 4-Nullmatrix
0 0 0 0
.
O=
0 0 0 0
Die Einheitsmatrix ist quadratisch“ und hat auf der Diagonale“ von links oben nach
”
”
rechts unten immer die Zahl 1; alle anderen Einträge sind Null. So ist z.B. die 5 × 5Einheitsmatrix


1 0 0 0 0
0 1 0 0 0



I5 = 
0 0 1 0 0 .
0 0 0 1 0
0 0 0 0 1
Zuletzt betrachten wir noch den Sonderfall der Zeilen- und Spaltenvektoren. Bei
den Zeilenvektoren
x = (1, 2, 3) ∈ R3
und
y = (y1 , y2, . . . , yn ) ∈ Rn
handelt es sich in der neuen Terminologie um eine 1×3-Matrix bzw. um eine 1×n-Matrix.
Betrachtet man statt dessen die Spaltenvektoren
 
y1
 
1
 y2 
 
x = 2 ∈ R3
und
y =  ..  ∈ Rn ,
.
3
yn
so handelt es sich in der neuen Terminologie um eine 3 × 1-Matrix bzw. um eine n × 1Matrix.
Wenn wir fragen, ob zwei Matrizen gleich sind, dann ist diese Frage natürlich überhaupt nur dann sinnvoll, wenn es sich um Matrizen handelt, die jeweils die gleiche Anzahl
Zeilen und auch die gleiche Anzahl Spalten haben. Für die beiden Matrizen A und B in
12. Matrizen
375
(12.1) und (12.2) können wir also fragen, ob diese gleich sind. Dies ist natürlich nicht der
Fall, da sie nicht die gleichen Einträge (an den gleichen Stellen) haben. Auch die Matrizen
1 2 2
1 2 2
(12.4)
und
G=
F =
1 2 2
2 1 2
sind nicht gleich, denn z.B. der Eintrag in der zweiten Zeile und ersten Spalte ist unterschiedlich (2 bei der Matrix F und 1 bei der Matrix G). Dagegen sind die Matrizen
1 0 2
(−1)2
0
2
H=
und
K=
0 1 0
0
(−1)2 0
gleich, da (−1)2 = 1 gilt.
Wir wollen nun Matrizen analog zu Vektoren addieren und mit reellen Zahlen multiplizieren. Bei Vektoren haben wir gelernt, dass wir zwei Vektoren nur addieren können, wenn
beide Vektoren in Rn (mit dem gleichen n) liegen, also wenn beide Vektoren gleich viele
Komponenten haben. Also erwarten wir, dass wir auch nur zwei Matrizen, die beide dieselbe Anzahl an Zeilen haben und die beide dieselbe Anzahl an Spalten haben, addieren
können. Addieren wir beispielsweise die Matrizen A und B aus (12.1) und (12.2):
1 2 3
7 −2 5
1 + 7 2 + (−2) 3 + 5
8 0 8
A+B =
+
=
=
.
4 5 6
4 −5 2
4 + 4 5 + (−5) 6 + 2
8 0 8
Wir addieren die Matrizen also, indem wir einfach die Einträge an der gleichen
Position addieren. Analog können wir auch Matrizen subtrahieren. So ist z.B. F − G
für die 2 × 3-Matrizen F und G aus (12.4) gegeben durch
1 2 2
1 2 2
1−1 2−2 2−2
0
0 0
F −G =
−
=
=
.
2 1 2
1 2 2
2−1 1−2 2−2
1 −1 0
Für den Fall von n×1-Matrizen, also Spaltenvektoren in Rn , ist dies nichts weiter als unsere normale Addition bzw. Subtraktion von Vektoren. Für den Fall von 1×n-Matrizen, also
Zeilenvektoren in Rn , ist dies ebenso lediglich unsere normale Addition bzw. Subtraktion
von Vektoren.
Nun wollen wir Matrizen mit einer reellen Zahl multiplizieren. Auch dies geschieht
analog zu Vektoren. Einen Vektor haben wir mit einer reellen Zahl λ multipliziert, indem
wir jeden Eintrag des Vektors mit λ multipliziert haben. Ebenso multipliziert man eine
Matrix mit einer reellen Zahl λ, indem man jeden Eintrag der Matrix mit λ multipliziert.
So ist z.B. für die Matrix A aus (12.1)
1 2 3
3·1 3·2 3·3
3 6 9
3·A = 3A = 3·
=
=
.
4 5 6
3·4 3·5 3·6
12 15 18
Für die Matrix C aus (12.3) finden wir

 
 

3
9
(−2) · 3
(−2) · 9
−6 −18
4 .
(−2) · C = −2 C = (−2) · 6 −2 = (−2) · 6 (−2) · (−2) = −12
8 −1
(−2) · 8 (−2) · (−1)
−16
2
376
12.1. Matrizen: Einführende Beispiele
Wir multiplizieren Matrizen also mit einer Zahl λ ∈ R, indem wir jeden Eintrag
der Matrix mit der Zahl λ multiplizieren. Ein Sonderfall hiervon ist die Multiplikation von (Zeilen- oder Spalten-)Vektoren mit reellen Zahlen.
Was hat es nun mit der Multiplikation von Matrizen auf sich?
Diese ist komplizierter und geschieht nicht, indem man einfach die Einträge an der gleichen Position multipliziert. Eine Kernidee bei der Multiplikation von Matrizen haben wir
aber schon im vorigen Kapitel kennengelernt, nämlich das euklidische Skalarprodukt
zweier Vektoren x und y in Rn . Dieses haben wir auf zwei Arten definiert, wobei wir zu
seiner Berechnung die zweite Formel aus Definition 11.10 verwenden:
hx, yi =
n
X
xk yk = x1 y1 + x2 y2 + . . . + xn yn .
k=1
Wir wollen diese Formel nun als Multiplikation des Zeilenvektors x mit dem Spaltenvektor y interpretieren: also
 
y1
n
 y2  X
 
xk yk = x1 y1 + x2 y2 + . . . + xn yn .
(x1 , x2 , . . . , xn )  ..  =
 .  k=1
yn
Haben wir nun zwei geeignete“ Matrizen, z.B. die 2 × 3-Matrix A in (12.1) und die
”
folgende 3 × 3-Matrix


1
0 −1
2
L = 0 −1
1
1 −1
vorgegeben, so können wir eine Produktmatrix


1
0 −1
1 2 3 
0 −1
2
A· L = AL =
4 5 6
1
1 −1
(12.5)
definieren, indem wir jeden Zeilenvektor der ersten Matrix mit jedem Spaltenvektor der
zweiten Matrix multiplizieren. Dies geht natürlich nur wenn die Zeilenvektoren der
ersten Matrix und die Spaltenvektoren der zweiten Matrix die gleiche Anzahl
von Komponenten haben. Dies ist in unserem Beispiel aber der Fall, denn wir multiplizieren die 2 × 3-Matrix A mit der 3 × 3-Matrix L. Allgemeiner können wir Produkte
A B von Matrizen bilden, bei denen A eine ℓ × m-Matrix und B eine m × n-Matrix ist.
Was für eine Matrix erhalten wir als Resultat unserer Multiplikation, und wo tragen wir
welches Ergebnis der Multiplikation eines Zeilenvektors mit einem Spaltenvektor ein? –
Da wir in unserem Beispiel (12.5) jeden der 2 Zeilenvektoren von A mit jedem der 3 Spaltenvektoren von L multiplizieren, erhalten wir 2 · 3 = 6 Werte eines solchen Produkts, und
wir können diese wie folgt in einer 2 × 3-Matrix festhalten: Wir nehmen das Skalarprodukt des ersten (bzw. zweiten) Zeilenvektors von A mit dem m-ten Spaltenvektor (wobei
m = 1, 2, 3) als Eintrag von A L in der ersten bzw. zweiten Zeile und m-ten Spalte. Also
12. Matrizen
377
finden wir
AL =
=


1
0 −1
1 2 3 
0 −1
2
4 5 6
1
1 −1
1·1+2·0+3·1
4·1+5·0+6·1
4 1 0
=
.
10 1 0
1 · 0 + 2 · (−1) + 3 · 1
4 · 0 + 5 · (−1) + 6 · 1
1 · (−1) + 2 · 2 + 3 · (−1)
4 · (−1) + 5 · 2 + 6 · (−1)
!
Allgemein ist also das Produkt A B einer ℓ × m-Matrix A mit einer m × n-Matrix
B eine ℓ × n-Matrix, und der Eintrag dieser ℓ × n-Matrix in der j-ten Zeile und
k-ten Spalte ist gerade das (Skalar-)Produkt des j-ten Zeilenvektors von A mit
dem k-ten Spaltenvektor von B.
Da es sich bei Spaltenvektoren auch um Matrizen handelt, können wir nun auch eine
ℓ × m-Matrix mit einem Spaltenvektor in Rm , also einer m × 1-Matrix, multiplizieren. Für die 2 × 3-Matrix A in (12.1) und den Spaltenvektor
 
1

x = −1
1
finden wir beispielsweise
 
1
1 2 3  
−1 =
Ax =
4 5 6
1
!
1 · 1 + 2 · (−1) + 3 · 1
4 · 1 + 5 · (−1) + 6 · 1
2
=
.
5
Für die Multiplikation der 2 × 3-Matrix A aus (12.1) mit einem beliebigen Spaltenvektorn
y in R3 finden wir
 
!
!
y1
1
·
y
+
2
·
y
+
3
·
y
y
+
2
y
+
3
y
1
2
3
1
2
3
1 2 3  
y2 =
Ay =
=
.
(12.6)
4 5 6
4
·
y
+
5
·
y
+
6
·
y
4
y
+
5
y
+
6
y
1
2
3
1
2
3
y
3
Betrachten wir nun die Gleichung
Ay = b
mit
b=
−3
7
(12.7)
mit der Matrix A aus (12.6), so sehen wir mit der Rechnung aus (12.6), dass (12.7) das
lineare Gleichungssystem
y1 + 2 y2 + 3 y3 = −3
−3
y1 + 2 y2 + 3 y3
⇐⇒
=
4 y1 + 5 y2 + 6 y3 =
7
7
4 y1 + 5 y2 + 6 y3
ist. Dies illustriert den Zusammenhang zwischen Matrizen und linearen Gleichungssystemen, mit dem wir uns in Kapitel 13 noch ausführlich beschäftigen werden.
378
12.2. Matrizen und Matrizenoperationen
12.2
Matrizen und Matrizenoperationen
Nachdem wir im vorigen Teilkapitel bereits an Beispielen Matrizen und die wesentlichen
Matrizenoperationen (Addition, Multiplikation mit reellen Zahlen und das Matrizenprodukt) kennengelernt haben, wollen wir diese nun mathematisch sauber definieren.
Definition 12.1. (Matrizen) Ein rechteckiges
”
Form

a1,1 a1,2 a1,3
 a2,1 a2,2 a2,3


A =  a3,1 a3,2 a3,3
 ..
..
..
 .
.
.
am,1 am,2 am,3
Schema“ von Elementen aj,k ∈ R der

· · · a1,n
· · · a2,n 

· · · a3,n 
(12.8)

.. 
. 
· · · am,n
mit m Zeilen und n Spalten heißt eine m × n-Matrix. Die Menge aller m × n-Matrizen
(mit Elementen/Einträgen aus R) wird mit Mm,n (R) oder kurz Rm×n bezeichnet. Wir
nutzen die folgende Kurzschreibweise: A = (aj,k ) ∈ Mm,n (R)“ oder A ∈ Mm,n (R) mit
”
”
A = (aj,k )“.
Der Eintrag aj,k steht also in der j-ten Zeile und der k-ten Spalte, d.h. der erste Index
gibt die Zeile an, und der zweite Index gibt die Spalte an. Der Zeilenvektor
(aj,1 , aj,2, aj,3 , . . . , aj,n)
ist die j-te Zeile von A, und der Spaltenvektor


a1,k
 a2,k 


 a3,k 


 .. 
 . 
am,k
ist die j-te Spalte von A.
Für m = n, also wenn die Matrix A in (12.8) genauso viele Zeilen wie Spalten hat, nennen
wie A eine quadratische Matrix.
Betrachten wir ein paar Beispiele.
Beispiel 12.2. (Matrizen)
A=
1 0 2
−1 3 7
und


4
B =  1
−2
sind also eine 2 × 3-Matrix, also A ∈ M2,3 (R), und eine 3 × 1-Matrix, also B ∈ M3,1 (R).
Wenn wir für die obige Matrix A die Einträge der Matrix mit aj,k (also A = (aj,k ))
bezeichnen, dann gilt
a1,1 = 1,
a1,2 = 0,
a1,3 = 2,
a2,1 = −1,
a2,2 = 3,
a2,3 = 7.
12. Matrizen
379
Bei den Matrizen
C = 0 1 −3
und
1 0
D=
0 1
handelt es sich um eine 1×3-Matrix, also C ∈ M1,3 (R), und eine quadratische 2×2-Matrix,
also D ∈ M2,2 (R).
Definition 12.3. (gleiche Matrizen) Zwei Matrizen A = (aj,k ) ∈ Mm,n (R) und B =
(bj,k ) ∈ Mℓ,p (R) sind gleich wenn gilt:
(i) m = ℓ und n = p (d.h. die beiden Matrizen haben jeweils gleich viele Zeilen und
jeweils gleich viele Spalten), und
(ii) aj,k = bj,k für alle j = 1, 2, . . . , m und alle k = 1, 2, . . . , n.
Betrachten wir hierzu ebenfalls ein Beispiel.
Beispiel 12.4. (gleiche Matrizen) Die beiden Matrizen


1 −1
1
1 −1
A = −1
und
B = (bj,k ) ∈ M3,3 (R) mit bj,k = (−1)j+k
1 −1
1
sind gleich, denn es handelt sich in beiden Fällen um 3 × 3-Matrizen, und die Einträge
der beiden Matrizen stimmen überein. Letzteres sieht man, indem man die Einträge von
B explizit berechnet:



 
(−1)2 (−1)3 (−1)4
1 −1
1

 
 
(−1)2+3  = (−1)3 (−1)4 (−1)5  = −1
1 −1 = A.
(−1)1+1 (−1)1+2 (−1)1+3

B = (−1)2+1 (−1)2+2
(−1)3+1 (−1)3+2 (−1)3+3

(−1)4 (−1)5 (−1)6
1 −1
1
Bemerkung 12.5. (Spaltenvektoren und Zeilenvektoren als Matrizen) Jeder Spaltenvektor
 
x1
 x2 
 
x =  .. 
.
xn
in Rn kann als Matrix mit einer Spalte aufgefasst werden, also als eine n × 1-Matrix
(in Mn,1 (R)). Ebenso kann jeder Zeilenvektor
x = (x1 , x2 , . . . , xn )
in Rn als Matrix mit einer Zeile aufgefasst werden, also als eine 1 × n-Matrix (in
M1,n (R)). Im Zusammenhang mit Matrizen ist es sinnvoll, einen (Spalten-)Vektor x ∈ Rn
als eine n × 1-Matrix anzusehen. Warum dies der Fall ist, werden wir noch sehen, wenn
wir das Matrizenprodukt eingeführt haben und lineare Gleichungssysteme betrachten.
380
12.2. Matrizen und Matrizenoperationen
Wir halten noch zwei spezielle Matrizensorten in den nachfolgenden Definition fest.
Definition 12.6. (Nullmatrix und Einheitsmatrix)
(i) Die m × n-Matrix O in der jeder Eintrag eine Null ist nennt man die Nullmatrix
von Mm,n (R).
(ii) Die quadratische n × n-Matrix In , bei der alle Einträge auf der Hauptdiagonalen
(von links oben nach rechts unten) den Wert Eins haben und bei der alle anderen
Einträge den Wert Null haben, nennt man die Einheitsmatrix von Mn,n (R). In
Formeln haben wir also


1 0 ··· 0
. . .. 

. .
0 1
In =  . .
.
.
 .. . . . . 0
0 ··· 0 1
Betrachten wir zwei Beispiele.
Beispiel 12.7. (Nullmatrix) Die Nullmatrizen in M2,3 (R), M3,3 (R) bzw. M2,1 (R) sind


0 0 0
O =  0 0 0
0 0 0
0 0 0
,
O=
0 0 0
0
.
O=
0
bzw.
Beispiel 12.8. (Einheitsmatrix) Die Einheitsmatrizen in M2,2 (R) bzw. M3,3 (R) sind
I2 =
1 0
0 1
bzw.


1 0 0
I3 = 0 1 0 .
0 0 1
Als Nächstes definieren wir die Addition von Matrizen und die Multiplikation einer Matrix
mit einer reellen Zahl (einem Skalar).
Definition 12.9. (Addition und skalare Multiplikation von Matrizen) Seien A, B ∈
Mm,n (R) mit A = (aj,k ), B = (bj,k ), und sei λ ∈ R. Wir definieren die Summe der Matrizen A und B durch
A + B = (aj,k + bj,k ) ∈ Mm,n (R),

a1,1
 a2,1

A + B =  ..
 .
a1,2
a2,2
..
.
···
···
 
b1,1
a1,n


a2,n   b2,1
..  +  ..
.   .
am,1 am,2 · · · am,n
d.h.
b1,2
b2,2
..
.
···
···

b1,n
b2,n 

.. 
. 
bm,1 bm,2 · · · bm,n
12. Matrizen
381

a1,1 + b1,1
 a2,1 + b2,1

=
..

.
a1,2 + b1,2
a2,2 + b2,2
..
.
···
···
a1,n + b1,n
a2,n + b2,n
..
.
am,1 + bm,1 am,2 + bm,2 · · · am,n + bm,n



,

und wir definieren die Multiplikation der Matrix A mit der reellen Zahl λ durch

a1,1
 a2,1

λ A = λ  ..
 .
am,1
λ A = (λ aj,k ) ∈ Mm,n (R),
d.h.

 
λ a1,1 λ a1,2 · · · λ a1,n
a1,2 · · · a1,n


a2,2 · · · a2,n 
  λ a2,1 λ a2,2 · · · λ a2,n 
..  .
..
..  =  ..
..
. 
.
.   .
.
λ am,1 λ am,2 · · · λ am,n
am,2 · · · am,n
Betrachten wir ein paar Beispiele.
Beispiel 12.10. (Addition und skalare Multiplikation von Matrizen) Betrachten
wir die Matrizen






3 −7
−2 −1
1 2
−4 −2
 0
3 4
1



,

und
C
=
B
=
A=
 0 −1 .
 2 −1
5 6
5
9
1
1
7 8
Berechnen wir zuerst −2 A und 3 B, also

 
1 2
(−2) · 1
3 4 (−2) · 3

 
−2 A = (−2) · 
=
5 6 (−2) · 5
(−2) · 7
7 8
 

3 · (−2)
−2 −1


 0
1  3 · 0

3B = 3·
=
 2 −1  3 · 2
3·1
1
1
 
−2
(−2) · 2


(−2) · 4  −6
=
(−2) · 6 −10
−14
(−2) · 8
 
−6
3 · (−1)


3·1   0
=
3 · (−1)  6
3
3·1

−4
−8

,
−12
−16

−3
3

.
−3
3
(12.9)
(12.10)
Nun berechnen wir A + B, B − C und −2 A + 3 B. Dabei realisieren wir B − C als
B + (−1) C, was aber bedeutet, dass wir die Einträge von C jeweils von denen von B
abziehen (wie wir auch intuitiv erwarten).

 
 
 

−1 1
1 + (−2)
2 + (−1)
−2 −1
1 2



3 4  0
4+1 
1
  3 5
  3+0
 

A+B =
,
=
=
+
5 6  2 −1  5 + 2
6 + (−1)  7 5
8 9
7+1
8+1
1
1
7 8

 
 
 

−5
6
−2 − 3
−1 − (−7)
3 −7
−2 −1

 

 0
3
1 − (−2) 
1

  4
 −4 −2 0 − (−4)

B−C =
.
=
=
−
 2 −1  0 −1  2 − 0
0
−1 − (−1)  2
−4 −8
1−5
1−9
5
9
1
1
382
12.2. Matrizen und Matrizenoperationen
Mit den Berechnungen aus (12.9) und (12.10) finden wir
 
 

−2 − 6
−6 −3
−2 −4


 −6 −8  0
3  −6 + 0
 
−2 A + 3 B 
−10 −12 +  6 −3 = −10 + 6
−14 + 3
3
3
−14 −16
schließlich

 
−8 −7
−4 − 3


−8 + 3 
 =  −6 −5 .
−12 − 3  −4 −15
−11 −13
−16 + 3
Wir halten noch allgemein fest, was wir bereits im letzten Beispiel über die Subtraktion
von Matrizen gelernt haben. Wegen A − B = A + (−1) B für zwei m × n-Matrizen
A = (aj,k ) und B = (bj,k ) gilt
A − B = (aj,k − bj,k ) ∈ Mm,n (R),

a1,1
 a2,1

A − B =  ..
 .
a1,2
a2,2
..
.
 
a1,n
b1,1
 b2,1
a2,n 
 
..  −  ..
.   .
···
···
am,1 am,2 · · · am,n

a1,1 − b1,1 a1,2 − b1,2
 a2,1 − b2,1 a2,2 − b2,2

=
..
..

.
.
am,1 − bm,1 am,2 − bm,2
d.h.
b1,2
b2,2
..
.
···
···

b1,n
b2,n 

.. 
. 
bm,1 bm,2 · · · bm,n

· · · a1,n − b1,n
· · · a2,n − b2,n 

.
..

.
· · · am,n − bm,n
Nun führen wir das Matrizenprodukt ein.
Definition 12.11. (Matrizenprodukt) Sei A = (ai,j ) ∈ Mℓ,m (R) eine ℓ × m-Matrix
und B = (bj,k ) ∈ Mm,n (R) eine m × n-Matrix. Wir definieren das Matrizenprodukt
A B als die ℓ × n-Matrix C
A B = C = (ci,k ) ∈ Mℓ,n (R) mit ci,k =
m
X
ai,j bj,k = ai,1 b1,k + ai,2 b2,k + . . . + ai,m bm,k
j=1
für i = 1, 2, . . . , ℓ und k = 1, 2, . . . , n.
Der Eintrag ci,k in der i-ten Zeile und der k-ten Spalte von C = A B ist also das Skalarprodukt der i-ten Zeilenvektors von A,
(ai,1 , ai,2 , . . . , ai,m ),
mit dem k-ten Spaltenvektor von B,


b1,k
 b2,k 


 ..  .
 . 
bm,k
12. Matrizen
383
Ausgeschrieben finden wir:
 m
m
X
X
a1,j bj,1 · · ·
a1,j bj,n

 j=1
j=1


..
..
C = AB = 
.
 m .
m
 X
X

aℓ,j bj,1 · · ·
aℓ,j bj,n
j=1
j=1

 


 
=




c1,1 · · · c1,n
..
..  .
.
. 
cℓ,1 · · · cℓ,n
Bevor wir Beispiele betrachten, halten wir in einer Bemerkung noch zwei wichtige Beobachtungen fest.
Bemerkung 12.12. (Berechnung der Matrizenprodukts)
(1) Voraussetzung für das Matrizenprodukt: Das Matrizenprodukt A B ist nur
dann definiert, wenn die Anzahl der Spalten von A mit der Anzahl der
Zeilen von B übereinstimmt!
(2) Berechnung des Matrizenprodukts: Die Berechnung von C = A B merkt man
sich als Schema Skalarprodukt von Zeilenvektor und Spaltenvektor“, wie
”
in dem folgenden Diagramm illustriert:
m×m
i-te Zeile von A →
(ℓ × m-Matrix)
k-te Spalte von B
(m × n-Matrix)
↓

b1,k


b2,k


..

.

bm,k
 

 

 

 ai,1 ai,2 · · · ai,m  
ci,k
↑
k-te Spalte
von C = A B
(ℓ × n-Matrix)
So findet man die Formel
ci,k = ai,1 b1,k + ai,2 b2,k + . . . + ai,m bm,k ,
die wir aus der Definition 12.11 des Matrizenprodukts kennen.
Nun betrachten wir einige Beispiele.











← i-te Zeile
von C = A B
(ℓ × n-Matrix)
384
12.2. Matrizen und Matrizenoperationen
Beispiel 12.13. (Matrizenprodukt) Betrachten wir die zwei Matrizen


0 −3
1 2 3
und
B= 2
1 .
A=
−2 0 4
−1
4
Dann ist A eine 2 × 3-Matrix, und B ist eine 3 × 2-Matrix. Also können wir sowohl A B
als auch B A berechnen. Die Matrix A B ist eine 2 × 2-Matrix, und wir erhalten


0 −3
1 2 3 
2
1
AB =
−2 0 4
−1
4
1 · 0 + 2 · 2 + 3 · (−1)
=
(−2) · 0 + 0 · 2 + 4 · (−1)
1 11
.
=
−4 22
1 · (−3) + 2 · 1 + 3 · 4
(−2) · (−3) + 0 · 1 + 4 · 4
Die Matrix B A ist eine 3 × 3-Matrix, und wir erhalten


0 −3 1 2 3


2
1
BA =
−2 0 4
−1
4

0 · 1 + (−3) · (−2)
0 · 2 + (−3) · 0

2·2+1·0
=  2 · 1 + 1 · (−2)
(−1) · 1 + 4 · (−2)
(−1) · 2 + 4 · 0


6
0 −12
4
10 .
= 0
−9 −2
13

0 · 3 + (−3) · 4

2·3+1·4 
(−1) · 3 + 4 · 4
Beispiel 12.14. (Matrizenprodukt) Betrachten wir die Matrizen
1 −1
1 2 3
.
und
C=
A=
2
0
−2 0 4
Dann ist A eine 2 × 3-Matrix und C ist eine 2 × 2-Matrix, Wir können nun das Matrizenprodukt C A bilden, aber das Matrizenprodukt A C ist nicht definiert, da die Matrix
A nicht die gleiche Anzahl Spalten (hier: 3) hat wie die Anzahl der Zeilen der Matrix B
(hier: 2). Wir berechnen zur Übung die 2 × 3-Matrix C A:
1 −1
1 2 3
CA=
2
0
−2 0 4
1 · 1 + (−1) · (−2)
=
2 · 1 + 0 · (−2)
3 2 −1
=
.
2 4
6
1 · 2 + (−1) · 0
2·2+0·0
1 · 3 + (−1) · 4
2·3+0·4
12. Matrizen
385
Beispiel 12.15. (Matrizenprodukt quadratischer Matrizen) Für die quadratischen
2 × 2-Matrizen
D=
2 1
0 1
1 −1
E=
0
1
und
können wir sowohl D E als auch E D berechnen. Wir finden
2·1+1·0
2 1
1 −1
DE =
=
0 1
0
1
0·1+1·0
1 · 2 + (−1) · 0
1 −1
2 1
ED =
=
0
1
0 1
0·2+1·0
2 · (−1) + 1 · 1
0 · (−1) + 1 · 1
2 −1
=
,
0
1
1 · 1 + (−1) · 1
0·1+1·1
=
2 0
.
0 1
Wir sehen also, dass D E 6= E D. Dieses ist auch allgemein richtig, und wir halten dieses
in der nächsten Bemerkung fest.
Bemerkung 12.16. (Matrizenprodukt von n×n-Matrizen ist nicht kommutativ)
Für zwei beliebige quadratische Matrizen A und B in Mn,n (R) können wir sowohl A B als
auch B A berechnen. In der Regel gilt A B 6= B A, d.h. das Matrizenprodukt (quadratischer
Matrizen) ist nicht kommutativ.
Wir betrachten nun einen wichtigen Sonderfall des Matrizenprodukts, nämlich die MatrixVektor-Multiplikation.
Bemerkung 12.17. (Matrix-Vektor-Multiplikation) Da ein Spaltenvektor x ∈ Rn
auch als n × 1-Matrix aufgefasst werden kann, können wir für jede m × n-Matrix A mit
dem üblichen Matrizenprodukt A x berechnen und erhalten eine m × 1-Matrix also einen
Spaltenvektor in Rm . Genauer haben wir

a1,1
 a2,1

A x =  ..
 .
a1,2
a2,2
..
.
···
···
  
a1,1 x1 + a1,2 x2 + . . . + a1,n xn
x1
a1,n
 x2   a2,1 x1 + a2,2 x2 + . . . + a2,n xn
a2,n 
  
..
..   ..  = 
.
.  .  
am,1 am,2 · · · am,n
xn
am,1 x1 + am,2 x2 + . . . + am,n xn



.

Die Matrix-Vektor-Multiplikation wird im nächsten Kapitel eine wichtige Rolle spielen,
wenn wir lineare Gleichungssysteme untersuchen. Schauen wir uns zunächst ein paar Beispiele an.
Beispiel 12.18. (Matrix-Vektor-Multiplikation) Betrachten wir die Matrix


1
2 −2 3
0
1 −1 4
2
A = 0
2 −4
0 1 −1
386
12.2. Matrizen und Matrizenoperationen
und die Vektoren

Dann gilt
 
1
1
 

y=
1
1
1

1
−1
 

x=
 2 ,
 0
1
und

2
 1
 

z=
 0 .
 1
−1

 
1
  





1
·
1
+
2
·
(−1)
+
(−2)
·
2
+
3
·
0
+
0
·
1
−5
1
2 −2 3
0 −1
  
=
0
·
1
+
1
·
(−1)
+
(−1)
·
2
+
4
·
0
+
2
·
1
−1 ,
2
1 −1 4
2 
=
A x = 0


 


5
0
2 −4
0 1 −1
2 · 1 + (−4) · (−1) + 0 · 2 + 1 · 0 + (−1) · 1
1
 
  


 1


1
·
1
+
2
·
1
+
(−2)
·
1
+
3
·
1
+
0
·
1
4
1
2 −2 3
0 1
  
=
0
·
1
+
1
·
1
+
(−1)
·
1
+
4
·
1
+
2
·
1
6 ,
1
1 −1 4
2 
=
A y = 0

  


−2
1
2 −4
0 1 −1
2 · 1 + (−4) · 1 + 0 · 1 + 1 · 1 + (−1) · 1
1
 
2
  





1
·
2
+
2
·
1
+
(−2)
·
0
+
3
·
1
+
0
·
(−1)
7
1
2 −2 3
0  1
  
=
=
3 .
0
·
2
+
1
·
1
+
(−1)
·
0
+
4
·
1
+
2
·
(−1)
0
A z = 0
1 −1 4
2 

  


2
1
2 −4
0 1 −1
2 · 2 + (−4) · 1 + 0 · 0 + 1 · 1 + (−1) · (−1)
−1
Wir halten einige wichtige Rechenregeln für das Matrizenprodukt fest.
Lemma 12.19. (Rechenregeln für das Matrizenprodukt) Das Matrizenprodukt hat
die folgenden Eigenschaften:
(i)
A (B D) = (A B) D
(Assoziativgesetz),
(ii)
A (B + C) = A B + A C
(Distributivgesetz),
(iii)
α · (A B) = (α · A) B = A (α · B)
für jedes α ∈ R,
wobei A ∈ Mℓ,m (R), B, C ∈ Mm,n (R) und D ∈ Mn,p (R) sind, so dass alle Matrizenprodukte und Summen von Matrizen definiert sind.
Man kann die Rechenregeln in Lemma 12.19 durch Nachrechnen leicht nachweisen.
Beweis von Lemma 12.19. Wir beweisen (ii) zuerst, weil dies einfacher ist.
(ii) Da die Matrix B +C ∈ Mm,n (R) für B = (bj,k ) ∈ Mm,n (R4) und C = (cj,k ) ∈ Mm,n (R)
die Einträge (bj,k + cj,k ) hat, gilt mit A = (ai,j ) ∈ Mℓ,m (R) nach der Definition des
Matrizenprodukts
m
X
ai,j (bj,k + cj,k )
[A (B + C)]i,k =
j=1
12. Matrizen
387
=
m
X
ai,j bj,k + ai,j cj,k
j=1
=
m
X
ai,j bj,k +
j=1
m
X
ai,j cj,k = [A B]i,k + [A C]i,k
j=1
für alle i = 1, 2, . . . , ℓ und alle k = 1, 2, . . . , n.
Dabei haben wir im zweiten Schritt das Distributivgesetz für die reellen Zahlen genutzt
und danach die Rechenregel für die Addition von Summen angewendet. Die Notation
[A (B + C)]i,k , [A B]i,k bzw. [A C]i,k bezeichnet dabei den Eintrag der Matrix A (B + C),
A B bzw. A C in der i-ten Zeile und k-ten Spalte, wie intuitiv klar sein sollte.
(i) Seien A = (ai,j ) ∈ Mℓ,m (R), B = (bj,k ) ∈ Mm,n (R) and D = (dk,r ) ∈ Mn,p (R). Zuerst
berechnen wir die Einträge der Matrix B D ∈ Mm,p (R) bzw. A B ∈ Mℓ,n (R): Nach der
Formel für das Matrizenprodukt gilt
[B D]j,r =
n
X
bj,k dk,r
für alle j = 1, 2, . . . , m und alle r = 1, 2, . . . , p,
ai,j bj,k
für alle i = 1, 2, . . . ℓ und alle k = 1, 2, . . . , n.
k=1
[A B]i,k =
m
X
j=1
Damit finden wir für i = 1, 2, . . . , ℓ und r = 1, 2, . . . , p
[A (B D)]i,r =
m
X
ai,j [B D]j,r =
j=1
[(A B) D)]i,r =
n
X
ai,j
j=1
[A B]i,k dk,r =
k=1
=
m
X
m X
n
X
bj,k dk,r
k=1
m
n
X
X
k=1
n
X
j=1
ai,j bj,k
!
!
=
dk,r =
m X
n
X
ai,j bj,k dk,r ,
j=1 k=1
n X
m
X
ai,j bj,k dk,r
k=1 j=1
ai,j bj,k dk,r ,
j=1 k=1
wobei wir das Distributivgesetz für reelle Zahlen genutzt haben. Im letzten Schritt der
zweiten Rechnung haben wir die Reihenfolge des Summmenzeichen vertauscht, was wir bei
endlichen Summen immer machen dürfen. Da wir in beiden Fällen die gleichen Einträge
erhalten, haben wir A (B D) = (A B) D bewiesen.
Den Nachweis der Eigenschaft (iii) überlassen wir dem Leser als Übung.
Wir betrachten noch ein interessantes Beispiel.
Beispiel 12.20. (Multiplikation mit der Einheitsmatrix) Sei In ∈ Mn,n (R) die
Einheitsmatrix (vgl. Definition 12.6 (ii)). Dann gilt
A In = In A = A
für alle A ∈ Mn,n (R),
(12.11)
388
12.2. Matrizen und Matrizenoperationen
sowie
In A = A
B In = B
für alle A ∈ Mn,p (R),
für alle B ∈ Mm,n (R).
(12.12)
(12.13)
Dies wird auf dem Übungsblatt nachgewiesen. Betrachten wir diese Formeln, so sehen wir,
dass die Einheitsmatrix In in der Matrizenmultiplikation die Rolle der Zahl 1
bei der Multiplikation der reellen Zahlen übernimmt. Wir bemerken noch, dass
(12.11) ein Sonderfall von (12.12) und (12.13) für den Fall n = m = ℓ ist.
Zum Abschluss lernen wir noch die transponierte Matrix kennen.
Definition 12.21. (transponierte Matrix) Sei A = (aj,k ) ∈ Mm,n (R). Die zu A
transponierte Matrix entsteht aus A durch Vertauschen von Zeilen mit Spalten
und wird mit AT bezeichnet. Genauer schreiben wir in AT die k-te Zeile von A (gelesen
von links nach rechts) nun als k-te Spalte von AT (gelesen von oben nach unten) hin.
Daher ist AT eine n × m-Matrix. Aus


a1,1 a1,2 · · · a1,n
 a2,1 a2,2 · · · a2,n 


A =  ..
..
.. 
 .
.
. 
am,1 am,2 · · · am,n
wird durch Transposition also die transponierte

a1,1 a2,1 · · ·
 a1,2 a2,2 · · ·

AT =  ..
..
 .
.
a1,n a2,n · · ·
Matrix

am,1
am,2 

..  .
. 
am,n
Der Eintrag in der j-ten Zeile und k-ten Spalte von AT ist also [AT ]j,k = ak,j .
Betrachten wir einige Beispiele.
Beispiel 12.22. (transponierte Matrix) Die Matrizen
A=
1 2 0
−1 0 3
haben die transponierten Matrizen


1 −1
0
AT = 2
und
0
3
und

2 4 −2
 6 8 −6

B=
10 12 −10
14 16 −14



2
6
10
14
8
12
16 .
BT =  4
−2 −6 −10 −14
12. Matrizen
389
Wir kommen nun noch einmal auf den Zusammenhang zwischen Zeilen- und Spaltenvektoren zurück.
Bemerkung 12.23. (Zeilen- und Spaltenvektoren) Da Zeilenvektoren in Rn als 1×nMatrizen aufgefasst werden können und da Spaltenvektoren in Rn als n × 1-Matrizen
aufgefasst werden können, können beide transponiert werden. Wir finden
 
x1
 x2 
T
 
(x1 , x2 , . . . , xn )T = x1 x2 · · · xn =  ..  ,
.
xn
 T
x1
 x2 
 
 ..  = x1 x2 · · · xn = (x1 , x2 , . . . , xn ).
.
xn
Beispiel 12.24. (Zeilen- und Spaltenvektoren) Wir haben
 
1
x = 2
3
und
xT = (1, 2, 3),
sowie
y = (−1, 0, 1, 4)
und
 
−1

0

yT = 
 1 .
4
In dem nächsten Lemma halten wir die wichtigsten Rechenregeln für transponierte Matrizen fest.
Lemma 12.25. (Rechenregeln für transponierte Matrizen)
(i) (A + B)T = AT + B T für alle A, B ∈ Mm,n (R).
(ii) (λ A)T = λ AT für alle A ∈ Mm,n (R) und alle λ ∈ R.
(iii) (A B)T = B T AT für alle A ∈ Mℓ,m (R) und B ∈ Mm,n (R).
Zum Abschluss wollen wir die Rechenregeln in Lemma 12.25 beweisen.
Beweis von Lemma 12.25.
(i) Wegen A + B = (aj,k + bj,k ) ∈ Mm,n (R) für A = (aj,k ) ∈ Mm,n (R) und B = (bj,k ) ∈
Mm,n (R) gilt für j = 1, 2, . . . , n und k = 1, 2, . . . , m:
(A + B)T j,k = [A + B]k,j = ak,j + bk,j = [AT ]j,k + [B T ]j,k .
Also gilt (A + B)T = AT + B T .
(ii) Für A = (aj,k ) ∈ Mm,n (R) und λ ∈ R gilt (λ A) = (λ aj,k ) ∈ Mm,n (R) und damit
(λ A)T j,k = [λ A]k,j = λ ak,j = λ [AT ]j,k
für j = 1, 2, . . . , n und k = 1, 2, . . . , m.
390
12.2. Matrizen und Matrizenoperationen
Also gilt (λ A)T = λ AT
(iii) Seien A = (ai,j ) ∈ Mℓ,m (R) und B = (bj,k ) ∈ Mm,n (R). Dann ist A B ∈ Mℓ,n (R) und
nach der Definition des Matrizenprodukts gilt
[A B]i,k =
m
X
ai,j bj,k
für i = 1, 2, . . . , ℓ und k = 1, 2, . . . , n.
j=1
Damit finden wir für die Einträge der Matrix (A B)T ∈ Mℓ,m (R)
m
m
m
X
X
X
bj,k ai,j =
[B T ]k,j [AT ]j,i = B T AT k,i
(A B)T k,i = [A B]i,k =
ai,j bj,k =
j=1
j=1
j=1
für k = 1, 2, . . . , n und i = 1, 2, . . . , ℓ. Dabei folgt der letzte Schritt wieder aus der
Definition des Matrizenprodukts. Also gilt (A B)T = B T AT .
Somit haben wir alle drei Aussagen in Lemma 12.25 bewiesen.
Kapitel 13
Lineare Gleichungssysteme und
Matrizen
In diesem Kapitel betrachten wir lineare Gleichungssysteme, und wir werden sehen, dass
diese mit Hilfe von Matrizen und der Matrix-Vektor-Multiplikation (als Sonderfall des
Matrizenprodukts) leicht dargestellt werden können. Wir werden also das lineare Gleichungssystem in der Form A x = b mit der Koeffizientenmatrix A ∈ Mm,n (R), dem
Spaltenvektor mit den Unbekannten x ∈ Rn und dem Spaltenvektor der rechten Seite
b ∈ Rm schreiben. Weiter lernen wir, wie man ein solches lineares Gleichungssystem mit
sogenannten elementaren Zeilenoperationen“ löst.
”
Wir wollen aber gerne auch bereits qualitative Informationen über das Gleichungssystem
gewinnen, bevor wir es lösen. Mit qualitativen Informationen“ ist gemeint, dass wir gerne
”
wissen wollen, ob das lineare Gleichungssystem genau eine Lösung hat, ob es keine Lösung
hat, oder ob es unendlich viele Lösungen hat. Dies führt uns auf die Begriffe des Kerns,
Bildes und Ranges einer Matrix.
13.1
Lineare Gleichungssysteme
Betrachten wir zunächst ein Beispiel eines linearen Gleichungssystems:
x1 + 2 x2 + 3 x3 =
1
− x1 + x2
=
2
2 x1 − 2 x2 + x3 = −2
(13.1)
Wir können (13.1) leicht wie folgt lösen: Addieren wir die zweite Zeile multipliziert mit 2
zu der dritten Zeile in (13.1), so erhalten wir
x3 = −2 + 4 = 2.
Addieren wir die erste Zeile zur zweiten Zeile, so erhalten wir
3 x2 + 3 x3 = 3
⇐⇒
391
x2 + x3 = 1.
(13.2)
392
13.1. Lineare Gleichungssysteme
Einsetzen von x3 = 2 in (13.2) liefert
x2 = 1 − x3 = 1 − 2 = −1,
und durch Auflösen der zweiten Gleichung in (13.1) nach x1 und Einsetzen von x2 = −1
folgt
x1 = x2 − 2 = −1 − 2 = −3.
Das lineare Gleichungssystem (13.1) hat also die eindeutige Lösung x1 = −3, x2 = −1
und x3 = 2.
Wir wollen nun zunächst an dem Beispiel untersuchen, was unser lineares Gleichungssystem mit Matrizen und Vektoren zu tun hat. Wir können (13.1) auch in der Form

   
1
2 3
x1
1
−1
1 0 x2  =  2
(13.3)
2 −2 1
x3
−2
schreiben. Dass (13.3) korrekt ist, sieht man sofort, indem man die Matrix-Vektor-Multiplikation
ausführt, denn

 

  
x1 + 2 x2 + 3 x3
1 x1 + 2 x2 + 3 x3
1
2 3
x1

 

−1
1 0 x2  = (−1) x1 + 1 x2 + 0 x3  =  −x1 + x2  .
2 −2 1
x3
2 x1 − 2 x2 + x3
2 x1 + (−2) x2 + 1 x3
Wir können also (13.1) als die Gleichung in Vektoren und Matrizen


 
1
2 3
x1



1 0 ,
Ax = b
mit
A = −1
x = x2 
und
2 −2 1
x3


1
b =  2
−2
schreiben. Dabei ist der Vektor x unsere Unbekannte. Wir wollen die Gleichung A x = b
lösen, um x zu bestimmen.
Wir halten unsere Überlegungen zu dem vorigen Beispiel in allgemeiner Form fest.
Lemma 13.1. (Lineares Gleichungssystem in Matrizenschreibweise) Das lineare
Gleichungssystem (LGS) mit m Gleichungen und den n Unbekannten x1 , x2 , . . . , xn
a1,1 x1 +
a2,1 x1 +
..
.
a1,2 x2 + . . . +
a2,2 x2 + . . . +
..
.
am,1 x1 + am,2 x2
kann in Matrizenschreibweise“ als
”

Ax = b
d.h.
a1,1
 a2,1

 ..
 .
|
a1,n xn = b1
a2,n xn = b2
..
..
.
.
+ . . . + am,n xn = bm
a1,2
a2,2
..
.
···
···

a1,n
a2,n 

.. 
. 
(13.4)
  
b1
x1
 x2   b2 
   
 ..  =  .. 
. .

xn
am,1 am,2 · · · am,n
{z
} | {z }
=x
=A
geschrieben werden, wobei wir folgende Bezeichnungen verwenden:
bm
| {z }
=b
(13.5)
13. Lineare Gleichungssysteme und Matrizen
393
• A ist die m × n-Koeffizientenmatrix,
• x ∈ Rn ist der gesuchte Spaltenvektor der n Unbekannten x1 , x2 , . . . , xn ,
• b ∈ Rm ist die rechte Seite des linearen Gleichungssystems.
Ist b 6= 0, so heißt das lineare Gleichungssystem (13.4) bzw. (13.5) inhomogen, und
ist b = 0 (also b1 = b2 = . . . = bm = 0), so heißt das lineare Gleichungssystem (13.4)
bzw. (13.5) homogen.
Das Lösen des linearen Gleichungssystems (13.4) bzw. (13.5) bedeutet, dass wir alle
möglichen Lösungen dieses linearen Gleichungssystems finden.
Wir wollen nun lernen, wie man solche linearen Gleichungssysteme (13.5) systematisch
löst unter Verwendung von Matrizen. Dazu führen wir zunächst die sogenannte erweiterte
Koeffizientenmatrix ein.
Definition 13.2. (erweiterte Koeffizientenmatrix) Die erweiterte Koeffizientenmatrix des linearen Gleichungssystems (13.5) ist


a1,1 a1,2 · · · a1,n b1
 a2,1 a2,2 · · · a2,n b2 


(13.6)
 ..
.. .. 
..
 .
. . 
.
am,1 am,2 · · · am,n bm
Betrachten wie hierzu ein Beispiel.
Beispiel 13.3. (erweiterte Koeffizientenmatrix) Die erweiterte Koeffizientenmatrix
des linearen Gleichungssystems (13.3) ist


1
2 3 1
−1
1 0 2  .
2 −2 1 −2
Wir lernen nun, wie wir ein lineares Gleichungssystem systematisch lösen.
Satz 13.4. (Lösung eines linearen Gleichungssystems) Um ein lineares Gleichungssystem (13.4) zu lösen, dürfen wir folgende elementare Zeilenoperationen auf die
Gleichungen in (13.4) bzw. auf die Zeilen der erweiterten Koeffizientenmatrix (13.6) anwenden:
• Multiplikation einer Gleichung bzw. einer Zeile der erweiterten Koeffizientenmatrix mit
einer Zahl c 6= 0,
• Addition einen Gleichung bzw. einer Zeile der erweiterten Koeffizientenmatrix zu einer
anderen Gleichung bzw. Zeile der erweiterten Koeffizientenmatrix,
• Vertauschen zweier Gleichungen bzw. zweier Zeilen der erweiterten Koeffizientenmatrix,
394
13.1. Lineare Gleichungssysteme
• Streichen eine Gleichung, auf der beide Seiten Null sind, bzw. Streichen einer Zeile der
Form (0 0 · · · 0 | 0) in der erweiterten Koeffizientenmatrix.
Wir erhalten nach jedem solchen Schritt ein äquivalentes“ lineares Gleichungssystem,
”
d.h. die Menge aller Lösungen des ursprünglichen linearen Gleichungssystems ändert sich bei elementaren Zeilenoperationen nicht.
Finden wir durch elementare Zeilenoperationen eine Gleichung 0 = c mit c 6= 0 bzw. eine
Zeile in der erweiterten Koeffizientenmatrix der Form (0 0 · · · 0 | c) mit c 6= 0, so ist
das lineare Gleichungssystem nicht lösbar.
Wir demonstrieren erst für unser Eingangsbeispiel eines linearen Gleichungssystems mit
der erweiterten Koeffizientenmatrix aus Beispiel 13.3, wie man dieses Gleichungssystem
mit elementaren Zeilenoperationen löst. Danach halten wir die Vorgehensweise allgemein
fest.
Vorab bemerken wir noch, dass man durch das nacheinander Ausführen der ersten beiden elementaren Zeilenoperationen natürlich auch die folgende Zeilenoperationen
erhält:
• Subtrahieren einer Gleichung bzw. einer Zeile der erweiterten Koeffizientenmatrix von
einer anderen Gleichung bzw. Zeile der erweiterten Koeffizientenmatrix. (Hier multipliziert man erst die zu subtrahierende Gleichung bzw. Zeile mit −1 und addiert diese
danach zu der anderen Gleichung bzw. Zeile.)
• Addieren/Subtrahieren des Vielfachen einer Gleichung bzw. Zeile der erweiterten
Koeffizientenmatrix zu/von einem Vielfachen einer anderen Gleichung bzw. Zeile
der erweiterten Koeffizientenmatrix. (Hier werden zunächst beide Zeilen jeweils mit
einem Faktor 6= 0 multipliziert, und dann werden die neuen Gleichungen bzw. Zeilen
addiert/subtrahiert.)
Wir betrachten nun das Beispiel; dabei werden wir direkt eine Kurznotation entwickeln,
die anzeigt, welche elementaren Zeilenoperationen in jedem Schritt ausgeführt
wurden.
Beispiel 13.5. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + 2 x2 + 3 x3 =
1
− x1 + x2
=
2
2 x1 − 2 x2 + x3 = −2
hat die folgende erweiterte Koeffizientenmatrix:


1
2 3 1
−1
1 0 2  .
2 −2 1 −2
Im ersten Schritt addieren wir die zweite Zeile (Z2) multipliziert mit 2 zu der dritten
Zeile (Z3) und ersetzen die dritte Zeile (Z3) durch dieses Ergebnis, also Z3 → 2 · Z2 + Z3.
13. Lineare Gleichungssysteme und Matrizen
395
Danach addieren wir die erste Zeile (Z1) zur zweiten Zeile (Z2) und ersetzen danach die
zweite Zeile durch das Ergebnis, also Z2 → Z1 + Z2. Wir erhalten somit


1 2 3 1
0 3 3 3  .
0 0 1 2
Nun teilen wir noch die zweite Zeile durch 3, also Z2 → Z2/3.


1 2 3 1
0 1 1 1  .
0 0 1 2
Nun haben die erweiterte Matrix in einer Form vorliegen, in der der erste Eintrag ungleich
Null in jeder Zeile immer den Wert Eins hat und weiter rechts als in der vorhergehenden
Zeile auftritt. Als lineares Gleichungssystem haben wir nun:
x1 + 2 x2 + 3 x3 = 1
x2 + x3 = 1
x3 = 2
Nun starten wir mit der untersten Gleichung und lösen diese nach x3 auf. Dann setzen
wir das Ergebnis in die vorige Gleichung ein und lösen diese nach x2 auf, und schließlich
lösen wir die erste Gleichung nach x1 auf und setzen die Ergebnisse für x2 und x3 ein.
x3 = 2,
x2 = 1 − x3 = 1 − 2 = −1,
x1 = 1 − 2 x2 − 3 x3 = 1 − 2 · (−1) − 3 · 2 = −3.
Also ist die Lösung des linearen Gleichungssystems x1 = −3, x2 = −1 und x3 = 2.
Wir halten allgemein fest, wie wir im vorigen Beispiel vorgegangen sind:
Unser Ziel ist es, durch elementare Zeilenoperationen die erweitere Matrix in eine solche
Form zu bringen, in welcher der erste Eintrag ungleich Null in jeder Zeile immer weiter
rechts als in der vorhergehenden Zeile auftritt und in der alle solchen ersten Einträge
ungleich Null den Wert Eins haben. Man nennt dies auch eine Treppenform, und
abstrakt kann man eine erweitere Matrix in Treppenform wie folgt schreiben:


0···0 1 ∗···∗ ∗ ∗···∗
∗ ∗ · · · ∗ ∗
0 · · · 0 0 0 · · · 0 1 ∗ · · · ∗
∗ ∗ · · · ∗ ∗ 


(13.7)
 ..
..
..
..
..
..
.. .. 
.
.
 .
. .
.
.
.
.
. . 
0···0 0 0···0 0 0...0
1 ∗···∗ ∗
Dabei sind alle Einträge ∗ in (13.7) beliebige reelle Zahlen. Beispielsweise sind die folgenden erweiterten Koeffizientenmatrizen in Treppenform:






1 2 −5 2
1 −2 3 1
0 1 7 −3
5 3
0 1
3 −9 



0

1 0 2 ,
0 0 1
4 −2 −2  ,
7 .
0 0
1
0
0 1 1
0 0 0
0
1 7
0 0
0 3
396
13.1. Lineare Gleichungssysteme
Dabei ist das letzte Gleichungssystem nicht lösbar, weil die Zeile (0 0 0 | 3) auf den
Widerspruch 0 = 3 führt.
Wir beschreiben die elementaren Zeilenoperationen, durch die wir die erweiterte Koeffizientenmatrix in Treppenform bringen, wie folgt:
• Zj → . . .“ bedeutet, dass die j-te Zeile durch die hinter dem Pfeil angegebene (neu
”
berechnete) Zeile (s.u.) ersetzt wird. Dabei darf eine Zeile nur durch einen Ausdruck
ersetzt werden, bei dem diese Zeile selber in der Rechenoperation vorkommt. (Einzige
Ausnahme ist das Tauschen von Zeilen; siehe nächster Punkt.)
• Zj ↔ Zk“ bedeutet, dass die j-te und k-te Zeile vertauscht werden.
”
• c · Zj“ bedeutet, dass die j-te Zeile mit der Konstante c 6= 0 multipliziert wird.
”
• c1 ·Zj+c2 ·Zk“ bzw. c1 ·Zj−c2 ·Zk“ bedeutet, dass die k-te Zeile mit c2 6= 0 multipliziert
”
”
und dann zu der j-ten Zeile multipliziert mit c1 6= 0 addiert bzw. von dieser abgezogen
wird.
• Zeilen der Form (0 0 · · · 0 | 0) dürfen wir jederzeit streichen, ohne dies notationsmäßig
weiter zu vermerken.
Also bedeutet z.B. Z3 → Z4 − 7 · Z3“, dass wir die dritte Zeile ersetzen durch die vierte
”
”
Zeile minus 7-mal die dritte Zeile“. Die Operation Z3 → Z4 − 7 · Z2“ wäre dagegen nicht
”
zulässig, weil die dritte Zeile durch einen Ausdruck ersetzt wird, in dem sie selber nicht
vorkommt.
Rücksubstitution: Haben wir die erweiterte Matrix in Treppenform gebracht und ist
das LGS lösbar, so starten wir mit der letzten Gleichung und lösen diese nach einem
vorkommenden xk auf. Genauer bedeutet dieses:
• Hat das LGS nur genau eine Lösung, so kommt nur ein xk in der letzten Gleichung vor,
und wir erhalten einen Zahlenwert für xk .
• Kommen in der letzten Gleichung noch mehrere verschiedene xk vor, so lösen nach
einem xk auf und behalten die anderen xℓ als Parameter unserer Lösung; in diesem Fall
hat das LGS unendlich viele Lösungen.
Nun lösen wir die zweitunterste Gleichung nach einem xℓ welches in der letzten Gleichung
nicht vorkommt, und anschließend ersetzen wir das durch die letzte Gleichung bereits
bekannte xk . Wir fahren mit dieser Vorgehensweise fort, bis wir diese Vorgehensweise
schließlich auf die oberste Gleichung angewendet haben.
Betrachten wir weitere Beispiel, um uns das Verfahren klar zu machen.
Beispiel 13.6. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + 2 x2 + 3 x3 =
1
− x1 + x2 + x3 =
1
2 x1 − 2 x2 − 2 x3 = −2
13. Lineare Gleichungssysteme und Matrizen
397
hat die folgende erweiterte Koeffizientenmatrix:

1
2
3
−1
1
1
2 −2 −2

1
1 .
−2
Durch die Operationen Z3 → Z3/2 erhalten wir


1
2
3 1
−1
1
1 1  .
1 −1 −1 −1
Durch die Operation Z3 → Z3 + Z2 erhalten

1 2
−1 1
0 0
und die letzte Zeile ist
wir

3 1
1 1  ,
0 0
⇐⇒
0 x1 + 0 x2 + 0 x3 = 0
0 = 0.
Eine solche Nullzeile“ in der erweiterten Koeffizientenmatrix können wir immer weglas”
sen. Also erhalten wir die reduzierte erweiterte Koeffizientenmatrix
1 2 3 1
,
−1 1 1 1
und wir führen die Operation Z2 → Z2 + Z1 aus:
1 2 3 1
.
0 3 4 2
Durch die Operation Z2 → Z2/3 finden wir
!
1 2 3 1
.
0 1 4 2
3
3
Damit ist unsere erweiterte Koeffizientenmatrix in Treppenform. Wir erhalten aus der
zweiten Gleichung
x2 +
4
2
x3 =
3
3
⇐⇒
x2 =
2 4
− x3 .
3 3
Auflösen der letzten Gleichung x1 + 2 x2 + 3 x3 = 1 nach x1 und anschließendes Einsetzen
von x2 liefert:
1
1
1
8
2 4
− x3 − 3 x3 = − +
− 3 x3 = − − x3 .
x1 = 1 − 2 x2 − 3 x3 = 1 − 2
3 3
3
3
3
3
Also finden wir die Lösung
x1 = −
1
1
− x3
3
3
und
x2 =
2
4
− x3
3
3
Das LGS hat also unendlich viele Lösungen.
mit
x3 ∈ R beliebig.
398
13.1. Lineare Gleichungssysteme
Beispiel 13.7. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + 2 x2 + 3 x3 =
1
− x1 + x2 − x3 =
2
2 x1 − 2 x2 + 2 x3 = −2
hat die folgende erweiterte Koeffizientenmatrix:

1
2
3
−1
1 −1
2 −2
2

1
2 .
−2
Durch die Operationen Z3 → Z3/2 erhalten wir


1
2
3 1
−1
1 −1 2  .
1 −1
1 −1
Durch die Operation Z3 → Z3 + Z2 erhalten wir


1 2
3 1
−1 1 −1 2  ,
0 0
0 1
und die letzte Zeile ist
0 x1 + 0 x2 + 0 x3 = 1
⇐⇒
0 = 1.
Da diese Gleichung nicht erfüllbar ist (egal wie wir x1 , x2 und x3 wählen), hat das LGS
keine Lösung.
Wir haben nun gesehen, dass ein Gleichungssystem mit drei Unbekannten entweder genau
eine oder keine oder beliebig viele Lösungen haben kann. Im nächsten Teilkapitel werden
wir sehen, wie man dieses bereits teilweise an den Eigenschaften der erweiterten
Koeffizientenmatrix ablesen kann, ohne das lineare Gleichungssystem zu lösen.
Vorher betrachten wir aber noch ein Beispiel eines Gleichungssystems mit mehr Unbekannten als Gleichungen.
Beispiel 13.8. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + x2 − x3 + 2 x4 =
3
2 x1 − x2 + x3 − 2 x4 = −2
−2 x1 + 2 x2 + 2 x3 + 2 x4 =
4
hat die erweiterte Koeffizientenmatrix


1
1 −1
2 3
 2 −1
1 −2 −2  .
−2
2
2
2 4
13. Lineare Gleichungssysteme und Matrizen
399
Die Operation Z1 → 2 · Z1 + Z3 liefert


0
4 0
6 10
 2 −1 1 −2 −2  .
−2
2 2
2 4
Die Operationen Z1 → Z1/2 und Z3 → Z3 + Z2 liefern


0
2 0
3 5
2 −1 1 −2 −2  .
0
1 3
0 2
Die Operation Z1 ↔ Z2 liefert


2 −1 1 −2 −2
0
2 0
3 5  .
0
1 3
0 2
Die Operation Z3 → 2 · Z3 − Z2 liefert

2 −1 1 −2
0
2 0
3
0
0 6 −3

−2
5 .
−1
Nun führen wir die Operationen Z1 → Z1/2, Z2 → Z2/2 und Z3 → Z3/6 durch:


1 − 12 12 −1 −1

5
3 1 0
0
2 2.
1 0
0 1 − 2 − 16
Aus der letzten Gleichung erhalten wir
x3 −
1
1
x4 = −
2
6
⇐⇒
x3 = −
1 1
+ x4 ,
6 2
und aus der mittleren Gleichung erhalten wir
x2 +
3
5
x4 =
2
2
⇐⇒
x2 =
5 3
− x4 .
2 2
Auflösen der ersten Gleichung x1 − x2 /2 + x3 /2 − x4 = −1 nach x1 und Einsetzen der
Formeln für x2 und x3 liefert
1
1 1
1
1 5 3
1
1
1
x1 = −1 + x2 − x3 + x4 = −1 +
− + x4 + x4 = − 0 x4 = .
− x4 −
2
2
2 2 2
2
6 2
3
3
Die Lösungen zu dem LGS sind also
x1 =
1
,
3
x2 =
5 3
− x4
2 2
und
x3 = −
1 1
+ x4
6 2
mit
x4 ∈ R beliebig.
400
13.2. Bild, Kern und Rang
13.2
Bild, Kern und Rang
Um lineare Gleichungssysteme und ihre Lösungen besser zu verstehen, müssen wir uns
tiefergehender mit Matrizen und ihren Eigenschaften befassen. Dazu sind die Begriffe des
Kerns, des Bildes und des Ranges einer Matrix unverzichtbar. Wir führen diese Begriffe
zunächst ein, und untersuchen sie dann. Dabei werden wir die Einsicht gewinnen, welche
Rolle diese Begriffe im Zusammenhang mit linearen Gleichungssystemen spielen.
Definition 13.9. (Bild, Kern und Rang einer Matrix) Sei A ∈ Mm,n (R).
(i) Der folgende Teilraum von Rn
heißt der Kern von A.
Kern(A) = x ∈ Rn A x = 0 .
(ii) Der folgende Teilraum von Rm
Bild(A) = y ∈ Rm y = A x mit x ∈ Rn
heißt das Bild von A.
(iii) Die Dimension des Teilraumes Bild(A) wird als der Rang von A, in Formeln
Rang(A), bezeichnet.
Wir bemerken, dass uns die Definition 13.9 die wichtige (und auf den ersten Blick nicht
offensichtliche) Information gibt, dass der Kern und das Bild eine Matrix A ∈ Mm,n (R)
jeweils Teilräume von Rn bzw. Rm sind. Dieses untersuchen wir auf dem Übungszettel.
Bemerkung 13.10. (Kern und Bild) Wie kommen die Bezeichnungen Kern und Bild
einer Matrix zustande? Mit Hilfe einer Matrix A ∈ Mm,n (R) können wir eine lineare
Funktion oder lineare Abbildung
f : Rn → Rm ,
y = f (x) = A x,
definieren. Das Bild der Matrix A ist dann das Bild der linearen Funktion f , also
Bild(f ) = y ∈ Rm y = f (x) = A x für ein x ∈ Rn = Bild(A).
Der Kern von A ist nun die Menge der Nullstellen der linearen Funktion f , also
Kern(A) = x ∈ Rn A x = 0 = x ∈ Rn f (x) = A x = 0 .
Betrachten wir zunächst ein Beispiel, bei dem wir den Kern, das Bild und den Rang einer
Matrix berechnen.
Beispiel 13.11. (Kern, Bild und Rang) Für die Matrix aus Beispiel 13.6


1
2
3
1
1
A = −1
2 −2 −2
13. Lineare Gleichungssysteme und Matrizen
401
haben wir
 
 x1
Kern(A) = x ∈ R3 A x = 0 = x2  ∈ R3

x3

    
1
2
3
x1
0 
−1
 x2  = 0 ,
1
1

2 −2 −2
x3
0
d.h. der Kern ist die Menge aller Lösungen des homogenen linearen Gleichungssystems
A x = 0 mit der erweiterten Koeffizientenmatrix


1
2
3 0
−1
1
1 0  .
2 −2 −2 0
Durch die Operationen Z3 → Z3/2 erhalten wir


1
2
3 0
−1
1
1 0  .
1 −1 −1 0
Durch die Operation Z3 → Z3 + Z2 erhalten

1 2
−1 1
0 0
wir

3 0
1 0  .
0 0
Wir dürfen die Nullzeile“ streichen und erhalten somit die reduzierte erweiterte Koeffi”
zientenmatrix
1 2 3 0
,
−1 1 1 0
und wir führen die Operation Z2 → Z2 + Z1 aus:
1 2 3 0
.
0 3 4 0
Durch die Operation Z2 → Z2/3 finden wir
!
1 2 3 0
.
0 1 4 0
3
Damit ist unsere erweiterte Koeffizientenmatrix in Treppenform. Wir erhalten aus der
zweiten Gleichung
x2 +
4
x3 = 0
3
⇐⇒
x2 = −
4
x3 .
3
Auflösen der ersten Gleichung x1 + 2 x2 + 3 x3 = 0 nach x1 und anschließendes Einsetzen
von x2 liefert:
1
8
4
− 3 x3 = − x3 .
x1 = −2 x2 − 3 x3 = −2 · − x3 − 3 x3 =
3
3
3
402
13.2. Bild, Kern und Rang
Also finden wir die Lösung
x1 = −
1
x3
3
und
x2 = −
4
x3
3
mit
x3 ∈ R beliebig.
Mit der Ersetzung x3 = 3 c mit c ∈ R erhalten wir also den folgenden Kern von A:




 
−c
−1


Kern(A) = x ∈ R3 x = −4 c = c −4 mit c ∈ R .


3c
3
Wir sehen nun direkt, dass der Kern ein ein-dimensionaler Teilraum ist.
Nun berechnen wir das Bild von A
Bild(A) = y ∈ R3 y = A x mit x ∈ R3

  

 
 
 
y1
1
2
3
x
y1
x


1
1
1
1 x2  mit x2  ∈ R3 .
= y = y2  ∈ R3 y2  = −1


y3
2 −2 −2
x3
y3
x3
Schreiben wir die Matrix-Vektor-Multiplikation in y = A x explizit als lineares Gleichungssystem, so finden wir
y1 =
1 x1 +
2 x2 +
3 x3
y2 = (−1) x1 +
1 x2 +
1 x3
y3 =
2 x1 + (−2) x2 + (−2) x3
und können dieses lineare Gleichungssystem ebenfalls als
 
 
 
 
y1
1
2
3
y2  = x1 −1 + x2  1 + x3  1
y3
2
−2
−2
(13.8)
schreiben. An (13.8) sehen wir, dass das Bild von A die Menge aller Linearkombinationen
der Spaltenvektoren von A ist. Dies macht klar, dass Bild(A) in der Tat ein Teilraum von
R3 ist. Wir bemerken, dass der dritte Spaltenvektor von A eine Linearkombination der
beiden ersten Spaltenvektoren von A ist, denn
 
   
1
2
3
1   4    
−1 +
1 =
1 .
3
3
2
−2
−2
Also sind alle drei Spaltenvektoren von A linear abhängig. Die beiden ersten Spaltenvektoren von A sind linear unabhängig, da keiner ein Vielfaches des anderen Vektors ist.
Also können wir die Vektoren in Bild(A) auch als Linearkombinationen der ersten beiden
Spaltenvektoren von A charakterisieren, d.h.

 

 
 
 
y1
1
y1
2


Bild(A) = y = y2  ∈ R3 y2  = c1 −1 + c2  1 mit c1 , c2 , ∈ R .


y3
2
y3
−2
13. Lineare Gleichungssysteme und Matrizen
403
Nun können wir direkt sehen, dass Bild(A) ein zweidimensionaler Teilraum mit der Basis
{b1 , b2 } mit
 
 
1
2
b1 = −1
und
b2 =  1
2
−2
ist. Also ist der Rang von A genau Rang(A) = 2.
Wir halten allgemein fest, was wir in dem letzten Beispiel gesehen haben:
Bemerkung 13.12. (Kern, Bild und Rang) Sei A ∈ Mm,n (R). Dann gelten:
(1) Den Kern von A erhalten wir, indem wir das homogene lineare Gleichungssystem A x = 0 lösen.
(2) Das Bild von A kann als Menge aller Linearkombinationen der Spaltenvektoren von A charakterisiert werden, denn das LGS y = A x ist
y1
y2
..
.
= a1,1 x1
= a2,1 x1
..
.
+ a1,2 x2
+ a2,2 x2
..
.
+ . . . + a1,n xn
+ . . . + a2,n xn
..
.
ym = am,1 x1 + am,2 x2 + . . . + am,n xn
und kann daher auch als die Linearkombination
 




y1
a1,1
a1,2
 y2 
 a2,1 
 a2,2 
 




 ..  = x1  ..  + x2  ..  + . . . + xn
 . 
 . 
 . 
ym
am,1
am,2


a1,n
 a2,n 


 .. 
 . 
am,n
der Spaltenvektoren von A geschrieben werden.
(3) Also ist der Rang von A die maximale Anzahl linear unabhängiger Spaltenvektoren von A.
Wir lernen nun zwei wichtige Resultate über den Rang einer Matrix A. Das erste davon stellt einen Zusammenhang zwischen den Dimensionen der Teilräume Kern(A) und
Bild(A) dar.
Satz 13.13. (Dimensionsregel) Sei A ∈ Mm,n (R). Dann gilt die Dimensionsregel
dim Kern(A) + dim Bild(A) = n,
|
{z
}
= Rang(A)
d.h. die Dimension vom Kern von A plus den Rang von A ist immer gleich
der Anzahl der Spalten von A.
404
13.2. Bild, Kern und Rang
Beispiel 13.14. (Dimensionsregel) Für die Matrix A aus den Beispielen 13.6 und 13.11


1
2
3
1
1
A = −1
2 −2 −2
haben wir in Beispiel 13.11 gefunden, dass
dim Kern(A) = 1
und
dim Bild(A) = Rang(A) = 2.
Hier ist n = 3, und wir sehen dass die Dimensionsregel gilt:
dim Kern(A) + dim Bild(A) = 1 + 2 = 3 = n.
{z
}
|
= Rang(A)
Das zweite Resultat hilft uns bei der Bestimmung des Ranges einer Matrix.
Satz 13.15. (Rang = Zeilenrang = Spaltenrang) Sei A ∈ Mm,n (R). Dann gilt
Rang(A) = maximale Anzahl linear unabhängiger Spalten von A
= maximale Anzahl linear unabhängiger Zeilen von A.
Man bezeichnet die maximale Anzahl der linear unabhängigen Spalten auch als Spaltenrang von A und die maximale Anzahl der linear unabhängigen Zeilen auch als Zeilenrang von A. Da wir in der transponierten Matrix AT nur die Zeilen in Spalten
umgewandelt“ haben, gilt insbesondere Rang(A) = Rang(AT ).
”
Satz 13.16. (Rang ist invariant unter elementaren Zeilenoperationen) Ist
B ∈ Mm,n (R) eine Matrix, die durch elementare Zeilenoperationen aus A ∈ Mm,n (R)
hervorgegangen ist, so gilt Rang(A) = Rang(B).
Betrachten wir zwei Beispiele für die Anwendung der letzten drei Sätze.
Beispiel 13.17. (Rang einer Matrix und Dimensionsregel) In der Matrix


1 0 3 4
A = 0 1 5 2
0 2 10 4
sind die ersten zwei Zeilenvektoren linear unabhängig, aber alle drei Zeilenvektoren sind
linear abhängig (da der dritte Zeilenvektor gleich 2 multipliziert mit dem zweiten Zeilenvektor ist). Also gilt Rang(A) = 2. Damit wissen wir, dass Bild(A) ein zwei-dimensionaler
Teilraum von R3 ist, und aus der Dimensionsregel folgt
dim Kern(A) + Rang(A) = 4
⇐⇒
dim Kern(A) = 4 − Rang(A) = 4 − 2 = 2.
Also wissen wir, dass der Kern von A ein zwei-dimensionaler Teilraum ist.
13. Lineare Gleichungssysteme und Matrizen
405
Beispiel 13.18. (Rang einer Matrix) Für die Matrix A aus den Beispielen 13.6, 13.11
und 13.14


1
2
3
1
1
A = −1
2 −2 −2
erhalten wir durch die elementaren Zeilenoperationen Z3 → Z3 + 2 · Z2 die Matrix


1 2 3
B = −1 1 1
0 0 0
Die ersten beiden Zeilen dieser Matrix sind linear unabhängig, da keiner der beiden Zeilenvektoren ein Vielfaches des anderen ist. Also gilt Rang(A) = Rang(B) = 2.
Nun können wir mit Hilfe des Ranges einer Matrix endlich eine allgemeine Aussage über
die Lösbarkeit eines linearen Gleichungssystems A x = b machen.
Satz 13.19. (Kriterien für die Lösbarkeit eines LGS) Sei A ∈ Mm,n (R) und b ∈ Rm .
Dann sind die folgenden drei Aussagen äquivalent:
(i) A x = b ist lösbar.
(ii) b ∈ Bild(A).
(iii) Rang(A) = Rang (A|b) .
Insbesondere gilt: Ist Rang(A) = m, so ist A x = b für jedes beliebige b ∈ Rm lösbar.
Ist eine der Bedingungen (i), (ii) oder (iii) verletzt, so folgt wegen der Äquivalenz der
Bedingungen, dass alle drei Bedingungen verletzt sind und dass daher nach (i) das
lineare Gleichungssystem nicht lösbar ist.
Wir beweisen Satz 13.19 am Ende dieses Kapitels.
Betrachten wir einige Beispiele zur Anwendung von Satz 13.19.
Beispiel 13.20. (Lösbarkeit eins
1
A=
−1
LGS) Betrachten wir das LGS A x = b mit
1
0
.
und
b=
0
0
Hier ist Rang(A)
= 1, da nur die erste Spalte linear unabhängig ist. Weiter gilt
Rang (A|b) = 2, da die beiden Spaltenvektoren
1
−1
und
1
b=
0
linear unabhängig sind. Daher ist (iii) in Satz 13.19 verletzt, und das LGS A x = b ist
also nicht lösbar.
406
13.2. Bild, Kern und Rang
Beispiel 13.21. (Lösbarkeit eins LGS) Betrachten wir das LGS A x = b mit
b
1 0 2
und
b = 1 ∈ R2 beliebig.
A=
b2
0 1 1
Dann gilt Rang(A) = 2 = m, da die beiden ersten Spaltenvektoren von A linear unabhängig sind und da es in R2 maximal 2 = dim(R2 ) linear unabhängige Vektoren gibt.
Also ist A x = b nach Satz 13.19 für jedes b ∈ R2 lösbar.
Der letzte Satz in diesem Teilkapitel gibt eine Charakterisierung der Menge aller Lösungen
eines inhomogenen linearen Gleichungssystems, welche manchmal nützlich sein kann.
Satz 13.22. (Charakterisierung der Lösungen eines inhomogenen LGS) Sei
A ∈ Mm,n (R) und b ∈ Rm , und sei xs ∈ Rn eine beliebige Lösung von A x = b. Dann ist
die Lösungsmenge (also die Menge aller Lösungen) von A x = b gegeben durch
L = xs + xh xh ∈ Kern(A) = xs + xh A xh = 0 .
(13.9)
Wir finden also, dass wir jede Lösung von A x = b als Summe einer beliebigen (aber
festen) Lösung xs von A x = b und einer geeigneten Lösung xh der homogenen Gleichung
schreiben können.
Wir beweisen Satz 13.22 am Ende dieses Kapitels.
Die Darstellung (13.9) der Lösungen des inhomogenen linearen Gleichungssystems erinnert
uns an die Darstellung der allgemeinen Lösung y(t) = yh (t) + ys (t) einer linearen Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten (siehe Teilkapitel 10.4). Dies
ist kein Zufall, sondern liegt daran, dass in beiden Fällen lineare“ Gleichungen vorliegen.
”
Nach dem obigen Satz 13.22 können wir also alle Lösungen von A x = b finden, indem
wir zunächst eine beliebige Lösung xs von A x = b finden und dann alle Lösungen xh von
A x = 0 bestimmen. Mit (13.9) kennen wir dann alle Lösungen von A x = b. Natürlich
können wir ebenso gut A x = b direkt lösen, und dies ist meist einfacher. Nur wenn
man eine Lösung xs der Gleichung A x = b direkt ablesen kann, so spart die
anschließende Lösung der homogenen Gleichung A x = 0 und die Darstellung
aller Lösungen von A x = b mit (13.9) Rechenaufwand. Betrachten wir dazu ein
Beispiel.
Beispiel 13.23. (Lösung eines LGS mit Satz 13.22) Wir wollen alle Lösungen von
A x = b mit
1 0 2
−1
A=
und
b=
0 1 1
2
finden. Bevor wir Satz 13.22 anwenden, inspizieren wir unser LGS kurz. Die ersten beiden
Spaltenvektoren von A sind linear unabhängig und bilden somit eine Basis von R2 (da
dim(R2 ) = 2). Daher gilt Rang(A) = 2. Nach der Dimensionsformel gilt
dim Kern(A) = n − Rang(A) = 3 − 2 = 1,
13. Lineare Gleichungssysteme und Matrizen
407
d.h. der Kern ist ein ein-dimensionaler Teilraum von R3 , also finden wir nach (13.9) in
Satz 13.22 beliebig viele Lösungen. Wir berechnen nur mit Hilfe von Satz 13.22 die Lösung
des linearen Gleichungssystems.
• Bestimmen einer Lösung xs von A x = b: Durch Inspizieren sehen wir, dass
 
−1
xs =  2
0
eine Lösung von A x = b ist.
• Bestimmen von Kern(A), also Lösen von A x = 0: Hier ist die erweiterte Koeffizientenmatrix
1 0 2 0
0 1 1 0
bereits in Treppenform, und wir finden durch Rückwärtssubstitution
x1 + 2 x3 = 0
x2 + x3 = 0
⇐⇒
⇐⇒
x1 = −2 x3 ,
x2 = −x3 ,
und x3 kann alle Werte in R annehmen. Wir setzen x3 = c mit c ∈ R und finden somit
die Lösungsmenge des homogenen LGS A x = 0

 



 
−2 c −2 
 





−c c ∈ R = xh = c −1 c ∈ R .
Kern(A) = xh =

 

c 1 • Lösung des inhomogenen LGS A x = b: Nach Satz 13.22 ist die Lösungsmenge von
A x = b nun


 
 
−1
−2


x = xs + xh xh ∈ Kern(A) = x =  2 + c −1 c ∈ R


0
1 



−1 − 2 c 

= x =  2 − c  c ∈ R .


c
13.3
Ergänzendes Material ∗
In diesem Teilkapitel zeigen wir als ergänzendes und nicht klausurrelevantes Material
noch die Beweise der beiden Sätze 13.19 und 13.22. Diese Beweise sind nicht schwierig
und nutzen genau die Ideen von und den Zusammenhang zwischen Bild, Rang und der
Linearkombination von (linear unabhängigen) Spaltenvektoren einer Matrix. Daher sind
diese Beweise verständnisfördernd.
Beweis von Satz 13.19. Wir überlegen uns vorab, was erforderlich ist, um zu zeigen,
dass die Aussagen (i), (ii) und (iii) äquivalent sind. Statt für jedes Paar von zweien dieser
408
13.3. Ergänzendes Material ∗
Aussagen zu zeigen, dass die beiden Aussagen äquivalent sind, kann man einfacher zyklisch
vorgehen: Dabei zeigen wir (i) ⇒ (ii)“, (ii) ⇒ (iii)“ und (iii) ⇒ (i)“. Wenn wir diese
”
”
”
drei Implikationen gezeigt haben, dann können wir aus jeder Aussage (i), (ii) und (iii)
jede andere dieser Aussagen folgern, und die Äquivalenz der Aussagen (i), (ii) oder (iii)
ist damit bewiesen. Z.B. gilt dann (ii) ⇔ (iii)“, denn (ii) ⇒ (iii)“ haben wir direkt
”
”
bewiesen und (iii) ⇒ (ii)“ folgt aus (iii) ⇒ (i) ⇒ (ii)“. Wir beweisen nun (i) ⇒ (ii)“,
”
”
”
(ii) ⇒ (iii)“ und (iii) ⇒ (i)“.
”
”
Beweis von (i) ⇒ (ii)“: Ist A x = b lösbar, so gibt es ein xs ∈ Rn mit A xs = b. Also
”
liegt b im Bild von A.
Beweis von (ii) ⇒ (iii)“: Sei nun b ∈ Bild(A). Nach Bemerkung 13.12 (2) wissen wir,
”
dass b dann eine Linearkombination der Spaltenvektoren von A ist. Wir wissen weiter
nach Bemerkung 13.12 (3) und Satz 13.15, dass der Rang(A) gerade die Anzahl der
linear unabhängigen Spaltenvektoren von A ist. Ebenso ist Rang (A|b) die Anzahl der
linear unabhängigen Spaltenvektoren der erweiterten Koeffizientenmatrix (A|b). Diese ist
aber gleich der Anzahl der linear unabhängigen Spaltenvektoren von
A, weil b von den
Spaltenvektoren von A linear abhängig ist. Also folgt Rang (A|b) = Rang(A).
Beweis von (iii) ⇒ (i)“: Es gelte Rang(A) = Rang (A|b) . Da der Rang einer Matrix
”
die Anzahl der linear unabhängigen Spaltenvektoren der Matrix ist und da die Spaltenvektoren von (A|b) sich von den Spaltenvektoren von A nur durch den zusätzlichen Vektor b
unterscheiden, muss b von den Spaltenvektoren von A linear abhängig sein. Bezeichnen wir
nun die Spaltenvektoren von A mit a1 , a2 , . . . , an ∈ Rm , wobei ak = (a1,k , a2,k , . . . , am,k )T
der k-te Spaltenvektor von A ist. Dann gibt es also Koeffizienten λ1 , λ2 , . . . , λn ∈ R, so
dass gilt
λ1 a1 + λ2 a2 + . . . + λn an = b.
Nach Bemerkung 13.12 (2) können wir dies aber schreiben als
 
λ1
 λ2 
 
A  ..  = b.
.
λn
Also hat A x = b eine Lösung.
Abschließend müssen wir noch zeigen, dass aus Rang(A) = m folgt, dass A x = b für
jedes beliebige b lösbar ist:
Beweis: Sei also Rang(A) = m. Dann gibt es m linear unabhängige Spaltenvektoren von
A, und da A eine m × n-Matrix ist, liegen die Spaltenvektoren von A in Rm . In Rm bilden
m linear unabhängige Vektoren immer eine Basis von Rm . Also enthalten die Spaltenvektoren von A eine Basis von Rm . Da das Bild von A die Menge der Linearkombinationen
der Spaltenvektoren von A ist, folgt also Bild(A) = Rm . Daher liegt jedes b ∈ Rm im
Bild(A) = Rm . Damit ist nach (i) ⇔ (ii)“ aber A x = b für jedes b ∈ Rm lösbar.
”
Beweis von Satz 13.22. Um den Satz zu beweisen, müssen wir zwei Aussagen zeigen:
13. Lineare Gleichungssysteme und Matrizen
409
(1) Jedes x der Form x = xs +xh mit einer Lösung xs von A x = b und mit xh ∈ Kern(A)
ist eine Lösung von A x = b.
(2) Ist xs eine (beliebige aber) fest gewählte Lösung von A x = b, so kann jede Lösung z
von A x = b als z = xs + xh mit einem geeigneten xh ∈ Kern(A) dargestellt werden.
Beweis von (1): Sei also x = xs + xh mit einer Lösung xs von A x = b und mit xh ∈
Kern(A). Dann gilt A xs = b und A xh = 0. Also folgt für x = xs + xh
A x = A (xs + xh ) = A xs + A xh = b + 0 = b.
|{z} |{z}
=b =0
Also ist x = xs + xh eine Lösung von A x = b.
Beweis von (2): Sei z eine beliebige Lösung von A x = b, und sei xs eine fest gewählte
Lösung von A x = b. Dann gilt A z = b und A xs = b. Wir definieren nun
xh = z − xs
⇐⇒
z = xs + xh ,
und wegen
A xh = A (z − xs ) = |{z}
A z − A xs = b − b = 0
|{z}
=b =b
ist xh ∈ Kern(A). Also hat z in der Tat eine Darstellung z = xs + xh mit xh ∈ Kern(A). 410
13.3. Ergänzendes Material ∗
Kapitel 14
Quadratische Matrizen und
Determinanten
In diesem Kapitel betrachten wir nur quadratische Matrizen.
Für quadratische n × n-Matrizen A können wir die Frage stellen, ob es eine quadratische
n × n-Matrix B gibt, so dass gilt A B = B A = In (wobei In die n × n-Einheitsmatrix
ist). Dies ist immer dann der Fall, wenn Rang(A) = n gilt, und wir nennen die Matrix
B dann die inverse Matrix zur Matrix A. Wir werden lernen, wie man die inverse Matrix
mit Hilfe von elementaren Zeilenumformungen berechnet.
Anschließend führen wir die Determinante für quadratische Matrizen ein. Mit der Determinante können wir leicht überprüfen, ob eine quadratische Matrix eine inverse Matrix
besitzt oder nicht. Zudem liefert die Determinante auch Informationen über die eindeutige
(oder nicht eindeutige) Lösbarkeit eines linearen Gleichungssystems mit einer quadratischen Koeffizientenmatrix, also über die eindeutige (oder nicht eindeutige) Lösbarkeit
eines linearen Gleichungssystems mit der gleichen Anzahl von Gleichungen und Unbekannten.
14.1
Inverse Matrix für quadratische Matrizen
Wir starten mit der Definition der inversen Matrix einer quadratischen Matrix (sofern
diese existiert).
Definition 14.1. (inverse Matrix) Wir nennen eine n × n-Matrix A ∈ Mn,n (R) invertierbar (oder regulär), wenn es eine n × n-Matrix B ∈ Mn,n (R) gibt mit
A B = B A = In .
(14.1)
Dabei ist In die Einheitsmatrix in Mn,n (R) (vgl. Definition 12.6 (ii)). Ist A invertierbar,
so nennt man die Matrix B in (14.1) auch die inverse Matrix zu A (oder die Inverse
zu A), und man schreibt A−1 statt B.
411
412
14.1. Inverse Matrix für quadratische Matrizen
Bemerkung 14.2. (Eigenschaften der inversen Matrix) Um die inverse Matrix von
A ∈ Mn,n (R) zu bestimmen, reicht es aus, eine Matrix B ∈ Mn,n (R) mit A B = In zu
finden. Dann folgt automatisch die Gleichung B A = In . – Genauso gut können wir auch
verlangen, dass die Matrix B die Gleichung B A = In erfüllt, und die Gleichung A B = In
folgt dann automatisch.
Betrachten wir zunächst drei Beispiele mit 2 × 2-Matrizen
Beispiel 14.3. (invertierbare 2 × 2-Matrix) Betrachten wir
1
3 −2
und
B=
A=
1
−1
1
Nachrechnen ergibt
3 −2
1 2
3 · 1 + (−2) · 1
AB =
=
−1
1
1 3
(−1) · 1 + 1 · 1
1 · 3 + 2 · (−1)
1 2
3 −2
=
BA=
1 · 3 + 3 · (−1)
1 3
−1
1
die Matrizen
2
.
3
3 · 2 + (−2) · 3
(−1) · 2 + 1 · 3
1 · (−2) + 2 · 1
1 · (−2) + 3 · 1
=
=
1 0
0 1
1 0
0 1
= I2 ,
= I2 .
Also ist A invertierbar, und B ist die inverse Matrix zu A, d.h. A−1 = B. Ebenso können
wir aus der obigen Rechnung folgern, dass B invertierbar ist mit der inversen Matrix
B −1 = A.
Beispiel 14.4. (nicht invertierbare 2 × 2-Matrix) Betrachten wir die Matrix
1 1
.
A=
0 0
Um zu untersuchen, ob die Matrix A invertierbar ist, setzen wir eine allgemeine 2 × 2Matrix
a b
B=
c d
an und berechnen A B. Dann versuchen wir, a, b, c, d ∈ R so zu bestimmen, dass gilt
A B = I2 . Ist dies möglich, so ist A invertierbar. Andernfalls ist A nicht invertierbar. Wir
finden also die Bedingung
a+c b+d ! 1 0
a b
1 1
= I2 .
=
=
AB =
0
0
0 1
c d
0 0
Die Bedingung für den Eintrag in der zweiten Zeile und zweiten Spalte ist aber 0 = 1,
was nicht erfüllbar ist. Also ist die Matrix A nicht invertierbar.
Beispiel 14.5. (Formel für die Inverse einer invertierbaren 2 × 2-Matrix)
Betrachten wir nun eine allgemeine 2-Matrix
a b
A=
(14.2)
c d
14. Quadratische Matrizen und Determinanten
413
und versuchen deren inverse Matrix
B=
e f
g h
zu berechnen. Das vorige Beispiel macht bereits klar, dass dies nicht für beliebige Wahlen
von a, b, c, d ∈ R möglich ist, weil nicht alle 2×2-Matrizen invertierbar sind. Wir berechnen
nun A B und fordern A B = I2 , also
a b
e f
a·e+b·g
a·f +b·h ! 1 0
AB =
=
=
= I2 .
c d
g h
c·e+d·g
c·f +d·h
0 1
Wir erhalten also vier Gleichungen für die vier Unbekannten e, f, g, h ∈ R, nämlich:
a·e
c·e
a·f
c·f
+ b·g
+ d·g
=
=
+ b·h =
+ d·h =
1
0
0
1
Die erweiterte Koeffizientenmatrix dieses linearen Gleichungssystems lautet:


a 0 b 0 1
 c 0 d 0 0


 0 a 0 b 0 .
0 c 0 d 1
(14.3)
Wir multiplizieren jeweils die erste und dritte Zeile mit c und die zweite und vierte Zeile
mit a, also Z1 → c · Z1, Z3 → c · Z3, Z2 → a · Z2, Z4 → a · Z4:


a·c 0
b·c
0 c
 a · c 0 a · d 0 0
.

 0 a·c 0
b · c 0
0 a · c 0 a · d a
Nun subtrahieren wir die erste Zeile von der zweiten Zeile, und wir subtrahieren die dritte
Zeile von der vierten Zeile, also Z2 → Z2−Z1 und Z4 → Z4−Z3:


c
a·c 0
b·c
0
−c
 0
0 a·d−b·c
0


0 .
 0 a·c
0
b·c
0
0
0
a ·d − b ·c a
Falls a · d − b · c 6= 0 ist, so können wir die zweite und dritte Zeile durch a · d − b · c teilen.
Anschließend tauschen wir die zweite und dritte Zeile. Unter der Annahme a · d − b · c 6= 0
führen wir also die folgenden Zeilenoperationen aus: Z2 → Z2/(a · d − b · c), Z4 → Z4/(a ·
d − b · c) und Z2 ↔ Z3. Dies liefert


c
a · c 0 b · c 0 
 0 a· c 0 b · c
0
.

 0
0
1
0 −c/(a · d − b · c)
0
0
0
1 a/(a · d − b · c)
414
14.1. Inverse Matrix für quadratische Matrizen
Wir finden also unter der Annahme a · d − b · c 6= 0, dass gilt
g=
−c
a·d−b·c
und
h=
a
.
a·d−b·c
(14.4)
Ist aber a · d − b · c 6= 0, so muss a 6= 0 oder c 6= 0 gelten. (Wären nämlich a = 0 und
c = 0, so würde a · d − b · c = 0 folgen.)
Ist a 6= 0, so lösen wir in (14.3) die erste und die dritte Gleichung nach e und f auf: Aus
der ersten Gleichung folgt
a·e+b·g =1
⇐⇒
e=
1
(1 − b · g),
a
und Einsetzen der Formel für g liefert
b·c
1
1+
e=
a
a·d−b·c
1 a·d−b·c
b·c
=
+
a a·d−b·c a·d−b·c
a·d
1
·
a a·d−b·c
d
=
.
a·d−b·c
=
(14.5)
Aus der dritten Gleichung folgt
a·f +b·h= 0
⇐⇒
f =−
b
1
· b · h = − · h,
a
a
und Einsetzen der Formel für h liefert
f =−
b
a
−b
·
=
.
a a·d−b·c
a·d−b·c
(14.6)
Ist c 6= 0, so lösen wir in (14.3) die zweite und die vierte Gleichung nach e und f auf: Aus
der zweiten Gleichung folgt
c·e+d·g =0
⇐⇒
e=−
1
d
· d · g = − · g,
c
c
und Einsetzen der Formel für g liefert
e=−
−c
d
d
·
=
.
c a·d−b·c
a·d−b·c
Aus der vierten Gleichung folgt
c·f +d·h=1
⇐⇒
und Einsetzen der Formel für h liefert
1
d·a
f=
1−
c
a·d−b·c
f=
1
(1 − d · h),
c
(14.7)
14. Quadratische Matrizen und Determinanten
1
=
c
a·d−b·c
d·a
−
a·d−b·c a·d−b·c
−b · c
1
·
c a·d−b·c
−b
=
.
a·d−b·c
415
=
(14.8)
Wir bemerken, dass sowohl der Fall a 6= 0 als auch der Fall c 6= 0 auf die gleichen Formeln
für e und f führen (vgl. (14.5) und (14.7) bzw. (14.6) und (14.8)).
Wir finden also das folgende Ergebnis: Ist a · d − b · c 6= 0, so ist die 2 × 2-Matrix A,
gegeben durch (14.2), invertierbar und hat die inverse Matrix


d
−b
a · d − b · c
1
d −b
a · d − b · c
−1


A =
.
 = a · d − b · c −c
a
−c
a
a·d−b·c
a·d−b·c
Um aus einer invertierbaren 2 × 2-Matrix A der Form (14.2) ihre inverse Matrix A−1
zu erhalten, werden also die Elemente auf der Diagonalen (von links oben nach rechts
unten) getauscht und die anderen beiden Einträge bekommen ein negatives Vorzeichen.
Anschließend wird die so modifizierte Matrix durch a · d − b · c geteilt.
Wir halten als Lemma fest, was wir in dem vorigen Beispiel hergeleitet haben.
Lemma 14.6. (Inverse einer 2 × 2-Matrix) Gilt für die 2 × 2-Matrix
a b
A=
c d
die Bedingung
a · d − b · c 6= 0,
so ist A invertierbar, und ihre inverse Matrix A−1 ist durch die folgende Formel gegeben:
1
d −b
−1
A =
.
(14.9)
a
a · d − b · c −c
Gilt a · d − b · c = 0, so ist die Matrix A nicht invertierbar.
Betrachten wir zwei Beispiele zur Anwendung des Lemmas 14.6.
Beispiel 14.7. (Inverse einer 2 × 2-Matrix) Mit Lemma 14.6 können wir nun die
Inverse der Matrix
3 −2
A=
−1
1
aus Beispiel 14.3 leicht ausrechen. Hier gilt a = 3, b = −2, c = −1 und d = 1 und somit
a · d − b · c = 3 · 1 − (−2) · (−1) = 3 − 2 = 1 6= 0.
416
14.1. Inverse Matrix für quadratische Matrizen
Also ist die Matrix A invertierbar. Nach (14.9) finden wir
1 1 2
1
1 2
d −b
−1
.
=
=
A =
1 3
a
a · d − b · c −c
1 1 3
Beispiel 14.8. (Invertierbarkeit einer 2 × 2-Matrix) Für die Matrix
1 1
A=
0 0
aus Beispiel 14.4 gilt a = 1, b = 1, c = 0 und d = 0. Wegen
a·d−b·c= 1·0−1·0= 0−0 =0
ist die Matrix A nicht invertierbar.
Leider gibt es keine analoge Formel zu (14.9) für die inverse Matrix A−1 einer invertierbaren n × n-Matrix A mit n ≥ 3. Wie also berechnet man die inverse Matrix A−1
einer beliebigen invertierbaren Matrix A effizient?
Sei A eine invertierbare n×n-Matrix, und In bezeichne wie üblich die n×n-Einheitsmatrix.
Dann schreiben wir uns die erweiterte Matrix (A | In ) hin, also z.B. für n = 3


a1,1 a1,2 a1,3 1 0 0
 a2,1 a2,2 a2,3 0 1 0 .
a3,1 a3,2 a3,3 0 0 1
Nun wenden wir solange elementare Zeilenoperationen auf die erweiterte Matrix
(A | In ) an, bis wir links die Matrix In stehen haben, also (In | B) mit einer Matrix B,
die sich aus den elementaren Zeilenumformungen ergibt. Die Matrix B ist dann die inverse Matrix zu A.
Zur Erinnerung listen wir hier noch einmal die elementaren Zeilenoperationen auf:
• Multiplikation einer Zeile der erweiterten Matrix mit einer Zahl c 6= 0,
• Addition einer Zeile der erweiterten Matrix zu einer anderen Zeile der erweiterten Matrix,
• Vertauschen zweier Zeilen der erweiterten Matrix.
Wir haben das Streichen von Nullzeilen weggelassen, denn dieser Fall tritt aufgrund der
Invertierbarkeit der Matrix A nicht auf. Wir nutzen beim Beschreiben dieser elementaren
Zeilenoperationen dieselbe Kurznotation, die im vorigen Kapitel eingeführt wurde.
Betrachten wir zwei Beispiele.
Beispiel 14.9. (Berechnen der inversen Matrix) Betrachten wir die Matrix


1 −1 0
2 1 .
A = −1
0
1 3
14. Quadratische Matrizen und Determinanten
417
Diese ist invertierbar, und wir nehmen diese Information zunächst als Tatsache hin, da wir
noch keine einfache Methode kennengelernt haben, eine quadratische Matrix auf Invertierbarkeit zu überprüfen. Um A−1 zu berechnen, schreiben wir die erweiterte Matrix (A | I3 )
hin und transformieren diese durch elementare Zeilenoperationen in die Form (I3 | A−1).
Die Zeilenoperation Z2 → Z2+Z1 liefert




1 −1 0 1 0 0
1 −1 0 1 0 0
 −1
0
2 1 0 1 0
1 1 1 1 0 .
⇐⇒
0
1 3 0 0 1
0
1 3 0 0 1
Dann führen wir nacheinander die Zeilenoperationen Z3 → Z3−Z2 und Z3 → Z3/2 aus:




0 0
1 −1 0 1
0 0
1 −1 0 1


0
1 0 .
1 0
1 1 1
1 1 1
⇐⇒
⇐⇒
0
0
0 2 −1 −1 1
0
0 1 − 21 − 12 12
Danach führen wir nacheinander die Zeilenoperationen Z2 → Z2−Z3 und Z1 → Z1+Z2
aus:




3
1 0 0 52
0
0
1 −1 0 1
− 12
2




3
3
1 0 32
− 12 
− 12  .
⇐⇒
⇐⇒
 0 1 0 23
0
2
2
1
1
−1 −1
0
0
1
0
0 1 − 21 − 12
2
2
2
2
Also ist die inverse Matrix A−1 von A gegeben durch

 5
3
− 12
2
2


3
− 12  .
A−1 =  23
2
1
− 12 − 21
2
Beispiel 14.10. (Berechnen der inversen Matrix) Betrachten wir die Matrix
3

0 21
2


A =  0 3 0 .
1
2
0
3
2
Diese ist invertierbar, und wir nehmen diese Information zunächst als Tatsache hin, da wir
noch keine einfache Methode kennengelernt haben, eine quadratische Matrix auf Invertierbarkeit zu überprüfen. Um A−1 zu berechnen, schreiben wir die erweiterte Matrix (A | I3 )
hin und transformieren diese durch elementare Zeilenoperationen in die Form (I3 | A−1).
Wir führen die beiden Zeilenoperationen Z2 → Z2/3 und Z3 → (−3) · Z3 + Z1 aus und
erhalten

3

3
1 1 1
0
0
1
0
0
0
0
2
2 2
2 



0 0 13
0 .
⇐⇒
0 1
 0 3 0 0 1 0
1
0 0 −4 1 0 −3
0 32 0 0 1
2
Dann führen wir die Zeilenoperationen Z3 → −Z3/4 und Z1 → (2/3) · Z1 aus. Anschließend führen wir die Zeilenoperation Z1 → Z1−Z3/3 aus:




1 0 13 23 0 0
1 0 0 34 0 − 14




0 .
⇐⇒
⇐⇒
 0 1 0 0 31 0
 0 1 0 0 31
3
0 0 1 − 14 0
0 0 1 − 14 0 43
4
418
14.1. Inverse Matrix für quadratische Matrizen
Somit ist die inverse Matrix A−1 von A gegeben durch

 3
0 − 14
4


0 .
A−1 =  0 13
3
− 41 0
4
Wir halten einen nützlichen Satz fest.
Satz 14.11. (Inverse Matrix der inversen Matrix) Ist A ∈ Mn,n (R) eine invertierbare Matrix mit der inversen Matrix A−1 , so ist die inverse Matrix A−1 ebenfalls
invertierbar. Die inverse Matrix zu A−1 ist die Matrix A, also (A−1 )−1 = A.
Wir beweisen diesen Satz.
Beweis von Satz 14.11. Da A−1 die inverse Matrix zu A ist, gilt
A A−1 = A−1 A = In ,
d.h. A−1 ist invertierbar mit der inversen Matrix (A−1 )−1 = A.
Nun interessieren wir uns dafür, wann eine quadratische Matrix invertierbar ist. Man kann
diese Frage mit Hilfe des Ranges der quadratischen Matrix leicht beantworten.
Satz 14.12. (Invertierbarkeitskriterien) Sei A ∈ Mn,n (R) eine quadratische n × nMatrix. Dann sind die folgenden Aussagen äquivalent:
(i) A ist invertierbar,
(ii) Rang(A) = n,
(iii) Kern(A) = {0},
(iv) Bild(A) = Rn .
Wir beweisen Satz 14.12, weil der Beweis für das Verständnis des Satzes hilfreich ist.
Beweis von Satz 14.12. Wir zeigen zunächst, dass die Aussagen (ii), (iii) und (iv)
äquivalent sind. Dazu reicht es zu zeigen (ii) ⇒ (iii)“, (iii) ⇒ (iv)“ und (iv) ⇒ (ii)“.
”
”
”
Dann können wir zyklisch“ aus jeder der Aussagen (ii), (iii) und (iv) jede andere dieser
”
Aussagen folgern und erhalten somit, dass die Aussagen (ii), (iii) und (iv) äquivalent sind.
Beweis von (ii) ⇒ (iii)“: Sei Rang(A) = n. Nach der Dimensionsregel (siehe Satz 13.13)
”
gilt
dim Kern(A) + dim Bild(A) = n
|
{z
}
= Rang(A) = n
=⇒
dim Kern(A) = 0.
14. Quadratische Matrizen und Determinanten
419
Aus dim Kern(A) = 0 folgt direkt Kern(A) = {0}, denn nur der Nullraum {0} hat
Dimension Null.
Beweis von (iii) ⇒ (iv)“: Sei nun Kern(A) = {0}. Dann gilt dim Kern(A) = 0, und
”
mit der Dimensionsregel (siehe Satz 13.13) folgt
dim Kern(A) + dim Bild(A) = n
{z
} |
{z
}
|
=0
= Rang(A)
=⇒
dim Bild(A) = Rang(A) = n.
Also ist Bild(A) ein n-dimensionaler Teilraum von Rn . Der einzige n-dimensionale Teilraum von Rn ist aber Rn selber. Also gilt Bild(A) = Rn . (Dies sieht man daran, dass der
n-dimensionale Teilraum Bild(A) eine Basis b1 , b2 , . . . , bn hat, und die Vektoren dieser
Basis sind per Definition einer Basis linear unabhängig. Also bilden die n linear unabhängigen Vektoren b1 , b2 , . . . , bn ∈ Rn nach Satz 11.47 aber eine Basis von Rn . Damit muss
aber Bild(A) = Rn gelten.)
Beweis von (iv) ⇒ (ii)“: Sei nun Bild(A) = Rn . Dann folgt
”
Rang(A) = dim Bild(A) = dim(Rn ) = n.
Wir wissen nun bereits, dass die Aussagen (ii), (iii) und (iv) äquivalent sind. Um zu zeigen,
dass alle vier Aussagen (i), (ii), (iii) und (iv) äquivalent sind, reicht es, wenn wir zeigen,
dass (i) zu einer der Aussagen (ii), (iii) oder (iv) äquivalent ist.
Wir zeigen, dass (i) zu (iv) äquivalent ist:
Beweis von (i) ⇒ (iv)“: Sei A invertierbar, d.h. A−1 existiere. Um zu zeigen, dass
”
Bild(A) = Rn gilt, zeigen wir, dass jedes beliebige b ∈ Rn in Bild(A) liegt. Betrachten wir also b ∈ Rn beliebig. Dann gilt für x0 = A−1 b, dass
A x0 = A (A−1 b) = (A A−1 ) b = In b = b,
| {z }
= In
(14.10)
d.h. b liegt im Bild von A. Da b in Rn beliebig war, folgt Bild(A) = Rn . In (14.10) haben
wir das Assoziativgesetz für das Matrizenprodukt (siehe Lemma 12.19) und im letzten
Schritt das Resultat aus Beispiel 12.20 genutzt.
Beweis von (vi) ⇒ (i)“: Sei also Bild(A) = Rn , dann können wir das lineare Glei”
chungssystem A x = b für jedes b ∈ Rn lösen. Insbesondere finden wir Spaltenvektoren
x1 , x2 , . . . , xn ∈ Rn , so dass gilt
 
0
 ..
 .
 
0
 
A xk = ek = 1 ← k-ter Eintrag
 
0
 .
 ..
0
für k = 1, 2, . . . , n.
(14.11)
420
14.1. Inverse Matrix für quadratische Matrizen
Sei nun B die Matrix mit den Spaltenvektoren x1 , x2 , . . . , xn , wobei xk der k-te Spaltenvektor ist, also B = (x1 , x2 , . . . , xn ). Dann gilt wegen (14.11)


1 0 ··· 0 0
. 

.
0 1 . . .. 0
.
.. 
..
.
A B = (e1 , e2 , . . . , en ) = 
.
.
0
.
0
 = In .


 . .
0 .. . . 1 0
0 0 ··· 0 1
Daraus folgt, dass B die inverse Matrix zu A ist, d.h. A ist invertierbar.
Mit Hilfe von Satz 14.12 können wir nun auch leicht nachweisen, dass die Matrizen in den
Bespielen 14.9 und 14.10 invertierbar sind, ohne die inverse Matrix zu berechnen.
Beispiel 14.13. (Nachweis der Invertierbarkeit einer Matrix mit Satz 14.12)
Die 3 × 3-Matrix


1 −1 0
A = −1
2 1 .
0
1 3
aus Beispiel 14.9 ist invertierbar, denn sie hat Rang 3. Um dies nachzuweisen, zeigen wir
die lineare Unabhängigkeit der drei Spaltenvektoren von A. Betrachten wir also
 
 
  

1
−1
0
1 −1 0
2 1 λ = A λ = 0,
λ1 −1 + λ2  2 + λ3 1 = −1
0
1
3
0
1 3
d.h. wir betrachten die erweiterte Koeffizientenmatrix




1 −1 0 0
1 −1 0 0
 −1
0
2 1 0
1 1 0
⇐⇒
0
1 3 0
0
1 3 0
⇐⇒

1 −1
0
1
0
0
0 1 1

0
0 ,
0
wobei wir im ersten Schritt die Zeilenoperation Z2 → Z2+Z1 und im zweiten Schritt
die Zeilenoperationen Z3 → Z3−Z2 und anschließend Z3 → Z3/2 ausgeführt haben. Mit
Rücksubstitution finden wir
λ3 = 0,
λ2 = −λ3 = 0
und
λ1 = λ2 = 0.
Also sind die Spaltenvektoren von A linear unabhängig, und A hat den Rang Rang(A) = 3.
Nach Satz 14.12 ist A invertierbar.
Die letzte Bemerkung in diesem Teilkapitel kommt noch einmal auf das Lösen linearer
Gleichungssysteme zurück.
Bemerkung 14.14. (Lösen eines LGS mit einer invertierbaren Koeffizientenmatrix mit Hilfe der inversen Matrix) Ist A eine invertierbare n × n-Matrix, und
14. Quadratische Matrizen und Determinanten
421
ist A−1 bekannt, so ist das lineare Gleichungssysteme A x = b sofort durch eine Matrizenmultiplikation lösbar:
Ax = b
⇐⇒
A−1 (A x) = (A−1 A) x = A−1 b
| {z }
= In
⇐⇒
x = In x = A−1 b.
Betrachten wir hierzu zwei Beispiele.
Beispiel 14.15. (Lösen eines LGS mit Hilfe der inversen Koeffizientenmatrix)
Das lineare Gleichungssystem
3 x1 − 2 x2 =
4
−x1 + x2 = −2
kann in Matrizenschreibweise A x = b als
3 −2
x1
4
=
−1
1
x2
−2
|
{z
} | {z } | {z }
=x
=A
=b
geschrieben werden. Die invertierbare Koeffizientenmatrix A kennen wir bereits aus Beispiel 14.7, in welchem wir ihre inverse Matrix
1 2
−1
A =
1 3
berechnet haben. Nach Bemerkung 14.14 ist die Lösung dieses LGS also
0
4
1 2
−1
.
=
x=A b=
−2
−2
1 3
Beispiel 14.16. (Lösen eines LGS mit Hilfe der inversen Koeffizientenmatrix)
Das lineare Gleichungssystem
x1 − x2
=
2
−x1 + 2 x2 + x3 = −2
x2 + 3 x3 =
4
kann in Matrizenschreibweise A x = b als

   
1 −1 0
x1
2
−1




2 1
x2 = −2
0
1 3
x3
4
|
{z
} | {z } | {z }
=x
=A
=b
geschrieben werden. Die invertierbare Koeffizientenmatrix A kennen wir bereits aus Beispiel 14.9, in welchem wir ihre inverse Matrix

 5
3
− 12
2
2


3
− 12 
A−1 =  23
2
1
− 12 − 12
2
422
14.2. Definition der Determinante
berechnet haben. Nach Bemerkung 14.14 ist die Lösung dieses LGS also
   
 5
3
1
−
2
0
2
2
2

3
1 


.
−2
=
−2
−
x = A−1 b =  32
2
2
1
4
2
− 12 − 21
2
14.2
Definition der Determinante
Als Motivation für die Einführung der Determinante betrachten wir noch einmal ein
lineares Gleichungssystem mit 2 Gleichungen und 2 Unbekannten, also mit einer 2 × 2Koeffizientenmatrix.
Das lineare Gleichungssystem
a1,1 x1 + a1,2 x2 = b1
a2,1 x1 + a2,2 x2 = b2
hat die Matrix-Vektor Darstellung
a1,1 a1,2
x1
b
= 1 .
a2,1 a2,2
x2
b2
|
{z
} | {z } | {z }
=x
=A
=b
(14.12)
(14.13)
Um das lineare Gleichungssystem zu lösen, multiplizieren wir in (14.12) die erste Zeile
mit a2,1 und die zweite Zeile mit a1,1 . Wir erhalten:
a1,1 a2,1 x1 + a1,2 a2,1 x2 = a2,1 b1
a1,1 a2,1 x1 + a1,1 a2,2 x2 = a1,1 b2
Das Subtrahieren der ersten von der zweiten Gleichung in (14.14) liefert
a1,1 a2,2 − a1,2 a2,1 x2 = a1,1 b2 − a2,1 b1 .
(14.14)
(14.15)
Nur wenn
a1,1 a2,2 − a1,2 a2,1 6= 0
(14.16)
ist, können in (14.15) unabhängig von den Werten von b1 und b2 immer nach x2 auflösen,
also
a1,1 b2 − a2,1 b1
x2 =
.
(14.17)
a1,1 a2,2 − a1,2 a2,1
Wenn (14.16) gilt, dann muss entweder a1,1 oder a2,1 von Null verschieden sein (denn wenn
beide Null sind, so folgt auch a1,1 a2,2 − a1,2 a2,1 = 0 · a2,2 − a1,2 · 0 = 0). Ist a1,1 6= 0, so
können wir die erste Gleichung in (14.12) nach x1 auflösen und erhalten durch Einsetzen
des Wertes (14.17) für x2
x1 =
a1,2
b1
a1,2 a1,1 b2 − a2,1 b1
b1
−
x2 =
−
.
a1,1 a1,1
a1,1 a1,1 a1,1 a2,2 − a1,2 a2,1
14. Quadratische Matrizen und Determinanten
423
Ist a2,1 6= 0, so können wir die zweite Gleichung in (14.12) nach x1 auflösen und erhalten
durch Einsetzen des Wertes (14.17) für x2
x1 =
a2,2
b2
a2,2 a1,1 b2 − a2,1 b1
b2
−
x2 =
−
.
a2,1 a2,1
a2,1 a2,1 a1,1 a2,2 − a1,2 a2,1
Wir sehen also, dass das lineare Gleichungssystem (14.12) nur dann für alle b = (b1 , b2 )T
lösbar ist, wenn (14.16) gilt. Die Bedingung (14.16) hängt aber nur von den Einträgen
der Koeffizientenmatrix A in (14.13) ab, und wir nennen den Ausdruck auf der rechten
Seite von (14.16) die Determinante der 2 × 2-Matrix A.
Definition 14.17. (Determinante einer 2×2-Matrix) Die Determinante der 2×2Matrix A = (aj,k ) ∈ M2,2 (R) ist definiert durch
a1,1 a1,2 a1,1 a1,2
= a1,1 a2,2 − a1,2 a2,1 .
det(A) = det
=
a2,1 a2,2 a2,1 a2,2
Die Kurznotation für die Determinante der Matrix A ist det(A) oder |A|.
Berechnen wir die Determinante für ein paar Beispielmatrizen.
Beispiel 14.18. (Determinante von 2×2-Matrizen) Die Determinanten der Matrizen
0 1
1 0
1 2
,
und
C=
,
B=
A=
0 2
−1 1
3 4
sind
1 2
= 1 · 4 − 2 · 3 = −2,
det(A) = 3 4
1 0
= 1 · 1 − 0 · (−1) = 1,
det(B) = −1 1
0 1
= 0 · 2 − 1 · 0 = 0.
det(C) = 0 2
Als nächstes definieren wir die Determinante einer 3 × 3-Matrix.
Definition 14.19. (Regel von Sarrus: Determinante einer 3 × 3-Matrix) Die Determinante der 3 × 3-Matrix


a1,1 a1,2 a1,3
A = (aj,k ) = a2,1 a2,2 a2,3  ∈ M3,3 (R)
a3,1 a3,2 a3,3
ist wie folgt definiert:
a1,1 a1,2 a1,3 det(A) = |A| = a2,1 a2,2 a2,3 a3,1 a3,2 a3,3 (14.18)
424
14.2. Definition der Determinante
= a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2 − a1,3 a2,2 a3,1 − a1,1 a2,3 a3,2 − a1,2 a2,1 a3,3 .
Man bezeichnet (14.18) auch als die Regel von Sarrus. Die Regel von Sarrus merkt man
sich leicht wie folgt: Wir schreiben die ersten beiden Spalten der Matrix A nochmals rechts
neben die Matrix. Dann bilden wir die Produkte entlang den Diagonalen von links oben
nach rechts unten und versehen diese mit dem Vorziehen +“ und bilden die Produkte
”
entlang den Diagonalen von rechts oben nach links unten und versehen diese mit dem
Vorzeichen −“ (siehe (14.19)):
”
a1,1
a1,2
a1,3
a1,1
a1,2
..
.
.
..
..
.
a2,1
a2,2
a2,3
a2,1
a2,2
(14.19)
.
.
.
.
.
.
.
.
.
a3,1
a3,2
a3,3
a3,1
a3,2
−
−
−
+
+
+
Aufaddieren liefert die Regel von Sarrus.
Betrachten wir ein paar Beispiele.
Beispiel 14.20. (Determinanten von 3 × 3-Matrizen) Betrachten wir die Matrizen






1
2 1
1 −2 −1
2 1 0
0 1 ,
1
3
A = −1
B = 2
und
C = 1 2 1 .
2 −1 0
3 −1
2
0 1 2
Dann gilt nach der Regel von Sarrus:
det(A) = 1 · 0 · 0 + 2 · 1 · 2 + 1 · (−1) · (−1) − 1 · 0 · 2 − 1 · 1 · (−1) − 2 · (−1) · 0
= 0 + 4 + 1 − 0 + 1 + 0 = 6,
det(B) = 1 · 1 · 2 + (−2) · 3 · 3 + (−1) · 2 · (−1) − (−1) · 1 · 3 − 1 · 3 · (−1) − (−2) · 2 · 2
= 2 − 18 + 2 + 3 + 3 + 8 = 0,
det(C) = 2 · 2 · 2 + 1 · 1 · 0 + 0 · 1 · 1 − 0 · 2 · 0 − 2 · 1 · 1 − 1 · 1 · 2
= 8 + 0 + 0 − 0 − 2 − 2 = 4.
Beachten Sie: Die Regel von Sarrus gilt nur für 3 × 3-Matrizen!
Für beliebiges n definieren wir die Determinante von n×n-Matrizen mit dem sogenannten
Laplaceschen Entwicklungssatz.
Definition 14.21. (Determinante einer n×n-Matrix) Sei A = (aj,k ) ∈ Mn,n (R) eine
n × n-Matrix mit n ≥ 2. Dann definieren wir die Determinante det(A) rekursiv“ durch
”
Entwickeln nach einer beliebigen Zeile: Durch Entwicklung nach der j-ten
Zeile erhalten wir:
n
X
det(A) =
(−1)j+k aj,k det(Sj,k )
(14.20)
k=1
14. Quadratische Matrizen und Determinanten
425
Alternativ können wir die Determinante det(A) rekursiv“ durch Entwickeln nach ei”
ner beliebigen Spalte definieren: Durch Entwicklung nach der k-ten Spalte erhalten wir:
n
X
det(A) =
(−1)j+k aj,k det(Sj,k )
(14.21)
j=1
Sowohl in (14.20) als auch in (14.21) ist Sj,k diejenige (n − 1) × (n − 1)-Matrix, die aus
A durch Streichen der j-ten Zeile und k-ten Spalte entsteht:

Sj,k
a1,1
 ..
 .

a
=  j−1,1
aj+1,1
 .
 ..
an,1
···
a1,k−1
..
.
a1,k+1
..
.
· · · aj−1,k−1 aj−1,k+1
· · · aj+1,k−1 aj+1,k+1
..
..
.
.
· · · an,k−1
an,k+1

a1,n
.. 
. 

· · · aj−1,n 
.
· · · aj+1,n 
.. 
. 
· · · an,n
···
Mit der rekursiven“ Berechnung ist folgendes gemeint: Indem wir die Formel (14.20)
”
bzw. (14.21) erneut anwenden, können wir dann ebenfalls det(Sj,k ) berechnen. Wir wiederholen diesen Prozess solange bis wir irgendwann nach Streichen von Zeilen und Spalten
3 × 3-Matrizen erhalten, deren Determinante wir mit der Regel von Sarrus berechnen
können, oder bis wir 2 × 2-Matrizen erhalten, deren Determinante wir ebenfalls direkt
berechnen können.
Wichtig ist die (nicht offensichtliche) Information, dass die Formeln (14.20) und (14.21)
für jedes j bzw. k den gleichen Wert für die Determinante det(A) liefern.
Man bezeichnet die Formeln (14.20) und (14.21) auch als den Laplaceschen Entwicklungssatz.
Mit der Definition det(A) = a1,1 für die Determinante einer 1 × 1-Matrix A = (a1,1 ) gilt
der Laplacesche Entwicklungssatz auch für n = 2.
Betrachten wir zunächst zwei Beispiele.
Beispiel 14.22. (Determinante einer 3 ×3-Matrix) Wir wollen die Determinante der
Matrix


1 2 3
A = 4 5 6
7 8 9
mit dem Laplaceschen Entwicklungssatz berechnen. Wir entwickeln nach der
und erhalten
4
4 6
5 6
1+3
1+2
1+1
+
(−1)
·
3
·
+
(−1)
·
2
·
det(A) = (−1)
·1·
7
7 9
8 9
= 5·9−6·8 −2· 4·9−6·7 +3· 4·8−5·7
= (45 − 48) − 2 · (36 − 42) + 3 · (32 − 35)
ersten Zeile
5
8
426
14.2. Definition der Determinante
= −3 − 2 · (−6) + 3 · (−3)
= −3 + 12 − 9 = 0.
Beispiel 14.23. (Determinante einer 4 ×4-Matrix) Wir wollen die Determinante der
Matrix


−1
4
2
1
 2
1 −2
1

A=
 1
0
0
3
3 −1
2 −1
mit dem Laplaceschen Entwicklungssatz berechnen. Wir dürfen uns dabei aussuchen, nach
welcher Spalte oder Zeile wir entwickeln. Da in der dritten Zeile zwei Einträge Null sind,
ist die Entwicklung nach der dritten Zeile besonders günstig!
−1
4
4
2
2
1
3+4
3+1
1 −2 .
1 + 0 + 0 + (−1)
· 3 · 2
det(A) = (−1)
· 1 · 1 −2
3 −1
−1
2
2 −1
Mit der Regel von Sarrus erhalten wir
4
2
1
1 −2
1
−1
2 −1
= 4 · (−2) · (−1) + 2 · 1 · (−1) + 1 · 1 · 2 − 1 · (−2) · (−1) − 4 · 1 · 2 − 2 · 1 · (−1)
= 8 − 2 + 2 − 2 − 8 + 2 = 0,
−1
4
2
2
1 −2
3 −1
2
= (−1) · 1 · 2 + 4 · (−2) · 3 + 2 · 2 · (−1) − 2 · 1 · 3 − (−1) · (−2) · (−1) − 4 · 2 · 2
= −2 − 24 − 4 − 6 + 2 − 16 = −50.
Also finden wir
det(A) = (−1)3+1 · 1 · 0 + (−1)3+4 · 3 · (−50) = 0 + (−3) · (−50) = 150.
Als weiteres Beispiel und als Anwendung des Laplaceschen Entwicklungssatzes wollen
wir die Formeln für die Determinante einer 2 × 2-Matrix und einer 3 × 3-Matrix mit
dem Laplaceschen Entwicklungssatz herleiten. Daran sehen wir das Definition 14.17 und
Definition 14.19 nur Sonderfälle der allgemeineren Definition 14.21 sind.
Anwendung 14.24. (Determinante einer 2 × 2-Matrix) Nach dem Laplaceschen
Entwicklungssatz finden wir für die Determinante der beliebigen 2 × 2-Matrix
a1,1 a1,2
A=
a2,1 a2,2
14. Quadratische Matrizen und Determinanten
427
bei Entwicklung nach der ersten Zeile
a1,1 a1,2 det(A) = a2,1 a2,2 (14.22)
= (−1)1+1 a1,1 det(S1,1 ) + (−1)1+2 a1,2 det(S1,2 ) = a1,1 det(S1,1 ) − a1,2 det(S1,2 ).
Die beiden Matrizen S1,1 und S1,2 erhält man jeweils durch das Streichen der ersten Zeile
und ersten bzw. zweiten Spalte; also gilt
S1,1 = (a2,2 )
und
S1,2 = (a2,1 ).
Definieren wir nun die Determinante einer 1 × 1-Matrix, also einer reellen Zahl, als diese
Zahl selber, so haben wir
det(S1,1 ) = a2,2
Einsetzen in (14.22) liefert
und
det(S1,2 ) = a2,1 .
a1,1 a1,2 a2,1 a2,2 = a1,1 a2,2 − a1,2 a2,1 ,
und dies ist gerade die Formel aus Definition 14.17.
Anwendung 14.25. (Determinante einer 3 × 3-Matrix) Wir wollen nun die Regel
von Sarrus mit Hilfe des Laplaceschen Entwicklungssatzes herleiten. Für eine beliebige
3 × 3-Matrix


a1,1 a1,2 a1,3
A = a2,1 a2,2 a2,3 
a3,1 a3,2 a3,3
finden wir durch Entwicklung nach der ersten Zeile
a1,1 a1,2 a1,3 det(A) = a2,1 a2,2 a2,3 a3,1 a3,2 a3,3 a2,1 a2,2 a2,1 a2,3 a2,2 a2,3 1+3
1+2
1+1
+ (−1) a1,3 + (−1) a1,2 = (−1) a1,1 a3,1 a3,2 a3,1 a3,3 a3,2 a3,3 = a1,1 a2,2 a3,3 − a2,3 a3,2 − a1,2 a2,1 a3,3 − a2,3 a3,1 + a1,3 a2,1 a3,2 − a2,2 a3,1
= a1,1 a2,2 a3,3 − a1,1 a2,3 a3,2 − a1,2 a2,1 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2 − a1,3 a2,2 a3,1
= a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2 − a1,3 a2,2 a3,1 − a1,1 a2,3 a3,2 − a1,2 a2,1 a3,3 ,
und wir erhalten in der Tat die Regel von Sarrus.
Lemma 14.26. (Sonderall: Matrizen in oberer oder unterer Dreiecksform) Sei
A = (aj,k ) ∈ Mn,n (R) eine n × n-Matrix in oberer Dreiecksform“ oder unterer
”
”
Dreiecksform“, also der Form




a1,1 0 · · ·
0
a1,1 · · · · · · a1,n
.. 
.
 0 a2,2 · · · a2,n 

. 


 a2,1 a2,2 . .
A =  ..
bzw.
A= .
.
.. 
.
.
.
.
.
.
 .
..
..
 ..
.
.
. 
0 
0 · · · 0 an,n
an,1 an,2 · · · an,n
428
14.2. Definition der Determinante
Dann gilt
det(A) = a1,1 · a2,2 · . . . · an,n ,
(14.23)
d.h. die Determinante ist das Produkt der Einträge auf der Diagonalen (von links
oben nach rechts unten) der Matrix in oberer bzw. unterer Dreiecksform.
Betrachten wir einige Beispiele für die Anwendung von Lemma 14.26.
Beispiel 14.27. (Anwendung von Lemma 14.26) Betrachten wir die Matrizen






1 0 ··· 0
−1
3 −7
9
2
0 0 0
. . .. 


−3
. .
2 −13
−5 0 0
0 1
.
 , B =  0 100
In =  . .
, A = 



.
0
0
3 −11
13 −19 4 0
. . 0
 .. . .
0
0
0
5
−7 1017 23 1
0 ··· 0 1
Die Matrizen A und In sind in unterer Dreiecksform, und die Matrix B ist in oberer
Dreiecksform. Also können wir Lemma 14.26 anwenden und finden
det(In ) = |1 · 1 ·{z. . . · 1} = 1,
n-mal
det(A) = 2 · (−5) · 4 · 1 = −40,
det(B) = (−1) · 100 · 3 · 5 = −1500.
Zuletzt beweisen wir Lemma 14.26 mit Hilfe des Laplaceschen Entwicklungssatzes.
Beweis von Lemma 14.26. Wir geben den Beweis mit vollständiger Induktion über n für
n ≥ 2, und wir betrachten nur obere Dreiecksmatrizen. Der Fall unterer Dreiecksmatrizen
kann analog behandelt werden.
Induktionsanfang n = 2: Sei also A eine 2 × 2-obere Dreiecksmatrix
a1,1 a1,2
.
A=
0 a2,2
Nach der Formel für die Determinante einer 2 × 2-Matrix finden wir
det(A) = a1,1 · a2,2 − a1,2 · 0 = a1,1 · a2,2 .
Also gilt die Formel (14.23) für n = 2.
Induktionsvoraussetzung: Wir nehmen an, dass die Formel (14.23) für alle (n−1)×(n−1)oberen Dreiecksmatrizen gilt.
Induktionsschritt n − 1 → n: Sie nun A eine n × n-obere Dreiecksmatrix


a1,1 · · · · · · a1,n
 0 a2,2 · · · a2,n 


A =  ..
..  .
..
..
 .
.
.
. 
0 · · · 0 an,n
14. Quadratische Matrizen und Determinanten
429
Dann entwickeln wir die Determinante von A mit dem Laplaceschen Entwicklungssatz
nach der ersten Spalte und erhalten


a2,2 · · · · · · a2,n
 0 a3,3 · · · a3,n 


(14.24)
det(A) = (−1)1+1 a1,1 · det  ..
..  .
.
.
.
.
| {z }
 .
.
.
. 
=1
0 · · · 0 an,n
{z
}
|
(n − 1) × (n − 1)-Matrix
Nach der Induktionsvoraussetzung finden wir für die Determinante der verbleibenden
(n − 1) × (n − 1)-oberen Dreiecksmatrix


a2,2 · · · · · · a2,n
 0 a3,3 · · · a3,n 


det  ..
= a2,2 · a3,3 · . . . · an,n .
.
.
.
..
..
.. 
 .

0
···
0
an,n
Einsetzen in (14.24) liefert nun
det(A) = a1,1 · a2,2 · a3,3 · . . . · an,n ,
und wir haben bewiesen, dass die Formel (14.23) auch für n gilt.
Nach dem Prinzip der vollständigen Induktion gilt die Formel (14.23) für alle n ≥ 2.
14.3
Rechenregeln für Determinanten
In diesem Teilkapitel lernen wir wichtige Rechenregeln für Determinanten kennen.
Satz 14.28. (Rechenregeln für Determinanten – Teil I) Für die quadratischen
Matrizen A, B ∈ Mn,n (R) gelten die folgenden Rechenregeln für die Determinanten von
A und B:
(i) Die Determinante des Matrizenprodukts A B ist gleich dem Produkt der Determinanten der beiden Matrizen A und B:
det(A · B) = det(A) · det(B).
(ii) Falls A invertierbar ist, gilt det(A) 6= 0, und die Determinante der inversen Matrix
ist gegeben durch
1
.
det(A−1 ) =
det(A)
(iii) Die Determinante der transponierten Matrix AT ist gleich der Determinante der
Matrix A, also
det(AT ) = det(A).
430
14.3. Rechenregeln für Determinanten
Betrachten wir ein paar Beispiele für die Anwendung von Satz 14.28.
Beispiel 14.29. (Determinante der transponierten Matrix) In Beispiel 14.22 haben
wir berechnet, dass für die Matrix


1 2 3
A = 4 5 6
7 8 9
gilt det(A) = 0. Nach Satz 14.28 (iii) folgt nun für die zu A transponierte Matrix


1 4 7
AT = 2 5 8 ,
3 6 9
dass gilt det(AT ) = det(A) = 0.
Beispiel 14.30. (Berechnen der Determinante mittels der Determinante der
inversen Matrix) Wir wollen die Determinante der Matrix

 5
3
− 12
2
2


3
− 12 
B =  23
2
1
− 21 − 12
2
berechnen. Nach Beispiel 14.9 wissen wir, dass B die inverse Matrix der Matrix


1 −1 0
2 1
A = −1
0
1 3
ist, d.h. B = A−1 . Nach Satz 14.28 (ii) gilt:
det(B) = det(A−1 ) =
1
.
det(A)
(14.25)
Die Determinante der Matrix A ist einfacher zu berechnen, weil wir Zeilen mit einem
Nulleintrag haben und weil die Einträge von A keine Brüche sind. Mit Entwickeln nach
der ersten Zeile finden wir


1 −1 0
−1
1
2
1
+ (−1)1+2 · (−1) · 2 1 = (−1)1+1 · 1 · det(A) = det −1
0 3
1 3
0
1 3
= 2 · 3 − 1 · 1 + (−1) · 3 − 1 · 0 = 5 + (−3) = 2.
Also folgt aus (14.25) det(B) = 1/2.
Wir machen uns zur Übung noch klar, dass die Formel in Satz 14.28 (ii) direkt aus Satz
14.28 (i) folgt: In der Tat gilt nämlich nach der Definition der inversen Matrix
A · A−1 = In ,
14. Quadratische Matrizen und Determinanten
431
und nach Satz 14.28 (i) gilt somit
det(A · A−1 ) = det(A) · det(A−1 ) = det(In ).
Weiter wissen wir nach Lemma 14.26, dass
det(In ) = |1 · 1 · 1{z· . . . · 1} = 1
n-mal
ist, da die Diagonalmatrix In insbesondere eine untere (und obere) Dreiecksmatrix ist.
Aus
det(A) · det(A−1 ) = det(In ) = 1
folgt nun, dass det(A) 6= 0 und det(A−1 ) 6= 0 gelten muss, denn ansonsten wäre det(A) ·
det(A−1 ) = 0. Also folgt mit det(A) 6= 0
det(A) · det(A−1 ) = 1
⇐⇒
det(A−1 ) =
1
.
det(A)
Nun lernen wir weitere Rechenregeln für Determinanten, die beim Ausrechnen von Determinanten immens hilfreich sein können.
Satz 14.31. (Rechenregeln für Determinanten – Teil II) Sei A ∈ Mn,n (R). Zur
Formulierung der nachfolgenden Rechenregeln für die Determinante bezeichnen wir die
Spaltenvektoren von A mit a1 , a2 . . . , an und schreiben auch A = (a1 , a2 , . . . , an ) für die
Matrix A. Analog bezeichnen wir die Zeilenvektoren von A mit a1 , a2 . . . , an und schreiben
auch
 
a1
 a2 
 
A =  .. 
.
an
für die Matrix A. Dann gelten die folgenden Rechenregeln:
(iv) Für jede reelle Zahl λ ∈ R gilt:
det(a1 , . . . , ak−1 , λ · ak , ak+1 , . . . , an ) = λ · det(a1 , . . . , ak−1 , ak , ak+1 , . . . , an ),

 1 

a1
a
 .. 
 .. 
 . 
 . 
 j−1 
 j−1 
a 
a 




j
det λ · a  = λ · det  aj  .
 j+1 
 j+1 
a 
a 
 . 
 . 
 .. 
 .. 
an
an
In Worten: Wird eine einzelne Zeile oder Spalte einer Matrix A mit einem Faktor λ
multipliziert, so wird ist der Wert der Determinante der neuen Matrix λ · det(A).
432
14.3. Rechenregeln für Determinanten
(v) Sei b ein Spaltenvektor in Rn und c ein Zeilenvektor in Rn . Dann gilt für alle
k = 1, 2, . . . , n
det(a1 , . . . , ak−1 , ak + b, ak+1 , . . . , an )
= det(a1 , . . . , ak−1 , ak , ak+1 , . . . , an ) + det(a1 , . . . , ak−1 , b, ak+1 , . . . , an ),
und für alle j = 1, 2, . . . , n gilt

 1 

 1 
a1
a
a
 .. 
 .. 
 .. 
 . 
 . 
 . 
 j−1 
 j−1 
 j−1 
a
a 

a 
 j
 j 



det a + c = det  a  + det  c  .
 j+1 
 j+1 
 j+1 
a
a 

a 
 . 
 . 
 . 
 .. 
 .. 
 .. 
an
an
an
(vi) Beim Austausch zweier Zeilen (oder Spalten) von A wechselt det(A) das Vorzeichen.
(vii) Sind zwei Zeilen (oder Spalten) von A gleich, so ist det(A) = 0.
(viii) Die Addition des λ-fachen der i-ten Zeile (oder Spalte) von A zur j-ten Zeile (oder
Spalte) von A ändert den Wert von det(A) nicht, wenn i 6= j ist.
(ix) Ist eine Zeile (oder Spalte) von A der Nullvektor, so ist der Wert der Determinante
Null, d.h. det(A) = 0.
Wir bemerken, dass es sich bei Rechenregeln (iv), (vi) und (viii) bei der Anwendung auf
Zeilen unserer Matrix um (elementare) Zeilenoperationen handelt. Hier verwenden
wir wieder die übliche in Kapitel 13 eingeführte Kurznotation. Wir verwenden eine analoge Kurznotation für die entsprechenden (elementaren) Spaltenoperationen, die bei
Rechenregeln (iv), (vi) und (viii) für Spalten auftreten, wobei wir nun mit Sj“ die j-te
”
Spalte der Matrix bezeichnen.
Betrachten wir ein Beispiel, an dem man leicht den Nutzen der Rechenregeln aus Satz
14.31 sehen kann.
Beispiel 14.32. (Anwendung von Satz 14.31) Wir wollen die Determinante der folgenden Matrix mit Hilfe von Satz 14.31 berechnen:


4
3 0 1
9
7 2 3
.
A=
4
0 2 1
3 −1 4 0
Mit Satz 14.31 (iv) ziehen wir den Faktor 2 aus der 3-ten Spalte der Matrix heraus,
d.h. wir multiplizieren die 3-te Spalte mit 1/2. Also führen wir die Spaltenoperation
S3 → S3/2 aus, und wir müssen als Kompensation“ die Determinante der neuen Matrix
”
14. Quadratische Matrizen und Determinanten
433
mit dem Faktor 2 multiplizieren:
4
3
9
7
det(A) = 2 · 0
4
3 −1
0
1
1
2
1
3
.
1
0
Nun tauschen wir mit Satz 14.31 (vi) die erste und die
führen wir die Spaltenoperation S1 ↔ S4 aus:
1
3 0
3
7 1
det(A) = 2 · (−1) · 0 1
1
0 −1 2
vierte Spalte der Matrix. Also
4
9
.
4
3
Die Motivation für diesen Schritt ist, dass wir gerne in der ersten Zeile und ersten Spalte
der Eintrag 1 haben möchten.
Nun wenden wir Satz 14.31 (viii) zweimal an. Zunächst führen wir die Zeilenoperation
Z2 → Z2 − 3 · Z1 aus:
1
3
0
4
0 −2 1 −3
.
det(A) = −2 · 1
0
1
4
0 −1 2
3
Anschließend führen wir die Zeilenoperation Z3 →
1
3
0 −2
det(A) = −2 · 0 −3
0 −1
Z3 − Z1 aus:
0
4
1 −3
.
1
0
2
3
Nun haben wir nur noch einen von Null verschiedenen Eintrag in der ersten Spalte. Daher
entwickeln wir nun nach der ersten Spalte:
−2 1 −3
−2 1 −3
0 .
0 = (−2) · −3 1
det(A) = (−2) · (−1)1+1 · 1 · −3 1
−1 2
−1 2
3
3
Nun haben wir das Problem der Berechnung von det(A) auf die Berechnung der Determinante eine 3 × 3-Matrix reduziert.
Wir wenden nach Satz 14.31 (iv) die Spaltenoperation S3 → S3/3 an und müssen zur
Kompensation“ die Determinante der neuen Matrix mit 3 multiplizieren. Weiter wenden
”
nach Satz 14.31 (iv) die Spaltenoperation S1 → (−1) · S1 an und müssen zur Kompen”
sation“ die Determinante der neuen Matrix mit −1 multiplizieren:
2 1 −1
2 1 −1
−2 1 −1
0 .
0 = 6 · 3 1
0 = (−6) · (−1) · 3 1
det(A) = (−2) · 3 · −3 1
1 2
1 2
−1 2
1
1
1
434
14.3. Rechenregeln für Determinanten
Nun wenden wir Satz 14.31 (viii) an und addieren die erste Zeile zur dritten Zeile, also
Z3 → Z3+Z1:
2 1 −1
0 .
det(A) = 6 · 3 1
3 3
0
Nun entwickeln wir nach der letzten Spalte:
3 1
3 1
1+3
= −6 · det(A) = 6 · (−1)
· (−1) · 3 3 = −6 · 3 · 3 − 1 · 3) = −36.
3 3
Betrachten wir noch ein weiteres Beispiel.
Beispiel 14.33. (Anwendung von Satz 14.31) Betrachten wir die Matrix

1
2 −1
 −1 −2
3
A=
 5 −7
1
−10 14
0

0
2
.
1
0
Wir bemerken, dass für die Zeilenvektoren der Matrix gilt
(1, 2, −1, 0) + (−1, −2, 3, 2) − 2 · (5, −7, 1, 1) = (−10, 14, 0, 0),
d.h. der letzte Zeilenvektor ist vom ersten, zweiten und dritten Zeilenvektor linear abhängig.
Daraus folgt mit Hilfe von Satz 14.31 (viii) und (vii), dass die Determinante Null ist, also
det(A) = 0. Dies sieht man wie folgt:
Die Zeilenoperation Z1 → Z1+Z2
1
−1
det(A) = 5
−10
liefert:
2 −1
−2
3
−7
1
14
0
0
0 0
2 −1 −2
=
1 5 −7
0 −10 14
Die anschließende Zeilenoperation Z1 → Z1−2 · Z3
−10 14
−1 −2
det(A) = 5 −7
−10 14
In der neuen Matrix sind die erste und die
(vii), dass gilt
−10
−1
det(A) = 5
−10
liefert:
0 0
3 2
.
1 1
0 0
2
3
1
0
2
2
.
1
0
vierte Zeile gleich; also folgt nach Satz 14.31
14
−2
−7
14
0
3
1
0
0
2
= 0.
1
0
14. Quadratische Matrizen und Determinanten
14.4
435
Anwendungen der Determinante
In diesem letzten Teilkapitel lernen wir einen Zusammenhang zwischen der Invertierbarkeit einer Matrix und dem Wert ihrer Determinante kennen. Damit erhalten wir auch
Informationen über die eindeutige Lösbarkeit linearer Gleichungssysteme mit einer quadratischen Matrix.
Satz 14.34. (Zusammenhang zwischen Determinante und Invertierbarkeit) Sei
A ∈ Mn,n (R) eine n × n-Matrix. Dann sind die folgenden Aussagen äquivalent:
(i) det(A) 6= 0.
(ii) A ist invertierbar.
(iii) A x = b ist für jeden Spaltenvektor b ∈ Rn eindeutig lösbar.
(iv) Die Spaltenvektoren a1 , a2 , . . . , an ∈ Rn der Matrix A sind linear unabhängig und
bilden eine Basis von Rn .
Wir halten als Bemerkung den Sonderfall von (iii) mit b = 0 fest.
Bemerkung 14.35. (homogene LGS mit quadratischer Matrix) Für den Sonderfall b = 0 in (iii) in Satz 14.34 bedeutet die Äquivalenz von (i) und (iii), dass gilt:
A x = 0 hat genau dann nur die Lösung x = 0, wenn gilt det(A) 6= 0.
Verneinen wir diese Aussage, so folgt:
A x = 0 hat Lösungen x 6= 0 genau dann, wenn gilt det(A) = 0.
Die Äquivalenz der Aussagen (ii), (iii) und (iv) in Satz 14.34 lässt sich relativ leicht
mit Hilfe unseres Wissens über den Rang und das Bild einer Matrix folgern. Um die
Äquivalenz von Aussage (i) in Satz 14.34 zu den Aussagen (ii), (iii) und (iv) zu zeigen,
muss man etwas trickreicher vorgehen. Wir geben den Beweis von Satz 14.34 am Ende
dieses Kapitels.
Die vermutlich gängigste Anwendung von Satz 14.34 ist die Äquivalenz von (i) und (ii).
Um zu überprüfen, ob eine n × n-Matrix invertierbar ist, berechnet man ihre
Determinante det(A). Ist det(A) 6= 0, so ist A invertierbar. Ist det(A) = 0, so ist A
nicht invertierbar. Betrachten wir hierzu ein Beispiel.
Beispiel 14.36. (Test auf Invertierbarkeit mit der Determinante) Für die 3 × 3Matrix


1 −1 0
A = −1
2 1
0
1 3
aus Beispiel 14.13 können wir nun sehr viel einfacher (als in Beispiel 14.13) nachweisen,
dass sie invertierbar ist, denn die Berechnung ihrer Determinante in Beispiel 14.30 liefert
det(A) = 2 6= 0. Also ist A invertierbar.
436
14.4. Anwendungen der Determinante
Für kleine n kann A x = b mit einer invertierbaren Matrix A ∈ Mn,n (R) sinnvoll mit der
folgenden Determinanten-Regel formelmäßig gelöst werden:
Satz 14.37. (Cramersche Regel) Sei A = (αj,k ) ∈ Mn,n (R) mit det(A) 6= 0, und sei
b ∈ Rn ein Spaltenvektor. Dann ist die eindeutige Lösung von A x = b durch
 
x1
 x2 
det(Ck )
 
,
k = 1, 2, . . . , n,
mit
xk =
x =  .. 
det(A)
.
xn
gegeben, wobei


α1,k−1 b1 α1,k+1 · · · α1,n
α2,k−1 b2 α2,k+1 · · · α2,n 

,
..
..
..
..

.
.
.
.
· · · αn,k−1 bn αn,k+1 · · · αn,n
α1,1 · · ·
 α2,1 · · ·

Ck =  ..
 .
αn,1
d.h. man erhält Ck , indem man die k-te Spalte von A durch b ersetzt.
Betrachten wir ein Beispiel.
Beispiel 14.38. (Lösen eines LGS mit der Cramerschen Regel) Das lineare Gleichungssystem aus Beispiel 14.16
x1 − x2
=
2
−x1 + 2 x2 + x3 = −2
x2 + 3 x3 =
4
kann in Matrizenschreibweise A x = b als

   
1 −1 0
x1
2
−1




2 1
x2 = −2
0
1 3
x3
4
|
{z
} | {z } | {z }
=x
=A
=b
geschrieben werden. Wegen det(A) = 2 (vgl. Beispiel 14.30) sind die Voraussetzungen für
die Cramersche Regel erfüllt. Nach der Cramerschen Regel gilt
2 −1 0
1
det(C1 )
1
0
2 1 = · 12 − 4 + 0 − 0 − 2 − 6) = = 0,
x1 =
= · −2
det(A)
2 2
2
4
1 3
x2 =
1
det(C2 )
=
det(A)
2
x3 =
1
det(C3 )
=
det(A)
2
1
2
0
1
−4
· −1 −2 1 = · − 6 + 0 + 0 − 0 − 4 + 6 =
= −2,
2
2
0
4 3
1 −1
2
4
1
2 −2 = · 8 + 0 − 2 − 0 + 2 − 4 = = 2.
· −1
2
2
0
1
4
Wir finden also die Lösung x = (0, −2, 2)T.
14. Quadratische Matrizen und Determinanten
437
Wir betrachten nun noch zwei Anwendungen der Determinante in R3 , nämlich das Kreuzprodukt und das Spatprodukt.
Definition 14.39. (Kreuzprodukt) Seien x = (x1 , x2 , x3 )T und y = (y1 , y2, y3 )T zwei
Spaltenvektoren in R3 . Dann bezeichnen wir den Vektor
    

x1
y1
x2 y3 − x3 y2
x × y = x2  × y2  = x3 y1 − x1 y3 
(14.26)
x3
y3
x1 y2 − x2 y1
als das Kreuzprodukt der Vektoren x und y.
Wir halten die wichtigsten Eigenschaften des Kreuzproduktes fest.
Lemma 14.40. (Eigenschaften des Kreuzprodukts) Seien x, y und z beliebige Vektoren in R3 . Dann hat das Kreuzprodukt die folgenden Eigenschaften:
(i) Es gilt
y × x = −x × y.
(ii) Es gelten
(λ · x) × y = x × (λ · y) = λ · (x × y)
und
(x + y) × z = x × z + y × z
und
x × (y + z) = x × y + x × z.
(14.27)
(iii) Sind die beiden Vektoren x und y parallel oder anti-parallel, also wenn gilt
x = c y oder y = c x mit einer Konstante c ∈ R, so ist das Kreuzprodukt x × y
der Nullvektor 0.
(iv) Sind x und y beide ungleich dem Nullvektor und sind x und y nicht parallel und
nicht anti-parallel, so hat das Kreuzprodukt x × y die Eigenschaft, dass es es auf
den beiden Vektoren x und y senkrecht steht (also orthogonal zu diesen
beiden Vektoren ist).
Als Ergänzung sollte noch die Rechte-Hand-Regel zur Bestimmung der Richtung von
x×y erwähnt werden: Spreizen wir den Daumen, Zeigefinger und Mittelfinger der rechten
Hand so, dass die drei Finger jeweils senkrecht zueinander stehen. Wir identifizieren den
Daumen mit der Richtung von x und den Zeigefinger mit der Richtung von y. Dann steht
der Mittelfinger auch x und y senkrecht und gibt die Richtung des Vektors x × y an.
Betrachten wir zunächst zwei Beispiele.
Beispiel 14.41. (Kreuzprodukt) Das Kreuzprodukt der Vektoren
 
 
1
−1



0
x= 2
und
y=
3
1
438
14.4. Anwendungen der Determinante
ist
    
  
1
−1
2·1−3·0
2







.
2
0
3
·
(−1)
−
1
·
1
−4
x×y =
×
=
=
3
1
1 · 0 − 2 · (−1)
2
Dieser Vektor ist in der Tat orthogonal zu x und y, denn
*   +
1
2



2 , −4 = 1 · 2 + 2 · (−4) + 3 · 2 = 2 − 8 + 6 = 0,
hx, x × yi =
3
2




* −1
2 +
hy, x × yi =  0 , −4 = (−1) · 2 + 0 · (−4) + 1 · 2 = −2 + 0 + 2 = 0.
1
2
Beispiel 14.42. (Kreuzprodukt) Das Kreuzprodukt der Vektoren
 
 
2
−1
x = −4
und
y =  2
−2
1
ist

   
 
  
2
−1
(−4) · 1 − (−2) · 2
−4 + 4
0
x × y = −4 ×  2 = (−2) · (−1) − 2 · 1 =  2 − 2 = 0 = 0.
−2
1
2 · 2 − (−4) · (−1)
4−4
0
Dies ist auch, was wir nach Lemma 14.40 (iii) erwartet haben, denn es gilt x = −2 y.
Wo kommt nun die Determinante ins Spiel? Die kompliziert aussehende Formel
(14.26) für das Kreuzprodukt kann man leicht formal mit der Determinante einer besonderen 3 × 3-Matrix berechnen.
Bemerkung 14.43. (Kreuzprodukt) Das Kreuzprodukt kann leicht formal mit Hilfe
der Determinante einer geeigneten 3 × 3-Matrix berechnet werden:
e1 e2 e3 (14.28)
x × y = x1 x2 x3 y1 y2 y3 x1 x2 x1 x3 x2 x3 1+3
1+2
1+1
+ (−1)
+ (−1)
· e3 · e2 = (−1)
· e1 · y1 y2 y1 y3 y2 y3 = e1 · x2 y3 − x3 y2 − e2 · x1 y3 − x3 y1 + e3 · x1 y2 − x2 y1
 
 
 
1
0
0





= 0 · x2 y3 − x3 y2 + 1 · x3 y1 − x1 y3 + 0 · x1 y2 − x2 y1
0
0
1


x2 y3 − x3 y2
= x3 y1 − x1 y3  ,
x1 y2 − x2 y1
14. Quadratische Matrizen und Determinanten
439
wobei die Vektoren e1 , e2 , e3 die Vektoren der Standardbasis von R3 sind, also
 
 
 
1
0
0





e1 = 0 ,
e2 = 1 ,
e3 = 0 .
0
0
1
Wir schreiben also in (14.28) in die erste Zeile formal die Vektoren e1 , e2 , e3 und in die
zweite Zeile schreiben wir die Komponenten des Vektors x und in die dritte Zeile die
Komponenten des Vektors y. Dann berechnen wir die Determinante mittels Entwickeln
nach der ersten Zeile oder mit der Regel von Sarrus.
Betrachten wir noch ein Beispiel.
Beispiel 14.44. (Kreuzprodukt) Wir wollen das Kreuzprodukt a × b der Vektoren
 
 
3
−2



a=
4
und
b=
2
−2
1
mit Hilfe der Determinante berechnen:
e1 e2 e3 a × b = 3 4 −2
−2 2
1
3 4
3 −2
4 −2
1+3
1+2
1+1
+ (−1)
+ (−1)
· e3 · · e2 · = (−1)
· e1 · −2 2
−2
1
2
1
= e1 · 4 · 1 − (−2) · 2 − e2 · 3 · 1 − (−2) · (−2) + e3 · 3 · 2 − 4 · (−2)
= e1 · (4 + 4) − e2 · (3 − 4) + e3 · (6 + 8)
 
8

1 .
= 8 e1 + e2 + 14 e3 =
14
Wir wollen nun Lemma 14.40 beweisen, da dies nicht schwierig ist und das Verständnis
der Eigenschaften des Kreuzprodukts erhöht.
Beweis von Lemma 14.40.
(i) Aus der Formel (14.26) für das Kreuzprodukt folgt direkt

 



−(x2 y3 − x3 y2 )
x2 y3 − x3 y2
y2 x3 − y3 x2
y × x = y3 x1 − y1 x3  = −(x3 y1 − x1 y3 ) = − x3 y1 − x1 y3  = −x × y.
−(x1 y2 − x2 y1 )
x1 y2 − x2 y1
y1 x2 − y2 x1
(ii) Für jedes λ ∈ R folgt aus der Formel (14.26) für das Kreuzprodukt
   


λ x1
y1
(λ x2 ) y3 − (λ x3 ) y2
(λ x) × y = λ x2  × y2  = (λ x3 ) y1 − (λ x1 ) y3 
λ x3
y3
(λ x1 ) y2 − (λ x2 ) y1
440
14.4. Anwendungen der Determinante

   

x2 (λ y3) − x3 (λ y2 )
x1
λ y1
= x3 (λ y1) − x1 (λ y3 ) = x2  × λ y2  = x × (λ y)
x1 (λ y2) − x2 (λ y1 )
x3
λ y3
und mit der anfänglich gleichen Rechnung folgt




λ (x2 y3 − x3 y2 )
x2 y3 − x3 y2
(λ x) × y = λ (x3 y1 − x1 y3 ) = λ x3 y1 − x1 y3  = λ (x × y).
λ (x1 y2 − x2 y1 )
x1 y2 − x2 y1
Aus der Formel (14.26) für das Kreuzprodukt folgt mit dem Distributivgesetz für die
reellen Zahlen

 

(x2 + y2 ) z3 − (x3 + y3 ) z2
(x2 z3 − x3 z2 ) + (y2 z3 − y3 z2 )
(x + y) × z = (x3 + y3 ) z1 − (x1 + y1 ) z3  = (x3 z1 − x1 z3 ) + (y3 z1 − y1 z3 )
(x1 + y1 ) z2 − (x2 + y2 ) z1
(x1 z2 − x2 z1 ) + (y1 z2 − y2 z1 )

 

x2 z3 − x3 z2
y2 z3 − y3 z2
= x3 z1 − x1 z3  + y3 z1 − y1 z3  = x × z + y × z.
x1 z2 − x2 z1
y1 z2 − y2 z1
Damit ist die erste Formel in (14.27) bewiesen. Mit Hilfe von (i) und der bereits bewiesenen
ersten Formel in (14.27) folgt nun
x × (y + z) = −(y + z) × x = − y × x + z × x = −y × x − z × x = x × y + x × z.
(iii) Betrachten wir nun zwei Vektoren x und y für die x = c · y gilt. Dann finden wir

  
c y2 y3 − c y3 y2
0



x × y = (c y) × y = c y3 y1 − c y1 y3 = 0 = 0.
c y1 y2 − c y2 y1
0
Für den Fall y = c · x gibt man den Nachweis analog.
(iv) Wir müssen zeigen dass, gilt hx, x × yi = 0 und hy, x × yi = 0. Wir berechnen also
die beiden Skalarprodukte
*x  x y − x y +
1
2 3
3 2
hx, x × yi = x2  , x3 y1 − x1 y3 
x3
x1 y2 − x2 y1
= x1 x2 y3 − x1 x3 y2 + x2 x3 y1 − x2 x1 y3 + x3 x1 y2 − x3 x2 y1 = 0,
+
*  
y1
x2 y3 − x3 y2
hy, x × yi = y2  , x3 y1 − x1 y3 
y3
x1 y2 − x2 y1
= y1 x2 y3 − y1 x3 y2 + y2 x3 y1 − y2 x1 y3 + y3 x1 y2 − y3 x2 y1 = 0.
Damit ist Lemma 14.40 bewiesen.
14. Quadratische Matrizen und Determinanten
441
z
y
x
Abb. 14.1: Das von den Vektoren x, y und z im R3 aufgespannte Spat.
Anwendung 14.45. (Spatprodukt) Drei beliebige linear unabhängige Vektoren x, y, z
in R3 spannen ein Spat in R3 auf (vgl. Abbildung 14.1) Das Volumen des Spats kann mit
dem Spatprodukt hx×y, zi berechnet werden. Genauer ist |hx×y, zi| das Volumen des
von x, y, z aufgespannten Spates. Das Spatprodukt kann mit Hilfe der Determinante
wie folgt berechnet werden
x1 y1 z1 hx × y, zi = x2 y2 z2 .
x3 y3 z3 Dass diese Formel korrekt ist, sieht man leicht indem man die linke Seite berechnet:
*x y − x y  z +
2 3
3 2
1
hx × y, zi = x3 y1 − x1 y3  , z2 
x1 y2 − x2 y1
z3
= x2 y3 z1 − x3 y2 z1 + x3 y1 z2 − x1 y3 z2 + x1 y2 z3 − x2 y1 z3
= x1 y2 z3 + y1 z2 x3 + z1 x2 y3 − z1 y2 x3 − x1 z2 y3 − y1 x2 z3
x1 y1 z1 = x2 y2 z2 ,
x3 y3 z3 wobei wir im letzten Schritt die Regel von Sarrus verwendet haben.
Zuletzt beweisen wir noch den zentralen Satz 14.34.
Beweis von Satz 14.34. Wir beweisen zunächst, dass die Aussagen (ii), (iii) und (iv)
äquivalent sind, indem wir zeigen (ii) ⇒ (iii)“, (iii) ⇒ (iv)“ und (iv) ⇒ (ii)“. Dann
”
”
”
können wir aus jeder der drei Aussagen (ii), (iii) und (iv) zyklisch“ jede andere dieser
”
Aussagen folgern und haben damit die Äquivalenz von (ii), (iii) und (iv) gezeigt.
Beweis von (ii) ⇒ (iii)“: Sei die Matrix A ∈ Mn,n (R) invertierbar.
”
442
14.4. Anwendungen der Determinante
Sei zunächst x0 eine Lösung von A x = b. Dann können wir die Gleichung A x0 = b von
vorne mit der inversen Matrix A−1 multiplizieren und erhalten
−1
−1
|A {z A} x0 = A b
= In
⇐⇒
x0 = In x0 = A−1 b,
d.h. jede Lösung x0 von A x = b ist von der Form x0 = A−1 b. Somit ist eine solche
Lösung eindeutig bestimmt.
Weiter ist x0 = A−1 b auch für jedes b ∈ Rn eine Lösung von A x = b, denn
A x0 = A A−1 b = A
A−1} b = In b = b
| {z
= In
Also ist A x = b für jedes b ∈ Rn eindeutig lösbar.
Beweis von (iii) ⇒ (iv)“: Sei A ∈ Mn,n (R), und sei A x = b für jedes b ∈ Rn eindeutig
”
lösbar. Bezeichnen a1 , a2 , . . . , an ∈ Rn die n Spaltenvektoren von A, so wissen wir aus
Kapitel 13, dass A x gerade die Linearkombination der Spaltenvektoren a1 , a2 , . . . , an ∈ Rn
mit den Koeffizienten x1 , x2 , . . . , xn ist, also
A x = x1 a1 + x2 a2 + . . . + xn an .
Dass A x = b für jedes b ∈ Rn eindeutig lösbar ist bedeutet nun, dass jeder Vektor
b ∈ Rn eindeutig als Linearkombination der n Spaltenvektoren a1 , a2 , . . . , an darstellbar
ist. Dies bedeutet aber, dass {a1 , a2 , . . . , an } eine Basis für Rn ist. Insbesondere sind die
Spaltenvektoren a1 , a2 , . . . , an von A linear unabhängig.
Beweis von (iv) ⇒ (ii)“: Seien die Spaltenvektoren a1 , a2 , . . . , an von A linear un”
abhängig und bilden diese somit eine Basis von Rn . Dann können wir jeden Vektor b ∈ Rn
eindeutig als Linearkombination der a1 , a2 , . . . , an darstellen. Insbesondere gibt es für jeden Vektor ek der Standardbasis eindeutig bestimmte Koeffizienten b1,k , b2,k , . . . , bn,k ∈ R,
so dass gilt
b1,k a1 + b2,k a2 + . . . + bn,k an = ek ,
|
{z
}
= A bk
wobei

b1,k
 b2,k 
 
bk =  ..  .
 . 

bn,k
Die Gleichungen A bk = ek für k = 1, 2, . . . , n können wir aber schreiben als
A b1 , b2 , . . . bn = (e1 , e2 , . . . , en ),
{z
}
|
{z
} |
= In
=B
und wir sehen, dass A invertierbar ist mit der inversen Matrix B = (b1 , b2 , . . . , bn ).
Wir haben jetzt gezeigt, dass die Aussagen (ii), (iii) und (iv) äquivalent sind. Um zu zeigen,
dass alle vier Aussagen (i), (ii), (iii) und (iv) äquivalent sind, reicht es zu zeigen, dass aus
14. Quadratische Matrizen und Determinanten
443
einer der äquivalenten Aussagen (ii), (iii) und (iv) die Aussage (i) folgt, und umgekehrt,
dass aus (i) eine der äquivalenten Aussagen (ii), (iii) und (iv) folgt. Wir zeigen (ii) ⇒
”
(i)“ und (i) ⇒ (iv)“.
”
Beweis von (ii) ⇒ (i)“: Sei A ∈ Mn,n (R) invertierbar mit der inversen Matrix A−1 . Dann
”
gilt nach Satz 14.28 (i)
A A−1 = In
det(A) det(A−1 ) = det(In ) = 1,
=⇒
und damit diese Gleichung wahr ist, muss insbesondere det(A) 6= 0 gelten.
Beweis von (i) ⇒ (iv)“: Statt der Implikation (i) ⇒ (iv)“ können wir auch die Kontrapo”
”
sition ¬ (iv) ⇒ ¬ (i)“ zeigen. Es gelte also die Negation von (iv), d.h. die Spaltenvektoren
”
a1 , a2 , . . . , an von A seien linear abhängig (und bilden keine Basis von Rn ). Dann gibt es
Koeffizienten λ1 , λ2 , . . . , λn ∈ R, die nicht alle Null sind und für die gilt
λ1 a1 + λ2 a2 + λ3 a3 + . . . + λn an = 0.
Wir wissen, dass mindestens ein λk von Null verschieden ist, und ohne Beschränkung der
Allgemeinheit können wir annehmen, dass λ1 6= 0 ist. Dann gilt
n
X −λj
λ3
λn
λ2
a2 −
a3 − . . . −
an =
aj .
a1 = −
λ1
λ1
λ1
λ1
j=2
(14.29)
Wir setzen nun (14.29) in die Determinante von A ein und nutzen wiederholt Satz 14.31
(v) und (iv):
!
n
X
−λj
aj , a2 , a3 , . . . , an
det(A) = det a1 , a2 , a3 , . . . , an = det
λ
1
j=2
=
n
X
j=2
=
det
−λj
aj , a2 , a3 , . . . , an
λ1
n
X
−λj
j=2
det (aj , a2 , a3 , . . . , an ) = 0.
λ1 |
{z
}
=0
Dabei sind die Determinanten in der letzten Zeile nach Satz 14.31 (vii) Null, weil diese
zwei gleiche Spaltenvektoren, nämlich den ersten und den j-ten Spaltenvektor, enthalten.
Wir haben also die Negation von (i), nämlich det(A) = 0, bewiesen.