Mathematik für Chemiker

Werbung
Mathematik für Chemiker
Kerstin Hesse
Universität Paderborn, Sommersemester 2016
y
11111111111111
00000000000000
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
+
a
+
−
b
x
Dieses Skript wurde im Herbst/Winter 2013 und im Frühjahr 2014 als Vorlesungsskript
für den Kurs Mathematik für Chemiker“ erstellt. Als Vorlagen dienten dabei das Skript
”
Mathematik für Chemiker“ von Dieter Bothe, Hermann Hembd und Norbert Köckler
”
(von 2005), sowie die Unterlagen diverser Vorlesungen, die ich im Verlauf der letzten 10
Jahre an verschiedenen Universitäten im In- und Ausland gehalten habe.
Paderborn, April 2016
Kerstin Hesse
c Dr. Kerstin Hesse, Universität Paderborn
Einleitung
Der Kurs Mathematik“ für Chemiker behandelt die grundlegenden mathematischen
”
Techniken, welche Sie für Ihr Chemiestudium benötigen. Dabei geht der Kurs
an einigen Stellen über die Schulmathematik hinaus, und Sie werden feststellen, dass
alles etwas formalisierter“ ist, als Sie es in der Regel aus der Schule gewöhnt sind. Dies
”
erfordert eine gewisse Umstellung, und es ist sehr wichtig, dass sie Übungsaufgaben
rechnen, um sich mit den mathematischen Techniken und deren Anwendung vertraut zu
machen.
Warum sollten Sie Zeit investieren, um diese mathematischen Techniken zu
lernen? Mathematik ist die Sprache der Naturwissenschaften, denn physikalische, chemische und technische Phänomene lassen sich nur mit der Sprache der Mathematik
exakt beschreiben und modellieren. So können in der Chemie zum Beispiel Reaktionsvorgänge mit Hilfe von Differentialgleichungen beschrieben werden. In der Quantenphysik/Quantenchemie kommen Sie ohne mathematische Techniken und Notation nicht aus
und nutzen auch mathematische Techniken, die weit über den Inhalt dieses Kurses hinausgehen. Wir werden im Laufe des Kurses einige kleine Anwendungen aus der Chemie
und Physik betrachten. – Zudem erfordert das Analysieren chemischer Vorgänge in einem hohen Maß logisches Denkvermögen; dieses wir durch diesen Kurs ebenfalls bestens
trainiert.
Was wird in dem Kurs besprochen?
Im Teil I: Grundlagen“ werden wir einige mathematische Grundlagen wiederholen
”
bzw. einführen. Neu sind hier vor allem die komplexen Zahlen, die Grundzüge der Aussagenlogik und elementare Beweistechniken. Auch wenn es in dem Kurs primär um das
Lernen, Verstehen und Anwenden mathematischer Techniken geht und wir nur wenige Resultate beweisen werden, ist es trotzdem nützlich, die Grundzüge mathematischer
Beweistechniken kennenzulernen. Diese helfen später beim Verständnis mancher mathematischer Aussagen und Resultate und können auch Aufschluss darüber geben, wie man
mathematische offene Fragen“ in der Chemie angehen soll.
”
Im Teil II: Analysis“ besprechen wir die Themenbereiche Differentiation und Integra”
tion. Hier werden große Teile des Materials aus der Schule bekannt sein. Allerdings werden
auch neue Themen, wie z.B. die Konvergenz von Folgen, auftauchen, und viele Themen,
z.B. Stetigkeit und die Ableitung, werden nun klarer eingeführt, als Sie es vermutlich aus
der Schule gewöhnt sind. Wir werden hier vieles mathematisch stringenter“ formulieren,
”
I
II
Einleitung
als Sie es aus der Schule gewöhnt sind, aber davon sollten Sie sich nicht abschrecken lassen: Sobald Sie sich daran gewöhnt haben, werden Sie feststellen, dass dies die Klarheit
erhöht und es vereinfacht, mit den mathematischen Methoden zu arbeiten.
Im Teil III: Gewöhnliche Differentialgleichungen“ werden Sie im wesentlichen neu”
es Material kennenlernen. Das einfachste Beispiel einer Differentialgleichung ist y ′ (t) =
−k y(t), wobei k eine positive Konstante ist und y = y(t) eine unbekannte zeitabhängige
Funktion. Beispielsweise beschreibt diese Differentialgleichung den radioaktiven Zerfall;
hierbei ist dann y(t) die Menge der radioaktiven Substanz zum Zeitpunkt t. Das Lösen
einer solchen Differentialgleichung bedeutet, dass wir die Funktionen y = y(t) finden, die
diese Differentialgleichung erfüllen. Für die Differentialgleichung y ′(t) = −k y(t) erfüllen
alle Funkionen y(t) = c · e−kt (mit beliebigen Konstanten c) diese Differentialgleichung.
Im Teil IV: Lineare Algebra“ besprechen wir schließlich Vektoren, Matrizen, Deter”
minanten und lineare Gleichungssysteme. Diese Themen werden den meisten von Ihnen
aus der Schule bekannt sein.
Was für mathematisches Wissen wird vorausgesetzt? Generell werden in diesem
Kurs im wesentlichen grundlegende Rechentechniken aus der Mittelstufe vorausgesetzt,
aber je mehr Mathematik Sie bereits beherrschen, desto besser sind sie natürlich auf den
Kurs vorbereitet. Erwartet wird vor allem, dass Sie grundlegende Rechentechniken
wie das Rechnen mit Ungleichungen, die Bruchrechnung und die binomischen
Formeln beherrschen. Wenn Sie bei diesen grundlegenden Rechentechniken Defizite
haben, müssen Sie selbst daran arbeiten, diese zu beheben! Weiterführendes Material
wird in der Regel vollständig eingeführt.
Wie sollte man dieses Skript verwenden, und wie sollte
man für den Kurs lernen?
• Kommen Sie immer zu der Vorlesung und schreiben Sie mit: Durch das Mitschreiben machen Sie sich mit dem Material vertraut, und außerdem ist es leichter,
dabei konzentriert zu bleiben. Wenn Sie nicht mitschreiben und nur zuhören, werden
Sie vermutlich feststellen, dass das Sie leicht müde werden und Schwierigkeiten haben
sich zu konzentrieren.
• Lassen Sie sich in der Vorlesung nicht durch Ihr Smartphone, Tablet oder
Handy ablenken! Nur wenn Sie sich ganz auf die Vorlesung konzentrieren, haben Sie
eine Chance die mathematischen Inhalte direkt in der Vorlesung zu verstehen.
• Gehen Sie immer zu Ihrer Übungsgruppe/Ihrem Tutorium und bearbeiten
Sie die Präsenzübungen (diese werden im Tutorium bearbeitet) und die Hausübungen (diese sollten Sie nach dem Tutorium zu Hause bearbeiten). Mathematik lernt
sich nur durch Übung, d.h. indem man die mathematischen Techniken für
Beispiele und Übungsaufgaben anwendet. Daher ist es unerlässlich, dass Sie die
Übungsaufgaben bearbeiten!
• Wenn Sie die Übungsaufgaben lösen, dann sollten Sie parallel dazu das zugehörige Material aus der Vorlesung nacharbeiten. Dies geht ganz natürlich“,
”
Einleitung
III
denn die Übungsaufgaben sind so konzipiert, dass Sie mit Ihnen den Vorlesungsstoff anwenden und üben. Das Nacharbeiten kann mit Ihren handschriftlichen Notizen und/oder
diesem Skript erfolgen. Das Skript ist dabei wesentlich ausführlicher als der Tafelanschrieb und somit als Ihre handschriftlichen Notizen. Im Skript finden Sie weitere und
teilweise andere Beispiele und zusätzliche Erklärungen. Das Skript kann wie ein Lehrbuch verwendet werden.
• Was machen Sie, wenn Sie etwas nicht verstehen? Wichtig ist vor allem, zu
wissen, dass dies bei mathematischen Themen völlig normal ist und allen Studenten
hin und wieder passiert. Was können Sie tun, um das Problem zu beheben?
- Geben Sie nicht auf, sondern befassen Sie sich weiter mit dem Material! Manche
mathematischen Themen muss man mehrfach studieren, bis der Groschen fällt“.
”
- Fragen Sie Ihre Kommilitonen danach und diskutieren Sie mit ihnen darüber.
- Fragen Sie den Dozenten in der Vorlesung oder den Tutor in der Übung.
- Schauen Sie die zu dem Material gehörigen Beispiele an: Mathematik lernt sich durch
das Verständnis der Beispiele! Wenn Sie das Beispiel verstehen, dann wird die mathematische Technik klarer. Können Sie nun vielleicht ein ähnliches Bespiel selber
durchrechnen? Wenn ja, dann sind Sie einen Schritt weiter gekommen.
• Nutzen Sie die Gelegenheit und trauen Sie sich, in der Vorlesung und im Tutorium
Fragen zu stellen. Es gibt keine dummen Fragen, sondern dumm ist nur, wenn man
nicht fragt und ignorant bleibt. Die Vorlesung und das Tutorium sind dazu da, Sie
beim Lernen zu unterstützen – also machen Sie von der Gelegenheit, Fragen zu stellen,
Gebrauch!
• Gruppenarbeit: Gruppenarbeit ist nützlich und kann sehr produktiv sein. Übungsaufgaben sind oft leichter zu lösen, wenn verschiedene Personen ihre Ideen beisteuern.
Indem Sie sich von anderen etwas erklären lassen, lernen Sie etwas dazu. Wenn Sie anderen etwas erklären, so lernen Sie auch etwas dazu und gewinnen größere Klarheit über
das bereits verstandene Material. Wichtig ist aber, dass Sie nach der Gruppenarbeit
nun auch in der Lage sind, die gelösten Aufgaben eigenständig zu rechnen, denn in
der Klausur sind Sie auf sich alleine gestellt und haben keine Gruppe zur Hand.
• Klausurvorbereitung: Wenn Sie während des Semesters die Vorlesungen gut nachgearbeitet haben und die Übungsaufgaben erfolgreich gelöst haben, dann sind Sie bereits
gut vorbereitet. Wiederholen Sie den Stoff noch einmal, rechnen Sie zu allen Themen
passende Übungsaufgaben und lernen Sie das nötige Wissen! (Es gibt in der Klausur
keine Formelsammlung und keinen Taschenrechner!)
Ich freue mich auf Ihre Teilnahme an dem Kurs!
Kerstin Hesse
Paderborn, April 2016
Inhaltsverzeichnis
I
Grundlagen
1
1 Grundlagen und Notation
1.1 Wichtige Mengen von Zahlen . . . . . . . . . . . . . .
1.2 Rechnen mit der Gleitpunktdarstellung . . . . . . . . .
1.3 Binominalkoeffizienten und binomischer Lehrsatz . . .
1.4 Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . .
1.5 Trigonometrische Funktionen . . . . . . . . . . . . . .
1.6 Darstellung komplexer Zahlen mittels trigonometrischer
1.7 Ungleichungen und Beträge . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Funktionen
. . . . . . .
2 Mengenlehre, mathematische Aussagen und Beweistechniken
2.1 Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mathematische Aussagen und Aussagenlogik . . . . . . . . . . .
2.3 Implikationen, Äquivalenzen und elementare Beweismethoden .
2.4 Vollständige Induktion . . . . . . . . . . . . . . . . . . . . . . .
II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
11
15
23
35
39
.
.
.
.
49
49
56
58
65
Analysis
71
3 Funktionen und ihre grundlegenden Eigenschaften
3.1 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Wachstumsverhalten von Funktionen . . . . . . . . . . . . . . . . .
3.3 Injektive Funktionen und ihre Umkehrfunktionen . . . . . . . . . .
3.4 Beispiele: Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
4 Folgen und Grenzwerte
4.1 Einführung: Folgen reeller Zahlen . . . . . . . . . . .
4.2 Eigenschaften von Folgen reeller Zahlen . . . . . . . .
4.3 Konvergenz von Folgen . . . . . . . . . . . . . . . . .
4.4 Grenzwertsätze: Aussagen über konvergente Folgen .
4.5 Weiterführendes Material: Beweise der Aussagen über
V
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
konvergente
.
.
.
.
.
73
73
81
83
87
93
. . . . .
. . . . .
. . . . .
. . . . .
Folgen∗
99
99
103
106
114
119
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
VI
Inhaltsverzeichnis
5 Reihen
5.1 Endliche Summen und arithmetische und geometrische Summe
5.2 Unendliche Reihen . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Konvergenzkriterien für Reihen . . . . . . . . . . . . . . . . .
5.4 Weiterführendes Material: Beweise der Konvergenzkriterien für
.
.
.
.
123
. 123
. 131
. 135
. 141
.
.
.
.
.
145
. 145
. 150
. 157
. 164
. 167
7 Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
7.1 Potenzen, Wurzeln und Exponentialfunktionen . . . . . . . . . . . . . . .
7.2 Logarithmusfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Basiswechsel für Exponentialfunktionen und Logarithmen . . . . . . . . .
7.4 Hyperbolische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . .
173
. 173
. 180
. 183
. 186
8 Ableitungen und Differenzieren
8.1 Tangente und Ableitung . . . . . . . . . . . . . . . . . .
8.2 Ableitungen wichtiger Funktionen . . . . . . . . . . . . .
8.3 Differentiationsregeln . . . . . . . . . . . . . . . . . . . .
8.4 Mittelwertsatz der Differentialrechnung und Folgerungen
8.5 Extrema und Wendepunkte . . . . . . . . . . . . . . . .
8.6 Taylorsche Formel, Taylorreihen und Potenzreihen . . . .
.
.
.
.
.
.
193
. 193
. 201
. 203
. 210
. 219
. 227
.
.
.
.
.
.
.
235
. 235
. 241
. 246
. 249
. 252
. 265
. 280
6 Grenzwerte von Funktionen und Stetigkeit
6.1 Grenzwerte von Funktionen . . . . . . . . . . .
6.2 Uneigentliche und einseitige Grenzwerte . . . .
6.3 Asymptoten . . . . . . . . . . . . . . . . . . . .
6.4 Stetigkeit und Rechnen mit stetigen Funktionen
6.5 Resultate über stetige Funktionen . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
. . . . .
Reihen∗
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Integration
9.1 Das bestimmte Integral . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Eigenschaften des bestimmten Integrals . . . . . . . . . . . . . . . . .
9.3 Zusammenhang zwischen Differential- und Integralrechnung . . . . .
9.4 Partielle Integration . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.5 Integration durch Substitution . . . . . . . . . . . . . . . . . . . . . .
9.6 Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
9.7 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . . .
III
Gewöhnliche Differentialgleichungen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
289
10 Gewöhnliche Differentialgleichungen
291
10.1 Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele291
10.2 Differentialgleichungen erster Ordnung mit getrennten Variablen . . . . . . 300
Inhaltsverzeichnis
VII
10.3 Lineare Differentialgleichungen erster Ordnung . . . . . . . . . . . . . . . . 307
10.4 Lineare Differentialgleichungen zweiter Ordnung . . . . . . . . . . . . . . . 318
IV
Lineare Algebra
337
11 Vektoren im euklischen Vektorraum Rn und ihre
11.1 Einführung: Vektoren in der Ebene . . . . . . . .
11.2 Vektoren im euklidischen Vektorraum Rn . . . . .
11.3 Linearkombination und lineare Unabhängigkeit . .
11.4 Teilräume, Basis und Dimension . . . . . . . . . .
Eigenschaften
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
339
. 339
. 342
. 352
. 362
12 Matrizen
373
12.1 Matrizen: Einführende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . 373
12.2 Matrizen und Matrizenoperationen . . . . . . . . . . . . . . . . . . . . . . 378
13 Lineare Gleichungssysteme und Matrizen
391
13.1 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
13.2 Bild, Kern und Rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
13.3 Ergänzendes Material ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
14 Quadratische Matrizen und Determinanten
14.1 Inverse Matrix für quadratische Matrizen . .
14.2 Definition der Determinante . . . . . . . . .
14.3 Rechenregeln für Determinanten . . . . . . .
14.4 Anwendungen der Determinante . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
411
. 411
. 422
. 429
. 435
Teil I
Grundlagen
1
Kapitel 1
Grundlagen und Notation
1.1
Wichtige Mengen von Zahlen
In diesem Kurs werden wir die folgenden grundlegenden Mengen von Zahlen benötigen:
Name
Symbol
Definition
Natürliche Zahlen
N
N = {1, 2, 3, . . .}
Natürliche Zahlen mit 0
N0
N0 = {0, 1, 2, 3, . . .}
Ganze Zahlen
Z
Rationale Zahlen
Q
Reelle Zahlen
R
Z = {0, ±1, ±2, ±3, . . .}
o
nm Q=
m ganze Zahl, n natürliche Zahl
n
R = {rationale und irrationale Zahlen}
Tabelle 1.1: Mengen von Zahlen.
Die reellen Zahlen R sind also die größte Zahlenmenge in der obigen Tabelle 1.1 und
beinhalten alle anderen Zahlenmengen in der Tabelle 1.1. Die rationalen Zahlen sind die
aus der Schulmathematik gut bekannten Brüche und
√ bei den irrationalen Zahlen handelt
es sich um reelle aber nicht rationale Zahlen, z.B. 2 oder π.
Wir führen hier im Zusammenhang mit Tabelle 1.1 direkt unsere erste neue Notation ein:
Notation 1.1. (Mengenklammern, Elemente und Element-Symbol) Wir bemerken in Tabelle 1.1, dass die Mengen von Zahlen immer mit geschweiften Klammern {. . .},
sogenannten Mengenklammern, dargestellt werden. Analog könnten wir auch die Zahlenmenge M = {1, 2, 3} betrachten. Wir bezeichnen die Zahlen in einer Zahlenmenge
auch als Elemente der Zahlenmenge. Der senkrechte Strich |“ in der Beschreibung von
”
Q bedeutet, dass hinter diesem Strich Bedingungen (hier an m und n) angeben werden;
man kann |“ als für die gilt“ interpretieren. Um in Formeln zu beschreiben, dass 2 eine
”
”
3
4
1.1. Wichtige Mengen von Zahlen
rationale Zahlen (Brüche)
−3
−2
−1
0
1
2
3
4
Abb. 1.1: Geometrische Darstellung durch die Zahlengerade.
natürliche Zahl ist, schreiben wir 2 ∈ N“ (wir sagen 2 ist (Element) in N“). Das Symbol
”
”
∈“ ist das Element-Symbol. Um in Formeln zu schreiben, dass −1 keine natürliche
”
Zahl ist, schreiben wir −1 ∈
/ N“ (wir sagen 2 ist nicht (Element) in N“).
”
”
Wir können uns alle diese Zahlen an der Zahlengeraden (oder den Zahlenstrahl) veranschaulichen, wie es in Abbildung 1.1 illustriert ist.
Das Rechnen mit rationalen Zahlen ist aus der Schulmathematik bekannt, und wir
geben hier nur die wichtigsten Regeln der Bruchrechnung kurz an:
a c
a c
a·d+b·c
a+c
aber
,
+ =
+ 6=
b d
b·d
b d
b+d
a c
a·c
· =
,
b d
b·d
a d
a·d
a c
: = · =
.
b d
b c
b·c
Zwar gibt es zwischen je zwei Brüchen noch beliebig viele weitere Brüche (also rationale
Zahlen); dennoch wird die Zahlengerade durch die rationalen Zahlen nicht vollständig
ausgefüllt!
√
√ 2
Die Zahl 2, definiert durch die Beziehung
2 = 2, lässt sich nicht als Bruch darstellen
√
und ist daher kleine Zahl von Q; deshalb heißt 2 auch eine irrationale Zahl.
Wir halten noch fest, dass die Menge der rationalen Zahlen Q ist abzählbar ist, d.h.
die Zahlen in Q können durchnummeriert werden. Die Menge der reellen Zahlen R ist
überabzählbar, d.h. R hat unendlich viele Zahlen und ist nicht abzählbar. Insbesondere
liegen zwischen je zwei verschiedenen rationalen Zahlen unendlich viele irrationale Zahlen.
Zuletzt führen wir die folgende Schreibweise für Intervalle ein:
Definition 1.2. (endliche Intervalle) Seien a und b reelle Zahlen (also a, b ∈ R) mit
a < b. Dann sind
[a, b] = {x ∈ R | a ≤ x ≤ b}
(abgeschlossenes Intervall),
(a, b] = {x ∈ R | a < x ≤ b}
(halboffenes Intervall),
(a, b) = {x ∈ R | a < x < b}
[a, b) = {x ∈ R | a ≤ x < b}
(offenes Intervall),
(halboffenes Intervall).
1. Grundlagen und Notation
5
Wir nennen a den linken Randpunkt des jeweiligen Intervalls und b den rechten
Randpunkt des jeweiligen Intervalls.
Um die unendlichen Intervalle“ einzuführen brauchen wir das Unendlich-Symbol“ ∞.
”
”
Definition 1.3. (unendliche Intervalle) Sei a eine reelle Zahl (also a ∈ R). Dann sind
(−∞, a] = {x ∈ R | x ≤ a},
(−∞, a) = {x ∈ R | x < a},
[a, ∞) = {x ∈ R | x ≥ a},
(a, ∞) = {x ∈ R | x > a}.
In manchen Büchern werden bei der Intervallnotation statt der runden Klammern auch
umgekehrte eckige Klammern verwendet, d.h.
(a, b) =]a, b[
1.2
und
(a, b] =]a, b],
usw..
Rechnen mit der Gleitpunktdarstellung
Wir betrachten zur Motivation zunächst ein Anwendungsbeispiel aus der physikalischen
Chemie.
Anwendung 1.4. (Anzahl der Sauerstoffatome im Luftvolumen) Wie viele Sauerstoffatome sind in 10 m3 Luft bei Normalbedingungen (also 0 ◦ C und 10132, 5 Pa) enthalten?
Informationen zur Lösung: Um diese Frage zu beantworten brauchen wir folgende weiteren
physikalischen Daten:
• Luft enthält 20, 8 Volumenprozent Sauerstoff, d.h. 20, 8% eines Luftvolumens sind Sauerstoff.
• 1 mol Gasteilchen beanspruchen bei Normalbedingungen ein Volumen von 22, 4 l (Molvolumen; A. Avogadro (1776-1856)).
• 1 mol eines chemischen Stoffes enthält NA = 602 213 670 000 000 000 000 000 mol−1 Teilchen (Avogardo-Zahl).
Probleme bei dem Lösen der Aufgabe:
• Es werden unterschiedliche Einheiten für gleiche Größen verwendet, z.B. m3 und l;
1 m3 = 1000 l bzw. 1 l= 0, 001 m3(= (0, 1 m)3). Man sollte entweder 10000 l Luftmenge“
”
oder 10 m3 Luftmenge“ verwenden!
”
• Rechnen mit derart großen bzw. kleinen Zahlen wie der Avogardo-Zahl NA ist sehr
unhandlich und kann auch zu Problemen auf dem Taschenrechner (z.B. begrenzte Stel-
6
1.2. Rechnen mit der Gleitpunktdarstellung
lenzahl) und Computer führen! Wir verwenden deshalb die sogenannte Gleitpunktdarstellung
NA = 602 213 670 000 000 000 000 000 = 6022, 1367 · 1020 = 6, 0221367 · 1023 ,
(1.1)
die Sie von Ihrem Taschenrechner kennen. Dabei ist die letzte normalisierte“ Darstel”
lung vorzuziehen, bei der die Zehnerpotenz so gewählt wurde, dass die Zahl mit der sie
multipliziert wird (also hier 6, 203) in dem Intervall [1, 10) liegt.
Wir führen nun die sogenannte normalisierte Gleitpunktdarstellung“ des Dezimalsystems
”
ein, die wir bereits in der Anwendung 1.4 kennengelernt haben.
Definition 1.5. ((normalisierte) Gleitpunktdarstellung im Dezimalsystem) Die
normalisierte Gleitpunktdarstellung (oder exponentielle Standardform) einer
reellen Zahl x 6= 0 ist definiert als:
x = v · a · 10b
(1.2)
mit dem Vorzeichen v ∈ {−1, +1}, der Basis 10, dem ganzzahligen Exponenten b ∈ Z
und der Mantisse
a = a0 · 100 + a1 · 10−1 + a2 · 10−2 + · · · + ak · 10−k ,
(1.3)
wobei a0 , a1 , . . . , ak ∈ {0, 1, 2 . . . , 9} und a0 6= 0 gelten. Die Zahl k + 1 mit k aus (1.3)
nennt man die Mantissenlänge. Da a0 6= 0 ist, gilt
1 ≤ a < 10.
Die Darstellung (1.2) von x heißt dann k-stellige normalisierte Gleitpunktdarstellung zur Basis 10.
Haben wir eine Zahl nur in der Form
x = v · c · 10d
(1.4)
mit dem Vorzeichen v ∈ {−1, +1}, dem ganzzahligen Exponenten d ∈ Z und
c = c1 · 10m + c2 · 10m−1 + · · · + cm+k+1 · 10−k ,
(1.5)
wobei c1 6= 0, m ∈ Z \ {0}, −k ≤ m, und c1 , c2 , . . . , cm+k+1 ∈ {0, 1, 2, . . . , 9} vorliegen,
so sprechen wir auch von einer nicht-normalisierten Gleitpunktdarstellung (oder
exponentiellen Darstellung).
Betrachten wir zunächst zwei Beispiele.
Beispiel 1.6. (Avogardo-Zahl) In der Darstellung (1.1) der Avogardo-Zahl Zahl NA
ist 6022, 1367 · 1020 mol−1 eine nicht-normalisierte Gleitpunktdarstellung (oder exponentielle Darstellung) von NA , und +6, 0221367 · 1023 mol−1 ist die (7-stellige) normalisierte
Gleitpunktdarstellung von NA mit dem Exponent b = 23 der Mantisse a = 6, 0221367, der
1. Grundlagen und Notation
7
Mantissenlänge k + 1 = 8 und dem Vorzeichen v = +1. Wir sehen, dass der Absolutbetrag
des Exponenten b der Zehnerpotenz 10b der Anzahl von Stellen entspricht, um die man
das Komma in der normalisierten Gleitpunktdarstellung für b > 0 nach rechts und für
b < 0 nach links verschieben muss.
Beispiel 1.7. (normalisierte Gleitpunktdarstellung im Dezimalsystem) Die Zahl
x = −5678, 3421 hat im Dezimalsystem die normalisierte Gleitpunktdarstellung
x = −5, 6783421 · 103 ,
d.h. wir haben hier das Vorzeichen v = −1, den Exponenten b = 3 und die Mantisse
a = 5, 6783421 = 5 · 100 + 6 · 10−1 + 7 · 10−2 + 8 · 10−3 + 3 · 10−4 + 4 · 10−5 + 2 · 10−6 + 1 · 10−7
mit der Mantissenlänge k + 1 = 8.
Wir wenden das neue Wissen nun auf unser Anwendungsbeispiel aus Anwendung 1.4 an.
Anwendung 1.8. (Anzahl der Sauerstoffatome im Luftvolumen) Wenden wir die
normalisierte Gleitpunktdarstellung nun für unserer Anwendung 1.4 an. Wir finden
1 m3 = +1, 0 · 103 l,
1 l = +1, 0 · 10−3 m3 ,
NA = +6, 0221367 · 1023
1
,
mol
und die Normalbedingungen sind 0 ◦ C und 1, 01325 · 104 Pa.
Wie rechnen wir mit Zahlen in der Gleitpunktdarstellung? Beim Rechnen mit
Zahlen in (normalisierter oder nicht-normalisierter) Gleitpunktdarstellung sind die Rechenregeln für Potenzen mit ganzzahligem Exponenten zu verwenden, die wir in dem
nächsten Lemma (siehe Lemma 1.10) zusammenfassen.
Erinnern wir uns zunächst kurz, wie wir Potenzen für ganzzahlige Exponenten definieren.
Definition 1.9. (Potenzen) Sei a eine reelle Zahl ungleich Null (also a ∈ R und a 6= 0),
und sei n eine ganze Zahl ungleich Null (also n ∈ Z). Dann definieren wir Potenzen wie
folgt:
an = |a · a ·{z. . . · a}
n-mal
wenn n > 0,
a0 = 1,
an =
1
1 1
· · ...·
a}
|a a {z
(−n)-mal
wenn n < 0 d.h. wenn − n > 0.
(1.6)
8
1.2. Rechnen mit der Gleitpunktdarstellung
Alternativ zu (1.6) können wir für n < 0 mit n = −m, m > 0, auch schreiben
a−m =
1
1 1
· · ...·
a}
|a a {z
m-mal
wenn − m < 0 d.h. wenn m > 0.
Wir bezeichnen a als Basis der Potenz an und n als den Exponenten der Potenz an .
Mittels dieser Definition kann man direkt die Rechenregeln für die Potenzrechnung herleiten. So folgt z.B. für n, m ∈ N direkt
n+m
an · am = a
·
a
·
.
.
.
·
a
.
·
a
·
a
·
.
.
.
·
a
|
|
| · a ·{z. . . · a} = a
{z
}
{z
} = a
n-mal
m-mal
(n + m)-mal
Lemma 1.10. (Rechenregeln für ganzzahlige Exponenten) Seien a und b reelle
Zahlen ungleich Null (also a, b ∈ R und a 6= 0 und b 6= 0) und seien n und m ganze
Zahlen (also n, m ∈ Z). Dann gilt
an · am = an+m
n
n
a · b = (a · b)
bei gleicher Basis a,
n
bei gleichem Exponenten n,
n
a
= an−m
m
a
an a n
=
bn
b
bei gleicher Basis a,
bei gleichem Exponenten n.
Daraus folgt für Zahlen x = c1 · 10n und y = c2 · 10m mit c2 6= 0 in (normalisierter oder
nicht-normalisierter) Gleitpunktdarstellung:
x · y = c1 · 10n · c1 · 10m = c1 · c2 · 10n+m ,
c1 · 10n
c1
x
=
=
· 10n−m .
m
y
c2 · 10
c2
Beachten Sie: Auch wenn x und y in normalisierter Gleitpunktdarstellung sind, so ist das
Ergebnis nicht automatisch in normalisierter Gleitpunktdarstellung!
Beispiel 1.11. (Multiplikation von Gleitpunktzahlen) Seien x = 7, 2 · 104 und
y = 2, 1 · 10−2 . Dann gilt
x · y = 7, 2 · 104 · 2, 1 · 10−2 = 7, 2 · 2, 1 · 104−2 = 15, 12 · 102 = +1, 512 · 103 ,
wobei wir im letzten Schritt unser Ergebnis in die normalisierter Gleitpunktdarstellung
gebracht haben.
Mit den Rechenregeln aus Lemma 1.10 ergibt sich für die Anwendung 1.4 die nachfolgende
Lösung.
1. Grundlagen und Notation
9
Anwendung 1.12. (Anzahl der Sauerstoffatome im Luftvolumen) Das Volumen
10 m3 = 104 l Luft enthalten
20, 8
· 104 l = 20, 8 · 102 l = 2, 08 · 103 l
100
Sauerstoff. 2, 08 · 103 l Gas entsprechen
1 mol
2, 08 · 103 mol
2, 08
2, 08 · 10 l ·
=
=
· 102 mol ≈ 9, 3 · 101 mol
1
1
2, 24 · 10 l
2, 24 · 10
2, 24
3
Gasteilchen. 9, 3 · 101 mol Gas enthalten
9, 3 · 101 mol · 6, 0221367 · 1023
1
= 9, 3 · 6, 0221367 · 1024 = 56, 00587131 · 1024 ≈ 5, 6 · 1025
mol
Gasteilchen. 10 m3 = 104 l Luft enthalten daher ungefähr 5, 6 · 1025 Sauerstoffmoleküle
(O2 ), also
2 · 5, 6 · 1025 = 11, 2 · 1025 = 1, 12 · 1026 Sauerstoffatome.
Potenzieren wir Zahlen in der normalisierten Gleitpunktdarstellung oder ziehen wir deren Wurzel, so brauchen wir das nachfolgende Lemma (siehe Lemma 1.15) über das Potenzieren bzw. Wurzel Ziehen von Potenzen. Dabei sei zunächst an die Definition der
(Quadrat-)Wurzel und allgemeiner der n-ten Wurzel erinnert.
Definition 1.13. (Quadratwurzel und n-te Wurzel) Sei a ≥ 0 eine nicht-negative
reelle Zahl und n ∈ N.
√
(i) Die (Quadrat-)Wurzel a = a1/2 von a ist definiert als die nicht-negative reelle
Zahl b, für die gilt
b2 = a.
√
(ii) Analog ist die n-te Wurzel n a = a1/n von a definiert als die nicht-negative reelle
Zahl b, für die gilt
bn = a.
Für n = 2 erhalten wir als Sonderfall von (b) die Quadratwurzel.
Beispiel 1.14. (Wurzeln)
√
√
(a) Es gilt 16 = 4, da 42 = 16. Beachten Sie, dass aber nicht zusätzlich gilt 16 = −4,
obwohl (−4)2 = 16, denn wir haben verlangt, dass die Wurzeln nicht-negative Zahlen
sind.
√
(b) Die 3-te Wurzel von 8 ist 3 8 = 2, da 23 = 8.
√
(c) 3 −8 können wir nach der obigen Definition nicht berechnen. Wir wissen aber, dass
gilt (−2)3 = −8. Hieran sieht man, dass wir noch eine Erweiterung des Zahlenbegriffs
benötigen. Diese erhalten wir mit den komplexen Zahlen.
Nur formulieren wir die Rechenregeln, die man durch direktes Nachrechnen bzw. Anwenden der Definition der Wurzel nachweisen kann.
10
1.2. Rechnen mit der Gleitpunktdarstellung
Lemma 1.15. (Rechenregeln für das Potenzieren und Wurzel Ziehen) Sei a ∈ R
ungleich Null, und seien n, m ∈ Z. Dann gilt
(am )n = am·n = (an )m .
Seien a und b nicht-negative reelle Zahlen und n ∈ N und m ∈ Z. Dann gilt
√
√ √
a·b= a· b
(Quadrat-Wurzel, also n = 2),
√
√
√
n
n
a·b= na· b
(n-te Wurzel),
und
√
am = am
√
n
am = am
1/2
1/n
√ m
a
m
√ m
= a1/n = n a
= am/2 = a1/2
= am/n
m
=
(Quadrat-Wurzel, also n = 2),
(n-te Wurzel).
Wir wenden diese Rechenregeln für ein paar Beispiele in normalisierter Gleitpunktdarstellung an.
Beispiel 1.16. (Potenzen der normalisierten Gleitpunktdarstellung)
(4, 2 · 103 )2 = 4, 22 · 102·3 = 17, 64 · 106 = 1, 764 · 107 = +1, 764 · 107 .
Wir sehen, dass das Ergebnis nicht automatisch die normalisierte Gleitpunktdarstellung
hat!
Beispiel 1.17. (Wurzel ziehen in der normalisierten Gleitpunktdarstellung)
√
(a) Für 4 · 106 finden wir die normalisierte Gleitpunktdarstellung
√
1
4 · 106 = (4 · 106 )1/2 = 41/2 · (106 )1/2 = 2 · 106· 2 = 2 · 103 = +2 · 103 .
(b) Für
p
4, 2 · 105 finden wir analog
p
p
p
1
4, 2 · 105 = 4, 2 · 105· 2 = 4, 2 · 105/2 .
Hier erhalten wir mit der direkten“ Rechnung keine Darstellung in Gleitpunktdarstel”
lung. Um zur Gleitpunktdarstellung des Ergebnisses zu gelangen, muss der ganzzahlige
Anteil des Exponenten abgespalten werden:
p
√
p
p
p
4, 2 · 105 = 4, 2 · 105/2 = 4, 2 · 102+1/2 = 4, 2 · 10 · 102
p
√
= 4, 2 · 10 · 102 = 42 · 102 ≈ 6, 5 · 102 = +6, 5 · 102 .
Es ist klar, wie zwei Zahlen in Gleitpunktdarstellung addiert (bzw. subtrahiert) werden,
falls die Zehnerpotenzen den gleichen Exponenten n besitzen: Nach dem Distributivgesetz
dürfen wir den gemeinsamen Faktor 10n ausklammern und erhalten
c1 · 10n + c2 · 10n = (c1 + c2 ) · 10n .
1. Grundlagen und Notation
11
Beispiel 1.18. (Addieren von Zahlen in der Gleitpunktdarstellung mit gleichem
Exponenten)
7, 4 · 10−3 + 4, 2 · 10−3 = (7, 4 + 4, 2) · 10−3 = 11, 6 · 10−3 = 1, 16 · 10−2 .
Wir sehen, dass sich bei der Addition zweier Zahlen in normalisierter Gleitpunktdarstellung mit gleichem Exponenten nicht automatisch eine Zahl in normalisierter Gleitpunktdarstellung ergibt.
Haben zwei Zahlen in Gleitpunktdarstellung verschiedene Exponenten, so müssen die
Zahlen erst umgeformt werden:
c1 · 10n + c2 · 10m = c1 · 10n + (c2 · 10m−n ) · 10n = (c1 + c2 · 10m−n ) · 10n .
Statt 10n auszuklammern hätten wir genauso gut auch 10m ausklammern können. Das
Ergenbis als Zahl ist natürlich dasselbe; nur die berechneten Gleitpunktdarstellungen unterscheiden sich. Auch hier hat das Ergebnis nicht automatisch eine normalisierte Gleitpunktdarstellung!
Betrachten wir zwei Beispiele.
Beispiel 1.19. (Addieren/Subtrahieren von Zahlen in normalisierter Gleitpunktdarstellung)
(a) Klammern wir die Potenz 103 aus, so finden wir
6, 04 · 104 + 3, 6 · 103 = 60, 4 · 103 + 3, 6 · 103 = (60, 4 + 3, 6) · 103 = 64 · 103 = 6, 4 · 104 ,
und klammern wir die Potenz 104 aus, so finden wir
6, 04 · 104 + 3, 6 · 103 = 6, 04 · 104 + 0, 36 · 104 = (6, 04 + 0, 36) · 104 = 6, 4 · 104 .
Das Ergebnis ist also (wie erwartet) dasselbe, aber im zweiten Fall erhalten wir das
Ergebnis direkt in normalisierter Gleitpunktdarstellung.
(b) Klammern wir 10−4 aus, so finden wir
9, 82 · 10−4 − 7, 1 · 10−5 = 9, 82 · 10−4 − 0, 71 · 10−4 = (9, 82 − 0, 71) · 10−4 = 9, 11 · 10−4.
1.3
Binominalkoeffizienten und binomischer Lehrsatz
Wir erinnern uns an die binomischen Formeln
Satz 1.20. (binomische Formeln) Seien a, b ∈ R. Dann gelten die binomischen
Formeln
(a + b)2 = a2 + 2 a b + b2
(erste binomische Formel),
(a − b)2 = a2 − 2 a b + b2
(zweite binomische Formel),
(a + b) (a − b) = a2 − b2
(dritte binomische Formel).
12
1.3. Binominalkoeffizienten und binomischer Lehrsatz
(a + b)0 =
1
ւց
(a + b)1 =
(a + b)2 =
(a + b)3 =
(a + b)4 =
1 a+ 1 b
ւ ցւ ց
1 a2 + 2 a b + 1 b2
ւ ց ւ ց ւ ց
(1.8)
1 a3 + 3 a2 b + 3 a b2 + 1 b3
ւ ց ւ ց ւ ց ւ ց
1 a4 + 4 a3 b + 6 a2 b2 + 4 a b3 + 1 b4
Abb. 1.2: Das Pascalsche Dreieck: Die Koeffizienten in der Formel für (a + b)n erhält man
indem man die Koeffizienten in der Formel für (a + b)n−1 addiert, von denen Pfeile auf
den Koeffizienten in der Formel für (a + b)n weisen.
Wir interessieren uns nun dafür, was passiert, wenn wir (a + b)n berechnen und möchten
eine Formel analog zur ersten binomischen Formel herleiten. Wir berechnen dazu zunächst
(a + b)3 und erhalten mit Hilfe der ersten binomischen Formel
(a + b)3 = (a + b) (a + b)2 = (a + b) (a2 + 2 a b + b2 )
= a (a2 + 2 a b + b2 ) + b (a2 + 2 a b + b2 )
= a3 + 2 a2 b + a b2 + a2 b + 2 a b2 + b3
= a3 + 3 a2 b + 3 a b2 + b3 .
Multiplizieren wir (a + b)4 aus so finden wir
(a + b)4 = a4 + 4 a3 b + 6 a2 b2 + 4 a b3 + b4 .
(1.7)
Wir bemerken, dass sich die Koeffizienten mit dem sogenannten Pascalschen Dreieck
(siehe Abbildung 1.2) berechnen lassen.
Die Berechnung der Koeffizienten mit dem Pascalschen Dreieck ist aber rekursiv“, d.h. um
”
die Koeffizienten in der Formel für (a+b)10 zu berechnen, muss erst man nacheinander die
Koeffizienten von (a + b)n mit n = 1, 2, . . . , 9 berechnen. Dies ist nicht effizient, und wir
suchen eine Formel, mit der die Koeffizienten in der ausmultiplizierten Form von (a + b)n
direkt berechnet werden können. Multiplizieren wir (a + b)n aus, so erhalten wir eine
Summe von Termen der Form
Koeffizient · an−k bk
mit k = 0, 1, 2, . . . , n.
Wie ist nun der Koeffizient von an−k bk als Formel von n und k zu berechnen? Die Antwort
gibt der binomische Lehrsatz.
1. Grundlagen und Notation
13
Satz 1.21. (binomischer Lehrsatz) Für a, b ∈ R und n ∈ N gilt der binomische
Lehrsatz:
n X
n n−k k
n
a
b
(a + b) =
k
k=0
n n
n
n n−2 2
n n−1
n n
n−1
b
ab
+
a
b +···+
a
b+
a +
=
n
n−1
2
1
0
n
n n−2 2
n n−1
n
a bn−1 + bn .
(1.9)
a
b +···+
a
b+
=a +
n−1
2
1
n
, k = 0, 1, . . . , n, definiert durch
Dabei sind die Binominalkoeffizienten
k
n!
n
=
(1.10)
k
k! (n − k)!
mit den Fakultäten n! und k!, die durch
0! = 1,
1! = 1,
2! = 1·2,
...,
m! = 1·2·. . .·(m−1)·m,
m ∈ N, (1.11)
definiert sind.
Man kann den binomischen Lehrsatz mit Hilfe von vollständiger Induktion beweisen. Diese
Beweistechnik werden wir in Kapitel 2 kennenlernen. Betrachten wir zunächst den Satz
und versuchen die Einzelteile zu verstehen:
Die Fakultäten m! erfüllen nach ihrer Definition (1.11) die Formel
m! = (m − 1)! · m.
Damit berechnen wir leicht
1! = 1,
2! = 1! · 2 = 2,
3! = 2! · 3 = 2 · 3 = 6,
4! = 3! · 4 = 6 · 4 = 24.
Die Binominalkoeffizienten (1.10) sind als Brüche definiert, aber in der Tat kann man
nachweisen, dass die Binominalkoeffizienten immer positive ganze Zahlen sind. Wir werden
weiter unten als Beispiel den binomischen Lehrsatz für (a + b)4 berechnen und dabei auch
die zugehörigen Binominalkoeffizienten berechnen.
Betrachten wir nun den binomischen Lehrsatz (1.9) selber. Hier wird die Summen-Notation
verwendet: Für gegebene reelle Zahlen a0 , a1 , a2 , . . . , an gilt
n
X
ak = a0 + a1 + a2 + . . . + an .
k=0
Dabei spielt der Name des Summationsindexes k keine Rolle, d.h.
n
X
k=0
ak =
n
X
j=0
aj = a0 + a1 + a2 + . . . + an .
14
1.3. Binominalkoeffizienten und binomischer Lehrsatz
Dies erklärt die erste und zweite Zeile in (1.9). Falls Sie mit der Summennotation Schwierigkeiten haben, so nehmen Sie die (a + b)n ist gleich der zweiten Zeile in (1.9)“ als die
”
Aussage des binomischen Lehrsatzes.
Die dritte Zeile in (1.9) unterscheidet sich von der
n
zweiten Zeile nur dadurch, dass 0 und nn durch 1 ersetzt wurden. Dass dies korrekt ist,
sieht man durch Berechnung der beiden Binomialkoeffizienten:
n!
n
n!
1
1
=
=
=
= = 1,
0
0! (n − 0)!
0! n!
0!
1
n!
1
1
n!
n
=
=
= = 1.
=
n! (n − n)!
n! 0!
0!
1
n
Beispiel 1.22. (binomischer Lehrsatz für n = 4) Wir wollen den binomischen Lehr
satz (1.9) für n = 4 berechnen. Zunächst berechnen wir die Bimomialkoeffizienten k4 für
k = 0, 1, 2, 3, 4.
4!
4
4!
=
=
= 1,
0
0! (4 − 0)!
1 · 4!
4!
3! · 4
4!
4
=
=
= 4,
=
1! (4 − 1)!
3!
3!
1
4!
4
4!
4!
3! · 4
=
=
=
=
= 3! = 6,
2
2! (4 − 2)!
2! 2!
4
4
4!
4!
4!
4
4!
4
= 4,
=
=
=
=
=
3! (4 − 3)!
3! 1!
1! · 3!
1! (4 − 1)!
1
3
4!
4
4!
4!
4!
4
=
= 1,
=
=
=
=
4
0
4! (4 − 4)!
4! 0!
0! 4!
0! (4 − 0)!
und wir erhalten in der Tat dieselben Zahlen wie im Pascalschen Dreieck (siehe Abbildung 1.2). Einsetzen in den binomischen Lehrsatz (1.9) ergibt
4 X
4 0 4
4 1 3
4 2 2
4 3 1
4 4 0
4 4−k k
4
a b
a b +
a b +
a b +
a b +
a
b =
(a + b) =
4
3
2
1
0
k
k=0
= a4 + 4 a3 b + 6 a2 b2 + 4 x3 + x4 .
und wir erhalten in der Tat die Formel (1.7).
Im dem nachfolgenden Lemma halten wir noch einige nützliche Eigenschaften der Binomialkoeffizienten fest, die man durch Nachrechnen direkt nachweisen kann.
Lemma 1.23. (Eigenschaften der Binomialkoeffizienten) Die Binomialkoeffizienten haben die folgenden Eigenschaften:
n
n
,
=
n−k
k
(n − k + 1) · (n − k + 2) · . . . · (n − 1) · n
n
=
.
k
1 · 2 · . . . · (k − 1) · k
1. Grundlagen und Notation
Weiter gilt die Formel
15
n+1
n
n
.
=
+
k+1
k+1
k
(1.12)
Wir bemerken, dass (1.12) gerade die Formel zur Berechnung der Koeffizienten
im Pascalschen Dreieck beschreibt. Zur Übung beweisen wir (1.12) durch Nachrechnen:
n!
n!
n
n
=
+
+
k! (n − k)! (k + 1)! (n − (k + 1))!
k+1
k
=
=
(k + 1) n!
(n − k) n!
+
(k + 1) k! (n − k)! (k + 1)! (n − k) (n − (k + 1))!
(k + 1) n!
(n − k) n!
+
(k + 1)! (n − k)! (k + 1)! (n − k)!
(k + 1) n! + (n − k) n!
(k + 1)! (n − k)!
(k + 1) + (n − k) n!
=
(k + 1)! (n − k)!
=
=
=
(n + 1) n!
(k + 1)! (n − k)!
(n + 1)!
(k + 1)! (n − k)!
(n + 1)!
(k + 1)! (n + 1) − (k + 1))!
n+1
.
=
k+1
=
1.4
Komplexe Zahlen
Der Startpunkt für die Einführung der komplexen Zahlen ist die quadratische Gleichung
x2 + 1 = 0
⇐⇒
x2 = −1,
(1.13)
welche keine reellen Lösungen hat. Dies ist unschön, und eigentlich sollte diese Gleichung zwei Lösungen haben! Da es keine reelle Zahl x mit x2 = −1 gibt, definiert man
eine neue Zahl i, die sogenannte imaginäre Einheit durch die Festlegung
(Anschaulich ist i ein Ersatz für
Lösungen +i und −i, denn
i2 = −1
und
√
i2 = −1.
−1.) Mit der imaginären Einheit i hat (1.13) nun zwei
2
(−i)2 = (−1) · i = (−1)2 |{z}
i2 = −1.
| {z }
= 1 = −1
16
1.4. Komplexe Zahlen
Wir können die imaginäre Einheit mit reellen Zahlen multiplizieren und Vielfache der
imaginären Einheit addieren und subtrahieren. Beispielsweise gilt
5i+3i = 8i
2 i − 10 i = −8 i.
und
Wir können auch Vielfache der imaginären Einheit potenzieren und diese Potenzen dann
unter Ausnutzung von (±i)2 = −1 vereinfachen. Beispielsweise gilt
(2 i)2 = 22 i2 = 4 (−1) = −4,
(−3 i)3 = (−3)3 i3 = −27 i2 i = −27 · (−1) · i = 27 i.
Ebenso können wir Vielfache der imaginären Einheit multipizieren, z.B.
(7 i) · (8 i) = 56 i2 = −56
und
(3 i) · (2 i) · i = 6 i3 = 6 · i · i2 = −6 i.
Wir sehen an den Beispielen, dass wir mit der imaginären Einheit ganz normal“ rechnen
”
können unter der Ausnutzung von i2 = −1.
Definition 1.24. (komplexe Zahlen) Eine komplexe Zahl z ist eine Zahl der Form
z = x + i · y = x + i y,
(1.14)
wobei x, y ∈ R reelle Zahlen sind und i die imaginäre Einheit mit i2 = −1 ist. In (1.14)
heißt x der Realteil von z (in Formeln Re(z) = x), und y heißt der Imaginärteil von
z (in Formeln Im(z) = y).
Für die Menge aller komplexen Zahlen schreiben wir C, d.h.
C = x + i y x, y ∈ R
Die Darstellung (1.14) wird auch als die kartesische Form einer komplexen Zahl bezeichnet.
Beispiel 1.25. (komplexe Zahlen) Die komplexe Zahl z = −7 + 3 i hat den Realteil
Re(z) = −7 und den Imaginärteil Im(z) = 3.
Zwei komplexe Zahlen stimmen genau dann überein, wenn jeweils ihre Realteile und ihre
Imaginärteile übereinstimmen.
Definition 1.26. (Gleichheit von komplexen Zahlen) Zwei komplexe Zahlen
z1 = x1 + i y1 und z2 = x2 + i y2 sind genau dann gleich, d.h. z1 = z2 , wenn gilt
Re(z1 ) = Re(z2 )
und Im(z1 ) = Im(z2 )
oder gleichwertig
x1 = x2
und
y1 = y2 .
Wie rechnet man mit komplexen Zahlen? Dies geht mit den uns vertrauten Regeln unter
Beachtung von i2 = −1, wobei wir reelle und imaginäre Anteile nicht mischen“ dürfen.
”
1. Grundlagen und Notation
17
Betrachten wir zunächst ein Beispiel für die Addition komplexer Zahlen: Für die komplexen Zahlen z1 = 1 + 2 i und z2 = −2 − 1 i = −2 − i sortieren wir beim Addieren
die Realteile und Imaginärteile der beiden Zahlen zusammen und addieren diese jeweils
separat, genauer
z1 + z2 = (1 + 2 i) + (−2 − i) = (1 + 2 i) + (−2 + (−1) i)
= 1 + (−2) + (2 + (−1) i = −1 + 1 i = −1 + i.
Wir halten diese Vorgehensweise in der folgenden Definition fest.
Definition 1.27. (Addition und Subtraktion komplexer Zahlen) Für zwei komplexe Zahlen z1 = x1 + i y1 und z2 = x2 + i y2 definieren wir die Addition und die Subtraktion
wie folgt:
(i) Addition:
z1 + z2 = x1 + i y1 + x2 + i y2 = x1 + x2 + i y1 + y2 .
(ii) Subtraktion:
z1 − z2 = x1 + i y1 − x2 + i y2 = x1 − x2 + i y1 − y2 .
Beispiel 1.28. (Addition und Subtraktion komplexer Zahlen)
(a) (1 + 2 i) + (4 + 3 i) = (1 + 4) + (2 + 3) i = 5 + 5 i
(b) (2 + 11 i) − (−1 + 7 i) = (2 − (−1)) + (11 − 7) i = 3 + 4 i
√
√ √
(c) (3 + 5 i) − (2 − 3 i) = (3 − 2) + 5 − (− 3) i = 1 + (5 + 3) i
Auch die Multiplikation der komplexen Zahlen z1 = 1 + 2 i und z2 = −2 − i funktioniert
genauso, wie wir es erwarten:
z1 · z2 = (1 + 2 i) · (−2 − i) = 1 · (−2 − i) + 2 i · (−2 − i)
= −2 − i + (−4) i + 2
i (−i) = −2 − i − 4 i + 2 = −5 i.
| {z }
= −i2 = 1
Wir formulieren dies nun für allgemeine komplexe Zahlen.
Definition 1.29. (Multiplikation komplexer Zahlen) Seien z1 = x1 + i y1 und
z2 = x2 + i y2 zwei komplexe Zahlen. Dann ist das Produkt von z1 und z2 gegeben durch
z1 · z2 = z1 z2 = (x1 + i y1 ) (x2 + i y2 )
= x1 x2 + i x1 y2 + i y1 x2 + i2 y1 y2
= x1 x2 − y1 y2 + i x1 y2 + y1 x2 .
Betrachten wir noch zwei Beispiele.
Beispiel 1.30. (Multiplikation komplexer Zahlen)
(a) (1 + 2 i) (4 + 3 i) = 4 + 3 i + 8 i + 6 i2 = 4 + 11 i + 6 (−1) = −2 + 11 i
18
(b) (2 +
1.4. Komplexe Zahlen
√
2 i)(2 −
√
√
√
2 i) = 4 − 2 2 i + 2 2 i − 2 i2 = 4 − 2 (−1) = 6
Nach der Einführung der komplexen Zahlen erhalten wir nun auch für jede quadratische
Gleichung
0 = x2 + p x + q
(1.15)
zwei Lösungen: Mittels der quadratischen Ergänzung erhält man
2
p 2
p 2
p
p x p 2
2
2
−
+
−q .
+q = x+
−
0 = x +px+q = x +2
2
2
2
2
4
| {z }
=D
Mit der dritten binomischen Formel erhält man nun für den Fall, dass
D=
p2
−q ≥0
4
gilt, die Gleichung
0 = x2 + p x + q =
p
x+ +
2
r
p2
−q
4
!
p
x+ −
2
r
!
p2
−q ,
4
deren Lösungen die aus dem Schulunterricht bekannte p-q-Formel sind:
r
r
p
p2
p2
p
x1 = − −
−q
und
x2 = − +
− q.
2
4
2
4
(1.16)
Mit den komplexen Zahlen können wir nun auch den Fall
p2
D=
−q <0
4
behandeln, indem wir schreiben
p2
p2
p2
2
=i q−
−q =− q−
D=
4
4
4
| {z }
>0
und damit nach der dritten binomischen Formel
!
!
r
r
2
2
p
p
p
p
x+ −i q−
,
0 = x2 + p x + q = x + + i q −
2
4
2
4
erhalten. Für D < 0 erhalten wir also die beiden komplexen Lösungen
r
r
p2
p
p
p2
x1 = − − i q −
und
x2 = − + i q − .
2
4
2
4
Bemerkung 1.31. (Erweiterung des Zahlenkörpers) Wir bemerken, dass die Einführung der komplexen Zahlen zur Erweiterung des Zahlenkörpers der reellen Zahlen eigentlich nicht so geheimnisvoll ist, denn wir haben solch eine Vorgehensweise bereits früher
in der Schule kennengelernt:
1. Grundlagen und Notation
19
• Da x + 1 = 0 in den natürlichen Zahlen N keine Lösung hatte, wurden die negativen
Zahlen (und damit die ganzen Zahlen Z) eingeführt.
• Da die Gleichung 2 x = 1 keine Lösung in den ganzen Zahlen Z hat, wurden die Brüche
(also die rationalen Zahlen Q) eingeführt.
• Da x2 = 2 keine Lösung in den rationalen Zahlen Q hat; wurden die irrationalen und
damit die reellen Zahlen R eingeführt.
Wir sehen also, dass die Einführung der komplexen Zahlen nichts Obskures“ sondern
”
nur eine Weiterentwicklung unserer üblichen Vorgehensweise ist.
Im(z)
2
z1
1
Re(z)
−2
−1
z2
1
2
−1
Abb. 1.3: Darstellung der komplexen Zahlen z1 = 1+2 i und z2 = −2−i in der komplexen
Zahlenebene.
Da komplexe Zahlen aus zwei unabhängigen Anteilen (nämlich dem Realteil und dem
Imaginärteil) bestehen, kann man sie mit Punkten der Ebene identifizieren:
z = x + iy ∈ C
wird gezeichnet als der Punkt
(x, y) ∈ R2 .
(1.17)
Mit R2 bezeichnen wir hier die (x, y)-Ebene, wobei wir auf der x-Achse den Realteil und
auf der y-Achse den Imaginärteil abtragen. In Abbildung 1.3 sind die beiden komplexen
Zahlen z1 = 1 + 2 i und z2 = −2 − i gemäß (1.17) als die Punkte (1, 2) bzw. (−2, −1)
gezeichnet. In dieser geometrischen Darstellung der komplexen Zahlen in der Ebene erweitert man den reellen Zahlenstrahl zur komplexen Zahlenebene (oder Gausßchen
Zahlenebene).
Eine wichtige Operation ist die Spiegelung an der reellen Achse, d.h. der Übergang
von z = x + i y zu z̄ = x − i y, der sogenannten zu z konjugiert komplexen Zahl.
20
1.4. Komplexe Zahlen
Definition 1.32. (konjugiert komplexe Zahl) Sei z = x + i y eine komplexe Zahl. Die
komplexe Zahl
z̄ = x − i y
heißt die zu z konjugiert komplexe Zahl. In der komplexen Zahlenebene erhält man die
zu z konjugiert komplexe Zahl z̄, indem man z an der reellen Achse spiegelt:
z entspricht dem Punkt (x, y) und z̄ enspricht dem Punkt (x, −y) in der komplexen Zahlenebene.
Beispiel 1.33. (konjugiert komplexe Zahl)
(a) Die zu z = −17 − 3 i konjugiert komplexe Zahl ist z̄ = −17 + 3 i.
(b) Die zu z = 1 + 2 i konjugiert komplexe Zahl ist z̄ = 1 − 2 i.
(c) Die zu z̄ = 1 − 2 i konjugiert komplexe Zahl ist z̄¯ = 1 + 2 i = z.
Was wir im letzten Beispiel beobachtet haben, gilt allgemein: Für z = x + i y ist die zu z̄
konjugiert komplexe Zahl
z̄¯ = z − i y = z + i y = z.
Die Bedeutung der zu z konjugiert komplexen Zahl z̄ ergibt sich aus der Gleichung
z z̄ = (x + i y) (x − i y) = x2 + i y x − i x y − |{z}
i2 y 2 = x2 + y 2,
= −1
p
√
und x2 + y 2 ist reell. Nach Pythagoras ist z z̄ = x2 + y 2 der Abstand des Punkts
(x, y) in der komplexen Zahlenebene vom Ursprung (0, 0), also der Abstand der komplexen Zahl z vom Ursprung (0, 0). Analog zum Reellen heißt dieser Wert der Betrag
von z, geschrieben als |z|.
Definition 1.34. (Betrag einer komplexen Zahl) Sei z = x + i y eine komplexe Zahl.
Dann ist der Betrag von z die reelle Zahl
p
√
|z| = z z̄ = x2 + y 2 .
Betrachten wir zwei Beispiele.
Beispiel 1.35. (Betrag einer komplexen Zahl)
p
√
√
(a) Der Betrag von z = −17 − 3 i ist |z| = (−17)2 + 32 = 172 + 32 = 298.
√
√
(b) Der Betrag von z = 1 + 2 i ist |z| = 12 + 22 = 5.
(c) Der Betrag der zu z = 1 + 2 i konjugiert komplexen Zahl z̄ = 1 − 2 i ist
|z̄| =
p
12 + (−2)2 =
√
12 + 22 =
√
5.
1. Grundlagen und Notation
21
Was wir im letzten Beispiel gesehen haben gilt allgemein für jede komplexe Zahl z = x+i y
und ihre konjugiert komplexe Zahl z̄ = x − i y:
p
p
|z| = x2 + y 2 = x2 + (−y)2 = |z̄|.
Mit Hilfe der zu z konjugiert kompexen Zahl z̄ und des Betrags |z| = |z̄| vom z und
z̄ können wir nun auch die Division durch komplexe Zahlen erklären. Betrachten wir
zunächst den einfachsten Fall, nämlich 1 : z = 1/z. Dann erhalten wir durch Erweitern
mit z̄
z̄
z̄
x− iy
x
y
1
=
= 2 = 2
= 2
−i 2
,
(1.18)
2
2
z
z z̄
|z|
x +y
x +y
x + y2
wobei wir den letzten Bruch direkt ausrechnen können, da der Nenner x2 + y 2 reell ist.
Betrachen wir kurz ein Beiepiel: Für z = 1 + 2 i erhalten wir
1−2i
1−2i
1−2i
1 2
1
=
= 2
=
= − i.
2
1+2i
(1 + 2 i) (1 − 2 i)
1 +2
5
5 5
Analog können wir auch z1 /z2 als z1 · (1/z2 ) berechnen, was in der folgenden Definition
festgehalten ist:
Definition 1.36. (Division komplexer Zahlen) Die Division von z1 = x1 + i y1 durch
z2 = x2 + i y2 6= 0 ist definiert durch
z1
z1 z̄2
z1 z̄2
(x1 + i y1 ) (x2 − i y2 )
.
=
=
=
z2
z2 z̄2
|z2 |2
x22 + y22
(1.19)
Wir bemerken, dass der Ausdruck auf der rechten Seite von (1.19) von der Form
1
Produkt zweier komplexer Zahlen
=
· (Produkt zweier komplexer Zahlen)
reelle Zahl
reelle Zahl
ist, und einen solchen Ausdruck können wir mit dem bereits definierten Produkt zweier
komplexer Zahlen berechnen.
Beispiel 1.37. (Division komplexer Zahlen) Wir wollen die folgenden Quotienten
komplexer Zahlen mit Hilfe von Definition 1.36 berechnen:
(a)
2+i
3−i
(b)
1
i3
(c)
1
3+4i
(a) Wir erweitern den Bruch mit 3 − i = 3 + i und vereinfachen
(2 + i)(3 + i)
6 + 2 i + 3 i + i2
6+2i+3i− 1
5+5i
1 1
2+i
=
=
=
=
= + i.
2
3−i
(3 − i)(3 + i)
9+3i−3i− i
9 − (−1)
10
2 2
(b) Wir bemerken, dass gilt i3 = i2 i = (−1) i = −i. Nun erweitern wir den Bruch mit
i3 = −i = i. Dies ergibt
1
i
i
1
=
=
=
= i.
i3
−i
(−i) i
1
22
1.4. Komplexe Zahlen
(c) Wir erweitern den Bruch mit 3 + 4 i = 3 − 4 i und erhalten (unter Ausnutzung von
(3 + 4 i)(3 − 4 i) = 32 + 42 = 9 + 16 = 25)
3− 4i
3− 4i
3− 4i
3
4
1
=
=
=
=
−
i.
3+4i
(3 + 4 i)(3 − 4 i)
9 + 16
25
25 25
Vergessen Sie nicht Ihr Ergebnis immer so weit wie möglich zu vereinfachen!
Abschließend halten wir noch die Eigenschaften des Betrags komplexer Zahlen sowie einige
weitere Eigenschaften komplexer Zahlen fest.
Lemma 1.38. (Eigenschaften des Betrags komplexer Zahlen) Für den Betrag |z|
komplexer Zahlen z = x + i y gilt:
(i) Für jede komplexe Zahl z ist |z| ≥ 0.
(ii) Für eine komplexe Zahl z gilt |z| = 0 genau dann, wenn z = 0 ist.
(iii) Für zwei komplexe Zahlen z und w gilt: |z · w| = |z| · |w|.
(iv) Für zwei komplexe Zahlen z und w gilt: |z + w| ≤ |z| + |w| (Dreiecksungleichung).
Der Name Dreiecksungleichung für Eigenschaft (iv) in Lemma 1.38 ist in Abbildung 1.4
erklärt und motiviert.
Im(z)
w
|z + w|
z+w
|w|
z
|z|
Re(z)
Abb. 1.4: Die Dreiecksungleichung erklärt sich, wenn man z, w und z +w in der komplexen
Zahlenebene zeichnet. Dabei erhält man z + w im Sinne der Vektoraddition (vgl. Teil IV:
”
Lineare Algebra“) als die eingezeichnete Diagonale der Trapezes, dessen Seiten den Vektoren der Punkte z und w in der komplexen Zahlenebene entsprechen. Es ist nun aus
der Zeichnung klar, dass die Länge der Diagonale, also der Betrag |z + w|, nicht länger
ist als die Summe der Längen der beiden Seiten des Trapezes, also |z| + |w|. Also gilt
|z + w| ≤ |z| + |w|.
Bemerkung 1.39. Die komplexen Zahlen sind nicht angeordnet, d.h. es gibt (im Gegensatz zu den reellen Zahlen) keine Relation <“ auf C!
”
1. Grundlagen und Notation
23
Lemma 1.40. (Nullstellen vom Polynomen) Betrachtet man Polynome über C, also
P (z) = an z n + an−1 z n−1 + . . . + a1 z + a0 ,
z ∈ C,
mit Koeffizienten a0 , a1 , . . . , an−1 , an ∈ C, so besitzt jedes Polynom vom Grad n genau
n komplexe Nullstellen, wobei mehrfache Nullstellen (d.h. Faktorisierung mit Faktor
(z − z0 )k ) mit ihrer Vielfachheit (also k-mal) zu zählen sind. Bei Polynomen mit reellen
Koeffizienten treten komplexe Nullstellen immer in konjugiert komplexen Paaren (also z0
und z̄0 ) auf.
Beispiel 1.41. (Nullstellen von Polynomen in C) Das Polynom vom Grad 3,
1
1
1
3
2
2
z + 1 = (z + 1) (z − z + 1) = (z + 1) z − 2 · · z + + 1 −
2
4
4
!
2
3
1
+
= (z + 1)
z−
2
4


√ !2
2
1
3 
= (z + 1)  z −
+
2
2
√ !
√ !
1
1
3
3
i
z− +
i ,
(1.20)
= (z + 1) z − −
2
2
2
2
hat die drei verschiedenen einfachen Nullstellen
√
1
3
z1 = −1,
z2 = −
i
und
2
2
√
3
1
z3 = +
i.
2
2
In (1.20) wurde die erste Umformung mittels Polynomdivision (siehe Teilkapitel 9.6) berechnet, und anschließend haben wir die quadratische Ergänzung und die zweite und die
dritte binomische Formel verwendet.
Beispiel 1.42. (Nullstellen von Polynomen in C) Das Polynom vom Grad 3
z3 + i z2 + z + i = z3 + z + i z2 + i
= z (z 2 + 1) + i (z 2 + 1)
= (z + i) (z 2 + 1)
= (z + i) (z + i) (z − i)
= (z + i)2 (z − i)
hat die drei Nullstellen z1 = z2 = −i (zweifach) und z3 = i (einfach).
1.5
Trigonometrische Funktionen
Wir beginnen unsere Einführung der trigonometrischen Funktionen mit der Wiederholung
der Definition von Sinus und Kosinus am rechtwinkligen Dreieck.
24
1.5. Trigonometrische Funktionen
Definition 1.43. (Sinus und Kosinus im rechtwinkligen Dreieck) Für Winkel α
mit 0◦ < α < 90◦ sind sin(α) ( Sinus von α“) und cos(α) ( Kosinus von α“) im
”
”
rechtwinkligen Dreieck wie folgt definiert:
sin(α) =
a
Gegenkathete (von α)
=
,
c
Hypothenuse
cos(α) =
Ankathete (von α)
b
=
.
c
Hypothenuse
Die Ankathete (von α), die Gegenkathete (von α) und die Hypothenuse, sowie die
Bezeichnungen der Dreiecksseiten sind in Abbildung 1.5 illustriert.
a = Gegenkathete (von α)
c=
p
Hy
se
nu
e
h
ot
90◦
α
b = Ankathete (von α)
Abb. 1.5: Die Definition von Sinus und Kosinus am rechtwinkligen Dreieck: sin(α) = a/c
und cos(α) = b/c.
Wir bemerken hier auch, dass für rechtwinklige Dreiecke der Satz des Pythagoras gilt:
2 2 2
Gegenkathete (von α) + Ankathete (von α) = Hypothenuse
(1.21)
oder in der Beschriftung der Abbildung 1.5
a2 + b2 = c2 .
(1.22)
Lemma 1.44. (Sinussatz und Kosinussatz)
In beliebigen Dreiecken gelten:
sin(β)
sin(γ)
sin(α)
=
=
(i) Sinussatz:
a
b
c
2
2
2
(ii) Kosinussatz: c = a + b − 2 · a · b · cos(γ)
Dabei sind die Bezeichnungen der Winkel und der
Seiten in der nebenstehenden Skizze festgelegt.
β
c
γ
α
b
a
1. Grundlagen und Notation
25
Streng genommen müssen wir für Lemma 1.44 noch erklären, wie wir sin(φ) und cos(φ)
für Winkel φ ∈ [90◦ , 180◦ ) erklären. Wir können dies hier vorläufig über
cos(φ) = − sin(φ − 90◦ ),
sin(φ) = cos(φ − 90◦ ),
φ ∈ [90◦ , 180◦),
erklären. Sauberer ist die Definition 1.47, in der wir weiter unten den Sinus und den
Kosinus für beliebige Winkel definieren.
Betrachten wir zunächst eine Anwendung aus der Chemie, um zu sehen, wieso geometrische Anordnungen mit Rechtecken und Dreiecken und deren Berechnung mit Sinus und
Kosinus wichtig sind.
Anwendung 1.45. Die Verbindung N2 F2 existiert in zwei räumlich verschiedenen Formen
(Isomeren), die nachfolgend gezeichnet sind:
F
✔✔
N
N
❚❚
F
F
Cis-N2 F2
✔✔
N
✔✔
F
N
Trans-N2 F2
Bei beiden Isomeren beträgt der N-N-Abstand 0,125 nm, der N-F-Abstand 0,144 nm, und
die F-N-N-Winkel betragen 115◦. Welchen Abstand haben die Fluoratome?
Im Cis-Isomer gilt (siehe Skizze weiter unten):
d = 2 x + 0, 125,
α = 180◦ − 115◦ = 65◦ ,
cos(α) =
x
.
0, 144
Daraus folgt durch Auflösen der letzten Gleichung nach x und anschließendes Auflösen
der ersten Gleichung nach d:
x = 0, 144 nm · cos(α)
x
◦
= 0, 144 nm · cos(65 ),
N
N
◦
5
11
0, 1
α
d = 0, 125 nm + 2 x
0, 125
44
= 0, 125 nm + 2 · 0, 144 nm · cos(65◦ )
≈ 0, 247 nm.
Also haben die Fluoratome im Cis-Isomer
einen Abstand von d ≈ 0, 247 nm.
F
d
F
26
1.5. Trigonometrische Funktionen
F
Im Trans-Isomer gilt (siehe Skizze):
b = 0, 144,
c=
0, 125
,
2
d = 2 a.
c
Nach dem Kosinussatz gilt:
N
⇒
a ≈ 0, 180 nm
⇒
d ≈ 2 a = 0, 360 nm.
a
a2 ≈ 0, 0322 nm2
b
⇒
N
d
a2 = b2 + c2 − 2 b c cos(115◦ )
F
Also beträgt der Abstand der Fluoratome im Trans-Isomer d ≈ 0, 360 nm.
Wir wollen nun den Sinus und den Kosinus für beliebige Winkel definieren, indem wir die
trigonometrischen Funktionen Sinus und Kosinus als Funktionen am Einheitskreis
einführen.
Es ist üblich, die Variable einer trigonometrischen Funktion nicht in Grad sondern im
sogenannten Bogenmaß anzugeben, welches wir nun einführen.
Definition 1.46. (Bogenmaß)
Das Bogenmaß b zu dem Winkel φ (gemessen in
Grad) ist die Länge des Kreisbogens am Einheitskreis mit Radius r = 1 zu diesem Winkel φ (siehe
Skizze links). Nach der Formel für den Kreisumfang
2π r = 2π hat der Kreisbogen zum Winkel 360◦ die
Länge 2π Damit gilt die Relation
φ
φ
b
=
,
◦
360
2π
mit der wir zwischen Gradmaß und Bogenmaß umrechnen können:
2π
·φ
und
b=
360◦
φ=
360◦
· b.
2π
In der Tabelle 1.2 ist die Umrechnung für das Gradmaß und das Bogenmaß für einige
der wichtigsten Winkel aufgelistet. Sie sollten die Umrechnung zumindest für die in der
Tabelle aufgeführten Winkel im Kopf haben.
Nachdem wir das Bogenmaß eingeführt haben, können wir nun die Sinus- und Kosinus-
1. Grundlagen und Notation
27
Gradmaß
0
30
45
60
90
Bogenmaß
0
π/6 π/4 π/3 π/2
180
270
360
φ
π
3π/2
2π
2π φ/360
Tabelle 1.2: Umrechnung zwischen Gradmaß und Bogenmaß.
funktion am Einheitskreis definieren.
1
y
sin(φ)
φ
−1
x
cos(φ) 1
−1
Abb. 1.6: Definition von Sinus und Kosinus am Einheitskreis.
Definition 1.47. (Sinusfunktion und Kosinusfunktion) Der Einheitskreis ist der
Kreis in der (x, y)-Ebene mit Zentrum im Ursprung (0, 0) und mit Radius r = 1. Es seien
(x, y) die Koordinaten des Punktes P auf dem Einheitskreis, für den der Winkel gegen
den Uhrzeigersinn von der positiven x-Achse aus gerade φ (im Bogenmaß) beträgt (siehe
Abbildung 1.6). Dann definieren wir den Sinus und den Kosinus durch:
sin(φ) = y,
cos(φ) = x.
Dadurch sind sin(φ) und cos(φ) für Winkel φ ∈ [0, 2π) erklärt. Für andere Werte φ ∈ R
definieren wir
sin(φ) = sin(φ − 2kπ),
cos(φ) = cos(φ − 2kπ),
wobei k ∈ Z so gewählt ist, dass φ − 2kπ ∈ [0, 2π) gilt.
28
1.5. Trigonometrische Funktionen
Wir bemerken, dass durch die Definition 1.47 die Sinusfunktion und die Kosinusfunktion
durch sogenannte 2π-periodische Fortsetzung von sin(φ) bzw. cos(φ) von dem Intervall
[0, 2π) auf R entstehen. In Abbildung 1.7 haben wir die Graphen der Sinusfunktion und
der Kosinusfunktion gezeichnet.
Abb. 1.7: Die Sinusfunktion (linkes Bild) und die Kosinusfunktion (rechtes Bild) auf dem
Intervall [−2π, 2π].
In der nachfolgenden Tabelle sind Werte von sin(x) und cos(x) für einige wichtige Winkel
aufgelistet.
x in Bogenmaß
0
π
6
π
4
π
3
π
2
4π
6
3π
4
5π
6
x in Gradmaß
0
30
45
60
90
120
135
150
√
√
√
√
sin(x)
0
cos(x)
1
1
2
√
3
2
2
2
√
2
2
3
2
1
1
2
0
3
2
−
1
2
2
2
√
2
−
2
−
1
2
√
3
2
π
3π
2
2π
180 270 360
0
−1
0
−1
0
1
Tabelle 1.3: Einige wichtige Werte der Sinus- und der Kosinusfunktion.
Man kann die Werte in der obigen Tabelle einfach mittels der Definition von Sinus und
1. Grundlagen und Notation
29
Kosinus über das Dreieck am Einheitskreis ablesen. So sieht man direkt für den Winkel
x=0
sin(0) = 0
und
cos(0) = 1
und für den Winkel x = π/2 (also 90◦ )
π sin
=1
2
und
cos
π 2
= 0.
Für den Winkel π/4 (also 45◦ ) haben wir ein gleichschenkliges Dreieck mit Hypotenuse
der Länge 1, wie in dem linken Bild in Abbildung 1.8 eingezeichnet. Nach dem Satz von
Pythagoras gilt dann für die Länge a = cos(π/4) = sin(π/4) der beiden gleichlangen
Katheten des Dreiecks
r
1
1
1
a2 + a2 = 1
⇒
2 a2 = 1
⇒
a2 =
⇒
a=
=√ .
2
2
2
√
1/ 2
4
= cos
π 4
30◦ =π/6
b
√
1/ 2
45◦ =π/4
b
√
1
2
=√ =
.
2
2
1
1
sin
π
1
Also finden wir
h
1/2
1/2
Abb. 1.8: Skizzen zur Bestimmung von sin(x) und cos(x) für x = π/4 (linkes Bild) und
x = π/6 (rechtes Bild).
Zur Bestimmung von sin(x) und cos(x) für x = π/6 (also 30◦ ) drehen wir das Dreieck am
Einheitskreis und ergänzen eine gespiegelte Kopie des Dreiecks, so dass wir mit beiden
Dreiecken zusammen ein gleichseitiges Dreieck erhalten dessen Höhe h = cos(π/6) und
dessen halbe Grundseite sin(π/6) ist (siehe das rechte Bild in Abbildung 1.8). Wir können
dann direkt ablesen, dass gilt sin(π/6) = 1/2, und nach dem Satz des Pythagoras finden
wir
h π i2 h π i2
+ cos
1 = sin
6
6
30
1.5. Trigonometrische Funktionen
⇒
⇒
Wir finden also
2
h π i2
h π i2
1
1
3
= 1 − sin
= 1−
=1− =
cos
6
6
2
4
4
r
√
π 3
3
=
=
.
cos
6
4
2
sin
π
6
1
=
2
und
cos
π 6
=
√
3
.
2
Wir halten nun einige Eigenschaften des Sinus und des Kosinus fest.
Lemma 1.48. (Anwendung der Satz von Pythagoras)
2 2
sin(x) + cos(x) = 1
für alle x ∈ R.
(1.23)
Beweis von Lemma 1.48. Betrachten wir x ∈ [0, 2π), so können den Satz des Pythagoras (siehe (1.21) und (1.22)) direkt auf das entsprechende rechtwinklige Dreieck am
Einheitskreis anwenden und erhalten
2 2
sin(x) + cos(x) = 1
für alle x ∈ [0, 2π).
Über die 2π-periodische Fortsetzung erhalten wir (1.23) dann auch für alle x ∈ R.
Lemma 1.49. (Symmetrie-Eigenschaften von Sinus und Kosinus) Es gelten
sin(−x) = − sin(x)
und
cos(−x) = cos(x)
für alle x ∈ R.
(1.24)
Beweis von Lemma 1.49. Dies macht man sich leicht klar, indem man negative Winkel
im Einheitskreis einführt: Der Winkel −φ mit φ ∈ [0, 2π) im Einheitskreis ist der Winkel
der von der positiven x-Achse im Uhrzeigersinn abgetragen wird. Auch für den negativen
Winkel −φ sind der Sinus sin(−φ) und der Kosinus cos(−φ) die Gegenkathete und Ankathete in dem entsprechenden Dreieck. Malt man sich die beiden Dreiecke am Einheitskreis
für die Winkel φ und −φ hin, dann kann man an der Zeichnung direkt
sin(−φ) = − sin(φ)
und
cos(−φ) = cos(φ)
für alle φ ∈ [0, 2π)
ablesen. Für beliebige Werte von x folgt die Formel (1.24) über die 2π-Periodizität des
Sinus und des Kosinus.
Lemma 1.50. (Additionstheoreme) Es gelten die Additionstheoreme:
sin(x + y) = sin(x) · cos(y) + cos(x) · sin(y)
für alle x, y ∈ R,
cos(x + y) = cos(x) · cos(y) − sin(x) · sin(y)
für alle x, y ∈ R,
sin(x − y) = sin(x) · cos(y) − cos(x) · sin(y)
cos(x − y) = cos(x) · cos(y) + sin(x) · sin(y)
für alle x, y ∈ R,
für alle x, y ∈ R.
1. Grundlagen und Notation
31
Folgerung 1.51. (weitere Formeln für Sinus und Kosinus) Aus den Additionstheoremen können wir direkt die folgenden Formeln ableiten:
(i) Formeln für die um π/2 oder π verschobene Variable:
π
= cos(x)
sin x +
2
sin(x + π) = − sin(x)
π
cos x +
= − sin(x),
2
und
cos(x + π) = − cos(x).
und
(ii) Halbwinkelformeln:
sin(2x) = 2 · sin(x) · cos(x),
2 2
cos(2x) = cos(x) − sin(x) ,
2
cos(2x) = 2 · cos(x) − 1
und
2
cos(2x) = 1 − 2 · sin(x) .
Als Beispiel leiten wir die erste Formel sin(x + π/2) = cos(x) mit Hilfe des Additionstheorems für den Sinus her:
π π π
sin x +
+ sin
· cos(x) = cos(x).
= sin(x) · cos
2
| {z 2 } | {z2 }
=0
=1
Wir führen noch die Tangens- und Kotangensfunktion ein.
Definition 1.52. (Tangens- und Kotangensfunktion)
(i) Die Tangensfunktion ist definiert durch
tan(x) =
sin(x)
cos(x)
für x ∈ R mit x 6=
(2k + 1)π
, k ∈ Z.
2
Alle reellen Zahlen der Form (2k+1)π/2 mit k ∈ Z sind als Werte von x ausgeschlossen, da in diesen Punkten der Nenner cos(x) in der Definition der Tangensfunktion
Null wird.
(ii) Die Kotangensfunktion ist definiert durch
cot(x) =
cos(x)
sin(x)
für x ∈ R mit x 6= k π, k ∈ Z.
Alle reellen Zahlen der Form k π mit k ∈ Z sind als Werte von x ausgeschlossen, da
in diesen Punkten der Nenner sin(x) in der Definition der Kotangesfunktion Null
wird.
32
1.5. Trigonometrische Funktionen
Abb. 1.9: Der Graph der Tangensfunktion.
Für α ∈ (0, π) kann man sich tan(α) und cot(α)
wie folgt durch die Ankathete b und Gegenkathete a ausdrücken (siehe die Skizze rechts für die
Beschriftung des Dreiecks):
tan(α) =
a
b
und
cot(α) =
b
.
a
Dies folgt durch Einsetzen der Definitionen
sin(α) = a/c und cos(α) = b/c des Sinus und
Kosinus im rechtwinkligen Dreieck in die Definition des Tangens und Kotangens.
c
a
α
b
Die Tangensfunktion ist π-periodisch (d.h. es gilt tan(x) = tan(x + π) für beliebige x),
und in Abbildung 1.9 ist der Graph der Tangensfunktion gezeichnet.
Der Graph der Kotangensfunktion ergibt sich mit den Eigenschaften von Sinus und Kosinus aus dem Zusammenhang mit der Tangensfunktion
π sin x + π2
cos(x)
=
tan x +
=
= − cot(x),
(1.25)
π
2
− sin(x)
cos x + 2
wobei wir im zweiten Schritt Folgerung 1.51 (i) genutzt haben. Der Graph der Kotangensfunktion ist in Abbildung 1.10 gezeichnet.
Anwendung 1.53. (Berechnung des Tetraederwinkels) Gewisse Kristalle bzw. Moleküle, etwa Methan (CH4 ) aber auch Wasser (verzerrter Tetraederwinkel 104.5◦) , haben
räumlich eine Tetraeder-Struktur, wobei die Atome in den Ecken und im Zentrum des Te-
1. Grundlagen und Notation
33
Abb. 1.10: Der Graph der Kotangensfunktion.
traeders angeordnet sind (gekennzeichnet durch die Punkte in der Skizze des Tetraeders).
Wir wollen den Winkel φ berechnen (siehe Skizze).
Die Gesamthöhe des Tetraeders ist H = d + h (siehe Skizze).
Der Winkel φ lässt sich aus d mit dem Kosinussatz berechnen:
1 = 2 d2 − 2 d2 cos(φ).
(1.26)
Nach dem Satz des Pythagoras gilt: d2 = ℓ2 + h2 .
Wir eliminieren nun h mit Hilfe von H = d + h:
d2 − h2 = ℓ2
1
d
1
φ
h
120◦ ℓ
d
ℓ
1
1
⇒
(d − h) (d + h) = ℓ2
⇒
d−h=
⇒
2 d − (d + h) =
⇒
⇒
⇒
(d − h) H = ℓ2
ℓ2
H
ℓ2
H
ℓ2
2d− H =
H
ℓ2
1
H+
.
d=
2
H
(1.27)
34
1.5. Trigonometrische Funktionen
Wir berechnen nun ℓ mit dem Kosinussatz:
1 = 2 ℓ2 − 2 ℓ2 cos(120◦ ).
1
erhalten wir
2
1
= 3ℓ
1 = 2ℓ−2ℓ· −
2
Mit cos(120◦ ) = − sin(30◦ ) = −
Nun berechnen wir H: Mit ℓ2 =
⇒
ℓ2 =
1
.
3
1
folgt
3
r
2
2
1
⇒
H=
.
ℓ +H =1
⇒
H = 1−ℓ = 1− =
3
3
3
p
Damit erhalten wir mittels (1.27), ℓ2 + H 2 = 1 und H = 2/3
√
ℓ2
1 H 2 + ℓ2
1 1
1
1
1
1
3
H+
= ·
= ·
= ·p
d=
= ·√ .
2
H
2
H
2 H
2
2
2
2/3
2
2
2
Nun berechnen wir
2
√ !
1
3
3
1 3
·√
= 2· · = ,
2
4 2
4
2
2 d2 = 2
formen (1.26) wie folgt um und setzen anschließend 2 d2 = 3/4 ein
1 = 2 d2 − 2 d2 cos(φ) = 2 d2 1 − cos(φ)
⇒
1 − cos(φ) =
4
1
=
.
2 d2
3
Damit folgt für den Tetraederwinkel
cos(φ) = 1 −
4
1
=−
3
3
⇒
φ ≈ 109, 5◦.
Bemerkung 1.54. (Platonische Körper) Das Tetraeder ist der einfachste Körper,
dessen Oberfläche durch gleich große regelmäßige n-Ecke (hier n = 3 für die Dreiecke
beim Tetraeder) begrenzt wird. Solche Körper heißen reguläre Polyeder. Es gibt genau
fünf verschiedene reguläre Polyeder, die sogenannten Platonischen Körper:
Tetraeder: 4 Dreiecke
Oktaeder: 8 Dreiecke
1. Grundlagen und Notation
35
Ikosaeder: 20 Dreiecke
Würfel: 6 Quadrate
Dodekaeder: 12 Fünfecke
Diese regulären Polyeder spielen in der Chemie eine wichtige Rolle, da Kristalle und
Moleküle möglichst regelmäßige Konfigurationen bilden.
1.6
Darstellung komplexer Zahlen mittels trigonometrischer Funktionen
Wir kommen nun noch einmal zu den komplexen Zahlen zurück und wollen komplexe
Zahlen in der komplexen Ebene mit Hilfe des Sinus und des Kosinus darstellen. Betrachten
wir das Bild in Abbildung 1.11
Wir erinnern uns zunächst, dass der Betrag der komplexen Zahl z = x + i y als
p
√
|z| = z · z̄ = x2 + y 2
definiert war, was nach Quadrieren nichts weiter ist als der Satz der Pythagoras |z|2 =
x2 + y 2 für das rechtwinklige Dreieck in Abbildung 1.11. Aus der Definition 1.43 von Sinus
und Kosinus am rechtwinkligen Dreieck folgt
x
y
= cos(φ)
und
= sin(φ).
|z|
|z|
Auflösen nach x bzw. y und die Notation r = |z| liefern:
x = |z| · cos(φ) = r · cos(φ)
und
y = |z| · sin(φ) = r · sin(φ).
Damit erhalten wir durch Einsetzen in z = x + i y die sogenannte Polarkoordinatendarstellung von z:
z = r · cos(φ) + i · r · sin(φ) = r · cos(φ) + i sin(φ) .
Wir halten dies als Satz fest.
36
1.6. Darstellung komplexer Zahlen mittels trigonometrischer Funktionen
Im(z)
y
z = x+ iy
r=
|z |
φ
Re(z)
x
Abb. 1.11: Polarkoordinatendarstellung der komplexen Zahlen.
Satz 1.55. (Polarkoordinatendarstellung einer komplexen Zahl) Die komplexe
Zahl z = x + i y hat die Polarkoordinatendarstellung
z = r · cos(φ) + i sin(φ)
(1.28)
mit dem Radius r = |z| und dem Winkel φ ∈ [0, 2π) (im Bogenmaß) zwischen der
reellen positiven Achse und dem Strahl von Ursprung zum Punkt z. Die Zahl φ heißt
Argument von z, kurz φ = arg(z).
Betrachten wir zunächst ein paar Beispiele.
Beispiel 1.56. (komplexe Zahlen in Polarkoordinatendarstellung) Die komplexe
Zahl z = 21 + 21 i hat die Polarkoordinaten-Darstellung
π i
1 h π
z = √ · cos
+ i sin
,
(1.29)
4
4
2
√
ist φ = π/4. Dies sieht man
d.h. der Radius ist r = 1/ 2 und der Winkel/das Argument
√
leicht, wenn man weiss, dass sin(π/4) = cos(π/4) = 1/ 2 ist. Einsetzen in (1.29) liefert
nun
π i
1 h π 1
1
1 1
1
1
1
z = √ · cos
+i
= √ · √ + i √ = + i = + i.
4
4
2
2
2 2
2
2
2
2
In dem letzten Beispiel konnte man den Radius und das Argument durch inspizieren“
”
sehen. Wie aber berechnen wir den Radius und das Argument allgemein?
Wir wissen bereits, dass gilt
r = |z| =
p
x2 + y 2.
1. Grundlagen und Notation
37
Weiter lesen wir aus (1.28) direkt ab, dass gilt
x = r · cos(φ)
und
y = r · sin(φ).
(1.30)
Um den Winkel φ zu finden, nutzen wir unser Wissen über rechtwinklige Dreiecke und
trigonometrische Funktionen. Für das Dreieck in Abbildung 1.11 gilt
tan(φ) =
y
sin(φ)
= .
cos(φ)
x
(1.31)
Noch haben wir nicht gelernt, wie man mit der sogenannten Umkehrfunktion der Tangensfunktion arbeitet. Daher können wir aktuell nur mit den Formeln (die man aus (1.30)
durch Division durch r erhält)
cos(φ) =
x
r
und
y
r
sin(φ) =
(1.32)
zur Bestimmung des Arguments φ arbeiten. Zunächst inspiziert man die Vorzeichen um zu
sehen, in welchem Quadranten man sich befindet (siehe Tabelle 1.4). Danach bestimmt
man den passenden Winkel.
Quadrant
Bedingungen an x und y
zugehörige Winkel
1. Quadrant
x ≥ 0 und y ≥ 0
0≤φ≤
2. Quadrant
x ≤ 0 und y ≥ 0
π
≤φ≤π
2
3. Quadrant
x ≤ 0 und y ≤ 0
π≤φ≤
4. Quadrant
x ≥ 0 und y ≤ 0
3π
≤ φ ≤ 2π
2
π
2
3π
2
(0◦ ≤ φ ≤ 90◦ )
(90◦ ≤ φ ≤ 180◦)
(180◦ ≤ φ ≤ 270◦ )
(270◦ ≤ φ ≤ 360◦ )
Tabelle 1.4: Die Quadranten in (x, y)-Koordinatensystem.
Betrachten wir dazu ein Beispiel.
Beispiel 1.57. (Polarkoordinaten-Darstellung
einer komplexen Zahl) Für die
√
komplexe Zahl z = −1 + 3 i finden wir
q
√
√
√
r = |z| = (−1)2 + ( 3)2 = 1 + 3 = 4 = 2.
√
Wir haben hier x = −1 < 0 und y = 3 > 0, d.h. unsere komplexe Zahl liegt im
2. Quadranten. Damit bekommen wir π/2 ≤ φ ≤ π. Weiter gilt
√
x
−1
1
y
3
cos(φ) = =
=−
und
sin(φ) = =
.
r
2
2
r
2
38
1.6. Darstellung komplexer Zahlen mittels trigonometrischer Funktionen
Wir wissen, dass (beachte π/3 =
b 60◦ und 2π/3 = π − π/3 =
b 120◦ = 180◦ − 60◦ ), also
π 1
1
2π
=
=− ,
und daher
cos
cos
3
2
3
2
√
π 3
2π
sin
= sin
=
.
3
3
2
Mit dem Winkel/Argument φ = 2π/3 liegen wir im richtigen Quadranten. Also folgt die
Polarkoordinaten-Darstellung:
2π
2π
z = 2 cos
+ i sin
.
(1.33)
3
3
Bemerkung 1.58. (Arbeiten mit der Tangensfunktion und ihrer Umkehrfunktion) Wichtig ist, zu beachten, dass für einen Wert des Quotienten x/y mehrere Winkel
φ ∈ [0, 2π) existieren für die (1.31) gilt. Nur wenn man die Vorzeichen von x und y
berücksichtigt, findet man mittels tan(φ) = y/x den korrekten Winkel!
Bemerkung 1.59. (Definition des Arguments/Winkels) Es gibt mehrere Möglichkeiten, das Intervall für arg(z) festzulegen. In der Literatur wird arg(z) manchmal auch
als der Winkel φ definiert, für den z = |z| cos(φ) + i sin(φ) und −π < φ ≤ π gilt.
Die meisten von Ihnen werden die (natürliche) Exponentialfunktion exp(x) = ex mit
der Euler-Zahl e = 2, 71828 . . . aus der Schule kennen. Für die Exponentialfunktion gilt
ex+y = ex · ey .
Wir können die (natürliche) Exponentialfunktion auch für rein imaginäre Exponenten
x = i φ mit φ ∈ R mit dem sogenannten Eulerschen Theoren einführen.
Satz 1.60. (Eulersches Theorem) Es gilt
eiφ = cos(φ) + i sin(φ)
für alle φ ∈ R.
(1.34)
Im Rahmen dieses Kurses betrachten wir (1.34) als Definition von eiφ . Sollten Sie mit der
natürlichen Exponentialfunktion nicht vertraut sein, so warten Sie bis später, wenn wir
diese in Kapitel 7 richtig einführen.
Mit (1.34) können wir die Polarkoordinatendarstellung (1.28) der komplexen Zahlen
wie folgt schreiben
z = r · cos(φ) + i sin(φ) = r eiφ .
(1.35)
Mit (1.34) können in Anlehnung an die üblichen Rechenregeln für die (natürliche) Exponentialfunktion diese auch für komplexen Exponenten z = x + i y mit x, y ∈ R
erklären.
Definition 1.61. (komplexe Exponentialfunktion) Für komplexe Zahlen z = x + i y,
wobei x, y ∈ R, gilt
ez = ex+i y = ex · eiy = ex · cos(y) + i sin(y) .
1. Grundlagen und Notation
39
Mit diesem Informationen können wir leicht zeigen, dass die komplexe Exponentialfunktion die üblichen Eigenschaften hat:
z+w
e
z
w
=e ·e
und
z−w
e
ez
= w
e
für alle z, w ∈ C.
Inbesondere können wir nun komplexe Zahlen in der Polarkoordinatendarstellung
sehr leicht multiplizieren: Für z1 = r1 eiφ1 , z2 = r2 eiφ2 in C gilt
z1 · z2 = r1 eiφ1 · r2 eiφ2 = (r1 · r2 ) · eiφ1 · eiφ2 . = (r1 · r2 ) · ei(φ1 +φ2 ) .
Also werden bei der Multiplikation zweier komplexer Zahlen die Beträge (Längen)
multipliziert und die Argumente (Winkel) addiert.
Ist r2 6= 0, so erhalten wir analog für die Division von z1 = r1 eiφ1 durch z2 = r2 eiφ2 6= 0
z1
r1 eiφ1
r1 i(φ1 −φ2 )
r1
iφ1
−iφ2
=
·
e
·
e
.
=
·e
.
=
iφ
z2
r2 e 2
r2
r2
Beispiel 1.62. (Multiplikation und Division von komplexen Zahlen) Für
z=
1 1
+ i
2 2
und
w = −1 +
√
3i
gilt mit Hilfe von (1.29) und (1.33)
√ 11π
2π
π
2π
2
1
i π4
· 2 · ei 3 = √ · ei( 4 + 3 ) = 2 ei 12
z·w = √ ·e
2
2
und
1.7
π
√1 · ei 4
π
2π
5π
1
z
1
= 2 i 2π = √ · ei( 4 − 3 ) = √ e−i 12 .
w
2 2
2 2
2·e 3
Ungleichungen und Beträge
Bei der Definition der Intervalle in Unterkapitel 1.1 haben wir bereits die Relation
( kleiner als“), >“ ( größer als“), ≤“ ( kleiner als oder gleich“) und
”
”
”
”
”
( größer als oder gleich“) verwendet, die Sie natürlich aus der Schulmathematik
”
nen. Nun wollen wir diese genauer untersuchen und Ungleichungen betrachten.
<“
”
≥“
”
ken-
Für zwei verschiedene reelle Zahlen a und b gilt immer a < b oder a > b. Daher können
wir die reellen Zahlen R anordnen“, was im nächsten Satz konkretisiert wird.
”
Satz 1.63. (Anordnung der reellen Zahlen) Die reellen Zahlen R besitzen folgende
Anordnungseigenschaften:
Für alle a, b ∈ R gilt genau eine der Beziehungen: a < b ( a ist kleiner als b“) oder a > b
”
( a ist größer als b“) oder a = b ( a ist gleich b“).
”
”
Für a, b, c ∈ R gilt:
40
1.7. Ungleichungen und Beträge
(i) Aus a < b und b < c folgt a < c. (Transitivität)
(ii) Aus a < b folgt a + c < b + c für alle c ∈ R. (Monotonie der Addition)
(iii) Aus a < b folgt a · c < b · c für alle c > 0. (Monotonie der Multiplikation)
Aus a < b folgt a · c > b · c für alle c < 0.
Machen wir uns zunächst an einem Beispiel klar, dass die Aussagen in Satz 1.63 nicht
geheimnisvoll sind.
Beispiel 1.64. Betachten wir die reellen Zahlen a = 3, b = 7, c = 12 und d = −8. Die
erste Aussage im Satz trifft zu, denn es gilt 3 < 7, 7 < 12, 3 < 12, −8 < 3, −8 < 7 und
−8 < 12. Machen wir uns nun klar, was die Eigenschaften (i) bis (iii) bedeuten
(i) besagt, dass aus 3 < 7 und 7 < 12 folgt, dass 3 < 12 gilt.
(ii) besagt, dass aus 3 < 7 folgt, dass 3 + 12 = 15 < 7 + 12 = 19 gilt.
(iii) besagt, dass aus 3 < 7 folgt, dass 3 · 12 = 36 < 7 · 12 = 84 gilt. Weiter besagt (iii)
für −8 < 0, dass gilt 3 · (−8) = −24 > 7 · (−8) = −56.
Alle Eigenschaften bis auf die zweite Aussage in (iii) in Satz 1.63 sind also unsere natürli”
chen“ Rechenregeln für die reellen Zahlen. Die letzte Aussage in (iii) ist die wichtige
Rechenregel für das Multiplizieren von Ungleichungen mit negativen Zahlen:
Multipliziert man eine Ungleichung mit einer negativen reellen Zahl, so kehrt kehrt
sich das Ungleichheitszeichen in der Ungleichung um, d.h. aus <“ wird >“, und
”
”
aus >“ wird <“.
”
”
Bemerkung 1.65. (gleichwertige Relationen) Seien a, b ∈ R. Dann ist a < b natürlich
gleichwertig zu b > a.
Definition 1.66. (kleiner als oder gleich/größer als oder gleich)
(i) a ≤ b ( a ist kleiner als oder gleich b“) bedeutet, dass gilt: a < b oder a = b.
”
(ii) a ≥ b ( a ist größer als oder gleich b“) bedeutet, dass gilt: a > b oder a = b.
”
In Analogie zu (iii) in Satz 1.63 finden wir:
Lemma 1.67. Seien a, b, c reelle Zahlen.
(i) Aus a ≤ b folgt a · c ≤ b · c für alle c ≥ 0.
Aus a ≤ b folgt a · c ≥ b · c für alle c < 0.
(ii) Aus a ≥ b folgt a · c ≥ b · c für alle c ≥ 0.
Aus a ≥ b folgt a · c ≤ b · c für alle c < 0.
Nach diesen Vorbereitungen können wir erklären, was eine Ungleichung ist.
1. Grundlagen und Notation
41
Definition 1.68. (Ungleichung) Seien a, b ∈ R reelle Zahlen, oder seien a und b allgemeiner Terme, Ausdrücke oder Funktionen, deren Werte reelle Zahlen sind. Dann heißen
Relationen der Form
a < b,
a > b,
a≤b
bzw.
a≥b
Ungleichungen.
Beispiel 1.69. (Ungleichungen)
(a) 3 < 13 und 13 ≥ −7, 5 sind Ungleichungen für reelle Zahlen.
(b) x2 ≤ 2 x − 1 ist eine Ungleichung in Termen oder Funktionen in x. Hier muss man
untersuchen, für welche x die Ungleichung erfüllt ist. Dazu formen wir um
x2 ≤ 2 x − 1
⇔
x2 − 2 x + 1 ≤ 0
⇔
(x − 1)2 ≤ 0,
(1.36)
wobei wir im letzten Schritt die erste binomische Formel verwendet haben. Für welche
reellen x gilt nun (x − 1)2 ≤ 0? Da für reelles x immer (x − 1)2 ≥ 0 gilt, kann nur
(x − 1)2 = 0 eine Lösung haben, und diese ist x = 1. Wir bezeichnen die Menge der
Lösungen der Ungleichung auch mit L, also hier L = {1}. (Die Doppelpfeile ⇔“ in
”
(1.36) sind sogenannte Äquivalenzpfeile“, die bedeuten, dass die Aussagen auf beiden
”
Seiten von ⇔“ gleichwertig oder mathematisch gesprochen äquivalent“ sind. Wir
”
”
werden in Kapitel 2 noch erklären, was die Äquivalenzpfeile“ genau bedeuten.)
”
Wir ziehen noch einige Folgerungen aus den Anordnungseigenschaften der reellen Zahlen
in Satz 1.63.
Folgerung 1.70. (Folgerungen aus Satz 1.63)
(i) a < 0 gilt genau dann, wenn gilt −a > 0 (d.h. gilt a < 0 so folgt −a > 0, und
gilt −a > 0 so folgt a < 0 ).
(ii) Seien a, b ∈ R. Aus 0 < a < b folgt an < bn für alle n ∈ N.
√
√
(iii) Seien a, b ∈ R. Aus 0 < a < b folgt n a < n b für alle n ∈ N.
Beweis von (i) in Folgerung 1.70. Wir verwenden Eigenschaft (iii) in Satz 1.63 mit
c = −1 zweimal: Aus a < 0 folgt dann (−1) · a = −a > (−1) · 0 = 0. Und aus −a > 0,
d.h. 0 < −a folgt dann (−1) · 0 = 0 > (−a) · (−1) = a, d.h. a < 0.
Die Aussagen (ii) und (iii) in Folgerung 1.70 kann man mit der Technik der vollständigen
Induktion (vgl. Kapitel 2) beweisen.
Lemma 1.71. (Bernoullische Ungleichung) Für n ∈ N und x ∈ R mit x > −1 gilt
die Bernoullische Ungleichung:
(1 + x)n ≥ 1 + n x.
Gleichheit in (1.37), also (1 + x)n = 1 + n x, gilt nur für x = 0 oder n = 1.
(1.37)
42
1.7. Ungleichungen und Beträge
Die Bernoullische Ungleichung ist nützlich, um komplizierte Terme mit Potenzen nach
unten abzuschätzen. Betrachten wir dazu ein einfaches Beispiel.
Beispiel 1.72. (Anwendung der Bernoullischen Ungleichung) Wir wenden die Bernoullische Ungleichung an, um (2, 2)10 nach unten abzuschätzen:
(2, 2)10 = (2 + 0, 2)10 = [2 (1 + 0, 1)]10
= 210 (1 + 0, 1)10
≥ 210 (1 + 10 · 0, 1)
= 210 · 2
= 2048,
wobei wir die Bernoullische Ungleichung (1.37) in der dritten Zeile für den Term in den
Klammern mit x = 0, 1 und n = 10 verwendet haben. Eine Berechnung mit dem Taschenrechner liefert (2, 2)10 ≈ 2656.
Betrachten wir noch ein weiteres Beispiel zu Ungleichungen.
Beispiel 1.73. (Ungleichungen) Für welche x ∈ R gilt die folgende Ungleichung?
2x+1
<1
x−1
(1.38)
Lösung: Zunächst müssen wir x − 1 = 0, also x = 1, ausschließen, da durch Null teilen
verboten ist. Wir wollen nun beide Seiten der Gleichung (1.38) mit (x − 1) multiplizieren.
Dabei müssen wir aber das Vorzeichen von (x − 1) berücksichtigen, da sich für x − 1 < 0
das <“ in (1.38) in ein >“ umkehrt. Wir nehmen also eine Fallunterscheidung vor:
”
”
Fall 1: Für x − 1 > 0, also für x > 1, erhalten wir nach der Multiplikation von (1.38) mit
(x − 1)
2x+1 < x − 1 − x− 1
⇔
2 x − x < −1 − 1
⇔
x < −2.
Da in diesem Fall aber nach Voraussetzung x > 1 war hat x < −2 keine Lösung.
Fall 2: Für x − 1 < 0, also für x < 1, erhalten wir nach der Multiplikation von (1.38) mit
(x − 1)
⇔
2 x − x > −1 − 1
⇔
x > −2.
2x+1 > x − 1 − x− 1
Wir erhalten also die beiden Bedingung x > −2, also −2 < x, und x < 1 an x.
Fazit: Daher ist die Menge aller Lösungen L der Ungleichung (1.38) das offene Intervall
L = x ∈ R − 2 < x < 1 = (−2, 1).
Die Betragsfunktion oder der (Absolut-)Betrag misst den Abstand eines Punkts auf der
reellen Zahlengerade vom Nullpunkt.
1. Grundlagen und Notation
43
Definition 1.74. (Betragsfunktion/(Absolut-)Betrag) Für x ∈ R, ist die Betragsfunktion durch
x
für x ≥ 0,
|x| =
−x
für x < 0.
definiert. Wir nennen |x| auch den (Absolut-)Betrag von x. Der Absolutbetrag misst
den Abstand (auf der Zahlengeraden) von x zum Nullpunkt 0.
Der Graph der Betragsfunktion ist im linken Bild in Abbildung 1.12 gezeichnet.
Abb. 1.12: Das linke Bild zeigt den Graphen der Betragsfunktion, und das rechte Bild
zeigt den Graphen der Signumfunktion.
Definition 1.75. (Signum/Vorzeichenfunktion) Sei x ∈ R. Das Signum oder Vorzeichen von x (oder die Signum-/Vorzeichenfunktion) ist definiert durch


für x > 0,
 1
0
für x = 0,
sgn(x) :=

 −1
für x < 0.
Der Graph der Signumfunktion ist im rechten Bild in Abbildung 1.12 gezeichnet.
Beispiel 1.76. (Absolutbetrag und Signum)
(a) Für x = 7 haben wir |x| = |7| = 7 und sgn(x) = sgn(7) = 1.
(b) Für y = −13 haben wir |y| = | − 13| = 13 und sgn(y) = sgn(−13) = −1.
(c) Für w = 0 haben wir |w| = |0| = 0 und sgn(w) = sgn(0) = 0.
44
1.7. Ungleichungen und Beträge
Wir halten noch einige Eigenschaften der Betragsfunktion und der Signumfunktion fest.
Bemerkung 1.77. (Eigenschaften vom (Absolut-)Betrag und Signum)
(i) Für x, y ∈ R ist |x − y| der Abstand der beiden Punkte x und y auf der reellen
Zahlengerade.
(ii) Es gilt für jedes x ∈ R
x = |x| · sgn(x)
und
|x| = x · sgn(x).
Lemma 1.78. ( Norm“-Eigenschaften des (Absolut-)Betrags) Die sogenannten
”
Norm“-Eigenschaften des (Absolut-)Betrags | · | sind:
”
(i) |x| ≥ 0 für alle x ∈ R.
(ii) |x| = 0 gilt in R genau dann, wenn x = 0 ist.
(iii) |λ · x| = |λ| · |x|
(iv) |x + y| ≤ |x| + |y|
für alle λ, x ∈ R
für alle x, y ∈ R (Dreiecksungleichung).
Wir werden später in Teil IV: Lineare Algebra“ noch sehen, dass die euklidische Norm
”
im R2 (und allgemeiner im Rn mit n ≥ 2) analoge Eigenschaften zum Absolutbetrag hat.
Genauer betrachtet ist der Absolutbetrag nur ein Spezialfall der Euklidischen Norm für
R = R1 (daher auch die Bezeichnung Norm“-Eigenschaften in Lemma 1.78).
”
Lemma 1.79. (Weitere Eigenschaften des (Absolut-)Betrags) Weitere Eigenschaften des (Absolut-)Betrags | · | sind:
(v) | − x| = |x|
für alle x ∈ R.
(vi) −|x| ≤ x ≤ |x|
für alle x ∈ R.
Aufgrund der stückweisen Definition von |x| können (Un-)Gleichungen in denen |x|
vorkommt, am besten durch Fallunterscheidung aufgelöst werden! Betrachten
wir dazu ein paar Beispiele.
Beispiel 1.80. (Ungleichungen mit Absolutbeträgen) Für welche x ∈ R gilt die
Ungleichung |x − 3| ≤ 1?
Anschaulich besagt |x − 3| ≤ 1, dass der Abstand von x zu 3 kleiner oder gleich 1 ist.
Durch Einzeichnen auf dem Zahlenstrahl erhält man als Lösungsmenge das Intervall
L = [2, 4] = {x ∈ R | 2 ≤ x ≤ 4}.
Lösung: Wir wollen unser anschaulich ermitteltes Ergebnis nun durch mathematische
Berechnungen nachweisen:
Fall 1: Gilt x − 3 ≥ 0, also x ≥ 3, dann ist |x − 3| = x − 3. Also wird |x − 3| ≤ 1 zu
⇔
x ≤ 4.
x−3 ≤1 +3
1. Grundlagen und Notation
45
Die Ungleichungen x ≥ 3 und x ≤ 4 liefern als Lösungsmenge das Intervall
[3, 4] = {x ∈ R | 3 ≤ x ≤ 4}.
Fall 2: Gilt x − 3 < 0, also x < 3, dann ist |x − 3| = −(x − 3) = 3 − x, und die Gleichung
|x − 3| ≤ 1 wird
3−x≤ 1 +x−1
⇔
2 ≤ x.
Die Ungleichungen x < 3 und 2 ≤ x liefern als Lösungsmenge das Intervall
[2, 3) = {x ∈ R | 2 ≤ x < 3}.
Fazit: Nehmen wir die Lösungen aus Fall 1 und Fall 2 zusammen, so erhalten wir als
Lösungsmenge das Intervall
L = [2, 4] = {x ∈ R | 2 ≤ x ≤ 4}.
Beispiel 1.81. (Gleichungen mit Absolutbeträgen) Was sind die Lösungen der Gleichung |x − 2| = |2 x|?
Lösung: Wir treffen drei Fallunterscheidungen.
Fall 1: Für x ≥ 2 ist auch 2 x ≥ 0, und es gilt:
|x − 2| = |2 x|
⇔
x −2 = 2x − x
⇔
−2 = x.
Da für x ≥ 2 der Fall x = −2 nicht auftreten kann, haben wir hier keine Lösung.
Fall 2: Für x < 2 und x ≥ 0, also für 0 ≤ x < 2 ist x − 2 < 0 und damit |x − 2| =
−(x − 2) = 2 − x, und es ist 2 x ≥ 0. Somit gilt
2
⇔
2 = 3x : 3
⇔
x= .
|x − 2| = |2 x|
⇔
2−x = 2x +x
3
Da x = 2/3 die Bedingung 0 ≤ x < 2 erfüllt, ist x = 2/3 eine Lösung.
Fall 3: Sei nun x < 0. Dann ist x − 2 < 0 und damit |x − 2| = −(x − 2) = 2 − x, und es
gilt 2 x < 0 und damit |2 x| = −2 x. Daher haben wir
|x − 2| = |2 x| ⇔ 2 − x = −2 x + x ⇔ 2 = −x · (−1) ⇔ −2 = x.
Da x = −2 die Bedingung x < 0 erfüllt, ist x = −2 ebenfalls eine Lösung.
Wir bemerken, dass wir mit den drei betrachteten Fällen alle reellen Zahlen x abgedeckt
haben. Daher ist die Lösungsmenge von |x − 2| = |2 x|
2
L = −2,
.
3
In Abbildung 1.13 haben wir die Lösungen von |x − 2| = |2 x| graphisch bestimmt, indem
wir die beiden Funktionen f (x) = |x−2| und g(x) = |2 x| gezeichnet haben. Die Lösungen
von |x−2| = |2 x| sind gerade die x-Koordinaten der Schnittpunkte der beiden Funktionen,
und wir finden ebenfalls x = −2 und x = 2/3.
46
1.7. Ungleichungen und Beträge
Abb. 1.13: Die Schnittpunkte der Graphen der Funktionen f (x) = |x−2| und g(x) = |2 x|.
Beispiel 1.82. (Ungleichungen mit Absolutbeträgen) Wir wollen alle Punkte (x, y)
in der Ebene finden, für die gilt
|x| + |y| ≤ 1.
Dazu müssen wir die folgenden vier Fälle betrachten:
Fall 1: x ≥ 0 und y ≥ 0 (d.h. wir befinden uns im 1. Quadranten): Dann gilt
|x| + |y| = x + y ≤ 1,
und wir finden durch Auflösen nach y die Ungleichung y ≤ 1 − x.
Fall 2: x < 0 und y ≥ 0 (d.h. wir befinden uns im 2. Quadranten): Dann gilt
|x| + |y| = −x + y ≤ 1,
und wir finden durch Auflösen nach y die Ungleichung y ≤ 1 + x.
Fall 3: x < 0 und y < 0 (d.h. wir befinden uns im 3. Quadranten): Dann gilt
|x| + |y| = −x − y ≤ 1,
und wir finden durch Auflösen nach y die Ungleichung y ≥ −x − 1.
Fall 4: x ≥ 0 und y < 0 (d.h. wir befinden uns im 4. Quadranten): Dann gilt
|x| + |y| = x − y ≤ 1,
1. Grundlagen und Notation
47
und wir finden durch Auflösen nach y die Ungleichung y ≥ x − 1.
Um die Lösungsmenge zu finden, zeichnen wir die Lösungsmenge für jeden Quadranten
separat und finden die in Abbildung 1.14 dargestellte Menge.
y
1
−1
1
x
−1
Abb. 1.14: Graphische Darstellung der Menge aller Punkte (x, y) mit |x| + |y| ≤ 1 in der
(x, y)-Ebene.
48
1.7. Ungleichungen und Beträge
Kapitel 2
Mengenlehre, mathematische
Aussagen und Beweistechniken
In diesem Kapitel lernen wir zunächst Mengen und Relationen und Operationen für Mengen kennen. Danach werden wir (mathematische) Aussagen betrachten und die Grundzüge
der Aussagenlogik einführen. Insbesondere interessieren wir uns für die Verneinung von
Aussagen und deren Verknüpfung mit und“ bzw. oder“. Zuletzt diskutieren wir “wenn
”
”
dann“-Aussagen und Äquivalenzen und lernen in diesem Kontext auch die Grundzüge
verschiedener Beweistechniken kennen.
2.1
Mengenlehre
Zunächst definieren wir den Begriff einer Menge, und dann werden wir Relationen zwischen Mengen und Operationen auf Mengen betrachten. Bei Relationen zwischen Mengen
geht es darum, ob zwei Mengen gleich sind, oder ob die eine Menge möglicherweise in der
anderen enthalten ist. Bei Operationen auf Mengen geht es z.B. um die Vereinigung der
beiden Mengen.
Definition 2.1. (Menge und Elemente) Eine Menge A ist eine Zusammenfassung
von bestimmten wohlunterschiedenen Objekten unserer Anschauung und unseres Denkens
zu einem Ganzen. Die Objekte, die zur Menge A gehören, bezeichnet man als Elemente
von A. Liegt ein Element x in der Menge A, so schreibt man x ∈ A (ausgesprochen
als x ist (Element) in A“). Liegt ein Element x nicht in A, so schreibt man x ∈
/ A
”
(ausgesprochen als x ist nicht (Element) in A“).
”
Das Symbol ∈“ wird als das Element-Symbol bezeichnet.
”
Beispiel 2.2. (Menge und Elemente) A sei die Menge aller Menschen mit deutscher
Staatsangehörigkeit. Wir bemerken, dass sich über die Behörden eindeutig feststellen lässt,
ob ein Mensch die deutsche Staatsangehörigkeit hat oder nicht. Jeder Mensch mit deutscher Staatsangehörigkeit ist ein Element in A. Jeder Mensch ohne deutsche Staatsan49
50
2.1. Mengenlehre
gehörigkeit ist kein Element von A.
Beispiel 2.3. (Menge und Elemente)
(a) Sei A die Menge aller geraden natürlichen Zahlen, also A = {2, 4, 6, 8, . . .}. Dann ist
z.B. 2 ∈ A und 5 ∈
/ A.
(b) Sie B die Menge B = {α, β, γ, δ, ε}. Dann ist z.B. γ ∈ B aber θ ∈
/ B.
(c) Die Menge C = {!, ?, @} enthält die drei Elemente !, ? und @.
(d) D = {2, 3, 4, 8, 3, 4} ist keine Menge, weil wir die Objekte 3 und 4 doppelt aufgelistet
haben.
Beachten Sie: Für jedes Objekt muss feststehen, ob es zu einer Menge gehört oder nicht.
Es gibt zwei generelle Möglichkeiten zur Festlegung einer Menge A.
(1) Man listet die Objekte auf, die zu A gehören, wobei jedes Objekt nur einmal in
der Liste vorkommt. Die Reihenfolge der Auflistung der Elemente spielt dabei keine
Rolle.
(2) Man gibt eine Eigenschaft an, welche die zu A gehörigen Objekte eindeutig beschreibt.
Bemerkung 2.4. (Darstellungsweisen von Mengen) Um Mengen zu definieren oder
sie in Formeln anzugeben, verwenden wir stets geschweifte Klammern (sogenannte Men”
genklammern“ {. . .}). Darüber hinaus gibt es verschiedene Möglichkeiten eine Menge darzustellen:
(i) Aufzählend: A = {−4, − 21 , 0, 1, 2, 1000}
(ii) Verbal: Es sei B die Menge aller Erstsemesterstudenten der Universität Paderborn
”
im Wintersemester 2013.“
(iii) Charakterisierend: C = {x ∈ B | x beginnt ein Chemiestudium}. Dabei werden
die Elemente meist als spezielle Elemente einer weiteren Menge (hier der Menge B
der Erstsemesterstudenten der Universität Paderborn im WS 2013) genommen, für
die bestimmte Bedingungen gelten. Der vertikale Strich |“ bedeutet für die gilt“.
”
”
(iv) Venn-Diagramme: Ein Venn-Diagramm ist eine grafische Veranschaulichung von
mehreren Mengen durch kreisförmige Gebilde. Die Elemente, die zu einer Menge
gehören, werden dabei innerhalb des jeweiligen Kreises dargestellt, Elemente die
nicht dazugehören, außerhalb. Zur Veranschaulichung ist in Abbildung 2.1 ein VennDiagramm von zwei Mengen dargestellt.
Beispiel 2.5. (Mengen von Zahlen)
(a) Natürliche Zahlen: N = {1, 2, 3, . . .}.
(b) Nicht-negative ganze Zahlen: N0 = {0, 1, 2, . . .}.
(c) Ganze Zahlen: Z = {0, ±1, ±2, ±3, . . .}. Dabei sind ±1 und ±2, etc. jeweils eine Kurzschreibweise für +1 und −1 bzw. +2 und −2, etc..
2. Mengenlehre, mathematische Aussagen und Beweistechniken
A
51
B
Abb. 2.1: Beispiel eines Venn-Diagramms zweier Mengen A und B. Die schraffierte Menge
(der Schnitt der ovalen Gebilde) enthält alle Elemente, die sowohl in A als auch in B liegen
und ist die sogenannte Schnittmenge A ∩ B (vgl. Definition 2.11).
(d) Rationale Zahlen:
o nm o
nm Q=
m ganze Zahl, n natürliche Zahl =
m ∈ Z, n ∈ N .
n
n
Definition 2.6. (leere Menge) Enthält eine Menge keine Elemente, dann bezeichnen
wir sie als leere Menge. Wir schreiben ∅ bzw. { } für die leere Menge.
Wir führen nun Relationen für Mengen, nämlich Gleichheit, sowie die Teilmenge und die
Obermenge ein.
Definition 2.7. (Relationen für Mengen)
(i) Liegt jedes Element der Menge A auch in der Menge B, dann ist A eine Teilmenge
von B, und B ist eine Obermenge von A; in Formeln: A ⊂ B bzw. B ⊃ A. Jede
Menge ist eine Teilmenge und eine Obermenge von sich selbst. Die leere Menge ist
eine Teilmenge jeder Menge!
(ii) Zwei Mengen A und B heißen gleich, in Formeln A = B, wenn A eine Teilmenge
von B ist und wenn B eine Teilmenge von A ist, also wenn gilt A ⊂ B und B ⊂ A.
Sind zwei Mengen A und B nicht gleich, so schreiben wir in Formeln auch A 6= B.
(iii) Ist A eine Teilmenge von B und ist A nicht gleich B, also wenn gilt A ⊂ B und
A 6= B, dann sagen wir, A ist eine echte Teilmenge von B, und B ist eine echte
Obermenge von A. In Formeln schreiben wir dies als A $ B bzw. B % A.
Beispiel 2.8. (Teilmengenbeziehungen für klassische Mengen von Zahlen) Für
die klassischen Mengen von Zahlen N, N0 , Z, Q und R gelten die folgenden Teilmengenbeziehungen:
N ⊂ N0 ⊂ Z ⊂ Q ⊂ R.
Da es sich sogar um echte Teilmengen handelt, können wir auch schreiben:
N $ N0 $ Z $ Q $ R.
Beispiel 2.9. (Relationen von Mengen) Seien A = {1, 2, 3}, B = {−1, 0, 1, 2, 3, 4}
und C = {3, 2, 1}. Dann ist A eine Teilmenge von B, d.h. A ⊂ B. A ist aber auch eine
52
2.1. Mengenlehre
A
B
Abb. 2.2: Veranschaulichung der Teilmenge und Obermenge mit einem Venn-Diagramm:
Hier ist A eine echte Teilmenge von B, also A $ B, und B ist eine echte Obermange von
A, also B % A.
echte Teilmenge von B, d.h. A $ B, denn 0 ∈ B ist nicht in A enthalten. Die Menge B
ist damit eine echte Obermenge von A. Die Menge A ist eine Teilmenge der Menge C,
also A ⊂ C, und die Menge C ist eine Teilmenge der Menge A, also C ⊂ A. Daher sind
die Mengen A und C gleich, d.h. es gilt A = C.
Beispiel 2.10. (gleiche Mengen) Seien
1 1 1
A = 1, , , , . . .
2 3 4
und
B=
1 n∈N .
n
Dann sind alle Elemente von A auch in B enthalten, d.h. es gilt A ⊂ B. Alle Elemente
von B sind auch in A enthalten, d.h. es gilt B ⊂ A. Daher sind die Mengen A und B
gleich, d.h. A = B
Nun lernen wir Operationen für Mengen kennen. So können wir z.B. Mengen vereinigen
oder schneiden, oder aus einer Menge A alle Elemente entfernen, die bereits in einer
anderen Menge B enthalten sind.
Definition 2.11. (Vereinigung, Schnittmenge/Durchschnitt und Differenzmenge zweier Mengen)
(i) Die Vereinigung A ∪ B zweier Mengen A und B enthält alle Elemente, die in A
oder in B oder in beiden Mengen liegen:
A ∪ B = {x | x ∈ A oder x ∈ B}.
(2.1)
Wir sagen für A ∪ B auch A vereinigt mit B“.
”
(ii) Die Schnittmenge (oder der Durchschnitt) A∩B zweier Mengen A und B enthält
alle Elemente, die sowohl in A als auch in B liegen:
A ∩ B = {x | x ∈ A und x ∈ B}.
Wir sagen für A ∩ B auch A geschnitten mit B“. Ist die Schnittmenge die leere
”
Menge, also wenn A ∩ B = ∅ gilt, so nennen wir die Mengen A und B disjunkt.
2. Mengenlehre, mathematische Aussagen und Beweistechniken
53
(iii) Die Differenzmenge A \ B der Menge A ohne die Menge B enthält alle Elemente,
die in A aber nicht in B liegen:
A \ B = {x | x ∈ A und x ∈
/ B}.
Wir sagen für A \ B auch A ohne B“.
”
Beachten Sie, dass in (2.1) das oder“ kein entweder . . . oder“ ist: Elemente in A ∪ B
”
”
dürfen sehr wohl in beiden Mengen A und B liegen.
A
B
Abb. 2.3: Venn-Diagramm der Vereinigung A ∪ B zweier Mengen A und B.
A
B
Abb. 2.4: Venn-Diagramm der Schnittmenge/des Durchschnitts A ∩ B zweier Mengen A
und B.
A
B
Abb. 2.5: Venn-Diagramm der Differenzmenge A \ B.
Betrachten wir ein paar Beispiele.
Beispiel 2.12. (Vereinigung, Schnittmenge/Durchschnitt, Differenzmenge) Sei
A die Menge aller Menschen mit deutscher Staatsbürgerschaft, und sei B die Menge
aller Menschen mit australischer Staatsbürgerschaft. Dann ist die Vereinigung A ∪ B die
Menge aller Menschen, die die deutsche oder die australische Staatsbürgerschaft (oder
auch beide Staatsbürgerschaften) haben. Die Schnittmenge/der Durchschnitt A ∩ B ist
die Menge der Menschen, die die deutsche und die australische Staatsbürgerschaft haben.
Die Differenzmenge A \ B ist die Menge aller Menschen, die die deutsche aber nicht die
australische Staatsbürgerschaft haben. – Was ist die Differenzmenge B \ A?
54
2.1. Mengenlehre
Beispiel 2.13. (Vereinigung, Schnittmenge, Differenzmenge) Seien
A = {−3, −2, −1, 0, 1, 2, 3}
und
B = N.
Dann finden wir die Vereinigung
A ∪ B = {−3, −2, −1, 0, 1, 2, 3} ∪ N = {−3, −2, −1, 0, 1, 2, 3, 4, . . .} = {n ∈ Z | n ≥ −3}
und den Durchschnitt
A ∩ B = {−3, −2, −1, 0, 1, 2, 3} ∩ N = {1, 2, 3}.
Weiter finden wir die Differenzmengen
A \ B = {−3, −2, −1, 0, 1, 2, 3} \ N = {−3, −2, −1, 0},
B \ A = N \ {−3, −2, −1, 0, 1, 2, 3} = {4, 5, 6, . . .} = {n ∈ N | n ≥ 4}.
Nun lernen wir das kartesische Produkt zweier Mengen kennen.
Definition 2.14. (kartesisches Produkt zweier Mengen) Seien A, B zwei Mengen,
und seien a ∈ A, b ∈ B. Die Zusammenfassung (a, b) heißt geordnetes Paar. Anders
als bei einer Menge, bei der es nicht auf die Reihenfolge der Auflistung der Elemente
ankommt, ist bei einem geordneten Paar die Reihenfolge entscheidend und es
gilt:
(a, b) = (c, d)
ist genau dann erfüllt, wenn a = c und b = d gilt.
Insbesondere ist (a, b) 6= (b, a) für a 6= b.
Die Menge aller geordneten Paare von A und B,
A × B = (a, b) a ∈ A und b ∈ B ,
heißt das kartesische Produkt der Mengen A und B.
Beispiel 2.15. ((x, y)-Ebene als kartesisches Produkt) Die (x, y)-Koordinatenebene
ist
R2 = R × R, also das kartesische Produkt von R mit R.
Beispiel 2.16. (kartesisches Produkt) Seien A = {1, 2, 3} und B = {7, 8}. Dann ist
das kartesische Produkt A × B von A und B gegeben durch
A × B = (1, 7), (1, 8), (2, 7), (2, 8), (3, 7), (3, 8) .
Das kartesische Produkt B × A von B und A ist gegeben durch
B × A = (7, 1), (7, 2), (7, 3), (8, 1), (8, 2), (8, 3) .
2. Mengenlehre, mathematische Aussagen und Beweistechniken
B
55
A×B
A
Abb. 2.6: Veranschaulichung des kartesischen Produkts zweier Mengen A und B: Dabei
muss man A als ein (horizontales) Intervall auf der x-Achse und B als ein (vertikales)
Intervall auf der y-Achse interpretieren. Die Menge A × B aller geordneten Paare (a, b)
entspricht dann allen Punkten (a, b) mit a ∈ A und b ∈ B in der (x, y)-Ebene. Dies sind
aber gerade alle Punkte in dem schraffierten Rechteck.
Bemerkung 2.17. (A × B 6= B × A) Wie man an dem vorigen Beispiel direkt sieht, gilt
im Allgemeinem
A × B 6= B × A.
Zuletzt führen wir den Begriff der Mächtigkeit oder Kardinalität einer Menge ein.
Definition 2.18. (Mächtigkeit/Kardinalität einer Menge)
(i) Sei A eine Menge mit endlich vielen Elementen. Dann ist die Mächtigkeit oder
Kardinalität |A| dieser Menge die Anzahl der Elemente in der Menge A.
(ii) Sei B eine Menge mit unendlich vielen Elementen. Dann nennen wir B abzählbar, wenn wir die Elemente der Menge B durchnummerieren (also abzählen) können.
Ist die Menge B nicht abzählbar, so nennen wir sie überabzählbar.
Betrachten wir ein paar Beispiele.
Beispiel 2.19. (Mächtigkeit/Kardinalität einer Menge)
(a) Die Menge A = {3, 4, 5, 6, 7} hat 5 Elemente; also ist ihre Mächtigkeit/Kardinalität
|A| = 5.
(b) Die Menge B = {α, β, γ} hat die Mächtigkeit/Kardinalität |B| = 3.
(c) Die Menge der natürlichen Zahlen N ist abzählbar, indem wir jede natürliche Zahl
gerade mit sich selbst nummerieren.
(d) Die Menge der ganzen Zahlen Z ist abzählbar, indem wir die ganzen Zahlen z.B. in
der aufgelisteten Reihenfolge durchnummerieren:
0, −1, 1, −2, 2, −3, 3, . . . , −n, n, −(n + 1), n + 1, . . . .
56
2.2. Mathematische Aussagen und Aussagenlogik
(e) Die Menge der rationalen Zahlen Q ist ebenfalls abzählbar. Dies ist nicht so leicht
nachzuweisen; man muss sich für den Nachweis eine geeignete Durchnummerierung
der rationalen Zahlen überlegen.
(f) Die Menge der reellen Zahlen R ist überabzählbar. Dies ist nicht so leicht nachzuweisen.
2.2
Mathematische Aussagen und Aussagenlogik
In diesem Teilkapitel diskutieren wir, was eine (mathematische) Aussage ist und lernen,
wie man Aussagen verneint und sie mit und“ bzw. oder“ verknüpfen kann.
”
”
Wir definieren zunächst, was eine (mathematische) Aussage ist.
Definition 2.20. (Aussage) Unter einer Aussage A verstehen wir einen Satz, der
entweder wahr oder falsch ist. Jeder Aussage kann man also einen der beiden Wahrheitswerte wahr (abgekürzt: w) oder falsch (abgekürzt: f ) zuordnen.
Betrachten wir ein paar Beispiele für Aussagen.
Beispiel 2.21. (Aussagen)
(a) Die Aussage Deutschland liegt in Europa.“ ist wahr.
”
(b) Die Aussage 1 · a = a für alle a ∈ R“ ist wahr.
”
(c) Die Aussage Alle Kühe sind weiß.“ ist falsch, da es auch braune, schwarze und ge”
scheckte Kühe gibt.
(d) Die Aussage 0 · 7 = 1“ ist falsch.
”
Wir können für jede Aussage auch ihre Verneinung, mathematisch Negation“ genannt,
”
bilden, die ebenfalls eine Aussage ist.
Definition 2.22. (Negation/Verneinung) Die Negation (oder Verneinung) der
Aussage A wird mit ¬A ( nicht a“) bezeichnet. Der Wahrheitswert der Negation ¬A
”
hängt vom Wahrheitswert der Aussage A ab: Ist A wahr, so ist die Negation ¬A falsch,
und ist A falsch, so ist die Negation ¬A wahr.
Betrachten wir die Negation unserer Aussagen aus Beispiel 2.21.
Beispiel 2.23. (Negation/Verneinung von Aussagen)
(a) Die Negation der wahren Aussage Deutschland liegt in Europa.“ ist die falsche Aus”
sage Deutschland liegt nicht in Europa.“.
”
(b) Die Negation der wahren Aussage 1 · a = a für alle a ∈ R“ ist die falsche Aussage Es
”
”
gibt ein a ∈ R mit 1 · a 6= a.“.
2. Mengenlehre, mathematische Aussagen und Beweistechniken
57
(c) Die Negation der falschen Aussage Alle Kühe sind weiß.“ ist die wahre Aussage Nicht
”
”
alle Kühe sind weiß.“ oder (gleichwertig dazu) Es gibt Kühe, die nicht weiß sind.“
”
(d) Die Negation der falschen Aussage 0 · 7 = 1“ ist die wahre Aussage 0 · 7 6= 1“.
”
”
Beachten Sie, dass die Negation nicht 0 · 7 = 0“ ist.
”
Wir können zwei Aussagen A und B mit und“ bzw. mit oder“ verbinden. Der Wahr”
”
heitswert der so erhaltenen Aussage A und B“ bzw. A oder B“ hängt natürlich von den
”
”
Wahrheitswerten der beiden Aussagen A und B ab.
Definition 2.24. (Konjunktion und Disjunktion)
(i) Die Konjunktion verknüpft zwei Aussagen A, B durch und: A und B“, bzw. in
”
Formeln A∧B“. Beide Aussagen A und B müssen wahr sein, damit die Konjunktion
”
A ∧ B wahr ist.
(ii) Die Disjunktion verknüpft zwei Aussagen A, B durch das nicht ausschließende
oder: A oder B“, bzw. in Formeln A ∨ B“. Es muss mindestens eine der beiden
”
”
Aussagen A oder B wahr sein, damit die Disjunktion A ∨ B wahr ist. (Es dürfen
aber auch beide wahr sein – im Gegensatz zum alltäglichen Gebrauch von oder“ als
”
entweder . . . oder“.)
”
Betrachten wir zunächst ein Beispiel.
Beispiel 2.25. (Konjunktion und Disjunktion) Eine Geldbörse enthalte 20 Euro.
Dann ist die Aussage A Die Geldbörse enthält mehr als 10 Euro.“ wahr. Die Aussage B
”
Die Geldbörse enthält mehr als 30 Euro.“ ist falsch.
”
Die Aussage A ∧ B ist Die Geldbörse enthält mehr als 10 Euro und mehr als 30 Euro.“.
”
Diese Aussage ist offensichtlich falsch. Wir wissen aber auch, dass A ∧ B falsch ist, ohne
die Aussage A ∧ B zu formulieren, weil eine der beiden Aussagen A bzw. B falsch ist.
(Beachten Sie, dass Die Geldbörse enthält mehr als 10 Euro und mehr als 30 Euro.“
”
natürlich gleichwertig zu der Aussage Die Geldbörse enthält mehr als 30 Euro.“ ist.)
”
Die Aussage A ∨ B ist Die Geldbörse enthält mehr als 10 Euro oder mehr als 30 Euro.“.
”
Diese Aussage ist offensichtlich wahr. Wir wissen aber auch, dass A ∨ B wahr ist, ohne
die Aussage A ∨ B zu formulieren, weil (mindestens) eine der beiden Aussagen A bzw. B
wahr ist.
Die Aussage A ∧ ¬B ist wahr, denn A ist wahr und ¬B ist wahr (da B falsch ist). In
dem Beispiel ist ¬B die Aussage Die Geldbörse enthält nicht mehr als 30 Euro.“ (oder
”
gleichwertig Die Geldbörse enthält höchstens 30 Euro.“). Die Aussage A ∧ (¬B) ist dann
”
Die Geldbörse enthält mehr als 10 Euro und nicht mehr als 30 Euro.“.
”
Als Nächstes betrachten wir die Negation/Verneinung der Konjunktion bzw. Disjunktion
zweier Aussagen.
58
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Lemma 2.26. (Negation zweier durch Disjunktion bzw. Konjunktion verknüpfter Aussagen) Seien A, B zwei Aussagen.
(i) Für die Verneinung von durch Disjunktion verknüpften Aussagen gilt:
Die Aussage ¬(A ∨ B)“ ( nicht (A oder B)“) bedeutet dasselbe wie die Aussage
”
”
(¬A) ∧ (¬B)“ ( nicht A und nicht B“).
”
”
(ii) Für die Verneinung von durch Konjunktion verknüpften Aussagen gilt: Die
Aussage ¬(A∧B) ( nicht (A und B)“) bedeutet dasselbe wie die Aussage (¬A)∨(¬B)
”
( nicht A oder nicht B.“).
”
Betrachten wir wieder die Aussagen aus unserem Beispiel 2.25.
Beispiel 2.27. (Kunjunktion und Disjunktion) Eine Geldbörse enthalte 20 Euro.
Dann ist die Aussage A Die Geldbörse enthält mehr als 10 Euro.“ wahr. Die Aussage B
”
Die Geldbörse enthält mehr als 30 Euro.“ ist falsch. Die Verneinungen der beiden Aussa”
gen sind: ¬A Die Geldbörse enthält nicht mehr als 10 Euro.“ oder gleichbedeutend Die
”
”
Geldbörse enthält höchstens 10 Euro.“ und ¬B Die Geldbörse enthält nicht mehr als 30
”
Euro.“ oder gleichbedeutend Die Geldbörse enthält höchstens 30 Euro.“.
”
Da die Aussage A ∧ B Die Geldbörse enthält mehr als 10 Euro und mehr als 30 Eu”
ro.“ falsch ist, folgt, dass die Aussage ¬(A ∧ B) = (¬A) ∨ (¬B) wahr ist. Die Aussage
(¬A) ∨ (¬B) ist Die Geldbörse enthält höchstens 10 Euro oder höchstens 30 Euro.“.
”
Diese Aussage ist in der Tat wahr.
Da die Aussage A ∨ B Die Geldbörse enthält mehr als 10 Euro oder mehr als 30 Eu”
ro.“ wahr ist, folgt, dass die Aussage ¬(A ∨ B) = (¬A) ∧ (¬B) falsch ist. Die Aussage
(¬A) ∧(¬B) ist Die Geldbörse enthält höchstens 10 Euro und höchstens 30 Euro.“. Diese
”
Aussage ist in der Tat falsch, denn die Geldbörse enthält mehr als 10 Euro.
Bemerkung 2.28. (Negation von und“ bzw. oder“) Wir können uns als Faustre”
”
”
gel“ merken, dass bei der Negation einer Verknüpfung von Aussagen aus einem
und“ ein oder“ wird und dass aus einem oder“ ein und“ wird. Vergleiche
”
”
”
”
hierzu auch Lemma 2.26.
2.3
Implikationen, Äquivalenzen und elementare Beweismethoden
In diesem Teilkapitel untersuchen wir die Struktur mathematischer Aussagen und lernen
an Beispielen die grundlegenden Beweistechniken zum Nachweis solcher mathematischer
Aussagen kennen.
Betrachten wir zunächst ein einfaches Beispiel einer mathematischen Aussage.
Beispiel 2.29. ( wenn dann“-Aussage/Implikation) Betrachten wir die folgende
”
Aussage:
2. Mengenlehre, mathematische Aussagen und Beweistechniken
59
Wenn n ∈ N eine gerade Zahl ist, dann ist n2 ∈ N eine gerade Zahl.“
”
Diese Aussage können wir auch wie folgt formulieren:
Aus der Aussage, n ∈ N ist eine gerade Zahl, folgt, dass n2 ∈ N eine gerade Zahl ist.“
”
oder kürzer:
n ∈ N ist eine gerade Zahl. =⇒ n2 ∈ N ist eine gerade Zahl.“
”
Dabei ist der Implikations-Pfeil =⇒“ als daraus folgt“ zu lesen.
”
”
Wir bemerken zuerst, dass diese Aussage richtig ist, indem wir einen direkten Beweis
geben:
Wir definieren für n ∈ N, dass n gerade ist, wenn n durch 2 teilbar ist, also wenn gilt
n/2 = m ∈ N oder gleichwertig n = 2 m mit m ∈ N.
Beweisen wir nun die Aussage:
Per Voraussetzung ist n ∈ N gerade, also durch 2 teilbar, also n = 2 m für ein m ∈ N.
Daraus folgt aber auch, dass n2 durch 2 teilbar ist, denn n2 = (2 m)2 = 2 · (2 m2 ) und
2 m2 ∈ N. Also ist n2 ∈ N gerade.
Betrachten wir nun den Typ Aussage im vorigen Beispiel genauer: Wir haben eine Aussage
der Form:
Wenn die Aussage A gilt, dann gilt die Aussage B.“
”
(2.2)
Aus der Aussage A folgt die Aussage B.“
”
(2.3)
bzw.
oder kürzer:
Aussage A gilt. =⇒ Aussage B gilt.“
(2.4)
”
Im obigen Beispiel sind Aussage A n ∈ N ist eine gerade Zahl.“ und Aussage B n2 ∈ N
”
”
ist eine gerade Zahl.“. Eine Aussage der Form (2.2), (2.3) bzw. (2.4) nennt man eine Implikation. Wir sprechen auch von einer wenn dann“-Aussage. Dabei ist die Aussage
”
A die Voraussetzung und die Aussage B die Behauptung, welche zu zeigen ist, wenn
wir (2.2), (2.3) bzw. (2.4) beweisen wollen. Den Implikations-Pfeil =⇒“ kann man als
”
daraus folgt“ lesen.
”
Im Beispiel 2.29 haben wir die gegebene wenn dann“-Aussage/Implikation bereits bewie”
sen, indem wir eine Reihe von Schlussfolgerungen aus der Voraussetzung gezogen haben,
bis wir die Behauptung nachgewiesen hatten. Dies ist ein direkter Beweis: Man startet
mit der Voraussetzung und leitet daraus mit einer Reihe von Schlussfolgerungen die Behauptung her. Genauer können wir jede Schlussfolgerung auch als eine
Implikation aus der Voraussetzung bzw. aus vorherigen Schlussfolgerungen auffassen.
Betrachten wir noch ein weiteres Beispiel, um uns wenn dann“-Aussagen/Implikationen
”
und einen direkten Beweis klar zu machen.
60
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Beispiel 2.30. ( wenn dann“-Aussage/Implikation) Betrachten wir die folgende
”
Aussage:
Das Produkt einer geraden und einer ungeraden Zahl ist eine gerade Zahl.“
”
Zunächst müssen wir diese Aussage sauber als wenn dann“-Aussage/Implikationen for”
mulieren. Wir haben folgende Voraussetzung (Aussage A): n ∈ N ist eine gerade Zahl
”
und m ∈ N ist eine ungerade Zahl.“ Die Behauptung (Aussage B) ist dann: Das
”
Produkt n · m ∈ N ist eine gerade Zahl.“ Also haben wir die folgende wenn dann“”
Aussage/Implikation:
Wenn n ∈ N eine gerade Zahl und m ∈ N eine ungerade Zahl ist, dann ist das Produkt
”
n · m ∈ N eine gerade Zahl.“
bzw.
Aus der Aussage, n ∈ N ist eine gerade Zahl und m ∈ N ist eine ungerade Zahl, folgt,
”
dass das Produkt n · m ∈ N eine gerade Zahl ist.“
oder kürzer:
n ∈ N ist eine gerade Zahl, und m ∈ N ist eine ungerade Zahl.
”
n · m ∈ N ist eine gerade Zahl.“
=⇒
Das Produkt
Wir wollen diese Aussage nun mit einem direkten Beweis beweisen:
Da n gerade ist, gilt n ist durch zwei teilbar, also n/2 = p bzw. gleichwertig n = 2 p mit
p ∈ N. Also gilt n · m = (2 p) m = 2 (p · m). Division durch 2 liefert (n · m)/2 = p · m ∈ N,
d.h. n · m ist durch 2 teilbar. Also ist n · m gerade.
Wir können den direkten Beweis auch mit Implikations-Pfeilen hinschreiben:
Voraussetzung: n ∈ N ist gerade
=⇒
n ist durch 2 teilbar.
=⇒
n/2 = p mit p ∈ N
=⇒
=⇒
=⇒
=⇒
=⇒
n = 2 p mit p ∈ N
n · m = (2 p) m = 2 (p · m)
(n · m)/2 = p · m ∈ N
n · m ist durch 2 teilbar.
n · m ist gerade.
Wir bemerken, dass wir in dem Beweis gar nicht die andere Voraussetzung, dass m ungerade ist, verwendet haben. Dies liegt daran, dass sie nicht erforderlich ist. Auch wenn
m ∈ N gerade ist, ist das Produkt n · m für gerades n ∈ N eine gerade Zahl!
Wie wir bereits gesehen haben, ist es bei der Implikation (2.2), (2.3) bzw. (2.4) wichtig
zu beachten, dass die Aussage A die Voraussetzung und die Aussage B die Behauptung
2. Mengenlehre, mathematische Aussagen und Beweistechniken
61
ist. Man kann aber natürlich auch die Frage stellen, ob ebenfalls die Implikation
Wenn die Aussage B gilt, dann gilt die Aussage A.“
”
(2.5)
Aus der Aussage B folgt die Aussage A.“
”
(2.6)
Aussage B gilt. =⇒ Aussage A gilt.“
”
gilt? Dies ist im Allgemeinen nicht der Fall!
(2.7)
bzw.
oder kürzer:
Gelten allerdings (2.2) und (2.5) ((2.3) und (2.6) bzw. (2.4) und (2.7)), so sagen
wir Die Aussage A ist äquivalent zur Aussage B.“ und sagen explizit:
”
Die Aussage A gilt genau dann, wenn die Aussage B gilt.“
(2.8)
”
oder kürzer:
Aussage A gilt. ⇐⇒ Aussage B gilt.“
(2.9)
”
Wollen wir eine Äquivalenz, also dass zwei Aussagen A und B äquivalent sind, beweisen,
so müssen wir (2.2) und (2.5) ((2.3) und (2.6) bzw. (2.4) und (2.7)) beweisen.
Betrachten wir zwei Beispiele, um uns die Äquivalenz von Aussagen klar zu machen.
Beispiel 2.31. (Äquivalenz von Aussagen) Wir wollen zeigen, dass gilt:
n2 = 4
⇐⇒
n = 2 oder n = −2 ,
oder in Worten:
Die Zahl n2 hat genau dann den Wert 4, wenn gilt n = 2 oder n = −2.“
”
Um diese Aussage mit einem direkten Beweis nachzuweisen, müssen wir also beide Richtungen zeigen:
n2 = 4
=⇒
n = 2 oder n = −2 ,
(2.10)
n = 2 oder n = −2
=⇒
n2 = 4.
(2.11)
√
Beweis von (2.10): Sei also n2 = 4. Dann ist n = 2 = 4 eine Lösung der Gleichung n2 =
4. Weiter gilt aber auch (−2)2 = 4. Damit sind n1 = 2 und n2 = −2 beides Lösungen von
n2 = 4. Eine quadratische Gleichung hat aber aber maximal zwei verschiedene Lösungen.
Also haben wir mit n1 = 2 und n2 = −2 alle Lösungen von n2 = 4 gefunden.
Beweis von (2.11): Für n = 2 finden wir n2 = 22 = 4, und für n = −2 finden wir
n2 = (−2)2 = 4. Also gilt in beiden Fällen n2 = 4.
Bevor wir ein weiteres Bespiel betrachten, machen wir uns klar, dass nicht alle Aussagen Äquivalenzen sind: Wir haben in Abwandlung des vorigen Beispiels sehr wohl
n=2
=⇒
n2 = 4,
aber aus n2 = 4 folgt nicht n = 2 (sondern n = 2 oder n = −2“).
”
62
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Beispiel 2.32. (Äquivalenz von Aussagen) Wir wollen die folgende Aussage beweisen:
n ist genau dann eine natürliche Zahl, wenn 2 n eine gerade natürliche Zahl ist.“
”
oder kürzer:
n ist eine natürliche Zahl. ⇐⇒ 2 n ist eine gerade natürliche Zahl.“
”
Wir geben also einen direkten Beweis der beiden folgenden Aussagen:
(2.12)
n ist eine natürliche Zahl.
=⇒
2 n ist eine gerade natürliche Zahl.
(2.13)
2 n ist eine gerade natürliche Zahl.
=⇒
n ist eine natürliche Zahl.
(2.14)
Beweis von (2.13):
n ∈ N ⇒ 2 n ∈ N und
2n
= n ∈ N ⇒ 2 n ist durch 2 teilbar ⇒ 2 n ∈ N ist gerade
2
Beweis von (2.14):
2 n ∈ N ist gerade ⇒ 2 n ist durch 2 teilbar ⇒
2n
=n∈N ⇒ n∈N
2
Damit haben wir die Äquivalenz (2.12) bewiesen.
Die wenn dann“-Aussage/Implikation (2.2), (2.3) bzw. (2.4) ist äquivalent zu
”
der Aussage
Wenn die Aussage ¬B gilt, dann gilt die Aussage ¬A.“
”
(2.15)
Aus der Aussage ¬B folgt die Aussage ¬A.“
”
(2.16)
bzw.
oder kürzer:
Aussage ¬B gilt.
=⇒ Aussage ¬A gilt.“
(2.17)
”
Man nennt (2.15), (2.16) bzw. (2.17) die Kontraposition der Aussage (2.2), (2.3) bzw. (2.4).
Um (2.2), (2.2) bzw. (2.4) zu beweisen, können wir also einfach (2.15), (2.16) bzw. (2.17)
beweisen. Manchmal ist dies einfacher.
Betrachten wir ein Beispiel.
Beispiel 2.33. (Beweis einer Aussage mittels Beweis der Kontraposition) Wir
wollen die folgende Aussage beweisen, indem wir ihre Kontraposition beweisen:
Wenn n eine natürliche Zahl ist, dann ist 2 n eine gerade natürliche Zahl.“
”
bzw.
Aus n ∈ N folgt 2 n ∈ N ist gerade.“
”
oder kürzer:
n ist eine natürliche Zahl.
”
=⇒
2 n ist eine gerade natürliche Zahl.“
2. Mengenlehre, mathematische Aussagen und Beweistechniken
63
Zunächst formulieren wir die Kontraposition:
Wenn 2 n keine gerade natürliche Zahl ist, dann ist n keine natürliche Zahl.“
”
bzw.
Aus 2 n ∈ N ist nicht gerade, folgt n ∈
/ N.“
”
oder kürzer:
2 n ist keine gerade natürliche Zahl. =⇒ n ist keine natürliche Zahl.“
”
Beweis mit Kontraposition: Sie 2 n keine gerade natürliche Zahl. Dann ist 2 n nicht durch
2 teilbar; also ist (2 n)/2 = n keine natürliche Zahl.
oder kürzer mit den Implikations-Pfeilen
2 n ist keine gerade natürliche Zahl.
=⇒
=⇒
2n
=n∈
/N
2
n ist keine natürliche Zahl.
Wir lernen noch eine weitere Beweistechnik kennen, um wenn dann“-Aussagen/Implikationen
”
zu beweisen: Die wenn dann“-Aussage/Implikation
”
Wenn die Aussage A gilt, dann gilt die Aussage B.“
”
bzw.
Aus der Aussage A folgt die Aussage B.“
”
oder kürzer
Aussage A gilt. =⇒ Aussage B gilt.“
”
können wir auch wie folgt mit einem sogenannten Widerspruchsbeweis beweisen: Wir
nehmen an, dass die Voraussetzung, also Aussage A, gilt. Dann nehmen wir an, dass
die Aussage B nicht gilt, d.h. wir nehmen an, dass die Negation der Aussage B, also
¬B, gilt. Wenn wir hieraus einen Widerspruch herleiten können, dann wissen wir dass
unsere Annahme, dass ¬B gilt, falsch war. Also muss die Aussage B gelten.
Betrachten wir zunächst ein einfaches Beispiel, um uns klar zu machen, wie ein Widerspruchsbeweis funktioniert.
Beispiel 2.34. (Widerspruchsbeweis) Wir wollen die folgende Aussage mit einem
Widerspruchsbeweis beweisen:
Wenn n ∈ N gerade ist, dann ist n2 ∈ N gerade.“
”
Als Voraussetzung (Aussage A) haben wir dann n ∈ N ist gerade.“, und als Behauptung
”
(Aussage B) haben wir n2 ∈ N ist gerade.“. Für den Widerspruchsbeweis nehmen wir
”
an, dass die Voraussetzung wahr ist, aber dass die Behauptung falsch ist, d.h. dass ihre
Negation wahr ist.
64
2.3. Implikationen, Äquivalenzen und elementare Beweismethoden
Widerspruchsbeweis: Sei also n ∈ N gerade, und es gelte n2 ∈ N ist nicht gerade. Dann ist
n2 nicht durch 2 teilbar. Daraus folgt, dass n nicht durch 2 teilbar ist (denn ansonsten wäre
n2 auch durch 2 teilbar). Also ist n nicht gerade, und wir haben einen Widerspruch.
Da wir einen Widerspruch gefunden haben, folgt, dass die Annahme n2 ∈ N ist nicht
”
gerade.“ falsch war. Also muss n2 ∈ N gerade sein.
√
Betrachten wir noch ein aufwendigeres Beispiel. Aus√der Schule wissen Sie, das 2 keine
rationale Zahl sondern eine irrationale Zahl ist (d.h. 2 ist eine reelle Zahl, die man nicht
als einen Bruch schreiben kann). Dies wollen wir nun beweisen.
Beispiel 2.35. (Widerspruchsbeweis) Wir wollen die folgende Aussage beweisen:
√
Die Zahl 2 ist nicht in Q.“
”
Wir formulieren dies besser (aber äquivalent) als:
Sei x die nicht-negative Zahl in R mit x2 = 2. Dann ist x nicht in Q.“
(2.18)
”
√
Hierbei haben wir benutzt, das die Quadratwurzel 2 gerade als die nicht-negative Zahl
x in R mit x2 = 2 definiert ist.
Hier ist also die Voraussetzung (Aussage A) Sie x die nicht-negative Zahl in R mit
”
x2 = 2.“, und die Behauptung (Aussage B) ist x ist nicht in Q.“
”
Wir wollen einen Widerspruchsbeweis geben. Also nehmen wir an, dass die Voraussetzung
gilt aber die Behauptung falsch ist, also dass die Negation der Behauptung (also die
Aussage ¬B) gilt:
Widerspruchsbeweis: Sei x die nicht-negative Zahl in R mit x2 = 2. Wir nehmen an, dass
x in Q liegt. Dann gibt es Zahlen p ∈ N und q ∈ N mit
x=
p
.
q
(2.19)
Wir dürfen annehmen, dass wir in dem Bruch x = p/q den Zähler p und Nenner q nicht
mehr kürzen können, also dass p und q keine gemeinsamen Teiler haben.
Durch Quadrieren auf beiden Seiten vom (2.19) erhalten wir
2
p
p2
=
x
=
|{z}
q
q2
=2
2
=⇒
2=
p2
q2
=⇒
2 q 2 = p2
=⇒
p2 = 2 q 2 .
Aus p2 = 2 q 2 folgt, dass p2 durch 2 teilbar ist, denn p2 /2 = (2 q 2 )/2 = q 2 ∈ N. Da 2 eine
Primzahl ist, folgt aus 2 teilt p2“ aber, dass 2 die Zahl p teilt. Also gilt p/2 = m mit
”
m ∈ N, d.h. p = 2 m mit m ∈ N.
Einsetzen von p = 2 m in p2 = 2 q 2 liefert nun
(2 m)2 = 2 q 2
=⇒
2 (2 m2 ) = 2 q 2
=⇒
2 m2 = q 2 .
=⇒
q 2 = 2 m2 .
2. Mengenlehre, mathematische Aussagen und Beweistechniken
65
Also ist (mit der gleichen Argumentation wie oben) q 2 ebenfalls durch 2 teilbar. Da 2 eine
Primzahl ist, folgt aus 2 teilt q 2“ aber, dass 2 die Zahl q teilt. Also gilt q/2 = n mit
”
n ∈ N, d.h. q = 2 n mit n ∈ N.
Wir haben also gefunden, dass sowohl p also auch q durch 2 teilbar sind, also p = 2 m
und q = 2 n. Damit finden wir
x=
p
2m
m
=
= ,
q
2n
n
und dies steht im Widerspruch zu unserer Annahme, dass der Zähler p und Nenner q
in x = p/q keine gemeinsamen Teiler hatten.
√
2 rational
Da wir einen Widerspruch hergeleitet haben,√war unsere Annahme, dass
x
=
√
ist falsch. Also haben wir gezeigt, dass x = 2 irrational ist, also x = 2 ∈
/ Q.
2.4
Vollständige Induktion
Als letzte Beweismethode lernen wir das Prinzip der vollständigen Induktion kennen.
Mit dem Prinzip der vollständigen Induktion kann man Aussagen beweisen, die für alle
natürlichen Zahlen n (oder alle natürlichen Zahlen n ≥ n0 ) gelten.
Betrachten wir zunächst ein paar Beispiele für Aussagen, die man mit vollständiger Induktion beweisen kann.
Beispiel 2.36. (Der kleine Gauß) Für alle natürlichen Zahlen n ∈ N gilt die Aussage
1 + 2 + 3+ ...+ n =
n
X
k=1
k=
n (n + 1)
.
2
Wir haben hier die Aussage A(n) 1 + 2 + 3 + . . . + n = n (n + 1)/2“, die wir für alle
”
n ∈ N beweisen müssen.
Beispiel 2.37. (Abschätzung) Für alle n ∈ N mit n ≥ 5 gilt 2n > n2 .
Hier haben wir also die Aussage A(n) 2n > n2“, die wir für jede natürliche Zahl n ≥ 5
”
beweisen müssen.
Solche Aussagen kann man mit dem Prinzip der vollständigen Induktion beweisen, welches
im nächsten Satz erklärt wird.
Satz 2.38. (Induktionsprinzip – Version I) Für eine Menge von Aussagen A(n),
n ∈ N, gilt: Ist
(i) A(1) wahr,
und gilt
(ii) für n ∈ N :
A(n) ist wahr =⇒ A(n + 1) ist wahr,
66
so gilt:
2.4. Vollständige Induktion
A(n) ist wahr für alle n ∈ N.
Will man zeigen, dass für eine Menge von Aussagen (i) und (ii) gelten, so muss man
in zwei Schritten vorgehen: Den Schritt in dem man (i) beweist nennt man den Induktionsanfang oder die Induktionsverankerung. Der Nachweis von (ii) heißt Induktionsschritt. Die Aussage “A(n) ist wahr” wird Induktionsvoraussetzung genannt,
und die zu zeigende Aussage “A(n + 1) ist wahr” heißt Induktionsbehauptung.
Dieses Vorgehen bezeichnet man als vollständige Induktion, und das Beweisprinzip ist
das Prinzip der vollständigen Induktion.
Wenden wir zunächst das Prinzip der vollständigen Induktion an, um die Aussage in
Beispiel 2.36 zu beweisen. Die Aussage in Beispiel 2.36 wurde übrigens von dem berühmten
Mathematiker Carl Friedrich Gauß (1777-1855) als 10-jährigen Schüler bewiesen.
Beispiel 2.39. (Der kleine Gauß – fortgesetzt) Für alle natürlichen Zahlen n ∈ N
gilt die Aussage
1+ 2 + 3 + ...+ n =
n
X
k=1
k=
n (n + 1)
.
2
(2.20)
Beweis: Wir beweisen die Behauptung durch vollständige Induktion.
Induktionsverankerung/Induktionsanfang (I.A.) n = 1: Dann gilt
1
X
k=1=
k=1
1 · (1 + 1)
.
2
Somit ist der Induktionsanfang gezeigt.
Induktionsvoraussetzung (I.V.): Die Aussage (2.20) gelte für beliebiges aber festes n ∈ N
mit n ≥ 1.
Induktionsschritt (I.S.) n → n + 1: Wir müssen also zeigen, dass die Gleichung (2.20)
auch für n + 1 gilt, wenn Sie für n richtig ist.
n+1
X
k=1
k = 1 + 2 + 3 + . . . + n + (n + 1)
{z
}
|
Pn
(I.V.) n(n+1)
= k=1 k =
2
n (n + 1)
+ (n + 1)
2
1
=
n (n + 1) + 2 (n + 1)
2
1
= (n + 1) (n + 2)
2
(n + 1) (n + 1) + 1
=
.
2
=
2. Mengenlehre, mathematische Aussagen und Beweistechniken
67
Wir haben also gezeigt, dass auch für n + 1 die Formel (2.20) wahr ist, wenn Sie für n
zutrifft. Dies beendet den Induktionsschritt.
Nach dem Prinzip der vollständigen Induktion folgt nun, dass die Aussage (2.20) für alle
n ∈ N wahr ist.
Warum funktioniert das Prinzip der vollständigen Induktion?
Wir wollen eine Aussage A(n) für alle n ∈ N beweisen.
• Wir beweisen als erstes, dass A(1) wahr ist (Induktionsanfang).
• Dann beweisen wir im Induktionsschritt für beliebiges n ∈ N, dass aus A(n) ist wahr.“
”
folgt A(n + 1) ist wahr.“.
”
• Mit dem Induktionsschritt können wir für n = 1 aus der Gültigkeit von A(1) (Induktionsanfang) die Gültigkeit von A(2) schlussfolgern. Anschließend können wir mit dem
Induktionsschritt aus der Gültigkeit von A(2) die Gültigkeit von A(3) schlussfolgern,
usw.. So erhalten wir die Gültigkeit der Aussage A(n) für alle n ∈ N.
Wir haben also eine Art Domino-Effekt“:
”
A(1) ⇒ A(2) ⇒ A(3) ⇒ A(4) ⇒ . . . ⇒ A(n) ⇒ A(n + 1) ⇒ . . .
In der nächsten Bemerkung werden Varianten des Induktionsprinzips erklärt.
Bemerkung 2.40. (Varianten des Induktionsprinzips)
(1) Wir nehmen nun für einen Augenblick an, wir wollten eine Aussage per Induktion
zeigen und hätten den Induktionsanfang bereits bewiesen. In Satz 2.38 haben wir den
Induktionsschritt wie folgt angegeben:
Gilt für beliebiges aber festes n ≥ 1 die Aussage A(n) ist wahr.“ (Induktionsvoraus”
setzung), und folgt daraus A(n + 1) ist wahr.“, dann gilt die Aussage A(n) für alle
”
n ∈ N.
Alternativ hätten wir auch den folgenden Induktionsschritt durchführen können, der
natürlich zum selben Ergebnis führt:
Gilt für beliebiges aber festes n > 1 die Aussage A(n − 1) ist wahr.“ (Induktionsvor”
aussetzung), und folgt daraus A(n) ist wahr.“, dann gilt die Aussage A(n) für alle
”
n ∈ N.
Wir dürfen also den Induktionsschritt auch für n − 1 → n formulieren, ohne dass
sich etwas an dem Beweisprinzip ändert.
(2) Hat man eine Menge von Aussagen A(n) für n ∈ N mit n ≥ n0 , wobei n0 ∈ N,
gegeben, so ist der Induktionsanfang A(1) ist wahr.“ durch A(n0 ) ist wahr.“ zu
”
”
ersetzen, und der Induktionsschritt ist für n ∈ N mit n ≥ n0 zu beweisen. Der
Beweis zeigt dann natürlich nur die Gültigkeit von A(n) für n ≥ n0 .
Die Aussage in Beispiel 2.37 gilt nur für n ≥ 5, wie im Fall (2) der vorigen Bemerkung.
Wir wollen diese nun mit vollständiger Induktion beweisen.
68
2.4. Vollständige Induktion
Beispiel 2.41. (Abschätzung – fortgesetzt) Für alle n ∈ N mit n ≥ 5 gilt 2n > n2 .
D.h. wir wollen die Aussage A(n)
2n > n2
für alle natürlichen Zahlen n ≥ 5 = n0 beweisen.
Induktionsanfang (I.A.) n = 5: Die Aussage gilt für n = 5, denn
25 = 32 > 25 = 52 .
Induktionsvoraussetzung (I.V.): Es gelte 2n > n2 für ein festes (aber beliebiges) n ≥ 5.
Induktionsschritt (I.S.) n → n + 1: Wir starten mit der linken Seite der Abschätzung und
nutzen unsere Induktionsvoraussetzung aus:
2n+1 = 2 · |{z}
2n > 2 · n2 .
> n2
(2.21)
2 · n2 = n2 + n2 = n2 + n · n
(2.22)
Nun schreiben wir die linke Seite als
und nutzen im letzten Term, dass n ≥ 5 und damit n > 3 und n > 1 gilt. Also
n > n2 + 2 n + 1 = (n + 1)2 ,
n2 + |{z}
n · n > n2 + 3 · n = n2 + 2 n + |{z}
>1
>3
(2.23)
wobei wir im letzten Schritt die erste binomische Formel verwendet haben. Durch Kombinieren von (2.21), (2.22) und (2.23) erhalten wir
2n+1 > (n + 1)2 ,
und wir haben die Aussage für n + 1 gezeigt.
Nach dem Prinzip der vollständigen Induktion gilt die Abschätzung 2n > n2 damit für
alle n ∈ N mit n ≥ 5.
Wir formulieren eine zweite Variante des Induktionsprinzips, die natürlich zu der ersten
Variante äquivalent ist.
Satz 2.42. (Induktionsprinzip – Version II) Für eine Menge von Aussagen A(n),
n ∈ N, gilt: Ist
(i) A(1) wahr,
und gilt
(ii) für n ∈ N :
so gilt:
A(k) ist wahr für alle 1 ≤ k ≤ n =⇒
A(n) ist wahr für alle n ∈ N.
A(n + 1) ist wahr,
2. Mengenlehre, mathematische Aussagen und Beweistechniken
69
Gelegentlich ist diese zweite Version der vollständigen Induktion nützlich, weil man im
Induktionsschritt die Gültigkeit der Aussage A(k) nicht nur für k = n sondern auch für
k = n − 1 (und gegebenenfalls weitere k ≤ n) nutzen möchte.
Das Prinzip der vollständigen Induktion gibt uns leider keine Hilfsmittel, um gültige Sätze
zu formulieren. Um das Induktionsprinzip zu nutzen, müssen Sie bereits wissen, was Sie
beweisen wollen!
Bemerkung 2.43. (Was bei vollständiger Induktion zu beachten ist!) Für das
Induktionsverfahren ist es unerlässlich, dass Sie sowohl den Induktionsanfang als
auch den Induktionsschritt beweisen. Allein sagt keiner dieser Beweisschritte etwas
über die Gültigkeit der Aussage für alle natürlichen Zahlen aus.
Betrachten wir noch ein Beispiel.
Beispiel 2.44. (Vollständige Induktion) Wir wollen die Formel
1 + 3 + 5 + . . . + (2n − 3) + (2n − 1) =
mit vollständiger Induktion beweisen.
n
X
k=1
(2k − 1) = n2
für alle n ∈ N
(2.24)
Induktionsverankerung/Induktionsanfang (I.A.) n = 1: Für n = 1 ist
1
X
k=1
d.h. (2.24) gilt für n = 1.
(2k − 1) = 2 · 1 − 1 = 1 = 12 ,
Induktionsvoraussetzung (I.V.): Wir nehmen an, dass (2.24) für ein beliebiges festes n ∈ N
mit n ≥ 1 gilt.
Induktionsschritt (I.S.) n → n + 1: Wir müssen zeigen, dass die Gleichung (2.24) auch
mit n + 1 (statt n) gilt.
n+1
X
k=1
(2k − 1) =
+ 2(n + 1) − 1
1 + 3 + 5 + . . . + (2n − 1)
|
{z
}
P
= nk=1 (2k − 1) = n2 nach (I.V.)
= n2 + (2n + 1)
= n2 + 2 n + 1
= (n + 1)2 ,
d.h. (2.24) gilt auch mit n ersetzt durch n + 1.
Nach dem Prinzip der vollständigen Induktion haben wir damit (2.24) für alle n ∈ N
bewiesen.
Wir gehen noch kurz auf einige typische Probleme beim Erlernen von Induktionsbeweisen ein:
70
2.4. Vollständige Induktion
• Beachten Sie, dass Sie für einen Induktionsbeweis im Induktionsschritt n → n + 1 nicht
zeigen müssen, dass die Aussage für n bereits gilt. Dies setzen Sie voraus! Um sich dies
bewusst zu machen, notiert man die Induktionsvoraussetzung gesondert.
• Häufig ist es anfangs ein Problem, herauszufinden, was Sie eigentlich zeigen wollen.
Daher gilt: Notieren Sie sich die im Induktionsschritt zu beweisende Aussage als Erinnerung, was zu zeigen ist.
Teil II
Analysis
71
Kapitel 3
Funktionen und ihre grundlegenden
Eigenschaften
In diesem Kapitel führen wir den Begriff einer Funktion ein und lernen grundlegende
Eigenschaften von Funktionen, wie z.B. Monotonie und Beschränktheit, aber auch Injektivität, Surjektivität und Bijektivität kennen. Für bijektive und injektive Funktionen können wir schließlich die Umkehrfunktion einführen. In den späteren Teilen dieses
Kapitels werden wir diese neuen Eigenschaften für Polynome (affin lineare Funktionen,
quadratische Funktionen, etc.) und für die bereits in Teilkapitel 1.5 eingeführten trigonometrischen Funktionen betrachten.
3.1
Funktionen
Anschaulich versteht man unter einer Funktion eine Abbildung f , die eine Zuordnung
zwischen gewissen Objekten herstellt.
Dabei wird jedem Element x aus Df genau ein Objekt f (x) in Wf zugeordnet. In
der Abbildung 3.1 werden z.B. den Elementen a, b, c der Menge Df jeweils die ObjekDf
a
Wf
f
f (a)
b
f (b) = f (c)
c
Abb. 3.1: Illustration der Definition einer Funktion.
73
74
3.1. Funktionen
te f (a), f (b), f (c) der Menge Wf zugeordnet: Dies ist so zu verstehen, dass a ∈ Df das
Objekt f (a) ∈ Wf , b ∈ Df das Objekt f (b) ∈ Wf und c ∈ Df das Objekt f (c) ∈ Wf
zugeordnet wird. Dass in diesem Beispiel gilt f (b) = f (c) verursacht keine Probleme. –
Verboten wäre aber eine Zuordnung, die z.B. dem Element a ∈ Df zwei (oder mehrere) Objekte in Wf zuordnet; dies würde dem Begriff einer Funktion widersprechen.
In den naturwissenschaftlichen Anwendungen sind meist Funktionen zwischen Mengen
von reellen Zahlen von Interesse, also Df ⊂ R und Wf ⊂ R. Betrachten wir zunächst ein
Beispiel:
Beispiel 3.1. (Standardparabel) Die Funktion f , die x ∈ R auf f (x) = x2 ∈ R abbildet
beschreiben wir mathematisch als
x 7→ y = f (x) = x2 ,
f : R → R,
wobei f : R → R“ bedeutet, dass f reelle Zahlen im Definitionsbereich Df = R auf reelle
”
Zahlen im Wertebereich Wf = R abbildet. Die Funktionsvorschrift x 7→ y = f (x) = x2“
”
bedeutet, dass wir x aus Df = R auf y = f (x) = x2 aus Wf = R abbilden. Der Pfeil 7→“
”
wird dabei nur verwendet, wenn wir Objekte aufeinander abbilden; hier wird also x aus
Df auf y = f (x) = x2 aus Wf abgebildet.
Nachdem wir den Begriff einer Funktion schon an einem Beispiel betrachtet haben, wollen
wir den Funktionsbegriff nun sauber definieren.
Definition 3.2. (Funktion) Gegeben seien Mengen Df und Wf . Unter einer Funktion
f : Df → Wf
versteht man eine Abbildung f , die jedem Element x ∈ Df genau ein Element y = f (x)
aus Wf zuordnet. Eine konkrete Funktion wird entweder mit Hilfe einer Funktionsvorschrift x 7→ y = f (x)“, wobei f (x) durch eine konkrete Formel gegeben ist oder durch
”
das Aufzählen aller zugeordneten Paare angegeben wird. In einer Funktionsvorschrift, die
durch eine Formel für f (x) gegeben ist, läßt man häufig auch x 7→“ weg und gibt nur die
”
Formel für f (x) an.
Betrachten wir noch weitere Beispiele
Beispiel 3.3. (Sinusfunktion) Die Sinusfunktion
f : R → R,
f (x) = sin(x),
ist eine Funktion in Sinne von Definition 3.2. Hier wird jedem x ∈ R genau der Wert
f (x) = sin(x) zugeordnet.
Beispiel 3.4. (Funktion auf endlichen Mengen) Seien Df = {a, b, c} und Wf =
{α, β, γ}. Dann definiert
f : Df → Wf
eine Funktion.
mit
f (a) = α, f (b) = β, f (c) = γ
3. Funktionen und ihre grundlegenden Eigenschaften
75
Wir führen noch weitere Bezeichnungen im Zusammenhang mit Funktionen ein.
Definition 3.5. (Begriffe rund um Funktionen) Sei f : Df → Wf eine Funktion
mit der Funktionsvorschrift x 7→ y = f (x). Dann verwenden wir folgende Bezeichnungen:
• x heißt das Argument oder die unabhängige Variable.
• y heißt die abhängige Variable.
• f (x) heißt der Funktionswert (an der Stelle x) bzw. der Wert von f an der
Stelle x.
• Für ein festes y ∈ Wf heißt jedes x mit f (x) = y ein Urbild von y.
• Df heißt der Definitionsbereich (oder die Definitionsmenge) von f .
• Wf heißt der Wertebereich (oder die Zielmenge) von f .
Es müssen nicht alle Elemente im Wertebereich Wf als Funktionswerte auftreten. Die
Menge aller Elemente in Wf , die als Funktionswerte auftreten, also
Bf = y ∈ Wf y = f (x) für ein x ∈ Df ,
bezeichnet man als das Bild von f .
Betrachten wir nochmals unser motivierendes Beispiel 3.1 der Standardparabel.
Beispiel 3.6. Die Standardparabel
f : R → R,
x 7→ y = f (x) = x2 ,
hat in der neuen Terminologie den Definitionsbereich Df = R, den Wertebereich Wf = R
und die Funktionsvorschrift x 7→ y = f (x) = x2 oder kürzer f (x) = x2 . Die unabhängige
Variable ist x, die abhängige Variable ist y = f (x) = x2 , und f (x) = x2 ist der Funktionswert von f an der Stelle x. Da Quadrate immer nicht-negativ sind, gilt f (x) = x2 ≥ 0
für alle x ∈ R, und man zeigt leicht, dass das Bild von f die Menge
Bf = [0, ∞) = y ∈ R y ≥ 0
ist. In der Tat gilt wegen f (x) = x2 ≥ 0, dass
Bf = y ∈ R y = x2 für ein x ∈ R
√
eine Teilmenge von [0, ∞) ist, d.h. Bf ⊂ [0, ∞). Andererseits gilt aber für x = y mit
√
y ≥ 0 auch x2 = ( y)2 = y, d.h. y ≥ 0 ist im Bild Bf . Also gilt auch [0, ∞) ⊂ Bf . Aus
Bf ⊂ [0, ∞) und [0, ∞) ⊂ Bf folgt Bf = [0, ∞).
Bemerkung 3.7. Häufig werden Funktionen nur durch eine Funktionsvorschrift angegeben, z.B. f (x) = x2 , d.h. Definitionsbereich und Wertebereich werden nicht explizit
angegeben. In solchen Fällen besteht die Konvention, den sogenannten maximalen Definitionsbereich zu verwenden. Der maximale Definitionsbereich ist die größte Menge,
auf der die Funktion durch ihre Funktionsvorschrift in den reellen (oder komplexen) Zahlen
definiert werden kann.
76
3.1. Funktionen
Betrachten wir zwei Beispiele, um das Konzept des maximalen Definitionsbereichs zu
verstehen.
Beispiel 3.8. (maximaler Definitionsbereich) Die Funktionsvorschriften
√
1
und
(b) g(x) = x + 1
(a) f (x) = 2
x −1
definieren jeweils eine Funktion auf einer geeigneten Teilmenge der reellen Zahlen. Finden
Sie den maximalen Definitionsbereich für jede der beiden Funktionen.
Lösung:
(a) Bei der Funktionsvorschrift f (x) = 1/(x2 − 1) müssen wir beachten, dass der Nenner
für x = −1 und x = 1 Null wird. Da Division durch Null verboten ist, darf die
Variable x nicht die Werte x = −1 und x = 1 annehmen. Alle anderen reellen Zahlen
können wir bedenkenlos in die Funktionsvorschrift einsetzen. Also hat f den maximalen
Definitionsbereich Df = R \ {−1, 1}.
(b) Da die Wurzel nur für nicht-negative Zahlen gezogen werden kann, √
dürfen wir nur
Werte für x mit x + 1 ≥ 0 betrachten, also x ≥ −1. Daher hat g(x) = x + 1 hat den
maximalen Definitionsbereich Dg = {x ∈ R | x ≥ −1} = [−1, ∞).
Zur anschaulichen Darstellung einer Funktion f : Df → Wf mit Df ⊂ R und Wf ⊂ R
zeichnet man den (Funktions-)Graphen von f .
Definition 3.9. (Graph einer Funktion) Der Graph einer Funktion f : Df → Wf ,
x 7→ y = f (x), ist die Menge
Γ(f ) = (x, y) x ∈ Df und y = f (x) = x, f (x) x ∈ Df .
Ist Df ⊂ R und Wf ⊂ R, so können wir den Graphen von f darstellen, indem wir die
Punkte in Γ(f ) im (x, y)-Koordinatensystem zeichnen.
Beispiel 3.10. (Graph der Standardparabel) Der Graph der Funktion f : R → R,
f (x) = x2 , ist
Γ(f ) = (x, y) x ∈ R und y = x2 = (x, x2 ) x ∈ R .
Dieser ist in Abbildung 3.2 gezeichnet.
Beispiel 3.11. (Graph einer affin linearen Funktion) Die affin lineare Funktion
f : R → R, f (x) = a x + b, hat den Graphen
Γ(f ) = (x, y) x ∈ R und y = a x + b = x, a x + b x ∈ R ,
den wir in Abbildung 3.3 gezeichnet haben. Der Graph ist eine Gerade, denn die Steigung
a (x + ∆x) + b − a x + b
f (x + ∆x) − f (x)
f (x + ∆x) − f (x)
a ∆x
=
=
=
=a
(x + ∆x) − x
∆x
∆x
∆x
ist konstant. Wegen f (0) = a 0 + b =
b schneidet der Graph die y-Achse in y = b, oder in
anderen Worten der Punkt 0, f (0) = (0, b) gehört zum Graphen von f .
3. Funktionen und ihre grundlegenden Eigenschaften
77
Abb. 3.2: Graph von f (x) = x2 .
y
y = ax + b
∆y = f (x + ∆x) − f (x)
∆x
b
x
x + ∆x
x
Abb. 3.3: Graph der affin linearen Funktion f : R → R, f (x) = a x + b, wobei im Bild
a > 0 angenommen wurde, so dass die Gerade eine positive Steigung hat.
Wir lernen nun einige grundlegende Eigenschaften von Funktionen kennen.
78
3.1. Funktionen
Definition 3.12. (beschränkte Funktion) Sei f : Df → Wf , y = f (x), eine Funktion,
deren Definitionsbereich Df und Wertebereich Wf jeweils Teilmengen von R sind. Die
Funktion f heißt beschränkt, falls es eine Schranke M ≥ 0 gibt, so dass gilt
|f (x)| ≤ M
für alle x ∈ Df .
Ist eine Funktion nicht beschränkt, so nennt man sie unbeschränkt.
Betrachten wir zwei Beispiele.
Beispiel 3.13. (beschränkte Funktion) Die Funktion f : R → R, f (x) = sin(x), ist
beschränkt, denn mit der Schranke M = 1 gilt
für alle x ∈ R.
|f (x)| = | sin(x)| ≤ 1 = M
Beispiel 3.14. (unbeschränkte Funktion) Die Funktion g : R → R, g(x) = x2 ,
ist unbeschränkt, denn ihre Funktionswerte werden beliebig groß. Daher kann es keine
Schranke M > 0 geben, so dass |g(x)| = |x2 | = |x|2 ≤ M für alle x ∈ R gilt.
Die Begriffe gerade“ und ungerade“ haben mit Symmetrieeigenschaften der Funktion
”
”
zu tun.
Definition 3.15. (gerade und ungerade Funktionen) Sei f : Df → Wf eine Funktion, deren Definitionsbereich Df und Wertebereich Wf jeweils Teilmengen von R sind.
Weiter sei Df symmetrisch“, d.h. ist x ∈ Df , so folgt −x ∈ Df .
”
(i) Die Funktion f heißt gerade, falls gilt
f (−x) = f (x)
für alle x ∈ Df .
(ii) Die Funktion f heißt ungerade, falls gilt
f (−x) = −f (x)
für alle x ∈ Df .
Die Voraussetzung, dass Df symmetrisch“ ist, ist z.B. für Df = R oder Df = [−a, a]
”
mit a > 0 erfüllt.
Betrachten wir wieder zwei Beispiele.
Beispiel 3.16. (gerade Funktion) In Lemma 1.49 in Teilkapitel 1.5 haben wir gesehen,
dass die Kosinusfunktion g : R → R, g(x) = cos(x), die Eigenschaft
g(−x) = cos(−x) = cos(x) = g(x)
hat. Also ist die Kosinusfunktion eine gerade Funktion
für alle x ∈ R
3. Funktionen und ihre grundlegenden Eigenschaften
79
Beispiel 3.17. (ungerade Funktion) In Lemma 1.49 in Teilkapitel 1.5 haben wir gesehen, dass die Sinusfunktion f : R → R, f (x) = sin(x), die Eigenschaft
f (−x) = sin(−x) = − sin(x) = −f (x)
für alle x ∈ R
hat. Also ist die Sinusfunktion eine ungerade Funktion.
Abb. 3.4: Die Sinusfunktion und die Kosinusfunktion auf dem Intervall [−2π, 2π].
Die Eigenschaft, eine gerade bzw. eine ungerade Funktion zu sein, hat mit der Symme”
trie“ des Graphen zu tun, wie man an den Graphen der Sinusfunktion (linkes Bild in
Abbildung 3.4) und der Kosinusfunktion (rechtes Bild in Abbildung 3.4) gut sehen kann.
Die Eigenschaft
f (−x) = f (x)
für alle x ∈ Df .
bedeutet, dass wir für x und −x den gleichen Funktionswert bekommen. Also ist der
Graph einer geraden Funktion spiegelsymmetrisch an der y-Achse. Die Eigenschaft
f (−x) = −f (x)
für alle x ∈ Df .
bedeutet, dass wir für −x den Funktionswert −f (x) bekommen. Also ist der Graph einer
geraden Funktion drehsymmetrisch bzgl. einer Drehung um den Ursprung (0, 0)
mit 180◦ .
Zuletzt definieren wir noch periodische Funktionen.
Definition 3.18. (periodische Funktion) Sei f : Df → Wf eine Funktion mit Definitionsbereich Df = R und Wertebereich Wf . Die Funktion f heißt periodisch (mit der
Periodenlänge L), falls gilt
f (x + L) = f (x)
für alle x ∈ Df .
80
3.1. Funktionen
Anschaulich bedeutet Periodizität mit der Periodenlänge L das Folgende: Betrachten wir den Graphen einer periodischen Funktion mit der Periode L, und betrachten
wir ein beliebiges halboffenes Intervall der Länge L, z.B. [0, L), dann ist der Graph auf den
vorherigen bzw. nachfolgenden Intervallen der Länge L, also [−L, 0), [L, 2L), etc., genau
eine Kopie des Graphen auf dem ursprünglichen Intervall [0, L) der Länge L. Damit ist
eine periodische Funktion mit der Periode L durch ihre Werte auf [0, L) (oder
auf einem beliebigen anderen Intervall [x0 , x0 + L)) bereits eindeutig festgelegt.
Das klassische Beispiel für periodische Funktionen sind die Sinusfunktion und die Kosinusfunktion.
Beispiel 3.19. (periodische Funktionen) Die Funktionen f : R → R, f (x) = sin(x),
und g : R → R, g(x) = cos(x), sind nach ihrer Konstruktion periodisch mit der Periodenlänge 2π, denn (vgl. Definition 1.47 in Teilkapitel 1.5) es gilt:
f (x + 2π) = sin(x + 2π) = sin(x) = f (x)
g(x + 2π) = cos(x + 2π) = cos(x) = g(x)
für alle x ∈ R,
für alle x ∈ R.
Betrachten wir noch ein weiteres Beispiel.
Beispiel 3.20. (Rechteckschwingung) Die Rechteckschwingung (siehe Abbildung 3.5)
ist wie folgt definiert:
f (x) =
(
−1
1
x ∈ [2k − 1, 2k) für k ∈ Z,
wenn
x ∈ [2k, 2k + 1) für k ∈ Z.
wenn
(3.1)
Sie
ist periodisch mit
der Periode L = 2, denn: Für jedes x ∈ [2k − 1, 2k) ist x + 2 in
(2k −1)+2, 2k +2 = 2(k +1)−1, 2(k +1) , und somit gilt f (x)
= f (x+2) = −1. Analog
ist für x ∈ [2k, 2k + 1) der Punkt x + 2 in 2k + 2, (2k + 1) + 2 = 2(k + 1), 2(k + 1) + 1 ,
und damit gilt f (x) = f (x + 2) = 1. Die zeigt die Periodizität mit der Periode L = 2.
y
1
−3
−2
−1
1
2
3 x
−1
Abb. 3.5: Graph der Rechteckschwingung (3.1).
3. Funktionen und ihre grundlegenden Eigenschaften
3.2
81
Wachstumsverhalten von Funktionen
In diesem Teilkapitel beschäftigen wir uns mit dem Wachstumsverhalten von Funktionen,
d.h. mit der Frage, ob die Funktionswerte einer Funktion wachsen (also größer werden)
oder abnehmen (also kleiner werden), wenn die Werte der unabhängigen Variable größer
werden.
Definition 3.21. ((streng) monoton wachsend/fallend) Sei f : Df → Wf eine
Funktion, deren Definitionsbereich Df und deren Wertebereich Wf jeweils Teilmengen
der reellen Zahlen R sind. Sei I ⊂ Df ein Intervall.
(i) Die Funktion f heißt monoton wachsend auf I, falls die folgende Bedingung
erfüllt ist: Für alle x1 , x2 ∈ I mit x1 < x2 gilt f (x1 ) ≤ f (x2 ).
Gilt sogar für alle x1 , x2 ∈ I mit x1 < x2 die strenge Ungleichung f (x1 ) < f (x2 ),
dann heißt f streng monoton wachsend auf I.
(ii) Die Funktion f heißt monoton fallend auf I, falls die folgende Bedingung erfüllt
ist: Für alle x1 , x2 ∈ I mit x1 < x2 gilt f (x1 ) ≥ f (x2 ).
Gilt sogar für alle x1 , x2 ∈ I mit x1 < x2 die strenge Ungleichung f (x1 ) > f (x2 ),
dann heißt f streng monoton fallend auf I.
(iii) Die Funktion f heißt monoton (bzw. streng monoton) auf I, falls f auf I monoton wachsend oder monoton fallend (bzw. streng monoton wachsend oder streng
monoton fallend) ist.
Die Begriffe (streng) monoton wachsend“ und (streng) monoton fallend“ sind in Abbil”
”
dung 3.6 veranschaulicht.
Betrachten wie zwei Beispiele.
Beispiel 3.22. (affin lineare Funktion) Die affin lineare Funktion f : R → R, f (x) =
a x + b, ist:
• monoton wachsend auf R und monoton fallend auf R, wenn a = 0,
• streng monoton wachsend auf R, wenn a > 0,
• streng monoton fallend auf R, wenn a < 0.
Dies sieht man von der geometrischen Anschauung her direkt an dem Graphen der jeweiligen Funktion (vgl. Abbildung 3.7). Formal weist man es wie folgt nach: Seien x1 , x2 ∈ R
mit x1 < x2 . Dann gilt

falls a > 0,

 a x1 + b < a x2 + b = f (x2 )
0 x1 + b = b = 0 x2 + b = f (x2 )
falls a = 0,
f (x1 ) =


a x1 + b > a x2 + b = f (x2 )
falls a < 0,
wobei wir benutzt haben, dass aus x1 < x2 für a > 0 folgt, dass a x1 < a x2 ist, und dass
aus x1 < x2 für a < 0 folgt, dass a x1 > a x2 ist (bei Multiplikation mit negativen Zahlen
kehrt sich das Ungleichheitszeichen um).
82
3.2. Wachstumsverhalten von Funktionen
y
y
f (x2)
11
00
00
11
00
11
1
0
1
f (x1) 0
11
00
00
11
00
11
f (x1)
11
00
00
11
00
11
x2
x1
x
x2
f (x2)
11
00
00
11
00
11
x1
x
Abb. 3.6: Die Funktion im linken Bild ist überall streng monoton wachsend, und die
Funktion im rechten Bild ist überall streng monoton fallend.
Beispiel 3.23. (Standardparabel) Die Standardparabel f : R → R, f (x) = x2 , ist auf
(−∞, 0] streng monoton fallend und ist auf [0, ∞) streng monoton wachsend. Dieses kann
man direkt am Bild des Graphen (vgl. Abbildung 3.2) ablesen. Formal weisen wir diese
Eigenschaften wie folgt nach:
Seien x1 , x2 ∈ [0, ∞) mit 0 ≤ x1 < x2 . Dann gilt
x21 = x1 · x1 < x1 · x2 < x2 · x2 = x22 ,
also x21 < x22 , und es folgt
f (x1 ) = x21 < x22 = f (x2 ),
d.h. f (x) = x2 ist streng monoton wachsend auf [0, ∞).
Seien x1 , x2 ∈ (−∞, 0] mit x1 < x2 ≤ 0. Dann folgt −x1 > −x2 ≥ 0 oder äquivalent
0 ≤ −x2 < −x1 , und wir wissen aus den obigen Überlegungen, dass
(−x2 )2 < (−x1 )2
⇐⇒
(−x1 )2 > (−x2 )2
⇐⇒
x21 > x22
Also gilt
f (x1 ) = x21 > x22 = f (x2 ),
d.h. f (x) = x2 ist streng monoton fallend auf (−∞, 0].
Wenn wir in Kapitel 8 die Ableitung eingeführt haben, dann werden wir lernen, dass man
das Wachstumsverhalten einer Funktion noch einfacher über das Vorzeichen der ersten
Ableitung charakterisieren kann.
3. Funktionen und ihre grundlegenden Eigenschaften
83
y
c
y
f (x2)
f (x1)
f (x2) − f (x1)
=a>0
f (x1)
f (x2) − f (x2)
=a<0
x2 − x1 = 1
f (x2)
c
x1
x2
x
x2 − x1 = 1
x1
x2
x
Abb. 3.7: Der Graph der affin linearen Abbildung f (x) = a x + b mit a > 0 (links) und
a < 0 (rechts).
3.3
Injektive Funktionen und ihre Umkehrfunktionen
Zu jedem x im Definitionsbereich einer Funktion f : Df → Wf gibt es genau einen
Funktionswert f (x) = y im Wertebereich Wf . Allerdings kann zu einem Funktionswert
y durchaus mehr als ein x mit f (x) = y geben, wie das Beispiel der Standardparabel
f : R → R, f (x) = x2 , leicht zeigt: Hier gibt es zu jedem y > 0 genau zwei x-Werte mit
√
√
f (x) = x2 = y, nämlich x = − y und x = y. Z.B. gilt f (x) = x2 = 4 für x = −2 und
x = 2.
Oft ist es aber wünschenswert, dass die Zuordnung Funktionsvorschrift x 7→ f (x) injektiv
ist, d.h. dass zu jedem Funktionswert y ∈ Bf genau ein Urbild (und nicht möglicherweise mehrere Urbilder) x ∈ Df mit y = f (x) gehört. Dann können wir die sogenannte
Umkehrfunktion f −1 von f einführen, die jedem y ∈ Bf das eindeutig bestimmte
x ∈ Df mit f (x) = y zuordnet.
Als Vorbereitung benötigen wir zunächst einige weiteren Begriffe für Funktionen.
Definition 3.24. (injektive, surjektive und bijektive Funktion)
(i) Eine Funktion f : Df → Wf heißt injektiv, falls zu jedem y ∈ Wf höchstens ein
x ∈ Df mit f (x) = y existiert.
Äquivalent dazu können wir injektiv auch wie folgt charakterisieren: Eine Funktion
f : Df → Wf heißt injektiv (oder eineindeutig), falls aus f (x1 ) = f (x2 ) für
x1 , x2 ∈ Df folgt, dass x1 = x2 ist.
(ii) Eine Funktion f : Df → Wf heißt surjektiv, falls der Wertebereich Wf gleich dem
84
3.3. Injektive Funktionen und ihre Umkehrfunktionen
Bild Bf ist (also Wf = Bf ), d.h. falls es zu jedem y ∈ Wf mindestens ein x ∈ Df
gibt mit f (x) = y.
(iii) Eine Funktion f : Df → Wf heißt bijektiv, falls f injektiv und surjektiv ist.
Wir werden gleich sehen, dass jede bijektive Funktion eine Umkehrfunktion besitzt. Auch
für eine nur injektive Funktion können wir auf dem Bild die Umkehrfunktion definieren. Betrachten wir jedoch zunächst ein paar Beispiele, um uns mit den neuen Begriffen
vertraut zu machen.
Beispiel 3.25. (affin lineare Funktion) Die affin lineare Funktion f : R → R, f (x) =
a x + b mit a 6= 0, ist injektiv, surjektiv und bijektiv.
Nachweis der Injektivität: Sei nun y aus Wf = R beliebig. Wir setzen y = f (x) = a x + b
und lösen nach x, was für jedes y ∈ R möglich ist:
y−b
⇐⇒
y = ax+ b −b
⇐⇒
y − b = ax : a
= x,
(3.2)
a
wobei wir durch a teilen dürfen, da a 6= 0 ist. Wir finden also, dass für jedes y aus Wf = R
genau ein x-Wert x = (y − b)/a aus Df = R mit f (x) = y existiert. Also ist f (x) = a x + b
injektiv.
Mit der zweiten äquiavlenten Charakterisierung von Injektivität geht der Nachweis der
Injektivität wie folgt: Seien x1 , x2 aus Df = R mit f (x1 ) = f (x2 ). Dann gilt
⇐⇒
x1 = x2 ,
⇐⇒
a x1 = a x2 : a
a x1 + b = a x2 + b · b
wobei wir durch a teilen dürfen, da a 6= 0 ist. Also folgt aus f (x1 ) = f (x2 ), dass x1 = x2
ist, und wir haben gezeigt, dass f injektiv ist.
Nachweis der Surjektivität: Sei y aus Wf = R beliebig. Wir setzen y = f (x) = a x + b,
und durch Lösen nach x (siehe Rechnung (3.2)) folgt, dass der x-Wert x = (y − b)/a in
Df = R die Bedingung f (x) = y erfüllt. Also treten alle y aus Wf = R als Funktionswerte
auf. Daher ist f surjektiv.
Da f injektiv und surjektiv ist, ist f auch bijektiv.
Beispiel 3.26. (Standardparabel) Die Standardparabel f : R → R, f (x) = x2 , ist
nicht injektiv, nicht surjektiv und damit auch nicht bijektiv.
Nachweis, dass die Standardparabel nicht injektiv ist: Um zu zeigen, das f nicht injektiv
ist, müssen wir zeigen, dass die Bedingung für Injektivität verletzt ist. Dies ist der Fall,
wenn wir x1 , x2 ∈ Df = R finden können, für die gilt f (x1 ) = f (x2 ) aber x1 6= x2 .
(Dann gibt es nämlich für y = f (x1 ) mehr als ein x mit f (x) = y.) Z.B. erhalten wir
für f (x) = x2 = 4 die x-Werte x1 = −2 und x2 = 2, da f (x1 ) = f (2) = 22 = 4 und
f (x2 ) = f (−2) = (−2)2 = 4 gilt. Also ist f nicht injektiv.
Nachweis, dass die Standardparabel nicht surjektiv ist: Um zu zeigen, dass f nicht surjektiv
ist, reicht es, wenn wir einen Wert y ∈ Wf = R finden, für den es kein x ∈ Df = R mit
3. Funktionen und ihre grundlegenden Eigenschaften
85
f (x) = y gibt. Da aber f (x) = x2 ≥ 0 für alle x ∈ R gilt, kann es kein x ∈ R geben mit
f (x) = x2 = −10. Also ist f nicht surjektiv.
Da f nicht injektiv (und nicht surjektiv) ist, ist f auch nicht bijektiv.
Wir halten noch kurz fest, was wir im vorigen Beispiel gesehen haben:
Bemerkung 3.27. (nicht injektive oder nicht surjektive Funktionen)
(1) Um zu zeigen, dass eine Funktion f : Df → Wf nicht injektiv ist, reicht es, zu
zeigen, das es zwei verschiedene Punkte x1 , x2 ∈ Df (also x1 6= x2 ) gibt, für
die gilt f (x1 ) = f (x2 ). (Dann haben wir nämlich für y = f (x1 ) zwei verschiedene
Punkte x1 und x2 in Df mit f (x1 ) = f (x2 ) = y, und die Definition der Injektivität
ist verletzt.)
(2) Um zu zeigen, dass eine Funktion f : Df → Wf nicht surjektiv ist, reicht es, ein
y ∈ Wf zu finden, zu dem es kein x ∈ Df mit f (x) = y gibt.
Wir führen nun die Umkehrfunktion ein.
Definition 3.28. (Umkehrfunktion/inverse Funktion) Sei f : Df → Wf , x 7→
y = f (x), eine bijektive Funktion. Die Funktion g : Wf → Df , die jedem y ∈ Wf
genau das eindeutig bestimmte x ∈ Df zuordnet, für welches f (x) = y gilt, heißt die
Umkehrfunktion von f (oder inverse Funktion von f ). Die Umkehrfunktion wird
in der Regel mit f −1 bezeichnet, also g = f −1 .
Ist f : Df → Wf , x 7→ y = f (x), eine injektive Funktion, so ist die Funktion
f : Df → Bf , x 7→ y = f (x), (bei der wir den Wertebereich Wf durch das Bild Bf
ersetzt haben) eine bijektive Funktion. Wir können also die Umkehrfunktion von f
auf dem Bild Bf definieren:
f −1 : Bf → Df ,
y 7→ x = f −1 (y) wobei x ∈ Df so, dass f (x) = y.
Die Funktionsvorschrift für die Umkehrfunktion f −1 findet man in der Regel
durch Lösen der Gleichung f (x) = y nach x.
Betrachten wir ein paar Beispiele.
Beispiel 3.29. (affin lineare Funktion) In Beispiel 3.25 haben wir bereits gezeigt, dass
die affin lineare Funktion f : R → R, f (x) = a x + b mit a 6= 0, injektiv, surjektiv und
bijektiv ist. Daher hat sie eine Umkehrfunktion f −1 : R → R, deren Funktionsvorschrift
wir durch Lösen von y = f (x) = a x + b nach x finden. Diese Rechnung wurde in (3.2)
bereits durchgeführt, und wir erhielten x = (y − b)/a. Damit ist die Umkehrfunktion von
f : R → R, f (x) = a x + b mit a 6= 0, durch
1
b
y−b
= y− ,
a
a
a
gegeben. Wir sehen, dass die Umkehrfunktion ebenfalls eine affin lineare Funktion ist.
f −1 : R → R,
y 7→ x = f −1 (y) =
86
3.3. Injektive Funktionen und ihre Umkehrfunktionen
Beispiel 3.30. (Standardparabel definiert auf [0, ∞)) Betrachten wir die Standardparabel f : [0, ∞) → R, f (x) = x2 , wobei wir aber nun als Definitionsbereich nur noch
Df = [0, ∞) betrachten. In Beispiel 3.26 haben wir gesehen, dass es kein x ∈ R (und damit auch keine x ∈ [0, ∞)) gibt mit f (x) = x2 = −10. Also ist f : [0, ∞) → R, f (x) = x2 ,
nicht surjektiv.
Als Bild von f finden wir Bf = {y ∈ R | y = x2 für ein x ∈ [0, ∞)} = [0, ∞).
Durch den kleineren Definitionsbereich Df = [0, ∞) wird f (x) = x2 aber injektiv, denn
für y aus Bf = [0, ∞) hat die Gleichung f (x) = x2 = y in [0, ∞) genau eine einzige
√
Lösung x = y.
Also können wir die Funktion f auf ihrem Bild Bf = [0, ∞) invertieren und finden die
Umkehrfunktion
√
f −1 : [0, ∞) → [0, ∞),
y 7→ x = f −1 (y) = y.
Bemerkung 3.31. (Zusammenhang zwischen den Funktionsvorschriften von f
und f −1 ) Sei f : Df → Wf eine injektive Funktion, und sei f −1 : Bf → Df die Umkehrfunktion von f auf dem Bild Bf von f . Dann gilt:
(1) Die Funktionsvorschrift für f −1 lässt sich in der Regel durch Auflösen der Gleichung
f (x) = y nach x berechnen.
(2) Für f −1 gilt nach der Konstruktion der Umkehrfunktion
f f −1 (y) = y
für alle y ∈ Bf .
Ebenso gilt nach der Definition der Umkehrfunktion
f −1 f (x) = x
für alle x ∈ Df .
(3) Die Umkehrfunktion f −1 : Bf → Df ist bijektiv, und ihre Umkehrfunktion ist
(f −1 )−1 = f , also die ursprüngliche Funktion f : Df → Bf , wobei aber der Wertebereich durch das Bild ersetzt werden muss.
Bemerkung 3.32. (Zusammenhang zwischen den Graphen von f und f −1 ) Der
Graph von f −1 ist gegeben durch:
Γ f −1 = (y, x) y ∈ Bf , x = f −1 (y)
= (y, x) x ∈ Df , y = f (x)
= (y, x) (x, y) ∈ Γ(f ) ,
d.h. Γ f −1 entsteht aus Γ(f ) durch Spiegelung an der Winkelhalbierenden
y = x.
In Abbildung 3.8 haben wir jeweils die Funktionen f (x) = x2 für x > 0 und f (x) = 2 x+ 1
zusammen mit ihren Umkehrfunktionen gezeichnet, um den Zusammenhang zwischen dem
Graphen einer injektiven Funktion und den Graphen ihrer Umkehrfunktion (vgl. Bemerkung 3.32) zu erläutern.
3. Funktionen und ihre grundlegenden Eigenschaften
87
Abb. 3.8: Graphen von f (x) = x2 für x > 0 (links) und f (x) = 2 x + 1 (rechts) zusammen
mit ihrer jeweiligen Umkehrfunktionen.
Lemma 3.33. Ist eine Funktion f : Df → Wf , mit Df ⊂ R und Wf ⊂ R, streng
monoton wachsend auf Df oder streng monoton fallend auf Df , so ist f ist
injektiv, und damit existiert die Umkehrfunktion von f auf dem Bild Bf .
Mit Hilfe von Lemma 3.33 hätten wir z.B. die Injektivität von f : R → R, f (x) = a x + b
mit a 6= 0, schon aus der strengen Monotonie dieser Funktion auf Df = R folgern können.
Beweis von Lemma 3.33. Um zu beweisen, dass f injektiv ist, müssen wir zeigen, dass
die Gleichung f (x) = y für jedes y aus Wf ⊂ R höchstens eine Lösung x in Df ⊂ R
hat. Wir machen dies mit einem Widerspruchsbeweis (siehe Teilkapitel 2.3): Dazu nehmen wir an, dass für ein y aus Wf ⊂ R mehr als ein x aus Df ⊂ R mit f (x) = y
existiert, also gelte f (x1 ) = f (x2 ) = y für x1 , x2 ∈ Df mit x1 6= x2 . Wegen x1 6= x2
muss entweder x1 < x2 oder x2 < x1 gelten. Dann folgt aber aus der strengen Monotonie
von f , dass f (x1 ) < f (x2 ) oder f (x2 ) < f (x1 ) gilt. Dies ist aber ein Widerspruch zu
f (x1 ) = f (x2 ) = y. Also wissen wir, dass unsere Annahme falsch war und dass für jedes
y aus Wf ⊂ R die Gleichung f (x) = y höchstens eine Lösung x aus Df ⊂ R hat.
3.4
Beispiele: Polynome
Die einfachsten Beispiele für Polynome sind konstante, lineare und quadratische Funktionen, die wir schon in verschiedenen Beispielen betrachtet haben. Nun werden wir Polynome allgemein einführen. Polynome sind wichtig, weil sie in Anwendungen häufig eingesetzt
88
3.4. Beispiele: Polynome
werden, um kompliziertere Funktionen zu approximieren“, d.h. näherungsweise darzu”
stellen.
Wir beginnen mit der Definition eines Polynoms.
Definition 3.34. (Polynom) Eine Funktion f : R → R der Form
2
n−1
f (x) = a0 + a1 x + a2 x + . . . + an−1 x
n
+ an x =
n
X
ak xk ,
(3.3)
k=0
mit den Koeffizienten a0 , a1 , . . . , an−1 , an ∈ R, wobei an 6= 0, heißt ein Polynom vom
Grad n ∈ N0 .
Beispiel 3.35. (Polynom) Die Funktion f : R → R, f (x) = 3 x5 + 7 x4 − 2 x2 + 3, ist
ein Polynom vom Grad n = 5. Hier sind in der Darstellung (3.3) die Koeffizienten a5 = 3,
a4 = 7, a3 = 0, a2 = −2, a1 = 0 und a0 = 3.
Betrachten wir die aus der Schule vertrauten Klassen der Polynome vom Grad n = 0,
n = 1 und n = 2 und untersuchen wir deren Eigenschaften.
Beispiel 3.36. (Polynome vom Grad 0) Die Polynome vom Grad n = 0 sind die
konstanten Funktionen
f : R → R,
f (x) = c,
wobei c eine reelle Konstante ist. In der Darstellung (3.3) gilt hier n = 0 und a0 = c. Wir
halten die Eigenschaften konstanter Funktionen kurz fest:
• Der Graph der konstanten Funktion f (x) = c ist die Parallele zur x-Achse, die durch
y = c geht. Die konstante Funktion f (x) = c ist monoton fallend auf R und monoton
wachsend auf R (vgl. Beispiel 3.22).
• Die konstante Funktion f (x) = c hat das Bild Bf = {c} und ist somit nicht surjektiv.
• Die konstante Funktion f (x) = c ist auch nicht injektiv, denn für zwei beliebige Punkte
x1 , x2 ∈ R mit x1 6= x2 gilt f (x1 ) = c = f (x2 ).
• Damit sind konstante Funktionen auch nicht bijektiv.
Beispiel 3.37. (Polynome vom Grad 1) Die Polynome vom Grad n = 1 sind die affin
linearen Funktionen
f : R → R,
f (x) = a x + b,
mit reellen Konstanten a 6= 0 und b. In der Darstellung (3.3) gilt hier n = 1 und a0 = b und
a1 = a. In den vorigen Teilkapiteln haben wir die Eigenschaften affin linearer Funktionen
bereits in Beispielen 3.22, 3.25 und 3.29 im Detail untersucht und fanden:
• Der Graph der affin linearen Funktion f (x) = a x + b ist die Gerade mit Steigung a,
welche die y-Achse in (0, b) schneidet.
• Die affine linear Funktion f (x) = a x + b ist streng monoton wachsend auf R, wenn
a > 0 gilt, und f (x) = a x + b ist streng monoton fallend auf R, wenn a < 0 gilt.
3. Funktionen und ihre grundlegenden Eigenschaften
89
• Die affine linear Funktion f (x) = a x + b hat das Bild Bf = R und ist daher surjektiv.
Sie ist auch injektiv und bijektiv, und ihre Umkehrfunktion ist die affin lineare Funktion
f −1 : R → R,
f −1 (y) =
b
1
y− .
a
a
Beispiel 3.38. (Polynome vom Grad 2) Die Polynome vom Grad n = 2 sind die
quadratischen Funktionen
f (x) = a x2 + b x + c
für alle x ∈ R,
(3.4)
mit Konstanten a, b, c ∈ R, wobei a 6= 0. In der Darstellung (3.3) gilt hier n = 2 und a0 = c,
a1 = b, und a2 = a. Wir wollen quadratische Funktionen nun genauer analysieren:
• Mit Hilfe der quadratischen Ergänzung und der ersten binomischen Formel können
wir die quadratische Funktion (3.4) in die sogenannte Scheitelform bringen:
f (x) = a x2 + b x + c
b
c
2
= a x + x+
a
a
"
!
2 ! 2
b
b
b
c
=a
x2 + x +
−
+
a
2a
2a
a
#
"
2 b2
c
b
−
+
= a x+
2a
a
4 a2
2 b
b2
= a x+
,
+ c−
2a
4a
und wir sehen, dass die quadratische Funktion (3.4) eine Parabel mit Scheitelpunkt
b
b2
(xs , ys ) := −
(3.5)
,c−
2a
4a
ist. Die Darstellung
f (x) = a x +
b
2a
|{z}
= −xs
2
2
b2
= a x − xs + ys
+ c−
4a
| {z }
= ys
(3.6)
nennt man die Scheitelform von f (x) = a x2 + b x+ c. Gegenüber der Standardparabel
f (x) = x2 mit Scheitelpunkt (xs , ys ) = (0, 0) ist in (3.6) also der Scheitelpunkt in den
Punkt (3.5) verschoben worden, und die Parabel ist mit dem Faktor a skaliert. In Abbildung 3.9 ist der Einfluss der verschiedenen Parameter in der sogenannten Scheitelform
illustriert, wobei hier a > 0 betrachtet wurde.
• Das Bild der Funktion (3.4) ist Bf = [ys , ∞) wenn a > 0 und Bf = (−∞, ys ] wenn
a < 0 ist. Da in beiden Fällen Bf 6= Wf = R gilt, ist die Funktion (3.4) nicht surjektiv.
90
3.4. Beispiele: Polynome
• Aus der Analyse für die Standardparabel können wir nun leicht ablesen, dass im Falle
a > 0 die quadratische Funktion (3.4) für x ≤ xs , also auf (−∞, xs ], streng monoton
fallend und für x ≥ xs , also auf [xs , ∞), streng monoton wachsend ist. Analog ist im
Falle a < 0 die quadratische Funktion (3.4) für x ≤ xs , also auf (−∞, xs ], streng
monoton wachsend und für x ≥ xs , also auf [xs , ∞), streng monoton fallend.
• Wegen f (xs + d) = f (xs − d) für jedes d ∈ R (im Abstand d von xs haben wir den
gleichen Funktionswert f (xs + d) = f (xs − d) = a d2 + ys ), ist die Funktion (3.4) nicht
injektiv. Also ist die quadratische Funktion (3.4) auch nicht bijektiv.
• Betrachten wir für (3.4) aber nur den Definitionsbereich Df = [xs , ∞) oder nur den
Definitionsbereich Df = (−∞, xs ], so wird die Funktion in (3.4) eine injektive Funktion,
deren Umkehrfunktion wir auf dem Bild von f berechnen können.
Abb. 3.9: Graphen von f (x) := (x − 1)2 (links), g(x) := x2 + 1 (Mitte), sowie h(x) = 2 x2
in blau und k(x) = x2 in rot (rechts).
Betrachten wir nun ein explizites Beispiel eines Polynoms zweiten Grades.
Beispiel 3.39. (Polynom 2. Grades) Betrachten wir das Polynom
f : R → R,
f (x) = x2 − 4 x + 1,
vom Grad n = 2. Hier ist a2 = 1, a1 = −4 und a0 = 1 in der Darstellung (3.3).
• Wir finden mittels quadratischer Ergänzung die Scheitelform
f (x) = x2 − 4 x + 1 = x2 − 4 x + 4 − 4 + 1 = (x − 2)2 − 3.
Daher ist der Graph der Funktion eine nach oben geöffnete Parabel mit dem Scheitelpunkt (xs , ys ) = (2, −3).
• Wir finden das Bild Bf = [−3, ∞), da alle Werte oberhalb des Scheitelpunkts angenommen werden. Da Bf 6= Wf = R gilt, ist die Funktion nicht surjektiv und auch nicht
bijektiv.
3. Funktionen und ihre grundlegenden Eigenschaften
91
• Da bei einer Parabel alle Funktionswerte oberhalb des Scheitelpunkts einmal links und
einmal rechts von Scheitelpunkt auftreten, ist die Funktion f (x) = x2 − 4 x + 1 nicht
injektiv. Genauer gilt z.B. f (1) = (1 − 2)2 − 3 = −2 und f (3) = (3 − 2)2 − 3 = −2,
d.h. die Gleichung f (x) = −2 hat mehr als eine Lösung. Also ist f nicht injektiv.
• Indem wir den Definitionsbereich auf alle Werte links bzw. rechts vom Scheitelpunkt einschränken, können wir aber eine injektive Funktion erhalten. Die Funktionen
f1 : [2, ∞) → R, f1 (x) = x2 − 4 x + 1, und f2 : (−∞, 2] → R, f2 (x) = x2 − 4 x + 1,
sind also jeweils auf ihrem Bild Bf1 = Bf2 = [−3, ∞) invertierbar. Wir berechnen die
Umkehrfunktionen durch Auflösen von
y = x2 − 4 x + 1 = (x − 2)2 − 3
für y ∈ [−3, ∞) nach x:
2
y = (x − 2) − 3 + 3
⇐⇒
⇐⇒
y + 3 = (x − 2)2
p
x−2= ± y+3 +2
⇐⇒
⇐⇒
x= 2±
p
(x − 2)2 = y + 3
y + 3,
wobei wir die Wurzel ziehen dürfen, da y + 3 ≥ 0 gilt wegen y ∈ [−3, ∞). Weiter ist zu
beachten, dass wir als Lösung beide Vorzeichen für die Wurzel bekommen. Wir haben
also zunächst zwei Lösungen:
p
p
und
x2 = 2 − y + 3 .
x1 = 2 + y + 3
Da aber x ∈ Df1 = [2, ∞), also x ≥ 2, bzw. x ∈ Df2 = (−∞, 2], also x ≤ 2,√gelten
muss, erhalten wir für die Umkehrfunktion von f1 nur die Lösung x√= x1 = 2 + y + 3
und für die Umkehrfunktion von f2 nur die Lösung x = x2 = 2 − y + 3. Also finden
wir jeweils die Umkehrfunktion (auf dem Bild [−3, ∞))
p
f1−1 : [−3, ∞) → [2, ∞),
f1−1 (y) = 2 + y + 3,
bzw.
p
f2−1 : [−3, ∞) → (−∞, 2],
f2−1 (y) = 2 − y + 3.
Soweit haben wir nur Polynome ersten und zweiten Grades, also affin lineare und quadratische Funktionen betrachtet. Hier war die Situation besonders einfach, da es sich bei
den Graphen immer um eine Gerade bzw. um eine Parabel handelt. Bei Polynomen dritten und höheren Grades ist die Situation nicht mehr ganz so einfach, da die Graphen
der Polynome sehr viel mehr Variablität aufweisen. Nur wenige Polynome dritten Grades
sehen so aus wie die Funktion f (x) = x3 . Wir werden später noch verschiedene Polynome
dritten und höheren Grades als Beispiele betrachten.
Beispiel 3.40. (Polynom vom Grad 3) Das Polynom f : R → R, f (x) = x3 , vom
Grad 3 ist streng monoton wachsend auf R und injektiv, surjektiv und bijektiv. Seine
Umkehrfunktion ist die Funktion
( √
3 y
wenn y ≥ 0,
p
f −1 : R → R,
f −1 (y) =
− 3 |y|
wenn y < 0,
√
wobei die dritte Wurzel 3 a für a ≥ 0 als die reelle Zahl b definiert ist, für die gilt b ≥ 0
und b3 = a. Dies wird in der Übung nachgewiesen.
92
3.4. Beispiele: Polynome
Abschließend betrachten wir noch einige in der Chemie wichtige Relationen zwischen physikalischen und chemischen Größen, die durch entsprechende Funktionentypen beschrieben
werden können.
Definition 3.41. (direkte Proportionalität) Stehen zwei physikalische oder chemische
Größen x und y in der Beziehung y ∼ x, so bedeutet dies, dass es eine Konstante a 6= 0
gibt mit y = a · x. Wir haben also eine (affin) lineare Funktion
y = f (x) = a · x = a x.
Wir sagen, dass die physikalischen Größen x und y proportional (zueinander) sind.
Anwendung 3.42. (radioaktiver Zerfall) Radioaktivität entsteht durch den Zerfall
der Atomkerne eines radioaktiven Materials. Der Zerfallsprozess ist zufällig, d.h. wir wissen nicht, welches individuelle Atom als nächstes zerfällt. Wir wissen aber, dass die Anzahl
der pro Sekunde zerfallenden Atome proportional zu der Anzahl der Atome ist. Bezeichnet N = N(t) die Anzahl der Atome zum Zeitpunkt t, und ist r = r(t) die Zerfallsrate,
zum Zeitpunkt t, so gilt also
r∼N
oder genauer
r(t) ∼ N(t),
d.h.
r(t) = −λ N(t),
mit einer Proportionalitätskonstante λ > 0. Wir haben in der Proportionalität ein
Minus-Zeichen, weil es sich um eine Zerfallsrate handelt. Wir werden uns später (nach
Einführung der Differentiation) überlegen, dass die Zerfallsrate gerade r(t) = dN(t)/dt =
N ′ (t) ist.
Definition 3.43. (umgekehrte Proportionalität) Stehen zwei physikalische oder chemische Größen x und y in der Beziehung y ∼ 1/x, so bedeutet dies, dass es eine Konstante
a 6= 0 gibt mit y = a/x. Wir haben also eine Hyperbel
a
1
= ,
x
x
wobei natürlich x 6= 0 und y 6= 0 vorausgesetzt werden müssen. Wir sagen, dass die
physikalischen Größen x und y umgekehrt proportional (zueinander) sind.
y = f (x) = a ·
Anwendung 3.44. (Zustandsgleichung bei idealen Gasen) Die Zustandsgleichung
für ein ideales Gas lautet
pV
= kN
T
mit p = Druck, V = Volumen, T = Temperatur, N = Teilchenanzahl (Stoffmenge in
mol), k = Boltzmann-Konstante. Damit folgt
V = kN T
1
,
p
und wir sehen, dass für konstante Temperatur T der Druck p umgekehrt proportional
zum Volumen V ist mit der Proportionalitätskonstante a = k N T . Ebenso können wir
aus der Zustandsgleichung eines idealen Gases ablesen, dass das Produkt p · V aus Druck
und Volumen direkt proportional zur Temperatur T ist, also p · V = (k N) · T mit der
Proportionalitätskonstante a = k N.
3. Funktionen und ihre grundlegenden Eigenschaften
93
Definition 3.45. ((affin) linearer Zusammenhang) Stehen zwei physikalische oder
chemische Größen x und y in der Beziehung y = a x + b, also
y = f (x) = a · x + b = a x + b,
so sagen wir dass die physikalischen Größen x und y in einem (affin) linearen Zusammenhang stehen.
Anwendung 3.46. (Enthalpie) Die Enthalpie H erfüllt die Beziehung
H = U + p V = innere Energie + Verdrängungsarbeit,
wobei U = innere Energie, p = Druck und V = Volumen. Ist die innere Energie U
konstant, so ergibt sich für konstanten Druck p ein (affin) linearer Zusammenhang
zwischen der Enthalpie H und dem Volumen V .
3.5
Beispiele: Trigonometrische Funktionen und ihre
Umkehrfunktionen
In Teilkapitel 1.5 haben wir bereits die trigonometrischen Funkionen Sinus, Kosinus, Tangens und Kotangens eingeführt. Wir wollen diese nun bzgl. der in aktuellen Kapitel eingeführten Eigenschaften von Funktionen untersuchen und soweit möglich ihre Umkehrfunktionen bestimmen.
Betrachten wir zunächst die Sinus- und Kosinusfunktion. An den Graphen der Funktionen
(siehe Abbildung 3.10) können wir die meisten ihrer Eigenschaften direkt ablesen.
Beispiel 3.47. (Eigenschaften des Sinus) Wir haben bereits gesehen, dass die Sinusfunktion sin : R → R ungerade, 2π-periodisch und beschränkt ist (vgl. Beispiele 3.17, 3.19
und 3.13). Durch Inspektion des Graphen finden wir:
• Das Bild ist Bsin = [−1, 1].
• Die Sinusfunktion ist nicht surjektiv da Bsin = [−1, 1] $ R = Wsin .
• Die Sinusfunktion ist nicht injektiv, denn f (x) = 0 hat die Lösungen x = kπ, k ∈ Z.
• Die Sinusfunktion ist nicht bijektiv, da sie nicht injektiv ist.
• Die Sinusfunktion ist streng monoton wachsend auf den Intervallen − π2 +k 2π, π2 +k 2π ,
k ∈ Z, und streng monoton fallend auf den Intervallen π2 + k 2π, 3π
+ k 2π , k ∈ Z. Die
2
Sinusfunktion ist daher auch injektiv auf jedem dieser Intervalle, und wir können für
jedes k ∈ Z die Umkehrfunktion von
i
h π
π
π
3π
+ k 2π,
+ k 2π → [−1, 1]
sin : − + k 2π, + k 2π → [−1, 1] bzw. sin :
2
2
2
2
einführen.
94
3.5. Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
Abb. 3.10: Die Sinusfunktion und die Kosinusfunktion auf dem Intervall [−2π, 2π].
Beispiel 3.48. (Eigenschaften des Kosinus) Wir haben bereits gesehen, dass die
Kosinusfunktion cos : R → R gerade und 2π-periodisch ist (vgl. Beispiele 3.16 und 3.19).
Durch Inspektion des Graphen finden wir:
• Die Kosinusfunkion ist beschränkt, denn | cos(x)| ≤ 1 für alle x ∈ R.
• Das Bild ist Bcos = [−1, 1].
• Die Kosinusfunktion ist nicht surjektiv da Bcos = [−1, 1] $ R = Wcos .
• Die Kosinusfunktion ist nicht injektiv, denn f (x) = 1 hat die Lösungen x = k · 2π,
k ∈ Z.
• Die Kosinusfunktion ist nicht bijektiv, da sie nicht injektiv ist.
• Die Kosinusfunktion ist streng monoton wachsend auf den Intervallen [−π + k 2π, k 2π],
k ∈ Z, und streng monoton fallend auf den Intervallen [k 2π, π + k 2π], k ∈ Z. Die
Kosinusfunktion ist daher auch injektiv auf jedem dieser Intervalle, und wir können für
jedes k ∈ Z die Umkehrfunktion von
cos : [−π + k 2π, k 2π] → [−1, 1]
bzw.
cos : [k 2π, k 2π + π] → [−1, 1]
einführen.
Die Umkehrfunktionen des Sinus und des Kosinus werden üblicherweise für die Einschränkungen dieser Funktionen auf die Intervalle [−π/2, π/2] bzw. [0, π] definiert. Auf
diesen Intervallen sind die Funktionen jeweils streng monoton und damit injektiv.
3. Funktionen und ihre grundlegenden Eigenschaften
95
Definition 3.49. (Arkussinus und Arkuskosinus)
(i) Die Umkehrfunktion sin−1 : [−1, 1] → [−π/2, π/2] von sin : [−π/2, π/2] → [−1, 1]
wird mit sin−1 (x) = arcsin(x) bezeichnet und heißt Arkussinus.
(ii) Die Umkehrfunktion cos−1 : [−1, 1] → [0, π] von cos : [0, π] → [−1, 1] wird mit
cos−1 (x) = arccos(x) bezeichnet und heißt Arkuskosinus.
Der Arkussinus und der Arkuskosinus sind in Abbildung 3.11 gezeichnet.
Abb. 3.11: Der Graph von arcsin(x) (links) und der Graph von arccos(x) (rechts).
Betrachten wir nun die Funktionen Tangens und Kotangens, deren Eigenschaften wir
ebenfalls an den Graphen ablesen können. Der Graph des Tangens ist in Abbildung 3.12
gezeichnet, und gemäß der Beziehung (vgl. (1.25))
π
(3.7)
cot(x) = − tan x +
2
erhalten wir den Graphen des Kotangens, indem wir den Graphen des Tangens an der
x-Achse spiegeln und um π/2 nach links verschieden (siehe Abbildung 3.13). In Abbildung
3.12 können wir folgende Eigenschaften des Tangens ablesen:
Beispiel 3.50. (Eigenschaften des Tangens) Wir sehen mit Hilfe des Graphen der
Tangensfunktion (siehe Abbildung 3.12), dass die Tangensfunktion
tan : R \
nπ
2
o
+ kπ k ∈ Z → R,
die folgenden Eigenschaften hat:
tan(x) =
sin(x)
,
cos(x)
96
3.5. Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
Abb. 3.12: Der Graph der Tangensfunktion und seine Asymptoten.
• Die Tangensfunktion ist unbeschränkt.
• Die Tangensfunktion ist periodisch mit Periode π.
• Die Tangensfunktion ist ungerade, denn
tan(−x) =
− sin(x)
sin(x)
sin(−x)
=
=−
= − tan(x).
cos(−x)
cos(x)
cos(x)
• Die Tangensfunktion ist nicht injektiv, da sie periodisch ist.
• Die Tangensfunktion ist nicht bijektiv, da sie nicht injektiv ist.
• Die Tangensfunktion ist surjektiv, da ihr Bild Btan = R ist.
• Die Tangensfunktion ist auf jedem offenen Intervall − π2 + kπ, π2 + kπ , k ∈ Z, streng
monoton wachsend. Also ist die Tangensfunktion auf jedem Intervall − π2 +kπ, π2 +kπ ,
k ∈ Z, injektiv und surjektiv, d.h. wir können für jedes k ∈ Z die Umkehrfunktion von
π
π
tan : − + kπ, + kπ → R
2
2
bilden.
3. Funktionen und ihre grundlegenden Eigenschaften
Abb. 3.13: Der Graph der Kotangensfunktion und seine Asymptoten.
Abb. 3.14: Der Graph der Arkustangensfunktion und seine Asymptoten.
97
98
3.5. Beispiele: Trigonometrische Funktionen und ihre Umkehrfunktionen
Die Bestimmung der entsprechenden Eigenschaften des Kotangens wird in der Übung
besprochen.
Die Umkehrfunktion des Tangens wird üblicherweise für die Einschränkung des Tangens
auf das Intervall (−π/2, π/2) definiert.
Definition 3.51. (Arkustangens und Arkuskotangens)
(i) Die Umkehrfunktion tan−1 : R → (−π/2, π/2) von tan : (−π/2, π/2) → R wird mit
tan−1 (x) = arctan(x) bezeichnet und heißt Arkustangens.
(ii) Die Umkehrfunktion cot−1 : R → (0, π) von cot : (0, π) → R wird mit cot−1 (x) =
arccot(x) bezeichnet und heißt Arkuskotangens.
In Abbildung 3.14 haben wir den Graphen des Arkustangens gezeichnet.
Der Graph des Arkuskotangens kann aus dem Graphen des Arkustangens mit der Beziehung (3.7) leicht als Übung hergeleitet werden, und wir haben diesen in Abbildung 3.15
gezeichnet.
Abb. 3.15: Der Graph der Arkuskotangensfunktion und seine Asymptoten.
Kapitel 4
Folgen und Grenzwerte
In diesem Kapitel betrachten wir Folgen reeller Zahlen und untersuchen deren mögliche
Eigenschaften, z.B. Monotonie und Beschränktheit. Dabei werden wir viele Begriffe wiedertreffen, die wir bereits im Kontext von Funktionen kennengelernt haben. Es kommen
aber auch neue Begriffe hinzu, z.B. der Begriff einer alternierenden Folge. Zuletzt lernen
wir den anspruchsvollen Begriff des Grenzwertes kennen. Der Grenzwert ist ein zentraler
Begriff der Analysis, der Ihnen immer wieder begegnen wird. So können Stetigkeit und
Differenzierbarkeit nur eingeführt werden, nachdem der Begriff des Grenzwertes eingeführt
und verstanden worden ist.
4.1
Einführung: Folgen reeller Zahlen
Betrachten wir zunächst ein Beispiel und formulieren einige Fragen, die wir im Laufe
dieses Kapitels beantworten werden.
Betrachten wir die Anordnungen“
”
1 1 1 1
1
1
, , , , ..., ,
, ... ,
1 2 3 4
n n+1
12 , 22 , 32 , 42 , . . . , n2 , (n + 1)2 , . . .
und
(−1)1 , (−1)2 , (−1)3 , (−1)4 , . . . , (−1)n , (−1)n+1 , . . . ,
wobei die Einträge geordnet sind, d.h. die Reihenfolge der Einträge ist vorgegeben
und darf nicht verändert werden. In allen drei Anordnungen“ sind eine unendliche
”
abzählbare Menge reeller Zahlen in einer festen Reihenfolge aufgelistet worden. So finden
wir in den drei Beispielen, das der n-te Eintrag jeweils 1/n, n2 bzw. (−1)n ist. Wenn Sie
aus der Schule mit Vektoren vertraut sind, dann können Sie sich die Anordnungen“ als
”
Vektoren mit unendlich aber abzählbar vielen Komponenten“ vorstellen.
”
Wir könnten nun auch jeweils die Kurzschreibweise
1
,
(n2 )n∈N
bzw.
(−1)n n∈N
n n∈N
99
100
4.1. Einführung: Folgen reeller Zahlen
einführen, die so zu verstehen ist, dass man jeweils n ∈ N, also n = 1, 2, 3, . . ., in dieser
Reihenfolge in den Ausdruck 1/n, n2 bzw. (−1)n einsetzt und diese Zahlen in derselben
Reihenfolge hintereinander auflistet.
Bei unseren Anordnungen“ handelt es sich um Folgen reeller Zahlen; den Begriff der
”
Folge kann man sich dabei so erklären, das die Abfolge/Reihenfolge der abzählbar
vielen Zahlen fest vorgegeben ist. Ändern wir die Reihenfolge, so erhalten wir eine
andere Folge.
Wir wollen nun ein paar Fragen formulieren:
• Was für Eigenschaften einer Folge können wir möglicherweise beobachten?
Beispielsweise sehen wir, dass die Werte der Folge (1/n)n∈N immer kleiner werden,
wenn n wächst und dass die Werte der Folge (n2 )n∈N immer größer werden, wenn n
wächst. Analog zu Funktionen könnten wir hier von einer (streng) monoton fallenden bzw. einer (streng) monoton wachsenden Folge sprechen.
Für die Folgen (1/n)n∈N und (−1)n n∈N beobachten wir, dass gilt
1
(−1)n ≤ 1 für alle n ∈ N.
≤ 1 für alle n ∈ N
bzw.
n
Wir könnten also analog zu Funktionen von beschränkten Folgen sprechen.
• Was passiert mit den Werten der Folge, wenn n ∈ N immer größer wird?
Für die Folge (1/n)n∈N beobachten wir, dass die Werte 1/n der Folge sich immer weiter
an Null annähern; mathematisch gesprochen ist die Zahl Null der Grenzwert der Folge
(1/n)n∈N .
Für die Folge (n2 )n∈N finden wir, dass die Wert der Folge beliebig gross werden aber
sich keiner reellen Zahl annähern, da sie immer weiter wachsen. Diese Folge hat keinen
sogenannten Grenzwert, sie ist divergent“.
”
Die Analogie zu Funktionen ist auch formal gegeben, denn wir können Folgen auch als
Funktionen auf den natürlichen Zahlen auffassen! Für unsere drei Beispiele könnten
wir also schreiben:
f : N → R,
g : N → R,
h : N → R,
1
,
n
n 7→ g(n) = n2 ,
n 7→ f (n) =
n 7→ h(n) = (−1)n .
Vielleicht finden einige Leser dieses einfacher und verständlicher, weil wir das Konzept
der Funktion schon ausführlich betrachtet haben. Der Begriff des Grenzwerts entspricht
dann dem Auftreten einer horizontalen Asymptote der Funktion.
Nur definieren wir formal, was eine Folge reeller Zahlen ist.
Definition 4.1. (Folge reeller Zahlen) Eine Folge (reeller Zahlen) ist eine An”
ordnung“
(an )n∈N = (a1 , a2 , a3 , . . . , an , . . .),
(4.1)
4. Folgen und Grenzwerte
101
wobei a1 , a2 , a3 , . . . , an , . . . ∈ R. Die einzelnen Werte an heißen die Folgenglieder der
Folge, und n nennt man den Index der Folge. Hierbei kann man den Index n als Platznummer oder Position des Folgengliedes an auffassen; an ist also das n-te Folgenglied. Wir nutzen für die Folge gelegentlich auch die Kurznotation (an )n bzw. (an ) (wenn
klar ist, dass n ∈ N der laufende Index ist).
Wir können die Folge (4.1) auch als Funktion f : N → R mit dem Definitionsbereich Df = N interpretieren, also
f : N → R,
n 7→ f (n) = an .
Betrachten wir weitere Beispiels für Folgen reeller Zahlen.
Beispiel 4.2. (Folgen reeller Zahlen)
(a) Die Folge (an )n∈N = (n)n∈N mit an = n ist die Folge, deren Folgenglieder gerade die
natürlichen Zahlen sind, also
1, 2, 3, . . . , n, . . . .
Hier werden die Folgenglieder an = n immer größer. Wir werden im nächsten Teilkapitel lernen, dass diese Folge unbeschränkt“ ist.
”
n
n
(b) (bn )n≥0 = (2 )n≥0 mit bn = 2 ist die Folge
1, 2, 4, 8, 16, . . . , 2n , . . . .
Hier zeigt der Index n ≥ 0“ statt n ∈ N“ an, dass wir für n alle ganzen Zahlen n ≥ 0
”
”
betrachten. Die Folgenglieder bn = 2n wachsen über alle Grenzen hinaus. Wir werden
im nächsten Teilkapitel lernen, dass diese Folge unbeschränkt“ ist.
”
(c) Berechnen wir die Folgenglieder der Folge (cn )n∈N = (−1)n n∈N mit cn = (−1)n
explizit, so finden wir
−1
wenn n ungerade ist,
n
cn = (−1) =
1
wenn n gerade ist,
und erhalten somit:
− 1, 1, −1, 1, −1, 1, . . . .
Die Folge oszilliert“ also zwischen den Werten −1 und 1.
”
n n
mit dn = 1 + n1 , hat die Werte
(d) Die Folge (dn )n∈N = 1 + n1
n∈N
n
1
2, 2.25, 2.37, . . . , 1 +
, ... .
n
Die Folgenglieder dn nähern sich der sogenannten Eulerzahl e = 2.71828 . . . immer
weiter, wenn n immer größer wird.
102
4.1. Einführung: Folgen reeller Zahlen
1
0
0
1
8
6
4
2
00
11
00
11
0
1
000
11111111111111111111111111111111111111
00000000000000000000000000000000000000
00
11
0
1
00
11
00
11
0
1
1111
00
11
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
00000000000000000000000000000000000000000
11111111111111111111111111111111111111111
0
1
0
1
0
1
0
1
0
1
0
1
0
1
1
0
0
1
1
0
1
2
3
00
11
4
5
7 n
6
00
11
0
1
000
1111111111111111111111111111111111111
0000000000000000000000000000000000000
0
1
00
11
00
11
0
1
−1111
0
1
00
11
00
11
0
1
1
2
3
n
Abb. 4.1: Im linken Bild sind die ersten drei Folgenglieder der Folge (2n )n∈N gezeichnet.
Im rechten Bild sind die ersten sieben Folgenglieder der Folge (−1)n n∈N gezeichnet.
In Abbildung 4.1 haben wir die ersten Glieder der Folgen (2n )n∈N und (−1)n
zeichnet.
n∈N
ge-
Wir halten noch fest, wann zwei Folgen gleich sind.
Definition 4.3. (gleiche Folgen reeller Zahlen) Zwei Folgen reeller Zahlen (an )n∈N
und (bn )n∈N sind gleich, wenn gilt an = bn für alle n ∈ N.
Nach der vorigen Definition sind also die beiden Folgen
n−1
1
(an )n∈N =
und
(bn )n∈N = 1 −
n
n n∈N
n∈N
gleich, denn es gilt
an =
n−1
n 1
1
= − = 1 − = bn
n
n n
n
für alle n ∈ N.
Bemerkung 4.4. (Weiteres über Folgen)
(i) Gelegentlich ist es sinnvoll, die Folgenglieder bei einem Index n0 ∈ Z mit
n0 6= 1 starten zu lassen. Z.B. ist an = n/(n − 1) nur für n ≥ 2 erklärt. Man
schreibt dann (an )n≥n0 , also in dem konkreten Beispiel n/(n − 1) n≥2 . In Besipiel 4.2 (b) haben wir bereits ein weiteres solches Beispiel gesehen.
(ii) Der Index der Folge ist (genauso wie die Variable einer Funktion) nur ein
Platzhalter“, d.h. beispielsweise bei den Folgen
”
1
1
und
n n∈N
k k∈N
handelt es sich um dieselbe Folge.
4. Folgen und Grenzwerte
4.2
103
Eigenschaften von Folgen reeller Zahlen
Da man eine Folge (an )n∈N als eine Funktion f : N → R, f (n) = an , auf den natürlichen
Zahlen betrachten kann, übertragen sich die meisten Begriffe, die wir bereits für allgemeine
Funktionen kennengelernt haben, auf Folgen reeller Zahlen. Hier geht es insbesondere um
Monotonie sowie Beschränktheit, und wir werden noch einige weitere Begriffe für Folgen
einführen. – Die Begriffe einer geraden, ungeraden oder periodischen Funktion, sowie
Injektivität, Surjektivität und Bijektivität sind für Folgen nicht sinnvoll oder hilfreich.
Wir lernen nun verschiedene Typen von Folgen reeller Zahlen kennen.
Definition 4.5. (konstante Folge und alternierende Folge)
(i) Eine Folge reeller Zahlen (an )n∈N heißt konstant, falls alle Folgenglieder gleich sind,
d.h. falls es eine reelle Zahl c gibt, so dass an = c für alle n ∈ N gilt.
(ii) Eine Folge reeller Zahlen (an )n∈N heißt alternierend, wenn je zwei aufeinander
folgende Folgenglieder entgegengesetzte Vorzeichen besitzen.
Betrachten wir ein paar Beispiele.
Beispiel 4.6. (konstante Folge reeller Zahlen) Die Folge (an )n∈N = (3)n∈N mit an = 3
für alle n ∈ N ist eine konstante Folge reeller Zahlen.
Beispiel 4.7. (alternierende Folge) Die Folge (−1)n n∈N ist alternierend. Dies sieht
man wie folgt: Zunächst berechnen wir die ersten paar Folgenglieder
a1 = (−1)1 = −1,
a2 = (−1)2 = 1,
a3 = (−1)3 = −1,
a4 = (−1)4 = 1,
und wir vermuten, dass gilt
an =
−1
1
wenn n ungerade ist,
wenn n gerade ist.
(4.2)
Um (4.2) nachzuweisen, beobachten wir, dass die Rekursionsformel“
”
an+1 = (−1)n+1 = (−1) · (−1)n = (−1) an
für alle n ∈ N
gilt. Aus dieser Formel können wir direkt ablesen, dass die Folge alternierend ist, und wir
sehen, dass die Werte −1 und 1 immer abwechselnd auftreten, angefangen mit a1 = −1.
Die ersten Folgenglieder der alternierenden Folge (−1)n n∈N ist im rechten Bild in Abbildung 4.1 gezeichnet.
Wir lernen nun einen weiteren Typ von Folgen kennen.
Definition 4.8. (monotone Folge) Sei (an )n∈N eine Folge reeller Zahlen.
104
4.2. Eigenschaften von Folgen reeller Zahlen
(i) Die Folge (an )n∈N heißt monoton wachsend, wenn gilt an ≤ an+1 für alle n ∈ N.
Gilt sogar an < an+1 für alle n ∈ N, so heißt die Folge (an )n∈N streng monoton
wachsend.
(ii) Die Folge (an )n∈N heißt monoton fallend, wenn gilt an ≥ an+1 für alle n ∈ N.
Gilt sogar an > an+1 für alle n ∈ N, so heißt die Folge (an )n∈N streng monoton
fallend.
(iii) Ist eine Folge (streng) monoton wachsend oder (streng) monoton fallend, so nennen
wir sie (streng) monoton.
Wir bemerken, dass der Unterschied in Definition 4.8 (ii) zwischen einer monoton fallenden
und einer streng monoton fallenden Folge genau darin besteht, dass das ≥“durch ein
”
>“ ersetzt wurde. Analog besteht der Unterschied in Definition 4.8 (i) zwischen einer
”
monoton wachsenden und einer streng monoton wachsenden Folge genau darin, dass das
≤“ durch ein <“ ersetzt wurde.
”
”
Da aus an < an+1 (bzw. an > an+1 ) für alle n ∈ N automatisch an ≤ an+1 (bzw. an ≥ an+1 )
für alle n ∈ N folgt, ist eine streng monoton wachsende (bzw. streng monoton
fallende) Folge automatisch auch eine monoton wachsende (bzw. eine monoton
fallende) Folge.
Beispiel 4.9. (streng monoton wachsende Folge) Die Folge reeller Zahlen (an )n∈N ,
an = 2n , ist streng monoton wachsend, denn
an = 2n < 2 · 2n = 2n+1 = an+1
für alle n ∈ N.
Die ersten Folgenglieder der Folge (an )n∈N = (2n )n∈N sind im linken Bild in Abbildung 4.1
gezeichnet.
Beispiel 4.10. (monoton fallende und monoton wachsende Folge) Jede konstante
Folge (an )n∈N , an = c für alle n ∈ N, mit einer Konstante c ∈ R, ist sowohl monoton
wachsend also auch monoton fallend, denn es gilt
für alle n ∈ N,
an = c ≤ c = an+1
für alle n ∈ N.
an = c ≥ c = an+1
Man kann zeigen, dass die konstanten Folgen die einzigen Folgen reeller Zahlen sind, die
sowohl monoton wachsend als auch monoton fallend sind.
Beispiel 4.11. (streng monoton fallende Folge) Die Folge (1/n)n∈N ist streng monoton fallend, denn wegen
n+1>n
⇐⇒
1
1
>
n
n+1
für alle n ∈ N
folgt
an =
1
1
>
= an+1
n
n+1
für alle n ∈ N.
4. Folgen und Grenzwerte
105
Bemerkung 4.12. (monotone Folge)
(i) Ist eine Folge (an )n∈N (streng) monoton wachsend, so gilt
am ≤ an
bzw. am < an )
für alle m, n ∈ N mit m < n.
(ii) Ist eine Folge (an )n∈N (streng) monoton fallend, so gilt
am ≥ an
bzw. am > an )
für alle m, n ∈ N mit m < n.
Eine wichtige Klasse von Folgen reeller Zahlen sind die beschränkten Folgen.
Definition 4.13. (beschränkte Folge und unbeschränkte Folge) Eine Folge reeller
Zahlen (an )n∈N heißt beschränkt, wenn es eine Schranke S ≥ 0 gibt, so dass gilt
|an | ≤ S
für alle n ∈ N.
(4.3)
Ist eine Folge reeller Zahlen (an )n∈N nicht beschränkt, so nennen wir sie unbeschränkt.
Betrachten wir zunächst ein Beispiel.
Beispiel 4.14. (beschränkte Folge) Die Folge (1/n)n∈N ist beschränkt mit der Schranke
S = 1 und, denn
1
|an | = ≤ 1 = S
n
für alle n ∈ N.
Die Bedingung (4.3) an eine beschränkte Folge lässt sich äquivalent wie folgt ausdrücken:
− S ≤ an ≤ S
für alle n ∈ N.
(4.4)
In Bild 4.2 ist eine beschränkte Folge illustriert: Die Formel (4.4) bedeutet, dass die
Folgenglieder alle in dem horizontalen Schlauch“ von y = −S bis y = S liegen.
”
Betrachten wir noch ein paar Beispiele für beschränkte und unbeschränkte Folgen.
Beispiel 4.15. (beschränkte Folge) Die alternierende Folge (−1)n
denn
(−1)n = 1 ≤ S = 1
für alle n ∈ N.
n∈N
ist beschränkt,
Beispiel 4.16. (unbeschränkte Folge) Die Folge (an )n∈N = (n)n∈N ist unbeschränkt,
denn die Folgenglieder an = n werden beliebig groß. Also kann es keine Schranke S ≥ 0
geben für die gilt |an | = n ≤ S für alle n ∈ N.
106
4.3. Konvergenz von Folgen
S
•
2
•
•
1
0
•
1
2
•
3
4
5
6
7
8
•
9
•
−1
−2
•
•
−S
Abb. 4.2: Eine beschränkte Folge (an )n∈N mit Schranke S, d.h. |an | ≤ S für alle n ∈ N
oder äquivalent dazu −S ≤ an ≤ S für alle n ∈ N. Alle Folgenglieder an liegen in dem
Intervall [−S, S], d.h. in dem horizontalen Schlauch“ −S ≤ y ≤ S.
”
4.3
Konvergenz von Folgen
Wir führen nun den Begriff des Grenzwertes ein. Dies ist einer der schwierigsten Begriffe
der Analysis. Lassen Sie sich von dem abstrakten Konzept des Grenzwertes aber nicht
abschrecken. Wenn wir dieses verstanden haben, dann wird es einfach und intuitiv.
Wir betrachten zunächst ein paar Beispiele von sogenannten konvergenten Folgen
und deren Grenzwerten sowie von sogenannten divergenten Folgen, um ein Gefühl
für die Begriffe der Konvergenz, des Grenzwertes und der Divergenz zu bekommen.
Unsere fünf Beispiel-Folgen sind:
1
n
(−1)n
,
,
,
(n)n∈N
(−1)n n∈N .
(4.5)
n n∈N
n + 1 n∈N
n
n∈N
Wenn wir sagen, eine Folge (an )n∈N konvergiert gegen einen Grenzwert g ∈ R“,
”
dann bedeutet dies anschaulich, dass sich die Werte an der Zahl g immer weiter
annähern, wenn der Index n ∈ N immer größer wird. Betrachten wir zunächst die
ersten drei Beispiele:
• Für die Folge (1/n)n∈N nähern sich die Folgenglieder an = 1/n immer dichter der Zahl
g = 0 an, wenn n ∈ N größer wird. Dabei kommen wir der Zahl g = 0 beliebig nahe,
indem wir n groß genug wählen: Z.B. gilt für ε = 1/106 = 10−6 , dass
1
1
für alle n ≥ N = 106 + 1.
(4.6)
|an − g| = − 0 = < 10−6 = ε
n
n
Wichtig ist bei der Idee der Konvergenz auch, dass wir nicht nur ein N ∈ N (hier
also N = 106 + 1) finden können, so dass wir für dieses N nahe bei g sind (also hier
|aN −g| < 10−6 ), sondern dass auch alle nachfolgenden Folgenglieder an mit n ≥ N
4. Folgen und Grenzwerte
107
mindestens genauso nahe bei g sind. In diesem Beispiel ist das erfüllt, denn (4.6)
gilt für alle n ≥ N = 106 + 1.
• Für die Folge n/(n + 1) n∈N sehen wir, dass für großes n ∈ N der Zähler n und der
Nenner n + 1 der Folgenglieder an = n/(n + 1) sich beide relativ zur Größe von n (oder
in anderen Worten prozentual) nur wenig unterscheiden. Wir haben also für großes n
an =
n
≈ 1,
n+1
und je größer n wird, desto dichter liegt der Wert
von an bei der Zahl 1. Also vermuten
wir, dass der Grenzwert der Folge n/(n + 1) n∈N die Zahl g = 1 ist.
Man kann sich dies mit Hilfe des vorigen Beispiels aus noch anders klarmachen: Schreiben wir
n
(n + 1) − 1
n+1
1
1
an =
=
=
−
=1−
,
(4.7)
n+1
n+1
n+1 n+1
n+1
so können wir mit den Überlegungen für (1/n)n∈N vermuten, dass 1/(n + 1) n∈N gegen den Grenzwert g1 = 0 konvergiert.
Daher sollte wegen der Darstellung (4.7) der
Folgenglieder die Folge n/(n + 1) n∈N gegen g = 1 − g1 = 1 − 0 = 1 konvergieren.
• Bei der Folge (−1)n /n n∈N handelt es sich um eine alternierende Folge, aber auch
hier nähern sich die Folgenglieder an = (−1)n /n der Zahl Null immer weiter an. Wir
vermuten also, dass auch hier der Grenzwert g = 0 ist. Analog zur Folge (1/n)n∈N finden
wir für z.B. ε = 1/106 = 10−6 , dass
(−1)n 1 (−1)n
= < 10−6 = ε
für alle n ≥ N = 106 + 1.
− 0 = |an − g| = n
n n
An diesem Beispiel sehen wir, dass es nicht erforderlich ist, dass sich die Folgenglieder
dem Grenzwert von einer Seite“ her nähern: Die Folgenglieder
”

 −1
wenn n ungerade ist,
(−1)n  n
=
an =

1
n

wenn n gerade ist,
n
sind abwechselnd kleiner bzw. größer als der Grenzwert g = 0.
Wir halten noch einmal fest, was wir aus diesen drei Beispielen über konvergente Folgen
gelernt haben:
• Die Folgenglieder an einer konvergenten Folge (an )n∈N nähern sich dem Grenzwert g immer weiter an, wenn n ∈ N wächst. Dabei muss die Annäherung nicht
monoton“ sein, d.h. die Folgenglieder sich können von beiden Seiten dem Grenzwert
”
nähern.
• Wichtig ist aber, dass für jede beliebige fest vorgegebene Entfernung ε > 0, alle
Folgenglieder an ab einem gewissen Index N nicht weiter als diese Entfernung
ε vom Grenzwert g entfernt sind, also dass für alle an mit n ≥ N gilt |an − g| < ε.
Dabei hängt die Wahl von N natürlich von der Entfernung ε ab.
Betrachten wir nun die beiden letzten Beispiele von Folgen in (4.5).
108
4.3. Konvergenz von Folgen
• Die Folgenglieder an = n der Folge (n)n∈N werden beliebig groß, wenn n ∈ N wächst.
Insbesondere könnnen wir keine reelle Zahl g finden, an die sich die Folgenglieder immer
weiter annähern. Daher vermuten wir, dass die Folge (n)n∈N keinen Grenzwert hat
und damit divergent ist. (Man sagt eine Folge ist divergent“, wenn sie nicht gegen
”
einen Grenzwert konvergiert.)
• Die alternierende Folge (−1)n n∈N ist ein anderer Fall als (n)n∈N , denn hier gilt
−1
wenn n ungerade ist,
n
an = (−1) =
+1
wenn n gerade ist.
Die Folgenglieder sind also abwechselnd −1 und +1. Wir könnten nun vermuten, dass
g1 = −1 und g2 = +1 beides Grenzwerte der Folge sind. Dies ist aber nicht der Fall,
denn eine konvergente Folge hat nur einen Grenzwert, und dieser ist eindeutig
bestimmt.
Dass die beiden Zahlen g1 = −1 und g2 = +1 keine Grenzwerte der Folge (−1)n n∈N
sind, kann man sich auch mit unserem bisherigen intuitiven Verständnis der Konvergenz
wie folgt
klar machen: Betrachten wir z.B. g2 = +1. Wäre dies ein Grenzwert der Folge
(−1)n n∈N , dann sollte es für ε = 1/10 ein N geben, so dass alle an mit n ≥ N
höchstens den Abstand ε = 1/10 von g2 = +1 haben. Dies ist aber für alle an = −1
(also alle an mit ungeraden n ≥ N) nicht erfüllt! Genauso kommt g1 = −1 (oder
eine andere
reelle Zahl g) als Grenzwert nicht in Frage. Wir sehen also, dass die Folge
n
(−1) n∈N keinen Grenzwert haben kann und daher divergent sein muss.
Nun definieren wir den Grenzwert und die Begriffe konvergent“ und divergent“ formal.
”
”
Wenn wir anschliessend die abstrakte Definition untersuchen, werden wir sehen, dass diese
lediglich mathematisch beschreibt, was wir bereits an unseren Beispielen gesehen haben.
Definition 4.17. (Grenzwert einer Folge reeller Zahlen, Konvergenz und Divergenz) Sei (an )n∈N eine Folge reeller Zahlen. Eine reelle Zahl g heißt der Grenzwert
(oder Limes) der Folge (an ), wenn für jede reelle Zahl ε > 0 ein N = N(ε) in N
existiert, so das gilt
|an − g| < ε
für alle n ≥ N.
(4.8)
Zu beachten ist dabei, dass die Wahl von N von ε abhängt, was durch die Schreibweise
N = N(ε) ausgedrückt wird.
Folgen reeller Zahlen (an )n∈N , die einen Grenzwert g besitzen, nennt man konvergent.
Man sagt auch, dass die konvergente Folge (an )n∈N gegen den Grenzwert g konvergiert und schreibt an → g für n → ∞“ oder lim an = g.
”
n→∞
Alle Folgen reeller Zahlen, die nicht konvergent sind, nennt man divergent. Man sagt
auch, dass eine divergente Folge divergiert.
Die Idee hinter der abstrakten Definition des Grenzwertes liefert die folgende
Überlegung: Zunächst einmal bemerken wir, dass (4.8) äquivalent ist zu
− ε < an − g < ε für alle n ≥ N + g
4. Folgen und Grenzwerte
⇐⇒
109
g − ε < an < g + ε für alle n ≥ N,
(4.9)
wobei wir in der Umformung überall g addiert haben. Dies bedeutet aber, dass alle Folgenglieder an mit n ≥ N in dem Intervall (g − ε, g + ε) liegen müssen (siehe auch Abbildung 4.3). Da (4.8) für jedes ε > 0 gelten muss, können wir ε > 0 immer kleiner machen,
und zu jedem (beliebig kleinen) ε > 0 finden wir ein N = N(ε), so dass alle Folgenglieder
an mit n ≥ N im Intervall (g − ε, g + ε) liegen. Indem wir ε > 0 immer kleiner machen
schrumpft das Intervall (g − ε, g + ε) irgendwann auf den einen Punkt g zusammen. Dies
ist der Grenzwert der konvergenten Folge (an )n∈N .
aN +2
aN
g−ε
aN +1 aN +4 aN +3
g+ε
g
Abb. 4.3: Zu jedem ε > 0 kann man ein N = N(ε) finden, so dass alle an mit n ≥ N
in dem offenen Intervall (g − ε, g + ε) liegen. Dies ist angedeutet, indem wir die ersten
Folgenglieder an mit n ≥ N eingezeichnet haben. Alle weiteren an mit n ≥ N liegen
ebenfalls in (g − ε, g + ε).
Achtung: Die Limes-Schreibweise darf nur verwendet werden, wenn eine Folge konvergiert! Bevor man schreibt lim an“, muss man sich erst davon überzeugt haben, dass
”n→∞
dieser Grenzwert auch wirklich existiert, d.h. dass die Folge (an )n∈N konvergiert!
Wir wollen nun für einige unserer Beispiele konvergenter Folgen vom Anfang dieses Teilkapitels die Konvergenz mit Hilfe der Definition 4.17 nachweisen.
Beispiel 4.18. (konvergente Folge) Wir wollen zeigen, dass Folge (1/n)n∈N gegen den
Grenzwert g = 0 konvergiert, also dass gilt
1
= 0.
n→∞ n
lim
Nachweis: Wir gehen gemäß Definition 4.17 vor. Sei ε > 0 beliebig. Dann suchen wir ein
N = N(ε) ∈ N (welches von ε abhängt) so, dass gilt
1
1 1
|an − g| = − 0 = = < ε
für alle n ≥ N.
(4.10)
n
n
n
Wir überlegen uns nun, dass für n ≥ N immer gilt
1
1
≤
n
N
für alle n ≥ N.
Damit erhalten wir
1
1
1
|an − g| = − 0 = ≤
n
n
N
für alle n ≥ N.
(4.11)
110
4.3. Konvergenz von Folgen
Wenn wir nun N = N(ε) so wählen können, dass gilt
1
< ε,
N
(4.12)
dann folgt aus (4.11) und (4.12), dass (4.10) erfüllt ist, und wir haben gezeigt, dass die
Folge (1/n)n∈N gegen g = 0 konvergiert.
Umformen von (4.12) liefert
1
< ε : ε
N
⇐⇒
1
< 1 · N
εN
1
< N,
ε
⇐⇒
wobei alle <“-Zeichen erhalten bleiben, da ε > 0 und N > 0 gelten. Wählen wir also
”
N = N(ε) ∈ N so, dass N > 1/ε gilt, so folgt (4.12).
Abschliessend halten wir unseren Nachweis der Konvergenz noch einmal zusammengefasst
fest: Zu jeden beliebigen ε > 0 wählen wir N = N(ε) ∈ N mit N = N(ε) > 1/ε, und
dann gilt
1 1
1
1
<ε
für alle n ≥ N.
|an − g| = − 0 = = ≤
n
n
n
N
Eine konvergente Folge mit Grenzwert Null (wie z.B. im vorigen Beispiel) nennt man eine
sogenannte Nullfolge.
Definition 4.19. (Nullfolge) Eine Folge reeller Zahlen (an )n∈N heißt eine Nullfolge,
wenn die Folge (an )n∈N gegen den Grenzwert g = 0 konvergiert, d.h. lim an = 0.
n→∞
Betrachten wir noch zwei weitere Beispiele konvergenter Folgen, diesmal jeweils mit einem
Grenzwert ungleich Null.
Beispiel 4.20. (Konvergenz einer konstanten Folge) Sei (an )n∈N = (c)n∈N mit an = c
für alle n ∈ N eine konstante Folge. Dann ist die Folge konvergent mit dem Grenzwert
g = c.
Nachweis: Um dies nachzuweisen, müssen wir zu einem beliebigen ε > 0 ein N = N(ε) ∈ N
(das in der Regel von ε abhängt) finden, so dass gilt
|an − g| = |c − c| = 0 < ε
für alle n ≥ N.
Diese Bedingung ist aber automatisch für alle n ∈ N erfüllt, d.h. wir können N = N(ε) = 1
wählen und erhalten: Zu jedem ε > 0 gilt für N = N(ε) = 1, dass
|an − g| = |c − c| = 0 < ε
für alle n ≥ N = 1.
Damit haben wir gezeigt, dass die konstante Folge (c)n∈N gegen den Grenzwert g = c
konvergiert.
4. Folgen und Grenzwerte
111
Beispiel 4.21. (konvergente Folge) Um zu zeigen, dass die Folge
n
(an )n∈N =
n + 1 n∈N
gegen den Grenzwert g = 1 konvergiert, gehen wir wie folgt vor:
Wir betrachten ein beliebiges ε > 0. Wir suchen nun ein N = N(ε) ∈ N, so dass gilt
n − (n + 1) −1 n
=
= 1 <ε
− 1 = für alle n ≥ N.
|an − g| = n+1
n+1
n + 1 n + 1
(4.13)
Da wir nun n ≥ N betrachten müssen können wir 1/(n + 1) in (4.13) wie folgt nach oben
abschätzen
1
1
1
< ≤
für alle n ≥ N.
(4.14)
n+1
n
N
Aus (4.14) folgt also
n
1
1
− 1 =
<
|an − g| = n+1
n+1
N
für alle n ≥ N.
(4.15)
Können wir nun N = N(ε) ∈ N so wählen, dass 1/N ≤ ε gilt, dann folgt aus (4.15), dass
(4.13) gilt. Die Bedingung 1/N ≤ ε kann aber wie folgt in eine äquivalente Bedingung für
N umgewandelt werden:
1
1
1
⇐⇒
⇐⇒
≤ε :ε
≤ 1 · N
≤ N.
N
εN
ε
Wählen wir also N = N(ε) ∈ N so, dass N ≥ 1/ε gilt, so gilt 1/N ≤ ε, und Einsetzen in
(4.15) liefert
n
1
1
|an − g| = − 1 =
<
≤ε
für alle n ≥ N,
n+1
n+1
N
d.h. die Folge n/(n + 1) n∈N konvergiert gegen g = 1.
Bemerkung 4.22. (Tricks zum Umgang mit der Definition von Konvergenz)
Sei (an )n∈N eine Folge reeller Zahlen. Dann gelten folgende Aussagen:
(i) Die Folge (an )n∈N konvergiert genau dann gegen den Grenzwert g, wenn für jede Zahl
ε > 0 ein Index N = N(ε) ∈ N existiert, so dass gilt:
|an − g| ≤ ε
für alle n ≥ N.
Wir dürfen also in unseren Abschätzungen jederzeit |an − g| ≤ ε statt |an − g| < ε
( <“ wurde durch ≤“ ersetzt) für alle n ≥ N beweisen.
”
”
(ii) Es gebe ein K > 0, so dass für jede Zahl ε > 0 ein Index N = N(ε) ∈ N existiert,
so dass gilt
|an − g| ≤ K · ε
für alle n ≥ N.
Auch dann konvergiert (an )n∈N gegen g. – Wichtig ist hier, dass K unabhängig
von ε und N ist.
112
4.3. Konvergenz von Folgen
(iii) Die Folge (an )n∈N besitzt den Grenzwert g genau dann, wenn gilt lim (an − g) = 0,
also wenn (an − g)n∈N eine Nullfolge ist.
n→∞
Nachdem wir nun einige Beispiele gesehen haben, stellen wir uns die sehr natürliche Frage,
ob eine Folge auch mehr als einen Grenzwert haben kann? Die Antwort ist nein“.
”
Satz 4.23. (Eindeutigkeit des Grenzwerts) Der Grenzwert einer konvergenten Folge
ist eindeutig bestimmt, d.h. eine konvergente Folge hat genau einen Grenzwert.
Der obige Satz sagt uns also, dass wir für jede Folge (an )n∈N genau eine der beiden
Situationen haben: Entweder divergiert (an )n∈N ; oder (an )n∈N konvergiert, und in
diesem Fall können wir der Folge einen eindeutigen Grenzwert zuweisen.
Der Beweis von Satz 4.23 ist in Teilkapitel 4.5 mit dem ergänzenden Material zu finden.
Was bedeutet die Divergenz einer Folge?
Mit dem folgenden Lemma können wir in vielen, aber nicht allen, Fällen divergenter
Folgen leicht nachweisen, dass eine Folge divergiert.
Lemma 4.24. (konvergent ⇒ beschränkt) Jede konvergente Folge (an )n∈N reeller
Zahlen ist beschränkt.
Wir bemerken, dass die umgekehrte Aussage aber leider nicht gilt: Eine beschränkte
Folge muss nicht konvergent
sein! Dies zeigt beispielsweise die divergente aber be
n
schränkte Folge (−1) n∈N (vgl. Beispiel 4.15). Wir werden später noch sehen, wie man
zeigt, dass die Folge (−1)n n∈N divergiert.
Der Wert des vorhergehenden Lemmas liegt unter anderem in der Kontraposition
(vgl. Teilkapitel 2.3) der Aussage: Diese besagt, dass eine unbeschränkte Folge nicht
konvergent sein kann.
Folgerung 4.25. (nicht beschränkt ⇒ nicht konvergent) Eine unbeschränkte Folge
reeller Zahlen (an )n∈N ist divergent.
Betrachten wir ein Beispiel, in dem wir diese Folgerung anwenden.
Beispiel 4.26. (Anwendung von Folgerung 4.25) Betrachten wir nun noch einmal die
Folge (n)n∈N , für die wir in Beispiel 4.16 bereits nachgewiesen haben, dass sie unbeschränkt
ist. Da die Folge (n)n∈N unbeschränkt ist, folgt mit Hilfe von Folgerung 4.25, dass sie nicht
konvergent ist.
Der Beweis von Lemma 4.24 befindet sich in Teilkapitel 4.5 mit dem ergänzenden Material.
Wir kommen nun noch einmal auf die Frage zurück, was die Divergenz einer Folge
4. Folgen und Grenzwerte
113
bedeutet. Dies kann aber muss nicht bedeuten, dass eine Folge unbeschränkt ist. Es
kann aber auch lediglich bedeuten, dass die Folge sehr wohl beschränkt ist aber trotzdem
keinen Grenzwert hat. Wir wollen dies am Beispiel der divergenten Folge (−1)n n∈N
untersuchen.
Beispiel 4.27. (alternierende divergente Folge) Die Folge (−1)n n∈N mit an =
(−1)n haben wir bereits in Beispielen 4.7 und 4.15 untersucht. In Beispiel 4.7 haben wir
gesehen, dass die Folge alterniert und dass gilt:
−1
wenn n ungerade ist,
an =
+1
wenn n gerade ist.
Machen wir uns zunächst anschaulich klar, warum diese Folge divergieren muss, bevor wir
dies formal beweisen. Als Kandidaten für Grenzwerte kommen hier nur die beiden Werte
g1 = −1 und g2 = +1 in Frage, da die Folge nur diese beiden Werte annimmt. Wäre
beispielsweise g2 = +1 der Grenzwert von (−1)n n∈N , so müsste gelten, dass zu jedem
ε > 0 ein N = N(ε) ∈ N existiert, so dass für alle n ≥ N gilt:
(
)
|(−1)
−
1|
=
|
−
2|
=
2
wenn
n
ungerade
|an − g2 | = |(−1)n − 1| =
< ε.
|1 − 1| = 0
wenn n gerade
Für alle ungeraden n ≥ N erhalten wir also die Bedingung 2 < ε und diese Bedingung
ist
für alle ε ≤ 2 nicht erfüllbar; egal wie wir N wählen. Daher kann die Folge (−1)n n∈N
nicht gegen g2 = +1 konvergieren. Analog zeigt man, dass die Folge (−1)n n∈N nicht
gegen g1 = −1 konvergieren kann. Dies macht anschaulich klar, dass die Folge (−1)n n∈N
nicht konvergiert, also dass sie divergiert.
Streng genommen muss man aber nachweisen, dass die Folge keinen Grenzwert g hat,
denn dies bedeutet der Definition 4.17 nach, dass die Folge divergiert. Dazu muss man
zeigen, dass es kein g ∈ R gibt, dass ein Grenzwert ist, oder in anderen Worten, dass
für jedes g ∈ R die Grenzwert-Bedingung verletzt ist. Genauer (nach der Negation der
Konvergenz-Bedingung) müssen wir für jedes g ∈ R zeigen, dass es ein ε > 0 gibt, so dass
für kein N ∈ N die Grenzwert-Bedingung erfüllt ist. Dies bedeutet aber, dass für dieses
spezielle ε > 0 für jedes N ∈ N ein n0 ≥ N existiert, so dass |an0 − g| ≥ ε gilt.
Sei g ∈ R beliebig, wir wählen ε = 1, und N ∈ N sei beliebig. Wir wollen nun zeigen,
dass für n0 = N oder n0 = N + 1 die Bedingung |an0 − g| ≥ ε = 1 gilt. Dann ist die
Konvergenz-Bedingung verletzt und wir haben gezeigt, dass die Folge divergiert.
Wir wissen, dass jeweils eine der beiden aufeinander folgenden natürlichen Zahlen N und
N + 1 gerade bzw. ungerade ist. Also erhalten wir unter den Folgengliedern aN = (−1)N
aN +1 = (−1)N +1 einmal den Wert −1 und einmal den Wert +1. Mit der Dreiecksungleichung folgt nun (vgl. auch Abbildung 4.4)
2 = |−2| = |(−1)−1| = |(−1−g)+(g −1)| ≤ |−1−g|+|g −1| = |−1−g|+|1−g| (4.16)
Dies bedeutet aber, dass |−1−g| ≥ 1 oder |1−g| ≥ 1 gelten muss, denn wären |−1−g| < 1
und |1 − g| < 1, so könnten wir in (4.16) beide Terme auf der rechten Seite durch 1 nach
oben abschätzen, und wir bekämen
2 ≤ | − 1 − g| + |1 − g| < 1 + 1 = 2,
| {z } | {z }
<1
<1
114
4.4. Grenzwertsätze: Aussagen über konvergente Folgen
also 2 < 2, was ein Widerspruch ist! Daher muss gelten | − 1 − g| ≥ 1 oder |1 − g| ≥ 1.
Im Fall |1 − g| ≥ 1 ist aber entweder aN = 1 oder aN +1 = 1 und wir haben daher
|aN − g| ≥ 1 = ε oder |aN +1 − g| ≥ 1 = ε. Im Fall | − 1 − g| ≥ 1 ist aber entweder aN = −1
oder aN +1 = −1 und wir haben daher |aN − g| ≥ 1 = ε oder |aN +1 − g| ≥ 1 = ε. Also
ist
n
für ε = 1 die Konvergenzbedingung immer verletzt, und daher ist die Folge (−1) n∈N
divergent.
| − 1 − g|
−1
g
|1 − g|
0
1
Abb. 4.4: Veranschaulichung der Anwendung der Dreiecksungleichung in (4.16).
4.4
Grenzwertsätze: Aussagen über konvergente Folgen
Für komplizierte konvergente Folgen möchte man die Folge als Summe, Differenz, Produkt
und/oder Quotient mehrerer einfacher Folgen schreiben und die Untersuchung auf Konvergenz und die Grenzwertbestimmung für die einzelnen Anteile durchführen. Betrachten
wir zunächst ein Beispiel, um zu sehen, was damit gemeint ist.
Beispiel 4.28. (Rechnen mit Grenzwerten) Betrachten wir die Folge
(an )n∈N =
n2 − n
2 n2 + 1
.
n∈N
Für diese Folge ist es nicht direkt ersichtlich, dass sie konvergiert und was ihr Grenzwert
ist. Da sowohl im Nenner wie im Zähler die höchste Potenz n2 ist, teilen wir den Nenner
und den Zähler durch n2 (oder gleichwertig: wir erweitern den Nenner und den Zähler mit
1/n2 . Damit erhalten wir
1 − n1
n2 − n
an =
.
(4.17)
=
2 n2 + 1
2 + n12
Wir haben bereits gezeigt, dass die Folge (1/n)n∈N gegen Null konvergiert, und wir können
analog zeigen, dass die Folge (1/n2 )n∈N ebenfalls gegen Null konvergiert. Weiter konvergiert die konstante Folge (c)n∈N gegen den Grenzwert c. Damit wissen wir
1
= 0,
n→∞ n
lim
1
= 0,
n→∞ n2
lim
lim c = c
n→∞
für jede Konstante c ∈ R.
Wir würden nun gerne wie folgt argumentieren: Für die Folge im Zähler des umgeformten
4. Folgen und Grenzwerte
115
Folgengliedes (4.17) gilt
1
1
= 1 + 0 = 1,
lim 1 −
= lim 1 − lim
n→∞
n→∞
n→∞
n
| {z } | {z n }
=1
=0
und für die Folge im Nenner gilt
1
1
lim 2 + 2 = lim 2 + lim 2 = 2 + 0 = 2.
n→∞
n→∞
n→∞
n
| {z } | {z n }
=2
=0
(4.18)
(4.19)
Daraus würden wir nun gerne schliessen, dass gilt
lim 1 − n1
1 − n1
n2 − n
1
n→∞
lim
=
=
lim
,
=
1
1
n→∞ 2 n2 + 1
n→∞ 2 + 2
2
lim
2
+
2
n
n
n→∞
wobei wir im letzten Schritt (4.18) und (4.19) verwendet haben.
Der nachfolgende Satz sagt uns, dass unsere Argumentation im letzten Beispiel durchaus
korrekt war, denn alle involvierten Folgen waren konvergent und die Folge im Nenner war
keine Nullfolge.
Satz 4.29. (Rechnen mit konvergenten Folgen) Seien (an )n∈N und (bn )n∈N konvergente Folgen mit den Grenzwerten a bzw. b, also lim an = a und lim bn = b. Dann
n→∞
n→∞
gelten die folgenden Aussagen:
(i) Die Summenfolge (sn )n∈N = (an + bn )n∈N mit sn = an + bn konvergiert gegen den
Grenzwert a + b. In Formeln haben wir
lim sn = lim an + bn = lim an + lim bn = a + b.
n→∞
n→∞
n→∞
n→∞
(ii) Die Differenzenfolge (dn )n∈N = (an − bn )n∈N mit dn = an − bn konvergiert gegen
den Grenzwert a − b. In Formeln haben wir
lim dn = lim an − bn = lim an − lim bn = a − b.
(4.20)
n→∞
n→∞
n→∞
n→∞
(iii) Die Produktfolge (pn )n∈N = (an · bn )n∈N mit pn = an · bn konvergiert gegen den
Grenzwert a · b. In Formeln haben wir
lim pn = lim an · bn = lim an · lim bn = a · b.
n→∞
n→∞
n→∞
n→∞
(iv) Falls b 6= 0 und bn 6= 0 für alle n ∈ N gilt, konvergiert die Quotientenfolge
(qn ) = (an /bn )n∈N mit qn = an /bn gegen den Grenzwert a/b. In Formeln gilt also
lim an
a
an
= n→∞
= .
n→∞ bn
lim bn
b
lim qn = lim
n→∞
n→∞
116
4.4. Grenzwertsätze: Aussagen über konvergente Folgen
Warnung: Die obigen Rechenoperationen gelten nur für konvergente Folgen. Für
beliebige Folgen sind sie im Allgemeinen sinnlos und können sogar zu falschen Ergebnissen
führen!
Die Beweise von (i) und (iii) in Satz 4.29 befinden sich im Teilkapitel 4.5 mit dem ergänzenden Material.
Betrachten wir noch ein Beispiel für die Anwendung von Satz 4.29.
Beispiel 4.30. (Rechnen mit Grenzwerten) Betrachten wir die Folge
38 23
− n − 10
n2
.
27
+ 13
+ 5 n∈N
n2
n
Wir zeigen hier erst, dass die Folge im Zähler und die Folge im Nenner jeweils konvergieren,
sowie dass die Folge im Nenner und ihr Grenzwert ungleich Null sind. Danach können wir
Satz 4.29 (iv) anwenden, um den Grenzwert der Quotientenfolge zu bestimmen.
Weil gilt
lim 38 = 38,
n→∞
lim 23 = 23,
n→∞
lim 10 = 10,
n→∞
1
= 0,
n→∞ n
lim
1
= 0,
n→∞ n2
lim
folgt nach Satz 4.29 (i), (ii) und (iii), dass die Zählerfolge gegen der folgenden Grenzwert
konvergiert:
1
1
38 23
−
− 10 = lim 38 · 2 − 23 · − 10
lim
n→∞
n→∞ n2
n
n
n
1
1
− lim 10
= lim 38 · lim 2 − lim 23 · lim
n→∞
n→∞
n→∞ n
n→∞
n→∞ n
= 38 · 0 − 23 · 0 − 10 = −10.
Weil gilt
lim 27 = 27,
n→∞
lim 13 = 13,
n→∞
lim 5 = 5,
n→∞
1
= 0,
n→∞ n
lim
1
= 0,
n→∞ n2
lim
folgt nach Satz 4.29 (i), (ii) und (iii), dass die Nennerfolge gegen der folgenden Grenzwert
konvergiert:
1
1
27 13
+
+ 5 = lim 27 · 2 + 13 · + 5
lim
n→∞
n→∞ n2
n
n
n
1
1
= lim 27 · lim 2 + lim 13 · lim
+ lim 5
n→∞
n→∞ n
n→∞
n→∞
n→∞ n
= 27 · 0 + 13 · 0 + 5 = 5.
Weiter gilt für die Nennerfolge
13
27
+
+ 5 ≥ 5 > 0.
2
n
n
|{z}
|{z}
≥0 ≥0
4. Folgen und Grenzwerte
117
Daher können wir Satz 4.29 (iv) anwenden und finden dass die Quotientenfolge gegen den
folgenden Grenzwert konvergiert:
38
23
38
23
lim
−
−
10
2
n
n
− 10
−10
2 −
=
= −2.
lim n27 n13
= n→∞ 27 13
n→∞
5
+ n +5
lim n2 + n + 5
n2
n→∞
Bemerkung 4.31. (Anmerkung zu Satz 4.29) Eine Summenfolge (an + bn )n∈N oder
eine Differenzfolge (an − bn )n∈N kann konvergieren, obwohl die beiden Folgen (an )n∈N und
(bn )∈ N divergent sind. So sind z.B. die beiden Folgen (an )n∈N
= (n)n∈N und (bn )n∈N =
(n+1)n∈N divergent, aber die Folge (an −bn )n∈N = n−(n+1) n∈N = (−1)n∈N ist konstant
und konvergiert damit gegen den Grenzwert g = −1.
Wir lernen noch einen nützlichen Satz über die Konvergenz von Nullfolgen kennen.
Satz 4.32. (Aussagen über Nullfolgen)
(i) Gilt für zwei Folgen (an )n∈N und (bn )n∈N für ein geeigentes n0 ∈ N die Abschätzung
|an | ≤ |bn |
für alle n ≥ n0
und ist (bn )n∈N eine Nullfolge, so ist auch (an )n∈N Nullfolge.
(ii) Ist die Folge (an )n∈N beschränkt und ist die Folge (bn )n∈N eine Nullfolge, so ist die
Produktfolge (an · bn )n∈N eine Nullfolge.
Der Beweis zu diesem Satz findet sich ebenfalls in dem Teilkapitel 4.5 mit dem ergänzenden
Material. Betrachten wir zwei Beispiele für die Anwendung von Satz 4.32.
Beispiel 4.33.
(Anwendung von Satz 4.32 (i)) Betrachten wir die Folge (an )n∈N =
sin(n)/n n∈N . Hier gilt
sin(n) | sin(n)|
1
=
≤
für alle n ∈ N,
n n
n
wobei wir genutzt haben, dass gilt | sin(x)| ≤ 1 für alle x ∈ R. Da die Folge
(bn )n∈N =
(1/n)n∈N eine Nullfolge ist, gilt nach Satz 4.32 (i), dass (an )n∈N = sin(n)/n n∈N ebenfalls
eine Nullfolge ist, also
sin(n)
= 0.
lim an = lim
n→∞
n→∞
n
Beispiel 4.34. (Anwendung von Satz 4.32 (ii)) Betrachten wir die Folge
3 n + 17 + cos(n2 )
(cn )n∈N =
n2
n∈N
Dann können wir die Folge (cn )n∈N als Produktfolge
(cn )n∈N =
3 n + 17 + cos(n2 ) 1
·
n
n
|
{z
} |{z}
= an
= bn
!
n∈N
118
4.4. Grenzwertsätze: Aussagen über konvergente Folgen
schreiben mit der Nullfolge (bn )n∈N = (1/n)n∈N und der beschränkten Folge
3 n + 17 + cos(n2 )
(an )n∈N =
.
n
n∈N
Dass (an )n∈N beschränkt ist, folgt aus
2 3 n + 17 + cos(n2 ) 17
cos(n
)
= 3 +
+
|an | = n
n
n ≤3+
17
| cos(n2 )|
≤ 3 + 17 + 1 = 21
+
n
n }
|{z}
| {z
≤ 17 ≤ 1/n ≤ 1
für alle n ∈ N,
wobei wir | cos(n2 )| ≤ 1 für alle n ∈ N genutzt haben. Nach Satz 4.32 (ii) folgt nun, dass
die Folge (cn )n∈N gegen Null konvergiert.
Als Letztes lernen wir einen Satz über die Konvergenz monotoner beschränkter Folgen.
Satz 4.35. (Monotonieprinzip) Eine Folge (an )n∈N , welche beschränkt und monoton (also monoton wachsend oder monoton fallend) ist, ist konvergent.
Bemerkung 4.36. (Abschwächung der Voraussetzungen in Satz 4.35) Satz 4.35
gilt auch, wenn (an )n∈N erst ab einem bestimmten Index n0 ∈ N monoton ist.
Wir betrachten zwei Beispiele, um zu sehen, wie wir das Monotonieprinzip anwenden.
Beispiel 4.37. (Monotonieprinzip) In Beispiel 4.18 haben wir bewiesen, dass die Folge
(1/n)n∈N gegen g = 0 konvergiert. Wir können die Konvergenz dieser Folge nun auch
alternativ mit dem Monotonieprinzip beweisen: Wegen
1 1
= ≤1
für alle n ∈ N
n n
ist die Folge (1/n)n∈N beschränkt mit der Schranke S = 1. Außerdem ist die Folge (1/n)n∈N
streng monoton fallend, denn
an =
1
1
>
= an+1
n
n+1
für alle n ∈ N.
Nach dem Monotonieprinzip folgt daher, dass (1/n)n∈N konvergent ist.
Beispiel 4.38. (Monotonieprinzip) Betrachten wir die Folge
π (an )n∈N = 17 − cos
.
2n n∈N
Wir wollen das Monotonieprinzip nutzen, um zu zeigen, dass die Folge konvergiert:
4. Folgen und Grenzwerte
119
Zunächst folgt mit der Dreiecksungleichung und | cos(x)| ≤ 1 für alle x ∈ R, dass
π h
π i
|an | = 17 + − cos
≤ |17| + − cos
2n
2n
π = 17 + cos
für alle n ∈ N,
≤ 17 + 1 = 18 = S
2n
d.h. die Folge ist beschränkt.
Weiter ist die Funktion cos(x) für x ∈ [0, π/2] streng monoton fallend. Daher ist die Folge
π cos
2n n∈N
streng monoton wachsend.
(Beachten Sie dabei, dass π/(2n) ∈ [0, π/2] für alle n ∈ N gilt
und dass π/(2n) n∈N streng monoton fallend ist.) Die Folge
17 − cos
π 2n n∈N
ist daher streng monoton fallend.
Nach dem Monotonieprinzip ist die gegebene Folge also konvergent, und mit ein bisschen
Übung sieht man, dass ihr Grenzwert g = 16 ist.
4.5
Weiterführendes Material: Beweise der Aussagen
über konvergente Folgen∗
In diesem ergänzenden Teilkapitel werden die meisten der Sätze über Folgen ausführlich
bewiesen. Diese Beweise sind nicht prüfungsrelavent und werden auch nicht in der Vorlesung besprochen. Die Beweise geben aber eine tiefere Einsicht in die Konvergenz von
Folgen und erhöhen daher das Verständnis des Themas Folgen. – Sollten Sie an dieser Mathematikvorlesung besonderen Spass haben und mit dem Rest des Materials gut zurecht
kommen, dann lohnt es sich in jedem Fall die Beweise anzuschauen!
Als erstes beweisen wir Satz 4.23, der besagt, dass der Grenzwert einer konvergenten Folge
eindeutig bestimmt ist.
Beweis von Satz 4.23. Um zu zeigen, dass es genau einen Grenzwert gibt, nehmen
wir an, es gebe zwei Grenzwerte g1 und g2 , und zeigen dann, dass diese übereinstimmen
müssen.
Sei also (an )n∈N eine konvergente Folge, und seien g1 und g2 beide Grenzwerte dieser Folge.
Wenn wir zeigen können, dass für jedes ε > 0 gilt
|g1 − g2 | < ε,
und wird |g1 − g2 | beliebig klein, und daher muss |g1 − g2 | = 0 gelten. Aus |g1 − g2 | = 0
folgt aber, dass g1 − g2 = 0, also g1 = g2 gilt.
120
4.5. Weiterführendes Material: Beweise der Aussagen über konvergente Folgen∗
Da per Annahme (an )n∈N gegen jeweils g1 und g2 konvergiert, existieren zu jedem ε > 0
ein N1 = N1 (ε) ∈ N und ein N2 = N2 (ε) ∈ N, so dass gilt:
ε
für alle n ≥ N1 ,
(4.21)
|an − g1 | <
2
ε
|an − g2 | <
für alle n ≥ N2 .
(4.22)
2
Sei nun N = max{N1 , N2 } das Maximum von N1 und N2 . Dann folgt mit der Dreiecksungleichung und (4.21) und (4.22), dass gilt
ε ε
|g1 − g2 | ≤ (g1 − an ) + (an − g2 ) ≤ |g1 − an | + |an − g2 | < + = ε für alle n ≥ N.
| {z } | {z } 2 2
< ε/2
< ε/2
Da ε > 0 beliebig war, folgt dass |g1 −g2 | beliebig klein wird und daher Null sein muss. Aus
|g1 −g2 | = 0 folgt aber g1 = g2 ist, d.h. der Grenzwert ist in der Tat eindeutig bestimmt. Nun beweisen wir Lemma 4.24, das besagt, dass jede konvergente Folge beschränkt ist.
Beweis von Lemma 4.24. Sei (an )n∈N eine konvergente Folge mit Grenzwert g. Um
zu zeigen, dass (an )n∈N beschränkt ist, müssen wir eine Schranke S > 0 finden so dass
|an | ≤ S für alle n ∈ N gilt.
Wegen der Konvergenz von (an )n∈N gegen g gibt es zu ε = 1 ein N = N(ε) = N(1) ∈ N,
so dass gilt
|an − g| < 1
für alle n ≥ N.
Mit Hilfe der Dreiecksungleichung erhalten wir
|an | = (an − g) + g ≤ |an − g| + |g|
(4.23)
für alle n ∈ N.
Daraus folgt mit Hilfe von (4.23), dass gilt
|an | ≤ |an − g| + |g| < 1 + |g|
für alle n ≥ N.
(4.24)
Für alle n < N gilt aber
|an | ≤ K = max |a1 |, |a2 |, . . . , |aN −1 | .
(4.25)
Aus (4.24) und (4.25) folgt nun |an | ≤ S für alle n ∈ N mit S = max{1 + |g|, K}, d.h. die
Folge (an )n∈N ist beschränkt.
Nun beweisen wir Aussage (i) und (iii) in Satz 4.29 über das Rechen mit Grenzwerten.
Die Aussage (ii) in Satz 4.29 kann ganz analog zur Aussage (i) bewiesen werden, und die
Aussage (iv) ist ähnlich zu (iii) zu beweisen, aber dies ist recht technisch und aufwendig.
Daher zeigen wir den Beweis nicht.
Beweis von (i) in Satz 4.29. Wir wollen zeigen, dass die Folge (an + bn )n∈N gegen a + b
konvergiert. Dies bedeutet, dass wir zu jedem ε > 0 ein N = N(ε) ∈ N finden müssen, so
dass gilt
|(an + bn ) − (a + b)| < ε für alle n ≥ N.
4. Folgen und Grenzwerte
121
Wir starten, indem wir uns unsere Voraussetzungen hinschreiben: Da (an )n∈N gegen den
Grenzwert a und (bn )n∈N gegen den Grenzwert b konvergiert, gibt es zu jedem ε > 0 ein
N1 = N1 (ε) ∈ N und ein N2 = N2 (ε) ∈ N, so dass gilt:
ε
2
ε
|bn − b| <
2
|an − a| <
für alle n ≥ N1 ,
(4.26)
für alle n ≥ N2 .
(4.27)
Sei nun N = N(ε) = max{N1 , N2 } das Maximum von N1 und N2 . Aus der Dreiecksungleichung und (4.26) und (4.27) folgt
|(an + bn ) − (a + b)| = |(an − a) + (bn − b)| ≤ |an − a| + |bn − b| < ε für alle n ≥ N,
| {z } | {z }
< ε/2
< ε/2
d.h. (an + bn )n∈N konvergiert gegen den Grenzwert a + b.
Beweis von (iii) in Satz 4.29. Wir wollen zeigen, dass es zu jedem ε > 0 ein N =
N(ε) ∈ N gibt, so dass gilt
|an · bn − a · b| < K · ε
für alle n ≥ N,
wobei K > 0 eine feste von ε und N unabhängige Konstante ist.
Sei also ε > 0 beliebig. Wir starten damit, dass wir |an · bn − a · b| geeignet abschätzen:
|an · bn − a · b| = |an · bn − an · b + an · b − a · b|
= an · (bn − b) + (an − a) · b
≤ an · (bn − b) + (an − a) · b
≤ |an | · |bn − b| + |an − a| · |b|,
(4.28)
wobei wir die Dreiecksungleichung verwendet haben. Nach Lemma 4.24 ist die konvergente
Folge (an )n∈N beschränkt, d.h. es gibt eine Konstante S > 0 so, dass |an | ≤ S für alle
n ∈ N. Also folgt aus (4.28)
|an · bn − a · b| ≤ |an | ·|bn − b| + |an − a| · |b| ≤ S · |bn − b| + |b| · |an − a|.
|{z}
≤S
(4.29)
Da nach Voraussetzung die Folgen (an )n∈N und (bn )n∈N gegen a bzw. b konvergieren, gibt
es Zahlen N1 = N1 (ε) ∈ N und N2 = N2 (ε) ∈ N, so dass gilt:
|an − a| < ε
|bn − b| < ε
für alle n ≥ N1 ,
für alle n ≥ N2 .
(4.30)
(4.31)
Wir wählen nun N = max{N1 , N2 } als das Maximum von N1 und N2 . Dann können wir
für n ≥ N die beiden Ungleichungen (4.30) und (4.31) in (4.29) nutzen:
|an · bn − a · b| ≤ S · |bn − b| +|b| · |an − a| < S · ε + |b| · ε = (S + |b|) · ε für alle n ≥ N.
| {z }
| {z }
| {z }
<ε
<ε
=K
122
4.5. Weiterführendes Material: Beweise der Aussagen über konvergente Folgen∗
Also konvergiert die Folge (an · bn )n∈N gegen den Grenzwert a · b.
Nun beweisen wir Satz 4.32 mit den Aussagen über Nullfolgen.
Beweis von Satz 4.32. Bevor wir die beiden Aussagen (i) und (ii) beweisen, schreiben
wir uns unsere gemeinsame Voraussetzung in (i) und (ii) mathematisch hin: Per Annahme
ist die Folge (bn )n∈N eine Nullfolge, d.h. sie konvergiert gegen den Grenzwert b = 0. Also
gilt: Für jedes ε > 0 gibt es ein N = N(ε) ∈ N, so dass
|bn − b| = |bn − 0| = |bn | < ε
für alle n ≥ N.
(4.32)
(i) Wir wollen zeigen, dass die Folge (an )n∈N ebenfalls eine Nullfolge ist, also dass (an )n∈N
gegen den Grenzwert a = 0 konvergiert. Dies bedeutet, dass wir für jedes ε > 0 ein
M = M(ε) ∈ N finden müssen, so dass gilt
|an − a| = |an − 0| = |an | < ε
für alle n ≥ M.
Da nach der Voraussetzung an (an )n∈N gilt |an | ≤ |bn | für alle n ≥ n0 finden wir, dass
|an − a| = |an − 0| = |an | ≤ |bn |
für alle n ≥ n0 .
(4.33)
Für |bn | gilt aber bereits (4.32). Daher wählen wir nun für unser (beliebiges aber festes)
ε > 0 die Zahl M = max{n0 , N} als das Maximum von n0 und N, wobei N das N = N(ε)
aus (4.32) ist. Dann folgt aus (4.33) und (4.32), dass
|an − a| = |an − 0| = |an | ≤ |bn | < ε
für alle n ≥ M = max{n0 , N}.
Also konvergiert die Folge (an )n∈N ebenfalls gegen den Grenzwert Null.
(ii) Wir wollen zeigen, dass dass die Folge (an · bn )n∈N ebenfalls eine Nullfolge ist, also
dass (an · bn )n∈N gegen den Grenzwert g = 0 konvergiert. Dies bedeutet, dass wir für jedes
ε > 0 ein M = M(ε) ∈ N finden müssen, so dass gilt
|an · bn − g| = |an · bn − 0| = |an · bn | < ε
für alle n ≥ M.
Per Annahme ist die Folge (an )n∈N beschränkt, d.h. es gibt eine Schranke S ≥ 0, so dass
gilt
|an | ≤ S
für alle n ∈ N.
(4.34)
Daher folgt aus (4.34)
|an · bn − g| = |an · bn − 0| = |an · bn | = |an | ·|bn | ≤ S · |bn |
|{z}
≤S
für alle n ∈ N.
(4.35)
Wählen wir für unser beliebiges (aber festes) ε > 0 nun M = N mit dem N = N(ε) aus
(4.32), so folgt aus (4.35) und (4.32), dass
|an · bn − g| = |an | ·|bn | ≤ S · |bn | ≤ S · ε
|{z}
≤S
für alle n ≥ N.
Also konvergiert die Folge (an · bn )n∈N in der Tat gegen den Grenzwert Null.
Damit haben wir den Satz bewiesen.
Kapitel 5
Reihen
Dieses Kapitel baut auf das Kapitel 4 über Folgen auf. Als erstes werden wir in Teilkapitel 5.1 kurz endliche Summen betrachten und uns in diesem Kontext mit der SummenNotation vertraut machen und die arithmetische und die geometrische Summe kennenlernen. In Teilkapitel 5.2 werden wir dann Reihen (unendliche Summen) kennenlernen und
uns für die Frage der Konvergenz von Reihen interessieren. Da man eine Reihe als die
Folge ihrer Partialsummen interpretieren kann, können wir die Konvergenz von Reihen
als Sonderfall der Konvergenz von Folgen betrachten. Zuletzt werden wir in Teilkapitel 5.3
eine Reihe von Konvergenzkriterien speziell für Reihen kennenlernen. Wir brauchen Reihen später in dem Kapitel über die Differentiation und werden dort die Taylorreihe einer
Funktion kennenlernen. In Teilkapitel 5.4 werden die Beweise der wichtigsten Konvergenzkriterien für Reihen als weiterführendes Material bewiesen.
5.1
Endliche Summen und arithmetische und geometrische Summe
Bevor wir zwei spezielle Typen von endlichen Summen, nämlich die arithmetische Summe und die geometrische Summe, besprechen diskutieren wir kurz separat Summen
und die Summen-Notation im Detail. Wir haben die Summen-Notation bereits kurz in
Teilkapitel 1.3 verwendet, als wir den binomischen Lehrsatz eingeführt haben.
Definition 5.1. (endliche Summe) Seien m und n ganze Zahlen mit m ≤ n. Die
endliche Summe
P der reellen Zahlen am , am+1 , . . . , an−1 , an schreibt man mit dem Summenzeichen
als
n
X
ak = am + am+1 + . . . + an−1 + an .
(5.1)
k=m
Häufig aber nicht immer gilt m ≥ 0. Der Summationsindex k in (5.1) fungiert als
Platzhalter“ für die Werte m, m + 1, . . . , n − 1, n. Der Name des Summationsindexes
”
spielt keine Rolle, und er kann mit einem anderem Namen, z.B. j, bezeichnet werden,
123
124
5.1. Endliche Summen und arithmetische und geometrische Summe
also
n
X
ak =
n
X
aj .
j=m
k=m
Man bezeichnet den kleinsten Wert des Summationsindexes (also m in (5.1)) bzw. den
größten Wert des Summationsindexes (also n in (5.1)) also untere Grenze bzw. obere
Grenze des Summationsindexes.
Wir betrachten ein paar Beispiele endlicher Summen.
Beispiel 5.2. (endliche Summe) Wir wollen die folgenden endlichen Summen explizit
ausrechnen:
(a)
6
X
k=1
k,
(b)
5
X
2
j ,
(c)
4
X
c,
r=2
j=3
wobei c ∈ R eine Konstante ist.
Lösung:
(a)
6
X
k = 1 + 2 + 3 + 4 + 5 + 6 = 21
k=1
(b)
5
X
j 2 = 32 + 42 + 52 = 9 + 16 + 25 = 50
j=3
(c) In der dritten Summe summieren wir die Konstante c, die nicht von dem Summationsindex r abhängt, auf, d.h. für jeden Wert des Summationsindexes addieren wir c
dazu. Also finden wir
4
X
c = c + c + c = 3 c.
r=2
↑
r=2
↑
r=3
↑
r=4
Indem wir Beispiel 5.2 (c) verallgemeinern, finden wir die folgende nützliche Formel für
die Summen über eine Konstante c:
n
X
k=m
c = (n − m + 1) · c = (n − m + 1) c.
(5.2)
Lemma 5.3. (Eigenschaften von Summen) Es gelten folgende Rechenregeln für
Summen, wobei immer m < n vorausgesetzt wird:
n
X
k=m
n
X
k=m
ak + bk =
n
X
k=m
ak +
n
X
bk ,
n
n
X
X
ak − bk =
ak −
bk ,
k=m
(5.3)
k=m
k=m
(5.4)
5. Reihen
125
und für jede Konstante c ∈ R gilt
n
X
k=m
n
X
c ak = c
ak .
(5.5)
k=m
Weiter können wir eine Summe aufteilen“: Für m ≤ p < n gilt
”
p
n
n
X
X
X
ak ,
ak +
ak =
k=m
k=m
(5.6)
k=p+1
Betrachten wir ein paar Beispiele, in denen wir die Rechenregeln aus Lemma 5.3 anwenden.
Beispiel 5.4. (Rechnen mit Summen)
n
X
k=1
k−
n
X
k=1
(k − 1) =
n
n
X
X
k − (k − 1) =
1 = n,
k=1
k=1
wobei wir im ersten Schritt (5.4) und im letzten Schritt (5.2) verwendet haben. Wie man
sieht, ist die Berechnung durch die Regel (5.4) für die Subtraktion von Summen erheblich
vereinfacht worden.
Beispiel 5.5. (Rechnen mit Summen) Die Differenz von zwei Summen
n
X
k=1
n
X
k −
(k + 1)2
2
k=1
können wir mit (5.4) wie folgt vereinfachen, wobei wir in der zweiten Summe zunächst
die erste binomische Formel anwenden:
n
n
n
n
n
n
X
X
X
X
X
2
X
2
2
2
2
2
k −
k +2 k+1 =
k −(k +2 k+1) =
−2 k−1 .
(k+1) =
k −
k=1
k=1
k=1
k=1
k=1
k=1
Nun wenden wir (5.3) an, um die beiden Summen wieder auseinander zu ziehen und
danach weiter zu vereinfachen:
n
n
n
n
n
n
X
X
X
X
X
X
− 2k −1 =
(−2) k +
(−1) = −2
k−
1 = −2
k − n,
k=1
k=1
k=1
k=1
k=1
k=1
| {z }
=n
wobei wir im vorletzten Schritt (5.5) und (5.2) angewendet haben. Die noch verbleibende
Summe werden wir im Beispiel 5.8 berechnen.
Lemma 5.6. (Indexverschiebung für Summen) Seien m ≤ n. Man kann bei einer
Summe auch den Summationsindex um p nach rechts oder links verschieben:
n
X
ak =
n+p
X
k=m
ℓ=m+p
n
X
n−p
X
k=m
ak =
ℓ=m−p
aℓ−p
(Indexverschiebung nach rechts),
(5.7)
aℓ+p
(Indexverschiebung nach links).
(5.8)
126
5.1. Endliche Summen und arithmetische und geometrische Summe
Formal werden die Indexverschiebungen (5.7) bzw. (5.8) durchgeführt, indem man den
neuen Summationsindex ℓ = k + p (Indexverschiebung nach rechts) bzw. ℓ = k − p
(Indexverschiebung nach links) einführt und damit k = ℓ − p (Indexverschiebung nach
rechts) bzw. k = ℓ + p (Indexverschiebung nach links) erhält und entsprechend ersetzt. In
(5.7) erhält man für den neuen Summationsindex ℓ = k + p die neue untere bzw. obere
Grenze m + p bzw. n + p, und der Index k in ak wird durch k = ℓ − p ersetzt. Bei (5.8)
geht man analog vor.
Betrachten wir zwei Beispiele, in denen die Rechenregeln für Summen aus Lemma 5.6 und
Lemma 5.3 angewendet werden.
Beispiel 5.7. (Rechnen mit Summen) Beim Berechnen von
n
X
k=1
2
k −
n
X
(k + 1)2
k=1
bemerken wir zuerst, dass die Terme hinter dem jeweiligen Summenzeichen durch das
Ersetzen von k durch k + 1 ineinander überführt werden können. Daher führen wir in der
zweiten Summe die Indexverschiebung ℓ = k + 1 (vgl. (5.7)) durch und erhalten die neue
untere Grenze 1 + 1 = 2 bzw. die neue obere Grenze n + 1. Anschließend benennen wir ℓ
wieder in k um.
n
X
k=1
k2 −
n
X
(k + 1)2 =
k=1
n
X
k=1
k2 −
n+1
X
ℓ2 =
ℓ=2
n
X
k=1
k2 −
n+1
X
k2.
k=2
Der Unterschied zwischen den beiden Summen besteht nun nur noch in den Grenzen für
den Summationsindex. In der ersten Summe wird über k = 1, 2, . . . , n summiert, und in
der zweiten Summe wird über k = 2, . . . , n, n+1 summiert. Intuitiv ist damit klar, dass bei
der Subtraktion beiden Summen genau der erste Term der ersten Summe und der letzte
Term der zweiten Summe übrig belieben. Wir nutzen (5.6), um den ersten bzw. letzten
Term der der ersten bzw. zweiten Summe herauszuziehen, und erhalten
!
!
n
n+1
n
n
X
X
X
X
k2 −
k 2 = 12 +
k2 −
k 2 + (n + 1)2
k=1
k=2
k=2
=1+
n
X
k=2
k=2
k2 −
= 1 − (n + 1)
2
n
X
k=2
k 2 − (n + 1)2
= 1 − n2 + 2 n + 1
= − n2 − 2 n.
Insgesamt erhalten wir also
n
X
k=1
2
k −
n
X
k=1
(k + 1)2 = − n2 − 2 n = −n (n + 2).
Im nächsten Beispiel werden wir die Summe der Zahlen von 1 bis n ∈ N berechnen.
5. Reihen
127
Beispiel 5.8. (Wert der Summe
wollen die Summe
Pn
k=1
k) Sei n > 0 eine beliebige natürliche Zahl. Wir
sn =
n
X
k
k=1
berechnen.
Lösung: Um sn =
Pn
k=1 k
zu berechnen schreiben wir die Summe sn explizit als
sn = 1 + 2 + 3 + . . . + (n − 1) + n,
(5.9)
und wir schreiben die Summe ebenfalls rückwärts“ hin, d.h. die Terme werden in der
”
umgekehrten Reihenfolge aufsummiert:
sn = n + (n − 1) + (n − 2) + . . . + 2 + 1.
(5.10)
Dann addieren wir (5.9) und (5.10) so, dass wir zuerst die beiden zuerst aufgelisteten
Terme der beiden Summen addieren, dann die beiden als nächstes in den beiden Summen
aufgelisteten Terme addieren, usw.. Also
2 sn = 1 + n + 2 + (n − 1) + 3 + (n − 2) + . . . + (n − 1) + 2 + n + 1
= (n + 1) + (n + 1) + (n + 1) + . . . + (n + 1) + (n + 1)
|
{z
}
n dieser Terme
= n (n + 1).
Division durch 2 ergibt nun
sn =
n
X
k=1
k=
n (n + 1)
.
2
(5.11)
Wir werden (5.11) später benutzen, um die geschlossene Darstellung“ der arithmetischen
”
Summe herzuleiten.
Wir nennen die Darstellung auf der rechten Seite von (5.11) eine geschlossene Darstellung der Summe auf der linken Seite. Das Wort geschlossen“ bezieht sich darauf, dass
”
die Summe in der Darstellung auf der rechten Seite nicht mehr vorkommt. Leider kann
man nicht für alle Summen eine geschlossene Darstellung finden.
Wir diskutieren nun die arithmetische Summe und die geometrische Summe.
Definition 5.9. (arithmetische Summe) Eine Summe der Form
sn =
n
X
k=0
a + kh = a + a + h + a + 2h + ... + a + nh ,
wobei a ∈ R und h ∈ R mit h > 0, heißt eine arithmetische Summe. Wir beobachten,
dass die Differenz zwischen zwei aufeinander folgenden Termen der Summe immer durch
h gegeben ist:
a + k h − a + (k − 1) h = h.
Daher nennt man h auch die gemeinsame Differenz.
128
5.1. Endliche Summen und arithmetische und geometrische Summe
Wir leiten nun eine geschlossene Darstellung für die arithmetische Summe her. Mit Hilfe
von (5.3), (5.5) und (5.2) finden wir
sn =
n
X
k=0
n
n
n
n
n
X
X
X
X
X
k,
k = (n + 1) a + h
a+h
kh =
a+
a+kh =
k=0
k=0
k=1
k=0
k=0
wobei wir im letzten Schritt benutzt haben, dass wir in der zweiten Summe mit der unteren
Grenze k = 1 statt k = 0 anfangen dürfen, da der Term für k = 0 den Wert Null hat
(und somit nichts zu der Summe beiträgt). Nun nutzen wir (5.11), um eine geschlossene
Darstellung der verbleibenden Summe zu finden:
n
n
X
X
n (n + 1)
nh
sn =
k = (n + 1) a + h
a + k h = (n + 1) a + h
.
= (n + 1) a +
2
2
k=0
k=1
Wir halten die geschlossene Darstellung der arithmetischen Summe in einem Lemma fest.
Lemma 5.10. (geschlossene Darstellung der arithmetischen Summe) Seien a ∈ R
und h ∈ R mit h > 0. Dann hat die arithmetische Summe die folgende geschlossene
Darstellung:
n
X
a + (a + n h)
nh
= (n + 1)
.
(5.12)
sn =
a + k h = (n + 1) a +
2
2
k=0
An der Darstellung ganz rechts in (5.12), sehen wir, dass der Term in den eckigen Klammern der Mittelwert des ersten Terms a (für k = 0) und des letzten Terms a + n h
(für k = n) der Summe ist. Die Formel (5.12) beinhaltet natürlich (5.11) als Spezialfall
für a = 0 und h = 1.
Beispiel 5.11. (Anwendung der arithmetischen Summe) Wir wollen
50
X
k=11
10 + 2 k .
mit Hilfe der arithmetischen Summe berechnen. Dazu schreiben wir mit (5.3) die Summe
als die Differenz zweier arithmetischer Summen:
50
X
10 + 2 k =
k=11
50
X
k=0
10 + k 2 −
10
X
k=0
10 + k 2 .
Nun können wir (5.12) mit a = 10 und h = 2 nutzen, um jede der individuellen Summen
auf der rechten Seite auszurechnen.
50
X
50 · 2
10 + k 2 = 51 10 +
= 51 · 60 = 3060,
2
k=0
10
X
k=0
10 · 2
= 11 · 20 = 220.
10 + k 2 = 11 10 +
2
5. Reihen
129
Daher finden wir
50
X
10 + 2 k =
k=11
50
X
k=0
10 + k 2 −
10
X
10 + k 2 = 3060 − 220 = 2840.
k=0
Nun lernen wir die geometrische Summe kennen.
Definition 5.12. (geometrische Summe) Eine Summe der Form
sn =
n
X
a qk = a + a q + a q2 + . . . + a qn,
k=0
wobei a ∈ R und q ∈ R, heißt eine geometrische Summe. Wir beobachten, dass der
Quotient zweier aufeinander folgender Terme (wobei wir den Term mit dem größeren
Index durch den Term mit dem kleineren Index teilen) durch
a qk
=q
a q k−1
gegeben ist. Daher nennt man q den gemeinsamen Quotient,
Wir versuchen eine geschlossene Darstellung der geometrischen Summe zu finden: Zunächst
multiplizieren wir die geometrische Summe
sn =
n
X
a qk
(5.13)
k=0
mit q und erhalten mittels (5.5)
q sn = q
n
X
k
aq =
k=0
n
X
k=0
k
a·q·q =
n
X
a q k+1 .
k=0
Nun ersetzen wir den Summationsindex durch k durch j = k + 1 bzw. k = j − 1. Dabei
müssen wir feststellen, welche Werte j annehmen darf. Wegen k = 0, 1, 2, . . . , n muss der
neue Summationsindex j = k + 1 die Werte j = 1, 2, 3, . . . , n + 1 annehmen, d.h. die neue
untere bzw. obere Grenze des Summationsindexes sind j = 1 bzw. j = n + 1. Daher gilt
q sn =
n
X
aq
k+1
=
n+1
X
a qj .
j=1
k=0
Wir benennen nun j wieder in k um und bekommen
q sn =
n+1
X
a qk .
(5.14)
k=1
Indem wir q sn von sn abziehen, erhalten wir mit Hilfe von (5.13) und (5.14), dass
" n
#
n
n+1
n
X
X
X
X
sn − q sn =
a qk −
a qk = a q0 +
a qk −
a q k + a q n+1 = a q 0 − a q n+1 .
k=0
k=1
k=1
k=1
130
5.1. Endliche Summen und arithmetische und geometrische Summe
Dabei haben wir (5.6) ausgenutzt, um die Summen aufzuteilen, da alle Terme bis auf den
Term für k = 0 in der ersten Summe und bis auf den Term für k = n + 1 in der zweiten
Summe in beiden Summen vorkommen. Die beiden Summen nach der Aufsplittung“ sind
”
gleich und heben sich daher gegenseitig auf. Indem wir beide Seiten der Gleichungskette
nun weiter vereinfachen, finden wir
(1 − q) sn = sn − q sn = a q 0 − a q n+1 = a · 1 − a q n+1 = a 1 − q n+1 .
Ist q 6= 1, so erhalten wir durch Division durch (1 − q)
a 1 − q n+1
1 − q n+1
sn =
=a·
.
1−q
1−q
Ist q = 1, dann gilt nach (5.2)
sn =
n
X
k=0
a 1k =
n
X
k=0
a = (n + 1) · a.
Wir halten die geschlossene Darstellung der geometrischen Summe in einem Lemma fest.
Lemma 5.13. (geschlossene Darstellung der geometrischen Summe) Seien a ∈ R
und q ∈ R. Dann hat die geometrische Summe die geschlossene Darstellung

n+1
n
 a· 1−q
X
wenn q 6= 1,
1−q
sn =
a qk =
(5.15)

k=0
a · (n + 1)
wenn q = 1.
Sie sollten die geschlossene Darstellung (5.15) der geometrischen Summe auswendig wissen. Diese Formel ist ein nützliches Hilfsmittel, das wir später wiederholt ausnutzen werden.
Beispiel 5.14. (Anwendung der geometrischen Summe) Wir wollen die folgenden
geometrischen Summen berechnen:
(a)
3
X
k
2 ,
(b)
k=0
k
5 X
1
,
−
2
k=0
(c)
4
X
k=0
9 · 10−k .
Lösung: Die endliche Summe in (a) ist eine geometrische Summe mit a = 1, q = 2 und
n = 3. Daher gilt wegen (5.15)
3
X
k=0
2k = 1 ·
1 − 24
1 − 16
−15
=
=
= 15.
1−2
−1
−1
Die endliche Summe in (b) ist eine geometrische Summe mit a = 1,
Wegen (5.15) finden wir
6
6
k
5 1
X
1 − 21
1 − − 12
1 − 64
63
1
=
=1·
=
=
−
3
3
1
2
64
1 − −2
2
2
k=0
q = −1/2 und n = 5.
·
2
21
=
.
3
32
5. Reihen
131
Indem wir die Summe in (c) wir folgt schreiben
4
X
k=0
9 · 10
−k
=
4
X
k=0
"
9·
1
10
k #
,
sehen wir, dass es sich um eine geometrische Summe mit a = 9, q = 1/10 = 10−1 und
n = 4 handelt. Somit finden wir wegen (5.15)
4
X
k=0
1 − (10−1 )5
1 − 10−5
−5
9 · 10−k = 9 ·
=
9
·
=
10
·
1
−
10
= 10 · 0, 99999 = 9, 9999.
1 − 10−1
9/10
Wir sehen, wie nützlich die geschlossene Darstellung (5.15) der geometrischen Summe ist.
5.2
Unendliche Reihen
Sei (ak )k≥0 eine Folge reeller Zahlen. Wir betrachten nun unendliche Reihen
∞
X
ak = a0 + a1 + a2 + . . . + ak + ak+1 + . . . .
(5.16)
k=0
Dabei stellt sich die Frage, wie man die Summe bis unendlich“ zu interpretieren hat.
”
Schreiben wir
∞
X
k=0
ak = lim
n→∞
n
X
ak = lim sn
k=0
| {z }
= sn
n→∞
mit
sn =
n
X
ak ,
(5.17)
k=0
so können wir die unendliche Reihe (5.16) als Folge (sn )n≥0 der in (5.17) definierten
Partialsummen sn interpretieren. Falls die Folge (sn )n≥0 der Partialsummen konvergiert
(im Sinne der Konvergenz von Folgen, vgl. Teilkapitel 4.3), so können wir die unendliche
Reihe (5.16) natürlich als Grenzwert der Folge der Partialsummen auffassen.
Betrachten wir zunächst ein Beispiel.
Beispiel 5.15. (arithmetische Reihe) Die artihmetische Reihe ist
∞
X
k=0
a + k h = a + (a + h) + (a + 2 h) + . . . + (a + k h) + . . . ,
wobei wir diese Reihe nun als die Folge (sn )n≥0 der Partialsummen
n
X
nh
a + k h = (n + 1) a +
.
sn =
2
k=0
interpretieren. Die Folge der Partialsummen (sn )n≥0 ist unbeschränkt, da sn für groß genuges n beliebig groß wird. Also ist die Folge der Partialsummen (sn )n≥0 nach Folgerung 4.25
divergent. Damit ist die arithmetische Reihe divergent.
132
5.2. Unendliche Reihen
Wir definieren nun die Konvergenz bzw. Divergenz unendlicher Reihen formal.
Definition 5.16. (unendliche Reihen) Sei (ak )k≥0 eine Folge reeller Zahlen. Die (unendliche) Reihe
∞
X
ak = a0 + a1 + . . . + ak + ak+1 + . . .
(5.18)
k=0
heißt konvergent, falls die Folge (sn )n≥0 der Partialsummen
sn =
n
X
ak = a0 + a1 + . . . + an−1 + an
k=0
konvergiert. Dann nennt man der Grenzwert s = limn→∞ sn den Wert der Reihe
(5.18) und schreibt kurz
∞
X
ak = s.
k=0
Falls die Folge der Partialsummen nicht konvergiert, so nennt am die Reihe (5.18)
divergent.
Bemerkung 5.17. (Reihe muss nicht mit Index k = 0 beginnen) Die unendliche
Reihe kann auch mit einer anderen unteren Grenze als k0 = 0 beginnen, z.B.
∞
X
1
k=1
k
Also kann man allgemein auch unendliche Reihen betrachten
∞
X
k=k0
ak =
X
ak .
k≥k0
Ob die Summe mit k = 0 oder k = k0 startet macht keinen Unterschied für die Konvergenz, denn für die gleiche Folge (ak )k≥0 unterschieden sich die Partialsummen nur
P 0 −1
um dem konstanten Term kk=0
ak falls k0 > 0 (analog im Fall k0 < 0). Dieser konstante
Term hat daher keinen Einfluss auf die Konvergenz der Folge der Partialsummen sondern
lediglich auf den Wert des Grenzwertes, falls die Folge der Partialsummen konvergiert.
Betrachten wir zunächst ein paar Beispiele unendlicher Reihen.
Beispiel 5.18. (unendliche Reihen)
(a)
∞
X
1
k=1
(b)
k
=1+
∞
X
(−1)k
k=1
k
1 1
1
+ + ...+ + ...
2 3
k
= (−1) +
1 1
(−1)k
− + ...+
+ ...
2 3
k
5. Reihen
133
∞
X
1 1
1
1
= 1 + + + ...+ 2 + ...
(c)
2
k
4 9
k
k=1
(d)
∞
X
qk = q0 + q1 + q2 + . . . + qk + . . . = 1 + q + q2 + . . . + qk + . . .
k=0
Wir untersuchen nun die letzte unendliche Reihe im vorigen Beispiel genauer.
Satz 5.19. (Bedingungen für die Konvergenz der geometrischen Reihe) Sei
a ∈ R \ {0} und q ∈ R. Die geometrische Reihe
∞
X
a qk = a + a q + a q2 + a q3 + . . . + a qk + . . .
k=0
hat die Partialsummen

n+1
 a· 1−q
1−q
sn =
a qk =

k=0
a · (n + 1)
n
X
falls q 6= 1.
(5.19)
falls q = 1.
Die Folge der Partialsummen und damit die geometrische Reihe ist genau dann konvergent, wenn |q| < 1 gilt. Genauer gilt
∞
X
k=0
a qk =
a
1−q
wenn |q| < 1 ist,
(5.20)
und für q ∈ R mit |q| ≥ 1 ist die geometrische Reihe divergent.
Beweis von Satz 5.19. Aus Lemma 5.13 über die geometrische Summe wissen wir
bereits, dass die Formel (5.19) für die Partialsummen korrekt ist.
Für q = 1 ist (sn )n≥0 = a (n + 1) n≥0 , und diese Folge ist unbeschränkt und somit nach
Folgerung 4.25 divergent. Also ist die geometrische Reihe für q = 1 divergent.
Betrachten wir nun den Fall q 6= 1. Dann gilt
sn = a ·
1 − q n+1
,
1−q
und das Verhalten der Folge (q n+1 )n≥0 entscheidet über die Konvergenz oder Divergenz
der Folge der Partialsummen (und somit der geometrischen Reihe).
Für |q| > 1 werden wird |q n+1| = |q|n+1 damit |sn | beliebig groß, wenn n wächst; also
ist die Folge der Partialsummen unbeschränkt und damit nach Folgerung 4.25 divergent.
(Genauer multiplizieren wir in |q n+1 | = |q|n+1 eine Zahl |q| > 1 n-mal mit sich selber,
und damit wird die Zahl |q n+1 | = |q|n+1 für n hinreichend groß beliebig groß. Wenn wir
die Exponentialfunktion und den Logarithmus eingeführt haben, dann können wir diese
intuitiv klare Tatsache auch quantitativ nachrechnen.)
134
5.2. Unendliche Reihen
Für |q| < 1 multiplizieren wir in |q n+1 | = |q|n+1 eine Zahl |q| < 1 n-mal mit sich selbst,
und mit jeder Multiplikation mit |q| < 1 wird der Wert kleiner. Also wird für |q| < 1 der
Wert von |q n+1| = |q|n+1 für n groß genug beliebig klein, und wir finden daher, dass die
Folge (q n+1 )n≥0 gegen Null konvergiert. Also gilt
lim q n+1 = 0
für |q| < 1,
n→∞
und nach dem Satz 4.29 über das Rechnen mit Grenzwerten erhalten wir
1 − lim q n+1
1 − q n+1
1
a
n→∞
lim sn = lim a ·
=a·
=a·
=
für |q| < 1.
n→∞
n→∞
1−q
1−q
1−q
1−q
Somit haben wir gezeigt, dass die geometrische Reihe genau dann konvergiert, wenn |q| < 1
gilt, und dass ihr Grenzwert für |q| < 1 durch (5.20) gegeben ist.
Bemerkung 5.20. (notwendige aber nicht hinreichende Bedingung für die Konvergenz einer Reihe) Konvergiert eine unendliche Reihe
∞
X
ak ,
(5.21)
k=0
so muss die Folge (ak )k≥0 eine Nullfolge sein.
Allerdings kann man aus der Tatsache, dass eine Folge (ak )k≥0 gegen Null konvergiert
noch nicht schließen, dass die Reihe (5.21) konvergiert.
Nach dem Prinzip der Kontraposition folgt aber, dass für jede Folge (ak )k≥0 , deren
Grenzwert ungleich Null ist, oder die divergiert, die zugehörige Reihe (5.21)
divergiert.
Betrachten wir zwei Beispiele, welche die Bemerkung erläutern.
Beispiel 5.21. (divergente Reihe) Die unendliche Reihe
∞
X
k=1
k
k+1
(5.22)
ist divergent, denn wir haben in Beispiel 4.21 gesehen, dass die Folge k/(k + 1) k∈N gegen
den Grenzwert g = 1 konvergiert. Also ist k/(k + 1) k∈N keine Nullfolge, und daher kann
nach Bemerkung 5.20 die Reihe (5.22) nicht konvergieren.
Das zweite Beispiel tritt in dem Satz über die harmonische Reihe auf.
Satz 5.22. (Divergenz der harmonischen Reihe) Die harmonische Reihe
∞
X
1
k=1
ist divergent.
k
5. Reihen
135
Beweis von Satz 5.22. Wir gruppieren die Terme der Reihe wie folgt zusammen
∞
X
1
1
1
1 1
1 1 1 1
1
=1+
+
+ + +
+ ...+
+
+
+
+....
k
2
3
4
5
6
7
8
9
16
k=1
| {z } | {z } |
{z
} |
{z
}
≥ 1/2
≥ 1/2
≥ 1/2
≥ 1/2
Dass es gestattet ist, die Terme so zu gruppieren liegt an dem Assoziativgesetz und daran,
dass alle Terme positiv sind. Jede Summe von Termen in einer Klammer ist ≥ 1/2; und
für die Terme bis k = 2n bekommen wir genau n solche Klammern, die wir mit 1/2 nach
unten abschätzen können. Daher gilt für jedes n ∈ N
n
s2n =
2
X
1
k=1
k
≥1+n·
1
n+2
=
,
2
2
d.h. die Folge der Partialsummen (sn )n∈N ist unbeschränkt. Damit haben wir nach Folgerung 4.25 gezeigt, dass die Folge der Partialsummen (sn )n∈N , und damit auch die Reihe,
divergiert.
5.3
Konvergenzkriterien für Reihen
In diesem Teilkapitel wollen wir Kriterien und Grenzwertsätze für die Konvergenz unendlicher Reihen herleiten. Zunächst betrachten wir die Kriterien für die Konvergenz einer
unendlichen Reihe, die wir aus den Grenzwertsätzen für Folgen in Teilkapitel 4.4 direkt
ableiten können.
Aus Satz 4.29 folgt direkt der nachfolgende Satz.
Satz 5.23. (Rechnen mit konvergenten unendlichen Reihen) Seien
P
∞
k=0 bk konvergente Reihen mit den Grenzwerten a bzw. b. Dann gilt:
P
ak + bk ist konvergent mit dem Wert
(i) Die Summenreihe“ ∞
k=0
”
∞
∞
∞
X
X
X
ak + bk =
ak +
bk = a + b,
k=0
k=0
P
(ii) Die Differenzreihe“ ∞
k=0
”
∞
∞
∞
X
X
X
ak − bk =
ak −
bk = a − b,
k=0
(iii) Die Reihe
P∞
k=0
| {z }
=a
k=0
λ · ak ) = λ
∞
X
k=0
ak = λ · a
| {z }
=a
und
(5.23)
(5.24)
k=0
| {z }
=b
λ · ak ist konvergent mit dem Wert
∞
X
k=0 ak
k=0
| {z } | {z }
=a
=b
ak − bk ist konvergent mit dem Wert
k=0
P∞
für jedes λ ∈ R.
(5.25)
136
5.3. Konvergenzkriterien für Reihen
Betrachten wir zunächst ein Beispiel, in dem der Satz angewendet wird.
Beispiel 5.24. (Rechnen mit konvergenten unendlichen Reihen) Betrachten wir
die Reihen
" #
" k #
∞
∞
k
k
X
X
1
1
1
7·
,
(b)
.
+ −
(a)
2
4
2
k=0
k=0
Zunächst betrachten wir die einzelnen involvierten Reihen: Nach Satz 5.19 konvergieren
die nachfolgenden geometrischen Reihen gegen die angegebenen Grenzwerte
k
∞ k
∞ X
X
1
1
1
1
1
4
−
=
=2
und
=
=
= .
2
1 − (1/2)
4
1 − (−1/4)
5/4
5
k=0
k=0
Damit sind die Voraussetzungen in Satz 5.23 erfüllt, und wir erhalten für die Reihe in (a)
nach (5.23)
" k # X
k
∞ ∞
∞ k
k
X
X
1
1
4
1
14
1
−
+
=2+ =
=
.
+ −
2
4
2
4
5
5
k=0
k=0
k=0
{z
}
| {z } |
=2
= 4/5
Mit λ = 7 erhalten wir nach (5.25) für die Reihe in (b)
" #
∞ k
∞
k
X
X
1
1
=7
7·
= 7 · 2 = 14.
2
2
k=0
k=0
| {z }
=2
Beweis von Satz 5.23. Die Aussagen (i) und (ii) in Satz 5.23 folgen direkt aus (i) und
(ii) im Satz 4.29, indem man die konvergenten Partialsummen der beiden konvergenten
Reihen betrachtet.
Die Aussage (iii) in Satz 5.23 folgt aus (iii) im Satz 4.29, wenn man sich die Partialsummen
(sn )n≥0 der Reihe auf der linken Seite hinschreibt: Nach den Rechenregeln für endliche
Summen findet man dann
n
n
X
X
sn =
λ · ak ) = λ ·
ak = λ · tn .
k=0
k=0
| {z }
= tn
Die Folge der Partialsummen (sn )n≥0 ist also das Produkt der konvergenten konstanten
Folge P
(λ)n≥0 und der konvergenten Folge der Partialsummen (tn )n≥0 der konvergenten
Reihe ∞
k=0 ak . Letztere hat per Annahme den Grenzwert a. Daher folgt nach (iii) in Satz
4.29, dass die Folge der Partialsummen (sn )n≥0 = (λ tn )n≥0 gegen den Grenzwert λ · a
konvergiert.
Aus dem Monotonieprinzip (siehe Satz 4.35) können wir ebenfalls einen Satz über die
Konvergenz von Reihen herleiten.
5. Reihen
137
P
Satz 5.25. Es gelte ak ≥ 0 für alle k ∈ N0 . Dann ist die Reihe ∞
k=0 ak genau dann
konvergent, wenn die Folge der Partialsummen (sn )n≥0 der Reihe ist beschränkt ist.
Betrachten wir zunächst ein Beispiel für die Anwendung von Satz 5.25.
Beispiel 5.26. (Anwendung von Satz 5.25) Wir wollen zeigen, dass die Reihe
∞
X
k=1
1
k (k + 1)
(5.26)
konvergiert. Offensichtlich gilt 1/ k (k + 1) ≥ 0 für alle k ∈ N. Weiter finden wir
(k + 1) − k
1
1
1
=
= −
k (k + 1)
k (k + 1)
k k+1
für alle k ∈ N.
Deshalb folgt für die Partialsummen
sn =
n
X
k=1
n
X
1
=
k (k + 1) k=1
1
1
−
k k+1
=
n
X
1
k=1
k
−
n
X
k=1
1
,
k+1
(5.27)
wobei wir die Rechenregeln aus Lemma 5.3 für endliche Summen genutzt haben. Wir
können nun in der zweiten Summe die Indexverschiebung ℓ = k + 1 ⇔ k = ℓ − 1
durchführen (vgl. Lemma 5.6) und finden mit der neuen unteren bzw. oberen Grenze
ℓ = 1 + 1 = 2 bzw. ℓ = n + 1
n
X
k=1
n+1
n+1
X1 X1
1
=
=
,
k+1
ℓ
k
ℓ=2
(5.28)
k=2
wobei wir im zweiten Schritt den Summationsindex wieder von ℓ in k umbenannt haben.
Einsetzen von (5.28) in (5.27) liefert
n
X
n
n+1
X1 X1
1
sn =
=
−
k (k + 1)
k
k
k=1
k=1
k=2
!
n
n
X
X
1
1
1
1
=1+
=1−
−
+
≤ 1.
k
k n+1
n+1
k=2
k=2
für alle n ∈ N.
Damit haben wir gezeigt, dass die Folge (sn )n∈N der Partialsummen beschränkt ist. Nach
Satz 5.25 folgt damit, dass die Reihe 5.26 konvergiert.
Wir zeigen kurz, wie man Satz 5.25 aus den Monotonieprinzip für Folgen (siehe Satz 4.35)
herleitet.
Beweis von Satz 5.25. Da es sich um eine genau dann, wenn“-Aussage, also eine
”
Äquivalenz, handelt, müssen wir zwei Richtungen zeigen.
138
5.3. Konvergenzkriterien für Reihen
Als erstes zeigen wir, dass aus den Voraussetzungen
ak ≥ 0 für alle k ∈ N0 und (sn )n≥0
P∞
ist beschränkt folgt, dass die Reihe k=0 ak konvergent ist: Aus ak ≥ 0 für alle k ∈ N0
folgt nämlich, dass
sn =
n
X
k=0
ak ≤
n
X
ak + an+1 =
|{z}
k=0
≥0
n+1
X
ak = sn+1
k=0
für alle n ∈ N0 ,
d.h. die Folge (sn )n≥0 ist monoton wachsend. Weiter ist (sn )n≥0 nach Voraussetzung beschränkt. Nach dem
P∞ Monotonieprinzip (vgl. Satz 4.35) folgt daher, dass (sn )n≥0 und damit
auch die Reihe k=0 ak konvergent ist.
P∞
Nun zeigen wir, dass aus der Konvergenz der Reihe
k=0 ak unter der Voraussetzung
ak ≥ 0 für alle k ∈ N0 folgt, dass die Folge der Partialsummen (sn )n≥0 beschränkt ist.
Wir wissen aber aus Satz 4.24, dass jede konvergente Folge beschränkt ist. Also ist insbesondere die Folge der Partialsummen (sn )n≥0 beschränkt.
Analog zu alternierenden Folgen definieren wir alternierende Reihen als Reihen, bei denen
eine alternierende Folge aufsummiert wird.
Definition 5.27. (alternierende Reihe) Eine Reihe der Form
∞
X
(−1)k ak
k=0
mit ak > 0 für alle n ∈ N0 oder ak < 0 für alle n ∈ N0
heißt alternierend.
Ein Beispiel für eine alternierende Reihe ist
∞
X
(−1)k
k=1
k
.
Der nächste Satz liefert ein Konvergenzkriterium für alternierende Reihen.
Satz 5.28. (Leibniz-Kriterium) Sei ak > 0 für alle k ∈ N0 , oder sei ak < 0 für alle
k ∈ N0 . Eine Reihe der Form
∞
X
(−1)k ak
(5.29)
ist konvergent, falls die Folge |ak |
k=0
k≥0
eine monoton fallende Nullfolge ist.
Betrachten wir zunächst ein Beispiel.
Beispiel 5.29. (konvergente alternierende Reihe) Nach Satz 5.28 ist die alternierende Reihe
∞
∞
X
1
(−1)k X
=
(−1)k ·
k
k
k=1
k=1
konvergent, da |1/k| k∈N = (1/k)k∈N eine monoton fallende Nullfolge ist.
5. Reihen
139
P∞
An dem letzten Beispiel kann man leicht sehen,
P∞das aus der Konvergenz von k=0 ak im
Allgemeinen nicht die Konvergenz der Reihe k=0 |ak | folgt, denn wir haben in Satz 5.22
gesehen, dass die harmonische Reihe
∞ ∞
X
(−1)k X
1
=
k k
k=1
k=1
divergiert, obwohl
∞
X
(−1)k
k=1
k
nach Beispiel 5.29 konvergiert.
P∞
Definition 5.30.
k=0 ak ,
P∞(absolute Konvergenz einer Reihe) Gilt für eine Reihe P∞
so konvergiert auch die usprüngliche Reihe k=0 ak ,
dass die Reihe k=0 |ak | konvergiert,
P
a
absolut
konvergent.
und wir nennen die Reihe ∞
k=0 k
Der nächste Satz liefert drei ganz wichtige Kriterien für die absolute Konvergenz unendlicher Reihen.
Satz 5.31. (Kriterien für absolute Konvergenz) Die Reihe
vergent, falls eine der folgenden Bedingungen erfüllt ist:
∞
P
ak ist absolut kon-
k=0
(i) Majorantenkriterium:
Es gilt |ak | ≤ bk für alle k ≥ k0 (mit einem k0 ≥ 0) und
P∞
die Reihe k=0 bk ist konvergent.
(ii) Wurzelkriterium: Es gibt ein k0 ≥ 0, so dass gilt
p
k
|ak | ≤ q < 1
für alle k ≥ k0 .
(iii) Quotientenkriterium: Es gibt ein k0 ≥ 0, so dass gilt
ak+1 für alle k ≥ k0 .
ak ≤ q < 1
Bemerkung 5.32. (Ergänzung zu Satz 5.31) Anstelle von (ii) bzw. (iii) verwendet
man oft die folgenden stärkeren Bedingungen:
p
(ii) Verschärftes Wurzelkriterium:
lim k |ak | < 1,
k→∞
ak+1 < 1,
lim (iii) Verschärftes Quotientenkriterium:
k→∞ ak sofern die angegebenen Grenzwerte existieren.
Betrachten wir zunächst zwei Beispiele für die Anwendung des Majorantenkriteriums.
Beispiel 5.33. (Anwendung des Majorantenkriteriums) Mit dem Majorantenkriterium können wir zeigen, dass die Reihe
∞
X
sin(k)
k=0
3k
(5.30)
140
5.3. Konvergenzkriterien für Reihen
absolut konvergiert: Wegen | sin(k)| ≤ 1 für alle k ∈ N0 folgt nämlich, dass
k
sin(k) | sin(k)|
1
1
|ak | = k =
≤ k =
= bk
für alle k ∈ N0 .
k
3
3
3
3
Weiter wissen wir dass, die geometrische Reihe
n
X
bk =
k=0
n k
X
1
k=0
3
konvergiert. Also konvergiert nach dem Majorantenkriterium die Reihe (5.30) absolut.
Beispiel 5.34. (Anwendung des Majorantenkriteriums) Betrachten wir die Reihe
∞
X
1
kp
k=1
mit p ≥ 2.
(5.31)
Für ak = 1/k p mit p ≥ 2 gilt
1
1
1
1 1
1
2
2
|ak | = p = p ≤ 2 = · ≤ ·
=
= bk
k
k
k
k k
k (k + 1)
k (k + 1)
für alle k ∈ N,
wobei wir die Abschätzungen k 2 ≤ k p ⇔ 1/k p ≤ 1/k 2 für alle k ∈ N und 1/k ≤ 2/(k + 1)
für alle k ∈ N (welche wegen
2
1
· k (k + 1)
≤
⇐⇒
k +1 ≤ 2k
⇐⇒
1≤k
k
k+1 gilt) benutzt haben. In dem Beispiel 5.26 haben wir gesehen, dass die Reihe
∞
X
k=1
1
k (k + 1)
und damit auch die Reihe
2
∞
X
k=1
∞
∞
k=1
k=1
X
X
1
2
bk
=
=
k (k + 1)
k (k + 1)
konvergent ist. Nach dem Majorantenkriterium folgt damit, dass auch die Reihe (5.31)
für jedes p ≥ 2 absolut konvergent ist.
Man kann sogar zeigen, dass die Reihe in (5.31) auch für p > 1 konvergiert; dies ist aber
aufwendiger.
Als Beispiel für die Anwendung des Wurzelkriteriums zeigen wir noch einmal, dass die
geometrische Reihe für |q| < 1 absolut konvergiert.
Beispiel 5.35. (Anwendung des Wurzelkriteriums) Für die geometrische Reihe mit
a=1
∞
X
qk
(5.32)
k=0
k
gilt bei dem Wurzelkriterium für ak = q
p
p
p
k
|ak | = k |q k | = k |q|k = |q| < 1
für alle k ∈ N0
5. Reihen
141
genau dann wenn |q| < 1 ist. Also ist die Reihe (5.32) nach dem Wurzelkriterium absolut
konvergent, wenn |q| < 1 ist. Nach den Rechenregeln für konvergente Reihen (siehe (5.25)
in Satz 5.23) können wir daraus auch leicht folgern, dass die allgemeine geometrische
Reihe mit beliebigen a 6= 0 absolut konvergiert, wenn |q| < 1 gilt.
Zuletzt betrachten wir ein Beispiel für die Anwendung des Quotientenkriteriums.
Beispiel 5.36. (Anwendung des Quotientenkriteriums) Betrachten wir die Reihe
∞
X
1
,
k!
k=0
(5.33)
wobei wir uns zunächst erinnern, dass k! als k! = k · (k − 1)! = k · (k − 1) · . . . · 2 · 1 für
k ∈ N und 0! = 1 definiert ist. Hier ist ak = 1/k!, und nach dem Quotientenkriterium
müssen wir
ak+1 1
1
k! 1 1
k!
k!
=
=
=
=
=
= 1
:
·
ak (k + 1)! k! (k + 1)! 1 (k + 1)! (k + 1) k! k + 1 k + 1
untersuchen. Hier gilt
ak+1 1
1
ak = k + 1 ≤ 2 < 1
für alle k ≥ k0 = 1
bzw. alternativ mit dem verschärften Quotientenkriterium
ak+1 = lim 1 = 0 < 1.
lim k→∞
ak k→∞ k + 1
Die Reihe (5.33) ist damit nach dem verschärften Quotientenkriterium absolut konvergent.
5.4
Weiterführendes Material: Beweise der Konvergenzkriterien für Reihen∗
In diesem Teilkapitel befindet sich weiterführendes Material, welches nicht in der Vorlesung besprochen wird und welches nicht prüfungsrelevant ist. Genauer werden wir in diesem Teilkapitel Satz 5.31 beweisen. Die Beweise der drei Kriterien für absolute Konvergenz
in Satz 5.31 sind nicht schwierig und erhöhen das Verständnis dieser Konvergenzkriterien.
Beweis des Majorantenkriteriums in Satz 5.31. Falls k0 > 0 ist, können wir schreiben
kX
∞
∞
0 −1
X
X
|ak |,
|ak | +
|ak | =
k=k0
k=0
k=0
P∞
und wir sehen, dass die Reihe k=0 ak genau dann absolut konvergiert, wenn
absolut konvergiert. Weiter wissen wir für k0 > 0 wegen
∞
X
k=0
bk =
kX
0 −1
k=0
bk +
∞
X
k=k0
bk ,
P∞
k=k0
ak
5.4. Weiterführendes Material: Beweise der Konvergenzkriterien für Reihen∗
142
P
genau dann konvergiert, wenn ∞
k=k0 bk konvergiert.
P∞
Daher reicht es zu zeigen, dass
P∞ die Reihe k=k0 ak absolut konvergiert, wenn |ak | ≤ bk für
alle k ≥ k0 gilt und wenn k=k0 bk konvergiert.
dass
P∞
k=0 bk
Seien
n
X
(sn )n≥k0 =
k=k0
|ak |
!
die Folgen der Partialsummen
von
P∞
vergenten Reihe k0 bk , also
und
(tn )n≥k0 =
n
X
bk
k=k0
n≥k0
P∞
k=k0
|ak | und
t=
∞
X
P∞
k=k0 bk ,
!
n≥k0
und sei t der Wert der kon-
bk .
k=k0
Dann sind beide Folgen von Partialsummen monoton wachsend, denn
sn =
n
X
k=k0
tn =
|ak | ≤
n
X
k=k0
bk ≤
n
X
k=k0
n
X
|ak | + |an+1 | =
bk + bn+1 =
n+1
X
k=k0
n+1
X
|ak | = sn+1
bk = tn+1
k=k0
k=k0
für alle n ≥ k0 ,
für alle n ≥ k0 ,
(5.34)
und die Folge der Partialsummen (tn )n≥k0 ist beschränkt mit der Schranke t. Dabei haben
wir in (5.34) verwendet, dass gilt bk ≥ 0 für alle k ≥ k0 da bk ≥ |ak | ≥ 0 für alle k ≥ k0 .
Wir wissen nun, dass |ak | ≤ bk für alle k0 ≥ 0 gilt. Daher ist
sn =
n
X
k=k0
n
X
|ak | ≤
bk = tn ≤ t
|{z}
k=k0
≤ bk
für alle n ≥ k0 .
Also ist die Folge der Partialsummen (sn )n≥k0 monoton wachsend und beschränkt
und
P∞
damit nach dem Monotonieprinzip
(siehe Satz 4.35) konvergent. Also ist k=k0 |ak | konP
vergent, und damit ist ∞
a
absolut
konvergent.
k=0 k
Beweis des Wurzelkriteriums in Satz 5.31. Nach Voraussetzung gilt
p
k
|ak | ≤ q < 1
für alle k ≥ k0 ,
p
und aus (5.35) folgt wegen k |ak | ≥ 0
|ak | ≤ q k < 1k = 1
und die geometrische Reihe
∞
X
(5.35)
für alle k ≥ k0 ,
qk
k=0
konvergiert weil |q| < 1. Daher sind die Voraussetzungen des Majorantenkriteriums
mit
P
a
absolut
bk = q k mit 0 ≤ q < 1 erfüllt, und das Majorantenkriterium liefert, dass ∞
k=0 k
5. Reihen
143
konvergiert.
Beweis des Quotientenkriteriums in Satz 5.31. Nach Voraussetzung gilt
ak+1 |ak+1|
für alle k ≥ k0 .
ak = |ak | ≤ q < 1
Daraus folgt durch Multiplizieren mit |ak |
|ak+1 | ≤ q |ak |
für alle k ≥ k0 .
(5.36)
Wiederholte Anwendung von (5.36) liefert, dass
|ak+1 | ≤ q
|ak |
|ak |
≤ q 2 |ak−1 | ≤ . . . ≤ q k+1−k0 |ak0 | = k00 q k+1
|{z}
q
| {z }
≤ q |ak−1 |
= bk+1
für alle k ≥ k0 .
(5.37)
Da |q| < 1 gilt, konvergiert die geometrische Reihe
∞
X
∞
∞
X
|ak0 | k |ak0 | X k
bk =
q .
q = k0
q k0
q k=0
k=0
k=0
(5.38)
Mit bk = (|ak0 |/q k0 ) q k ist wegen (5.37) die Voraussetzung der Majorantenkriteriums
P∞
|ak | ≤ bk für alle k ≥ k0 + 1 erfüllt sowie wegen (5.38) die P
Konvergenz von
k=0 bk
∞
gegeben. Daher
kann das Majorantenkriteriums für die Reihe k=0 ak angewendet werP
a
den, und ∞
k=0 k konvergiert nach dem Majorantenkriterium absolut.
144
5.4. Weiterführendes Material: Beweise der Konvergenzkriterien für Reihen∗
Kapitel 6
Grenzwerte von Funktionen und
Stetigkeit
In diesem Kapitel betrachten wir Grenzwerte von Funktionen und führen anschließend den
Begriff der Stetigkeit ein. Der Begriff des Grenzwertes einer Funktion (in einem Punkt x0 )
baut auf den Begriff des Grenzwertes von Folgen auf. Anschaulich bedeutet Stetigkeit,
dass der Graph einer Funktion in einem Stück“ ohne den Stift abzusetzen gezeichnet
”
werden kann. Weist der Graph dagegen Sprünge auf, so hat die Funktion sogenannte
Unstetigkeitsstellen. Zuletzt lernen wir einige Resultate über stetige Funktionen kennen.
6.1
Grenzwerte von Funktionen
Wir beginnen mit den Konzept des Grenzwertes einer Funktion f (x) wenn x gegen einen
Punkt x0 strebt.
Definition 6.1. (Grenzwert einer Funktion) Sei Df ⊂ R, und sei f : Df → R eine
Funktion. Die Funktion f (x) konvergiert für x → x0 gegen a, falls für jede Folge
(xn )n∈N mit xn ∈ Df \ {x0 } gilt:
Aus
lim xn = x0
n→∞
folgt
lim f (xn ) = a.
n→∞
Oder in Worten: Wenn (xn )n∈N gegen x0 konvergiert, dann konvergiert die Folge f (xn )
gegen a. Man schreibt dann
lim f (x) = a
x→x0
n∈N
f (x) → a für x → x0 ,
oder
und man sagt f hat in x0 den Grenzwert a“.
”
Betrachten wir zwei Beispiele.
Beispiel 6.2. (Grenzwerte von Funktionen) Betrachten wir die Quadratwurzel
145
146
6.1. Grenzwerte von Funktionen
f : [0, ∞) → R, f (x) =
√
x. Dann gilt
√
√
lim x = 0 = 0
x→0
und
lim
x→1
√
x=
√
1 = 1.
(6.1)
Dies sieht man mit ein bisschen Übung direkt. Der Graph der Funktion f (x) =
linken Bild in Abbildung 6.1 gezeichnet.
√
x ist im
Wir können (6.1) aber auch ganz sauber mit
√ der Definition des Grenzwertes nachweisen.
Wir führen dies für den Grenzwert limx→0 x = 0 hier noch einmal explizit durch:
Sei also (xn )n∈N mit xn ∈ [0, ∞) \ {0} = (0, ∞) eine beliebige Folge, deren Grenzwert
x0 = 0 ist. Dann gibt es nach der Definition der Konvergenz einer Folge zu jedem εe > 0
ein N = N(e
ε) ∈ N, so dass gilt
|xn − 0| = |xn | = xn < εe
für alle n ≥ N.
(6.2)
√ Wir müssen nun zeigen, dass die Folge f (xn ) n∈N =
xn n∈N den Grenzwert Null hat.
Also müssen wir zeigen, dass zu jedem ε > 0 ein M = M(ε) ∈ N existiert, so dass gilt
√
√
√
|f (xn ) − 0| = | xn − 0| = | xn | = xn < ε
für alle n ≥ M.
(6.3)
Wir wählen nun M = N(ε2 ), wobei N(ε2 ) das N = N(e
ε) in (6.2) mit εe = ε2 ist. Dann
folgt aus (6.2), dass gilt:
√
√
√
xn < εe = ε2 = ε
für alle n ≥ M = N(ε2 ).
Damit folgt aber
√
√
√
|f (xn ) − 0| = | xn − 0| = | xn | = xn < ε
und wir haben (6.3) gezeigt. Also konvergiert f (xn )
für alle n ≥ M = N(ε2 ),
n∈N
gegen 0 wenn lim xn = 0.
Abb. 6.1: Im linken Bild ist der Graph der Funktion f (x) =
der Graph der Funktion (6.4) gezeichnet.
n→∞
√
x und im rechten Bild ist
6. Grenzwerte von Funktionen und Stetigkeit
147
Es ist zu beachten, dass in Definition 6.1 nicht gefordert wird, dass die Funktion f im
Punkt x = x0 definiert ist.
Beispiel 6.3. (Grenzwerte von Funktionen) Betrachten wir die Funktion
g : (0, ∞) → R,
g(x) =
sin(x)
.
x
(6.4)
Für diese Funktion kann man zeigen, dass gilt
sin(x)
= 1.
x→0
x
lim g(x) = lim
x→0
Wir werden später lernen, wie man dieses mit der Regel von de l’Hospital nachweist. Die
Funktion g(x) = sin(x)/x hat also in x0 = 0 einen Grenzwert, obwohl sie in x0 = 0
nicht definiert ist. Der Graph der Funktion (6.4) ist im rechten Bild in Abbildung 6.1
gezeichnet.
Wir werden ab jetzt nicht mehr mit der ε-Definition für die Konvergenz von Folgen argumentieren, sondern direkt die Grenzwerte bestimmen soweit möglich.
Als Nächstes lernen wir einen Satz über das Rechnen mit Grenzwerten von Folgen.
Satz 6.4. (Rechnen mit Grenzwerten von Funktionen) Es seien f : D → R und
g : D → R zwei Funktionen mit der gleichen Definitionsmenge D ⊂ R. Weiter gelten
lim f (x) = a
und
x→x0
lim g(x) = b,
x→x0
d.h. die Grenzwerte von f und g im Punkt x0 existieren. Dann gelten die folgenden Aussagen:
(i) lim f (x) + g(x) = lim f (x) + lim g(x) = a + b,
x→x0
(ii)
(iii)
(iv)
x→x0
lim f (x) − g(x) =
x→x0
lim f (x) · g(x) =
x→x0
lim f (x) −
x→x0
lim g(x)
x→x0
= a − b,
lim f (x) · lim g(x) = a · b,
x→x0
lim f (x)
a
f (x)
x→x0
=
= ,
lim
x→x0 g(x)
lim g(x)
b
x→x0
x→x0
x→x0
falls b 6= 0.
Betrachten wir zwei Beispiele zum Rechnen mit Grenzwerten von Folgen.
Beispiel 6.5. (Rechnen mit Grenzwerten von Folgen) Betrachten wir die Funktion
h : [0, ∞) \ {1} → R,
x−1
h(x) = √
.
x−1
(6.5)
148
6.1. Grenzwerte von Funktionen
Wir wollen die Grenzwerte von h(x) für x → 0 und x → 1 bestimmen. Dazu vereinfachen
wir die Funktion zunächst: Nach der dritten binomischen Formel gilt für x ≥ 0
√
√
√ 2
x −1=
x−1
x+1 .
x−1 =
Einsetzen in die Definition von h und Kürzen ergibt
√
√
√
x−1
x+1
x−1
√
h(x) = √
=
= x + 1.
x−1
x−1
Nach dem Satz 6.4 für das Rechnen mit Grenzwerten gilt
lim h(x) = lim
x→0
x→0
√
√
x + 1 = lim x + lim 1 = 0 + 1 = 1,
x→0
x→0
wobei wir Satz 6.4 (i) nur anwenden durften, weil für h(x) = f (x) + g(x) mit f (x) =
und g(x) = 1 die Grenzwerte
lim f (x) = lim
x→0
x→0
√
x=0
und
√
x
lim g(x) = lim 1 = 1
x→0
x→0
existieren. Analog findet man
lim h(x) = lim
x→1
x→1
√
√
√
x + 1 = lim x + lim 1 = 1 + 1 = 1 + 1 = 2.
x→1
x→1
Der Graph der Funktion (6.5) ist im linken Bild in Abbildung 6.2 gezeichnet.
Abb. 6.2: Im linken Bild ist der Graph der Funktion (6.5) aus Beispiel 6.5 und im rechten
Bild ist der Graph der Funktion (6.6) aus Beispiel 6.6 gezeichnet.
6. Grenzwerte von Funktionen und Stetigkeit
149
Beispiel 6.6. (Rechnen mit Grenzwerten von Folgen) Betrachten wir die Funktion
cos(x)
1
→ R,
f (x) =
.
(6.6)
f : R \ 0, −
4
4 + x1
Wir wollen den Grenzwert von f (x) für x → 0 bestimmen. Dazu formen wir die Funktionsvorschrift zunächst um:
f (x) =
cos(x)
cos(x)
x cos(x)
,
1 = 4 x+1 =
4x+1
4+ x
x
und wir finden nun nach den Regeln für das Rechnen mit Grenzwerten in Satz 6.4
lim
x
·
lim
cos(x)
x cos(x)
0·1
x→0
=
lim f (x) = lim
= x→0
= 0.
x→0
x→0 4 x + 1
0+1
lim 4 x + lim 1
x→0
x→0
Dabei konnten wir Satz 6.4 nur anwenden, weil die individuellen Grenzwerte
lim x = 0,
x→0
lim cos(x) = 1,
x→0
lim 4 x = 0
x→0
und
lim 1 = 1
x→0
existieren und weil der Grenzwert des Nenners ungleich Null ist. Der Graph der Funktion
(6.6) ist im rechten Bild in Abbildung 6.2 gezeichnet.
Als Letztes untersuchen wir noch ein Beispiel, an dem man sieht, warum es sinnvoll ist,
in Definition 6.1 alle Folgen (xn )n∈N in Df \ {x0 } mit lim xn = 0 zu betrachten.
n→∞
Abb. 6.3: Graph der Funktion (6.7).
150
6.2. Uneigentliche und einseitige Grenzwerte
Beispiel 6.7. (Funktion, für die der Grenzwert in einem Punkt nicht existiert)
Betrachten wir die Funktion
1−x
wenn x ≤ 1,
f : R → R,
f (x) =
(6.7)
x
wenn x > 1.
Die Funktion ist in Abbildung 6.3 gezeichnet.
Dann existiert der Grenzwert von f(x) in x0 = 1 nicht. Dies sieht man wirfolgt: Betrachten wir einerseits die Folge 1 + n1 n∈N und andererseits die Folge 1 − n1 n∈N . Dann gilt
für beide Folgen
1
1
=1
und
lim 1 −
= 1.
lim 1 +
n→∞
n→∞
n
n
Wenn der Grenzwert lim f (x) existiert, dann muss aber gelten
x→1
lim f
n→∞
1
1+
n
= lim f
n→∞
1
1−
n
.
Dies ist aber nicht der Fall, denn
1
1
1
= lim 1 − 1 −
= lim = 0,
lim f 1 −
n→∞
n→∞ n
n→∞
n
n
1
1
1
lim f 1 +
= lim 1 +
= lim 1 + lim = 1 + 0 = 1.
n→∞
n→∞
n→∞
n→∞ n
n
n
(6.8)
(6.9)
Wir bemerken, dass wir in (6.8) bzw. (6.9) die Definition f (x) = 1 − x bzw. f (x) = x
verwendet haben, da x = 1 − n1 < 1 bzw. x = 1 + n1 > 1 ist.
6.2
Uneigentliche und einseitige Grenzwerte
Wir führen nun zwei Arten von sogenannten uneigentlichen Grenzwerten von Funktionen ein. Dazu müssen wir als Vorbereitung erklären, was es für eine divergente Folge
(xn )n∈N bedeutet, wenn lim xn = +∞ oder lim xn = −∞ gilt.
n→∞
n→∞
Definition 6.8. (bestimmt divergente Folge) Eine divergente Folge reeller Zahlen
(xn )n∈N heißt bestimmt divergent gegen +∞ (bzw. −∞), wenn die beiden folgenden
Bedingungen erfüllt sind:
(i) Es gibt ein n0 ∈ N, so dass xn > 0 (bzw. xn < 0) für alle n ≥ n0 , und
(ii) die Folge (1/xn )n≥n0 ist eine Nullfolge.
Ist (xn )n∈N bestimmt divergent gegen +∞ (bzw. −∞) so bezeichnet man +∞ (bzw. −∞)
auch als den uneigentlichen Grenzwert und schreibt
lim xn = +∞
bzw. lim xn = −∞
n→∞
n→∞
6. Grenzwerte von Funktionen und Stetigkeit
151
Betrachten wir ein paar Beispiele bestimmt divergenter Folgen.
Beispiel 6.9. (bestimmt divergente Folgen)
(a) Die Folge (n)n∈N ist bestimmt konvergent gegen +∞, denn (i) n > 0 für alle n ≥
n0 = 1, und (ii) ist die Folge (1/n)n≥n0 = (1/n)n∈N eine Nullfolge. Wir haben also in
Formeln lim n = +∞.
n→∞
(b) Die Folge (−2n )n∈N ist bestimmt divergent
gegen −∞, denn
(i) −2n < 0 für alle
n ≥ n0 = 1, und (ii) ist die Folge 1/(−2n ) n≥n0 = 1/(−2n ) n∈N = − 1/2n n∈N eine
Nullfolge. Wir haben also in Formeln lim − 2n = −∞.
n→∞
n
n n
(c) Die Folgen (−1) n n∈N und (−1) 2 n∈N sind nicht bestimmt divergent gegen +∞
oder gegen −∞, denn sie alternieren. Damit gibt es kein n0 für das sich Bedingung (i)
in Definition 6.8 erfüllen lässt.
Nun können wir sogenannte uneigentliche Grenzwerte für eine Funktion f definieren, wenn
wir uns einem Punkt x = x0 nähern und dabei die Funktionswerte f (x) beliebig gross
bzw. beliebig klein werden.
Definition 6.10. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 )
Sei Df ⊂ R, und sei f : Df → R eine Funktion. Wir sagen f (x) hat in x = x0
den uneigentlichen Grenzwert +∞ (bzw. −∞), wenn für jede Folge (xn )n∈N mit
xn ∈ Df \ {x0 } gilt:
Aus lim xn = x0 folgt lim f (xn ) = +∞
bzw. lim f (xn ) = −∞ . (6.10)
n→∞
n→∞
Wir schreiben dann in Formeln
lim f (x) = +∞
x→x0
n→∞
bzw.
lim f (x) = −∞ .
x→x0
Dabei sind limn→∞ f (xn ) = +∞ bzw. limn→∞ f (xn ) = −∞ in (6.10) in dem Sinne zu
lesen, dass die Folge f (xn ) n∈N bestimmt divergent gegen +∞ bzw. gegen −∞ ist.
Betrachten wir zwei Beispiele.
Beispiel 6.11. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 )
Die Funktion f : R \ {0} → R, f (x) = 1/x2 , hat in x0 = 0 den uneigentlichen Grenzwert
+∞, also
1
lim f (x) = lim 2 = +∞.
x→0
x→0 x
2
Der Graph der Funktion f (x) = 1/x ist im linken Bild von Abbildung 6.4 gezeichnet.
Beispiel 6.12. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 ) Die
Funktion f : (0, π) → R, f (x) = cot(x) = cos(x)/ sin(x), hat in x0 = π den uneigentlichen
152
6.2. Uneigentliche und einseitige Grenzwerte
Abb. 6.4: Im linken Bild ist der Graph der Funktion f (x) = 1/x2 und im rechten Bild ist
der Graph der Funktion f (x) = cot(x) gezeichnet.
Grenzwert −∞, also
lim f (x) = lim cot(x) = −∞.
x→0
x→0
Hier ist zu beachten, dass wir nur Folgen (xn )n∈N in (0, π) betrachten, d.h. wir nähern
uns x0 = π nur von links. Der Graph der Funktion f (x) = cot(x) mit x ∈ (0, π) ist im
rechten Bild von Abbildung 6.4 gezeichnet.
Beispiel 6.13. (uneigentlicher Grenzwert einer Funktion in einem Punkt x0 )
Die Funktion f : R\{0} → R, f (x) = 1/x, hat in x0 = 0 keinen uneigentlichen Grenzwert,
denn für die Folgen (xn )n∈N = (1/n)n∈N und (zn )n∈N = (−1/n)n∈N gilt:
1
=0
n→∞ n
lim xn = lim
n→∞
und
lim zn = lim −
n→∞
n→∞
1
= 0,
n
aber wir finden
1
= lim n = +∞
n→∞
n→∞ xn
lim f (xn ) = lim
n→∞
und
1
= lim −n = −∞.
n→∞ zn
n→∞
lim f (zn ) = lim
n→∞
Da wir für verschiedene Folgen verschiedene uneigentliche Grenzwerte“ erhalten, hat
”
f (x) = 1/x in x0 = 0 keinen uneigentlichen Grenzwert. Wir haben den Graphen der
Funktion f (x) = 1/x im rechten Bild in Abbildung 6.5 gezeichnet.
Nun führen wir den uneigentlichen Grenzwert einer Funktion ein, wenn die Variable x
gegen +∞ bzw. gegen −∞ strebt.
Definition 6.14. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Sei
Df ⊂ R, und sei f : Df → R eine Funktion. Wir sagen f (x) hat für x → +∞ (bzw. für
6. Grenzwerte von Funktionen und Stetigkeit
153
Abb. 6.5: Der Graph der Funktion f (x) = 1/x ist in linken Bild und der Graph von
f (x) = x · sin(x) im rechten Bild gezeichnet.
x → −∞) den uneigentlichen Grenzwert a, wenn für jede Folge (xn )n∈N mit xn ∈ Df
gilt:
Aus lim xn = +∞
bzw. lim xn = −∞
folgt lim f (xn ) = a.
(6.11)
n→∞
n→∞
Wir schreiben dann in Formeln
lim f (x) = a
x→+∞
n→∞
bzw.
lim f (x) = a .
x→−∞
Die Aussage (6.11) bedeutet also, dass wir Folgen (xn )n∈N mit xn ∈ Df betrachten, die
bestimmt divergent gegen +∞ bzw. −∞ sind. Es ist auch der Fall zugelassen, dass der
Grenzwert a selber uneigentlich ist“, also a = +∞ oder a = −∞.
”
Betrachten wir vier Bespiele.
Beispiel 6.15. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Funktion f : R \ {0} → R, f (x) = 1/x2 , hat f für x → −∞ den uneigentlichen Grenzwert 0,
also
1
lim f (x) = lim 2 = 0.
x→−∞
x→−∞ x
2
Für x → +∞ hat f (x) = 1/x ebenfalls den uneigentlichen Grenzwert 0, also
1
= 0.
x→+∞ x2
lim f (x) = lim
x→+∞
Der Graph der Funktion f (x) = 1/x2 ist im linken Bild von Abbildung 6.4 gezeichnet.
154
6.2. Uneigentliche und einseitige Grenzwerte
Beispiel 6.16. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Arkustangensfunktion f : R → (−π/2, π/2), f (x) = arctan(x), hat f für x → −∞ den
uneigentlichen Grenzwert −π/2, also
lim f (x) = lim arctan(x) = −
x→−∞
x→−∞
π
.
2
Für x → +∞ hat f (x) = arctan(x) den uneigentlichen Grenzwert π/2, also
lim f (x) = lim arctan(x) =
x→+∞
x→+∞
π
.
2
Der Graph der Funktion f (x) = arctan(x) ist im linken Bild von Abbildung 6.6 gezeichnet.
Abb. 6.6: Im linken Bild ist der Graph der Funktion f (x) = arctan(x) und im rechten
Bild ist der Graph der Funktion f (x) = x3 gezeichnet.
Beispiel 6.17. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Funktion f : R → R, f (x) = x3 , hat für x → +∞ den uneigentlichen Grenzwert
lim f (x) = lim x3 = +∞
x→+∞
x→+∞
und hat für x → −∞ den uneigentlichen Grenzwert
lim f (x) = lim x3 = −∞.
x→−∞
x→−∞
Der Graph der Funktion f (x) = x3 ist im rechten Bild von Abbildung 6.6 gezeichnet.
Beispiel 6.18. (uneigentlicher Grenzwert einer Funktion für x → ±∞) Die Funktion f : R → R, f (x) = x · sin(x), hat weder für x → +∞ noch für x → −∞ einen
6. Grenzwerte von Funktionen und Stetigkeit
155
uneigentlichen Grenzwert, da sie zwischen positiven und negativen Werten oszilliert, die
betraglich beliebig groß werden (siehe das rechte Bild in Abbildung 6.5 für den Graphen
von f (x) = x · sin(x)). Um formal nachzuweisen, dass f (x) = x · sin(x) für x → +∞
keinen Grenzwert hat, betrachten wir die zwei Folgen
3π
π
,
und
(zn )n∈N = 2n π +
(xn )n∈N = 2n π +
2 n∈N
2 n∈N
für welche gilt
lim xn = lim
n→∞
n→∞
Dann finden wir
π
2n π +
=∞
2
3π
lim zn = lim 2n π +
= ∞.
n→∞
n→∞
2
und
π
π
= +∞,
lim f (xn ) = lim 2n π +
sin 2n π +
n→∞
n→∞
2 |
{z 2 }
=1
3π
3π
lim f (zn ) = lim 2n π +
= −∞.
sin 2n π +
n→∞
n→∞
2
2
{z
}
|
= −1
Da wir für die beiden Folgen verschiedene uneigentliche Grenzwerte“ erhalten, hat
”
f (x) = x · sin(x) für x → +∞ keinen uneigentlichen Grenzwert. Analog zeigt man,
dass f (x) = x · sin(x) für x → −∞ keinen uneigentlichen Grenzwert hat.
Als letztes Konzept in diesem Teilkapitel führen wir einseitige Grenzwerte ein, welche
wir für Funktionen mit Sprungstellen“ benötigen. Die Idee ist dabei, dass man sich dem
”
Punkt x0 nur von links oder nur von rechts, also einseitig“, nähert. Ein Beispiel einer
”
Funktion mit einer Sprungstelle haben wir bereits in Beispiel 6.7 gesehen.
Definition 6.19. (einseitiger Grenzwert einer Funktion in einem Punkt x0 ) Sei
Df ⊂ R, und sei f : Df → R eine Funktion.
(i) f (x) konvergiert von links für x → x0 gegen a, falls für jede Folge (xn )n∈N
mit xn ∈ Df \ {x0 } und xn < x0 gilt:
Aus
lim xn = x0
n→∞
folgt
lim f (xn ) = a.
n→∞
Man sagt dann f (x) hat in x0 den linksseitigen Grenzwert a“ und schreibt
”
oder
f (x) → a für x → x−
(6.12)
lim− f (x) = a
0.
x→x0
(ii) f (x) konvergiert von rechts für x → x0 gegen a, falls für jede Folge (xn )n∈N
mit xn ∈ Df \ {x0 } und xn > x0 gilt:
Aus
lim xn = x0
n→∞
folgt
lim f (xn ) = a.
n→∞
Man sagt dann f (x) hat in x0 den rechtsseitigen Grenzwert a“ und schreibt
”
oder
f (x) → a für x → x+
(6.13)
lim+ f (x) = a
0.
x→x0
156
6.2. Uneigentliche und einseitige Grenzwerte
Der obere Index − bzw. + von x0 in (6.12) bzw. (6.13) bedeutet, dass sich in x → x−
0
bzw. x → x+
0 die Variable x von links, d.h. x < x0 , bzw. von rechts, d.h x > x0 , an x0
annähert.
Bemerkung 6.20. (einseitige uneigentliche Grenzwerte) Analog kann man einseitige uneigentliche Grenzwerte einführen. Dies ist intuitiv und wir werden spätestens
in den nachfolgenden Beispielen sehen, was damit gemeint ist.
Betrachten wir nun einige Beispiele zu einseitigen Grenzwerten.
Beispiel 6.21. (einseitige√
Grenzwerte einer Funktion) Betrachten wie die Funktion
f : [0, ∞) → R, f (x) = x. Für x0 = 1 finden wir für den linksseitigen bzw. den
rechtsseitigen Grenzwert
√
√
√
√
lim− f (x) = lim− x = 1 = 1
bzw.
lim+ f (x) = lim+ x = 1 = 1.
x→1
x→1
x→1
x→1
Der linksseitige und der rechtsseitige Grenzwert stimmen also überein. Dies muss aber √
der
x
Fall sein, denn wir haben in Beispiel 6.2
schon
gesehen,
dass
der
Grenzwert
von
f
(x)
=
√
in x0 = 1 existiert und den Wert lim x = 1 hat.
x→1
Für den Punkt x0 = 0 erfüllen alle Folgen (xn )n∈N mit xn ∈ Df = [0, ∞)\{0} automatisch
die Bedingung xn > x0 für alle n ∈ N. Daher ist der Grenzwert von f (x) in x0 = 0
automatisch ein rechtsseitiger Grenzwert, also
√
√
lim f (x) = lim+ f (x) = lim+ x = 0 = 0.
x→0
x→0
Der Graph der Funktion f (x) =
√
x→0
x ist im linken Bild in Abbildung 6.1 gezeichnet.
Was wir im letzten Beispiel für den Punkt x0 = 1 gesehen haben trifft immer zu, und wir
halten dies in einem Lemma fest.
Lemma 6.22. (Grenzwert = linksseitiger Grenzwert = rechtsseitiger Grenzwert) Sei Df ⊂ R, und sei f : Df → R eine Funktion.
(i) Existieren in x = x0 bzw. für x → −∞ oder x → +∞ der eigentliche oder uneigentliche Grenzwert von f , dann haben die entsprechenden einseitigen Grenzwerte
denselben Wert wie der Grenzwert.
(ii) Existieren in x = x0 bzw. für x → −∞ oder x → +∞ der linksseitige und der
rechtsseitige eigentliche oder uneigentliche Grenzwert von f und haben beide den
gleichen Wert a, dann existiert auch der entsprechende Grenzwert von f und hat
denselben Wert a.
Beispiel 6.23. (einseitige uneigentliche Grenzwerte einer Funktion) Betrachten
wir die Funktion f : R\{0} → R, f (x) = 1/x. Dann sind der linksseitige bzw. rechtsseitige
Grenzwert in x0 = 0 gegeben durch
lim− f (x) = lim−
x→0
x→0
1
= −∞
x
und
lim+ f (x) = lim+
x→0
x→0
1
= +∞.
x
6. Grenzwerte von Funktionen und Stetigkeit
157
Wir haben den Graph der Funktion f (x) = 1/x im linken Bild in Abbildung 6.5 gezeichnet.
y
1
0
x
−1
Abb. 6.7: Der Graph der der Signum-Funktion (6.14).
Betrachten wir nun ein Beispiel einer Funktion mit einer sogenannten Sprungstelle“.
”
Beispiel 6.24. (Signum-Funktion oder Vorzeichen-Funktion) Die Signum-Funktion
(oder Vorzeichen-Funktion) ist definiert durch

für x < 0,
 −1
sgn : R → R,
sgn(x) =
0
für x = 0,

+1
für x > 0.
Ihr linksseitiger bzw. rechtsseitiger Grenzwert in x0 = 0 ist
lim sgn(x) = lim− −1 = −1
x→0−
x→0
bzw.
lim sgn(x) = lim+ +1 = +1.
x→0+
x→0
(6.14)
Wir beobachten, dass in diesem Beispiel eine Funktion vorliegt, für die in x0 = 0 sowohl der linksseitige wie auch der rechtsseitige Grenzwert existieren, aber beide haben
unterschiedliche Werte. Die Funktion ist in x0 = 0 auch definiert und nimmt den Wert
sgn(0) = 0 an, der ebenfalls von den beiden einseitigen Grenzwerten verschieden ist.
Wir haben den Graphen der Funktion sgn(x) im rechten Bild in Abbildung 6.7 gezeichnet.
Dabei deutet der leere“ Kreis im Punkt (0, −1) und (0, 1) an, dass hier nicht der Funkti”
onswert von sgn(0) liegt. Der ausgefüllte Kreis in (0, 0) deutet dagegen an, dass sgn(0) = 0
gilt. Wir haben an der Stelle x = 0 eine sogenannte Sprungstelle“ der Funktion.
”
6.3
Asymptoten
Mit Hilfe der eigentlichen und uneigentlichen Grenzwerte von Funktionen können wir nun
sauber definieren, was eine Asymptote einer Funktion f : Df → R mit Df ⊂ R ist. Wir
finden zwei Arten von Asymptoten:
158
6.3. Asymptoten
(1) Vertikale Asymptoten, die durch eine Parallele zur y-Achse gegeben sind,
also durch die vertikale Linie x = x0 : In diesem Fall finden wir für den linksseitigen
uneigentlichen Grenzwert
lim f (x) = −∞
oder
x→x−
0
lim f (x) = +∞
x→x−
0
oder/und für den rechtsseitigen uneigentlichen Grenzwert
lim f (x) = −∞
x→x+
0
oder
lim f (x) = +∞.
x→x+
0
(2) Asymptoten, die durch eine Geradengleichung g(x) = a x + b gegeben sind:
In diesem Fall gilt für x → +∞ bzw. für x → −∞, dass sich die Funktion f der
Geraden g immer mehr annähert. Mathematisch können wir dies ausdrücken, indem
wir sagen, dass der uneigentliche Grenzwert des Abstands der Funktion f von der
Geraden g(x) = a x + b für x → +∞ bzw. für x → −∞ gegen Null strebt, also
lim |f (x) − (a x + b)| = 0
x→−∞
oder
lim |f (x) − (a x + b)| = 0.
x→+∞
Betrachten wir zunächst ein paar Beispiele.
Beispiel 6.25. (Vertikale Asymptoten)
(a) Die Funktion f : R \ {0} → R, f (x) = 1/x, hat in x = 0 eine vertikale Asymptote,
denn wir haben
1
1
lim− = −∞
und
lim+ = +∞.
x→0 x
x→0 x
Der Graph dieser Funktion ist im linken Bild in Abbildung 6.8 gezeichnet.
(b) Die Funktion
f : R \ {−1} → R,
f (x) =
x
,
x+1
hat in x = −1 eine vertikale Asymptote, denn wir haben
lim −
x→−1
x
= +∞
x+1
und
lim +
x→−1
x
= −∞.
x+1
Der Graph dieser Funktion ist im rechten Bild in Abbildung 6.8 gezeichnet.
6. Grenzwerte von Funktionen und Stetigkeit
159
Abb. 6.8: Der Graph der Funktion f (x) = 1/x mit seinen Asymptoten ist im linken Bild
gezeichnet, und der Graph der Funktion f (x) = x/(x + 1) mit seinen Asymptoten ist im
rechten Bild gezeichnet.
Beispiel 6.26. (Asymptoten, die Geraden sind: horizontale Asymptoten)
(a) Die Funktion f : R \ {0} → R, f (x) = 1/x, hat für x → +∞ und für x → −∞ die
horizontale Asymptote g(x) = 0, denn wir haben
1
1
=0
und
lim
= 0.
x→+∞ x
x→−∞ x
Der Graph dieser Funktion ist im linken Bild in Abbildung 6.8 gezeichnet.
lim
(b) Die Funktion
x
,
x+1
hat für x → +∞ und für x → −∞ die horizontale Asymptote g(x) = 1, denn wir
haben
1
x
(x + 1) − 1
= 1,
lim
= lim
= lim 1 −
x→−∞ x + 1
x→−∞
x→−∞
x+1
x+1
1
(x + 1) − 1
x
= 1.
= lim
= lim 1 −
lim
x→+∞
x→+∞
x→+∞ x + 1
x+1
x+1
f : R \ {−1} → R,
f (x) =
Der Graph dieser Funktion ist im rechten Bild in Abbildung 6.8 gezeichnet.
Beispiel 6.27. (Asymptoten,
die Geraden sind: horizontale Asymptoten) Die
π π
Funktion f : R → − 2 , 2 , f (x) = arctan(x), hat die Asymptoten g1 (x) = −π/2 und
g2 (x) = π/2, denn
π π
⇐⇒
lim |arctan(x) − g1 (x)| = lim arctan(x) + = 0,
lim arctan(x) = −
x→+∞
x→−∞
x→−∞
2
2
160
π
lim arctan(x) =
x→+∞
2
6.3. Asymptoten
⇐⇒
π lim |arctan(x) − g2 (x)| = lim arctan(x) − = 0.
x→+∞
x→+∞
2
Der Graph der Funktion f (x) = arctan(x) mit seinen Asymptoten ist im linken Bild in
Abbildung 6.9 gezeichnet.
Die jeweils zweite äquivalente Bedingung brauchen wir im vorigen Beispiel nicht unbedingt, da wir für eine horizontale Gerade, also eine konstante Funktion, auch mit der
ersten Bedingung die Asymptote finden können. Ist die Asymptote dagegen eine Gerade
mit Steigung ungleich Null, so müssen wir die zweite Bedingung verwenden, wie wir im
nächsten Beispiel sehen werden.
Abb. 6.9: Der Graph der Funktion f (x) = arctan(x) mit seinen Asymptoten ist im linken
Bild gezeichnet, und der Graph der Funktion f (x) = (27 x2 + 13 x + 2)/x mit seinen
Asymptoten ist im rechten Bild gezeichnet.
Beispiel 6.28. (Asymptoten, die Geraden sind: Asymptote mit Steigung 6= 0)
Die Funktion
27 x2 + 13 x + 2
f : R \ {0} → R,
f (x) =
,
x
schreiben wir zunächst als
f (x) =
27 x2 + 13 x + 2
2
= 27 x + 13 + .
x
x
Betrachten wir nun x → −∞ bzw. x → +∞, so gilt
2
=0
x→−∞ x
lim
und
2
= 0.
x→+∞ x
lim
6. Grenzwerte von Funktionen und Stetigkeit
161
Also wächst die Funktion f (x) wie die Gerade g(x) = 27 x + 13 wenn x → −∞ oder wenn
x → +∞ strebt, d.h. die Gerade g(x) = 27 x + 13 ist die Asymptote für x → −∞ und
x → +∞. Hier haben wir also, dass gilt
2
2
− 27 x + 13 = lim = 0,
lim |f (x) − g(x)| = lim 27 x + 13 +
x→−∞ x
x→−∞
x→−∞
x
2
2
lim |f (x) − g(x)| = lim 27 x + 13 +
− 27 x + 13 = lim = 0.
x→+∞
x→+∞
x→+∞ x
x
Natürlich besitzt die Funktion auch eine vertikale Asymptote in x = 0, denn
2
= −∞,
lim f (x) = lim− 27 x + 13 +
x→0
x→0−
x
2
lim f (x) = lim+ 27 x + 13 +
= +∞.
x→0
x→0+
x
Der Graph der Funktion f (x) = (27 x2 + 13 x+ 2)/x mit seinen Asymptoten ist im rechten
Bild in Abbildung 6.9 gezeichnet.
Nun definieren wir formal, was eine Asymptote ist.
Definition 6.29. (Asymptote) Sei f : Df → R mit Df ⊂ R eine Funktion.
(i) Existiert für ein x0 ∈
/ Df der uneigentliche linksseitige Grenzwert in x0 , also
lim f (x) = −∞
oder
lim f (x) = +∞,
x→x−
0
x→x−
0
bzw. existiert für ein x0 ∈
/ Df der uneigentliche rechtsseitige Grenzwert in x0 , also
lim f (x) = −∞
x→x+
0
oder
lim f (x) = +∞,
x→x+
0
so nennt man die vertikale Gerade x = x0 (also die Parallele zur y-Achse durch
+
x = x0 ) eine Asymptote von f (für x → x−
0 bzw. für x → x0 ).
(ii) Existiert der uneigentliche Grenzwert
lim f (x) = y0
x→−∞
bzw.
lim f (x) = y0 ,
x→+∞
so nennt man die horizontale Gerade g(x) = y0 eine Asymptote von f (für
x → −∞ bzw. für x → +∞).
(iii) Gilt für die Gerade g(x) = a x + b, dass
lim |f (x) − g(x)| = lim |f (x) − (a x + b)| = 0
x→−∞
x→−∞
bzw.
lim |f (x) − g(x)| = lim |f (x) − (a x + b)| = 0
x→+∞
x→+∞
ist, so nennt man die Gerade g(x) = a x + b eine Asymptote von f (für x → −∞
bzw. für x → +∞).
162
6.3. Asymptoten
Der Fall (ii) ist ein Sonderfall von Fall (iii) mit der Steigung a = 0 und mit b = y0 .
Betrachten wir noch einige Beispiele.
Beispiel 6.30. (horizontale Asymptote) Die Funktion
f : R → R,
f (x) =
1
,
2 + x2
hat für x → −∞ und für x → +∞ die Asymptote g(x) = 0, denn es gilt
1
=0
x→−∞ 2 + x2
lim f (x) = lim
x→−∞
und
1
= 0.
x→+∞ 2 + x2
lim f (x) = lim
x→+∞
Im linken Bild in Abbildung 6.10 haben wir den Graph der Funktion f (x) = 1/(2 + x2 )
mit seiner Asymptote g(x) = 0 gezeichnet.
Abb. 6.10: Der Graph der Funktion f (x) = 1/(2 + x2 ) mit seiner Asymptote ist im linken
Bild gezeichnet, und der Graph der Funktion f (x) = (2 x2 + 1)/x2 mit seinen Asymptoten
ist im rechten Bild gezeichnet.
Beispiel 6.31. (vertikale und horizontale Asymptoten) Die Funktion
f : R \ {0} → R,
f (x) =
2 x2 + 1
,
x2
können wir auch schreiben als
f (x) =
2 x2 + 1
2 x2
1
1
=
+ 2 = 2 + 2.
2
2
x
x
x
x
6. Grenzwerte von Funktionen und Stetigkeit
163
Daraus folgt direkt
1
lim f (x) = lim 2 + 2 = 2
x→−∞
x→−∞
x
und
1
lim f (x) = lim 2 + 2 = 2,
x→+∞
x→+∞
x
d.h. die horizontale Gerade g(x) = 2 ist eine Asymptote für x → −∞ und x → +∞.
Für x → 0 finden wir
1
lim f (x) = lim 2 + 2
x→0
x→0
x
= +∞,
d.h. die vertikale Gerade mit x = 0 ist eine Asymptote für x → 0.
Im rechten Bild in Abbildung 6.10 haben wir den Graph der Funktion f (x) = (2 x2 +1)/x2
mit seinen Asymptoten gezeichnet.
Beispiel 6.32. (vertikale Asymptote) Die Funktion
12 π 12 π
cos(x)
cot : −
\ {−π, 0, π} → R,
cot(x) =
,
,
10 10
sin(x)
hat die vertikalen Geraden durch x = −π, x = 0 und x = π als Asymptoten, denn
lim cot(x) = −∞
und
lim cot(x) = −∞
und
lim cot(x) = −∞
und
x→−π −
x→0−
x→π −
lim cot(x) = +∞,
x→−π +
lim cot(x) = +∞,
x→0+
lim cot(x) = +∞.
x→π +
Der Graph der Funktion f (x) = cot(x) mit seinen Asymptoten ist im linken Bild von
Abbildung 6.11 gezeichnet.
Beispiel 6.33. (Asymptote mit Steigung ungleich Null) Die Funktion
f : R → R,
f (x) =
x3 + 2 x2 + 1
,
2 + x2
können wir schreiben als
x3 + 2 x − 2 x + 2 x2 + 4 − 3
x3 + 2 x2 + 1
=
f (x) =
2 + x2
2 + x2
(x3 + 2 x) + (2 x2 + 4) − (2 x + 3)
=
2 + x2
x (x2 + 2) + 2 (x2 + 2) − (2 x + 3)
=
2 + x2
2
3
+ 2
2x+3
= x+2− x x .
=x+2−
2
2
2+x
+1
x2
164
6.4. Stetigkeit und Rechnen mit stetigen Funktionen
Abb. 6.11: Der Graph der Funktion f (x) = cot(x) mit seinen Asymptoten ist im linken
Bild gezeichnet, und der Graph der Funktion f (x) = (x3 + 2 x2 + 1)/(2 + x2 ) mit seiner
Asymptoten ist im rechten Bild gezeichnet.
Weil der letzte Term für x → ±∞ gegen Null strebt, vermuten wir, dass die Asymptote
die Gerade g(x) = x + 2 ist. Nun weisen wir dies nach:


2
3
+ 2


x
x
lim |f (x) − g(x)| = lim x + 2 −
 − (x + 2) = lim −
2
n→−∞
n→−∞ n→−∞
+1
x2


3
2
+ 2


lim |f (x) − g(x)| = lim x + 2 − x x  − (x + 2) = lim −
2
n→+∞
n→+∞ n→+∞ +1
2
x
3
2
+ 2
x x
2
+1
x2
3
2
+ 2
x x
2
+1
x2
0
= = 0,
1
0
= = 0.
1
Der Graph der Funktion f (x) = (x3 + 2 x2 + 1)/(2 + x2 ) mit seinen Asymptoten ist im
rechten Bild von Abbildung 6.11 gezeichnet.
6.4
Stetigkeit und Rechnen mit stetigen Funktionen
Zunächst definieren wir, was es bedeutet, wenn eine Funktion f : Df → R (wobei Df ⊂ R)
in einem Punkt x0 stetig ist. Danach machen wir uns klar, was dies geometrisch bedeutet
und betrachten diverse Beispiele.
6. Grenzwerte von Funktionen und Stetigkeit
165
Definition 6.34. (Stetigkeit) Sei Df ⊂ R, und sei f : Df → R eine Funktion.
(i) Die Funktion f heißt stetig in x0 ∈ Df , falls gilt
lim f (x) = f (x0 ).
(6.15)
x→x0
(ii) Die Funktion f heißt stetig, falls f in jedem x0 ∈ Df stetig ist. Wollen wir betonen,
dass eine stetige Funktion auf ihrem ganzen Definitionsbereich stetig ist, so sagen
wir auch f ist stetig auf Df “.
”
(iii) Ist die Funktion f in einem Punkt x0 ∈ Df nicht stetig, so sagen wir auch die
Funktion f ist in diesem Punkt unstetig. Man nennt den Punkt x0 dann auch eine
Unstetigkeitsstelle der Funktion f .
Was bedeutet die Definition der Stetigkeit anschaulich? Die Gleichung (6.15) besagt, dass die Funktion im Punkt x0 als Grenzwert (und damit insbesondere auch als
linksseitigen und als rechtsseitigen Grenzwert) den Funktionswert f (x0 ) hat. Dies bedeutet lax“ ausgedrückt, dass der Graph einer auf Df stetigen Funktion eine
”
durchgehende Kurve ist, die in keinem Punkt x0 ∈ Df abreisst oder springt“.
”
Anschaulich ist dies in Abbildung 6.12 dargestellt. Die Funktion im linken Bild in Abbildung 6.12 ist stetig, d.h. sie ist in allen Punkten stetig, wogegen die Funktion im rechten
Bild in allen Punkten außer x0 stetig ist. In x = x0 hat die Funktion im rechten Bild in
Abbildung 6.12 dagegen eine Unstetigkeitsstelle“; sie springt“ im Punkt x = x0 und
”
”
hat dort eine Sprungstelle“.
”
y
y
f (x)
f (x)
x
x0
x
Abb. 6.12: Die Funktion im linken Bild ist (in allen Punkten) stetig. Die Funktion im
rechten Bild ist unstetig im Punkt x0 , weil die Funktion hier eine Sprungstelle“ hat.
”
Betrachten wir zunächst einige Beispiele.
Beispiel 6.35. (stetige Funktionen, Unstetigkeitsstellen)
√
(a) Die Funktion f : [0, ∞) → R, f (x) = x, ist stetig, d.h. sie ist in allen Punkten
x0 ∈ [0, ∞) stetig.
166
6.4. Stetigkeit und Rechnen mit stetigen Funktionen
(b) Die Funktion f : R \ {0} → R, f (x) = 1/x, ist in allen Punkten x0 ∈ R \ {0} stetig;
also ist die Funktion f (x) = 1/x stetig.
(c) Die Signum-Funktion sgn(x) (vgl. Beispiel 6.24 und das rechte Bild in Abbildung 6.7)
ist in allen Punkten x0 6= 0 stetig. In Beispiel 6.24 haben wir bereits gezeigt, dass gilt
lim sgn(x) = lim− −1 = −1
x→0−
x→0
und
lim sgn(x) = lim+ +1 = +1,
x→0+
x→0
und wir haben f (0) = 0. Also ist die Signum-Funktion in x0 = 0 unstetig.
(d) Die trigonometrischen Funktionen sin(x) und cos(x) sind stetig auf R. Ebenso sind
tan(x) und cot(x) auf ihrem jeweiligen Definitionsbereich stetig.
Als unmittelbare Folgerung aus den Grenzwertsätzen (siehe Satz 6.4) erhält man den
folgenden Satz über das Rechnen mit stetigen Funktionen.
Satz 6.36. (Rechnen mit stetigen Funktionen) Seien f : D → R und g : D → R
zwei Funktionen mit dem gleichen Definitionsbereich D ⊂ R. Seien weiter f und g stetig
in x0 ∈ D. Dann gilt:
(i) Die Funktion f + g : D → R, (f + g)(x) = f (x) + g(x), ist ebenfalls stetig in x0 .
(ii) Die Funktion f − g : D → R, (f − g)(x) = f (x) − g(x), ist ebenfalls stetig in x0 .
(iii) Die Funktion f · g : D → R, (f · g)(x) = f (x) · g(x), ist ebenfalls stetig in x0 .
(iv) Gilt g(x) 6= 0 für x ∈ D, so ist die Funktion f /g : D → R, (f /g)(x) = f (x)/g(x),
ebenfalls stetig in x0 .
Insbesondere folgt für stetige Funktionen f und g, dass die Funktionen f +g, f −g und f ·g
immer stetig sind. Gilt zusätzliche g(x) 6= 0 für alle x ∈ D, so ist die Quotientenfunktion
f /g ebenfalls stetig.
Dieser Satz hat weitreichende Folgerungen. Machen wir uns dies an ein paar Beispielen
klar.
Beispiel 6.37. (stetige Funktionen)
(a) Die Funktion p1 : R → R, p1 (x) = x, ist auf R stetig, denn es gilt
lim p1 (x) = lim x = x0 = p1 (x0 ).
x→x0
x→x0
Die Funktion p2 : R → R, p2 (x) = x2 , ist wegen p2 (x) = x2 = x · x = p1 (x) · p1 (x) nach
Satz 6.36 (iii) auf R stetig. Analog sind die Funktionen p3 (x) = x3 = p1 (x) · p2 (x), . . . ,
pn (x) = xn = p1 (x) · pn−1 (x) auf R stetig.
(b) Die Funktionen pk : R → R, pk (x) = xk mit k ∈ N0 , sind alle stetig. Beachten Sie
dabei, dass wir für k = 0 gerade die konstante Funktion p0 (x) = 1 bekommen. Daraus
können wir durch (iii) in Satz 6.36 folgern, dass auch die Funktion g(x) = ak xk mit
einer beliebigen Konstante ak ∈ R stetig ist. (Wir haben dabei auch verwendet, dass
6. Grenzwerte von Funktionen und Stetigkeit
167
die konstante Funktion h(x) = ak stetig ist.) Durch wiederholtes Anwenden von (i) in
Satz 6.36 können nun herleiten, dass alle Funktionen der Form
p : R → R,
p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 ,
also alle Polynome, stetig sind.
(c) Nach (iii) in Satz 6.36 ist die Funktion g : R → R, g(x) = sin(x) · cos(x) auf R stetig,
weil die Funktionen sin(x) und cos(x) auf R stetig sind.
(d) Nach (iv) in Satz 6.36 ist die Funktion cot : (0, π) → R, cot(x) = cos(x)/ sin(x), stetig,
weil die Funktionen sin(x) und cos(x) auf (0, π) stetig sind und weil sin(x) 6= 0 für alle
x ∈ (0, π).
6.5
Resultate über stetige Funktionen
In diesem Teilkapitel lernen wir noch einige nützliche Resultate über stetige Funktionen.
Als erstes Konzept führen wir die sogenannte Verkettung“ zweier Funktionen ein. Auch
”
wenn diese Bezeichnung neu für Sie sein sollte, so haben Sie vermutlich schon beim Anwenden der Kettenregel beim Ableiten mit der Verkettung“ von Funktionen gearbeitet. Bei”
spielsweise ist die Funktion f (x) = sin(x2 ) eine Verkettung der Funktionen g(y) = sin(y)
und h(x) = x2 , d.h. wir können schreiben
f (x) = sin(x2 ) = sin h(x) = g h(x) .
Definition 6.38. (Verkettung von Funktionen) Seien g : Dg → R und h : Dh → R
zwei Funktionen, für die gilt, dass das Bild Bh von h im Definitionsbereich Dg von g liegt,
also Bh ⊂ Dg . Dann definieren wir die Verkettung f = g ◦ h als die Funktion
f = g ◦ h : Dh → R,
f (x) = (g ◦ h)(x) = g h(x) ,
d.h. die Funktion g wird nach der Funktion h ausgeführt.
Betrachten wir unser motivierendes Beispiel im Licht der obigen Definition.
Beispiel 6.39. (Verkettung von Funktionen) Für die oben betrachtete Funktion
f : R → R, f (x) = sin(x2 ), gilt f = g ◦ h mit
g : R → R,
g(y) = sin(y),
und
h : R → R,
h(x) = x2 .
Die Bedingung Bh ⊂ Dg ist hier automatisch erfüllt, weil das Bild Bh von h eine Teilmenge
des Wertebereichs Wh = R ist und weil Dg = R gilt.
Die komisch“ aussehende Bedingung Bh ⊂ Dg garantiert uns, dass g(y) für alle y = h(x)
”
definiert ist. Wir sehen dies am folgenden Beispiel noch besser.
168
6.5. Resultate über stetige Funktionen
Beispiel 6.40. (Verkettung von Funktionen) Betrachten wir die beiden Funktionen
√
g : R → R, g(y) = y + 1,
und
h : [0, ∞) → R, h(x) = x.
Dann gilt Bh = [0, ∞) ⊂ Dg = R und wir können die Verkettung f = g ◦ h bilden:
√ √
f = g ◦ h : [0, ∞) → R,
f (x) = (g ◦ h)(x) = g h(x) = g x = x + 1.
Wir können aber nicht die Verkettung h ◦ g = h g(x) bilden, denn Bg = R ist keine
Teilmenge von Dh = [0, ∞). Pragmatischer ausgedrückt:
√ Für alle Punkte x ∈ R mit
g(x) = x + 1 < 0 können wir die Funktion h g(x) = x + 1 nicht berechnen, weil die
Wurzel nur für nicht-negative Zahlen definiert ist.
Wir formulieren nun eine Aussage über die Verkettung stetiger Funktionen.
Satz 6.41. (Verkettung stetiger Funktionen ist stetig) Seien g : Dg → R und
h : Dh → R zwei Funktionen, wobei das Bild Bh von h im Definitionsbereich Dg von g
liegt, also Bh ⊂ Dg .
(i) Ist die Funktion h in x0 stetig und ist die Funktion g in y0 = f (x0 ) stetig, so ist
die Verkettung (g ◦ h)(x) = g h(x) in x0 stetig.
(ii) Sind die
Funktionen g und h beide stetig, so ist auch die Verkettung (g ◦ h)(x) =
g h(x) auf Dh stetig.
Betrachten wir zwei Beispiele.
Beispiel 6.42. (Verkettung von stetigen Funktionen) In Beispiel 6.39 hatten wir
bereits die Verkettung f : R → R, f (x) = sin(x2 ), der Funktionen g : R → R, g(y) =
sin(y), und h : R → R, h(x) = x2 , untersucht. Da die Funktionen g und h beide auf
Dg = Dh = R stetig sind, ist nach Satz 6.41 auch die Verkettung f (x) = g h(x) = sin(x2 )
der beiden Funktionen auf Dh = R stetig.
Beispiel 6.43. (Verkettung von stetigen Funktionen) Die Funktion
√
1
f : R \ ± kπ | k ∈ N0 → R,
,
f (x) = arctan
sin(x2 )
ist stetig, denn wir können sie als Verkettung
f (x) = g ◦ h ◦ k (x) = g h k(x)
schreiben mit den stetigen Funktionen
π π
g:R→ − ,
,
2 2
h : R \ {0} → R,
g(z) = arctan(z),
h(y) =
1
,
y
6. Grenzwerte von Funktionen und Stetigkeit
k :R\
±
√
kπ | k ∈ N0 → R,
169
k(x) = sin(x2 ).
√
Dabei haben wir wegen der speziellen Definitionsmenge Dk = R \ ± kπ | k ∈ N0 , dass
x2 6= kπ für alle k ∈ Z. Also hat die stetige Funktion k(x) = sin(x2 ) für kein x ∈ Dk den
Wert 0, und es folgt Bk ⊂ R \ {0} = Dh . Also können wir die Verkettung h ◦ k : Dk → R
bilden. Wegen Bh ⊂ R = Dg können wir auch die Verkettung g ◦ h : R \ {0} → − π2 , π2 bilden. Damit können wir auch die (dreifache) Verkettung f = g ◦ h ◦ k : Dk → − π2 , π2
bilden, und diese ist stetig, weil die Funktionen g, h und k stetig sind.
Abschließend lernen wir noch zwei wichtige Sätze über stetige Funktionen kennen.
Satz 6.44. (Existenz von Minimum und Maximum) Sei f : [a, b] → R stetig. Dann
hat f ein Maximum und ein Minimum in [a, b], d.h. es gibt xmin , xmax ∈ [a, b] mit
f (xmin ) ≤ f (x) ≤ f (xmax )
für alle x ∈ [a, b].
(6.16)
Wir schreiben dann auch
f (xmin ) = min f (x)
x∈[a,b]
und
f (xmax ) = max f (x).
x∈[a,b]
Anschaulich bedeutet (6.16), dass es unter den Funktionswerten von f auf dem Intervall
[a, b] einen kleinsten und einen größten Funktionswert gibt! Wichtig ist zu beachten, dass Satz 6.44 nur für stetige Funktionen auf einem abgeschlossenen Intervall
[a, b] gilt.
Betrachten wir zwei Beispiele, um uns die Bedeutung von Satz 6.44 klar zu machen.
Beispiel 6.45. (Minimum und Maximum einer stetigen Funktion) Betrachten
wir die Funktion f : [−2, 3] → R, f (x) = x3 . Da die Funktion stetig ist, muss Satz 6.44
gelten. Da die Funktion f (x) = x3 streng monoton wachsend ist, gilt
f (−2) = (−2)3 = −8 ≤ x3 ≤ 27 = 33 = f (3)
für alle x ∈ [−2, 3].
Also ist sind das Minimum bzw. das Maximum von f (x) = x3 auf [−2, 3] die Funktionswerte f (−2) = −8 bzw. f (3) = 27, und die zugehörigen x-Werte sind xmin = −2 und
xmax = 3. In Formeln gilt also
−8 = f (−2) = min x3
x∈[−2,3]
und
27 = f (3) = max x3 .
x∈[−2,3]
Wir haben den Graph von f : [−2, 3] → R, f (x) = x3 , im linken Bild von Abbildung 6.13
gezeichnet.
In dem nächsten Bespiel werden wir sehen, dass es mehrere x-Werte geben kann, an denen
das Minimum bzw. Maximum angenommen wird.
170
6.5. Resultate über stetige Funktionen
Abb. 6.13: Der Graph der Funktion f : [−2, 3] → R, f (x) = x3 , ist im linken Bild
gezeichnet, und der Graph der Funktion g : [−2π, 2π] → R, g(x) = sin(x), ist im rechten
Bild gezeichnet.
Beispiel 6.46. (Minimum und Maximum einer stetigen Funktion) Betrachten wir
die Funktion g : [−2π, 2π] → R, g(x) = sin(x). Da diese Funktion stetig ist, muss Satz
6.44 gelten. Wir finden
π
π sin −
= −1 ≤ sin(x) ≤ 1 = sin
für alle x ∈ [−2π, 2π].
2
2
es gilt aber auch sin(−3π/2) = 1 und sin(3π/2) = −1, d.h. es gibt mehrere mögliche
Wahlen für die x-Werte xmin und xmax . In Formeln haben wie also
min
x∈[−2π,2π]
sin(x) = −1
und
max
x∈[−2π,2π]
sin(x) = 1.
Wir haben den Graph von g : [−2π, 2π] → R, g(x) = sin(x), im rechten Bild von Abbildung 6.13 gezeichnet.
Als letztes lernen wir den sogenannten Zwischenwertsatz kennen.
Satz 6.47. (Zwischenwertsatz) Sei f : [a, b] → R stetig. Dann nimmt f jeden Wert
zwischen f (a) und f (b) an.
Der Zwischenwertsatz erklärt sich durch die Anschauung für Stetigkeit: Bei
einer stetigen Funktion bricht der Graph nicht ab, d.h. er ist eine durchgehende Kurve.
Diese durchgehende Kurve verbindet die Funktionswerte f (a) für x = a und f (b) für x = b,
wenn x alle Werte aus dem Intervall [a, b] durchläuft (siehe auch Abbildung 6.14). Daher
6. Grenzwerte von Funktionen und Stetigkeit
171
müssen aber alle Werte y zwischen f (a) und f (b) als Funktionswerte für ein passendes
x ∈ [a, b] auftreten; ansonsten hätte der Graph der Funktion eine Unstetigkeitsstelle.
(b, f (b))
f (b)
f (x)
f (a)
(a, f (a))
a
b
Abb. 6.14: Veranschaulichung des Zwischenwertsatzes: Für x aus dem Intervall [a, b] treten
alle Werte
zwischen f (a)
und f (b) als Funktionswerte auf. Der Graph verbindet die Punkte
a, f (a) und b, f (b) .
Machen wir uns an zwei Beispielen die Bedeutung des Zwischenwertsatzes klar.
Beispiel 6.48. Betrachten wir das Polynom f (x) = 17 x7 +5 x3 +2 x2 −1 vom Grad n = 7.
Ein Polynom vom Grad n hat (mit Vielfachheit gezählt) höchstens n reelle Nullstellen.
(Eine Nullstelle einer Funktion f : Df → R ist ein Wert x0 ∈ Df , für den gilt f (x0 ) = 0.)
Allerdings wird es uns für dieses Polynom schwer fallen, per Hand die Nullstellen zu
berechnen. Mit dem Zwischenwertsatz können wir aber leicht ungefähre Informationen“
”
über die Lage der Nullstellen bekommen. Wir haben
f (x) = 17 x7 + 5 x3 + 2 x2 − 1 ≥ f (1) = 17 + 5 + 2 − 1 = 23
für alle x ≥ 1, (6.17)
für alle x ≤ −1.
(6.18)
17 x3 + 5 x + 2) −1 < −1
f (x) = |{z}
x2
|
{z
}
> 0 < 0 wenn x ≤ −1
Da f (x) < −1 für alle x ≤ −1 und f (x) ≥ 23 für alle x ≥ 1 und da das Polynom f
auf ganz R stetig ist, wissen wir nach dem Zwischenwertsatz, dass es ein x0 ∈ [−1, 1]
mit f (x0 ) = 0 gibt. Genauer wissen wir wegen (6.17) und (6.18) sogar, dass alle reellen
Nullstellen des Polynoms f im Intervall (−1, 1) liegen.
Wir haben in Abbildung 6.15 den Graph des Polynoms f (x) = 17 x7 + 5 x3 + 2 x2 − 1
gezeichnet.
Beispiel 6.49. (Lösen einer Fixpunktgleichung) Wir wollen die Frage beantworten,
ob die Gleichung x = cos(x) eine Lösung x ∈ [0, π] besitzt? Falls die Gleichung eine Lösung
172
6.5. Resultate über stetige Funktionen
6 6
Abb. 6.15: Graph der Funktion f (x) = 17 x7 +5 x3 +2 x2 −1 im linken Bild für x ∈ [− 10
, 10 ]
11 11
und im rechten Bild für x ∈ [− 10 , 10 ].
x∗ ∈ [0, π] besitzt wird dieser Punkt von cos(x) auf sich selbst abgebildet: cos(x∗ ) = x∗ .
Man nennt einen Punkt mit dieser Eigenschaft daher auch einen sogenannten Fixpunkt“
”
der Funktion cos(x). ( Der Punkt bleibt fix“/unverändert unter der Funktion f .“)
”
”
Um die gestellte Frage zu beantworten, transformieren wir unser Problem:
x = cos(x)
⇐⇒
x − cos(x) = 0.
Wir definieren uns die Funktion
f : [0, π] → R,
f (x) = x − cos(x),
und suchen nun die Nullstellen dieser Funktion, also die Punkte x0 mit f (x0 ) = 0. Die
Funktion f ist nach (ii) in Satz 6.36 auf [0, π] stetig, weil die Funktionen g(x) = x und
h(x) = cos(x) auf [0, π] stetig sind.
Nun gilt aber f (0) = 0−cos(0) = −1 und f (π) = π−cos(π) = π−(−1) = π+1. Nach dem
Zwischenwertsatz werden alle Werte zwischen f (0) = −1 und f (π) = π + 1 angenommen.
Insbesondere wird der Wert 0 ∈ [−1, π + 1] als Funktionswert angenommen, d.h. es gibt
ein x∗ ∈ [0, π] mit f (x∗ ) = 0 oder äquivalent dazu x∗ = cos(x∗ ).
Kapitel 7
Exponentialfunktionen, Logarithmen
und hyperbolische Funktionen
In diesem Kapitel diskutieren wir Potenzen und Wurzeln, zunächst nur mit einem rationalen Exponenten, und führen von dort aus die Exponentialfunktion expa : R → R,
expa (x) = ax , mit der Basis a und dem Exponent x ∈ R ein. Die für uns besonders
wichtigen Fälle sind die Basen a = 10 und a = e, wobei e = 2, 71828 . . . die Euler-Zahl
ist. Exponentialfunktionen sind injektiv mit dem Bild Bexpa = (0, ∞). Daher können wir
−1
ihre Umkehrfunktionen (auf dem Bild) exp−1
a = loga : (0, ∞) → R, expa (x) = loga (x),
einführen, den sogenannten Logarithmus zur Basis a. Hier erhalten wir für a = 10 den
Zehner-Logarithmus und für a = e den natürlichen Logarithmus. Zuletzt nutzen wir die
natürliche Exponentialfunktion, um die hyperbolischen Funktionen einzuführen.
7.1
Potenzen, Wurzeln und Exponentialfunktionen
In diesem Teilkapitel führen wir Exponentialfunktionen ein. Eine Exponentialfunktion ist
eine Funktion
expa : R → R,
expa (x) = ax ,
wobei a ∈ (0, ∞) \ {1} die Basis ist.
(7.1)
Die Variable x in (7.1) wird auch als Exponent (oder Potenz) bezeichnet. Natürlich
müssen wir noch erklären, wie wir ax für beliebiges x ∈ R berechnen. Wir starten mit
dem Fall, dass x ∈ Z ist.
Definition 7.1. (Potenzen mit ganzzahligem Exponenten) Wir definieren
a0 = 1
für alle a ∈ R \ {0},
und für positive ganze Zahlen, also n ∈ N, ist an definiert durch
an = a
| · a ·{z. . . · a}
n-mal
173
für alle a ∈ R.
174
7.1. Potenzen, Wurzeln und Exponentialfunktionen
Ist n eine negative ganze Zahl, also n ∈ Z \ N0 , so ist n = −m mit m ∈ N, und wir
definieren
1
1
für alle a ∈ R \ {0}.
an = a−m = m =
a
a
·
a
·
.
.
.
·
a
|
{z
}
m-mal
Insbesondere gilt
1
a−1 = .
a
Betrachten wir ein paar Beispiele.
Beispiel 7.2. (Potenzen reeller Zahlen mit ganzzahligem Exponenten)
(a) 23 = 2 · 2 · 2 = 8
(b) 104 = 10 · 10 · 10 · 10 = 10000
1
(c) 2−1 = = 0, 5
2
1
1
=
= 0, 01
(d) 10−2 =
10 · 10
100
1
1
(e) 3−3 =
=
3·3·3
27
3
(f) (−2) = (−2) · (−2) · (−2) = −8
1
1
1
=
=
= 0, 0625
(g) (−4)−2 =
2
(−4)
(−4) · (−4)
16
Lemma 7.3. (Regeln für das Rechnen mit ganzzahligen Exponenten) Seien
a, b ∈ R \ {0}, und seien n und m in Z \ {0}. Dann gilt
an·m = (an )m = (am )n
(7.2)
und
an+m = an · am = an am
und
an−m = an · a−m = an a−m =
an
.
am
(7.3)
Weiter gilt
(a · b)n = an · bn = an bn .
Betrachten wir zunächst ein paar Beispiele.
Beispiel 7.4. (Regeln für das Rechnen mit ganzzahligen Exponenten)
(a) (104 )2 = 104·2 = 108 = 100000000
(b) 24 · 26 = 24+6 = 210 = 1024
(c) 17−5 · 174 = 17−5+4 = 17−1 =
1
≈ 0, 05882
17
(7.4)
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
175
13
13
1
1
13
·2 =
·2
= 113 = 1
(d)
2
2
1
1
(e) 2−3 · 3−3 = (2 · 3)−3 = 6−3 = 3 =
≈ 0, 0046296
6
216
Wir beweisen nun Lemma 7.3 teilweise, weil dies unser Verständnis der Rechenregeln
erhöht.
Beweis von Lemma 7.3. Wir geben den Beweis nur für den Fall n > 0 und m > 0. Die
Fälle n < 0 oder m < 0 können analog bewiesen werden, aber sie sind etwas aufwendiger.
und
m
m
(an )m = |an · an {z
· . . . · an} = a
· . . . · am} = (am )n
| · a ·{z. . . · a} = a
| · a {z
m-mal
n-mal
(n · m)-mal
n
m
=
a
·
a
·
.
.
.
·
a
·
a
·
a
·
.
.
.
·
a
an+m = a
·
a
·
.
.
.
·
a
|
|
{z
}
{z
}
{z
} =a ·a ,
|
n-mal
m-mal
(n + m)-mal
1
n
−m
an−m = a
·
a
·
.
.
.
·
a
=
a
·
a
·
.
.
.
·
a
{z
}
{z
} · a· a· ...· a = a · a .
|
|
{z
}
|
n-mal
(n − m)-mal
m-mal
Damit haben wir die Gleichungen (7.2) und (7.3) für m > 0 und n > 0 bewiesen. Weiter
gilt für n > 0
·
a
·
.
.
.
·
a
·
b
·
b
·
.
.
.
·
b
= an · bn ,
(a · b)n = (a · b) · (a · b) · . . . · (a · b) = a
|
|
{z
}
{z
}
{z
}
|
n-mal
n-mal
n-mal
und wir haben (7.4) ebenfalls bewiesen.
Als nächstes wollen wir Potenzen mit rationalem Exponenten definieren. Dazu benötigen
wir als Vorbereitung die n-te Wurzel.
Definition 7.5. (n-te Wurzel einer nicht-negativen Zahl) Sei a ∈ R eine nichtnegative
reelle Zahl, und sei n ∈ N eine natürliche Zahl. Dann ist die n-te Wurzel
√
1/n
n
a = a als die nicht-negative Zahl b definiert, für die gilt bn = a.
Wir bemerken, dass wir √für n = 2 insbesondere die übliche“ Quadratwurzel
erhalten:
√
”
Für a ∈ R mit a ≥ 0 ist a die nicht-negative reelle Zahl, für die gilt ( a)2 = a.
Beispiel 7.6. (n-te Wurzeln von a > 0)
(a) 10001/3 = 10, weil 103 = 1000
√
√ √
√
(b) 21/2 = 2, da ( 2)2 = 2 · 2 = 2
(c) 811/4 = 3, weil 34 = 81
176
7.1. Potenzen, Wurzeln und Exponentialfunktionen
(d) 81/3 = 2, denn 23 = 8
√
√
√ √
(e) a1/2 = a, weil ( a)2 = a · a = a
(f) 01/7 = 0, da 07 = 0.
Analog zu (7.2) und (7.4) in Lemma 7.3 können wir auch Regeln für das Rechnen mit
n-ten Wurzeln definieren.
Lemma 7.7. (Rechenregeln für n-te Wurzeln) Seien a, b ∈ R nicht-negative reelle
Zahlen, und seinen n und m natürliche Zahlen. Dann gilt
a1/(n·m) = (a1/n )1/m = (a1/m )1/n ,
und
(a · b)1/n = a1/n · b1/n .
Man kann Lemma 7.7 relativ leicht mit Hilfe der Definition der n-ten Wurzel beweisen.
Lemma 7.7 ist nützlich, um n-te Wurzeln zu berechnen und zu vereinfachen. Wir betrachten einige Bespiele.
Beispiel 7.8. (Anwendung von Lemma 7.7)
(a) 81/6 = 81/(2·3) = (81/3 )1/2 , und wegen 23 = 8 gilt
81/6 = (81/3 )1/2 = 21/2 =
√
2.
(b) 65611/8 = 65611/(2·4) = (65611/2 )1/4 , und wegen 812 = 6561 gilt
65611/8 = (65611/2 )1/4 = 811/4 = (811/2 )1/2 = 91/2 = 3,
wobei wir 92 = 81 und 32 = 9 verwendet haben.
(c) 241/3 = (3 · 8)1/3 = 31/3 81/3 = 31/3 · 2 = 2 · 31/3 , wobei wir 23 = 8 ausgenutzt haben.
Mit Hilfe der Potenzen mit ganzzahligem Exponenten und mit der n-ten Wurzel können
wir nun Potenzen mit rationalem Exponenten einführen.
Definition 7.9. (Potenzen mit rationalem Exponenten) Sie a eine positive reelle
Zahl, und sei m ∈ Z und n ∈ N. Dann ist am/n definiert durch
m
am/n = a1/n = (am )1/n .
Beispiel 7.10. (Potenzen mit rationalem Exponenten)
√
√
(a) 2−1/2 = (21/2 )−1 = ( 2)−1 = 1/ 2.
√
(b) 93/2 = (91/2 )3 = ( 9)3 = 33 = 27, wobei wir 32 = 9 verwendet haben.
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
177
(c) 1000−4/3 = (10001/3 )−4 = 10−4 = 1/104 = 0, 0001, wobei wir 103 = 1000 benutzt
haben.
√
√
1/3
1/3
(d) ( 8)−2/3 = ( 8)−2
= (81/2 )−2
= (8−1 )1/3 = (81/3 )−1 = 2−1 = 1/2, wobei wir
3
2 = 8 ausgenutzt haben.
Aus Lemma 7.3 und Lemma 7.7 kann man das folgende Lemma herleiten.
Lemma 7.11. (Rechnen mit Potenzen mit rationalen Exponenten) Seien a, b ∈ R
positive reelle Zahlen, und seinen m, k ∈ Z und n, ℓ ∈ N. Dann gilt
m k
mk
a nℓ = a n · ℓ = (am/n )k/ℓ = (ak/ℓ )m/n .
Weiter gilt
m
k
a n + ℓ = am/n ak/ℓ
und
m
und
(a · b)m/n = am/n · bm/n
k
a n − ℓ = am/n a−k/ℓ =
und
a m/n
b
=
am/n
ak/ℓ
am/n
.
bm/n
Betrachten wir ein paar Beispiele.
Beispiel 7.12. (Rechnen mit Potenzen mit rationalen Exponenten) In diesem
Beispiel wollen wir die Rechenregeln aus Lemma 7.11 anwenden, um zu vereinfachen:
1
2
(a) 21/3 · 22/3 = 2 3 + 3 = 21 = 2.
√
√
(b) 503/2 = (2 · 25)3/2 = 23/2 · 253/2 = 21+1/2 · (251/2 )3 = 2 · 21/2 · 53 = 2 · 2 · 125 = 250 · 2,
wobei wir 52 = 25 benutzt haben.
√
1 1
(c) 85/6 = 8 2 + 3 = 81/2 · 81/3 = (4 · 2)1/2 · 2 = 41/2 · 21/2 · 2 = 2 · 21/2 · 2 = 4 · 2, wobei wir
22 = 4 und 23 = 8 ausgenutzt haben.
Um die Definition von ax auf Potenzen mit einem beliebigen reellen Exponenten auszudehnen, verwenden wir Folgen von rationalen Zahlen. Die nachfolgende Definition nutzt,
dass wir jede reelle Zahl als Grenzwert einer Folge rationaler Zahlen darstellen können.
Dies ist ein tiefgreifendes Ergebnis der Analysis.
Definition 7.13. (Potenzen mit reellem Exponenten) Sei x ∈ R eine beliebige
reelle Zahl. Dann können wir x als Grenzwert einer konvergenten Folge (xn )n∈N
rationaler Zahlen darstellen, also limn→∞ xn = x. Für a ∈ (0, ∞) konvergiert dann die
Folge reeller Zahlen (axn )n∈N , und wir definieren
ax = lim axn
n→∞
für a ∈ (0, ∞).
Alle Rechenregeln für Potenzen mit rationalem Exponenten (siehe Lemma 7.11) übertragen sich direkt auf Potenzen mit reellen Exponenten.
178
7.1. Potenzen, Wurzeln und Exponentialfunktionen
Lemma 7.14. (Rechenregeln für Potenzen mit reellem Exponenten) Seien a und
b positive reelle Zahlen und und seien x, y ∈ R. Dann gilt
ax·y = (ax )y = (ay )x
und
ax+y = ax · ay
ax−y = ax · a−y =
und
Weiter gilt
(a · b)x = ax · bx
und
Wegen a > 0 gilt
ax > 0
a x
b
=
ax
.
ay
ax
.
bx
für alle x ∈ R.
Nachdem wir für a > 0 die Potenz ax für alle x ∈ R definiert haben, können wir nun
endlich Exponentialfunktionen einführen:
Definition 7.15. (Exponentialfunktionen zur Basis a) Sei a ∈ (0, ∞) \ {1} eine
positive reelle Zahl. Die Funktion
expa : R → R,
expa (x) = ax ,
heißt die Exponentialfunktion zur Basis a.
Wir bemerken zunächst, dass wir für a = 1 den Sonderfall exp1 (x) = 1x = 1 für alle x ∈ R,
also eine konstante Funktion, erhalten würden. Daher nehmen wir in Definition 7.15 a 6= 1
an. – Die wichtigsten Fälle der Exponentialfunktion sind die Exponentialfunktion zur
Basis 10 und zur Basis e, wobei e die sogenannte Euler-Zahl ist (siehe unten).
Definition 7.16. (Exponentialfunktion
zur Basis e) Die Euler-Zahl e ist definiert
1 n
als Grenzwert der Folge 1 + n n∈N , also:
n
1
e = lim 1 +
= 2, 71828 . . . .
n→∞
n
Die Exponentialfunktion zur Basis e,
exp = expe : R → R,
exp(x) = ex ,
wird üblicherweise als die (natürliche) Exponentialfunktion bezeichnet.
Wir beobachten, dass per Definition exp(0) = e0 = 1 gilt. Weiter überlegt man sich leicht,
dass mit wachsendem x > 0 die Funktionswerte von exp(x) = ex beliebig groß werden,
da e ≈ 2, 71828 > 1 ist, und dass für x → −∞ die Funktionswerte gegen Null streben.
Zeichnet man die Exponentialfunktion, so erhält man den Graphen in Abbildung 7.1.
Wir stellen die wichtigsten Eigenschaften der (natürlichen) Exponentialfunktion
zusammen:
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
179
Abb. 7.1: Graph der (natürlichen) Exponentialfunktion exp(x) = ex .
• Die Exponentialfunktion exp(x) = ex nimmt nur positive Werte an (und hat damit
auch niemals den Wert Null), d.h.
exp(x) = ex > 0
für alle x ∈ R.
• Die Exponentialfunktion exp(x) = ex hat die folgenden uneigentlichen Grenzwerte
für x → −∞ bzw. x → +∞:
lim exp(x) = lim ex = 0
x→−∞
x→−∞
bzw.
lim exp(x) = lim ex = ∞.
x→+∞
x→+∞
Insbesondere ist die x-Achse eine horizontale Asymptote für exp(x) = ex .
• Die Exponentialfunktion exp(x) = ex ist streng monoton wachsend auf R, d.h. für
alle x1 , x2 ∈ R mit x1 < x2 gilt ex1 < ex2 .
• Da die Exponentialfunktion exp(x) = ex auf ganz R streng monoton wachsend ist, ist
sie auch injektiv, und wir können auf ihrem Bild ihre Umkehrfunktion bilden.
• Das Bild von exp(x) = ex ist Bexp = (0, ∞).
• exp(x) = ex ist stetig auf R.
Wir sehen Exponentialfunktionen mit anderen Basen a > 0 aus?
Betrachten wir zunächst den Fall, dass a > 1 ist. Dann sieht der Graph ähnlich wie in
Abbildung 7.1 aus, lediglich die Stärke des Wachstums“ ist verglichen mit der natürlichen
”
Exponentialfunktion größer wenn a > e und kleiner wenn 1 < a < e. Zur Illustration
haben wir in Abbildung 7.2 in blau die Funktion exp2 (x) = 2x gezeichnet.
Im Fall a < 1 haben wir, dass a = 1/b = b−1 ist mit b = 1/a > 1. Daher gilt
expa (x) = ax = (b−1 )x = b−x = expb (−x),
180
7.2. Logarithmusfunktionen
und wir sehen, dass wir den Graphen von expb (x) = bx mit b > 1 gerade an der y-Achse
spiegeln müssen, da in expa (x) = ax = b−x = expb (−x) die Variable in umgekehrter“
”
Richtung durchlaufen wird. In Abbildung 7.2 haben wir in rot die Funktion exp1/2 (x) =
(1/2)x = exp2 (−x) gezeichnet, und wir sehen, dass ihr Graph gerade das Spiegelbild an
der y-Achse des Graphen von exp2 (x) = 2x ist.
Abb. 7.2: Die Graphen der Exponentialfunktionen exp2 (x) = 2x (blau) und exp1/2 (x) =
(1/2)x = 2−x = exp2 (−x) (rot).
7.2
Logarithmusfunktionen
Wir führen nun die Logarithmen als Umkehrfunktionen der Exponentialfunktionen ein.
Wir starten mit der (natürlichen) Exponentialfunktion und dem zugehörigen (natürlichen)
Logarithmus.
Die (natürliche) Exponentialfunktion exp : R → R, exp(x) = ex , ist injektiv und hat
daher eine Umkehrfunktion auf ihrem Bild Bexp = (0, ∞).
Definition 7.17. (natürlicher Logarithmus) Die Umkehrfunktion exp−1 : (0, ∞) → R
der (natürlichen) Exponentialfunktion exp : R → (0, ∞), exp(x) = ex , heißt der
(natürliche) Logarithmus und wird mit ln : (0, ∞) → R bezeichnet. Für y ∈ (0, ∞)
ist ln(y) die Zahl x in R, für die ex = y gilt.
Von dem allgemeinen Zusammenhang zwischen einer Funktion und ihrer Umkehrfunktion
finden wir folgende wichtige Relationen zwischen der (natürlichen) Exponentialfunktion
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
181
Abb. 7.3: Die (natürliche) Exponentialfunktion exp : R → (0, ∞), exp(x) = ex , (links),
und die (natürliche) Exponentialfunktion zusammen mit ihrer Umkehrfunktion, dem
(natürlichen) Logarithmus, exp−1 = ln : (0, ∞) → R, exp−1 (x) = ln(x), (rechts).
und dem (natürlichen) Logarithmus:
ln exp(x) = ln(ex ) = x
exp ln(y) = eln(y) = y
für alle x ∈ R,
für alle y > 0.
Indem wir den Graphen der (natürlichen) Exponentialfunktion an der Diagonalen y = x
spiegeln, erhalten wir den Graphen des (natürlichen) Logarithmus in Abbildung 7.3
Wir listen die wichtigsten Eigenschaften des natürlichen Logarithmus auf, welche
wir aus den Eigenschaften der (natürlichen) Exponentialfunktion direkt ablesen bzw. herleiten können:
• Aus e0 = 1 folgt, dass ln(1) = 0 ist, und wir finden weiter
ln(x) > 0 für alle x > 1
und
ln(x) < 0 für alle 0 < x < 1.
• Es existieren die folgenden uneigentlichen Grenzwerte:
lim ln(x) = +∞
x→+∞
und
lim ln(x) = −∞.
x→0+
Daher ist die y-Achse eine vertikale Asymptote für ln(x).
• Der (natürliche) Logarithmus ist streng monoton wachsend auf (0, ∞), d.h. für alle
x1 , x2 ∈ (0, ∞) mit 0 < x1 < x2 folgt ln(x1 ) < ln(x2 ).
182
7.2. Logarithmusfunktionen
• Als Umkehrfunktion von exp : R → (0, ∞), exp(x) = ex , ist der (natürliche) Logarithmus ln : (0, ∞) → R bijektiv, und seine Umkehrfunktion ist die (natürliche)
Exponentialfunktion exp : R → (0, ∞), exp(x) = ex .
• ln(x) ist stetig auf (0, ∞).
Weiter gelten für den (natürlichen) Logarithmus folgende wichtige Rechenregeln.
Lemma 7.18. (Rechenregeln für den (natürlichen) Logarithmus) Der (natürliche)
Logarithmus ln : (0, ∞) → R erfüllt die folgenden Rechenregeln:
x
= ln(x) − ln(y),
(7.5)
ln(x · y) = ln(x) + ln(y)
und
ln
y
sowie
ln(xb ) = b · ln(x)
und
mit x, y ∈ (0, ∞) und b ∈ R \ {0}.
1
ln x1/b = · ln(x),
b
(7.6)
Betrachten wir zunächst ein Beispiel.
Beispiel 7.19. (Rechenregeln für den (natürlichen) Logarithmus)
(a) ln(e17 ) = 17 · ln(e) = 17
1
1
= ln 2 ·
= ln(1) = 0
(b) ln(2) + ln
2
2
(c) ln(73 ) − ln(7) = 3 · ln(7) − ln(7) = 2 · ln(7) = ln(72 ) = ln(49)
Beweis von Lemma 7.18. Die Gleichungen in Lemma 7.18 folgen direkt aus der Definition des (natürlichen) Logarithmus und den Eigenschaften/Rechenregeln für die (natürliche) Exponentialfunktion (vgl. Lemma 7.14). Beispielsweise zeigt man die erste Gleichung
in (7.5) wie folgt:
eln(x·y) = x · y = eln(x) · eln(y) = eln(x)+ln(y) ,
(7.7)
und durch Anwenden des Logarithmus auf beiden Seiten folgt ln(x · y) = ln(x) + ln(y).
Die zweite Eigenschaft in (7.5) zeigt man analog.
Weiter haben wir
y
eln(x ) = xy = eln(x)
y
= ey·ln(x) ,
(7.8)
und durch Anwenden des Logarithmus auf beiden Seiten folgt, dass ln(xy ) = y · ln(x) gilt.
Die zweite Eigenschaft in (7.6) zeigt man analog.
Dass wir in (7.7) und (7.8) eine Äquivalenzumformung haben, wenn wir auf beiden Seiten
den Logarithmus anwenden, liegt an der Injektivität des Logarithmus.
Da die Exponentialfunktion expa : R → R, expa (x) = ax , zur Basis a ∈ (0, ∞) \ {1}
injektiv ist, kann sie auf ihrem Bild Bexpa = (0, ∞) invertiert werden. Ihre Umkehrfunktion
ist der Logarithmus zur Basis a.
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
183
Definition 7.20. (Logarithmus zur Basis a 6= 1) Sei a ∈ (0, ∞) \ {1} mit a > 0.
Der Logarithmus zu der Basis a, loga : (0, ∞) → R, ist als Umkehrfunktion der
Exponentialfunktion zur Basis a, expa : R → (0, ∞), expa (x) = ax , definiert. Für
y ∈ (0, ∞) ist loga (y) die Zahl x in R für die gilt ax = y.
Von dem allgemeinen Zusammenhang zwischen einer Funktion und ihrer Umkehrfunktion
finden wir folgende wichtige Relationen zwischen der Exponentialfunktion zur Basis a und
dem Logarithmus zur Basis a:
für alle x ∈ R,
loga expa (x) = loga (ax ) = x
expa loga (y) = aloga (y) = y
für alle y > 0.
Wir bemerken, dass die Basis a = e in Definition 7.20 den (natürlichen) Logarithmus
als Sonderfall für a = e liefert: loge (y) = ln(y).
Wir haben auch ein Lemma mit Rechenregeln für den Logarithmus zur Basis a, welches
analog zu Lemma 7.18 ist und dieses als Sonderfall für a = e enthält. Das unten stehende
Lemma ist das Gegenstück“ zu Lemma 7.14 mit dem Eigenschaften der Exponential”
funktion zur Basis a.
Lemma 7.21. (Rechenregeln für Logarithmusfunktionen) Sei a ∈ (0, ∞) \ {1}.
Dann hat der Logarithmus zur Basis a, loga : (0, ∞) → R, die folgenden Eigenschaften:
x
= loga (x) − loga (y),
(7.9)
loga (x · y) = loga (x) + loga (y)
und
loga
y
sowie
loga (xb ) = b · loga (x),
mit x, y ∈ (0, ∞) und b ∈ R \ {0}.
und
1
loga x1/b = · loga (x),
b
(7.10)
Logarithmen spielen in den Naturwissenschaften eine wichtige Rolle.
Anwendung 7.22. (pH-Wert einer Säure) Der Zehner-Logarithmus ist ein wichtiger
Begriff in der Chemie im Zusammenhang mit dem pH-Wert einer wässrigen Lösung (Säure
oder Lauge):
pH-Wert = negativer dekadischer Logarithmus der H3 O+ -Konzentration cH3 O+
cH 3 O +
= − log10
.
1 mol/l
7.3
Basiswechsel für Exponentialfunktionen und Logarithmen
Unsere genaue Kenntnis der (natürlichen) Exponentialfunktion exp(x) = ex und des
natürlichen Logarithmus ln(x) erlaubt es uns, die Eigenschaften von Exponentialfunk-
184
7.3. Basiswechsel für Exponentialfunktionen und Logarithmen
tionen zu einer anderen Basis a ∈ (0, ∞) \ {1} auf die Eigenschaften von exp(x) = ex mit
einem Basiswechsel wie folgt zurückführen:
x
expa (x) = ax = eln(a) = ex·ln(a) = exp x · ln(a) .
(7.11)
Da ln(a) > 0 für alle a > 1 und da ln(a) < 0 für alle a < 1 gilt, finden wir
| ln(a)|·x
e
wenn a > 1,
x
ln(a)·x
expa (x) = a = e
=
−| ln(a)|·x
e
wenn a < 1.
Also verhält sich expa (x) = ax mit a > 1 wie eine skalierte“ Exponentialfunktion
”
exp(α · x) = eα·x mit α > 0 zur Basis e. Analog verhält sich expa (x) = ax mit a < 1
wie eine skalierte“ Exponentialfunktion exp(−α · x) = e−α·x mit α > 0. Zur Illustration
”
haben wir in Abbildung 7.4 im linken Bild die beiden Exponentialfunktionen exp2 (x) = 2x
and exp1/2 = (1/2)x = 2−x gezeichnet.
Abb. 7.4: Graphen von exp2 (x) = 2x (blau) und exp1/2 (x) = (1/2)x (rot) im linken Bild,
und die Graphen der zugehörigen Umkehrfunktionen log2 (x) (blau) bzw. log1/2 (x) (rot)
im rechten Bild.
Zuletzt bestimmen wir noch den Basiswechsel für beliebige Basen a, b ∈ (0, ∞) \ {1}:
expa (x) = ax = blogb (a) )x = bx·logb (a) = expb x · logb (a) .
Wir halten die Formeln für den Basiswechsel von Exponentialfunktionen als Lemma fest.
Lemma 7.23. (Basiswechsel für Exponentialfunktionen) Seien a, b ∈ R mit a, b > 0
und a, b 6= 1. Dann gilt
expa (x) = ax = blogb (a) )x = bx·logb (a) = expb x · logb (a) ,
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
185
und insbesondere gilt für den Sonderfall b = e
expa (x) = ax = eln(a) )x = ex·ln(a) = exp x · ln(a) .
Unsere Kenntnis des (natürlichen) Logarithmus erlaubt es uns, Logarithmen mit beliebigen Basen mit Hilfe eines einfachen Basiswechsels zu analysieren. Wir finden
loga (x) = loga blogb (x) = logb (x) · loga (b) = loga (b) · logb (x),
wobei wir im zweiten Schritt die erste Eigenschaft in (7.10) genutzt haben. Für den
Spezialfall b = e erhalten wir
loga (x) = loga (e) · loge (x) = loga (e) · ln(x).
Wegen

>0



<0
loga (x) ist
<0



>0
wenn 0 < x < 1
wenn
x>1
wenn 0 < x < 1
wenn
x>1
und
und
und
und
a < 1,
a < 1,
a > 1,
a > 1,
finden wir (beachten Sie 1 < e)
loga (x) = loga (e) · ln(x) =
(
| loga (e)| · ln(x)
−| loga (e)| · ln(x)
wenn
a > 1,
wenn
a < 1.
Zur Illustration haben wir im rechten Bild in Abbildung 7.4 die Graphen der Logarithmen
log2 (x) und log1/2 (x) gezeichnet.
Wir halten die Formel für den Basiswechsel von Logarithmen in einem Lemma fest.
Lemma 7.24. (Basiswechsel für Logarithmusfunktionen) Seien a, b ∈ (0, ∞) \ {1}.
Dann gilt
loga (x) = loga blogb (x) = logb (x) · loga (b) = loga (b) · logb (x)
und insbesondere gilt für den Sonderfall b = e
loga (x) = loga (e) · loge (x) = loga (e) · ln(x).
Wir schließen dieses Teilkapitel mit einigen Bemerkungen über die graphische Darstellung des Logarithmus und den Nutzen des Logarithmus zur Linearisierung“.
”
Betrachten wir zunächst den Zehner-Logarithmus f (x) = log10 (x), der im linken Bild in
Abbildung 7.5 im üblichen kartesischen Koordinatensystem gezeichnet wurde.
Wählen wir dagegen für die x-Achse eine neue Skalierung, bei der die Zehnerpotenzen
10−3 , 10−2, 10−1 , 100 , 101, 102 , 103 in gleichem Abstand abgetragen wurden, so finden wir
wegen log10 (10x ) = x eine Gerade, die die x-Achse in x = 1 = 100 (wegen log10 (1) = 0)
schneidet (siehe das rechte Bild in Abbildung 7.5). Wir bezeichnen solch ein Diagramm
als halb-logarithmisch“.
”
Nun betrachten wir noch ein chemisches Beispiel für eine Linearisierung“ mit dem Lo”
garithmus.
186
7.4. Hyperbolische Funktionen
y
1
log10 (x)
3 y
log10 (x)
2
1
x
0
1 2 3 4 5 6 7 8 9 10 x
0
10−3 10−2 10−1 100 101 102 103
−1
−2
−1
−3
Abb. 7.5: Der Zehner-Logarithmus f (x) = log10 (x) links im normalen“ kartesischen
”
Koordinatensystem und rechts im halb-logarithmischen“ Koordinatensystem, bei dem
”
auf der x-Achse als Skala die Zehnerpotenzen gewählt worden sind.
Anwendung 7.25. (Arrhenius-Gleichung) Die Arrhenius-Gleichung zur Beschreibung
der Temperaturabhängigkeit der Reaktionsgeschwindigkeitskonstante k sagt aus, dass die
Reaktionsgeschwindigkeitskonstante k wie folgt von der Temperatur abhängt:
k = k(T ) = A · e−EA /(R·T )
mit A = Frequenzfaktor, EA = Aktivierungsenergie in J·mol−1 , T = absolute thermodynamische Temperatur (in K) und der universellen Gaskonstante R = 8, 314 J · K−1 · mol−1 .
Um die Abhängigkeit der Reaktionsgeschwindigkeitskonstante k(T ) von der absoluten
Temperatur T leichter darstellen zu können, linearisieren wir, d.h. wir nehmen auf beiden
Seiten der Gleichung den natürlichen Logarithmus:
EA
ln k(T ) = ln A · e−EA /(R·T ) = ln(A) + ln e−EA /(R·T ) = ln(A) −
,
R·T
wobei wir die Rechenregeln für den natürlichen Logarithmus aus Lemma 7.18 angewendet
haben.
7.4
Hyperbolische Funktionen
Das letzte Thema dieses Kapitels sind die sogenannten hyperbolischen“ Funktionen,
”
welche wir nun mit Hilfe der Exponentialfunktion einführen können.
Definition 7.26. (Sinus Hyperbolicus und Kosinus Hyperbolicus) Wir definieren
den Sinus Hyperbolicus sinh : R → R und den Kosinus Hyperbolicus cosh : R → R
wie folgt:
ex + e−x
ex − e−x
und
cosh(x) =
.
sinh(x) =
2
2
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
187
Aus den Definitionen von sinh(x) und cosh(x) folgt wegen limx→+∞ e−x = 0, dass für
großes x gilt sinh(x) ≈ ex /2 und cosh(x) ≈ ex /2. Analog gilt wegen limx→−∞ ex = 0
für kleines x, dass sinh(x) ≈ −e−x /2 und cosh(x) ≈ e−x /2. Weiter haben wir sinh(0) =
(1 − 1)/2 = 0 und cosh(0) = (1 + 1)/2 = 1. Damit können wir die Graphen des Sinus
Hyperbolicus und des Kosinus Hyperbolicus leicht skizzieren. Diese sind in Abbildung 7.6
gezeichnet.
Abb. 7.6: Der Graph von sinh(x) (links) und der Graph von cosh(x) (rechts).
Das nächste Lemma formuliert eine wichtige Beziehung zwischen den beiden Funktionen
Sinus Hyperbolicus und Kosinus Hyperbolicus.
Lemma 7.27. (Gleichung mit sinh(x) und cosh(x)) Es gilt
cosh(x)
2
− sinh(x)
2
für alle x ∈ R.
=1
Beweis von Lemma 7.27. Wir vereinfachen den Ausdruck auf der linken Seite:
2 x
2
x
2
2
e + e−x
e − e−x
cosh(x) − sinh(x) =
−
2
2
2
2
(ex + e−x ) − (ex − e−x )
=
4
2 2 x 2
2 2
2
ex + 2 · ex · e−x + e−x
− e
− 2 · ex · e−x + e−x
=
4
(e2x + 2 + e−2x ) − (e2x − 2 + e−2x )
=
4
188
7.4. Hyperbolische Funktionen
=
2 − (−2)
4
= = 1,
4
4
wobei wir ex · e−x = ex−x = e0 = 1 genutzt haben.
Beispiel 7.28. (sinh(x) ist ungerade und cosh(x) ist gerade) Wir zeigen formal, dass
sinh(x) eine ungerade Funktion und dass cosh(x) eine gerade Funktion ist:
sinh(−x) =
e−x − ex
ex − e−x
e−x − e−(−x)
=
=−
= − sinh(x)
2
2
2
für alle x ∈ R,
und
cosh(−x) =
e−x + e−(−x)
e−x + ex
ex + e−x
=
=
= cosh(x)
2
2
2
für alle x ∈ R.
Das nächste Lemma listet weitere wichtige Eigenschaften von sinh(x) und cosh(x) auf.
Lemma 7.29. (Additionstheoreme) Es gilt für alle x ∈ R, dass
sinh(x + y) = sinh(x) · cosh(y) + sinh(y) · cosh(x),
cosh(x + y) = cosh(x) · cosh(y) + sinh(x) · sinh(y).
Man kann die Additionstheoreme leicht durch Nachrechnen unter Ausnutzung der Eigenschaften der Exponentialfunktion beweisen.
Als Nächstes führen wir weitere hyperbolische Funktionen ein.
Definition 7.30. (Tangens Hyperbolicus und Kotangens Hyperbolicus) Der Tangens Hyperbolicus tanh : R → R und der Kotangens Hyperbolicus coth : R\{0} →
R sind wie folgt definiert:
tanh(x) =
sinh(x)
ex − e−x
= x
cosh(x)
e + e−x
und
coth(x) =
cosh(x)
1
ex + e−x
=
= x
.
sinh(x)
tanh(x)
e − e−x
Die Graphen des Tangens Hyperbolicus tanh(x) und der Kotangens Hyperbolicus coth(x)
sind in Abbildung 7.7 gezeichnet.
Wir bemerken, dass die Geraden g(x) = −1 und h(x) = 1 beide horizontale Asymptoten für tanh(x) und coth(x) sind, weil für große |x| gilt:
ex
ex − e−x
≈
=1
wenn x → +∞,
ex + e−x
ex
−e−x
ex − e−x
≈
= −1
wenn x → −∞
tanh(x) = x
e + e−x
e−x
tanh(x) =
und
coth(x) =
ex
ex + e−x
≈
=1
ex − e−x
ex
wenn x → +∞,
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
189
Abb. 7.7: Die Graphen des tanh(x) (links) und des coth(x) (rechts) mit ihren jeweiligen
Asymptoten.
coth(x) =
ex + e−x
e−x
≈
= −1 wenn x → −∞.
ex − e−x
−e−x
Sie finden in manchen Textbüchern auch die beiden weiteren hyperbolischen Funktionen
cosech : R \ {0} → R und sech : R → R begegnen, die wie folgt definiert sind:
cosech(x) =
1
sinh(x)
und
sech(x) =
1
.
cosh(x)
Zuletzt führen wir die Umkehrfunktionen der hyperbolischen Funktionen (soweit sie existieren) ein. Aus Abbildungen 7.6 und 7.7 ist es leicht ersichtlich, dass die Funktionen
sinh(x) and tanh(x) auf R streng monoton wachsend und damit injektiv sind, wogegen
cosh(x) nur für x ≥ 0 bzw. x ≤ 0 streng monoton (wachsend bzw. fallend) und damit
injektiv ist. Der Kotangens Hyperbolicus coth(x) ist injektiv, da seine beiden Äste“ für
”
x < 0 bzw. x > 0 jeweils streng monoton fallend sind und da gilt coth(x) < −1 für x < 0
bzw. coth(x) > 1 für x > 0 (d.h. kein Funktionswert tritt sowohl für ein x < 0 als auch
für ein x > 0 auf).
Definition 7.31. (Umkehrfunktionen der hyperbolischen Funktionen)
(i) Die Umkehrfunktion von sinh : R → R ist sinh−1 = arcsinh : R → R und heißt
Arkussinus Hyperbolicus.
(ii) Die Umkehrfunktion von cosh : [0, ∞) → [1, ∞) ist cosh−1 = arccosh : [1, ∞) →
[0, ∞) und heißt Arkuskosinus Hyperbolicus.
190
7.4. Hyperbolische Funktionen
(iii) Die Umkehrfunktion von tanh : R → (−1, 1) ist tanh−1 = arctanh : (−1, 1) → R
und heißt Arkustangens Hyperbolicus.
(iv) Die Umkehrfunktion von coth : R \ {0} → R \ [−1, 1] ist coth−1 = arccoth :
R \ [−1, 1] → R \ {0} und heißt Arkuskotangens Hyperbolicus.
Abb. 7.8: In der oberen Reihe der Graph von arcsinh(x) (links) und der Graph von
arccosh(x) (rechts). In der unteren Reihe die Graphen von arctanh(x) (links) und
arccoth(x) (rechts) mit ihren jeweiligen Asymptoten.
Die Graphen der Umkehrfunktionen der hyperbolischen Funktionen sind in Abbildung 7.8
7. Exponentialfunktionen, Logarithmen und hyperbolische Funktionen
191
gezeichnet. Ihre Eigenschaften und Graphen können direkt aus den Eigenschaften und
Graphen von sinh(x), cosh(x), tanh(x) und coth(x) hergeleitet werden. Beispielsweise
wissen wir, dass die Geraden g(x) = −1 und h(x) = 1 horizontale Asymptoten für tanh(x)
und coth(x) sind. Daher wissen wir, dass die vertikale Linie durch (−1, 0) und die vertikale
Linie durch (1, 0) beide vertikale Asymptoten von arctanh(x) und arccoth(x) sind.
Beispiel 7.32. (Darstellung der Umkehrfunktion von sinh(x)) Wir wollen eine
explizite Darstellung der Umkehrfunktion arcsinh(x) von sinh(x) finden. Dazu setzen wir
sinh(x) = y und lösen nach x = arcsinh(y) auf:
sinh(x) =
ex − e−x
=y
2
⇒
ex − e−x = 2 y,
und nach der Substitution z = ex erhalten wir
1
z − = 2 y · z =⇒ z 2 − 1 = 2 y z − 2 y z =⇒ z 2 − 2 y z − 1 = 0 + y 2 − y 2
z
2. Binom. Formel
=⇒
z2 − 2 y z + y2 − 1 − y2 = 0
=⇒
(z − y)2 − (1 + y 2 ) = 0
p
p
p
3. Binom. Formel
=⇒
z − y + 1 + y 2 z − y − 1 + y 2 = 0 =⇒ z = y ± 1 + y 2.
Daher sehen wir, dass gilt
p
ex = y ± 1 + y 2.
p
p
p
Weil ex > 0 gilt und weil aus 1 + y 2 > y 2 = y die Abschätzung y− 1 + y 2 < y−y = 0
folgt, können wir die Lösung mit dem Minuszeichen ausschließen. Daher gilt
p
p
p
ex = y + 1 + y 2 ⇒ x = ln y + 1 + y 2
⇒ arcsinh(y) = ln y + 1 + y 2 ,
und wir haben eine Darstellung von arcsinh(x) mit Hilfe der klassischen Funktionen hergeleitet.
192
7.4. Hyperbolische Funktionen
Kapitel 8
Ableitungen und Differenzieren
In diesem Kapitel werden wir den Begriff der Ableitung und das Differenzieren von Funktionen kennenlernen. Nach der grundlegenden Definition der Ableitung über den Differentialquotienten lernen wir die Ableitungen der wichtigsten klassischen Funktionen“ kennen
”
und führen die vier wichtigen Rechenregeln für das Differenzieren von Funktionen ein: die
Regel für die Ableitung der Summe/Differenz zweiter Funktionen, die Produktregel, die
Quotientenregel und schließlich die Kettenregel. Danach lernen wir den Mittelwertsatz
der Differentialrechnung und die Regel von de l’Hôspital kennen. Mit höheren Ableitungen können wir schließlich Informationen über Extrema, Krümmung und Wendepunkte
gewinnen und Kurvendiskussionen durchführen.
Zuletzt lernen wir die Taylorsche Formel und Taylorreihen kennen. Die Taylorsche Formel gestattet es, Funktionen lokal durch geeignete Polynome angenähert darzustellen.
Kann die Funktion beliebig oft differenziert werden so können wir für die Funktion ihre
Taylorreihe um x0 , eine sogenannte Potenzreihe, berechnen; im Idealfall konvergiert die
Taylorreihe in der Nähe von x0 gegen die Funktion.
8.1
Tangente und Ableitung
Wir starten mit einer geometrischen Erklärung der Ableitung, bevor wir diese formal
definieren.
An eine glatte“ Kurve kann in jedem Punkt eine Tangente gelegt werden. Daher gilt dies
”
auch für hinreichend glatte“ Funktionen bzw. genauer für die Graphen hinreichend glat”
”
ter“ Funktionen. Für den Graphen einer Funktion f : Df → R, wobei Df ⊂ R, nennen wir
die Steigung der Tangente an den Graphen der Funktion im Punkt x0 , f (x0 )
die Ableitung der Funktion im Punkt x0 . In einer kleinen Umgebung des Punktes ist
die Tangente eine gute Approximation der Funktion; Sekanten durch (x0 , f (x0 )) stellen
schlechtere Näherungen dar. Dies ist durch Abbildung 8.1 veranschaulicht.
Da die Tangente an den Graphen von f in x0 durch den Punkt (x0 , f (x0 )) läuft, hat
sie die Darstellung y = ℓ(x) mit der Geradengleichung
ℓ(x) = f (x0 ) + α (x − x0 ),
193
(8.1)
194
8.1. Tangente und Ableitung
Tangente: anschaulich
optimal
y
schlechte Näherung
Sekante durch
x0 , f (x0 ) und
x0 + h, f (x0 + h)
f (x0 + h)
f (x0 )
f (x)
x
x0
x0 + h
Abb. 8.1: Die Steigung der Tangente im Punkt x0 , f (x0 ) gibt den Wert der Ableitung
im Punkt x0 an. Weiter
sehen wir in der Abbildung die Sekante durch x0 , f (x0 ) und
x0 + h, f (x0 + h) .
wobei α die Steigung der Tangente, also den Wert der noch (mathematisch) zu definierenden Ableitung, angibt. (Erklärung zur Formel der Tangente: Durch Umschreiben von
ℓ(x) als
ℓ(x) = α x + f (x0 ) − α x0
sehen wir, dass es sich um eine Gerade mit Steigung α und y-Achsenabschnitt f (x0 )−α x0
handelt, und Einsetzen von x = x0 liefert ℓ(x0 ) = f (x0 ); also handelt
es bei (8.1) in der
Tat um die Tangente an den Graphen von f im Punkt x0 , f (x0 ) .)
Betrachten wir die Tangente ℓ(x) in x0 , f (x0 ) als Näherung für f (x), so ist der
Fehler bei dieser Näherung |f (x) − ℓ(x)|. Diese Näherung ist optimal“, falls gilt
”
f (x) − ℓ(x) =0
lim (8.2)
x→x0 x − x0 gilt, d.h. falls der Fehler schneller gegen Null geht als x − x0“.
”
Setzen wir in (8.2) die Formel (8.1) für ℓ(x) ein, so erhalten wir
f (x) − f (x ) + α (x − x ) f (x) − ℓ(x) f (x) − f (x0 )
0
0 = lim .
0 = lim =
lim
−
α
x→x0
x→x0 x − x0
x − x0 x→x0 x − x0
Nach den Sätzen über das Rechnen mit Grenzwerten von Funktionen, kann die TangentenSteigung α also wie folgt berechnet werden:
f (x) − f (x0 )
,
x→x0
x − x0
α = lim
(8.3)
8. Ableitungen und Differenzieren
195
Tangente an sin(x) + 0.1 x 2 im Punkt x 0 = 1.4
2
1.8
1.6
1.4
1.2
Sekantenfolge
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
2
Abb. 8.2: Graph der Funktion f (x) = sin(x) + 0, 1 · x . Die Folge der Steigungen der eingezeichneten Sekanten im Punkt x0 = 1, 4 ist αn = −0, 0877,
−0, 0323, 0, 0382, 0, 121, 0, 2131, 0, 3108, wenn sich xn , f (xn ) dem Punkt x0 , f (x0 )
immer weiter nähert. Die Tangentensteigung ist α = 0, 45.
oder äquivalent dazu, indem wir x = x0 + h (und damit x − x0 = h) setzen
f (x0 + h) − f (x0 )
.
h→0
h
α = lim
Nach der Definition des Grenzwertes von Funktionen in einem Punkt x0 bedeutet (8.3),
dass für jede konvergente Folge (xn )n∈N in Df \ {x0 } mit dem Grenzwert lim xn = x0 gilt
n→∞
f (xn ) − f (x0 )
.
n→∞
xn − x0
|
{z
}
= αn
α = lim
Dies bedeutet auch, dass für jede konvergente Folge (xn )n∈Nin Df \ {x0 } mit dem Grenzwert lim xn = x0 die Steigung α der Tangente in x0 , f (x0 ) der Grenzwert der Folge der
n→∞
Steigungen
f (xn ) − f (x0 )
(αn )n∈N =
xn − x0
n∈N
ist. Dies sind die Steigungen der Sekanten durch den
Punkt
x
,
f
(x
)
und durch die
0
0
immer näher kommenden Nachbarpunkte xn , f (xn ) . In Abbildung 8.2 haben wir eine
Folge von Sekanten sowie die Tangente für eine Beispielfunktion gezeichnet.
Definition 8.1. (Ableitung und Differenzierbarkeit) Die Funktion f : I → R sei
auf einem offenen Intervall I definiert. Dann heißt f differenzierbar in x0 ∈ I, falls
196
8.1. Tangente und Ableitung
der Grenzwert
f (x0 + h) − f (x0 )
f (x) − f (x0 )
= lim
(8.4)
h→0
x − x0
h
existiert. Diesen Grenzwert bezeichnet man als Ableitung von f in x0 und schreibt
df (x0 )
dafür f ′ (x0 ) oder
. Die Funktion f heißt differenzierbar (auf I), wenn f in
dx
jedem x0 ∈ I differenzierbar ist.
lim
x→x0
Bemerkung 8.2. (Differenzenquotient und Differentialquotient) Falls eine Funktion f : I → R (mit I ⊂ R offenes Intervall) differenzierbar in einem Punkt x0 ∈ I ist,
so bezeichnet man
f ′ (x0 ) =
f (x0 + h) − f (x0 )
f (x) − f (x0 )
df (x0 )
= lim
= lim
x→x
h→0
dx
0
x − x0
h
(8.5)
als den Differentialquotient von f in x0 , obwohl es sich hierbei um den Grenzwert
(für x → x0 bzw. h → 0) des Quotienten
f (x) − f (x0 )
f (x0 + h) − f (x0 )
=
x − x0
h
mit
x = x0 + h
(8.6)
handelt. Den Quotient in (8.6) nennt man auch den Differenzenquotient. Sowohl in
(8.5) wie in (8.6) wird in manchen Textbüchern statt h auch ∆x verwendet.
Betrachten wir zunächst drei einfache Beispiele. Zur Berechnung der Ableitung ist es
häufig bequemer mit der zweiten Darstellung der Ableitung in (8.4) zu arbeiten und h
gegen Null gehen zu lassen.
Beispiel 8.3. (Ableitung einer konstanten Funktion) Wir wollen zeigen, dass die
konstante Funktion f : R → R, f (x) = c, mit einer beliebigen Konstanten c ∈ R, in
jedem Punkt x0 ∈ R differenzierbar ist und die Ableitung f ′ (x0 ) = 0 hat. Berechnen wir
zunächst den Differenzenquotient in einem beliebigen Punkt x0 ∈ R:
f (x0 + h) − f (x0 )
c−c
0
=
= = 0.
h
h
h
Nun berechnen wir die Ableitung, indem wir den Grenzwert für h → 0 bilden:
f ′ (x0 ) = lim
h→0
f (x0 + h) − f (x0 )
= lim 0 = 0.
h→0
h
Beispiel 8.4. (Ableitung einer affin linearen Funktion) Betrachten wir die affin
lineare Funktion f : R → R, f (x) = a x + b, deren Graph eine Gerade mit Steigung
a und y-Achsenabschnitt b ist. Da wir wissen, dass die Steigung a ist, sollte nach der
geometrischen Interpretation der Ableitung die Funktion f (x) = a x + b in jedem Punkt
x0 ∈ R differenzierbar sein mit der Ableitung f ′ (x0 ) = a. Dies ist in der Tat der Fall,
denn der Differenzenquotient ist
a (x0 + h) + b − a x0 + b
f (x0 + h) − f (x0 )
a x0 + a h + b − a x0 − b
ah
=
=
=
= a.
h
h
h
h
8. Ableitungen und Differenzieren
197
Abb. 8.3: Graphen der Funktion f (x) = x2 und ihrer Ableitung f ′ (x) = 2 x.
Damit folgt für den Grenzwert für h → 0
f (x0 + h) − f (x0 )
= lim a = a,
h→0
h→0
h
f ′ (x0 ) = lim
d.h. es gilt in der Tat f ′ (x0 ) = a für jedes x0 ∈ R.
Beispiel 8.5. (Ableitung von f (x) = x2 ) Betrachten wir die Funktion f : R → R,
f (x) = x2 . Wir wollen zeigen, dass diese Funktion in jedem x0 ∈ R differenzierbar ist. Sei
also x0 ∈ R beliebig. Dann ist der Differenzenquotient
(x0 + h)2 − x20
x2 + 2 x0 h + h2 − x20
2 x0 h + h2
f (x0 + h) − f (x0 )
=
= 0
=
= 2 x0 + h.
h
h
h
h
Also finden wir für die Ableitung in x0
f (x0 + h) − f (x0 )
= lim (2 x0 + h) = 2 x0 .
h→0
h→0
h
f ′ (x0 ) = lim
Damit ist f in jedem Punkt x0 differenzierbar mit der Ableitung f ′ (x0 ) = 2 x0 . In Abbildung 8.3 haben wir die Graphen der Funktion f (x) = x2 und ihrer Ableitung f ′ (x) = 2 x
gezeichnet.
Kommen wir noch einmal zur Definition 8.1 der Differenzierbarkeit zurück.
Bemerkung 8.6. (Alternative Definition der Differenzierbarkeit) Aufgrund der
Vorüberlegungen ist es klar, dass genau dann eine eindeutige Tangente an den Graph
198
8.1. Tangente und Ableitung
Γ(f ) von f im Punkt x0 , f (x0 ) existiert, wenn f in x0 differenzierbar ist. Die Tangentengleichung lautet dann y = ℓ(x) = f (x0 ) + f ′ (x0 ) (x − x0 ), und es gilt
f (x) = f (x0 ) + f ′ (x0 ) (x − x0 ) +r(x; x0 )
{z
}
|
= ℓ(x)
mit
|r(x; x0 )|
= 0.
x→x0 |x − x0 |
lim
(8.7)
Diese Beziehung ist äquivalent zur Differenzierbarkeit von f in x0 (vgl. Definition 8.1),
denn aus (8.7) folgt durch Umstellen
f (x)−f (x0 ) = f ′ (x0 ) (x−x0 )+r(x; x0 )
r(x; x0 )
f (x) − f (x0 )
= f ′ (x0 )+
.
x − x0
x − x0
⇐⇒
Als Folgerung aus (8.7) erhält man sofort die Stetigkeit von f in x0 , denn für jede Folge
(xn )n∈N mit xn → x0 für n → ∞ folgt aus (8.7):
f (xn ) = f (x0 ) + f ′ (x0 )(xn − x0 ) + (xn − x0 )
r(xn ; x0 )
→ f (x0 )
xn − x0
für n → ∞.
Also ist Differenzierbarkeit eine stärkere Eigenschaft als Stetigkeit!
Wir halten die letzte Beobachtung als ein Lemma fest.
Lemma 8.7. (Differenzierbarkeit impliziert Stetigkeit) Sei I ⊂ R ein offenes Intervall. Ist eine Funktion f : I → R differenzierbar in x0 ∈ I, so ist f auch stetig in
x0 ∈ I. Ist f differenzierbar auf I, so ist f stetig auf I.
Wir halten hier bereits den nachfolgenden Satz über den Zusammenhang zwischen Differenzierbarkeit und Monotonie fest – auch wenn wir diesen Satz erst später mit dem
Mittelwertsatz beweisen können werden.
Satz 8.8. (Monotonie und Differenzierbarkeit) Seien Df ⊂ R und [a, b] ⊂ Df ein
abgeschlossenes Intervall. Sei f : Df → R stetig auf [a, b] und differenzierbar auf dem
offenen Intervall (a, b). Dann gelten die folgenden Aussagen:
(i) Die Funktion f ist genau dann monoton wachsend auf [a, b], wenn gilt f ′ (x) ≥ 0
für alle x ∈ (a, b).
(ii) Die Funktion f ist genau dann streng monoton wachsend auf [a, b], wenn gilt
f ′ (x) > 0 für alle x ∈ (a, b).
(iii) Die Funktion f ist genau dann monoton fallend auf [a, b], wenn gilt f ′ (x) ≤ 0 für
alle x ∈ (a, b).
(iv) Die Funktion f ist genau dann streng monoton fallend auf [a, b], wenn gilt
f ′ (x) < 0 für alle x ∈ (a, b).
(v) Gilt f ′ (x) = 0 für alle x ∈ (a, b), so ist die Funktion f auf [a, b] konstant.
8. Ableitungen und Differenzieren
199
Verdeutlichen wir uns, dass die Aussagen des vorigen Satzes anschaulich klar sind: Ist
eine Funktion f streng monoton wachsend, so werden die Funktionswerte f (x) größer,
wenn x größer wird. Also erwarten wir, dass die Tangenten an den Graphen eine positive
Steigung haben sollten. Analoges gilt für streng monoton fallendende, sowie monoton
wachsende und monoton fallende Funktionen.
Zuletzt führen wir noch einseitige Ableitungen, genauer linksseitige und rechtsseitige Ableitungen, ein.
Definition 8.9. (linksseitige und rechtsseitige Ableitung) Sei I ein offenes Intervall, und sei f : I → R eine Funktion. Sofern die nachfolgenden Grenzwerte in (8.8) und
(8.9) existieren, definieren wir für x0 ∈ I
f (x0 + h) − f (x0 )
,
(8.8)
h→0
h
f (x0 + h) − f (x0 )
.
(8.9)
und die linksseitige Ableitung:
f−′ (x0 ) = lim−
h→0
h
Ist eine Funktion f : [a, b] → R auf dem abgeschlossenen Intervall [a, b] definiert, so
können wir in den Randpunkten a bzw. b jeweils nur die rechtsseitige bzw. linksseitige
Ableitung betrachten.
die rechtsseitige Ableitung:
f+′ (x0 ) = lim+
An der Definition 8.1 sieht man, dass für eine in x0 differenzierbare Funktion die linksseitige und die rechtsseitige Ableitung übereinstimmen müssen.
Lemma 8.10. (Kriterium für Differenzierbarkeit) Sei I ⊂ R ein offenes Intervall.
Eine Funktion f : I → R ist in x0 ∈ I genau dann differenzierbar, wenn ihre
linksseitige und ihre rechtsseitige Ableitung in x0 existieren und übereinstimmen, also
wenn gilt
f−′ (x0 ) = f+′ (x0 ).
Der Wert der Ableitung in x0 ist dann f ′ (x0 ) = f−′ (x0 ) = f+′ (x0 ).
Betrachten wir ein Beispiel, um uns das Konzept der linksseitigen und der rechtsseitigen
Ableitung klar zu machen.
Beispiel 8.11. (Ableitung des Absolutbetrags) Sei f : R → R, f (x) = |x|, der
Absolutbetrag. Wir wollen – sofern möglich – die Ableitung des Absolutbetrags berechnen.
Nach der Definition des Absolutbetrags gilt

für x < 0,
 −x
0
für x = 0,
|x| =

x
für x > 0.
Für x0 6= 0 ist der Differenzenquotient in x0 6= 0 durch


 −(x0 + h) − (−x0 ) = −h = −1
|x0 + h| − |x0 | 
h
h
=

h
x
+
h
−
x
h
0

 0
= =1
h
h
für x0 < 0 und x0 + h < 0,
für x0 > 0 und x0 + h > 0.
200
8.1. Tangente und Ableitung
gegeben. Da wir h gegen Null gehen lassen, reicht es wenn wir für x0 < 0 auch nur h ∈ R
mit x0 + h < 0 betrachten, und analog reicht es für x0 > 0, wenn wir auch nur h ∈ R mit
x0 + h > 0 betrachten. Nehmen wir nun den Grenzwert für h → 0, so folgt daher

lim −1 = −1
für x0 < 0 und x0 + h < 0,
|x0 + h| − |x0 |  h→0
=
f ′ (x0 ) = lim
h→0
 lim 1 = 1
h
für x0 > 0 und x0 + h > 0.
h→0
Also ist f (x) = |x| in jedem x0 6= 0 differenzierbar, und die Ableitung ist f ′ (x0 ) = −1
wenn x0 < 0 und f ′ (x0 ) = 1 wenn x0 > 0.
Betrachten wir nun x0 = 0. Dann gilt
f (x0 + h) − f (x0 )
f (0 + h) − f (0)
|h| − |0|
|h|
=
=
=
,
h
h
h
h
und wir müssen jetzt zwei Fälle unterscheiden: h ≥ 0 und h < 0, d.h. wir betrachten die
rechtsseitige und linksseitige Ableitung in x0 = 0 separat:
f (0 + h) − f (0)
|h|
h
= lim+
= lim+
= 1,
h→0
h→0
h→0
h
h
h
|{z}
=1
|h|
−h
f (0 + h) − f (0)
= lim+
= lim+
= −1.
f−′ (0) = lim−
h→0
h→0
h→0
h
h
h
|{z}
= −1
rechtsseitige Ableitung: f+′ (0) = lim+
linksseitige Ableitung:
Da für f (x) = |x| die rechtsseitige und die linksseitige Ableitung in x0 = 0 nicht übereinstimmen, ist f (x) = |x| in x0 = 0 nicht differenzierbar. Dies ist auch klar am Graphen
der Funktion abzulesen, den wir in Abbildung 8.4 gezeichnet haben.
Wir haben also gefunden, dass der Absolutbetrag f (x) = |x| in allen x ∈ R \ {0} differenzierbar ist. Für x 6= 0 finden wir, dass f ′ (x) = sgn(x) gilt.
Als letztes führen wir noch sogenannte höhere Ableitungen“ ein.
”
Definition 8.12. (höhere Ableitungen) Sei eine Funktion f auf einem offenen Intervall (x0 − ε, x0 + ε) um den Punkt x0 differenzierbar. Ist die Ableitung f ′ in dem Punkt
x0 differenzierbar, d.h. existiert der Grenzwert
f ′ (x0 + h) − f ′ (x0 )
,
h→0
h
f ′′ (x0 ) = (f ′ )′ (x0 ) = lim
so heißt f zweimal differenzierbar in x0 , und wir nennen f ′′ (x0 ) die zweite Ableitung von f in x0 .
Analog können wir auch noch höhere Ableitungen einer entsprechend oft differenzierbaren Funktion f definieren: f (3) (x0 ), f (4) (x0 ), . . . f (n) (x0 ), wobei wir für die erste bzw. zweite
Ableitung auch f (1) (x0 ) = f ′ (x0 ) bzw. f (2) (x0 ) = f ′′ (x0 ) schreiben können. Mit der Notation f (0) (x0 ) ist die Funktion selber gemeint, also f (0) (x0 ) = f (x0 ).
Betrachten wir ein Beispiel.
8. Ableitungen und Differenzieren
201
Abb. 8.4: Der Graphen des Absolutbetrags f (x) = |x| und seiner Ableitung f ′ (x) = sgn(x)
für x 6= 0.
Beispiel 8.13. (höhere Ableitungen der Standardparabel) Betrachten wir die Funktion f : R → R, f (x) = x2 .
In Beispiel 8.5 haben wir bereits gesehen, dass f auf R differenzierbar ist mit der Ableitung
f ′ (x) = 2 x.
Nach Beispiel 8.4 wissen wir, dass die affin lineare Funktion f ′ (x) = 2 x auf R differenzierbar ist mit der Ableitung (f ′ )′ (x) = 2. Also ist f auf R zweimal differenzierbar mit
der zweiten Ableitung f ′′ (x) = 2.
Nach Beispiel 8.3 ist die konstante Funktion f ′′ (x) = 2 auf R differenzierbar mit der
Ableitung (f ′′ )′ (x) = 0. Also ist f auf R dreimal differenzierbar mit der dritten Ableitung
f ′′′ (x) = 0.
Da die Nullfunktion g(x) = 0 als konstante Funktion differenzierbar ist mit der Ableitung
g ′ (x) = 0, so sehen wir, dass f auch viermal, fünfmal, . . . , n-mal auf R differenzierbar ist
mit den Ableitungen f (4) (x) = 0, f (5) (x) = 0, . . . , f (n) (x) = 0.
Höhere Ableitungen spielen bei der Kurvendiskussion, also dem Analysieren (des Graphen) einer Funktion, eine wichtige Rolle. Diese werden wir in Teilkapitel 8.5 besprechen.
8.2
Ableitungen wichtiger Funktionen
In Tabelle 8.1 haben wir die Ableitungen einiger wichtiger differenzierbarer Funktionen
zusammengestellt. Sie sollten diese Ableitungen im Kopf haben.
202
8.2. Ableitungen wichtiger Funktionen
Definitionsbereich Df
Funktion f (x)
Ableitung f ′ (x)
R
c = Konstante
0
R
xn mit n ∈ N
n xn−1
(0, ∞)
xr mit r ∈ R
r xr−1
R
ex
ex
(0, ∞)
ln(x)
1
x
R
sin(x)
cos(x)
R
cos(x)
− sin(x)
R\
nπ
2
o
+ kπ k ∈ Z
1
tan(x)
cos(x)
1
2
R \ {kπ | k ∈ Z}
cot(x)
R
sinh(x)
cosh(x)
R
cosh(x)
sinh(x)
R
tanh(x)
R \ {0}
coth(x)
−
sin(x)
1
cosh(x)
−
1
2
2
sinh(x)
2
Tabelle 8.1: Ableitungen einiger wichtiger differenzierbarer Funktionen f : Df → R.
Wir geben einige Anmerkungen zu den Funktionen in der Tabelle.
• Dass f (x) = xn mit n ∈ N differenzierbar ist mit der Ableitung f ′ (x) = n xn−1 ,
kann man in Verallgemeinerung von Beispiel 8.5 mit Hilfe des binomischen Lehrsatzes
nachweisen.
• Dass f (x) = xr für x > 0 und r ∈ R differenzierbar ist mit der Ableitung f ′ (x) = r xr−1 ,
kann man mittels xr = er ln(x) und der Kettenregel (siehe Satz 8.24) nachweisen.
′
′
• Hinter sin(x) = cos(x) und cos(x) = − sin(x) steckt die folgende Anschauung:
8. Ableitungen und Differenzieren
203
Die Sinusfunktion steigt bei Null mit einer 45-Grad-Tangente an (also cos(0) = 1), und
die Steigungen der Tangenten nehmen für x > 0 allmählich so ab, wie die Werte der
Kosinusfunktion kleiner werden.
Die Kosinusfunktion beginnt bei x = 0 mit einer waagerechten Tangente (da gilt
− sin(0) = 0), und die Steigungen der Tangenten nehmen für x > 0 dann so ab, wie die
Werte von − sin(x).
Anwendung 8.14. (Ableitung und Geschwindigkeit) Ableitungen treten in Anwendungen bei der Betrachtung dynamischer Prozesse auf:
• Beschreibt die differenzierbare Funktion s(t) der Ort eines Objekts zum Zeitpunkt t, so
ist v(t) = s′ (t) die Geschwindigkeit des Objekts zur Zeit t. Zum Beispiel könnte s(t)
die Position zum Zeitpunkt t eines Autos sein, und s′ (t) ist dann die Geschwindigkeit
des Autos zum Zeitpunkt t.
• Für eine chemische Reaktion A + B → P mit Konzentrationsverläufen cA (t), cB (t) und
cP (t) für die Substanzen A, B und P ist ν(t) = c′P (t) die Reaktionsgeschwindigkeit,
also die Geschwindigkeit, mit der sich die Konzentration cP (t) ändert. Ist diese Reaktion
elementar, so gilt oft ν(t) = k cA (t) cB (t) mit einer Reaktionsgeschwindigkeitskonstanten k > 0. Dies führt auf
c′P (t) = k · cA (t) · cB (t),
eine sogenannte Differentialgleichung. Wie man Differentialgleichungen löst, lernen wir
in Kapitel 10.
8.3
Differentiationsregeln
In diesem Teilkapitel lernen wir die sehr wichtigen Regeln für das Rechnen mit Ableitungen kennen: die Linearität der Ableitung, die Produktregel, die Quotientenregel und die
Kettenregel. Mit Hilfe dieser Rechenregeln und den Informationen aus Tabelle 8.1 können
wir dann auch die Ableitungen sehr komplizierter Funktionen mit geringen Aufwand berechnen.
Satz 8.15. (Linearität der Ableitung, Produktregel und Quotientenregel) Seien
f : I → R und g : I → R zwei Funktionen auf einem offenen Intervall I. Sei x0 ∈ I,
und seien f und g in x0 differenzierbar. Dann sind auch die Funktionen c1 f + c2 g (mit
Konstanten c1 , c2 ∈ R), f · g und f /g (falls g(x) 6= 0 für alle x ∈ I) differenzierbar in x0 ,
und es gelten:
(i) Linearität der Ableitung:
(c1 f + c2 g)′(x0 ) = c1 f ′ (x0 ) + c2 g ′ (x0 ),
(f · g)′ (x0 ) = f ′ (x0 ) · g(x0 ) + f (x0 ) · g ′ (x0 ),
′
f
f ′ (x0 ) · g(x0 ) − f (x0 ) · g ′ (x0 )
(iii) Quotientenregel:
.
(x0 ) =
2
g
g(x0 )
(ii) Produktregel:
204
8.3. Differentiationsregeln
Bemerkung 8.16. (Sonderfall der Quotientenregel mit f (x) = 1) Aus (iii) folgt
für den Sonderfall f (x) = 1 für alle x ∈ I, dass
′
g ′ (x0 )
1
(x0 ) = −
2
g
g(x0 )
für jede differenzierbare Funktion g : I → R mit g(x0 ) 6= 0 und x0 ∈ I.
Betrachten wir einige Beispiele.
Beispiel 8.17. (Differenzierbarkeit von Polynomen und rationalen Funktionen)
(a) Da die Funktion p1 (x) = x als affin lineare Funktion nach Beispiel 8.4 auf R differenzierbar ist, folgt durch wiederholtes Anwenden der Produktregel, dass die Funktionen
p2 (x) = x2 = x · x, p3 (x) = x3 = x · x2 , . . . , pn (x) = xn = x · xn−1 alle auf R
differenzierbar sind.
(b) Aus der Differenzierbarkeit von p0 (x) = 1 und (vgl. Beispiel 8.3) von pn (x) = xn ,
n ∈ N, (vgl. (a)) auf ganz R folgt mit der Linearität der Ableitung, dass jede Funktion
der Form
p(x) = c0 p0 (x) + c1 p1 (x) + c2 p2 (x) + . . . + cn pn (x) = c0 + c1 x + c2 x2 + . . . + cn xn ,
also jedes Polynom, auf R differenzierbar ist.
(c) Da nach (b) alle Polynome auf R differenzierbar sind, kann man alle rationalen
Funktionen, also alle Funktionen p(x)/q(x) mit p(x) und q(x) Polynomen, in allen
Punkten x ∈ R mit q(x) 6= 0 differenzieren.
Beispiel 8.18. (Produktregel: Ableitung der Monome) Wir haben uns im vorigen
Beispiel bereits überlegt, dass die Monome pn (x) = xn für alle n ∈ N auf R differenzierbar
sind. Es gilt p′1 (x) = (x)′ = 1 (vgl. Beispiel 8.4). Mit der Produktregel folgt nun
p2 (x)′ = (x2 )′ = (x · x)′ = 1 · x + x · 1 = 2 x,
p′3 (x) = (x3 )′ = (x · x2 )′ = 1 · x2 + x · (2 x) = 3 x2 ,
und wir vermuten, dass p′n (x) = (xn )′ = n xn−1 für alle n ∈ N gilt. Dies zeigt man leicht
mit vollständiger Induktion:
Induktionsanfang: Wir haben bereits überprüft, dass die Formel für n = 1 stimmt, denn
p′1 (x) = 1 = 1 x0 .
Induktionsvoraussetzung: Nehmen wir nun an, es gelte p′n−1 (x) = (xn−1 )′ = (n − 1) xn−2 .
Induktionsschritt n − 1 → n: Nach der Produktregel gilt:
p′n (x) = (xn )′ = (x · xn−1 )′ = 1 · xn−1 + x · (n − 1) xn−2 = xn−1 + (n − 1) xn−1 = n xn−1 ,
wobei wir im dritten Schritt beim Anwenden der Produktregel die Induktionsvoraussetzung (xn−1 )′ = (n − 1) xn−2 ausgenutzt haben. Damit haben wir dem Induktionsschritt
bewiesen.
Nach dem Prinzip der vollständigen Induktion gilt p′n (x) = (xn )′ = n xn−1 für alle n ∈ N.
8. Ableitungen und Differenzieren
205
Beispiel 8.19. (Ableitung eines beliebigen Polynoms) In Beispiel 8.17 haben wir
gesehen, dass ein beliebiges Polynom vom Grad n
p(x) = c0 p0 (x) + c1 p1 (x) + c2 p2 (x) + . . . + cn pn (x) = c0 + c1 x + c2 x2 + . . . + cn xn ,
differenzierbar ist. Mit Hilfe der Formeln p′0 (x) = (1)′ = 0 sowie p′n (x) = n xn−1 für
pn (x) = xn mit n ∈ N (aus Beispiel 8.18) und der Linearität der Ableitung können wir
nun die Ableitung des Polynoms p leicht berechnen:
p′ (x) = c0 p′0 (x) + c1 p′1 (x) + c2 p′2 (x) + . . . + c′n pn (x)
= 0 + c1 1 + c2 2 x1 + . . . + cn n xn−1
= c1 + 2 c2 x + . . . + n cn xn−1 .
Die Ableitung p′ ist also wieder ein Polynom, allerdings ein Polynom vom Grad n − 1.
Daher können wir die Ableitung p′ wieder differenzieren. Wie sehen also, dass wir Polynome beliebig oft differenzieren können.
Beispiel 8.20. (Produktregel) Da nach Tabelle 8.1 f (x) = ex und g(x) = sin(x) in
allen x ∈ R differenzierbar sind (mit den Ableitungen f ′ (x) = ex und g ′ (x) = cos(x)), ist
nach Satz 8.15 auch h(x) = ex sin(x) = f (x) · g(x) in allen x ∈ R differenzierbar. Mit der
Produktregel finden wir die Ableitung
′
h′ (x) = (ex )′ · sin(x) + |{z}
ex · sin(x)
|{z} | {z }
| {z }
′
=
f
(x)
= f (x) = g(x)
= g ′ (x)
ex · cos(x)
= |{z}
ex · sin(x) + |{z}
| {z }
| {z }
= f ′ (x) = g(x) = f (x) = g ′ (x)
= ex sin(x) + cos(x) .
Beispiel 8.21. (Quotientenregel) Betrachten wir die rationale Funktion
h : R \ {−1, 1} → R,
h(x) =
x3 + 1
.
x2 − 1
Der Nenner und der Zähler sind jeweils Polynome f (x) = x3 + 1 und g(x) = x2 − 1,
und diese sind in allen x ∈ R differenzierbar. Weiter sind die Nullstellen des Nenners
nicht in der Definitionsmenge R \ {−1, 1} von h enthalten, d.h. wir haben g(x) 6= 0 für
alle x ∈ R \ {−1, 1}. Nach Satz 8.15 ist dann die Funktion h(x) = f (x)/g(x) in allen
x ∈ R \ {−1, 1} differenzierbar, und nach der Quotientenregel finden wir
h′ (x) =
=
=
f ′ (x) g(x) − f (x) g ′(x)
2
g(x)
(x3 + 1)′ (x2 − 1) − (x3 + 1) (x2 − 1)′
(x2 − 1)2
(3 x2 ) (x2 − 1) − (x3 + 1) (2 x)
(x2 − 1)2
206
8.3. Differentiationsregeln
=
=
3 x4 − 3 x2 − 2 x4 − 2 x
(x2 − 1)2
x4 − 3 x2 − 2 x
,
(x2 − 1)2
wobei wir
f ′ (x) = (x3 + 1)′ = (x3 )′ + (1)′ = 3 x2 + 0 = 3 x2
und
g ′ (x) = (x2 − 1)′ = (x2 )′ + (−1)′ = 2 x + 0 = 2 x
verwendet haben.
Beispiel 8.22. (Quotientenregel) Betrachten wir die Tangensfunktion
nπ
o
sin(x)
h:R\
h(x) = tan(x) =
+ kπ k ∈ Z → R,
.
2 {z
cos(x)
}
|
= Dh
Dann wissen wir aus Tabelle 8.1, dass die Funktionen f (x) = sin(x) und g(x) = cos(x) auf
R differenzierbar sind mit den Ableitungen f ′ (x) = cos(x) und g ′(x) = − sin(x). Weiter
gilt für die Definitionsmenge Dh von h, dass g(x) = cos(x) 6= 0 für alle x ∈ Dh ist. Also ist
nach Satz 8.15 auch h in allen Punkten x aus seiner Definitionsmenge Dh differenzierbar,
und wir berechnen die Ableitung mit der Quotientenregel:
f ′ (x) g(x) − f (x) g ′(x)
2
g(x)
′
′
sin(x) cos(x) − sin(x) cos(x)
=
2
cos(x)
cos(x) cos(x) − sin(x) − sin(x)
=
2
cos(x)
2
2
cos(x) + sin(x)
=
2
cos(x)
h′ (x) =
1
=
wobei wir cos(x)
2
+ sin(x)
cos(x)
2
2 ,
= 1 für alle x ∈ R verwendet haben.
Beispiel 8.23. (Linearität und Produktregel) Aus der Tabelle 8.1 wissen wir, dass die
Funktionen g(x) = x und h(x) = ln(x) für x > 0 differenzierbar sind mit den Ableitungen
g ′(x) = 1 und h′ (x) = 1/x. Daher wissen wir nach Satz 8.15, dass auch die Funktion
f (x) = x ln(x) − x differenzierbar ist mit der Ableitung
′
′
′
f ′ (x) = x ln(x) − x = x ln(x) − (x)′ = (x)′ ln(x) + x ln(x) − 1
= 1 · ln(x) + x ·
1
− 1 = ln(x) + 1 − 1 = ln(x).
x
8. Ableitungen und Differenzieren
207
Hier haben wir
′ erst die Linearität der Ableitung ausgenutzt und danach die Produktregel
für x ln(x) angewendet.
Als Nächstes lernen wir die sogenannte Kettenregel für das Differenzieren von verketteten
Funktionen kennen.
Satz 8.24. (Kettenregel) Seien g : Dg → R und f : Df → R zwei Funktionen mit
Bf ⊂ Dg , so dass die Verkettung h = g ◦ f : Df → R, h(x) = (g ◦ f )(x) = g f (x) ,
existiert. Es seien f im Punkt x0 und g im Punkt y0 = f (x0 ) differenzierbar. Dann ist die
verkettete Funktion h(x) = (g ◦ f )(x) = g f (x) im Punkt x0 differenzierbar mit der
Ableitung
h′ (x0 ) = (g ◦ f )′ (x0 ) = g ′ f (x0 ) · f ′ (x0 ) = g ′ f (x0 ) f ′ (x0 ) .
Man bezeichnet g ′ f (x0 ) als die äußere Ableitung und f ′ (x0 ) als die innere Ableitung.
Betrachten wir einige Beispiele für die Anwendung der Kettenregel.
Beispiel 8.25. (Kettenregel) Es ist cos(x) = sin(x+ π/2) (nach dem Additionstheorem
π π π
+ sin
cos(x) = cos(x)
sin x +
= sin(x) cos
2
| {z 2 } | {z2 }
=0
=1
für den Sinus.) Also gilt
cos(x) = g f (x)
mit
g(y) = sin(y)
und
f (x) = x +
π
.
2
Da die beiden Funktionen g(y) = sin(y) und f (x) = x + π/2 jeweils auf ganz R differenzierbar sind, folgt, dass cos(x) = sin(x + π/2) auch auf R differenzierbar ist. Nach der
Kettenregel berechnet sich die Ableitung wie folgt:
′
π
π
· 1 = cos x +
= − sin x,
cos(x) = g ′(f (x)) f ′ (x) = cos x +
2
2
wobei wir g ′ (y) = cos(y) und f ′ (x) = 1 und im letzten Schritt
π π
π
− sin(x) sin
= − sin(x)
cos x +
= cos(x) cos
2
| {z 2 }
| {z2 }
=0
=1
nach dem Additionstheorem für den Kosinus genutzt haben. Wir können also aus der
Kenntnis der Ableitung der Sinusfunktion mit der Hilfe der Kettenregel die Ableitung der
Kosinusfunktion herleiten.
Beispiel 8.26. (Kettenregel) Um die Differenzierbarkeit von h(x) = xr für x ∈ (0, ∞)
mit beliebigem r ∈ R herzuleiten und die Ableitung auszurechnen nutzen wir
r
h(x) = xr = eln(x) = er ln(x) ,
208
8.3. Differentiationsregeln
also
h(x) = xr = er ln(x) = g f (x)
mit
g(y) = ey
und
f (x) = r ln(x).
Da die Funktion g(y) = ey für alle y ∈ R differenzierbar ist und da die Funktion
f (x) = r ln(x) für alle x ∈ (0, ∞) differenzierbar ist, folgt, dass h(x) = xr auf (0, ∞)
differenzierbar ist. Nach der Kettenregel berechnet sich die Ableitung wie folgt
h′ (x) = (xr )′ = g ′ f (x) f ′ (x) =
ef (x)
|{z}
= g ′ f (x)
1
r
ln x r
r
= |er{z
= xr = r xr−1 ,
}
x
x
x
|{z}
= xr
′
= f (x)
wobei wir g ′ (y) = ey und f ′ (x) = r (1/x) verwendet haben.
Beispiel
8.27.
√
(mehrfache Anwendung der Kettenregel) Sei h : R → R, h(x) =
2
sin x + 1 . Dann ist
√
h(x) = g f (x)
mit
g(y) = sin(y)
und
f (x) = x2 + 1.
√
x2 + 1 ebenfalls auf R difDa g(y) = sin(y) auf R differenzierbar
ist,
folgt,
wenn
f
(x)
=
√
2
ferenzierbar ist, dass h(x) = sin x + 1 auf R differenzierbar ist. Nach der Kettenregel
finden wir dann mit g ′ (y) = cos(y)
√
(8.10)
h′ (x) = g ′ f (x) f ′ (x) = cos f (x) f ′ (x) = cos x2 + 1 f ′ (x).
√
Wir müssen uns noch überzeugen, dass f (x) = √
x2 + 1 auf R differenzierbar ist und
müssen f ′ (x) noch berechnen. Die Funktion f (x) = x2 + 1 ist wiederum eine verkettete
Funktion:
√
f (x) = u v(x)
mit
u(y) = y = y 1/2
und
v(x) = x2 + 1.
Die Funktion v(x) = x2 + 1 ist als Polynom auf R differenzierbar, und ihr Bild ist Bv =
√
[1, ∞). Weiter ist die Funktion u(y) = y = y 1/2 auf Bv = [1, ∞) ⊂ (0, ∞) = Du
differenzierbar (nach Beispiel 8.26). Also gilt mit v ′ (x) = 2 x und
1 1
1
√
1
= √
u′ (y) = ( y)′ = (y 1/2 )′ = y −1/2 =
1/2
2
2y
2 y
nach der Kettenregel
f ′ (x) = u′ v(x) v ′ (x) =
1
x
1
p
v ′ (x) = √
2x = √
.
2 x2 + 1
x2 + 1
2 v(x)
(8.11)
Einsetzen von (8.11) in (8.10) liefert
h′ (x) = cos
√
√
2 +1
x
x
cos
x
√
=
.
x2 + 1 √
x2 + 1
x2 + 1
Als Anwendung der Kettenregel wollen wir eine Formel für die Ableitung der Umkehrfunktion einer injektiven Funktion herleiten. Natürlich geht dies nur, wenn sowohl die
injektive Funktion als auch ihre Umkehrfunktion differenzierbar sind.
8. Ableitungen und Differenzieren
209
Satz 8.28. (Ableitung der Umkehrfunktion einer differenzierbaren Funktion)
Sei f : Df → Wf (mit Df , Wf ⊂ R) eine injektive Funktion, die in einem Intervall
(x0 − ε, x0 + ε) ⊂ Df um den Punkt x0 ∈ Df differenzierbar ist. Es gelte f ′ (x0 ) 6= 0.
Dann ist die Umkehrfunktion auf dem Bild f −1 : Bf → Df im Punkt y0 = f (x0 )
differenzierbar und es gilt
′
f −1 (y0 ) =
1
f′
f −1 (y
0)
=
1
f ′ (x0 )
.
(8.12)
Beweis von Satz 8.28. Wir zeigen nur einen Teil des Beweises. Wenn wir wissen, dass
die Umkehrfunktion von f in y0 = f (x0 ) differenzierbar ist (dies muss man allerdings
zeigen), dann gilt
h(y) = f f −1 (y) = (f ◦ f −1 )(y) = y
für alle y ∈ Bf ,
d.h. h(y) = y ist die Verkettung von f = f (x) und f −1 = f −1 (y). Wir haben also durch
direkte“ Berechnung h′ (y) = (y)′ = 1, und nach der Kettenregel gilt dann in y = y0
”
1 = h′ (y0 ) = f ′ f −1 (y0 ) · (f −1 )′ (y0) = f ′ (x0 ) · (f −1 )′ (y0 ).
|
{z
} ′
−1
=f f
f (x0 )
′
= f (x0 )
Durch Auflösen nach (f −1 )′ (y0 ) finden wir
′
f −1 (y0 ) =
1
f ′ (x0 )
=
1
f′
f −1 (y
und wir haben (8.12) hergeleitet.
0)
,
Wenden wir Satz 8.28 auf ein paar Beispiele an.
Beispiel 8.29. (Ableitung der Umkehrfunktion) Die natürliche Exponentialfunktion
exp : R → R, exp(x) = ex , mit Definitionsbereich Dexp = R und Bild Bexp = (0, ∞) ist auf
R differenzierbar und es gilt exp′ (x) = ex . Wir wollen diese Informationen und Satz 8.28
nutzen, um die Ableitung der Umkehrfunktion exp−1 : (0, ∞) → R, exp−1 (y) = ln(y),
herzuleiten. Wegen exp′ (x) = ex 6= 0 für alle x ∈ R sind die Voraussetzungen von Satz
8.28 erfüllt. Also finden wir
′
′
ln(y) = exp−1 (y) =
exp′
1
1
1
= ln(y) =
e
y
ln(y)
′
und wir haben die Formel ln(y) = 1/y hergeleitet.
für alle y > 0,
Beispiel 8.30. (Ableitung der Umkehrfunktion) Betrachten wir sin(x) auf dem Definitionsbereich Dsin = (−π/2, π/2). Dann ist sin(x) injektiv und das Bild ist Bsin = (−1, 1).
Also können wir die Umkehrfunktion sin−1 (y) = arcsin(y) auf dem Bild Bsin = (−1, 1)
definieren. Weiter ist sin(x) in allen x ∈ (−π/2, π/2) differenzierbar, und es gilt sin′ (x) =
210
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
cos(x) 6= 0 für alle x ∈ (−π/2, π/2). Also können wir Satz 8.28 anwenden, um die Ableitung der Umkehrfunktion zu berechnen:
′
1
1
1
1
=
=q
=p
arcsin(y) =
,
′
2
2
sin arcsin(y)
cos arcsin(y)
1
−
y
1 − sin arcsin(y)
q
2
2
2
wobei wir im dritten Schritt cos(x) = 1 − sin(x) (aus sin(x) + cos(x) = 1)
benutzt haben und im letzten Schritt sin arcsin(y) = y verwendet haben.
Beispiel 8.31. (Ableitung der Umkehrfunktion in individuellen Punkten) Betrachten wir die Funktion f : R → R, f (x) = x + ex , deren Bild Bf = R ist. Die Funktion
f ist streng monoton wachsend, weil g(x) = x und h(x) = ex beide streng monoton
wachsend sind. Daher ist die Funktion f injektiv und ihre Umkehrfunktion f −1 : R → R
existiert auf dem Bild Bf = R. Da f differenzierbar ist und f ′ (x) = 1 + ex 6= 0 für
alle x ∈ R gilt, wissen wir nach Satz 8.28, dass die Umkehrfunktion f −1 ebenfalls auf R
differenzierbar ist.
Wir möchten nun gerne (f −1 )′ (1) bestimmen. Das Problem dabei ist, dass man für f −1
keine geschlossene Formel angeben kann, da es problematisch ist, f (x) = x + ex nach x
zu lösen.
Allerdings kann man Satz 8.28 auch nur für den einzelnen Punkt y0 = 1 anwenden. Dazu
müssen wir aber den Punkt x0 ∈ Df = R mit f (x0 ) = y0 = 1 finden. Hier gilt offensichtlich
x0 = 0, da f (x0 ) = f (0) = 0 + e0 = 1 = y0 ist. Also folgt aus Satz 8.28
(f −1 )′ (1) = (f −1 )′ (y0 ) =
1
1
1
1
1
=
=
=
=
,
f ′ (x0 )
1 + ex0
1 + e0
1+1
2
wobei wir f ′ (x) = 1 + ex benutzt haben.
8.4
Mittelwertsatz der Differentialrechnung und Folgerungen
Wir lernen nun einen der wichtigsten Sätze der Differentialrechnung kennen, nämlich
den Mittelwertsatz der Differentialrechnung. Aus diesem werden werden wir verschiedene
nützliche Folgerungen ziehen: den Satz 8.8 über den Zusammenhang zwischen Monotonie
und dem Vorzeichen der Ableitung und die Regel von de l’Hôspital.
Satz 8.32. (Mittelwertsatz der Differentialrechnung) Sei f : [c, d] → R stetig
und in (c, d) differenzierbar. Dann gilt der Mittelwertsatz der Differentialrechnung
(kurz MWS): Es gibt einen Punkt x0 ∈ (c, d) mit
f ′ (x0 ) =
f (d) − f (c)
.
d−c
(8.13)
Zu beachten ist, dass der Satz nur eine Existenzaussage ist, denn er garantiert uns nur
die Existenz eines Punktes x0 ∈ (c, d) mit Eigenschaft (8.13). Er gibt uns aber auch für eine
8. Ableitungen und Differenzieren
211
y
f (d)
ang
le T
e
l
l
a
par
ante
Sek
ente
f (c)
x0
c
x0
d
Abb. 8.5:
des Mittelwertsatzes: Betrachtet man die Sekante von
Veranschaulichung
c, f (c) nach d, f (d) , so findet man mindestens einen Punkt x0 ∈ (c, d), in dem die
Tangente parallel zu dieser Sekante ist.
konkrete Funktion und ein konkretes Intervall (c, d) keinerlei Information darüber, welches
der genaue Punkt x0 in (8.13) ist. Der Mittelwertsatz ist daher besonders für theoretische
Überlegungen nützlich (d.h. zum Gewinnen weiterer Erkenntnisse über differenzierbare
Funktionen), wie wir noch im Verlauf dieses Kapitels sehen werden.
Bemerkung 8.33. (Anschauung des Mittelwertsatzes) Anschaulich sagt der Mittelwertsatz, dass es im Intervall (c, d) mindestens eine
Stelle x0 gibt,
an der die Tangente
parallel zur Sekante (durch die Endpunkte c, f (c) und d, f (d) ) verläuft (siehe Abbildung 8.5). Man sieht an der Abbildung 8.5, dass die Stelle x0 im Allgemeinen nicht
eindeutig bestimmt ist.
Als Sonderfall für f (c) = f (d) erhalten wir in (8.13)
f ′ (x0 ) =
0
f (d) − f (c)
=
= 0,
d−c
d−c
d.h. die Ableitung f ′ der Funktion f hat eine Nullstelle in (c, d). Dieser Sonderfall ist der
Satz von Rolle, den wir nun einführen.
Satz 8.34. (Satz von Rolle) Sei f : [c, d] → R stetig und in (c, d) differenzierbar. Ist
f (c) = f (d), so existiert ein x0 ∈ (c, d) mit f ′ (x0 ) = 0.
Bemerkung 8.35. (alternative Formulierungen des Mittelwertsatzes) Der Mittelwertsatz wird oft auch in einer der folgenden äquivalenten Formulierungen
verwendet:
(i) Ist f auf (x, y) wenn x < y, bzw. (y, x) wenn y < x, differenzierbar, so gibt es eine
212
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Zwischenstelle ξ, d.h. x < ξ < y bzw. y < ξ < x mit
f (y) = f (x) + f ′ (ξ) (y − x).
(8.14)
(Beweis: Dies folgt direkt, indem wir in (8.13) c = x und d = y, bzw. c = y und
d = x, setzen und in (8.13) mit (d − c) = (y − x) bzw. (d − c) = (x − y) multiplizieren
und danach nach f (y) auflösen.)
(ii) Setzen wir in (8.14) h = y − x und damit y = x + h so bekommen wir: Ist f auf
(x, x + h) falls h > 0, bzw. (x + h, x) falls h < 0, differenzierbar, so gibt es ein
θ ∈ (0, 1) mit
f (x + h) = f (x) + f ′ (x + θ h) h.
Wir haben dabei die Zwischenstelle ξ in (x, y) bzw. (y, x) als ξ = x+θ h mit θ ∈ (0, 1)
dargestellt.
Betrachten wir zunächst ein Beispiel für eine Anwendung des Mittelwertsetzes.
Beispiel 8.36. (Anwendung des Mittelwertsatzes) Mit dem Mittelwertsatz können
wir leicht die nützliche Abschätzung
| sin(x)| ≤ |x|
für alle x ∈ R
zeigen. Natürlich ist diese Abschätzung nur für kleine x, also x dicht bei Null, wirklich
interessant.
Beweis: sin : R → R ist auf ganz R differenzierbar. Nach dem Mittelwertsatz (8.13) mit
c = 0 und d = x falls x > 0, bzw. c = x und d = 0 falls x < 0, gilt für ein ξ ∈ (0, x)
bzw. ξ ∈ (x, 0), dass
sin(x)
sin(x) − sin(0)
=
wenn x > 0,
x−0
x
sin(0) − sin(x)
− sin(x)
sin(x)
bzw.
cos(ξ) = sin′ (ξ) =
=
=
wenn x < 0,
0−x
−x
x
′
wobei wir sin(x) = cos(x) benutzt haben. Also erhalten wir in beiden Fällen für die
Zwischenstelle ξ
cos(ξ) = sin′ (ξ) =
cos(ξ) =
sin(x)
x
⇐⇒
cos(ξ) · x = sin(x)
⇐⇒
sin(x) = cos(ξ) · x.
Wir nehmen nun auf beiden Seiten den Absolutbetrag und nutzen anschliessend, dass
| cos(ξ)| ≤ 1 ist, also
| sin(x)| = | cos(ξ) · x| = | cos(ξ)| · |x| ≤ |x|,
| {z }
≤1
und wir haben | sin(x)| ≤ |x| gezeigt. Da x ∈ R beliebig war, gilt die Abschätzung für alle
x ∈ R.
8. Ableitungen und Differenzieren
213
Eine wichtige Folgerung aus dem Mittelwertsatz 8.32 ist der Satz 8.8, den wir bereits im
ersten Unterkapitel formuliert haben. Wir wiederholen den Satz hier noch einmal und
werden am Ende des Teilkapitels die erste Aussage dieses Satzes beweisen.
Satz 8.37. (Monotonie und Differenzierbarkeit – Satz 8.8) Seien Df ⊂ R und
[a, b] ⊂ Df ein abgeschlossenes Intervall. Sei f : Df → R stetig auf [a, b] und differenzierbar auf dem offenen Intervall (a, b). Dann gelten die folgenden Aussagen:
(i) Die Funktion f ist genau dann monoton wachsend auf [a, b], wenn gilt f ′ (x) ≥ 0
für alle x ∈ (a, b).
(ii) Die Funktion f ist genau dann streng monoton wachsend auf [a, b], wenn gilt
f ′ (x) > 0 für alle x ∈ (a, b).
(iii) Die Funktion f ist genau dann monoton fallend auf [a, b], wenn gilt f ′ (x) ≤ 0 für
alle x ∈ (a, b).
(iv) Die Funktion f ist genau dann streng monoton fallend auf [a, b], wenn gilt
f ′ (x) < 0 für alle x ∈ (a, b).
(v) Gilt f ′ (x) = 0 für alle x ∈ (a, b), so ist die Funktion f auf [a, b] konstant.
Betrachten wir zwei Anwendungen von Satz 8.37.
Beispiel 8.38. (Anwendung von Satz 8.37) Wir wollen zeigen, dass gilt:
cos(x) ≥ 1 −
x2
2
für alle x ∈ R.
Beweis: Zunächst setzen wir
x2
;
2
dann ist zu zeigen, dass gilt f (x) ≥ 0 für alle x ∈ R. Da
f (x) = cos(x) − 1 +
(−x)2
x2
= cos(x) − 1 +
= f (x)
2
2
gilt, ist f eine gerade Funktion. Daher reicht es, f (x) ≥ 0 für x ≥ 0 zu zeigen.
f (−x) = cos(−x) − 1 +
Es gilt f (0) = cos(0) − 1 + 0 = 0 und
2 ′
′
2x
x
′
′
= − sin(x) − 0 +
= − sin(x) + x.
f (x) = cos(x) − (1) +
2
2
Aus Beispiel 8.36 wissen wir, dass gilt | sin(x)| ≤ |x| für alle x ∈ R. Insbesondere folgt
daraus
sin(x) ≤ | sin(x)| ≤ |x| = x
für alle x ≥ 0.
Also gilt sin(x) ≤ x für x ≥ 0 und äquivalent 0 ≤ − sin(x) + x für x ≥ 0. Damit folgt
f ′ (x) = − sin(x) + x ≥ 0
für alle x ≥ 0.
Nach Satz 8.37 ist f monoton wachsend auf [0, ∞). Also folgt f (x) ≥ f (0) = 0 für x ≥ 0,
und wegen f (−x) = f (x) folgt dann f (x) ≥ 0 für alle x ∈ R. Damit haben wir die
Abschätzung bewiesen.
214
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Beispiel 8.39. (Anwendung von Satz 8.37) Frage: Welche differenzierbaren Funktionen f : R → R genügen der Beziehung
f ′ (x) = a f (x)
mit einer Konstanten a ∈ R?
(8.15)
Wir wissen, dass gilt (ex )′ = ex , und nach der Kettenregel folgt (eax )′ = a eax , d.h. die
Funktionen
f (x) = c eax
mit einer beliebigen Konstanten c ∈ R
erfüllen die Gleichung (8.15).
Umgekehrt gilt die folgende Behauptung: Die einzigen differenzierbaren Funktionen
f : R → R, die (8.15) erfüllen, sind durch f (x) = c eax mit einer beliebigen Konstante c ∈ R gegeben.
Beweis: Gegeben sei eine differenzierbare Funktion f : R → R, die (8.15) erfüllt. Wir
setzen dann g(x) = f (x) · e−ax . Dann gilt nach der Produktregel und der Kettenregel
′
g ′(x) = f (x) e−ax = f ′ (x) e−ax + f (x) e−ax · (−a)
für alle x ∈ R,
= e−ax f ′ (x) − a f (x) = 0
|
{z
}
=0
wobei wir im letzten Schritt genutzt haben, dass wegen (8.15) gilt f ′ (x) − a f (x) = 0
gilt. Nach Satz 8.37 (v) folgt: g ist konstant, also g(x) = c für ein c ∈ R. Also ist
g(x) = f (x) e−ax = c und damit f (x) = c eax .
Wir haben also gezeigt: Ist a ∈ R gegeben, und f : R → R differenzierbar. Dann gilt:
f ′ (x) = a f (x) für alle x ∈ R
f (x) = c eax mit einer Konstanten c ∈ R .
⇐⇒
Eine weitere Folgerung aus dem Mittelwertsatz ist die Regel von der l’Hôspital.
Satz 8.40. (Regel von de l’Hôspital) Seien −∞ ≤ a < b ≤ ∞ und seien f : (a, b) → R
und g : (a, b) → R in (a, b) differenzierbar. Dann gelten die folgenden Aussagen:
(i) Es gelten g(x) 6= 0 und g ′ (x) 6= 0 für x ∈ (a, c) mit einem a < c ≤ b. Gilt
lim+ f (x) = 0
und
lim+ g(x) = 0 ,
x→a
oder gilt
x→a
lim |f (x)| = +∞
x→a+
und
und existiert der Grenzwert
lim+
x→a
so folgt
lim+
x→a
lim |g(x)| = +∞ ,
x→a+
f ′ (x)
,
g ′ (x)
f ′ (x)
f (x)
= lim+ ′
.
g(x) x→a g (x)
8. Ableitungen und Differenzieren
215
(ii) Eine analoge Aussage gilt für den Endpunkt b: Es gelten g(x) 6= 0 und g ′(x) 6= 0 für
x ∈ (d, b) mit einem a ≤ d < b. Gilt
und
lim− g(x) = 0 ,
lim− f (x) = 0
x→b
x→b
oder gilt
lim |f (x)| = +∞
lim |g(x)| = +∞ ,
und
x→b−
und existiert der Grenzwert
lim−
x→b
x→b−
f ′ (x)
,
g ′ (x)
so folgt
lim−
x→b
f ′ (x)
f (x)
= lim− ′
.
g(x) x→b g (x)
Wir halten als Sonderfall des Satzes von de l’Hôspital den Fall beidseitiger Grenzwerte
fest.
Satz 8.41. (Sonderfall der Regel von de l’Hôspital) An einer Stelle x0 ∈ (a, b)
gilt der zu Satz 8.40 analoge Satz mit den üblichen zweiseitigen Grenzwerten, denn für
x0 ∈ (a, b) können wir sowohl den linksseitigen Grenzwert als auch den rechtsseitigen
Grenzwert bilden und beide haben den gleichen Wert, wie der Grenzwert in x0 . Aus beiden
Fällen (i) und (ii) zusammen erhalten wir dann die entsprechenden Aussagen für die
Grenzwerte für x → x0 . Genauer:
Seien −∞ ≤ a < b ≤ ∞ und seien f und g in (a, b) differenzierbar.
Sei x0 ∈ (a, b), und
′
seien g(x) 6= 0 und g (x) 6= 0 für x ∈ (x0 − ε, x0 + ε) \ {x0 } ⊂ (a, b) mit einem ε > 0.
Gilt
lim f (x) = 0
und
lim g(x) = 0,
x→x0
x→x0
und existiert der Grenzwert
f ′ (x)
,
x→x0 g ′ (x)
lim
so folgt
lim
x→x0
f ′ (x)
f (x)
= lim ′
.
g(x) x→x0 g (x)
Betrachten wir einige Anwendungen der Regel von de l’Hôspital.
Beispiel 8.42. (Regel von de l’Hôspital) Wir wollen den Grenzwert
sin(x)
x→0
x
lim
bestimmen, sofern dieser Grenzwert existiert.
216
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Überprüfen wir zuerst, ob alle Bedingungen im Sonderfall des Satzes 8.40, also in Satz 8.41,
erfüllt sind: Es ist x0 = 0. Sowohl f (x) = sin(x) als auch g(x) = x sind auf R differenzierbar und es gelten g ′(x) = 1 6= 0 für x ∈ R und g(x) = x 6= 0 für alle x ∈ R \ {0}. Weiter
gilt
lim f (x) = lim sin(x) = 0
und
lim g(x) = lim x = 0,
x→0
x→0
x→0
x→0
und es existiert der Grenzwert
sin(x)
f ′ (x)
lim ′
= lim
x→0 g (x)
x→0
(x)′
Also gilt
′
cos(x)
= lim cos(x) = cos(0) = 1.
x→0
x→0
1
= lim
f (x)
f ′ (x)
sin(x)
= lim
= lim ′
=1
x→0 g(x)
x→0 g (x)
x→0
x
lim
nach dem Sonderfall (siehe Satz 8.41) der Regel von de l’Hôspital.
Beispiel 8.43. (Regel von de l’Hôspital) Wir wollen bestimmen, was
1 − cos(x)
x→0
x2
lim
ist, sofern dieser Grenzwert existiert.
Überprüfen wir zuerst die Voraussetzungen der Regel von de l’Hôspital in dem Spezialfall
in Satz 8.41: Es ist x0 = 0. Die Funktionen f (x) = 1 −cos(x) und g(x) = x2 sind beide auf
R differenzierbar, und es gelten g(x) = x2 6= 0 und g ′ (x) = 2 x 6= 0 für alle x ∈ R \ {0}.
Weiter gilt
lim f (x) = lim 1 − cos(x) = 1 − cos(0) = 1 − 1 = 0
und
lim g(x) = lim x2 = 0,
x→0
x→0
x→0
x→0
und es existiert der Grenzwert
1 − cos(x)
f ′ (x)
= lim
lim ′
x→0
x→0 g (x)
(x2 )′
′
sin(x)
sin(x)
sin(x)
1
1
1
= lim
= lim
= ·1= ,
x→0 2 x
x→0 2 x
2 x→0
2
| {z x } 2
=1
lim
wobei wir im letzten Schritt das Ergebnis von Beispiel 8.42 verwendet haben. Also folgt
1 − cos(x)
1
f (x)
f ′ (x)
=
lim
=
lim
= .
2
′
x→0
x→0
x→0
x
g(x)
g (x)
2
lim
Betrachten wir noch zwei weitere Beispiele für die Anwendung der Regel von de l’Hôspital,
in denen wir die Regel von de l’Hôspital wirklich in der Form von Satz 8.40 mit den
einseitigen Grenzwerten benötigen.
Beispiel 8.44. (Regel von de l’Hôspital) Wir wollen den Grenzwert
lim x ln(x)
x→0+
bestimmen, falls dieser existiert.
8. Ableitungen und Differenzieren
217
Dazu schreiben wir diesen zunächst als
lim+ x ln(x) = lim+
x→0
x→0
ln(x)
,
1/x
und wir bemerken, dass der Zähler f (x) = ln(x) und der Nenner g(x) = 1/x auf (0, ∞)
differenzierbar sind. Hier ist in Satz 8.40 also der Endpunkt a = 0 für das Intervall
(a, b) = (0, ∞). Weiter gelten g(x) = 1/x 6= 0 und g ′ (x) = −1/x2 6= 0 für alle x ∈ (0, ∞),
und
1
und
lim+ |g(x)| = lim+ = +∞,
lim+ |f (x)| = lim+ | ln(x)| = +∞
x→0
x→0
x→0
x→0
x
und der Grenzwert
′
ln(x)
1/x
1 x2
f ′ (x)
= lim+
= lim+
= lim+ ·
= lim+ −x = 0
lim
x→0
x→0 −1/x2
x→0 x (−1)
x→0
x→0+ g ′ (x)
(1/x)′
existiert. Also ist nach der Regel von de l’Hôspital
lim x ln(x) = 0.
x→0+
Beispiel 8.45. (Regel von de l’Hôspital) Wir wollen den Grenzwert von
lim
x→+∞
−16 x + 5
7 x2 + 6
finden, sofern dieser existiert.
Hier ist im Satz 8.40 (ii) der Endpunkt b = ∞. Die Funktionen f (x) = −16 x + 5 und
g(x) = 7 x2 + 6 sind beide auf R differenzierbar, und es gelten
g ′(x)
p
p = 14 x 6= 0 für alle
2
x ∈ R \ {0} und g(x) = 7 (x − 6/7) 6= 0 für alle x ∈ R \ { 6/7, − 6/7}. Weiter ist
lim |f (x)| = lim −16 x+5 = +∞
und
lim |g(x)| = lim 7 x2 +6 = +∞.
x→+∞
x→+∞
x→+∞
x→+∞
Ferner existiert der Grenzwert
− 16 x + 5
f ′ (x)
lim ′
= lim
′
x→+∞ g (x)
x→+∞
7 x2 + 6
′
−16
= 0.
x→+∞ 14 x
= lim
Also gilt nach der Regel von de l’Hôspital
lim
x→+∞
−16 x + 5
= 0.
7 x2 + 6
In bestimmten Situationen muss man die Regel von de l’Hôspital mehrfach anwenden.
Betrachten wir hierzu auch noch ein Beispiel.
Beispiel 8.46. (wiederholte Anwendung der Regel von de l’Hôspital) Wir wollen
zeigen, dass gilt
x2
lim x = 0.
x→+∞ e
218
8.4. Mittelwertsatz der Differentialrechnung und Folgerungen
Zunächst überprüfen wir die Voraussetzungen der Regel von de l’Hôspital: Wir sehen,
dass f (x) = x2 und g(x) = ex auf R differenzierbar sind, und es gelten g(x) = ex 6= 0 und
g ′(x) = ex 6= 0 für alle x ∈ R. Weiter gilt
lim |f (x)| = lim |x2 | = +∞
x→+∞
x→+∞
Wenn der Grenzwert
und
lim |g(x)| = lim |ex | = +∞.
x→+∞
x→+∞
′
x2
f ′ (x)
2x
lim
= lim
′ = lim x
x→+∞ g ′ (x)
x→+∞ e
x→+∞ ex
(8.16)
existiert, dann folgt nach der Regel von de l’Hôspital
x2
2x
= lim x .
x
x→+∞ e
x→+∞ e
lim
Bei dem Grenzwert (8.16) befinden uns wieder in einer Situation, in der wir die Regel
von de l’Hôspital (erneut) anwenden können: Die Funktionen h(x) = f ′ (x) = 2 x und
k(x) = g ′ (x) = ex sind auf R differenzierbar, und es gilt k(x) = ex 6= 0 und k ′ (x) = ex 6= 0
für alle x ∈ R. Weiter gilt
lim |h(x)| = lim |2 x| = +∞
x→+∞
Da der Grenzwert
x→+∞
und
lim |k(x)| = lim |ex | = +∞.
x→+∞
x→+∞
′
2x
h′ (x)
2
lim ′
= lim
′ = lim x = 0
x→+∞ k (x)
x→+∞ ex
x→+∞ e
(8.17)
existiert, folgt also durch zweifaches Anwenden des Satzes von de l’Hôspital aus (8.16)
und (8.17)
x2
2x
2
lim x = lim x = lim x = 0.
x→+∞ e
x→+∞ e
x→+∞ e
Zum Abschluss beweisen wir noch eine der Aussagen in Satz 8.8 (siehe auch Satz 8.37) mit
Hilfe des Mittelwertsatzes, um zu sehen, wie der Mittelwertsatz in Beweisen eingesetzt
wird.
Beweis von Beweis von (i) in Satz 8.8 (siehe auch Satz 8.37). Da es sich um eine
genau dann wenn“-Aussage handelt müssen wir beide Richtungen zeigen.
”
• Sei also f auf [a, b] monoton wachsend. Dann gilt per Definition für alle x1 , x2 ∈ [a, b]
mit x1 < x2 , dass
f (x1 ) ≤ f (x2 )
⇐⇒
f (x1 )−f (x2 ) ≤ 0
⇐⇒
f (x2 )−f (x1 ) ≥ 0. (8.18)
Insbesondere folgt aus (8.18) für x2 = x + h und x1 = x mit h > 0, dass gilt
f (x + h) − f (x)
≥ 0 für alle h > 0. (8.19)
f (x + h) − f (x) ≥ 0 : h
⇐⇒
h
Ebenso folgt aus (8.18) für x1 = x + h und x2 = x mit h < 0, dass gilt
f (x + h) − f (x)
f (x + h) − f (x) ≤ 0 : h
⇐⇒
≥ 0 für alle h < 0. (8.20)
h
8. Ableitungen und Differenzieren
219
Aus (8.19) und (8.20) sieht man, dass der Differenzenquotient immer nicht-negativ ist.
Daher muss auch der Differentialquotient, also die Ableitung f ′ (x), immer nicht-negativ
sein, und wir haben f ′ (x) ≥ 0 bewiesen.
• Sei nun umgekehrt f ′ (x) ≥ 0 für alle x ∈ (a, b). Um zu zeigen, dass f auf [a, b] monoton
wachsend ist, müssen wir nachweisen, dass für jedes x1 , x2 ∈ [a, b] mit x1 < x2 gilt
f (x1 ) ≤ f (x2 ). Seien also im Mittelwertsatz in (8.13) c = x1 und d = x2 . Dann gilt für
eine Zwischenstelle x0 ∈ (x1 , x2 )
f (x2 ) − f (x1 )
= f ′ (x0 ) ≥ 0,
x2 − x1
und wegen x2 − x1 > 0 folgt durch Multiplizieren mit (x2 − x1 ), dass f (x2 ) − f (x1 ) ≥ 0,
also f (x2 ) ≥ f (x1 ) ⇔ f (x1 ) ≤ f (x2 ), gilt. Also ist f monoton wachsend auf [a, b].
Damit haben wir beide Richtungen der genau dann wenn“-Aussage bewiesen.
”
8.5
Extrema und Wendepunkte
Zuletzt diskutieren wir die Themen, die Sie aus der Schule vermutlich mit dem Thema
Kurvendiskussion verbinden. In Satz 8.8 haben wir bereits gelernt, wie wir das Wachstumsverhalten einer Funktion mit Hilfe der (ersten) Ableitung charakterisieren können. Im
Folgenden lernen wir nun lokale Extrema (also lokale Minima oder Maxima), Krümmung
und Wendepunkte einer Funktion kennen. Diese werden mit Hilfe der der ersten und
der zweiten und gegebenenfalls auch noch höherer Ableitungen einer Funktion bestimmt.
Mit diesem Begriffen können wir dann den Graphen einer Funktion relativ vollständig
charakterisieren.
Zunächst führen wir den Begriff lokales Minimum bzw. lokales Maximum ein.
Definition 8.47. (lokales Maximum/Minimum und lokales Extremum) Seien
f : (a, b) → R eine Funktion und x0 ∈ (a, b).
(i) Dann hat f in x0 ein lokales Maximum, falls ein Intervall I = (x0 − ε, x0 + ε) ⊂
(a, b) existiert, so dass gilt
f (x) ≤ f (x0 )
für alle x ∈ I.
Sind die Ungleichungen für x 6= x0 streng, also gilt f (x) < f (x0 ) für alle x ∈ I \{x0 },
so spricht man von einem strengen lokalen Maximum in x0 .
(ii) Dann hat f in x0 ein lokales Minimum, falls ein Intervall I = (x0 − ε, x0 + ε) ⊂
(a, b) existiert, so dass gilt
f (x) ≥ f (x0 )
für alle x ∈ I.
Sind die Ungleichungen für x 6= x0 streng, also gilt f (x) > f (x0 ) für alle x ∈ I \{x0 },
so spricht man von einem strengen lokalen Minimum in x0 .
220
8.5. Extrema und Wendepunkte
Abb. 8.6: Die Graphen von f (x) = x2 (links), f (x) = x3 (Mitte) und f (x) = x4 (rechts).
Unter dem Begriff (strenges) lokalen Extremum versteht man ein (strenges) lokales
Minimum oder (strenges) ein lokales Maximum.
Um die Extrema einer differenzierbaren Funktion zu finden, verwendet man den folgenden
Satz.
Satz 8.48. (Bedingung für ein lokales Extremum) Sei f : (a, b) → R auf einem
Intervall I = (x0 − ε, x0 + ε) ⊂ (a, b) differenzierbar.
(i) Hat f in x0 in lokales Extremum, so gilt f ′ (x0 ) = 0.
(ii) Gilt f ′ (x0 ) = 0 und f ′′ (x0 ) 6= 0, so besitzt f im Punkt x0 ein strenges lokales
Extremum und zwar ein strenges lokales Maximum falls f ′′ (x0 ) < 0 bzw. ein
strenges lokales Minimum falls f ′′ (x0 ) > 0.
(iii) Gilt f ′ (x0 ) = 0 und f ′′ (x0 ) = 0, so können wir keine Aussage treffen: f kann in x0
ein lokales Minimum oder ein lokales Maximum oder keines von beiden haben.
Beispiel 8.49. (strenges lokales Minimum) Am Graphen der Funktion f : R → R,
f (x) = x2 , (siehe linkes Bild in Abbildung 8.6) sieht man, dass die Funktion f (x) = x2 in
x = 0 ein strenges lokales (und auch strenges globales) Minimum.
Dies zeigt man wie folgt: Da in allen Extrema x0 nach Satz 8.48 (i) gilt, dass f ′ (x0 ) = 0,
bestimmen wir zuerst die Nullstellen der ersten Ableitung f ′ (x) = 2 x. Also
f ′ (x) = 2 x = 0
=⇒
x = 0.
Nun berechnen wir die zweite Ableitung: Wir finden f ′′ (x) = 2, und insbesondere gilt
f ′′ (0) = 2 > 0. Also liegt nach Satz 8.48 (ii) in x0 = 0 ein strenges lokales Minimum vor.
Bevor wir ein weiteres Beispiel betrachten, halten wir unsere allgemeine Vorgehensweise zum Finden lokaler Extrema kurz fest:
8. Ableitungen und Differenzieren
221
(1) Zuerst bestimmen wir alle Nullstellen der ersten Ableitung. (Erklärung: Nach
Satz 8.48 (i) wissen wir, dass in dem Punkt x0 eines lokalen Extremums gilt f ′ (x0 ) = 0.
Also haben wir mit den Nullstellen der ersten Ableitung alle möglichen Kandidaten
für lokale Extrema identifiziert.)
(2) Dann berechnen wir die zweite Ableitung f ′′ (x0 ) für alle x0 mit f ′ (x0 ) = 0.
• Gilt f ′′ (x0 ) < 0, so liegt in x0 ein strenges lokales Maximum vor.
• Gilt f ′′ (x0 ) > 0, so liegt in x0 ein strenges lokales Minimum vor.
• Gilt f ′′ (x0 ) = 0, so haben wir keine Informationen darüber, ob ein lokales Extremum vorliegt.
Bemerkung 8.50. (Nicht alle Nullstellen der Ableitung sind Extrema) Die Bedingung f ′ (x0 ) = 0 ist notwendig für ein Extremum in x0 , aber sie ist nicht hinreichend, d.h. x0 muss dann kein lokales Extremum sein! Z.B. hat f : R → R, f (x) = x3 ,
kein Extremum in x0 = 0, obwohl f ′ (x) = 3 x2 ist und damit f ′ (0) = 0 gilt. Dass f (x) = x3
in x0 = 0 kein lokales Extremum hat, sieht man daran, dass
f (−x) = (−x)3 = −x3 < 0 = f (0) < x3
für alle x > 0.
Wir haben im mittleren Bild in Abbildung 8.6 den Graphen von f (x) = x3 gezeichnet.
Betrachten wir noch ein weiteres Beispiel, an dem man sieht, dass wir mit den Informationen aus Satz 8.48 nicht alle Extrema erfassen.
Beispiel 8.51. (Satz 8.48 erfasst das Extremum nicht) Betrachten wir die Funktion
f : R → R, f (x) = x4 , so sieht man wegen
f (0) = 04 = 0 < (x2 )2 = x4 = f (x)
für alle x ∈ R \ {0}
sofort, dass die Funktion f (x) = x4 in x0 = 0 ein strenges lokales (und sogar ein strenges
globales) Minimum hat. Dies sieht man auch direkt am Graphen der Funktion (siehe
rechtes Bild in Abbildung 8.6). Allerdings erhalten wir für die erste und zweite Ableitung
f ′ (x) = 4 x3 und f ′′ (x) = 12 x2 , und es gilt somit f ′ (0) = 4·03 = 0 und f ′′ (0) = 12·02 = 0.
Mit Satz 8.48 können wir die Existenz des strengen lokalen Minimums in x0 = 0 nicht
nachweisen.
Das letzte Beispiel macht klar, dass wir noch weitere Informationen für die Kurvendiskussion brauchen.
Definition 8.52. (Krümmung und Wendepunkt) Sei f : (a, b) → R eine mindestens
zweimal differenzierbare Funktion, und sei (c, d) ⊂ (a, b).
(i) Ist f ′′ (x) > 0 für alle x ∈ (c, d), so ist der Graph von f auf (c, d) linksgekrümmt.
(ii) Ist f ′′ (x) < 0 für alle x ∈ (c, d), so ist der Graph von f auf (c, d) rechtsgekrümmt.
(iii) Ein Punkt x0 in dem die Krümmung wechselt heißt Wendepunkt. Konkreter bedeutet dies, dass ein Punkt x0 ein Wendepunkt ist, wenn die zweite Ableitung f ′′ in x0
222
8.5. Extrema und Wendepunkte
ihr Vorzeichen ändert, d.h. wenn in einem geeigneten Intervall (x0 −ε, x0 +ε) ⊂ (a, b)
gilt:
f ′′ (x) < 0 für alle x ∈ (x0 − ε, x0 )
und
und
f ′′ (x0 ) = 0
f ′′ (x) > 0 für alle x ∈ (x0 , x0 + ε),
oder
f ′′ (x) > 0 für alle x ∈ (x0 − ε, x0 )
und
und
f ′′ (x0 ) = 0
f ′′ (x) < 0 für alle x ∈ (x0 , x0 + ε).
In Abbildung 8.7 sind ein Maximums, ein Minimum und ein Wendepunkt sowie ihr Zusammenhang mit rechtsgekrümmt und linksgekrümmt veranschaulicht.
y
lokales Maximum
Wendepunkt
rechtsgekrümmt
linksgekrümmt
y = f (x)
lokales Minimum
x
x0
Abb. 8.7: Veranschaulichung von Extrema, Krümmung und Wendepunkt.
Betrachten wir zunächst noch einmal ein einfaches Beispiel, um ein Verständnis für die
Begriffe Krümmung und Wendepunkt zu bekommen.
Beispiel 8.53. (Krümmung und Wendepunkt) Betrachten wir die Funktion
f : R → R, f (x) = x3 , deren erste Ableitung wir bereits in Bemerkung 8.50 betrachtet hatten. Wir berechnen nun noch die zweite und dritte Ableitung
f ′ (x) = 3 x2 ,
f ′′ (x) = 6 x,
f ′′′ (x) = 6.
Wir haben für x0 = 0 also f ′′ (0) = 6 · 0 = 0, d.h. x0 = 0 ist ein Kandidat für einen
Wendepunkt. Wegen
f ′′ (x) = 6 x < 0 für alle x < 0
und
f ′′ (x) = 6 x > 0 für alle x > 0 (8.21)
8. Ableitungen und Differenzieren
223
wechselt die zweite Ableitung bei x0 = 0 auch tatsächlich ihr Vorzeichen. Also ist x0 = 0
ein Wendepunkt. Wir lesen aus (8.21) weiter ab, dass f (x) = x3 für x < 0 rechtsgekrümmt
und für x > 0 linksgekrümmt ist.
Wir überlegen uns für dieses Beispiel noch, was wir aus der dritten Ableitung f ′′′ (0) =
6 > 0 lernen können: Die dritte Ableitung f ′′′ gibt uns Informationen über das Wachstum
bzw. Monotonieverhalten der zweiten Ableitung f ′′ . f ′′′ (0) = 6 > 0 bedeutet, dass die
zweite Ableitung f ′′ in x0 = 0 monoton wachsend ist. Da f ′′ (0) = 0 können wir daraus
schliessen, dass für x < 0 und dicht bei x0 = 0 gilt f ′′ (x) < 0 und dass für x > 0 und dicht
bei x0 = 0 gilt f ′′ (x) > 0. Also können wir aus f ′′′ (0) = 6 > 0 ebenfalls schliessen, dass die
zweite Ableitung f ′′ einen Vorzeichenwechsel hat und dass daher x0 = 0 ein Wendepunkt
von f (x) = x3 ist.
Die Idee zur Bestimmung eines Wendepunkts mit Hilfe der dritten Ableitung, die wir im
letzten Beispiel entdeckt haben, gilt allgemein, wie der nächste Satz zeigt.
Satz 8.54. (Bedingungen für einen Wendepunkt) Sei f : (a, b) → R eine mindestens
dreimal differenzierbare Funktion, und sei x0 ∈ (a, b). Dann gilt:
(i) Hat f in x0 einen Wendepunkt, so gilt f ′′ (x0 ) = 0.
(ii) Gilt f ′′ (x0 ) = 0 und f ′′′ (x0 ) 6= 0, so hat f in x0 einen Wendepunkt.
Wichtig ist im vorigen Satz, dass aus f ′′ (x0 ) = 0 nur folgt, dass x0 ein möglicher Kandidat für einen Wendepunkt ist. Erst mit der dritten Ableitung überprüfen wir, ob wirklich
ein Wendepunkt vorliegt.
Wir üben dies nun an einem etwas komplizierteren Beispiel.
Beispiel 8.55. (Extrema und Wendepunkte) Wir wollen alle Extrema und Wendepunkte sowie die Krümmung der Funktion f : R → R, f (x) = x e−x , bestimmen.
Zunächst berechnen wir die erste Ableitung und finden deren Nullstellen: Nach der Produktregel und der Kettenregel gilt
′
f ′ (x) = x e−x = e−x + x e−x · (−1) = (1 − x) e−x ,
und aus f ′ (x) = (1 − x) e−x = 0 folgt 1 − x = 0 also x = 1 (da e−x 6= 0 für alle x ∈ R).
Also ist x0 = 1 der einzige Kandidat für ein Extremum.
Nun berechnen wir die zweite Ableitung. Mit der Produktregel und der Kettenregel gilt:
′
f ′′ (x) = (1 − x) e−x = −e−x + (1 − x) e−x · (−1) = −e−x − e−x + x e−x = (x − 2) e−x .
Für x0 = 1 finden wir f ′′ (1) = (1 − 2) e−1 = −e−1 < 0. Also hat f (x) = x e−x in x0 = 1
ein strenges
lokales Maximum. Die Koordinaten dieses strengen lokalen Maximums sind
1, f (1) = (1, e−1 ).
Weiter sehen wir an f ′′ (x) = (x − 2) e−x , dass f ′′ (x) < 0 wenn x < 2 und f ′′ (x) > 0 wenn
x > 2 ist. Also ist f für x < 2 rechtsgekrümmt und für x > 2 linksgekrümmt.
224
8.5. Extrema und Wendepunkte
Um Kandidaten für Wendepunkte zu finden, berechnen wir die Nullstellen der zweiten
Ableitung: Aus f ′′ (x) = (x − 2) e−x = 0 folgt x − 2 = 0, also x = 2. Daher ist x1 = 2
der einzige Kandidat für einen Wendepunkt. Da gilt f ′′ (x) < 0 für x < 2 und f ′′ (x) > 0
für x > 2, hat die zweite Ableitung in x1 = 2 einen Vorzeichenwechsel. Also liegt bei
2, f (2) = (2, 2 e−2) ein Wendepunkt vor.
Alternativ können wir den Wendepunkt in x1 = 2 auch mit der dritten Ableitung nachweisen: Wir berechnen dazu die dritte Ableitung mit der Produktregel und Kettenregel,
also
′
f ′′′ (x) = (x − 2) e−x = e−x + (x − 2) e−x · (−1) = e−x − x e−x + 2 e−x = (3 − x) e−x ,
und für x1 = 2 finden wir f ′′′ (2) = (3 − 2) e−2 = e−2 > 0. Also hat f einen Wendepunkt
in x1 = 2.
Der Graph der Funktion f (x) = x e−x ist in Abbildung 8.8 gezeichnet.
Abb. 8.8: Der Graph von f (x) = x e−x .
Wir kommen nun auf Beispiel 8.51 zurück, in welchen wir die Funktion f (x) = x4 betrachtet hatten, deren strenges lokales Minimum in x0 = 0 wir bisher nur direkt mit
der Definition eines strengen lokalen Minimums aber bis jetzt nicht über die Analyse der
zweiten und höheren Ableitungen bestimmen können. Der nächste Satz liefert uns eine
Möglichkeit dieses Minimum mit höheren Ableitungen nachzuweisen.
Satz 8.56. (Test für Extrema mit Ableitungen gerader Ordnung) Sei f : (a, b) → R
eine hinreichend oft differenzierbare Funktion und sei x0 ∈ (a, b). Gilt f ′ (x0 ) = 0 und gilt
außerdem
f ′′ (x0 ) = f ′′′ (x0 ) = . . . = f (n−1) (x0 ) = 0
und
f (n) (x0 ) 6= 0
(8.22)
8. Ableitungen und Differenzieren
225
für ein gerades n ≥ 2, dann hat f ein lokales Maximum in x0 , wenn gilt f (n) (x0 ) < 0,
und f hat ein lokales Minimum in x0 , wenn gilt f (n) (x0 ) > 0. (Mit hinreichend oft
”
differenzierbar“ ist gemeint, dass f auf (a, b) so oft differenzierbar ist, dass die Ableitungen
in (8.22) alle existieren.)
Wir bemerken, dass Satz 8.56 den Satz 8.48 als Sonderfall enthält: Ist in Satz 8.56
die gerade Zahl n ≥ 2 die Zahl n = 2, so bekommen wir genau die Aussage von Satz 8.48.
Mit Satz 8.56 können nun auch das Minimum von f (x) = x4 in x0 = 0 mittels höherer
Ableitungen nachweisen.
Beispiel 8.57. (Test für Extrema mit Ableitungen gerader Ordnung) Betrachten wir f : R → R, f (x) = x4 . Wir hatten bereits die erste und zweite Ableitung in
Beispiel 8.51 berechnet und berechnen nun noch die dritte und vierte Ableitung:
f ′ (x) = 4 x3 ,
f ′′ (x) = 12 x2 ,
f ′′′ (x) = 12 · 2 · x = 24 x,
f (4) (x) = 24.
Wir finden also für x0 = 0, dass gilt f ′ (0) = 4 · 03 = 0 und
f ′′ (0) = 12 · 02 = 0,
f ′′′ (0) = 24 · 0 = 0
und
f (4) (0) = 24 > 0.
Da 4 gerade ist können wir den Satz 8.56 anwenden, und wir lesen ab, dass f (x) = x4 in
x0 = 0 ein lokales Minimum hat.
Führen wir abschließend noch eine Kurvendiskussion für ein komplizierteres Beispiel
durch, bei der wir unser neues Wissen anwenden können.
Abb. 8.9: Der Graph von f (x) = x (x − 1)4 .
226
8.5. Extrema und Wendepunkte
Beispiel 8.58. (Kurvendiskussion) Wir wollen die Funktion
f : R → R,
f (x) = x (x − 1)4 ,
analysieren und skizzieren.
Lösung: Das Polynom f (x) = x (x − 1)4 hat die Nullstellen x = 0 und x = 1, d.h. es
schneidet die x-Achse in diesen Punkten.
Wir berechnen nun mit der Produktregel die erste Ableitung von f :
f ′ (x) = (x − 1)4 + x 4 (x − 1)3 = (x − 1)3 (x − 1 + 4 x) = (x − 1)3 (5 x − 1),
und wir sehen, dass f ′ (x) = 0 für x0 = 1/5 und x1 = 1 gilt. Diese beiden Punkte sind
unsere beiden Kandidaten für lokale Extrema.
Wir berechnen nun die zweite Ableitung von f :
′
f ′′ (x) = (x − 1)3 (5 x − 1) = 3 (x − 1)2 (5 x − 1) + (x − 1)3 5
= (x − 1)2 (15 x − 3 + 5 x − 5) = (x − 1)2 (20 x − 8) = 4 (x − 1)2 (5 x − 2).
Wir finden für x0 = 1/5 = 0, 2
′′
f (1/5) = 4
1
−1
5
2
2 1
4
64
16
5· −2 = 4 −
(−1) = −
< 0,
(−1) = 4 ·
5
5
25
25
d.h. f hat ein strenges lokales Maximum
in x0 = 1/5. Die Koordinaten dieses strengen
lokalen Maximums sind 1/5, f (1/5) = (1/5, 44/55 ) ≈ (0, 2, 0, 08).
Für x1 = 1 finden wir dagegen f ′′ (1) = 0.
Wir berechnen nun die dritte Ableitung von f :
′
f (3) (x) = 4 (x − 1)2 (5 x − 2) = 8 (x − 1) (5 x − 2) + 4 (x − 1)2 5
= 4 (x − 1) (10 x − 4 + 5 x − 5) = 4 (x − 1) (15 x − 9) = 12 (x − 1) (5 x − 3),
und wir sehen, dass f (3) (1) = 0 gilt. Wir berechnen nun die vierte Ableitung und finden
′
f (4) (x) = 12 (x − 1) (5 x − 3) = 12 (5 x − 3) + 12 (x − 1) 5
= 12 (5 x − 3 + 5 x − 5) = 12 (10 x − 8) = 24 (5 x − 4).
Nun gilt für x1 = 1
f (4) (1) = 24 (5 − 4) = 24 > 0,
und nach Satz 8.56 wissen wir, dass f in x1 = 1 ein strenges lokales
Minimum annimmt.
Die Koordinaten dieses strengen lokalen Minimums sind 1, f (1) = (1, 0).
Wir wollen nun noch die Wendepunkte der Funktion f bestimmen. Die Gleichung f ′′ (x) = 0
liefert als Kandidaten für Wendepunkte:
f ′′ (x) = 4 (x − 1)2 (5 x − 2) = 0
=⇒
x1 = 1 oder x2 =
2
= 0, 4.
5
8. Ableitungen und Differenzieren
227
Da f in x1 = 1 ein strenges lokales Minimum hat, ist der Punkt x1 = 1 kein Wendepunkt.
In x2 = 2/5 = 0, 4 wechselt die zweite Ableitung f ′′ ihr Vorzeichen, denn (x − 1)2 > 0
für x 6= 1 und (5 x − 2) wechselt sein Vorzeichen in x2 = 2/5. Alternativ können wir die
dritte Ableitung in x2 = 2/5 auswerten:
2
36
2
3
(3)
f (2/5) = 12
· (−1) =
−1
5 · − 3 = 12 · −
6= 0.
5
5
5
5
Also können wir auch an der dritten Ableitung ablesen, dass x2 = 2/5 ein Wende
punkt ist. Die Koordinaten dieses Wendepunktes sind 2/5, f (2/5) = 2/5, (2 · 34)/55 ≈
(0, 4, 0, 05).
Wegen
f ′′ (x) = 4 (x − 1)2 (5 x − 2)
| {z }
≥0
folgt, dass f ′′ (x) < 0 wenn x < 2/5 ist und dass f ′′ (x) > 0 wenn 2/5 < x < 1 oder
x > 1 ist. Also ist f auf (−∞, 2/5) rechtsgekrümmt und auf (2/5, 1) und (1, ∞) jeweils
linksgekrümmt.
Um f gut skizzieren zu können, bestimmen wir noch die uneigentlichen Grenzwerte für x
gegen +∞ und x gegen −∞. Wir haben
2
f (x) = x (x − 1)4 = x (x − 1)2 ,
| {z }
>0
d.h. das Vorzeichen von x bestimmt das Vorzeichen von f (x). Also finden wie die uneigentlichen Grenzwerte
lim f (x) = lim x (x − 1)4 = −∞
x→−∞
x→−∞
und
lim f (x) = lim x (x − 1)4 = +∞.
x→+∞
x→+∞
Wir haben die Funktion f (x) = x (x − 1)4 in Abbildung 8.9 gezeichnet.
8.6
Taylorsche Formel, Taylorreihen und Potenzreihen
Mit der Taylorschen Formel können wir Funktionen lokal in der Umgebung eines Punktes x0 durch ein geeignetes Polynom, das sogenannte Taylorpolynom um x0 angenähert
darstellen, also approximieren.
Satz 8.59. (Taylorsche Formel) Sei f : (a, b) → R eine in (a, b) (n + 1)-mal differenzierbare Funktion, und sei x0 ∈ (a, b). Dann gilt für jedes x ∈ (a, b)
f ′ (x0 )
f ′′ (x0 )
f (n) (x0 )
f (x) = f (x0 ) +
(x − x0 )1 +
(x − x0 )2 + . . . +
(x − x0 )n +rn (x)
1!
2!
n!
|
{z
}
= Tn (f, x0 )(x) = Taylorpolynom von f vom Grad n um x0
228
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
=
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k + rn (x)
mit dem Restterm
rn (x) =
f (n+1) (ξx )
(x − x0 )n+1
(n + 1)!
mit einem von x abhängigen Punkt ξx ∈ (x, x0 ) wenn x < x0 bzw. ξx ∈ (x0 , x) wenn
x > x0 .
Die Taylorpolynome in x0 sind nützlich, um eine Funktion für x dicht bei x0 durch Polynome zu approximieren, d.h. angenähert zu berechnen. Häufig kann man mit der angenäherten Darstellung durch ein Polynom sehr viel einfacher arbeiten und verliert dabei
nur wenig an Genauigkeit. Betrachten wir zunächst ein Beispiel.
Abb. 8.10: Die Graphen von f (x) = ex (schwarz) und seinen Taylorpolynome um x0 = 0
vom Grad n = 1 (rot) und n = 2 (blau) und n = 3 (grün).
8. Ableitungen und Differenzieren
229
Beispiel 8.60. (Approximation von exp(±1/2) mit Taylorpolynomen um x0 = 0)
Wir wollen die (natürliche) Exponentialfunktion exp : R → R, exp(x) = ex , durch ihre
Taylorpolynome vom Grad n = 1, n = 2 und n = 3 um x0 = 0 approximieren und diese
Näherungen benutzen, um exp(1/2) und exp(−1/2) angenähert zu berechnen.
Lösung: Wegen exp′ (x) = (ex )′ = ex = exp(x) finden wir für alle Ableitungen der Exponentialfunktion exp(k) (x) = ex , k ∈ N0 , und damit exp(k) (0) = e0 = 1 für alle k ∈ N0 .
Also finden wir für die Taylorpolynome von exp(x) = ex vom Grad n = 1 und n = 2 um
x0 = 0:
exp′ (0)
x
(x − 0) = 1 + = 1 + x,
1!
1!
′′
′
exp (0)
x
x2
x2
exp (0)
(x − 0) +
(x − 0)2 = 1 + +
= 1+x+
,
T2 (exp, 0)(x) = exp(0) +
1!
2!
1! 2!
2
exp′ (0)
exp′′ (0)
exp(3) (0)
T3 (exp, 0)(x) = exp(0) +
(x − 0) +
(x − 0)2 +
(x − 0)3
1!
2!
3!
2
3
2
3
x
x
x
x
x
= 1+ +
+
=1+x+
+
.
1! 2!
3!
2
6
T1 (exp, 0)(x) = exp(0) +
Einsetzen von x = 1/2 und x = −1/2 liefert die Näherungen
3
1
= = 1, 5,
2
2
1
1
T1 (exp, 0)(−1/2) = 1 − = = 0, 5,
2
2
1 1
8+4+1
13
1 (1/2)2
=1+ + =
=
= 1, 625,
T2 (exp, 0)(1/2) = 1 + +
2
2
2 8
8
8
1 (−1/2)2
1 1
8−4+1
5
T2 (exp, 0)(−1/2) = 1 − +
=1− + =
= = 0, 625,
2
2
2 8
8
8
2
3
(1/2)
1 1
1
1 (1/2)
+
=1+ + +
T3 (exp, 0)(1/2) = 1 + +
2
2
6
2 8 48
48 + 24 + 6 + 1
79
=
=
≈ 1, 6458,
48
48
1 1
1
1 (−1/2)2 (−1/2)3
+
=1− + −
T3 (exp, 0)(−1/2) = 1 − +
2
2
6
2 8 48
29
48 − 24 + 6 − 1
=
≈ 0, 60417.
=
48
48
T1 (exp, 0)(1/2) = 1 +
Ein Vergleich mit den wahren“ (mit dem Taschenrechner berechneten) Werten
”
exp(1/2) = e1/2 ≈ 1, 6487
und
exp(−1/2) = e−1/2 ≈ 0, 60653,
liefert die Fehler
|T1 (exp, 0)(1/2) − exp(1/2)| ≈ |1, 5 − 1, 6487| = 0, 1487,
|T1 (exp, 0)(−1/2) − exp(−1/2)| ≈ |0, 5 − 0, 60653| = 0, 10653,
|T2 (exp, 0)(1/2) − exp(1/2)| ≈ |1, 625 − 1, 6487| = 0, 0237,
230
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
|T2 (exp, 0)(−1/2) − exp(−1/2)| ≈ |0, 625 − 0, 60653| = 0, 01847,
|T3 (exp, 0)(1/2) − exp(1/2)| ≈ |1, 6458 − 1, 6487| = 0, 0029,
|T3 (exp, 0)(−1/2) − exp(−1/2)| ≈ |0, 60417 − 0, 60653| = 0, 00236.
(8.23)
(8.24)
Wir sehen, dass wir bereits für die Taylorpolynome um x0 vom Grad n = 2 und n = 3
ziemlich gute Näherungen für exp(1/2) und exp(−1/2) erhalten. In Abbildung 8.10 haben
wir die Graphen von exp(x) = ex und seinen Taylorpolynome in x0 = 0 vom Grad
n = 1, 2, 3 gezeichnet.
Kommen wir noch einmal zum Satz 8.59 zurück und betrachten wir die Darstellung von
f mit Hilfe des Taylorpolynoms um x0 :
f (x) = Tn (f, x0 )(x) + rn (x) = Tn (f, x0 )(x) +
f (n+1) (ξx )
(x − x0 )n+1
(n + 1)!
|
{z
}
= rn (x)
mit einem Punkt ξx zwischen x und x0 , den wir aber nicht kennen. Damit haben wir für
den Fehler der Annäherung durch das Taylorpolynom Tn (f, x0 )(x)
(n+1)
(ξx )
n+1 f (x) − Tn (f, x0 )(x) = |rn (x)| = f
(n + 1)! (x − x0 ) .
Für x dicht bei x0 können wir diesen Fehler angenähert berechnen, indem wir ξx durch
x0 ersetzen. Damit erhalten wir die folgende Faustregel:
f (n+1) (x0 )
n+1
f (x) − Tn (f, x0 )(x) ≈ für x dicht bei x0 .
(x
−
x
)
0
(n + 1)!
Betrachten wir diese Faustregel für das vorige Beispiel für die Approximation mit T3 (exp, 0)(x).
Beispiel 8.61. (Beispiel 8.60 fortgesetzt) Im Beispiel 8.60 finden wir für die Approximation von exp(±1/2) durch T3 (exp, 0)(±1/2)
4 4 exp(4) (0) 1
1
1 1 exp(1/2) − Tn (f, x0 )(1/2) ≈ −0 =
≈ 0, 0026042,
=
24 2 384
4!
2
4 4 exp(4) (0)
1
1 1
1
exp(−1/2) − Tn (f, x0 )(1/2) ≈ − −0 =
−
≈ 0, 0026042.
=
24
4!
2
2 384
Dies ist in der Tat eine recht gute Abschätzung für die realen Fehler (8.23) und (8.24).
Betrachten wir ein weiteres Beispiel.
Beispiel 8.62. (Approximation von sin(π/10) mit Taylorpolynom um x0 = 0) Wir
wollen sin(π/10) mit Hilfe des Taylorpolynoms von sin : R → R um x0 = 0 vom Grad
n = 3 angenähert berechnen. Wegen
sin′ (x) = cos(x),
sin′′ (x) = − sin(x),
sin(3) (x) = − cos(x),
8. Ableitungen und Differenzieren
231
gilt in x0 = 0
sin(0) = 0,
sin′ (0) = cos(0) = 1,
sin′′ (0) = − sin(0) = 0,
sin(3) (0) = − cos(0) = −1,
und das Taylorpolynom von sin(x) um x0 = 0 vom Grad 3 ist durch
sin′′ (0)
sin(3) (0)
x3
sin′ (0)
1
2
(x − 0) +
(x − 0) +
(x − 0)3 = x −
T3 (sin, 0)(x) = sin(0) +
1!
2!
3!
6
gegeben. Für x = π/10 finden wir
sin(π/10) ≈ 0, 309017
und
T3 (sin, 0)(π/10) =
π
(π/10)3
−
≈ 0, 308992.
10
6
Der Fehler der Approximation ist also
sin(π/10) − T3 (sin, 0)(π/10) ≈ |0, 309017 − 0, 308992| = 2, 5 · 10−5 ,
d.h. wir haben eine sehr gute Approximation.
Wie wichtig es ist, dass x dicht bei x0 liegt, sieht man in diesem Beispiel leicht, wenn man
x = π betrachtet:
sin(π) = 0
und
T3 (sin, 0)(π) = π −
π3
≈ −2, 026120,
6
und es liegt eine sehr schlechte Approximation vor.
Wenn man den Grad des Taylorpolynoms erhöht, so kann man eine bessere Approximation
erhalten: Betrachten wir z.B. wieder x = π und verwenden nun das Taylorpolynom vom
Grad n = 7,
x3 x5 x7
+
−
,
T7 (sin, 0)(π) = x −
3!
5!
7!
so finden wir
π3 π5 π7
+
−
≈ −0, 0752206,
T7 (sin, 0)(π) = π −
3!
5!
7!
was bereits eine deutlich bessere Approximation für sin(π) = 0 ist.
In Abbildung 8.11, haben wir die Graphen von sin(x) und seinen Taylorpolynomen um
x0 = 0 vom Grad n = 3, n = 5 und n = 7 gezeichnet.
Ist eine Funktion f in einem Punkt x = x0 beliebig oft differenzierbar, so können wir
ihre Taylorpolynome Tn (f, x0 ) um x0 von beliebig hohem Grad berechnen. Für n gegen
unendlich erhalten wir dabei eine Reihe, die sogenannte Taylorreihe von f um x0 .
Definition 8.63. (Taylorreihe von f um x0 ) Sei f : (a, b) → R eine Funktion, die auf
(a, b) beliebig oft differenzierbar ist, und sei x0 ∈ (a, b). Dann nennen wir die Reihe
T (f, x0 )(x) =
∞
X
f (k) (x0 )
k=0
die Taylorreihe von f um x0 .
k!
(x − x0 )k
(8.25)
232
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
Abb. 8.11: Die Graphen von sin(x) (schwarz) und seinen Taylorpolynomen um x0 = 0
vom Grad n = 3 (rot), n = 5 (blau) und n = 7 (grün).
Es ist zu beachten, dass es sich bei der Reihe (8.25) um eine Funktion von x handelt. Für
jedes feste x ist (8.25) eine Reihe, wie wir sie in Kapitel 5 betrachtet haben, und für jedes
solche feste x stellt sich die Frage, ob die Reihe konvergiert oder divergiert. Dies kann für
ein festes x mit den üblichen Kriterien für die Konvergenz von Reihen überprüft werden.
Falls die Taylorreihe (8.25) für ein x konvergiert, ist aber nicht gewährleistet, dass für
ein solches x auch T (f, x0 )(x) = f (x) gilt!
Betrachten wir ein paar Beispiele.
Beispiel 8.64. (Taylorreihe von exp(x) = ex um x0 = 0) Wir wollen die Taylorreihe
der Exponentialfunktion exp(x) = ex in x0 = 0 berechnen.
Wegen (ex )′ = ex finden wir
exp(k) (x) =
dk ex
= ex ,
k
dx
k = 0, 1, 2, 3, . . . ,
8. Ableitungen und Differenzieren
233
und somit in x0 = 0
exp(k) (0) = e0 = 1,
k = 0, 1, 2, 3, . . . .
Daher ist die Taylorreihe von exp(x) = ex in x0 = 0 durch
T (exp, 0)(x) =
∞
X
exp(k) (0)
k!
k=0
(x − 0)k =
∞
X
1 k
x2 x3 x4
x =1+x+
+
+
+ ....
k!
2!
3!
4!
k=0
gegeben. Man kann zeigen, dass diese Taylorreihe für jedes x ∈ R gegen den Funktionswert
exp(x) = ex konvergiert.
Beispiel 8.65. (Taylorreihe von sin(x) um x0 = 0) Wir wollen die Taylorreihe von
sin(x) um x0 = 0 berechnen.
Wir berechnen die ersten vier Ableitungen von sin(x) und erhalten
sin′ (x) = cos(x),
sin′′ (x) = − sin(x),
sin(3) (x) = − cos(x),
sin(4) (x) = sin(x).
Wenn wir analog weiter differenzieren, so finden wir, dass alle Ableitungen gerader Ordnung k = 2ℓ, ℓ = 0, 1, 2, 3, . . . , durch
sin(2ℓ) (x) = (−1)ℓ sin(x).
(8.26)
gegeben sind. Analog finden wir, dass alle Ableitungen ungerader Ordnung k = 2ℓ + 1,
ℓ = 0, 1, 2, 3, . . . , durch
sin(2ℓ+1) (x) = (−1)ℓ cos(x).
(8.27)
gegeben sind. Die Berechnung von sin(x) und seiner Ableitungen in x0 = 0 liefert
sin′ (0) = cos(0) = 1,
sin(0) = 0,
sin(3) (0) = − cos(0) = −1,
sin′′ (0) = − sin(0) = 0,
sin(4) (0) = sin(0) = 0,
....
Mit den allgemeinen Formeln (8.26) und (8.27) erhält man
sin(2ℓ) (0) = (−1)ℓ sin(0) = 0
für alle ℓ = 0, 1, 2, 3 . . . ,
sin(2ℓ+1) (0) = (−1)ℓ cos(0) = (−1)ℓ · 1 = (−1)ℓ
für alle ℓ = 0, 1, 2, 3 . . . .
Wir sehen, dass alle Ableitungen gerader Ordnung Null sind. Daher ist die Taylorreihe
von sin(x) um x0 = 0 durch
T (sin, 0)(x) =
∞
X
sin(k) (0)
k=0
= x−
k!
(x − 0)k =
∞
X
sin(2ℓ+1) (0)
ℓ=0
(2ℓ + 1)!
x3 x5 x7 x9 x11
+
−
+
−
+ ....
3!
5!
7!
9!
11!
(x − 0)2ℓ+1 =
∞
X
(−1)ℓ 2ℓ+1
x
(2ℓ
+
1)!
ℓ=0
gegeben. Mann kann zeigen, dass die Taylorreihe von sin(x) um x0 = 0 für jedes x ∈ R
gegen sin(x) konvergiert.
234
8.6. Taylorsche Formel, Taylorreihen und Potenzreihen
Beispiel 8.66. (Taylorreihe von ln(x) um x0 = 1) Wir wollen die Taylorreihe von
ln(x) um x0 = 1 berechnen.
Wir berechnen die Ableitungen von ln(x) und erhalten
ln′ (x) =
1
,
x
ln′′ (x) =
(−1)
,
x2
ln(3) (x) =
2!
,
x3
...,
ln(k) (x) =
(−1)k−1 (k − 1)!
.
xk
Auswerten in x0 = 1 liefert
ln′ (1) = 1 = 0!,
ln(1) = 0,
ln′′ (1) = −1 = −1!,
ln(3) (1) = 2!
und im allgemeinen Fall
ln(k) (1) = (−1)k−1 (k − 1)!
für alle k = 1, 2, 3, . . . .
Daher ist die Taylorreihe von ln(x) um x0 = 1 durch
T (ln, 1)(x) =
∞
X
ln(k) (1)
k=0
k!
= (x − 1) −
(x − 1)k =
∞
X
(−1)k−1 (k − 1)!
k=1
k!
(x − 1)k =
1
1
1
(x − 1)2 + (x − 1)3 − (x − 1)4 + . . . .
2
3
4
∞
X
(−1)k−1
k=1
k
(x − 1)k
gegeben. Man kann zeigen, dass die Taylorreihe von ln(x) um x0 = 1 für jedes x mit
|x − 1| < 1 gegen ln(x) konvergiert und dass die Reihe für alle x mit |x − 1| > 1 divergiert.
Taylorreihen sind in Anwendungen vor allem deswegen wichtig, weil ihre Partialsummen
die Taylorpolynome sind. Konvergiert die Taylorreihe einer beliebig oft differenzierbaren
Funktion f in x0 für ein x gegen den Funktionswert f (x), so wissen wir dass die Taylorpolynome Tn (f, x0 )(x) eine immer besser werdende Approximation für f (x) liefern, wenn
wir ihren Grad n erhöhen.
Taylorpolynome sind ein Spezialfall der sogenannten Potenzreihen, die wir hier kurz definieren, aber auf die wir nicht weiter im Detail eingehen.
Definition 8.67. (Potenzreihe um x0 ) Eine Potenzreihe um x0 ist eine Reihe
∞
X
k=0
ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . + ak (x − x0 )k + . . .
(8.28)
mit Koeffizienten a0 , a1 , . . . , ak , . . . ∈ R. Die Potenzreihe ist also eine Funktion mit der
Variable x ∈ R. Dabei ist die Reihe (8.28) zunächst formal definiert, ohne dass wir Annahmen über die Konvergenz dieser Reihe machen.
Die in den Beispielen 8.64, 8.65 und 8.66 berechneten Taylorreihen sind Beispiele für
Potenzreihen.
Kapitel 9
Integration
In diesem Kapitel werden wir zunächst das bestimmte Integral einer nicht-negativ-wertigen
Funktion als die Fläche unter dem Graphen (d.h. zwischen dem Graphen und der x-Achse)
betrachten. Wir werden diese Fläche durch Ausschöpfung mit immer schmaler werdenden
Rechtecken berechnen. Dann verallgemeinern wir zu der Situation, wenn die Funktion
positive und negative Funktionswerte annimmt. Danach lernen wir die grundlegenden
Eigenschaften des Integrals kennen und führen den Mittelwertsatz der Integralrechnung
ein.
Anschließend stellen wir mit dem Hauptsatz der der Differential- und Integralrechnung
den Zusammenhang zwischen einerseits einer Funktion und ihrer Ableitung und andererseits einer Funktion und ihrem unbestimmten Integral, also einer Stammfunktion, her.
Damit können wir nun unser Wissen über die Ableitung benutzen, um Integrale zu berechnen. Wir nutzen die Rechenregeln für die Differentiation, um Rechenregeln für die
Ableitung herzuleiten und erhalten die partielle Integration aus der Produktregel und die
Substitutionsregel aus der Kettenregel. Wir lernen sodann einige Standardsubstitutionen
und die Methode der Partialbruchzerlegung zur Integration rationaler Funktionen kennen.
Zuletzt betrachten wir uneigentliche Integrale.
9.1
Das bestimmte Integral
Der Ausgangspunkt zur Berechnung von Integralen sind Probleme der Flächenberechnung: Berechne die Fläche zwischen dem Graphen einen Funktion f : Df → R und
der x-Achse im Bereich a ≤ x ≤ b, wobei [a, b] ⊂ Df und Df ⊂ R. Der Einfachheit halber
nehmen wir zunächst an, dass gilt f (x) ≥ 0 für alle x ∈ [a, b]. Wir erklären zunächst die
grundlegende geometrische Idee zur angenäherten Berechnung der Fläche zwischen dem
Graphen und der x-Achse von x = a bis x = b.
Grundlegende geometrische Idee zur angenäherten Berechnung der Fläche:
Wir approximieren die Fläche zwischen dem Graphen der Funktion f und der
x-Achse von x = a bis x = b folgendermaßen durch Rechtecke:
235
236
9.1. Das bestimmte Integral
y
111
000
000
111
0000
1111
00
11
00011
111
0000
1111
0000
1111
00
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000111
1111
0000
1111
00
11
00
000 11
f (x)
ξ1
a = x0
ξ2
x1
ξ4
ξ3
x2
x3
ξ5
x4
x
b = x5
Abb. 9.1: Die Fläche zwischen der Funktion f und der x-Achse von x = a bis x = b wird
mit geeigneten Rechtecken abgedeckt. Die Summe der Flächen dieser Rechtecke ergibt eine
Näherung (Approximation) für diese Fläche zwischen der Funktion f und der x-Achse von
x = a bis x = b, also für den Wert des Integrals. Wenn man die Rechtecke immer schmaler
macht (und damit immer mehr Rechtecke verwendet), so wird der angenäherte Wert für
die Fläche zwischen der Funktion f und der x-Achse von x = a bis x = b genauer, wenn
die Funktion hinreichend glatt“, z.B. stetig, ist.
”
• Wir zerlegen [a, b] in n Teilintervalle:
a = x0 < x1 < x2 < . . . < xn = b.
Dann heißt Z = (x0 , x1 , x2 , . . . , xn ) eine Zerlegung von [a, b].
• Wir wählen aus jedem Teilintervall [xi−1 , xi ] eine Zwischenstelle ξi ∈ [xi−1 , xi ].
• Wir verwenden als Näherung für den Flächeninhalt zwischen dem Graphen der Funktion
f und der x-Achse über der Grundfläche [xi−1 , xi ] die Rechteckfläche f (ξi ) · (xi − xi−1 )
(vgl. Abbildung 9.1).
• Dies liefert als Näherung für die Gesamtfläche die Zerlegungssumme (Riemannsumme)
n
X
S(Z, ξ) =
f (ξi ) · (xi − xi−1 ),
(9.1)
i=1
wobei ξ = (ξ1 , ξ2 , . . . , ξn ) für den Vektor der Zwischenstellen steht. – Bei dem Beispiel
in Abbildung 9.1 haben wir beispielsweise eine Zerlegung Z mit 6 Punkten a = x0 <
x1 < x2 < x3 < x4 < x5 = b und entsprechend 5 Teilintervallen [xi−1 , xi ], i = 1, 2, 3, 4, 5,
9. Integration
237
gewählt. Die Fläche zwischen dem Graphen und der x-Achse für a ≤ x ≤ b wird somit
angenähert durch die Summe der Flächeninhalte der 5 Rechtecke in Abbildung 9.1.
– Es ist klar, dass dieser Näherungswert für die Fläche zwischen dem Graphen und
der x-Achse sowohl von der Zerlegung Z als auch von der Wahl der Zwischenstellen ξi
abhängt.
Grenzwertbildung zur exakten Berechnung der Fläche:
Wir überlegen uns nun, dass sich die Näherung (Approximation) der Fläche zwischen dem
Graphen und der x-Achse von x = a bis x = b verbessern sollte, wenn wir die Teilintervalle [xi−1 , xi ] kleiner machen und dabei natürlich auch Zerlegungen Z = (x0 , x1 , x2 , . . . , xn )
mit immer mehr Punkten xi verwenden. Wenn die Länge der größten Teilintervalls
[xi−1 , xi ] gegen Null strebt, dann erwarten wir, dass für hinreichend glatte“ (z.B. ste”
tige) Funktionen die Summe der Rechteckflächen gegen die Fläche zwischen dem
Graphen und der x-Achse von x = a bis x = b strebt. Wir versuchen dies nun
mathematisch zu formulieren:
• Unter der Feinheit ℓ(Z) einer Zerlegung Z = (x0 , x1 , x2 , . . . , xn ) versteht man die
Länge des größten Teilintervalls, d.h.
ℓ(Z) = max (xi − xi−1 ).
i=1,2,...,n
(k)
(k)
(k)
(k) • Wir betrachten nun Folgen (Zk )k∈N von Zerlegungen Zk = x0 , x1 , x2 , . . . , xnk , für
die gilt, dass ℓ(Zk ) → 0 wenn k → ∞. Dabei hat Zk nk +1 Punkte und nk Teilintervalle.
• Lässt sich der Flächeninhalt zwischen dem Graphen und der x-Achse von x = a bis
x = b sinnvoll berechnen, so sollte für jede solche Folge (Zk )k∈N von Zerlegungen Zk
(k) (k)
(k) mit einer zugehörigen Folge (ξ k )k∈N von Zwischenstellen ξ k = ξ1 , ξ2 , . . . , ξnk gelten,
dass
Fläche zwischen dem Graphen von f
lim S(Zk , ξ k ) =
,
und der x-Achse von x = a bis x = b
k→∞
wobei die S(Zk , ξ k ) die Riemannsummen (vgl. (9.1)) der Zerlegungen Zk mit den zugehörigen Zwischenstellen ξk sind.
Nach diesen Vorbereitungen können wir die Definition des Integral nun gut verstehen.
Definition 9.1. (integrierbar und bestimmtes Integral) Sei f : [a, b] → R beschränkt. Dann heißt f integrierbar über das Intervall [a, b], wenn für jede Folge
(k)
(k)
(k)
(k) (Zk )k∈N von Zerlegungen Zk = x0 , x1 , x2 , . . . , xnk von [a, b] mit limk→∞ ℓ(Zk ) = 0
(k) (k)
(k) und für jede beliebige Wahl von Zwischenstellen
ξ k = ξ1 , ξ2 , . . . , ξnk für Zk die Fol
ge der Zerlegungssummen S(Zk , ξ k ) k∈N stets konvergent ist und immer denselben
Grenzwert besitzt. Dieser Grenzwert heißt das bestimmte Integral von f über [a, b]
und wird mit
Z
b
f (x) dx
a
bezeichnet.
238
9.1. Das bestimmte Integral
Die folgende Bemerkung hält wichtige Beobachtungen fest, die uns bei der Berechnung
des Integrals mit Hilfe von Definition 9.1 helfen.
Bemerkung 9.2. (Berechnung von Integralen)
(1) Wenn f auf [a, b] integrierbar ist, kann man zur Berechnung von
Z
b
f (x) dx
a
möglichst günstige Zerlegungen und Zwischenstellen verwenden.
(2) Die Bezeichnung der Integrationsvariablen ist willkürlich! Zum Beispiel ist
Z
b
f (x) dx =
a
Z
b
f (t) dt.
a
(3) Die obige Definition 9.1 macht keine Einschränkung an die Funktionswerte, außer
dass diese |f (x)| ≤ S für alle x ∈ [a, b] mit einer Schranke S erfüllen (da f auf [a, b]
beschränkt ist). Die Einschränkung f (x) ≥ 0 unserer geometrischen, anschaulichen
Erklärung wird in Definition 9.1 nicht vorausgesetzt.
Der folgende Satz gibt eine wichtige hinreichende Bedingung für die Integrierbarkeit.
Satz 9.3. (stetig ⇒ integrierbar) Sei f : [a, b] → R stetig. Dann ist f über [a, b]
integrierbar.
Betrachten wir einige einfache Beispiele.
Beispiel 9.4. (bestimmtes Integral einer konstanten Funktion) Sei f : R → R
eine konstante Funktion f (x) = c für alle x ∈ R mit einer Konstante c.
• Diese Funktion ist beschränkt und stetig auf R und somit nach Satz 9.3 über jedes
Intervall [a, b] integrierbar.
• Wir vermuten wegen der Interpretation des Integrals als Fläche zwischen dem Graphen
und der x-Achse von x = a bis x = b, dass gelten sollte
Z
b
a
f (x) dx = c · (b − a).
• Betrachten wir nun sogenannte äquidistante Zerlegungen (Zk )k∈N von [a, b] (also Zerlegungen mit gleichen Abständen der Punkte xi ), d.h. die Zerlegung Zk lieft einer Zerlegung von [a, b] in nk = k Teilintervalle der Länge (b−a)/k. Die Punkte der äquidistanten
Zerlegung sind also
(k)
xi
=a+i·
(b − a)
,
k
i = 0, 1, 2, . . . , n,
9. Integration
239
(k)
und wir wählen die Zwischenstellen ξi
S(Zk , ξ k ) =
k
X
(k)
(k)
(k)
f (ξi ) · xi − xi−1 ) =
| {z } |
{z
}
= c = (b − a)/k
i=1
(k)
= xi . Dann gilt
k
X
i=1
k
c·
X1
(b − a)
= c · (b − a).
= c · (b − a) ·
k
k
i=1
| {z }
=1
Also erhalten wir, wie vermutet,
Z b
Z b
f (x) dx =
c dx = lim S(Zk , ξ k ) = lim c · (b − a) = c · (b − a).
a
k→∞
a
k→∞
Beispiel 9.5. (bestimmtes Integral der Standardparabel) Wir wollen
Z b
x2 dx
mit b > 0
(9.2)
0
berechnen.
• Da die Standardparabel f (x) = x2 auf R stetig ist, ist die Standardparabel nach Satz 9.3
über [0, b] integrierbar, und das Integral (9.2) existiert.
• Wir verwenden hier wieder äquidistante Zerlegungen Zk in nk = k Teilintervalle gleicher
Länge, also
b
(k)
xi = i · ,
i = 0, 1, 2, . . . , k.
k
(k)
Als Zwischenstellen verwenden wir ξi
S(Zk , ξ k ) =
k
X
i=1
(k)
f (ξi )
(k)
· (xi
| {z }
|
2
b
= i·
k
(k)
= xi . Dann erhält man
2
3 X
k k
k
X
b
b3 X 2
b
b
2
i·
=
i = 3
i.
=
k
k
k
k i=1
} i=1
i=1
(k)
xi−1 )
−
{z
b
=
k
Mit vollständiger Induktion kann man zeigen, dass gilt:
k
X
i=1
i2 =
1
k (k + 1) (2k + 1).
6
Damit folgt
3
3 X
k
b
b
1
2
i = lim
lim S(Zk , ξ k ) = lim
k (k + 1) (2k + 1)
k→∞ k
k→∞
k→∞ k
6
i=1
1
1 3 k (k + 1) (2k + 1)
1
= b3 2 = b3 .
b
k→∞ 6
k · {z
k·k
3
} 6
|
→ 2 wenn k → ∞
= lim
• Also finden wir
Z
b
x2 dx =
0
1 3
b.
3
240
9.1. Das bestimmte Integral
Beispiel 9.6. (bestimmtes Integral von 1/x) Wir wollen das bestimmte Integral
Z b
1
dx
für ein festes beliebiges b > 1
1 x
berechnen.
• Die Funktion f (x) = 1/x ist für x > 0 stetig und somit über jedes Intervall [1, b] mit
b > 1 integrierbar.
• Hier nützen uns die äquidistanten Zerlegungen wenig. Statt dessen wählen wir die
(k)
Zerlegungen Zk in nk = k Teilintervalle mit xi = bi/k , i = 0, 1, 2, . . . , k, und die
(k)
(k)
Zwischenstellen ξi = xi−1 = b(i−1)/k . Dann erhält man
S(Zk , ξk ) =
k
X
(k)
f (ξi )
i=1
=
k
X
·
−(i−1)/k
b
i=1
(k)
xi
−
i/k
· b
(k) xi−1
=
(i−1)/k
−b
k
X
i=1
=
1
b(i−1)/k
k
X
i=1
· bi/k − b(i−1)/k
b1/k − 1 = k · b1/k − 1 .
Nun bilden wir den Grenzwert für k → ∞
b1/k − 1
lim S(Zk , ξk ) = lim k · (b1/k − 1) = lim
.
k→∞
k→∞
k→∞
1/k
(9.3)
Da (1/k)k∈N für k → ∞ gegen Null strebt, können wir nun in (9.3) auch 1/k durch x ersetzen und statt dem Grenzwert für k → ∞ entsprechend den rechtsseitigen Grenzwert
für x → 0+ betrachten. Also
b1/k − 1
bx − 1
(eln(b) )x − 1
= lim+
= lim+
k→∞
x→0
x→0
1/k
x
x
lim S(Zk , ξk ) = lim
k→∞
ln(b) eln(b)·x
ln(b) e0
eln(b)·x − 1
= lim+
=
= ln(b),
= lim+
x→0
x→0
x
1
1
wobei im vorvorletzten Schritt die Regel von de l’Hôspital verwendet wurde, da
und
lim+ x = 0.
lim+ eln(b)·x − 1 = 0
x→0
x→0
• Also finden wir
Z
1
b
1
dx = ln(b).
x
Im Schulunterricht wurden Integrale möglicherweise mit Unter- und Obersummen eingeführt. Dies führt zu einer äquivalenten Definition des Integrals, wie es in der folgenden
Bemerkung erklärt ist.
Bemerkung 9.7. (Untersummen und Obersummen) Wählt man die Zwischenstellen ξi ∈ [xi−1 , xi ], so dass
f (ξi ) = min f (x)
x∈[xi−1 ,xi ]
9. Integration
241
gilt, so erhält man die Untersumme U(Z) für die Zerlegung Z. Entsprechend bekommt
man die Obersumme O(Z), wenn man Zwischenstellen ξi ∈ [xi−1 , xi ] mit
f (ξi ) =
max
x∈[xi−1 ,xi ]
f (x)
verwendet. Geometrisch entspricht dies der Verwendung eingeschriebener“ bzw. umbe”
”
schriebener“ Rechtecke (siehe Abbildung 9.2). Es gilt für jede Wahl der Zwischenstellen
ξ = (ξ1 , ξ2 , . . . , ξn )
U(Z) ≤ S(Z, ξ) ≤ O(Z).
In Definition 9.1 kann man daher äquivalent auch verlangen, dass
für jede
Folge von Zerlegungen (Zk )k∈N die zugehörige Folge der Untersummen U(Zk ) k∈N und die
zugehörige Folge der Obersummen O(Zk ) k∈N stets konvergent sind und immer denselben
gemeinsamen Grenzwert haben.
y
O(Z)
000
111
1111
0000
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000
1111
00
11
00
11
000
111
0000
1111
0000 11
1111
0011
00
a = x0
x1
x2
x3
x4
U(Z)
b = x5
x
Abb. 9.2: Illustration der Idee der Untersumme U(Z)und der Obersumme O(Z).
9.2
Eigenschaften des bestimmten Integrals
Als erstes verallgemeinern wir unsere geometrische Interpretation des bestimmten
Integrals
Z b
f (x) dx
a
als Fläche zwischen dem Graphen der Funktion und der x-Achse von x = a bis
x = b zu der Situation, wenn f (x) auf [a, b] sowohl positive wie negative Werte annimmt:
242
9.2. Eigenschaften des bestimmten Integrals
• Ist f : [a, b] → R integrierbar mit f (x) ≥ 0 auf [a, b], so ist das bestimmte Integral
Z b
f (x) dx
a
die Fläche zwischen dem Graphen von f und der x-Achse von x = a bis x = b.
• Für eine integrierbare Funktion f : [a, b] → R mit f (x) ≤ 0 für alle x ∈ [a, b] gilt, dass
−f (x) ≥ 0 für alle x ∈ [a, b] ist, und wir erwarten, dass −f auch über [a, b] integrierbar
ist. Nach dem vorigen Fall erwarten wir dann, dass die Fläche zwischen dem Graphen
von −f und der x-Achse von x = a bis x = b durch
Z b
Z b
− f (x) dx = −
f (x) dx
(9.4)
a
a
gegeben ist. Dies ist auch korrekt. Genau genommen muss man sich noch überlegen,
warum man das Minus-Zeichen aus dem bestimmten Integral herausziehen darf. Dies
sieht man aber leicht mit der Definition 9.1 des bestimmten Integrals, weil man das
Vorzeichen aus den Zerlegungssummen herausziehen kann. Aus (9.4) erhält man nun
Z b
Z b
f (x) dx = −
− f (x) dx.
a
a
Also können wir das Integral von x = a bis x = b als (−1) mal die Fläche zwischen
dem Graphen der Funktion und der x-Achse von x = a bis x = b interpretieren
(wenn wir die Fläche als positiv betrachten).
• Für integrierbare Funktionen f : [a, b] → R mit positiven und negativen Werten auf
[a, b], gilt die folgende Interpretation des Integrals
Z b
f (x) dx = Fläche der Bereiche oberhalb der x-Achse
a
− Fläche der Bereiche unterhalb der x-Achse
Dies ist in Abbildung 9.3 illustriert.
Als nächstes halten wir die grundlegenden Eigenschaften des bestimmten Integrals fest.
Alle diese Eigenschaften kann man mit Hilfe der Definition 9.1 des Integrals mit den
Zerlegungssummen nachweisen.
Satz 9.8. (Eigenschaften des (bestimmten) Integrals)
(i)
Zerlegen“ des Integrals: Ist f über [a, b] integraierbar, so können wir das In”
tegral über [a, b] in die Summe der Integrale über [a, c] bzw. [c, b] (wobei a < c < b)
zerlegen, also
Z b
Z c
Z b
f (x) dx =
f (x) dx +
f (x) dx
für alle c ∈ (a, b).
(9.5)
a
a
c
Ist f über [a, c] und [c, d] integrierbar, wobei a < c < b, so ist f auch über [a, b]
integrierbar, und es gilt (9.5)
9. Integration
243
y
1111111111111
0000000000000
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
+
+
a
b
−
x
Abb. 9.3: Geometrische Interpretation des Integrals
(ii) Linearität des Integrals: Seien f und g über [a, b] integrierbar. Für alle Konstanten α, β ∈ R gilt
Z b
Z b
Z b
α f (x) + β g(x) dx = α
f (x) dx + β
g(x) dx.
a
a
a
(iii) Monotonie des Integrals: Seien f und g über [a, b] integrierbar. Aus f (x) ≤ g(x)
auf [a, b] folgt
Z b
Z b
f (x) dx ≤
g(x) dx.
a
a
(iv) Abschätzung: Sei f über [a, b] integrierbar. Dann gilt
Z b
Z b
≤
f
(x)
dx
|f (x)| dx.
a
a
Betrachten wir ein Beispiel.
Beispiel 9.9. (bestimmtes Integral der Signum-Funktion) Wir wollen (wenn möglich)
das bestimmte Integral
Z
2
sgn(x) dx
−2
der Signum-Funktion
berechnen.

 −1
0
sgn(x) =

+1
wenn x < 0,
wenn x = 0,
wenn x > 0,
244
9.2. Eigenschaften des bestimmten Integrals
Dazu berechnen wir die beiden bestimmten Integrale
Z
Z
0
sgn(x) dx
und
−2
2
sgn(x) dx.
0
Sofern diese existieren, wissen wir nach Satz 9.8 (i), dass f über [−2, 2] integrierbar ist
und dass gilt
Z 2
Z 0
Z 2
sgn(x) dx =
sgn(x) dx +
sgn(x) dx.
−2
−2
0
Der Funktionswert f (x0 ) an einem einzelnen Punkt x0 hat alleine keinen Einfluss auf dem
Wert des Integrals, und wir dürfen die Funktion daher an einzelnen Punkten ändern, ohne
dass sich der Wert des Integrals ändert. Also können wir zur Berechnung des Integrals
über [−2, 0] der Funktion sgn(x) im Punkt x0 = 0 den neuen Wert −1 zuweisen und
finden
Z 0
Z 0
sgn(x) dx =
(−1) dx = (−1) · 0 − (−2) = −2.
−2
Analog finden wir
−2
Z
2
sgn(x) dx =
0
Z
0
2
1 dx = 1 · (2 − 0) = 2.
Daher gilt nach (9.5) aus Satz 9.8 (i)
Z
2
sgn(x) dx =
−2
Z
0
sgn(x) dx +
−2
Z
2
sgn(x) dx = −2 + 2 = 0.
0
Dies stimmt mit unserer Anschauung überein: Die Flächen unterhalb und oberhalb des
Graphen kompensieren sich gerade.
Was wir in dem vorigen Beispiel gesehen haben, halten wir allgemein als Bemerkung fest.
Bemerkung 9.10. (Integration stückweise stetiger Funktionen)
(1) Sei f : [a, b] → R eine integrierbare Funktion, und sei g : [a, b] → R eine weitere
Funktion, die sich von f nur in endlich vielen Punkten unterscheidet. Dann
ist g ebenfalls integrierbar, und es gilt
Z
a
b
f (x) dx =
Z
b
g(x) dx.
a
Die Funktionswerte in endlich vielen Punkten ändern den Wert des Integrals also nicht.
(2) Eine Funktion f : [a, b] → R heißt stückweise stetig, wenn die folgenden drei
Bedingungen alle gelten: (i) Man kann das Intervall [a, b] in endlich viele Intervalle
zerlegen, also
[a, b] = [x0 , x1 ] ∪ [x1 , x2 ] ∪ [x2 , x3 ] ∪ . . . ∪ [xn−1 , xn ]
9. Integration
245
mit a = x0 < x1 < x2 < x3 < . . . < xn−1 < xn = b. (ii) f ist auf jedem der offenen Intervalle (x0 , x1 ), (x1 , x2 ), (x2 , x3 ), . . . , (xn−1 , xn ) stetig. (iii) Die einseitigen
Grenzwerte von f in den Endpunkten dieser Intervalle existieren und sind endlich.
Die Kombination von Satz 9.3 mit Satz 9.8 (i) zeigt, dass alle stückweise stetigen
Funktionen integrierbar sind. Genauer können wir mit (9.5) aus Satz 9.8 das
Integral wie folgt zerlegen
Z
b
f (x) dx =
a
Z
x1
f (x) dx +
a
Z
x2
f (x) dx +
Z
x3
f (x) dx + . . . +
x2
x1
Z
b
f (x) dx.
xn−1
In einer weiteren Bemerkung halten wir eine Verallgemeinerung von (9.5) in Satz 9.8 (i)
fest.
Bemerkung 9.11. (Verallgemeinerung von (9.5) in Satz 9.8) Formel (9.5) in Satz
9.8 (i) bleibt für beliebiges c richtig, falls die Teilintegrale alle existieren. Dabei definiert
man
Z
Z
Z
a
b
f (x) dx = 0
und
a
a
a
f (x) dx = −
f (x) dx für a > b.
b
Als letztes Resultat in diesem Teilkapitel lernen wir den Mittelwertsatz der Integralrechnung für stetige Funktionen kennen.
y
1
0
00
11
00000000000
11111111111
0
1
00
11
00000000000
11111111111
0
1
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
1
0
1
0
1
0
00000000000
11111111111
Rechteck gleicher
Fläche
a
Z
ξ
b
b
f (x) dx
a
x
Abb. 9.4: Geometrische Bedeutung des Mittelwertsatzes der Integralrechnung für stetige
Funktionen: Die Fläche zwischen der x-Achse und dem Graphen der Funktion f (x) (im
Bereich a ≤ x ≤ b) ist gleich der Rechteckfläche über [a, b] mit der Höhe f (ξ) für eine
geeignete Zwischenstelle ξ ∈ (a, b).
246
9.3. Zusammenhang zwischen Differential- und Integralrechnung
Satz 9.12. (Mittelwertsatz der Integralrechnung) Sei f : [a, b] → R stetig. Dann
gibt es ein ξ ∈ (a, b) mit
Z b
f (x) dx = f (ξ) · (b − a).
a
Die geometrische Bedeutung des Mittelwertsatzes der Integralrechnung ist in Abbildung 9.4 illustriert und erklärt.
Ebenso wie der Mittelwertsatz der Differentialrechnung ist der Mittelwertsatz der Integralrechnung vor allem für theoretische Überlegungen interessant.
9.3
Zusammenhang zwischen Differential- und Integralrechnung
Der Hauptsatz der Differential- und Integralrechnung beantwortet die Frage, wie man ein
(bestimmtes) Integral
Z b
f (x) dx
a
ohne eine Betrachtung von Zerlegungssummen leicht berechnen kann. Dieser Satz stellt
eine Verbindung zwischen dem Integral (oder genauer dem noch zu definierenden unbestimmten Integral) und der Ableitung her.
Satz 9.13. (Hauptsatz der Differential- und Integralrechnung)
(i) Sei f : [a, b] → R stetig, x0 ∈ [a, b] ein beliebiger fester Punkt und
F (x) =
Z
x
x0
f (t) dt
für alle x ∈ [a, b].
(9.6)
Dann ist die Funktion F : [a, b] → R differenzierbar, und es gilt F ′ (x) = f (x) für
x ∈ [a, b].
(ii) Sei F : [a, b] → R eine stetig differenzierbare Funktion (d.h. F ist differenzierbar und
ihre Ableitung F ′ ist stetig) mit der Ableitung f (x) = F ′ (x) für x ∈ [a, b]. Dann gilt
Z
a
b
b
f (x) dx = F (b) − F (a) = F (x) .
a
b
Bei F (x)a handelt es sich um eine Kurznotation für F (b) − F (a).
Betrachten wir zunächst ein Beispiel, um uns die Nützlichkeit des Hauptsatzes der Differentialund Integralrechnung klar zu machen.
9. Integration
247
Beispiel 9.14. (Anwendung des Hauptsatzes der Differential- und Integralrechnung) Wir wollen das bestimmte Integral
Z
2
x3 dx
−3
über die stetige Funktion f (x) = x3 berechnen. Wir wissen aus Kapitel 8, dass gilt (x4 )′ =
4 x3 und somit (x4 /4)′ = x3 . Also wissen wir nach Satz 9.13 (ii), dass mit F (x) = x4 /4
und f (x) = F ′ (x) = x3 gilt
2
24 (−3)4
16 81
65
x4 =
−
=
−
=−
.
x dx =
4 −3
4
4
4
4
4
−3
Z
2
3
Da der Hauptsatz der Differential- und Integralrechnung einer der zentralen Sätze der
Analysis ist und sein Beweis instruktiv ist, zeigen wir auch den Beweis.
Beweis von Satz 9.13. Wir nutzen unsere bisherigen Erkenntnisse über das Integral.
(i) Wir wollen den Differenzenquotienten F (x + h) − F (x) /h berechnen, und berechnen
dazu zuerst F (x + h) − F (x). Nach (9.5) in Satz 9.8 (i) gilt
F (x + h) − F (x) =
Z
x+h
x0
f (t) dt −
Z
x
f (t) dt =
x0
Z
x+h
f (t) dt,
x
wobei wir (9.5) in Satz 9.8 (i) mit einer beliebigen Stelle c (mit nicht notwendigerweise
a < c < b) verwendet haben (vgl. auch Bemerkung 9.11).
Nach dem Mittelwertsatz der Integralrechnung (siehe Satz 9.12) gibt es eine Stelle ξ
zwischen x und x + h mit
Z x+h
F (x + h) − F (x) =
f (t) dt = f (ξ) · (x + h) − x = f (ξ) · h.
x
Dabei hängt ξ von h (und x) ab, also ξ = ξ(h). Division durch h liefert eine Darstellung
des Differenzenquotienten
1
F (x + h) − F (x)
=
h
h
Z
x+h
f (t) dt = f (ξ).
x
Wegen x < ξ(h) < x + h für h > 0 bzw. x + h < ξ(h) < x für h < 0 gilt ξ(h) → x für
h → 0. Daher folgt somit
F (x + h) − F (x)
= lim f ξ(h) = f (x),
h→0
h→0
h
lim
da f nach Voraussetzung stetig ist. Also existiert F ′ (x), und es ist F ′ (x) = f (x).
(ii) Wir definieren
G(x) =
Z
a
x
f (t) dt.
248
9.3. Zusammenhang zwischen Differential- und Integralrechnung
Dann ist
G(a) =
Z
a
f (t) dt = 0
und
G(b) =
a
Z
b
f (t) dt =
a
Z
b
f (x) dx.
(9.7)
a
Nach Teil (i) dieses Satzes ist G : [a, b] → R differenzierbar mit der Ableitung G′ (x) =
f (x). Also folgt
(F − G)′ (x) = F ′ (x) − G′ (x) = f (x) − f (x) = 0
für alle x ∈ [a, b].
(9.8)
Nach (iv) in Satz 8.37 ist F −G wegen (9.8) eine konstante Funktion, also F (x)−G(x) = c
für eine Konstante c ∈ R. Insbesondere ist F (a) − G(a) = F (b) − G(b) = c, und damit
folgt durch Umsortieren und Ausnutzen von (9.7)
Z b
Z b
F (b) − F (a) = G(b) − G(a) =
f (x) dx − 0 =
f (x) dx.
a
a
Damit haben wir (i) und (ii) bewiesen.
Wir führen nun noch den Begriff der Stammfunktion ein.
Definition 9.15. (Stammfunktion) Sei f : [a, b] → R eine stetige Funktion. Eine
differenzierbare Funktion F : [a, b] → R mit F ′ (x) = f (x) für alle x ∈ [a, b] heißt eine
Stammfunktion von f .
Nach Satz 9.13 (i) wissen wir, dass für jedes feste x0 ∈ [a, b] die Funktion
Z x
F (x) =
f (t) dt
x0
eine Stammfunktion von f ist. Dies macht direkt deutlich, dass es nicht nur eine sondern
viele mögliche Stammfunktionen gibt. Die nächste Bemerkung hält fest, dass sich alle
Stammfunktionen einer stetigen Funktion höchstens um Konstanten unterscheiden.
Bemerkung 9.16. (Menge aller Stammfunktionen einer stetigen Funktion) Sind
F : [a, b] → R und G : [a, b] → R zwei Stammfunktionen einer stetigen Funktion
f : [a, b] → R. Dann gilt
(G − F )′ (x) = G′ (x) − F ′ (x) = f (x) − f (x) = 0
für alle x ∈ [a, b].
Nach Satz 8.37 (iv) folgt nun, dass gilt
(G − F )(x) = G(x) − F (x) = c
für alle x ∈ [a, b]
mit einer Konstanten c ∈ R. Also gilt G(x) = F (x) + c für alle x ∈ [a, b].
Umgekehrt ist auch jede Funktion
der Form H(x) = F (x) + c mit einer Konstanten c ∈ R
′
wegen H ′ (x) = F (x) + c = F ′ (x) + 0 = F ′ (x) für alle x ∈ [a, b] eine Stammfunktion
von f .
Man erhält also alle Stammfunktionen zu f aus einer Stammfunktion F durch Addition
von Konstanten c.
9. Integration
249
Man kann Stammfunktionen von f auch als sogenanntes unbestimmtes Integral von
f schreiben
Z
f (x) dx.
Dies ist eigentlich eine laxere Kurzschreibweise für
Z x
F (x) =
f (t) dt,
x0
bei der die feste untere Grenze x0 unterdrückt wird. Ist F eine Stammfunktion von f , so
gilt daher
Z
f (x) dx = F (x) + c
mit der beliebigen Integrationskonstanten c ∈ R.
Mit unserem Wissen über Ableitungen können wir nun mit Satz 9.13 leicht Stammfunktionen bestimmen. Betrachten wir ein paar Beispiele
Beispiel 9.17. (Stammfunktionen)
(a) Wegen (xr )′ = r xr−1 ⇔ (xr /r)′ = xr−1 (für r 6= 0) folgt
Z
1
xr dx =
xr+1 + c
für r 6= −1.
r+1
′
(b) Wegen cos(x) = − sin(x) folgt
Z
sin(x) dx = − cos(x) + c.
′
′
(c) Wegen ln(x) = 1/x für x > 0 und ln(−x) = 1/(−x) · (−1) = 1/x für x < 0 ist
′
ln(|x|) = 1/x, und es folgt
Z
1
dx = ln |x| + c.
x
(d) Wegen (ex )′ = ex folgt
Z
ex dx = ex + c.
In der Präsenzübung werden wir systematisch eine Tabelle mit Stammfunktionen zusammenstellen, die analog zu Tabelle 8.1 mit den Ableitungen ist.
9.4
Partielle Integration
Zunächst wollen wir aus der Produktregel für die Differentiation die Regel für die partielle Integration herleiten: Seien f und g zwei differenzierbare Funktionen. Dann ist die
Produktfunktion f · g differenzierbar, und es gilt nach der Produktregel
′
f (x) g(x) = f ′ (x) g(x) + f (x) g ′ (x).
250
9.4. Partielle Integration
Unbestimmte Integration der Produktregel liefert nun
Z
Z
Z
′
′
f (x) g(x) dx = f (x) g(x) dx + f (x) g ′(x) dx
{z
}
|
= f (x) g(x)
oder äquivalent
Z
′
f (x) g(x) dx = f (x) g(x) −
und damit für bestimmte Integrale
Z
b
f (x) g ′(x) dx
b Z b
f (x) g ′ (x) dx.
f (x) g(x) dx = f (x) g(x) −
′
a
Z
a
a
Dies ist die Regel für die partielle Integration, und wir halten diese als Satz fest.
Satz 9.18. (partielle Integration) Seien f : [a, b] → R und g : [a, b] → R zwei stetig
differenzierbare Funktionen (d.h. zwei Funktionen, die auf [a, b] differenzierbar sind und
deren Ableitungen f ′ und g ′ auf [a, b] stetig sind). Dann gilt
Z
b
b Z b
f (x) g(x) dx = f (x) g(x) −
f (x) g ′(x) dx.
′
a
a
(9.9)
a
Analog gilt für die unbestimmten Integrale
Z
Z
′
f (x) g(x) dx = f (x) g(x) − f (x) g ′(x) dx.
(9.10)
Bei der praktischen Anwendung der Produktregel zur Berechnung eines Integrals
Z b
Z
h(x) dx
bzw.
h(x) dx
a
versucht man h als das Produkt zweier Funktionen h(x) = f ′ (x) g(x) zu schreiben, wobei
man eine Stammfunktion f von f ′ bestimmen können muss und das übrig bleibende
Integral in (9.9) bzw. (9.10),
Z
b
′
f (x) g (x) dx
a
bzw.
Z
f (x) g ′(x) dx,
leichter zu berechnen sein sollte.
Betrachten wir ein paar Beispiele.
Beispiel 9.19. (partielle Integration) Um das unbestimmte Integral
Z
x sin(x) dx
9. Integration
251
mit partieller Integration zu berechnen, setzen wir g(x) = x, f ′ (x) = sin(x) und damit
g ′ (x) = 1 und f (x) = − cos(x) und erhalten nach (9.10)
Z
Z
x sin(x) dx = x − cos(x) − 1 · − cos(x) dx
Z
= −x cos(x) + cos(x) dx
= −x cos(x) + sin(x) + c,
′
wobei wir im letzten Schritt benutzt haben, dass sin(x) = cos(x) gilt. Also ist H(x) =
−x cos(x) + sin(x) eine Stammfunktion für h(x) = x sin(x). (Dass man sich nicht verrechnet hat, überprüft man leicht durch ableiten:
′
H ′ (x) = − x cos(x) + sin(x)
= −1 cos(x) − x − sin(x) + cos(x)
= − cos(x) + x sin(x) + cos(x)
= x sin(x) = h(x),
und wir erhalten in der Tat wieder die Funktion h.)
Beispiel 9.20. (partielle Integration) Wir wollen das unbestimmte Integral
Z
ln(x) dx
berechnen. Hier schreiben wir den Integranden h(x) = ln(x) als h(x) = 1·ln(x) und setzen
f ′ (x) = 1 und g(x) = ln(x) und somit f (x) = x und g ′ (x) = 1/x. Also gilt nach (9.10)
Z
Z
Z
Z
1
ln(x) dx = 1 · ln(x) dx = x ln(x) − x dx = x ln(x) − 1 dx = x ln(x) − x + c.
x
Beispiel 9.21. (partielle Integration) Wir wollen das bestimmte Integral
Z π
2
sin(x) dx
−π
2
berechnen. Dazu schreiben wir erst h(x) = sin(x) = sin(x) · sin(x) und setzen dann
f ′ (x) = sin(x), g(x) = sin(x) und somit f (x) = − cos(x) und g ′ (x) = cos(x). Also gilt
nach (9.9), dass
Z π
Z π
π
2
− cos(x) cos(x) dx
sin(x) dx = − cos(x) sin(x) −
−π
−π
−π
= − cos(π) sin(π) + cos(−π) sin(−π) +
|
{z
}
= 0 weil sin(π) = sin(−π) = 0
Z π
2
=
cos(x) dx.
−π
Z
π
−π
cos(x)
2
dx
252
9.5. Integration durch Substitution
Nun addieren wir auf beiden Seiten dieser Gleichung das Integral
Z π
2
sin(x) dx
−π
und erhalten
2
Z
π
sin(x)
−π
2
dx =
Division durch 2 liefert nun
π
cos(x)
−π
Z π
2
dx +
Z
π
sin(x)
−π
2
dx
2 i
dx
+ sin(x)
{z
}
−π |
= 1 für alle x
Z π
π
=
1 dx = x = π − (−π) = 2π.
=
Z
Z
h
cos(x)
−π
−π
π
sin(x)
−π
2
2
dx = π.
Es gibt Situationen, in denen man mehrfach partiell integrieren muss. Wir betrachten
hierzu auch noch ein Beispiel.
Beispiel 9.22. (mehrfache partielle Integration) Wir wollen das bestimmte Integral
Z 1
ex x2 dx
0
mit partieller Integration berechnen. Dazu setzen wir f ′ (x) = ex , g(x) = x2 und somit
f (x) = ex und g ′(x) = 2 x. Also gilt nach (9.9)
Z 1
Z 1
Z 1
1 Z 1
x
1 2
0 2
x
x 2
x 2
e 2 x dx = e 1 − e 0 − 2
e x dx = e − 2
ex x dx.
e x dx = e x −
0
0
0
0
0
Wir verwenden nun noch einmal partielle Integration, um das verbleibende Integral zu
berechnen. Hier setzen wir f ′ (x) = ex , g(x) = x und somit f (x) = ex und g ′ (x) = 1 und
finden nach (9.9)
!
Z 1
Z 1
1 Z 1
ex 1 dx
ex x2 dx = e − 2
ex x dx = e − 2 ex x −
0
0
0
= e − 2 e1 1 − e0 0 −
Z
1
!
ex dx
0
0
1
= e − 2 e − ex 0
!
= e − 2 e − e1 − e0 = e − 2 e − e + 1 = e − 2.
9.5
Integration durch Substitution
Wir wollen nun aus der Kettenregel die Substitutionsregel herleiten. Für differenzierbare
Funktionen F und g gilt nach der Kettenregel
′
F g(t) = F ′ g(t) g ′(t).
9. Integration
253
Also folgt mit f = F ′
′
F g(t) = f g(t) g ′ (t)
′
f g(t) g ′ (t) = F g(t) ,
′
und durch Integration über t (sofern die Ableitung F g(t) stetig und damit integrierbar
ist) erhält man
Z
Z
′
′
f g(t) g (t) dt =
F g(t) dt = F g(t) + c.
⇐⇒
In die Stammfunktion F von f ist also g(t) als Argument einzusetzen. Als Abkürzung für
diese Ersetzung verwendet man auch die Schreibweise
Z
F (x) x=g(t) = F g(t) ,
wobei hier
F (x) = f (x) dx.
Dann lautet die Substitutionsregel für unbestimmte Integrale
Z
Z
′
f g(t) g (t) dt =
f (x) dx
,
x=g(t)
falls f stetig und g stetig differenzierbar ist. Wir halten die Substitutionsregel in einem
Satz fest.
Satz 9.23. (Substitutionsregel/Integration durch Substitution) Sei g : [a, b] → R
stetig differenzierbar, sei f : [c, d] → R stetig, und es gelte Bg ⊂ [c, d]. Dann gilt
Z b
Z g(b)
′
f g(t) g (t) dt =
f (x) dx
(9.11)
a
g(a)
bzw. mit unbestimmten Integralen
Z
Z
′
f g(t) g (t) dt =
f (x) dx
.
(9.12)
x=g(t)
Betrachten wir zunächst ein einfaches Beispiel.
Beispiel 9.24. (Integration durch Substitution) Das unbestimmte Integral
Z
2
sin(t) cos(t) dt
berechnet man wegen (cos(t))′ = − sin(t) und
Z
Z
Z
2
2
sin(t) cos(t) dt = −
cos(t)
− sin(t) dt = −
cos(t)
| {z }
= g(t)
2
′
cos(t) dt
| {z }
= g ′(t)
mit der Substitution g(t) = cos(t) wobei hier in (9.12) gilt f (x) = x2 . Also folgt
Z
Z
3
2
1
1 3
2
cos(t) + c.
=−
sin(t) cos(t) dt = − x dx
= − x +c
3
3
x=cos(t)
x=cos(t)
254
9.5. Integration durch Substitution
Bemerkung 9.25. (Anwendung der Substitutionsregel) In der Praxis wird die Substitutionsregel oft von rechts nach links“ angewendet, d.h. wir ersetzen auf der rechten
”
Seite von (9.12) (bzw. von (9.11)) x = g(t) mit einer injektiven Funktion g und erhalten
somit
Z
Z
′
f (x) dx =
f g(t) g (t) dt
,
(9.13)
t=g −1 (x)
falls f stetig und g stetig differenzierbar ist. Man beachte, dass die Injektivität von g
erforderlich ist, damit man im letzten Schritt nach der Berechnung des Integrals die Substitution x = g(t) durch t = g −1(x) mit Hilfe der Umkehrfunktion g −1 von g wieder
rückgängig machen kann.
Für bestimmte Integrale erhalten wir somit
Z d
Z g−1 (d)
f (x) dx =
f g(t) g ′(t) dt.
c
(9.14)
g −1 (c)
Dabei wird diese Substitution sowohl in (9.13) wir in (9.14) formal wie folgt durchgeführt:
Wir setzen x = g(t) und erhalten damit
dx
= g ′(t)
dt
dx = g ′(t) dt.
⇐⇒
Also wird in dem Integral auf der linken Seite von (9.13) bzw. (9.14) x = g(t) in f (x)
eingesetzt, und dx wird durch g ′(t) dt ersetzt. Weiter müssen wir in (9.14) noch die neuen
Grenzen für die Variable t finden; wegen t = g −1 (x) erhält man also die neuen Grenzen
g −1(c) und g −1(d).
Wir betrachten noch weitere Beispiele für die Anwendung der Substitutionsregel.
Beispiel 9.26. (Integration durch Substitution) Wir wollen das unbestimmte Integral
Z
ex
2 dx
cos(ex )
′
2
berechnen. Wir erinnern uns, dass tan(t) = 1/ cos(t) gilt und substituieren daher
t = ex bzw. äquivalent x = ln(t). Dann gilt
oder äquivalent
′ 1
dx
= ln(t) =
dt
t
=⇒
dx =
1
dt,
t
dt
1
= (ex )′ = ex = t
=⇒
dx = dt.
dx
t
Also ergibt diese Substitution
"Z
#
#
"Z
Z
1
t
ex
1
=
2 dx =
2 dt
2 dt
cos(ex )
cos(t) t
cos(t)
x
t=ex
t=e
h
i
= tan(t)
= tan(ex ).
t=ex
9. Integration
255
Beispiel 9.27. (Integration durch Substitution) Wir wollen das bestimmte Integral
Z π2
√
sin( x) dx
0
√
berechnen. Dazu nehmen wir die Substitution t = x oder äquivalent x = t2 vor, und
2
2
erhalten dx/dt = 2 t√und somit dx
√ = 2 t dt. Auf [0, π ] ist x = t injektiv. Also gilt mit
den neuen Grenzen 0 = 0 und π 2 = π für die Variable t, dass
Z π2
Z π
Z π
√
sin( x) dx =
sin(t) 2 t dt = 2
t sin(t) dt.
(9.15)
0
0
0
Das neue Integral können wir nun leicht mit partieller Integration berechnen
Z π
Z π
π
t
sin(t)
−
1
−
cos(t)
dt
dt
=
t
−
cos(t)
|{z} | {z }
0
0
0
= g(t) = f ′ (t)
π Z π
cos(t) dt
= −t cos(t) +
0
0
π
= − π cos(π) − − 0 cos(0) + sin(t)
= π + 0 + sin(π) − sin(0) = π.
0
Setzen wir dieses Ergebnis in (9.15) so finden wir
Z π2
Z π
√
sin( x) dx = 2
t sin(t) dt = 2π.
0
0
Beispiel 9.28. (Integration durch Substitution) Wir wollen das bestimmte Integral
Z e
1
dt
1 t 1 + ln(t)
berechnen. Dazu ersetzen wir x = ln(t) oder äquivalent t = ex und finden dx/dt = 1/t,
also dx = dt/t, und die neuen Grenzen werden ln(1) = 0 und ln(e) = 1. Also liefert die
Substitution
Z e
Z ln(e)
Z 1
Z e
1
1
1
1
dt
dt =
=
dx =
dx
1 + ln(t) t
1 t 1 + ln(t)
ln(1) 1 + x
0 1+x
1
1
= ln |1 + x| = ln(2) − ln(1) = ln(2) − 0 = ln(2).
0
Wir betrachten nun einige sehr gängige Substitutionen.
Substitution t = ex
Für Integrale mit (ganzzahligen) Potenzen von ex verwenden wir die Substitution t = ex ,
also x = ln(t), und damit
dt
= ex = t
dx
⇐⇒
dx =
1
dt.
t
256
9.5. Integration durch Substitution
Betrachten wir dazu zwei Beispiele.
Beispiel 9.29. (Substitution t = ex ) Wir substituieren in
Z
Z
1 + (ex )2
1 + e2x
dx
=
dx
ex
ex
1
dt
= ex = t d.h. dx = dt. Dann gilt
t = ex , also
dx
t
Z
Z 2
Z Z
2x
2
1+e
1+t 1
1
t +1
dx =
· dt
dt
=
=
1 + 2 dt
ex
t
t
t2
t
t=ex
t=ex
t=ex
1
1
= ex − x + c = ex − e−x + c.
= t− +c
t
e
t=ex
Beispiel 9.30. (Substitution t = ex ) Um das unbestimmte Integral
Z
cosh(x)
dx
1 + ex
zu berechnen drücken wir zunächst den cosh(x) durch die Exponentialfunktion aus, also
cosh(x) = (ex + e−x )/2. Somit
Z
Z x
Z
cosh(x)
e + e−x
1
1 ex + e−x
dx
=
dx
=
dx.
1 + ex
2 1 + ex
2
1 + ex
1
dt
= ex = t d.h. dx = dt. Dann gilt
Wir substituieren nun t = ex , also
dx
t
" Z
#
Z 2
Z x
Z
t + 1t 1
e + e−x
t +1
1
1
1
cosh(x)
dx =
dx =
dt
dt
=
1 + ex
2
1 + ex
2
(1 + t) t
2
t2 + t3
t=ex
x
t=e
Z
Z
Z
1
t2 + 1
t2
1
1
1
=
dt
dt +
dt
=
2
t2 (1 + t)
2
t2 (1 + t)
2
t2 (1 + t)
t=ex
t=ex
Z
Z
Z
1
1
1
1
1
1
1
dt +
dt
ln |1 + t| +
dt
=
=
.
2
1+t
2
t2 (1 + t)
2
2
t2 (1 + t)
t=ex
t=ex
Unklar ist noch, wie man das verbleibende Integral
Z
1
dt
2
t (1 + t)
berechnet. Dies erfordert die Methode der Partialbruchzerlegung, die wir in Teilkapitel 9.6
besprechen.
Substitution t =
√
n
ax + b
√
Für √
Integrale mit Potenzen von x und n a x + b, n ∈ N, verwenden wir die Substitution
t = n a x + b, und durch Auflösen nach x finden wir
√
tn − b
tn − b
n
⇐⇒
tn = a x+b
⇐⇒
=x
⇐⇒
x=
t = ax+ b
a
a
9. Integration
257
und erhalten somit
n tn−1
n
dx
=
= tn−1
dt
a
a
⇐⇒
dx =
n n−1
t
dt.
a
Betrachten wir dazu zwei Beispiele.
Beispiel 9.31. (Substitution t =
√
n
a x + b) Um das unbestimmte Integral
Z
x
√
dx
x−1
√
zu berechnen, substituieren wir t = x − 1 bzw. x = t2 + 1 und somit
dx
= 2t
dt
⇐⇒
dx = 2 t dt.
Also erhalten wir
Z
Z 2
Z
x
t +1
2
√
= 2
t + 1 dt √
2 t dt √
dx =
t
x−1
t= x−1
t= x−1
1 3
2 3
= 2
=
t +t+c
t +2t+2c √
√
3
3
t= x−1
t= x−1
=
2
(x − 1)3/2 + 2 (x − 1)1/2 + c̃
3
mit der neuen Integrationskonstante c̃ = 2 c. Im letzten Schritt haben wir (x − 1)1/2 =
√
x − 1 genutzt.
Beispiel 9.32. (Substitution t =
√
n
zu berechnen setzen wir
√
3
3
t = x + 1 ⇐⇒ x = t − 1
a x + b) Um das unbestimmte Integral
Z √
3
x+1
dx
x
=⇒
dx
= 3 t2
dt
⇐⇒
dx = 3 t dt .
2
Also erhalten wir
Z
Z
Z √
3
t
x+1
t3
2
dx =
3 t dt √
dt √
= 3
x
t3 − 1
t3 − 1
t= 3 x+1
t= 3 x+1
Z Z 3
1
(t − 1) + 1
= 3
1+ 3
dt √
dt √
= 3
t3 − 1
t −1
t= 3 x+1
t= 3 x+1
Z
Z
Z
1
1
= 3t+3
.
dt √
dt √
= 3 1 dt + 3
t3 − 1
t3 − 1
t= 3 x+1
t= 3 x+1
258
9.5. Integration durch Substitution
Wir können bei der Berechnung des ersten unbestimmten Integrals
Z
1 dt
die Integrationskonstante weglassen, weil in dem zweiten unbestimmten Integral
Z
1
dt
3
t −1
noch eine Integrationskonstante enthalten ist.
Unklar ist noch, wie man der verbleibende Integral
Z
1
dt
3
t −1
berechnet. Dies erfolgt ebenfalls mit der Methode Partialbruchzerlegung, die wir im nächsten Teilkapitel besprechen.
Substitution x = sin(t)
√
Für Integrale mit Potenzen von x und 1 − x2 verwenden wir die Substitution
q
√
2
1 − x2 = 1 − sin(t) = cos(t)
x = sin(t) ⇐⇒ t = arcsin(x)
=⇒
und somit
q
2 √
dx
= cos(t) = 1 − sin(t) = 1 − x2
=⇒
dt
1
dx = cos(t) dt
⇐⇒
dt = √
dx .
1 − x2
Betrachten wir hierzu ein einfaches Beispiel.
Beispiel 9.33. (Substitution x = sin(t)) Um das unbestimmte Integral
Z
x2
√
dx
1 − x2
zu berechnen, setzen wir
x = sin(t) ⇐⇒ t = arcsin(x)
=⇒
dx
= cos(x) ⇐⇒ dx = cos(t) dt .
dt
Wir erhalten damit
"Z
Z
x2
√
dx =
1 − x2
#
2
sin(t)
cos(t) dt
cos(t)
=
t=arcsin(x)
Z
√
1 − x2 = cos(t),
sin(t)
2
dt
. (9.16)
t=arcsin(x)
9. Integration
259
Das Integral
Z
sin(t)
2
dt =
Z
sin(t) sin(t) dt
kann mit partieller Integration mit f ′ (t) = sin(t), g(t) = sin(t) und somit f (t) = − cos(t)
und g ′ (t) = cos(t) berechnet werden:
Z
Z
Z
2
sin(t) dt = sin(t) sin(t) dt = − cos(t) sin(t) −
− cos(t)) cos(t) dt
Z
2
= − cos(t) sin(t) +
cos(t) dt.
Addition von
2
Z
Z
sin(t)
sin(t)
2
2
dt auf beiden Seiten und cos(t)
dt = − cos(t) sin(t) +
= − cos(t) sin(t) +
= − cos(t) sin(t) +
Z
cos(t)
Z h
Z
2
cos(t)
1 dt
2
+ sin(t)
dt +
2
Z
2
= 1 liefert
sin(t)
+ sin(t)
2 i
2
dt
dt
= − cos(t) sin(t) + t + c
= t − cos(t) sin(t) + c
und somit
Z
1
t − cos(t) sin(t) + c .
(9.17)
2
q
2
2
2
Wir ersetzen noch den Kosinus durch cos(t) = 1 − sin(t) (da sin(t) + cos(t) = 1)
und erhalten somit
Z
q
2
2
1
t − sin(t) 1 − sin(t) + c .
sin(t) dt =
2
Nach dem Rückgängigmachen der Substitution finden wir nun wegen sin arcsin(x) = x
Z
sin(t)
x2
√
dx =
1 − x2
Z
2
dt =
sin(t)
2
dt
t=arcsin(x)
q
2
1
t − 1 − sin(t) sin(t) + c
=
2
t=arcsin(x)
=
√
1
arcsin(x) − x 1 − x2 + c .
2
Betrachten wir noch ein weiteres Beispiel, welches schwieriger und rechenaufwändiger ist,
da wir mehrfach substituieren müssen.
260
9.5. Integration durch Substitution
Beispiel 9.34. (Substitution x = sin(t)) Um das unbestimmte Integral
Z
√
x2 1 − x2 dx
zu berechnen, setzen wir
x = sin(t) ⇐⇒ t = arcsin(x)
=⇒
dx
= cos(x) ⇐⇒ dx = cos(t) dt .
dt
Wir erhalten damit
Z
Z
√
2
x 1 − x2 dx =
=
Z
Z
1
=
4
sin(t)
2
cos(t) =
√
1 − x2 ,
cos(t) · cos(t) dt
2
sin(t) cos(t) dt
2
sin(2t) dt
t=arcsin(x)
t=arcsin(x)
,
(9.18)
t=arcsin(x)
wobei wir im letzten Schritt das Additionstheorem
⇐⇒
sin(t) cos(t) + sin(t) cos(t) = sin(t + t) = sin(2t)
{z
}
|
= 2 sin(t) cos(t)
sin(t) cos(t) =
1
sin(2t)
2
(9.19)
benutzt haben.
dy
1
= 2 ⇔ dt = dy, erhält man weiter
dt
2
Z
2
2
1
sin(2t) dt
=
sin(y) dy
8
t=arcsin(x)
y=2 arcsin(x)
Mit der Substitution y = 2 t,
Z
1
4
(9.20)
Das Integral auf der rechten Seite wurde bereits im vorigen Beispiel berechnet und wir
erhielten (siehe (9.17))
Z
2
1
y − cos(y) sin(y) + c .
sin(y) dy =
2
Damit folgt aus (9.18) und (9.20)
Z
Z
√
2
1
2
sin(y) dy
x 1 − x2 dx =
8
y=2 arcsin(x)
1 =
y − cos(y) sin(y) + c
16
y=2 arcsin(x)
1
c
1
y−
cos(y) sin(y) +
=
16
16
16
y=2 arcsin(x)
9. Integration
261
1
1
c
arcsin(x) −
cos 2 arcsin(x) sin 2 arcsin(x) +
. (9.21)
8
16
16
Wir nutzen die Additionstheoreme
q
2
sin(2w)
= sin(w) cos(w) + sin(w) cos(w) = 2 sin(w) cos(w) = 2 sin(w) 1 − sin(w) ,
| {z }
= sin(w + w)
2
2
2
2
2
cos(2w)
= cos(w) − sin(w) = 1 − sin(w) − sin(w) = 1 − 2 sin(w) ,
| {z }
= cos(w + w)
q
2
wobei wir cos(w) = 1 − sin(w) genutzt haben, um weiter zu vereinfachen. Wegen
sin(arcsin(x)) = x folgt aus den obigen Formeln
√
und
cos 2 arcsin(x) = 1 − 2 x2 .
sin 2 arcsin(x) = 2 x 1 − x2
=
Einsetzen in (9.21) liefert
Z
√
1
x2 1 − x2 dx = arcsin(x) −
8
1
= arcsin(x) −
8
1
= arcsin(x) −
8
√
1
c
1 − 2 x2 2 x 1 − x2 +
16
16
c
1
(1 − x2 ) − x2 x (1 − x2 )1/2 +
8
16
1
1
x (1 − x2 )3/2 + x3 (1 − x2 )1/2 + c̃
8
8
mit der neuen Integrationskonstanten c̃ = c/16.
Substitution x = cosh(t)
√
Für Integrale mit Potenzen von x und x2 − 1 verwenden wir die Substitution x =
cosh(t). Wir betrachten hier nur x ≥ 0 oder x ≤ 0, da der Kosinus Hyperbolicus nur für
x ≥ 0 oder für x ≤ 0 injektiv ist. Wir substituieren x = cosh(t) und erhalten wegen der
2
2
Beziehung cosh(t) − sinh(t) = 1 für diese Substitution
q
√
2
2
cosh(t) − 1 = sinh(t),
x −1 =
x = cosh(t) ⇐⇒ t = arccosh(t)
=⇒
dx
= sinh(t) ⇐⇒ dx = sinh(t) dt .
dt
Betrachten wir zwei Beispiele.
Beispiel 9.35. (Substitution x = cosh(t)) Um das unbestimmte Integral
Z
1
√
dx
x2 − 1
zu berechnen, substituieren wir
x = cosh(t) ⇐⇒ t = arccosh(x)
=⇒
√
x2
−1 =
q
cosh(t)
2
− 1 = sinh(t),
262
9.5. Integration durch Substitution
dx
= sinh(t)
dt
⇐⇒
dx = sinh(t) dt ,
2
2
wobei wir cosh(t) − sinh(t) = 1 genutzt haben. Damit erhalten wir
Z
Z
Z
1
1
√
sinh(t) dt
=
1 dt
dx =
sinh(t)
x2 − 1
t=arccosh(x)
t=arccosh(x)
= t + c t=arccosh(x) = arccosh(x) + c.
√
2
Wir sehen
√ also, dass arccosh(x) eine Stammfunktion von 1/ x − 1 ist, oder umgekehrt,
dass 1/ x2 − 1 die Ableitung von arccosh(x) ist.
Beispiel 9.36. (Substitution x = cosh(t)) Um das unbestimmte Integral
Z √
x2 − 1 dx
zu berechnen, substituieren wir
q
√
2
x = cosh(t) ⇐⇒ t = arccosh(x)
=⇒
cosh(t) − 1 = sinh(t),
x2 − 1 =
dx
= sinh(t) ⇐⇒ dx = sinh(t) dt ,
dt
2
2
wobei wir cosh(t) − sinh(t) = 1 genutzt haben. Damit erhalten wir
Z
Z
Z √
2
x2 − 1 dx =
sinh(t) dt
sinh(t) sinh(t) dt
=
. (9.22)
t=arccosh(x)
t=arccosh(x)
Mit partieller Integration erhält man mit f ′ (t) = sinh(t) und g(t) = sinh(t) und somit
f (t) = cosh(t) und g ′ (t) = cosh(t)
Z
Z
2
sinh(t) dt = cosh(t) sinh(t) − cosh(t) cosh(t) dt
Z
2
= cosh(t) sinh(t) −
cosh(t) dt
Wir addieren nun auf beiden Seiten
2
Z
sinh(t)
2
Z
sinh(t)
dt = cosh(t) sinh(t) −
= cosh(t) sinh(t) −
= cosh(t) sinh(t) −
2
Z
2
2
dt und nutzen cosh(t) − sinh(t) = 1.
cosh(t)
Z Z
cosh(t)
1 dt
= cosh(t) sinh(t) − t + c.
2
dt +
2
Z
sinh(t)
− sinh(t)
2 2
dt
dt
9. Integration
263
Also finden wir
Z
2
t
c
1
cosh(t) sinh(t) − + .
2
2 2
q
2
2
2
Wir drücken noch sinh(t) mittels cosh(t) − sinh(t) = 1 durch sinh(t) =
cosh(t) − 1
aus.
Z
q
2
2
c
1
t
sinh(t) dt = cosh(t)
cosh(t) − 1 − + .
2
2 2
Einsetzen in (9.22) und Ausnutzen von cosh arccosh(x) = x liefert
Z
Z √
2
x2 − 1 dx =
sinh(t) dt
sinh(t)
dt =
t=arccosh(x)
1
cosh(t)
=
2
=
q
cosh(t)
2
t
c
−1− +
2 2
t=arccosh(x)
1 √ 2
arccosh(x)
x x −1−
+ c̃
2
2
mit der neuen Integrationskonstanten c̃ = c/2.
Substitution von x = sinh(t)
√
Für Integrale mit Potenzen von x und x2 + 1 verwenden wir die Substitution x = sinh(t)
2
2
und erhalten wegen der Beziehung cosh(t) − sinh(t) = 1 für diese Substitution
q
√
2
x2 + 1 =
x = sinh(t) ⇐⇒ t = arcsinh(t)
=⇒
sinh(t) + 1 = cosh(t),
dx
= cosh(t) ⇐⇒ dx = cosh(t) dt .
dt
Betrachten wir zwei Beispiele.
Beispiel 9.37. (Substitution von x = sinh(x)) Um das unbestimmte Integral
Z
1
√
dx
x2 + 1
2
2
zu berechnen, substituieren wir x = sinh(t) und erhalten wegen cosh(t) − sinh(t) = 1
für diese Substitution
q
√
2
2
x = sinh(t) ⇐⇒ t = arcsinh(t)
=⇒
x +1=
sinh(t) + 1 = cosh(t),
dx
= cosh(t) ⇐⇒ dx = cosh(t) dt .
dt
Also gilt
Z
√
1
x2 + 1
dx =
Z
1
cosh(t) dt
cosh(t)
t=arcsinh(x)
264
9.5. Integration durch Substitution
=
Z
1 dt
t=arcsinh(x)
= t + c t=arcsinh(x) = arcsinh(x) + c
√
2
Wir sehen
√ also, dass arcsinh(x) eine Stammfunktion von 1/ x + 1 ist, oder umgekehrt,
dass 1/ x2 + 1 die Ableitung von arcsinh(x) ist.
Beispiel 9.38. (Substitution von x = sinh(x)) Um das unbestimmte Integral
Z r 2
Z √ 2
Z r
x +1
x +1
1
dx =
dx,
wobei x > 0,
1 + 2 dx =
2
x
x
x
2
2
zu berechnen, substituieren wir x = sinh(t) und erhalten wegen cosh(t) − sinh(t) = 1
für diese Substitution
q
√
2
2
x = sinh(t) ⇐⇒ t = arcsinh(t)
=⇒
sinh(t) + 1 = cosh(t),
x +1=
dx
= cosh(t) ⇐⇒ dx = cosh(t) dt .
dt
Also gilt
Z r
1
1 + 2 dx =
x
Z √
x2 + 1
dx =
x
=
Z
"Z
cosh(t)
cosh(t) dt
sinh(t)
t=arcsinh(x)
2 #
cosh(t)
dt
sinh(t)
.
t=arcsinh(x)
Nun ersetzen wir den Kosinus Hyperbolicus und den Sinus Hyperbolicus durch ihre Definitionen mit der Exponentialfunktion cosh(t) = (et + e−t )/2 und sinh(t) = (et − e−t )/2.
2
2
Z 2t
Z 1 t
Z
(e + e−t )
cosh(t)
e + 2 + e−2t
1
2
dt =
dt,
dt =
1
sinh(t)
2
et − e−t
(et − e−t )
2
wobei wir 2 et e−t = 2 et−t = 2 e0 = 1 genutzt haben. Wir substituieren nun y = et , also
t = ln(y), dy/dt = et = y ⇔ dt = dy/y, und somit
" Z 2
#
Z 2t
y + 2 + y12 1
1
e + 2 + e−2t
1
dt =
dy
2
et − e−t
2
y
y − y1
y=ln(x)
Z 4
1
y + 2 y2 + 1
=
dy
2
y4 − y2
y=ln(x)
Z
(y 4 − y 2 ) + (3 y 2 + 1)
1
dy
=
2
y4 − y2
y=ln(x)
Z 3 y2 + 1
1
1+ 4
dy
=
2
y − y2
y=ln(x)
9. Integration
265
Z
Z
1
3 y2 + 1
1
1 dy +
dy
=
2
2
y4 − y2
y=ln(x)
1
1
y+
=
2
2
Z
3 y2 + 1
dy
y4 − y2
y=ln(x)
Wie man das verbleibende Integral
Z
3 y2 + 1
dy
y4 − y2
berechnet ist noch unklar. Wir werden im nächsten Teilkapitel sehen, wie wir solche
Integrale mit der Methode der Partialbruchzerlegung lösen können.
Einige der vorigen Beispiele zeigen, dass man oft Stammfunktionen von rationalen Funktionen (also Funktionen der Form P (x)/Q(x) mit Polynomen P, Q) bestimmen muss.
Dazu benötigt man die sogenannte Methode der Partialbruchzerlegung, die wir im nächsten Teilkapitel besprechen.
9.6
Integrationsmethoden für rationale Funktionen:
Partialbruchzerlegung
Mit der Methode der Partialbruchzerlegung kann man rationale Funktionen
P (x)
,
Q(x)
wobei P (x) und Q(x) Polynome sind,
integrieren. Dazu geht man in zwei groben Schritten vor:
Schritt A: Zunächst prüft man, ob der Grad des Zählerpolynoms P geringer ist als
der Grad des Nennerpolynoms Q. Ist dies nicht der Fall, so führt man eine sogenannte
Polynomdivision durch. Als Ergebnis der Polynomdivision erhält man
Pe(x)
P (x)
= R(x) +
,
Q(x)
Q(x)
mit R(x) und Pe(x) Polynomen,
wobei der Grad von Pe echt kleiner ist als der Grad von Q. Das Polynom R lässt
sich leicht integrieren, und wir müssen uns nun nur noch mit der rationalen Funktion
Pe(x)
Q(x)
befassen. Nun befinden wir uns wieder in der Situation, dass wir eine rationale Funktion
integrieren müssen, bei der der Grad des Zählerpolynoms Pe echt kleiner ist als der Grad
des Nennerpolynoms Q.
Schritt B: Wir brauchen also eine Methode, um rationale P/Q Funktionen zu integrieren, deren Zählerpolynom P einen echt kleinen Grad hat als deren Nennerpolynom Q. Dieses Verfahren wird von der Methode der Partialbruchzerlegung geliefert.
266
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
Die Idee dieses Verfahrens ist zunächst das Nennerpolynom Q zu faktorisieren, also als
Produkt von Faktoren (x − a) und (x − a)2 + b2 mit geeigneten a und b zu schreiben.
Sodann schreiben wir die zu integrierende rationale Funktion P/Q als Summe einfacherer
rationaler Funktionen, deren Zähler Konstanten oder affin lineare Funktionen sind und
deren Nenner Potenzen von (x − a) oder (x − a)2 + b2 sind. Diese rationalen Funktionen
lassen sich nun alle mit Standardverfahren integrieren.
Wir erklären zunächst das Verfahren der Polynomdivision und anschließend die Methode
der Partialbruchzerlegung.
Polynomdivision
Um ein Polynom P durch ein Polynom Q zu dividieren, also
P (x)
= P (x) : Q(x),
Q(x)
führt man eine Polynomdivision wie folgt durch. Dabei muss der Grad des Zählerpolynoms P größer oder gleich dem Grad des Nennerpolynoms Q sein.
(1) Schreiben Sie die Polynome jeweils sortiert nach den Exponenten in absteigender
Reihenfolge auf.
(2) Dividieren Sie den ersten Term des Zählerpolynoms P durch den ersten Term des
Nennerpolynoms Q und notieren Sie das Ergebnis.
(3) Multiplizieren Sie dieses Ergebnis mit dem Nennerpolynom Q und subtrahieren Sie
alles vom Zählerpolynom P .
(4) Wiederholen Sie die Schritte (1) – (3) mit dem Restpolynom in analoger Weise so
lange, bis der Grad des Restpolynoms kleiner ist als der Grad des Nennerpolynoms.
(5) Zu dem bisherigen (Teil-)Ergebnis der Polynomdivision wird ein Bruch addiert, dessen
Zähler das Restpolynom aus Schritt (4) und dessen Nenner das Nennerpolynom Q
ist.
Betrachten wir ein Beispiel.
Beispiel 9.39. (Polynomdivision) Wir dividieren das Polynom P (x) = x2 + 2 x + 2
vom Grad 2 durch das Polynom Q(x) = x + 1 vom Grad 1 mittels Polynomdivision:
(x2
−(x2
+2x +2) : (x + 1) = x + 1 +
+x)
x
−(x
+2
+1)
1
1
.
x+1
9. Integration
267
Wir sehen, dass das Ergebnis
Pe(x)
x2 + 2 x + 2
1
P (x)
=
= x+1 +
= R(x) +
| {z }
Q(x)
x+1
x+1
Q(x)
= R(x)
mit
Pe(x) := 1
kein Polynom ist.
In speziellen Fällen kann die Division eines Polynoms P vom Grad n durch ein Polynom
Q vom Grad m ≤ n aber wieder zu einem Polynom vom Grad n − m führen. Dies ist
genau dann der Fall, wenn die Polynomdivision
P (x)
Pe(x)
R(x) = Polynom vom Grad n − m,
= P (x) : Q(x) = R(x) +
mit
Pe(x) = Restpolynom vom Grad < m,
Q(x)
Q(x)
das Restpolynom Pe(x) = 0 liefert.
Beispiel 9.40. (Polynomdivision mit Rest Null) Seien P (x) = 2 x2 + 10 x + 12 und
und Q(x) = 2 x + 4. Aus der Faktorisierung (wir benutzen den Wurzelsatz von Vieta)
P (x) = 2 x2 + 10 x + 12 = 2 x2 + 5 x + 6 = 2 (x + 2) (x + 3)
und Q(x) = 2 (x + 2) sieht man direkt, dass
2 x2 + 10 x + 12
2 (x + 2) (x + 3)
P (x)
=
=
= x+3
Q(x)
2x+4
2 (x + 2)
das Polynom R(x) = x + 3 vom Grad 2 − 1 = 1 ist.
Wir halten unsere Erkenntnisse in einem Satz fest.
Satz 9.41. (Polynomdivision) Sei P (x) = Pn (x) ein Polynom vom Grad n, und sei
Q(x) = Qm (x) ein Polynom vom Grad m, und sei n ≥ m ≥ 0. Dann liefert die Polynomdivision genau eine Darstellung
Pe(x)
Pn (x)
= Rn−m (x) +
.
Qm (x)
Qm (x)
wobei R(x) = Rn−m (x) ein Polynom vom Grad n − m und Pe(x) das Restpolynom ist,
welches einen Grad echt kleiner als m besitzt oder gleich dem Nullpolynom ist.
Partialbruchzerlegung: Verschiedene Beispiele
Die Grundidee der Partialbruchzerlegung einer rationalen Funktion P (x)/Q(x), wobei
der Grad des Zählerpolynom P echt kleiner als der Grad des Nennerpolynoms Q ist, ist
die rationale Funktion als Summe einfacher“ Brüche zu schreiben, etwa
”
1
1
1
1
=
=
− .
2
x −x
x (x − 1)
x−1 x
268
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
Was für eine genaue Gestalt die einfachen“ Brüche haben sollen und auch wie wir diese
”
berechnen, muss dabei noch präzisiert werden.
Betrachten wir zunächst einige konkrete Beispiele, für die wir die Partialbruchzerlegung
durchführen.
Beispiel 9.42. (Partialbruchzerlegung: Nenner hat nur einfache reelle Nullstellen) Wir wollen das Integral
Z
x4 − 8 x2 − 4 x + 13
dx =
x3 − 2 x2 − 5 x + 6
Z
P (x)
dx
Q(x)
mit P (x) = x4 − 8 x2 − 4 x + 13 und Q(x) = x3 − 2 x2 − 5 x + 6 berechnen.
Da der Grad 4 des Zählerpolynoms P höher ist als der Grad 3 des Nennerpolynoms Q,
führen wir zunächst eine Polynomdivision durch:
(x4
−(x4
−2 x3
3
2x
−(2 x3
−8 x2
−5 x2
3
−3 x
−4 x2
x2
−4 x
+6 x)
+13) : (x3 − 2 x2 − 5 x + 6) = x + 2 +
x2 + 1
x3 − 2 x2 − 5 x + 6
−10 x +13
−10 x +12)
+1
Wir finden also
P (x)
x4 − 8 x2 − 4 x + 13
x2 + 1
= 3
=
x
+
2
+
,
Q(x)
x − 2 x2 − 5 x + 6
x3 − 2 x2 − 5 x + 6
(9.23)
wobei wir das Polynom R(x) = x + 2 nun leicht integrieren können und wobei die verbleibende rationale Funktion
Pe(x)
x2 + 1
= 3
Q(x)
x − 2 x2 − 5 x + 6
nun ein Zählerpolynom Pe mit einem echt kleineren Grad als den Grad des Nennerpolynoms Q hat.
Nun faktorisieren wir den Nenner und finden
x3 − 2 x2 − 5 x + 6 = (x − 3) (x − 1) (x + 2).
(9.24)
Um (9.24) zu bestimmen, geht man wie folgt vor: Man probiert zunächst ganzzahlige
Nullstellen durch Einsetzen aus. So findet man für x = 1
h
i
3
2
Q(1) = x − 2 x − 5 x + 6
= 1 − 2 − 5 + 6 = 0;
x=1
also ist x = 1 eine Nullstelle. Polynomdivision des Nenners Q durch (x − 1) liefert nun
9. Integration
269
(x3
−(x3
−2 x2
−x2 )
−x2
−(−x2
−5 x
+6) : (x − 1) = x2 − x − 6
−5 x
+x)
+6
−6 x
−(−6 x
+6
+6)
0
Also gilt
x3 − 2 x2 − 5 x + 6 = (x − 1) (x2 − x − 6) = (x − 1) (x + 2) (x − 3) = (x − 3) (x − 1) (x + 2),
wobei wir x2 − x − 6 mit dem Wurzelsatz von Vieta faktorisiert haben (kann ebenso mit
p-q-Formel geschehen).
Wir können unsere noch zu integrierende rationale Funktion nun schreiben als
x2 + 1
x2 + 1
Pe(x)
= 3
=
.
Q(x)
x − 2 x2 − 5 x + 6
(x − 3) (x − 1) (x + 2)
Nun nehmen wir die Partialbruchzerlegung vor: In diesem Fall faktorisiert der Nenner
komplett in verschiedene einfache reelle Nullstellen. Daher wählen wir den Ansatz
x2 + 1
A
B
C
=
+
+
(x − 3) (x − 1) (x + 2)
x−3 x−1 x+2
mit noch zu berechnenden Konstanten A, B und C.
Um die Konstanten A, B und C zu berechnen, bringen wir die drei Brüche auf der rechten
Seite zunächst auf einen gemeinsamen Nenner und sortieren im Zähler dann nach Potenzen
von x.
A
B
C
x2 + 1
=
+
+
(x − 3) (x − 1) (x + 2)
x−3 x−1 x+2
=
A (x − 1) (x + 2) + B (x − 3) (x + 2) + C (x − 3) (x − 1)
(x − 3) (x − 1) (x + 2)
=
A (x2 + x − 2) + B (x2 − x − 6) + C (x2 − 4 x + 3)
(x − 3) (x − 1) (x + 2)
=
(A + B + C) x2 + (A − B − 4 C) x + (−2 A − 6 B + 3 C)
(x − 3) (x − 1) (x + 2)
Nun nehmen wir einen Koeffizientenvergleich vor, d.h. die Koeffizienten der gleichen
x-Potenzen im Zähler müssen links und rechts übereinstimmen. Dies liefert das folgende
Gleichungssystem:
A +B
+C = 1
A − B −4C = 0
270
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
−2 A − 6 B + 3 C = 1
Wir subtrahieren zunächst die erste Gleichung von der zweiten Gleichung, und dann
addieren wir die erste Gleichung multipliziert mit 2 zu der letzten Gleichung:
A +B
+C = 1
− 2 B − 5 C = −1
− 4B+5C = 3
Nun subtrahieren wir die neue zweite Gleichung multipliziert mit 2 von der neuen letzten
Gleichung:
A +B +C = 1
− 2 B− 5 C = −1
15 C = 5
Aus der neuen letzten Gleichung können wir nun C = 1/3 ablesen, und die neue zweite
Gleichung liefert
−2 B − 5 C = −1
−2 B = −1 + 5 C = −1 +
=⇒
2
5
=
3
3
=⇒
B=−
1
.
3
Aus der ersten Gleichung erhalten wir schließlich
A+B+C =1
1
1
A= 1−B−C =1− −
− = 1.
3
3
=⇒
Also haben wir die Konstanten
A = 1,
B=−
1
3
und
C=
1
.
3
Somit liefert die Partialbruchzerlegung
x2 + 1
1
1
1
1
1
x2 + 1
=
=
− ·
+ ·
,
3
2
x − 2x − 5x+ 6
(x − 3) (x − 1) (x + 2)
x−3 3 x−1 3 x+2
und wir können das Integral nun leicht berechnen:
Z
Z x2 + 1
1
1
1
1
1
dx
dx =
− ·
+ ·
x3 − 2 x2 − 5 x + 6
x−3 3 x−1 3 x+2
Z
Z
Z
1
1
1
1
1
dx −
dx +
dx
=
x−3
3
x−1
3
x+2
1
1
= ln |x − 3| − ln |x − 1| + ln |x + 2| + c.
3
3
Also finden wir für das Integral über unsere ursprüngliche rationale Funktion (9.23)
Z
Z
Z 4
x2 + 1
x − 8 x2 − 4 x + 13
dx = (x + 2) dx +
dx
x3 − 2 x2 − 5 x + 6
x3 − 2 x2 − 5 x + 6
=
1
1
1 2
x + 2 x + ln |x − 3| − ln |x − 1| + ln |x + 2| + c.
2
3
3
9. Integration
271
In dem vorigen Beispiel hatte das Nennerpolynom lauter einfache reelle Nullstellen, und
es blieben keine quadratischen Terme ohne reelle Nullstellen übrig. Für die beiden Fälle,
dass mehrfache reelle Nullstellen auftreten oder dass bei der Faktorisierung des Nenners
quadratische Terme ohne reelle Nullstellen übrig belieben, muss man den Ansatz in der
Partialbruchzerlegung anpassen. Wir betrachten auch hierzu jeweils ein Beispiel.
Beispiel 9.43. (Partialbruchzerlegung: Nenner hat nur einfache und mehrfache
reelle Nullstellen) Wir wollen die rationale Funktion
P (x)
1
=
Q(x)
(x − 1)2 (x + 2)
integrieren. Hier hat das Zählerpolynom P (x) = 1 bereits einen echt kleineren Grad als
das Nennerpolynom Q, und das Nennerpolynom Q(x) = (x − 1)2 (x + 2) liegt bereits
faktorisiert vor. Also können hier die Schritte Polynomdivision“ und Faktorisierung des
”
”
Nennerpolynoms“ entfallen.
Für die Partialbruchzerlegung macht man nun den folgenden Ansatz:
1
(x −
1)2 (x
+ 2)
=
A
B
C
+
+
.
2
x − 1 (x − 1)
x+2
(9.25)
Wir müssen nun die drei Konstanten A, B und C bestimmen. Anstatt die drei Brüche
auf der rechten Seite auf den gemeinsamen Hauptnenner zu bringen, kann man auch drei
geeignete x-Werte in (9.25) einsetzen und die drei so ermittelten Gleichungen verwenden
und das daraus resultierende Gleichungssystem lösen, um A, B und C zu bestimmen.
Wir verwenden zum Beispiel die x-Werte x = 2, x = −1 und x = 0 und erhalten durch
Einsetzen in (9.25):
x=2:
x = −1 :
x=0:
1
= A
+B +
4
1
1
1
= − A+ B +
4
2
4
1
= −A
+B +
2
1
C
4
C
1
C
2
Wir erhalten also das folgende lineare Gleichungssystem, wobei wir die zweite Gleichung
noch mit 2 multipliziert haben:
1
1
C=
4
4
1
1
−A + B + 2 C =
2
2
1
1
−A + B + C =
2
2
A +B +
Wir addieren die erste Gleichung jeweils zu der zweiten Gleichung und der dritten Gleichung:
A+B+
1
1
C=
4
4
272
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
3
9
3
B+ C =
2
4
4
3
3
2B + C =
4
4
Wir multiplizieren die neue zweite Gleichung mit 4/3 und subtrahieren sie anschließend
von der neuen dritten Gleichung:
1
1
C=
4
4
2B +3C = 1
A+B+
−
9
1
C=−
4
4
Aus der neuen letzten Gleichung können wir nun ablesen, dass C = 1/9 ist. Wir setzen
dies in die neue vorletzte Gleichung ein und lösen nach B:
2B +3C = 1
2B = 1−3C = 1−3·
=⇒
1
1
2
=1− =
9
3
3
=⇒
B=
1
.
3
Nun setzen wir B = 1/3 und C = 1/9 in die erste Gleichung ein und lösen nach A auf:
A+B +
1
1
C=
4
4
=⇒
1
1
1 1
1
9 − 12 − 1
4
1
−B − C = − −
=
=−
=− .
4
4
4 3 36
36
36
9
A=
Wir finden also die Konstanten
A=−
1
,
9
B=
1
3
und
C=
1
.
9
Wir finden somit die Partialbruchzerlegung
1
(x −
1)2
(x + 2)
=−
1
1
1
1
1
1
·
+ ·
+ ·
,
2
9 x − 1 3 (x − 1)
9 x+2
und diese können wir nun leicht integrieren:
Z Z
1
1
1
dx =
− ·
+
2
(x − 1) (x + 2)
9 x−1
Z
1
1
=−
dx +
9
x−1
=−
1
1
1
1
dx
·
+ ·
3 (x − 1)2 9 x + 2
Z
Z
1
1
1
1
dx +
dx
2
3
(x − 1)
9
x+2
1
1
1
1
ln |x − 1| − ·
+ ln |x + 2| .
9
3 x−1 9
Nun betrachten wir noch ein Beispiel für den Fall, wenn der faktorisierte Nenner quadratische Terme ohne reelle Nullstellen enthält.
Beispiel 9.44. (Partialbruchzerlegung: Nenner enthält quadratische Terme ohne reelle Nullstellen) Wir wollen die rationale Funktion
1
P (x)
=
Q(x)
(x − 1) (x2 + 1)
9. Integration
273
integrieren. Hier hat das Zählerpolynom P bereits einen echt kleineren Grad als das Nennerpolynom Q, und das Nennerpolynom Q liegt bereits faktorisiert vor. Also können wir
hier die Schritte Polynomdivision“ und Faktorisierung des Nennerpolynoms“ entfallen
”
”
lassen.
Für die Partialbruchzerlegung macht man nun den folgenden Ansatz:
A
Bx+C
1
=
+ 2
.
2
(x − 1) (x + 1)
x−1
x +1
(9.26)
Zu beachten ist hier insbesondere, dass der Partialbruch mit dem quadratischen Term im
Nenner im Zähler eine affin lineare Funktion B x + C anstatt einer Konstanten hat.
Um ein lineares Gleichungssystem zur Bestimmung der Koeffizienten zu erhalten setzen
wir wieder drei geeignete Punkte in (9.26) ein, nämlich x = 0, x = 2 und x = −1:
−1 = − A
x=0:
+C
1
2
1
= A + B + C
5
5
5
1
1
1
1
− = − A− B + C
4
2
2
2
x=2:
x = −1 :
Wir erhalten also das folgende lineare Gleichungssystem, wobei wir die dritte Gleichung
noch mit 1/2 multipliziert haben:
−A
+ C = −1
2
1
1
B+ C =
5
5
5
1
−A − B
+C = −
2
A+
Nun addieren wir die erste Gleichung zu der zweiten Gleichung und subtrahieren die erste
Gleichung von der letzten Gleichung:
−A
+ C = −1
2
6
4
B+ C =−
5
5
5
1
−B
=
2
Aus der neuen dritten Gleichung können wir B = −1/2 ablesen. Auflösen der neuen
zweiten Gleichung nach C und Einsetzen von B = −1/2 liefert:
6
4 5
2
B+ C=− ·
=⇒
B + 3 C = −2
5
5
5 2
3
1
1
=−
=⇒
C=− .
=⇒
3 C = −2 − B = −2 − −
2
2
2
274
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
Auflösen der ersten Gleichung nach A und Einsetzen von B = C = −1/2 liefert:
−A + C = −1
=⇒
A=C +1=−
1
1
+1= .
2
2
Also erhalten wir die Konstanten
A=
1
2
und
B=C=−
1
.
2
Das Ergebnis der Partialbruchzerlegung ist somit
1
1
1
1 x+1
1
1
1
x
1
1
= ·
− · 2
= ·
− · 2
− · 2
,
2
(x − 1) (x + 1)
2 x−1
2 x +1
2 x−1
2 x +1
2 x +1
wobei wir den letzten Bruch noch weiter zerlegt haben, da sich die beiden einzelnen Brüche
leichter integrieren lassen.
Z
Z 1
1
1
x
1
1
1
dx
dx =
·
− · 2
− · 2
(x − 1) (x2 + 1)
2 x−1
2 x +1
2 x +1
Z
Z
Z
1
1
x
1
1
1
=
dx −
dx −
dx
2
2
2
x−1
2
x +1
2
x +1
Z
Z
1
x
1
1
1
dx −
dx.
(9.27)
= ln |x − 1| −
2
2
2
2
x +1
2
x +1
Um das erste verbleibende Integral auszuwerten, nehmen wir die Substitution y = x2 ,
dy = 2 x dx, also dy/2 = x dx vor und finden so
Z
Z
1 1
1
1
x
2
dx
=
dy
ln
|y
+
1|
+
c
ln
|x
+
1|
+ c1 .
=
=
1
x2 + 1
y+1 2
2
2
y=x2
y=x2
Um das zweite verbleibende Integral zu berechnen, nutzen wir die Substitution
x = tan(t) ⇔ t = arctan(x)
=⇒
dx
=
dt
1
cos(t)
2
⇔ dx =
2
2
und erhalten mit Hilfe von cos(t) + sin(t) = 1
#
"Z
Z
1
1
1
dx =
2 dt
2
1 + x2
cos(t)
1 + tan(t)
t=arctan(x)
=
=
"Z
"Z
1
2
sin(t)
1+
2
cos(t)
cos(t)
2
1
cos(t)
1
+ sin(t)
#
2 dt
#
2 dt
t=arctan(x)
t=arctan(x)
1
cos(t)
!
2 dt ,
9. Integration
275
=
Z
1 dt
t=arctan(x)
h
i
= t + c2
t=arctan(x)
= arctan(x) + c2 .
Einsetzen der beiden Integrale in (9.27) liefert
Z
1
1
1
1
dx = ln |x − 1| − ln |x2 + 1| − arctan(x) + c.
2
(x − 1) (x + 1)
2
4
2
Methode der Partialbruchzerlegung
Wir halten nun allgemein fest, was wir an den Beispielen bereits für Einzelfälle beobachtet
haben.
Rechenschema für die Integration rationaler Funktionen:
Z
P (x)
Ziel: Berechnung von
dx für Polynome P und Q.
Q(x)
1. Schritt: Polynomdivision, falls Grad vom Zählerpolynom ≥ Grad vom Nennerpolynom.
Ist der Grad von P echt kleiner als der Grad von Q? Falls ja, gehen wir zum 2. Schritt.
Falls nein, führen wir die Polynomdivision für P (x)/Q(x) durch. Dies liefert
Pe(x)
P (x)
= R(x) +
Q(x)
Q(x)
mit den Polynomen R und Pe, wobei der Grad von Pe echt kleiner als der Grad von Q ist.
Also gilt nun
Z
Z
Z e
P (x)
P (x)
dx = R(x) dx +
dx,
Q(x)
Q(x)
und das erste Integral über das Polynom R ist leicht zu berechnen. Ist Pe ungleich dem
Nullpolynom, so wenden wir auf die neue rationale Funktion Pe/Q die nachfolgenden
Schritte an.
2. Schritt: Faktorisieren des Nennerpolynoms.
Wir faktorisieren nun das Nennerpolynom
Q(x), um es als Produkt von Faktoren der
n
Form (x − a)m und (x − a)2 + b2 mit geeigneten a und b zu schreiben.
Genauer muss man dazu zunächst alle reellen Nullstellen von Q bestimmen, was für
Polynome höheren Grades als 2 schwierig sein kann. Ist x = a eine Nullstelle, so liefert
diese einen Faktor der Form (x − a). Hat das Polynom Q genau k reelle Nullstellen
x1 , x2 , . . . , xk und kommt xj mit der Häufigkeit mj vor, so liefert dies eine Faktorisierung
Q(x) = (x − x1 )m1 (x − x2 )m2 . . . (x − xk )mk Qr (x)
mit einem Polynom Qr (x) ohne reelle
n Nullstellen. Anschließend ist Qr in quadratische
Faktoren der Form (x − a)2 + b2 zu zerlegen. Finden wir ℓ quadratische Faktoren
276
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
n
(x − aj )2 + b2j j , j = 1, 2, . . . , ℓ mit den Vielfachheiten nj , j = 1, 2, . . . , ℓ, so hat Qr eine
Faktorisierung der Form
n1
n2
n
Qr (x) = (x − a1 )2 + b21
(x − a2 )2 + b22
. . . (x − aℓ )2 + b2ℓ ℓ .
Das Nennerpolynom Q hat nun insgesamt eine Faktorisierung der Form
n
n
Q(x) = (x − x1 )m1 . . . (x − xk )mk (x − a1 )2 + b21 1 . . . (x − aℓ )2 + b2ℓ ℓ .
3. Schritt: Aufspalten in Partialbrüche.
Wir spalten P (x)/Q(x) bzw. Pe(x)/Q(x), falls im ersten Schritt eine Polynomdivision
durchgeführt wurde, mit dem folgenden
n Ansatz in Partialbrüche auf: Für jeden Faktor
(x−a)m bzw. jeden Faktor (x−a)2 +b2 in der Faktorisierung des Nenners wählen wir die
in der Tabelle angegebene Summe von Partialbrüchen. Diese Summen von Partialbrüchen
für die einzelnen Faktoren des Nennerpolynoms werden aufsummiert.
Faktor in Q(x)
Ansatz
(x − a)m
A1
A2
Am
+
+ ...+
2
x − a (x − a)
(x − a)m
(x − a)2 + b2
n
An x + Bn
A1 x + B1
A2 x + B2
n
+
.
.
.
+
+
2
(x − a)2 + b2
(x − a)2 + b2
(x − a)2 + b2
Für P (x)/Q(x) mit Grad von P < Grad von Q“ und
”
n1
n
Q(x) = (x − x1 )m1 . . . (x − xk )mk (x − a1 )2 + b21
. . . (x − aℓ )2 + b2ℓ ℓ
würden wir also den folgende Ansatz erhalten:
(1)
(1)
(1)
C1
C2
Cm1
P (x)
=
+
+ ...+
2
Q(x)
x − x1 (x − x1 )
(x − x1 )m1
(k)
(k)
(k)
C1
C2
Cmk
+ ...+
+
+
.
.
.
+
x − xk (x − xk )2
(x − xk )mk
(1)
+
(1)
(1)
(1)
(1)
(1)
A2 x + B2
An1 x + Bn1
A1 x + B1
n1
+
+ ...+
2
2
2
(x − a1 ) + b1
(x − a1 )2 + b21
(x − a1 )2 + b21
(ℓ)
(ℓ)
(ℓ)
(ℓ)
(ℓ)
(ℓ)
A2 x + B2
A x + B1
Anℓ x + Bnℓ
n ,
+
+ ...+ 1
2 + . . . +
2
2
2
2
(x − aℓ ) + bℓ
(x − aℓ )2 + b2ℓ ℓ
(x − aℓ ) + bℓ
wobei die oberen Indices der Konstanten anzeigen, zu welchem Faktor im Nenner die
Konstanten gehören. (Wir müssen sicherstellen, dass alle Konstanten in den einzelnen
Termen verschiedene Namen haben; sonst bekommen wir falsche Ergebnisse!)
Die Konstanten kann man nun auf verschiedenen Methoden bestimmen:
9. Integration
277
Koeffizientenvergleich: Zum einen können wir alle Partialbrüche auf einen Hauptnenner bringen. Dieser Hauptnenner ist dann nach der Konstruktion der Partialbruchzerlegung gerade das Polynom Q(x). Wie multiplizieren nun den Zähler aus, sortieren nach
Potenzen von x und bestimmen über einen Koeffizientenvergleich wie folgt Gleichungen
für die Konstanten: Zwei Polynome sind genau dann gleich, wenn die gleichen Potenzen
von x auftreten und wenn die Koeffizienten dieser Potenzen übereinstimmen. Da nun auf
beiden Seiten der gleiche Nenner Q(x) auftritt, wissen wir, dass die Zählerpolynome gleich
sind, wenn die gleichen Potenzen von x auftreten und deren Koeffizienten gleich sind. Die
so erhaltenen Gleichungen für die Koeffizienten liefern ein lineares Gleichungssystem für
die noch unbekannten Konstanten in der Partialbruchzerlegung.
Einsetzen spezieller Werte für x: Durch das Einsetzen von speziellen Werte von x, die
keine Nullstellen von Q(x) sind, erhalten wir jeweils eine Gleichung für die Konstanten.
Haben wir N Konstanten und erhalten wir durch Einsetzen von N verschiedenen Werten
von x also N solche Gleichungen und sind diese Gleichungen linear unabhängig“ (siehe
”
Teil IV: Lineare Algebra“), so erhalten wir ebenfalls ein lineares Gleichungssystem, aus
”
dem wir die Konstanten bestimmen können.
Grenzwertverfahren“: Man kann einzelne Konstanten mit einem Grenzwertverfah”
”
ren“ bestimmen, indem man beide Seiten, also P (x)/Q(x) bzw. Pe(x)/Q(x) und den Ansatz, mit der auftretenden höchsten Potenz einer reellen Nullstelle, also mit (x − a)m ,
multipliziert und dann den Grenzwert x → a betrachtet. Wir illustrieren dies unten an
einem Beispiel.
4. Schritt: Integration der Partialbrüche.
Nachdem wir die Partialbruchzerlegung ermittelt haben, können wir bequem integrieren.
Dabei finden wir
Z
1
dx = ln |x − a| + c,
(9.28)
x−a
Z
1
1
1
dx = −
+c
für m ≥ 2,
(9.29)
m
(x − a)
(m − 1) (x − a)m−1
Z
Aa+ B
A
x−a
Ax+ B
2
2
+ c. (9.30)
dx =
ln |(x − a) + b | +
arctan
(x − a)2 + b2
2
b
b
Für den Nenner ((x − a)2 + b2 )n mit n ≥ 2 lässt sich durch partielle Integration eine
Rekursionsformel zur Berechnung von
Z
Ax+ B
n dx
(x − a)2 + b2
herleiten.
Man kann beweisen, dass die Schritte 1 bis 4 stets durchführbar sind. Daher sind alle
rationalen Funktionen elementar integrierbar!
Betrachten wir noch zwei Beispiele.
Beispiel 9.45. (Ansatz zur Partialbruchzerlegung) Für eine rationale Funktion
278
9.6. Integrationsmethoden für rationale Funktionen: Partialbruchzerlegung
P (x)/Q(x) mit
Q(x) = (x − 1) (x − 2)3 (x2 + 1)2 (x − 3)2 + 9 ,
wobei der Grad von P ≤ 9 ist,
verwendet man den folgenden Ansatz zur Partialbruchzerlegung von P (x)/Q(x):
A1
A2
A3
A4
A5 x + A6 A7 x + A8
A9 x + A10
P (x)
=
+
+
+
+
+ 2
+
.
2
3
2
2
Q(x)
x − 1 x − 2 (x − 2)
(x − 2)
x +1
(x + 1)
(x − 3)2 + 9
Beispiel 9.46. (Partialbruchzerlegung) Wir wollen das unbestimmte Integral
Z
x3 + 5 x
dx
x4 − 6 x2 + 8 x + 24
mit Partialbruchzerlegung berechnen.
1. Schritt: Entfällt, weil der Grad 3 des Zählerpolynoms P (x) = x3 + 5 x echt kleiner ist
als der Grad 4 des Nennerpolynoms Q(x) = x4 − 6 x2 + 8 x + 24.
2. Schritt: Ausprobieren von x = ±1, ±2, . . . liefert x = −2 als Nullstelle des Nennerpolynoms:
Q(−2) = (−2)4 − 6 (−2)2 + 8 (−2) + 24 = 16 − 24 − 16 + 24 = 0.
Mit Polynomdivision erhalten wir:
(x4
−(x4
+2 x3 )
−2 x3
−(−2 x3
−6 x2
+8 x
+24) : (x + 2) = x3 − 2 x2 − 2 x + 12
−6 x2
−4 x2 )
+8 x
+24
+8 x
−4 x)
+24
−2 x2
−(−2 x2
12 x +24
−(12 x +24)
0
Also gilt
Q(x) = x4 − 6 x2 + 8 x + 24 = (x + 2) (x3 − 2 x2 − 2 x + 12).
Ausprobieren von x = ±1, ±2, . . . liefert x = −2 als Nullstelle des Restpolynoms:
(−2)3 − 2 (−2)2 − 2 (−2) + 12 = −8 − 8 + 4 + 12 = 0,
und durch erneute Polynomdivision für das Restpolynom finden wir
(x3
−(x3
−2 x2
+2 x2 )
−2 x
+12) : (x + 2) = x2 − 4 x + 6
−4 x2
−(−4 x2
−2 x
−8 x)
+12
6 x +12
−(6 x +12)
0
9. Integration
279
Wegen
x2 − 4 x + 6 = (x2 − 4 x + 4) + 2 = (x − 2)2 + 2
hat der quadratische Term x2 − 4 x + 6 keine reellen Nullstellen. Also finden wir
Q(x) = (x + 2)2 (x2 − 4 x + 6) = (x + 2)2 (x − 2)2 + 2 .
3. Schritt: Wir verwenden den Ansatz
B
Cx+D
A
x3 + 5 x
=
+
+
.
2
2
2
x + 2 (x + 2)
(x − 2)2 + 2
(x + 2) (x − 2) + 2
Wir berechnen B mittels Grenzwertverfahren“: Wir multiplizieren beide Seiten mit
”
(x + 2)2 , also der höchsten Potenz von (x + 2) und erhalten
x3 + 5 x
(C x + D) (x + 2)2
=
A
(x
+
2)
+
B
+
.
(x − 2)2 + 2
(x − 2)2 + 2
Auf der rechten Seite lautet der mittlere Summand dann B, und die anderen Terme auf
der rechten Seite enthalten (mindestens einmal) den Faktor (x + 2). Lässt man nun x
gegen −2 gehen, so bleibt auf der rechten Seite nur B stehen! Lässt man auf der linken
Seite x gegen −2 gehen so findet man
Also gilt B = −1.
−18
(−2)3 + 5 (−2)
−8 − 10
=
= −1.
=
2
16 + 2
18
(−2) − 2 + 2
Zur Bestimmung der restlichen Konstanten A, C, D kann man z.B. drei spezielle Werte
für x einsetzen. Dabei wird B natürlich bereits durch B = −1 ersetzt. Dies gibt drei
Gleichungen für die drei Unbekannten A, C, D, die wir dann lösen können:
x=0:
x=1:
x=2:
A −1 D
+
+
2
4
6
2
A −1 C + D
6
= = +
+
9·3
9
3
9
3
9
A −1 2 C + D
18
=
= +
+
16 · 2
16
4
16
2
0=
Wir multiplizieren die erste Gleichung mit 6, die zweite Gleichung mit 3 und die dritte
Gleichung mit 4 und bringen jeweils den Term von dem Koeffizienten B = −1 auf die
andere Seite der Gleichung. Wir erhalten somit das lineare Gleichungssystem:
3A
A+C
3
2
+D = 1
+D =
A + 4 C+2 D =
5
2
280
9.7. Uneigentliche Integrale
Wir multiplizieren die zweite und dritte Gleichung jeweils mit 3 und subtrahieren von
diesen neuen Gleichungen jeweils die erste Gleichung:
3
3A
+D =
2
3
3 C +2 D =
2
12 C+5 D = 6
Nun multiplizieren wir die neue zweite Gleichung mit 4 und subtrahieren diese anschließend von der neuen letzten Gleichung:
3
3A
+D =
2
3
3 C+2 D =
2
−3 D = 0
Wir sehen an der neuen letzten Gleichung, dass D = 0 ist. Aus der neuen zweiten Gleichung folgt dann 3 C = 3/2, also C = 1/2, und aus der ersten Gleichung folgt 3 A = 3/2,
also A = 1/2. Also finden wir insgesamt die Konstanten
1
1
A= ,
B = −1,
C=
und
D = 0.
2
2
Die Partialbruchzerlegung lautet damit
1
1
x
1 1
x3 + 5 x
=
−
+
.
2
2
2
2 x + 2 (x + 2)
2 (x − 2)2 + 2
(x + 2) (x − 2) + 2
4. Schritt: Nun berechnen wir das Integral mit Hilfe der Formeln (9.28), (9.29) und (9.30):
Z
Z
Z
Z
1
x
1
1
x3 + 5 x
1
dx =
dx −
dx +
dx
4
2
2
x − 6 x + 8 x + 24
2
x+2
(x + 2)
2
(x − 2)2 + 2
1
1
1
1
= ln |x + 2| +
+ ln |(x − 2)2 + 2| + √ arctan
2
x+2 4
2
9.7
x−2
√
2
+ c.
Uneigentliche Integrale
Unter welchen Vorraussetzungen und wie lassen sich bestimmte Integrale über unbeschränkte Integrationsbereiche, z.B.
Z ∞
e−x dx,
0
bzw. bestimmte Integral mit unbeschränktem Integranden, z.B.
Z 1
1
√ dx,
x
0
sinnvoll definieren? Diese Frage werden wir in diesem letzten Teilkapitel untersuchen. Wir
werden solche Integrale mathematisch sauber mit Grenzwertprozessen definieren.
9. Integration
281
Unbeschränkter Integrationsbereich
Wir betrachten zuerst den Fall eines unbeschränkten Integrationsbereichs.
Definition 9.47. (bestimmte Integrale mit unbeschränktem Integrationsbereich)
(i) Es sei f : [a, ∞) → R über jedes Intervall [a, b] (mit b > a) integrierbar. Falls der
Grenzwert
Z b
f (x) dx
lim
b→∞
a
existiert (und endlich ist), so definiert man das uneigentliche Integral von f
über [a, ∞) durch
Z b
Z ∞
f (x) dx = lim
f (x) dx.
b→∞
a
a
(ii) Es sei f : (−∞, b] → R über jedes Intervall [a, b] (mit a < b) integrierbar. Dann
definiert man das uneigentliche Integral von f über (−∞, b] durch
Z b
Z b
f (x) dx = lim
f (x) dx,
a→−∞
−∞
a
falls der Grenzwert auf der rechten Seiter existiert (und endlich ist).
(iii) Sei f : R → R. Dann definiert man das uneigentliche Integral von f über
(−∞, ∞) durch
Z ∞
Z a
Z ∞
f (x) dx =
f (x) dx +
f (x) dx
(mit einem beliebigem a ∈ R),
−∞
−∞
a
(9.31)
falls die Integrale auf der rechten Seite existieren (und endlich sind). Der Wert von
(9.31) hängt dabei nicht von der Wahl von a ab.
Betrachten wir ein Beispiel.
Beispiel 9.48. (bestimmtes Integral mit unbeschränktem Integrationsbereich)
Wir wollen, wenn möglich, das Integral
Z ∞
e−x dx
0
berechnen. Wegen
Z b
b
−x
−x e dx = −e = −e−b − (−e−0 ) = −e−b + 1 = 1 − e−b
0
0
gilt
lim
b→∞
Z
0
b
e−x dx = lim (1 − e−b ) = 1,
b→∞
282
9.7. Uneigentliche Integrale
und somit
Z
∞
−x
e
dx = lim
b→∞
0
Z
b
e−x dx = 1.
0
Bemerkung 9.49. (Integrale mit unbeschränktem Integrationsbereich)
Z b
Z ∞
f (x) dx existiert (und endlich ist), so sagt man auch
f (x) dx
(1) Wenn z.B. lim
b→∞ a
a
Z b
Z ∞
f (x) dx nicht existiert, so heißt
existiert oder konvergiert. Wenn z.B. lim
f (x) dx
b→∞
divergent.
Existiert sogar
Z
∞
a
gent.
a
a
|f (x)| dx, so heißt das Integral
Z
∞
f (x) dx absolut konver-
a
(2) F sei eine Stammfunktion von f . Dann gilt
Z b
Z ∞
f (x) dx = lim F (b) − F (a),
f (x) dx = lim
b→∞
a
b→∞
a
falls der Grenzwert lim F (b) existiert.
b→∞
Z ∞
(3) Damit
f (x) dx existiert, müssen beide Teilintegrale
−∞
Z
Z
a
f (x) dx
und
−∞
∞
f (x) dx
a
(d.h. die entsprechenden Grenzwerte) unabhängig voneinander existieren.
Z b
(4) Zu (1) und (2) analoge Aussagen gelten für
f (x) dx.
−∞
Beispiel 9.50. (bestimmtes Integral mit unbeschränktem Integrationsbereich)
Wir wollen das Integral
Z ∞
1
dx
2
−∞ 1 + x
(wenn möglich) berechnen. Dazu berechnen wir zunächst
Z 0
Z ∞
1
1
dx
und
dx
2
2
1+x
−∞ 1 + x
0
jeweils separat. Zunächst bestimmen wir das unbestimmte Integral
Z
1
dx
1 + x2
mit der Substitution x = tan(x). Da tan : (−π/2, π/2) → R bijektiv ist, ist dieses eine
zulässige Substitution, und es ist gewährleistet, dass x = tan(t) auch alle Werte in R
durchlaufen kann. Wir haben
!
dx
1
1
x = tan(t) ⇔ t = arctan(x)
=⇒
=
2 ⇔ dx =
2 dt ,
dt
cos(t)
cos(t)
9. Integration
283
und erhalten somit
"Z
Z
1
1
dx =
2
2
1+x
1 + tan(t)
=
=
=
"Z
cos(t)
1
1
2
sin(t)
1+
2
cos(t)
"Z
Z
1
cos(t)
1 dt
2
+ sin(t)
t=arctan(x)
2 dt
cos(t)
1
#
t=arctan(x)
#
2 dt
t=arctan(x)
#
2 dt
t=arctan(x)
h
i
= t+c
t=arctan(x)
= arctan(x) + c,
2
2
wobei wir in vorvorletzten Schritt cos(t) + sin(t) = 1 genutzt haben. Also gilt nach
dem Hauptsatz der Differentialrechnung
Z b
b
1
dx = arctan(x) + c = arctan(b) − arctan(a).
2
a
a 1+x
Damit finden wir für die beiden uneigentlichen Integrale mit Hilfe von arctan(0) = 0
Z ∞
Z b
1
π
π
1
dx = lim
dx = lim arctan(b) − arctan(0) = − 0 = ,
2
2
b→∞ 0 1 + x
b→∞
1+x
2
2
0
Z 0
Z 0
π π
1
1
= .
dx
=
lim
dx
=
arctan(0)
−
lim
arctan(a)
=
0
−
−
2
a→−∞ a 1 + x2
a→−∞
2
2
−∞ 1 + x
Also finden wir
Z ∞
−∞
1
dx =
1 + x2
Z
∞
0
1
dx +
1 + x2
Z
0
−∞
π π
1
dx = + = π.
2
1+x
2
2
Beispiel 9.51. (bestimmtes Integral mit unbeschränktem Integrationsbereich)
Wir wollen untersuchen ob das Integral
Z ∞
x dx
−∞
existiert. Da der Integrand f (x) = x für großes x beliebig groß wird, vermuten wir, dass
dieses uneigentliche Integral nicht existiert, also divergiert. Wir berechnen
Z ∞
Z 0
x dx
und
x dx
0
−∞
separat. Wir finden
Z b
Z ∞
x dx = lim
x dx = lim
0
b→∞
0
b→∞
b !
1 2 1
x = lim b2 = +∞.
b→∞ 2
2
0
284
9.7. Uneigentliche Integrale
Da bereits das Integral
Z
∞
x dx nicht existiert, d.h. divergent ist, können wir schon jetzt
Z ∞
schließen, dass auch das Integral
x dx nicht existiert, also divergent ist.
0
−∞
Falsch wäre die folgende Argumentation:
Z
∞
−∞
x dx = lim
b→∞
Z
b
x dx = lim
b→∞
−b
b !
2
x2 b
(−b)2
= lim
= lim 0 = 0.
−
b→∞
b→∞
2 −b
2
2
An dieser Rechnung sehen wir, dass es wichtig ist, die Existenz der beiden Integrale über
(−∞, a] und [a, ∞) separat zu überprüfen (vgl. auch (3) in Bemerkung 9.49).
Wir lernen noch ein Majorantenkriterium für uneigentliche Integrale mit unbeschränktem
Integrationsbereich kennen.
Satz 9.52. (Majorantenkriterium)
(i) Es gelte |f (x)| ≤ g(x) für alle x ∈ [a, ∞), und
Z
∞
g(x) dx
a
existiere. Dann existiert das uneigentliche Integral
Z ∞
f (x) dx
a
und ist (absolut) konvergent, und es gilt
Z
∞
a
Z
f (x) dx ≤
∞
a
|f (x)| dx ≤
Z
∞
g(x) dx.
a
(ii) Es gelte |f (x)| ≤ g(x) für alle x ∈ (−∞, a], und
Z
a
g(x) dx
−∞
existiere. Dann existiert das uneigentliche Integral
Z a
f (x) dx
−∞
und ist (absolut) konvergent, und es gilt
Z
a
−∞
Z
f (x) dx ≤
a
−∞
|f (x)| dx ≤
Z
a
−∞
g(x) dx.
9. Integration
285
(iii) Es gelte |f (x)| ≤ g(x) für alle x ∈ (−∞, ∞), und
Z ∞
g(x) dx
−∞
existiere. Dann existiert das uneigentliche Integral
Z ∞
f (x) dx
−∞
und ist (absolut) konvergent, und es gilt
Z ∞
Z ∞
Z
f (x) dx ≤
|f (x)| dx ≤
−∞
−∞
∞
g(x) dx.
−∞
Betrachten wir ein Beispiel.
Beispiel 9.53. (Majorantenkriterium) Das bestimmte Integral
Z ∞
sin(x)
dx
x2
1
existiert, denn
und
Z
1
∞
sin(x) 1
x2 ≤ x2
1
dx = lim
b→∞
x2
Z
1
b
für alle x ∈ [1, ∞)
b !
1
1 1
= 1.
dx = lim − = lim 1 −
b→∞
b→∞
x2
x 1
b
Unbeschränkter Integrand
Wir betrachten nun den Fall, dass der Integrand auf einen (beschränkten) Intervall unbeschränkt ist.
Definition 9.54. (Integral mit unbeschränktem Integranden) Sei eine Funktion
f stetig auf [a, b] \ {x0 }. (Typischerweise ist f ist bei x0 unbeschränkt.) Unter dem
uneigentlichen Integral
Z
b
f (t) dt
a
versteht man:
(i) im Fall x0 = b:
lim−
x→b
Z
x
f (t) dt,
a
falls der Grenzwert existiert (und einen endlichen Wert hat),
Z b
f (t) dt,
(ii) im Fall x0 = a:
lim+
x→a
x
falls der Grenzwert existiert (und einen endlichen Wert hat),
286
9.7. Uneigentliche Integrale
(iii) im Fall x0 ∈ (a, b):
lim
x→x−
0
Z
a
x
f (t) dt + lim+
x→x0
Z
b
f (t) dt,
x
falls die jeweiligen Grenzwerte existieren (und endliche Werte haben).
Betrachten wir zwei Beispiele.
Beispiel
9.55. (Integral mit unbeschränktem Integranden) Der Integrand f (t) =
√
1/ t des Integrals
Z 1
Z 1
1
√ dt = lim
t−1/2 dt
(9.32)
+
x→0
t
x
0
ist in t = x0 = 0 unbeschränkt. Es gilt
Z 1
1 √ 1
√ 1/2 −1/2
t
dt = lim+ 2 t = lim+ 2 t = lim+ 2 − 2 x = 2.
lim+
x→0
x
x→0
x
x→0
x
x→0
Also existiert das uneigentliche Integral (9.32) und hat den Wert
Z 1
1
√ dt = 2.
t
0
Beispiel 9.56. (Integrale mit unbeschränkten Integranden t−α ) In Verallgemeinerung des letzten Beispiels kann man fragen, wann uneigentliche Integrale der Form
Z 1
1
dt
mit α ∈ R
(9.33)
α
0 t
existieren (und endliche Werte haben).
Betrachten wir zunächst den Fall α = 1 gesondert:
Z 1
Z 1
1 1
1
dt = lim+
dt = lim+ ln(t) = lim+ ln(1) − ln(x) = lim+ − ln(x) = +∞.
| {z }
x→0
x→0
x→0
x→0
x
0 t
x t
=0
(9.34)
Also existiert das uneigentliche Integral (9.33) für α = 1 nicht. (Wir beachten, dass bei
der Berechnung in (9.34) eigentlich gilt
Z
1
dt = ln |t| + c.
t
In unserem Fall ist aber t ∈ [x, 1] mit x > 0 und daher gilt |t| = t und somit ln |t| =
ln(t).) Nun betrachten wir den Fall α 6= 1:
1 !
Z 1
Z 1
Z 1
1
1
1
−α
1−α −α
= lim+
t
dt
=
lim
1 − x1−α
dt
=
t
t
dt
=
lim
α
+
+
x→0 1 − α
x→0
x→0
1−α
x
0 t
0
x

 1
für α < 1,
1
1
1−α
− lim+
x1−α =
=

1 − α x→0 1 − α
−∞
für α > 1.
9. Integration
287
Also existiert das uneigentliche Integral (9.33) für α > 1 nicht, aber für α < 1 existiert es
und hat den Wert
Z 1
1
1
dt
=
.
α
1−α
0 t
Insgesamt finden wir: Für α < 1 existiert das uneigentliche Integral
Z 1
1
dt
α
0 t
und für α ≥ 1 existiert es nicht (d.h. es divergiert).
Mit Hilfe der Erkenntnisse des vorigen Beispiels können wir den folgenden Satz formulieren, den man mit einem Majorantenkriterium für unbeschränkte Integranden beweisen
kann.
Satz 9.57. (Wachstum an Stellen, an denen der Integrand unbeschränkt ist)
Sei f stetig in [a, b] \ {x0 }. Gilt auf einem Intervall I = (x0 − ε, x0 + ε) ∩ [a, b]:
Z b
c
(i) |f (x)| ≤
für alle x ∈ I mit α < 1 und c > 0, so existiert
f (x) dx.
|x − x0 |α
a
Z b
c
für alle x ∈ I mit α ≥ 1 und c > 0, so ist
f (x) dx divergent.
(ii) |f (x)| ≥
|x − x0 |α
a
Betrachten wir zwei Beispiele zur Anwendung dieses Satzes.
Beispiel 9.58. (Anwendung von Satz 9.57) Bei dem uneigentlichen Integral
Z 1
1
dx
(9.35)
2
0 1−x
ist der Integrand in x0 = 1 unbeschränkt. Es gilt nach der 3. binomischen Formel
1 1
1
1
1
1
=
|f (x)| = =
≥
für alle x ∈ [0, 1],
2
1−x
|(1 − x)(1 + x)|
|1 − x| |1 + x|
2 |x − 1|
wobei wir im letzten Schritt |x+1| = x+1 ≤ 2 für alle x ∈ [0, 1] und somit 1/|x+1| ≥ 1/2
für alle x ∈ [0, 1] genutzt haben. Nach Satz 9.57 (ii) existiert das Integral (9.35) somit
nicht und ist divergent.
Beispiel 9.59. (Anwendung von Satz 9.57) Bei dem uneigentlichen Integral
Z 1
1
√
dx
(9.36)
1 − x2
0
ist der Integrand in x0 = 1 unbeschränkt. Es gilt nach der 3. binomischen Formel
1
1
1
1
= p
=
|f (x)| = √
1/2 =
1/2
2
(1 − x) (1 + x)1/2
1−x
(1 − x)(1 + x)
(1 − x)(1 + x)
288
9.7. Uneigentliche Integrale
=
|1 −
1
1
≤
1/2
|1 + x|
|1 − x|1/2
x|1/2
für alle x ∈ [0, 1],
wobei wir folgende Informationen genutzt
haben: Zunächst dürfen wir im zweiten Schritt
p
die Absolutstriche weglassen, weil (1 − x)(1 + x) ≥ 0 ist. Weiter gilt für x ∈ [0, 1], dass
1−x = |1−x| und 1+x = |1+x| ist, was wir im zweitletzten Schritt verwendet haben. Im
letzten Schritt nutzen wir |1+x|1/2 ≥ 1 für alle x ∈ [0, 1] und somit 1/|1+x|1/2 ≤ 1/1 = 1.
Nach Satz 9.57 (i) folgt nun, dass das Integral (9.36) existiert (und einen endlichen Wert
hat).
Teil III
Gewöhnliche Differentialgleichungen
289
Kapitel 10
Gewöhnliche Differentialgleichungen
In dem einführenden Teilkapitel 10.1 werden wir zur Motivation diverse Anwendungen
aus der Chemie und Physik kennenlernen, bei denen Differentialgleichungen auf ganz
natürliche Art auftreten. Nachdem wir uns mit Differentialgleichungen vertraut gemacht
haben, werden wir die unterschiedlichen Typen von Differentialgleichungen einführen und
definieren, mit denen wir uns in Teilkapiteln 10.2, 10.3 und 10.4 befassen werden. Dies
sind im Wesentlichen separable Differentialgleichungen erster Ordnung und lineare Differentialgleichungen erster und zweiter Ordnung. Bei den linearen Differentialgleichungen
zweiter Ordnung befassen wir uns primär mit Differentialgleichungen mit konstanten Koeffizienten, die man leicht mit einem Standardansatz lösen kann.
10.1
Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
Wir starten mit einem Anwendungsbeispiel für sogenannte Differentiatialgleichungen erster Ordnung mit konstanten Koeffizienten.
Anwendung 10.1. (Wachstum einer Population) Eine Population (Bevölkerung)
bestehe zur Zeit t aus N(t) Individuen. Die Population habe eine konstante Geburtsrate
und eine konstante Sterberate:
• β = Anzahl der Geburten pro Individuum und Zeiteinheit (Geburtenrate),
• δ = Anzahl der Todesfälle pro Individuum und Zeiteinheit (Sterberate).
Also finden wir für ein Zeitintervall [t, t + ∆t] der Länge ∆t:
• die Anzahl der Geburten = β · N(t) · ∆t = β N(t) ∆t,
• die Anzahl der Todesfälle = δ · N(t) · ∆t = δ N(t) ∆t.
Damit folgt für die Anzahl N(t + ∆t) der Individuen zum Zeitpunkt t + ∆t
N(t + ∆t) = N(t) + β · N(t) · ∆t − δ · N(t) · ∆t
291
292 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
⇐⇒
⇐⇒
N(t + ∆t) − N(t) = (β − δ) · N(t) · ∆t
N(t + ∆t) − N(t)
= (β − δ) N(t).
∆t
(10.1)
Der Differenzenquotient auf der linken Seite von (10.1) beschreibt eine Näherung für die
Wachstumsrate der Population pro Zeit, also die Änderung der Anzahl der
Individuen in dem Zeitintervall [t, t + ∆t] pro Zeit ∆t.
Die Gleichung (10.1) ist nur näherungsweise gültig, weil bei der Berechnung der Anzahl
von Geburten bzw. Todesfällen im Zeitintervall [t, t+ ∆t] für die Anzahl N der Individuen
der konstante Wert N(t) zum (festen) Zeitpunkt t verwendet wurde. Tatsächlich wird N
im Intervall [t, t + ∆t] variieren. Die Näherung wird umso genauer, je kleiner ∆t ist. Wir
lassen deshalb ∆t gegen Null gehen, und aus dem Differenzenquotienten auf der linken
Seite von (10.1) wird der Differentialquotient und wir erhalten die Ableitung von N:
N(t + ∆t) − N(t)
= (β − δ) N(t).
∆t→0
∆t
N ′ (t) = lim
Dabei ist N ′ (t) die Wachstumsrate der Population (pro Zeit).
Anforderung: Stetigkeit und Differenzierbarkeit von N(t). Um den Grenzwertprozess ∆t → 0 durchführen zu können, muss die Funktion N(t) differenzierbar, also
insbesondere stetig sein.
Dies erscheint zunächst eine unrealistische Idealisierung zu sein, da die Anzahl der Individuen N(t) nur diskrete Werte aus N0 annimmt und somit unstetig ist (außer im
uninteressanten Fall N(t) = Konstante). Dennoch ist diese Idealisierung sinnvoll, wenn
die Population aus sehr vielen Individuen besteht. In diesem Fall entspricht eine Änderung
der Anzahl um Eins einer sehr kleinen relativen Änderung von N(t). Betrachtet man z.B.
die Population einer gewissen chemischen Spezies (Molekülsorte), so wird N(t) typischerweise im Bereich 1020 bis 1024 liegen. Die geringe relative Änderung, wenn ein Molekül
entsteht oder abreagiert, wird durch die molare Konzentration deutlich: diese ändert sich
dann (in einem Liter) um etwa 1, 6 · 10−24 mol/L.
Fazit: Für große Populationen kann die Anzahl der Individuen mit kleinem (relativen)
Fehler durch eine stetige Funktion N(t) beschrieben werden.
Unter der zusätzlichen Annahme, dass die Anzahl der Individuem N(t) in der Population auch nach der Zeit t differenzierbar ist, ergibt sich also das folgende
mathematische Modell für die Wachstumsrate N ′ (t) dieser Population:
N ′ (t) = (β − δ) N(t).
(10.2)
Dabei sind β und δ die Geburten- bzw. Sterberate.
Lösung der Differentialgleichung (10.2): Aufgrund der Form der Differentialgleichung (10.2) vermuten wir, dass ihre Lösungen von der Form c eλ t (mit geeigneten Konstanten c und λ) sind, und man überzeugt sich durch Einsetzen und Nachrechnen leicht,
dass
N(t) = c · e(β−δ)t
(10.3)
10. Gewöhnliche Differentialgleichungen
293
eine Lösung ist. In der Tat gilt
N ′ (t) =
d
c · e(β−δ)t = c (β − δ) e(β−δ)t = (β − δ) N(t).
dt
Bei der Lösung (10.3) handelt es sich um die sogenannte allgemeine Lösung der Differentialgleichung (10.2); sie hängt noch von einer Konstanten c ab. Dieses ist nicht überraschend, denn um konkrete Zahlenwerte für N(t) zu bekommen müssen wir einen Anfangswert, also die Anzahl der Population zu einem Zeitpunkt t = t0 vorgeben. Geben
wir z.B. den Wert N(0) = N0 vor (d.h. die Bevölkerung hat zum Zeitpunkt t0 = 0 genau
N0 Individuen), so finden wir aus der Anfangsbedingung
N0 = N(0) = c · |e(β−δ)0
{z } = c,
=1
dass die Konstante der Wert c = N0 hat. Also ist die Lösung des Anfangswertproblems
N ′ (t) = (β − δ) N(t),
N(0) = N0 ,
die Funktion
N(t) = N0 · e(β−δ)t .
In Gleichung (10.2) treten eine (unbekannte) Funktion N(t) und deren Ableitung N ′ (t)
auf. Solche Gleichungen heißen Differentialgleichungen (kurz DGLen), wobei auch
höhere Ableitungen der gesuchten“ unbekannten Funktion auftreten können. Da in der
”
Modellgleichung (10.2) nur die erste Ableitung vorkommt, spricht man von einer Differentialgleichung erster Ordnung.
Definition 10.2. (gewöhnliche Differentialgleichung erster Ordnung) Unter einer
gewöhnlichen Differentialgleichung erster Ordnung versteht man eine Gleichung,
die von einer (unbekannten) Funktion y = y(t), deren Ableitung y ′ = y ′(t) und der Variablen t dieser Funktion abhängt, also
F (t, y, y ′) = F t, y(t), y ′(t) = 0,
(10.4)
wobei die Funktion F den funktionalen Zusammenhang“ zwischen t, y(t) und y ′ (t) be”
schreibt. Dabei muss die erste Ableitung y ′(t) in (10.4) explizit auftreten.
Beispiel 10.3. (Anwendung 10.1 fortgesetzt) In (10.2) in unserer Anwendung 10.1
haben wir also
N ′ (t) = (β − δ) N(t)
=⇒
N ′ (t) − (β − δ) N(t) = 0,
{z
|
}
′
= F t, N(t), N (t)
d.h. die Funktion F ist als F (t, N, N ′ ) = N ′ − (β − δ) N definiert.
Betrachten wir ein paar weitere Beispiele von Differentialgleichungen erster Ordnung.
294 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
Beispiel 10.4. (Differentialgleichungen erster Ordnung)
(a) y ′ (t) = 58 cos(t)
2
27
(b) y ′(t) + y(t) − sin y(t) + t = 0
e
(c) 17 y ′(t) − 2 y(t) + 13 t2 = 0
Wir bemerken, dass wir Beispiel (a) durch Integrieren von 58 cos(t) lösen können, weil
y = y(t) eine Stammfunktion von 58 cos(t) ist.
Z
y(t) = 58 cos(t) dt = 58 sin(t) + c
mit der Integrationskonstante c. Wir sehen an Beispiel (a) auch, dass die Funktion y =
y(t) nicht selber explizit in der Differentialgleichung vorkommen muss, sondern dass es
reicht, wenn ihre erste Ableitung y ′ = y ′ (t) explizit vorkommt. Beispiel (b) ist deutlich
komplizierter, da hier Potenzen von y ′ auftreten und wir auch Funktionen auf y anwenden.
Beispiel (c) ist eine sogenannte lineare inhomogene Differentialgleichung (mit konstanten
Koeffizienten); wir werden noch lernen, wie man dieser Sorte von Differentialgleichungen
löst.
Betrachten wir ein weiteres Anwendungsbeispiel.
Federkonstante c
Dämpfung d
Ruhelage
Auslenkung x = x(t)
Masse m
Fext
Abb. 10.1: Das Federpendel: Eine Masse m hängt an einer elastischen Feder, die dem
Hookschen Gesetz genügt. Gemessen wird die Auslenkung x = x(t) der Feder gegenüber
der Ruhelage als Funktion der Zeit t.
Anwendung 10.5. (Schwingungsgleichung beim Federpendel) Betrachten wir ein
Federpendel“, wie es in Abbildung 10.1 skizziert ist.
”
Eine Masse m hängt an einer elastischen Feder, welche dem Hookschen Gesetz genügt.
Wie beschreiben die Auslenkung der Feder gegenüber der Ruhelage durch x = x(t) als
10. Gewöhnliche Differentialgleichungen
295
Funktion der Zeit t, wie in Abbildung 10.1 eingezeichnet. Dabei ist die Ruhelage die
Position, welche die Masse annimmt, wenn Sie sich nicht bewegt (also wenn nur die Dehnbarkeit der Feder und die Gravitationskraft FGravitation = m · g als Einflüsse auftreten).
Das Hooksche Gesetz besagt, dass die Feder die kontrahierende Kraft FFeder auf die
Masse m ausübt, welche antiproportional zur Auslenkung der Feder ist, also
FFeder = −c · x(t) = −c x(t)
(10.5)
mit der Federkonstante c > 0. Weiter tritt durch das die Feder umgebende Medium
(normalerweise Luft) eine die Schwingung der Feder dämpfende Kraft auf, die antiproportional zu der Geschwindigkeit x′ (t) der Bewegung der Masse m ist, also
FDämpfung = −d · x′ (t) = −d x′ (t)
(10.6)
mit der Dämpfungskonstante d > 0.
Auf die Feder kann auch noch eine äußere Kraft Fext (t) einwirken, die aber nicht von der
Auslenkung x = x(t), der Geschwindigkeit x′ = x′ (x) oder der Beschleunigung x′′ = x′′ (t)
der Bewegung der Masse abhängt.
Andererseits wissen wir, dass nach dem Newtonschen Gesetz
FNewton = m · a
(Kraft = Masse · Beschleunigung)
für die Bewegung der Masse m gilt
F = m · x′′ (t) = m x′′ (t),
(10.7)
wobei x′′ (t) die Beschleunigung der Masse m ist.
Durch Gleichsetzen von (10.7) mit der Summe der Kraft (10.5) aus dem Hookschen Gesetz,
der dämpfenden Kraft (10.6) und der externen Kraft Fext finden wir
m · x′′ (t) = FFeder + FDämpfung + Fext = −c x(t) − d x′ (t) + Fext (t).
Durch Umsortieren erhalten wir die Differentialgleichung
m x′′ (t) + d x′ (t) + c x(t) = Fext (t),
(10.8)
und teilen wir die Gleichung (10.8) durch m, so erhalten wir
x′′ (t) +
Fext (t)
c
d
· x(t) =
· x′ (t) +
.
m
m
m }
|{z}
|{z}
| {z
=a
=b
= f (t)
Wir können also diese Gleichung mit den neuen Konstanten a = d/m und b = c/m und
der neuen Funktion f (t) = Fext (t)/m in der vereinfachten Form
x′′ (t) + a x′ (t) + b x(t) = f (t)
(10.9)
schreiben. Dies ist eine sogenannte (lineare) Differentialgelichung zweiter Ordnung
mit konstanten Koeffizienten. Wir werden diesen Typ von Differentialgleichungen
in Teilkapitel 10.4 ausführlich besprechen. Um eine eindeutige Lösung der Differentialgleichung (10.9) zu bekommen, muss man hier zwei Anfangswerte vorgeben, nämlich
jeweils einen Wert für die Auslenkung x(t0 ) und die Geschwindigkeit x′ (t0 ) zum (selben)
Zeitpunkt t = t0 .
296 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
φ=
φ(t)
φ
φL =
(t) L m
φ
mg
Abb. 10.2: Das Fadenpendel. Auch das Kräfteparallelogramm, mit dessen Hilfe man die
Kräftebilanz aufstellt, ist in der Zeichnung angegeben.
Betrachten wir noch ein zweites Beispiel einer Differentialgleichung zweiter Ordnung.
Anwendung 10.6. (Schwingungsgleichung beim Fadenpendel) In Abbildung 10.2
ist ein übliches Fadenpendel gezeichnet. Um die Bewegung zu modellieren stellen wir
wieder die Kräftebilanz auf:
Sei x(t) die Auslenkung der Masse m zum Zeitpunkt t gegenüber der Ruhelage gemessen
als Auslenkung längs des Kreisbogens mit Radius L (siehe Abbildung 10.2): Dann ist
die Auslenkung beim Auslenkungswinkel φ = φ(t) in Bogenlänge zum Zeitpunkt t gerade
x(t) = L · φ(t).
Daraus folgt durch zweifaches Ableiten, dass gilt
x′′ (t) = L · φ′′ (t),
und nach dem Newtonschen Gesetz (Kraft = Masse · Beschleunigung) gilt für die Kraft
auf die Masse m
FNewton (t) = m · x′′ (t) = m · L · φ′′ (t).
(10.10)
Bewegen wir nun die Masse m gedanklich zu einer Position (längs des Kreisbogens mit
Radius L) außerhalb der Ruhelage und lassen die Masse los. Dann wird ihre Bewegung
durch die Einwirkung der Schwerkraft bestimmt. Die relevante Kraft ist hier also
FGravitation = m · g
10. Gewöhnliche Differentialgleichungen
297
mit der Gravitationsbeschleunigung g ≈ 9, 81 m/s2 auf der Erdoberfläche.
Da sich die Masse aber nur längs des Kreisbogens fortbewegen kann, spielt auch nur
die Komponente der Kraft in diese Richtung, also tangential zum Kreisbogen, eine Rolle.
Aus dem Kräftediagramm im Abbildung 10.2 lesen wir ab, dass die relevante tangentiale
Komponente der Gravitationskraft
Ftang (t) = − m · g · sin φ(t) = −FGravitation · sin φ(t)
(10.11)
ist. Wir haben ein Minuszeichen, weil die Gravitationskraft der Auslenkung aus der Ruhelage entgegen wirkt.
Durch Gleichsetzen der Kräfte in (10.10) und (10.11) erhält man
m · L · φ′′ (t) = −m · g · sin φ(t) .
Wir teilen auf beiden Seiten durch m · L und bringen alle Terme auf eine Seite:
φ′′ (t) +
g
· sin φ(t) = 0.
L
(10.12)
Dies ist ebenfalls eine Differentialgleichung
zweiter Ordnung. Sie ist allerdings nicht
”
linear“, da in ihr der Term sin φ(t) auftaucht. Wir werden später noch definieren, was
linear“ (und nichtlinear“) bedeutet.
”
”
In Gleichungen (10.9) und (10.12) tritt eine (unbekannte) Funktion x(t) bzw. φ(t) und
deren zweite Ableitung x′′ (t) bzw. φ′′ (t) auf. Nur in (10.9) – aber nicht in (10.12) –
tritt auch eine erste Ableitung der unbekannten Funktion auf. Da in (10.9) und (10.12)
die höchste vorkommende Ableitung eine zweite Ableitung ist, spricht man von einer
Differentialgleichung zweiter Ordnung.
Definition 10.7. (gewöhnliche Differentialgleichung zweiter Ordnung) Unter einer gewöhnlichen Differentialgleichung zweiter Ordnung versteht man eine Gleichung, die von einer (unbekannten) Funktion y = y(t), deren erster und zweiter Ableitung
y ′ = y ′(t) und y ′′ = y ′′(t) und der Variablen t dieser Funktion abhängt, also
F (t, y, y ′, y ′′) = F t, y(t), y ′(t), y ′′(t) = 0,
(10.13)
wobei die Funktion F den funktionalen Zusammenhang“ zwischen t, y(t), y ′ (t) und y ′′(t)
”
beschreibt. Dabei muss die zweite Ableitung y ′′(t) in (10.13) explizit auftreten.
Beispiel 10.8. (Anwendung 10.6 fortgesetzt) In (10.12) haben wir
φ′′ (t) +
g
· sin φ(t) = 0,
L
d.h. die Funktion F ist als F (t, φ, φ′, φ′′ ) = φ′′ + (g/L) · sin(φ) definiert.
Betrachten wir ein paar weitere Beispiele für Differentialgleichungen zweiter Ordnung.
298 10.1. Gewöhnliche Differentialgleichungen: Grundbegriffe und Anwendungsbeispiele
Beispiel 10.9. (Differentialgleichungen zweiter Ordnung)
(a) 17 y ′′(t) + 13 y ′(t) + 15 y(t) = 23
(b) y ′′ (t) · y(t) − y ′(t) = cos(t)
(c)
1
+ y(t) = 0
y ′′ (t)
Wir werden in dieser Vorlesung nur Differentialgleichungen zweiter Art des Typs in Beispiel (a), nämlich linear“ und mit sogenannten konstanten Koeffizienten“, zu lösen ler”
”
nen. Wir werden noch lernen, was linear“ und mit konstanten Koeffizienten“ genau
”
”
bedeutet.
Bemerkung 10.10. (gewöhnliche und partielle Differentialgleichungen) Wir werden in diesem Kapitel nur gewöhnliche Differentialgleichungen betrachten. Dabei wird
man im normalen Sprachgebrauch das Wort gewöhnliche“ in der Regel weglassen; spricht
”
man also von Differentialgleichungen“, so meint man in der Regel gewöhnliche Diffe”
”
rentialgleichungen“. – Was sind nun Differentialgleichungen, die nicht gewöhnlich“ sind?
”
Man nennt diese partielle Differentialgleichungen“, und es handelt sich um Diffe”
rentialgleichungen, in denen Ableitungen nach mehreren Variablen vorkommen. Betrachten wir ein Beispiel: Die Temperatur T in einem dünnen Stab der Länge L kann als
Funktion des Ortes x längs des Stabs und der Zeit t beschrieben werden: T = T (x, t).
Die Temperatur T (x, t) kann mit Hilfe der Wärmeleitungsgleichung, einer partiellen
Differentialgleichung, modelliert werden, die sowohl Ableitungen von T nach x als auch
nach t involviert:
α2
∂ 2 T (x, t)
∂T (x, t)
=
,
∂x2
∂t
0 ≤ x ≤ L,
t ≥ 0,
(10.14)
wobei α eine Konstante ist und das runde d, ∂“, bedeutet, dass wir eine Funktion von
”
mehreren Variablen nach einer ihrer Variablen ableiten. Gibt man nun Randbedingungen
T (0, t) und T (L, t) für die Temperatur an den Enden des Stabes (als Funktion der Zeit
t ≥ 0) vor, sowie die Temperatur als Funktion des Ortes x zum Zeitpunkt t = 0, also
T (x, 0) = f (x), 0 ≤ x ≤ L, so kann man die partielle Differentialgleichung (10.14) lösen,
um den Temperaturverlauf T (x, t) im Stab als Funktion des Ortes x und der Zeit t zu
bestimmen.
Betrachten wir abschließend noch ein Anwendungsbeispiel aus der Chemie.
Anwendung 10.11. (Differentialgleichungen der Reaktionskinetik) Wir betrachten hier einige typische Differentialgleichungen der Reaktionskinetik.
Zur Modellierung verwenden wir das Massenwirkungsgesetz:
Seien cA (t), cB (t), cC (t), cP (t), . . . die Konzentrationen der an einer chemischen Reaktion
beteiligten Substanzen A, B, C, P, . . . . Bei konstantem Druck, konstantem Volumen und
konstanter Temperatur ist sind die Reaktionsgeschwindigkeiten c′A (t), c′B (t), c′C (t),
c′P (t), . . . (also die zeitlichen Änderungen der Konzentrationen der Substanzen) proportional zu der Wahrscheinlichkeit, dass die Moleküle der entsprechenden Reaktion aufein-
10. Gewöhnliche Differentialgleichungen
299
andertreffen, also proportional zu dem Produkt der Konzentrationen der beteiligten Substanzen. Die Proportionalitätskonstante ist die Reaktionsrate k > 0.
c′A (t) = −k cA (t)
(a) Chemische Reaktion 1. Ordnung:
mit k > 0
Diese Differentialgleichung beschreibt z.B. den Konzentrationsverlauf bei einer Zerk
k
fallsreaktion A → B + C oder einer Isomerisierung A → B. Wir haben in der Differentialgleichung die Proportionalitätskonstante −k, weil die Konzentration cA (t) der
k
k
Substanz A bei chemischen Reaktionen A → B + C bzw. A → B zeitlich abnimmt.
2
(b) Chemische Reaktion 2. Ordnung: c′A (t) = −k cA (t)
mit k > 0
Diese Differentialgleichung tritt z.B. bei elementaren (also nicht aus weiteren Einzelrek
aktionen zusammengesetzten) Reaktionen der Form 2 A →1 B + C auf. In diesem Fall
ist k = 2 k1 , da in jedem Reaktionsschritt 2 Moleküle A abreagieren (und sich damit
die Reaktionsrate verdoppelt). Wir im ersten Beispiel haben wir die Proportionalitätskonstante −k = −2 k1 , weil die Konzentration cA (t) der Substanz A abnimmt. Auf der
2
rechten Seite der Reaktionsgleichung taucht cA (t) auf, weil wir in der Reaktion zwei
Moleküle der Substanz A brauchen: Nach dem Massenwirkungsgesetz müssen wir daher auf der rechten Seite das Produkt der Konzentration von A mit sich selbst, also
2
cA (t) , verwenden.
(c) Reaktion mit mehreren chemischen Substanzen: Oft hängt die Änderungsrate
einer Konzentration auch von den Konzentrationen anderer beteiligter Spezies ab, so
dass mehrere gekoppelte Differentialgleichungen auftreten. Beispielsweise ergibt sich
k
für die Elementarreaktion A + B → P nach dem Massenwirkungsgesetz das (nichtlineare) Differentialgleichungssystem:
c′A (t) = −k cA (t) cB (t),
c′B (t) = −k cA (t) cB (t),
c′P (t) =
k cA (t) cB (t).
k
k
(d) Folgereaktion: Für eine Folgereaktion A →1 B →2 P erhält man das System von
Differentialgleichungen
c′A (t) = −k1 cA (t),
c′B (t) =
c′P (t) =
k1 cA (t) − k2 cB (t),
k2 cB (t).
Dies ist ein sogenanntes lineares Differentialgleichungssystem 1. Ordnung. Wir
können das obige Differentialgleichungssystem lösen, indem wir nacheinander erst
durch Lösen der ersten Gleichung cA (t) berechnen, und dann nach Einsetzen von cA (t)
in die zweite Gleichung die zweite Gleichung lösen, um cB (t) zu berechnen. Nachdem
wir cB (t) in die letzte Gleichung eingesetzt haben, können wir durch Integrieren cP (t)
berechnen.
300
10.2
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
Differentialgleichungen erster Ordnung mit getrennten Variablen
In diesen Teilkapitel betrachten wir einen speziellen Typ von gewöhnlichen Differentialgleichungen erster Ordnung, nämlich Differentialgleichungen erster Ordnung mit getrennten Variablen. Diese können nach dem Sortieren“ nach den Variablen, der sogenannten
”
Separation der Variablen“, mittels Integration gelöst werden.
”
Definition 10.12. (Differentialgleichung mit getrennten Variablen) Eine Differentialgleichung erster Ordnung der Form
y ′ (t) = g(t) · h y(t)
oder kürzer y ′ = g(t) · h(y)
(10.15)
heißt eine Differentialgleichung mit getrennten Variablen.
Entscheidend ist also, dass sich auf der linken Seite der Gleichung nur die Ableitung y ′(t)
befindet und dass auf der rechten Seite das Produkt einer Funktion
g(t), die nur von t
′
aber nicht von y(t) oder y (t) abhängt, und einer Funktion h y(t) , die nur von y(t) aber
nicht von t oder y ′(t) abhängt, steht. Die Variablen t und y = y(t) auf der rechten Seite
von (10.15) lassen sich also trennen, indem wir die rechte Seite als ein Produkt einer
Funktion g(t) der Variable t und einer Funktion h(y) der Variable y = y(t) schreiben.
Betrachten wir zunächst einige Beispiele
Beispiel 10.13. (Differentialgleichung 1. Ordnung mit getrennten Variablen)
2
(Hier haben wir: g(t) = −k und h(y) = y 2 .)
(a) y(t)′ = −k y(t)
(b) y ′(t) = ey(t) sin(t) (Hier haben wir: g(t) = sin(t) und h(y) = ey .)
2
(c) y ′(t) = y(t) + t2 hat keine getrennten Variablen.
(d) y ′(t) = t y(t) (Hier haben wir: g(t) = t und h(y) = y.)
Wir erklären nun, wie man eine Differentialgleichung erster Ordnung mit getrennten Variablen mittels Integration löst. Diese Methode wird auch als Separation der Variablen“
”
bezeichnet.
Lösungsmethode 10.14. (Separation/Trennung der Variablen für Differentialgleichungen erster Ordnung mit getrennten Variablen) Man teilt die Differentialgleichung erster Ordnung mit getrennten Variablen
y ′ (t) = g(t) · h y(t)
zunächst auf beiden Seiten durch h y(t) :
y ′ (t)
= g(t)
h y(t)
falls
h y(t) =
6 0.
10. Gewöhnliche Differentialgleichungen
301
Unbestimmte Integration bzgl. t liefert
Z
Z
y ′ (t)
dt = g(t) dt,
h(y(t))
(10.16)
und unter Anwendung der Substitutionsregel für y = y(t) (und damit dy/dt = y ′ (t) ⇔
dy = y ′(t) dt) erhält man für das linke Integral
Z
Z
dy
y ′ (t)
.
dt =
h(y(t))
h(y) y=y(t)
Wir können (10.16) daher auch noch einfacher als
Z
Z
dy
= g(t) dt
h(y) y=y(t)
(10.17)
schreiben. Die Berechnung dieser unbestimmten Integrale(mit Integrationskonstante) und
Auflösen nach y ergibt alle Lösungen y(t) für die h y(t) 6= 0 gilt.
Der Spezialfall h y(t) = 0 muss gesondert behandelt werden.
Bei der Lösung des Anfangswertproblems
y ′(t) = g(t) · h y(t) ,
y(t0) = y0 ,
kann der Anfangswert sofort eingerechnet werden. Dazu integriert man in (10.17) von t0
bis t, also
Z y(t)
Z y(t)
Z t
dy
dy
=
=
g(s) ds.
(10.18)
h(y)
y(t0 ) h(y)
y0
t0
Ausrechnen und Auflösen nach y(t) liefert die Lösung.
Betrachten wir einige Beispiele für das Lösen von Differentialgleichungen mit getrennten
Variablen mittels Separation/Trennung der Variablen.
Beispiel 10.15. (Differentialgleichung 1. Ordnung mit getrennten Variablen)
Die Differentialgleichung y ′(t) = k y(t) ist eine Differentialgleichung
mit getrennten Va
riablen (mit g(t) = k und h(y) = y). Wir teilen für h y(t) = y(t) 6= 0 auf beiden Seiten
durch h y(t) = y(t), also
y ′(t)
′
=⇒
y (t) = k y(t) : y(t) 6= 0
= k,
y(t)
und integrieren anschließend
Z
Z ′
Z
y (t)
dy
=
dt = k dt
y y=y(t)
y(t)
=⇒
ln |y(t)| = ln |y| = k t + c1
mit einer Integrationskonstante c1 . Anwenden der (natürlichen) Exponentialfunktion auf
beiden Seiten liefert
ln |y(t)| = k t + c1
=⇒
|y(t)| = ekt+c1 = ekt · ec1
302
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
=⇒
y(t) = ec1 ekt
oder y(t) = −ec1 ekt .
Beide Fälle lassen sich zusammenfassen: y(t) = c ekt mit c 6= 0, wobei das Vorzeichen von
c = ±ec1 nun durch die neue Konstante c berücksichtigt wird.
Offensichtlich ist aber y(t) = 0 auch eine Lösung der Differentialgleichung y ′(t) = k y(t).
Also sind alle Lösungen von y ′(t) = k y(t) von der Form y(t) = c ekt mit c ∈ R beliebig.
Beispiel 10.16. (Anfangswertproblem für eine Differentialgleichung 1. Ordnung
mit getrennten Variablen) Betrachten wir das Anfangswertproblem
y ′(t) = t y(t),
y(0) = y0 .
(10.19)
Diese Differentialgleichung
erster Ordnung hat getrennte Variablen
(mit g(t) = t und
h(y) = y). Ist h y(t) = y(t) 6= 0, so können wir durch h y(t) = y(t) teilen und erhalten
y ′(t)
= t,
y(t)
und wir integrieren anschliessend über t von 0 bis s, wobei wir y0 6= 0 voraussetzen müssen,
damit das Integral existiert. Dann gilt
s
Z s ′
Z s
Z y(s)
y(s)
1 2
y (t)
dy
=
=
dt =
t
t dt
=⇒
ln |y|
y
2
0 y(t)
0
y0
0
y0
y(s) 1
= 1 s2 .
=⇒
ln =⇒
ln |y(s)| − ln |y0 | = s2
2
y0 2
Nun nehmen wir auf beiden Seiten die (natürliche) Exponentialfunktion:
y(s) y(s) 1
2
2
= s
= es2 /2
ln =⇒
y(s) = y0 es /2 .
=⇒
y0
2
y0
Der Absolutbetrag kann dabei weggelassen werden, weil das das Vorzeichen durch y0
2
bestimmt wird. Wir finden also die eindeutig bestimmte Lösung y(t) = y0 et /2 für y0 6= 0.
2
Ist y0 = 0, so ist y(t) = y0 et /2 = 0 ebenfalls eine Lösung von y ′ (t) = t y(t). Also hat das
2
Anfangswertproblem (10.19) für alle Anfangswerte y0 ∈ R die Lösung y(t) = y0 et /2 .
Beispiel 10.17. (Anfangswertproblen für Differentialgleichung 1. Ordnung mit
getrennten Variablen) Betrachten wir das Anfangswertproblem
2
y ′(t) = −k y(t) ,
y(0) = y0
mit Anfangswert y0 > 0.
2
Für y(t) 6= 0 erhalten wir nach Division durch y(t)
y ′(t)
2 = −k,
y(t)
und durch Integration über t von 0 bis s erhalten wir
Z y(s)
Z s
Z s ′
dy
y (t)
k dt
=⇒
=
2 dt = −
y2
y0
y(t)
0
0
y(s)
s
1
= − k t 0.
−
y y0
10. Gewöhnliche Differentialgleichungen
303
Durch Einsetzen der Intergrationsgrenzen und Auflösen nach y(s) finden wir
−
1
1
+
= −k s
y(s) y0
=⇒
ks+
1
1
=
y0
y(s)
=⇒
y(s) =
1
.
k s + (1/y0 )
Alternativ hätten wir auch zunächst die Differentialgleichung ohne den Anfangswert lösen
können und am Ende den Anfangswert benutzen können, um die Integrationskonstante
zu bestimmen. Das Ergebnis ist natürlich das Gleiche!
Wir fassen unsere Vorgehensweise noch einmal zusammen.
Bemerkung 10.18. (Zusammenfassung: Separation/Trennung der Variablen für
Differentialgleichungen erster Ordnung mit getrennten Variablen) Liegt eine
Differentialgleichung in der Form
y ′ (t) = g(t) · h y(t)
=⇒
y ′(t)
= g(t)
h y(t)
für h y(t) =
6 0
vor, so finden wir die Lösung durch die (unbestimmte) Integration
Z
Z
Z
y ′ (t)
dy
dt = g(t) dt
=
h(y) y=y(t)
h y(t)
und anschließendes Auflösen nach t.
Zuletzt betrachten wir noch ein Anwendungsproblem aus der Chemie.
Anwendung 10.19. (Reaktionsgleichungen: DGL-System mit getrennten Variablen) Betrachten wir die Elementarreaktion A + B → P , für welche wir bereits in
Anwendung 10.11 (c) das System von Differentialgleichungen erster Ordnung aufgestellt
hatten. Für Anwendungen typische Anfangswerte sind cA (0) = a, cB (0) = b und cP (0) = 0,
d.h. zu Beginn der Reaktion liegt noch keine Substanz P vor, weil A und B noch nicht
miteinander reagiert haben. Damit eine Reaktion stattfindet muss a, b > 0 gelten. Gesucht
ist die Produktkonzentration cP (t) für jedem Zeitpunkt t > 0.
Das gesamte Differentialgleichungssystem mit diesen Anfangswerten lautet also (vgl. Anwendung 10.11 (c))
c′A (t) = −k cA (t) cB (t),
c′B (t) = −k cA (t) cB (t),
c′P (t) =
k cA (t) cB (t),
cA (0) = a,
(10.20)
cB (0) = b,
(10.21)
cP (0) = 0.
(10.22)
Direkt lässt sich das volle System nicht lösen. Andererseits wäre es ausreichend,
die letzte Gleichung zu lösen. Dies ist getrennt nur dann möglich, wenn man cA (t)
und cB (t) durch cP (t) ausdrücken kann. Hier hilft uns die Anschauung: Wenn (zur Zeit
t ≥ 0) N Moleküle P entstanden sind, so sind dafür jeweils N Moleküle von A
304
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
und jeweils N Moleküle von B verbraucht worden. Für die Konzentrationen cA (t)
und cB (t) sollte also gelten:
⇐⇒
cA (t) = a − cP (t),
cB (t) = b − cP (t)
cA (t) + cP (t) = a,
cB (t) + cP (t) = b
für alle t ≥ 0
für alle t ≥ 0.
Dass diese Vermutung richtig ist, sieht man wie folgt:
′
cA (t) + cP (t) = c′A (t) + c′P (t) = −k cA (t) cB (t) + k cA (t) cB (t) = 0,
′
cB (t) + cP (t) = c′B (t) + c′P (t) = −k cA (t) cB (t) + k cA (t) cB (t) = 0,
(10.23)
(10.24)
(10.25)
(10.26)
wobei wir im zweiten Schritt die Differentialgleichungen (10.20) und (10.22) bzw. (10.21)
und (10.22) eingesetzt haben. Aus (10.25) bzw. (10.26) folgt, dass die Funktion cA (t) +
cP (t) bzw. cB (t) + cP (t) jeweils konstant ist, also cA (t) + cP (t) = d1 und cB (t) + cP (t) = d2
mit Konstanten d1 , d2 ∈ R. Da aber auch für t = 0 die Gleichungen cA (t) + cP (t) = d1
und cB (t) + cP (t) = d2 gelten müssen, folgt aus den Anfangswerten
d1 = cA (0) + cP (0) = a
| {z } | {z }
=a
=0
und
d2 = cB (0) + cP (0) = b.
| {z } | {z }
=0
=b
Also gilt d1 = a und d2 = b, und wir haben bewiesen, dass (10.24) und damit (10.23) gilt.
Durch Einsetzen von (10.23) in die dritte Differentialgleichung (10.20) folgt
c′P (t) = k a − cP (t) b − cP (t) .
Dies ist eine Differentialgleichung
mit getrennten Variablen. Wir teilen auf beiden Seiten
durch a − cP (t) b − cP (t) und erhalten
c′P (t)
=k
a − cP (t) b − cP (t)
und integrieren anschließend über t von t = 0 bis t = s
Z
cP (s)
0
dcP
=
(a − cP ) (b − cP )
Z
s
0
c′P (t)
dt =
a − cP (t) b − cP (t)
Z
s
k dt = k s,
(10.27)
0
wobei wir cP (0) = 0 für die untere Grenze im linken Integral verwendet haben.
Um die linke Seite zu integrieren müssen wir zwei Fälle unterscheiden: a = b und a 6= b.
Betrachten wir zuerst den einfacheren Fall a = b. Dann gilt
Z
0
cP (s)
dcP
=
(a − cP )(b − cP )
Z
0
cP (s)
cP (s)
1
dcP
1
1
=
=
− . (10.28)
2
(a − cP )
a − cP 0
a − cP (s) a
Einsetzen von (10.28) in (10.27) und Auflösen nach cP (s) liefert
1
1
− = ks
a − cP (s) a
⇐⇒
1
1
= ks+
a − cP (s)
a
10. Gewöhnliche Differentialgleichungen
⇐⇒
1
= a − cP (s)
k s + 1/a
305
⇐⇒
cP (s) = a −
1
.
k s + 1/a
Betrachten wir nun den (realistischeren) Fall a 6= b. Dann berechnet man das unbestimmte Integral
Z
dx
(a − x)(b − x)
mittels Partialbruchzerlegung (vgl. Teilkapitel 9.6): Mit der Partialbruchzerlegung
1
1
1
1
=
−
(a − x) (b − x)
b−a a−x b−x
erhält man für x = cP
Z cP (s)
Z cP (s)
1
1
1
dcP
−
dcP
=
(a − cP ) (b − cP )
b − a a − cP
b − cP
0
0
!
Z cP (s)
Z cP (s)
1
dcP
dcP
=
−
b−a
a − cP
b − cP
0
0
cP (s) !
cP (s) 1
− − ln |b − cP | − ln |a − cP | =
b−a
0
0
cP (s)
1
=
ln |b − cP | − ln |a − cP | b−a
0
cP (s)
b − cP 1
=
ln b−a
a − cP 0
b − cP (s) b
1
1
−
=
(10.29)
ln ln .
b−a
a − cP (s)
b−a
a
Einsetzen von (10.29) in (10.27) liefert
b − cP (s) b
1
1
−
ln ln = k s.
b−a
a − cP (s)
b−a
a
Wir multiplizieren zunächst auf beiden Seiten mit (b − a) und nutzen − ln(x) = ln(1/x)
für − ln(|b/a|) aus
a b − cP (s) ln + ln = k (b − a) s.
a − cP (s)
b
Dann nehmen wir die (natürliche) Exponentialfunktion auf beiden Seiten
a b − cP (s) a b − cP (s) · = ek(b−a)s ,
+ ln =
exp ln a − cP (s) b
a − cP (s) b
| {z
}
a b − cP (s) · exp ln = exp ln a − cP (s)
b
306
10.2. Differentialgleichungen erster Ordnung mit getrennten Variablen
wobei wir das Gesetz ex+y = ex ·ey für die Exponentialfunktion benutzt haben. Nun nutzen
wir, dass nach Voraussetzung a > 0 und b > 0 gilt, d.h. wir können die Betragsstriche bei
|a/b| weglassen. Wir multiplizieren mit b/a und erhalten
b − cP (s) b k(b−a)s
.
(10.30)
a − cP (s) = a · e
Solange cP (s) ≤ a und cP (s) ≤ b, also cP (s) ≤ min{a, b}, für alle s ≥ 0 gilt, können
die Beträge entfallen. Anschaulich sollte dies für alle Zeiten s ≥ 0 gelten, denn erst beim
vollständigen Umsatz einer der in die Reaktion eingehenden Substanzen sollte cP (s) =
min{a, b} gelten. Für eine mathematisch korrekte Lösung muss diese Annahme im Nachhinein geprüft werden, was wir am Ende machen werden! – Wir nehmen also zunächst an,
dass
cP (s) ≤ a
und
cP (s) ≤ b
für alle s ≥ 0
⇐⇒
cP (s) ≤ min{a, b}
für alle s ≥ 0
gilt, d.h.
a − cP (s) ≥ 0
und
b − cP (s) ≥ 0
für alle s ≥ 0.
Daher lassen wir also die Betragsstriche in (10.30) weg und lösen nach cP (s):
b
b − cP (s)
= · ek(b−a)s
a − cP (s)
a
=⇒
=⇒
=⇒
=⇒
=⇒
b
b − cP (s) = a − cP (s) · · ek(b−a)s
a
b
b − cP (s) = b · ek(b−a)s − cP (s) · · ek(b−a)s
a
b k(b−a)s
cP (s)
·e
− 1 = b · ek(b−a)s − b
a
−1
a − b ek(b−a)s = −b 1 − ek(b−a)s
cP (s) ·
a
1 − ek(b−a)s
cP (s) = a b ·
.
a − b ek(b−a)s
Also finden wir für a 6= b unter der Annahme cP (t) ≤ min{a, b} für alle t ≥ 0 die
folgende Lösung
1 − ek(b−a)t
.
(10.31)
cP (t) = a b ·
a − b ek(b−a)t
Zuletzt müssen wir noch unsere Annahme cP (t) ≤ min{a, b} für alle t ≥ 0 für die
Lösung (10.31) überprüfen. Dazu zeigen wir zunächst, dass cP monoton wachsend
ist. Wenn wir dies nachgewiesen haben, dann wissen wir, dass 0 ≤ cP (t) ≤ limt→∞ cP (t).
Wenn wir anschließend zeigen können, dass limt→∞ cP (t) ≤ min{a, b} gilt, dann haben
wir unsere Annahme nachgewiesen. Ableiten von (10.31) liefert
c′P (t) = a b ·
−k (b − a) ek(b−a)t (a − b ek(b−a)t ) − (1 − ek(b−a)t ) (−1) k (b − a) b ek(b−a)t
(a − b ek(b−a)t )2
= a b k (b − a) ek(b−a)t ·
−(a − b ek(b−a)t ) + b (1 − ek(b−a)t )
(a − b ek(b−a)t )2
10. Gewöhnliche Differentialgleichungen
= a b k (b − a) ek(b−a)t ·
= a b k (b − a) ek(b−a)t ·
= a b k ek(b−a)t ·
307
−a + b ek(b−a)t + b − b ek(b−a)t
(a − b ek(b−a)t )2
b−a
(a − b ek(b−a)t )2
(b − a)2
.
(a − b ek(b−a)t )2
Wegen k > 0, a > 0, b > 0, a 6= b und ex > 0 für alle x ∈ R finden wir also c′P (t) > 0,
d.h. cP ist streng monoton wachsend für alle t.
Betrachten wir nun cP (t) für t → ∞, so müssen wir die beiden Fälle b < a und b > a
unterscheiden.
• Für b < a ist b − a < 0 und b = min{a, b}, und daher gilt
lim ek(b−a)t = 0.
t→∞
Also finden wir
1 − lim ek(b−a)t
1 − ek(b−a)t
1
t→∞
lim cP (t) = lim a b ·
= ab·
= a b = b = min{a, b}.
k(b−a)t
k(b−a)t
t→∞
t→∞
a − be
a − b lim e
a
t→∞
• Für b > a ist b − a > 0 und a = min{a, b}, und daher gilt
lim e−k(b−a)t = 0.
t→∞
Also erweitern wir den Bruch in cP (t) erst mit e−k(b−a)t und erhalten
cP (t) = a b ·
Damit finden wir
e−k(b−a)t − 1
1 − ek(b−a)t
=
a
b
·
.
a − b ek(b−a)t
a e−k(b−a)t − b
lim e−k(b−a)t − 1
e−k(b−a)t − 1
t→∞
lim cP (t) = lim a b · −k(b−a)t
= ab·
t→∞
t→∞
ae
−b
a lim e−k(b−a)t − b
t→∞
= ab·
−1
0−1
= ab ·
= a = min{a, b}.
a·0−b
−b
Wegen c′P (t) > 0 für alle t ≥ 0 folgt cP (t) ≤ limt→∞ cP (t) = min{a, b}, und die Annahme
cP (t) ≤ min{a, b} für alle t ≥ 0 ist gerechtfertigt.
10.3
Lineare Differentialgleichungen erster Ordnung
In diesem Teilkapitel betrachten wir lineare Differentialgleichungen erster Ordnung. Wir
werden sehen, dass alle Lösungen der sogenannten (zugehörigen) homogenen linearen Differentialgleichung von der Form yh (t) = e−A(t) mit einer geeigneten Funktion A(t) sind.
Danach lernen wir, wie man mit dem sogenannten Ansatz der Variation der Konstan”
ten“ ys (t) = u(t) yh(t) eine Lösung der inhomogenen linearen Differentialgleichung erster
Ordnung findet.
308
10.3. Lineare Differentialgleichungen erster Ordnung
Definition 10.20. (lineare Differentialgleichung erster Ordnung) Eine lineare
Differentialgleichung erster Ordnung ist von der Form
a1 (t) y ′(t) + a0 (t) y(t) = g(t).
(10.32)
Ist die Funktion g(t) die Nullfunktion (also g(t) = 0 für alle t) so nennt man (10.32) eine
homogene lineare Differentialgleichung erster Ordnung. Ist g(t) nicht die Nullfunktion,
so nennt man (10.32) eine inhomogene lineare Differentialgleichung erster Ordnung.
Ist (10.32) eine inhomogene lineare Differentialgleichung erster Ordnung, so nennen
wir
a1 (t) y ′(t) + a0 (t) y(t) = 0.
(10.33)
die zu (10.32) zugehörige homogene lineare Differentialgleichung erster Ordnung.
Indem wir (10.32) und (10.33) durch a1 (t) 6= 0 teilen, können wir jeweils zu der Stan”
dardform“ eine linearen Differentialgleichung erster Ordnung übergehen:
y ′(t) + a(t) y(t) = f (t)
bzw.
y ′ (t) + a(t) y(t) = 0,
(10.34)
wobei wir a(t) = a0 (t)/a1 (t) und f (t) = g(t)/a1(t) gesetzt haben.
Betrachten wir zunächst ein paar Beispiele.
Beispiel 10.21. (lineare Differentialgleichungen erster Ordnung)
(a) y ′ (t) + y(t)/t = 0 ist eine homogene lineare Differentialgleichung erster Ordnung in
Standardform mit a(t) = 1/t.
(b) y ′ (t) = t + y(t) können wir schreiben als
y ′(t) − y(t) = t.
Also ist dieses eine inhomogene lineare Differentialgleichung erster Ordnung in Standardform mit a(t) = −1 und f (t) = t.
(c) t2 y ′ (t) − t3 y(t) = 7 t3 ist eine inhomogene lineare Differentialgleichung erster Ordnung, die sich nicht in Standardform befindet. Um die Differentialgleichung in die
Standardform zu überführen, teilen wir (für t 6= 0) durch t2 und erhalten
y ′(t) − t y(t) = 7 t.
2
(d) y ′ (t) + y(t) = 17 ist keine lineare Differentialgleichung erster Ordnung, weil der
2
Term y(t) quadratisch (und nicht linear) in y(t) ist.
Die allgemeine Lösung einer linearen Differentialgleichung erster Ordnung (10.32) ist
die Summe aus einer (speziellen) Lösung ys dieser Gleichung und der allgemeinen
Lösung yh der zugehörigen homogenen linearen Differentialgleichung erster Ordnung
(10.33). Unter einer allgemeinen Lösung einer Differentialgleichung versteht man dabei
die allgemeinste Form der Lösung, bei der alle involvierten Konstanten noch passend
10. Gewöhnliche Differentialgleichungen
309
gewählt werden können. Geben wir einen Anfangswert vor, so werden die Konstanten
natürlich festgelegt.
Wir erklären nun wie man zunächst die zugehörige homogene Differentialgleichung erster
Ordnung (10.33) und anschließend die inhomogene Differentialgleichung erster Ordnung
(10.32) löst.
Lösungsmethode 10.22. (für eine lineare Differentialgleichung 1. Ordnung)
(1) Wir teilen (10.32) durch a1 (t) 6= 0 und bringen die lineare Differentialgleichung erster
Ordnung in die Standardform (10.34), also
y ′(t) + a(t) y(t) = f (t)
(10.35)
mit a(t) = a0 (t)/a1 (t) und f (t) = g(t)/a1 (t).
(2) Nun bestimmen wir die allgemeine Lösung der zugehörigen homogenen linearen Differentialgleichung erster Ordnung
y ′(t) + a(t) y(t) = 0
y ′ (t) = −a(t) y(t).
⇐⇒
(10.36)
Dies ist eine Differentialgleichung mit getrennten Variablen, die wir mit
Separation/Trennung der Variablen lösen können. Für y(t) 6= 0 folgt
y ′(t)
= −a(t),
y(t)
und Integration über t liefert
Z
y ′(t)
dt = −
y(t)
Z
a(t) dt,
und für die linke Seite erhalten wir mit der Substitution y = y(t), dy = y ′(t) dt,
Z
Z ′
h
i
1
y (t)
dt =
dy
= ln |y| + c
= ln |y(t)| + c.
y(t)
y
y=y(t)
y=y(t)
Also finden wir
ln |y(t)| + c = −
⇐⇒
⇐⇒
⇐⇒
Z
a(t) dt ⇐⇒
ln |y(t)| = −c −
Z
R
|y(t)| = exp −c − a(t) dt = e−c e− a(t) dt
y(t) = e−c e−
y(t) = C e−
R
R
a(t) dt
a(t) dt
oder
Z
y(t) = −e−c e−
a(t) dt
R
a(t) dt
mit einer Konstanten C 6= 0.
Da y(t) = 0 aber auch eine Lösung der homogenen Differentialgleichung (10.36) ist,
dürfen wir die Konstante C auch als C = 0 wählen. Also ist die allgemeine Lösung
der homogenen Differentialgleichung (10.36) durch
Z
R
yh (t) = C exp − a(t) dt = C e− a(t) dt
mit einer Konstanten C ∈ R
(10.37)
310
10.3. Lineare Differentialgleichungen erster Ordnung
gegeben.
Falls unsere lineare Differentialgleichung erster Ordnung homogen ist, also falls in
(10.35) f (t) = 0 ist, sind wir fertig. Andernfalls führen wir die nächsten beiden
Schritte aus.
(3) Nun bestimmen wir eine spezielle Lösung der inhomogenen linearen Differentialgleichung erster Ordnung (10.35) mit dem sogenannten Ansatz der Variation
”
der Konstanten“: Hier macht man den Ansatz
ys (t) = u(t) yh (t)
(10.38)
für eine spezielle Lösung der inhomogenen Gleichung (10.35), wobei yh die bereits in Schritt (2) berechnete Lösung (10.37) der zugehörigen homogenen Gleichung
(10.36) ist. Setzen wir unseren Ansatz ys (t) = u(t) yh (t) in die inhomogene Gleichung
(10.35) ein, so finden wir mit der Produktregel
f (t) = ys′ (t) + a(t) ys (t)
′
= u(t) yh (t) + a(t) u(t) yh (t)
= u′(t) yh (t) + u(t) yh′ (t) + a(t) u(t) yh(t)
= u′(t) yh (t) + u(t) yh′ (t) + a(t) yh (t)
{z
}
|
=0
= u′(t) yh (t),
wobei wir im vorletzten Schritt genutzt haben, dass yh eine Lösung der zugehörigen
homogenen linearen Differentialgleichung ist. Also finden wir, dass u = u(t) die
folgende Differentialgleichung erfüllen muss
u′ (t) yh (t) = f (t)
⇐⇒
u′ (t) =
die wir durch direkte“ Integration lösen können:
”
Z
f (t)
u(t) =
dt.
yh (t)
f (t)
,
yh (t)
(10.39)
Hierbei darf die Integrationskonstante weglassen werden, denn wir interessieren uns
nur für eine spezielle Lösung (und nicht für die allgemeine Lösung). Ebenso können
wir im Ansatz (10.38) und damit dann in (10.39) die Integrationskonstante C in der
allgemeinen Lösung (10.37) fest (aber ungleich Null) wählen, z.B. C = 1.
(4) Die allgemeine Lösung der linearen inhomogenen Differentialgleichung erster Ordnung ist die Summe aus der allgemeinen Lösung yh der zugehörigen homogenen Gleichung und einer speziellen Lösung ys der inhomogenen
Gleichung, also
y(t) = yh (t) + ys (t) = yh (t) + u(t) yh (t),
(10.40)
| {z }
= ys (t)
wobei wir die allgemeine Lösung yh = yh (t) der zugehörigen homogenen Gleichung
mit (10.37) und die Funktion u = u(t) mit (10.39) berechnen.
10. Gewöhnliche Differentialgleichungen
311
Man kann sich entweder einfach die relevanten Formeln (10.40), (10.37) und (10.39) merken, oder man kann auch den Lösungsprozess direkt durchführen, indem man die homogene Differentialgleichung mit Separation der Variablen löst und anschliessend den Ansatz
Variation der Konstanten“ ys (t) = u(t) yh(t) verwendet. Dies ist Geschmacksache. Die
”
zweite Variante ist weniger fehleranfällig aber dafür mehr Schreibaufwand. Wir führen
beide Vorgehensweisen für Beispiele durch. Das Ergebnis ist natürlich immer das gleiche.
Betrachten wir einige Beispiele. Wir verwenden erst die kürzere Variante“ der Lösung,
”
bei der wir die Formeln (10.40), (10.37) und (10.39) einfach anwenden.
Beispiel 10.23. (inhomogene lineare DGL erster Ordnung) Betrachten wir das
Anfangswertproblem
y ′(t) + y(t) = sin(t),
y(0) = 1.
(10.41)
Diese lineare Differentialgleichung erster Ordnung ist bereits in Standardform.
Da a(t) = 1 ist, finden wir nach (10.37) für die allgemeine Lösung der zugehörigen homogenen Gleichung die Formel
Z
Z
yh (t) = C exp − a(t) dt = C exp − 1 dt = C exp(−t) = C e−t
mit einer Konstanten C ∈ R. Um eine spezielle Lösung ys (t) = u(t) yh (t) der inhomogenen
Gleichung zu finden, setzen wir in dem Ansatz C = 1 und berechnen wir u = u(t) mit
(10.39) wie folgt:
Z
Z
Z
sin(t)
sin(t)
u(t) =
dt =
dt =
et
sin(t) dt
|{z}
| {z }
yh (t)
e−t
= h′ (t) = v(t)
Z
t
cos(t) dt
= e sin(t) −
et
|{z}
| {z }
= w ′ (t) = x(t)
Z
t
t
t
= e sin(t) − e cos(t) − e − sin(t) dt
t
=e
sin(t) − cos(t) −
Z
et sin(t) dt,
wobei wir im zweiten Schritt partielle Integration mit h(t) = et , h′ (t) = et , v(t) = sin(t),
v ′ (t) = cos(t) und im dritten Schritt partielle Integration mit w(t) = et , w ′(t) = et ,
x(t) = cos(t), x′ (t) = − sin(t) verwendet haben. Wir können nun das Restintegral auf der
rechten Seite auf beiden Seiten addieren und erhalten
Z
1
2 u(t) = 2 et sin(t) dt = et sin(t) − cos(t)
=⇒
u(t) = et sin(t) − cos(t) .
2
Also ist eine spezielle Lösung der inhomogenen linearen Differentialgleichung durch
ys (t) = u(t) yh (t) =
1
1 t
sin(t) − cos(t)
e sin(t) − cos(t) e−t =
2
2
312
10.3. Lineare Differentialgleichungen erster Ordnung
gegeben, wobei wir in yh (t) wieder C = 1 gesetzt haben. Die allgemeine Lösung der
inhomogenen Differentialgleichung ist also
y(t) = yh (t) + ys (t) = C e−t +
Für den Anfangswert y(0) = 1 finden wir
1 = y(0) = C e0 +
1
sin(t) − cos(t) .
2
1
1
1
sin(0) − cos(0) = C + (0 − 1) = C −
2
2
2
=⇒
C=
3
.
2
Also ist die Lösung des Anfangswertproblems (10.41)
y(t) =
3 −t 1
sin(t) − cos(t) .
e +
2
2
Wollen wir uns die Formeln (10.40), (10.37) und (10.39) nicht merken, so müssen wir
etwas mehr Arbeit leisten. Wir führen dies für die Differentialgleichung aus dem vorigen
Beispiel auch einmal durch.
Beispiel 10.24. (inhomogene lineare DGL erster Ordnung) Betrachten wir wieder
das Anfangswertproblem aus dem vorigen Beispiel
y ′ (t) + y(t) = sin(t),
y(0) = 1.
Diese lineare Differentialgleichung erster Ordnung ist bereits in Standardform.
Wir lösen zuerst die zugehörige homogene Gleichung
y ′ (t) + y(t) = 0
y ′(t) = −y(t).
⇐⇒
Für y(t) 6= 0 teilen wir durch y(t) und finden
y ′ (t)
= −1.
y(t)
Integration auf beiden Seiten über t liefert jeweils
Z
(−1) dt = −t + c0 ,
Z
Z ′
1
y (t)
dt =
dy
= ln |y| + c1 y=y(t) = ln |y(t)| + c1 .
y(t)
y
y=y(t)
Also finden wir
ln |y(t)| + c1 = −t + c0
=⇒
⇐⇒
|y(t)| = e−t+c = ec e−t
ln |y(t)| = −t + c0 − c1
| {z }
=c
=⇒
y(t) = ±ec · e−t = C e−t ,
|{z}
=C
10. Gewöhnliche Differentialgleichungen
313
wobei wir in der zweiten Zeile auf beiden Seiten die (natürliche) Exponentialfunktion
genommen haben. Da auch y(t) = 0 eine Lösung von y ′(t) + y(t) = 0 ist, können wir
die Konstante C auch als C = 0 wählen. Also ist die allgemeine Lösung der homogenen
Gleichung y ′(t) + y(t) = 0
yh (t) = C e−t
mit einer Konstanten C ∈ R.
Nun finden wir eine Lösung der inhomogenen Gleichung y ′(t) + y(t) = sin(t) mit dem
Ansatz der Variation der Konstanten“
”
ys (t) = u(t) yh (t) = u(t) e−t ,
wobei wir hier die Konstante C in yh als C = 1 wählen dürfen. Einsetzen in die inhomogene
Gleichung liefert:
′
sin(t) = ys′ (t) + ys (t) = u(t) yh(t) + u(t) yh(t)
= u′ (t) yh (t) + u(t) yh′ (t) + u(t) yh (t)
= u′ (t) yh (t) + u(t) yh′ (t) + yh (t)
|
{z
}
=0
= u′ (t) yh (t).
Also gilt
u′ (t) yh (t) = u′ (t) e−t = sin(t)
=⇒
u′ (t) =
sin(t)
= et sin(t).
−t
e
Mittels zweifacher partieller Integration finden wir wie in Beispiel 10.23
u(t) =
1 t
e sin(t) − cos(t) .
2
Also ist eine spezielle Lösung der Differentialgleichung durch
ys (t) = u(t) yh (t) =
1 t
1
sin(t) − cos(t)
e sin(t) − cos(t) e−t =
2
2
gegeben, wobei wir in yh (t) wieder C = 1 gesetzt haben. Die allgemeine Lösung der
inhomogenen Differentialgleichung ist also
y(t) = yh (t) + ys (t) = C e−t +
1
sin(t) − cos(t) .
2
Für den Anfangswert y(0) = 1 finden wir analog zu Beispiel 10.23 die Konstante C = 3/2,
und die Lösung des Anfangswertproblems ist
y(t) =
3 −t 1
sin(t) − cos(t) .
e +
2
2
Die nachfolgenden Beispiele lösen wir, indem wir die Formeln (10.40), (10.37) und (10.39)
einfach anwenden.
314
10.3. Lineare Differentialgleichungen erster Ordnung
Beispiel 10.25. (lineare inhomogene DGL erster Ordnung) Wir wollen die lineare
inhomogene Differentialgleichung
y ′ (t) − y(t) = t
lösen. Diese ist bereits in der Standardform mit a(t) = −1. Wir wenden Formel (10.37)
an, um die allgemeine Lösung der zugehörigen homogenen Gleichung y ′(t) − y(t) = 0 zu
finden: Mit a(t) = −1 erhalten wir
Z
Z
1 dt = C exp(t) = C et .
yh (t) = C exp − (−1) dt = C exp
Um eine spezielle Lösung der inhomogenen Gleichung zu finden, nutzen wir den Ansatz
ys (t) = u(t) yh (t). Nach Formel (10.39) berechnet sich u(t) wir folgt:
Z
Z
Z
t
−t
−t
u(t) =
dt =
t
e
dt = t · (−e ) − 1 · (−e−t ) dt
|{z}
|{z}
et
= w(t) = v ′ (t)
Z
−t
= −t e + e−t dt = −t e−t − e−t = (−1 − t) e−t ,
wobei wir in der ersten Zeile partielle Integration mit w(t) = t, w ′ (t) = 1, v(t) = e−t ,
v ′ (t) = −e−t benutzt haben. Also finden wir als eine spezielle Lösung
ys (t) = u(t) yh (t) = (−1 − t) e−t et = −1 − t.
Damit ist die allgemeine Lösung der inhomogenen Differentialgleichung
y(t) = yh (t) + ys (t) = C et − 1 − t.
Beispiel 10.26. (lineare inhomogene DGL erster Ordnung) Wir wollen das Anfangswertproblem
t2 y ′ (t) − t3 y(t) = 7 t3 ,
y(1) = 0,
lösen. Diese inhomogene Differentialgleichung ist noch nicht in Standardform. Mittels
Division durch t2 6= 0 erhalten wir die Standardform
y ′ (t) − t y(t) = 7 t,
und wir haben a(t) = −t. Also finden wir als allgemeine Lösung der zugehörigen homogenen Gleichung
Z
Z
2
t
2
= C et /2 .
yh (t) = C exp − (−t) dt = C exp
t dt = C exp
2
Um eine spezielle Lösung ys der inhomogenen Gleichung zu finden, nutzen wir den Ansatz
der Variation der Konstanten“ ys (t) = u(t) yh (t) und haben als Formel für u = u(t)
”
Z
Z
Z
7t
7t
2
e−t /2 (−t) dt.
dt =
u(t) =
2 /2 dt = −7
t
yh (t)
e
10. Gewöhnliche Differentialgleichungen
315
Mit der Substitution s = −t2 /2 und damit ds/dt = −2t/2 = −t, also −t dt = ds, finden
wir
Z
Z
2
−t2 /2
s
u(t) = −7 e| {z } (−t) dt = −7 e ds
= − 7 es s=−t2 /2 = −7 e−t /2 .
| {z }
s=−t2 /2
es
= ds
Also finden wir als eine spezielle Lösung
2 /2
ys (t) = u(t) yh(t) = −7 e−t
2 /2
et
= −7.
Die allgemeine Lösung der inhomogenen Gleichung ist damit durch
2 /2
y(t) = yh (t) + ys (t) = C et
−7
gegeben, und für den Anfangswert y(1) = 0 erhalten wir
0 = y(1) = C e1/2 − 7
=⇒
7 = C e1/2
=⇒
7
e1/2
= C.
Also ist die Lösung der Anfangswertproblems
2
7 2
2
y(t) = 1/2 et /2 − 7 = 7 e−1/2 et /2 − 1 = 7 e(t −1)/2 − 1 .
e
Wir fassen unsere Vorgehensweise noch einmal zusammen.
Bemerkung 10.27. (Zusammenfassung: Lösen einer inhomogenen linearen Differentialgleichung erster Ordnung) Um eine inhomogene lineare Differentialgleichung
erster Ordnung
y ′(t) + a(t) y(t) = f (t)
(10.42)
zu lösen, lösen wir zuerst die zugehörige homogene Gleichung
y ′ (t) + a(t) y(t) = 0
(10.43)
mit Separation der Variablen (vgl. Bemerkung 10.18). Mit der allgemeinen Lösung yh von
(10.43) wählen wir dann für eine spezielle Lösung
Z
f (t)
ys (t) = u(t) yh (t)
mit
u(t) =
dt.
yh (t)
Die allgemeine Lösung von (10.42) ist dann
y(t) = yh (t) + ys (t).
Betrachten wir am Ende des Kapitels noch ein Anwendungsproblem aus der Chemie.
Anwendung 10.28. (Folgereaktion in der Chemie) Betrachten wir die Folgereaktion
k
k
A →1 B →2 P . Zur Zeit t = 0 seien die Konzentrationen cA (t), cB (t) und cP (t) der
Substanzen A, B und P gegeben durch cA (0) = a, cB (0) = 0, cP (0) = 0, d.h. wenn die
316
10.3. Lineare Differentialgleichungen erster Ordnung
chemische Reaktion startet liegt nur die Substanz A vor (also nur die Substanz A hat eine
Konzentration cA (0) = a größer als Null).
Wir wollen die Frage beantworten, wie sich die Konzentration von P zeitlich verändert?
Zunächst stellen wir das System der Differentialgleichungen auf (vgl. auch Anwendung
10.11 (d)):
c′A (t) = −k1 cA (t),
c′B (t) =
c′P (t) =
k1 cA (t) − k2 cB (t),
k2 cB (t),
cA (0) = a,
(10.44)
cB (0) = 0,
(10.45)
cP (0) = 0.
(10.46)
1. Schritt: Zunächst lösen wir die erste Gleichung: Diese ist eine lineare homogene Differentialgleichung erster Ordnung
c′A (t) + k1 cA (t) = 0
(10.47)
in Standardform mit a(t) = k1 . Also finden wir die allgemeine Lösung
Z
Z
cA (t) = C exp − a(t) dt = C exp − k1 dt = C exp(−k1 t) = C e−k1 t . (10.48)
Aus der Anfangsbedingung folgt a = cA (t) = C e−k1 0 = C, also C = a. Damit ist die
Lösung des Anfangswertproblems (10.44)
cA (t) = a e−k1 t .
(10.49)
2. Schritt: Wir setzen nun (10.49) in (10.45) ein und erhalten
c′B (t) + k2 cB (t) = k1 a e−k1 t ,
cB (0) = 0.
(10.50)
Dies ist eine inhomogene lineare Differentialgleichung erster Ordnung in Standardform
mit einem Anfangswert und mit a(t) = k2 . Wir finden für die Lösung der zugehörigen
homogenen Gleichung
c′B (t) + k2 cB (t) = 0
(10.51)
die allgemeine Lösung
cB,h (t) = C exp(−k2 t) = C e−k2 t .
Hier haben wir benutzt, dass (10.51) gerade die Differentialgleichung (10.47) wird, wenn
wir cB durch cA und k2 durch k1 ersetzen. Daher erhalten wir aus (10.48) gerade die
allgemeine Lösung von (10.51), indem wir cA durch cB und k1 durch k2 ersetzen. Mit
dem Ansatz der Variation der Konstanten“ cB,s (t) = u(t) cB,h (t) (mit C = 1 in cB,h )
”
berechnen wir eine spezielle Lösung der inhomogenen Gleichung. Dabei ist die Formel für
u = u(t)
u(t) =
Z
k1 a e−k1 t
dt =
cB,h (t)
Z
k1 a e−k1 t
dt = k1 a
e−k2 t
Z
e(k2 −k1 )t dt
10. Gewöhnliche Differentialgleichungen
317
=





a k1
e(k2 −k1 )t
(k2 − k1 )
für k1 6= k2 ,
a k1 t
für k1 = k2 .
Also finden wir als eine spezielle Lösung der inhomogenen Differentialgleichung (10.50)

a k1
a k1


e(k2 −k1 )t e−k2 t =
e−k1 t
für k1 6= k2 ,
−k2 t
(k2 − k1 )
(k2 − k1 )
cB,s (t) = u(t) e
=


a k1 t e−k2 t = a k1 t e−k1 t
für k1 = k2 .
Also finden wir für die allgemeine Lösung der inhomogenen Differentialgleichung (10.50)

a k1

 C e−k2 t +
e−k1 t
für k1 6= k2 ,
(k
−
k
)
2
1
cB (t) = cB,h (t) + cB,s (t) =


C e−k1 t + a k1 t e−k1 t
für k1 = k2 .
Einsetzen der Anfangswertbedingung cB (0) = 0 liefert

a k1
a k1

 C e−k2 0 +
e−k1 0 = C +
(k2 − k1 )
(k2 − k1 )
0 = cB (0) =


C e−k1 0 + a k1 0 e−k1 0 = C
Also erhalten wir
C=


 −


0
a k1
(k2 − k1 )
für k1 6= k2 ,
für k1 = k2 .
für k1 6= k2 ,
für k1 = k2 ,
und die Lösung des Anfangswertsproblems (10.45) ist

a k1


e−k1 t − e−k2 t
(k2 − k1 )
cB (t) =


a k1 t e−k1 t
für k1 6= k2 ,
(10.52)
für k1 = k2 .
Schritt 3: Wir setzen (10.52) in (10.46) ein und erhalten die lineare inhomogene Differentialgleichung erster Ordnung

a k1 k2


e−k1 t − e−k2 t
für k1 6= k2 ,
(k2 − k1 )
c′P (t) = k2 cB (t) =


a k12 t e−k1 t
für k1 = k2 .
Durch direkte“ Integration erhalten wir
”
 Z
a k1 k2

−k1 t
−k2 t

e
−
e
dt


(k2 − k1 )
cP (t) =
Z



a k 2 t e−k1 t dt

1
für k1 6= k2 ,
für k1 = k2 .
318
10.4. Lineare Differentialgleichungen zweiter Ordnung
Wir berechnen die beiden Integrale separat: Für den Fall k1 6= k2 finden wir
Z
a k1 k2
a k1 k2
1
1
−k1 t
−k2 t
−k1 t
−k2 t
+C
e
−e
dt =
e
−
e
(k2 − k1 )
(k2 − k1 ) (−k1 )
(−k2 )
a
k1 e−k2 t − k2 e−k1 t + C,
=
(k2 − k1 )
und für den Fall k1 = k2 finden wir mittels partieller Integration
Z
Z
1
1
2
−k1 t
2
−k1 t
a k1 t e
dt = a k1 t
e
− a k12
e−k1 t dt
(−k1 )
(−k1 )
1
= −a k1 t e−k1 t + a k1
e−k1 t = −a k1 t e−k1 t − a e−k1 t + C.
(−k1 )
Also finden wir für die allgemeine Lösung von c′P (t) = k2 cB (t)

a


k1 e−k2 t − k2 e−k1 t + C
für k1 6= k2 ,
(k2 − k1 )
cP (t) =

 −a k t e−k1 t − a e−k1 t + C
für k1 = k2 .
1
Mit der Anfangsbedingung cP (0) = 0 erhalten wir somit

a
a (k1 − k2 )


k1 e−k2 0 − k2 e−k1 0 + C =
+ C = −a + C
(k2 − k1 )
(k2 − k1 )
0 = cP (0) =


−a k1 0 e−k1 0 − a e−k1 0 + C = −a + C
für k1 6= k2 ,
für k1 = k2 ,
d.h. in beiden Fällen erhalten wir 0 = −a + C, also C = a. Somit ist die Lösung des
Anfangswertproblems (10.46)
 1

−k2 t
−k1 t
 a 1+
für k1 6= k2 ,
k1 e
− k2 e
(k2 − k1 )
cP (t) =


−a k1 t e−k1 t − a e−k1 t + a = a 1 − (k1 t + 1) e−k1t
für k1 = k2 .
10.4
Lineare Differentialgleichungen zweiter Ordnung
In diesem Teilkapitel lernen wir lineare gewöhnliche Differentialgleichungen zweiter Ordnung kennen. Im Gegensatz zur linearen Differentialgleichungen erster Ordnung, die wir
immer lösen können, indem wir zunächst die zugehörige homogene Gleichung mit Separation/Trennung der Variablen lösen und dann eine Lösung zu der inhomogenen Gleichung mit dem Ansatz Variation der Konstanten“ bestimmen, gibt es keinen allgemeinen
”
Lösungsansatz für lineare Differentialgleichungen zweiter Ordnung. Wir werden hier nur
einen Spezialfall, nämlich lineare Differentialgleichungen zweiter Ordnung mit konstanten
Koeffizienten betrachten. In diesem Sonderfall lässt sich die zugehörige homogene Differentialgleichung mit dem Ansatz y(t) = eλt leicht lösen. Für rechte Seiten der inhomogenen Differentialgleichung, die eine bestimmte Form haben, findet man mit der Methode
”
der unbestimmten Koeffizienten“ eine spezielle Lösung der inhomogenen Gleichung. Falls
10. Gewöhnliche Differentialgleichungen
319
dieser Ansatz nicht verwendet werden kann, liefert eine Verallgemeinerung des Ansatzes
der Variation der Konstanten“ für Differentialgleichungen zweiter Ordnung eine spezielle
”
Lösung der inhomogenen Gleichung. Wie im Fall linearer Differentialgleichungen erster
Ordnung erhält man die allgemeine Lösung der inhomogenen Gleichung, indem man die
Summe einer speziellen Lösung der inhomogenen Gleichung und der allgemeinen Lösung
der zugehörigen homogenen Gleichung bildet.
Definition 10.29. (lineare Differentialgleichung zweiter Ordnung) Eine lineare
Differentialgleichung zweiter Ordnung ist von der Form
a2 (t) y ′′(t) + a1 (t) y ′(t) + a0 (t) y(t) = g(t).
(10.53)
Ist die Funktion g(t) die Nullfunktion (also g(t) = 0 für alle t) so nennt man (10.53) eine
homogene lineare Differentialgleichung zweiter Ordnung. Ist g(t) nicht die Nullfunktion,
so nennt man (10.53) eine inhomogene lineare Differentialgleichung zweiter Ordnung.
Ist (10.53) eine inhomogene lineare Differentialgleichung zweiter Ordnung, so nennen
wir
a2 (t) y ′′(t) + a1 (t) y ′(t) + a0 (t) y(t) = 0
(10.54)
die zu (10.53) zugehörige homogene lineare Differentialgleichung zweiter Ordnung.
Indem wir (10.53) und (10.54) durch a2 (t) 6= 0 teilen, können wir jeweils zu der Stan”
dardform“ einer linearen Differentialgleichung zweiter Ordnung übergehen:
y ′′(t) + a(t) y ′(t) + b(t) y(t) = f (t)
bzw.
y ′′(t) + a(t) y ′ (t) + b(t) y(t) = 0, (10.55)
wobei wir a(t) = a1 (t)/a2 (t), b(t) = a0 (t)/a2 (t) und f (t) = g(t)/a2 (t) gesetzt haben.
Betrachten wir zunächst ein paar Beispiele.
Beispiel 10.30. (lineare Differentialgleichungen zweiter Ordnung)
(a) Die Differentialgleichung
sin(t) y ′′ (t) +
1 ′
y (t) + 17 y(t) = 13 et
t
ist eine inhomogene lineare Differentialgleichung zweiter Ordnung, die sich nicht in
Standardform befindet. Teilen wir für t 6= kπ, k ∈ Z, durch sin(t) 6= 0, so erhalten wir
die Standardform
y ′′(t) +
17
13 et
1
y ′ (t) +
y(t) =
,
t sin(t)
sin(t)
sin(t)
t 6= kπ mit k ∈ Z.
(b) Die Differentialgleichung
cos(t)
y(t) = sin(t)
t2 + 1
ist eine inhomogene lineare Differentialgleichung zweiter Ordnung in Standardform.
y ′′ (t) +
320
10.4. Lineare Differentialgleichungen zweiter Ordnung
2
(c) y ′′ (t) + 13 y ′(t) + 7 y(t) = 0 ist keine lineare (sondern eine nichtlineare) Differentialgleichung zweiter Ordnung, denn die erste Ableitung tritt quadriert auf.
(d) Die Differentialgleichung
23 y ′′(t) + 46 y ′(t) + 69 y(t) = 92 et
(10.56)
ist eine inhomogene Differentialgleichung zweiter Ordnung, die sich noch nicht in Standardform befindet. Wir erhalten die Standardform, indem wir durch 23 teilen, also
y ′′ (t) + 2 y ′(t) + 3 y(t) = 4 et .
(10.57)
Bei dieser Sorte von Differentialgleichung sprechen wir von einer linearen Differentialgleichung mit konstanten Koeffizienten, da die Koeffizientenfunktionen a2 (t) = 23,
a1 (t) = 46 und a0 (t) = 69 in (10.56) bzw. die Koeffizientenfunktionen a(t) = 2 und
b(t) = 3 in (10.57) alle konstante Funktionen sind. Dies ist der Typ linearer Differentialgleichungen zweiter Ordnung, mit dem wir uns in diesem Teilkapitel befassen
werden.
Analog zu linearen Differentialgleichungen erster Ordnung können wir auch bei linearen
Differentialgleichungen zweiter Ordnung die Lösung als Summe der allgemeinen Lösung
der zugehörigen homogenen Differentialgleichung und einer speziellen Lösung der inhomogenen Differentialgleichung schreiben. Ist also yh die allgemeine Lösung zu (10.54)
und ist ys eine spezielle Lösung zu (10.53), so ist die allgemeine Lösung der inhomogenen Gleichung (10.53) von der Form y(t) = yh (t) + ys (t). Dabei ist yh von der Form
yh (t) = c1 y1 (t) + c2 y2 (t), mit Konstanten c1 und c2 , wobei die Funktionen y1 und y2 beide
Lösungen von (10.53) sind und es keine Konstante c gibt, so dass gilt y1 (t) = c y2 (t) oder
y2 (t) = c y1(t) (d.h. keine der beiden Funktionen y1 bzw. y2 ist ein Vielfaches der anderen
Funktion). Also finden wir, dass die allgemeine Lösung der linearen inhomogenen
Differentialgleichung zweiter Ordnung (10.53) von der Form
y(t) = yh (t) + ys (t) = c1 y1 (t) + c2 y2 (t) + ys (t)
ist, wobei die Konstanten c1 und c2 festgelegt sind, sobald wir zwei Anfangswerte y(t0 )
und y ′(t0 ) vorgeben.
Nur in speziellen Fällen können wir aber ein Lösungsverfahren für die zugehörige homogene Differentialgleichung (10.54) angeben. Ein solcher Fall sind Differentialgleichungen
mit konstanten Koeffizienten.
Definition 10.31. (lineare Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten) Eine lineare Differentialgleichung zweiter Ordnung von der Form
a2 y ′′ (t) + a1 y ′(t) + a0 y(t) = g(t).
(10.58)
mit Konstanten a2 , a1 , a0 , wobei a2 6= 0 ist, heißt eine lineare Differentialgleichung
zweiter Ordnung mit konstanten Koeffizienten. Ist die Funktion g(t) die Nullfunktion (also g(t) = 0 für alle t) so nennt man (10.58) homogen, und ist g(t) nicht die
Nullfunktion, so nennt man (10.58) inhomogen. Ist (10.58) inhomogen, so nennt man
a2 y ′′(t) + a1 y ′(t) + a0 y(t) = 0.
(10.59)
10. Gewöhnliche Differentialgleichungen
321
die zu (10.58) zugehörige homogene lineare Differentialgleichung zweiter Ordnung
mit konstanten Koeffizienten. Indem wir (10.58) und (10.59) durch a2 6= 0 teilen, können
wir jeweils zu der Standardform“ übergehen:
”
y ′′ (t) + a y ′(t) + b y(t) = f (t)
bzw.
y ′′(t) + a y ′ (t) + b y(t) = 0,
(10.60)
wobei wir a = a1 /a2 , b = a0 /a2 und f (t) = g(t)/a2 gesetzt haben.
Wir lösen eine Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten wie im
Folgenden in Lösungsmethoden 10.32, 10.38 und 10.43 beschrieben.
Lösungsmethode 10.32. (lineare DGL 2. Ordnung mit konstanten Koeffizienten – Teil 1: Lösung der zugehörigen homogenen Gleichung)
(1) Wir teilen (10.58) durch a1 6= 0 und bringen die lineare Differentialgleichung zweiter
Ordnung mit konstanten Koeffizienten in die Standardform (10.60), also
y ′′(t) + a y ′(t) + b y(t) = f (t)
(10.61)
mit a = a1 /a2 , b = a0 /a2 und f (t) = g(t)/a2.
(2) Wir berechnen die Lösung der zugehörigen homogenen Gleichung
y ′′ (t) + a y ′ (t) + b y(t) = 0
(10.62)
mit dem Exponentialfunktion-Ansatz
y(t) = eλt .
Dazu berechnen wir zunächst die erste und zweite Ableitung dieser Funktion,
y(t) = eλt ,
y ′ (t) = λ eλt ,
y ′′ (t) = λ2 eλt ,
und setzen anschließend in die Differentialgleichung (10.62) ein
′′
′
2 λt
λt
λt
2
0 = y (t) + a y (t) + b y(t) = λ e + a λ e + b e = λ + a λ + b eλt .
Da die Exponentialfunktion eλt niemals den Wert Null hat, muss also gelten
0 = λ2 + a λ + b.
(10.63)
Man nennt (10.63) die charakteristische Gleichung der Differentialgleichung
(10.62). Nun finden wir die Lösungen dieser Gleichung:
2
a2 a2
a 2
a
a
2
2
−
+b= λ+
−b
−
0 = λ + aλ+ b = λ + 2 λ +
2
4
4
2
4
| {z }
=D
√
√
a
a
= λ+ − D
λ+ + D ,
2
2
322
10.4. Lineare Differentialgleichungen zweiter Ordnung
wobei wir zunächst die quadratische Ergänzung, dann die zweite binomische Formel und zuletzt die dritte binomische Formel angewendet haben. Die quadratische
Gleichung 0 = λ2 + a λ + b hat also die beiden Lösungen
λ1 = −
a √
+ D
2
und
λ2 = −
a √
− D
2
mit
D=
a2
− b.
4
Das Vorzeichen der Diskriminante D entscheidet also über den Typ der allgemeinen Lösung.
(3) Wir betrachten nun die drei Fälle D > 0, D = 0 und D < 0 separat.
1. Fall: Ist D > 0, so sind beide Lösungen λ1 und λ2 reell und verschieden.
Dann ist die allgemeine Lösung zu der homogenen Gleichung (10.62)
yh (t) = c1 eλ1 t + c2 eλ2 t
mit Konstanten c1 , c2 ∈ R.
(10.64)
2. Fall: Ist D = 0 so haben wir eine doppelte“ reelle Lösung λ1 = λ2 = −a/2.
”
Dann ist die allgemeine Lösung zu der homogenen Gleichung (10.62)
yh (t) = c1 eλ1 t + c2 t eλ1 t
mit Konstanten c1 , c2 ∈ R.
(10.65)
(Durch Einsetzen in (10.62) überzeugt man sich leicht, dass auch t eλ1 t eine Lösung
der homogenen Gleichung (10.62) ist:
(t eλ1 t )′′ + a (t eλ1 t )′ + b t eλ1 t
= (eλ1 t + t λ1 eλ1 t )′ + a (eλ1 t + t λ1 eλ1 t ) + b t eλ1 t
= (λ1 eλ1 t + λ1 eλ1 t + t λ21 eλ1 t ) + a (eλ1 t + t λ1 eλ1 t ) + b t eλ1 t
λ1 t
2
= 2 λ1 + a e + λ1 + a λ1 + b t eλ1 t
a λ1 t 2
e + λ1 + a λ1 + b t eλ1 t = 0,
= 2 λ1 +
2
|
{z
}
| {z }
=0
=0
wobei wir in der vierten Zeile nach Termen mit dem Faktor t eλ1 t bzw. dem Faktor
eλ1 t sortiert haben. In der letzten Zeile nutzen wir λ1 = −a/2 und die Information,
dass λ1 gerade die Gleichung λ2 + a λ + b = 0 löst.)
3. Fall: Ist D < 0, so liegen zwei zueinander konjugiert komplexe Lösungen
√
a
a
λ1 = − + i ω
und
λ2 = − − i ω
mit
ω = −D
2
2
vor. Dann gilt nach dem Eulerschen Theorem (vgl. Satz 1.60)
λ1 t
(− a2 +iω)t
− a2 t+iωt
− a2 t iωt
− a2 t
e =e
cos(ωt) + i sin(ωt) ,
=e
=e
e =e
a
a
a
a
eλ2 t = e(− 2 −iω)t = e− 2 t−iωt = e− 2 t e−iωt = e− 2 t cos(ωt) − i sin(ωt) .
Dies sind zwei komplexwertige Lösungen von (10.62), die zueinander konjugiert komplex sind. Alle Funktionen der Form
y(t) = c1 eλ1 t + c2 eλ2 t
10. Gewöhnliche Differentialgleichungen
323
mit beliebigen komplexen Konstanten c1 , c2 ∈ C sind ebenfalls Lösungen der DGL
(10.62). Insbesondere sind die beiden reellwertigen Funktionen
a
e− a2 t 1 λ1 t 1 λ2 t e− 2 t cos(ωt) + i sin(ωt) +
cos(ωt) − i sin(ωt)
e + e =
2
2
2
2
a
= e− 2 t cos(ωt),
a
e− a2 t 1 λ1 t
1 λ2 t e− 2 t cos(ωt) + i sin(ωt) −
cos(ωt) − i sin(ωt)
e − e =
2i
2i
2i
2i
− a2 t
=e
sin(ωt)
jeweils Lösungen der homogenen Differentialgleichung (10.62). Also ist die allgemeine (reellwertige) Lösung der homogenen Differentialgleichung (10.62)
a
a
a
(10.66)
yh (t) = c1 e− 2 t cos(ωt) + c2 e− 2 t sin(ωt) = e− 2 t c1 cos(ωt) + c2 sin(ωt)
mit beliebigen Konstanten c1 , c2 ∈ R.
Betrachten wir einige Beispiele.
Beispiel 10.33. (lin. hom. DGL 2. Ord. mit konst. Koeff.: zwei reelle Lösungen
der charakteristischen Gleichung) Die lineare homogene Differentialgleichung zweiter
Ordnung
y ′′ (t) + 4 y ′(t) + 2 y(t) = 0
(10.67)
befindet sich bereits in Standardform. Mit dem Ansatz y(t) = eλt erhalten wir
0 = λ2 eλt + 4 λ eλt + 2 eλt = λ2 + 4 λ + 2 eλt = (λ2 + 4 λ + 4) − 2 eλt
√ √ = (λ + 2)2 − 2 eλt = λ + 2 + 2 λ + 2 − 2 eλt ,
d.h. die charakteristische Gleichung λ2 + 4 λ + 2 = 0 hat zwei unterschiedliche reelle
Lösungen
√
√
und
λ2 = −2 + 2.
λ1 = −2 − 2
Also ist die allgemeine Lösung von (10.67)
yh (t) = c1 e(−2−
√
2)t
+ c2 e(−2+
√
2)t
.
Beispiel 10.34. (lin. hom. DGL 2. Ord. mit konst. Koeff.: doppelte reelle
Lösung der charakteristischen Gleichung) Um die lineare homogene Differentialgleichung zweiter Ordnung
2 y ′′(t) − 12 y ′(t) + 18 y(t) = 0
in Standardform zu erhalten, teilen wir durch 2, also
y ′′(t) − 6 y ′(t) + 9 y(t) = 0.
(10.68)
324
10.4. Lineare Differentialgleichungen zweiter Ordnung
Nun setzen wir den Ansatz y(t) = eλt ein und finden
0 = λ2 eλt − 6 λ eλt + 9 eλt = λ2 − 6 λ + 9 eλt = (λ − 3)2 eλt ,
d.h. die charakteristische Gleichung 0 = (λ − 3)2 hat eine doppelte reelle Lösung
λ1 = λ2 = 3.
Daher hat (10.68) die allgemeine Lösung
yh (t) = c1 e3t + c2 t e3t .
Beispiel 10.35. (lin. hom. DGL 2. Ord. mit konst. Koeff.: zwei zueinander
konjugiert komplexe Lösungen der charakteristischen Gleichung) Die lineare
homogene Differentialgleichung zweiter Ordnung
y ′′(t) + 4 y ′(t) + 6 y(t) = 0
(10.69)
ist bereits in Standardform. Mit dem Ansatz y(t) = eλt erhalten wir
0 = λ2 eλt + 4 λ eλt + 6 eλt = λ2 + 4 λ + 6 eλt = (λ2 + 4 λ + 4) + 2 eλt
√ √ √ 2 λt
2
e = λ + 2 + 2 i λ + 2 − 2 i eλt ,
= (λ + 2) − i 2
d.h. die charakteristische Gleichung λ2 + 4 λ + 6 = 0 hat zwei zueinander konjugiert
komplexe Lösungen
√
√
und
λ2 = −2 + 2 i.
λ1 = −2 − 2 i
Also ist die allgemeine Lösung von (10.69)
√ √ √ √ yh (t) = c1 e−2t cos 2 t + c2 e−2t sin 2 t = e−2t c1 cos 2 t + c2 sin 2 t ,
wobei wir in der Darstellung (10.66) ω =
√
2 und −a/2 = −2 haben.
Bevor wir als zweiten Schritt der Lösung einer linearen Differentialgleichung mit konstanten Koeffizienten diskutieren, wie man eine spezielle Lösung der inhomogenen Gleichung
findet, kommen wir noch einmal auf den Fall zurück, in dem λ1 und λ2 zueinander konjugiert komplex sind.
Bemerkung 10.36. (Interpretation von Fall 3: zwei zueinander konjugiert komplexe Lösungen der charakteristischen Gleichung) Eine andere Darstellung von
(10.66) ist
der Amplitude A ≥ 0 und
− a2 t
sin(ωt − δ)
mit
(10.70)
yh (t) = A e
der Phasenverschiebung δ ∈ [0, 2π).
a
Dies ist eine exponentiell mit dem Faktor e− 2 t abklingende (für a > 0) bzw. anwachsende
(für a < 0) Schwingung mit der Schwingungsfrequenz f = ω/(2π) und der Schwingungsdauer T = 2π/ω.
10. Gewöhnliche Differentialgleichungen
325
Um zu sehen, dass (10.70) wirklich zu (10.66) äquivalent ist, wählt man in (10.66) die
Konstanten c1 und c2 als
c1 = −A sin(δ)
und
c2 = A cos(δ).
(10.71)
Dann liefert Einsetzen in (10.66) und Anwenden des Additionstheorems für den Sinus
a
yh (t) = e− 2 t c1 cos(ωt) + c2 sin(ωt)
h
i
a
= e− 2 t − A sin(δ) cos(ωt) + A cos(δ) sin(ωt)
h
i
a
= A e− 2 t sin(ωt) cos(δ) − sin(δ) cos(ωt)
a
= A e− 2 t sin(ωt − δ).
2
2
Löst man (10.71) nach A und δ, so erhält man wegen sin(δ) + cos(δ) = 1
q
c1
c2
und sin(δ) = − .
und
δ ∈ [0, 2π) mit cos(δ) =
A = c21 + c22
A
A
Einsetzen in (10.70) liefert dann (10.66).
Wir fassen unsere Vorgehensweise beim Bestimmen der Lösung der zu (10.61)
zugehörigen homogenen Gleichung (10.62) noch einmal kurz zusammmen:
Bemerkung 10.37. (Zusammenfassung: Lösung einer homogenen DGL zweiter Ordnung mit konstanten Koeffizienten) Die allgemeine Lösung der homogenen
linearen Differentialgleichung zweiter Ordnung
y ′′ (t) + a y ′ (t) + b y(t) = 0
mit konstanten Koeffizienten hat die Form
y(t) = c1 y1 (t) + c2 y2 (t)
mit Konstanten c1 , c2 ∈ R.
Dabei sind
y1 (t) = eλ1 t
und
y2 (t) = eλ2 t
für D > 0,
y1 (t) = eλ1 t
und
y2 (t) = teλ1 t
für D = 0,
und
y2 (t) = e− 2 t sin(ωt)
a
y1 (t) = e− 2 t cos(ωt)
a
für D < 0,
mit den Abkürzungen
D=
a2
− b,
4
ω=
√
−D,
und
λ1 = −
a √
− D,
2
λ2 = −
a √
+ D.
2
Nun lernen wir, wie wir eine spezielle Lösung zu einer inhomogenen linearen Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten finden.
326
10.4. Lineare Differentialgleichungen zweiter Ordnung
Lösungsmethode 10.38. (lineare DGL 2. Ordnung mit konstanten Koeffizienten – Teil 2: Finden einer speziellen Lösung der inhomogenen Gleichung)
(4) Verfahren I: Methode der unbestimmten Koeffizienten. Hat die rechte Seite
f = f (t) der Differentialgleichung
y ′′ (t) + a y ′ (t) + b y(t) = f (t)
(10.72)
eine Form wie in der linken Spalte in Tabelle 10.1, so wählen wir als Ansatz für eine
spezielle Lösung ys die Funktion in der entsprechenden Zeile der rechten Spalte.
f (t)
ys (t)
γn tn + . . . + γ1 t + γ0
tk cn tn + . . . + c1 t + c0
γ eαt
c tk eαt
γn tn + . . . + γ1 t + γ0 eαt
tk cn tn + . . . + c1 t + c0 eαt
pn (t) cos(βt) + qm (t) sin(βt),
tk PN (t) cos(βt) + QN (t) sin(βt) ,
γ1 cos(βt) + γ2 sin(βt)
tk c1 cos(βt) + c2 sin(βt)
wobei pn (t) bzw. qm (t) jeweils ein Polynom vom Grad n bzw. m ist.
wobei PN (t) und QN (t) Polynome vom
Grad N = max{n, m} sind.
γ1 eαt cos(βt) + γ2 eαt sin(βt)
tk c1 eαt sin(βt) + c2 eαt cos(βt)
pn (t) eαt cos(βt) + qm (t) eαt sin(βt),
wobei pn (t) bzw. qm (t) jeweils ein Polynom vom Grad n bzw. m ist.
tk PN (t) eαt cos(βt) + QN (t) eαt sin(βt) ,
wobei PN (t) und QN (t) Polynome vom
Grad N = max{n, m} sind.
Tabelle 10.1: Die nicht-negative ganze Zahl k in der rechten Spalte wird dabei als die
kleinste Zahl in N0 gewählt, so dass kein Term in dem Lösungsansatz ys bereits eine
Lösung zu der zugehörigen homogenen Gleichung ist.
Wir setzen den gewählten Ansatz in die inhomogene Differentialgleichung (10.72) ein
und erhalten so Bedingungen, um die Koeffizienten in unserem Ansatz zu bestimmen.
(5) Verfahren II: Methode der Variation der Konstanten. Sollte Verfahren I
nicht anwendbar sein, so wählen wir den folgenden Ansatz: Sind y1 und y2 die beiden Lösungen in der allgemeinen Lösung yh (t) = c1 y1 (t) + c2 y2 (t) der zugehörigen
homogenen Gleichung, so setzen wir
ys (t) = α(t) y1(t) + β(t) y2 (t).
(10.73)
10. Gewöhnliche Differentialgleichungen
327
Wir setzen diesen Ansatz nun in die inhomogene Differentialgleichung
y ′′(t) + a y ′(t) + b y(t) = f (t)
(10.74)
ein, nutzen aus, dass y1 und y2 Lösungen der zugehörigen homogenen Gleichung
sind, und erhalten so jeweils eine Differentialgleichung erster Ordnung für α = α(t)
bzw. β = β(t), die jeweils direkt mit Integration gelöst werden kann. Mit der Bestimmung von α = α(t) und β = β(t) haben wir (10.73) unsere spezielle Lösung
gefunden.
Wie zeigen nun die einzelnen skizzierten Schritte im Detail: Ableiten von
(10.73) liefert mit der Produktregel
ys′ (t) = α′ (t) y1(t) + α(t) y1′ (t) + β ′ (t) y2 (t) + β(t) y2′ (t)
′
′
= α (t) y1 (t) + β (t) y2 (t) + α(t) y1′ (t) + β(t) y2′ (t).
Zusätzlich verlangen wir noch, dass gilt
α′ (t) y1 (t) + β ′ (t) y2 (t) = 0.
(10.75)
Damit vereinfacht sich die vorige Gleichung zu
ys′ (t) = α(t) y1′ (t) + β(t) y2′ (t).
(10.76)
Ein zweites mal ableiten ergibt
ys′′(t) = α′ (t) y1′ (t) + α(t) y1′′(t) + β ′ (t) y2′ (t) + β(t) y2′′(t)
= α′ (t) y1′ (t) + β ′ (t) y2′ (t) + α(t) y1′′(t) + β(t) y2′′(t).
(10.77)
Jetzt setzen wir ys , ys′ und ys′′ (vgl. (10.73), (10.76) und (10.77)) in die inhomogene
Differentialgleichung (10.74) ein:
f (t) = ys′′(t) + a ys′ (t) + b ys (t)
′
′
′
′
= α (t) y1 (t) + β (t) y2 (t) + α(t) y1′′(t) + β(t) y2′′(t)
+ a α(t) y1′ (t) + a β(t) y2′ (t) + b α(t) y1 (t) + b β(t) y2(t)
= α′ (t) y1′ (t) + β ′ (t) y2′ (t)
+ α(t) y1′′ (t) + a y1′ (t) + b y1 (t) + β(t) y2′′ (t) + a y2′ (t) + b y2 (t) ,
|
{z
}
{z
}
|
=0
=0
wobei die Ausdrücke in den beiden hinteren runden Klammern verschwinden, weil
die Funktionen y1 (t) und y2 (t) jeweils Lösungen der zugehörigen homogenen Differentialgleichung sind. Also muss gelten:
α′ (t) y1′ (t) + β ′ (t) y2′ (t) = f (t).
(10.78)
328
10.4. Lineare Differentialgleichungen zweiter Ordnung
Die beiden Gleichungen (10.75) und (10.78) bilden ein lineares Gleichungssystem für
die beiden Unbekannten α′ (t) und β ′ (t). Wir lösen dieses Gleichungssystem nun nach
α′ (t) und β ′ (t) auf:
α′ (t) y1 (t) + β ′ (t) y2 (t) = 0,
(10.79)
α′ (t) y1′ (t) + β ′ (t) y2′ (t) = f (t).
Wir multiplizieren die erste Gleichung mit y1′ (t) und multiplizieren die zweite Gleichung mit y1 (t):
α′ (t) y1 (t) y1′ (t) + β ′ (t) y1′ (t) y2(t) = 0,
α′ (t) y1 (t) y1′ (t) + β ′ (t) y1 (t) y2′ (t) = f (t) y1(t).
Dann subtrahieren wir die erste Gleichung von der zweiten Gleichung und erhalten
β ′ (t) y1 (t) y2′ (t) − β ′ (t) y1′ (t) y2 (t) = f (t) y1(t)
{z
}
|
= β ′ (t) y1 (t) y2′ (t) − y1′ (t) y2 (t)
und somit
β ′ (t) =
f (t) y1 (t)
.
− y1′ (t) y2(t)
y1 (t) y2′ (t)
(10.80)
Auflösen von (10.79) nach α′ (t) und Einsetzen von (10.80) liefert
α′ (t) = −
y2 (t)
f (t) y1(t)
f (t) y2(t)
y2 (t) ′
β (t) = −
=−
,
′
′
′
y1 (t)
y1 (t) y1 (t) y2 (t) − y1 (t) y2 (t)
y1 (t) y2 (t) − y1′ (t) y2 (t)
also
α′ (t) = −
f (t) y2 (t)
.
− y1′ (t) y2 (t)
y1 (t) y2′ (t)
(10.81)
Die Integration der Differentialgleichungen (10.81) und (10.80) liefert α(t) und β(t)
und damit
Z
Z
f (t) y1(t)
f (t) y2(t)
ys (t) = − y1 (t)
dt + y2 (t)
dt .
′
′
′
y1 (t) y2(t) − y1 (t) y2 (t)
y1 (t) y2 (t) − y1′ (t) y2(t)
{z
}
{z
}
|
|
= α(t)
= β(t)
Betrachten wir zunächst einige Beispiele, bei denen man die spezielle Lösung mit Verfahren I finden kann.
Beispiel 10.39. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Für die lineare inhomogene Differentialgleichung zweiter Ordnung
y ′′(t) + 4 y ′(t) + 2 y(t) = et
(10.82)
können wir Verfahren I anwenden, um eine spezielle Lösung zu finden. Wir wählen gemäß
Tabelle 10.1 den Ansatz
ys (t) = c t0 et = c et
10. Gewöhnliche Differentialgleichungen
329
√
mit k = 0, √
weil et kein Vielfaches einer der beiden Lösungen y1 (t) = e(−2− 2)t oder
y2 (t) = e(−2+ 2)t der zugehörigen homogenen Gleichung (vgl. Beispiel 10.33) ist. Einsetzen
unseres Ansatzes in (10.82) liefert
et = ys′′(t) + 4 ys′ (t) + 2 ys(t) = c et + 4 c et + 2 c et = 7 c et
Also ist eine spezielle Lösung
ys (t) =
⇒
c=
1
.
7
1 t
e.
7
Beispiel 10.40. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Um die lineare inhomogene Differentialgleichung zweiter Ordnung
2 y ′′(t) − 12 y ′(t) + 18 y(t) = 8 e3t
in Standardform zu erhalten, teilen wir durch 2, also
y ′′ (t) − 6 y ′(t) + 9 y(t) = 4 e3t .
(10.83)
Mit Verfahren I wählen wir gemäß Tabelle 10.1 den Ansatz
ys (t) = c t2 e3t ,
denn y1 (t) = e3t und y2 (t) = t e3t sind bereits Lösungen der zugehörigen homogenen
Gleichung (vgl. Beispiel 10.34), und daher müssen wir in dem Ansatz ys (t) = c tk e3t mit
k = 2 wählen. Bevor wir in (10.83) einsetzen, berechnen wir die Ableitungen unseres
Ansatzes separat:
ys′ (t) = c 2 t e3t + c 3 t2 e3t = 2 c t e3t + 3 c t2 e3t ,
ys′′(t) = c 2 e3t + c 6 t e3t + c 6 t e3t + c 9 t2 e3t = 2 c e3t + 12 c t e3t + 9 c t2 e3t .
Einsetzen in (10.83) liefert nun
4 e3t = ys′′ (t) − 6 ys′ (t) + 9 ys(t)
= 2 c e3t + 12 c t e3t + 9 c t2 e3t − 6 2 c t e3t + 3 c t2 e3t + 9 c t2 e3t
= 2 c e3t + 12 c t e3t + 9 c t2 e3t − 12 c t e3t − 18 c t2 e3t + 9 c t2 e3t
= 2 c e3t ,
und es folgt c = 2. Also ist
ys (t) = 2 t2 e3t
eine spezielle Lösung von (10.83).
Beispiel 10.41. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Für die lineare inhomogene Differentialgleichung zweiter Ordnung
y ′′ (t) + 4 y ′(t) + 6 y(t) = sin(t)
(10.84)
330
10.4. Lineare Differentialgleichungen zweiter Ordnung
wählen wir mit Verfahren I gemäß Tabelle 10.1 den folgenden Ansatz für eine spezielle
Lösung:
ys (t) = c1 cos(t) + c2 sin(t).
Dabei dürfen wir in dem Ansatz k =√
0 wählen,
weil weder cos(t) √
noch sin(t) ein Vielfaches
−2t
−2t
einer der Lösungen y1 (t) = e
cos 2 t oder y1 (t) = e
sin 2 t (vgl. Beispiel 10.35)
der zugehörigen homogenen Gleichungen ist. Wir berechnen zuerst die erste und zweite
Ableitung unseres Ansatzes:
ys′ (t) = −c1 sin(t) + c2 cos(t),
ys′′ (t) = −c1 cos(t) − c2 sin(t).
Einsetzen in (10.84) liefert
sin(t) = ys′′(t) + 4 ys′ (t) + 6 ys (t)
= − c1 cos(t) − c2 sin(t) + 4 − c1 sin(t) + c2 cos(t) + 6 c1 cos(t) + c2 sin(t)
= (5 c1 + 4 c2) cos(t) + (−4 c1 + 5 c2 ) sin(t).
Also muss gelten
5 c1 + 4 c2 = 0,
−4 c1 + 5 c2 = 1.
Wir multiplizieren die erste Gleichung mit 4 und die zweite Gleichung mit 5 und erhalten
20 c1 + 16 c2 = 0,
−20 c1 + 25 c2 = 5.
Anschließendes Addieren der ersten Gleichung zur zweiten Gleichung liefert die neue zweite Gleichung
5
.
41 c2 = 5
=⇒
c2 =
41
Lösen der ursprünglichen ersten Gleichung nach c1 und Einsetzen von c2 = 5/41 liefert
nun
4
4 5
4
5 c1 = −4 c2
=⇒
c1 = − c2 = −
=−
.
5
5 41
41
Also ist die Funktion
5
4
cos(t) +
sin(t)
ys (t) = −
41
41
eine spezielle Lösung der inhomogenen Gleichung (10.84).
Nun betrachten wir noch ein Beispiel, bei dem man das Verfahren II benötigt, um eine
spezielle Lösung der inhomogenen Gleichung zu finden.
Beispiel 10.42. (spezielle Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Betrachten wir die inhomogene lineare Differentialgleichung mit konstanten Koeffizienten
y ′′(t) + y(t) =
1
,
cos(t)
10. Gewöhnliche Differentialgleichungen
331
−1
welche sich bereits in Standardform befindet. Hier ist die rechte Seite g(t) = cos(t)
von einer Form, die in nicht Tabelle 10.1 aufgeführt ist. Daher müssen wir das Verfahren II
Variation der Konstanten“ anwenden, um eine spezielle Lösung der inhomogenen Glei”
chung zu finden. Wir lösen zunächst die zugehörige homogene Gleichung y ′′ (t) + y(t) = 0,
da wir deren allgemeine Lösung benötigen, um die Variation der Konstanten“ durch”
zuführen.
Mit dem Ansatz y(t) = eλt finden wir
0 = y ′′ (t) + y(t) = λ2 eλt + eλt = λ2 + 1 eλt ,
also λ2 + 1 = 0, d.h. λ1 = −i und λ2 = i. Damit hat die zugehörige homogene Gleichung
a
y ′′ (t) + y(t) = 0 die allgemeine Lösung (beachte hier e− 2 t = e0 = 1 und ω = 1)
y(t) = c1 cos(t) + c2 sin(t) .
| {z }
| {z }
= y1 (t)
= y2 (t)
Damit erhalten wir als Ansatz für die Variation der Konstanten“
”
ys (t) = α(t) y1 (t) + β(t) y2(t) = α(t) cos(t) + β(t) sin(t).
Es gilt also y1 (t) = cos(t), y2 (t) = sin(t), y1′ (t) = − sin(t) und y2′ (t) = cos(t). Nach (10.81)
und (10.80) erhalten wir damit für α = α(t) und β = β(t) die Differentialgleichungen
−1
cos(t)
sin(t)
f (t) y2(t)
sin(t)
′
α (t) = −
=−
= − tan(t),
2
2 = −
′
′
y1 (t) y2 (t) − y1 (t) y2 (t)
cos(t)
cos(t) + sin(t)
−1
cos(t)
cos(t)
f
(t)
y
(t)
1
=
β ′ (t) =
2
2 = 1,
′
′
y1 (t) y2 (t) − y1 (t) y2 (t)
cos(t) + sin(t)
2
2
wobei wir cos(t) + sin(t) = 1 ausgenutzt haben, um die Nenner zu vereinfachen.
Durch Integration finden wir
Z
Z
Z
− sin(t)
1
α(t) = − tan(t) dt =
dt =
dx
cos(t)
x
x=cos(t)
h
i
= ln |x| + c1
= ln | cos(t)| + c1 ,
x=cos(t)
Z
β(t) = 1 dt = t + c2 ,
wobei wir in dem ersten Integral die Substitution x = cos(t), dx/dt = − sin(t), also
dx = − sin(t) dt, benutzt haben. Hier dürfen wir die Integrationskonstanten c1 und c2
Null setzen, da wir nur an einer Stammfunktion (und nicht an allen möglichen Stammfunktionen) interessiert sind. Also finden wir als eine spezielle Lösung
ys (t) = α(t) cos(t) + β(t) sin(t) = ln | cos(t)| cos(t) + t sin(t).
Abschließend halten wir fest, wie man die allgemeine Lösung der inhomogenen linearen
Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten findet.
332
10.4. Lineare Differentialgleichungen zweiter Ordnung
Lösungsmethode 10.43. (lineare DGL 2. Ordnung mit konstanten Koeffizienten
– Teil 3: Finden der allgemeinen Lösung der inhomogenen Gleichung) Mit den
bereits in Lösungsmethoden 10.32 und 10.38 ausgeführten Schritten (1) bis (5) haben
wir bereits die allgemeine Lösung yh (t) = c1 y1 (t) + c2 y2 (t) der zugehörigen homogenen
Gleichung
y ′′ (t) + a y ′(t) + b y(t) = 0
und eine spezielle Lösung ys der inhomogenen Gleichung
y ′′ (t) + a y ′ (t) + b y(t) = f (t)
(10.85)
bestimmt.
(6) Die allgemeine Lösung der inhomogenen Gleichung (10.85) ist nun durch
y(t) = yh (t) + ys (t) = c1 y1 (t) + c2 y2 (t) + ys (t)
(10.86)
gegeben.
Wir geben abschließend noch die Erklärung, warum die allgemeine Lösung der inhomogenen Gleichung die Form (10.86) hat: Dazu setzen wir einfach y(t) = yh (t) + ys (t) in die
Differentialgleichung (10.85) ein, und finden
′′
′
y ′′ (t) + a y ′(t) + b y(t) = yh (t) + ys (t) + a yh (t) + ys (t) + b yh (t) + ys (t)
= yh′′(t) + ys′′(t) + a yh′ (t) + ys′ (t) + b yh (t) + ys (t)
= yh′′ (t) + ys′′ (t) + a yh′ (t) + a ys′ (t) + b yh (t) + b ys (t)
= yh′′ (t) + a yh′ (t) + b yh (t) + ys′′ (t) + a ys′ (t) + b ys (t)
{z
}
{z
}
|
|
=0
= f (t)
= 0 + f (t) = f (t),
wobei wir genutzt haben, dass yh bzw. ys die zugehörige homogene bzw. die inhomogene
Gleichung löst.
Betrachten wir einige Beispiele.
Beispiel 10.44. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Für die inhomogene lineare Differentialgleichung zweiter Ordnung
y ′′(t) + 4 y ′(t) + 2 y(t) = et
finden wir mit den Ergebnissen aus Beispielen 10.33 und 10.39, die allgemeine Lösung
y(t) = yh (t) + ys (t) = c1 e(−2−
√
2)t
+ c2 e(−2+
√
2)t
+
1 t
e.
7
Beispiel 10.45. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Die allgemeine Lösung der inhomogenen linearen Differentialgleichung zweiter Ordnung
2 y ′′(t) − 12 y ′(t) + 18 y(t) = 8 e3t
10. Gewöhnliche Differentialgleichungen
333
ist nach unseren Berechnungen in den Beispielen 10.34 und 10.40 die Funktion
y(t) = yh (t) + ys (t) = c1 e3t + c2 t e3t + 2 t2 e3t .
Beispiel 10.46. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Nach den Berechnungen in den Beispielen 10.35 und 10.41 hat die inhomogene lineare
Differentialgleichung zweiter Ordnung
y ′′ (t) + 4 y ′(t) + 6 y(t) = sin(t)
die allgemeine Lösung
y(t) = yh (t) + ys (t) = c1 e−2t cos
√
√ 5
4
cos(t) +
sin(t).
2 t + c2 e−2t sin 2 t −
41
41
Beispiel 10.47. (allgemeine Lsg. der lin. inhom. DGL 2. Ord. mit konst. Koeff.)
Die inhomogene lineare Differentialgleichung zweiter Ordnung
y ′′(t) + y(t) =
1
cos(t)
hat nach den Berechnungen in Beispiel 10.42 die allgemeine Lösung
y(t) = yh (t) + ys (t) = c1 cos(t) + c2 sin(t) + ln | cos(t)| cos(t) + t sin(t).
Betrachten wir zum Abschluss noch ein Anwendungsbeispiel.
Anwendung 10.48. (Fadenpendel) In Beispiel 10.6 hatten wir bereits das Fadenpendel betrachtet und für dieses die nichtlineare homogenen Differentialgleichung zweiter
Ordnung
g
φ′′ (t) + sin φ(t) = 0
L
hergeleitet.
Wir wollen zunächst die Frage beantworten, welche ungefähre Schwingungsdauer T
ein 1 m langes Fadenpendel für kleine Auslenkungen hat? Wir haben also L = 1 m
und für kleine Auslenkungen φ(t) können wir die Näherung
sin φ(t) ≈ φ(t)
verwenden. Daher betrachtet man (für kleine Auslenkungen φ(t)) als Näherung die li”
nearisierte“ Differentialgleichung
φ′′ (t) +
g
φ(t) = 0.
L
Einsetzen des Ansatzes φ(t) = eλt liefert
g
0 = λ2 eλt + eλt =
L
"
λ2 −
!2 #
g
i
eλt ,
L
|{z}
=ω
r
(10.87)
334
10.4. Lineare Differentialgleichungen zweiter Ordnung
und wir erhalten zwei zueinander konjugiert komplexe Lösungen
r
r
g
g
i
und
λ2 =
i.
λ1 = −
L
L
Nach (10.66) ist die allgemeine Lösung von (10.87) (beachte hier a = 0)
r r g
g
φh (t) = c1 cos
t + c2 sin
t .
L
L
(10.88)
Äquivalent finden wir nach (10.70) die allgemeine Lösung von (10.87) (beachte a = 0) als
r
g
der Amplitude A ≥ 0 und
t−δ
mit
φh (t) = A sin
der Phasenverschiebung δ ∈ [0, 2π).
L
a
Dies ist eine ungedämpfte Schwingung, da der exponentielle Faktor e− 2 t wegen a = 0
gleich Eins ist. Die Schwingungsdauer ist dann
√
2π
2π L
2π
2π · 1 m1/2
=√
s ≈ 2 s.
= √
T =p
=√
2
1/2
g
9, 81 (m/s )
9, 81
g/L
Nun wollen wir eine ungefähre/genäherte Lösung der inhomogenen Differentialgleichung
φ′′ (t) +
g
sin φ(t) = sin(ω0 t)
L
bestimmen, also der Bewegung des Fadenpendels unter Einwirkung der äußeren
Kraft (pro Masse m) f (t) = sin(ω0 t). Wir
betrachten wieder kleine Auslenkungen und
linearisieren“ auf der linken Seite sin φ(t) ≈ φ(t). Die linearisierte“ Gleichung ist dann
”
”
g
(10.89)
φ′′ (t) + φ(t) = sin(ω0 t),
L
und wir wissen bereits, dass (10.88) die allgemeine Lösung der zugehörigen homogenen
Gleichung ist. Hier können wir Verfahren I anwenden, um eine spezielle Lösung der inhomogenen Gleichung (10.89) zu finden. Dabei wählen wir gemäß Tabelle 10.1 den Ansatz
r
g
φs (t) = c3 cos(ω0 t) + c4 sin(ω0 t)
wenn ω0 6=
,
(10.90)
L
r
g
.
(10.91)
φs (t) = c3 t cos(ω0 t) + c4 t sin(ω0 t)
wenn ω0 =
L
p
Wir betrachten zunächst den Fall ω0 6= g/L und berechnen die ersten beiden Ableitungen unseres Ansatzes (10.90) für φs .
φ′s (t) = −c3 ω0 sin(ω0 t) + c4 ω0 cos(ω0 t),
φ′′s (t) = −c3 ω02 cos(ω0 t) − c4 ω02 sin(ω0 t).
Einsetzen in (10.89) liefert
sin(ω0 t) = φ′′s (t) +
g
φs (t)
L
10. Gewöhnliche Differentialgleichungen
335
g
c3 cos(ω0 t) + c4 sin(ω0 t)
= −
cos(ω0 t) −
sin(ω0 t) +
L
g
g
=
− ω02 c3 cos(ω0 t) +
− ω02 c4 sin(ω0 t),
L
L
c3 ω02
und wir erhalten
c3 = 0
Also ist für ω0 6=
und
p
c4 ω02
g
L
−
ω02
⇔
c4 = 1
c4 =
g
L
−
ω02
−1 g/L eine spezielle Lösung durch
g
−1
φs (t) =
− ω02
sin(ω0 t)
L
.
(10.92)
gegeben, und die allgemeine
Lösung der inhomogenen linearisierten Differentialgleichung
p
(10.89) ist für ω0 6= g/L nach (10.92) und (10.88)
r r −1
g
g
g
2
φ(t) = c1 cos
t + c2 sin
t +
− ω0
sin(ω0 t).
L
L
L
p
Nun betrachten wir den Fall ω0 = g/L und berechnen die ersten beiden Ableitungen
unseres Ansatzes (10.91) für φs .
φ′s (t) = c3 cos(ω t) − c3 ω0 t sin(ω0 t) + c4 sin(ω0 t) + c4 ω0 t cos(ω0 t),
φ′′s (t) = − c3 ω0 sin(ω0 t) − c3 ω0 sin(ω0 t) − c3 ω02 t cos(ω0 t)
+ c4 ω0 cos(ω0 t) + c4 ω0 cos(ω0 t) − c4 ω02 t sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) − c3 ω02 t cos(ω0 t) + 2 c4 ω0 cos(ω0 t) − c4 ω02 t sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t) + t − c3 ω02 cos(ω0 t) − c4 ω02 sin(ω0 t) .
Einsetzen in (10.89) und ω02 = g/L liefert
sin(ω0 t) = φ′′s (t) +
g
φs (t) = φ′′s (t) + ω02 φs (t)
L
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t) + t −
+ ω02 c3 t cos(ω0 t) + c4 t sin(ω0 t)
c3 ω02
cos(ω0 t) −
c4 ω02
sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t)
2
2
2
+ t − c3 ω0 cos(ω0 t) − c4 ω0 sin(ω0 t) + ω0 c3 cos(ω0 t) + c4 sin(ω0 t)
= −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t) + 0.
Also erhalten wir
sin(ω0 t) = −2 c3 ω0 sin(ω0 t) + 2 c4 ω0 cos(ω0 t),
und damit
−2 c3 ω0 = 1
⇔
1
c3 = −
2 ω0
und
c4 = 0.
336
10.4. Lineare Differentialgleichungen zweiter Ordnung
Also ist eine spezielle Lösung durch
φs (t) = −
t
cos(ω0 t)
2 ω0
(10.93)
gegeben, und die allgemeine
Lösung der inhomogenen linearisierten Differentialgleichung
p
(10.89) ist für ω0 = g/L nach (10.93) und (10.88) mit g/L = ω02
φ(t) = c1 cos(ω0 t) + c2 sin(ω0 t) −
t
cos(ω0 t).
2 ω0
Wir bemerken hier noch, dass
mathematisch untersucht werden muss, ob ein kleiner Fehler
beim Ersetzen von sin φ(t) durch φ(t) in der DGL auch nur zu einer kleinen Abweichung
zwischen der so berechneten Lösung und der Lösung der nichtlinearen Gleichung führt.
Dies ist nicht selbstverständlich, aber im obigen Beispiel stimmt dies.
Teil IV
Lineare Algebra
337
Kapitel 11
Vektoren im euklischen Vektorraum
Rn und ihre Eigenschaften
In diesem Kapitel führen wir den euklidischen Vektorraum Rn ein und lernen, wie man
Vektoren addiert und mit einer reellen Zahl (einem Skalar) multipliziert. Weiter lernen
wir das Skalarprodukt (oder innere Produkt) zweier Vektoren und die Länge (oder die
euklidische Norm) eines Vektors kennen, sowie den Begriff der Orthogonalität. Vektoren
in Rn können wir leicht geometrisch veranschaulichen, und alle der erwähnten Konzepte
haben eine geometrische Interpretation, die wir erklären werden. In Teilkapitel 11.3 lernen wir Linearkombinationen und das wichtige Konzept der linearen Unabhängigkeit von
Vektoren kennen. In Teilkapitel 11.4 werden wir schließlich den Begriff eines Teilraumes
von Rn , sowie den Begriff einer Basis und der Dimension von Rn bzw. eines Teilraumes
von Rn einführen.
11.1
Einführung: Vektoren in der Ebene
Wir betrachten zunächst als Beispiel die (x, y)-Ebene
R2 = R × R = (x, y) x, y ∈ R ,
um uns die neuen Ideen an einem vertrauten Beispiel klar zu machen. Mit dem neuen
Begriff des euklidischen Raumes Rn werden wir die (x, y)-Ebene dann auch als den euklidischen Vektorraum R2 = R × R bezeichnen. Wir erinnern uns hier daran, dass
R × R das kartesische Produkt von R und R ist, welches wir in Teilkapitel 2.1 eingeführt
haben. Statt die beiden Koordinaten eines Punktes in der Ebene mit (x, y) zu bezeichnen,
werden wir diese nun aber mit (x1 , x2 ) bezeichnen, und wir notieren die Ebene also dann
als
R2 = R × R = x = (x1 , x2 ) x1 , x2 ∈ R .
Dabei ist der Fettbuchstabe x eine Kurznotation für (x1 , x2 ), und wir nennen x = (x1 , x2 )
einen Vektor in der Ebene R2 . Geometrisch interpretieren wir x = (x1 , x2 ) auch als
den Pfeil“ von Nullpunkt 0 = (0, 0) zum Punkt x = (x1 , x2 ), wie es in Abbildung 11.1
”
339
340
11.1. Einführung: Vektoren in der Ebene
eingezeichnet ist. Beispiele für Vektoren in R2 wären also
x = (1, 2),
y = (−2, 7)
und
z = (−14, −3).
(11.1)
x2-Achse
Hier hat also x = (1, 2) die Komponenten oder Koordinaten x1 = 1 und x2 = 2. Analog hat y = (−2, 7) die Koordinaten y1 = −2 und y2 = 7. Die geometrische Interpretation
der Vektoren macht es auch klar, dass die beiden Vektoren (1, 2) und (2, 1) nicht identisch
sind. Die Reihenfolge der Komponenten oder Koordinaten eines Vektors spielt
also eine Rolle.
x = (x1, x2)
kx
k=
r
x12
2
+ x2
x2
0 = (0, 0)
x1
x1-Achse
Abb. 11.1: Veranschaulichung des Vektors x = (x1 , x2 ) als Pfeil“ von Nullpunkt 0 = (0, 0)
”
zum Punkt x = (x1p
, x2 ). Mit dem Satz des Pythagoras sehen wir sofort, dass die Länge
der Pfeils“ gerade x21 + x22 ist.
”
Wir wollen nun Vektoren in R2 addieren und mit reellen Zahlen (sogenannten Skalaren)
multiplizieren. Dabei gehen wir ganz naiv vor und nehmen die Addition und Subtraktion einfach komponentenweise vor. So finden wir beispielsweise für die Vektoren x
und y in (11.1)
x + y = (1, 2) + (−2, 7) = 1 + (−2), 2 + 7 = (−1, 9),
x − y = (1, 2) − (−2, 7) = 1 − (−2), 2 − 7 = (3, −5).
Allgemein addieren bzw. subtrahieren wir zwei Vektoren x = (x1 , x2 ) und y = (y1, y2 )
analog dazu wie folgt
x + y = (x1 , x2 ) + (y1 , y2) = x1 + y1 , x2 + y2 ,
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
341
x − y = (x1 , x2 ) − (y1 , y2) = x1 − y1 , x2 − y2 .
x2-Achse
In Abbildung 11.2 sehen wir eine geometrische Veranschaulichung der Vektoraddition.
Die beiden Vektoren x bzw. y sind in blau bzw. rot eingezeichnet. Verschieben wir den
Vektor x bzw. y parallel und heften seinen Fußpunkt an die Spitze von y bzw. x wie
eingezeichnet, so erhalten wir ein Parallelogramm, dessen Diagonale der Vektor x + y ist.
Genauer ist der Vektor x + y der Vektor vom Nullpunkt 0 = (0, 0) zu dem Punkt an der
Spitze der wie beschrieben parallelverschobenen Vektoren.
x + y = (x1 + y1, x2 + y2)
x2 + y2
x2
x = (x1, x2)
y2
y = (y1, y2)
x1-Achse
0 = (0, 0)
x1
y1
x1 + y1
−0.5 · y = (y1/2, y2/2)
Abb. 11.2: Der Vektor x + y ist die Diagonale (mit Fußpunkt im Ursprung) in dem von x,
y und ihren parallelverschobenen Kopien gebildeten Parallelogramm. Der Vektor −0, 5 · y
hat die halbe Länge von y und zeigt in die entgegengesetzte Richtung.
Analog multiplizieren wir Vektoren einfach komponentenweise mit reellen Zahlen.
Z.B. gilt für die Vektoren x und y in (11.1)
2 x = 2 (1, 2) = (1 · 2, 2 · 2) = (2, 4),
−0, 5 y = −0, 5 (−2, 7) = (−0, 5) · (−2), −0, 5 · 7 = (1, −3, 5).
Allgemein definieren wir nun die skalare Multiplikation eines Vektors x = (x1 , x2 ) mit
einer reellen Zahl λ ∈ R wie folgt
λ x = λ (x1 , x2 ) = (λ x1 , λ x2 ).
342
11.2. Vektoren im euklidischen Vektorraum Rn
Die skalare Multiplikation eines Vektors x ∈ R2 mit einer reellen Zahl λ ist ebenfalls in
Abbildung 11.2 veranschaulicht: Ist λ > 0, so zeigt der Vektor λ x in die gleiche Richtung
wir der Vektor x aber sein Pfeil ist λ-mal so lang. Ist λ < 0, so zeigt der Vektor λ x in
die entgegengesetzte Richtung, und der Pfeil hat die |λ|-fache Länge. Insbesondere ist −x
der Vektor, den wir erhalten, indem wir den Vektor x um 180 Grad um den Nullpunkt
drehen.
Die Länge der Pfeils von 0 = (0, 0) nach x = (x
p1 , x2 ), der den Vektor x = (x1 , x2 )
veranschaulicht, ist nach dem Satz des Pythagoras x21 + x22 (vgl. Abbildung 11.1), und
wir bezeichnen diese Länge auch als euklidische Norm des Vektors, notiert als
q
kxk = x21 + x22
für
x = (x1 , x2 ).
So hat beispielsweise der Vektor x = (1, 2) die Länge oder euklidische Norm
√
√
kxk = (1, 2) = 12 + 22 = 5,
und der Vektor y = (−2, 7) hat die Länge oder euklidische Norm
√
p
kxk = (−2, 7) = (−2)2 + 72 = 53.
In dem nächsten Teilkapitel werden wir diese Ideen nun von Vektoren in der Ebene R2 , also
Vektoren mit 2 Komponenten (oder 2 Koordinaten), auf Vektoren in Rn , also Vektoren
x = (x1 , x2 , . . . , xn )
mit n Komponenten (oder n Koordinaten) verallgemeinern. Dabei lernen wir auch noch
weitere Begriffe im Zusammenhang mit Vektoren kennen.
11.2
Vektoren im euklidischen Vektorraum Rn
Wir verallgemeinern nun die Ideen, die wir im vorigen Teilkapitel kennengelernt haben.
Definition 11.1. (euklidische Vektorraum Rn ) Unter dem euklidischen Vektorraum Rn versteht man das kartesische Produkt R × R × . . . × R (n-mal), d.h. die Menge
aller n-Tupel
x = (x1 , x2 , . . . , xn )
reeller Zahlen x1 , x2 , . . . , xn . Als Menge können wir Rn wie folgt schreiben:
Rn = x = (x1 , x2 , . . . , xn ) xk ∈ R für k = 1, 2, . . . , n .
Wir nennen die Punkte x in Rn Vektoren, und die reelle Zahl xk heißt k-te Koordinate
oder k-te Komponente von x.
Wir veranschaulichen x = (x1 , x2 , . . . , xn ) als einen Pfeil vom Nullpunkt 0 = (0, 0, . . . , 0)
zu dem Punkt x = (x1 , x2 , . . . , xn ) im n-dimensionalen Raum. Dabei ist 0 = (0, 0, . . . , 0)
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
343
der Fußpunkt des Pfeils und seine Spitze ist im Punkt x = (x1 , x2 , . . . , xn ). Damit können
wir dem Vektor x als Richtung die Richtung dieses Pfeils zuordnen.
Zwei Vektoren x = (x1 , x2 , . . . , xn ) und y = (y1 , y2 , . . . , yn ) in Rn sind gleich, falls gilt:
xk = yk für k = 1, 2, . . . , n.
In Rn erklären wir komponentenweise eine Addition bzw. eine Subtraktion durch
x + y = (x1 , x2 , . . . , xn ) + (y1 , y2 , . . . , yn ) = (x1 + y1 , x2 + y2 , . . . , xn + yn ),
x − y = (x1 , x2 , . . . , xn ) − (y1 , y2, . . . , yn ) = (x1 − y1 , x2 − y2 , . . . , xn − yn ),
sowie eine skalare Multiplikation mit reellen Zahlen λ durch
λ x = λ (x1 , x2 , . . . , xn ) = (λ x1 , λ x2 , . . . , λ xn ).
Man bezeichnet reelle Zahlen λ im Kontext der skalaren Multiplikation auch als Skalare.
Die Länge eines Vektors x = (x1 , x2 , . . . , xn ) wird mit der euklidischen Norm gemessen:
v
u n
q
uX
2
2
2
x2k .
kxk = x1 + x2 + . . . + xn = t
k=1
Betrachten wir zunächst einige Beispiele.
Beispiel 11.2. (Addition, Subtraktion und skalare Multiplikation) Seien
x = (1, 2, 3, 4),
y = (−1, 1, −1, 1),
z = (1, 0, 1, 0)
Vektoren im euklidischen Raum R4 . Dann gilt
x + y = (1, 2, 3, 4) + (−1, 1, −1, 1) = 1 + (−1), 2 + 1, 3 + (−1), 4 + 1 = (0, 3, 2, 5),
y + z = (−1, 1, −1, 1) + (1, 0, 1, 0) = − 1 + 1, 1 + 0, −1 + 1, 1 + 0 = (0, 1, 0, 1),
x − z = (1, 2, 3, 4) − (1, 0, 1, 0) = 1 − 1, 2 − 0, 3 − 1, 4 − 0 = (0, 2, 2, 4),
und wir haben
13 x = 13 (1, 2, 3, 4) = 13 · 1, 13 · 2, 13 · 3, 13 · 4 = (13, 26, 39, 52),
−7 y = −7 (−1, 1, −1, 1) = (−7) · (−1), (−7) · 1, (−7) · (−1), (−7) · 1 = (7, −7, 7, −7).
Also haben wir auch
13 x − 7 y = 13 x + (−7) y = (13, 26, 39, 52) + (7, −7, 7, −7)
= 13 + 7, 26 − 7, 39 + 7, 52 − 7
= (20, 19, 46, 45).
Natürlich hätten wir diese Rechnung auch direkt ausführen können, ohne vorher 13 x und
(−7) y separat zu berechnen.
11.2. Vektoren im euklidischen Vektorraum Rn
344
Beispiel 11.3. (euklidische Norm) Berechnen wir noch die euklidische Norm der Vektoren x = (1, 2, 3, 4), y = (−1, 1, −1, 1) und z = (1, 0, 1, 0)
√
√
√
kxk = 12 + 22 + 32 + 42 = 1 + 4 + 9 + 16 = 30,
p
√
√
kyk = (−1)2 + 12 + (−1)2 + 12 = 1 + 1 + 1 + 1 = 4 = 2,
√
√
√
kzk = 12 + 02 + 12 + 02 = 1 + 0 + 1 + 0 = 2.
Wir bemerken, dass wir die Subtraktion von Vektoren eigentlich nicht zu erklären brauchen, denn es gilt
x − y = x + (−1) · y.
Wir können also die Subtraktion über die Addition und die skalare Multiplikation erklären.
Anschaulich können wir uns nur Vektoren in der Ebene R2 und im drei-dimensionalen
Raum R3 vorstellen. Für mehr als 3 Dimensionen ist unser geometrisches Vorstellungsvermögen nicht gut ausgerüstet, da wir in einer drei-dimensionalen räumlichen Welt leben.
Der euklidische Raum Rn mit n > 3 ist aber kein obskures mathematisches Konstrukt“.
”
So spielt beispielsweise R4 in der Relativitätstheorie ein wichtige Rolle. Hier
sind die Koordinaten in R4 die drei Raumdimensionen (x, y, z), und die vierte Koordinate
ist die Zeit t.
Definition 11.4. (Einheitsvektor und Nullvektor)
(i) Ein Vektor x ∈ Rn ist ein Einheitsvektor, wenn gilt kxk = 1, also wenn der Vektor
die euklidische Norm (also die Länge) Eins hat.
(ii) Der Vektor 0 = (0, 0, . . . , 0) heißt der Nullvektor von Rn .
Beispiel 11.5. (Einheitsvektoren) Die Vektoren
x = (1, 0, 0, 0, 0),
y = (0, 0, 1, 0, 0),
z=
1 1
1
, 0, √ , , 0
2
2 2
sind Einheitsvektoren in R5 , denn
√
√
kxk = 12 + 02 + 02 + 02 + 02 = 1 = 1,
√
√
kyk = 02 + 02 + 12 + 02 + 02 = 1 = 1,
s r
2 2
2
1 1 1 √
1
1
1
kzk =
+ + = 1 = 1.
+ 02 + √
+ 02 =
+
2
2
4 2 4
2
Der Vektor u = (1, 2, 3, 4) in R4 ist kein Einheitsvektor, aber indem wir u durch kuk
teilen, können einen Einheitsvektor mit der gleichen
Richtung wie u erhalten. In Beispiel
√
11.2 hatten wir bereits berechnet, dass kuk = 30 ist. Also finden wir, dass
2
3
4
1
1
1
u
=
u = √ (1, 2, 3, 4) = √ , √ , √ , √
kuk
kuk
30
30 30 30 30
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
345
in die gleiche Richtung wie u zeigt und die Länge 1 hat. Dass u/kuk die Länge 1 hat
braucht man eigentlich nicht mehr nachzurechnen, denn dies folgt direkt aus der Tatsache,
dass wir den Vektor durch seine Länge geteilt haben:
s 2
u u1 u2 u3 u4 u22
u23
u24
u1
=
=
,
,
,
+
+
+
kuk kuk kuk kuk kuk kuk2 kuk2 kuk2 kuk2
s
q
1
1
1
2
2
2
2
u21 + u22 + u23 + u24 =
=
kuk = 1.
u1 + u2 + u3 + u4 =
2
kuk
kuk
kuk
Wir halten unsere Beobachtung aus dem letzten Beispiel allgemein fest.
Bemerkung 11.6. (Einheitsvektor zu einem gegebenen Vektor) Zu einem gegebenen Vektor x ist der Vektor x/kxk der Einheitsvektor, der in die gleiche Richtung wie
x zeigt.
Wir gehen nun bereits kurz auf den Unterschied zwischen sogenannten Zeilenvektoren und
sogenannten Spaltenvektoren ein. Dieser Unterschied wird aber erst wichtig, wenn wir im
Kapitel 12 mit Matrizen arbeiten.
Bemerkung 11.7. (Zeilenvektoren und Spaltenvektoren) Wir können Vektoren in
Rn als Zeilenvektoren
x = (x2 , x2 , . . . , xn )
oder als Spaltenvektoren


x1
 x2 
 
x =  .. 
.
xn
schreiben. Solange wir nur mit Vektoren arbeiten, macht es keinen Unterschied, ob wir
mit Zeilenvektoren oder Spaltenvektoren arbeiten, aber sobald wir Matrizen einführen
ist es besser, mit Spaltenvektoren zu arbeiten. Wir gewöhnen uns dies daher schon
jetzt an. Man kann einen Zeilenvektor durch die Transposition (symbolisiert durch den
oberen Index T) in einen Spaltenvektor überführen und umgekehrt, d.h.


x1
 x2 
 
T
(x1 , x2 , . . . , xn ) =  .. 
.
xn
und

T
x1
x2 
 
 ..  = (x1 , x2 , . . . , xn ).
.
xn
Als Anwendung des Vektorbegriffs nutzen wir Vektoren, um Geraden in Rn nun einfach
darzustellen.
11.2. Vektoren im euklidischen Vektorraum Rn
346
a
1
a
(0, b)
b
a)
(1,
1
x
x+1
Abb. 11.3: Darstellung einer Gerade f (x) = a x + b mit Hilfe von Vektoren.
Anwendung 11.8. (Geraden in Rn )
(a) Wir betrachten zunächst den Fall n = 2. In der Ebene R2 wird eine Gerade durch eine
affin lineare Funktion
f (x) = a x + b
mit der Steigung a und dem y-Achsenabschnitt b
beschrieben. Genau genommen ist der Graph dieser Funktion
Γ(f ) =
x, f (x) x ∈ R = (x, a x + b) x ∈ R
die Gerade. Diese Gerade geht durch den Punkt 0, f (0) = (0, b), und bewegen wir uns
um ∆x = 1 in Richtung der x-Achse, so bewegen wir uns um ∆y = a in Richtung der
y-Achse. Wenn wir also den Vektor (1, a) parallel verschieben und mit seinem Fußpunkt
an die Spitze des Vektors (0, b) anheften, so liegt dieser parallelverschobene Vektor auf der
Geraden f (vgl. Abbildung 11.3). Vielfache dieses Vektors haben nun eine unterschiedliche
Länge (und zeigen gegebenenfalls in entgegengesetzte Richtung) und liegen daher immer
noch auf der Geraden. Wir können die Gerade f (x) = a x + b, oder genauer alle Punkte
auf der Geraden, also darstellen als
y1
0
1
λ
λ
y=
=
+λ
=
=
y2
b
a
b +λa
aλ + b
mit λ ∈ R.
(11.2)
Mit λ = x erhalten wir also y1 = x und y2 = a x + b = f (x), d.h. wir haben in der Tat
alle Punkte x, f (x) des Graphen der Funktion f (x) = a x + b erfasst.
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
a−
347
b
a
b
Abb. 11.4: Darstellung der Geraden durch a = (a1 , a2 , a3 ) und b = (b1 , b2 , b3 ) in R3 mit
Hilfe von Vektoren.
(b) Betrachten wir eine Gerade in Rn (stellen Sie sich R3 ) vor, und nehmen wir zwei
verschiedene Punkte a = (a1 , a2 , . . . , an )T und b = (b1 , b2 , . . . , bn )T auf der Geraden, dann
können wir die Gerade analog zu (11.2) schreiben als
y = b + λ (a − b)
bzw. expliziter
   
y1
b1
 y2   b2 
   
 ..  =  ..  + λ
. .
yn
bn
mit λ ∈ R,


a1 − b1
 a2 − b2 


 .. 
 . 
(11.3)
mit λ ∈ R.
an − bn
Dies ist so zu interpretieren: Für λ = 0 erhalten wir den Vektor y = b + 0 (a − b) = b,
und der Punkt b liegt auf der Geraden y = b + λ (a − b). Weiter sehen wir für λ = 1, dass
y = b + 1 (a − b) = a ist, d.h. a liegt auf der Geraden y = b + λ (a − b). Also beschreibt
(11.3) in der Tat die Gerade, auf der die Punkte a und b liegen.
Dass es sich bei y = b + λ (a − b) um eine Gerade handelt, sieht man wie folgt: Durch die
Addition von λ (a−b) zu b heften wir Vielfache des Vektors a−b mit ihrem Fußpunkt an
die Spitze das Vektors b. Eine Parallelverschiebung des Vektors a − b liegt aber auf der
Geraden durch die Punkte a = (a1 , a2 , . . . , an )T und b = (b1 , b2 , . . . , bn )T (vgl. Abbildung
11.4). Also liegen alle Punkte y = b + λ (a − b) mit λ ∈ R auf der Geraden durch die
beiden Punkte a und b.
Im nächsten Lemma halten wir einige wichtige Eigenschaften der euklidischen Norm fest.
Diese sind analog zu den Eigenschaften des Absolutbetrags |x| einer reellen Zahl (vgl. Lem-
11.2. Vektoren im euklidischen Vektorraum Rn
348
ma 1.78). Dies ist nicht überraschend, denn
√ der Absolutbetrag ist nichts weiter als die
1
euklidische Norm auf R = R , also |x| = x2 .
Lemma 11.9. (Eigenschaften der euklidischen Norm) Die wichtigsten Eigenschaften der euklidischen Norm sind:
(i) kxk ≥ 0 für alle x ∈ Rn , und kxk = 0 ⇔ x = 0 .
(ii) kλ xk = |λ| kxk für alle λ ∈ R und alle x ∈ Rn .
(iii) kx + yk ≤ kxk + kyk für alle x, y ∈ Rn (Dreiecksungleichung).
Als letzte Begriffe in diesem Teilkapitel führen wir das euklidische Skalarprodukt für Rn ,
sowie den Begriff der Orthogonalität von Vektoren ein.
y
y
φ
kyk cos(φ) > 0
φ
π/2
π/2
x
x
kyk cos(φ) < 0
Abb. 11.5: Der Wert des Skalarprodukts hx, yi ist das Produkt der Länge kxk von x und
der Länge kyk · cos(φ) der Projektion von y auf x.
Definition 11.10. (euklidisches Skalarprodukt) Seien x = (x1 , x2 , . . . , xn ) und y =
(y1 , y2, . . . , yn ) Vektoren in Rn . Dann spannen beide Vektoren zusammen eine Ebene auf,
und in dieser Ebene haben die Vektoren zueinander einen Winkel φ ∈ [0, π]. Dann heißt
hx, yi = kxk · kyk · cos(φ)
(11.4)
das euklidische Skalarprodukt (oder das innere Produkt) von x und y. Dieses hat
eine anschauliche Bedeutung (vgl. Abbildung 11.5): Wir können kyk · cos(φ) als die Länge
der Projektion von y auf x auffassen. Also projizieren wir y auf x und multiplizieren dann
die Längen von x und der Projektion von y auf x miteinander.
Man kann das Skalarprodukt von x und y einfacher mit der folgenden Formel berechnen,
aus der man aber keine geometrische Anschauung gewinnen kann:
hx, yi = x1 y1 + x2 y2 + . . . + xn yn =
n
X
k=1
xk yk .
(11.5)
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
349
Betrachten wir zunächst ein paar Bespiele.
Beispiel 11.11. (euklidisches Skalarprodukt) Seien
 
 
 
1
−1
1
0
 1
2



z=
y=
x=
1
−1 ,
3 ,
0
1
4
Vektoren im euklidischen Raum R4 . Dann gilt
   
−1 +
* 1
2  1
  
hx, yi = 
3 , −1 = 1 · (−1) + 2 · 1 + 3 · (−1) + 4 · 1 = −1 + 2 − 3 + 4 = 2,
1
4
   
1 +
* −1
 1 0
  
hy, zi = 
−1 , 1 = (−1) · 1 + 1 · 0 + (−1) · 1 + 1 · 0 = −1 + 0 − 1 + 0 = −2.
0
1
Bemerkung 11.12. (andere Schreibweisen des euklidischen Skalarprodukts) Andere Schreibweisen für hx, yi sind x · y oder gelegentlich (x, y).
Das nächste Lemma hält wichtige Eigenschaften des euklidischen Skalarprodukts fest.
Lemma 11.13. (Eigenschaften des euklidischen Skalarprodukts) Die wichtigsten
Eigenschaften des euklidischen Skalarprodukts von Rn sind:
p
(i) hx, xi = kxk2 für alle x ∈ Rn , d.h. kxk = hx, xi für alle x ∈ Rn .
(ii) hx, xi ≥ 0 für alle x ∈ Rn , und hx, xi = 0 nur für x = 0 .
(iii) hx, yi = hy, xi für alle x, y ∈ Rn (Symmetrie).
(iv) hα x + β y, zi = α hx, zi + β hy, zi für alle x, y, z ∈ Rn und alle α, β ∈ R.
(v) Cauchy-Schwarzsche Ungleichung:
|hx, yi| ≤ kxk · kyk
für alle x, y ∈ Rn .
Machen wir uns klar, dass die Eigenschaften in Lemma 11.13 nicht überraschend sind.
Die erste Eigenschaft hx, xi = kxk2 stellt einen Zusammenhang zwischen der euklidischen
Norm und dem euklidischen Skalarprodukt her und folgt direkt aus der Definition beider
Größen
hx, xi = x1 x1 + x2 x2 + . . . + xn xn = x21 + x22 + . . . + x2n = kxk2 .
Die Eigenschaften (ii) bis (iv) rechnet man ebenfalls leicht mit Hilfe der Definition (11.5)
des euklidischen Skalarprodukts nach bzw. führt sie in Fall von (ii) auf die Eigenschaften
der euklidischen Norm zurück.
11.2. Vektoren im euklidischen Vektorraum Rn
350
Die Cauchy-Schwarzsche Ungleichung (v) folgt direkt aus der anderen Darstellung (11.4)
des Skalarprodukts
|hx, yi| = kxk · kyk · cos(φ) = kxk · kyk · | cos(φ)| ≤ kxk · kyk.
| {z }
≤1
Das Skalarprodukt kann genutzt werden, um die Winkel im Raum zwischen zwei Vektoren
zu berechnen.
Anwendung 11.14. (Berechnung des Winkels zwischen Vektoren) Seien x und y
zwei Vektoren in Rn . Wir suchen den Winkel φ zwischen den beiden Vektoren. Nach den
beiden Definitionen des Skalarprodukts haben wir
kxk kyk cos(φ) = x1 y1 + x2 y2 + . . . + xn yn .
Also folgt durch Auflösen nach cos(φ)
cos(φ) =
x1 y1 + x2 y2 + . . . + xn yn
,
kxk kyk
(11.6)
und wir können für φ ∈ [0, π] leicht die Umkehrfunktion des Kosinus nehmen und erhalten
x1 y1 + x2 y2 + . . . + xn yn
φ = arccos
.
kxk kyk
Betrachten wir dazu zwei Beispiele.
Beispiel 11.15. (Berechnung des Winkels zwischen Vektoren) Wir suchen den
Winkel φ ∈ [0, π] zwischen den Vektoren
 
 
1
1
√
−1 .
und
y = √
x =  2
1
2
Wir berechnen zunächst das euklidische Skalarprodukt und die Längen der beiden Vektoren:
* 1  1+
√
√
√
√
√
−1 = 1 · 1 + 2 · (−1) + 1 · 2 = 1 + 2 − 2 = 1,
hx, yi =  2 , √
2
1
q
√ 2
√
√
2 + 12 = 1 + 2 + 1 = 4 = 2,
kxk = 12 +
q
√
√ 2 √
2 = 1 + 1 + 2 = 4 = 2.
kyk = 12 + (−1)2 +
Also finden wir nach (11.6)
1
1
hx, yi
=
=
cos(φ) =
kxk kyk
2·2
4
=⇒
1
≈ 75, 52◦.
φ = arccos
4
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
351
Beispiel 11.16. (Berechnung des Winkels zwischen Vektoren) Wir suchen den
Winkel zwischen den beiden Vektoren
 
 
1
1
u = −1
und
v = 1 .
1
0
Wir berechnen zunächst das euklidische Skalarprodukt und die Längen der beiden Vektoren:
*   +
1
1
hu, vi = −1 , 1 = 1 · 1 + (−1) · 1 + 1 · 0 = 1 − 1 + 0 = 0,
1
0
p
√
√
kxk = 12 + (−1)2 + 12 = 1 + 1 + 1 = 3,
√
√
√
kyk = 12 + 12 + 02 = 1 + 1 + 0 = 2.
Also finden wir nach (11.6)
cos(φ) =
0
hx, yi
= √ √ =0
kxk kyk
3· 2
=⇒
hx, yi
0
=
=0
kxk kyk
kxk kyk
=⇒
φ = arccos(0) =
π
.
2
Wir finden also, dass die beiden Vektoren einen Winkel von π/2 oder 90◦ zueinander
haben. Sie stehen also senkrecht aufeinander. Dies ist immer der Fall, wenn für zwei vom
Nullvektor verschiedene Vektoren x und y gilt hx, yi = 0, denn dann folgt nach (11.6)
cos(φ) =
φ = arccos(0) =
π
.
2
Definition 11.17. (orthogonale/zueinander senkrechte Vektoren) Seien x, y in
Rn \ {0}. Gilt hx, yi = 0, so haben die Vektoren x und y zueinander einen Winkel von
π/2 (also 90◦ ), d.h. sie stehen zueinander senkrecht. Wir sagen dann, die Vektoren x
und y sind orthogonal.
Wir haben in Beispiel 11.16 bereits ein Beispiel für orthogonale Vektoren gesehen. Betrachten wir nun noch ein weiteres Beispiel.
Beispiel 11.18. (orthogonale/zueinander senkrechte Vektoren) Die Vektoren
 
 
 
1
0
0





e1 = 0 ,
e2 = 1 ,
e3 = 0
0
0
1
sind paarweise zueinander orthogonal. Damit ist gemeint, das jeweils zwei beliebige dieser
Vektoren zueinander orthogonal sind.
Wir weisen dies nach, indem wir die euklidischen Skalarprodukte von jeweils zwei verschiedenen Vektoren berechnen:
*1 0+
he1 , e2 i =
0 , 1
0
0
= 1 · 0 + 0 · 1 + 0 · 0 = 0 + 0 + 0 = 0,
352
11.3. Linearkombination und lineare Unabhängigkeit
*1 0+
he1 , e3 i = 0 , 0 = 1 · 0 + 0 · 0 + 0 · 1 = 0 + 0 + 0 = 0,
0
1




* 0
0 +
he2 , e3 i = 1 , 0 = 0 · 0 + 1 · 0 + 0 · 1 = 0 + 0 + 0 = 0.
0
1
11.3
Linearkombination und lineare Unabhängigkeit
In diesem Teilkapitel lernen wir die zentralen Begriffe der Linearkombination und der
linearen Unabhängigkeit von Vektoren kennen. Betrachten wir zunächst ein Beispiel im
euklidischen Raum R3 , um ein Gefühl für die neuen Begriffe Linearkombination, Basis
und linear unabhängig“ zu bekommen.
”
Betrachten wir die folgenden drei Vektoren in R3
 
 
 
1
0
0





1
1
a1 =
,
a2 =
,
a3 = 1 .
0
0
1
Dann können wir uns dafür interessieren, welche Vektoren x wir als
 
 
 
 
0
0
1
x1
x = x2  = λ1 a1 + λ2 a2 + λ3 a3 = λ1 1 + λ2 1 + λ3 1
1
0
0
x3
(11.7)
mit beliebigen reellen Zahlen λ1 , λ2 , λ3 ∈ R darstellen können. Indem man die skalare
Multiplikation und Vektoraddition in (11.7) ausführt, erhält man
  
 

x1
1 · λ1 + 0 · λ2 + 0 · λ3
λ1
x = x2  = 1 · λ1 + 1 · λ2 + 1 · λ3  = λ1 + λ2 + λ3  ,
x3
0 · λ1 + 0 · λ2 + 1 · λ3
λ3
d.h. wir erhalten das folgende lineare Gleichungssystem:
λ1
= x1
λ1 + λ2 + λ3 = x2
λ3 = x3
Wir sehen sofort, dass wir für die Wahl von λ1 , λ2 , λ3 als
λ1 = x1 ,
λ3 = x3
=⇒
λ2 = x2 − λ1 − λ3 = x2 − x1 − x3
(11.8)
den Vektor x bekommen. Also können wir alle Vektoren in R3 in der Form (11.7) darstellen. Man nennt (11.7) eine Linearkombination der Vektoren a1 , a2 , a3 , und wir sagen,
der Vektor x in (11.7) ist eine Linearkombination der Vektoren a1 , a2 , a3 . Es ist
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
353
aber nicht selbstverständlich, dass man alle Vektoren in R3 als Linearkombination von
mehreren fest gewählten Vektoren schreiben kann. Definieren wir z.B. noch
 
0

a4 = −1
1
und betrachten wir
 
 
 
 
x1
0
0
0







x = x2 = λ2 a2 + λ3 a3 + λ4 a4 = λ2 1 + λ3 1 + λ4 −1 ,
x3
0
1
1
(11.9)
so erhalten wir analog zu (11.7)

 
  
0
0 · λ2 + 0 · λ3 + 0 · λ4
x1
x = x2  = 1 · λ2 + 1 · λ3 − 1 · λ4  = λ2 + λ3 − λ4  ,
λ3 + λ4
0 · λ2 + 1 · λ3 + 1 · λ4
x3
d.h. wir erhalten das folgende lineare Gleichungssystem:
0 = x1
λ2 + λ3 − λ4 = x2
λ3 + λ4 = x3
Wir sehen, dass – egal, wie wir λ2 , λ3 , λ4 ∈ R wählen – man nie einen Vektor x mit x1 6= 0
erhält. Genauer kann man leicht zeigen, dass die Linearkombination (11.9) alle Vektoren
x ∈ R3 mit x1 = 0 erzeugt.
Betrachtet man dagegen die Linearkombination
 
 
 
 
 
x1
1
0
0
0









x = x2 = λ1 a1 + λ2 a2 + λ3 a3 + λ4 a4 = λ1 1 + λ2 1 + λ3 1 + λ4 −1 ,
x3
0
0
1
1
(11.10)
so können wir natürlich jeden Vektor x in R3 darstellen, indem wir λ1 , λ2 , λ3 wie in (11.8)
wählen und λ4 = 0 wählen. Man überzeugt sich leicht, dass dies keine eindeutige Wahl
ist: Z.B. kann man den folgenden Vektor auf zwei Arten als eine Linearkombination (11.10)
darstellen:
 
 
 
0
0
0
0 = −2 a2 + 2 a3 = −2 1 + 2 1 , also λ1 = 0, λ2 = −2, λ3 = 2, λ4 = 0,
2
0
1
   
 
0
0
0
0 = a3 + a4 = 1 + −1 , also λ1 = 0, λ2 = 0, λ3 = 1, λ4 = 1.
2
1
1
Obwohl beide Systeme {a1 , a2 , a3 } und {a1 , a2 , a3 , a4 } jeweils alle Vektoren in R3 als
Linearkombinationen erzeugen, gibt es einen fundamentalen Unterschied zwischen den
354
11.3. Linearkombination und lineare Unabhängigkeit
beiden Systemen. Nur für das System {a1 , a2 , a3 } besitzt jedes x ∈ R3 eine eindeutige
Darstellung als Linearkombination der Vektoren dieses Systems. Mathematisch nennt
man ein solches System eine sogenannte Basis von R3 .
Die eine Anforderung an eine Basis {a1 , a2 , . . . , am } von R3 (und allgemeiner von Rn )
ist, dass alle Vektoren in R3 (und allgemeiner in Rn ) als Linearkombinationen von Vektoren der Basis dargestellt werden können. Die zweite Anforderung an eine Basis ist,
dass die Vektoren einer Basis linear unabhängig sind. Wir sagen, dass die Vektoren
a1 , a2 , . . . , am voneinander linear unabhängig sind, wenn sich keiner dieser Vektoren als Linearkombination der restlichen Vektoren darstellen lässt. Dann lässt
sich insbesondere jeder Vektor in R3 (und allgemeiner in Rn ) eindeutig als Linearkombination von Vektoren der Basis darstellen.
Um den Begriff linear unabhängig“ zu verstehen, betrachten wir zunächst noch einmal
”
unsere Beispielvektoren a1 , a2 , a3 , a4 in R3 . Dann gilt
 
 
 
0
0
0
1
1   1   1


1 −
−1 = a3 − a4 ,
a2 = 1 =
2
2
2
2
1
1
0
d.h. wir können a2 als Linearkombination von a1 , a3 , a4 (und genauer sogar also Linearkombination von a3 und a4 ) schreiben. Also sind die Vektoren a1 , a2 , a3 , a4 nicht linear
unabhängig. Wir sagen dann auch, die Vektoren a1 , a2 , a3 , a4 sind linear abhängig.
(Damit sehen wir auch direkt, dass die Vektoren a2 , a3 , a4 ebenfalls linear abhängig sind.)
Betrachten wir dagegen nur die drei Vektoren a1 , a2 , a3 in R3 und versuchen jeweils einen
der drei Vektoren als Linearkombination der beiden verbleibenden Vektoren darzustellen,
so finden wir
 
 
 
1
0
0





1
1
a1 =
= λ2
+ λ3 1 = λ2 a2 + λ3 a3 ,
(11.11)
0
0
1
 
 
 
0
1
0
a2 = 1 = µ1 1 + µ3 1 = µ1 a1 + µ3 a3 ,
(11.12)
0
0
1
 
 
 
0
1
0
a3 = 1 = γ1 1 + γ2 1 = γ1 a1 + γ2 a2 .
(11.13)
1
0
0
Die zu untersuchenden Linearkombinationen (11.11), (11.12) und (11.13) führen jeweils
auf die folgenden Bedingungen.
  
 

1
0 · λ2 + 0 · λ3
0
a1 = 1 = 1 · λ2 + 1 · λ3  = λ2 + λ3  ,
(11.14)
0
0 · λ2 + 1 · λ3
λ3
  
 

0
1 · µ1 + 0 · µ3
µ1
a2 = 1 = 1 · µ1 + 1 · µ3  = µ1 + µ3  ,
(11.15)
0
0 · µ1 + 1 · µ3
µ3
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
355
  
 

0
1 · γ1 + 0 · γ2
γ1
a3 = 1 = 1 · γ1 + 1 · γ2  = γ1 + γ2  .
1
0 · γ1 + 0 · γ2
0
(11.16)
Man sieht direkt, dass die Bedingung 1 = 0 für die erste Koordinate in (11.14) und die
dritte Koordinate in (11.16) nicht erfüllbar ist. Also lassen sich a1 und a3 jeweils nicht als
Linearkombination der beiden verbleibenden Vektoren darstellen. Betrachten wir (11.15),
so folgt aus der Bedingung für die erste bzw. die dritte Koordinate µ1 = 0 bzw. µ3 = 0.
Damit ist aber auch µ1 + µ3 = 0, und die Bedingung 1 = µ1 + µ3 für die zweite Koordinate
lässt sich nicht erfüllen. Also lässt sich auch a2 nicht als Linearkombination der beiden
verbleibenden Vektoren a1 und a3 darstellen. Damit haben wir gezeigt, dass die Vektoren
a1 , a2 , a3 linear unabhängig sind.
Es scheint ziemlich mühselig, die lineare Unabhängigkeit von Vektoren zu untersuchen,
indem wir überprüfen, ob jeder einzelne der Vektoren als eine Linearkombination der restlichen Vektoren darzustellen ist. Wir würden dieses gerne in einem Schritt überprüfen. Um
auf eine geeignete Gleichung zu kommen, stellen wir zunächst die Bedingungen (11.11),
(11.12) und (11.13) wie folgt um:
 
0
0 = 0 = (−1) a1 + λ2 a2 + λ3 a3 ,
(11.17)
0
 
0

0 = 0 = µ1 a1 + (−1) a2 + µ3 a3 ,
(11.18)
0
 
0

0 = 0 = γ1 a1 + γ2 a2 + (−1) a3 .
(11.19)
0
Statt der drei einzelnen Gleichungen (11.17), (11.18) und (11.19) schreiben wir nun die
Gleichung
 
 
 
 
0
1
0
0







0 = 0 = λ1 a1 + λ2 a2 + λ3 a3 = λ1 1 + λ2 1 + λ3 1 ,
(11.20)
0
0
0
1
welche die Gleichungen (11.17), (11.18) bzw. (11.19) jeweils als Sonderfälle mit λ1 = −1
bzw. λ1 = µ1 , λ2 = −1, λ3 = µ3 , bzw. λ1 = γ1 , λ2 = γ2 , λ3 = −1 beinhaltet. Um zu
zeigen, dass a1 , a2 , a3 linear unabhängig sind, haben wir für die einzelnen drei Gleichungen
(11.17), (11.18) bzw. (11.19) gezeigt, dass es in (11.20) keine Lösungen λ1 , λ2 , λ3 gibt
mit λ1 = −1 oder λ2 = −1 oder λ3 = −1. Statt dessen weisen wir die lineare
Unabhängigkeit von a1 , a2 , a3 nun wir folgt nach: Wir zeigen, dass die einzige
Lösung von (11.20) die Koeffizienten λ1 = λ2 = λ3 = 0 sind. Daraus folgt dann
insbesondere, dass (11.20) keine Lösungen λ1 , λ2 , λ3 mit λ1 = −1 oder λ2 = −1 oder
λ3 = −1 besitzt. Gibt es umgekehrt keine Lösungen λ1 , λ2 , λ3 mit λ1 = −1 oder λ2 = −1
oder λ3 = −1, so kann man daraus auch folgern, dass die einzige Lösung von (11.20)
λ1 = λ2 = λ3 = 0 ist. Dies ist allerdings nicht ganz so offensichtlich.
356
11.3. Linearkombination und lineare Unabhängigkeit
Konkret führt (11.20) auf die Gleichungen

  
1 · λ1 + 0 · λ2 + 0 · λ3
0
1 · λ1 + 1 · λ2 + 1 · λ3  = 0 ,
0 · λ1 + 0 · λ2 + 1 · λ3
0
d.h. wir erhalten das folgende lineare Gleichungssystem:
λ1
=0
λ1 + λ2 + λ3 = 0
λ3 = 0
Wir sehen sofort, dass die einzige Wahl von λ1 , λ2 , λ3 durch
λ1 = 0,
λ3 = 0
=⇒
λ2 = 0 − λ1 − λ3 = 0 − 0 − 0 = 0
(11.21)
gegeben ist. Also sind die Vektoren a1 , a2 , a3 linear unabhängig.
Nach diesem motivierenden Beispiel definieren wir nun die neuen Begriffe Linearkombination, Basis und linear unabhängig mathematisch.
Definition 11.19. (Linearkombination) Seien a1 , a2 , . . . , am Vektoren in Rn . Dann
heißt jeder Vektor der Form
x = λ1 a1 + λ2 a2 + . . . + λm am =
m
X
λk ak
k=1
mit den Koeffizienten λ1 , λ2 , . . . , λm ∈ R eine Linearkombination von a1 , a2 , . . . , am .
Betrachten wir noch zwei Beispiele.
Beispiel 11.20. (Linearkombination in R5 ) Seien
 
 
 
2
−1
0
−1
 1
1
 
 
 
 
 
 
−2
 1 ,
,
0
z
=
y
=
x=
 
 
 
 
 3
 
2
−1
 2
 
−1
1
3
Vektoren in R5 . Dann ist z eine Linearkombination von x und y, denn es gilt
  
 
  
−1
2
0
0+2
 1 1 − 2 −1
1
  
 
  
  
 
  


 



x − 2 y = 0 − 2  1 = 0 − 2
 = −2 = z.
 3 
 
  
 2  2 − 3 −1
2
1
−1
1+2
3
(11.22)
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
357
Beispiel 11.21. (Linearkombination in R2 ) Jeder Vektor in R2 ist eine Linearkombination der Vektoren
0
1
,
und
e2 =
e1 =
1
0
denn für x = (x1 , x2 ) gilt
0
1
x1
= x1 e1 + x2 e2 .
+ x2
= x1
x=
1
0
x2
Als Nächstes definieren wir lineare Unabhängigkeit.
Definition 11.22. (linear unabhängig und linear abhängig)
(i) Die Vektoren a1 , a2 , . . . , am in Rn heißen linear unabhängig, falls gilt: Die Gleichung
 
0
m
0
X
 
λk ak = λ1 a1 + λ2 a2 + . . . + λm am = 0 =  ..
 .
k=1
0
(mit λ1 , λ2 , . . . , λm ∈ Rn ) hat nur die Lösung λ1 = λ2 = . . . = λm = 0.
(ii) Sind die Vektoren a1 , a2 , . . . , am in Rn nicht linear unabhängig, so nennen wir
die Vektoren a1 , a2 , . . . , am linear abhängig.
Betrachten wir wieder zwei Beispiele.
Beispiel 11.23. (linear unabhängige Vektoren) Die Vektoren
1
0
e1 =
und
e2 =
0
1
in R2 sind linear unabhängig, denn die Gleichung
0
λ1
0
1
=0=
=
+ λ2
λ1 e1 + λ2 e1 = λ1
0
λ2
1
0
hat nur die Lösung λ1 = λ2 = 0.
Beispiel 11.24. (linear abhängige Vektoren) Die Vektoren
 
0
1
 
 

x=
0 ,
 
2
1

−1

 1
 
 

y=
 1 ,
 3
 2
−1

2

−1
 
 

z=
−2
 
−1
3
358
11.3. Linearkombination und lineare Unabhängigkeit
in R5 sind linear abhängig, denn aus (11.22) in Beispiel 11.20 wissen wir, dass
x− 2y = z
⇐⇒
x + (−2) y + (−1) z = 0.
Also hat die Gleichung
λ1 x + λ2 y + λ3 z = 0
(neben der Lösung λ1 = λ2 = λ3 = 0) auch die Lösung λ1 = 1, λ2 = −2 und λ3 = −1.
Somit sind die Vektoren x, y, z nicht linear unabhängig, d.h. sie sind linear abhängig.
Bemerkung 11.25. (linear unabhängig und linear abhängig)
(1) Die Bedingung dafür, dass die Vektoren a1 , a2 , . . . , am ∈ Rn linear unabhängig
sind, bedeutet, dass die Gleichung
λ1 a1 + λ2 a2 + . . . + λm am = 0
nach keinem der ak aufgelöst werden kann. Dazu wäre es nämlich nötig, dass ak
einen Koeffizient λk 6= 0 hätte. Also kann bei linear unabhängigen Vektoren
kein Vektor als eine Linearkombination der übrigen Vektoren geschrieben werden.
(2) Sind die Vektoren a1 , a2 , . . . , am ∈ Rn linear abhängig, also nicht linear unabhängig,
so gibt es Koeffizienten λ1 , λ2 , . . . , λm , von denen mindestens einer ungleich Null ist
und die
λ1 a1 + λ2 a2 + . . . + λm am = 0
(11.23)
erfüllen. Ist z.B. λℓ 6= 0, so können wir (11.23) nach aℓ auflösen:
λℓ aℓ = −
m
X
λk ak
=⇒
k=1, k6=ℓ
m
X
λk
aℓ = −
ak .
λ
ℓ
k=1, k6=ℓ
Also bedeutet die lineare Abhängigkeit der Vektoren a1 , a2 , . . . , am ∈ Rn ,
dass mindestens einer dieser Vektoren als Linearkombination der übrigen Vektoren darstellbar ist.
Betrachten wir noch ein paar weitere Beispiele.
Beispiel 11.26. (linear unabhängige Vektoren) Die Vektoren
 
 
 
1
0
0





e1 = 0 ,
e2 = 1 ,
e3 = 0 ,
0
0
1
in R3 sind linear unabhängig. Dies kann analog zu Beispiel 11.23 nachgewiesen werden.
Beispiel 11.27. (linear unabhängige Vektoren) Behauptung: Die Vektoren
 
 
1
0



a1 = −1 ,
a2 = 2
0
1
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
359
in R3 sind linear unabhängig.
Um dies nachzuweisen, betrachtet man

also

 
 
1
0
0
λ1 a1 + λ2 a2 = λ1 −1 + λ2 2 = 0 = 0 ,
0
1
0

  
λ1
0
−λ1 + 2 λ2  = 0 .
λ2
0
Aus der Gleichung λ1 = 0 für die erste Komponente und aus der Gleichung λ2 = 0 für
die dritte Komponente folgt λ1 = λ2 = 0. Also sind die Vektoren a1 , a2 in der Tat linear
unabhängig.
Beispiel 11.28. (linear abhängige Vektoren) Wir wollen untersuchen, ob die Vektoren
 
 
 
1
0
1





a1 = −1 ,
a2 = 2 ,
a3 = 1
0
1
1
linear unabhängig oder linear abhängig sind.
Hier zeigt eine clevere Inspektion der Vektoren, dass gilt
a3 = a1 + a2
⇐⇒
1 · a1 + 1 · a2 + (−1) · a3 = 0.
Daraus folgt, dass a1 , a2 , a3 linear abhängig sind. Geometrisch bedeutet die Gleichung
a3 = a1 + a2 , dass a3 in der Ebene liegt, die von a1 und a2 aufgespannt wird.
Natürlich kann man nicht immer durch eine clevere Inspektion der gegebenen Vektoren
a1 , a2 , . . . , am (wie im vorigen Beispiel) sehen, wenn diese linear abhängig sind. Kann
man nicht erkennen, ob ein Vektor als Linearkombination der restlichen darstellbar ist
oder nicht und somit lineare Abhängigkeit bzw. lineare Unabhängigkeit vorliegt, so setzt
man einfach die Gleichung
λ1 a1 + λ2 a2 + . . . + λm am = 0
(11.24)
an und löst nach λ1 , λ2 , . . . , λm . Findet man Lösungen mit mindestens einem von Null
verschiedenen λk , so sind die Vektoren a1 , a2 , . . . , am linear abhängig. Ist dagegen
λ1 = λ2 = . . . = λn = 0 die einzige Lösung von (11.24) so sind die Vektoren a1 , a2 , . . . , am
linear unabhängig. Wir führen diese Rechnung einmal für die Vektoren aus dem vorigen
Beispiel durch.
Beispiel 11.29. (lineare Abhängigkeit) Untersuchen wir die Vektoren
 
 
 
1
0
1





a1 = −1 ,
a2 = 2 ,
a3 = 1
0
1
1
360
11.3. Linearkombination und lineare Unabhängigkeit
auf lineare Abhängigkeit bzw. linear Unabhängigkeit, so setzen wir
 
 
   
1
0
1
0







λ1 a1 + λ2 a2 + λ3 a3 = λ1 −1 + λ2 2 + λ3 1 = 0
0
1
1
0
und finden
(11.25)

  
λ1 + λ3
0
−λ1 + 2 λ2 + λ3  = 0 .
λ2 + λ3
0
Also erhalten wir das lineare Gleichungssystem:
λ1
+ λ3 = 0
−λ1 + 2 λ2 + λ3 = 0
λ2 + λ3 = 0
Wir addieren zunächst die erste Gleichung zu der zweiten Gleichung und erhalten so:
λ1
+ λ3 = 0
2 λ2 + 2 λ3 = 0
λ2 + λ3 = 0
Anschließend teilen wir die neue zweite Gleichung durch 2 und subtrahieren danach die
so erhaltene neue zweite Gleichung von der dritten Gleichung:
λ1
+ λ3 = 0
λ2 + λ3 = 0
0 =0
Also gilt λ1 = λ2 = −λ3 und λ3 ist in R frei wählbar. Damit haben wir eine Lösung von
(11.25) gefunden, bei der nicht alle λk gleich Null sind. Daher sind die Vektoren a1 , a2 , a3
linear abhängig.
Betrachten wir abschließend noch einen Sonderfall.
Lemma 11.30. (lineare Un-/Abhängigkeit zweier Vektoren)
(i) Zwei Vektoren x und y in Rn sind genau dann linear abhängig, wenn ein Vektor
ein Vielfaches des anderen Vektors ist, d.h. wenn es eine Zahl λ ∈ R oder eine Zahl
µ ∈ R gibt mit
x = λy
oder
y = µ x.
(ii) Zwei Vektoren x und y in Rn sind genau dann linear unabhängig, wenn keiner
der beiden Vektoren ein Vielfaches des anderen Vektors ist, d.h. wenn es keine Zahl
λ ∈ R und keine Zahl µ ∈ R gibt mit
x = λy
bzw.
y = µ x.
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
361
Betrachten wir zunächst ein Besipiel.
Beispiel 11.31. (lineare Unabhängigkeit zweier Vektoren) Die beiden Vektoren
 
 
−1
2
−1
5


und
y=
x=
 1
7
0
3
sind linear unabhängig, weil keiner der beiden Vektoren ein Vielfaches des anderen Vektors
ist.
Wichtig ist zu beachten, dass Lemma 11.30 (ii) nur für die lineare Unabhängigkeit
von zwei Vektoren gilt. Wollen wir die lineare Unabhängigkeit von drei oder
mehr Vektoren a1 , a2 , . . . , am ∈ Rn überprüfen, so reicht es nicht zu untersuchen, ob
es ein λ ∈ R geben kann mit aj = λ ak für zwei verschiedene Vektoren aj und ak . Finden
wir ein solches λ, so wissen wir zwar, dass a1 , a2 , . . . , am linear abhängig sind. Finden
wir aber kein solches λ, so dürfen wir daraus nicht schließen, dass a1 , a2 , . . . , am linear
unabhängig sind! Das nächste Beispiel erläutert diesen Sachverhalt.
Beispiel 11.32. (lineare Abhängigkeit) In Beispiel 11.29 haben wir gezeigt, dass die
drei Vektoren
 
 
 
1
0
1





a1 = −1 ,
a2 = 2 ,
a3 = 1
0
1
1
linear abhängig sind. Trotzdem ist keiner dieser Vektoren ein Vielfaches eines der übrigen
Vektoren.
Als Abschluss beweisen wir Lemma 11.30.
Beweis von Lemma 11.30. Wir bemerken zunächst, dass man Aussage (ii) in Lemma
11.30 direkt durch Negation von Aussage (i) erhält. Also reicht es, Aussage (i) zu beweisen.
Beweis von (i): Da es sich um eine genau dann wenn“-Aussage handelt müssen wir beide
”
Implikationen der Aussage (i) beweisen.
Beweis von ⇒“: Seien die Vektoren x und y linear abhängig. Dann gibt es α, β ∈ R, die
”
nicht beide gleich Null sind, mit
α x + β y = 0.
Für den Fall α 6= 0 können wir diese Gleichung nach x auflösen:
β
⇐⇒
x = − y,
α x = −β y : α
α
und wir haben x = λ y mit λ = −β/α.
Für den Fall β 6= 0 können wir die obige Gleichung nach y auflösen:
α
β y = −α x : β
⇐⇒
y = − x,
β
362
11.4. Teilräume, Basis und Dimension
und wir haben y = µ x mit µ = −α/β.
Beweis von ⇐“: Es gebe eine Konstante λ ∈ R mit x = λ y oder es gebe eine Konstante
”
µ ∈ R mit y = µ x. Dann haben wir
x −λy = 0
bzw.
µ x − y = 0.
Aus jeder dieser Gleichungen folgt direkt, dass die Vektoren x und y linear abhängig sind,
denn die Gleichung
λ1 x + λ2 y = 0
hat die nicht-triviale Lösung (λ1 = 1 und λ2 = −λ) bzw. (λ1 = µ und λ2 = −1).
11.4
Teilräume, Basis und Dimension
Wir wollen nun den Begriff eines Teilraumes von Rn und anschließend den Begriff einer
Basis einführen. Zuletzt definieren wir die Dimension mir Hilfe einer Basis.
Auch zum Begriff des Teilraumes betrachten wir zunächst ein Beispiel.
Beispiel 11.33. ((x1 , x2 )-Ebene als Teilraum von R3 ) Die Ebene

 

 
 
x1
x1 
 

3 



E = x = x2 x1 , x2 ∈ R = x = x2 ∈ R x3 = 0

 

x3
0 ist ein Beispiel eines sogenannten Teilraumes“ von R3 . Die zweite Darstellung von E
”
macht dies deutlicher, denn hier wird E als Teilmenge von R3 dargestellt.
Was charakterisiert aber einen Teilraum im Gegensatz zu einer Teilmenge?
Nehmen wir zwei beliebige Vektoren x und y aus E und bilden eine beliebige Linearkombination dieser Vektoren, also
 
  
 

x1
y1
λ x1 + µ y1
λ x1 + µ y1
λ x + µ y = λ x2  + µ y2  = λ x2 + µ y2  = λ x2 + µ y2
0
0
λ0+µ0
0
so erhalten wir wieder einen Vektor, der in E liegt.
Dass die im letzten Beispiel erläuterte Eigenschaft eines Teilraumes nicht für jede interessante Teilmenge des Vektorraumes R3 gegeben ist, zeigt das nächste Beispiel.
Beispiel 11.34. (Gerade, die nicht durch den Ursprung 0 geht) Betrachten wir
die Menge aller Punkte auf der Geraden durch die Punkte
 
 
1
0



1 ,
a= 1
und
b=
1
−1
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
363
also
   



0
1−0

 y1






y2 =
1 +λ
1−1
G = y = b + λ (a − b) λ ∈ R =
λ ∈ R

y3
−1
1 − (−1) 
   
   

 
λ
0
1 
  y1
 y1
 λ∈R
1
= y2  =  1 + λ 0 λ ∈ R = y2  = 

 

y3
−1 + 2 λ y3
−1
2 



λ


3 

1
mit λ ∈ R .
= y∈R y=


−1 + 2 λ
An der ersten Darstellung von G sieht man, dass alle Vektoren in G Linearkombinationen
von a und b der Form
y = b + λ (a − b) = b + λ a − λ b = λ a + (1 − λ) b
sind. Dies sind aber spezielle Linearkombinationen, und die Linearkombination
    
  
1
0
1+0
1







1 = 1 + 1 = 2
x=a+b= 1 +
1
−1
1−1
0
gehört nicht zu G. In der Tat, setzen wir (mit Hilfe der letzten Darstellung von G)
  

1
λ
,
1
x = a + b = 2 = 
0
−1 + 2 λ
so erhalten wir für die zweite Komponente die unerfüllbare Bedingung 2 = 1.
Nun definieren wir den Begriff eines Teilraumes mathematisch.
Definition 11.35. (Teilraum/Unterraum von Rn ) Eine Teilmenge V ⊂ Rn heißt ein
Teilraum von Rn (oder ein Unterraum von Rn ), wenn Addition und Multiplikation
mit Skalaren nicht aus V herausführt, d.h. wenn gilt:
Aus
x, y ∈ V
und
λ, µ ∈ R folgt λ x + µ y ∈ V.
(11.26)
Will man überprüfen, ob eine gegebene Teilmenge V von Rn ein Teilraum von Rn ist, so
muss man überprüfen, ob die Bedingung (11.26) erfüllt ist.
Betrachten wir hierzu noch drei Beispiele.
Beispiel 11.36. (Geraden in R2 )
(a) Jede Gerade in R2 , die durch den Ursprung/Nullpunkt 0 geht, ist ein Teilraum von R2 .
In der Tat hat eine Gerade durch den Nullpunkt die Darstellung
V = z = 0 + λ (x − 0) λ ∈ R = z = λ x λ ∈ R
364
11.4. Teilräume, Basis und Dimension
für einen beliebigen Punkt/Vektor x 6= 0, der auf der Geraden liegt. Also gilt für zwei
beliebige z, y ∈ V , also z = λ1 x und y = λ2 x, und für beliebige µ1 , µ2 ∈ R
µ1 z + µ2 y = µ1 (λ1 x) + µ2 (λ2 x) = (µ1 λ1 + µ2 λ2 ) x = λ x ∈ V.
{z
}
|
=λ
(b) Jede Gerade, die nicht durch den Ursprung/Nullpunkt 0 geht, ist kein Teilraum
von R2 . In der Tat ist eine Gerade, die nicht durch den Ursprung/Nullpunkt 0 geht,
durch
W = z = y + λ (x − y) λ ∈ R = z = λ x + (1 − λ) y λ ∈ R
gegeben, wobei die beiden Punkte/Vektoren x, y auf der Geraden liegen und linear unabhängig sind und keiner der beiden Vektoren x und y als der Nullvektor gewählt werden
kann. Betrachten wir nun den Punkt z = x + y, der eine Linearkombination von x und y
ist. Falls W ein Teilraum von R2 ist, so muss z = x + y in W liegen, d.h. wir müssen ein
λ ∈ R finden, so dass gilt
z = x + y = λ x + (1 − λ) y
⇐⇒
(1 − λ) x + 1 − (1 − λ) y = 0.
|
{z
}
=λ
Daraus folgt aber wegen der linearen Unabhängigkeit von x und y, dass 1 − λ = 0 und
λ = 0 gelten muss. Die beiden Bedingungen sind aber nicht gleichzeitig erfüllbar sondern
führen jeweils auf λ = 1 bzw. λ = 0. Also ist die Linearkombination z = x + y nicht in
W , und wir haben nachgewiesen, dass W kein Teilraum ist.
Dass der Vektor x + y nicht in W liegen kann, kann man sich auch leicht geometrisch klar
machen; siehe dazu Abbildung 11.6.
x2
x+y
1
0
0
1
W
y
x
V
x1
Abb. 11.6: Illustration zum Beispiel 11.36: Man sieht in der Zeichnung direkt, dass in Fall
(b) die Linearkombination x + y einen Punkt liefert, der nicht auf der Geraden liegt.
Beispiel 11.37. (Ebene in R3 ) Die Teilmenge V ⊂ R3 ,


 
x1


V = x = x2  ∈ R3 x1 + x2 + x3 = 0


x3
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
365
ist ein Teilraum des R3 . Genauer handelt es sich dabei um eine Ebene in R3 . Dies sieht
man wie folgt: Seien x, y ∈ V und λ, µ ∈ R beliebig, und setze
 
 
  

z1
x1
y1
λ x1 + µ y1
z = z2  = λ x + µ y = λ x2  + µ y2  = λ x2 + µ y2 .
z3
x3
y3
λ x3 + µ y3
Um zu überprüfen, ob z in V liegt, müssen wir untersuchen, ob z1 + z2 + z3 = 0 erfüllt
ist. Es gilt aber
z1 + z2 + z3 = (λ x1 + µ y1) + (λ x2 + µ y2) + (λ x3 + µ y3)
= λ (x1 + x2 + x3 ) +µ (y1 + y2 + y3 ) = 0,
|
{z
}
{z
}
|
=0
=0
weil x1 + x2 + x3 = 0 und y1 + y2 + y3 = 0 ist (da x, y ∈ V ). Also ist die beliebige
Linearkombination z = λ x + µ y in V , und wir haben nachgewiesen, dass V ein Teilraum
von R3 ist.
Wie sieht man, dass es sich bei V um eine Ebene in R3 handelt? Schreiben wir die
Bedingung x1 + x2 + x3 = 0 als
x3 = −x1 − x2 ,
so können wir V auch folgendermaßen darstellen:

 


 
x1
x1 
 

 x1 , x2 ∈ R
V = x = x2  x3 = −x1 − x2 mit x1 , x2 ∈ R =  x2

 

−x1 − x2 x3 
   

 
 

1
x1
0 0 
 









0 + x2
0 +
1 x1 , x2 ∈ R ,
x2 x1 , x2 ∈ R = x1
=

 

−1
−x1
−1 −x2 und wir sehen, dass der Teilraum V alle Linearkombinationen der beiden Vektoren
 
 
1
0
b1 =  0
und
b2 =  1
−1
−1
enthält. Da diese beiden Vektoren linear unabhängig sind, ist V eine Ebene durch den
Ursprung/Nullpunkt 0, die von diesen beiden Vektoren aufgespannt wird.
Beispiel 11.38. ({0} und Rn als Teilräume von Rn ) Der Nullraum V = {0} und der
Vektorraum V = Rn selber sind jeweils Teilräume von Rn . Dass die Teilraumeigenschaft
(11.26) hier erfüllt ist, kann man jeweils direkt ohne Rechnung sehen.
Bei einer Basis von Rn handelt es sich um ein System von Vektoren mit der Eigenschaft,
dass man jeden Vektor in Rn eindeutig als Linearkombination dieser Vektoren darstellen
kann. Betrachten wir zunächst ein Beispiel.
366
11.4. Teilräume, Basis und Dimension
Beispiel 11.39. (Basen für R2 )
(a) Jedes Element x ∈ R2 lässt sich eindeutig als Linearkombination der beiden Vektoren
0
1
und
e2 =
e1 =
1
0
darstellen, denn
0
1
0
x1
x1
= x1 e1 + x2 e2 .
+ x2
= x1
+
=
x=
1
0
x2
0
x2
Das System {e1 , e2 } bildet eine Basis von R2 .
(b) Ebenso lässt sich jedes Element in x ∈ R2 eindeutig durch die Vektoren
1
1
und
b2 =
b1 =
−1
1
darstellen, denn aus dem Ansatz
λ+µ
1
1
x1
=
+µ
= λ b1 + µ b2 = λ
x=
λ−µ
−1
1
x2
folgen die beiden Gleichungen
λ + µ = x1
=⇒
λ − µ = x2
also
λ=
x1 + x2
2
2 λ = x1 + x2
und
µ=
und 2 µ = x1 − x2 ,
x1 − x2
.
2
Also gilt
x1 + x2
x1 − x2
x1 − x2
x1 + x2 1
x1
1
=
x=
+
.
b1 +
b2 =
x2
1
−1
2
2
2
2
Das System von Vektoren {b1 , b2 } bildet ebenfalls eine Basis von R2 .
(c) Betrachten wir dagegen die drei Vektoren
0
1
,
a2 =
a1 =
1
0
und
1
,
a3 =
1
dann können wir auch jeden Vektor x ∈ R2 als Linearkombination von a1 , a2 , a3 darstellen.
Dies ist klar, denn wir können nach (a) schon jeden Vektor in R2 als Linearkombination
von a1 und a2 darstellen (also wählen wir einfach den Koeffizienten von a3 in der Linearkombination als 0). Die Darstellung eines Vektors x ∈ R2 als Linearkombination der
Vektoren a1 , a2 , a3 ist aber nicht mehr eindeutig, denn beispielsweise ist der Vektor a3
auf die zwei folgenden Arten als Linearkombination darstellbar:
a3 = 0 a1 + 0 a2 + 1a3
und
Daher ist {a1 , a2 , a3 } keine Basis von R2 .
a3 = 1 a1 + 1 a2 + 0 a3 .
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
367
(d) Machen wir uns noch klar, dass man die Bedingung, dass die Koeffizienten in
der Linearkombination eindeutig bestimmt sind, auch mit Hilfe der linearen
Unabhängigkeit ausdrücken kann: Wir betrachten dabei wieder R2 .
Sind die Koeffizienten in der Darstellung
x = λ b1 + µ b2
(wie in (a) und (b)) eindeutig bestimmt, so können wir insbesondere den Nullvektor 0
nur als
0 = λ b1 + µ b2
mit
λ=µ=0
darstellen, d.h. die Vektoren b1 , b2 sind linear unabhängig. Umgekehrt kann man aus der
linearen Unabhängigkeit von b1 , b2 auch folgern, dass sich jeder Vektor x eindeutig als
Linearkombination dieser Vektoren darstellen lässt.
Lässt sich dagegen x wir in (c) auf mehrere Weisen
x = λ b1 + µ b2 + κ b3
und
x = α b1 + β b2 + γ b3 ,
mit λ 6= α oder µ 6= β oder κ 6= γ, als Linearkombination der Vektoren b1 , b2 , b3 darstellen, so folgt durch subtrahieren der beiden Gleichungen
0 = (λ − α) b1 + (µ − β) b2 + (κ − γ) b3
mit λ 6= α oder µ 6= β oder κ 6= γ, d.h. λ − α 6= 0 oder µ − β 6= 0 oder κ − γ 6= 0. Also sind
b1 , b2 , b3 linear abhängig. Sind umgekehrt b1 , b2 , b3 linear abhängig, so kann man einen
dieser drei Vektoren als Linearkombination der beiden anderen schreiben. Daraus folgert
man leicht, dass es für x mehrere verschiedene Darstellungen als Linearkombination von
b1 , b2 , b3 geben muss.
Die Überlegungen in Beispiel 11.39 (d) motivieren, warum in der nachfolgenden Definition einer Basis von Rn (und allgemeiner der Basis eines Teilraumes von Rn ) nicht von
eindeutig bestimmten Koeffizienten in der Linearkombination sondern von der linearen
Unabhängigkeit der Vektoren der Basis die Rede ist.
Definition 11.40. (Basis eines Teilraumes von Rn ) Sei V ein Teilraum des Rn , der
nicht der Nullraum {0} ist. Ein System/eine Menge {b1 , b2 , . . . , bm } von Vektoren in V
heißt eine Basis von V , wenn die folgenden zwei Bedingungen beide gelten:
(i) Die Vektoren b1 , b2 , . . . , bm sind linear unabhängig.
(ii) Jedes x ∈ V ist als eine Linearkombination der b1 , b2 , . . . , bm darstellbar.
Da Rn auch ein Teilraum von Rn ist, gilt die obige Definition insbesondere für den euklidischen Vektorraum V = Rn selber: {b1 , b2 , . . . , bm } ⊂ Rn ist eine Basis von Rn ,
wenn gilt: (i) Die Vektoren b1 , b2 , . . . , bm sind linear unabhängig, und (ii) jedes x ∈ Rn
ist als eine Linearkombination der b1 , b2 , . . . , bm darstellbar.
Betrachten wir nun einige Beispiele.
368
11.4. Teilräume, Basis und Dimension
Beispiel 11.41. (Basen von Rn )
(a) Basen von R2 : In Beispiel 11.39 haben wir bereits gesehen, dass
( )
0
1
,
{e1 , e2 } =
1
0
|{z} |{z}
= e1 = e2
(11.27)
eine Basis von R2 ist. Ebenso haben wir gesehen, dass
( )
1
1
{b1 , b2 } =
,
1
−1
|{z} | {z }
= b1 = b2
eine Basis von R2 ist. Man sieht hieran, das R2 (und allgemeiner auch jeder Teilraum von
Rn , außer dem Nullraum V = {0}) mehr als eine Basis besitzt.
(b) In Beispiel 11.39 haben wir ebenfalls gesehen, dass {a1 , a2 , a3 }, mit
1
0
1
,
und
a3 =
,
a2 =
a1 =
1
1
0
keine Basis von R2 ist, denn die Bedingung (i) der linearen Unabhängigkeit der Vektoren
ist wegen
a3 = a1 + a2
⇐⇒
a1 + a2 − a3 = 0
verletzt.
(c) Das System {a} mit
1
a=
1
ist keine Basis von R2 , denn die Bedingung (ii) in Definition 11.40 ist verletzt. (Z.B. können
wir den Vektor
1
x=
0
nicht als Linearkombination x = λ a mit einem geeigneten λ ∈ R darstellen.)
(d) Basis von Rn : In einer Verallgemeinerung der Basis (11.27) ist {e1 , e2 , . . . , en } mit
 
 
 
 
0
0
0
1
0
0
1
0
 
 
 
 
0
1
0
0
 
 
 
 
 
 
 
 
...,
en = 0
e3 = 0 ,
e2 = 0 ,
e1 = 0 ,
 ..
 ..
 ..
 ..
 .
 .
 .
 .
 
 
 
 
0
0
0
0
1
0
0
0
eine Basis für Rn . Dabei tritt in ek die 1 als die kte Komponente auf, und alle anderen
Komponenten von ek haben den Wert 0. Man nennt {e1 , e2 , . . . , en } die Standardbasis
von Rn oder die kanonische Basis von Rn
11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
369
Dass {e1 , e2 , . . . , en } eine Basis von Rn ist, sieht man wie folgt: Für beliebiges x ∈ Rn gilt

    
 
x1
x1
0
0
 x2   0  x2 
 0

    
 
 x3   0   0 
 0

    
 
x =  ..  =  ..  +  ..  + . . . +  .. = x1 e1 + x2 e2 + . . . + xn en .
 .  . .
 .

    
 
xn−1   0   0 
 0
xn
0
0
xn
Also ist (ii) in Definition 11.40 erfüllt. Weiter folgt aus
 
 
0
1
1
0
 
 
0
0
 
 
λ1 e1 + λ2 e2 + . . . + λn en = λ1  .. + λ2  .. + . . . + λn
 .
 .
 
 
0
0
0
0
dass


λ1
 λ2 
 
 ..  = 0
.
=⇒
   
0
0
0 0
   
0 0
   
 .. =  .. = 0,
 .  .
   
0 0
0
1
λ1 = λ2 = . . . = λn = 0
λn
gilt, und damit haben wir die lineare Unabhängigkeit der Vektoren (Bedingung (i) in
Definition 11.40) nachgewiesen.
Beispiel 11.42. (Gerade durch den Ursprung/Nullpunkt) Eine Gerade in Rn durch
den Ursprung/Nullpunkt 0, also


 


a
1






 a2   
G = λ a = λ  ..  λ ∈ R


.






an (mit a 6= 0) ist ein Teilraum von Rn , denn es gilt für zwei beliebige x, y ∈ G, mit x = λ1 a
und y = λ2 a, und zwei beliebige α, β ∈ R, dass
α x + β y = α λ1 a + β λ2 a = (α λ1 + β λ2 ) a ∈ G.
Per Definition lässt sich jedes y ∈ G als y = λ a mit einem geeigneten λ ∈ R darstellen.
Weiter folgt aus λ a = 0, dass λ = 0 gelten muss, da a 6= 0 ist. Also ist a linear unabhängig.
Das System {a} ist somit eine Basis für G.
Beispiel 11.43. (Basis einer Ebene in R3 ) In Beispiel 11.37 haben wir gesehen, dass


 
x1


V = x = x2  ∈ R3 x1 + x2 + x3 = 0


x3
370
11.4. Teilräume, Basis und Dimension
ein Teilraum des R3 ist. Weiter haben wir gezeigt, dass wir V auch folgendermaßen darstellen können:
  

 
1
0 

V = x1  0 + x2  1 x1 , x2 ∈ R .


−1
−1 An dieser Darstellung sieht man, dass wir jeden Vektor in V als Linearkombination von
 
 
1
0



b1 =
0
und
b2 =
1
−1
−1
schreiben können. Diese beiden Vektoren sind linear unabhängig, denn aus
 
  
  
1
0
λ1
0







0 + λ2
1 =
λ2
λ1 b1 + λ2 b2 = λ1
= 0 = 0
−1
−1
−λ1 − λ2
0
folgt direkt λ1 = λ2 = 0. Daher ist {b1 , b2 } eine Basis von der Ebene V .
Im nachfolgenden Lemma halten wir noch zwei wichtige Eigenschaften von Basen fest.
Lemma 11.44. (Eigenschaften einer Basis) Sei V ein Teilraum von Rn . Dann gelten
folgende Aussagen:
(i) Das System {b1 , b2 , . . . , bm } ⊂ V ist genau dann eine Basis von V , wenn jedes
x ∈ V eine eindeutige Darstellung als Linearkombination der b1 , b2 , . . . , bm hat.
(ii) Jede Basis von V hat die gleiche Anzahl von Elementen.
Die Informationen aus dem letzten Lemma machen die nachfolgende Definition sinnvoll.
Definition 11.45. (Dimension eines Teilraums von Rn ) Sei V ein Teilraum des
Rn . Ist V 6= {0}, so bezeichnet man als Dimension von V , abgekürzt mit dim(V ), die
Anzahl der Elemente einer Basis von V . Für den Nullvektorraum V = {0} setzt man
dim(V ) = 0.
Betrachten wir dazu einige Beispiele.
Beispiel 11.46. (Dimension von Teilräumen von Rn )
(a) Aus Beispiel 11.41 (d) sehen wir, dass Rn die Standardbasis {e1 , e2 , . . . , en } hat. Also
hat Rn die Dimension dim(Rn ) = n.
(b) In Beispiel 11.42 haben wir gesehen, dass eine Gerade in Rn durch den Ursprung/Nullpunkt
0, also


 


a1 





 a2   
G = λ a = λ  ..  λ ∈ R


.






an 11. Vektoren im euklischen Vektorraum Rn und ihre Eigenschaften
371
(mit a 6= 0), ein Teilraum von Rn mit der Basis {a} ist. Also hat G die Dimension
dim(G) = 1.
(c) In Beispiel 11.43 haben wir gesehen, dass die Ebene


 
x1


3 

V = x = x2 ∈ R x1 + x2 + x3 = 0


x3
ist ein Teilraum des R3 mit der Basis
{b1 , b2 }
mit


1
b1 =  0
−1
und
ist. Also hat die Ebene V die Dimension dim(V ) = 2.


0
b2 =  1
−1
Abschließend halten wir noch einen nützlichen Satz fest und betrachten zwei Beispiele,
um zu zeigen, wir man den Satz anwendet.
Satz 11.47. (Basis, Dimension und lineare Unabhängigkeit)
(i) In einem Teilraum V von Rn mit Dimension dim(V ) = m sind k Vektoren immer
linear abhängig, wenn gilt k > m.
(ii) In einem Teilraum V von Rn mit Dimension dim(V ) = m bilden m linear unabhängige Vektoren immer eine Basis von V .
Beispiel 11.48. (Anwendung von Satz 11.47) Wir wissen, dass gilt dim(R4 ) = 4.
Nach Satz 11.47 (i) sind daher die fünf Vektoren
 
 
 
 
 
0
−1
7
1
1
 1
 3
13
1
2





und
a5 = 
a4 = 
a3 = 
a2 = 
a1 = 
−3 .
−7
 4 ,
1 ,
3 ,
7
22
2
1
4
linear abhängig. Insbesondere bilden sie keine Basis von R4 .
Beispiel 11.49. (Anwendung von Satz 11.47) Betrachten wir die drei Vektoren
 
 
 
0
1
0





b1 = 2 ,
b2 = 0
und
b3 = −1
3
1
0
in R3 . Aus
 
 
  

0
1
0
λ2
0 = λ1 b1 + λ2 b2 + λ3 b3 = λ1 2 + λ2 0 + λ3 −1 = 2 λ1 − λ3 
3
1
0
3 λ1 + λ2
372
11.4. Teilräume, Basis und Dimension
folgt das linear Gleichungssystem:
λ2
2 λ1
− λ3
3 λ1 + λ2
= 0
= 0
= 0
Aus der ersten Gleichung können wir direkt λ2 = 0 ablesen, und aus der dritten Gleichung
folgt somit λ1 = −λ2 /3 = 0. Aus der zweiten Gleichung können wir nun schließlich ablesen
λ3 = 2 λ1 = 0. Also ist λ1 = λ2 = λ3 = 0 die einzige Lösung, und die drei Vektoren
b1 , b2 , b3 sind linear unabhängig. Wegen dim(R3 ) = 3 folgt aus Satz 11.47 (ii), dass
{b1 , b2 , b3 } eine Basis für R3 ist.
Kapitel 12
Matrizen
In diesem Kapitel lernen wir Matrizen kennen. Ähnlich wie bei Vektoren handelt es sich bei
Matrizen um eine rechteckige Anordnung“ von reellen Zahlen. Genauer sind Vektoren ein
”
Sonderfall von Matrizen, und in diesem Kapitel werden wir dann auch sehen, dass es einen
Unterschied macht, ob wir Zeilenvektoren oder Spaltenvektoren betrachten. Wie Vektoren
kann man Matrizen addieren und mit reellen Zahlen multiplizieren. Man kann aber auch
Matrizen miteinander multiplizieren, so dass man als Ergebnis wieder eine Matrix erhält.
Dies geht nur, wenn die Typen der beiden miteinander zu multiplizierenden Matrizen
zueinander passen“ – wir werden noch sehen, was dieses genau bedeutet. Hier sei aber
”
bereits festgehalten, dass die Multiplikation nicht definiert ist, indem man (wie bei der
Addition von Vektoren und Matrizen) Einträge an der gleichen Stelle der Anordnung
miteinander multipliziert.
In Kapitel 13 werden wir uns mit linearen Gleichungssystemen befassen, die Ihnen vermutlich aus dem Schulunterricht vertraut sind. Wir werden sehen, dass man solche linearen
Gleichungssysteme mit Hilfe von Matrizen und der Multiplikation von Matrizen bequem
darstellen und lösen kann.
12.1
Matrizen: Einführende Beispiele
Betrachten wir zunächst ein paar Beispiele von Matrizen und rechnen mit diesen ganz
analog zu unserer Vorgehensweise bei Vektoren.
Bei der rechteckigen Anordnung“
”
A=
1 2 3
4 5 6
(12.1)
handelt es sich um eine sogenannte 2 ×3-Matrix. Dabei steht 2 ×3 dafür, dass es 2 Zeilen
und 3 Spalten gibt.
7 −2 5
B=
(12.2)
4 −5 2
373
374
12.1. Matrizen: Einführende Beispiele
ist also ebenfalls eine 2 × 3-Matrix. Dagegen ist


3
9
C = 6 −2
8 −1
(12.3)
eine 3 × 2-Matrix, da 3 Zeilen und 2 Spalten vorliegen. Natürlich können wir auch
quadratische“ Matrizen mit gleichviel Zeilen wie Spalten haben. So sind
”


1
0
−1
10
 2 −1 −3
7
1 2

und
E=
D=

4
2
0 −5
3 4
−1 −7
3
2
eine 2 × 2-Matrix und eine 4 × 4-Matrix.
Wir trachten noch zwei spezielle Fälle, nämlich die Nullmatrix und die Einheitsmatrix,
wobei die letztere nur für quadratische Matrizen auftritt. Wie der Name anzeigt, hat die
Nullmatrix nur Nullen als Einträge. So ist z.B. die 2 × 4-Nullmatrix
0 0 0 0
.
O=
0 0 0 0
Die Einheitsmatrix ist quadratisch“ und hat auf der Diagonale“ von links oben nach
”
”
rechts unten immer die Zahl 1; alle anderen Einträge sind Null. So ist z.B. die 5 × 5Einheitsmatrix


1 0 0 0 0
0 1 0 0 0



I5 = 
0 0 1 0 0 .
0 0 0 1 0
0 0 0 0 1
Zuletzt betrachten wir noch den Sonderfall der Zeilen- und Spaltenvektoren. Bei
den Zeilenvektoren
x = (1, 2, 3) ∈ R3
und
y = (y1 , y2, . . . , yn ) ∈ Rn
handelt es sich in der neuen Terminologie um eine 1×3-Matrix bzw. um eine 1×n-Matrix.
Betrachtet man statt dessen die Spaltenvektoren
 
y1
 
1
 y2 
 
x = 2 ∈ R3
und
y =  ..  ∈ Rn ,
.
3
yn
so handelt es sich in der neuen Terminologie um eine 3 × 1-Matrix bzw. um eine n × 1Matrix.
Wenn wir fragen, ob zwei Matrizen gleich sind, dann ist diese Frage natürlich überhaupt nur dann sinnvoll, wenn es sich um Matrizen handelt, die jeweils die gleiche Anzahl
Zeilen und auch die gleiche Anzahl Spalten haben. Für die beiden Matrizen A und B in
12. Matrizen
375
(12.1) und (12.2) können wir also fragen, ob diese gleich sind. Dies ist natürlich nicht der
Fall, da sie nicht die gleichen Einträge (an den gleichen Stellen) haben. Auch die Matrizen
1 2 2
1 2 2
(12.4)
und
G=
F =
1 2 2
2 1 2
sind nicht gleich, denn z.B. der Eintrag in der zweiten Zeile und ersten Spalte ist unterschiedlich (2 bei der Matrix F und 1 bei der Matrix G). Dagegen sind die Matrizen
1 0 2
(−1)2
0
2
H=
und
K=
0 1 0
0
(−1)2 0
gleich, da (−1)2 = 1 gilt.
Wir wollen nun Matrizen analog zu Vektoren addieren und mit reellen Zahlen multiplizieren. Bei Vektoren haben wir gelernt, dass wir zwei Vektoren nur addieren können, wenn
beide Vektoren in Rn (mit dem gleichen n) liegen, also wenn beide Vektoren gleich viele
Komponenten haben. Also erwarten wir, dass wir auch nur zwei Matrizen, die beide dieselbe Anzahl an Zeilen haben und die beide dieselbe Anzahl an Spalten haben, addieren
können. Addieren wir beispielsweise die Matrizen A und B aus (12.1) und (12.2):
1 2 3
7 −2 5
1 + 7 2 + (−2) 3 + 5
8 0 8
A+B =
+
=
=
.
4 5 6
4 −5 2
4 + 4 5 + (−5) 6 + 2
8 0 8
Wir addieren die Matrizen also, indem wir einfach die Einträge an der gleichen
Position addieren. Analog können wir auch Matrizen subtrahieren. So ist z.B. F − G
für die 2 × 3-Matrizen F und G aus (12.4) gegeben durch
1 2 2
1 2 2
1−1 2−2 2−2
0
0 0
F −G =
−
=
=
.
2 1 2
1 2 2
2−1 1−2 2−2
1 −1 0
Für den Fall von n×1-Matrizen, also Spaltenvektoren in Rn , ist dies nichts weiter als unsere normale Addition bzw. Subtraktion von Vektoren. Für den Fall von 1×n-Matrizen, also
Zeilenvektoren in Rn , ist dies ebenso lediglich unsere normale Addition bzw. Subtraktion
von Vektoren.
Nun wollen wir Matrizen mit einer reellen Zahl multiplizieren. Auch dies geschieht
analog zu Vektoren. Einen Vektor haben wir mit einer reellen Zahl λ multipliziert, indem
wir jeden Eintrag des Vektors mit λ multipliziert haben. Ebenso multipliziert man eine
Matrix mit einer reellen Zahl λ, indem man jeden Eintrag der Matrix mit λ multipliziert.
So ist z.B. für die Matrix A aus (12.1)
1 2 3
3·1 3·2 3·3
3 6 9
3·A = 3A = 3·
=
=
.
4 5 6
3·4 3·5 3·6
12 15 18
Für die Matrix C aus (12.3) finden wir

 
 

3
9
(−2) · 3
(−2) · 9
−6 −18
4 .
(−2) · C = −2 C = (−2) · 6 −2 = (−2) · 6 (−2) · (−2) = −12
8 −1
(−2) · 8 (−2) · (−1)
−16
2
376
12.1. Matrizen: Einführende Beispiele
Wir multiplizieren Matrizen also mit einer Zahl λ ∈ R, indem wir jeden Eintrag
der Matrix mit der Zahl λ multiplizieren. Ein Sonderfall hiervon ist die Multiplikation von (Zeilen- oder Spalten-)Vektoren mit reellen Zahlen.
Was hat es nun mit der Multiplikation von Matrizen auf sich?
Diese ist komplizierter und geschieht nicht, indem man einfach die Einträge an der gleichen Position multipliziert. Eine Kernidee bei der Multiplikation von Matrizen haben wir
aber schon im vorigen Kapitel kennengelernt, nämlich das euklidische Skalarprodukt
zweier Vektoren x und y in Rn . Dieses haben wir auf zwei Arten definiert, wobei wir zu
seiner Berechnung die zweite Formel aus Definition 11.10 verwenden:
hx, yi =
n
X
xk yk = x1 y1 + x2 y2 + . . . + xn yn .
k=1
Wir wollen diese Formel nun als Multiplikation des Zeilenvektors x mit dem Spaltenvektor y interpretieren: also
 
y1
n
 y2  X
 
xk yk = x1 y1 + x2 y2 + . . . + xn yn .
(x1 , x2 , . . . , xn )  ..  =
 .  k=1
yn
Haben wir nun zwei geeignete“ Matrizen, z.B. die 2 × 3-Matrix A in (12.1) und die
”
folgende 3 × 3-Matrix


1
0 −1
2
L = 0 −1
1
1 −1
vorgegeben, so können wir eine Produktmatrix


1
0 −1
1 2 3 
0 −1
2
A· L = AL =
4 5 6
1
1 −1
(12.5)
definieren, indem wir jeden Zeilenvektor der ersten Matrix mit jedem Spaltenvektor der
zweiten Matrix multiplizieren. Dies geht natürlich nur wenn die Zeilenvektoren der
ersten Matrix und die Spaltenvektoren der zweiten Matrix die gleiche Anzahl
von Komponenten haben. Dies ist in unserem Beispiel aber der Fall, denn wir multiplizieren die 2 × 3-Matrix A mit der 3 × 3-Matrix L. Allgemeiner können wir Produkte
A B von Matrizen bilden, bei denen A eine ℓ × m-Matrix und B eine m × n-Matrix ist.
Was für eine Matrix erhalten wir als Resultat unserer Multiplikation, und wo tragen wir
welches Ergebnis der Multiplikation eines Zeilenvektors mit einem Spaltenvektor ein? –
Da wir in unserem Beispiel (12.5) jeden der 2 Zeilenvektoren von A mit jedem der 3 Spaltenvektoren von L multiplizieren, erhalten wir 2 · 3 = 6 Werte eines solchen Produkts, und
wir können diese wie folgt in einer 2 × 3-Matrix festhalten: Wir nehmen das Skalarprodukt des ersten (bzw. zweiten) Zeilenvektors von A mit dem m-ten Spaltenvektor (wobei
m = 1, 2, 3) als Eintrag von A L in der ersten bzw. zweiten Zeile und m-ten Spalte. Also
12. Matrizen
377
finden wir
AL =
=


1
0 −1
1 2 3 
0 −1
2
4 5 6
1
1 −1
1·1+2·0+3·1
4·1+5·0+6·1
4 1 0
=
.
10 1 0
1 · 0 + 2 · (−1) + 3 · 1
4 · 0 + 5 · (−1) + 6 · 1
1 · (−1) + 2 · 2 + 3 · (−1)
4 · (−1) + 5 · 2 + 6 · (−1)
!
Allgemein ist also das Produkt A B einer ℓ × m-Matrix A mit einer m × n-Matrix
B eine ℓ × n-Matrix, und der Eintrag dieser ℓ × n-Matrix in der j-ten Zeile und
k-ten Spalte ist gerade das (Skalar-)Produkt des j-ten Zeilenvektors von A mit
dem k-ten Spaltenvektor von B.
Da es sich bei Spaltenvektoren auch um Matrizen handelt, können wir nun auch eine
ℓ × m-Matrix mit einem Spaltenvektor in Rm , also einer m × 1-Matrix, multiplizieren. Für die 2 × 3-Matrix A in (12.1) und den Spaltenvektor
 
1

x = −1
1
finden wir beispielsweise
 
1
1 2 3  
−1 =
Ax =
4 5 6
1
!
1 · 1 + 2 · (−1) + 3 · 1
4 · 1 + 5 · (−1) + 6 · 1
2
=
.
5
Für die Multiplikation der 2 × 3-Matrix A aus (12.1) mit einem beliebigen Spaltenvektorn
y in R3 finden wir
 
!
!
y1
1
·
y
+
2
·
y
+
3
·
y
y
+
2
y
+
3
y
1
2
3
1
2
3
1 2 3  
y2 =
Ay =
=
.
(12.6)
4 5 6
4
·
y
+
5
·
y
+
6
·
y
4
y
+
5
y
+
6
y
1
2
3
1
2
3
y
3
Betrachten wir nun die Gleichung
Ay = b
mit
b=
−3
7
(12.7)
mit der Matrix A aus (12.6), so sehen wir mit der Rechnung aus (12.6), dass (12.7) das
lineare Gleichungssystem
y1 + 2 y2 + 3 y3 = −3
−3
y1 + 2 y2 + 3 y3
⇐⇒
=
4 y1 + 5 y2 + 6 y3 =
7
7
4 y1 + 5 y2 + 6 y3
ist. Dies illustriert den Zusammenhang zwischen Matrizen und linearen Gleichungssystemen, mit dem wir uns in Kapitel 13 noch ausführlich beschäftigen werden.
378
12.2. Matrizen und Matrizenoperationen
12.2
Matrizen und Matrizenoperationen
Nachdem wir im vorigen Teilkapitel bereits an Beispielen Matrizen und die wesentlichen
Matrizenoperationen (Addition, Multiplikation mit reellen Zahlen und das Matrizenprodukt) kennengelernt haben, wollen wir diese nun mathematisch sauber definieren.
Definition 12.1. (Matrizen) Ein rechteckiges
”
Form

a1,1 a1,2 a1,3
 a2,1 a2,2 a2,3


A =  a3,1 a3,2 a3,3
 ..
..
..
 .
.
.
am,1 am,2 am,3
Schema“ von Elementen aj,k ∈ R der

· · · a1,n
· · · a2,n 

· · · a3,n 
(12.8)

.. 
. 
· · · am,n
mit m Zeilen und n Spalten heißt eine m × n-Matrix. Die Menge aller m × n-Matrizen
(mit Elementen/Einträgen aus R) wird mit Mm,n (R) oder kurz Rm×n bezeichnet. Wir
nutzen die folgende Kurzschreibweise: A = (aj,k ) ∈ Mm,n (R)“ oder A ∈ Mm,n (R) mit
”
”
A = (aj,k )“.
Der Eintrag aj,k steht also in der j-ten Zeile und der k-ten Spalte, d.h. der erste Index
gibt die Zeile an, und der zweite Index gibt die Spalte an. Der Zeilenvektor
(aj,1 , aj,2, aj,3 , . . . , aj,n)
ist die j-te Zeile von A, und der Spaltenvektor


a1,k
 a2,k 


 a3,k 


 .. 
 . 
am,k
ist die j-te Spalte von A.
Für m = n, also wenn die Matrix A in (12.8) genauso viele Zeilen wie Spalten hat, nennen
wie A eine quadratische Matrix.
Betrachten wir ein paar Beispiele.
Beispiel 12.2. (Matrizen)
A=
1 0 2
−1 3 7
und


4
B =  1
−2
sind also eine 2 × 3-Matrix, also A ∈ M2,3 (R), und eine 3 × 1-Matrix, also B ∈ M3,1 (R).
Wenn wir für die obige Matrix A die Einträge der Matrix mit aj,k (also A = (aj,k ))
bezeichnen, dann gilt
a1,1 = 1,
a1,2 = 0,
a1,3 = 2,
a2,1 = −1,
a2,2 = 3,
a2,3 = 7.
12. Matrizen
379
Bei den Matrizen
C = 0 1 −3
und
1 0
D=
0 1
handelt es sich um eine 1×3-Matrix, also C ∈ M1,3 (R), und eine quadratische 2×2-Matrix,
also D ∈ M2,2 (R).
Definition 12.3. (gleiche Matrizen) Zwei Matrizen A = (aj,k ) ∈ Mm,n (R) und B =
(bj,k ) ∈ Mℓ,p (R) sind gleich wenn gilt:
(i) m = ℓ und n = p (d.h. die beiden Matrizen haben jeweils gleich viele Zeilen und
jeweils gleich viele Spalten), und
(ii) aj,k = bj,k für alle j = 1, 2, . . . , m und alle k = 1, 2, . . . , n.
Betrachten wir hierzu ebenfalls ein Beispiel.
Beispiel 12.4. (gleiche Matrizen) Die beiden Matrizen


1 −1
1
1 −1
A = −1
und
B = (bj,k ) ∈ M3,3 (R) mit bj,k = (−1)j+k
1 −1
1
sind gleich, denn es handelt sich in beiden Fällen um 3 × 3-Matrizen, und die Einträge
der beiden Matrizen stimmen überein. Letzteres sieht man, indem man die Einträge von
B explizit berechnet:



 
(−1)2 (−1)3 (−1)4
1 −1
1

 
 
(−1)2+3  = (−1)3 (−1)4 (−1)5  = −1
1 −1 = A.
(−1)1+1 (−1)1+2 (−1)1+3

B = (−1)2+1 (−1)2+2
(−1)3+1 (−1)3+2 (−1)3+3

(−1)4 (−1)5 (−1)6
1 −1
1
Bemerkung 12.5. (Spaltenvektoren und Zeilenvektoren als Matrizen) Jeder Spaltenvektor
 
x1
 x2 
 
x =  .. 
.
xn
in Rn kann als Matrix mit einer Spalte aufgefasst werden, also als eine n × 1-Matrix
(in Mn,1 (R)). Ebenso kann jeder Zeilenvektor
x = (x1 , x2 , . . . , xn )
in Rn als Matrix mit einer Zeile aufgefasst werden, also als eine 1 × n-Matrix (in
M1,n (R)). Im Zusammenhang mit Matrizen ist es sinnvoll, einen (Spalten-)Vektor x ∈ Rn
als eine n × 1-Matrix anzusehen. Warum dies der Fall ist, werden wir noch sehen, wenn
wir das Matrizenprodukt eingeführt haben und lineare Gleichungssysteme betrachten.
380
12.2. Matrizen und Matrizenoperationen
Wir halten noch zwei spezielle Matrizensorten in den nachfolgenden Definition fest.
Definition 12.6. (Nullmatrix und Einheitsmatrix)
(i) Die m × n-Matrix O in der jeder Eintrag eine Null ist nennt man die Nullmatrix
von Mm,n (R).
(ii) Die quadratische n × n-Matrix In , bei der alle Einträge auf der Hauptdiagonalen
(von links oben nach rechts unten) den Wert Eins haben und bei der alle anderen
Einträge den Wert Null haben, nennt man die Einheitsmatrix von Mn,n (R). In
Formeln haben wir also


1 0 ··· 0
. . .. 

. .
0 1
In =  . .
.
.
 .. . . . . 0
0 ··· 0 1
Betrachten wir zwei Beispiele.
Beispiel 12.7. (Nullmatrix) Die Nullmatrizen in M2,3 (R), M3,3 (R) bzw. M2,1 (R) sind


0 0 0
O =  0 0 0
0 0 0
0 0 0
,
O=
0 0 0
0
.
O=
0
bzw.
Beispiel 12.8. (Einheitsmatrix) Die Einheitsmatrizen in M2,2 (R) bzw. M3,3 (R) sind
I2 =
1 0
0 1
bzw.


1 0 0
I3 = 0 1 0 .
0 0 1
Als Nächstes definieren wir die Addition von Matrizen und die Multiplikation einer Matrix
mit einer reellen Zahl (einem Skalar).
Definition 12.9. (Addition und skalare Multiplikation von Matrizen) Seien A, B ∈
Mm,n (R) mit A = (aj,k ), B = (bj,k ), und sei λ ∈ R. Wir definieren die Summe der Matrizen A und B durch
A + B = (aj,k + bj,k ) ∈ Mm,n (R),

a1,1
 a2,1

A + B =  ..
 .
a1,2
a2,2
..
.
···
···
 
b1,1
a1,n


a2,n   b2,1
..  +  ..
.   .
am,1 am,2 · · · am,n
d.h.
b1,2
b2,2
..
.
···
···

b1,n
b2,n 

.. 
. 
bm,1 bm,2 · · · bm,n
12. Matrizen
381

a1,1 + b1,1
 a2,1 + b2,1

=
..

.
a1,2 + b1,2
a2,2 + b2,2
..
.
···
···
a1,n + b1,n
a2,n + b2,n
..
.
am,1 + bm,1 am,2 + bm,2 · · · am,n + bm,n



,

und wir definieren die Multiplikation der Matrix A mit der reellen Zahl λ durch

a1,1
 a2,1

λ A = λ  ..
 .
am,1
λ A = (λ aj,k ) ∈ Mm,n (R),
d.h.

 
λ a1,1 λ a1,2 · · · λ a1,n
a1,2 · · · a1,n


a2,2 · · · a2,n 
  λ a2,1 λ a2,2 · · · λ a2,n 
..  .
..
..  =  ..
..
. 
.
.   .
.
λ am,1 λ am,2 · · · λ am,n
am,2 · · · am,n
Betrachten wir ein paar Beispiele.
Beispiel 12.10. (Addition und skalare Multiplikation von Matrizen) Betrachten
wir die Matrizen






3 −7
−2 −1
1 2
−4 −2
 0
3 4
1



,

und
C
=
B
=
A=
 0 −1 .
 2 −1
5 6
5
9
1
1
7 8
Berechnen wir zuerst −2 A und 3 B, also

 
1 2
(−2) · 1
3 4 (−2) · 3

 
−2 A = (−2) · 
=
5 6 (−2) · 5
(−2) · 7
7 8
 

3 · (−2)
−2 −1


 0
1  3 · 0

3B = 3·
=
 2 −1  3 · 2
3·1
1
1
 
−2
(−2) · 2


(−2) · 4  −6
=
(−2) · 6 −10
−14
(−2) · 8
 
−6
3 · (−1)


3·1   0
=
3 · (−1)  6
3
3·1

−4
−8

,
−12
−16

−3
3

.
−3
3
(12.9)
(12.10)
Nun berechnen wir A + B, B − C und −2 A + 3 B. Dabei realisieren wir B − C als
B + (−1) C, was aber bedeutet, dass wir die Einträge von C jeweils von denen von B
abziehen (wie wir auch intuitiv erwarten).

 
 
 

−1 1
1 + (−2)
2 + (−1)
−2 −1
1 2



3 4  0
4+1 
1
  3 5
  3+0
 

A+B =
,
=
=
+
5 6  2 −1  5 + 2
6 + (−1)  7 5
8 9
7+1
8+1
1
1
7 8

 
 
 

−5
6
−2 − 3
−1 − (−7)
3 −7
−2 −1

 

 0
3
1 − (−2) 
1

  4
 −4 −2 0 − (−4)

B−C =
.
=
=
−
 2 −1  0 −1  2 − 0
0
−1 − (−1)  2
−4 −8
1−5
1−9
5
9
1
1
382
12.2. Matrizen und Matrizenoperationen
Mit den Berechnungen aus (12.9) und (12.10) finden wir
 
 

−2 − 6
−6 −3
−2 −4


 −6 −8  0
3  −6 + 0
 
−2 A + 3 B 
−10 −12 +  6 −3 = −10 + 6
−14 + 3
3
3
−14 −16
schließlich

 
−8 −7
−4 − 3


−8 + 3 
 =  −6 −5 .
−12 − 3  −4 −15
−11 −13
−16 + 3
Wir halten noch allgemein fest, was wir bereits im letzten Beispiel über die Subtraktion
von Matrizen gelernt haben. Wegen A − B = A + (−1) B für zwei m × n-Matrizen
A = (aj,k ) und B = (bj,k ) gilt
A − B = (aj,k − bj,k ) ∈ Mm,n (R),

a1,1
 a2,1

A − B =  ..
 .
a1,2
a2,2
..
.
 
a1,n
b1,1
 b2,1
a2,n 
 
..  −  ..
.   .
···
···
am,1 am,2 · · · am,n

a1,1 − b1,1 a1,2 − b1,2
 a2,1 − b2,1 a2,2 − b2,2

=
..
..

.
.
am,1 − bm,1 am,2 − bm,2
d.h.
b1,2
b2,2
..
.
···
···

b1,n
b2,n 

.. 
. 
bm,1 bm,2 · · · bm,n

· · · a1,n − b1,n
· · · a2,n − b2,n 

.
..

.
· · · am,n − bm,n
Nun führen wir das Matrizenprodukt ein.
Definition 12.11. (Matrizenprodukt) Sei A = (ai,j ) ∈ Mℓ,m (R) eine ℓ × m-Matrix
und B = (bj,k ) ∈ Mm,n (R) eine m × n-Matrix. Wir definieren das Matrizenprodukt
A B als die ℓ × n-Matrix C
A B = C = (ci,k ) ∈ Mℓ,n (R) mit ci,k =
m
X
ai,j bj,k = ai,1 b1,k + ai,2 b2,k + . . . + ai,m bm,k
j=1
für i = 1, 2, . . . , ℓ und k = 1, 2, . . . , n.
Der Eintrag ci,k in der i-ten Zeile und der k-ten Spalte von C = A B ist also das Skalarprodukt der i-ten Zeilenvektors von A,
(ai,1 , ai,2 , . . . , ai,m ),
mit dem k-ten Spaltenvektor von B,


b1,k
 b2,k 


 ..  .
 . 
bm,k
12. Matrizen
383
Ausgeschrieben finden wir:
 m
m
X
X
a1,j bj,1 · · ·
a1,j bj,n

 j=1
j=1


..
..
C = AB = 
.
 m .
m
 X
X

aℓ,j bj,1 · · ·
aℓ,j bj,n
j=1
j=1

 


 
=




c1,1 · · · c1,n
..
..  .
.
. 
cℓ,1 · · · cℓ,n
Bevor wir Beispiele betrachten, halten wir in einer Bemerkung noch zwei wichtige Beobachtungen fest.
Bemerkung 12.12. (Berechnung der Matrizenprodukts)
(1) Voraussetzung für das Matrizenprodukt: Das Matrizenprodukt A B ist nur
dann definiert, wenn die Anzahl der Spalten von A mit der Anzahl der
Zeilen von B übereinstimmt!
(2) Berechnung des Matrizenprodukts: Die Berechnung von C = A B merkt man
sich als Schema Skalarprodukt von Zeilenvektor und Spaltenvektor“, wie
”
in dem folgenden Diagramm illustriert:
m×m
i-te Zeile von A →
(ℓ × m-Matrix)
k-te Spalte von B
(m × n-Matrix)
↓

b1,k


b2,k


..

.

bm,k
 

 

 

 ai,1 ai,2 · · · ai,m  
ci,k
↑
k-te Spalte
von C = A B
(ℓ × n-Matrix)
So findet man die Formel
ci,k = ai,1 b1,k + ai,2 b2,k + . . . + ai,m bm,k ,
die wir aus der Definition 12.11 des Matrizenprodukts kennen.
Nun betrachten wir einige Beispiele.











← i-te Zeile
von C = A B
(ℓ × n-Matrix)
384
12.2. Matrizen und Matrizenoperationen
Beispiel 12.13. (Matrizenprodukt) Betrachten wir die zwei Matrizen


0 −3
1 2 3
und
B= 2
1 .
A=
−2 0 4
−1
4
Dann ist A eine 2 × 3-Matrix, und B ist eine 3 × 2-Matrix. Also können wir sowohl A B
als auch B A berechnen. Die Matrix A B ist eine 2 × 2-Matrix, und wir erhalten


0 −3
1 2 3 
2
1
AB =
−2 0 4
−1
4
1 · 0 + 2 · 2 + 3 · (−1)
=
(−2) · 0 + 0 · 2 + 4 · (−1)
1 11
.
=
−4 22
1 · (−3) + 2 · 1 + 3 · 4
(−2) · (−3) + 0 · 1 + 4 · 4
Die Matrix B A ist eine 3 × 3-Matrix, und wir erhalten


0 −3 1 2 3


2
1
BA =
−2 0 4
−1
4

0 · 1 + (−3) · (−2)
0 · 2 + (−3) · 0

2·2+1·0
=  2 · 1 + 1 · (−2)
(−1) · 1 + 4 · (−2)
(−1) · 2 + 4 · 0


6
0 −12
4
10 .
= 0
−9 −2
13

0 · 3 + (−3) · 4

2·3+1·4 
(−1) · 3 + 4 · 4
Beispiel 12.14. (Matrizenprodukt) Betrachten wir die Matrizen
1 −1
1 2 3
.
und
C=
A=
2
0
−2 0 4
Dann ist A eine 2 × 3-Matrix und C ist eine 2 × 2-Matrix, Wir können nun das Matrizenprodukt C A bilden, aber das Matrizenprodukt A C ist nicht definiert, da die Matrix
A nicht die gleiche Anzahl Spalten (hier: 3) hat wie die Anzahl der Zeilen der Matrix B
(hier: 2). Wir berechnen zur Übung die 2 × 3-Matrix C A:
1 −1
1 2 3
CA=
2
0
−2 0 4
1 · 1 + (−1) · (−2)
=
2 · 1 + 0 · (−2)
3 2 −1
=
.
2 4
6
1 · 2 + (−1) · 0
2·2+0·0
1 · 3 + (−1) · 4
2·3+0·4
12. Matrizen
385
Beispiel 12.15. (Matrizenprodukt quadratischer Matrizen) Für die quadratischen
2 × 2-Matrizen
D=
2 1
0 1
1 −1
E=
0
1
und
können wir sowohl D E als auch E D berechnen. Wir finden
2·1+1·0
2 1
1 −1
DE =
=
0 1
0
1
0·1+1·0
1 · 2 + (−1) · 0
1 −1
2 1
ED =
=
0
1
0 1
0·2+1·0
2 · (−1) + 1 · 1
0 · (−1) + 1 · 1
2 −1
=
,
0
1
1 · 1 + (−1) · 1
0·1+1·1
=
2 0
.
0 1
Wir sehen also, dass D E 6= E D. Dieses ist auch allgemein richtig, und wir halten dieses
in der nächsten Bemerkung fest.
Bemerkung 12.16. (Matrizenprodukt von n×n-Matrizen ist nicht kommutativ)
Für zwei beliebige quadratische Matrizen A und B in Mn,n (R) können wir sowohl A B als
auch B A berechnen. In der Regel gilt A B 6= B A, d.h. das Matrizenprodukt (quadratischer
Matrizen) ist nicht kommutativ.
Wir betrachten nun einen wichtigen Sonderfall des Matrizenprodukts, nämlich die MatrixVektor-Multiplikation.
Bemerkung 12.17. (Matrix-Vektor-Multiplikation) Da ein Spaltenvektor x ∈ Rn
auch als n × 1-Matrix aufgefasst werden kann, können wir für jede m × n-Matrix A mit
dem üblichen Matrizenprodukt A x berechnen und erhalten eine m × 1-Matrix also einen
Spaltenvektor in Rm . Genauer haben wir

a1,1
 a2,1

A x =  ..
 .
a1,2
a2,2
..
.
···
···
  
a1,1 x1 + a1,2 x2 + . . . + a1,n xn
x1
a1,n
 x2   a2,1 x1 + a2,2 x2 + . . . + a2,n xn
a2,n 
  
..
..   ..  = 
.
.  .  
am,1 am,2 · · · am,n
xn
am,1 x1 + am,2 x2 + . . . + am,n xn



.

Die Matrix-Vektor-Multiplikation wird im nächsten Kapitel eine wichtige Rolle spielen,
wenn wir lineare Gleichungssysteme untersuchen. Schauen wir uns zunächst ein paar Beispiele an.
Beispiel 12.18. (Matrix-Vektor-Multiplikation) Betrachten wir die Matrix


1
2 −2 3
0
1 −1 4
2
A = 0
2 −4
0 1 −1
386
12.2. Matrizen und Matrizenoperationen
und die Vektoren

Dann gilt
 
1
1
 

y=
1
1
1

1
−1
 

x=
 2 ,
 0
1
und

2
 1
 

z=
 0 .
 1
−1

 
1
  





1
·
1
+
2
·
(−1)
+
(−2)
·
2
+
3
·
0
+
0
·
1
−5
1
2 −2 3
0 −1
  
=
0
·
1
+
1
·
(−1)
+
(−1)
·
2
+
4
·
0
+
2
·
1
−1 ,
2
1 −1 4
2 
=
A x = 0


 


5
0
2 −4
0 1 −1
2 · 1 + (−4) · (−1) + 0 · 2 + 1 · 0 + (−1) · 1
1
 
  


 1


1
·
1
+
2
·
1
+
(−2)
·
1
+
3
·
1
+
0
·
1
4
1
2 −2 3
0 1
  
=
0
·
1
+
1
·
1
+
(−1)
·
1
+
4
·
1
+
2
·
1
6 ,
1
1 −1 4
2 
=
A y = 0

  


−2
1
2 −4
0 1 −1
2 · 1 + (−4) · 1 + 0 · 1 + 1 · 1 + (−1) · 1
1
 
2
  





1
·
2
+
2
·
1
+
(−2)
·
0
+
3
·
1
+
0
·
(−1)
7
1
2 −2 3
0  1
  
=
=
3 .
0
·
2
+
1
·
1
+
(−1)
·
0
+
4
·
1
+
2
·
(−1)
0
A z = 0
1 −1 4
2 

  


2
1
2 −4
0 1 −1
2 · 2 + (−4) · 1 + 0 · 0 + 1 · 1 + (−1) · (−1)
−1
Wir halten einige wichtige Rechenregeln für das Matrizenprodukt fest.
Lemma 12.19. (Rechenregeln für das Matrizenprodukt) Das Matrizenprodukt hat
die folgenden Eigenschaften:
(i)
A (B D) = (A B) D
(Assoziativgesetz),
(ii)
A (B + C) = A B + A C
(Distributivgesetz),
(iii)
α · (A B) = (α · A) B = A (α · B)
für jedes α ∈ R,
wobei A ∈ Mℓ,m (R), B, C ∈ Mm,n (R) und D ∈ Mn,p (R) sind, so dass alle Matrizenprodukte und Summen von Matrizen definiert sind.
Man kann die Rechenregeln in Lemma 12.19 durch Nachrechnen leicht nachweisen.
Beweis von Lemma 12.19. Wir beweisen (ii) zuerst, weil dies einfacher ist.
(ii) Da die Matrix B +C ∈ Mm,n (R) für B = (bj,k ) ∈ Mm,n (R4) und C = (cj,k ) ∈ Mm,n (R)
die Einträge (bj,k + cj,k ) hat, gilt mit A = (ai,j ) ∈ Mℓ,m (R) nach der Definition des
Matrizenprodukts
m
X
ai,j (bj,k + cj,k )
[A (B + C)]i,k =
j=1
12. Matrizen
387
=
m
X
ai,j bj,k + ai,j cj,k
j=1
=
m
X
ai,j bj,k +
j=1
m
X
ai,j cj,k = [A B]i,k + [A C]i,k
j=1
für alle i = 1, 2, . . . , ℓ und alle k = 1, 2, . . . , n.
Dabei haben wir im zweiten Schritt das Distributivgesetz für die reellen Zahlen genutzt
und danach die Rechenregel für die Addition von Summen angewendet. Die Notation
[A (B + C)]i,k , [A B]i,k bzw. [A C]i,k bezeichnet dabei den Eintrag der Matrix A (B + C),
A B bzw. A C in der i-ten Zeile und k-ten Spalte, wie intuitiv klar sein sollte.
(i) Seien A = (ai,j ) ∈ Mℓ,m (R), B = (bj,k ) ∈ Mm,n (R) and D = (dk,r ) ∈ Mn,p (R). Zuerst
berechnen wir die Einträge der Matrix B D ∈ Mm,p (R) bzw. A B ∈ Mℓ,n (R): Nach der
Formel für das Matrizenprodukt gilt
[B D]j,r =
n
X
bj,k dk,r
für alle j = 1, 2, . . . , m und alle r = 1, 2, . . . , p,
ai,j bj,k
für alle i = 1, 2, . . . ℓ und alle k = 1, 2, . . . , n.
k=1
[A B]i,k =
m
X
j=1
Damit finden wir für i = 1, 2, . . . , ℓ und r = 1, 2, . . . , p
[A (B D)]i,r =
m
X
ai,j [B D]j,r =
j=1
[(A B) D)]i,r =
n
X
ai,j
j=1
[A B]i,k dk,r =
k=1
=
m
X
m X
n
X
bj,k dk,r
k=1
m
n
X
X
k=1
n
X
j=1
ai,j bj,k
!
!
=
dk,r =
m X
n
X
ai,j bj,k dk,r ,
j=1 k=1
n X
m
X
ai,j bj,k dk,r
k=1 j=1
ai,j bj,k dk,r ,
j=1 k=1
wobei wir das Distributivgesetz für reelle Zahlen genutzt haben. Im letzten Schritt der
zweiten Rechnung haben wir die Reihenfolge des Summmenzeichen vertauscht, was wir bei
endlichen Summen immer machen dürfen. Da wir in beiden Fällen die gleichen Einträge
erhalten, haben wir A (B D) = (A B) D bewiesen.
Den Nachweis der Eigenschaft (iii) überlassen wir dem Leser als Übung.
Wir betrachten noch ein interessantes Beispiel.
Beispiel 12.20. (Multiplikation mit der Einheitsmatrix) Sei In ∈ Mn,n (R) die
Einheitsmatrix (vgl. Definition 12.6 (ii)). Dann gilt
A In = In A = A
für alle A ∈ Mn,n (R),
(12.11)
388
12.2. Matrizen und Matrizenoperationen
sowie
In A = A
B In = B
für alle A ∈ Mn,p (R),
für alle B ∈ Mm,n (R).
(12.12)
(12.13)
Dies wird auf dem Übungsblatt nachgewiesen. Betrachten wir diese Formeln, so sehen wir,
dass die Einheitsmatrix In in der Matrizenmultiplikation die Rolle der Zahl 1
bei der Multiplikation der reellen Zahlen übernimmt. Wir bemerken noch, dass
(12.11) ein Sonderfall von (12.12) und (12.13) für den Fall n = m = ℓ ist.
Zum Abschluss lernen wir noch die transponierte Matrix kennen.
Definition 12.21. (transponierte Matrix) Sei A = (aj,k ) ∈ Mm,n (R). Die zu A
transponierte Matrix entsteht aus A durch Vertauschen von Zeilen mit Spalten
und wird mit AT bezeichnet. Genauer schreiben wir in AT die k-te Zeile von A (gelesen
von links nach rechts) nun als k-te Spalte von AT (gelesen von oben nach unten) hin.
Daher ist AT eine n × m-Matrix. Aus


a1,1 a1,2 · · · a1,n
 a2,1 a2,2 · · · a2,n 


A =  ..
..
.. 
 .
.
. 
am,1 am,2 · · · am,n
wird durch Transposition also die transponierte

a1,1 a2,1 · · ·
 a1,2 a2,2 · · ·

AT =  ..
..
 .
.
a1,n a2,n · · ·
Matrix

am,1
am,2 

..  .
. 
am,n
Der Eintrag in der j-ten Zeile und k-ten Spalte von AT ist also [AT ]j,k = ak,j .
Betrachten wir einige Beispiele.
Beispiel 12.22. (transponierte Matrix) Die Matrizen
A=
1 2 0
−1 0 3
haben die transponierten Matrizen


1 −1
0
AT = 2
und
0
3
und

2 4 −2
 6 8 −6

B=
10 12 −10
14 16 −14



2
6
10
14
8
12
16 .
BT =  4
−2 −6 −10 −14
12. Matrizen
389
Wir kommen nun noch einmal auf den Zusammenhang zwischen Zeilen- und Spaltenvektoren zurück.
Bemerkung 12.23. (Zeilen- und Spaltenvektoren) Da Zeilenvektoren in Rn als 1×nMatrizen aufgefasst werden können und da Spaltenvektoren in Rn als n × 1-Matrizen
aufgefasst werden können, können beide transponiert werden. Wir finden
 
x1
 x2 
T
 
(x1 , x2 , . . . , xn )T = x1 x2 · · · xn =  ..  ,
.
xn
 T
x1
 x2 
 
 ..  = x1 x2 · · · xn = (x1 , x2 , . . . , xn ).
.
xn
Beispiel 12.24. (Zeilen- und Spaltenvektoren) Wir haben
 
1
x = 2
3
und
xT = (1, 2, 3),
sowie
y = (−1, 0, 1, 4)
und
 
−1

0

yT = 
 1 .
4
In dem nächsten Lemma halten wir die wichtigsten Rechenregeln für transponierte Matrizen fest.
Lemma 12.25. (Rechenregeln für transponierte Matrizen)
(i) (A + B)T = AT + B T für alle A, B ∈ Mm,n (R).
(ii) (λ A)T = λ AT für alle A ∈ Mm,n (R) und alle λ ∈ R.
(iii) (A B)T = B T AT für alle A ∈ Mℓ,m (R) und B ∈ Mm,n (R).
Zum Abschluss wollen wir die Rechenregeln in Lemma 12.25 beweisen.
Beweis von Lemma 12.25.
(i) Wegen A + B = (aj,k + bj,k ) ∈ Mm,n (R) für A = (aj,k ) ∈ Mm,n (R) und B = (bj,k ) ∈
Mm,n (R) gilt für j = 1, 2, . . . , n und k = 1, 2, . . . , m:
(A + B)T j,k = [A + B]k,j = ak,j + bk,j = [AT ]j,k + [B T ]j,k .
Also gilt (A + B)T = AT + B T .
(ii) Für A = (aj,k ) ∈ Mm,n (R) und λ ∈ R gilt (λ A) = (λ aj,k ) ∈ Mm,n (R) und damit
(λ A)T j,k = [λ A]k,j = λ ak,j = λ [AT ]j,k
für j = 1, 2, . . . , n und k = 1, 2, . . . , m.
390
12.2. Matrizen und Matrizenoperationen
Also gilt (λ A)T = λ AT
(iii) Seien A = (ai,j ) ∈ Mℓ,m (R) und B = (bj,k ) ∈ Mm,n (R). Dann ist A B ∈ Mℓ,n (R) und
nach der Definition des Matrizenprodukts gilt
[A B]i,k =
m
X
ai,j bj,k
für i = 1, 2, . . . , ℓ und k = 1, 2, . . . , n.
j=1
Damit finden wir für die Einträge der Matrix (A B)T ∈ Mℓ,m (R)
m
m
m
X
X
X
bj,k ai,j =
[B T ]k,j [AT ]j,i = B T AT k,i
(A B)T k,i = [A B]i,k =
ai,j bj,k =
j=1
j=1
j=1
für k = 1, 2, . . . , n und i = 1, 2, . . . , ℓ. Dabei folgt der letzte Schritt wieder aus der
Definition des Matrizenprodukts. Also gilt (A B)T = B T AT .
Somit haben wir alle drei Aussagen in Lemma 12.25 bewiesen.
Kapitel 13
Lineare Gleichungssysteme und
Matrizen
In diesem Kapitel betrachten wir lineare Gleichungssysteme, und wir werden sehen, dass
diese mit Hilfe von Matrizen und der Matrix-Vektor-Multiplikation (als Sonderfall des
Matrizenprodukts) leicht dargestellt werden können. Wir werden also das lineare Gleichungssystem in der Form A x = b mit der Koeffizientenmatrix A ∈ Mm,n (R), dem
Spaltenvektor mit den Unbekannten x ∈ Rn und dem Spaltenvektor der rechten Seite
b ∈ Rm schreiben. Weiter lernen wir, wie man ein solches lineares Gleichungssystem mit
sogenannten elementaren Zeilenoperationen“ löst.
”
Wir wollen aber gerne auch bereits qualitative Informationen über das Gleichungssystem
gewinnen, bevor wir es lösen. Mit qualitativen Informationen“ ist gemeint, dass wir gerne
”
wissen wollen, ob das lineare Gleichungssystem genau eine Lösung hat, ob es keine Lösung
hat, oder ob es unendlich viele Lösungen hat. Dies führt uns auf die Begriffe des Kerns,
Bildes und Ranges einer Matrix.
13.1
Lineare Gleichungssysteme
Betrachten wir zunächst ein Beispiel eines linearen Gleichungssystems:
x1 + 2 x2 + 3 x3 =
1
− x1 + x2
=
2
2 x1 − 2 x2 + x3 = −2
(13.1)
Wir können (13.1) leicht wie folgt lösen: Addieren wir die zweite Zeile multipliziert mit 2
zu der dritten Zeile in (13.1), so erhalten wir
x3 = −2 + 4 = 2.
Addieren wir die erste Zeile zur zweiten Zeile, so erhalten wir
3 x2 + 3 x3 = 3
⇐⇒
391
x2 + x3 = 1.
(13.2)
392
13.1. Lineare Gleichungssysteme
Einsetzen von x3 = 2 in (13.2) liefert
x2 = 1 − x3 = 1 − 2 = −1,
und durch Auflösen der zweiten Gleichung in (13.1) nach x1 und Einsetzen von x2 = −1
folgt
x1 = x2 − 2 = −1 − 2 = −3.
Das lineare Gleichungssystem (13.1) hat also die eindeutige Lösung x1 = −3, x2 = −1
und x3 = 2.
Wir wollen nun zunächst an dem Beispiel untersuchen, was unser lineares Gleichungssystem mit Matrizen und Vektoren zu tun hat. Wir können (13.1) auch in der Form

   
1
2 3
x1
1
−1
1 0 x2  =  2
(13.3)
2 −2 1
x3
−2
schreiben. Dass (13.3) korrekt ist, sieht man sofort, indem man die Matrix-Vektor-Multiplikation
ausführt, denn

 

  
x1 + 2 x2 + 3 x3
1 x1 + 2 x2 + 3 x3
1
2 3
x1

 

−1
1 0 x2  = (−1) x1 + 1 x2 + 0 x3  =  −x1 + x2  .
2 −2 1
x3
2 x1 − 2 x2 + x3
2 x1 + (−2) x2 + 1 x3
Wir können also (13.1) als die Gleichung in Vektoren und Matrizen


 
1
2 3
x1



1 0 ,
Ax = b
mit
A = −1
x = x2 
und
2 −2 1
x3


1
b =  2
−2
schreiben. Dabei ist der Vektor x unsere Unbekannte. Wir wollen die Gleichung A x = b
lösen, um x zu bestimmen.
Wir halten unsere Überlegungen zu dem vorigen Beispiel in allgemeiner Form fest.
Lemma 13.1. (Lineares Gleichungssystem in Matrizenschreibweise) Das lineare
Gleichungssystem (LGS) mit m Gleichungen und den n Unbekannten x1 , x2 , . . . , xn
a1,1 x1 +
a2,1 x1 +
..
.
a1,2 x2 + . . . +
a2,2 x2 + . . . +
..
.
am,1 x1 + am,2 x2
kann in Matrizenschreibweise“ als
”

Ax = b
d.h.
a1,1
 a2,1

 ..
 .
|
a1,n xn = b1
a2,n xn = b2
..
..
.
.
+ . . . + am,n xn = bm
a1,2
a2,2
..
.
···
···

a1,n
a2,n 

.. 
. 
(13.4)
  
b1
x1
 x2   b2 
   
 ..  =  .. 
. .

xn
am,1 am,2 · · · am,n
{z
} | {z }
=x
=A
geschrieben werden, wobei wir folgende Bezeichnungen verwenden:
bm
| {z }
=b
(13.5)
13. Lineare Gleichungssysteme und Matrizen
393
• A ist die m × n-Koeffizientenmatrix,
• x ∈ Rn ist der gesuchte Spaltenvektor der n Unbekannten x1 , x2 , . . . , xn ,
• b ∈ Rm ist die rechte Seite des linearen Gleichungssystems.
Ist b 6= 0, so heißt das lineare Gleichungssystem (13.4) bzw. (13.5) inhomogen, und
ist b = 0 (also b1 = b2 = . . . = bm = 0), so heißt das lineare Gleichungssystem (13.4)
bzw. (13.5) homogen.
Das Lösen des linearen Gleichungssystems (13.4) bzw. (13.5) bedeutet, dass wir alle
möglichen Lösungen dieses linearen Gleichungssystems finden.
Wir wollen nun lernen, wie man solche linearen Gleichungssysteme (13.5) systematisch
löst unter Verwendung von Matrizen. Dazu führen wir zunächst die sogenannte erweiterte
Koeffizientenmatrix ein.
Definition 13.2. (erweiterte Koeffizientenmatrix) Die erweiterte Koeffizientenmatrix des linearen Gleichungssystems (13.5) ist


a1,1 a1,2 · · · a1,n b1
 a2,1 a2,2 · · · a2,n b2 


(13.6)
 ..
.. .. 
..
 .
. . 
.
am,1 am,2 · · · am,n bm
Betrachten wie hierzu ein Beispiel.
Beispiel 13.3. (erweiterte Koeffizientenmatrix) Die erweiterte Koeffizientenmatrix
des linearen Gleichungssystems (13.3) ist


1
2 3 1
−1
1 0 2  .
2 −2 1 −2
Wir lernen nun, wie wir ein lineares Gleichungssystem systematisch lösen.
Satz 13.4. (Lösung eines linearen Gleichungssystems) Um ein lineares Gleichungssystem (13.4) zu lösen, dürfen wir folgende elementare Zeilenoperationen auf die
Gleichungen in (13.4) bzw. auf die Zeilen der erweiterten Koeffizientenmatrix (13.6) anwenden:
• Multiplikation einer Gleichung bzw. einer Zeile der erweiterten Koeffizientenmatrix mit
einer Zahl c 6= 0,
• Addition einen Gleichung bzw. einer Zeile der erweiterten Koeffizientenmatrix zu einer
anderen Gleichung bzw. Zeile der erweiterten Koeffizientenmatrix,
• Vertauschen zweier Gleichungen bzw. zweier Zeilen der erweiterten Koeffizientenmatrix,
394
13.1. Lineare Gleichungssysteme
• Streichen eine Gleichung, auf der beide Seiten Null sind, bzw. Streichen einer Zeile der
Form (0 0 · · · 0 | 0) in der erweiterten Koeffizientenmatrix.
Wir erhalten nach jedem solchen Schritt ein äquivalentes“ lineares Gleichungssystem,
”
d.h. die Menge aller Lösungen des ursprünglichen linearen Gleichungssystems ändert sich bei elementaren Zeilenoperationen nicht.
Finden wir durch elementare Zeilenoperationen eine Gleichung 0 = c mit c 6= 0 bzw. eine
Zeile in der erweiterten Koeffizientenmatrix der Form (0 0 · · · 0 | c) mit c 6= 0, so ist
das lineare Gleichungssystem nicht lösbar.
Wir demonstrieren erst für unser Eingangsbeispiel eines linearen Gleichungssystems mit
der erweiterten Koeffizientenmatrix aus Beispiel 13.3, wie man dieses Gleichungssystem
mit elementaren Zeilenoperationen löst. Danach halten wir die Vorgehensweise allgemein
fest.
Vorab bemerken wir noch, dass man durch das nacheinander Ausführen der ersten beiden elementaren Zeilenoperationen natürlich auch die folgende Zeilenoperationen
erhält:
• Subtrahieren einer Gleichung bzw. einer Zeile der erweiterten Koeffizientenmatrix von
einer anderen Gleichung bzw. Zeile der erweiterten Koeffizientenmatrix. (Hier multipliziert man erst die zu subtrahierende Gleichung bzw. Zeile mit −1 und addiert diese
danach zu der anderen Gleichung bzw. Zeile.)
• Addieren/Subtrahieren des Vielfachen einer Gleichung bzw. Zeile der erweiterten
Koeffizientenmatrix zu/von einem Vielfachen einer anderen Gleichung bzw. Zeile
der erweiterten Koeffizientenmatrix. (Hier werden zunächst beide Zeilen jeweils mit
einem Faktor 6= 0 multipliziert, und dann werden die neuen Gleichungen bzw. Zeilen
addiert/subtrahiert.)
Wir betrachten nun das Beispiel; dabei werden wir direkt eine Kurznotation entwickeln,
die anzeigt, welche elementaren Zeilenoperationen in jedem Schritt ausgeführt
wurden.
Beispiel 13.5. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + 2 x2 + 3 x3 =
1
− x1 + x2
=
2
2 x1 − 2 x2 + x3 = −2
hat die folgende erweiterte Koeffizientenmatrix:


1
2 3 1
−1
1 0 2  .
2 −2 1 −2
Im ersten Schritt addieren wir die zweite Zeile (Z2) multipliziert mit 2 zu der dritten
Zeile (Z3) und ersetzen die dritte Zeile (Z3) durch dieses Ergebnis, also Z3 → 2 · Z2 + Z3.
13. Lineare Gleichungssysteme und Matrizen
395
Danach addieren wir die erste Zeile (Z1) zur zweiten Zeile (Z2) und ersetzen danach die
zweite Zeile durch das Ergebnis, also Z2 → Z1 + Z2. Wir erhalten somit


1 2 3 1
0 3 3 3  .
0 0 1 2
Nun teilen wir noch die zweite Zeile durch 3, also Z2 → Z2/3.


1 2 3 1
0 1 1 1  .
0 0 1 2
Nun haben die erweiterte Matrix in einer Form vorliegen, in der der erste Eintrag ungleich
Null in jeder Zeile immer den Wert Eins hat und weiter rechts als in der vorhergehenden
Zeile auftritt. Als lineares Gleichungssystem haben wir nun:
x1 + 2 x2 + 3 x3 = 1
x2 + x3 = 1
x3 = 2
Nun starten wir mit der untersten Gleichung und lösen diese nach x3 auf. Dann setzen
wir das Ergebnis in die vorige Gleichung ein und lösen diese nach x2 auf, und schließlich
lösen wir die erste Gleichung nach x1 auf und setzen die Ergebnisse für x2 und x3 ein.
x3 = 2,
x2 = 1 − x3 = 1 − 2 = −1,
x1 = 1 − 2 x2 − 3 x3 = 1 − 2 · (−1) − 3 · 2 = −3.
Also ist die Lösung des linearen Gleichungssystems x1 = −3, x2 = −1 und x3 = 2.
Wir halten allgemein fest, wie wir im vorigen Beispiel vorgegangen sind:
Unser Ziel ist es, durch elementare Zeilenoperationen die erweitere Matrix in eine solche
Form zu bringen, in welcher der erste Eintrag ungleich Null in jeder Zeile immer weiter
rechts als in der vorhergehenden Zeile auftritt und in der alle solchen ersten Einträge
ungleich Null den Wert Eins haben. Man nennt dies auch eine Treppenform, und
abstrakt kann man eine erweitere Matrix in Treppenform wie folgt schreiben:


0···0 1 ∗···∗ ∗ ∗···∗
∗ ∗ · · · ∗ ∗
0 · · · 0 0 0 · · · 0 1 ∗ · · · ∗
∗ ∗ · · · ∗ ∗ 


(13.7)
 ..
..
..
..
..
..
.. .. 
.
.
 .
. .
.
.
.
.
. . 
0···0 0 0···0 0 0...0
1 ∗···∗ ∗
Dabei sind alle Einträge ∗ in (13.7) beliebige reelle Zahlen. Beispielsweise sind die folgenden erweiterten Koeffizientenmatrizen in Treppenform:






1 2 −5 2
1 −2 3 1
0 1 7 −3
5 3
0 1
3 −9 



0

1 0 2 ,
0 0 1
4 −2 −2  ,
7 .
0 0
1
0
0 1 1
0 0 0
0
1 7
0 0
0 3
396
13.1. Lineare Gleichungssysteme
Dabei ist das letzte Gleichungssystem nicht lösbar, weil die Zeile (0 0 0 | 3) auf den
Widerspruch 0 = 3 führt.
Wir beschreiben die elementaren Zeilenoperationen, durch die wir die erweiterte Koeffizientenmatrix in Treppenform bringen, wie folgt:
• Zj → . . .“ bedeutet, dass die j-te Zeile durch die hinter dem Pfeil angegebene (neu
”
berechnete) Zeile (s.u.) ersetzt wird. Dabei darf eine Zeile nur durch einen Ausdruck
ersetzt werden, bei dem diese Zeile selber in der Rechenoperation vorkommt. (Einzige
Ausnahme ist das Tauschen von Zeilen; siehe nächster Punkt.)
• Zj ↔ Zk“ bedeutet, dass die j-te und k-te Zeile vertauscht werden.
”
• c · Zj“ bedeutet, dass die j-te Zeile mit der Konstante c 6= 0 multipliziert wird.
”
• c1 ·Zj+c2 ·Zk“ bzw. c1 ·Zj−c2 ·Zk“ bedeutet, dass die k-te Zeile mit c2 6= 0 multipliziert
”
”
und dann zu der j-ten Zeile multipliziert mit c1 6= 0 addiert bzw. von dieser abgezogen
wird.
• Zeilen der Form (0 0 · · · 0 | 0) dürfen wir jederzeit streichen, ohne dies notationsmäßig
weiter zu vermerken.
Also bedeutet z.B. Z3 → Z4 − 7 · Z3“, dass wir die dritte Zeile ersetzen durch die vierte
”
”
Zeile minus 7-mal die dritte Zeile“. Die Operation Z3 → Z4 − 7 · Z2“ wäre dagegen nicht
”
zulässig, weil die dritte Zeile durch einen Ausdruck ersetzt wird, in dem sie selber nicht
vorkommt.
Rücksubstitution: Haben wir die erweiterte Matrix in Treppenform gebracht und ist
das LGS lösbar, so starten wir mit der letzten Gleichung und lösen diese nach einem
vorkommenden xk auf. Genauer bedeutet dieses:
• Hat das LGS nur genau eine Lösung, so kommt nur ein xk in der letzten Gleichung vor,
und wir erhalten einen Zahlenwert für xk .
• Kommen in der letzten Gleichung noch mehrere verschiedene xk vor, so lösen nach
einem xk auf und behalten die anderen xℓ als Parameter unserer Lösung; in diesem Fall
hat das LGS unendlich viele Lösungen.
Nun lösen wir die zweitunterste Gleichung nach einem xℓ welches in der letzten Gleichung
nicht vorkommt, und anschließend ersetzen wir das durch die letzte Gleichung bereits
bekannte xk . Wir fahren mit dieser Vorgehensweise fort, bis wir diese Vorgehensweise
schließlich auf die oberste Gleichung angewendet haben.
Betrachten wir weitere Beispiel, um uns das Verfahren klar zu machen.
Beispiel 13.6. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + 2 x2 + 3 x3 =
1
− x1 + x2 + x3 =
1
2 x1 − 2 x2 − 2 x3 = −2
13. Lineare Gleichungssysteme und Matrizen
397
hat die folgende erweiterte Koeffizientenmatrix:

1
2
3
−1
1
1
2 −2 −2

1
1 .
−2
Durch die Operationen Z3 → Z3/2 erhalten wir


1
2
3 1
−1
1
1 1  .
1 −1 −1 −1
Durch die Operation Z3 → Z3 + Z2 erhalten

1 2
−1 1
0 0
und die letzte Zeile ist
wir

3 1
1 1  ,
0 0
⇐⇒
0 x1 + 0 x2 + 0 x3 = 0
0 = 0.
Eine solche Nullzeile“ in der erweiterten Koeffizientenmatrix können wir immer weglas”
sen. Also erhalten wir die reduzierte erweiterte Koeffizientenmatrix
1 2 3 1
,
−1 1 1 1
und wir führen die Operation Z2 → Z2 + Z1 aus:
1 2 3 1
.
0 3 4 2
Durch die Operation Z2 → Z2/3 finden wir
!
1 2 3 1
.
0 1 4 2
3
3
Damit ist unsere erweiterte Koeffizientenmatrix in Treppenform. Wir erhalten aus der
zweiten Gleichung
x2 +
4
2
x3 =
3
3
⇐⇒
x2 =
2 4
− x3 .
3 3
Auflösen der letzten Gleichung x1 + 2 x2 + 3 x3 = 1 nach x1 und anschließendes Einsetzen
von x2 liefert:
1
1
1
8
2 4
− x3 − 3 x3 = − +
− 3 x3 = − − x3 .
x1 = 1 − 2 x2 − 3 x3 = 1 − 2
3 3
3
3
3
3
Also finden wir die Lösung
x1 = −
1
1
− x3
3
3
und
x2 =
2
4
− x3
3
3
Das LGS hat also unendlich viele Lösungen.
mit
x3 ∈ R beliebig.
398
13.1. Lineare Gleichungssysteme
Beispiel 13.7. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + 2 x2 + 3 x3 =
1
− x1 + x2 − x3 =
2
2 x1 − 2 x2 + 2 x3 = −2
hat die folgende erweiterte Koeffizientenmatrix:

1
2
3
−1
1 −1
2 −2
2

1
2 .
−2
Durch die Operationen Z3 → Z3/2 erhalten wir


1
2
3 1
−1
1 −1 2  .
1 −1
1 −1
Durch die Operation Z3 → Z3 + Z2 erhalten wir


1 2
3 1
−1 1 −1 2  ,
0 0
0 1
und die letzte Zeile ist
0 x1 + 0 x2 + 0 x3 = 1
⇐⇒
0 = 1.
Da diese Gleichung nicht erfüllbar ist (egal wie wir x1 , x2 und x3 wählen), hat das LGS
keine Lösung.
Wir haben nun gesehen, dass ein Gleichungssystem mit drei Unbekannten entweder genau
eine oder keine oder beliebig viele Lösungen haben kann. Im nächsten Teilkapitel werden
wir sehen, wie man dieses bereits teilweise an den Eigenschaften der erweiterten
Koeffizientenmatrix ablesen kann, ohne das lineare Gleichungssystem zu lösen.
Vorher betrachten wir aber noch ein Beispiel eines Gleichungssystems mit mehr Unbekannten als Gleichungen.
Beispiel 13.8. (Lösen eines LGS mit elementaren Zeilenoperationen) Das lineare
Gleichungssystem
x1 + x2 − x3 + 2 x4 =
3
2 x1 − x2 + x3 − 2 x4 = −2
−2 x1 + 2 x2 + 2 x3 + 2 x4 =
4
hat die erweiterte Koeffizientenmatrix


1
1 −1
2 3
 2 −1
1 −2 −2  .
−2
2
2
2 4
13. Lineare Gleichungssysteme und Matrizen
399
Die Operation Z1 → 2 · Z1 + Z3 liefert


0
4 0
6 10
 2 −1 1 −2 −2  .
−2
2 2
2 4
Die Operationen Z1 → Z1/2 und Z3 → Z3 + Z2 liefern


0
2 0
3 5
2 −1 1 −2 −2  .
0
1 3
0 2
Die Operation Z1 ↔ Z2 liefert


2 −1 1 −2 −2
0
2 0
3 5  .
0
1 3
0 2
Die Operation Z3 → 2 · Z3 − Z2 liefert

2 −1 1 −2
0
2 0
3
0
0 6 −3

−2
5 .
−1
Nun führen wir die Operationen Z1 → Z1/2, Z2 → Z2/2 und Z3 → Z3/6 durch:


1 − 12 12 −1 −1

5
3 1 0
0
2 2.
1 0
0 1 − 2 − 16
Aus der letzten Gleichung erhalten wir
x3 −
1
1
x4 = −
2
6
⇐⇒
x3 = −
1 1
+ x4 ,
6 2
und aus der mittleren Gleichung erhalten wir
x2 +
3
5
x4 =
2
2
⇐⇒
x2 =
5 3
− x4 .
2 2
Auflösen der ersten Gleichung x1 − x2 /2 + x3 /2 − x4 = −1 nach x1 und Einsetzen der
Formeln für x2 und x3 liefert
1
1 1
1
1 5 3
1
1
1
x1 = −1 + x2 − x3 + x4 = −1 +
− + x4 + x4 = − 0 x4 = .
− x4 −
2
2
2 2 2
2
6 2
3
3
Die Lösungen zu dem LGS sind also
x1 =
1
,
3
x2 =
5 3
− x4
2 2
und
x3 = −
1 1
+ x4
6 2
mit
x4 ∈ R beliebig.
400
13.2. Bild, Kern und Rang
13.2
Bild, Kern und Rang
Um lineare Gleichungssysteme und ihre Lösungen besser zu verstehen, müssen wir uns
tiefergehender mit Matrizen und ihren Eigenschaften befassen. Dazu sind die Begriffe des
Kerns, des Bildes und des Ranges einer Matrix unverzichtbar. Wir führen diese Begriffe
zunächst ein, und untersuchen sie dann. Dabei werden wir die Einsicht gewinnen, welche
Rolle diese Begriffe im Zusammenhang mit linearen Gleichungssystemen spielen.
Definition 13.9. (Bild, Kern und Rang einer Matrix) Sei A ∈ Mm,n (R).
(i) Der folgende Teilraum von Rn
heißt der Kern von A.
Kern(A) = x ∈ Rn A x = 0 .
(ii) Der folgende Teilraum von Rm
Bild(A) = y ∈ Rm y = A x mit x ∈ Rn
heißt das Bild von A.
(iii) Die Dimension des Teilraumes Bild(A) wird als der Rang von A, in Formeln
Rang(A), bezeichnet.
Wir bemerken, dass uns die Definition 13.9 die wichtige (und auf den ersten Blick nicht
offensichtliche) Information gibt, dass der Kern und das Bild eine Matrix A ∈ Mm,n (R)
jeweils Teilräume von Rn bzw. Rm sind. Dieses untersuchen wir auf dem Übungszettel.
Bemerkung 13.10. (Kern und Bild) Wie kommen die Bezeichnungen Kern und Bild
einer Matrix zustande? Mit Hilfe einer Matrix A ∈ Mm,n (R) können wir eine lineare
Funktion oder lineare Abbildung
f : Rn → Rm ,
y = f (x) = A x,
definieren. Das Bild der Matrix A ist dann das Bild der linearen Funktion f , also
Bild(f ) = y ∈ Rm y = f (x) = A x für ein x ∈ Rn = Bild(A).
Der Kern von A ist nun die Menge der Nullstellen der linearen Funktion f , also
Kern(A) = x ∈ Rn A x = 0 = x ∈ Rn f (x) = A x = 0 .
Betrachten wir zunächst ein Beispiel, bei dem wir den Kern, das Bild und den Rang einer
Matrix berechnen.
Beispiel 13.11. (Kern, Bild und Rang) Für die Matrix aus Beispiel 13.6


1
2
3
1
1
A = −1
2 −2 −2
13. Lineare Gleichungssysteme und Matrizen
401
haben wir
 
 x1
Kern(A) = x ∈ R3 A x = 0 = x2  ∈ R3

x3

    
1
2
3
x1
0 
−1
 x2  = 0 ,
1
1

2 −2 −2
x3
0
d.h. der Kern ist die Menge aller Lösungen des homogenen linearen Gleichungssystems
A x = 0 mit der erweiterten Koeffizientenmatrix


1
2
3 0
−1
1
1 0  .
2 −2 −2 0
Durch die Operationen Z3 → Z3/2 erhalten wir


1
2
3 0
−1
1
1 0  .
1 −1 −1 0
Durch die Operation Z3 → Z3 + Z2 erhalten

1 2
−1 1
0 0
wir

3 0
1 0  .
0 0
Wir dürfen die Nullzeile“ streichen und erhalten somit die reduzierte erweiterte Koeffi”
zientenmatrix
1 2 3 0
,
−1 1 1 0
und wir führen die Operation Z2 → Z2 + Z1 aus:
1 2 3 0
.
0 3 4 0
Durch die Operation Z2 → Z2/3 finden wir
!
1 2 3 0
.
0 1 4 0
3
Damit ist unsere erweiterte Koeffizientenmatrix in Treppenform. Wir erhalten aus der
zweiten Gleichung
x2 +
4
x3 = 0
3
⇐⇒
x2 = −
4
x3 .
3
Auflösen der ersten Gleichung x1 + 2 x2 + 3 x3 = 0 nach x1 und anschließendes Einsetzen
von x2 liefert:
1
8
4
− 3 x3 = − x3 .
x1 = −2 x2 − 3 x3 = −2 · − x3 − 3 x3 =
3
3
3
402
13.2. Bild, Kern und Rang
Also finden wir die Lösung
x1 = −
1
x3
3
und
x2 = −
4
x3
3
mit
x3 ∈ R beliebig.
Mit der Ersetzung x3 = 3 c mit c ∈ R erhalten wir also den folgenden Kern von A:




 
−c
−1


Kern(A) = x ∈ R3 x = −4 c = c −4 mit c ∈ R .


3c
3
Wir sehen nun direkt, dass der Kern ein ein-dimensionaler Teilraum ist.
Nun berechnen wir das Bild von A
Bild(A) = y ∈ R3 y = A x mit x ∈ R3

  

 
 
 
y1
1
2
3
x
y1
x


1
1
1
1 x2  mit x2  ∈ R3 .
= y = y2  ∈ R3 y2  = −1


y3
2 −2 −2
x3
y3
x3
Schreiben wir die Matrix-Vektor-Multiplikation in y = A x explizit als lineares Gleichungssystem, so finden wir
y1 =
1 x1 +
2 x2 +
3 x3
y2 = (−1) x1 +
1 x2 +
1 x3
y3 =
2 x1 + (−2) x2 + (−2) x3
und können dieses lineare Gleichungssystem ebenfalls als
 
 
 
 
y1
1
2
3
y2  = x1 −1 + x2  1 + x3  1
y3
2
−2
−2
(13.8)
schreiben. An (13.8) sehen wir, dass das Bild von A die Menge aller Linearkombinationen
der Spaltenvektoren von A ist. Dies macht klar, dass Bild(A) in der Tat ein Teilraum von
R3 ist. Wir bemerken, dass der dritte Spaltenvektor von A eine Linearkombination der
beiden ersten Spaltenvektoren von A ist, denn
 
   
1
2
3
1   4    
−1 +
1 =
1 .
3
3
2
−2
−2
Also sind alle drei Spaltenvektoren von A linear abhängig. Die beiden ersten Spaltenvektoren von A sind linear unabhängig, da keiner ein Vielfaches des anderen Vektors ist.
Also können wir die Vektoren in Bild(A) auch als Linearkombinationen der ersten beiden
Spaltenvektoren von A charakterisieren, d.h.

 

 
 
 
y1
1
y1
2


Bild(A) = y = y2  ∈ R3 y2  = c1 −1 + c2  1 mit c1 , c2 , ∈ R .


y3
2
y3
−2
13. Lineare Gleichungssysteme und Matrizen
403
Nun können wir direkt sehen, dass Bild(A) ein zweidimensionaler Teilraum mit der Basis
{b1 , b2 } mit
 
 
1
2
b1 = −1
und
b2 =  1
2
−2
ist. Also ist der Rang von A genau Rang(A) = 2.
Wir halten allgemein fest, was wir in dem letzten Beispiel gesehen haben:
Bemerkung 13.12. (Kern, Bild und Rang) Sei A ∈ Mm,n (R). Dann gelten:
(1) Den Kern von A erhalten wir, indem wir das homogene lineare Gleichungssystem A x = 0 lösen.
(2) Das Bild von A kann als Menge aller Linearkombinationen der Spaltenvektoren von A charakterisiert werden, denn das LGS y = A x ist
y1
y2
..
.
= a1,1 x1
= a2,1 x1
..
.
+ a1,2 x2
+ a2,2 x2
..
.
+ . . . + a1,n xn
+ . . . + a2,n xn
..
.
ym = am,1 x1 + am,2 x2 + . . . + am,n xn
und kann daher auch als die Linearkombination
 




y1
a1,1
a1,2
 y2 
 a2,1 
 a2,2 
 




 ..  = x1  ..  + x2  ..  + . . . + xn
 . 
 . 
 . 
ym
am,1
am,2


a1,n
 a2,n 


 .. 
 . 
am,n
der Spaltenvektoren von A geschrieben werden.
(3) Also ist der Rang von A die maximale Anzahl linear unabhängiger Spaltenvektoren von A.
Wir lernen nun zwei wichtige Resultate über den Rang einer Matrix A. Das erste davon stellt einen Zusammenhang zwischen den Dimensionen der Teilräume Kern(A) und
Bild(A) dar.
Satz 13.13. (Dimensionsregel) Sei A ∈ Mm,n (R). Dann gilt die Dimensionsregel
dim Kern(A) + dim Bild(A) = n,
|
{z
}
= Rang(A)
d.h. die Dimension vom Kern von A plus den Rang von A ist immer gleich
der Anzahl der Spalten von A.
404
13.2. Bild, Kern und Rang
Beispiel 13.14. (Dimensionsregel) Für die Matrix A aus den Beispielen 13.6 und 13.11


1
2
3
1
1
A = −1
2 −2 −2
haben wir in Beispiel 13.11 gefunden, dass
dim Kern(A) = 1
und
dim Bild(A) = Rang(A) = 2.
Hier ist n = 3, und wir sehen dass die Dimensionsregel gilt:
dim Kern(A) + dim Bild(A) = 1 + 2 = 3 = n.
{z
}
|
= Rang(A)
Das zweite Resultat hilft uns bei der Bestimmung des Ranges einer Matrix.
Satz 13.15. (Rang = Zeilenrang = Spaltenrang) Sei A ∈ Mm,n (R). Dann gilt
Rang(A) = maximale Anzahl linear unabhängiger Spalten von A
= maximale Anzahl linear unabhängiger Zeilen von A.
Man bezeichnet die maximale Anzahl der linear unabhängigen Spalten auch als Spaltenrang von A und die maximale Anzahl der linear unabhängigen Zeilen auch als Zeilenrang von A. Da wir in der transponierten Matrix AT nur die Zeilen in Spalten
umgewandelt“ haben, gilt insbesondere Rang(A) = Rang(AT ).
”
Satz 13.16. (Rang ist invariant unter elementaren Zeilenoperationen) Ist
B ∈ Mm,n (R) eine Matrix, die durch elementare Zeilenoperationen aus A ∈ Mm,n (R)
hervorgegangen ist, so gilt Rang(A) = Rang(B).
Betrachten wir zwei Beispiele für die Anwendung der letzten drei Sätze.
Beispiel 13.17. (Rang einer Matrix und Dimensionsregel) In der Matrix


1 0 3 4
A = 0 1 5 2
0 2 10 4
sind die ersten zwei Zeilenvektoren linear unabhängig, aber alle drei Zeilenvektoren sind
linear abhängig (da der dritte Zeilenvektor gleich 2 multipliziert mit dem zweiten Zeilenvektor ist). Also gilt Rang(A) = 2. Damit wissen wir, dass Bild(A) ein zwei-dimensionaler
Teilraum von R3 ist, und aus der Dimensionsregel folgt
dim Kern(A) + Rang(A) = 4
⇐⇒
dim Kern(A) = 4 − Rang(A) = 4 − 2 = 2.
Also wissen wir, dass der Kern von A ein zwei-dimensionaler Teilraum ist.
13. Lineare Gleichungssysteme und Matrizen
405
Beispiel 13.18. (Rang einer Matrix) Für die Matrix A aus den Beispielen 13.6, 13.11
und 13.14


1
2
3
1
1
A = −1
2 −2 −2
erhalten wir durch die elementaren Zeilenoperationen Z3 → Z3 + 2 · Z2 die Matrix


1 2 3
B = −1 1 1
0 0 0
Die ersten beiden Zeilen dieser Matrix sind linear unabhängig, da keiner der beiden Zeilenvektoren ein Vielfaches des anderen ist. Also gilt Rang(A) = Rang(B) = 2.
Nun können wir mit Hilfe des Ranges einer Matrix endlich eine allgemeine Aussage über
die Lösbarkeit eines linearen Gleichungssystems A x = b machen.
Satz 13.19. (Kriterien für die Lösbarkeit eines LGS) Sei A ∈ Mm,n (R) und b ∈ Rm .
Dann sind die folgenden drei Aussagen äquivalent:
(i) A x = b ist lösbar.
(ii) b ∈ Bild(A).
(iii) Rang(A) = Rang (A|b) .
Insbesondere gilt: Ist Rang(A) = m, so ist A x = b für jedes beliebige b ∈ Rm lösbar.
Ist eine der Bedingungen (i), (ii) oder (iii) verletzt, so folgt wegen der Äquivalenz der
Bedingungen, dass alle drei Bedingungen verletzt sind und dass daher nach (i) das
lineare Gleichungssystem nicht lösbar ist.
Wir beweisen Satz 13.19 am Ende dieses Kapitels.
Betrachten wir einige Beispiele zur Anwendung von Satz 13.19.
Beispiel 13.20. (Lösbarkeit eins
1
A=
−1
LGS) Betrachten wir das LGS A x = b mit
1
0
.
und
b=
0
0
Hier ist Rang(A)
= 1, da nur die erste Spalte linear unabhängig ist. Weiter gilt
Rang (A|b) = 2, da die beiden Spaltenvektoren
1
−1
und
1
b=
0
linear unabhängig sind. Daher ist (iii) in Satz 13.19 verletzt, und das LGS A x = b ist
also nicht lösbar.
406
13.2. Bild, Kern und Rang
Beispiel 13.21. (Lösbarkeit eins LGS) Betrachten wir das LGS A x = b mit
b
1 0 2
und
b = 1 ∈ R2 beliebig.
A=
b2
0 1 1
Dann gilt Rang(A) = 2 = m, da die beiden ersten Spaltenvektoren von A linear unabhängig sind und da es in R2 maximal 2 = dim(R2 ) linear unabhängige Vektoren gibt.
Also ist A x = b nach Satz 13.19 für jedes b ∈ R2 lösbar.
Der letzte Satz in diesem Teilkapitel gibt eine Charakterisierung der Menge aller Lösungen
eines inhomogenen linearen Gleichungssystems, welche manchmal nützlich sein kann.
Satz 13.22. (Charakterisierung der Lösungen eines inhomogenen LGS) Sei
A ∈ Mm,n (R) und b ∈ Rm , und sei xs ∈ Rn eine beliebige Lösung von A x = b. Dann ist
die Lösungsmenge (also die Menge aller Lösungen) von A x = b gegeben durch
L = xs + xh xh ∈ Kern(A) = xs + xh A xh = 0 .
(13.9)
Wir finden also, dass wir jede Lösung von A x = b als Summe einer beliebigen (aber
festen) Lösung xs von A x = b und einer geeigneten Lösung xh der homogenen Gleichung
schreiben können.
Wir beweisen Satz 13.22 am Ende dieses Kapitels.
Die Darstellung (13.9) der Lösungen des inhomogenen linearen Gleichungssystems erinnert
uns an die Darstellung der allgemeinen Lösung y(t) = yh (t) + ys (t) einer linearen Differentialgleichung zweiter Ordnung mit konstanten Koeffizienten (siehe Teilkapitel 10.4). Dies
ist kein Zufall, sondern liegt daran, dass in beiden Fällen lineare“ Gleichungen vorliegen.
”
Nach dem obigen Satz 13.22 können wir also alle Lösungen von A x = b finden, indem
wir zunächst eine beliebige Lösung xs von A x = b finden und dann alle Lösungen xh von
A x = 0 bestimmen. Mit (13.9) kennen wir dann alle Lösungen von A x = b. Natürlich
können wir ebenso gut A x = b direkt lösen, und dies ist meist einfacher. Nur wenn
man eine Lösung xs der Gleichung A x = b direkt ablesen kann, so spart die
anschließende Lösung der homogenen Gleichung A x = 0 und die Darstellung
aller Lösungen von A x = b mit (13.9) Rechenaufwand. Betrachten wir dazu ein
Beispiel.
Beispiel 13.23. (Lösung eines LGS mit Satz 13.22) Wir wollen alle Lösungen von
A x = b mit
1 0 2
−1
A=
und
b=
0 1 1
2
finden. Bevor wir Satz 13.22 anwenden, inspizieren wir unser LGS kurz. Die ersten beiden
Spaltenvektoren von A sind linear unabhängig und bilden somit eine Basis von R2 (da
dim(R2 ) = 2). Daher gilt Rang(A) = 2. Nach der Dimensionsformel gilt
dim Kern(A) = n − Rang(A) = 3 − 2 = 1,
13. Lineare Gleichungssysteme und Matrizen
407
d.h. der Kern ist ein ein-dimensionaler Teilraum von R3 , also finden wir nach (13.9) in
Satz 13.22 beliebig viele Lösungen. Wir berechnen nur mit Hilfe von Satz 13.22 die Lösung
des linearen Gleichungssystems.
• Bestimmen einer Lösung xs von A x = b: Durch Inspizieren sehen wir, dass
 
−1
xs =  2
0
eine Lösung von A x = b ist.
• Bestimmen von Kern(A), also Lösen von A x = 0: Hier ist die erweiterte Koeffizientenmatrix
1 0 2 0
0 1 1 0
bereits in Treppenform, und wir finden durch Rückwärtssubstitution
x1 + 2 x3 = 0
x2 + x3 = 0
⇐⇒
⇐⇒
x1 = −2 x3 ,
x2 = −x3 ,
und x3 kann alle Werte in R annehmen. Wir setzen x3 = c mit c ∈ R und finden somit
die Lösungsmenge des homogenen LGS A x = 0

 



 
−2 c −2 
 





−c c ∈ R = xh = c −1 c ∈ R .
Kern(A) = xh =

 

c 1 • Lösung des inhomogenen LGS A x = b: Nach Satz 13.22 ist die Lösungsmenge von
A x = b nun


 
 
−1
−2


x = xs + xh xh ∈ Kern(A) = x =  2 + c −1 c ∈ R


0
1 



−1 − 2 c 

= x =  2 − c  c ∈ R .


c
13.3
Ergänzendes Material ∗
In diesem Teilkapitel zeigen wir als ergänzendes und nicht klausurrelevantes Material
noch die Beweise der beiden Sätze 13.19 und 13.22. Diese Beweise sind nicht schwierig
und nutzen genau die Ideen von und den Zusammenhang zwischen Bild, Rang und der
Linearkombination von (linear unabhängigen) Spaltenvektoren einer Matrix. Daher sind
diese Beweise verständnisfördernd.
Beweis von Satz 13.19. Wir überlegen uns vorab, was erforderlich ist, um zu zeigen,
dass die Aussagen (i), (ii) und (iii) äquivalent sind. Statt für jedes Paar von zweien dieser
408
13.3. Ergänzendes Material ∗
Aussagen zu zeigen, dass die beiden Aussagen äquivalent sind, kann man einfacher zyklisch
vorgehen: Dabei zeigen wir (i) ⇒ (ii)“, (ii) ⇒ (iii)“ und (iii) ⇒ (i)“. Wenn wir diese
”
”
”
drei Implikationen gezeigt haben, dann können wir aus jeder Aussage (i), (ii) und (iii)
jede andere dieser Aussagen folgern, und die Äquivalenz der Aussagen (i), (ii) oder (iii)
ist damit bewiesen. Z.B. gilt dann (ii) ⇔ (iii)“, denn (ii) ⇒ (iii)“ haben wir direkt
”
”
bewiesen und (iii) ⇒ (ii)“ folgt aus (iii) ⇒ (i) ⇒ (ii)“. Wir beweisen nun (i) ⇒ (ii)“,
”
”
”
(ii) ⇒ (iii)“ und (iii) ⇒ (i)“.
”
”
Beweis von (i) ⇒ (ii)“: Ist A x = b lösbar, so gibt es ein xs ∈ Rn mit A xs = b. Also
”
liegt b im Bild von A.
Beweis von (ii) ⇒ (iii)“: Sei nun b ∈ Bild(A). Nach Bemerkung 13.12 (2) wissen wir,
”
dass b dann eine Linearkombination der Spaltenvektoren von A ist. Wir wissen weiter
nach Bemerkung 13.12 (3) und Satz 13.15, dass der Rang(A) gerade die Anzahl der
linear unabhängigen Spaltenvektoren von A ist. Ebenso ist Rang (A|b) die Anzahl der
linear unabhängigen Spaltenvektoren der erweiterten Koeffizientenmatrix (A|b). Diese ist
aber gleich der Anzahl der linear unabhängigen Spaltenvektoren von
A, weil b von den
Spaltenvektoren von A linear abhängig ist. Also folgt Rang (A|b) = Rang(A).
Beweis von (iii) ⇒ (i)“: Es gelte Rang(A) = Rang (A|b) . Da der Rang einer Matrix
”
die Anzahl der linear unabhängigen Spaltenvektoren der Matrix ist und da die Spaltenvektoren von (A|b) sich von den Spaltenvektoren von A nur durch den zusätzlichen Vektor b
unterscheiden, muss b von den Spaltenvektoren von A linear abhängig sein. Bezeichnen wir
nun die Spaltenvektoren von A mit a1 , a2 , . . . , an ∈ Rm , wobei ak = (a1,k , a2,k , . . . , am,k )T
der k-te Spaltenvektor von A ist. Dann gibt es also Koeffizienten λ1 , λ2 , . . . , λn ∈ R, so
dass gilt
λ1 a1 + λ2 a2 + . . . + λn an = b.
Nach Bemerkung 13.12 (2) können wir dies aber schreiben als
 
λ1
 λ2 
 
A  ..  = b.
.
λn
Also hat A x = b eine Lösung.
Abschließend müssen wir noch zeigen, dass aus Rang(A) = m folgt, dass A x = b für
jedes beliebige b lösbar ist:
Beweis: Sei also Rang(A) = m. Dann gibt es m linear unabhängige Spaltenvektoren von
A, und da A eine m × n-Matrix ist, liegen die Spaltenvektoren von A in Rm . In Rm bilden
m linear unabhängige Vektoren immer eine Basis von Rm . Also enthalten die Spaltenvektoren von A eine Basis von Rm . Da das Bild von A die Menge der Linearkombinationen
der Spaltenvektoren von A ist, folgt also Bild(A) = Rm . Daher liegt jedes b ∈ Rm im
Bild(A) = Rm . Damit ist nach (i) ⇔ (ii)“ aber A x = b für jedes b ∈ Rm lösbar.
”
Beweis von Satz 13.22. Um den Satz zu beweisen, müssen wir zwei Aussagen zeigen:
13. Lineare Gleichungssysteme und Matrizen
409
(1) Jedes x der Form x = xs +xh mit einer Lösung xs von A x = b und mit xh ∈ Kern(A)
ist eine Lösung von A x = b.
(2) Ist xs eine (beliebige aber) fest gewählte Lösung von A x = b, so kann jede Lösung z
von A x = b als z = xs + xh mit einem geeigneten xh ∈ Kern(A) dargestellt werden.
Beweis von (1): Sei also x = xs + xh mit einer Lösung xs von A x = b und mit xh ∈
Kern(A). Dann gilt A xs = b und A xh = 0. Also folgt für x = xs + xh
A x = A (xs + xh ) = A xs + A xh = b + 0 = b.
|{z} |{z}
=b =0
Also ist x = xs + xh eine Lösung von A x = b.
Beweis von (2): Sei z eine beliebige Lösung von A x = b, und sei xs eine fest gewählte
Lösung von A x = b. Dann gilt A z = b und A xs = b. Wir definieren nun
xh = z − xs
⇐⇒
z = xs + xh ,
und wegen
A xh = A (z − xs ) = |{z}
A z − A xs = b − b = 0
|{z}
=b =b
ist xh ∈ Kern(A). Also hat z in der Tat eine Darstellung z = xs + xh mit xh ∈ Kern(A). 410
13.3. Ergänzendes Material ∗
Kapitel 14
Quadratische Matrizen und
Determinanten
In diesem Kapitel betrachten wir nur quadratische Matrizen.
Für quadratische n × n-Matrizen A können wir die Frage stellen, ob es eine quadratische
n × n-Matrix B gibt, so dass gilt A B = B A = In (wobei In die n × n-Einheitsmatrix
ist). Dies ist immer dann der Fall, wenn Rang(A) = n gilt, und wir nennen die Matrix
B dann die inverse Matrix zur Matrix A. Wir werden lernen, wie man die inverse Matrix
mit Hilfe von elementaren Zeilenumformungen berechnet.
Anschließend führen wir die Determinante für quadratische Matrizen ein. Mit der Determinante können wir leicht überprüfen, ob eine quadratische Matrix eine inverse Matrix
besitzt oder nicht. Zudem liefert die Determinante auch Informationen über die eindeutige
(oder nicht eindeutige) Lösbarkeit eines linearen Gleichungssystems mit einer quadratischen Koeffizientenmatrix, also über die eindeutige (oder nicht eindeutige) Lösbarkeit
eines linearen Gleichungssystems mit der gleichen Anzahl von Gleichungen und Unbekannten.
14.1
Inverse Matrix für quadratische Matrizen
Wir starten mit der Definition der inversen Matrix einer quadratischen Matrix (sofern
diese existiert).
Definition 14.1. (inverse Matrix) Wir nennen eine n × n-Matrix A ∈ Mn,n (R) invertierbar (oder regulär), wenn es eine n × n-Matrix B ∈ Mn,n (R) gibt mit
A B = B A = In .
(14.1)
Dabei ist In die Einheitsmatrix in Mn,n (R) (vgl. Definition 12.6 (ii)). Ist A invertierbar,
so nennt man die Matrix B in (14.1) auch die inverse Matrix zu A (oder die Inverse
zu A), und man schreibt A−1 statt B.
411
412
14.1. Inverse Matrix für quadratische Matrizen
Bemerkung 14.2. (Eigenschaften der inversen Matrix) Um die inverse Matrix von
A ∈ Mn,n (R) zu bestimmen, reicht es aus, eine Matrix B ∈ Mn,n (R) mit A B = In zu
finden. Dann folgt automatisch die Gleichung B A = In . – Genauso gut können wir auch
verlangen, dass die Matrix B die Gleichung B A = In erfüllt, und die Gleichung A B = In
folgt dann automatisch.
Betrachten wir zunächst drei Beispiele mit 2 × 2-Matrizen
Beispiel 14.3. (invertierbare 2 × 2-Matrix) Betrachten wir
1
3 −2
und
B=
A=
1
−1
1
Nachrechnen ergibt
3 −2
1 2
3 · 1 + (−2) · 1
AB =
=
−1
1
1 3
(−1) · 1 + 1 · 1
1 · 3 + 2 · (−1)
1 2
3 −2
=
BA=
1 · 3 + 3 · (−1)
1 3
−1
1
die Matrizen
2
.
3
3 · 2 + (−2) · 3
(−1) · 2 + 1 · 3
1 · (−2) + 2 · 1
1 · (−2) + 3 · 1
=
=
1 0
0 1
1 0
0 1
= I2 ,
= I2 .
Also ist A invertierbar, und B ist die inverse Matrix zu A, d.h. A−1 = B. Ebenso können
wir aus der obigen Rechnung folgern, dass B invertierbar ist mit der inversen Matrix
B −1 = A.
Beispiel 14.4. (nicht invertierbare 2 × 2-Matrix) Betrachten wir die Matrix
1 1
.
A=
0 0
Um zu untersuchen, ob die Matrix A invertierbar ist, setzen wir eine allgemeine 2 × 2Matrix
a b
B=
c d
an und berechnen A B. Dann versuchen wir, a, b, c, d ∈ R so zu bestimmen, dass gilt
A B = I2 . Ist dies möglich, so ist A invertierbar. Andernfalls ist A nicht invertierbar. Wir
finden also die Bedingung
a+c b+d ! 1 0
a b
1 1
= I2 .
=
=
AB =
0
0
0 1
c d
0 0
Die Bedingung für den Eintrag in der zweiten Zeile und zweiten Spalte ist aber 0 = 1,
was nicht erfüllbar ist. Also ist die Matrix A nicht invertierbar.
Beispiel 14.5. (Formel für die Inverse einer invertierbaren 2 × 2-Matrix)
Betrachten wir nun eine allgemeine 2-Matrix
a b
A=
(14.2)
c d
14. Quadratische Matrizen und Determinanten
413
und versuchen deren inverse Matrix
B=
e f
g h
zu berechnen. Das vorige Beispiel macht bereits klar, dass dies nicht für beliebige Wahlen
von a, b, c, d ∈ R möglich ist, weil nicht alle 2×2-Matrizen invertierbar sind. Wir berechnen
nun A B und fordern A B = I2 , also
a b
e f
a·e+b·g
a·f +b·h ! 1 0
AB =
=
=
= I2 .
c d
g h
c·e+d·g
c·f +d·h
0 1
Wir erhalten also vier Gleichungen für die vier Unbekannten e, f, g, h ∈ R, nämlich:
a·e
c·e
a·f
c·f
+ b·g
+ d·g
=
=
+ b·h =
+ d·h =
1
0
0
1
Die erweiterte Koeffizientenmatrix dieses linearen Gleichungssystems lautet:


a 0 b 0 1
 c 0 d 0 0


 0 a 0 b 0 .
0 c 0 d 1
(14.3)
Wir multiplizieren jeweils die erste und dritte Zeile mit c und die zweite und vierte Zeile
mit a, also Z1 → c · Z1, Z3 → c · Z3, Z2 → a · Z2, Z4 → a · Z4:


a·c 0
b·c
0 c
 a · c 0 a · d 0 0
.

 0 a·c 0
b · c 0
0 a · c 0 a · d a
Nun subtrahieren wir die erste Zeile von der zweiten Zeile, und wir subtrahieren die dritte
Zeile von der vierten Zeile, also Z2 → Z2−Z1 und Z4 → Z4−Z3:


c
a·c 0
b·c
0
−c
 0
0 a·d−b·c
0


0 .
 0 a·c
0
b·c
0
0
0
a ·d − b ·c a
Falls a · d − b · c 6= 0 ist, so können wir die zweite und dritte Zeile durch a · d − b · c teilen.
Anschließend tauschen wir die zweite und dritte Zeile. Unter der Annahme a · d − b · c 6= 0
führen wir also die folgenden Zeilenoperationen aus: Z2 → Z2/(a · d − b · c), Z4 → Z4/(a ·
d − b · c) und Z2 ↔ Z3. Dies liefert


c
a · c 0 b · c 0 
 0 a· c 0 b · c
0
.

 0
0
1
0 −c/(a · d − b · c)
0
0
0
1 a/(a · d − b · c)
414
14.1. Inverse Matrix für quadratische Matrizen
Wir finden also unter der Annahme a · d − b · c 6= 0, dass gilt
g=
−c
a·d−b·c
und
h=
a
.
a·d−b·c
(14.4)
Ist aber a · d − b · c 6= 0, so muss a 6= 0 oder c 6= 0 gelten. (Wären nämlich a = 0 und
c = 0, so würde a · d − b · c = 0 folgen.)
Ist a 6= 0, so lösen wir in (14.3) die erste und die dritte Gleichung nach e und f auf: Aus
der ersten Gleichung folgt
a·e+b·g =1
⇐⇒
e=
1
(1 − b · g),
a
und Einsetzen der Formel für g liefert
b·c
1
1+
e=
a
a·d−b·c
1 a·d−b·c
b·c
=
+
a a·d−b·c a·d−b·c
a·d
1
·
a a·d−b·c
d
=
.
a·d−b·c
=
(14.5)
Aus der dritten Gleichung folgt
a·f +b·h= 0
⇐⇒
f =−
b
1
· b · h = − · h,
a
a
und Einsetzen der Formel für h liefert
f =−
b
a
−b
·
=
.
a a·d−b·c
a·d−b·c
(14.6)
Ist c 6= 0, so lösen wir in (14.3) die zweite und die vierte Gleichung nach e und f auf: Aus
der zweiten Gleichung folgt
c·e+d·g =0
⇐⇒
e=−
1
d
· d · g = − · g,
c
c
und Einsetzen der Formel für g liefert
e=−
−c
d
d
·
=
.
c a·d−b·c
a·d−b·c
Aus der vierten Gleichung folgt
c·f +d·h=1
⇐⇒
und Einsetzen der Formel für h liefert
1
d·a
f=
1−
c
a·d−b·c
f=
1
(1 − d · h),
c
(14.7)
14. Quadratische Matrizen und Determinanten
1
=
c
a·d−b·c
d·a
−
a·d−b·c a·d−b·c
−b · c
1
·
c a·d−b·c
−b
=
.
a·d−b·c
415
=
(14.8)
Wir bemerken, dass sowohl der Fall a 6= 0 als auch der Fall c 6= 0 auf die gleichen Formeln
für e und f führen (vgl. (14.5) und (14.7) bzw. (14.6) und (14.8)).
Wir finden also das folgende Ergebnis: Ist a · d − b · c 6= 0, so ist die 2 × 2-Matrix A,
gegeben durch (14.2), invertierbar und hat die inverse Matrix


d
−b
a · d − b · c
1
d −b
a · d − b · c
−1


A =
.
 = a · d − b · c −c
a
−c
a
a·d−b·c
a·d−b·c
Um aus einer invertierbaren 2 × 2-Matrix A der Form (14.2) ihre inverse Matrix A−1
zu erhalten, werden also die Elemente auf der Diagonalen (von links oben nach rechts
unten) getauscht und die anderen beiden Einträge bekommen ein negatives Vorzeichen.
Anschließend wird die so modifizierte Matrix durch a · d − b · c geteilt.
Wir halten als Lemma fest, was wir in dem vorigen Beispiel hergeleitet haben.
Lemma 14.6. (Inverse einer 2 × 2-Matrix) Gilt für die 2 × 2-Matrix
a b
A=
c d
die Bedingung
a · d − b · c 6= 0,
so ist A invertierbar, und ihre inverse Matrix A−1 ist durch die folgende Formel gegeben:
1
d −b
−1
A =
.
(14.9)
a
a · d − b · c −c
Gilt a · d − b · c = 0, so ist die Matrix A nicht invertierbar.
Betrachten wir zwei Beispiele zur Anwendung des Lemmas 14.6.
Beispiel 14.7. (Inverse einer 2 × 2-Matrix) Mit Lemma 14.6 können wir nun die
Inverse der Matrix
3 −2
A=
−1
1
aus Beispiel 14.3 leicht ausrechen. Hier gilt a = 3, b = −2, c = −1 und d = 1 und somit
a · d − b · c = 3 · 1 − (−2) · (−1) = 3 − 2 = 1 6= 0.
416
14.1. Inverse Matrix für quadratische Matrizen
Also ist die Matrix A invertierbar. Nach (14.9) finden wir
1 1 2
1
1 2
d −b
−1
.
=
=
A =
1 3
a
a · d − b · c −c
1 1 3
Beispiel 14.8. (Invertierbarkeit einer 2 × 2-Matrix) Für die Matrix
1 1
A=
0 0
aus Beispiel 14.4 gilt a = 1, b = 1, c = 0 und d = 0. Wegen
a·d−b·c= 1·0−1·0= 0−0 =0
ist die Matrix A nicht invertierbar.
Leider gibt es keine analoge Formel zu (14.9) für die inverse Matrix A−1 einer invertierbaren n × n-Matrix A mit n ≥ 3. Wie also berechnet man die inverse Matrix A−1
einer beliebigen invertierbaren Matrix A effizient?
Sei A eine invertierbare n×n-Matrix, und In bezeichne wie üblich die n×n-Einheitsmatrix.
Dann schreiben wir uns die erweiterte Matrix (A | In ) hin, also z.B. für n = 3


a1,1 a1,2 a1,3 1 0 0
 a2,1 a2,2 a2,3 0 1 0 .
a3,1 a3,2 a3,3 0 0 1
Nun wenden wir solange elementare Zeilenoperationen auf die erweiterte Matrix
(A | In ) an, bis wir links die Matrix In stehen haben, also (In | B) mit einer Matrix B,
die sich aus den elementaren Zeilenumformungen ergibt. Die Matrix B ist dann die inverse Matrix zu A.
Zur Erinnerung listen wir hier noch einmal die elementaren Zeilenoperationen auf:
• Multiplikation einer Zeile der erweiterten Matrix mit einer Zahl c 6= 0,
• Addition einer Zeile der erweiterten Matrix zu einer anderen Zeile der erweiterten Matrix,
• Vertauschen zweier Zeilen der erweiterten Matrix.
Wir haben das Streichen von Nullzeilen weggelassen, denn dieser Fall tritt aufgrund der
Invertierbarkeit der Matrix A nicht auf. Wir nutzen beim Beschreiben dieser elementaren
Zeilenoperationen dieselbe Kurznotation, die im vorigen Kapitel eingeführt wurde.
Betrachten wir zwei Beispiele.
Beispiel 14.9. (Berechnen der inversen Matrix) Betrachten wir die Matrix


1 −1 0
2 1 .
A = −1
0
1 3
14. Quadratische Matrizen und Determinanten
417
Diese ist invertierbar, und wir nehmen diese Information zunächst als Tatsache hin, da wir
noch keine einfache Methode kennengelernt haben, eine quadratische Matrix auf Invertierbarkeit zu überprüfen. Um A−1 zu berechnen, schreiben wir die erweiterte Matrix (A | I3 )
hin und transformieren diese durch elementare Zeilenoperationen in die Form (I3 | A−1).
Die Zeilenoperation Z2 → Z2+Z1 liefert




1 −1 0 1 0 0
1 −1 0 1 0 0
 −1
0
2 1 0 1 0
1 1 1 1 0 .
⇐⇒
0
1 3 0 0 1
0
1 3 0 0 1
Dann führen wir nacheinander die Zeilenoperationen Z3 → Z3−Z2 und Z3 → Z3/2 aus:




0 0
1 −1 0 1
0 0
1 −1 0 1


0
1 0 .
1 0
1 1 1
1 1 1
⇐⇒
⇐⇒
0
0
0 2 −1 −1 1
0
0 1 − 21 − 12 12
Danach führen wir nacheinander die Zeilenoperationen Z2 → Z2−Z3 und Z1 → Z1+Z2
aus:




3
1 0 0 52
0
0
1 −1 0 1
− 12
2




3
3
1 0 32
− 12 
− 12  .
⇐⇒
⇐⇒
 0 1 0 23
0
2
2
1
1
−1 −1
0
0
1
0
0 1 − 21 − 12
2
2
2
2
Also ist die inverse Matrix A−1 von A gegeben durch

 5
3
− 12
2
2


3
− 12  .
A−1 =  23
2
1
− 12 − 21
2
Beispiel 14.10. (Berechnen der inversen Matrix) Betrachten wir die Matrix
3

0 21
2


A =  0 3 0 .
1
2
0
3
2
Diese ist invertierbar, und wir nehmen diese Information zunächst als Tatsache hin, da wir
noch keine einfache Methode kennengelernt haben, eine quadratische Matrix auf Invertierbarkeit zu überprüfen. Um A−1 zu berechnen, schreiben wir die erweiterte Matrix (A | I3 )
hin und transformieren diese durch elementare Zeilenoperationen in die Form (I3 | A−1).
Wir führen die beiden Zeilenoperationen Z2 → Z2/3 und Z3 → (−3) · Z3 + Z1 aus und
erhalten

3

3
1 1 1
0
0
1
0
0
0
0
2
2 2
2 



0 0 13
0 .
⇐⇒
0 1
 0 3 0 0 1 0
1
0 0 −4 1 0 −3
0 32 0 0 1
2
Dann führen wir die Zeilenoperationen Z3 → −Z3/4 und Z1 → (2/3) · Z1 aus. Anschließend führen wir die Zeilenoperation Z1 → Z1−Z3/3 aus:




1 0 13 23 0 0
1 0 0 34 0 − 14




0 .
⇐⇒
⇐⇒
 0 1 0 0 31 0
 0 1 0 0 31
3
0 0 1 − 14 0
0 0 1 − 14 0 43
4
418
14.1. Inverse Matrix für quadratische Matrizen
Somit ist die inverse Matrix A−1 von A gegeben durch

 3
0 − 14
4


0 .
A−1 =  0 13
3
− 41 0
4
Wir halten einen nützlichen Satz fest.
Satz 14.11. (Inverse Matrix der inversen Matrix) Ist A ∈ Mn,n (R) eine invertierbare Matrix mit der inversen Matrix A−1 , so ist die inverse Matrix A−1 ebenfalls
invertierbar. Die inverse Matrix zu A−1 ist die Matrix A, also (A−1 )−1 = A.
Wir beweisen diesen Satz.
Beweis von Satz 14.11. Da A−1 die inverse Matrix zu A ist, gilt
A A−1 = A−1 A = In ,
d.h. A−1 ist invertierbar mit der inversen Matrix (A−1 )−1 = A.
Nun interessieren wir uns dafür, wann eine quadratische Matrix invertierbar ist. Man kann
diese Frage mit Hilfe des Ranges der quadratischen Matrix leicht beantworten.
Satz 14.12. (Invertierbarkeitskriterien) Sei A ∈ Mn,n (R) eine quadratische n × nMatrix. Dann sind die folgenden Aussagen äquivalent:
(i) A ist invertierbar,
(ii) Rang(A) = n,
(iii) Kern(A) = {0},
(iv) Bild(A) = Rn .
Wir beweisen Satz 14.12, weil der Beweis für das Verständnis des Satzes hilfreich ist.
Beweis von Satz 14.12. Wir zeigen zunächst, dass die Aussagen (ii), (iii) und (iv)
äquivalent sind. Dazu reicht es zu zeigen (ii) ⇒ (iii)“, (iii) ⇒ (iv)“ und (iv) ⇒ (ii)“.
”
”
”
Dann können wir zyklisch“ aus jeder der Aussagen (ii), (iii) und (iv) jede andere dieser
”
Aussagen folgern und erhalten somit, dass die Aussagen (ii), (iii) und (iv) äquivalent sind.
Beweis von (ii) ⇒ (iii)“: Sei Rang(A) = n. Nach der Dimensionsregel (siehe Satz 13.13)
”
gilt
dim Kern(A) + dim Bild(A) = n
|
{z
}
= Rang(A) = n
=⇒
dim Kern(A) = 0.
14. Quadratische Matrizen und Determinanten
419
Aus dim Kern(A) = 0 folgt direkt Kern(A) = {0}, denn nur der Nullraum {0} hat
Dimension Null.
Beweis von (iii) ⇒ (iv)“: Sei nun Kern(A) = {0}. Dann gilt dim Kern(A) = 0, und
”
mit der Dimensionsregel (siehe Satz 13.13) folgt
dim Kern(A) + dim Bild(A) = n
{z
} |
{z
}
|
=0
= Rang(A)
=⇒
dim Bild(A) = Rang(A) = n.
Also ist Bild(A) ein n-dimensionaler Teilraum von Rn . Der einzige n-dimensionale Teilraum von Rn ist aber Rn selber. Also gilt Bild(A) = Rn . (Dies sieht man daran, dass der
n-dimensionale Teilraum Bild(A) eine Basis b1 , b2 , . . . , bn hat, und die Vektoren dieser
Basis sind per Definition einer Basis linear unabhängig. Also bilden die n linear unabhängigen Vektoren b1 , b2 , . . . , bn ∈ Rn nach Satz 11.47 aber eine Basis von Rn . Damit muss
aber Bild(A) = Rn gelten.)
Beweis von (iv) ⇒ (ii)“: Sei nun Bild(A) = Rn . Dann folgt
”
Rang(A) = dim Bild(A) = dim(Rn ) = n.
Wir wissen nun bereits, dass die Aussagen (ii), (iii) und (iv) äquivalent sind. Um zu zeigen,
dass alle vier Aussagen (i), (ii), (iii) und (iv) äquivalent sind, reicht es, wenn wir zeigen,
dass (i) zu einer der Aussagen (ii), (iii) oder (iv) äquivalent ist.
Wir zeigen, dass (i) zu (iv) äquivalent ist:
Beweis von (i) ⇒ (iv)“: Sei A invertierbar, d.h. A−1 existiere. Um zu zeigen, dass
”
Bild(A) = Rn gilt, zeigen wir, dass jedes beliebige b ∈ Rn in Bild(A) liegt. Betrachten wir also b ∈ Rn beliebig. Dann gilt für x0 = A−1 b, dass
A x0 = A (A−1 b) = (A A−1 ) b = In b = b,
| {z }
= In
(14.10)
d.h. b liegt im Bild von A. Da b in Rn beliebig war, folgt Bild(A) = Rn . In (14.10) haben
wir das Assoziativgesetz für das Matrizenprodukt (siehe Lemma 12.19) und im letzten
Schritt das Resultat aus Beispiel 12.20 genutzt.
Beweis von (vi) ⇒ (i)“: Sei also Bild(A) = Rn , dann können wir das lineare Glei”
chungssystem A x = b für jedes b ∈ Rn lösen. Insbesondere finden wir Spaltenvektoren
x1 , x2 , . . . , xn ∈ Rn , so dass gilt
 
0
 ..
 .
 
0
 
A xk = ek = 1 ← k-ter Eintrag
 
0
 .
 ..
0
für k = 1, 2, . . . , n.
(14.11)
420
14.1. Inverse Matrix für quadratische Matrizen
Sei nun B die Matrix mit den Spaltenvektoren x1 , x2 , . . . , xn , wobei xk der k-te Spaltenvektor ist, also B = (x1 , x2 , . . . , xn ). Dann gilt wegen (14.11)


1 0 ··· 0 0
. 

.
0 1 . . .. 0
.
.. 
..
.
A B = (e1 , e2 , . . . , en ) = 
.
.
0
.
0
 = In .


 . .
0 .. . . 1 0
0 0 ··· 0 1
Daraus folgt, dass B die inverse Matrix zu A ist, d.h. A ist invertierbar.
Mit Hilfe von Satz 14.12 können wir nun auch leicht nachweisen, dass die Matrizen in den
Bespielen 14.9 und 14.10 invertierbar sind, ohne die inverse Matrix zu berechnen.
Beispiel 14.13. (Nachweis der Invertierbarkeit einer Matrix mit Satz 14.12)
Die 3 × 3-Matrix


1 −1 0
A = −1
2 1 .
0
1 3
aus Beispiel 14.9 ist invertierbar, denn sie hat Rang 3. Um dies nachzuweisen, zeigen wir
die lineare Unabhängigkeit der drei Spaltenvektoren von A. Betrachten wir also
 
 
  

1
−1
0
1 −1 0
2 1 λ = A λ = 0,
λ1 −1 + λ2  2 + λ3 1 = −1
0
1
3
0
1 3
d.h. wir betrachten die erweiterte Koeffizientenmatrix




1 −1 0 0
1 −1 0 0
 −1
0
2 1 0
1 1 0
⇐⇒
0
1 3 0
0
1 3 0
⇐⇒

1 −1
0
1
0
0
0 1 1

0
0 ,
0
wobei wir im ersten Schritt die Zeilenoperation Z2 → Z2+Z1 und im zweiten Schritt
die Zeilenoperationen Z3 → Z3−Z2 und anschließend Z3 → Z3/2 ausgeführt haben. Mit
Rücksubstitution finden wir
λ3 = 0,
λ2 = −λ3 = 0
und
λ1 = λ2 = 0.
Also sind die Spaltenvektoren von A linear unabhängig, und A hat den Rang Rang(A) = 3.
Nach Satz 14.12 ist A invertierbar.
Die letzte Bemerkung in diesem Teilkapitel kommt noch einmal auf das Lösen linearer
Gleichungssysteme zurück.
Bemerkung 14.14. (Lösen eines LGS mit einer invertierbaren Koeffizientenmatrix mit Hilfe der inversen Matrix) Ist A eine invertierbare n × n-Matrix, und
14. Quadratische Matrizen und Determinanten
421
ist A−1 bekannt, so ist das lineare Gleichungssysteme A x = b sofort durch eine Matrizenmultiplikation lösbar:
Ax = b
⇐⇒
A−1 (A x) = (A−1 A) x = A−1 b
| {z }
= In
⇐⇒
x = In x = A−1 b.
Betrachten wir hierzu zwei Beispiele.
Beispiel 14.15. (Lösen eines LGS mit Hilfe der inversen Koeffizientenmatrix)
Das lineare Gleichungssystem
3 x1 − 2 x2 =
4
−x1 + x2 = −2
kann in Matrizenschreibweise A x = b als
3 −2
x1
4
=
−1
1
x2
−2
|
{z
} | {z } | {z }
=x
=A
=b
geschrieben werden. Die invertierbare Koeffizientenmatrix A kennen wir bereits aus Beispiel 14.7, in welchem wir ihre inverse Matrix
1 2
−1
A =
1 3
berechnet haben. Nach Bemerkung 14.14 ist die Lösung dieses LGS also
0
4
1 2
−1
.
=
x=A b=
−2
−2
1 3
Beispiel 14.16. (Lösen eines LGS mit Hilfe der inversen Koeffizientenmatrix)
Das lineare Gleichungssystem
x1 − x2
=
2
−x1 + 2 x2 + x3 = −2
x2 + 3 x3 =
4
kann in Matrizenschreibweise A x = b als

   
1 −1 0
x1
2
−1




2 1
x2 = −2
0
1 3
x3
4
|
{z
} | {z } | {z }
=x
=A
=b
geschrieben werden. Die invertierbare Koeffizientenmatrix A kennen wir bereits aus Beispiel 14.9, in welchem wir ihre inverse Matrix

 5
3
− 12
2
2


3
− 12 
A−1 =  23
2
1
− 12 − 12
2
422
14.2. Definition der Determinante
berechnet haben. Nach Bemerkung 14.14 ist die Lösung dieses LGS also
   
 5
3
1
−
2
0
2
2
2

3
1 


.
−2
=
−2
−
x = A−1 b =  32
2
2
1
4
2
− 12 − 21
2
14.2
Definition der Determinante
Als Motivation für die Einführung der Determinante betrachten wir noch einmal ein
lineares Gleichungssystem mit 2 Gleichungen und 2 Unbekannten, also mit einer 2 × 2Koeffizientenmatrix.
Das lineare Gleichungssystem
a1,1 x1 + a1,2 x2 = b1
a2,1 x1 + a2,2 x2 = b2
hat die Matrix-Vektor Darstellung
a1,1 a1,2
x1
b
= 1 .
a2,1 a2,2
x2
b2
|
{z
} | {z } | {z }
=x
=A
=b
(14.12)
(14.13)
Um das lineare Gleichungssystem zu lösen, multiplizieren wir in (14.12) die erste Zeile
mit a2,1 und die zweite Zeile mit a1,1 . Wir erhalten:
a1,1 a2,1 x1 + a1,2 a2,1 x2 = a2,1 b1
a1,1 a2,1 x1 + a1,1 a2,2 x2 = a1,1 b2
Das Subtrahieren der ersten von der zweiten Gleichung in (14.14) liefert
a1,1 a2,2 − a1,2 a2,1 x2 = a1,1 b2 − a2,1 b1 .
(14.14)
(14.15)
Nur wenn
a1,1 a2,2 − a1,2 a2,1 6= 0
(14.16)
ist, können in (14.15) unabhängig von den Werten von b1 und b2 immer nach x2 auflösen,
also
a1,1 b2 − a2,1 b1
x2 =
.
(14.17)
a1,1 a2,2 − a1,2 a2,1
Wenn (14.16) gilt, dann muss entweder a1,1 oder a2,1 von Null verschieden sein (denn wenn
beide Null sind, so folgt auch a1,1 a2,2 − a1,2 a2,1 = 0 · a2,2 − a1,2 · 0 = 0). Ist a1,1 6= 0, so
können wir die erste Gleichung in (14.12) nach x1 auflösen und erhalten durch Einsetzen
des Wertes (14.17) für x2
x1 =
a1,2
b1
a1,2 a1,1 b2 − a2,1 b1
b1
−
x2 =
−
.
a1,1 a1,1
a1,1 a1,1 a1,1 a2,2 − a1,2 a2,1
14. Quadratische Matrizen und Determinanten
423
Ist a2,1 6= 0, so können wir die zweite Gleichung in (14.12) nach x1 auflösen und erhalten
durch Einsetzen des Wertes (14.17) für x2
x1 =
a2,2
b2
a2,2 a1,1 b2 − a2,1 b1
b2
−
x2 =
−
.
a2,1 a2,1
a2,1 a2,1 a1,1 a2,2 − a1,2 a2,1
Wir sehen also, dass das lineare Gleichungssystem (14.12) nur dann für alle b = (b1 , b2 )T
lösbar ist, wenn (14.16) gilt. Die Bedingung (14.16) hängt aber nur von den Einträgen
der Koeffizientenmatrix A in (14.13) ab, und wir nennen den Ausdruck auf der rechten
Seite von (14.16) die Determinante der 2 × 2-Matrix A.
Definition 14.17. (Determinante einer 2×2-Matrix) Die Determinante der 2×2Matrix A = (aj,k ) ∈ M2,2 (R) ist definiert durch
a1,1 a1,2 a1,1 a1,2
= a1,1 a2,2 − a1,2 a2,1 .
det(A) = det
=
a2,1 a2,2 a2,1 a2,2
Die Kurznotation für die Determinante der Matrix A ist det(A) oder |A|.
Berechnen wir die Determinante für ein paar Beispielmatrizen.
Beispiel 14.18. (Determinante von 2×2-Matrizen) Die Determinanten der Matrizen
0 1
1 0
1 2
,
und
C=
,
B=
A=
0 2
−1 1
3 4
sind
1 2
= 1 · 4 − 2 · 3 = −2,
det(A) = 3 4
1 0
= 1 · 1 − 0 · (−1) = 1,
det(B) = −1 1
0 1
= 0 · 2 − 1 · 0 = 0.
det(C) = 0 2
Als nächstes definieren wir die Determinante einer 3 × 3-Matrix.
Definition 14.19. (Regel von Sarrus: Determinante einer 3 × 3-Matrix) Die Determinante der 3 × 3-Matrix


a1,1 a1,2 a1,3
A = (aj,k ) = a2,1 a2,2 a2,3  ∈ M3,3 (R)
a3,1 a3,2 a3,3
ist wie folgt definiert:
a1,1 a1,2 a1,3 det(A) = |A| = a2,1 a2,2 a2,3 a3,1 a3,2 a3,3 (14.18)
424
14.2. Definition der Determinante
= a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2 − a1,3 a2,2 a3,1 − a1,1 a2,3 a3,2 − a1,2 a2,1 a3,3 .
Man bezeichnet (14.18) auch als die Regel von Sarrus. Die Regel von Sarrus merkt man
sich leicht wie folgt: Wir schreiben die ersten beiden Spalten der Matrix A nochmals rechts
neben die Matrix. Dann bilden wir die Produkte entlang den Diagonalen von links oben
nach rechts unten und versehen diese mit dem Vorziehen +“ und bilden die Produkte
”
entlang den Diagonalen von rechts oben nach links unten und versehen diese mit dem
Vorzeichen −“ (siehe (14.19)):
”
a1,1
a1,2
a1,3
a1,1
a1,2
..
.
.
..
..
.
a2,1
a2,2
a2,3
a2,1
a2,2
(14.19)
.
.
.
.
.
.
.
.
.
a3,1
a3,2
a3,3
a3,1
a3,2
−
−
−
+
+
+
Aufaddieren liefert die Regel von Sarrus.
Betrachten wir ein paar Beispiele.
Beispiel 14.20. (Determinanten von 3 × 3-Matrizen) Betrachten wir die Matrizen






1
2 1
1 −2 −1
2 1 0
0 1 ,
1
3
A = −1
B = 2
und
C = 1 2 1 .
2 −1 0
3 −1
2
0 1 2
Dann gilt nach der Regel von Sarrus:
det(A) = 1 · 0 · 0 + 2 · 1 · 2 + 1 · (−1) · (−1) − 1 · 0 · 2 − 1 · 1 · (−1) − 2 · (−1) · 0
= 0 + 4 + 1 − 0 + 1 + 0 = 6,
det(B) = 1 · 1 · 2 + (−2) · 3 · 3 + (−1) · 2 · (−1) − (−1) · 1 · 3 − 1 · 3 · (−1) − (−2) · 2 · 2
= 2 − 18 + 2 + 3 + 3 + 8 = 0,
det(C) = 2 · 2 · 2 + 1 · 1 · 0 + 0 · 1 · 1 − 0 · 2 · 0 − 2 · 1 · 1 − 1 · 1 · 2
= 8 + 0 + 0 − 0 − 2 − 2 = 4.
Beachten Sie: Die Regel von Sarrus gilt nur für 3 × 3-Matrizen!
Für beliebiges n definieren wir die Determinante von n×n-Matrizen mit dem sogenannten
Laplaceschen Entwicklungssatz.
Definition 14.21. (Determinante einer n×n-Matrix) Sei A = (aj,k ) ∈ Mn,n (R) eine
n × n-Matrix mit n ≥ 2. Dann definieren wir die Determinante det(A) rekursiv“ durch
”
Entwickeln nach einer beliebigen Zeile: Durch Entwicklung nach der j-ten
Zeile erhalten wir:
n
X
det(A) =
(−1)j+k aj,k det(Sj,k )
(14.20)
k=1
14. Quadratische Matrizen und Determinanten
425
Alternativ können wir die Determinante det(A) rekursiv“ durch Entwickeln nach ei”
ner beliebigen Spalte definieren: Durch Entwicklung nach der k-ten Spalte erhalten wir:
n
X
det(A) =
(−1)j+k aj,k det(Sj,k )
(14.21)
j=1
Sowohl in (14.20) als auch in (14.21) ist Sj,k diejenige (n − 1) × (n − 1)-Matrix, die aus
A durch Streichen der j-ten Zeile und k-ten Spalte entsteht:

Sj,k
a1,1
 ..
 .

a
=  j−1,1
aj+1,1
 .
 ..
an,1
···
a1,k−1
..
.
a1,k+1
..
.
· · · aj−1,k−1 aj−1,k+1
· · · aj+1,k−1 aj+1,k+1
..
..
.
.
· · · an,k−1
an,k+1

a1,n
.. 
. 

· · · aj−1,n 
.
· · · aj+1,n 
.. 
. 
· · · an,n
···
Mit der rekursiven“ Berechnung ist folgendes gemeint: Indem wir die Formel (14.20)
”
bzw. (14.21) erneut anwenden, können wir dann ebenfalls det(Sj,k ) berechnen. Wir wiederholen diesen Prozess solange bis wir irgendwann nach Streichen von Zeilen und Spalten
3 × 3-Matrizen erhalten, deren Determinante wir mit der Regel von Sarrus berechnen
können, oder bis wir 2 × 2-Matrizen erhalten, deren Determinante wir ebenfalls direkt
berechnen können.
Wichtig ist die (nicht offensichtliche) Information, dass die Formeln (14.20) und (14.21)
für jedes j bzw. k den gleichen Wert für die Determinante det(A) liefern.
Man bezeichnet die Formeln (14.20) und (14.21) auch als den Laplaceschen Entwicklungssatz.
Mit der Definition det(A) = a1,1 für die Determinante einer 1 × 1-Matrix A = (a1,1 ) gilt
der Laplacesche Entwicklungssatz auch für n = 2.
Betrachten wir zunächst zwei Beispiele.
Beispiel 14.22. (Determinante einer 3 ×3-Matrix) Wir wollen die Determinante der
Matrix


1 2 3
A = 4 5 6
7 8 9
mit dem Laplaceschen Entwicklungssatz berechnen. Wir entwickeln nach der
und erhalten
4
4 6
5 6
1+3
1+2
1+1
+
(−1)
·
3
·
+
(−1)
·
2
·
det(A) = (−1)
·1·
7
7 9
8 9
= 5·9−6·8 −2· 4·9−6·7 +3· 4·8−5·7
= (45 − 48) − 2 · (36 − 42) + 3 · (32 − 35)
ersten Zeile
5
8
426
14.2. Definition der Determinante
= −3 − 2 · (−6) + 3 · (−3)
= −3 + 12 − 9 = 0.
Beispiel 14.23. (Determinante einer 4 ×4-Matrix) Wir wollen die Determinante der
Matrix


−1
4
2
1
 2
1 −2
1

A=
 1
0
0
3
3 −1
2 −1
mit dem Laplaceschen Entwicklungssatz berechnen. Wir dürfen uns dabei aussuchen, nach
welcher Spalte oder Zeile wir entwickeln. Da in der dritten Zeile zwei Einträge Null sind,
ist die Entwicklung nach der dritten Zeile besonders günstig!
−1
4
4
2
2
1
3+4
3+1
1 −2 .
1 + 0 + 0 + (−1)
· 3 · 2
det(A) = (−1)
· 1 · 1 −2
3 −1
−1
2
2 −1
Mit der Regel von Sarrus erhalten wir
4
2
1
1 −2
1
−1
2 −1
= 4 · (−2) · (−1) + 2 · 1 · (−1) + 1 · 1 · 2 − 1 · (−2) · (−1) − 4 · 1 · 2 − 2 · 1 · (−1)
= 8 − 2 + 2 − 2 − 8 + 2 = 0,
−1
4
2
2
1 −2
3 −1
2
= (−1) · 1 · 2 + 4 · (−2) · 3 + 2 · 2 · (−1) − 2 · 1 · 3 − (−1) · (−2) · (−1) − 4 · 2 · 2
= −2 − 24 − 4 − 6 + 2 − 16 = −50.
Also finden wir
det(A) = (−1)3+1 · 1 · 0 + (−1)3+4 · 3 · (−50) = 0 + (−3) · (−50) = 150.
Als weiteres Beispiel und als Anwendung des Laplaceschen Entwicklungssatzes wollen
wir die Formeln für die Determinante einer 2 × 2-Matrix und einer 3 × 3-Matrix mit
dem Laplaceschen Entwicklungssatz herleiten. Daran sehen wir das Definition 14.17 und
Definition 14.19 nur Sonderfälle der allgemeineren Definition 14.21 sind.
Anwendung 14.24. (Determinante einer 2 × 2-Matrix) Nach dem Laplaceschen
Entwicklungssatz finden wir für die Determinante der beliebigen 2 × 2-Matrix
a1,1 a1,2
A=
a2,1 a2,2
14. Quadratische Matrizen und Determinanten
427
bei Entwicklung nach der ersten Zeile
a1,1 a1,2 det(A) = a2,1 a2,2 (14.22)
= (−1)1+1 a1,1 det(S1,1 ) + (−1)1+2 a1,2 det(S1,2 ) = a1,1 det(S1,1 ) − a1,2 det(S1,2 ).
Die beiden Matrizen S1,1 und S1,2 erhält man jeweils durch das Streichen der ersten Zeile
und ersten bzw. zweiten Spalte; also gilt
S1,1 = (a2,2 )
und
S1,2 = (a2,1 ).
Definieren wir nun die Determinante einer 1 × 1-Matrix, also einer reellen Zahl, als diese
Zahl selber, so haben wir
det(S1,1 ) = a2,2
Einsetzen in (14.22) liefert
und
det(S1,2 ) = a2,1 .
a1,1 a1,2 a2,1 a2,2 = a1,1 a2,2 − a1,2 a2,1 ,
und dies ist gerade die Formel aus Definition 14.17.
Anwendung 14.25. (Determinante einer 3 × 3-Matrix) Wir wollen nun die Regel
von Sarrus mit Hilfe des Laplaceschen Entwicklungssatzes herleiten. Für eine beliebige
3 × 3-Matrix


a1,1 a1,2 a1,3
A = a2,1 a2,2 a2,3 
a3,1 a3,2 a3,3
finden wir durch Entwicklung nach der ersten Zeile
a1,1 a1,2 a1,3 det(A) = a2,1 a2,2 a2,3 a3,1 a3,2 a3,3 a2,1 a2,2 a2,1 a2,3 a2,2 a2,3 1+3
1+2
1+1
+ (−1) a1,3 + (−1) a1,2 = (−1) a1,1 a3,1 a3,2 a3,1 a3,3 a3,2 a3,3 = a1,1 a2,2 a3,3 − a2,3 a3,2 − a1,2 a2,1 a3,3 − a2,3 a3,1 + a1,3 a2,1 a3,2 − a2,2 a3,1
= a1,1 a2,2 a3,3 − a1,1 a2,3 a3,2 − a1,2 a2,1 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2 − a1,3 a2,2 a3,1
= a1,1 a2,2 a3,3 + a1,2 a2,3 a3,1 + a1,3 a2,1 a3,2 − a1,3 a2,2 a3,1 − a1,1 a2,3 a3,2 − a1,2 a2,1 a3,3 ,
und wir erhalten in der Tat die Regel von Sarrus.
Lemma 14.26. (Sonderall: Matrizen in oberer oder unterer Dreiecksform) Sei
A = (aj,k ) ∈ Mn,n (R) eine n × n-Matrix in oberer Dreiecksform“ oder unterer
”
”
Dreiecksform“, also der Form




a1,1 0 · · ·
0
a1,1 · · · · · · a1,n
.. 
.
 0 a2,2 · · · a2,n 

. 


 a2,1 a2,2 . .
A =  ..
bzw.
A= .
.
.. 
.
.
.
.
.
.
 .
..
..
 ..
.
.
. 
0 
0 · · · 0 an,n
an,1 an,2 · · · an,n
428
14.2. Definition der Determinante
Dann gilt
det(A) = a1,1 · a2,2 · . . . · an,n ,
(14.23)
d.h. die Determinante ist das Produkt der Einträge auf der Diagonalen (von links
oben nach rechts unten) der Matrix in oberer bzw. unterer Dreiecksform.
Betrachten wir einige Beispiele für die Anwendung von Lemma 14.26.
Beispiel 14.27. (Anwendung von Lemma 14.26) Betrachten wir die Matrizen






1 0 ··· 0
−1
3 −7
9
2
0 0 0
. . .. 


−3
. .
2 −13
−5 0 0
0 1
.
 , B =  0 100
In =  . .
, A = 



.
0
0
3 −11
13 −19 4 0
. . 0
 .. . .
0
0
0
5
−7 1017 23 1
0 ··· 0 1
Die Matrizen A und In sind in unterer Dreiecksform, und die Matrix B ist in oberer
Dreiecksform. Also können wir Lemma 14.26 anwenden und finden
det(In ) = |1 · 1 ·{z. . . · 1} = 1,
n-mal
det(A) = 2 · (−5) · 4 · 1 = −40,
det(B) = (−1) · 100 · 3 · 5 = −1500.
Zuletzt beweisen wir Lemma 14.26 mit Hilfe des Laplaceschen Entwicklungssatzes.
Beweis von Lemma 14.26. Wir geben den Beweis mit vollständiger Induktion über n für
n ≥ 2, und wir betrachten nur obere Dreiecksmatrizen. Der Fall unterer Dreiecksmatrizen
kann analog behandelt werden.
Induktionsanfang n = 2: Sei also A eine 2 × 2-obere Dreiecksmatrix
a1,1 a1,2
.
A=
0 a2,2
Nach der Formel für die Determinante einer 2 × 2-Matrix finden wir
det(A) = a1,1 · a2,2 − a1,2 · 0 = a1,1 · a2,2 .
Also gilt die Formel (14.23) für n = 2.
Induktionsvoraussetzung: Wir nehmen an, dass die Formel (14.23) für alle (n−1)×(n−1)oberen Dreiecksmatrizen gilt.
Induktionsschritt n − 1 → n: Sie nun A eine n × n-obere Dreiecksmatrix


a1,1 · · · · · · a1,n
 0 a2,2 · · · a2,n 


A =  ..
..  .
..
..
 .
.
.
. 
0 · · · 0 an,n
14. Quadratische Matrizen und Determinanten
429
Dann entwickeln wir die Determinante von A mit dem Laplaceschen Entwicklungssatz
nach der ersten Spalte und erhalten


a2,2 · · · · · · a2,n
 0 a3,3 · · · a3,n 


(14.24)
det(A) = (−1)1+1 a1,1 · det  ..
..  .
.
.
.
.
| {z }
 .
.
.
. 
=1
0 · · · 0 an,n
{z
}
|
(n − 1) × (n − 1)-Matrix
Nach der Induktionsvoraussetzung finden wir für die Determinante der verbleibenden
(n − 1) × (n − 1)-oberen Dreiecksmatrix


a2,2 · · · · · · a2,n
 0 a3,3 · · · a3,n 


det  ..
= a2,2 · a3,3 · . . . · an,n .
.
.
.
..
..
.. 
 .

0
···
0
an,n
Einsetzen in (14.24) liefert nun
det(A) = a1,1 · a2,2 · a3,3 · . . . · an,n ,
und wir haben bewiesen, dass die Formel (14.23) auch für n gilt.
Nach dem Prinzip der vollständigen Induktion gilt die Formel (14.23) für alle n ≥ 2.
14.3
Rechenregeln für Determinanten
In diesem Teilkapitel lernen wir wichtige Rechenregeln für Determinanten kennen.
Satz 14.28. (Rechenregeln für Determinanten – Teil I) Für die quadratischen
Matrizen A, B ∈ Mn,n (R) gelten die folgenden Rechenregeln für die Determinanten von
A und B:
(i) Die Determinante des Matrizenprodukts A B ist gleich dem Produkt der Determinanten der beiden Matrizen A und B:
det(A · B) = det(A) · det(B).
(ii) Falls A invertierbar ist, gilt det(A) 6= 0, und die Determinante der inversen Matrix
ist gegeben durch
1
.
det(A−1 ) =
det(A)
(iii) Die Determinante der transponierten Matrix AT ist gleich der Determinante der
Matrix A, also
det(AT ) = det(A).
430
14.3. Rechenregeln für Determinanten
Betrachten wir ein paar Beispiele für die Anwendung von Satz 14.28.
Beispiel 14.29. (Determinante der transponierten Matrix) In Beispiel 14.22 haben
wir berechnet, dass für die Matrix


1 2 3
A = 4 5 6
7 8 9
gilt det(A) = 0. Nach Satz 14.28 (iii) folgt nun für die zu A transponierte Matrix


1 4 7
AT = 2 5 8 ,
3 6 9
dass gilt det(AT ) = det(A) = 0.
Beispiel 14.30. (Berechnen der Determinante mittels der Determinante der
inversen Matrix) Wir wollen die Determinante der Matrix

 5
3
− 12
2
2


3
− 12 
B =  23
2
1
− 21 − 12
2
berechnen. Nach Beispiel 14.9 wissen wir, dass B die inverse Matrix der Matrix


1 −1 0
2 1
A = −1
0
1 3
ist, d.h. B = A−1 . Nach Satz 14.28 (ii) gilt:
det(B) = det(A−1 ) =
1
.
det(A)
(14.25)
Die Determinante der Matrix A ist einfacher zu berechnen, weil wir Zeilen mit einem
Nulleintrag haben und weil die Einträge von A keine Brüche sind. Mit Entwickeln nach
der ersten Zeile finden wir


1 −1 0
−1
1
2
1
+ (−1)1+2 · (−1) · 2 1 = (−1)1+1 · 1 · det(A) = det −1
0 3
1 3
0
1 3
= 2 · 3 − 1 · 1 + (−1) · 3 − 1 · 0 = 5 + (−3) = 2.
Also folgt aus (14.25) det(B) = 1/2.
Wir machen uns zur Übung noch klar, dass die Formel in Satz 14.28 (ii) direkt aus Satz
14.28 (i) folgt: In der Tat gilt nämlich nach der Definition der inversen Matrix
A · A−1 = In ,
14. Quadratische Matrizen und Determinanten
431
und nach Satz 14.28 (i) gilt somit
det(A · A−1 ) = det(A) · det(A−1 ) = det(In ).
Weiter wissen wir nach Lemma 14.26, dass
det(In ) = |1 · 1 · 1{z· . . . · 1} = 1
n-mal
ist, da die Diagonalmatrix In insbesondere eine untere (und obere) Dreiecksmatrix ist.
Aus
det(A) · det(A−1 ) = det(In ) = 1
folgt nun, dass det(A) 6= 0 und det(A−1 ) 6= 0 gelten muss, denn ansonsten wäre det(A) ·
det(A−1 ) = 0. Also folgt mit det(A) 6= 0
det(A) · det(A−1 ) = 1
⇐⇒
det(A−1 ) =
1
.
det(A)
Nun lernen wir weitere Rechenregeln für Determinanten, die beim Ausrechnen von Determinanten immens hilfreich sein können.
Satz 14.31. (Rechenregeln für Determinanten – Teil II) Sei A ∈ Mn,n (R). Zur
Formulierung der nachfolgenden Rechenregeln für die Determinante bezeichnen wir die
Spaltenvektoren von A mit a1 , a2 . . . , an und schreiben auch A = (a1 , a2 , . . . , an ) für die
Matrix A. Analog bezeichnen wir die Zeilenvektoren von A mit a1 , a2 . . . , an und schreiben
auch
 
a1
 a2 
 
A =  .. 
.
an
für die Matrix A. Dann gelten die folgenden Rechenregeln:
(iv) Für jede reelle Zahl λ ∈ R gilt:
det(a1 , . . . , ak−1 , λ · ak , ak+1 , . . . , an ) = λ · det(a1 , . . . , ak−1 , ak , ak+1 , . . . , an ),

 1 

a1
a
 .. 
 .. 
 . 
 . 
 j−1 
 j−1 
a 
a 




j
det λ · a  = λ · det  aj  .
 j+1 
 j+1 
a 
a 
 . 
 . 
 .. 
 .. 
an
an
In Worten: Wird eine einzelne Zeile oder Spalte einer Matrix A mit einem Faktor λ
multipliziert, so wird ist der Wert der Determinante der neuen Matrix λ · det(A).
432
14.3. Rechenregeln für Determinanten
(v) Sei b ein Spaltenvektor in Rn und c ein Zeilenvektor in Rn . Dann gilt für alle
k = 1, 2, . . . , n
det(a1 , . . . , ak−1 , ak + b, ak+1 , . . . , an )
= det(a1 , . . . , ak−1 , ak , ak+1 , . . . , an ) + det(a1 , . . . , ak−1 , b, ak+1 , . . . , an ),
und für alle j = 1, 2, . . . , n gilt

 1 

 1 
a1
a
a
 .. 
 .. 
 .. 
 . 
 . 
 . 
 j−1 
 j−1 
 j−1 
a
a 

a 
 j
 j 



det a + c = det  a  + det  c  .
 j+1 
 j+1 
 j+1 
a
a 

a 
 . 
 . 
 . 
 .. 
 .. 
 .. 
an
an
an
(vi) Beim Austausch zweier Zeilen (oder Spalten) von A wechselt det(A) das Vorzeichen.
(vii) Sind zwei Zeilen (oder Spalten) von A gleich, so ist det(A) = 0.
(viii) Die Addition des λ-fachen der i-ten Zeile (oder Spalte) von A zur j-ten Zeile (oder
Spalte) von A ändert den Wert von det(A) nicht, wenn i 6= j ist.
(ix) Ist eine Zeile (oder Spalte) von A der Nullvektor, so ist der Wert der Determinante
Null, d.h. det(A) = 0.
Wir bemerken, dass es sich bei Rechenregeln (iv), (vi) und (viii) bei der Anwendung auf
Zeilen unserer Matrix um (elementare) Zeilenoperationen handelt. Hier verwenden
wir wieder die übliche in Kapitel 13 eingeführte Kurznotation. Wir verwenden eine analoge Kurznotation für die entsprechenden (elementaren) Spaltenoperationen, die bei
Rechenregeln (iv), (vi) und (viii) für Spalten auftreten, wobei wir nun mit Sj“ die j-te
”
Spalte der Matrix bezeichnen.
Betrachten wir ein Beispiel, an dem man leicht den Nutzen der Rechenregeln aus Satz
14.31 sehen kann.
Beispiel 14.32. (Anwendung von Satz 14.31) Wir wollen die Determinante der folgenden Matrix mit Hilfe von Satz 14.31 berechnen:


4
3 0 1
9
7 2 3
.
A=
4
0 2 1
3 −1 4 0
Mit Satz 14.31 (iv) ziehen wir den Faktor 2 aus der 3-ten Spalte der Matrix heraus,
d.h. wir multiplizieren die 3-te Spalte mit 1/2. Also führen wir die Spaltenoperation
S3 → S3/2 aus, und wir müssen als Kompensation“ die Determinante der neuen Matrix
”
14. Quadratische Matrizen und Determinanten
433
mit dem Faktor 2 multiplizieren:
4
3
9
7
det(A) = 2 · 0
4
3 −1
0
1
1
2
1
3
.
1
0
Nun tauschen wir mit Satz 14.31 (vi) die erste und die
führen wir die Spaltenoperation S1 ↔ S4 aus:
1
3 0
3
7 1
det(A) = 2 · (−1) · 0 1
1
0 −1 2
vierte Spalte der Matrix. Also
4
9
.
4
3
Die Motivation für diesen Schritt ist, dass wir gerne in der ersten Zeile und ersten Spalte
der Eintrag 1 haben möchten.
Nun wenden wir Satz 14.31 (viii) zweimal an. Zunächst führen wir die Zeilenoperation
Z2 → Z2 − 3 · Z1 aus:
1
3
0
4
0 −2 1 −3
.
det(A) = −2 · 1
0
1
4
0 −1 2
3
Anschließend führen wir die Zeilenoperation Z3 →
1
3
0 −2
det(A) = −2 · 0 −3
0 −1
Z3 − Z1 aus:
0
4
1 −3
.
1
0
2
3
Nun haben wir nur noch einen von Null verschiedenen Eintrag in der ersten Spalte. Daher
entwickeln wir nun nach der ersten Spalte:
−2 1 −3
−2 1 −3
0 .
0 = (−2) · −3 1
det(A) = (−2) · (−1)1+1 · 1 · −3 1
−1 2
−1 2
3
3
Nun haben wir das Problem der Berechnung von det(A) auf die Berechnung der Determinante eine 3 × 3-Matrix reduziert.
Wir wenden nach Satz 14.31 (iv) die Spaltenoperation S3 → S3/3 an und müssen zur
Kompensation“ die Determinante der neuen Matrix mit 3 multiplizieren. Weiter wenden
”
nach Satz 14.31 (iv) die Spaltenoperation S1 → (−1) · S1 an und müssen zur Kompen”
sation“ die Determinante der neuen Matrix mit −1 multiplizieren:
2 1 −1
2 1 −1
−2 1 −1
0 .
0 = 6 · 3 1
0 = (−6) · (−1) · 3 1
det(A) = (−2) · 3 · −3 1
1 2
1 2
−1 2
1
1
1
434
14.3. Rechenregeln für Determinanten
Nun wenden wir Satz 14.31 (viii) an und addieren die erste Zeile zur dritten Zeile, also
Z3 → Z3+Z1:
2 1 −1
0 .
det(A) = 6 · 3 1
3 3
0
Nun entwickeln wir nach der letzten Spalte:
3 1
3 1
1+3
= −6 · det(A) = 6 · (−1)
· (−1) · 3 3 = −6 · 3 · 3 − 1 · 3) = −36.
3 3
Betrachten wir noch ein weiteres Beispiel.
Beispiel 14.33. (Anwendung von Satz 14.31) Betrachten wir die Matrix

1
2 −1
 −1 −2
3
A=
 5 −7
1
−10 14
0

0
2
.
1
0
Wir bemerken, dass für die Zeilenvektoren der Matrix gilt
(1, 2, −1, 0) + (−1, −2, 3, 2) − 2 · (5, −7, 1, 1) = (−10, 14, 0, 0),
d.h. der letzte Zeilenvektor ist vom ersten, zweiten und dritten Zeilenvektor linear abhängig.
Daraus folgt mit Hilfe von Satz 14.31 (viii) und (vii), dass die Determinante Null ist, also
det(A) = 0. Dies sieht man wie folgt:
Die Zeilenoperation Z1 → Z1+Z2
1
−1
det(A) = 5
−10
liefert:
2 −1
−2
3
−7
1
14
0
0
0 0
2 −1 −2
=
1 5 −7
0 −10 14
Die anschließende Zeilenoperation Z1 → Z1−2 · Z3
−10 14
−1 −2
det(A) = 5 −7
−10 14
In der neuen Matrix sind die erste und die
(vii), dass gilt
−10
−1
det(A) = 5
−10
liefert:
0 0
3 2
.
1 1
0 0
2
3
1
0
2
2
.
1
0
vierte Zeile gleich; also folgt nach Satz 14.31
14
−2
−7
14
0
3
1
0
0
2
= 0.
1
0
14. Quadratische Matrizen und Determinanten
14.4
435
Anwendungen der Determinante
In diesem letzten Teilkapitel lernen wir einen Zusammenhang zwischen der Invertierbarkeit einer Matrix und dem Wert ihrer Determinante kennen. Damit erhalten wir auch
Informationen über die eindeutige Lösbarkeit linearer Gleichungssysteme mit einer quadratischen Matrix.
Satz 14.34. (Zusammenhang zwischen Determinante und Invertierbarkeit) Sei
A ∈ Mn,n (R) eine n × n-Matrix. Dann sind die folgenden Aussagen äquivalent:
(i) det(A) 6= 0.
(ii) A ist invertierbar.
(iii) A x = b ist für jeden Spaltenvektor b ∈ Rn eindeutig lösbar.
(iv) Die Spaltenvektoren a1 , a2 , . . . , an ∈ Rn der Matrix A sind linear unabhängig und
bilden eine Basis von Rn .
Wir halten als Bemerkung den Sonderfall von (iii) mit b = 0 fest.
Bemerkung 14.35. (homogene LGS mit quadratischer Matrix) Für den Sonderfall b = 0 in (iii) in Satz 14.34 bedeutet die Äquivalenz von (i) und (iii), dass gilt:
A x = 0 hat genau dann nur die Lösung x = 0, wenn gilt det(A) 6= 0.
Verneinen wir diese Aussage, so folgt:
A x = 0 hat Lösungen x 6= 0 genau dann, wenn gilt det(A) = 0.
Die Äquivalenz der Aussagen (ii), (iii) und (iv) in Satz 14.34 lässt sich relativ leicht
mit Hilfe unseres Wissens über den Rang und das Bild einer Matrix folgern. Um die
Äquivalenz von Aussage (i) in Satz 14.34 zu den Aussagen (ii), (iii) und (iv) zu zeigen,
muss man etwas trickreicher vorgehen. Wir geben den Beweis von Satz 14.34 am Ende
dieses Kapitels.
Die vermutlich gängigste Anwendung von Satz 14.34 ist die Äquivalenz von (i) und (ii).
Um zu überprüfen, ob eine n × n-Matrix invertierbar ist, berechnet man ihre
Determinante det(A). Ist det(A) 6= 0, so ist A invertierbar. Ist det(A) = 0, so ist A
nicht invertierbar. Betrachten wir hierzu ein Beispiel.
Beispiel 14.36. (Test auf Invertierbarkeit mit der Determinante) Für die 3 × 3Matrix


1 −1 0
A = −1
2 1
0
1 3
aus Beispiel 14.13 können wir nun sehr viel einfacher (als in Beispiel 14.13) nachweisen,
dass sie invertierbar ist, denn die Berechnung ihrer Determinante in Beispiel 14.30 liefert
det(A) = 2 6= 0. Also ist A invertierbar.
436
14.4. Anwendungen der Determinante
Für kleine n kann A x = b mit einer invertierbaren Matrix A ∈ Mn,n (R) sinnvoll mit der
folgenden Determinanten-Regel formelmäßig gelöst werden:
Satz 14.37. (Cramersche Regel) Sei A = (αj,k ) ∈ Mn,n (R) mit det(A) 6= 0, und sei
b ∈ Rn ein Spaltenvektor. Dann ist die eindeutige Lösung von A x = b durch
 
x1
 x2 
det(Ck )
 
,
k = 1, 2, . . . , n,
mit
xk =
x =  .. 
det(A)
.
xn
gegeben, wobei


α1,k−1 b1 α1,k+1 · · · α1,n
α2,k−1 b2 α2,k+1 · · · α2,n 

,
..
..
..
..

.
.
.
.
· · · αn,k−1 bn αn,k+1 · · · αn,n
α1,1 · · ·
 α2,1 · · ·

Ck =  ..
 .
αn,1
d.h. man erhält Ck , indem man die k-te Spalte von A durch b ersetzt.
Betrachten wir ein Beispiel.
Beispiel 14.38. (Lösen eines LGS mit der Cramerschen Regel) Das lineare Gleichungssystem aus Beispiel 14.16
x1 − x2
=
2
−x1 + 2 x2 + x3 = −2
x2 + 3 x3 =
4
kann in Matrizenschreibweise A x = b als

   
1 −1 0
x1
2
−1




2 1
x2 = −2
0
1 3
x3
4
|
{z
} | {z } | {z }
=x
=A
=b
geschrieben werden. Wegen det(A) = 2 (vgl. Beispiel 14.30) sind die Voraussetzungen für
die Cramersche Regel erfüllt. Nach der Cramerschen Regel gilt
2 −1 0
1
det(C1 )
1
0
2 1 = · 12 − 4 + 0 − 0 − 2 − 6) = = 0,
x1 =
= · −2
det(A)
2 2
2
4
1 3
x2 =
1
det(C2 )
=
det(A)
2
x3 =
1
det(C3 )
=
det(A)
2
1
2
0
1
−4
· −1 −2 1 = · − 6 + 0 + 0 − 0 − 4 + 6 =
= −2,
2
2
0
4 3
1 −1
2
4
1
2 −2 = · 8 + 0 − 2 − 0 + 2 − 4 = = 2.
· −1
2
2
0
1
4
Wir finden also die Lösung x = (0, −2, 2)T.
14. Quadratische Matrizen und Determinanten
437
Wir betrachten nun noch zwei Anwendungen der Determinante in R3 , nämlich das Kreuzprodukt und das Spatprodukt.
Definition 14.39. (Kreuzprodukt) Seien x = (x1 , x2 , x3 )T und y = (y1 , y2, y3 )T zwei
Spaltenvektoren in R3 . Dann bezeichnen wir den Vektor
    

x1
y1
x2 y3 − x3 y2
x × y = x2  × y2  = x3 y1 − x1 y3 
(14.26)
x3
y3
x1 y2 − x2 y1
als das Kreuzprodukt der Vektoren x und y.
Wir halten die wichtigsten Eigenschaften des Kreuzproduktes fest.
Lemma 14.40. (Eigenschaften des Kreuzprodukts) Seien x, y und z beliebige Vektoren in R3 . Dann hat das Kreuzprodukt die folgenden Eigenschaften:
(i) Es gilt
y × x = −x × y.
(ii) Es gelten
(λ · x) × y = x × (λ · y) = λ · (x × y)
und
(x + y) × z = x × z + y × z
und
x × (y + z) = x × y + x × z.
(14.27)
(iii) Sind die beiden Vektoren x und y parallel oder anti-parallel, also wenn gilt
x = c y oder y = c x mit einer Konstante c ∈ R, so ist das Kreuzprodukt x × y
der Nullvektor 0.
(iv) Sind x und y beide ungleich dem Nullvektor und sind x und y nicht parallel und
nicht anti-parallel, so hat das Kreuzprodukt x × y die Eigenschaft, dass es es auf
den beiden Vektoren x und y senkrecht steht (also orthogonal zu diesen
beiden Vektoren ist).
Als Ergänzung sollte noch die Rechte-Hand-Regel zur Bestimmung der Richtung von
x×y erwähnt werden: Spreizen wir den Daumen, Zeigefinger und Mittelfinger der rechten
Hand so, dass die drei Finger jeweils senkrecht zueinander stehen. Wir identifizieren den
Daumen mit der Richtung von x und den Zeigefinger mit der Richtung von y. Dann steht
der Mittelfinger auch x und y senkrecht und gibt die Richtung des Vektors x × y an.
Betrachten wir zunächst zwei Beispiele.
Beispiel 14.41. (Kreuzprodukt) Das Kreuzprodukt der Vektoren
 
 
1
−1



0
x= 2
und
y=
3
1
438
14.4. Anwendungen der Determinante
ist
    
  
1
−1
2·1−3·0
2







.
2
0
3
·
(−1)
−
1
·
1
−4
x×y =
×
=
=
3
1
1 · 0 − 2 · (−1)
2
Dieser Vektor ist in der Tat orthogonal zu x und y, denn
*   +
1
2



2 , −4 = 1 · 2 + 2 · (−4) + 3 · 2 = 2 − 8 + 6 = 0,
hx, x × yi =
3
2




* −1
2 +
hy, x × yi =  0 , −4 = (−1) · 2 + 0 · (−4) + 1 · 2 = −2 + 0 + 2 = 0.
1
2
Beispiel 14.42. (Kreuzprodukt) Das Kreuzprodukt der Vektoren
 
 
2
−1
x = −4
und
y =  2
−2
1
ist

   
 
  
2
−1
(−4) · 1 − (−2) · 2
−4 + 4
0
x × y = −4 ×  2 = (−2) · (−1) − 2 · 1 =  2 − 2 = 0 = 0.
−2
1
2 · 2 − (−4) · (−1)
4−4
0
Dies ist auch, was wir nach Lemma 14.40 (iii) erwartet haben, denn es gilt x = −2 y.
Wo kommt nun die Determinante ins Spiel? Die kompliziert aussehende Formel
(14.26) für das Kreuzprodukt kann man leicht formal mit der Determinante einer besonderen 3 × 3-Matrix berechnen.
Bemerkung 14.43. (Kreuzprodukt) Das Kreuzprodukt kann leicht formal mit Hilfe
der Determinante einer geeigneten 3 × 3-Matrix berechnet werden:
e1 e2 e3 (14.28)
x × y = x1 x2 x3 y1 y2 y3 x1 x2 x1 x3 x2 x3 1+3
1+2
1+1
+ (−1)
+ (−1)
· e3 · e2 = (−1)
· e1 · y1 y2 y1 y3 y2 y3 = e1 · x2 y3 − x3 y2 − e2 · x1 y3 − x3 y1 + e3 · x1 y2 − x2 y1
 
 
 
1
0
0





= 0 · x2 y3 − x3 y2 + 1 · x3 y1 − x1 y3 + 0 · x1 y2 − x2 y1
0
0
1


x2 y3 − x3 y2
= x3 y1 − x1 y3  ,
x1 y2 − x2 y1
14. Quadratische Matrizen und Determinanten
439
wobei die Vektoren e1 , e2 , e3 die Vektoren der Standardbasis von R3 sind, also
 
 
 
1
0
0





e1 = 0 ,
e2 = 1 ,
e3 = 0 .
0
0
1
Wir schreiben also in (14.28) in die erste Zeile formal die Vektoren e1 , e2 , e3 und in die
zweite Zeile schreiben wir die Komponenten des Vektors x und in die dritte Zeile die
Komponenten des Vektors y. Dann berechnen wir die Determinante mittels Entwickeln
nach der ersten Zeile oder mit der Regel von Sarrus.
Betrachten wir noch ein Beispiel.
Beispiel 14.44. (Kreuzprodukt) Wir wollen das Kreuzprodukt a × b der Vektoren
 
 
3
−2



a=
4
und
b=
2
−2
1
mit Hilfe der Determinante berechnen:
e1 e2 e3 a × b = 3 4 −2
−2 2
1
3 4
3 −2
4 −2
1+3
1+2
1+1
+ (−1)
+ (−1)
· e3 · · e2 · = (−1)
· e1 · −2 2
−2
1
2
1
= e1 · 4 · 1 − (−2) · 2 − e2 · 3 · 1 − (−2) · (−2) + e3 · 3 · 2 − 4 · (−2)
= e1 · (4 + 4) − e2 · (3 − 4) + e3 · (6 + 8)
 
8

1 .
= 8 e1 + e2 + 14 e3 =
14
Wir wollen nun Lemma 14.40 beweisen, da dies nicht schwierig ist und das Verständnis
der Eigenschaften des Kreuzprodukts erhöht.
Beweis von Lemma 14.40.
(i) Aus der Formel (14.26) für das Kreuzprodukt folgt direkt

 



−(x2 y3 − x3 y2 )
x2 y3 − x3 y2
y2 x3 − y3 x2
y × x = y3 x1 − y1 x3  = −(x3 y1 − x1 y3 ) = − x3 y1 − x1 y3  = −x × y.
−(x1 y2 − x2 y1 )
x1 y2 − x2 y1
y1 x2 − y2 x1
(ii) Für jedes λ ∈ R folgt aus der Formel (14.26) für das Kreuzprodukt
   


λ x1
y1
(λ x2 ) y3 − (λ x3 ) y2
(λ x) × y = λ x2  × y2  = (λ x3 ) y1 − (λ x1 ) y3 
λ x3
y3
(λ x1 ) y2 − (λ x2 ) y1
440
14.4. Anwendungen der Determinante

   

x2 (λ y3) − x3 (λ y2 )
x1
λ y1
= x3 (λ y1) − x1 (λ y3 ) = x2  × λ y2  = x × (λ y)
x1 (λ y2) − x2 (λ y1 )
x3
λ y3
und mit der anfänglich gleichen Rechnung folgt




λ (x2 y3 − x3 y2 )
x2 y3 − x3 y2
(λ x) × y = λ (x3 y1 − x1 y3 ) = λ x3 y1 − x1 y3  = λ (x × y).
λ (x1 y2 − x2 y1 )
x1 y2 − x2 y1
Aus der Formel (14.26) für das Kreuzprodukt folgt mit dem Distributivgesetz für die
reellen Zahlen

 

(x2 + y2 ) z3 − (x3 + y3 ) z2
(x2 z3 − x3 z2 ) + (y2 z3 − y3 z2 )
(x + y) × z = (x3 + y3 ) z1 − (x1 + y1 ) z3  = (x3 z1 − x1 z3 ) + (y3 z1 − y1 z3 )
(x1 + y1 ) z2 − (x2 + y2 ) z1
(x1 z2 − x2 z1 ) + (y1 z2 − y2 z1 )

 

x2 z3 − x3 z2
y2 z3 − y3 z2
= x3 z1 − x1 z3  + y3 z1 − y1 z3  = x × z + y × z.
x1 z2 − x2 z1
y1 z2 − y2 z1
Damit ist die erste Formel in (14.27) bewiesen. Mit Hilfe von (i) und der bereits bewiesenen
ersten Formel in (14.27) folgt nun
x × (y + z) = −(y + z) × x = − y × x + z × x = −y × x − z × x = x × y + x × z.
(iii) Betrachten wir nun zwei Vektoren x und y für die x = c · y gilt. Dann finden wir

  
c y2 y3 − c y3 y2
0



x × y = (c y) × y = c y3 y1 − c y1 y3 = 0 = 0.
c y1 y2 − c y2 y1
0
Für den Fall y = c · x gibt man den Nachweis analog.
(iv) Wir müssen zeigen dass, gilt hx, x × yi = 0 und hy, x × yi = 0. Wir berechnen also
die beiden Skalarprodukte
*x  x y − x y +
1
2 3
3 2
hx, x × yi = x2  , x3 y1 − x1 y3 
x3
x1 y2 − x2 y1
= x1 x2 y3 − x1 x3 y2 + x2 x3 y1 − x2 x1 y3 + x3 x1 y2 − x3 x2 y1 = 0,
+
*  
y1
x2 y3 − x3 y2
hy, x × yi = y2  , x3 y1 − x1 y3 
y3
x1 y2 − x2 y1
= y1 x2 y3 − y1 x3 y2 + y2 x3 y1 − y2 x1 y3 + y3 x1 y2 − y3 x2 y1 = 0.
Damit ist Lemma 14.40 bewiesen.
14. Quadratische Matrizen und Determinanten
441
z
y
x
Abb. 14.1: Das von den Vektoren x, y und z im R3 aufgespannte Spat.
Anwendung 14.45. (Spatprodukt) Drei beliebige linear unabhängige Vektoren x, y, z
in R3 spannen ein Spat in R3 auf (vgl. Abbildung 14.1) Das Volumen des Spats kann mit
dem Spatprodukt hx×y, zi berechnet werden. Genauer ist |hx×y, zi| das Volumen des
von x, y, z aufgespannten Spates. Das Spatprodukt kann mit Hilfe der Determinante
wie folgt berechnet werden
x1 y1 z1 hx × y, zi = x2 y2 z2 .
x3 y3 z3 Dass diese Formel korrekt ist, sieht man leicht indem man die linke Seite berechnet:
*x y − x y  z +
2 3
3 2
1
hx × y, zi = x3 y1 − x1 y3  , z2 
x1 y2 − x2 y1
z3
= x2 y3 z1 − x3 y2 z1 + x3 y1 z2 − x1 y3 z2 + x1 y2 z3 − x2 y1 z3
= x1 y2 z3 + y1 z2 x3 + z1 x2 y3 − z1 y2 x3 − x1 z2 y3 − y1 x2 z3
x1 y1 z1 = x2 y2 z2 ,
x3 y3 z3 wobei wir im letzten Schritt die Regel von Sarrus verwendet haben.
Zuletzt beweisen wir noch den zentralen Satz 14.34.
Beweis von Satz 14.34. Wir beweisen zunächst, dass die Aussagen (ii), (iii) und (iv)
äquivalent sind, indem wir zeigen (ii) ⇒ (iii)“, (iii) ⇒ (iv)“ und (iv) ⇒ (ii)“. Dann
”
”
”
können wir aus jeder der drei Aussagen (ii), (iii) und (iv) zyklisch“ jede andere dieser
”
Aussagen folgern und haben damit die Äquivalenz von (ii), (iii) und (iv) gezeigt.
Beweis von (ii) ⇒ (iii)“: Sei die Matrix A ∈ Mn,n (R) invertierbar.
”
442
14.4. Anwendungen der Determinante
Sei zunächst x0 eine Lösung von A x = b. Dann können wir die Gleichung A x0 = b von
vorne mit der inversen Matrix A−1 multiplizieren und erhalten
−1
−1
|A {z A} x0 = A b
= In
⇐⇒
x0 = In x0 = A−1 b,
d.h. jede Lösung x0 von A x = b ist von der Form x0 = A−1 b. Somit ist eine solche
Lösung eindeutig bestimmt.
Weiter ist x0 = A−1 b auch für jedes b ∈ Rn eine Lösung von A x = b, denn
A x0 = A A−1 b = A
A−1} b = In b = b
| {z
= In
Also ist A x = b für jedes b ∈ Rn eindeutig lösbar.
Beweis von (iii) ⇒ (iv)“: Sei A ∈ Mn,n (R), und sei A x = b für jedes b ∈ Rn eindeutig
”
lösbar. Bezeichnen a1 , a2 , . . . , an ∈ Rn die n Spaltenvektoren von A, so wissen wir aus
Kapitel 13, dass A x gerade die Linearkombination der Spaltenvektoren a1 , a2 , . . . , an ∈ Rn
mit den Koeffizienten x1 , x2 , . . . , xn ist, also
A x = x1 a1 + x2 a2 + . . . + xn an .
Dass A x = b für jedes b ∈ Rn eindeutig lösbar ist bedeutet nun, dass jeder Vektor
b ∈ Rn eindeutig als Linearkombination der n Spaltenvektoren a1 , a2 , . . . , an darstellbar
ist. Dies bedeutet aber, dass {a1 , a2 , . . . , an } eine Basis für Rn ist. Insbesondere sind die
Spaltenvektoren a1 , a2 , . . . , an von A linear unabhängig.
Beweis von (iv) ⇒ (ii)“: Seien die Spaltenvektoren a1 , a2 , . . . , an von A linear un”
abhängig und bilden diese somit eine Basis von Rn . Dann können wir jeden Vektor b ∈ Rn
eindeutig als Linearkombination der a1 , a2 , . . . , an darstellen. Insbesondere gibt es für jeden Vektor ek der Standardbasis eindeutig bestimmte Koeffizienten b1,k , b2,k , . . . , bn,k ∈ R,
so dass gilt
b1,k a1 + b2,k a2 + . . . + bn,k an = ek ,
|
{z
}
= A bk
wobei

b1,k
 b2,k 
 
bk =  ..  .
 . 

bn,k
Die Gleichungen A bk = ek für k = 1, 2, . . . , n können wir aber schreiben als
A b1 , b2 , . . . bn = (e1 , e2 , . . . , en ),
{z
}
|
{z
} |
= In
=B
und wir sehen, dass A invertierbar ist mit der inversen Matrix B = (b1 , b2 , . . . , bn ).
Wir haben jetzt gezeigt, dass die Aussagen (ii), (iii) und (iv) äquivalent sind. Um zu zeigen,
dass alle vier Aussagen (i), (ii), (iii) und (iv) äquivalent sind, reicht es zu zeigen, dass aus
14. Quadratische Matrizen und Determinanten
443
einer der äquivalenten Aussagen (ii), (iii) und (iv) die Aussage (i) folgt, und umgekehrt,
dass aus (i) eine der äquivalenten Aussagen (ii), (iii) und (iv) folgt. Wir zeigen (ii) ⇒
”
(i)“ und (i) ⇒ (iv)“.
”
Beweis von (ii) ⇒ (i)“: Sei A ∈ Mn,n (R) invertierbar mit der inversen Matrix A−1 . Dann
”
gilt nach Satz 14.28 (i)
A A−1 = In
det(A) det(A−1 ) = det(In ) = 1,
=⇒
und damit diese Gleichung wahr ist, muss insbesondere det(A) 6= 0 gelten.
Beweis von (i) ⇒ (iv)“: Statt der Implikation (i) ⇒ (iv)“ können wir auch die Kontrapo”
”
sition ¬ (iv) ⇒ ¬ (i)“ zeigen. Es gelte also die Negation von (iv), d.h. die Spaltenvektoren
”
a1 , a2 , . . . , an von A seien linear abhängig (und bilden keine Basis von Rn ). Dann gibt es
Koeffizienten λ1 , λ2 , . . . , λn ∈ R, die nicht alle Null sind und für die gilt
λ1 a1 + λ2 a2 + λ3 a3 + . . . + λn an = 0.
Wir wissen, dass mindestens ein λk von Null verschieden ist, und ohne Beschränkung der
Allgemeinheit können wir annehmen, dass λ1 6= 0 ist. Dann gilt
n
X −λj
λ3
λn
λ2
a2 −
a3 − . . . −
an =
aj .
a1 = −
λ1
λ1
λ1
λ1
j=2
(14.29)
Wir setzen nun (14.29) in die Determinante von A ein und nutzen wiederholt Satz 14.31
(v) und (iv):
!
n
X
−λj
aj , a2 , a3 , . . . , an
det(A) = det a1 , a2 , a3 , . . . , an = det
λ
1
j=2
=
n
X
j=2
=
det
−λj
aj , a2 , a3 , . . . , an
λ1
n
X
−λj
j=2
det (aj , a2 , a3 , . . . , an ) = 0.
λ1 |
{z
}
=0
Dabei sind die Determinanten in der letzten Zeile nach Satz 14.31 (vii) Null, weil diese
zwei gleiche Spaltenvektoren, nämlich den ersten und den j-ten Spaltenvektor, enthalten.
Wir haben also die Negation von (i), nämlich det(A) = 0, bewiesen.
Herunterladen