Mathematik f¨ur Anwender I

Werbung
Mathematik für Anwender I
Julio José Moyano Fernández
Skript zur Vorlesung SS 2013
Inhaltsverzeichnis
Vorwort
1
Motivation
3
1.
Aussagenlogik (für Anwender)
5
2.
Beweismethoden. Das Induktionsprinzip
13
3.
Mengen und Abbildungen
21
4.
Angeordnete Körper. Die reellen Zahlen
29
5.
Folgen reeller Zahlen (I): Konvergenz
37
6.
Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien
45
7.
Folgen reeller Zahlen (III): Reihen
51
8.
Stetigkeit und Grenzwerte reeller Funktionen
61
9.
Der Zwischenwertsatz von Bolzano
69
10.
Elementare Funktionen der Analysis
77
11.
Differenzierbarkeit reeller Funktionen
87
12.
Mittelwertsätze der Differenzialrechnung
97
13.
Integrierbarkeit reeller Funktionen à la Riemann
105
14.
Der Hauptsatz der Infinitesimalrechnung
117
15.
Ein Rückblick auf die Infinitesimalrechnung
125
16.
Lineare Gleichungssysteme
133
17.
Vektorräume
145
18.
Basen und Dimension
155
19.
Lineare Abbildungen
165
20.
Matrizenrechnung (I): Der Rang einer linearen Abbildung
173
iv
Abschnitt 0
21.
Matrizenrechnung (II): Basiswechsel
181
22.
Determinanten
189
23.
Eigenwerte und Eigenvektoren
201
Nachwort
209
Literaturverzeichnis
211
Vorwort
Der vorliegende Text ist die Niederschrift der Vorlesung Mathematik für An”
wender I”, die ich im Sommersemester 2013 gehalten habe. Ziel des Kurses ist, die
wichtigsten Begriffe der Infinitesimalrechnung und linearen Algebra – auf einem
universitären Niveau– zu vermitteln.
Das Skript basiert auf vorangegangenen Vorlesungen, insbesondere der Ma”
thematik für Anwender I”, die im Wintersemester 2012/13 bei Herrn Prof. Dr. Tim
Römer gehalten wurde. Inspirationsquellen sind die Skripte von meinen Kollegen
Herrn Prof. Dr. Winfried Bruns und Herrn Prof. Dr. Holger Brenner, sowie das
Buch von Alexander Markowitsch Ostrowski Vorlesungen über Differential- und
”
Integralrechnung”. Auch das Buch Analysis by Its History” von Ernst Hairer und
”
Gerhard Wanner, vor allem was den Abschnitt über Integration angeht, soll in diesem Zusammenhang genannt werden.
Ich danke den Tutoren, die bei der mühsamen Tätigkeit des wöchentlichen Korrigierens mitgeholfen haben; auch Frau Marianne Gausmann, die meine Lücken in
LATEX immer gerne gefüllt hat. Mein Dank gilt insbesondere Dr. Jan Ulickza für
seine sorgfältige Betreuung der Übung, sein konstantes Interesse an den Fortschritten der Studenten und seine didaktischen und wissenschaftlichen Kommentare und
Vorschläge, welche die Veranstaltung zweifellos bereichert haben.
Osnabrück, Juli 2013
Julio José Moyano Fernández
Motivation
Ex nihilo nihil fit: Von nichts kommt nichts. Mit diesem berühmten Prinzip,
das von Parmenides kommen soll, wollen wir unseren Weg durch die Grundlagen der Mathematik beginnen. Deswegen müssen wir zunächst präsentieren, was
überhaupt nötig ist, damit wir uns möglichst bald mit der Erarbeitung der Grundlagen der reellen Analysis und der linearen Algebra als Basis für Anwendungen
beschäftigen können. Es ist also unvermeidlich, über Aussagenlogik, Mengen und
Zahlenbereiche ein paar Abschnitte aufzugreifen. Auch scheint es sinnvoll, eine
Beschreibung der typischen Beweismethoden, die im Laufe der Vorlesung auftauchen werden, zu thematisieren. Nebenbei gemerkt, der Name der Veranstaltung ist
Mathematik für Anwender”, und nicht Anwendungen der Mathematik”. Damit
”
”
ist gemeint, dass in erster Linie mathematische Begriffe betrachtet werden.
Nach den Grundlagen der Mathematik knüpfen wir unmittelbar an die Infinitesimalrechnung an. In diesem Teil fangen wir mit den wichtigsten Eigenschaften
der reellen Zahlen an, und analysieren ihr Verhalten der Unendlichkeit gegenüber:
So untersuchen wir Folgen reeller Zahlen, und als Spezialfälle davon, Reihen reeller Zahlen. Ein zweiter Teil der Analysis ist dem Begriff von Funktion gewidmet:
Definition, bedeutungsvolle Beispiele und Untersuchung der Stetigkeit, Differenzierbarkeit und Integierbarkeit von Funktionen. Hierzu werden Ableitungs- und
Stammfunktionsrechnung in Erinnerung gerufen.
Alle diese Kenntnisse führen in natürlicher Weise zum Begriff Gleichung,
oder allgemeiner, Gleichungssystem. Die Lösung einer Gleichung bzw. eines Gleichungssystems ist in der Regel alles anderes als einfach. Es hängt von Art der
involvierten Funktionen und vom Zahlbereich der gesuchten Lösung ab 1. Es
gibt aber Spezialfälle, in denen dies einfach ist; als einfachste, die linearen Gleichungssysteme. Die Lösungsmenge eines linearen Gleichungssystems besitzt eine
besondere Struktur, nämlich die Struktur eines affinen Raumes, welche aus der
Struktur von Vektorraum verallgemeinert wird. Dies ist unsere Motivation um die
lineare Algebra zu entwickeln. Die lineare Algebra ist dann für uns die Untersuchung von Vektorräumen und ihren Relationen (lineare Abbildungen gennant) .
1Dies ist schon klar: Betrachten wir z.B. die Gleichung x2 + √2 = 0. Wie viele Lösungen können wir
innerhalb der natürlichen Zahlen finden?
4
Abschnitt 0
Dies ist allerdings nicht trivial. Vektoren werden nicht mehr nur Pfeilchen auf
der Ebene sein: Wir abstrahieren den Begriff; Vektoren können nun Funktionen, Integrale, Matrizen sein, d.h. alles, worauf eine Vektorraumsstruktur definiert werden
kann. Dieser Gedankenstil ist das A und O der höheren Mathematik, und macht den
größten Unterschied zum Mathematikunterricht. Aber keine Panik! Wir werden in
dieser Vorlesung nur einen eingeschränkten Abstraktionsgrad erreichen, weil wir
uns einfach eine Einführung vornehmen.
Schließlich möchte ich noch ein paar Ratschläger geben: Falls Sie eines nicht
verstehen, oder anderes vertiefen möchten... einfach fragen! Tutoren, Übungsleiter
und ich selber werden uns gerne immer wieder zur Verfügung stellen.
Auch rufen wir uns noch den Spruch in Erinnerung, den H. Hauser in seinem
Lehrbuch der Analysis” erwähnt: Bruder Beispiel ist der beste Prediger. Wenn
”
Sie also eine neue Definition wirklich verstehen wollen, sollten Sie sich immer die
folgenden drei Objekte vorstellen können:
(i) Ein triviales Beispiel davon (etwa: Entspricht die leere Menge, oder der
ganze Raum, der Definition?)
(ii) Ein nicht triviales Beispiel: (d.h. eines, bei dem Sie ein paar Rechnungen
machen müssen, um sich selber zu überzeugen.)
(iii) Ein Gegenbeispiel (d.h., ein Objekt, das der Definition nicht entspricht.)
Ich hoffe, lieber Besucher dieser Vorlesung, es wird Ende des Sommersemesters gesagt: Wir haben etwas gelernt! Und vielleicht noch dazu: Wir hatten
(manchmal) Spaß dabei!
Valladolid/Osnabrück, Karwoche 2013
Julio José Moyano Fernández
ABSCHNITT 1
Aussagenlogik (für Anwender)
Sehen wir den Mathematiker als einen Rechner, der Behauptungen in Theoreme
verwandelt1, dann sollten wir uns fragen, was für eine Methasprache er versteht. Sie
ist nichts anderes als die Lehre des vernünftigen Schlussfolgerns, d.h., die Logik.
Mit Hilfe von definierten Regeln der Schlussfolgerung wollen die Mathematiker
ständig Aussagen auf ihrer Gültigkeit prüfen. Das Verständnis des grundlegenden
Prozesses dabei ist die Aufgabe der Logik. Aus terminlichen Gründen werden wir
nur die wichtigsten Aspekten der für uns interessantesten Situation, nämlich die so
genannte Aussagenlogik, thematisieren.
Die Aussagenlogik ist jenes Teilgebiet der Logik, das sich mit Aussagen und
deren Verknüpfungen durch Junktoren befasst. Im Folgenden erklären wir, was
unter Aussagen und Junktoren zu verstehen ist.
Aussagen sind deskriptive, also beschreibende Sätze: Das Gebäude ist schön”,
”
die Schnee ist weiß”. Fragen, normative Sätze und andere sprachliche Äußerun”
gen gehören nicht dazu. Bei den folgenden Beispielen handelt es sich nicht um
Aussagen:
* 0;
/
* 67 + 78;
* Eine Multiplikation von sechs Quadraten;
* Die Menge aller ganzen Zahlen.
Ausgangspunkte sind die Elementaraussagen, d.h., einfache Aussagen (wie z.B.
Das Mädchen ist klein”), im Gegensatz zu zusammengesetzten Aussagen (wie
”
Das Mädchen ist klein und ihr Bruder auch”). Diesen Elementaraussagen wird
”
ein Wahrheitswert zugeordnet. Grundlegend bleiben Sätze, die innerhalb eines Systems nicht begründet oder abgeleitet werden (können): Diese nennen wir Axiome.
Der Ausdruck Axiom bezeichnet
(i) einen unmittelbar einleuchtenden Grundsatz (klassischer Axiombegriff);
(ii) ein vielfach bestätigtes allgemeines Naturgesetz (naturwissenschaftlicher
Axiombegriff);
(iii) einen zu Grunde gelegten, nicht ableitbaren Ausgangssatz (moderner
Axiombegriff).
1
Paraphrase des berühmten Zitats von P. Erdös: Ein Mathematiker ist eine Maschine, die Kaffee in
”
Theoreme verwandelt.”
6
Abschnitt 1
In der Aussagenlogik von Aristoteles befinden sich die folgenden klassischen
Beispiele von Axiomen:
(a) Das Indentitätsprinzip, das besagt, dass ein Gegenstand A genau dann mit
einem Gegenstand B identisch ist, wenn sich zwischen A und B kein Unterschied finden lässt.
(b) Das Prinzip vom ausgeschlossenen Widerspruch, das besagt, dass zwei einander widersprechende Gegensätze nicht zugleich zutreffen können.
(c) Das Prinzip vom ausgeschlossenen Drittel, das berühmte Principium exclusi tertii2, oder Tertium non datum (d.h., ein Drittes ist nicht gegeben): Es
besagt, dass von zwei einander widersprechenden Gegensätzen mindestens
einer zutreffen muss.
Es gibt viele andere Beispiele. In der Mathematik können wir hierzu zwei
erwähnen:
(d) Das Parallelenaxiom: Zu jeder Geraden und jedem Punkt, der nicht auf
dieser Geraden liegt, gibt es genau eine zu der Geraden parallele Gerade
durch diesen Punkt3.
(e) Jede natürliche Zahl n hat genau einen Nachfolger n + 1.
Tatsächlich kann man aus mehreren verschiedenen Aussagen neue Aussagen
bilden. Aus der Aussage Peter ist hier” kann man die negierte Aussage Peter ist
”
”
nicht hier” machen. Aus den Aussagen
Julia ist krank” und Julia ist im Krankenhaus”
”
”
kann man beispielsweise die folgenden neuen Aussagen basteln:
Julia ist krank, deswegen ist sie im Krankenhaus.
Julia ist nicht krank, aber sie ist im Krankenhaus.
Julia ist nicht im Krankenhaus, obwohl sie krank ist.
Zwei verschiedene Aussagen sind in dieser Art und Weise in einen logischen
Zusammenhang zueinander gebracht worden. Dieser Prozess erfolgt nach Gebrauch logischer Verknüpfungen, die man Junktoren nennt. Der Wahrheitsgehalt
der zusammengesetzten Aussagen ergibt sich allein aus den Wahrheitsgehalten der
beteiligten Aussagen.
Bemerkungen:
(i) Die Untersuchung, ob eine einfache Aussage wahr ist oder nicht, fällt nicht in
den Bereich der formalen Logik. Wir werden nur die wahrheitsdefinierte, klassische, zweiwertige Aussagenlogik betrachten (d.h., es wird vorausgesetzt, dass jede
2Principium exclusii tertii sive medii inter duo contradictoria.
3Das Parallelenaxiom ist ein umstrittenes Axiom der Euklidischen Geometrie, mit einer langen Geschichte hinter sich. Es lohnt sich, etwas darüber zu lesen.
Aussagenlogik (für Anwender)
7
Aussage entweder wahr oder falsch ist).
(ii) Es gibt natürlich Sätze, die in einer bestimmten Situation wahr, in einer anderen
falsch sein können, wie z. B. Es zieht jetzt hier”. Mögliche Mehrdeutigkeiten las”
sen sich aber durch geeignete Zusatzangaben (wann und wo genau) ausschliessen.
Es steht weiterhin eine starke Mehrdeutigkeit zwischen konkreten Aussagen
und ihren Bedeutungen, wie es beispielsweise hier der Fall ist:
Ich bin verletzt, deswegen kann ich nicht mitspielen.
Weil ich verletzt bin, kann ich nicht mitspielen.
Dies wollen wir vermeiden, indem wir Aussagenvariablen für die Aussagen
und bestimmte Symbole für die Junktoren nutzen. Für die Aussagen schreiben wir
p, q, r, s, . . .
An dem Gehalt von p sind wir nicht interessiert, sondern an den möglichen Wahrheitswerte von p, welche wir mit w (wahr) oder f (falsch) bezeichen. Für die Negation (oder Verneinung) einer Aussage p, die wir ¬p bezeichnen, bekommen wir
die folgenden Wahrheitswerte:
p ¬p
w f
f w
Die Tabelle, die vorliegt, nennt man die Wahrheitstabelle der Verneinung. Genauso
können wir für weitere Junktoren zwischen zwei Aussagen p und q die entsprechende Wahrheitstabelle einsetzen. Erstens betrachten wir die Konjunktion (oder
Und-Verknüpfung) p ∧ q; Sie ist genau dann wahr, wenn beide Teilaussagen wahr
sind, also sonst falsch:
p
w
w
f
f
q p∧q
w
w
f
f
w
f
f
f
Die Disjunktion p∨q ist die einschließende Oder-Verknüpfung: Sie ist wahr sobald
mindestens eine der Teilaussagen wahr ist, also falsch, wenn beide Teilaussagen
falsch sind:
8
Abschnitt 1
p
w
w
f
f
q p∨q
w
w
f
w
w
w
f
f
Eine Variante davon ist die ausschließende Oder-Verknüpfung (p ⊻ q), inder
eine und nur eine4 der Teilaussagen wahr ist (auch (p ∧ ¬q) ∨ (¬p ∧ q)):
p
w
w
f
f
q p⊻q
w
f
f
w
w
w
f
f
Die Implikation zweier Aussagen p ⇒ q ist der wichtigste Junktor der Mathematik.
Sie kann in vielfacher Form ausgedrückt werden: Wenn p wahr ist, dann ist auch
q wahr; q, falls p; unter der Bedingung p gilt q; p ist eine hinreichende Bedingung
für q; q ist eine notwendige Bedingung für p:
p
w
w
f
f
q p⇒q
w
w
f
f
w
w
f
w
Die Ausage p heißt Voraussetzung, die Aussage q heißt Konklusion. Der wichtige
Fall, in dem die zwei Implikationen p ⇒ q und q ⇒ p zugleich gelten, ist bemerkenswert: Man spricht dann über Äquivalenz von p und q, und schreibt p ⇔ q:
p
w
w
f
f
q p⇔q
w
w
f
f
w
f
f
w
Es gibt Aussagen, deren Wahrheitswerte immer wahr sind. Sie heißen tautologische oder allgemeingültige Aussagen, oder auch Tautologien (tautos = aus sich
4Solche Unterscheidungen sind manchmal besonders nützlich. Hierzu könnte man den alten Witz
erwähnen: Ein Mathematiker kommt nach Hause, schenkt seiner Frau einen großen Strauß Rosen und sagt:
Ich liebe Dich!”. Sie nimmt die Rosen, haut sie ihm um die Ohren, gibt ihm einen Tritt und wirft ihn aus
”
der Wohnung. Was hat er falsch gemacht? Er hätte sagen müssen: Ich liebe Dich und nur Dich”.
”
Aussagenlogik (für Anwender)
9
heraus). Axiome sind immer Tautologien. Als Beispiele betrachten wir die drei
Axiome von Aristoteles. Die Wahrheitstabelle des Indentitätsprinzips lautet
p p⇒p
w
w
f
w
Das Prinzip vom ausgeschlossenen Widerspruch besitzt die Wahrheitstabelle
p ¬p p ∧ ¬p ¬(p ∧ ¬p)
w f
f
w
f w
f
w
Und die Wahrheitstabelle des Prinzips vom ausgeschlossenen Drittel ist
p ¬p p ∨ ¬p
w f
w
f w
w
Zum Schluss führen wir das Gegenstück von Tautologien ein: Wenn der Gesamtwahrheitswert für jede mögliche Bewertung immer falsch ist, heißen solche Aussagen kontradiktorisch (oder unerfüllbar). Speziell ist jede Negation einer Tautologie kontradiktorisch. Aussagen, die nicht kontradiktorisch sind, müssen bei mindestens einer Bewertung den Wahrheitswert wahr ( w”) haben; wir nennen sie daher
”
erfüllbare Aussagen.
Folgendes ist ein Beispiel einer kontradiktorischen Aussage:
p
w
w
f
f
q ¬p p ⇒ q (p ⇒ q) ⇒ p ((p ⇒ q) ⇒ p) ⇔ ¬p
w f
w
w
f
f
f
f
w
f
w w
w
f
f
f w
w
f
f
Zum Schluss wird von Quantoren die Rede sein. Betrachten wir die Aussagen
Lichtalben sind schöner als die Sonne5”
”
und (nach dem Vorkurs Mathematik WS 2009/10 von Herr Prof. Dr. Brenner)
Ich fresse einen Besen”,
”
und gucken uns die innere Struktur genauer an.
Mit der ersten Aussage kann man meinen, dass Lichtalben im Normalfall”
”
oder fast immer” schöner als die Sonne sind, oder aber im strengeren Sinn, dass
”
wirklich alle Lichtalben schöner als die Sonne sind.
5Die von Arnulf Krause angepasste Übersetzung der klassischen Beschreibung von Lichtalben heißt
Lichtalben sind schöner als die Sonne von Angesicht. Vgl. Gylfaginning, XVII. In Die Edda des Snorri
”
Sturluson”, Ausw., Übers. u. Komm. Arnulf Krause. Reclam Verlag, 1997.
10
Abschnitt 1
In der Mathematik interessiert man sich für Aussagen, die ohne Ausnahmen
gelten (wobei man allerdings in einer mathematischen Aussage die Ausnahmen
auch explizit machen kann), so dass wir die Aussage im strengen Sinn verstehen
wollen. Es handelt sich um eine sogenannte Allaussage. In ihr kommen zwei Attribute vor, die man Prädikate nennt:
- ein Lichtalb zu sein, und
- schöner als die Sonne zu sein.
Ein Prädikat P ist eine Eigenschaft, was einem Subjekt zukommen oder nicht zukommen kann; Es ist für sich genommen keine Aussage, aber daraus kann man
grundsätzlich auf zwei verschiedene Arten eine Aussage machen:
(a) durch Einsetzen: Man bildet für ein konkretes Objekt x die Aussage
P(x)
die bedeutet, dass das Objekt x die Eigenschaft P besitzt, was wahr sein
kann (oder nicht),
(b) durch Quantifizierung: Man bildet die Aussage, dass alle Objekte (typischerweise aus einer bestimmten Grundmenge) die Eigenschaft P haben,
was wiederum wahr oder falsch sein kann. Das drückt man durch
∀xP(x)
aus. Das Symbol ∀ ist eine abkürzende Schreibweise für für alle”. Es wird
”
Allquantor genannt.
Die obige Aussage über Lichtalben kann man als
∀x(L(x) ⇒ S(x))
schreiben. Das bedeutet, dass für alle Objekte ohne weitere Einschränkung gilt:
wenn es sich um einen Lichtalb handelt (wenn also L zutrifft), dann ist er auch
schöner als die Sonne (trifft dann S zu). Für jedes x steht in der großen Klammer eine Aussage in der Form einer Implikation, die eben besagt, dass wenn der
Vordersatz wahr ist, dann auch der Nachsatz wahr sein muss.
Die zweite Beispielaussage, Ich fresse einen Besen”, kann bedeuten, dass ich
”
genau einen Besen fresse oder aber mindestens einen Besen. Die Wortbedeutung
des unbestimmten Artikels ein” ist nicht eindeutig (in einer Aussage wie ein
”
”
Land braucht Friede” bedeutet eins” sogar alle”!) In der Mathematik bedeutet es
”
”
fast immer mindestens einen”. Die Besenaussage kann man also durch Quantifi”
zierung paraphrasieren als
Es gibt einen Besen, den ich fresse.
Mit Hilfe von Aussagenvariablen und Quantoren ist diese als
∃x(B(x) ∧ F(x)), genauso als ∃x(F(x) ∧ B(x))
Aussagenlogik (für Anwender)
11
verdolmetscht, wobei B(x) bedeutet, dass das Objekt x ein Besen ist und wobei
F(x) bedeutet, dass ich dieses x fresse. Das Zeichen ∃ wird es gibt” oder es
”
”
existiert” gesprochen und der Existenzquantor (oder Existenzoperator) genannt.
Damit ist natürlich es existiert mindestens einen” gemeint6.
”
Der Allquantor und der Existenzquantor sind über die Negation eng miteinander verknüpft und lassen sich gegenseitig ersetzen:
¬(∀xP(x)) ist gleichbedeutend mit ∃x(¬P(x))
und
¬(∃xP(x)) ist gleichbedeutend mit ∀x(¬P(x))
und
∀xP(x) ist gleichbedeutend mit ¬(∃x(¬P(x)))
und
∃xP(x) ist gleichbedeutend mit ¬(∀x(¬P(x))).
Neben einstelligen Prädikaten wie P(x) gibt es auch mehrstellige Prädikate der
Form
P(x, y), oder Q(x, y, z), etc.,
die eine Beziehung zwischen mehreren Objekten ausdrücken, wie z.B. ist ver”
wandt mit”, ist größer als”, sind Eltern von” usw. Entsprechend kann dann über
”
”
die verschiedenen Variablen quantifiziert werden, d.h. man hat Ausdrücke der
Form
∀x(∃yP(x, y)), ∃x(∀yP(x, y)), ∀x(∃y(∀zQ(x, y, z))) usw.
Dabei darf man aber nur Variablennamen (also Buchstaben x, y, z, . . .) verwenden,
die im gegenwärtigen Kontext nicht schon anderweitig verwendet sind. Eine Aussage wie ∀x(∀xP(x, x)) ergibt keinen Sinn. Auf jede Variable darf sich maximal
nur ein Quantor beziehen. Zu beachten sind auch folgende Regeln:
- Statt ∀x∀y∀zQ(x, y, z) schreibt man manchmal auch ∀xyzQ(x, y, z).
- Die Variablenbezeichnung in einer quantifizierten Aussage ist grundsätzlich unwichtig, d.h. es ist egal, ob man ∀α P(α ) oder ∀β P(β ) schreibt.
Die Logik, die sich mit quantifizierten Aussagen auseinandersetzt, heißt Prädikatenlogik oder Quantorenlogik. Wir werden sie nicht systematisch entwickeln, da
sie in der Mathematik als Mengentheorie auftritt. Statt P(x), dass also ein Prädikat
einem Objekt zukommt, schreiben wir x ∈ P, wobei dann P die Menge aller Objekte bezeichnet, die diese Eigenschaft haben. Mehrstellige Prädikate treten in der
Mathematik als Relationen auf. Die Sprache der Mathematik wird in der Sprache
der Mengen formuliert. In Abschnitt 3 werden wir diese ganz elementar vorstellen.
6Wird es existiert genau einen” gemeint, so schreibt man aus praktischen Gründen in der Mathematik
”
oft ∃!
ABSCHNITT 2
Beweismethoden. Das Induktionsprinzip
Wir bezeichnen mit
N
Z
Q
R
die Menge der natürlichen Zahlen (einschließlich 0),
die Menge der ganzen Zahlen,
die Menge der rationalen Zahlen,
die Menge der reellen Zahlen.
Wir gehen davon aus, dass der Leser auf der Schule gelernt hat, in diesen Zahlbereichen zu rechnen, und dass er die Zeichen < ( kleiner“), ≤ ( kleiner oder gleich“),
”
”
> ( größer“), ≥ ( größer oder gleich“) kennt.
”
”
Ein kluger Kopf hat festgestellt:
-
Wenn man die Zahl 1 quadriert, bekommt man wieder 1.
Wenn man die Zahl 3 quadriert, bekommt man die 9.
Wenn man die Zahl 5 quadriert, bekommt man die 25.
Wenn man die Zahl 7 quadriert, bekommt man die 49.
So viel kann man stets sagen: Wenn man die ersten vier ungeraden Zahlen
quadriert, bekommt man wieder eine ungerade Zahl. Dieser Feststellung liegt die
Frage nahe: Ist dies immer so? D.h., gilt immer, dass wenn man eine ungerade
Zahl quadriert, bekommt man wieder eine ungerade? Leicht umformuliert: Ist das
Quadrat einer (beliebigen) ungeraden Zahl, sagen wir n, wieder ungerade?
Wenn die Menge N der natürlichen Zahlen endlich wäre, und damit die Menge aller ungeraden natürlichen Zahlen, könnte man die Liste ausschöpfen und für
jeden einzelnen Fall überprüfen, ob es tatsächlich stimmte. Es ist aber nicht der
Fall. Wie kann man dann nachprüfen, dass die obige Aussage richtig, also allgemeingültig, ist? Man muss nach einem Beweis dafür suchen.
Ein Beweis ist in der Mathematik, die als fehlerfrei anerkannte Herleitung der
Richtigkeit oder auch Unrichtichkeit einer Aussage aus einer Menge von Axiomen,
die als wahr vorausgesetzt werden, und anderen Aussagen, die bereits bewiesen
wurden.
Ein Beweis kann entweder direkt oder indirekt geführt werden. Bei einem direkten Beweis wird die Behauptung durch Anwendung von bereits bewiesenen
Aussagen und durch logische Folgerungen nachgeprüft, also, bewiesen.
14
Abschnitt 2
Bei einem indirekten Beweis (auch Widerspruchsbeweis genannt) zeigt man,
dass ein Widerspruch entstände, wenn die zu beweisende Behauptung falsch wäre.
Dazu nimmt man an, dass die Behauptung falsch ist, und wendet die gleiche Methoden wie beim direkten Beweis an. Wenn daraus einen Widerspruch entsteht,
dann kann die Behauptung nicht falsch sein, muss die also richtig sein.
Beispiel. Die Behauptung lautet: Das Quadrat einer ungeraden natürlichen Zahl
n ist ungerade.
Direkter Beweis. Es sei n eine ungerade natürliche Zahl. Dann lässt sich n darstellen als n = 2k + 1, wobei k eine weitere natürliche Zahl ist. Daraus folgt:
n2 = n · n = (2k + 1) · (2k + 1) = 4k2 + 4k + 1 = 2 · (2k2 + 2k) + 1.
Aus dieser Darstellung folgt unmittelbar, dass n2 der Gestalt 2e
k + 1, mit e
k ∈ N, ist,
2
also, dass n eine ungerade natürliche Zahl ist.
Indirekter Beweis. Angenommen, es existierte eine ungerade Zahl m, sagen wir
m = 2m′ + 1 mit m′ ∈ N so dass m2 gerade wäre. Wir haben
m2 = (2m′ + 1)2 = 4(m′ )2 + 4m′ + 1 = 4((m′ )2 + m′ ) + 1
Einerseits setzen wir voraus, dass m2 gerade ist. Andererseits besagen die obigen
Gleichungen, dass m2 die Form 2(2(m′ )2 + 2m′ ) + 1 hat, d.h., dass m2 eine ungerade Zahl ist. Hier entsteht der Widerspruch: Eine natürliche Zahl kann entweder
gerade oder ungerade sein, aber nicht beides zugleich.
Wir geben ein weiteres Beispiel eines Widerspruchsbeweises an. Es handelt
sich um den berühmten Beweis über die Existenz unendlich vieler Primzahlen1
von Euklid:
Beispiel (Indirekter Beweis). Die Behauptung lautet: Es gibt unendlich viele Primzahlen.
Beweis. Angenommen, es gäbe nur endlich viele Primzahlen p1 , . . . , pn .
Es sei m := p1 · . . . · pn . Wir machen hierzu eine einfache Fallunterscheidung:
(1) Ist m + 1 eine Primzahl, dann ist sie nach Konstruktion größer als p1 , . . . , pn
und somit eine weitere Primzahl, die keine von den vorgegebenen ist, im Widerspruch zur Annahme.
(2) Anderenfalls, sei q ein Primteiler von m + 1. Wäre q eine der Primzahlen
p1 , . . . , pn , so würde q sowohl m als auch m + 1 teilen, d.h., q würde die Differenz (m + 1) − m = 1 teilen, was absurd ist. Also ist q eine weitere Primzahl, was
wiederum der Annahme widerspricht.
Mehr Fälle als (1) und (2) gibt es nicht. Die Annahme, es gäbe nur endlich viele
Primzahlen, ist also falsch.
1Eine Primzahl ist eine von 0 und 1 verschiedene natürliche Zahl, die nur durch 1 und sich selbst teilbar
ist.
Beweismethoden. Das Induktionsprinzip
15
Dieser Beweis von Euklid ist reizvoll: Es ist ein Beispiel von einem nichtkonstruktiven Beweis, da er keine Formel für eine beliebig große Primzahl angibt,
sondern nur zeigt, dass es sie geben muss. Aber dort wurde auch ein Beweis durch
Fallunterscheidung durchgeführt. Das ist ein weiteres Beweisprinzip.
Bei der Fallunterscheidung möchte man eine Aussage q beweisen, und man
beweist sie dann einerseits (Fall 1) unter der zusätzlichen Annahme p und andererseits (Fall 2) unter der zusätzlichen Annahme ¬p. Dabei muss man zweimal etwas
machen, der Vorteil ist aber, dass die zusätzlichen Annahmen zusätzliche Methoden und Techniken erlauben, sodass sich das ursprüngliche Problem möglicherweise vereinfachern lässt. Die entsprechende Wahrheitstabelle der Fallunterscheidung
können wir noch erwähnen:
p
w
w
f
f
q ¬p p ⇒ q ¬p ⇒ q (p ⇒ q) ∧ (¬p ⇒ q) ((p ⇒ q) ∧ (¬p ⇒ q)) ⇒ q
w f
w
w
w
w
f
f
f
w
f
w
w w
w
w
w
w
f w
w
f
f
w
Es handelt sich selbsverständlich um eine Tautologie.
Ein weiteres Prinzip, das oft verwendet wird, ist die Kontraposition: In einem
Beweis nimmt man einen pragmatischen Standpunkt ein, und manchmal ist es
einfacher, von ¬q nach ¬p zu gelangen als von p nach q. Beide Methoden sind
tatsächlich äquivalent:
p
w
w
f
f
q ¬q ¬p p ⇒ q ¬q ⇒ ¬p (p ⇒ q) ⇔ (¬q ⇒ ¬p)
w f
f
w
w
w
f w
f
f
f
w
w f
w
w
w
w
f w w
w
w
w
Man unterscheidet auch zwischen konstruktiven und nicht konstruktiven Beweisen: Manchmal kann man nur die Existenz eines mathematischen Objekts zeigen, ohne das Objekt selbst anzudeuten. In diesem Fall liegt ein nicht-konstruktiver
(oder rein-existenzieller) Beweis vor. Manchmal kann man aber das Objekt, dessen
Existenz bewiesen wurde, präzise beschreiben, oft sogar mittels eines Algorithmus,
der das Objekt berechnet: Hier liegt ein konstruktiver Beweis vor.
Beispiel. Die Behauptung lautet: Die reelle Funktion f (x) = 2x − 1 besitzt eine
Nullstelle x0 ∈ R mit 0 ≤ x0 ≤ 1.
Konstruktiver Beweis. Sei x0 = 12 . Dann gilt
1
f (x0 ) = 2 · x0 − 1 = 2 · − 1 = 1 − 1 = 0.
2
16
Abschnitt 2
Das heißt, x0 = 12 ist eine Nullstelle von f . Offenbar ist 0 ≤
Behauptung bewiesen.
1
2
≤ 1. Dann ist die
Die Nullstelle ist sogar mit x0 = 21 angegeben. Hier sieht man, dass wir irgendwie geahnt haben, was die Lösung war. Mögliche Lösungen zu erraten ist eine
Eigenschaft, die man trainieren kann, aber die, die Mathematik—vor allem am
Anfang—schwierig macht.
Nicht-konstruktiver Beweis. Die Funktion f ist stetig2. Ferner ist f (0) = −1 <
0 und f (1) = 1 > 0, und deswegen sind wir in der Lage, den Zwischenwertsatz
anzuwenden, nachdem die Behauptung folgt.
Über den Wert der Nullstelle ist jedoch nichts bekannt!
Eine weitere wichtige, etwas komplizierte Methode Beweise zu führen ist die
vollständige Induktion. Sei dazu A eine Aussage über natürliche Zahlen.
(IA) Induktionsanfang: (Man zeigt:) A gilt für die natürliche Zahl n0 .
(IV) Induktionsvoraussetzung (Man nimmt an:) A gilt für eine natürliche Zahl
n ≥ n0 .
(IS) Induktionsschritt: (Man zeigt:) Aus der I.V. folgt, dass A auch für n + 1 gilt.
(IS’) Induktionsschluss: (Es folgt:) Daher gilt A für alle natürlichen Zahlen ≥ n0 .
Beispiel. Für alle n ∈ N gilt
0+1+2+3+4+...+n =
n(n + 1)
.
2
Wir beweisen dies durch vollständige Induktion:
(IA) Die Aussage gilt für die natürliche Zahl n0 = 0; denn es ist offensichtlich
0(0+1)
0= 2 .
(IV) Die Aussage gelte für die natürliche Zahl n ≥ n0 = 0.
(IS) Es ist
n(n + 1)
+n+1
0 + 1 + . . . + n + (n + 1) = (0 + 1 + . . . + n) + (n + 1) =
2
n(n + 1) + 2(n + 1) (n + 1)(n + 2)
=
=
.
2
2
Hier haben wir in der zweiten Gleichung die I.V. benutzt.
(IS’) Die Aussage gilt für alle natürlichen Zahlen n.
Das Induktionsschema beschreibt eine fundamentale Eigenschaft der natürlichen Zahlen, die man letztlich nicht aus einfacheren Eigenschaften der natürlichen
2Das Konzept stetige Funktion werden wir in Abschnitt 6 betrachten. Ein wichtiger Satz in dieser
Theorie ist der Zwischenwertsatz: Sei I ein Intervall, sei f : R → I eione stetige Funktion auf I mit a, b ∈ I
und a ≤ b. Für ein c ∈ R gelte f (a) ≤ c ≤ f (b) (oder f (b) ≤ c ≤ f (a)). Dann existiert ein ξ mit a ≤ ξ ≤ b
mit f (ξ ) = c.
Beweismethoden. Das Induktionsprinzip
17
Zahlen herleiten kann. Es präzisiert das und so weiter“-Argument. Das Schema
”
kann hinsichtlich der Bezeichnungen variiert werden.
Verwandt mit dem Prinzip der vollständigen Induktion sind rekursive Definitionen. Hier werden wir nur einige (sehr nützliche) Beispiele dazu betrachten. Wir
haben bereits Summen
1+...+n
unbefriediegend verwendet, weil die Bezeichnung · · ·“ a priori keine präzise No”
tation ist. Als erstes Beispiel von rekursiver Definition führen wir das Summenzeichen ∑ ein:
0
∑ ai := a0,
i=0
n
n−1
∑ ai := ∑ ai + an
i=0
i=0
bei n ≥ 1.
Etwas ungenau schreiben wir dann gelegentlich auch wieder, für m ≤ n
n
∑ ai = am + . . . + an .
i=m
Aus praktischen Gründen definieren wir ∑ni=m ai := 0 für n < m, und wir sprechen
dann über die leere Summe.
Wir geben eine naheliegende Verallgemeinerung des Summenzeichens an: Für
m, n ∈ Z, m ≤ n, sei
n
n−m
∑
ak :=
k=m
∑ ak+m .
k=0
(Mit dieser Definition lässt sich die Summation beliebig verschieben.) Die folgenden, leicht beweisbaren, Rechenregeln werden wir ständig verwenden:
n
∑
k=m
n
ak +
n
∑
bk =
k=m
n
∑ (ak + bk ),
c
k=m
∑
n
ak =
k=m
∑ cak .
k=m
Analog führt man das Produktzeichen ∏ ein:
0
∏ ai := a0,
i=0
n
n−1
∏ ai := ∏ ai · an
i=0
i=0
bei n ≥ 1.
Ein weiteres Beispiel einer rekursiven Definition sind die Potenzen einer reellen
Zahl a mit Exponenten n ∈ N:
a0 := 1,
an := an−1 · a.
18
Abschnitt 2
Um das Induktionsprinzip zu üben, beweisen wir die folgende nützliche Aussage:
Satz 2.1 (Geometriche Summenformel). Es ist
n
∑ ak =
k=0
für alle a ∈ R, a 6= 1, und alle n ∈ N.
1 − an+1
1−a
Beweis. Die Aussage ist in der Tat für n0 = 0 richtig. Sie gelte für ein n ≥ 0. Dann
ist sie auch für n + 1 richtig:
n+1
n
∑ ak =
∑ ak + an+1 =
k=0
k=0
1 − an+1
+ an+1
1−a
1 − an+1 + an+1(1 − a) 1 − an+2
=
.
1−a
1−a
Die Aussage gilt somit für alle natürlichen Zahlen.
=
Sei n ≥ 1 eine natürliche Zahl. Dann definiert man die n-Fakultät
n
n! := ∏ i
i=1
(= 1 · 2 · 3 · · · n).
Wir ergänzen die Definition von n! noch durch
0! := 1.
Eng mit n! verwandt sind die Binomialkoeffizienten: Für alle n, k ∈ N definieren
wir
n!
n
:=
.
k!(n − k)!
k
Das Symbol nk wird n über k“ gesprochen. Für das Rechnen mit Binomialkoef”
fizienten wird häufig die folgende Aussage herangezogen.
Satz 2.2. Für alle k, n ∈ N ist
n
n
n+1
.
+
=
k−1
k
k
Beweis. Für k ≥ n und k = 0 folgt die Formel direkt. Für 0 < k < n gilt:
n!
n
n
n!
=
+
+
k−1
k
k!(n − k)! (k − 1)!(n − k + 1)!
n!(n − k + 1) + n!(k) n!((n − k + 1) + k)
=
=
k!(n + 1 − k)!
k!(n + 1 − k)!
(n + 1)!
n+1
=
.
=
k!(n + 1 − k)!
k
Die Binomialkoeffizienten haben ihren Namen wegen
Beweismethoden. Das Induktionsprinzip
19
Satz 2.3. Für alle a, b ∈ R und alle n ∈ N gilt die binomische Formel“:
”
n n
(a + b)n = ∑
an−k bk .
k
k=0
Beweis. Wir verwenden das Induktionsprinzip. Offenbar ist nur beim Induktionsschritt etwas zu beweisen. Es ist
n n n−k k
n+1
n
a b
(a + b)
= (a + b)(a + b) = (a + b) ∑
k
k=0
n n n n−k k+1
n n+1−k k
a b
a
b +∑
=∑
k=0 k
k=0 k
n n n+1−k k n−1 n n−k k+1
n+1
a b + bn+1
a
b +∑
=a +∑
k
k
k=0
k=1
n n n
n n+1−k k
n+1
an+1−k bk + bn+1
a
b +∑
=a +∑
k=1 k − 1
k=1 k
n
n
n
n+1
=a +∑
+
an+1−k bk + bn+1
k
k−1
k=1
n
n + 1 n+1−k k
a
b + bn+1
= an+1 + ∑
k
k=1
n+1 n + 1 n+1−k k
=∑
a
b.
k
k=0
Dabei haben wir den Summationsindex verschoben und 2.2 benutzt.
Die Binomialkoeffizienten lassen sich dank 2.2 besonders einfach mit Hilfe des
Pascalschen Dreiecks ermitteln:
1
1
1
1
1
2
3
1
3
1
1 4 6 4 1
1 5 10 10 5 1
...
Die n-te Zeile des
Schemas (n = 0, 1, 2, . . . ) enthält der Reihe nach die Binomialkoeffizienten nk (k = 0, . . . , n). Bei 1 ≤ k ≤ n − 1 erhält man sie gemäß 2.2 durch
Addition der beiden unmittelbar schräg darüber stehenden.
ABSCHNITT 3
Mengen und Abbildungen
Ein wichtiger Bestandteil der modernen mathematischen Sprache sind Mengen, Abbildungen und die mit ihnen verbundenen Operationen. Die bereits in Abschnitt 2 benutzten Symbole N, Z, Q, R bezeichnen nicht einzelne Zahlen, sondern
gewisse Mengen von Zahlen.
Wir setzen voraus, dass der Leser mit dem Begriff Menge“ vertraut ist. Eine
”
präzise Definition des Begriffs Menge“ können wir nicht geben. Dies wird aber
”
für unsere Zwecke zu keinerlei Schwierigkeiten führen. Der Schöpfer der Mengenlehre, Georg Cantor, hat folgendermaßen beschrieben, was er unter einer Menge
versteht: Eine Menge M ist die Zusammenfassung von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens (welche die Elemente
von M genannt werden) zu einem Ganzen.
Mengentheoretische Symbole, die uns vielleicht schon vertraut sind, werden
zunächst erklärt: In
N⊂Z⊂Q⊂R
N$Z$Q$R
Z 6⊂ N
3∈Z
−5 ∈
/N
bedeutet ⊂ Teilmenge von“, in
”
bedeutet $ echte Teilmenge von“, in
”
bedeutet 6⊂ nicht Teilmenge von“, in
”
bedeutet ∈ Element von“ und in
”
bedeutet ∈
/ nicht Element von“.
”
Es gibt eine Menge, die keine Elemente enthält: Sie heißt die leere Menge, und
wird mit 0/ bezeichnet. Häufig werden wir Mengen M dadurch definieren, dass wir
alle Elemente einer gegebenen Menge, die eine gewisse Eigenschaft besitzen, in
M zusammenfassen. Dabei ist der Definitionsdoppelpunkt nützlich: Etwa
M:={n ∈ N : n ungerade}.
{. . . } ist das Mengenklammernpaar, und wir definieren (durch das Symbol :=),
dass M die Menge aller ungeraden natürlichen Zahlen bezeichnet. Unpräzise wird
manchmal M := {1, 3, 5, 7, . . .} geschrieben.
Wir können Mengen in aufzählender Form beschreiben, etwa
M = {1, 2, 3, 4, 5},
22
Abschnitt 3
oder durch Angabe der Eigenschaften, die die Elemente der Menge charakterisieren:
M = {n ∈ N : 1 ≤ n ≤ 5}.
Eine Menge N heißt Teilmenge der Menge M, symbolisch N ⊂ M, wenn jedes
Element von N auch Element von M ist. Die leere Menge 0/ ist Teilmenge jeder
Menge. Statt N ⊂ M schreiben wir auch M ⊃ N und nennen M eine Obermenge
von N, oder N umfassende Menge.
Mengen A, B stimmen überein, wenn sie die gleichen Elemente enthalten —die
Beschreibung von A und B spielt dabei keine Rolle. Es gilt offensichtlich
A = B ⇐⇒ A ⊂ B und B ⊂ A.
Der Durchschnitt M1 ∩ M2 von Mengen M1 , M2 ist gegeben durch
M1 ∩ M2 = {x : x ∈ M1 und x ∈ M2 }.
Ihre Vereinigung M1 ∪ M2 ist
M1 ∪ M2 = {x : x ∈ M1 oder x ∈ M2 }.
(Man beachte, dass dabei oder“ im nicht ausschließenden Sinn gebraucht wird;
”
oder“ bedeutet nicht entweder – oder“.)
”
”
Beispiele.
{1, 2, 3} ∪ {2, 3, 4, 5} = {1, 2, 3, 4, 5},
{1, 2, 3} ∩ {2, 3, 4, 5} = {2, 3}.
Ferner können wir das Komplement von M1 in M2 bilden:
M2 \ M1 = {x ∈ M2 : x 6∈ M1 }.
Rechenregeln für die genannten Operationen mit Mengen werden in den Übungsaufgaben
formuliert. Eine wichtige Kennzahl von Mengen M ist die Anzahl |M| ihrer Elemente. Wenn M endlich ist und n Elemente hat, setzen wir
|M| = n.
Bei unendlichen Mengen schreiben wir
|M| = ∞.
Eine weitere wichtige Konstruktion ist das kartesische Produkt zweier Mengen:
M1 × M2 = {(x1 , x2 ) : x1 ∈ M1 , x2 ∈ M2 }.
Dabei bezeichnet (x1 , x2 ) das Paar mit erster Komponente x1 und zweiter Komponente x2 . Wenn x1 6= x2 , so ist
(x1 , x2 ) 6= (x2 , x1)
Mengen und Abbildungen
23
(hingegen {x1 , x2 } = {x2 , x1}). Statt M × M schreibt man auch M 2 . So ist uns
geläufig, dass jedem Punkt der Ebene genau ein Element von R2 entspricht.
Durchschnitt, Vereinigung und kartesisches Produkt lassen sich allgemein für
endlich viele Mengen so definieren:
M1 ∩ . . . ∩ Mn =
M1 ∪ . . . ∪ Mn =
n
\
Mi =
i=1
n
[
i=1
\
Mi := {x : x ∈ Mi für alle i ∈ {1, . . . , n}}
[
Mi := {x : x ∈ Mi für ein i ∈ {1, . . . , n}}
i∈{1,...,n}
Mi =
i∈{1,...,n}
M1 × . . . × Mn := {(x1, . . . , xn ) : xi ∈ Mi für 1 ≤ i ≤ n},
wobei die Menge der Indizes {1, . . . , n} Indexmenge genannt wird. Die ersten zwei
Mengen lassen sich für eine beliebige Indexmenge I (nicht notwendigerweise endlich) leicht definieren. Wir werden dann
\
i∈I
Mi und
[
Mi .
i∈I
schreiben. Wenn man das kartesische Produkt von M n-mal mit sich selber nimmt,
dann schreibt man M n .
Beim Begriff Abbildung“ geht es uns ebenso wie beim Begriff Menge“. Wir
”
”
können nur eine vage, für unsere Zwecke aber hinreichend präzise Beschreibung
angeben. Eine Abbildung f einer Menge A in eine Menge B ist eine Vorschrift, die
jedem Element von A genau ein Element von B zuordnet. Wir bezeichnen dies kurz
durch
f : A → B.
Man nennt A den Definitionsbereich, B den Wertebereich von f . Das x ∈ A zugeordnete Element aus B wird mit f (x) bezeichnet und heißt Bild von x unter f oder
auch Wert von f an der Stelle x. Zwei Abbildungen f : A → B, g : C → D sind
gleich, wenn A = C, B = D und f (x) = g(x) für alle x ∈ A gilt.
Abbildungen sind aus dem Schulunterricht vor allem als Funktionen bekannt,
z.B.
f : R → R, f (x) = x2 für alle x ∈ R.
Es ist wichtig festzuhalten, dass Abbildungen (laut Definition) eindeutig sind. Beispielsweise wird durch
√
f : {x ∈ R : x ≥ 0} → R, f (x) = ± x
keine Abbildung definiert. Auf jeder Menge ist die identische Abbildung definiert:
idM : M → M,
idM (x) = x für alle x ∈ M.
24
Abschnitt 3
Sei f : A → B eine Abbildung. Für eine Teilmenge A′ ⊂ A setzen wir
f (A′ ) := { f (x) : x ∈ A′ };
f (A′ ) heißt das Bild von A′ unter f . Für f (A) schreiben wir auch Bild f . Für B′ ⊂ B
sei
f −1 (B′ ) := {x ∈ A : f (x) ∈ B′ }
das Urbild von B′ unter f . Für y ∈ B setzen wir
f −1 ({y}) := {x ∈ A : f (x) = y}.
Für das Beispiel f : R → R, f (x) = x2 , ist
f ({1, 2, 3}) = {1, 4, 9},
f −1 ({4}) = {2, −2},
f −1 ({1, 4, 9}) = {1, −1, 2, −2, 3, −3}.
Es wird oft wichtig sein, dass wir den Definitionsbereich einer Abbildung einschränken. Sei f : A → B eine Abbildung und A′ ⊂ A; dann ist die Abbildung
f | A′ : A′ → B
gegeben durch ( f | A′ )(x) = f (x) für alle x ∈ A′ . Diese Abbildung heißt Beschränkung von f auf A′ . Wenn wir f auf A′ beschränken, tun wir wirklich nichts
anderes, als die f definierende Zuordnung nur auf Elemente von A′ anzuwenden.
Definition. Sei f : A → B eine Abbildung.
(a) f ist injektiv, wenn für x1 , x2 ∈ A mit x1 6= x2 auch f (x1 ) 6= f (x2 ) ist.
(b) f ist surjektiv, wenn f (A) = B gilt.
(c) f ist bijektiv, wenn f injektiv und surjektiv ist.
Wir können dies auch so beschreiben:
f ist injektiv
⇐⇒
f ist surjektiv
⇐⇒
f ist bijektiv
⇐⇒
Zu jedem y ∈ B gibt es höchstens
eine Lösung der Gleichung f (x) = y.
Zu jedem y ∈ B gibt es mindestens
eine Lösung der Gleichung f (x) = y.
Zu jedem y ∈ B gibt es genau
eine Lösung der Gleichung f (x) = y.
Wir setzen R+ = {x ∈ R : x ≥ 0} und definieren
f1 : R → R,
f2 : R+ → R,
f 3 : R → R+ ,
f 4 : R+ → R+
Mengen und Abbildungen
25
sämtlich durch die Vorschrift fi (x) = x2 , i = 1, . . . , 4. Dann ist
f1 weder injektiv, noch surjektiv,
f2 injektiv, aber nicht surjektiv,
f3 nicht injektiv, aber surjektiv,
f4 bijektiv.
Definition. Seien f : A → B und g : B → C Abbildungen. Die Abbildung
g ◦ f : A → C,
(g ◦ f )(x) = g( f (x))
heißt Komposition (auch: Hintereinanderschaltung) von f und g.
Wenn f , g : R → R durch f (x) = x2 und g(y) = 3 + y gegeben sind, so ist
(g ◦ f )(x) = g(x2 ) = 3 + x2 ,
( f ◦ g)(x) = f (3 + x) = (3 + x)2 .
Wichtige Beispiele von Mengen sind die Zahlenbereiche. Die natürliche Zahlen
N := {0, 1, 2, 3 . . .} stehen hierbei am Anfang. Darauf kann man eine Verknüpfung
namens Addition definieren, d.h., eine Abbildung von N × N → N definieren, indem jedes Paar natürlicher Zahlen (a, b) in ihre Sume a + b abgebildet wird. Das
zeigt zunächst, dass die natürlichen Zahlen abgeschlossen der Addition gegenüber
sind, weil a + b wiederum eine natürliche Zahl ist. Diese Addition erfült weitere
Eigenschaften, und zwar:
(i) Es existiert ein Element e so dass e + a = a + e = a für alle a ∈ N. Wir
wissen sogar, wer e in diesem Fall ist: e ist die Null. Man sagt dann, dass
die Null das neutrale Element der Addition von natürlichen Zahlen ist.
(ii) Seien a, b, c drei natürliche Zahlen. Es gilt (a + b) + c = a + (b + c). D.h.,
wenn man drei (oder mehr) natürliche Zahlen zu addieren hat, ist es egal,
wie man diese gruppiert. Die Addition ist also assoziativ.
Das heißt, wir haben eine Menge (nämlich N), worauf wir eine Verknüpfung
definiert haben (die übliche Addition +), welche bestimmte Regeln erfüllt (die
Existenz eines neutralen Elements und die Assoziativität). Wir betrachten dann das
Päarchen (N, +), das diese Eigenschaften hat, und wir sagen, dass N zusammen mit
der soeben eingeführten Verknüpfung + ein Monoid bildet.
Neben (i) und (ii) können wir andere Gesetze an (N, +) erkennen, zum Beispiel
die wohlbekannte Kommutativität:
(iii) Für alle a, b ∈ N gilt: a + b = b + a.
Diese durch (i) und (ii) gegebene Monoid-Struktur lässt sich abstrahieren: Ein
Paar (M, ∗) wird Monoid genannt, wenn ∗ eine Verknüpfung1 auf die Menge M ist,
1D.h. eine Abbildung ∗ : M × M → M.
26
Abschnitt 3
welche ein neutrales Element besitzt und assoziativ ist. Die Abgeschlossenheit von
∗ muss natürlich auch gelten. Gilt für ∗ das kommutative Gesetz (iii), dann heißt
das Monoid kommutativ.
Andere Strukturen lassen sich auch auf eine Menge M erklären. Zum Beispiel
können wir zu (i) und (ii) noch eine dritte Eigenschaft verlangen:
(iv) Zu jedem Element a ∈ M existiert ein Element b ∈ M so dass a + b = e.
Das zu a so definierte Element b := −a heißt das Inverse von a (bezüglich +).
Diese Eigenschaft ist nicht mehr an den natürlichen Zahlen mit der üblichen
Addition zu erkennen: Zu 5 existiert keine natürliche Zahl x so dass 5 + x = 0.
Das ist bloß der Fall für die ganze Zahlen zusammen mit der Addition, d.h. (Z, +),
wobei
Z = {. . . − 4, −3, −2, −1, 0, 1, 2, 3, 4, . . .}
bezeichnet. Da die Eigenschaften (i), (ii) und (iv) erfüllt sind, sagt man, dass (Z, +)
eine Gruppe ist. Da (iii) auch gilt, ist die Gruppe (Z, +) kommutativ oder abelsch2
gennant.
Hier muss man schon vorsichtig vorgehen: Wenn man die abelsche Gruppe
(Z, +) betrachtet, ist im Prinzip die Rechnung 67 − 9 nicht definiert, denn wir
dürfen nur +” nehmen. Die Bedeutung von 67 − 9 ist eigentlich
”
67 + (−9),
wobei −9 das Inverse von 9 bezeichnet; D.h., wir addieren 67 und −9 auf, und
nach der Definition von + bekommen wir 58 als Ergebnis.
Wir können auch die Multiplikation betrachten: Genauso sind (N, ·) und (Z, ·)
kommutative Monoide, wobei diesmal die 1 das neutrale Element ist. Betrachtet
man die Menge der rationalen Zahlen
o
nm
: m ∈ Z, n ∈ N \ {0} ,
Q :=
n
kann man sich sofort überlegen, dass z.B. (Q \ {0}, ·) eine abelsche Gruppe ist.
Insbesondere hat jedes von 0 verschiedenen Element a in Q ein (multiplikatives)
Inverses, das mit a−1 oder 1a bezeichnet wird. Dass die Null ausgeschlossen werden
muss sollte uns nicht überraschen: Immer wieder haben wir gehört durch 0 darf
”
man nicht teilen”.
Soweit haben wir die Addition und die Multiplikation als Verknüpfungen auf
verschiedene Mengen gesehen, allerdings immer im Einzelnen betrachtet. Würde
dann nicht so eine Struktur wie (Z, +, ·) existieren? In der Tat! Wir sehen sofort:
Bezüglich der Addition erfüllt Z die Axiome (i)–(iv) von abelscher Gruppe; und
bezüglich der Multiplikation sind (i) bis (iii) erfüllt; mit anderen Worten, (Z, +) ist
2Nach dem norwegischen Mathematiker N.H. Abel (1802–1829).
Mengen und Abbildungen
27
eine abelsche Gruppe und (Z, ·) ein kommutatives Monoid. Das Einzige, das uns
fehlt, ist +” mit ·” zusammenzubringen (d.h. es fehlt uns noch eine Regel, die
”
”
besagt, wie die beiden Verknüpfungen miteinander verträglich sind): Das tut das
sogenannte Distributivgesetz:
(v) Für alle x, y, z ∈ Z gilt: x · (y + z) = x · y + x · z.
Man sagt, dass (Z, +, ·) mit den entsprechenden Axiomen (i)–(v) ein kommutativer3 Ring, oder für uns einfach nur ein Ring, ist.
Es ist zu beachten, dass in Z nicht jedes Element ein Inverses bezüglich der
Multiplikation hat. Zum Beispiel: Die 5 hat kein Inverses bezüglich ·”: Was ist
”
die ganze Zahl x so dass 5 · x = 1 gilt? Unsere natürliche Antwort ist x = 51 , aber
1
5 ist keine ganze Zahl! Die einzigen ganzen Zahlen, die so ein inverses Element
bezüglich der Multiplikation4 besitzen, sind 1 und −1. Es gibt deshalb so wenig,
weil (Z, ·) nur ein Monoid ist, aber keine Gruppe. Deswegen hat nicht jedes Element ein Inverses (einige schon, nämlich 1 und −1, wie soeben gesagt, aber nicht
alle!)
Dieses Phänomen tritt nicht mehr für Q oder für R auf: In diesen Zahlenbereichen hat jedes Element, das von der 0 verschieden ist, ein multiplikatives Inverses,
weil doch sowohl (Q \ {0}, ·) als auch (R \ {0}, ·) abelsche Gruppen sind. Sie sind
Beispiele von Körpern:
Definition. Eine Menge K 6= 0/ zusammen mit zwei Verknüpfungen + : K × K →
K, die Addition genannt wird, und · : K × K → K, die Multiplikation genannt wird,
heißt Körper, wenn:
(a) (K, +) eine abelsche Gruppe ist (d.h. erfüllt die Eigenschaften (i) bis (iv)
von oben, wobei mit 0K , oder einfach 0, das neutrale Element bezüglich
der Addition bezeichnet wird)
(b) (K \ {0}, ·) eine abelsche Gruppe ist (d.h. erfüllt die Eigenschaften (i) bis
(iv) von oben, wobei mit 1K , oder einfach 1, das neutrale Element bezüglich
der Multiplikation bezeichnet wird)
(c) das Distributivgesetz (v) gilt.
Grob gesprochen, ein Körper K ist ein Ring bei dem zusätzlich alle von 0K
verschiedenen Elementen ein multiplikatives Inverses besitzen.
Der nächste Abschnitt ist dem Körper der reellen Zahlen (R, +, ·) gewidmet.
Wir werden in diesem noch ein weiteres wichtiges Beispiel vom Körper kurz vorstellen, nämlich den Körper C der komplexen Zahlen. Eine komplexe Zahl ist ein
Ausdruck der Form
√
z = a + bi mit a, b ∈ R und i := −1.
3weil die Multiplikation kommutativ ist.
4Oft auch multiplikatives Inverses genannt, um es zu dem additiven Inversen zu unterscheiden.
28
Abschnitt 3
Dabei heißt a := Re(z) der Realteil von z und b := Im(z) der Imaginärteil von z. Beachten Sie, dass sowohl Re(z) als Im(z) definitionsgemäß reelle Zahlen sind. Die
imaginäre Einheit i hat die Eigenschaft, dass i2 = −1 ist. Darüber hinaus stimmen
zwei komplexe Zahlen a + bi und c + di genau dann überein, wenn Real- und Imaginärteil übereinstimmen, d.h., wenn a = c und b = d gilt. Die Rechnenoperationen
von R lassen sich sofort auf C verallgemeinern:
(a + bi) + (c + di) := (a + c) + (b + d)i
(a + bi) · (c + di) := ac + (ad + bc)i + bdi2 = (ac − bd) + (ad + bc)i.
Eine komplexe Zahl z = a + bi lässt sich einem Punkt (a, b) auf der Ebene R2
zuordnen. Deswegen ist es manchmal von der komplexen Zahlenebene die Rede. Man überprüft leicht, dass C mit den soeben definierten Verknüpfungen einen
Körper bildet: Das neutrale Element bezüglich der Addition ist
0C = 0 = 0 + 0i,
denn z + 0 = z für alle z ∈ C, und bezüglich der Multiplikation ist
1C = 1 = 1 + 0i,
denn z · 1 = z für alle z ∈ C. Das additive Inverse einer komplexen Zahl z = a + bi
ist −z = −a + (−b)i = −a − bi, und das multiplikative Inverse einer von 0 = 0 + 0i
−b
a
verschiedenen komplexen Zahl z = a + bi ist a2 +b
2 + a2 +b2 i, denn
a
−b a2 + b2 −ab + ab
+
i = 2
+ 2
i = 1 + 0i = 1.
(a + bi) · 2
a + b2 a2 + b2
a + b2
a + b2
Eine wichtige Operation auf C ist die komplexe Konjugation: Die Zahl
a + bi := a − bi
wird die zu a + bi komplex konjugierte Zahl genannt. Die reelle Zahl
p
|a + bi| := a2 + b2
nennt man den Betrag von a + bi.
Die wichtigste Eigenschaft bei C ist, dass komplexe Zahlen das Paradebeispiel
eines algebraisch abgeschlossenen Körpers sind; das heißt, der folgende Satz gilt:
Satz 3.1 (Fundamentalsatz der Algebra). Seien n ∈ N mit n ≥ 1 und komplexe
Zahlen ξ0 , ξ1 , . . . , ξn . Jede Gleichung der Form
xn + ξn−1 xn−1 + ξn−2 xn−2 + . . . + ξ2 x2 + ξ1 x + ξ0 = 0
besitzt mindestens eine Lösung in C.
Denken wir zum Beispiel an die Gleichung x2 + 1 = 0. Sie hat keine reellen
Lösungen, doch aber zwei komplexe, nämlich sowohl i als auch −i. Auf einen
Beweis des Satzes 3.1 müssen wir (leider) verzichten.
ABSCHNITT 4
Angeordnete Körper. Die reellen Zahlen
Man betrachtet ein , dessen Seiten der Länge √
1 sind. Nach dem Satz von
Pythagoras ist es klar, dass die Länge der Diagonalen 2 ist. In jener Zeit war eine
große Kontroverse, ob diese Zahl rational war. Die Pythagoreer fanden die Lösung,
die wir jetzt als Satz formulieren.
√
/ Q.
Satz 4.1. Es gilt: 2 ∈
Beweis. Durch Widerspruch. Angenommen doch, also, angenommen es existierten m ∈ Z und n ∈ N \ {0} so dass
√
m
2= .
n
OBdA1 können wir annehmen, dass der Bruch mn in gekürzter Form ist (d.h. dass
m und n keine gemeinsame Teiler in Z außer der Eins haben, oder anders gesagt,
dass m und n teilerfremd sind). In der obigen Gleichung kann man quadrieren, und
nach einer leichten Umformung folgt
m2 = 2n2 .
Damit ist m2 gerade, und dann muss m auch gerade sein, d.h., wir dürfen schreiben
Einsetzen ergibt
m = 2m̃ für ein m̃ ∈ Z.
4m̃2 = 2n2 , oder anders geschrieben, n2 = 2m̃2 .
Damit ist n2 gerade, also n muss gerade sein. Wir haben gezeigt: Sowohl m als
auch n sind gerade Zahlen, sie haben also 2 als gemeinsamen Teiler. Das
√ ist ein
Widerspruch zur Tatsache, dass m und n teilerfremd sind. D.h., die Zahl 2 kann
nicht rational sein.
√ √ √
Ähnliches kann man bei 3, 5, 7 . . . machen. Auch Zahlen wie π fallen
nicht innerhalb von Q. Die rationalen Zahlen reichen also nicht, um die Natur zu
erklären. Ein neuer Zahlenbereich muss eingefürt werden: Die reellen Zahlen.
Wir haben schon gesehen, dass auf R, so wie auf Q und auf C, die Struktur
vom Körper definiert werden kann. Nun werden wir eine weitere gemeinsame Eigenschaft zwischen Q und R untersuchen: In beiden Fällen können wir vernünftig
1Ohne Beschränkung der Allgemeinheit.
30
Abschnitt 4
eine Ordnungsrelation definieren, im Gegensatz zu beispielsweise der komplexen
Zahlen. Der Abschnitt wird verabschiedet mit der Eigenschaft, die R wesentlich
anders von Q macht: Die archimedische Eigenschaft.
Seien M, M ′ Mengen. Eine Teilmenge R von M × M ′ nennt man auch eine
Relation zwischen M und M ′ ; im Fall M ′ = M nennen wir R eine Relation auf M.
Wir kennen viele solcher Relationen, z.B. für M = M ′ = R die Kleiner-gleich”
Beziehung“
R = {(x, y) ∈ R × R : x ≤ y}.
Die Kleiner-gleich-Beziehung“ ein ein typisches Beispiel für eine Ordnungs”
relation:
Definition. Man nennt eine Relation R auf einer Menge M eine Ordnungsrelation,
wenn folgende Bedingungen für alle x, y, z ∈ M erfüllt sind:
(a) (x, x) ∈ R für alle x ∈ M, d.h., R ist symmetrisch,
(b) (x, y) ∈ R und (y, x) ∈ R =⇒ x = y, d.h., R ist antisymmetrisch,
(c) (x, y) ∈ R, (y, z) ∈ R =⇒ (x, z) ∈ R, d.h., R ist transitiv.
Suggestiv werden wir x y statt (x, y) ∈ R schreiben. Eine Ordnungsrelation R
heißt total wenn für jede x, y ∈ M gilt (x, y) ∈ R oder (y, x) ∈ R, also x y oder
y x. (Mit anderen Worten, alle Elementen aus M sind vergleichbar.)
Eine total angeordnete Menge ist ein Paar (M, ), wobei M eine nicht-leere
Menge und eine totale Ordnungsrelation sind.
Sei K ein Körper und eine totale Ordnungsrelation, so dass für alle x, y, z gilt
(a) Monotonie der Addition: Aus x y folgt x + z y + z;
(b) Monotonie der Multiplikation: Aus x y und 0 z folgt xz yz.
So heißt K ein angeordneter Körper bezüglich . Wir schreiben (K, ). Diese
Monotonieaxiomen gewährleisten die Kompatibilität der Ordnung mit der Körperstruktur. Aus denen folgen die üblichen Regeln des Umgehens mit Ungleichungen,
die uns seit langem schon vertraut sind, im folgenden Satz zusammengefasst. Wir
merken, dass wir x ≺ y schreiben, wenn x y und x 6= y gilt. Oft verwenden wir
y x bzw. y ≻ x statt x y bzw. x ≺ y. Die obige Monotonieaxiome gelten trivialerweise noch, wenn man durch ≺ ersetzt. Weitere Eigenschaften sind:
Satz 4.2. Sei (K, ) ein angeordneter Körper. Für alle x, y, z, v, w ∈ K gilt:
(a) Aus x y und v ≺ w folgt x + v ≺ y + w.
(b) Aus x y folgt −x −y.
(c) Aus x y und z 0 folgt xz yz.
(d) Es ist x2 0, also x2 ≻ 0 wenn x 6= 0. Insbesondere ist 1 = 12 ≻ 0.
(e) Aus x ≻ 0 folgt 1/x ≻ 0.
(f) Aus 0 ≺ x y folgt 1/x 1/y.
Angeordnete Körper. Die reellen Zahlen
31
Die Beweise dieser Rechenregeln sind dem Leser als Übungsaufgabe überlassen.
Ein Element x eines angeordneten Körpers (K, ) heißt positiv, falls x ≻ 0 ist,
und negativ, falls x ≺ 0 ist. Ferner, für x ∈ K heißt
n
x, falls x 0
|x| :=
−x, falls x ≺ 0.
der (Absolut-)Betrag von x.
Satz 4.3. Der Betrag eines elements x ∈ K besitz folgende Eigenschaften:
(a) |x| = max(x, −x), d.h., |x| ist von x und −x die größte Zahl.
(b) |x| = | − x|;
(c) Es ist |x| 0, und es gilt genau dann |x| = 0, wenn x = 0 ist.
(d) Es gilt |xy| = |x||y|.
(e) Es gilt |xy−1 | = |x||y|−1 , falls y 6= 0.
Beweis. (a), (b) und (c) folgen direkt aus der Definition.
(d) Falls x, y 0 gilt, dann ist die Aussage trivial. Sei nun x = −x′ mit x′ 0 und
y 0. Dann folgt
|xy| = |(−x′ )y| = | − (x′ y)| = |x′ y| = |x′ ||y| = | − x′ ||y| = |x||y|.
Die anderen Fälle folgen analog.
(e) Die Behauptung folgt aus
|x| = |xy−1 y| = |xy−1 ||y|.
Außerdem sind folgende Ungleichungen von erheblicher Bedeutung:
Satz 4.4. Sei (K, ) ein angeordneter Körper, seien x, y ∈ K. Dann gilt
|x + y| |x| + |y| und |x − y| |x| − |y|.
Beweis. Wegen x |x| und y |y| ist x + y |x| + |y|. Analog folgt aus −x |x|
und −y |y|, dass −(x + y) |x| + |y|. Insgesamt erhalten wir
|x + y| = max{x + y, −(x + y)} |x| + |y|
und damit ist die erste Ungleichung bewiesen. Aus dieser ergibt sich
|x| = |(x − y) + y| |x − y| + |y| =⇒ |x| − |y| |x − y|
und nach Vertausch von x und y erhält man auch
|y| = | − y| = |(x − y) − x| |x − y| + |x| =⇒ −(|x| − |y|) |x − y|,
woraus sich die Ungleichung |x − y| |x| − |y| ergibt.
32
Abschnitt 4
Es ist zweckmäßig, den Körper K durch Hinzufügen von einem kleinsten −∞
und einem größten Element ∞ mit −∞ 6= ∞ zu einer Menge K := K ∪ {−∞, ∞} zu
vergrößern so dass
−∞ x ∞
für alle x ∈ K gilt. Für das Rechnen mit den neuen Elementen erweitern wir die
Körperverknüpfungen wie folgt:
(a)
(b)
(c)
(d)
(e)
x + ∞ := ∞ + x := ∞ für alle x ∈ K, x 6= −∞.
x + (−∞) := (−∞) + x := −∞ für alle x ∈ K, x 6= ∞.
x · ∞ := ∞ · x := ∞, x · (−∞) := (−∞) · x := −∞ für alle x ∈ K, x ≻ 0.
x · ∞ := ∞ · x := −∞, x · (−∞) := (−∞) · x := ∞ für alle x ∈ K, x ≺ 0.
x
x
∞ := −∞ := 0 für alle x ∈ K.
Die Summen ∞ + (−∞) und (−∞) + ∞ und die Produkte 0 · (±∞), (±∞) · 0 und
±∞ ±∞
∞ , −∞ sind hierzu nicht definiert!
Seien a, b Elemente des angeordneten Körpers K mit a b. Dann heißen
(a)
(b)
(c)
(d)
[a, b] := {x ∈ K | a x b} das abgeschlossene Intervall,
]a, b[ := {x ∈ K | a ≺ x ≺ b} das offene Intervall,
[a, b[ := {x ∈ K | a x ≺ b} und
]a, b] := {x ∈ K | a ≺ x b} die halboffenen Intervalle,
die durch die Intervallgrenzen a und b bestimmt sind. Die Differenz b − a heißt
die Länge des Intervalls. Alle diese heißen beschränke Intervalle. Falls wir in K
die Elemente −∞ oder ∞ als Intervallgrenzen betrachten, so sprechen wir von unbeschränkten Intervallen. Beschränkte Intervalle sind beschränkte Mengen im folgenden Sinne:
Definition. Sei K ein angeordneter Körper. Sei A eine nicht-leere Teilmenge von
K.
(a) A heißt nach oben beschränkt, wenn es ein S ∈ K gibt mit x S für alle
x ∈ A. Die Zahl S heißt eine obere Schranke von A in K.
(b) A heißt nach unten beschränkt, wenn es ein s ∈ K mit x s für alle x ∈ A
gibt. Die Zahl S heißt dann eine untere Schranke von A in K.
(c) Wenn A nach oben und nach unten beschränkt ist, nennen wir sie beschränkt.
(d) Ist A nach oben beschränkt und existiert eine kleinste obere Schranke x ∈ K
von A, dann heißt x das Supremum von A. Wir schreiben x = sup(A). Mit
anderen Worten
sup(A) := min{S ∈ K | S ist obere Schranke von A}.
Gilt x ∈ A, dann heißt x das Maximum von A; Wir schreiben max(A) = x.
Angeordnete Körper. Die reellen Zahlen
33
(e) Ist A nach unten beschränkt und existiert eine größte untere Schranke x ∈ K
von A, dann heißt x das Infimum von A. Wir schreiben x = inf(A). Mit
anderen Worten
inf(A) := max{s ∈ K | s ist untere Schranke von A},
Gilt x ∈ A, dann heißt x das Minimum von A, und wir schreiben min(A) = x.
Beispiel. (R, ≤) ist ein angeordneter Körper. Sei A:=[0, 1[⊂ R. Das Intervall ist
nach oben beschränkt: Die Elemente in
{x ∈ R : x ≥ 1}
sind die oberen Schranken von A. Die kleinste obere Schranke ist daher 1, aber
1∈
/ A. Deswegen ist 1 das Supremum von A, aber kein Maximum.
Das Intervall A ist auch nach unten beschränkt: In der Tat ist
{x ∈ R : x ≤ 0}
die Menge der unteren Schranken von A. Die größte dabei ist 0, und 0 ∈ A. Dann
ist 0 sowohl das Infimum von A als auch das Minimum. Da A sowohl nach unten
als auch nach oben beschränkt ist, ist A beschränkt.
Ein weiteres Paradebeispiel eines angeordneten Körpers ist Q zusammen mit
der durch ≤ gegebene Ordnungsrelation. Es ist doch ein erhebliches Beispiel,
das allerdings einen kleinen Schönheitsfehler” enthält; Es ist nicht ordnungs”
vollständig im folgenden Sinne:
Satz 4.5. Nicht jede Teilmenge aus Q, die nach oben beschränkt ist, besitzt ein
Supremum.
Beweis. Wir wissen, dass kein x ∈ Q existiert mit x2 = 2. Nun betrachten wir die
Menge
M := {x ∈ Q : x2 ≤ 2} = {x ∈ Q : x2 < 2}.
Offensichtlich ist M eine nicht-leere Teilmenge von Q, die nach oben beschränkt
ist: Die Menge aller oberen Schranken ist
N = {y ∈ Q : y > 0 und y2 > 2}.
Zu zeigen ist nun, dass N kein kleinstes Element enthält. Mit anderen Worten, zu
zeigen ist, dass für jedes y ∈ N eine rationale Zahl z in N mit z < y gefunden werden
kann. Zu jedem y ∈ Q, y > 0 setzen wir
y2 − 2 ∗ 2y + 2
z := y −
=
y+2
y+2
Quadrieren liefert
∗∗
z2 − 2 =
2(y2 − 2)
.
(y + 2)2
34
Abschnitt 4
Falls y ∈ N, so gilt y2 − 2 > 0 nach der Definition von N. Dann folgt 0 < z < y aus
der Gleichung ∗, und z2 > 2 aus ∗∗. Daher ist z in N für jedes y ∈ N und damit
kann M kein Supremum haben.
Diese Eigenschaft, die gerade bei Q fehlt, charakterisiert den Körper der reellen
Zahlen:
Definition. Sei (K, +, ·) ein angeordneter Körper, der das Vollständigkeitsaxiom
erfüllt, nämlich
jede nach oben beschränkte Teilmenge A 6= 0/ von K besitzt ein Supremum.
Dann heißt K der Körper der reellen Zahlen (oder auch die Zahlengerade). Wir
bezeichnen es mit R.
Die Existenz von R kann man konstruktiv beweisen. Ferner stimmen alle
möglichen Mengen von reellen Zahlen im Wesentlichen, d.h, bis auf Identifikation, überein (vgl. zahlreiche Literatur).
Der Körper C der komplexen Zahlen ist im Gegensatz zu R nicht angeordnet:
Satz 4.6. Für den Körper C lässt sich keine totale Anordnung angeben.
Beweis. Durch Widerspruch. Angenommen doch, d.h., angenommen es existierte
eine totale Anordnung von C. Aus Satz 4.2(d) gilt 1 ≻ 0. Auf der anderen Seite
ist −1 = i2 und nach 4.2(d) ist dann −1 ≻ 0, was nach 4.2(b) gleichbedeutend mit
1 ≺ 0 ist. Widerspruch!
Wir schliessen den Abschnitt mit zwei wichtigen Eigenschaften der reellen
Zahlen, nämlich die Archimedische Eigenschaft und die Tatsache, dass Q dicht
in R ist. (Weitere Eigenschaften von R, wie z.B. die Existenz der Wurzel, werden
dem interessierten Leser anvertraut bzw. vorausgesetzt.)
Satz 4.7 (Archimedische Eigenschaft). Für je zwei Zahlen x, y ∈ R mit x, y > 0
existiert eine natürliche Zahl m mit
mx > y.
Insbesondere ist N in R nicht nach oben beschränkt.
Beweis. Durch Widerspruch. Angenommen, dass es mx ≤ y für alle m ∈ N gelte.
Dann wäre y eine obere Schranke für die Menge
M := {mx : m ∈ N}.
Nach dem Vollständigkeitsaxiom von R existiert z := sup M . Es ist dann z − x < z,
also z − x ist keine obere Schranke mehr für M und es existiert ein m ∈ N mit
z − x < mx, d.h., mit z < (m + 1)x, was die Definition von z widerspricht.
Angeordnete Körper. Die reellen Zahlen
35
Aus dem Satz 4.7 folgt: Ist x ∈ R, x ≥ 0, so existiert eine Zahl m ∈ N mit
m ≤ x < m + 1. Ist x < 0, so gibt es eine Zahl m ∈ N mit m < −x ≤ m + 1, oder,
anders geschrieben, −(m + 1) ≤ x < −m. D.h., zu einer beliebigen reellen Zahl x
gibt es eine eindeutig bestimmte ganze Zahl [x] so dass [x] ≤ x < [x] + 1. Sie heißt
der ganze Teil von x. Zum Beispiel ist [π ] = 3 und [−π ] = −4.
Der ganze Teil induziert eine Abbildung R → R, x 7→ [x], die den Name GaußKlammer, oder auch Gauß-Symbol bekommt.
Zum Schluss erwähnen wir noch die wichtige Feststellung, dass zwischen zwei
reellen Zahlen immer eine rationale Zahl zu finden ist.
Satz 4.8. Für alle x, y ∈ R mit x < y existiert ein q ∈ Q mit x < q < y. Insbesondere
ist Q dicht in R, d.h.
für alle x ∈ R und alle ε ∈ R, ε > 0 existiert ein q ∈ Q mit q ∈ ]x − ε , x + ε [.
Beweis. Wir suchen eine rationale Zahl mn mit x < mn < y und müssen hierfür m, n
geeignet wählen. Wir unterscheiden drei Fälle:
(a) 0 ≤ x < y: Wegen Satz 4.7 existiert ein n ∈ N mit
n(y − x) > 1.
Sei m := min{p ∈ N : nx < p}. Dann ist nx < m und m − 1 ≤ nx. Also folgt
m = (m − 1) + 1 ≤ nx + 1 < nx + n(y − x) = ny.
Es ergibt sich nx < m < ny und daher gelten die gewünschten Ungleichungen x < mn < y.
(b) x < y ≤ 0: Wir betrachten 0 ≤ −y < −x. Nach dem bisher Bewiesenen
existiert ein w ∈ Q mit −y < w < −x. Nun wählen wir q = −w. Dann gilt
x < q < y.
(c) x < 0 < y: der Fall ist trivial, da für q = 0 ∈ Q gilt x < q < y.
ABSCHNITT 5
Folgen reeller Zahlen (I): Konvergenz
Nach dem Induktionsprinzip machen wir jetzt unsere nächste mathematische
Erfahrung mit der Unendlichkeit. Folgen reeller Zahlen stehen am Anfang der Infinitesimalrechnung. Ihre genauere Betrachtung fing mit D’Alembert und Cauchy
an. Unsere Sicht von Folge als Sequenz, wie z.B. die Folge ungerader natürlichen
Zahlen 1, 3, 5, . . . lässt sich als Abbildung präzisieren:
Eine Folge reeller Zahlen mit Startwert s0 ∈ N ist eine Abbildung
f : {n ∈ N : n ≥ s0 } −→ R.
Das Bild f (n) von n heißt das n-te Glied der Folge, und wird mit an bezeichnet. So wird die Folge mit (an )n≥s0 bezeichnet. Oft ist s0 = 0, und dann schreibt
man (an )n∈N . Ist der Startwert anzunehmen oder unerheblich, wird eine Folge einfach (an ) bezeichnet. Die Menge {an : n ≥ s0 } nennt man oft das Folgenbild von
(an )n≥s0
Beispiele.
(a) Sei die Folge f : N → R, n 7→ 2. Alle Glieder sind 2, d.h., das
Folgenbild ist {2}. Solche Art von Folgen nennen wir konstant.
(b) Sei die Folge g : N → R mit
n
1, falls n ungerade;
g(n) =
−1, falls n gerade.
Das n-te Glied lässt sich als an = (−1)n+1 schreiben. Das Folgenbild ist
dann {−1, 1}.
(c) Folgen können rekursiv definiert werden. Sei
a1 := 0, a2 := 1, und an := an−1 + an−2 für n ≥ 3.
Dann heißt (an )n≥1 = (0, 1, 1, 2, 3, 5, 8, . . .) die Fibonacci-Folge, die beispielsweise eine erhebliche Bedeutung bei Wachstumsprozessen in der Natur beschreibt.
Der entscheidende Begriff ist die Konvergenz einer Folge:
Definition. Eine Folge (an ) heißt konvergent, wenn es ein a ∈ R gibt mit folgender
Eigenschaft:
Zu jedem (noch so kleinen reellen) ε > 0 existiert ein n0 ∈ N
mit |an − a| < ε für alle natürlichen Zahlen n ≥ n0 .
38
Abschnitt 5
Dieses Element a ist durch die Folge (an ) eindeutig bestimmt:
Wäre nämtlich a′ ∈ R ein weiteres davon verschiedenes Element mit der entsprechenden Eigenschaft, so wäre
1
ε := |a − a′ | > 0
2
und es gäbe natürliche Zahlen n0 und n′0 mit
|an − a| < ε
|an − a′ | < ε
für alle n ≥ n0
für alle n ≥ n′0 .
Dann erhält man mit einem n ≥ max(n0 , n′0 ) den Widerspruch
|a − a′| = |a − an + an − a′ | ≤ |an − a| + |an − a′ |
< ε + ε = |a − a′|.
Das somit durch die konvergente Folge (an) gemäß obiger Definition eindeutig bestimmte Element a heißt der Grenzwert oder der Limes der Folge (an ). Wir
schreiben
a = lim an ,
auch kurz an → a,
n→∞
und sagen, dass (an ) gegen a konvergiert. Eine Folge (an ) konvergiert gegen a
genau dann wenn die Folge (an − a) gegen 0 konvergiert. Eine konvergente Folge,
die gegen 0 konvergiert, heißt eine Nullfolge. Eine Folge, die nicht konvergiert,
heißt divergent.
Anmerkung. Die Zahl n0 ∈ N in der Definition hängt selbstverständlich von ε ab:
Je kleiner ε ist, desto größer hat man im Allgemeinen n0 zu wählen. In diesem
Zusammenhang ist die folgende äquivalente Formulierung nützlich:
|an − a| < ε ist gleichbedeutend mit an ∈ ]a − ε , a + ε [.
Deswegen formuliert man anschaulicher die Bedingung der Definition so:
an liegt für alle n ≥ n0 in der ε -Umgebung Uε (a) := ]a − ε , a + ε [ von a.
Damit wird auch unmittelbar klar, dass man eine konvergente Folge in endlich
vielen Gliedern abändern darf, ohne an Konvergenz und Limes etwas zu ändern.
Damit ist auch klar, dass der obige Beweis für die Eindeutigkeit des Limes darauf
beruht, dass in den disjunten ε -Umgebungen von a und a′ nicht zugleich fast alle
Glieder der folge (an ) liegen können.
Oft benutzt man in der Mathematik den Ausdruck für fast alle. Damit ist gemeint, für alle bis auf endlich viele. So können wir die Definition von Konvergenz
etwas umgangssprachlich umformulieren und sagen, dass die Folge (an) gegen a
konvergiert, wenn jede Umgebung von a fast alle an enthält.
Folgen reeller Zahlen (I): Konvergenz
39
Wir illustrieren die Definition mit folgendem Beispiel. Sei (an ) die Folge ge2n
. Wir beobachten, dass ihr Limes 1 sein könnte. Sei ε > 0
geben durch an = 2n+5
vorgegeben. Man muss eine natürliche Zahl n0 bestimmen, so dass für alle n ≥ n0
2n
die Ungleichung | n+5
− 1| < ε gilt. Diese Ungleichung ist offensichtlich äquivalent
zu den Folgenden:
−5 2n − 2n − 5 5
2n + 5 < ε ⇐⇒ 2n + 5 < ε ⇐⇒ 2n + 5 < ε
ε
Mit anderen Worten, es muss 5 < 2nε + 5ε gelten, also n > 5−5
2ε . Damit ist n0 zu
wählen als
5 − 5ε
+1
n0 =
2ε
Zum Beispiel ist n0 = 23 für ε = 0.1; für ε = 0.01 ist n0 = 248.
Es ist hier anzumerken: Wir mussten den Grenzwert irgendwie erraten. Wir
werden sehen, dass dies manchmal schwierig ist. Cauchy schlug eine andere Definition für konvergente Folgen vor, die wir heute Cauchy-Folgen nennen. Wir betrachten sie kurz im nächsten Abschnitt.
Beispiele.
(a) Eine konstante Folge (an ) mit Folgenbild {a} konvergiert offenbar gegen a.
(b) Sei xn := n1 für alle n ≥ 1. Die Folge (xn ) ist eine Nullfolge: Sei dazu ε >
0 vorgegeben. Nach der Archimedischen Eigenschaft von R existiert ein
n0 ∈ N so dass ε n0 > 1, d.h., n0 > ε1 . Dann folgt für jedes n ≥ n0 , dass
|xn − 0| =
1
1
≤
< ε.
n n0
(c) Sei yn := (−1)n für n ∈ N. Dann ist (yn) divergent. Wir zeigen dies durch
Widerspruch. Angenommen, es existierte ein y ∈ R mit y = limn→∞ yn .
Wäre y ≤ 0, dann gelte jedoch yn ∈
/ ]y − 1, y + 1[ für alle geraden Zahlen
n, denn
|yn − y| = |1 − y| = 1 − y ≥ 1, für n gerade.
Wäre andererseits y > 0, dann sehen wir analog, dass yn ∈
/ ]y − 1, y + 1[ für
alle ungeraden Zahlen n. Daher kann y nicht der Grenzwert von (yn ) sein
und somit ist die Folge divergent.
Eine Folge (an ) heißt nach oben (bzw. unten) beschränkt, wenn das Folgenbild
nach oben (bzw. unten) beschränkt ist. Eine Folge heißt beschränkt, wenn sie sowohl nach oben als auch nach unten beschränkt ist, d.h., wenn es ein M ∈ R gibt
so dass |an | ≤ M für alle n ∈ N, d.h. für alle Glieder, gilt.
Satz 5.1. Jede konvergente Folge (an )n≥s0 ist beschränkt.
40
Abschnitt 5
Beweis. Sei ε = 1 vorgegeben. Dann existiert n0 ∈ N so dass an ∈ ]l − 1, l + 1[
für n ≥ n0 . Außerhalb des Intervalls ]l − 1, l + 1[ befinden sich höchstens n0 − 1
Terme der Folge, d.h., eine endliche Menge, also eine beschränkte Menge. Da das
Intervall ]l − 1, l + 1[ auch beschränkt ist, sind wir fertig.
Beispiel. Die Folge (zn ) = (n)n∈N ist divergent: Das lässt sich durch Kontraposition trivial beweisen: Nach dem Satz 5.1 reicht es zu zeigen, dass die Menge N nicht
beschränkt ist; also, dass N nicht nach oben beschränkt ist, was schon in Satz 4.7
bewiesen wurde.
Grenzwerte lassen sich laut folgenden Sätzen leicht betrachten:
Satz 5.2. Es gelten die folgenden Eigenschaften über konvergente Folgen:
(i) Sei (an ) eine beschränkte Folge und (bn ) eine Nullfolge. Dann ist (an · bn )
eine Nullfolge.
(ii) Sei (an ) eine konvergente Folge mit Grenzwert a 6= 0. Ist a > 0 (bzw. a < 0)
und nehmen wir ein α ∈ R mit 0 < α < a (bzw. a < α < 0), dann existiert
n0 ∈ N so dass an > α (bzw. an < α ) für alle n ≥ n0 .
(iii) Ist (bn ) eine konvergente Folge mit Grenzwert b 6= 0 und bn 6= 0 für alle
n ∈ N, dann ist die Folge ( b1n ) beschränkt.
(iv) Ist (an ) bzw. (bn ) konvergent gegen a bzw. b mit an ≤ bn für fast alle n,
dann gilt auch a ≤ b
Beweis.
Zu (i): Es existiert M > 0 mit |an | ≤ M für alle n ∈ N. Sei ε > 0 vorgegeben. Dann
gibt es ein n0 ∈ N so dass |bn − 0| = |bn | < Mε für n ≥ n0 gilt. Dann ist
|an bn − 0| = |an bn | = |an ||bn | < M Mε = ε für alle n ≥ n0 .
Zu (ii): Wir betrachten den Fall a > 0 (der andere folgt analog). Sei ε = a − α > 0.
Dann gibt es ein n0 ∈ N mit
an ∈ ]a − (a − α ), a + (a + α )[ = ]α , 2a − α [ für n ≥ n0 ,
d.h., an > α für n ≥ n0 .
Zu (iii): Es folgt unmittelbar wenn man an durch b1n im Beweis von (ii) ersetzt.
Zu (iv): Zu jedem ε > 0 gibt es ein n0 ∈ N so dass für n ≥ n0 gleichzeitig gilt
a − ε < an ≤ bn < b + ε .
Daraus folgt a − b < 2ε und zwar für beliebiges ε , was nur für a − b ≤ 0
möglich ist.
Ähnlich wie (iv) in Satz 5.2 zeigt man folgendes Einschließungskriterium:
Folgen reeller Zahlen (I): Konvergenz
41
Satz 5.3 (Sandwich-Kriterium). Sei (an ) eine Folge. Seien (xn ) und (yn ) konvergente Folgen mit gleichem Grenzwert, so dass xn ≤ an ≤ yn für fast alle n. Dann ist
auch (an ) konvergent mit limn→∞ an = limn→∞ xn = limn→∞ yn .
Beispiel. Die Folge ( 21n ) ist eine Nullfolge nach Satz 5.3, denn 0 ≤
nauso ist ((−1)n n1 ) eine Nullfolge, denn − 1n ≤ (−1)n n1 ≤ 1n .
1
2n
≤ n1 . Ge-
Satz 5.4. Seien (an)n≥s0 und (bn )n≥s0 konvergente Folgen und c ∈ R.
(i) Die folge (an ± bn )n≥s0 ist konvergent und es gilt
lim (an ± bn ) = lim an ± lim bn .
n→∞
n→∞
n→∞
(ii) Die folge (xn · yn )n≥s0 ist konvergent und es gilt
lim (an · bn ) = lim an · lim bn .
n→∞
n→∞
n→∞
(iii) Die folge (c · an)n≥s0 ist konvergent und es gilt
lim (c · an ) = c · lim an .
n→∞
n→∞
(iv) Falls (bn )n≥s0 eine konvergente Folge mit Limes 6= 0 ist, dann gibt es ein
t0 ≥ s0 mit yn 6= 0 für n ≥ t0 . Die Folge ( bann )n≥t0 ist konvergent und es gilt
an
limn→∞ an
lim
=
.
n→∞ bn
limn→∞ bn
Beweis. Seien a := limn→∞ an und b := limn→∞ bn .
Zu (i): Wir betrachten die Folge (an + bn ). Sei ε > 0 vorgegeben. Es existieren
n0 , n′0 ∈ N mit
ε
ε
|an − a| < für n ≥ n0 und |bn − b| < für n ≥ n′0 .
2
2
′
Sei nun N := max{n0 , n0 }. Dann folgt für n ≥ N, dass
ε ε
|(an + bn ) − (a + b)| = |an − a + bn − b| ≤ |an − a| + |bn − b| < + = ε .
2 2
So ist die Konvergenz der Summenfolge mit dem Limes a + b erledigt.
Analog beweist man, dass (an − bn ) gegen a − b konvergiert.
Zu (ii): Eine leichte Rechnung ergibt:
an bn − ab = an bn − an b + anb − ab = (an ) · (bn − b) + b(an − a).
Die Folge (an ) ist nach Satz 5.1 beschränkt, und b ist eine Konstante. Nach
dem Satz 5.2 (i) ist diese eine Nullfolge, und daraus folgt die Konvergenz
der Produktfolge mit dem Limes ab.
Zu (iii): Es folgt unmittelbar aus (ii), wenn man die konstante Folge (bn ) mit bn = c
betrachtet.
42
Abschnitt 5
Zu (iv): Man prüft leicht nach:
1
an a ban − abn
− =
=
· (ban − abn ).
bn b
bbn
bbn
Da (ban − abn ) eine Nullfolge ist, und die Folge bb1n nach dem Satz
5.2(iii) beschränkt ist, folgt die Behauptung aus dem Satz 5.2 (i).
Beispiel. Sei (an )n∈N mit an =
2n2 +1
5n2 +3n+1
=
2+ 12
n
5+ 3n + 12
. Es gilt:
n
1 2
3 1
1
= 2 + 0 = 2, und lim 5 + + 2 = 5.
lim 2 + 2 = lim 2 + lim
n→∞
n→∞ n
n→∞
n→∞
n
n n
Schließlich erhalten wir mit Satz 5.4, dass
!
1
1
limn→∞ 2 + n2
2 + n2
2n2 + 1
2
= .
lim
=
lim
=
1
3
2
n→∞ 5n + 3n + 1
n→∞ 5 + +
5
limn→∞ 5 + n3 + n12
n
n2
Wenn man sich die Folgen (yn ) = ((−1)n )n∈N und (zn ) = (n)n∈N genauer anschaut, stellt man zumindest heuristisch fest, dass diese auf verschiedene Arten
divergieren: Die Folge (zn ) läuft gegen ∞, während (yn ) zwei bestimmten Werte annimmt, nämlich −1 und 1. Eine Formalisierung dieser Tatsachen liefert die
folgende Definition.
Definition. Sei (an ) eine Folge. Sie heißt
(a) bestimmt divergent gegen ∞, wenn:
Zu jedem c ∈ R existiert ein n0 ∈ N so dass an > c für alle n ≥ n0 .
Wir schreiben dann limn→∞ an = ∞.
(b) bestimmt divergent gegen −∞, wenn:
Zu jedem c ∈ R existiert ein n0 ∈ N so dass an < c für alle n ≥ n0 .
Wir schreiben dann limn→∞ an = −∞.
Den Gebrauch von den Symbolen −∞ und ∞ haben wir in Abschnitt 4 gerechtfertigt, indem wir die total angeordnete Menge R := R ∪ {−∞, ∞} eingeführt haben.
Beispiele.
(a) Die Folge (n)n∈N ist bestimmt divergent gegen ∞.
(b) Die Folge (−n)n∈N ist bestimmt divergent gegen −∞.
(c) Die Folge (−1)n ist divergent, aber nicht bestimmt divergent.
Die Folge (−1)n hat keinen Grenzwert; Es ist trotzdem unmittelbar klar: Wenn
wir gerade Zahlen n angeben, bekommen wir immer 1, anderenfalls −1; jeder Wert
hat ein ähnliches Verhalten als wenn er eine Art von Grenzwert wäre. Definitionsgemäß darf dies aber nicht sein.
Folgen reeller Zahlen (I): Konvergenz
43
Mit anderen Worten: Wenn wir die Teilfolge (−1)2n der Folge (−1)n nehmen,
konvergiert sie gegen 1, dementsprechend konvergiert die Teilfolge (−1)2n+1 gegen −1. Die Folge (−1)n besitz natürlich keinen Grenzwert, allerdings spielen −1
und 1 dabei eine besondere Rolle: sie sind die Grenzwerte der erwähnten Teilfolgen, und werden Häufungspunkte der Folge (−1n )n∈N genannt. Wir präzisieren
nun diese Begriffe.
Sei (an )n≥s0 eine Folge. Sei dazu (nk )k∈N eine Folge natürlicher Zahlen mit
s0 ≤ nk < nk+1 für alle k ∈ N. Dann heißt (ank )k∈N eine Teilfolge der Folge (an )n≥s0 .
Man sagt, dass α ∈ R ein Häufungspunkt der Folge (an ) ist, wenn zu jedem ε > 0
unendlich viele n ∈ N existieren mit |an − α | < ε .
Dieses Verhalten kann auch bei ±∞ vorkommen. Dann heißt ∞ (bwz. −∞) ein
uneigentlicher Häufungspunkt der Folge (an ), wenn zu jedem c ∈ R unendlich
viele n ∈ N existieren mit an > c (bzw. an < c.)
Jede Teilfolge einer konvergenten Folge konvergiert, und zwar gegen denselben
Grenzwert (!). Außerdem:
Satz 5.5.
(i) Sei (an ) eine Folge. Ist genau dann α ∈ R ein Häufungspunkt der
Folge, wenn eine Teilfolge (ank ) von (an ) existiert, die gegen α konvergiert.
(ii) Sei (an ) eine Folge. Ist ∞ (bwz. −∞) genau dann ein uneigentlicher
Häufungspunkt der Folge, wenn es eine Teilfolge (ank ) von (an ) gibt, die
bestimmt divergent gegen ∞ (bzw. gegen −∞) ist.
Beweis. Zu (i): Falls eine Teilfolge (ank ) von (an ) gegen α ∈ R konvergiert,
dann ist α trivialerweise ein Häufungspunkt der Folge (an). Sei umgekehrt α ein
Häufungspunkt der Folge (an ). Wir konstruieren nun eine Folge natürlicher Zahlen
(nk ) derart, dass
1
nk+1 > nk und |ank − α | <
für alle k ≥ 1.
k
Die Folge (ank ) konvergiert dann gegen α , denn 1/k −→ 0. Da α ein Häufungspunkt von (an ) ist, existiert ein n1 ∈ Z mit |an1 − α | < 1. Angenommen wir haben
natürliche Zahlen n1 , . . . , nk , k ≥ 1 mit den gewünschten Bedingungen gefunden.
Da α auch ein Häufungspunkt von (an )n>nk ist, existiert ein nk+1 ∈ Z mit
1
und nk+1 > nk .
|ank+1 − α | <
k+1
Der Beweis von (ii) verläuft analog und ist dem Leser als Übungsaufgabe überlassen.
Es stellt sich die Frage, wann Häufungspunkte immer existieren. Die Antwort
wird durch einen bekannten Satz der Analysis gegeben (der Satz von BolzanoWeierstraß). Dafür müssen wir zuerst den Begriff von Monotonie einer Folge
einführen. Das wird im nächsten Abschnitt geschehen.
ABSCHNITT 6
Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien
In diesem Abschnitt möchten wir Kriterien angeben, die uns erlauben sowohl
die Existenz von Häufungspunkten als auch die Konvergenz einer Folge reeller
Zahlen festzustellen. Das Wachstum einer Folge spielt dabei eine entscheidende
Rolle. Ein für unsere Zwecke gutes Wachstumsverhalten wird durch die Monotonie
gekennzeichnet:
Definition. Sei (an )n≥s0 eine Folge.
(i) (an )n≥s0 heißt monoton fallend (bzw. monoton wachsend), wenn
an+1 ≤ an (bzw. an+1 ≥ an ) für alle n.
(ii) (an )n≥s0 heißt streng monoton fallend (bzw. streng monoton wachsend),
wenn
an+1 < an (bzw. an+1 > an ) für alle n.
(iii) (an )n≥s0 heißt monoton, wenn sie entweder monoton wachsend oder monoton fallend ist.
Beispiel. Die Folge ( 1n )n≥1 ist streng monoton fallend. Die Folge (n2 )n∈N ist streng
monoton wachsend. Die Folge ((−1)n )n∈N ist nicht monoton.
Der Satz 5.1 zeigt, dass jede konvergente Folge beschränkt ist. Die Umkehrung
gilt natürlich nicht, wie bereits die Folge ((−1)n )n∈N zeigt. Diese ist aber nicht
monoton; Für monotone Folgen gilt doch die Umkehrung des Satzes 5.1:
Satz 6.1. Jede beschränkte, monotone Folge (an )n≥s0 konvergiert, und zwar:
(i) eine wachsende gegen sup(A), wobei A := {an : n ∈ N} das Folgenbild ist;
(ii) eine fallende gegen inf(A).
Beweis.
Zu (i): Sei s := sup(A). Da s die kleinste obere Schranke für A ist, gibt es zu jedem
ε > 0 ein aN mit s − ε < aN . Damit folgt
s − ε < aN ≤ an ≤ s für n > N.
Zu (ii): Dies kann analog gezeigt oder mittels der Folge (−an ) auf (i) zurückgeführt werden.
46
Abschnitt 6
√
Beispiel. Sei a > 1. Die Folge ( n a)n≥1 ist offenbar streng monoton fallend. Ferner
1
1
ist a n > 1 n = 1, also die Folge ist nach unten beschränkt und damit beschränkt.
Dann konvergiert sie nach dem Satz 6.1, und zwar gegen inf({an : n ≥ 1}) = 1.
√
Beispiel. Wir möchten zeigen: Für 0 ≤ a ≤ b gilt n an + bn → b. Es gilt
√
√
n
n
b ≤ an + bn ≤ b 2.
√
Nach dem letzten Beispiel ist n 2 → 1, somit ist die Aussage klar nach dem
Sandwich-Kriterium 5.3.
Beispiel. Sei (an )n≥1 die Folge gegeben durch an = (1 + n1 )n . Wir zeigen, dass
diese Folge konvergent ist, und geben eine obere Schranke für ihren Grenzwert.
Zunächst überlegt man durch direkte Rechnung, dass für m, n ∈ N mit m < n gilt
1
1 m
1
1 m
< k
≤ ≤ k−1 für k = 2, 3, . . . , n.
k
k! 2
m k
m k
Dass die Folge beschränkt ist und 3 als obere Schranke hat, sieht man nach Verwendung des binomischen Lehrsatzes und der obigen Ungleichungen:
n n 1
an = ∑
k
k=0 k n
n
<
k=0
n
≤
1
∑ k!
1
1 − 21n
∑ 2k−1 = 1 + 1 − 1
k=0
2
= 3−
1
2n−1
< 3.
Dass die Folge streng monoton wachsend ist, ist im Wesentlichen analog:
n n 1
an = ∑
k
k=0 k n
n 1
n+1
1
n+1
+
< ∑
(n + 1)k
n + 1 (n + 1)n+1
k
k=0
n+1 1
n+1
= ∑
= an+1 .
k
(n + 1)k
k=0
Aus dem Satz 6.1 folgt, dass die Folge konvergent ist.
Die Beziehung zwischen unbeschränkten und divergenten Folgen ist zu erwarten:
Satz 6.2.
(i) Nicht jede divergente Folge (an )n≥s0 ist unbeschränkt.
Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien
47
(ii) Jede bestimmt divergente Folge (an )n≥s0 ist unbeschränkt. Falls an → ∞,
dann ist sie nach unten beschränkt. Falls Falls an → −∞, dann ist sie nach
oben beschränkt
(iii) Jede nicht beschränkte monoton wachsende (bzw. fallende) Folge ist bestimmt divergent gegen ∞ (bzw. −∞).
Beweis.
Zu (i): Wie oben gezeigt ist die divergente Folge ((−1)n )n∈N beschränkt.
Zu (ii): Die Aussagen folgen unmittelbar aus der Definition.
Zu (iii): Wir betrachten den Fall monoton wachsend (der andere ist analog). Sei
M > 0. Da M keine obere Schranke der Folge nach (ii) sein kann, muss ein
n0 ∈ N existieren so dass an0 > M. Da (an ) monoton wachsend ist, gilt für
n ≥ n0 :
an ≥ an0 > M,
und daher muss (an ) bestimmt divergent gegen ∞ sein.
Als Anwendung beweisen wir die folgende Aussage:
Satz 6.3. Seien (an ) eine monoton wachsende und (bn ) eine monoton fallende Folge mit folgenden Eigenschaften:
(a) Es ist an ≤ bn für alle n ∈ N.
(b) Es ist limn→∞ (bn − an) = 0.
Dann gibt es genau eine reelle Zahl α mit an ≤ α ≤ bn für alle n ∈ N.
Beweis. Die Folgen (an) und (bn ) sind auch bescheränkt, also auch konvergent.
Wegen 0 = lim(bn − an ) = lim(bn ) − lim(an ) haben die Folgen (an ) und (bn ) denselben Grenzwert α . Aus der Monotonie dieser Folgen ergibt sich an ≤ α ≤ bn
für alle n ∈ N. Dieses α ist auch eindeutig bestimmt: Angenommen, es existierte eine weitere solche Zahl α ′ , so gelte |α − α ′ | ≤ bn − an für alle n und daher
notwendigerweise |α − α ′ | = 0, d.h., α = α ′ .
Zwei Folgen (an ) und (bn ) wie in Satz 6 definieren eine Folge von abgeschlossenen Intervallen In := [an , bn ], n ∈ N, für die
I0 ⊂ I1 ⊂ I2 ⊂ . . . ⊂ In ⊂ In+1 ⊂ . . .
gilt und deren Längen eine Nullfolge bilden. Man nennt eine solche Folge von abgeschlossenen Intervallen eine Intervallschachtelung. Nach dem Satz gibt es genau
eine Zahl α , die in jedem der Intervalle In liegt. Diese Zahl α heißt die durch die
Intervallschachtelung definierte Zahl. Es ist
a0 ≤ a1 ≤ a2 ≤ . . . ≤ α ≤ . . . ≤ b2 ≤ b1 ≤ b0 .
48
Abschnitt 6
Diese Überlegungen führen zu der am Ende des Abschnittes 5 angekündigten
Frage, wann ist die Existenz von Häufungspunkten immer sichergestellt. Die genaue Antwort ist folgendes Ergebnis.
Satz 6.4 (Bolzano-Weierstraß). Eine beschränkte Folge hat mindestens einen
Häufungspunkt, und daher hat eine konvergente Teilfolge.
Beweis. Sei (an ) eine beschränkte Folge. Dann liegen alle Glieder in einem beschränkten Intervall [a, b] ⊂ R. Zur Bestimmung eines Häufungspunktes von (an )
konstruieren wir eine Intervallschachtelung [xn , yn ], n ∈ N, derart, dass in jedem
Intervall dieser Folge unendlich viele Glieder der Folge (an ) liegen. Dann ist die
durch diese Intervallschachtelung definierte Zahl α offenbar ein Häufungspunkt
von (an ).
Eine solche Intervallschachtelung geben wir mit dem sogenannten Intervallhalbierungsverfahren an. Dazu setzen wir x0 = x, y0 = y. Sind xn und yn gewählt, so liegen im Intervall [xn , yn ] nach Konstruktion unendlich viele Glieder der Folge (an ).
Das gilt dann auch für mindestens eines der beiden Teilintervalle [xn , (xn + yn )/2]
und [(xn + yn)/2, yn ], dessen Endpunkte wir dann für xn+1 und yn+1 nehmen. Gilt
dies für beide Teilintervalle, so nehmen wir der Eindeutigkeit halber die linke Hälfte. Wegen yn − xn = (y − x)/2n handelt es sich um eine Intervallschachtelung. Den Satz von Bolzano-Weierstraß haben wir betrachtet, um ein letztes Konvergenzkriterium reeller Folgen beweisen zu können: das Cauchysche Konvergenzkriterium.
Die Definition von der Konvergenz einer Folge nutzt die Kenntnis ihres Grenzwertes aus: Wir sind gezwungen, die Ungleichung |an − a| < ε einzuschätzen,
wobei a der Grenzwert ist. Es gibt aber Folgen bei denen es schwierig oder sehr
schwierig ist, ihre Grenzwerte zu bestimmen:
Beispiel. Wir betrachten die Folge (an )n≥1 mit
n
an := ∑ (−1)[
i=1
(i−1)
2 ]
1
,
i
wobei [i/2] die Gauß-Klammer bezeichnet. Die ersten Glieder dieser Folge sind
1 1
1 1 1
1
a2 = 1 + , a3 = 1 + − , a4 = 1 + − − , . . .
2
2 3
2 3 4
Es ist zunächst nicht mehr so direkt zu ersehen, ob diese Folge konvergiert. Wollen wir die Definition von Konvergenz anwenden, müssen wir den Limes—falls
er existiert—bestimmen. Ein erstes numerisches Experiment mit einem Rechner
zeigt, dass die Folge gegen 1.13 zu konvergieren scheint. In der Tat kann man mit
etwas fortgeschrittenen Techniken beweisen, dass die Folge gegen (π + 2 log 2)/4
konvergiert.
a1 = 1,
Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien
49
Nach der Definition von Konvergenz und mit Hilfe eines Rechners und Geduld
beobachtet man, dass es für ein vorgegebenes ε (hier ε = 0.058) ein letztes an (hier
a16 ) gibt, bei dem die Ungleichung |an − a| < ε verletzt ist. Das heißt, die n0 ∈ N,
die nach der Definition von Konvergenz existieren muss, so dass für alle ε > 0
und alle n ≥ n0 die Ungleichung |an − a| < ε gilt, ist n0 = 17. Die Folge ist also
konvergent. Wer hätte es gedacht!
Ohne die Bestimmung des Grenzwertes im obigen Beispiel wäre eine präzise
Einschätzung von |an −a| < ε für jedes ε > 0 unmöglich gewesen! Cauchy kam auf
die folgende Idee: Man ersetze die Ungleichung |an − a| < ε durch |an − an+k | < ε
für alle Nachfolgern an+k , mit k ≥ 1, von an :
Definition. Eine Folge (an )n≥s0 heißt Cauchy-Folge, wenn:
Zu jedem ε > 0 existiert ein n0 ∈ N so dass
für alle k ∈ N ist |an − an+k | < ε für alle n ≥ n0 .
Mit anderen Worten (um die Betrachtung zu vereinfachen):
Zu jedem ε > 0 existiert ein n0 ∈ N so dass |am − an | < ε für m, n ≥ n0 .
Beispiel. Sei (an )n≥1 die Folge aus dem letzten Beispiel. Für ε = 0.11 ist die Definition von Cauchy-Folge für alle n ≥ 17 erfüllt. Genauso kann man zeigen, dass
die Definition für jedes ε > 0 gilt, denn
n+k
(i−1)
1
1
1
[ 2 ] 1
+
+...+
−→ 0.
|an − an+k | = ∑ (−1)
≤
i
n+1 n+2
n+k
i=n+1
Cauchy-Folgen sind schon (unbewusst!) bekannt:
Satz 6.5. Jede konvergente Folge (an ) ist eine Cauchy-Folge.
Beweis. Ist l = limn→∞ an , dann existiert für ε > 0 vorgegeben ein n0 ∈ N mit
ε
|an − l| <
für n ≥ n0 ,
2
nach der Definition vom Limes. Seien nun m, n ∈ N mit m, n ≥ n0 . Dann gilt
ε ε
|am − an | = |am − l + l − an | ≤ |am − l| + |an − l| < + = ε
2 2
und damit ist (an ) eine Cauchy-Folge.
In unserer Situation, nämlich Folgen reeller Zahlen, gilt auch die Umkehrung
dank dem Vollständigkeitsaxiom (das heißt, in R ist der Begriff Cauchy-Folge”
”
gleichbedeutend zum Begriff konvergente Folge”):
”
Satz 6.6.
(i) Jede Cauchy-Folge ist beschränkt.
(ii) Jede Cauchy-Folge ist konvergent.
50
Abschnitt 6
Beweis.
Zu (i): Für vorgegebenes ε = 1 existiert n0 ∈ N so dass |am − an| < 1 für m, n ≥ n0 .
Insbesondere ist |am − an0 | < 1. Dann gilt für m ≥ n0 :
am ∈ ]an0 − 1, an0 + 1[.
Da der Rest der Terme endlich viele sind, sind wir fertig.
Zu (ii): Sei (an ) eine Cauchy-Folge. Nach Satz 6.6 ist sie beschränkt. Nach dem
Satz von Bolzano-Weierstraß hat sie eine konvergente Teilfolge, sagen wir
(ank )k∈N . Sei l = limk→∞ ank . Es ist zu zeigen, dass l = limn→∞ an ist: Sei
dafür ε > 0 vorgegeben. Da (an ) eine Cauchy-Folge ist, existiert ein n0 ∈ N
so dass
(∗) ε
|am − an | <
für m, n ≥ n0
2
Da die Teilfolge (ank ) konvergent ist, muss auch ein k0 ∈ N existieren so
dass nk0 ≥ n0 und
(∗∗)
|ank − l| <
ε
für k ≥ k0
2
Dann gilt für alle n ≥ n0
|an − l| = |an − ank + ank − l| ≤ |an − ank | + |ank − l|
0
0
0
(∗)+(∗∗)
0
<
ε ε
+ = ε.
2 2
Tatsächlich gilt die zweite Aussage in Q nicht: Die Folge
1, 1.4, 1.41, 1.414, 1.4142, 1.41421, . . .
ist eine Cauchy-Folge (wegen
|an − an+k | < 10−n ), deren Glieder rationale Zahlen
√
sind, aber ihr Limes ist 2 ∈
/ Q.
Cauchy-Folgen werden wieder eine Rolle im nächsten Abschnitt bei der Betrachtung ein sehr spezielles Typus von Folgen spielen: Die Reihen.
ABSCHNITT 7
Folgen reeller Zahlen (III): Reihen
Sei (ak )k≥s0 eine Folge reeller Zahlen. Eine Reihe reeller Zahlen ist eine Folge
reeller Zahlen (Sn )n≥s0 mit
Sn := as0 + as0 +1 + . . . + as0 +n .
Die Zahl ak heißt der k-te Term der Reihe. Die Zahl Sn heißt die n-te Partialsumme
der Reihe. Die Folge (Sn )n≥s0 wird die Folge der Partialsummen gennant. Um die
Bezeichnung zu entlasten werden wir im Allgemeinen s0 = 0 annehmen.
Eine Reihe heißt konvergent wenn die Folge der Partialsummen konvergiert.
Den Grenzwert bezeichnen wir mit
∞
lim Sn .
∑ ak := n→∞
k=0
und nennen wir die Summe der Reihe. Eine nicht-konvergente Reihe heißt divergent.
Achtung!
Die Schreibweise ∑∞
k=0 ak ist nur eine Bezeichnung. Eine Reihe sollte man sich
nicht als unendliche Summe vorstellen, weil dies der Anfang allerlei Missverständnisse sein kann.
Es ist noch zu beachten: Die Schreibweise ∑∞
k=0 ak ist zweideutig (und daher
gefährlich!): Sie bezeichnet sowohl die Reihe als auch ihre Summe, falls sie konvergiert. Dieser Gebrauch ist so verbreitet, dass wir nichts anderes machen können.
Die Frage nach der Konvergenz von Reihen spielt wieder eine zentrale Rolle.
Ein erstes Kriterium verdanken wir Cauchy:
Satz 7.1 (Cauchy-Kriterium für Reihen). Die Reihe ∑∞
k=0 ak konvergiert genau
dann, wenn:
Zu jedem ε > 0 existiert ein n0 ∈ N mit | ∑nk=m ak | < ε für alle m, n ≥ n0 .
Beweis. Sei Sn = ∑nk=0 ak . OBdA nehmen wir n ≥ m an. Dann ist
n
∑ ak = Sn − Sm − 1.
k=m
52
Abschnitt 7
Daher folgt die Aussage nun aus den Sätzen 6.5 und 6.6(ii), die besagen, dass die
Folge (Sn ) genau dann konvergiert, wenn diese Folge eine Cauchy-Folge ist.
Das Cauchy-Kriterium ergibt eine notwendige Bedingung für die Konvergenz:
Satz 7.2. Ist die Reihe ∑∞
k=0 ak konvergent, so ist (ak )k∈N eine Nullfolge.
Beweis. Sei ε > 0 vorgegeben. Nach dem Satz 7.1 existiert ein n0 ∈ N so dass
| ∑nk=m ak | < ε für m, n ≥ n0 gilt. Wählt man m ≥ n0 und n = m, so erhält man
n
m a
∑ k = ∑ ak = |am | < ε .
k=m
k=m
Die Bedingung ist nicht hinreichend, d.h., es kann passieren, dass (ak )k∈N eine
Nullfolge ist, aber die Reihe ∑∞
k=0 ak divergiert, wie folgendes Beispiel zeigt:
Beispiel (Die harmonische Reihe). Sei die Reihe
∞
1
∑ k.
k=1
Obwohl die Folge ( 1k )k≥1 eine Nullfolge ist, divergiert die Reihe deshalb, weil die
Folge der Partialsummen (Sn )n≥1 mit
1
1
1 1
+
Sn = 1 + + + . . . +
2 3
n−1 n
nicht beschränkt ist, und damit ist die Reihe divergent. Und sie ist nicht beschränkt
aufgrund der folgenden Abschätzung:
2n
1
1
1 1 1 1 1 1 1
1
∑ = 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + . . . + 2n−1 − 1 + . . . + 2n
k=1 k
1
1
1
1
> 1 + + 2 · + 4 · + . . . + 2n−1 · n
2
4
8
2
n
= 1+ .
2
k
Satz 7.3 (Die geometrische Reihe). Sei x ∈ R. Die Reihe ∑∞
k=0 x konvergiert genau
dann, wenn |x| < 1. In diesem Fall gilt
∞
1
∑ xk = 1 − x
k=0
Beweis. Dass die Reihe für |x| ≥ 1 divergiert, ist eine Folgerung des Satzes 7.2.
Sei |x| < 1. Es gilt:
n
1 − xn+1
1
1
∑ x = 1 − x = 1 − x − 1 − x xn+1 .
k=0
k
Folgen reeller Zahlen (III): Reihen
53
Daher konvergiert die Reihe genau dann, wenn die Folge (xn ) konvergiert, und das
ist in der Tat so für |x| < 1, und zwar gegen 0. Daraus folgt unmittelbar
∞
k=0
n
1 − xn+1
1
1 n+1
= lim
−
x
n→∞
n→∞ 1 − x
n→∞ 1 − x
1
−
x
k=0
1
1
1
1
=
−
lim xn+1 =
−0 =
.
1 − x 1 − x n→∞
1−x
1−x
∑ xk = lim
∑ xk = lim
Beispiele.
(a) Arithmetisch-Geometrische Reihen: Sie sind Reihen der Form (c, d ∈ R)
∞
∑ (ck + d)xk.
k=0
Ähnlich wie bei der geometrischen Reihe zeigt man, dass die Reihe genau
dann konvergiert, wenn |x| < 1 ist. Konkret betrachten wir die Reihe
∞
k
∑ 3k .
k=0
Da 13 < 1 ist, konvergiert die Reihe. Um die Summe zu bestimmen, schauen
wir uns zunächst die Partialsummen Sn und 3Sn :
3
n−1 n
1 2
+ 2 + 3 + . . . + n−1 + n
Sn =
3 3
3
3
3
2 3
n−1
n
3Sn = 1 + + 2 + . . . + n−2 + n−1 .
3 3
3
3
Wir rechnen 3Sn − Sn = 2Sn durch:
n−1
1 n
1 1
1
n
n
3
1
1− n − n
2Sn = 1 + + 2 + . . . + n−1 − n = ∑ i − n =
3 3
3
3
3
2
3
3
i=0 3
Dann ist Sn = 43 1− 31n − 2·3n n und somit ist die Summe S = limn→∞ Sn = 34 .
(b) Teleskope Reihen: Sie sind die Reihen, deren k-tes Glied ak in der Form
bk − bk−1 gebracht werden kann. Genau dann ist die Reihe ∑∞
k=0 ak konvergent, wenn die Folge (bk ) konvergiert. In solchen Fall ist die Summe der
Reihe gleich limk→∞ bk − b0 . Als direkte Anwendung sei die Reihe
∞
k+1
∑ (k + 2)! .
k=1
Der Term ak =
k+1
(k+2)!
gleicht
k+2−1
k+2
1
1
1
=
−
=
−
= bk+1 − bk+2 ,
(k + 2)!
(k + 2)! (k + 2)! (k + 1)! (k + 2)!
54
Abschnitt 7
wobei bk =
1
k!
ist. Dann sind die Partialsummen
Sn = a1 + . . . + an = (b2 − b3 ) + (b3 − b4 ) + . . . + (bn+1 − bn+2 ),
und damit ist die Summe S der Reihe
1
1
−0 = .
n→∞
n→∞
n→∞
2!
2
Da Reihen ein Spezialfall von Folgen sind, haben sie grundsätzlich identische
Eigenschaften, die sich letztlich aus denen von den Folgen beweisen lassen:
S = lim Sn = lim (b2 − bn+2 ) = b2 − lim bn+2 =
∞
Satz 7.4.
(a) Sei ∑∞
k=0 ak eine Reihe. Sei ∑k=0 bk eine weitere Reihe, die aus
der ersten entsteht nach Modifizierung oder Streichung endlich vieler Ter∞
me. Genau dann ist ∑∞
k=0 bk konvergent, wenn ∑k=0 ak konvergiert. Im konvergenten Fall kann den Grenzwert gewechselt haben!)
∞
(b) Sei c 6= 0. Dann ist ∑∞
k=0 ak genau dann konvergent, wenn ∑k=0 c · ak konvergent ist.
∞
∞
(c) Seien ∑∞
k=0 ak und ∑k=0 bk konvergente Reihen. Dann ist ∑k=0 α ak + β bk
auch konvergent. Ferner gilt für den Grenzwert
∞
∞
∞
∑ α ak + β bk = α
∑ ak + β
∑ bk .
k=0
k=0
k=0
Eine hinreichende Bedingung hat Leibniz in 1682 schon bemerkt, und zwar für
die Konvergenz alternierender Reihen: Eine Reihe heißt alternierend, wenn ihre
Glieder abwechselnd ≥ 0 und ≤ 0 sind, also eine Reihe der Gestalt
∞
∑ ak
k=0
für ai ∈ R. Das Leibniz-Kriterium ergibt eine hinreichende Bedingung für die Konvergenz dieser Reihen:
Satz 7.5 (Leibniz-Kriterium). Sei (ak )k∈N eine monoton fallende Nullfolge von
nicht-negativen reellen Zahlen, d.h., eine Folge so dass für alle k gilt:
ak ≥ 0,
ak ≥ ak+1 und lim ak = 0.
k→∞
Dann konvergiert die Reihe
∞
∑ (−1)k ak .
k=0
Beweis. Ist die Reihe konvergent, dann ist ((−1)k ak ) nach Satz 7.2 eine Nullfolge.
Mithin ist (ak ) eine Nullfolge. Sei nun umgekehrt (ak ) eine Nullfolge. Wir setzen
Sn = ∑nk=0 (−1)k ak . Es folgt aus der Voraussetzung
S2(n+1) = S2n − (a2n+1 − a2n+2 ) ≤ S2n .
Folgen reeller Zahlen (III): Reihen
55
Daher ist (S2n) monoton fallend. Analog sieht man, dass (S2n−1) monoton wachsend ist. Es ist
S0 ≥ S2n ≥ S2n−1 ≥ S1 .
Daher sind (S2n ) und (S2n−1 ) beschränkt und monoton, also konvergent. Wegen
lim (S2n − S2n−1 ) = lim a2n = 0
n→∞
n→∞
haben beide Folgen den gleichen Grenzwert a ∈ R. Hieraus ergibt sich direkt, dass
k
auch (Sn ) gegen a konvergiert und daher ist ∑∞
k=0 (−1) ak konvergent.
Die alternierende harmonische Reihe
∞
1
∑ (−1)k−1 k
k=1
ist nach dem Leibniz-Kriterium konvergent. Man könnte auf folgende Idee kommen: Gilt das noch für jede Umordnung der Reihe? Die Frage ist nicht trivial.
Wenn wir die Reihe
1
1
1
1
1
1
1 1 1 1 1 1 1 1 1
1− + − + − + − + − + − + − + − +...
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
wie folgt umordnen
1 1 1 1 1 1 1
1 1 1
1 1 1
1
1− − + − − + − − + − − + − − +...,
| {z 2} 4 |3 {z 6} 8 |5 {z10} 12 |7 {z14} 16 |9 {z18} 20
1/2
1/6
1/14
1/10
1/18
dann ergibt sich
1 1 1 1 1
1 1 1 1 1
1
1
1− + − + − +... ,
− + − + − +... =
2 4 6 8 10 12
2
2 3 4 5 6
was so viel wie die Hälfte der ursprünglichen Reihe ist! Das zeigt schon, dass
die Summe einer Reihe von der Summationsordnung abhängig ist. Es ist sogar
schlimmer: Man kann eine Umordnung finden, so dass die Reihe nicht mehr konvergent ist! Seien dazu die Folgenglieder (−1)k−1 1k ungerader Ordnung für k =
2k + 1, 2k + 3, 2k + 5 . . . , 2k+1 − 1. Es gilt
1
2k + 1
+
1
2k + 3
+...+
1
2k+1 − 1
> 2k−1
1
2k+1
1
= .
4
56
Abschnitt 7
Betrachte die Umordnung
1
1
1
1−
2 + 3− 4
1
5
+ 19
+
+ 71 − 61
+
+ . . .
+
1
11
1
2k +1
+...
=
+
1
13
+
1
15
>
− 18
>
..
.
1
+ 2k1+3 + 2k1+5 + . . . + 2k+11 −1 − 2k+2
>
..
.
7
12
1
4−
1
4−
1
4
1
6
1
8
1
− 2k+2
Die Folge der Partialsummen (Sk )k≥1 mit
1 1 1
1 1
1
1 1
7
− , S3 =
− ,...
+
+ + +
S1 = , S2 =
12
5 7
6
9 11 13 15
8
ist keine Nullfolge, also sie ist divergent nach dem Satz 7.2 und damit ist die Reihe
∑∞
k=0 Sk , die als Umordnung der alternierenden harmonischen Reihe gebastelt wird,
divergent. Das sei ... ein Umstand, welcher von den Mathematikern des vorigen
”
Jahrhunderts übersehen wurde...”1. Riemann hat das Phänomen verstanden: Letztlich ist das so, weil sowohl die Summe aller positiven Terme als auch die Summe
aller negativen Terme der alternierenden harmonischen Reihe, d.h.
1 1 1 1
1 1 1 1 1
1 + + + + + . . . und − − − − − − . . .
3 5 7 9
2 4 6 8 10
beide divergent sind; oder anders gesagt, die alternierende harmonische Reihe, mit
jedem Glied durch seinen Absolut-Betrag ersetzt, divergent ist. Das ist uns bekannt, denn diese Reihe ist doch die harmonische Reihe
∞ ∞
1
k−1 1 ∑ (−1) k = ∑ k ,
k=1
k=1
1
∞ k−1
und sie divergiert. Das hätte nicht passieren können, wenn die Reihe ∑k=1 (−1) k ,
d.h., die Reihe, die sich durch Absolut-Betrage bilden lässt, konvergiert hätte. Konvergente Reihen, bei denen jede ihrer Umordnungen wieder konvergiert, heißen
unbedingt konvergent. Dieser Begriff hört sich fremd an, er kommt oft vor:
Definition. Eine Reihe ∑∞
k=0 ak heißt absolut konvergent, wenn die Reihe
∞
∑ |ak |
k=0
konvergent ist.
1Zitat aus Riemann, 1854: Werke, p. 235.
Folgen reeller Zahlen (III): Reihen
57
Bedingt konvergente Reihen sind die, welche konvergent aber nicht absolut
konvergent sind, wie die alternierende harmonische Reihe. Dirichlet bewies, dass
absolut konvergente und unbedingt konvergente Reihen das Gleiche sind (vgl.
[Heu, Satz 32.3]). Wir beweisen nur eine Richtung:
Satz 7.6. Ist eine Reihe ∑∞
k=0 ak absolut konvergent, dann konvergieren auch alle ihre Umordnungen, und zwar gegen denselben Grenzwert, also gegen dieselbe
Summe.
Beweis. Nach dem Cauchy-Kriterium 7.1 ist die Reihe absolut konvergent wenn
zu jedem ε > 0 existiert ein n0 ∈ N so dass
|ak+1 | + |ak+2 | + . . . + |ak+n | < ε für alle n ≥ 1 und k ≥ n0 .
Dann wählen wir zu jedem ε > 0 und entsprechenden n0 ≥ 0 eine natürliche Zahl
M so dass alle Terme a0 , a1 , . . . , an0 in der M-ten Partialsumme
′
SM
M
=
∑ a′k
k=0
der umgeordneten Reihe vorkommen. Das heißt, alle Terme a0 , a1 , . . . , an0 in der
′ (für m ≥ M) verschwinden, und somit ist
Differenz Sm − Sm
′
|Sm − Sm
| ≤ |an0 +1 | + |an0 +2 | + . . . + |an0 +n | < ε
Was ist die exakte Beziehung zwischen der Konvergenz und der absoluten Konvergenz? Die obige Diskussion mit der alternierenden harmonischen Reihe zeigt:
Nicht jede konvergente Reihe ist absolut konvergent. Die Umkehrung gilt dank
dem Cauchy-Kriterium:
Satz 7.7. Eine absolut konvergente Reihe ist konvergent.
Beweis. Sei ∑∞
k=0 ak absolut konvergent. Wir wenden Satz 7.1 an. Sei ε > 0 vorgegeben. Dann gibt es ein n0 ∈ N mit
n
n
=
|a
|
∑ k ∑ |ak | < ε für alle m, n ≥ n0 .
k=m
k=m
Dann ergibt sich
n
∑
k=m
ak ≤ ∑ |ak | < ε für alle m, n ≥ n0 .
Daher ist wiederum nach Satz 7.1 die Reihe ∑∞
k=0 ak konvergent.
Nun führen wir drei Kriterien für die absolute Konvergenz ein.
58
Abschnitt 7
Satz 7.8 (Majoranten-Kriterium). Sei ∑∞
k=0 bk eine konvergente Reihe und (ak )k∈N
eine Folge mit |ak | ≤ bk für alle k ∈ N. Dann ist die Reihe
∞
∑ ak
k=0
absolut konvergent.
Beweis. Sei ε > 0 vorgegeben. Dann gibt es ein n0 ∈ N mit
n
b
∑ k < ε für alle n, m ≥ n0 .
k=m
Dann folgt die Behauptung aus
n
∑
k=m
n
|ak | ≤
∑ bk < ε für alle n, m ≥ n0.
k=m
Beispiel. Zunächst bestimmen wir die Summe folgender Teleskopen Reihe:
∞
n
n n
1
1 1
1
= lim
lim ∑
= lim ∑
−
= 1.
∑ k(k + 1) = n→∞
n→∞ n + 1
n→∞
k+1
k=1
k=1 k(k + 1)
k=1 k
Für s ≥ 2 und k ≥ 1 gilt
1
2
1
≤
≤
.
ks k2 k(k + 1)
Aus dem Majoranten-Kriterium 7.8 folgt nun für s ≥ 2 die Konvergenz der Reihe
∞
1
∑ ks .
k=1
∑∞
k=0 ak
eine Reihe mit ak 6= 0 für alle k ≥ k0
Satz 7.9 (Quotientenkriterium). Sei
mit k0 ∈ N. Falls eine Zahl q ∈ R, 0 ≤ q < 1 existiert mit
ak+1 a ≤ q für k ≥ k0 ,
k
dann ist
∑∞
k=0 ak
absolut konvergent.
Beweis. Wir können endlich viele Glieder einer Reihe abändern, ohne an der (absoluten) Konvergenz etwas zu ändern (vgl. Satz 7.4(a)). Daher können wir oBdA
k0 = 0 annehmen. Eine vollständige Induktion nach k liefert
|ak | ≤ qk |a0 | für alle k ≥ 0.
∞
k
Wir wissen, dass ∑∞
k=0 q |a0 | konvergiert und daher ist ∑k=0 ak absolut konvergent
wegen Satz 7.8.
Folgen reeller Zahlen (III): Reihen
59
2k −3k
. Wir verwenden das Quotientenkriterium.
Beispiel. Sei ∑∞
k=0 ak mit ak = k 2
Es ist
ak+1 (2(k + 1))!
(k!)2 · 23k
= lim
·
lim k→∞ ((k + 1)!)2 · 23(k+1)
k→∞ ak (2k)!
(2k + 2)(2k + 1) 1
= lim
· 3
k→∞
(k + 1)2
2
1
4k2 + 6k + 2
=
lim 2
8 k→∞ k + 2k + 1
1
4 1
=
·4 = =
8
8 2
a 1
Da limk→∞ k+1
ak = 2 < 1, ist die Reihe nach dem Quotientenkriterium absolut
konvergent, und nach dem Satz 7.7 konvergent.
Das Quotientenkriterium ist zwar nützlich aber von eingeschränkten Anwendungsmöglichkeiten.
Beispiel. Auf Konvergenz möchten wir die Reihe
∞
∑
1
(−1)k
k=1 2k+ 2
untersuchen. Wir versuchen, das Quotientenkriterium anzuwenden. Wir realisieren
aber, dass
1
a 2·(−1)k −2
ak+1
, falls k ungerade
k+1 lim = 4
= lim 2 2
= lim
1, falls k gerade
k→∞ ak
k→∞ ak
k→∞
gilt. Das heißt, das Quotientenkriterium kann nicht verwendet werden.
In solchen Fällen könnte uns noch folgendes Kriterium weiter helfen:
Satz 7.10 (Wurzelkriterium). p
Sei ∑∞
k=0 ak eine Reihe. Wenn ein q ∈ R mit 0 ≤ q < 1
k
und ein k0 ∈ N existieren mit |ak | ≤ q für alle k ≥ k0 , dann konvergiert die Reihe
∑∞
k=0 ak absolut.
p
Beweis. Es gilt genau dann k |ak | ≤ q, wenn |ak | ≤ qk . Da 0 ≤ q < 1 ist, konver∞
k
giert die Reihe ∑∞
k=0 q , also konvergiert ∑k=0 ak absolut nach dem MajorantenKriterium 7.8.
Beispiel. Für das obige Beispiel ∑∞
k=1 ak mit ak =
1
(−1)k
2k+ 2
> 0 kann man das Wur-
zelkriterium 7.10 anwenden, denn es gilt
s
s
√
1
1
1
1
k
lim k ak = lim k
=
lim
=
< 1.
k
k
(−1)
(−1)
k→∞
k→∞
k→∞ 2
2
k+
2
2
2 2
60
Abschnitt 7
Beispiel. Für jedes x ∈ R ist die Exponentialreihe
∞
exp(x) :=
xk
∑
k=0 k!
k
absolut konvergent: Für x = 0 ist nichts zu zeigen. Sei nun x 6= 0. Mit ak = xk! gilt
für k ≥ 2|x|
a xk+1 k! 1
|x|
k+1 ≤ .
=
=
k
ak
(k + 1)! x
k+1 2
Nun folgt aus dem Quotientenkriterium die Behauptung. Die Eulersche Zahl e definieren wir durch
∞
1
e := exp(1) = ∑ (= 2, 71828 . . .)
k=0 k!
Als nächstes überlegen wir uns, dass exp(x + y) = exp(x) · exp(y) gilt. Dafür
brauchen wir:
∞
Satz 7.11 (Cauchy-Produkt von Reihen). Seien ∑∞
k=0 ak und ∑k=0 bk absolut konvergente Reihen. Sei ck := ∑km=0 am bk−m für k ∈ N. Dann ist die Reihe ∑∞
k=0 ck
absolut konvergent und es gilt
∞ ∞ ∞
∑ c k = ∑ ak · ∑ bk .
k=0
k=0
k=0
Als eine erste Anwendung erhalten wir das Gewünschte:
Satz 7.12 (Funktionalgleichung der Exponentialfunktion). Für alle x, y ∈ R gilt
exp(x + y) = exp(x) · exp(y).
Beweis. Die Behauptung folgt aus Satz 7.11, da
k
k
1 k
ym
k k−m m
1
k!
xk−m
(x + y)k
k−m m
=
∑ m x y = ∑ k! m!(k − m)! x y = ∑ (k − m)! · (m)! .
k!
k! m=0
m=0
m=0
Die Exponentialreihe definiert in der Tat eine Funktion (d.h. eine Abbildung,
deren Wertebereich eine Teilmenge von R ist) exp : R → R, x 7→ exp(x). Sie heißt
die Exponentialfunktion. Ab dem nächsten Abschnitt werden die Funktionen die
Hauptobjekte unserer analytischen Untersuchungen sein.
ABSCHNITT 8
Stetigkeit und Grenzwerte reeller Funktionen
Den Abstand zwischen zwei reellen Zahlen x und x′ bezeichnen wir mit
d(x, x′ ) := |x − x′ |. Bei einer Funktion f : R → R kann man sich fragen, inwiefern der Abstand in der Wertemenge durch den Abstand in der Definitionsmenge
kontrollierbar ist. Sei x ∈ R und y = f (x) der Bildpunkt. Man möchte, dass für
Punkte x′ , die nahe” an x sind, auch die Bildpunkte f (x′ ) nahe” an f (x) sind. Die
”
”
Zielsetzung ist, dass zu einer gewünschten Genauigkeit im Bildbereich überhaupt
eine Ausgangsgenauigkeit gefunden werden kann, die sichert, dass die Funktionswerte innerhalb der gewünschten Genauigkeit beieinander liegen.
Um diese intuitive Vorstellung zu präzisieren, sei ein ε > 0 vorgegeben. Dieses
ε repräsentiert eine gewünschte Zielgenauigkeit”. Die Frage ist dann, ob man ein
”
δ > 0 finden kann (eine Startgenauigkeit”) mit der Eigenschaft, dass für alle x′
”
mit d(x, x′ ) < δ die Beziehung d( f (x), f (x′ )) < ε gilt. Dies führt zum Begriff der
stetigen Abbildung:
Definition. Sei D ⊂ R eine Teilmenge, f : D → R eine Funktion und x ∈ D. Man
sagt, dass f stetig im Punkt x ist, wenn es zu jedem ε > 0 ein δ > 0 gibt derart,
dass für alle x′ mit d(x, x′ ) < δ die Abschätzung d( f (x), f (x′)) < ε gilt. Man sagt,
dass die Funktion f stetig ist, wenn sie in jedem Punkt x ∈ D stetig ist.
Beispiele.
(a) Eine konstante Funktion f : R → R, x 7→ c, ist stetig: Zu jedem vorgegeben
ε > 0 kann man hier ein beliebiges δ > 0 wählen, da ja ohnehin
d( f (x), f (x′)) = d(c, c) = 0 < ε
für alle x′ gilt.
(b) Die Identität id : R → R, x 7→ x ist ebenfalls stetig: Zu jedem vorgegebenen
ε > 0 kann man hierzu δ = ε wählen, was zu der Tautologie führt: wenn
d(x, x′ ) < δ = ε , so ist
d( f (x), f (x′ )) = d(x, x′ ) < ε .
(c) Wir betrachten die Funktion f : R → R mit
n
0 falls x < 0,
f (x) =
1 falls x ≥ 0.
62
Abschnitt 8
Diese Funktion ist im Nullpunkt 0 nicht stetig. Für ε = 21 und jedes beliebige positive δ gibt es nämlich negative Zahlen x′ mit d(0, x′ ) = |x′ | < δ .
Für diese ist aber
1
d( f (0), f (x′)) = d(1, 0) = 1 6< .
2
Das folgende Resultat bringt die Stetigkeit von Funktionen mit konvergenten
Folgen in Verbindung.
Satz 8.1. Sei D ⊂ R eine Teilmenge, f : D → R eine Funktion und x ∈ D. Dann
sind folgende Aussagen äquivalent:
(i) f ist stetig im Punkt x.
(ii) Für jede konvergente Folge (xn)n∈N in D mit limn→∞ xn = x ist auch die
Bildfolge ( f (xn))n∈N konvergent mit dem Grenzwert f (x).
Beweis. Wir zeigen die zwei Implikationen der Äquivalenz:
(i) ⇒ (ii) Sei (xn )n∈N eine Folge in D, die gegen x konvergiert. Wir müssen zeigen,
dass limn→∞ f (xn ) = f (x) ist. Dazu sei ε > 0 gegeben. Wegen (i) gibt es
ein δ mit der angegebenen Eigenschaft, und wegen der Konvergenz von
(xn )n∈N gegen x gibt es eine natürliche Zahl n0 derart, dass für alle n ≥ n0
gilt
d(xn, x) < δ .
Nach der Wahl von δ ist dann
d( f (xn), f (x)) < ε für alle n ≥ n0 ,
so dass die Folge ( f (xn))n∈N gegen f (x) konvergiert.
(ii) ⇒ (i) Durch Widerspruch: Angenommen, dass f nicht stetig wäre. Dann gibt es
ein ε > 0 derart, dass es für alle δ > 0 Elemente z ∈ D gibt, deren Abstand
zu x maximal gleich δ ist, deren Wert f (z) unter der Abbildung aber zu
f (x) einen Abstand besitzt, der größer als ε ist. Dies gilt dann insbesondere
für die Stammbrüche δ = 1/n, n ∈ N. D.h. für jede natürliche Zahl gibt es
ein xn ∈ D mit
1
d(xn , x) < und mit d( f (xn ), f (x)) ≥ ε
n
Diese so konstruierte Folge (xn )n∈N konvergiert gegen x, aber die Bildfolge
( f (xn ))n∈N konvergiert nicht gegen f (x), da der Abstand der Bildfolgenglieder zu f (x) zumindest ε ist. Dies ist ein Widerspruch zu (ii). gibt,
Direkt aus der Folgencharakterisierung der Stetigkeit 8.1 ergeben sich die folgenden Rechenregeln für stetige Funktionen:
Stetigkeit und Grenzwerte reeller Funktionen
63
Satz 8.2. Seien D, E ⊂ R Teilmengen und f : D → R und g : E → R Funktionen
mit f (D) ⊂ E. Dann gelten folgende Aussagen:
(i) Wenn f in x ∈ D und g in f (x) stetig sind, so ist auch die Hintereinanderschaltung g ◦ f in x stetig.
(ii) Wenn f und g stetig sind, so ist auch g ◦ f stetig.
Aus den Sätzen 8.1 und 5.4 folgt auch:
Satz 8.3. Sei D ⊂ R und f , g : D → R stetige Funktionen. Dann sind auch die
folgenden Funktionen stetig:
(i) Die Funktion f + g : D → R, x 7→ f (x) + g(x)
(ii) Die Funktion f − g : D → R, x 7→ f (x) − g(x)
(iii) Die Funktion f · g : D → R, x 7→ f (x) · g(x)
(iv) Für eine Teilmenge U ⊂ D, auf der g keine Nullstelle besitzt, die Funktion
f (x)
f
: U → R, x 7→
.
g
g(x)
Beispiele. Wir sehen jetzt die ersten nicht-trivialen Beispiele von stetigen Funktionen:
(i) Sei K ein Körper und seien a0 , a1 , . . . an ∈ K. Eine Funktion
K → K, x 7→ P(x),
mit
n
P(x) = ∑ ai xi = a0 + a1 x + . . . + an xn
i=0
heißt Polynomfunktion. Polynomfunktionen
P : R → R, x 7→ P(x)
sind stetig: Aufgrund der Stetigkeit der Identität und Satz 8.3 sind für jedes
n ∈ N die Potenzen R → R, x 7→ xn stetig. Daher sind auch für jedes a ∈ R
die Funktionen R → R, x 7→ axn stetig und wiederum aufgrund von Satz
8.3 sind auch alle Funktionen
R → R, x 7→ an xn + an−1xn−1 + . . . + a1 x + a0 .
stetig.
(ii) Seien P und Q zwei Polynomfunktionen, und sei U := {x ∈ R : Q(x) 6= 0}.
Dann ist die rationale Funktion
P(x)
U → R, x 7→
Q(x)
stetig: Dies folgt aus dem Satz 8.3 zusammen mit (i).
64
Abschnitt 8
Definition. Es sei D ⊂ R eine Teilmenge und sei a ∈ R ein Punkt. Es sei f : D → R
eine Funktion. Dann heißt b ∈ R Grenzwert (oder Limes) von f in a, wenn für jede
Folge (xn )n∈N in D, die gegen a konvergiert, auch die Bildfolge ( f (xn ))n∈N gegen
b konvergiert. In diesem Fall schreibt man
lim f (x) = b.
x→a
Anmerkung. Diese Definition ist äquivalent zur Folgenden: Zu jedem ε > 0 existiert eine reelle Zahl δ > 0 derart, dass für jedes x ∈ D mit 0 < |x − a| < δ die
Abschätzung
| f (x) − b| < ε
gilt.
Beispiel. Die Gauß-Klammer Funktion besitzt keinen Grenzwert im Nullpunkt,
denn
h 1i
h1i
= 0 aber lim −
= −1.
lim
n→∞
n→∞ n
n
Dieser Begriff ist eigentlich nur dann sinnvoll, wenn es überhaupt Folgen in
D gibt, die gegen a konvergieren. Aus der Tatsache, dass Grenzwerte von Folgen
eindeutig bestimmt sind, folgt unmittelbar, dass Grenzwerte von Funktionen auch
eindeutig bestimmt sind.
Wie bei Folgen sind auch bei der Bestimmung von Grenzwerten von Funktionen die folgenden Rechenregeln sehr nützlich. Direkt aus dem Satz 5.4 ergibt sich
dann:
Satz 8.4. Seien D ⊂ R eine Teilmenge und a ∈ R ein Punkt. Es seien f : D → R
und g : D → R Funktionen derart, dass die Grenzwerte
lim f (x) und lim g(x)
x→a
x→a
existieren. Dann gelten folgende Beziehungen:
(i) Die Summe f + g besitzt einen Grenzwert in a, und zwar ist
lim ( f (x) + g(x)) = lim f (x) + lim g(x).
x→a
x→a
x→a
(ii) Das Produkt f · g besitzt einen Grenzwert in a, und zwar ist
lim ( f (x) · g(x)) = lim f (x) · lim g(x).
x→a
x→a
x→a
(iii) Es sei g(x) 6= 0 für alle x ∈ D und limx→a g(x) 6= 0. Dann besitzt der Quotient f /g einen Grenzwert in a, und zwar ist
f (x) limx→a f (x)
=
.
x→a g(x)
limx→a g(x)
lim
Stetigkeit und Grenzwerte reeller Funktionen
65
Bei Betrachtung von R lassen sich sofort unendliche Grenzwerte definieren
(dies entspricht der Situation b = ±∞ in der obigen Definition). Auch kann man
Limiten einführen, bei denen x gegen ±∞ strebt (dies entspricht a = ±∞ in der
obigen Definition):
Definition. Es sei D = [a, ∞[ (oder D =] − ∞, a]) ein rechtsseitig (bzw. linksseitig)
unbeschränktes Intervall und f : D → R eine Funktion. Dann heißt b ∈ R Grenzwert (oder Limes) von f für x → ∞ (bzw. x → −∞), wenn es für jedes ε > 0 ein
x0 ≥ a (bzw. x0 ≤ a) gibt mit | f (x) − b| < ε für alle x ≥ x0 (bzw. x ≤ x0 ). In diesem
Fall schreibt man
lim f (x) = b bzw. lim f (x) = b.
x→∞
x→−∞
Die Rechenregeln für diesen Grenzwertbegriff sind weitgehend analog zu den
Rechenregeln in Satz 8.4. Sie sind auch analog zu den Rechenregeln für Limiten
von Folgen (vgl. Satz 5.4).
Es gilt auch eine Folgencharakterisierung zur Existenz von Limiten, die analog
zu Satz 8.1 beweisen lässt. Dafür brauchen wir wieder den Begriff Häufungs”
punkt” in diesem Kontext. Zur Erinnerung, für eine Menge D ⊂ R und a ∈ R
ist a ein Häufungspunkt von D, wenn eine Folge (xn ) in D \ {a} existiert mit
limn→∞ xn = a.
Satz 8.5. Sei D ⊂ R eine Teilmenge, sei f : D → R eine Funktion und sei a ∈ D
ein Häufungspunkt. Folgende Aussagen sind äquivalent:
(i) Es existiert limx→a f (x) = α ∈ R.
(ii) Für jede konvergente Folge (xn )n∈N in D mit xn 6= a für alle n ∈ N und mit
Grenzwert a ist limn→∞ f (xn ) = α .
Insbesondere ist dieses Kriterium nützlich um der Existenz von Limiten zu
widersprechen, indem man zwei konvergente Folgen (xn )n∈N , (yn )n∈N in D mit
xn , yn 6= a und Grenzwert a konstruiert, bei denen aber
lim f (xn ) 6= lim f (yn )
n→∞
n→∞
ist.
Beispiel. Wir betrachten die Funktion R \ {0} → R, x 7→ 1x . Es ist limx→∞ 1x = 0,
denn: Ist (xn )n∈N eine Folge mit xn 6= 0 und limn→∞ xn = ∞, dann ist limn→∞ 1/xn =
0. Genauso ergibt sich limx→−∞ 1/x = 0. Dagegen hat 1/x im Nullpunkt 0 keinen
Grenzwert: Es ist
1
1
lim
= ∞, aber lim
= −∞.
n→∞ 1/n
n→∞ −1/n
Für die Stetigkeit einer Funktion f : D → R, x 7→ f (x) in einem Punkt a ist
also erstens zu verlangen, dass der Grenzwert limx→a f (x) existiert, und zweitens,
66
Abschnitt 8
dass er gerade gleich dem Wert von f an der Stelle a ist. Manchmal ist die Funktion f nur links bzw. nur rechts von a definiert. Dafür ist es nützlich, die Begriffe
linksseitig bzw. rechtsseitig stetig einzuführen.
Zunächst definieren wir was unter rechtsseitige bzw. linksseitige Grenzwerte
zu verstehen ist. Eine Funktion
f : D → R, x 7→ f (x)
konvergiert für x ↓ a gegen den Wert b (man sagt auch: konvergiert für x → a+
gegen b, oder auch sie hat in a den rechtsseitigen Grenzwert b), wenn es zu jedem
ε > 0 ein δ > 0 existiert derart, dass | f (x) − b| < ε ist, sobald 0 < x − a < δ ist.
Wir schreiben dafür
lim f (x) = b oder auch lim f (x) = b.
x→a+
x↓a
Geometrisch bedeutet dies: Man betrachte das Intervall um b
]b − ε , b + ε [.
Dann gehört dazu ein von rechts an a anstoßendes Intervall ]a, a+ δ [ von der Länge
δ so dass für alle x aus diesem Intervall die zugehörigen Funktionswerte in das
obige Intervall ]b − ε , b + ε [ hineinfallen. In durchaus symmetrischer Weise wird
auch der Begriff des linksseitigen Grenzwertes definiert. Es wird mit
lim f (x) = b oder auch lim f (x) = b.
x↑a
x→a−
bezeichnet. Gilt nun in einem Punkt a
lim f (x) = f (a) bzw. lim f (x) = f (a),
x↑a
x↓a
so heißt die Funktion f linksseitig bzw. rechtsseitig stetig im Punkt a.
Anmerkung. Man prüft leicht nach: Genau dann besitzt die Funktion f einen
Grenzwert im Punkt a, wenn sowohl der rechtsseitige als auch der linksseitige
Grenzwert existieren und übereinstimmen. Daraus folgt auch: Genau dann ist eine
Funktion stetig in einem Punkt, wenn sie sowohl linksseitig als auch rechtsseitig
stetig in diesem Punkt ist.
Beispiel. Sei die Funktion f : R → R gegeben durch
1
.
f (x) =
x
1 − exp 1−x
x
x
Erstens beobachten wir, dass limx→0 1 − exp 1−x
= 0. An= 0, da limx→0 1−x
dererseits ist
x
) < 0 falls 0 < x < 1,
1 − exp ( 1−x
x
1 − exp ( 1−x ) > 0 falls x < 0.
Stetigkeit und Grenzwerte reeller Funktionen
67
Dann existieren der linksseitige und der rechtsseitige Grenzwerte, nämlich
1
1
= ∞, lim
= −∞.
lim
x
x
x↑0 1 − exp
x↓0 1 − exp
1−x
1−x
Daraus folgt, dass die Funktion f kein Limes im Nullpunkt besitzt, denn die rechtsund linksseitigen Grenzwerte nicht übereinstimmen (obwohl sie existieren). Daher
ist f auch nicht stetig im Nullpunkt.
Zum Schluss rufen wir uns die Definition der Exponentialfunktion in Erinnerung. Sie wurde durch eine konvergente Reihe definiert. Der folgende Satz stellt
sicher, dass die auf dieser Art und Weise definierten Funktionen stetig sind:
k
Satz 8.6. Seien a ∈ R und ∑∞
k=0 ck a eine konvergente Reihe. Sei f : R → R die
Funktion, die durch
∞
x 7→
∑ ck xk
k=0
gegeben ist. Dann gibt es ein positives ρ (wobei ρ = ∞ erlaubt ist) derart, dass für
alle x ∈ R mit |x| < ρ die Reihe konvergiert. Auf einem solchen Intervall {x ∈ R :
|x| < ρ } ist die Funktion f stetig.
Beweis. Der Beweis beruht auf einer systematischen Untersuchung von Reihen
dieser Art ( Potenzreihen” genannt) und dem Grenzwert von Funktionenfolgen,
”
was wir in unserer Vorlesung nicht durchführen werden.
Beispiele.
(a) Die in Abschnitt 7 definierte Exponentialfunktion ist nach dem Satz 8.6 auf
den ganzen R stetig.
(b) Die Sinusfunktion sin : R → R definiert durch
∞
x 7→ sin x :=
∑ (−1)k
k=0
x2k+1
(2k + 1)!
ist nach dem Satz 8.6 stetig auf den ganzen R.
(c) Die Kosinusfunktion cos : R → R definiert durch
∞
x 7→ cos x :=
∑ (−1)
k=0
kx
2k
2k!
ist nach dem Satz 8.6 auch auf R stetig.
Weitere Eigenschaften von elementaren Funktionen wie die Exponentialfunktion oder die trigonometrischen Funktionen werden wir in Abschnit 10 betrachten.
Im nächsten Abschnitt 9 wollen wir noch einen wichtigen Satz von stetigen Funktionen präsentieren: der berühmte Satz von Bolzano oder Zwischenwertsatz.
ABSCHNITT 9
Der Zwischenwertsatz von Bolzano
Wir interessieren uns dafür, was unter einer stetigen Abbildung mit einem Intervall passiert. Der Zwischenwertsatz oder Satz von Bolzano besagt, dass das Bild
eines Intervalls durch eine stetige Funktion wieder ein Intervall ist:
Satz 9.1 (Zwischenwertsatz). Seien a ≤ b reelle Zahlen und sei f : [a, b] → R eine
stetige Funktion. Es sei c eine reelle Zahl zwischen f (a) und f (b). Dann gibt es
ein ξ ∈ [a, b] mit
f (ξ ) = c.
Beweis. Wir beschränken uns auf die Situation f (a) ≤ c ≤ f (b) und zeigen die
Existenz von einem solchen ξ mit Hilfe einer Intervallhalbierung. Dazu setzt man
a0 := a und b0 := b, betrachtet die Intervallmitte
a0 + b0
ξ0 :=
2
und berechnet f (ξ0 ). Bei f (ξ0 ) ≤ c setzt man
a1 := ξ0 und b1 := b0
und bei f (ξ0 ) > c setzt man
a1 := a0 und b1 := ξ0 .
In jedem Fall hat das neue Intervall [a1 , b1 ] die halbe Länge des Ausgangsintervalls
und liegt in diesem. Da es wieder die Voraussetzung
f (a1 ) ≤ c ≤ f (b1)
erfüllt, können wir darauf das gleiche Verfahren anwenden und gelangen so rekursiv zu einer Intervallschachtelung. Sei ξ die durch diese Intervallschachtelung
definierte reelle Zahl (vgl. Abschnitt 6):
(a) Für die unteren Intervallgrenzen gilt f (an ) ≤ c und das überträgt sich wegen der Stetigkeit nach dem Folgenkriterium auf den Grenzwert ξ , also
f (ξ ) ≤ c.
(b) Für die oberen Intervallgrenzen gilt f (bn ) ≥ und das überträgt sich ebenfalls auf ξ , also f (ξ ) ≥ c.
Daraus folgt f (ξ ) = c.
Unmittelbar aus dem Zwischenwertsatz folgt die Darbouxsche Eigenschaft:
70
Abschnitt 9
Satz 9.2. Seien a ≤ b reelle Zahlen und sei f : [a, b] → R eine stetige Funktion mit
f (a) ≤ 0 und f (b) ≥ 0.
Dann gibt es ein x ∈ [a, b] mit f (x) = 0, d.h. f besitzt eine Nullstelle zwischen a
und b.
Satz 9.3. Sei I ⊂ R ein Intervall, sei f : I → R eine stetige Funktion. Dann ist f (I)
ein Intervall.
Beweis. Intervalle J ⊂ R sind gekennzeichnet durch folgende Eigenschaft:
x, y ∈ J =⇒ z ∈ J für alle z ∈ R mit x ≤ z ≤ y.
Seien nun u, v ∈ f (I), also u = f (a) und v = f (b) mit a, b ∈ I. Nach eventuellem
Wechsel der Bezeichnungen können wir a ≤ b annehmen. Nach Satz 9.1 existiert
zu jedem w mit u ≤ w ≤ v ein x ∈ I mit f (x) = w.
Beispiel. Der Zwischenwertsatz lässt sich nicht auf jeden Körper verwenden. Wir
betrachten dazu die Abbildung
f : Q → Q, x 7→ x2 − 2.
Sie ist stetig, aber genügt nicht dem Zwischenwertsatz: Für x = 0 ist f (0) = −2 < 0
und für x = 2 ist f (2) = 2 > 0, aber es gibt kein x ∈ Q mit f (x) = 0, da hierzu x2 = 2
sein muss, wofür es in Q keine Lösung gibt.
Beispiel. Mit Hilfe des Zwischenwertsatzes lässt sich in manchen Fällen sehr
leicht die Existenz von reellen Nullstellen von Gleichungen beweisen. Sei zum
Beispiel
f (x) = x2n+1 + a1 x2x + . . . + a2n+1
eine Polynomfunktion des ungeraden Grades 2n + 1 mit reellen Koeffizienten. Wir
behaupten, dass die Gleichung f (x) = 0 wenigstens eine reelle Nullstelle besitzt.
In der Tat lässt sich zeigen, dass es eine Konstante C > 0 existiert so, dass
1
f (x)
mit |x| ≥ C
>
x2n+1 2
ist. Wenden wir dies nun auf x = C und x = −C an, so ergibt sich für x = C
f (C)
1
, f (C) > 0
>
C2n+1 2
und für x = −C
1
f (−C)
>
, f (−C) < 0.
(−C)2n+1 2
Da also die Funktion f (x) in den Endpunkten des Intervalls [−C,C] Werte verschiedenen Vorzeichens annimmt, muss sie irgendwo in diesem Intervall den dazwischen liegenden Wert 0 annehmen.
Der Zwischenwertsatz von Bolzano
71
Beispiel. Sei f : [a, b] → R eine stetige Funktion. Wir möchten zeigen, dass es
ein ξ ∈ [a, b] existiert so dass f (ξ ) = 21 ( f (a) + f (b)). Man kann zwei Fälle unterscheiden: Ist f (a) = f (b), dann ist die Ausage mit ξ = a oder ξ = b trivial,
denn
1
f (a) = ( f (a) + f (b)) = f (b).
2
Ist f (a) 6= f (b), dann folgt die Behauptung unmittelbar aus dem Zwischenwertsatz,
denn es ist entweder
1
1
f (a) < ( f (a) + f (b)) < f (b) oder f (a) > ( f (a) + f (b)) > f (b),
2
2
je nachdem es entweder f (a) < f (b) oder f (a) > f (b) gilt.
Eine weitere Anwendung des Zwischenwertsatzes hat mit dem Wachstum stetigen Funktionen zu tun. Dafür müssen wir die Begriffe von Maximum und Minimum (sowohl im lokalen als auch in globalen Sinne) einführen:
Definition. Sei D ⊂ R eine Menge und f : D → R eine Funktion. Man sagt, dass
f in einem Punkt x ∈ D das globale Maximum annimmt, wenn
f (x) ≥ f (x′ ) für alle x′ ∈ D gilt,
und dass f das globale Minimum annimmt, wenn
f (x) ≤ f (x′ ) für alle x′ ∈ D gilt.
Die gemeinsame Bezeichnung für ein Maximum oder ein Minimum ist Extremum. Ist die Untersuchung dieses Verhaltens auf eine Umgebung eines Punktes
eingeschränkt, so spricht man von lokalen Extrema:
Definition. Sei D ⊂ R eine Teilmenge und f : D → R eine Funktion. Man sagt,
dass f in einem Punkt x ∈ D ein lokales Maximum bzw. lokales Minimum besitzt,
wenn es ein ε > 0 derart gibt, dass für alle x′ ∈ D mit d(x, x′ ) < ε die Abschätzung
f (x) ≥ f (x′ ) bzw. f (x) ≤ f (x′ )
gilt.
Ist f (x) > f (x′ ) (bzw. f (x) < f (x′ )) für alle x′ 6= x, so spricht man von einem
isolierten Maximum (bzw. isolierten Minimum).
Satz 9.4 (Weierstraß). Sei [a, b] ⊂ R ein abgeschlossenes beschränktes Intervall,
und sei f : [a, b] → R eine stetige Funktion. Dann gibt es ein x ∈ [a, b] mit
f (x) ≥ f (x′ ) für alle x′ ∈ [a, b].
D.h. die Funktion f ihr Maximum (und ihr Minimum) annimmt.
72
Abschnitt 9
Beweis. Nach dem Zwischenwertsatz wissen wir, dass das Bild
J := f ([a, b])
ein Intervall ist (vgl. Satz 9.3). Zunächst zeigen wir, dass J sowohl nach oben als
auch nach unten beschränkt, also beschränkt, ist: Angenommen, dass J nicht nach
oben beschränkt wäre, dann gäbe es eine Folge
(xn )n∈N
in [a, b] mit f (xn ) ≥ n. Nach dem Satz von Bolzano-Weierstraß besitzt (xn )n∈N eine
konvergente Teilfolge (xnk )k∈N . Da [a, b] abgeschlossen ist, gehört der Grenzwert
der Teilfolge zu [a, b]. Wegen der Stetigkeit von f muss dann auch die Bildfolge
( f (xnk ))k∈N
konvergieren. Diese ist aber unbeschränkt, so dass sie nach Satz 5.1 nicht konvergieren kann, also Widerspruch!
Nach dieser Überlegungen und dem Vollständigkeitsaxiom von R besitzt J ein
(eindeutig bestimmtes) Supremum: Sei nun y das Supremum von J. Es ist zu zeigen, dass y ∈ J ist. Es gibt eine Folge (yn)n∈N in J, die gegen y konvergiert. Nach
der Definition von J gibt es eine Folge (xn )n∈N so dass
f (xn ) = yn
für jedes n ist. Diese Folge hat wieder nach dem Satz von Bolzano-Weierstraß eine
konvergente Teilfolge. Bezeichnen wir ihren Grenzwert mit x, so ist aufgrund der
Stetigkeit f (x) = y und daher ist y ∈ J.
Das die Funktion auch ein Minimum in [a, b] annimmt ergibt sich aus der Betrachtung der Funktion − f .
Aus dem Satz 9.4 folgt sofort, dass die stetige Funktion f : [a, b] → R auf einem
beschränkten und abgeschlossenen Intervall beschränkt sein muss, d.h., es existiert
ein c ∈ R mit
| f (x)| ≤ c für alle x ∈ [a, b].
Die abgeschlossenheit des Intervalls ist dabei entscheidend: Zum Beispiel ist
die Funktion f :]0, 2] → R, x 7→ 1/x stetig, aber nicht beschränkt: Die Funktion
nimmt im Intervall ]1, 2[ offenbar Werte an, die zwischen 1 und 12 liegen und beliebig nah sowohl an 1 als auch an 21 herauskommen. Die Werte 1 und 12 selbst werden
von f aber erst in den Punkten x = 1 und x = 2 angenommen, die hier nicht zum
Intervall gehören. Die Funktion f besitzt also auf ]1, 2[ weder ein Maximum noch
ein Minimum.
Unser Repertoire an Funktionen ist bisher klein. Als Verfahren zur Konstruktion neuer Funktionen haben wir nur die arithmetischen Operationen und die Hintereinanderschaltung kennengelernt. Man kann noch ein weiteres Verfahren betrachten: Zu einer gegebenen Funktion ihre Umkehrfunktion zu bilden. Daher wollen
Der Zwischenwertsatz von Bolzano
73
wir erstens die Definition von Umkehrfunktion angeben und zweitens das Problem
der Stetigkeit von Umkehrfunktionen diskutieren.
Es ist nicht schwierig zu beweisen:
Satz 9.5. Seien M, N nicht leere Mengen und f : M → N eine Abbildung. Sie ist
genau dann bijektiv, wenn eine Abbildung g : N → M existiert so dass
f ◦ g = idN und g ◦ f = idM ,
wobei idN bzw. idM die Identität auf N bzw. die Identität auf M sind. In diesem Fall
ist die Abbildung g eindeutig bestimmt und wird mit f −1 bezeichnet. Die Abbildung f −1 heißt die Umkehrabbildung von f . Ist f eine Funktion, so heißt f −1 die
Umkehrfunktion von f .
Beweis. Zunächst nehmen wir an, dass f eine Bijektion ist. Dann existiert zu jedem y ∈ N ein eindeutig bestimmtes xy ∈ M mit f (xy ) = y. Man definiert dann die
Abbildung g : N → M durch g(y) = xy . Einerseits gilt dann
( f ◦ g)(y) = f (g(y)) = f (xy ) = y = idN (y)
und daher ist f ◦ g = idN . Andererseits sei zu y = f (x) zu x ∈ M. Dann ist g(y) = x
und daher (g( f (x))) = f (x). Aus der Injektivität von f ergibt sich nun
(g ◦ f )(x) = g( f (x)) = x = idM (x),
also g ◦ f = idM . Sei umgekehrt eine Abbildung g : N → M gegeben mit f ◦ g = idN
und g ◦ f = idM . Sei dazu y ∈ N. Dann ist
y = idN (y) = ( f ◦ g)(y) = f (g(y)),
woeaus sich die Surjektivität von f ergibt. Seien ferner x, y ∈ M mit x 6= y. Angenommen, es wäre f (x) = f (y), dann folgt der Widerspruch
x = idM (x) = (g ◦ f )(x) = g( f (x)) = g( f (y)) = (g ◦ f )(y) = idM (y) = y.
Somit ist die Injektivität der Funktion f auch bewiesen, und damit ihre Bijektivität.
Achtung!
Es ist zu beachten: Sowohl die Umkehrabbildung von f als auch das Urbild unter f werden mit f −1 gekennzeichnet. Aus dem Zusammenhang muss man ggf.
entscheiden, um welche von den beiden sich handeln. Diese Schreibweise ist so
verbreitet, dass wir sie auch so annehmen sollen.
Definition. Eine Funktion f : D → R heißt monoton wachsend (bzw. streng monoton wachsend), wenn für alle x, y ∈ D mit x < y folgt, dass f (x) ≤ f (y) (bzw.
f (x) < f (y)). Analog definiert man für f den Begriff (streng) monoton fallend.
Satz 9.6. Sei I ⊂ R ein Intervall und f : I → R eine stetige Funktion. Dann ist f
genau dann injektiv, wenn f streng monoton (wachsend oder fallend) ist.
74
Abschnitt 9
Beweis. Eine Richtung ist trivial. Nehmen wir an, dass die Funktion f injektiv ist.
Zunächst beweisen wir durch Widerspruch, dass für
gilt entweder
x, y, z ∈ I mit x < y < z
f (x) < f (y) < f (z) oder f (x) > f (y) > f (z).
Angenommen nicht, also, angenommen x, y, z ∈ I mit x < y < z existierten mit
f (x) < f (y) > f (z). Sei ξ ∈ R so dass
max { f (x), f (z)} < ξ < f (y).
Da f (x) < ξ < f (y) folgt aus dem Zwischenwertsatz für die Funktion f |[x, y],
dass ein c1 ∈]x, y[ existiert mit f (c1 ) = ξ . Analog folgt aus dem Zwischenwertsatz
für f |[y, z], dass ein c2 ∈]y, z[ existiert mit f (c2 ) = ξ . Das ist ein Widerspruch zur
Injektivität von f .
Es ist nur noch zu zeigen, dass die Umkehrfunktion von f die gleiche Monotonie wie f besitzt. Dafür nehmen wir an, dass f nicht streng monoton fallend ist,
und zeigen, dass f dann streng monoton wachsend sein muss. Es existieren dann
x1 , x2 ∈ I mit
x1 < x2 und f (x1 ) < f (x2)
(Zu beachten ist dabei, dass wir < und nicht ≤ aufgrund der Injektivität von f
beschrieben haben!) Seien noch dazu x, y ∈ I beliebig so dass x < y. Wir möchten
zeigen, dass dann f (x) < f (y) gilt. Angenommen, es ist y < x1 , dann muss
f (y) < f (x1 ) < f (x2 )
gelten, und damit
f (x) < f (y) < f (x1),
speziell also f (x) < f (y).
Satz 9.7. Sei I ⊂ R ein Intervall und f : I → R eine streng monoton wachsende
(bzw. fallende) stetige Funktion. Dann ist J := f (I) ein Intervall und die Umkehrfunktion von f : I → J ist streng monoton wachsend (bzw. fallend) und stetig.
Beweis. Wir beweisen, dass die Umkehrfunktion f −1 von f stetig in jedem Punkt
y0 von J ist. OBdA betrachten wir den Fall, indem y0 keine Intervallgrenze ist. Sei
f −1 (y0 ) = x0 ∈ I. Dann ist x0 auch keine Intervallgrenze von I. Angenommen, f
ist streng monoton wachsend. Dann ist f −1 auch streng monoton wachsend. Sei
ε > 0 vorgegeben. Wir dürfen ein ε ′ > 0 so dass ε ′ < ε und [x0 − ε ′ , x0 + ε ′ ] ⊂ I
nehmen. Seien y1 = f (x0 − ε ′ ) und y2 = f (x0 + ε ′ ). Da
x0 − ε ′ < x0 < x0 + ε ′
stellt das strenge Wachstum von f sicher, dass
y1 < y0 < y2
Der Zwischenwertsatz von Bolzano
75
gilt. Wir setzen
δ := min {|y1 − y0 |, |y2 − y0 |} > 0,
und sei y ∈]y0 − δ , y0 + δ [. Aus den Ungleichungen y1 < y < y2 folgt
f −1 (y1 ) = x0 − ε ′ < f −1 (y) < f −1 (y2) = x0 + ε ′ ,
und daraus ergibt sich
| f −1 (y) − x0 | = | f −1 (y) − f −1(y0 )| < ε ′ < ε ,
was die Stetigkeit von f −1 in J definitionsgemäß bedeutet.
Beispiel. Wir betrachten die Funktion
f : [0, ∞[→ R, x 7→ xn
für ein n ∈ N, n > 0. Diese Funktion ist streng monoton wachsend und stetig. Es
ist
f ([0, ∞[) = [0, ∞[,
da der Wertebereich ein Intervall sein muss und wir wissen, dass f (0) = 0 sowie
lim xn = ∞.
x→∞
Die Umkehrfunktion g von f existiert mit Definitionsbereich [0, ∞[ nach Satz 9.7.
Es existiert also insbesondere zu jedem y ∈ [0, ∞[ ein x mit y = xn und dieses x
ist eindeutig bestimmt. Wir nennen dieses x die n-te Wurzel von y und schreiben
√
hierfür x = n y. Der Satz 9.7 zeigt wieder, dass die Funktion
√
g : [0, ∞[→ [0, ∞[, y → n y
streng monoton wachsend und stetig ist.
Bevor wir die Begriffe von Differenzierbarkeit und Integrierbarkeit thematisieren, widmen wir ein Abschnitt dem Studium von typischen, elementaren Funktionen der Analysis. Insbesondere wird die Stetigkeit von solchen Funktionen diskutiert.
ABSCHNITT 10
Elementare Funktionen der Analysis
Elementarfunktionen der Analysis sind diejenigen Funktionen, die aufgrund ihrer guten, einfachen Eigenschaften eine grundlegende Rolle bei der Theorie spielen. In der ersten Linie sind die Polynomfunktionen und die rationalen Funktionen zu erwähnen. Ihre wichtigste Eigenschaften sind uns aus der Mathematikunterricht vertraut. Insbesondere
haben wir ihre Stetigkeit schon diskutiert. Die
√
n
Wurzelfunktion x 7→ x wurde schon als Umkehrfunktion von x 7→ xn eingeführt
und ihre Stetigkeit untersucht. Selbst die Exponentialfunktion und ihre Funktionalgleichung haben wir als Anwendung unseres Wissens über Reihen definiert. Ziel
dieses Abschnittes ist, weitere Eigenschaften sowohl der Exponentialfunktion und
ihrer Umkehrfunktion—der Logarithmus, als auch der trigonometrischen Funktionen und ihrer Umkehrfunktionen zu präsentieren, insbesondere hinsichtlich der
Stetigkeit.
Definition. Die Funktion R → R, die durch
∞
xn
x 7→ exp (x) := ∑
n=0 n!
gegeben ist, heißt (reelle) Exponentialfunktion.
Aus der Definition und der in Abschnitt 7 schon bewiesenen Funktionalgleichung exp (x + y) = exp x · exp y (vgl. Satz 7.12) ergibt sich:
Satz 10.1. Die Exponentialfunktion erfüllt folgende Eigenschaften:
(a)
(b)
(c)
(d)
(e)
(f)
Es ist exp 0 = 1.
Für jedes x ∈ R ist exp (−x) = (exp x)−1 . Insbesondere ist exp x 6= 0.
Für jedes x ist exp x > 0.
Für x > 0 ist exp x > 1, und für x < 0 ist exp x < 1.
Die reelle Exponentialfunktion ist streng monoton wachsend.
Die reelle Exponentialfunktion ist stetig und stiftet eine Bijektion zwischen
R und R>0 .
Beweis. (a) ergibt sich unmittelbar aus der Definition. (b) folgt aus der Funktionalgleichung 7.12, denn
exp x · exp (−x) = exp (x − x) = exp 0 = 1.
78
Abschnitt 10
Die Nichtnegativität von (c) folgt aus der Tatsache exp x 6= 0 in (b) zusammen mit
x x
x
x x 2
= exp · exp = exp
+
> 0.
exp x = exp
2 2
2
2
2
(d) Für x ∈ R ist exp x · exp (−x) = 1 so dass nach (b) ein Faktor ≥ 1 und der andere
≤ 1 sein müssen. Für x > 0 ist definitionsgemäß
1
exp x = 1 + x + x2 + . . . > 1.
2
(e) Für reelle y > x ist y − x > 0 und nach (d) exp (y − x) > 1, also
exp y = exp (y − x + x) = exp (y − x) · exp x > exp x.
(f) Die Stetigkeit ergibt sich nach dem Satz 8.6. Nach (d) liegt das Bild in R>0
und ist nach dem Zwischenwertsatz 9.1 ein Intervall. Die Unbeschränktheit des
Bildes folgt aus (c), woraus wiederum wegen (b) sich ergibt, dass auch beliebig
kleine positive reelle Zahlen zum Bild gehören. Daher ist das Bild gleich R>0 . Die
Bijektivität folgt aus (e) und dem Satz 9.6.
R:
Dank Satz 10.1 besitzt die Exponentialfunktion eine Umkehrfunktion R>0 →
Definition. Der natürliche Logarithmus
log : R>0 → R, x 7→ log x
ist als die Umkehrfunktion der reellen Exponentialfunktion definiert. Oft bezeichnet man log x auch mit ln x.
Aus der Funktionalgleichung der Exponentialfunktion 7.12 zusammen mit den
Sätzen 8.6 und 10.1 folgt:
Satz 10.2. Der natürliche Logarithmus ist eine stetige, streng wachsende Funktion, die eine Bijektion zwischen R>0 und R stiftet. Außerden gilt log 1 = 0 und die
Funktionalgleichung
log (x · y) = log x + log y
für alle x, y ∈ R>0 .
Definition. Zu einer positiven reellen Zahl a 6= 1 definiert man die Exponentialfunktion zur Basis a als
ax := exp (x log a).
Dem Leser ist die Überprüfung der folgenden vier Eigenschaften überlassen:
Satz 10.3. Seien a, b ∈ R>0 \ {1} und x, y ∈ R. Es gilt:
(a) ax+y = ax · ay .
(b) a−x = a1x .
(c) (ax )y = axy .
(d) (ab)x = ax bx .
Elementare Funktionen der Analysis
79
Als Anwendung zeigen wir:
Satz 10.4. Für x ∈ R gilt
exp x = ex .
Beweis. Nach der Definition der Exponentialfunktion zur Basis b = e ist ex =
exp (x log e). Wegen exp 1 = e ist log e = 1, und daraus folgt ex = exp (x log e) =
exp x.
Definition. Zu einer positiven reellen Zahl a 6= 1 definiert man den Logarithmus
zur Basis a als
log x
loga x :=
.
log a
Es ist natürlich loge x = log x. Darüber hinaus:
Satz 10.5. Seien a, b ∈ R>0 \ {1} und x, y ∈ R. Für den Logarithmus zur Basis b
gilt:
(a) Es ist logb bx = x und blogb y = y, d.h., der Logarithmus zur Basis b ist die
Umkehrfunktion zur Exponentialfunktion zur Basis b.
(b) logb x · y = logb x + logb y.
(c) logb yu = u · logb y für u ∈ R.
(d) loga y = loga blogb y = logb y · loga b.
Beweis. Vgl. Übungsblatt 7.
Satz 10.6.
x
(a) Für jedes n ∈ Z ist limx→∞ exp
xn = ∞.
(b) Es gilt limx→∞ log x = ∞.
(c) Es gilt limx↓0 log x = −∞.
Beweis. (a) Für x > 1 gilt
k+1
m+1
m
x
x
xn
exp x ∑k=0 (k+1)!
(m+1)!
−→ ∞.
>
>
=
xn
xn
xn
(m + 1)!
(b) Seien A > 0, B = exp A. Aus x > B folgt log x > log B = A, wie gewünscht.
(c) Es ist zu zeigen: Zu A > 0 vorgegeben existiert ein δ > 0 so dass aus 0 <
x < δ die Abschätzung log x < −A folgt. Es genügt, δ = exp (−A) auszuwählen:
Ist 0 < x < δ , dann gilt
log x < log δ = −A,
woraus sich die Aussage ergibt.
Ein Spezialfall der Exponentialfunktion sind die Hyperbelfunktionen:
Definition. Sei x ∈ R.
(a) Die Funktion x 7→ sinh x := 12 (exp x − exp (−x)) heißt Sinus hyperbolicus.
80
Abschnitt 10
(b) Die Funktion x 7→ cosh x := 21 (exp x + exp (−x)) heißt Kosinus hyperbolicus.
sinh x
(c) Die Funktion x 7→ tanh x := cosh
x heißt Tangens hyperbolicus.
cosh x
(d) Die Funktion x 7→ coth x := sinh x heißt Kotangens hyperbolicus.
Die Funktion Sinus hyperbolicus ist streng monoton wachsend und die Funktion Kosinus hyperbolicus ist auf R≤0 streng monoton fallend und auf R≥0 streng
monoton wachsend. Weitere Eigenschaften sind:
(i) cosh x + sinh x = exp x.
(ii) cosh x − sinh x = exp (−x).
(iii) (cosh x)2 − (sinh x)2 = 1.
Der Sinus Hyperbolicus bildet R bijektiv auf R ab und besitzt deswegen eine
Umkehrfunktion. Diese nennen wir Areasinus hyperbolicus. Es gilt dabei:
p
arsinh(x) = log (x + x2 + 1).
Der Kosinus Hyperbolicus bildet das Intervall [0, ∞[ bijektiv auf [1, ∞[, deshalb besitzt er eine Umkehrfunktion im Intervall [0, ∞[, die man Areakosinus hyperbolicus
nennt. Es gilt:
p
arcosh(x) = log (x + x2 − 1).
Die Stetigkeit dieser Funktionen in ihren Definitionsbereichen ist aus ihrer Darstellung mittels elementareren Funktionen klar.
Weitere wichtige Elementarfunktionen der Analysis sind die trigonometrischen
Funktionen Sinus und Kosinus. Sie werden wir—so wie die Exponentialfunktion—
als Reihen reeller Zahlen definieren:
Definition. Für x ∈ R heißt die Reihe
∞
2k
x2 x4 x6
k x
∑ (−1) (2k)! = 1 − 2! + 4! − 6! ± . . .
k=0
die Kosinusreihe, und die Reihe
∞
x3 x5 x7
x2k+1
∑ (−1) (2k + 1)! = x − 3! + 5! − 7! ± . . .
k=0
k
die Sinusreihe.
Das Vergleich mit der Exponentialfunktion zeigt sofort, dass beide Reihe absolut konvergieren. Die entsprechenden Funktionen R → R gegeben durch
∞
∞
2k+1
x2k
k x
cos x := ∑ (−1)
und sin x := ∑ (−1)
(2k)!
(2k + 1)!
k=0
k=0
k
heißen Sinus und Kosinus. Wegen Satz 8.6 sind sie stetige Funktionen. Außerdem
gilt:
Elementare Funktionen der Analysis
81
Satz 10.7. Es gilt:
(a) cos 0 = 1 und sin 0 = 0.
(b) cos (−x) = cos x und sin (−x) = − sin x.
(c) Die Additionstheoreme
(i) cos (x + y) = cos x · cos y − sin x · sin y
(ii) cos (x − y) = cos x · cos y + sin x · sin y
(iii) sin (x + y) = sin x · cos y + cos x · sin y
(iv) sin (x − y) = sin x · cos y − cos x · sin y
Beweis. (a) und (b) folgen direkt aus der Definition. Die Additionstheoreme (i)
und (iii) in (c) erfolgen nach einer geschickten Anwendung des Cauchy-Produktes
von Reihen 7.11. Die anderen (ii) und (iv) nutzen sowohl (i) und (iii) als auch
(b).
Satz 10.8. Es gilt:
(a) 1 = cos2 x + sin2 x.
(b) sin 2x = 2 · sin x · cos x und cos 2x = cos2 x − sin2 x.
(c) Es ist | sin x| ≤ 1 und | cos x| ≤ 1 für alle x ∈ R.
Beweis. (a) folgt aus Satz 10.7(a) und (c)(iii) wegen
1 = cos 0 = cos (x − x) = cos2 x + sin2 x,
genauso wie (b). Die Aussage (c) folgt unmittelbar aus (a).
Bei der Aussagen (a) und (b) in Satz 10.8 wurde die übliche Schreibweise
:= (cos x)2 und sin2 x := (sin x)2 verwendet. Weitere wichtige Eigenschaften der Kosinus- und Sinusfunktion halten wir auch fest:
cos2 x
Satz 10.9. Es gilt:
(a) Es ist sin x > 0 für alle x ∈]0, 2].
(b) Die Funktion cos x ist auf [0, 2] steng monoton fallend und besitzt dort genau eine Nullstelle a.
(c) Die Funktionen cos x und sin x bilden jeweils R (surjektiv) auf [−1, 1] ab.
2k+1
k x
Beweis. (a) Sei die Reihe r = ∑∞
k=1 (−1) (2k+1)! . Man überlege sich
r |x|2 2
≤ für 0 < x ≤ 2,
≤
x
6
3
indem man analog zu den Abschätzungen vom Leibniz-Kriterium 7.5 vorgeht.
Dann ergibt sich für diese x, dass
2 x
r
≥ x 1−
= > 0.
sin x = x + r = x 1 +
x
3
3
82
Abschnitt 10
(b) Für x, y ∈ [0, 2], x > y setzen wir u = x+y
2 und v =
y = u − v und daher mittels der Additionstheoreme
x−y
2 .
Dann gilt x = u + v,
cos x − cos y = cos u · cos v − sin u · sin v − cos u · cos v − sin u · sin v
x + y x − y
= −2 sin u · sin v = −2 sin
sin
< 0,
2
2
wobei die letzte Ungleichung sich aus (a) ergibt. Also ist die Kosinusfunktion auf
dem Intervall [0, 2] streng monoton fallend. Wegen
22 24
1
+ = 1−2+ < 0
2! 4!
3
und dem Zwischenwertsatz sieht man sofort, dass die Kosinusfunktion auf [0, 2]
genau eine Nullstelle a hat.
(c) Es ist sin2 a = 1 − cos2 a = 1 und daher ist sin a = ±1. Wegen (a) gilt sin a =
1. Ferner ist sin (−a) = − sin a = −1 und
cos 2 ≤ 1 −
| sin x| ≤ 1 für alle x ∈ R
nach 10.8(c). Eine Anwendung des Zwischenwertsatztes 9.1 liefert, dass das Bild
der Sinusfunktion [−1, 1] sein muss. Nun ist cos 0 = 1 und cos 2a = −1 nach
10.8(b). Eine weitere Anwendung des Zwischenwertsatzes ergibt, dass das Bild
der Kosinusfunktion auch [−1, 1] ist.
Definition. Sei a die Nullstelle der Kosinusfunktion im Intervall [0, 2]. Dann definieren wir die Zahl π := 2a.
Eine weitere Anwendung der Additionstheoreme ergibt, dass cos x und sin x die
Periode 2π besitzen, d.h., für x ∈ R gilt
cos (x + 2π ) = cos x und sin (x + 2π ) = sin x.
Daraus ergibt sich, dass sowohl die Sinus als auch die Kosinusfunktionen unendlich viele Nullstellen haben:
Satz 10.10.
(a) Es ist cos x = 0 genau dann, wenn x = π2 + kπ für k ∈ Z.
(b) Es ist sin x = 0 genau dann, wenn x = kπ für k ∈ Z.
Beweis. Wir stellen fest:
π
cos ( + kπ ) = 0 und sin (kπ ) = 0.
2
h i
Sei nun cos x = 0. Für k = πx gelten die Ungleichungen kπ ≤ x ≤ (k + 1)π und
dann ist
cos (x − kπ ) = cos x · cos kπ + sin x · sin kπ = 0,
Elementare Funktionen der Analysis
83
da sin kπ = 0. Erstezen wir x durch x − kπ , dann können wir annehmen, dass 0 ≤
x < π . Zu zeigen ist es noch, dass x = π2 . Es ist
cos (−x) = cos x = 0 und somit cos (−x + π ) = 0.
Eine der beiden Zahlen, x oder −x + π liegt im Intervall [0, π2 ]. Dort hat die Kosinusfunktion nur die Nullstelle π2 , woraus automatisch x = π2 folgt. Die Aussage
über die Nullstellen der Sinusfunktion ergibt sich aus der Gleichung
π
π
π
= cos x · cos − sin x · sin = − sin x.
cos x +
2
2
2
Tangens- und Kotangensfunktion sind nun zu definieren:
Definition. Seien D := {x ∈ R : cos x 6= 0} und E := {x ∈ R : sin x 6= 0}.
(a) Die Tangensfunktion wird definiert durch
sin x
tan : D → R, x 7→
.
cos x
(b) Die Kotangensfunktion wird definiert durch
cos x
cot : E → R, x 7→
.
sin x
Sie sind jeweils stetige Funktionen auf ihren Definitionsbereichen.
Zum Abschluss behandeln wir die Frage, ob trigonometrische Funktionen umkehrbar sind. Das ist nicht der Fall auf ihren maximal möglichen Definitionsbereichen, durch Wahl geeignete Intervalle, auf denen sie streng monoton sind, können
wir aber ihre Umkehrfunktionen definieren:
Satz 10.11.
(a) Die Kosinusfunktion ist auf [0, π ] streng monoton fallend und es gilt
cos ([0, π ]) = [−1, 1].
(b) Die Sinusfunktion ist auf [−π /2, π /2] streng monoton wachsend und es gilt
sin ([−π /2, π /2]) = [−1, 1].
(c) Die Tangensfunktion ist auf ] − π /2, π /2[ streng monoton wachsend und es
gilt tan (] − π /2, π /2[) = R.
(d) Die Kotangensfunktion ist auf ]0, π [ streng monoton fallend und es gilt
cot (]0, π [) = R.
Beweis. (a) In Satz 10.9(b) haben wir gesehen, dass cos x auf [0, 2] streng monoton
fallend ist, dann erst recht auf [0, π /2]. Wegen
− cos (π − x) = − cos π · cos π /2 + sin π · sin (−x) = cos x
sehen wir, dass die Kosinusfunktion auf [0, π ] streng monoton fallend ist. Die Behauptung cos ([0, π ]) = [−1, 1] haben wir schon in Satz 10.9(c) überlegt.
84
Abschnitt 10
(b) Es gilt
π
π
π
− cos (x + ) = − cos x · cos + sin x · sin = sin x,
2
2
2
woraus die Behauptung über die Monotonie folgt. Dass sin ([−π /2, π /2]) = [−1, 1]
ist, haben wir schon in Satz 10.9(c) gezeigt.
(c) Für x, y ∈] − π /2, π /2[ gilt tan x = tan y genau dann, wenn
0 = sin x · cos y − cos x · sin y = sin x · cos (−y) + cos x · sin (−y) = sin (x − y).
Aus Satz 10.10(b) folgt nun, dass x − y = kπ für k ∈ Z. Das ist aber wegen der
Wahl von x, y nur für k = 0 möglich, und daher ergibt sich x = y. Also ist die
Tangensfunktion auf ] − π /2, π /2[ injektiv. Es gilt weiterhin
sin x
sin x
limπ
= ∞ und limπ
= −∞,
x ↑ 2 cos x
x ↓ − 2 cos x
also die Tangensfunktion muss streng monoton wachsend sein, und aus dem Zwischenwertsatz 9.1 folgt, dass das Bild von tan x auf dem Intervall den ganzen R
ist.
(d) zeigt man analog zu (c).
Die durch den Satz existierenden Umkehrfunktionen von Kosinus, Sinus, Tankens und Kotangens bzgl. der eingeschänkten Definitionsbereiche sind
(i) Die Funktion arccos : [−1, 1] → [0, π ], die Arcus-Kosinus heißt.
(ii) Die Funktion arcsin : [−1, 1] → [−π /2, π /2], die Arcus-Sinus heißt.
(iii) Die Funktion arctan : R →] − π /2, π /2[, die Arcus-Tangens heißt.
(iv) Die Funktion arccot : R →]0, π [, die Arcus-Kotangens heißt.
Wegen Satz 9.6 sind alle diese Funktionen stetig in ihren Definitionsbereichen. Es
ist noch zu bemerken, dass neben den vier besprochenen trigonometrischen Funktionen gelegentlich, namentlich in der älteren Literatur, sind die beiden Funktionen
1
1
sec x :=
und cosecx = csc x :=
cos x
sin x
nämlich die Sekansfunktion und die Kosekansfunktion, zu finden.
In der Schule werden die trigonometrischen Funktionen in der Regel durch
Betrachtungen am rechtwinkligen Dreieck definiert. Das Problem bei dieser Definition ist, dass wir (noch) gar nicht genau wissen, was überhaupt ein Winkel”
”
sein soll. Deswegen haben wir sie durch konvergente Reihen eingeführt. Wenn Sie
sich aus Ihrem Mathematikunterricht daran erinnern, was ein Winkel ist, können
Sie weiter lesen.
In der Geometrie wird ein Winkel α häufig im Bogenmaß gemessen, der wie
folgt definiert ist. Wir betrachten einen Kreis K im R2 mit Mittelpunkt (0, 0). Ist
nun l die Länge des Kreisbogens eines Kreissektors und r der Radius des Kreises,
Elementare Funktionen der Analysis
85
dann gilt α = l für den induzierten Winkel. Nehmen wir noch an, dass K der Einheitskreis r ist (d.h. r = 1), dann folgt α = l im Bogenmaß. Es ist dabei zu merken:
360◦ = 2π .
Dies stellt eine gewisse Verbindung zwischen unserer Definitionen der trigonometrischen Funktionen und der Definition mittels eines rechtwinkligen Dreiecks.
Zum Schluss präsentieren wir ein Bild, indem die sechs trigonometrischen Funktionen eines Winkels α am Einheitskreis zu erkennen sind1:
c ot
α
1
tan α
csc α
sin α
α
0
cos α
1
sec α
Trigonometrische Funktionen des Winkels α in Einheitskreis
Diese Darstellung hat auch viele Vorteile: Z. B. kann man sofort sehen, dass
sowohl cos (−α ) = cos α und sin (−α ) = − sin α als auch sin α 2 + cos α 2 = 1 für
α ∈ [0, 2π ] gilt; Auch die Periodizität von Sinus und Kosinus, und viele bedeutende
Werte, die die Funktionen annehmen:
√
√
π
2
π
π
2
sin 0 = 0, sin =
, sin = 1, sin (− ) =
, sin (−π ) = 0;
4
2
2
4
2
und
√
√
π
2
π
π
2
cos 0 = 1, cos =
, cos = 0, cos (− ) = −
, cos (−π ) = −1.
4
2
2
4
2
Wir haben unser Repertoire an Funktionen deutlich erweitert, so dass die Untersuchung der Diffferential- und Integralrechnung reeller Funktionen ordentlich
gemacht werden kann. Diese sind die zwei letzten Themen der Infinitesimalrechnung, bevor wir mit der linearen Algebra anfangen.
1Es ist zugleich eine attraktive geometrische Aufgabe, sich zu überlegen, warum das so ist!
ABSCHNITT 11
Differenzierbarkeit reeller Funktionen
Die Schöpfung der Differenzialrechnung im 17. Jahrhundert von Newton und
Leibniz ist das Resultat intensiven Nachdenkens, das über Jahrhunderte zurückgeht, bezogen auf folgende Problemensorten:
• Die Bestimmung der Momentangeschwindigkeit und -beschleunigung.
• Die Bestimmung der Tangenten an Kurven, die auch wichtig für die Herstellung von Linsen war.
• Die Berechnung von Funktionenextrema, die eine große Rolle bei ballistischen Kurven und dem Studium der Planeten Bewegung gespielt hat.
• Die Berechnung von Kurvenlängen, auch im Kontext von Planetenbahnen.
Die beste Annäherung zum Begriff der Differenzierbarheit kommt geometrisch
durch die Tangente auf. Sei I eine Teilmenge von R. Seien a ∈ I ein Punkt und
f : I → R eine Funktion. Für einen weiteren Punkt x ∈ I kann man die Sekante durch die Punkte (a, f (a)) und (x, f (x)) des Funktionsgraphen ziehen. Lassen
wir x gegen a laufen, so wird aus den Sekanten anschaulich eine Tangente. Die
Präzisierung dieses Grenzwertprozesses führt letztlich zum Begriff der Differenzierbarkeit.
f (x)
f (x) − f (a)
f (a)
x−a
a
xn
x1
x = x0
88
Abschnitt 11
Zu x ∈ I, x 6= a, heißt die Zahl
f (x) − f (a)
x−a
der Differenzquotient von f zu a und x. Sie ist die Steigung der Sekante am Graph
durch die beiden Punkte (a, f (a)) und (x, f (x)). Für x = a ist dieser Quotient nicht
definiert, aber es existiert der Grenzwert für x → a. Dieser repräsentiert dann die
Steigung der Tangente an f im Punkt (a, f (a)) (oder an der Stelle a):
Definition. Sei I ⊂ R ein Intervall, a ∈ I und f : I → R eine Funktion. Man sagt,
dass die Funktion f differenzierbar in a ist, wenn der Limes
f (x) − f (a)
lim
x−a
x∈I\{a},x→a
existiert und endlich ist. In diesem Fall heißt der Limes die Ableitung von f in
a, geschrieben f ′ (a). Existiert die Ableitung in einem Punkt a, ist sie eine reelle
Zahl. Häufig nimmt man die Differenz h := x − a als Parameter für den Limes
des Differenzenquotienten, und lässt h gegen 0 gehen, d.h. man betrachtet den
Grenzwert
f (a + h) − f (a)
lim
,
h→0
h
wobei die Bedingung x ∈ I \{a} zur Bedingung a+h ∈ I, h 6= 0 wird. Diese werden
wir ab jetzt nicht mehr kennzeichen, und wir werden limx→a statt limx∈I\{a}, x→a
schreiben.
Beispiele.
(i) Seien α , β ∈ R, und sei die Funktion f : R → R gegeben durch x 7→ α x + β .
Die Ableitung von f im Punkt a ∈ R wird durch den Quotient
(α x − β ) − (α a − β ) α (x − a)
=
=α
x−a
x−a
bestimmt. Dieser ist konstant gleich α , dann existiert der Limes für x → a
und ist gleich α , d.h., die Ableitung von f existiert im Punkt a und ist
gleich α .
(ii) Wir betrachten die Funktion g : R → R, x 7→ x2 . Der Differenzquotient zu
x und a ist
g(x) − g(a) (x)2 − a2 (x + a)(x − a)
=
=
= x + a.
x−a
x−a
x−a
Der Grenzwert davon für x → a existiert offensichtlich. Daher ist
g(a + h) − g(a)
g′ (a) = lim
= lim x + a = 2a.
x→a
h→0
h
Eine Charakterisierung der Differenzierbarkeit einer Funktion in einem Punkt
ist gegeben durch:
Differenzierbarkeit reeller Funktionen
89
Satz 11.1. Sei I ⊂ R ein offenes Intervall, a ∈ I ein Punkt und f : I → R eine
Funktion. Dann ist f in a genau dann differenzierbar, wenn es ein s ∈ R und eine
Funktion ρ : I → R gibt mit ρ stetig in a und ρ (a) = 0 und mit
f (x) = f (a) + s · (x − a) + ρ (x)(x − a).
Beweis. Wenn f in a differenzierbar ist, so setzen wir s := f ′ (a). Für die Funktion
ρ muss notwendigerweise
f (x)− f (a)
− s für x 6= a,
x−a
ρ (x) =
0
für x = a,
gelten, um die Bedingungen zu erfüllen. Aufgrund der Differenzierbarkeit existiert
der Limes
f (x) − f (a)
−s
lim ρ (x) = lim
x→a
x→a
x−a
und hat den Wert 0. Das bedeutet, dass ρ in a stetig ist. Es existieren umgekehrt s
und ρ mit den angegebenen Eigenschaften, so gilt für x 6= a die Beziehung
f (x) − f (a)
= s + ρ (x).
x−a
Da ρ stetig in a ist, muss auch der Limes links für x → a existieren.
Der Satz 11.1 hat eine klare geometrische Bedeutung. Die Gleichung
f (x) = f (a) + s · (x − a) + ρ (x)(x − a)
lässt sich schreiben als f (x) − g(x) = (x − a)ρ (x), mit g(x) = f (a) + f ′ (a)(x − a).
Anschaulich:
f (x)
g(x)
f (x)
f (x) − f (a)
g(x)
f (a)
a
x
90
Abschnitt 11
Das heißt: Die Differenz zwischen der Funktion f und ihrer Tangente läuft
gegen 0 für x → a schneller als x gegen a.
Aus dem Satz 11.1 folgt unmittelbar:
Satz 11.2. Sei I ⊂ R ein offenes Intervall, a ∈ I ein Punkt und f : I → R eine
Funktion, die im Punkt a differenzierbar ist. Dann ist f stetig in a.
Beweis. Es gilt f (x) − f (a) = f ′ (a)(x − a) + ρ (x)(x − a) → 0 für x → a, und damit
lim f (x) = f (a).
x→a
Beispiel. Die Umkehrung des Satzes 11.2 gilt nicht. Zum Beispiel betrachten wir
die Funktion f : R → R, x 7→ |x|. Die Funktion ist stetig im Nullpunkt, aber nicht
differenzierbar, denn
x
f (x) − f (0)
= 1,
falls x ≥ 0
= x−x
x−0
x = −1 falls x < 0.
Es gelten die folgenden Rechenregeln für differenzierbare Funktionen
Satz 11.3. Sei I ein offenes Intervall, a ∈ I und f , g : I → R zwei Funktionen.
(a) Ist f konstant auf I, dann ist f differenzierbar auf I mit f ′ (x) = 0 für alle
x ∈ I.
(b) Sind f und g differenzierbar im Punkt a, und α , β ∈ R, dann
(i) ist α f ± β g differenzierbar in a mit (α f ± β g)′ (a) = α f ′ (a) ±
β g′ (a).
(ii) ist f · g differenzierbar in a mit ( f · g)′(a) = f ′ (a)g(a) + f (a)g′(a).
(iii) ist f /g differenzierbar in a falls g(a) 6= 0 und es gilt
f ′
f ′ (a)g(a) − f (a)g′(a)
.
=
g
(g(a))2
Beweis. Zu (a): Die Aussage folgt aus dem obigen Beispiel für α = 0.
Zu (b): Die erste Aussage lässt sich einfach nachrechnen. Zu (ii) gilt definitionsgemäß
( f · g)(x) − ( f · g)(a)
( f · g)′ (a) = lim
x→a
x−a
f (x)g(x) − f (a)g(a)
= lim
x→a
x−a
f (x)g(x) − f (x)g(a) + f (x)g(a) − f (a)g(a)
= lim
x→a
x−a
g(a)( f (x) − g(a))
f (x)(g(x) − g(a))
+ lim
= lim
x→a
x→a
x−a
x−a
′
′
= f (a)g (a) + g(a) + f (a).
Differenzierbarkeit reeller Funktionen
91
Für die Regel der Quotient (iii) betrachten wir zuerst den Fall f = 1:
1
1
1
1
− g(a)
1 ′
g(x)
g (x) − g (a)
( ) (a) = lim
= lim
x→a
x→a
g
x−a
x−a
g(a) − g(x)
1
1
·
=
· (−g′(a)).
= lim
2
x→a g(x)g(a)
x−a
(g(a))
Es gilt nun im Allgemeinen nach Anwendung von (ii):
f
1
1
1
( )′ (a) = ( f · )′ (a) = f (a)( )′ (a) + ( )(a) f ′(a)
g
g
g
g
1
1
′
′
(−g
(a))
+
f
(a)
= f (a)
(g(a))2
g(a)
′
′
− f (a)g (a) + f (a)g(a)
.
=
(g(a))2
Nach dem Satz 11.3 und mit Hilfe der vollständigen Induktion kann man beweisen:
Satz 11.4. Jede Polynomfunktion f = f (x) = an xn + . . . + a0 ist auf R differenzierbar mit
f ′ (x) = nan xn−1 + (n − 1)an−1 xn−2 + . . . + a1.
f (x)
mit f , g Polynomfunktionen und g 6= 0 auf
Ferner ist jede rationale Funktion g(x)
ihrem Definitionsbereich differenzierbar.
Die Hintereinanderschaltung von Funktionen lässt sich auch differenzieren wie
folgender Satz andeutet:
Satz 11.5 (Kettenregel). Seien I, J ⊂ R zwei offene Intervalle, a ∈ I und f : I →
R, g : J → R Funktionen mit f (I) ⊂ J und f (a) =: b. Setzen wir auch voraus,
dass f in a diferenzierbar ist, und dass g in b differenzierbar ist. Dann ist g ◦ f
differenzierbar in a mit
(g ◦ f )′ (a) = g′ ( f (a)) · f ′ (a) = g′ (b) · f ′ (a).
Beweis. Nach Satz 11.1 ist
f (x) = f (a) + (x − a)(s1 + ρ1 (x))
g(y) = g(b) + (y − b)(s2 + ρ2 (y))
92
Abschnitt 11
mit f˜(x) := s1 + ρ1 (x) bzw. g̃(x) := s2 + ρ2 (y) stetig in a bzw. in b auf I bzw. J.
Damit ergibt sich
g( f (x)) = g(b) + ( f (x) − b)g̃( f (x))
= g( f (a)) + ( f (a) + (x − a) f˜(x) − f (a))g̃( f (x))
= g( f (a)) + (x − a) f˜(x)g̃( f (x)).
Da f˜ · (g̃ ◦ f ) im Punkt a stetig ist, sind wir wegen Satz 11.1 fertig.
Die Differenzierbarkeit der Umkehrfunktion lässt sich wie folgt beweisen:
Satz 11.6. Seien I ⊂ R ein offenes Intervall, a ∈ I ein Punkt, und f : I → R eine
injektive, stetige, in a differenzierbare Funktion mit f ′ (a) 6= 0. Dann ist die Umkehrfunktion f −1 von f in b = f (a) differenzierbar mit
( f −1)′ (b) =
1
f ′ ( f −1 (b))
=
1
f ′ (a)
.
Beweis. Es ist die Existenz des Grenzwertes
f −1 (y) − f −1(b)
lim
y→b
y−b
zu rechtfertigen. Nach dem Satz 9.7 ist f −1 stetig in b, und daher gilt
lim f −1 (y) = f −1 (b) = a.
y→b
Wenn wir x = f −1 (y) setzen, dann ist
lim
y→b
x−a
f −1 (y) − a
= lim
= lim
x→a f (x) − f (a)
x→a
y−b
1
f (x)− f (a)
x−a
=
1
f ′ (a)
.
Beispiel. Für n ∈ N, n ≥ 1 betrachten wir die Funktionen f , g gegeben durch
f : [0, ∞[→ R, x 7→√xn
g : [0, ∞[→ R, x 7→ n x.
Für a > 0 ist f ′ (a) = nan−1 6= 0. Daher ist g an jeder Stelle b > 0 differenzierbar
mit
1 1
1
1
= b n −1 .
= √
g′ (b) = ′
n
f (g(b)) n( b)n−1 n
Wegen f ′ (0) = 0 ist g für n ≥ 2 im Nullpunkt nicht differenzierbar.
Die Ermittlung von Grenzwerten der Form lim f (x)/g(x) mittels der Differenx→a
tialrechnung beschreibt der folgende Satz:
Differenzierbarkeit reeller Funktionen
93
Satz 11.7 (Regel von L’Hôpital1). Sei I ein offenes Intervall. Seien f , g differenzierbare Funktionen auf I mit g(x) 6= 0 und g′ (x) 6= 0 für alle x ∈ I. Sei a ein
Häufungspunkt von I. Dann gilt: Ist eine der Voraussetzungen
(a) lim f (x) = lim g(x) = 0
x→a
x→a
(b) lim g(x) = ∞ (oder −∞)
x→a
erfüllt, dann ist
f (x)
f ′ (x)
= lim ′ ,
x→a g(x)
x→a g (x)
falls der rechtsstehende Grenzwert existiert.
lim
Eine analoge Aussage gilt, falls I ein offenes Intervall ist, a ∈ I und f , g differenzierbar auf I \ {a} sind mit g(x) 6= 0, g′ (x) 6= 0 für alle x ∈ I \ {a}.
Beweis. Wir betrachten nur die leichtere Situation (a) (der interessierte Leser wird
für (b) auf [Heu] verwiesen.) Sei also
lim f (x) = lim g(x) = 0.
x→a
x→a
Die Strategie ist: Wir beweisen die Aussage für a ∈ R und versuchen dies in der
Situation b = ∞ anzuwenden.
(i) Angenommen wird zunächst, dass a ∈ R ist. Dann besagt die Voraussetzung:
f und g sind in a stetig mit dem Wert 0, was uns f (a) = g(a) = 0 zu schreiben
erlaubt. Dann ist
f (x) − 0
f (x) − f (a)
f (x)
= lim
= lim
= lim
lim
x→a g(x) − 0
x→a g(x) − g(a)
x→a
x→a g(x)
f (x)− f (a)
x−a
g(x)−g(a)
x−a
f ′ (x)
,
x→a g′ (x)
= lim
aufgrund der für unsere Zwecke günstigen Voraussetzungen.
(ii) Angenommen, es ist a = ∞ (für −∞ verläuft es analog). Dann gibt es ein
b > 0 mit ]b, ∞[⊂ I. Sei nun die Hilfsfunktion h(y) = 1y , und das Intervall J :=]0, b1 [.
Dann ist f (J) ⊂ I, und die Funktionen
f˜ := f ◦ h|J und g̃ := g ◦ h|J
sind auf J differenzierbar, mit g̃(y) 6= 0 und g̃′ (y) 6= 0 für alle y ∈ J.
1 ...tout à fait au-dessus de la vaine gloire, que la plupart des Sçavans reserchent avec tant d’avidité...”.
”
Fontenelles Meinung über Guillaume-François-Antoine de L’Hôpital, Marquis de Sainte-Mesme et du Montellier, Comte d’Antremonts, Seigneur d’Ouques, 1661–1704. 1696 sagte er von ihm selber: Au reste je
”
reconnois devoir beaucoup aus lumieres de Mrs Bernoulli, sur tout à celles du jeune presentement Professeur à Groningue. Je me suis servi sans façon de leurs découvertes...”.
94
Abschnitt 11
Sie erfüllen weiterhin die Voraussetzung (a) mit (dortigem) a = 0. Dann dürfen
wir (i), und die Kettenregel, anwenden:
f (x)
f˜(y)
f (1/y)
lim
= lim
= lim
x→∞ g(x)
y→0 g(1/y)
y→0 g̃(y)
′
f ′ (1/y)(−1/y2)
f˜ (y)
(i)
= lim ′
= lim ′
y→0 g (1/y)(−1/y2 )
y→0 g̃ (y)
f ′ (x)
f ′ (1/y)
= lim ′
= lim ′ .
x→∞ g (x)
y→0 g (1/y)
Beispiel. Es ist lim
x→0
so dass
ex − 1
x
= 1, denn die Voraussetzung (a) in Satz 11.7 ist erfüllt,
ex − 1
ex
= lim = 1
x→0
x→0 1
x
lim
gilt.
Es ist hierzu das Kommentar von H. Hauser anzubringen: Der dem Anfänger so teure Glaube
”
an die Wunderkräfte der Regel von de l’Hospital, ist irrig und wird nicht selten mit entnervenden
Rechnungen gebüßt.” (Vgl. [Heu], S. 290.)
Nun möchten wir die Differenzierbarkeit der Exponentialfunktion und der trigonometrischen Funktionen zeigen.
Satz 11.8.
(a) exp ist auf R differenzierbar mit exp′ (a) = exp (a) für alle a ∈ R.
(b) cos ist auf R differenzierbar mit cos′ (a) = − sin (a) für alle a ∈ R.
(c) sin ist auf R differenzierbar mit sin′ (a) = cos (a) für alle a ∈ R.
Beweis. Zu (a): Zunächst zeigen wir die Aussage für a = 0. Es ist die Definition
von Ableitung im Nullpunkt anzuwenden. Es gilt also
exp (x) − 1
ex − 1
= lim
= 1 = exp (0)
x→0
x→0
x−0
x
nach dem obigen Beispiel. Für a ∈ R beliebig gilt exp (x) = exp (a) · exp (h(x)) mit
h : R → R, x 7→ x − a differenzierbar auf R. Da exp in 0 = h(a) differenzierbar ist,
ist exp auch in a differenzierbar mit
exp′ (0) = lim
exp′ (a) = exp (a) · exp′ (h(a)) · h′ (a) = exp (a).
Zu (b): Für jedes a ∈ R gilt
x+a
sin ( x−a
)
x+a
sin x − sin a 2 sin ( x−a
2 ) cos ( 2 )
=
= x−a2 cos (
)
x−a
x−a
2
2
Differenzierbarkeit reeller Funktionen
95
und es ist daher
sin ( x−a )
x+a
2a
sin x − sin a
= lim x−a2 · lim cos (
) = 1 · cos ( ) = cos (a).
x→a
x→a
x→a
x−a
2
2
2
lim
Zu (c): Für jedes a ∈ R gilt analog zu (b):
x+a
sin ( x−a )
cos x − cos a −2 sin ( x−a
x+a
2 ) sin ( 2 )
=
= x−a2 (− sin (
))
x−a
x−a
2
2
und es ist daher
sin ( x−a )
2a x+a cos x − cos a
= lim x−a2 · lim −sin (
) = 1· −sin ( ) = − sin (a).
x→a
x→a
x→a
x−a
2
2
2
lim
Die Funktion log :]0, ∞[→ R ist differenzierbar und für a ∈]0, ∞[ gilt nach Satz
11.6 und Satz 11.8
1
1
log′ (a) =
= .
exp (log (a)) a
Die Umkehrfunktionen arccos bzw. arcsin von cos bzw. sin sind auf ] − 1, 1[ differenzierbar mit
−1
1
arccos′ (a) = √
und arcsin′ (a) = √
1 − x2
1 − x2
für jedes a ∈] − 1, 1[.
Die Tangensfunktion ist auf R \ {kπ + π2 : k ∈ Z} differenzierbar mit
tan′ (a) =
1
= 1 + tan2 (a)
2
cos (a)
für jedes a aus ihrem Definitionsbereich. Analog ist die Kotangensfunktion auf
R \ {kπ : k ∈ Z} differenzierbar mit
cot′ (a) =
−1
= −1 − cot2 (a)
2
sin (a)
für jedes a aus ihrem Definitionsbereich. Die Umkehrfunktionen arctan bzw. arccot
von tan bzw. cot sind auf R differenzierbar mit
1
arctan′ (a) =
= cos2 (arctan(a))
2
1+a
−1
arccot′ (a) =
= − cos2 (arctan(a)).
2
1+a
Zum Schluss wollen wir uns aus der Abhängigkeit des Punktes in der Definition von Ableitung” befreien, indem wir die Ableitung als Funktion verstehen. Sei
”
96
Abschnitt 11
dazu I ⊂ R ein Intervall und f : I → R eine Funktion. Man sagt, dass f differenzierbar ist, wenn für jeden Punkt a ∈ I die Ableitung f ′ (a) von f in a existiert. Die
Abbildung
f ′ : I → R, x 7→ f ′ (x)
heißt dann die Ableitung (oder Ableitungsfunktion) von f . Die Ableitung f ′ einer
in jedem Punkt differenzierbaren Funktion nennt man häufig auch die erste Ableitung von f . Höhere Ableitungen werden rekursiv definiert:
Definition. Sei I ⊂ R ein Intervall und sei f : I → R eine Funktion. Die Funktion f
heißt n-mal differenzierbar, wenn sie (n − 1)-mal diferenzierbar ist und die (n − 1)te Ableitung von f , bezeichnet mit f (n−1) , differenzierbar ist. Die Ableitung
f (n) (x) := ( f (n−1) )′ (x)
nennt man dann die n-te Ableitung von f . Die zweite Ableitung bezeichnet man
auch mit f ′′ , die dritte mit f ′′′ . Eine Funktion f heißt unendlich oft differenzierbar,
wenn sie n-mal differenzierbar ist für jedes n ∈ N. Eine Funktion heißt unendlich
oft differenzierbar, wenn sie n-mal differenzierbar für jedes n ∈ N ist.
Eine differenzierbare Funktion ist stetig, aber ihre Ableitung muss nicht mehr
stetig sein. Insofern ergibt der folgende Begriff Sinn:
Definition. Sei I ⊂ R ein Intervall und sei f : I → R eine Funktion. Die Funktion
f heißt stetig differenzierbar, wenn f differenzierbar ist und ihre erste Ableitung
f ′ stetig ist. Eine Funktion heißt n-mal stetig differenzierbar, wenn sie n-mal differenzierbar ist und die n-te Ableitung stetig ist.
Beispiele.
(i) Polynomfunktionen, die Exponentialfunktion, die Sinusfunktion und die
Kosinusfunktion sind unendlich oft differenziebar, sogar unendlich oft stetig differenzierbar.
(ii) Sei f : R → R die Funktion gegeben durch f (x) = x · |x|. Falls a < 0, ist
f ′ (a) = −2a. Falls a > 0 ist f ′ (a) = 2a. Außerdem gilt f ′ (0) = 0. Die
Funktion f ist dann in R differenzierbar, und ihre erste Ableitung ist die
Funktion f ′ : R → R gegeben durch f ′ (x) = 2|x|. Die Funktion f ′ ist überall stetig, und sie ist differenzierbar nur” in R \ {0}. D.h. f ist einmal
”
differenzierbar, bloß nicht zweimal, da f ′ nicht weiter differenzierbar ist.
Ferner ist f (einmal) stetig differenzierbar, weil f ′ stetig ist.
ABSCHNITT 12
Mittelwertsätze der Differenzialrechnung
Unser Ziel ist die Integralrechnung. Aus für uns noch unerfindlichen Gründen
müssen wir die Differenzierbarkeit vollständig nachvollziehen. Bisher haben wir
eher technische Eigenschaften der Ableitungskunst betrachtet, und keine tieferen
Ergebnisse über ihre geometrische Bedeutung und ihre Wichtigkeit beim Verständnis des Wachstumsverhaltens einer Funktion. Diese Betrachtung wird in diesem
Abschnitt geschehen1.
Ein erstes Resultat liefert eine notwendige Bedingung für die Bestimmung von
Extrema:
Satz 12.1. Sei f :]a, b[→ R eine Funktion, die in c ∈]a, b[ ein lokales Extremum
hat und dort differenzierbar ist. Dann ist f ′ (c) = 0.
Beweis. OBdA dürfen wir annehmen, dass f im Punkt c ein lokales Maximum
besitzt (für lokale Minima verläuft der Beweis analog). D.h. definitionsgemäß existiert ein ε > 0 derart, dass f (y) ≤ f (c) für alle y ∈]a, b[ mit |y − c| < ε . Sei nun
eine Folge in ]a, b[ mit xn < c und xn → c. Dann ist |xn − c| < ε für alle n ≥ n0 bei
geeignetem n0 ∈ N. Daraus folgt
f (xn ) − f (c)
f ′ (c) = lim
≥ 0,
n→∞
xn − c
da f (xn ) ≤ f (c) ist für n ≥ n0 , und ferner xn < c gilt. Sei (yn ) eine Folge in ]a, b[
mit yn > c und yn → c. Dann ergibt sich analog
f (yn ) − f (c)
≤ 0,
f ′ (c) = lim
n→∞
yn − c
insgesamt also f ′ (c) = 0.
Die Ableitung von f wird durch Grenzübergang aus dem Differenzenquotienten hergeleitet. Dann ist klar, dass wir Eigenschaften der Ableitung aus den Eigenschaften des Differenzenquotienten schliessen können. Ist das umgekehrt auch
so? Die Antwort auf diese Frage wird vom Mittelwertsatz der Differentialrechnung
geliefert. Zunächst eine vereinfachte Form des Problems:
1Die Art, wie es heute Standard ist, in der wir diese Themen präsentieren, stammt aus dem Traité de
”
Calcul differéntiel et intégral” von J.A. Serret, erstmal 1868 veröffentlicht. Serret verwies auf Bonnet als
Quelle: la démostration qui précède est due à M. Ossian Bonnet”. Vgl. [Se], S. 19.
”
98
Abschnitt 12
Satz 12.2 (Rolle). Sei a < b und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion mit f (a) = f (b). Dann gibt es ein c ∈]a, b[ mit
f ′ (c) = 0.
Beweis. Ist die Funktion f konstant, dann gilt offensichtlich f ′ (c) = 0 für alle c ∈
]a, b[. Ist f nicht konstant, so existiert ein x ∈]a, b[ mit f (x) 6= f (a). OBdA dürfen
wir annehmen, dass f (x) > f (a) ist. Nach dem Satz von Weierstraß 9.4 nimmt f
in [a, b] ihr globales Maximum. Dieses wird weder in a noch in b angenommen,
denn es gilt f (x) > f (a) = f (b). Sei nun M dieses Maximum, und sei c ∈]a, b[ mit
f (c) = M. Die Funktion f nimmt also insbesondere ein lokales Maximum in c an,
und f ist nach Voraussetzung in c differenzierbar. Nach dem Satz 12.1 ist dann
f ′ (c) = 0.
Geometrisch erscheint die Aussage des Rolleschen Satzes außerordentlich einleuchtend2. Denn der Kurvenbogen C gegeben durch die Gleichung y = f (x) geht
nach der Voraussetzung des Satzes durch die beiden Endpunkten der Strecke [a, b]
auf der x-Achse. Behauptet wird dann, dass über einem gewissen inneren Punkt
dieser Sekante eine Tangente an C zur x-Achse parallel ist:
Q
a
c
b
C
Dabei sind Sekante und Tangente waagerecht. Warum soll die waagerechte”
”
Lage ausgezeichnet sein? Tätsächlich gibt es keinen Grund, wie Lagrange erkannt
hat:
Satz 12.3 (Mittelwertsatz der Differentialrechnung von Lagrange). Seien a < b
und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion. Dann existiert
ein c ∈]a, b[ mit
f (b) − f (a)
.
f ′ (c) =
b−a
2Michel Rolle (1652–1719) hat den Satz für Polynomfunktionen gefunden, bei dem seine Aussage besonders einfach lautet. Der Rollesche Satz gehört heute zum wesentlichen Ergebniss der Elementaranalysis. Paradoxerweise, wie Ostrowski bemerkt hat, war Rolle selber einer der erbittertsten Gegner des neuen
”
Kalküls” der Infinitesimalrechnung (vgl. [Os], S. 152).
Mittelwertsätze der Differenzialrechnung
99
Beweis. Wir drehen” die Funktion f so dass der Rollesche Satz 12.2 angewandt
”
werden kann. Sei dafür die Hilfsfunktion
f (b) − f (a)
(x − a).
g(x) := f (x) −
b−a
Nach den Rechenregeln für stetige und differenzierbare Funktionen erfüllt g die
Voraussetzungen von 12.2, und die Ableitung von g ist
f (b) − f (a)
.
b−a
Deshalb existiert nach dem Rollschen Satz 12.2 ein c ∈]a, b[ mit
g′ (x) = f ′ (x) −
0 = g′ (c) = f ′ (c) −
und daher ist f ′ (c) =
f (b)− f (a)
b−a .
f (b) − f (a)
,
b−a
Das geometrische Gehalt des Mittelwertsatzes der Differentialrechnung von
Lagrange ist eine Verallgemeinerung des Rolleschen Satzes, nämlich: Es möge
längs eines Bogens der stetigen Kurve y = f (x) eine Tangente vorhanden sein,
dann ist in einem gewissen inneren Punkte dieses Bogens die Tangente parallel zur
Sehne, die den Bogen spannt (vgl. die Sehne PP′ in der Aufzeichnung):
f (x) = 4x sin (x) + 2
P′
P
a
c1
c2
b
Wie man sieht, unterscheidet sich diese Aussage von derjenigen des Rollenschen Satzes nur dadurch, dass dort die Sehne PP′ auf der x-Achse lag.
f (a)
Die Größe f (b)−
repräsentiert die Steigung der Sekante durch P und P′ ;
b−a
f ′ (c) repräsentiert, wie im vorausgegangenen Abschnitt gesprochen, die Steigung
der Tangente am Graph von f im Punkt c.
Beispiel. Seien a, b ∈ R. Es gilt | sin b − sin a| ≤ |b − a|. OBdA wird a < b angenommen. Da die Sinusfunktion in [a, b] stetig, und in ]a, b[ differenzierbar ist,
100
Abschnitt 12
existiert nach Satz 12.3 ein c ∈]a, b[ so dass
sin b − sin a
= sin′ c = cos c
b−a
gilt. Aus | cos x| ≤ 1 für alle x ∈ R ergibt sich
| sin b − sin a| = | cos c||b − a| ≤ |b − a|.
Es gibt doch eine weitere Verallgemeinerung des Mittelwertsatzes von Lagrange:
Satz 12.4 (Mittelwertsatz der Differentialrechnung von Cauchy). Seien a < b und
f , g : [a, b] → R stetige, auf ]a, b[ differenzierbare Funktionen. Dann existiert ein
c ∈]a, b[ mit
( f (b) − f (a))g′(c) = (g(b) − g(a)) f ′(c).
Darüber hinaus, wird eine der Voraussetzungen
(a) g′ (x) 6= 0 für alle x ∈]a, b[,
(b) g(a) 6= g(b) und die Funktionen f ′ und g′ verschwinden nicht gleichzeitig,
erfüllt, dann darf man schreiben:
f ′ (c)
f (b) − f (a)
= ′ .
g(b) − g(a)
g (c)
Beweis. Sei die Hilfsfunktion
h(x) := ( f (b) − f (a))g(x) − (g(b) − g(a)) f (x).
Die Funktion h ist stetig im ganzen Intervall [a, b] und differenzierbar auf ]a, b[.
Ferner ist
h(a) = f (b) − g(a) − f (a)g(a) − g(b) f (a) + g(a) f (a) = f (b)g(a) − g(b) f (a)
h(b) = f (b)g(a) − g(b) f (a),
d.h., es gilt h(a) = h(b). Nach dem Rolleschen Satz 12.2 existiert ein c ∈]a, b[ so
dass h′ (c) = 0, d.h., so dass
( f (b) − f (a))g′(c) = (g(b) − g(a)) f ′(c)
gilt.
Angenommen, es gilt (a): Einerseits ist g′ (c) 6= 0; andererseits würden g(a) und
g(b) übereinstimmen, und so existierte ein d ∈]a, b[ nach dem Rolleschen Satz auf
g angewandt so dass g′ (d) = 0, was ein Widerspruch ist.
Angenommen, es gilt (b): Einerseits ist g(b) − g(a) 6= 0; andererseits würde g′ (c)
verschwinden, dann würde sich auch f ′ (c) annullieren, was ein Widerspruch zur
Tatsache ist, dass f ′ und g′ nicht zugleich verschwinden.
Mittelwertsätze der Differenzialrechnung
101
Eine erste Anwendung des Mittelwersatzes von Lagrange ist der Schrankensatz:
Satz 12.5 (Schrankensatz). Seien a < b und f : [a, b] → R eine stetige und auf ]a, b[
differenzierbare Funktion. Für alle x ∈]a, b[ gelte m ≤ f ′ (x) ≤ M für m, M ∈ R.
Dann gilt für alle y, z ∈ [a, b] mit y ≤ z
m(z − y) ≤ f (z) − f (y) ≤ M(z − y).
Beweis. OBdA dürfen wir y < z annehmen. Dann existiert nach Satz 12.3 ein c ∈
]a, b[ mit
f (z) − f (y)
≤ M.
m ≤ f ′ (c) =
z−y
Daraus folgt unmittelbar:
Satz 12.6. Seien a < b und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare
Funktion mit f ′ (x) = 0 für alle x ∈]a, b[. Dann ist f konstant.
Beweis. Es genügt m = M = 0 in Satz 12.5 einzusetzen.
Der Mittelwertsatz von Lagrange hilft beim Verständnis des Monotonieverhaltens einer Funktion.
Satz 12.7 (Monotonietest).
(i) Seien a < b und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion.
Gilt für alle x ∈]a, b[



f ′ (x) > 0 
streng monoton wachsend 







f ′ (x) < 0
streng monoton fallend
so ist die Funktion f
au f [a, b].
f ′ (x) ≥ 0 
monoton wachsend








f ′ (x) ≤ 0
monoton fallend
(ii) Wenn die Funktion f : [a, b] → R
′
wächst
f (x) ≥ 0
monoton
, so ist
f ür alle x ∈ [a, b], in denen f diffefällt
f ′ (x) ≤ 0
renzierbar ist.
Beweis. Zu (i): Falls f ′ (x) > 0 ist für alle x ∈]a, b[, folgt mit dem Mittelwertsatz
von Lagrange für y, z ∈ [a, b], y < z und geeignetem x ∈]y, z[, dass
f (z) − f (y) = f ′ (x)(z − y) > 0.
Analog erledigt man die anderen Fälle.
102
Abschnitt 12
Zu (ii): Die Aussage folgt wie der Satz 12.2 durch direkte Betrachtung der
Differenzquotienten: Sie sind alle ≥ 0 falls f monoton wachsend ist, und alle ≤ 0
falls f monoton fallend ist.
Bevor wir mit der Integralrechnung anfangen, möchten wir eine letzte Anwendung der Differenzialrechnung einführen: Die Bestimmung der Konvexität oder
Konkavität einer differenzierbaren Funktion auf einem Intervall. Dies soll als Komplemet betrachtet werden, da wir dies in der Vorlesung nicht thematisiert haben.
Definition. Sei I ⊂ R ein Intervall. Sei f : I → R eine Funktion. Man sagt, dass die
Funktion f konvex auf I ist, wenn für alle x, y ∈ I mit x < y, und für alle λ ∈]0, 1[
gilt
f ((1 − λ )x + λ x) ≤ (1 − λ ) f (x) + λ f (y)).
Andererseits heißt das, wenn die Ungleichung
f ((1 − λ )x + λ x) ≥ (1 − λ ) f (x) + λ f (y)).
gilt, dann heißt die Funktion f konkav auf I.
Dazu zwei Bemerkungen:
(i) Es ist x < (1 − λ )x + λ y < y, falls λ ∈]0, 1[.
(ii) Die Funktion, die durch die Gerade, welche durch die Punkte (x, f (x)) und
(y, f (y)) laüft, definiert ist, nimmt in (1 − λ )x + λ y den Wert (1 − λ ) f (x) +
λ f (y) an.
Es ist nicht schwierig zu beweisen:
Satz 12.8. Seien I ⊂ R ein Intervall und f : I → R eine Funktion. Genau dann ist
f konvex auf I, wenn für alle x, y, z ∈ I mit x < y < z gilt
f (y) − f (x)
f (z) − f (y)
≤
.
y−x
z−y
Für differenzierbare Funktionen gibt es folgende Charakterisierung:
Satz 12.9. Seien ]a, b[ ein offenes Intervall und f : [a, b] → R eine stetige, auf ]a, b[
differenzierbare Funktion. Genau dann ist f konvex auf [a, b], wenn f ′ monoton
wachsend in [a, b] ist.
Beweis. Angenommen, f ist konvex. Für x, y ∈ [a, b] mit x < y ist zu zeigen, dass
f ′ (x) ≤ f ′ (y). Sei hierzu x1 ∈]x, y[. Wegen Satz 12.8 gilt
f (y) − f (x1)
f (x1) − f (x)
≤
.
x1 − x
y − x1
Lassen wir einerseits x1 gegen x laufen, dann wird f ′ (x) ≤
andererseits x1 gegen y laufen, so wird f ′ (y) ≥
f ′ (x) ≤ f ′ (y).
f (y)− f (x)
y−x .
f (y)− f (x)
y−x .
Lassen wir
Insgesamt ergibt sich
Mittelwertsätze der Differenzialrechnung
103
Sei umgekehrt f ′ monoton wachsend in [a, b]. Ist zu zeigen, dass
f (z) − f (y)
f (y) − f (x)
≤
y−x
z−y
für x < y < z gilt. Nach dem Mittelwertsatz von Lagrange auf der Funktion f |[x, y]
angewandt, existiert ein c1 ∈]x, y[ mit
f (y) − f (x)
= f ′ (c1).
y−x
Analoges Argument für die Funktion f |[y, z] ergibt die Existenz eines c2 ∈]y, z[ mit
f (z) − f (y)
= f ′ (c2 ).
z−y
Da c1 < c2 und f ′ nach Voraussetzung monoton wachsend ist, dann erhalten wir ,
wie gewünscht f ′ (c1 ) ≤ f ′ (c2).
Die Kombination von Satz 12.9 mit dem Monotonietest 12.7 liefert folgendes
Kriterium:
Satz 12.10. Sei f : [a, b] → R stetig, zwei mal differenzierbar auf ]a, b[. Genau
dann ist f konvex in I, wenn f ′′ (x) ≥ 0 für alle x ∈]a, b[.
Die Punkte bei denen das Konvexitätsverhalten wechselt, heißen Wendepunkte:
Definition. Sei f : [a, b] → R eine stetige, auf ]a, b[ zweimal differenzierbare
Funktion. Ein Punkt c ∈ [a, b] heißt ein Wendepunkt von f wenn
f ′′ (x) < 0 für x < c und f ′′ (x) > 0 für x > c
oder
f ′′ (x) > 0 für x < c und f ′′ (x) < 0 für x > c
ist (wobei nur die x in einer gewissen Umgebung von c in Betracht gezogen werden).
Dann muss f ′′ (c) = 0 sein. Eine Erklärung dafür kann man aus einem Analogon
der Darbouxschen Eigenschaft für Ableitungen schließen, nämlich:
Satz 12.11 (Zwischenwertsatz für Ableitungen). Sei f : [a, b] → R stetig, auf ]a, b[
differenzierbar mit f ′ (a) 6= f ′ (b). Dann nimmt f ′ in ]a, b[ jeden Wert zwischen
f ′ (a) und f ′ (b).
Sein Beweis ist leicht nach den bishierigen Überlegungen, und wir verzichten
darauf (vgl. [Heu], S. 285). Das heißt: Nur Nullstellen der zweiten Ableitung kommen als Wendepunkte in Frage, müssen aber keine sein, weil f ′′ beim Durchgang
durch eine solche Nullstelle keinen Vorzeichenwechsel zu erleiden braucht (vgl.
[Heu], S. 293). Die Bedingung f ′′′ (c) 6= 0 wird dann die Bedenken auszuräumen.
ABSCHNITT 13
Integrierbarkeit reeller Funktionen à la Riemann
Das Ziel ist, den Flächeninhalt zwischen dem Graph einer Funktion und dem
waagerechten Achse (als Integral) zu verstehen. Hierzu werden wir Funktionen
f : I → R betrachten, für die I ein abgeschloßenes und beschränktes Intervall sein
soll. Daher werden wir I = [a, b] mit a < b reelle Zahlen setzen. Auch kommt uns
plausibel vor, dass die Funktion beschränkt sein soll, d.h. es existiert eine reelle
Zahl M ≥ 0 derart, dass für alle x ∈ [a, b] die Ungleichung | f (x)| ≤ M gilt.
a
b
Die Grundidee bei der Definition vom Integral ist, das Intervall [a, b] in kleinen
Teilintervallen zu zerlegen, um die Fläche durch eine Summe von kleinen Rechtecken anzunäheren.
Definition. Eine Unterteilung von [a, b] ist eine Teilmenge D = {a0 , . . . , an } von
[a, b] mit a = a0 < a1 < . . . < an = b. Für i = 1, . . . , n wird das Intervall [ai−1 , ai ]
das i-te Teilintervall genannt. Die Große δi := ai − ai−1 ist dann die Länge des
i-ten Teilintervalls. Sind alle Teilintervalle, die durch die Unterteilung von [a, b]
gegeben sind, gleichlang, so heißt die Unterteilung äquidistant.
Definition. Sei nun eine wie oben definierte Unterteilung D des Intervalls [a, b].
Sei f : [a, b] → R eine beschränkte Funktion. Dann heißen die Summen
n
s(D, f ) = s(D) = ∑ fi · δi
i=1
n
bzw.
S(D, f ) = S(D) = ∑ Fi · δi
i=1
106
Abschnitt 13
mit
fi := inf{ f (x) : x ∈ [ai−1 , ai ]}
bzw. Fi := sup{ f (x) : x ∈ [ai−1 , ai ]}
die Darbouxsche Untersumme bzw. die Darbouxsche Obersumme von f zur Unterteilung D.
Es ist nun klar: Eine vernünftige Definition des Integrals von f muss einen Wert
zwischen s(D, f ) und S(D, f ) ergeben.
Definition. Sei D eine Unterteilung von [a, b]. Eine weitere Unterteilung D′ von
[a, b] heißt eine Verfeinerung von D, wenn es D′ ⊃ D gilt.
Satz 13.1. Ist D′ eine Verfeinerung einer Unterteilung D von [a, b], so gilt
s(D) ≤ s(D) ≤ S(D) ≤ S(D)
Beweis. Fügen wir eine Punkt zur Unterteilung D hinzu, dann wird die Darbouxsche Untersumme vergrößert (oder sie bleibt erhalten), und die Darbouxsche Obersumme verkleinert (oder erhalten). Das Hinzufügen von weiteren Punkten liefert
die Behauptung.
Satz 13.2. Für D1 , D2 Unterteilungen von [a, b] gilt
s(D1 ) ≤ S(D2 )
Beweis. Sei D′ := D1 ∪ D2 die Unterteilung von sämtlichen Punkten aus D1 und
D2 (ohne Wiederholung). Da D′ eine Verfeinerung von sowohl D1 als auch D2 ist,
folgt die behauptete Ungleichung nach Satz 13.1.
Für eine beschränkte Funktion f folgt aus Satz 13.2, dass jede Darbouxsche
Obersumme eine Majorante der Menge aller Darbouxschen Untersummen ist (und
umgekehrt). D.h. die Menge {s(D) : D Unterteilungung von [a, b]} ist nach oben
beschränkt und die Menge {S(D) : D Unterteilung von [a, b]} ist nach unten beschränkt:
s(D)
S(D)
A BBILDUNG 1. Darbouxsche Summen
Somit ergibt es Sinne, das Supremum von Untersummen und das Infimum von
Obersummen zu betrachten:
Definition. Sei f : I = [a, b] → R eine beschränkte Funktion. Dann definiert man
das Oberintegral und das Unterintegral von f über [a, b] durch
Z b
a
f (x)dx := inf{S(D) : D Unterteilung von [a, b]},
Integrierbarkeit reeller Funktionen à la Riemann
Z b
107
f (x)dx := sup{s(D) : D Unterteilung von [a, b]}.
a
Wegen Satz 13.2 sieht man sofort, dass
Z b
a
f (x)dx ≤
Z b
f (x)dx
a
gilt. Für normale” Funktionen sollten diese beiden Integrale übereinstimmen. Ist
”
das der Fall, so heißt die Funktion Riemann-integrierbar:
Definition. Sei f : [a, b] → R eine beschränkte Funktion. Dann heißt f Riemannintegrierbar auf [a, b], wenn Ober- und Unterintegral übereinstimmen:
Z b
a
f (x)dx =
Z b
f (x)dx.
a
Dann nennen wir diese Zahl das bestimmte Integral von f über [a, b] und schreiben
R
hierfür ab f (x)dx.
Ein erstes Kriterium für die Integrierbarkeit einer Funktion ist:
Satz 13.3. Eine Funktion f : [a, b] → R ist genau dann Riemann-integrierbar,
wenn es gilt
∀ ε > 0 ∃ D̃ Unterteilung von [a, b] mit S(D̃) − s(D̃) < ε .
Beweis. Definitiongemäß ist f genau dann Riemann-integrierbar, wenn die zwei
Mengen in Abbildung 1 beliebig nahe liegen. D.h. für ε > 0 vorgegeben existieren
zwei Unterteilungen D1 und D2 von [a, b] mit S(D2 ) − s(D1 ) < ε nach Satz 13.2. Es
genügt jetzt, die Unterteilung D̃ = D1 ∪ D2 zu bilden und Satz 13.1 anzuwenden.
Beispiele.
(i) Wir nehmen die Funktion f : [a, b] → R gegeben durch f (x) = x. Sie ist
im Intervall [a, b] monoton wachsend, so ist f (u) = u das Minimum und
f (v) = v das Maximum von f über jedes Teilintervall [u, v] ⊂ [a, b]. Für
n > 0 betrachten wir die äquidistante Unterteilung
n
b − ao
Dn = ai = a + ih : i = 0, 1, . . . n und h =
n
o
n
b−a
: i = 0, 1, . . . n .
= ai = a + i ·
n
108
Abschnitt 13
Mit Hilfe von der Formel ∑ni=1 i = 12 n(n + 1) zeigt man nach einigen Rechnungen
n
b2 a2 (b − a)2
s(Dn ) = ∑ ai−1 δi = − −
2
2
2n
i=1
n
S(Dn ) =
∑ aiδi =
i=1
b2 a2 (b − a)2
− +
,
2
2
2n
2
und damit S(Dn ) − s(Dn ) = (b−a)
n . Da diese Differenz eine Nullfolge bildet
für n → ∞, also für n groß genug, so wird sie kleiner als jedes vorgegebenes
ε > 0. Dann ist f Riemann-integrierbart mit
Z b
a
b2 − a2
f (x)dx =
.
2
(ii) Nun betrachten wir die Funktion g : [0, 1] → R gegeben durch g(x) = x2 .
Sie ist im Interval [0, 1] monoton wachsend, so ist wie in (i) g(u) = u2
das Minimum und g(v) = v2 das Maximum von g über jedes Teilintervall
[u, v] ⊂ [a, b]. Für n > 0 betrachten wir die äquidistante Unterteilung von
[0, 1]
n
1 − 0o
Dn = ai = 0 + ih : i = 0, 1, . . . n und h =
n
o
n
1
= ai = i · : i = 0, 1, . . . n .
n
Mit Hilfe von der Formel ∑ni=1 i2 = 61 n(n+1)(n+2) zeigt man nach einigen
Rechnungen
n
s(Dn ) =
S(Dn ) =
n
1 1
1
1
1
∑ ai−1δi = ∑ ((i − 1) n )2 n = 3 − 2n + 6n2
i=1
n
n
i=1
i=1
i=1
1 1
1
1
1
∑ aiδi = ∑ (i n )2 n = 3 + 2n + 6n2 ,
und damit S(Dn ) − s(Dn ) = n1 . Da diese Differenz eine Nullfolge bildet für
n groß genug, so wird sie kleiner als jedes vorgegebenes ε > 0. Dann ist f
Riemann-integrierbar mit
Z 1
1
g(x)dx = .
3
0
Nicht jede Funktion ist Riemann-integrierbar:
Beispiel. Man betrachte die Dirichlet-Funktion, d.h. die Funktion f : [0, 1] → R
mit f (x) = 1 für x ∈ Q und f (x) = 0 für x ∈ R \ Q. Da Q und R \ Q dicht in R
sind, gibt es für jedes Intervall [ai−1 , ai ] zu jeder Unterteilung D von [0, 1] sowohl
Integrierbarkeit reeller Funktionen à la Riemann
109
rationale als auch irrationale Zahlen mit fi = 0 und Fi = 1 für alle i, also mit s(D) =
0 und S(D) = 1 für alle D. Daraus ergibt sich
Z b
f (x)dx = 0 und
Z b
f (x)dx = 1.
a
a
Somit ist f nicht Riemann-integrierbar.
Ferner gibt es Funktionen, von denen kaum zu denken ist, dass sie Riemannintegrierbar sein können, obwohl sie es in der Tat sind:
Beispiel. Man betrachte die Funktion f : [0, 1] → R gegeben durch f (x) = 0 für
x = 0 oder x ∈ R \ Q und f (x) = 1q für x = qp mit ggT(p, q) = 1. Sei ε > 0 vorgegeben. Es gibt nur endlich viele x-Werte, sagen wir k, so dass f (x) > ε . Sei D eine
Unterteilung von [0, 1] mit δi = εk so dass alle die k x-Werte, für die f (x) > ε gilt,
im i-ten Teilintervall von [0, 1] liegen. Da f (x) ≤ 1 für alle x ∈ [0, 1], dann ist
S(D) ≤ ε + k · max{δi } < ε + ε = 2ε .
i
Da ferner s(D) = 0 gilt, ist die Funktion f Riemann-integrierbar mit
Z 1
f (x)dx = 0.
0
Dazu bekommt man zumindest die Lehre, dass die Sache knifflig ist! 1875
schrieb Du Bois-Reymond: ich fühle indessen, dass die Art, wie das Criterium
”
der Integrirbarkeit formulirt wurde, etwas zu wünschen übrig lässt”. In der Tat
bewies er noch zusammen mit Darboux folgendes Ergebnis:
Satz 13.4. Sei f : [a, b] → R eine beschränkte Funktion. Zu h > 0 bezeichnen wir
mit Dh die Menge aller Unterteilungen von [a, b] mit der Eigenschaft maxi {δi } ≤ h.
Genau dann ist f Riemann-integrierbar, wenn zu vorgegebenem ε > 0 ein δ > 0
existiert derart, dass für alle Unterteilungen D ∈ Dδ die Ungleichung
S(D) − s(D) < ε
gilt.
Beweis. Die Notwendigkeit ist eine Folgerung von Satz 13.3. Die Umkehrung ist
schwieriger, denn die gesuchte Unterteilung D so dass maxi δi ≤ δ mag sich viel
von der Unterteilung D̃ aus Satz 13.3 unterscheiden. Sei dazu ein ε > 0 vorgegeben,
und sei D̃ eine Unterteilung so dass ∆˜ := S(D̃) − s(D̃) < ε . Die Unterteilung D̃
besteht aus endlich vielen Punkten, D̃ = {ã0 , ã1 , . . . , ãñ }. Wir betrachten nun eine
beliebige Unterteilung D ∈ Dδ , und setzen ∆ := S(D) − s(D). Es ist zu zeigen, dass
∆ beliebig klein für δ → 0 wird. Sei dann D′ := D ∪ D̃ mit ∆′ := S(D′ ) − s(D′ ). Die
Darbouxschen Summen für D′ und D stimmen überein, bis auf in jenen Intervallen,
welche Punkte aus D̃ enthalten. Da es höchstens ñ − 1 solcher Intervalle gibt, ihre
110
Abschnitt 13
Längen ≤ δ sind, und wegen der Beschränkheit der Funktion f mit −M ≤ f (x) ≤
M für M := max{ f (x) : x ∈ [a, b]}, ergibt sich
∆ ≤ ∆′ + 2 · (ñ − 1) · δ · M.
Da D′ eine Verfeinerung von D̃ ist, dann gilt ferner ∆′ ≤ ∆˜ < ε . Insgesamt erhalten
ε
ist. Das zeigt die hinreichende Bedingung.
wir ∆ < 2ε sofern δ ≤ 2(ñ−1)M
Bei der Definition der Darbouxschen Summen kann man sich fragen, inwiefern
wichtig ist, genau fi bzw. Fi in Betracht zu ziehen. Das ist in der Tat unerheblich:
Man könnte das Bild von jedem Punkt im Intervall [ai−1 , ai ] nehmen, nicht nur fi
oder Fi . Betrachten wir das Bild f (ξi ) der Mittelpunkte ξi des Intervalls [ai−1 , ai ],
so spricht man über Riemannsche Summen, d.h., Summen der Gestalt
n
σ (D) = ∑ f (ξi )δi :
i=1
80
60
40
20
2
4
8
6
10
Es ist klar, dass fi ≤ f (ξi ) ≤ Fi gilt, und damit s(D) ≤ σ (D) ≤ S(D). Aus Satz
13.4 folgt dann das Konvergenzverhalten
n
∑ f (ξi )δi −→
i=1
Z b
f (x)dx
a
für maxi δi → 0, vorausgesetzt, dass die Funktion f : [a, b] → R Riemann-integrierbar
ist.
Dies liefert ein einfaches Werkzeug, um Eigenschaften des Integrals beweisen
zu können. Zum Beispiel folgt die Beziehung
Z b
a
(α f + β g)(x)dx = α
Z b
a
f (x)dx + β
Z b
a
g(x)dx mit α , β ∈ R
Integrierbarkeit reeller Funktionen à la Riemann
111
nach Anwendung des Grenzwertes für maxi δi → 0 auf die endlichen Summen
n
n
n
∑ (α f (ξi) + β g(ξ )) · δi = α · ∑ f (ξ ) · δi + β · ∑ g(ξ ) · δi,
i=1
i=1
i=1
vorausgesetzt, dass alle involvierten Funktionen Riemann-integrierbar seien. Für f
und g können wir es annehmen. Wird dann die Summe f + g Riemann-integrierbar
sein? Die Erklärung von diesem und anderen Fällen möchten wir jetzt zum Ausdruck bringen:
Satz 13.5. Seien f , g : [a, b] → R Riemann-integrierbare Funktionen. Sei λ ∈ R.
Dann sind die Funktionen
(i) f + g, (ii) λ f , (iii) f · g, (iv) | f |, (v) f /g (falls |g(x)| ≥ C > 0)
Riemann-integrierbar.
Beweis. Das Hauptproblem bei der Begründung ist zu realisieren, dass Fi − fi die
kleinste obere Schranke für die Variationen von f (x) im Intervall [ai−1 , ai ] repräsentiert, d.h., dass es
Fi − fi = sup{ f (x) − f (y) : x, y ∈ [ai−1 , ai ]}
(*)
gilt. Sei dazu ε > 0 vorgegeben. Nach den Definitionen von Fi bzw. fi existieren
ξ , η ∈ [ai−1 , ai ] mit f (ξ ) > Fi − ε bzw. f (η ) < fi + ε , so dass die Ungleichung
f (ξ ) − f (η ) > Fi − fi − 2ε
gilt. Damit ist Fi − fi nicht nur eine obere Schranke für | f (x) − f (y)| sondern die
kleinste sogar.
Nun beweisen wir die Behauptungen. Zu (i): Sei h(x) = f (x) + g(x), und bezeichnen wir mit Fi , Gi , Hi bzw. fi , gi , hi die Suprema bzw. die Infima der Funktionen f , g, h auf [ai−1 , ai ]. Für x, y ∈ [ai−1 , ai ] ergibt sich nach (*) und der Dreiecksungleichung
|h(x) − h(y)| ≤ | f (x) − f (y)| + |g(x) − g(y)| ≤ (Fi − fi ) + (Gi − gi ).
Die Anwendung von (*) auf die Funktion h zeigt die Ungleichung
(Hi − hi ) ≤ (Fi − fi ) + (Gi − gi ),
und die Differenzen zwischen Darbouxschen Ober- und Untersummen erfüllen
weiterhin
∑(Hi − hi)δi ≤ ∑(Fi − fi)δi + ∑(Gi − gi)δi . (**)
i
i
i
Für vorgegebenes ε > 0 wählen wir nach Satz 13.3 eine Unterteilung D̃ so geschaft,
dass jedes Glied in der rechtsstehenden obigen Summe (**) kleiner als ε sei. (In
der Tat hat man da zwei verschiedene Unterteilungen, für f und für g; man kann
112
Abschnitt 13
aber die Vereinigung von den beiden bilden und damit weiter arbeiten). Daraus
folgt, dass
∑(Hi − hi)δi < 2ε
i
ist, und die Funktion h(x) = f (x) + g(x) ist Riemann-integrierbar wegen Satz 13.3.
Zu (ii): Für h(x) = λ f (x) muss man die Gleichung
|h(x) − h(y)| = |λ | · | f (x) − f (y)|
nutzen, um zu zeigen, dass (hi − hi ) ≤ |λ | · (Fi − fi ) ist, und wie oben die Aussage
schließen. Zu (iii): Für h(x) = f (x) · g(x) nutzen wir die Ungleichung
|h(x) − h(y)| ≤ | f (x)||g(x) − g(y)| + |g(y)|| f (x) − f (y)|
≤ M · |g(x) − g(y)| + N · | f (x) − f (y)|
(die Funktionen f und g sind beschränkt, d.h es gilt | f (x)| ≤ M und |g(x)| ≤ N für
alle x ∈ [a, b]). Zu (v): Da f (x)/g(x) = f (x) · (1/g(x)) ist, nach Anwendung von
(iii) reicht es uns, die Aussage für 1/g(x) zu zeigen. Für h(x) = 1/g(x) ist
|h(x) − h(y)| =
|g(y) − g(x)| |g(x) − g(y)|
≤
.
|g(y)| · |g(x)|
C2
Beispiel. Dass | f | Riemann-integrierbar ist, impliziert nicht, dass f auch Riemannintegrierbar ist. Dazu betrachten wir die Funktion f : [a, b] → R gegeben durch
n
1, wenn x ∈ Q ∩ [a, b];
f (x) =
−1, wenn x ∈ (R \ Q) ∩ [a, b].
Die Funktion f ist nicht Riemann-integrierbar, aber die Funktion | f | schon, denn
| f |(x) = 1 für alle x ∈ [a, b].
Insbesondere schließt man aus Satz 13.5, dass Polynomfunktionen Riemannintegrierbar sind. Im Allgemeinen ist jede stetige Funktion Riemann-integrierbar:
Satz 13.6. Ist f : [a, b] → R eine stetige Funktion, so ist sie Riemann-integrierbar.
Beweis. Die Begründung kann nicht auf dem Begriff der gleichmäßigen Stetig”
keit” verzichten, den wir in dieser Vorlesung nicht betrachtet haben. Der interessierte Leser wird auf die zahlreiche Literatur verwiesen.
Satz 13.7. Seien a, b, c ∈ R mit a < b < c. Sei f : [a, c] → R eine Funktion derart,
dass ihre Einschränkungen auf die Intervalle [a, b] und [b, c] Riemann-integrierbar
sind. Dann ist f auf [a, c] Riemann-integrierbar mit
Z c
a
f (x)dx =
Z b
a
f (x)dx +
Z c
b
f (x)dx.
Integrierbarkeit reeller Funktionen à la Riemann
113
Beweis. Die Behauptung gilt deshalb, weil die Addition der Darbouxschen Summen für die Einschränkungen von f auf [a, b] und [b, c] eine Darbouxsche Summe
für [a, c] ist.
Definition. Für a > b oder a = b definieren wir
Z b
a
f (x)dx := −
Z a
Z a
f (x)dx und
b
f (x)dx = 0
a
so dass die Gleichung aus Satz 13.7 für beliebige a, b, c ∈ R erhalten bleibt.
Satz 13.8. [Monotonie des Integrals] Seien a < b und f , g : [a, b] → R eine
Riemann-integrierbare Funktion. Gilt f (x) ≤ g(x) für alle x ∈ [a, b], dann ist
Z b
a
f (x)dx ≤
Z b
g(x)dx.
a
Beweis. Für f ≤ g gilt 0 ≤ g − f und daraus folgt s(D, g − f ) ≥ 0 für alle Unterteilungen D von [a, b]. Da g − f Riemann-integrierbar ist nach Satz 13.5 erhalten
wir
0 ≤ s(D, g − f ) ≤
Z b
a
(g − f )(x)dx =
Z b
a
g(x)dx −
Z b
f (x)dx.
a
Satz 13.9. Seien a < b und sei f : [a, b] → R eine Riemann-integrierbare Funktion.
Dann gilt
Z b
Zb
f (x)dx ≤
| f (x)|dx.
a
a
Beweis. Da f Riemann-integrierbar ist, ist f beschränkt, und somit auch | f |. Für
eine Unterteilung D = {a = a0 , a1 , . . . an = b} von [a, b] ist
n
S(D, f ) − s(D, f ) =
S(D, | f |) − s(D, | f |) =
∑ (Fi − fi)δi
i=1
n
∑ (Fi′ − fi′)δi
i=1
mit
Fi − fi = sup{| f (x) − f (y)| : x, y ∈ [ai−1 , ai ]} für alle i
Fi′ − fi′ = sup{|| f (x)| − | f (y)|| : x, y ∈ [ai−1 , ai ]} für alle i.
Es gilt Fi′ − fi′ ≤ Fi − fi für jedes i wegen || f (x)| − | f (y)|| ≤ | f (x) − f (y)|, und
daher
S(D, | f |) − s(D, | f |) ≤ S(D, f ) − s(D, f )
114
Abschnitt 13
für jede Unterteilung D. Nach Satz 13.3 ist | f | Riemann-integrierbar wenn f
Riemann-integrierbar ist. Darüber hinaus, wegen f ≤ | f | und − f ≤ | f | und Satz
13.5 und Satz 13.8 gilt
Z b
a
f (x)dx ≤
und daher
Z
b
a
Z b
a
Z b
| f (x)|dx und
nZ
f (x)dx = max
a
(− f (x))dx = −
b
a
f (x)dx, −
Z b
a
Z b
a
f (x)dx ≤
o
f (x)dx ≤
Z b
a
Z b
a
| f (x)|dx,
| f (x)|dx.
Anmerkung. Sei f eine Riemann-integrierbare Funktion. Zwischen die bestimmte Integrale von f und | f | gilt im Allgemeinen die Ungleichung
Z b
Z b
| f (x)|dx.
f (x)dx ≤ a
a
Zu einer Riemann-integrierbaren Funktion f : [a, b] → R kann man den Wert
Rb
f (x)dx
b−a
als die Durchschnittshöhe der Funktion ansehen: Wenn wir dieser Wert mit der
Länge des Grundintervalls multiplizieren, ergibt sich den Flächeninhalt. Der Mittelwertsatz der Integralrechnung besagt, dass für eine stetige Funktion dieser
Durchschnittswert (oder Mittelwert) von der Funktion auch angenommen wird:
a
Satz 13.10 (Mittelwertsatz der Integralrechnung). Seien a < b und f : [a, b] → R
eine stetige Funktion. Dann gibt es ein c ∈ [a, b] mit
Z b
a
f (x)dx = f (c)(b − a).
Beweis. Die Funktion f ist auf [a, b] beschränkt nach dem Satz von Weierstraß 9.4:
Sei m bzw. M ihr Minimum bzw. Maximum. Dann gilt speziell m ≤ f (x) ≤ M für
alle x ∈ [a, b] und
m · (b − a) ≤
Daher gilt
Z b
a
Z b
a
f (x)dx ≤ M · (b − a).
f (x)dx = ξ · (b − a)
für ξ ∈ [m, M], und nach dem Zwischenwertsatz 9.1 existiert ein c ∈ [a, b] mit
f (c) = ξ .
Integrierbarkeit reeller Funktionen à la Riemann
115
Satz 13.11. Sei f : [a, b] → R eine stetige Funktion. Sei g : [a, b] → R eine
Riemann-integrierbare Funktion so dass g überall positive (oder überall negative) Werte annimmt. Dann existiert ein ein c ∈ [a, b] mit
Z b
a
f (x) · g(x)dx = f (c) ·
Z b
g(x)dx.
a
Beweis. Wir zeigen die Behauptung in der Situation g(x) ≥ 0 für alle x ∈ [a, b] (der
andere Fall ergibt sich nach Ersetzen von g durch −g). Es gilt
m · g(x) ≤ f (x) · g(x) ≤ M · g(x)
für alle x ∈ [a, b], wobei m bzw. M das Minimum bzw. das Maximum von f auf
[a, b] ist. Nun folgt der Rest des Beweises wie bei Satz 13.10.
Beispiel. Sei 1 < a < b. Für jedes x ∈ [a, b] gilt
√
√
x+ x
x+1
2
2
√ =√
1≤
= 1+ √
≤ 1+ √
.
x− x
x−1
x−1
a−1
Daraus folgt
√
Z b
2
x+ x
1
√ dx ≤ 1 + √
.
1≤
b−a a x− x
a−1
Beispiel. Seien f , g : [a, b] → R stetig mit
Z b
f (x)dx =
a
Z b
g(x)dx.
a
Es ist zu zeigen, dass ein c ∈ [a, b] existiert so dass f (c) = g(c). In der Tat ist dann
f − g eine stetige Funktion auf [a, b], und ergibt sich
Z b
a
( f − g)(x)dx = 0
Nach Anwendung des Mittelwertsatzes existiert ein c ∈ [a, b] so dass
0=
Z b
a
( f − g)(x)dx = ( f − g)(c) · (b − a).
Da b − a 6= 0 muss ( f − g)(c) = 0 sein, d.h. es ist f (c) = g(c).
Mit dem Riemannschen Integral sind wir noch nicht fertig: Im nächsten Abschnitt möchten wir die Beziehung zwischen der Differential- und der Integralrechnung erklären.
ABSCHNITT 14
Der Hauptsatz der Infinitesimalrechnung
Alles, was bisher in den Abschnitten der Infinitesimalrechnung betrachtet wurden, hilft dabei, die Beziehung zwischen Differenzierbarkeit und Integrierbarkeit
nachvollziehen zu können: Der sogenannte Hauptsatz der Differenzial- und Integralrechnung, oder kürzer gesagt, der Hauptsatz der Infinitesimalrechnung. Als
Korollar ergibt sich die Regel von Barrow, die ermöglicht, bestimmte Integrale
durch den Begriff von Stammfunktion leicht zu berechnen. Das ist einfach, vorausgesetzt, dass die Berechnung von Stammfunktionen vorhanden ist. Deshalb werden
wir uns diese zum Schluss in Erinnerung zu rufen.
Definition. Seien I ⊂ R ein Intervall, a ∈ I und f : I → R eine Riemann-integrierbare
Funktion. Dann heißt die Funktion
I → R, x 7−→
Z x
f (x)dx
a
die Integralfunktion, oder auch das unbestimmte Integral, zu f zum Startpunkt a.
Satz 14.1 (Hauptsatz der Infinitesimalrechnung). Seien I ⊂ R ein Intervall, a ∈ I
und f : I → R eine stetige Funktion. Sei weiterhin
F(x) :=
Z x
f (x)dx
a
das zugehörige unbestimmte Integral. Dann ist F differenzierbar mit
F ′ (x) = f (x) für alle x ∈ I.
Beweis. Sei x0 ∈ I. Der Differenzquotient zu F und x0 ist
Z
Z x0
1 Z x0 +h
F(x0 + h) − F(h) 1 x0 +h
=
f (x)dx −
f (x)dx
f (x)dx =
h
h a
h x0
a
Es ist zu zeigen: Der Limes des Differenzenquotienten existiert und ist gleich f (x)
für h → 0. Äquivalent dazu, der Limes von
Z
1 x0 +h
f (x)dx − h f (x0)
h x0
für h → 0 existiert und gleich 0 ist. Da f (x0 ) eine Konstante ist, gilt
h f (x0 ) =
Z x0 +h
x0
f (x0 )dx.
118
Abschnitt 14
Dann betrachten wir
1
h
Z x0 +h
x0
( f (x) − f (x0))dx.
Durch Betrachtung der Funktion g(x) = f (x) − f (x0 ) kann man OBdA annehmen,
dass f (x0 ) = 0 ist. Wegen der Stetigkeit von f gibt es zu jedem ε > 0 ein δ > 0
derart, dass für alle x ∈ [x0 − δ , x0 + δ ] die Abschätzung | f (x)| < ε gilt. Dann gilt
für h ∈ [−δ , δ ] die Abschätzung
Z x0 +h
Z x0 +h
Z x0 +h
f (x)dx ≤ | f (x)|dx < ε dx = |h|ε ,
x0
x0
x0
und daher gilt die Abschätzung
1 Z x0 +h
f (x)dx < ε .
h x0
Beispiel. Wir möchten den Grenzwert
1
L := lim
x→0 x
berechnen. Es gilt
Z x
0
R x −t 2
dt
0e
e
−t 2
dt .
F(x)
,
x
G(x)
mit F differenzierbar auf R nach dem Hauptsatz der Infinitesimalrechnung, wobei
F und G die Voraussetzungen der Regel von l’Hôpital erfüllen. Dann wenden wir
diese Regel an und wir erhalten
L=
=
2
F ′ (x)
e−x
= lim
= 1.
L = lim ′
x→0 G (x)
x→0 1
Dies kann man auch anders sehen. Da F(0) = 0, dann ist
R x −t 2
dt − 0
0e
= F ′ (0) = e−0 = 1.
x−0
Definition. Sei I ⊂ R ein Intervall, und f : I → R eine Funktion. Eine Funktion
F : I → R heißt Stammfunktion zu f , wenn F auf I differenzierbar ist und F ′ (x) =
f (x) für alle x ∈ I gilt.
L=
Die Existenz von Stammfunktionen ist folgendermaße gewährleistet:
Satz 14.2. Seien I ⊂ R ein Intervall und f : I → R eine stetige Funktion. Dann
besitzt f eine Stammfunktion.
Der Hauptsatz der Infinitesimalrechnung
119
Beweis. Sei a ∈ I ein Punkt. Nach Satz 13.6 existiert das bestimmte Integral
F(x) =
Z x
f (x)dx,
a
und nach dem Hauptsatz der Infinitesimalrechnung 14.1 ist F ′ (x) = f (x), d.h., F
ist eine Stammfunktion von f .
Stammfunktionen einer vorgegebenen Funktion unterscheiden sich in eine
Konstante:
Satz 14.3. Sei I ⊂ R ein Intervall, f : I → R eine Funktion. Seien F unf G zwei
Stammfunktionen von f . Dann ist F − G eine konstante Funktion.
Beweis. Es ist (F − G)′ = F ′ − G′ = f − f = 0, und nach Satz 12.6 ist F − G
konstant.
Satz 14.4 (Regel von Barrow). Sei I ⊂ R ein Intervall, und f : I → R eine stetige
Funktion, für die G eine Stammfunktion ist. Dann gilt für jede zwei Punkte a, b ∈ I
mit a < b die Gleichheit
Z b
b
f (x)dx = G(b) − G(a) =: G(x) .
a
a
Beweis. Sei F die Integralfunktion zu f mit Startpunkt a. Wegen der Stetigkeit von
f auf [a, b] ist F auch eine Stammfunktion von f in [a, b]. Nach dem Mittelwertsatz
der Differentialrechnung unterscheiden sich F und G in einer Konstanten in [a, b].
Das heißt, es ist F(x) − G(x) = c für alle x ∈ [a, b], c ∈ R. Daraus folgt unmittelbar
F(x) =
Z x
f (t)dt + c.
a
Für x = b bzw. x = a ist
F(b) =
Z b
f (t)dt + c bzw. F(a) =
a
Z a
f (t)dt + c = c,
a
woraus folgt
F(b) − F(a) =
Z b
f ( f )dt.
a
R
Beispiel. Es ist das bestimmte Integral 15 (2x4 − 3x2 − 1)dx zu berechnen. Eine
Stammfunktion von 2x4 − 3x2 − 1 ist einfach zu bestimmen, insofern ergibt sich
120
Abschnitt 14
sofort:
Z 5
1
4
2
(2x − 3x − 1)dx = 2
Z 5
4
x dx − 3
Z 5
1
x3 5
1
2
x dx −
Z 5
dx
1
5
x5 5
− 3 · − x
5 1
3 1
1
55 1 = 2·
− 53 − 1 − (5 − 1)
−
5 5
5608
3124
− 124 − 4 =
.
= 2·
4
5
= 2·
Satz 14.5 (Partielle Integration). Seien f , g : [a, b] → R zwei differenzierbare Funktionen. Es gilt
Z b
a
′
f (x)g (x) = f (b)g(b) − f (a)g(a) −
Beweis. Es ist zunächst zu begründen, dass
Z
′
f (x)g (x) dx = f (x)g(x) −
Z
Z b
a
f ′ (x)g(x)dx.
f ′ (x)g(x) dx.
gilt. Da f und g differenzierbar sind, ergibt sich ( f g)′ = f ′ g + f g′ , d.h., f g′ =
( f g)′ − f ′ g. Dann ist
Z
′
( f g ) dx =
Z
′
′
(( f g) − f g) dx = f g −
Z
f ′ g dx.
Nun folgt die Behauptung nach Anwendung der Regel von Barrow 14.4.
Rπ
Beispiel. Es ist das bestimmte Integral 0 x sin x dx zu berechnen. Es handelt sich
um ein Produkt von Funktionen, daher scheint die partielle Integration wirksam zu
sein. Mit der Bezeichnung im obigen
Satz machen wir f (x) = x und g′ (x) = sin x.
R
Dann ist f ′ (x) = 1 + c und g(x) = sin x = − cos x + c′ (mit c, c′ ∈ R). Der Satz
besagt
Z π
0
π Z π
π
x sin x dx = (−x cos x) −
(− cos x) dx = −π cos π + sin x = π .
0
0
0
Satz 14.6 (Substitution). Sei f : [a, b] → R eine stetige Funktion. Sei ϕ : [c, d] → R
eine stetig differenzierbare Funktion mit ϕ ([c, d]) ⊂ [a, b]. Dann gilt
Z ϕ (d)
ϕ (c)
f (x) dx =
Z d
c
f (ϕ (t)) · ϕ ′ (t) dt.
Beweis. Da ϕ auf [c, d] stetig ist, dann ist ϕ ([c, d]) ein abgeschloßenes und beschränktes Intervall. Wegen der Stetigkeit von f auf [a, b] besitzt f eine Stammfunktion F : [a, b] → R nach dem Hauptsatz, die differenzierbar auf [a, b] ist mit
F ′ (x) = f (x) für alle x ∈ [a, b]. Nach der Regel von Barrow gilt
Z ϕ (d)
ϕ (c)
f (x) dx = F(ϕ (d)) − F(ϕ (c)) = (F ◦ ϕ )(d) − (F ◦ ϕ )(c).
Der Hauptsatz der Infinitesimalrechnung
121
Die Funktion F ◦ ϕ : [c, d] → R ist differenzierbar, und nach der Kettenregel gilt
(F ◦ ϕ )′ (t) = F ′ (ϕ (t)) · ϕ ′ (t) = (( f ◦ ϕ ) · ϕ ′ )(t)
für alle t ∈ [c, d]. Die Funktion F ◦ ϕ ist also eine Stammfunktion von ( f ◦ ϕ ) · ϕ ′
in [c, d] mit
Z d
c
( f ◦ ϕ ) · ϕ ′ = (F ◦ ϕ )(d) − (F ◦ ϕ )(c).
Insgesamt ergibt sich die Behauptung.
R 3 5√
Beispiel. Wir möchten das bestimmte Integral 0 3 9 − x2 dx berechnen. Wir
wenden die Substitutionsmethode an, und zwar mit ϕ (t) = 3 sint. Dabei ist ϕ ′ (t) =
3 cost + c, c ∈ R und t = arcsin 3x . D.h.., für x = 0 ist t = arcsin 0 = 0 und für x = 3
ist t = arcsin 1 = π2 . Nun ist es einfach:
Z 3 p
5
0
3
9 − x2
5
3
Z π /2 p
9 − 9 sin2 t · 3 · cost dt
Z π /2 q
Z
9(1 − sin2 t) · cos t dt = 5 ·
= 5·
dx =
0
0
= 5·
Z π /2
0
3 cos2 t dt = 15 ·
Z π /2
0
π /2 q
9(cos2 t) · cost dt
cos2 t dt
0
Z π /2
Z
1
1 π /2
dt = 15
= 15 ·
dt +
cos 2t dt
2
2 0
2 0
0
π /2 1 π /2
15π
π
= 15
+0 =
.
= 15 t + sin 2t 0
2 0
4
4
Z π /2
1 + cos 2t
Wir realisieren, dass es wichtig ist, die Berechnung von Stammfunktionen zu
beherrschen. Dabei muss man zunächst die Grundtypen kennen, die wir nun ohne
Anspruch auf Vollständigkeit kurz vorstellen:
(a) Potenzen:
R
(i) u(x)a u′ (x) dx =
R u′ (x)
1
a+1 + K,
a+1 u(x)
a 6= −1.
(ii) u(x) dx = log |u(x)| + K
(b) Exponentialfunktionen:
R
(i) R eu(x) u′ (x) dx = eu(x) + K
(ii) au(x) u′ (x) dx = log1 a au(x) + K, a > 0, a 6= 1.
(c) Trigonometrische
Funktionen:
R
(i) R cos (u(x))u′ (x) dx = sin (u(x)) + K
(ii) sin (u(x))u′ (x) dx = − cos (u(x)) + K
R
R
R
′ (x)
dx = sec2 (u(x))u′ (x) dx = (1 + tan2 u(x))u′ (x) dx = tan (u(x)) + K
(iii) cosu2 (u(x))
R
′
R
R
(x)
(iv) sinu2 (u(x))
dx = csc2 (u(x))u′ (x) dx = (1+cot2 u(x))u′ (x) dx = − cot (u(x)) +K
(d) Umkehrfunktionen der trigonometrischen Funktionen ( Arcus-Funktionen”):
”
′
R
(i) √ u (x) 2 dx = arcsin (u(x)) + K = − arccos (u(x)) + K
(ii)
R
1−u(x)
u′ (x)
dx
1+u(x)2
= arctan (u(x)) + K = −arccot(u(x)) + K
122
Abschnitt 14
(e) Hyperbelfunktionen:
R
(i) R cosh (u(x))u′ (x) dx = sinh (u(x)) + K
(ii) sinh (u(x))u′ (x) dx = cosh (u(x)) + K
′
R
dx = tanh (u(x)) + K
(iii) coshu2(x)
(u(x))
R
′
dx = − coth (u(x)) + K
(iv) sinhu2 (x)
(u(x))
(f) Umkehrfunktionen der Hyperbelfunktionen ( Area-Funktionen”):
p
”
′
R
(i) √ u (x)2 dx = arsinh(u(x)) + K = log u(x) + u(x)2 + 1 + K
u(x) +1
p
R u′ (x)
(ii) √ 2 dx = arcosh(u(x)) + K = log |u(x) + u(x)2 − 1| + K
u(x) −1
R u′ (x)
(iii) 1−u(x)2 dx = artanh(u(x)) + K = 12 log 1+u(x)
1−u(x) + K
Eine Stammfunktion eines Produktes von zwei Funktionen kann man durch
partielle Integration erledigen:
Z
x cos x dx = x sin x −
Z
sin x dx = x sin x + cos x + K.
Manchmal ist das trickreich:
R
R
log x dx
=
arctan x dx =
R
R
R
= x log x − x · 1x dx
1 · log x dx
1 · arctan x dx = x arctan x −
Substitution ist auch oft nützlich:
R
R
√1
x x−1
√ 1
3−x2
dx = 2
dx =
R
R
x
1+x2
= x log x − x + K
dx = x arctan x − 21 log (1 + x2 ) + K
√
R 1
t
dt = 2 arctan t + K = 2 arctan x + 1 + K
2 +1)t dt = 2
(t
1+t 2
√
R
R √3 cost
3
cost
√
√
dt
=
dt = t + K = arcsin ( √x3 ) + K
dt
=
√
3−3 sin2 t
3 1−sin2 t
R
Bei manchen Ausdrücken, die trigonometrische Funktionen involvieren, ist eine
Substitution der Art t = tan ( 2x ) geeignet, denn es gilt
2 tan ( 2x )
2t
=
sin x =
1 + tan2 ( 2x ) 1 + t 2
1 − tan2 ( 2x ) 1 − t 2
cos x =
,
=
1 + tan2 ( 2x ) 1 + t 2
wie im folgenden Beispiel:
Z
1
dx =
1 + sin x + cos x
=
Z
1
2
1
1+
Z
2t
1+t 2
+
1−t 2
1+t 2
·
1
dt =
1 + t2
Z
1
dt
2t + 2
1
1
x
1
dt = log |t + 1| + K = log (tan ( ) + 1) + K.
1+t
2
2
2
Je mehr Kenntnisse man in der Trigonometrie hat, desto einfacher werden die
Berechnungen:
R
1
sin x cos x
dx =
=
R cos2 x+sin2 x
R cos2 x
R sin2 x
sin x cos x dx = sin x cos x dx + sin x cos x dx
R cos x
R − sin x
sin x dx −
cos x dx = log | sin x| − log | cos x| + K.
Der Hauptsatz der Infinitesimalrechnung
123
Gebrochen rationale Funktionen sind ein wichtiger Typus: Quotienten von Pop(x)
lynomfunktionen q(x) mit q 6= 0. Ist grad( p̃(x)) ≥ grad(q(x)), kann man Polynom”
division” durchführen so dass
p(x)
p̃(x)
= h(x) +
,
q(x)
q(x)
mit h(x) eine Polynomfunktion und grad( p̃(x)) < grad(q(x)) gilt. Dann hängt die
Berechnung einer Stammfunktion davon ab, was für Nullstellen der Nenner q(x)
besitzt. Ausführliche Erklärungen sind in der Übung erklärt worden, und eine Zusammenfassung ist bei Stud.IP herunterzuladen. Hier betrachten nur zur Illustration zwei Beispiele:
Beispiele.
(a) Die Polynomfunktion x2 − x + 1 hat keine reelle Nullstellen. Man kann
leicht ahnen, dass eine Stammfunktion von 1/(x2 − x + 1) der Form
arctan u(x) für geeignete u(x) ist. In der Tat gilt:
Z
1
dx =
2
x −x+1
=
√
Z
Z
1
2/ 3
2
4/3
dx = √
dx
dx =
1
3
1 2
(x− 1 )2
3 1 + ( √x− 2 )2
1 + 3/42
4 + (x − 2 )
3/2
√
Z
2x − 1
2/ 3
2
2
√
dx = √ arctan √ + K
2x−1
2
3 1 + ( √3 )
3
3
Z
(b) Es ist x3 − 2x2 + x = x(x − 1)2 , und deswegen gilt für A, B,C ∈ R
2x2 − 4x + 1 A
B
C
(A + B)x2 + (−2A − B +C)x + A
+
= +
=
.
2
2
x(x − 1)
x x − 1 (x − 1)
x(x − 1)2
Koeffizientenvergleich liefert einem linearen Gleichungssystem, dessen
Lösung A = B = 1 und C = −1 ist. Somit ist
Z
2x2 − 4x + 1
dx =
x3 − 2x2 + x
Z
Z
Z
1
−1
dx +
dx
x−1
(x − 1)2
1
= log |x| + log |x − 1| +
+ K.
x−1
1
dx +
x
Bei dem Koeffizientenvergleich stellt sich als Wichtiges heraus, lineare Gleichungssysteme lösen zu können. Im nächsten Abschnitt werden wir diese Theorie
allgemein darstellen.
ABSCHNITT 15
Ein Rückblick auf die Infinitesimalrechnung
Die Mathematik ist eine Art Spielzeug, welches die Natur uns zuwarf zum
”
Troste und zur Unterhaltung in der Finsternis”, schrieb der Franzoser Jean-Baptist
le Rond d’Alembert (1717-1783). Diese Gedanken haben Sie, lieber Leser, vielleicht nicht gespurrt. Von Trost war möglicherweise nicht die Rede, sondern eher
von Finsternis. Die Unterhaltungsthemen waren bloß ganz andere. Sie mussten
einfach nur Mathematik lernen.
Möglichst schnell wurden viele neue Begriffe gelesen, aber gar nicht verdauunt. Als Folgerung, optimistisch gesehen, eine Buchstaben-Suppe—gelegentlich
ein paar Zahlen: Formel und Säzte quälen Ihren Kopf, ohne ein Zuhause finden
zu können; es ist Zeit, die mathematischen Gedanken in Ordnung zu bringen. In
diesem Abschnitt werden wir eine kleine Zusammenfassung des analytischen Teils
dieser Vorlesung darstellen. Er sollte eine Motivation dafür sein, dass Sie die vorherigen Abschnitte nochmal lesen. Eine tiefere Lektur, mit Bleistift und Schmierzettel dabei. Und mit der Vorstellung von Gauß: Pauca sed matura”, d.h. wenig
”
aber gut gemacht.
Wir haben nun einen erheblichen Teil der Vorlesung, nämlich die Abschnitte 4
bis 14, der Infinitesimalrechnung gewidmet. Das Wort Infinitesimal” ist als belie”
big klein zu verstehen, und das haben wir tatsächlich gemacht, wenn wir Grenzwertprozesse in der Umgebung eines Punktes betrachtet haben.
Zentral ist also in dieser Theorie der Begriff von Grenzwert, auch Limes genannt. Wir haben ihn zunächst für Folgen reeller Zahlen definiert, welche implizit
auch die Definition von reellen Zahlen voraussetzen. Das heißt, wir haben die Infinitesimalrechnung mit dem Begriff der reellen Zahl angefangen. Die Situation ist
in der Einführung zum Kapitel III in [HW, S. 170-171] wirklich gut beschrieben:
In 1821, Cauchy establishes new requirements of rigor in his famous Cours d’Analyse”. The questions are the following:
”
- What is a derivate really? Answer: a limit.
- What is an integral really? Answer: a limit.
- What is an infinite series a1 + a2 + a3 + . . . really? Answer: a
limit.
This leads to
126
Abschnitt 15
- What is a limit? Answer: a number.
And, finally, the last question:
- What is a number?
Die reellen Zahlen wurden unbewusst seit langem bekannt. Eine antike Le√
gende besagt, dass der Pythagoreer Hippasos von Metapont entdeckt hat, dass 2
keine rationale Zahl ist. Das wurde als Geheimnisverrat betrachtet, und der arme
Hipassos wurde ertrunken. Das geschah im 5. Jahrhundert v. Chr., und wir haben
sein Argument—diesmal schon ohne so besonders schlimme Wirkungen—in der
Vorlesung gezeigt (vgl. Satz 4.1).
Das ist aber noch nicht gut genug, um einen neuen Zahlenbereich einführen zu
können, denn es stellt sich sofort allerlei Fragen: Gibt es mehr irrationale Zahlen?
Wie viele? Wieso sind sie interessant? Die Zeit verging, und irgendwann um die
Neuzeit kamen Unbestimmten und Gleichungen in der Mathematik auf. Die Geometrie wurde Algebra. Insbesondere wurden die Zahlen als Lösungen von Gleichungen interpretiert. Die rationale Zahlen Q waren dann nicht mehr besonders,
sondern einfach nur ein Beispiel vom Zahlbereich, genauso wie die reellen Zahlen
R.
Sowohl Q als auch R sind doch Mengen, die mit der Summe und der Multiplikation versehen eine spezielle Struktur besitzen: Sie sind Körper (ein merkwürdiges Wort von Richard Dedekind eingeführt; ein anderer Zeitgenosse, Leopold
Kronecker, mochte lieber das Wort Rationalitätsbereich” verwenden; es ist nicht
”
mehr im Gebrauch). Beide lassen sich vernünftig anordnen. Bloß sind sie nicht das
Gleiche (vgl. Satz 4.5): Karl Weierstraß, ein Westphaler, der Professor in Berlin
wurde, und seine Kollegen Eduard Heine und Georg Cantor haben erkannt, dass R
der Vollständigkeitsaxion erfüllt:
Jede nach oben beschränkte Teilmenge A 6= 0/ von R besitzt ein Supremum.
Es ist aber doch mehr als das: Dieser Axiom definiert R als angeordneter
Körper! Im folgenden Sinne: Jeder angeordneter Körper K, der vollständig ist,
ist isomorph zu R. Das Wort isomorph” ist hierfootnoteDas ist ein Oberbegriff in
”
der Mathematik. Wir werden später Isomorphismen zwischen Vektorraüme sehen.
so zu interpretieren: Was die Körperstruktur angeht, sind K und R voneinander
nicht unterscheidbar. Insbesondere besitzt R die Archimedische Eigenschaft 4.7,
nämlich
...dass jede reelle Zahl sich durch gewisse natürliche Zahlen übertreffen lässt.
Und die Tatsache, dass Q (und R \ Q) dicht in R ist (vgl. Satz 4.8):
Jede reelle Zahl hat um sich herum eine beliebig kleine Umgebung,
die eine rationale Zahl enthält.
Ein Rückblick auf die Infinitesimalrechnung
127
Die Frage nach dem Begriff von reeller Zahl”, die Cauchy nicht zufriedenstel”
lend betrachten konnte, wurde von der Berliner Schule, plus Charles Méray in Dijon (Frankreich) und Richard Dedekind in Braunschweig um die Jahre 1870–1872
beantwortet. Die Einleitung von Konrad Knopp (vgl. [Kn], S. 1–2) ist durchaus
erleutend:
Heute gilt die Strenge gerade in bezug auf den zugründe liegenden
Zahlbegriff als die wichtigste Forderung, die an die Behandlung
jedweden mathematischen Gegenstandes zu stellen ist, und seit den
letzten Jahrzehnten des vergangenen Jahrhunderts – in den 60er
Jahren wurde von W EIERSTRASS in seinen Vorlesungen und im
Jahre 1872 von C ANTOR und von D EDEKIND sozusagen das letzte
Wort in der Sache gesprochen — kann keine Vorlesung, kein Werk,
das die grundlegenden Kapitel der höheren Analysis behandelt, Anspruch auf Gültigkeit machen, wenn es nicht von dem gereinigten
Begriff der reellen Zahl seinen Ausgangspunkt nimmt.
Die reellen Zahlen wurden verstanden, und damit viele Prozesse, die einen
Übergang zur Unendlichkeit involvierten: Unendlich groß, aber auch unendlich
klein. Typische Beispiele dieser Prozesse waren die Folgen reeller Zahlen. Sie sind
seit sehr langem bekannt. Beispielsweise hat Archimedes schon die Folge
1 n+1
1 1 2
1 1 2 1 3
1 1 2
1
, 1+ +
+
, . . . , 1+ +
+. . .+
+. . .
1, 1+ , 1+ +
2
2
2
2
2
2
2
2
2
betrachtet, und gesagt, dass sie konvergent ist. Das Wort konvergent” tritt übrigens
”
erst mit James Gregory im Jahr 1667 auf. D’Alembert um 1765 und vor allem
Cauchy in seinem Cours d’Analyse (1821) danken wir die Definition: Eine Folge
(an )n∈N reeller Zahlen ist gegen eine reelle Zahl a konvergent, wenn gilt:
∀ε > 0 ∃n0 ∈ N so dass |an − a| < ε für alle n ≥ n0 .
Tatsächlich ist diese Definition von d’Alembert in der Encyclopédie, 9. Band zu
lesen: On dit qu’une grandeur est la limite d’une autre grandeur, quand la seconde
”
peut approcher de la première plus près que d’une grandeur donnée, si petite qu’on
la puisse supposer...”. Cauchy fuhrte die Bezeichnung lim ein:
Lorsqu’une quantité variable converge vers une limite fixe, il est
souvent utile d’indiquer cette limite par une notation particulière,
c’est ce que nous ferons, en placa̧nt l’abréviation
lim
devant la quantité variable dont il s’agit...
128
Abschnitt 15
Folgen reeller Zahlen haben dabei geholfen, die reellen Zahlen zu definieren!
Cauchy hat seinen eigenen Begriff von Konvergenz betrachtet, die Cauchy-Folge,
der gleichbedeutend zu dem üblichen war, aber nur für reelle Zahlen (vgl. Sätze
6.5 und 6.6). Beispiele wie das schon Ende des Abschnittes 6 betrachtete
1, 1.4, 1.41, 1.414, 1.4142, 1.41421, . . .
waren Jahrelang nicht verstanden. Auf einmal kam die Lösung aus mehreren unabhängigen Seiten (Cantor, Heine, Méray und Dedekind): Die ganze Cauchy-Folge
wird als reelle Zahl erklärt: Einer Cauchy-Folge rationaler Zahlen wird eine reelle
Zahl zugeordnet. Wie Cantor 18891 schrieb:
√
3 ist also nur ein Zeichen für eine Zahl, welche erst noch gefunden werden soll, nicht aber deren Definition. Letztere wird jedoch
in meiner Weise, etwa durch
(1.7, 1.73, 1.732, . . .)
befriedigend gegeben.
Folgen sind eng verbunden mit Reihen reeller Zahlen. Summen von unendlich
vielen Zahlen brachten schon in der Antike zum Nachdenken, wie die Paradoxe
von Zenon von Elea (um 490–430 v. Chr.) zeigen. Ein Beispiel davon ist der Paradoxon von Achilles und der Schildkröte: Darin wird versucht zu belegen, dass ein
schneller Läufer wie Achilles bei einem Wettrennen eine Schildkröte niemals einholen könne, wenn er ihr einen Vorsprung gewähre. In mathematischer Sprache,
hat Zenon nicht berücksichtigt, dass Reihen reeller Zahlen auch konvergieren”
”
können. Es ist nichts ihm vorzuwerfen, denn die Reihen reeller Zahlen wurden
erst im zweiten Teil des 19. Jahrhunderts vollständig verstanden. Der norwegische
Mathematiker Niels Henrik Abel (1802-1829) kritisierte sogar Cauchy in dieser
Richtung:
Cauchy est fou, et avec lui il n’y a pas moyen d s’entendre, bien
que pour le moment il soit celui qui sait comment les matématiques
doivent être traitées. Ce qu’il fait est excellent, mais très brouillé...
Cauchy hat übrigens eine riesige Arbeit im Bereich von Reihen gemacht: Das
Cauchysche Verdichtungskriterium (vgl. Aufgabe 24), Das Quotienten- und das
Wurzelkriterium (Sätze 7.9 und 7.10), das Cauchysche Produkt (Satz 7.11) sind
Beispiele dazu. Er konnte aber noch nicht völlig korrekt das Verstausch von Limiten und (unendlichen) Summen handeln.
1Bemerkung mit Bezug auf den Aufsatz: Zur Weierstraß-Cantorschen The orie der Irrationalzahlen.
Math. Annalen 33 (1889), S. 476.
Ein Rückblick auf die Infinitesimalrechnung
129
Eine Folge reeller Zahlen ist ein Beispiel von Funktion, nämlich eine Abbildung N → R. Der Begriff von Funktion wird erst Ende 18. Jahrhundert im heutigen Sinne verstanden (bis dahin war die Vorstellung etwa, es wäre ein Quotient
zwischen Unbekannten). 1837 schrieb Dirichlet ganz präzise (bei der damaligen
Standard):
Entspricht nun jedem x ein einziges, endliches y, ... so heisst y eine
”
... Function von x für dieses Intervall. ... Diese Definition schreibt
den einzelnen Theilen der Curve kein gemeinsames Gesetz vor;
man kann sich dieselbe aus den verschiedenartigsten Theilen zusammengesetzt oder ganz gesetzlos gezeichnet denken”.
Heute sagen wir, dass eine Funktion f : A → B eine Korrespondenz ist, die aus
zwei Mengen A und B besteht, nämlich den Definitionsbereich A und den Wertebereich B, und aus einer Vorschrift, die jedes Element x ∈ A einem einzigen Element
y ∈ B zuordnet. Diese Korrespondenz bezeichnen wir mit
y = f (x) oder x 7→ f (x).
Wir sagen, dass y das Bild von x unter f ist, oder dass x das Vorbild von y ist.
Die Stetigkeit einer Funktion in einem Punkt war ein weiteres Aspekt der neuen
Fragestellung. Die Lösung wurde mittels Grenzwertübergangsprozesse vermittelt.
Für Cauchy lautet
... f (x) sera fonction continue, si ... les valeurs numériques de la
”
différence
f (x + α ) − f (x)
décroit indéfiniment avec celle de α ...”
Bei Weierstraß konnte man 1874 schon lesen:
Wir nennen dabei eine Grösse y eine stetige Funktion von x, wenn
”
man nach Annahme einer Grösse ε die Existenz von δ beweisen
kann, sodass zu jedem Wert zwischen x0 − δ . . . x0 + δ der zugehörige Wert von y zwischen y0 − ε . . . y0 + ε liegt.”
In der heutigen Interpretation ist das auch gleichbedeutend mit der Existenz der
seitigen Limiten, wie wir auch gezeigt haben:
Eine Funktion f : A → R ist in einem Punkt a ∈ A ⊂ R stetig, wenn
die links- und rechtsseitigen Limiten limx↑a f (x) und limx↓a f (x)
existieren und übereinstimmen.
130
Abschnitt 15
Das ist im Wesentlichen wieder Weierstraß dankt. Wie Pringsheim2 1899 erkannte Der Begriff des Grenzwertes einer Funktion ist wohl zuerst von Weier”
strass mit genügender Schärfe definiert worden”.
Bernhard Bolzano3 (1781–1848), Priester und Mathematiker aus Prag, fuhrte
den Geist für die ε − δ -Definition der Stetigkeit ein:
Nach einer richtigen Erklärung ... versteht man unter der Redens”
art, dass eine Funktion f x für alle Werthe von x, die inner- oder
ausserhalb gewisser Grenzen liegen, nach dem Gesetze der Stetigkeit sind ändre nur so viel, dass, wenn x irgend ein solcher Werth
ist, der Unterschied f (x + ω ) − f x kleiner als jede gegebene Grösse
gemacht werde könne, wenn man ω so klein, als man nur immer
will, annehmen kann ... [wenn man so klein genug nimmt]”.
Wir lernen heute:
Zu jedem ε > 0 vorgegeben existiert ein δ > 0 so dass
wenn |x − a| < δ ist, so ist | f (x) − f (a)| < ε .
Die Stetigkeit ist damit eine lokale Eigenschaft, so wie die Differenzierbarkeit:
Sie ist wieder durch einen Grenzwertübergang formalisiert:
Eine Funktion f : A → R ist differenzierbar in einem Punkt a ∈ A ⊂
f (x)− f (a)
R, falls der Limes limx→a x−a existiert (und endlich ist).
Alternativ wird manchmal der Limes limh→0
f (x+h)− f (h)
h
betrachtet.
Die ersten Eigenschaften von der Stetigkeit und der Differenzierbarkeit laufen
auf den entsprechenden Eigenschaften von Grenzwerten 5.4 hinaus: Dass die Summe, Produkt, usw. zweier stetigen bzw. differenzierbaren Funktionen wieder eine
stetige bzw. differenzierbare Funktion ist (vgl. 8.3, 11.3).
Dabei ist natürlich besonders wichtig das Miteinander zwischen Stetigkeit und
Differenzierbarkeit: Dass die Differenzierbarkeit die Stetigkeit impliziert, aber
nicht umgekehrt, wie uns die Betrachtung der Absolut-Betrag Funktion im Nullpunkt lehrt (vgl. 11.2).
Der Stetigkeit und der Differenzierbarkeit sind viele Ergebnisse mit Eigennamen zugeordnet—Sätze mit Eigennamen sind immer wichtig. Der Zwischenwertsatz 9.1 ist davon der erste Satz, den wir gesehen haben, dessen Inhalt lautet:
2Enzyklopädie der Math. Wiss., Band II.1, S. 13.
3Bolzano ist weniger bekannt, aber hat tiefsinnig die analytischen Fragestellungen seiner Zeit verstanden. Von ihm sagt Dieudonné: Parmi les mathématiciens du début du dix-neuvième siècle, ce fut
”
probablement Bolzano qui posa les questions les plus profondes à propos des fondements de l’analyse”.
Ein Rückblick auf die Infinitesimalrechnung
131
Jede reelle stetige Funktion f : [a, b] → R nimmt alle Werte zuwischen f (a) und f (b) an.
Bolzano realisierte diese Tatsache zuerst, die eine offensichliche Konsequenz
hat:
Ist f (a) ≤ 0 und f (b) ≥ 0 (oder umgekehrt), so besitzt die Funktion
eine Nullstelle im Intervall [a, b].
Traditionell wird diese Folgerung die Darbouxche Eigenschaft (vgl. 9.2) genannt, nach dem Franzosen Gaston Darboux (1842–1917).
Der Zwischenwertsatz hat noch zwei wichtige Korollare: Erstens, dass das Bild
eines Intervalles durch eine stetige Funktion wieder ein Intervall ist (vgl. 9.3);
zweitens, der Extremwertsatz 9.4, der von Weierstraß in seiner Vorlesung 1861
bewiesen wurde (und von Cantor 1870 veröffenlicht wurde): Jede stetige Funktion
f : [a, b] → R nimmt ihr Maximum und ihr Minimum an (dabei spielt eine wesentliche Rolle, dass das Intervall [a, b] abgeschloßen und beschränkt ist!) Hier lassen
wir David Hilbert (1862–1943) reden:
In seinem Satze, dem zufolge eine stetige Funktion einer reel”
len Veränderlichen ihre obere und untere Grenze stets wirklich erreicht, d.h. ein Maximum und Minimum notwendig besitzt, schuf
W EIERSTRASS ein Hilfsmittel, dass heute kein Mathematiker bei
feineren analytischen oder arithmetischen Untersuchungen entbehren kann”.
Der Satz von Rolle 12.2 und die Mittelwertsätze der Differentialrechnung von
Lagrange und Cauchy 12.3 und 12.4 sind noch wichtige Ergebnisse der Differentialrechnung. Sie besagen im Wesentlichen: Es möge längs eines Bogens der stetigen
Kurve y = f (x) eine Tangente vorhanden sein. Dann ist in einem gewissen inneren
Punkte dieses Bogens die Tangente parallel zur Sehne, die den Bogen spannt.
Die Mittelwertsätze besitzen eine zentrale Bedeutung für die Analysis, die wohl
zuerst Cauchy erkannt hat: So Felix Klein (1849–1925):
This was supplied by the mean value theorem; and it was Cauchy’s
”
great service to have recognized its fundamental importance... because of this, we adjudge Cauchy as the founder of exact infinitesimal calculus”.
Als Folgerung der Differentialrechnung haben wir die Integralrechnung vorgestellt. Das ist historisch nicht genau richtig, aber es scheint didaktischer zu sein.
1823 beschrieb Cauchy das Integral einer stetigen Funktion als der Grenzwert einer
Summe. Für allgemeinere Funktionen fragte sich 1854 Riemann:
132
Abschnitt 15
R
Also zuerst: Was hat man unter ab f (x)dx zu verstehen?”
”
Für Bernhard Riemann (1826–1866), wohl der genialste deutsche Mathematiker laut Ostrowski, war die Antwort auf diese Frage eine Anmerkung in seinem Habilitationsschrift. Später verallgemeinerten die Franzosen Emil Heinrich Du BoisReymond (1818–1896) und Darboux die Definitionen von Cauchy und Riemann.
Die Integralrechnung ist aber ziemlich älter. Der Fundamentalsatz der Infinitesimalrechnung 14.1 und seine Folgerungen, wie z. B. die Regel von Barrow 14.4
(nach Isaac Barrow (1630–1677), der akademische Lehrer Newtons), durch die
der Zusammenhang zwischen den Prozessen der Differentiation und der Integration hergestellt wird, wurden von Newton und Leibniz unabhängig aufgestellt. Wer
das zuerst entdeckt hat, war jahrelang ein großes Thema:
Newton besass zwar diese Sätze lange vor Leibniz, hat sie aber erst
nach Leibniz veröffentlicht. Über die Priorität dieser Entdeckung
spielte sich ein sehr unerquicklicher Streit ab, der in den Jahren
1699–1722 sehr viel Staub in der gebildeten Welt Europas aufgewirbelt hat. Heute kann man vielleicht als das eine erfreuliche Resultat dieses Streites wenigstens die Auffassung nennen, dass es ein
Verstoss gegen die Interessen der Wissenschaft ist, wissenschaftliche Entdeckungen, oder Methoden, die zu solchen Entdeckungen
führen, geheim zu halten oder nur innerhalb eines kleinen Kreises
bekannt zu geben4.
Hoffentlich haben Sie sich die wichtigste Konzepte und Ergebnisse der Infinitesimalrechnung nach diesem historischen Intermezzo im Skript in Erinnerung
gerufen. Vielleicht haben Sie den Eindruck bekommen, dass die Mathematik lebendig ist, und nicht einfach ein düsterer Himmel, eine trockene Häufung von Resultaten. Zur Mathematik gehört viel Geduld, aber als menschliche Schöpfung ist
viele Leidenschaft dabei.
4Vgl. [Os], S. 180.
ABSCHNITT 16
Lineare Gleichungssysteme
Bei der Bestimmung von Stammfunktionen rationaler Funktionen haben wir
uns ad hoc” mit dem Problem, wie löst man lineare Gleichungssysteme, getroffen.
”
Dies möchten wir jetzt systematisch betrachten.
Wir fangen klein an: Seien a, b ∈ R. Was ist die Menge aller x ∈ R so dass die
lineare Gleichung
ax = b
erfüllt wird? Diese Sondersituation ist bereits lehrreicht:
(a) Ist a 6= 0, so besitzt die Gleichung genau eine Lösung, nämlich x = ba .
(b) Ist a = 0 und b 6= 0, so besitzt die Gleichung gar keine Lösung: Es existiert
kein x ∈ R mit 0 · x = b 6= 0.
(c) Ist a = 0 und b = 0, so hat die Gleichung unendlich viele Lösungen: Jedes
x ∈ R ist eine Lösung, denn es gilt:
a · x = 0 · x = 0 = b für alle x ∈ R.
Lassen wir uns einen Schritt weiter gehen, und betrachten zwei lineare Gleichungen mit zwei Unbestimmten x und y:
a1 x + b1 y = c 1
a2 x + b2 y = c 2
mit ai , bi , ci ∈ R für i = 1, 2. Es ist nun die Frage: Wie findet man –falls möglich –
eine Lösung der ersten und der zweiten Gleichung? D.h., wir suchen nach Paaren
(x, y) ∈ R × R, welche das Gleichungssystem erfüllen.
Zunächst können wir die Unbestimmte y eliminieren”, indem wir die erste
”
Ungleichung mit b2 , die zweite mit b1 multiplizieren, und danach von der ersten
Gleichung die zweite substrahieren:
b2 a1 x + b2 b1 y = b2 c 1
−[b1 a2 x + b1 b2 y = b1 c2 ]
(a1 b2 − a2 b1 )x = b2 c1 − b1 c2 .
Wir können analog vorgehen, um x zu eliminieren:
−[a2 a1 x + a2 b1 y = a2 c1 ]
a1 a2 x + a1 b2 y = a1 c 2
(a1 b2 − a2 b1 )x = a1 c2 − a2 c1 .
134
Abschnitt 16
Erfüllen die Konstanten a1 , a2, b1 , b2 ∈ R die Ungleichung
a1 b2 − a2 b1 6= 0,
dann ist die Lösung des linearen Gleichungssystems
b2 c 1 − b1 c 2
a1 c 2 − a2 c 1
, y=
.
x=
a1 b2 − a2 b1
a1 b2 − a2 b1
Durch Einsetzen in das ursprüngliche lineare Gleichungssystem sieht man sofort,
dass diese x und y das System erfüllen:
a1 (b2 c1 − b1 c2 ) + b1 (a1 c2 − a2 c1 )
= c1
a1 b2 − a2 b1
a2 (b2 c1 − b1 c2 ) + b2 (a1 c2 − a2 c1 )
a2 x + b2 y =
= c2
a1 b2 − a2 b1
Ist a1 b2 − a2 b1 = 0, so hat das lineare Gleichungssystem entweder keine Lösung
oder unendlich viele, je nachdem wie sich die Konstanten c1 und c2 im Bezug auf
ai , bi verhalten. Speziell gilt: Ist c1 = c2 = 0, so hat das lineare Gleichungssystem
mindestens die Lösung x = y = 0. Sie ist die einzige, wenn a1 b2 − a2 b1 6= 0.
Lineare Gleichungssysteme haben eine einfache geometrische Bedeutung, die
wir für zwei Unbestimmte anhand von drei Beispielen erklären.
a1 x + b1 y =
Beispiele.
(a) Betrachte das lineare Gleichungssystem
x + y = 1
x − y = 1
Da a1 b2 − a2 b1 = −2 6= 0, besitzt das Gleichungssystem genau eine
Lösung, nämlich (x, y) = (1, 0). Dieser entspricht der Schnittpunkt der
Geraden mit Gleichungen x + y = 1 und x − y = 1 in R2 .
(b) Sei nun
x + y = 1
3x + 3y = 4
Wäre (x̃, ỹ) eine Lösung, so gelte 3x̃ + 3ỹ = 3 und 3x̃ + 3ỹ = 4, also 3 = 4,
was ein Widerspruch ist. Die Geraden mit den Gleichungen x + y = 1 und
3x + 3y = 4 sind parallel, daher schneiden sie sich nicht. Die Lösungsmenge des linearen Gleichungssystems ist dann 0.
/
(c) Betrachte das lineare Gleichungssystem
x + 2y = 1
3x + 6y = 3
Die beiden Gleichungen entsprechen derselben Gerade, daher ist diese die
Lösungsmenge des Gleichungssystems: Die Lösungsmenge besteht also
Lineare Gleichungssysteme
135
aus den Punkten
für x ∈ R beliebig.
1
1
x, − x +
2
2
Im Allgemeinen hat ein lineares Gleichungssystem die folgende Gestalt:
a11x1 + · · · + a1n xn = b1
..
..
..
.
.
.
am1x1 + · · · + amnxn = bm
(∗)
wobei m, n beliebige natürliche Zahlen sind:
- m ist die Anzahl der Gleichungen
- n ist die Anzahl der Unbekannten x1 , x2 , . . . , xn
- die m · n reellen Zahlen ai j heißen die Koeffizienten des Gleichungssystems
- die m reellen Zahlen bi heißen die konstante Terme des Gleichungssystems
Falls bi = 0 für alle i = 1, . . . , m heißt das lineare Gleichungssystem homogen.
Anderenfalls, d.h., falls ein i ∈ {1, . . . , m} existiert mit bi 6= 0, so heißt das lineare
Gleichungssystem inhomogen.
Ein n-Tupel ξ 0 = (ξ10 , . . . , ξn0 ) reeller Zahlen heißt Lösung des linearen Gleichungssystems, wenn die i-ten Komponenten ξi0 von ξ 0 das lineare Gleichungssystem erfüllen.
Ein lineares Gleichungssystem heißt dann
(a) lösbar, wenn es mindestens eine Lösung hat;
(b) nicht lösbar oder unlösbar, wenn es keine Lösung hat;
(c) eindeutig lösbar, wenn es genau eine Lösung hat.
Die Koeffizienten eines linearen Gleichungssystems werden oft in einer Tabelle
angeordnet. Wir schreiben


a11 · · · a1n
.. 
A = (ai j )1≤i≤m = (ai j ) =  ...
.
1≤ j≤n
am1 · · · amn
Diese Tabelle heißt eine m × n-Matrix. Dann ist A die zum vorgegebenen linearen Gleichungssystem (∗) gehörige Matrix. Fügt man die konstanten Terme des
Gleichungssystems zu A hinzu, so erhält man eine m × (n + 1)-Matrix


a11 · · · a1n b1
..
..  .
(A, b) =  ...
.
.
am1 · · · amn bm
Diese neue Matrix heißt die erweiterte Matrix des obigen linearen Gleichungssystems (∗).
136
Abschnitt 16
Betrachten wir nun ein weiteres lineares Gleichungssystem
a′11 x1 + · · · + a′1n xn = b′1
..
..
..
.
.
.
a′k1 x1 + · · · + a′kn xn = b′k
mit k Ungleichungen und n Unbekannten, und mit erweiterter Matrix

 ′
a11 · · · a′1n b′1
..  .
..
(A′ , b′ ) =  ...
.
.
′
′
ak1 · · · akn b′k
Definition. Die zwei lineare Gleichungssysteme mit zugehörigen erweiterten Matrizen (A, b) und (A′ , b′ ) heißen äquivalent, wenn sie dieselbe Lösungsmenge besitzen. Wir schreiben dann (A, b) ∼
= (A′ , b′ ).
Die Anwendung von folgenden Transformationen, elementare Umformungen
genannt, lassen lineare Gleichungssysteme äquivalent:
(a) Umformungen von Typ I:
Ti j : Vertausche die i-te und die j-te Gleichung.
(b) Umformungen von Typ II:
Ti j (c) : Ersetze die i-te Gleichung durch die Gleichung
(ai1 + ca j1 )x1 + (ai2 + ca j2 )x2 + . . . + (ain + ca jn )xn = bi + cb j
mit j ∈ {1, . . . , m}, j 6= i, c ∈ R.
(c) Umformungen von Typ III:
Ti (c) : Ersetze die i-te Gleichung durch die Gleichung
cai1 x1 + cai2 x2 + . . . + cain xn = cbi
mit c ∈ R \ {0}.
(d) Umformungen von Typ IV:
Ti : Weglassen der i-ten Gleichung, falls diese Null ist, d. h.
falls bi = 0 und ai j = 0 für alle j.
Beispiel. Man wendet elementare Umformungen auf das erste Gleichungssystem
an, um dieses zu vereinfachen:
2x1 + x2 + x3 = 1
x1 + 2x2 + 2x3 = 2
x1 + 2x2 + 2x3 = 2
T21 (−2)
T12
x1 + 2x2 + 2x3 = 2 −→
2x1 + x2 + x3 = 1
− 3x2 − 3x3 = −3
−→
x1 + x2 + x3 = 0
x1 + x2 + x3 = 0
x1 + x2 + x3 = 0
T31 (−1)
−→
x1 + 2x2 + 2x3 = 2
− 3x2 − 3x3 = −3
− x2 − x3 = −2
T32 − 31
−→
x1 + 2x2 + 2x3 = 2
− 3x2 − 3x3 = −3
0x3 = −1
Lineare Gleichungssysteme
137
Das letzte lineare Gleichungssystem ist nicht lösbar: Die Gleichung
0 · x3 = −1
kann für kein x3 ∈ R erfüllt werden. Damit ist das ursprüngliche lineare Gleichungssystem auch nicht lösbar, wie das folgende Ergebnis sicherstellt:
Satz 16.1. Zwei lineare Gleichungssysteme sind äquivalent, wen das eine aus dem
anderen durch eine endliche Folge von elementaren Umformungen hervorgegangen ist.
Beweis. Es ist klar, dass elementare Umformungen von Typen I, III und IV die
Lösungsmenge nicht ändern. Zu untersuchen ist noch, dass dies auch für elementare Umformungen vom Typ II der Fall ist. Sei dazu (A′ , b′ ) aus (A, b) durch solche
elementare Umformung Ti j (c) entstanden. Ist ξ 0 eine Lösung von (A, b) so gilt
speziell
ai1 ξ10 + · · · + ain ξn0 = bi
a j1 ξ10 + · · · + a jn ξn0 = b j
und damit auch
(ai1 + ca j1 )ξ10 + · · · + (ain + ca jn )ξn0
= bi + cb j
ai1 ξ10 + · · · + ain ξn0 + c(a j1 ξ10 + · · · + a jn ξn0 ) = bi + cb j
d.h., ξ 0 = (ξ10 , . . . , ξn0 ) ist auch eine Lösung von (A′, b′ ). Umgekehrt sei angenommen, dass (A, b) aus (A′ , b′ ) durch die elementare Umformung Ti j (−c) entstanden.
Dann gilt auch: Ist ξ 0 eine Lösung von (A′, b′ ), so ist ξ 0 auch eine Lösung von
(A, b).
Definition. Lineare Gleichungssysteme mit erweiterter Matrix der Form (A′ , b′ )
mit n Unbekannten und k Gleichungen so dass eine Zahl r mit 0 ≤ r ≤ k, und
Indizes 1 ≤ j1 < j2 < . . . jr ≤ n gibt mit der Eigenschaft
n
i = 1, . . . r, j < ji
′
ai j = 0 für
i > r,
j = 1, . . . n
und
a′1 j1 , . . . , a′r jr 6= 0
heißen lineare Gleichungssysteme in Zeilenstufenform.
Damit kann man zeigen:
138
Abschnitt 16
Satz 16.2. Jedes lineares Gleichungssystem ist zu einem linearen Gleichungssystem mit erweiterter Matrix (A′ , b′ ) gleich
















0
0
0
..
.
..
.
0
0
..
.
· · · 0 a′1 j1 a′1 j1 +1
··· 0 0
0
··· 0 0
0
..
..
..
.
.
.
..
..
..
.
.
.
··· 0 0
0
···
··· ∗ ∗
∗
··· ∗ ∗
′
′
· · · 0 a2 j2 a2 j2 +1 · · · ∗ ∗
··· 0 0
0
· · · 0 a′3 j3
..
..
..
..
..
.
.
.
.
.
..
..
..
..
..
.
.
.
.
.
··· 0 0
0
0 0
···
0 ···
···
···
···
···
···
∗
∗
∗
..
.
∗ · · · a′1n b′1
∗ · · · a′2n b′2
∗ · · · a′3n b′3
..
..
.
.
· · · ∗ ∗ · · · ∗ b′r−1
0 a′r jr ∗ · · · a′rn b′r
· · · 0 b′r+1
..
.
···
äquivalent. (Für i = 1, . . . , r hnagt die i-te Gleichung nur von Unbekannten x j mit
j > ji ab.)
Beweis. Sei (A, b) ein lineares Gleichungssystem. Durch Anwendung von elementaren Umformungen von Typen I und II wird (A, b) auf Zeilenstufenform gebracht
werden.
Schritt 1: Sind ai j = 0 für alle i, j, so liegt die gesünechte Zeilenstufenform vor.
Angenommen, ai j 6= 0 für mindestens ein Indexpaar (i, j). Sei j1 ∈ {1, . . . , n} der
kleinste Index so dass die j1 -Spalte von A nicht nur aus Nullen besteht. Anwendung
elementarer Umformungen von Typ I liefert a1 j1 6= 0. Für i = 2, . . . , m wenden wir
die elementare Umformung
a ij
Ti1 − 1
a1 j1
an. So erhalten wir ein lineares Gleichungssystem dessen j1 -te Spalte die Form

ai j1
 0 
 . 
 .. 

0
hat, indem x j1 also nur in der ersten Gleichung vorkommt. (Die Unbekannten
x1 , . . . , x j1 −1 kommen im linearen Gleichungssystem nicht vor, falls j1 > 1 ist.)
0
b′k
















Lineare Gleichungssysteme
Wir haben also erreicht

0 · · · 0 a′1 j1
 0 ··· 0 0

 0 ··· 0 0

 .
..
 .. · · · ...
.

 0 ··· 0 0

 0 ··· 0 0

 ..
.
..
 . · · · ..
.
0 ··· 0 0
139
a′1 j1 +1
a′2 j1 +1
a′3 j1 +1
..
.
a′1 j1 +2
a′2 j1 +2
a′3 j1 +2
..
.
a′r j1 +1
a′r+1 j1 +1
..
.
a′r j1 +2
···
′
ar+1 j1 +2 · · ·
..
.
···
′
···
ak j1 +2
a′k j1 +1
· · · a′1n
· · · a′2n
· · · a′3n
.
· · · ..
b′1
b′2
b′3
..
.
a′rn
a′r+!n
..
.
b′r
b′r+1
..
.
a′kn
b′k
Die Matrix entspricht also dem linearen Gleichungssystem
a′1 j1 x j1 + a′1 j1 +1 x j1 +1 + · · · + a′1n xn
a′2 j1 +1 x j1 +1 + · · · + a′2n xn
a′3 j1 +1 x j1 +1 + · · · + a′3n xn
..
.
. · · · ..
a′k j1 +1 x j1 +1 + · · · + a′kn xn














= b′1
= b′2
= b′3
..
.
= b′k
Schritt 2: Wie im Schritt 1 behandeln wir nun das lineare Gleichungssystem
a′2 j1 +1 x j1 +1 + · · · + a′2n xn = b′2
a′3 j1 +1 x j1 +1 + · · · + a′3n xn = b′3
..
.
..
.
. · · · ..
′
′
ak j1 +1 x j1 +1 + · · · + akn xn = b′k
und wiederholen das obige Argument. Nach spätestens m Schritten erreichen wir
die gewünschte Zeilenstufenform.
Beispiel. Wir suchen die Lösungsmenge des linearen Gleichungssystems
−x1 + 2x2 + x3 = −2
3x1 − 8x2 − 2x3 =
4
x1
+ 4x3 = −2
die zugehörige erweiterte Matrix ist


−1
2
1 −2
4 .
(A1 , b1 ) =  3 −8 −2
1
0
4 −2
140
Abschnitt 16
Auf A1 wenden wir das Gaußsche Eliminationsverfahren an:




−1
2
1 −2
−1
2
1 −2
T31 (1)
 3 −8 −2
4  −→  3 −8 −2
4
1
0
4 −2
0
2
5 −4
T21 (3)
−→


−1
2 1 −2
 0 −2 1 −2 
0
2 5 −4
T32 (1)
−→


−1
2 1 −2
 0 −2 1 −2  .
0
0 6 −6
Sofort sieht man: Das System ist eindeutig lösbar mit 6x3 = −6, also x3 = −1,
−2x2 = −2 − x3 = −1, also x2 = 21 und x1 = 2 − 2x2 − x3 = 2 − 1 + 1 = 2.
Beispiel. Betrachten wir das lineare Gleichungssystem
x1 + x2 + x3 + x4 = 1
2x1 + x2 − 2x3 + 2x4 = 2
4x1 − 3x2 + 2x3
= 30
die zugehörige erweiterte Matrix ist


1
1
1 1 1
1 −2 2 2  .
(A2 , b2 ) =  2
4 −3
2 0 30
Anwendung des Gaußschen Eliminationsverfahrens liefert seine Zeilenstufenform:




1
1
1 1 1
1
1
1
1 1
T31 (−4)
2
1 −2 2 2 
1 −2
2 2
−→  2
4 −3
2 0 30
0 −7 −2 −4 26
T21 (−2)
−→


1
1
1
1 1
 0 −1 −4
0 0
0 −7 −2 −4 26
T32 (−7)
−→








1
1
1
1
1
0 −1 −4
0
0
0
0 26 −4
26




.



Das heißt, wir haben folgendes lineares Gleichungssystem in Zeilenstufenform
erreicht:
x1 + x2 + x3 + x4 = 1
− x2 − 4x3
= 0
26x3 − 4x4 = 26
Definition. Betrachten wir ein lineares Gleichungssystem mit m Gleichungen
und n Unbekannten x1 , . . . xn in Zeilenstufenform gegeben. Die Unbekannten
/ { j1 , . . . jr } heix j1 , . . . , x jr heißen Hauptvariable, und die Unbekannten xi mit i ∈
ßen freie Variable oder auch Parameter des linearen Gleichungssystems.
Lineare Gleichungssysteme
141
Beispiel. Im obigen Besipiel mit erweiterter Matrix (A1 , b1 ) sind x1 , x2 und x3
Hauptvariable. Im Beispiel mit erweiterter Matrix (A2 , b2 ) sind x1 , x2 und x3 Hauptvariable, x4 aber frei.
Satz 16.3. Betrachten ein lineares Gleichungssystem mit erweiterter Matrix (A′ , b′ )
in Zeilenstufenform gegeben.
(a) Das System ist genau dann lösbar, wenn b′r+1 = . . . = b′k = 0 gilt.
(b) Sei (A, b) die erweitete Matrix eines lösbaren linearen Gleichungssystem.
Dann gilt:
/ { j1 , . . . , jr } von Werten für die
(i) Zu jeder beliebigen Wahl α j , j ∈
freien Variable der Zeilenstufenform von (A, b) gibt es genau eine
Lösung ξ 0 = (ξ10 , . . . , ξn0) des Gleichungssystems mit ξ j0 = α j für
j∈
/ { j1 , . . . , jr }. Außerdem: Durch die r-te Gleichung des Systems
liegt dann die Hauptvariable x jr fest:
1 x jr = ξ j0r := ′ b′r − a′r jr +1 ξ j0r +1 − . . . − a′rn ξn0 .
ar jr
Aus der (r − 1)-ten Gleichung ergibt sich die Hauptvariable x jr −1
usw.
(ii) Das System mit Matrix (A, b) ist genau dann eindeutig lösbar, wenn
r = n und b′r+1 = . . . = b′k = 0 in der Stufenform. (Insbesondere muss
dann m ≥ n gelten.)
Beweis. Gilt b′ν 6= 0 für ν ∈ {r + 1, . . . , k}, dann ist die zugehörige ν -te Gleichung
0x1 + . . . + 0xn = bν′ ,
die keine Lösung besitzt, und damit das ganze lineare Gleichungssystem nicht. Gilt
b′r+1 = . . . = b′k = 0, so sind alle angegebene (ξ10 , . . . ξn0 ) Lösungen des linearen
Gleichungssystems.
Eine Zeilenstufenform lässt sich weiter vereinfachen, indem man elementare
Umformungen vom Typ III
Ti (a−1
i ji )
für i = 1, . . . , r anwendet. Die i-te Gleichung, i ≤ r, hat dann die Gestalt
x ji + a′′i ji +1 x ji +1 + . . . + a′′in xn = b′′i .
Dann machen wir dies mit der ersten Gleichung
x j1 + a′′1 j1 +1 x j1 +1 + . . . + a′′1 j2 −1 x j2 −1 + a′′1 j2 +1 x j2 +1 + . . . = b′′1
(hier kommen natürlich x j1 und höchstens die n − r freien Variablen xi , i 6= j1 , . . . jr
vor.)
142
Abschnitt 16
Aus dieser ersten Gleichung kann man nun die Unbekannte x j2 eliminieren: Es
reicht, das a′′1 j2 -fache der 2. Gleichung von der ersten abzuziehen. Insgesamt kann
man die Variable x jν für ν = 2, . . . , k aus der 1. Gleichung eliminieren. Man setzt
dies fort.
Schließlich kann man die Unbekannte x jr aus den ersten r − 1 Gleichungen
eliminieren, und Gleichungen der Art
0=0
weglassen (dank elementaren Umformungen vom Typ IV).
Übrig bleiben genau r Gleichungen, wenn das lineare Gleichungssystem lösbar
ist, welche sofort eine Lösung liefern.
Somit erhalten wir eine sogenante reduzierte Zeilenstufenform des linearen
Gleichungssystems mit Matrix:








′
A =

r→ 





0
0
0
..
.
..
.
0
0
..
.
··· 0
··· 0
··· 0
..
.
..
.
··· 0
···
j1
↓
1
0
0
..
.
..
.
0
∗
0
0
..
.
..
.
0
··· ∗
··· 0
··· 0
..
.
..
.
··· 0
0 ···
j2
↓
0
1
0
..
.
..
.
0
∗ ··· ∗
∗ ··· ∗
0 ··· 0
..
..
.
.
..
..
.
.
0
0
···
···
j3
↓
0
0
1
..
.
..
.
0
. . . jr
↓
··· 0
··· 0
··· 0
.
· · · ..

∗ ··· ∗
∗ ··· ∗ 

∗ ··· ∗ 

..
.. 
.
. 

··· 0 ∗ ··· ∗ 

0 1 ∗ ··· ∗ 

··· 0 

.. 
. 
··· 0
(Dabei steht ∗ für ein beliebiges Element aus K.)
Ist das lineare Gleichungssystem nicht lösbar, so erhält man eine widersprüchliche (r + 1)-te Gleichung
0 = 1.
Beispiel. Wir betrachten das lineare Gleichungssystem des letzten Beispiels mit
Zeilenstufenform
x1 + x2 +
− x2 −
x3 + x4 = 1
4x3
= 0
26x3 − 4x4 = 26
Lineare Gleichungssysteme
143
Davon rechnen wir die reduzierte Zeilenstufenform:




1
1
1
1 1
1 1 1
1 1
T2 (−1)
 0 −1 −4
0 1 4
0 0  −→
0 0
0
0 26 −4 26
0 0 26 −4 26
1)
T3 ( 26
−→
T13 (3)
−→

1
1 1
1 1
0
1 4
0 0
2
0 −0 1 − 13 1


7
1
0 0
13
0
1 4
0
2
0 −0 1 − 13
19
13
T12 (−1)
T23 (−4)

−→

0
1

1
0 −3
1 1
0
1
4
0 0
2
0 −0
1 − 13 1

−→

19
7
1
0 0
13
13
8
8 
0
1 0
−
13
13
2
1
0 −0 1 − 13
Damit ist die Lösungsmenge für x4 = 13t, für t ∈ R genau
x3 =
2
1 + 13
x4 =
1 + 2t
8
8
8
− 13
x4 = − 13
− 8t
x2 = − 13
x1 =
19
3
7
− 13
x4 =
19
13
− 7t
(d.h., eine Gerade des R3 .)
Im nächsten Abschnitt betrachten wir axiomatisch die allgemeine Struktur,
welche die Lösungsmenge homogener linearer Gleichungssysteme besitzen: Die
Struktur von Vektorraum.
ABSCHNITT 17
Vektorräume
Betrachten wir die Gleichung x + y = 0. Sie liefert ein einfaches Beispiel vom
homogenen linearen Gleichungssystem. Seine Lösungsmenge ist übrigens
o
o n
o n n
1
1
0
x
t :t ∈R .
t :t ∈R =
+
∈ R2 : x ∈ R =
L :=
−1
−1
0
−x
Es fallen folgende Tatsachen auf: L besitzt die Lösung x = y = 0, die Summe zweier
Lösungen ist wieder eine Lösung, das Produkt von einer Lösung mit einem reellen
Zahl ist weiterhin eine Lösung. Das heizunächst einmal, dass die Lösungsmenge
eines homogenen linearen Gleichungssystems eine Struktur besitzt, d.h., sie ist
mehr als einfach eine Menge: Man wird hierzu vom Lösungsraum besprochen.
Diese Struktur (diese Räume) ist eine allgemeine Befund in der Mathematik: Die
Struktur vom Vektorraum.
Die Lineare Algebra, mit der wir uns in der Rest dieser Vorlesung hauptsächlich
beschäftigen werden, ist die Theorie der Vektorräume. Genau wie die Begriffe
Gruppe“ und Körper“ in Abschnitt 3 führen wir auch den Begriff Vektorraum“
”
”
”
axiomatisch1 ein.
Definition. Ein Vektorraum über einem Körper (K, +K , ·K ) ist eine Menge V versehen mit
einer Verknüpfung +V : V ×V → V , genannt Addition,
und einer Abbildung ·V : K ×V → V , genannt skalare Multiplikation,
die folgenden Bedingungen genügen:
(a) V ist bezüglich der Addition eine abelsche Gruppe, d.h. für alle u, v, w ∈ V
gilt
(V1) u +V (v +V w) = (u +V v) +V w,
(V2) Es existiert 0V ∈ V mit v +V 0V = 0V +V v = v,
(V3) Zu jedem v ∈ V gibt es ein −v ∈ V mit v +V (−v) = 0V ,
(V4) u +V v = v +V u.
(b) für alle a, b ∈ K und v, w ∈ V ist
1Wie Guiseppe Peano 1888 machte, allerdings erst ohne große Resonanz: Diese neue Sprache war
noch nicht nötig, um die laufenden Forschungsprobleme zu betrachten. Es war erst im 20. Jahrhundert, als
die Funktionalanalysis, zusammen mit der Tendenz der modernen Algebra, alle Begriffe axiomatisch zu
strukturieren, dem Konzept von Vektorraum seinen Platz gegeben hat, den er noch heute besitzt.
146
Abschnitt 17
(V5)
(V6)
(V7)
(V8)
a ·V (b ·V v) = (a ·K b) ·V v,
1 ·V v = v,
a ·V (v +V w) = a ·V v +V a ·V w,
(a +K b) ·V v = a ·V v +V b ·V v.
Die Unterscheidung zwischen +V und +K bzw. ·V und ·K , so wie zwischen 0V
und 0K immer wieder zu machen ist eine enorme Belastung für die Bezeichnung.
In keinem Lehrbuch ist das so zu finden. Es ist also unvermeidlich, dass wir das
Symbol + sowohl für die Addition in K, als auch für die in V benutzen, ebenso
wie die Produktschreibweise innerhalb von K und für die skalare Multiplikation
verwandt wird. Letzten Endes wäre es auch nicht sehr hilfreich, wenn wir etwa
0 ∈ K und 0 ∈ V typografisch unterscheiden würden. Deswegen werden wir dies
auch nicht tun, und wird dem Leser überlassen, zu unterscheiden, wann die einen
oder die anderen gebraucht wird.
Einfach zu begründen sind folgende Rechenregeln für Vektorräume: Für a ∈ K,
v ∈ V ist
(a) 0v = 0
(b) (−a)v = a(−v) = −av
(c) av = 0 ⇐⇒ a = 0 oder v = 0.
Beispiele. (a) Obwohl es uns nichts Neues bringt, ist bereits das Beispiel V = K
nützlich: K ist in offensichtlicher Weise ein Vektorraum über sich selbst.
(b) Das fundamentale Beispiel eines Vektorraums ist V = K n . Dazu definieren
wir für




a1
b1
v =  ...  , w =  ...  ∈ K n und α ∈ K :
an
bn




α a1
a1 + b1
..
 , α v =  ...  .
v+w = 
.
α an
an + bn
Die Vektoren des K n werden wir als Spaltenvektoren schreiben. Dass K n mit diesen
Operationen ein Vektorraum ist, kann man direkt nachrechnen. So ist etwa 0 =




 
a1
−a1
0
..  das Inverse von  .. 
 ...  das neutrale Element bezüglich +, und 
.
.
an
−an
0
bezüglich +.
(c) R ist ein Q-Vektorraum, wie aus den Körperaxiome von R folgt. Ebenso
ist C sowohl ein R-Vektorraum als auch ein Q-Vektorraum. (Allgemein gilt: Es
ist L ein Körper, der K als Teilkörper” enthält, so ist L ist in natürlicher Weise
”
ein Vektorraum über K: Man beschränkt die Multiplikation L × L → L einfach
Vektorräume
147
auf K × L → L. Sogar noch allgemeiner gilt dies für jeden L-Vektorraum V : Die
Einschränkung der skalaren Multiplikation auf Elemente von K macht ihn zum
K-Vektorraum.)
(d) Wir betrachten ein merkwürdiges“ Beispiel:
”
V = R>0 = {x ∈ R : x > 0}
mit der Addition x ⊕ y = xy und der Skalarmultiplikation α ∗ x = xα , α ∈ R, ist ein
R-Vektorraum.
(e) In der Geometrie und vor allem in Physik und Technik sind Vektoren Größen, die eine Richtung“ und einen Betrag“ haben, z.B. Geschwindigkeit, oder
”
”
Kraft, während Skalare“ Größen sind, denen keine Richtung zukommt, z.B. Ener”
gie.
Wir wollen kurz erläutern, wie elementargeometrische Überlegungen zum Begriff des Vektorraums führen. In der Ebene E der anschaulichen Geometrie zeichnen wir einen Punkt O aus, den Ursprung“. Zu jedem Punkt P ∈ E gehört dann
”
−→
eine gerichtete Strecke OP
−→ −→
P
OP + OQ
−→
OP
O
−→
OQ
Q
Die Addition von solchen gerichteten Strecken erfolgt mittels der Parallelogramm−→
−→
Regel, während für r ∈ R, r ≥ 0, die Strecke rOP die gleiche Richtung wie OP,
aber die r-fache Länge hat (bei r < 0 erfolgt Richtungsumkehr).
−→
2OP
P
O
−→
−2OP
→
1−
2 OP
−→
−OP
Nachdem man Koordinaten eingeführt hat (mit O als Ursprung des Koordinatensystems), ist der soeben konstruierte Vektorraum der Ortsvektoren“ gerade der
”
148
Abschnitt 17
R2 . Analog erhält man den R3 als Vektorraum der Ortsvektoren des Anschauungsraums.
Wir betonen aber ausdrücklich, dass für uns die Elemente eines Vektorraums
nicht etwa Wesen sind, die sich dadurch auszeichnen, dass sie eine Richtung und
einen Betrag haben. Bei den vorangegangenen Beispielen (c) und (d) und dem folgenden Beispiel (f) ist diese Betrachtungsweise weder naheliegend noch nützlich.
(f) Sei V ein K-Vektorraum und M eine Menge. Sei Abb(M,V ) die Menge aller
Abbildungen von M nach V . Für f , g ∈ Abb(M,V ) und α ∈ K definieren wir
f + g ∈ Abb(M,V )
α f ∈ Abb(M,V )
durch
( f + g)(x) = f (x) + g(x),
durch
(α f )(x) = α f (x),
x ∈ M. Man überprüft sofort, dass Abb(M,V ) mit diesen Operationen ein KVektorraum ist. Die Axiome lassen sich punktweise“ überprüfen; daher überträgt
”
sich ihre Gültigkeit von V auf Abb(M,V ).
(g) Insbesondere ist die Menge K[X] aller Polynomfunktionen mit Koeffizienten in einem Körper K, versehen mit der üblichen Addition von Polynomfunktionen und mit der skalaren Multiplikation K × K[X] → K[X], (α , p(X)) 7→
(α p)(X) := α · p(X), ein Vektorraum über K.
Teilmengen eines Vektorraumes, die wiederum die Struktur vom Vektorraum
besitzen, sind so gekennzeichnet:
Definition. V sei ein K-Vektorraum. Eine Teilmenge U von V heißt Untervektorraum, wenn gilt:
(U1) U 6= 0.
/
(U2) Für alle u, v ∈ U ist auch u + v ∈ U.
(U3) Für alle u ∈ U, α ∈ K ist α u ∈ U.
Bemerkung 17.1. Ein Untervektorraum U von V ist selber ein K-Vektorraum.
Beweis. Nach (U1) existiert ein u ∈ U so dass wegen 0u = 0 gilt 0 ∈ U nach (b),
und ebenso ist −u = (−1)u ∈ U. Alle anderen Forderungen sind ohnehin für beliebige Elemente von V erfüllt.
In unserer elementargeometrischen Interpretation sind Beispiele von Untervektorräumen gegeben durch die Geraden des R2 , die den Ursprung enthalten, und
durch ebensolche Geraden und Ebenen des R3 .
Beispiele von Untervektorräumen sind auch allgemein sehr leicht zu geben:
(a) In jedem Vektorraum V sind zunächst {0} und V Untervektorräume.
Vektorräume
149
(b) Seien U1 , U2 ⊂ V Untervektorräume. Dann ist U1 ∩U2 ein Untervektorraum
(aber U1 ∪U2 i.a. nicht!):
v, w ∈ U1 ∩U2
=⇒
=⇒
=⇒
v, w ∈ U1 und v, w ∈ U2
α v, v + w ∈ U1 und α v, v + w ∈ U2
α v, v + w ∈ U1 ∩U2 .
(c) Genauso sieht man: Der Durchschnitt endlich vieler Untervektorräume
U1 , . . . ,Un oder sogar beliebig vieler Untervektorräume ist ein Untervektorraum.
o
n x
∈ R2 : x + y = 0 ist ein Untervektorraum von R2 ,
(d) Die Menge U =
y
wie es in der einleitenden Motivation dieses Abschnittes begründet wurde.
(e) Manchmal trug der Schein: Es gibt Untervektorräume, die durch nicht lineare Gleichungen gegeben werden: Die Menge
o
n x
∈ R2 : x2 + y4 = 0
U′ =
y
ist ein Untervektorraum des R2 . Es ist natürlich deshalb so, weil U ′ =
n o
0
ist.
0
o
n x
2
2
2
∈ R : x + y ≤ 1 ist kein Untervektorraum von
(f) Die Menge W =
y
1
1/2
1/2
2
∈
/W
=
ist in W enthalten, aber 2 ·
R : Der Punkt
1
1/2
1/2
(der Axiom (U3) ist damit verletzt).
Definition. Sei V ein K-Vektorraum, und seien v1 , . . . , vn ∈ V . Ein Element w ∈ V
ist Linearkombination von v1 , . . . , vn , wenn α1 , . . . , αn ∈ K existieren mit
w = α1 v1 + · · · + αn vn .
Seien w = α1 v1 + · · · + αn vn und z = β1 v1 + · · · + βn vn Linearkombinationen
von v1 , . . . , vn . Dann sind auch
w + z = (α1 + β1 )v1 + · · · + (αn + βn )vn ,
λ w = (λ α1 )v1 + · · · + (λ αn )vn , für λ inK
Linearkombinationen von v1 , . . . , vn. Sei
L(v1 , . . . , vn ) = w ∈ V : w ist Linearkombination von v1 , . . . , vn .
Wir haben gesehen, dass L(v1 , . . . , vn ) ein Untervektorraum von V ist. Er heißt
lineare Hülle von v1 , . . . , vn .
150
Abschnitt 17
Beispiel. Sei etwa V = K n . Dann verwenden wir die Standardbezeichnung
 
0
 .. 
 . 
 
ei =  1 
 . 
 .. 
0
mit dem Eintrag 1 and der i-ten Stelle und lauter Nullen sonst. Damit gilt

K n = L(e1 , . . . , en ),

α1
denn für v =  ...  ∈ K n ist
αn
v = α1 e1 + · · · + αn en .
Beispiel. Die wichtigste Anwendung der linearen Algebra ist die Theorie der linearen Gleichungssysteme. Sei z.B. für K = R folgendes Gleichungssystem gegeben:
− x1 + 3x2 + 4x3 = 2
5x1 + x2 − 3x3 = 0
x1 + x2 + x3 = −1.
Um den Zusammenhang zu den Linearkombinationen herzustellen, schreiben wir
Elemente des R3 im Folgenden als Spaltenvektoren. Wir setzen

 
 



−1
3
4
2
v1 =  5  , v2 =  1  , v3 =  3  , b =  0  .
1
1
1
−1
Eine Lösung des obigen Gleichungssystems zu finden, ist dann gleichbedeutend
damit, x1 , x2 , x3 ∈ R zu finden, für die
x1 v1 + x2 v2 + x3 v3 = b
ist. Genau dann ist das Gleichungssystem lösbar, wenn b ∈ L(v1 , v2 , v3 ).
Sei nun V ein K-Vektorraum und S eine beliebige Teilmenge von V . Dann setzen wir
L(S) = w ∈ V : es existieren v1 , . . . , vn ∈ S mit w ∈ L(v1 , . . . , vn)
und nennen L(S) die lineare Hülle von S.
Vektorräume
151
Anmerkung.
(a) Ist S endlich, etwa S = {v1 , . . . , vn }, dann ist
L({v1 , . . . , vn }) = L(v1 , . . . , vn ).
(b) L(S) ist stets ein Untervektorraum:
w ∈ L(v1 , . . . , vn )
w + z ∈ L(v1 , . . . , vn, u1 , . . . , um ),
=⇒
z ∈ L(u1 , . . . , um )
α w ∈ L(v1 , . . . , vn ), α ∈ K.
(c) Es ist zweckmäßig, L(0)
/ = {0} zu setzen.
Definition. Wenn U = L(S) ist, sagen wir auch, U sei der von S erzeugte Untervektorraum, oder U sei der von S aufgespannte Untervektorraum, oder S sei ein
Erzeugendensystem von U.
Ist S also ein Erzeugendensystem von einem K-Vektorraum V , dann gibt es zu
jedem v ∈ V ein m ∈ N>0 so wie Elemente v1 , . . . , vm ∈ S und α1 , . . . , αm ∈ K mit
v = α1 v1 + . . . + αm vm .
Ist V = L(S) mit S einer endlichen Menge, so heißt V endlich erzeugt. In dieser
Vorlesung werden wir nur solche systematisch betrachten. Das ist aber nicht immer
ausreichend, wie das folgende Beispiel zeigt:
Beispiel. Sie V = K[X]. Jede Polynomfunktion f = a0 + a1 X + · · · + an X n ist eine Linearkombination der Potenzen 1 = X 0 , X, X 2 , X 3 , . . . der Unbestimmten X.
Also ist die Menge S dieser Potenzen ein Erzeugendensystem von K[X] als KVektorraum. Aber keine echte und schon gar keine endliche Teilmenge von S erzeugt K[X]: für kein m ist X m Linearkombination der anderen Potenzen.
Der Durschnitt U1 ∩ U2 zweier Untervektorräume U1 und U2 eines Vektorraumes V ist die größte Menge, die sowohl in U1 als auch in U2 enthalten ist, und
damit natürlich auch der größte gemeinsame Untervektorraum von U1 und U2.
Welches ist der kleinste Untervektorraum, der sowohl U1 als auch U2 enthält?
Die erste Antwort, die uns einfällt, ist nicht richtig:
Anmerkung. Die Vereinigung U1 ∪ U2 zweier Untervektorräume U1 , U2 eines
Vektorraumes V ist kein Untervektorraum: Seien dazu
o
o
n n x
x
2
2
∈R :x=0 .
∈ R : y = 0 und U2 :=
U1 :=
y
y
0
1
0
1
1
Es ist
,
∈ U1 ∪U2 , aber
+
=
∈
/ U1 ∪U2 , so dass der
1
0
1
0
1
Axiom (U2) verletzt wird.
Wenn W ⊃ U1 ∪ U2 ein Untervektorraum sein soll, dann muss u1 + u2 ∈ W für
alle u1 ∈ U1 , u2 ∈ U2 . gelten. Insofern können wir setzen
U1 +U2 = {u1 + u2 : u1 ∈ U1 , u2 ∈ U2 }.
152
Abschnitt 17
Nun ist leicht zu zeigen, dass U1 + U2 ein Untervektorraum ist: Für u1 , u′1 ∈ U1,
u2 , u′2 ∈ U2 und α ∈ K ist
(u1 + u2 ) + (u′1 + u′2 ) = (u1 + u′1 ) + (u2 + u′2 ) ∈ U1 +U2
α (u1 + u2 ) = α u1 + α u2 ∈ U1 +U2.
Wir haben soeben gezeigt: Jeder U1 und U2 umfassende Untervektorraum enthält
U1 +U2 . Dann ist U1 +U2 der kleinste Untervektorraum, der U1 und U2 enthält.
Wie man den Durchschnitt beliebig vieler Untervektorräume bilden kann, so
kann man auch die Summe beliebig vieler Untervektorräume bilden. Für eine Familie (Ui )i∈I von Untervektorräumen setzen wir
∑ Ui = {ui1 + · · · + uin : ui j ∈ Ui j , n ∈ N}.
i∈I
Da die Addition in einem Vektorraum V assoziativ und kommutativ ist, kommt es
nicht darauf an, die Ui irgendwie zu ordnen.
Mit dieser Schreibweise können wir die lineare Hülle einer Teilmenge S ⊂ V
auch so angeben:
L(S) = ∑ L(v).
v∈S
Zerlegt ein Vektorraum V in Summe zweier Untervektorräume, etwa
V = U1 +U2 ,
lassen sich Vektoren v ∈ V schreiben als Summe v = u1 + u2 mit u1 ∈ U1 , u2 ∈ U2.
Leider ist diese Summe nicht eindeutig.
Zum Schluß wollen wir zeigen, unter welche Bedingungen ist diese Schreibweise eindeutig.
Satz 17.2. Seien U1 ,U2 Untervektorräume eines K-Vektorraumes V , und sei U =
U1 +U2 . Dann sind folgende Aussagen äquivalent:
(i) Ist u1 + u2 = 0 für u1 ∈ U1 , u2 ∈ U2 , dann ist u1 = u2 = 0.
(ii) Für jedes u ∈ U ist die Darstellung u = u1 + u2 eindeutig.
(iii) U1 ∩U2 = {0}.
Beweis.
(i) ⇒ (ii) Sei u ∈ U mit u = u1 + u2 = u′1 + u′2 für u1 , u′1 ∈ U1 , u2 , u′2 ∈ U2. Es ist zu
zeigen: u1 = u′1 und u2 = u′2 . Das ist aber einfach, denn aus
u = u1 + u2 = u′1 + u′2
folgt, dass (u1 − u′1 ) + (u2 − u′2 ) = 0 sein muss, wobei u1 − u′1 ∈ U1 und
u2 − u′2 ∈ U2 sind. Nach (i) ist dann
u1 − u′1 = 0 und u2 − u′2 = 0,
also u1 = u′1 und u2 = u′2 .
Vektorräume
153
(ii) ⇒ (iii) Sei u ∈ U1 ∩U2. Es ist
u = 0 + u = u + 0,
und wegen (ii) muss u = 0 gelten.
(iii) ⇒ (i) Seien u1 ∈ U1 und u2 ∈ U2 mit u1 + u2 = 0. Dann ist
und damit
u1 = −u2 ∈ U2 und u2 = −u1 ∈ U1 ,
also u1 = u2 = 0.
u1 , u2 ∈ U1 ∩U2 = {0},
Definition. Seien U1 ,U2 Untervektorräume eines K-Vektorraumes. Dann heißt die
Summe U1 +U2 die direkte Summe von U1 und U2, falls eine der Bedingungen (und
damit alle) aus Satz 17.2 erfüllt sind. Wir schreiben dann
Ein einfaches Beispiel dazu:
U1 ⊕U2 .
Beispiel. Sei V = K 2 . Es ist V = L(e1 ) ⊕ L(e2 ), denn es gilt einerseits
V = L(e1 ) + L(e2 )
d.h., jeder Vektor aus V lässt sich als Summe von einem Vielfachen von e1 plus
einem Vielfachen von e2 darstellen, und andererseits
n
o n
o
λ
0
,λ ∈ R ∩ v ∈ V : v =
L(e1 ) ∩ L(e2 ) = v ∈ V : v =
, λ ∈ R = {0}.
0
λ
Im nächsten Abschnitt möchten wir uns klar machen, ob und wie Vektorräume
nach ihren Größen” unterschieden werden können. Es ist zunächst einmal offen”
sichtlich, dass die Anzahl von Elementen in der grundlegenden Menge kein Kriterium dafür sein kann, weil dies nicht die zusätliche Struktur, die durch die Addition
und die skalare Multiplikation einbezogen ist, berücksichtigt.
ABSCHNITT 18
Basen und Dimension
Sei K ein Körper und V = K n . Wir wissen bereits, dass e1 , . . . , en den Vektor

α1
raum V erzeugen: Zu jedem v =  ...  ∈ V existieren β1 , . . . , βn ∈ K mit
αn
v = β1 e1 + · · · + βn en ,
nämlich β1 = α1 , . . . , βn = αn . Außerdem sind β1 , . . . , βn eindeutig bestimmt: Wir


β1
müssen βi = αi wählen, weil β1 e1 + · · · + βn en =  ... .
βn
2
Sei andererseits V = K , w1 = e1 , w2 = e2 , w3 = e1 + e2 . Auch dann existieren
α1 zu jedem v =
∈ K 2 Elemente β1 , β2 , β3 ∈ K mit v = β1 w1 + β2 w2 + β3 w3 .
α2
Wir können z.B. β1 = α1 , β2 = α2 , β3 = 0 wählen, aber genauso β1 = α1 + 1, β2 =
α2 + 1, β3 = −1. In diesem Fall sind die Koeffizienten β1 , β2 , β3 in der Darstellung
von v nicht eindeutig bestimmt. Um zwischen Systemen wie e1 , . . . , en ∈ K n und
w1 , w2 , w3 ∈ K 2 unterscheiden zu können, trifft man folgende
Definition. V sei ein K-Vektorraum. Die Vektoren v1 , . . . , vn ∈ V heißen linear
abhängig, wenn es α1 , . . . , αn ∈ K gibt, so daß αi 6= 0 für mindestens ein i, aber
α1 v1 + · · · + αn vn = 0
ist. Sonst heißen v1 , . . . , vn linear unabhängig. Mit anderen Worten: v1 , . . . , vn sind
linear unabhängig, wenn
gilt.
α1 v1 + · · · + αn vn = 0 =⇒ α1 = · · · = αn = 0
Wir betonen ausdrücklich, dass wir nicht von der linearen Unabhängigkeit der
Menge {v1 , . . . , vn } sprechen. Zwar kommt es für die lineare Unabhängigkeit von
v1 , . . . , vn nicht auf die Reihenfolge an, aber man sollte nicht von vornherein ausschliessen, dass unter den vi ein Element doppelt vorkommt; ferner spielt beim
später definierten Begriff Basis“ die Reihenfolge sehr wohl eine Rolle. Um die
”
spädere Betrachtung zu vereinfachen fı̈hren wir doch den Begriff von linear unabhängiger Teilmenge eines K-Vektorraumes V :
156
Abschnitt 18
Definition. Eine Teilmenge S eines K-Vektorraumes V heißt linear unabhänging,
wenn jede endliche Teilmenge von S aus linear unabhängingen Vektoren besteht.
Beispiele.
(a) Die leere Menge 0/ ist linear unabhängig.
(b) Der Nullvektor ist linear abhängig, da 1 · 0 = 0 gilt.
(c) Jede Menge, die den Nullvektor enthält, ist linear abhängig.
1
−2
des R2 sind linear abhängig, denn
, v2 =
(d) Die Vektoren v1 =
−1
2
v1 + 2v2 = 0.
1
1
sind linear unabhängig in R2 ,
und w2 =
(e) Die Vektoren w1 =
0
1
denn aus der Gleichung
0
1
1
,
+ λ2
=
λ1
0
1
0
d.h., aus dem linearen Gleichungssystem mit Gleichungen λ1 + λ2 = 0 und
λ1 + 0λ2 = 0 folgt λ1 = λ2 = 0 als einzige Lösung.
(f) Sei V ein K-Vektorraum. Sei v ∈ V , v 6= 0. Dann ist v linear unabhängig,
denn es gilt: Aus v = 0 folgt λ = 0.
(g) Die Vektoren e1 , . . . , en des K n sind linear unabhängig.
Das vierte Beispiel besagt: Man kann v1 = −3v2 schreiben, d.h., man kann v1
als Linearkombination der übrigen Vektoren (in diesem Beispiel ist v2 der einzige
übrige Vektor) darstellen. Das charakterisiert die lineare Abhängigkeit:
Satz 18.1. Die Vektoren v1 , . . . , vn sind genau dann linear abhängig, wenn es mindestens ein j mit j ∈ {1, . . . , n} gibt, so dass v j als Linearkombination der übrigen
Vektoren
v1 , . . . , v j−1 , v j+1 , . . . , vn
dargestellt werden kann.
Beweis. ⇐=“ Seien v1 , . . . , vn linear abhängig. Dann gibt es λ1 , . . . , λn ∈ K mit
”
λ1 v1 + . . . + λn vn = 0 und λ j 6= 0 für mindestens ein j ∈ {1, . . . , n}. Daraus folgt
vj = −
λ j−1
λ1
j+1
n
v1 − . . . −
v j−1 −
v j+1 − . . . − vn .
λj
λj
λj
λj
=⇒ “ OBdA wird j = 1 angenommen. Dann folgt v1 = λ2 v2 + . . . + λn vn , und
”
daher gilt
λ1 v1 − λ2 v2 − . . . − λn vn = 0 mit λ1 = 1 6= 0.
Definition. Sei V ein K-Vektorraum. Eine Familie B von Vektoren aus V heißt
Basis von V , falls
Basen und Dimension
157
(B1) Die Vektoren aus B bilden ein Erzeugendensystem von V .
(B2) Die Vektoren aus B sind linear unabhängig.
Anmerkung. Absichtlich haben wir das Wort Menge” vermieden, und statt”
dessen das Wort Familie” verwendet: Wir möchten z. B. die Familie (v1 , v2 )
”
aus (v2 , v1 ) unterscheiden. Als Mengen wären diese dasselbe Objekt: {v1 , v2 } =
{v2 , v1 }. Deswegen verwenden wir runde Klammer (. . .) in der Bezeichnung.
Beispiele.
(a) 0/ ist eine Basis von {0}.
(b) Die Vektoren e1 , . . . , en bilden eine Basis des K n . Sie heißt die Standardbasis oder die kanonische
von K n
.
Basis
1
1
bilden eine Basis des R2 . Wir
und b2 =
(c) Die Vektoren b1 =
0
1
haben oben gesehen, dass diese linear unabhängig sind. Sie bilden ferner
v1
2
ein Erzeugendensystem von R : Sei dazu v =
∈ R2 . Es ist zu zeigen:
v2
v lässt sich schreiben als Linearkombination von b1 und b2 . D.h., es muss
gelten:
λ1 λ2 λ1 + λ2 v1
1
1
+
.
=
v=
= λ1
+ λ2
=
λ1
λ1
0
v2
1
0
Es muss also v1 = λ1 + λ2 und v2 = λ1 gelten. Kann mann also dann λ1
und λ2 für jedes vorgegebenes Paar v1 , v2 finden? Das ist genau dann der
Fall, wenn das lineare Gleichungssystem
v1 = λ1 + λ2
v2 = λ1
mit Unbekannten λ1 und λ2 lösbar ist. Das ist doch der Fall mit λ1 = v2
v1
und λ2 = v1 − v2 . Man kann also jeden Vektor v =
∈ R2 als Linearv2
kombination von (1, 1) und (1, 0) darstellen, nämlich
v1
1
1
v=
= v2
+ (v1 − v2 )
v2
0
1
und damit bilden die Vektoren b1 und b2 ein Erzeugendensystem des R2 .
Anmerkung. Sprachliche Verwendungen sind heutzutage im Alltag nicht mehr
so gepflegt; für die Mathematik sind sie aber sehr wichtig: Wir haben von einer
Basis eines Vektorraumes gesprochen, nicht von der Basis. Damit ist geäußert,
dass Basen von Vektorräumen nicht eindeutig bestimmt sind.
158
Abschnitt 18
Satz 18.2 (Eindeutigkeit der Basisdarstellung). Sei V ein endlich erzeugter KVektorraum. Sei (v1 , . . . , vn ) eine Basis von V . Jeder Vektor v ∈ V lässt sich eindeutig als Linearkombination
v = λ1 v1 + . . . + λn vn mit λi ∈ K
schreiben.
Beweis. Da (v1 , . . . , vn ) eine Basis ist, existieren λ1 , . . . , λn ∈ K so dass
v = λ1 v1 + . . . + λn vn .
Sei v = µ1 v1 + . . . + µn vn , µi ∈ K eine weitere Darstellung von v als Linearkombination von v1 , . . . , vn . Damnn ist
0 = v − v = (λ1 − µ1 )v1 + . . . + (λn − µn )vn .
Da v1 , . . . , vn linear unabhängig sind, folgt λi − µi = 0 für alle i, also λi = µi für
alle i = 1, . . . , n.
Definition. Sei V ein K-Vektorraum. Sei B ⊂ V eine Teilmenge.
(a) Man sagt, dass B ein minimales Erzeugendensystem ist, wenn die Vektoren aus B ein Erzeugendensystem von V bilden, aber nicht die Vektoren
die in echten Teilmengen von B enthalten sind.
(b) Man sagt, dass B eine maximale linear unabhängige Familie ist, falls die
Vektoren aus B linear unabhängig sind, aber nicht mehr die Vektoren die
in echten Obermengen von B enthalten sind.
Eine Basis eines K-Vektorraumes kann man folgendermaßen charakterisieren:
Satz 18.3. V sei ein K-Vektorraum, v1 , . . . , vn ∈ V . Dann sind folgende Aussagen
äquivalent:
(a) v1 , . . . , vn ist eine Basis von V .
(b) v1 , . . . , vn ist ein minimales Erzeugendensystem von V .
(c) v1 , . . . , vn ist maximal linear unabhängig in V .
Beweis. Eine Basis besitzt die in (b) und (c) behaupteten Eigenschaften: Sie ist ein
Erzeugendensystem nach Definition und minimal, weil eine Gleichung
vi = λ1 v1 + · · · + λi−1 vi−1 + λi+1 vi+1 + · · · + λn vn
gegen die lineare Unabhängigkeit verstoßen würde. Sie ist linear unabhängig nach
Definition und maximal, weil es zu jedem w ∈ V eine Darstellung
w = λ1 v1 + · · · + λn vn
gibt: v1 , . . . , vn , w sind linear abhängig. Ein minimales Erzeugendensystem ist linear unabhängig nach Satz 18.1 und damit eine Basis.
Basen und Dimension
159
Sei nun v1 , . . . , vn maximal linear unabhängig. Für jedes w ∈ V hat man daher
eine nichttriviale Darstellung
0 = λ1 v1 + · · · + λn vn + β w.
Wäre β = 0, so wäre v1 , . . . , vn linear abhängig. Also muss β 6= 0 sein, und wir
erhalten
λ1
λn
w= −
v1 + · · · + −
vn ∈ L(v1 , . . . , vn ).
β
β
Somit ist v1 , . . . , vn ein Erzeugendensystem von V und damit eine Basis.
Wenn man neue Objekte in der Mathematik einführt, sollte man sich Gedake
darüber machen, dass sie tatsächlich existieren. Unser Ziel nun ist zu begründen,
dass jeder Vektorraum immer mindestens eine Basis besitzt. Eine Vorüberlegung
zuerst:
Satz 18.4. Dei V ein K-Vektorraum. Seien M, S Teilmengen aus V mit M ⊂ S ⊂ V
so dass M linear unabhängig ist und S ein Erzeugendensystem von V ist. Dann
existiert eine Basis B von V mit M ⊂ B ⊂ S.
Beweis. Nach Satz 18.3 reicht es uns, unter alle Familien von Vektoren T , die
in V enthalten sind mit M ⊂ T ⊂ S, nach einer maximal linear unabhängigen zu
suchen. Ist S endlich, so gibt es sicherlich eine Basis B von V mit M ⊂ B ⊂ V . Ist
S unendlich, brauchen wir das Lemma von Zorn. Auf eine ausführliche Erklärung
werden wir in dieser Vorlesung verzichten.
Wählen wir M = 0/ und S = V in Satz, so erhalten wir:
Satz 18.5. Jeder Vektorraum besitzt eine Basis.
Aus besonderen Teilmengen ist es leicht, eine Basis zu bilden:
Satz 18.6 (Basisergänzungssatz). Sei V ein K-Vektorraum. Seien M eine linear
unabhängige Teilmenge von V und E ein Erzeugendensystem von V . Dann lässt
sich M durch Elemente aus E zu einer Basis von V ergänzen.
Beweis. Man wendet Satz 18.4 auf M und S = M ∪ E an.
Beispiel. Wir wollen eine Basis für U = L(v1 , v2 , v3 ) ⊂ R3 mit
 
 


1
2
1
v1 =  0  , v2 =  1  , v3 =  −1 
1
0
3
finden, und diese zu einer Basis des R3 ergänzen. Man überprüft hierzu leicht,
dass v1 , v2 , v3 sind linear abhängig, aber v1 und v2 sind linear unabhängig, daher
bilden sie eine Basis von U. Um (v1 , v2 ) zu einer Basis des R3 ergänzen zu können,
suchen wir nach einem Vektor w ∈ R3 in bekannten Erzeugendensystemen des R3 ,
160
Abschnitt 18
zum Beispiel (!) e1 , e2 , e3 . Man prüft leicht nach, dass mit der Wahl w = e3 ist
(v1 , v2 , w = e3 ) eine Basis des R3 .
Im Folgenden werden wir uns auf endlich erzeugte Vektorräume einschränken.
Können wir die Wahl von w im obigen Beispiel systematisieren? Die Wahl w =
e3 war deshalb einfach, weil wir unter drei Vektoren suchen müssten. Was wenn
wir in R100 suchen hätten müssen? Wir versuchen diese Fragestelleung im endlich
erzeugten Fall zu klären.
Sei V ein endlich erzeugter K-Vektorraum. Nach Satz 18.5 hat er eine Basis
B = (v1 , . . . , vn ). Wie finden wir eine? Sei S ⊂ V ein Erzeugendensystem. Sei v ∈ S,
v 6= 0. Wir fügen solange Vektoren aus S zu B hinzu, bis die Aufnahme eines jeden
weiteren Vektors aus S zu linearer Abhängigkeit führt.
Es ist auch klar: Die Basis B hängt von der Wahl der Vektoren ab. Trotzdem
bleibt etwas für alle Bases eines selben Vektorraumes erhalten: Die Anzahl ihrer
Elemente. Dies möchten nun begründen.
Satz 18.7 (Austauschsatz von Steinitz). Sei V ein K-Vektorraum mit Basis (v1 , . . . , vn ).
Ist v ∈ V , v 6= 0, dann existiert ein j ∈ {1, . . . , n} so dass auch die Vektoren
(v1 , . . . , v j−1 , v, v j+1 , . . . , vn )
eine Basis von V bilden. Dabei kann man als j jeden Index wählen, für den λ j 6= 0
ist in der Basisdarstellung v = λ1 v1 + . . . + λn vn mit λ1 , . . . , λn ∈ K.
Beweis. Wir schreiben v als Linearkombination von v1 , . . . , vn, also
v = λ1 v1 + . . . + λn vn für λi ∈ K.
Da v 6= 0 ist, existiert ein Index j mit λ j 6= 0. OBdA dürfen wir j = 1 annehmen
(sonst vertauschen wir v1 und v j ). Zu zeigen ist, dass die Vektoren v, v2 , . . . , vn eine
Basis von V bilden. Zunächst zeigen wir, dass v1 , v2 , . . . , vn linear unabhängig sind.
Sei dafür eine nichttriviale Darstellung
µ1 v + µ2 v2 + . . . + µn vn = 0 mit µi ∈ K.
Setzen wir die obige Darstellung des Vektors v ein, so erhalten wir
µ1 (λ1 v1 + . . . + λn vn ) + µ2 v2 + . . . + µn vn = 0,
also
µ1 λ1 v1 + (µ1λ2 + µ2)v2 + . . . + (µ1λn + µn )vn = 0
Da v1 , . . . , vn linear unabhängig sind, ergibt sich erstens
µ1 λ1 = 0
und daraus µ1 = 0, da λ1 vorausgesetzt ist; und zweitens gilt auch
µ1 λi + µi = 0 für alle i = 2, . . . , n,
also µi = 0 für alle i = 2, . . . , n, wie gewünscht.
Basen und Dimension
161
Es ist nur noch zu zeigen, dass v, v1 , . . . , vn ein Erzeugendensystem von V bilden. Da
v = λ1 v1 + . . . + λn vn mit λ1 6= 0
gilt, folgt
1
(v − λ2 v2 − . . . − λn vn ).
λ1
Ist w ∈ V beliebig, so lässt sich w schreiben als Linearkombination von v1 , . . . , vn ,
v1 =
w = µ1 v1 + . . . + µnvn für µi ∈ K,
da die Vektoren v1 , . . . , vn eine Basis von V bilden. Setzten wir die Darstellung von
v1 herein, so sind wir fertig, denn wir erhalten
µ1
µ1 λ2
µ1 λn
v2 + . . . + µn −
vn ,
w = v + µ2 −
λ1
λ1
λ1
also eine Linearekombination von v, v2, . . . , vn .
Als Folgerung ergibt sich:
Satz 18.8. Besitzt V eine Basis, die aus n Vektoren besteht, dann sind je m Vektoren
aus V mit m > n linear abhängig. Insbesondere gilt: In einem endlich erzeugten
K-Vektorraum haben je zwei Basen dieselbe Anzahl von Elementen.
Beweis. Sei B = (v1 , . . . , vn ) eine Basis von V . Durch Widerspruch wollen wir
die erste Behauptung zeigen. Dafür nehmen wir an, wir hätten w1 , . . . , wm ∈ V mit
m > n linear unabhängig. Nach dem Austauschsatz 18.7 erhalten wir eine neue
Basis
(v1 , . . . , v j−1 , w1 , v j+1 , . . . , vn).
Dann kann man w2 schreiben als
w2 = λ1 v1 + . . . + λ j−1 v j−1 + µ1 w1 + λ j+1 v j+1 + . . . + λn vn
mit allen λi , µ j ∈ K. Dabei existiert ein Index k mit λk 6= 0 (sonst wäre w2 − µ1 w1 =
0, also Widerspruch zur Annahme, dass w1 und w2 linear unabhängig sind).
Nach dem Austauschsatz erhalten wir eine neue Basis, die aus w1 , w2 und der
übrigen n − 2 Vektoren aus der alten Basis besteht mit v = w2 und j = k (in der
Bezeichnung der Austauschsatz 18.7).
Rekursiv finden wir eine Basis B ′ = (w1 , . . . , wn ) von V in der alle n Vektoren
der Basis B ausgetauscht sind gegen Elemente von
(w1, . . . , wn , . . . , wm ).
Wegen m > n kann man wm als Linearkombination der Elemente von B ′ darstellen,
also Widerspruch! Die zweite Behauptung folgt unmittelbar aus der ersten.
162
Abschnitt 18
Definition. Sei V ein endlich erzeugter K-Vektorraum. Dann heißt die Anzahl der
Elemente einer Basis von V die Dimension von V . Wir schreiben dimK V . Wir
nennen V einen endlichdimensionalen Vektorraum. Oft wird es mit dimK V < ∞
bezeichnet.
Ist V nicht endlich erzeugt, dann schreiben wir dimK V = ∞ und sagen wir, dass
V unendlichdimensional ist.
Beispiele.
(a) dimK K n = n: klar, denn e1 , . . . , en ist eine Basis.
(b) dimK {0} = 0: klar, denn 0/ ist eine Basis.
(c) Der Erweiterungskörper C von R hat als R-Vektorraum die Dimension 2,
denn (1, i) ist eine Basis von C über R. Also dimR C = 2. Dagegen ist
dimC C = 1. Jeden C-Vektorraum V können wir auch als R-Vektorraum betrachten. Ist v1 , . . . , vn eine Basis von V über C, so ist v1 , iv1 , . . . , vn , ivn offensichtlich eine Basis von V über R . (Der Leser möge dies genau prüfen.)
Daher gilt dimR V = 2 dimC V .
(d) Als Q-Vektorraum besitzt R unendliche Dimension.
Folgerungen: Sei V ein n-dimensionaler K-Vektorraum:
(1) Weniger als n Vektoren können kein Erzeugendensystem bilden (nach
18.3).
(2) Mehr als n Vektoren sind linear abhängig (nach 18.8).
(3) Jedes Erzeugendensystem mit n Vektoren ist linear unabhängig und damit
eine Basis (nach (1) und 18.1).
(4) Jede linear unabhängige Familie mit n Vektoren ist auch ein Erzeugendensystem und damit eine Basis (nach 18.6 und 18.8).
Beispiel. Wir wissen: dimR R3 = 3. Somit: Haben wir im R3 drei linear unabhängige Vektoren gefunden, so wissen wir, dass diese eine Basis bilden. Der
Axiom (B1) müssen wir dann nichr mehr nachweisen. beispiel
Satz 18.9 (Dimension eines Vektorraumes). V sei ein endlichdimensionaler KVektorraum und U ein Untervektorraum von V . Dann ist auch U endlichdimensional. Es gilt dimU ≤ dimV . Genau dann ist dimU = dimV , wenn U = V .
Beweis. Sei
m = max{p : es existieren linear unabhängige u1 , . . . , u p ∈ U}.
Da p ≤ dimV , wenn u1 , . . . , u p ∈ U ⊂ V linear unabhängig, ist m eine wohldefinierte natürliche Zahl ≤ dimV . Seien nun w1 , . . . , wm ∈ U linear unabhängig. Dann
sind w1 , . . . , wm maximal linear unabhängig in U und somit nach Satz 18.3 eine
Basis von U. Es folgt m = dimU.
Basen und Dimension
163
Dass m ≤ dimV , haben wir bereits festgestellt, und dass U = V aus dimU =
dimV folgt, ist Teil von Satz 18.8: Im Falle m = dimV gilt (4) aus den obigen
Folgerungen.
Häufig wendet man Satz 18.9 in folgender Situation an: U1 , U2 sind Untervektorräume eines endlichdimensionalen K-Vektorraums V . Man weiß, dass U1 ⊂ U2
und dimU1 = dimU2. Dann folgt U1 = U2 , indem man Satz 18.9 zuerst mit U = U2
anwendet (U2 ist endlichdimensional) und dann mit V = U2, U = U1 .
Satz 18.9 bringt unsere geometrische Vorstellung zum Ausdruck, dass die Un”
terräume“ eines Raums“ nach ihrer Dimension gestuft sind: Punkte, Geraden,
”
Ebenen, . . . , der gesamte Raum.
Zum Abschluss dieses Abschnitts beweisen wir noch eine wichtige Dimensionsformel:
Satz 18.10 (Dimensionsformel). Seien U1 , U2 Untervektorräume eines endlichdimensionalen K-Vektorraums V . Dann ist
dim(U1 +U2) = dimU1 + dimU2 − dim(U1 ∩U2 ).
Beweis. Sei (u1 , . . . , u p ) eine Basis von U1 ∩U2 . Wir ergänzen sie gemäß Satz 18.6
zum einen durch v1 , . . . , vm zu einer Basis (u1 , . . . , u p , v1 , . . . , vm ) von U1 , zum anderen durch w1 , . . . , wn zu einer Basis (u1, . . . , u p , w1 , . . . , wn) von U2 .
Die Behauptung folgt, wenn wir gezeigt haben, dass
(u1 , . . . , u p , v1 , . . . , vm , w1 , . . . , wn )
eine Basis von U1 +U2 ist.
Sei W = L(u1 , . . . , u p , v1 , . . . , vm , w1 , . . . , wn ). Dann gilt U1 ⊂ W , U2 ⊂ W , mithin
U1 + U2 ⊂ W . Umgekehrt gilt ui , v j , wk ∈ U1 + U2 für alle i, j, k, und damit ist
W ⊂ U1 +U2 , so dass insgesamt W = U1 +U2 folgt. Diese Gleichung besagt gerade,
dass u1 , . . . , u p, v1 , . . . , vm , w1 , . . . , wn ein Erzeugendensystem von U1 +U2 ist.
Sei nun
λ1 u1 + · · · + λ p u p + µ1v1 + · · · + µm vm + γ1 w1 + · · · + γn wn = 0.
Dann gilt für z = µ1 v1 + · · · + µm vm ∈ U1 :
z = µ1 v1 + · · · + µm vm = −(λ1 u1 + · · · + λ p u p ) − (γ1 w1 + · · · + γn wn ),
also z ∈ U1 ∩ U2 . Somit existieren λ1′ , . . . , λ p′ mit z = λ1′ u1 + · · · + λ p′ u p , und wir
erhalten
0 = z − z = λ1′ u1 + · · · + λ p′ u p − µ1 v1 − · · · − µm vm .
Da u1 , . . . , u p , v1 , . . . , vm linear unabhängig sind, folgt λ1′ = · · · = λ p′ = µ1 = · · · =
µm = 0, speziell z = 0, und dann λ1 = · · · = λ p = γ1 = · · · = γn = 0, weil auch
u1 , . . . , u p , w1 , . . . , wn linear unabhängig sind.
ABSCHNITT 19
Lineare Abbildungen
Zu den wesentlichen Bausteinen vieler mathematischer Theorien gehören eine
Klasse von Objekten – im Fall der linearen Algebra sind dies die Vektorräume –
und eine Klasse von Abbildungen, die die den Objekten innewohnenden Strukturen
respektieren. In der Algebra werden solche Abbildungen in der Regel Homomorphismen genannt.
Definition. Sei K ein Körper, und seien V , W K-Vektorräume. Eine Abbildung ϕ :
V → W heißt K-linear (oder ein Homomorphismus von K-Vektorräumen, oder kurz
linear), wenn gilt:
(L1) ϕ (u + v) = ϕ (u) + ϕ (v)
(L2) ϕ (λ u) = λ ϕ (u)
für alle u, v ∈ V,
für alle u ∈ V, λ ∈ K.
D ie folgenden zwei Eigenschaften lassen sich leicht überprüfen:
(i) ϕ (0) = 0, denn: ϕ (0) = ϕ (0 · 0) = 0 · ϕ (0) = 0.
(ii) ϕ (−v) = −ϕ (v) für alle v ∈ V , denn: ϕ (−v) = ϕ (−1 · v) = −1 · ϕ (v) =
−ϕ (v).
Beispiele.
(a) Die Indentität idV ist K-linear.
(b) Die Nullabbildung ϕ : V → {0}, ϕ (v) = 0 für alle v ∈ V ist K-linear
(c) Durch Induktion zeigt man leicht, dass für eine lineare Abbildung ϕ : V →
W , Vektoren v1 , . . . , vn ∈ V und Koeffizienten λ1 , . . . , λn ∈ K gilt
ϕ (λ1 v1 + · · · + λn vn ) = λ1 ϕ (v1 ) + · · · + λn ϕ (vn ).
x
(d) Die Abbildung ϕ : R2 → R gegeben durch
7→ x + y ist R-linear, denn
y
es gilt:
′ x
x
x + x′
(L1) ϕ (
+
)
=
ϕ
(
) = x + x′ + y + y′ =
y′
y
y + y′
′ x
x
′
′
) + ϕ( ′ )
x + y + x + y = ϕ(
y
y
λx
x
x
(L2) ϕ (λ
) = λ x + λ y = λ (x + y) = λ ϕ (
) = ϕ(
) für
λy
y
y
λ ∈ R.
166
Abschnitt 19
x
7→ x + y + 2 ist nicht R(e) Die Abbildung ϕ : R2 → R gegeben durch
y
0
linear, denn ϕ (
) = 2 6= 0.
0
(f) Die Abbildung ϕ : C → C gegeben durch z 7→ z (mit z = a − bi der komplexen Konjugierten von z = a + bi) ist R-linear, da zu z = a + bi, z′ = a′ + b′i
gilt:
(L1) ϕ (z + z′ ) = (a + a′ ) − (b + b′)i = ϕ (z) + ϕ (z′ )
(L2) ϕ (λ z) = ϕ (λ a + λ bi) = λ x − λ bi = λ ϕ (z) für λ ∈ R.
(g) Die Abbildung ϕ : C → C gegeben durch z 7→ z ist nicht C-linear, denn es
gilt:
ϕ (i · i) = ϕ (i2 ) = ϕ (−1) = −1 6= 1 = −(−1) = −i2 = i · (−i) = i · ϕ (i).
Lineare Abbildungen sind nach der Auswahl einer Basis folgendermaßen bestimmt:
Satz 19.1. Seien V,W zwei K-Vektorräume. Sei (v1 , . . . , vn ) eine Basis von V . Dann
gibt es zu beliebig vorgegebenen Vektoren w1 , . . . , wn ∈ W genau eine K-lineare
Abbildung ϕ : V → W mit ϕ (vi ) = wi für i = 1, . . . , n.
Beweis. Da (v1 , . . . , vn ) eine Basis von V ist, gibt es zu jedem v ∈ V eindeutig
bestimmte λ1 , . . . , λn ∈ K so dass
v = λ1 v1 + . . . + λn vn .
Zu zeigen ist die Existenz und Eindeutigkeit der o.g. K-linearen Abbildung. Setzen
wir ϕ (v) = λ1 w1 + . . .+ λn wn , so erhalten wir eine K-lineare Abbildung ϕ : V → W
mit ϕ (vi ) = wi für i = 1, . . . , n. Die Eindeutigkeit ist nun fast geschenkt: Ist ϕ eine
solche K-lineare Abbildung, so folgt
ϕ (v) = ϕ (λ1 v1 + . . . + λn vn ) = λ1 ϕ (v1 ) + . . . + λn ϕ (vn ) = λ1 w1 + . . . + λn wn .
1
. Seien
0
1
und b2 =
Beispiel. Sei (b1 , b2 ) eine Basis des R2 mit b1 =
1
 
 
3
0
c1 =  5  und c2 =  0  zwei Vektoren aus R3 . Wegen Satz 19.1 ist die
0
2
2
3
Abbildung ϕ : R → R gegeben durch ϕ (b1 ) = c1 und ϕ (b2 ) = c2 R-linear und
eindeutig bestimmt. Darüber hinaus würden wir auch gerne eine Vorschrift für
x1
x1
ϕ(
), für beliebiges
∈ R2 , angeben können. Dafür beobachten wir
x2
x2
0
1
= b1 − b2 .
= b2 und e2 =
e1 =
1
0
Lineare Abbildungen
167
Dann gilt ϕ (e1 ) = ϕ (b2 ) = c2 und

   

3
0
3
ϕ (e2 ) = ϕ (b1 − b2) = ϕ (b1 ) − ϕ (b2 ) =  5  −  0  =  5  .
0
2
−2
Somit erhalten wir die gewünschte Vorschrift:
 

 

0
3
−3x2
x
.
5x2
ϕ ( 1 ) = x1 ϕ (e1 ) + x2ϕ (e2 ) = x1 ·  0  + x2 ·  5  = 
x2
2
−2
2x1 − 2x2
Lineare Abbildungen respektieren Untervektorräume:
Satz 19.2. Sei ϕ : V → W eine lineare Abbildung. Dann ist für jeden Untervektorraum U von V die Bildmenge ϕ (U) ein Untervektorraum von W . Umgekehrt ist für
jeden Untervektorraum N von W die Urbildmenge ϕ −1 (N) ein Untervektorraum
von V .
Beweis. Man rechnet dies direkt mittels der Definition des Begriffes Untervektor”
raum“ nach.
Von besonderem Interesse bei einer linearen Abbildung ϕ : V → W sind die
Untervektorräume
Kern ϕ = ϕ −1 (0) = {v ∈ V : ϕ (v) = 0}
von V und
Bild ϕ = ϕ (V ) = {w ∈ W : ∃v ∈ V mit ϕ (v) = w} von W.
Satz 19.3. Seien V,W zwei K-Vektorräume, sei ϕ : V → W eine K-lineare Abbildung. Dann sind Kern bzw. Bild tatsächlich Untervektorräume von V bzw. W .
Beweis. Der Kern von ϕ ist ein Untervektorraum von V , denn es gilt:
(i) 0 ∈ Kern(ϕ ), denn ϕ (0) = 0.
(ii) Seien u, v ∈ Kern(ϕ ). Dann ist 0 = 0 + 0 = ϕ (u) + ϕ (v) = ϕ (u + v), und
damit u + v ∈ Kern(ϕ ).
(iii) Seien λ ∈ K, v ∈ Kern(ϕ ). Dann ist
ϕ (λ v) = λ ϕ (v) = λ 0 = 0,
und so ist λ v ∈ Kern(ϕ ).
Analog ist Bild(ϕ ) ein Untervektorraum von W :
(i) 0 ∈ Bild(ϕ ), da für 0 ∈ W ist ϕ (0) = 0.
(ii) Seien u, v ∈ Bild(ϕ ). Dann existieren u′ , v′ ∈ V mit ϕ (u′ ) = u und ϕ (v′ ) = v.
Somit ist u + v = ϕ (u′ + v′ ) und so u + v ∈ Bild(ϕ ).
(iii) Seien λ ∈ K, v ∈ Bild(ϕ ). Dann existiert v′ ∈ V mit ϕ (v′ ) = v, und so
λ v = λ ϕ (v′ ) = ϕ (λ v′ ), also λ v ∈ Bild(ϕ ).
168
Abschnitt 19
Beispiele.
(i) Sei o : V → {0} die Nullabbildung. Dann ist Kern(o) = V und Bild(o) =
{0}.
x
2
7→ x + y. Es ist
(ii) Sei ϕ : R → R gegeben durch
y
o
n x
2
Kern(ϕ ) =
∈ R : x+y = 0 ,
y
also die Gerade des R2 mit der Gleichung x + y = 0, und
o
n
x
2
∈ R mit x + y = t = R.
Bild(ϕ ) = t ∈ R : ∃
y
Nach Definition ist ϕ genau dann surjektiv, wenn Bild ϕ = W gilt. Die Injektivität können wir mittels des Kerns testen. Das fassen wir nun zusammen:
Satz 19.4. Seien V,W zwei K-Vektorräume, sei ϕ : V → W eine K-lineare Abbildung. Dann gilt:
(i) ϕ ist injektiv genau dann, wenn Kern(ϕ ) = {0}.
(ii) ϕ ist surjektiv genau dann, wenn Bild(ϕ ) = W .
Beweis. Die zweite Aussage ist offensichtlich. Wir zeigen also nur die erste. Sei
ϕ injektiv. Zu zeigen ist zunächst, dass Kern(ϕ ) = {0} ist. Die Inklusion {0} ⊂
Kern(ϕ ) gilt immer, da der Kern ein Untervektorraum ist. Es ist also zu zeigen,
Kern(ϕ ) ⊂ {0}. Sei dazu v ∈ Kern(ϕ ). Dann ist ϕ (v) = 0 = ϕ (0), und wegen der
Injektivität von ϕ folgt, dass v = 0 sein muss.
Seien umgekehrt v, v′ ∈ V mit ϕ (v) = ϕ (v′ ). Zu zeigen ist v = v′ . Aus ϕ (v) =
ϕ (v′ ) und der Linearität von ϕ folgt 0 = ϕ (v) − ϕ (v′) = ϕ (v − v′ ). D.h., v − v′ ∈
Kern(ϕ ) = {0}, und damit v − v′ = 0, also v = v′ , wie gewünscht.
Die Dimensionen vom Kern und Bild addieren die Dimension des gesamten
Raums auf:
Satz 19.5. Sei V ein endlichdimensionaler K-Vektorraum und W ein beliebiger
K-Vektorraum, ϕ : V → W eine lineare Abbildung. Dann gilt
dim Kern ϕ + dim Bild ϕ = dimV.
Beweis. Wir wählen eine Basis (u1 , . . . , um ) von Kern ϕ , eine Basis (w1 , . . . , wr )
von Bild ϕ , sowie Elemente v1 , . . . , vr ∈ V mit ϕ (vi ) = wi . Es genügt zu zeigen, dass
(u1 , . . . , um , v1 , . . . , vr ) eine Basis von V ist. Sei v ∈ V . Dann existieren µ1 , . . . , µr ∈
K mit
ϕ (v) = µ1 w1 + · · · + µr wr .
Lineare Abbildungen
169
Es folgt
ϕ (v − (µ1 v1 + · · · + µr vr )) = ϕ (v) − ϕ (µ1v1 + · · · + µr vr )
= (µ1 w1 + · · · + µr wr ) − (µ1 w1 + · · · + µr wr )
= 0.
Also existieren λ1 , . . . , λm ∈ K mit
so dass
v − (µ1v1 + · · · + µr vr ) = λ1 u1 + · · · + λm um ,
v = λ1 u1 + · · · + λm um + µ1 v1 + · · · + µr vr .
Damit ist (u1 , . . . , um , v1 , . . . , vr ) ein Erzeugendensystem von V . Für die lineare Unabhängigkeit wenden wir ϕ auf eine Gleichung
an und erhalten
λ1 u1 + · · · + λm um + µ1 v1 + · · · + µr vr = 0
µ1ϕ (v1 ) + · · · + µr ϕ (vr ) = 0.
Da w1 , . . . , wr linear unabhängig sind, folgt µ1 = · · · = µr = 0 und sodann λ1 =
· · · = λm = 0 wegen der linearen Unabhängigkeit von u1 , . . . , um .
Man nennt dim Bild ϕ auch den Rang von ϕ und schreibt
rang ϕ = dim Bild ϕ .
Wir führen noch ein Paar Termini technici ein:
Definition. Eine K-lineare Abbildung heißt
(a) Monomorphismus, falls sie injektiv ist.
(b) Epimorphismus, falls sie surjektiv ist.
(c) Isomorphismus, falls sie bijektiv ist.
Lineare Selbstabbildungen ϕ : V → V nennt man Endomorphismen von V . Bijektive Endomorphismen nennt man Automorphismen.
Die Charakterisierung von Injektivität und Surjektivität nach Satz 19.4, zusammen mit der Dimensionsformel 19.5 ergibt:
Satz 19.6. Seien V,W zwei endlichdimensionale K-Vektorräume so dass dimK V =
dimK W . Dann sind für jede K-lineare Abbildung ϕ : V → W äquivalent:
(1) ϕ ist ein Monomorphismus,
(2) ϕ ist ein Epimorphismus,
(3) ϕ ist ein Isomorphismus.
Beweis. (1) =⇒ (2)“ Aus der Injektivität von ϕ folgt Kern(ϕ ) = {0} wegen
”
19.4. Aus der Dimensionsformel 19.5 und der Voraussetzung ergibt sich
dimK Bild(ϕ ) = dimK V = dimK W.
170
Abschnitt 19
Aus Satz 18.9 folgt nun Bild(ϕ ) = W , d.h., ϕ ist surjektiv.
(2) =⇒ (1)“ Aus der Surjektivität von ϕ und der Voraussetzung folgt
”
dimK Bild(ϕ ) = dimK W = dimK V.
Nach Satz 19.5 ist dann dimK Kern(ϕ ) = 0, und daher ist ϕ injektiv nach 19.4.
(3) =⇒ (1)“ ist klar nach dem Obigen und der Definition der Bijektivität. ”
Satz 19.7. Seien U, V , W K-Vektorräume, ϕ : U → V , ψ : V → W lineare Abbildungen.
(a) Dann ist auch ψ ◦ ϕ : U → W linear.
(b) Wenn ϕ und ψ Isomorphismen sind, sind auch ψ ◦ ϕ , ϕ −1 und ψ −1 Isomorphismen.
Beweis. (a) Man rechnet dies einfach aus: Für u, v ∈ U, α ∈ K ergibt sich
(ψ ◦ ϕ )(u + v) = ψ (ϕ (u + v)) = ψ (ϕ (u) + ϕ (v)) = ψ (ϕ (u)) + ψ (ϕ (v))
= (ψ ◦ ϕ )(u) + (ψ ◦ ϕ )(v),
ebenso
(ψ ◦ ϕ )(λ v) = ψ (ϕ (λ v)) = ψ (λ ϕ (v)) = λ ψ (ϕ (u)) = λ (ψ ◦ ϕ )(v).
(b) Die Bijektivität von ψ ◦ ϕ , ϕ −1 und ϕ −1 ist klar. Damit ist ψ ◦ ϕ nach (a)
ein Isomorphismus. Die Linearität von ϕ −1 sieht man so: Für v, v′ ∈ V ist
ϕ ϕ −1 (v + v′) = v + v′ = ϕ (ϕ −1 (v)) + ϕ (ϕ −1 (v′ ))
= ϕ ϕ −1 (v) + ϕ −1 (v′ ) .
Anwendung von ϕ −1 auf diese Gleichung liefert ϕ −1 (v + v′ ) = ϕ −1 (v) + ϕ −1 (v′ ).
Ebenso ergibt sich ϕ −1 (λ v) = λ ϕ −1 (v) für λ ∈ K.
Definition. V , W seien K-Vektorräume. Eine bijektive lineare Abbildung ϕ heißt
Isomorphismus (von K-Vektorräumen). Wenn es einen Isomorphismus ϕ : V → W
gibt, nennt man V und W isomorph. Wir schreiben V ∼
= W.
Das Wort isomorph“ bedeutet von gleicher Gestalt“ und dies vermittelt sehr
”
”
genau die mathematische Bedeutung dieses Begriffs: Isomorphe Vektorräume besitzten die gleiche Struktur. Jede Aussage der linearen Algebra, die für V gilt, gilt
auch für jeden zu V isomorphen Vektorraum W und umgekehrt: man transportiert“
”
sie mittels eines Isomorphismus ϕ von V nach W , ebenso wie ϕ −1 , das sich auch
als Isomorphismus erweist, die lineare Struktur“ von W nach V überträgt. Isomor”
phe Objekte einer algebraischen Theorie sind innerhalb dieser Theorie gleichwertig. Sie können sich gegenseitig ersetzen, und häufig braucht man zwischen ihnen
nicht zu unterscheiden.
Beispiel. R2 und C sind isomorph als R-Vektorräume.
Lineare Abbildungen
171
Wir beweisen nun, dass jeder n-dimensionale K-Vektorraum zu K n isomorph
ist. Damit zeigen wir: Für die Lineare Algebra haben alle Vektorräume der Dimension n die gleiche Struktur. Insofern spricht man über eine Klassifikation für
endlichdimensionale Vektorräume.
Satz 19.8. Seien V,W endlich dimensionalen K-Vektorräume. Dann gilt:
dimK V = dimK W ⇐⇒ V ∼
= W.
Insbesondere ist jeder K-Vektorraum der Dimension n zu K n isomorph.
Beweis. Sei B = (v1 , . . . , vn) eine Basis von V .
=⇒ “ Sei C = (w1 , . . . , wn ) eine Basis von W . Nach 19.1 gibt es genau eine
”
K-lineare Abbildung f : V → W mit f (vi ) = wi für alle i = 1, . . . , n. Da C ein
Erzeugendensystem von W ist, gibt es zu jedem w ∈ W Skalare λ1 , . . . , λn ∈ K so
dass
w = λ1 w1 + . . . + λn wn
gilt. Daraus folgt w = f (v) mit v = λ1 v1 + . . . + λn vn ∈ V ; daher ist f surjektiv. Die
Abbildung f ist auch injektiv: Ist w = 0, so folgt λ1 = . . . = λn = 0, also v = 0,
da die Vektoren aus C linear unabhängig sind. Damit ist f injektiv nach 19.4.
Insgesamt erhält man V ∼
= W.
⇐=“ Sei f : V → W ein Isomorphismus. Ist w ∈ W , so existiert v ∈ V mit
”
w = f (v) wegen der Surjektivität von f . Es gilt
v = λ1 v1 + . . . + λn vn mit λ1 , . . . , λn ∈ K,
da B ein Erzeugendensystem von V ist. Daraus folgt
w = f (v) = λ1 f (v1 ) + . . . + λn f (vn )
und B ′ = ( f (v1), . . . , f (vn)) ist also ein Erzeugendensystem von W . Ist ferner
f (v) = 0, so ist v = 0 wegen der Injektivität von f . Da v1 , . . . , vn linear unabhängig
sind, müssen f (v1 ), . . . , f (vn) auch linear unabhängig sein. Daraus folgt dann die
Behauptung dimK W = n = dimK V .
Im nächsten Abschnitt betrachten wir eine nützliche Darstellung einer linearen
Abbildung: Eine Matrix.
ABSCHNITT 20
Matrizenrechnung (I): Der Rang einer linearen Abbildung
Sei V ein endlich dimensionaler K-Vektorraum. Sei (v1 , . . . , vn ) eine Basis von
V . Wir wissen schon: Zu jedem Vektor v ∈ V existieren Skalare λ1 , . . . , λn ∈ K so
dass v sich eindeutig als Linearkombination
v = λ1 v1 + . . . + λn vn
von v1 , . . . , vn darstellen lässt. Der Vektor


λ1
 ...  ∈ K n
λn
nennen wir den Koordinatenvektor zu V bezüglich der Basis (v1 , . . . , vn ).
Sei nun (e1 , e2) die Standardbasis des R2 . Sei ϕ : R2 → R2 ein Endomorphismus des R2 . Dann ist ϕ durch Angabe von ϕ (e1 ) und ϕ (e2 ) nach Satz 19.1 eindeutig bestimmt. Es ist
ϕ (e1 ) = a11 e1 + a21 e2
ϕ (e2 ) = a12 e1 + a22 e2
a11
a21
bzw. ϕ (e2 ) können wir durch ein rechteckiges Schema
a11 a12
a21 a22
für ai j ∈ R, i, j = 1, 2. Die Koordinatenvektoren
bzw.
a21
a22
zu ϕ (e1 )
beschreiben. Das nennen wir eine 2 × 2-Matrix. Im Allgemeinen:
Definition. Sei K ein Körper. Eine m × n-Matrix über K (oder mit Einträgen in K)
ist eine Anordnung von m × n Elementen aus K nach folgendem Schema:


a11 · · · a1n
.. 
A = (ai j )1≤i≤m = (ai j ) =  ...
.
1≤ j≤n
am1 · · · amn
174
Abschnitt 20
Wir nennen die waagerecht geschriebene n-Tupel (ai1 , . . . , ain ) die i-te Zeile


a1 j
und die senkrecht geschriebene m-Tupel  ...  die j-te Spalte der Matrix. Eiam j
ne n × n-Matrix heißt quadratisch. Eine quadratische Matrix heißt diagonal, wenn
ai j = 0 für alle i 6= j. Die Menge aller m × n-Matrizen über K bezeichnen wir mit
Mm×n(K).
Wie man m × n-Matrizen addiert und mit Skalaren multipliziert, ist offensichtlich. Versehen mit diesem Verknüpfungen besitzt Mm×n(K) die Struktur von KVektorraum.
So wie im Obigen kann man im Allgemeinen einer linearen Abbildung eine
Matrix zuordnen: Sei ϕ : V → W eine lineare Abbildung endlichdimensionaler KVektorräume mit Basen B = (v1 , . . . , vn ) bzw. C = (w1 , . . . , wm ). Nach 19.1 ist ϕ
durch ϕ (v1 ), . . . , ϕ (vn ) eindeutig bestimmt. Die Elemente ϕ (v1 ), . . . , ϕ (vn ) wiederum sind durch ihre Koordinatenvektoren


a1 j
 ...  , j = 1, . . . , n
am j
eindeutig bestimmt. Wir schreiben diese Koordinatenvektoren als Spalten einer
m × n-Matrix


a11 · · · a1n
.. 
C
C
MB
= MB
(ϕ ) =  ...
.
am1 · · · amn
(Merke: Die Spalten sind die Koordinatenvektoren der Bildvektoren.) Diese Matrix
C (ϕ ) bestimmt ϕ vollständig, nachdem die Basen B = (v , . . . , v ) von V und
MB
1
n
C = (w1 , . . . , wm ) von W gewählt worden sind.
C (ϕ ) heißt Matrix von ϕ bezüglich der Basen B von V
Definition. Die Matrix MB
und C von W .
Wir haben gerade einer linearen Abbildung eine Matrix zugeordnet. Diesen
Vorgang können wir auch umkehren: Wir ordnen einer Matrix


α11 · · · α1n
.. 
A =  ...
.
αm1 · · · αmn
diejenige lineare Abbildung ϕA : V → W zu, für die die Koordinatenvektoren von
ϕ (v1 ), . . . , ϕ (vn ) bezüglich (w1 , . . . , wm ) gerade die Spalten von A sind. Insgesamt
erhalten wir somit eine bijektive Abbildung von der Menge der linearen Abbildungen von V nach W auf die Menge der m × n Matrizen über K.
Matrizenrechnung (I): Der Rang einer linearen Abbildung
175
Da die Menge Hom(V,W ) aller K-linearen Abbildungen von V nach W auch
die Struktur von K-Vektorraum besitzt, erhalten wir:
Satz 20.1. Sei K ein Körper, V und W seien K-Vektorräume der Dimensionen n
bzw. m. Seien Basen B(v1 , . . . , vn ) von V und C = (w1 , . . . , wm ) von W gewählt.
Dann ist die Abbildung
C : Hom(V,W ) −→ M
MB
m,n (K)
C (ϕ ),
ϕ
7→ MB
die jeder linearen Abbildung ihre Matrix bezüglich der Basen B und C zuordnet,
ein Isomorphismus von K-Vektorräumen.
C
Beweis. Die Bijektivität von MB
haben wir uns oben überlegt. Die Linearität rechnet man unmittelbar nach.
Seien Vektorräume U, V , W gegeben mit Basen A = (u1 , . . . , u p ), B =
(v1 , . . . , vn) bzw. C = (w1 , . . . , wm ), ferner lineare Abbildungen ϕ : U → V , ψ :
B (ϕ ) ∈ M
B
V → W . Seien A = MA
n×p (K) und B = MB (ψ ) ∈ Mm×n (K) die MatriC (ψ ◦ ϕ ) ∈ M
zen von ϕ und ψ bezüglich der gegebenen Basen und C = MA
m×p (K)
die Matrix von ψ ◦ ϕ . Wie ergibt sich C aus A und B? Um die Koeffizienten einer
Matrix zu benennen, schreiben wir kurz z.B.
A = (α jk ),
B = (βi j ),
C = (γik ).
Es gilt
n
ϕ (uk ) =
m
∑ α jk v j ,
ψ (v j ) = ∑ βi j wi
j=1
i=1
und
n
∑ α jk v j
(ψ ◦ ϕ )(uk ) = ψ
j=1
n
=
!
n
=
∑ α jk ψ (v j )
j=1
m
∑ α jk ∑ βi j wi
j=1
i=1
m
n
=∑
∑ βi j α jk
i=1
j=1
!
wi .
Der Koordinatenvektor von (ψ ◦ ϕ )(uk ) bezüglich w1 , . . . , wm ist also
!
n
n
∑ β1 j α jk , . . . , ∑ βm j α jk ,
j=1
j=1
k = 1, . . . , p.
176
Abschnitt 20
Dies ist gerade die k-te Spalte von C. Wir erhalten also
n
γik =
∑ βi j α jk ,
i = 1, . . . , m,
k = 1, . . . , p.
j=1
Definition. Sei K ein Körper, A = (α jk ) eine n × p-Matrix über K, B = (βi j ) eine
m × n-Matrix. Dann heißt die m × p-Matrix C = (γik ) mit
n
γik =
∑ βi j α jk ,
i = 1, . . . , m, k = 1, . . . , p
j=1
das Produkt von B und A,
C = BA
(in dieser Reihenfolge!).
Zu bemerken ist folgendes:
(a) Das Produkt von B und A lässt sich nur bilden, wenn die Spaltenzahl von
B und die Zeilenzahl von A übereinstimmen.
(b) Man kann die Matrizenmultiplikation schematisch so darstellen:



 
a1k



 



 



 
.

 bi1

 =
..
c
.
.
.
b
ik
in



 



 



 
ank
(c) Die Matrizenmultiplikation ist nicht kommutativ: Auch wenn wir die Produkte BA und AB bilden können, ist i.a. BA 6= AB. Zum Beispiel gilt
0 1
0 0
1 0
=
0 0
1 0
0 0
0 0
0 1
0 0
=
1 0
0 0
0 1
Wir haben das Matrizenprodukt BA so definiert, dass BA die Matrix von ψ ◦ ϕ
ist. Genauer gilt:
Satz 20.2. Seien U, V , W K-Vektorräume mit den Basen u1 , . . . , u p , v1 , . . . , vn und
w1 , . . . , wm . Seien ϕ : U → V , ψ : V → W lineare Abbildungen. Wenn A die Matrix von ϕ bezüglich u1 , . . . , u p und v1 , . . . , vn und B die Matrix von ψ bezüglich
v1 , . . . , vn und w1 , . . . , wm ist, so ist BA die Matrix von ψ ◦ ϕ bezüglich u1 , . . . , u p
und w1 , . . . , wm .
Matrizenrechnung (I): Der Rang einer linearen Abbildung
177
Die n × n-Matrix
 1 0 ··· 0 
. . . . . . .. 

.
En =  0. .

.. . . . . . 0
0 ··· 0 1
heißt n-reihige Einheitsmatrix. Sie ist die Matrix der identischen Abbildung eines
beliebigen n-dimensionalen K-Vektorraums V bezüglich einer beliebigen Basis B,
B (id ).
d.h En = MB
V
Wir haben oben gesehen, dass die Matrizenmultiplikation nicht kommutativ ist.
Hingegen gelten die übrigen uns vertrauten Rechenregeln:
Satz 20.3. A und B seien n × p-Matrizen, C und D seien m × n-Matrizen über K.
F sei eine (k × m)-Matrix. Dann gilt:
(a) En A = AE p = A,
(b) F(CA) = (FC)A,
(c) (C + D)A = CA + DA, C(A + B) = CA +CB.
Beweis. Man kann dies direkt ausrechnen. Es ist aber viel eleganter, die Rechenregeln für Matrizen auf die entsprechenden Regeln für Abbildungen zurückzuführen.
Als Beispiel betrachten wir (b). Sind χ , ψ , ϕ die durch F, C, A gegebenen linearen
Abbildungen, so gilt
χ ◦ (ψ ◦ ϕ ) = ( χ ◦ ψ ) ◦ ϕ ,
F(CA) ist die Matrix von χ ◦(ψ ◦ ϕ ), und (FC)A ist die Matrix von (χ ◦ ψ )◦ ϕ . Bei einem Endomorphismus ϕ : V → V hat man es bei Definitions- und Bildbereich mit ein und demselben Vektorraum zu tun. Dementsprechend betrachtet
man auch nur eine Basis v1 , . . . , vn , wenn nichts anderes ausdrücklich vorausgesetzt
wird. Daher kann man kurz von der Matrix von ϕ bezüglich v1 , . . . , vn sprechen.
Die Spalten einer Matrix A lassen sich nach der obigen Diskussion als Bilder
von Vektoren durch eine lineare Abbildung ϕA interpretieren. Es ist aber sehr naheliegend sich zu fragen, ob es eine Verbindung zwischen den Spalten der Matrix
und dem Rang von ϕA gibt.
Definition. Die Dimension des von den Spalten von A erzeugten Untervektorraums in K m nennt man den Spaltenrang von A; der wird mit rgs (A) bezeichnet.
Wenn wir den Begriff Spaltenrang eingeführt haben, warum nicht auch den
Zeilenrang?
Definition. Die Dimension des von den Zeilen von A erzeugten Untervektorraums
in K n (wobei wir die Elemente von K n hier als Zeilenvektoren auffassen) nennt man
den Zeilenrang von A; dieser wird mit rgz (A) bezeichnet.
178
Abschnitt 20
Satz 20.4. Für Matrizen A ∈ Mm×n(K) gilt
rgs (A) = rgz (A) = rang(ϕA).
Insbesondere stimmen Spalten- und Zeilenrang überein.
Dann werden wir von nun an rang(A) anstelle von rgs (A) bzw. rgz (A) schreiben
und diese Zahl als den Rang der Matrix A bezeichnen.
Der Rang einer Matrix lässt sich leicht mit Hilfe von dem Gaußschen Eliminationsverfahren nachrechnen:
Satz 20.5. Seien A ∈ Mm×n (K). Sei B ∈ Mm×n(K) eine weitere Matrix, die mittels
elementarer Zeilenumformungen aus A hervorgeht. Dann erzeugen die Zeilenvektoren von A den gleichen linearen Untervektorraum in K n wie die Zeilen von B.
Insbesondere ist der Zeilenrang einer Matrix invariant unter elementaren Zeilenumformungen.
Algorithmisch bedeutet das: Man bringt die Matrix A mittels elementarer Zeilenumformungen auf Zeilenstufenform. Dann ist die Anzahl von der von Null verschiedenen Zeilen der Rang von A. Übrigens: Man kann auch über den Kern von
A sprechen. Damit ist Kern(ϕA ) gemeint.
Beispiel. Die Matrix A in der folgenden Umformungen




0 0 1 2 1
1 2 1 3 1
T12
0 0 1 2 1
A :=  1 2 1 3 1  −→
1 2 2 5 2
1 2 2 5 2
T31 (−1)
−→
hat den Rang 2.


1 2 1 3 1
0 0 1 2 1
0 0 1 2 1
T32 (−1)
−→


1 2 1 3 1
0 0 1 2 1
0 0 0 0 0
Matrizen haben wir schon im Abschnitt 16 a propos der linearen Gleichungssysteme betrachtet. Wir wollen nun diese Interpretation der linearen Gleichungssysteme in der Welt der linearen Abbildungen erklären. Sei dafür A ∈ Mm×n (K)
eine Matrix mit Spaltenvektoren






a11
a12
a1n
a1 =  ...  , a2 =  ...  , . . . , an =  ...  ∈ K m .
am1
am2
amn


b1
..  ∈ K m . Wir betrachten das lineare Gleichungssystem

Sei b =
.
bm
Ax = b.
Matrizenrechnung (I): Der Rang einer linearen Abbildung
179
Die Matrix A entspricht der linearen Abbildung ϕA : K n → K m (bezüglich der Standardbasen von K n und K m ). Speziell gilt




x1
x1
ϕA ( ... ) = A  ...  = x1 a1 + . . . + xn an
xn
xn


x1
für  ...  ∈ K n .
xn
Sei L (A, b) die Menge aller Lösungen des linearen Gleichungssystems Ax = b.
Man überlegt sich sofort:
(a) Ax = b besitzt eine Lösung genau dann, wenn b ∈ Bild(ϕA ).
(b) Für x ∈ K n gilt: x ∈ L (A, b) genau dann, wenn ϕA (x) = b.
(c) Die Lösungsmenge L (A, 0) eines homogenen linearen Gleichungssystem
ist ein Untervektorraum des K n .
(d) Für x ∈ K n gilt: x ∈ L (A, 0) genau dann, wenn x ∈ Kern(ϕA )
Auf diese Feststellungen basiert folgender Satz:
Satz 20.6. Seien A ∈ Mm×n (K), b ∈ K n . Sei (A, b) die erweiterte Matrix des linearen Gleichungssystems Ax = b.
(a) Für Ax = b gilt L (A, b) 6= 0/ genau dann, wenn
rang(A) = rang(A, b).
(b) Für das homogene lineare Gleichungssystem Ax = 0 gilt:
dimK L (A, 0) = dimK Kern(A) = n − rang(A).
(c) Ist u ∈ L (A, b), dann gilt
L (A, b) = u + L (A, 0) = {u + v : v ∈ L (A, 0)} = u + Kern(A).
Für eine Basis u1 , . . . , us von L (A, 0) = Kern(A) mit s = n − rang(A) lässt
sich insbesondere jede Lösung x ∈ L (A, b) eindeutig schreiben als
v = u + λ1 u1 + . . . + λs us .
Beispiel. Wir betrachten das lineare Gleichungssystem
x1 + 2x2
x1 + 2x2
x3 + 2x4 = 1
+ x3 + 3x4 = 1
+ 2x3 + 5x4 = 2
Aus Satz 20.6 ist es genau dann lösbar, wenn den Rang der assozierten Matrix


0 0 1 2
A= 1 2 1 3 
1 2 2 5
180
Abschnitt 20
mit dem Rang der erweiterten Matrix


0 0 1 2 1
(A, b) =  1 2 1 3 1 
1 2 2 5 2
übereinstimmt. Aus dem letztem Beispiel sieht man sofort:
rang(A) = rang(A, b) = 2.
Die Lösungsmenge bestimmen wir indem wir eine spezielle Lösung des inhomogenen Systems berechnen und dann die Lösungsmenge des assozierten homogenen
Gleichungssystems, d.h., den Kern von A.
Nach den im obigen Beispiel durchgeführte elementaren Umformungen ist das
Gleichungssystem
x1 + 2x2 + x4 = 0
x3 + 2x4 = 1
zu betrachten. Eine spezielle Lösung dieses inhomogenen linearen Gleichungssystems berechnen wir, wenn wir x2 = x4 = 0 
setzen,
 und bekommen x1 = 0 und
0
0

x3 = 1. Das heißt, eine spezielle Lösung ist 
 1 . Nun müssen wir noch den
0
Kern von A berechnen. Es ist also das homogene lineare Gleichungssystem
x1 + 2x2 + x4 = 0
x3 + 2x4 = 0
zu lösen. Der Lösungsraum (d.h. gleichzeitig, der gesuchte Kern) ist

 

−2
−1



1 
, 0  ,
L (A, 0) = Kern(A) = L 
 0   −2 
0
1
wie man leicht nachprüfen kann. Dann ist die Lösungsmenge des ursprünglichen
linearen Gleichungssystems
 

 

0
−2
−1

0
 

 + L  1 , 0  .
L (A, b) = 
1
 0   −2 
0
0
1
Wir sind mit dem zusammenhang zwischen linearen Abbildungen und Matrizen
nocht nicht fertig. Im nächsten Abschnitt betrachten wir noch die Matrix, die zur
Umkehrabbildung –falls sie existiert– gehört, und das Problem des Basiswechsels:
Wie kann man von einer Basis zu einer anderen eines Vektorraumes übergehen?
ABSCHNITT 21
Matrizenrechnung (II): Basiswechsel
Sei A eine n × n-Matrix. Die durch A gegebene lineare Abbildung ist genau
dann ein Automorphismus, wenn rang A = n; siehe Satz 19.6. In diesem Fall besitzt
ϕ ein Inverses ϕ −1 , dessen Matrix wir mit A−1 bezeichnen. Da
ist AA−1 = A−1 A = En .
ϕ ◦ ϕ −1 = ϕ −1 ◦ ϕ = idK n ,
Definition. Sei A eine n × n-Matrix des Ranges n. Die soeben beschriebene Matrix
A−1 heißt die zu A inverse Matrix.
Ist A eine n × n-Matrix, zu der es eine n × n-Matrix A′ mit A′ A = En oder
AA′ = En gibt, so muss bereits rang A = n gelten: Für die durch A′ gegebene lineare Abbildung ϕ ′ ist
ϕ ′ ◦ ϕ = idK n
oder
ϕ ◦ ϕ ′ = idK n .
Im ersten Fall ist ϕ injektiv, also ein Automorphismus von K n gemäß Satz 19.6,
im zweiten Fall ist ϕ surjektiv und damit ebenfalls ein Automorphismus. Es folgt
ϕ ′ = ϕ −1 und somit A′ = A−1 .
Wir fassen diese Erkenntnisse zusammen:
Satz 21.1. A sei eine n × n-Matrix über K und ϕ der durch A gegebene Endomorphismus des K n . Dann sind äquivalent:
(a) ϕ ist ein Automorphismus;
(b) rang A = n;
(c) es existiert eine n × n-Matrix A′ mit A′ A = En oder AA′ = En .
In diesem Fall ist A′ = A−1 die Matrix von ϕ −1 , und man nennet A eine invertierbare Matrix.
Satz 21.2. Dei invertierbaren n × n-Matrizen über einem Körper K bilden eine
Gruppe bezüglich der Matrizenmultiplikation, die man mit
GL(n, K)
bezeichnet.
Dafür ist allenfalls noch zu beweisen, dass das Produkt invertierbarer Matrizen
invertierbar ist, aber dies folgt aus AB((B−1 A−1 ) = En .
182
Abschnitt 21
Die Bestimmung von A−1 ist mit unserem Verfahren zum Lösen linearer Gleichungssysteme (prinzipiell) sehr einfach. Sei
AB = En .
Dann erfüllt die j-te Spalte von B das lineare Gleichungssystem
(A, e j )
dessen rechte Seite die j-te Spalte der Einheitsmatrix ist. Also haben wir insgesamt
n lineare Gleichungssysteme gleichzeitig zu lösen. Sie alle haben die linke Seite“
”
A, und daher können wir mit allen rechten Seiten simultan arbeiten.
Beispiel.


1
1

1
2
1
0 1
1
1 2
A=
 0 −1 0
1
0 0
1 0 0
1
0
1 1
1
1
2 1
0 1 0
0 0 1
0 −1
0 1
0 0 0
1
0
0 2
1
0
1 1
1 0 0
0
1
1 0 −1 1 0
0 0 1
0 −1
0 1
0
0 −1 1 −1 0 0
1
0
1 1
1 0 0
0
1
1 0 −1 1 0
0
0
1 1 −1 1 1
0
0 −1 1 −1 0 0
0
0
0
1
0
0
0
1
0
0
0
1
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
1
1
2
0
0
0
1

2
0
−1
−2
2
−1
0
−1
2

−1
A−1 = 
 0
−1
−1
−1
0
0
−1
0
1
1
0
1
1
1
−1
−1
0
1/2 −1/2
1/2
1/2
1/2 −1/2
1/2
1/2
1/2

−1
−1
0
1/2 −1/2
1/2 

1/2
1/2 −1/2 
1/2
1/2
1/2
Auf der rechten Seite können wir jetzt die Lösungen unserer vier Gleichungssysteme, d.h. aber A−1 , direkt ablesen.
Wir wollen nun das Problem des Basiswechsels betrachten: Wir wissen schon,
dass man K-lineare Abbildungen zwischen endlich dimensionalen Vektorräumen
bei Festlegung von Basen durch Matrizen beschreiben kann. Jetzt wollen wir verstehen, wie sich die beschreibende Matrix ändert, wenn man zu anderen Basen
übergeht. Wir fangen klein mit einem Beispiel an.
Sei V ein K-Vektorraum der Dimension 2. Wegen
√ Satz 19.8 identifizieren wir
2
2
V mit K . Sei v ∈ K , v 6= 0, ein Vektor der Länge 8:
Matrizenrechnung (II): Basiswechsel
183
v
0
√
Wie kann man v unter allen Vektoren aus dem K 2 der Länge 8 kennzeichen?
Wegen der Eindeutigkeit der Basisdarstellung 18.2 können wir das nach Angabe
einer Basis des K 2 tun. Betrachten wir die Standardbasis E = (e1 , e2 ) des K 2 , so
lässt sich v durch E eindeutig beschreiben als v = 2e1 + 2e2 .
v
2e2
e2
0
e1
2e1
Die Basis E haben wir ausgewählt. Suchen wir eine weitere Basis B = (b1 , b2 )
aus, so lässt sich v anders darstellen, z.B. v = 2b1 + 0b2 :
v
b1
0
b2
Zu v gehört ein (eindeutig bestimmte nach der Wahl einer Basis) Koordinatenvektor des K 2 je nachdem, welche Basis wir aussuchen:
(a) Bezüglich E hat v den Koordinatenvektor
2
2
(b) Bezüglich B hat v den Koordinatenvektor
2
0
Da dies für jeden Vektor des K 2 vorkommt, stellt sich die allgemeine Frage: Wie
können Koordinatenvektoren in der Basis E zu Koordinatenvektoren in der Basis
B, und umgekehrt, übergehen? Dieser Prozess entspricht einem Automorphismus
des K 2 :
184
Abschnitt 21
(a) Für λ1i , λ21 ∈ K stellt die Abbildung
E = τ : K 2 −→ K 2
τB
bi 7→ τ (bi ) = λ1i e1 + λ2i e2
die Vektoren von B in Koordinaten bezüglich E dar.
(b) Für µ1i , µ21 ∈ K stellt die Abbildung
E )−1 = τ −1 : K 2 −→ K 2
τEB = (τB
ei 7→ τ −1 (ei ) = µ1i b1 + µ2i b2
die Vektoren aus E in Koordinaten bezüglich B dar.
Die linearen Abbildungen τ und τ −1 lassen einen Vektor v invariant, es wird
sich bloß nur seine Darstellung mittels einer angegebenen Basis ändern: Insofern
E = idE und τ −1 =
sind τ und τ −1 identischen Abbildungen. Wir werden oft τ = τB
B
idB
schreiben.
E
Die Abbildung τ = idEB ist im Beispiel so definiert:
τ = idEB : K 2 −→ K 2
b1 7→ τ (b1 ) = e1 + e2
b2 7→ τ (b2 ) = e1 − e2
Die Matrix dieser linearen Abbildung ist dann
1 1
E
MB =
.
1 −1
Sie transformiert die Basis E in die Basis B:
1
1
1
1
=
1 −1
0
1
1
1
0
1
=
1 −1
1
−1
E (id) die Übergangsmatrix von der Basis E zur Basis B.
Dann nennen wir MB
E (id) transformiert Koordinatenvektoren
Es ist noch zu beachten: Diese Matrix MB
bezüglich der Basis B in Koordinatenvektoren bezüglich der Basis E :
1
1
2
2
=
1 −1
0
2
2
Der zu v assoziierte Koordinatenvektor bezüglich B ist
, und der bezüglich
0
2
E ist
, wir wir uns oben schon überlegt haben.
2
Matrizenrechnung (II): Basiswechsel
185
Die Abbildung τ −1 = idB
E ist folgendermaße definiert:
2
τ −1 = idB
−→ K 2
E : K
e1 7→ τ −1 (b1 ) = 12 b1 + 12 b2
e2 7→ τ −1 (b2 ) = b1 − e1 = 21 b1 − 12 b2
Die Matrix dieser linearen Abbildung ist dann
1 1 1
B
ME (id) =
.
2 1 −1
Sie transformiert die Basis B in die Basis E :
1 1
1
1
1
=
1
−1
1
0
2
1 1
1
1
0
=
−1
1
2 1 −1
Dann ist MEB (id) die Übergangsmatrix von der Basis B zur Basis E . Die Matrix
MEB (id) transformiert dann Koordinatenvektoren bezüglich der Basis E in Koordinatenvektoren bezüglich der Basis B dargestellt:
1 1
1
2
2
=
2
0
2 1 −1
2
(Der Koordinatenvektor
zu v bezüglich E wird in den Koordinatenvektor
2
2
zu v bezüglich B umgewandelt.) Eine Tatsache fällt uns auf:
0
−1 1/2
1/2
1
1
=
,
1/2 −1/2
1 −1
also
E
(MEB (id))−1 = MB
(id).
Das ist natürlich ein allgemeines Sachverhalten:
Satz 21.3. Sei V ein K-Vektorraum der endlichen Dimension n. Seien B und B ′
zwei Basen von V . Dann ist die Matrix
B
T := MB
′ (id) ∈ Mn×n (K)
invertierbar, und es ist
′
B
(id)
T −1 = MB
Beweis. Es ist
′
′
B
B
B
(id) · MB
MB
′ (id) = MB ′ (id) = En .
186
Abschnitt 21
B (id) nennen wir die Matrix des Basiswechsels,
Definition. Die Matrix T = MB
′
oder die Übergangsmatrix, von B zu B ′ .
Naheliegend ist das Problem: Was ist das Verhalten von einer Matrix einer
linearen Abbildung nach Koordinatenwechsel im Definitions- und Wertebereich
(d.h., im Start- und Zielvektorraum)?
Sei ϕ : R2 → R2 gegeben durch
x
x
7→
.
y
3x + 2y
Die Abbildung ϕ ist R-linear mit
1
1
ϕ(
) =
= e1 + 3e2
0
3
0
0
ϕ(
) =
= 2e2 .
1
2
Bezeichnen wir wieder mit E = (e1, e2 ) die Standardbasis des R2 , so liest man
unmittelbar daraus:
1 0
E
ME (ϕ ) =
.
3 2
Nehmen wir an, wir haben noch die Basis B = (b1 , b2 ) mit b1 = e1 + e2 und b2 =
e1 − e2 wie im obigen Beispiel zur Verfügung. Was ist nun die Matrix MEB (ϕ )?
Diese Matrix lässt sich berechnen, indem wir in R2 im Wertebereich einen Basiswechsel durchführen:
ϕ
τ −1
R2 −→
R2
−→ R2
e1 7→ ϕ (e1 ) = e1 + 3e2 7→ 21 b1 + 12 b2 + 32 b1 − 23 b2 = 2b1 − b2
ϕ (e2) = 2e2
7→ b1 − b2
e2 7→
Wir müssen noch die Vektoren e1 + 3e2 und 2e2 mittels der Basis B = (b1 , b2 )
ausdrücken. Dies bekommen wir, wenn wir die Abbildung τ −1 des obigen Beispiels anwenden, d.h., wenn wir die Matrix MEB (id) des Basiswechsels von B
nach E betrachten. Es gilt tatsächlich:
1 1
1
1
1
2
B
ME (id)
=
=
3
3
−1
2 1 −1
1 1
0
1
0
1
B
ME (id)
=
=
.
2
2
−1
2 1 −1
Insgesamt ergibt sich
1 1
1 0
2
1
1
B
B
E
B
=
.
ME (id ◦ϕ ) = ME (ϕ ) = ME (id)ME (ϕ ) =
3 2
−1 −1
2 1 −1
Matrizenrechnung (II): Basiswechsel
187
Genauso kann man sich fragen, wie wirkt es aus, wenn wir einen Basiswechsel
im Definitionsbereich von ϕ durchführen, also etwa nun die Frage, welche ist die
E
Matrix MB
(ϕ ). Diesmal kommt die Abbildung τ , die die Basis B in die Basis E
transformiert, im Einsatz. Wir haben:
ϕ
τ
Tatsächlich gilt:
R2 −→
R2
−→ R2
b1 7→ τ (b1 ) = e1 + e2 7→ e1 + 5e2
b2 7→ τ (b2 ) = e1 − e2 7→ e1 + e2
E
E
E
(ϕ ◦ id) = MEE (ϕ )MB
(id).
MB
(ϕ ) = MB
B (ϕ ) berechnen wollen, müssen wir
Wenn wir zum Schluß direkt die Matrix MB
nur die zwei obigen Teile zusammenbringen:
τ
R2 −→
R2
ϕ
R2
−→
b1 7→ τ (b1 ) 7→ ϕ ((τ (b1 ))
b2 7→ τ (b2 ) 7→ ϕ ((τ (b2 ))
Mit Matrizen druckt sich das Obige so aus:
τ −1
−→
R2
7→
7
→
τ −1 (ϕ ((τ (b1 )))
τ −1 (ϕ ((τ (b2 ))).
E
B
(τ )
MB
(ϕ ) = MEB (τ −1 )MEE (ϕ )MB
E
E
= (MB
(τ −1 ))−1 MEE (ϕ )MB
(τ )
Im Allgemeinen ergibt sich:
Satz 21.4. Seien V,W zwei endlich dimensionale K-Vektorräume der Dimensionen
m resp. n. Seien B und B ′ zwei Basen von V , und C und C ′ zwei Basen von W .
Sind
C
B
T := MB
′ (idV ) ∈ Mm×m (K) und S := MC ′ (idW ) ∈ Mn×n (K),
so gilt
−1 C
C′
MB (ϕ )T
MB
′ (ϕ ) = S
für jede K-lineare Abbildung ϕ : V → W .
′
Beweis. Nach dem letzten Satz 21.3 ist S−1 = MCC (idW ). Es folgt:
′
C
C
B
S−1 MB
(ϕ )T = (MCC (idW ) · MB
(ϕ )) · MB
′ (idV )
′
′
C
B
C
(ϕ ) · MB
= MB
′ (idV ) = MB ′ (ϕ ).
Ist speziell V = W , dann folgt aus dem Satz 21.4 für B = C und B ′ = C ′
′
B (ϕ ) = T −1 M B (ϕ )T .
Satz 21.5. Es ist MB
′
B
(Das war die Situation des obigen Beispiels mit B = E und B ′ = B).
ABSCHNITT 22
Determinanten
Wir betrachten ein lineares Gleichungssystem
a1 x + b1 y = c 1
a2 x + b2 y = c 2
mit
a1 b1
rang
= 2.
a2 b2
Wir kennen ein Verfahren zur Lösung solcher Gleichungssysteme. Gibt es auch
eine Formel“ für x und y, vergleichbar etwa der p-q-Formel“ für quadratische
”
”
Gleichungen?
Durch Umformen erhalten wir zunächst:
(a1 b2 − b1 a2 )x = c1 b2 − b1 c2
(a1 b2 − b1 a2 )y = a1 c2 − c1 a2 .
Wegen rang A = 2 muss a1 b2 − b1 a2 6= 0 sein (!), und wir erhalten
x=
c 1 b2 − b1 c 2
a1 b2 − b1 a2
und
y=
a1 c 2 − c 1 a2
.
a1 b2 − b1 a2
Auffällig ist, dass die Terme c1 b2 − b1 c2 , a1 b2 − b1 a2 , a1 c2 − c1 a2 alle von der
gleichen Bauart sind. Wenn wir für eine 2 × 2-Matrix
α11 α12
A=
α21 α22
det A = α11 α22 − α12 α21 setzen, so gilt
a1 b1
c1 b1
a1 c1
a1 b2 − b1 a2 = det
, c1 b2 − b1 c2 = det
, a1 c2 − c1 a2 = det
.
a2 b2
c2 b2
a2 c2
Der nächste Schritt wäre nun, lineare Gleichungssysteme mit drei Unbestimmten zu untersuchen und herauszufinden, ob es dort ähnliche Gesetzmäßigkeiten
gibt. Wir werden sehen, dass dies zutrifft und dass die in Zähler und Nenner der
Auflösungsformel auftretenden Größen Determinanten“ gewisser Matrizen sind.
”
Natürlich müssen wir Determinanten erst noch definieren. Dabei gehen wir rekursiv vor.
190
Abschnitt 22
Für eine quadratische n-reihige Matrix A = (ai j ) sei Ai diejenige Matrix, die
aus A durch Streichen der ersten Spalte und i-ten Zeile entsteht:


a11 a12 · · · a1n
..
.. 
 ..
.
. 
 .


ain 
Ai =  ai1 ai2
 .
..
.. 
 ..
.
. 
an1 an2 · · · ann
Die Matrizen Ai haben das Format (n − 1) × (n − 1).
Definition. Sei A eine n × n-Matrix. Wir setzen
a,
wenn n = 1
det A =
n
i+1
∑i=1 (−1) ai1 det Ai für n > 1.
und A = (a),
Mit dieser Definition ergibt sich für n = 2:
a b
det
= ad − cb.
c d
Für n = 3,
erhält man:

α1 β1 γ1
A = α2 β2 γ2 
α3 β3 γ3

β2 γ2
β1 γ1
β1 γ1
det A =α1 det
− α2 det
+ α3 det
β3 γ3
β3 γ3
β2 γ2
=α1 (β2 γ3 − β3 γ2 ) − α2 (β1 γ3 − β3 γ1 ) + α3 (β1 γ2 − β2 γ1 )
=α1 β2 γ3 − α1 β3 γ2 − α2 β1 γ3 + α2 β3 γ1 + α3 β1 γ2 − α3 β2 γ1 .
Wir haben nun zwar die Determinante einer beliebigen n × n-Matrix definiert, aber
mit der Definition allein kann man nicht viel mehr anfangen, als Determinanten
auszurechnen. Zunächst wollen wir wichtige Eigenschaften der Determinante festhalten. Dazu betrachten wir die Matrix A als Zusammensetzung ihrer Zeilenvektoren v1 , . . . , vn und schreiben auch
 
v1
.. 

(v1 , . . . , vn )
oder
.
vn
für A.
In der Regel berechnet man Determinanten mittels Matrix-Umformungen, die
wir im Folgenden diskutieren werden. Dabei braucht man nur solange zu rechnen,
bis man A in eine obere Dreiecksmatrix umgeformt hat:
Determinanten
191
Satz 22.1. Sei A eine n-reihige obere Dreiecksmatrix, d.h. von der Form


d1 ∗ · · · ∗
 0 . . . . . . ... 
.


 .. . . . . . .
∗
.
0 · · · 0 dn
Dann ist det A = d1 · · · dn .
Dies folgt per Induktion direkt aus der Definition der Determinante. Wir halten
nun wichtige Eigenschaften der Determinante fest.
Satz 22.2.
(a) Die Funktion det ist linear in jeder Zeile, d.h.
det(v1 , . . . , v j−1 , v j + v′j , v j+1 , . . . , vn )
= det(v1, . . . , v j−1 , v j , v j+1 , . . . , vn ) + det(v1 , . . . , v j−1 , v′j , v j+1 , . . . , vn )
det(v1 , . . . , v j−1 , α v j , v j+1 , . . . , vn ) = α det(v1 , . . . , vn ).
(b) Wenn eine der Zeilen von A der Nullvektor ist, so gilt det A = 0.
(c) det En = 1 für alle n ≥ 1.
Beweis. Für jedes v ∈ K n sei v der um die erste Komponente gekürzte Vektor: Für
v = (ξ1 , . . . , ξn ) ist v = (ξ2 , . . . , ξn ). Die vk , k 6= i, sind ja gerade die Zeilen der Matrizen Ai . Wir beweisen (a) durch Induktion über n; der Fall n = 1 ist offensichtlich
richtig. Sei
A′ = (v1 , . . . , v j−1 , v′j , v j+1 , . . . , vn ),
A′′ = (v1 , . . . , v j−1 , v j + v′j , v j+1 , . . . , vn).
Für j 6= i ist a′′i1 = a′i1 = ai1 und
det A′′i = det(v1 , . . . , vi−1 , vi+1 . . . , v j−1 , v j + v′j , v j+1 , . . . , vn )
= det(v1 , . . . , vi−1 , vi+1 , . . . , v j−1 , v j , v j+1 , . . . , vn )
+ det(v1 , . . . , vi−1 , vi+1 , . . . , v j−1 , v′j , v j+1 , . . . , vn )
= det Ai + det A′i
nach Induktionsvoraussetzung.
Für j = i ist A′′i = A′i = Ai , aber es gilt
a′′i1 = ai1 + a′i1 .
192
Abschnitt 22
Damit ergibt sich:
n
det A′′ = ∑ (−1)i+1 a′′i1 det A′′i
i=1
n
= ∑ (−1)i+1 ai1 (det Ai + det A′i ) + (−1) j+1(α j1 + a′j1 ) det A j
i=1
= ∑ (−1)
i6= j
i+1
n
ai1 det Ai + ∑ (−1)i+1 a′i1 det A′i
i=1
′
= det A + det A .
Dies ist die erste Behauptung in (a). Genauso beweist man die zweite Behauptung.
(b) Sei etwa vi = 0. Dann ist nach (a)
det(v1 , . . . , vn ) = det(v1 , . . . , vi−1 , 0 · vi , vi+1 , . . . , vn) = 0 · det(v1 , . . . , vn ).
(c) Dies ergibt sich sofort nach dem Satz 22.1.
Bis jetzt hat die Wahl (−1)i+1 der Vorzeichen in der Definition der Determinante keine Rolle gespielt. Ihre Bedeutung ergibt sich aus dem folgenden Satz:
Satz 22.3.
(a) Wenn zwei Zeilen v j , vk übereinstimmen, ist
det(v1 , . . . , vn ) = 0.
(b) Bei Vertauschung von zwei Zeilen wird die Determinante mit −1 multipliziert:
det(v1 , . . . , v j−1 , vk , v j+1 , . . . , vk−1 , v j , vk+1 , . . . , vn ) = − det(v1 , . . . , vn ).
(c) Die Determinante ändert sich nicht bei elementaren Zeilentransformationen:
det(v1 , . . . , v j−1 , v j + α vk , v j+1 , . . . , vn ) = det(v1 , . . . , vn ).
Beweis. Wir beweisen (a) und (b) gleichzeitig durch Induktion über n. Im Fall
n = 1 sind beide Behauptungen leer“ – es gibt ja nur eine Zeile – und damit
”
automatisch richtig.
Sei n > 1. Dann ist (mit A = (v1, . . . , vn ))
n
det A = ∑ (−1)i+1ai1 det Ai .
i=1
Die Induktionsvoraussetzung für (a) ergibt, dass Ai = 0 für i 6= j, k. Also ist
det A = (−1) j+1 a j1 det A j + (−1)k+1 ak1 det Ak .
Die Matrizen A j und Ak haben die gleichen Zeilen, allerdings in verschiedenen
Reihenfolgen. Bei A j steht vk = v j auf dem (k − 1)-ten Platz, bei Ak steht v j = vk
Determinanten
193
auf dem j-ten Platz, und die anderen Zeilen sind entsprechend verschoben:




v1
v1
 ... 
 .. 


 . 
 .. 


 . 
 v j−1 




 .. 
 v j+1 
.


 . 
 . 
 .. 
.



Ak =  . 
Aj = 

v
 vk−1 
 k−1 


 v 
 vk+1 
 j 



v
 .. 
 k+1 
 . 
 .. 
 . 
 . 
 .. 
vn
vn
Mittels k − j − 1 Zeilenvertauschungen können wir Ak in A j überführen (oder umgekehrt). Also ist
det A j = (−1)k− j−1 det Ak ,
wie sich aus der Induktionsannahme für (b) ergibt. Wegen a j1 = ak1 folgt
det A = (−1) j+1 a j1 det A j + (−1)k+1 ak1 det Ak
= (−1) j+1 (−1)k− j−1 + (−1)k+1 ak1 det Ak
= (−1)k + (−1)k+1 ak1 det Ak
= 0.
Nun ist noch (b) zu zeigen. Dabei brauchen wir die Induktionsvoraussetzung nicht
zu bemühen, sondern können dies direkt aus (a) herleiten. Nach (a) und 22.2 ist
0 = det(. . . , v j + vk , . . . , v j + vk , . . . )
= det(. . . , v j , . . . , v j + vk , . . . ) + det(. . . , vk , . . . , v j + vk , . . . )
= det(. . . , v j , . . . , v j , . . . ) + det(. . . , v j , . . . , vk , . . . ) +
det(. . . , vk , . . . , v j , . . . ) + det(. . . , vk , . . . , vk , . . . )
= det(. . . , v j , . . . , vk , . . . ) + det(. . . , vk , . . . , v j , . . . ).
(c) Es ist
det(. . . , v j + α vk , . . . ) = det(v1 , . . . , vn ) + α det(. . . , vk , . . . , vk , . . . )
= det(v1 , . . . , vn )
gemäß 22.2 und Teil (a).
Die fundamentale Bedeutung der Determinante ergibt sich aus dem folgenden
Satz, der uns zeigt, was durch die Determinante determiniert wird:
194
Abschnitt 22
Satz 22.4. Sei A eine n × n-Matrix. Dann gilt:
det A 6= 0
⇐⇒
rang A = n.
Beweis. Sei zunächst rang A < n. Dann sind gemäß Sätze20.4–20.6 die Zeilen von
A linear abhängig. Da Zeilenvertauschungen die Determinante nur um den Faktor
−1 ändern, dürfen wir annehmen, dass
n−1
vn =
∑ βivi .
i=1
Nach 22.2 und 22.3 ist
n−1
det A = det(v1 , . . . , vn−1 , ∑ βi vi )
i=1
n−1
=
∑ βi det(v1, . . . , vn−1, vi) = 0.
i=1
Sei nun rang A = n. Dann zeigen die Überlegungen nach dem Satz 16.3, welche
die Einführung der reduzierten Zeilenstufenform eines linearen Gleichungssystems
rechtfertigen, dass wir A durch elementare Umformungen, Zeilenvertauschungen
und Multiplikation mit von 0 verschiedenen Elementen von K in die Einheitsmatrix überführen können. Jeder Umformungsschritt ändert die Determinante nur um
einen von 0 verschiedenen Faktor. Da det En = 1, folgt det A 6= 0.
Bei der Definition der Determinante erscheint es recht willkürlich, in der Rekursion von der ersten Spalte Gebrauch zu machen. Man hätte auch nach einer
”
anderen Spalte entwickeln können“ oder gar nach einer Zeile“. Dies hätte aber
”
nicht zu einem anderen Resultat geführt, denn die Determinante ist durch wenige
Forderungen eindeutig bestimmt.
Wir sagen, ∆ : M(n, n) → K sei eine Determinantenfunktion, wenn folgende
Bedingungen erfüllt sind:
(a) ∆ ist linear in jeder Zeile im Sinne von 22.2 (a);
(b) wenn A zwei gleiche Zeilen besitzt, ist ∆(A) = 0.
Satz 22.5. ∆ : M(n, n) → K sei eine Determinantenfunktion mit ∆(En ) = 1. Dann
ist ∆(A) = det A für alle A ∈ M(n, n).
Beweis. Beim Beweis der Tatsache, dass det A = 0 ist, wenn die Zeilen von A linear
abhängig sind, haben wir nur von den Eigenschaften (a) und (b) oben Gebrauch
gemacht. Also ist ∆(A) = 0 im Falle rang A < n.
Der Beweis von Satz 22.4 zeigt weiter, dass jede Determinantenfunktion die
Eigenschaften besitzt, die in 22.3, (b) und (c) beschrieben sind. Wenn wir also A
Determinanten
195
in die Einheitsmatrix transformieren, so ändert sich dabei ∆(A) um den gleichen
Faktor α 6= 0 wie det A. Es ergibt sich
α ∆(A) = ∆(In ) = det En = α det A.
Für eine n × n-Matrix A = (ai j ) setzen wir


a11 · · · a1q · · · a1n
.. 
 ..
...
. 
 .


a pq
a pn 
A pq =  a p1
 .
.. 
 ..
...
. 
an1 · · · anq · · · ann
A pq geht also durch Streichen der p-ten Zeile und der q-ten Spalte aus A hervor.
Mit dieser Bezeichnung können wir den Spaltenentwicklungssatz formulieren:
Satz 22.6. Sei A = (ai j ) eine n × n-Matrix. Dann ist für alle q, 1 ≤ q ≤ n:
n
det A =
∑ (−1) p+qa pq det A pq.
p=1
Beweis. Wie im Fall q = 1, den wir zur Definition der Determinante benutzt haben,
zeigt man, dass
n
∆q (A) =
∑ (−1) p+qa pq det A pq
p=1
eine Determinantenfunktion ist. Die Vorzeichen sind so gewählt, dass ∆q (E) = 1.
Nach 22.5 ist mithin ∆q (A) = det A für alle q.
Eine wichtige Operation ist das Transponieren von Matrizen.
Definition. Sei A = (ai j ) eine m × n-Matrix. Dann ist A⊤ = (a ji ) die Transponierte
von A. Deutlicher: Die i-te Spalte von A⊤ ist gerade die i-te Zeile von A, die j-te
Zeile von A⊤ ist die j-te Spalte von A.
Satz 22.7. Sei A eine n × n-Matrix. Dann ist det A = det A⊤ .
Beweis. Da die Zeilen von A⊤ die Spalten von A sind, zeigen unsere bisherigen
Überlegungen: Die Funktion δ : M(n, n) → K, δ (A) = det A⊤ , besitzt folgende Eigenschaften:
(a) Sie ist linear in jeder Spalte;
(b) δ (A) = 0, wenn zwei Spalten von A übereinstimmen;
(c) δ (En ) = 1.
Ferner ist δ die einzige Funktion mit dieser Eigenschaft.
Aber auch det besitzt die Eigenschaften (a), (b), (c). Für (c) ist dies hinlänglich
bekannt. Wenn zwei Spalten von A übereinstimmen, gilt det A = 0, weil dann
rang A < n; vgl. 22.4. Somit ist (b) erfüllt.
196
Abschnitt 22
Schließlich gilt auch (a). Um die Linearität in der q-ten Spalte zu beweisen,
betrachten wir einfach die Entwicklung nach dieser Spalte. Wenn a′′pq = a pq + a′pq
für p = 1, . . . , n und a′′i j = ai j = a′i j für j 6= q, so gilt A pq = A′pq = A′′pq für p = 1, . . . , n
und wir erhalten
n
′′
det A =
∑ (−1) p+q(a pq + a′pq)A′′pq
p=1
n
=
∑ (−1)
p+q
n
a pq A pq +
p=1
∑ (−1) p+qa′pqA′pq
p=1
′
= det A + det A .
Genauso zeigt man det A′ = β det A wenn
a′pq = β a pq für p = 1, . . . , n
und
ai j = a′i j sonst.
Da die Funktion δ mit den Eigenschaften (a), (b) und (c) eindeutig bestimmt ist,
muss δ (A) = det A für alle A ∈ M(n, n) gelten.
Durch Anwenden der Spaltenentwicklung auf det A⊤ erhalten wir wegen 22.7
den Zeilenentwicklungssatz für det A:
Satz 22.8. Für alle n × n-Matrizen A und alle p = 1, . . . , n gilt
n
det A =
∑ (−1) p+qa pq det A pq.
q=1
Ebenso ergibt sich, dass wir elementare Spaltenumformungen, Spaltenvertauschungen usw. zur Berechnung der Determinante heranziehen können.
Als nächstes untersuchen wir, wie sich die Determinante des Produktes zweier
Matrizen berechnen lässt:
Satz 22.9. Für alle n × n-Matrizen A, B ist
det AB = (det A)(det B).
Beweis. Sei zunächst rang B < n. Dann ist auch rang AB < n. Um dies zu beweisen,
betrachte man die A, B entsprechenden Endomorphismen des K n . Es ist
dim Bild ϕ ◦ ψ = dim ϕ (Bild ψ ) ≤ dim Bild ψ = rang ψ ,
und damit rang AB ≤ rang B. Im Fall rang B < n ist det B = 0, und nach dem soeben
Bewiesenen ist auch det AB = 0.
Sei nun rang B = n. Wir betrachten die durch
δ (A) = (det B)−1 (det AB)
definierte Abbildung δ : M(n, n) → K. (Dabei ist B festgehalten.)
Determinanten
197
Wir schreiben im Folgenden eine n × n-Matrix in der Form


v1
 ...  ,
vn
wobei v1 , . . . , vn die Zeilen von A sind. Es gilt



 
v1
v1 B
v1 B
..
..
..



 
.
.
.



 



 
′
′
 v j + v j  B =  (v j + v j )B  =  v j B + v′j B



 
..
..
..



 
.
.
.
vn
vn B
vn B
Also ist




det 




v1

 .. 


 . 




′ 
v j + v j  B = det  v j  B + det 

 . 

..

 .. 

.
vn
vn
v1
..
.


und durch Multiplikation mit (det B)−1 ergibt sich





v1
v1
..


 .. 

.


 . 






′
δ  vj +vj  = δ  vj +δ 


 . 

..


 .. 

.
vn
vn
Genauso folgt





.



v1
.. 
. 

v′j  B,
.. 
. 
vn

v1
.. 
. 

v′j  .
.. 
. 
vn



v1
v1
 .. 
 .. 
 . 
 . 




δ  βvj  = βδ  vj .
 . 
 . 
 .. 
 .. 
vn
vn
Dies zeigt: δ ist linear in jeder Zeile. Falls A zwei gleiche Zeilen besitzt, besitzt
auch AB zwei gleiche Zeilen, woraus det AB = 0 und somit δ (A) = 0 folgt. Schließlich ist
δ (En ) = (det B)−1 (det En B) = (det B)−1 (det B) = 1.
Insgesamt können wir mit Satz 22.5 schließen: δ (A) = det A für alle A. Also ist
det AB = (det B)δ (A) = (det B)(det A)
wie zu beweisen war.
198
Abschnitt 22
Als Folgerung ergibt sich
Satz 22.10. Sei A eine n × n-Matrix des Ranges n. Dann ist
det A−1 = (det A)−1 .
In der Tat ist (det A−1 )(det A) = det En = 1.
Ausgangspunkt unserer Überlegungen war die Suche nach einer Formel“ für
”
die Lösung eines eindeutig lösbaren linearen Gleichungssystems mit n Unbestimmten in n Gleichungen. Diese geben wir in 22.12 an; zunächst bestimmen wir
die Inverse einer Matrix mit Hilfe von Determinanten.
Satz 22.11. A sei eine n × n-Matrix des Ranges n. Dann gilt
1
A−1 =
B
det A
mit B = (bi j ) und bi j = (−1)i+ j det A ji (es ist hierzu die Transposition A ji , und
nicht Ai j zu beachten!!)
Wir erinnern daran, dass sich A ji durch Streichen der j-ten Zeile und i-ten Spalte aus A ergibt. Für eine 2 × 2-Matrix bedeutet Satz 22.11:
−1
1
d −b
a b
.
=
c d
ad − bc −c a
Beweis von Satz 22.11. Wir betrachten das Produkt
C = AB.
Es ist C = (ckm ) mit
n
n
ckm = ∑ aki bim = ∑ aki (−1)
i=1
i=1
i+m
det Ami =
det A,
0,
Zur Begründung der letzten Gleichung: Im Falle k = m ist
falls k = m
falls k 6= m.
n
∑ aki (−1)i+k det Aki
i=1
einfach die Entwicklung von det A nach der k-ten Spalte; im Falle k 6= m ist es die
Entwicklung von det A′ nach der k-ten Spalte, wobei sich A′ aus A dadurch ergibt,
dass wir die m-te Spalte von A durch die k-te ersetzen. Also ist det A′ = 0.
Insgesamt ergibt sich
1
1
1
B=
C = En , somit A−1 =
B.
A
det A
det A
det A
Beispiel. Wir möchten die Matrix A invertieren, fass dies möglich ist:


1 −1 1
1 2 .
A= 2
0
0 1
Determinanten
199
Da det A = 3 6= 0, dann ist A invertierbar. Dazu betrachten wir die Matrix B in Satz
22.11:

⊤
1 2
2 2
2 1
det
− det
det


0
1
0
1

0 0 

−1 1
1 1
1 −1 

A = 
−
det
det
−
det


0
1
0
1
0
0



−1 1
1 1
1 −1 
det
− det
det
1 2
2 2
2 1

⊤


1 −2 0
1 1 −3



1
1 0
−2 1
0 .
=
=
−3
0 3
0 0
3
Aus Satz 22.11 ergibt sich dann

 

1 1 −3
1/3 1/3 −1
1
1
0  =  −2/3 1/3
0 .
=  −2 1
A−1 =
det A 3
0 0
3
0
0
1
Der krönende Abschluss dieses Paragraphen ist die Cramersche Regel, die unser eingangs gestelltes Problem löst:
Satz 22.12. A sei eine n × n-Matrix des Ranges n und b ∈ K n . Dann ist die eindeutig bestimmte Lösung (ξ1 , . . . , ξn ) des linearen Gleichungssystems (A, b) gegeben
durch
det Bi
ξi =
, i = 1, . . . , n,
det A
wobei hier Bi diejenige Matrix ist, die sich aus A ergibt, wenn man die i-te Spalte
durch b ersetzt.
Beweis. Wir betrachten die Matrix A′ mit den Spalten
v1 , . . . , ξi vi − b, . . . , vn .
A′ hat Rang < n, weil ξi vi − b Linearkombination von v1 , . . . , vi−1 , vi+1 , . . . , vn ist.
Somit ist
det A′ = ξi det A − det Bi = 0.
Auflösen nach ξi ergibt die gesuchte Gleichung.
Beispiel. Wir lösen das folgende lineare Gleichungssystem mittels der Cramerschen Regel:
x1 + x2 + x3 = 1
x1 − 2x2 + 3x3 = 2
x1
− x3 = 5
200
Dabei sind
Abschnitt 22


 
1
1 1
1



A = 1 −2 3
und b = 2  .
1
0 1
5
Mit der Bezeichnung aus Satz 22.12 ist det A = 2 und


1
1 1
det B1 = det  2 −2 3  = 21,
5
0 1


1 1 1
det B2 = det  1 2 3  = −8,
1 5 1


1
1 1
det B3 = det  1 −2 2  = −11.
1
0 5
Nun ist wegen Satz 22.12 die eindeutig bestimmte Lösung des ursprünglichen
linearen Gleichungssystems
x1 = 21
2
x2 = −4
x3 = − 11
2.
ABSCHNITT 23
Eigenwerte und Eigenvektoren
Um einem Endomorphismus eines endlichdimensionalen Vektorraums eine
Matrix zuzuordnen, müssen wir erst eine Basis fixieren. Wie diese Matrix aussieht, hängt (fast immer) von der Wahl der Basis ab. In diesem Abschnitt ist es
unser Ziel, zu einem gegebenen Endomorphismus f eines endlichdimensionalen
K-Vektorraums V eine Basis von V zu bestimmen, bezüglich der die Matrix von f
eine möglichst einfache Gestalt hat.
Bevor wir uns dem schwierigen Problem der Endomorphismen zuwenden, betrachten wir lineare Abbildungen f : V → W . Die wesentliche Vereinfachung besteht darin, dass wir Basen in V und W unabhängig voneinander wählen können.
Satz 23.1. Sei K ein Körper, V seien endlichdimensionale K-Vektorräume und
f : V → W eine lineare Abbildung. Dann existieren Basen (v1 , . . . , vn ) von V
und (w1 , . . . , wm ) von W , so dass die Matrix von f bezüglich (v1 , . . . , vn ) und
(w1 , . . . , wm ) gerade


1
0
...

0 


0

1

Ar = 





0
0 
ist mit r = rang f .
Beweis. Es gilt r = rang f = dim Bild f . Wir wählen eine Basis (w1 , . . . , wr ) von
Bild f und ergänzen sie durch wr+1 , . . . , wm zu einer Basis von W . Dann wählen
wir v1 , . . . , vr ∈ V so, dass f (vi ) = wi . Es gilt dim Kern f = dimV − dim Bild f
gemäß 19.5. Daher können wir eine Basis von Kern f mit vr+1 , . . . , vn bezeichnen. Wir haben bereits beim Beweis von 19.5 gesehen, dass nun (v1 , . . . , vn ) eine
Basis von V ist.
Bezüglich der Basen (v1 , . . . , vn ) und (w1 , . . . , wm ) besitzt f gerade die behauptete darstellende Matrix.
Matrizen von linearen Abbildungen f : V → W besitzen also bezüglich geeigneter Basen eine sehr einfache Gestalt.
202
Abschnitt 23
Definition. Sei K ein Körper. Zwei Matrizen A, B ∈ Mn×n (K) heißen ähnlich,
wenn es eine invertierbare Matrix T ∈ Mn×n (K) gibt mit
B = T −1 AT.
Falls A ähnlich zu einer Diagonalmatrix ist, heißt A diagonalisierbar. Ein Endomorphimus ϕ : V → V eines endlich dimensionalen K-Vektorraumes heißt diagonaliB (ϕ )
sierbar, wenn es eine Basis B von V gibt, so dass die Darstellungsmatrix MB
eine Diagonalmatrix ist.
Für Endomorphismen wird man sicherlich eine Diagonalmatrix als einfach“
”
ansehen. Nehmen wir einmal an, f besäße bezüglich v1 , . . . , vn Diagonalform,


d1
0
...

A=
0
dn
sei die Matrix von f . Dann gilt für i = 1, . . . , n
f (vi ) = di vi ,
vi wird also von f auf ein Vielfaches von sich selbst abgebildet.
Definition. Sei V ein K-Vektorraum und f ein Endomorphismus von V . Wenn für
v ∈ V , v 6= 0,
f (v) = λ v
mit λ ∈ K gilt, heißt v ein Eigenvektor und λ der zugehörige Eigenwert von f .
Genau dann ist 0 ein Eigenwert von f , wenn f nicht injektiv ist, und die Eigenvektoren zum Eigenwert 0 sind gerade die von 0 verschiedenen Elemente des
Kerns.
Genau dann gilt f (v) = λ v, wenn
(λ id − f )(v) = 0,
denn (λ id − f )(v) = (λ id)(v) − f (v) = λ v − f (v). Die Eigenvektoren zum Eigenwert λ sind also die von 0 verschiedenen Elemente des Untervektorraums
Eλ ( f ) = Kern(λ id − f ).
Wir nennen Eλ ( f ) den Eigenraum von f zum Eigenwert λ . Die Dimension von
Eλ ( f ) heißt geometrische Vielfachheit des Eigenwertes λ .
Der folgende Satz informiert uns über die Beziehungen zwischen den Eigenräumen und die Zahl der möglichen Eigenwerte.
Satz 23.2. Sei V ein Vektorraum der Dimension n und f ein Endomorphismus von
V . Seien λ1 , . . . , λm paarweise verschiedene Eigenwerte von f und U = Eλ1 ( f ) +
· · · + Eλm ( f ). Dann gilt
Eigenwerte und Eigenvektoren
203
(a) U ist die direkte Summe von Eλ1 ( f ), . . . , Eλm ( f ),
U = Eλ1 ( f ) ⊕ · · · ⊕ Eλm ( f ).
(b) Speziell ist ∑m
i=1 dim Eλi ( f ) ≤ dimV und erst recht m ≤ dimV .
Beweis. Dass U direkte Summe der Eλi ( f ) ist, heißt ja folgendes: Die lineare Abbildung
Eλ1 ( f ) ⊕ · · · ⊕ Eλm ( f ) → V, (v1 , . . . , vm ) 7→ v1 + · · · + vm ,
bildet die externe“ direkte Summe Eλ1 ( f )⊕· · ·⊕Eλm ( f ) isomorph auf U ab. Nach
”
Definition von U ist U das Bild. Für die Injektivität ist zu zeigen:
v1 + · · · + vm = 0
=⇒
v1 , . . . , vm = 0.
Wir beweisen dies durch Induktion über m. Im Fall m = 1 ist die Behauptung trivial.
Sei m > 1. Es gilt
0 = f (v1 + · · · + vm ) = λ1 v1 + · · · + λm vm .
Damit ergibt sich mittels Subtraktion von λm (v1 + · · · + vm ) = 0:
(λ1 − λm )v1 + · · · + (λm−1 − λm )vm−1 = 0.
Auf v′1 = (λ1 − λm )v1 , . . . , v′m−1 = (λm−1 − λm )vm−1 können wir die Induktionsvoraussetzung anwenden, und wegen λi − λm 6= 0 für i 6= m ergibt sich dann
v1 , . . . , vm−1 = 0 und somit auch vm = 0.
Teil (b) folgt aus ∑m
i=1 dim Eλi ( f ) = dimU ≤ dimV .
Für die Bestimmung der Eigenwerte beachten wir, dass die Definition von
Eλ ( f ) für beliebiges λ ∈ K Sinn ergibt. Es gilt offensichtlich
λ Eigenwert von f
⇐⇒
Eλ ( f ) 6= 0
⇐⇒
λ id − f nicht injektiv.
Wir wählen eine Basis (v1, . . . , vn ) von V . Sei A die Matrix von f bezüglich
(v1 , . . . , vn) Sei En die n × n-Einheitsmatrix. Dann ist λ En − A die Matrix von
λ id − f , und genau dann ist λ id − f nicht injektiv, wenn rang(λ En − A) < n,
äquivalent, wenn
det(λ En − A) = 0.
Mit A = (αi j ) ist


λ − α11 − α12
...
− α1n
.. 

...
...
. 
 −α21
λ En − A =  .
.
.
.
..
..
 ..
−αn−1n 
...
−αnn−1 λ − αnn
−αn1
Es ist nicht schwierig zu zeigen, dass
det(λ En − A) = λ n + cn−1 λ n−1 + · · · + c0
204
Abschnitt 23
eine polynomiale Funktion von λ ist. Wir erweitern den Körper K zum Körper der
rationalen Funktionen K(X). Dann können wir die Determinante


X − α11 − α12
...
− α1n
.. 
...
...

. 
 −α21
det(XEn − A) = det  .

.
.
..
..
 ..
−αn−1n 
...
−αnn−1 X − αnn
−αn1
bilden. Es gilt
und
det(XEn − A) = X n + cn−1 X n−1 + · · · + c0
det(λ En − A) = det(XEn − A) (λ ).
Definition. Sei A eine n × n-Matrix. Das Polynom
χA = det(XEn − A)
heißt charakteristisches Polynom von A.
Wie wir gesehen haben, ist χA ein normiertes Polynom vom Grad n.
Sei (w1 , . . . , wn ) eine weitere Basis von V . Dann ist f bezüglich (w1 , . . . , wn )
durch die Matrix
B = CAC−1
gegeben, wobei C die Matrix des Übergangs von (v1 , . . . , vn) zu (w1 , . . . , wn ) ist. Es
gilt (detC)(detC−1 ) = 1. Also ist
χA = det(XEn − A) = (detC) det(XEn − A)(detC−1 )
= det(C(XEn − A)C−1) = det(XCEnC−1 −CAC−1 )
= det(XEn − B) = χB .
Wir haben damit gezeigt:
Satz 23.3. Sei V ein n-dimensionaler Vektorraum und f ein Endomorphismus von
V . Dann besitzen alle Matrizen A, die f bezüglich einer Basis von V darstellen,
das gleiche charakteristische Polynom χA .
Wegen Satz 23.3 dürfen wir χA das charakteristische Polynom von f nennen
und mit χ f bezeichnen. Seine Nullstellen sind gerade die Eigenwerte von f .
Eine zu Satz 23.3 äquivalente Aussage ist, dass ähnliche Matrizen das gleiche
charakteristische Polynom besitzen. Wenn wir von einer n × n-Matrix A ausgehen,
dann heißen die Eigenwerte des von A bezüglich der kanonischen Basis von K n
dargestellten Endomorphismus f die Eigenwerte von A. Entsprechendes soll für
die Eigenvektoren und Eigenräume gelten.
Eigenwerte und Eigenvektoren
205
Es ist unser Ziel, die Klassen ähnlicher Matrizen durch Invarianten zu beschreiben. Eine Invariante, die wir nun gefunden haben, ist das charakteristische Polynom. Zwei seiner Koeffizienten wollen wir uns näher ansehen. Sei
χA = X n + cn−1X n−1 + · · · + c0 .
Dann gilt
c0 = χA(0) = det(0En − A) = det(−A) = (−1)n det A.
Damit ist c0 identifiziert. Man kann sich auch überlegen:
cn−1 = −α11 − · · · − αnn .
Man nennt −cn−1 = α11 + · · · + αnn die Spur von A.
Da zu einem gegebenen Endomorphismus f das charakteristische Polynom χ f
unabhängig von der Wahl einer Matrix A für f ist, dürfen wir von der Determinante
und Spur von f sprechen.
Wenn auch ähnliche Matrizen das gleiche charakteristische Polynom haben, so
ist die Umkehrung doch falsch. Die Matrizen
1 0
1 1
I2 =
und A =
0 1
0 1
haben beide das charakteristische Polynom (X − 1)2 , aber die Einheitsmatrix ist
nur zu sich selbst ähnlich.
Ferner gilt dim E1 (E2 ) = 2, aber dim E1 (A) = 1. Obwohl in beiden Fällen 1 doppelte Nullstelle des charakteristischen Polynoms ist, haben die Eigenräume zum
Eigenwert 1 verschiedene Dimensionen.
Den Zusammenhang zwischen der Dimension von Eλ ( f ) und der Vielfachheit
von λ als Nullstelle von χ f nennt der nächste Satz. Außerdem gibt er ein einfaches
Kriterium für Diagonalisierbarkeit: Ein Endomorphismus heißt diagonalisierbar,
wenn er bezüglich einer geeigneten Basis durch eine Diagonalmatrix dargestellt
wird; eine Matrix heißt diagonalisierbar, wenn sie zu einer Diagonalmatrix ähnlich
ist.
Satz 23.4. Sei f ein Endomorphismus des endlichdimensionalen K-Vektorraums
V . Seien λ1 , . . . , λm die paarweise verschiedenen Eigenwerte von f und e1 , . . . , em
ihre Vielfachheiten als Nullstellen von χ f .
(a) Es gilt dim Eλi ( f ) ≤ ei für i = 1, . . . , m.
(b) Folgende Aussagen über f sind äquivalent:
(i) f ist diagonalisierbar.
(ii) V besitzt eine Basis aus Eigenvektoren von f .
(iii) χ f zerfällt in Linearfaktoren, und es gilt dim Eλi ( f ) = ei für i =
1, . . . , m.
206
Abschnitt 23
Beweis. (a) Sei λ ein Eigenwert. Wir wählen eine Basis v1 , . . . , vr von Eλ ( f ) und
ergänzen sie zu einer Basis v1 , . . . , vn von V . Die Matrix von f bezüglich v1 , . . . , vn
hat dann die Gestalt


λ
0 ∗ ··· ∗
...




 0

λ
.
A=






0
∗ ··· ∗
Sukzessive Entwicklung von det(XEn − A) nach den Spalten 1, . . . , r ergibt
χ f = χA = (X − λ )r · g
mit einem Polynom g ∈ K[X]. Daraus folgt unmittelbar Teil (a).
(b) Die Äquivalenz von (i) und (ii) haben wir bereits zu Beginn des Abschnitts
gesehen.
Wenn f eine Basis aus Eigenvektoren (v1 , . . . , vn ) mit den Eigenwerten λ̃1 , . . . ,
λ̃n besitzt, gilt
χ f = (X − λ̃1 ) · · · (X − λ̃n ),
χ f zerfällt also in Linearfaktoren. Unter λ̃1 , . . . , λ̃n kommt λi genau ei -mal vor.
Also ist dim Eλi ( f ) ≥ ei und dann dim Eλi ( f ) = ei gemäß (a). Dies beweist die
Implikation (ii) ⇒ (iii).
Die Umkehrung (iii) ⇒ (ii) ergibt sich aus 23.2: Wenn dim Eλi ( f ) = ei für
i = 1, . . . , m und χ f in Linearfaktoren zerfällt, dann ist
m
m
∑ dim Eλi ( f ) = ∑ ei = grad χ f = dimV.
i=1
i=1
Mit den Bezeichnungen von 23.2 gilt also
V = U = Eλ1 ( f ) ⊕ · · · ⊕ Eλm ( f ).
Eine unmittelbare Folgerung aus Satz 23.4:
Satz 23.5. Sei f ein Endomorphismus des K-Vektorraums V mit n = dimV < ∞.
Wenn χ f n paarweise verschiedene Nullstellen besitzt, so ist f diagonalisierbar.
Zur Bestimmung der Eigenwerte haben wir die Nullstellen des charakteristischen Polynoms zu ermitteln.
Wenn uns dies gelungen ist, finden wir den Eigenraum zu einem Eigenwert
λ als Lösung eines homogenen linearen Gleichungssystems: Wenn A die Matrix
von f bezüglich einer Basis (v1 , . . . , vn ) ist, so bilden die Lösungen des homogenen linearen Gleichungssystems (λ En − A, 0) gerade die Koordinatenvektoren der
Eigenvektoren von f zum Eigenwert λ bezüglich (v1 , . . . , vn ).
Eigenwerte und Eigenvektoren
207
Bei den folgenden Beispielen ist der betrachtete Endomorphismus stets der von
der jeweiligen Matrix A bezüglich der kanonischen Basis des K n bestimmte Endomorphismus.
(a) K = Q (oder R oder C)
χA = (X − 1)2 − 4 = X 2 − 2X − 3
Eigenwerte: λ1 = −1, λ2 = 3
1 −4
A=
Basis von E−1 (A): (1, 1/2)
−1 1
Basis von E3 (A): (1, −1/2)
A ist diagonalisierbar.
(b) K = R,
0 1
A=
−1 0
(c) K = C,
χA = X 2 + 1
A besitzt keinen Eigenwert.
χA = X 2 + 1
Eigenwerte: λ1 = i, λ2 = −i
0 1
A=
Basis von Ei (A): (1, i),
−1 0
Basis von E−i (A): (1, −i).
Die Matrix A ist also über C diagonalisierbar, besitzt aber keinen reellen
Eigenwert.
(d) K beliebig,
χA = (X − 1)2
Eigenwert: λ1 = 1.
Basis von E1 (A): (1, 0).
Über keinem Körper K ist A diagonalisierbar.
Wir rechnen noch ein etwas komplizierteres Beispiel:


−1 2 −1
0 −1
A= 1
−1 −2 −1


X + 1 −2
1
X
1  = X 3 + 2X 2 − 4X − 8
χA = det  −1
1
2 X +1
1 1
A=
0 1
= (X − 2)(X + 2)2.
Eigenwerte: λ1 = 2, λ2 = −2.
Lösen des linearen Gleichungssystems (2En − A, 0):
3 −2 1 1
2
3 1 2 3 1 0 1
−1
2 1 0
4
4 0 1 1 0 1 1
1
2 3 0 −8 −8 0 0 0 0 0 0
208
Abschnitt 23
Basis von E2 (A): v = (−1, −1, 1).
Lösen des linearen Gleichungssystems (−2En − A, 0):
−1 −2
1 1 +2 −1
0
0
−1 −2
1 0
1
2 −1 0
0
0
Basis von E−2 (A): w1 = (−2, 1, 0), w2 = (1, 0, 1).
Wir betrachten noch kurz die Fälle K = C und K = R. Da nach dem Fundamentalsatz der Algebra jedes nicht konstante Polynom f ∈ C[X] eine Nullstelle
besitzt, hat jeder Endomorphismus eines endlichdimensionalen C-Vektorraums V
mindestens einen Eigenwert (außer im trivialen Fall V = {0}):
Satz 23.6. Sei V ein C-Vektorraum mit 0 < dimV < ∞ und f : V → V ein Endomorphismus. Dann besitzt f einen Eigenwert.
Anmerkung. Dass die Aussage von 23.6 für K = R nicht gilt, haben wir oben
gesehen.
Nachwort
Dann sprach sie wieder.
Schade, dass der Weg nicht länger war. Findest du nicht?≪
≫
Früher oder später wären wir ohnehin ans Ende gelangt.≪
≫
Pakhi sah mich an, und ihre Augen glänzten im Mondlicht. Dann wandte sie
den Blick ab und fragte:
Woran hast du die ganze Zeit gedacht? ≪
≫
Keine Ahnung. ≪
≫
Ich habe daran gedacht, wie schön es ist zu gehen, und doch bereitet das
Gehen dem Weg ein Ende. ≪
≫
Damals lachte ich über ihre Worte. Aber jetzt denke ich, dass dieses vierzehnjährige Mädchen, ohne es zu wissen, eine Wahrheit erkannt hatte. Denn so
ist es doch: Indem wir leben, brauchen wir unser Leben auf. Die Wege, die wir
gern beschreiten, enden, weil wir sie abschreiten.
Aus dem Buch: Das Mädchen meines Herzens, von Buddhadeva Bose.
List Taschenbuch, 2012. Seite 61.
Literaturverzeichnis
[Art] Artin, M.: Algebra. Birkhäuser, Basel 1993
[Bre] Brenner, H.: Mathematik für Anwender I, Skript, Osnabrück WS 2011/12
[Bri] Brieskorn, E.: Lineare Algebra und analytische Geometrie I, II. Vieweg, Braunschweig 1985
[Bru1] Bruns, W.: Lineare Algebra 1, Skript, Osnabrück WS 2011/12
[Bru2] Bruns, W.: Analysis I, Skript, Osnabrück.
[Fis] Fischer, G.: Lineare Algebra. Vieweg, Braunschweig 1997
[HW] Hairer, E. ind Wanner, G.: Analysis by Its History. Springer, New York, 1996
[Heu] Heuser, H.: Lehrbuch der Analysis. Teil 1. 17., aktualisierte Auflage. Vieweg+Teubner, Wiesbaden 2009
[Jan] Jänich, K.: Lineare Algebra. Springer, Berlin 1998
[Ker] Kersten, I.: Analytische Geometrie und Lineare Algebra 1. Universitätsdrucke
Göttingen 2005
[Kn] Knopp, K.: Theorie und Anwendung der unendlichen Reihen. 5. Aufl. Springer,
Berlin, 1964
[Kow] Kowalsky, H.-J.: Lineare Algebra. de Gruyter, Berlin 1995
[Lan] Lang, S.: Linear Algebra. Springer, Berlin 1993
[Lip] Lipschutz, S.: Linear Algebra. McGraw-Hill, New York 1974
[Lor] Lorenz, F.: Lineare Algebra I, II. Spektrum, Heidelberg 1996
[Os] Ostrowski, A.: Vorlesungen über Differential- und Integralrechnung. Band I.
Birkhäuser, Basel, 1952
[Se] Serret, J.A.: Calcul différentiel et intégral, tome premier. Gauthier-Villars, Paris,
1900
[Smi] Smith, L.: Linear Algebra. Springer, New York 1978
[StG] Stoppel, H. und Griese, B.: Übungsbuch zur Linearen Algebra. Vieweg, Braunschweig 1998.
[StW] Storch, U. und Wiebe, H.: Lehrbuch der Mathematik, Band 2. Spektrum, Heidelberg 1999
[Tra] Trapp, H.-W.: Einführung in die Algebra. Rasch, Osnabrück 1995
Herunterladen