I. Grundlagen

Werbung
Inhaltsverzeichnis
§1
§2
§3
§4
§5
§6
§7
§8
§9
§10
§11
§12
§13
§14
Aussagen und Aussagenlogik . . .
Beweise . . . . . . . . . . . . . . .
Mengen und Abbildungen . . . . .
Reelle und komplexe Zahlen . . . .
Lineare Gleichungssysteme . . . . .
Die Matrixmultiplikation . . . . . .
Vektorräume . . . . . . . . . . . .
Determinanten . . . . . . . . . . .
Lineare Abbildungen . . . . . . . .
Analytische Geometrie . . . . . . .
Reelle und komplexe Zahlenfolgen
Reihen . . . . . . . . . . . . . . . .
Stetige Funktionen . . . . . . . . .
Differenzierbare Funktionen . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
8
11
48
72
82
95
115
134
149
162
178
202
223
$Id: aussagen.tex,v 1.5 2015/10/20 16:06:35 hk Exp $
Vorlesung 1, Freitag 24.10.2008
I. Grundlagen
§1
Aussagen und Aussagenlogik
1.1
Aussagen
In diesem einleitenden Abschnitt wollen wir einige grundlegende Begriffe und Tatsachen
der Aussagenlogik vorstellen. Diese werden Ihnen wahrscheinlich bereits weitesgehend
bekannt sein, achten sollten Sie vor allem auf die in der Mathematik verwendeten
Interpretationen der logischen Junktoren oder“ und folgt“. Unter einer Aussagen
”
”
verstehen wir hier, und in dieser Vorlesung, einen sprachlichen Ausdruck der einen
eindeutigen Wahrheitsgehalt hat, also entweder wahr oder falsch ist. Streng genommen sollten wir eigentlich von einer mathematischen Aussage sprechen, nur diese sind
gemeint. Beispiele derartiger (mathematischer) Aussagen sind:
• 3 + 4 = 7.
• 7 · 8 = 44 (Dies ist zwar falsch, aber trotzdem eine Aussage).
1
Mathematik für Ingenieure I, WS 2008/2009
Freitag 24.10.2008
• Die 5-te Nachkommastelle von π ist 9.
Alle diese Ausdrücke sind definitiv, und ohne jeden Verhandlungsspielraum jeweils wahr
oder falsch. Definitiv keine Aussagen in unserem Sinn sind dagegen Ausdrücke wie
• Dieses Gebäude müsste dringend gestrichen werden.
• Diese Vorlesung ist langweilig.
• Die Tafel ist grün.
Die ersten beiden dieser Beispiele sind reine Meinungsäußerungen, diese haben zwar für
eine gegebene Person zu einem bestimmten Zeitpunkt einen gewissen Wahrheitswert,
dieser ist aber sicher nicht definitiv festgelegt. Das dritte Beispiel ist dagegen bereits
von einer etwas objektiveren Natur. Trotzdem werden derartige von realen, physikalischen Objekten handelnde Aussagen üblicherweise nicht als mathematische Aussagen
behandelt, da ihr Wahrheitsgehalt stark vom Kontext abhängt. Man kann fragen was
den grün“ bedeutet, ob die Tafel selbst grün ist oder nur ihre Reflexion unter Licht”
einstrahlung grün ist, ob die Tafel bei völliger Dunkelheit noch immer grün ist, und so
weiter. Wir wollen uns auf Aussagen beschränken, die nur von mathematischen Objekten handeln. Im Rahmen der Mathematik ist dies eine sinnvolle Einschränkung, da wir
Aussagen wirklich im mathematischen Sinne beweisen wollen. Dies ist für Aussagen
über physikalische Objekte schlichtweg nicht möglich. Vielleicht ändern sich ja morgen die Naturgesetze schlagartig, das ist keine sehr realistische Befürchtung, aber rein
logisch immer denkbar.
In einer anderen Hinsicht sind wir dagegen recht großzügig, es ist nicht nötig zu
wissen ob eine mathematische Aussage nun wahr oder falsch ist, es kommt nur darauf
an, daß sie eines von beiden ist. Beispiele solcher zweifelsfrei mathematischen Aussagen,
deren Wahrheitsgehalt wir zur Zeit nicht kennen sind:
• Die 104000 -te Nachkommastelle von π ist eine 7.
n
• Es gibt eine Fermat-Primzahl (das sind Primzahlen der Form 22 + 1), die größer
als 65537 = 216 + 1 ist.
• Es gibt beliebig große natürliche Zahlen n so, dass unter den ersten n Nachkommastellen von π die 7 genauso oft wie die 3 vorkommt.
Welche dieser Aussagen wahr oder falsch sind ist nicht bekannt. Für die dritte Aussage
können wir uns sogar ziemlich sicher sein, das man das nie wissen wird. Trotzdem
sind alle drei Aussagen auch mathematische Aussagen in unserem Sinn, denn entweder
wahr oder falsch sind sie allemal, auch wenn wir nicht wissen welche dieser beiden
Möglichkeiten nun zutrifft.
Außerdem dürfen Aussagen auch von freien Parametern abhängen. Zum Beispiel
können wir die Aussage x2 = 4 betrachten, in der x für eine reelle Zahl steht. Ob diese
Aussage wahr oder falsch ist, hängt vom konkreten Wert von x ab, aber wahr oder
falsch ist sie immer, unabhängig von x.
2
Mathematik für Ingenieure I, WS 2008/2009
Freitag 24.10.2008
Wir nennen zwei Aussagen A und B äquivalent wenn entweder A und B beide wahr
sind oder A und B beide falsch sind. Alternativ sagen wir auch, A genau dann wenn
”
B“, oder A und B sind gleichbedeutent“, und so weiter. In Formelnotation wird die
”
Äquivalenz der beiden Aussagen A und B als A ⇔ B geschrieben.
1.2
Logische Junktoren
Es gibt verschiedene Konstruktionen aus bereits gegebenen Aussagen A, B, . . . neue
Aussagen zusammenzusetzen. Diese werden gelegentlich als aussagenlogische Junktoren
bezeichnet. Der einfachste dieser Junktoren ist die Verneinung. Ist A eine Aussage, so
ist die Verneinung von A die Aussage ¬A, die genau dann wahr ist wenn A falsch ist.
Ebenfalls ohne Überraschungen ist die Konjuktion, oder simpler die und“, Aussage.
”
Bei dieser sind zwei Aussagen A, B gegeben, und man bildet die neue Aussage A ∧ B,
gesprochen als A und B, die genau dann wahr ist wenn beide Aussagen A und B wahr
sind.
Diese Festlegungen sollten nicht besonders überraschend sein. Der nächste unserer
Junktoren wird nun die Disjunktion, beziehungsweise oder“ Aussage, sein. Hier gibt es
”
ein kleines Detail zu beachten, die Bedeutung der Disjunktion weicht gelegentlich etwas
von der sonst üblichen Verwendung dieses Wortes ab. Sind A, B wieder zwei Aussagen,
so ist die Disjunktion A ∨ B, gesprochen als A oder B, genau dann wahr wenn eine der
beiden Aussagen A, B wahr ist. Hierbei ist immer der Fall erlaubt, dass sogar beide
Aussagen A, B wahr sind. In der umgangssprachlichen Verwendung des Wortes hängt
es dagegen gelegentlich vom vorliegenden Kontext ab, ob auch die Gültigkeit beider
Aussagen möglich ist. Beachte weiter, dass mit eine der beiden Aussagen“ implizit
”
mindestens eine der beiden Aussagen“ gemeint ist. Dies ist die übliche Konvention,
”
bei derartigen Zahlangaben ist immer implizit mindestens“ gemeint. Sagen wir bei”
spielsweise, dass zwei der drei natürlichen Zahlen a, b, c gerade sind. so ist ebenfalls
erlaubt das sogar alle drei Zahlen gerade sind.
Wollen wir dagegen sagen, dass eine, aber nicht alle beide, der Aussagen A, B wahr
sind, so sagen wir das genau eine der beiden Aussagen A, B wahr ist. Dies ist dann
das sogenannte ausschließende, oder exklusive, oder. Dieses kommt innerhalb der Mathematik relativ selten vor, und es hat daher auch kein allgemein verwendetes Symbol.
Gelegentlich ist es klarer logische Junktoren in Form sogenannter Wahrheitstabellen zu
beschreiben. Die Tabellen für Konjunktion und Disjunktion haben dabei die folgende
Form:
@A
A ∨ B: B
@ 0 1
0 0 1
1 1 1
A
A ∧ B: @
B @ 0 1
0 0 0
1 0 1
In diesen Tabellen schreiben wir 0 für falsch“ und 1 für wahr“. Dies soll nicht etwa
”
”
bedeuten, dass die Zahlen 0 und 1 irgendetwas mit wahr“ und falsch“ zu tun haben,
”
”
es handelt sich nur um Symbole für diese Begriffe. Alternativ könnten wir auch f
3
Mathematik für Ingenieure I, WS 2008/2009
Freitag 24.10.2008
und w anstelle von 0 und 1 schreiben. Bei Formeln in denen mehr als zwei Aussagen
vorkommen ist diese simple Form einer Wahrheitstabelle nicht mehr möglich. Man
behilft sich dann mit einer tabellarischen Auflistung etwa der folgenden Form (in diesem
Beispiel für A ∨ (B ∧ C) mit drei Aussagen A, B, C):
A B C
0 0 0
0 0 1
0 1 0
0 1 1
1 0 0
1 0 1
1 1 0
1 1 1
A ∨ (B ∧ C)
0
0
0
1
1
1
1
1
Zur Illustration der Verwendung dieser logischer Junktoren, sowie als ein erstes kleines Beispiel eines Beweises, wollen wir nun die sogenannten de Morganschen Regeln
beweisen. Diese beschreiben den Zusammenhang der Verneinung mit Konjuktion und
Disjunktion, und dürften Ihnen wahrscheinlich bekannt.
Satz 1.1 (De Morgansche Regeln)
Seien A, B zwei Aussagen. Dann gelten:
(a) Es ist ¬(A ∨ B) ⇐⇒ (¬A) ∧ (¬B).
(b) Es ist ¬(A ∧ B) ⇐⇒ (¬A) ∨ (¬B).
Beweis: (a) Die Aussage ¬(A ∨ B) ist genau dann wahr, wenn A ∨ B falsch ist, d.h.
wenn A und B beide falsch. Dies bedeutet aber gerade, dass ¬A und ¬B beide wahr
sind, und dies besagt (¬A) ∧ (¬B).
(b) Dieses könnten wir analog zu (a) beweisen, da es uns hier aber um ein Beispiel eines
Beweises, und nicht um die De Morganschen Regeln selbst, geht, führen wir hier einen
anderen Beweis vor, der (b) auf den bereits bewiesenen Teil (a) des Satzes zurückführt.
Wir haben nämlich die folgende Kette von Äquivalenzumformungen:
¬(A ∧ B) ⇐⇒ ¬((¬¬A) ∧ (¬¬B))
⇐⇒ ¬¬((¬A) ∨ (¬B))
(a)
⇐⇒ (¬A) ∨ (¬B),
wobei wir Teil (a) auf die beiden Aussagen ¬A und ¬B anstelle von A und B anwenden.
Alternativ können wir Teil (a), und natürlich auch (b), auch mit Hilfe unserer Wahrheitstafeln einsehen. Zu diesem Zweck wird für beide Seiten der zu beweisenden Äquivalenz die jeweilige Wahrheitstafel aufgestellt, und überprüft das die beiden so entstehenden Tafeln identisch sind. Dies zeigt dann, dass die eine Aussage genau dann
4
Mathematik für Ingenieure I, WS 2008/2009
Freitag 24.10.2008
wahr ist, wenn auch die andere wahr ist, und dies bedeutet genau die Äquivalenz der
betrachteten Aussagen. Für die erste der beiden de Morganschen Regeln hätten wir
dabei die Tafeln
¬(A ∨ B) :
(¬A) ∧ (¬B) :
0 1
0 1 0
1 0 0
0 1
0 1 0
1 0 0
Die Verwendung von Wahrheitstafeln sieht so aus, als wäre es eine eigenständige Beweismethode, aber in Wahrheit ist es nur eine kompakte Darstellung eines direkten
Beweises. Im Grunde machen wir dort ja nur eine vollständige Fallunterscheidung, und
könnten die Tabelle durch einen Text der Form Sind A und B beide falsch, so sind
”
auch ¬(A ∨ B) und (¬A) ∧ (¬B) beide wahr. Sind A wahr aber B falsch, so ...“ ersetzen. In diesem Stil kann ein Beweis durch Wahrheitstafeln rein mechanisch in einen
gewöhnlichen textlichen Beweis überführt werden.
1.3
Die Implikation
Der letzte noch zu diskutierende logische Junktor ist die Implikation oder auch Folgerung. Sind A, B zwei Aussagen, so ist die Aussage A ⇒ B, gesprochen als aus A
”
folgt B“ oder A impliziert B“, wahr wenn mit A auch B stets wahr ist. In Form einer
”
Wahrheitstafel soll diese Festlegung gerade
A
A ⇒ B: @
B @ 0 1
0 1 0
1 1 1
bedeuten. Beachte das die Implikation A ⇒ B insbesondere immer dann wahr ist
wenn die Voraussetzung A der Implikation falsch ist. Anders gesagt soll aus einer
falschen Aussage jede beliebige andere Aussage folgen. Dies erscheint zunächst als eine
etwas merkwürdige Festlegung, aber dieser Eindruck sollte bei näherer Betrachtung
verfliegen. Umgangssprachlich würde man eine Aussage der Form Wenn morgen das
”
Hörsaalgebäude einstürzt, so fällt die Vorlesung aus“, als wahr betrachten unabhängig
davon ob das Gebäude morgen noch steht, selbst dann wenn die Vorlesung trotz eines
in bestem Zustand befindlichen Hörsaals ausfällt.
Ein weiterer Grund für die angegebene Interpretation der Implikation, der für die
Mathematik auch erheblich schwerwiegender ist, sind Aussagen in denen noch freie
Variablen vorkommen. Steht x beispielsweise für eine reelle Zahl, so sollte die Aussage
x2 = 4 =⇒ x = 2 ∨ x = −2
immer wahr sein, unabhängig davon welchen konkreten Wert x jetzt hat.
In der nächsten Sitzung werden wir den Implikationsbegriff noch etwas genauer
besprechen.
5
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 28.10.2008
Vorlesung 2, Dienstag 28.10.2008
Der folgende Satz zeigt nun, dass sich die Implikation auch durch und“ und oder“
”
”
ausdrücken läßt.
Satz 1.2: Seien A, B zwei Aussagen. Dann gelten:
(a) Es ist ¬(A ⇒ B) ⇐⇒ A ∧ (¬B).
(b) Es ist (A ⇒ B) ⇐⇒ (¬A) ∨ B.
Beweis: (a) Die Verneinung ¬(A ⇒ B) ist genau dann wahr, wenn A ⇒ B falsch ist,
also wenn A wahr aber B falsch ist. Letzteres bedeutet aber genau die Gültigkeit von
A ∧ (¬B).
(b) Mit Teil (a) und den de Morganschen Regeln Satz 1 haben wir die folgende Kette
von Äquivalenzumformungen:
(A ⇒ B) ⇐⇒
⇐⇒
⇐⇒
⇐⇒
¬¬(A ⇒ B)
¬(A ∧ (¬B))
(¬A) ∨ (¬¬B)
(¬A) ∨ B.
Insbesondere scheint die Implikation damit auf derselben inhaltlichen Stufe wie und“
”
und oder“ zu stehen, was Sie zumindest irritieren sollte. Dieser Eindruck täuscht auch
”
in gewisser Weise, denn der in Satz 2 verwendete Implikationsbegriff ist rein formaler
Natur. Es kommt dort nur auf den Wahrheitswert der Aussagen A und B an, nicht
aber auf die inhaltliche Bedeutung dieser Aussagen. Diesen Implikationsbegriff sollte
man nicht mit dem inhaltlichen Folgerungsbegriff verwechseln, dass also eine Aussage B
durch logsiches Schließen aus einer Aussage A folgt. Bei letzterem kommt es tatsächlich
auf die Bedeutung von A und B an. Die formale Untersuchung des Folgerungsbegriffs
gehört zur mathematischen Logik, beziehungsweise zur sogenannten Beweistheorie, und
wird nicht Gegenstand dieser Vorlesung sein. Wir wollen hier nur darauf hinweisen,
dass diese Fragen gelegentlich sogar eine gewisse praktische Bedeutung haben, zum
Beispiel für Dinge wie formale Korrektheitsbeweise für Computerprogramme in der
(theoretischen) Informatik.
Zum Abschluss dieses Abschnitts wollen wir noch kurz das sogenannte Kontrapositionsprinzip herleiten.
Satz 1.3 (Kontrapositionsprinzip)
Seien A, B zwei Aussagen. Dann ist A ⇒ B zu (¬B) ⇒ (¬A) äquivalent.
6
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 28.10.2008
Beweis: Dies können wir leicht auf den vorherigen Satz 2 zurückführen. Wir haben
nämlich die Äquivalenzen:
A ⇒ B ⇐⇒ (¬A) ∨ B ⇐⇒ (¬¬B) ∨ (¬A) ⇐⇒ (¬B) ⇒ (¬A).
1.4
Modellierung
Bei unserer Einführung mathematischer Aussagen haben wir uns ausdrücklich auf Aussagen beschränkt, die nur von mathematischen Objekten handeln. Andere Aussagetypen, etwa über reale physikalische Gegenstände, sollen dagegen nicht Gegenstand der
Mathematik sein. Auch später in dieser Vorlesung werden wir uns in ähnlichen Situationen immer auf diesen strikten Standpunkt stellen. Dies vereinfacht zwar unsere
Diskussion, man könnte aber den Eindruck gewinnen die Mathematik wäre nur ein
nicht besonders nützliches Puzzlespiel.
Dieser Eindruck täuscht natürlich, tatsächlich sind weite Teile der Mathematik
sogar ausdrücklich zur Lösung konkreter physikalischer und anderer angewandter Probleme entwickelt worden. Man kann sich die Anwendung mathematischer Methoden
auf konkrete Probleme im Prinzip als in drei Phasen aufgeteilt denken. Zuerst wird
die gegebene Anwendungssituation modelliert, d.h. den realen Gegenstände und Konzepten werden sie repräsentierende mathematische Objekte zugeordnet, und die Beziehungen zwischen ihnen werden in Beziehungen zwischen diesen mathematischen Objekten übertragen. Dieser Modellierungsprozess ist kein Teil der Mathematik sondern
ein Thema der für die jeweilige Anwendungssituation zuständigen Theorie. Nachdem
diese Modellierung erfolgt ist, wird die entstandene Situation innerhalb der Mathematik untersucht und ausgewertet. Nur dieser Teil ist Mathematik im eigentlichen Sinn,
und damit Gegenstand dieser Vorlesung. Zum Abschluß werden dann die erhaltenen
Resultate für das vorliegende konkrete Problem ausgewertet, und gegebenenfalls weiter
untersucht, etwa durch Messungen oder andere empirische Methoden.
Dies ist natürlich eine idealisierte Beschreibung, in realen Beispielen werden die
obigen drei Schritte natürlich miteinander vermischt werden und in einem iterativen
Prozess mehrfach wiederholt und verfeinert werden. Wir wollen hier kurz ein Beispiel
beschreiben, bei dem sich die Trennung in Modellierung und mathematische Beschreibung ungewöhnlich deutlich vornehmen läßt. Als solch ein Beispiel wollen wir hier die
Bewegung der Planeten um die Sonne verwenden.
Die Zeit modellieren wir hier wie eigentlich immer durch eine reelle Zahl. Der zu betrachtende Planet wird zum Zeitpunkt t durch einen Punkt p(t) im Raum sowie durch
eine weitere Zahl m, die seine Masse angibt, beschrieben. Wie immer in solchen Fällen
werden die meisten Details der Situation ignoriert, in Wahrheit ist ein Planet ja kein
Punkt, er hat keine zeitlich konstante Masse und so weiter. Welche Details zu berücksichtigen und welche zu vernachlässigen sind, ist eine Entscheidung der Physik und
7
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 28.10.2008
kein mathematisches Problem. Ebenso beschreiben wir die Sonne durch eine Position
s(t) und eine Masse M . Das Gravitationsgesetz übersetzen wir nun in die Definition
der Funktion
mM
F (t) := −γ
(p(t) − s(t)).
||p(t) − s(t)||3
Schließlich übersetzt sich das Bewegungsgesetz in die Differentialgleichung mp00 (t) =
F (t) und analog ergibt sich eine Differentialgleichung für s(t). Damit ist die Modellierung abgeschlossen, als mathematische Objekte haben wir die Zahlen γ, m, M und die
beiden Funktionen p(t), s(t), und unsere Differentialgleichungen geben die Beziehungen
zwischen diesen Objekten an.
Damit sind wir in der rein mathematischen Phase Zwei, die hier in der Lösung unserer Differentialgleichung besteht. Natürlich kann es heuristisch nützlich sein, sich über
das unterliegende physikalische Problem im klaren zu sein, aber im Prinzip haben wir
hier eine mathematische Aufgabe. Die Lösungsdetails wollen wir hier nicht diskutieren,
diese kennen Sie vielleicht aus der Schule oder aus Ihrer Physikvorlesung. Als Ergebnis
erhalten wir jedenfalls, bei geeigneten Anfangsbedingungen und Werten von m und
M , die üblichen Ellipsenbahnen. In der Auswertungsphase können wir dann hieraus
beispielsweise die Keplerschen Gesetze herleiten. Beachte das es sich hierbei keinesfalls
um einen mathematischen Beweis der Keplerschen Gesetze handelt, unsere ursprüngliche Differentialgleichung ist ja nicht mathematisch sondern physikalisch begründet
worden.
Umgekehrt bedeutet ein nicht mit der Realität übereinstimmendes Ergebnis der
mathematischen Untersuchung nicht notwendig, dass diese fehlerhaft ist. Ebensogut
kann die verwendete Modellierung der Sitaution nicht angemessen sein. Zur detaillierteren Beschreibung der Bahnen von Jupiter und Saturn reicht unser obiges Modell
zum Beispiel nicht aus, da es die Anziehung zwischen diesen beiden Planeten völlig
ignoriert. Ebenso scheitert unser Modell beispielsweise an der Beschreibung von Satelietenbahnen um die Erde, hier ist die Modellierung der Erde durch einen Punkt nicht
mehr angemessen, die exakte Form der Erde sowie ihre inhomogene Masseverteilung
spielen hier eine Rolle, die von unserem simplen Modell nicht berücksichtigt wird.
$Id: beweise.tex,v 1.3 2009/02/25 08:58:56 hk Exp $
§2
Beweise
Die Aussagen der Mathematik werden in Form sogenannter Sätze beschrieben. Dabei verwenden wir das Wort Satz“ hier als einen Oberbegriff, einige Sätze werden
”
gerne auch mit Namen wie Lemma“, Theorem“, Hilfssatz“ und so weiter versehen,
”
”
”
und auch andere Resultate wie etwa Rechenverfahren und Algorithmen interpretieren
wir hier als mathematische Sätze. Jeder mathematische Satz besteht aus einer oder
8
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 28.10.2008
mehreren Voraussetzungen und einer Behauptung. Zur Begründung eines solchen Satzes wird dann ein Beweis angegeben, dies ist eine Kette logischer Folgerungen, die aus
den Voraussetzungen des Satzes auf seine Behauptung schließt. Das Wort Beweis“
”
wird hierbei wesentlich enger als im normalen Sprachgebrauch verwendet, Plausibilitätsbetrachtungen und heuristische oder empirische Begründungen reichen keinesfalls
aus. Ein Beweis muss eine vollständige logische Folgerungskette sein. Je nach intendierten Leserkreis wird ein mathematischer Beweis oft nicht in dieser Vollständigkeit
wirklich hingeschrieben, dies ist aber nicht wesentlich, es muss nur klar sein, dass man
die fehlenden Teile der Folgerungskette nötigenfalls hinzufügen könnte.
Ein Beweis verfolgt hauptsächlich zwei Zwecke. Zum einen begründet er überhaupt
die Gültigkeit eines mathematischen Satzes, empirische oder heuristische Argumente
reichen hierzu, wie bereits bemerkt, nicht aus. Auf der anderen Seite soll ein Beweis seinen Satz natürlich auch erklären. Insbesondere kann es durchaus sinnvoll sein, verschiedene Beweise ein und desselben Satzes zu kennen, wenn diese Beweise den fraglichen
Satz von verschiedenen Gesichtspunkten aus begründen.
Es gibt im wesentlichen zwei Grundtypen von Beweisen. Der erste, und auch wichtigste, Typ ist dabei der sogenannte direkte Beweis. Hier wird die Aussage des Satzes
durch eine direkte Folgerungskette aus den Voraussetzungen hergeleitet. Gerade in dieser Vorlesung bestehen viele dieser direkten Folgerungen auch aus Gleichungsketten.
Als ein simples Beispiel eines direkten Beweises wollen wir hier einmal die Ihnen aus
der Schule bekannte binomische Formel (a + b)2 = a2 + 2ab + b2 für alle reellen Zahlen
a, b, behandeln. Aufgeteilt in Voraussetzung, Behauptung und Beweis, können wir dies
wie folgt hinschreiben:
Vor: Seien a, b zwei reelle Zahlen.
Beh: Es gilt (a + b)2 = a2 + 2ab + b2 .
Bew: Es gilt
(a + b)2 =
=
=
=
(a + b) · (a + b)
a · (a + b) + b · (a + b)
a2 + ab + ba + b2
a2 + 2ab + b2 .
Diese explizite Aufteilung in Voraussetzung und Behauptung ist ein bei der Bearbeitung von Übungsaufgaben beliebter Stil, in normalen Texten werden diese beiden
normalerweise zusammengefasst.
Wir kommen nun zum zweiten Beweistyp, dem sogenannten Widerspruchsbeweis.
In diesem ist eine Aussage A zu beweisen, und wir nehmen anstelle dessen an, dass
ihre Verneinung ¬A wahr ist. Dann wird aus der angenommenen Gültigkeit von ¬A
eine andere Aussage B hergeleitet, und weiter gezeigt das aus ¬A auch die Verneinung
¬B von B folgt. Wäre also ¬A wahr, so müssten gleichzeitig B und ¬B gelten, was
natürlich nicht möglich ist. Damit hat die Annahme von ¬A zu einem Widerspruch
9
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 28.10.2008
geführt. Andererseits ist die mathematische Aussage A ja entweder wahr oder falsch,
und da ¬A nicht wahr, also A nicht falsch, sein kann, muss A wahr sein.
Dies wird klarer wenn wir es an einem
konkreten Beispiel betrachten. Der klassi√
sche Widerspruchsbeweis zeigt, dass 2 keine rationale Zahl, also kein Bruch
zweier
√
natürlicher Zahlen sein kann. Unsere Aussage A ist hier die Aussage
2 ist keine
”
rationale Zahl“.√Für einen Widerspruchsbeweis müssen wir ¬A annehmen, d.h. wir
nehmen √
an das 2 doch eine rationale Zahl ist. Dann gibt es zwei natürliche Zahlen
p, q mit 2 = p/q. Durch eventuelles Auskürzen können wir dabei annehmen, dass p
und q keinen gemeinsamen Teiler haben. Dies ist dann unsere Aussage B, also p und
”
q sind teilerfremd“. Nun rechnen wir
p2
=
q2
2
√ 2
p
= 2 = 2,
q
d.h. es ist p2 = 2q 2 . Somit ist p2 gerade und damit muss auch p gerade sein. Folglich ist
r := p/2 eine natürliche Zahl mit p = 2r, und setzen wir dies in die gerade bewiesene
Formel ein, so ergibt sich
2q 2 = p2 = (2r)2 = 4r2 ,
also ist auch q 2 = 2r2 gerade. Damit ist aber auch q gerade, d.h. p und q haben den
gemeinsamen Teiler 2. Also ist auch die Verneinung ¬B eingesehen,
und wir haben einen
√
Widerspruch. Dieser Widerspruch beweist dann, dass 2 tatsächlich keine rationale
Zahl ist.
Damit haben wir beide Grundtypen von Beweisen, den direkten und den indirekten, oder Widerspruchsbeweis, vorgestellt. Komplizierte Beweise sind dann oftmals
Mischformen dieser beiden Typen. In diesem wird die eigentliche Aussage in mehreren
Teilschritten bewiesen, die dann ihrerseits direkte oder indirekte Beweise sind.
Gelegentlich wird noch der sogenannte Beweis durch Kontraposition als ein eigener, dritter, Grundtyp angesehen. Bei einem Beweis durch Kontraposition ist eine
Aussage der Form A ⇒ B zu zeigen, und man zeigt anstelle dessen die Implikation
(¬B) ⇒ (¬A). Nach dem Kontrapositionsprinzip §1.Satz 3 sind diese beiden Implikationen zueinder äquivalent. Insbesondere ist ein Beweis durch Kontraposition eigentlich
ein direkter Beweis, dessen letzte Aktion in der Anwendung des Kontrapositionsprinzips besteht. Oftmals wird ein Kontrapositionsbeweis auch als Widerspruchsbeweis
verkauft, das ist zwar nicht falsch aber etwas unelegant. Das Vorgehen ist dann wie
folgt: Zu zeigen ist die Aussage A ⇒ B, und wir nehmen ¬(A ⇒ B) an. Nach Satz
2 bedeutet dies, dass wir A ∧ (¬B) annehmen. Dann wird der Beweis der Aussage
(¬B) ⇒ (¬A) durchgeführt, und da ¬B vorausgesetzt ist, haben wir dann den Widerspruch ¬A. Wird bei der Herleitung von ¬B die Aussage A tatsächlich verwendet, so
handelt es sich um einen echten Widerspruchsbeweis. Andernfalls liegt ein als Widerspruchsbeweis verpackter Beweis durch Kontraposition vor.
$Id: mengen.tex,v 1.8 2015/10/20 16:10:51 hk Exp $
10
Mathematik für Ingenieure I, WS 2008/2009
Freitag 31.10.2008
Vorlesung 3, Freitag 31.10.2008
§3
Mengen und Abbildungen
3.1
Mengen
Eine Menge fasst eine Gesamtheit mathematischer Objekte zu einem neuen Objekt
zusammen. Die klassische informelle Definition einer Menge geht auf Cantor zurück,
und lautet wie folgt: Unter eine Menge“ verstehen wir jede Zusammenfassung M von
”
bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens,
welche die Elemente von M genannt werden, zu einem Ganzen. Für die Mathematik ist
der Mengenbegriff von grundlegender Bedeutung, in der Tat kann die gesamte Mathematik vollständig aus dem Begriff einer Menge und einigen wenigen anderen Grundbegriffen aufgebaut werden. Für die Zwecke dieser Vorlesung ist dies allerdings ohne jede
Bedeutung, für uns wird der Mengenbegriff einfach eine bequeme Schreibweise sein.
Wie schon aus §1 gewohnt, werden wir auch den Mengenbegriff wesentlich enger
interpretieren als es die obige Definition nahelegt. Wir wollen ausschließlich mathematische Objekte, also beispielsweise die verschiedenen Sorten von Zahlen, Funktionen
und so weiter, als Elemente einer Menge zulassen. Insbesondere betrachten wir keine
Mengen, die abstrakte Konzepte oder auch reale physikalische Gegenstände als Elemente enthalten. Ersteres wäre für unsere Zwecke sinnlos, und die Betrachtung physikalischer Objekte führt wieder auf Fragen, die in der Mathematik nichts zu suchen
haben. Beispielsweise kann man sich streiten inwieweit verschiedene Elektronen wohlunterschiedene Objekte sind, in einem gewissen Sinne sind alle Elektronen gleich und
unterscheiden sich nur in Bezug auf externe Objekte. All dies können wir vermeiden
indem wir ausschließlich mathematische Objekte als Elemente von Mengen erlauben,
und daher werden wir uns im Folgenden auf diesen Standpunkt stellen. Beachte dabei
das Mengen selbst dann mathematische Objekte sind, und somit als Elemente anderer
Mengen zugelassen sind, d.h. Mengen können andere Menge als Elemente enthalten.
Sind M eine Menge und x ein mathematisches Objekt, so schreiben wir x ∈ M wenn
x ein Element von M ist, d.h. die Formel x ∈ M steht für die Aussage x ist ein Ele”
ment von M“. Ist x dagegen kein Element von M , so notieren wir dies als x ∈
/ M . Die
Aussage x ∈
/ M ist also die Verneinung ¬(x ∈ M ) von x ∈ M . Wie alle mathematischen
Objekte sind Mengen vollständig statische Gebilde, Elemente können eine Menge nicht
verlassen und andere Objekte können nicht als neue Elemente hinzukommen. Natürlich
können wir zu einer gegebenen Menge M durch Entfernen oder Hinzufügen von Ele11
Mathematik für Ingenieure I, WS 2008/2009
Freitag 31.10.2008
menten eine neue Menge N bilden, aber diese ist von M verschieden. Mengen sind
eben keine Containerobjekte wie man sie aus einigen Programmiersprachen gewohnt
ist. Eine Menge ist durch ihre Elemente vollständig bestimmt und besitzt keine darüber
hinausgehende, eigenständige Identität. Dies ist das sogenannte Extensionalitätsprinzip, zwei Mengen M, N sind genau dann gleich M = N wenn für jedes mathematische
Objekt x genau dann x ∈ M gilt wenn auch x ∈ N ist. In anderen Worten ist genau
dann M = N wenn die Aussagen x ∈ M und x ∈ N für mathematische Objekte x
äquivalent sind.
Wir wollen nun die üblichen Methoden zur Beschreibung von Mengen diskutieren.
Die einfachste Art eine Menge festzulegen ist durch explizite Angabe ihrer Elemente.
Die hierfür übliche Notation schließt die aufgelisteten Elemente in Klammern {“ und
”
}“ ein, also beispielsweise
”
M = {1, 2, 3}, M = {1, 2, {3, 4}}.
Dies sind beides Mengen mit jeweils 3 Elementen, im zweiten Beispiel ist die Menge
{3, 4} eines dieser drei Elemente von M . In dieser Notation ist es durchaus erlaubt ein
und dasselbe Element mehrfach aufzuführen, beispielsweise
M = {1, 2, 1} = {1, 2}.
Ein mathematisches Objekt x ist entweder ein Element einer Menge M oder nicht,
es kann nicht mehrfach Element von M sein. Natürlich ist ein Ausdruck wie {1, 2, 1}
nicht besonders sinnvoll, aber in anderen Fällen ist es sehr nützlich das mehrfache
Auflisten von Objekten in {. . .} zuzulassen. Angenommen wir haben beispielsweise
drei reelle Zahlen x, y, z, die wir noch nicht explizit kennen. Dann können wir einfach
M := {x, y, z} schreiben, ohne uns vorher zu überlegen welche Gleichheiten unter
den Zahlen x, y, z auftreten können. Hätten wir auf verschiedene Elemente in einem
Ausdruck {. . .} bestanden, so müßten wir Dinge wie Ist x = y = z, so sei M := {x},
”
ist x = y 6= z, so sei M := {x, z}, . . .“ schreiben. Die von uns verwendete Konvention
dient also der Bequemlichkeit, und nicht dazu tatsächlich {1, 2, 1} zu schreiben. Man
muss sich allerdings damit abfinden das eine Menge {x, y, z} nur höchstens 3 Elemente
hat, sie könnte auch 2 oder nur ein Element haben, je nachdem welche Gleichheiten
zwischen x, y, z auftreten. Als ein Randfall ist es auch zugelassen, dass überhaupt kein
Element vorkommt, also { }. Dies ist die sogenannte leere Menge, die eindeutige Menge
ohne Elemente. Diese Menge kommt so häufig vor, das sie ein eigenes, für sie reserviertes
Symbol, erhält.
Definition 3.1: Die Menge ∅ := { } heißt die leere Menge.
Ist M eine beliebige Menge, so sagen wir auch M ist leer“ für die Aussage M = ∅, d.h.
”
wenn M keine Elemente hat. Beachte übrigens das dies die erste Stelle in diesem Skript
ist, die wir explizit als eine Definition bezeichnen. Dies hat auch einen guten Grund,
alle unsere bisherigen Definitionen“ waren keine Definitionen im in der Mathematik
”
üblichen Sinn, sondern sie dienten allesamt nur der Einführung von Grundbegriffen.
12
Mathematik für Ingenieure I, WS 2008/2009
Freitag 31.10.2008
Eine Definition in der Mathematik ist im wesentlichen eine Abkürzung, die einen neuen
Begriff auf bereits vorhandene Konzepte zurückführt.
Es gibt einige weitere Mengen, die derart wichtig sind, das sie eigene, nur für sie
verwendete, Symbole erhalten. Dies sind im wesentlichen die folgenden Mengen:
N
N0
Z
Q
R
C
−
−
−
−
−
−
die
die
die
die
die
die
Menge
Menge
Menge
Menge
Menge
Menge
der
der
der
der
der
der
natürlichen Zahlen 1, 2, 3, . . .,
natürlichen Zahlen mit Null 0, 1, 2, . . .,
ganzen Zahlen . . . , −2, −1, 0, 1, 2, . . .,
rationalen Zahlen, also Brüche ganzer Zahlen,
reellen, also etwa aller auch unendlichen Dezimalbrüche,
komplexen Zahlen.
Die komplexen Zahlen C werden wir bald behandeln. Als natürliche Zahlen werden
gelegentlich auch alle Zahlen 0, 1, 2, . . . bezeichnet, ob 0 als natürliche Zahl zählt oder
nicht wird nicht ganz einheitlich gehandhabt.
Wir kommen nun zu einer kleinen Erweiterung der Schreibweise {. . .}. Bei dieser wird eine Menge definiert, indem ihre Elemente durch die Elemente einer bereits
vorhandenen Menge indiziert werden. Beispiele hierfür sind
M := {2k − 1|k ∈ N}
für die Menge 1, 3, 5, . . . der ungeraden, natürlichen Zahlen,
M := {a2 + b2 |a, b ∈ N}
für die Menge aller natürlichen Zahlen, die sich als Summe zweier Quadrate schreiben
lassen, also 2, 5, 8, 10, 13, 18, . . .. Mit dieser Notation können wir die rationalen Zahlen
beispielsweise als
p Q=
p ∈ Z, q ∈ N
q
schreiben. Eine weitere Notation bewirkt die Auswahl gewisser Elemente aus einer
gegebenen großen Menge heraus. Seien hierzu eine Menge M und eine Aussage A(x)
mit einer freien Variablen x gegeben. Dann bezeichnet
{x ∈ M |A(x)}
die Menge all derjenigen Elemente x von M , für die die Aussage A(x) wahr ist. Ist also
N := {x ∈ M |A(x)}, so sind für jedes Element x ∈ M die Aussagen x ∈ N und A(x)
äquivalent. Ein Beispiel für diese Notation ist etwa
{x ∈ N|x ist ungerade}
für die Menge der ungeraden natürlichen Zahlen. Als eine kleine Erweiterung lassen wir
auch die Notation {x|A(x)} zu, wenn wir aus der Bedingung A(x) eine größtmögliche
Menge M ablesen können, die alle mathematischen Objekte x mit A(x) enthält. Dann
13
Mathematik für Ingenieure I, WS 2008/2009
Freitag 31.10.2008
ist {x|A(x)} eine alternative Schreibweise für {x ∈ M |A(x)}. Ein sehr einfaches Beispiel
für diese erweiterte Notation ist etwa {x|x ∈ M ∧ A(x)}. Unsere eingangs gegebene
Definition“ einer Menge läßt auch eine völlig freie Mengenbildung {x|A(x)} zu, also
”
die Menge absolut aller mathematischen Objekte x mit A(x) zu betrachten. Diese
harmlos aussehende Bildung führt allerdings geradewegs in verheerende Widersprüche.
Der bekannteste dieser Widersprüche ist die sogenannte Russelsche Antinomie. Diese
betrachtet die folgende Menge
R := {M |M ist eine Menge mit M ∈
/ M }.
Dann ist entweder R selbst ein Element von R oder nicht. Gehen wir diese beiden
Möglichkeiten einmal durch. Zunächst nehme die erste Möglichkeit an, es sei also R ∈
R. Dies bedeutet aber das R eine Menge mit R ∈
/ R ist, was natürlich nicht geht.
Also muss wohl die zweite Möglichkeit zutreffen, d.h. es sollte R ∈
/ R sein. Dann ist R
aber eine Menge mit R ∈
/ R und nach unserer Definition von R ist somit R ∈ R. Dies
ist erneut ein Widerspruch. Damit haben wir einen Widerspruch in der Mathematik
selbst.
Es darf also nicht erlaubt so etwas wie die Menge R zu definieren. Daher bestehen
wir in unserer Notation {x ∈ M |A(x)} darauf, dass nur Elemente aus einer vorgegebenen, bereits vorhandenen, Menge M ausgewählt werden dürfen. Die freie Mengenbildung, die alle mathematischen Objekte x mit einer Bedingung A(x) zusammenfasst,
ist bei uns nicht erlaubt. Damit können wir die obige Menge R gar nicht sinnvoll
hinschreiben und haben den mit ihr verbundenen Widerspruch vermieden. Natürlich
könnte es einen raffinierteren Widerspruch geben, der mit Mengen der erlaubten Form
{x ∈ M |A(x)} auskommt, aber ein solcher ist nicht bekannt, und es rechnet auch niemand ernsthaft mit dieser Möglichkeit. Die Konstruktion der Menge {x ∈ M |A(x)}
legt den folgenden Teilmengenbegriff nahe.
Definition 3.2: Seien M und N zwei Mengen. Die Menge M heißt eine Teilmenge von
N , geschrieben als M ⊆ N , wenn jedes Element x ∈ M von M auch ein Element von
N ist. Weiter heißt M eine echte Teilmenge von N , geschrieben als M ( N , wenn
M ⊆ N und M 6= N ist.
Mit diesem Begriff ist dann {x ∈ M |A(x)} ⊆ M für jedes Menge M und jede Aussage
A(x). Viele Autoren verwenden auch das Symbol M ⊂ N , und je nach Autor meint
dies M ⊆ N oder M ( N . Die in diesem Skript verwendete Notation sollte dagegen
keine Mißverständnisse zulassen. Für können die Teilmengenbeziehung auch in Termen
des Implikationsbegriffs für Aussagen formulieren. Für zwei gegebene Mengen M, N
bedeutet M ⊆ N gerade, dass die Aussage (x ∈ M ) ⇒ (x ∈ N ) für jedes mathematische Objekt x wahr ist. Einige Beispiele für Teilmengenbeziehungen haben wir in der
folgenden Inklusionskette
N ( N0 ( Z ( Q ( R ( C.
Dagegen ist etwa {3, 4} 6⊆ {1, 2, {3, 4}}, denn beispielsweise ist 3 kein Element der
rechten Menge.
14
Mathematik für Ingenieure I, WS 2008/2009
Freitag 31.10.2008
Es gibt einen besonderen Randfall, der gelegentlich zu Verwirrungen führt. Ist beispielsweise die leere Menge eine Teilmenge von {1, 2, 3}, gilt also ∅ ⊆ {1, 2, 3}? Definitionsgemäß bedeutet dies, dass jedes Element x der leeren Menge auch ein Element von
{1, 2, 3} ist, und dies ist tatsächlich wahr obwohl es überhaupt keine Elemente in der
leeren Menge gibt. Dies kann man auf verschiedene Arten begründen, am einfachsten
ist es auf Zweifel zu fragen wo denn ein Element x ∈ ∅ sei, für das nicht x ∈ {1, 2, 3}
gilt? Etwas formaler können wir uns auch daran erinnern, dass ∅ ⊆ {1, 2, 3} bedeutet
das die Aussage (x ∈ ∅) ⇒ (x ∈ {1, 2, 3}) für jedes mathematische Objekt wahr ist, und
dies trifft tatsächlich zu, denn für jedes mathematische Objekt ist x ∈ ∅ falsch, also ist
die Implikation (x ∈ ∅) ⇒ (x ∈ {1, 2, 3}) wie in §1 festgelegt tatsächlich wahr. Dieselbe
Argumentation zeigt natürlich ∅ ⊆ M für überhaupt jede Menge M . Zum Abschluß
dieses Abschnitts wollen wir den folgenden sehr einfachen, aber oft verwendeten, Satz
einsehen:
Satz 3.1 (Kennzeichnung der Gleichheit durch Inklusion)
Seien M, N zwei Mengen. Dann ist genau dann M = N wenn M ⊆ N und N ⊆ M
gelten.
Beweis: ”=⇒” Ist M = N , so ist offenbar insbesondere M ⊆ N und N ⊆ M .
”⇐=” Nehme M ⊆ N und N ⊆ M an. Sei x ein mathematisches Objekt. Ist dann
x ∈ M , so ist wegen M ⊆ N auch x ∈ N . Ist andererseits x ∈ N , so ist wegen N ⊆ M
auch x ∈ M . Damit haben M und N dieselben Elemente, und dies bedeutet M = N .
3.2
Operationen mit Mengen
Aus bereits vorhandenen Mengen können auf verschiedene Weisen neue Mengen gebildet werden. Die grundlegendensten dieser Konstruktionen sind dabei die Vereinigung,
der Durchschitt und das relative Komplement. Wir werden sehen, dass die ersten beiden dieser Operationen in gewissen Sinne den logischen Junktoren oder“ sowie und“
”
”
entsprechen. Daher werden für sie auch die Symbole ∪“ und ∩“ verwendet, die an
”
”
die entsprechenden logischen Symbole ∨“ und ∧“ erinnern sollen.
”
”
Definition 3.3: Seien M und N zwei Mengen. Die Vereinigung von M und N , geschrieben als M ∪ N , ist dann die Menge aller mathematischen Objekte x, die in einer
der beiden Mengen M oder N liegen. Der Durchschnitt von M und N , geschrieben
als M ∩ N ist die Menge all derjenigen mathematischen Objekte, die sowohl in M als
auch in N liegen. Das relative Komplement von N in M , geschrieben als M \N , ist
schließlich die Menge aller Elemente x von M , die nicht in der Menge N liegen.
15
Mathematik für Ingenieure I, WS 2008/2009
Freitag 31.10.2008
In unser oben eingeführten Notation {. . . | . . .} können wir diese drei Mengen auch als
M ∪ N = {x|x ∈ M ∨ x ∈ N },
M ∩ N = {x|x ∈ M ∧ x ∈ N },
M \N = {x ∈ M |x ∈
/ N}
schreiben. Gelegentlich spricht man auch einfach von Komplement einer Menge N ,
dies meint dann das relative Komplement von N in einer aus dem Kontext heraus
gegebenen festen Obermenge M . Dagegen gibt es kein absolutes Komplement von N ,
da der Ausdruck {x|x ∈
/ N } eine jener freien Mengenbildungen ist, die wir ja nicht
zugelassen haben. Die Analogie zwischen ∪“ und oder“ sowie zwischen ∩“ und und“
”
”
”
”
wird noch deutleicher, wenn wir Vereinigungen und Schnitte von durch Bedingungen
A(x) und B(x) aus einer Menge M gebildeten Teilmengen betrachten. Sind M eine
Menge und A(x), B(x) zwei Aussagen jeweils mit einer freien Variablen x, so haben
wir offenbar
{x ∈ M |A(x)} ∪ {x ∈ M |B(x)} = {x ∈ M |A(x) ∨ B(x)},
{x ∈ M |A(x)} ∩ {x ∈ M |B(x)} = {x ∈ M |A(x) ∧ B(x)}.
Die eben eingeführten Grundoperationen zwischen Mengen erfüllen eine Vielzahl einfacher Gleichungen, die wir hier nicht alle auflisten wollen. Einige davon, wie beispielsweise die beiden Distributivgesetze
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C),
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C),
werden wir als Übungsaufgaben behandeln. An dieser Stelle wollen wir nur exemplarisch
die sogenannten de Morganschen Regeln für Mengen notieren und beweisen.
Satz 3.2 (De Morgansche Regeln für Mengen)
Seien M, A, B drei Mengen. Dann gelten:
(a) Es ist M \(A ∪ B) = (M \A) ∩ (M \B).
(b) Es ist M \(A ∩ B) = (M \A) ∪ (M \B).
Beweis: Mit der entsprechenden de Morganschen Regel §1.Satz 1 für Aussagen haben
wir
M \(A ∪ B) =
=
=
=
=
=
=
{x ∈ M |x ∈
/ (A ∪ B)}
{x ∈ M |¬(x ∈ A ∪ B)}
{x ∈ M |¬(x ∈ A ∨ x ∈ B)}
{x ∈ M |(¬x ∈ A) ∧ (¬x ∈ B)}
{x ∈ M |x ∈
/ A∧x∈
/ B}
{x ∈ M |x ∈
/ A} ∩ {x ∈ M |x ∈
/ B}
(M \A) ∩ (M \B).
16
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
Diese Gleichungskette beweist Teil (a) des Satzes, und Teil (b) folgt analog.
Die letzte noch zu diskutierende Mengenoperation ist von etwas anderer Natur als die
bisher beschriebenen Konstruktionen.
Definition 3.4: Seien M, N zwei Mengen. Das cartesische Produkt von M und N ,
geschrieben als M × N , ist dann die Menge aller Paare
M × N = {(x, y)|x ∈ M, y ∈ N }.
Analog können wir auch für endlich viele gegebene Mengen M1 , . . . , Mn ein cartesisches
Produkt von M1 , . . . , Mn als eine Menge von sogenannten n-Tupeln
M1 × · · · × Mn = {(x1 , . . . , xn )|x1 ∈ M1 , . . . , xn ∈ Mn }
definieren. Im speziellen Fall M1 = . . . = Mn =: M schreiben wir dann auch
M n := M
· · × M} .
| × ·{z
n mal
In der Tupelsprechweise ist ein Paar (x, y) dann ein 2-Tupel. Weiter werden 3-Tupel
(x, y, z) gelegentlich als Tripel und 4-Tupel (x, y, u, v) als Quadrupel bezeichnet. Entsprechend haben wir dann auch Quintupel und so weiter, aber bereits die Bezeichnung
Quadrupel wird eher selten verwendet. Für uns besonders wichtige Beispiele cartesischer Produkte sind die Menge
R2 = R × R = {(x, y)|x, y ∈ R}
der Punkte der Ebene sowie die Menge
R3 = R × R × R = {(x, y, z)|x, y, z ∈ R}
der Punkte des Raumes. Durch Kombination von cartesischen Produkten und Teilmengenbildung können wir nun auch kompliziertere geometrische Gebilde als Mengen
hinschreiben, etwa
2
y2
2 x
E := (x, y) ∈ R 2 + 2 = 1
a
b
die Ellipse mit Hauptachsen der Längen a, b > 0 (hier wird nur die Kurve selbst, nicht
aber ihr Inneres als Ellipse bezeichnet) oder die Einheitskugel
{(x, y, z) ∈ R3 |x2 + y 2 + z 2 ≤ 1}
im Raum R3 . Derartige Dinge werden wir aber erst später in diesem Semester diskutieren, insbesondere ist es an dieser Stelle nicht weiter tragisch wenn ihnen die geometrischen Interpretationen der eben beschriebenen Mengen nicht geläufig sind.
17
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
Vorlesung 4, Dienstag 4.11.2008
Zusammenfassend haben wir damit die folgenden Operationen für Mengen definiert:
3.3
Vereinigung
M ∪N
{x|x ∈ M ∨ x ∈ N }
Durchschnitt
M ∩N
{x|x ∈ M ∧ x ∈ N }
Komplement
M \N
{x ∈ M |x ∈
/ N}
Produkt
M ×N
{(x, y)|x ∈ M, y ∈ N }
Abbildungen und Relationen
Definition 3.5: Seien n ∈ N eine natürliche Zahl und M1 , . . . , Mn gegebene Mengen.
Eine Relation R auf M1 , . . . , Mn ist eine Teilmenge R ⊆ M1 × · · · × Mn .
Wir sprechen auch von einer n-stelligen Relation, da R aus n-Tupeln besteht. Beachte
das die Angabe der Mengen M1 , . . . , Mn etwas willkürlich ist, wir können jederzeit zu
größeren Mengen M10 ⊇ M1 , . . . , Mn0 ⊇ Mn übergehen und R ist dann offenbar auch
eine Relation auf M10 , . . . , Mn0 . Insbesondere können wir immer M1 = . . . = Mn = M
annehmen, d.h. das alle Mengen M1 , . . . , Mn gleich sind, indem wir etwa zu M =
M1 ∪. . .∪Mn übergehen. Weiter könnten wir eine n-stellige Relation damit auch einfach
als eine Menge von n-Tupeln definieren, ohne von den Mengen M1 , . . . , Mn überhaupt
zu sprechen. Allerdings gibt es oftmals eine aus dem Kontext heraus gegebene Wahl
der Mengen M1 , . . . , Mn so, dass es sinnvoll erscheint, diese auch in der Definition einer
Relation zu bennenen.
Wir wollen nun einige Beispiele von Relationen durchgehen. Dabei beginnen wir
mit für die Mathematik typischen Relationen, und diese sind in der Regel zweistellig,
d.h. in unserer obigen Definition haben wir n = 2. Die Ordnung der reellen Zahlen
ergibt eine Relation
R := {(x, y) ∈ R2 |x ≤ y} ⊆ R2 .
Tatsächlich pflegt man in der Mathematik den Ordnungsbegriff dem allgemeinen Relationsbegriff unterzuordnen, d.h. man definiert die Ordnung der reellen Zahlen überhaupt
als die obige Relation R und fasst die Notation x ≤ y einfach als eine Schreibweise für
(x, y) ∈ R auf. Dann wird R =≤ die Ordnung der reellen Zahlen. Eine andere nützliche Relation, die Sie wahrscheinlich noch aus der Schule kennen, ist die Kongruenz
18
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
von Dreiecken. In diesem Fall sind M = M1 = M2 beides die Menge der Dreiecke in
der Ebene, und wir haben die sogenannte Kongruenzrelation
R = {(∆1 , ∆2 ) ∈ M × M |∆1 und ∆2 sind zwei kongruente Dreiecke}.
Diese Relation ist hilfreich, da kongruente Dreiecke ja in vielerlei Hinsicht dieselben
geometrischen Eigenschaften haben.
Wir wollen nun noch ein Beispiel eines etwas anderen Typs einer Relation betrachten, das zwar in der Mathematik keine Rolle spielt, aber außerhalb dieser von
Bedeutung ist. Außerdem ermöglich es uns dieses Beispiel die Verwendung kartesischer
Produkte in der in §1 diskutierten mathematischen Modellierung zu demonstrieren. Wir
werden kurz an einem Beispiel die Verwendung des Relationenbegriffs in sogenannten
relationalen Datenbanken“ beschreiben, natürlich ohne allzu sehr auf technische De”
tails einzugehen. Konkret wollen wir hier eine Menge von Studenten als eine Relation
betrachten. Wir bereits bemerkt, stellen wir uns immer auf den Standpunkt keine Mengen realer, physikalischer Objekte zu erlauben, und daher können wir nicht direkt eine
Menge von Studenten einführen. Anstelle dessen gehen wir zu einer mathematischen
Beschreibung über, d.h. wir führen eine Modellierung wie in §1 geschildert, durch. Dies
deckt sich mit dem Vorgehen bei der Verwendung realer Datenbanken, die Erfassung
der relavanten Daten über die zu beschreibenden Objekte, in unserem Beispiel also die
Studenten, ist ein spezieller Fall einer mathematischen Modellierung.
Wie wollen wir nun einen Studenten beschreiben? Wie wählen hier die einfachste
Methode und beschreiben einen jeden Studenten durch einen Datensatz
(Id,Matrikelnummer,Name,Geburtsdatum,Semester,Studiengang).
Dabei interpretieren wir die Einträge Matrikelnummer und Semester als natürliche
Zahlen, also als Elemente von N. Den Eintrag Studiengang interpretieren wir ebenfalls
als eine natürliche Zahl, etwa indem wir alle möglichen Studiengänge einfach durchnumerieren. Der Name des Studenten Name entstammt einer Menge S von Strings, also
Zeichenketten, die wir uns hier der Einfachheit halber als vorgegeben denken. Das Geburtsdatum interpretieren wir dagegen als eine natürliche Zahl, etwa indem wir ein
jedes Datum durch die Anzahl der Tage seit dem ersten Januar des Jahres 1900 beschreiben, dies sollte ausreichen alle derzeit lebenden Studenten zu erfassen. Der letzt
Eintrag Id ist einfach eine natürliche Zahl, die diesen Studenten eindeutig kennzeichnet.
Je nach geplanten Verwendungszweck könnten wir hierfür auch die Matrikelnummer
verwenden, eine davon unabhängige Nummer erlaubt es uns aber auch beispielsweise
nicht mehr immatrikulierte Studenten zu erfassen. Die gesamte Beschreibung eines Studenten, also das volle oben angegebene 6-Tupel ist dann ein Element des kartesischen
Produkts
N × N × S × N × N × N.
Technische Details ignorieren wir hierbei, in realen Datenbanken müsste man sich über
die erlaubten Wertebereiche der verschiedenen auftretenden Zahlen Gedanken machen,
19
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
man sollte sich für eine Stringcodierung sowie für eine maximale Namenslänge entscheiden, und so weiter. Eine Menge von Studenten, beziehungsweise genauer von Beschreibungen von Studenten, wird nun eine Teilmenge S ⊆ N × N × S × N × N × N des
obigen kartesischen Produkts, also eine sechsstellige Relation. Notiert denken wir uns
diese üblicherweise in einer Tabelle, etwa wie folgt
1
2
3
.
.
.
456123
673961
987543
Burg, Klemens
Haf, Herbert
Wille, Friedrich
26123
27467
25939
3
2
1
1
2
1
Die Reihenfolge in der die Zeilen dieser Tabelle aufgelistet werden spielt keine Rolle,
es handelt sich um eine Menge von Studenten, und nicht um eine irgendwie geordnete
Liste. Es darf in der Tabelle keine zwei identischen Zeilen geben. Diese Einschränkung
gibt es übrigens auch in den Tafeln einer realen, relationalen Datenbank, die Tafeln
repräsentieren eben Mengen und keine Listen.
Die mit dieser Tabellensichtweise verbundene Vorstellung ist es sich ein Tupel, also
ein Element eines kartesischen Produktes, als einen Datensatz vorzustellen, also als
eine Zeile in einer Tabelle, und Relationen werden dann zu Tabellen. Diese Vorstellung
können wir auch in anderen Situation verwenden, zum Beispiel können wir uns einen
Punkt (1, 2, −1) ∈ R3 im Raum auch als eine Beschreibung {x = 1, y = 2, z = −1}
interpretieren. Für die Mathematik ist diese Vorstellung aber in der Regel nicht sehr
hilfreich.
Unsere mengentheoretischen Operationen, also Vereinigen, Schneiden, das Bilden
von Teilmengen und so weiter treten nun tatsächlich bei der Verwendung relationaler Datenbanken auf. Haben wir beispielsweise eine Menge Studenten von Studenten
gegeben und interessieren uns für die Teilmenge aller dieser Studenten, die im ersten
oder zweiten Semester sind, also in mengentheoretischer Notation
{(i, m, n, d, s, f ) ∈ Studenten|s ∈ {1, 2}},
so können wir diese mathematische Notation in der üblichen Abfragesprache (SQL),
auch als
SELECT * FROM Studenten WHERE semester <= 2
formulieren. Die Formulierung SELECT * FROM Studenten“ ist dabei die Aufforde”
rung eine Teilmenge der Relation Studenten zu bilden, und hinter dem Schlüsselwort
WHERE“ wird die, die Teilmenge definierende Bedingung angegeben. In unserer obigen
”
Beispieltabelle wäre die Antwort
2
3
.
.
.
673961
987543
Haf, Herbert
Wille, Friedrich
20
27467
25939
2
1
2
1
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
Suchen wir dagegen beispielsweise alle Studenten im Studiengang Elektrotechnik, so
können wir diese durch eine zu obigem Kommando analoge Anfrage SELECT * FROM
”
Studenten WHERE fach=1“ erhalten, wobei angenommen sei, dass der Srudiengang
Elektrotechnik die Nummer 1 erhalten hat. In unserem Beispiel sind dies
1
3
.
.
.
456123
987543
Burg, Klemens
Wille, Friedrich
26123
25939
3
1
1
1
Wollen wir nun alle Studenten, die beide Bedingungen erfüllen, also Studenten der
Elektrotechnik im ersten oder zweiten Semester, so müssen wir den mengentheoretischen Durchschnitt der beiden eben erhaltenen Mengen bilden. Wir hatten bereits die
Beziehung
{x ∈ M |A(x)} ∩ {x ∈ M |B(x)} = {x ∈ M |A(x) ∩ B(x)}
zwischen Durchschnitt und dem logischen Junktor und“ festgehalten, und unter Ver”
wendung dieser Beziehung erhalten wir die Abfrage
SELECT * FROM Studenten WHERE semester <= 2 AND fach = 1
mit Ergebnistabelle
3
.
.
.
987543
Wille, Friedrich
25939
1
1
Wir werden dieses Beispiel später noch etwas fortsetzen. Wir kommen nun zu den
Operationen wie Hintereinanderausführung und Inversion von Relationen. Diese sind
hauptsächlich für zweistellige Relationen von Interesse, und zu ihrem Verständnis ist
eine weitere Veranschaulichung speziell zweistelliger Relationen hilfreich. Wir können
uns eine Relation R ⊆ M × N als eine Menge von Pfeilen von Elementen von M zu
Elementen von N vorstellen, indem wir jedes Element (x, y) ∈ R ⊆ M × N als einen
Pfeil von x nach y interpretieren. Haben wir zum Beispiel M = N = {1, 2, 3, 4}, so
veranschaulicht
21
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
die Relation
R = {(1, 1), (2, 1), (2, 2), (3, 4), (4, 4)}
wobei wir uns die vier Elemente von M beziehungsweise N von oben nach unten durchnumeriert denken.
Definition 3.6: Sei R ⊆ M × N eine Relation. Dann heißt die Menge
R−1 := {(y, x)|(x, y) ∈ R} ⊆ N × M
die zu R inverse Relation.
In unserem Pfeilbild entspricht das Bilden der Inversen einer Relation einfach dem
Umdrehen aller Pfeile, in unserem obigen Beispiel ist etwa
R−1 = {(1, 1), (1, 2), (2, 2), (4, 3), (4, 4)},
und im Pfeilbild ist dies
Die andere Operation auf Relationen ist das Bilden der Hintereinanderausführung:
Definition 3.7: Seien A, B, C drei Mengen und R ⊆ A × B, S ⊆ B × C Relationen.
Die Hintereinanderausführung von R und S ist dann die Relation
S ◦ R := {(a, c) ∈ A × C|Es gibt ein b ∈ B mit (a, b) ∈ R und (b, c) ∈ S} ⊆ A × C.
Alternativ spricht man auch vom Produkt oder der Komposition von R und S.
Diese Definition wird im Pfeilbild klarer. Wir betrachten die folgende Situation:
22
Mathematik für Ingenieure I, WS 2008/2009
R
A
Dienstag 4.11.2008
S
C
B
Dabei ist A = B = {1, 2, 3, 4}, C = {1, 2, 3}, R ist wieder die schon oben als Beispiel
verwendete Relation und S ist die Relation S = {(2, 1), (3, 1), (3, 2), (4, 3)}. Die Elemente von S ◦ R sind jetzt alle Paare (a, c) ∈ A × C = {1, 2, 3, 4} × {1, 2, 3}, so dass
es zunächst einen Pfeil von a zu einem Punkt b ∈ B = {1, 2, 3, 4} gibt, und es weiter
auch einen Pfeil von b nach c gibt. Wir setzen also auf alle möglichen Weisen Pfeile
aus S an Pfeile aus R und gucken uns dann nur noch die Start- und Endpunkte dieser
kombinierten Pfeile an. In unserem Beispiel sind dies
R
A
S
B
C
und die Hintereinanderausführung von R und S wird zu
S ◦ R = {(2, 1), (3, 3), (4, 3)}.
Die Bedeutung der Hintereinanderausführung für unsere Zwecke wird erst im Zusammenhang mit Abbildungen klar werden. Die verschiedenen Operationen auf Relationen
haben allerdings auch einige durchaus praktische Anwendungen, beispielsweise im Zusammenhang mit den bereits oben als Beispiel verwendeten relationalen Datenbanken.
Wir wollen unser obiges Beispiel der Studenten Tabelle weiter ausbauen, wir brauchen
23
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
ja mehrere Relationen um Beispiele von Hintereinanderausführungen zu diskutieren.
Wir denken uns eine weitere Tafel Vorlesungen zur Beschreibung von Vorlesungen
gegeben. Für die Zwecke unseres Beispiels wollen wir eine Vorlesung durch ein 4-Tupel
(Id,Name,Zeit,Raum)
beschreiben. Wir könnten beispielsweise die folgende Tabelle vorliegen haben
1
2
.
.
.
Elektrotechnik I
Mathematik I
Di. 16.15--17.45
Do. 14.15--15.45
CAP3, Raum 1
Audimax H
Natürlich sollte nun auch erfasst werden, welche Studenten welche Vorlesung besuchen.
Dies können wir beispielsweise durch Einrichten einer weiteren, diesmal zweistelligen,
Relation Teilnehmer erreichen, die einfach Paare
(Vorlesung.Id,Student.Id)
enthält. Besuchen beispielsweise die Studenten Burgm Klemens und Wille, Friedrich
die Vorlesung Elektrotechnik I und Burg, Klemens sowie Haf, Herbert die Vorlesung Mathematik I, so wird unsere Teilnehmer Relation zu
1
1
2
2
1
3
1
2
Nehmen wir nun an, wir möchten einen vollständigen Stundenplan aller Studenten
aufstellen, d.h. für jeden der vorhandenen Studenten auflisten zu welcher Zeit sie oder
er sich in welchem Raum befindet, oder zumindest befinden sollte. Wir wollen also eine
Tabelle von Tripeln
(Student.Name,Vorlesung.Raum,Vorlesung.Zeit)
konstruieren, wobei ein solcher Eintrag bedeutet, dass sich der Student mit dem Namen
Student.name zur Zeit Vorlesung.Zeit im Raum Vorlesung.Raum befindet. Solch ein
Tripel wird in unsere Liste aufgenommen, wenn die Tafel Teilnehmer einen Eintrag
(Vorlesung.Id,Student.Id) enthält, denn diese Tafel listet ja gerade die Teilnehmer
der verschiedenen Vorlesungen auf. Was hat das mit der Hintereinanderausführung von
Relationen zu tun? Zu diesem Zweck denken wir uns die Relation Studenten als eine
Teilmenge des kartesischen Produkts N × M indem wir die hinteren fünf Einträge in
einem einzigen 5-Tupel zusammenfassen, also M = N × S × N × N × N. Ebenso denken
24
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 4.11.2008
wir uns Vorlesung als eine Teilmenge des kartesischen Produkts N × N , wobei N für
die hinteren drei Komponenten einer Vorlesung steht. Sind s ein Student und v eine
Vorlesung, geschrieben als s =(s.Id,s.M) und v =(v.Id,v.N), wobei s.M und v.N für
die hinteren fünf beziehungsweise drei Komponenten von s beziehungsweise v stehen,
so müssen wir (s, v) genau dann in usere Liste aufnehmen, wenn es einen Eintrag
t = (n, m) in Teilnehmer gibt so, daß s.Id= m und v.Id= n ist. Wir brauchen also
einen zusammengesetzten Pfeil, wie im folgenden Bild angedeutet
−1
Vorlesung
N
Teilnehmer
IN
Studenten
IN
M
Wir müssen also die Relation
Student ◦ Teilnehmer ◦ Vorlesung−1
bilden. Für unser konkretes Beispiel müssen anschließend noch die zur Anzeige vorgesehenen Spalten unserer Tabellen ausgewählt werden. Ein SQL Kommando um all dies
zu erreichen wäre etwa
SELECT
FROM
WHERE
Student.Name, Raum, Zeit
Student,Vorlesungen,Teilnehmer
Teilnehmer.vorlesung id = Vorlesung.Id
AND Teilnehmer.student id = Student.Id
Als Ausgabe für unsere Beispieldaten ergibt sich
Burg, Klemens
Wille, Friedrich
Burg, Klemens
Haf, Herbert
.
.
.
CAP3, Raum 1
CAP3, Raum 1
Audimax H
Audimax H
Di.
Di.
Do.
Do.
16.15-17.45
16.15-17.45
14.15-15.45
14.15-15.45
Dabei wollen wir die Beispiele für Relationen beenden und uns nun dem Abbildungsbegriff zuwenden. Dabei ist das Wort Abbildung“ einfach ein Synonym für das et”
was vertrautere Wort Funktion“. Die Ihnen wahrscheinlich aus der Schule bekannte
”
Definition einer Funktion f erklärt diese als eine Abbildungsvorschrift, die jedem Element x des Definitionsbereichs der Funktion ein Element f (x) des Wertebereichs der
Funktion zuordnet. Allerdings ist die Funktion dann doch nicht wirklich gleich der
25
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
Abbildungsvorschrift sondern der durch sie gegebenen Wirkung, zwei völlig verschiedene aussehende Abbildungsvorschriften können ja exakt dieselben Werte liefern, und
sollten damit natürlich auch dieselbe Funktion sein. Beispielsweise werden Sie als eine
Übung einsehen, dass die beiden für n ∈ N erklärten Abbildungsvorschriften
f (n) = 12 + 22 + . . . + n2
und
n(n + 1)(2n + 1)
6
genau dieselbe Funktion beschreiben. Die Abbildungsvorschrift selbst zur Funktion zu
ernennen scheint also ein etwas unpassender Ansatz zu sein. Ein weiteres Argument das
gegen diese Idee spricht, ist, dass wir dann den Begriff einer Abbildungsvorschrift als
einen weiteren Grundbegriff akzeptieren müssten. Das kann man natürlich tun, aber
wie sich herausstellt ist dies überhaupt nicht nötig. Die seit inzwischen fast 100 Jahren
in der Mathematik verwendete Definition einer Funktion, oder Abbildung, erwähnt das
Konzept einer Abbildungsvorschrift nicht einmal mehr, sondern interpretiert Funktionen als eine spezielle Sorte zweistelliger Relationen.
g(n) =
Definition 3.8: Seien M, N zwei Mengen. Eine Abbildung f von M nach N , geschrieben
als f : M → N , ist eine zweistellige Relation f ⊆ M × N , die die folgende Bedingung
erfüllt: Für jedes x ∈ M gibt es genau ein Element y ∈ N mit (x, y) ∈ f . Wir schreiben
dann auch f (x) für dieses eindeutige Element y ∈ N .
Mit der Schreibweise f (x) für x ∈ M ist dann
f = {(x, f (x))|x ∈ M } ⊆ M × N.
Natürlich spielt die Idee einer Abbildungsvorschrift weiter eine Rolle, aber nicht mehr
in der Definition einer Abbildung, sondern bei der Beschreibung konkret gegebener
Funktionen. Bezeichnet F (x) eine Abbildungsvorschrift mit freier Variablen x, also
beispielsweise eine Formel in der x als freie Variable vorkommt, so bezeichnen wir mit
f : M → N ; x 7→ F (x)
die Funktion f := {(x, F (x))|x ∈ M }, d.h. diejenige Funktion, deren Werte f (x) sich
gemäß der gegebenen Formel als f (x) = F (x) berechnen. Beispielsweise steht
f : R → R; x 7→ x2
für die Funktion f = {(x, x2 )|x ∈ R} ⊆ R2 .
In unserer Pfeilinterpretation einer zweistelligen Relation, bedeutet die eine Abbildung definierende Eigenschaft gerade, dass von jedem Punkt der linken Seite genau ein
Pfeil zur rechten Seite startet.
In der nächsten Sitzung werden wir uns noch einige weitere Beispiele anschauen
und den Abbildungsbegriff näher untersuchen.
26
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
Vorlesung 5, Freitag 7.11.2008
Die eine Funktion definierende Abbildungsvorschrift braucht nicht eine einfache Formel zu sein, auch kompliziertere Konstruktionsvorschriften sind zugelassen. Betrachte
beispielsweise die folgende Abbildung
(
q, Es ist 0 6= x = pq mit teilerfremden p ∈ Z, q ∈ N,
f : Q → N; x 7→
1, x = 0.
Eine gegebene rationale Zahl x 6= 0 müssen wir also als ausgekürzten Bruch x = p/q
schreiben, wobei die Vorzeichen von p und q so normiert sind das p ∈ Z und q ∈ N ist.
In dieser Darstellung sind der Zähler p sowie der Nenner q eindeutig durch x festgelegt,
und damit ist f (x) = q ein ein eindeutig definierter Funktionswert. Beispielsweise sind
1
4
f (1) = 1, f (2) = 2, f −
= 2, f
= 3,
2
12
wobei letzterer Wert zustande kommt da 1/3 die ausgekürzte Form von 4/12 ist. Gelegentlich werden Funktionen tatsächlich direkt als Mengen von Paaren definiert. Betrachte zum Beispiel die Menge
f := {(x, y) ∈ R2 |xy = 1} ⊆ R2 .
Dann ist f ⊆ (R\{0}) × R und für jedes 0 6= x ∈ R gibt es genau ein y ∈ R mit
(x, y) ∈ f , d.h. mit xy = 1, nämlich y = 1/x. Also ist f gleich der Funktion
f : R\{0} → R; x 7→
1
.
x
Wir wollen nun noch einige kleine im Zusammenhang mit Funktionen, und auch mit
Relationen, auftretende Schreibweisen einführen. Wir beginnen mit dem Bild einer
Teilmenge unter einer Relation.
Definition 3.9: Seien M, N zwei Mengen und R ⊆ M × N eine Relation. Ist dann
A ⊆ M eine Teilmenge, so definieren wir das Bild von A unter R als die Teilmenge
R(A) := {y ∈ M |Es gibt ein x ∈ A mit (x, y) ∈ R} ⊆ N.
Im Pfeilbild betrachten wir also alle Pfeile in R, die bei einem Element aus A starten,
und die Gesamtheit der Endpunkte all dieser Pfeile ist das Bild R(A) ⊆ N .
27
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
R
R(A)
A
M
N
In diesem Beispiel sind M = N = {1, 2, 3, 4}, R = {(1, 1), (2, 1), (2, 2), (4, 3), (4, 4)}
und A = {1, 2}. Bei Elementen aus A startende Pfeile sind dann (1, 1), (2, 1) und
(2, 2), d.h. die Bildmenge von A unter R ist in diesm Fall R(A) = {1, 2}. Bildmengen
und Hintereinanderausführungen von Relationen sind gut miteinander verträglich, wie
durch den folgenden Satz gezeigt wird:
Satz 3.3: Seien A, B, C drei Mengen und R ⊆ A × B, S ⊆ B × C zwei Relationen.
Für jede Teilmenge U ⊆ A ist dann
(S ◦ R)(A) = S(R(A)).
Beweis: Sei U ⊆ A eine Teilmenge. Dann gilt:
(S ◦ R)(U ) =
=
=
=
{c ∈ C|Es gibt ein a ∈ U mit (a, c) ∈ S ◦ R}
{c ∈ C|Es gibt a ∈ U und b ∈ B mit (a, b) ∈ R und (b, c) ∈ S}
{c ∈ C|Es gibt ein b ∈ R(U ) mit (b, c) ∈ S}
S(R(U )).
Für Bilder unter Funktionen vereinfacht sich die Definition der Bildmenge wesentlich.
Sind f : M → N eine Funktion und A ⊆ M eine Teilmenge, so haben wir
f (A) = {y ∈ N |Es gibt ein x ∈ A mit (x, y) ∈ f }
= {y ∈ N |Es gibt ein x ∈ A mit y = f (x)}
= {f (x)|x ∈ A}.
Insbesondere folgt für jedes x ∈ M damit f ({x}) = {f (u)|u ∈ {x}} = {f (x)}. Sind
also f : M → N und g : N → P zwei Abbildungen, so folgt für jedes x ∈ M mit dieser
28
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
Beobachtung und Satz 3
(g ◦ f )({x}) = g(f ({x})) = g({f (x)}) = {g(f (x))}.
Da andererseits (g ◦ f )({x}) die Menge aller z ∈ P mit (x, z) ∈ g ◦ f ist, ist g ◦ f somit
wieder eine Abbildung mit (g ◦ f )(x) = g(f (x)) für alle x ∈ M . Die Hintereinanderausführung zweier Abbildungen ist also wieder eine Abbildung, deren Abbildungsvorschrift durch Zusammensetzen der Abbildungsvorschriften von f und g entsteht.
Damit ist die Hintereinanderausführung ◦“ eine Konstruktion aus bereits vor”
handenen Abbildungen neue zu bilden. Wir wollen hier noch eine weitere solche Konstruktionsmethode festhalten, die sogenannte Einschränkung. Bei dieser haben wir eine
Abbildung f : M → N zwischen zwei Mengen M und N gegeben und betrachten außerdem eine Teilmenge A ⊆ M von M . Dann erhalten wir eine neue Funktion indem
wir uns nur noch anschauen wie f die Elemente der Teilmenge A abbildet. Dies ist die
sogenannte Einschränkung, oder auch Restriktion, von f auf A geschrieben als
f |A : A → N ; x 7→ f (x).
Noch einfacher, aber etwas geheimnisvoller aussehend, wird dies wenn wir die betreffenden Abbildungen einfach als Mengen hinschreiben, dann ist nämlich f |A = f ∩(A×N ).
Zum Abschluss dieses Abschnitts wollen wir nun einige im Zusammenhang mit
Abbildungen verwendete Begriffe festhalten:
Definition 3.10: Seien M, N zwei Mengen und f : M → N eine Abbildung. Dann
nennen wir die Menge
dom(f ) := M = {x|Es gibt ein y mit (x, y) ∈ f }
den Definitionsbereich von f . Gelegentlich sprich man auch vom Urbildbereich von f .
Weiter heißt
Bild(f ) := f (M ) = {f (x)|x ∈ M } ⊆ N
das Bild von f . Im allgemeinen ist Bild(f ) ( N eine echte Teilmenge von N , und wir
nennen die Abbildung f surjektiv wenn Bild(f ) = N ist, d.h. wenn jedes Element von
N tatsächlich als Wert der Funktion f auftritt. Weiter heißt f injektiv, wenn für alle
x, y ∈ M mit x 6= y stets auch f (x) 6= f (y) ist. Schließlich nennen wir f bijektiv, wenn
f sowohl surjektiv als auch injektiv ist.
Streng genommen müßten wir von der Surjektivität der Abbildung f bezüglich N
reden, denn f selbst legt zwar die Urbildmenge M , nicht aber die Menge N , eindeutig
fest. Die Injektivität einer Abbildung bedeutet, dass die Aussage x 6= y ⇒ f (x) 6= f (y)
für alle x, y ∈ M wahr ist. Verwenden wir das Kontrapositionsprinzip §1.Satz 3, so
sehen wir das man gleichwertig auch f (x) = f (y) ⇒ x = y für alle x, y ∈ M verlangen
kann. Die Surjektivität einer Abbildung f : M → N bedeutet dagegen, dass es für
jedes y ∈ N ein x ∈ M mit f (x) = y gibt. Insgesamt ist f : M → N damit genau
dann bijektiv, wenn es für jedes y ∈ N genau ein x ∈ M mit y = f (x) gibt. In anderen
29
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
Worten soll also die Gleichung f (x) = y für jedes gegebene y ∈ N eindeutig nach
x ∈ M auflösbar sein.
Surjektivität, Injektivität und Bijektivität einer Abbildung lassen sich auch gut in
unserem Pfeilbild verstehen. Wir hatten bereits bemerkt, dass die definierende Eigenschaft einer Abbildung Für jedes x ∈ M existiert genau ein y ∈ N mit (x, y) ∈ f“ im
”
Pfeilbild bedeutet das von jedem Punkt der linken Seite genau ein Pfeil startet. Dass
f : M → N surjektiv ist bedeutet definitionsgemäß das für jedes y ∈ N ein x ∈ M
mit y = f (x) existiert. Letzteres bedeutet (x, y) ∈ f also das f einen Pfeil von x nach
y enthält. Also ist f genau dann surjektiv, wenn jedes Element der rechten Seite von
einem Pfeil getroffen wird:
nicht
surjektiv
surjektiv
Wir kommen zur Beschreibung der Injektivität einer Abbildung im Pfeilbild. Wir hatten bereits festgehalten, dass f genau dann injektiv ist, wenn für alle x, y ∈ M aus
f (x) = f (y) stets x = y folgt. Äquivalent hierzu ist, dass für jedes z ∈ N für alle
x, y ∈ M mit f (x) = f (y) = z stets x = y ist, d.h. das es höchstens ein x ∈ M mit
f (x) = z gibt. Da weiter f (x) = z nach Definition einfach (x, z) ∈ f bedeutet, können
wir die letztgenannte Bedingung auch so aussprechen, dass jedes Element x ∈ N der
rechten Seite von höchstens einem Pfeil getroffen wird:
nicht
injektiv
injektiv
Eine bijektive Abbildung ist nun gleichzeitig injektiv und surjektiv, und im Pfeilbild
bedeutet dies das unsere Pfeile eine umkehrbar eindeutige Zuordnung der Elemente der
30
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
linken Seite zu den Elementen der rechten Seite vermitteln. In den Übungen werden
Sie auch einige Beispiele zu Injektivität und Surjektivität für durch Formeln gegebene
Funktionen durchrechnen.
3.4
Vollständige Induktion und endliche Mengen
Die sogenannte vollständige Induktion ist Beweisverfahren für Aussagen über natürliche
Zahlen. Abstrakt können wir diese Methode wie folgt beschreiben. Gegeben ist eine
Aussage A(n) für natürliche Zahlen n ∈ N, und wir wollen zeigen, dass diese für
alle n ∈ N zutrifft. Statt A(n) direkt zu beweisen werden dann die folgenden beiden
Teilbehauptungen bewiesen:
Induktionsanfang: Die Aussage A(1) ist wahr.
Induktionsschluß: Ist n ∈ N eine natürliche Zahl und ist A(n) wahr, so ist auch die
Aussage A(n + 1) wahr.
Haben wir diese beiden Aussagen bewiesen, treffen also Induktionsanfang und Induktionsschluß beide zu, so besagt das Prinzip der vollständigen Induktion, dass unsere
Aussage A(n) tatsächlich für jedes n ∈ N wahr ist. Dies wird klarer wenn wir die
vollständige Induktion an einem konkreten Beispiel vorführen. Wir wollen zeigen, daß
für jedes n ∈ N die Summe der ersten n natürlichen Zahlen gleich n(n + 1)/2 ist, d.h.
das
n(n + 1)
(∗) 1 + 2 + . . . + n =
2
gilt. Unsere Behauptung ist hier also die Aussage
A(n) = Es gilt 1 + 2 + . . . + n =
”
n(n + 1)
“
2
für natürliche Zahlen n ∈ N. Dann prüfen wir der Reihe nach, dass Induktionsanfang
und Induktionsschluß beide wahr sind:
Induktionsanfang: Wegen 1 =
ist wahr.
1·2
2
stimmt unsere Behauptung für n = 1, d.h. A(1)
Induktionsschluß: Sei nun n ∈ N gegeben und nehme an, dass A(n) wahr ist, das
also unsere Behauptung für n zutrifft. Es ist also bereits 1 + . . . + n = n(n + 1)/2.
Dann rechnen wir:
1 + . . . + (n + 1) = 1 + . . . + n + (n + 1)
n(n + 1)
=
+n+1
2
n(n + 1) + 2(n + 1)
=
2
(n + 1)(n + 2)
=
,
2
31
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
und dies bedeutet das die behauptete Formel auch für n + 1 wahr ist, also das
die Aussage A(n + 1) ebenfalls wahr ist.
Per vollständiger Induktion ist (∗) damit allgemein für jedes n ∈ N bewiesen.
In sehr vielen Induktionsbeweisen ist es aus der jeweiligen Behauptung unmittelbar
klar, welche Aussage für A(n) verwendet wird, und in diesen Fällen verzichten wir
meist darauf A(n) explizit einzuführen. Die oben durchgeführte explizite Trennung
von Induktionsanfang und Induktionsschluß ist ein hauptsächlich bei der Bearbeitung
von Übungsaufgaben verwendeter Stil. Normalerweise wird der obige Beweis eher im
folgenden Stil notiert: Wegen 1 · 2/2 = 1 gilt (∗) für n = 1. Ist nun n ∈ N mit (∗)
”
gegeben, so gilt auch . . ., d.h. (∗) trift auch für n + 1 anstelle von n zu. Per Induktion
ist (∗) damit für jedes n ∈ N bewiesen“.
Wir wollen nun kurz die Frage behandeln warum die vollständige Induktion überhaupt ein zulässiges Beweismittel ist. Eine heuristische Begründung, die auch bereits
ausreichen sollte Sie von der Induktionsmethode zu überzeugen, kann man wie folgt
beschreiben. Nach unserem Induktionsanfang wissen wir, dass zumindest A(1) zutrifft.
Damit können wir aber den Induktionsschluß auf den speziellen Fall n = 1 anwenden, und erhalten das auch A(2) = A(1 + 1) wahr ist. Wenden wir den Induktionsschluß dann ein weiteres Mal, diesmal mit n = 2, an, so haben wir die Gültigkeit von
A(3) = A(2 + 1). So fortfahrend sind dann auch A(4), A(5), . . . und immer so weiter
wahr. Da wir so bei jeder natürlichen Zahl n ∈ N vorbeikommen, ist A(n) für jedes
n ∈ N wahr.
Das mag überzeugend klingen, und darf Ihnen durchaus als Begründung ausreichen,
ist aber streng genommen kein Beweis. Wir haben ja das eigentliche Problem nur in
die harmlos aussehenden Worte und immer so weiter“ verpackt, die obige Begründung
”
ist also eher ein Verkaufstrick als ein wirkliches Argument. Da wir in dieser Vorlesung
keine wirkliche Definition der natürlichen Zahlen angegeben haben, und dies auch im
folgenden nicht tun werden, ist ein strenger Beweis des Induktionsverfahrens für uns
überhaupt nicht möglich. Tatsächlich gibt es keinen bekannten Weg, der es vollständig
vermeidet die eine oder andere Form des Induktionsbeweises als eines der Grundaxiome
zu verwenden.
Allerdings können wir das Induktionsprinzip sehr wohl auf ein noch einfacheres
Grundprinzip zurückführen, das zu akzeptieren Ihnen keine Probleme bereiten sollte.
Wir verwenden hier die folgende Grundannahme:
Grundprinzip: Sind n ∈ N und endlich viele reelle
Zahlen x1 , . . . , xn ∈ R gegeben, so gibt es unter diesen
eine kleinste Zahl, d.h. es gibt ein 1 ≤ i ≤ n mit xi ≤ xj
für alle 1 ≤ j ≤ n.
In anderen Worten soll jede nichtleere, endliche Teilmenge ∅ =
6 M ⊆ R ein minimales,
d.h. kleinstes, Element besitzen. Dieses Grundprinzip ist in gewissen Sinne einfacher
als das Induktionsprinzip, da es ja nur von endlichen Mengen von Zahlen handelt, und
32
Mathematik für Ingenieure I, WS 2008/2009
Freitag 7.11.2008
nicht von der Gültigkeit von Aussagen für die unendlich vielen n ∈ N. Trotzdem reicht
diese Annahme aus, die Induktion als Beweisverfahren vollständig zu begründen.
Satz 3.4: Jede nichtleere Teilmenge ∅ =
6 M ⊆ N der natürlichen Zahlen hat ein minimales Element.
Beweis: Sei also eine Teilmenge ∅ =
6 M ⊆ N gegeben. Wegen M 6= ∅ können wir
ein Element m ∈ M wählen. Dann ist M ∩ {1, . . . , m} als Teilmenge der endlichen
Menge {1, . . . , m} eine endliche Menge reeller Zahlen. Wegen m ∈ M ∩ {1, . . . , m} ist
diese Menge auch nicht leer, und nach unserem Grundprinzip enthält sie ein minimales
Element n ∈ M ∩ {1, . . . , m} ⊆ M .
Wir wollen nun einsehen, das n sogar ein minimales Element von ganz M ist. Sei
also k ∈ M gegeben. Ist dann k ≤ m, so gilt k ∈ M ∩ {1, . . . , m} und nach Wahl von
n als minimales Element von M ∩ {1, . . . , m} ist damit n ≤ k. Andernfalls gilt k > m.
Wegen n ∈ {1, . . . , m} ist dann n ≤ m < k, also ebenfalls n ≤ k. Damit ist n ein
minimales Element von M und der Satz ist bewiesen.
Nun ist es leicht aus diesem Satz die mengentheoretische Version des Induktionsprinzips herzuleiten:
Satz 3.5 (Mengentheoretisches Induktionsprinzip)
Sei M ⊆ N eine Teilmenge mit den folgenden beiden Eigenschaften:
1. Es ist 1 ∈ M .
2. Für jedes n ∈ M ist auch n + 1 ∈ M .
Dann gilt bereits M = N.
Beweis: Wir beweisen dies durch einen Widerspruchsbeweis. Nehme also an, es wäre
doch M 6= N. Dann gibt es natürliche Zahlen n ∈ N mit n ∈
/ M , d.h. es wäre N\M 6= ∅.
Nach Satz 4 gibt es ein minimales Element n ∈ N\M von N\M , also insbesondere
n∈
/ M . Nach Bedingung (1) für die Menge M ist n 6= 1, also ist auch n − 1 ∈ N eine
natürliche Zahl. Wegen n − 1 < n kann n − 1 kein Element von N\M sein, denn sonst
wäre ja n ≤ n − 1 da n ein minimales Element von N\M ist. Folglich ist n − 1 ∈ M ,
und mit Bedingung (2) für M ergibt sich der Widerspruch n = (n − 1) + 1 ∈ M . Dieser
Widerspruch beweist unsere Behauptung M = N.
Mit diesem Satz können wir jetzt das Verfahren der vollständigen Induktion in seiner
eingangs gegebenen Formulierung für Aussagen A(n) tatsächlich beweisen. Wir denken
uns also die Aussagen A(n) als gegeben und nehme an, dass wir bereits den Induktionsanfang und den Induktionsschluß nachgewiesen haben. Dann definieren wir die
folgende Menge natürlicher Zahlen
M := {n ∈ N|A(n) ist wahr} ⊆ N.
33
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 11.11.2008
Der Induktionsanfang besagt dann 1 ∈ M und der Induktionsschluß ergibt n + 1 ∈ M
für jedes n ∈ M . Nach dem mengentheoretischen Induktionsprinzip Satz 5 ist damit
bereits M = N, aber dies bedeute gerade das A(n) für jede natürliche Zahl n ∈ N wahr
ist.
Damit wollen wir die grundsätzliche Diskussion über das Prinzip der vollständigen Induktion beenden, und uns nun einigen kleinen Erweiterungen und Details zuwenden. Zunächst wollen wir uns über die Rolle des Induktionsanfangs klar werden,
in den allermeisten Beispielen von Induktionsbeweisen ist der Induktionsanfang eine oft nahezu lächerlich wirkende Kleinigkeit, in unserem Beweis der Summenformel
1 + . . . + n = n(n + 1)/2 scheint es reichlich überflüssig, 1 = 1 · 2/2 explizit festzuhalten.
Die eigentliche Arbeit bei einem Induktionsbeweis findet meist bei der Begründung des
Induktionsschlusses statt.
Trotzdem ist der Induktionsanfang unverzichtbar und absolut wesentlich. Denn der
Induktionsschluß funktioniert erstaunlich oft auch bei völlig falschen Aussagen. Nehmen wir beispielsweise die offensichtlich falsche Behauptung n > n + 1 als unsere
Aussage A(n). Der Induktionsschluß ist hier völlig unproblematisch machbar, ist ein
n ∈ N mit n > n + 1 gegeben, so haben wir sofort auch n + 1 > (n + 1) + 1. Nur
der Induktionsanfang steht hier zwischen uns und dem Beweis einer falschen Aussage
durch vollständige Induktion.
Vorlesung 6, Dienstag 11.11.2008
Dass es wirklich notwendig ist auch den Induktionsanfang zu überprüfen ist keinesfalls
ein isoliertes Problem. Betrachten Sie beispielsweise den Fall, dass die Aussage A(n) für
absolut jedes n ∈ N falsch ist. Wie wir in §1 vermerkt haben, ist eine Implikation A ⇒ B
immer wahr wenn ihre Voraussetzung A falsch ist, ist also A(n) wie angenommen für
jedes n ∈ N falsch, so ist die Implikation A(n) ⇒ A(n + 1) für jedes n ∈ N wahr.
Der Induktionsschluß funktioniert also immer wenn die Aussage A(n) für jedes n ∈ N
falsch ist.
Häufig ist es nützlich das Induktionsprinzip ein klein wenig zu modifizieren, und
wir wollen nun die gängigsten Varianten des Induktionsprinzips besprechen, und uns
auch jeweils klarmachen das es sich tatsächlich um korrekte Beweismethoden handelt.
Die erste dieser Varianten sind Induktionsbeweise, die ihren Induktionsanfang nicht bei
1 sondern bei einem anderem Startwert n0 haben. Dieses Induktionsprinzip folgt dem
im folgenden beschriebenen Schema.
Gegeben ist wieder eine Aussage A(n) für n ∈ N und zusätzlich eine natürliche Zahl
n0 ∈ N. Dann zeigt man der Reihe nach:
Induktionsanfang: Die Aussage A(n0 ) ist wahr.
Induktionsschluß: Ist n ∈ N eine natürliche Zahl mit n ≥ n0 und ist A(n) wahr, so
ist auch die Aussage A(n + 1) wahr.
34
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 11.11.2008
Haben wir diese beiden Aussagen bewiesen, so besagt das modifizierte Induktionsprinzip das die Aussage A(n) für jedes n ∈ N mit n ≥ n0 wahr ist. Bevor wir uns klar
machen das auch diese Variante des Induktionsprinzips in Ordnung ist wollen wir noch
ein Beispiel vorführen. Wir wollen zeigen, dass für jedes n ∈ N mit n ≥ 4 stets 2n > 3n
gilt. Die Aussage A(n) ist hier also 2n > 3n“ und wir haben n0 = 4. Nun überprüfen
”
wir Induktionsanfang und Induktionsschluß.
Induktionsanfang: Wegen 24 = 16 > 12 = 3 · 4 gilt die Aussage für n = 4 = n0 , d.h.
wir haben A(n0 ).
Induktionsschluß: Sei n ∈ N mit n ≥ 4 gegeben und nehme an, dass A(n) wahr ist,
das also 2n > 3n gilt. Mit 3n ≥ 3 folgt dann auch
2n+1 = 2 · 2n > 2 · 3n = 3n + 3n ≥ 3n + 3 = 3(n + 1),
und dies bedeutet das die Behauptung auch für n + 1 gilt, beziehungsweise das
A(n + 1) wahr ist.
Unser verallgemeinertes Induktionsprinzip liefert damit 2n > 3n tatsächlich für alle
n ≥ 4 wahr ist. Dass auch dieses verallgemeinerte Induktionsprinzip eine korrekte
Beweismethode ist, können wir einsehen indem wir es auf das gewöhnliche Verfahren
der vollständigen Induktion zurückführen. Nehme also an, dass wir ein n0 ∈ N und eine
Aussage A(n) haben, die die Bedingungen des verallgemeinerten Induktionsprinzips
erfüllen. Es soll also A(n0 ) wahr sein und für jedes n ≥ n0 für das A(n) wahr ist, sei
auch A(n + 1) wahr. Wir müssen beweisen das dann A(n) für jedes n ≥ n0 wahr ist.
Dabei können wir ohne jede Einschränkung annehmen, dass n0 > 1 ist denn für n0 = 1
haben wir ja genau unser originales Induktionsprinzip. Nun führen wir die folgende
Hilfsaussage
B(n) = A(n) ∨ (n < n0 )
ein, und wollen uns klarmachen das für diese Induktionsanfang und Induktionsschluß
des ursprünglichen Induktionsverfahrens zutreffen.
Induktionsanfang: Wegen n0 > 1 ist B(1) wahr.
Induktionsschluß: Nun sei n ∈ N und es gelte bereits B(n). Wir müssen einige
verschiedene Fälle unterscheiden:
Fall 1: Es sei n < n0 − 1. Dann ist auch n + 1 < n0 und somit ist B(n) wahr.
Fall 2: Es sei n = n0 − 1. Dann ist n + 1 = n0 und da A(n0 ) wahr ist, ist auch
B(n + 1) = B(n0 ) = A(n0 ) ∨ (n0 < n0 ) wahr.
Fall 3: Im verbleibenden Fall ist n ≥ n0 . Da B(n) = A(n) ∨ (n < n0 ) wahr ist,
aber n ≥ n0 gilt, muss A(n) wahr sein. Jetzt können wir den angenommenen
Induktionsschluß für die Aussage A(n) verwenden, und hier auf die Gültigkeit von A(n+1) schließen. Damit ist auch B(n+1) = A(n+1)∨(n+1 < n0 )
wahr.
35
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 11.11.2008
Damit haben wir B(n+1) in allen drei Fällen bewiesen, und der Induktionsschluß
für die Hilfsaussage B(n) ist vollständig.
Damit ist die Aussage B(n) per vollständiger Induktion für jedes n ∈ N bewiesen. Ist
nun schließlich n ∈ N mit n ≥ n0 gegeben, so ist B(n) = A(n) ∨ (n < n0 ) wahr, d.h.
A(n) selbst muss wahr sein.
Damit haben wir unser erstes modifiziertes Induktionsverfahren als korrekt nachgewiesen. Wie gesehen ist der Unterschied zur Standardinduktion hier nicht besonders
groß. Es gibt nun eine weitere Variante des Induktionsverfahrens, die sogenannte Abschnittsinduktion, die sich auf den ersten Blick deutlich vom Standardverfahren zu
unterscheiden scheint. Dieses dient erneut dazu eine gegebene Aussage A(n) für jedes
n ∈ N zu beweisen. Diesmal wird ein Induktionsschluß in der folgenden Form durchgeführt:
Induktionsschluß: Ist n ∈ N eine natürliche Zahl und sind die Aussagen A(k) für
alle 1 ≤ k < n bereits wahr, so ist auch die Aussage A(n) wahr.
In anderen Worten müssen wir die Implikation A(1) ∧ . . . ∧ A(n − 1) ⇒ A(n)“ für jede
”
natürliche Zahl n ∈ N nachweisen. Hier scheint der Induktionsanfang zu fehlen, aber
dies ist eine Täuschung, er ist nur etwas besser versteckt. Der spezielle Fall n = 1 im
obigen Induktionsschluß verlangt ja, dass aus der Gültigkeit von A(k) für alle 1 ≤ k < 1
auch die Gültigkeit von A(1) folgt, und da es überhaupt keine solchen k gibt wird in
Wahrheit verlangt, dass A(1) zutrifft. Der Induktionsanfang fällt in dieser Formulierung
also mit dem speziellen Fall n = 1 im Induktionsschluß zusammen. Haben wir dann
den Induktionschluß in seiner obigen Form durchgeführt, so besagt das Prinzip der
Abschnittsinduktion, das A(n) für jede natürliche Zahl n ∈ N wahr ist.
Bevor wir begründen warum auch die Abschnittsinduktion in Wahrheit doch nur
ein spezieller Fall unserer originalen vollständigen Induktion ist, wollen wir sie wieder
an einem Beispiel vorführen. Wir wollen zeigen, dass jede natürliche Zahl ein Produkt
von Primzahlen ist. Beachte dabei das wir das leere Produkt, in dem es also überhaupt
keine Faktoren gibt, per Konvention als 1 interpretieren. Daher müssen wir für n = 1 in
unserer Aussage keine Ausnahme machen. Die Aussage A(n) ist hier natürlich einfach
n ist ein Produkt von Primzahlen“. Für diese Aussage müssen wir nun einsehen, dass
”
der Induktionsschluß in seiner Abschnittsform wahr ist. Sei also eine natürliche Zahl
n ∈ N gegeben, und nehme an das A(k) für jede kleinere natürliche Zahl k bereits wahr
ist. Wir unterscheiden einige verschiedene Fälle:
Fall 1: Zunächst nehme an, dass n selbst eine Primzahl ist. Dann ist n ein Produkt
von Primzahlen mit nur einem Faktor und A(n) ist wahr.
Fall 2: Nun sei n = 1. Dann hatten wir bereits bemerkt das wir n = 1 als das
Produkt von Null Primzahlen interpretieren, also ist A(n) = A(1) auch in diesem
Fall wahr.
Fall 3: Im verbleibenden Fall ist n 6= 1 keine Primzahl und dies bedeutet das sich
n als ein Produkt zweier kleinerer Zahlen schreiben läßt. Es gibt also natürliche
36
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 11.11.2008
Zahlen k, l ∈ N mit k, l < n und n = k · l. Da k, l beide kleiner als n sind, besagt
unsere Annahme in der Abschnittsinduktion das A(k), A(l) wahr sind, d.h. k und
l sind beide bereits Produkte von Primzahlen. Damit ist aber auch n = k · l ein
Produkt von Primzahlen.
Damit haben wir den Induktionsschluß in seiner Abschnittsvariante durchgeführt, und
das Prinzip der Abschnittsinduktion ergibt, dass A(n) für jede natürliche Zahl n ∈ N
wahr ist, dass also jedes n ∈ N ein Produkt von Primzahlen ist.
Wie für die Induktion ab einem Startwert wollen wir nun auch begründen warum
die Abschnittsinduktion eine korrekte Beweistechnik ist. Hierzu gehen wir völlig analog
zu unserer obigen Schlußweise vor. Wir geben uns also eine Aussage A(n) für natürliche
Zahlen n ∈ N vor, und nehmen an das für diese der Induktionsschluß der Abschnittsinduktion zutrifft. Wir werden nun eine Hilfsaussage B(n) einführen und von dieser
dann zeigen das für sie sowohl Induktionsanfang als auch Induktionsschluß des gewöhlichen Induktionsverfahrens wahr sind. Wie Sie vielleicht erwarten definieren wir diese
Hilfsaussage einfach als
B(n) := [A(1) ∧ A(2) ∧ . . . ∧ A(n)],
d.h. B(n) ist wahr wenn A(k) für jedes 1 ≤ k ≤ n wahr ist. Für diese Aussage B(n)
gehen wir nun Induktionsanfang und Induktionsschluß durch:
Induktionsanfang: Wir hatten bereits bemerkt, dass der Induktionsschluß beim
Abschnittsinduktionsverfahren mit n = 1 die Aussage A(1) beinhaltet. Damit ist
auch B(1) = A(1) wahr.
Induktionsschluß: Nun sei n ∈ N und es gelte bereits die Aussage B(n), d.h. alle
Aussagen A(1), . . . , A(n) sind wahr. Wenden wir nun den Induktionsschluß des
Abschnittinduktionsverfahrens mit n + 1 statt n an, so folgt damit das auch die
Aussage A(n + 1) wahr ist. Folglich sind alle Aussagen A(1), . . . , A(n), A(n + 1)
wahr und dies ist gerade die Gültigkeit von B(n + 1).
Damit gelten für unsere Hilfsaussage B(n) sowohl Induktionsanfang als auch Induktionsschluß des gewöhnlichen Induktionsverfahrens, d.h. per vollständiger Induktion ist
B(n) für jedes n ∈ N wahr. Damit ist aber auch A(n) für jedes n ∈ N wahr.
Dieses Argument beweist die Korrektheit der Abschnittsinduktion. Als eine letzte
Induktionsvariante wollen wir noch kurz die sogenannte Strukturinduktion ansprechen,
die einem gelegentlich in der Informatik begegnet. Diese unterscheidet sich dadurch von
den bisherigen Induktionsmethoden, dass sie nicht mehr von Aussagen über natürliche
Zahlen handelt. Weiter ist Strukturinduktion“ eher ein Oberbegriff als ein konkret
”
fixiertes Prinzip, so das die Dinge am klarsten sind wenn wir ein Beispiel behandeln.
Wir wollen Terme betrachten die durch Addition und Multiplikation aus vorgegebenen
Variablen a, b, c, . . . aufgebaut sind. Gemeint sind also Ausdrücke wie (a + b) · c +
ad. Formal werden diese Ausdrücke definiert indem man ihren Aufbau von unter her
beschreibt, was etwa durch die folgenden Regeln getan werden kann:
37
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 11.11.2008
1. Für jede Variable x ist x ein Term.
2. Sind t, s zwei Terme, so ist auch t + s ein Term.
3. Sind t, s zwei Terme, so ist auch (t) · (s) ein Term.
4. Sind x, y zwei Variablen, so ist x · y ein Term.
5. Sind t ein Term und x eine Variable, so sind auch (t) · x und x · (t) Terme.
Unser Beispielterm ergibt sich dann wie folgt: Zunächst sind a, b Variablen, also nach
(1) auch Terme, und somit ist nach (2) auch a + b ein Term. Da c eine Variable ist,
ist nach (5) auch (a + b) · c ein Term. Weiter sind a, d Variable, also a · d nach (4)
ein Term. Insgesamt ist schließlich (a + b) · c + a · d nach (2) ein Term. Die Regeln
(4,5) dienen hier nur dazu damit wir einzelne Variablen als Faktoren von Produkten
nicht klammern müssen, sonst wäre zum Beispiel a · d kein Term, sondern nur (a) · (d).
Die Regeln sind noch nicht ganz perfekt, da Produkte aus Variablen immer vollständig
geklammert sein müssen, a · b · c ist hier kein Term, sondern nur a · (b · c) und auch
(a · b) · c.
Unter Strukturinduktion versteht man nun die Methode Aussagen über Terme
durch Induktion über den Aufbau der Terme gemäß der gegebenen Regeln zu beweisen.
Nehmen wir etwa an wir wollen die Behauptung Jeder Term kann durch Anwendung
”
der üblichen Rechenregeln in eine Summe von Produkten von Variablen überführt werden“ wirklich beweisen. Wir wollen dies hier nicht zu Ende beweisen, da es doch etwas
von unserem eigentlichen Thema wegführt, sondern nur einen Eindruck einses solchen
Beweises geben. Man geht der Reihe nach die Regeln durch und überzeugt sich jedesmal, dass aus der Gültigkeit der Behauptung für die Teilterme t, s auch die Gültigkeit
der Behauptung für den Gesamtterm folgt. Nehmen wir etwa Regel (2). Wir betrachten also einen Term der Form t + s mit Termen t, s für die unsere Behauptung bereits
wahr ist. Durch Anwendung von Rechenregeln können wir dann t und s einzeln in
Summen von Produkten von Variablen überführen. Führen wir dies nacheinander für
t und s durch, so haben wir auch t + s in eine Summe von Produkten von Variablen
umgeschrieben. Die Argumentation für Regel (3) ist schon komplizierter, wir müssen
hier das Produkt (t) · (s) ausmultiplizieren. Dies kann man etwa durch eine weitere geschachtelte Induktion machen, aber wie bereits bemerkt wollen wir dies nicht zu Ende
ausführen.
Wichtig ist hier nur das Induktionsartige“ dieser Methode zu sehen, statt von n
”
auf n + 1 zu schließen wird von einzelnen Teilausdrücken auf die zusammengesetzten
Terme geschlossen. Dies sind auf den ersten Blick komplizierter als eine gewöhnlicher
Induktionsbeweis aus, kann aber letztlich doch als ein solcher aufgefasst werden. Wir
können die Strukturinduktion etwa als eine Abschnittsinduktion über die Länge des
Termes interpretieren, dies ist also kein wirklich anderes Beweisverfahren.
Damit wollen wir die Diskussion der abstrakten Induktionsprinzipien abschließen,
und uns kurz einem verwandten Thema zuwenden. Dies ist die induktive Konstruktion von auf N definierten Abbildungen, die oft auch als Rekursion bezeichnet wird,
38
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 11.11.2008
aber letzterer Begriff wird auch noch in etwas erweiterter Bedeutung verwendet. Hier
schließen wir nicht von n auf n + 1 um eine Behauptung zu beweisen, sondern wir verwenden einen bereits bekannten Funktionswert f (n) um den nächsten Wert f (n + 1)
zu definieren. Eines der einfachsten Beispiele ist die sogenannte Fakultät natürlicher
Zahlen geschrieben als
n! := 1 · 2 · . . . · n
für n ∈ N. Verwenden wir die bereits oben erwähnte Konvention das leere Produkt
als 1 zu interpretieren, so können wir auch noch 0! := 1 setzen. Die induktive Definition der Fakultätsfunktion läuft wie im folgenden beschrieben. Wir starten mit dem
Funktionswert 1! := 1, oder wenn man will auch mit 0! := 1. Dies entspricht dem
Induktionsanfang. Als nächstes nimmt man ein n ∈ N und geht davon aus, dass der
Funktionswert n! bereits definiert ist. Dann definiere den Wert der Fakultät für n + 1
durch (n + 1)! := (n + 1) · n!. Wichtig ist das hier um (n + 1)! als (n + 1) · n! zu definieren
der vorherige Wert n! benutzt wird.
Betrachten wir noch ein zweites Beispiel und nehmen die Funktion die durch die
induktive Definition f (1) = 3 und f (n + 1) = n + (−1)n n · f (n) für n ∈ N gegeben ist.
Die Funktionwerte sind hier
f (1) = 3, f (2) = 1+(−1)1 1·f (1) = 1−3 = −2, f (3) = 2+(−1)2 2f (2) = 2−4 = −2,
f (4) = 3 + (−1)3 3f (3) = 3 − 3 · (−2) = 9, f (5) = 4 + (−1)4 4f (4) = 40, . . .
Wie beim Induktionsverfahren gibt es auch für die induktive Definition einige kleine
Varianten. Man kann etwa bei einem Funktionwert f (n0 ) anstelle von f (1) starten, oder
auch f (n) unter Verwendung mehrerer, oder gar aller, der Werzte f (1), . . . , f (n − 1)
definieren. Ein bekanntes Beispiel für letzteres sind die sogenannten Fibonacci-Zahlen,
die induktiv wie folgt definiert werden:
f (1) := 1, f (2) := 1, f (n) := f (n − 2) + f (n − 1) für n ≥ 3.
Die ersten dieser Fibonacci-Zahlen sind dann
f (1) = 1, f (2) = 1, f (3) = f (1) + f (2) = 1 + 1 = 2, f (4) = f (2) + f (3) = 1 + 2 = 3,
f (5) = f (3) + f (4) = 2 + 3 = 5, f (6) = f (4) + f (5) = 3 + 5 = 8, . . .
Wir kommen jetzt zum letzten Thema dieses Abschnitts und wollen noch einige kleine
Anzahlformeln für endliche Mengen begründen. Eine endliche Menge ist dabei natürlich
eine Menge mit nur endlich vielen Elementen M = {x1 , . . . , xn } und die Anzahl ihrer
Elemente bezeichnen wir mit dem Symbol |M |. Zunächst wollen wir einige unmittelbar
einleuchtende Abzählformeln für endliche Mengen M, N einfach auflisten:
1. Ist N ⊆ M eine Teilmenge, so gilt |M \N | = |M | − |N |. Dies sollte Ihnen kar
sein, denn die Elemente von M \N sind ja gerade diejenigen Elemente von M , die
nicht in N sind, d.h. die Elementezahl verringert sich um die Zahl der Elemente
von N , also um |N |.
39
Mathematik für Ingenieure I, WS 2008/2009
M
Dienstag 11.11.2008
N
2. Sind M, N disjunkt, d.h. haben M und N keine gemeinsamen Elemente, beziehungsweise M ∩ N = ∅, so ist offenbar |M ∪ N | = |M | + |N |.
3. Im allgemeinen Fall ist dagegen |M ∪ N | = |M | + |N | − |M ∩ N |. Dies kann man
auf zwei verschiedene Arten einsehen.
M
N
Zähle wir die Elemente von M ∪ N also die Elemente die in M oder in N sind,
so können wir zuerst die Elemente von M und dann die von N zählen und die
beiden Werte addieren. Allderdings haben wir dann jedes Element das zugleich
in M und in N , also in M ∩ N , liegt doppelt gezählt, und zur Korrektur dieses
Fehlers müssen wir die Zahl dieser Elemente, also |M ∩ N | wieder abziehen. Dies
ist die erste mögliche Begründung dieser Formel. Alternativ können wir auch mit
(1) und (2) argumentieren, denn die Menge M ∪ N ist ja die Vereinigung
M ∪ N = (M \(M ∩ N )) ∪ (N \(M ∩ N )) ∪ (M ∩ N )
dreier zueinander jeweils disjunkter Mengen, und mit (1) und (2) rechnen wir
|M ∪ N | = |M \(M ∩ N )| + |N \(M ∩ N )| + |M ∩ N |
= |M | − |M ∩ N | + |N | − |M ∩ N | + |M ∩ N |
= |M | + |N | − |M ∩ N |.
4. Es gilt |M × N | = |M | · |N |. Dies ist klar, denn |M × N | ist die Anzahl aller
Paare (x, y) mit erster Komponente x in M und zweiter Komponente y in N . Für
x gibt es also |M | Möglichkeiten, für y gibt es |N | Möglichkeiten und insgesamt
haben wir |M | · |N | mögliche Paare.
Wir wollen nun einige etwas kompliziertere Anzahlformeln herleiten. Wir beginnen damit die Anzahl der Anordnungen von n ∈ N verschiedenen Objekten zu bestimmen.
Wir werden dies auf zwei verschiedene Arten tun, zunächst gegen wir eine exakte Herleitung über eine induktive Beschreibung der gesuchten Zahl an. Anschließend machen
wir uns dann heuristisch klar, das unser Ergebnis eigentlich von vorn herein klar war.
Beginnen wir mit einer exakten Herleitung. Zunächst müssen wir uns darüber im klaren
40
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 11.11.2008
sein was mit der Anzahl der Anordnungen von n Objekten überhaupt gemeint ist. Wir
wollen dies einmal für n = 3 durchgehen. Sagen wir haben drei (verschiedene) Objekte
a, b, c. Die Zahl der Anordnungen meint dann in wievielen verschiedenen Reihenfolgen
wir diese drei Dinger hinschreiben können. Für drei Objekte schaft man die noch ganz
gut per Hand und erhält
abc, bac, cba, acb, bca, cab,
also 6 verschiedene Möglichkeiten. In einer anderen Reihenfolge hinschreiben meint
das in der neuen Liste jeder Eintrag der alten List an genau einer Stelle wiederkehrt.
Alternativ können wir jede solche Reihenfolge beschreiben indem wir für jeden der drei
Einträge einen Pfeil zu seiner neuen Position aufmalen. Beispielsweise entspricht die
Reihenfolge bca dem Bild
a
b
c
Dieses können wir etwas entzerren indem wir die drei Punkte duplizieren und die Pfeile
vom linken Original zum rechten Duplikat zeichnen. Unser Beispiel wird dann zu
a
b
c
Die Bedingung das jedes der Objekte a, b, c in der anderen Reihenfolge genau einmal auftritt, besagt für dieses Bild, das jeder Punkt auf der rechten Seite von genau einem Pfeil getroffen wird. Auf der anderen Seite hatten wir aber festgehalten,
dass die Pfeilbilder mit der obigen Eigenschaft genau den bijektiven Abbildungen
f : {a, b, c} → {a, b, c} entsprechen. Weil es auf die Benennungen der Punkte hierzu nicht ankommt, ist die Anzahl der Umordnungen unserer drei Objekte also gerade
gleich der Anzahl bijektiver Abbildungen einer dreielementigen Menge auf eine andere
dreielementige Menge.
Diese Beobachtung ist natürlich nicht auf n = 3 beschränkt sondern ist für jede
natürliche Zahl n ∈ N wahr. Also ist die von uns gesuchte Zahl A(n) der Anordnungen
von n verschiedenen Objekten auch gleich der Anzahl bijektiver Abbildungen f : M →
N einer n-elementigen Menge M auf eine andere n-elementige Menge N . Mit dieser
Beobachtung ist es nun leicht eine induktive Formel für die gesuchten Zahlen A(n)
aufzustellen. Sei n ∈ N gegeben. Wir betrachten dann die Menge
M := {f : {1, . . . , n + 1} → {1, . . . , n + 1}|f ist bijektiv}.
41
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
Wie wir gerade eingesehen haben, ist die Anzahl der Elemente von M , also die Anzahl
bijektiver Abbildungen f : {1, . . . , n + 1} → {1, . . . , n + 1} gleich der Anzahl A(n + 1)
der Anordnungen von n + 1 Objekten. Die Menge M können wir nun durch das Bild
f (n+1) des letzten Elements in n+1 verschiedene, disjunkte, Gruppen einteilen, indem
wir für jedes 1 ≤ k ≤ n + 1 die Menge
Mk := {f ∈ M |f (n + 1) = k}
betrachten. Dann ist M die disjunkte Vereinigung M = M1 ∪ . . . ∪ Mn+1 und unsere
obige Formel (2) liefert
A(n + 1) = |M | = |M1 | + . . . + |Mn+1 |.
Was sind nun die Elementezahlen |M1 |, . . . , |Mn+1 |? Sei 1 ≤ k ≤ n + 1. Die Elemente
von Mk+1 sind diejenigen bijektiven Abbildungen f : {1, . . . , n + 1} → {1, . . . , n + 1}
bei denen der Wert f (n + 1) = k festgelegt ist. Diese entsprechen dann bijektiven
Abbildungen
g : {1, . . . , n} → {1, . . . , n + 1}\{k} = {1, . . . , k − 1, k + 1, . . . , n + 1}.
Insbesondere ist die Anzahl der Elemente von Mk gleich der Anzahl der bijektiven Abbildungen der n-elementigen Menge {1, . . . , n} auf die n-elementige Menge {1, . . . , n +
1}\{k}, und wie bereits oben festgehalten ist diese Anzahl gleich A(n). Somit haben
wir
|M1 | = |M2 | = . . . = |Mn+1 | = A(n),
und damit
A(n + 1) = |M1 | + . . . + |Mn+1 | = A(n) + . . . + A(n) = (n + 1) · A(n).
|
{z
}
n + 1 mal
Dies ist aber genau dieselbe Rekursionsgleichung die auch von der Fakultätsfunktion
erfüllt wird. Da zudem die Anzahl der Anordnungen eines einzigen Objekts gleich 1 = 1!
ist, ist damit A(n) = n! für jedes n ∈ N per vollständiger Induktion.
Vorlesung 7, Freitag 14.11.2008
Wir wollen noch ein zweites, eher informelles, Argument für die Formel A(n) = n!
angeben. Wir denken uns unsere zu ordnenden n Objekte gegeben, und wollen diese
in n bereitstehende Schubladen einräumen. Die Reihenfolge in der die Objekte in den
verschiedenen Schubladen landen entspricht dann einer Anordnung der Objekte.
42
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
.....
.....
Für die erste Kugel stehen n freie Schubladen zur Verfügung, und wir haben damit
n Möglichkeiten diese Kugel einzuordnen. Bei der Einordnung der zweiten Kugel ist
bereits eine Schublade belegt, wir haben also nur noch n − 1 freie Schubladen und
somit n − 1 Möglichkeiten diese Kugel einzuordnen. So fortfahrend gibt es für die
dritte Kugel n − 2 Möglichkeiten, und so weiter bis zur letzten Kugel, die nur noch
eine freie Schublade vorfindet, also auch nur eine einzige Möglichkeit hat eingeordnet
zu werden. Insgesamt haben wir damit
n · (n − 1) · . . . · 1 = n!
Möglichkeiten der Anordnung unserer n Objekte. Beachte das dies in Wahrheit nur
eine andere Formulierung unserer vorherigen Argumentation ist. Nach Einordnung der
ersten Kugel haben wir dieselbe Situation nur für n − 1 statt n Kugeln vor uns, d.h. in
unserer obigen Notation haben wir wieder die rekursive Beziehung A(n) = n · A(n − 1)
eingesehen. Die anderen beiden Anzahlformeln, die wir nun noch herleiten wollen, werden wir nur im Stil der eben vorgestellten zweiten Argumentation vorführen. Bei Bedarf
könnten wir diese Begründungen jederzeit in ein entsprechendes Induktionsargument
überführen, aber für unsere Zwecke reicht es, ein solches Argument gesehen zu haben.
Wir wollen nun die Anzahl der Teilmengen einer n-elementigen Menge M berechnen.
Jede dieser Teilmengen besteht dann aus gewissen der Elemente von M , kann also
dadurch beschrieben werden, dass wir für jedes Element x von M sagen ob es zur
Teilmenge gehört oder nicht. Um eine der Teilmengen von M beschreiben, haben wir
also für jedes der n Elemente von M zu entscheiden, ob wir es zur Teilmenge gehören
lassen oder nicht. Für jedes der n Elemente von M gibt es also zwei Möglichkeiten,
und insgesamt haben wir damit
2| · 2 ·{z. . . · 2} = 2n
n mal
Möglichkeiten eine Teilmenge von M auszuwählen. Die Zahl der Teilmengen einer nelementigen Menge ist also 2n . Wie bereits bemerkt ist es auch leicht möglich, dieses
Argument in einen Induktionsbeweis umzuschreiben. Dies können wir zum Beispiel
machen indem wir die Teilmengen von M in zwei Gruppen einteilen, die einen enthalten
ein fixiertes Element x von M und die anderen nicht. Es ist durchaus lohnend, einen
solchen Induktionsbeweis als eine kleine Übung einmal selbst zu formulieren.
Wir wollen uns noch eine weitere solche Anzahlformel überlegen. Diesmal wollen
wir die Anzahl aller k-elementigen Teilmengen einer n-elementigen Mengen bestimmen.
43
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
Da eine Teilmenge einer n-elementigen Menge selbst höchstens n Elemente haben kann,
können wir uns auf den Fall 0 ≤ k ≤ n beschränken. Seien also n ∈ N und 0 ≤ k ≤ n
gegeben. Wir orientieren uns in unserer Argumentation nun an der Diskussion zur
Bestimmung der Anordnungen von n Elementen. Um eine k-elementige Teilmenge einer
n-elementigen Menge M zu wählen, können wir der Reihe nach k verschiedene Elemente
aus M herauspicken. Für das erste Element können wir dabei jedes beliebige Element
von M verwenden, haben also n Möglichkeiten. Wählen wir dann ein zweites Element,
so dürfen wir das bereits gewählte erste Element nicht noch einmal nehmen, haben
also nur noch n − 1 Möglichkeiten zur Wahl des zweiten Elements unserer Teilmenge.
So fortfahrend gibt es dann n − 2 mögliche Wahlen für das dritte Element, bis wir
letztlich zum k-ten Element kommen, für das es noch n − k + 1 Möglichkeiten gibt.
Letztere Formel läßt sich am einfachsten einsehen, wenn wir uns klarmachen, dass es
n = n − 1 + 1 Möglichkeiten für das erste Element, n − 1 = n − 2 + 1 Möglichkeiten
für das zweite Element, n − 2 = n − 3 + 1 Möglichkeiten für das dritte Element, also
allgemein n − i + 1 Möglichkeiten für das i-te Element gibt.
Damit haben wir insgesamt n·(n−1)·. . .·(n−k+1) Möglichkeiten, aber dies ist noch
nicht unser Endergebnis. Die eben berechnete Zahl ist ja nur die Anzahl aller Listen
aus k verschiedenen Elementen von M . Jede solche Liste liefert uns eine der gesuchten
k-elementigen Teilmengen, nämlich diejenige dere Elemente gerade die Einträge unserer
Liste sind, aber auf diese Art wird jede k-elementige Teilmenge mehrfach gezählt. Eine
gegebene k-elementige Menge kann man ja auf verschiedene Arten durch Auflisten
ihrer k Elemente hinschreiben, nämlich auf soviele Arten wie es Anordnungen ihrer
k Elemente gibt. Diese Zahl haben wir aber bereits als k! berechnet. Als Anzahl der
k-elementigen Teilmengen der n-elementigen Menge M ergibt sich damit
n · (n − 1) · . . . · (n − k + 1)
n · (n − 1) · . . . · 1
n!
=
=
.
k!
k! · (n − k) · . . . · 1
k!(n − k)!
Diesen Quotienten
n
n!
:=
k!(n − k)!
k
bezeichnet man als den Binomialkoeffizienten n über k“. Zusammenfassend haben wir
”
damit die folgenden Anzahlformeln eingesehen:
Beschreibung
Anordnungen von n Objekten
Teilmengen einer n-elementigen Menge
k-elementige Teilmengen einer n-elementigen Menge
Anzahl
n!
2n
n
k
Zum Abschluß dieses Abschnitts wollen wir die Binomialkoeffizienten noch etwas näher
untersuchen, und insbesondere erklären woher sie ihren Namen haben. In unserer obigen
Überlegung hatten wir immer n ∈ N also insbesondere n ≥ 1 angenommen, aber
44
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
unsere obige Definition ergibt wegen 0! = 1 auch 00 = 1. Für jedes n ∈ N hat eine nelementige Menge M genau eine nullelementige und genau eine n-elementige Teilmenge,
nämlich ∅ beziehungsweise M , also haben wir
n
n
=
=1
0
n
was natürlich auch mit der definierenden Formel klar ist. Weiter hat M auch genau n
einelementige Teilmengen, nämlich die Mengen {x} mit x ∈ M , d.h. wir haben
n
= n.
1
Die Binomialkoeffizienten sind auch symmetrisch in k, d.h. es gilt die Gleichung
n
n
=
k
n−k
für alle 0 ≤ k ≤ n. Auch dies ist wegen n − (n − k) = k direkt aus unserer Formel
klar. Alternativ können wir dies auch dadurch begründen, dass die k-elementigen Teilmengen einer n-elementigen Mengen über Komplementbildung den (n−k)-elementigen
Teilmengen entsprechen. Insbesondere ist damit übrigens:
n
n
=
= n.
n−1
1
Es gibt noch eine weitere einfache Beziehung zwischen den Binomialkoeffizienten, das
Pascalsche Dreieck. Um diese Formel herzuleiten betrachten wir eine natürliche Zahl
n ∈ N sowie ein 0 ≤ k < n. Weiter sei M die Menge der (k +1)-elementigen Teilmengen
der (n + 1)-elementigen Menge {1, . . . , n + 1}. Dann wissen wir bereits
n+1
|M | =
.
k+1
Wir können die Menge als die disjunkte Vereinigung M = A∪B der beiden Teilmengen
A := {N ∈ M |n + 1 ∈ M }, B := {N ∈ M |n + 1 ∈
/ M}
schreiben, und somit wird |M | = |A| + |B|. Wir wollen nun die Elementanzahlen |A|
und |B| bestimmen. Wir beginnen dabei mit dem einfacheren |B|. Die Menge B ist ja
die Menge aller (k + 1)-elementigen Teilmengen N ⊆ {1, . . . , n + 1} mit n + 1 ∈
/ N , und
dies sind genau die (k+1)-elementigen Teilmengen der n-elementigen Menge {1, . . . , n},
also insbesondere
n
|B| =
.
k+1
Die Elemente von A sind dagegen diejenigen (k + 1)-elementigen Teilmengen N ⊆
{1, . . . , n+1} mit n+1 ∈ N , und diese können wir in der Form N = N 0 ∪{n+1} schreiben, wobei N 0 die k-elementigen Teilmengen von {1, . . . , n} durchläuft. Insbesondere
45
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
hat A genauso viele Elemente wie es Mengen N 0 gibt, d.h. soviele wie es k-elementige
Teilmengen von {1, . . . , n} gibt, und von letzterer Zahl wissen wir, dass sie gleich
n
|A| =
k
ist. Insgesamt haben wir somit
n+1
n
n
= |M | = |A| + |B| =
+
.
k+1
k
k+1
Auch diese Formel könnte man natürlich leicht durch eine direkte Rechnung herleiten,
aber hierdurch würde sie als eine rechnerische Zufälligkeit erscheinen, während die hier
gegebene Ableitung uns eine inhaltliche Begründung der Formel gibt. Um mit dieser
Formel das Pascalsche Dreieck zu konstruieren, denken wir uns die Binomalkoeffizienten
zu festen n zeilenweise angeordnet:
0
0
.
& 1
1
0
1
.
&
.
& 2
2
2
0
1
2
& .
& .
& .
3
3
3
3
0
1
2
3
Unsere Formel können wir dann folgendermaßen interpretieren: Der k-te Binomialkoeffizient in Zeile n ergibt sich als die Summe des (k − 1)-ten und des k-ten Binomialkoeffizienten in der darüberliegenden (n − 1)-ten Zeile, d.h. als die Summe der beiden
links und rechts über im stehenden Binomialkoeffizienten. Auf diese Weise können die
Binomialkoeffizienten rekursiv berechnet werden ohne das es nötig ist, die verschiedenen Fakultäten auszurechnen. Für die kleinen Werte n = 1, 2, 3, 4, 5, 6 erhalten wir die
folgenden Binomialkoeffizienten:
1
1
1
1
1
1
1
2
3
4
5
6
1
3
6
10
15
1
1
4
10
20
1
5
15
1
6
1
Einer der wesentlichen Zusammenhänge in denen die Binomialkoeffizienten eine Rolle
spielen ist die sogenannte binomische Formel, dies ist eine Verallgemeinerung der Ihnen
46
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
aus der Schule bekannten binomischen Formel (a + b)2 = a2 + 2ab + b2 für Quadrate.
Die allgemeine binomische Formel handelt von n-ten Potenzen einer Summe a + b. Um
die Formel auszusprechen ist es sinnvoll zuvor eine kleine Notation einzuführen. Sind
a1 , . . . , an reelle Zahlen,
so schreiben wir die Summe a1 + · · · + an mit dem sogenannten
P
Summenzeichen
als
n
X
ak := a1 + · · · an .
k=1
Der Index kPhat hier eine
P rein formale
P Bedeutung, man kann auch jedes andere Symbol
verwenden nk=1 ak = ni=1 ai = nj=1 aj und so weiter. Ebenso
man die SummaPkann
n
tion
P2n auch über andere Indexbereiche erstrecken, zum Beispiel k=0 ak = a0 + · · · + an ,
k=2 ak = a2 + a3 + · · · + a2n und so weiter. Die binomische Formel besagt nun, dass
für alle natürlichen Zahlen n ∈ N und alle reellen Zahlen a, b ∈ R stets
n
(a + b) =
n X
n
k=0
k
ak bn−k
gilt. Man kann diese Formel durch Induktion begründen, im Induktionsschritt wird
dann die obige Formel des Pascalschen Dreiecks verwendet. Wir wollen hier aber einen
direkten Beweis angeben, bei dem auch klarer wird warum hier ausgerechnet die Binomialkoeffizienten auftauchen. Wir fragen uns was passiert, wenn das Produkt
(a + b)n = (a + b) · . . . · (a + b)
|
{z
}
n mal
ausmultipliziert wird. Das ausmultiplizierte Produkt wird zu einer Summe von Produkten aus jeweils n Faktoren. Jeder dieser Summanden entsteht dadurch, das für
jeden der n Faktoren in (a + b) · . . . · (a + b) entschieden wird, ob a oder b als Faktor
verwendet wird. Haben wir beispielsweise n = 5 und wählen im ersten, dritten und
vierten Faktor ein a, so entsteht der Summand abaab = a3 b2 . Wählen wir allgemein
für k der n Faktoren ein a aus, so wird für die restlichen n − k Faktoren das b gewählt
und wir erhalten den Summanden ak bn−k . Dieser Summand taucht so oft auf, wie es
Möglichkeiten gibt die k Faktoren unter unseren n Faktoren auszuwählen an denen ein
a stehen soll, anders gesagt so oft wie es k-elementige Teilmengen einer
n-elementigen
n
Mengen gibt. Diese Zahl war aber gerade
der Binomialkoeffizient k . Insgesamt haben
wir also für jedes 0 ≤ k ≤ n stets nk Summanden ak bn−k , und dies ist gerade unsere
binomische Formel.
Damit ist zumeinen die binomische Formel bewiesen, und zum anderen wissen wir
nun warum die nk Binomialkoeffizienten heißen, es sind eben gerade die Koeffizienten
in der binomischen Formel. Die ersten dieser binomischen Formeln für n = 2, 3, 4, 5, 6
47
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
sind
(a + b)2
(a + b)3
(a + b)4
(a + b)5
(a + b)6
=
=
=
=
=
a2 + 2ab + b2 ,
a3 + 3a2 b + 3ab2 + b3 ,
a4 + 4a3 b + 6a2 b2 + 4ab3 + b4 ,
a5 + 5a4 b + 10a3 b2 + 10a2 b3 + 5ab4 + b5 ,
a6 + 6a5 b + 15a4 b2 + 20a3 b3 + 15a2 b4 + 6ab5 + b6 .
$Id: komplex.tex,v 1.5 2008/11/23 22:54:20 hk Exp $
§4
Reelle und komplexe Zahlen
4.1
Reelle Zahlen
Dieser kurze Abschnitt dient im wesentlichen zur Einleitung des Abschnitts über die
komplexen Zahlen. Ich gehe davon aus, dass Sie die reellen Zahlen und ihre Grundeigenschaften aus der Schule kennen. Die dort vermittelten Kenntnisse sind zwar keine für
die Mathematik ausreichende Grundlegung der reellen Zahlen, reichen für unsere eher
bescheidenen Zwecke aber aus. Sie können sich die reellen Zahlen beispielsweise als die
unendlichen Dezimalbrüche vorstellen. Dass dieser Standpunkt für eine systematische
Behandlung der reellen Zahlen eher unpraktisch ist, spielt für uns keine Rolle.
Die beiden grundlegensten Operationen auf den reellen Zahlen sind Addition und
Multiplikation, und wir wollen nun einige der Grundregeln für diese Operationen auflisten.
1. Assoziativgesetze der Addition und Multiplikation Für alle a, b, c ∈ R
gelten a + (b + c) = (a + b) + c und a(bc) = (ab)c. Hieraus folgt dann, dass man
Summen und Produkte beliebig umklammern kann, und damit können Klammern
einfach weggelassen werden.
2. Kommutativgesetze der Addition und Multiplikation Für alle a, b ∈ R
gelten a + b = b + a und ab = ba.
3. Null und Eins Es gibt Elemente 0, 1 ∈ R mit 0 6= 1 so, dass 0 + a = a und
1 · a = a für alle a ∈ R gelten.
4. Subtraktion Für jedes a ∈ R existiert genau ein additives Inverses −a ∈ R mit
(−a) + a = 0.
5. Division Für jedes a ∈ R mit a 6= 0 existiert genau ein 1/a ∈ R mit (1/a)·a = 1.
48
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
6. Distributivgesetz Für alle a, b, c ∈ R gilt a(b + c) = ab + ac.
Die obigen Rechenregeln (1) bis (6) werden als die Körperaxiome bezeichnet, und die
reellen Zahlen erfüllen sie bekanntlich alle. Beachte das die Körperaxiome weder von
allgemeiner Subtraktion noch von allgemeiner Division sprechen, sondern nur von −a
und 1/a. Mit diesen können wir dann
a − b := a + (−b),
a
1
:= a ·
b
b
für a, b ∈ R mit b 6= 0 für die zweite Gleichung, definieren. Subtraktion und Division
werden nun nicht als eigenständige Operationen sondern über die obige Definition nur
als Schreibweisen betrachtet. Aus den Körperaxiomen folgen alle üblichen arithmetischen Gesetze, also Gleichungen die von Addition und Mutliplikation handeln. Was
dagegen nicht aus den Körperaxiomen folgt sind Existenzaussagen, wie etwa die Existenz von Wurzeln, oder Ungleichungen. Beispielsweise sind die Körperaxiome nicht
stark genug um auch nur 1 + 1 6= 0 einzusehen. Definieren wir beispielsweise auf der
zweielementigen Menge K = {0, 1} die Operationen + und · durch
· 0 1
0 0 0
1 0 1,
+ 0 1
0 0 1
1 1 0,
so erfüllen diese sämtliche Körperaxiome, aber es gilt 1 + 1 = 0 in K. Eine weitere
grundlegende Struktur auf den reellen Zahlen ist die Anordnung ≤. Auch diese wollen
wir wieder nicht systematisch untersuchen, sondern nur die folgenden Grundgesetze
auflisten:
1. Transitivität Sind a, b, c ∈ R mit a ≤ b und b ≤ c, so ist auch a ≤ c.
2. Antsymmetrie Sind a, b ∈ R mit a ≤ b und b ≤ a, so ist auch a = b.
3. Trichotomie Sind a, b ∈ R, s gilt stets a ≤ b oder b ≤ a.
4. Monotonie der Addition Sind a, b, c ∈ R mit a ≤ b, so ist auch a + c ≤ b + c.
5. Monotonie der Multiplikation Für alle a, b ∈ R mit a ≤ b und alle c ∈ R mit
c ≥ 0 ist auch ac ≤ bc.
Die Körperaxiome zusammen mit diesen fünf zusätzlichen Axiomen sind die sogenannten Axiome eines angeordneten Körpers. Aus diesen folgen dann alle sonstigen Ihnen
bekannten Regeln für ≤, es folgt beispielsweise das Quadrate immer gröër gleich Null
sind, dass das Produkt negativer Zahlen positiv ist, und so weiter. Insbesondere können
wir dann Dinge wie 1 + 1 6= 0, beziehungsweise sogar 1 + 1 > 0 beweisen. Wie schon
bei den Körperaxiomen wollen wir hier aber nichts von all diesen Dingen vorführen.
Wir wollen aber noch bemerken, dass selbst die Axiome eines angeordneten Körpers
nicht ausreichen, die reellen Zahlen vollständig zu beschreiben. Zum Beispiel erfüllen
49
Mathematik für Ingenieure I, WS 2008/2009
Freitag 14.11.2008
auch die rationalen Zahlen Q alle Regeln, die wir hier angegeben haben. Es gibt ein
weiteres Axiom, durch das die reellen Zahlen dann vollständig beschrieben werden.
Dies ist das sogenannte Vollständigkeitsaxiom, das wir aber erst besprechen werden
wenn wir uns mit der Konvergenz von Zahlenfolgen beschäftigen werden.
Wir wollen nun noch eine kleine Notation, die Ihnen aus der Schule wahrscheinlich nicht geläufig ist, einführen und besprechen, den sogenannten Betrag einer reellen
Zahl. Dieser hat eine rein praktische Funktion, wir möchten eine bequeme Möglichkeit
haben davon zu sprechen, dass eine reelle Zahl x klein ist. Wir könnten beispielsweise versuchen die Zahl x klein zu nennen wenn sie x ≤ 10−4 erfüllt. Dies erfüllt aber
nicht ganz den intendierten Zweck, den es ist ja zum Beispiel auch −400 ≤ 10−4 , aber
−400 wollen wir meist nicht als klein betrachten. Wir müssten unsere Bedingung also
beispielsweise in x ≤ 10−4 und x ≥ −10−4 umschreiben. Um diese zwei Bedingungen
durch eine einzige zu ersetzen, wird nun der Betrag der reellen Zahl x eingeführt.
Definition 4.1: Ist x ∈ R eine reelle Zahl, so heißt
(
x,
x ≥ 0,
|x| :=
−x, x ≤ 0
der Betrag von x.
Beispielsweise sind |4| = 4, | − 2| = 2 und |0| = 0. In anderen Worten ist |x| der
nichtnegative Wert unter den beiden Zahlen x und −x. In unserem obigen Beispiel
können wir die beiden Bedingungen x ≤ 10−4 und x ≥ −10−4 dann durch die eine
Bedingung |x| ≤ 10−4 ersetzen. Als Funktion von x hat der Betrag die folgende Gestalt
|x|
x
Der Betrag erfüllt eine ganze Reihe von Grundeigenschaften, die im folgenden Satz
zusammengestellt sind:
Satz 4.1: Für alle x, y, z ∈ R gelten:
(a) Es ist |x| = | − x| ≥ 0 und x2 = |x|2 .
(b) Es gilt x ≤ |x|.
50
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
(c) Es ist |xy| = |x| · |y|.
(d) Es gilt die Dreiecksungleichung |x + y| ≤ |x| + |y|.
(e) Es ist |x − y| ≥ |x| − |y|.
(f ) Es ist |x| − |y| ≤ |x − y|.
Beweis: (a,b,c) Diese Aussagen sind direkt aus der Definition des Betrages klar.
(d) Mit den Regeln (a), (b) und (c) erhalten wir
|x + y|2 = (x + y)2 = x2 + 2xy + y 2 ≤ x2 + |2xy| + y 2 = |x|2 + 2|x| · |y| + |y|2 = (|x| + |y|)2 ,
und damit auch |x + y| ≤ |x| + |y|.
(e) Mit Teil (d) rechnen wir
|x| = |(x − y) + y| ≤ |x − y| + |y|,
also |x − y| ≥ |x| − |y|.
(f ) Mit Teil (e) haben wir |x| − |y| ≤ |x − y| und (e), (a) zusammen ergeben auch
|y| − |x| ≤ |y − x| = | − (x − y)| = |x − y|. Da |x| −
|y| aber
eine der beiden Zahlen
|x| − |y| oder −(|x| − |y|) = |y| − |x| ist, folgt auch |x| − |y| ≤ |x − y|.
Warum Aussage (d) hier als Dreiecksungleichung bezeichnet wird, ist an dieser Stelle nicht gut zu sehen. Wir werden dies aber bei der Betrachtung des Betrags einer
komplexen Zahl später in diesem Kapitel noch klären.
Vorlesung 8, Dienstag 18.11.2008
4.2
Die komplexen Zahlen (Operative Version)
Wir wollen nun mit der Diskussion der komplexen Zahlen beginnen. Wir werden diese
in zwei Teile aufteilen, zunächst wollen wir dabei eine rein rechnerische, eben operative,
Beschreibung angeben und verwenden, ohne uns darum zu kümmern, ob diese logisch
einwandfrei oder auch nur sinnvoll ist. Im nächsten Abschnitt wird dann der zweite
Schritt durchgeführt, und wir werden eine formale Definition der komplexen Zahlen
angeben, und uns natürlich auch klarmachen, dass diese die rechnerischen Eigenschaften des ersten Schritts erfüllen. Diese Aufteilung entspricht dabei der geschichtlichen
Entwicklung des Begriffs der komplexen Zahlen. Erstmalig treten diese im frühen 16-ten
Jahrhundert in Erscheinung und hatten eher den Status eines obskuren Rechentricks.
51
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
Wir werden am Ende dieses Abschnitts auch kurz den Kontext vorstellen, der zur
Entstehung der komplexen Zahlen geführt hat.
Wie bereits gesagt werden wir jetzt noch keine vollständige Definition der komplexen Zahlen geben, sondern uns ein Weilchen mit einer eher vagen Beschreibung
zufriedengeben. Wie bei jedem gut funktionierenden rechnerischen Kalkül kann man
mit den komplexen Zahlen ganz gut rechnen, selbst wenn man nur eine eher vage Vorstellung davon hat, was diese denn sind. Eine erste Beschreibung der komplexen Zahlen
kann man etwa wie folgt durchführen: Die komplexen
Zahlen C entstehen aus den re√
ellen Zahlen R indem wir eine neue Zahl i = −1 einführen, und mit dieser dann
normal“, unter Verwendung von i2 = −1, rechnen. Das normal rechnen“ bezieht sich
”
”
dabei zunächst nur auf die Grundrechenarten, also +, −, ·, /. Etwas konkreter könnten
wir sagen, daß in C die im vorigen Abschnitt angegebenen Körperaxiome wahr sein
sollen.
Wir wollen zunächst einfach drauf los rechnen. Ein naheliegender Startpunkt sind
dann die Potenzen von i. Klar sind dabei i1 = i und i2 = −1. Die nächsten beiden
ergeben sich als
i3 = i2 · i = (−1) · i = −i und i4 = (i2 )2 = (−1)2 = 1.
Wegen i4 = 1 gestalten sich die restlichen Potenzen dann sehr einfach, es ist ja i5 =
i4 · i = i, i6 = i4 · i2 = i2 = −1 und so weiter. Die Potenzen von i beginnen sich
also in einem 4-er Zyklus zu wiederholen. Dies hat eine weitere nützliche Konsequenz.
Zur Zeit wissen wir noch nicht wieviele neue Zahlen wir neben i zu R hinzunehmen
müssen. Mindestens sind dies sicherlich die durch Multiplikation und Addition aus
R und i gebildeten Ausdrücke, also die Polynome in i und mit reellen Koeffizienten.
Rechnen wir testweise einmal ein solches aus:
i6 + 4i5 − 3i4 + 2i2 − 3i + 5 = −1 + 4i − 3 − 2 − 3i + 5 = −1 + i.
In dieser Art können wir tatsächlich immer rechnen, gerade Potenzen von i sind ±1
und ungerade Potenzen von i sind ±i, also kann jedes Polynom a0 + a1 i + a2 i2 + · · ·
auch in der Form
a0 + a1 i + a2 i2 + a3 i3 + · · · = a + ib
mit geeigneten a, b ∈ R geschrieben werden. Werden komplexe Zahlen dieser Form
miteinander multipliziert, so erhält man wieder eine komplexe Zahl dieser Form, beispielsweise ist
(1 + 3i) · (4 − i) = 4 − i + 12i − 3i2 = 7 + 11i.
Selbiges passiert natürlich auch im allgemeinen Fall, d.h. sind a1 , a2 , b1 , b2 ∈ R reelle
Zahlen, so ist
(a1 + ib1 ) · (a2 + ib2 ) = a1 a2 + a1 b2 i + b1 a2 i + b1 b2 i2 = a1 a2 − b1 b2 + (a1 b2 + b1 a2 )i.
Wie sieht es nun mit Quotienten aus? Starten wir hier einmal mit der einfachsten
Situation und berechnen 1/i. Dies ist recht leicht, denn wir haben ja i · (−i) = −i2 = 1
52
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
und somit
1
= −i.
i
Hier hatten wir allerdings Glück, da wir für 1/i sofort einen Kandidaten gesehen haben.
Bei anderen komplexen Zahlen ist dies nicht so einfach, schon bei der Berechnung von
1/(1 + 2i) gibt es keine sofort offensichtliche Lösung. Ein kleiner Rechentrick führt
aber auch hier schnell zum Erfolg. Wir hatten ja eingangs bemerkt, dass wir mit den
komplexen zumindest bezüglich der Grundrechenarten normal rechnen wollen, und
insbesondere können wir Brüche erweitern. Wie sich herausstellt müssen wir unser
1/(1 + 2i) nur mit 1 − 2i erweitern und uns an die binomische Formel (a + b)(a − b) =
a2 − b2 erinnern, um zur gewünschten Lösung zu kommen:
1
1 − 2i
1 − 2i
1 2
1 − 2i
=
=
=
= − i.
2
1 + 2i
(1 + 2i) · (1 − 2i)
1 − 4i
5
5 5
Umgekehrt kann man jetzt leicht nachrechnen, dass dies tatsächlich die Lösung ist
1 4 2
2
1 2
− i = + + i − i = 1.
(1 + 2i) ·
5 5
5 5 5
5
Dies hat natürlich nicht mit diesm speziellen Beispiel zu tun, tatsächlich können wir
ganz analog für alle a, b ∈ R mit (a, b) 6= (0, 0) stets
a − ib
a
b
1
a − ib
a − ib
=
=
−
i
=
= 2
a + ib
(a + ib) · (a − ib)
a − b 2 i2
a2 + b2
a2 + b 2 a2 + b 2
rechnen. Insbesondere zwingen uns die Grundrechenarten nie dazu, die Menge der
komplexen Zahlen der Form a + ib mit a, b ∈ R zu verlassen, wir können also unsere
eingangs gegebene vage Vorstellung der komplexen Zahlen durch die Festlegung
C = {a + ib|a, b ∈ R}
etwas verschärfen. Wir wollen hier noch einen kleinen, aber wichtigen, Punkt anmerken.
Ist die komplexe Zahl z = a + ib gegeben, so sind die reellen Zahlen a und b eindeutig
durch z festgelegt. Anders gesagt soll für alle a1 , a2 , b1 , b2 ∈ R aus a1 + ib1 = a2 + ib2
auch a1 = a2 und b1 = b2 folgen. Machen wir uns das einmal klar. Nehme also a1 +b1 i =
a2 + b2 i an, und schreibe dies als a1 − a2 = b2 i − b1 i = (b2 − b1 )i. Wäre dann b1 6= b2 ,
also b2 − b1 6= 0, so hätten wir auch
i=
a1 − a2
∈ R,
b2 − b1
aber i kann wegen i2 = −1 keine reelle Zahl sein. Also ist b1 = b2 , und damit natürlich
auch a1 = a2 . Da die Zahlen a und b also eindeutig durch z = a + ib festgelegt sind,
können wir
Re z := a
53
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
als den Realteil von z und
Im z := b
als den Imaginärteil von z definieren. In diesem Zusammenhang bezeichnet man i auch
als die imaginäre Einheit.
Damit haben wir die Diskussion der Grundrechenarten in C weitgehend beendet.
Wir wollen uns nun noch kurz der nach den Grundrechenarten zweiteinfachsten Operation auf C zuwenden, der Berechnung von Wurzeln. Wir beginnen
dabei mit Qua√
dratwurzeln, und als konkretes
Beispiel
wollen
wir
die
Wurzel
i
berechnen.
Beachte
√
dabei, dass das Symbol i ein wenig problematisch ist. Es wird ja zwei verschiedene
Wurzeln von i geben, wenn es denn überhaupt eine gibt, die sich nur um ihr
√ Vorzeichen
unterscheiden. Im Gegensatz zu den reellen Zahlen, wo mit der Wurzel x einer Zahl
x ≥ 0 ja diejenige nichtnegative reelle Zahl gemeint ist, deren Quadrat x ist, haben
wir in C keine Möglichkeit eine der beiden Wurzeln vor der anderen auszuzeichnen.
√
Daher gibt es keine Wurzelfunktion, aber wir verwenden trotzdem das Symbol i und
meinen damit irgendeine der Wurzeln.
Wie findet man nun eine √
Wurzel von i? An dieser Stelle bleibt uns dazu nichts
anderes übrig als den Ansatz i = x + iy mit x, y ∈ R zu machen, und zu versuchen
irgendwie an x und y zu kommen. Die Bedingung ist
i = (x + iy)2 = x2 − y 2 + 2xyi,
also haben wir zwei Gleichungen für x und y:
x2 − y 2 = 0,
2xy = 1.
Mit der ersten Gleichung erhalten wir dann y = ±x und setzen wir dies in die zweite
Gleichung ein, so wird
±2x2 = 1.
Die Variante mit Minus ist dabei nicht möglich, d.h. y = x und wir haben x2 = 1/2
und somit
r
1
1
1√
= ±√ = ±
2.
y=x=±
2
2
2
Die beiden Wurzeln sind also
√
√
1√
1√
1√
1√
i=
2+
2i und i = −
2−
2i.
2
2
2
2
√
Wir wollen auch noch ein etwas komplizierteres Beispiel rechnen, nämlich 1 + i. Wir
machen genau denselben Ansatz wie oben. Dannn bleiben auch die linken Seiten unserer
Gleichung erhalten, und wir haben die Bedingungen
x2 − y 2 = 1,
2xy = 1.
54
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
Insbesondere ist x 6= 0 und
1
,
2x
und setzen wir dies in die erste Gleichung ein, so erhalten wir
y=
1
= 1.
4x2
x2 −
Dies können wir mit x2 multiplizieren und in der Form
x4 − x2 −
1
=0
4
schreiben. Dies ist eine quadratische Gleichung für x2 und somit
r
1
1 1
1 1√
x2 = ±
+ = ±
2.
2
4 4
2 2
Da x2 ≥ 0 ist, ist der Fall mit Minus nicht möglich, also
√
1+ 2
2
x =
2
und somit
s
x=±
√
1+ 2
.
2
Für y ergibt sich dann schließlich
s
s
√
q
√
1
1
2
1
2( 2 − 1)
1
√ .=±
√
√
y=
=±
=±
2 2 − 2.
2x
2 1+ 2
2 ( 2 + 1) · ( 2 − 1)
2
Unsere gesuchte Wurzel ist also
√
s
1 + i = ±
√
1+ 2 i
+
2
2

√
2 2 − 2 .
q
√
Analog können wir jede Quadratwurzel a + ib in C bestimmen, wir könnten sogar
leicht eine allgemeine Formel für diese Wurzeln herleiten. Dies wollen wir an dieser Stelle
aber nicht tun, da wir später eine wesentlich bequemere Methode zur Berechnung dieser
Wurzeln kennenlernen werden. Nun da wir Quadratwurzeln berechnen können, sind wir
in Wahrheit bereits in der Lage beliebige quadratische Gleichungen über den komplexen
Zahlen zu lösen. Wir müssen uns nur darüber klar werden, dass die vertraute p–q
Formel auch für komplexe Zahlen wahr ist. Dies ist aber klar, denn die p–q Formel ist ja
einfach eine quadratische Ergänzung und diese fällt unter das normale Rechnen“, das
”
wir für die komplexen Zahlen als gegeben annehmen. Können wir also Quadratwurzeln
55
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
ziehen, so können wir über die p–q Formel beliebige quadratische Gleichungen über den
komplexen Zahlen lösen. Insbesondere stellt sich heraus, dass diese immer eine Lösung
haben, die Situation ist also noch etwas besser als wir es von den reellen Zahlen her
gewöhnt sind.
Wir nähern uns damit dem Ende unser Beispielrechnungen und wollen noch kurz
dritte Wurzeln ansprechen. Wir beginnen dabei mit einer
√ zunächst etwas merkwürdig
anmutenden Aufgabe, wir wollen die dritten Wurzeln 3 1, also alle z ∈ C mit z 3 = 1,
bestimmen. Warum dies nützlich ist, werden wir gleich einsehen. Eine Lösung der
Gleichung z 3 = 1 ist natürlich die reelle Lösung z = 1, aber es gibt noch zwei weitere
komplexe Lösungen. Um diese zu bestimmen, machen wir wieder den Ansatz z = x+iy
und rechnen
z 3 = (x + iy)3 = x3 + 3x2 yi + 3xy 2 i2 + y 3 i3 = x3 − 3xy 2 + (3x2 y − y 3 )i.
Für z 3 = 1 erhalten wir diesmal also die beiden Gleichungen
x3 − 3xy 2 = 1,
3x2 y − y 3 = 0.
Die zweite Gleichung können wir als (3x2 − y 2 )y = 0 schreiben, und da z = 1 die
einzige reelle Lösung, also die einzige Lösung mit y = 0, ist,
√ können wir uns auf den
Fall y 6= 0 beschränken. Damit wird 3x2 = y 2 , also y = ± 3x. Setzen wir dies in die
erste Gleichung ein, so wird diese zu
1 = x3 − 3xy 2 = x3 − 9x3 = −8x3 ,
√
also x3 = −1/8 beziehungsweise x = −1/2. Somit wird y = ± 3/2. Damit haben wir
exakt drei dritte Wurzeln von 1 gefunden, nämlich
1 1√
1 1√
1, − +
3 i und − −
3 i.
2 2
2 2
√
Wir wollen dies nun verwenden um alle dritte Wurzeln 3 i zu berechnen. Dies ist nun
wesentlich leichter als die obige Rechnung, da wir sofort eine der drei Wurzeln sehen.
Es ist ja (−i)3 = −i3 = −(−i) = i, d.h. eine unserer Wurzeln ist −i. Hiermit können
wir jetzt auch sofort die beiden anderen Wurzeln sehen. Nehmen wir uns nämlich eine
unser oben ausgerechneten komplexen Zahlen z mit z 3 = 1, so ist sofort auch
(−iz)3 = (−i)3 z 3 = (−i)3 = i.
√
√
Multiplizieren wir also eine dritte Wurzel 3 i mit den drei Wurzeln 3 1, so erhalten wir
drei, und damit alle, dritten Wurzeln von i. Die beiden anderen dritten Wurzeln von i
sind also
1 1√
1√
1
1√
1
1 1√
−i · − +
3i =
3 + i und − i · − −
3i = −
3 + i.
2 2
2
2
2 2
2
2
56
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
Beachte das die drei dritten Wurzeln von Eins für allgemeine dritte Wurzeln dieselbe
√
z ja
Rolle spielen,
die
das
Vorzeichen
±
bei
Quadratwurzeln
innehat.
Wir
können
±
√
√
auch als 1 · z und (−1) · z interpretieren wobei 1 und −1 gerade die zweiten Wurzeln
von 1 in C, beziehungsweise in R, sind.
√
3
Nun kommt unser direkter
Weg
über
den
Ansatz
z = x + iy allmählich zum
√
3
3
Halt. Die dritten Wurzeln 1 + i über die Gleichungen x − 3xy 2 = 3x2 y − y 3 = 1 zu
berechnen, ist zwar möglich aber bereits recht unangenehm. Für höhere Wurzeln liefert
unser Ansatz auch jeweils zwei Gleichungen für x, y, aber diese sind dann vom Grad 4,
5 und so weiter in x, y. Trotzdem werden wir im nächsten Abschnitt einsehen, dass es
in Wahrheit ganz einfach ist, all diese Wurzeln zu berechnen.
Zum Abschluß wollen wir noch einmal zum Start unserer Überlegungen zurückkehren. Wir hatten ja bemerkt, dass die komplexen Zahlen ursprünglich einmal ein etwas
merkwürdiger Rechentrick waren, und wir wollen nun das Problem beschreiben, das
der Anlaß zur Einführung der komplexen Zahlen war. Dabei handelt es sich um die
Lösung der allgemeinen Gleichung dritten Grades über den reellen Zahlen, also um
x3 + ax2 + bx + c = 0
mit a, b, c ∈ R. Wie für die quadratische Gleichung gibt es eine allgemeine Lösungsformel für diese Gleichung. Wie wir gleich sehen werden, ist diese allerdings nicht
annähernd so überschaubar wie die p–q Formel, und sie hat auch bei weiten nicht
deren praktische Bedeutung. Trotzdem ist sie der Ursprung der komplexen Zahlen,
und daher wollen wir sie uns kurz anschauen. Allerdings behandelt unsere angestrebte
Formel eine bereits leicht reduzierte Form der obigen allgemeinen Gleichung dritten
Grades. Ersetzen wir x durch x − a/3, so wird
a 3
a 2
a
x−
+a x−
+b x−
+c
3
3
3
a2
a3
2a2
a3
ab
= x3 − ax2 + x −
+ ax2 −
x+
+ bx −
+c
3
27 3
9
3
a2
2a3 ab
= x3 + b −
x+
−
+ c = x3 + px + q
3
27
3
mit
p := b −
a2
2a3 ab
, q :=
−
+ c.
3
27
3
Bestimmen wir also die Lösungen x von x3 + px + q = 0, so sind die Zahlen x + a/3
die Lösungen der ursprünglichen Gleichung x3 + ax2 + bx + c = 0. Diese Überlegung ist
völlig analog zur quadratischen Ergänzung bei quadratischen Gleichung, und entfernt
die zweithöchste Potenz von x. Die erwähnte Lösungsformel, die sogenannte Formel
von Cardano, beschäftigt sich nun mit der vereinfachten Gleichung
x3 + px + q = 0.
57
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
Die volle Cardano-Formel beschreibt alle drei Lösungen dieser Gleichung, aber für unsere Zwecke reicht es die erste, und auch einfachste, dieser drei Lösungen hinzuschreiben.
Diese Lösung ist gegeben als
√
3
p
D
2p
x=
−√
mit
D
:=
−108q
+
12
12p3 + 81q 2 .
3
6
D
Wir wollen als ein konkretes Beispiel einmal die Gleichung
7
20
x3 − x +
=0
3
27
durchrechnen. Hier ist p = −7/3 und q = 20/27. Damit wird
12p3 + 81q 2 = −108 = −36 · 3,
p
und wir sehen das die Wurzel 12p3 + 81q 2 keine reelle Zahl ist. Gehen wir aber zu
den komplexen Zahlen über so wird
p
√
√
12p3 + 81q 2 = −108 = 6 3 i.
Für D erhalten wir
p
√
√
D = −108q + 12 12p3 + 81q 2 = −80 + 12 · 6 3 i = −80 + 72 3 i.
√
Nun müssen wir 3 D ausrechnen. Wie schon bemerkt werden wir erst im nächsten
Abschnitt ein überzeugendes Verfahren hierfür kennenlernen,
daher lassen wir hier den
√
folgenden Ansatz aus dem Himmel fallen: Schreibe 3 D = 1 + it mit t ∈ R. Es ist
(1 + it)3 = 1 − 3t2 + (3t − t3 )i,
√
√ 2
2
3
und√mit t = √
−3 3 wird
1
−
3t
=
1
−
3
3 = 1 − 81 = −80 und 3t − t3 =
√
−9 3 + 27 · 3 3 = 72 3. Damit haben wir eine dritte Wurzel
√
√
3
D = 1 − 3 3 i.
Die Cardano-Formel liefert damit die Lösung
√
√
√
√
3
D
2p
1 − 3 3i
14
1 − 3 3 i 14 1 + 3 3 i
1
√
x=
−√
=
+
=
+
·
= ,
3
6
6
6
3
28
3
3 · (1 − 3 3 i)
D
die wegen
3
7 1 20
1 − 21 + 20
1
− · +
=
=0
3
3 3 27
27
tatsächlich eine Lösung ist. Wir haben hier also mit der rein reellen Gleichung
20
7
x3 − x +
=0
3
27
58
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
begonnen, und sind bei der reellen Lösung x = 1/3 gelandet. Nur zwischendurch sind
komplexe Zahlen in der Rechnung aufgetaucht, sind aber am Ende wieder verschwunden. In diesem Kontext spielt es also keinerlei Rolle ob die komplexen Zahlen logisch
stichhaltig sind, am Ende kann man ja einfach nachschauen ob die erhaltene reelle
Zahl tatsächlich eine Lösung ist. Hier sind die komplexen Zahlen also wirklich nur ein
Rechentrick, sie tauchen zwischendurch geisterhaft auf und verschwinden am Ende wieder. Aus dieser Zeit stammt auch die Redeweise von i als der imaginären Einheit und
vom Imaginärteil einer komplexen Zahl, denn als reiner Rechentrick betrachtet haben
die komplexen Zahlen mit echten Imaginärteil ja tatsächlich etwas imaginäres“.
”
4.3
Die komplexen Zahlen (Offizielle Version)
Wie bereits bemerkt wurden die komplexen Zahlen eine lange Zeit als rein rechnerische
Technik betrachtet. Im Laufe der Zeit begann man allerdings komplexe Zahlen wirklich
als Hilfsmittel in Beweisen zu verwenden, und später dann sogar Aussagen die von
komplexen Zahlen handeln zu beweisen. Anders als bei Rechnungen können wir den
logischen Status der komplexen Zahlen hierbei nicht mehr ignorieren, es gibt ja keinen
abschließenden Test den man durchführen könnte. Glücklicherweise stellt es sich heraus,
dass die logisch einwandfreie Definition der komplexen Zahlen diese nicht nur exakt
begründet, sondern zugleich ein wesentlich besseres Verständnis von C liefert. Zum
Beispiel werden wir sehen, dass das Berechnen von Wurzeln komplexer Zahlen sehr
viel einfacher möglich ist, als wir es bisher getan haben. Die Grundidee ist hierbei
erschreckend einfach, wir interpretieren die komplexe Zahl a + ib mit a, b ∈ R als den
Punkt (a, b) der Ebene R2 . Zum Beispiel haben wir die Punkte
Im
−2+3i
3
2
i
1
−3
−2
2+ 1 i
2
−1
1
2
3
Re
−1
−2
−3
Einige der im vorigen Abschnitt errechneten dritten Wurzeln zeigen als Punkte der
59
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
Ebene interpretiert ein zunächst überraschendes
Verhalten. Betrachten wir etwa die
√
3/2)i,
sowie die drei dritten Wurzeln von
drei dritten Wurzeln
von
1,
also
1,
−1/2
±
(
√
√
i, also −i, ± 3/2 + i/2, so sehen diese wegen 3/2 ≈ 0.86 in der Ebene wie folgt aus
Im
3
2
1
−3
−2
−1
1
2
3
Re
−1
−2
−3
wobei die offenen Punkte für die dritten Wurzeln von i stehen. Dies sind zwei gleichseitige Dreiecke, und das aus den dritten Wurzeln von i gebildete Dreieck entsteht aus
dem entsprechenden Dreieck der dritten Wurzeln von 1 durch eine Drehung um 90◦ im
Uhrzeigersinn. Wir werden sehen, dass dies keine Zufälle sind.
Wir sind jetzt in der Lage eine einwandfreie Definition der komplexen Zahlen anzugeben. Diese stellt sozusagen die Ergebnisse des vorigen Abschnitts auf den Kopf, dort
hatten wir eingesehen, dass wir uns auf Terme der Form a + ib beschränken können,
und hatten ausgerechnet wie deren Multiplikation aussieht. Die dort erhaltene Formel
stellen wir nun an die Spitze und verwenden sie als Definition der Multiplikation.
Definition 4.2: Die komplexen Zahlen sind die Menge C = R × R versehen mit der
Addition
(a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 )
für a1 , a2 , b1 , b2 ∈ R und der Multiplikation
(a1 , b1 ) · (a2 , b2 ) := (a1 a2 − b1 b2 , a1 b2 + b1 a2 )
wieder für a1 , a2 , b1 , b2 ∈ R. Wir fassen R als Teilmenge von C auf, indem wir jede
reelle Zahl x ∈ R mit dem Punkt (x, 0) der Ebene identifizieren. Weiter definieren wir
die imaginäre Einheit als
i := (0, 1) ∈ C.
60
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
Da für alle a, b ∈ R stets (a, 0) + (b, 0) = (a + b, 0) und (a, 0) · (b, 0) = (ab, 0) ist die
obige Identifikation R ⊆ C sinnvoll. Wir haben
i2 = (0, 1) · (0, 1) = (−1, 0) = −1,
unsere hier definierte imaginäre Einheit hat also die gewünschte Eigenschaft. Beachte
das für alle a, b ∈ R auch
a + ib = (a, 0) + (0, 1) · (b, 0) = (a, 0) + (0, b) = (a, b)
gilt, die komplexe Zahl a + ib ist hier als wirklich gleich dem Punkte (a, b) ∈ R2 . Um zu
sehen, dass die durch die obige Definition eingeführten komplexen Zahlen tatsächlich
wie diejenigen des vorigen Abschnitts sind, ist nur noch einzusehen, dass man mit ihnen
normal rechnen“ kann. Dazu muss etwas näher spezifiziert werden was mit normal
”
”
rechnen“ gemeint ist. Zu diesem Zweck erinnern wir uns an die Körperaxiome, die wir
bei der Diskussion der reellen Zahlen vorgestellt haben, also die Assoziativgesetze der
Addition und Multiplikation, die Kommutativgesetze der Addition und Multiplikation, und so weiter. Wir hatten angemerkt, dass aus diesen Körperaxiomen alle anderen
arithmetischen Rechenregeln folgen. Daher können wir normal rechnen“ etwas genau”
er als erfüllt die Körperaxiome“ interpretieren. Um also einzusehen, dass unsere eben
”
definierten komplexen Zahlen wie erwartet funktionieren, müssten wir nun die sechs
Körperaxiome der Reihe nach für C überprüfen. Da dies für unsere Zwecke aber zu
keinerlei Erkenntnisgewinn führt, will ich hier einfach an ihren guten Glauben appellieren. Wir wollen also akzeptieren, dass die Körperaxiome in C gelten, und wir damit
tatsächlich unserer operativen Version der komplexen Zahlen eine solide Grundlage
gegeben haben.
Wir wollen nun die komplexen Zahlen in ihrer geometrischen Interpretation als
Punkte der Ebene untersuchen. Die Addition zweier komplexer Zahlen kennen Sie eigentlich bereits aus der Schule, die komponentenweise Addition ist ja die vertraute
Addition zweidimensionaler Vektoren, die etwa durch das übliche Vektorparallelogram
veranschaulicht werden kann. Interessanter ist die Multiplikation, und um diese geometrisch zu verstehen ist es nützlich zuvor die Polarkoordinaten in der Ebene einzuführen.
Hierzu werde ich mich auf den Standpunkt stellen, dass Ihnen die trigonometrischen
Funktionen Sinus, Cosinus, Tangens und Cotangens in Ihrer geometrischen Deutung an
Dreiecken bekannt ist. Systematisch werden wir diese Funktionen noch einmal im Analysis Teil dieser Vorlesung besprechen, aber an dieser Stelle reichen die Schulkenntnisse
völlig aus.
Die Diskussion der Polarkoordinaten beginnt mit der Untersuchung des Einheitskreises in der Ebene, das ist der Kreis mit Mittelpunkt 0 = (0, 0) und Radius 1. Die
Punkte (x, y) dieses Kreises sind nach dem Satz von Pythagoras durch die Formel
x2 + y 2 = 1 gegeben.
61
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 18.11.2008
1
y
x
Man möchte die Punkte des eindimensionalen Einheitskreises aber auch durch eine
einzige Zahl beschreiben können, anstelle der zwei ja etwas redundanten Koordinaten
x und y. Hierzu verwendet man dann den Winkel φ zwischen der x-Achse und der
Verbindsstrecke von 0 zum Punkt des Einheitskreises.
Der eingezeichnete Punkt wird hier durch den Winkel φ repräsentiert. In diesem Kontext, und eigentlich immer in der Mathematik, ist es hilfreich den Winkel φ nicht im
gewöhnlichen Gradmaß, also zwischen 0◦ und 360◦ zu messen, sondern im sogenannten
Bogenmaß. Dieses entsteht aus dem Gradmaß indem wir den Bereich 0◦ . . . 360◦ proportional auf den Bereich von 0 bis 2π umskalieren. Wir haben also beispielsweise die
62
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
folgenden Übersetzungen
Gradmaß Bogenmaß
0◦
0
π
30◦
6
π
45◦
4
π
60◦
3
π
90◦
2
180◦
π
2π
360◦
Beachte das wir Winkel im Bogenmaß einfach als reelle Zahlen betrachten, und nicht
als so etwas wie π/2 Grad. In der Mathematik gibt es keine Messungen, und daher
auch keinen Bedarf für Maßeinheiten. Das Bogenmaß hat auch eine einfache geometrische Bedeutung. Der Umfang eines Kreises mit Radius r > 0 ist ja bekanntlich 2πr,
und der Umfang des Einheitskreises ist somit 2π. Verändern wir den Winkel φ, so
verändert sich die Länge des oben dick eingezeichneten Bogens proportional mit φ. Da
der volle Umfang des Einheitskreises 2π, also gleich dem vollen Winkel ist, ist damit
φ auch zugleich die Länge unseres dick eingezeichneten Bogens. Dies erklärt auch den
Namen Bogenmaß“, das Maß des Winkels im Bogenmaß ist eben gerade die Länge
”
des entsprechenden Bogens auf dem Einheitskreis.
Vorlesung 9, Freitag 21.11.2008
Ist φ ∈ R ein vorgegebener Winkel, so bezeichnen wir
den zugehörigen Punkt auf dem Einheitskreis, d.h. den
Punkt der mit der positiven x-Achse den Winkel φ bildet, mit dem Symbol e(φ), und wir wollen nun seine xe( )
1
und y-Koordinaten berechnen. Wir beginnen dabei mit
y
dem Fall, daß φ im ersten Quadranten liegt, das also
x
0 < φ < π/2 ist. Dann haben wir das aufgezeichnete
rechtwinklige Dreieck mit Katheten der Längen x und y.
Die Länge der Hypotenuse ist dabei gleich 1, da sie ein
Radius des Einheitskreises ist. Da die Kathete der Länge
x am Winkel φ anliegt, also die Ankathete zu φ ist, haben
wir
x
Ankathete
x= =
= cos φ.
1
Hypotenuse
Ebenso ist die Kathete der Länge y diejenige die dem Winkel φ gegenüberliegt, also
die Gegenkathete, und somit ist auch
y=
y
Gegenkathete
=
= sin φ.
1
Hypotenuse
63
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
Insgesamt haben wir für den Punkt e(φ) im ersten Quadranten damit die Formel
e(φ) = (cos φ, sin φ) = cos φ + i sin φ.
Bevor wir die Situation im zweiten Quadranten besprechen, ist es nützlich sich an
einige kleine Tatsachen über die trigonometrischen Funktionen Sinus und Cosinus zu
erinnern. In ihrer geometrischen Definition werden die Sinus und Cosinus Funktion auf
Winkel in einem rechtwinkligen Dreieck angewendet, und da die Winkelsumme in einem
Dreieck insgesamt 180◦ , also im Bogenmaß π, ist, sind sin φ und cos φ zunächst nur für
Argumente φ mit 0 < φ < π/2 definiert. Sie haben dann bereits in der Schule gesehen
wie die Definition von sin φ und cos φ auf beliebige Winkel φ mit 0 ≤ φ ≤ 2π ausgedehnt
wird. Zunächst vereinbart man sin(0) := 0 und cos(0) := 1 sowie sin(π/2) := 1 und
cos(π/2) := 0. Für π/2 ≤ φ ≤ π ist dann 0 ≤ π − φ ≤ π/2 und man setzt sin φ :=
sin(π − φ) und cos φ := − cos(π − φ). Damit sind sin φ und cos φ dann für alle 0 ≤
φ ≤ π definiert. Ist weiter π ≤ φ ≤ 2π, so haben wir 0 ≤ 2π − φ ≤ π und setzen
sin φ := − sin(2π − φ) und cos φ := cos(2π − φ). Jetzt sind sin φ, cos φ für alle Winkel
0 ≤ φ ≤ 2π definiert und diese beiden Funktionen werden mit Periode 2π für alle
φ ∈ R fortgesetzt, also so das sin(φ + 2π) = sin φ und cos(φ + 2π) = cos φ für alle
φ ∈ R gelten.
1
1
–1
–1
Sinus
Cosinus
Zwischen 0 und 2π hat die Sinusfunktion Nullstellen in 0, π und 2π, ein Maximum mit
dem Wert 1 bei π/2 und ein Minimum mit dem Wert −1 bei 3π/2. Dagegen hat der
Cosinus Nullstellen in π/2 und 3π/2, zwei Maxima mit dem Wert 1 in 0 und 2π und ein
Minimum mit dem Wert −1 in π. Wie bereits bemerkt setzt sich dies dann periodisch
auf ganz R fort. Wir werden übrigens später im Analysis Teil dieser Vorlesung noch
eine andere Definition von Sinus und Cosinus kennenlernen, die ohne rechtwinklige
Dreiecke auskommt und sin φ, cos φ auf einen Schlag für alle φ ∈ R definiert.
Wir wollen uns nun den Fall vornehmen, dass unser
Punkt wie im nebenstehenden Bild im zweiten Quadranten liegt, das also π/2 < φ < π gilt. In diesem Fall er−x
halten wir ein rechtwinkliges Dreieck mit einem Winken
y
1
ψ, der gerade 90◦ kleiner als φ ist, d.h. ψ = φ − π/2. Die
Ankathete zum Winkel ψ ist diesmal y, während die Gegenkathete zu ψ wegen x < 0 die Länge −x hat. Genau
wie wir im ersten Quadranten geschlossen haben, liefern
diese Beobachtungen uns die Gleichungen
y = cos ψ und − x = sin ψ.
64
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
Wir erinnern uns nun an die Additionstheoreme des Sinus und des Cosinus. Diese
besagen bekanntlich, das die beiden Gleichungen
cos(φ + ψ) = cos φ cos ψ − sin φ sin ψ,
sin(φ + ψ) = sin φ cos ψ + cos φ sin ψ
für alle φ, ψ ∈ R gelten. Erinnern wir uns noch daran, daß sin(±π/2) = ±1 und
cos(±π/2) = 0 ist, so können wir unsere obigen Formeln wie folgt weiter auswerten
π
π
π
−x = sin ψ = sin φ −
= sin φ cos −
+ cos φ sin −
= − cos φ,
2
2
2
also x = cos φ, und
π
π
π
= cos φ cos −
− sin φ sin −
= sin φ.
y = cos ψ = cos φ −
2
2
2
Damit haben wir auch im zweiten Quadranten die Gleichung e(φ) = (cos φ, sin φ).
Analog läßt sich auch im dritten und vierten Quadranten schließen. Somit haben wir
die Identität
e(φ) = (cos φ, sin φ) = cos φ + i sin φ
für alle Winkel 0 ≤ φ < 2π. Da die rechte Seite dieser Gleichung für jedes φ ∈ R
definiert ist, können wir sie auch dazu verwenden die Definition e(φ) := cos φ + i sin φ
für überhaupt sämtliche φ ∈ R durchzuführen. Da Sinus und Cosinus beide die Periode
2π haben, gilt dann auch
e(φ + 2π) = e(φ)
für jedes φ ∈ R. Für Argumente φ mit 0 ≤ φ < 2π ist e(φ) direkt nach unserer
Definition eine injektive Abbildung. Insbesondere haben wir für je zwei φ, ψ ∈ R stets
e(φ) = e(ψ) ⇐⇒ es gibt eine ganze Zahl k ∈ Z mit ψ = φ + 2kπ,
d.h. genau dann ist e(φ) = e(ψ) wenn φ und ψ sich nur um ein ganzzahliges Vielfaches
von 2π unterscheiden. Die eben bemerkte Periodizität von e(φ) ergibt dann, dass e(φ)
eine bijektive Abbildung auf den Einheitskreis ist, wenn wir nur die Winkel φ auf einen
Bereich der Länge 2π beschränken. Wählen wir insbesondere den Bereich der reellen
Zahlen φ mit −π < φ ≤ π, so erhalten wir die Polarkoordinaten auf dem Einheitskreis.
Ist also z = (x, y) = x + iy ein Punkt auf dem Einheitskreis, so heißt die eindeutig
bestimmte reelle Zahl φ mit −π < φ ≤ π und e(φ) = z die Polarkoordinate von z.
Dieses φ können wir leicht bestimmen, die Formel unterscheidet sich aber je nachdem
ob z ober- oder unterhalb der x-Achse liegt. Wir starten mit dem ersten Fall sei also
y ≥ 0. Dann ist x = cos φ und wegen sin φ = y ≥ 0 muss φ ≥ 0 sein, also 0 ≤ φ ≤ π.
Aber für φ zwischen 0 und π ist die Cosinusfunktion eine monoton fallende, bijektive
Abbildung auf die reellen Zahlen zwischen −1 und 1. Die Umkehrabbildung dieser
Einschränkung des Cosinus ist der sogenannte Arcus Cosinus, geschrieben als
arccos : {x ∈ R : |x| ≤ 1} → {φ ∈ R|0 ≤ φ ≤ π}; x 7→ arccos x.
65
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
Mit dieser Bezeichnung ist also φ = arccos x. Nun kommen wir zum Fall, daß z =
(x, y) unterhalb der x-Achse liegt, das also y < 0 ist. Dann ist sin φ = y < 0, also
−π < φ < 0. Es folgen 0 < −φ < π und cos(−φ) = cos φ = x, also −φ = arccos x,
beziehungsweise φ = − arccos x. Insgesamt ist damit die Polarkoordinate für z = (x, y)
auf dem Einheitskreis gegeben durch
(
arccos x,
y ≥ 0,
φ=
− arccos x, y < 0.
Damit haben wir die Punkte des Einheitskreises
durch eine Polarkoordinate beschrieben. Wir wollen diez=(x,y)
se Beschreibung nun auf die gesamte Ebene ausdehnen.
r
Da diese im Gegensatz zum Einheitskreis zweidimensioy
nal ist, werden wir auch zwei Koordinaten zur Beschreibung von Punkten der Ebene benötigen. Sei ein Punkt
x
z = (x, y) ∈ R2 = C mit z 6= 0 gegeben. Als erste Koordinate von z verwenden wir dann den Abstand von z
zum Nullpunkt. Wie im nebenstehenden Bild zu sehen,
können wir dann ein rechtwinkliges Dreieck bilden, dessen Hypothenusenlänge gerade der Abstand r von z zum
Nullpunkt ist, und dessen Kathetenlängen |x| und |y| sind (die Beträge sind nötig um
auch die Situation in den anderen drei Quadranten abzudecken). Als Abstand zum
Nullpunkt ergibt sich somit
r=
p
p
|x|2 + |y|2 = x2 + y 2 > 0.
Nun bilden wir die Halbgerade von 0 zum Punkt z und betrachten ihren Schnittpunkt
mit dem Einheitskreis. Dieser Schnittpunkt ist ein Punkt des Einheitskreises, und kann
damit durch einen eindeutigen Winkel φ mit −π < φ ≤ π beschrieben werden. Wie
dies im Bild aussieht unterscheidet sich je nachdem ob z im Inneren des Einheitskreises
oder außerhalb des Einheitskreises liegt:
z
e( )
e( )
z
66
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
In kartesischen Koordinaten ist der Schnittpunkt unserer Halbgeraden mit dem Einheitskreis gerade
x y 1
z=
,
,
r
r r
und für den Winkel φ ergibt sich mit unserer obigen Formel
(
arccos xr ,
y ≥ 0,
φ=
x
− arccos r , y < 0,
wobei wir einfach y statt y/r verwenden, da y und y/r ja dasselbe Vorzeichen haben.
Die Polarkoodinaten eines Punktes z = (x, y) = x + iy sind also die reellen Zahlen r, φ
mit r > 0, −π < φ ≤ π und z = re(φ) = r cos φ + ir sin φ. Ausrechnen können wir
diese beiden Polarkoordinaten dann über die eben angegebenen Formeln für r und φ.
Dem Nullpunkt sind hierbei keine Polarkoordinaten zugeordnet, bei Bedarf kann man
als die Polarkoordinaten jederzeit r = 0 und einen beliebigen Winkel φ verwenden.
Umgekehrt können wir für beliebige reelle Zahlen r, φ ∈ R mit r ≥ 0 den Punkt
z = r · e(φ) = (r cos φ, r sin φ) = r cos φ + ir sin φ
betrachten. Der Abstand dieses Punktes zum Nullpunkt ist wegen r2 cos2 φ+r2 sin2 φ =
r2 · (cos2 φ + sin2 φ) = r2 dann gleich r. Allerdings müssen r und φ nicht die Polarkoordinaten von z sein. Die erste Polarkoordinate von z ist zwar das vorgegebene r, aber
der Winkel φ liegt eventuell nicht im von den Polarkoordinaten verwendeten Bereich
zwischen −π und π. Um auch den Winkel zu erhalten muss aber nur noch ein geeignetes Vielfaches von 2π zu φ addiert werden so, dass die Summe im erlaubten Bereich
liegt. Die Polarkoordinaten von z sind also r und der Winkel φ0 mit −π < φ0 ≤ π und
φ0 = φ + 2kπ für ein k ∈ Z.
Man bezeichnet den Winkel φ, also die zweite Polarkoordinate eines Punktes z =
(x, y) ∈ C, gelegentlich auch als das Argument von z und schreibt dann
(
arccos xr ,
y ≥ 0,
arg z := φ =
x
− arccos r , y < 0.
Manchmal wird dies auch als das Hauptargument von z bezeichnet und mit einem
Argument von z meint man dann die Summe des Hauptarguments mit einem beliebigen
Vielfachen von 2π, also ein beliebiges φ mit z = re(φ), das nicht unbedingt im Bereich
zwischen −π und π liegt. Wir werden diese Sprechweise in dieser Vorlesung nicht, oder
höchstens sehr sparsam, verwenden, sie kann Ihnen aber in anderen Texten immer mal
wieder unterkommen.
Damit haben wir die Polarkoordinaten von Punkten der Ebene konstruiert, aber was
haben diese nun mit komplexen Zahlen zu tun? Die Bedeutung der Polarkoordinaten
für die komplexen Zahlen beruht auf der folgenden Rechnung, die wieder die bereits
weiter oben angegebenen Additionstheoreme des Sinus und des Cosinus verwendet. Für
67
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
alle φ, ψ ∈ R haben wir:
e(φ) · e(ψ) =
=
=
=
(cos φ + i sin φ) · (cos ψ + i sin ψ)
cos φ cos ψ − sin φ sin ψ + i · (sin φ cos ψ + cos φ sin ψ)
cos(φ + ψ) + i sin(φ + ψ)
e(φ + ψ),
d.h. bei Multiplikation komplexer Zahlen auf dem Einheitskreis müssen nur ihre Winkel
in ihrer Darstellung in Polarkoordinaten addiert werden. Diese Beobachtung kann nun
leicht auf allgemeine komplexe Zahlen ausgedeht werden, sind r, s ≥ 0 und φ, ψ ∈ R,
so haben wir
(r · e(φ)) · (s · e(ψ)) = rs · e(φ)e(ψ) = rs · e(φ + ψ).
In Polarkoordinaten ausgedrückt müssen zur Multiplikation zweier komplexer Zahlen
also ihre Längen multipliziert und ihre Winkel addiert werden. Um dann zur Darstellung des Produkts in Polarkoordinaten zu kommen, muss anschließend noch die Winkelsumme durch Addition eines geeigneten Vielfachen von 2π in den Bereich zwischen
−π und π gebracht werden.
Besonders das von uns im vorigen Abschnitt behandelte Problem der Bestimmung
der n-ten Wurzeln einer komplexen Zahl wird durch die Verwendung von Polarkoordinaten auf einmal sehr einfach. Ist nämlich eine komplexe Zahl z ∈ C in Polarkoordinaten
als z = re(φ) mit r ≥ 0, φ ∈ R geschrieben. so haben wir
z 2 = r2 e(2φ), z 3 = r3 e(3φ), z 4 = r4 e(4φ), . . . ,
und so weiter, also auch z n = rn e(nφ) für jedes n ∈ N. Wir wollen dies einmal dazu
verwenden erneut alle komplexen Zahlen z mit z 3 = 1 zu berechnen. Hierzu setzen wir
z in der Form z = re(φ) mit r ≥ 0 und 0 ≤ φ < 2π an. Dass wir dabei für φ nicht
den Bereich zwischen −π und π nehmen, dient dabei nur der Bequemlichkeit. Nach
unserer eben durchgeführten Überlegung wird z 3 = r3 e(3φ) mit 0 ≤ 3φ < 6π. Wegen
1 = 1 · e(0) ist damit genau dann z 3 = 1 wenn r3 = 1 und e(3φ) = e(0) sind. Die
erste Bedingung r3 = 1 ist zu r = 1 äquivalent. Die zweite Bedingung e(3φ) = e(0) ist
genau dann wahr, wenn es eine ganze Zahl k ∈ Z mit 3φ = 0 + 2kπ = 2kπ gibt. Wegen
0 ≤ 3φ < 6π kommen hierfür aber nur die drei Zahlen k = 0, 1, 2 in Frage, d.h. wir
haben genau drei komplexe Zahlen z mit z 3 = 1, nämlich
z = e(0) = 1, z = e
2π
3
2π
2π
= cos
+ i sin
und z = e
3
3
4π
3
= cos
4π
4π
+ i sin .
3
3
Um diese speziellen Werte der Sinus und der Cosinusfunktion weiter auszurechnen kann
man sich nun einer Formelsammlung bedienen. Einige dieser speziellen Werte wollen
68
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
wir hier einmal auflisten:
cos φ
1
−1
0
φ
0
π
π
2
π
3
π
4
π
5
π
6
1
√
2
2
√
1
2
2
√
√
1
2
√
3+ 5
4
√
3
sin φ
0
0
1
√
1
3
2√
1
2
2
√
2
√
5− 5
4
1
2
Weitere Werte kann man dann mit den Additionstheoremen berechnen. Wir haben ja
zum Beispiel
sin(2φ) = 2 sin φ cos φ,
cos(2φ) = cos2 φ − sin2 φ = 2 cos2 φ − 1
für alle φ ∈ R und erhalten somit
cos 2π
= 2 cos2
3
cos 4π
= 2 cos2
3
π
− 1 = − 12 , sin
3
2π
− 1 = − 21 , sin
3
2π
3
4π
3
√
= 2 sin π3 cos π3 = 12 3,√
= 2 sin 2π
cos 2π
= − 12 3
3
3
also sind unsere drei dritten Wurzeln von 1 wieder
1 1√
1 1√
z = 1, z = − +
3 und z = − −
3.
2 2
2 2
Wir wollen hier nicht vollständig begründen, wie die obigen Werte sin φ und cos φ
hergeleitet werden, aber wenigstens einige kleine Hinweise hierzu geben. Dabei sind die
Fälle φ = 0, π, π/2 klar. Für die anderen Werte reicht es aus cos φ auszurechnen, da
ja sin2 φ + cos2 φ = 1 und sin(π/k) ≥ 0 für k ∈ N gilt. Zunächst beachte das für jedes
x ∈ R stets
x
x
cos x = cos 2 ·
= 2 cos2 − 1,
2
2
also
1 + cos x
x
cos2 =
.
2
2
Ist nun x ∈ R mit |x| ≤ π, so ist auch |x/2| ≤ π/2 also cos x ≥ 0 und
x
cos =
2
r
1 + cos x
.
2
Damit ist zum Beispiel
π
cos =
4
r
1 + cos π2
1
1√
=√ =
2.
2
2
2
69
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
Ebenso kann die Zeile zu π/6 aus der zu π/3 berechnet werden. Die Werte cos(π/3) und
cos(π/5) können geometrisch, oder alternativ über die Additionstheoreme begründet
werden, aber dies wollen wir hier nicht vorführen.
Kommen wir wieder zu unseren komplexen Wurzeln zurück. Bis auf die endgültige
Formel hängt unsere obige Berechnung der z ∈ C mit z 3 = 1 nicht von n = 3 ab,
sondern läßt sich analog für jeden Exponenten durchführen. Für jede natürliche Zahl
n ∈ N gibt es genau n komplexe Zahlen z ∈ C mit z n = 1, nämlich die Zahlen
2π
4π
2(n − 1)π
e(0) = 1, e
,e
,...,e
,
n
n
n
oder anders gesagt alle Zahlen der Form e(2πk/n) mit k = 0, 1, . . . , n − 1. Da die
Winkel dieser Zahlen 0, 2π/n, . . . , 2(n − 1)π/n sind, bilden sie die Ecken eines in den
Einheitskreis eingeschriebenen gleichmäßigen n-Ecks. Sind nun a ∈ C mit a 6= 0 und
n ∈ N, so schreiben wir a = re(φ)
mit r > 0 und −π < φ ≤ π, d.h. r, φ sind die
√
n
Polarkoordinaten von a. Dann ist r · e(φ/n) eine n-te Wurzel von a. Die anderen nten Wurzeln entstehen aus dieser durch Multiplikation mit den entsprechenden Wurzeln
der Eins, sind also die komplexen Zahlen
√
√
φ
φ + 2πk
2πk
n
n
r·e
·e
= r·e
n
n
n
mit k = 0, 1, . . . , n − 1. Damit bilden auch die n-ten Wurzeln von a die Ecken eines
gleichseitigen n-Ecks, das aus dem n-Eck der Wurzeln von 1 durch eine Drehung und
eine Streckung entsteht.
Tatsächlich hat jede Gleichung
z n + an−1 z n−1 + . . . + a1 z + a0 = 0
über den komplexen Zahlen eine Lösung. Dies ist der sogenannte Fundamentalsatz der
Algebra, dessen Beweis hier allerdings noch weit jenseits unserer Möglichkeiten liegt.
Zum Abschluß dieses Abschnitts wollen wir nun noch einige einfache Konzepte und die
mit ihnen verbundenen Rechenregeln besprechen.
Definition 4.3: Sei z = x + iy ∈ C eine komplexe Zahl. Dann heißen
p
|z| := x2 + y 2
der Betrag von z und
z := x − iy
die zu z konjugiert komplexe Zahl.
Dabei ist der Betrag |z| eine der beiden Polarkoordinaten, d.h. in dieser Notation
sind die Polarkoordinaten von z die beiden reellen Zahlen |z| und arg z. Die konjugiert
komplexe Zahl z einer komplexen Zahl z, ist uns bereits im vorigen Abschnitt bei der
Berechnung
der komplexen Zahl 1/z begegnet. Ist z eine reelle Zahl, also z = x, so ist
√
2
|z| = x = |x| der schon früher definierte Betrag der reellen Zahl z. Die Grundeigenschaften von Betrag und Konjugation werden im folgenden Satz zusammengefasst:
Satz 4.2: Seien z, w ∈ C zwei komplexe Zahlen.
70
Mathematik für Ingenieure I, WS 2008/2009
Freitag 21.11.2008
(a) Es gelten z + w = z + w, zw = z · w und z = z.
(b) Es gelten |z| = |z|, |z|2 = zz und ist z 6= 0, so ist auch 1/z = z/|z|2 .
(c) Es gilt |zw| = |z| · |w|.
(d) Es sind
Re z =
z+z
z−z
und Im z =
2
2i
und | Re z| ≤ |z|, | Im z| ≤ |z|.
(e) Es gilt |z + w| ≤ |z| + |w| (dies ist wieder die Dreiecksungleichung).
(f ) Es gelten |z − w| ≥ |z| − |w| und |z| − |w| ≤ |z − w|.
Beweis: Wir schreiben z = x + iy mit x, y ∈ R.
(b) Zunächst haben wir
p
p
|z| = |x − iy| = x2 + (−y)2 = x2 + y 2 = |z|
und
zz = (x + iy) · (x − iy) = x2 − i2 y 2 = x2 + y 2 = |z|2 .
Ist z 6= 0, so folgt aus zz = |z|2 > 0 auch 1/z = z/|z|2 .
(c) Da |z| der Abstand von z zu Null ist, haben wir dies bereits bei der Diskussion der
Polarkoordinaten festgehalten (Multiplikation komplexer Zahlen in Polarkoordinaten
bedeutete Multiplikation der Längen und Addition der Winkel).
(a) Die Gleichungen z + w = z + w und z = z sind klar. Ist z = 0 oder w = 0, so ist
auch |zw| = 0 = |z| · |w|. Nun seien z, w 6= 0 beide nicht Null. Dann rechnen wir
zw =
|zw|2
|z|2 |w|2
|z|2 |w|2
=
=
·
= z · w.
zw
zw
z
w
(d) Die ersten beiden Aussagen sind wegen z + z = x + iy√+ x − p
iy = 2x undz − z =
x + iy − x + iy = 2iy klar. Weiter ist auch | Re z| = |x| = x2 ≤ x2 + y 2 = |z|, und
analog folgt auch | Im z| ≤ |z|.
(e) Mit den bereits nachgewiesenen Eigenschaften ergibt sich
|z+w|2 = (z+w)·(z + w) = (z+w)·(z+w) = zz+zw+zw+ww = zz+zw+zw+ww
= |z|2 + 2 Re(zw) + |w|2 ≤ |z|2 + 2| Re(zw)| + |w|2 ≤ |z|2 + 2|zw| + |w|2
= |z|2 + 2|z| · |w| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = (|z| + |w|)2 ,
also auch |z + w| ≤ |z| + |w|.
(f ) Dies folgt mit (e) genau wie im Beweis von Satz 1.
71
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 25.11.2008
z+w
w
D
z
0
An der komplexen Dreiecksungleichung können wir übrigens auch den Grund für ihren
Namen ablesen. Die Summe z + w zweier komplexer Zahlen z, w ist die übliche Vektorsumme, kann also durch ein Parallelogramm wie im oben stehenden Bild realisiert
werden. Bilden wir dann das untere Dreieck D, so hat die Seite von D in der Mitte des
Parallelogramms die Länge |z + w|, die untere Seite von D hat die Länge |z| und die
rechte Seite ist parallel zu w, hat also die Länge |w|. Die Dreiecksungleichung ist also
die geometrische Aussage, dass die Länge jeder Seite eines Dreiecks kleiner oder gleich
der Summe der Längen der beiden anderen Seiten ist.
$Id: lgs.tex,v 1.4 2008/11/28 12:03:35 hk Exp $
Vorlesung 10, Dienstag 25.11.2008
II. Lineare Algebra
§5
Lineare Gleichungssysteme
Definition 5.1: Ein lineares Gleichungssystem besteht aus m linearen Gleichungen


a11 x1 + a12 x2 + · · · + a1n xn = b1



a21 x1 + a22 x2 + · · · + a2n xn = b2
(∗)
..
..
..
.

.
.
. = ..


am1 x1 + am2 x2 + · · · + amn xn = bm 
für die gesuchten n Unbekannten x1 , . . . , xn . Dabei sind die sogenannten Koeffizienten
aij und die rechten Seiten bj reelle oder komplexe Zahlen, und auch die Variablen
x1 , . . . , xn können reell oder komplex sein.
Je nachdem ob reelle oder komplexe Zahlen vorliegen, sprechen wir von einem linearen
Gleichunssystem über R oder über C. Allgemeiner kann man auch lineare Gleichungssysteme über einem Körper K behandeln. Ein Körper ist dabei eine Menge K versehen
72
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 25.11.2008
mit einer Addition und einer Multiplikation, die die in §4 aufgezählten Körperaxiome
erfüllen. Da dieser Grad an Allgemeinheit für unsere Zwecke aber nicht von Bedeutung
ist, nehmen wir immer K = R oder K = C an. Zur Verkürzung der Schreibweise führen
wir für das lineare Gleichungssystem (∗) die sogenannte Matrixschreibweise ein.
Definition 5.2: Eine m × n Matrix A über dem Körper K (also bei uns K ∈ {R, C})
ist ein rechteckiges Schema


a11 · · · a1n

.. 
A =  ...
. 
am1 · · · amn
bestehend aus m Zeilen von je n Elementen von K. Ist dabei m = n, so spricht man
auch von einer quadratischen Matrix.
Definition 5.3: Sei (∗) das lineare Gleichungssystem der obigen Definition. Dann nennt
man die Matrix


a11 · · · a1n

.. 
A =  ...
. 
am1 · · · amn
die Koeffizientenmatrix des linearen Gleichungssystems (∗). Weiter heißt die Matrix


a11 · · · a1n b1

..
.. 
A0 =  ...
.
. 
am1 · · · amn bm
die erweiterte Koeffizientenmatrix des linearen Gleichungssystems (∗).
Wir wollen ein erstes Beispiel eines linearen Gleichungssystems besprechen, nämlich
das folgende System von vier Gleichungen in vier Unbekannten:
x + 2y − u + v = 1
x + 2y + u − v = −3
−x + 2y + 3u − v = 1
3x
− u
= 0
Koeffizientenmatrix und erweiterte Koeffizientenmatrix dieses Gleichungssystems sind
dann die 4 × 4 beziehungsweise 4 × 5 Matrix




1 2 −1
1
1 2 −1
1
1
 1 2

1 −1 
1 −1 −3 
 , A0 =  1 2
.
A=
 −1 2
 −1 2
3 −1 
3 −1
1 
3 0 −1
0
3 0 −1
0
0
73
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 25.11.2008
Zur Lösung dieses Gleichungssystem werden wir gleich kommen. Es ist nützlich sich
zunächst um einen sehr einfach zu lösenden Spezialfall eines linearen Gleichungssystems
zu kümmern. Betrachte beispielsweise das folgende lineare Gleichungssystem
x + 2y − u + v
4y + 2u
2u − 2v
2v
= 1
= 2
= −4
= 10
Dieses Gleichungssystem können wir sehr einfach lösen indem wir die Unbekannten
mit v startend von unten her auflösen. Die vierte Gleichung liefert v = 5, damit wird
die dritte zu 2u − 10 = −4, also u = 3, die zweite Gleichung ergibt 4y + 6 = 2, also
y = −1 und schließlich mit der ersten Gleichung auch x − 2 − 3 + 5 = 1, also x = 1.
Ein ähnliches Beispiel ist das folgende lineare Gleichungssystem
x + y +
y −
z=1
= 23
1
z
3
Hier können wir aus der letzten Gleichung
y=
2 1
+ z
3 3
ablesen, wobei die Variable z durch das Gleichungssystem nicht weiter festgelegt wird,
also jeden reellen Wert annehmen kann. Gehen wir mit diesem Wert für y in die erste
Gleichung, so wird diese zu
2 1
x+ + z+z =1
3 3
also
1 4
x = − z.
3 3
Damit haben wir hier zwar keine eindeutige Lösung, aber wir können zumindest die
Menge aller Lösungen des Gleichungssystems hinschreiben als
  1 4 

 3 − 3 z 
 2 + 1 z  z ∈ R .
 3 3

z
Analog läßt sich jedes solche lineare Gleichungssystem in Stufenform
a11 x1 + · · · + a1i xi + · · · + a1j xj + · · · = b1
a2i xi + · · · + a2j xj + · · · = b2
a3j xj + · · · = b3
..
.
.
= ..
mit a11 6= 0, a2i 6= 0, a3j = 0, . . . auflösen. Dabei dürfen auch noch zusätzliche führende
Spalten auftreten, die nur aus Nullen bestehen. Wie in den Beispielen startet man mit
74
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 25.11.2008
der untersten Gleichung und arbeitet sich nach oben durch. Jede der Gleichungen
legt dann eine der Unbekannten fest, nämlich diejenige xi deren Koeffizient der am
weitesten links stehende, von Null verschiedene, Eintrag in dieser Gleichung ist. Bei
jeder der langen Stufen treten dabei Variablen auf, die durch die Gleichung nicht weiter
festgelegt sind, wie im obigen Beispiel das z. Diese müssen nicht ganz hinten stehen.
Ein anderes Beispiel in Stufenform mit vier Variablen und zwei langen Stufen ist
x + y + u − v= 1
u + v = 2.
Hier ergibt die zweite Gleichung u = 2 − v mit einer freien Variablen v. Die erste
Gleichung wird dann zu
x + y + 2 − v − v = 1, also x = −1 − y + 2v,
d.h. durch diese Gleichung wird auch y zu einer freien Variable. Für die Lösungsmenge
ist es nun praktisch, die frei gebliebenen Variablen umzutaufen, y und v als Laufvariablen sieht etwas merkwürdig aus. Die Lösungsmenge ist



1 − s + 2t 






s

 s, t ∈ R .
 2 − t 






t
Ein allgemeines lineares Gleichungssystem kann nun gelöst werden, indem es in ein
äquivalentes lineares Gleichungsystem in Stufenform umgeformt wird. Hierzu verwenden wir die folgenden drei elementaren Transformationen eines linearen Gleichungssystems:
1. Vertauschen zweier Gleichungen.
2. Multiplikation einer der Gleichungen mit einer Zahl c 6= 0.
3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile.
Offenbar verändert keine dieser drei Transformationen die Lösungsmenge eines linearen
Gleichungssystems. Die Operation (2) wird dabei nicht wirklich benötigt, wir können
sie dazu benutzen in der Stufenform zusätzlich a11 = a2i = a3j = · · · = 1 anzunehmen,
was gelegentlich bequem ist. In Termen der erweiterten Koeffizientenmatrix werden
diese drei Operationen zu
1. Vertauschen zweier Zeilen.
2. Multiplikation einer Zeile mit einer Zahl c 6= 0.
3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile.
75
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 25.11.2008
Diese drei Transformationen einer Matrix werden auch als elementare Zeilenumformungen bezeichnet. Das sogenannte Gaußsche Eliminationsverfahren, oft auch als GaußAlgorithmus bezeichnet, wendet diese drei elementaren Umformungen systematisch
auf ein gegebenes lineares Gleichungssystem an, um es in ein System in Stufenform zu
überführen.
Wir wollen das Eliminationsverfahren zunächst am obigen Beispiel des linearen
Gleichungssystems mit der erweiterten Koeffizientenmatrix


1 2 −1
1
1
 1 2
1 −1 −3 


 −1 2
3 −1
1 
3 0 −1
0
0
durchführen. Das Verfahren startet hier indem wir Vielfache der ersten Zeile zu den
anderen drei Zeilen addieren, und zwar so, dass der neue Eintrag in der ersten Spalte
dieser drei Gleichungen zu Null wird. Ziehen wir die erste Zeile von der zweiten ab,
so erhalten wir ganz links in der zweiten Zeile tatsächlich eine Null. Beachte dabei
das ein Abziehen der ersten Zeile von der zweiten auch als Addition des (−1)-fachen
der ersten Zeile zur zweiten gedeutet werden kann. Entsprechend müssen wir die erste
Zeile zur dritten Zeile addieren, und das dreifache der ersten Zeile von der vierten
Zeile abziehen. Mit diesen drei elementaren Zeilenumformungen wird unsere erweiterte
Koeffizientenmatrix zu




1 2 −1
1
1
1
2 −1
1
1
 1 2

1 −1 −3 
0
2 −2 −4 

 −→  0
.
 −1 2
 0
3 −1
1 
4
2
0
2 
3 0 −1
0
0
0 −6
2 −3 −3
Damit sind wir der Stufenform ein Stück näher gekommen. Nun würden wir gerne mit
der zweiten Zeile so fortfahren, also Vielfache der zweiten Zeile zur dritten und vierten
addieren so, dass wir in der dritten und vierten Zeile zwei führende Nullen bekommen.
Leider geht dies nicht sofort, da der zweite Eintrag der zweiten Zeile ja selbst eine
Null ist. Dies können wir aber leicht beheben, wir benutzen die erste unserer elementaren Zeilenumformungen um die zweite und die dritte Zeile der Matrix miteinander
zu vertauschen




1
2 −1
1
1
1
2 −1
1
1
 0

0
2 −2 −4 
4
2
0
2 
.

 −→  0
 0
 0
4
2
0
2 
0
2 −2 −4 
0 −6
2 −3 −3
0 −6
2 −3 −3
Danach kann es weitergehen, um auch der vierten Zeile eine zweite Null zu geben, muss
nur noch das 3/2-fache der zweiten Zeile zur vierten addiert werden




1
2 −1
1
1
1 2 −1
1
1

 0
4
2
0
2 
2
0
2 

 −→  0 4
.
 0
 0 0
0
2 −2 −4 
2 −2 −4 
0 −6
2 −3 −3
0 0
5 −3
0
76
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 25.11.2008
Damit ist die Stufenform schon beinahe erreicht. Wir müssen nur noch als letzten
Schritt das 5/2-fache der dritten Zeile von der vierten abziehen und erhalten




1 2 −1
1
1
1 2 −1
1
1

 0 4
2
0
2 
2
0
2 
.
 −→  0 4



 0 0
0 0
2 −2 −4 
2 −2 −4
0 0
0
2 10
0 0
5 −3
0
Damit haben wir unser lineares Gleichungssystem in Stufenform gebracht. Tatsächlich
ist das erhaltene System in Stufenform gerade
x + 2y − u + v
4y + 2u
2u − 2v
2v
= 1
= 2
= −4
= 10
und dies war unser erstes Beispiel eines linearen Gleichungssystems in Stufenform. Die
eindeutige Lösung dieses Gleichungssystems hatten wir bereits als
x = 1, y = −1, u = 3, v = 5
ermittelt. Wir wollen nun noch ein zweites Beispiel durchrechnen, das zwar lösbar, aber
nicht mehr eindeutig lösbar ist. Wir betrachten das folgende lineare Gleichungssystem
x + y + z= 1
2x − y + 3z = 0
5x − y + 7z = 1.
Hier beginnt das Eliminationsverfahren, indem wir das doppelte der ersten Zeile von
der zweiten Zeile abziehen und anschließend das fünffache der ersten Zeile von der
dritten Zeile abziehen




1
1 1 1
1
1 1
1
 2 −1 3 0  −→  0 −3 1 −2  .
5 −1 7 1
0 −6 2 −4
Jetzt wird das doppelte der zweiten Zeile von der dritten Zeile abgezogen, und es
entsteht




1
1 1
1
1
1 1
1
 0 −3 1 −2  −→  0 −3 1 −2  ,
0 −6 2 −4
0
0 0
0
hier ist also auf einmal die gesamte dritte Zeile zu Null geworden. Für das erhaltene
lineare Gleichungssystem bedeutet dies, dass die dritte Gleichung verschwunden ist.
Für den Gauß Algorithmus ist dies kein Problem, die nun erhaltene Matrix ist nämlich
in Stufenform, Phase 1 des Algorithmus ist hier also abgeschlossen. Benutzen wir noch
die zweite unserer elementaren Zeilenumformungen um die zweite Zeile mit −1/3 zu
77
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 25.11.2008
multiplizieren und lassen die überflüssig gewordene dritte Zeile weg, so entsteht das
folgende linere Gleichungssystem in Stufenform
x + y +
y −
z=1
= 23
1
z
3
und dies war unser zweites Beispiel eines linearen Gleichungssystems in Stufenform.
Die Menge der Lösungen dieses Gleichungssystems hatten wir bereits als

  1 4 

 3 − 3 t  2 + 1 t  t ∈ R .

 3 3
t
berechnet. Das Gaußsche Eliminationsverfahren läuft damit prinzipiell in zwei Phasen
ab:
1. Bringe das gegebene lineare Gleichungssystem von oben beginnend in Stufenform
indem die Einträge der weiter unten liegenden Spalten durch Addition geeigneter
Vielfacher der oberen Zeile auf Null gebracht werden.
2. Löse das entstandene lineare Gleichungssystem in Stufenform von unter her, indem jede der verbliebenen Gleichungen eine der Unbekannten festleft, und eventuell verbleibende Unbekannte als freie Parameter behandelt werden.
Wir werden bald eine etwas formalere Beschreibung dieses Algorithmus angeben. Aber
bevor wir dies tun, wollen wir noch kurz einige der Vor- und Nachteile des Gaußschen
Algorithmus benennen. Ein Vorteil ist natürlich, dass er sich für lineare Gleichungssysteme moderater Größe bequem per Hand durchführen läßt und zuverlässig in allen
Fällen zur Bestimmung aller Lösungen führt. Es gibt allerdings auch einige Nachteile,
die vor allen zum Tragen kommen, wenn der Algorithmus auf einem Computer ablaufen
soll.
In der hier gegebenen Form ist das Eliminationsverfahren zum Rechnen mit Fließkommazahlen nicht geeignet. Es werden fortwährend Differenzen gebildet, durch die
dann anschließend dividiert wird. In dem unglücklichen, aber durchaus vorkommenden
Fall, das dabei die Differenz von Zahlen gebildet wird, die relativ ihrer Größenordnung
nahe beeinander liegen, verschwindet der wesentliche Teil dieser Zahlen in der Differenz,
aber in den hinteren Dezimalstellen überlegen bereits aufgetretene Rundungsfehler, ein
Effekt der als Auslöschung bezeichnet wird. Wird dann anschließend durch dieses Ergebnis geteilt, so können diese Rundungsfehler soweit vergrößert werden, dass die ganze
Rechnung nur noch an Fehlern herumrechnet. Dies ist nicht das einzige numerische Problem des, Eliminationsverfahrens aber eine weitergehende Analyse unter numerischen
Gesichtspunkten liegt außerhalb des Themas dieses Vorlesung.
Ein anderes Problem ist, dass der Rechenaufwand beim Gaußschen Eliminationsverfahren grob gesagt mit der dritten Potenz n3 der Anzahl n der Unbekannten im linearen
78
Mathematik für Ingenieure I, WS 2008/2009
Freitag 28.11.2008
Gleichungssystem wächst. Dadurch wird die Behandlung großer linearer Gleichungssysteme mit unserem Algorithmus praktisch unmöglich. Leider sind lineare Gleichungssysteme mit vielen Unbekannten gerade Anwendungsfragen ein häufig auftretendes
Phänomen. Eine typische Quelle derartiger großer Gleichungssysteme ist die numerische Lösung gewisser (partieller) Differentialgleichungen auf dem Computer. In einer
solchen Gleichung wird nach einer Funktion f , beispielsweise in zwei Variablen also
f (x, y), gesucht und die Gleichungen bestehen aus Bedingungen an Ableitungen von
f . Sehr viele physikalische und praktische Probleme führen auf derartige Gleichungen.
Ein Ansatz zur numerischen Behandlung ist es den für (x, y) interessierenden Bereich
durch ein ausreichend feines Gitternetz aufzuteilen, und die unbekannte Funktion f
anzunähern indem nur die Werte von f auf den Gitterpunkten betrachtet werden.
1
0
0
1
Die Ableitungen in einem Gitterpunkt werden dann durch gewisse Linearkombinationen der Werte der Funktion in diesem und in den umliegenden Gitterpunkten approximiert. Dadurch übersetzt sich die Differentialgleichung in ihrer Näherung durch ein
lineares Gleichungssystem, das für jeden Funktionswert f (x, y) in einem der Gitterpunkte (x, y) eine Unbekannte hat. Unterteilen wir etwa für 0 ≤ x, y ≤ 1 das Quadrat
in ein Gitter der Maschenweite 0.01, so haben wir auf jeder der beiden Achsen 100 Gitterpunkte, also im gesamten Quadrat 100 · 100 = 10000 Gitterpunkt. Damit hätten wir
es bereits mit linearen Gleichungssystemen in 10000 Unbekannten zu tun. Hierfür wird
dann sicher nicht der Gauß-Algorithmus eingesetzt, sondern es kommen ganz andere
Verfahren zum Zug. Aber dies ist ein Thema einer spezialisierteren Vorlesung, und wir
hier nicht behandelt werden.
Vorlesung 11, Freitag 28.11.2008
Wir wollen das Gaußsche Eliminationsverfahren jetzt noch einmal etwas formaler
beschreiben. Als Eingabe haben wir ein lineares Gleichungssystem bestehend aus m
79
Mathematik für Ingenieure I, WS 2008/2009
Freitag 28.11.2008
Gleichungen in n Unbekannten. Dieses Gleichungssystem wird durch seine Koeffizientenmatrix A und die rechte b ∈ K m beschrieben. Dabei ist A eine m × n Matrix,
und wir schreiben auch (A|b) für die erweiterte Koeffizientenmatrix. Dann geht der
Algorithmus wie folgt vor:
1. Suche die am weitesten links stehende Spalte in A, die einen von Null verschiedenen Eintrag enthält (in aller Regel ist dies die erste Spalte, sonst hätte man
Unbekannte die im Gleichungssystem gar nicht auftauchen. Das ist formal zwar
erlaubt, aber meistens nicht sinnvoll).
2. Gibt es überhaupt keine solche Spalte, sind also absolut alle Koeffizienten gleich
Null, so gehen wir gleich zu Schritt 8. Andernfalls sorge dafür das bereits in der
ersten Zeile der gefundenen Spalte ein Eintrag ungleich Null steht, indem bei
Bedarf die erste Zeile mit einer anderen vertauscht wird.
3. Nun addiere Vielfache der ersten Zeile zu allen anderen Zeilen so, dass sämtliche
Einträge der Spalte aus Schritt 1, mit Ausnahme des Eintrags in ersten Zeile
selbst, zu Null werden.
4. Nun suche die am weitesten links stehende Spalte in A (dies meint jetzt bereits
die in den vorigen Schritten veränderte Koeffizientenmatrix, nicht die ursprüngliche mit der wir gestartet sind), die außerhalb der ersten Zeile einen von Null
verschiedenen Eintrag hat.
5. Gibt es überhaupt keine solche Spalte, so gehen wir wieder gleich zu Schritt 8
über. Andernfalls sorge dafür, dass in der zweiten Zeile der in Schritt 4 gefundenen
Spalte ein von Null verschiedener Eintrag steht, indem bei Bedarf die zweite Zeile
mit einer weiter unten stehenden vertauscht wird.
6. Addiere Vielfache der zweiten Zeile zu allen weiter unten stehenden Zeilen so, dass
sämtliche Einträge der in Schritt 4 gefundenen Spalte, mit Ausnahme höchstens
der Einträge in der ersten und zweiten Zeile, zu Null werden.
7. Wiederhole die Schritte 4,5 und 6 mit der dritten, vierten und allen folgenden
Zeilen bis wir entweder bei der untersten Zeile angekommen sind oder direkt zu
Schritt 8 gesprungen wurde.
8. Sind wir bei diesem Schritt angekommen so sind die obersten r Zeilen der Matrix
von Null verschieden und in Stufenform, während die unteren m − r Zeilen nur
aus Nullen bestehen. Dabei ist normalerweise r = m, außer wenn wir bereits
vorzeitig zu diesem Schritt gesprungen sind. Das dies vorkommen kann, haben
wir in unseren Beispielen bereits gesehen.
9. Ist r < m und gibt es in den unteren m − r Einträgen von b (auch dies ist das
in den vorigen Schritten veränderte b und nicht mehr die urspüngliche rechte
Seite), so ist das lineare Gleichungssysten nicht lösbar (da wir im äquivalenten
Gleichungssystem ja eine Zeile 0 · x1 + . . . + 0 · xn = bi 6= 0 haben).
80
Mathematik für Ingenieure I, WS 2008/2009
Freitag 28.11.2008
10. Andernfalls sind auch alle unteren m−r Zeilen der (veränderten) erweiterten Koeffizientenmatrix gleich Null. Im entstandenen System in Stufenform löse nun die
Gleichungen von der r-ten Zeile zur obersten Zeile hin auf. Jede Zeile legt dabei
die Unbekannte, die zum am weitesten links liegenden, von Null verschiedenen,
Eintrag der Zeile gehört fest.
11. Die restlichen nicht in Schritt 10 festgelegten n − r Unbekannten werden durch
das lineare Gleichungssystem nicht weiter festgelegt. Ist also n = r, so haben wir
eine eindeutige Lösung, und ist r < n, so haben wir eine Lösungsmenge die durch
n − r freie Parameter beschrieben wird.
Manchmal ist es bequem die Schritte 2 und 5 ein wenig zu modifizieren.
2∗ . Nach Durchführung des originalen Schritt 2 multipliziere die erste Zeile mit dem
Kehrwert des Eintrags in der in Schritt 1 gefundenen Spalte der ersten Zeile.
Hierdurch wird dieser Eintrag zu 1.
5∗ . Nach Durchführung des originalen Schritt 5 multipliziere die zweite Zeile (beziehungsweise die dritte, vierte und so weiter wenn dieser Schritt wiederholt wird)
mit dem Kehrwert des Eintrags in der in Schritt 4 gefundenen Spalte dieser Zeile.
Hierdurch wird dieser Eintrag zu 1.
Verwenden wir diese kleine Modifikation, so werden die Schritte 3, 6 und 10 vereinfach, da wir zur Ermittlung der passenden Vielfachen keine Division mehr durchführen
müssen. Dies ist vor allem im komplexen Fall sehr praktisch.
Es empfiehlt sich das Gaußche Eliminationsverfahren einmal selbst auf einem Computer zu implementieren. Betrachten Sie dies ruhig als eine inoffizielle zusätzliche
Übungsaufgabe. Wir hatten bereits bemerkt, dass das Gaußsche Eliminationsverfahren
in der von uns beschriebenen Form für numerische Zwecke nicht besonders geeignet ist.
Eine ausführliche Diskussion der vorzunehmenden Verbesserungen und ihre numerischen Analyse ist leider außerhalb des Themenbereichs dieser Vorlesung. Falls Sie an
diesen Dingen interessiert sind, können Sie sich beispielsweise einmal Kapitel 2 in dem
Buch
James W. Demmel, Applied Numerical Linear Algebra, Society for Industrial and Applied Mathematics, Philadelphia 1997
anschauen. Falls Sie für das Eliminationsverfahren geeignete lineare Gleichungssysteme im Rahmen anderer numerischer Rechnungen lösen wollen, ist es in den meisten
Fällen sinnvoll die üblichen Programmbibliotheken zu verwenden, statt eine eigene Implementierung des Eliminationsverfahrens einzusetzen. Schauen sie sich zum Beispiel
an welche Funktionen Ihnen die BLAS (Basic Linear Algebra Subprograms) und LAPACK (Linear Algebra Package) Bibliotheken Ihres Rechners zur Verfügung stellen.
Normalerweise sind das /usr/lib/libblas... und /usr/lib/liblapack..., aber die
Details unterscheiden sich je nach verwendeten Betriebssystem.
$Id: matrix.tex,v 1.4 2008/12/02 21:08:55 hk Exp $
81
Mathematik für Ingenieure I, WS 2008/2009
§6
Freitag 28.11.2008
Die Matrixmultiplikation
Zur weiteren Behandlung linearer Gleichungssysteme ist es hilfreich einige weitere
algebraische Strukturen einzuführen. Insbesondere werden wir die Matrizen in ihrem
Status etwas aufwerten. Im vorigen §5 dienten und Matrizen nur als eine bequeme Notation für lineare Gleichungssysteme, inhaltlich haben sie aber keinen Beitrag geleistet. In
diesem Kapitel werden wir einige einfache Rechenoperationen mit Matrizen einführen,
und diese dann auf eine spezielle Sorte linearer Gleichungssysteme anwenden.
6.1
Addition und Multiplikation von Matrizen
Der Vollständigkeit halber führen wir zunächst die Addition von Vektoren und Matrizen
sowie die Multiplikation derselben mit Skalaren ein. Wie in §5 bezeichne K entweder
die reellen oder die komplexen Zahlen.
Definition 6.1: Seien n, m ∈ N. Sind dann x, y ∈ K n zwei Vektoren derselben Größe,
so definiere ihre Summe als

 



x1
y1
x1 + y1

 



..
x + y =  ...  +  ...  := 
.
.
xn
yn
xn + yn
Analog definieren wir für zwei m × n Matrizen




a11 · · · a1n
b11 · · · b1n

..  , B =  ..
.. 
A =  ...
 .
. 
. 
am1 · · · amn
bm1 · · · bmn
die Summe von A und B als


a11 + b11 · · · a1n + b1n


..
..
A + B := 
.
.
.
am1 + bm1 · · · amn + bmn
Beachte das wir nur Summen von Vektoren und Matrizen derselben Größe definieren,
und das diese sich bei der Addition dann nicht ändert. Für einen Skalar c ∈ K, d.h.
eine reelle oder komplexe Zahl, definiert wir das Produkt von c mit einem Vektor
beziehungsweise einer Matrix durch








x1
cx1
a11 · · · a1n
ca11 · · · ca1n





..  :=  ..
..  .
c ·  ...  :=  ...  , c ·  ...
 .
. 
. 
xn
cxn
am1 · · · amn
cam1 · · · camn
Mit dieser Addition beziehungsweise Multiplikation haben wir dann die folgenden
Rechenregeln:
82
Mathematik für Ingenieure I, WS 2008/2009
Freitag 28.11.2008
1. Assoziativgesetz der Addition Für alle m × n Matrizen A, B, C und alle
Vektoren x, y, z ∈ K n gelten (A+B)+C = A+(B+C) und (x+y)+z = x+(y+z).
2. Kommutativgesetz der Addition Für alle m × n Matrizen A, B und alle
Vektoren x, y ∈ K n gelten A + B = B + A und x + y = y + x.
3. Null Ist 0 der Nullvektor, dessen Einträge alle Null sind, beziehungsweise die
Nullmatrix, deren Einträge ebenfalls alle Null sind, so gelten 0 + x = 0 für jeden
Vektor x ∈ K n und 0 + A = A für jede m × n Matrix A.
4. Subtraktion Sind A eine Matrix und x ein Vektor, so gelten (−A) + A = 0 und
(−x) + x = 0 wobei −A := (−1) · A und −x := (−1) · x sind.
5. Assoziativgesetz für die Multiplikation mit Skalaren Für alle Zahlen a, b ∈
K, alle Matrizen A und alle Vektoren x gelten a · (b · A) = (ab) · A und a · (b · x) =
(ab) · x.
6. Eins Für jede Matrix A und jeden Vektor x sind 1 · A = A und 1 · x = x.
7. Distributivgesetze Für alle m × n Matrizen A, B, Vektoren x, y ∈ K n und
Zahlen a, b, c ∈ K gelten (a + b) · A = a · A + b · A, c · (A + B) = c · A + c · B,
(a + b) · x = a · x + b · x und c · (x + y) = c · x + c · y.
Auch mit Matrizen und Vektoren kann man also weitgehend normal rechnen. Nicht
definiert wird dagegen das Produkt zweier Vektoren x, y ∈ K n . Einige Möglichkeiten
Produkte von Vektoren einzuführen werden wir später behandeln, etwa das Skalarprodukt bei dem x · y eine Zahl wird, oder im Fall n = 3 das Vektorprodukt x × y. Für
Matrizen passender Größe gibt es dagegen eine Multiplikation von Matrizen, die wir
nun definieren wollen.
Definition 6.2: Seien n, m, l ∈ N. Sind dann A eine m × l Matrix und B eine l × n
Matrix




a11 · · · a1l
b11 · · · b1n

..  , B =  ..
..  ,
A =  ...
 .
. 
. 
am1 · · · aml
bl1 · · · bln
so ist das Produkt


c11 · · · c1n

.. 
C := A · B =  ...
. 
cm1 · · · cmn
die m×n Matrix C, deren Eintrag cij in der i-ten Zeile und der j-ten Spalte (1 ≤ i ≤ m,
1 ≤ j ≤ n) durch
l
X
cij :=
aik bkj = ai1 b1j + · · · + ail blj
k=1
definiert ist.
83
Mathematik für Ingenieure I, WS 2008/2009
Freitag 28.11.2008
Zwei Matrizen A, B können also nur dann multipliziert werden, wenn die linke Matrix A genausoviele Spalten hat wie die rechte Matrix B Zeilen hat. Die Formel zur
Multiplikation zweier Matrizen sieht zunächst etwas bedrohlich aus, ist in Wahrheit
aber sehr einfach. Wir wollen einmal ein kleines Beispiel anschauen, betrachte etwa die
beiden Matrizen


1 1 0
1
1 −1 1
0 .
A=
, B= 0 0 1
−2
3 1
1 2 0 −1
Hier sind A eine 2 × 3 und B eine 3 × 4 Matrix, d.h. A und B können multipliziert
werden und ihr Produkt ist eine 2 × 4 Matrix. Wie sieht die erste Zeile des Produktes
A · B aus? Die Formel für den allerersten Eintrag dieser Zeile lautet
c11 = a11 b11 + a12 b21 + a13 b31 = 1 · 1 + (−1) · 0 + 1 · 1 = 2.
Übersichtlicher wird dies wenn wir uns die erste Zeile von A zu einer Spalte gedreht
denken und diese der ersten Spalte von B gegenüberstellen
1
−1
1
1
0
1.
Gegenüberliegende Zahlen werden dann miteinander multipliziert, und anschließend
wird alles aufaddiert. Der zweite Eintrag der ersten Zeile ergibt sich dann ebenso, nur
taucht diesmal auf der rechten Seite die zweite Spalte von B auf, also
1
0
2,
1
−1
1
und wir erhalten c12 = 1 + 0 + 2 = 3. Die restlichen Einträge der ersten Zeile von A · B
ergeben sich analog. Gehen wir dann zur zweiten Zeile des Produkts über, so müssen
wir uns die zweite Zeile der linken Matrix A gedreht denken und stellen diese den
Spalten von B gegenüber, also etwa für den Eintrag in der ersten Spalte der zweiten
Zeile von A · B
−2
1
3
0
1
1.
So fortfahrend haben wir dann insgesamt


1 1 0
1
2
3
−1
0
1 −1 1
0 =
· 0 0 1
.
−1 0
3 −3
−2
3 1
1 2 0 −1
Wir wollen nun einige der Rechenregeln für die Matrixmultiplikation festhalten:
Satz 6.1 (Rechenregeln für Matrizen)
Seien n, m, p, q ∈ N.
84
Mathematik für Ingenieure I, WS 2008/2009
Freitag 28.11.2008
(a) Assoziativgesetz Sind A eine m × p, B eine p × q und C eine q × n Matrix, so
gilt (A · B) · C = A · (B · C).
(b) Einheitsmatrizen Ist

0 ···



1 ···
1


 
.. . .
.
.
En := 
= 
.
.
.

 0 0 ···
1
0 0 ···
{z
|
1
0
..
.
n Spalten








 n Zeilen


1 0 


0 1 
}
0
0
..
.
0
0
..
.
die sogenannte n × n Einheitsmatrix, so gelten für jede m × n Matrix A die
Gleichungen A · En = A und Em · A = A.
(c) Distributivgesetze Sind A eine m × p Matrix und B, C zwei p × n Matrizen, so
gilt A · (B + C) = A · B + A · C. Sind ebenso A, B zwei m × p Matrizen und C
eine p × n Matrix, so gilt (A + B) · C = A · C + B · C.
(d) Multiplikation mit Skalaren Sind A eine m × p Matrix, B eine p × n Matrix
und c ∈ K ein Zahl, so gilt (cA) · B = A · (cB) = c · (A · B).
Beweis: Wir wollen hier nur das Assoziativgesetz exemplarisch vorrechnen, die anderen
drei Regeln können Sie sich selbst einmal als zusätzliche Übungsaufgaben vornehmen.
Seien also A, B, C wie in (a) gegeben. Die beiden Produkte (AB)C und A(BC) sind
dann zwei m × n Matrizen. Für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n ergibt sich der Eintrag von
(AB)C in der i-ten Zeile und der j-ten Spalte als
!
q
p
q
X
X
X
X
(AB)ik Ckj =
Ail Blk Ckj =
Ail Blk Ckj .
((AB)C)ij =
k=1
k=1
1≤l≤p
1≤k≤q
l=1
Auf der anderen Seite haben wir ebenfalls
(A(BC))ij =
p
X
l=1
Ail (BC)lj =
p
X
Ail
l=1
q
X
!
Blk Ckj
k=1
=
X
Ail Blk Ckj .
1≤l≤p
1≤k≤q
Dies zeigt ((AB)C)ij = (A(BC))ij , und (a) ist bewiesen.
Dagegen ist die Multiplikation aber nicht kommutativ. Wir haben zum Beispiel
1 1
1 0
2 1
1 1
1 0
1 1
·
=
6=
=
·
.
0 1
1 1
1 1
1 2
1 1
0 1
85
Mathematik für Ingenieure I, WS 2008/2009
6.2
Dienstag 2.12.2008
Lineare Gleichungssysteme als Matrixgleichung
Was hat die Matrixmultiplikation nun mit linearen Gleichungssystemen zu tun? Um
dies zu sehen, betrachten wir ein lineares Gleichungssystem

a11 x1 + a12 x2 + · · · + a1n xn = b1 


a21 x1 + a22 x2 + · · · + a2n xn = b2 
(∗)
..
..
..
.

.
.
. = .. 

am1 x1 + am2 x2 + · · · + amn xn = bm 
und schreiben A für seine Koeffizientenmatrix sowie


b1


b :=  ... 
bm
für seine rechte Seite. Ist weiter


x1


x :=  ... 
xn
der Vektor der n Unbekannten, so können wir x auch als eine n × 1 Matrix auffassen.
Da A eine m × n Matrix ist, ist damit das Matrixprodukt Ax definiert und ergibt eine
m×1 Matrix, also einen Vektor mit m Einträgen. Diesen Vektor können wir auch leicht
ausrechnen

 
 

a11 · · · a1n
x1
a11 x1 + · · · + a1n xn


..  ·  ..  = 
..
Ax =  ...
,
.   .  
.
am1 · · · amn
xn
am1 x1 + · · · + amn xn
die m Komponenten des Produkts Ax sind also gerade die linken Seiten unseres linearen Gleichungssystems. Damit kann das gesamte lineare Gleichungssystem (∗) als eine
einzelne Matrixgleichung
Ax = b
interpretiert werden.
Vorlesung 12, Dienstag 2.12.2008
Wir wollen diese Interpretation nun verwenden, um einige einfache Beobachtungen
über die Menge der Lösungen unseres linearen Gleichungssystems zu machen. Um diese
auszusprechen ist eine weitere kleine Definition hilfreich.
86
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 2.12.2008
Definition 6.3: Das lineare Gleichungssystem (∗) heißt homogen, wenn b = 0 ist, d.h.
wenn es die Form
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
am1 x1 + am2 x2
+ · · · + a1n xn = 0
+ · · · + a2n xn = 0
..
.
. = ..
+ · · · + amn xn = 0
hat. Ein homogenes lineares Gleichungssystem hat offenbar immer die Lösung x = 0,
also x1 = . . . = xn = 0, die man als die triviale Lösung des linearen Gleichungssystems
bezeichnet. Als das zum allgemeinen Gleichungssystem (∗), also Ax = b, gehörige
homogene Gleichungssystem bezeichnet man das homogene lineare Gleichungssystem
Ax = 0.
Satz 6.2 (Homogene und inhomogene Lösungen)
Seien n, m ∈ N und A eine m × n Matrix.
(a) Sind u, v ∈ K n zwei Lösungen des homogenen linearen Gleichungssystems Ax = 0
und c ∈ K eine Zahl, so sind auch u + v und cu Lösungen von Ax = 0.
(b) Sei weiter b ∈ K m gegeben. Gibt es dann überhaupt eine Lösung x0 ∈ K n des
linearen Gleichungssystems Ax = b, so ist
{x0 + u|u ∈ K n , Au = 0}
die volle Lösungsmenge von Ax = b, d.h. die Lösungen von Ax = b sind genau die
Vektoren der Form x = x0 + u wobei u die Lösungen des zugehörigen homogenen
linearen Gleichungssystems durchläuft.
Beweis: (a) Aus Au = Av = 0 folgen nach Satz 1.(c,d) auch A · (u + v) = Au + Av = 0
und A · (cu) = cAu = 0, d.h. auch u + v und cu sind Lösungen von Ax = 0.
(b) Ist u eine Lösung des homogenen Systems, gilt also Au = 0, so haben wir nach Satz
1.(c) auch A·(x0 +u) = Ax0 +Au = Ax0 = b, d.h. x = x0 +u ist eine Lösung von Ax = b.
Nun sei umgekehrt x ∈ K n mit Ax = b gegeben. Dann setzen wir u := x − x0 ∈ K n
und haben wieder nach Satz 1.(c,d) auch Au = A · (x − x0 ) = Ax − Ax0 = b − b = 0.
Also ist u eine Lösung des homogenen linearen Gleichungssystems und es gilt x =
x0 + (x − x0 ) = x0 + u.
Hat also insbesondere das zugehörige homogene lineare Gleichungssystem nur die
triviale Lösung, so ist das allgemeine lineare Gleichungssystem Ax = b für jede rechte
Seite b ∈ K m entweder gar nicht lösbar oder eindeutig lösbar.
87
Mathematik für Ingenieure I, WS 2008/2009
6.3
Dienstag 2.12.2008
Inverse Matrizen und reguläre lineare Gleichungssysteme
Schreiben wir ein lineares Gleichungssystem in der Form Ax = b, so ist es naheliegend
dieses durch A auf die andere Seite bringen“ zu lösen, also mit so etwas wie 1/A zu
”
multiplizieren. Allerdings haben wir Quotienten von Matrizen bislang nicht eingeführt,
und zwar aus gutem Grund. Betrachten wir zum Beispiel einmal die folgende 2 × 2
Matrix
0 1
A=
.
0 0
Es ist dann zum einen A 6= 0, aber auch
0 1
0 1
0 0
2
A =
·
=
,
0 0
0 0
0 0
also A2 = 0. So etwas wie 1/A kann hier also sicher nicht geben, denn dann hätten wir
A = A2 · (1/A) = 0 · (1/A) = 0. Trotzdem gibt es durchaus Matrizen für die Quotienten
sinnvoll sind, und diesen geben wir nun einen Namen.
Definition 6.4: Sei n ∈ N. Eine n × n Matrix A (wieder mit reellen oder komplexen
Einträgen) heißt invertierbar, oder auch regulär, wenn es eine n×n Matrix A−1 , genannt
die Inverse von A, gibt so, dass A · A−1 = A−1 · A = En gelten.
Beachte das wir hier A−1 statt 1/A schreiben. Die Bruchschreibweise ist für Matrizen
in der Tat nicht sinnvoll. Wollten wir A/B definieren, so könnte dies A·B −1 oder B −1 ·A
bedeuten, und diese beiden Ausdrücke können durchaus verschieden sein, wir hatten
ja bereits bemerkt das die Multiplikation von Matrizen nicht kommutativ ist. Können
wir also A/B keine Bedeutung geben, so erscheint auch die Schreibweise 1/A als nicht
sinnvoll. Beachte weiter, dass es zunächst sein könnte, das es zu einer invertierbaren
Matrix A mehrere Matrizen A−1 gibt. Dies wollen wir nun ausschließen.
Satz 6.3: Sei n ∈ N.
(a) Ist A eine invertierbare n × n Matrix, so gibt es genau eine n × n Matrix A−1 mit
AA−1 = A−1 A = En .
(b) Sind A, B zwei invertierbare n × n Matrizen, so ist auch A · B invertierbar, und
es gilt (A · B)−1 = B −1 · A−1 .
(c) Sind A eine invertierbare n × n Matrix und c 6= 0 eine Zahl, so ist auch cA
invertierbar mit
1
(cA)−1 = · A−1 .
c
Beweis: (a) Sei B eine weitere n × n Matrix mit AB = BA = En . Dann haben wir
B = En · B = (A−1 A)B = A−1 (AB) = A−1 · En = A−1 .
88
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 2.12.2008
(a) Es gilt
(AB) · (B −1 A−1 ) = A · (BB −1 )A−1 = AEn A−1 = AA−1 = En ,
und analog folgt auch (B −1 A−1 )(AB) = En . Damit ist AB invertierbar mit (AB)−1 =
B −1 A−1 .
(c) Mit Satz 1.(d) rechnen wir (cA) · (c−1 A−1 ) = (c−1 cA) · A−1 = AA−1 = En , und
analog ist auch (c−1 A−1 ) · (cA) = En . Damit ist cA invertierbar mit (cA)−1 = c−1 A−1 .
Nun wenden wir den Begriff einer invertierbaren Matrix auf lineare Gleichungssysteme
an. Hierzu bezeichnen wir ein quadratisches lineares Gleichungssystem
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
am1 x1 + am2 x2
+ · · · + a1n xn = b1
+ · · · + a2n xn = b2
..
.
. = ..
+ · · · + amn xn = bm
als regulär, wenn seine Koeffizientenmatrix regulär, also invertierbar, ist.
Satz 6.4 (Reguläre lineare Gleichungssysteme)
Ein reguläres lineares Gleichungssystem mit Koeffizientenmatrix A und rechter Seite b
hat genau eine Lösung, nämlich x = A−1 b.
Beweis: Wegen A · (A−1 b) = (AA−1 )b = En b = b ist A−1 b eine Lösung des linearen
Gleichungssystems Ax = b. Ist umgekehrt x ∈ K n mit Ax = b, so gilt auch x = En x =
(A−1 A)x = A−1 · (Ax) = A−1 b.
Um dies zu verwenden, benötigen wir noch eine Methode die Inverse einer gegebenen Matrix tatsächlich zu berechnen, sofern sie überhaupt existiert. Wir wollen mit
zwei häufig auftretenden Spezialfällen beginnen. Zunächst betrachten wir sogenannte
Diagonalmatrizen, das sind quadratische Matrizen, die außerhalb der Hauptdiagonalen
keine von Null verschiedenen Einträge haben, also beispielsweise die Einheitsmatrizen
En . Diese Diagonalmatrizen multiplizieren sich auf sehr einfache Weise

 
 

λ1
µ1
λ 1 µ1

 
 

...
...
...

·
=
.
λn
µn
λ n µn
Sind also insbesondere λ1 , . . . , λn ∈ K\{0} alle von Null verschieden, so ist die zugehörige Diagonalmatrix invertierbar mit

−1  1

λ1
λ1




...
...

 =
.
1
λn
λn
89
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 2.12.2008
Ein weiterer gut überschaubarer Fall sind 2 × 2 Matrizen. Wir haben nämlich die
folgende einfache Rechnung
a b
d −b
ad − bc
0
·
=
= (ad − bc)E2 ,
c d
−c
a
0
ad − bc
und ebenso ergibt sich dieses Ergebnis, wenn wir die beiden Matrizen in der anderen
Reihenfolge multiplizieren. Damit haben wir die Äquivalenz
a b
ist invertierbar ⇐⇒ ad − bc 6= 0,
c d
und in diesem Fall ist
a b
c d
−1
1
=
ad − bc
d −b
−c
a
.
Wir besprechen nun den Algorithmus zur Berechnung der Inversen einer allgemeinen
n × n Matrix, und wollen diesen zugleich am Beispiel der Matrix


1 2 −1
1
 1 2
1 −1 

A=
 −1 2
3 −1 
3 0 −1
0
durchführen. Dies ist gerade die Koeffizientenmatrix unseres ersten Beispiels zum Gaußschen Eliminationsverfahren in §5. Das Verfahren zum Invertieren dieser Matrix läuft
in drei Schritten ab.
1. Schreibe A und die 4 × 4 Einheitsmatrix nebeneinander.
1
1
−1
3
2 −1
1
2
1 −1
2
3 −1
0 −1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
2. Führe das Gaußsche Eliminationsverfahren für die linke Matrix (also für A) durch.
Dabei verwende die modifizierte Form, und bringe den am weitesten links stehenden von Null verschiedenen Eintrag einer jeder Zeile auf Eins. Wende dabei
simultan genau dieselben Zeilenumformungen auf die rechte Matrix an. Wir beginnen also wieder mit der ersten Zeile. In dieser steht ganz links bereits eine
Eins, und wir bringen alle Einträge unterhalb dieser Eins auf Null
1
1
−1
3
2 −1
1
2
1 −1
2
3 −1
0 −1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
1
2 −1
1
0
0
0
2 −2
−→
0
0
4
2
0
1
0 −6
2 −3
90
1
−1
1
−3
0
1
0
0
0
0
1
0
0
0
0
1
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 2.12.2008
Dann müssen wir die zweite und die dritte Zeile vertauschen und die neue zweite
Zeile anschließend durch 4 teilen
1
2 −1
1
0
0
2 −2
0
4
2
0
0 −6
2 −3
1
−1
1
−3
0
1
0
0
0
0
1
0
0
1
2 −1
1
1
0
0
1
0
2
−→
0
0
2 −2
0
0 −6
2 −3
1
1 0 0 0
1
0 14 0
4
−1 1 0 0
−3 0 0 1
Jetzt bringen wir die untenstehenden Einträge der zweiten Spalte auf Null.
1
2 −1
1
1
0
0
1
2
0
0
2 −2
0 −6
2 −3
1 2 −1
1
1 0 0 0
1
1
1
0 4 0
0
0 1
4
2
−→
0 0
2 −2
−1 1 0 0
−3 0 0 1
0 0
5 −3
1 0 0 0
1
0 41 0
4
−1 1 0 0
− 32 0 23 1
Jetzt bringe die führende Zwei der dritten Zeile auf Eins
1
0
0
0
2 −1
1
1
0
1
2
0
2 −2
0
5 −3
1 2 −1
1
1 0 0 0
1
1
1
0 4 0
0
0 1
4
2
−→
−1 1 0 0
0 0
1 −1
3
3
0 0
5 −3
−2 0 2 1
1 0 0 0
1
0 14 0
4
− 12 21 0 0
− 32 0 32 1
Schließlich bringe die linke Seite endgültig auf Stufenform
1
0
0
0
2 −1
1
1
1
0
2
0
1 −1
0
5 −3
1 0 0 0
1 2 −1
1
1
1
1
0 4 0
0 1
0
4
2
−→
1
1
−2 2 0 0
0 0
1 −1
3
3
−2 0 2 1
0 0
0
2
1
0 0 0
0 14 0
1
0 0
2
5
1 − 2 32 1
1
4
− 12
und teilen die unterste Zeile anschließend durch Zwei
1
0
0
0
2 −1
1
1
1
0
2
0
1 −1
0
0
2
1 2 −1
1
0 0 0
1
1
0 1
0
0 4 0
2
−→
1
0 0
0 0
1 −1
2
5
3
1 −2 2 1
0 0
0
1
1
1
1
4
− 12
1
4
1
−2
1
2
0 0 0
0 14 0
1
0 0
2
− 54
3
4
1
2
Damit ist Schritt für dieses Beispiel beendet.
3. Jetzt bringen wir analog zum Vorgehen bei der Gauß-Elimination, nur diesmal
von unten nach oben gehend, in der linken Matrix alle Einträge außerhalb der
Hauptdiagonale auf Null. Nachdem dies getan ist, steht auf der rechten Seite die
gesuchte inverse Matrix. Wir müssen also zuerst die Spalte ganz rechts betrachten
1
0
0
0
2 −1
1
1
1
0
2
0
1 −1
0
0
1
1
1
4
− 12
1
2
0 0 0
1
1
0 4 0
0
−→
1
0
0 0
2
− 54 34 21
0
91
2 −1 0
1
1
0
2
0
1 0
0
0 1
1
2
1
4
5
4
− 34 − 12
1
0
0
4
0 − 34
1
− 54
2
3
4
3
4
1
2
1
2
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 2.12.2008
Nun wird auch die dritte Spalte oben auf Null gebracht
1
0
0
0
2 −1 0
1
0
1
2
0
1 0
0
0 1
1
2
1
4
5
4
− 34 − 21
1
0
0
4
3
4
3
4
0 − 34
1
− 54
2
1
0
−→
0
0
1
2
1
2
2
1
0
0
0
0
1
0
0
0
0
1
1
2
1
4
0
1
2
1
2
3
8
− 34
− 54
0
0
− 18
3
4
3
4
− 14
1
2
1
2
Als letzter Schritt wird nun die zweite Spalte bearbeitet
1
0
0
0
2
1
0
0
0
0
1
0
0
0
0
1
1
2
1
4
0
1
2
1
2
3
8
3
−4
− 54
0
0
− 18 − 14
3
4
3
4
1
2
1
2
1
0
−→
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0 − 14
1
4
0
1
2
3
8
− 34
− 54
1
4
− 18
3
4
3
4
1
2
− 14
1
2
1
2
Als inverse Matrix haben wir in diesem Beispiel damit


−1  0 − 1


1
1
1 2 −1
1
0 −2
2
4
4
4
2
 1
3
 1 2
− 18 − 41 
1 −1 
2
3 −1 −2 
 1
4
8

 =
.

= 
3
3
1
 −1 2


3 −1
0 −6
6
4 
8
 0 −4

4
2
3 0 −1
0
4 −10
6
4
5
3
1
1
−
2
4
4
2
Wollen wir beispielsweise erneut das lineare Gleichungssystem
x + 2y − u + v = 1
x + 2y + u − v = −3
−x + 2y + 3u − v = 1
3x
− u
= 0
aus §5 lösen, so können wir die eben berechnete inverse Matrix verwenden, um direkt
die Lösung des Gleichungssystem zu erhalten



 

 
0 −2
2
4
1
8
1




 
1 2
3 −1 −2 
 ·  −3  = 1  −8  =  −1  ,
x= 
6
4   1  8  24   3 
8  0 −6
0
5
4 −10
6
4
40
und dies ist wieder die Lösung, die wir schon damals berechnet hatten. Man sollte allerdings die praktische Bedeutung inverser Matrizen für das Lösen linearer Gleichungssysteme nicht überschätzen. Unser Verfahren zur Berechnung von A−1 erfordert ungefähr
den drei- bis vierfachen Aufwand im Vergleich zum Gaußschen Eliminationsverfahren.
Selbst wenn mehrere Gleichungssysteme mit derselben Koeffizientenmatrix zu lösen
sind, ist das Eliminationsverfahren effektiver, da der Hauptteil des Algorithmus sich
nur auf die Koeffizientenmatrix bezieht, und wir die Wirkung auf die rechte Seite einmal
bestimmen und dann immer wieder anwenden können.
92
Mathematik für Ingenieure I, WS 2008/2009
Freitag 5.12.2008
Vorlesung 13, Freitag 5.12.2008
Wir wollen nun noch kurz begründen, warum der Algorithmus zur Berechnung der
inversen Matrix funktioniert. Hierzu wollen wir uns klarmachen, dass die drei elementaren Zeilenumformungen sich durch Multiplikation mit geeigneten Matrizen von links
realisieren lassen. Wir haben zum Beispiel




1 λ 0 ··· 0
a11 · · · a1n
 0 1 0 ··· 0 
  .

.. 
...
 .. .. .. . . ..  ·  ..
. 
 . . .
. . 
am1 · · · amn
0 0 0 ··· 1


a11 + λa21 a12 + λa22 · · · a1n + λa2n


a21
a22
···
a2n


=
,
..
..
.
.
.
.


.
.
.
.
am1
am2
···
amn
ist also P die links stehende Matrix, so entsteht die Matrix P A aus A durch Addition
des λ-fachen der zweiten Zeile zur ersten Zeile. Analog erhalten wir auch eine Matrix
P so, dass P A aus A durch Addition eines Vielfachen der i-ten Zeile zur j-ten Zeile
entsteht. Vertauschen zweier Zeilen sowie die Multiplikation einer Zeile mit einer Zahl
λ 6= 0 lassen sich ebenfalls durch Matrixmultiplikation bewirken, wie etwa in den
folgenden Beispielen gezeigt wird






0 1 0 ··· 0
a21 a22 · · · a2n
a11 · · · a1n
 1 0 0 ··· 0 



  ..
  a11 a12 · · · a1n 
.
.
.
.
 .. .. .. . . ..  ·  .
.
.
.. . .
.. 
. =
 ..
 . . .
. . 
.
.
. 
am1 · · · amn
0 0 0 ··· 1
am1 an2 · · · amn
und






λ
1
...
1



a11 · · · a1n


  ..
 
.
.
.
.
· .
.
. =


am1 · · · amn
λa11 λa12
a21 a22
..
..
.
.
am1 am2
· · · λa1n
· · · a2n
..
...
.
· · · amn



.

Also lassen sich sämtliche elementaren Zeilenoperationen durch Linksmultiplikation
mit geeigneten Matrizen bewirken. Damit ist es nun leicht unseren Algorithmus zu
rechtfertigen. Formen wir A in t Schritten durch elementare Zeilenoperationen in die
Einheitsmatrix um, so gibt es Matrizen P1 , . . . , Pt , die diese Zeilenumformungen bewirken, und mit diesen gilt dann
Pt . . . P1 A = En ,
93
Mathematik für Ingenieure I, WS 2008/2009
Freitag 5.12.2008
beziehungsweise
A = P1−1 . . . Pt−1 .
Mit Satz 3.(b) folgt hieraus
A−1 = (Pt−1 )−1 . . . (P1−1 )−1 = Pt . . . P1 = Pt . . . P1 En .
Letzteres ist aber gerade die Anwendung der durch P1 , . . . , Pt vermittelten Zeilenumformungen auf die Einheitsmatrix, d.h. A−1 geht aus En durch dieselben Zeilenumformungen hervor, die A in die Einheitsmatrix überführt haben. Dies ist aber gerade
unser Algorithmus zur Inversion der Matrix A.
6.4
Transposition von Matrizen
Zum Abschluß dieses Abschnitts wollen wir kurz eine weitere der üblichen algebraischen
Operationen mit Matrizen einführen.
Definition 6.5: Sei


a11 · · · a1n

.. 
..
A =  ...
.
. 
am1 · · · amn
eine m × n Matrix. Die Transponierte At von A ist dann die n × m Matrix


a11 · · · am1

..  ,
At :=  ... . . .
. 
a1n · · · amn
deren Zeilen gerade die Spalten von A sind.
Beispielsweise ist

1
1 −1 0 2
 −1
 2
4 7 1  =
 0
−3 −5 7 11
2

t

2 −3
4 −5 
.
7
7 
1 11
Auch die Matrixtransposition erfüllt einige einfache Rechenregeln:
Satz 6.5 (Rechenregeln für die Transposition)
Seien n, m, l ∈ N drei natürliche Zahlen.
(a) Für jedes m × n Matrix A gilt (At )t = A.
(b) Sind A, B zwei m × n Matrizen, so gilt (A + B)t = At + B t .
(c) Sind A eine m × n Matrix und c ∈ K eine Zahl, so gilt (cA)t = cAt .
(d) Sind A eine m × l und B eine l × n Matrix, so gilt (AB)t = B t At .
94
Mathematik für Ingenieure I, WS 2008/2009
Freitag 5.12.2008
(e) Ist A eine invertierbare n × n Matrix, so ist auch At invertierbar, und es gilt
(At )−1 = (A−1 )t .
Beweis: (a,b,c) Diese Aussagen sind klar.
(d) Da B t eine n × l und At eine l × m Matrix sind, sind (AB)t und B t At beides n × m
Matrizen. Für alle 1 ≤ i ≤ n, 1 ≤ j ≤ m ergibt sich der Eintrag in der i-ten Zeile und
der j-ten Spalte zu
t
t
(B A )ij =
l
X
t
Bik
Atkj
=
k=1
l
X
Ajk Bki = (AB)ji = (AB)tij ,
k=1
d.h. es gilt tatsächlich (AB)t = B t At .
(e) Mit Teil (d) rechnen wir
At · (A−1 )t = (A−1 A)t = Ent = En ,
und ebenso (A−1 )t At = En . Damit ist At invertierbar und es gilt (At )−1 = (A−1 )t .
Aufgrund von Teil (e) dieses Satzes können wir für eine invertierbare n × n Matrix A
auch einfach
A−t := (A−1 )t = (At )−1
schreiben.
$Id: vektor.tex,v 1.6 2015/10/20 16:17:45 hk Exp $
§7
Vektorräume
Abstrakte Vektorräume sind eine Verallgemeinerung der bereits betrachteten Vektorräume K n , also Rn und Cn . Wie in den bisherigen Abschnitten steht K wieder für
die reellen oder die komplexen Zahlen. In diesem Semester werden wir es ausschließlich
mit Teilräumen von Rn oder Cn zu tun haben, aber später werden auch andere Sorten
von Vektorräumen, wie etwa Räume von Funktionen, eine Rolle spielen.
7.1
Der Vektorraumbegriff
Definition 7.1: Ein Vektorraum über K besteht aus einer Menge V , deren Elemente
dann Vektoren genannt werden, versehen mit zwei Abbildungen
+ : V × V → V ; (x, y) 7→ x + y
95
Mathematik für Ingenieure I, WS 2008/2009
Freitag 5.12.2008
und
· : K × V → V ; (λ, x) 7→ λx,
die die folgenden Vektorraumaxiome erfüllen:
(a) Assoziativgesetz der Addition Für alle x, y, z ∈ V gilt (x+y)+z = x+(y +z).
(b) Kommutativgesetz der Addition Für alle x, y ∈ V gilt x + y = y + x.
(c) Existenz der Null Es gibt ein Element 0 ∈ V mit 0 + x = x für alle x ∈ V .
(d) Existenz additiver Inverser Für jedes x ∈ V existiert ein −x ∈ V mit (−x) +
x = 0.
(e) Assoziativgesetz der Multiplikation Für alle λ, µ ∈ K und alle x ∈ V gilt
λ(µx) = (λµ)x.
(f ) Multiplikation mit Eins Für jedes x ∈ V gilt 1 · x = x.
(g) Distributivgesetz für Vektoren Für alle λ ∈ K und alle x, y ∈ V gilt λ(x+y) =
λx + λy.
(h) Distributivgesetz für Skalare Für alle λ, µ ∈ K, x ∈ V gilt (λ+µ)x = λx+µx.
Aus den angegebenen Vektorraumaxiomen kann man nun all die üblichen Rechenregeln
herleiten, also Dinge wie die Eindeutigkeit von 0 und −x für x ∈ V , die Formeln 0·x = 0
und −x = (−1) · x für jeden Vektor x und so weiter. Wie schon öfters in diesem Skript
wollen wir diese Herleitungen hier nicht weiter durchgehen, sondern einfach glauben,
dass sich in allgemeinen Vektorräumen wie gewohnt rechnen läßt.
Wir wollen jetzt lieber ein Paar Beispiele von Vektorräumen durchgehen. Das Urbeispiel eines Vektorraums ist der Vektorraum K n der n-Tupel von Zahlen aus K, also
Rn oder Cn . Die Addition derartiger n-Tupel und die Multiplikation mit Skalaren hatten wir in §6 eingeführt, und sie sollte Ihnen auch aus der Schule bekannt sein. Ein
sehr ähnliches Beispiel eines Vektorraums ist die Menge





a11 · · · a1n 

 ..

.
.
.
.
Mm,n (K) :=  .
.
.  a11 , . . . , amn ∈ K 

 a

m1 · · · amn
aller m × n Matrizen über K, erneut mit der in §6 eingeführten Addition und Multiplikation mit Skalaren. Ein anderer wichtiger Typ von Vektorräumen sind Funktionsräume, also Mengen deren Elemente Funktionen sind. Ist M eine beliebige Menge,
so betrachten wir die Menge
K M := {f |f : M → K ist eine Abbildung}
96
Mathematik für Ingenieure I, WS 2008/2009
Freitag 5.12.2008
aller Abbildungen von M nach K. Die Elemente von K M können wir addieren, sind
f, g ∈ K M , so sind f und g Abbildungen von M nach K, und wir definieren die Summe
f + g dieser Abbildungen durch
f + g : M → K; x 7→ f (x) + g(x).
Ebenso können wir für eine Funktion f ∈ K M und eine Zahl c ∈ K eine neue Funktion
c · f : M → K durch
c · f : M → K; x 7→ cf (x)
definieren. Es ist leicht, aber etwas ermüdend, hier die Gültigkeit der Vektorraumaxiome vorzuführen, daher wollen wir uns dies wieder ersparen, beziehungsweise es uns als
eine Übungsaufgabe stellen.
Betrachten wir etwa ganz konkret den Fall K = M = R, so ist V := RR die Menge
aller reellen Funktionen f : R → R. Zum Beispiel sind die Sinusfunktion sin, der
Cosinus cos, die Exponentialfunktion exp dann Elemente des Vektorraums V , und wir
können Ausdrücke wie
√
f := sin + 2 · cos − 2 · exp
hinschreiben. Dies ist dann die Funktion
f : R → R; x 7→ sin x + 2 cos x −
√
2ex .
Hieran sieht man insbesondere, dass das Wort Vektor“ hier nur eine Rollenbeschrei”
bung der Elemente x ∈ V und keine intrinsische Eigenschaft der Elemente x ∈ V ist.
In unserem Vektorraum V = RR ist die Sinusfunktion sin selbst ein Vektor. Ebenso
sprechen wir im Zusammenhang mit Vektorräumen oft von Skalaren statt von Zahlen,
auch dies ist nur eine Rollenbezeichnung, Skalare sind einfach Zahlen, das andere Wort
wird nur verwendet um anzudeuten, dass wir sie an Vektoren heranzumultiplizieren
gedenken.
7.2
Untervektorräume
Die für uns wichtigste Quelle von Vektorräumen sind die Teilräume, oder auch Untervektorräume, von bereits vorhandenen Vektorräumen.
Definition 7.2: Sei V ein Vektorraum über K. Ein Teilraum von V ist eine Teilmenge
U ⊆ V mit den folgenden drei Eigenschaften:
(a) Es ist 0 ∈ U .
(b) Für alle x, y ∈ U ist auch x + y ∈ U .
(c) Für alle x ∈ U und jeden Skalar c ∈ K ist auch cx ∈ U .
97
Mathematik für Ingenieure I, WS 2008/2009
Freitag 5.12.2008
Ist U solch ein Teilraum, so können wir U selbst als einen Vektorraum über K betrachten, indem wir für + und · einfach die Addition und die Multiplikation von V verwenden. Synonym spricht man auch von einem Untervektorraum von V . Wir schreiben
auch U ≤ V für die Aussage U ist ein Teilraum von V “.
”
Gehen wir einige Beispiele von Teilräumen durch. Haben wir ein homogenes lineares
Gleichungssystem
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
am1 x1 + am2 x2
+ · · · + a1n xn = 0
+ · · · + a2n xn = 0
..
.
. = ..
+ · · · + amn xn = 0
über K, so ist die Menge U aller Lösungen dieses Gleichungssystems nach §6.Satz 2.(a)
ein Untervektorraum des Vektorraums K n . Tatsächlich kann überhaupt jeder Untervektorraum des K n so beschrieben werden, aber dies spielt für uns erstmal keine Rolle.
Wir wollen auch einmal naheliegende Beispiele für Unterräume von Funktionsräumen
angeben. Die Menge aller Polynome
K[x] := {x 7→ an xn + . . . + a1 x + a0 |n ∈ N0 , a0 , . . . , an ∈ K} ⊆ K K
ist ein Untervektorraum des Vektorraums K K aller Abbildungen f : K → K. Ebenso
haben wir die Menge
U := {f : R → R|Für jedes x ∈ R gilt f (x + 2π) = f (x)}
aller 2π-periodischen Funktionen R → R als Untervektorraum des Vektorraums aller
reellen Funktionen f : R → R.
Für unsere Zwecke entstehen Untervektorräume entweder als Lösungsmenge homogener linearer Gleichungssysteme oder als das sogenannte Erzeugnis gegebener Vektoren in einem Vektorraum. Diese Erzeugnisse und den damit verbundenen Begriff einer
Linearkombination wollen wir nun einführen.
Definition 7.3: Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißt ein weiterer
Vektor v ∈ V eine Linearkombination von v1 , . . . , vn , wenn es Skalare λ1 , . . . , λn ∈ K
mit
n
X
v = λ1 v 1 + . . . + λn v n =
λk v k
k=1
gibt. Die Menge aller Linearkombinationen von v1 , . . . , vn heißt das Erzeugnis, oder
auch der Aufspann, von v1 , . . . , vn , geschrieben als
( n
)
X
hv1 , . . . , vn i = span(v1 , . . . , vn ) :=
λk v k λ1 , . . . , λ n ∈ K .
k=1
Schließlich heißen v1 , . . . , vn ein Erzeugendensystem von V , wenn V = hv1 , . . . , vn i ist,
wenn also jeder Vektor v ∈ V Linearkombination von v1 , . . . , vn ist.
98
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
Vorlesung 14, Dienstag 9.12.2008
Für Vektoren v1 , . . . , vn im K m ist es uns leicht möglich zu entscheiden, ob ein weiterer
Vektor v eine Linearkombination der v1 , . . . , vn ist. Schreiben wir hierzu






a1n
a12
a11






v1 :=  ...  , v2 :=  ...  , . . . , vn :=  ...  ,
amn
am2
am1
so ist für alle x1 , . . . , xn stets





 

a12
a1n
a11 x1 + · · · + a1n xn
a11





 

..
x1 ·  ...  + x2 ·  ...  + · · · + xn ·  ...  = 

.
am1
am2
amn
am1 x1 + · · · + amn xn
also
wobei


x1


x1 v1 + · · · + xn vn = A ·  ...  ,
xn


a11 · · · a1n

..  ,
..
A :=  ...
.
. 
am1 · · · amn
die Matrix ist deren Spalten gerade die Vektoren v1 , . . . , vn sind. Damit ist ein Vektor
v ∈ K m genau dann eine Linearkombination der Vektoren v1 , . . . , vn wenn das lineare
Gleichungssystem Ax = v eine Lösung hat. Insbesondere können wir dies mit dem
Gaußschen Eliminationsverfahren effektiv entscheiden.
Wir wollen nun noch zwei Grundbeispiele von Erzeugendensystemen besprechen.
Der Tupelraum K n besitzt ein besonders einfaches Erzeugendensystem bestehend aus
den Vektoren
 
 
 
1
0
0
 0 
 1 
 0 
 
 
 
e1 :=  ..  , e2 :=  ..  , . . . , en :=  ..  ,
 . 
 . 
 . 
0
0
1
denn jeder Vektor x ∈ K n ist ja eine Linearkombination


 
 

x1
1
0
 x2 
 0 
 1 



 
 

x =  ..  = x1 ·  ..  + x2 ·  ..  + · · · + xn · 
 . 
 . 
 . 

xn
0
0
99
0
0
..
.
1

n
 X

xk ek .
=
 k=1
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
Ein weiteres Beispiel von Erzeugendensystemen kennen wir auch bereits aus unserer
Diskussion linearer Gleichungssysteme aus §5. Angenommen wir haben ein homogenes
lineares Gleichungssystem

a11 x1 + a12 x2 + · · · + a1n xn = 0 


a21 x1 + a22 x2 + · · · + a2n xn = 0 
(∗)
..
..
..
.

.
.
. = .. 

am1 x1 + am2 x2 + · · · + amn xn = 0 
und betrachten die Menge V seiner Lösungen. Wie bereits bemerkt ist V ein Teilraum
des K n , also selbst ein Vektorraum. Wenden wir nun das Gaußsche Eliminationsverfahren auf das lineare Gleichungssystem (∗) an, so erhalten wir ein äquivalentes lineares
Gleichungssystem
xi1 + c1,i1 +1 xi1 +1 + · · · + c1i2 xi2 + · · · + c1ir xir + · · · = 0
xi2
+ · · · + c2ir xir + · · · = 0
..
..
.
.
xir
+ · · · = 0,
dessen untere n−r nur aus Nullen bestehende Zeilen hier fortgelassen werden, d.h. r ist
die Anzahl der nach Anwendung des Gaußschen Eliminationsverfahrens verbleibenden
nicht trivialen Zeilen. Wir haben hier die Variante des Eliminationsverfahrens verwendet, die den führenden Eintrag jeder verbleibenden Zeile durch Multiplikation mit einer
Konstanten auf Eins bringt. Jede dieser r Zeilen legt eine der Unbekannten fest, d.h.
die Werte von xi1 , . . . , xir werden festgelegt während die anderen Unbekannten frei
bleiben. Dabei haben wir
xir = −cr,ir +1 xir +1 − · · · − crn xn ,
xir−1 = −cr−1,ir−1 +1 xir−1 +1 − · · · − cr−1,ir xir − cr−1,ir +1 xir +1 − · · · − cr1 ,n xn
= −cr−1,ir−1 +1 xir−1 +1 − · · · − (cr−1,ir +1 + cr−1,ir cr,ir +1 )xir +1
− · · · − (cr−1,n + cr−1,ir crn )xn
und so weiter. Benennen wir die frei bleibenden Unbekannten in t1 , . . . , tn−r um, so
können wir die allgemeine Lösung des homogenen linearen Gleichungssystems (∗) damit
in der Form
 
 
 
∗
∗
∗

. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 
 . 
 . 
 ∗ 
 .. 
 . 
 
 
 




1
x = t1 ·   + t2 ·  ∗  + · · · + tn−r ·  ... 
 
 ... 
 1 
 .. 
 
 
 . 
 . 
 . 
 
 .. 
 .. 
 ∗ 
0
0
1
100
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
schreiben. Damit wird der Lösungsraum des homogenen linearen Gleichungssystems (∗)
von diesen n − r Vektoren erzeugt. Dies sollte an einem kleinen Beispiel klarer werden.
Wir betrachten das folgende homogene lineare Gleichungssystem in den Unbekannten
x1 , . . . , x 6
x1
+ 2x4 − x5
=0
3x4
+ x6 = 0
Dieses ist bereits in Stufenform, wobei die Unbekannten x1 und x4 festgelegt sind,
während x2 , x3 , x5 und x6 frei bleiben. Wir haben
1
2
x4 = − x6 und x1 = x5 − 2x4 = x5 + x6 ,
3
3
benennen wir also die freien Unbekannten x2 , x3 , x5 , x6 in t1 , t2 , t3 , t4 um, so wird der
Lösungsraum dieses homogenen linearen Gleichungssystems zu



t3 + 23 t4 









t


1







t
2


t
,
t
,
t
,
t
∈
R
 − 1 t4  1 2 3 4


3










t


3




t4

 

 
0
0



 0 


 1 

 


 

 1 

 0 




= t1 ·   + t2 ·   + t3 · 


 0 


 0 


 0 
 0 




0
0
1
0
0
0
1
0


2
3

 0




 + t4 ·  01

 −

 3

 0
1












 t1 , t2 , t3 , t4 ∈ R .










Ein Erzeugendensystem des Lösungsraums besteht hier also aus den vier Vektoren
 
 
 2 
 
1
0
0
3
 0 
 0 
 0 
 1 

 
 

 
 1 
 0 
 0 
 0 







u1 =   , u 2 =   , u 3 =   , u 4 =  1 
.
 0 
 −3 
 0 
 0 
 0 
 0 
 0 
 1 
0
0
0
1
Zum Abschluß dieses Abschnitts wollen wir noch einige Tatsachen über Erzeugendensysteme in einem Satz zusammenfassen:
Satz 7.1 (Grundeigenschaften von Erzeugendensystemen)
Sei V ein Vektorraum über K.
(a) Sind v1 , . . . , vn beliebige Vektoren, so ist U := hv1 , . . . , vn i ein Teilraum von V und
v1 , . . . , vn ist ein Erzeugendensystem von U .
101
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
(b) Sind U ≤ V ein Teilraum und v1 , . . . , vn ∈ U , so ist auch hv1 , . . . , vn i ≤ U .
(c) Ist v1 , . . . , vn ein Erzeugendensystem von V und sind w1 , . . . , wm ∈ V so, daß vk
für jedes 1 ≤ k ≤ n eine Linearkombination von w1 , . . . , wm ist, so ist auch
w1 , . . . , wm ein Erzeugendensystem von V .
Diesen Satz wollen wir an dieser Stelle nicht beweisen, auch wenn dies nicht besonders
schwierig ist. Vor allen Teil (c) des Satzes ist oftmals sehr hilfreich. Wollen wir von
Vektoren v1 , . . . , vn nachweisen, das sie ein Erzeugendensystem von V sind, so reicht es
zu zeigen, dass die Elemente eines bereits bekannten Erzeugendensystems von V sich
als Linearkombinationen der v1 , . . . , vn schreiben lassen.
7.3
Lineare Unabhängigkeit, Basen und Dimension
Haben wir ein Erzeugendensystem v1 , . . . , vn des Vektorraums V , so können wir jeden
Vektor v ∈ V als eine Linearkombination
v = λ1 v 1 + · · · + λn v n
schreiben, aber leider ist diese Darstellung im Allgemeinen nicht eindeutig. Betrachten
wir zum Beispiel einmal im R2 die drei Vektoren
1
1
1
v1 =
, v2 =
und v3 =
.
1
−1
2
Wegen e1 = (1/2)(v1 + v2 ) und e2 = v3 − v1 sind v1 , v2 , v3 nach Satz 1.(c) ein Erzeugendensystem des R2 . In diesem können wir Vektoren auf mehrere Arten als Linearkombinationen schreiben, zum Beispiel ist
1
1
e2 = v3 − v1 = v1 − v2 .
2
2
Von besonderem Interesse sind nun natürlich diejenigen Erzeugendensysteme für die
die Darstellung anderer Vektoren als Linearkombinationen eindeutig ist. Die hierfür
zuständige Bedingung ist die sogenannte lineare Unabhängigkeit:
Definition 7.4: Sei V ein Vektorraum. Dann heißen die Vektoren v1 , . . . , vn linear
unabhängig, wenn für alle Skalare λ1 , . . . , λn ∈ K aus λ1 v1 + · · · + λn vn = 0 bereits
λ1 = · · · = λn = 0 folgt.
Die Vektoren v1 , v2 , v3 des obigen Beispiels sind dann nicht linear unabhängig, da ja
etwa
3
1
v1 − v2 − v3 = 0
2
2
gilt. Beachte das die lineare Unabhängigkeit auch die Eindeutigkeit der Koeffizienten
in einer Linearkombination bedeutet, sind nämlich λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit
λ 1 v 1 + · · · + λ n v n = µ1 v 1 + · · · + µn v n
102
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
so folgt auch
(λ1 − µ1 )v1 + · · · + (λn − µn )vn = 0,
und damit ist λk − µk = 0, also λk = µk , für alle k = 1, . . . , n. Sind v1 , . . . , vn Vektoren
in einem Vektorraum K m , so schreiben wir






a1n
a12
a11






v1 =  ...  , v2 =  ...  , . . . , vn =  ...  ,
amn
am2
am1
und haben


a11 λ1 + · · · + a1n λn


..
λ1 v 1 + · · · + λn v n = 
,
.
am1 λ1 + · · · + amn λn
d.h. die Vektoren v1 , . . . , vn sind genau dann linear unabhängig, wenn das homogene
lineare Gleichungssystem
+ · · · + a1n xn
..
.
= 0
..
.
am1 x1 + · · · + amn xn
= 0
a11 x1
..
.
nur die triviale Lösung hat. Diese Bedingung können wir rechnerisch noch etwas weiter
auswerten. Nehme hierzu wieder an, dass wir das Gaußsche Eliminationsverfahren mit
dem obigen homogenen linearen Gleichungssystem laufen lassen, und das dieses mit
einen System in Stufenform, das aus r Gleichungen 6= 0 besteht, endet. Dann sind r
der n Unbekannten durch das Gleichungssystem festgelegt, es hat also genau dann nur
die triviale Lösung wenn r = n ist. Damit gilt auch
v1 , . . . , vn sind linear unabhängig ⇐⇒
Das Gaußssche Eliminationsverfahren endet
mit n von Null verschiedenen Zeilen.
Wir wollen unsere Beispiele von Erzeugendensystemen aus dem vorigen Abschnitt auf
lineare Unabhängigkeit überprüfen. Starten wir mit den Vektoren e1 , . . . , en ∈ K n . Für
alle λ1 , . . . , λn ∈ K haben wir dann
 
 
  

1
0
0
λ1
n
 0 
 1 
 0   λ2 
X
 
 
  

λk ek = λ1  ..  + λ2  ..  + · · · + λn  ..  =  ..  ,







.
.
.
. 
k=1
0
0
1
λn
und damit folgt aus λ1 e1 +· · ·+λn en = 0 sofort λ1 = · · · = λn = 0. Damit sind e1 , . . . , en
linear unabhängig. Kommen wir nun zu den n − r Vektoren u1 , . . . , un−r , die den
Lösungsraum des homogenen linearen Gleichungssystems (∗) aufspannen. Auch diese
sind linear unabhängig. Seien nämlich λ1 , . . . , λn−r ∈ K mit λ1 u1 + · · · + λn−r un−r = 0
103
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
gegeben. Beachten wir nun, dass nur der letzte Vektor un−r in der untersten Zeile eine
Eins hat, während die restlichen Vektoren u1 , . . . , un−r−1 an dieser Stelle eine Null
haben, so haben wir


∗
n−r
 .. 
X


0=
λk u k =  .  ,
 ∗ 
k=1
λn−r
also ist zumindest λn−r = 0. Damit ist aber auch λ1 u1 +· · ·+λn−r−1 un−r−1 = 0. Schauen
wir uns dann beim jetzt letzten Vektor un−r−1 die unterste von Null verschiedene Zeile
an, so haben alle anderen Vektoren u1 , . . . , un−r−2 dort eine Null, und es folgt wieder
λn−r−1 = 0. So fortfahrend erhalten wir schließlich λn−r = λn−r−1 = · · · = λ1 = 0. Damit sind u1 , . . . , un−r tatsächlich linear unabhängig, und somit wird der Lösungsraum
eines homogenen linearen Gleichungssystems von n − r linear unabhängigen Vektoren
erzeugt, wobei r wieder die Anzahl der nach dem Gaußschen Eliminationsverfahren
verbleibenden von Null verschiedenen Zeilen bezeichnet.
Satz 7.2 (Grundeigenschaften der linearen Unabhängigkeit)
Seien V ein Vektorraum und v1 , . . . , vn ∈ V . Die folgenden Aussagen sind äquivalent:
1. Die Vektoren v1 , . . . , vn sind linear unabhängig.
2. Kein vi ist eine Linearkombination der anderen, d.h. für jedes 1 ≤ i ≤ n ist
vi ∈
/ hv1 , . . . , vbi , . . . , vn i.
3. Für jedes 1 ≤ i ≤ n ist vi ∈
/ hv1 , . . . , vi−1 i.
Diesen Satz wollen wir an dieser Stelle nicht mehr beweisen. Nennen wir die Vektoren
v1 , . . . , vn linear abhängig, wenn sie nicht linear unabhängig sind, so besagt der Satz,
dass v1 , . . . , vn genau dann linear abhängig sind, wenn für einen der Vektoren vi die
Bedingung vi ∈ hv1 , . . . , vbi , . . . , vn i erfüllt ist, d.h. wenn sich ein vi als Linearkombination der anderen vj schreiben läßt. Entsprechend sagt man häufig auch anstelle von v
”
ist eine Linearkombination von v1 , . . . , vn“ das v von v1 , . . . , vn linear abhängt“.
”
Ist v1 , . . . , vn ein Erzeugendensystem des Vektorraums V , so läßt sich jedes v ∈ V
als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, und sind die v1 , . . . , vn
zusätzlich linear unabhängig, so sind die Koeffizienten λ1 , . . . , λn in dieser Linearkombination eindeutig bestimmt. In dieser Situation sprechen wir dann von einer Basis des
Vektorraums V .
Definition 7.5: Sei V ein Vektorraum. Eine Basis von V ist ein linear unabhängiges
Erzeugendensystem v1 , . . . , vn von V .
Mit Satz 2.(b) folgt, dass die Basen von V genau die minimalen Erzeugendensysteme
und auch genau die maximalen linear unabhängigen Systeme sind, d.h. für Vektoren
v1 , . . . , vn ∈ V bestehen die Äquivalenzen
v1 , . . . , vn ist Basis von V
⇐⇒ v1 , . . . , vn sind ein minimales Erzeugendensystem
⇐⇒ v1 , . . . , vn sind maximal linear unabhängig in V .
104
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
Gibt es also überhaupt ein Erzeugendensystem v1 , . . . , vn von V , so können wir aus
diesem nach Satz 1.(c) und Satz 2 solange Vektoren rauswerfen, die von den anderen
linear abhängig sind, bis wir zu einem linear unabhängigen Erzeugendensystem, d.h.
zu einer Basis von V , kommen. Damit haben wir zumindest einen Teil des folgenden
grundlegenden Satzes eingesehen:
Satz 7.3 (Existenz von Basen und Dimension)
Jeder von endlich vielen Vektoren erzeugte Vektorraum V besitzt eine Basis, und je
zwei Basen von V bestehen aus gleich vielen Elementen.
Die erste dieser beiden Aussagen haben wir eben gerade eingesehen, und die zweite,
also die Eindeutigkeit der Zahl der Elemente einer Basis, wollen wir hier ohne einen
Beweis hinnehmen. Die nach dem Satz eindeutig bestimmte Länge einer Basis von V
wird als die Dimension des Vektorraums V bezeichnet.
Definition 7.6: Sei V ein Vektorraum. Wir nennen V endlich erzeugt, wenn es ein
Erzeugendensystem v1 , . . . , vn von V gibt. In diesem Fall wird die eindeutige Anzahl
der Elemente einer Basis von V als die Dimension von V bezeichnet. Wir schreiben
auch dim V für diese Zahl.
Die oben eingeführten Vektoren e1 , . . . , en ∈ K n sind ein linear unabhängiges Erzeugendensystem des K n , also eine Basis. Diese Basis wird auch als die kanonische Basis
des K n bezeichnet. Da die kanonische Basis aus n Elementen besteht ist insbesondere
dim K n = n. Ist
a11 x1 + a12 x2 + · · · + a1n xn = 0
a21 x1 + a22 x2 + · · · + a2n xn = 0
..
..
..
.
.
.
. = ..
am1 x1 + am2 x2 + · · · + amn xn = 0
ein homogenes lineares Gleichungssystem, und verbleiben nach Ablauf des Gaußschen
Eliminationsverfahrens r von Null verschiedene Zeilen, so haben wir oben eingesehen,
dass das Eliminationsverfahren uns dann ein Erzeugendensystem des Lösungsraums
U des Gleichungssystems liefert, das aus n − r linear unabhängigen Vektoren besteht.
Dieses Erzeugendensystem ist dann eine Basis von U , und insbesondere ist dim U =
n − r.
Eine weitere kleine Beobachtung ist rechnerisch oftmals sehr nützlich. Angenommen
wir haben einen Vektorraum V und n Vektoren v1 , . . . , vn ∈ V . Weiter nehmen wir an,
dass wir bereits n = dim V wissen. Ist v1 , . . . , vn ein Erzeugendensystem von V , so
können wir einige Vektoren aus v1 , . . . , vn entfernen und erhalten eine Basis von V .
Ist t die Anzahl der entfernten Vektoren, so ist n = dim V = n − t, also t = 0 und
v1 , . . . , vn ist eine Basis von V . Nun nehme an, dass v1 , . . . , vn linear unabhängig sind.
Dann können wir das System um t ≥ 0 Vektoren vergrößern so, dass ein maximal
linear unabhängiges System von Vektoren von V entsteht. Dieses ist dann eine Basis
von V , und somit n = dim V = n + t und es ist wieder t = 0. Damit ist v1 , . . . , vn
selbst eine Basis von V . Bei n = dim V vielen Vektoren reicht es also eine der beiden
Bedingungen an eine Basis zu überprüfen, d.h. entweder lineare Unabhängigkeit oder
105
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 9.12.2008
Erzeugendensystem, und dann handelt es sich bereits um eine Basis. Sind insbesondere






a1n
a12
a11






v1 =  ...  , v2 =  ...  , . . . , vn =  ...  ,
ann
an2
an1
n Vektoren im K n , so ist v1 , . . . , vn genau dann eine Basis des K n , wenn das homogene
lineare Gleichungssystem
+ · · · + a1n xn
..
.
= 0
..
.
am1 x1 + · · · + amn xn
= 0
a11 x1
..
.
nur die triviale Lösung hat, und wie bereits gezeigt ist dies weiter genau dann der
Fall wenn das Gaußsche Eliminationsverfahren angewendet auf die n × n Matrix mit
den Spalten v1 , . . . , vn bis zur untersten Zeile durchläuft, also n von Null verschiedene
Zeilen liefert. Wir wollen dies an einem kleinen Beispiel im R3 illustrieren. Betrachte
etwa die drei Vektoren






1
−1
0
v1 :=  −1  , v2 :=  −1  , v3 :=  3  .
0
1
−1
Um zu überprüfen, ob diese eine Basis sind können wir also die Matrix A mit Spalten v1 , v2 , v3 hinschreiben, und lassen dann das Gaußsche Eliminationsverfahren auf A
laufen. Kommt dieses bei der untersten Zeile an, tritt also vorher keine nur aus Nullen bestehende Zeile auf, so sind die drei Vektoren eine Basis des R3 und sonst nicht.
Führen wir dies einmal durch
1 −1
0
1 −1
0
1 −1
−1 −1
3 → 0 −2
3 → 0 −2
0
1 −1
0
1 −1
0
0
0
3
1
.
2
Die Stufenform hat also drei von Null verschiedene Zeilen, und somit bilden v1 , v2 , v3
eine Basis des R3 .
Definition 7.7: Sei V ein Vektorraum mit einer Basis v1 , . . . , vn . Dann hat jeder Vektor
v ∈ V eine eindeutige Darstellung v = x1 v1 + · · · + xn vn mit x1 , . . . , xn ∈ K. Damit ist
die Abbildung
n
X
n
Ψ : K → V ; x 7→
xk vk
k=1
bijektiv, und wir nennen Ψ die Koordinatenabbildung bezüglich der Basis v1 , . . . , vn
von V .
Sind v1 , . . . , vn eine Basis eines Vektorraums V und v ∈ V ein Vektor in V , so müssen
wir also v als eine Linearkombination in v1 , . . . , vn schreiben, d.h. v = x1 v1 + · · · +
106
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
xn vn und die Zahlen x1 , . . . , xn sind dann die Koordinaten von v bezüglich der Basis
v1 , . . . , vn von V .
Betrachten wir etwa die im obigen Beispiel verwendete Basis v1 , v2 , v3 des R3 und
wollen die Koordinaten des Vektors


0
v= 4 
−1
bezüglich dieser Basis bestimmen, so müssen wir v als eine Linearkombination in den
Elementen der Basis schreiben, was in diesem Beispiel durch
v1 + v2 + 2v3 = v
erreicht wird. Die Koordinaten von v bezüglich der Basis v1 , v2 , v3 sind hier also (1, 1, 2).
Bezüglich verschiedener Basen hat ein und derselbe Vektor in der Regel verschiedene
Koordinaten. Beispielsweise hat unser obiges v bezüglich der kanonischen Basis des R3
die Koordinaten (0, 4, −1) aber bezüglich der Basis v1 , v2 , v3 die Koordinaten (1, 1, 2).
Es ist nun oftmals wichtig die Koordinaten eines Vektors bezüglich einer Basis in die
Koordinaten desselben Vektors bezüglich einer anderen Basis umrechnen zu können.
Dieses wird durch die sogenannten Transformationsmatrizen geleistet.
Seien also V ein Vektorraum und v1 , . . . , vn sowie w1 , . . . , wn zwei Basen P
von V . Für
jedes 1 ≤ i ≤ n können wir dann vi bezüglich der Basis w1 , . . . , wn als vi = nj=1 aji wj
mit a1i , . . . , ani ∈ K schreiben, und mit diesen Zahlen bilden wir die Matrix


a11 · · · a1n


A :=  ... . . . ...  .
an1 · · · ann
Diese Matrix ist dann die Transformationsmatrix von der Basis v1 , . . . , vn zur Basis
w1 , . . . , wn von V . Für jedes x ∈ K n gilt dabei die Formel
Ψv (x) = Ψw (Ax)
wobei Ψv , Ψw : K n → V die Koordinatenabbildungen bezüglich der Basen v1 , . . . , vn
beziehungsweise w1 , . . . , wn von V sind. Hat also ein Vektor v ∈ V bezüglich der Basis
v1 , . . . , vn den Koordinatenvektor x, gilt also Ψv (x) = v, so ist auch v = Ψv (x) =
Ψw (Ax), d.h. der Koordinatenvektor von v bezüglich der Basis w1 , . . . , wn von V ist
Ax. Die Transformationsmatrix A ist immer invertierbar und ihre Inverse A−1 ist gerade
die Transformationsmatrix in der anderen Richtung, also von der Basis w1 , . . . , wn von
V zur Basis v1 , . . . , vn von V .
Vorlesung 15, Freitag 12.12.2008
107
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
Wir wollen jetzt die bisher eingeführten Begriffe im Spezialfall des Vektorraums
V = K m , also für Spaltenvektoren der Länge m, noch einmal zusammenfassen. Gegeben
seien also n Vektoren






a1n
a12
a11






v1 =  ...  , v2 =  ...  , . . . , vn =  ...  ,
amn
am2
am1
mit jeweils m Einträgen. Wir bilden dann die m × n Matrix A, deren Spalten gerade
unsere Vektoren v1 , . . . , vn sind. Weiter bezeichne r wieder die Anzahl der von Null
verschiedenen Zeilen der durch den Gaußschen Algorithmus aus A erhalten Matrix in
Stufenform. Dann haben wir die folgenden Entscheidungskriterien:
Aufgabe
Sind v1 , . . . , vn linear unabhängig?
Sind v1 , . . . , vn ein Erzeugendensystem des K m ?
Ist v ∈ hv1 , . . . , vn i (für einen weiteren Vektor v ∈ K m )?
Ist v1 , . . . , vn eine Basis des K m ?
Kriterium
r=n
r=m
Ax=v ist lösbar
m=n=r
Für die meisten dieser Problemstellungen gibt es ein notwendiges Kriterium, das erfüllte sein muss damit die Aussage auch nur eine Chance hat wahr zu sein. Die Vektoren v1 , . . . , vn können höchstens dann linear unabhängig sein wenn n ≤ m ist, und sie
können höchstens dann ein Erzeugendensystem des K m sein, wenn n ≥ m sein. Schließlich kann v1 , . . . , vn höchstens dann eine Basis des K m sein, wenn m = n ist. Beachte
das wir für die meisten der obigen Problemstellungen die aus A erhaltene Matrix in
Stufenform gar nicht brauchen, nur die Anzahl r ihrer von Null verschiedenen Zeilen
spielt eine Rolle.
Wie kommen nun zur Diskussion der Transformationsmatrizen zurück, und zwar
im Spezialfall von Spaltenvektoren im K m . Die Koordinaten x1 , . . . , xn eines Vektors v
bezüglich einer Basis v1 , . . . , vn waren definitionsgemäß diejenigen Zahlen x1 , . . . , xn ∈
K mit v = x1 v1 + · · · + xn vn . Im besonders wichtigen Spezialfall der kanonischen Basis
e1 , . . . , en des K n haben wir
 
 


1
0
x1
 0 
 .. 
 
  

x1 e1 + · · · + xn en = x1 ·  ..  + xn ·  .  =  ...  ,
 . 
 0 
xn
0
1
d.h. die Koordinaten bezüglich der kanonischen Basis des K n sind genau die Einträge
des betreffenden Vektors.
Wir wollen nun im R2 die Koordinatentransformation von einer um den Winkel φ im
Gegenuhrzeigersinn zur kanonischen Basis e1 , e2 gedrehten Basis v1 , v2 zur kanonischen
Basis des R2 beschreiben. Hierzu müssen wir zunächst die Koordinaten der Vektoren
v1 , v2 bezüglich der kanonischen Basis des R2 bestimmen, und wir gerade eben gesehen
sind dies gerade die kartesischen x- und y-Koordinaten dieser Vektoren.
108
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
Diese haben wir aber bereits bei der Beschreibung
v
der Polarkoordinaten in §4 bestimmt. Betrachten wir die
beiden im nebenstehenden Bild zu sehenden rechtwinkligen Dreiecke mit Hypothenusenlänge 1 und Winkel φ,
so sind die x- und y-Koordinaten von v1 die Ankathete beziehungsweise die Gegenkathete zum Winkel φ im
rechten Dreieck. Im linken Dreieck dagegen sind die yKoordinate von v2 die Ankathete und die Gegenkathete
ist das Negative der x-Koordinate von v2 . Wir haben also
cos φ
v1 =
= cos φ · e1 + sin φ · e2 ,
sin φ − sin φ
v2 =
= − sin φ · e1 + cos φ · e2 .
cos φ
e2
2
v1
e1
Die Transformationsmatrix A von der kanonischen Basis e1 , e2 zur Basis v1 , v2 erhalten
wir nun indem wir die Koordinaten von v1 , v2 bezüglich der kanonischen Basis des R2
als Spalten in die Matrix A eintragen, d.h. die Transformationsmatrix entsteht indem
wir die obigen Spaltenvektoren als Spalten der Matrix A nebeneinanderschreiben, und
somit ist
cos φ − sin φ
A=
.
sin φ
cos φ
Daher bezeichnet man Matrizen dieser Form auch als Drehmatrizen“. Die Transfor”
mationsmatrix von der gedrehten Basis v1 , v2 zur kanonischen Basis e1 , e2 ist dann die
inverse Matrix A−1 . Erinnern wir uns an die Formel für die Inverse einer 2 × 2 Matrix
aus §6
−1
1
a b
d −b
=
,
c d
a
ad − bc −c
so erhalten wir für die Transformationsmatrix von der Basis v1 , v2 zur Basis e1 , e2 die
Formel
1
cos φ sin φ
cos φ sin φ
−1
=
.
A =
− sin φ cos φ
cos2 φ + sin2 φ − sin φ cos φ
Die Matrix A−1 ist damit übrigens selbst eine Drehmatrix, nämlich die Drehmatrix
zum Winkel −φ.
Wir wollen noch ein zweites Beispiel einer Koordinatentransformation im R2 diskutieren, eine sogenannte Scherung. Bei dieser gehen wir zu einer neuen Basis v1 , v2
des R2 über, bei der v1 = e1 ist aber v2 aus e2 durch eine Verschiebung parallel zur
x-Achse entsteht, also
1
v1 =
= e1
0 t
v2 =
= te1 + e2
1
mit einer Konstante t ∈ R.
109
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
Im nebenstehenden Bild ist dabei t = 1/2. Die Transformationsmatrix von der Basis e1 , e2 zur gescherten Basis v1 , v2 ist diesmal gegeben durch
1 t
A=
,
0 1
und die Transformationsmatrix in der anderen Richtung
von v1 , v2 nach e1 , e2 wird zu
A
−1
=
1 t
0 1
−1
=
1 −t
0 1
e2 t
v2
v1= e 1
.
Die obige Matrix A wird daher auch oft als eine Scherungsmatrix bezeichnet. Ein
weiterer häufig verwendeter Typ von Koordinatentransformation sind Skalierungen,
dort gehen wir zu einer Basis der Form v1 = ae1 , v2 = be2 mit Konstanten a, b > 0 über.
Eine kleine Übersicht dieser Basiswechsel wird durch die folgende Graphik gegeben:
Ing I
Ing I
Skaliert
Scherung
I
g
In
Ing I
Standard
Rotiert
Eine typische Anwendung von Koordinatentransforp3
mationen besteht in der Wahl einer geeigneten Basis, die
die anschließenden Rechnungen oder sonstigen Überles1
gungen dann einfacher macht. Als ein Beispiel für ein
s2
derartiges Vorgehen wollen wir zeigen, daß sich die Seip2
tenhalbierenden eines Dreiecks in einem Punkt schneis3
den. Dabei geht es uns hier nur um die Methode des p
1
Beweises, die Tatsache an sich ist für uns nicht weiter
wichtig, und sie sollte Ihnen auch bekannt sein. Gegeben
sei also ein Dreieck mit den Ecken p1 , p2 , p3 . Ist {i, j, k} = {1, 2, 3} so bezeichne si
110
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
den Mittelpunkt der Strecke zwischen pj und pk , also si = (pj + pk )/2. Die zugehörige
Seitenhalbierende ist dann die Verbindungsgerade von si mit pi , also die Menge
li := {pi + t · (si − pi )|t ∈ R}.
Durch Translation können wir annehmen, dass einer der drei Eckpunkte der Nullpunkt
ist, also etwa p1 = 0. Nun könnten wir ansetzen p2 = (x, y) und p3 = (u, v) und den
fraglichen Schnittpunkt einfach ausrechnen. Durch die Wahl einer geeigneten Basis
können wir dies aber noch einfacher machen. Da die drei Punkte p1 , p2 , p3 aber nicht
auf einer Geraden liegen, ist p3 kein Vielfaches von p2 und somit ist p2 , p3 , und damit
auch v1 := p2 /2, v2 := p3 /2 eine Basis des R2 . Gehen wir zu Koordinaten bezüglich der
Basis v1 , v2 des R2 über, so wird
2
0
p2 = 2v1 =
. p3 = 2v2 =
.
0
2
Damit werden s2 = (p1 + p3 )/2 = v2 und s3 = (p1 + p2 )/2 = v1 sowie s1 = (p2 + p3 )/2 =
v1 + v2 , also
1
0
1
s1 =
, s2 =
, s3 =
.
1
1
0
Wir wollen nun zeigen, dass der Punkt s := (2/3) · (v1 + v2 ) auf allen drei Seitenhalbierenden liegt, und somit der Schnittpunkt dieser drei Geraden ist. Zu diesem Zweck
rechnen wir
2 2
2
0
1
0
3
p1 + (s1 − p1 ) =
+ ·
−
=
=s
2
0
1
0
3
3
3
2 2
2
2
0
2
3
p2 + (s2 − p2 ) =
=s
+ ·
−
=
2
0
1
0
3
3
3
2 2
2
0
1
0
3
p3 + (s3 − p3 ) =
+ ·
−
=
= s.
2
2
0
2
3
3
3
Damit ist diese Aussage bewiesen. Beachte, dass hier nicht nur ein Spezialfall nachgerechnet wurde, durch geeignete Wahl einer Basis des R2 hat jedes Dreieck die hier
behandelte Gestalt.
Wir wollen noch kurz eine weitere typische Anwendung von Transformationsmatrizen besprechen, die allerdings nicht viel mit Mathematik zu tun hat. Transformationsmatrizen, beziehungsweise die zugehörigen Basistransformationen, werden oft als
ein Element in der Computergraphik verwendet. Typischerweise verwaltet eine Graphik API (das ist die übliche Abkürzung für Application Programming Interface) eine
aktuelle Transformationsmatrix, und alle an die API übergebenen Koordinaten werden mit dieser Transformationsmatrix multipliziert bevor sie weiter verwendet werden.
In anderen Worten sind die angegebenen Koordinaten bezüglich der durch die Transformationsmatrix gegebenen Basis des R2 , und nicht bezüglich der kanonischen Basis
des R2 , d.h. es sind keine kartesischen Koordinaten. Dabei enthält die Transformation
111
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
normalerweise auch noch einen Translationsanteil, den wir in dieser Diskussion aber
ignorieren wollen. Spezielle Beispiele solcher APIs sind alle auf das Graphikmodel von
Postscript aufsetzenden APIs, etwa das CoreGraphics Framework oder der Postscript
Nachfolger PDF. Entsprechendes gibt es dann auch für dreidimensionale Graphik APIs,
etwa die Modelview Matrix bei OpenGL, aber hier werden die Dinge dann durch die
notwendige Projektion ins Zweidimensionale noch etwas komplizierter.
Um an dieser Stelle einmal ein direktes Beispiel zum Einsatz von Transformationsmatrizen in der Computergraphik zu sehen, wollen wir hier die Erzeugung des oben
gezeigten Übersichtsbilds zu Drehungen, Scherungen und so weiter, durchgehen. Wir
geben hier zunächst das vollständige Postscript Programm zum Ausdruck dieses Bildes an, und besprechen dann anschließend einige seiner Details. Es geht uns hier um
Koordinatentransformationen, und nicht um Postscript selbst, daher können Sie das
folgende Programm ohne schädliche Folgen ignorieren. Wir verwenden hier Postscript
da es so am einfachsten ist, ein für sich selbst stehendes Programm hinzuschreiben, das
keine weitere Anbindung an irgendwelche sonstigen APIs benötigt.
%!PS-Adobe-2.0 EPSF-2.0
%%BoundingBox: 5 5 420 420
%%EndComments
/tickheight
8 def
/tickwidth
16 def
/tickcount
24 def
/ingoffset
64 def
/ingheight
144 def
/inglines
0 def
/squarewidth 48 def
/total
400 def
/axis {
newpath
0 0 moveto
tickwidth tickcount mul 0 lineto
0 tickheight -2 div moveto
tickcount {
tickwidth 0 rmoveto
0 tickheight rlineto 0 tickheight neg rmoveto
} repeat stroke } def
/square {
0.8 setgray
newpath 0 0 moveto squarewidth dup dup dup
0 rlineto 0 exch rlineto neg 0 rlineto neg 0 exch rlineto
closepath fill 0 setgray } def
/axes { axis 90 rotate axis -90 rotate square } def
/stringdims {
newpath 0 0 moveto
112
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
true charpath flattenpath pathbbox
exch 4 -1 roll sub 3 1 roll exch
dup 0 lt { pop 0 } if sub
} def
/ing {
(Ing I) dup stringdims 3 -1 roll
newpath ingoffset ingoffset moveto
true charpath stroke
newpath
ingoffset ingoffset moveto
inglines dup 0 eq { pop 1 } if div inglines 1 add {
exch dup dup 0 rlineto neg 0 rmoveto
exch dup 0 exch rmoveto
} repeat stroke } def
/drawing {
/Times-Roman findfont ingheight scalefont setfont
axes ing } def
/center {
/Helvetica findfont 18 scalefont setfont
dup stringwidth pop total 2 div exch sub
dup 0 lt { pop 0 } if 2 div 4 moveto show
} def
/quadrant {
gsave
total 2 div dup 4 -1 roll mul 3 1 roll mul translate center
total 2 div dup dup dup dup newpath
0 0 moveto 0 rlineto 0 exch rlineto neg 0 rlineto neg 0 exch rlineto
closepath clip 8 div dup translate 0.35 0.35 scale exec drawing
grestore } def
10 10 translate
newpath
0 0 moveto
total 0 lineto
total total lineto
0 total lineto
0 0 lineto
total 2 div dup dup dup 0 moveto
total lineto
0 exch moveto
total exch lineto stroke
{ } (Standard) 0 0 quadrant
{ 30 rotate } (Rotiert) 1 0 quadrant
{ 1 3 scale } (Skaliert) 0 1 quadrant
113
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
{ [1 0 1 1 0 0] concat } (Scherung) 1 1 quadrant
showpage
Das eigentliche Zeichnen der vier Teilbilder wird hier durch die vier Zeilen vor dem
abschließenden showpage bewirkt. Jede dieser Zeilen hat die allgemeine Gestalt
{ setup } (Beschriftung) x y quadrant
und dabei ist quadrant eine Funktion, die mit den vorstehenden Parametern aufgerufen
wird. Die Zahlen x, y stehen für den zu zeichnenden Quadranten, (0,0) für das linke
untere Quadrat, (0,1) für das linke obere Quadrat und so weiter. Postscript ist eine
stack-orientierte Sprache, die vier Parameter werden auf den Stack geworfen und dort
von quadrant verwendet. Die Funktion quadrant ist wie folgt definiert
/quadrant {
gsave
total 2 div dup 4 -1 roll mul 3 1 roll mul translate center
total 2 div dup dup dup dup newpath
0 0 moveto 0 rlineto 0 exch rlineto neg 0 rlineto neg 0 exch rlineto
closepath clip 8 div dup translate 0.35 0.35 scale exec drawing
grestore } def
Die ersten beiden Zeilen können wir hier ignorieren. In der dritten Zeile wird der
Koordinatenursprung auf die linke untere Ecke des zu zeichnenden Quadranten verschoben und anschließend die weiter oben definierte Funktion center aufgerufen, um
die Bildunterschrift zentriert zu setzen. Anschließend wird die Clipping Area auf den
zu zeichnenden Quadranten begrenzt, d.h. es wird nur noch in diesem Bereich gezeichnet. So wird zum Beispiel vermieden das der überstehende Teil des rotierten Bildes ins
Nachbarbild hereinragt. Nun kommt der uns hier eigentlich interessierende Teil. Der
Befehl exec führt das an quadrant übergebene Setup Argument aus, und anschließend erledigt die Funktion drawing die eigentliche Zeichnung. Die Funktion drawing
zeichnet immer dasselbe, völlig egal in welchem Quadranten wir uns gerade befinden.
Der Unterschied zwischen den vier Teilbildern entsteht ausschließlich durch die vorgeschaltete Koordinatentransformation. Die Transformation des Scherungsbildes wird
zum Beispiel durch
[1 0 1 1 0 0] concat
erreicht. Dabei steht der Ausdruck in eckigen Klammern für die Scherungsmatrix
1 1
,
0 1
wobei die abschließenden beiden Nullen ein Translationsanteil sind, der hier nicht vorhanden ist. Der Befehl concat fügt diese Transformationsmatrix der aktuellen Transformationsmatrix hinzu, bewirkt also eine Matrixmultiplikation. Die anderen beiden
114
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
Transformationen 30 rotate und 1 3 scale sind eine Rotation um 30◦ beziehungsweise die Streckung der y-Achse um den Faktor 3. Hier könnten wir genausogut die
entsprechende Matrix mit concat angeben, also eine Drehmatrix beziehungsweise
1
,
3
aber für Drehungen und Skalierungen gibt es alternativ die vorgefertigten Befehle
rotate und scale. Der für uns beachtenswerte Teil in diesem gesamten Beispiel ist,
dass wir Transformationsmatrizen verwenden können um ein und dieselben Zeichnung
auf vielerlei verschiedene Arten zu interpretieren.
$Id: det.tex,v 1.4 2008/12/19 17:07:55 hk Exp $
§8
Determinanten
8.1
Die Determinante
Die Determinante einer n × n Matrix A über K = R oder K = C ist eine Zahl
det A ∈ K. Alternativ wird oft auch |A| anstelle von det A geschrieben. Wird dabei A
direkt in Matrixform (...) hingeschrieben, so läßt man die Klammern um die Matrix in
der Schreibweise |A| üblicherweise fort, schreibt also etwa
1 2 1 3 für die Determinante det A der Matrix
A=
1 2
1 3
.
Beachte das die Determinante nur für quadratische Matrizen definiert wird. Bevor
wir zur Definition der allgemeinen Determinante kommen, wollen wir sie zunächst in
den drei kleinen Fällen n = 1, 2, 3 explizit hinschreiben. Für 1 × 1 Matrizen ist die
Determinante einfach der eine Eintrag der Matrix, also det(a) = a für a ∈ K. Die
Determinante einer 2 × 2 Matrix wird durch die Formel
a b c d := ad − bc
definiert. Beachte das uns der Ausdruck ad − bc bereits in §6 in der Formel
−1
1
a b
d −b
=
c d
a
ad − bc −c
115
Mathematik für Ingenieure I, WS 2008/2009
Freitag 12.12.2008
für die Inverse eine 2 × 2 Matrix begegnet ist. Dies ist kein Zufall, wie wir sehen werden
gibt es auch für n × n Matrizen eine direkte Formel für die Einträge der inversen
Matrix A−1 in Termen gewisser Determinanten. Für n > 2 ist diese Formel allerdings
für praktische Zwecke nur selten hilfreich. Wir kommen nun zur Determinante einer
3 × 3 Matrix, und diese Formel ist bereits merklich komplizierter.
a11 a12 a13 a21 a22 a23 := a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 .
a31 a32 a33 Es ist populär sich diese Formel mit Hilfe der sogenannten Regel von Sarrus zu merken.
Hierzu schreibt man sich die ersten beiden Spalten der 3 × 3 Matrix noch einmal rechts
neben die Matrix. Dann bildet man die drei Dreierprodukte entlang der drei Diagonalen
von links nach rechts und addiert diese. Anschließend bildet man die Dreierprodukte
auf den drei Gegendiagonalen von rechts nach links und zieht diese von der zuvor
gebildeten Summe ab. Die so erhaltene Zahl ist die Determinante der Matrix.
−
a11
a12
a13
a11
a12
a21
a22
a23
a21
a22
a31
a32
a33
a31
a32
−
−
+
+
+
Natürlich sind Sie nicht verpflichtet die Regel von Sarrus zu verwenden, mit etwas
Konzentration und ein wenig Übung ist es leicht sich die beiden verdoppelten Spalten
im Kopf zu denken, ohne sie extra hinzuschreiben.
Die Determinante größerer Matrizen ist etwas komplizierter. Wir schauen uns hierzu
noch einmal die Formel für die Determinante einer 3 × 3 Matrix an. Jeder der sechs
Summanden ist ein Produkt aus drei Einträgen der Matrix, ein Eintrag der ersten
Zeile, einer der zweiten Zeile und einer der dritten Zeile. Schreiben wir für das Produkt
a1i a2j a3k einfach i, j, k und schreiben das jeweilige Vorzeichen in der Determinante
daneben, so wird die obige Formel zur Liste
1, 2, 3
2, 3, 1
3, 1, 2
3, 2, 1
1, 3, 2
2, 1, 3
+
+
+
−
−
−.
Hier tauchen auf der linken Seite alle sechs Ordnungen der Elemente 1, 2, 3 auf, die wir
schon einmal als ein Beispiel in §3 hingeschrieben haben. Die Summanden der 3 × 3
Determinante entsprechen also den sechs Ordnungen einer dreielementigen Menge, und
ebenso wird die Determinante einer n × n Matrix eine Summe aus sovielen n-fachen
Produkten von Einträgen der Matrix sein wie es Ordnungen einer n-elementigen Menge
116
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
gibt. In §3 hatten wir gezeigt, dass diese Zahl gerade n! ist, d.h. die Determinante
einer n × n Matrix wird eine Summe mit n! Summanden sein. Die eine Hälfte dieser
Summanden wird mit dem Vorzeichen + versehen und die andere Hälfte mit −.
Ebenfalls bereits in §3 hatten wir uns klargemacht, dass die Ordnungen einer nelementigen Menge gerade den bijektiven Abbildungen der Menge auf sich selbst entsprechen. Eine bijektive Abbildung π : M → M einer Menge M in sich selbst nennt
man auch eine Permutation. Für die allgemeine Definition der Determinante wird es
nützlich sein eine Bezeichnung für die Menge aller Ordnungen der Menge {1, . . . , n} zu
haben.
Definition 8.1: Für jedes n ∈ N bezeichne Sn die Menge aller Anordnungen der Menge
{1, . . . , n}.
Wie bereits bemerkt wissen wir |Sn | = n! und wir können die Elemente von Sn auch
als Permutationen von {1, . . . , n} auffassen. Wir hatten ebenfalls bemerkt, dass die
eine Hälfte der Summanden in unserer Determinante das Vorzeichen + und die andere
das Vorzeichen − hat. Wir müssen nur noch beschreiben welche Permutationen mit
+ und welche mit − versehen werden sollen. Hierzu werden wir gerade und ungerade
Permutationen definieren, und als eine Vorstufe hierzu benötigen wir den Begriff eines
Fehlstands einer Permutation.
Definition 8.2: Sei n ∈ N und sei π ∈ Sn . Ein Fehlstand von π ist ein Paar (i, j)
bestehend aus zwei natürlichen Zahlen i, j ∈ N mit 1 ≤ i < j ≤ n und π(i) > π(j).
Vorlesung 16, Dienstag 16.12.2008
Betrachte beispielsweise die durch π(1) = 2, π(2) = 3, π(3) = 4 und π(4) = 1
definierte Permutation π ∈ S4 . Oft schreiben wir auch einfach die zugehörige Ordnung
von {1, 2, 3, 4} hin, in diesem Beispiel also π = (2, 3, 4, 1). Wir wollen nun die Fehlstände
von π auflisten, und hierzu gehen wir alle sechs Paare (i, j) mit 1 ≤ i < j ≤ 4 durch,
wenden auf jedes π an, und schauen ob sich die Reihenfolge der beiden Elemente
umdreht oder nicht:
(1, 2)−→(2, 3),
(2, 3)−→(3, 4),
(1, 3)−→(2, 4),
(2, 4)−→(3, 1) Fehlstand,
(1, 4)−→(2, 1) Fehlstand, (3, 4)−→(4, 1) Fehlstand.
Damit hat die Permutation π genau drei Fehlstände, nämlich die Paare (1, 4), (2, 4)
und (3, 4). Betrachten wir noch ein weiteres Beispiel, die Permutation π = (2, 1, 4, 3).
Die Tabelle wird dann zu
(1, 2)−→(2, 1) Fehlstand, (2, 3)−→(1, 4),
(1, 3)−→(2, 4),
(2, 4)−→(1, 3),
(1, 4)−→(2, 1),
(3, 4)−→(4, 3) Fehlstand,
117
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
d.h. diese Permutation hat genau die beiden Fehlstände (1, 2) und (3, 4). Insbesondere sehen Sie, dass das Ermitteln der Fehlstände einer Permutation kein besonderes
Problem darstellt. Wir wollen noch kurz tabellarisch die Fehlstände sämtlicher Permutation in S2 und S3 festhalten:
Permutation
(1,2)
(2,1)
Fehlstände
Permutation
(1,2,3)
(2,3,1)
(3,1,2)
(2,1,3)
(3,2,1)
(1,3,2)
(1,2)
Fehlstände
(1,3),(2,3)
(1,2),(1,3)
(1,2)
(1,2),(1,3),(2,3)
(2,3)
Nun sind wir in der Lage das Vorzeichen einer Permutation zu definieren.
Definition 8.3: Seien n ∈ N und π ∈ Sn . Dann heißt π gerade wenn die Anzahl der
Fehlstände von π gerade ist, und ungerade wenn die Anzahl der Fehlstände von π
ungerade ist. Weiter definieren wir das Vorzeichen, oder Signum, von π als
(
1,
π ist gerade,
signum(π) := sgn(π) := sign(π) := (−1)π :=
−1, π ist ungerade.
Wie in der Definition aufgelistet findet man in der Literatur für das Vorzeichen einer Permutation eine große Zahl möglicher Bezeichnungsvarianten. Für unsere beiden
Beispiele von Permutationen von vier Elementen finden wir
(−1)(2,3,4,1) = −1, (−1)(2,1,4,3) = 1,
und die Vorzeichen aller Permutationen von zwei und drei Elementen ergeben sich wie
in der folgenden Tabelle:
Permutation
(1,2)
(2,1)
Permutation
(1,2,3)
(2,3,1)
(3,1,2)
(2,1,3)
(3,2,1)
(1,3,2)
Vorzeichen
1
-1
Vorzeichen
1
1
1
-1
-1
-1.
Beachte insbesondere das das Signum einer jeden Permutation von zwei oder drei Elementen gleich dem Vorzeichen des entsprechenden Terms in der Determinante einer
n × n Matrix ist. Bevor wir zur Definition der Determinante kommen, wollen wir noch
ein paar kleine Tatsachen über das Vorzeichen von Permutationen festhalten. Sind
118
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
π, η ∈ Sn zwei Permutationen und τ ∈ Sn eine Transposition, d.h. eine Permutation
die zwei Elemente von {1, . . . , n} vertauscht und alle anderen fixiert, so gelten
(−1)π
−1
= (−1)π , (−1)πη = (−1)π (−1)η , (−1)τ = −1.
Dabei steht πη für die Hintereinanderausführung π ◦ η. Alle diese Formeln sind leichte
Übungen, die wir hier nicht vorführen wollen, da sie doch etwas von unserem Thema
fortführen. Nun sind wir endlich in der Lage die Determinante einer allgemeinen n × n
Matrix zu definieren.
Definition 8.4: Sei n ∈ N. Die Determinante einer n × n Matrix wird dann über die
sogenannte Leipnitz-Formel als
a11 · · · a1n X
.. . .
. (−1)π a1,π(1) · . . . · an,π(n)
.
. .. :=
π∈Sn
an1 · · · ann definiert.
P
P
Dabei interpretieren wir eine Summe π∈Sn f (π) als n!
k=1 f (πk ) wobei die Menge Sn =
{π1 , . . . , πn! } in irgendeiner Weise durchnumeriert ist. Unsere obigen Listen zeigen uns,
dass diese Determinantendefinition für n = 2, 3, und natürlich auch für n = 1, mit der
eingangs gegebenen Definition einer n × n Determinante für n = 1, 2, 3 übereinstimmt.
Wir wollen in diesem Abschnitt die Grundeigenschaften der Determinante herleiten, und dies wird uns insbesondere auf eine erste Methode zur effektiven Berechnung
von Determinanten führen. Im nächsten Abschnitt werden wir dann noch eine weitere
Technik zur Berechnung von Determinanten durch Rückführung auf kleinere Determinanten herleiten.
Satz 8.1: Für jede n × n Matrix A gilt det At = det A, wobei At die transponierte
Matrix zu A bezeichnet.
Beweis: Schreibe




a11 · · · a1n
a11 · · · an1




A =  ... . . . ...  also At =  ... . . . ...  .
an1 · · · ann
a1n · · · ann
Dann haben wir für jede Permutation π ∈ Sn
aπ(1),1 · . . . · aπ(n),n = aπ(1),π−1 (π(1)) · . . . · aπ(n),π−1 (π(n)) = a1,π−1 (1) · . . . · an,π−1 (n) ,
und somit folgt
X
X
det At =
(−1)π aπ(1),1 · . . . · aπ(n),n =
(−1)π a1,π−1 (1) · . . . · an,π−1 (n)
π∈Sn
=
X
π∈Sn
π −1
(−1)
a1,π−1 (1) · . . . · an,π−1 (n) =
π∈Sn
X
π∈Sn
119
(−1)π a1,π(1) · . . . · an,π(n) = det A
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
da mit π auch π −1 die Menge Sn durchläuft.
Wie bereits bemerkt ist es unser Ziel eine Methode zur Berechnung von Determinanten
zu finden. Es ist nützlich hierbei zunächst eine sehr spezielle Sorte von Matrizen zu
behandeln, die sogenannten oberen Dreiecksmatrizen. Diese haben auf der Diagonale
und oberhalb der Diagonalen Einträge, aber alle Einträge unterhalb der Diagonale sind
gleich Null, also beispielsweise die Matrix


1 −1 3
1
 0
2 4
3 
.
A=
 0
0 3 178 
0
0 0
4
Analog gibt es dann auch untere Dreiecksmatrizen, dies sind gerade die Transponierten
der oeberen Dreiecksmatrizen.
Satz 8.2: Sei


A=
∗
a1
..




 oder A = 
.
an

a1
..
∗


.
an
eine obere oder eine untere Dreiecksmatrix. Dann ist
det A = a1 · . . . · an .
Beweis: Schreibe wieder


a11 · · · a1n


A =  ... . . . ...  .
an1 · · · ann
Zunächst sei A eine obere Dreiecksmatrix, also aij = 0 für 1 ≤ j < i ≤ n und aii = ai
für 1 ≤ i ≤ n. Sei π ∈ Sn . Gibt es dann ein 1 ≤ i ≤ n mit π(i) < i, so ist ai,π(i) = 0
und somit auch a1,π(1) · . . . · an,π(n) = 0. Ist dagegen π(i) ≥ i für jedes 1 ≤ i ≤ n,
so ist π(n) ≥ n, also π(n) = n, und weiter π(n − 1) ≥ n − 1 also π(n − 1) = n − 1
oder π(n − 1) = n, also wegen π(n − 1) 6= π(n) = n sogar π(n − 1) = n − 1. So
fortfahrend folgt dann π(i) = i für alle 1 ≤ i ≤ n. Es gibt in det A also höchstens einen
von Null verschiedenen Summanden, nämlich derjenige zu π = (1, . . . , n) und da diese
Permutation gerade ist, folgt
det A = (−1)(1,...,n) a11 · . . . · ann = a1 · . . . · · · an .
Ist A eine untere Dreiecksmatrix, so ist At eine obere Dreiecksmatrix und mit Satz 1
folgt die Behauptung auch in diesem Fall.
120
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
Speziell für unsere obige Beispielmatrix liefert dieser Satz
1 −1 3
1
0
2 4
3 = 1 · 2 · 3 · 4 = 24.
0
0 3 178 0
0 0
4 Wir werden nun eine allgemeine n × n Determinante auf eine in oberer Dreiecksgestalt
zurückführen. Zu diesem Zweck kommt wieder die Gaußsche Eliminationsmethode zum
Einsatz. Mit dieser können wir ja eine gegebene Matrix durch elementare Zeilenumformungen in einer Matrix in Stufenform überführen. Da jede Matrix in Stufenform
insbesondere eine obere Dreiecksmatrix ist, können wir die Determine von Matrizen
in Stufenform mit Satz 2 leicht berechnen. Wir müssen uns also nur noch überlegen
wie sich die Determinante einer Matrix unter elementaren Zeilenumformungen verhält.
Nach §5 gibt es drei Sorten elementarer Zeilenumformungen
1. Vertauschen zweier Zeilen.
2. Multiplikation einer Zeile mit einer Zahl.
3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile.
Das Verhalten der Determinante unter diesen drei Operation wird das Thema der
nächsten drei Sätze sein. Neben den Zeilenumformungen werden auch Spaltenumformungen möglich sein, diese sind völlig analog zu Zeilenumformungen definiert. Da
sich Zeilen- und Spaltenumformungen unter Matrixtransposition ineinander übersetzen, können wir Satz 1 verwenden um Aussagen über Zeilen in Aussagen über Spalten,
und umgekehrt, zu überführen. Wir beginnen mit dem Vertauschen von Zeilen beziehungsweise Spalten. Dabei formulieren wir gleich einen etwas allgemeineren Satz, der
beliebige Vertauschungen der Zeilen oder Spalten einer Determinante behandelt.
Satz 8.3: Seien A eine n × n Matrix und η ∈ Sn eine Permutation. Definiere eine neue
Matrix A0 , deren i-te Zeile (Spalte) für i = 1, . . . , n gerade die η(i)-te Zeile (Spalte)
von A ist. Dann gilt
det A0 = (−1)η det A.
Haben wir beispielsweise die Matrix

1
 2
A=
 1
−1

4 −1 −2
0 −3
4 

1 −1 −2 
0
0
3
und die Permutation η = (2, 3, 4, 1), so ist die Matrix A0 diejenige 4 × 4 Matrix, deren
erste Zeile die η(1) = 2-te Zeile von A, deren zweite Zeile die η(2) = 3-te Zeile von A,
121
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
deren dritte Zeile die η(3) = 4-te Zeile von
Zeile von A ist, also

−1 0

1 4
A0 = 
 2 0
1 1
A und deren letzte Zeile die η(4) = 1-te

0
3
−1 −2 
.
−3
4 
−1 −2
Da wir bereits in einem Beispiel festgehalten hatten, dass die Permutation η ungerade
ist, liefert Satz 3 die Gleichung
−1 0
1 4 −1 −2 0
3 2 0 −3
1 4 −1 −2 4
= −
2 0 −3
1 1 −1 −2 .
4 −1 0
1 1 −1 −2 0
3 Da Transpositionen immer ungerade sind ist insbesondere det A0 = − det A wenn A0
aus A durch Vertauschen zweier Zeilen oder durch Vertauschen zweier Spalten entsteht. Damit haben wir die erste der elementaren Zeilumformungen behandelt, und wir
kommen zum zweiten Typ, dem Multiplizieren einer Zeile mit einer Zahl. Auch hier
beweisen wir gleich eine allgemeinere Aussage. Wir behaupten das sich Addition einzelner Zeilen oder Spalten und Multiplikation einzelner Zeilen oder Spalten mit einem
Skalar aus einer Determinante herausziehen lassen.
Satz 8.4 (Zeilen- und spaltenweise Linearität der Determinante)
Seien n ∈ N und 1 ≤ k ≤ n. Dann gilt für alle Zahlen t, s ∈ K und alle
die Gleichung
a11 · · · a1n a11 · · ·
a11
···
a1n
.
..
..
.. ..
.
.
.
. .
.
ta1 + sb1 · · · tan + sbn = t · a1 · · · an + s · b1 · · ·
.
..
..
.. ...
..
.
.
.
a
a
a
···
a
··· a ···
n1
nn
n1
nn
n1
aij , ai , bi ∈ K
bn ,
.. . ann a1n
..
.
wobei die Summen in der k-ten Zeile dieser Determinante stehen. Die entsprechende
Aussage gilt auch für Summen von Spalten.
Auch diese einfache Tatsache wollen wir jetzt nicht vorführen. Ein direktes Beispiel
für die obige Formel ist etwa
1 −1 1 1 −1
1 −1 1 1
2
1 3 + 2 · 0 −1 −1 = 2 −1 1 .
−1
−1
0 2 0
2 −1
0 2 Die erste und die dritte Zeile dieser Matrizen stimmen jeweils überein, Addition und
Multiplikation werden nur in einer Zeile, in diesem Beispiel in der zweiten Zeile, durchgeführt. Mit den beiden eben bewiesenen Sätzen ist es leicht die Invarianz der Determinante unter der letzten noch zu betrachtenden Zeilen- beziehungsweise Spaltenumformung einzusehen.
122
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
Satz 8.5: Sei n ∈ N und sei A eine n × n Matrix. Die Matrix A0 entstehe aus A durch
Addition eines Vielfachen der i-ten Zeile (Spalte) zur j-ten Zeile (Spalte). Dann ist
det A0 = det A.
Mit den bisher nachgewiesenen, beziehungsweise behaupteten, Eigenschaften der
Determinante können wir nun ein erstes Rechenverfahren zur Bestimmung allgemeiner Determinanten angeben. Starten wir mit einer n × n Matrix A, so führen wir
mit A das Gaußsche Eliminationsverfahren durch, d.h. wir bringen A durch elementare Zeilenumformungen auf Stufenform. Für jeden der Umformungsschritte wissen wir
nach obigen drei Sätzen wie sich die Determinante unter dieser Umformung verhält.
Die Determinante der letztlich entstehenden oberen Dreiecksmatrix können wir dann
durch Ausmultiplizieren der Einträge entlang der Diagonalen berechnen. Wir wollen
dies einmal an einem Beispiel durchführen.
1 2 −1
1
1 1
2 −1
1 2 −1
1 2
1 −1 0
0
2 −2 0
4
2
=
= − −1 2
3 −1 0
4
2
0 0
2
0
3 0 −1
0 −6
0 0 −6
2 −3 2
1 2 −1
1
1 0 4
0
2
0 = −
= − 2 −2 0 0
0
0 0
0
5 −3
1
0
−2
−3
2 −1
1 4
2
0 = −16.
0
2 −2 0
0
2 Man ist allerdings nicht gezwungen so stur den Gaußschen Algorithmus abzuarbeiten,
oft kann man sich die Arbeit durch Mischen von Zeilen- und Spaltenoperationen erleichtern. Dies geschieht etwa im folgenden Beispiel wo wir zuerst Vielfache der ersten
Zeile von der dritten und vierten Zeile abziehen und anschließend die zweite und dritte
Spalte von der ersten Spalte subtrahieren
1
4
2
4
1
0
1
2
0
1
1 −1
3 1 0
1 −1
3 0 0
1 −1
3 3
7 −5 4 1
3
7 −5 0 1
3
7 −5 0
1
0 = 0 2 −2
3 −6 = 0 2 −2
3 −6 = 0.
4 −3
6 0 0
0
1 −6 0 0
0
1 −6 0
8
1 1 1
0
8
1 0 1
0
8
1 Das abschließende Ergebnis Null ist dabei nach Satz 4 klar, hat eine Matrix eine Zeile
oder eine Spalte, die nur aus Nullen besteht, so können wir die Null vor die Determinante ziehen und die gesamte Determinante wird gleich Null. Alternativ können Sie sich
auch leicht klarmachen das überhaupt jeder Summand in der Leipnitz-Formel gleich
Null ist.
Rechnerisch ist es oftmals hilfreich die Aussage Satz 2 über die Determinanten
oberer und unterer Dreiecksmatrizen auf etwas allgemeinere Matrizen auszudehnen,
bei denen auf der Diagonale keine einzelnen Zahlen sondern ganze Untermatrizen als
Blöcke stehen.
123
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
Satz 8.6 (Verallgemeinerte Dreiecksmatrizen)
Hat die n × n Matrix A die Form



D1
∗
D1






D2
D2
 oder A = 
A=
...
...






Dr
Dr
∗






mit quadratischen Untermatrizen D1 , . . . , Dr , so gilt
det A = det(D1 ) · . . . · det(Dr ).
Dies kann man etwa über unser Berechnungsverfahren für Determinanten einsehen.
Bringen wir jede der Matrizen D1 , . . . , Dr durch elementare Zeilenumformungen auf
oberer Dreiecksgestalt, so bringen diese Umformungen auch die gesamte Matrix A auf
obere Dreiecksgestalt. Die Determinante wird dann das Produkt aller Diagonaleinträge
und diese können wir grüppchenweise zu den Produkten über die Diagonaleinträge in
den einzelnen Kästchen zusammenfassen. Jedes dieser Teilprodukte ist dann aber ein
det(Di ), und dies liefert gerade den Satz.
Betrachten wir beispielsweise die Matrix


1 2 −1
7
 1 4
5 −1 
,
A=
 0 0
2
3 
0 0
2
4
so können wir diese in Kästchen aufteilen


1 2 −1
7
 1 4
5 −1 

A=
 0 0
2
3 
0 0
2
4
und dies ist gerade eine verallgemeinerte obere Dreiecksmatrix bei der D1 , D2 zwei 2×2
Matrizen sind. Der Satz liefert also
1 2 −1
7
1 4
5 −1 1 2 3 5 =
·
= 2 · 2 = 4.
0 0
2
3 1 4 2 4 0 0
2
4 Auch in unserem obigen Beispiel einer 4×4 Determinante hätten wir den Kästchensatz
verwenden können. Benutzen wir die Einteilung von


1 2 −1
1
 0 4
2
0 


 0 0
2 −2 
0 0
5 −3
124
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 16.12.2008
2 −2
in zwei 1 × 1 Kästchen (1) und (4) sowie ein 2 × 2 Kästchen
, so können
5 −3
wir mit dem Kästchensatz den letzten Schritt unserer Rechnung einsparen
1 2 −1
1 2 −1
1
1
2 −2 0 4
1 2
2
0 1 −1 = −4 · 5 −3 = −16.
= ··· = − 0 0
−1 2
2
−2
3
−1
0 0
3 0 −1
5 −3 0 Bevor wir zu weiteren Formeln für Determinanten kommen, wollen wir noch zwei kleine
geometrische Tatsachen festhalten. Wir beginnen mit der Kennzeichnung von Matrizen
A mit det A 6= 0. Angenommen wir haben eine n × n Matrix A gegeben und bezeichnen
ihre Spalten mit v1 , . . . , vn . Auf A lassen wir dann das Gaußsche Eliminationsverfahren
laufen. Dann ist genau dann det A = 0 wenn auf der nach dem Eliminationsverfahren
entstandenen Diagonale eine Null vorkommt, und da die Matrix nach der Elimination
in Stufenform ist, ist dies genau dann der Fall, wenn mindestens eine Zeile der entstandenen Matrix nur aus Nullen besteht, wenn also das Gaußsche Eliminationsverfahren
nur r < n von Null verschiedene Zeilen produziert. Letzteres bedeutet nach den Ergebnissen des §7 genau das v1 , . . . , vn keine Basis des K n ist. Somit haben wir das
Kriterium
v1 , . . . , vn sind eine Basis des K n ⇐⇒ det A 6= 0.
Damit haben wir die linearen Unabhängig von n Vektoren im K n durch Determinanten
charakterisiert.
Für reelle Matrizen hat die Determinante auch eine weitere geometrische Bedeutung. Ist A eine reelle n × n Matrix, so betrachten wir die Spalten v1 , . . . , vn von A.
Dies sind n Vektoren im Rn und mit diesen bilden wir die Menge
M := {t1 v1 + · · · + tn vn |0 ≤ t1 , . . . , tn ≤ 1} ⊆ Rn ,
das sogenannte von v1 , . . . , vn aufgespannte Parallelepiped. In Dimension n = 2 hat M
die Form eines ausgefüllten Parallelograms
v2
v2
v1
v1
t2v2
t1v1
In Dimension n = 3 hat M die Form eines Spats, und in höheren Dimensionen kann man
sich M als einen n-dimensionalen Spar vorstellen. Der Betrag | det A| der Determinante
von A ist nun das n-dimensionale Volumen der Menge M . Für die beiden kleinen
Dimensionen n = 2 und n = 3 werden wir darauf später noch einmal eingehen.
125
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
Vorlesung 17, Freitag 19.12.2008
Wir wollen in diesem Abschnitt jetzt noch eine letzte wichtige Formel ansprechen,
den sogenannten Determinanten-Multiplikationssatz. Dieser besagt, dass die Determinante eines Produkts zweier Matrizen das Produkt der beiden Einzeldeterminanten
ist. Dies ist keine Selbstverständlichkeit, und mag zunächst sogar etwas überraschend
sein. Wir haben sowohl die Determinante als auch die Multiplikation von Matrizen
durch teilweise recht kompliziert aussehende Formeln eingeführt, dass diese nun so gut
zusammenpassen um den Multiplikationssatz zu liefern, ist überhaupt nicht klar. Im
nächsten Kapitel werden wir eine andere Interpretation für Matrizen und die Determinante kennenlernen, die den Multiplikationssatz zumindest im reellen Fall geometrisch
begründet. Hier hingegen, wollen wir ihn einfach nachrechnen.
Satz 8.7 (Multiplikationssatz für Determinanten)
Sind A, B zwei n × n Matrizen so gilt det(A · B) = det(A) · det(B).
Beweis: Wir schreiben



a11 · · · a1n



A =  ... . . . ...  , B = 
an1 · · · ann



b11 · · · b1n
c11 · · · c1n
 .
.. . .
. 
. 
. ..  und AB =  .. . . . ..  .
.
bn1 · · · bnn
cn1 · · · cnn
P
Nach Definition der Matrizenmultiplikation gilt dann cij = nk=1 aik bkj für alle 1 ≤
i, j ≤ n. Hiermit rechnen wir nun
X
det(AB) =
(−1)π c1,π(1) · . . . · cn,π(n)
π∈Sn
=
X
(−1)π
=
!
a1,j1 bj1 ,π(1)
(−1)π
n
X
· ... ·
j1 =1
π∈Sn
X
n
X
!
an,jn bjn ,π(n)
jn =1
X
a1,j1 · . . . · an,jn · bj1 ,π(1) · . . . · bjn ,π(n)
1≤j1 ,...,jn ≤n
π∈Sn
"
=
X
a1,j1 · . . . · an,jn ·
1≤j1 ,...,jn ≤n
#
X
(−1)π bj1 ,π(1) · . . . bjn ,π(n) .
π∈Sn
Nun kümmern wir uns um den Faktor in den eckigen Klammern. Die dort stehende
Summe sieht fast wie eine Determinante aus, nur das dort überall ji statt i steht. Dies
ist aber kein echtes Problem, schreiben wir B(j1 , . . . , jn ) für die n × n Matrix, deren
i-te Zeile gerade die ji -te Zeile von B ist, so ist der Ausdruck in eckigen Klammern
gerade die Determinante von B(j1 , . . . , jn ), also ist
X
det(AB) =
a1,j1 · . . . · an,jn · det B(j1 , . . . , jn ).
1≤j1 ,...,jn ≤n
126
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
Wir betrachten nun einen einzelnen Summanden in dieser Summe, seien also 1 ≤
j1 , . . . , jn ≤ n gegeben. Gibt es dann zwei Indizes 1 ≤ i, i0 ≤ n mit i 6= i0 und
ji = ji0 , so hat die Matrix B(j1 , . . . , jn ) zwei identische Zeilen, und somit ist dann
det B(j1 , . . . , jn ) = 0 wie etwa aus Satz 5 folgt. Also müssen wir in der obigen Summe
nur die Summanden (j1 , . . . , jn ) betrachten in denen j1 , . . . , jn paarweise verschieden
sind. Aber Tupel aus n verschiedenen Zahlen aus {1, . . . , n} sind ja gerade die Ordnungen von {1, . . . , n}, also folgt mit Satz 3
det(AB) =
X
a1,π(1) · . . . · an,π(n) · det B(π(1), . . . , π(n))
π∈Sn
!
=
X
(−1)π a1,π(1) · . . . · an,π(n)
· det(B) = det(A) · det(B).
π∈Sn
Insbesondere erhalten wir eine Formel für die Determinante der Inversen einer Matrix.
Satz 8.8: Sei A eine invertierbare n × n Matrix. Dann gilt det A 6= 0 und es ist
det(A−1 ) =
1
.
det A
Beweis: Nach dem Multiplikationssatz ist
det(A) · det(A−1 ) = det(A · A−1 ) = det En = 1.
8.2
Laplace Entwicklung
Die Laplace Entwicklung einer Determinante ist ein weiteres Rechenverfahren zur Bestimmung von Determinanten. Bei diesem Verfahren wird die Determinante einer n × n
Matrix als eine Summe von n Termen berechnet die ihrerseits im wesentlichen aus einer
(n−1)×(n−1) Determinante bestehen. Wir wollen dies zunächst an einigen Beispielen
vorführen, bevor wir es als abstrakten Satz formulieren.
Wir beginnen dabei mit der Berechnung einer 3 × 3 Determinante
1 −1
3
2
1 −1 .
5
1
0 127
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
Als Entwicklung dieser Determinante nach der ersten Zeile bezeichnet man die folgende
Rechnung
1 −1
3
2 1 2 −1 1 −1 2
1 −1 = 1 · + 3 · 5 1 = 1 + 5 − 9 = −3.
− (−1) · 5
0
1
0
5
1
0 Diese Summe beginnt mit dem Eintrag 1 in der ersten Zeile und der Spalte multipliziert
mit der Determinante, die aus der ursprünglichen Determinante durch Streichen der
ersten Zeile und der ersten Spalte entsteht. Hiervon wird dann der Eintrag −1 in der
zweiten Spalte der ersten Zeile mal die durch Streichen der ersten Zeile und der zweiten
Spalte gebildete Determinante abgezogen. Schließlich wird der Eintrag 3 in der dritten
Spalte der ersten Zeile mit der durch Streichen der ersten Zeile und dritten Spalte
erhaltenen Determinante multipliziert und zur Gesamtsumme addiert:
1 −1
1 −1
1 −1
1 −1
3
3
3
3
2
=1· 2
− (−1) · 2
+3· 2
.
1
−1
1
−1
1
−1
1
−1
5
1
0
1
0
5
5
1 0
5
1
0
Diese Rechenverfahren ist etwas effizienter als die Rechnung über die Regel von Sarrus.
Bei der Sarrusschen Regel hat man die Summe von sechs Dreierprodukten zu bilden,
benötigt also 12 Multiplikationen und 5 Additionen, wobei wir Subtraktion und Addition nicht unterscheiden. Bei der Entwicklung nach der ersten Zeile bilden wir dagegen
drei 2 × 2 Determinanten, und jede von diesen erfordert zwei Multiplikationen und
eine Addition, also insgesamt 6 Multiplikationen und drei Additionen. Dann werden
diese 2 × 2 Determinanten jeweils mit einer Zahl multipliziert und dann addiert, dies
sind 3 weiter Multiplikationen und zwei Additionen. Insgesamt erfordert die Entwicklung nach der ersten Zeile also 9 Multiplikationen und 5 Additionen, wir haben also
3 Multiplikationen eingespart, dies sind immerhin 25% des Aufwands der Regel nach
Sarrus.
Ebenso kann die Determinante auch nach der ersten Spalte entwickelt werden, hier
gehen wir entsprechend die Einträge in der ersten Spalte der Matrix durch
1 −1
1 −1
1 −1
1 −1
3
3
3
3
−2· 2
+5· 2
.
2
=1· 2
1
−1
1
−1
1
−1
1
−1
5
5
1
0
5 1
0
5 1
0 1
0
Noch allgemeiner kann die Determinante auch nach einer beliebigen Zeile oder einer
beliebigen Spalte entwickelt werden. Das einzige kleine Detail auf das man dabei achten muss ist die Verteilung der Vorzeichen. Entwickeln wir nach der ersten Zeile oder
Spalte, so beginnt die Entwicklung mit +“ und dann wechseln die Vorzeichen sich ab.
”
Entwickeln wir dagegen nach der zweiten Zeile oder Spalte, so beginnen die Vorzeichen
mit −“ und wechseln sich dann ab. In der dritten Zeile oder Spalte starten wir dann
”
wieder mit +“ und so weiter. Allgemein gehört zum Eintrag (i, j) der Determinan”
te, also dem Eintrag in der i-ten Zeile und in der j-ten Spalte, die Determinante die
128
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
durch Entfernen der i-ten Zeile und der j-ten Spalte entsteht und mit dem Vorzeichen
(−1)i+j versehen ist. Diese Vorzeichen beginnen links oben mit (−1)2 = 1 und breiten
sich dann schachbrettartig aus
+
−
+
−
..
.
−
+
−
+
..
.
+
−
+
−
..
.
−
+
−
+
..
.
···
···
···
···
...
Die Entwicklung nach Zeilen oder Spalten ist auch nicht auf 3 × 3 Determinanten
beschränkt, sondern ist für jede natürlich Zahl n ∈ N möglich. Wir wollen als ein
Beispiel einmal eine 4 × 4 Determinante nach der zweiten Zeile entwickeln:
1 −1
0
2 3
1 −1
0 =
0
2
5 −3 1
2 −1
1 1 −1
0
2
3
1 −1
0
− 3 · 0
2
5
−3
1 2 −1
1
+1·
1 −1
0
2 3
1 −1
0 −
(−1)
·
0
2
5 −3 1
2 −1
1
1 −1
0
2 3
1 −1
0 0
2
5 −3 1
2 −1 1 = (−3) · (−26) + 1 · (−8) + 1 · 7 = 77,
wobei wir die
haben und die
−1
2
2
1
0
1
1
0
1
mit Null zu multiplizierende vierte Determinante gleich weggelassen
Werte der verbleibenden drei 3 × 3 Determinanten
0
2 5 −3 2
5
+ 2
5 −3 = − 2 −1 = −2 − 24 = −26,
−1
1
−1
1 0
2 5 −3 0
5
+ 2
5 −3 = 1 −1 = 2 − 10 = −8,
−1
1 −1
1
−1
2 1 2 1 −1 + 3
= −2 + 9 = 7
2 −3 = 2 1
1 1 2 2
1
gleich eingesetzt haben. Man kann dieses Rechenverfahren durch Entwicklung nach
einer Zeile oder Spalte natürlich auch mit den elementaren Zeilen- und Spaltenumformungen kombinieren. In unserem eben gerechneten Beispiel einer 4 × 4 Determinante
können wir auch zunächst die erste Spalte zur zweiten Spalte addieren. Dann haben
wir auf einmal zwei Nullen in der ersten Zeile, und bei der Entwicklung nach der ersten
129
Mathematik für Ingenieure I, WS 2008/2009
Zeile treten nur
1 −1
0
3
1 −1
0
2
5
1
2 −1
4 −1
0
2
5
−3
3 −1
1
noch zwei Summanden auf.
0
2 2 1 0
0 0 3 4 −1
=
=
5 −3 −3 0 2
1 1 1 3 −1
3 4 −1 4 −1
− 2 0 2
2
5 = 11
1 3 −1 3 −1
4
= 11
Freitag 19.12.2008
3 4 3 −1 − 2 · 2
1 −1 − 5 1 3 −1 − 2 · (−4 − 25) = 19 + 59 = 77.
2 0
0
1
Die Entwicklung einer Determinante nach einer Zeile oder Spalte nennt man auch den
Laplaceschen Entwicklungssatz, und um diesen, und später auch die Cramersche Regel
für die Matrixinversion bequem formulieren zu können, führen wir noch eine kleine
Definition ein.
Definition 8.5: Sei A eine n × n Matrix. Sind 1 ≤ i, j ≤ n, so bezeichne Aij die
(n − 1) × (n − 1) Matrix, die aus A durch Streichen der i-ten Zeile und der j-ten Spalte
entsteht. Die Zahl
b
aij := (−1)i+j det Aji
wird dann als (i, j)-ter Komplementärwert bezeichnet (das i und j hier vertauscht
werden ist kein Schreibfehler, sondern tatsächlich so gemeint), und die n × n Matrix


b
a11 · · · b
a1n
.
. 
b := 
A
 .. . . . .. 
b
an1 · · · b
ann
heißt die Komplementärmatrix oder Adjunkte zu A.
Für n = 2, 3 können wir die Komplementärmatrix noch direkt
a b b
d −b
=
,
c d
−c
a



a11 a12 a13 b
a22 a33 − a23 a32 a13 a32 − a12 a33
 a21 a22 a23  =  a23 a31 − a21 a33 a11 a33 − a13 a31
a21 a32 − a22 a31 a12 a31 − a11 a32
a31 a32 a33
hinschreiben

a12 a23 − a13 a22
a13 a21 − a11 a23  ,
a11 a22 − a12 a21
aber schon für n ≥ 4 sind die entstehenden Formeln zu gross. Ganz konkret ist beispielsweise die Komplementärmatrix zu




1 −1
2
8
5 −1
 0
2 −3  gleich  −3 −1
3 .
1
2
1
−2 −3
2
130
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
Der Laplacesche Entwicklungssatz nimmt mit diesen Bezeichnungen die folgende Form
an:
Satz 8.9 (Entwicklung nach Zeilen und Spalten)
Sei A eine n × n Matrix. Dann gelten für jedes 1 ≤ i ≤ n die Gleichungen
det A =
n
X
(−1)i+1 aij det Aij
(Entwicklung nach einer Zeile)
j=1
und
det A =
n
X
(−1)i+j aji det Aji
(Entwicklung nach einer Spalte).
j=1
Da wir in dieser Sitzung schon genug bewiesen haben, wollen wir hier auf einen formalen Beweis verzichten.
Die Grundidee ist aber einfach beschrieben. In der LeipnitzP
Summe det(A) = π∈Sn (−1)π a1,π(1) ·. . .·an,π(n) fasse alle Terme zu π ∈ Sn mit π(i) = j
zusammen. Dann wird


det A =
n
X
j=1

X
π

(−1)
a
·
.
.
.
a
·
a
·
.
.
.
a
aij · 
1,π(1)
i−1,π(i−1)
i+1,π(i+1)
n,π(n)


π∈Sn
π(i)=j
und die Summe in eckigen Klammern stellt sich als (−1)i+j det Aij heraus, sie ist ja
beinahe bereits eine Leipnitz-Summe.
Eine der Folgerungen der Laplace-Entwicklung sind die sogenannten Cramerschen
Regeln. Es gibt zwei derartige Regeln, eine für die Berechnung der Inversen einer n × n
Matrix und eine für das Lösen regulärer linearer Gleichungssysteme. Die Cramersche
Regel für die inverse Matrix wird sich dabei aus dem folgenden Satz über die komplementäre Matrix ergeben:
Satz 8.10: Sei A eine n × n Matrix. Dann gilt

det A

...
b=A
b·A = 
A·A


 = det(A) · En .
det A
Dies ist eine direkte Folge aus dem Entwicklungssatz Satz 9. Schreiben Sie sich
einmal als eine Übung die Formel für die Matrixmultiplikation hin, und überlegen sich
wie daraus der Satz folgt. Da wie gesagt schon genug bewiesen wurde, wollen wir
dies hier nicht mehr direkt vorführen. Damit können wir nun die beiden Cramerschen
Regeln einsehen.
Satz 8.11 (Cramersche Regel für die Matrixinversion)
Sei A eine n × n Matrix. Dann ist A genau dann invertierbar wenn det A 6= 0 ist, und
in diesem Fall gilt
1 b
A−1 =
A.
det A
131
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
Beweis: ”=⇒” Dies gilt nach Satz 8.
”⇐=” Dies ist klar nach Satz 10.
Wegen
1 −1
2
1 2
0
2 −3 = 2 · 1 1
1
2
1 1 −1 = 2 · (−1) + 3 · 3 = 7
+3·
1
2 haben wir in unserem obigen Beispiel damit

−1


1 −1
2
8
5 −1
1
 0
2 −3  =  −3 −1
3 .
7
1
2
1
−2 −3
2
Etwas trickreicher könnten wir auch den ersten Eintrag der ersten Zeile des Produkts
b ausrechnen, und wir wissen dann nach Satz 10 das die so erhaltene Zahl die
A·A
Determinante von A ist. Kombinieren wir die Cramersche Regel für inverse Matrizen
mit dem Lösungssatz §6.Satz 4 für reguläre lineare Gleichungssysteme, so ergibt sich
die Cramersche Regel für lineare Gleichungssysteme:
Satz 8.12 (Cramersche Regel für reguläre lineare Gleichungssysteme)
Gegeben sei ein reguläres lineares Gleichungssystem
a11 x1 + a12 x2 + · · · + a1n xn = b1
..
..
..
..
.
.
.
.
an1 x1 + an2 x2 + · · · + ann xn = bn ,
d.h. Ax = b mit einer invertierbaren Koeffizientenmatrix A. Für 1 ≤ i ≤ n sei Ai die
n × n Matrix, die aus A durch Ersetzen der i-ten Spalte von A durch die rechte Seite
b entsteht. Dann ist die Lösung von Ax = b durch
det Ai
xi =
det A
(1 ≤ i ≤ n)
gegeben.
Hierzu müssen wir uns nur daran erinnern, dass die Lösung von Ax = b nach §6.Satz
4 durch
1 b
x = A−1 b =
Ab
det A
b ist gleich
gegeben ist. Der i-te Eintrag von Ab
n
X
j=1
b
aij bj =
n
X
(−1)i+j bj det Aji ,
j=1
132
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
und letztere Summe ist nach dem Entwicklungssatz Satz 9 gerade gleich der Determinante det Ai . Als ein Beispiel zur Cramerschen Regel wollen wir einmal das lineare
Gleichungssystem
x − y + 2z =
1
2y − 3z =
0
x + 2y + z = −1
lösen. Die Koeffizientenmatrix A dieses linearen Gleichungssystem ist gerade die bereits
oben als Beispiel verwendete Matrix

1 −1
2
2 −3 
A= 0
1
2
1

von der wir bereits det A = 7 nachgerechnet haben. Die rechte Seite ist


1
b =  0 ,
−1
und dies müssen wir der Reihe nach als erste, zweite, dritte Spalte von A einsetzen, um
die Lösung mit der Cramerschen Regel zu erhalten. Es ergibt sich damit die Lösung
1 −1
2 2 −3 −1
1
1
2
=
−
= 1 (8 + 1) = 9 ,
0
2
−3
x =
2
1
2 −3 7
7
7
7
−1
2
1 1
1
2 1
1
3
1
= = −6,
0
0
−3
y =
1
−1
7
7
7
1 −1
1 1 −1
1 1
1 2
1
= = −4.
0
2
0
z =
7 1 −1 7 7
1
2 −1 Obwohl der Cramerschen Regeln sowohl für die inverse Matrix als auch für reguläre
lineare Gleichungssysteme zunächst nach einer guten Rechenmethode aussehen, da sie
eben so schön direkte und explizite Formeln sind, sind sie fürs praktische Rechnen meist
eher ungeeignet. Es ist eine relativ große Zahl von Determinanten zu berechnen, und
da ist es fast immer schneller unseren Gauß-Algorithmus sowohl zum Lösen linearer
Gleichungssysteme als auch zur Berechnung der inversen Matrix heranzuziehen. Der
einzige Fall in dem die Cramerschen Regeln manchmal brauchbar sind ist n = 3, aber
selbst hier fährt man mit der Gaußschen Elimination fast immer besser.
$Id: linabb.tex,v 1.6 2015/10/20 16:21:04 hk Exp $
133
Mathematik für Ingenieure I, WS 2008/2009
§9
Freitag 19.12.2008
Lineare Abbildungen
Lineare Abbildungen sind einer der, leider etwas abstrakten, Grundbegriffe der
linearen Algebra und der Mathematik schlechthin. Die linearen Abbildungen sind eine
Klasse besonders einfacher Abbildungen, die aber trotzdem noch allgemein genug sind,
sich in einer Vielzahl von Situationen anwenden zu lassen.
9.1
Lineare Abbildungen
Definition 9.1: Seien V, W zwei Vektorräume über K, wobei K bei uns wie immer
für K = R oder K = C steht. Eine lineare Abbildung von V nach W ist dann eine
Abbildung f : V → W mit den folgenden beiden Eigenschaften:
(a) Für alle x, y ∈ V gilt f (x + y) = f (x) + f (y).
(b) Für alle x ∈ V und jede Zahl c ∈ K gilt f (c · x) = c · f (x).
Beispielsweise ist die Abbildung


x
f : R3 → R;  y  7→ x − y + 2z
z
linear. In der Tat, sind x, y, z, x0 , y 0 , z 0 ∈ R, so haben wir


x + x0
f  y + y 0  = x + x0 − (y + y 0 ) + 2(z + z 0 ) = x − y − 2z + x0 − y 0 + 2z 0
z + z0
 
 0 
x
x



y
y0  ,
=f
+f
z
z0
und ist zusätzlich c ∈ R, so haben wir auch


 
cx
x
f  cy  = cx − cy + 2cz = c · (x − y + 2z) = c · f  y  .
cz
z
Eine solche Rechnung funktioniert natürlich immer wenn f : K n → K eine Summe von
Termen der Form Konstante · Variable ist. Im Gegensatz zur üblichen Sprechweise bei
Polynomen sind auch keine konstanten Terme erlaubt. Beispielsweise ist die Abbildung
 
x
g : R3 → R;  y  7→ x − y + 2z + 1
z
134
Mathematik für Ingenieure I, WS 2008/2009
Freitag 19.12.2008
nicht linear. In der obigen Rechnung haben wir nämlich


x + x0
g  y + y 0  = x − y − 2z + x0 − y 0 + 2z 0 + 1
z + z0
aber

 0 
x
x
g  y  + g  y 0  = x − y − 2z + x0 − y 0 + 2z 0 + 2.
z
z0

Ebenso ist eine Abbildung K n → K m linear, wenn in jeder ihrer Komponenten nur
lineare Terme stehen, beispielsweise ist also die Abbildung
x
x+y
2
2
f :R →R ;
7→
y
x−y
linear. Für Abbildungen von Spaltenvektoren ist Linearität also ein sehr simples Konzept. Tatsächlich sollen lineare Abbildungen ja, wie bereits bemerkt, besonders einfache Abbildungen sein. Wir wollen auch noch ein Beispiel einer linearen Abbildung auf
Funktionenräumen angeben. In §7 hatten wir den Vektorraum RR aller Abbildungen
f : R → R eingeführt. Wir behaupten nun, daß die Teilmenge
V := {f : R → R|f ist differenzierbar} ⊆ RR
ein Teilraum dieses Vektorraums ist. Sind nämlich f, g ∈ V zwei differenzierbare Funktionen, so ist auch die Summe f + g differenzierbar mit Ableitung (f + g)0 = f 0 + g 0 .
Ebenso ist für eine differenzierbare Abbildung f ∈ V und eine Zahl c ∈ R auch c · f differenzierbar mit (cf )0 = cf 0 . Dabei haben wir den Differenzierbarkeitsbegriff eigentlich
noch gar nicht eingeführt, aber für dieses Beispiel reichen die Erinnerungen aus ihrer
Schulzeit völlig aus. Damit ist V ein Teilraum von RR , und somit selbst ein Vektorraum.
Jetzt ist das Ableiten selbst
d
: V → RR ; f 7→ f 0
dx
eine lineare Abbildung, denn dies bedeutet ja gerade die Gültigkeit der beiden Formeln
(f + g)0 = f 0 + g 0 und (cf )0 = cf 0 . In diesem Semester werden wir es allerdings nur
mit linearen Abbildungen zwischen Teilräumen des K n zu tun haben. Lineare Abbildungen zwischen Funktionenräumen spielen dann später eine gewisse Rolle. Wir wollen
nun das Bild einer linearen Abbildung einführen. Eigentlich haben wir das Bild einer
allgemeinen Abbildung bereits in §3 eingeführt, aber wir wollen die Definition hier der
Deutlichkeit halber wiederholen.
Definition 9.2: Seien V, W zwei Vektorräume über K und f : V → W eine lineare
Abbildung. Dann heißt die Menge
Bild(f ) := {f (x)|x ∈ V }
135
Mathematik für Ingenieure I, WS 2008/2009
Freitag 9.1.2009
das Bild von f .
Es wird sich herausstellen, dass das Bild einer linearen Abbildung immer ein Teilraum
ist. Zunächst wollen wir das Bild einer linearen Abbildung aber in einem Beispiel
berechnen. Hierzu betrachten wir die lineare Abbildung


 
x+y+z
x
f : R3 → R3 ;  y  7→  2y − z  .
x − y + 2z
z
Wann liegt ein Vektor v ∈ R3 im Bild Bild(f ) von f ? Schreiben wir


b1
v =  b2  ,
b3
so ist genau dann v ∈ Bild(f ), wenn es x, y, z ∈ R mit

  


x
x+y+z
b1
 b2  = f  y  =  2y − z 
b3
z
x − y + 2z
gibt, d.h. genau dann wenn das lineare Gleichungssystem
x +
y + z = b1
2y − z = b2
x − y + 2z = b3
eine Lösung hat. Um diese v ∈ R3 zu bestimmen, können wir wieder einmal das Gaußsche Eliminationsverfahren zum Einsatz bringen






1
1
1
b1
1 1
1
b1
1
1
1 b1
.
 0
2 −1
b2  →  0 2 −1
b2
2 −1 b2  →  0
0 −2
1 b3 − b1
0 0
0 b2 + b3 − b1
1 −1
2 b3
Damit ist unser lineares Gleichungssystem genau dann lösbar wenn
b2 + b3 − b1 = 0 beziehungsweise b1 = b2 + b3
gilt. Als Bild von f erhalten wir somit

 



 b1   t + s 




b2 b1 , b2 , b3 ∈ R, b1 = b2 + b3 =
t
Bild(f ) =
t, s ∈ R .

 
b3 s
In der nächsten Sitzung werden wir einsehen das sich das Berechnen des Bildes einer linearen Abbildung auch als die Bestimmung des Aufspanns geeigneter Vektoren
intepretieren läßt.
136
Mathematik für Ingenieure I, WS 2008/2009
Freitag 9.1.2009
Vorlesung 18, Freitag 9.1.2009
Der folgende Satz gibt uns eine einfachere Möglichkeit das Bild einer linearen Abbildung auszurechnen.
Satz 9.1: Seien V, W zwei Vektorräume und f : V → W eine lineare Abbildung. Dann
ist das Bild Bild(f ) ein Teilraum von W . Ist weiter v1 , . . . , vn ein Erzeugendensystem
von V , so ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem des Bildes Bild(f ) von f .
Dass das Bild dabei ein Teilraum ist, ist eine leichte Übung. Die Aussage über Erzeugendensysteme ist ebenfalls leicht einzusehen. Das die Vektoren v1 , . . . , vn ein Erzeugendensystem von V bilden, bedeutet ja das sich jeder Vektor v ∈ V als Linearkombination
v = x1 v1 + · · · + xn vn
schreiben läßt. Für die Bilder f (v) ergibt sich damit
f (v) = f (x1 v1 + · · · + xn vn )
= f (x1 v1 ) + · · · + f (xn vn )
= x1 f (v1 ) + · · · + xn f (vn ).
Dabei haben wir von der Tatsache Gebrauch gemacht, dass sich die Additivitätsbedingung f (x + y) = f (x) + f (y) an eine lineare Abbildung auch auf drei, vier und
letztlich n Summanden überträgt. Jeder Bildvektor f (v) von f ist also eine Linearkombination der f (v1 ), . . . , f (vn ), und dies bedeutet definitionsgemäß, dass die Vektoren f (v1 ), . . . , f (vn ) ein Erzeugendensystem des Bildes Bild(f ) sind. Wenden wir dies
einmal auf unser eben gerade (also vor den Ferien) gerechnetes Beispiel an. Als Erzeugendensystem des R3 verwenden wir dabei die kanonische Basis e1 , e2 , e3 des R3 .
Unser Satz sagt uns dann, dass die drei Bildvektoren f (e1 ), f (e2 ), f (e3 ) das Bild von f
erzeugen. Diese drei Vektoren berechnen sich als
   
  

  

1
1
0
1
0
1
f  0  =  0  , f  1  =  2  , f  0  =  −1  ,
0
1
0
−1
1
2
wir haben also
* 1   1   1 +
Bild(f ) =  0  ,  2  ,  −1  .
1
−1
2
Zunächst mag dieses Ergebnis etwas verwunderlich sein, denn wir hatten ja bereits
ausgerechnet, dass das Bild von f ein zweidimensionaler Teilraum des R3 ist, und
nun haben wir auf einmal ein Erzeugendensystem aus drei Vektoren. Aber dies ist kein
Problem, diese drei Vektoren sind eben keine Basis sondern nur ein Erzeugendensystem.
137
Mathematik für Ingenieure I, WS 2008/2009
Freitag 9.1.2009
Tatsächlich läßt sich etwa der dritte unserer drei Vektoren als Linearkombination der
ersten beiden schreiben



 

1
1
1
 −1  = 3  0  − 1  2 
2
2
2
1
−1
und damit sind bereits die beiden linear unabhängigen Vektoren f (e1 ), f (e2 ) ein Erzeugendensystem des Bildraums
* 1   1 +
Bild(f ) =  0  ,  2  .
−1
1
Nebem dem Bild spielt auch der sogenannte Kern einer linearen Abbildung eine wichtige Rolle. Wie sich herausstellen wird, mißt dieser sozusagen wie nicht-injektiv“ eine
”
lineare Abbildung ist.
Definition 9.3: Seien V, W zwei Vektorräume und f : V → W eine lineare Abbildung.
Der Kern von f ist dann der Teilraum
Kern(f ) := {v ∈ V |f (v) = 0}
von V . Dass dies ein Teilraum von V ist, ist dabei leicht zu sehen.
Rechnen wir einmal den Kern unserer Beispielabbildung f : R3 → R3 aus. Ein Vektor
v = (x, y, z) ∈ R3 liegt definitionsgemäß genau dann im Kern von f wenn
 
  

0
x
x+y+z
 0  = f  y  =  2y − z 
0
z
x − y + 2z
gilt, d.h. wenn (x, y, z) eine Lösung des homogenen linearen Gleichungssystems
x +
y + z = 0
2y − z = 0
x − y + 2z = 0
ist. Insbesondere können wir unsere bereits bei der Berechnung des Bildes durchgeführte Anwendung des Eliminationsverfahrens recyceln und erhalten das folgende äquivalente Gleichungssystem in Stufenform
x +
y + z = 0
2y − z = 0
also y = z/2 und x = −y − z = −(3/2)z. Damit ist der Kern von f eindimensional



3


−
t


2
 1 
Kern(f ) =  2 t  t ∈ R .




t 138
Mathematik für Ingenieure I, WS 2008/2009
Freitag 9.1.2009
Beachte insbesondere das sich die Dimensionen des Bildes und des Kernes von f gerade zur Dimension 2 + 1 = 3 des R3 addieren, wie werden gleich festhalten, dass dies
kein Zufall ist. Aber zuvor wollen wir noch den Kern einer etwas komplizierteren linearen Abbildung berechnen. Wir hatten bereits eingesehen, dass die differenzierbaren
Funktionen f : R → R einen Vektorraum V bilden, und das das Ableiten
d
: V → RR
dx
auf diesem eine lineare Abbildung definiert. Was ist nun der Kern des Ableitens? Eine
differenzierbare Funktion f : R → R ist genau dann in diesem Kern, wenn f 0 = 0 ist,
also wenn ihre Ableitung konstant Null ist. Dies bedeutet aber bekanntlich genau das
die Funktion f konstant ist. Damit ist der Kern von d/dx genau der eindimensionale
Vektorraum der konstanten reellen Funktionen auf R.
Wie bereits bemerkt beschreibt der Kern einer linearen Abbildung in gewisser Weise
wie nicht-injektiv“ diese ist. Sei nämlich eine lineare Abbildung f : V → W gegeben.
”
Dass die Abbildung f injektiv ist, bedeutete gerade die Gültigkeit der Implikation
f (x) = f (y) =⇒ x = y
für alle x, y ∈ V . Sind aber nun x, y ∈ V zwei Vektoren in V , so können wir auch
f (x) − f (y) = f (x) + (−1) · f (y) = f (x − y)
schreiben, und somit wird
f (x) = f (y) ⇐⇒ f (x − y) = 0 ⇐⇒ x − y ∈ Kern(f ).
Injektiv bedeutet nun, dass aus f (x) = f (y), also aus x − y ∈ Kern(f ) stets x = y,
also x − y = 0, folgt. Folglich haben wir damit die Äquivalenz
f ist injektiv ⇐⇒ Kern(f ) = {0}.
Je größer die Dimension des Kerns einer linearen Abbildung f ist, desto mehr Urbilder
gibt es zu jedem Element des Bildes von f . Der folgende Satz zeigt, dass bei großem
Kern das Bild klein ist und umgekehrt.
Satz 9.2 (Dimensionsformel für lineare Abbildungen)
Seien V, W zwei endlich erzeugte Vektorräume und f : V → W eine lineare Abbildung.
Dann gilt die Dimensionsformel
dim Kern(f ) + dim Bild(f ) = dim V.
Wir wollen diesen Satz hier nicht beweisen, da dies einen etwas systematischeren
Aufbau der Theorie erfordern würde. Alternativ können wir die Gleichung auch als
139
Mathematik für Ingenieure I, WS 2008/2009
Freitag 9.1.2009
dim Kern(f ) = dim V − dim Bild(f ) schreiben, d.h. die lineare Abbildung f ist genau
dann injektiv wenn dim Bild(f ) = dim V ist.
Wie wir früher gesehen hatten, besteht für allgemeine Abbildungen zwischen Surjektivität und Injektivität kein Zusammenhang, es gibt surjektive aber nicht injektive,
injektive aber nicht surjektive, weder injektive noch surjektive und sowohl surjektive
als auch injektive Abbildungen. Für lineare Abbildungen stellt sich die Situation etwas
anders dar, dort bestehen zwischen injektiv“ und surjektiv“ durchaus einige Zusam”
”
menhänge. Dies wollen wir im speziellen Fall einer linearen Abbildung f : V → W
zwischen endlich erzeugten Vektorräume V, W gleicher Dimension dim V = dim W einmal vorführen. Für unsere lineare Abbildung f : V → W bestehen nun die folgenden
Äquivalenzumformungen
f ist injektiv ⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
Kern(f ) = {0}
dim Kern(f ) = 0
dim V − dim Bild(f ) = 0
dim Bild(f ) = dim V
dim Bild(f ) = dim W
Bild(f ) = W
f ist surjektiv.
Dieses wichtige Ergebnis wollen wir in einem Satz festhalten:
Satz 9.3: Seien V, W zwei endlich erzeugte Vektorräume gleicher Dimension und f :
V → W eine lineare Abbildung. Dann sind die folgenden Aussagen äquivalent:
(a) Die Abbildung f ist injektiv.
(b) Die Abbildung f ist surjektiv.
(c) Die Abbildung f ist bijektiv.
Dies betrifft insbesondere den besonders wichtigen Fall V = W . Für eine lineare Abbildung f : V → V eines endlich erzeugten Vektorraums V in sich selbst impliziert
die eindeutige Lösbarkeit der Gleichung f (x) = 0 damit das überhaupt jede Gleichung
f (x) = y mit y ∈ V eindeutig lösbar ist. Im Zusammenhang mit linearen Abbildungen
sind noch einige Sprechweisen üblich, die wir in dieser Vorlesung zwar nur sehr sparsam bis gar nicht verwenden, die Ihnen aber trotzdem geläufig sein sollten da sie in der
Literatur zur linearen Algebra sehr häufig verwendet werden.
Definition 9.4: Sei f : V → W eine lineare Abbildung.
(a) Ist V = W , so nennt man f auch einen Endomorphismus.
(b) Die lineare Abbildung f heißt ein Monomorphismus wenn f injektiv ist.
(c) Die lineare Abbildung f heißt ein Epimorphismus wenn f surjektiv ist.
140
Mathematik für Ingenieure I, WS 2008/2009
Freitag 9.1.2009
(d) Die lineare Abbildung f heißt ein Isomorphismus wenn f bijektiv ist.
9.2
Matrixdarstellung linearer Abbildungen
Wie sich in diesem Abschnitt herausstellen wird, besteht zwischen linearen Abbildungen einerseits und Matrizen andererseits ein sehr enger Zusammenhang. In gewissen
Sinne werden sich diese beiden Konzepte als nahezu dasselbe herausstellen, und bei
dieser Gelegenheit werden wir auch endlich den Grund für die in §6 etwas willkürlich
definierte Multiplikation von Matrizen kennenlernen.
Im folgenden betrachten wir zwei Vektorräume V mit Basis v1 , . . . , vn und W mit
Basis w1 , . . . , wm . Weiter sei f : V → W eine lineare Abbildung. Kennen wir dann die
Funktionswerte f (v1 ), . . . , f (vn ) der Basiselemente von V , so ist f bereits vollständig
festgelegt. Denn einen beliebigen Vektor v ∈ V können wir als eine eindeutige Linearkombination v = x1 v1 + · · · + xn vn schreiben, und das Bild f (v) wird dann wie bereits
oben gesehen zur entsprechenden Linearkombination
f (v) = x1 f (v1 ) + · · · + xn f (vn ).
Andererseits sind f (v1 ), . . . , f (vn ) Vektoren im Vektorraum W , können also bezüglich
der Basis w1 , . . . , wm von W in eindeutiger Weise als Linearkombinationen geschrieben
werden:
f (v1 ) = a11 w1 + a21 w2 + · · · +am1 wm ,
f (v2 ) = a12 w1 + a22 w2 + · · · +am2 wm ,
..
..
..
..
.
.
.
.
f (vn ) = a1n w1 + a2n w2 + · · · +amn wm .
Setzen wir diese Darstellungen in die Formel für das Bild f (v) ein, so erhalten wir
" n
#
m
n
n
m
X
X
X
X
X
aij xj · wi .
f (v) =
xj f (vj ) =
xj
aij wi =
j=1
j=1
i=1
i=1
j=1
Damit legen die Zahlen aij die lineare Abbildung f fest, und wir bezeichnen die aus
ihnen gebildete Matrix als die Matrix der linearen Abbildung f .
Definition 9.5: Seien V, W zwei endlich erzeugte Vektorräume und f : V → W eine lineare Abbildung. Die Matrix von f bezüglich der Basen v1 , . . . , vn von V und
w1 , . . . , wm von W ist die m × n Matrix A = (aij ), deren j-te Spalte gerade
Pmaus den
Koordinaten von f (vj ) bezüglich der Basis w1 , . . . , wm besteht, also f (vj ) = i=1 aij wi
für 1 ≤ j ≤ n.
In der eben verwendeten Notation ist also


a11 · · · a1n

..  .
A =  ...
. 
am1 · · · amn
141
Mathematik für Ingenieure I, WS 2008/2009
Freitag 9.1.2009
Sind dabei die auf V und W verwendeten Basen im gegebenen Kontext festgelegt, so
spricht man etwas ungenau auch einfach von der Matrix der linearen Abbildung, ohne
die beiden Basen noch einmal zu erwähnen. Unsere Rechnung zeigt uns aber nicht
nur die Tatsache, dass f durch die Zahlen aij festgelegt ist, sondern die Art dieser
Festlegung wird auch genau angegeben. Schauen wir uns einmal den Koeffizienten vor
dem wi an
ai1 · x1
+
a
i2 · x2
n
X
+
aij xj = ai1 x1 + · · · + ain xn =
..
j=1
.
+
ain · vn .
In dieser Formel wird die i-te Zeile (ai1 , . . . , ain ) der Matrix A gedreht und der Spalte (x1 , . . . , xn ) gegenübergestellt. Dann werden gegenüberliegende Zahlen miteinander
multipliziert, und alle diese Produkte werden addiert. Dies ist aber auch genau die
Vorgehensweise bei der Multiplikation derPm × n Matrix A mit der Spaltenvektor
(x1 , . . . , xn ). Anders gesagt ist die Summe nj=1 aij xj gerade der i-te Eintrag des Spaltenvektors A · x.
Hat also der Vektor v ∈ V bezüglich der Basis v1 , . . . , vn die Koordinaten x =
(x1 , . . . , xn ), so hat der Bildvektor f (v) bezüglich der Basis w1 , . . . , wm von W die
Koordinaten Ax. In Koordinaten ist die Abbildung f also die Multiplikation der Matrix A mit dem Koordinatenvektor x. Verwenden wir weiter die in §7 eingeführten
Koordinatenabbildungen
Ψv (x) = x1 v1 + · · · + xn vn
(x ∈ K n ), Ψw (y) = y1 w1 + · · · + ym wm
(y ∈ K m ),
so gilt für jeden Koordinatenvektor x ∈ K n die Gleichung
f (Ψv (x)) = Ψw (Ax).
Wir wollen jetzt als ein Beispiel die Matrix der bereits behandelten linearen Abbildung
 


x
x+y+z
f : R3 → R3 ;  y  7→  2y − z 
x − y + 2z
z
bezüglich der kanonischen Basis e1 , e2 , e3 des R3 bestimmen. In den obigen Bezeichnungen haben wir also
V = W = R3 , v1 = w1 = e1 , v2 = w2 = e2 , v3 = w3 = e3 .
Wie bereits bemerkt ist die Methode zur Bestimmung der Matrix einer linearen Abbildung beschrieben als die Spalten der Matrix sind die Koeffizienten der Bilder der
”
142
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
Basisvektoren von V “. Hier müssen wir also die Bilder der drei kanonischen Einheitsvektoren e1 , e2 , e3 berechnen, und diese als Linearkombinationen wieder in e1 , e2 , e3
schreiben

  
   
1
0
1
1
f (e1 ) = f  0  =  0  = e1 + e3 , f (e2 ) = f  1  =  2  = e1 + 2e2 − e3 ,
−1
0
1
0

  
1
0
f (e3 ) = f  0  =  −1  = e1 − e2 + 2e3 .
2
1
Die Matrix A von f erhalten wir nun indem wir die gerade berechneten Koeffizienten
als die Spalten einer 3 × 3 Matrix zusammenfassen


1
1
1
2 −1  .
A= 0
1 −1
2
Dieses Ergebnis hätten wir auch gleich an der Formel für f sehen können. Die erste
Spalte der Matrix A besteht gerade aus den Koeffizienten vor der Variablen x, die
zweite aus denen vor y und die dritte aus denen vor z. Bezüglich der kanonischen
Basen ist dies immer der Fall, schreiben wir f : K n → K m als Summe von Termen der
Form Koeffizient · Variable, so ist die Matrix von f bezüglich der kanonischen Basen
gerade so etwas wie die Koeffizientenmatrix eines linearen Gleichungssystems.
Vorlesung 19, Dienstag 13.1.2009
Wir setzen unser Beispiel




x
x+y+z
f : R3 → R3 ;  y  →
7  2y − z 
z
x − y + 2z
nun noch etwas fort, und wollen überlegen wie sich die Matrix dieser linearen Abbildung
beim Übergang zu anderen Basen ändert. Wir hatten ja beispielsweise ausgerechnet,
dass das Bild unserer linearen Abbildung f : R3 → R3 gerade der Teilraum



 t + s 


t
W :=
t, s ∈ R

s
des R3 ist, und wir können f auch als lineare Abbildung f : R3 → W auffassen. Für
den zweidimensionalen Vektorraum W haben wir die Basis
 
 
1
1
w1 :=  1  , w2 :=  0 
0
1
143
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
und bezüglich dieser Basis sind die Bilder der kanonischen Einheitsvektoren des R3
 
1

0  = w2 ,
f (e1 ) =
1


1
f (e2 ) =  2  = 2w1 − w2 ,
−1


1
f (e3 ) =  −1  = −w1 + 2w2 .
2
Die Matrix einer linearen Abbildung bezüglich gegebener ergab sich mit dem bereits
mehrfach beschriebenen Rechschema Die Spalten der Matrix von f sind die Koeffi”
zienten der Bilder der Basisvektoren des linken Vektorraums bezüglich der Basis des
rechten Vektorraums“. Als Matrix von f : R3 → W bezüglich der kanonischen Basis
des R3 und der Basis w1 , w2 von W ergibt sich also diesmal die 2 × 3 Matrix
0
2 −1
A=
.
1 −1
2
Beachte hier, dass sich die Anzahl der Zeilen der Matrix hier von 3 auf 2 verringert
hat, dies liegt eben daran das wir f hier nicht als Abbildung in den dreidimensionalen
R3 sondern als Abbildung in den zweidimensionalen Vektorraum W betrachten.
Nun kehren wir wieder zur Originalabbildung f : R3 → R3 zurück. Auch bei Änderung der Basis des linken Vektorraums V verändert sich die Matrix der linearen Abbildung f . Auf dem R3 haben wir beispielsweise die Basis






1
−1
0
v1 :=  −1  , v2 :=  −1  , v3 :=  3  .
0
1
−1
Wegen

 


 

1
0
−1
−1
f (v1 ) = f  −1  =  −2  , f (v2 ) = f  −1  =  −3  ,
2
1
2
0

 

0
2
f (v3 ) = f  3  =  7  ,
−1
−5
ist die Matrix von f : R3 → R3 bezüglich der Basen v1 , v2 , v3 und e1 , e2 , e3 des R3 gleich


0 −1
2
7 .
A =  −2 −3
2
2 −5
144
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
Beachte es zwischen dieser Matrix und der Matrix von f bezüglich der kanonischen
Basis auf beiden Seiten keinen direkt ersichtlichen Zusammenhang gibt. Es gibt aber
trotzdem eine oftmals nützliche Formel, die die Änderung der Matrix einer linearen
Abbildung beim Übergang zu anderen Basen beschreibt. Durch die relativ große Anzahl beteiligter Objekte ist die Herleitung dieser Formel leider zunächst etwas unübersichtlich. Für praktische Zwecke ist das zum Glück nicht weiter tragisch, da man die
herzuleitende Formel auch ohne Kenntnis ihrer Herleitung gut verwenden kann.
Wir wollen die folgende allgemeinen Situation betrachten: Gegeben sei eine lineare
Abbildung f : V → W zwischen zwei endlichdimensionalen Vektorräumen V, W über
K. Weiter seien zwei Basen v1 , . . . , vn und v10 , . . . , vn0 von V sowie zwei Basen w1 , . . . , wm
0
und w10 , . . . , wm
von W gegeben. Zur linearen Abbildung f gehören dann zwei m × n
Matrizen, einmal die Matrix A von f bezüglich der Basen v1 , . . . , vn und w1 , . . . , wm
0
und zum anderen die Matrix A0 von f bezüglich der Basen v10 , . . . , vn0 und w10 , . . . , wm
.
In Termen unserer Koordinatenabbildungen gelten dann
f (Ψv (x)) = Ψw (Ax), f (Ψv0 (x)) = Ψw0 (A0 x)
für alle x ∈ K n . Der Zusammenhang zwischen A und A0 wird über die in §7 eingeführten
Transformationsmatrizen hergestellt. Es bezeichne S die Transformationsmatrix von
der Basis v1 , . . . , vn zur Basis v10 , . . . , vn0 von V und T die Transformationsmatrix von
0
der Basis w1 , . . . , wm zur Basis w10 , . . . , wm
von W . Die definierende Eigenschaft dieser
Transformationsmatrizen sind dabei die Formeln
Ψv (x) = Ψv0 (Sx) (x ∈ K n ), Ψw (x) = Ψw0 (T x) (x ∈ K m ),
d.h. die Matrix S übersetzt Koordinaten bezüglich v1 , . . . , vn in Koordinaten bezüglich
v10 , . . . , vn0 , und analog für T . Für jeden Vektor x ∈ K n haben wir dann
Ψw0 (A0 x) = f (Ψv0 (x)) = f (Ψv (S −1 x)) = Ψw (AS −1 x) = Ψw0 (T AS −1 x)
und dies bedeutet gerade
A0 = T AS −1 .
Damit haben wir den folgenden Satz bewiesen:
Satz 9.4 (Transformationsverhalten von Matrizen)
Seien V, W zwei endlichdimensionale Vektorräume über K und f : V → W eine lineare
Abbildung. Weiter seien v1 , . . . , vn und v10 , . . . , vn0 zwei Basen von V sowie w1 , . . . , wm
0
und w10 , . . . , wm
zwei Basen von W . Sind dann A die Matrix von f bezüglich der Basen
v1 , . . . , vn von V und w1 , . . . , wm von W , S die Transformationsmatrix von der Basis
v1 , . . . , vn von V zur Basis v10 , . . . , vn0 und T die Transformationsmatrix von der Basis
0
w1 , . . . , wm von W zur Basis w10 , . . . , wm
, so ist T AS −1 die Matrix von f bezüglich der
0
Basen v10 , . . . , vn0 und w10 , . . . , wm
.
Wir wollen dies einmal an unserem obigen Beispiel überprüfen. Wir haben
e2 = v1 + v2 + v3 ,
e1 = v1 + e2 = 2v1 + v2 + v3 ,
e3 = 3e2 − v3 = 3v1 + 3v2 + 2v3
145
Mathematik für Ingenieure I, WS 2008/2009
und die Transformationsmatrix von der Basis
damit gleich

2 1
S= 1 1
1 1
Dienstag 13.1.2009
e1 , e2 , e3 des R3 zur Basis v1 , v2 , v3 ist

3
3 .
2
Die Inverse von S ist die Transformationsmatrix in die andere Richtung, also


1 −1
0
3 .
S −1 =  −1 −1
0
1 −1
Ist A wieder die Matrix von f bezüglich der kanonischen Basis des R3 auf beiden
Seiten, so sagt unser Satz, dass AS −1 die Matrix von f bezüglich der Basen v1 , v2 , v3
und e1 , e2 , e3 ist. Dies können wir leicht verifizieren

 
 

1
1
1
1 −1
0
0 −1
2
2 −1  ·  −1 −1
3  =  −2 −3
7 ,
AS −1 =  0
1 −1
2
0
1 −1
2
2 −5
und wir erhalten tatsächlich die bereits oben berechnete Matrix. Unser Satz liefert uns
hier also wirklich das korrekte Ergebnis. Wir wollen nun auch noch die Matrix von f
bezüglich der Basis v1 , v2 , v3 auf beiden Seiten bestimmen. Wieder nach dem Satz ist
diese gleich

 
 

2 1 3
0 −1
2
−4 1 −4
7  =  4 2 −6  .
SAS −1 =  1 1 3  ·  −2 −3
1 1 2
2
2 −5
2 0 −1
Für lineare Abbildungen f : V → V eines Vektorraums in sich selbst, betrachtet man
natürlich in den allermeisten Fällen auf beiden Seite dieselbe Basis von V . Gehen wir
dann von einer Basis v1 , . . . , vn durch eine Transformationsmatrix S zu einer anderen
Basis v10 , . . . , vn0 von V über, so haben wir in der Situation des Satzes auf beiden Seiten
denselben Basiswechsel vorliegen, und unsere Formel wird zu A0 = SAS −1 .
Die Transformationsmatrizen selbst stellen sich nun auch als spezielle Beispiele
von Matrizen zu linearen Abbildungen heraus. Vergleichen wir einmal die Rechenverfahren zur Bestimmung von Transformationsmatrizen beziehungsweise von Matrizen
linearer Abbildungen. Die Transformationsmatrix ergab sich durch das Schema: Die
”
Spalten der Transformationsmatrix sind die Koeffizienten der Vektoren der ursprünglichen Basis bezüglich der neuen Basis“, während die Matrix einer linearen Abbildung
durch Die Spalten der Matrix sind die Koeffizienten der Bilder der Basiselemente des
”
linken Vektorraums bezüglich der Basis des rechten Vektorraums“. In beiden Rechnungen wird beidesmal fast dasselbe gemacht, bei der Transformationsmatrix werden
nur keine Bilder berechnet. Aber wir können etwas künstlich ein Berechnen von Bil”
dern“ hier hereininterpretieren, es werden halt Bilder bezüglich der linearen Abbildung
x 7→ x betrachtet. Damit sehen wir dann, dass die Transformationsmatrix von der
146
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
Basis v1 , . . . , vn von V zur Basis v10 , . . . , vn0 von V dasselbe wir die Matrix der linearen
Abbildung f : V → V ; x 7→ x bezüglich der Basen v1 , . . . , vn und v10 , . . . , vn0 ist.
Zum Abschluß dieses Abschnitts wollen wir noch, wie bereits angekündigt, die Begründung der Matrixmultiplikation liefern. Wir betrachten drei Vektorräume U, V, W
über K sowie zwei lineare Abbildungen f : U → V , g : V → W . Es ist eine leichte
Übung einzusehen, dass auch die Hintereinanderausführung g ◦ f : U → W linear ist.
Seien nun u1 , . . . , ur eine Basis von U , v1 , . . . , vn eine Basis von V und w1 , . . . , wm eine
Basis von W . Bezüglich dieser Basen haben wir eine Matrix A von f und eine Matrix
B von g. Für jeden Spaltenvektor x ∈ K r gilt nun
(g ◦ f )(Ψu (x)) = g(f (Ψu (x))) = g(Ψv (Ax)) = Ψw (BAx),
d.h. die Matrix von g ◦ f bezüglich unserer Basen ist gerade das Matrizenprodukt BA.
Damit entspricht die Multiplikation von Matrizen der Hintereinanderausführung linearer Abbildungen. Dies ist natürlich kein Zufall, die Multiplikation von Matrizen wurde
von vornherein so definiert, dass die Hintereinanderausführung linearer Abbildungen
der Multiplikation von Matrizen entspricht.
Diese Tatsache hat einige wichtige Konsequenzen, von denen wir hier nur eine
besonderns nützliche festhalten wollen. Zunächst folgt, dass eine lineare Abbildung
f : V → V genau dann bijektiv ist, also eine Umkehrabbildung f −1 : V → V hat,
wenn ihre Matrix A invertierbar ist, und die inverse Matrix A−1 ist dann die Matrix
der Umkehrabbildung f −1 . Weiter übersetzt sich der Satz Satz 3 in die folgende Tatsache: Gegeben seien zwei n × n Matrizen A, B über K. Es gelte AB = En oder auch
BA = En . Dann ist schon AB = BA = En , d.h. die Matrix A ist invertierbar mit
A−1 = B. Zum Überprüfen der Invertierbarkeit einer Matrix A reicht es also bereits
eine der beiden Gleichungen AB = En oder BA = En zu testen, die andere Gleichung
folgt dann automatisch. Gilt etwa BA = En , so folgt für zugehörige lineare Abbildungen f, g : V → V die Gleichung g ◦f = idV , also g(f (x)) = x für alle x ∈ V . Damit ist f
aber injektiv, denn sind x, y ∈ V mit f (x) = f (y), so folgt durch Anwenden von g auch
x = g(f (x)) = g(f (y)) = y. Nach Satz 3 ist f also sogar bijektiv und A ist invertierbar.
Für AB = En argumentiert man ähnlich mit Surjektivität statt Injektivität.
9.3
Der Rang einer Matrix
In diesem abschließenden Abschnitt wollen wir noch den Rang einer Matrix einführen.
Wir werden hier nur die Definition und mehr oder weniger kommentarlos einige Eigenschaften des Ranges angeben. In diesem Kapitel wurde schließlich wahrlich schon
genug bewiesen.
Definition 9.6: Der Rang einer m × n Matrix A ist die maximale Anzahl linear unabhängiger Spalten von A erzeugten. Wir schreiben dann auch rang A für den Rang
einer Matrix A.
Die Grundeigenschaften des Ranges sind nun die folgenden Tatsachen, die wir hier wie
schon bemerkt nicht mehr beweisen wollen:
147
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
(a) Ist f : V → W eine lineare Abbildung und ist A eine Matrix von f bezüglich
irgendwelcher Basen von V und W , so ist dim Bild(f ) = rang A.
(b) Der Rang einer Matrix ändert sich nicht bei elementaren Zeilen- und Spaltenumformungen.
(c) Entstehen bei Anwendung des Gaußschen Eliminationsverfahrens auf eine m × n
Matrix A genau r von Null verschiedene Zeilen, so ist r = rang A.
Diese letzte Eigenschaft zeigt uns, dass wir den Rang in Wahrheit schon die ganze
Zeit kennen, wir haben ihm nur bisher keinen Namen gegeben. Insbesondere können
wir den Rang einer Matrix leicht berechnen, wir müssen wieder nur das Gaußsche
Eliminationsverfahren laufen lassen, und schauen wieviele von Null verschiedene Zeilen
in der Stufenform überbleiben. Da wir Beispiele dieser Rechnungen schon reichlich
gesehen haben, wird hier auf ein konkretes Beispiel zur Rangberechnung verzichtet.
Der Rangbegriff erlaubt es uns auch alle unsere bisherigen Ergebnisse über lineare
Gleichungssysteme in einem sehr übersichtlichen Satz zusammenzufassen. Um diesen
Satz auszusprechen benötigen wir noch den Begriff eines affinen Teilraums eines Vektorraums. Dies sind einfach um einen konstanten Vektor verschobe Teilräume. Beispielsweise sind die eindimensionalen Teilräume eines Vektorraums, etwa des R3 , gerade die
durch Null gehenden Geraden in diesem Vektorraum und die eindimensionalen affinen
Teilräume sind dann sämtliche Geraden im Vektorraum.
Definition 9.7: Sei V ein Vektorraum. Ein affiner Teilraum von V ist eine Teilmenge
der Form A = U + v wobei U ein Teilraum von V ist und v ∈ V ein Vektor aus V ist.
Die Dimension des affinen Teilraums A ist dann als die Dimension dim U des Teilraums
U definiert.
Beispielsweise sind die nicht-leeren Lösungsmengen eines linearen Gleichungssystems
immer affine Teilräume des K n , dies ist im Wesentlichen gerade die Aussage des Satzes
§6.Satz 2.(b).
Satz 9.5 (Hauptsatz über lineare Gleichungssysteme)
Sei Ax = b ein lineares Gleichungssystem aus m Gleichungen in n Unbekannten. Dann
ist das lineare Gleichungssystem genau dann lösbar wenn der Rang der Koeffizientenmatrix A gleich dem Rang der erweiterten Koeffizientenmatrix (A|b) ist
r := rang A = rang(A|b).
In diesem Fall ist die Lösungsmenge des linearen Gleichungssystems ein (n − r)dimensionaler affiner Teilraum des K n .
Dieser Satz ist wie bereits gesagt eigentlich nur eine Zusammenfassung unserer bisherigen Ergebnisse über lineare Gleichungssysteme. Lösen wir das lineare Gleichungssystem
indem wir es über das Gaußsche Eliminationsverfahren in Stufenform bringen, so haben
wir bereits bemerkt, dass der Rang r von A gerade die Anzahl von Null verschiedenen
Zeilen im System in Stufenform ist. Die Gleichung ist dann genau dann lösbar wenn
148
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
die unteren n − r Einträge der rechten Seite dann gleich Null sind, und dies bedeutet
gerade, dass Hinzufügen der rechten Seite zu A den Rang nicht mehr ändert. Weiter
legt jede der r Zeilen ungleich Null eine der Unbekannten fest, d.h. es verbleiben n − r
frei wählbare Variablen.
$Id: anageo.tex,v 1.3 2009/01/18 21:24:38 hk Exp $
§10
Analytische Geometrie
Unter analytischer Geometrie versteht man die Behandlung geometrischer Probleme durch Beschreibung der geometrischen Objekte mittels Koordinaten. Im engeren
Sinne meinen wir hier damit die Beschreibung der geometrischen Gebilde durch Vektoren im Rn . Dabei sind hauptsächlich die beiden kleinen Dimensionen n = 2 und
n = 3 von Interesse, aber viele der hier vorgestellten Methoden funktionieren völlig
unabhängig von der Dimension. Der Gegensatz zu analytischer Geometrie ist die sogenannte synthetische Geometrie, die eben ohne Koordinaten auskommt. Diese haben
Sie bereits in der Schule kennengelernt, beispielsweise sind all die trickreichen Beweise geometrischer Eigenschaften, die nur mit Längen, Winkeln und so weiter arbeiten
Beispiele synthetischer Geometrie.
10.1
Das Skalarprodukt
Das Skalarprodukt zweier Vektoren im Rn , wobei Sie sich wie bereits bemerkt stets
n = 2 oder n = 3 vorstellen können, auch wenn dies keine Rolle spielt, ist eine Zahl,
eben ein Skalar. Eine Methode zur Definition des Skalarprodukts ist die Beschreibung
u · v = Länge von u · Länge von v · Cosinus des eingeschlossenen Winkels,
allerdings ist dies als Definition etwas unhandlich. Wir werden das Skalarprodukt auf
eine einfachere, wenn auch etwas weniger anschauliche, Art definieren und uns dann
klarmachen das es die oben erwähnte geometrische Interpretation hat.
Definition 10.1: Sind u, v ∈ Rn zwei Spaltenvektoren, so heißt die Zahl
u · v := u1 · v1 + · · · + un · vn
das Skalarprodukt von u und v. Beispielsweise ist

 

−1
1
 1  ·  −2  = −1 − 2 + 3 = 0.
3
1
149
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
Die Länge eines Spaltenvektors u ∈ Rn definieren wir als die Zahl
|u| :=
√
u · u.
Neben der hier verwendeten Multiplikationsschreibweise für das Skalarprodukt sind
noch viele andere alternative Schreibweisen üblich, beispielsweise
u · v = hu|vi = hu, vi = (u|v) = (u, v).
√
Die Bezeichnung Länge von u“ für |u| = u · u bedarf natürlich noch einer Be”
gründung. Diese wollen wir hier für n = 2 vorführen, der allgemeine Fall folgt hieraus,
da jeder Vektor im Rn in einem zweidimensionalen Teilraum, also in einem R2 liegt. Dies
ist zumindest für n ≥ 2 so, aber für n = 1 ist sowieso nichts zu zeigen.
Betrachte nun einen Vektor
u
x
2
u=
∈R .
y
l
y
Dann betrachten wir das nebenstehende rechtwinklige
Dreiecke. Die Komponenten x, y, beziehungsweise eigentlich ihre Beträge, sind dann die beiden Kathetenlängen
im diesem Dreieck. Nach dem Satz von Pythagoras addie0
x
ren sich ihre Quadrate damit zum Quadrat l2 der Länge
der Hypotenuse des Dreiecks. Aber diese wird gerade vom
p
Vektor u gebildet, ihre Länge ist also gerade die Länge des Vektors
u,
d.h.
l
=
x2 + y 2 .
p
√
Andererseits ist aber auch u · u = x2 + y 2 , d.h. u · u = x2 + y 2 ist tatsächlich die
Länge von u.
Wie bereits angekündigt wollen wir die eingangs beschriebene geometrische Interpretation des Skalarprodukts herleiten. Hierzu ist es sehr nützlich zunächst zu zeigen,
daß genau dann u · v = 0 ist wenn die beiden Vektoren u und v senkrecht aufeinander
stehen. Auch dies wollen wir wieder im ebenen Fall n = 2 nachweisen, da auch je zwei
Vektoren in einer Ebene liegen folgt hieraus wieder der allgemeine Fall. Gegeben seien
also zwei Vektoren
0 x
x
u=
,v=
,
y
y0
deren Skalarprodukt sich als u · v = xx0 + yy 0 ergibt. Wir können uns auf den Fall
u 6= 0 beschränken. Dass u und v senkrecht aufeinander stehen, bedeutet das v ein
Vielfaches des um π/2 (also 90◦ ) gedrehten Vektors u. Erinnern wir uns an die Matrix
einer Drehung um den Winkel φ
cos φ − sin φ
A(φ) =
sin φ
cos φ
150
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 13.1.2009
aus §7, so wird die Matrix unserer Drehung um π/2 wegen cos(π/2) = 0, sin(π/2) = 1
zu
0 −1
A=
.
1
0
Der gedrehte Vektor ist also
A·u=
0 −1
1
0
x
−y
·
=
.
y
x
Dass u und v senkrecht aufeinander stehen bedeutet nun also das v ein Vielfaches dieses
Vektors ist, also x0 = −cy, y 0 = cx für eine reelle Zahl c, und damit xx0 + yy 0 = 0.
Die Rückrichtung folgt dann ebenso. Damit haben wir das Senkrechtstehen durch die
Bedingung u · v = 0 beschrieben.
Diese kleine geometrische Tatsache läßt sich nun leicht zur geometrischen Beschreibung des allgemeinen Skalarprodukts erweitern. Wieder können wir uns auf den ebenen
Fall n = 2 beschränken. Gegeben seien also wieder zwei Vektoren u und v im R2
v
w
u
p
0
Wir betrachten dann den von u und v eingeschlossenen Winkel φ. Weiter fällen wir
das Lot von v auf die Gerade durch 0 und u. Der Lotfußpunkt werde mit p bezeichnet,
und den Vektor von p nach v nennen wir w, d.h. es ist v = p + w wobei u und w
senkrecht aufeinander stehen. Wie bereits gezeigt ist damit u · w = 0. Weiter ist p ein
Vielfaches von u, wir können also p = λu mit einer reellen Zahl λ ∈ R schreiben. Im
obigen Bild ist der Winkel φ kleiner als π/2, und damit liegt p auf derselben Seite wie
u und wir haben λ ≥ 0. Ist φ größer als π/2, so liegt p links von 0 und es wird λ < 0,
aber diesen Fall wollen wir nicht gesondert ausführen da er zu keinem anderen Ergebnis
führt. Damit ist v = p + w = λu + w und wir rechnen
u · v = u · (λu + w) = λ u · u + u · w = λ|u|2 .
Dabei haben wir die aus der Definition des Skalarprodukts offensichtlichen Formeln
x · (y + z) = x · y + x · z, x · (λy) = λ x · y verwendet. Um nun den Winkel φ in Geschäft
151
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
zu bringen betrachten wir noch das von 0, p und v gebildete rechtwinklige Dreieck. Die
Ankathete bezüglich des Winkels φ hat in diesem Dreieck die Länge |p| = λ|u|, und die
Hypotenuse wird vom Vektor v gebildet, hat also die Länge |v|. Also ist cos φ = λ|u|/|v|.
Damit rechnen wir nun
|u| · |v| · cos φ = |u| · |v| ·
λ|u|
= λ|u|2 = u · v.
|v|
Vorlesung 20, Freitag 16.1.2009
v
w
u
p
0
Wir wollen noch eine weiteres Ergebnis der eben durchgeführten Überlegung festhalten.
Den eben verwendeten Lotfußpunkt p nennt man auch die Projektion des Vektors v in
Richtung von u, oder auf u. Unsere obige Formel besagt dann
p = λu =
u·v
|u · v|
· u, |p| = |λ| · |u| =
.
2
|u|
|u|
Insbesondere ist damit
p·u=
u·v
· (u · u) = u · v.
|u|2
Diese Beobachtungen bilden auch die Grundlage für die Bedeutung des Skalarprodukts
in der Mechanik. Dort treten Vektoren zumeist bei der Beschreibung wirkender Kräfte
auf. Denken wir uns, dass der Vektor eine Kraft beschreibt, so interessiert man sich hier
für den in Richtung von u wirkenden Teil der Kraft. Um diesen zu ermitteln zerlegt
man v in einen zu u parallelen und einen zu u senkrechten Teil, und dies ist gerade
unsere oben verwendet Zerlegung v = p + w. Der in Richtung u wirkende Teil der Kraft
ist dann also p = λu = ((u · v)/|u|2 )u. In der Regel wird die Richtung dann durch einen
152
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
Einheitsvektor beschrieben, d.h. wir haben |u| = 1 und somit p = (u · v)u. Der Betrag
der in Richtung u wirkenden Kraft ist dann |p| = |u · v|.
In §8 hatten wir bemerkt, dass die Determinante, beziehungsweise ihr Betrag, das
Volumen des von den Spalten der Determinante aufgespannten Parallelepipeds angibt.
An dieser Stellen wollen wir dies für den ebenen Fall n = 2 auch einmal nachweisen.
Hierzu betrachten wir die Fläche F des durch u und v gegebenen Parallelogramms:
v
w
u
p
0
so haben wir F = |u| · |w|, da wir etwa das rechts abgetrennte Teildreieck links wieder
anhängen können und ein Rechteck mit den Seitenlängen |u| und |v| erhalten. Betrachten wir erneut unser rechtwinkliges Dreieck von oben, so können wir aus diesem die
Länge |w| als |w| = |v| sin φ gewinnen, und somit wird die Fläche des von u und v
aufgespannten Parallelogramms zu
F = |u| · |w| = |u| · |v| · sin φ.
Dabei betrachten wir hier den Fall, dass u und v sich wie im obigen Bild verhalten,
der Punkt v also oberhalb von u liegt und der Winkel φ von u nach v kleiner als π ist,
denn dann ist sin φ > 0. Quadrieren wir die Gleichung, so wird
F 2 = (|u| · |w|)2 = |u|2 |v|2 sin2 φ = |u|2 |v|2 (1 − cos2 φ) = |u|2 |v|2 − (u · v)2 .
Setzen wir hier u = (u1 , u2 ), v = (v1 , v2 ) ein, so wird dieser Ausdruck zu
F 2 = (u21 + u22 ) · (v12 + v22 ) − (u1 v1 + u2 v2 )2
= u21 v12 + u21 v22 + u22 v12 + u22 v22 − u21 v12 − u22 v22 − 2u1 u2 v1 v2
2
u
v
1
1
,
= u21 v22 + u22 v12 − 2u1 u2 v1 v2 = (u1 v2 − u2 v1 )2 = u2 v 2 d.h. es ist tatsächlich F = | det(u, v)|. Auch das Vorzeichen der Determinante det(u, v)
hat eine geometrische Bedeutung. Um diese zu sehen betrachten wir die beiden möglichen Konstellationen von u und v
153
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
v
0
u
0
Positive Basis, det(u,v) > 0 u
Negative Basis, det(u,v) < 0
v
Wir drehen den Vektor u, beziehungsweise genauer die von ihm erzeugte Halbgerade,
gegen den Uhrzeigersinn zum Vektor v. Im linken Bild ist der dabei auftretende Drehwinken φ kleiner als π, und wir nennen die Basis u, v positiv. Im rechten Bild ist der
Winkel φ größer als π und wir haben eine negative Basis. Welcher der beiden Fälle
vorliegt läßt sich an der Determinante det(u, v) ablesen, ist diese positiv, so ist die
Basis positiv, und ist sie negativ, so ist die Basis negativ.
10.2
Die Hessesche Normalform
Die Hessesche Normalform ist eine Beschreibung von Geraden in der Ebene und von
Ebenen im Raum, und allgemeiner von (n−1)-dimensionalen affinen Teilräumen im Rn .
Der Vollständigkeit halber wollen wir diese Begriffe erst einmal in Vektorraumsprache
einführen:
Definition 10.2: Eine Gerade im Rn ist ein eindimensionaler affiner Teilraum des
Rn , und eine Ebene im Rn ist ein zweidimensionaler affiner Teilraum des Rn . Eine
Hyperebene im Rn ist ein (n − 1)-dimensionaler affiner Teilraum des Rn .
Starten wir einmal mit Geraden im Rn . Diese sind eindimensionale affine Teilräume,
haben also die Form
{v + tu|t ∈ R} (Parameterform oder Aufpunkt-Richtung Form).
Dabei ist der Aufpunkt v irgendein Punkt der Geraden, ist also keinesfalls eindeutig.
Auch der Richtungsvektor u ist nicht eindeutig festgelegt, mit u funktioniert auch jedes
Vielfache von u, natürlich mit Ausnahme des Nullvektors. Nehmen wir als ein Beispiel
einmal die Gerade
154
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
y
y=x−1
o
p
x
q
gegeben als y = x − 1. Als Aufpunkt können wir dann irgendeinen Punkt, etwa den
eingezeichneten Punkt p nehmen. Als Richtung können wir dann beispielsweise den
Vektor von q nach p, also u = p − q benutzen, also haben wir als (eine) AufpunktRichtung Form
1
1
0
1
1
1+t
+t·
−
=
+t·
=
, t ∈ R.
0
0
−1
0
1
t
Auch für Ebenen haben wir eine entsprechende Aufpunkt-Richtung, beziehungsweise
Parameterform. Da Ebenen als zweidimensionale affine Teilräume definiert sind, brauchen wir hier gleich zwei Richtungsvektoren und entsprechend auch zwei Parameter
{v + tu + sw|t, s ∈ R}.
Wir kommen nun zu einer weiteren Beschreibung von Hyperebenen im Rn . Jeder kdimensionale affine Teilraum des Rn läßt sich durch ein lineares Gleichungssystem aus
n − k Gleichungen in n Unbekannten beschreiben. Da Hyperebenen ja als (n − 1)dimensionale affine Teilräume definiert sind, lassen sich diese durch eine einzige lineare
Gleichung
a1 x 1 + · · · + an x n = c
beschreiben. Im Fall n = 2 wird dies zur Beschreibung einer Geraden durch eine Gleichung
ax + by = c (Implizite Form),
beziehungsweise für n = 3 zur Beschreibung einer Ebene durch ebenfalls eine Gleichung
ax + by + cz = d (Implizite Form).
In unserem obigen Beispiel einer Geraden ist diese leicht zu erhalten, die Gerade war
ja ursprünglich als y = x − 1 gegeben, die implizite Form ist also x − y = 1. Man
155
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
kann die implizite Form der Gleichung einer Hyperebene nun auch noch in Termen des
Skalarprodukts deuten. Betrachten wir den Vektor


a1


a :=  ...  ∈ Rn
an
so wird für jeden Vektor x ∈ Rn
a1 x1 + · · · + an xn = a · x,
d.h. die implizite Form einer Hyperebene läßt sich als
a · x = c (Implizite Form als Skalarprodukt)
schreiben. Der Vektor a ist dann normal zur beschriebenen Hyperebene, steht also
senkrecht auf ihr. Sind nämlich x, y zwei Punkte der Hyperebene, also a · x = a · y = c,
so ist a · (x − y) = a · x − a · y = c − c = 0. In unserem Beispiel einer Geraden war die
implizite Form als x − y = 1 gegeben, der Vektor a ist hier also
1
a=
.
−1
Auch die implizite Form einer Geraden oder einer Ebene ist nicht eindeutig. Die Gerade
x − y = 1 können wir zum Beispiel ebensogut durch 2x − 2y = 2 beschreiben. Die
Hessesche Normalform einer Hyperebene im Rn ist ein Spezialfall der impliziten Form
dieser Hyperebene. Als Hessesche Normalform bezeichnet man eine implizite Form
n · x = c, |n| = 1 (Hessesche Normalform)
bei der der konstante Vektor n ein Einheitsvektor ist, für den also |n| = 1 gilt. Den
Vektor n bezeichnet man als Normalenvektor der Hyperebene, und schreibt daher auch
n“ anstelle von a“. Aus einer bereits vorhandenen impliziten Form a · x = c, ist es
”
”
leicht eine Hessesche Normalform zu gewinnen, man teilt a einfach durch seine Länge.
Die Hessesche Normalform wird
a
c
·x=
|a|
|a|
also n · x = c0 mit n = a/|a|, c0 = c/|a|. Im unseren Geradenbeispiel ist
!
√ √1
√
√
1
1
1√
1
2
0
2
√
a=
, |a| = 1 + 1 = 2, n = √ a =
=
,
c
=
2,
−1
− √12
2 − 2
2
2
die Hessesche Normalform ist also
n·x=
1√
2.
2
156
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
Auch die Hessesche Normalform ist nicht ganz eindeutig, man kann von n noch zu
−n, und dann rechts natürlich zu −c, übergehen, aber bis auf dieses Vorzeichen ist
die Hessesche Normalform eindeutig festgelegt. Die rechte Seite c in der Hesseschen
Normalform hat auch noch eine direkte geometrische Bedeutung, der Betrag |c| ist
gerade der Abstand der Geraden zum Nullpunkt. Wir wollen uns dies einmal für eine
Gerade in der Ebene klarmachen, aber genau dasselbe Argument funktioniert dann
auch im n-dimensionalen Fall.
Wir betrachten also eine Gerade g, die in Hessescher
x
Normalform durch n · x = c gegeben ist. Weiter betrachp
ten wir dann das Lot auf der Geraden g durch den Nullpunkt und bezeichnen den Lotfußpunkt, also den Schnitt
der Lotgeraden mit g, als p. Der Abstand l := |p| von p
l
zu 0 ist dann der Abstand der Geraden g von Null. Ist
0
nämlich x ein beliebiger Punkt auf g, so haben wir das
rechts angedeutete rechtwinklige Dreieck, und erhalten
|x|2 = l2 + |x − p|2 ≥ l2 ,
also auch |x| ≥ l. Nun ist der Vektor p aber senkrecht auf der Geraden g, also ist p
ein Vielfaches des Normalenvektors n. Wir können also p = λn mit einer reellen Zahl
λ schreiben, und erhalten |λ| = |λn| = |p| sowie
c = n · p = n · (λn) = λn · n = λ|n|2 = λ,
√
also |c| = |λ| = |p| = l. In unserem Beispiel ist also 2/2 gerade der Abstand der
Geraden x − y = 1 zum Nullpunkt. Dies können wir natürlich auch direkt einsehen:
y
x
o
Der Abstand der Geraden zum Nullpunkt ist gerade die halbe√Länge der Diagonale in
einem Quadrat mit der Seitenlänge 1, und letztere ist gerade 2.
157
Mathematik für Ingenieure I, WS 2008/2009
10.3
Freitag 16.1.2009
Das Vektorprodukt
Das Vektorprodukt ist ein spezifisch dreidimensionales Phänomen, es ordnet zwei Vektoren u, v ∈ R3 einen weiteren Vektor u × v ∈ R3 zu, genannt das Vektorprodukt oder
auch das Kreuzprodukt von u und v. Wie für das bereits behandelte Skalarprodukt
gibt es zwei mögliche Arten das Vektorprodukt einzuführen, eine algebraische und eine
mehr geometrische Methode. Wir werden die algebraische Form als Definition verwenden, wollen aber erst mal die geometrische Beschreibung des Vektorprodukts angeben.
Zunächst soll u × v senkrecht auf u und auf v stehen. Sind insbesondere u und v linear
unabhängig, so wird u × v senkrecht auf der von u und v aufgespannten Ebene sein.
Hierdurch ist das Vektorprodukt aber noch nicht festgelegt, die auf u und v senkrechten Vektoren bilden einen eindimensionalen Teilraum des R3 , zumindest wenn u und v
linear unabhängig sind.
Als nächste Einschränkung soll die Länge des Vektorprodukts gerade die Fläche
des von u und v aufgespannten Parallelograms sein. Dadurch ist das Skalarprodukt
fast vollständig festgelegt, es gibt gerade zwei auf u, v senkrechte Vektoren einer vorgeschriebenen Länge. Welcher dieser beiden Vektoren als Vektorprodukt verwendet wird,
ist durch die dritte Eigenschaft des Vektorprodukts festgelegt, die drei Vektoren u, v
und u × v sollen eine positive Basis des R3 bilden, also eine deren Determinante positiv ist. Dies beschreibt zumindest den Fall wenn u und v linear unabhängig sind,
andernfalls wird einfach u × v = 0 sein.
Wie im zweidimensionalen Fall läßt sich auch wieder sagen was die Positivität einer
Basis geometrisch bedeutet. Eine Basis u, v, w des R3 ist positiv, wenn sie ein Rechtssystem bildet, also wie die x-, y- und z-Achse im R3 angeordnet ist. Eine populäre andere
Formulierung dieser Bedingung ist die Rechte Hand Regel“. Halten Sie den Daumen
”
der rechten Hand in Richtung des ersten Basisvektors u, und den Finger daneben in
Richtung des zweiten Basisvektors v, so richtet sich der Mittelfinger in Richtung des
dritten Basisvektors w aus. Algebraisch erkennt man dies, wie bereits bemerkt, einfach daran das det(u, v, w) > 0 ist. Wir kommen nun zur algebraischen Definition
des Vektorprodukts, und werden dann im folgenden nachweisen, dass diese Definition
tatsächlich die obige geometrische Beschreibung verwirklicht.
Definition 10.3: Seien u, v ∈ R3 . Das Vektorprodukt von u und v ist dann der Vektor
u1 v1 e1 u × v := u2 v2 e2 ∈ R3 .
u3 v3 e3 Dabei stehen e1 , e2 , e3 wieder für die drei kanonischen Basisvektoren des R3 .
Wir verwenden hier die bisher nicht bemerkte Tatsache, dass wir auch Determinanten
bilden können in denen Zahlen und Vektoren gemischt auftreten. Die Determinante war
ja eine Summe von Produkten, haben wir also Zahlen und Vektoren in der Determinante
stehen, so treten die folgenden Typen von Produkten auf:
1. Produkte von Zahlen. Was diese bedeuten ist klar.
158
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
2. Produkte aus mehreren Zahlen und genau einem Vektor. Multiplizieren wir dann
die Zahlen, so erhalten wir einen Skalar, den wir mit dem Vektor multiplizieren
können und einen neuen Vektor erhalten.
3. Produkte in denen mindestens zwei Vektoren auftreten. Diese Produkte fassen
wir einfach als Null auf.
Dass der so erweiterte Determinantenbegriff weiter all unsere in §8 hergeleiteten Eigenschaften hat, ist zwar nicht schwer zu sehen, erfordert aber einen etwas abstrakter
angelegten Zugang zur Determinantentheorie, als den in dieser Vorlesung verwendeten
Weg. Daher wollen wir dies an dieser Stelle einfach glauben. Eine etwas direktere Beschreibung des Vektorprodukts u × v erhalten wir, indem wir die obige Determinante
nach der dritten Spalte entwickeln. Das Vektorprodukt wird dann zu
u1 v1 e1 u2 v 2 u1 v 1 u1 v 1 ·e
·e +
·e −
u × v = u2 v2 e2 = u3 v 3 1 u3 v 3 2 u2 v 2 3
u3 v3 e3 
 u2 v 2  u3 v 3 

 

 
u
v
−
u
v
2
3
3
2
 u1 v 1 
  u3 v 1 − u1 v 3  .
=
 − u3 v 3  =


u1 v 2 − u2 v 1
 
 u1 v 1 
u2 v 2 Insbesondere ist das tatsächliche Berechnen von Kreuzprodukten einfach möglich

 
 
 

1
3
2 − 10
−8
 −1  ×  5  =  −(−2 − 6)  =  8  .
2
−2
5+3
8
Einige der algebraischen Grundeigenschaften des Vektorprodukts folgen sofort aus der
algebraischen Definition. Da eine Determinante genau dann Null ist, wenn ihre Spalten
linear abhängig sind, erhalten wir
u × v = 0 ⇐⇒ u und v sind linear abhängig.
Vertauschen wir in einer Determinante zwei Spalten, so ändert sich das Vorzeichen der
Determinante, also
u × v = −v × u.
Da die Determinante in jeder ihrer Spalten linear ist, haben wir ebenfalls
(u1 +u2 )×v = u1 ×v +u2 ×v, u×(v1 +v2 ) = u×v1 +u×v2 , λ·u×v = (λu)×v = u×(λv)
für u, v, u1 , u2 , v1 , v2 ∈ R3 , λ ∈ R. Wir wollen nun beginnen uns die eingangs gegebene
geometrische Beschreibung des Vektorprodukts herzuleiten. Es stellt sich als nützlich
159
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
heraus, zunächst einmal für u, v, w ∈ R3 die folgende Kombination von Skalarprodukt
und Vektorprodukt zu berechnen
u1 v1 w1 u1 v 1 u1 v 1 u2 v2 w3 = u2 v2 w2 = det(u, v, w).
w2 + w1 − (u×v)·w = u2 v 2 u3 v 3 u3 v 3 u3 v3 w3 Man bezeichnet
(u × v) · w = det(u, v, w)
auch als das Spatprodukt der drei Vektoren u, v, w. Insbesondere haben wir nun
(u × v) · u = det(u, v, u) = 0
da die Determinante det(u, v, u) zwei identische, also insbesondere linear abhängige,
Spalten hat. Ebenso ist (u × v) · v = 0. Andererseits haben wir bereits eingesehen, dass
(u × v) · u = 0 gerade bedeutet, dass u × v senkrecht auf u steht, und ebenso steht dann
u × v senkrecht auf v. Damit haben wir die erste der obigen drei Bedingungen an das
Vektorprodukt eingesehen. Wir kommen nun zur Länge von u × v
2
|u × v|
u2 v 2 2 u1 v 1 2 u1 v 1 2
+
= u3 v 3 + u2 v 2 u3 v 3 = (u2 v3 − u3 v2 )2 + (u1 v3 − u3 v1 )2 + (u1 v2 − u2 v1 )2
= u22 v32 + u23 v22 + u21 v32 + u23 v12 + u21 v22 + u22 v12
−2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 )
2
= (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u21 v12 + u22 v22 + u23 v32
+2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 ))
= (u21 + u22 + u23 ) · (v12 + v22 + v32 ) − (u1 v1 + u2 v2 + u3 v3 )2
= |u|2 |v|2 − (u · v)2 .
Andererseits haben wir bereits bei der Diskussion des Skalarprodukts festgehalten,
dass |u|2 |v|2 − (u · v)2 gerade das Quadrat der Fläche des von u und v aufgespannten
Parallelograms ist. Folglich ist die Länge |u×v| gerade die Fläche dieses Parallelograms.
Es verbleibt nur noch zu zeigen, dass u, v, u × v eine positive Basis des R3 ist, wenn u
und v linear unabhängig sind. Dies ist aber mit unserer obigen Formel (u × v) · w =
det(u, v, w) klar
det(u, v, u × v) = (u × v) · (u × v) = |u × v|2 > 0.
Damit haben wir auch die geometrische Beschreibung des Vektorprodukts verifiziert.
Wir wollen uns nun noch über die geometrische Bedeutung des Spatprodukts klar
werden.
160
Mathematik für Ingenieure I, WS 2008/2009
Freitag 16.1.2009
w
uxv
v
F
0
u
Wir wollen uns überlegen, dass (u × v) · w gerade das Volumen des von u, v, w aufgespannten Spats ist, wie im obigen Bild angedeutet. Beachte dazu, das sich das Volumen
einer Teilmenge des R3 unter Scherungen nicht ändert, das Volumen V des Spats ergibt sich also als das Produkt F · l, wobei F die Fläche des von u und v aufgespannten
Parallelograms ist, und l die Länge der Projektion von w auf eine zu diesem Parallelogram senkrechte Gerade ist. Wie bereits gesehen steht das Vektorprodukt u × v
senkrecht auf u und v, also auch auf unserem Parallelogram. Wie bei der Diskussion
des Skalarprodukts gezeigt, ist die Länge der Projektion von w auf u × v gegeben als
l=
(u × v) · w
.
|u × v|
Andererseits haben wir auch bereits eingesehen, dass die Fläche F unseres Parallelograms gerade die Länge des Vektorprodukts u × v ist, d.h. wir haben
V = F · l = |u × v| ·
(u × v) · w
= (u × v) · w.
|u × v|
Das Spatprodukt ist also das Volumen unseres Spats versehen mit einem Vorzeichen.
Insbesondere ist dieses Volumen auch gleich V = (u × v) · w = det(u, v, w). Damit
haben wir die in §8 angemerkte Bedeutung der Determinante als Volumen auch für
n = 3 eingesehen. Das Vorzeichen des Spatprodukts zeigt wieder an, ob u, v, w eine
positive Basis bilden oder nicht, ist also positiv für ein Rechtssystem und negativ für
ein Linkssystem.
Das Vektorprodukt hat vielfältige Anwendungen. Wollen wir beispielsweise zu einer
in Aufpunkt-Richtung Form gegebenen Ebene
E = {v + tu + sw|t, s ∈ R}
eine implizite Form berechnen, so benötigen wir einen auf der Ebene senkrechten Vektor, d.h. einen zu u und w senkrechten Vektor. Ein kanonisches Beispiel für einen
solchen Vektor ist dann durch das Vektorprodukt a = u × w gegeben. Oft tritt das
Vektorprodukt bei der Behandlung von Drehungen in der Mechanik auf. Denken wir
161
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
uns etwa einen um einen Punkt z drehbaren Körper im Raum gegeben, und lassen
eine Kraft F in einem Punkt p auf den Körper wirken, so betrachten wir den Vektor
r := p − z von z nach p, und bezeichnen das Vektorprodukt
M =r×F
als Drehmoment. Die Richtung des Drehmoments M gibt dabei die Achse durch z an,
um die der Körper in Drehung versetzt wird, und die Länge des Drehmoments gibt die
Geschwindigkeit dieser Drehung.
Die algebraischen Eigenschaften des Vektorprodukts sind ganz anders als diejenigen
der gewöhnlichen Multiplikation. Wir hatten beispielsweise schon gesehen, dass für alle
u, v ∈ R3 stets u × v = −v × u ist, und das u × v = 0 sein kann selbst wenn u, v 6= 0
beide nicht Null sind. Das Vektorprodukt ist auch nicht assoziativ, man kann also nicht
einfach Klammern weglassen. Als Ersatz für das Assoziativgesetz gibt es die sogenannte
Jacobi-Identität
u × (v × w) + v × (w × u) + w × (u × v) = 0
für alle u, v, w ∈ R3 . In den Übungen wird auch noch die Formel
u × (v × w) = (u · w)v − (u · v)w
für alle u, v, w ∈ R3 gezeigt.
$Id: folgen.tex,v 1.5 2009/01/26 11:02:37 hk Exp $
Vorlesung 21, Dienstag 20.1.2009
III. Analysis
§11
Reelle und komplexe Zahlenfolgen
In einem groben Sinne ist Analysis“ alles was mit Grenzwerten und verwandten
”
Konzepten zu tun hat. In der inzwischen etwas altertümlichen Bezeichnung Infinitesi”
malrechnung“ kam dies sogar noch etwas klarer zum Ausdruck. Es gibt viele verschiedene Arten von Grenzwerten, in der Regel lassen sie alle sich auf den hier einzuführenden
Begriff des Grenzwerts von Folgen zurückführen, auch wenn dies oftmals nicht die
günstigste Formulierung ist. Der Grenzwertbegriff für Folgen entfaltet seine Wirkung
162
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
meist etwas im Hintergrund, also bei Beweisen und anderen theoretischen Überlegungen, es gibt zwar auch einige direkte, nahezu praktische, Anwendungen, aber dies sind
nicht allzu viele, zumindest nicht in unserem Kontext. Sie sollten also nicht erwarten,
dass Folgengrenzwerte auch nur ansatzweise die praktische Bedeutung von Ableitungen
und Ähnlichen haben, sie sind aber auch nicht ganz nutzlos.
11.1
Folgen
Eine Folge besteht aus einer unendlichen Reihe reeller oder komplexer Zahlen, die durch
eine natürliche Zahl als Index beschrieben werden
a1 , a2 , a3 , . . . .
Sind alle diese Zahlen reell, so spricht man von einer reellen Zahlenfolge, und sonst von
einer komplexen Zahlenfolge (wenn man will kann man eine reelle Zahlenfolge natürlich
auch als eine komplexe Zahlenfolge auffassen). Sehr oft ist die Folge durch eine Formel
gegeben, etwa
an = 2n für 2, 4, 8, 16, . . .
oder
an = in
für i, −1, −i, 1, i, . . . .
Als kleine Variante ist es auch zugelassen, dass die Folge bei einem Startindex n0 ∈ N0
beginnt, also beispielsweise
an = q n
oder
an =
(n ∈ N0 ) für 1, q, q 2 , . . .
1
n(n − 1)
(n ≥ 2) für
1 1 1
, , ,....
2 6 12
Man verwendet dann Ausdrücke wie (an )n∈N , (an )n∈N0 , (an )n≥n0 , und so weiter, um die
gesamte Folge zu bezeichnen. Etwas formaler definieren wir also:
Definition 11.1: Sei n0 ∈ N0 . Eine Folge mit Startindex n0 ist eine Abbildung
a : {n ∈ N0 |n ≥ n0 } → C; n 7→ an ,
wir denken uns also an als eine andere Schreibweise für a(n). Den Teil mit Startindex
”
n0“ lassen wir meist weg, und sprechen einfach von einer Folge.
Eine Teilfolge einer Folge (an )n∈N ist eine Folge, die aus einigen, aber in der Regel
nicht allen, Gliedern der Folge (an )n∈N gebildet ist, zum Beispiel ist die Folge
q, q 4 , q 9 , q 16 , . . .
eine Teilfolge von 1, q, q 2 , q 3 , q 4 , . . . .
Anders gesagt hat eine Teilfolge der Folge (an )n∈N die Form (ank )k∈N mit n1 < n2 <
n3 < · · · , d.h. das k-te Glied der Teilfolge ist das nk -te Glied der Ausgangsfolge.
163
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
Entsprechend wird dies für die Folgen mit anderen Startindizes definiert. Haben wir
etwa wie im Beispiel die Ausgangsfolge an = q n für n ∈ N0 , so ist die Teilfolge des
2
Beispiels gegeben als an = q n für n ∈ N. Hier ist also nk = k 2 für jedes k ∈ N. Wir
wollen nun die Begriffe der Beschränktheit und Monotonie für Folgen einführen.
Definition 11.2: Sei (an )n∈N eine reelle Folge. Die Folge heißt nach unten beschränkt,
wenn es eine Zahl a ∈ R mit an ≥ a für jedes n ∈ N gibt. Jede solche Zahl a ∈ R heißt
eine untere Schranke der Folge. Analog heißt die Folge nach oben beschränkt, wenn es
eine Zahl b ∈ R mit an ≤ b für alle n ∈ N gibt, und jede solche Zahl b ∈ R heißt dann
eine obere Schranke der Folge.
Es ist dabei nicht verlangt, dass die obere oder die untere Schranke in irgendeiner
Weise optimal gewählt, oft ist dies auch praktisch gar nicht möglich.
an
n
Eine Folge kann graphisch etwa durch Einzeichnen einiger Punkte der Folge dargestellt
werden. Optional, und rein nach Geschmack, kann man diese Punkte dann noch wie im
obigen Bild miteinander verbinden, diese Verbindungslinien dienen dann aber keinen
inhaltlichen Zwecken, sie sind rein dekorative Elemente. Dass die Folge nach oben
beschränkt ist, bedeutet dann das sie ganz unterhalb einer, hier dick eingezeichneten,
waagerechten Linie verläuft. Für Beschränktheit von unten haben wir entsprechend
eine Linie unterhalb der Folge. Gehen wir einige Beispiele durch. Die Folge
an =
1
n
ist nach unten durch 0 und nach oben durch 1 beschränkt. Ebenso ist die Folge
an = (−1)n nach unten durch −1 und nach oben durch 1 beschränkt. Eine nach oben
unbeschränkte Folge ist die Folge an = n, die zwar nach unten durch 1 aber nicht nach
oben beschränkt ist. Es gibt natürlich auch Folgen, die weder nach oben noch nach
unten beschränkt sind, beispielsweise die Folge
an = (−1)n n.
164
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
Ein etwas komplizierteres Beispiel ist die Folge
n
X
1
1
1
1
= 1 + + + ··· + .
an :=
k!
1! 2!
n!
k=0
Diese Folge ist offenbar durch 1 nach unten beschränkt, es ist aber nicht sofort ersichtlich ob sie nach oben beschränkt ist. Zwar werden die Summanden 1/k! sehr schnell
klein, auf der anderen Seite kommen aber immer mehr Summanden hinzu. Hier muss
man tatsächlich rechnen, um zu sehen welcher dieser beiden gegensätzlichen Einflüsse
sich letztlich durchsetzt. Wir wollen uns klarmachen, dass 3 eine obere Schranke dieser
Folge ist, d.h. wir wollen an ≤ 3 für alle n ∈ N0 zeigen. Wegen a0 = 1, a1 = 2 ist dies
für n = 0, 1 klar. Nun sei n ≥ 2 gegeben. Dann rechnen wir
n
n
n
X
X
X
1
1
1
an =
=2+
≤2+
k!
k(k − 1) · (k − 2)!
k(k − 1)
k=0
k=2
k=2
n X
1
1
1
−
=3− ≤3
=2+
k−1 k
n
k=2
da
n X
1
1
1
1 1
1 1
1
1
1
−
= 1−
+
−
+
−
+ ··· +
−
=1−
k−1 k
2
2 3
3 4
n−1 n
n
k=2
gilt, eine sogenannte Zieharmonika-Summe. Wir wollen noch ein letztes Beispiel behandeln, die Folge
n
1
an = 1 +
.
n
Offenbar ist 1 eine untere Schranke dieser Folge, und wir wollen uns klarmachen, dass sie
nach oben durch 3 P
beschränkt
ist. Um dies zu zeigen müssen wir uns an die binomische
Formel (a + b)n = nk=0 nk ak bn−k aus §3 erinnern. Mit dieser rechnen wir
1
1+
n
n
n n
X
X
n 1
(n − k + 1) · . . . · n 1
=
=
· k
k
k n
k!
n
k=0
k=0
X
n
n
X
1
1
n−k+1
n
·
· ... ·
≤
≤ 3.
=
k!
n
n
k!
k=0
k=0
Wir werden eine reelle Zahlenfolge beschränkt nennen wenn sie nach unten und nach
oben beschränkt ist. Gleichwertig hierzu ist die Existenz eines c ≥ 0 mit |an | ≤ c für
alle n ∈ N. In der Tat, ist (an )n∈N nach unten und oben beschränkt, so gibt es a, b ∈ R
mit a ≤ an ≤ b für alle n ∈ N. Ist dann c := max{−a, b} die größere der beiden Zahlen
−a und b, so ist für jedes n ∈ N entweder an ≥ 0 und |an | = an ≤ b ≤ c oder an < 0
und |an | = −an ≤ −a ≤ c. Haben wir umgekehrt ein c ≥ 0 mit |an | ≤ c für alle
165
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
n ∈ N, so ist für jedes n ∈ N auch −c ≤ an ≤ c, d.h. die Folge ist nach unten und
oben beschränkt. Damit können wir Beschränktheit auch für komplexe Zahlenfolgen
einführen:
Definition 11.3: Eine komplexe Zahlenfolge (an )n∈N heißt beschränkt, wenn es ein
c ≥ 0 mit |an | ≤ c für alle n ∈ N gibt.
Wie gezeigt ist dann eine reelle Zahlenfolge genau dann beschränkt, wenn sie nach oben
und nach unten beschränkt ist. Insbesondere sind die obigen Beispielfolgen auch alles
Beispiele beschränkter Folgen. Wir wollen als ein Beispiel einer komplexen Zahlenfolge
die Folge an = q n für n ∈ N0 mit einer komplexen Zahl q ∈ C betrachten. In §4.Satz
2.(c) haben wir |zw| = |z| · |w| für alle z, w ∈ C gezeigt, und per Induktion folgt
|z n | = |z|n für alle z ∈ C, n ∈ N0 . Wir müssen nun zwei Fälle unterscheiden. Zunächst
sei |q| ≤ 1. Dann folgt für jedes n ∈ N0 auch |q n | = |q|n ≤ 1, und die Folge (q n )n∈N
ist beschränkt. Jetzt nehmen wir |q| > 1 an. Dann ist |q| − 1 > 0 und für jedes n ∈ N
haben wir mit der binomischen Formel
n X
n
n
k
n
n
n
(|q| − 1) ≥ 1 +
(|q| − 1) = 1 + n(|q| − 1),
|q | = |q| = (1 + (|q| − 1)) =
k
1
k=0
denn da in dieser Summe alle Summanden positiv sind, können wir die hinteren Terme
für k = 2, 3, . . . , n einfach fortlassen. Wegen |q| − 1 > 0 wird n(|q| − 1) nun beliebig
groß, und somit ist (q n )n∈N in diesem Fall unbeschränkt. Folglich haben wir
(q n )n∈N ist beschränkt ⇐⇒ |q| ≤ 1.
Dasselbe Argument über die binomische Reihe zeigt ganz allgemein (1 + a) ≥ 1 + na
für jedes a ≥ 0. Tatsächlich gilt diese Ungleichung bereits wenn a ≥ −1 ist, dies ist die
sogenannte Bernoulli-Ungleichung, die für uns später noch nützlich sein wird.
Satz 11.1 (Bernoulli Ungleichung)
Seien a ≥ −1 und n ∈ N. Dann gilt (1 + a)n ≥ 1 + na und genau dann ist (1 + a)n =
1 + na wenn n = 1 oder a = 0 ist.
Beweis: Für a = 0 ist die Behauptung klar, wir nehmen im folgenden also a = 0 an.
Wir beweisen dies durch Induktion nach n. Für n = 1 ist die Aussage dabei klar. Nun
sei n ∈ N gegeben und es gelte bereits (1 + a)n ≥ 1 + na. Wegen 1 + a ≥ 0 folgt dann
auch
(1 + a)n+1 = (1 + a) · (1 + a)n ≥ (1 + a) · (1 + na) = 1 + (n + 1)a + na2 > 1 + (n + 1)a.
Per Induktion ist der Satz damit bewiesen.
Wir kommen nun zur Monotonie, diese ist aber nur für reelle Zahlenfolgen definiert.
Definition 11.4: Sei (an )n∈N eine reelle Zahlenfolge.
166
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
(a) Die Folge heißt monoton steigend wenn an ≤ an+1 für jedes n ∈ N gilt.
(b) Die Folge heißt streng monoton steigend wenn an < an+1 für jedes n ∈ N gilt.
(c) Die Folge heißt monoton fallend wenn an ≥ an+1 für jedes n ∈ N gilt.
(d) Die Folge heißt streng monoton fallend wenn an > an+1 für jedes n ∈ N gilt.
(e) Die Folge heißt monoton, wenn sie monoton steigend oder monoton fallend ist.
Beispielsweise sind die Folgen
1. an = n streng monoton steigend,
2. an = 1/n streng monoton falled,
3. an = (−1)n weder monoton steigend noch monoton falled,
4. an = c ∈ R monoton steigend und monoton fallend.
Konstante Folgen sind natürlich die einzigen Folgen, die zugleich monoton steigend
und monoton fallend sind. Ein etwas komplizierteres Beispiel ist wieder die Folge
n
1
,
an = 1 +
n
die sich als streng monoton steigend herausstellt. Für jedes n ∈ N haben wir nämlich
mit der Bernoulli Ungleichung
1+
1
n+1
1
n+1
n
+ n1
n n+1
n · (n + 2)
n+1
n
=
=
2
n+1
(n + 1)
n
n+1
n+1
(n + 1)2 − 1
n+1
n+1
1
=
= 1−
2
2
(n + 1)
n
(n + 1)
n
1
n+1
n
n+1
=
·
= 1,
> 1 − (n + 1) ·
2
(n + 1)
n
n+1
n
n+2
n+1
n+1 d.h. es ist
1
1+
n+1
n+1
>
1
1+
n
n
.
Analog zu obigen Definition, können wir natürlich auch monotone
Folgen mit einem
√
n
anderen Startindex betrachten. Beispielsweise ist die Folge ( n)n≥3 streng monoton
fallend. Sei nämlich n ≥ 3 gegeben. Dann haben wir zunächst
(n + 1)n
=
nn
n+1
n
n
=
1
1+
n
n
167
<
1
1+
n+1
n+1
≤ 3 ≤ n,
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
also auch (n + 1)n < n · nn = nn+1 und somit
√
n+1
n+1<
√
n
n.
In den ersten Termen ist diese Folge aber nicht fallend, es gelten
√
1
11.2
1 = 1,
√
2
2 = 1, 41... und
√
3
3 = 1, 44...
Grenzwerte von Zahlenfolgen
Wir sagen, dass eine Zahlenfolge (an )n∈N gegen eine Zahl a ∈ C konvergiert, wenn an −a
für unendlich große n unendlich klein wird. Dies ist allerdings nicht ganz die formale
Definition, wirklich unendlich kleine und unendlich große Zahlen verwenden zu wollen,
hat sich als nicht tragfähig herausgestellt. Es gibt in der Mathematik schlichtweg keine
unendlich kleinen oder unendlich großen Zahlen. Daher wird die obige Idee umgewandelt zur Formulierung für ausreichend große n ∈ N wird an − a beliebig klein“. Etwas
”
genauer ist dann die eigentliche Grenzwertdefinition.
Definition 11.5: Sei (an )n∈N eine Zahlenfolge. Dann konvergiert die Folge (an )n∈N gegen
eine komplexe Zahl a ∈ C, wenn es für jedes > 0 ein n0 ∈ N mit |an − a| < für alle
n ≥ n0 gibt. Die Zahl a ist dann eindeutig bestimmt, und heißt der Grenzwert, oder
Limes, der Folge (an )n∈N , geschrieben als
a = lim an .
n→∞
Gibt es einen solchen Grenzwert, so nennen wir die Folge (an )n∈N konvergent, und
andernfalls ist sie divergent.
Diese Definition macht Anfängern fast immer Schwierigkeiten, es braucht einige Zeit
und Gewöhnung um diese Art von Definitionen wirklich zu verinnerlichen. Glücklicherweise wird sich herausstellen, dass man für die Zwecke konkreter Rechnungen oftmals
ohne die Definition auskommt, wenn erst einmal genügend Rechenregeln zusammengestellt sind. Wir wollen uns die Grenzwertdefinition zunächst einmal graphisch zumindest für reelle Zahlenfolgen klarmachen. Der Buchstabe steht für eine kleine Zahl,
und die Bedingung |an − a| < besagt gerade − < an − a < also
a − < an < a + .
168
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 20.1.2009
an
a
..............
.........
n0
n
Was vor dem Index n0 geschieht spielt keine Rolle, die Folge kann dort weit weg vom
Grenzwert a völlig willkürlich hin und her schwanken. Ab dem Index n0 muss die Folge
aber ganz in dem gestrichelt eingezeichneten Kanal zwischen a − und a + verlaufen.
Wir wollen nun einige einfache Beispiele für Konvergenz und Divergenz auflisten.
1. Die Folge n1 n∈N konvergiert gegen Null, man sagt auch sie ist eine Nullfolge. Dies
wollen wir einmal vollständig an Hand der Definition verifizieren. Wir müssen
zeigen, daß es für jedes > 0 einen Index n0 ∈ N mit |1/n| < für alle n ∈ N
mit n ≥ n0 gibt. Sei also ein > 0 gegeben. Wir müssen nun eine natürliche
Zahl n0 finden. Hierzu betrachten wir die reelle Zahl 1/ > 0. Die Zahl ist in
der Regel sehr klein, und 1/ damit sehr groß, aber es gibt trotzdem immer eine
natürliche Zahl, die noch größer ist. Wir können also eine natürliche Zahl n0 ∈ N
mit 1/ < n0 wählen. Wir müssen zeigen, dass die Folge spätestens ab diesem
Index kleiner als wird. Sei also n ∈ N mit n ≥ n0 . Dann rechnen wir
1
− 0 = 1 ≤ 1 < 1 = .
1
n
n
n0
Diese Überlegung zeigt limn→∞
1
n
= 0.
2. Ebenso konvergiert für jedes α > 0 die Folge (1/nα )n∈N gegen Null. Dies ist analog
zum eben gerade geführten Beweis, und soll hier nicht mehr
√ vorgeführt werden.
2
Damit sind also zum Beispiel die Folge (1/n )n∈N oder (1/ n)n∈N = (1/n1/2 )n∈N
Nullfolgen.
3. Für jede komplexe Zahl q ∈ C ist die Folge (q n /n!)n∈N eine Nullfolge. Diese
Behauptung ist etwas weniger offensichtlich als die vorigen beiden Beispiele, denn
der Term im Nenner wird zwar sehr schnell klein, aber der Ausdruck im Zähler
169
Mathematik für Ingenieure I, WS 2008/2009
Freitag 23.1.2009
wird, zumindest für |q| > 1, gleichzeitig schnell groß. Wir wollen nun beweisen,
daß limn→∞ q n /n! = 0 ist. Hierzu wählen wir zunächst eine natürliche Zahl n1 ∈ N
mit n1 ≥ 2|q|. Für jede natürliche Zahl n ∈ N mit n > n1 haben wir dann
n
q |q|n1
|q|
|q|
|q|n1 1
=
·
·
.
.
.
·
≤
.
n! n1 !
n1 + 1
n
n1 ! 2n−n1
Sei nun > 0 gegeben. Dann gibt es ein n2 ∈ N mit |q|n1 /(n1 !2n2 ) < , und wir
setzen n0 := n1 + n2 ∈ N. Für jedes n ∈ N mit n ≥ n0 ist dann n − n1 ≥ n2 und
n
q |q|n1 1
|q|n1
≤
≤
< .
n! n1 ! 2n−n1
n1 !2n2
Somit ist tatsächlich limn→∞
qn
n!
= 0.
4. Die Folge ((−1)n )n∈N ist divergent. Dies ist klar, da sie ständig zwischen −1 und
1 hin und her wechselt.
5. Die Folge (sin(n))n∈N ist divergent. Dies ist eine der Übungsaufgaben zu diesem
Abschnitt.
Vorlesung 22, Freitag 23.1.2009
Die vorigen beiden Beispiele divergenter Folge, also an = (−1)n und an = sin(n) sind
dabei beschränkte Folgen. Unbeschränkte Folge, wie zum Beispiel an = n sind sowieso
immer divergent. Tatsächlich ist jede konvergente Folge auch beschränkt, es liegen ja
fast alle ihre Glieder nahe beim Grenzwert. Für Situation wie im Beispiel an = n,
ist es nützlich eine etwas verallgemeinerte Notation einzuführen. Diese Folge ist zwar
divergent, aber auf eine ganz andere Art als das Beispiel an = (−1)n . Wir führen hierzu
die Symbole −∞ und ∞ ein, und bilden die erweiterte Zahlengerade
R := R ∪ {−∞, ∞}.
Wir sagen, dass eine reelle Folge (an )n∈N gegen ∞ konvergiert, wenn es für jedes a ∈ R
ein n0 ∈ N mit an > a für alle n ≥ n0 gibt. Analog konvergiert (an )n∈N gegen −∞, wenn
es für jedes a ∈ R ein n0 ∈ N mit an < a für alle n ≥ n0 gibt. Trotzdem nennt man
die Folge weiterhin divergent, manchmal spricht man von einer bestimmt divergenten
Folge. Konvergiert die reelle Folge (an )n→∞ gegen ∞ oder −∞ und ist an 6= 0 für alle
n ∈ N, so ist (1/an )n∈N eine Nullfolge. Die Umkehrung gilt nicht, wie etwa die Folge
an = (−1)n n zeigt. Oft schreiben wir auch an → a anstelle von (an )n∈N konvergiert
”
gegen a“. Wenn wir wollen, können wir die Konvergenz komplexer Zahlenfolgen auf
170
Mathematik für Ingenieure I, WS 2008/2009
Freitag 23.1.2009
diejenige reeller Zahlenfolgen zurückführen, für eine komplexe Zahlenfolge (an )n∈N gilt
nämlich:
h
i
lim = an ⇐⇒ lim Re(an ) = Re(a) ∧ lim Im(an ) = Im(a) .
n→∞
n→∞
n→∞
Für das Rechnen mit Grenzwerten sind die folgenden Rechenregeln nützlich:
Satz 11.2 (Rechenregeln für Grenzwerte)
Seien (an )n∈N und (bn )n∈N zwei konvergente Folgen.
(a) Die Folge (an + bn )n∈N ist konvergent mit
lim (an + bn ) = lim an + lim bn .
n→∞
n→∞
n→∞
(b) Für jedes c ∈ C ist die Folge (can )n∈N konvergent mit
lim (can ) = c · lim an .
n→∞
n→∞
(c) Die Folge (an bn )n∈N ist konvergent mit
lim (an bn ) = lim an · lim bn .
n→∞
n→∞
n→∞
(d) Gelten limn→∞ bn 6= 0 und bn 6= 0 für alle n ∈ N, so ist auch die Folge (an /bn )n∈N
konvergent mit
lim an
an
lim
= n→∞ .
n→∞ bn
lim bn
n→∞
(e) Jede Teilfolge (ank )k∈N von (an )n∈N ist konvergent mit
lim ank = lim an .
n→∞
k→∞
(f ) Sind (an )n∈N , (bn )n∈N reelle Folgen und gibt es ein n0 ∈ N mit mit an ≤ bn für alle
n ≥ n0 , so ist auch
lim an ≤ lim bn .
n→∞
n→∞
Diesen Satz wollen wir hier nicht beweisen, sondern einige seiner Anwendungen diskutieren. Es wird sich herausstellen, dass wir für sehr viele konkrete Berechnungen
von Grenzwerten mit diesen Rechenregeln auskommen werden, auf die Definition eines
Grenzwerts werden wir uns, glücklicherweise, eher selten beziehen müssen. Betrachten
wir einmal den Grenzwert
2n3 − 7n + 5
lim
.
n→∞ 3n3 + 6n2 − n + 9
Wir würden hier natürlich gerne die Rechenregel (d) verwenden, nur ist diese für diesen
Grenzwert gar nicht zuständig, da weder im Zähler noch im Nenner konvergente Folgen
171
Mathematik für Ingenieure I, WS 2008/2009
Freitag 23.1.2009
stehen. Dieses Problem kann man aber leicht beheben, wir erweitern den Bruch mit
1/n3 und erhalten
2 − n72 + n53
2n3 − 7n + 5
=
lim
.
n→∞ 3 + 6 − 12 + 93
n→∞ 3n3 + 6n2 − n + 9
n
n
n
lim
Jetzt wissen wir bereits, dass die Folge 1/n, und auch die Potenzen 1/n2 , 1/n3 gegen
Null konvergieren. Damit sagt Rechenregel (b), dass auch die Folge 7/n2 gegen 7 · 0 =
0 konvergiert, und ebenso sind alle die anderen Bruchterme in Zähler und Nenner
Nullfolgen. Die konstanten Folgen konvergieren schließlich trivialerweise gegen selbige
Konstante, und damit haben wir
7
5
7
5
lim
2
−
+
3
2
3
n
n
2 − n2 + n3
2n − 7n + 5
2
= .
lim
= lim
= n→∞
6
1
9
1
6
9
3
2
n→∞ 3n + 6n − n + 9
n→∞ 3 +
3
− n2 + n3
lim 3 + n − n2 + n3
n
n→∞
Ein ähnliches Beispiel ist der Grenzwert
2n2 + 7n − 1
n→∞
n3 − 5
lim
nur das diesmal der Grad im Nenner größer als der im Zähler ist. Trotzdem führt hier
derselbe Rechengang zum Erfolg
2
1
7
lim
+
2
2 − n3
n
n
2n + 7n − 1
0
lim
= n→∞
= = 0.
5
3
n −5
1
lim 1 − n3
n→∞
Betrachten wir noch ein weiteres, diesmal etwas komplizierter wirkendes Beispiel
2n2 + sin(2n + 1)
.
n→∞ 3n3 − 6 cos(n2 )
lim
Da sich die Terme sin(2n + 1) und cos(n2 ) in einer schwer zu überschauenden Weise
verhaltem, erwartet man zunächst Probleme bei der Berechnung dieses Grenzwerts.
Trotzdem wird erneut der obige Rechenweg zum Erfolg führen, denn so kompliziert die
Sinus- und Cosinuswerte auch sind, sie bewegen sich doch alle nur zwischen −1 und
1. Insbesondere ist | sin(2n + 1)/n2 | ≤ 1/n2 und somit ist sin(2n + 1)/n2 , und ebenso
auch cos(n2 )/n2 , ein Nullfolge. Also haben wir diesmal
sin(2n+1)
sin(2n+1)
lim
2
+
2
n2
2 + n2
2n + sin(2n + 1)
2
n→∞
lim
=
=
.
=
lim
2
cos(n2 )
n→∞ 3n3 − 6 cos(n2 )
n→∞ 3 − 6 cos(n )
3
2
lim 2 − 6
n
n→∞
n2
Behandeln wir schließlich einen Fall in dem der Grad des Zählers größer als derjenige
des Nenners ist
n + n13
n4 + 1
lim
=
lim
.
n→∞ 19n3 + 23n + 9
n→∞ 19 + 232 + 93
n
n
172
Mathematik für Ingenieure I, WS 2008/2009
Freitag 23.1.2009
Um hier weiterzukommen müssen wir ausnutzen, dass die Rechenregeln für Grenzwerte
auch für Konvergenz gegen ±∞ gelten, solange nur Terme der Form
Reelle Zahl ± ∞, (Reelle Zahl 6= 0) · (±∞),
Reelle Zahl 6= 0
±∞
oder (±∞) · (±∞)
und Ähnliches auftauchen, also Ausdrücke deren Bedeutung unmißverständlich klar
ist, aber keine Terme wie 0/0 oder ∞ − ∞. Da im Beispiel der Zähler gegen ∞ und
der Nenner gegen 19 konvergieren haben wir
n + n13
n4 + 1
lim
= lim
n→∞ 19n3 + 23n + 9
n→∞ 19 + 232 +
n
9
n3
=
∞
= ∞.
19
Allgemein führt das in den obigen Rechnungen verwendete Argument zu folgenden
Satz:
Satz 11.3: Seien r, s ∈ N0 und a0 , . . . , ar , b0 , . . . , bs ∈ C mit ar 6= 0 und bs 6= 0. Für
den Fall s ≥ r gilt dann
(
ar
, r = s,
ar nr + ar−1 nr−1 + · · · + a0
br
lim
=
s
s−1
n→∞ bs n + bs−1 n
+ · · · + b0
0, s > r.
Sind dagegen a0 , . . . , ar , b0 , . . . , bs alle reell und haben wir s < r, so ist
(
∞,
ar bs > 0,
ar nr + ar−1 nr−1 + · · · + a0
=
lim
s
s−1
n→∞ bs n + bs−1 n
+ · · · + b0
−∞, ar bs < 0.
Mit den genannten Rechenregeln kann man zwar bereits einen Gutteil der üblicherweise,
zumindest in Übungsaufgaben, vorkommenden Grenzwerte berechnen, aber nicht alle.
Ein komplizierteres Beispiel ist der Grenzwert
√
lim n n,
n→∞
der sich als 1 herausstellen wird. Um dies einzusehen beginnen wir mit der folgenden
Rechnung, die wieder auf der binomischen Formel des §3 beruht
n X
√
n √
n
n
n = (1 + ( n − 1)) =
( n n − 1)k .
k
k=0
√
Beachte das zumindest n n ≥ 1 ist, und damit sind alle Terme in der Summe auf der
rechten Seite nichtnegativ. Der Ausdruck verkleinert sich also wenn wir einige dieser
Terme fortlassen, und wir lassen hier alle, bis auf den quadratischen Term, weg. Dies
führt zu
n X
n √
n √
n(n − 1) √
k
n
n=
( n − 1) . ≥
( n n − 1)2 =
( n n − 1)2 ,
k
2
2
k=0
173
Mathematik für Ingenieure I, WS 2008/2009
Freitag 23.1.2009
und dies können wir noch zu
0≤
√
n
r
n−1<
√
2
2
=√
n−1
n−1
√ √
√
umformen. Die Folge n n − 1 ist also stets zwischen
0
und
der
Nullfolge
2/ n − 1.
√
n
Der folgende Satz zeigt uns dann, daß damit auch n − 1 eine Nullfolge ist.
Satz 11.4 (Einschnürungssatz)
Seien (an )n∈N , (bn )n∈N und (cn )n∈N drei reelle Zahlenfolgen mit an ≤ bn ≤ cn für alle
n ∈ N, oder auch alle n ≥ n0 für eine natürliche Zahl n0 ∈ N. Die Folgen (an )n∈N und
(cn )n∈N seien konvergent mit demselben Grenzwert
a := lim an = lim cn .
n→∞
n→∞
Dann gilt auch
lim bn = a.
n→∞
√
n
Wir wenden√diesen
√ Satz auf die Folge bn = n − 1 an. Diese wird von rechts durch die
Folge cn = 2/ n − 1 begrenzt. Aber wir haben auch eine sehr einfache Folge auf der
linken Seite,
nämlich die konstante Folge an = 0. Der Einschnürungssatz liefert folglich
√
n
limn→∞ ( n − 1) = 0, und eine weitere Anwendung der Rechenregeln für Grenzwerte
ergibt dann
√
lim n n = 1.
n→∞
√
Weiter können wir nun auch limn→∞ n c = 1 für jede reelle Zahl c > 0 zeigen. Für
c ≥ 1 haben wir nämlich
√
√
1 ≤ n c ≤ n n für alle n ∈ N mit n ≥ c,
√
und der Einschnürungssatz liefert sofort limn→∞ n c√= 1. Den anderen Fall, also 0 <
c < 1 kann so leider nicht behandelt werden, da n c dann für jedes n ∈ N kleiner
als 1 ist. Wir können aber c = 1/(1/c) schreiben, und wegen 1/c > 1 ergeben die die
Rechenregeln für Grenzwerte dann erneut
lim
n→∞
√
n
1
c = lim q =
n→∞
n
1
c
1
lim
n→∞
q = 1.
n
1
c
Als ein letztes Beispiel in diesem Abschnitt wollen wir noch die Folge
n
1
an = 1 +
n
behandeln. Wir haben bereits eingesehen, dass diese Folge streng monoton steigend
und nach oben beschränkt ist. Nun ist es eine Eigenschaft der reellen Zahlen, dass jede
174
Mathematik für Ingenieure I, WS 2008/2009
Freitag 23.1.2009
solche Folge konvergiert, dies ist die sogenannte Vollständigkeit der reellen Zahlen. Bei
unserer Besprechung reeller Zahlen in §4 hatten wir die Axiome eines angeordneten
Körpers aufgelistet, und vermerkt das die reellen Zahlen all diese Axiome erfüllen, die
Axiome umgekehrt aber nicht ausreichen die reellen Zahlen zu beschreiben. Das noch
fehlende Axiom, durch das die reellen Zahlen dann festgelegt sind, ist das sogenannte
Vollständigkeitsaxiom:
Vollständigkeitsaxiom: Jede monoton steigende, nach oben beschränkte
Folge reeller Zahlen ist konvergent.
Dass dies eine Eigenschaft der reellen Zahlen ist, ist anschaulich klar
an
M
sup a n
n
Dass die Folge nach oben beschränkt ist, bedeutet das sie stets unterhalb einer gewissen
Schranke M verläuft. Zugleich soll die Folge monoton steigend sein, wird also ständig
größer. Da sie nicht über die Zahl M hinauslaufen kann, muss sie sich letztlich einem
größtmöglichen annähern. Der Grenzwert der Folge stellt sich dann als die bestmögliche
obere Schranke der Folge heraus, das sogenannte Supremum der Folge.
Die hier gegebene Form des Vollständigkeitsaxioms ist nicht die üblicherweise verwendete Formulierung, aber zu dieser äquivalent. Normalerweise formuliert man das
Vollständigkeitsaxiom in Termen oberer und unterer Schranken von Mengen reeller
Zahlen mit dem Begriff des Supremums, den wir in dieser Vorlesung an dieser Stelle noch nicht einführen wollen. Die Formulierung in Termen von monoton steigenden
Folgen ist für uns an zunächst auch etwas bequemer als die übliche Formulierung.
Durch Übergang zur Folge (−an )n∈N folgt aus dem Vollständigkeitsaxiom auch, dass
jede nach unten beschränkte, monoton fallende reelle Folge konvergent ist. Insbesondere
ist jede monotone und beschränkte reelle Zahlenfolge konvergent. Folglich existiert auch
der Grenzwert
n
1
e = lim 1 +
,
n→∞
n
175
Mathematik für Ingenieure I, WS 2008/2009
Freitag 23.1.2009
und es stellt sich heraus, dass dieser mit der eulerschen Zahl e = 2, 71828... identisch
ist.
11.3
Häufungspunkte und Cauchyfolgen
Wir hatten bereits eingangs bemerkt, dass Folgen weniger für rechnerische Anwendungen, sondern mehr als Hilfsmitteln in Beweisen, und für Überlegungen innerhalb der
Mathematik verwendet werden. Auf die beiden in diesem Abschnitt behandelten Begriffe, Häufungspunkte und Cauchyfolgen, trifft dies in nochmals verstärkter Form zu.
Daher wollen wir diese Begriffe auch nur kurz und nicht sehr ausführlich behandeln.
Wir kommen noch einmal zum Beispiel der Folge an = (−1)n zurück. Diese wechselt
ständig zwischen −1 und 1 hin und her, konvergiert aber gegen keine dieser beiden
Zahlen. Trotzdem würde man natürlich am liebsten sagen, dass sie gegen beiden Zahlen
zugleich konvergiert. Einen derartigen Begriff gibt es tatsächlich man spricht nur nicht
mehr von Grenzwerten, sondern von sogenannten Häufungspunkten.
Definition 11.6: Sei (an )n∈N eine Folge. Ein Häufungspunkt von (an )n∈N ist eine Zahl
a ∈ C für die eine gegen a konvergente Teilfolge (ank )k∈N existiert. Im Fall einer reellen
Folge lassen wir auch −∞ und ∞ als Häufungspunkte zu.
Eine konvergente Folge hat genau einen Häufungspunkt, nämlich ihren Grenzwert.
Dies trifft auch auf reelle Folgen, die gegen ±∞ konvergieren zu. Andere Folgen können
mehrere Häufungspunkte haben. Beispielsweise hat die Folge an = (−1)n genau zwei
Häufungspunkte nämlich −1 und 1, die Häufungspunkte sind hier also wirklich die
beiden Grenzwerte“ der Folge. Ebenso hat die Folge an = (−1)n n genau die beiden
”
Häufungspunkte −∞ und ∞. Eine Folge kann durchaus auch unendlich viele Häufungspunkte haben. Es stellt sich beispielsweise heraus, daß jede reelle Zahl zwischen −1 und
1 ein Häufungspunkt der Folge (sin(n))n∈N ist.
Es stellt sich heraus, daß eine reelle Zahlenfolge immer Häufungspunkte hat (hierfür
brauchen wir das −∞ und ∞ als Häufungspunkte zugelassen sind), dies ist der sogenannte Satz von Heine-Borel. Wir können damit für jede reelle Zahlenfolge die folgenden beiden Zahlen definieren:
Definition 11.7: Sei (an )n∈N eine reelle Zahlfolge. Dann heißt der kleinste Häufungspunkt von (an )n∈N der Limes Inferior der Folge, und der größte Häufungspunkt heißt
der Limes Superior, geschrieben als
lim inf an
n→∞
und
lim sup an .
n→∞
Beispielsweise sind
lim inf (−1)n = −1,
lim sup(−1)n = 1,
n→∞
n→∞
lim inf (−1)n n = −∞, lim sup(−1)n n = ∞,
n→∞
n→∞
lim inf sin(n) = −1,
n→∞
lim sup sup(n) = 1.
n→∞
176
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
Für viele theoretische Überlegungen zu Folgengrenzwerten ist der Begriff der Cauchyfolge entscheidend. Vom rein rechnerischen Standpunkt aus gesehen, ist dieser Begriff
nicht besonders bedeutsam, daher werden wir ihn hier nur sehr kurz besprechen.
Definition 11.8: Eine Folge (an )n∈N heißt eine Cauchyfolge, wenn es für jedes > 0
einen Index n0 ∈ N mit |an − am | < für alle n, m ∈ N mit n, m ≥ n0 gibt.
Es stellt sich dann heraus, daß Cauchyfolgen überhaupt dasselbe wie konvergente
Folgen sind:
Satz 11.5 (Vollständigkeit der reellen und komplexen Zahlen)
Eine Zahlenfolge ist genau dann konvergent, wenn sie eine Cauchyfolge ist.
Der Vorteil von Cauchyfolgen ist, dass man die Bedingung an eine Cauchyfolge nachprüfen kann, selbst wenn der Grenzwert der Folge nicht bekannt ist. Man kann dann
also die Konvergenz einer Folge beweisen, selbst wenn man ihren Grenzwert nicht kennt.
Den Beweis des Satzes wollen wir hier nicht vorführen, sondern nur eine kurze Zusammenfassung der Argumentation angeben. Dass jede konvergente Folge eine Cauchyfolge
ist, ist einfach. Liegen nämlich für große n alle Folgenglieder an nahe beim Grenzwert,
so liegen sie auch nahe beieinander. Die eigentliche Arbeit liegt darin, zu zeigen das
eine Cauchyfolge (an )n∈N einen Grenzwert hat. Zuerst überlegt man sich dazu das eine Cauchyfolge beschränkt sein muss. Dann kann man zeigen, dass eine beschränkte
Folge immer einen von ∞ und −∞ verschiedenen Häufungspunkt hat. Damit gibt es
einen Häufungspunkt a ∈ C der Folge, und es läßt sich zum Schluß einsehen, dass ein
Häufungspunkt einer Cauchyfolge bereits ein Grenzwert sein muss.
Da für uns Cauchyfolgen wie gesagt erstmal nicht besonders wichtig sind, wollen
wir diesen Abschnitt nun mit einer kleinen Bemerkung zur Definition einer Cauchyfolge
abschließen. Es reicht nicht aus, dass die Abstände direkt
√ aufeinanderfolgender Folgenglieder klein werden. Betrachte etwa die Folge an = n. Diese ist nicht konvergent,
also sicherlich keine Cauchyfolge. Für jedes n ∈ N haben wir andererseits
√
√
√
√
√
√
1
( n + 1 + n) · ( n + 1 − n)
√
=√
n+1− n=
√
√ ,
n+1+ n
n+1+ n
und somit ist
√
√
lim ( n + 1 − n) = 0.
n→∞
$Id: reihen.tex,v 1.6 2009/02/17 15:32:57 hk Exp $
Vorlesung 23, Dienstag 27.1.2009
177
Mathematik für Ingenieure I, WS 2008/2009
§12
Dienstag 27.1.2009
Reihen
Reihen sind eine spezielle Sorte Folgen, die allerdings bereits deutlich häufiger auch
in rechnerischen Anwendungen auftauchen. Insbesondere werden wir am Ende dieses
Abschnitts diverse unserer Standardfunktionen, wie Sinus, Cosinus, die Exponentialfunktion, und so weiter von einem ganz anderen Standpunkt aus betrachten können.
12.1
Grundeigenschaften von Reihen
Unter Reihen versteht man unendliche Summen
∞
X
an = a1 + a2 + a3 + · · ·
n=1
Die Bedeutung dieser Summen wird durch Rückführung auf den Grenzwertbegriff für
Folgen definiert. Wir betrachten die Anfangsstücke der Summe, also
a1 , a1 + a2 , a1 + a2 + a3 , a1 + a2 + a3 + a4
und so weiter,
und bilden aus diesen eine neue Folge.
Definition 12.1: Sei (an )n∈N eine Zahlenfolge. Die Partialsummen dieser Folge sind
dann die Summen
n
X
ak = a1 + · · · + an ,
sn :=
k=1
P∞
und wir sagen, dass die Summe
n=1 an gegen eine komplexe Zahl a ∈ C konvergiert, wenn die Folge (snP
)n∈N ihrer Partialsummen gegen a konvergiert. In diesem Fall
schreiben wir auch a = ∞
n=1 an .
In anderen Worten ist
∞
X
n=1
an := lim
n→∞
n
X
ak .
k=1
Wie für
P∞Folgen haben wir analog natürlich auch Reihen mit anderen Startindizes wie
etwa n=0 an , und so weiter. Für reelle Reihen lassen wir wie bei Folgengrenzwerten
auch ∞ und −∞ als Grenzwerte zu, nennen die Reihe dann aber, wie bei Folgen,
trotzdem nicht konvergent. Wir starten mit einem einfachen Beispiel, bei dem sich die
Partialsummen explizit berechnen lassen
∞
X
n=1
1
1 1
1
1
= + +
+
+ ··· .
n(n + 1)
2 6 12 20
Die Partialsummen
dieser Reihe haben wir nämlich schon in §11 beim Beweis der
P
Abschätzung nk=0 1/k! ≤ 3 gesehen. Wir hatten nämlich
n
n+1
n+1 X
X
X
1
1
1
1
1
=
−
=1−
,
k(k
+
1)
k(k
−
1)
k
−
1
k
n
+
1
k=2
k=1
k=2
178
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
und nach den Grenzwertsätzen für Folgen gilt
∞
X
n=1
1
1
= lim 1 −
= 1.
n(n + 1) n→∞
n+1
Ein anderes einfaches Beispiel ist die wohl wichtigste Reihe überhaupt, die sogenannte
geometrischePReihe. Bei dieser haben wir eine komplexe Zahl q ∈ C gegeben und wollen
n
die Summe ∞
n=0 q ausrechnen. Damit müssen wir zunächst die Partialsummen
sn :=
n
X
qk
k=0
bestimmen. Dies ist eine sogenannte geometrische Summe, für die es eine explizite
Summenformel gibt. Wir wollen dies hier einmal kurz vorführen. Zunächst rechnen wir
sn = 1 + q + q 2 + · · · + q n
q · sn =
q + q 2 + · · · + q n + q n+1 ,
und ziehen wir diese Summen voneinander ab, so folgt
(1 − q) · sn = sn − q · sn = 1 − q n+1 .
Im Fall q 6= 1 haben wir damit
n
X
qk =
k=0
1 − q n+1
.
1−q
Im Fall |q| < 1 haben wir nun in den Übungsaufgaben zu §11 gesehen, dass limn→∞ q n =
0 ist, also sind auch limn→∞ q n+1 = 0 und
∞
X
n=0
n
q = lim
n→∞
n
X
1 − q n+1
1
=
.
n→∞ 1 − q
1−q
q k = lim
k=0
Dies ist die Summenformel für die geometrische Reihe. Zum Beispiel haben wir damit
∞
∞
X 1
X 1
1 1 1
1
+ + + ··· =
=
−1=
n
n
2 4 8
2
2
1−
n=1
n=0
1
2
− 1 = 2 − 1 = 1.
Wir wollen noch ein weiteres Beispiel behandeln, das Sie sogar schon aus der Schule
kennen. Zur Einstimmung erinnern wir uns an die Bedeutung der Dezimalbrüche. Eine
Zahl wie 0, 175 ist definitionsgemäß eine Schreibweise für
1
7
5
+
+
,
10 100 1000
179
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
und allgemein bedeutet eine Zahl 0, a1 a2 . . . an in Dezimalschreibweise gerade
a2
an
a1
+
+ ··· + n.
10 100
10
Betrachten wir dann allgemeine, also nicht unbedingt abbrechende Dezimalzahlen
0, a1 a2 a3 . . . ,
so stehen diese für unendliche Summen, also für Reihen
∞
X an
a1
a2
a3
+
+
+ ··· =
.
10 100 1000
10n
n=1
Tatsächlich spielt hier die geometrische Reihe ebenfalls eine Rolle, nämlich bei den
periodischen Dezimalzahlen. Betrachten wir hier als ein Beispiel einmal
0, 9 = 0, 999 . . .
P∞
n
Wie bemerkt ist dies eine Schreibweise für die Reihe
n=1 9/10 , die wir über die
Summenformel der geometrischen Reihe ausrechnen können
"∞ #
n
∞ ∞
X
X
X 1 n
1
10
9
1
= 9·
= 9·
− 1 = 9·
− 1 = 1,
= 9·
1 −1
10n
10
10
9
1 − 10
n=1
n=1
n=0
wie Sie es hoffentlich erwartet haben.
P
n
Im Fall |q| ≥ 1 ist die geometrische Reihe ∞
n=0 q divergent. Um dies zu sehen,
und gleichzeitig ein wichtiges Konvergenzkriterium für Reihen zu erhalten, wollen wir
den folgenden einfachen Satz notieren:
P
Satz 12.1: Ist die Reihe ∞
n=1 an konvergent, so gilt limn→∞ an = 0.
Beweis: Für jedes n ∈ N haben wir
an = (a1 + · · · + an ) − (a1 + · · · + an−1 ),
also an = sn − sn−1 , wenn s1 , s2 , . . . die Partialsummen sind. Mit §11.Satz 2 folgt
lim an = lim sn − lim sn−1 = 0,
n→∞
da beide Limiten gleich der Summe
n→∞
n→∞
P∞
an sind.
n=1
P
Ist (an )n∈N eine Nullfolge, so muss die Reihe ∞
n=1 an im Allgemeinen nicht konvergieren. Das übliche Gegenbeispiel ist die sogenannte harmonische Reihe
∞
X
1
1 1 1
= 1 + + + + ··· ,
n
2 3 4
n=1
180
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
die sich als divergent herausstellt. Um dies zu sehen, fassen wir die Summanden in
Gruppen zusammen
1
1 1
1 1 1 1 1 1 1
1 1 1 1
+
+
+ + +
+ ···
1 + + + + + + + + ··· = 1 + +
2 3 4 5 6 7 8
2
3 4
5 6 7 8
wobei die Anzahl der Summanden in den Klammern sich jeweils verdoppelt. Schauen
wir uns die erste Klammer 1/3 + 1/4 an. Da 1/3 größer als 1/4 ist, haben wir für die
Summe dieser beiden Terme
1 1
1 1
1
+ > + = .
3 4
4 4
2
In der zweiten Klammer 1/5 + 1/6 + 1/7 + 1/8 tritt dasselbe Phänomen auf, jeder der
drei Summanden 1/5, 1/6 und 1/7 ist gröser als 1/8, und somit ist wieder
1 1 1 1
1
1 1 1 1
+ + + > + + + = .
5 6 7 8
8 8 8 8
2
In der nächsten Klammer haben wir dann acht Summanden, der letzte ist 1/16 und
jeder der ersten sieben Summanden ist größer als 1/16, und die Summe ist erneut
größer als 8 · 1/16 = 1/2. Dies geht immer so weiter, und wir haben
∞
X
1
1 1
> 1 + + + · · · = ∞.
n
2 2
n=1
Damit ist die harmonische Reihe divergent, obwohl 1/n gegen Null konvergiert. Wir
sehen hier aber auch, dass diese Summe mit wachsenden n nur rechts langsam groß
wird. Für jedes weitere 1/2 brauchen wir mehr und mehr Summanden der harmonischen
Reihe. Wollen wir zum Beispiel mit der Summe großer als 20 werden, so brauchen wir
40 mal 1/2, d.h. mehr als 240 Summanden in der harmonischen Reihe.
Die Rechenregeln für Folgengrenzwerte übertragen sich auf unendliche Summen:
Satz 12.2
für Reihen)
P∞
P∞ (Rechenregeln
Seien n=1 an , n=1 bn zwei konvergente Reihen.
P
(a) Die Reihe ∞
n=1 (an + bn ) ist konvergent mit
∞
X
(an + bn ) =
n=1
∞
X
an +
∞
X
n=1
(b) Für jede Zahl c ∈ C ist auch die Reihe
∞
X
P∞
n=1 (can )
(can ) = c ·
n=1
∞
X
n=1
181
bn .
n=1
konvergent mit
an .
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
(c) Sind beide Reihen reell, und gilt an ≤ bn für jedes n ∈ N, so ist auch
∞
X
an ≤
n=1
∞
X
bn .
n=1
Wie für Folgengrenzwerte bleibt dieser Satz auch für gegen ±∞ konvergente reelle Zahlenfolgen gültig, solange nur nicht ∞−∞ auftaucht. Zum Abschluß wollen wir noch das
sogenannte Leipnitz-Kriterim erwähnen. Dies handelt von sogenannten alternierenden
Reihen, dies sind reelle Reihe, deren Vorzeichen ständig hin und her wechselt.
Satz 12.3 (Leipnitz-Kriterium für alternierende Reihen)
Sei (an )n∈N eine monoton fallende Folge
reeller Zahlen mit limn→∞ an =
P∞ positiver
n−1
0. Dann ist die alternierende Reihe n=1 (−1) an konvergent. Weiter gilt für jede
natürliche Zahl m stets
2m
X
(−1)k−1 ak ≤
∞
X
(−1)n−1 an ≤
n=1
k=1
2m−1
X
(−1)k−1 ak .
k=1
Ein berühmtes Beispiel ist die klassische Leipnitz Reihe
∞
1−
X
1 1 1
1
π
(−1)n−1
+ − + ··· =
= .
3 5 7
2n − 1
4
n=1
Wir wollen uns an diesem Beispiel auch kurz klarmachen, das Partialsummen mit einer
geraden Anzahl von Summanden stets kleiner als die Gesamtsumme sind, während
Partialsummen mit einer ungeraden Anzahl von Summanden größer als diese sind.
Fassen wir nämlich die Summanden pärchenweise zusammen, so wird die Summe zu
1
1−
3
+
1 1
−
5 7
+ ···
Jeder der Summanden in den Klammern ist positiv, die Partialsummen zu geradem n
wachsen als ständig an, müssen also unterhalb der Summe liegen. Gruppieren wir die
Summanden um einen verschoben, so können wir die Leipnitz Reihe auch als
1 1
1+ − +
3 5
1 1
+ − +
7 9
+ ···
schreiben, und diesmal ist jede Klammer negativ. Die Partialsummen zu ungeradem n
werden also immer kleiner, müssen also alle oberhalb der Summe liegen. Die Konvergenz
der Leipnitz Reihe ist nicht sehr schnell. Es ist π/4 ≈ 0, 785398 und einige unserer
182
Mathematik für Ingenieure I, WS 2008/2009
Partialsummen sn =
Pn
k−1
/(2k
k=1 (−1)
n=1
n=3
n=5
n=7
n=9
n = 19
n = 29
n = 99
n = 199
n = 999
Dienstag 27.1.2009
− 1) sind
1
0, 866666
0, 834920
0, 820934
0, 813091
0, 798546
0, 794016
0, 787923
0, 786654
0, 785648
n=2
n=4
n=6
n=8
n = 10
n = 20
n = 30
n = 100
n = 200
n = 1000
0, 666666
0, 723809
0, 744011
0, 754267
0, 760459
0, 772905
0, 777067
0, 782898
0, 784148
0, 785148
Um n korrekte Nachkommastellen zu kriegen brauchen wir grob 10n viele Summanden
in der Leipnitz Reihe.
12.2
Absolute Konvergenz
Konvergente Reihen haben leider eine sowohl unerwartete, als auch äußerst störende
Eigenschaft, man darf sie im allgemeinen nicht umordnen, d.h. eine unendliche Summe
hängt im Allgemeinen von der Reihenfolge der Summanden ab. Wir wollen diesen Effekt
einmal am Beispiel der Leipnitz Reihe untersuchen. Eine Umordnung der Leipnitz Reihe
ist
1
1
1 1 1
1+ − + +
− + ···
5 3 9 11 7
d.h. es werden je zwei positive gefolgt von nur einem negativen Term genommen. Zur
besseren Übersicht schreiben wir dies als
∞
X
1
1
1
1 1
1+ −
+
+
−
+ ··· =
ak ,
5 3
9 11 7
k=1
wobei a1 , a2 , . . . die eingeklammerten Dreiersummen sind. Diese können wir leicht ausrechnen, die k-te Dreisumme ak addiert den (2k − 1)-ten und den (2k)-ten positiven Term der Leipnitz Reihe und subtrahiert den k-ten negativen Term dieser Summe. Der k-te negative Term ist der (2k)-te Term insgesamt, also −1/(2(2k) − 1) =
−1/(4k − 1). Ebenso ist der k-te positive Term gerade der (2k − 1)-te Term insgesamt,
also 1/(2(2k − 1) − 1) = 1/(4k − 3) und somit
ak =
1
1
1
1
1
1
+
−
=
+
−
4(2k − 1) − 3 4(2k) − 3 4k − 1
8k − 7 8k − 3 4k − 1
(8k − 3)(4k − 1) + (8k − 7)(4k − 1) − (8k − 3)(8k − 7)
=
(8k − 7)(8k − 3)(4k − 1)
24k − 11
> 0.
=
(8k − 7)(8k − 3)(4k − 1)
183
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
Alle Summanden sind damit positiv, und somit ist
∞
X
∞
(−1)k−1 ak > 1 +
k=1
X (−1)k−1
1 1 1
1
1
3734
− + +
− =
≈ 0, 911843 >
.
5 3 9 11 7
4095
2k
−
1
k=1
In dieser Reihenfolge aufsummiert erhalten wir also eine andere Summe. Tatsächlich
läßt sich zeigen, dass
1+
1 1 1
1
1
π + ln(2)
− + +
− + ··· =
5 3 9 11 7
4
gilt. Von besonderem Interesse sind nun natürlich Reihen bei denen dieser Effekt nicht
auftritt, die sogenannten unbedingt konvergenten Reihen. Für die von uns betrachteten
Zahlenfolgen stellt sich heraus, dass dies zur sogenannten absoluten Konvergenz
Pgleichwertig ist, deren Definition wir nun ansteuern. Haben wir eine reelle Reihe ∞
n=1 an
mit an ≥ 0 für alle n ∈ N, so ist die Folge ihrer Partialsummen monoton steigend.
Die FolgePder Partialsummen ist dann entweder beschränkt, und in diesem Fall konvergiert ∞
oder die Partialsummen sind
n=1 an aufgrund des Vollständigkeitsaxioms,
P∞
unbeschränkt. In letzterem Fall ist aber n=1 an = ∞. Eine Summe im erweiterten
Sinne existiert für positive P
Reihen also immer, und wir können die Konvergenz der
Reihe durch die Bedingung ∞
n=1 an < ∞ beschreiben.
P∞
P
Definition 12.2: Eine Reihe n=1 an heißt absolut konvergent, wenn ∞
n=1 |an | < ∞
ist.
Satz 12.4: Ist
P∞
n=1
an eine absolut konvergente Reihe, so gilt
∞
X
aπ(n) =
n=1
∞
X
an
n=1
für jede bijektive Abbildung π : N → N.
Wie bereits bemerkt gilt auch die Umkehrung
dieses Satzes. Tatsächlich ist eine viel
P
stärkere Aussage wahr, ist eine Reihe ∞
a
konvergent,
aber nicht absolut konvern=1 n
gent, so läßt sie sich so umordnen, dass überhaupt jede beliebig vorgegebene reelle Zahl
zu ihrem Grenzwert wird.
Wir besprechen nun einige Beispiele absolut konvergenter Reihen.
1. Wir haben bereits gesehen, dass
∞
X
n=1
∞
X
1
1
=
=1
n(n + 1) n=2 n(n − 1)
ist, und da alle Summanden in dieser Reihe positive reelle Zahlen sind, ist die
Reihe auch absolut konvergent.
184
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
2. Das allerwichtigste Beispiel einer absolut konvergenten Reihe ist die geometrische
Reihe, die wegen
∞
∞
X
X
1
n
|q | =
|q|n =
<∞
1 − |q|
n=0
n=0
für jedes q ∈ C mit |q| < 1 absolut konvergiert.
3. Summen und Vielfache absolut konvergenter Reihen sind wieder absolut konvergent. Für Vielfache ist dies leicht, und für Summen folgt es mit der Dreiecksungleichung |an + bn | ≤ |an | + |bn |.
P∞
P
4. Ist ∞
n=1 bn absolut konvergent, und haben
P∞ wir eine weitere Reihe n=1 an mit
|an | ≤ |bn | für jedes n ∈ N, so ist auch n=1 absolut konvergent. Dies gilt auch
noch, wenn nur |an | ≤ |bn | für alle n ≥ n0 mit einem konstanten Index n0 ∈ N
gilt.
5. Wie werden jetzt die Beispiele (1) und (4) kombinieren, um ein weiteres Beispiel
einer absolut konvergenten Reihe zu erhalten. Für jedes n ≥ 2 gilt
1
1
≤
,
2
n
n(n − 1)
und damit ist auch die Reihe
Ergebnis von Euler, das
P∞
n=1
1/n2 absolut konvergent. Es ist ein berühmtes
∞
X
1
1 1
π2
=
1
+
+
+
·
·
·
=
n2
4 9
6
n=1
gilt.
P∞
α
6. Mit demselben Argument folgt, das auch
n=1 1/n für jedes α ≥ 2 absolut
α
2
konvergiert, denn wir haben dann ja 1/n ≤ 1/n für jedes n ∈ N. Mit etwas
mehr Arbeit läßt sich sogar die folgende Aussage für jedes α ∈ R beweisen
∞
X
1
konvergiert (absolut) ⇐⇒ α > 1.
α
n
n=1
Einige wenige dieser Summen kann man explizit ausrechnen, nämlich dann wenn
α eine gerade natürliche Zahl ist. Auch dies wurde bereits von Euler durchgeführt.
Nun kennen wir diverse Beispiele konvergenter, und absolut konvergenter, Reihen,
aberPnur für zwei Beispiele konnten wir die Summe tatsächlich berechnen, nämlich
für ∞
n=1 1/n(n + 1) und die geometrische Reihe. Im Laufe dieses Abschnitts werden
wir in der Lage sein, auch einige weitere Beispiele, wie etwa die Reihe
∞
X
nq n = q + 2q 2 + 3q 3 + · · ·
n=1
185
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 27.1.2009
für q ∈ C mit |q| < 1, zu berechnen. Zunächst wissen wir nicht einmal ob diese Reihe
überhaupt konvergiert, aber wir werden gleich einsehen, dass sie absolut konvergent
ist. Auch wenn dies zunächst für die Berechnung dieser Summe nicht hilfreich zu sein
scheint, werden wir noch sehen, dass die absolute Konvergenz der Reihe doch eine
wichtige Zutat zur konkreten Berechnung der Summe sein wird.
Wie oben bemerkt, ist jede Reihe die wir gliedweise durch eine absolut konvergente
Reihe abschätzen können selbst absolut konvergent. Insbesondere trifft dies auf Reihen
zu, die sich durch eine geometrische Reihe abschätzen lassen, d.h. wir erhalten die
folgende Aussage: Ist (an )n∈N eine Zahlenfolge, und gibt es reelle KonstantenPC > 0,
0 < q < 1 sowie einen Index n0 ∈ N mit |an | ≤ Cq n für alle n ≥ 0, so ist ∞
n=1 an
absolut konvergent. Diese Bedingung läßt sich noch etwas umformulieren. Wir haben
ja
p
√
n
|an | ≤ Cq n ⇐⇒ n |an | ≤ Cq
√
für jedes n ∈ N. Wegen limn→∞ n C = 1 erhalten wir damit das sogenannte Wurzelkriterium:
Satz 12.5 (Wurzelkriterium)
Sei (an )n∈N eine Zahlenfolge. Dann sind die folgenden Aussagen äquivalent:
(a) Es gibt reelle Konstanten C > 0, 0 < q < 1 und einen Index n0 ∈ N mit |an | ≤ Cq n
für alle n ∈ N mit n ≥ n0 .
p
(b) Es gibt eine reelle Zahl 0 < q < 1 und einen Index n0 ∈ N mit n |an | ≤ q für alle
n ∈ N mit n ≥ n0 .
p
(c) Es ist lim sup n |an | < 1.
n→∞
In diesem Fall ist die Reihe
∞
P
an absolut konvergent.
n=1
Konkret überprüft wird in der Regel die im Satz genannte Eigenschaft (b). Als ein
Beispiel wollen wir einmal, wie schon angekündigt, die Reihe
∞
X
nq n
n=1
für q ∈ C mit |q| < 1 untersuchen. Zur Anwendung des Wurzelkriteriums müssen wir
p
√
n
|nq n | = n n · |q|
√
betrachten. Nun wissen wir aber bereits aus §11, dass limn→∞ n n = 1 gilt, und damit
ist auch
p
√
n
n
n
lim
|nq | = lim n · |q| = |q| < 1.
n→∞
n→∞
Dies
P∞ ist nauch gleich dem Limes Superior dieser Wurzeln, und damit ist die Reihe
n=1 nq für q ∈ C mit |q| < 1 absolut konvergent. Wir werden diese Reihe auch
bald ausrechnen können.
186
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
Vorlesung 24, Freitag 30.1.2009
Bei den meisten Aufgaben, die sich überhaupt mit dem Wurzelkriterium rechnen
lassen, ist es so das sogar der Grenzwert
p
c := lim n |an |
n→∞
existiert. In diesem Fall ist das Wurzelkriterium genau dann erfüllt, wenn c < 1 ist.
Das Wurzelkriterium deckt keinesfalls alle Beispiele absolut
Reihen ab.
P∞ konvergenter
2
Zum Beispiel hatten wir bereits gesehen, dass die Reihe n=1 1/n absolut konvergent
ist, aber beim Versuch dies über das Wurzelkriterium einzusehen stoßen wir auf
r
1
1
n
=
√
2 → 1,
n
n2
n
das Wurzelkriterium ist also nicht erfüllt. Das Wurzelkriterium ist also keinesfalls perfekt, deckt aber trotzdem recht viele Beispiele ab. Nur leider ist die Bedingung des Wurzelkriteriums aufgrund der auftauchenden n-ten Wurzeln oft rechnerisch nur schwer zu
überprüfen. Ein etwas schwächeres Kriterium, das sich dann aber oftmals viel bequemer
rechnen läßt ist das sogenannte Quotientenkriterium, das wir nun vortstellen wollen.
Satz 12.6 (Quotientenkriterium)
Sei (an )n∈N eine Zahlenfolge. Es gebe einen Index n0 ∈ N und eine reelle Zahl c < 1
mit an 6= 0 und
|an+1 |
≤c
|an |
P
für alle n ∈ N mit n ≥ n0 . Dann ist die Reihe ∞
n=1 an absolut konvergent.
Diesen Satz werden wir hier nicht beweisen. Es läßt sich zeigen, dass eine Folge die das
Quotientenkriterium erfüllt auch das Wurzelkriterium erfüllt, und in diesem Sinne ist
das Wurzelkriterium stärker als das Quotientenkriterium. Als ein Beispiel behandeln
wir einmal die Reihe
∞
X
qn
q2 q3 q4
(−1)n−1
=q−
+
−
+ ···
2n
−
1
3
5
7
n=1
wieder für q ∈ C. Rechnen wir die Quotienten aufeinanderfolgender Glieder einmal aus
n q n+1 (−1) 2n+1 2n − 1
(−1)n−1 qn = 2n + 1 · |q| → |q|.
2n−1
P
n−1 n
Das Quotientenkriterium ergibt damit, dass ∞
q /(2n−1) für |q| < 1 absolut
n=1 (−1)
konvergiert. Diese Summe werden wir erst im nächsten Semester explizit berechnen.
Wie beim Wurzelkriterium ist es auch bei der Anwendung des Quotientenkriteriums
oft so, dass sogar der Limes c := limn→∞ |an+1 |/|an | existiert, und die Bedingung des
Quotientenkriteriums wird dann zu c < 1.
187
Mathematik für Ingenieure I, WS 2008/2009
12.3
Freitag 30.1.2009
Das Cauchy Produkt
P
n
Wie bereits bemerkt wollen wir die Summe der Reihe ∞
n=1 nq explizit berechnen.
Bisher haben wir nur eingesehen, dass diese für |q| < 1 zumindest absolut konvergent
ist. Diese Einsicht wird sich tatsächlich als hilfreich zur Berechnung herausstellen. Um
die Reihe aber effektiv angehen zu können, benötigen wir noch eine weitere Regel für
das Rechnen mit unendlichen Summen. Bisher haben wir es strikt vermieden über
Multiplikation von Reihen zu sprechen. Diese ist leider auch etwas komplizierter als
die Multiplikation von Folgen. Das Produkt der Summen zweier Reihen ist nicht die
Summe der Einzelprodukte, dies ist ja nicht einmal bei endlichen Summen so
(a1 + a2 + a3 ) · (b1 + b2 + b3 ) =
a1 b1 + a1 b2 + a1 b3
+ a2 b1 + a2 b2 + a2 b3
+ a3 b1 + a3 b2 + a3 b3 .
Als eine etwas optimistische Erwartung könnten wir schauen ob eine entsprechende
Rechnung auch für unendliche Summen wahr ist, ob also so etwas wie
∞ ∞ P
P
an ·
bn
=
a0 b0 + a0 b1 + a0 b2 + · · ·
n=0
n=0
+ a1 b0 + a1 b1 + a1 b2 + · · ·
+ a2 b0 + a2 b1 + a2 b2 + · · ·
..
..
..
.
.
.
gilt? Hierzu müssten wir uns zunächst einmal überlegen was die rechte Seite denn
überhaupt bedeuten soll, so eine doppelt unendliche“ Summe haben wir bisher nicht
”
behandelt. Eine naheliegende Möglichkeit ist es, die Summanden einfach in irgendeiner
Reihenfolge nacheinander hinzuschreiben, etwa nach Diagonalen geordnet als
a0 b0 + a0 b1 + a1 b0 + a0 b2 + a1 b1 + a2 b0 + · · ·
Dass dies möglich ist klingt zunächst nicht sehr glaubhaft, wir hatten doch gesehen,
dass unendliche Summen von der Reihenfolge der Summanden abhängen können, und
nun soll es auf einmal keine Rolle spielen in welcher Reihenfolge wir unsere Summanden
durchlaufen. Dies ist aber kein hoffnungsloses Problem, wir haben ja bereits in Satz
4 festgehalten, dass wir absolut konvergente Reihen in beliebiger Reihenfolge aufsummieren können.
P∞
P
Sind beide Summen ∞
n=0 an und
n=1 bn absolut konvergent, so werden wir sehen,
dass wir die Produkte ak bl in jeder beliebigen Reihenfolge summieren können, und stets
das Produkt der Summen der beiden einzelnen Reihen erhalten. Aus Gründen die im
nächsten Teilabschnitt klar werden, ist es üblich jetzt noch eine kleine Variante dieser
Summationstechnik einzuführen. Wir fassen die Summanden entlang der Diagonalen
zusammen, schreiben also
a0 b0 +a0 b1 +a1 b0 +a0 b2 +a1 b1 +a2 b0 +· · · = a0 b0 +(a0 b1 + a1 b0 )+(a0 b2 + a1 b1 + a2 b0 )+· · ·
188
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
Dies endlichen Summen in den Klammern fassen wir als eine neue Folge (cn )n∈N0 auf,
und diese Folge ist das sogenannte Cauchyprodukt. Der erste Summand a0 b0 hat 0 =
0 + 0 als Summe der auftauchenden Indizes, die beiden Terme a0 b1 , a1 b0 im zweiten
Summanden haben beide die Indexsumme 0 + 1 = 1 + 0 = 1, die drei Terme a0 b2 , a1 b1 ,
a2 b0 im dritten Summanden haben alle die Indexsumme 0 + 2 = 1 + 1 = 2 + 0 = 2, und
dies geht immer so weiter. Numerieren wir die Diagonalen mit n = 0, 1, 2, 3, . . . durch,
so sind die Produkte ak bl auf der n-ten Diagonalen gerade durch k + l = n beschrieben.
Definition 12.3: Seien (an )n∈N0 , (bn )n∈N0 zwei Zahlenfolgen. Das Cauchyprodukt dieser
beiden Folgen ist dann die Folge (cn )n∈N0 definiert durch
cn :=
n
X
ak bn−k =
k=0
X
ak b l
k+l=n
für n ∈ N.
Die ersten vier Glieder des Cauchyprodukts sind also die Summen der unten jeweils
eingekästelten Produkte:
a0 b0
a1 b0
a2 b0
a3 b0
a0 b1 a0 b2 a0 b3
a1 b1 a1 b2 a1 b3
a2 b1 a2 b2 a2 b3
a3 b1 a3 b2 a3 b3
c0
a0 b 0
a1 b0
a2 b0
a3 b0
a0 b0
a1 b0
a2 b0
a3 b 0
a0 b1 a0 b2 a0 b3
a1 b1 a1 b2 a1 b3
a2 b1 a2 b2 a2 b3
a3 b1 a3 b2 a3 b3
c1
a0 b1 a0 b2
a1 b1 a1 b2
a2 b1 a2 b2
a3 b1 a3 b2
c2
a0 b 3
a1 b3
a2 b3
a3 b 3
a0 b0
a1 b0
a2 b 0
a3 b0
a0 b1 a0 b2
a1 b1 a1 b2
a2 b1 a2 b2
a3 b1 a3 b2
c3
a0 b3
a1 b3
a2 b3
a3 b3
Beispiele für Cauchyprodukte werden wir dann im nächsten Teilabschnitt sehen, jetzt
wollen wir nur noch den angekündigten Satz über Produkte unendlicher Reihen angeben:
Satz 12.7
von Reihen)
P∞ (Cauchyprodukte
P∞
Seien P
n=0 an ,
n=0 bn zwei absolut konvergente Reihen. Dann ist auch das Cauchy∞
produkt n=0 cn dieser beiden Reihen absolut konvergent, und es gilt
!
!
∞ X
∞
n
∞
∞
X
X
X
X
bn .
cn =
ak bn−k =
an ·
n=0
n=0 k=0
n=0
n=0
Ist weiter
P d1 , d2 , d3 , . . . eine Aufzählung der Produkte ak bl (k, l ∈ N0 ), so ist auch die
Reihe ∞
n=1 dn absolut konvergent mit
!
!
∞
∞
∞
X
X
X
dn =
an ·
bn .
n=1
n=0
n=0
Tatsächlich reicht es wenn eine der beiden Reihen im Cauchyprodukt absolut konvergiert und die andere überhaupt konvergent ist. Dann ist auch das Cauchyprodukt
konvergent, und seine Summe ist das Produkt der Summen der beiden einzelnen Reihen. Diese Verfeinerung hat allerdings erstaunlich wenige Anwendungen.
189
Mathematik für Ingenieure I, WS 2008/2009
12.4
Freitag 30.1.2009
Potenzreihen
Potenzreihen sind ein spezieller, und besonders wichtiger Typ, unendlicher Reihen. In
einem gewissen Sinne kann man sich Potenzreihen als Polynome von Grad ∞ vorstellen,
und wir werden sehen, dass sich viele wichtige Funktionen als Potenzreihen beschreiben
lassen.
Definition 12.4: Seien (an )n∈N0 eine Zahlenfolge und x0 ∈ C. Die zur Folge (an )n∈N
gehörige Potenzreihe mit Entwicklungspunkt x0 ist für x ∈ C dann definiert als
∞
X
an (x − x0 )n .
n=0
Warum wir x0 als Entwicklungspunkt bezeichnen, wird erst in §14 klar werden. Meistens wird der Entwicklungspunkt auch einfach x0 = 0 sein und die Potenzreihe wird
zu
∞
X
an x n .
n=0
P
n
Eine Grundidee ist es nun eine Potenzreihe ∞
n=0 an (x − x0 ) als eine Funktion der
komplexen Zahl x aufzufassen. Ist eine solche Potenzreihe gegeben, so interessieren wir
uns für die Menge
(
)
∞
X
D := x ∈ C an (x − x0 )n konvergiert ,
n=0
all derjenigen Punkte x in denen die Reihe konvergiert, in denen wir also unsere Funktion von x überhaupt definieren können. Wir wollen als ein erstes Beispiel einmal die
Potenzreihe
∞
X
xn
n=0
betrachten. Da dies einfach eine geometrische Reihe ist, wissen wir das sie genau dann
konvergiert wenn |x| < 1 ist, d.h. in diesem Fall ist
D = {x ∈ C : |x| < 1}
das Innere des Einheitskreises in der komplexen Ebene. Auch die durch die Potenzreihe
gegebene Funktion von x kennen wir bereits, für |x| < 1 haben wir ja bereits
∞
X
xn =
n=0
1
1−x
ausgerechnet. Es stellt sich heraus, daß die Menge D der Konvergenzpunkte einer
Potenzreihe im wesentlichen immer das Innere eines Kreises ist, dessen Mittelpunkt
der Entwicklungspunkt der Potenzreihe ist. Den Radius dieses Kreises nennen wir dann
den Konvergenzradius der Potenzreihe.
190
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
Divergenz
r
x0
(absolute) Konvergenz
Im Inneren des Kreises konvergiert die Potenzreihe absolut, und außerhalb des Kreises
divergiert sie. Auf dem Kreis selbst, also auf dem Rand, kann alles Mögliche passieren,
das hängt ganz von der konkreten Potenzreihe ab. Daher haben wir oben auch etwas
vorsichtig gesagt, dass der Konvergenzbereich der Potenzreihe im wesentlichen das
Innere eines Kreises ist.
Zwei Randfälle
müssen wir hier gesondert erwähnen. Für x = x0 konvergiert die
P
n
Potenzreihe ∞
a
n=0 n (x − x0 ) = a0 + 0 + 0 + · · · natürlich immer, aber es kann passieren, dass die Potenzreihe in keinem anderen Punkt konvergiert. In diesem Fall denken
wir uns den Konvergenzbereich als einen Kreis mit Radius 0, nehmen also r = 0 als
Konvergenzradius. Im anderen Extremfall konvergiert die Potenzreihe für überhaupt
alle komplexen Zahlen x. Dann denken wir uns den Konvergenzbereich als einen Kreis
von Radius ∞, und verwenden r = ∞ als Konvergenzradius der Potenzreihe.
Zur Bestimmung des Konvergenzradius können wir uns an das Wurzelkriterium
Satz
P∞
n
5 erinnern. Wenden wir das Wurzelkriterium auf die Potenzreihe n=0 an (x − x0 ) an,
so müssen wir den folgenden Ausdruck betrachten
p
p
p
n
n
n
n
lim sup |am (x − x0 ) | = lim sup( |an | · |x − x0 |) = lim sup |an | · |x − x0 |.
n→∞
n→∞
n→∞
p
Wir brauchen das dies kleiner als 1 ist, das also |x − x0 | < 1/(lim supn→∞ n |an |) gilt.
Damit erhalten wir die folgende Formel für den Konvergenzradius einer Potenzreihe:
Satz 12.8 (Konvergenzradius einer Potenzreihe)
Seien (an )n∈N
und x0 ∈ C. Dann ist der Konvergenzradius r der
P eine Zahlenfolge
n
Potenzreihe ∞
a
(x
−
x
)
gleich
0
n=0 n
r=
1
lim sup
p
n
|an |
∈ {x ∈ R|0 ≤ x ≤ ∞}
n→∞
Dabei lesen wir 1/∞ wie schon bei Folgen als 0. Dem normalerweise sinnlosen Ausdruck 1/0 weisen wir für diese Formel (und nur für diese Formel) den Wert ∞ zu.
191
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
Streng genommen brauchen wir eine kleine Verschärfung des Wurzelkriteriums um
diesen Satz zu beweisen, aber dies wollen wir hier nicht so eng sehen. Überprüfen
wir
P∞dennSatz einmal an einem uns schon bekannten Beispiel, nämlich der Potenzreihe
n=0 x . Hier ist an = 1 für jedes n ∈ N0 und für den Konvergenzradius erhalten wir
r=
1
1
√
= = 1.
n
1
lim supn→∞ 1
Als ein weiteres Beispiel nehmen wir einmal die Potenzreihe
jedes n ∈ N0 . Als Konvergenzradius ergibt sich
1
r=
P∞
n=0
nxn , also an = n für
1
√
= = 1,
n
1
n
lim supn→∞
√
da wir aus §11 die Formel limn→∞ n n = 1 kennen. Als ein letztes Beispiel betrachten
wir einmal die Potenzreihe
∞
X
xn
,
n!
n=0
also an = 1/n! für jedes n ∈ N0 . Nach einer Übungsaufgabe gilt
√
n
lim n! = ∞,
n→∞
und mit den Formeln für Folgengrenzwerte §11.Satz 2 folgt hieraus
r
1
1
n 1
√ = 0.
lim
= lim √
=
n
n→∞
n! n→∞ n!
lim n n!
n→∞
Als Konvergenzradius ergibt sich
r=
1
lim sup
n→∞
q
n
=
1
n!
1
= ∞,
0
wobei hier die in Satz 8 erwähnte Interpretation von 1/0 verwendet wird. Bei Addition
von Potenzreihen addieren sich offenbar die dargestellten Funktionen. Das Verhalten
von Potenzreihen
unter Multiplikation
ist interessanter. Gegeben seien zwei PotenzreiP∞
P∞
n
hen n=0 an (x − x0 ) und n=0 bn (x − x0 )n mit demselben Entwicklungspunkt. Seien
r beziehungsweise s die Konvergenzradien dieser beiden Potenzreihen.
P∞Weiter sei einn
x ∈P
C mit |x − x0 | < min{r, s} gegeben. Dann sind die Reihen
− x0 )
n=0 an (xP
∞
n
und n=0 bn (x − x0 ) absolut konvergent. Wir bilden nun das Cauchyprodukt ∞
n=0 cn
dieser beiden Reihen. Für jedes n ∈ N0 ist dann
!
n
n
X
X
cn =
(ak (x − x0 )k ) · (bn−k (x − x0 )n−k ) =
ak bn−k · (x − x0 )n ,
k=0
k=0
192
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
und nach dem Satz über das Cauchyprodukt Satz 7 ist auch
!
!
!
∞
∞
∞
n
X
X
X
X
an (x − x0 )n ·
bn (x − x0 )n =
ak bn−k · (x − x0 )n .
n=0
n=0
n=0
k=0
Das Cauchyprodukt zweier Potenzreihen mit demselben Entwicklungspunkt ist also
wieder eine Potenzreihe mit demselben Entwicklungspunkt, dessen dargestellte Funktion gerade das Produkt der durch die einzelnen Potenzreihen dargestellten Funktionen
ist. Beachte das die Multiplikation von Potenzreihen für Polynome mit dem Produkt
von Polynomen übereinstimmt. Potenzreihen multiplizieren sich also genauso wie Polynome. Dies wollen wir nun in einem Satz festhalten:
P
P∞
n
n
Satz 12.9: Seien ∞
n=0 an (x − x0 ) und
n=0 bn (x − x0 ) zwei Potenzreihen mit demselben Entwicklungspunkt. Es bezeichne r den Konvergenzradius und f die dargestellte
Funktion der ersten Potenzreihe und s, g die entsprechenden
PWerte
Pnder zweiten Potenz-n
∞
reihe. Dann ist der Konvergenzradius des Cauchyprodukts n=0 ( k=0 ak bn−k )(x−x0 )
mindestens min{r, s} und die vom Cauchyprodukt dargestellte Funktion ist das Produkt
der durch die beiden einzelnen Potenzreihen dargestellten Funktionen.
Wir wollen diesen Satz einmal anwenden. Da wir bisher nur die geometrische Reihe
explizit
P∞ nberechnet haben, bilden wir notgedrungen das Cauchyprodukt der Potenzreihe
n=0 x mit sich selbst, und erhalten für alle x ∈ C mit |x| < 1 die Gleichung
!
2 X
∞
n
∞
X
X
1
1
n
(n + 1)xn .
1 x =
=
=
(1 − x)2
1−x
n=0
n=0
k=0
Dies liefert weiter
∞
X
n=1
n
nx =
∞
X
n=0
n
(n + 1)x −
∞
X
n=0
xn =
1
1
1 − (1 − x)
x
−
=
.
=
2
2
(1 − x)
1−x
(1 − x)
(1 − x)2
Damit haben wir die schon mehrfach angekündigte Summe tatsächlich berechnet. Setzen wir zum Beispiel konkret x = 1/2 ein, so wird
∞
X
n
2
=
2 = 2.
n
2
1 − 12
n=1
Mit Hilfe von Potenzreihen läßt sich für viele der Standardfunktionen eine einfache,
und oftmals gut zu handhabende, Definition angeben. Wir haben bereits gesehen, dass
die Potenzreihe
∞
X
xn
n!
n=0
den Konvergenzradius r = ∞ hat. Folglich erhalten wir eine auf ganz C definierte
Funktion
∞
X
zn
z2 z3
ez := exp(z) :=
=1+z+
+
+ ···
n!
2
6
n=0
193
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
Dass dies für reelle x tatsächlich die vertraute Exponentialfunktion ist, ist nicht unmittelbar klar. Wir werden erst in §14 eine Begründung hierfür sehen, daher wollen wir es
jetzt erst einmal glauben. Die Gestalt der reellen Exponentialfunktion
4
3
2
1
–4
–3
–2
–1
0
1
sollte Ihnen bekannt sein. Wir wollen uns nun die komplexe Exponentialfunktion etwas
näher anschauen. Hierzu rechnen wir
iz
e =
∞
X
(iz)n
n=0
∞
X
∞
2n+1
X
z 2n
2n+1 z
=
i
+
i
n!
(2n)! n=0
(2n + 1)!
n=0
2n
∞
X
z 2n+1
z 2n
+i·
(−1)n
=
(−1)
(2n)!
(2n + 1)!
n=0
n=0
∞
X
n
da i2n = (i2 )n = (−1)n ist. Definieren wir also
sin z :=
∞
X
(−1)n
z 2n+1
z3
z5
=z−
+
− ··· ,
(2n + 1)!
6
120
(−1)n
z 2n
z2 z4
=1−
+
− ··· ,
(2n)!
2
24
n=0
cos z :=
∞
X
n=0
so wird
eiz = cos z + i sin z
für alle z ∈ C. Auch für diese beiden Formeln müssen wir bis zum nächsten Semester
warten, bis wir eine Begründung erhalten warum die obigen Formeln für reelle Zahlen
die übliche Sinus und Cosinus Funktion beschreiben. Erinnern wir uns an die in §4
verwendete Schreibweise
e(t) = cos t + i sin t,
so sehen wir nun, dass einfach e(t) = eit ist. Weiter stellen sich die Polarkoordinaten
im wesentlichen als die Exponentialfunktion heraus
er+it = er eit = er cos t + ier sin t.
194
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
Der einzige Unterschied ist, dass der Abstand zu Null zu er umskaliert ist. Wir wollen
uns nun auch die komplexe Exponentialfunktion ez einmal graphisch anschauen, aber
dazu müssen wir uns zunächst überlegen wie man eine komplexe Funktion überhaupt
zeichnen will. Direkt einen Graphen von
u + iv = f (x + iy)
malen kann man nicht, da wir x, y für die Argumente brauchen und dann keine zwei
Achsen u, v in den R3 reinpassen. Es gibt mehrere Möglichkeiten hier vorzugehen.
Ein Weg ist es den Betrag z = |f (x + iy)| zu zeichnen, dies wird dann gerne als das
analytische Gebirge der Funktion f bezeichnet. Für die Exponentialfunktion ergibt sich
das folgende Bild
7
6
5
4
3
2
1
0
3
2
1
0
y –1
–2
–4
–3
–2
–1
0
1
2
x
Wir sehen hier, dass der Betracg von ez nur vom Realteil von z abzuhängen scheint.
Dies ist tatsächlich wahr, für alle x, y ∈ R gilt
q
q
x+iy
x
x
2
2x
2
2x
|e
| = |e cos y + ie sin y| = e cos y + e sin y = e2x (cos2 y + sin2 y) = ex ,
also
|ez | = eRe z .
Eine andere Darstellungsform ist die sogenannte konforme Darstellung, bei dieser malen
wir die Bilder der horizontalen Linien Im z = const und die Bilder der vertikalen Linien
Re z = const für mehrere Werte der jeweiligen Konstanten in die Ebene. Man zeichnet
also wie die komplexe Funktion f das Standardgitter
195
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
4
2
–4
–2
2
4
–2
–4
deformiert. Als konforme Darstellung der Exponentialfunktion erhalten wir
6
4
2
–6
–4
–2
0
2
4
6
–2
–4
–6
Die Kreise sind hierbei die Bilder der Vertikalen Re z = const und die radialen Linien
sind die Bilder der Waagerechten Im z = const. Wir kommen nun zum komplexen Sinus
uns Cosinus, und hierzu können wir unsere oben hergeleitete Formel
eiz = cos z + i sin z
196
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
noch etwas weiter ausnutzen. Setzen wir hier −z für z ein, so wird
e−iz = cos(−z) + i sin(−z) = cos z − i sin z,
und damit erhalten wir
eiz − e−iz
eiz + e−iz
, sin z =
.
2
2i
cos z =
Sinus und Cosinus lassen sich also durch die Exponentialfunktion beschreiben. Für reelle Argumente gibt es keinen Zusammenhang zwischen der Exponentialfunktion und
den trigonometrischen Funktionen, aber unsere Formel zeigt, daß Sinus und Cosinus
bei Betrachtung komplexer Argumente sich nicht groß von der komplexen Exponentialfunktion unterscheiden. Sinus und Cosinus dürften Ihnen im Reellen wohlbekannt
sein
1
1
0.5
0.5
0
1
2
3
5
4
0
6
–0.5
–0.5
–1
–1
1
2
Sinus
3
4
5
6
Cosinus
und wir wollen uns einmal die komplexe Sinusfunktion anschauen. Zunächst einmal das
analytische Gebirge:
2
1
0
1
0
–1.5
2
–1
3
–0.5
y
x
4
0
0.5
5
1
1.5
6
Die erkennbaren Löcher sind gerade die bekannten Nullstellen der Sinusfunktion bei
den ganzzahligen Vielfachen von π. Im konformen Bild haben wir
197
Mathematik für Ingenieure I, WS 2008/2009
Freitag 30.1.2009
2
1
–2
–1
1
2
–1
–2
Die geschlossenen Linien entsprechen dabei den Horizontalen Im z = const und die
seitlichen Kurven stammen von den Vertikalen Re z = const. Diese seitlichen Kurven
sind Hyperbeln, den Grund dafür werden wir noch kennenlernen. Auch für den Tangens
und den Cotangens haben wir eine komplexe Version, die einfach durch den üblichen
Quotienten definiert wird
tan z :=
sin z
cos z
, cot z :=
.
cos z
sin z
Auch für diese beiden Funktionen dürften Ihnen die reellen Graphen
y
4
4
3
3
y
2
1
1
0
2
1
2
3
4
5
0
6
–1
–1
–2
–2
–3
–3
–4
–4
Tangens
1
2
3
Cotangens
198
4
5
6
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
geläufig sein. Etwas interessanter sind der Betrag und der komforme Plot des Tangens
4
3
2
2
1
0
–4
–3
–2
–1
0
1
2
3
4
–2
–1
–2
–1.5
–2
–1
–1
–0.5
y
0
0
0.5
1
x
–3
1
1.5
2
–4
Die nach oben gehenden Kreise sind dabei die Bilder der horizontalen Geraden Im z =
const, und die seitlichen Kreise sind die Bilder der vertikalen Linien Re z = const.
Vorlesung 25, Dienstag 3.2.2009
Wir wollen uns noch ein klein wenig die Exponentialfunktion
∞
X zn
z2 z3
+
+ ··· =
e =1+z+
2!
3!
n!
n=0
z
und mit ihr verbundene Fragen anschauen. Dass es sich hier für reelle x tatsächlich um
die gewohnte Funktion ex handelt, können wir jetzt zwar noch nicht sehen, wir werden
aber einsehen, dass die obige Reihe zumindest einige Eigenschaften der e-Funktion
hat. Die wichtigste Eigenschaft der Exponentialfunktion ist dabei, dass sie Summen in
Produkte überführt, die meisten anderen Dinge folgen aus dieser Tatsache.
Seien also zwei komplexe Zahlen z, w ∈ C gegeben. Nach Satz 7 über das Cauchyprodukt haben wir dann
z
w
e ·e =
∞
X
zn
n=0
n!
!
·
∞
X
wn
n=0
!
∞ X
n
X
z k wn−k
=
n!
k!(n − k)!
n=0 k=0
!
∞
n ∞
X
X
1 X n k n−k
(z + w)n
=
z w
=
= ez+w ,
n!
k
n!
n=0
n=0
k=0
199
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
wobei im vorletzten Schritt die binomische Formel verwendet wurde. Hieraus folgen
dann viele der üblichen Eigenschaften der Exponentialfunktion, zum Beispiel ist e0 = 1
und für jedes z ∈ C ist damit
1 = e0 = ez−z = ez e−z ,
also ez 6= 0 und 1/ez = e−z . All dies hat eine unerwartete Konsequenz. Wegen
e2πi = cos(2π) + i sin(2π) = 1
folgt auch
ez+2πi = ez e2πi = ez
für alle z ∈ C, d.h. die Exponentialfunktion ist periodisch mit der Periode 2πi. Zum Abschluß wollen wir nun noch die sogenannten Hyperbelfunktionen behandeln. Definiert
sind diese Funktionen einfach durch
sinh z :=
ez − e−z
ez + e−z
sinh z
cosh z
, cosh z :=
, tanh z :=
, coth z :=
,
2
2
cosh z
sinh z
gesprochen als Sinus Hyperbolicus, Cosinus Hyperbolicus und so weiter. Offenbar sind
der Cosinus Hyperbolicus eine gerade Funktion, und die anderen drei sind ungerade also cosh(−z) = cosh(z) und sinh(−z) = − sinh(z), tanh(−z) = − tanh(z), coth(−z) =
− coth(z) wie wir es auch von den trigonometrischen Funktionen gewöhnt sind. Für reelle Argumente haben alle diese Funktionen auch reelle Werte, und haben die folgenden
Graphen
200
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
3.5
3
2
3
1
2.5
–2
–1
0
1
2
2
–1
1.5
–2
–3
1
–2
Sinus Hyperbolicus
–1
0
1
2
Cosinus Hyperbolicus
1
4
3
0.5
y
2
1
–2
–1
0
1
2
–4
–3
–2
–1
0
1
2
3
4
–1
–0.5
–2
–3
–1
–4
Tangens Hyperbolicus
Cotangens Hyperbolicus
Als reelle Funktionen haben die Hyperbelfunktionen also zunächst nichts mit den trigonometrischen Funktionen zu tun. Betrachten wir auch komplexe Argumente, so sieht
dies ganz anders, wir haben nämlich
sin z =
1
eiz + e−iz
eiz − e−iz
= sinh(iz) = −i sinh(iz), cos z =
= cosh(iz),
2i
i
2
und damit auch
tan z =
sin z
−i sinh(iz)
cos z
cosh(iz)
=
= −i tanh(iz), cot z =
=
= i coth(iz),
cos z
cosh(iz)
sin z
−i sinh(iz)
d.h. die hyperbolischen Funktionen sind im wesentlichen bis auf eine Drehung des Arguments um 90◦ gleich den trigonometrischen Funktionen. Diesen Zusammenhang kann
man zum Beispiel dazu verwenden trigonometrische Formeln in Formeln für Hyperbelfunktionen zu übersetzen. Wir haben beispielsweise
− sin(iz) = sin(−iz) = −i sinh(−i2 z) =
1
sinh z,
i
also sinh z = −i sin(iz) und
cos(iz) = cos(−iz) = cosh(−i2 z) = cosh z,
201
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
und somit
cosh2 z − sinh2 z = cos2 (iz) + sin2 (iz) = 1.
Für jedes t ∈ R liegt der durch
x = cosh t, y = sinh t
damit auf der durch die Gleichung x2 − y 2 = 1 gegebenen Kurve.
1.5
y
1
0.5
–2
0
–1
1
2
x
–0.5
–1
–1.5
Diese Gleichung beschreibt dabei bekanntlich eine Hyperbel. Für t ∈ R ist stets
cosh t > 0 und damit durchlaufen die Punkte (cosh t, sinh t) für t ∈ R den in der
rechten Halbebene liegenden Zweig der obigen Hyperbel. Da sinh t negativ für negative
t und positiv für positive t ist, wird die Kurve dabei von unten her kommend nach
oben durchlaufen.
$Id: stetig.tex,v 1.6 2015/10/20 16:24:27 hk Exp $
§13
Stetige Funktionen
13.1
Funktionsgrenzwerte
Wir wollen jetzt Grenzwerte der Form
lim f (x)
x→x0
202
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
definieren. Hierbei verwenden wir meist Funktionen f , die auf reellen Intervallen definiert sind, und daher führen wir erst einmal den Begriff eines Intervalls ein.
Definition 13.1: Reelle Intervalle sind Mengen von einer der folgenden Formen:
• [a, b] := {x ∈ R|a ≤ x und x ≤ b} mit a, b ∈ R, ein abgeschlossenes Intervall“,
”
• (a, b) := {x ∈ R|a < x und x < b} mit a, b ∈ R, ein offenes Intervall“,
”
• (a, b] := {x ∈ R|a < x und x ≤ b} mit a, b ∈ R, ein (links) halboffenes Intervall“,
”
• [a, b) := {x ∈ R|a ≤ x und x < b} mit a, b ∈ R, ein (rechts) halboffenes
”
Intervall“,
• [a, ∞) := {x ∈ R|x ≥ a} mit a ∈ R, ein (rechts) unbeschränktes, abgeschlossenes
”
Intervall“,
• (a, ∞) := {x ∈ R|x > a} mit a ∈ R, ein (rechts) unbeschränktes, offenes
”
Intervall“,
• (−∞, a] := {x ∈ R|x ≤ a} mit a ∈ R, ein (links) unbeschränktes, abgeschlosse”
nes Intervall“,
• (−∞, a) := {x ∈ R|x < a} mit a ∈ R, ein (links) unbeschränktes, offenes
”
Intervall“,
• und letztlich (−∞, ∞) := R.
Der Abschluß I eines Intervalls I ⊆ R ist das kleinste abgeschlossene Intervall, das I als
Teilmenge enthält, also I zusammen mit seinen von ±∞ verschiedenen Randpunkten.
Beachte das wir oben nicht a < b gefordert haben. Damit sind zum Beispiel (0, −1) = ∅
oder [1, 1] = {1} ebenfalls Intervalle. Diese spielen zwar in der Regel keine Rolle, sind
aber formal erlaubt. Wie gesagt wollen wir Grenzwerte limx→x0 f (x) definieren, und
nehmen dabei an, dass f : I → R eine auf einem Intervall I ⊆ R definierte Funktion
ist. Sinnvoll ist dies nur wenn x0 selbst zu I gehört oder schlimmstenfalls ein Randpunkt
von I ist, also wenn x0 ∈ I gilt. Beispielsweise wollen wir keine Grenzwerte limx→2 f (x)
wenn f nur zwischen 0 und 1 definiert ist. Wir definieren Grenzwerte von Funktionen
nun durch Rückführung auf den Grenzwertbegriff für Folgen.
Definition 13.2: Seien I ⊆ R ein Intervall und f : I → R eine Funktion. Ist dann
x0 ∈ I, so schreiben wir
y = lim f (x)
x→x0
wenn für jede Folge (xn )n∈N in I\{x0 } mit limn→∞ xn = x0 stets limn→∞ f (xn ) = y gilt.
Wir nennen y den Funktionsgrenzwert von f in x0 , oder auch einfach den Grenzwert
von f (x) für x gegen x0 . Definitionsgemäß hängt dieser im Fall x0 ∈ I nicht vom Wert
f (x0 ) ab.
203
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
Wir wollen ein paar einfache Beispiele behandeln. Zunächst sei
f : R → R; x 7→ x3 + 2x2 − 7x + 1,
und wir wollen den Funktionsgrenzwert limx→1 f (x) berechnen. Hierzu müssen wir
Folgen (xn )n∈N in R mit xn 6= 1 für alle n ∈ N und limn→∞ xn = 1 betrachten. Erstere
Bedingung wird dabei keine Rolle spielen. Die Grenzwertsätze für Folgen §11.Satz 2
ergeben
lim f (xn ) = lim (x3n + 2x2n − 7xn + 1)
n→∞
3
2
= lim xn + 2 lim xn − 7 · lim xn + 1
n→∞
n→∞
n→∞
n→∞
= 1 + 2 − 7 + 1 = f (1) = −3.
Eine ähnliche Rechnung funktioniert offenbar für jeden Punkt x0 ∈ R und jedes Polynom f , d.h. sind f : R → R ein Polynom und x0 ∈ R, so gilt immer
lim f (x) = f (x0 ).
x→x0
Kommen wir zu einem etwas komplizierteren Beispiel, der rationalen Funktion
x3 − x2 + x + 1
f : R\{1, −2} → R; x 7→
x3 − 3x + 2
mit dem Graphen
10
8
6
y
4
2
–3
–2
0
–1
–2
–4
–6
–8
–10
204
1
2
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
Streng genommen haben wir Funktionsgrenzwerte hier nicht definiert, da R\{1, −2}
kein Intervall sondern eine Vereinigung von drei Intervallen ist, aber der Grenzwertbegriff läßt sich wörtlich auf diesen Fall übertragen. Betrachten wir zunächst einmal den
Grenzwert x → 0. Hier können wir unsere obige Überlegung für Polynome und erneut
den Grenzwertsatz für Folgen zum Einsatz bringen, und rechnen für jede Nullfolge
(xn )n∈N
lim (x3n − x2n + xn + 1)
1
n→∞
lim f (xn ) =
=
,
n→∞
lim (x3n − 3xn + 2)
2
n→∞
d.h. es ist
1
lim f (x) = f (0) = .
x→0
2
Ebenso können wir natürlich für jede rationale Funktion f und jeden Punkt x0 ∈ R
argumentieren, der nicht gerade eine Nullstelle des Nenners ist, und erhalten in diesen
Fällen limx→∞ f (x) = f (x0 ). Wie sieht es nun aus, wenn x0 doch eine Nullstelle des
Nenners ist? Im Beispiel haben wir
x3 − 3x + 2 = (x − 1)2 (x + 2)
mit den beiden Nullstellen −2 und 1. Betrachten wir erst einmal den Grenzwert für
x → 1. Zu diesem Zweck schreiben wir
f (x) =
1
x3 − x2 + x + 1
·
,
(x − 1)2
x+2
und wissen bereits
x3 − x2 + x + 1
1−1+1+1
2
=
= .
x→1
x+2
1+2
3
lim
Ist nun (xn )n∈N eine Folge mit limx→∞ xn = 1 und xn 6= 1, −2 für alle n ∈ N, so ist
x3n − x2n + xn + 1
2
1
= , lim
= ∞,
n→∞
xn − 2
3 n→∞ (xn − 1)2
lim
also
x3n − x2n + xn + 1
= ∞.
lim
n→∞ (xn − 1)2 (xn + 2)
Lassen wir also wie bei Folgen auch −∞ und ∞ als Grenzwerte zu, so ist
lim f (x) = ∞.
x→1
Wie sieht es mit dem Grenzwert für x → −2 aus? Gehen wir wie bei x = 1 vor, so ist
1
x3 − x2 + x + 1
·
,
x+2
(x − 1)2
x3 − x2 + x + 1
(−2)3 − (−2)2 − 2 + 1
13
lim
=
=− .
2
2
x→−2
(x − 1)
(−2 − 1)
9
f (x) =
205
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
Aber der Grenzwert von 1/(x + 2) für x → −2 existiert nicht, da dieser Quotient zwar
im Betrag beliebig groß wird wenn x nahe an 2 ist, aber für x < −2 negativ und
für x > −2 positiv ist. Was existiert sind die links- und rechtsseitigen Grenzwerte für
x → −2. Dass y ∈ R der rechtsseitige Grenzwert einer Funktion f : I → R in x0 ist,
ist wie folgt definiert
lim f (x) = y ⇐⇒
x↓x0
Für jede Folge (xn )n∈N in I mit limn→∞ xn = x0
und xn > x0 für alle n ∈ N ist limn→∞ f (xn ) = y.
Alternative Schreibweisen für den rechtsseitigen Grenzwert sind
lim f (x) = x lim
f (x) = lim+ f (x).
→x
x↓x0
n
0
x→x0
xn >x0
Analog kann auch der linksseitige Grenzwert
lim f (x) = x lim
f (x) = lim− f (x)
→x
x↑x0
n
0
x→x0
xn <x0
definiert werden. Für unsere rationale Funktion f haben wir dann
lim f (x) = −∞ und
x↓−2
lim f (x) = ∞,
x↑−2
wobei sich die Vorzeichen so ergeben, da ja noch mit −13/9 multipliziert wird. Die beiden links- und rechtsseitigen Grenzwerte können natürlich auch von ±∞ verschiedene
Werte haben, betrachten wir etwa die sogenannte Heaviside Funktion
H(x)
(
0, x < 0,
H : R → R; x 7→
1, x ≥ 0,
x
so ist
lim H(x) = 1, lim H(x) = 0.
x↓0
x↑0
Wir wollen noch zwei etwas kompliziertere Beispiele behandeln. Zunächst schauen wir
206
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
uns die folgende Funktion an:
1
0.5
1
f : (0, ∞) → R; x 7→ sin
x
0
0.2
0.4
0.6
0.8
1
–0.5
–1
Wenn x näher zu Null rück wird 1/x immer größer und sin(1/x) durchläuft immer
schneller seine Perioden. Dies führt dann zu dem im Graphen sichtbaren Oszillationseffekt bei Null. In diesen Beispiel gibt es überhaupt keinen Grenzwert von f (x) für
x → 0. Wir haben beispielsweise die Folge
xn =
π
2
1
+ nπ
mit limn→∞ xn = 0 und f (xn ) = (−1)n für alle n ∈ N. Anschaulich ist dies die Folge,
die gerade die abwechselnden Maxima und Minima von f (x) abläuft. Anders ist es bei
der ähnlich aussehenden Funktion
1
0.5
1
f : (0, ∞) → R; x 7→ x · sin
x
0
–0.5
–1
207
0.2
0.4
0.6
0.8
1
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 3.2.2009
Zwar oszilliert auch diese immer schneller zwischen positiven und negativen Werten
hin und her, aber durch die Multiplikation mit x wird diese Oszillation immer kleiner, was zur Existenz des Grenzwerts führt. Ist hier (xn )n∈N eine Folge in (0, ∞) mit
limn→∞ xn = 0, so ist für jedes n ∈ N
1 ≤ |xn |,
|f (xn )| = |xn | · sin
xn und der Einschnürungssatz §11.Satz 4 für Folgengrenzwerte liefert limn→∞ f (xn ) = 0.
Hier ist also limx→0 f (x) = 0.
Oft wichtig sind auch Grenzwerte x → ±∞. Diese sind völlig analog zu den sonstigen Funktionsgrenzwerten definiert. Sind beispielsweise I ⊆ R ein nach oben unbeschränktes Intervall, also eines der Form (a, ∞), [a, ∞) oder (−∞, ∞), und f : I → R
eine Funktion, so definieren wir
Für jede Folge (xn )n∈N in I mit
lim f (x) = y ⇐⇒
limn→∞ xn = ∞ ist limn→∞ f (xn ) = y.
x→∞
Dabei ist auch y = ±∞ zugelassen. Analog definieren wir limx→−∞ f (x) wenn f auf
einem nach unten unbeschränkten Intervall definiert ist.
Betrachten wir beispielsweise einmal die beiden Grenzwerte limx→±∞ ex , die wir
nur unter Verwendung der in §12 gegebenen Definition der Exponentialfunktion als
Potenzreihe herleiten wollen. Zunächst bemerken wir, dass für jede positive reelle Zahl
x > 0 in der Reihe
x2 x3
ex = 1 + x +
+
+ ···
2!
3!
alle Summanden positiv sind. Lassen wir sie also alle, bis auf einen, weg, so erhalten
wir ex > x. Ist damit (xn )n∈N eine Folge mit limn→∞ xn = ∞, so ist ja insbesondere für
ausreichend große Indizes n stets xn > 0 und somit auch exn > xn . Damit folgt aber
auch limn→∞ exn = ∞. Dies zeigt den erwarteten Grenzwert
lim ex = ∞.
x→∞
Den Grenzwert für x gegen −∞ können wir hierauf zurückführen. Es gilt nämlich
1
= 0.
x→∞ ex
lim ex = lim e−x = lim
x→−∞
13.2
x→∞
Stetige Funktionen
Definition 13.3: Sei I ⊆ R ein Intervall. Eine Funktion f : I → R heißt stetig in einem
Punkt x0 ∈ I, wenn
f (x0 ) = lim f (x)
x→x0
gilt. Die Funktion f heißt stetig in I, wenn sie in jedem Punkt von I stetig ist.
208
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
Wir werden uns mit diesem Begriff und diversen Beispielen für stetige Funktion noch
näher beschäftigen. Wir wollen hier aber von vornherein klarstellen, dass die oft gehörte
Formulierung die Funktion läßt sich in einem Stück durchzeichnen“ nicht wirklich die
”
stetigen Funktion beschreibt, sondern eine wesentlich stärkere Einschränkung ist. Es
gibt beispielsweise stetige Funktionen, die in keinem einzigen Punkt eine Ableitung
haben, und solche werden sich schwerlich vernünftig zeichen lassen. Solche Funktionen
erscheinen zunächst etwas merkwürdig, sie sind in Wahrheit aber der Normalfall. Man
kann in sinnvoller Weise sagen, was es bedeutet zufällig eine stetige Funktion zu wählen,
und dann stellt sich heraus, dass die Wahrscheinlichkeit das eine zufällig gewählte
stetige Funktion auch nur in einem Punkt eine Ableitung hat, gleich Null ist. Die
uns hauptsächlich interessierenden Funktionen sind also in gewissen Sinne extreme
Sonderfälle. Trotzdem werden wir uns natürlich hauptsächlich mit differenzierbaren
Funktionen beschäftigen, die obigen Bemerkungen zeigen nur, dass man für stetige
Funktionen der Anschauung nicht allzu sehr vertrauen sollte.
Vorlesung 26, Freitag 6.2.2009
In anderen Worten bedeutet die Stetigkeit einer Funktion f : I → R also
lim f (xn ) = f ( lim xn )
n→∞
n→∞
für jede in I konvergente Folge (xn )n∈N aus I. Unsere bisherigen Beispiele ergeben sofort
die folgenden Beispiele stetiger Funktionen:
1. Jedes Polynom ist auf ganz R stetig.
2. Jede rationale Funktion ist außerhalb der Nullstellen des Nenners stetig. Gelegentlich existieren die Grenzwerte einer rationale Funktion f (x) = p(x)/q(x)
auch in den Nullstellen des Nenners noch, etwa im, etwas albernen, Beispiel
p(x) = q(x) = x. Das etwas genauer formulierte Resultat für rationale Funktionen werden wir noch behandeln.
3. Die Funktion
(
x sin
f : R → R; x 7→
0,
1
x
, x 6= 0,
x=0
ist auf ganz R stetig.
Dagegen ist zum Beispiel die Heaviside Funktion H, also
(
1, x ≥ 0,
H(x) =
0, x < 0
209
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
in x = 0 nicht stetig. Stückweise zusammengesetzte Funktionen wie die Heaviside
Funktion können natürlich durchaus auch einmal stetig sein, zum Beispiel ist die Betragsfunktion
(
x,
x ≥ 0,
|x| =
−x, x ≤ 0
auf ganz R stetig. Haben wir allgemein eine Funktion in der Form
(
f1 (x), x ≤ a,
f (x) =
f2 (x), x > a
gegeben, so ist diese genau dann stetig wenn f1 und f2 stetig sind, und zusätzlich
f1 (a) = f2 (a) gilt, die beiden Stücke also zusammepassen.
Ob eine gegebene Funktion f stetig ist oder nicht ist für die üblicherweise, und auch
hier, vorkommenden Funktionen nicht schwer zu entscheiden. Hierzu ist es zum Glück
auch so gut wie nie nötig, sich tatsächlich auf die Definition der Stetigkeit zu berufen.
Anstelle dessen verwendet man gewöhnlich eine Vielzahl von Sätzen, die besagen das
das Zusammensetzen von Funktionen aus stetigen Funktionen wieder stetige Funktionen liefert. Zum Beispiel ist die Summe f + g zweier stetiger Funktionen f und g auch
wieder stetig. Um diesen Satz vorzubereiten halten wir erst einmal einige Rechenregeln
für Funktionsgrenzwerte fest.
Satz 13.1 (Rechenregeln für Funktionsgrenzwerte)
Seien I ⊆ R ein Intervall und x0 ∈ I. Weiter seien f, g : I → R zwei Funktionen,
deren Grenzwerte limx→x0 f (x), limx→x0 g(x) existieren.
(a) Der Grenzwert limx→x0 (f (x) + g(x)) existiert, und es ist
lim (f (x) + g(x)) = lim f (x) + lim g(x).
x→x0
x→x0
x→x0
(b) Ist c ∈ R eine reelle Zahl, so existiert auch der Funktionsgrenzwert limx→x0 (cf (x)),
und es gilt
lim (cf (x)) = c · lim f (x).
x→x0
x→x0
(c) Der Grenzwert limx→x0 (f (x)g(x)) existiert, und es ist
lim (f (x)g(x)) = lim f (x) · lim g(x).
x→x0
x→x0
x→x0
(d) Gelten g(x) 6= 0 für alle x ∈ I und limx→x0 g(x) 6= 0, so existiert auch der Grenzwert limx→x0 (f (x)/g(x)) und es ist
lim
x→x0
lim f (x)
f (x)
x→x0
.
=
g(x)
lim g(x)
x→x0
210
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
(e) Gilt f (x) ≤ g(x) für alle x ∈ I, so ist auch
lim f (x) ≤ lim g(x).
x→x0
x→x0
(f ) Gilt a := limx→x0 f (x) = limx→x0 g(x) und ist h : I → R eine weitere Funktion mit
f (x) ≤ h(x) ≤ g(x) für alle x ∈ I mit x 6= x0 , so ist auch limx→x0 h(x) = a.
All diese Aussagen folgen ziemlich direkt aus den entsprechenden Aussagen über Folgengrenzwerte, die wir in §11 behandelt haben. Haben wir zum Beispiel eine Folge
(xn )n∈N in I\{x0 } mit limn→∞ xn = x0 , so gelten limx→∞ f (xn ) = limx→x0 f (x) und
limn→∞ g(xn ) = limx→x0 g(x), also auch
lim (f (xn ) + g(xn )) = lim f (xn ) + lim g(xn ) = lim f (x) + lim g(x),
n→∞
n→∞
n→∞
x→x0
x→x0
d.h. wir haben limx→x0 (f (x) + g(x)) = limx→x0 f (x) + limx→x0 g(x). Die anderen Aussagen ergeben sich im wesentlichen genauso und sollen hier nicht vorgeführt werden.
Ebenso gilt dieser Satz natürlich auch für links- und rechtsseitige Grenzwerte, für
Grenzwerte x gegen ±∞ sowie für Grenzwerte mit Wert ±∞ solange wie bei Folgen
nur sinnvolle Ausdrücke vorkommen, also nicht sow etwas wie 0/0.
Wie wollen uns nun einmal, wie schon angekündigt, allgemein die Grenzwerte
limx→x0 f (x) für eine beliebige rationale Funktion f anschauen. Definitionsgemäß ist
eine rationale Funktion der Quotient zweier Polynome f = p/q, und wie im vorigen
Abschnitt gesehen gilt für x0 ∈ R mit q(x0 ) 6= 0 stets limx→x0 f (x) = f (x0 ). Insbesondere ist f in diesen Punkten stetig. Allerdings ist die Bedingung q(x0 ) 6= 0 manchmal
zu einschränkend, schreiben wir zum Beispiel f (x) = 1 = x/x, so ist f ja auch für
x0 = 0 stetig. Die Einschränkung q(x0 ) 6= 0 ist nur dann die richtige Bedingung, wenn
Zähler und Nenner der rationalen Funktion keine gemeinsamen Nullstellen haben, beziehungsweise wenn sie vorher ausgekürzt sind.
Um dies exakt zu formulieren benötigen wir die, Ihnen wahrscheinlich aus der Schule
bekannte, Polynomdivision:
Satz 13.2 (Polynomdivision mit Rest)
Sind f, p zwei Polynome mit p 6= 0, so existieren eindeutig bestimmte Polynome q und
r so, dass f = pq + r ist und der Grad von r echt kleiner als der Grad von p ist (dabei
wird der Grad des Nullpolynoms als −∞ interpretiert).
Das Polynom q ist dann der Quotient und r der Rest. Der Satz gilt dabei sowohl
für reelle, als auch für komplexe Polynome. Die Berechnung von q und r erfolgt über
das Ihnen aus der Schule bekannte Verfahren der Division mit Rest. Wir wollen zum
211
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
Beispiel einmal x3 − x2 + x + 1 durch x + 2 teilen:
x3 − x2 + x + 1 : x + 2 = x2 − 3x + 7
−(x3 + 2x2 )
− 3x2 + x
− (−3x2 − 6x)
7x + 1
− (7x + 14)
− 13
der Quotient ist also x2 − 3x + 7 und der Rest ist −13
x3 − x2 + x + 1 = (x2 − 3x + 7)(x + 2) − 13.
Ein Spezialfall dieses Satzes ist besonders wichtig. Ist p 6= 0 ein Polynom, das eine
Nullstelle a hat, so dividieren wir p durch x − a und erhalten p = q · (x − a) + r, wobei
das Restpolynom r Grad 0 oder −∞ hat, also eine Zahl ist. Weiter ist aber
0 = p(a) = q(a) · (a − a) + r = r,
also p = q ·(x−a), wir können den zur Nullstelle gehörenden Linearfaktor herausziehen.
Gelegentlich kann man sogar höhere Potenzen von x − a aus p herausziehen, und
wir sprechen dann von Nullstellen höherer Ordnung. Allgemein ist die Ordnung, oder
Vielfachheit, der Nullstelle a die größte natürlich Zahl n so, dass wir p = q · (x − a)n
mit einem Polynom q mit q(a) 6= 0 schreiben können. Wir sagen, dass das Polynom p
in Linearfaktoren zerfällt, wenn wir
p = c(x − a1 )n1 · . . . · (x − ar )nr
schreiben können, wobei c eine von Null verschiedene Zahl ist, und a1 , . . . , ar die verschiedenen Nullstellen von p mit Vielfachheiten n1 , . . . , nr sind. Der sogenannte Hauptsatz der Algebra besagt, dass über den komplexen Zahlen überhaupt jedes Polynom
in Linearfaktoren zerfällt. Über den reellen Zahlen ist die Lage etwas komplizierter, es
gibt ja Polynome wie x2 + 1, die überhaupt keine reellen Nullstellen haben. Allgemein
hat ein quadratisches Polynom
p = x2 + ax + b
nach der pq-Formel genau dann keine reellen Nullstellen wenn a2 − 4b < 0 ist. Es läßt
sich zeigen, dass sich über den reellen Zahlen jedes Polynom p als ein Produkt
p = c · (x − a1 )n1 · . . . · (x − ar )nr · (x2 + b1 x + c1 )m1 · . . . · (x2 + bs x + cs )ms
schreiben läßt. Dabei sind c wieder eine von Null verschiedene Zahl, a1 , . . . , ar die
Nullstellen von p mit Vielfachheiten n1 , . . . , nr , und die verbleibenden Faktoren sind
Potenzen nullstellenfreier, quadratischer Polynome. Diese Produktdarstellung ist bis
212
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
auf Reihenfolge eindeutig, die Polynome x − a und x2 + ax + b mit a2 − 4b < 0 sind so
etwas wie die Primzahlen unter den Polynomen.
Nun betrachten wir eine rationale Funktion
f (x) =
p(x)
q(x)
mit zwei Polynomen p und q. Wir nehmen an, dass p und q teilerfremd sind, d.h.
schreiben wir beide wie oben als ein Produkt, so kommt keiner der Faktoren von p
auch bei q vor, und umgekehrt (dies bezieht sich natürlich auf die Faktoren x − a und
x2 + ax + b, und nicht auf die Konstante c). Sei x0 ∈ R und wir wollen limx→x0 f (x)
berechnen. Im einfachsten Fall q(x0 ) 6= 0 ist sofort
lim f (x) =
x→x0
p(x0 )
= f (x0 ).
q(x0 )
Nun nehmen wir q(x0 ) = 0 an. Da p und q teilerfremd sind, ist dann sicher p(x0 ) 6= 0.
Ist weiter n die Vielfachheit der Nullstelle x0 von q, so können wir q = (x − x0 )n · qe mit
einem Polynom qe mit qe(x0 ) 6= 0 schreiben. Dann haben wir
f (x) =
p(x)
1
·
n
(x − x0 ) qe(x)
mit
lim
x→x0
p(x)
p(x0 )
=
.
qe(x)
qe(x0 )
Nun gibt es zwei Fälle. Ist n gerade, so ist
lim
x→x0
1
=∞
(x − x0 )n
und somit
lim f (x) = sign
x→x0
p(x0 )
qe(x0 )
· ∞.
Ist n dagegen ungerade, so gibt es nur links und rechtsseitige Grenzwerte
lim
x↓x0
1
1
= ∞, lim
= −∞
n
x↑x0 (x − x0 )n
(x − x0 )
und somit
lim f (x) = sign
x↓x0
p(x0 )
qe(x0 )
· ∞, lim f (x) = − sign
x↑x0
p(x0 )
qe(x0 )
· ∞.
Insbesondere haben wir damit die exakte Aussage über die Stetigkeit rationaler Funktionen, sie sind genau außerhalb der Nullstellen des Nenners stetig, wenn wir die rationale Funktion als einen Quotienten teilerfremder Polynome schreiben. Die Rechenregeln
für Funktionsgrenzwerte liefern jetzt den folgenden Satz:
Satz 13.3 (Erhaltung der Stetigkeit)
Seien I ⊆ R ein Intervall und f, g : I → R zwei stetige Funktionen. Dann sind auch
213
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
die Funktionen f + g, f · g und c · f für jedes c ∈ R stetig. Ist g(x) 6= 0 für alle x ∈ I,
so ist auch f /g stetig.
Entsprechend gilt dieser Satz natürlich auch für Stetigkeit in einzelnen Punkten. Weiter
sind Hintereinanderausführungen stetiger Funktionen wieder stetig.
Satz 13.4 (Hintereinanderausführung stetiger Funktionen)
Seien I, J ⊆ R zwei Intervalle und f : I → J, g : J → R zwei stetige Funktionen.
Dann ist auch g ◦ f : I → R stetig. Wir wollen noch eine letzte große Klasse stetiger
Funktionen angeben, nämlich unsere Potenzreihen aus §12. Da wir Stetigkeit hier nur
für reelle Funktionen eingeführt haben, müssen wir uns auch auf reelle Potenzreihen
beschränken.
SatzP13.5 (Stetigkeit von Potenzreihen)
n
Sei ∞
n=0 an (x − x0 ) eine reelle Potenzreihe (also x0 ∈ R und an ∈ R für alle n ∈ N0 )
mit positiven Konvergenzradius r > 0. Dann ist die Funktion
f : (x0 − r, x0 + r) → R; x 7→
∞
X
an (x − x0 )n
n=0
stetig.
Insbesondere ergibt dieser Satz die Stetigkeit aller durch Potenzreihen definierten Funktionen, also ex , sin x, cos x. Mit Satz 3 folgen dann auch die Stetigkeit von sinh x, cosh x,
tanh x, coth x für x 6= 0, tan x außerhalb der Nullstellen des Cosinus, und so weiter.
Kurzum ist jede Funktion, die wir irgendwie als eine Formel hinschreiben können stetig.
Wir wollen den Satz auch einmal verwenden, um den Grenzwert
sin x
x→0 x
lim
zu berechnen. Für jedes x ∈ R mit x 6= 0 haben wir
sin x
1
x3 x5
x2 x4
= · x−
+
− ··· = 1 −
+
− ···
x
x
3!
5!
3!
5!
Nach dem Satz ist diese Funktion aber auf ganz R stetig und somit ist
lim
x→0
sin x
= 1.
x
Wir hatten ja schon erwähnt, dass man sich Potenzreihen als Polynome von Grad ∞
vorstellen kann, in der obige Rechnung ziehen wir dann sozusagen den Linearfakter x,
der zur Nullstelle des Sinus bei 0 gehört, aus der Sinusfunktion heraus, und kürzen
ihn weg. Mit den bisher behandelten Sätzen können wir die Stetigkeit der meisten
normalerweise vorkommenden Funktionen einfach begründen. Die einzige Ausnahme
sind Umkehrfunktionen wie arcsin x, ln x, und so weiter, die wir etwas später behandeln
wollen.
214
Mathematik für Ingenieure I, WS 2008/2009
13.3
Freitag 6.2.2009
Grundeigenschaften stetiger Funktionen
Der wohl wichtigste Satz über stetige Funktionen ist der folgende Zwischenwertsatz.
Da sein Beweis uns zugleich ein gelegentlich brauchbares Verfahren zur näherungsweisen Lösung von Gleichungen liefert, wollen wir diesen Satz mitsamt seinen Beweis
vorführen.
Satz 13.6 (Zwischenwertsatz)
Seien a, b ∈ R mit a < b und f : [a, b] → R eine stetige Funktion. Weiter sei y ∈ R
zwischen f (a) und f (b), d.h. es gilt f (a) ≤ y ≤ f (b) oder f (b) ≤ y ≤ f (a). Dann
existiert ein x ∈ [a, b] mit f (x) = y.
Beweis: Durch Übergang zu f (x) − y können wir y = 0 annehmen. Weiter können wir
dann durch eventuellen Übergang zu −f und Ignorieren trivialer Fälle auch f (a) <
0 < f (b) voraussetzen. Setze a1 := a und b1 := b. Ist nun n ∈ N und haben wir an , bn
schon konstruiert, so betrachte den Mittelpunkt zwischen an und bn . Dann setze
(
n
n
an+1 := an , bn+1 := an +b
, f an +b
≥ 0,
2
2 an +bn
an +bn
an+1 := 2 , bn+1 := bn , f
< 0.
2
Für jedes n ∈ N0 haben wir dann
an ≤ an+1 < bn+1 ≤ bn bn − an =
b−a
2n
und f (an ) < 0 ≤ f (bn ).
Die Vollständigkeit der reellen Zahlen impliziert die Konvergenz der monoton steigenden Folge (xn )n∈N sowie der monoton fallenden Folge (bn )n∈N . Wegen
b−a
=0
n→∞ 2n
lim bn − lim an = lim (bn − an ) = lim
n→∞
n→∞
n→∞
erhalten wir
x := lim an = lim bn .
n→∞
n→∞
Für alle n ∈ N ist nun f (an ) < 0 ≤ f (bn ) und somit auch
f (x) = lim f (an ) ≤ 0 ≤ lim f (bn ) = f (x),
n→∞
n→∞
d.h. es ist f (x) = 0.
Die im Beweis verwendete Methode nennt man auch Intervall-Halbierungsmethode.
Die Lösung x liegt immer zwischen an und bn , also ist auch
|x − an | = x − an ≤ bn − an =
b−a
2n
und ebenso |x − bn | ≤ (b − a)/2n . Der Fehler verkleinert sich bei dreifacher Ausführung
um den Faktor 8, und bei vierfacher Ausführung um den Faktor 16, wir können also
215
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
sagen, dass wir grob alle drei bis vier Iterationsschritte eine neue Dezimalstelle gewinnen. Das ist zwar nicht besonders schnell, aber der Rechenaufwand läßt sich gut a
priori abschätzen. Zum Beispiel verwenden wir einmal das Intervallhalbierungsverfahren um die Gleichung cos x = x für 0 ≤ x ≤ π/2 zu lösen. Als Funktion verwenden wir
f (x) = x − cos x, also f (0) = −1 < 0 und f (π/2) = π/2 > 0. Wegen π/2 ≈ 1.57 sollten
wir nach spätestens 12 Iterationsschritten eine auf zwei Dezimalstellen genaue Lösung
haben:
1.6
n
0
1
2
3
4
5
6
7
8
9
10
11
a
0
0
0.3926990818
0.5890486227
0.6872233932
0.7363107784
0.7363107784
0.7363107784
0.7363107784
0.7363107784
0.7378447592
0.7386117496
b
1.570796327
0.7853981635
0.7853981635
0.7853981635
0.7853981635
0.7853981635
0.7608544710
0.7485826247
0.7424467016
0.7393787400
0.7393787400
0.7393787400
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Der Fehler bei n = 11 ist dabei höchstens π/212 ≈ 0.0007669903940, und auf zwei
Dezimalstellen genau ist die Lösung x ≈ 0.73. Wir kommen nun zur zweiten Grundeigenschaft stetiger Funktionen, der Existenz globaler Maxima und Minima.
Satz 13.7 (Existenz globaler Maxima und Minima)
Sei a, b ∈ R mit a < b und f : [a, b] → R eine stetige Funktion. Dann ist f beschränkt
und hat eine globales Maximum und ein globales Minimum, d.h. es gibt x1 , x2 ∈ [a, b]
mit f (x1 ) ≤ f (x) ≤ f (x2 ) für alle x ∈ [a, b].
Diesen Satz wollen wir hier nicht beweisen. Wir wollen nur explizit darauf hinweisen,
dass es hier wichtig ist die Funktion auf einem Intervall der Form [a, b] zu betrachten, auf
anderen Intervallen ist die Aussage falsch. Zum Beispiel hat die Funktion f : (0, 1] →
R; x 7→ 1/x kein globales Maximum, sie ist ja nicht einmal nach oben beschränkt.
13.4
Umkehrfunktionen
Der Zwischenwertsatz ergibt auch die üblichen Kriterien für Surjektivität durch Betrachtung von Grenzwerten. Um zum Beispiel einzusehen, dass ein Polynom p(x) =
x3 +ax2 +bx+c vom Grad 3 immer surjektiv ist, rechnet man zunächst limx→∞ p(x) = ∞
und limx→−∞ p(x) = −∞ und der Zwischenwertsatz ergibt, daß es für jedes y ∈ R ein
x ∈ R mit p(x) = y gibt. Dies funktioniert auch für andere Grenzwerte, haben wir etwa
eine stetige Funktion f : (0, 1) → R mit limx→0 f (x) = a, limx→1 f (x) = b, so gibt es
216
Mathematik für Ingenieure I, WS 2008/2009
Freitag 6.2.2009
für jedes y zwischen a und b stets ein x ∈ (a, b) mit f (x) = y. Besonders übersichtlich
ist die Lage für injektive Funktionen:
Satz 13.8 (Umkehrfunktionen stetiger Funktionen)
Seien I ⊆ R ein Intervall und f : I → R eine stetige Funktion. Dann ist f genau dann
injektiv, wenn f streng monoton steigend oder streng monoton fallend ist. In diesem
Fall ist J := f (I) ⊆ R wieder ein Intervall und sind a, b ∈ R die beiden Randpunkte
von I (unter eventueller Einbeziehung von ±∞), so sind limx→a f (x) und limx→b f (x)
die beiden Randpunkte von J. Weiter ist die Umkehrfunktion f −1 : J → R dann wieder
stetig.
Mit diesem Satz folgen sofort Existenz und Stetigkeit der folgenden, Ihnen wahrscheinlich auch schon wohlbekannten, Funktionen:
• Die Sinusfunktion
h π πi
→ [−1, 1]
sin : − ,
2 2
ist stetig und streng monoton steigend, nach dem Satz also sogar bijektiv, und
die Umkehrfunktion
h π πi
arcsin : [−1, 1] → − ,
2 2
ist wieder stetig.
• Ebenso erhalten wir den streng monoton fallenden
arccos : [−1, 1] → [0, π]
ist.
• Der Tangens ist zwischen −π/2 und π/2 streng monoton steigend mit
lim tan x = ∞, limπ tan x = −∞,
x→ π2
x→− 2
und nach unseren Sätzen ist
π π
tan : − ,
→ R; x 7→ tan x
2 2
stetig und bijektiv, mit der stetigen Umkehrfunktion
π π
arctan : R → − ,
.
2 2
• Ebenso erhalten wir den streng monoton fallenden
arccot : R → (0, π).
217
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
Entsprechend haben auch die Hyperbelfunktionen stetige Umkehrfunktionen, zumindest auf geeigneten Intervallen. Dies sind die sogenannten Area-Funktionen arsinhx,
und so weiter. Da diese Funktionen aber nur selten auftauchen, wollen wir sie hier nicht
diskutieren.
Vorlesung 27, Dienstag 10.2.2009
Zum Abschluss dieses Paragraphen wollen wir nun noch die Umkehrfunktion der
Exponentialfunktion, in ihrer reellen und ihrer komplexen Form, besprechen. Wir gehen
wieder von der Definition der Exponentialfunktion über ihre Potenzreihe
ex = 1 + x +
x2 x3
+
+ ···
2!
3!
1. Als durch eine Potenzreihe gegebene Funktion ist die Exponentialfunktion stetig.
2. Für alle x, y ∈ R, und auch alle x, y ∈ C, gilt die Gleichung ex+y = ex ey . Dieses
hatten wir über die Berechnung des Cauchyprodukts der definierenden Potenzreihen eingesehen.
3. Als eine Folgerung ergab sich ex 6= 0 und e−x = 1/ex für jedes x ∈ R, und auch
jedes x ∈ C.
4. Es gelten limx→−∞ ex = 0 und limx→∞ ex = ∞.
Aus diesen Fakten werden wir nun einige weitere Eigenschaften der Exponentialfunktion herleiten. Zunächst zeigen wir ex > 1 für alle x ∈ R mit x > 0. Ist nämlich x > 0,
so gilt xn > 0 für jedes n ∈ N, und somit ist auch
ex = 1 + x +
x2
+ · · · > 1.
2!
Insbesondere ist auch ex > 0 für alle x ∈ R, denn für x > 0 haben wir dies eben
eingesehen, für x = 0 ist ex = 1 und für x < 0 haben wir auch ex = 1/e−x > 0.
Damit ist es nun leicht zu zeigen, daß die Exponentialfunktion auch streng monoton steigend ist. Seien nämlich
x, y ∈ R mit x < y gegeben. Dann ist y − x > 0 und wir
rechnen
ey = ex+y−x = ex ey−x > ex .
1
x
1
2
3
4
5
0
–1
Nach unserem Satz über Umkehrfunktionen ist das Bild
exp(R) ein Intervall mit den Randpunkten limx→−∞ ex = 0 und limx→∞ ex = ∞, also
gleich (0, ∞), und wir haben eine stetige Umkehrabbildung
–2
ln : (0, ∞) → R
218
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
genannt der natürliche Logariathmus. Der Zusatz natürlich“ wird dabei in mathe”
matisch orientierten Texten oft weggelassen, da sowieso keine anderen Logarithmen
betrachtet werden. In der Tat schreiben Mathematiker oft auch log für den natürlichen
Logarithmus, während log in anderen Zusammenhängen oftmals den Logarithmus zur
Basis 10 bedeutet. Aus den Eigenschaften der Exponentialfunktion folgen nun entsprechende Eigenschaften des Logarithmus. Da die e-Funktion streng monoton steigend
ist, ist auch der Logarithmus streng monoton steigend. Wegen limx→−∞ ex = 0 und
limx→∞ ex = ∞ gelten
lim ln x = −∞ und
x→0
lim ln x = ∞.
x→∞
Weiter überführt der Logarithmus Produkte in Summen. Sind nämlich x, y ∈ R mit
x, y > 0, so haben wir
eln(x)+ln(y) = eln x eln y = x · y,
also
ln(x · y) = ln x + ln y.
Diese Eigenschaften wurde (sehr viel) früher in den sogenannten Rechenschiebern ausgenutzt. Da die Potenz xn das n-fache Produkt von x mit sich selbst ist, ergibt sich
weiter ln(xn ) = n · ln x für alle n ∈ N, x > 0. Außerdem folgt für jedes x > 0 noch
1
1
0 = ln 1 = ln x ·
= ln x + ln
,
x
x
beziehungsweise
1
ln
= − ln x.
x
Wir hatten bereits bemerkt, dass limx→∞ ln x = ∞ ist, allerdings ist diese Konvergenz
sehr langsam. Mit wachsenden x steigen die Logarithmen nur sehr gemächlich an. Um
dies zu illustrieren, wollen wir uns einmal überlegen, das die Abstände zwischen aufeinanderfolgenden Gliedern der Folge (ln n)n∈N immer kleiner werden, also eine Nullfolge
bilden. In der Tat gilt für jedes n ∈ N die Gleichung
1
n+1
1
ln(n + 1) − ln(n) = ln(n + 1) + ln
= ln
= ln 1 +
n
n
n
und mit der Stetigkeit des Logarithmus folgt
1
1
lim (ln(n + 1) − ln(n)) = lim ln 1 +
= ln lim 1 +
= ln(1) = 0.
n→∞
n→∞
n→∞
n
n
Formal werden beliebige reelle Potenzen durch eine Kombination von Exponentialfunktion und Logarithmus definiert
ax := ex·ln a
(a, x ∈ R, a > 0).
219
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
Für den Logarithmus zur Basis a, also der Umkehrfunktion von x 7→ ax folgt hieraus
loga y =
ln y
ln a
für alle a, y > 0, denn y = ax = ex ln(a) ist zu x · ln(a) = ln(y) gleichwertig. Wir
wollen den Logarithmus jetzt auch noch auf komplexe Argumente ausdehnen. Dies
funktioniert nicht als Umkehrfunktion der komplexen Exponentialfunktion selbst, wir
hatten ja bereits gesehen das diese periodisch mit Periode 2πi, also sicher nicht injektiv
ist. Wann gilt nun ez = ew für komplexe Zahlen z, w? Zunächst wollen wir hierzu alle
z ∈ C mit ez = 1 bestimmen. Setze dazu z = x + iy an. Wegen |ez | = ex kommt nur
x = 0 in Frage, also z = iy. Dann ist ez = cos y + i sin y, die beiden Bedingungen sind
also
cos y = 1,
sin y = 0.
Die zweite Gleichung hat genau die Lösungen y = nπ mit n ∈ Z. Eingesetzt in der
ersten Gleichung wird diese zu 1 = cos y = cos(nπ) = (−1)n , d.h. die Zahl n muss
gerade sein. Damit haben wir
ez = 1 ⇐⇒ z = 2πni für ein n ∈ Z.
Für z, w ∈ C folgt weiter
ez = ew ⇐⇒ ez−w =
ez
= 1 ⇐⇒ z = w + 2πin für ein n ∈ Z.
ew
Zwei komplexe Zahlen haben also genau dann denselben Wert unter der Exponentialfunktion, wenn sie sich um ein Vielfaches von 2πi unterscheiden. Schränken wir also
die Exponentialfunktion auf den Streifen
U := {x + iy|x ∈ R, −π < y < π}
ein, so wird exp : U → C injektiv, da in U keine zwei Elemente liegen, deren Imaginärteile sich um echte Vielfache von 2π unterscheiden.
y = Im z
y = 3π
y= π
U
x = Re z
y = −π
y = −3π
220
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
Die Menge U ist der angedeutete waagerechte Streifen, und die Werte der Exponentialfunktion wiederholen sich in jedem der unter diesem und über diesem liegenden
Streifen. Auf U eingeschränkte hat die e-Funktion somit eine Umkehrfunktion. Der
Definitionsbereich dieser Unkehrfunktion ist das Bild exp(U ) ⊆ C unseres Streifens,
das wir nun berechnen wollen. Zunächst wissen wir
exp(C) = C\{0}
da wir wegen exp(x + iy) = ex (cos y + i sin y) jede komplexe Zahl als Bild erreichen,
deren Länge sich als ex schreiben läßt, also nicht Null ist. Da die Exponentialfunktion
die Periode 2πi hat, werden fast alle diese Werte schon im Streifen U angenommen,
die einzigen Ausnahmen sind die Werte ez bei denen z auf einer der waagerechten
Linien Im z = ±π liegt. Erneut aufgrund der Periodizität können wir uns auf Im z = π
beschränken, also auf z = t + πi mit t ∈ R. Für jedes t ∈ R gilt nun
et+iπ = et · (cos π + i sin π) = −et ,
also
{ez |z ∈ C, Im z = π} = {−et |t ∈ R} = (−∞, 0)
und somit ist
exp(U ) = (C\{0})\(−∞, 0) = C\R≤0 =: C−
die sogenannte geschlitzte Ebene“. Damit ist exp : U → C− bijektiv, und wir erhalten
”
den komplexen Logarithmus als die Umkehrfunktion
ln := (exp |U )−1 : C− → C.
Dieser Logarithmus ist der sogenannte Hauptwert, oder auch Hauptzweig, des Logarithmus. Anstelle von U hätten wir auch irgendeinen anderen waagerechten Streifen
der Höhe 2π verwenden können, er müsste nicht einmal parallel zur x-Achse verlaufen.
Dies würde uns andere Werte des komplexen Logarithmus“ liefern. Abgesehen von
”
speziellen Situationen ist der Hauptwert die meistens verwendete Form des komplexen
Logarithmus. Die explizite Berechnung ist einfach. Schreiben wir z = reiφ ∈ C− in
Polarkoordinaten mit r > 0, −π < φ < π, so ist
ln z = ln r + iφ.
Dass die Berechnung der Polarkoordinaten einer komplexen Zahl z leicht möglich ist,
haben wir dabei in §4 gesehen. Das analytische Gebirge sowie der komforme Plot des
Logarithmus für z = x + iy, −2 ≤ x, y ≤ 2 sind:
221
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
3
2
3
1
2
–2.5
1
0
–2
–2
–1.5
–1
–0.5
0.5
1
–1
–2
–1
–1
y
–2
0
0
1
x
1
–3
2
2
Zur Warnung wollen wir abschließend an einem Beispiel zeigen, dass der komplexe
Logarithmus sich leider nicht ganz so gut verhält, wie wir es vom reellen Logarithmus
gewöhnt sind. Wir hatten bereits bemerkt, dass ln(xy) = ln x + ln y für alle reellen
Zahlen x, y > 0 gilt. Für den komplexen Logarithmus ist dies nicht uneingeschränkt
wahr, d.h. sind z, w ∈ C− so ist im Allgemeinen ln(zw) 6= ln z + ln w. Zum einen muss
natürlich überhaupt zw ∈ C− sein, aber dies reicht nicht aus.
Wir betrachten
3
z = w = e 4 πi = −
1√
1√
2+
2 i.
2
2
z
φ
Der Logarithmus von z berechnet sich dann zu
2
3
ln z = πi.
4
z
Auf der anderen Seite ist
2
z =
2
1√
1
2(i − 1) = (−1 + 1 − 2i) = −i.
2
2
In Polarkoordinaten ist z 2 = −i = e−iπ/4 , also
3
π
ln(z 2 ) = ln(−i) = − i 6= πi = 2 ln z.
2
2
In diesem Beispiel ist auch klar wo das Problem liegt. Multiplikation komplexer Zahlen
bedeutet Multiplikation der Längen und Addition der Winkel, aber bei dieser Addition
kann, wie in diesem Beispiel, der Winkel aus dem Intervall (−π, π) herausrutschen, was
zu diesem Sprung des Logarithmus führt. Dies kann beispielsweise nicht passieren wenn
wir uns auf Winkel zwischen −π/2 und π/2 beschränken, also auf komplexe Zahlen in
222
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
der rechten Halbebene. Sind also z, w ∈ C mit Re z > 0 und Re w > 0, so gilt stets
ln(zw) = ln(z) + ln(w).
Genau wie der reelle Logarithmus zur Definition beliebiger reeller Potenzen benutzt
werden kann, kann der komplexe Logarithmus zur Definition komplexer Potenzen verwendet werden. Wir führen dies zunächst für Wurzeln, also für hoch 1/2 vor. Für
z ∈ C− definieren wir
√
1
z := e 2 ln z .
Dann gilt auf jeden Fall
√
1 2
1
2
z = e 2 ln z = e2· 2 ln z = eln z = z,
√
aber im Allgemeinen leider nicht z 2 = z. Ist zum Beispiel wieder z = e3πi/4 , so haben
wir
√
√
π
1
1√
1√
z 2 = −i = e 2 ln(−i) = e− 4 i =
2−
2 i = −z.
2
2
√
√ √
Anders gesagt ist
6= z · z. Für z, w ∈ C mit Re z > 0 und Re w > 0 gilt
√ hier √z · z √
dagegen immer zw = z · w. Allgemeine komplexen Potenzen werden durch
z w := ew·ln z
(w ∈ C, z ∈ C− )
definiert. Beispielsweise ist dann
π
ii = ei·ln(i) = ei·i 2 = e−π/2 .
$Id: diffb.tex,v 1.4 2009/02/17 14:52:36 hk Exp $
§14
Differenzierbare Funktionen
14.1
Differenzierbarkeit und Differenzenquotienten
Jetzt sind wir in der Lage, die Differenzierbarkeit einer auf einem reellen Intervall I
definierten Funktion f : I → R einzuführen. Sei x ∈ I ein Punkt des Intervalls, und wir
wollen die Ableitung von f in x definieren. Es gibt mindestens drei verschiedene, aber
natürlich gleichwertige, Methoden f 0 (x) einzuführen. Wir beginnen mit der geometrischen Beschreibung. Hier betrachten wir Punkte y ∈ I verschieden von x, also y 6= x,
und bilden die Verbindungsgerade der beiden Punkte (x, f (x)) und (y, f (y)), dies ist
sozusagen eine Sekante der Kurve y = f (x). Die Steigung dieser Sekante ist durch den
sogenannten Differenzenquotienten
f (y) − f (x)
y−x
223
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
gegeben. Lassen wir jetzt y gegen x konvergieren, so sollte die Steigung dieser Sekanten
gegen die Steigung der Tangente an y = f (x) im Punkte x konvergieren, und diesen
Grenzwert, sofern er existiert nennen wir dann die Ableitung von f in x
f (y) − f (x)
.
y→x
y−x
f 0 (x) := lim
In einer etwas exakteren Formulierung definieren wir dann die Tangente von y = f (x)
im Punkte x als die Gerade der Steigung f 0 (x) durch den Punkt (x, f (x)).
Die zweite Beschreibung ist die Definition der Ableitung als Änderungsrate in einem
Punkte. Hier denken wir uns x als Zeit, und die Funktion f (x) als eine sich mit der Zeit
ändernde Größe. Die relative Änderung des Wertes f (x) in einem kleinen Zeitraum h
ist dann der Quotient
f (x + h) − f (x)
.
h
Lassen wir den Zeitabschnitt h hier klein werden, bilden also den Grenzwert h → 0,
so ergibt sich im Grenzwert die relative Änderung im Punkt x selbst, also die Änderungsrate in diesem Punkt
f (x + h) − f (x)
.
h→0
h
Mathematisch ist dies genau dasselbe wie die geometrische Interpretation, man muss
ja nur y = x + h schreiben. Diese Interpretation ist die wohl am häufigsten verwendete Veranschaulichung der Ableitung. Die Ableitung, also die Änderungsrate, einer
Ortskurve ist die Geschwindigkeit, deren Änderungsrate ist die Beschleunigung, und
so weiter. Die dritte Interpretation ist die Auffassung der Ableitung als eine lineare
Approximation. Hier denken wir uns die Funktion f in der Nähe des Punktes x durch
eine lineare Funktion angenähert, schreiben also
f 0 (x) := lim
f (x + h) = f (x) + mh + fehler(h)
wobei dann üblicherweise τ (h) = fehler(h) gesetzt wird. Beachte das wir all dies als
Funktionen in h auffassen, der Punkt x ist hier fest gewählt und ändert sich nicht. Der
Fehler soll dabei natürlich einigen Bedingungen genügen. Die Minimalbedingung ist,
dass der Fehler klein wird, wenn h klein wird, es sollte also limh→0 τ (h) = 0 gelten.
Für die Ableitung ist dies noch nicht genug. Der Fehler soll nicht nur klein werden,
er soll dies proportional zu h tun, es soll also eine Abschätzung |τ (h)| ≤ A|h| mit einer Proportionalitätskonstanten A > 0 gelten. Auch dies ist für die Differenzierbarkeit
noch nicht gut genug. Differenzierbarkeit bedeutet, dass man auch die Proportionalitätskonstante A beliebig klein machen kann, wenn h nur klein genug ist. Es soll also
für jede vorgegebene Proportionalitätskonstante > 0 stets |τ (h)| ≤ |h| für kleine h
sein, beziehungsweise etwas exakter soll es ein δ > 0 mit |τ (h)| ≤ |h| für alle h ∈ R
mit |h| ≤ δ geben. Da wir dies zu |τ (h)|/|h| ≤ für 0 6= h ∈ R mit |h| ≤ δ umformen
können, sehen wir das die Bedingung an den Fehler gerade
τ (h)
=0
h→0 h
lim
224
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 10.2.2009
ist. Auch diese Interpretation ist zu den anderen beiden Differenzierbarkeitsdefinitionen
äquivalent, wobei die Steigung m der approximierenden linearen Funktion gerade m =
f 0 (x) sein muss. Dies ist leicht zu sehen, wir können die Gleichung f (x + h) = f (x) +
mh + τ (h) ja zu
τ (h)
f (x + h) − f (x)
−m=
h
h
umschreiben. Als Definition müssen wir uns für eine dieser drei Varianten entscheiden,
und wählen hierfür die zweite Methode.
Definition 14.1: Seien I ⊆ R ein Intervall und f : I → R eine Abbildung. Wir nennen
f in einem Punkt x differenzierbar, wenn der Grenzwert
f (x + h) − f (x)
h→0
h
f 0 (x) := lim
existiert, welcher dann als die Ableitung von f in x bezeichnet wird.
Als ein erstes Beispiel wollen wir die Funktion f (x) = x2 behandeln. Hier rechnen wir
(x + h)2 = x2 + 2xh + h2
und haben f (x + h) = (x + h)2 geschrieben als die Summe des linearen Teils x2 + 2xh
und dem Fehler τ (h) = h2 . Dann ist limh→0 τ (h)/h = limh→0 h = 0, d.h. f ist in x
differenzierbar. Die Ableitung in x ist die Steigung des linearen Teils, also
f 0 (x) = 2x.
Etwas komplizierter ist die Funktion f (x) = x3 . Hier rechnen wir
(x + h)3 = x3 + 3x2 h + 3xh2 + h3 ,
wir haben also den linearen Teil x3 + 3x2 h und den Fehler τ (h) = 3xh2 + h3 . Wegen
τ (h)/h = 3xh + h2 ist wieder limh→0 τ (h)/h = 0, und f ist in x differenzierbar mit der
Ableitung
f 0 (x) = 3x2 .
Nun kommen wir zur allgemeinen Potenz f (x) = xn . Mit der binomischen Formel
rechnen wir dann
n X
n n−1
n n−k k
n
n
(x + h) = x +
x h+
x h = xn−1 + nxn−1 h + τ (h)
1
k
k=2
mit dem Fehler
τ (h) :=
n X
n
k=2
k
xn−k hk .
Dies ist zwar etwas komplizierter als in den beiden vorigen Beispielen, aber der Fehler ist
wieder nur ein Polynom in h, in dem nur die Potenzen h2 , h3 , . . . , hn vorkommen. Damit
225
Mathematik für Ingenieure I, WS 2008/2009
Freitag 13.2.2009
ist auch τ (h)/h ein Polynom in dem nur die Potenzen h, h2 , . . . , hn−1 vorkommen, und
insbesondere ist limh→0 τ (h)/h = 0. Folglich ist auch f (x) = xn in x differenzierbar mit
f 0 (x) = nxn−1 .
Vorlesung 28, Freitag 13.2.2009
Behandeln wir als ein weiteres Beispiel einmal die Funktion f (x) = 1/x. Sei 0 6= x ∈ R.
In diesem Beispiel ist es etwas bequemer gleich die Änderungsrate zu berechnen. Für
h ∈ R, streng genommen mit x + h 6= 0, gilt ja
1
1
x − (x + h)
h
− =
=−
,
x+h x
x(x + h)
x(x + h)
also
lim
h→0
1
x+h
−
h
1
x
= lim −
h→0
1
1
=− 2
x(x + h)
x
nach den Rechenregeln §13.Satz 1 für Funktionsgrenzwerte. Damit haben wir
f 0 (x) = −
1
.
x2
Die meisten Ableitungen rechnet man aber nicht direkt über den Differenzenquotienten
aus, sondern verwendet die diversen Rechenregeln für Ableitungen, also die Summenregel, die Produktregel, die Quotientenregel, die Kettenregel und die Regel für die
Ableitung von Unkehrfunktionen. Die beiden einfachsten dieser Regeln, sowie einige
andere nützliche Tatsachen, wollen wir im nächsten Satz zusammenfassen:
Satz 14.1 (Rechenregeln für Ableitungen)
Seien I ⊆ R ein Intervall, x ∈ I und f, g : I → R seien in x differenzierbar. Dann
gelten:
(a) Die Funktion f ist in x auch stetig.
(b) Die Funktion f + g ist in x differenzierbar mit (f + g)0 (x) = f 0 (x) + g 0 (x).
(c) Für jedes c ∈ R ist die Funktion cf in x differenzierbar mit (cf )0 (x) = cf 0 (x).
(d) Die Funktion f g ist in x differenzierbar mit
(f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x).
226
Mathematik für Ingenieure I, WS 2008/2009
Freitag 13.2.2009
Beweis: Die ersten drei Aussagen sind eine direkte Folge der Rechenregeln für Funktionsgrenzwerte aus §13.Satz 1. Für (a) rechnen wir
f (y) − f (x)
· lim (y − x) = f 0 (x) · 0 = 0,
y→x
y→x
y−x
lim (f (y) − f (x)) = lim
y→x
also auch limy→x f (y) = f (x) und f ist in x stetig. Die Aussage über Summen folgt
mit
f (x + h) + g(x + h) − f (x) − g(x)
h→0
h
f (x + h) − f (x)
g(x + h) − g(x)
= lim
+ lim
= f 0 (x) + g 0 (x),
h→0
h→0
h
h
(f + g)0 (x) = lim
und für Vielfache cf ergibt sich die Behauptung analog. Die Produktregel ist auch eine
Folge der Rechenregeln für Grenzwerte, benötigt aber noch einen, kleinen, Zwischenschritt. Wir schreiben den Differenzenquotienten als
f (x + h)g(x + h) − f (x)g(x)
h
f (x + h)g(x + h) − f (x)g(x + h) + f (x)g(x + h) − f (x)g(x)
=
h
f (x + h) − f (x)
g(x + h) − g(x)
=
· g(x + h) + f (x) ·
h
h
und erhalten
f (x + h)g(x + h) − f (x)g(x)
h→0
h
f (x + h) − f (x)
g(x + h) − g(x)
= lim
· g(x + h) + f (x) ·
h→0
h
h
f (x + h) − f (x)
g(x + h) − g(x)
= lim
· lim g(x + h) + f (x) · lim
h→0
h→0
h→0
h
h
= f 0 (x)g(x) + f (x)g 0 (x),
(f g)0 (x) = lim
da g ja nach (a) in x stetig ist, also limh→0 g(x + h) = limy→x g(y) = g(x) gilt.
Insbesondere ist Differenzierbarkeit in einem Punkt eine stärkere Bedingung als Stetigkeit in diesem Punkt. Nennen wir eine Funktion differenzierbar wenn sie in jedem
Punkt differenzierbar ist, so ist damit jede differenzierbare Funktion auch stetig. Mit
dem Satz folgt nun zum Beispiel, dass jedes Polynom
p(x) = an xn + an−1 xn−1 + · · · + a0
differenzierbar ist mit Ableitung
p0 (x) = nan xn−1 + (n − 1)an−1 xn−2 + · · · + a1 .
227
Mathematik für Ingenieure I, WS 2008/2009
Freitag 13.2.2009
Für die Ableitung von Hintereinanderausführungen ist bekanntlich die sogenannte Kettenregel zuständig.
Satz 14.2 (Kettenregel)
Seien I, J ⊆ R zwei Intervalle, x ∈ J, f : J → I eine in x differenzierbare Funktion
und g : I → R eine in f (x) differenzierbare Funktion. Dann ist auch die Hintereinanderausführung g ◦ f in x differenzierbar, und es gilt
(g ◦ f )0 (x) = g 0 (f (x)) · f 0 (x).
Beweis: Diesen Beweis wollen wir nur skizzieren, aber die etwas umständlichen Details
auslassen. Für h ∈ R rechnen wir
g(f (x + h)) = g(f (x) + f 0 (x)h + τ (h))
= g(f (x)) + g 0 (f (x)) · (f 0 (x)h + τ (h)) + η(f 0 (x)h + τ (h)),
wobei τ und η die Approximationsfehler bezüglich f und g sind. Dies können wir
umschreiben zu
g(f (x + h)) = g(f (x)) + g 0 (f (x))f 0 (x)h + θ(h)
mit dem Gesamtfehler
θ(h) = g 0 (f (x))τ (h) + η(f 0 (x)h + τ (h)).
Damit haben wir g(f (x + h)) als eine lineare Funktion in h plus einem Fehler geschrieben. Können wir also zeigen, dass der Fehler θ(h) der Differenzierbarkeitsbedingung
limh→0 θ(h)/h = 0 genügt, so ist g ◦ f in x differenzierbar, und die Ableitung ist die
Steigung des linearen Anteils, also g 0 (f (x)) · f 0 (x). Die Bedingung an den Fehler bedeutete, dass |θ(h)| mit |h| höchstens proportional wächst, und zwar mit beliebig kleiner
Proportionalitätskonstante. Geben wir und also ein > 0 vor. Für ausreichend kleine
h ist dann |τ (h)| ≤ · |h| und wir schätzen |θ(h)| mit der Dreiecksungleichung ab
|θ(g)| ≤ |g 0 (f (x)) · f 0 (x)| · |τ (h)| + |η(f 0 (x)h + τ (h)|
≤ |g 0 (f (x)) · f 0 (x)| · |h| + |η(f 0 (x)h + τ (h)|.
Wegen limh→0 (f 0 (x)h + τ (h)) = 0 wird mit h auch f 0 (x)h + τ (h) klein, d.h. für ausreichend kleine h haben wir |η(f 0 (x)h + τ (h))| ≤ · |f 0 (x)h + τ (h)|, und rechnen weiter
|θ(h)| ≤
≤
≤
≤
=
|g 0 (f (x)) · f 0 (x)| · |h| + |η(f 0 (x)h + τ (h)|
|g 0 (f (x)) · f 0 (x)| · |h| + · |f 0 (x)h + τ (h)|
|g 0 (f (x)) · f 0 (x)| · |h| + · |f 0 (x)| · |h| + |τ (h)|
|g 0 (f (x)) · f 0 (x)| · |h| + · |f 0 (x)| · |h| + 2 |h|
· (|(g 0 (f (x)) + 1) · f 0 (x)| + ) · |h|
228
Mathematik für Ingenieure I, WS 2008/2009
Freitag 13.2.2009
und mit können wir auch diesen Proportionalitätsfaktor beliebig klein machen.
Der Deutlichkeit halber wollen wir noch ein zweites (ebenfalls etwas ungenaues) Argument für die Kettenregel angeben. Wir können den Differenzenquotienten für g ◦ f
in der folgenden Weise als Produkt schreiben
g(f (y)) − g(f (x))
g(f (y)) − g(f (x)) f (y) − f (x)
=
·
,
y−x
f (y) − f (x)
y−x
wobei wir die Möglichkeit f (y) − f (x) = 0 hier ignorieren, wie gesagt ist auch diese
Begründung etwas skizzenhaft. Der zweite Faktor ist einfach der Differenzenquotient
für die Funktion f , er geht also für y gegen x gegen die Ableitung f 0 (x). Für den
linken Faktor erinnern wir uns daran, dass die Funktion f in x stetig ist, es gilt also
limy→x f (y) = f (x). Damit ist auch der linke Term ein Differenzenquotient wobei
halt f (y) gegen f (x) geht statt y gegen f (x). Der Grenzwert ist damit die Ableitung
g 0 (f (x)). Als Grenzwert des Produkts ergibt sich damit g 0 (f (x)) · f 0 (x).
Wir wollen als ein Beispiel einmal die Ableitung der Funktion
f (x) =
1
xn
für eine natürlich Zahl n ∈ N ableiten. Hierzu fassen wir f als die Hintereinanderausführung der Funktionen h(x) = 1/x und g(x) = xn auf, also f = h ◦ g. Die
Ableitungen von h und g haben wir bereits zu h0 (x) = −1/x2 und g 0 (x) = nxn−1
ausgerechnet. Mit der Kettenregel erhalten wir damit
f 0 (x) = (h ◦ g)0 (x) = h0 (g(x)) · g 0 (x) = −
1
nxn−1
n
n−1
·
nx
= − n+1 ,
=
−
n
2
2n
(x )
x
x
wir erhalten also erwartungsgemäß das Ihnen aus der Schule wohlvertraute Ergebnis.
Mit den bisherigen Ergebnissen können wir nun leicht die Quotientenregel herleiten,
indem wir sie, ähnlich wie eben vorgeführten Beispiel, auf die Kettenregel zurückführen.
Satz 14.3 (Quotientenregel)
Seien I ⊆ R ein Intervall, x ∈ I, f, g : I → R in x differenzierbar mit g(y) 6= 0 für
alle y ∈ I. Dann ist auch f /g in x differenzierbar mit
0
f
f 0 (x)g(x) − f (x)g 0 (x)
(x) =
.
g
g(x)2
Beweis: Wir wissen bereits, dass die Funktion h(y) = 1/y in g(x) differenzierbar ist
mit
1
h0 (g(x)) = −
.
g(x)2
229
Mathematik für Ingenieure I, WS 2008/2009
Freitag 13.2.2009
Mit der Kettenregel folgt
0
1
g 0 (x)
0
0
0
(x) = (h ◦ g) (x) = h (g(x))g (x) = −
,
g
g(x)2
und die Produktregel ergibt schließlich
0
0
0
f
1
f 0 (x)
1
f 0 (x) f (x)g 0 (x)
(x) = f ·
(x) =
+ f (x)
(x) =
−
g
g
g(x)
g
g(x)
g(x)2
f 0 (x)g(x) − f (x)g 0 (x)
.
=
g(x)2
Insbesondere sehen wir, dass die Quotientenregel eigentlich keine eigenständige Regel, sondern eine Kombination aus Ketten– und Produktregel ist. Mit unseren Regeln
können wir die Ableitungen aller aus anderen Funktionen zusammengesetzter Funktionen ausrechnen, solange wir nur die Ableitungen der einzelnen Bestandlich kennen. Um
dies sinnvoll anwenden zu können benötigen wir noch die Ableitungen der Grundfunktionen, also von Funktionen wie ex , sin x, cos x und so weiter. Betrachten wir einmal
die Sinusfunktion. Als Differenzenquotienten müssten wir
sin(x + h) − sin x
sin x cos h + cos x sin h − sin x
cos h − 1
sin h
=
= sin x ·
+ cos x ·
h
h
h
h
für h → 0 untersuchen, und es läßt sich tatsächlich einsehen, dass (cos h − 1)/h gegen 0 und sin h/h gegen 1 konvergiert (letzteres hatten wir übrigens schon in §13
festgehalten). Wir gehen hier einen etwas einfacheren Weg, uns erinnern uns an der
Beschreibung all der oben aufgelisteten Funktionen als Potenzreihen, wie in §12 angegeben. Die Ableitung von Potenzreihen wir nun durch den folgenden Satz gegeben:
Satz 14.4 (Ableitung
von Potenzreihen)
P∞
Sei f (x) = n=0 an (x − x0 )n eine reelle Potenzreihe mit positiven Konvergenzradius
r > 0. Dann ist die Funktion f : (x0 − r, x0 + r) → R differenzierbar und für jedes
x ∈ (x0 − r, x0 + r) gilt
0
f (x) =
∞
X
n−1
nan (x − x0 )
=
n=1
∞
X
(n + 1)an+1 (x − x0 )n .
n=0
Anders gesagt leiten sich Potenzreihen ab als wären sie Polynome. Wir wollen diese
Tatsache hier nicht exakt begründen, da dies Kenntnisse über Reihen verlangt, die
in dieser Vorlesung bisher nicht behandelt wurden, und auch nicht behandelt werden
230
Mathematik für Ingenieure I, WS 2008/2009
Freitag 13.2.2009
sollen. Hier soll nur ein kleiner Eindruck gegeben werden warum der Satz wahr ist.
Hierzu rechnen wir
f (x + h) = a0 + a1 (x + h) + a2 (x + h)2 + a3 (x + h)3 + · · ·
= a0 + a1 x + a1 h + a2 x2 + 2a2 xh + a2 h2
+a3 x3 + 3a3 x2 h + 3a3 xh2 + a3 x3 + · · ·
= a0 + a1 x + a2 x2 + a3 x3 + · · ·
+(a1 + 2a2 x + 3a3 x2 + · · · ) · h + · · ·
wobei die letzten Punkte für Terme mit h2 , h3 , . . . stehen. Der erste Summand ist f (x)
und der zweite ist das behauptete f 0 (x) mal h. Die Fehlerterme involvieren mindestens
h2 , teilen wir sie also durch h, so kommt immer noch mindestens ein h vor und der
Grenzwert für Fehler/h bei h → 0 wird Null. Diese Argumentation läßt sich zu einem
vollständigen Beweis ausarbeiten, dies erfordert aber wie gesagt Hilfsmittel die wir hier
nicht einführen wollen. Mit dem Satz über Ableitungen von Potenzreihen ist es leicht
die Ableitungen der Standardfunktionen zu berechnen. Beginnen wir mit
∞
sin x = x −
X
x3 x5
x2n+1
(−1)n
+
− ··· =
.
3!
5!
(2n
+
1)!
n=0
Leiten wir dies nach dem Satz ab, so erhalten wir
∞
X
∞
2n + 1 2n X
x2n
sin (x) =
(−1)
x =
(−1)n
= cos x,
(2n + 1)!
(2n)!
n=0
n=0
0
n
wie hoffentlich erwartet. Für den Cosinus haben wir eine ähnliche Rechnung
cos0 (x) =
∞
X
∞
(−1)n
n=1
∞
X
2n 2n−1 X
x2n−1
x2n+1
x
=
(−1)n
=
(−1)n+1
= − sin x.
(2n)!
(2n
−
1)!
(2n
+
1)!
n=1
n=0
Schließlich kommen wir zur Exponentialfunktion
∞
X xn
x2
e =1+x+
+ ··· =
.
2!
n!
n=0
x
Hier rechnen wir
∞
∞
∞
X
X
n n−1 X xn−1
xn
(e ) =
x
=
=
= ex .
n!
(n
−
1)!
n!
n=1
n=1
n=0
x 0
Durch Kombination dieser Regeln, d.h. Summenregel, Produktregel, Quotientenregel,
Kettenregel können Sie schon, wie in der Schule, die meisten üblicherweise vorkommenden Funktionen ableiten. Berechnen wir zum Beispiel einmal die Ableitung des
Tangens
sin x
tan x =
.
cos x
231
Mathematik für Ingenieure I, WS 2008/2009
Freitag 13.2.2009
Diese könnten wir zwar auch als Potenzreihe schreiben, dies wollen wir an dieser Stelle
aber noch nicht tun. Wir verwenden einfach die Quotientenregel
cos2 x + sin2 x
1
sin2 x
=
=1+
= 1 + tan2 x.
tan (x) ==
2
2
2
cos x
cos x
cos x
0
Die uns noch fehlende Ableitungsregel betrifft das Ableiten von Umkehrfunktionen,
dies werden wir etwas später behandeln.
14.2
Grundeigenschaften differenzierbarer Funktionen
Die erste sowohl in praktischer als auch in theoretischer Hinsicht wichtige Eigenschaft
differenzierbarer Funktionen ist die Ableitung in lokalen Extremstellen. Angenommen
wir haben ein Intervall I ⊆ R und eine differenzierbare Funktion f : I → R. Sei x ∈ I
ein lokales Maximum von f und zugleich ein innerer Punkt von I, also kein Randpunkt.
Für kleine h ist dann f (x + h) ≤ f (x) da x ja ein lokales Maximum ist und somit ist
(
f (x + h) − f (x) ≤ 0, für h > 0,
h
≥ 0, für h < 0
also ist sowohl f 0 (x) ≤ 0 als auch f 0 (x) ≥ 0. Dies zeigt f 0 (x) = 0 und für lokale Minima
folgt dies ebenso. Damit haben wir
Satz 14.5: Seien I ⊆ R ein Intervall und f : I → R differenzierbar. Hat dann f im
inneren Punkt x von I ein lokales Extremum, so gilt f 0 (x) = 0.
Insbesondere ist dies ein notwendiges Kriterium für lokale Extrema, das Sie im Rahmen
von Kurvendiskussionen in der Schule ausgiebig verwendet haben. Mit etwas Arbeit läßt
sich aus dem obigen Satz nun der folgende fundamentale Mittelwertsatz herleiten:
Satz 14.6 (Mittelwertsatz)
Seien a, b ∈ R mit a < b und f : [a, b] → R eine stetige Funktion, die im offenen
Intervall (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit
f 0 (ξ) =
f (b) − f (a)
.
b−a
a
ξ
232
b
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
Geometrisch betrachten wir die Sekante durch die beiden Punkte (a, f (a)) und (b, f (b)),
und der Mittelwertsatz besagt, dass eine der Tangenten an f zu dieser Sekante parallel
ist. Die Steigung der Sekante ist der Differenzenquotient (f (b) − f (a))/(b − a) und
die Steigung der Tangente ist die Ableitung f 0 (ξ), wobei die Tangente die Funktion
f im Punkt (ξ, f (ξ)) berührt. Aus diesem Satz folgen dann die meisten der Ihnen
bekannten Eigenschaften differenzierbarer Funktionen. Ist beispielsweise f : I → R eine
differenzierbare Funktion mit Ableitung identisch 0, also f 0 (x) = 0 für jedes x ∈ I, so
besagt der Mittelwertsatz, dass es für jedes Paar x, y ∈ I mit x < y stets ein ξ zwischen
x und y mit f (y) − f (x) = f 0 (ξ) · (y − x) = 0 gibt, d.h. es ist f (x) = f (y). Also ist
die Funktion f konstant. Wir wollen diese Tatsache einmal verwenden, um endlich eine
Begründung für die schon mehrfach verwendete Gleichung
ex = 1 + x +
x2
+ ···
2!
zu geben. Wir hatten eingesehen, dass die Exponentialreihe auf der rechten Seite gleich
ihrer eigenen Ableitung ist, und dies wissen wir ebenfalls von der Ihnen wohlvertrauten
e-Funktion. Es reicht also einzusehen, dass es überhaupt nur eine einzige Funktion
mit dieser Eigenschaft gibt. Dies ist aber nicht ganz wahr, da ja auch Vielfache wie
f (x) = 2ex gleich ihrer eigenen Ableitung sind. Dieses Problem können wir vermeiden
indem wir zusätzlich f (0) = 1 fordern. Wir wollen also die folgende Tatsache zeigen:
Ist f : R → R eine differenzierbare Funktionen mit f (0) = 1 und f 0 = f , so ist bereits
f (x) = ex für alle x ∈ R. Hierzu betrachten wir die Hilfsfunktion
h(x) :=
f (x)
ex
und rechnen h(0) = 1 und
h0 (x) =
f 0 (x)ex − f (x)ex
f (x)ex − f (x)ex
=
= 0.
e2x
e2x
Aber eine Funktion mit Ableitung 0 ist konstant, und wegen h(0) = 1 muss sie konstant
gleich Eins sein. Folglich ist tatsächlich f (x) = ex für alle x ∈ R.
Vorlesung 29, Dienstag 17.2.2009
Eine weitere oft genutzte Anwendung des Mittelwertsatzes ist die Kennzeichnung der
Monotonie durch Ableitungen. Sei hierzu f : I → R eine auf dem Intervall I ⊆ R
definierte, differenzierbare Funktion. Zunächst nehme an, dass f monoton steigend
ist. Sind dann x ∈ I und h 6= 0 so ist f (x + h) − f (x) ≥ 0 wenn h > 0 ist und
f (x + h) − f (x) ≤ 0 wenn h < 0 ist. Für den Differenzenquotienten folgt in beiden
Fällen
f (x + h) − f (x)
≥0
h
233
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
da wir hier entweder einen Quotienten zweier positiver oder einen Quotienten zweier
negativer Zahlen haben, und somit ist auch
f (x + h) − f (x)
≥ 0.
h→0
h
f 0 (x) = lim
Nun nehme umgekehrt an, dass f 0 (x) ≥ 0 für jedes x ∈ I gilt. Sind dann a, b ∈ I mit
a < b, so gibt es nach dem Mittelwertsatz Satz 6 einen Wert ξ zwischen a und b mit
f (b) − f (a) = f 0 (ξ) · (b − a) ≥ 0,
also ist auch f (a) ≤ f (b). Ist sogar f 0 (x) > 0 für jedes x ∈ I, so zeigt diese Rechnung
sogar f (a) < f (b), d.h. f ist dann streng monoton steigend. Für monoton fallende
Funktionen können wir ganz analog schließen und erhalten damit den Satz über die
Kennzeichnung der monotonen Funktionen:
Satz 14.7 (Kennzeichnung monotoner differenzierbarer Funktionen)
Seien I ⊆ R ein Intervall und f : I → R differenzierbar. Dann ist f genau dann
monoton steigend (fallend) wenn f 0 (x) ≥ 0 (f 0 (x) ≤ 0) für alle inneren Punkte x von
I gilt, also alle Punkte von I mit Ausnahme der Randpunkte. Ist f 0 (x) > 0 ( f 0 (x) < 0)
für all diese x, so ist f sogar streng monoton steigend (fallend).
Die Umkehrung der zweiten Aussage ist aber nicht mehr wahr, wie etwa f (x) = x3
zeigt. Führen wir diese Überlegung ein wenig weiter, so kommt man zu den Ihnen aus
Kurvendiskussionen vertrauten Kriterien für lokale Extremstellen. Hierzu müssen wir
zunächst die höheren Ableitungen definieren. Sei also f : I → R eine auf einem Intervall
I ⊆ R definierte differenzierbare Funktion. Dann können wir auch die Ableitung f 0 :
I → R als eine Funktion auf I auffassen, und nennen f zweifach differenzierbar wenn
auch f 0 differenzierbar ist. Die zweite Ableitung von f wird dann als die Ableitung der
Ableitung definiert
f 00 := (f 0 )0 .
So fortfahrend wird dann auch dreifache Differenzierbarkeit, vierfache Differenzierbarkeit, und so weiter, definiert. Dann haben wir auch dritte Ableitungen f 000 , vierte Ableitungen f 0000 und so weiter. Da zu viele Striche unübersichtlich werden, schreibt man
auch oftmals f (n) für die n-te Ableitung der Funktion f , also
f (0) = f, f (1) = f 0 , f (2) = f 00 , f (3) = f 000 , . . .
Schließlich nennt man die Funktion f n-fach stetig differenzierbar, wenn sie n-fach
differenzierbar ist, und ihre n-te Ableitung f (n) stetig ist. Damit kann man dann den
folgenden Satz über lokale Extrema beweisen.
Satz 14.8 (Hinreichende Bedingung für lokale Extrema)
Seien I ⊆ R ein Intervall, x ∈ I ein innerer Punkt von I und f : I → R eine zweifach
stetig differenzierbare Funktion mit f 0 (x) = 0 und f 00 (x) > 0 (f 00 (x) < 0). Dann hat
die Funktion f in x ein lokales Minimum (Maximum).
234
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
Beweis: Wir zeigen dies für lokale Minima, nehme also f 0 (x) = 0 und f 00 (x) > 0 an.
Da f 00 in x stetig ist, gibt es ein kleineres Intervall J ⊆ I, das x als inneren Punkt hat,
und für das f 00 (y) > 0 für alle y ∈ J gilt. Nach Satz 7 ist die Ableitung f 0 dann auf
dem Intervall J streng monoton steigend, und damit ist f 0 (y) < f 0 (x) = 0 für y ∈ J
mit y < x und f 0 (y) > f 0 (x) = 0 für y ∈ J mit y > x. Wieder nach Satz 7 ist f damit
auf J links von x streng monoton fallend, und rechts von x streng monoton steigend.
Damit ist x ein lokales Minimum von f .
Man kann den Satz noch weiter verbessern und auch noch gewisse Fälle mit f 00 (x) = 0
behandeln, aber dies spielt für praktische Zwecke keine große Rolle. Tatsächlich ist der
gesamte Satz fürs praktische Rechnen oft völlig überflüssig. Sucht man im Rahmen
einer Kurvendiskussion die lokalen Extrema von f , so bestimmt man ja zunächst die
Nullstellen f 0 (x) = 0 der Ableitung von f . Bei dieser Rechnung sieht man aber in den
allermeisten Fällen auch gleich wo f 0 größer Null und wo es kleiner Null ist, d.h. man
weiß mit Satz 7 sowieso schon wo f monoton steigend und fallend ist. Dann ist aber
auch klar was die lokalen Maxima und Minima sind. Als ein Beispiel wollen wir einmal
die Funktion
f : R → R; x 7→ x2 + sin x
behandeln.
5
4
2
3
–2
x
1
–1
0
2
–2
1
–2
–1
1
2
–4
x
f 0 (x)
f (x)
Für alle x ∈ R gilt f (x) ≥ x2 − 1 und damit ist
lim f (x) = lim f (x) = ∞.
x→−∞
x→∞
Um lokale Extrema zu finden berechnen wir die Ableitung
f 0 (x) = 2x + cos x
235
2
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
Für x < −1/2 ist f 0 (x) < cos x − 1 ≤ 0 und für x > 1/2 ist f 0 (x) > 1 + cos x ≥ 0, es
kann also nur lokale Extrema mit −1/2 ≤ x ≤ 1/2 geben. Wegen
lim f 0 (x) = −∞, lim f 0 (x) = ∞
x→−∞
x→∞
gibt es nach dem Zwischenwertsatz §13.Satz 6 mindestens ein x ∈ [−1/2, 1/2] mit
f 0 (x) = 0. Wir wollen uns überlegen, dass es auch nur höchstens ein solches x gibt.
Andernfalls gäbe es x, y ∈ R mit x < y und f 0 (x) = f 0 (y) = 0. Aber dann gibt es nach
dem Mittelwertsatz Satz 6 auch ein ξ zwischen x und y mit f 00 (ξ) = 0. Andererseits ist
f 00 (x) = 2 − sin x ≥ 1 > 0 für alle x ∈ R, es gibt also überhaupt kein ξ mit f 00 (ξ) = 0.
Damit gibt es also genau ein x0 ∈ R mit f 0 (x0 ) = 0, und es muss −1/2 ≤ x0 ≤ 1/2
gelten. Dabei ist x0 die eindeutige Lösung der Gleichung cos x = −2x. Diese Gleichung
läßt sich nur näherungsweise lösen, beispielsweise wie in §13 durch Intervallhalbierung.
Es ergibt sich x0 ≈ −0, 450183. Wegen limx→±∞ f (x) = ∞ muss f in x0 ein lokales,
und auch globales, Minimum haben.
Schließlich kommen wir zur Ableitung von Umkehrfunktionen. Dabei sind wir nach
§13.Satz 8 nur an monoton steigenden beziehungsweise fallenden, differenzierbaren
Funktionen interessiert, also nach Satz 7 an Funktion mit f 0 ≥ 0 oder f 0 ≤ 0. Die
Voraussetzung des differenzierbaren Umkehrsatzes ist noch ein klein wenig stärker:
Satz 14.9 (Umkehrfunktionen differenzierbarer Funktionen)
Seien I ⊆ R ein Intervall und f : I → R eine differenzierbare Funktion mit f 0 (x) > 0
für alle x ∈ I oder f 0 (x) < 0 für alle x ∈ I. Dann ist J := f (I) ⊆ R wieder ein
Intervall, die Funktion f : I → J ist bijektiv und die Umkehrfunktion f −1 : J → R ist
differenzierbar mit
1
(f −1 )0 (x) = 0 −1
f (f (x))
für alle x ∈ J.
Wir wollen diesen Satz hier nicht beweisen, sondern nur auf zwei Dinge hinweisen.
Zunächst muss die Umkehrfunktion einer injektiven, differenzierbaren Funktion im allgemeinen nicht differenzierbar sein. Beispielsweise ist f (x) = x3 bijektiv √
und differen−1
3
zierbar mit in x = 0 nicht differenzierbarer Umkehrfunktion f (x) = x. Zweitens
wollen wir festhalten, dass die eigentliche Aussage des Satzes die Differenzierbarkeit
von f −1 ist, die Formel für (f −1 )0 ist eine unmittelbare Konsequenz der Kettenregel.
Wir haben nämlich
f (f −1 (x)) = x
und leiten wir diese Gleichung ab, so folgt mit der Kettenregel
f 0 (f −1 (x)) · (f −1 )0 (x) = 1.
Behandeln wir ein paar Beispiele. Zunächst nehmen wir einmal unsere Funktion f (x) =
x2 +sin x des vorigen Beispiels. Wir hatten ein eindeutiges x0 ∈ R mit f 0 (x0 ) = 0. Wegen
limx→∞ f 0 (x) = ∞ muss für x > x0 dann f 0 (x) > 0 gelten, d.h.
f : (x0 , ∞) → R
236
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
erfüllt die Voraussetzungen unseres Umkehrsatzes. Wegen limx→∞ f (x) = ∞ ist das
Bild f (x0 , ∞) nach §13.Satz 8 gerade
f (x0 , ∞) = (f (x0 ), ∞) = (a, ∞)
mit a := f (x0 ). Für x > a ergibt sich die Ableitung von f −1 als
(f −1 )0 (x) =
1
f 0 (f −1 (x))
=
2f −1 (x)
1
.
+ cos(f −1 (x))
Die Umkehrformel liefert uns hier also keine explizite Formel für die Ableitung (f −1 )0 ,
sondern nur eine Gleichung für diese. Dies ist der Normalfall, meist läßt sich f 0 (f −1 (x))
nicht großartig weiter umformen. In einigen glücklichen, und wichtigen, Fällen ist es
möglich die Ableitung von f −1 ohne Verwendung von f −1 selbst zu schreiben. Nehmen
wir einmal f (x) = tan x für x ∈ (−π/2, π/2). Die Ableitung hatten wir zu f 0 (x) =
1 + tan2 x berechnet. Als Ableitung der Umkehrfunktion arctan = tan−1 erhalten wir
1
1
arctan0 x =
=
2
1 + tan (arctan x)
1 + x2
für alle x ∈ R. Ein weiteres Beispiel ist arcsin = sin−1 definiert auf dem Intervall (−1, 1).
Der Arcus Sinus selbst ist zwar auch für x = ±1 definiert, aber dort ist arcsin x = ±π/2
eine Nullstelle des Cosinus, also der Ableitung von sin x, und der Satz ist nicht mehr
anwendbar. Als Ableitung berechnen wir
1
1
1
1
arcsin0 x =
=p
=√
.
=p
2
cos(arcsin x)
1 − x2
cos2 (arcsin x)
1 − sin (arcsin x)
da arcsin x ∈ (−π/2, π/2), also cos(arcsin x) > 0 ist. Das vielleicht wichtigste Beispiel
ist die Ableitung des Logarithmus
1
1
ln0 (x) = ln x =
e
x
für alle x > 0. Damit können wir nun zum Beispiel die Ableitung der allgemeinen
Potenz f (x) = xa für x > 0 berechnen. Wegen f (x) = ea ln x ist
a
f 0 (x) = a ln0 (x)ea ln x = xa = axa−1 .
x
Die Formel für die Ableitung des Logarithmus ist überraschend stark. Wir wollen uns
einmal klarmachen, dass aus ihr die in §11 einfach behauptete Grenzwertformel
n
1
=e
lim 1 +
n→∞
n
folgt. Wir rechnen nämlich
n ln 1 + n1 − ln(1)
1
1
lim ln 1 +
= lim n · ln 1 +
= lim
1
n→∞
n→∞
n→∞
n
n
n
ln(1 + h) − ln(1)
= lim
= ln0 (1) = 1,
h→0
h
237
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
und mit der Stetigkeit der Exponentialfunktion folgt
n
n 1
1
= exp lim ln 1 +
= exp(1) = e.
lim 1 +
n→∞
n→∞
n
n
14.3
Die Hospitalsche Regel
Die eigentliche Grundidee der Hospitalschen Regel haben wir eben gerade bei der Berechnung des Grenzwerts limn→∞ (1 + 1/n)n = e gesehen. Dieser Grenzwert wurde
berechnet, indem wir ihn als Grenzwert eines Differenzenquotienten interpretiert haben. Etwas allgemeiner kann man die folgende Situation betrachten. Gegeben seien
zwei auf dem Intervall I definierte, differenzierbare Funktionen f, g : I → R, und wir
haben einen Punkt a ∈ I mit f (a) = g(a) = 0 und g 0 (a) 6= 0. Dann berechnen wir
den Grenzwert limx→a f (x)/g(x) indem wir ihn als einen Quotienten zweier Differenzenquotienten auffassen
h
i
(a)
f (x)−f (a)
lim f (x)−f
x−a
x−a
f (x)
f 0 (a)
x→a
i
h
lim
= lim
=
= 0 .
x→a g(x)
x→a g(x)−g(a)
g (a)
lim g(x)−g(a)
x−a
x→a
x−a
Ein beliebtes, wenn auch eigentlich ziemlich unsinniges, Beispiel ist der Grenzwert
sin x
= 1,
x→0 x
lim
den wir schon in §13 hergeleitet haben. Die Rechnung über die Hospitalsche Regel wäre
sin0 x
sin x
lim
= lim
= cos 0 = 1.
x→0 x
x→0
1
Einfacher kann man auch sagen, dass dieser Grenzwert gerade der Grenzwert des Differenzenquotienten für sin x bei 0 ist, also gleich sin0 0 = cos 0 = 1 sein muss. Man
kann die obige simple Beobachtung zur folgenden allgemeinschen Hospitalschen Regel
ausbauen.
Satz 14.10 (Regel von Hospital)
Seien I ⊆ R ein Intervall und a ∈ R ein Randpunkt von I. Weiter seien f, g : I → R
zwei differenzierbare Funktionen mit g(x) 6= 0 und g 0 (x) 6= 0 für alle x ∈ I. Es existiere
der Grenzwert limx→a f 0 (x)/g 0 (x), wobei auch ±∞ als Grenzwerte zugelassen seien,
und es gelte
lim f (x) = lim g(x) ∈ {0, −∞, ∞}.
x→a
x→a
Dann existiert auch der Grenzwert
f (x)
f 0 (x)
= lim 0
.
x→a g(x)
x→a g (x)
lim
238
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
Ein einfaches Beispiel, das gleich eine doppelte Anwendung der Hospitalschen Formel
beinhaltet, ist die folgende Rechnung
sin x
cos x
1
1 − cos x
=
lim
=
lim
=
.
x→0 2x
x→0
x→0
x2
2
2
lim
Ein weiteres Beispiel für Grenzwerte gegen ∞ ist
1
1
ln x
x
=
lim
= lim
=0
a
a−1
x→∞ ax
x→∞ axa
x→∞ x
lim
für jedes a > 0. Die Hospitalsche Regel ist zwar erstaunlich beliebt, es gibt aber
eigentlich recht wenige Beispiele wo ihr Einsatz wirklich sinnvoll ist. Meist werden
damit Formeln begründet, die sich direkt auf Potenzreihen oder Differenzenquotienten
zurückführen lassen. Im obigen Beispiel könnten wir auch einfach direkt
2
1 − cos x
1
x
x4
1 x2
1
=
·
−
+
·
·
·
=
−
+
·
·
·
→
x2
x2
2!
4!
2
4!
2
rechnen.
14.4
Taylor Entwicklung
Wir kommen nun zum allerletzten Thema dieser Vorlesung, der sogenannten Taylor
Entwicklung einer Funktion. Hierzu ist es sinnvoll sich zunächst an die Approximationsinterpretation der Ableitung zu erinnern. Bei dieser schrieben wir bei einem gegebenen
Punkt x0
f (x0 + h) = f (x0 ) + f 0 (x0 )h + fehler(h),
wobei der Fehler mit limh→0 fehler(h)/h = 0 klein wurde. Diese Formel können wir in
der Form
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + fehler(x − x0 )
umschreiben. Dies ist eine Approximation von f durch eine lineare Funktion, also durch
ein Polynom von Grad 1. Die Taylor Approximation, ist nun die Approximation von f
durch Polynome höheren Grades.
Definition 14.2: Seien I ⊆ R ein Intervall, x0 ∈ I, n ∈ N und f : I → R eine n-fach
differenzierbare Funktion. Das Taylorpolynom von Grad n zu f mit Entwicklungspunkt
(k)
x0 ist das Polynom Tn höchstens n-ten Grades mit Tn (x0 ) = f (k) (x0 ) für k = 0, . . . , n,
d.h. das Polynom mit Grad ≤ n, dessen erste n + 1 Ableitungen in x0 mit denen von
f übereinstimmen.
Das Polynom Tn läßt sich leicht explizit angeben. Schreibe hierzu
Tn (x) = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + a3 (x − x0 )3 + · · · + an (x − x0 )n .
239
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
Dann sind
Tn0 (x) = a1 + 2a2 (x − x0 ) + 3a3 (x − x0 )2 + · · · + nan (x − x0 )n−1 ,
Tn00 (x) = 2a2 + 2 · 3a3 (x − x0 ) + · · · + (n − 1)nan (x − x0 )n−2 ,
..
.
(k)
Tn (x) = 1 · 2 · . . . · kak + 2 · . . . · (k + 1)ak+1 (x − x0 ) + · · ·
+(n − k + 1) · . . . · nan (x − x0 )n−k
n
X
l!
al (x − x0 )l−k ,
=
(l
−
k)!
l=k
für 0 ≤ k ≤ n, und insbesondere ist
f (k) (x0 ) = Tn(k) (x0 ) = k!ak
für 0 ≤ k ≤ n. Das n-te Taylorpolynom ist damit einfach
Tn (x) =
n
X
f (k) (x0 )
k!
k=0
(x − x0 )k .
Wir wollen als ein Beispiel einmal die Funktion
f : R → R; x 7→ sin x + cos x +
1√ 2
2x
2
4
y
2
–4
–3
–2
–1
0
1
2
x
–2
–4
240
3
4
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
besprechen. Die ersten drei Ableitungen sind
√
f 0 (x) = cos x − sin x + 2 x,
√
f 00 (x) =
2 − sin x − cos x,
000
f (x) = sin x − cos x,
und für die ersten vier Taylor Polynome mit Entwicklungspunkt 0 erhalten wir
4
4
y
y
2
–4
–3
–2
–1
0
2
1
2
3
4
–4
–3
–2
–1
0
1
x
–2
–2
–4
–4
4
y
2
–1
3
4
y
–2
4
T1 (x) = 1 + x
4
–3
3
x
T0 (x) = 1
–4
2
0
2
1
2
3
4
–4
–3
–2
–1
0
1
x
x
–2
–2
–4
–4
√
T2 (x) = 1 + x +
2−1 2
x
2
2
√
T3 (x) = 1 + x +
2−1 2
x
2
− 61 x3
Zumindest in diesem Beispiel sehen wir, dass die Taylor Polynome mit wachsenden
Grad sich der Funktion f immer mehr annähern. Der folgende Satz zeigt, dass dies in
gewissen Sinne immer wahr ist, und sich sogar quantitativ recht genau fassen läßt.
241
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
Satz 14.11 (Taylorpolynom mit Lagrangeschen Fehlerterm)
Seien I ⊆ R ein Intervall, x0 ∈ I, n ∈ N, f : I → R eine (n + 1)-fach differenzierbare
Funktion und bezeichne Tn das Taylorpolynom von f mit Grad n zum Entwicklungspunkt x0 . Dann gibt es für jedes x ∈ I ein ξ ∈ I zwischen x0 und x mit
f (x) = Tn (x) +
f (n+1) (ξ)
(x − x0 )n+1 .
(n + 1)!
Können wir also das Wachstum der (n + 1)-ten Ableitung von f kontrollieren, so haben
wir eine Abschätzung wie groß der Fehler bei der Approximation von f (x) durch Tn (x)
höchstens sein kann. Ist beispielsweise J ⊆ I ein kleineres Intervall mit x0 ∈ J und
haben wir |f (n+1) (x)| ≤ M für alle x ∈ J, so liefert die obige Fehlerabschätzung
|f (x) − Tn (x)| ≤
M
|x − x0 |n+1
(n + 1)!
für alle x ∈ J. Für x nahe bei x0 wird |x−x0 |n+1 sehr klein, und wir haben eine potentiell
gute Approximation von f . Wir wollen uns einmal im obigen Beispiel überlegen wie
groß der Fehler |f (x) − T3 (x)| sein kann. Hierzu benötigen wir die vierte Ableitung von
f
f (4) (x) = sin x + cos x,
und müssen schauen wie groß diese werden kann. Eine offensichtliche Abschätzung ist
|f (4) (x)| ≤ 2, aber wir können dies auch optimal abschätzen. Die Ableitung f (5) (x) =
cos x−sin x hat als Nullstellen die x√
mit tan x = 1, also innerhalb
[0, 2π] gerade x√
= π/4
√
(4)
(4)
(4)
und x = 5π/4. Wegen f (π/4) = 2, f (5π/4) = − 2 ist damit |f (x)| ≤ 2 für
alle x ∈ R. Die obige Fehlerabschätzung wird zu
√
2 4
|f (x) − T3 (x)| ≤
|x| .
24
Für |x| ≤ 1 haben wir damit schon |f (x) − T3 (x)| ≤ 0, 059 und für |x| ≤ 1/2 wird
|f (x) − T3 (x)| ≤ 0, 0037.
Die Entwicklung bis zum Grad 3 ist etwas ungewöhnlich, in den meisten Fällen betrachtet man allerhöchstens das quadratische Taylor Polynom, und wenn es irgendwie
geht sogar nur das lineare, also im wesentlichen die Ableitung. In diesem Zusammenhang ist es besonders günstig wenn x0 ein Wendepunkt der Funktion f ist, wenn also
f 00 (x0 ) = 0 gilt. In diesem Fall ist das lineare Taylorpolynom mit Entwicklungspunkt x0
nämlich gleich dem quadratischen Taylorpolynom mit Entwicklungspunkt x0 . Unsere
Beispielfunktion hat wegen
√
f 00 (x) = 2 − sin x − cos x
einen Wendepunkt in x0 = π/4. Wegen
π √ π √2
π2
0 π
f
= 2· 1+
≈ 3, 158929, f
=
≈ 1, 110720
4
8
4
4
242
Mathematik für Ingenieure I, WS 2008/2009
Dienstag 17.2.2009
wird das lineare, und damit auch das quadratische, Taylorpolynom mit Entwicklungspunkt x0 = π/4 ≈ 0, 785398 zu
√
π2 π π
+
x−
≈ 3, 158929 + 1, 110720 · (x − 0, 785398).
T1 (x) = 2 · 1 +
8
4
4
4
y
2
–4
–3
–2
–1
0
1
2
3
4
x
–2
–4
Wie gesagt will man den Grad des Taylorpolynoms normalerweise so klein wie möglich
halten. Für theoretische Fragen ist es dagegen oft gewünscht zu n = ∞, also zu einer
Potenzreihe überzugehen. Dies läßt sich natürlich nur für unendlich oft differenzierbare
Funktionen überhaupt hinschreiben. Die Taylorpolynome gehen dann in die Taylorreihe
über, dies ist die Potenzreihe
T (x) =
∞
X
f (n) (x0 )
n=0
n!
(x − x0 )n ,
durch die sich übrigens auch klärt, warum man x0 in einer Potenzreihe als den Entwicklungspunkt bezeichnet. Wenn diese Reihe, zumindest in einer Umgebung von x0
konvergiert und dort die Funktion f darstellt, so nennt man die Funktion analytisch.
243
Herunterladen