Inhaltsverzeichnis §1 Mengen und Aussagen

Werbung
Inhaltsverzeichnis
§1
§2
§3
§4
§5
§6
§7
§8
§9
§10
§11
§12
§13
§14
Mengen und Aussagen . . . . . . .
Die Beweismethoden . . . . . . . .
Funktionen . . . . . . . . . . . . .
Die reellen Zahlen . . . . . . . . .
Die komplexen Zahlen . . . . . . .
Reelle und komplexe Zahlenfolgen
Reihen . . . . . . . . . . . . . . . .
Lineare Gleichungssysteme . . . . .
Matrizen über R und C . . . . . .
Determinanten . . . . . . . . . . .
Vektorräume . . . . . . . . . . . .
Der Vektorraum K n . . . . . . . .
Stetige Funktionen . . . . . . . . .
Differenzierbare Funktionen . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
16
22
36
56
71
106
134
144
158
180
208
230
272
$Id: mengen.tex,v 1.6 2011/02/08 22:30:56 hk Exp $
Vorlesung 1, Montag 25.10.2010
§1
Mengen und Aussagen
Der wichtigste Grundbegriff der Mathematik ist der Begriff einer Menge, und wir
wollen damit beginnen die klassische, 1878 von Cantor gegebene Definition, zu zitieren:
Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten, wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens, welche die Elemente von M genannt werden, zu einem Ganzen.
Eine Menge fasst also einige bereits vorhandene Objekte zu einem neuen Ganzen zusammen. Wir werden nur Mengen betrachten, deren Elemente allesamt mathematische
”
Objekte“ sind, also beispielsweise Zahlen. Sind M eine Menge und x irgendein mathematisches Objekt, so schreiben wir x ∈ M für x ist ein Element von M“ und x ∈
/M
”
für x ist kein Element von M“. Wir listen jetzt einige Beispiele von Mengen auf:
”
1
Mathematik für Physiker I, WS 2010/2011
Montag 25.10.2010
1. Die Menge M , die die drei Elemente 1, 2, 3 hat, kann man als
M = {1, 2, 3}
schreiben. Man setzt also die vorgesehenen Elemente der Menge in ein Paar geschweifter Klammern.
2. Es ist auch erlaubt in den geschweiften Klammern dasselbe Objekt mehrfach
aufzulisten
M = {1, 1, 2, 3} = {1, 2, 3}.
Ein Objekt ist entweder Element einer Menge oder nicht, so etwas wie eine
mehrfache Mitgliedschaft in einer Menge gibt es nicht. Im diesem Beispiel ist es
natürlich nicht besonders sinnvoll die Eins zweimal hinzuschreiben, man ist sogar
versucht so etwas ganz zu verbieten. Das wäre allerdings hochgradig unpraktisch.
Nehmen wir einmal an, wir hätten drei reelle Zahlen a, b, c gegeben, von denen
wir sonst nichts wissen. Es könnten also insbesondere Gleichheiten zwischen diesen Zahlen auftreten, etwa a = b 6= c. Wollen wir dann die Menge M mit den
Elementen a, b, c hinschreiben und bestünden bei {. . .} auf verschiedenen Objekten in den Klammern, so bräuchten wir eine Definition wie ist a = b = c, so sei
”
M = {a}, ist a = b 6= c, so sei M = {a, c}, . . .“, und so weiter bis alle Möglichkeiten für Gleichheiten zwischen a, b, c aufgelistet sind. Erlauben wir dagegen
Wiederholungen bei {. . .}, wie wir es tun, so kann man einfach M = {a, b, c}
schreiben.
3. Mengen können auch unendlich viele Elemente haben. Als ein Beispiel einer solchen Menge haben wir etwa die Menge aller natürlichen Zahlen. Für diese Menge
gibt es ein nur für sie reserviertes Symbol
N = {0, 1, 2, 3, . . .}.
Man muss leider etwas aufpassen, da es auch eine alternative Definition gibt bei
der die Null nicht zu den natürlichen Zahlen zählt, also N = {1, 2, 3, . . .}. Braucht
man dann doch einmal die Null dabei, so verwendet man N0 für die natürlichen
Zahlen mit Null. Welche der beiden Konventionen man verwendet, also mit oder
ohne Null, ist eine Geschmacksfrage, in der Literatur und in Lehrbüchern ist
beides anzutreffen. Wir wollen in dieser Vorlesung durchgängig die Variante mit
eingeschlossener Null verwenden.
4. Auch einige andere Zahlbereiche haben wie die natürlichen Zahlen eine Standardbezeichnung, diese sind:
Z
Q
R
C
−
−
−
−
die
die
die
die
ganzen Zahlen . . . , −2, −1, 0, 1, 2, . . .,
rationalen Zahlen, also Brüche ganzer Zahlen,
reellen Zahlen, die wir in §4 behandeln werden, und
komplexen Zahlen, die in §5 eingeführt werden.
2
Mathematik für Physiker I, WS 2010/2011
Montag 25.10.2010
5. Als nächstes Beispiel wollen wir die Menge M aller geraden natürlichen Zahlen
hinschreiben. Eine naheliegende Schreibweise hierfür ist
M = {0, 2, 4, 6, 8, . . .}.
Eine derartige Pünktchen-Schreibweise“ muss man aber sehr sparsam verwen”
den, es muss wirklich unmissverständlich und ohne jeden Spielraum klar sein
wofür die Auslassungspunkte stehen. Beispielsweise kann man bei der Menge
N = {1, 7, 289, . . .} bestenfalls raten was damit gemeint sein soll, und so etwas
geht auch nicht als sinnvolle Mengenbeschreibung durch. Eine pünktchenfreie“
”
alternative Beschreibung der Menge M der geraden Zahlen kann man durch Parametrisierung der Elemente erhalten. Eine gerade natürliche Zahl ist ja definitionsgemäß eine Zahl die man als 2 · n für eine andere natürliche Zahl n schreiben
kann, und durchläuft n die natürlichen Zahlen, so durchläuft 2 · n die geraden
Zahlen. Dies führt auf die Schreibweise
M = {2n|n ∈ N}.
6. Die Schreibweise des vorigen Beispiels kann man jetzt auch auf kompliziertere
Situationen ausdehnen. Als ein Beispiel wollen wir einmal die Menge M aller
natürlichen Zahlen hinschreiben, die sich als eine Summe von zwei Quadraten
schreiben lassen. Diese Zahlen haben die Form a+b wobei a, b zwei Quadratzahlen
sind. Die Quadratzahlen kann man ihrerseits wieder als a2 mit a ∈ N erhalten,
und es ergibt sich
M = {a2 + b2 |a, b ∈ N}
als eine einfache Art die Menge M anzugeben.
7. Bisher haben wir in all unseren Beispielen immer Zahlen als Elemente einer Menge
verwendet. Allgemeine Mengen dürfen aber auch kompliziertere Elemente haben,
etwa Punkte, Geraden, Kreise oder auch andere Mengen. Ein Beispiel hierfür ist
M = {{1, 2}, {3, 4}, 5}.
Dies ist eine Menge mit drei Elementen, und nicht etwa mit fünf, und diese drei
Elemente sind
M = {{1, 2}, {3, 4}, 5 },
| {z } | {z } |{z}
1
2
3
also die Menge {1, 2} mit den beiden Elementen 1 und 2, dann die Menge {3, 4}
und schließlich die Zahl 5.
8. Ein letztes Beispiel ist die Menge
M = {{1}}.
Dies ist eine Menge mit einem einzelnen Element, aber dieses Element ist nicht
die Zahl Eins, sonderm die Menge {1}, deren einziges Element 1 ist.
3
Mathematik für Physiker I, WS 2010/2011
Montag 25.10.2010
Nachdem wir jetzt einige Beispiele von Mengen kennen, wollen wir eine erste wichtige
Definition einführen:
Definition 1.1 (Teilmengen einer Menge)
Eine Menge M heißt Teilmenge einer Menge N , wenn jedes Element von M auch ein
Element von N ist. In diesem Fall schreiben wir M ⊆ N .
Ist eine Menge M keine Teilmenge einer Menge N , so wird dies mit dem Symbol
M 6⊆ N notiert. Die Schreibweise M ⊆ N für die Teilmengenbeziehung wird leider
nicht einheitlich von allen Autoren verwendet, oftmals finden Sie auch M ⊂ N anstelle
von M ⊆ N . Einige Beispiele von Teilmengen sind:
1. Es ist
{1, 2} ⊆ {1, 2, 3}
denn die beiden Elemente 1 und 2 der linken Menge sind auch Elemente der
rechten Menge.
2. Es ist auch
{1, 2, 3} ⊆ {1, 2, 3}.
Allgemein ist jede Menge eine Teilmenge von sich selbst. Will man dies nicht
haben, so spricht man von einer echten Teilmenge, d.h. eine Menge M ist eine
echte Teilmenge der Menge N wenn M ⊆ N und M 6= N ist, und wir schreiben
M ( N für M ist eine echte Teilmenge von N“. Oftmals wird anstelle von
”
M ( N aber auch die alternative Schreibweise M ⊂ N verwendet, was etwas
unglücklich ist da dies von anderen wieder als die normale Teilmengenbeziehung
interpretiert wird. Die beiden Symbole ⊆“ und (“ sind unmißverständlich,
”
”
während ⊂“ je nach Autor Teilmenge“ oder echte Teilmenge“ bedeuten kann.
”
”
”
Das ist verwirrend, aber es ist leider so.
3. Dagegen ist
{1, {2}} 6⊆ {1, 2, 3},
denn die einelementige Menge {2} ist zwar ein Element der linken aber kein
Element der rechten Menge.
Wir wollen auch noch eine weitere Anmerkung zu Definition 1 bringen. Dass wir diese
als Definition bezeichnet und numeriert haben, die Cantorsche Definition einer Menge
aber nicht, ist kein Versehen sondern gewollt. Letztere ist nämlich keine Definition
im mathematischen Sinne. Im normalen Sprachgebrauch gibt es verschiedene Sorten
von Definitionen, und die einfachste Art einer Definition ist die Verabredung einer
Abkürzung. Dass beispielsweise LS17“ für Leipnitz Straße 17“ stehen soll ist eine
”
”
rein willkürliche Abkürzung. Will man dagegen definieren was ein Auto ist, so gibt
es ja nach intendierten Verwendungszweck verschiedene Definitionen. Ob man zum
Beispiel ein Auto mit drei Rädern aber ohne Motor als Auto bezeichnen will hängt
davon ab worum es gerade geht. Eine Definition beschreibt hier ein real vorhandenes
4
Mathematik für Physiker I, WS 2010/2011
Montag 25.10.2010
Objekt und dient nur dazu die gerade relevanten Aspekte dieses Objekts zu benennen.
In der Mathematik sind alle Definitionen Verabredungen von Abkürzungen. Der Begriff
einer Teilmenge ist nicht strikt nötig, anstelle von M ⊆ N“ könnte man genauso gut
”
jedes Element von M ist auch ein Element von N“ sagen. Bevor das Wort Teilmenge“
”
”
definiert wurde gab es keinen Teilmengenbegriff, Autos dagegen gibt es völlig egal ob
man eine Definition von Auto hat oder nicht.
Mathematische Definitionen führen also immer einen neuen Begriff in Termen bereits vorhandener Begriffe ein. Die Cantorsche Mengendefinition ist nicht von dieser
Art, da sie ihrerseits auf weitere noch nicht definierte Begriffe, wie Objekte unse”
rer Anschauung“, Zusammenfassung“ und so weiter, verweist. So etwas ist leider auch
”
nötig, mit mathematischen Definitionen alleine kommt man nicht aus. Wenn jeder neue
Begriff nur in Termen bereits vorhandener Begriffe eingeführt werden kann, so braucht
man irgendetwas mit dem alles anfangen kann. Hierfür verwendet man sogenannte
Grundbegriffe“, diese denken wir uns als vorgegeben und nicht weiter hinterfragbar.
”
Für diese Grundbegriffe gibt man dann üblicherweise eine Beschreibung an, die erklären soll was man sich unter dem Grundbegriff vorzustellen hat. Der Mengenbegriff
ist solch ein Grundbegriff und die Cantorsche Mengendefinition ist seine Erklärung.
Welche Begriffe als Grundbegriffe verwendet werden und welche definiert werden,
ist letzten Endes eine rein willkürliche Entscheidung. Es ist beispielsweise möglich den
Begriff einer Funktion als Grundbegriff zu verwenden, und Mengen dann in Termen
von Funktionen zu definieren. Es hat sich aber ein üblicher Satz“ an Grundbegriffen
”
durchgesetzt, zu denen unter anderem die Mengen gehören.
Wir kommen jetzt zu unserem Thema zurück, und wollen einen weiteren der wichtigsten Begriffe der Mengenlehre einführen, die sogenannte leere Menge.
Definition 1.2 (Die leere Menge)
Die leere Menge ist die Menge die keine Elemente hat, geschrieben als ∅.
Natürlich ist die leere Menge für sich genommen keine interessante Menge, ihre Wichtigkeit besteht darin das sie sehr häufig vorkommt. Während die Physik sehr großzügig
mit fest vergebenen Namen ist, beispielsweise ist v fest für die Geschwindigkeit reserviert, gibt es in der Mathematik nur sehr wenige reservierte Namen, selbst ein Symbol
wie π steht nicht immer für die Kreiszahl, sondern kann je nach Kontext auch was
ganz anderes bedeuten. Einer dieser vergebenen Namen ist das Symbol ∅ für die leere
Menge, ein anderer ist N für die Menge der natürlichen Zahlen. Beispiele für die leere
Menge kann man schlecht machen, da es ja nur eine einzige solche gibt, wir wollen
hier aber einmal zwei mit der leeren Menge in Zusammenhang stehende Situationen
besprechen, die erfahrungsgemäß regelmäßig zu Verwirrungen führen.
1. Das erste Problem ist ob {∅} = ∅ gilt? Dies wird erstaunlich häufig von Anfängern
als wahr angesehen, ist aber in Wahrheit falsch. Die Menge {∅} ist nicht die leere
Menge, denn sie hat ja ein Element, nämlich ∅ selbst.
2. Die zweite Frage ist, ob etwa ∅ ⊆ {1, 2, 3} gilt? Erinnern wir uns an die Teilmengendefinition, so bedeutet ∅ ⊆ {1, 2, 3} das jedes Element der leeren Menge auch
5
Mathematik für Physiker I, WS 2010/2011
Freitag 29.10.2010
ein Element von {1, 2, 3} ist, und so merkwürdig es einem auch vorkommt, dies
ist wahr. Es gibt ja kein Element der leeren Menge für das das falsch sein könnte.
Mit derselben Begründung ist auch
∅⊆M
für überhaupt jede Menge M . Insbesondere ∅ ⊆ ∅.
Mit Mengen kann man rechnen, es gibt eine Vielzahl von Operationen die aus zwei
gegebenen Mengen eine neue Menge machen. Die drei wichtigsten dieser Rechenoperationen wollen wir zum Abschluß dieser Sitzung einführen:
Definition 1.3: Seien M, N zwei Mengen.
1. Die Vereinigung von M und N , geschrieben als M ∪N , ist die Menge all derjenigen
Objekte die Element von M oder von N sind.
2. Der Durchschnitt von M und N , geschrieben als M ∩ N , ist die Menge all derjenigen Objekte die Element von M und von N sind.
3. Die Differenzmenge von M und N , geschrieben als M \N , ist die Menge aller
Elemente von M , die nicht zugleich Element von N sind.
Zu Beispielen kommen wir in der nächsten Sitzung, jetzt wollen wir nur noch ein
paar Kommentare zu dieser Definition bringen. Das Wort seien“ ist außerhab der
”
Mathematik recht ungebräuchlich. Der Satz Seien M, N zwei Mengen“ bedeutet Wir
”
”
geben uns zwei beliebige Mengen vor und nennen diese M und N“. Weiter bedeutet das
Wort oder“ in der Mathematik immer das einschließende oder“, bei A oder B ist also
”
”
auch erlaubt das A und B beide zutreffen. Schließlich wird anstelle der Schreibweise
M \N für die Differenzmenge von einigen Autoren auch das Symbol M − N verwendet.
Vorlesung 2, Freitag 29.10.2010
In der letzten Sitzung hatten wir den Begriff einer Menge eingeführt und einige
Rechenoperationen für Mengen definiert
Vereinigung
M ∪N
Alle x in M oder N
Durchschnitt
M ∩N
Alle x in M und N
Komplement
M \N
Alle x in M nicht in N
6
Mathematik für Physiker I, WS 2010/2011
Freitag 29.10.2010
Wir wollen jetzt einige Eigenschaften unserer bisher eingeführten Begriffe festhalten,
und beginnen mit einem Satz über die Teilmengenbeziehung. Wir verwenden das etwas
kürzere Wort Inklusion“ als das übliche Synonym für Teilmengenbeziehung“.
”
”
Lemma 1.1 (Grundeigenschaften der Inklusion)
Seien A, B, C drei Mengen. Dann gelten:
(a) Die Inklusion ist transitiv, d.h. sind A ⊆ B und B ⊆ C, so ist auch A ⊆ C.
(b) Es ist A ∩ B ⊆ A ⊆ A ∪ B.
(c) Genau dann ist A = B wenn A ⊆ B und B ⊆ A gelten.
Beweis: (a) Für jedes Element x ∈ A gilt wegen A ⊆ B zunächst auch x ∈ B und
wegen B ⊆ C ist schließlich x ∈ C. Dies zeigt A ⊆ C.
(b) Jedes Element des Durchschnitts A ∩ B ist definitionsgemäß auch ein Element von
A, es gilt also A ∩ B ⊆ A. Ebenso ist jedes Element von A auch ein Element von A ∪ B
und wir haben A ⊆ A ∪ B.
(c) Wir müssen zeigen das aus A = B die beiden Bedingungen A ⊆ B und B ⊆ A
folgen, und dass umgekehrt aus A ⊆ B und B ⊆ A auch A = B folgt.
”=⇒” Dies ist klar.
”⇐=” Die Bedingung A ⊆ B bedeutet das jedes Element von A ein Element von B
ist und B ⊆ A sagt das umgekehrt jedes Element von B auch ein Element von A ist.
Damit haben A und B genau dieselben Elemente, und sind somit dieselbe Menge.
Inhaltlich sind alle Aussagen des Lemmas von vornherein klar
A
B
C
A⊆B⊆C
A∩B ⊆A⊆A∪B
und wir wollen dieses Lemma hauptsächlich als Anlass für einige Bemerkungen verwenden. Die Aussagen der Mathematik werden als sogenannte Sätze“ formuliert und
”
in einem aufgeschriebenen Text werden sie dann oftmals numeriert und in irgendeiner
Form hervorgehoben dargestellt. Dabei ist der Name Satz“ hier ein Oberbegriff, je
”
nach Bedeutung der Aussage werden verschiedene Namen verwendet. In der Literatur
finden Sie die folgenden Bezeichnungen:
Satz Aussage mit einer mitteilenswerten, eigenständigen Bedeutung.
7
Mathematik für Physiker I, WS 2010/2011
Freitag 29.10.2010
Hauptsatz Ein besonders wichtiger Satz.
Theorem Je nach Autor entweder ein Synonym für Satz“ oder für Hauptsatz“.
”
”
Lemma Wie ein Satz aber mit Bedeutung hauptsächlich innerhalb der Theorie.
Proposition Je nach Autor entweder ein Synonym für Satz“ oder für Lemma“.
”
”
Korollar Eine unmittelbare Folgerung aus einem Satz oder Lemma, oftmals ein besonders hervorgehobener Spezialfall.
Wir werden die Namen Satz“, Lemma“ und Korollar“ verwenden. Einfache Aus”
”
”
sagen werden oftmals nicht extra als Satz formuliert sondern nur im laufenden Text
erwähnt, die Aussagen in Lemma 1 wären ein Kandidat für solch eine Behandlung.
Besonders selbstverständliche Aussagen werden sogar nirgends festgehalten, beispielsweise werden wir so etwas wie A ∪ B = B ∪ A für Mengen A, B verwenden auch ohne
es irgendwo explizit zu benennen.
Wir kommen jetzt zum Inhalt von Lemma 1, und wollen zunächst die Verwendung
von Variablen erläutern. Im normalen Sprachgebrauch ist eine Variable eine Größe
deren Wert sich im Laufe der Zeit ändert, aber in der Mathematik wird das Wort
Variable“ in einem etwas anderen Sinne verwendet. Nehmen wir etwa die Variablen
”
A, B, C im Lemma. Diese wurden mit Seien A, B, C drei Mengen“ eingeführt, und dies
”
meint das wir uns drei Mengen nehmen und diesen die Namen A, B, C geben. Diese
Mengen ändern sich dann im folgenden nicht, die Werte von A, B, C sind nicht etwas
variables“ und es ist beispielsweise völlig sinnlos so etwas wie Sei A := {1, 2, 3}“ sagen
”
”
zu wollen. Variablen in der Mathematik sind nur Namen für mathematische Objekte
und keine sich ändernden Größen, die Namensgebung Variable“ kommt daher das
”
etwa unsere Variablen A, B, C Namen für völlig beliebige Mengen sind, die Variabilität
liegt in den potentiell möglichen Werten für A, B, C aber eben nicht im gewählten Wert
selbst. Dagegen ist etwa die leere Menge ∅ keine Variable, da diese eine ganz spezifische
Menge bezeichnet.
Es gibt einige, wenige Ausnahmen zum oben gesagten. Beispielsweise ist in der
Mengenbeschreibung
{2x|x ∈ N}
das Symbol x“ eine echte“ Variable, man spricht hier auch von einer formalen Varia”
”
”
blen“. Derartige Variablen treten immer nur in gebundener Form“ auf, beispielsweise
”
gibt es das x“ nur innerhalb der beiden geschweiften Klammern, Ausdrücke wie etwa
”
2x ∈ {2x|x ∈ N} haben keinerlei Sinn, da es außerhalb der Klammern eben kein x gibt.
Eine andere vertraute Situation in der formale
Variablen vorkommen, ist die IntegraRb
tionsvariable beim bestimmten Integral a f (x) dx, das x kommt hier nur im Integral
gebunden vor, Formeln wie
Z
1
x2 =
x dx
0
sind weder wahr noch falsch sondern nur unsinnig.
8
Mathematik für Physiker I, WS 2010/2011
Freitag 29.10.2010
Kommen wir zum Beweis des Lemmas. Mathematik ist keine empirische Wissenschaft, mathematische Aussagen können nicht durch Beobachtungen oder Daten belegt
werden. Das einzige Kriterium zur Wahrheit mathematischer Aussagen ist der Beweis.
Ein Beweis ist dabei mehr als nur eine überzeugende Begründung des behaupteten
Sachverhalts, sondern eine wirklich vollständige, logische Herleitung. Beweise im mathematischen Sinne sind für reale Objekte und Tatsachen nicht möglich, dass sie in der
Mathematik durchgeführt werden können, liegt letztlich daran das alle Begriffe exakt
definiert sind. Beweise sind für die Mathematik keine optionale Zugabe, sondern das
was Mathematik ausmacht. Das heißt natürlich nicht, das wir in dieser Vorlesung alles
vollständig beweisen werden, hierfür wird die zur Verfügung stehende Zeit leider nicht
ausreichen.
Wir schauen uns jetzt den Beweis von Teil (a) des Lemmas an. Vorausgesetzt sind
einmal die für alle Teile des Lemma gültige Voraussetzung Seien A, B, C drei Mengen“
”
und weiter A ⊆ B sowie B ⊆ C. Zu zeigen ist, dass auch A ⊆ C gilt. Das einzige zur
Verfügung stehende Hilfsmittel ist die Definition der Teilmengenbeziehung, und A ⊆ C
bedeutet, dass jedes Element von A auch ein Element von C ist. Wir müssen uns also
ein Element x von A nehmen und einsehen das dieses auch ein Element von C ist. Da
A eine Teilmenge von B ist, ist zunächst x ∈ B und da B auch eine Teilmenge von C
ist, ist x auch ein Element von C. Damit ist dann A ⊆ C bewiesen. Der Beweis von
Teil (b) folgt denselben Prinzipien, und soll hier nicht wiederholt werden.
Der letzte Teil (c) des Lemmas bietet ein neues Detail. Die Formulierung Genau
”
dann ist A = B wenn A ⊆ B und B ⊆ A gelten“, bedeutet das zum einen aus A = B die
Aussage A ⊆ B und B ⊆ A folgt und zum anderen, umgekehrt aus A ⊆ B und B ⊆ A
auch A = B folgt. In dieser Formulierung sind also zwei Behauptungen versteckt, und
diese werden dann auch beide bewiesen. In dem mit =⇒“ gekennzeichneten Teil wird
”
die Implikation von links nach rechts bewiesen, d.h. das aus A = B auch A ⊆ B
und B ⊆ A folgen. In diesem konkreten Beispiel ist hier nichts zu tun, da wir bereits
bemerkt hatten das jede Menge eine Teilmenge von sich selbst ist. Im zweiten Beweisteil
mit ⇐=“ wird dann die andere Implikation, also von rechts nach links bewiesen.
”
Dies soll an allgemeinen Bemerkungen erst einmal genügen. Man kann jetzt fortfahren und diverse Lemmata über das Rechnen mit Mengen beweisen, etwa Formeln
wie A ∩ B = B ∩ A, (A ∪ B) ∪ C = A ∪ (B ∪ C) und vieles mehr. Wir wollen hier nur
eine solche Formel vorstellen, da diese eine der häufigeren Fehlerquellen ist.
Lemma 1.2 (De Morgansche Regeln für Mengen)
Seien A, B, C drei Mengen. Dann gelten die beiden Gleichungen
A\(B ∪ C) = (A\B) ∩ (A\C) und
A\(B ∩ C) = (A\B) ∪ (A\C).
Beweis: Dies ist eine Übungsaufgabe.
9
Mathematik für Physiker I, WS 2010/2011
Freitag 29.10.2010
Sie sollten sich dies ruhig einmal klarmachen, auch wenn es keine Aufgabe auf einem
der Übungsblätter ist. Damit haben wir erst einmal genug über Mengen gesagt, und
kommen jetzt zum zweiten Thema dieses Kapitels, der sogenannten Aussagenlogik.
Unter einer Aussage verstehen wir einen sprachlichen Ausdruck der einen eindeutigen
Wahrheitsgehalt hat, also entweder wahr oder falsch ist. Streng genommen sind wir hier
eigentlich nur an mathematischen Aussagen interessiert, dies meint Aussagen die nur
von mathematischen Objekten handeln. In der Logik betrachtet man auch allgemeinere
Aussagen, dies führt aber schnell zu zusätzlichen Komplikationen, die für uns keine
Rolle spielen. Beispiele derartiger (mathematischer) Aussagen sind:
• 3 + 4 = 7.
• 7 · 8 = 44 (Dies ist zwar falsch, aber trotzdem eine Aussage).
• Die 5-te Nachkommastelle von π ist 9.
Alle diese Ausdrücke sind definitiv, und ohne jeden Verhandlungsspielraum jeweils
wahr oder falsch. In einer Hinsicht sind wir dagegen recht großzügig, es ist nicht nötig
zu wissen ob eine mathematische Aussage nun wahr oder falsch ist, es kommt nur
darauf an, daß sie eines von beiden ist. Beispiele solcher zweifelsfrei mathematischen
Aussagen, deren Wahrheitsgehalt wir zur Zeit nicht kennen sind:
• Die 1032538 -te Nachkommastelle von π ist eine 7.
• Es gibt beliebig große natürliche Zahlen n so, dass unter den ersten n Nachkommastellen von π die 7 genauso oft wie die 3 vorkommt.
Diese beiden Aussagen sind sicherlich entweder wahr oder falsch. Bei der ersten Aussage ist es eher unwahrscheinlich das irgendjemand diese Dezimalstelle von π einmal
ausgerechnet hat. Im Prinzip kann man durchaus entscheiden ob die Aussage wahr
oder falsch ist, es gibt sogar einen Algorithmus der beliebige Dezimalstellen von π berechnen kann ohne dabei die vorhergehenden Stellen berechnen zu müssen. Auch die
zweite Aussage ist entweder wahr oder falsch, wir wissen nur nicht was zutrifft, wir
können uns sogar ziemlich sicher sein, das man das nie wissen wird. Trotzdem handelt
es sich um eine mathematische Aussage in unserem Sinn, denn entweder wahr oder
falsch ist sie allemal, auch wenn wir nicht wissen welche dieser beiden Möglichkeiten
nun zutrifft.
Es gibt verschiedene Konstruktionen aus bereits gegebenen Aussagen A, B neue
Aussagen zusammenzusetzen. Diese werden gelegentlich als aussagenlogische Junktoren
bezeichnet. Der einfachste dieser Junktoren ist die Verneinung. Ist A eine Aussage, so
ist die Verneinung von A die Aussage ¬A, die genau dann wahr ist wenn A falsch ist.
Ebenfalls ohne Überraschungen ist die Konjuktion, oder simpler die und“, Aussage.
”
Bei dieser sind zwei Aussagen A, B gegeben, und man bildet die neue Aussage A ∧ B,
gesprochen als A und B, die genau dann wahr ist wenn beide Aussagen A und B wahr
sind.
10
Mathematik für Physiker I, WS 2010/2011
Freitag 29.10.2010
Diese Festlegungen sollten nicht besonders überraschend sein. Der nächste unserer
Junktoren wird nun die Disjunktion, beziehungsweise oder“ Aussage, sein. Hier gibt es
”
ein kleines Detail zu beachten, die Bedeutung der Disjunktion weicht gelegentlich etwas
von der sonst üblichen Verwendung dieses Wortes ab. Sind A, B wieder zwei Aussagen,
so ist die Disjunktion A ∨ B, gesprochen als A oder B, genau dann wahr wenn eine der
beiden Aussagen A, B wahr ist. Hierbei ist immer der Fall erlaubt, dass sogar beide
Aussagen A, B wahr sind. Wir hatten bereits früher bemerkt, dass diese Verwendung
des Wortes oder“ etwas von der Umgangssprache abweicht. Der Deutlichkeit halber
”
können wir Konjunktion und Disjunktion in Form sogenanter Wahrheitstabellen beschreiben. Die Tabellen für Konjunktion und Disjunktion haben dabei die folgende
Form:
@A
A ∨ B: B
@ 0 1
0 0 1
1 1 1
A
A ∧ B: @
B @ 0 1
0 0 0
1 0 1
In diesen Tabellen schreiben wir 0 für falsch“ und 1 für wahr“. Dies soll nicht etwa
”
”
bedeuten, dass die Zahlen 0 und 1 irgendetwas mit wahr“ und falsch“ zu tun haben,
”
”
es handelt sich nur um Symbole für diese Begriffe. Alternativ könnten wir auch f und
w anstelle von 0 und 1 schreiben.
Mit den logischen Junktoren kann man rechnen. Wir wollen hier eine der Rechenregeln für logische Junktoren hervorheben, die sogenannten de Morganschen Regeln für
Aussagen. Diese behandeln die Verneinung von und“ beziehungsweise von oder“ aus”
”
sagen. Da es sich hier um logische Tatsachen und nicht um mathematischen Aussagen
handelt, wollen wir diese Formeln nicht als mathematische Sätze bezeichnen. Die de
Morganschen Regeln besagen
¬(A ∧ B) = (¬A) ∨ (¬B) und
¬(A ∨ B) = (¬A) ∧ (¬B)
für alle Aussagen A und B. Wir wollen uns die de Morgansche Regel für die Disjunktion
einmal klarmachen, die andere Regel kann man sich dann analog überlegen. Die einzige
Möglichkeit das die Disjunktion A ∨ B falsch ist, ist wenn A und B gleichzeitig beide
falsch sind, wenn also (¬A) ∧ (¬B) wahr ist. Dies bedeutet ¬(A ∨ B) = (¬A) ∧ (¬B).
Als eine alternative Begründung kann man sich auch die Wahrheitstafeln anschauen
¬(A ∨ B) :
0 1
0 1 0
1 0 0
(¬A) ∧ (¬B) :
0 1
0 1 0
1 0 0
Wir kommen jetzt zu einem weiteren logischen Junktor, der auch schon komplizierter
ist, der sogenannten Implikation. Sind A, B zwei Aussagen, so ist die Aussage A ⇒ B,
gesprochen als aus A folgt B“ oder A impliziert B“, wahr wenn mit A auch B stets
”
”
wahr ist. In Form einer Wahrheitstafel soll diese Festlegung gerade
11
Mathematik für Physiker I, WS 2010/2011
Freitag 29.10.2010
A
A ⇒ B: @
B @ 0 1
0 1 0
1 1 1
bedeuten. Beachte das die Implikation A ⇒ B insbesondere immer dann wahr ist
wenn die Voraussetzung A der Implikation falsch ist. Anders gesagt soll aus einer
falschen Aussage jede beliebige andere Aussage folgen. Dies erscheint zunächst als eine
etwas merkwürdige Festlegung, aber dieser Eindruck sollte bei näherer Betrachtung
verfliegen. Umgangssprachlich würde man eine Aussage der Form Wenn morgen das
”
Hörsaalgebäude einstürzt, so fällt die Vorlesung aus“, als wahr betrachten unabhängig
davon ob das Gebäude morgen noch steht, selbst dann wenn die Vorlesung trotz eines in
bestem Zustand befindlichen Hörsaals ausfällt. Ein weiterer Grund für die angegebene
Interpretation der Implikation, der für die Mathematik auch erheblich schwerwiegender
ist, sind Aussagen in denen Variablen vorkommen. Steht x beispielsweise für eine reelle
Zahl, so sollte die Aussage
x2 = 4 =⇒ −2 ≤ x ≤ 2
immer wahr sein, unabhängig davon welchen konkreten Wert x jetzt hat, also auch
wenn etwa x = 3 oder x = 0 ist.
Um eine Implikation A ⇒ B zu beweisen, kann man immer annehmen das die
Aussage A wahr ist, denn andernfalls gilt die Implikation sowieso. Als ein Beispiel
denken wir uns zwei reelle Zahlen x, y gegeben, und wollen die Implikation
x2 = y 2 =⇒ x = y ∨ x = −y
beweisen. Dann können wir wie gesagt annehmen, dass überhaupt x2 = y 2 gilt, und es
folgt
(x + y) · (x − y) = x2 − y 2 = 0,
also x + y = 0 oder x − y = 0 da ein Produkt nur Null sein kann, wenn einer der
Faktoren Null ist. Dies ergibt weiter x = −y oder x = y.
Was ist jetzt die Verneinung der Implikation A ⇒ B? Diese ist genau dann wahr
wenn A ⇒ B falsch ist, und hierfür gibt es nur eine einzige Möglichkeit, A muss wahr
sein und B muss falsch sein. Als Formel bedeutet dies
¬(A ⇒ B) = A ∧ (¬B).
Verwenden wir jetzt noch die offensichtliche Tatsache, dass für jede Aussage X stets
¬¬X = X ist, so erhalten wir mit den de Morganschen Regeln
A ⇒ B = ¬¬(A ⇒ B) = ¬(A ∧ (¬B)) = (¬A) ∨ (¬¬B) = (¬A) ∨ B.
Insbesondere scheint die Implikation damit auf derselben inhaltlichen Stufe wie und“
”
und oder“ zu stehen, was Sie zumindest irritieren sollte. Dieser Eindruck täuscht auch
”
in gewisser Weise, denn der hier verwendete Implikationsbegriff ist rein formaler Natur.
12
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
Es kommt für die Wahrheit von A ⇒ B nur auf den Wahrheitswert der Aussagen A
und B an, nicht aber auf die inhaltliche Bedeutung dieser Aussagen. Diesen Implikationsbegriff sollte man nicht mit dem inhaltlichen Folgerungsbegriff verwechseln, dass
also eine Aussage B durch logisches Schließen aus einer Aussage A folgt. Bei letzterem
kommt es tatsächlich auf die Bedeutung von A und B an. Um eine Implikation zu
beweisen, verwendet man dagegen in aller Regel eine inhaltliche Argumentation, wie
bereits bemerkt wird A als wahr angenommen und dann auf B geschlossen.
Wir führen jetzt eine weitere Schreibweise für mathematische Aussagen ein. Diese
haben sehr oft die Form Für alle Elemente x eine gegebenen Menge M gilt eine
”
Aussage A(x)“, eine sogenannte Allaussage, oder Es gibt ein Element x der Menge M
”
für das A(x) gilt“, eine sogenannte Existenzaussage. Man schreibt
∀(x ∈ M ) : A(x) für Für alle x ∈ M gilt A(x)“.
”
Das Symbol ∀“ ist ein sogenannter Allquantor. Entsprechend schreibt sich eine Exi”
stenzaussage als
∃(x ∈ M ) : A(x) für Es existiert ein x ∈ M mit A(x)“,
”
und hier nennt man ∃“ einen Existenzquantor. Beispielsweise übersetzt sich die Aus”
sage Für jede reelle Zahl x existiert eine natürliche Zahl n, die echt größer als x ist“
”
als Formel in
∀(x ∈ R)∃(n ∈ N) : n > x.
Ein solcher Ausdruck mit mehreren Quantoren ist dabei immer von links nach rechts
zu lesen, ein Ändern der Quantorenreihenfolge ändert auch die Bedeutung der Aussage.
Beispielsweise bedeutet
∃(n ∈ N)∀(x ∈ R) : n > x,
dass es eine natürliche Zahl n gibt, die echt größer als überhaupt alle reellen Zahlen ist,
was natürlich falsch ist. Quantoren desselben Typs kann man vertauschen, und daher
werden sie meist in zusammengefasster Form notiert, man schreibt beispielsweise
∀(x, y ∈ R) : y > x > 0 ⇒ y 2 > x2 für ∀(x ∈ R)∀(y ∈ R) : y > x > 0 ⇒ y 2 > x2 .
Vorlesung 3, Montag 01.11.2010
Wir haben jetzt Allaussagen ∀(x ∈ M ) : A(x) und Existenzaussagen ∃(x ∈ M ) : A(x)
eingeführt. Diese scheinen sich zwar formal recht ähnlich zu sein, inhaltlich unterscheiden sie sich jedoch grundlegend voneinander. Um eine Allaussage ∀(x ∈ M ) : A(x) zu
beweisen, muss man sich ein beliebiges Element x ∈ M der zugrundeliegenden Menge
13
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
M vorgeben und für jedes solche die Aussage A(x) beweisen. Es reicht nicht dies für
einzelne x ∈ M zu tun. Als ein Beispiel nehmen wir einmal
M = N\{0, 1} = {2, 3, 4, . . .} und
A(n) = ggT(n5 − 5, (n + 1)5 − 5) = 1
letzteres für jedes n ∈ N. Probieren wir etwa n = 2 so sind n5 −5 = 27 und (n+1)5 −5 =
238 und wir haben ggT(n5 − 5, (n + 1)5 − 5) = 1. Verwenden wir dann einen Computer,
so kann man leicht etwa alle Werte 2 ≤ n ≤ 1000000 durchprobieren und die beiden
Zahlen n5 − 5 und (n + 1)5 − 5 stellen sich immer als teilerfremd heraus. Als ein Beweis
der Aussage ∀(n ∈ M ) : A(n) reicht das aber nicht aus, selbst eine so große Zahl von
Beispielen hat keine Beweiskraft. Andererseits reicht ein einzelnes Gegenbeispiel aus
die Allaussage zu widerlegen, und nehmen wir etwa
n = 1435390, so ist ggT(n5 − 5, (n + 1)5 − 5) = 1968751 > 1.
Ganz anders sieht dies bei einer Existenzaussage aus. Um eine Aussage ∃(x ∈ M ) : A(x)
zu beweisen, muss man nur ein einziges x ∈ M finden für welches die Aussage A(x) gilt.
Idealerweise geschieht dies durch möglichst direkte Angabe solch eines x, aber dies ist
nicht zwingend verlangt, es gibt Beispiele bei denen man die Existenz eines x einsehen
kann, ohne die geringste Idee zu haben wie man ein solches x konkret beschaffen kann.
Von Bedeutung sind oftmals auch die Verneinungen von All- und Existenzaussagen.
Überlegen wir uns zunächst wann eine Allaussage ∀(x ∈ M ) : A(x) falsch ist. Wie im
obigen Beispiel reicht hierfür ein einzelnes x ∈ M aus so, dass A(x) falsch ist. In
anderen Worten ist die Verneinung einer Allaussage eine Existenzaussage, nämlich
¬∀(x ∈ M ) : A(x) = ∃(x ∈ M ) : ¬A(x).
Entsprechend ist eine Existenzaussage ∃(x ∈ M ) : A(x) falsch, wenn wir eben kein
Element x von M finden können für das A(x) wahr ist, d.h. wenn die Verneinung
¬A(x) für jedes Element x von M wahr ist. Die Verneinung einer Existenzaussage wird
damit eine Allaussage
¬∃(x ∈ M ) : A(x) = ∀(x ∈ M ) : ¬A(x).
Bei Verneinung drehen sich also All- und Existenzquantoren um, d.h. Allquantoren
werden zu Existenzquantoren und Existenzquantoren werden zu Allquantoren. Sind
beispielsweise M, N zwei Mengen und A(x, y) eine Aussage über Elemente x ∈ M und
y ∈ N , so wird
¬∀(x ∈ M )∃(y ∈ N ) : A(x, y) = ∃(x ∈ M ) : ¬∃(y ∈ N ) : A(x, y)
= ∃(x ∈ M )∀(y ∈ N ) : ¬A(x, y).
Entsprechend kann man in allen solchen Fällen vorgehen, zum Verneinen werden alle
Quantoren umgedreht und die innere Aussage verneint.
14
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
Zum Abschluß wollen wir noch einen Zusammenhang zwischen Aussagen und Mengen beschreiben. Neben den bisher beschriebenen Methoden zur Bildung von Mengen
gibt es noch eine weitere Konstruktionsmethode bei der aus einer gegebenen Menge
durch eine Bedingung an die Elemente dieser Menge eine Teilmenge ausgewählt wird.
Als ein Beispiel nehmen wir einmal die Menge P der Primzahlen. Primzahlen n sind
spezielle natürliche Zahlen n ∈ N, und zwar diejenigen die nicht Eins sind und keinen
von 1 und n verschiedenen Teiler besitzen. Letzteres ist eine Bedingung A(n) an die
Elemente von N, und man schreibt
P = {n ∈ N| n 6= 1und es gibt keinen Teiler m von n mit 1 < m < n}.
|
{z
}
A(n)
Allgemein schreibt man
{x ∈ M |A(x)} =
Menge aller Element x ∈ M , die die Bedingung
A(x) an Elemente von M erfüllen.
Beachte das es hier nur erlaubt ist, eine Teilmenge aus einer bereits vorhandenen
Grundmenge M auszuwählen. Man ist versucht auch freie Mengenbildungen“ also
”
{x|A(x)} für die Menge überhaupt aller mathematischen Objekte x, die die Bedingung
A(x) erfüllen, zuzulassen. Diese harmlos aussehende Schreibweise führt aber sofort
in verheerende Widersprüche. Der bekannteste solche Widerspruch ist die sogenannte
Russelsche Antinomie. Bei dieser versucht man die Menge“
”
R := {x|x ist eine Menge mit x ∈
/ x}
zu bilden. Es gibt dann zwei Möglichkeiten, entweder ist R ein Element von R oder
nicht, und wir wollen beide Möglichkeiten einmal durchgehen. Ist R ∈ R, so ist R nach
Definition von R eine Menge die sich nicht selbst als Element enthält, also haben wir
R∈
/ R. Dies geht natürlich nicht, und damit scheidet diese Möglichkeit aus. Daher muss
wohl R ∈
/ R gelten. Aber dann ist R ja eine Menge die sich nicht selbst als Element
enthält, und dies bedeutet wiederum R ∈ R, und auch diese Möglichkeit scheidet aus.
So etwas wie die Menge“ R darf also nicht existieren, und tatsächlich haben wir die
”
obige Mengenbildung durch das Bestehen auf einer vorgegebenen Grundmenge auch
ausgeschlossen. Natürlich könnte es trotzdem einen komplizierteren Widerspruch geben, der nur unsere erlaubten Mengenbildungen verwendet, aber ein solcher ist bislang
nicht aufgetaucht.
Auch die Operationen des Schneidens, Vereinigens und Komplementbildens von
Mengen lassen sich alternativ über die Bildung von Teilmengen durch Auswahlbedingungen beschreiben. Beispielsweise ist für je zwei Mengen A, B
A ∩ B = {x ∈ A|x ∈ B} = {x ∈ B|x ∈ A} = {x|x ∈ A ∧ x ∈ B}.
Der letzte dieser drei Ausdrücke sieht dabei wie die eben gerade verbotene freie Mengenbildung aus. In diesem speziellen Fall kann man sie aber doch erlauben, da durch die
15
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
Bedingung A(x) = x ∈ A ∧ x ∈ B“ ja implizit eine Grundmenge gegeben ist. Ebenso
”
sind
A ∪ B = {x|x ∈ A ∨ x ∈ B},
A\B = {x ∈ A|x ∈
/ B}.
In diesem Sinne entspricht das Schneiden von Mengen der und“ Verknüpfung von
”
Aussagen, und das Vereinigen entspricht der oder“ Verknüpfung.
”
$Id: beweise.tex,v 1.4 2011/02/09 08:43:53 hk Exp $
§2
Die Beweismethoden
Es gibt drei verschiedene Beweismethoden, der direkte Beweis, der indirekte Beweis
und die sogenannte vollständige Induktion. Die ersten beiden Methoden sind sehr allgemeiner Natur während die vollständige Induktion auf Aussagen eines speziellen Typs
beschränkt ist. Diese drei Methoden sind nur die prinzipiellen Grundmethoden. Beweise komplizierterer Aussagen setzen sich in der Regel aus vielen kleinen Teilbeweisen
zusammen, die dann ihrerseits jeweils eine der Grundmethoden verwenden.
Wir beginnen mit dem einfachsten der drei Grundtypen, dem direkten Beweis. Zu
zeigen ist eine Implikation A ⇒ B, wobei A die Voraussetzungen sind und B die
Behauptung ist. Bei einem direkten Beweis gibt man eine logische Folgerungskette
an, die bei den Vorausetzungen A beginnt und mit der Behauptung B endet. Als ein
Beispiel für einen direkten Beweis, wollen wir die folgende Behauptung verwenden:
x+y
√
Für alle x, y ∈ R mit x, y ≥ 0 ist xy ≤
.
2
Die Voraussetzungen A und die Behauptung B sind hier
A = x, y ∈ R ∧ x, y ≥ 0,
x+y
√
B =
xy ≤
.
2
Wir wollen an diesem Beispiel auch gleich einen der typischen Anfängerfehler vorführen,
und geben daher zunächst einen fehlerhaften Beweis an:
√
a+b
ab ≤
=⇒
2
=⇒
=⇒
=⇒
2
a+b
(a + b)2
a2 + 2ab + b2
ab ≤
=
=
2
4
4
2
2
4ab ≤ a + 2ab + b
a2 − 2ab + b2 ≥ 0
(a − b)2 ≥ 0 ist wahr.
16
(quadrieren)
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
Leider ist das kein Beweis, und zwar weder ein Beweis unserer Behauptung noch von
irgend etwas. Für einen direkten Beweis müsste man von der Voraussetzung ausgehend
auf die Behauptung schließen, aber hier sind wir anstelle dessen von der Behauptung
ausgegangen und haben gezeigt das aus dieser eine wahre Aussage folgt. Dies besagt
aber nichts, denn aus einer falschen Aussage folgt ebenso eine wahre Aussage.
Die eigentliche Rechnung ist aber schon in gewissen Sinne in Ordnung, sie ist nur
falsch organisiert. Was eigentlich gemeint ist, ist dass die letzte Aussage (a − b)2 ≥ 0
wahr ist, und aus dieser folgt dann a2 − 2ab − b2 ≥ 0 und aus dieser folgt weiter
2
(a + b)2 = a2 + 2ab + b2 ≥
p4ab, also (a + b) /4 ≥ ab, und das Ziehen der Wurzel ergibt
schließlich (a + b)/2 ≥ (ab). Die korrekte Schlußrichtung ist hier also von unten
nach oben, wir müssen den falschen Beweis nur umdrehen um den korrekten Beweis
zu erhalten.
Die korrigierte Version ist somit wie folgt. Es gilt a2 − 2ab + b2 = (a − b)2 ≥ 0,
und Addition mit 4ab liefert (a + b)2 = a2 + 2ab + b2 = a2 − 2ab + b2 + 4ab ≥ 4ab,
2
also (a +
√b) /4 ≥ 4. Die Monotonie der Wurzel liefert schließlich die Behauptung (a +
b)/2 ≥ ab. Damit haben wir einen direkten Beweis unserer Behauptung angegeben.
In diesem Beispiel sehen wir auch, dass die logische Reihenfolge in einem Beweis von
der Reihenfolge der eigentlichen Überlegungen abweichen kann, auch wenn dies nicht
immer so extrem wie in diesem Beispiel ist. Wir hatten früher schon bemerkt, dass
ein Beweis nicht nur die Korrektheit einer Aussage belegen soll, sondern diese auch
erklären soll. Dagegen ist es nicht die Aufgabe eines Beweises zu dokumentieren wie
man auf den Beweis oder die Aussage kommt.
Soviel zum direkten Beweis. Wir kommen jetzt zur zweiten Beweismethode, dem
indirekten Beweis oder Widerspruchsbeweis. Auch bei diesen ist eine Aussage A ⇒ B
zu beweisen. Wie immer beim Beweis einer Implikation nehmen wir an, dass die Aussage
A gilt, und bei einem Widerspruchsbeweis nehmen wir weiter an, dass die Aussage B
falsch ist. Dann wird aus der Aussage A ∧ (¬B) ein Widerspruch hergeleitet, d.h. wir
finden eine Aussage C von der wir zeigen können das sowohl C als auch die Verneinung
¬C wahr sind. Da dies nicht möglich ist, muss die Annahme das B falsch ist selbst
falsch gewesen sein, d.h. B ist wahr.
√
Das Urbeispiel eines Widerspruchsbeweises ist der Beweis der Irrationalität von 2.
Die zu beweisende Aussage ist hier
√
B:
2∈
/ Q.
√
Nehmen wir also an B wäre falsch, d.h. es ist
√ 2 ∈ Q. Da rationale Zahlen definitionsgemäß Brüche ganzer Zahlen
√ sind, und da 2 > 0 ist, gibt es dann natürliche Zahlen
p, q ∈ N mit p, q ≥ 1 und 2 = p/q. Durch Auskürzen kann man weiter annehmen das
p und q keine gemeinsamen Teiler haben. Dies ist dann unsere Aussage
C:
p und q haben keine gemeinsamen Teiler
mit der wir einen Widerspruch erhalten werden. Hierzu rechnen wir
2
√ 2
p
p2
2= 2 =
= 2,
q
q
17
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
und somit ist auch p2 = 2q 2 . Damit ist p2 ein Vielfaches von 2, also gerade. Andererseits
sind Produkte ungerader Zahlen wieder ungerade, und damit muss p selbst gerade sein,
da sonst p2 ungerade wäre. Damit erhalten wir die natürliche Zahl
r :=
p
∈N
2
mit p = 2r. Setzen wir dies in unsere Gleichung ein, so folgt
2q 2 = p2 = (2r)2 = 4r2 ,
also auch q 2 = 2r2 . Genau wie bei p muss q damit gerade sein. Somit ist 2 aber ein
gemeinsamer
√ Teiler von p und q, wir haben also ¬C. Dies ist ein Widerspruch, und
somit ist 2 tatsächlich irrational.
Während der direkte und der indirekte Beweis auf ganz allgemeine Aussagen anwendbar sind, ist die dritte, jetzt zu diskutierende, Beweismethode nur für eine spezielle
Sorte von Aussagen verwendbar. Die vollständige Induktion ist ein Beweisverfahren,
um Aussagen über alle natürlichen Zahlen zu beweisen, genauer geht es um Allaussagen
der Form
∀(n ∈ N) : A(n),
wobei A(n) eine Aussage über natürliche Zahlen n ist. Ein Beispiel einer solchen Aussage ist
n(n + 1)
A(n) : 1 + 2 + 3 + · · · + n =
2
für n ∈ N. Dabei interpretieren wir die bei n = 0 auftretende leere Summe als Null.
Ein Induktionsbeweis erfolgt in zwei Schritten:
1. Induktionsanfang: Zeige das die Aussage A(0) gilt.
2. Induktionsschritt: Hier ist zu zeigen, dass aus A(n) für n ∈ N auch A(n + 1)
folgt, d.h es ist die Allaussage ∀(n ∈ N) : A(n) ⇒ A(n + 1) zu beweisen. Den
Induktionsschritt unterteilt man meistens in zwei Teile:
(a) Induktionsannahme: Sei n ∈ N mit A(n) gegeben.
(b) Induktionsschritt: Zeige, dass auch A(n + 1) gilt.
Haben wir Induktionsanfang und Induktionsschritt erfolgreich durchgeführt, so besagt
das Prinzip der vollständigen Induktion, dass die Aussage A(n) für jedes n ∈ N wahr ist.
Ein häufiges Mißverständnis besteht darin zu glauben, dass man beim Induktionsschritt
bereits weiss das A(n) wahr ist. Dies ist aber nicht der Fall, alles was gezeigt wird ist die
Implikation A(n) ⇒ A(n + 1) und wie immer beim Beweis einer Implikation kann man
annehmen das die Voraussetzung der Implikation, also A(n), wahr ist denn andernfalls
ist die Implikation sowieso wahr.
Als ein Beispiel wollen wir die Formel
1 + ··· + n =
18
n(n + 1)
2
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
für alle n ∈ N per vollständiger Induktion beweisen. Dies bedeutet die Gültigkeit von
∀(n ∈ N) : A(n) mit der Aussage
A(n) :
1 + 2 + 3 + ... + n =
n(n + 1)
2
für n ∈ N.
Induktionsanfang: Der Induktionsanfang ist
A(0) :
0=
0 · (0 + 1)
,
2
was sicherlich wahr ist.
Induktionsannahme: Sei n ∈ N mit 1 + · · · + n =
n(n+1)
.
2
Induktionsschritt: Wir müssen einsehen das auch A(n + 1), also
1 + · · · + (n + 1) =
(n + 1)(n + 2)
2
wahr ist. Mit der Induktionsannahme ergibt sich
n(n + 1)
+ (n + 1)
2
n(n + 1) + 2(n + 1)
(n + 1)(n + 2)
=
=
,
2
2
1 + · · · + (n + 1) = (1 + · · · + n) + (n + 1) =
und der Induktionsschritt ist durchgeführt.
Per vollständiger Induktion ist damit A(n) für alle n ∈ N bewiesen.
Überlegen wir uns kurz warum ein Induktionsbeweis funktioniert. Im Induktionsanfang wird A(0) nachgewiesen und im Induktionsschritt wird weiter A(n) ⇒ A(n + 1)
für alle n ∈ N gezeigt. Mit n = 0 wissen wir insbesondere A(0) ⇒ A(0 + 1) = A(1),
d.h. A(0) und die Implikation A(0) ⇒ A(1) sind wahr und somit ist auch A(1) wahr.
Mit n = 1 haben wir dann auch A(1) ⇒ A(1 + 1) = A(2) und da wir A(1) bereits
eingesehen haben, ist auch A(2) wahr. So fortfahrend sind dann auch A(3), A(4), . . .,
und immer so weiter, wahr. Da wir so bei jeder natürlichen Zahl n ∈ N vorbeikommen
ist A(n) für jedes n ∈ N wahr. Dies sollte Sie von der Gültigkeit der Methode der
vollständigen Induktion überzeugen. Es ist allerdings kein exaktes Argument für diese,
da wir das Problem in dem harmlos aussehenden und so weiter“ versteckt haben.
”
Bevor wir mit der vollständigen Induktion fortfahren, wollen wir noch eine nützliche
Abkürzung einführen, das sogenannte Summenzeichen. Man schreibt beispielsweise für
n∈N
n
X
k = 1 + 2 + · · · + n.
k=1
19
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
Das große Sigma ist hier das
P Summenzeichen und k der sogenannte Summationsindex. Das Summenzeichen nk=1 ak wird so interpretiert das k die Werte von 1 bis n
durchläuft, für jedes solche k die Zahl ak gebildet wird und alle diese Zahlen aufsummiert werden. Beispielsweise sind
6
X
k 2 = 32 + 42 + 52 + 62 = 9 + 16 + 25 + 36 = 86 oder
4
X
1
k=3
k=1
k
= 1+
1 1 1
25
+ + = .
2 3 4
12
Oftmals läßt man den Summationsindex auch über eine kompliziertere Menge laufen,
die dann in der Regel unterhalb des Summenzeichens beschrieben wird, beispielsweise
X
1≤k≤10
k Primzahl
1
1 1 1 1
126
= + + + =
.
k
2 3 5 7
110
Der Summationsindex ist eine der letztes Mal erwähnten formalen Variablen, insbesondere gibt es ihn nur innerhalb der Summe und nicht außerhalb. Bei komplexeren
Summen dürfen auch mehrere Summationsindizes gleichzeitig verwendet werden, beispielsweise
1
1
1
1 1 1
47
1
=
+
+
= + + = .
i+j
1+2 1+3 2+3
3 4 5
60
1≤i<j≤3
X
Hier durchlaufen die Summationsindizes i, j die möglichen Werte (i, j) = (1, 2), (1, 3)
und (2, 3). Sind a1 , . . . , an , b1 , . . . , bn und c beliebige Zahlen, so gelten offenbar
n
X
(ak + bk ) =
n
X
ak +
k=1
k=1
n
X
(cak ) = c ·
k=1
n
X
n
X
bk und
k=1
ak .
k=1
Entsprechende Formeln gelten dann natürlich auch für die Summation über kompliziertere Indexbereiche.
Wir wollen jetzt auch noch eine kleine Variante der vollständigen Induktion besprechen, bei der eine Aussage A(n) nicht unbedingt für alle n ∈ N bewiesen wird sondern
für alle n ab einem Startwert n0 ∈ N. Zu beweisen ist also die Allaussage
∀(n ∈ N, n ≥ n0 ) : A(n),
und für eine vollständige Induktion müssen die folgenden drei Bestandteile durchgeführt werden:
Induktionsanfang: Die Aussage A(n0 ) ist wahr.
Induktionsannahme: Sei n ∈ N mit n ≥ n0 und A(n).
20
Mathematik für Physiker I, WS 2010/2011
Montag 01.11.2010
Induktionsschritt: Zeige das dann auch A(n + 1) gilt.
Beachte das wir in der Induktionsannahme zusätzlich zu A(n) auch noch annehmen
das n ≥ n0 ist, dies kann durchaus wesentlich sein. Haben wir die obigen drei Schritte
durchgeführt, so besagt das Prinzip der vollständigen Induktion, dass die Aussage A(n)
für alle n ∈ N mit n ≥ n0 gilt. Als ein Beispiel wollen wir die Aussage 2n > n2 für
n ∈ N untersuchen. Diese ist nicht für jedes n ∈ N wahr, für die kleinen Werte von n
haben wir
n 2n n2
0 1 0
1 2 1
2 4 4
3 8 9
4 16 16
5 32 25
und somit versuchen wir unser Glück mit dem Startwert n0 = 5. Wir wollen also
2n > n2 für alle n ∈ N mit n ≥ 5 beweisen. Unsere Aussage A(n) ist hier
A(n) :
2n > n 2 .
Wir führen die vollständige Induktion durch
Induktionsanfang: Es ist 25 = 32 > 25 = 52 , also gilt A(5).
Induktionsannahme: Sei n ∈ N mit n ≥ 5 und 2n > n2 gegeben.
Induktionsschritt: Da insbesondere n ≥ 3 ist haben wir dann
n2 = n · n ≥ 3n = 2n + n > 2n + 1.
Es folgt
2n+1 = 2 · 2n > 2n2 = n2 + n2 > n2 + 2n + 1 = (n + 1)2 ,
und wir haben auch A(n + 1) eingesehen.
Per vollständiger Induktion ist damit 2n > n2 für alle n ∈ N mit n ≥ 5 bewiesen.
In den allermeisten Fällen ist der Induktionsanfang wie in diesen Beispielen eine
recht banale Angelegenheit. Trotzdem ist er unverzichtbar, der Induktionsschluß kann
auch bei falschen Aussagen funktionieren. Nehmen wir einmal die offensichtlich unsinnige Aussage n > n + 1 als unser A(n). Ist dann n ∈ N mit A(n), also n > n + 1,
so folgt durch Addition mit Eins auch n + 1 > (n + 1) + 1, also A(n + 1). Der Induktionsschluß ist hier also problemlos möglich, der Anfang natürlich nicht. Dies ist
kein seltenes Phänomen, nehmen Sie einmal an die Aussage A(n) ist für jedes n ∈ N
falsch. Da aus falschem alles folgt, gilt dann A(n) ⇒ A(n + 1) für jedes n ∈ N, der
Induktionsschluß funktioniert also immer wenn die Aussage A(n) niemals richtig ist.
$Id: funktion.tex,v 1.9 2011/08/17 11:00:32 hk Exp $
21
Mathematik für Physiker I, WS 2010/2011
§3
Freitag 05.11.2010
Funktionen
Vorlesung 4, Freitag 05.11.2010
Dieses Kapitel ist das letzte der vorbereitenden, allgemeinen Kapitel und wir wollen
uns mit dem Funktionsbegriff beschäftigen. Während wir bisher fast nur logische Konzepte oder mathematische Grundbegriffe besprochen haben, werden wir Funktionen
wirklich exakt definieren können, wie wir sehen werden wird der Funktionsbegriff auf
den Mengenbegriff zurückgeführt.
Als Vorbereitung hierzu erinnern wir zunächst an die
aus der Schule vertraute Definition“ einer Funktion. y
”
Dort hatte man zwei Variablen x, y wobei der Wert einer y
(x,y)=(x,f(x))
der beiden Variablen von der anderen abhing. Normalerweise verwendet man y als diese abhängige Variable und
bezeichnet y als eine Funktion von x, symbolisch oft gex
schrieben als y = f (x). Dabei muss jedem Wert von x
x
genau ein Wert von y entsprechen, in anderen Worten
hängt y über eine eindeutige Zuordnungsvorschrift“ von x ab. Typischerweise war
”
diese Zuordnungsvorschrift dabei einfach eine Formel in der x als freie Variable vorkommt. Graphisch konnte man sich die Funktion dann durch ihren Funktionsgraphen
veranschaulichen, d.h. man trägt auf der horizontalen Achse die x-Werte ab und auf
der vertikalen das zugehörige y = f (x). Die Menge all der Punkte auf diesem Graphen
liefert dann eine Teilmenge
graph(f ) = {(x, f (x))|x ∈ dom(f )}
beziehungsweise
graph(f ) = {(x, y)|x ∈ dom(f ), y = f (x)}
der Ebene, wobei dom(f ) die Menge all derjenigen Werte von x ist für die y = f (x) definiert ist, der sogenannte Definitionsbereich der Funktion. Beachte das wir den Punkt
P der Ebene mit x-Koordinate a und y-Koordinate b einfach als P = (a, b) schreiben,
in der Schule populäre Schreibweisen wie P (a|b) werden in der Mathematik nicht verwendet. Durch den Graphen einer Funktion f ist die Funktion vollständig festgelegt,
um den Funktionswert y = f (x) zu ermitteln bilden wir die vertikale Gerade durch
(x, 0) und diese schneidet den Graphen im Punkt (x, y).
Wie bereits bemerkt ist die Zuordnungsvorschrift oftmals einfach eine Formel in x,
beispielsweise y = x2 +1 oder y = sin x. In der Schule wurde dann leider der Unterschied
zwischen der definierenden Formel und der Funktion verwischt, eine Funktion ist keine
22
Mathematik für Physiker I, WS 2010/2011
Freitag 05.11.2010
Formel, Formeln können nur umgekehrt zur Definition von Funktionen verwendet werden. Tatsächlich reichen derartige Funktionen nicht aus, man braucht zumindest noch
solche Funktionen die in mehreren Stücken definiert sind, etwa
H(x)
f(x)
x=1
( x=1/2
2x,
0 ≤ x ≤ 12 ,
y = f (x) =
2 − 2x, 21 ≤ x ≤ 1
x
x=0
(
0, x < 0,
y = H(x) =
.
1, x ≥ 0
Die Funktion H(x) ist die sogenannte Heaviside-Funktion und tritt gelegentlich bei
der Behandlung von Einschaltvorgängen auf. In Anwendungssituationen tauchen dann
noch weitere Funktionsarten auf, beispielsweise Funktionen die nicht durch irgendeine
Formel gegeben sind sondern von einigen Meßergebnissen gebildet werden. Derartige
Funktionen sind dann zunächst nur in endlich vielen Punkten definiert, es können ja
nur endlich viele Messungen wirklich durchgeführt werden, und will man die Funktion
auch in anderen Punkten auswerten so geschieht dies durch eine für die konkrete Situation geeignete Form von Interpolation. Wieder andere Funktionen sind durch das
Ein/Ausgabeverhalten irgendwelcher realer Apperaturen definiert, und manche entstehen sogar indem einfach ihr Graph hingemalt wird.
Wie sie sehen, deckt dieser reale Funktionsbegriff“ eine Vielfalt verschiedenartiger
”
Situationen ab. Der nun einzuführende mathematische Funktionsbegriff soll all diese
verschiedenen Funktionstypen umfassen und zugleich eine exakte mathematische Definition sein. Dies wird möglich indem der eigentliche Zuordnungsvorgang völlig ignoriert
wird. Man betrachtet nur noch den fertigen Funktionsgraph und verwendet diesen zur
Definition einer Funktion. Wenn Sie so wollen, nimmt man die Idee, das Funktionen
durch Hinmalen des Graphen definiert werden können, ernst. Es tritt zuvor nur noch
eine kleine zusätzliche Schwierigkeit auf. Bisher haben wir nur Funktionen betrachtet
die reelle Argumente und reelle Werte haben und der Graph war dann eine Menge
von Punkten der Ebene. Mit reellwertigen Funktionen einer reellen Variable kommt
man aber nicht aus, beispielsweise ordnet ein elektrisches Feld ja jedem Punkt des
betrachteten Raumgebiets einen Vektor zu, die beschreibende Funktion hat also dreidimensionale Punkte als Argumente und dreidimensionale Vektoren als Werte. Auch so
etwas soll mit unserem Funktionsbegriff erfasst werden, wir wollen sogar erlauben das
die Argumente x aus einer völlig beliebigen Menge M kommen und die Werte y = f (x)
aus einer ebenfalls völlig beliebigen Menge N sind. Als Ersatz für die Ebene nehmen
wir das wie folgt definierte Produkt der Mengen M und N .
Definition 3.1 (Cartesisches Produkt von Mengen)
Seien M und N zwei Mengen. Das cartesische Produkt von M und N ist dann die
Menge
M × N := {(x, y)|x ∈ M, y ∈ N }.
23
Mathematik für Physiker I, WS 2010/2011
Freitag 05.11.2010
Manchmal spricht man auch kürzer einfach vom Produkt der beiden Mengen M und N .
Wir denken uns anschaulich M × N als eine Ebene“ deren horizontale x-Koordinaten
”
aus der Menge M kommen und deren vertikale y-Koordinaten aus der Menge N kommen. Wir wollen einige Beispiele cartesischer Produkte behandeln:
1. Das Produkt R2 := R × R ist die Menge aller Paare (x, y) reeller Zahlen x, y ∈ R,
also die Ebene.
2. Ebenso ist R3 := R × R × R die Menge aller Tripel (x, y, z) reeller Zahlen
x, y, z ∈ R, und wir können uns den R3 als den dreidimensionalen Raum denken. Streng genommen ist dies durch die Definition des cartesischen Produkts
gar nicht abgedeckt, da wir hier drei statt zwei Faktoren haben, wir denken uns
etwas genauer R3 = (R × R) × R. Die Elemente sind dann eigentlich von der
Form ((x, y), z) mit x, y, z ∈ R. Zur Vereinfachung der Notation entscheiden wir
uns dann dazu die inneren Klammern nicht mitzuschreiben.
3. Noch allgemeiner kann man für jedes n ∈ N mit n ≥ 1 auch den n-dimensionalen
Raum
Rn = R
· · × R}
| × ·{z
n mal
einführen. Der Begriff Dimension“ wird hier in einem sehr prosaischen Sinne ver”
wendet, man denkt nicht an irgendwelche zusätzlichen Raumdimensionen sondern
einfach an Dinger zu deren Beschreibung man n reelle Zahlen braucht. Das mathematische Wort Dimension“ ist also das was sie in der Physik als die Anzahl
”
der Freiheitsgrade bezeichnen.
4. Das cartesische Produkt Z × Z der Menge Z der ganzen
Zahlen mit sich selbst ist die Menge aller Punkte der
Ebene mit ganzzahliger x- und y-Koordinate, also ein
unendlich ausgedehntes Gitter in der Ebene
y=2
y=1
y=0
y=−1
y=−2
x=−2
x=−1
x=0
x=1
x=2
5. Als ein ganz konkretes Beispiel nehmen wir jetzt die beiden Mengen M = {1, 2}
und N = {2, 3}. Für die beiden Komponenten der Punkte im cartesischen Produkt M × N gibt es dann jeweils zwei Möglichkeiten und das Produkt hat damit
vier Punkte, nämlich
M × N = {(1, 2), (1, 3), (2, 2), (2, 3)}.
24
Mathematik für Physiker I, WS 2010/2011
Freitag 05.11.2010
Wie schon bemerkt wollen wir Funktionen von einer Menge M
in eine Menge N als Graphen definieren, also als Teilmengen des
cartesischen Produkts M × N . Nun ist aber nicht jede Teilmenge
von M × N als Graph einer Funktion geeignet. Einen jeden Wert
x ∈ M soll genau ein Wert y ∈ N zugeordnet werden, d.h. die
vertikale Gerade“ {(x, y)|y ∈ N } sollte den Graphen in genau einem Punkt treffen,
”
es sollte also nicht die rechts abgebildete Situation vorliegen. Dies führt uns auf die
folgende Definition von Funktionen.
N
x
M
Definition 3.2: Seien M, N zwei Mengen. Eine Funktion oder Abbildung f : M → N
ist eine Teilmenge f ⊆ M × N so, dass es für jedes x ∈ M genau ein y ∈ N mit
(x, y) ∈ f gibt. Man nennt die Menge M dann den Definitionsbereich der Funktion f
und schreibt dom(f ) = M und für jedes x ∈ M wird das eindeutige Element y ∈ N
mit (x, y) ∈ f mit dem Symbol y = f (x) bezeichnet.
Anstelle der Schreibweise f (x) für den Funktionswert von x ∈ M unter f finden Sie
in der Literatur manchmal auch f x, also ohne die Klammern um das Argument, oder
die Postfix Schreibweise xf . Die Schreibweise ohne Klammern ist beispielsweise bei einigen der Grundfunktionen, etwa beim Logarithmus ln oder bei den trigonometrischen
Funktionen üblich, also etwa ln x statt ln(x). Man sollte dies aber auf einfache Argu”
mente“ beschränken, also beispielsweise nicht ln xy da nicht klar ist, ob dies ln(x) · y
oder ln(xy) meint. Bei den trigonometrischen Funktionen werden Klammern traditionell sehr großzügig weggelassen, so wird etwa sin 2x in den allermeisten Fällen sin(2x)
bedeuten und nicht sin(2) · x.
Weil diese sich in Beispielen am einfachsten behandeln lassen, werden wir sehr
häufig durch explizite Zuordnungsvorschriften definierte Funktionen verwenden. Diese
Funktionen notieren wir in der folgenden Form
f : M → N ; x 7→ f (x),
gelesen als f von M nach N , x wird abgebildet auf“. Die links und rechts vom Pfeil
”
stehenden Mengen M und N geben den Definitionsbereich der Funktion f beziehungsweise ihr Ziel an. Darauf folgt die eigentliche Abbildungsvorschrift. Die Variable x ist
hier eine formale Variable, taucht also nur gebunden innerhalb der Funktionsdefinition
auf. Rechts vom Abbildungspfeil 7→“ steht dann die eigentliche Abbildungsvorschrift.
”
Da wir noch reichlich Funktionen sehen werden, beschränken wir uns jetzt auf zwei kleine Beispiele. Zunächst eine Funktion, deren Abbildungsvorschrift eine einfache Formel
ist
f : R → R; x 7→ x2 + 1.
Es ist also f (x) = x2 + 1 für jedes x ∈ R. Auf zwei kleine Details wollen wir noch
besonders hinweisen. Zum einen sollten Sie die Formel x2 + 1“ nicht mit der Funktion
”
f verwechseln, eine Formel kann zur Beschreibung einer Funktion verwendet werden, sie
ist aber keine Funktion. Zum anderen gibt es einen wesentlichen Unterschied zwischen
25
Mathematik für Physiker I, WS 2010/2011
Freitag 05.11.2010
f und f (x). Dabei ist f die Funktion selbst, aber f (x) ist, bei gegebenen x ∈ M ,
ein konkreter Wert der Funktion, also ein Element von N . Insbesondere ist f streng
genommen etwas anderes als f (x). Gelegentlich, vor allen in informellen Kontext, ist
es bequem diesen Unterschied zu verwischen, also f (x) für f zu schreiben.
Wir kommen zum angekündigten zweiten Beispiel, und in diesem haben wir noch
immer eine explizite Zuordnungsvorschrift, diese ist aber schon von etwas komplizierterer Natur

0, x = 0 oder x ∈
/ Q,
p
f : R → Q; x 7→ 1
 q , x ∈ Q und x = mit teilerfremden p ∈ Z, q ∈ N\{0}.
q
Die Zuordnungsvorschrift ist wie folgt zu lesen: Bei gegebenen x ∈ R schaue zunächst ob
x = 0 ist oder ob x irrational ist. Wenn ja, ist der Funktionswert f (x) = 0. Andernfalls
kann man x = p/q als Bruch mit ganzzahligen Zähler p und von Null verschiedenen,
natürlichen Nenner q schreiben, und durch eventuelles Auskürzen können p und q als
teilerfremd angenommen werden. Dann sind p und q durch x eindeutig festgelegt, und
wir können f (x) := 1/q definieren. Beispielsweise sind
√
4
2
1
f ( 2) = 0, f (1) = 1, f (0, 4) = f
=f
= .
10
5
5
Das zweite Beispiel ist natürlich keine besonders nützliche Funktion, sie dient uns nur
als ein Beispiel einer komplizierten Zuordnungsvorschrift und hat keine weitere Bedeutung. Mit Funktionen kann man in gewissen Umfang rechnen indem sie hintereiander
ausgeführt werden.
Definition 3.3 (Hintereinanderausführung von Funktionen)
Seien f : A → B, g : B → C zwei Funktionen. Die Hintereinanderausführung oder
Komposition von f und g ist dann die Funktion
g ◦ f : A → C; x 7→ g(f (x)).
Ist beispielsweise g durch eine Zuordnungsvorschrift x 7→ g(x) gegeben, so entsteht
die Zuordnungsvorschrift der Hintereinanderausführung g ◦ f indem f (x) für x in die
Zuordnungsvorschrift eingesetzt wird. Wir behandeln zwei Beispiele:
1. Seien
f : R → R; x 7→ x3 + 1 und g : R → R; x 7→ x2 + x − 2.
Dann ist für jedes x ∈ R
g ◦ f (x) = g(f (x)) = f (x)2 + f (x) − 2 = (x3 + 1)2 + (x3 + 1) − 2
= x6 + 2x3 + 1 + x3 − 1 = x6 + 3x3 .
26
Mathematik für Physiker I, WS 2010/2011
Freitag 05.11.2010
2. Im zweiten Beispiel wollen wir umgekehrt eine gegebene Funktion als Hintereinanderausführung zweier einfacherer Funktionen schreiben. Für jedes x ∈ R haben
wir das Additionstheorem
cos(2x) = 2 cos2 x − 1
und hier kommt auf der rechten Seite nur noch cos x aber kein isoliertes x vor. Man
kann also für x ∈ R stets cos(2x) = T2 (cos x) mit dem Polynom T2 (x) = 2x2 − 1
schreiben. Ist also f : R → R; x 7→ cos(2x), so ist f = T2 ◦ cos. Ebenso ist für
jedes x ∈ R auch
cos(3x) = 4 cos3 x − 3 cos x = T3 (cos x)
mit T3 (x) = 4x3 − 3x, d.h. die Funktion f : R → R; x 7→ cos(3x) ist eine
Hintereinanderausführung f = T3 ◦ cos.
Wir wollen noch ein wichtiges Lemma über die Hintereinanderausführung von Funktionen festhalten.
Lemma 3.1 (Assoziativgesetz der Hintereinanderausführung)
Seien f : A → B, g : B → C und h : C → D drei Funktionen. Dann gilt
(h ◦ g) ◦ f = h ◦ (g ◦ f ).
Beweis: Beachte das zwei Funktionen offenbar genau dann gleich sind, wenn sie denselben Definitionsbereich haben und jedes Element dieses Definitionsbereichs auf denselben Wert abbilden. Wir haben
dom((h ◦ g) ◦ f ) = A = dom(g ◦ f ) = dom(h ◦ (g ◦ f ))
und für jedes x ∈ A gilt
(h ◦ g) ◦ f (x) = h ◦ g(f (x)) = h(g(f (x))) = h(g ◦ f (x)) = h ◦ (g ◦ f )(x).
Aus dem Assoziativgesetz folgt, dass man auch beliebig lange Ketten von Hintereinanderausführungen beliebig umklammern kann ohne die Gesamtfunktion zu ändern, d.h.
man kann die Klammern auch einfach weglassen, da sie sowieso keinen Einfluss auf das
Ergebnis haben. Als letztes Thema in diesem Kapitel steuern wir jetzt den Begriff einer
Umkehrfunktion an. Haben wir eine Funktion y = f (x), so soll die Umkehrfunktion zu
f umgekehrt aus dem Wert y das Argument x ermitteln. Das ist natürlich nicht immer
möglich. Was immer möglich ist, ist die Bildung der sogenannten Urbildmengen unter
einer Funktion.
27
Mathematik für Physiker I, WS 2010/2011
Freitag 05.11.2010
Definition 3.4: Seien f : M → N eine Funktion und B ⊆ N eine Teilmenge. Dann
heißt die Menge
f −1 (B) := {x ∈ M |f (x) ∈ B}
das Urbild von B unter f .
Beachte das hierdurch keine Funktion f −1 : N → M definiert wird, anstelle dessen
wird jeder Teilmenge von N eine Teilmenge von M zugeordnet. Für y ∈ N schreibt
man oft
f −1 (y) := f −1 ({y}) = {x ∈ M |f (x) ∈ {y}} = {x ∈ M |f (x) = y},
aber dies ordnet y eben kein Element von M zu, ist also keine Umkehrfunktion. Wir
besprechen zwei kleine Beispiele. Zunächst betrachte die Funktion
f : R → R; x 7→ x2 ,
und wir wollen einige Urbildmengen berechnen. Es sind
f −1 (1) = {x ∈ R|x2 = 1} = {−1, 1},
f −1 (0) = {x ∈ R|x2 = 0} = {0},
f −1 (−1) = {x ∈ R|x2 = −1} = ∅.
Als Urbilder einzelner Elemente können also einelementige, zweielementige und die leere
Teilmenge von R vorkommen. Als ein zweites Beispiel betrachten wir die Sinusfunktion
sin : R → R.
Dann ist beispielsweise
sin−1 (0) = {x ∈ R| sin x = 0} = {0, ±π, ±2π, ±3π, . . .} = {nπ|n ∈ Z},
wobei wir für die Argumente der trigonometrischen Funktionen wie immer das Bogenmaß verwenden. Ein etwa komplizierteres Beispiel ist das Urbild
sin−1 (R≥0 ) = {x ∈ R| sin x ≥ 0} = [0, π] ∪ [2π, 3π] ∪ [−2π, −π] ∪ · · · ,
für das Sie sich am besten einmal den Sinus hinmalen. Dabei steht [0, π] = {x ∈ R|0 ≤
x ≤ π} für die Menge aller reellen Zahlen zwischen Null und π, und entsprechend sind
die Mengen [2π, 3π] und [−2π, −π] zu interpretieren.
Wie schon bemerkt ist unser momentanes Ziel die Behandlung der Umkehrfunktionen. Die Funktion f : M → N hat eine Umkehrfunktion wenn die Urbildmengen f −1 (y)
für jedes y ∈ N einelementig sind, oder äquivalent wenn jede Gleichung f (x) = y mit
y ∈ N eine eindeutige Lösung x ∈ M hat. Es stellt sich als sinnvoll heraus neben dieser
Eigenschaft auch noch diejenigen Funktionen zu betrachten, für die f (x) = y für jedes
y ∈ N mindestens eine, beziehungsweise höchstens eine, Lösung hat.
Definition 3.5 (Injektive und surjektive Funktionen)
Sei f : M → N eine Funktion. Dann heißt die Funktion f
28
Mathematik für Physiker I, WS 2010/2011
Freitag 05.11.2010
(a) injektiv wenn es für jedes y ∈ N höchstens ein x ∈ M mit f (x) = y gibt.
(b) surjektiv wenn es für jedes y ∈ N stets ein x ∈ M mit f (x) = y gibt.
(c) bijektiv wenn f injektiv und surjektiv ist, d.h. für jedes y ∈ N gibt es genau ein
x ∈ M mit f (x) = y.
In (b) ist mit ein“ dabei mindestens ein“ gemeint, dies ist die in der Mathematik
”
”
übliche Konvention das man sich bei solchen Zahlangaben immer implizit ein min”
destens“ dazu denken muss. Andernfalls würde man von genau einem“ sprechen. Die
”
Injektivitätsbedingung läßt sich noch auf verschiedene Arten umformulieren, beispielsweise
f : M → N injektiv ⇐⇒ ∀(x1 , x2 ∈ M ) : f (x1 ) = f (x2 ) ⇒ x1 = x2 .
In der Tat, dass f (x) = y für jedes y ∈ N höchstens eine Lösung x ∈ M hat, bedeutet
das je zwei Lösungen von f (x) = y gleich sind, d.h. für jedes y ∈ N und alle x1 , x2 ∈ M
mit f (x1 ) = f (x2 ) = y ist x1 = x2 . Dass dies für jedes y ∈ N so ist, ist dann
gerade die Gültigkeit der obigen Aussage. Manchmal ist es bequemer die gleichwertige
Formulierung
f : M → N injektiv ⇐⇒ ∀(x1 , x2 ∈ M ) : x1 6= x2 ⇒ f (x1 ) 6= f (x2 )
zu verwenden. Wir kommen zu ein paar Beispielen.
1. Sei
f : R → R; x 7→ x2 .
Diese Funktion ist nicht surjektiv, denn für jedes x ∈ R ist f (x) = x2 ≥ 0,
also insbesondere f (x) 6= −1. Damit hat die Gleichung f (x) = −1 keine Lösung
x ∈ R und f ist nicht surjektiv. Außerdem ist f auch nicht injektiv, denn es ist
beispielsweise
f (−1) = (−1)2 = 1 = 12 = f (1).
2. Nun betrachten wir die ähnliche Situation
f : R → R≥0 ; x 7→ x2 ,
und diesmal ist f surjektiv. Denn ist y ∈ R≥0 , also y ∈ R mit y ≥ 0, so haben wir
√
eine Wurzel x := y mit f (x) = x2 = y. Allerdings ist f weiterhin nicht injektiv.
3. Nun sei
f : R≥0 → R; x 7→ x2 ,
d.h. diesmal betrachten wir nur nichtnegative Argumente. Wie im ersten Beispiel
ist f dann nicht surjektiv. Diesmal ist f aber injektiv. Seien nämlich x1 , x2 ∈ R≥0
mit f (x1 ) = f (x2 ) gegeben, also x21 = x22 . Dann ist x2 = ±x1 und wegen x1 , x2 ≥ 0
muss sogar x1 = x2 sein.
29
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
4. Schließlich sei
f : R≥0 → R≥0 ; x 7→ x2 .
Genau wie im zweiten und dritten Beispiel folgt dann das f surjektiv und injektiv
ist, also insgesamt bijektiv ist.
Diese vier Beispiele zeigen uns zum einen das es für Surjektivität und Injektivität ganz
entscheidend auf den Definitionsbereich und die Zielmenge einer Funktion ankommt.
Außerdem liefern sie uns Beispiele für weder injektive noch surjektive, für injektive
aber nicht surjektive, für surjektive aber nicht injektive und für surjektive und injektive
Funktionen.
Wir behandeln noch ein allerletztes Beispiel, nämlich die Funktion
f : R\{−1} → R\{1}; x 7→
x−1
.
x+1
Beachte das für x ∈ R mit x 6= −1 stets x − 1 6= x + 1 also f (x) 6= 1 ist, es handelt sich
also wirklich um eine Abbildung zwischen den angegebenen Mengen. Wir wollen uns
überlegen ob f surjektiv, injektiv oder gar bijektiv ist. Bei solchen durch Formeln gegebene Funktionen kann man dies oft durch direkte Rechnung entscheiden. Wir müssen
y ∈ R mit y 6= 1 betrachten und uns das Lösungsverhalten der Gleichung
y = f (x) =
x−1
x+1
für x ∈ R\{−1} anschauen. Es ist
y=
x−1
⇐⇒ xy + y = x − 1 ⇐⇒ x(y − 1) = −y − 1 = −(y + 1),
x+1
und wegen y 6= 1 hat diese Gleichung die eindeutige Lösung
x=
1+y
1−y
wobei wegen y + 1 6= y − 1 auch (1 + y)/(1 − y) 6= −1 ist. Damit hat unsere Gleichung
eine eindeutige Lösung x ∈ R\{−1} und die Funktion f ist somit bijektiv.
Vorlesung 5, Montag 08.11.2010
In der letzten Sitzung hatten wir injektive, surjektive und bijektive Funktionen definiert, und zwar war eine Funktion f : M → N

 injektiv, wenn f (x) = y für jedes y ∈ N höchstens eine Lösung x ∈ M hat,
surjektiv, wenn f (x) = y für jedes y ∈ N mindestens eine Lösung x ∈ M hat,

bijektiv, wenn f (x) = y für jedes y ∈ N genau eine Lösung x ∈ M hat.
30
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
Äquivalent konnte man sagen das die Funktion f genau dann bijektiv ist wenn sie
surjektiv und injektiv ist. Auch die Injektivität einer Funktion f : M → N hatte
verschiedene gleichwertige Umformulierungen
f ist injektiv ⇐⇒ ∀(x, y ∈ M ) : x 6= y ⇒ f (x) 6= f (y)
⇐⇒ ∀(x, y ∈ M )f (x) = f (y) ⇒ x = y.
Um diese Begriffe etwas einzuüben wollen wir jetzt ein grundlegendes Lemma über sie
beweisen.
Lemma 3.2 (Grundeigenschaften von Injektivität und Surjektivität)
Seien f : A → B und g : B → C zwei Funktionen.
(a) Sind f und g injektiv, so ist auch g ◦ f injektiv.
(b) Ist g ◦ f injektiv, so ist auch f injektiv.
(c) Sind f und g surjektiv, so ist auch g ◦ f surjektiv.
(d) Ist g ◦ f surjektiv, so ist auch g surjektiv.
Beweis: (a) Seien x, y ∈ A mit x 6= y. Da f injektiv ist, ist dann f (x) 6= f (y) und da
auch g injektiv ist, haben wir (g ◦ f )(x) = g(f (x)) 6= g(f (y)) = (g ◦ f )(y). Somit ist
auch g ◦ f injektiv.
(b) Seien x, y ∈ A mit x 6= y. Dann g(f (x)) = (g ◦ f )(x) 6= (g ◦ f )(y) = g(f (y)) und
insbesondere muss f (x) 6= f (y) sein. Damit ist f injektiv.
(c) Sei z ∈ C. Da g surjektiv ist, existiert ein y ∈ B mit z = g(y). Da weiter auch
f surjektiv ist, existiert auch ein x ∈ A mit y = f (x) und wir haben (g ◦ f )(x) =
g(f (x)) = g(y) = z. Damit ist g ◦ f surjektiv.
(d) Sei z ∈ C. Da g ◦f surjektiv ist, existiert ein x ∈ A mit (g ◦f )(x) = z. Damit haben
wir das Element f (x) ∈ B mit g(f (x)) = (g ◦ f )(x) = z. Somit ist auch g surjektiv.
Wie schon früher angekündigt wollen wir den Begriff der Umkehrfunktion einer Funktion untersuchen. Ist f : M → N eine Funktion, so soll die Umkehrfunktion von f
bei gegebenen Wert y = f (x) ∈ N aus y das Argument x rekonstruieren, es ist also
die Gleichung f (x) = y nach x aufzulösen. Dass dies überhaupt möglich ist, bedeutet
das es für jedes y ∈ N auch genau eine Lösung x ∈ M von f (x) = y gibt, das also
die Funktion f bijektiv ist. In diesem Fall können wir die Lösung x von f (x) = y als
Funktion von y auffassen, und erhalten
Definition 3.6 (Umkehrfunktionen)
Seien M, N zwei Mengen und f : M → N eine bijektive Abbildung. Dann gibt es für
jedes y ∈ N genau ein Element f −1 (y) ∈ M mit f (f −1 (y)) = y, und wir nennen
f −1 : N → M ; y 7→ f −1 (y)
31
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
die Umkehrfunktion von f . Explizit ist dabei
f −1 = {(y, x)|(x, y) ∈ f }.
Letztere Formel kann man dann auch so interpretieren das die Umkehrfunktion f −1
aus f durch Spiegeln an der Diagonalen“ entsteht. Das Wort Spiegeln“ muss man
”
”
hierzu allerdings recht großzügig auslegen, um eine wirkliche geometrische Spiegelung
handelt es sich nur im Fall M, N ⊆ R, im allgemeinen Fall muss man sich halt das
Vertauschen der beiden Komponenten eines Paares als Spiegelung denken. Wir wollen
nun ein paar einfache Beispiele besprechen, bei denen wir keine wirklichen Rechnungen
durchführen müssen.
1. Wie schon früher in einem Beispiel bemerkt ist die Funktion
f : R≥0 → R≥0 ; x 7→ x2
bijektiv. Zum Bestimmen der Umkehrfunktion muss die Gleichung y = f (x) =
√
x2 gelöst werden, und dies geschieht durch x = y. Die Umkehrfunktion des
Quadrierens auf R≥0 ist also die Wurzelfunktion.
2
2
1.8
1.8
1.6
1.6
1.4
1.4
1.2
y
1.2
y
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x
0
0.2
0.4
0.6
0.8
1
1.2
x
√
f −1 (x) =
f (x) = x2
1.4
1.6
1.8
2
x
2. Als nächtes wollen wir den Sinus betrachten, nur ist dieser leider weder injektiv
noch surjektiv. Dabei können wir die Surjektivität leicht erreichen indem wir die
Menge N = [−1, 1] = {x ∈ R| − 1 ≤ x ≤ 1} als Zielmenge verwenden. Um den
Sinus auch injektiv zu machen schauen wir uns nur Argumente x zwischen −π/2
und π/2 an. Wie schon früher einmal bemerkt, geben wir die Argumente der
trigonometrischen Funktionen immer im Bogenmaß an. Dann ist die Funktion
h π πi
sin : − ,
→ [−1, 1]; x 7→ sin x
2 2
32
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
bijektiv, und ihre Umkehrfunktion
h π πi
arcsin : [−1, 1] → − ,
2 2
wird als der Arcus Sinus bezeichnet.
1.5
1.5
1
1
y
y
0.5
–1.5
–1
0.5
0
–0.5
0.5
1
1.5
–1.5
–1
0
–0.5
0.5
x
1
1.5
x
–0.5
–0.5
–1
–1
–1.5
–1.5
f (x) = sin x
f
−1
(x) = arcsin x
3. Beim Cosinus sind die Verhältnisse weitgehend analog, nur müssen wir eine andere Menge als Definitionsbereich verwenden, zwischen −π/2 und π/2 ist der
Cosinus nicht inkjektiv. Die übliche Wahl ist die Menge der Winkel zwischen 0
und π, d.h. wir betrachten die bijektive Funktion
cos : [0, π] → [−1, 1]; x 7→ cos x
und ihre Umkehrfunktion
arccos : [−1, 1] → [0, π]
wird als der Arcus Cosinus bezeichnet.
3
3
2
2
y
y
1
–3
–2
–1
0
1
1
2
3
–3
–2
–1
0
x
1
2
x
–1
–1
–2
–2
–3
–3
f (x) = cos x
f
33
−1
(x) = arccos x
3
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
4. Als letztes nehmen wir den Tangens. Dieser als Abbildung nach R surjektiv,
und betrachten wir ihn nur zwischen −π/2 und π/2 so ist er auch injektiv. Wir
nehmen also die bijektive Funktion
π π
h π πi n π πo
:= − ,
\ − ,
→ R; x 7→ tan x
tan : − ,
2 2
2 2
2 2
und ihre Umkehrfunktion
π π
arctan : R → − ,
2 2
heißt der Arcus Tangens.
1.5
1.5
1
1
y
y
0.5
–1.5
–1
–0.5
0
0.5
0.5
1
1.5
–1.5
–1
–0.5
0
0.5
x
1
1.5
x
–0.5
–0.5
–1
–1
–1.5
–1.5
f (x) = tan x
f
−1
(x) = arctan x
Wir kehren jetzt zu unseren theoretischen Überlegungen zurück. Die Umkehrfunktion
einer bijektiven Funktion f : M → N ist wieder bijektiv mit
(f −1 )−1 = {(x, y)|(y, x) ∈ f −1 } = {(x, y)|(x, y) ∈ f } = f.
Die definierende Eigenschaft der Umkehrfunktion einer Funktion f : M → N war die
Gleichung f (f −1 (y)) = y für alle y ∈ N und diese kann man auch als
f ◦ f −1 = idN
lesen, wobei idN die sogenannte identische Funktion auf N ist, d.h.
idN : N → N ; y 7→ y.
Die identische Funktion auf einer Menge ist also die Funktion, die mit den Elementen
der Menge überhaupt nichts macht. Diese Funktion taucht überraschend häufig auf,
und erhält daher auch ihr eigenes Symbol. Ist jetzt wieder x ∈ M , so ist f −1 (f (x)) ∈ M
dasjenige Element u von M mit f (u) = f (x), also u = x und dies bedeutet f −1 (f (x)) =
x. Somit haben wir auch
f −1 ◦ f = idM .
34
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
Wir wollen diese Überlegungen jetzt zu einem Lemma über eine alternative Kennzeichnung der Umkehrfunktion ausbauen. Um den Nutzen des folgenden Lemmas zu
rechtfertigen, machen wir uns erst einmal klar was zu tun ist, um die Umkehrfunktion
f : M → N zu behandeln. Im ersten Schritt muss man sich überlegen, dass es überhaupt eine Umkehrfunktion gibt, d.h. man muss zeigen, dass die Funktion f bijektiv,
also sowohl injektiv als auch surjektiv, ist. Ist dies erledigt, so gibt es überhaupt eine
Umkehrfunktion und diese können wir durch Auflösen der Gleichung f (x) = y nach
x ermitteln. Hier gibt es oft eine gewisse Überlappung, die Rechnungen zum Auflösen
von y = f (x) sind häufig genau dieselben die schon zum Nachweis von Surjektiv und
Injektiv verwendet wurden.
Das folgende Lemma stellt jetzt ein alternatives Vorgehen bereit. Angenommen wir
haben schon einen Kandidaten h : N → M für die Umkehrfunktion. Wie man auf solch
einen Kandidaten kommt, hängt an der speziellen Situation, man kann beispielsweise
f (x) = y zumindest teilweise lösen oder oft kann man auch einfach geschickt raten.
Haben wir den Kandidaten h so reicht es f (h(y)) = y für alle y ∈ N und h(f (x)) = x
für alle x ∈ M nachzurechnen. Ist dies getan, so folgt sowohl das f bijektiv ist als auch
das h die Umkehrfunktion von f ist.
Lemma 3.3 (Kennzeichnung der Umkehrfunktion)
Seien M, N zwei Mengen und f : M → N eine Funktion. Dann ist f genau dann
bijektiv, wenn es eine Funktion g : N → M mit g ◦ f = idM und f ◦ g = idN gibt. In
diesem Fall ist g = f −1 .
Beweis: ”=⇒” Dass f ◦ f −1 = idN und f −1 ◦ f = idM gelten, haben wir bereits oben
eingesehen.
”⇐=” Sei g : N → M eine Funktion mit g ◦ f = idM und f ◦ g = idN . Wir zeigen
zunächst das f injektiv ist. Seien also x1 , x2 ∈ M mit f (x1 ) = f (x2 ) gegeben. Dann
folgt
x1 = idM (x1 ) = (g ◦ f )(x1 ) = g(f (x1 )) = g(f (x2 )) = (g ◦ f )(x2 ) = idM (x2 ) = x2 .
Damit ist f zumindest injektiv. Sei jetzt y ∈ N . Dann haben wir das Element g(y) ∈ M
mit f (g(y)) = (f ◦ g)(y) = idN (y) = y. Dies zeigt zum einen, dass f surjektiv, und
damit sogar bijektiv, ist, und zum anderen das f −1 (y) = g(y) für jedes y ∈ N gilt, es
ist also g = f −1 .
Wir wollen das Lemma einmal anwenden um eine Formel für die Umkehrfunktion einer
Hintereinanderausführung zu beweisen.
Lemma 3.4 (Hintereinanderausführungen bijektiver Funktionen)
Seien f : A → B und g : B → C zwei bijektive Funktionen. Dann ist auch g◦f : A → C
bijektiv und es gilt
(g ◦ f )−1 = f −1 ◦ g −1 .
35
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
Beweis: Wir betrachten die Abbildung h := f −1 ◦ g −1 : C → A. Mit dem Assoziativgesetz der Hintereinanderausführung Lemma 1 ergibt sich
(g ◦ f ) ◦ h = g ◦ (f ◦ h) = g ◦ (f ◦ (f −1 ◦ g −1 )) = g ◦ ((f ◦ f −1 ) ◦ g −1 )
= g ◦ (idB ◦ g −1 ) = g ◦ g −1 = idC ,
und analog folgt auch h ◦ (g ◦ f ) = idA . Nach Lemma 3 ist g ◦ f bijektiv mit (g ◦ f )−1 =
h = f −1 ◦ g −1 .
Das g ◦ f bijektiv ist, folgt natürlich auch aus Lemma 2, wir wollten hier aber einen
davon unabhängigen Beweis vorführen.
$Id: reell.tex,v 1.13 2011/08/17 17:16:13 hk Exp $
§4
Die reellen Zahlen
In den bisherigen drei Kapiteln haben wir einige mathematische und logische Grundbegriffe eingeführt, beispielsweise Mengen, Aussagen, Quantoren und so weiter, einige mathematische Objekte definiert, beispielsweise konnten wir den Funktionsbegriff
vollständig auf den Begriff der Menge zurückführen, und wir haben auch schon einige Aussagen über unsere mathematischen Begriffe festgehalten. Wie schon bemerkt
sind mathematische Definitionen letztlich immer nur Abkürzungen und genau aus diesem Grund kann man Dinge über sie beweisen. Über die Grundbegriffe kann man
streng genommen zunächst nichts beweisen. Daher werden einige Aussagen über die
Grundbegriffe von vornherein als wahr angenommen, und derartige Aussagen deren
Wahrheit als Grundannahme der Mathematik vorausgesetzt wird, sind die sogenannten Axiome. Zusätzlich benötigt man je nach gewählten Aufbau der mathematischen
Theorie auch noch Axiome über definierte Begriffe. Manchmal ergeben“ sich die Axio”
me für einen Grundbegriff aus seiner beschreibenden Erklärung. Wir haben beispielsweise schon mehrfach verwendet das zwei Mengen genau dann gleich sind wenn sie
dieselben Elemente haben. Schauen wir uns noch einmal die Cantorsche Definition“
”
einer Menge zu Beginn von §1 an, so erscheint die Aussage über Mengengleichheit als
Selbstverständlichkeit, daher haben wir sie ja auch einfach ohne weitere Skrupel benutzt. Streng genommen handelt es sich hier um eines der Axiome der Mengenlehre,
das sogenannte Extensionalitätsaxiom. Wir wollen die üblichen Axiome der Mengenlehre hier nicht weiter diskutieren, da dies für Anfänger eher verwirrend als hilfreich
ist.
Genau wie die Wahl der Grundbegriffe letzten Endes willkürlich ist, ist es auch recht
beliebig welche Axiome man verwendet. Es gibt eine übliche minimale Wahl, also ein
36
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
Axiomensystem das versucht mit möglichst wenig Axiomen und Grundbegriffen auszukommen. Dieses System werden wir aber nicht benutzen, da wir dann zum Anfang
beispielsweise nicht einmal wüssten was 2 + 3 sein soll, tatsächlich wären noch nicht
einmal 2 und 3 selbst definiert. Wir wählen ein reichhaltiger ausgestattetes Axiomensystem als unseren Startpunkt. Die folgenden Grundbegriffe und Axiome seien gegeben:
1. Der Mengenbegriff als einer der Grundbegriffe. Die Axiome für Mengen wollen
wir wie gesagt nicht hinschreiben, wir sehen einfach alles was wir nicht beweisen
können das aber plausibel klingt als Axiom an. Dieser Standpunkt wird manchmal
etwas euphemistisch als naive Mengenlehre“ bezeichnet.
”
2. Weiter denken wir uns die reellen Zahlen R und ihre Arithmetik als gegeben und
bekannt. Was damit genau gemeint ist, also was die Axiome für reelle Zahlen
sind, werden wir in diesem Kapitel noch näher besprechen.
3. Schließlich nehmen wir noch die übliche elementare Geometrie“ als bekannt
”
an, wir gehen also davon aus das wir wissen was Winkel, Flächen, Volumina, π
und die trigonometrischen Funktionen sind. Dies ist eigentlich überflüssig und
streng genommen auch keine besonders gute Idee, es erlaubt uns aber schon früh
vernünftige Beispiele zu haben, und auch die Einführung der komplexen Zahlen
läßt sich dann auch gleich etwas reichhaltiger durchführen. Hierfür werden wir
später einen Preis bezahlen müssen, aber dazu kommen wir wenn es soweit ist.
4.1
Die Arithmetik der reellen Zahlen
Wie gesagt denken wir uns die Menge R der reellen Zahlen als einen vorhandenen
Grundbegriff. Außerdem sollen die Grundrechenarten gegeben seien. Dies meint das
wir zwei Abbildungen
+ : R × R → R und · : R × R → R
mit noch zu spezifizierenden Eigenschaften als gegeben annehmen. Dass hier Subtraktion und Division fehlen ist beabsichtigt, diese zählen wir nicht zu den vorgegebenen Grundoperationen sondern wir werden sie definieren. Die Axiome für Addition
und Multiplikation werden als die sogenannten Körperaxiome bezeichnet, das Wort
Körper“ hat hier aber nichts mit irgendwelchen geometrischen Objekten zu tun. Wir
”
listen die Körperaxiome jetzt auf:
Die Körperaxiome:
(A1) Das Assoziativgesetz der Addition: Für alle x, y, z ∈ R gilt
(x + y) + z = x + (y + z).
(A2) Das Kommutativgesetz der Addition: Für alle x, y ∈ R gilt
x + y = y + x.
37
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
(A3) Es gibt ein Element 0 ∈ R mit 0 + x = x für alle x ∈ R.
(A4) Für jedes x ∈ R gibt es ein Element −x ∈ R mit (−x) + x = 0.
(M1) Das Assoziativgesetz der Multiplikation: Für alle x, y, z ∈ R gilt
(x · y) · z = x · (y · z).
(M2) Das Kommutativgesetz der Multiplikation: Für alle x, y ∈ R gilt
x · y = y · x.
(M3) Es gibt ein Element 1 ∈ R mit 1 6= 0 und 1 · x = x für alle x ∈ R.
(M4) Für jedes x ∈ R mit x 6= 0 existiert ein x−1 ∈ R mit x−1 · x = 1.
(D) Das Distributivgesetz: Für alle x, y, z ∈ R gilt
x · (y + z) = x · y + x · z.
Im Distributivgesetz, und natürlich auch sonst, verwenden wir hier die übliche Konvention Punkt vor Strich“. Diese ist allerdings kein Axiom, ja nicht einmal eine mathe”
matische Aussage, sondern nur eine Frage der Notation. Auch Multiplikationszeichen
werden wir im Folgenden meist weglassen. Im Axiom (M3) ist es übrigens wirklich
notwendig 1 6= 0 zu fordern, lassen wir diese Bedingung weg, so könnte Null die einzige
reelle Zahl sein. Aus den Körperaxiomen kann man alle arithmetischen Rechenregeln
folgern. Diese Tatsache wollen wir hier nicht systematisch an allen möglichen Regeln
durchgehen, sondern wir werden hier nur exemplarisch einige ausgewählten Regeln
vorführen.
1. Das Element 0 in Axiom (A3) ist eindeutig festgelegt. Ist nämlich auch 00 ∈ R
mit 00 + x = x für alle x ∈ R, so folgt
0 = 00 + 0 = 0 + 00 = 00 .
2. Für jedes x ∈ R ist das Element −x ∈ R in Axiom (A4) eindeutig festgelegt. Ist
nämlich y ∈ R ebenfalls mit y + x = 0, so folgt
y = 0 + y = y + 0 = y + ((−x) + x) = y + (x + (−x)) = (y + x) + (−x)
= 0 + (−x) = −x.
3. Während wir bisher jede Anwendung von Kommutativ- und Assoziativgesetz
gewissenhaft mit aufgeschrieben haben, wollen wir diese Zwischenschritte ab jetzt
fortlassen. Für alle x, y ∈ R ist −(x + y) = (−x) + (−y). Wir haben nämlich
((−x) + (−y)) + (x + y) = (−x) + (−y) + y + x = (−x) + 0 + x = (−x) + x = 0,
und mit der in Schritt 2 bewiesenen Eindeutigkeitsaussage folgt
(−x) + (−y) = −(x + y).
38
Mathematik für Physiker I, WS 2010/2011
Montag 08.11.2010
4. Für alle x ∈ R ist 0 · x = 0, denn wir haben
0 · x = (0 + 0) · x = 0 · x + 0 · x,
und somit auch
0 · x = (−0 · x) + 0 · x + 0 · x = (−0 · x) + 0 · x = 0.
5. Sind x, y ∈ R mit x · y = 0, so ist x = 0 oder y = 0. Hierzu müssen wir zwei Fälle
unterscheiden.
Fall 1. Ist x = 0, so sind wir bereits fertig.
Fall 2. Nun nehme x 6= 0 an. Mit Schritt (4) folgt dann
0 = x−1 · 0 = x−1 · (xy) = (x−1 x)y = 1 · y = y.
6. Die Regeln (1,2,3) gelten analog, und mit denselben Beweisen, auch für die Multiplikation, d.h. das Element 1 ∈ R in Axiom (M3) ist eindeutig bestimmt, für
jedes 0 6= x ∈ R ist das Element x−1 ∈ R in Axiom (M4) eindeutig bestimmt und
für alle x, y ∈ R\{0} ist
(xy)−1 = x−1 y −1 .
Beachte dabei das nach (5) überhaupt xy 6= 0 gilt.
Dies soll an Beispielen erst einmal reichen. Wie schon bemerkt sind Subtraktion und
Division keine eigenständigen Rechenoperationen, sondern sie können in Termen von
Addition und Multiplikation definiert werden. Für x, y ∈ R definieren wir
x − y := x + (−y)
und für x, y ∈ R mit y 6= 0 sei
x
:= x · y −1 .
y
Als eine Übungsaufgabe werden Sie zeigen, dass dann die üblichen Bruchrechenregeln
gelten. Wie schon bemerkt ergeben sich aus den Körperaxiomen alle Rechenregeln für
die Grundrechenarten. Hiermit sind allerdings nur die Gleichheiten“ gemeint, also
”
Aussagen der Form · · · = · · · , bei Ungleichheiten sieht alles anders aus. Zum Beispiel
reichen die Körperaxiome nicht aus um 1 + 1 6= 0 zu beweisen, man kann mit ihnen
nicht einmal zeigen, dass es eine von Null und Eins verschiedene reelle Zahl gibt.
4.2
Die Anordnung der reellen Zahlen
Wir kommen zur nächsten Gruppe von Axiomen für die reellen Zahlen, diese beschäftigen sich nicht mehr nur mit Addition und Multiplikation sondern auch mit der KleinerGleich Beziehung zwischen reellen Zahlen. Neben der Addition und der Multiplikation
sei auf den reellen Zahlen noch eine Anordnung gegeben, d.h. für je zwei reelle Zahlen
39
Mathematik für Physiker I, WS 2010/2011
Freitag 12.11.10
x, y ist festgelegt ob x ≤ y gilt oder nicht. Diese Anordnung ist für uns ein Grundbegriff,
der die folgenden Axiome erfüllen soll:
Die Ordnungsaxiome:
(R) Das Reflexivitätsgesetz: Für jedes x ∈ R ist x ≤ x.
(T) Das Transitivitätsgesetz: Für alle x, y, z ∈ R gilt
x ≤ y ∧ y ≤ z =⇒ x ≤ z.
(S) Die Antisymmetrie: Für alle x, y ∈ R gilt
x ≤ y ∧ y ≤ x =⇒ x = y.
(V) Die Ordnung ist total, d.h. für alle x, y ∈ R ist stets x ≤ y oder y ≤ x.
Vorlesung 6, Freitag 12.11.10
Am Ende der letzten Sitzung hatten vier die vier Axiome für die Anordnung der
reellen Zahlen aufgelistet, diese waren
(R)
(A)
(T)
(V)
∀(x ∈ R) : x ≤ x
∀(x, y ∈ R) : x ≤ y ∧ y ≤ x ⇒ x = y
∀(x, y, z ∈ R) : x ≤ y ∧ y ≤ z ⇒ x ≤ z
∀(x, y ∈ R) : x ≤ y ∨ y ≤ x.
Die Transitivitätseigenschaft (T) wird dabei oft in der folgenden Form verwendet: Ist
a = x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn = b
eine Kette von Ungleichungen, so ist auch a ≤ b. Dies folgt schnell durch eine offensichtliche Induktion über die Länge n der Ungleichungskette. Eine weitere wichtige
Folgerung aus (T) und der Antisymmetrie (A) ist die folgende Aussage: Haben wir eine
Kette von Ungleichungen
a = x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn = a,
die bei einer reellen Zahl a ∈ R startet und endet, so sind überhaupt alle Elemente der
Kette gleich a, d.h. es ist x1 = · · · = xn = a. In der Tat, ist 1 ≤ i ≤ n gegeben, so
folgen aus
a = x1 ≤ · · · ≤ xi und xi ≤ xi+1 ≤ · · · ≤ xn = a
40
Mathematik für Physiker I, WS 2010/2011
Freitag 12.11.10
mit der obigen Transitivitätsaussage auch a ≤ xi und xi ≤ a, d.h. wir haben xi = a.
Neben der Kleiner-Gleich Relation definiert man die Echt-Kleiner Relation für x, y ∈ R
durch
x < y :⇐⇒ x ≤ y ∧ x 6= y.
Mit den vier Anordnungsaxiomen ergeben sich dann schnell entsprechende Aussagen für
Echt-Kleiner. Zunächst haben wir das sogenannte Trichotomieprinzip, dieses besagt das
für x, y ∈ R stets genau eine der drei Möglichkeiten x < y, y < x oder x = y gilt. Dies
folgt sofort aus den beiden Anordnungsaxiomen (A) und (V). Weiter hat man auch eine
erweiterte Transitivitätseigenschaft, die besagt das für alle x, y, z ∈ R mit x < y ≤ z
oder x ≤ y < z stets auch x < z gilt. In der Tat, nach dem Transitivitätsaxiom (T) ist
zumindest x ≤ z und wäre x = z, so hätten wir x = y = z im Widerspruch zu x 6= y
oder y 6= z. Hieraus folgt weiter, das im Fall einer Ungleichungskette
a = x1 ≤ · · · ≤ xi < xi+1 ≤ xi+2 ≤ · · · ≤ xn = b
in der mindestens ein Echt-Kleiner vorkommt, letztlich stets auch a < b gilt.
Letztlich kann man für x, y ∈ R dann auch noch die umgedrehten Ordnungssymbole
einführen, also
x ≥ y :⇐⇒ y ≤ x und x > y :⇐⇒ y < x.
Die Anordnung kann man dann zur Definition der sogenannten beschränkten Intervalle
verwenden:
Definition 4.1: Seien a, b ∈ R. Dann heißt die Menge
[a, b]
(a, b)
[a, b)
(a, b]
:=
:=
:=
:=
{x ∈ R|a ≤ x ≤ b}
{x ∈ R|a < x < b}
{x ∈ R|a ≤ x < b}
{x ∈ R|a < x ≤ b}
ein
ein
ein
ein
beschränktes,
beschränktes,
beschränktes,
beschränktes,
abgeschlossenes Intervall,
offenes Intervall,
rechts halboffenes Intervall,
links halboffenes Intervall.
Später in diesem Kapitel werden wir auch noch die unbeschränkten Intervalle definieren. Offene und abgeschlossene beschränkte Intervalle hatten wir dabei schon früher
in einigen Beispielen verwendet. Beachte das wie formal auch zulassen das linke und
rechte Grenze falsch herum sind, dann ist das entsprechende Intervall die leere Menge,
zum Beispiel [2, 1] = ∅ oder (1, 1) = ∅. Weiter ist für jedes a ∈ R auch [a, a] = {a}.
In der Literatur finden sie gelegentlich auch alternative Schreibweisen für die offenen
beziehungsweise halboffenen Intervalle, die Übersetzungstabelle ist
Standardschreibweise Alternative Schreibweise
(a, b)
]a, b[
[a, b)
[a, b[
(a, b]
]a, b]
ob der Randpunkt zum Intervall gehören soll oder nicht wird also durch eine sich
richtig herum schließende eckige Klammer beziehungsweise durch eine sich falsch herum
schließende eckige Klammer angedeutet.
41
Mathematik für Physiker I, WS 2010/2011
Freitag 12.11.10
So weit haben wir nur die Anordnungsaxiome verwendet. In den reellen Zahlen sind
die arithmetische Struktur, also Plus und Mal, und die Anordnungsstruktur natürlich
nicht unabhängig voneinander, sondern es gibt viele Rechenregeln die den Zusammenhang zwischen den beiden beschreiben. Zum Beispiel ist genau dann x ≤ y wenn
−y ≤ −x ist, das Produkt negativer Zahlen ist positiv, und vieles mehr. Genau wie
bei den Rechenregeln für die Grundrechenarten, lassen sich all diese vielen Regeln auf
einige wenige Axiome zurückführen. Diese Axiome sind die sogenannten Axiome eines
angeordneten Körpers, sie umfassen zum einen die neun Körperaxiome dann die vier
Anordnungsaxiome und zusätzlich die folgenden beiden neuen Axiome:
Axiome eines angeordneten Körpers:
(O1) Für alle x, y, z ∈ R gilt
y ≤ z =⇒ x + y ≤ x + z.
(O2) Für alle x, y, z ∈ R gilt
x ≥ 0 ∧ y ≤ z =⇒ xy ≤ xz.
Wir definieren hier dabei nicht was ein angeordneter Körper“ ist, für uns ist die Be”
zeichnung Axiome eines angeordneten Körpers“ nur ein Name für die angegebene
”
Gruppe von Axiomen, genauso wie die Körperaxiome“ ein Name für die Gruppe der
”
neun arithmetischen Axiome ist. Aus den Axiomen eines angeordneten Körpers folgen alle üblichen Regeln für den Umgang mit der Kleiner-Gleich Relation. Wie für
die arithmetischen Regeln im letzten Abschnitt wollen wir dies nicht systematisch für
alle denkbaren Regeln vorführen, sondern es nur examplarisch an einigen Beispielen
demonstrieren.
1. Sind x, y, x0 , y 0 ∈ R mit x ≤ x0 und y ≤ y 0 , so ist auch x + y ≤ x0 + y 0 . Dies ergibt
sich durch zweimaliges Anwendung des Axioms (O1)
x + y ≤ x + y 0 = y 0 + x ≤ y 0 + x0 = x0 + y 0 ,
und anschließende Anwendung der Transitivität (T). Außerdem ist hier natürlich
noch die Kommutativität der Addition, also das Axiom (A2), verwendet worden,
aber die benutzten Körperaxiome wollen wir jetzt nicht mehr einzeln auflisten.
2. Sind x, y, z ∈ R mit y < z, so ist auch x + y < x + z. Denn nach Axiom (O1)
ist zumindest x + y ≤ x + z und wegen y 6= z ist auch x + y 6= x + z, also
x + y < x + z. Analog zum Beweis der obigen Aussage folgt weiter, dass für alle
x, y, x0 , y 0 ∈ R mit x < x0 und y ≤ y 0 beziehungsweise x ≤ x0 und y < y 0 stets
auch x + y < x0 + y 0 gilt.
42
Mathematik für Physiker I, WS 2010/2011
Freitag 12.11.10
3. Sind x, y ∈ R mit x ≤ y, so ist −y ≤ −x. Dies ergibt sich direkt aus Axiom (O1).
Addieren wir beide Seiten von x ≤ y mit −x, so wird
0 = (−x) + x ≤ (−x) + y,
und addieren wir dann auch noch −y, so ergibt sich
−y ≤ (−x) + y + (−y) = −x.
Weiter können wir auch auf −y ≤ −x die schon bewiesene Aussage anwenden
und erhalten
x = −(−x) ≤ −(−y) = y,
d.h. wir haben
∀(x, y ∈ R) : x ≤ y ⇐⇒ −y ≤ −x.
Ebenso ergibt sich auch
∀(x, y ∈ R) : x < y ⇐⇒ −y < −x.
4. Sind x, y, z ∈ R mit x < y und z > 0, so ist auch xz < yz. Denn nach Axiom
(O2) ist zumindest xz ≤ yz und wäre xz = yz, so hätten wir auch (x − y)z = 0
also x = y oder z = 0 im Widerspruch zu x 6= y und z 6= 0.
5. Sind x, y, z ∈ R mit x ≤ y und z ≤ 0, so ist yz ≤ xz. Denn zunächst ist nach
Schritt (3) auch −z ≥ 0 und Axiom (O2) ergibt −xz ≤ −yz, also yz ≤ xz wieder
nach (3). Ebenso folgt aus x < y und z < 0 dann auch yz < xz.
6. Für jedes x ∈ R ist x2 ≥ 0. Denn ist x ≥ 0, so folgt mit Axiom (O2) sofort
x2 = x · x ≥ 0 · x = 0 und ist x ≤ 0, so ergibt (5) auch x2 = x · x ≥ 0 · x = 0.
Insbesondere ist somit 1 = 12 > 0 und mit (3) auch −1 < 0.
Das soll an Beispielen für derartige Überlegungen wieder reichen. Wir führen in diesem
Abschnitt noch einen letzten wichtigen Begriff ein, den sogenannten Betrag einer reellen
Zahl. Dieser hat eine rein praktische Funktion, wir möchten eine bequeme Möglichkeit
haben davon zu sprechen, dass eine reelle Zahl x klein ist. Wir könnten beispielsweise
versuchen die Zahl x klein zu nennen wenn x ≤ 10−4 gilt. Dies erfüllt aber nicht ganz
den intendierten Zweck, den es ist ja zum Beispiel auch −400 ≤ 10−4 , aber −400 wollen
wir meist nicht als klein betrachten. Wir müssten unsere Bedingung also beispielsweise
in x ≤ 10−4 und x ≥ −10−4 umschreiben. Um diese zwei Bedingungen durch eine
einzige zu ersetzen, wird nun der erwähnte Betrag der reellen Zahl x eingeführt.
Definition 4.2 (Betrag und Vorzeichen reeller Zahlen)
Ist x ∈ R eine reelle Zahl, so heissen

(

x > 0,
1,
x,
x ≥ 0,
sign(x) := 0,
x = 0, das Vorzeichen und |x| := sign(x) · x =

−x, x ≤ 0

−1, x < 0
der Betrag von x.
43
Mathematik für Physiker I, WS 2010/2011
Beispielsweise sind |4| = 4, | − 2| = 2 und |0| = 0.
Als Funktion von x hat der Betrag die nebenstehende
Gestalt. In anderen Worten ist |x| der nichtnegative Wert
unter den beiden Zahlen x und −x. In unserem obigen
Beispiel können wir die beiden Bedingungen x ≤ 10−4
und x ≥ −10−4 dann durch die eine Bedingung |x| ≤
10−4 ersetzen, und allgemein ist für jedes a ∈ R mit a ≥ 0
Freitag 12.11.10
y
|x|
x
[−a, a] = {x ∈ R : |x| ≤ a} und (−a, a) = {x ∈ R : |x| < a}.
Der Betrag erfüllt eine ganze Reihe von Grundeigenschaften, die im folgenden Lemma
zusammengestellt sind.
Lemma 4.1 (Grundeigenschaften des reellen Betrags)
Für alle x, y, z ∈ R gelten:
(a) Es ist |x| = | − x| ≥ 0 und x2 = |x|2 .
(b) Es gilt x ≤ |x|.
(c) Es sind sign(xy) = sign(x) · sign(y) und |xy| = |x| · |y|.
(d) Es gilt die Dreiecksungleichung |x + y| ≤ |x| + |y|.
(e) Es ist |x − y| ≥ |x| − |y|.
(f ) Es ist |x| − |y| ≤ |x − y|.
Beweis: (a,b,c) Diese Aussagen sind direkt aus der Definition des Betrages klar.
(d) Es sind x ≤ |x|, y ≤ |y|, −x ≤ |x| und −y ≤ |y|, also auch
x + y ≤ |x| + |y| und − (x + y) = (−x) + (−y) ≤ |x| + |y|,
und da |x + y| eine der beiden Zahlen x + y oder −(x + y) ist, folgt |x + y| ≤ |x| + |y|.
(e) Mit Teil (d) rechnen wir
|x| = |(x − y) + y| ≤ |x − y| + |y|,
also |x − y| ≥ |x| − |y|.
(f ) Mit Teil (e) haben wir |x| − |y| ≤ |x − y| und (e), (a) zusammen ergeben auch
|y| − |x| ≤ |y − x| = | − (x − y)| = |x − y|. Da |x| −
|y| aber
eine der beiden Zahlen
|x| − |y| oder −(|x| − |y|) = |y| − |x| ist, folgt auch |x| − |y| ≤ |x − y|.
Warum Aussage (d) hier als Dreiecksungleichung bezeichnet wird, ist an dieser
Stelle nicht gut zu sehen. Wir werden dies aber bei der Betrachtung des Betrags einer
komplexen Zahl später noch klären.
44
Mathematik für Physiker I, WS 2010/2011
4.3
Freitag 12.11.10
Das Vollständigkeitsaxiom
In den letzten beiden Abschnitten haben wir jetzt insgesamt 15 Axiome an die reellen
Zahlen zusammengestellt. Aber auch all diese Axiome reichen noch nicht aus die reellen Zahlen vollständig zu beschreiben, es fehlt noch ein weiteres Axiom. Dies ist das
sogenannte Vollständigkeitsaxiom, und es bezieht sich ausschließlich auf die Ordnungsstruktur der reellen Zahlen und nicht auf die arithmetische Struktur. Wir benötigen
leider noch zwei vorbereitende Definitionen um das Vollständigkeitsaxiom überhaupt
aussprechen zu können.
Definition 4.3: Sei M ⊆ R eine Teilmenge.
(a) Eine reelle Zahl a ∈ R heißt obere Schranke von M wenn x ≤ a für alle x ∈ M
gilt.
(b) Die Menge M heißt nach oben beschränkt wenn es eine obere Schranke a ∈ R von
M gibt.
(c) Ein Element a ∈ M heißt maximales Element von M , oder ein Maximum von
M , wenn x ≤ a für alle x ∈ M ist, wenn a also eine obere Schranke von M
ist. Beachte das es nur ein einziges maximales Element von M geben kann, denn
ist b ∈ M ein weiteres so haben wir b ≤ a und a ≤ b, also a = b. Gibt es ein
maximales Element a ∈ M von M , so können wir damit max M := a schreiben.
(d) Eine reelle Zahl a ∈ R heißt untere Schranke von M wenn x ≥ a für alle x ∈ M
gilt.
(e) Die Menge M heißt nach unten beschränkt wenn es eine untere Schranke a ∈ R
von M gibt.
(f ) Ein Element a ∈ M heißt minimales Element von M , oder ein Minimum von M
wenn x ≥ a für alle x ∈ M ist, wenn a also eine untere Schranke von M ist.
Genau wie für maximale Elemente kann es höchstens ein minimales Element a
von M geben, und in diesem Fall schreiben wir min M := a.
(g) Die Menge M heißt beschränkt, wenn sie nach oben und nach unten beschränkt
ist.
Die Terminologie dieser Definition wird am klarsten wenn wir uns die reellen Zahlen wie
unten gezeigt als eine vertikal hingemalte Linie denken, wobei es unten nach −∞ und
oben nach ∞ geht. Eine obere Schranke einer Teilmenge M ⊆ R ist dann tatsächlich
eine reelle Zahl, die eben oberhalb von M liegt. Beachte das obere Schranken bei weitem
nicht eindeutig festgelegt sind, ist a eine obere Schranke von M , so ist auch jede andere
reelle Zahl b ∈ R mit b ≥ a ebenfalls eine obere Schranke von M .
45
Mathematik für Physiker I, WS 2010/2011
Eine nach oben beschränkte Menge muss im allgemeinen kein Maximum besitzen, anschaulich haben wir zwar
immer ein Element unmittelbar oberhalb M“, aber die”
se Zahl gehört eventuell nicht zu M . Beispielsweise sind
max[0, 1] = 1 und min[0, 1] = 0
aber das offene Intervall M = (0, 1) hat weder ein Maximum noch ein Minimum, da eben 0 und 1 hier nicht zu
M gehören. Für die Beschränktheit einer Menge M ⊆ R
gibt es eine oftmals nützliche Umformulierung in Termen
des Betrags reeller Zahlen
Freitag 12.11.10
+∞
a (obere Schranke)
sup M
M
−∞
M ⊆ R ist beschränkt ⇐⇒ Es gibt c ∈ R mit c ≥ 0 und |x| ≤ c für alle x ∈ M .
Gibt es nämlich ein c ∈ R mit c ≥ 0 und |x| ≤ c für alle x ∈ M , so ist auch −c ≤ x ≤ c
für alle x ∈ M , d.h. −c ist eine untere und c ist eine obere Schranke von M . Damit ist
M nach oben und unten beschränkt, also insgesamt beschränkt. Nun sei M umgekehrt
beschränkt. Dann gibt es sowohl eine untere Schranke a von M als auch eine obere
Schranke b von M , und wir setzen c := max{|a|, |b|} ≥ 0. Für jedes x ∈ M haben wir
dann x ≤ b ≤ |b| ≤ c und x ≥ a, also auch −x ≤ −a ≤ |a| ≤ c, und dies bedeutet
|x| ≤ c.
Wie schon bemerkt muss eine nach oben beschränkte Menge keinesfalls ein Maximum haben. Aber selbst wenn eine nach oben beschränkte Menge M ⊆ R kein
Maximum besitzt. so gibt es trotzdem ein Zahl gerade oberhalb von M“, diese ist so”
zusagen die bestmögliche obere Schranke von M . Explizit gesagt handelt es sich gerade
um die kleinstmögliche obere Schranke von M , und diese wird auch als das Supremum
der Menge M bezeichnet.
Definition 4.4 (Supremum und Infimum)
Sei M ⊆ R eine Teilmenge. Dann heißt eine reelle Zahl a ∈ R ein Supremum von M
wenn a eine kleinste obere Schranke von M ist, d.h. a ist eine obere Schranke von M
und für jede andere obere Schranke b ∈ R von M gilt stets a ≤ b. Analog heißt eine
reelle Zahl a ∈ R ein Infimum von M wenn a eine größte untere Schranke von M ist,
d.h. a ist eine untere Schranke von M und für jede andere untere Schranke b ∈ R von
M gilt stets b ≤ a.
In dieser Definition reden wir noch vorsichtig von einem Supremum einer Menge M ⊆
R, da es zunächst ja auch mehrere Suprema geben könnte. Dies ist aber nicht der Fall,
es kann höchstens ein Supremum von M geben. Seien nämlich a, b ∈ R zwei Suprema
der Menge M ⊆ R. Dann ist b eine obere Schranke von M und da a andererseits eine
kleinste obere Schranke von M ist, folgt a ≤ b. Ebenso ist auch b ≤ a und wir haben
insgesamt a = b. Analog kann es auch höchstens ein Infimum einer Menge M ⊆ R
geben. Da Supremum und Infimum somit eindeutig festgelegt sind, können wir sie
46
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
auch mit einem Symbol bezeichnen. Man schreibt für M ⊆ R
sup M := Das Supremum von M ,
inf M := Das Infimum von M ,
natürlich nur falls das fragliche Supremum oder Infimum existiert.
Vorlesung 7, Montag 15.11.2010
Wir hatten das Supremum einer Menge M ⊆ R als die kleinste obere Schranke von
M definiert, sofern eine solche überhaupt existiert. Dieser Begriff ist mit dem Begriff
des Maximums der Menge M verwandt, aber er ist nicht dasselbe. Wir wollen uns den
Zusammenhang der beiden Begriffe kurz einmal klar machen.
Zunächst nehme an, dass M ein Maximum a = max M besitzt. Dann ist a insbesondere eine obere Schranke von M und ist b ∈ R eine beliebige obere Schranke von
M , so gilt wegen a ∈ M auch a ≤ b. Damit ist a die kleinste untere Schranke von
M , d.h. das Supremum von M . Gibt es also ein Maxiumum von M , so ist dieses auch
gleich dem Supremum.
Umgekehrt muss ein Supremum aber kein Maximum sein, ist zum Beispiel M =
(0, 1), so ist sup M = 1 aber wegen 1 ∈
/ M ist 1 kein Maximum von M . Haben wir
allerdings eine Menge M ⊆ R mit a = sup M ∈ M , so ist a ∈ M insbesondere eine
in M liegende obere Schranke von M , also ein Maximum von M . Entsprechendes gilt
dann auch für das Minimum und das Infimum einer Menge M ⊆ R. Zusammenfassend
haben wir für M ⊆ R also die folgenden Implikationen:
a = max M
a = sup M ∧ a ∈ M
a = min M
a = inf M ∧ a ∈ M
=⇒
=⇒
=⇒
=⇒
a = sup M,
a = max M,
a = inf M,
a = min M.
Sei M ⊆ R gegeben. Gibt es dann ein Supremum a ∈ R von M , so ist a insbesondere
eine obere Schranke von M , d.h. M ist nach oben beschränkt. Ist b ∈ R eine reelle
Zahl mit b < a, so kann b keine obere Schranke von M mehr sein, da sonst ja a ≤ b
gelten müsste, und dies bedeutet das es ein x ∈ M mit x > b gibt. Insbesondere muss
M 6= ∅ sein. Diese Beobachtung können wir jetzt zu einer äquivalenten Definition des
Supremums umformulieren.
Lemma 4.2 (Charakterisierung von Supremum und Infimum)
Seien M ⊆ R eine Teilmenge und a ∈ R.
(a) Genau dann ist a ein Supremum von M wenn a eine obere Schranke von M ist
und es für jedes b ∈ R mit b < a stets ein Element x ∈ M mit x > b gibt.
47
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
(b) Genau dann ist a ein Infimum von M wenn a eine untere Schranke von M ist
und es für jedes b ∈ R mit b > a stets ein Element x ∈ M mit b > x gibt.
Beweis: (a) ”=⇒” Dies haben wir bereits oben eingesehen.
”⇐=” Keine reelle Zahl b ∈ R mit b < a ist eine obere Schranke von M , und damit
muss für jede obere Schranke b von M stets b ≥ a gelten. Damit ist a ein Supremum
von M .
(b) Analog zu (a).
Die Existenz von Supremum oder Infimum kann über die Axiome eines angeordneten
Körpers nicht bewiesen werden, und das noch ausstehende Vollständigkeitsaxiom der
reellen Zahlen fordert diese Existenz einfach.
Vollständigkeitsaxiom:
Jede nach oben beschränkte, nicht leere Teilmenge ∅ 6= M ⊆ R der reellen
Zahlen besitzt ein Supremum.
Dieses ist das letzte noch fehlende Axiom für die reellen Zahlen, man sagt auch das R
ein vollständig angeordneter Körper ist. Hierdurch sind die reellen Zahlen in gewissen
Sinne auch eindeutig festgelegt, aber dies wollen wir hier nicht näher ausführen. Am
Vollständigkeitsaxiom fällt auf das hier das Supremum vor dem Infimum ausgezeichnet
wird, während wir die beiden bisher als völlig analoge Spiegelbilder zueinander behandelt haben. Diese Auszeichnung des Supremums ist auch nur eine optische Täuschung,
die Existenz des Infimums werden wir gleich beweisen. Umgekehrt hätte man genauso
gut fordern können, dass jede nicht leere, nach unten beschränkte Menge reeller Zahlen
ein Infimum hat, und könnte dann die Existenz des Supremums beweisen.
Lemma 4.3 (Existenz des Infimums)
Jede nicht leere, nach unten beschränkte Menge ∅ 6= M ⊆ R reeller Zahlen hat ein
Infimum.
Beweis: Sei ∅ 6= M ⊆ R nach unten beschränkt, d.h. M hat eine untere Schranke.
Dann ist die Menge
N := {a ∈ R|a ist eine untere Schranke von M } ⊆ R
aller unteren Schranken von M nicht leer N 6= ∅. Ist a ∈ M , so gilt für jedes x ∈ N
stets x ≤ a, da x ja eine untere Schranke von M ist, d.h. a ist eine obere Schranke von
N . Damit ist jedes Element von M eine obere Schranke von N . Wegen M 6= ∅ gibt es
insbesondere überhaupt eine obere Schranke von N , d.h. die Menge N ist nach oben
beschränkt. Nach dem Vollständigkeitsaxiom existiert das Supremum
a := sup N ∈ R,
48
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
und wir behaupten das a auch das Infimum von M ist. Ist x ∈ M so ist x eine obere
Schranke von N , also a ≤ x. Damit ist a überhaupt eine untere Schranke von M . Ist
jetzt b ∈ R eine beliebige untere Schranke von M , so ist b ∈ N und damit auch b ≤ a.
Folglich ist a die größte untere Schranke von M , d.h. a = inf M .
Wir werden im Laufe des Semesters sehr viele Anwendungen von Supremum und
Infimum sehen, tatsächlich handelt es sich bei diesen beiden Begriffen um zwei der
mit Abstand wichtigsten technischen Hilfsmittel der gesamten Analysis. Hier wollen
wir jetzt nur noch eine allererste kleine Anwendung vorführen, und die sogenannte
archimedische Eigenschaft der reellen Zahlen beweisen.
Lemma 4.4 (Die archimedische Eigenschaft von R)
Sind a, b ∈ R mit a > 0 so existiert eine natürliche Zahl n ∈ N mit na > b.
Beweis: Wir beweisen dies per Widerspruchsbeweis. Gäbe es kein solches n ∈ N mit
na > b, so wäre na ≤ b für alle n ∈ N, d.h. b ist eine obere Schranke der Menge
M := {na|n ∈ N} ⊆ R.
Damit ist M nach oben beschränkt und wegen 0 ∈ M ist auch M 6= ∅. Nach dem
Vollständigkeitsaxiom existiert das Supremum s := sup M von M . Wegen s − a < s
gibt es nach Lemma 2.(a) ein x ∈ M mit x > s − a, und nach Definition von M gibt
es weiter ein n ∈ N mit na = x > s − a. Damit ist auch (n + 1)a ∈ M mit
(n + 1)a = na + a > s − a + a = s,
aber andererseits ist auch (n + 1)a ≤ s da s eine obere Schranke von M ist. Dies ist
ein Widerspruch und das Lemma ist bewiesen.
Beachte das wir in diesem Beweis die Existenz der natürlichen Zahl n durch einen
Widerspruchsbeweis eingesehen haben. Das Wort Existenz“ bedeutet in der Mathe”
matik nicht das man das existierende Gebilde in irgendeiner Weise konkret angeben
können muss oder eine Methode hat es zu berechnen. Daher ist es auch möglich die
Existenz von etwas durch einen Widerspruchsbeweis zu beweisen. Manchmal ist es bequem für überhaupt jede Teilmenge M ⊆ R Supremum und Infimum bilden zu können,
unabhängig davon ob sie nach oben beschränkt ist oder nicht. Hierzu gehen wir zu den
sogenannten erweiterten reellen Zahlen
R := R ∪ {−∞, ∞}
über, indem zwei neue Elemente ±∞ zu R hinzugefügt werden. Wir setzen die Ordnung
von R durch
−∞ < x < ∞
49
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
für alle x ∈ R fort, also insbesondere −∞ < ∞. Addition und Multiplikation sind auf
R nicht vollständig definiert, man setzt nur
∞ + ∞ = x + ∞ = ∞ + x := ∞ und (−∞) + (−∞) = (−∞) + x = x + (−∞) := −∞
für alle x ∈ R und
(∞) · (∞) = (−∞) · (−∞) := ∞, (∞) · (−∞) = (−∞) · (∞) := −∞
sowie
(
(
∞,
x > 0,
−∞, x > 0
x · ∞ = ∞ · x :=
x · (−∞) = (−∞) · x :=
−∞, x < 0,
∞,
x<0
für alle x ∈ R\{0}. Andere Summen oder Produkte werden nicht definiert.
Ist dann M ⊆ R eine beliebige Teilmenge, so existieren in R sowohl Supremum als
auch Infimum. Ist nämlich M 6= ∅ und nach oben beschränkt, so gibt es sup M ∈ R
nach dem Vollständigkeitsaxiom. Ist M nicht nach oben beschränkt, so ist ∞ die einzige
obere Schranke von M in R, also auch sup M = ∞. Ist schließlich M = ∅, so ist jedes
a ∈ R obere Schranke von M , also sup M = −∞. Insbesondere haben wir
sup M ∈ R ⇐⇒ M 6= ∅ ist nach oben beschränkt.
Entsprechendes gilt dann fürs Infimum, also insbesondere inf ∅ = ∞ in R. Wenn wir
±∞ als Supremum und Infimum zulassen wollen, so sprechen wir auch davon das
Supremum und Infimum in R gebildet werden. Man könnte sogar sup M und inf M
für Teilmengen M ⊆ R betrachten, aber in aller Regel sind für uns nur Teilmengen
von R von Interesse. Beachte das ±∞ keine reellen Zahlen sind, der Übergang zu den
erweiterten reellen Zahlen ist nur ein formaler Trick gelegentlich Fallunterscheidungen
zu vermeiden.
Ein Beispiel ist etwa die Übungsaufgabe (12.b). Wir haben zwei Mengen M, N ⊆
R und wollen sagen, dass M ∪ N genau dann nach oben beschränkt ist, wenn M
und N beide nach oben beschränkt sind und das in diesem Fall sup(M ∪ N ) =
max{sup M, sup N } gilt. Interpretieren wir dies in R, so können wir uns das Gerede
über nach oben beschränkt“ sparen und müssen nur noch die Gleichung sup(M ∪N ) =
”
max{sup M, sup N } hinschreiben. Da M ⊆ R genau dann nach oben beschränkt ist,
wenn in R die Bedingung sup M 6= ∞ gilt, ist die Aussage über nach oben beschränkte
Mengen in der Gleichung für die Suprema enthalten. Auch der Fall das eine oder beide
der Mengen leer sind, wird automatisch mit behandelt.
Schließlich können die Symbole ±∞ auch noch verwendet werden um unbeschränkte
Intervalle zu definieren.
Definition 4.5: Sei a ∈ R. Dann heissen die Mengen
[a, ∞) := {x ∈ R|x ≥ a} und (−∞, a] := {x ∈ R|x ≤ a}
50
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
unbeschränkte, abgeschlossene Intervalle und die Mengen
(a, ∞) := {x ∈ R|x > a} und (−∞, a) := {x ∈ R|x < a}
heissen unbeschränkte, offene Intervalle. Außerdem setzen wir noch (−∞, ∞) := R.
Wie bei den beschränkten Intervallen ist die Terminologie so gewählt, dass abgeschlos”
sen“ bedeutet das die reellen Randpunkte zum Intervall gehören und offen“ bedeutet
”
das sie nicht zum Intervall gehören.
4.4
Potenzen mit rationalen Exponenten
Reelle Potenzen xa werden in mehreren Stufen, geordnet nach immer allgemeineren
Exponenten a definiert. In der ersten Stufe werden natürliche Exponenten a = n ∈ N
mit n ≥ 1 behandelt, und bei diesen ist für die Basis x jede reelle Zahl zugelassen. Für
x ∈ R und n ∈ N mit n ≥ 1 definieren wir die Potenz xn als
xn := x
. . · x} .
| · .{z
n mal
Nullte Potenzen werden dagegen durch x0 := 1 für alle x ∈ R eingeführt, also insbesondere 00 = 1. Interpretieren wir ein Produkt mit Null Faktoren per Konvention als 1, so
deckt sich diese Definition mit derjenigen von xn für n ≥ 1. Aus den Körperaxiomen
folgen die Potenzrechenregeln, dies wollen wir hier einfach glauben und es nicht alles
vorführen:
(xy)n = xn y n , xn · xm = xn+m und (xn )m = xnm
m)
jeweils für alle x, y ∈ R, n, m ∈ N. Beachte das x(n
(23 )4 = 212 = 4096 während
6= (xn )m ist, zum Beispiel ist
4
2(3 ) = 281 = 2417851639229258349412352
sehr viel größer ist. Es gibt auch eine Rechenregel für Potenzen von Summen, dies
ist die sogenannte allgemeine binomische Formel. Bevor wie sie aussprechen können,
müssen wir an eine kleine Bezeichnung erinnern. Sind n, k ∈ N mit k ≤ n, so definiert
man den Binomialkoeffizienten n über k als
n
n!
=
.
k
k!(n − k)!
Ähnlich zu Aufgabe (3) kann man per Induktion zeigen, dass nk genau die Anzahl der
k-elementigen Teilmengen einer n-elementigen Menge ist.
Lemma 4.5 (Allgemeine binomische Formel)
Für alle x, y ∈ R, n ∈ N gilt
n X
n k n−k
n
(x + y) =
x y .
k
k=0
51
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
Beweis: Dies kann man etwa durch eine Induktion über die natürliche Zahl n beweisen,
die exakte Durchführung dieses Beweises ist eine Übungsaufgabe.
Beispielsweise sind damit
n n
X
X
n
n
n
k n
= (1 + 1) = 2 und
(−1)
= (1 − 1)n = 0.
k
k
k=0
k=0
Konkret haben wir für einige kleine Werte des Exponenten n die Gleichungen
(x + y)2
(x + y)3
(x + y)4
(x + y)5
(x + y)6
=
=
=
=
=
x2 + 2xy + y 2 ,
x3 + 3x2 y + 3xy 2 + y 3 ,
x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4 ,
x5 + 5x4 y + 10x3 y 2 + 10x2 y 3 + 5xy 4 + y 5 ,
x6 + 6x5 y + 15x4 y 2 + 20x3 y 3 + 15x2 y 4 + 6xy 5 + y 6 .
Wie Sie wahrscheinlich aus der Schule kennen, kann man die Binomialkoeffizienten
bequem über das sogenannte
Pascalsche Dreieck berechnen. Denken wir uns die Bino
mialkoeffizienten nk zu festen n zeilenweise angeordnet
0
0
.
& 1
1
0
1
.
&
.
& 2
2
2
0
1
2
.
&
.
&
.
& 3
3
3
3
0
1
2
3
so ergibt sich der k-te Binomialkoeffizient in Zeile n als die Summe des (k − 1)-ten
und des k-ten Binomialkoeffizienten in Zeile n − 1, d.h. als die Summe der links und
rechts über ihm stehenden Einträge. Beispielsweise erhalten wir für n = 1, 2, 3, 4, 5, 6
die Werte
1
1
1
1
2
1
1
3
3
1
1
4
6
4
1
1
5
10
10
5
1
1
6
15
20
15
6
1
52
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
wie in den obigen binomischen Formeln gesehen. Ebenfalls leicht zu sehen ist das Zusammenspiel zwischen Potenzen und Anordnung
∀(x, y ∈ R, x, y ≥ 0)∀(n ∈ N, n ≥ 1) : x < y ⇐⇒ xn < y n .
Andere Abschätzungen für Potenzen kann man jetzt durch Verwendung der allgemeinen
binomischen Formel erhalten. Sind beispielsweise n ∈ N und 1 ≤ k ≤ n gegeben, so
folgt für jedes x ∈ R mit x ≥ 0 auch
n
(1 + x) =
n X
n
l=0
n k
x ≥1+
x .
l
k
l
Hier haben wir einfach alle Terme bis auf zwei in der binomischen Formel weggelassen,
was den Ausdruck wegen x ≥ 0 kleiner macht. Speziell für k = 1 wird dies zu (1+x)n ≥
1+nx für alle n ∈ N mit n ≥ 1 und alle x ∈ R mit x ≥ 0. Tatsächlich gilt diese Aussage
noch etwas allgemeiner:
Lemma 4.6 (Die Bernoulli-Ungleichung)
Für alle x ∈ R mit x ≥ −1 und alle n ∈ N gilt die Ungleichung
(1 + x)n ≥ 1 + nx.
Beweis: Dies ist Aufgabe (11).
Als nächsten Schritt definiert man dann Potenzen mit negativen, ganzzahligen Exponenten. Diese kann man aber nur noch für eine von Null verschiedene Basis einführen.
Bereits im Axiom (M4) haben wir für 0 6= x ∈ R die Schreibweise x−1 eingeführt, und
nach unserer Bruchdefinition ist
x−1 = 1 · x−1 =
1
.
x
Für n ∈ N mit n ≥ 1 und 0 6= x ∈ R setzen wir allgemein
n
1
1
−n
x := n =
.
x
x
Auch für diesen allgemeineren Potenzbegriff gelten dann die Potenzrechenregeln
n
x
xn
n
n n
(xy) = x y ,
= n , xn · xm = xn+m und (xn )m = xnm
y
y
für alle x, y ∈ R\{0}, n, m ∈ Z. Auch dies müsste man eigentlich beweisen, aber wir
wollen uns dies an dieser Stelle ersparen. Eine vernünftige Formel für Potenzen von
53
Mathematik für Physiker I, WS 2010/2011
Montag 15.11.2010
Summen bei negativen Exponenten gibt es leider nicht. Ordnungsbeziehungen drehen
sich bei negativen Exponenten um, für x, y ∈ R mit x, y > 0 haben wir zunächst
x < y ⇐⇒
1
1
<
y
x
und für jedes n ∈ N mit n ≥ 1 folgt weiter
n n
1
1
1
1
< ⇐⇒
<
,
y
x
y
x
also haben wir insgesamt
∀(x, y ∈ R, x, y > 0)∀(n ∈ Z, n < 0) : x < y ⇐⇒ y n < xn .
Die nächste Ausdehnung des Potenzbegriffs erfolgt auf rationale Exponenten, d.h. wir
wollen Potenzen xa für reelles x ∈ R mit x > 0 und rationales a ∈ Q definieren. Dies
erfolgt durch Rückgriff auf reelle Wurzeln, aber leider sagen unsere Axiome für die reellen Zahlen nicht direkt das es solche Wurzeln überhaupt gibt. Wie schon bemerkt legen
die angegebenen Axiome die reellen Zahlen vollständig fest, wir sollten die Existenz
von Wurzeln also beweisen können.
Lemma 4.7 (Existenz von Wurzeln)
Sei n ∈ N mit n ≥ 1. Dann existiert für jede reelle Zahl a ∈ R mit a ≥ 0 genau eine
reelle Zahl s ∈ R mit s ≥ 0 und sn = a.
Beweis: Da für x, y ∈ R mit 0 ≤ x < y stets xn < y n also insbesondere xn 6= y n gilt,
ist die Eindeutigkeit der Wurzel s klar. Es ist also nur noch die Existenz zu beweisen.
Da diese im Fall a = 0 klar ist, können wir a > 0 annehmen. In diesem Fall setzen wir
s := sup{x ∈ R|x ≥ 0 ∧ xn ≤ a},
und das dies tatsächlich die gesuchte Wurzel ist, ist der Inhalt von Aufgabe (15).
√
n
Die Zahl s des
Lemmas
wird
dann
natürlich
als
die
n-te
Wurzel
a := s von a
√
n
definiert, d.h. a ist diejenige, nicht negative, reelle Zahl deren n-te Potenz gleich a
ist.
Sind jetzt x ∈ R mit x > 0 und a ∈ Q gegeben, so schreiben wir a = p/q mit
p, q ∈ Z, q ≥ 1 und definieren
p
√ p
xa = x q := q x > 0.
Diese Zahl hängt tatsächlich nur von a und nicht von den speziell gewählten p und q
ab, denn sind auch t, s ∈ Z mit s ≥ 1 und
a=
t
p
= , so ist auch qt = sp,
s
q
54
Mathematik für Physiker I, WS 2010/2011
also haben wir
p qs
√ pqs
√
q
x
= qx
=
und somit ist auch
q ps
√
q
x
= xps = xqt =
Freitag 19.11.2010
s qt
t qs
√
√ sqt √
s
s
x
= sx
=
x
,
p
√
√ t
q
x = sx .
Damit ist xa tatsächlich sinnvoll definiert. Auch für diese allgemeineren Potenzen ergeben sich jetzt wieder die Potenzrechenregeln
a
x
xa
a
a a
(xy) = x y ,
= a , (xa )b = xab und xa xb = xa+b
y
y
für alle x, y ∈ R, a, b ∈ Q mit x, y > 0. Auf den Nachweis dieser Formeln wollen wir hier
verzichten. Auch die Regeln für Ungleichungen gelten für die Potenzen mit rationalen
Exponenten. Sind zunächst x, y ∈ R mit x, y ≥ 0 und n ∈ N mit n ≥ 1, so haben wir
√
√ n
√
√
n
x < n y ⇐⇒ n x < ( n y)n ⇐⇒ x < y.
Sind dann weiter x, y ∈ R und a ∈ Q mit x, y, a > 0, so können wir a = p/q mit
p, q ∈ N, p, q ≥ 1 schreiben, und es ergibt sich
√
√ p
√
√
x < y ⇐⇒ q x < q y ⇐⇒ q x < ( q y)p ⇐⇒ xa < y a .
Vorlesung 8, Freitag 19.11.2010
In der letzten Sitzung hatten wir reelle Potenzen xa mit positiver Basis x > 0 und
rationalen Exponenten a ∈ Q definiert. Zu diesem Zweck wurde a als Bruch geschrieben
a = p/q mit p, q ∈ Z, q ≥ 1 und die Potenz xa wurde durch die Formel
√
xa = ( q x)p
auf den Wurzelbegriff zurückgeführt.
Noch nicht definiert haben wir Potenzen xa mit beliebigen reellen Exponenten a ∈
R und positiver Basis x ∈ (0, ∞). Eine Möglichkeit diese Potenzen zu definieren ist
zunächst für x > 1
xa := sup{xq |q ∈ Q, q ≤ a}
zu setzen und für 0 < x < 1 setzt man dann xa := ((x−1 )a )−1 oder gleichwertig
xa := inf{xq |q ∈ Q, q ≤ a}.
55
Mathematik für Physiker I, WS 2010/2011
Freitag 19.11.2010
Der Fall x = 1 ist dann ein Sonderfall und man setzt 1a := 1 für alle a ∈ R. Das könnte
man zwar alles so tun, und es ergibt auch den korrekten Potenzbegriff, der Nachweis
der Potenzrechenregeln ist dann aber unnötig aufwendig. Später in diesem Semester
wird sich noch eine bessere Methode zur Definition allgemeiner Potenzen ergeben, und
wir verschieben dieses Thema daher auf diesen späteren Zeitpunkt.
$Id: komplex.tex,v 1.8 2011/08/17 17:23:36 hk Exp $
§5
Die komplexen Zahlen
Die komplexen Zahlen wurden ursprünglich zur Lösung der Gleichung dritten Grades eingeführt. Man kann die allgemeine Gleichung dritten Grades x3 + ax2 + bx + c = 0
zunächt analog zur quadratischen Ergänzung auf die Normalform x3 + px + q = 0
bringen, und für diese Gleichung gibt es eine Lösungsformel, die sogenannte Formel
von Cardano. Die volle Cardano-Formel beschreibt alle drei Lösungen der Gleichung
x3 + px + q = 0, aber für unsere Zwecke reicht es die erste, und auch einfachste, dieser
drei Lösungen hinzuschreiben. Diese Lösung ist gegeben als
√
3
p
D
2p
x=
mit
D
:=
−108q
+
12
−√
12p3 + 81q 2 .
3
6
D
Wir wollen als ein konkretes Beispiel einmal beginnen die Gleichung
x3 −
3
1
x−
=0
50
250
durchrechnen. Hier ist p = −3/50 und q = −1/250. Damit wird
81
34
=− 2 6
62500
2 ·5
p
p
und wir sehen das es überhaupt keine reelle Wurzel 12p3 + 81q 2 = −81/62500
gibt. Die komplexen Zahlen entstanden jetzt, indem dieses Problem einfach ignoriert
wird, d.h. wir rechnen einfach weiter und erhalten
r
p
34
32 √
9 √
3
2
12p + 81q = − 2 6 =
−1
=
−1
2 ·5
2 · 53
250
12p3 + 81q 2 = −
und schließlich
p
√
54
54 √
54
D = −108q + 12 12p3 + 81q 2 =
+
−1 =
(1 + −1).
125 125
125
Um√die Cardano-Formel anzuwenden, muss jetzt als nächster Schritt die dritte Wurzel 3 D berechnet werden. Das werden wir auch tun, aber erst später wenn wir eine
56
Mathematik für Physiker I, WS 2010/2011
Freitag 19.11.2010
Methode zum Berechnen solcher Wurzeln haben. Das Ende dieses Beispiels vertagen
wir daher auf etwas später in diesem Kapitel, was wir bisher gesehen haben ist, dass
die Cardano Formel auf Wurzeln negativer Zahlen führt und man mit diesen einfach
weiterrechnet.
Wir wollen also so tun als würde es Wurzeln aus negativen Zahlen geben, und die
komplexen Zahlen sind dann das was herauskommt wenn wir zu den reellen Zahlen die
Wurzeln negativer Zahlen hinzunehmen und normal rechnen“. Das ist natürlich keine
”
mathematische Definition, zu dieser kommen wir erst etwas später. Wir können die
Situation gleich ein wenig vereinfachen. Wir
√brauchen gar keine Wurzeln aus beliebigen
negativen Zahlen, eine
einzige
Wurzel
i
:=
√
√ √
√ −1 reicht bereits aus und dann ist für jedes
positive x ∈ R auch −x = x −1 = x · i. Zum Beispiel ist damit
D=
√
54
54
(1 + −1) =
(1 + i).
125
125
√
Die Schreibweise i = −1 wird in der Mathematik durchgängig verwendet, in einigen
anderen Gebieten finden Sie gelegentlich auch andere Schreibweisen, etwa j“ statt i“
”
”
in der Elektrotechnik. Was brauchen wir neben i jetzt an weiteren neuen Zahlen“?
”
Wenn wir normal rechnen wollen müssen wir insbesondere die Potenzen von i bilden
können, und diese ergeben sich als
i2 = −1, i3 = i2 · i = −i, i4 = (i2 )2 = (−1)2 = 1, i5 = i4 · i = i, . . .
und so weiter. Wir brauchen also nur erste Potenzen von i und betrachten daher Zahlen
der Form a + ib mit a, b ∈ R. Derartige Zahlen addieren und multiplizieren sich gemäß
der Formeln
(a1 + ib1 ) + (a2 + ib2 ) = a1 + a2 + i(b1 + b2 ),
(a1 + ib1 ) · (a2 + ib2 ) = a1 a2 + i(a1 b2 + a2 b1 ) + i2 b1 b2
= a1 a2 − b1 b2 + i(a1 b2 + a2 b1 ).
Insbesondere haben Summen und Produkte von Zahlen der Form a + ib (a, b ∈ R)
stets wieder diese Form. Dies läßt die Hoffnung zu, dass es für die komplexen Zahlen
ausreichen könnte überhaupt nur Zahlen z = a + ib mit a, b ∈ R zuzulassen. Das
einzige Problem ist, dass es dann nicht unmittelbar klar ist, ob wir die Division immer
durchführen können, ob also 1/(a + ib) auch wieder von der Form a0 + ib0 ist. Um diese
Frage zu klären behandeln wir zunächst ein Beispiel
1
2−i
2−i
2 1
2−i
=
= 2
=
= − i.
2
2+i
(2 + i) · (2 − i)
2 −i
5
5 5
Hier haben wir mit 2−i erweitert um im Nenner die dritte binomische Formel anwenden
zu können. Eine analoge Rechnung kann man auch allgemein durchführen, für alle
a, b ∈ R mit (a, b) 6= (0, 0) ist
1
a − ib
a − ib
a
b
=
= 2
= 2
+i· 2
.
2
2
a + ib
(a + ib) · (a − ib)
a +b
a +b
a + b2
57
Mathematik für Physiker I, WS 2010/2011
Freitag 19.11.2010
Mit diesen Formeln ist festgelegt wie man mit komplexen Zahlen a + ib zu rechnen
hat. Es ist nur nicht klar ob das überhaupt funktioniert. Es ist denkbar das man
durch konsequente Anwendung der Rechenregeln für die komplexen Zahlen letztlich
zu einem Widerspruch gelangt. Für die Anwendung auf die Cardano Formel ist dies
völlig belanglos, wie wir noch sehen werden verschwinden in der Cardano Formel am
Ende der Rechnung alle komplexen Größen und es bleibt ein reelles Ergebnis übrig.
Dass dieses Ergebnis dann tatsächlich eine Lösung der gegebenen Gleichung dritten
Grades ist, kann man einfach durch Einsetzen überprüfen, die logische Konsistenz der
Rechnung spielt da keine Rolle.
Da die komplexen Größen in der der Cardano Formel nur zwischendurch als Zwischenergebnisse auftauchen und am Ende wieder alle weg sind, haben sie in diesem
√
Zusammenhang etwas Geisterhaftes“ und dies führt zu der Sprechweise von i = −1
”
als der imaginären Einheit“. Die Zahlen iy mit y ∈ R werden dann entsprechend
”
imaginär“ genannt. Wie wir im nächsten Abschnitt sehen werden, gibt es eine ganz
”
konkrete und explizite Konstruktion der komplexen Zahlen, und an ihnen ist damit
nichts mehr imaginär“. Die Sprechweise von i als der imaginären Einheit hat damit
”
eigentlich ihre Berechtigung verloren, sie wird aber traditionell weiter verwendet.
5.1
Die Gaußsche Zahlenebene
Wir wollen jetzt eine exakte mathematische DefiniIm
tion der komplexen Zahlen angeben. Diese Defini−2+3i
tion wird uns zugleich auch ein besseres Verständnis der komplexen Zahlen geben so, dass wir beii
spielsweise auch leicht sehen können wie man drit2+ 1 i
te Wurzeln komplexer Zahlen berechnet, was bei2
Re
spielsweise für die Cardano Formel von Interesse
ist. Die Grundidee ist dabei sehr einfach, wir denken uns die komplexe Zahl a + ib mit a, b ∈ R als
den Punkt (a, b) ∈ R2 der Ebene. Wir führen die
komplexen Zahlen dann ein, indem eine Addition
und eine Multiplikation von Punkten der Ebene definiert wird. Wir wissen auch bereits wie wir dies tun müssen, Summen und Produkte
von Zahlen der Form a + ib haben wir ja bereits oben berechnet, und wir stellen diese
Rechnung nun auf den Kopf und verwenden ihr Ergebnis als Definition von Addition
und Multiplikation.
3
2
1
−3
−2
−1
1
2
3
−1
−2
−3
Satz 5.1 (Konstruktion der komplexen Zahlen)
Die komplexen Zahlen sind die Menge C := R × R versehen mit der durch die Formeln
(a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 ),
(a1 , b1 ) · (a2 , b2 ) := (a1 a2 − b1 b2 , a1 b2 + a2 b1 )
definierten Addition und Multiplikation. Diese erfüllen die in §4 aufgelisteten Körpe58
Mathematik für Physiker I, WS 2010/2011
Freitag 19.11.2010
raxiome, wobei additives und multiplikatives Inverses für a, b ∈ R durch die Formeln
b
a
−1
,−
für (a, b) 6= (0, 0)
−(a, b) := (−a, −b) und (a, b) :=
a2 + b2 a2 + b2
gegeben sind. Fassen wir R als die x-Achse auf, schreiben also x = (x, 0) für x ∈ R,
so stimmen reelle und komplexe Addition und Multiplikation auf R überein. Schließlich
erfüllt die imaginäre Einheit
i := (0, 1) ∈ C
die Gleichungen i2 = −1 und a + ib = (a, b) für alle a, b ∈ R.
Beweis: Wir wollen diesen Beweis hier nur teilweise führen, und auf das etwas langwierige Nachrechnen der neun Körperaxiome verzichten. Dass die reelle Addition und
Multiplikation fortgesetzt werden, läßt sich ebenfalls leicht nachrechnen. Die Aussagen
über die imaginäre Einheit ergeben sich durch
i2 = (0, 1) · (0, 1) = (−1, 0) = −1
und
a + ib = (a, 0) + (0, 1) · (b, 0) = (a, 0) + (0, b) = (a, b)
für alle a, b ∈ R.
Wie schon in §4 erwähnt bedeutet die Gültigkeit der neun Körperaxiome das wir
mit den komplexen Zahlen bezüglich der Grundrechenarten normal rechnen können,
insbesondere haben wir wie bei den reellen Zahlen auch wieder Subtraktion und Division und die Bruchrechenregeln gelten. Es gibt allerdings keine Methode die komplexen
Zahlen so anzuordnen, dass die Axiome eines angeordneten Körpers gelten. In der
Tat hatten wir in §4 eingesehen, dass diese Axiome implizieren das Quadrate positiv
oder Null sind und das −1 negativ ist, da in C aber −1 = i2 ein Quadrat ist, kann
es keine Anordnung geben. Die Addition komplexer Zahlen ist die vertraute Addition von Vektoren in der Ebene, die geometrische Interpretation der Multiplikation ist
etwas komplizierter, und wird erst im nächsten Abschnitt behandelt. Wir starten die
weitergehende Untersuchung der komplexen Zahlen mit der Formel
a − ib
1
= 2
a + ib
a + b2
für die multiplikative Inverse einer komplexen Zahl. Sowohl der Zähler als auch der
Nenner der rechten Seite dieser Gleichung haben eine geometrische Bedeutung.
Definition 5.1: Sei z = x + iy mit x, y ∈ R eine komplexe Zahl.
(a) Die reelle Zahl Re z := x heißt der Realteil von x, er ist die Orthogonalprojektion
von z auf die x-Achse.
59
Mathematik für Physiker I, WS 2010/2011
Freitag 19.11.2010
(b) Die reelle Zahl Im z := y heißt der Imaginärteil von x, er ist die Orthogonalprojektion von z auf die y-Achse.
(c) Die komplexe Zahl z := x − iy heißt die komplex Konjugierte zu z. Diese ist die
Spiegelung von z an der x-Achse.
p
(d) Die reelle Zahl |z| := x2 + y 2 heißt der Betrag von z. Nach dem Satz des Pythagoras ist |z| der Abstand des Punktes z der Ebene zum Nullpunkt 0 = (0, 0).
b1 + b 2
z1 + z 2
z=a+ib
z=(x,y)
r
b2
z2
y
x
b1
z1
z=a−ib
a2
a1
a1 + a 2
Addition
Konjugation
Betrag
Gelegentlich wird die komplex Konjugierte einer Zahl z ∈ C auch mit dem Symbol z ∗
anstelle von z bezeichnet, diese Schreibweise werden wir in diesem Skript aber nicht
verwenden. Mit diesen Bezeichnungen gilt für jedes z ∈ C\{0} die Gleichung
1
z
= 2
z
|z|
also auch zz = |z|2 . Trivialerweise gilt diese Gleichung auch für z = 0. Die Grundeigenschaften der komplexen Konjugation werden im folgenden Lemma zusammengestellt:
Lemma 5.2 (Grundeigenschaften der komplexen Konjugation)
Seien z, w ∈ C. Dann gelten:
(a) Es ist z + w = z + w.
(b) Es ist z · w = z · w.
(c) Im Fall z 6= 0 sind
1
z
= 2 und
z
|z|
1
1
= .
z
z
(d) Es sind z = z, |z| = |z| und zz = |z|2 .
(e) Es gelten
Re(z) =
z+z
z−z
und Im(z) =
.
2
2i
60
Mathematik für Physiker I, WS 2010/2011
Freitag 19.11.2010
(f ) Genau dann ist z ∈ R wenn z = z gilt.
Beweis: Wir schreiben z = x + iy und w = u + iv mit x, y, u, v ∈ R.
(a) Es ist
z + w = (x + u) + i(y + v) = (x + u) − i(y + v) = x − iy + u − iv = z + w.
(b) Es ist
zw = xu − yv + i(xv + yu) = xu − yv − i(xv + yu)
= xu + (−y)(−v) + i(x(−v) + (−y)u) = (x − iy) · (u − iv) = z · w.
(c) Die erste Gleichung haben wir bereits oben festgehalten, und für die andere Gleichung ergibt sich mit (b)
1
1=1=z· =z·
z
1
1
1
=⇒
= .
z
z
z
(d) Diese Aussagen sind klar, beziehungsweise bereits oben bewiesen.
(e) Es gelten
z + z = 2x und z − z = 2iy.
(f ) Klar.
Als nächsten Schritt können wir dann die Eigenschaften des komplexen Betrags herleiten.
Lemma 5.3 (Grundeigenschaften des komplexen Betrags)
Seien z, w ∈ C. Dann gelten:
√
(a) Es ist max{| Re z|, | Im z|} ≤ |z| ≤ 2 max{| Re z|, | Im z|}.
(b) Es gilt |zw| = |z| · |w|.
(c) Es gilt die Dreiecksungleichung |z + w| ≤ |z| + |w|.
(d) Es gilt |z − w| ≥ |z| − |w|.
(e) Es gilt |z| − |w| ≤ |z − w|.
Beweis: (a) Schreibe z = x + iy mit x, y ∈ R und setze M := max{| Re z|, | Im z|} =
max{|x|, |y|}. Wegen
p
p
p
√
|x| = x2 ≤ x2 + y 2 = |z| und |y| = y 2 ≤ x2 + y 2 = |z|
61
Mathematik für Physiker I, WS 2010/2011
Freitag 19.11.2010
ist dann M ≤ |z|. Weiter haben wir
p
p
√
√
|z| = x2 + y 2 = |x|2 + |y|2 ≤ M 2 + M 2 = 2M.
(b) Nach Lemma 2.(b) gilt
√
√
√
√
|zw| = zwzw = zzww = zz · ww = |z| · |w|.
(c) Es gilt nach Lemma 2.(a,b,d,e) und Teil (a,b)
|z + w|2 = (z + w) · (z + w) = (z + w) · (z + w) = zz + zw + zw + ww
= |z|2 + zw + zw + |w|2 = |z|2 + 2 Re(zw) + |w|2 ≤ |z|2 + 2| Re(zw)| + |w|2
≤ |z|2 + 2|zw| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = |z|2 + 2|z| · |w| + |w|2
= (|z| + |w|)2 ,
also auch |z + w| ≤ |z| + |w|.
(d,e) Analog zu §4.Lemma 1.
Sind z, w ∈ C, so zeigt die Interpretation der komplexen Addition als Vektoraddition,
dass es ein Dreieck mit den Seitenlängen |z|, |w| und |z + w| gibt. Die Dreiecksungleichung für den Betrag wird dann zur geometrischen Dreiecksungleichung das in einem
Dreieck jede Seite höchstens so lang wie die Summe der beiden anderen Seitenlängen
ist.
5.2
Die komplexe Multiplikation
Zum besseren Verständnis der Multiplikation betrachten
wir für jedes φ ∈ R den Punkt e(φ) ∈ C auf dem Einheitskreis, also dem Kreis mit Radius 1 und Mittelpunkt
0, der mit der x-Achse den Winkel φ bildet. Betrachten
wir das nebenstehende Bild, so ergibt sich der Punkt e(φ)
explizit als
e(
)
1
y
x
e(φ) = (cos φ, sin φ) = cos φ + i sin φ.
Für alle φ, ψ ∈ R ergeben die Additionstheoreme von
Sinus und Cosinus dann
e(φ) · e(ψ) =
=
=
=
(cos φ + i sin φ) · (cos ψ + i sin ψ)
cos φ cos ψ − sin φ sin ψ + i · (sin φ cos ψ + cos φ sin ψ)
cos(φ + ψ) + i sin(φ + ψ)
e(φ + ψ),
d.h. bei Multiplikation komplexer Zahlen auf dem Einheitskreis müssen nur die beiden
Winkel φ, ψ miteinander addiert werden.
62
Mathematik für Physiker I, WS 2010/2011
Für Punkte auf dem Einheitskreis ist die komplexe
Multiplikation also dasselbe wie die Addition von Winkeln. Um diese Beobachtung auf alle komplexen Zahlen
auszudehnen, führen wir jetzt die sogenannten Polarkoordinaten ein. Gegeben sei eine komplexe Zahl z ∈ C und
wir nehmen erst einmal z 6= 0 an. Die erste Polarkoordinate von z ist dann der Abstand r von z zum Nullpunkt,
und wir wissen bereits das dies gerade der Betrag von z
ist, also
r = |z|.
Freitag 19.11.2010
y
r
z=reφ
eφ
φ
x
Nun betrachten wir den Schnittpunkt der von Null ausgehenden Halbgeraden in Richtung z mit dem Einheitskreis, als Formel ist dieser einfach gegeben als z/r = z/|z|. Die
zweite Polarkoordinate von z ist der Winkel φ den diese Halbgerade mit der x-Achse
hat, also
z
= e(φ) =⇒ z = re(φ).
r
Haben wir umgekehrt eine Zahl r ≥ 0 und einen Winkel φ ∈ R gegeben, so können
wir die komplexe Zahl z := re(φ) mit den Polarkoordinaten r, φ bilden. Beachte das
die erste Polarkoordinate r immer als der Betrag von z eindeutig festgelegt ist, der
Winkel φ aber nicht. Man kann zu φ noch beliebige Vielfache von 2π, also von 360◦ im
Gradmaß, hinzuaddieren ohne das sich z ändert. Um ein eindeutiges φ zu kriegen muss
man die erlaubten Winkel auf ein Intervall der Länge 2π einschränken. Für z = 0 ist φ
sogar völlig willkürlich. Schauen wir uns einmal drei kleine Beispiele an.
1. Sei z = i. Der Abstand zu 0 ist r = |i| = 1, und da i im oberen Teil der yAchse liegt, ist der Winkel zur x-Achse gleich 90◦ , beziehungsweise φ = π/2.
Also i = 1 · e(π/2) in Polarkoordinaten.
2. Die komplexe Zahl z = 1 + i hat als Abstand zum Nullpunkt
√
√
r = |1 + i| = 12 + 12 = 2.
Außerdem liegt z auf der Winkelhalbierenden im ersten Quadranten,
unser Win√
kel ist also φ = π/4. Polarkoordinaten sind damit 1 + i = 2 e(π/4).
3. Nehme jetzt z = −i. Es ist r = | − i| = 1. Was als Winkel genommen wird, ist
nicht mehr so eindeutig. Laufen wir im Gegenuhrzeigersinn um den Einheitskreis,
so durchqueren wir drei volle Quadranten, also φ = 3π/2. Laufen wir dagegen im
Uhrzeigersinn um den Kreis, so wird φ = −π/2. Diese beiden Winkel unterscheiden sich gerade um 2π. Welchen Winkel man als die Polarkoordinate“ ansieht
”
hängt von der gewählten Normierung ab und ist damit letztlich willkürlich.
Verwenden wir Polarkoordinaten, so können wir uns jede komplexe Zahl als aus Länge
und Winkel zusammengesetzt denken. Wie wir in der nächsten Sitzung sehen werden, nimmt die Multiplikation in dieser Beschreibung der komplexen Zahlen eine sehr
einfache Form an.
63
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
Vorlesung 9, Montag 22.11.2010
Wir hatten am Ende der letzten Sitzung die Polarkoordinaten
z = r · e(φ) mit e(φ) = cos φ + i sin φ, r = |z|
einer komplexen Zahl z eingeführt. Die komplexe Multiplikation sieht in Polarkoordinaten nun sehr einfach aus, für alle r, s ≥ 0 und alle Winkel φ, ψ ∈ R gelten
re(φ) · se(ψ) = rs · e(φ)e(ψ) = rs · e(φ + ψ).
Bei der Multiplikation werden also die beiden Längen miteinander multipliziert, und
die beiden Winkel werden addiert.
Die zweite Polarkoordinate φ wird oft auch als das Argument der komplexen Zahl
z bezeichnet, und mit dem Symbol φ = arg z notiert. Wie schon bemerkt ist das
Argument nur bis auf Vielfache von 2π festgelegt und für z = 0 ist es sogar völlig
beliebig. Um eine gewisse Eindeutigkeit zu erhalten schränken wir uns auf Winkel φ
mit |φ| < π ein, also −π < φ < π. Wegen e(π) = cos π + i sin π = −1 werden dann die
positiven Vielfachen von −1 ausgeschlossen.
Definition 5.2 (Hauptwert des Arguments)
Die geschlitzte komplexe Ebene ist die Menge
C− := C\R≤0
und für z ∈ C− bezeichnen wir das Argument φ von z mit |φ| < π als den Hauptwert
von arg z. Die hierdurch definierte Funktion
arg : C− → (−π, π)
heißt der Hauptzweig des Arguments.
Für z ∈ C− haben wir also eindeutig festgelegte Polarkoordinaten r = |z|, φ = arg z
wenn wir immer den Hauptwert des Arguments verwenden. Diese Wahl ist natürlich
nicht die einzig mögliche, in vielen Zusammenhängen, wie beispielsweise im nächsten
Abschnitt, ist die Normierung 0 ≤ φ < 2π passender. Für den Moment wollen wir
aber den Hauptwert verwenden. Haben wir die komplexe Zahl z = x + iy mit x, y ∈ R
in cartesischen Koordinaten gegeben, so ist die Berechnung der Polarkoordinaten r, φ
im Prinzip nicht schwer, es gilt aber einige
p Fälle zu unterscheiden. Die erste Polarkoordinate ist unproblematisch r = |z| = x2 + y 2 . Zur Berechnung von φ haben wir
verschiedene Gleichungen zur Auswahl
cos φ =
x
y
sin φ
y
, sin φ = und im Fall x 6= 0 auch tan φ =
= .
r
r
cos φ
x
64
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
Wir nehmen z ∈ C− an und wollen für φ den Hauptwert des Arguments verwenden,
also |φ| < π. Das Problem ist das wir nicht einfach irgendeine der trigonometrischen
Arcus Funktionen verwenden können, da diese diese die zugehörige trigonometrische
Funktion immer nur auf einem bestimmten Intervall der Länge π umkehren. Wir gehen
der Reihe nach alle möglichen Berechnungsmethoden durch.
1. Der Weg über x/r = cos φ. Der Arcus Cosinus kehrt den Cosinus zwischen 0 und
π um, er kann also unverändert für z in einem der ersten beiden Quadranten,
d.h. für y ≥ 0 verwendet werden. Dort ist dann φ = arccos(x/r). In den anderen
beiden Quadranten ist y < 0 also −π < φ < 0. Damit ist 0 < −φ < π und
cos(−φ) = cos φ = x/r also −φ = arccos(x/r) und somit φ = − arccos(x/r).
Insgesamt ist damit
(
x
arccos(x/r),
y ≥ 0,
φ = sign(y) · arccos
=
r
− arccos(x/r), y < 0.
Beachte das diese Formel auch für y = 0 funktioniert da wegen z ∈ C− dann
x > 0 und φ = 0 ist.
2. Der Weg über y/r = sin φ. Der Arcus Sinus kehrt den Sinus zwischen −π/2 und
π/2 um, er kann also unverändert für z im ersten und im vierten Quadranten
verwendet werden, d.h. für x ≥ 0. Dort ist dann φ = arcsin(y/r). Nun sei z im
zweiten Quadranten, also π/2 < φ < π. Dann ist π − φ ∈ (0, π/2) mit
y y y
sin(π − φ) = sin φ = =⇒ π − φ = arcsin
=⇒ φ = π − arcsin
.
r
r
r
Ist z im verbleibenden dritten Quadranten, so haben wir −π < φ < −π/2 also
ist −(φ + π) ∈ (−π/2, 0) mit
y y
sin(−(φ + π)) = − sin(φ + π) = sin φ = =⇒ −(φ + π) = arcsin
r
r y
.
=⇒ φ = − π + arcsin
r
Insgesamt ist damit


x ≥ 0,
arcsin(y/r),
φ = π − arcsin(y/r),
x < 0, y > 0,


−(π + arcsin(y/r)), x, y < 0.
3. Der Weg über tan φ = y/x. Der Arcus Tangens kehrt den Tangens zwischen
−π/2 und π/2 unter Ausschluß der Grenzen um, also für x > 0. Dort ist dann
φ = arctan(y/x). Im zweiten Quadranten unter Ausschluß der y-Achse ist π/2 <
φ < π und somit φ − π ∈ (−π/2, 0) mit
y
y
y
tan(φ − π) = tan φ = =⇒ φ − π = arctan
=⇒ φ = π + arctan
.
x
x
x
65
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
Im dritten Quadranten haben wir schließlich −π < φ < −π/2 also 0 < φ + π <
π/2 und
y
y
y
tan(φ + π) = tan φ = =⇒ φ + π = arctan
=⇒ φ = arctan
− π.
x
x
x
Insgesamt ist damit


arctan(y/x),
x > 0,





x = 0, y > 0,
π/2,
φ = π + arctan(y/x), x < 0, y > 0,


−π/2,
x = 0, y < 0,



arctan(y/x) − π, x, y < 0.
Für Punkte auf der negativen x-Achse, also x < 0, y = 0, ist kein Hauptwert des Arguments festgelegt, wenn man will kann man für diese φ = π setzen. Dies ist auch das Ergebnis das sich mit der ersten Formel ergibt, denn dann ist arccos(x/r) = arccos(−1) =
π.
Wählen wir eine andere Normierung des Arguments so ergeben sich auch andere
Formeln. Eine oft verwendete alternative Normierung für die Werte φ des Arguments
ist wie schon erwähnt 0 ≤ φ < 2π. In dieser Normierung unterscheidet sich das Argument φ vom Hauptwert nur im dritten und vierten Quadranten also für y < 0. Dort
muss 2π zum Hauptwert addiert werden. In der Arcus Cosinus Formulierung ist damit
beispielsweise
(
arccos(x/r),
y ≥ 0,
φ=
2π − arccos(x/r), y < 0.
Entsprechend ergeben sich auch Formeln über den Arcus Sinus beziehungsweise über
den Arcus Tangens.
Mit Hilfe der Polarkoordinaten beziehungsweise des komplexen Betrages können
wir auch definieren wann eine Menge komplexer Zahlen beschränkt sein soll. In §4
hatten wir eine Menge M ⊆ R beschränkt genannt, wenn sie nach oben und nach
unten beschränkt ist und wir hatten eingesehen, dass dies genau dann der Fall ist,
wenn es eine Zahl c ≥ 0 mit |x| ≤ c für alle x ∈ M gibt. Letztere Beschreibung kann
man leicht auf C erweitern.
Definition 5.3: Eine Menge M ⊆ C heißt beschränkt wenn es eine reelle Zahl c ∈ R
mit c ≥ 0 und |z| ≤ c für alle z ∈ M gibt.
Insbesondere ist eine M ⊆ R genau dann als Teilmenge von R beschränkt wenn
sie als Teilmenge von C beschränkt ist. Da der komplexe Betrag der Abstand zum
Nullpunkt ist, kann man alternativ auch sagen, dass eine Teilmenge M ⊆ C genau
dann beschränkt ist, wenn sie Teilmenge eines ausreichend grossen Kreises ist, wenn
also die erste der beiden Polarkoordinaten auf M beschränkt ist. Weiter behaupten wir
das eine komplexe Menge M ⊆ C genau dann beschränkt ist, wenn die reellen Mengen
Re(M ) := {Re z|z ∈ M } und Im(M ) := {Im z|z ∈ M }
66
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
beschränkt sind. Ist nämlich M ⊆ C beschränkt, so gibt es ein c ≥ 0 mit |z| ≤ c für
alle z ∈ M und mit Lemma 3.(a) folgt auch
| Re z| ≤ |z| ≤ c und | Im z| ≤ |z| ≤ c
für alle z ∈ M . Sind umgekehrt Re(M ) und Im(M ) beschränkt, so gibt es Konstanten
c1 , c2 ≥ 0 mit | Re z| ≤ c1 und | Im z| ≤ c2 für alle z ∈ M . Ist also c :=
√
2 max{c1 , c2 } ≥ 0, so ist nach Lemma 3.(a) auch
√
√
|z| ≤ 2 max{| Re z|, | Im z|} ≤ 2 max{c1 , c2 } = c
für alle z ∈ M .
5.3
Komplexe Wurzeln
Zur Behandlung von Wurzeln ist es am bequemsten die eben eingeführten Polarkoordinaten zu verwenden. Angenommen wir haben eine√komplexe Zahl a ∈ C und einen
Exponenten n ∈ N mit n ≥ 1 gegeben, und wollen n a berechnen, etwas genauer formuliert wollen wir also die Gleichung z n = a nach z ∈ C auflösen. Da es für a = 0 nur
die eindeutige Lösung z = 0 gibt, können wir uns auf den Fall a 6= 0 beschränken. Wir
schreiben a in Polarkoordinaten a = re(φ), die wir hier auf 0 ≤ φ < 2π normieren.
Machen wir für z in Polarkoordinaten den Ansatz z = se(ψ) mit s > 0, 0 ≤ ψ < 2π,
so wird unsere Gleichung zu
!
z n = (se(ψ))n = sn e(nψ) = re(φ).
√
Dies gibt zum einen die Bedingung sn = r, der Betrag von z ist also als s = n r
eindeutig festgelegt. Es verbleibt e(nψ) = e(φ). Hier führt die Mehrdeutigkeit des
Arguments zu einer kleinen Komplikation, wir wissen nur das sich nψ und φ um ein
ganzzahliges Vielfaches von 2π unterscheiden müssen, und wegen 0 ≤ nψ < 2nπ führt
dies auf
φ
2π
mit k ∈ N, 0 ≤ k < n.
nψ = φ + 2πk =⇒ ψ = + k ·
n
n
Damit haben wir genau n verschiedene komplexe Wurzeln von z = re(φ) nämlich
√
φ
2π n
n
{w ∈ C|w = z} =
re
+k·
k ∈ N, 0 ≤ k < n .
n
n Ein besonders wichtiger Spezialfall liegt vor wenn a = 1 ist, wenn wir also die n-ten
Wurzeln der Eins bestimmen wollen.
Definition 5.4 (Einheitswurzeln)
Sei n ∈ N mit n ≥ 1. Eine komplexe Zahl z ∈ C heißt eine n-te Einheitswurzel wenn
z n = 1 ist.
67
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
Ist in unserer Rechnung a = 1, so sind die Polarkoordinaten gegeben als r = 1 und
φ = 0, also ergibt sich die Menge En der n-ten Einheitswurzeln als
2πk k ∈ N, 0 ≤ k < n ,
En = e
n also liegen die n-ten Einheitswurzeln alle auf dem Einheitskreis und bilden die Ecken
eines regulären n-Ecks, dies ist ein n-Eck in dem alle Seitenlängen und alle Innenwinkel
gleich sind. Wir fassen diese Überlegungen und einige unmittelbare Folgerungen jetzt
in einem Satz zusammen.
Satz 5.4 (Komplexe Wurzeln)
Sei n ∈ N mit n ≥ 1 und setze
ζ := e
2π
n
= cos
2π
2π
+ i sin .
n
n
Dann bildet die Menge En der n-ten Einheitswurzeln ein in den Einheitskreis eingeschriebenes reguläres n-Eck und es gilt
En = {ζ k |k ∈ N, 0 ≤ k < n}.
Ist 0 6= a ∈ C eine beliebige komplexe
Zahl, so hat a in C genau n verschiedene n-te
p
n
und die Ecken eines regulären
Wurzeln, die alle den Abstand |a| vom Nullpunkt haben
√
n
n-Ecks bilden. Ist a = re(φ) mit r, φ ∈ R, r > 0 so ist re(φ/n) eine n-te Wurzel von
a. Ist w eine beliebige n-te Wurzel von a, so ist
{z ∈ C|z n = a} = {ζ k w|k ∈ N, 0 ≤ k < n}.
Beweis: Für jedes k ∈ N mit 0 ≤ k < n haben wir
k
2πk
2π
2π
e
=e k·
=e
= ζk,
n
n
n
und damit ist die Aussage über die Einheitswurzeln bewiesen. Sei jetzte a ∈ C\{0}.
Wir haben oben bereits alles bis auf die letzte Aussage über die n-ten Wurzeln von
a eingesehen. Ist w ∈ C mit wn = a, so ist insbesondere w 6= 0 und für jedes z ∈ C
bestehen damit die Äquivalenzen
z n
z
z
z n = a ⇐⇒ z n = wn ⇐⇒
= 1 ⇐⇒ ∈ En ⇐⇒ ∃(k ∈ N, 0 ≤ k < n) : = ζ k .
w
w
w
Die restlichen Aussagen haben wir bereits oben eingesehen.
Die Einheitswurzeln spielen also
√ so in etwa die Rolle von ”Vorzeichen“ n-ter Wurzeln.
Hat man eine Quadratwurzel a, so sind die beiden möglichen Quadratwurzeln die
68
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
√
√
beiden Werte ± a. Hat man dagegen eine n-te Wurzel n a, so ergeben sich die anderen
n-ten Wurzeln durch Multiplikation mit den n-ten Einheitswurzeln.
Zur exakten, also nicht numerischen, Auswertung komplexer Wurzeln ist es hilfreich
möglichst viele Werte der trigomometrischen Funktionen zu kennen, beispielsweise
φ
0
π/6
π/5
π/4
π/3
π/2
π
cos φ
√1
3/2
√
(1 + 5)/4
√
1/ 2
1/2
0
-1
sin φ
0
q 1/2√
2(5 − 5)/4
√
1/
√ 2
3/2
1
0
tan φ
0√
1/ 3
p
√
5−2 5
√1
3
0
Diese Werte dürften Sie auch in Ihrer Formelsammlung finden. Man kann sie alle geometrisch über die Definition der trigonometrischen Funktionen über rechtwinklige Dreiecke begründen, der Winkel π/5 ist aber schon etwas trickreicher und hängt mit der
Konstruktion des regulären Fünfecks mit Zirkel und Lineal zusammen. Wir wollen
dies hier nicht vorführen, und akzeptieren die Tabelle an dieser Stelle einfach. Weitere Werte kann man dann über Periodizitätseigenschaften und die Additionstheoreme
berechnen. Oft nützlich sind insbesondere die Halbierungsformeln, an die wir uns jetzt
kurz erinnern wollen. Wir starten mit dem Additionstheorem
cos(2x) = cos2 x − sin2 x = 2 cos2 x − 1 = 1 − 2 sin2 x.
Setzen wir hier x/2 statt x ein, so wird diese Formel zu
x
x
cos x = 2 cos2
− 1 = 1 − 2 sin2
.
2
2
Für −π ≤ x ≤ π ist −π/2 ≤ x/2 ≤ π/2 also cos(x/2) ≥ 0 und somit
x r
x r 1 + cos x
cos
= cos2
=
(−π ≤ x ≤ π).
2
2
2
Mit dem Sinus können wir ähnlich rechnen. Für 0 ≤ x ≤ 2π ist 0 ≤ x/2 ≤ π also
sin(x/2) ≥ 0. Damit ist
x r 1 − cos x
=
.
sin
2
2
Ist schließlich 0 ≤ x < π, so ist
s
s
x sin x r 1 − cos x
(1
−
cos
x)
·
(1
+
cos
x)
1 − cos2 x
2
tan
=
=
=
=
2
1 + cos x
(1 + cos x)2
(1 + cos x)2
cos x2
s
sin2 x
sin x
=
=
.
2
(1 + cos x)
1 + cos x
69
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
Erweitert man mit 1 − cos x statt mit 1 + cos x, so ergibt sich für 0 < x < π die
alternative Formel
x 1 − cos x
tan
=
.
2
sin x
Zum Beispiel sind
√
√
√
2− 3
6− 2
sin
=
=
,
12
4
4
s
r
√
√
√
π
1 + cos(π/6)
2+ 3
6+ 2
cos
=
=
=
,
12
2
4
4
π
√
1 − cos(π/6)
tan
=
= 2 − 3.
12
sin(π/6)
π
r
1 − cos(π/6)
=
2
s
Mit all diesen Formeln ausgestattet kehren wir jetzt zu unserem Eingangsbeispiel
x3 −
3
1
x−
=0
50
250
zurück. Mit p = −3/50, q = −1/250 und
p
54
2 · 33
D = −108q + 12 12p3 + 81q 2 =
(1 + i) = 3 (1 + i)
125
5
erhalten wir mit der Cardano-Formel eine Lösung
√
3
x=
D
2p
.
−√
3
6
D
Wir müssen also die dritte Wurzel von D berechnen
√
3
√
3√
3
2 3 1 + i.
5
√
Die Polarkoordinaten von 1 + i sind r = 2 und φ = π/4, also
√
3
1+i=
und somit
√
6
2e
D=
π
π
π = 21/6 cos
+ i sin
12
12
12 !
√
√
√
√
√
√
6+ 2
6− 2
1/6
+i
= 2−4/3 ( 3 + 1 + i( 3 − 1)),
=2
4
4
√
3
√
√
3
3 √
D = 21/3 3 1 + i = ( 3 + 1 + i( 3 − 1)).
5
10
70
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
Als Lösung der Gleichung dritten Grades erhalten wir
√
3
2p
D
−√
x =
3
6
D
√
3 10
1
1 √
√
( 3 + 1 + i( 3 − 1)) +
·
·√
=
20
25 3
3 + 1 + i( 3 − 1)
√
√
√
1 √
3 + 1 − i( 3 − 1)
2
=
( 3 + 1 + i( 3 − 1)) + ·
20
8
√ 5
√
1
1+ 3
=
· 2( 3 + 1)) =
.
20
10
$Id: folgen.tex,v 1.15 2011/08/17 17:28:59 hk Exp $
§6
Reelle und komplexe Zahlenfolgen
Definition 6.1: Eine Folge in einer Menge M ist eine Abbildung a : N → M . Dabei
nennen wir an := a(n) für n ∈ N das n-te Folgenglied.
Wir schreiben eine Folge meist nicht in Funktionsschreibweise sondern verwenden
Namen wie (an )n∈N oder alternativ (an )n≥0 . Etwas allgemeiner betrachten wir auch
Folgen mit anderen Startwerten als Null, d.h. ist n0 ∈ N so ist eine Folge mit dem
Startwert n0 eine Abbildung a : {n ∈ N|n ≥ n0 } → M , üblicherweise geschrieben als
(an )n≥n0 . Um die Notation nicht zu überladen sprechen wir meist einfach von Folgen
(an )n∈N , implizit sind damit aber auch immer Folgen mit beliebigen Startwert gemeint
auch wenn wir dies nicht extra hinschreiben. Wir werden im Laufe dieses Kapitels noch
viele Beispiele von Folgen sehen, daher geben wir hier nur zwei einfache Beispiele an.
Für n ∈ N mit n ≥ 1 sei
1
an := ,
n
1
wir betrachten also die Folge n n≥1 . Dies ist eine Folge mit dem Startwert n0 = 1.
Solche reelle Zahlenfolgen kann man sich graphisch durch Hinmalen ihres Graphen“
”
veranschaulichen, dieser besteht dann nur aus diskreten Punkten. Manchmal werden
diese aus optischen Gründen noch miteinander verbunden, diese Verbindungen haben
dann aber keine inhaltliche Bedeutung und dienen nur zur Illustration.
Als ein Beispiel einer komplexen
Folge nehmen wir ((1 + i)n )n∈N . Da 1 + i in Po√
larkoordinaten gleich 1 + i = 2 · e(π/4) verteilen sich die Glieder der Folge auf acht
vom Nullpunkt ausgehende Achsen. Da die Werte recht groß werden, ist diese Folge im
untenstehenden Bild logarithmisch skaliert dargestellt. Eine komplexe Folge kann man
71
Mathematik für Physiker I, WS 2010/2011
Montag 22.11.2010
sich veranschaulichen indem die Glieder a0 , a1 , a2 , . . . in die Gaußsche Zahlenebene eingezeichnet werden, die Information über den jeweiligen Folgenindex n geht dabei aber
verloren.
1
0.8
4
0.6
0.8
2
0.4
0.6
–4
–2
2
4
6
0.2
0.4
–2
–0.6
–0.4
–4
–0.2
0
0.2
0.4
0.6
–0.2
0.2
–6
2
4
6
8
10
12
14
an = 1/n
16
18
–0.4
20
an = (1 + i)n
Andere komplexe Folge
Zu Beginn unserer Untersuchungen stellen wir einige der immer wieder verwendeten
Grunddefinitionen zusammen.
Definition 6.2: Sei (an )n∈N eine Folge in einer Menge M . Eine Teilfolge von (an )n∈N
ist eine Folge der Form (ank )k∈N wobei n0 , n1 , n2 , . . . ∈ N mit n0 < n1 < n2 < · · · sind.
Eine Teilfolge durchläuft also einige, aber nicht unbedingt alle, der Folgenglieder der
Originalfolge in genau derselben Reihenfolge. Beispielsweise ist
1
1
eine
Teilfolge
von
.
n2 n≥1
n n≥1
Die nächste Definition ist nur noch auf reelle beziehungsweise komplexe Folgen anwendbar.
Definition 6.3: Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt beschränkt, wenn die
Menge {an |n ∈ N} beschränkt ist, wenn es also eine Konstante c ≥ 0 mit |an | ≤ c für
alle n ∈ N gibt.
Die dritte und letzte dieser Definitionen ist sogar nur noch auf reelle Folgen anwendbar.
Definition 6.4: Sei (an )n∈N eine reelle Folge, d.h. eine Folge in der Menge R. Dann
heißt die Folge (an )n∈N
(a) monoton steigend, wenn an ≤ an+1 für alle n ∈ N gilt.
(a) streng monoton steigend wenn an < an+1 für alle n ∈ N gilt.
(c) monoton fallend, wenn an+1 ≤ an für alle n ∈ N gilt.
(d) streng monoton fallend, wenn an+1 < an für alle n ∈ N gilt.
72
Mathematik für Physiker I, WS 2010/2011
Freitag 26.11.2010
(e) nach oben beschränkt, wenn die Menge {an |n ∈ N} nach oben beschränkt ist,
wenn es also ein c ∈ R mit an ≤ c für alle n ∈ N gibt.
(f ) nach unten beschränkt, wenn die Menge {an |n ∈ N} nach unten beschränkt ist,
wenn es also ein c ∈ R mit an ≥ c für alle n ∈ N gibt.
Vorlesung 10, Freitag 26.11.2010
Wir hatten am Ende der letzten Sitzung eine ganze Liste von Grundeigenschaften
reeller und komplexer Folgen definiert, und nun wollen wir ein paar Beispiele für all
diese Begriffe durchgehen.
1. Sei q ∈ R mit q > 1. Dann ist die Folge (q n )n∈N streng monoton steigend, denn
für jedes n ∈ N ist q n+1 = q n · q > q n . Wegen q n ≥ 1 für alle n ∈ N ist die Folge
(q n )n∈N auch nach unten beschränkt. Nach Aufgabe (18) ist die Folge aber nicht
nach oben beschränkt.
2. Sei q ∈ R mit 0 < q < 1. Für jedes n ∈ N ist dann q n+1 = q n · q < q n , die
Folge (q n )n∈N ist also streng monoton fallend. Nach Aufgabe (18) ist sie auch
beschränkt.
3. Die Folge ((−1)n )n∈N ist weder monoton steigend noch monoton fallend.
4. Die durch
an :=
n
X
k=2
1
k(k − 1)
für n ≥ 2 gegebene Folge ist offenbar streng monoton steigend. Sie ist auch nach
oben beschränkt, denn für jedes n ∈ N mit n ≥ 2 gilt
n n
X
X
1
1
1
1
an =
=
−
= 1 − < 1.
k(k − 1) k=1 k − 1 k
n
k=2
5. Die durch
n
X
1
an :=
k!
k=0
gegebene Folge ist offennbar wieder streng monoton steigend. Sie ist auch nach
oben beschränkt. Für jedes n ∈ N mit n ≥ 2 gilt nämlich
n
n
n
X
X
X
1
1
1
1
an =
=2+
≤2+
= 3 − < 3.
k!
k!
k(k − 1)
n
k=0
k=2
k=2
73
Mathematik für Physiker I, WS 2010/2011
6. Die durch
Freitag 26.11.2010
an :=
1
1+
n
n
für n ≥ 1 gegebene Folge ist streng monoton steigend. Hierzu benötigen wir eine
kleine Erweiterung der Bernoulli Ungleichung §4.Lemma 6, für alle x ∈ R mit
0 6= x ≥ −1 und alle n ∈ N mit n ≥ 2 gilt (1 + x)n > 1 + nx. Zum Beweis
müssen Sie sich nur klar machen, dass der Induktionsbeweis in Aufgabe (11)
nahezu unverändert auch diese Aussage beweist. Hiermit rechnen wir jetzt
1+
1
n+1
1
n+1
n
+ n1
=
=
n+2
n+1
n+1 n
n+1
n
=
n · (n + 2)
(n + 1)2
n+1
n+1
n
n+1
n+1
n+1
n+1
(n + 1)2 − 1
1
= 1−
2
2
(n + 1)
n
(n + 1)
n
1
n
n+1
n+1
> 1 − (n + 1) ·
=
·
= 1,
(n + 1)2
n
n+1
n
d.h. es ist
an+1 =
1
1+
n+1
n+1
>
1
1+
n
n
= an .
Die Folge (an )n∈N ist auch wieder nach oben beschränkt. Mit der allgemeinen
binomischen Formel §4.Lemma 5 erhalten wir
1
1+
n
n
n
n X
X
(n − k + 1) · . . . · n 1
n 1
=
=
· k
k
k
n
k!
n
k=0
k=0
X
n
n
X
n−k+1
n
1
1
1
·
· ... ·
≤ 3 − < 3.
=
≤
k!
n
n
k!
n
k=0
k=0
√
7. Als ein letztes Beispiel wollen wir einsehen, dass die Folge ( n n)n≥3 streng monoton fallend ist. Ist nämlich n ∈ N mit n ≥ 3 gegeben, so haben wir
n n
(n + 1)n
n+1
1
=
= 1+
< 3 ≤ n,
nn
n
n
also auch (n + 1)n < n · nn = nn+1 . Folglich ist
√
n+1
1
n
1
n + 1 = (n + 1) n+1 = (n + 1) n(n+1) = ((n + 1)n ) n(n+1) < nn+1
1
n(n+1)
1
= nn =
Für alle n ∈ N mit n ≥ 3 ist damit auch 1 <
beschränkt.
74
√
n
n≤
√
3
√
n
n.
3, die Folge ist also auch
Mathematik für Physiker I, WS 2010/2011
6.1
Freitag 26.11.2010
Folgenkonvergenz
Der Begriff einer Folge ist weitgehend ein Hilfsbegriff, und wir wollen jetzt ein wenig
erläutern wobei Folgen eigentlich helfen sollen. Hierfür müssen wir ein klein wenig vorgreifen und schon einmal Ableitungen besprechen. Wir bleiben dabei recht vage, die
genaue Behandlung folgt später in diesem Semester. Wir denken uns irgendeine sich
mit der Zeit t ändernde Größe x = x(t). Die Ableitung von x nach t ist dann die
zeitliche Änderungsrate“ der Größe x. Das Urbeispiel einer Ableitung ist der Begriff
”
der Geschwindigkeit. Wir denken uns einen sich bewegenden, physikalischen Körper.
Um keine Vektoren verwenden zu müssen, gehen wir davon aus, dass sich diese Bewegung in einer festen Richtung abspielt. Dann können wir die Position unseres Körpers
zum Zeitpunkt t durch eine einzelne Zahl x(t) beschreiben, die etwa den Abstand des
Körpers zum Koordinatenursprung angibt. Gehen wir erst einmal vom einfachsten Fall
aus, und nehmen an das auf unseren Körper keine Kräfte wirken. Dann gilt das sogenannte Trägheitsprinzip, d.h. der Körper legt in einem Zeitabschnitt der Dauer ∆t
eine zur Dauer des Zeitabschnitts proportionale Strecke ∆x zurück. Die hierbei auftretende Proportionalitätskonstante, d.h. die Zahl v mit ∆x = v · ∆t, nennt man dann
die Geschwindigkeit des Körpers. Maßeinheiten ignorieren wir dabei, und denken uns
alles als Zahlen.
Die kräftefreie Bewegung ist damit recht einfach. Kommen wir zum allgemeinen
Fall der beschleunigten Bewegung, bei der auf den Körper irgendwelche Kräfte wirken.
Betrachte wieder ein Zeitintervall der Länge ∆t, und in diesem Zeitintervall lege unser
Körper die Strecke ∆x zurück. Als die mittlere Geschwindigkeit in diesem Zeitintervall
bezeichnen wir die Geschwindigkeit v die ein unbeschleunigter Körper hätte, der im
Zeitintervall ∆t die Strecke ∆x zurücklegte, also
∆x
v=
.
∆t
Nun führt man eine Idealisierung durch. Geben wir uns einen Zeitpunkt t vor, und
betrachten immer kleinere mit t startende Zeitabschnitte ∆t, so gehen wir davon aus,
dass sich die mittlere Geschwindigkeit bezüglich der Zeitintervalle t bis t + ∆t auf einen
Wert v = v(t) einpendelt“. Diese Zahl bezeichnen wir dann als die Geschwindigkeit des
”
Körpers zum Zeitpunkt t. Die Existenz dieser Zahl kann man nicht logisch herleiten, es
handelt sich nur um eine idealisierende Annahme, die sich aber als sehr erfolgreich herausgestellt hat. Die mittlere Geschwindigkeit ist ein realer Wert, in dem Sinne das wir
sie direkt messen können, die Geschwindigkeit kann man dagegen nur näherungsweise durch Messung über ausreichend kleine Zeitabschnitte bestimmen. Für praktische
Zwecke macht das keinen effektiven Unterschied da Messungen ja naturgemäß näherungsweise sind, inhaltlich gibt es aber schon einen gewissen Unterschied.
Wir denken uns die Geschwindigkeit als einen Quotienten
dx
v=
dt
wobei man sich dt als einen unendlich kleinen Zeitabschnitt“ und dx als die in die”
sem Zeitabschnitt unendlich kleine zurückgelegte Strecke“ denkt. Ist allgemein x(t)
”
75
Mathematik für Physiker I, WS 2010/2011
Freitag 26.11.2010
eine Funktion von t so definiert“ der Quotient die Ableitung x0 (t) von x in t. Dies
”
ist natürlich keine mathematische Definition im heutigen Sinne, da diese unendlich
”
kleinen“ Größen nicht wirklich definiert sind. Trotzdem ist die Mathematik sehr lange
Zeit mit einer derartig vagen Definition ausgekommen. Tatsächlich waren zu dieser Zeit
noch nicht einmal die reellen Zahlen wirklich streng definiert.
Geändert hat sich das alles erst im letzten Viertel des neunzehnten Jahrhunderts.
Untersucht wurden sogenannte Fourierreihen. Diese traten erstmals beim Studium der
sogenannten Wärmeleitungsgleichung auf, diese beschreibt die zeitliche Entwicklung
der Temperaturverteilung in einem Draht. Eine Fourierreihe soll eine periodische Funktion f mit Periode 2π als Überlagerung sogenannter Grundschwingungen darstellen.
Diese Grundschwingungen sind einfach die Funktionen 1, sin x, cos x, sin(2x), cos(2x)
und so weiter. Man will also
a0
f (x) =
+ a1 cos(x) + b1 sin(x) + a2 cos(2x) + b2 sin(2x) + · · ·
2
schreiben, wobei das Gleichheitszeichen in einem geeigneten Sinne zu interpretieren ist.
Die genaue Untersuchung derartiger Fourierreihen führte auf derartig diffizile Probleme,
das die vagen auf infinitesimalen Größen basierenden Konzepte nicht mehr ausreichten,
also auf gar keine oder widersprüchliche Ergebnisse führten. Viele der Grundbegriffe
die gerade Studienanfängern oft als unnötig kompliziert vorkommen, wurden zur Behandlung von Fourierreihen entwickelt. So wurde der Mengenbegriff erfunden um den
Konvergenzbereich von Fourierreihen zu beschreiben, die Interpretation von Funktionen als Relationen wurde in diesem Rahmen eingeführt, und vieles mehr.
Auch die unendlich kleinen Zahlen“ standen dabei auf dem Prüfstand. Alle Ver”
suche diesen eine wirklich brauchbare, exakte Bedeutung zu geben, sind letztlich gescheitert. Die schließlich gewählte Lösung war es infinitesimale Größen vollständig aus
der Mathematik zu entfernen. Im mathematischen Sinn gibt es keine unendlich kleinen
oder unendlich großen Zahlen. So etwas wie Ableitungen wollte man aber natürlich
trotzdem weiter verwenden, und daher mussten diese auf eine neue Grundlage gestellt
werden. Als Ersatz für infinitesimale Werte wurde der Begriff des Grenzwerts eingeführt. Es gibt viele verschiedene Arten von Grenzwerten, von denen wir einige noch
kennenlernen werden.
Damit sind wir jetzt soweit die Bedeutung von Folgen einsehen zu können. Viele
der erwähnten Grenzwertbegriffe lassen sich auf Grenzwerte von Folgen zurückführen.
Folgen sind in diesem Rahmen dann ein reines Hilfsmittel, sie erfassen gerade den
gemeinsamen Kern einer Vielfalt von Grenzwertbegriffen. Viele der Grundaussagen
über Grenzwerte überlegt man sich zunächst für Folgen und kann sie dann auf all die
anderen, uns wirklich interessierenden, Grenzwerttypen anwenden. Folgen sind also die
Maschinerie die den ganzen Kalkül am Laufen hält, haben aber für sich selbst eher
selten eine Bedeutung. Das hat leider zur Folge, dass die Theorie der Folgen zunächst
recht unmotiviert und wenig sinnvoll wirkt.
Wir definieren die Konvergenz einer Folge in R oder C wie folgt:
Definition 6.5 (Folgenkonvergenz)
Seien K ∈ {R, C} und (an )n∈N eine Folge in K. Dann konvergiert die Folge (an )n∈N
76
Mathematik für Physiker I, WS 2010/2011
Freitag 26.11.2010
gegen eine Zahl a ∈ K wenn es für jedes > 0 eine natürliche Zahl n0 ∈ N mit
|an − a| < für alle n ∈ N mit n ≥ n0 gibt. In diesem Fall schreiben wir (an )n∈N −→ a.
Gelegentlich verwenden wir auch die verkürzte und eigentlich inkorrekte Schreibweise
an −→ a anstelle von (an )n∈N −→ a. Als Formel schreibt sich die Konvergenzbedingung
als
∀( ∈ R, > 0)∃(n0 ∈ N)∀(n ∈ N, n ≥ n0 ) : |an − a| < und meistens verkürzen wir dies zu
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| < gehen also implizit davon aus das eine reelle Zahl und n eine natürliche Zahl sind.
Beachte das wir statt <“ in der Konvergenzbedingung genausogut ≤“ verwenden
”
”
können, also
(an )n∈N −→ a ⇐⇒ ∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| ≤ .
Die Implikation von links nach rechts ist hier trivial. Setzen wir umgekehrt die rechte
Seite voraus, und haben eine reelle Zahl > 0 gegeben, so ist auch /2 > 0 und somit
existiert ein n0 ∈ N mit |an − a| ≤ /2 für alle n ≥ n0 , also wegen /2 < auch
|an − a| < für alle n ≥ n0 .
Wir wollen uns jetzt noch die anschauliche Bedeutung der Konvergenzdefinition klarmachen, dies geht
n0
am schönsten für komplexe Folgen. Sei also (an )n∈N
eine komplexe Zahlenfolge im nebenstehenden Bild
ε
durch Pünktchen angedeutet. Weiter haben wir einen
a
vorgeschlagenen Grenzwert a ∈ C. Was bedeutet nun
|an − a| < ? Der Betrag einer komplexen Zahl ist ihr
Abstand zum Nullpunkt, an − a ist der Vektor von a
nach an , seine Länge |an − a| ist also der Abstand von
an zu a. Dass |an − a| < gilt, bedeutet also das an
höchstens den Abstand zu a hat, dass also an im Kreis mit Mittelpunkt a und Radius
liegt. Insgesamt bedeutet an −→ a also, dass es für jeden noch so kleinen Kreis mit
Mittelpunkt a immer einen Index n0 gibt, ab dem die Folge ganz im Kreis liegt.
Der Index n0 = n0 () hängt dabei in der Regel von ab, je kleiner der Radius unseres Kreises ist, um so später liegt die Folge ganz im Kreis, d.h. n0 wird größer wenn
kleiner wird. Beachte das die Konvergenz an −→ a nichts über konkrete Folgenglieder
aussagt, konvergiert etwa an −→ 1, so kann trotzdem a1000 = −100 sein, man weiss
nur das die Folgenglieder irgendwann einmal nahe bei 1 sein werden.
Eine andere Interpretation ist es, sich eine gegen a konvergente Folge (an )n∈N als eine Folge von Näherungen an a zu denken. Die Konvergenzbedingung besagt dann, dass
es zu beliebig vorgegebener Fehlerschranke immer eine Stelle n0 gibt ab der die Näherungen an höchstens den Fehler haben. Wir wollen jetzt einige erste Eigenschaften
des Konvergenzbegriffs nachweisen.
77
Mathematik für Physiker I, WS 2010/2011
Freitag 26.11.2010
Lemma 6.1 (Grundeigenschaften der Konvergenz)
Seien K ∈ {R, C}, (an )n∈N eine Folge in K und a ∈ K.
(a) Ist (an )n∈N −→ a, so gilt auch (ank )k∈N −→ a für jedes Teilfolge (ank )k∈N von
(an )n∈N .
(b) Es gibt höchstens ein b ∈ K mit (an )n∈N −→ b.
(c) Genau dann konvergiert die Folge (an )n∈N nicht gegen a, wenn es eine reelle Zahl
> 0 und eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für alle k ∈ N
gibt.
(d) Ist K = C, so gilt genau dann (an )n∈N −→ a, wenn (Re an )n∈N −→ Re a und
(Im an )n∈N −→ Im a gelten.
(e) Ist K = C und an ∈ R für alle n ∈ N sowie (an )n∈N −→ a, so gilt auch a ∈ R und
die Folge konvergiert auch in R gegen a.
Beweis: (a) Sei (ank )k∈N eine Teilfolge von (an )n∈N . Sei > 0 gegeben. Dann existiert
ein m ∈ N mit |an − a| < für alle n ∈ N mit n ≥ m. Wegen n0 < n1 < n2 < . . . ist
nk ≥ k für jedes k ∈ N. Ist also k ∈ N mit k ≥ m, so gilt auch nk ≥ k ≥ m und somit
|ank − a| < . Dies zeigt (ank )k∈N −→ a.
(b) Sei also b ∈ K und nehme an das (an )n∈N sowohl gegen a als auch gegen b konvergiert. Angenommen es wäre a 6= b, also auch |a − b| > 0. Dann ist := |a − b|/2 > 0,
also existieren n1 , n2 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n1 und |an − b| < für alle n ∈ N mit n ≥ n2 . Wir erhalten n := max{n1 , n2 } ∈ N mit n ≥ n1 und n ≥ n2 ,
also
|a − b| = |a − an + an − b| ≤ |an − a| + |an − b| < 2 = |a − b|,
ein Widerspruch. Dieser Widerspruch zeigt a = b.
(c) ”=⇒” Die Verneinung von (an )n∈N −→ a ist
∃( > 0)∀(n0 ∈ N)∃(n ≥ n0 ) : |an − a| ≥ ,
es gibt also ein > 0 so, dass es für jedes n0 ∈ N stets ein n ∈ N mit n ≥ n0 und
|an − a| ≥ gibt. Nach Wahl von existiert ein n0 ∈ N mit |an0 − a| ≥ . Ist k ∈ N
und ist nk ∈ N bereits definiert, so existiert wieder nach Wahl von ein nk+1 ∈ N mit
nk+1 ≥ nk + 1 > nk und |ank+1 − a| ≥ . Damit wird induktiv eine Teilfolge (ank )k∈N
von (an )n∈N mit |ank − a| ≥ für alle k ∈ N definiert.
”⇐=” Wähle ein > 0 und eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für
alle k ∈ N. Angenommen (an )n∈N würde gegen a konvergieren. Nach (a) konvergiert
dann auch (ank )k∈N gegen a, und somit existiert ein k0 ∈ N mit |ank − a| < für alle
k ∈ N mit k ≥ k0 , also insbesondere |ank0 − a| < , ein Widerspruch. Also konvergiert
(an )n∈N nicht gegen a.
78
Mathematik für Physiker I, WS 2010/2011
Freitag 26.11.2010
(d) ”=⇒” Sei > 0. Wegen (an )n∈N −→ a existiert ein n0 ∈ N mit |an − a| < für alle
n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist dann nach §5.Lemma 3.(a) auch
| Re(an ) − Re(a)| = | Re(an − a)| ≤ |an − a| < und ebenso | Im(an ) − Im(a)| = | Im(an − a)| ≤ |an − a| < . Damit ist (Re(an ))n∈N −→
Re(a) und (Im(an ))n∈N −→ Im(a).
”⇐=” Sei > 0. Wegen (Re(an ))n∈N −→
√ Re(a) und (Im(an ))n∈N −→ Im(a) existieren
n1 , n2 ∈ N mit
√ | Re(an ) − Re(a)| < / 2 für alle n ∈ N mit n ≥ n1 und | Im(an ) −
Im(a)| < / 2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 } ∈ N. Für jedes
n ∈ N mit n ≥ n0 gilt dann n ≥ n1 und n ≥ n2 , also nach §5.Lemma 3.(a) auch
|an − a| ≤
√
2 max{| Re(an − a)|, | Im(an − a)|}
√
√
= 2 max{| Re(an ) − Re(a)|, | Im(an ) − Im(a)|} < 2 · √ = .
2
Dies beweist (an )n∈N −→ a.
(e) Nach (d) gilt (an )n∈N = (Re(an ))n∈N −→ Re(a), und mit (b) folgt a = Re(a) ∈ R.
Die Aussage (e) des Lemmas besagt, dass es für eine reelle Zahlenfolge (an )n∈N egal ist,
ob wir sie als reelle Folge oder als komplexe Folge betrachten, an der Konvergenz der
Folge ändert sich dabei nichts. Insbesondere kann man den komplexen Fall K = C meist
als den allgemeinen Fall behandeln, und sich K = R dann als Spezialfall denken. Zum
Abschluß wollen wir jetzt noch ein erstes Beispiel einer konvergenten Folge behandeln.
Das Grundbeispiel einer konvergenten Folge ist die Folge (1/n)n≥1 . Wir behaupten das
diese Folge gegen Null konvergiert
1
−→ 0.
n n≥1
Um dies zu beweisen, folgen wir der Konvergenzdefinition. Sei > 0. Nach der archimedischen Eigenschaft §4.Lemma 4 der reellen Zahlen existiert eine natürliche Zahl
n0 ∈ N mit n0 > 1, also insbesondere n0 ≥ 1. Für jedes n ∈ N mit n ≥ n0 ist damit
auch
1 1
= ≤ 1 < .
n n
n0
Damit ist diese Behauptung gezeigt. Diese Folge ist natürlich vergleichsweise einfach,
die Bedeutung dieses Grenzwerts sollte man aber nicht unterschätzen. Wir wir sehen werden, werden viele andere Grenzwerte letztlich genau auf 1/n −→ 0 zurückgeführt. Wie sie am Beweis sehen, ist die Konvergenz von (1/n)n∈N gegen Null äquivalent zur archimedischen Eigenschaft der reellen Zahlen. Diese beruhte letztlich auf dem
Vollständigkeitsaxiom, und tatsächlich sind die Axiome eines angeordneten Körpers alleine nicht stark genug zu beweisen das (1/n)n∈N gegen Null konvergiert. Dies wirklich
79
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
einzusehen, bedarf allerdings der Konstruktion eines schon vergleichsweise komplizierten Gegenbeispiels und soll hier nicht vorgeführt werden.
Vorlesung 11, Montag 29.11.2010
In der letzten Sitzung hatten wir den Begriff der Konvergenz einer reellen oder
komplexen Folge gegen eine Zahl eingeführt und unter anderem bewiesen, dass eine
solche Folge gegen höchstens eine Zahl konvergieren kann. Damit können wir nun auch
den Grenzwert einer Folge definieren.
Definition 6.6 (Folgengrenzwerte)
SeiK ∈ {R, C}. Dann heißt eine Folge (an )n∈N in K konvergent wenn es ein a ∈ K mit
(an )n∈N −→ a gibt. Nach Lemma 1.(b) ist a ∈ K dann eindeutig bestimmt und heißt
der Grenzwert der Folge (an )n∈N , geschrieben als
a = lim an .
n→∞
Eine nicht konvergente Folge heißt divergent.
Nach Lemma 1.(a) ist jede Teilfolge einer konvergenten Folge wieder konvergent und
hat denselben Grenzwert wie die Originalfolge. Weiter ist eine komplexe Folge (zn )n∈N
nach Lemma 1.(d) genau dann konvergent wenn die Folgen der Real- und der Imaginärteile beide konvergent sind, und in diesem Fall gelten
Re lim zn = lim Re(zn ) und Im lim zn = lim Im(zn ).
n→∞
n→∞
n→∞
n→∞
Schließlich besagt Lemma 1.(e) das es für eine reelle Folge keine Rolle spielt, ob wir sie
in K = R oder in K = C betrachten, sowohl die Konvergenz als auch der notwendig
reelle Grenzwert stimmen in beiden Fällen überein. Daher kann man, wie schon letztes
Mal erwähnt, den komplexen Fall K = C als den allgemeinen Fall“ behandeln.
”
Lemma 6.2 (Grundeigenschaften konvergenter Folgen)
Seien K ∈ {R, C} und (an )n∈N eine konvergente Folge in K. Dann gelten:
(a) Die Folge (an )n∈N ist beschränkt.
(b) Die Folge der Beträge (|an |)n∈N ist wieder konvergent und es gilt
lim |an | = lim an .
n→∞
n→∞
Beweis: Sei a ∈ K der Grenzwert der Folge (an )n∈N .
80
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
(a) Wegen (an )n∈N −→ a existiert ein n0 ∈ N mit |an − a| < 1 für alle n ∈ N mit
n ≥ n0 . Weiter setzen wir
c := max{|a| + 1, |a0 |, . . . , |an0 −1 |} ≥ 0.
Dann gilt |an | ≤ c für alle n ∈ N. Sei nämlich n ∈ N gegeben. Ist dann n < n0 , so
haben wir sofort |an | ≤ c nach Definition von c, und ist n ≥ n0 , so ist ebenfalls
|an | = |a + (an − a)| ≤ |a| + |an − a| < |a| + 1 ≤ c.
Damit ist die Folge (an )n∈N beschränkt.
(b) Sei > 0. Dann existiert ein n0 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n0 .
Für jedes n ∈ N mit n ≥ n0 ist dann nach §5.Lemma 3.(e) auch
|an | − |a| ≤ |an − a| < .
Dies zeigt (|an |)n∈N −→ |a|.
In der letzten Sitzung hatten wir als Beispiel eines Grenzwerts bereits
1
=0
n→∞ n
eingesehen. Einige weitere Grenzwerte sind eine unmittelbare Folgerung. Beispielsweise
ist
1
lim 2
= 0,
n→∞ n + 1
einfach da (1/(n2 + 1))n∈N eine Teilfolge von (1/n)n∈N ist. Zwei weitere Beispiele wollen
wir jetzt einfach angeben, der Beweis ist eine Übungsaufgabe. Sei q ∈ C. Dann gilt
lim
(q n )n∈N ist konvergent ⇐⇒ |q| < 1 oder q = 1
und im Konvergenzfall ist
(
0, |q| < 1,
lim q n =
n→∞
1, q = 1.
Für jedes q ∈ C ist dagegen
qn
= 0.
n→∞ n!
Wir kommen jetzt zu einem schon recht komplizierten Beispiel, wir wollen die Folge
n
1
an = 1 +
n
lim
auf Konvergenz untersuchen. Wir wissen bereits, dass diese Folge streng monoton steigend und nach oben beschränkt ist, genauer ist an < 3 für jedes n ∈ N. Der folgende
Satz zeigt, dass diese beiden Eigenschaften bereits die Konvergenz der Folge implizieren.
Satz 6.3 (Konvergenz monotoner Folgen)
Sei (an )n∈N eine reelle Folge.
81
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
(a) Ist (an )n∈N monoton steigend und nach oben beschränkt, so ist (an )n∈N auch konvergent mit
lim an = sup{an |n ∈ N}.
n→∞
(b) Ist (an )n∈N monoton fallend und nach unten beschränkt, so ist (an )n∈N auch konvergent mit
lim an = inf{an |n ∈ N}.
n→∞
Beweis: (a) Schreibe s := sup{an |n ∈ N}. Sei > 0. Nach §4.Lemma 2.(a) existiert
ein n0 ∈ N mit an0 > s − . Sei n ∈ N mit n ≥ n0 . Dann ist
s − < an0 ≤ an ≤ s, also |an − s| = s − an < .
Dies zeigt (an )n∈N −→ s.
(b) Analog.
Dieser Satz ergibt insbesondere die Existenz des Grenzwerts
n
n
1
1
= sup 1 +
.
α := lim 1 +
n→∞
n
n
n∈N
Tatsächlich wird sich später herausstellen das α = e die Euler-Napiere Konstante
e = 2, 71828 . . . ist. Die ersten Folgenglieder von an = (1 + 1/n)n sind
9
64
625
7776
117649
5
a1 = 2, a2 = , a3 = , a4 =
, a5 =
, a6 =
> ,
4
27
256
3125
46656
2
und da außerdem 3 eine obere Schranke unserer Folge ist, folgt
5
< α ≤ 3.
2
Für die meisten Zwecke innerhalb der reinen
Mathematik ist das schon genau genug.
√
n
Als nächstes Beispiel wollen wir die Folge ( n)n≥1 behandeln. Wir wissen bereits das
diese für n ≥ 3 streng monoton fallend ist und außerdem trivialerweise durch 1 nach
unten beschränkt ist, also existiert ihr Grenzwert. Wir behaupten das
lim
n→∞
√
n
n=1
gilt. Sei nämlich > 0 gegeben. Mit der archimedischen Eigenschaft der reellen Zahlen
§4.Lemma 4 erhalten wir ein n0 ∈ N mit
n0 > 1 +
82
2
.
2
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
Sei nun n ∈ N mit n ≥ n0 gegeben, also insbesondere n ≥ 2. Mit der allgemeinen
binomischen Formel §4.Lemma 5 erhalten wir
n X
n √
n √
k
n
( n − 1) ≥
( n n − 1)2
n = ( n) = (1 + ( n − 1)) =
k
2
k=0
√
n
√
n
n
n
=
n(n − 1) √
( n n − 1)2 .
2
Hieraus folgen weiter
r
r
√
√
2
2
2
n
( n − 1) ≤
und 0 < n − 1 ≤
≤
< 2 = ,
n−1
n−1
n0 − 1
√
√
√
also schließlich | n n − 1| = n n − 1 < . Dies beweist ( n n)n≥1 −→ 1 wie behauptet.
Wir werden
zeigen, dass auch für jede positive reelle Zahl c ∈ R mit c > 0 stets die
√
n
Aussage ( c)√n≥1 −→ 1 gilt. Dies kann man analog zur eben vorgeführten Berechnung
von limn→∞ n n durchführen, es ist sogar etwas einfacher, aber wir wollen hier einen
alternativen Zugang wählen, der ohne Rechnung√auskommt. In der Tat folgt die Konvergenzaussage direkt aus dem eben bewiesenen n n −→ 1. Hierzu ist es hilfreich zuvor
einige allgemeine Aussagen zu beweisen. Wir beginnen mit dem Begriff einer Nullfolge,
der es uns erlauben wird viele Grenzwerte ohne die –n0 Überlegungen behandeln zu
können.
√
n
2
Definition 6.7 (Nullfolgen)
Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt eine Nullfolge wenn (an )n∈N −→ 0 gilt.
Offenbar ist eine reelle oder komplexe Folge (an )n∈N genau dann eine Nullfolge wenn
die reelle Folge (|an |)n∈N eine Nullfolge ist.
Lemma 6.4 (Grundeigenschaften von Nullfolgen)
Sei K ∈ {R, C}. Dann gelten:
(a) Sind (an )n∈N und (bn )n∈N zwei Nullfolgen in K, so ist auch (an + bn )n∈N eine
Nullfolge in K.
(b) Sind (an )n∈N eine Nullfolge in K und c ∈ K, so ist auch (can )n∈N eine Nullfolge
in K.
(c) Sind (an )n∈N eine beschränkte Folge in K und (bn )n∈N eine Nullfolge in K, so ist
auch (an bn )n∈N eine Nullfolge in K.
(d) Sind (an )n∈N eine Folge in K und a ∈ K, so gilt genau dann (an )n∈N −→ a wenn
(an − a)n∈N eine Nullfolge ist.
(e) Sind (an )n∈N eine Folge in K und (bn )n∈N eine Nullfolge in R mit |an | ≤ bn für
alle n ∈ N, so ist auch (an )n∈N eine Nullfolge in K.
83
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
(f ) Sind (an )n∈N eine Nullfolge in R mit an > 0 für alle n ∈ N und α ∈ Q mit α > 0,
so ist auch (aαn )n∈N eine Nullfolge.
Beweis: (a) Sei > 0. Dann existieren n1 , n2 ∈ N mit |an | < /2 für alle n ∈ N mit
n ≥ n1 und |bn | < /2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Für alle
n ∈ N mit n ≥ n0 ist dann auch
|an + bn | ≤ |an | + |bn | <
+ = .
2 2
Damit ist (an + bn )n∈N eine Nullfolge in K.
(c) Es gibt eine Konstante c ≥ 0 mit |an | ≤ c für alle n ∈ N. Sei > 0. Dann existiert
ein n0 ∈ N mit |bn | < /(c + 1) für alle n ∈ N mit n ≥ n0 . Ist n ∈ N mit n ≥ n0 , so ist
damit auch
c
< .
|an bn | = |an | · |bn | ≤ c|bn | ≤
c+1
Damit ist (an bn )n∈N eine Nullfolge in K.
(b) Klar nach (c).
(d,e) Klar.
√
(f ) Seien p, q ∈ Z mit p, q ≥ 1 und α = p/q. Wir zeigen zunächst, dass ( q an )n∈N eine
Nullfolge ist. Sei also > 0 gegeben. Dann existiert ein n0 ∈ N mit an√< q für alle
√
n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 folgt damit auch q an < q q = . Also
√
ist ( q an )n∈N eine Nullfolge. Da konvergente Folgen nach Lemma 2.(a) auch beschränkt
√
sind, ist somit auch (aαn )n∈N = (( q an )p )n∈N nach (c) eine Nullfolge.
Wir wollen noch ein paar Anmerkungen zum eben bewiesenen Lemma festhalten.
Zunächst beachte das konvergente Folgen nach Lemma 2.(a) auch beschränkt sind,
Aussage (c) des Lemmas ergibt also insbesondere, dass das Produkt einer konvergenten Folge und einer Nullfolge wieder eine Nullfolge ist. Weiter ist es in Aussage (e) des
Lemmas nicht wirklich nötig das |an | ≤ bn für alle n ∈ N gilt, es reicht aus das es einen
Startindex n0 ∈ N mit |an | ≤ bn für alle n ∈ N mit n ≥ n0 gibt. Dies ist implizit bereits
im Lemma enthalten. Erinnern Sie sich daran, dass wir eingehends gesagt hatten, dass
implizit immer auch Folgen mit gemeint sind, die erst ab einem Startindex definiert
sind. Weiter ist es für die Konvergenz und den Grenzwert einer Folge offenbar egal
ob wir die Folge selbst oder dieselbe Folge ab einem anderen Startindex betrachten.
Wenden wir also Aussage (e) des Lemmas auf die Folgen (an )n≥n0 und (bn )n≥n0 an, so
ergibt sich genau die genannte stärkere Aussage. Letztendlich haben wir uns in Teil (f)
auf den Fall rationaler Exponenten α beschränkt, da wir Potenzrechnung mit beliebigen reellen Exponenten noch gar nicht eingeführt haben. Die Aussage (f) wird auch
für allgemeine positive Exponenten wahr sein, bedarf dann allerdings eines anderen
Beweises, aber dazu werden wir dann später im Semester kommen.
√
Unser Ziel ist noch immer einen –n0 freien“ Beweis der Aussage n c −→ 1 für
”
jedes c ∈ R mit c > 0 anzugeben. Das eben bewiesene Lemma über Nullfolgen ist ein
84
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
erster Schritt hierzu, und der zweite Schritt ist das folgende Lemma über reelle Folgen.
Lemma 6.5 (Anordnungseigenschaften reeller Grenzwerte)
Seien (an )n∈N und (bn )n∈N zwei konvergente, reelle Folgen.
(a) Gilt an ≤ bn für alle n ∈ N, so ist auch
lim an ≤ lim bn .
n→∞
n→∞
(b) Gilt lim an = lim bn und ist (un )n∈N eine weitere reelle Folge mit an ≤ un ≤ bn
n→∞
n→∞
für alle n ∈ N, so ist auch die Folge (un )n∈N konvergent mit
lim un = lim an = lim bn .
n→∞
n→∞
n→∞
Beweis: (a) Seien a der Grenzwert von (an )n∈N und b der Grenzwert von (bn )n∈N .
Angenommen es wäre a > b. Dann ist := (a − b)/2 > 0 und es gibt n1 , n2 ∈ N mit
|an − a| < für alle n ∈ N mit n ≥ n1 und |bn − b| < für alle n ∈ N mit n ≥ n2 . Setze
n := max{n1 , n2 }. Dann ist
an = b − (a − an ) ≥ a − |an − a| > b − = a −
a+b
a−b
a−b
=
=b+
=b+
2
2
2
> b + |bn − b| ≥ b + bn − b = bn ,
im Widerspruch zu unserer Annahme an ≤ bn . Dies beweist die Behauptung a ≤ b.
(b) Sei a der gemeinsame Grenzwert der Folgen (an )n∈N und (bn )n∈N . Für jedes n ∈ N
gelten
un − a ≤ bn − a ≤ |bn − a| und − (un − a) = a − un ≤ a − an ≤ |an − a|,
also auch
|un − a| ≤ max{|an − a|, |bn − a|} ≤ |an − a| + |bn − a|.
Nach Lemma 4.(a,d,e) ist (un − a)n∈N eine Nullfolge, d.h. auch die Folge (un )n∈N konvergiert gegen a.
Die Aussage (b) des Lemmas wird manchmal auch als das Einschnürungslemma“
”
bezeichnet. Beachte das es auch für dieses Lemma reicht die Ungleichungen an ≤ bn
beziehungsweise an ≤ un ≤ bn nur für alle n ∈ N mit n ≥ n0 für einen Startindex
n0 ∈ N zu fordern. Auch dies liegt daran, dass immer auch Folgen mit gemeint sind,
85
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
die erst ab einem gewissen Startindex definiert sind. Zur Illustration der
√ jetzt bewiesenen Lemmata wollen wir uns noch einmal den Beweis der Aussage ( n n)n∈N −→ 1
anschauen. Wir hatten gezeigt, dass für jedes n ∈ N mit n ≥ 2 die Ungleichung
r
√
2
0< nn−1≤
n−1
gilt. Weiter ist die Folge (1/(n − 1))n∈N alspTeilfolge einer Nullfolge wieder eine Nullfolge
√ und nach Lemma 4.(b,f) ist auch ( 2/(n − 1))n∈N eine Nullfolge. Damit ist
( n n − 1)
n∈N nach dem Einschnürungslemma Lemma 5.(b) eine Nullfolge, d.h. wir
√
n
haben ( n)n∈N −→ 1. Beachte das wir die Konvergenzaussage diesmal direkt aus der
obigen Ungleichung gefolgert haben, ein Argumentieren über die Konvergenzdefinition
mit und n0 war gar nicht mehr nötig. Diesen Effekt werden wir noch häufiger sehen,
der Nullfolgenbegriff und das unterstützende Lemma 4 erlauben es viele, aber nicht
alle, -Überlegungen“ durch einfacheres Schließen zu ersetzen.
”
Als eine weitere Anwendung des Einschnürungslemmas wollen wir jetzt, wie schon
angekündigt,
√
lim n c = 1
n→∞
für alle c ∈ R mit c ≥ 1 beweisen. Nach der archimedischen Eigenschaft der reellen
Zahlen §4.Lemma 4 gibt es ein n0 ∈ N mit n0 ≥ c. Für alle n ∈ N mit n ≥ n0 ≥ c ist
damit auch
√
√
1 ≤ n c ≤ n n,
√
und da wir bereits
( n n)n∈N −→ 1 wissen, folgt mit dem Einschnürungslemma Lemma
√
5.(b) auch ( n c)n∈N −→ 1. Der andere Fall für c, also 0 < c < 1, muss etwas anders
behandelt werden, wir werden ihn mit Hilfe der Rechenregeln für Grenzwerte auf den
Fall c > 1 zurückführen.
Satz 6.6 (Rechenregeln für Folgengrenzwerte)
Sei K ∈ {R, C} und seien (an )n∈N und (bn )n∈N zwei konvergente Folgen in K.
(a) Die Folge (an + bn )n∈N ist konvergent mit
lim (an + bn ) = lim an + lim bn .
n→∞
n→∞
n→∞
(b) Für jedes c ∈ K ist die Folge (can )n∈N konvergent mit
lim (can ) = c · lim an .
n→∞
n→∞
(c) Die Folge (an bn )n∈N ist konvergent mit
lim (an bn ) = lim an · lim bn .
n→∞
n→∞
86
n→∞
Mathematik für Physiker I, WS 2010/2011
Montag 29.11.2010
(d) Ist limn→∞ bn 6= 0 und gilt bn 6= 0 für alle n ∈ N, so ist die Folge (an /bn )n∈N
konvergent mit
lim an
an
lim
= n→∞ .
n→∞ bn
lim bn
n→∞
Beweis: Seien a der Grenzwert von (an )n∈N und b der Grenzwert von (bn )n∈N .
(a) Die Folge ((an + bn ) − (a + b))n∈N = ((an − a) + (bn − b))n∈N ist nach Lemma 4.(a,d)
eine Nullfolge.
(b) Die Folge (can − ca)n∈N = (c(an − a))n∈N ist nach Lemma 4.(b,d) eine Nullfolge.
(c) Nach Lemma 2.(a) ist die Folge (an )n∈N beschränkt, und damit ist die Folge
(an bn − ab)n∈N = (an bn − an b + an b − ab)n∈N = (an (bn − b) + b(an − a))n∈N
nach Lemma 4.(a,b,c,d) eine Nullfolge.
(d) Es gibt ein n0 ∈ N mit |bn | < |b|/2 für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit
n ≥ n0 folgen damit auch
1
|b|
|b|
2
1
|bn | = |b − (b − bn )| ≥ |b| − |bn − b| > |b| −
=
und =
< ,
2
2
bn
|bn |
|b|
d.h. die Folge (1/bn )n∈N ist beschränkt. Damit ist die Folge
an a
an b − abn
an b − ab + ab − abn
−
=
=
bn
b n∈N
bb b
bb b
n∈N
n∈N
a
1
· (an − a) −
· (bn − b)
=
bn
bn b
n∈N
nach Lemma 4.(a,b,c,d) eine Nullfolge.
Die Forderung bn 6= 0 für alle n ∈ N in Aussage (d) ist eigentlich nicht nötig. Im
Beweis von (d) haben wir ja gesehen, dass es ein n0 ∈ N mit |bn | > |b|/2 für alle n ∈ N
mit n ≥ n0 gibt, und damit ist insbesondere auch bn 6= 0 für alle n ∈ N mit n ≥ n0 .
Betrachten wir also wieder die Folge ab dem Startindex n0 , so ergibt sich (d) auch in
diesem Fall, solange wir uns die Folge (an /bn )n≥n0 als ab dem Startindex n0 definiert
denken. Die Voraussetzung b 6= 0 ist dagegen wirklich nötig. Wir wollen jetzt ein paar
Beispiele zur Anwendung der Grenzwertregeln behandeln.
1. Sei eine reelle Zahl c ∈ (0, 1) gegeben. Dann ist 1/c > 1 und somit folgt
lim
n→∞
√
n
1
c = lim q =
n→∞
n
1
c
1
lim
n→∞
q = 1,
n
1
c
da wir den √
Grenzwert im Nenner bereits früher zu 1 berechnet hatten. Insgesamt
ist damit ( n c)n∈N −→ 1 für überhaupt jedes c ∈ R mit c > 0 gezeigt.
87
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
2. Wir wollen jetzt den schon recht kompliziert aussehenden Grenzwert
2n3 − 2n + 7
n→∞ n3 + 3n + 1
lim
behandeln. Erweitern wir Zähler und Nenner mit 1/n3 und erinnern uns an den
schon bekannten Grenzwert 1/n −→ 0, so rechnen wir mit den Grenzwertregeln
2−
2n3 − 2n + 7
= lim
lim 3
n→∞ 1 +
n→∞ n + 3n + 1
2
n2
3
n2
+
+
7
n3
1
n3
=
lim 2 −
2
n2
+
7
n3
lim 1 +
3
n2
+
1
n3
n→∞
n→∞
= 2.
Außerdem haben wir dabei die triviale Tatsache verwendet, dass konstante Folgen
(c)n∈N gegen die entsprechende Konstante c konvergieren.
3. Ein ähnliches, scheinbar noch komplizierteres, Beispiel ist der Grenzwert
2n2 − n cos(n) + 3 sin(n4 + 1)
.
n→∞
3n2 + n + (−1)n
lim
Wir erweitern mit 1/n2 , und erhalten
sin(n4 +1)
2 − cosn n + 3 n2
2n2 − n cos(n) + 3 sin(n4 + 1)
lim
= lim
n
n→∞
n→∞
3n2 + n + (−1)n
3 + 1 + (−1)2
n
.
n
Nun ist (1/n)n≥1 eine Nullfolge und (cos n)n∈N eine beschränkte Folge, da der
Cosinus ja nur Werte zwischen −1 und 1 annimmt, also ist (cos(n)/n)n≥1 nach
Lemma 4.(c) eine Nullfolge. Ebenso sind (3 sin(n4 + 1)/n2 )n≥1 und ((−1)n /n2 )n≥1
Nullfolgen, es gilt also
sin(n4 +1)
2 − cosn n + 3 n2
2n2 − n cos(n) + 3 sin(n4 + 1)
= lim
lim
n
n→∞
n→∞
3n2 + n + (−1)n
3 + 1 + (−1)2
n
n
2
= .
3
Als ein weiteres Beispiel zur Anwendung der Grenzwertregeln wollen wir die letzten
beiden Beispiele noch etwas ausweiten, und allgemein den Grenzwert von Folgen berechenen die als rationale Ausdrücke in n gegeben sind, also als Quotient von Polynomen
in n. Zur Vorbereitung beweisen wir ein kleines Lemma über das Wachstumsverhalten
von Polynomen.
Vorlesung 12, Montag 06.12.2010
Da die Vorlesung am letzten Freitag ausgefallen ist, musste ich in dieser Vorlesung etwas aufholen und habe einige Details weggelassen. In diesem Skript ist alles vollständig,
die in der Vorlesung fortgelassenen Stellen sind meistens als solche angegeben.
88
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
Am Ende der letzten Sitzung hatten wir das folgende Lemma angeschrieben, müssen
seinen Beweis aber noch nachholen, worauf aber verzichtet wurde.
Lemma 6.7 (Wachstumsverhalten von Polynomen)
Seien K ∈ {R, C}, n ∈ N, > 0 und a0 , . . . , an ∈ K mit an 6= 0 gegeben. Dann existiert
eine reelle Zahl r > 0 so, dass für jedes x ∈ K mit |x| ≥ r stets
n
X
ak xk < (|an | + )|x|n
(|an | − )|x|n < k=0
gilt.
Beweis: Für n = 0 ist dies klar, wir können also n ≥ 1 annehmen. Setze
M := max{|a0 |, |a1 |, . . . , |an−1 |} und r := 1 +
nM
≥ 1.
Sei x ∈ K mit |x| ≥ r gegeben. Wegen r ≥ 1 ist dann auch |x| ≥ 1 und für jedes
0 ≤ k < n ist damit |xk | = |x|k ≤ |x|n−1 . Damit folgt weiter
n−1
n−1
n−1
n−1
X
X
X
X
nM n
k
k
k
M |x|n−1 = nM |x|n−1 =
|ak | · |x | ≤
|ak x | =
ak x ≤
|x|
|x|
k=0
k=0
k=0
k=0
≤
nM n
|x| < |x|n .
r
Dies ergibt weiter
n
n−1
X
X
k
n
k
ak x ≤ |an | · |x| + ak x < |an | · |x|n + |x|n = (|an | + )|x|n ,
k=0
k=0
n
n−1
X
X
k
n
k
ak x ≥ |an | · |x| − ak x > |an | · |x|n − |x|n = (|an | − )|x|n .
k=0
k=0
Damit ist das Lemma vollständig bewiesen.
Wählen wir insbesondere = |an |/2 > 0, so wird das Lemma zu
n
X
3
|an |
· |x|n < ak xk < |an | · |x|n ≤ 2|an | · |x|n
2
2
k=0
für alle x ∈ K mit |x| ≥ r. Insbesondere gilt für x ∈ K mit |x| ≥ r > 0 damit an xn +
· · ·+a0 6= 0, die Nullstellen des Polynoms haben also alle einen Betrag kleiner als r. Mit
diesem Lemma können wir jetzt allgemein die Konvergenz von Folgen behandeln deren
n-tes Folgenglied eine rationale Funktion in n ist, also ein Quotient zweier Polynome
in n.
89
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
Satz 6.8 (Rationale Folgen in n)
Seien K ∈ {R, C}, r, s ∈ N und a0 , . . . , ar , b0 , . . . , bs ∈ K mit ar 6= 0 und bs 6= 0. Dann
gelten:
(a) Ist r < s, so ist
ar nr + ar−1 nr−1 + · · · + a0
= 0.
n→∞ bs ns + bs−1 ns−1 + · · · + b0
lim
(b) Ist r = s, so ist
ar nr + ar−1 nr−1 + · · · + a0
ar
= .
n→∞ br nr + br−1 nr−1 + · · · + b0
br
lim
(c) Ist r > s, so ist die Folge
ar nr + ar−1 nr−1 + · · · + a0
bs ns + bs−1 ns−1 + · · · + b0
n
divergent.
Beweis: Nach Lemma 7 gibt es reelle Konstanten t1 , t2 > 0 mit
r
X
|ar |
∀(x ∈ K, |x| ≥ t1 ) :
· |x|r < ak xk < 2|ar | · |x|r und
2
k=0
s
X
|bs |
bk xk < 2|bs | · |x|s .
· |x|s < ∀(x ∈ K, |x| ≥ t2 ) :
2
k=0
Nach §4.Lemma 4 existiert weiter ein n0 ∈ N mit n0 ≥ max{t1 , t2 }. Insbesondere ist
|bs ns + · · · + b0 | > 0 für alle n ∈ N mit n ≥ n0 , die Folge ist also ab dem Startwert n0
überhaupt definiert.
(a) Für jedes n ∈ N mit n ≥ n0 gilt
ar nr + ar−1 nr−1 + · · · + a0 |ar nr + ar−1 nr−1 + · · · + a0 |
4|ar | 1
bs ns + bs−1 ns−1 + · · · + b0 = |bs ns + bs−1 ns−1 + · · · + b0 | < |bs | ns−r ,
und die Behauptung folgt mit Lemma 4.(b,e).
(b) Nach Satz 6.(a,b) gelten
lim
n→∞
r
X
ak
k=0
1
nr−k
= ar und lim
n→∞
r
X
k=0
bk
1
nr−k
= br ,
also ist nach Satz 6.(d) auch
ar + ar−1 n1 + · · · + a0 n1r
ar nr + ar−1 nr−1 + · · · + a0
ar
=
lim
= .
1
1
r
r−1
n→∞ br n + br−1 n
n→∞ br + br−1 + · · · + b0 r
+ · · · + b0
br
n
n
lim
90
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
(c) Für jedes n ∈ N mit n ≥ n0 gilt
ar nr + ar−1 nr−1 + · · · + a0 |ar nr + ar−1 nr−1 + · · · + a0 |
|ar | r−s
|ar |
≥
n,
bs ns + bs−1 ns−1 + · · · + b0 = |bs ns + bs−1 ns−1 + · · · + b0 | > 4|bs | n
4|bs |
und nach §4.Lemma 4 ist dies nicht nach oben beschränkt. Die Behauptung folgt nun
mit Lemma 2.(a).
Zum Ende dieses Abschnitts wollen wir noch einen
letzten wichtigen Begriff einführen, der den Grenzwertbegriff etwas verallgemeinert. Wir schauen uns zunächst
einmal das Beispiel der Folge
1
0.5
an = (−1)n
0
5
10
15
20
wie nebenstehend gezeigt an. Diese Folge ist natürlich
nicht konvergent, sie besitzt ja beispielsweise konvergente Teilfolgen, die gegen verschiedene Grenzwerte konvergieren. Man ist trotzdem versucht zu sagen, dass +1 und
−1 zwar keine Grenzwerte aber etwas Grenzwertarti”
ges“ sind. Man spricht hier von Häufungspunkten der
Folge (an )n∈N . Es gibt im wesentlichen zwei verschiedene, aber äquivalente, Arten einen
Häufungspunkt zu definieren, einmal über Teilfolgen und einmal über eine –n0 Defi”
nition“. Wir wählen hier die erste Möglichkeit und beweisen anschließend, dass sie zur
zweiten Version äquivalent ist.
–0.5
–1
Definition 6.8: Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. Eine Element a ∈
K heißt ein Häufungspunkt von (an )n∈N wenn es eine gegen a konvergente Teilfolge
(ank )k∈N von (an )n∈N gibt.
Einige Beispiele von Häufungspunkten sind wie folgt:
1. Ist (an )n∈N −→ a ∈ K, so konvergiert nach Lemma 1.(a) auch jede Teilfolge von
(an )n∈N gegen a, d.h. a ist der einzige Häufungspunkt von (an )n∈N .
2. Die Folge ((−1)n )n∈N hat genau zwei Häufungspunkte nämlich −1 und 1.
3. Die Folge (sin(n))n∈N hat jede reelle Zahl a ∈ [−1, 1] als Häufungspunkt. Das ist
nicht mehr so offensichtlich, auf einen Beweis wollen wir aber verzichten.
Lemma 6.9 (Charakterisierung von Häufungspunkten)
Sei K ∈ {R, C} und seien (an )n∈N eine Folge in K und a ∈ K. Dann ist a genau dann
ein Häufungspunkt der Folge (an )n∈N wenn es für jedes > 0 und jedes n0 ∈ N stets
ein n ∈ N mit n ≥ n0 und |an − a| < gibt.
91
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
Beweis: ”=⇒” Es gibt eine Teilfolge (ank )k∈N von (an )n∈N mit (ank )k∈N −→ a. Seien
> 0 und m ∈ N gegeben. Dann existiert ein k0 ∈ N mit |ank − a| < für alle k ∈ N
mit k ≥ k0 . Setze k := max{k0 , m} ∈ N. Dann ist nk ∈ N mit nk ≥ k ≥ m und
|ank − a| < .
”⇐=” Zunächst existiert ein n1 ∈ N mit |an1 − a| < 1. Ist k ∈ N mit k ≥ 1 und ist nk
schon definiert, so wähle ein nk+1 ∈ N mit nk+1 ≥ nk +1 > nk und |ank+1 −a| < 1/(k+1).
Induktiv wird so eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| < 1/k für alle k ∈ N
definiert. Nach Lemma 4.(d,e) gilt auch (ank )k∈N −→ a. Damit ist a ein Häufungspunkt
der Folge (an )n∈N .
In logischen Quantoren geschrieben, wird die Bedingung des Lemmas zu
∀( > 0)∀(n0 ∈ N)∃(n ≥ n0 ) : |an − a| < .
Während die Konvergenzdefinition fordert, dass die Folge ab einem geeigneten Index
ganz in einem beliebig kleinen vorgegebenen Kreis mit Mittelpunkt a liegt, wird hier
nur gefordert, dass die Folge immer wieder in einen solchen Kreis zurückkehrt.
6.2
Reelle Zahlenfolgen
In diesem Abschnitt wollen wir auf einige spezielle Eigenschaften diskutieren, die nur
den reellen aber nicht den komplexen Fall betreffen. Die Folgen ((−1)n )n∈N und (n)n∈N
sind beide divergent, aber auf sehr verschiedene Weise. Man ist versucht zu sagen,
dass letztere Folge gegen +∞ konvergiert, und eine derartige Verallgemeinerung des
Konvergenzbegriffs stellt sich tatsächlich als sinnvoll heraus. Zur exakten Definition
müssen wir uns nur an die in §4.3 eingeführten erweiterten reellen Zahlen R = R ∪
{−∞, +∞} erinnern. Konvergenz gegen ±∞ kann in R wie folgt definiert werden:
Definition 6.9 (Konvergenz in R)
Sei (an )n∈N eine reelle Zahlenfolge.
(a) Die Folge (an )n∈N konvergiert in R gegen +∞ wenn es für jedes c ∈ R ein n0 ∈ N
mit an > c für alle n ∈ N mit n ≥ n0 gibt.
(b) Die Folge (an )n∈N konvergiert in R gegen −∞ wenn es für jedes c ∈ R ein n0 ∈ N
mit an < c für alle n ∈ N mit n ≥ n0 gibt.
Nach der archimedischen Eigenschaft der reellen Zahlen §4.Lemma 4 ist beispielsweise
(n)n∈N −→ +∞. In Formeln ausgedrückt ist
(an )n∈N −→ +∞ ⇐⇒ ∀(c ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an > c,
(an )n∈N −→ −∞ ⇐⇒ ∀(c ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an < c.
Weiter sagen wir das eine reelle Zahlenfolge (an )n∈N in R konvergiert, wenn sie entweder
in R konvergiert oder in R gegen ±∞ konvergiert. Der Zusatz in R“ ist hier wichtig,
”
92
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
wenn nur von Konvergenz die Rede ist, so ist dies im Sinne der Definition des vorigen
Abschnitts gemeint, also ohne ±∞ als Grenzwerte zuzulassen. In der Literatur finden
Sie oft auch die alternative Bezeichnung bestimmt divergent gegen +∞ beziehungs”
weise −∞“ oder auch divergent gegen ±∞“. Wir sprechen hier von Konvergenz in
”
”
R“ da die formalen Eigenschaften der Konvergenz in R beinahe identisch mit denen
der gewöhnlichen Konvergenz sind.
Auf zwei Mißverständnisse wollen wir hier gesondert hinweisen. Eine divergente
Folge muss keinesfalls gegen +∞ oder −∞ konvergieren, beispielsweise sind die Folgen
an = (−1)n oder an = (−1)n n beide divergent und auch nicht in R konvergent. Weiter
muss eine gegen +∞ konvergente Folge keinesfalls monoton steigend sein, sie muss nur
schließlich über jeder vorgegebenen Grenze liegen, darf aber ruhig immer mal wieder
kleiner werden. Ein Beispiel hierfür ist etwa die Folge an = n + 2(−1)n .
Die Aussagen des vorigen Abschnitts übertragen sich, soweit sinnvoll, auch auf die
Konvergenz in R. Insbesondere gelten die Rechenregeln für Grenzwerte solange die
rechte Seite überhaupt definiert ist, also beispielsweise nicht von der Form ∞ − ∞ oder
0 · ∞ ist. Für den Quotienten konvergenter Folgen kann man dabei zusätzlich zu den
Regeln aus §4.3 noch
x
x
=
:= 0
+∞
−∞
für alle x ∈ R und
+∞
−∞
:= sign(x) · ∞ sowie
:= − sign(x) · ∞
x
x
für alle x ∈ R\{0} vereinbaren. Auch einen Zusammenhang mit Nullfolgen kann man
leicht herstellen, für eine reelle oder komplexe Zahlenfolge (an )n∈N mit an 6= 0 für alle
n ∈ N ist genau dann |an | −→ +∞ wenn (1/an )n∈N eine Nullfolge ist. Schließlich kann
man im reellen Fall die Divergenzaussage in Satz 8.(c) noch zu
ar n r + · · · + a0
= sign(ar ) · sign(bs ) · ∞
n→∞ bs ns + · · · + b0
lim
für r > s verschärfen. Da wie schon eingangs bemerkt eine Vorlesung ausgefallen ist,
haben wir in der Vorlesung auf den Beweis all dieser Dinge verzichtet, im Folgenden
finden Sie die ausgelassenen Beweisteile.
Seien (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen.
1. Ist (an )n∈N −→ +∞, so ist (an )n∈N offenbar nach oben unbeschränkt aber nach
unten beschränkt. Letzteres gilt da es ein n0 ∈ N mit an > 0 für alle n ≥ n0
gibt und setzen wir c := min{0, a0 , . . . , an0 −1 }, so ist an ≥ c für alle n ∈ N. Ist
(an )n∈N −→ −∞, so ist (an )n∈N analog nach unten unbeschränkt und nach oben
beschränkt.
2. Konvergiert (an )n∈N in R gegen ein a ∈ R, so konvergiert auch jede Teilfolge von
(an )n∈N gegen a. Dies ist analog zu Lemma 1.(a).
93
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
3. Die Folge (an )n∈N kann auch in R höchstens gegen ein a ∈ R konvergieren. In der
Tat, nach Lemma 1.(b) gibt es höchstens einen reellen Grenzwert. Nach Aussage
(1) und Lemma 2.(a) kann die Folge auch nicht gleichzeitig gegen eine reelle Zahl
und ±∞ konvergieren. Schließlich kann sie nach (1) auch nicht gleichzeitig gegen
+∞ und −∞ konvergieren. Für eine in R konvergente Folge schreiben wir auch
wieder
lim an ∈ R
n→∞
für den eindeutig bestimmten Grenzwert in R.
4. Setzen wir | + ∞| := | − ∞| := ∞, so überträgt sich auch Lemma 2.(b) auf in
R konvergente Folgen. Für den Fall eines reellen Grenzwerts ist dies das Lemma
2.(b) und für den Grenzwert ±∞ ist die Aussage klar.
5. Der Satz 3 erweitert sich zu der Aussage das überhaupt jede monoton steigende reelle Zahlenfolge in R gegen ihr Supremum konvergiert und jede monoton
fallende reelle Zahlenfolge gegen ihr Infimum konvergiert. Auch beide Aussagen
von Lemma 5 übertragen sich offenbar auf die Konvergenz in R. Etwas genauer
können wir sagen: Sind (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen mit an ≤ bn
für alle n ∈ N und (an )n∈N −→ +∞, so ist auch (bn )n∈N −→ +∞. Ist nämlich
c ∈ R, so existiert ein n0 ∈ N mit an > c für alle n ∈ N mit n ≥ n0 , und für jedes
n ∈ N mit n ≥ n0 ist damit auch bn ≥ an > c. Analog folgt aus an ≤ bn für alle
n ∈ N und (bn )n∈N −→ −∞ auch (an )n∈N −→ −∞.
6. Auch die Rechenregeln für Folgengrenzwerte Satz 6 gelten für in R konvergente Folgen (an )n∈N , (bn )n∈N soweit die rechte Seite überhaupt definiert ist. Seien
nämlich a, b die jeweiligen Grenzwerte der beiden Folgen. Sind a, b ∈ R so wissen
wir bereits alles nach Satz 6, es sind also nur noch die Fälle zu betrachten in denen ±∞ als Grenzwerte vorkommen. Wir gehen dies der Reihe nach für Summen,
Produkte und Quotienten durch.
(a) Wir beginnen mit der Summenfolge. Damit a + b definiert ist, muss {a, b} =
6
{+∞, −∞} gelten. Sei etwa a = ∞. Dann ist b ∈ R ∪ {∞} und auf jeden
Fall ist (bn )n∈N damit nach unten beschränkt, es gibt also ein d ∈ R mit
bn ≥ d für alle n ∈ N. Sei c ∈ R. Dann existiert ein n0 ∈ N mit an > c − d
für alle n ∈ N mit n ≥ n0 und für n ∈ N mit n ≥ n0 folgt damit auch
an + bn ≥ an + d > c − d + d = d. Folglich ist (an + bn )n∈N −→ +∞ = a + b.
Die anderen Fälle sind analog.
(b) Nun kommen wir zu den Produkten, dies ist etwas komplizierter da wir
diesmal auch die Vorzeichen von a und b berücksichtigen müssen. Damit
a · b definiert ist muss a, b 6= 0 sein, da wir ja a ∈ {+∞, −∞} oder b ∈
{+∞, −∞} annehmen. Wir betrachten zunächst den Fall a = +∞. Wir
behaupten das es ein n1 ∈ N und eine Konstante β > 0 gibt so, dass für alle
n ∈ N mit n ≥ n1 im Fall b > 0 stets bn > β ist und im Fall b < 0 stets
94
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
bn < −β ist. Hierzu unterscheiden wir drei verschiedene Fälle. Zunächst sei
b ∈ R und setze β := |b|/2 > 0. Es gibt ein n1 ∈ N mit |bn − b| < |b|/2 für
alle n ∈ N mit n ≥ n1 . Ist weiter b > 0, so folgt für alle n ∈ N mit n ≥ n1
auch bn = b − (b − bn ) ≥ b − |bn − b| > b − |b|/2 = |b|/2 = β, und ist b < 0
so ist für alle n ∈ N mit n ≥ n1 analog auch bn < −|b|/2 = −β. Ist dagegen
b ∈ {+∞, −∞}, so setze β := 1 > 0. Im Fall b = +∞ existiert ein n1 ∈ N
mit bn > 1 = β für alle n ∈ N mit n ≥ n1 und im Fall b = −∞ gibt es
ebenso ein n1 ∈ N mit bn < −1 = −β für alle n ∈ N mit n ≥ n1 .
Damit ist diese Zwischenbehauptung bewiesen. Nun sei ein c ∈ R gegeben.
Dann existiert ein n2 ∈ N mit an > |c|/β für alle n ∈ N mit n ≥ n2 . Setze
nun n0 := max{n1 , n2 }. Sei n ∈ N mit n ≥ n0 gegebem. Im Fall b > 0 haben
wir dann bn > β > 0 und somit
an bn >
|c|
|c|
bn ≥
· β = |c| ≥ c,
β
β
und im Fall b < 0 haben wir wegen bn < −β < 0 analog
an bn <
|c|
|c|
bn ≤ − · β = −|c| ≤ c.
β
β
Dies zeigt (an bn )n∈N −→ +∞ wenn b > 0 ist und (an bn )n∈N −→ −∞ wenn
b < 0 ist, wir haben also
lim (an bn ) = sign(b) · ∞ = (∞) · b = lim an · lim bn .
n→∞
n→∞
n→∞
Dabei interpretieren wir sign(+∞) := 1 und sign(−∞) := −1. Damit ist
alles gezeigt wenn a = +∞ ist. Die anderen drei Fälle, also a = −∞ oder
b = ±∞ folgen analog.
(c) Schließlich kommen wir zu den Quotienten. Wir schicken eine kleine Hilfsbehauptung voraus: Ist K ∈ {R, C} und ist (cn )n∈N eine Folge in K mit
cn 6= 0 für alle n ∈ N so gilt
1
ist eine Nullfolge.
lim |cn | = +∞ ⇐⇒
n→∞
cn n∈N
Dies ist im wesentlichen nur eine Umformulierung.
”=⇒” Nehme also (|cn |)n∈N −→ +∞ an. Sei > 0 gegeben. Dann existiert
ein n0 ∈ N mit |cn | > 1/ für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit
n ≥ n0 ist damit auch
1
= 1 < .
cn |cn |
Dies zeigt (1/cn )n∈N −→ 0.
95
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
”⇐=” Sei c ∈ R. Dann existiert ein n0 ∈ N mit
1
1
1
= <
|cn |
cn
|c| + 1
für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist damit auch
|cn | > |c| + 1 > |c| ≥ c,
und wir haben (cn )n∈N −→ +∞ eingesehen.
Damit ist diese erste Behauptung bewiesen. Im reellen Fall K = R kann
man die Aussage noch etwas verfeinern. Ist (cn )n∈N eine Nullfolge und haben
alle Folgenglieder dasselbe Vorzeichen σ ∈ {−1, 1}, so ist |cn | = σcn für alle
n ∈ N und es folgt (cn )n→∞ −→ σ·∞. Wir kommen jetzt zur Behandlung der
Quotientenfolge (an /bn )n∈N wobei wieder bn 6= 0 für alle n ∈ N vorausgesetzt
sei. Ist a ∈ R und b ∈ R\{0}, so sind wir in der Situation von Satz 6.(d). Nun
sei a ∈ R und b ∈ {−∞, +∞}. Dann ist insbesondere (|bn |)n∈N −→ +∞, also
ist (1/bn )n∈N eine Nullfolge und da (an )n∈N nach Lemma 2.(a) beschränkt ist,
ist nach Lemma 4.(c) auch der Quotient (an /bn )n∈N eine Nullfolge. Definieren
wir also
x
x
:=
:= 0
+∞
−∞
für jedes x ∈ R, so gilt die Grenzwertformel für Quotienten auch in dieser
Situation. Im nächsten Fall ist a ∈ R\{0}, b = 0 und alle Folgenglieder bn
für n ∈ N haben dasselbe Vorzeichen, d.h. es existiert ein σ ∈ {−1, 1} mit
sign(bn ) = σ für alle n ∈ N. Wie oben bemerkt ist dann (1/bn )n∈N −→ σ · ∞
und mit der schon behandelten Produktformel folgt
an
1
= an ·
−→ (σa) · ∞.
bn n∈N
bn n∈N
Im letzten Fall ist b ∈ R\{0} und a ∈ {−∞, +∞}. Dann ist nach Satz 6.(d)
auch (1/bn )n∈N −→ 1/b. Mit dem schon behandelten Produktfall folgt
1
a
an
= an ·
−→ ,
bn n∈N
bn n∈N
b
wenn wir
+∞
−∞
:= sign(x) · ∞ und
:= − sign(x) · ∞
x
x
für jedes x ∈ R\{0} definieren. Mit den hier gegebenen Interpretationen von
Quotienten mit ±∞ im Zähler oder im Nenner gilt also auch die Quotientenformel für Grenzwerte in R solange die rechte Seite definiert ist.
7. Als letzte Aussage wollen wir uns noch um Satz 8.(c) kümmern. Es seien also
K ∈ {R, C} und r, s ∈ N mit r > s sowie a0 , . . . , ar , b0 , . . . , bs ∈ K mit ar 6= 0
96
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
und bs 6= 0 gegeben. Im Beweis von Satz 8.(c) haben wir bereits gesehen, dass es
ein n0 ∈ N mit
ar nr + · · · + a0 |ar |
bs ns + · · · + b0 ≥ 4|bs | · n
für alle n ∈ N mit n ≥ n0 gibt, und dies liefert
ar nr + · · · + a0 = ∞.
lim
n→∞ bs ns + · · · + b0 Im reellen Fall K = R können wir noch etwas mehr sagen. Nach Satz 8.(b) wissen
wir
1
ar nr + · · · + a0
ar
lim
·
=
6= 0,
r−s
s
n→∞
n
bs n + · · · + b0
bs
und wegen (nr−s )n∈N −→ +∞ ist damit
ar n r + · · · + a0
ar
lim
= sign
· ∞ = sign(ar ) · sign(bs ) · ∞.
s
n→∞ bs n + · · · + b0
bs
Nun kommen wir wieder zu Dingen, die tatsächlich in der Vorlesung behandelt wurden.
Die Definition der Häufungspunkte einer reellen Folge läßt sich wörtlich auf Häufungspunkte in R übertragen. Die neu hinzukommenden Häufungspunkte lassen sich dabei
leicht beschreiben, für jede reelle Zahlenfolge (an )n∈N gelten
+∞ ist Häufungspunkt von (an )n∈N ⇐⇒ (an )n∈N ist nach oben unbeschränkt,
−∞ ist Häufungspunkt von (an )n∈N ⇐⇒ (an )n∈N ist nach unten unbeschränkt.
Ist nämlich +∞ ein Häufungspunkt von (an )n∈N in R, so existiert eine Teilfolge (ank )k∈N
von (an )n∈N mit (ank )k∈N −→ +∞, und damit ist (ank )k∈N und somit auch (an )n∈N nach
oben unbeschränkt. Nun nehme umgekehrt an, dass (an )n∈N nach oben unbeschränkt
ist. Dann existiert insbesondere ein n0 ∈ N mit an0 > 0. Ist jetzt k ∈ N und ist nk
bereits definiert, so existiert auch ein nk+1 ∈ N mit
ank+1 > max{a0 , a1 , . . . , ank , k + 1},
also insbesondere ank+1 > k + 1 und nk+1 > nk . Damit wird induktiv eine Teilfolge
(ank )k∈N von (an )n∈N mit ank > k für alle k ∈ N definiert. Damit ist auch limk→∞ ank =
+∞ und wir haben eine gegen +∞ konvergente Teilfolge der Folge (an )n∈N gefunden,
d.h. +∞ ist ein Häufungspunkt dieser Folge. Die Aussage über den Häufungspunkt
−∞ folgt analog.
Wir werden zeigen, dass in den erweiterten reellen Zahlen R jede reelle Zahlenfolge
einen Häufungspunkt besitzt. Wir werden sogar noch mehr einsehen, es gibt immer
einen kleinsten und einen größten Häufungspunkt der Folge, und diese beiden können
wir sogar recht explizit angeben. Sei also (an )n∈N eine völlig beliebige reelle Zahlenfolge.
Für jedes n ∈ N betrachten wir
An := sup ak = sup{ak |k ∈ N, k ≥ n} ∈ R ∪ {∞}.
k≥n
97
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
Wegen {ak |k ∈ N, k ≥ n + 1} ⊆ {ak |k ∈ N, k ≥ n} gilt, etwa nach Aufgabe 12.(a), die
Ungleichung An+1 ≤ An . Damit ist (An )n∈N eine monoton fallende Folge in R und nach
der Erweiterung von Satz 3 auf die erweiterten reellen Zahlen konvergiert diese Folge
gegen ihr Infimum, also existiert der sogenannte Limes Superior
s := lim An = inf An ∈ R.
n→∞
n∈N
Wir wollen zunächst klären wann s eine reelle Zahl ist. Hierzu sind verschiedene Fälle
zu unterscheiden. Ist die Folge (an )n∈N nach oben unbeschränkt, so ist für jedes n ∈ N
auch die Menge {ak |k ∈ N, k ≥ n} nach oben unbeschränkt, also An = +∞. Somit ist
auch der Grenzwert s = +∞. Nun nehme an, dass (an )n∈N nach oben beschränkt ist,
d.h. es gibt ein c ∈ R mit an ≤ c für alle n ∈ N. Für jedes n ∈ N ist c dann auch eine
obere Schranke der Menge {ak |k ∈ N, k ≥ n}, und wir haben An ≤ c. Als nicht reeller
Wert von s kommt also nur noch −∞ in Frage. Hierzu behaupten wir:
s = −∞ ⇐⇒ lim an = −∞.
n→∞
Ist nämlich s = −∞ so folgt wegen an ≤ An für alle n ∈ N auch limn→∞ an = −∞.
Nun nehme umgekehrt (an )n∈N −→ −∞ an. Sei a ∈ R. Dann existiert ein n0 ∈ N mit
an < a − 1 für alle n ∈ N mit n ≥ n0 . Sei jetzt n ∈ N mit n ≥ n0 gegeben. Für jedes
k ∈ N mit k ≥ n ≥ n0 ist dann ak < a − 1, d.h. a − 1 ist eine obere Schranke der Menge
{ak |k ∈ N, k ≥ n}, und somit ist An ≤ a − 1 < a. Dies beweist (An )n∈N −→ −∞, also
s = −∞. Damit ist diese Zwischenbehauptung bewiesen.
Insgesamt ist s also genau dann eine reelle Zahl wenn die Folge (an )n∈N nach oben
beschränkt ist und nicht in R gegen −∞ konvergiert. Der Limes Superior s ist keine
obere Schranke der Folge, ist beispielsweise an = 1/n für n ≥ 1, so ist auch An = 1/n
für n ≥ 1 und es folgt s = limn→∞ An = 0, die gesamte Folge ist hier also größer als
ihr Limes Superior. Selbst wenn wir etwas über den Limes Superior hinausgehen, also
ein a mit a > s betrachten, so muss a keine obere Schranke sein, es ist aber zumindest
eine obere Schranke für so gut wie alle Folgenglieder, nämlich für alle Folgenglieder
bis auf höchstens endlich viele Ausnahmen. Dies ist der Inhalt der folgenden kleinen
Hilfsaussage: Für jedes a ∈ R besteht die folgende Äquivalenz:
a > s ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b < a ∧ ∀(n ∈ N, n ≥ n0 ) : an < b] .
In der Vorlesung hatten wir diesen Beweis und alles bis zum nächsten Satz, wieder aus
Zeitgründen, weggelassen, an dieser Stelle wollen wir aber alles vollständig durchführen.
Sei also ein a ∈ R gegeben. Zunächst nehme a > s an, also insbesondere s 6= +∞
und a 6= −∞. Da a > s = inf{An |n ∈ N} keine untere Schranke der Menge {An |n ∈ N}
ist, existiert ein n0 ∈ N mit An0 < s. Weiter existiert ein b ∈ R mit An0 < b < a,
nämlich b = An0 + 1 falls a = +∞ ist und b := (s + An0 )/2 wenn a ∈ R ist. Für jedes
n ∈ N mit n ≥ n0 ist auch an ≤ An0 < b. Nun nehme umgekehrt an, dass es ein b ∈ R
und eine natürliche Zahl n0 ∈ N mit b < a und an < b für alle n ∈ N mit n ≥ n0 gibt.
Dann gilt auch
s ≤ An0 = sup{an |n ∈ N, n ≥ n0 } ≤ b < a,
98
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
also ist s < a. Damit ist diese Zwischenbehauptung bewiesen. Als nächste Aussage wollen wir zeigen, dass s ein Häufungspunkt von (an )n∈N in R ist. Ist dabei s = +∞, so
ist (an )n∈N nach oben unbeschränkt und wir wissen bereits das s = +∞ ein Häufungspunkt von (an )n∈N ist. Ist s = −∞, so ist (an )n∈N −→ −∞ und s = −∞ ist sogar der
Grenzwert von (an )n∈N , also erst recht ein Häufungspunkt. Nun nehme s ∈ R an und
wir wollen Lemma 9 anwenden. Seien also ein > 0 und ein n1 ∈ N gegeben. Wegen
s + > s existieren eine reelle Zahl b ∈ R und ein Index n2 ∈ N mit b < s + und
an < b für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Dann gilt
s − < s = inf{An |n ∈ N} ≤ An0 = sup{an |n ∈ N, n ≥ n0 },
und nach §4.Lemma 2 existiert ein n ∈ N mit n ≥ n0 und an > s − . Insbesondere ist
also n ≥ n1 . Wegen n ≥ n2 ist auch an < b < s + , also haben wir s − < an < s + und dies bedeutet |an − s| < . Nach Lemma 9 ist s damit auch in diesem Fall ein
Häufungspunkt von (an )n∈N .
Tatsächlich ist s nicht nur irgendein Häufungspunkt von (an )n∈N sondern der größte
solche Häufungspunkt. Dies ist nicht mehr schwer zu beweisen. Sei a ∈ R ein beliebiger
Häufungspunkt von (an )n∈N . Wir müssen zeigen, dass dann a ≤ s gilt. Andernfalls
wäre a > s und wie oben gezeigt gibt es b ∈ R und n0 ∈ N mit b < a und an < b für
alle n ∈ N mit n ≥ n0 . Insbesondere ist die Folge (an )n∈N nach oben beschränkt, also
ist +∞ kein Häufungspunkt von (an )n∈N und wir haben a 6= +∞. Folglich ist a ∈ R
und nach Lemma 9 existiert ein n ∈ N mit n ≥ n0 und |an − a| < a − b. Dies ergibt
aber den Widerspruch
an < b = a − (a − b) < a − |an − a| ≤ a − (a − an ) = an ,
und somit muss a ≤ s sein. Wir fassen diese Überlegungen und einige Ergänzungen in
einem Satz zusammen.
Satz 6.10 (Limes Superior und Limes Inferior)
Sei (an )n∈N eine reelle Zahlenfolge.
(a) Der Limes Superior
lim sup an := lim sup ak ∈ R
n→∞ k≥n
n→∞
ist der größte Häufungspunkt der Folge (an )n∈N in R und der Limes Inferior
lim inf an := lim inf ak ∈ R
n→∞
n→∞ k≥n
ist der kleinste Häufungspunkt der Folge (an )n∈N in R.
(b) Ist (an )n∈N in R konvergent mit (an )n∈N −→ a, so ist auch
lim sup an = lim inf an = a = lim an .
n→∞
n→∞
99
n→∞
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
(c) Es gilt
lim inf an ≤ lim sup an
n→∞
n→∞
und genau dann ist lim sup an = lim inf an wenn die Folge (an )n∈N in R konvern→∞
n→∞
giert.
(d) Es gelten
lim sup an = +∞ ⇐⇒ (an )n∈N ist nach oben unbeschränkt,
n→∞
lim sup an = −∞ ⇐⇒
n→∞
lim an = −∞,
n→∞
lim inf an = −∞ ⇐⇒ (an )n∈N ist nach unten unbeschränkt,
n→∞
lim inf an = +∞ ⇐⇒
n→∞
lim an = +∞.
n→∞
(e) Für jedes a ∈ R gelten
a > lim sup an ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b < a ∧ ∀(n ∈ N, n ≥ n0 ) : an < b]
n→∞
und
a < lim inf an ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b > a ∧ ∀(n ∈ N, n ≥ n0 ) : an > b] .
n→∞
Beweis: Die Aussagen (a,d,e) über den Limes Superior haben wir bereits oben bewiesen
und die über den Limes Inferior folgen analog. Es ist also nur noch (b) und (c) zu zeigen.
Da der Grenzwert einer in R konvergenten Folge ihr einziger Häufungspunkt ist, ist (b)
dabei eine unmittelbare Folgerung aus (a). Weiter ist die Ungleichung lim inf n→∞ an ≤
lim supn→∞ an ebenfalls nach (a) klar und ist (an )n∈N in R konvergent, so stimmen der
Limes Superior und der Limes Inferior nach (b) überein.
Wir nehmen nun a := lim supn→∞ an = lim inf n→∞ an an, und wollen (an )n∈N −→ a
in R zeigen. Ist a ∈ {+∞, −∞}, so ist dies klar nach Teil (d), wir müssen also nur noch
den Fall a ∈ R betrachten. Sei > 0 gegeben. Wegen a − < a < a + existieren nach
(e) zwei reelle Zahlen b1 , b2 ∈ R mit b1 > a − und b2 < a + sowie zwei natürliche
Zahlen n1 , n2 ∈ N mit an > b1 für alle n ∈ N mit n ≥ n1 und an < b2 für alle n ∈ N
mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Ist dann n ∈ N mit n ≥ n0 , so haben wir
a − < b1 < an < b2 < a + , also |an − a| < .
Dies zeigt (an )n∈N −→ a und auch (c) ist vollständig bewiesen.
Wir gehen jetzt einige Beispiele durch.
100
Mathematik für Physiker I, WS 2010/2011
Montag 06.12.2010
1. Es ist
lim inf (−1)n = −1 und lim sup(−1)n = 1
n→∞
n→∞
da −1 und 1 die beiden Häufungspunkte der Folge sind.
2. Die Folge an = (−1)n n ist nach oben und unten unbeschränkt, hat also +∞ und
−∞ als Häufungspunkte. Da dies die größten und kleinsten Elemente in R sind,
ist damit
lim inf (−1)n = −∞ und lim sup(−1)n = +∞.
n→∞
n→∞
3. Diesmal sei
(
n, n ist gerade,
an :=
0, n ist ungerade.
Offenbar sind 0 und +∞ dann zwei Häufungspunkte von (an )n∈N . Wegen an ≥ 0
für alle n ∈ N kann keine Teilfolge von (an )n∈N gegen eine negative Zahl oder
gegen −∞ konvergieren, also ist 0 der kleinste Häufungspunkt der Folge. Es
folgen
lim inf an = 0 und lim sup an = +∞.
n→∞
n→∞
4. Schließlich sei an = sin(n). Wir hatten bereits bemerkt, dass die Menge der
Häufungspunkte von (sin n)n∈N genau das Intervall [−1, 1] ist, und damit folgen
lim inf sin(n) = −1 und lim sup sin(n) = +1.
n→∞
n→∞
Der Satz 10 besagt insbesondere das jede reelle Zahlenfolge einen Häufungspunkt in R
hat. Eine direkte Konsequenz dieser Beobachtung ist der sogenannte Satz von HeineBorel:
Satz 6.11 (Satz von Heine-Borel)
Sei K ∈ {R, C}. Dann hat jede beschränkte Folge in K einen Häufungspunkt.
Beweis: Zunächst sei K = R. Ist dann (an )n∈N eine beschränkte reelle Zahlenfolge,
so ist nach Satz 10.(d) auch s := lim supn→∞ an ∈ R und nach Satz 10.(a) ist s ein
Häufungspunkt von (an )n∈N . Damit ist die Aussage im reellen Fall bewiesen.
Nun sei K = C und es sei (zn )n∈N eine beschränkte komplexe Zahlenfolge. Wie am
Ende von §5.2 festgehalten sind dann auch die reellen Zahlenfolgen (Re(zn ))n∈N und
(Im(zn ))n∈N beschränkt. Wie bereits gezeigt hat (Re(zn ))n∈N einen Häufungspunkt a ∈
R, und somit gibt es eine gegen a konvergente Teilfolge (Re(znk ))k∈N von (Re(zn ))n∈N .
Ebenso gibt es dann auch eine gegen ein b ∈ R konvergente Teilfolge (Im(znkl ))l∈N von
(Im(znk ))k∈N . Nach Lemma 1.(a) ist auch (Re(znkl ))l∈N −→ a und Lemma 1.(d) ergibt
damit
(znkl )l∈N −→ a + ib ∈ C.
101
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
Damit ist a + ib ein Häufungspunkt von (zn )n∈N und der Satz ist auch im komplexen
Fall bewiesen.
Man kann den Satz von Heine-Borel auch direkter, und ohne den Limes Superior zu
verwenden, beweisen. Wie im Beweis gesehen reicht es den reellen Fall einzusehen, und
hierzu kann man zeigen das jede reelle Zahlenfolge immer eine monoton steigende oder
eine monoton fallende Teilfolge enthält. Mit Satz 3 folgt dann die Existenz eines reellen
Häufungspunkts einer jeden beschränkten reellen Zahlenfolge.
6.3
Cauchyfolgen
Vorlesung 13, Freitag 10.12.2010
Wir kommen nun zum letzten Thema dieses Kapitels. Ein Problem unserer Konvergenzdefinition ist, dass man zum Nachweis einer Konvergenzaussage (an )n∈N −→ a
immer bereits einen Kandidaten a für den Grenzwert der Folge kennen muss. Nur für
monotone reelle Zahlenfolgen konnten wir mit Satz 3 die Konvergenz der Folge einsehen ohne den Grenzwert kennen zu müssen. In diesem Abschnitt werden wir mit
dem Begriff einer Cauchyfolge eine weitere Möglichkeit kennenlernen, die Konvergenz
einer Folge ohne Kenntnis ihres Grenzwerts zu beweisen. Formal ist die Definition einer
Cauchyfolge recht ähnlich zur Konvergenzdefinition, man fordert nicht mehr das die
Folgenglieder einem Grenzwert a nahekommen, sondern das sich alle Folgenglieder mit
ausreichend großen Index einander nahekommen.
Definition 6.10 (Cauchyfolgen)
Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt eine Cauchyfolge wenn es für jedes
> 0 ein n0 ∈ N mit |an − am | < für alle n, m ∈ N mit n, m ≥ n0 gibt.
In logischen Quantoren geschrieben wird diese Definition zu
∀( > 0)∃(n0 ∈ N)∀(n, m ∈ N, n, m ≥ n0 ) : |an − am | < .
Ganz genauso wie bei der Definition der Konvergenz, kann man das <“ hier auch
”
gegen ein ≤“ ersetzen, die Folge ist also auch genau dann eine Cauchyfolge wenn
”
∀( > 0)∃(n0 ∈ N)∀(n, m ∈ N, n, m ≥ n0 ) : |an − am | ≤ gilt. Wir werden gleich sehen, dass jede konvergente Folge auch eine Cauchyfolge ist
und damit kennen wir dann bereits recht viele Beispiele von Cauchyfolgen. Zuvor wollen
wir aber ein explizites Beispiel einer Cauchyfolge diskutieren. Wir definieren rekursiv
eine reelle Zahlenfolge (an )n∈N indem wir
a0 := 0 und an+1 :=
1 − a2n
für alle n ∈ N
3
102
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
setzen. Beispielsweise sind a1 = 1/3, a2 = 8/27 und a3 = 665/2187. Die Folge ist weder
monoton steigend noch monoton fallend, auch nicht ab irgendeinem noch so großen
Startindex. Es ist auch nicht sofort zu sehen, ob die Folge (an )n∈N konvergent ist. Wir
werden im Folgenden einsehen, dass (an )n∈N eine Cauchyfolge ist. Wir beginnen mit
einer einfachen Beobachtung. Ist x ∈ R mit 0 < x < 1/3, so gelten auch 0 < x2 < 1/9
und 8/9 < 1 − x2 < 1, also insgesamt 8/27 < (1 − x2 )/3 < 1/3, also haben wir
1
8
1 − x2
1
=⇒ 0 <
<
< .
3
27
3
3
Insbesondere bedeutet dies das für jedes n ∈ N aus an ∈ (0, 1/3) auch an+1 = (1 −
a2n )/3 ∈ (0, 1/3) folgt. Da a2 = 8/27 ∈ (0, 1/3) gilt, folgt per vollständiger Induktion
auch 0 < an < 1/3 für alle n ∈ N mit n ≥ 2. Für jedes n ∈ N mit n ≥ 3 ergibt sich
weiter
1 − a2n 1 − a2n−1 1 2
= |an − a2n−1 | = 1 |an + an−1 | · |an − an−1 |
|an+1 − an | = −
3
3
3
3
|an | + |an−1 |
2
≤
|an − an−1 | < |an − an−1 |.
3
9
Ist wieder n ∈ N mit n ≥ 3, so sind damit auch
2
2
2
|an+2 − an+1 | <
|an+1 − an | <
|an − an−1 |,
9
9
3
2
2
|an+3 − an+2 | <
|an+2 − an+1 | <
|an − an−1 |,
9
9
∀(x ∈ R) : 0 < x <
und so fortfahrend folgt auch
k
2
|an − an−1 |,
|an+k − an+k−1 | ≤
9
für alle k ∈ N. Streng genommen ist dies ein Beweis durch vollständige Induktion auf
deren exakte Durchführung wir hier verzichten. Um zu sehen, dass hieraus die CauchyBedingung folgt, brauchen wir ein allgemeines Lemma, das mit der konkreten Situation
nichts zu tun hat.
Lemma 6.12 (Die geometrische Summe)
Seien q ∈ C und n ∈ N. Dann gilt
n
X
k=0
qk =
n
X
1 − q n+1
für q 6= 1, und
q k = n + 1 für q = 1.
1−q
k=0
Beweis:
Die Aussage für q = 1 ist klar, wir nehmen also q 6= 1 an. Schreibe s :=
Pn
k
k=0 q . Dann ist
q·s=
n
X
k=0
q k+1 = q n+1 +
n
X
k=0
103
q k − 1 = q n+1 − 1 + s,
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
also
(1 − q)s = s − qs = 1 − q n+1 ,
und dies ergibt die Behauptung.
Kommen wir mit diesem Lemma ausgerüstet zu unserem Beispiel zurück. Sei wieder
n ∈ N mit n ≥ 2 gegeben. Für jedes k ∈ N erhalten wir dann mit Lemma 12
k−1
k−1 i
k−1
X
X
X
2
|an+i+1 − an+i | ≤
|an+k − an | = (an+1+i − an+i ) ≤
|an+1 − an |
9
i=0
i=0
i=0
k !
n−2
9
2
9 2
9
=
1−
|an+1 − an | < |an+1 − an | ≤
|a3 − a2 |
7
9
7
7 9
n−2
2
17
=: An .
=
1701 9
Damit können wir leicht einsehen, dass (an )n∈N eine Cauchyfolge ist. Nach Aufgabe
(22) sowie den Rechenregeln für Grenzwerten wissen wir nämlich
17
lim
n→∞ 1701
n−2
2
= 0,
9
ist also > 0 gegeben, so existiert ein n0 ∈ N mit n0 ≥ 2 und An < für alle n ∈ N
mit n ≥ n0 . Sind dann n, m ∈ N mit n, m ≥ n0 , so können wir durch eventuelles
Vertauschen von n und m auch m ≥ n annehmen, und haben m = n + k für ein k ∈ N.
Damit ist dann |am − an | = |an+k − an | < An < . Somit ist (an )n∈N tatsächlich eine
Cauchyfolge.
Die Grundeigenschaften von Cauchyfolgen sind schnell eingesehen.
Lemma 6.13 (Grundeigenschaften von Cauchyfolgen)
Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K.
(a) Ist (an )n∈N konvergent, so ist (an )n∈N auch eine Cauchyfolge.
(b) Ist (an )n∈N eine Cauchyfolge, so ist (an )n∈N auch beschränkt.
(c) Sind (an )n∈N eine Cauchyfolge und (ank )k∈N eine konvergente Teilfolge von (an )n∈N
mit dem Grenzwert a ∈ K, so ist auch (an )n∈N −→ a.
Beweis: (a) Bezeichne a ∈ K den Grenzwert von (an )n∈N . Sei > 0 gegeben. Dann
existiert ein n0 ∈ N mit |an − a| < /2 für alle n ∈ N mit n ≥ n0 . Sind dann n, m ∈ N
mit n, m ≥ n0 so folgt auch
|an − am | = |an − a + a − am | ≤ |an − a| + |am − a| <
104
+ = .
2 2
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
Damit ist (an )n∈N eine Cauchyfolge.
(b) Es gibt ein n0 ∈ N mit |an − am | < 1 für alle n, m ∈ N mit n, m ≥ n0 . Setze
c := max{|a0 |, |a1 |, . . . , |an0 −1 |, |an0 | + 1} > 0.
Ist dann n ∈ N, so gilt im Fall n < n0 sofort |an | ≤ c und im Fall n ≥ n0 haben wir
ebenfalls |an | = |an − an0 + an0 | ≤ |an − an0 | + |an0 | < |an0 | + 1 ≤ c. Damit ist |an | ≤ c
für alle n ∈ N und (an )n∈N ist beschränkt.
(c) Sei > 0 gegeben. Dann existieren ein n0 ∈ N mit |an − am | < /2 für alle n, m ∈ N
mit n, m ≥ n0 und ein k0 ∈ N mit |ank − a| < /2 für alle k ∈ N mit k ≥ k0 . Sei n ∈ N
mit n ≥ n0 . Setzen wir k := max{k0 , n0 }, so ist |ank − a| < und wegen nk ≥ k ≥ n0
ist auch |an − ank | < /2. Insgesamt ist damit
|an − a| = |an − ank + ank − a| ≤ |an − ank | + |ank − a| <
+ = ,
2 2
und wir haben (an )n∈N −→ a bewiesen.
Damit eine Folge (an )n∈N eine Cauchyfolge ist, reicht es nicht aus, das sich aufeinanderfolgende Folgenglieder immer näher kommen,
die Cauchybedingung ist wesentlich
√
stärker. Beispielsweise ist
Zahlenfolge nicht nach oben
√ die durch an = n gegebene
√
beschränkt, es ist sogar ( n)n∈N −→ +∞, also ist ( n)n∈N insbesondere keine Cauchyfolge. Andererseits gilt für jedes n ∈ N stets
an+1 − an =
√
n+1−
√
√
√
√
√
( n + 1 − n) · ( n + 1 + n)
1
√
n=
=√
√
√
n+1+ n
n+1+ n
1
≤√
,
n+1
und nach Lemma 4.(e,f) ist (an+1 − an )n∈N eine Nullfolge.
Satz 6.14 (Cauchy-Kriterium)
Sei K ∈ {R, C}. Eine Folge (an )n∈N in K ist genau dann konvergent wenn (an )n∈N
eine Cauchyfolge ist.
Beweis: ”=⇒” Dies ist Lemma 13.(a).
”⇐=” Nach Lemma 13.(b) ist (an )n∈N beschränkt, hat also nach dem Satz von HeineBorel Satz 11 einen Häufungspunkt beziehungsweise eine konvergente Teilfolge. Nach
Lemma 13.(c) ist (an )n∈N selbst konvergent.
Wir kommen schließlich wieder zum Beispiel der rekursiv definierten Folge
a0 := 0 und an+1 :=
1 − a2n
für alle n ∈ N
3
105
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
zurück. Wir haben bereits eingesehen, dass (an )n∈N eine Cauchyfolge mit 0 < an < 1/3
für alle n ∈ N mit n ≥ 2 ist. Nach dem eben bewiesenen Satz ist (an )n∈N damit
konvergent, und nach Lemma 5.(a) gilt
1
.
a := lim an ∈ 0,
n→∞
3
Wenden wir die Rechenregeln für Grenzwerte an, so folgt weiter
2
1
−
lim
a
n
1 − a2n
1 − a2
n→∞
=
=
,
a = lim an+1 = lim
n→∞
n→∞
3
3
3
also ist
a2 + 3a − 1 = 0.
Fassen wir dies als eine quadratische Gleichung für a auf, so ergibt sich
r
√
√
−3 ± 13
9
13 − 3
3
a=− ±
+1=
=⇒ a =
2
4
2
2
da a ≥ 0 ist.
$Id: reihen.tex,v 1.11 2011/03/25 06:26:33 hk Exp $
§7
Reihen
Eine Reihe ist eine unendliche Summe“
”
a0 + a1 + a2 + · · · .
Die Summanden ai können dabei reell oder komplex sein. Historisch sind Reihen sehr
viel älter als Folgen, und im Gegensatz zu den Folgen sind sie auch von eigenständigen Interesse. Wir hatten gesagt das Folgen und ihr Konvergenzbegriff ein Hilfsbegriff
sind, auf den viele andere Grenzwertbegriffe zurückgeführt werden und dementsprechend werden wir unendliche Summen in Termen von Folgengrenzwerten definieren.
Angenommen die Folge (an )n∈N ist gegeben. Dann betrachten wir die sogenannten
Partialsummen
s0 := a0 , s1 := a0 + a1 , s2 := a0 + a1 + a2 , und allgemein sn :=
n
X
ak ,
k=0
also die endlichen Summen die jeweils durch Summation der ersten n + 1 Summanden
unserer unendlichen Summe gebildet werden. Damit können wir definieren:
106
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
Definition 7.1: Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. Bezeichne
!
n
X
(sn )n∈N :=
ak
k=0
n∈N
P
die Folge der zugehörigen Partialsummen. Wir nennen die Reihe ∞
n=0 an konvergent
wenn die Folge (sn )n∈N der Partialsummen konvergent ist und schreiben in diesem Fall
∞
X
an := lim sn = lim
n→∞
n=0
n→∞
n
X
ak .
k=0
Andernfalls heißt die Reihe divergent.
P∞
Oftmals bezeichnen wir mit dem Symbol
n=0 an auch die
P∞Folge der Partialsummen, selbst wenn die Reihe divergent ist. Dass das Symbol n=0 an sowohl die Folge
der Partialsummen als auch den eventuellen Grenzwert bezeichnet, ist normalerweise unproblematisch. Die jeweilige Bedeutung ist immer aus dem Kontext heraus klar.
Außerdem schreiben wir mit einem weiteren Bezeichnungsmißbrauch auch einfach
Sei
”
∞
X
an eine Reihe“,
n=0
dies soll dann bedeuten, dass (an )n∈N eine Folge ist und wir beabsichtigen die zugehörige Folge der Partialsummen zu untersuchen. Genau wie bei Folgen betrachtet man auch
Reihen mitPeinem beliebigen Startindex n0 ∈ N anstelle des Startindex 0, zum Beispiel
2
die Reihe P∞
n=1 1/n mit dem Startindex n0 = 1. Die Partialsummen sind in diesem
0 +n
Fall sn = nk=n
ak für n ∈ N. Oft ist es in diesem Zusammenhang dann etwas be0
quemer auch für die P
Folge der Partialsummen einen anderen Startindex zu verwenden,
beispielsweise sn = nk=n0 ak für n ∈ N mit n ≥ n0 . Die hiermit verbundene Willkür
ist dabei unproblematisch, da die Wahl des Startindex auf Konvergenz und eventuelle
Summe der Reihe keinen Einfluß hat. Genau wie im vorigen Abschnitt formulieren wir
die meisten Aussagem mit dem Startindex 0 oder 1, es sind aber implizit auch immer
alle Reihen mit einem anderen Startindex mit gemeint.
Lassen wir endlich viele Summanden am Beginn der Reihe einfach weg, so ändert
sich nichts
der
P∞am Konvergenzverhalten der Reihe aber sehr wohl am Grenzwert.PIn
n
Tat, ist n=0 an eine ReihePund n0 ∈ N, so hängen die Partialsummen sn = k=0 ak
0 +n
der Originalreihe und tn = nk=n
ak der verkürzten Reihe über die Beziehung
0
sn =
n
X
ak =
nX
0 −1
ak +
k=0
k=0
n
X
ak =
nX
0 −1
k=n0
ak + tn−n0
k=0
für alle n ∈ N mit n ≥ n0 zusammen, und somit konvergiert die Folge (sn )n∈N genau
dann wenn die Folge (tn )n∈N konvergiert und in diesem Fall ist
∞
X
n=0
an =
nX
0 −1
an +
n=0
107
∞
X
n=n0
an .
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
Wir wollen jetzt zwei einfache Beispiele von Reihen besprechen, und beginnen mit der
Reihe
∞
X
1
.
n(n − 1)
n=2
In diesem Beispiel können wir die Partialsummen sn explizit berechnen, dies haben wir
bereits am Anfang von §6 getan. Im einleitenden Beispiel (4) von §6 hatten wir
sn =
n
X
k=2
1
1
=1−
k(k − 1)
n
für alle n ∈ N mit n ≥ 2 nachgerechnet. Damit ist die Reihe konvergent und ihr
Grenzwert ist
∞
X
1
1
= lim 1 −
= 1.
n→∞
n(n
−
1)
n
n=2
Das zweite Beispiel ist die sogenannte geometrische Reihe, dies ist die aus den Potenzen
einer festen Zahl q ∈ C gebildete Reihe. Dieses Beispiel wird sich als derart wichtig
herausstellen, dass wir es in einem Satz festhalten wollen.
Satz 7.1 (Die geometrische Reihe)
P
n
Sei q ∈ C. Dann ist die geometrische Reihe ∞
n=0 q genau dann konvergent wenn
|q| < 1 ist, und in diesem Fall gilt
∞
X
n=0
qn =
1
.
1−q
Beweis: Nach §6.Lemma 12 ist die n-te Partialsumme für jedes n ∈ N als
( n+1
n
1−q
X
, q 6= 1,
k
1−q
q =
sn :=
n + 1, q = 1
k=0
gegeben. Für q = 1 ist die Folge der Partialsummen (sn )n∈N = (n + 1)n∈N divergent.
Nun sei q 6= 1. Dann ist die Folge (sn )n∈N nach §6.Satz 6.(a,b) genau dann konvergent
wenn die Folge (q n+1 )n∈N konvergent ist und nach Aufgabe (22) ist dies genau dann
der Fall wenn |q| < 1 gilt. Ist |q| < 1, so ist nach Aufgabe (22) und §6.Satz 6.(a,b) auch
1 − lim q n+1
1 − q n+1
1
n→∞
q = lim
=
=
.
n→∞ 1 − q
1−q
1−q
n=0
∞
X
n
Wir wollen kurz einige konkrete Beispiele geometrischer Reihen durchgehen.
108
Mathematik für Physiker I, WS 2010/2011
1. Die Reihe
Freitag 10.12.2010
∞
X
1
1 1 1
= 1 + + + + ···
n
2
2 4 8
n=0
ist eine geometrische Reihe mit q = 1/2, nach dem Satz ist sie also konvergent
mit der Summe
∞
X
1
1
=
= 2.
n
2
1 − 12
n=0
2. Wir berechnen die Zahl 0, 9. Nach der Definition der Dezimalschreibweise, die
wir zwar streng genommen in dieser Vorlesung nie definiert haben aber trotzdem
benutzen wollen, ist
1
1
1
1
1
1
0, 9 = 9 ·
+9·
+9·
+ ··· = 9 ·
+
+
+ ··· .
10
100
1000
10 100 1000
In der Klammer steht im wesentlichen eine geometrische Reihe mit q = 1/10, und
der Satz über die geometrische Reihe ergibt
!
n
n
∞ ∞ X
X
1
1
1
1
0, 9 = 9 ·
=9·
−1 =9·
= 9 · = 1.
1 −1
10
10
9
1 − 10
n=0
n=1
3. Als drittes und letztes Beispiel behandeln wir die Reihe
∞
X
(−1)n
2n
n=0
=1−
1 1 1
+ − + ···
2 4 8
Dies ist eine geometrische Reihe mit q = −1/2, also ergibt sich
∞
X
(−1)n
n=0
7.1
2n
=
1
2
= .
1
3
1 − −2
Grundeigenschaften von Reihen
Über die Partialsummen sind Reihen vollständig auf den Folgenbegriff zurückgeführt,
und wir können jetzt den ganzen in §6 entwickelten Apperat auf Reihen loslassen. Dies
führt zu einer ganzen Sequenz von grundlegenden Sätzen, Lemmata und Beobachtungen über Reihen und ihre Konvergenz. Wir beginnen mit einer einfachen Beobachtung
über den Zusammenhang von reellen und komplexen Reihen.
Lemma 7.2 (Real- und
P∞Imaginärteil komplexer Reihen)
Eine
P∞ n=0 zn ist genau dann konvergenz wenn die beiden reellen Reihen
P∞ komplexe Reihe
Re(z
)
und
n
n=0
n=0 Im(zn ) konvergent sind, und in diesem Fall gilt
∞
X
n=0
zn =
∞
X
Re(zn ) + i ·
n=0
∞
X
n=0
109
Im(zn ).
Mathematik für Physiker I, WS 2010/2011
Freitag 10.12.2010
Weiter ist eine reelle Reihe genau dann in R konvergent wenn sie in C konvergent ist.
Beweis: Klar nach §6.Lemma 1.(d,e).
Wie bei Folgen ist der komplexe Fall damit auch bei Reihen der allgemeine Fall.
Nun wollen wir einsehen, dass die Summanden einer konvergenten Reihe eine Nullfolge
bilden müssen. Leider stellt sich heraus, dass die Umkehrung dieser Tatsache nicht gilt,
eine Reihe deren Summanden gegen Null konvergieren ist im allgemeinen nicht selbst
konvergent. Ein Beispiel hierfür werden wir bald sehen.
P
Lemma 7.3: Sei K ∈ {R, C} und sei ∞
n=0 an eine konvergente Reihe. Dann ist (an )n∈N
eine Nullfolge und die Folge (sn )n∈N der Partialsummen der Reihe ist beschränkt.
Beweis: Nach §6.Lemma 2.(a) ist die Folge (sn )n∈N beschränkt, und nach §6.Satz 6.(a,b)
ist die Folge (an )n≥1 = (sn − sn−1 )n∈N eine Nullfolge, also ist auch die Folge (an )n∈N
selbst eine Nullfolge.
Im allgemeinen muss eine Reihe mit beschränkten Partialsummen nicht konvergent
sein, es gibt aber einen wichtigen Spezialfall in dem dies doch zutrifft, nämlich wenn alle
Summanden der Reihe reell und nicht negativ sind. Wir können für reelle Reihen sogar
noch etwas weiter gehen und wie in §6.2 zusätzlich noch den Begriff der Konvergenz in
den erweiterten reellen Zahlen R einführen, und dann können auch ±∞ als Summen
von Reihen auftauchen. Für Reihen mit konstanten Vorzeichen ergibt sich dann der
folgende Satz:
Satz 7.4: Es gelten:
P
P∞
(a) Sind ∞
a
und
n
n=0
n=0 bn zwei in R konvergente reelle Reihen mit an ≤ bn für
alle n ∈ N, so gilt auch
∞
∞
X
X
an ≤
bn .
n=0
n=0
P
(b) Eine reelle Reihe ∞
n=0 an mit an ≥ 0 für
P∞alle n ∈ N ist in R konvergent, und sie
ist genau dann in R konvergent wenn n=0 an < ∞ ist, wenn also die Folge der
Partialsummen der Reihe beschränkt ist.
Beweis: (a) P
Für jedes nP
∈ N gilt auch für die Partialsummen der beiden Reihen die
Ungleichung nk=0 ak ≤ nk=0 bk und mit §6.Lemma 5.(a) folgt die Behauptung.
(b) Die Folge der Partialsummen der Reihe ist monoton steigend, also folgt dies mit
§6.Satz 3.(a).
Eine (b) entsprechende Aussage gilt natürlich auch für Reihen mit negativen Summanden. Wir können Satz 4 sofort zur Behandlung einiger weiterer Beispiele verwenden, wir
110
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
P
2
wollen zeigen, dass die Reihe ∞
zein=1 1/n konvergiert. Nach dem Satz ist
P hierzu zu
2
gen, dass ihre Partialsummen beschränkt bleiben, beziehungsweise das ∞
1/n
<
∞
n=1
2
gilt. Nun haben wir für jedes n ∈ N mit n ≥ 2 die Abschätzung 1/n ≤ 1/n(n − 1) und
damit folgt
∞
∞
∞
X
X
X
1
1
1
=1+
≤1+
= 2 < ∞.
2
2
n
n
n(n − 1)
n=1
n=2
n=2
Dies beweist die Konvergenz der Reihe. Die Berechnung der Summe ist schwerer, und
für uns an dieser Stelle noch nicht direkt möglich. Bereits Euler hat gezeigt, dass die
Formel
∞
X
1
1 1
1
π2
=
1
+
+
+
+
·
·
·
=
n2
4 9 16
6
n=1
gilt. Etwas allgemeiner ist jetzt auch für jeden Exponenten k ∈ N mit k ≥ 2
∞
∞
X
X
1
1
≤
≤ 2 < ∞,
k
2
n
n
n=1
n=1
P
k
d.h. auch ∞
n=1 1/n konvergiert. Eine explizite Formel für diese Summe ist nur bei
geraden k bekannt, und auch diese wurde bereits von Euler angegeben.
Vorlesung 14, Montag 13.12.2010
Aus der letzten Sitzung kennen wir bereits einige Beispiele konvergenter Reihen.
Wie bei Folgen gibt es auch für Reihen Rechenregeln für die Grenzwerte. Die beiden
einfachsten dieser Regeln betreffen Summen und Vielfache von Reihen und sollen jetzt
schon bewiesen werden.
P
P∞
Lemma 7.5: Sei K ∈ {R, C} und seien ∞
n=0 an und
n=0 bn zwei konvergente Reihen
in K.
P
(a) Die Reihe ∞
n=0 (an + bn ) ist konvergent mit
∞
X
(an + bn ) =
n=0
(b) Für jedes c ∈ K ist die Reihe
∞
X
an +
n=0
P∞
n=0
∞
X
∞
X
bn .
n=0
can konvergent mit
(can ) = c ·
n=0
∞
X
n=0
111
an .
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
Beweis: Die jeweiligen Partialsummen sind die Summen beziehungsweise Vielfachen
der Partialsummen der gegebenen Reihen, und die Behauptung folgt damit mit §6.Satz
6.(a,b).
P
2
Als ein Beispiel wollen wir die Reihe ∞
n=2 1/n (n − 1) behandeln. Für jedes n ∈ N
mit n ≥ 2 gilt
1
1
n − (n − 1)
1
− 2 = 2
= 2
,
n(n − 1) n
n (n − 1)
n (n − 1)
und mit unseren eben bewiesenen Rechenregeln folgt
∞
X
n=2
X
∞ ∞
∞
X
X
1
1
1
1
1
=
− 2 =
−
2
n (n − 1) n=2 n(n − 1) n
n(n − 1) n=2 n2
n=2
=
∞
X
n=2
∞
X 1
1
π2
−
+
1
=
2
−
.
n(n − 1) n=1 n2
6
P
k
In der letzten Sitzung hatten wir gesehen, dass die Reihe ∞
n=1 1/n für jedes k ∈ N
mit k ≥ 2 konvergiert. Es verbleibt der Fall k = 1. Man nennt die Reihe
∞
X
1
1 1 1
= 1 + + + + ···
n
2 3 4
n=1
(Harmonische Reihe)
die harmonische Reihe. Die Summanden der Reihe bilden eine Nullfolge, es P
wird sich
aber herausstellen, dass die Reihe trotzdem divergiert. Es bezeichne sn := nk=1 1/k
für n ∈ N mit n ≥ 1 die Partialsummen der harmonischen Reihe. Es gelten
s20 = 1,
1
1
=1+1· ,
2
2
1
1
1
1
+ >1+2· ,
= 1+ +
2 |{z}
3
4
2
s21 = 1 +
s22
>1/4
s23 = s22 +
1 1 1 1
1
+ + + >1+3· ,
6 7} 8
2
|5 {z
jeweils > 1/8
und allgemein ergibt sich
s2n > 1 + n ·
1
für alle n ∈ N mit n ≥ 2.
2
Insbesondere ist die Folge der Partialsummen der harmonischen Reihe nicht nach oben
beschränkt, d.h.
∞
X
1
= ∞.
n
n=1
112
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
In der Abschätzung wird die harmonische Reihe nur sehr langsam größer, um beispielsweise über 10 = 1+18·(1/2) zu kommen, braucht es bereits 218 = 262144 Summanden.
Man kann zeigen, dass die Partialsummen in Abhängigkeit von n die Größenordnung
sn ≈ γ + ln(n) haben, wobei γ eine Konstante etwas größer als 1/2 ist. Die bei der harmonischen Reihe verwendete Argumentation des Zusammenfassens von Summanden
in Blöcken von Zweierpotenzgröße, kann man noch auf allgemeinere Situationen ausdehnen, dies führt dann zum folgenden sogenannten Kondensationskriterium“ oder
”
Verdichtungskriterium“.
”
Satz 7.6 (Cauchys Kondensationskriterium)
Sei (an )n≥1 eine monoton fallende, reelle Zahlenfolge mit an ≥ 0 für alle n ∈ N. Dann
ist die Reihe
∞
X
an genau dann konvergent wenn die Reihe
n=1
∞
X
2n a2n
n=0
konvergent ist.
Beweis: Dies ist Aufgabe (35).
Wir wollen das Kriterium einmal dazu verwenden, die Konvergenz der Reihe
∞
X
1
nα
n=1
für ein allgemeines α ∈ Q zu entscheiden. Ist α ≤ 0, so ist (1/nα )n≥1 nicht einmal
eine Nullfolge, wir können uns also auf den Fall α > 0 beschränken. Dann ist die Folge
(1/nα )n≥1 eine streng monoton fallende Nullfolge. Nach dem Kondensationskriterium
müssen wir also die Reihe
∞
X
n=0
∞
2n
∞
X
X
1
(1−α)n
=
2
=
(21−α )n
(2n )α
n=0
n=0
untersuchen. Dies ist eine geometrische Reihe und nach Satz 1 genau dann konvergent
wenn 21−α < 1 ist, also genau dann wenn 1 − α < 0, beziehungsweise α > 1 ist. Dies
zeigt
∞
X
1
< ∞ ⇐⇒ α > 1.
nα
n=1
Wir haben dieses Resultat erst einmal nur für α ∈ Q, da Potenzen mit beliebigen reellen
Exponenten noch gar nicht definiert sind. Da wir nur die Potenzrechenregeln verwendet
haben, gilt das Ergebnis aber auch für allgemeines α ∈ R sobald die entsprechenden
Potenzen definiert sind.
Ein Phänomen das die Behandlung der Konvergenz von Reihen deutlich erschwert,
ist das diese nicht nur vom Betrag der Summanden sondern auch von deren Vorzeichen,
113
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
beziehungsweise ihrem Argument im komplexen Fall, abhängt. Beispielsweise ist die
harmonische Reihe
∞
X
1
1 1 1
= 1 + + + + ···
n
2 3 4
n=1
wie gesehen divergent, aber die Reihe
∞
X
(−1)n−1
n
n=1
=1−
1 1 1
+ − + ···
2 3 4
wird sich gleich als konvergent herausstellen. Derartige Reihen bei denen das Vorzeichen
ständig hin und her wechselt werden als alternierende Reihen bezeichnet, und das
folgende sogenannte Leipnitz-Kriterium wird zeigen, dass eine große Zahl dieser Reihen
konvergent ist.
Satz 7.7 (Leipnitz-Kriterium)
Sei (an )n∈N eine monoton P
fallende, reelle Nullfolge mit an ≥ 0 für alle n ∈ N. Dann
n
ist die alternierende Reihe ∞
n=0 (−1) an konvergent. Ist (sn )n∈N die Folge der Partialsummen dieser Reihe, so gilt
s2n ≥
∞
X
(−1)k ak ≥ s2n+1
k=0
für alle n ∈ N.
Beweis: Für jedes n ∈ N gelten
s2(n+1) = s2n+2 = s2n − a2n+1 + a2n+2 ≤ s2n
da a2n+2 ≤ a2n+1 ist und
s2(n+1)+1 = s2n+3 = s2n+1 + a2n+2 − a2n+3 ≥ s2n+1
da a2n+2 ≥ a2n+3 ist. Damit ist die Folge (s2n )n∈N monoton fallend und die Folge
(s2n+1 )n∈N ist monoton steigend. Für jedes n ∈ N gilt außerdem
s1 ≤ s2n+1 = s2n − a2n+1 ≤ s2n ≤ s0 ,
d.h. (s2n )n∈N ist nach unten und (s2n+1 )n∈N ist nach oben beschränkt. Nach §6.Satz 3
existieren die beiden Grenzwerte
s := lim s2n und t := lim s2n+1 .
n→∞
n→∞
Nach §6.Satz 6.(a,b) ist dabei
t − s = lim s2n+1 − lim s2n = lim (s2n+1 − s2n ) = − lim a2n+1 = 0,
n→∞
n→∞
n→∞
114
n→∞
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
also haben wir s = t. Nach Aufgabe (21) ist auch die Folge
P (sn )n∈N nkonvergent mit
dem Grenzwert s = t. Dies zeigt die Konvergenz der Reihe ∞
n=0 (−1) an sowie
s2n ≥ s =
∞
X
(−1)n an = t ≥ s2n+1
n=0
für jedes n ∈ N.
Beispielsweise konvergieren damit die beiden Reihen
∞
X
(−1)n−1
n=1
∞
X
n=0
n
1 1 1
+ − + · · · = ln(2),
2 3 4
= 1−
(−1)n
1 1 1
π
= 1 − + − + ··· = ,
2n + 1
3 5 7
4
wobei letztere Reihe oft als die Leipnitz-Reihe bezeichnet wird. Die Grenzwerte sind
hier nur zur Information angegeben, mit den uns hier zur Verfügung stehenden Hilfsmitteln können wir diese noch nicht weiter begründen. Schließlich überträgt sich auch
das Cauchy-Kriterium für Folgen zu einem Cauchy-Kriterium für Reihen.
Satz 7.8 (Cauchy Kriterium für Reihen)
P
Sei K ∈ {R, C}. Dann ist eine Reihe ∞
n=0 an in K genau dann konvergent wenn es
für jedes > 0 ein n0 ∈ N mit
m
X
ak < k=n
für alle n, m ∈ N mit m ≥ n ≥ n0 gibt.
Beweis: Ist (sn )n∈N die Folge der Partialsummen der Reihe, so gilt
m
X
ak = |sm − sn−1 |
k=n
für alle n, m ∈ N mit m ≥ n. Die Behauptung folgt also aus dem Cauchy Kriterium
§6.Satz 14 für Folgen.
Das Cauchy-Kriterium ist eher für theoretische Überlegungen von Bedeutung, bei der
Behandlung konkret gegebener Reihen kommt es nur selten zum Einsatz.
7.2
Absolute Konvergenz
Wir betrachten noch einmal die Leipnitz-Reihe
∞
X
(−1)n
1 1 1
= 1 − + − + ···
2n + 1
3 5 7
n=0
115
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
Es ist beispielsweise
∞
1 X (−1)n
1 1
13
2
0, 6 = = 1 − <
<1− + =
= 0, 86,
3
3 n=0 2n + 1
3 5
15
und um eine bessere Abschätzung zu erhalten, berechnen wir einige weitere Partialsummen sn
n=0
1
n=1
0, 666666
n=2
0, 866666 n = 3
0, 723809
n=4
0, 834920 n = 5
0, 744011
n=6
0, 820934 n = 7
0, 754267
n=8
0, 813091 n = 9
0, 760459
n = 18 0, 798546 n = 19 0, 772905
n = 28 0, 794016 n = 29 0, 777067
n = 98 0, 787923 n = 99 0, 782898
n = 198 0, 786654 n = 199 0, 784148
n = 998 0, 785648 n = 999 0, 785148
P∞
es ist also 0, 785148 < n=0 (−1)n /(2n + 1) < 0, 785648. Die Konvergenz der Leipnitz
Reihe ist sehr langsam, wir brauchen bereits 1000 Summanden um nur drei Nachkommastellen der Summe sicher zu kennen.
Wir summieren die Leipnitz Reihe jetzt in einer anderen Reihenfolge auf
1+
1 1 1
1
1
− + +
− + ···
5 3 9 11 7
d.h. es werden je zwei positive gefolgt von nur einem negativen Term genommen. Zur
besseren Übersicht schreiben wir dies als
∞
X
1 1
1
1
1
1+ −
+
+
−
+ ··· =
ak ,
5 3
9 11 7
k=1
wobei a1 , a2 , . . . die eingeklammerten Dreiersummen sind. Diese können wir leicht ausrechnen, die k-te Dreisumme ak addiert den (2k − 1)-ten und den (2k)-ten positiven Term der Leipnitz Reihe und subtrahiert den k-ten negativen Term dieser Summe. Der k-te negative Term ist der (2k)-te Term insgesamt, also −1/(2(2k) − 1) =
−1/(4k − 1). Ebenso ist der k-te positive Term gerade der (2k − 1)-te Term insgesamt,
also 1/(2(2k − 1) − 1) = 1/(4k − 3) und somit
ak =
1
1
1
1
1
1
+
−
=
+
−
4(2k − 1) − 3 4(2k) − 3 4k − 1
8k − 7 8k − 3 4k − 1
(8k − 3)(4k − 1) + (8k − 7)(4k − 1) − (8k − 3)(8k − 7)
=
(8k − 7)(8k − 3)(4k − 1)
24k − 11
=
> 0.
(8k − 7)(8k − 3)(4k − 1)
116
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
Alle Summanden sind damit positiv, und somit ist
∞
X
∞
X (−1)k
1 1 1
1
1
3734
ak > 1 + − + +
− =
= 0, 911843 . . . >
.
5
3
9
11
7
4095
2k
+
1
k=1
k=0
In dieser Reihenfolge aufsummiert erhalten wir also eine andere Summe. Tatsächlich
läßt sich zeigen, dass
1+
1 1 1
1
1
π + ln(2)
− + +
− + ··· =
5 3 9 11 7
4
gilt. Die Summation unendlicher Summen ist also nicht kommutativ“ sondern kann
”
wie in diesem Beispiel von der Reihenfolge der Summanden abhängen. Das ist natürlich
ein eher unerfreuliches Phänomen. Von besonderen Interesse sind jetzt die guten Rei”
hen“, die unabhängig von der Summationsreihenfolge immer gegen denselben Wert
konvergieren. Derartige Reihen nennt man manchmal unbedingt konvergent, es wird
sich aber gleich herausstellen, dass es eine einfache äquivalente Beschreibung gibt, die
sogenannte absolute Konvergenz.
Definition 7.2 (Absolute Konvergenz)
P∞
Sei
K
∈
{R,
C}.
Eine
Reihe
n heißt absolut konvergent, wenn die reelle Reihe
n=0 aP
P∞
∞
n=0 |an | konvergent ist, wenn also
n=0 |an | < ∞ ist.
Beispielsweise ist jede konvergente reelle Reihe mit nur nicht negativen Summanden trivialerweise auch absolut konvergent, was schon einen großen Teil unserer bisher
behandelten Beispiele
Nach Satz 1 ist für jedes q ∈ C mit |q| < 1 die geoP∞ abdeckt.
n
metrische Reihe n=0 q absolut konvergent, dies wird sich als eines der wichtigsten
Beispiele einer absolut
Reihe herausstellen. Nicht absolut konvergent ist
P∞konvergenten
n
dagegen die Reihe n=1 (−1) /n. Genau wie die Konvergenz komplexer Reihen läßt
sich auch die absolute Konvergenz dieser Reihen an Real- und Imaginärteil ablesen.
Lemma 7.9 (Absolute P
Konvergenz komplexer Reihen)
∞
Eine komplexePReihe
ist genau dann absolut konvergent wenn die beiden
n=0 an P
∞
reellen Reihen n=0 Re(an ) und ∞
n=0 Im(an ) absolut konvergent sind.
Beweis: Dies ist Aufgabe (32).
Wir zeigen zunächst, dass absolute Konvergenz stärker als die gewöhnliche Konvergenz
ist, dass also eine absolut konvergente Reihe immer auch konvergent ist.
P∞
Lemma 7.10:
P∞ Sei K ∈ {R, C} und sei n=0 an eine absolut konvergente Reihe in K.
Dann ist n=0 an auch konvergent und es gilt
∞
∞
X
X
an ≤
|an |.
n=0 n=0
117
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
Beweis: Für alle n, m ∈ N mit m ≥ n gilt
m
m
X
X
|ak |
ak ≤
k=n
k=n
P
und die Konvergenz von ∞
n=0 an folgt mit dem Cauchy-Kriterium Satz 8 für Reihen.
Mit §6.Lemma 2.(b) und §6.Lemma 5.(a) folgt auch
n
∞
n
n
∞
X
X
X
X
X
|ak | =
|an |.
ak ≤ lim
ak = lim an = lim
n→∞
n→∞ n→∞
n=0
n=0
k=0
k=0
k=0
Wie schon bemerkt sind die absolut konvergenten Reihen genau diejenigen, deren Wert
sich bei beliebiger Umsortierung der Summanden nicht ändert. Wir werden jetzt gleich
beweisen, dass die absolut konvergenten Reihen tatsächlich diese Eigenschaft haben.
Zuvor müssen wir aber den Begriff des Umsortierens“ formal noch etwas genauer
”
fassen. Eine umsortierte Version einer Reihe a0 + a1 + a2 + · · · ist eine Reihe in der
dieselben Summanden nur in einer anderen Reihenfolge auftreten, also eine Reihe der
Form aπ(0) + aπ(1) + aπ(2) + · · · wobei π(0), π(1), π(2), . . . die entsprechenden Indizes der
Originalreihe sind. Dass jeder Index n ∈ N unter den π(0), π(1), π(2), . . . an genau einer
Stelle auftaucht, bedeutet das es für jedes n ∈ N genau einen umsortierten Index k ∈ N
mit π(k) = n gibt. In anderen Worten soll die Abbildung π : N → N bijektiv sein. Damit
können wir unseren Umordnungssatz für absolut konvergente Reihen formulieren. Der
Beweis wurde in der Vorlesung nur sehr grob skizziert, hier wollen wir den vollständigen,
exakten Beweis vorführen.
Lemma 7.11 (Umordnungen
P absolut konvergenter Reihen)
Sei K ∈ {R, C} und seien ∞
in K und π : N →
n=0 an eine absolut konvergente Reihe P
N eine bijektive Abbildung. Dann ist auch die umgeordnete Reihe ∞
n=0 aπ(n) absolut
konvergent und es gilt
∞
∞
X
X
aπ(n) =
an .
n=0
n=0
Beweis: Ist n ∈ N, so setzen wir n∗ := max{π(0), π(1), . . . , π(n)}, und haben die
Inklusion {π(0), π(1), . . . , π(n)} ⊆ {0, . . . , n∗ }, also auch
n
X
k=0
Nach Satz 4.(b) ist
gent.
P∞
n=0
∗
|aπ(k) | ≤
n
X
|ak | ≤
k=0
∞
X
|ak | < ∞.
k=0
|aπ(n) | konvergent, d.h. auch
118
P∞
n=0
aπ(n) ist absolut konver-
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
Damit ist die erste Aussage bewiesen. Insbesondere sind
nach Lemma 10 beide konvergent. Bezeichne
sn :=
n
X
ak und
s0n
:=
n
X
P∞
n=0 aπ(n) und
P∞
n=0
an
aπ(k)
k=0
k=0
für jedes n ∈ N die jeweiligen Partialsummen. Wir wollen zeigen, dass die Differenzen
(sn − s0n )n∈N eine Nullfolge bilden. Sei > 0. Nach dem Cauchy Kriterium Satz 8 für
Reihen existiert n1 ∈ N mit
m
X
|ak | < k=n
für alle n, m ∈ N mit m ≥ n ≥ n1 . Wir setzen
n0 := max{n1 , π −1 (0), . . . , π −1 (n1 )}.
Sei jetzt n ∈ N mit n ≥ n0 gegeben. Dann sind
0, 1, . . . , n1 − 1, π −1 (0), π −1 (1), . . . , π −1 (n1 − 1) ∈ {0, . . . , n},
also auch
0, 1, . . . , n1 − 1 ∈ {π(0), π(1), . . . , π(n)}.
Bilden wir also die Differenz
sn − s0n =
n
X
ak −
n
X
aπ(k) ,
k=0
k=0
so kommt jeder der Summanden a0 , . . . , an1 −1 sowohl in sn als auch in s0n vor, und
verschwindet in der Differenz. Von sn und s0n verbleiben dann nur noch Summanden
der Form ak mit k ≥ n1 und k ∈ {0, . . . , n, π(0), . . . , π(n)}. Diejenigen davon die in
sn und s0n vorkommen verschwinden in der Differenz, und die anderen bleiben mit
eventuellen Vorzeichen stehen. Setzen wir also
m := max{n, π(0), . . . , π(n)},
so ist m ≥ n1 und es gibt eine Menge M ⊆ {n1 , n1 + 1, . . . , m} und Vorzeichen σk ∈
{−1, 1} für k ∈ M mit
X
sn − s0n =
σk ak .
k∈M
Mit der Dreiecksungleichung folgt
m
X
X
X
0
|sn − sn | = σk ak ≤
|ak | ≤
|ak | < .
k∈M
k∈M
119
k=n1
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
Damit ist (sn − s0n )n∈N eine Nullfolge. Mit den Grenzwertsätzen §6.Lemma 6.(a,b) folgt
schließlich
∞
X
an −
n=0
∞
X
aπ(n) = lim sn − lim s0n = lim (sn − s0n ) = 0.
n→∞
n=0
n→∞
n→∞
Damit sind absolut konvergente Reihen tatsächlich im obigen Sinne unbedingt konvergent, ihr Wert ändert sich nicht bei beliebiger Umordnung der Summanden. Tatsächlich
handelt es sich bei den absolut konvergenten Reihen auch genau um die unbedingt konvergenten Reihen. Wir wollen uns jetzt kurz überlegen, dass man eine konvergente, aber
nicht absolut konvergente, Reihe stets so umordnen
P∞kann, dass sie divergiert. Zunächst
betrachten wir hierzu den reellen Fall, es sei also n=0 an eine konvergente reelle Reihe
die nicht absolut konvergent ist. Nach Satz 4.(b) müssen dann sowohl unendlich viele
positive als auch unendlich viele negative Summanden vorkommen. Damit können wir
die Folge (an )n∈N in eine positive Teilfolge (an+ )k∈N und eine negative Teilfolge (an− )k∈N
k
k
einteilen, es soll also
{n+
k |k ∈ N} = {n ∈ N|an ≥ 0} und
{n−
k |k ∈ N} = {n ∈ N|an < 0}
gelten. Da
P∞
n=0
|an | = ∞ ist, müssen
∞
X
an+ = +∞ und
∞
X
an− = −∞
k
k
k=0
k=0
gelten. Dies bedarf
einer kleinen Begründung, nehme also einmal an, dass etwa der
P
positive Teil ∞
a
k=0 n+ < ∞ ist. Wir betrachten dann die durch
k
(
an , an ≥ 0,
b+
n :=
0, an < 0
P∞ +
für n ∈ N definierte Folge. Die Partialsummen
der
Reihe
n=0 bn sind dann im wesentP∞
lichen dieselben wie diejenigen der Reihe k=0 an+ nur das jedes Folgenglied eventuell
k
P
+
endlich oft wiederholt wird. Also ist auch ∞
b
n=0 n konvergent. Damit ist aber auch
∞
X
n=0
|an | = 2
∞
X
n=0
b+
n
−
∞
X
an
n=0
P
konvergent, im Widerspruch
dazu das ∞
n=0 an als nicht absolut
P konvergent vorausgeP∞
= −∞. Wegen
setzt ist. Also ist k=0 an+ = +∞ und analog folgt auch ∞
k=0 an−
k
k
limk→∞ an− = limn→∞ an = 0 gibt es ein p ∈ N mit −1 < an− < 0 für alle k ∈ N mit
k
k
k > p.
120
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
P∞Setze q0 := −1. Ist kP∈∞ N und ist qk ∈ N ∪ {−1} bereits definiert, so ist wegen
= +∞ auch
= +∞, und somit existiert ein qk+1 ∈ N mit
l=0 an+
l=qk +1 an+
l
l
Pqk+1
qk+1 > qk und l=qk +1 an+ > 2. Weiter definieren wir die Zahlen
l
mk := p + 1 +
k−1
X
(ql+1 − ql + 1) = k + qk + p + 2
l=0
für alle k ∈ N, also p + 1 = m0 < m1 < m2 < m3 < . . .. Definiere jetzt die Umordnung

−

0 ≤ l ≤ p,
nl ,
+
π : N → N; l 7→ nqk +l−mk +1 , mk ≤ l < mk+1 − 1 für ein k ∈ N,

 −
np+k+1 ,
l = mk+1 − 1 für ein k ∈ N.
P
Setze M := pk=0 an− . Für jedes k ∈ N gelten
k
mk+1 −2
qk+1
mk+1 −1
X
X
X
l=mk
aπ(l) =
an+ > 2 und
l
l=qk +1
mk+1 −2
aπ(l) =
l=mk
X
aπ(l) + an−
p+k+1
> 1,
l=mk
also ist für alle k ∈ N und alle m ∈ N mit m ≥ mk+1 auch
m
X
aπ(l) ≥ M + k.
l=0
P
Dies zeigt ∞
n=0 aπ(n) = +∞ und insbesondere ist die umgeordnete Reihe divergent.
Damit haben wir bewiesen, dass man eine konvergente, aber nicht absolut konvergente, reelle Reihe immer so umordnen kann, dass die entstehende Reihe
P divergent ist.
Dies kann man jetzt leicht auf den komplexen Fall ausdehnen. Ist ∞
n=0 zn eine konvergente, aber nicht absolut
konvergente, komplexe
Reihe, so sind nach Lemma 2 auch
P∞
P∞
die beiden reellen Reihen n=0 Re(zn ) und n=0 Im(zn ) konvergent und nach Lemma
9 ist eine der beiden Reihen nicht absolut konvergent.
P∞ gibt es daP∞ Wie bereits gezeigt
mit eine bijektive Abbildung π : N → N so, dass n=0
PRe(zπ(n) ) oder n=0 Im(zπ(n) )
divergiert, und wieder nach Lemma 2 ist damit auch ∞
n=0 zπ(n) divergent. Insgesamt
haben wir damit den folgenden Satz bewiesen:
Satz 7.12 (Absolute Konvergenz ist unbedingte
Konvergenz)
P∞
Sei K ∈ {R, C}. Dann ist eine Reihe n=0 an in K genau dann absolut P
konvergent
wenn für jede bijektive Abbildung π : N → N auch die umgeordnete Reihe ∞
n=0 aπ(n)
konvergent ist.
Unsere Argumentation im reellen Fall des obigen Satzes kann man noch etwas verfeinern, und erhält dann den sogenannten Riemannschen Umordnungssatz:
SatzP
7.13 (Riemannscher Umordnungssatz)
Sei ∞
n=0 an eine konvergente, aber nicht absolut konvergente, reelle
P∞ Reihe. Dann gibt
es für jedes a ∈ R stets eine bijektive Abbildung π : N → N mit n=0 aπ(n) = a.
121
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
Beweis: Der Beweis wurde in der Vorlesung nur angedeutet, er soll hier aber vollständig
angegeben werden.
Wir übernehmen die Bezeichungen der obigen Überlegung. Ist a = +∞ so haben
wir bereits alles bewiesen und für a = −∞ kann man alles analog zu oben beweisen.
Wir müssen also nur noch den Fall a ∈ R betrachten. Wir setzen p+
0 := 0. Wegen
P∞
Pp−0 −1
−
−
= −∞ existiert ein p0 ∈ N mit p0 > 0 und k=0 an− < a.
k=0 an−
k
k
Pp−k −1
Pp+k −1
+ −
Sei jetzt k ∈ N und pk , pk mit j=0 an+j + j=0 an−j < a seien schon definiert.
P
+
+
Wegen ∞
an+j = +∞ existiert dann ein minimales p+
k+1 ∈ N mit pk+1 > pk und
j=p+
k
Pp+k+1 −1
Pp−k −1
an+j + j=0
an−j > a. Die Minimalität von p+
j=0
k+1 ergibt dann
p+
k+1 −2
X
p−
k −1
an+j +
X
j=0
j=0
also ist
p+
k+1 −1
X
a<
p−
k −1
an+j +
Da auch
j=p−
k
X
an−j ≤ a + an++
p
j=0
j=0
P∞
an−j ≤ a,
k+1
.
−1
−
an−j = −∞ gilt, gibt es analog ein minimales p−
k+1 > pk mit
p−
k+1 −1
p+
k+1 −1
a + an−−
p
k+1
≤
−1
X
an+j +
X
an−j < a
j=0
j=0
−
Damit werden induktiv zwei Folgen (p+
k )k∈N , (pk )k∈N in N definiert, und mit diesen
definieren wir die bijektive Abbildung π : N → N durch

−
−
n−−
, wenn n = p+
k + j mit pk−1 ≤ j < pk , k ∈ N,
pk−1 +j
π : N → N; n 7→
+
+
n++ ,
wenn n = p−
k + j mit pk ≤ j < pk+1 , k ∈ N,
p +j
k
wobei p−
−1 := 0 gesetzt ist. In anderen Worten sortiert π die natürlichen Zahlen als
+
−
−
+
+
−
+
n−
0 , . . . , np− −1 , n0 , . . . , np+ −1 , np− , . . . , np− −1 , np+ , . . . , np+ −1 , . . .
0
1
0
1
P∞
1
2
um. Wir behaupten das für diese Umordnung n=0 aπ(n) = a gilt. Bezeichne hierzu
(sn )n∈N die Folge der Partialsummen dieser Reihe. Sei > 0 gegeben. Da (an )n∈N nach
Lemma 3 eine Nullfolge ist, existiert ein n1 ∈ N mit |an | < für alle n ∈ N mit n ≥ n1 .
+
−
−
Wähle k + , k − ∈ N mit n−
k− ≥ n1 und nk+ ≥ n1 . Weiter gibt es k1 , k2 ∈ N mit pk1 ≥ k
+
−
+
und p+
k2 ≥ k . Setze schließlich k0 := 1 + max{k1 , k2 } und n0 := pk0 + pk0 ∈ N. Sei
n ∈ N mit n ≥ n0 . Dann können zwei verschiedene Fälle auftreten.
−
+
+
−
Fall 1. Es gebe k, j ∈ N mit p−
k−1 ≤ j < pk und n = pk + j. Wegen n ≥ n0 = pk0 + pk0
−
−
ist dann k − 1 ≥ k0 also k ≥ k0 + 1 und insbesondere k ≥ 1. Weiter sind pk > pk0 ≥
122
Mathematik für Physiker I, WS 2010/2011
Montag 13.12.2010
+
+
+
−
−
+
+
−
+
p−
k1 ≥ k und pk > pk0 ≥ pk2 ≥ k also auch np− −1 ≥ nk− ≥ n1 und np+ −1 ≥ nk+ ≥ n1 ,
k
d.h. |an−− | < und |an++ | < . Weiter ist
p
k
−1
p
sn =
n
X
k
−1
p+
k −1
aπ(i) =
X
an+i +
i=0
i=0
j
X
an−i ≥
X
sn =
an+i +
i=0
X
an−i ≤
an−i ≥ a + an−−
p
i=0
an+i +
X
k
−1
an−i ≤ a + an++ ,
p
i=0
i=0
i=0
X
p−
k−1 −1
p+
k −1
j
X
an+i +
i=0
i=0
p+
k −1
p−
k −1
p+
k −1
und
X
k
k
−1
also insgesamt
a + an−−
p
k
−1
≤ sn ≤ a + an++ , also |sn − a| ≤ max{|an−− |, |an++ |} < .
p
k
−1
p
k
−1
p
k
−1
+
−
+
−
Fall 2. Es gebe k, j ∈ N mit p+
k ≤ j < pk+1 und n = pk + j. Wegen n ≥ n0 = pk0 + pk0
−
−
−
+
+
−
ist k ≥ k0 und insbesondere k ≥ 1. Weiter sind pk ≥ pk0 > pk1 ≥ k und pk+1 > pk0 ≥
−
−
+
+
+
p+
k2 ≥ k also auch np− −1 ≥ nk− ≥ n1 und np+ −1 ≥ nk+ ≥ n1 , d.h. |an−− | < und
k
|an++
p
k+1
k+1
p
| < . Weiter ergibt sich
k
−1
−1
sn =
j
X
an+i +
p−
k −1
p+
k+1 −1
X
X
i=0
und
sn =
j
X
an+i +
i=0
an−i ≤
p−
k −1
an+i +
X
i=0
i=0
i=0
p−
k −1
p+
k −1
p−
k −1
X
X
i=0
an−i ≥
an+i +
i=0
X
an−i ≤ a + an++
p
k+1
−1
an−i ≥ a + an−− ,
p
i=0
k
−1
also ist dies diesmal insgesamt
a + an−−
p
k
−1
≤ sn ≤ a + an++
p
k+1
−1
, also erneut |sn − a| ≤ max{|an−− |, |an++
p
k
−1
Damit ist in beiden Fällen |sn −a| < gezeigt. Insgesamt haben wir damit
limn→∞ sn = a eingesehen.
p
|} < .
k+1
−1
P∞
n=0
aπ(n) =
Es verbleibt die Frage wieweit ein analoger Satz auch für komplexe Reihen gilt? Diese
P∞Frage wird durch einen Satz von Steinitz vollständig beantwortet. Angenommen
n=0 an ist eine konvergente, aber nicht absolut konvergente, komplexe Reihe. Dann
betrachten wir die Menge
(
)
∞
X
L := a ∈ C Es existiert eine bijektive Abbildung π : N → N mit
aπ(n) = a
n=0
123
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
aller komplexen Zahlen, die als Summe einer umgeordneten Version der Reihe auftreten
können. Der Satz von Steinitz sagt dann, dass entweder L = C ist oder L ist eine
Gerade. Dies ist schon ein etwas komplizierteres Ergebnis, dessen Beweis wir hier nicht
einmal andeuten wollen.
Wir kommen jetzt zum rechnerischen Problem einer vorgelegten Reihe anzusehen,
ob sie absolut konvergent ist oder nicht. Es gibt hierfür zwar kein allgemein anwendbares immer funktionierendes Verfahren, aber doch einige Kriterien die oft schon ausreichen. In gewissen Sinne ist die absolute Konvergenz einer Reihe besser zu behandeln
als die Konvergenz, da erstere nur von der Größenordnung der Summanden aber nicht
von Vorzeichen oder Argument abhängt. Das Grundkriterium zum Erkennen absoluter
Konvergenz ist das nun zu formulierende Majorantenkriterium.
Satz 7.14 (Majorantenkriterium
für die absolute Konvergenz)
P∞
P
Sei K ∈ {R, C} und sei n=0 anP
eine Reihe in K. Es gebe eine reelle Reihe ∞
n=0 Mn
mit Mn ≥ 0 für alle n ∈ N und ∞
M
<
∞.
Weiter
gebe
es
eine
Konstante
c≥0
n
n=0
in R und einen
P Startindex n0 ∈ N mit |an | ≤ cMn für alle n ∈ N mit n ≥ n0 . Dann ist
die Reihe ∞
n=0 an absolut konvergent.
Beweis: Es ist
∞
X
n=0
|an | ≤
nX
0 −1
|an | + c ·
∞
X
Mn < ∞.
n=n0
n=0
P∞
In diesen
P∞ Zusammenhang nennt man die Reihe n=0 Mn auch eine Majorante der
Reihe n=0 an . Spezialisieren wir das Majorantenkriterium auf eine geometrische Reihe
als Majorante, so ergibt sich in der nächsten Sitzung das sogenannte Wurzelkriterium,
und als einen weiteren Spezialfall werden wir das Quotientenkriterium kennen lernen.
Vorlesung 15, Freitag 17.12.2010
P∞ n
Wir wissen das die geometrische Reihe
n=0 q für q ∈ C mit |q| < 1 absolut
konvergent ist, und insbesondere trifft dies auf reelle q mit 0 ≤ q < 1 zu. Diese Tatsache
führt uns auf das sogenannte Wurzelkriterium.
Korollar 7.15 (Wurzelkriterium
P∞ für die absolute Konvergenz)
Sei K ∈ {R, C} und sei
eine Reihe in K. Dann gibt es
n=1 an P
P∞genau dann ein
∞
n
q ∈ R mit p
0 ≤ q < 1 so, dass
q
eine
Majorante
von
n=1
n=1 an ist, wenn
n
lim supn→∞ |an | < 1 ist. Insbesondere gilt damit die Implikation
lim sup
n→∞
∞
X
p
n
|an | < 1 =⇒
an ist absolut konvergent.
n=1
124
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
Beweis: Die erste Aussage ist Aufgabe (27) und die zweite Aussage folgt aus Satz 14.
Man kann das Wurzelkriterium auch ohne Verwendung des Limes Superior formulieren.
Nach §6.Satz 10.(e) ist die Bedingung an den Limes Superior äquivalent zu
p
∃(c ∈ R, 0 ≤ c < 1)∃(n0 ∈ N)∀(n ∈ N, n ≥ n0 ) : n |an | < c.
Oftmals wird auch diese äquivalente Formulierung als das Wurzelkriterium bezeichnet.
In den allermeisten Fällen,
zumindest solange man bei den typischen Rechenaufgaben
p
n
bleibt, ist die Folge ( |an |)n≥1 sogar konvergent, und dann stimmt ihr Grenzwert
nach §6.Satz 10.(b) mit dem Limes Superior überein, also ergibt sich in diesem Fall die
Implikation
∞
X
p
n
lim
|an | < 1 =⇒
an ist absolut konvergent.
n→∞
n=1
Als ein einfaches Beispiel wollen wir die Reihe
∞
X
n
2n
n=1
auf absolute Konvergenz untersuchen. Wollen wir das Wurzelkriterium anwenden, so
haben wir
r
n
1√
1
n
= n n −→ < 1,
n
2
2
2
d.h. die Reihe ist nach dem Wurzelkriterium absolut konvergent. Bald werden wir auch
in der Lage sein, ihren Grenzwert zu berechnen. Das Wurzelkriterium ist nicht dazu in
der Lage die absolute Konvergenz oder ihre Verneinung sicher zu entscheiden, das ist
auch von vornherein nicht zu erwarten, wir hatten ja gesehen das das Wurzelkriterium
nur testet ob sich die Reihe durch eine konvergente geometrische Reihe majorisieren
läßt. Man kann dem Wurzelkriterium aber zumindest noch einen recht primitiven Divergenztest hinzufügen, nämlich
lim sup
n→∞
p
n
|an | > 1 =⇒
∞
X
an ist divergent.
n=1
p
n
|an |)n≥1 ist ein Häufungspunkt dieser
Folge,
In der Tat, der Limes Superior
von
(
p
p
n
nk
es gibt also eine Teilfolge ( |ank |)k∈N , die in R gegen
p s = lim supn→∞ |an | > 1
nk
konvergiert. Folglich gibt es auch ein k0 ∈ N mit
|ank | > 1 für alle k ≥ k0 und
damit ist auch |ank | > 1 für alle k ≥ k0 , die Folge (ank )k∈N ist also sicher keine
Nullfolge. Damit ist aber (anP
)n∈N nach §6.Lemma 1.(a) ebenfalls keine Nullfolge und
nach Lemma 3 ist die Reihe ∞
n=1 an divergent.
125
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
p
Im verbleibenden Fall lim supn→∞ n |an | = 1 kann man dagegen nichts sagen, die
Reihe kann konvergieren oder auch divergieren. Ist beispielsweise k ∈ N mit k ≥ 1, so
gilt
r
1
1
n
lim
=
k = 1,
k
√
n→∞
n
n
lim n
n→∞
aber für k = 1 haben wir die divergente harmonische Reihe während die Reihe für
k ≥ 2 konvergiert.
Aufgrund des Auftauchens der n-ten Wurzel ist das Wurzelkriterium gelegentlich
rechnerisch nur schwer zu überprüfen. Es gibt ein weiteres Kriterium, das sogenannte
Quotientenkriterium, das oftmals zu leichteren Rechnungen führt. Dieses ist ein gewisser Spezialfall des Wurzelkriteriums, und beruht auf dem gleich folgenden Lemma
16. Direkt für das Quotientenkriterium wichtig ist nur Teil (a) des Lemmas, und auch
nur diesen Teil werden wir hier beweisen, die anderen beiden Aussagen werden erst
später einmal wichtig und sind Übungsaufgaben. Zuvor wollen wir eine kleine Tatsache
über Limes Superior und Limes Inferior festhalten, sind (an )n∈N und (bn )n∈N zwei reelle
Zahlenfolgen mit an ≤ bn für alle n ∈ N, so folgt für jedes n ∈ N auch
sup ak ≤ sup bk und inf ak ≤ inf bk ,
k≥n
k≥n
k≥n
k≥n
und damit sind
lim sup an = inf sup ak ≤ inf sup bk = lim sup bn
n∈N k≥n
n→∞
n∈N k≥n
n→∞
und analog
lim inf an ≤ lim inf bn .
n→∞
n→∞
Da endlich viele Folgenglieder auf den Limes Superior und Limes Inferior keinen Einfluss haben, reicht es auch wenn an ≤ bn für alle n ≥ n0 mit einem Startindex n0 ∈ N
gilt. Damit kommen wir zu unserem angekündigten Lemma.
Lemma 7.16: Sei (an )n≥1 eine Folge in R>0 . Dann gelten
(a) Es ist lim sup
√
n
n→∞
(b) Es ist lim inf
n→∞
an ≤ lim sup
n→∞
√
n
an ≥ lim inf
n→∞
an+1
.
an
an+1
.
an
√
(c) Ist die Folge (an+1 /an )n≥1 konvergent, so ist auch die Folge ( n an )n≥1 konvergent
und es gilt
√
an+1
lim n an = lim
.
n→∞
n→∞ an
126
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
Beweis: (a) Ist s := lim supn→∞ an+1 /an = ∞, so ist die Aussage klar. Wir können
also s 6= ∞ annehmen und wegen an+1 /an > 0 für alle n ∈ N ist dann s ∈ R mit s ≥ 0.
Sei α ∈ R mit s < α. Nach §6.Satz 10.(e) existieren ein q ∈ R mit q < α und ein
n0 ∈ N mit an+1 /an < q für alle n ∈ N mit n ≥ n0 , also insbesondere q > 0. Für jedes
n ∈ N mit n ≥ n0 ist dann an+1 < qan , und somit auch
an0 +n < qan0 +n−1 < q 2 an0 +n−2 < · · · < q n an0
für alle n ∈ N mit n ≥ 1. Für jedes n ∈ N mit n ≥ n0 folgt damit
r
p
√
an
n
n
n−n
0
an ≤ q
an0 = q · n n00 ,
q
und somit ergibt sich
lim sup
n→∞
√
n
r
r
an0
an0
n
n
an ≤ lim sup q
= lim q
= q < α.
n→∞
q n0
q n0
n→∞
Dies ergibt die Behauptung.
(b,c) Dies ist wie schon bemerkt eine Übungsaufgabe.
Damit ergibt sich jetzt das angekündigte Quotientenkriterium.
Korollar 7.17 (Quotientenkriterium
für die absolute Konvergenz)
P∞
Sei K ∈ {R, C} und sei n=1 an eine Reihe in K mit an 6= 0 für alle n ∈ N. Dann
besteht die Implikation
∞
X
|an+1 |
lim sup
< 1 =⇒
an ist absolut konvergent.
|an |
n→∞
n=1
Beweis: Klar nach dem Wurzelkriterium Korollar 15 und Lemma 16.(a).
Genau wie beim Wurzelkriterium wird das Quotientenkriterium oft auch in der Form
∃(c ∈ R, 0 ≤ c < 1)∃(n0 ∈ N)∀(n ≥ n0 ) :
|an+1 |
<c
|an |
formuliert. In Aufgaben ist (|an+1 |/|an |)n≥1 oft sogar konvergent, und die Bedingung des
Quotientenkriteriums wird dann zu limn→∞ |an+1 |/|an | < 1. Die oben behandelte Reihe
P
∞
n
n=1 n/2 kann man auch mit dem Quotientenkriterium rechnen, für jedes n ∈ N gilt
(n + 1)/2n+1
1 n+1
1
= ·
−→ < 1.
n
n/2
2
n
2
127
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
Das Lemma 16 zeigt, dass das Wurzelkriterium stärker als das Quotientenkriterium ist,
wann immer man die absolute Konvergenz einer Reihe mit dem Quotientenkriterium
einsehen kann, so würde auch das Wurzelkriterium funktionieren. Es gibt Reihen bei
denen das Wurzelkriterium anwendbar ist, das Quotientenkriterium aber nicht. Wir
wollen auch hierfür ein Beispiel angeben, die Reihe
1 1
1
1
1
1
1
1
+ + 2 + 2 + 3 + 3 + 4 + 4 + ··· ,
2 3 2
3
2
3
2
3
also
P∞
n=1
an mit
(
an =
1
,
2(n+1)/2
1
,
3n/2
n ist ungerade,
n gerade.
Versuchen wir zuerst einmal das Quotientenkriterium. Für jedes n ∈ N mit n ≥ 1 ist
( (n+1)/2
2
, n ist ungerade,
an+1
= 1 3 3 n/2
an
,
n ist gerade,
2 2
und diese Folge hat die beiden Häufungspunkte 0 und +∞, also ist
lim sup
n→∞
an+1
= +∞.
an
Das Quotientenkriterium läßt sich hier also nicht anwenden. Für das Wurzelkriterium
rechnen wir dagegen für jedes n ∈ N mit n ≥ 1
(
√ 12n
√ , n ist ungerade,
√
n
an = 12 2
√ ,
n ist gerade,
3
√
√
also haben wir diesmal die beiden Häufungspunkte 1/ 2 und 1/ 3 und es folgt
lim sup
√
n
an =
n→∞
1√
2 < 1.
2
Das Wurzelkriterium ist also anwendbar, und liefert die absolute Konvergenz der Reihe. Beachte das dieses Beispiel insbesondere zeigt, dass aus lim supn→∞ |an+1 |/|an | > 1
nicht die Divergenz der untersuchten Reihe folgt. Die Divergenz folgt dagegen aus
lim inf n→∞ |an+1 |/|an | > 1, aber dies impliziert sogar die viel stärkere Konvergenzaussage limn→∞ |an | = ∞, ist als Divergenzkriterium also schlecht geeignet. Ist die Folge
(|an+1 |/|a
ist nach Lemma 16.(c) auch
n |)n∈N konvergent mit limn→∞ |an+1 |/|an | > 1, so
p
P∞
n
limn→∞ |an | = limn→∞ |an+1 |/|an | > 1, und die Reihe n=0 an ist divergent.
7.3
Das Cauchy Produkt von Reihen
Im letzten Abschnitt haben wir unter anderem gesehen, dass die Summation von Reihen sich mit Addition und Bilden der Vielfachen verträgt, dies war Lemma 5. Nun
128
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
wollen wir uns der Frage der Multiplikation von Reihen zuwenden. Diese ist leider
wesentlich komplizierter als die Multiplikation von Folgen. Das Produkt der Summen
zweier Reihen ist natürlich nicht die Summe der Einzelprodukte, dies ist ja nicht einmal
bei endlichen Summen so
(a1 + a2 + a3 ) · (b1 + b2 + b3 ) =
a1 b1 + a1 b2 + a1 b3
+ a2 b1 + a2 b2 + a2 b3
+ a3 b1 + a3 b2 + a3 b3 .
Als eine etwas optimistische Erwartung könnten wir schauen ob eine entsprechende
Rechnung auch für unendliche Summen wahr ist, ob also so etwas wie
∞ ∞ P
P
an ·
bn
=
a0 b0 + a0 b1 + a0 b2 + · · ·
n=0
n=0
+ a1 b0 + a1 b1 + a1 b2 + · · ·
+ a2 b0 + a2 b1 + a2 b2 + · · ·
..
..
..
.
.
.
gilt? Hierzu müssten wir uns zunächst einmal überlegen was die rechte Seite denn überhaupt bedeuten soll, so eine doppelt unendliche“ Summe haben wir bisher nicht be”
handelt und wollen es in diesem Semester auch nicht tun. Eine naheliegende Möglichkeit
dieses Problem zu umgehen ist es, die Summanden einfach in irgendeiner Reihenfolge
nacheinander hinzuschreiben, etwa nach Diagonalen geordnet als
a0 b0 + a0 b1 + a1 b0 + a0 b2 + a1 b1 + a2 b0 + · · ·
Dass dies möglich ist klingt zunächst nicht sehr glaubhaft, wir hatten doch gesehen,
dass unendliche Summen von der Reihenfolge der Summanden abhängen können, und
nun soll es auf einmal keine Rolle spielen in welcher Reihenfolge wir unsere Summanden durchlaufen. Dies ist aber kein hoffnungsloses Problem, wir haben ja bereits in
Lemma 11 festgehalten, dass wir absolut konvergente Reihen in beliebiger Reihenfolge
aufsummieren können. P
P∞
Sind beide Summen ∞
a
und
n
n=0
n=0 bn absolut konvergent, so kann man sehen,
dass sich die Produkte ak bl in jeder beliebigen Reihenfolge summieren lassen, und sich
stets das Produkt der Summen der beiden einzelnen Reihen ergibt. Aus Gründen die
erst im nächsten Semester bei der Behandlung von Potenzreihen klar werden, ist es
nützlich jetzt noch eine kleine Variante dieser Summationstechnik einzuführen. Wir
fassen die Summanden entlang der Diagonalen zusammen, schreiben also
a0 b0 +a0 b1 +a1 b0 +a0 b2 +a1 b1 +a2 b0 +· · · = a0 b0 +(a0 b1 + a1 b0 )+(a0 b2 + a1 b1 + a2 b0 )+· · ·
Die endlichen Summen in den Klammern fassen wir als eine neue Folge (cn )n∈N auf, und
diese Folge, beziehungsweise die zugehörige Reihe, ist das sogenannte Cauchyprodukt
der beiden Reihen. Der erste Summand a0 b0 hat 0 = 0 + 0 als Summe der auftauchenden Indizes, die beiden Terme a0 b1 , a1 b0 im zweiten Summanden haben beide die
129
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
Indexsumme 0 + 1 = 1 + 0 = 1, die drei Terme a0 b2 , a1 b1 , a2 b0 im dritten Summanden
haben alle die Indexsumme 0 + 2 = 1 + 1 = 2 + 0 = 2, und dies geht immer so weiter. Numerieren wir die Diagonalen mit n = 0, 1, 2, 3, . . . durch, so sind die Produkte
ak bl auf der n-ten Diagonalen gerade durch k + l = n beschrieben. Dies führt auf die
folgende Definition.
Definition 7.3: Sei K ∈ {R, C} und seien (an )n∈N , (bn )n∈N zwei Zahlenfolgen in K.
Das Cauchyprodukt dieser beiden Folgen ist dann die Folge (cn )n∈N definiert durch
cn :=
n
X
ak bn−k =
k=0
X
ak b l
k+l=n
für jedes n ∈ N.
Die ersten vier Glieder des Cauchyprodukts sind also die Summen der unten jeweils
eingekästelten Produkte:
a0 b0
a1 b0
a2 b0
a3 b0
a0 b1 a0 b2 a0 b3
a1 b1 a1 b2 a1 b3
a2 b1 a2 b2 a2 b3
a3 b1 a3 b2 a3 b3
c0
a0 b 0
a1 b0
a2 b0
a3 b0
a0 b0
a1 b0
a2 b0
a3 b 0
a0 b1 a0 b2 a0 b3
a1 b1 a1 b2 a1 b3
a2 b1 a2 b2 a2 b3
a3 b1 a3 b2 a3 b3
c1
a0 b1 a0 b2
a1 b1 a1 b2
a2 b1 a2 b2
a3 b1 a3 b2
c2
a0 b 3
a1 b3
a2 b3
a3 b 3
a0 b0
a1 b0
a2 b 0
a3 b0
a0 b1 a0 b2
a1 b1 a1 b2
a2 b1 a2 b2
a3 b1 a3 b2
c3
a0 b3
a1 b3
a2 b3
a3 b3
Wir wollen jetzt den Satz über Produkte von Reihen ansteuern. Überraschenderweise
stellt sich heraus, dass es für die Konvergenz des Cauchyprodukts bereits ausreicht,
das eine der beiden Reihen absolut konvergent ist. Aus Zeitgründen hatten wir in der
Vorlesung auf den Beweis des folgenden Satzes verzichtet, in diesem Skript ist er aber
mit aufgeführt. WirPgehen zunächst
P∞ die Beweisstrategie durch. Gegeben seien zwei
konvergente Reihen ∞
a
und
n=0 n
n=0 bn , deren Partialsummen wir mit (An )n∈N und
(Bn )n∈N bezeichnen. Mit den Rechenregeln für Folgengrenzwerte §6.Satz 6.(c) haben
wir zunächst
!
!
∞
∞
X
X
bn = lim An · lim Bn = lim (An Bn ).
an ·
n=0
n→∞
n=0
n→∞
n→∞
Denken wir uns die Produkte ak bl wie oben quadratisch angeordnet, so ist das Produkt
An Bn diePSumme aller Einträge im n × n Quadrat links oben in diesem Schema. Bezeichnet ∞
n=0 cn das Cauchyprodukt der beiden Reihen und (Cn )n∈N die Folge seiner
Partialsummen, so ist Cn die Summe aller Einträge im unten eingezeichneten Dreieck:
ak
ak
ak
Cn
An Bn
An Bn − Cn
bl
Das Quadrat An Bn
n0
bl
bl
Das Dreieck Cn
130
Differenz der beiden
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
Da die Folge (An Bn )n∈N gegen das Produkt der beiden Summen konvergiert, ist die
Konvergenz von (Cn )n∈N gegen dieses Produkt gleichwertig dazu das (An Bn − Cn )n∈N
eine Nullfolge ist. Diese Differenz ist die Summe über das Dreieck ganz rechts. In
diesem Dreieck hat man sowohl Summanden ak bl mit kleinem k als auch solche mit
kleinem l. Wegen k + l > n können k und l aber nicht beide gleichzeitig klein sein
und zur Abschätzung teilt man die Summe über das Dreieck in zwei Teile auf, einmal
Summanden mit l ≥ n0 für einen Startindex n0 , und zum anderen die restlichen mit
l < n0 .
Satz 7.18 (Cauchyprodukte
P∞
P von Reihen)
Sei K ∈ {R, C} und seien ∞
n=0 an ,
n=0 bn zwei konvergente Reihen
P∞ von denen eine
sogar absolut konvergent ist. Dann ist auch das Cauchyprodukt n=0 cn dieser beiden
Reihen konvergent, und es gilt
∞
X
n=0
cn =
" n
∞
X
X
n=0
#
∞
X
ak bn−k =
!
an
·
n=0
k=0
∞
X
!
bn .
n=0
P∞
P∞
P∞
Sind sogar beide Reihen
n=0 an ,
n=0 bn absolut konvergent, so ist auch
n=0 cn
absolut konvergent, und istP
weiter d0 , d1 , d2 , . . . eine Aufzählung der Produkte ak bl (k, l ∈
N), so ist auch die Reihe ∞
n=0 dn absolut konvergent mit
∞
X
n=0
dn =
∞
X
!
an
n=0
·
∞
X
!
bn .
n=0
Beweis: Seien An , Bn , Cn wie oben. Da das Cauchyprodukt
sich bei Vertauschen der
P
beiden Reihen nicht ändert, können wir annehmen das ∞
a
n=0 n absolut konvergent ist,
also
∞
X
A :=
|an | < ∞.
n=0
Wie bemerkt müssen wir zeigen, dass (An Bn − Cn )n∈N eine Nullfolge ist. Sei P
also >
0 gegeben. Nach dem Cauchy Kriterium für Reihen Satz 8 angewandt auf ∞
n=0 bn
existiert ein n1 ∈ N mit
m
X
bl <
2A + 1
l=n
Pn1 −1
für alle n, m ∈ N mit m ≥ n ≥ n1 . Setze M := l=0
|bl |. Erneut
P∞ nach dem Cauchy
Kriterium für Reihen Satz 8, diesmal angewandt auf die Reihe n=0 |an |, existiert ein
n2 ∈ N mit
m
X
|ak | <
2M + 1
k=n
131
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
für alle n, m ∈ N mit m ≥ n ≥ n2 . Setze n0 := n1 + n2 . Sei n ∈ N mit n ≥ n0 . Dann ist



 nX
n
1 −1
X
X
X
X



 bl  +
a
·
b
ak · 
ak bl = |An Bn − Cn | = 
k
l
l=1
1≤k≤n
n1 ≤l≤n
k=1
0≤k,l≤n
k+l>n
k+l>n
k+l>n
#
n1 −1 " n
n
n
X
X
X
X
≤
|ak | · |ak | · |bl |
bl +
l=1
k=n−l+1
k=1
l=max{n1 ,n−k+1} ≤
A
M
+
<
2A + 1 2M + 1
da für jedes 1 ≤ l ≤ n1 −1 stets n−l+1 ≥ n0 −n1 +2 > n2 ist. Damit ist (An Bn −Cn )n∈N
eine Nullfolge, und die erste Aussage
des Satzes ist bewiesen.
P∞
Nun nehmen wir an, dass auch n=0 bn absolut konvergent ist und setzen
B :=
∞
X
|bn | < ∞.
n=0
Für jedes n ∈ N gilt dann
n
X
|cn | ≤
k=0
X
|ak | · |bl | ≤
0≤k,l≤n
k+l≤n
n
X
!
|ak |
·
k=0
n
X
!
|bl |
≤ AB,
l=0
P∞
P∞
also ist
n=0 |cn | ≤ AB < ∞ und auch
n=0 cn ist absolut konvergent. Sei jetzt
d0 , d1 , d2 , . . . eine Aufzählung der Produkte ak bl (k, l ∈ N), also dn = aα(n) bβ(n) für alle
n ∈ N wobei
γ : N → N × N; n 7→ (α(n), β(n))
eine bijektive Abbildung ist. Sei n ∈ N. Dann setzen wir m := max{α(k) + β(k)|k ∈
N, 0 ≤ k ≤ n} und haben
n
X
|dk | =
k=0
n
X
|aα(k) | · |bβ(k) | ≤
X
|ak | · |bl | ≤ AB.
0≤k,l≤m
k+l≤m
k=0
P
P∞
0
Also ist ∞
n=0 |dn | ≤ AB < ∞ und
n=0 dn ist absolut konvergent. Sei jetzt (dn )n∈N
die Aufzählung
der Produkte ak bl geordnet
Diagonalen. Dann ist das CauchyproP∞nach
P
0
dukt ∞
c
eine
geblockte
Form
von
d
im
Sinne von Aufgabe (33), und nach
n=0 n
n=0 n
Aufgabe (33.a) sowie der schon bewiesenen Teilaussage ist damit
!
!
∞
∞
∞
∞
X
X
X
X
d0n =
cn =
an ·
bn .
n=0
n=0
n=0
132
n=0
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
Schreiben wir wie oben d0n = aα0 (n) bβ 0 (n) für alle n ∈ N mit einer bijektiven Abbildung
γ 0 : N → N × N; n 7→ (α0 (n), β 0 (n)), so ist auch π := γ −1 ◦ γ 0 bijektiv mit γ ◦ π = γ 0 ,
also α0 = α ◦ π und β 0 = β ◦ π. Für jedes n ∈ N ist damit
d0n = aα0 (n) bβ 0 (n) = aα(π(n)) bβ(π(n)) = dπ(n) ,
und mit Lemma 11 folgt schließlich
∞
X
dn =
n=0
∞
X
dπ(n) =
∞
X
d0n =
n=0
n=0
∞
X
!
an
n=0
·
∞
X
!
bn .
n=0
Wir wollen hierzu ein kleines Beispiel rechnen. Sei q ∈ C mit |q| < 1 gegeben. Dann
wissen wir bereits nach Satz 1 das die geometrische Reihe
∞
X
qn =
n=0
1
1−q
absolut konvergiert. Wir bilden jetzt das Cauchyprodukt (cn )n∈N dieser Reihe mit sich
selbst, und erhalten für jedes n ∈ N
cn =
m
X
k n−k
q q
=
n
X
q n = (n + 1)q n .
k=0
k=0
Der Satz über das Cauchyprodukt Satz 18 ergibt damit
!2
∞
∞
X
X
1
.
(n + 1)q n =
qn
=
(1 − q)2
n=0
n=0
Damit folgt weiter
∞
X
n=1
n
nq =
∞
X
n=0
n
(n + 1)q −
∞
X
qn =
n=0
1
q
1
−
=
.
2
(1 − q)
1−q
(1 − q)2
Setzen wir also beispielsweise q = 1/2 ein, so ergibt sich
∞
1
X
n
1 2 3
4
5
2
=
+
+
+
+
+
·
·
·
=
= 2.
n
1 2
2
2
4
8
16
32
1
−
n=1
2
P∞
P∞
Falls beide Reihen n=0 an und n=0 bn nur konvergent aber nicht absolut konvergent sind, so kann das Cauchyprodukt der beiden Reihen tatsächlich divergent sein.
Beispielsweise ist die Reihe
∞
X
(−1)n
√
n+1
n=0
133
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
nach dem Leipnitz Kriterium Satz 7 konvergent. Das Cauchyprodukt dieser Reihe mit
sich selbst ist für n ∈ N gegeben durch
n
n
X
X
(−1)k
(−1)n−k
1
n
√
p
cn :=
·√
.
= (−1)
n−k+1
k+1
(k + 1)(n − k + 1)
k=0
k=0
Sind n, k ∈ N mit 0 ≤ k ≤ n, so haben wir
(k + 1)(n − k + 1) =
d.h.
|cn | =
n
2
+1−
n
X
2
−k
n
n
·
+1+ −k
2
2
n
2 n
2 n
2
=
+1 −
−k ≤
+1 ,
2
2
2
1
p
k=0
n
(k + 1)(n − k + 1)
≥
n
X
n
k=0 2
2(n + 1)
1
=
n+2
+1
und somit ist (cn )n∈N nicht einmal eine Nullfolge. Eine letzte überraschende Tatsache
wollen wir hier noch festhalten, aber nicht beweisen. Wie gesehen kann das Cauchyprodukt zweier konvergenter Reihen divergent sein, wenn es aber konvergent ist, so
muss es immer gegen den richtigen Wert, also das Produkt der beiden Ausgangsreihen,
konvergieren.
$Id: lgs.tex,v 1.8 2011/07/14 18:23:18 hk Exp $
§8
Lineare Gleichungssysteme
Definition 8.1: Ein lineares Gleichungssystem besteht aus m linearen Gleichungen


a11 x1 + a12 x2 + · · · + a1n xn = b1



a21 x1 + a22 x2 + · · · + a2n xn = b2
(∗)
..
..
..
.

.
.
. = ..


am1 x1 + am2 x2 + · · · + amn xn = bm 
für die gesuchten n Unbekannten x1 , . . . , xn . Dabei sind die sogenannten Koeffizienten
aij und die rechten Seiten bj reelle oder komplexe Zahlen, und auch die Variablen
x1 , . . . , xn können reell oder komplex sein.
Je nachdem ob reelle oder komplexe Zahlen vorliegen, sprechen wir von einem linearen
Gleichunssystem über R oder über C. Lineare Gleichungssysteme kommen in vielen
verschiedenen Kontexten vor, und wir wollen jetzt beispielhaft einige dieser Situationen
vorstellen.
134
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
1. Angenommen wir haben eine Ebene e und eine Gerade l im dreidimensionalen
Raum. Die Ebene sei durch einen Aufpunkt p und zwei Richtungsvektoren u, v
gegeben, also
e = {p + tu + sv|t, s ∈ R}.
Entsprechend sei die Gerade durch einen Aufpunkt q und einen Richtungsvektor
w gegeben, also
l = {q + tw|t ∈ R}.
Wir wollen den Durchschnitt e ∩ l berechnen. Ein Punkt x liegt genau dann in e
und l wenn es reelle Zahlen t, s, r ∈ R mit x = p + tu + sv und x = q + rw gibt.
zur Bestimmung dieser Punkte x müssen wir also alle Lösungen der Gleichung
p + tu + sv = q + rw
in den Variablen t, s, r ∈ R finden. Schreiben wir die obige Gleichung für die
einzelnen Komponenten hin, und machen eine kleine Umstellung, so ergibt sich
das lineare Gleichungssystem
u1 t + v1 s − w1 r = q1 − p1
u2 t + v2 s − w2 r = q2 − p2
u3 t + v3 s − w3 r = q3 − p3
aus drei Gleichungen in drei Unbekannten. Es gibt natürlich besere Rechenwege
zur Bestimmung von e ∩ l, etwa durch Umformung von e in die Hessesche Normalform, aber uns geht es hier um das lineare Gleichungssystem und nicht um
die konkrete Aufgabe.
2. Als ein ähnliches Problem denken wir uns diesmal gleich zwei Ebenen e1 , e2
im dreidimensionalen Raum gegeben, und für i = 1, 2 sei die Ebene ei durch
einen Aufpunkt pi und zwei Richtungsvektoren ui , vi gegeben. Zur Berechnung
des Schnitts e1 ∩ e2 müssen wir diesmal die Gleichung
p1 + au1 + bv1 = p2 + cu2 + dv2
in den vier Variablen a, b, c, d ∈ R lösen. Ausgeschrieben und etwas umgestellt
ergibt sich das lineare Gleichungssystem
u11 a + v11 b − u21 c − v21 d = p21 − p11
u12 a + v12 b − u22 c − v22 d = p22 − p12
u13 a + v13 b − u23 c − v23 d = p23 − p13
aus drei Gleichungen in vier Unbekannten. Auch hier gibt es bessere Rechenwege.
3. Lineare Gleichungssysteme entstehen auch bei der numerischen Lösung von Differentialgleichungen. Angenommen wir haben ein zu berechnendes Skalarfeld u
auf dem Würfel [0, 10]3 , also anders gesagt eine Funktion u : [0, 10]3 → R. Dabei
135
Mathematik für Physiker I, WS 2010/2011
Freitag 17.12.2010
sei u durch eine Differentialgleichung, also durch eine Gleichung in den Ableitungen der Funktion u, und zusätzliche Randbedingungen gegeben. Ein Ansatz zum
numerischen Rechnen ist es den Würfel durch ein diskretes Gitter zu ersetzen,
etwa indem das Intervall [0, 10] in jeder der drei Dimensionen mit einer festen
Schrittweite unterteilt wird. Um die Funktion u auf den Gitterpunkten zu berechnen, nähert man alle Ableitungen durch gewissen Differenzenquotienten in
der gewählten Schrittweite an und ersetzt die Differentialgleichung näherungsweise durch ein lineares Gleichungssystem. Dieses Gleichungssystem hat dann eine
Gleichung und eine Unbekannte für jeden Gitterpunkt. Hierbei kommt man sehr
schnell auf recht große lineare Gleichungssysteme, haben wir etwa die Schrittweite h = 0, 1, so wird das Intervall [0, 10] in 100 Teile zerlegt und wir haben
1003 = 1000000 Gleichungen in ebensovielen Unbekannten.
4. Als ein letztes Beispiel eines linearen Gleichungssystems wollen wir den sogenannten Pagerang einer Seite im WWW besprechen. Der Pagerang ist eine positive
Zahl die die Relevanz der fraglichen Seite messen soll. Wir denken uns alle Seiten
im Netz als S1 , . . . , Sn durchnumeriert, dabei ist n eine recht grosse Zahl. Jeder
Seite Si soll ein Pagerang P (Si ) > 0 zugeordnet werden. Dabei soll sich die Relevanz der Seite daraus ergeben wieviele andere Seiten einen Link auf sie haben.
Schreiben wir für jedes 1 ≤ i ≤ n
Bi := {1 ≤ j ≤ n|j 6= i und es gibt einen Link von Seite Sj nach Seite Si }
für die Menge aller Seiten die einen Link nach Si haben, so soll sich P (Si ) also
aus Bi ergeben. Wir wollen aber nicht einfach die Anzahl aller Links nach Si
zählen, Links die von wichtigen Seiten kommen sollten mehr zählen als solche die
von unwichtigen Seiten kommen. Welche Seite dabei wichtig ist, wird wiederum
durch deren Pagerang beschrieben. Man könnte also daran denken als Pagerang
von Si die Summe alle Ränge der nach Si linkenden Seiten zu nehmen. Das ist
aber auch problematisch, haben wir etwa eine wichtige Seite Sj in Bi die nur auf
wenige andere Seiten verlinkt, so sollte dieser Link mehr zählen als ein Link von
einer ebenso wichtigen Seite Sk ∈ Bi die auf sehr viele andere Seiten verweist.
Hierzu betrachtet man die Bedeutung eines von der Seite Sj ausgehenden Links
relativ zur Gesamtzahl
Lj := Anzahl aller von Sj ausgehenden Links
aller Links von Sj . Dabei werden mehrfache Links auf dieselbe Seite nur einmal
gezählt und Links von Sj auf sich selbst werden ignoriert. Hat Seite Sj dann den
Pagerang P (Sj ), so soll jeder von Sj ausgehende Link die Wichtigkeit“ P (Sj )/Lj
”
auf sein Ziel übertragen. Um dann den Pagerang von Si zu ermitteln summieren
wir diese Wichtigkeiten alle auf, also
P (Si ) =
X P (Sj )
.
Lj
j∈B
i
136
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
So weit so gut, nur ist das leider keine Definition. Haben wir etwa kreisförmig
angeordnete Links S1 → S2 → S3 → S4 → S1 , so hängt P (S1 ) von P (S4 ) ab,
was wiederum von P (S3 ) abhängt, dieses hängt von P (S2 ) ab, und P (S2 ) hängt
schließlich wieder von P (S1 ) ab. Trotzdem funktioniert alles, man muss sich die
obige Formel nur nicht als eine Definition sondern als eine Gleichung denken.
Schreiben wir die Formel zu
X 1
P (Si ) −
P (Sj ) = 0
L
j
j∈B
i
um, so haben wir damit ein lineares Gleichungssystem in den n Unbekannten
P (S1 ), . . . , P (Sn ) und ebenso vielen Gleichungen. Das ist noch nicht ganz das
Gleichungssystem das wirklich verwendet wird, aber es kommt nur noch eine
kleine Modifikation hinzu. Das dann entstehende lineare Gleichungssystem hat
eine bis auf eine willkürliche Normierung eindeutige Lösung und in dieser sind
alle P (Si ) tatsächlich positiv.
Vorlesung 16, Montag 20.12.2010
In der letzten Sitzung hatten wir mit der Besprechung linearer Gleichungssysteme


a11 x1 + a12 x2 + · · · + a1n xn = b1



a21 x1 + a22 x2 + · · · + a2n xn = b2
(∗)
..
..
..
.

.
.
. = ..


am1 x1 + am2 x2 + · · · + amn xn = bm 
begonnen, und hatten beispielhaft einige Situationen vorgestellt, in denen diese vorkommen. Bevor wir an die Lösung linearer Gleichungssysteme gehen, ist es hilfreich
eine kompakte Schreibweise für diese einzuführen.
Definition 8.2: Eine m × n Matrix A über K ∈ {R, C} ist ein rechteckiges Schema


a11 · · · a1n

.. 
A =  ...
. 
am1 · · · amn
bestehend aus m Zeilen von je n Elementen von K. Ist dabei m = n, so spricht man
auch von einer quadratischen Matrix.
Wir können jetzt ein lineares Gleichungssystem wie unser obiges (∗) als eine Matrix
schreiben, indem nur noch die Koeffizienten und die rechte Seite des Systems hingeschrieben werden. Hierbei gehen die Bezeichungen der Unbekannten verloren, aber
diese spielen innerhalb der Rechnungen sowieso keine Rolle.
137
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
Definition 8.3: Sei (∗) das lineare Gleichungssystem aus Definition 1. Dann nennt man
die Matrix


a11 · · · a1n

.. 
A =  ...
. 
am1 · · · amn
die Koeffizientenmatrix des linearen Gleichungssystems (∗). Weiter heißt die Matrix


a11 · · · a1n b1

..
.. 
A0 =  ...
.
. 
am1 · · · amn bm
die erweiterte Koeffizientenmatrix des linearen Gleichungssystems (∗).
Gelegentlich wird die rechte Seite des Gleichungssystems in der erweiterten Koeffizientenmatrix durch einen senkrechten Strich von den Koeffizienten getrennt, also


a11 · · · a1n b1
 ..
..
..  ,
 .
.
. 
am1 · · · amn bm
dies hat dann aber keine inhaltliche Bedeutung, sondern dient nur der Optik. Wir wollen uns jetzt auch noch ein erstes konkretes Beispiel eines linearen Gleichungssystems
anschauen, nämlich das folgende System von vier Gleichungen in vier Unbekannten:
x + 2y − u + v = 1
x + 2y + u − v = −3
−x + 2y + 3u − v = 1
3x
− u
= 0
Koeffizientenmatrix A und erweiterte Koeffizientenmatrix A0 dieses Gleichungssystems
entstehen dann indem wir alle redundanten Symbole, also Plus/Minus-Zeichen, Gleichheitszeichen und Unbekannte weglassen, sie sind also die 4 × 4 beziehungsweise 4 × 5
Matrix




1 2 −1
1
1 2 −1
1
1
 1 2

1 −1 
1 −1 −3 
 , A0 =  1 2
.
A=
 −1 2
 −1 2
3 −1 
3 −1
1 
3 0 −1
0
3 0 −1
0
0
Auf einige Randfälle wollen wir besonders hinweisen:
1. Einzeln stehende Variablen werden in der Koeffizientenmatrix zu 1“, da bei”
spielsweise das x“ in der ersten Gleichung als 1 · x gelesen werden kann.
”
2. Subtraktionen im Gleichungssystem werden als Addition mit dem entsprechenden
negativen Vielfachen aufgefasst, so wird beispielsweise das −u“ in der ersten
”
Gleichung zu −1“ in der Koeffizientenmatrix.
”
138
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
3. Nicht vorkommende Variablen in einer der Gleichungen denken wir uns als Null
mal die entsprechende Variable dazu, beispielsweise führt das fehlende y in der
vierten Gleichung in der Koeffizientenmatrix zu einer 0“ in der zweiten Spalte
”
der vierten Zeile.
Wie in diesem Beispiel zu sehen, müssen die Unbekannten nicht x1 , . . . , xn heißen,
für höchstens drei Unbekannte nennen wir diese meist x, y, z und für vier Unbekannte
werden wir meistens x, y, u, v als Variablennamen verwenden. Sehr kleine lineare Gleichungssysteme mit n = 2 oder n = 3 Unbekannten kann man einfach durch schrittweises Eliminieren der Unbekannten lösen, sind die Unbekannten etwa x, y und haben wir zwei Gleichungen, so nehmen wir eine der beiden Gleichungen um y durch
x auszudrücken, setzen das Ergebnis für y in die andere Gleichung ein, lösen diese
nach x auf, und berechnen hieraus schließlich y. Dieses Verfahren wird aber schon ab
n = 4 Unbekannten unpraktisch. Das Gleichungssystem im obigen Beispiel wäre noch
gerade ausreichend klein um direkt durch schrittweises Eliminieren der Unbekannten
gelöst zu werden, wir wollen aber lieber ein systematisches, allgemein verwendbares,
Lösungsverfahren haben. Als ein solches werden wir das sogenannte Gaußsche Elimi”
nationsverfahren“ verwenden. Dieses Verfahren beruht darauf ein gegebenes lineares
Gleichungssystem von allgemeiner Form in ein äquivalentes System von sehr spezieller Gestalt umzuformen. Diese speziellen linearen Gleichungssysteme sind die linearen
Gleichungssysteme die in der sogenannten Stufenform“ vorliegen:
”
a11 x1 + · · · + a1i xi + · · · + a1j xj + · · · = b1
a2i xi + · · · + a2j xj + · · · = b2
a3j xj + · · · = b3
..
.
.
= ..
mit a11 6= 0, a2i 6= 0, a3j 6= 0 und so weiter. In jeder Gleichung kommen also von links
gesehen immer weniger der Unbekannten vor. Ein konkretes Beispiel für ein solches
Gleichungssystem mit m = 2 Gleichungen und n = 4 Unbekannten ist
x+y + u−v = 1
u + v = 2,
hier haben wir die beiden unterstrichenen Stufen der Länge 2. Wir lösen ein System in
Stufenform indem wir von unten nach oben gehend jeweils eine Gleichung benutzen, die
in dieser Gleichung am weitesten links stehende Variable mit von Null verschiedenen
Koeffizienten festzulegen. In anderen Worten benutzen wir für die Systeme in Stufenform eine einfache, schrittweise Elimination von Variablen, bei Systemen in Stufenform
ist diese aber wesentlich einfacher als für ein allgemeines lineares Gleichungssystem, da
von jedem Einsetzungsschritt immer nur Variablen weiter rechts betroffen sind. Im
Beispiel ergibt die zweite Gleichung u = 2 − v und die Variable u ist festgelegt. An
die andere Variable sind keine Bedingungen gestellt. Setzen wir u = 2 − v in die erste
Gleichung ein, so wird diese zu
x + y + 2 − v − v = 1, also x = −1 − y + 2v,
139
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
d.h. durch diese Gleichung wird x festgelegt und an y gibt es keine Bedingungen. Für
die Lösungsmenge ist es nun praktisch, die frei gebliebenen Variablen y und v in t und
s umzutaufen. Die Lösungsmenge ist dann



1 − s + 2t 






s
 s, t ∈ R .

 2 − t 






t
Der Einfachheit halber schreiben wir die Lösungen dabei als einen Spaltenvektor, also
als eine 4 × 1 Matrix, dessen vier Einträge von oben nach unten für x, y, u, v stehen.
Weiter haben wir das lineare Gleichungssystem über K = R interpretiert, wollen wir
es als ein komplexes Gleichungssystem auffassen, so muss t, s ∈ R“ durch t, s ∈ C“
”
”
ersetzt werden. In einem linearen Gleichungssystem aus r Gleichungen in n Variablen
das in Stufenform vorliegt, wird die Lösungsmenge durch n−r freie Variablen beschrieben, die die restlichen r Variablen festlegen. Wenn n = m = r ist, es also keine langen
Stufen im System gibt, so ist die Lösung eindeutig. Lange Stufen sind dabei solche, die
zwei oder mehr Unbekannte umfassen. Nehmen wir beispielsweise
x + 2y − u + v
4y + 2u
2u − 2v
2v
= 1
= 2
= −4
= 10
so liefert die vierte Gleichung v = 5, damit wird die dritte zu 2u − 10 = −4, also u = 3,
die zweite Gleichung ergibt 4y + 6 = 2, also y = −1 und schließlich mit der ersten
Gleichung auch x − 2 − 3 + 5 = 1, also x = 1.
Die Lösung von Systemen in Stufenform ist also völlig unproblematisch und zwar
sowohl wenn die Lösung eindeutig ist als auch wenn es mehrere Lösungen gibt. Ein
allgemeines lineares Gleichungssystem wollen wir lösen, indem wir es in ein äquivalentes
System in Stufenform umwandeln. Hierzu verwenden wir die folgenden drei elementaren
Transformationen eines linearen Gleichungssystems:
1. Vertauschen zweier Gleichungen.
2. Multiplikation einer der Gleichungen mit einer Zahl c 6= 0.
3. Addition eines Vielfachen einer Gleichung zu einer anderen Gleichung.
Offenbar verändert keine dieser drei Transformationen die Lösungsmenge des linearen
Gleichungssystems. Die Operation (2) wird dabei nicht wirklich benötigt, wir können
sie beispielsweise dazu benutzen in der Stufenform zusätzlich a11 = a2i = a3j = · · · = 1
anzunehmen, was gelegentlich bequem ist. In Termen der erweiterten Koeffizientenmatrix werden diese drei Operationen zu
1. Vertauschen zweier Zeilen.
140
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
2. Multiplikation einer Zeile mit einer Zahl c 6= 0.
3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile.
Diese drei Transformationen einer Matrix werden auch als elementare Zeilenumformungen bezeichnet. Das schon angekündigte Gaußsche Eliminationsverfahren, oft auch als
Gauß-Algorithmus bezeichnet, wendet diese drei elementaren Umformungen systematisch auf ein gegebenes lineares Gleichungssystem an, um es in ein System in Stufenform
zu überführen.
Wir wollen das Eliminationsverfahren zunächst am obigen Beispiel des linearen
Gleichungssystems mit der erweiterten Koeffizientenmatrix

1
 1

 −1
3

2 −1
1
1
2
1 −1 −3 

2
3 −1
1 
0 −1
0
0
durchführen. Das Verfahren startet hier indem wir Vielfache der ersten Zeile zu den
anderen drei Zeilen addieren, und zwar so, dass der neue Eintrag in der ersten Spalte
dieser drei Gleichungen zu Null wird. Ziehen wir die erste Zeile von der zweiten ab,
so erhalten wir ganz links in der zweiten Zeile tatsächlich eine Null. Beachte dabei
das ein Abziehen der ersten Zeile von der zweiten auch als Addition des (−1)-fachen
der ersten Zeile zur zweiten gedeutet werden kann. Entsprechend müssen wir die erste
Zeile zur dritten Zeile addieren, und das dreifache der ersten Zeile von der vierten
Zeile abziehen. Mit diesen drei elementaren Zeilenumformungen wird unsere erweiterte
Koeffizientenmatrix zu




1 2 −1
1
1
1
2 −1
1
1
 1 2

1 −1 −3 
0
2 −2 −4 

 −→  0
.
 −1 2
 0
3 −1
1 
4
2
0
2 
3 0 −1
0
0
0 −6
2 −3 −3
Damit sind wir der Stufenform ein Stück näher gekommen. Nun würden wir gerne mit
der zweiten Zeile so fortfahren, also Vielfache der zweiten Zeile zur dritten und vierten
addieren so, dass wir in der dritten und vierten Zeile zwei führende Nullen bekommen.
Leider geht dies nicht sofort, da der zweite Eintrag der zweiten Zeile ja selbst eine
Null ist. Dies können wir aber leicht beheben, wir benutzen die erste unserer elementaren Zeilenumformungen um die zweite und die dritte Zeile der Matrix miteinander
zu vertauschen




1
2 −1
1
1
1
2 −1
1
1
 0

0
2 −2 −4 
4
2
0
2 

 −→  0
.
 0
 0
4
2
0
2 
0
2 −2 −4 
0 −6
2 −3 −3
0 −6
2 −3 −3
141
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
Danach kann es weitergehen, um auch der vierten Zeile eine zweite Null zu geben, muss
nur noch das 3/2-fache der zweiten Zeile zur vierten addiert werden




1 2 −1
1
1
1
2 −1
1
1

 0
2
0
2 
4
2
0
2 
.
 −→  0 4

 0
 0 0
2 −2 −4 
0
2 −2 −4 
0 0
5 −3
0
0 −6
2 −3 −3
Damit ist die Stufenform schon beinahe erreicht. Wir müssen nur noch als letzten
Schritt das 5/2-fache der dritten Zeile von der vierten abziehen und erhalten




1 2 −1
1
1
1 2 −1
1
1

 0 4
2
0
2 
2
0
2 
.
 −→  0 4


 0 0

0 0
2 −2 −4 
2 −2 −4
0 0
0
2 10
0 0
5 −3
0
Damit haben wir unser lineares Gleichungssystem in Stufenform gebracht. Tatsächlich
ist das erhaltene System in Stufenform gerade
x + 2y − u + v
4y + 2u
2u − 2v
2v
= 1
= 2
= −4
= 10
und dies war unser zweites Beispiel eines linearen Gleichungssystems in Stufenform.
Die eindeutige Lösung dieses Gleichungssystems hatten wir bereits als
x = 1, y = −1, u = 3, v = 5
berechnet. Wir wollen nun noch ein zweites Beispiel durchrechnen. Wir betrachten das
folgende lineare Gleichungssystem
x + y + z=1
2x − y + 3z = 0
5x − y + 7z = b.
wobei b ∈ R eine Konstante ist. Hier beginnt das Eliminationsverfahren, indem wir das
doppelte der ersten Zeile von der zweiten Zeile abziehen und anschließend das fünffache
der ersten Zeile von der dritten Zeile abziehen




1
1 1
1
1
1 1 1
 2 −1 3 0  −→  0 −3 1
−2  .
5 −1 7 1
0 −6 2 b − 5
Jetzt wird das doppelte der zweiten Zeile von der dritten Zeile abgezogen, und es
entsteht




1
1 1
1
1
1 1
1
 0 −3 1
−2  −→  0 −3 1
−2  .
0 −6 2 b − 5
0
0 0 b−1
142
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
Die unterste Zeile der Koeffizientenmatrix besteht jetzt nur noch aus Nullen, und die
Elimination ist beendet. Was jetzt passiert hängt von der Konstanten b ab. Ist b −
1 6= 0, also b 6= 1, so ist die unterste Gleichung nicht erfüllbar, denn diese bedeutet
ausgeschrieben ja
0 · x + 0 · y + 0 · z = b − 1 6= 0.
Das lineare Gleichungssystem hat in diesem Fall also keine Lösung. Dass ein lineares
Gleichungssystem nicht lösbar sein muss, sollte keine Überraschung sein, wir hatten als
ein Beispiel zu Beginn dieses Kapitels den Schnitt einer Ebene mit einer Gerade als
lineares Gleichungssystem ausgedrückt, und ist die Gerade zufällig parallel zur Ebene,
so hat dieses System halt keine Lösung. Ist im Beispiel dagegen b = 1, so können wir
die unterste Zeile ignorieren, diese besagt ja nur noch 0 = 0, und haben ein System in
Stufenform. Die untere Zeile des verkleinerten Systems gibt dann
1
2
−3y + z = −2 =⇒ y = z +
3
3
also eingesetzt in die erste Gleichung
1 4
− z.
3 3
In der Beschreibung der Lösungsmenge verwenden wir diesmal z = 3t mit t ∈ R und
haben

 1

 3 − 4t 
 2 + t  t ∈ R
3


3t
x=1−y−z =
als die Lösungsmenge des linearen Gleichungssystems. Das Gaußsche Eliminationsverfahren für ein lineares Gleichungssystem aus m Gleichungen in n Variablen läuft damit
prinzipiell in drei Phasen ab:
1. Bringe das gegebene lineare Gleichungssystem von oben beginnend in Stufenform
indem die Einträge der weiter unten liegenden Zeilen in der gerade betrachteten
Spalte durch Addition geeigneter Vielfacher der oberen Zeile auf Null gebracht
werden.
2. In der Koeffizientenmatrix des so entstandenen linearen Gleichungssystems seien
die ersten r ≤ m Zeilen von Null verschieden. Es gibt zwei verschiedene Möglichkeiten:
(a) Ist r < m, sind also unten in der Koeffizientenmatrix nur aus Nullen bestehende Zeilen entstanden, und ist die rechte Seite einer dieser Nullzeilen
von Null verschieden, so hat das lineare Gleichungssystem keine Lösung. In
diesem Fall sind wir an dieser Stelle fertig.
(b) Andernfalls ist entweder r = m oder in jeder Nullzeile ist auch die rechte
Seite Null. Dann ignorieren wir die unteren m − r Zeilen und erhalten ein
lineares Gleichungssystem aus r Gleichungen in n Unbekannten das in Stufenform ist. In diesem Fall ist unser Gleichungssystem auf jeden Fall lösbar.
143
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
3. Löse das entstandene lineare Gleichungssystem in Stufenform von unter her, indem jede der verbliebenen Gleichungen eine der Unbekannten festlegt, und eventuell verbleibende Unbekannte als freie Parameter behandelt werden. Für r = n
haben wir eine eindeutige Lösung und für r < n eine Lösungsmenge, die durch
n − r Parameter beschrieben wird.
In dieser Form ist das Eliminationsverfahren für die manuelle Bearbeitung linearer
Gleichungssysteme moderater Größe geeignet. Außerdem wird es sich für die theoretische Untersuchung linearer Gleichungssysteme völlig beliebiger Größe als günstig
erweisen. Zur Implementation auf einem Rechner ist die hier angegebene Form noch etwas ungünstig, da Rundungsfehler sich noch unnötig stark auswirken können. Wie man
dies vermeiden kann, ist ein Thema der Numerik und soll hier nicht behandelt werden.
Ebenfalls nicht geeignet ist das Verfahren für große“ Systeme, wie etwa diejenigen
”
die durch Diskretisierung von Differentialgleichungen entstehen, oder die PagerangGleichung.
$Id: matrix.tex,v 1.8 2011/07/14 18:23:35 hk Exp $
§9
Matrizen über R und C
In §8 hatten wir Matrizen nur als eine kompakte Schreibweise für lineare Gleichungssysteme eingeführt. In diesem Kapitel wollen wir die Matrizen in ihren Status
etwas aufwerten, und diverse Möglichkeiten einführen mit ihnen zu rechnen. Zunächst
brauchen wir eine Bezeichnung für die Menge aller Matrizen einer gegebenen Größe.
Definition 9.1: Seien K ∈ {R, C} und n, m ∈ N mit n, m ≥ 1. Dann bezeichne K m×n
die Menge aller m × n Matrizen über K, also aller Matrizen bestehend aus m Zeilen
und n Spalten mit Einträgen aus K.
Jede reelle Matrix ist natürlich insbesondere eine komplexe Matrix, also Rm×n ⊆ Cm×n
und man kann komplexe Matrizen als den allgemeinen Fall auffassen.
Manchmal ist es technisch bequem auch m = 0 oder n = 0 zuzulassen, dann wird die
Menge K m×n als {0} interpretiert. Weiter nennt man 1 × n Matrizen auch Zeilenvektoren und m × 1 Matrizen werden Spaltenvektoren genannt. Wir werden zwischen diesen
beiden meistens keinen Unterschied machen. Sowohl für die Menge K n := K 1×n aller
Zeilenvektoren der Länge n als auch für die Menge K m := K m×1 aller Spaltenvektoren
der Länge m verwenden wir dasselbe Symbol. Dies ist normalerweise unproblematisch.
9.1
Addition und Multiplikation von Matrizen
Die beiden einfachsten Operationen sind die Addition von Matrizen derselben Größe
und die Multiplikation mit reellen beziehungsweise komplexen Zahlen. In diesem Zu144
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
sammenhang nennt man letztere oft auch Skalare“.
”
Definition 9.2: Sei K ∈ {R, C} und seien n, m ∈ N\{0}. Sind dann A, B zwei m × n
Matrizen




b11 · · · b1n
a11 · · · a1n

.. 
..  , B =  ..
A =  ...
 .
. 
. 
bm1 · · · bmn
am1 · · · amn
so definieren wir die Summe A + B von A und B als


a11 + b11 · · · a1n + b1n


..
..
A + B := 
.
.
.
am1 + bm1 · · · amn + bmn
Sind weiter c ∈ K ein Skalar und A ∈ K m×n wieder die obige Matrix, so definieren wir
das Vielfache c · A durch




ca11 · · · ca1n
a11 · · · a1n

..  :=  ..
..  .
c · A = c ·  ...
 .
. 
. 
am1 · · · amn
cam1 · · · camn
Insbesondere sind die Summen von Zeilen- beziehungsweise Spaltenvektoren gleicher
Größe und Produkte von Skalaren mit Zeilen- beziehungsweise Spaltenvektoren definiert. Mit dieser Addition beziehungsweise Multiplikation mit Skalaren haben wir dann
die folgenden Rechenregeln:
1. Assoziativgesetz der Addition Für alle m×n Matrizen A, B, C gilt (A+B)+
C = A + (B + C).
2. Kommutativgesetz der Addition Für alle m × n Matrizen A, B gilt A + B =
B + A.
3. Existenz des neutralen Elements der Addition Ist 0 ∈ K m×n die Nullmatrix, deren Einträge alle Null sind, so gilt 0 + A = A für jede m × n Matrix
A.
4. Existenz additiver Inverser Sind A eine m × n Matrix so gilt (−A) + A = 0
wobei −A := (−1) · A ist.
Beachte das wir die Nullmatrix unabhängig von ihrer Größe einfach als 0“ schreiben.
”
Diese vier Rechenregeln entsprechen den sich auf die Addition beziehenden ersten vier
Körperaxiomen (A1) bis (A4) aus §4.1. Es gibt jetzt einige weitere Rechenregeln über
die Multiplikation mit Skalaren und deren Zusammenhang mit der Addition.
1. Assoziativgesetz für die Multiplikation mit Skalaren Für alle Zahlen t, s ∈
K und alle m × n Matrizen A über K gilt (ts) · A = t · (s · A).
145
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
2. Eins Für jede m × n Matrix A über K ist 1 · A = A.
3. Distributivgesetze Für alle m × n Matrizen A, B ∈ K m×n und alle Zahlen
t, s ∈ K gelten (t + s) · A = t · A + s · A und t · (A + B) = t · A + t · B.
Beachte das wir all diese Regeln insbesondere auch auf Zeilen- und Spaltenvektoren
anwenden können. Auf explizite Beweise dieser Regeln wollen wir hier verzichten, sie
sind allesamt trivial da einfach in jeder Komponente das jeweilige Körperaxiom für R
oder C angewandt wird. Man kann Matrizen passender Größe auch miteinander multiplizieren, allerdings wird hierzu nicht die zunächst naheliegende komponentenweise
Multiplikation verwendet. Warum die Matrixmultiplikation genau wie folgt definiert ist,
und auch genau so definiert werden muss, werden wir erst später im Zusammenhang
mit den sogenannten linearen Abbildungen sehen.
Definition 9.3: Seien n, m, l ∈ N\{0}. Sind dann A eine m × l Matrix und B eine l × n
Matrix jeweils über K ∈ {R, C}




b11 · · · b1n
a11 · · · a1l

..  , B =  ..
..  ,
A =  ...
 .
. 
. 
am1 · · · aml
bl1 · · · bln
so ist das Produkt


c11 · · · c1n

.. 
C := A · B =  ...
. 
cm1 · · · cmn
die m×n Matrix C, deren Eintrag cij in der i-ten Zeile und der j-ten Spalte (1 ≤ i ≤ m,
1 ≤ j ≤ n) durch
l
X
cij :=
aik bkj = ai1 b1j + · · · + ail blj
k=1
definiert ist.
Zwei Matrizen A, B können also nur dann multipliziert werden, wenn die linke Matrix A genausoviele Spalten hat wie die rechte Matrix B Zeilen hat. Die Formel zur
Multiplikation zweier Matrizen sieht zunächst etwas bedrohlich aus, ist in Wahrheit
aber sehr einfach. Wir wollen einmal ein kleines Beispiel anschauen, betrachte etwa die
beiden Matrizen


1 1 0
1
1 −1 1
0 .
A=
, B= 0 0 1
−2
3 1
1 2 0 −1
Hier sind A eine 2 × 3 und B eine 3 × 4 Matrix, d.h. A und B können multipliziert
werden und ihr Produkt ist eine 2 × 4 Matrix. Wie sieht die erste Zeile des Produktes
A · B aus? Die Formel für den allerersten Eintrag dieser Zeile lautet
c11 = a11 b11 + a12 b21 + a13 b31 = 1 · 1 + (−1) · 0 + 1 · 1 = 2.
146
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
Übersichtlicher wird dies wenn wir uns die erste Zeile von A zu einer Spalte gedreht
denken und diese der ersten Spalte von B gegenüberstellen
1
−1
1
1
0
1.
Gegenüberliegende Zahlen werden dann miteinander multipliziert, und anschließend
wird alles aufaddiert. Der zweite Eintrag der ersten Zeile ergibt sich dann ebenso, nur
taucht diesmal auf der rechten Seite die zweite Spalte von B auf, also
1
−1
1
1
0
2,
und wir erhalten c12 = 1 + 0 + 2 = 3. Die restlichen Einträge der ersten Zeile von A · B
ergeben sich analog. Gehen wir dann zur zweiten Zeile des Produkts über, so müssen
wir uns die zweite Zeile der linken Matrix A gedreht denken und stellen diese den
Spalten von B gegenüber, also etwa für den Eintrag in der ersten Spalte der zweiten
Zeile von A · B
−2
1
0
3
1
1.
So fortfahrend haben wir dann insgesamt


1 1 0
1
2
3
−1
0
1 −1 1
0 =
.
· 0 0 1
−1 0
3 −3
−2
3 1
1 2 0 −1
Wir wollen nun einige der Rechenregeln für die Matrixmultiplikation festhalten. Dabei sollen alle vorkommenden Matrizen über den reellen oder den komplexen Zahlen
definiert sein.
Lemma 9.1 (Rechenregeln für Matrizen)
Seien n, m, p, q ∈ N\{0}.
(a) Assoziativgesetz Sind A eine m × p, B eine p × q und C eine q × n Matrix, so
gilt (A · B) · C = A · (B · C).
(b) Einheitsmatrizen Ist

0 ···



1
1 ···




.. . .
.
..
En := 
= 
.
.


1
0 0 ···
0 0 ···
{z
|
1
0
..
.
n Spalten
147








 n Zeilen


1 0 


0 1 
}
0
0
..
.
0
0
..
.
Mathematik für Physiker I, WS 2010/2011
Montag 20.12.2010
die sogenannte n × n Einheitsmatrix, so gelten für jede m × n Matrix A die
Gleichungen A · En = A und Em · A = A.
(c) Distributivgesetze Sind A eine m × p Matrix und B, C zwei p × n Matrizen, so
gilt A · (B + C) = A · B + A · C. Sind ebenso A, B zwei m × p Matrizen und C
eine p × n Matrix, so gilt (A + B) · C = A · C + B · C.
(d) Multiplikation mit Skalaren Sind A eine m × p Matrix, B eine p × n Matrix
und c ∈ K ein Zahl, so gilt (cA) · B = A · (cB) = c · (A · B).
Beweis: Wir wollen hier nur das Assoziativgesetz exemplarisch vorrechnen, die anderen
drei Regeln können Sie sich selbst einmal als zusätzliche Übungsaufgaben vornehmen.
Seien also A, B, C wie in (a) gegeben. Die beiden Produkte (AB)C und A(BC) sind
dann zwei m × n Matrizen. Für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n ergibt sich der Eintrag von
(AB)C in der i-ten Zeile und der j-ten Spalte als
!
q
p
q
X
X
X
X
Ail Blk Ckj .
Ail Blk Ckj =
(AB)ik Ckj =
((AB)C)ij =
k=1
k=1
1≤l≤p
1≤k≤q
l=1
Auf der anderen Seite haben wir ebenfalls
(A(BC))ij =
p
X
l=1
Ail (BC)lj =
p
X
Ail
q
X
!
Blk Ckj
k=1
l=1
=
X
Ail Blk Ckj .
1≤l≤p
1≤k≤q
Dies zeigt ((AB)C)ij = (A(BC))ij , und (a) ist bewiesen.
Genauso wie wir für die Nullmatrix in jeder Größe einfach Null schreiben, werden wir
auch die Einheitsmatrizen En unabhängig von ihrer Größe n einfach als 1“ schreiben.
”
Wichtiger noch als die im Lemma aufgeführten Rechenregeln für die Multiplikation von
Matrizen, ist es welche Rechenregeln hier nicht stehen. Zum einen ist die Multiplikation
von Matrizen nicht kommutativ. Wir haben zum Beispiel
1 1
1 0
2 1
1 1
1 0
1 1
·
=
6=
=
·
.
0 1
1 1
1 1
1 2
1 1
0 1
Die Multiplikation verhält sich auch in einer anderen Hinsicht ungewöhnlich. Für reelle
oder komplexe Zahlen x, y wissen wir das aus x · y = 0 stets x = 0 oder y = 0 folgt. Für
Matrizen ist dies falsch, es gibt sogar von Null verschiedene Matrizen, deren Quadrat
gleich Null ist. Beispielsweise gilt
2 0 1
0 1
0 1
=
·
= 0.
0 0
0 0
0 0
148
Mathematik für Physiker I, WS 2010/2011
9.2
Montag 10.1.2011
Transposition von Matrizen
Vorlesung 17, Montag 10.1.2011
Im letzten Abschnitt hatten wir Addition und Multiplikation von Matrizen passender Größe, sowie die Multiplikation von Matrizen mit Skalaren, also mit reellen
oder komplexen Zahlen, eingeführt. Es gibt noch eine weitere, etwas weniger wichtige,
Grundrechenoperation für Matrizen, die sogenannte Transposition.
Definition 9.4: Sei


a11 · · · a1n

.. 
..
A =  ...
.
. 
am1 · · · amn
eine m × n Matrix über K ∈ {R, C}. Die Transponierte At von A ist dann die n × m
Matrix


a11 · · · am1

..  ,
At :=  ... . . .
. 
a1n · · · amn
über K deren Zeilen gerade die Spalten von A sind.
Beispielsweise ist

1
1 −1 0 2
 −1
 2
4 7 1  =
 0
−3 −5 7 11
2

t

2 −3
4 −5 
.
7
7 
1 11
Auch die Matrixtransposition erfüllt einige einfache Rechenregeln:
Lemma 9.2 (Rechenregeln für die Transposition)
Seien K ∈ {R, C} und n, m, l ∈ N\{0} drei natürliche Zahlen.
(a) Für jede m × n Matrix A über K gilt (At )t = A.
(b) Sind A, B zwei m × n Matrizen über K, so gilt (A + B)t = At + B t .
(c) Sind A eine m × n Matrix über K und c ∈ K eine Zahl, so gilt (cA)t = cAt .
(d) Sind A eine m × l und B eine l × n Matrix über K, so gilt (AB)t = B t At .
149
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
Beweis: (a,b,c) Diese Aussagen sind klar.
(d) Da B t eine n × l und At eine l × m Matrix sind, sind (AB)t und B t At beides n × m
Matrizen. Für alle 1 ≤ i ≤ n, 1 ≤ j ≤ m ergibt sich der Eintrag in der i-ten Zeile und
der j-ten Spalte zu
t
t
(B A )ij =
l
X
t
Bik
Atkj
k=1
=
l
X
Ajk Bki = (AB)ji = (AB)tij ,
k=1
d.h. es gilt tatsächlich (AB)t = B t At .
9.3
Lineare Gleichungssysteme als Matrixgleichung
Was hat die Matrixmultiplikation nun mit linearen Gleichungssystemen zu tun? Um
dies zu sehen, betrachten wir ein lineares Gleichungssystem

a11 x1 + a12 x2 + · · · + a1n xn = b1 


a21 x1 + a22 x2 + · · · + a2n xn = b2 
(∗)
..
..
..
.
.
.
. = .. 


am1 x1 + am2 x2 + · · · + amn xn = bm 
und schreiben A für seine Koeffizientenmatrix sowie


b1


b :=  ... 
bm
für seine rechte Seite. Ist weiter


x1


x :=  ... 
xn
der Vektor der n Unbekannten, so können wir x auch als eine n×1 Matrix, also als einen
Spaltenvektor, auffassen. Da A eine m × n Matrix ist, ist damit das Matrixprodukt
Ax definiert und ergibt eine m × 1 Matrix, also einen Spaltenvektor mit m Einträgen.
Diesen Vektor können wir auch leicht ausrechnen
 
 


a11 x1 + · · · + a1n xn
a11 · · · a1n
x1


..
..  ·  ..  = 
Ax =  ...
,
.
.   .  
am1 x1 + · · · + amn xn
am1 · · · amn
xn
die m Komponenten des Produkts Ax sind also gerade die linken Seiten unseres linearen Gleichungssystems. Damit kann das gesamte lineare Gleichungssystem (∗) als eine
einzelne Matrixgleichung
Ax = b
150
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
interpretiert werden. Wir wollen diese Interpretation nun verwenden, um einige einfache
Beobachtungen über die Menge der Lösungen unseres linearen Gleichungssystems zu
machen. Um diese auszusprechen ist eine weitere kleine Definition hilfreich.
Definition 9.5: Das lineare Gleichungssystem (∗) heißt homogen, wenn b = 0 ist, d.h.
wenn es die Form
+ · · · + a1n xn
+ · · · + a2n xn
..
.
= 0
= 0
..
.
am1 x1 + am2 x2 + · · · + amn xn
= 0
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
hat. Ein homogenes lineares Gleichungssystem hat offenbar immer die Lösung x = 0,
also x1 = . . . = xn = 0, die man als die triviale Lösung des linearen Gleichungssystems
bezeichnet. Als das zum allgemeinen Gleichungssystem (∗), also Ax = b, gehörige
homogene Gleichungssystem bezeichnet man das homogene lineare Gleichungssystem
Ax = 0.
Ein allgemeines lineares Gleichungssystem Ax = b bezeichnet man dann auch als
inhomogen. Beachte das inhomogen“ nur für nicht notwendig homogen“ steht und
”
”
nicht die Verneinung von homogen“ bedeutet.
”
Satz 9.3 (Homogene und inhomogene Lösungen)
Seien n, m ∈ N\{0} und A eine m × n Matrix.
(a) Sind u, v ∈ K n zwei Lösungen des homogenen linearen Gleichungssystems Ax = 0
und c ∈ K eine Zahl, so sind auch u + v und cu Lösungen von Ax = 0.
(b) Sei weiter b ∈ K m gegeben. Gibt es dann überhaupt eine Lösung x0 ∈ K n des
linearen Gleichungssystems Ax = b, so ist
{x0 + u|u ∈ K n , Au = 0}
die volle Lösungsmenge von Ax = b, d.h. die Lösungen von Ax = b sind genau die
Vektoren der Form x = x0 + u wobei u die Lösungen des zugehörigen homogenen
linearen Gleichungssystems durchläuft.
Beweis: (a) Aus Au = Av = 0 folgen nach Lemma 1.(c,d) auch A·(u+v) = Au+Av = 0
und A · (cu) = cAu = 0, d.h. auch u + v und cu sind Lösungen von Ax = 0.
(b) Ist u eine Lösung des homogenen Systems, gilt also Au = 0, so haben wir nach
Lemma 1.(c) auch A · (x0 + u) = Ax0 + Au = Ax0 = b, d.h. x = x0 + u ist eine
Lösung von Ax = b. Nun sei umgekehrt x ∈ K n mit Ax = b gegeben. Dann setzen wir
u := x − x0 ∈ K n und haben wieder nach Lemma 1.(c,d) auch Au = A · (x − x0 ) =
Ax−Ax0 = b−b = 0. Also ist u eine Lösung des homogenen linearen Gleichungssystems
und es gilt x = x0 + (x − x0 ) = x0 + u.
151
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
Hat also insbesondere das zugehörige homogene lineare Gleichungssystem nur die
triviale Lösung, so ist das allgemeine lineare Gleichungssystem Ax = b für jede rechte
Seite b ∈ K m entweder gar nicht lösbar oder eindeutig lösbar. Oft wird die Aussage (a)
des Lemmas noch zum Superpositionsprinzip“ verallgemeinert: Sind x1 , . . . , xr ∈ K n
”
Lösungen des homogenen linearen Gleichungssystem Ax = 0, und λ1 , . . . , λr ∈ K
beliebige Skalare, so ist auch
x = λ1 x 1 + · · · + λr x r
ein Lösung von Ax = 0. Diese Lösung wird dann oft als eine Linearkombination“,
”
beziehungsweise als Superposition“ oder Überlagerung“, der gegebenen Lösungen
”
”
x1 , . . . , xr bezeichnet. Auch für Teil (b) gibt es eine oft zu findende Sprechweise. Die
vorgegebene Lösung x0 von Ax = b bezeichnet man als eine spezielle Lösung, oder auch
als eine Partikularlösung“, des linearen Gleichungssystems Ax = b und damit kann
”
(b) als
Allgemeine Lösung
Spezielle Lösung
Allgemeine Lösung
=
+
von Ax = b
von Ax = b
von Ax = 0
ausgesprochen werden.
9.4
Inverse Matrizen und reguläre lineare Gleichungssysteme
Schreiben wir ein lineares Gleichungssystem in der Form Ax = b, so ist es naheliegend
dieses durch A auf die andere Seite bringen“ zu lösen, also mit so etwas wie 1/A zu
”
multiplizieren, nur gibt es leider keine Quotienten von Matrizen im üblichen Sinne.
So etwas läßt sich nur für eine spezielle Sorte von Matrizen einführen, die wir nun
definieren wollen.
Definition 9.6: Sei n ∈ N mit n ≥ 1. Eine n × n Matrix A über K ∈ {R, C} heißt
invertierbar, oder auch regulär, wenn es eine n × n Matrix A−1 über K, genannt die
Inverse von A, gibt so, dass A · A−1 = A−1 · A = 1 gelten.
Beachte das wir hier A−1 statt 1/A schreiben. Die Bruchschreibweise ist für Matrizen
in der Tat nicht sinnvoll. Wollten wir A/B definieren, so könnte dies A · B −1 oder
B −1 · A bedeuten, und diese beiden Ausdrücke können durchaus verschieden sein, wir
hatten ja bereits bemerkt das die Multiplikation von Matrizen nicht kommutativ ist.
Können wir also A/B keine Bedeutung geben, so erscheint auch die Schreibweise 1/A
als nicht sinnvoll.
Für die Invertierbarkeit einer Matrix A ∈ K n×n reicht es bereits aus, dass es eine
Matrix B ∈ K n×n mit AB = 1 oder BA = 1 gibt, eine der beiden Bedingungen in der
Definition der inversen Matrix ist also redundant. Diese Tatsache ist etwas diffiziler als
sie zunächst erscheint, man kann sie nicht einfach aus den Rechenregeln für Matrizen
herleiten. Wir werden dies erst im nächsten Kapitel beweisen können.
Beachte weiter, dass es zunächst sein könnte, das es zu einer invertierbaren Matrix
A mehrere Matrizen A−1 gibt. Dies wollen wir nun ausschließen.
152
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
Lemma 9.4 (Grundeigenschaften des Invertierens)
Seien n ∈ N mit n ≥ 1 und K ∈ {R, C}.
(a) Ist A ∈ K n×n invertierbar, so gibt es genau eine Matrix A−1 ∈ K n×n mit AA−1 =
A−1 A = 1.
(b) Ist A ∈ K n×n invertierbar, so ist auch A−1 invertierbar mit (A−1 )−1 = A.
(c) Sind A, B ∈ K n×n invertierbar, so ist auch A · B invertierbar mit (A · B)−1 =
B −1 · A−1 .
(d) Sind A ∈ K n×n invertierbar und c ∈ K\{0}, so ist auch cA invertierbar mit
(cA)−1 =
1
· A−1 .
c
(e) Ist A ∈ K n×n invertierbar, so ist auch At invertierbar mit (At )−1 = (A−1 )t .
(f ) Sind A ∈ K n×n eine beliebige n × n Matrix und B ∈ K n×n invertierbar, so ist A
genau dann invertierbar wenn AB invertierbar ist und auch genau dann invertierbar wenn BA invertierbar ist.
Beweis: (a) Sei B ∈ K n×n eine weitere Matrix mit AB = BA = 1. Dann haben wir
B = 1 · B = (A−1 A)B = A−1 (AB) = A−1 · 1 = A−1 .
(b) Klar.
(c) Es gilt
(AB) · (B −1 A−1 ) = A · (BB −1 )A−1 = AA−1 = 1,
und analog folgt auch (B −1 A−1 )(AB) = 1. Damit ist AB invertierbar mit (AB)−1 =
B −1 A−1 .
(d) Mit Lemma 1.(d) rechnen wir (cA) · (c−1 A−1 ) = (c−1 cA) · A−1 = AA−1 = 1, und
analog ist auch (c−1 A−1 ) · (cA) = 1. Damit ist cA invertierbar mit (cA)−1 = c−1 A−1 .
(e) Mit Lemma 2.(d) erhalten wir At ((A−1 )t ) = (A−1 A)t = 1t = 1 und analog folgt
auch ((A−1 )t )At = 1. Damit ist At invertierbar mit (At )−1 = (A−1 )t .
(f ) Ist A invertierbar so ist nach (c) auch AB invertierbar. Ist umgekehrt AB invertierbar, so ist nach (c) und (b) auch A = (AB)B −1 invertierbar. Analog ist A auch
genau dann invertierbar wenn BA invertierbar ist.
Die Aussage (e) des Lemmas erlaubt es uns die Kombination aus Transponieren und
Invertieren in einem Symbol
A−t := (At )−1 = (A−1 )t
zusammenzufassen, zumindest wenn A invertierbar ist. Wir wollen schon hier auf eine
weitere kleine Tatsache hinweisen, in Aussage (f) muss die Invertierbarkeit von B gar
153
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
nicht vorausgesetzt werden, d.h. ist ein Produkt AB zweier n×n Matrizen invertierbar,
so sind bereits beide Faktoren A, B einzeln invertierbar. Dies können wir an dieser Stelle
aber noch nicht beweisen, und kommen erst im nächsten Kapitel hierauf zurück.
Nun wenden wir den Begriff einer invertierbaren Matrix auf lineare Gleichungssysteme an.
Definition 9.7: Ein quadratisches lineares Gleichungssystem
+ · · · + a1n xn
+ · · · + a2n xn
..
.
= b1
= b2
..
.
am1 x1 + am2 x2 + · · · + amn xn
= bm
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
heißt regulär, wenn seine Koeffizientenmatrix regulär, also invertierbar, ist.
Die regulären linearen Gleichungssystem lassen sich immer eindeutig lösen, und zwar
durch Multiplikation mit der inversen Matrix.
Satz 9.5 (Reguläre lineare Gleichungssysteme)
Ein reguläres lineares Gleichungssystem mit Koeffizientenmatrix A und rechter Seite
b hat genau eine Lösung, nämlich x = A−1 b.
Beweis: Wegen A · (A−1 b) = (AA−1 )b = 1 · b = b ist A−1 b eine Lösung des linearen
Gleichungssystems Ax = b. Ist umgekehrt x ∈ K n mit Ax = b, so gilt auch x = 1 · x =
(A−1 A)x = A−1 · (Ax) = A−1 b.
Um diesen Satz zur Lösung linearer Gleichungssysteme zu verwenden, benötigen wir
noch eine Methode die Inverse einer gegebenen Matrix tatsächlich zu berechnen, sofern
sie überhaupt existiert. Wir wollen mit zwei häufig auftretenden Spezialfällen beginnen.
Zunächst betrachten wir sogenannte Diagonalmatrizen, das sind quadratische Matrizen,
die außerhalb der Hauptdiagonale keine von Null verschiedenen Einträge haben, also
beispielsweise die Einheitsmatrizen En . Diese Diagonalmatrizen multiplizieren sich auf
sehr einfache Weise

 
 

λ1
µ1
λ 1 µ1

 
 

...
...
...

·
=
.
λn
µn
λ n µn
Sind also insbesondere λ1 , . . . , λn ∈ K\{0} alle von Null verschieden, so ist die zugehörige Diagonalmatrix invertierbar mit



−1
λ1
...




=
λn
154
1
λ1

...
1
λn

.
Mathematik für Physiker I, WS 2010/2011
Ein weiterer gut
folgende einfache
a
c
Montag 10.1.2011
überschaubarer Fall sind 2 × 2 Matrizen. Wir haben nämlich die
Rechnung
b
d −b
ad − bc
0
·
=
= ad − bc,
d
−c
a
0
ad − bc
und ebenso ergibt sich dieses Ergebnis, wenn wir die beiden Matrizen in der anderen
Reihenfolge multiplizieren. Damit haben wir die Äquivalenz
a b
ist invertierbar ⇐⇒ ad − bc 6= 0,
c d
und in diesem Fall ist
a b
c d
−1
1
=
ad − bc
d −b
−c
a
.
Wir besprechen nun den Algorithmus zur Berechnung der Inversen einer allgemeinen
n × n Matrix, und wollen diesen zugleich am Beispiel der Matrix


1 2 −1
1
 1 2
1 −1 

A=
 −1 2
3 −1 
3 0 −1
0
durchführen. Dies ist gerade die Koeffizientenmatrix unseres Beispiels zum Gaußschen
Eliminationsverfahren in §8. Das Verfahren zum Invertieren dieser Matrix läuft in zwei
Schritten ab.
1. Zunächst schreibe A und die 4×4 Einheitsmatrix nebeneinander, also im Beispiel
1
1
−1
3
2 −1
1
2
1 −1
2
3 −1
0 −1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
Dann führe das Gaußsche Eliminationsverfahren für die linke Matrix (also für
A) durch. Dabei verwende zusätzlich Zeilenumformungen vom Typ 2, also Multiplikation von Zeilen mit Konstanten 6= 0, um den am weitesten links stehenden
von Null verschiedenen Eintrag einer jeder Zeile auf Eins zu bringen. Wende dabei simultan genau dieselben Zeilenumformungen auf die rechte Matrix an. Tritt
während der Elimination eine lange Stufe auf, so ist die Ausgangsmatrix A nicht
invertierbar, und wir können das Verfahren abbrechen. Andernfalls ist die Matrix
invertierbar. Wir führen diesen Schritt jetzt im Beispiel durch. Wir beginnen also
wieder mit der ersten Zeile. In dieser steht ganz links bereits eine Eins, und wir
bringen alle Einträge unterhalb dieser Eins auf Null
1
1
−1
3
2 −1
1
2
1 −1
2
3 −1
0 −1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
1
2 −1
1
0
0
0
2 −2
−→
0
0
4
2
0
1
0 −6
2 −3
155
1
−1
1
−3
0
1
0
0
0
0
1
0
0
0
0
1
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
Dann müssen wir die zweite und die dritte Zeile vertauschen und die neue zweite
Zeile anschließend durch 4 teilen
1
2 −1
1
0
0
2 −2
0
4
2
0
0 −6
2 −3
1
−1
1
−3
0
1
0
0
0
0
1
0
0
1
2 −1
1
1
0
0
1
0
2
−→
0
0
2 −2
0
1
0 −6
2 −3
1 0 0 0
1
0 14 0
4
−1 1 0 0
−3 0 0 1
Jetzt bringen wir die untenstehenden Einträge der zweiten Spalte auf Null.
1 2 −1
1
1 0 0 0
1
1
1
0
1
0
0
0
4
4
2
−→
0 0
2 −2
−1 1 0 0
−3 0 0 1
0 0
5 −3
1
2 −1
1
1
0
1
0
2
0
0
2 −2
0 −6
2 −3
1 0 0 0
1
0 41 0
4
−1 1 0 0
− 32 0 23 1
Jetzt bringe die führende Zwei der dritten Zeile auf Eins
1
0
0
0
2 −1
1
1
1
0
2
0
2 −2
0
5 −3
1 2 −1
1
1 0 0 0
1
1
1
0 4 0
0 1
0
4
2
−→
−1 1 0 0
0 0
1 −1
3
3
0 0
5 −3
−2 0 2 1
1 0 0 0
1
0 14 0
4
− 12 21 0 0
− 32 0 32 1
Schließlich bringe die linke Seite endgültig auf Stufenform
1
0
0
0
2 −1
1
1
1
0
2
0
1 −1
0
5 −3
1 2 −1
1
1 0 0 0
1
1
1
0 4 0
0 1
0
4
2
−→
− 12 21 0 0
0 0
1 −1
3
3
−2 0 2 1
0 0
0
2
1
0 0 0
0 14 0
1
0 0
2
5
1 − 2 32 1
1
4
− 12
und teile die unterste Zeile anschließend durch Zwei
1
0
0
0
2 −1
1
1
1
0
2
0
1 −1
0
0
2
0 0 0
1 2 −1
1
1
1
0 1
0 4 0
0
2
−→
1
0 0
0 0
1 −1
2
3
5
1 −2 2 1
0 0
0
1
1
1
1
4
− 12
1
4
1
−2
1
2
0 0 0
0 14 0
1
0 0
2
− 54
3
4
1
2
Damit ist Schritt Eins für dieses Beispiel beendet. Insbesondere hat sich herausgestellt, dass unsere Koeffizientenmatrix überhaupt invertierbar ist, da keine
lange Stufe aufgetreten ist. Damit kommen wir zum zweiten Schritt.
2. Jetzt bringen wir analog zum Vorgehen bei der Gauß-Elimination, nur diesmal
von unten nach oben und von rechts nach links gehend, in der linken Matrix alle
Einträge außerhalb der Hauptdiagonale auf Null, und führen wieder simultan in
der rechten Matrix dieselben Zeilenoperationen durch. Nachdem dies getan ist,
156
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
steht auf der rechten Seite die gesuchte inverse Matrix. Schauen wir uns auch
diesen Schritt im Beispiel an. Wir müssen also zuerst die Spalte ganz rechts
betrachten
2 −1
1
1
1
0
2
0
1 −1
0
0
1
1
0
0
0
1
0 0 0
1
1
0
0 4 0
−→
1
0 0
0
2
0
− 54 34 21
1
4
− 12
1
2
5
4
− 34 − 12
1
0
0
4
1
2
1
4
2 −1 0
1
1
0
2
0
1 0
0
0 1
0 − 34
1
− 54
2
3
4
3
4
1
2
1
2
Nun wird auch die dritte Spalte oben auf Null gebracht
1
0
0
0
2 −1 0
1
0
1
2
0
1 0
0
0 1
1
2
1
4
5
4
− 34 − 21
1
0
0
4
0 − 34
1
− 54
2
3
4
3
4
1
0
−→
0
0
1
2
1
2
2
1
0
0
0
0
1
0
0
0
0
1
1
2
1
4
0
1
2
1
2
3
8
− 34
− 54
0
0
− 18 − 14
3
4
3
4
1
2
1
2
Als letzter Schritt wird nun die zweite Spalte bearbeitet
1
0
0
0
2
1
0
0
0
0
1
0
0
0
0
1
1
2
1
4
0
1
2
1
2
3
8
3
−4
− 54
0
0
− 18 − 14
3
4
3
4
1
2
1
2
1
0
−→
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0 − 14
1
4
0
1
2
3
8
− 34
− 54
1
4
− 18
3
4
3
4
1
2
− 14
1
2
1
2
Als inverse Matrix haben wir in diesem Beispiel damit


−1  0 − 1


1
1
1 2 −1
1
0 −2
2
4
4
4
2
 1
3
 1 2
− 18 − 41 
1 −1 
2
3 −1 −2 
 1
4
8

 =
.

= 
3
3
1

 −1 2

3 −1
0 −6
6
4 
8
 0 −4

4
2
3 0 −1
0
4 −10
6
4
1
5
3
1
−
2
4
4
2
Wollen wir beispielsweise erneut das lineare Gleichungssystem
x + 2y − u + v = 1
x + 2y + u − v = −3
−x + 2y + 3u − v = 1
3x
− u
= 0
aus §8 lösen, so können wir die eben berechnete inverse Matrix verwenden, um direkt
die Lösung des Gleichungssystem zu erhalten

 


 

0 −2
2
4
1
8
1



 

1 2
3 −1 −2 
 ·  −3  = 1  −8  =  −1  ,
x= 
6
4   1  8  24   3 
8  0 −6
4 −10
6
4
0
40
5
157
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
und dies ist wieder die Lösung, die wir schon damals berechnet hatten. Man sollte allerdings die praktische Bedeutung inverser Matrizen für das Lösen linearer Gleichungssysteme nicht überschätzen. Unser Verfahren zur Berechnung von A−1 erfordert ungefähr
den drei- bis vierfachen Aufwand im Vergleich zum Gaußschen Eliminationsverfahren.
Selbst wenn mehrere Gleichungssysteme mit derselben Koeffizientenmatrix zu lösen
sind, ist das Eliminationsverfahren effektiver, da der Hauptteil des Algorithmus sich
nur auf die Koeffizientenmatrix bezieht, und wir die Wirkung auf die rechte Seite einmal
bestimmen und dann immer wieder anwenden können.
$Id: det.tex,v 1.11 2011/08/17 20:25:48 hk Exp $
§10
Determinanten
Wir kommen jetzt zum Begriff der Determinante. Determinanten sind merkwürdigerweise über hundert Jahre älter als Matrizen, und sie wurden auch ursprünglich nicht
im Zusammenhang mit linearen Gleichungssystemen eingeführt, sondern bei der Behandlung von Polynomgleichungen n-ten Grades. Aus zeitlichen Gründen können wir
auf die Entwicklung des Determinantenbegriffs leider nicht eingehen, und werden die
Definition einer Determinante in diesem Kapitel recht unmotiviert einfach hinschreiben. Die Determinante einer n × n Matrix A über K = R oder K = C ist eine Zahl
det A ∈ K. Alternativ wird oft auch |A| anstelle von det A geschrieben. Wird dabei A
direkt in Matrixform (...) hingeschrieben, so läßt man die Klammern um die Matrix in
der Schreibweise |A| üblicherweise fort, schreibt also etwa
1 2 1 3 für die Determinante det A der Matrix
A=
1 2
1 3
.
Beachte das die Determinante nur für quadratische Matrizen definiert wird. Bevor
wir zur Definition der allgemeinen Determinante kommen, wollen wir sie zunächst in
den drei kleinen Fällen n = 1, 2, 3 explizit hinschreiben. Für 1 × 1 Matrizen ist die
Determinante einfach der eine Eintrag der Matrix, also det(a) = a für a ∈ K. Die
Determinante einer 2 × 2 Matrix wird durch die Formel
a b c d := ad − bc
definiert. Beachte das uns der Ausdruck ad − bc bereits in §9 in der Formel
−1
1
a b
d −b
=
c d
a
ad − bc −c
158
Mathematik für Physiker I, WS 2010/2011
Montag 10.1.2011
für die Inverse eine 2 × 2 Matrix begegnet ist. Dies ist kein Zufall, wie wir sehen werden
gibt es auch für n × n Matrizen eine direkte Formel für die Einträge der inversen
Matrix A−1 in Termen gewisser Determinanten. Für n > 2 ist diese Formel allerdings
für praktische Zwecke nur selten hilfreich. Wir kommen nun zur Determinante einer
3 × 3 Matrix, und diese Formel ist bereits merklich komplizierter.
a11 a12 a13
a21 a22 a23
a31 a32 a33
:= a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 .
Es ist populär sich diese Formel mit Hilfe der sogenannten Regel von Sarrus zu merken.
Hierzu schreibt man sich die ersten beiden Spalten der 3 × 3 Matrix noch einmal rechts
neben die Matrix. Dann bildet man die drei Dreierprodukte entlang der drei Diagonalen
von links nach rechts und addiert diese. Anschließend bildet man die Dreierprodukte
auf den drei Gegendiagonalen von rechts nach links und zieht diese von der zuvor
gebildeten Summe ab. Die so erhaltene Zahl ist die Determinante der Matrix.
−
a11
a12
a13
a11
a12
a21
a22
a23
a21
a22
a31
a32
a33
a31
a32
−
−
+
+
+
Natürlich sind Sie nicht verpflichtet die Regel von Sarrus zu verwenden, mit etwas
Konzentration und ein wenig Übung ist es leicht sich die beiden verdoppelten Spalten
im Kopf zu denken, ohne sie extra hinzuschreiben. Allerdings ist es am besten die Regel
von Sarrus gleich wieder zu vergessen, sie stellt sich als die mit Abstand umständlichste
Methode zur Berechnung der Determinante einer 3 × 3 Matrix heraus.
Für n = 2 und n = 3 hat die Determinante auch eine direkte geometrische Bedeutung. Die Determinante einer 2 × 2 Matrix, beziehungsweise genauer ihr Betrag,
ist die Fläche des von den beiden Spalten, oder Zeilen, aufgespannten Parallelograms.
Entsprechend ist der Betrag der Determinante für n = 3 gleich dem Volumen des
von den drei Spalten aufgespannten Parallelepipeds, dies ist das dreidimensionale Analogon zum Parallelogram und wird oft auch als ein Spat“ bezeichnet. Wir werden
”
diese geometrischen Interpretationen aber erst etwas später in diesem Semester begründen. Entsprechend kann dann auch die Determinante in höheren Dimensionen als
ein n-dimensionales Volumen aufgefasst werden. Die exakte Definition dieser höherdimensionalen Determinanten werden wir nächstes Mal behandeln, hier wollen wir nur
erwähnen das die Sarrus-Regel sich nicht auf die Determinante von quadratischen Matrizen mit n ≥ 4 Zeilen und Spalten fortsetzt, beispielsweise ist die Determinante einer
4 × 4 Matrix eine Summe aus 24 Summanden und nicht nur von 8 wie es die Sarrus
Regel erwarten ließe.
159
Mathematik für Physiker I, WS 2010/2011
10.1
Freitag 14.1.2011
Die symmetrische Gruppe
Vorlesung 18, Freitag 14.1.2011
Um die Determinante für größere Matrizen zu definieren, brauchen wir eine kleine
Vorbemerkung. Eine Permutation einer Menge M ist eine bijektive Abbildung π :
M → M . Haben wir zwei solche Permutationen π, η : M → M , so ist nach §3.Lemma
2 auch die Hintereinanderausführung η ◦ π : M → M wieder eine Permutation von M .
Betrachten wir also die Menge
G := {π : M → M |π ist bijektiv}
aller Permutationen der Menge M , so können wir uns die Hintereinanderausführung
als eine Produktbildung in der Menge G vorstellen, wir schreiben also
π · η := π ◦ η
für π, η ∈ G. Diese Multiplikation erfüllt dann einige Rechenregeln:
(G1) Das Assoziativgesetz π · (η · τ ) = (π · η) · τ für alle π, η, τ ∈ G. Dies ist nur ein
Spezialfall des allgemeinen Assoziativgesetzes der Hintereinanderausführung aus
§3.Lemma 1.
(G2) Es gibt ein neutrales Element der Multiplikation, nämlich die identische Abbildung 1 := idM . Diese erfüllt 1 · π = π · 1 = π für alle π ∈ G.
(G3) Jedes π ∈ G hat ein multiplikatives Inverses π −1 ∈ G mit π −1 · π = π · π −1 = 1.
Nach §3.Lemma 3 ist π −1 nämlich gerade die Umkehrabbildung zu π.
Man bezeichnet diese drei Eigenschaften als die Gruppenaxiome und nennt G eine
Gruppe. Uns interessiert hier nur ein sehr spezielles Beispiel, nämlich die Gruppe der
Permutationen der Menge M := {1, . . . , n}.
Definition 10.1: Für jedes n ∈ N mit n ≥ 1 ist die n-te symmetrische Gruppe Sn die
Gruppe der Permutationen der Menge {1, . . . , n}.
Wir sind hier nicht abstrakt an den Gruppenaxiomen interessiert, aber drei Folgerungen aus diesen werden für uns sehr wichtig sein.
1. Ist η ∈ Sn und durchläuft π die Elemente von Sn , so durchläuft das Produkt η · π
ebenfalls genau alle Elemente von Sn . Etwas formaler gesagt, ist die Abbildung
f : Sn → Sn ; π 7→ η · π
bijektiv. In der Tat, um einzusehen das f bijektiv ist, ist einzusehen das es für
jedes τ ∈ Sn genau ein π ∈ Sn mit τ = η · π gibt, und die Gruppenaxiome sagen
uns das π = η −1 · τ dieses eindeutige Element von Sn ist.
160
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
2. Analog ist für jedes η ∈ Sn auch die Abbildung
g : Sn → Sn ; π 7→ π · η
bijektiv.
3. Auch die Abbildung
h : Sn → Sn ; π 7→ π −1
ist bijektiv und wegen (π −1 )−1 = π für alle π ∈ Sn gleich ihrer eigenen Umkehrabbildung.
Man kann sich die symmetrische Gruppe Sn alternativ auch als die Menge aller möglichen Anordnungen der Zahlen 1, . . . , n vorstellen. Ist nämlich π ∈ Sn eine Permutation,
so kommt in der Liste
π(1), π(2), . . . , π(n)
jede Zahl zwischen 1 und n genau einmal vor, die Liste ist also eine Anordnung der
Zahlen 1, . . . , n. Haben wir umgekehrt eine solche Liste k1 , . . . , kn in der jede Zahl
zwischen 1 und n genau einmal vorkommt, so können wir durch π(i) := ki für i =
1, . . . , n eine zugehörige Permutation definieren. Schauen wir uns dies einmal an einem
Beispiel mit n = 4 an. Die Anordnung
π:
4, 3, 2, 1
enstprich der durch π(1) = 4, π(2) = 3, π(3) = 2 und π(4) = 1 gegebenen Permutation,
denn 4 ist das erste Element in unserer Aufzählung, 3 ist das zweite Element in der
Aufzählung, und so weiter. Ebenso entspricht
η:
3, 1, 4, 2
der Permutation η(1) = 3, η(2) = 1, η(3) = 4 und η(4) = 2. Für das Produkt τ :=
π · η = π ◦ η ist also
τ (1)
τ (2)
τ (3)
τ (4)
=
=
=
=
π(η(1)) = π(3) = 2,
π(η(2)) = π(1) = 4,
π(η(3)) = π(4) = 1,
π(η(4)) = π(2) = 3,
und als Aufzählung geschrieben ist damit
τ =π·η :
2, 4, 1, 3.
Mit der Interpretation von Permutationen als Auflistungen der Zahlen von 1 bist n ist
es auch leicht die Elemente der symmetrischen Gruppe zu zählen.
161
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Lemma 10.1 (Elementeanzahl der Sn )
Für jedes n ∈ N mit n ≥ 1 hat die symmetrische Gruppe Sn genau n! viele Elemente.
Beweis: Für das erste Element der Aufzählung haben wir n Möglichkeiten, für das
zweite dann nur noch n − 1 Möglichkeiten, für das dritte n − 2 Möglichkeiten, und so
weiter, bis für das letzte Element nur noch eine Möglichkeit verbleibt. Als Anzahl aller
möglichen Permutationen ergibt sich damit
n · (n − 1) · (n − 2) · . . . 1 = 1 · 2 · . . . · n = n!.
Schreiben wir |M | für die Anzahl aller Elemente einer endlichen Menge M , so sind
also
|S1 | = 1, |S2 | = 2, |S3 | = 6, |S4 | = 24, |S5 | = 120, . . .
Die Elemente der symmetrischen Gruppe Sn können in zwei verschiedene Sorten eingeteilt werden, die geraden und die ungeraden Permutationen. Nehmen wir einmal an,
wir haben eine Permutation π ∈ Sn gegeben. Dann sind π(1), π(2), . . . , π(n) genau die
Zahlen zwischen 1 und n nur in einer anderen Reihenfolge. Dies übeträgt sich dann
auch auf Paare von verschiedenen Zahlen zwischen 1 und n, d.h.
(π(1), π(2)), . . . , (π(1), π(n)), (π(2), π(1)), (π(1), π(3)), . . . , (π(2), π(n)),
. . . , (π(n − 1), π(1)), . . . , (π(n − 1), π(n))
sind wieder genau diese Paare, nur erneut in einer anderen Reihenfolge. Dies modifizieren wir noch etwas und betrachten nur noch die nach Größe geordneten Paare (i, j)
mit 1 ≤ i < j ≤ n. Wenden wir unsere Permutation auf diese an, so erhalten wir
(π(1), π(2)), . . . , (π(1), π(n)), (π(2), π(3)), . . . , (π(2), π(n)), . . . , (π(n − 1), π(n))
nur noch die Hälfte aller Paare. Diese umgeordneten Paare müssen aber nicht mehr
nach Größe geordnet sein, die Permutation kann ja auch richtig geordnete Paare auf
falsch geordnete Paare abbilden. Jedes Paar bei dem dies vorkommt nennen wir einen
Fehlstand von π, d.h.
(i, j) mit 1 ≤ i < j ≤ n ist Fehlstand von π :⇐⇒ π(i) > π(j).
Bilden wir nun das Produkt der Differenzen aller unserer obigen Paare, so erhalten wir
fast genau das Produkt aller Differenzen nach Größe geordneten Paare, es kommt nur
für jeden Fehlstand ein Minus Zeichen hinzu. Schreiben wir also F (π) für die Menge
aller Fehlstände von π, so ist
Y
Y
Y
(π(j) − π(i)) = (−1)|F (π)|
(j − i) = ±
(j − i).
1≤i<j≤n
1≤i<j≤n
162
1≤i<j≤n
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Dabei ist das große Π das sogenannte Produktzeichen“ das analog zum Summenzei”
chen Σ verwendet wird. Tritt in der obigen Formel das Pluszeichen auf, ist also |F (π)|
gerade, so nennen wir π eine gerade Permutation, und andernfalls heißt π eine ungerade Permutation. Zur Verwendung in Rechnungen führen wir noch ein Symbol für das
auftretende Vorzeichen ein.
Definition 10.2 (Vorzeichen einer Permutation)
Seien n ∈ N mit n ≥ 1 und π ∈ Sn . Dann heißt
(−1)π := (−1)|F (π)| =
π(j) − π(i)
j−i
1≤i<j≤n
Y
das Vorzeichen von π.
Wir wollen drei Beispiele behandeln.
1. Wir fangen mit dem konkreten Beispiel n = 4 und der durch 3, 4, 1, 2 gegebenen
Permutation π an. Listen wir die nach Größe geordneten Paare und ihre Bilder
unter π auf, so ergibt sich
(π(i), π(j))
3, 4
3, 1 F
3, 2 F
4, 1 F
4, 2 F
1, 2,
(i, j)
1, 2
1, 3
1, 4
2, 3
2, 4
3, 4
wobei die Fehlstände mit dem Symbol F“ markiert sind. Wir haben in diesem
”
Beispiel also |F (π)| = 4 Fehlstände und somit (−1)π = 1, d.h. π ist eine gerade
Permutation.
2. Sei n ∈ N mit n ≥ 2 und bezeichne τ ∈ Sn die Permutation die zwei verschiedene Zahlen 1 ≤ i < j ≤ n miteinander vertauscht, man bezeichnet τ auch als
eine Transposition. Fehlstände von τ müssen i oder j involvieren. Gehen wir die
Möglichkeiten durch, so ergeben sich genau die folgenden Fehlstände von τ
F (τ ) = {(i, k)|i < k ≤ j} ∪ {(k, j)|i < k < j}
also |F (τ )| = (j − i) + (j − i − 1) = 2(j − i) − 1 und insbesondere (−1)τ = −1,
d.h. Transpositionen sind immer ungerade.
3. Nun sei π eine Permutation die r ≥ 2 aufeinanderfolgende Ziffern zyklisch nach
rechts schiebt, beispielsweise die Ziffern von i bis i + r − 1 mit 1 ≤ i ≤ n − r + 1.
Es soll also π(k) = k für 1 ≤ k < i und für i + r ≤ k ≤ n, π(k) = k + 1 für
i ≤ k < i + r − 1 und π(i + r − 1) = i sein. Fehlstände von π müssen offenbar zwei
163
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Ziffern zwischen i und i + r − 1 involvieren und i + r − 1 als rechte Komponente
haben, also
F (π) = {(k, i + r − 1)|i ≤ k < i + r − 1}, und somit |F (π)| = r − 1,
und folglich ist auch (−1)π = (−1)r−1 , ist also r gerade so ist π ungerade und ist
r ungerade so ist π gerade.
Lemma 10.2 (Rechenregeln für das Vorzeichen einer Permutation)
Sei n ∈ N mit n ≥ 1. Dann gelten:
(a) Ist 1 ∈ Sn die identische Permutation, so ist (−1)1 = 1.
(b) Für alle π, η ∈ Sn ist (−1)πη = (−1)π (−1)η .
(c) Für jedes π ∈ Sn ist (−1)π
−1
= (−1)π .
Beweis: (a) Klar da die Identität keine Fehlstände hat.
(b) Es gilt
Y
Y
(π(η(j)) − π(η(i))) = (−1)|F (η)|
(π(j) − π(i)) = (−1)π (−1)η .
1≤i<j≤n
1≤i<j≤n
(c) Nach (a) und (b) gilt
1 = (−1)ππ
10.2
−1
= (−1)π (−1)π
−1
=⇒ (−)π
−1
=
1
= (−1)π .
(−1)π
Definition und Grundeigenschaften der Determinante
Wir definieren die allgemeine Determinante durch die sogenannte Leipnitz-Formel.
Definition 10.3 (Definition der Determinante)
Sei n ∈ N mit n ≥ 1 und sei K ∈ {R, C}. Die Determinante einer n × n Matrix über
K wird durch die Formel
a11 · · · a1n .. . .
.. := X (−1)π a
.
. . 1π(1) · . . . · anπ(n)
π∈Sn
an1 · · · ann definiert.
164
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Die Determinante einer n×n Matrix ist also eine Summe mit |Sn | = n! vielen Summanden und jeder Summand ist ein Produkt aus n Matrixeinträgen und einem Vorzeichen.
Für n = 1, 2, 3 stimmt dies mit der schon eingeführten Determinante überein. Schon
für n = 4 ist die Definition aber nicht direkt zum Berechnen der Determinante geeignet, man hat |S4 | = 24 viele Summanden in der Summe. Es gibt im wesentlichen
zwei Methoden Determinanten zu berechnen, zum einen über die sogenannte LaplaceEntwicklung, die wir im nächsten Abschnitt behandeln, und zum anderen über die
Umformung einer Determinante mittels elementarer Zeilen- und Spaltenoperationen.
Um den letzteren Weg zu begründen, müssen wir uns überlegen wie sich die Determinante bei Anwendung von Zeilenoperationen verhält, und hierfür wollen wir das
folgende Lemma formulieren und beweisen.
Lemma 10.3 (Grundeigenschaften der Determinante)
Seien n ∈ N mit n ≥ 1, K ∈ {R, C} und


a11 · · · a1n


A =  ... . . . ...  ∈ K n×n
an1 · · · ann
eine n × n Matrix über K. Dann gelten:
(a) Es ist det At = det A.
(b) Geht A0 aus A durch Multiplikation einer Zeile oder einer Spalte mit einer Konstanten c ∈ K hervor, so ist det A0 = c · det A.
(c) Sei α ∈ Sn eine Permutation und bezeichne A0 die Matrix, die aus A durch Permutation der Zeilen gemäß α hervorgeht, d.h. für 1 ≤ k ≤ n ist die k-te Zeile von
A0 gleich der α(k)-ten Zeile von A. Dann ist det A0 = (−1)α det A. Die analoge
Aussage gilt für Permutationen der Spalten von A.
(d) Geht A0 aus A durch Vertauschen zweier Zeilen oder Spalten hervor, so ist det A0 =
− det A.
(e) Geht A0 aus A durch Addition eines Vielfachen einer Zeile zu einer anderen Zeile
hervor, so ist det A0 = det A. Die analoge Aussage gilt auch für Spalten statt
Zeilen.
(f ) Besteht eine Zeile oder eine Spalte von A nur aus Nullen, so ist det A = 0.
(g) Ist eine Zeile von A ein Vielfaches einer anderen Zeile von A, oder eine Spalte
von A ein Vielfaches einer anderen Spalte von A, so ist det A = 0.
165
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Beweis: (a) Es gilt
det At =
X
(−1)π aπ(1)1 · . . . · aπ(n)n =
π∈Sn
=
X
X
(−1)π aπ(1),π−1 (π(1)) · . . . · aπ(n),π−1 (π(n))
π∈Sn
(−1)π a1,π−1 (1) · . . . · an,π−1 (n) =
π∈Sn
X
(−1)π a1π(1) · . . . · anπ(n) = det A.
π∈Sn
(b) Sei 1 ≤ i ≤ n und die i-te Zeile von A0 sei das c-fache der i-ten Zeile von A. Dann
ist
det A0 =
X
(−1)π a1π(1) · . . . · (caiπ(i) ) · . . . · anπ(n)
π∈Sn
=c
X
(−1)π a1π(1) · . . . · anπ(n) = c · det A.
π∈Sn
Mit (a) folgt hieraus auch die Aussage über Spalten.
(c) Es gilt
det A0 =
X
(−1)π aα(1),π(1) · . . . · aα(n),π(n)
π∈Sn
= (−1)α
X
−1
(−1)πα a1,π(α−1 (1)) · . . . · an,π(α−1 (n)) = (−1)α det A.
π∈Sn
Mit (a) folgt hieraus auch die Aussage über Spaltenpermutationen.
(d) Dies ist ein Spezialfall von (c).
(f ) Ist 1 ≤ i ≤ n und besteht die i-te Zeile von A nur aus Nullen, so ist für jedes
π ∈ Sn stets aiπ(i) = 0, also auch ai1 · . . . · anπ(n) = 0. Damit ist det A = 0. Mit (a) folgt
auch die Aussage über Spalten.
(g) Nach (a) reicht es die Aussage für Zeilen einzusehen, und nach (b) können wir
annehmen, dass A sogar zwei identische Zeilen hat. Dann ändert sich die Matrix bei
Vertauschen dieser beiden Zeilen nicht, und (d) ergibt det A = − det A, also det A = 0.
(e) Seien c ∈ K, 1 ≤ i, j ≤ n mit i 6= j und A0 gehe aus A durch Addition des c-fachen
der j-ten Zeile zur i-ten Zeile hervor. Dann ist
det A0 =
X
(−1)π a1π(1) · . . . · (aiπ(i) + cajπ(i) ) · . . . · anπ(n)
π∈Sn
= det A + c
X
(−1)π a1π(1) · . . . · ajπ(i) · . . . · anπ(n) .
π∈Sn
Die hintere Summe ist gerade die Determinante der Matrix A00 , die aus A durch Ersetzen
der i-ten Zeile durch die j-te Zeile entsteht. Da A00 zwei identische Zeilen hat, ist nach
(g) aber det A00 = 0, und dies zeigt det A0 = det A.
166
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Wie schon bemerkt soll uns das Lemma eine Methode zur Berechnung von Determinanten liefern. Wir wissen das wir jede Matrix durch Anwendung der drei elementaren
Zeilenumformungen auf Stufenform bringen können, und das Lemma sagt uns wie sich
die Determinante bei Anwendung dieser Zeilenumformungen verhält. Damit kann die
Berechnung einer allgemeinen Determinante auf die Berechung der Determinante einer
Matrix in Stufenform zurückgeführt werden. Etwas allgemeiner behandeln wir gleich
sogenannte Dreiecksmatrizen, dies sind Matrizen bei denen ober- oder unterhalb der
Diagonale nur Nullen stehen. Ist


a11 · · · a1n


A =  ... . . . ...  ∈ K n×n
an1 · · · ann
eine obere Dreiecksmatrix, so sollen unterhalb der Diagonale nur Nullen stehen. Die
Einträge unterhalb der Diagonalen haben größeren Zeilenindex als Spaltenindex, es soll
also aij = 0 für alle 1 ≤ j < i ≤ n gelten. Entsprechend sind untere Dreicksmatrizen
durch die Bedingung aij = 0 für 1 ≤ i < j ≤ n definiert.
Lemma 10.4 (Determinante von Dreiecksmatrizen)
Seien n ∈ N mit n ≥ 1, K ∈ {R, C} und




a11
∗
a11




..
..
A=
 oder A = 

.
.
ann
∗
ann
eine obere oder eine untere Dreiecksmatrix. Dann ist
det A = a11 · . . . · ann .
Beweis: Schreibe wieder


a11 · · · a1n


A =  ... . . . ...  .
an1 · · · ann
Zunächst sei A eine obere Dreiecksmatrix, also aij = 0 für 1 ≤ j < i ≤ n. Sei π ∈
Sn . Gibt es dann ein 1 ≤ i ≤ n mit π(i) < i, so ist ai,π(i) = 0 und somit auch
a1,π(1) · . . . · an,π(n) = 0. Ist dagegen π(i) ≥ i für jedes 1 ≤ i ≤ n, so ist π(n) ≥ n, also
π(n) = n, und weiter π(n − 1) ≥ n − 1 also π(n − 1) = n − 1 oder π(n − 1) = n,
und wegen π(n − 1) 6= π(n) = n sogar π(n − 1) = n − 1. So fortfahrend folgt dann
π(i) = i für alle 1 ≤ i ≤ n. Es gibt in det A also höchstens einen von Null verschiedenen
Summanden, nämlich derjenige zur identischen Permutation und da diese Permutation
gerade ist, folgt
det A = a11 · . . . · ann .
167
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Ist A eine untere Dreiecksmatrix, so ist At eine obere Dreiecksmatrix und mit Lemma
3.(a) folgt die Behauptung auch in diesem Fall.
Wir rechnen ein Beispiel.
1
1
1 2 −1
2 −1
2
−1
1
1
0
0
1 2
4
2
0
2
−2
1
−1
= −
=
−1 2
0
2
4
2
0 3 −1 0
0
3 0 −1
0 −6
2
0 −6
2 −3
0
1
1 2 −1
1 0 4
2
0
= − 0
= − 0
2 −2 0 0
0
0 0
5 −3
1
0
−2
−3
2 −1
1 4
2
0 = −16.
0
2 −2 0
0
2 Man ist allerdings nicht gezwungen so stur den Gaußschen Algorithmus abzuarbeiten,
oft kann man sich die Arbeit durch Mischen von Zeilen- und Spaltenoperationen erleichtern. Dies geschieht etwa im folgenden Beispiel wo wir zuerst Vielfache der ersten
Zeile von der dritten und vierten Zeile abziehen und anschließend die zweite und dritte
Spalte von der ersten Spalte subtrahieren
1
4
2
4
1
0
1
2
0
1
1 −1
3 1 0
1 −1
3 0 0
1 −1
3 3
7 −5 4 1
3
7 −5 0 1
3
7 −5 0
1
0 = 0 2 −2
3 −6 = 0 2 −2
3 −6 = 0
4 −3
6 0 0
0
1 −6 0 0
0
1 −6 0
8
1 1 1
0
8
1 0 1
0
8
1 nach Lemma 3.(f). Dies ist schon eine durchaus effektive Methode zur Berechnung
von Determinanten. Wir wollen jetzt einen weiteren wichtigen Satz herleiten, der den
Zusammenhang von Determinanten und der Matrixmultiplikation herstellt.
Satz 10.5 (Multiplikationssatz für Determinanten)
Sind A, B zwei n × n Matrizen über K ∈ {R, C} so gilt det(A · B) = det(A) · det(B).
Beweis: Wir schreiben



a11 · · · a1n



A =  ... . . . ...  , B = 
an1 · · · ann


b11 · · · b1n

.. . .
. 
. ..  und AB = 
.
bn1 · · · bnn
168

c11 · · · c1n
.. . .
. 
. ..  .
.
cn1 · · · cnn
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Nach Definition der Matrizenmultiplikation gilt dann cij =
i, j ≤ n. Hiermit rechnen wir nun
X
det(AB) =
(−1)π c1,π(1) · . . . · cn,π(n)
Pn
k=1
aik bkj für alle 1 ≤
π∈Sn
X
=
(−1)π
X
!
a1,j1 bj1 ,π(1)
(−1)π
n
X
· ... ·
j1 =1
π∈Sn
=
n
X
!
an,jn bjn ,π(n)
jn =1
X
a1,j1 · . . . · an,jn · bj1 ,π(1) · . . . · bjn ,π(n)
1≤j1 ,...,jn ≤n
π∈Sn
"
=
X
a1,j1 · . . . · an,jn ·
1≤j1 ,...,jn ≤n
#
X
(−1)π bj1 ,π(1) · . . . bjn ,π(n) .
π∈Sn
Nun kümmern wir uns um den Faktor in den eckigen Klammern. Die dort stehende
Summe sieht fast wie eine Determinante aus, nur das dort überall ji statt i steht. Dies
ist aber kein echtes Problem, schreiben wir B(j1 , . . . , jn ) für die n × n Matrix, deren
i-te Zeile gerade die ji -te Zeile von B ist, so ist der Ausdruck in eckigen Klammern
gerade die Determinante von B(j1 , . . . , jn ), also ist
X
det(AB) =
a1,j1 · . . . · an,jn · det B(j1 , . . . , jn ).
1≤j1 ,...,jn ≤n
Wir betrachten nun einen einzelnen Summanden in dieser Summe, seien also 1 ≤
j1 , . . . , jn ≤ n gegeben. Gibt es dann zwei Indizes 1 ≤ i, i0 ≤ n mit i 6= i0 und
ji = ji0 , so hat die Matrix B(j1 , . . . , jn ) zwei identische Zeilen, und somit ist dann
det B(j1 , . . . , jn ) = 0 nach Lemma 3.(g). Also müssen wir in der obigen Summe nur
die Summanden (j1 , . . . , jn ) betrachten in denen j1 , . . . , jn paarweise verschieden sind.
Aber Tupel aus n verschiedenen Zahlen aus {1, . . . , n} sind ja gerade die Ordnungen
von {1, . . . , n}, also folgt mit Lemma 3.(c)
X
det(AB) =
a1,π(1) · . . . · an,π(n) · det B(π(1), . . . , π(n))
π∈Sn
!
=
X
(−1)π a1,π(1) · . . . · an,π(n)
· det(B) = det(A) · det(B).
π∈Sn
Insbesondere erhalten wir eine Formel für die Determinante der Inversen einer Matrix.
Korollar 10.6 (Determinante der inversen Matrix)
Sei A eine invertierbare n × n Matrix über K ∈ {R, C}. Dann gilt det A 6= 0 und es
ist
1
det(A−1 ) =
.
det A
169
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
Beweis: Nach dem Multiplikationssatz ist
det(A) · det(A−1 ) = det(A · A−1 ) = det En = 1.
10.3
Laplace Entwicklung
Die Laplace Entwicklung einer Determinante ist ein weiteres Rechenverfahren zur Bestimmung von Determinanten. Bei diesem Verfahren wird die Determinante einer n × n
Matrix als eine Summe von n Termen berechnet die ihrerseits im wesentlichen aus einer
(n−1)×(n−1) Determinante bestehen. Wir wollen dies zunächst an einigen Beispielen
vorführen, bevor wir es als abstrakten Satz formulieren.
Wir beginnen dabei mit der Berechnung einer 3 × 3 Determinante
1 −1
3 2
1 −1 .
5
1
0 Als Entwicklung dieser Determinante nach der ersten Zeile bezeichnet man die folgende
Rechnung
1 −1
3
1 −1 2 −1 2 1 2
− (−1) · +3·
1 −1 = 1 · 5
5 1 = 1 + 5 − 9 = −3.
1
0 0 5
1
0
Diese Summe beginnt mit dem Eintrag 1 in der ersten Zeile und Spalte multipliziert mit
der Determinante, die aus der ursprünglichen Determinante durch Streichen der ersten
Zeile und der ersten Spalte entsteht. Hiervon wird dann der Eintrag −1 in der zweiten
Spalte der ersten Zeile mal die durch Streichen der ersten Zeile und der zweiten Spalte
gebildete Determinante abgezogen. Schließlich wird der Eintrag 3 in der dritten Spalte
der ersten Zeile mit der durch Streichen der ersten Zeile und dritten Spalte erhaltenen
Determinante multipliziert und zur Gesamtsumme addiert:
1 −1
1 −1
1 −1
1 −1
3
3
3
3
2
1 −1 = 1 · 2
1 −1 − (−1) · 2
1 −1 + 3 · 2
1 −1 .
5
5
5
5
1
0 1
0 1 0 1
0
Diese Rechenverfahren ist etwas effizienter als die Rechnung über die Regel von Sarrus.
Bei der Sarrusschen Regel hat man die Summe von sechs Dreierprodukten zu bilden,
benötigt also 12 Multiplikationen und 5 Additionen, wobei wir Subtraktion und Addition nicht unterscheiden. Bei der Entwicklung nach der ersten Zeile bilden wir dagegen
170
Mathematik für Physiker I, WS 2010/2011
Freitag 14.1.2011
drei 2 × 2 Determinanten, und jede von diesen erfordert zwei Multiplikationen und
eine Addition, also insgesamt 6 Multiplikationen und drei Additionen. Dann werden
diese 2 × 2 Determinanten jeweils mit einer Zahl multipliziert und dann addiert, dies
sind 3 weiter Multiplikationen und zwei Additionen. Insgesamt erfordert die Entwicklung nach der ersten Zeile also 9 Multiplikationen und 5 Additionen, wir haben also
3 Multiplikationen eingespart, dies sind immerhin 25% des Aufwands der Regel nach
Sarrus.
Ebenso kann die Determinante auch nach der ersten Spalte entwickelt werden, hier
gehen wir entsprechend die Einträge in der ersten Spalte der Matrix durch
1 −1
1 −1
1 −1
1 −1
3
3
3
3
2
1 −1 = 1 · 2
1 −1 + 5 · 2
1 −1 .
1 −1 − 2 · 2
5
5
5 1
5 1
1
0 1
0 0 0 Noch allgemeiner kann die Determinante auch nach einer beliebigen Zeile oder einer
beliebigen Spalte entwickelt werden. Das einzige kleine Detail auf das man dabei achten muss ist die Verteilung der Vorzeichen. Entwickeln wir nach der ersten Zeile oder
Spalte, so beginnt die Entwicklung mit +“ und dann wechseln die Vorzeichen sich ab.
”
Entwickeln wir dagegen nach der zweiten Zeile oder Spalte, so beginnen die Vorzeichen
mit −“ und wechseln sich dann ab. In der dritten Zeile oder Spalte starten wir dann
”
wieder mit +“ und so weiter. Allgemein gehört zum Eintrag (i, j) der Determinan”
te, also dem Eintrag in der i-ten Zeile und in der j-ten Spalte, die Determinante die
durch Entfernen der i-ten Zeile und der j-ten Spalte entsteht und mit dem Vorzeichen
(−1)i+j versehen ist. Diese Vorzeichen beginnen links oben mit (−1)2 = 1 und breiten
sich dann schachbrettartig aus
+
−
+
−
..
.
−
+
−
+
..
.
+
−
+
−
..
.
−
+
−
+
..
.
···
···
···
···
...
Wir haben das Vorzeichenschema hier gleich allgemein für quadratische Matrizen beliebiger Größe angegeben und nicht nur für 3 × 3 Matrizen. Es bietet sich an nach einer
Zeile oder Spalte zu entwickeln die möglichst viele Nullen enthält, denn bei jeder Null
können wir den entsprechenden Summanden in der Entwicklung ignorieren. In unserem
obigen Beispiel ist es daher naheliegend etwa nach der dritten Zeile zu entwickeln
1 −1
1 −1
1 −1
3 3 3 2
1 −1 = 5 · 2
1 −1 − 1 · 2
1 −1 = 5 · (−2) − (−7) = −3
5
5
5
1
0 1
0 1 0 erneut mit demselben Ergebnis. Dass man eine Determinante nach jeder Zeile und nach
jeder Spalte entwickeln kann, bedarf natürlich einer Begründung, aber diese werden wir
erst in der nächsten Sitzung behandeln.
171
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Vorlesung 19, Montag 17.1.2011
Am Ende der letzten Sitzung hatten wir die Laplace Entwicklung einer 3 × 3 Determinante auf verschiedenste Weisen vorgeführt. Die Entwicklung einer Determinante
nach Zeilen oder Spalten ist aber nicht auf 3 × 3 Determinanten beschränkt, sondern
ist für jede natürlich Zahl n ≥ 1 möglich. Wir wollen als ein Beispiel einmal eine 4 × 4
Determinante nach der zweiten Zeile entwickeln:
1 −1
0
2 3
1 −1
0 =
0
2
5 −3 1
2 −1
1 1 −1
0
2
3
1
−1
0
− 3 · 2
5 −3
0
1 2 −1
1
+1·
1 −1
0
2 3
1 −1
0 − (−1) · 0
2
5 −3 1
2 −1
1 1 −1
0
2 3
1 −1
0 0
2
5 −3 1
2 −1 1 = (−3) · (−26) + 1 · (−8) + 1 · 7 = 77,
wobei wir die mit Null zu multiplizierende vierte Determinante gleich weggelassen
haben und die Werte der verbleibenden drei 3 × 3 Determinanten
−1
0
2
5 −3 2
5
2
+ 2
= −2 − 24 = −26,
5 −3 = − −1
1
2 −1 2 −1
1
1
0
2
5 −3 0
5 0
5 −3 = + 2
= 2 − 10 = −8,
−1
1 1 −1 1 −1
1
1 −1
2
1 2 1 −1 0
= −2 + 9 = 7
2 −3 = 2 + 3 1
1
1
2
1
2
1 gleich eingesetzt haben. Man kann dieses Rechenverfahren durch Entwicklung nach
einer Zeile oder Spalte natürlich auch mit den elementaren Zeilen- und Spaltenumformungen kombinieren. In unserem eben gerechneten Beispiel einer 4 × 4 Determinante
können wir auch zunächst die erste Spalte zur zweiten Spalte addieren. Dann haben
wir auf einmal zwei Nullen in der ersten Zeile, und bei der Entwicklung nach der ersten
172
Mathematik für Physiker I, WS 2010/2011
Zeile treten nur
1 −1
0
3
1 −1
0
2
5
1
2 −1
4 −1
0
2
5 −3
3 −1
1
noch zwei Summanden auf.
0
2 2 1 0
0 0 3 4 −1
=
=
5 −3 −3 0 2
1 1 1 3 −1
3 4 −1 4 −1
− 2 0 2
2
5 = 11
1 3 −1 3 −1
4
= 11
Montag 17.1.2011
− 2 · 2 3 −1 − 5 3 4 1 3 1 −1 −1 − 2 · (−4 − 25) = 19 + 59 = 77.
2 0
0
1
Wir wollen im folgenden die theoretische Begründung für dieses Rechenverfahren angeben. Die Grundlage für all diese Dinge ist die sogenannte Linearität der Determinante
in Zeilen und Spalten.
Satz 10.7 (Zeilen- und spaltenweise Linearität der Determinante)
Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und 1 ≤ k ≤ n. Dann gilt für alle Zahlen t, s ∈ K
und alle aij , ai , bi ∈ K (1 ≤ i, j ≤ n) die Gleichung
a11 · · · a1n a11 · · · a1n a
·
·
·
a
11
1n
.
.
..
..
.. .. .
.
.
.
. . .
.
ta1 + sb1 · · · tan + sbn = t · a1 · · · an + s · b1 · · · bn ,
.
.
..
..
.. .. ..
..
.
.
. . a
···
a
a
··· a
a
··· a n1
nn
n1
nn
n1
nn
wobei die Summen in der k-ten Zeile dieser Determinante stehen. Die entsprechende
Aussage gilt auch für Summen von Spalten.
Beweis: Nach Lemma 3.(a) reicht es wieder die Aussage über Zeilen zu beweisen. Die
linke Determinante ist dann
X
(−1)π a1,π(1) · . . . · (taπ(k) + sbπ(k) ) · . . . · an,π(n)
π∈Sn
=t·
X
(−1)π a1,π(1) · . . . · an,π(n) + s ·
π∈Sn
X
(−1)π a1,π(1) · . . . · an,π(n)
π∈Sn
und dies ist gerade die rechts stehende Summe von Determinanten.
Ein direktes Beispiel für die obige Formel ist etwa
1 −1
1 −1 1 1 −1 1 1
2
1 3 + 2 · 0 −1 −1 = 2 −1 1 .
−1
−1
0 2 0
2 −1
0 2 173
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Die erste und die dritte Zeile dieser Matrizen stimmen jeweils überein, Addition und
Multiplikation werden nur in einer Zeile, in diesem Beispiel in der zweiten Zeile, durchgeführt. Nach dieser Vorbemerkung kommen wir zur Entwicklung von Determinanten
zurück. Die Entwicklung einer Determinante nach einer Zeile oder Spalte nennt man
auch den Laplaceschen Entwicklungssatz, und um diesen, und später auch die Cramersche Regel für die Matrixinversion bequem formulieren zu können, führen wir noch eine
kleine Definition ein.
Definition 10.4: Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und sei A eine n × n Matrix über
K. Sind 1 ≤ i, j ≤ n, so bezeichnet Aij die (n − 1) × (n − 1) Matrix, die aus A durch
Streichen der i-ten Zeile und der j-ten Spalte entsteht. Die Zahl
b
aij := (−1)i+j det Aji
wird dann als (i, j)-ter Komplementärwert bezeichnet (das i und j hier vertauscht
werden ist kein Schreibfehler, sondern tatsächlich so gemeint), und die n × n Matrix


b
a11 · · · b
a1n
.
. 
b := 
A
 .. . . . .. 
b
an1 · · · b
ann
heißt die Komplementärmatrix oder Adjunkte zu A.
Für n = 2, 3 können wir die Komplementärmatrix noch direkt
a b b
d −b
=
,
c d
−c
a



a22 a33 − a23 a32 a13 a32 − a12 a33
a11 a12 a13 b
 a21 a22 a23  =  a23 a31 − a21 a33 a11 a33 − a13 a31
a21 a32 − a22 a31 a12 a31 − a11 a32
a31 a32 a33
hinschreiben

a12 a23 − a13 a22
a13 a21 − a11 a23  ,
a11 a22 − a12 a21
aber schon für n ≥ 4 sind die entstehenden Formeln zu gross. Ganz konkret ist beispielsweise die Komplementärmatrix zu




1 −1
2
8
5 −1
 0
2 −3  gleich  −3 −1
3 .
1
2
1
−2 −3
2
Wir wollen jetzt den Laplaceschen Entwicklungssatz explizit formulieren. Die Grundidee zur Herleitung des Entwicklungssatzes ist einfach zu beschreiben. Wir wollen die
Determinante
A nach der i-ten Zeile entwickeln. In der Leipnitz-Summe
P einer Matrix
π
det(A) = π∈Sn (−1) a1,π(1) · . . . · an,π(n) fasse für 1 ≤ j ≤ n alle Terme π ∈ Sn mit
π(i) = j zusammen. Dann wird


det A =
n
X
j=1
X

π

aij · 
(−1)
a
·
.
.
.
a
·
a
·
.
.
.
a
1,π(1)
i−1,π(i−1)
i+1,π(i+1)
n,π(n)


π∈Sn
π(i)=j
174
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
und die Summe in eckigen Klammern stellt sich als (−1)i+j det Aij heraus, sie ist ja
beinahe bereits eine Leipnitz-Summe. Für die exakte Durchführung des Beweises ist
es technisch etwas bequemer zunächst den Sonderfall i = n zu behandeln, und den
allgemeinen Fall darauf zurückzuführen. In der Vorlesung wurde der folgende Beweis
nicht mehr vorgeführt, hier soll er aber vollständig wiedergegeben werden.
Satz 10.8 (Entwicklung nach Zeilen und Spalten)
Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und sei A eine n × n Matrix über K. Dann gelten
für jedes 1 ≤ i ≤ n die Gleichungen
det A =
n
X
(−1)i+1 aij det Aij
(Entwicklung nach einer Zeile)
j=1
und
det A =
n
X
(−1)i+j aji det Aji
(Entwicklung nach einer Spalte).
j=1
Beweis: Wir beginnen mit der Entwicklung der Determinante nach der letzten Zeile.
Schreiben wir die letzte Zeile als
(an1 , . . . , ann ) = a11 · (1, 0, . . . , 0) + · · · + ann · (0, . . . , 0, 1),
so ergibt sich mit der Linearität der Determinante in der letzten Zeile Satz 7 die Formel
a11 · · · a1,j−1
a1j
a1,j+1 · · · a1n n
n
X
..
..
..
X
.
.
.
det A =
anj ·
=
anj det Bj ,
an−1,1 · · · an−1,j−1 an−1j an−1,j+1 · · · an−1,n j=0
j=1
0
···
0
1
0
···
0 wenn wir Bj für die Matrix im j-ten Summanden schreiben. Wir müssen also die
Determinante der Matrix Bj berechnen, und beginnen mit j = n. Wegen (Bn )ni = 0
für alle 1 ≤ i < n gilt
(Bn )1π(1) · · · . . . · (Bn )nπ(n) = 0
für jede Permutation π ∈ Sn mit π(n) 6= n, also ist
X
X
det Bn =
(−1)π (Bn )1π(1) · · · . . . · (Bn )nπ(n) =
(−1)π a1π(1) · . . . · an−1,π(n−1) · 1.
π∈Sn
π(n)=n
π∈Sn
π(n)=n
Die Permutationen π ∈ Sn mit π(n) = n können wir als die Permutationen von
{1, . . . , n − 1} auffassen, und da n in keinem Fehlstand von π vorkommen kann, bleiben
auch Fehlstände und Vorzeichen bei dieser Interpretation erhalten. Die obige Formel
besagt also det Bn = det Ann .
175
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Wir wollen jetzt zeigen, dass für alle 1 ≤ j < n stets det Bj = (−1)n+j det Anj gilt,
für j = n wissen wir dies wegen (−1)2n = 1 bereits. Sei also ein 1 ≤ j < n gegeben.
Bezeichne τ ∈ Sn die Transposition die n und j vertauscht und sei B 0 die Matrix die aus
Bj durch Permutation der Spalten gemäß τ , also durch Vertauschen der j-ten mit der
n-ten Spalte entsteht. Sei weiter α ∈ Sn−1 die Permutation, die die Ziffern j, . . . , n − 1
zyklisch nach rechts verschiebt und sei A0 die (n − 1) × (n − 1) Matrix, die aus Anj
durch Permutation der Spalten gemäß α entsteht. Dann ist


a1j

.. 
0

A
. 
0
B =
,

an−1,j 
0 ··· 0
1
und mit Lemma 3.(c) und der schon bewiesenen Aussage folgt
det Bj = − det B 0 = − det A0 = −(−1)n−j−1 det Anj = (−1)n+j det Anj .
Insgesamt ist damit
det A =
n
X
anj det Bj =
n
X
(−1)n+j anj det Anj ,
j=1
j=1
und wir haben die Entwicklung nach der letzten Zeile bewiesen. Die Entwicklung nach
anderen Zeilen können wir hierauf zurückführen. Sei 1 ≤ i < n und bezeichne A0
die Matrix die aus A durch Vertauschen der i-ten und der n-ten Spalte entsteht. Mit
Lemma 3.(c) und der schon bewiesenen Teilaussage folgt
det A = − det A0 = −
n
X
nj
(−1)n+j aij det A0 .
j=1
Ist α ∈ Sn−1 die Permutation die die Ziffern i, . . . , n − 1 zyklisch um eine Stelle nach
rechts verschiebt, so geht A0 nj für jedes 1 ≤ j ≤ n aus Aij durch Permutation der
Zeilenn gemäß α hervor, also
det A0
nj
= (−1)α det Aij = (−1)n−i−1 det Aij .
Insgesamt ist damit
det A =
n
X
n+j+1−n−i−1
(−1)
ij
aij det A =
j=1
n
X
(−1)i+j aij det Aij .
j=1
Damit haben wir auch die Entwicklung nach einer beliebigen Zeile bewiesen. Die Entwicklung nach Spalten folgt dann schließlich durch Übergang zur transponierten Matrix
mit Lemma 3.(a).
176
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Eine der Folgerungen der Laplace-Entwicklung sind die sogenannten Cramerschen Regeln. Es gibt zwei derartige Regeln, eine für die Berechnung der Inversen einer n × n
Matrix und eine für das Lösen regulärer linearer Gleichungssysteme. Die Cramersche
Regel für die inverse Matrix wird sich dabei aus dem folgenden Satz über die komplementäre Matrix ergeben.
Satz 10.9 (Satz über die Komplementärmatrix)
Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A sei eine n × n Matrix über K. Dann gilt


det A

...
b=A
b·A = 
A·A
 = det(A).

det A
b in der i-ten Zeile
Beweis: Seien 1 ≤ i, j ≤ n gegeben. Der Eintrag des Produkts A · A
und j-ten Spalte ist dann gleich
n
X
k=1
bkj =
Aik A
n
X
(−1)j+k Aik det Ajk ,
k=1
Im Fall eines Diagonaleintrags, d.h. wenn i = j ist, so steht hier gerade die Entwicklung
von det A nach der i-ten Zeile, und die Summe ist nach dem Entwicklungssatz Satz 8,
in seiner Version für Zeilen, gleich der Determinante det A von A. Nun betrachten wir
den Fall i 6= j. Dann ist die Summe ebenfalls nach dem Entwicklungssatz für Zeilen
gleich einer Determinante det A0 , wobei A0 die n × n Matrix über K ist, die wir aus
A erhalten indem die j-te Zeile von A durch eine Kopie der i-ten Zeile von A ersetzt
wird. Insbesondere hat A0 zwei identische Zeilen, und damit ist det A0 = 0 nach Lemma
b = det(A). Die andere Gleichung A
b · A = det(A)
3.(g). Dies beweist die Formel A · A
folgt ebenso mit dem Entwicklungssatz nach Spalten.
Damit können wir nun die beiden Cramerschen Regeln einsehen.
Korollar 10.10 (Cramersche Regel für die Matrixinversion)
Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A sei eine n × n Matrix über K. Dann ist
A genau dann invertierbar wenn det A 6= 0 ist, und in diesem Fall gilt
A−1 =
1 b
A.
det A
Beweis: ”=⇒” Dies gilt nach Korollar 6.
”⇐=” Dies ist klar nach Satz 9.
177
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Wegen
1 −1
2
1 2
0
2 −3 = 2 · 1 1
1
2
1 + 3 · 1 −1 = 2 · (−1) + 3 · 3 = 7
1
2 haben wir in unserem obigen Beispiel damit


−1

8
5 −1
1 −1
2
1
 0
3 .
2 −3  =  −3 −1
7
−2 −3
2
1
2
1
Etwas trickreicher könnten wir auch den ersten Eintrag der ersten Zeile des Produkts
b ausrechnen, und wir wissen dann nach Satz 9 das die so erhaltene Zahl die DeA·A
terminante von A ist. Mit Hilfe der Cramerschen Regel für die Matrixinversion können
wir jetzt auch die schon in §9.4 angesprochene Tatsache beweisen, dass ein Produkt
zweier n × n Matrizen genau dann invertierbar ist wenn beide Faktoren invertierbar
sind.
Korollar 10.11: Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A, B zwei n×n Matrizen über
K. Dann ist das Produkt AB genau dann invertierbar wenn A und B beide invertierbar
sind.
Beweis: Nach dem Multiplikationssatz für Determinanten Satz 5 gilt det(AB) =
det(A) · det(B). Damit ist genau dann det(AB) 6= 0 wenn det A 6= 0 und det B 6= 0
gelten. Nach Korollar 10 folgt daraus die Behauptung.
Kombinieren wir die Cramersche Regel für inverse Matrizen mit dem Lösungssatz
§9.Satz 5 für reguläre lineare Gleichungssysteme, so ergibt sich die Cramersche Regel
für lineare Gleichungssysteme.
Korollar 10.12 (Cramersche Regel für reguläre lineare Gleichungssysteme)
Gegeben sei ein reguläres lineares Gleichungssystem
a11 x1 + a12 x2 + · · · + a1n xn = b1
a21 x1 + a22 x2 + · · · + a2n xn = b2
..
..
..
..
.
.
.
.
an1 x1 + an2 x2 + · · · + ann xn = bn
über K ∈ {R, C}, d.h. Ax = b mit einer invertierbaren Koeffizientenmatrix A ∈ K n×n .
Für 1 ≤ i ≤ n sei Ai die n × n Matrix, die aus A durch Ersetzen der i-ten Spalte von
A durch die rechte Seite b entsteht. Dann ist die Lösung von Ax = b durch
xi =
det Ai
det A
(1 ≤ i ≤ n)
gegeben.
178
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Beweis: Nach §9.Satz 5 und Korollar 10 ist die Lösung von Ax = b durch
x = A−1 b =
1 b
Ab
det A
b gleich
gegeben. Für 1 ≤ i ≤ n ist der i-te Eintrag von Ab
n
X
b
aij bj =
j=1
n
X
(−1)i+j bj det Aji ,
j=1
und letztere Summe ist nach dem Entwicklungssatz Satz 8 gerade gleich der Determinante det Ai .
Als ein Beispiel zur Cramerschen Regel wollen wir einmal das lineare Gleichungssystem
x −
y + 2z =
1
2y − 3z =
0
x + 2y + z = −1
lösen. Die Koeffizientenmatrix A dieses linearen Gleichungssystem ist gerade die bereits
oben als Beispiel verwendete Matrix


1 −1
2
2 −3 
A= 0
1
2
1
von der wir bereits det A = 7 nachgerechnet haben. Die rechte Seite ist


1
b =  0 ,
−1
und dies müssen wir der Reihe nach als erste, zweite, dritte Spalte von A einsetzen, um
die Lösung mit der Cramerschen Regel zu erhalten. Es ergibt sich damit die Lösung
1 −1
2 2 −3 −1
1
1
2
=
−
= 1 (8 + 1) = 9 ,
0
2
−3
x =
2
1
2 −3 7
7
7
7
−1
2
1 1
1
2 1
1 3
1
= = −6,
0
0
−3
y =
1
−1
7
7
7
1 −1
1 1 −1
1 1
1 2
1
= −4.
0
2
0 = z =
7
7 1 −1 7
1
2 −1 179
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Obwohl die Cramerschen Regeln sowohl für die inverse Matrix als auch für reguläre
lineare Gleichungssysteme zunächst nach einer guten Rechenmethode aussehen, da sie
eben so schön direkte und explizite Formeln sind, sind sie fürs praktische Rechnen meist
eher ungeeignet. Es ist eine relativ große Zahl von Determinanten zu berechnen, und
da ist es fast immer schneller unseren Gauß-Algorithmus sowohl zum Lösen linearer
Gleichungssysteme als auch zur Berechnung der inversen Matrix heranzuziehen. Der
einzige Fall in dem die Cramerschen Regeln manchmal brauchbar sind ist n = 3, aber
selbst hier fährt man mit der Gaußschen Elimination fast immer besser.
$Id: vektor.tex,v 1.9 2011/07/14 18:35:15 hk Exp $
§11
Vektorräume
Wir kommen jetzt zum wohl abstraktesten Kapitel dieses ganzen Semesters, der
Theorie der sogenannten Vektorräume. Normalerweise ist ein Vektor etwas das eine
Länge und eine Richtung hat, und man unterscheidet zwischen Dingen wie Orts- und
Richtungsvektoren. Im mathematischen Sprachgebrauch wird das Wort Vektor“ al”
lerdings in einem etwas anderen Sinne verwendet. Konzepte wie Orts-“ und Rich”
”
tungsvektoren“ kommen überhaupt nicht explizit vor und unter einem Vektor versteht
man ein Element eines sogenannten Vektorraums. Ein Vektor kann dann alles mögliche sein, etwa ein Vektor im üblichen Sinne, eine Folge, eine Funktion oder etwas noch
ganz anderes. Was Vektor“ gerade konkret bedeutet hängt immer am Kontext des
”
behandelten Vektorraums. Wir werden Vektorräume sowohl mit reellen als auch mit
komplexen Skalaren betrachten, und in diesem ganzen Kapitel bezeichne K ∈ {R, C}
entweder die reellen oder die komplexen Zahlen. Ein allgemeiner Vektorraum ist ein
recht abstrakter Begriff, der nun eingeführt werden soll.
11.1
Der Vektorraumbegriff
Definition 11.1 (Die Vektorraumaxiome)
Ein Vektorraum über K besteht aus einer Menge V , deren Elemente Vektoren genannt
werden, und zwei Abbildungen
+ : V × V → V ; (x, y) 7→ x + y
und
· : K × V → V ; (λ, x) 7→ λx,
die die folgenden Vektorraumaxiome erfüllen:
(A1) Das Assoziativgesetz der Addition: Für alle x, y, z ∈ V gilt
(x + y) + z = x + (y + z).
180
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
(A2) Das Kommutativgesetz der Addition: Für alle x, y ∈ V gilt
x + y = y + x.
(A3) Existenz des Nullvektors: Es gibt ein Element 0 ∈ V mit 0 + x = x für alle
x∈V.
(A4) Existenz additiver Inverser: Für jedes x ∈ V existiert ein Vektor −x ∈ V mit
(−x) + x = 0.
(S1) Assoziativgesetz der Multiplikation: Für alle λ, µ ∈ K und alle x ∈ V gilt
λ · (µ · x) = (λµ) · x.
(S2) Multiplikation mit Eins: Für jedes x ∈ V gilt 1 · x = x.
(S3) Distributivgesetz für Vektoren: Für alle λ ∈ K und alle x, y ∈ V gilt
λ · (x + y) = λ · x + λ · y.
(S4) Distributivgesetz für Skalare: Für alle λ, µ ∈ K, x ∈ V gilt
(λ + µ) · x = λ · x + µ · x.
Beachte das die vier additiven Axiome (A1), (A2), (A3), (A4) mit den vier additiven Körperaxiomen aus §4.1 übereinstimmen. Daher gelten auch die Folgerungen
aus diesen, wir wissen also das die Null 0 des Vektorraums eindeutig festgelegt ist,
das die additive Inverse −x jedes Vektors x ∈ V eindeutig bestimmt ist und das
−(x + y) = (−x) + (−y) für alle x, y ∈ V gilt. Außerdem können wir damit auch wieder
die Subtraktion x − y := x + (−y) für Vektoren x, y ∈ V definieren. Schließlich folgen
mit den multiplikativen Axiomen (S1) bis (S4) auch
−x = (−1) · x und λ · x = 0 ⇐⇒ (λ = 0 ∨ x = 0)
für alle x ∈ V , λ ∈ K. Dies kann man ähnlich wie die entsprechenden Aussagen für
die multiplikativen Körperaxiome zeigen, und soll hier nicht vorgeführt werden. Es ist
übrigens tatsächlich nötig 1 · x = x zu fordern, andernfalls wäre es möglich das λ · x = 0
für alle Vektoren x ∈ V und alle λ ∈ K gilt. In allgemeinen Vektorräumen läßt sich
also wie gewohnt rechnen.
Wir wollen jetzt einige Beispiele von Vektorräumen durchgehen.
1. Das Urbeispiel eines Vektorraums ist der Vektorraum K n der n-Tupel von Zahlen
aus K, also Rn oder Cn . Die Addition derartiger n-Tupel und die Multiplikation
mit Skalaren hatten wir in §9.1 eingeführt, und dort hatten wir auch bereits die
Gültigkeit der verschiedenen Vektorraumaxiome festhehalten.
181
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
2. Ein sehr ähnliches Beispiel eines Vektorraums ist die Menge





a11 · · · a1n 


 ..
.
m×n
.
.
.
K
:=  .
.
.  a11 , . . . , amn ∈ K 

 a

m1 · · · amn
aller m × n Matrizen über K, erneut mit der in §9.1 eingeführten Addition und
Multiplikation mit Skalaren. In Wahrheit kann man diesen Vektorraum natürlich
auch als den K nm auffassen, indem wir einfach die m · n Matrixeinträge hintereinander in einer Zeile hinschreiben.
3. Ein anderer wichtiger Typ von Vektorräumen sind Funktionsräume, also Mengen
deren Elemente Funktionen sind. Ist M eine beliebige Menge, so betrachten wir
die Menge
K M := {f |f : M → K ist eine Abbildung}
aller Abbildungen von M nach K. Die Elemente von K M können wir addieren,
sind f, g ∈ K M , so sind f und g Abbildungen von M nach K, und wir definieren
die Summe f + g dieser Abbildungen durch
f + g : M → K; x 7→ f (x) + g(x).
Ebenso können wir für eine Funktion f ∈ K M und eine Zahl c ∈ K eine neue
Funktion c · f : M → K durch
c · f : M → K; x 7→ cf (x)
definieren. Es ist leicht, aber etwas ermüdend, hier die Gültigkeit der Vektorraumaxiome vorzuführen, daher wollen wir uns dies hier ersparen, beziehungsweise
es uns als eine Übungsaufgabe stellen.
4. Ist im vorigen Beispeil M = N, so wird
K N = {(an )n∈N | an ∈ K für alle n ∈ N}
beispielsweise zum Vektorraum aller Folgen in K.
Betrachten wir etwa ganz konkret den Fall K = M = R, so ist V := RR die Menge
aller reellen Funktionen f : R → R. Zum Beispiel sind dann die Sinusfunktion sin,
der Cosinus cos, die Exponentialfunktion exp Elemente des Vektorraums V , und wir
können Ausdrücke wie
√
f := sin + 2 · cos − 2 · exp
hinschreiben. Dies ist dann die Funktion
f : R → R; x 7→ sin x + 2 cos x −
182
√
2ex .
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Hieran sieht man insbesondere, dass das Wort Vektor“ hier wirklich nur eine Rollen”
beschreibung der Elemente x ∈ V und keine intrinsische Eigenschaft dieser Elemente
ist. In unserem Vektorraum V = RR ist die Sinusfunktion sin selbst ein Vektor. Ebenso
sprechen wir im Zusammenhang mit Vektorräumen oft von Skalaren statt von Zahlen,
auch dies ist nur eine Rollenbezeichnung, Skalare sind einfach Zahlen, das andere Wort
wird nur verwendet um anzudeuten, dass wir sie an Vektoren heranzumultiplizieren
gedenken.
Ein weiteres Beispiel eines Vektorraums ergibt sich aus den linearen Gleichungssystemen. Angenommen wir haben ein homogenes lineares Gleichungssystem

a11 x1 + a12 x2 + · · · + a1n xn = 0 


a21 x1 + a22 x2 + · · · + a2n xn = 0 
(∗)
..
..
..
..
.
.
.
. 


am1 x1 + am2 x2 + · · · + amn xn = 0 
über K. Dann können wir die Menge





x
1


 .. 
n
V :=  .  ∈ K x1 , . . . , xn ist eine Lösung von (∗)


 x

n
aller Lösungen des Gleichungssystems betrachten. Nach §9.Satz 3.(a) sind Summen
und Vielfache von Elementen aus V wieder Elemente aus V und somit haben wir eine
auf V definierte Addition und eine auf V definierte Multiplikation mit Skalaren. Dass
diese die Vektorraumaxiome erfüllen, V also ein Vektorraum ist, folgt im wesentlichen
daraus das der umgebende K n ein Vektorraum ist. Die Axiome (A1), (A2), (S1), (S2),
(S3) und (S4) fordern die Gültigkeit gewisser Formeln für alle Elemente von V , und
sind damit automatisch wahr da sie sogar für alle Elemente der größeren Menge K n
gelten. Die verbleibenden Axiome (A3) und (A4) sind ein klein wenig komplizierter,
da sie eine Existenzforderung enthalten. Für Axiom (A3) brauchen wir eine Null in V .
Wir haben eine Null im K n , wir müssen also nur noch wissen das diese in V liegt. Dies
ist glücklicherweise klar da die Null des K n gerade die triviale Lösung des homogenen
linearen Gleichungssystems (∗) ist. Das letzte Axiom (A4) ist die Existenz additiver
Inverser, und genau wie für die Null reicht es zu sehen, dass für jedes x ∈ V auch das
in K n gebildete −x in V liegt. Dies ist wegen −x = (−1) · x klar. Damit ist auch die
Lösungsmenge V ein Beispiel eines Vektorraums.
11.2
Untervektorräume und Erzeugendensysteme
Wir hatten gesehen, dass die Lösungsmenge eines homogenen linearen Gleichungssystems in n Unbekannten einen Vektorraum bildet. Der Nachweis der acht Vektorraumaxiome ergab sich dabei im wesentlichen daraus, das diese alle im größeren Vektorraum K n gelten. Die verwendeten Eigenschaften homogener linearer Gleichungssysteme
183
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
waren zum einen das Summen und Vielfache von Lösungen wieder Lösungen sind und
zum anderen das der Nullvektor des K n eine Lösung ist. Diese Eigenschaften führen
uns auf den Begriff eines sogenannten Untervektorraums.
Definition 11.2 (Untervektorräume eines Vektorraums)
Sei V ein Vektorraum. Eine Teilmenge U ⊆ V heißt ein Untervektorraum von V ,
geschrieben als U ≤ V , wenn sie die folgenden drei Bedingungen erfüllt:
(U1) Es ist 0 ∈ U .
(U2) Für alle x, y ∈ U ist auch x + y ∈ U .
(U3) Für alle x ∈ U und alle λ ∈ K ist auch λx ∈ U .
Anstelle von Untervektorraum“ werden wir oft auch das kürzere Synonym Teil”
”
raum“ verwenden. Manchmal werden für die beiden Bedingungen (U2) und (U3) auch
die Sprechweisen U ist abgeschlossen unter der Addition“ beziehungsweise U ist ab”
”
geschlossen unter der Multiplikation mit Skalaren“ verwendet. Anstelle von (U1) kann
man auch die bei Gültigkeit von (U3) äquivalente Bedingung U 6= ∅ verwenden, gibt
es nämlich überhaupt ein x ∈ U so ist nach (U3) auch 0 = 0 · x ∈ U . Da U 6= ∅
aber eigentlich so gut wie immer bewiesen wird indem 0 ∈ U gezeigt wird, kann man
dies auch gleich als die Bedingung verwenden. Genau wie wir eingesehen haben, dass
die Lösungsmenge eines homogenen linearen Gleichungssystems einen Vektorraum bildet, kann man auch zeigen das jeder Untervektorraum eines Vektorraums selbst ein
Vektorraum ist.
Ein Beispiel eines Untervektorraums sind natürlich die Lösungsmengen eines homogenen linearen Gleichungssystems in n Variablen als Untervektorräume des K n . Als
ein etwas komplizierteres Beispiel betrachten wir den Vektorraum K N aller Folgen in
K. Dieser enthält die Menge
C := (an )n∈N ∈ K N (an )n∈N ist konvergent ,
und wir behaupten, dass C ein Untervektorraum von K N ist. Dass 0 ∈ C gilt, ist dabei
klar, konstante Folgen sind ja insbesondere konvergent. Die beiden anderen Bedingungen (U2), (U3) besagen, dass Summen und Vielfache von konvergenten Folgen wieder
konvergent sind, und dies ist gerade §6.Satz 6.(a,b). Also ist C ein Untervektorraum
von K N , und somit selbst ein Vektorraum.
Die für uns wichtigste Klasse von Untervektorräumen wird durch das Bilden des sogenannten Aufspanns gegebener Vektoren in einem Vektorraum V definiert. Um dieses
Konzept einzuführen benötigen wir die sogenannten Linearkombinationen von Vektoren in einem Vektorraum.
Definition 11.3 (Linearkombinationen)
Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißt ein weiterer Vektor v ∈ V
eine Linearkombination von v1 , . . . , vn , wenn es Skalare λ1 , . . . , λn ∈ K mit
n
X
v = λ1 v 1 + . . . + λn v n =
λk v k
k=1
184
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
gibt. Die Menge aller Linearkombinationen von v1 , . . . , vn heißt das Erzeugnis, oder
auch der Aufspann, von v1 , . . . , vn , geschrieben als
)
( n
X
hv1 , . . . , vn i = span(v1 , . . . , vn ) :=
λk v k λ1 , . . . , λ n ∈ K .
k=1
Für Vektoren v1 , . . . , vn im Spaltenvektorraum K m ist es uns leicht möglich zu entscheiden, ob ein weiterer Vektor v eine Linearkombination der v1 , . . . , vn ist. Schreiben
wir hierzu






a1n
a12
a11






v1 :=  ...  , v2 :=  ...  , . . . , vn :=  ...  ,
amn
am2
am1
so ist für alle x1 , . . . , xn stets





 

a11
a12
a1n
a11 x1 + · · · + a1n xn





 

..
x1 ·  ...  + x2 ·  ...  + · · · + xn ·  ...  = 

.
am1
am2
amn
am1 x1 + · · · + amn xn
also
wobei


x1


x1 v1 + · · · + xn vn = A ·  ...  ,
xn


a11 · · · a1n

..  ,
..
A :=  ...
.
. 
am1 · · · amn
die Matrix ist, deren Spalten gerade die Vektoren v1 , . . . , vn sind. Damit ist ein Vektor
v ∈ K m genau dann eine Linearkombination der Vektoren v1 , . . . , vn wenn das lineare
Gleichungssystem Ax = v eine Lösung hat. Insbesondere können wir dies mit dem
Gaußschen Eliminationsverfahren effektiv entscheiden. Nehmer wir beispielsweise Aufgabe (40) in der gefragt wird für welche b1 , b2 , b3 , b4 ∈ R das lineare Gleichungssystem
x
2x
x
3x
+ 2y − z =
− y + z =
+ 3y + 2z =
+ y + z =
lösbar ist, so können wir diese Aufgabe auch
drei Vektoren
 

1
2
 2 
 −1


v1 = 
 1  , v2 =  3
3
1
185
b1
b2
b3
b4
als die Berechnung des Aufspanns der



−1



 , v3 =  1 

 2 
1
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
im R4 interpretieren. Die rechnerische Bestimmung des Aufspanns von Vektoren im
K m stellt uns also vor keine neuen Probleme. Wir stellen jetzt die Grundeigenschaften
von Untervektorräumen zusammen.
Lemma 11.1 (Grundeigenschaften von Untervektorräumen)
Sei V ein Vektorraum. Dann gelten:
(a) Die Mengen V und {0} sind Untervektorräume von V , genannt die beiden trivialen
Untervektorräume.
(b) Sind U ein Untervektorraum von V und W ein Untervektorraum von U , so ist W
auch ein Untervektorraum von V .
(c) Sind U, W zwei Untervektorräume von V , so ist auch U ∩ V ein Untervektorraum
von V .
(d) Sind U, W zwei Untervektorräume von V , so ist auch die Summe
U + W := {x + y|x ∈ U, y ∈ W } ⊆ V
ein Untervektorraum von V .
(e) Sind v1 , . . . , vn ∈ V , so ist der Aufspann hv1 , . . . , vn i der kleinste Untervektorraum
von V , der v1 , . . . , vn enthält.
Beweis: Die ersten drei Aussagen (a,b,c) sind alle klar.
(d) Wir kommen daher zum Beweis von (d). Zunächst ist 0 = 0 + 0 ∈ U + W . Sind
u, u0 ∈ U + W , so gibt es x, x0 ∈ U und y, y 0 ∈ W mit u = x + y und u0 = x0 + y 0 ,
also ist auch u + u0 = (x + x0 ) + (y + y 0 ) ∈ U + W . Weiter haben wir für jedes λ ∈ K
dann auch λ · u = λ · (x + x0 ) = λ · x + λ · x0 ∈ U + W . Damit ist auch U + W ein
Untervektorraum von V und (d) ist bewiesen.
P
(e) Schreibe U := hv1 , . . . , vn i. Zunächst ist 0P= ni=1 0 · vi ∈ UP
. Sind x, y ∈ U , so
existieren λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit x = ni=1 λi vi und y = ni=1 µi vi . Damit ist
auch
n
n
n
X
X
X
x+y =
λi v i +
µi v i =
(λi + µi )vi ∈ U.
i=1
i=1
i=1
Außerdem ist für jedes λ ∈ K auch
λ·x=
n
X
(λλi )vi ∈ U.
i=1
P
Damit ist U ein Unterraum von K. Für jedes 1 ≤ i ≤ n gilt auch vi = nj=1 δij vj ∈ U ,
es ist also v1 , . . . , vn ∈ U . Ist umgekehrt
P W ≤ V ein Teilraum von V mit v1 , . . . , vn ∈ W ,
so gilt für alle λ1 , . . . , λn ∈ K auch ni=1 λi vi ∈ W , d.h. jede Linearkombination von
v1 , . . . , vn liegt wieder in W . Damit ist U ⊆ W .
186
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
Das im letzten Beweisteil verwendete Kronecker-Symbol“
”
(
1, α = β,
δαβ :=
0, α 6= β
wurde dabei in Aufgabe (36) eingeführt. Der Begriff des Aufspanns von Vektoren, führt
uns im nächsten Schritt zu den sogenannten Erzeugendensystemen eines Vektorraums.
Definition 11.4 (Erzeugendensysteme eines Vektorraums)
Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißen v1 , . . . , vn ein Erzeugendensystem von V , wenn V = hv1 , . . . , vn i ist, wenn also jeder Vektor v ∈ V Linearkombination von v1 , . . . , vn ist.
Wir wollen nun noch drei wichtige Grundbeispiele von Erzeugendensystemen besprechen.
1. Das erste Beispiel ist dabei besonders trivial, aber wichtig. Für beliebige Vektoren
v1 , . . . , vn ∈ V in einem Vektorraum V ist v1 , . . . , vn ein Erzeugendensystem des
Aufspanns hv1 , . . . , vn i.
2. Der K n besitzt ein besonders einfaches Erzeugendensystem bestehend aus den
Vektoren
 
 
 
1
0
0
 0 
 1 
 0 
 
 
 
e1 :=  ..  , e2 :=  ..  , . . . , en :=  ..  ,
 . 
 . 
 . 
0
0
1
denn jeder Vektor x ∈ K n



x1

 x2 



x =  ..  = x1 · 

 . 
xn
ist ja eine Linearkombination

 

1
0
 1 

0 

 

..  + x2 ·  ..  + · · · + xn · 
 . 

. 
0
0
0
0
..
.

n
 X

xk ek .
=
 k=1
1
Im dreidimensionalen reellen Fall V = R3 , schreibt man gelegentlich i, j, k für die
drei Vektoren e1 , e2 , e3 .
3. Analog bilden die in Aufgabe (36) eingeführten Matrizen Eij (1 ≤ i ≤ m, 1 ≤
j ≤ n) mit einer Eins in der j-ten Spalte der i-ten Zeile und Nullen sonst ein
Erzeugendensystem des Matrixraums K m×n .
4. Ein weiteres Beispiel von Erzeugendensystemen kennen wir auch bereits aus unserer Diskussion linearer Gleichungssysteme aus §8. Angenommen wir haben ein
187
Mathematik für Physiker I, WS 2010/2011
Montag 17.1.2011
homogenes lineares Gleichungssystem
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
+ · · · + a1n xn
+ · · · + a2n xn
..
.
am1 x1 + am2 x2 + · · · + amn xn

= 0 


= 0 
(∗)
..
. 


= 0 
und betrachten die Menge V seiner Lösungen. Wie bereits bemerkt ist V ein
Teilraum des K n , also selbst ein Vektorraum. Wenden wir nun das Gaußsche
Eliminationsverfahren auf das lineare Gleichungssystem (∗) an, so erhalten wir
ein äquivalentes lineares Gleichungssystem
xi1 + c1,i1 +1 xi1 +1 + · · · + c1i2 xi2 + · · · + c1ir xir + · · · = 0
xi2
+ · · · + c2ir xir + · · · = 0
..
..
.
.
xir
+ · · · = 0,
in Stufenform, dessen untere m − r nur aus Nullen bestehende Zeilen hier fortgelassen werden, d.h. r ist die Anzahl der nach Anwendung des Gaußschen Eliminationsverfahrens verbleibenden nicht trivialen Zeilen. Wir haben hier die Variante
des Eliminationsverfahrens verwendet, die den führenden Eintrag jeder verbleibenden Zeile durch Multiplikation mit einer Konstanten auf Eins bringt. Jede
dieser r Zeilen legt eine der Unbekannten fest, d.h. die Werte von xi1 , . . . , xir
werden festgelegt während die anderen Unbekannten frei bleiben. Dabei haben
wir
xir = −cr,ir +1 xir +1 − · · · − crn xn ,
xir−1 = −cr−1,ir−1 +1 xir−1 +1 − · · · − cr−1,ir xir − cr−1,ir +1 xir +1 − · · · − cr1 ,n xn
= −cr−1,ir−1 +1 xir−1 +1 − · · · − (cr−1,ir +1 + cr−1,ir cr,ir +1 )xir +1
− · · · − (cr−1,n + cr−1,ir crn )xn
und so weiter. Benennen wir die frei bleibenden Unbekannten in t1 , . . . , tn−r um,
so können wir die allgemeine Lösung des homogenen linearen Gleichungssystems
(∗) damit in der Form
 
 
 
∗
∗
∗

. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 
 . 
 . 
 ∗ 
 .. 
 . 
 
 
 




1
x = t1 ·   + t2 ·  ∗  + · · · + tn−r ·  ... 
 
 ... 
 1 
 .. 
 
 
 . 
 . 
 . 
 
 .. 
 .. 
 ∗ 
0
0
1
188
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
schreiben. Damit wird der Lösungsraum des homogenen linearen Gleichungssystems (∗) von diesen n − r Vektoren erzeugt. Der Lösungsraum V hat also ein
aus n − r Vektoren bestehendes Erzeugendensystem.
Vorlesung 20, Freitag 21.1.2011
Am Ende der letzten Sitzung hatten wir wieder einmal den Lösungsraum eines homogenen linearen Gleichungssystems aus m Gleichungen in n Unbekannten besprochen.
Blieben nach Durchführung des Gaußschen Eliminationsverfahrens r von Null verschiedene Zeilen übrig, so hatte der Lösungsraum ein Erzeugendensystem aus n − r Vektoren. Dies sollte an einem kleinen Beispiel klarer werden. Wir betrachten das folgende
homogene lineare Gleichungssystem in den Unbekannten x1 , . . . , x6
x1
+ 2x4 − x5
=0
3x4
+ x6 = 0
Die Unbekannten x2 , x3 kommen hier gar nicht vor, aber das ist gewollt. Dieses Gleichungssystem ist bereits in Stufenform, wobei die Unbekannten x1 und x4 festgelegt
sind, während x2 , x3 , x5 und x6 frei bleiben. Wir haben
1
2
x4 = − x6 und x1 = x5 − 2x4 = x5 + x6 ,
3
3
benennen wir also die freien Unbekannten x2 , x3 , x5 , x6 in t1 , t2 , t3 , t4 um, so wird der
Lösungsraum dieses homogenen linearen Gleichungssystems zu



2
t
t
+


4
3
3








t


1







t
2


 − 1 t4  t1 , t2 , t3 , t4 ∈ R

3










t3






t4

 

 
0
0




 0 

 1 


 

 

 1 

 0 
 + t2 ·   + t3 · 
= t1 · 
 0 

 0 


 

 







0
0



0
0
189
1
0
0
0
1
0


2
3

 0




 + t4 ·  01

 −

 3

 0
1












 t1 , t2 , t3 , t4 ∈ R .










Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
Ein Erzeugendensystem des Lösungsraums besteht hier also aus den vier Vektoren
 2 
 
 
 
1
0
0
3
 0 
 0 
 0 
 1 

 
 
 

 0 
 0 
 1 
 0 







u1 =   , u 2 =   , u 3 =   , u 4 =  1 
.
 −3 
 0 
 0 
 0 
 0 
 1 
 0 
 0 
0
0
0
1
Die spezielle Gestalt dieses Erzeugendensystems wird später noch einmal wichtig werden, jeder der Vektoren hat oben einige weitgehend beliebige Einträge, dann folgt eine
1 und der untere Teil des Vektors besteht nur aus Nullen. Gehen wir die Vektoren dabei von links nach rechts durch, so wird der untere aus Nullen bestehende Teil immer
kleiner.
Zum Abschluss dieses Abschnitts wollen wir noch die Grundeigenschaften von Erzeugendensystemen festhalten.
Lemma 11.2 (Grundeigenschaften von Erzeugendensystemen)
Sei V ein Vektorraum über K.
(a) Sind v1 , . . . , vn , w1 , . . . , wm ∈ V , so ist
hv1 , . . . , vn , w1 , . . . , wm i = hv1 , . . . , vm i + hw1 , . . . , wm i.
(b) Sind v1 , . . . , vn ein Erzeugendensystem von V und w1 , . . . , wm ∈ V mit vi ∈
hw1 , . . . , wm i für alle 1 ≤ i ≤ n, so ist auch w1 , . . . , wm ein Erzeugendensystem
von V .
Beweis: (a) Es ist
hv1 , . . . , vn i + hw1 , . . . , wm i
( n
) ( m
)
X
X
λi v i λ1 , . . . , λ n ∈ K +
µi wi µ1 , . . . , µm ∈ K
=
i=1
(i=1
)
n
m
X
X
λ , . . . , λn ∈ K,
=
λi v i +
µj wj 1
= hv1 , . . . , vn , w1 , . . . , wm i.
µ1 , . . . , µ m ∈ K
i=1
j=1
(b) Nach Lemma 1.(e) gilt
V = hv1 , . . . , vn i ⊆ hw1 , . . . , wm i ⊆ V,
also ist auch V = hw1 , . . . , wm i, d.h. w1 , . . . , wm ist ein Erzeugendensystem von V .
Aussage (b) des Lemmas ist oft nützlich um bei gegebenen Vektoren nachzuweisen,
dass sie ein Erzeugendensystem bilden. Anstatt einzusehen, dass man jeden anderen
Vektor als Linearkombination dieser Vektoren schreiben kann, reicht es dies für die
Vektoren eines bereits bekannten Erzeugendensystems zu tun.
190
Mathematik für Physiker I, WS 2010/2011
11.3
Freitag 21.1.2011
Lineare Unabhängigkeit, Basen und Dimension
Haben wir ein Erzeugendensystem v1 , . . . , vn des Vektorraums V , so können wir jeden
Vektor v ∈ V als eine Linearkombination
v = λ1 v 1 + · · · + λn v n
schreiben, aber leider ist diese Darstellung im Allgemeinen nicht eindeutig. Betrachten
wir zum Beispiel einmal im R2 die drei Vektoren
1
1
1
v1 =
, v2 =
und v3 =
.
1
−1
2
Wegen e1 = (1/2)(v1 + v2 ) und e2 = v3 − v1 sind v1 , v2 , v3 nach Lemma 2.(d) ein
Erzeugendensystem des R2 . In diesem Erzeugendensystem können wir andere Vektoren
auf mehrere verschiedene Arten als Linearkombinationen schreiben, zum Beispiel ist
1
1
e2 = v3 − v1 = v1 − v2 .
2
2
Von besonderem Interesse sind nun natürlich diejenigen Erzeugendensysteme für die die
Darstellung anderer Vektoren als Linearkombination eindeutig ist. Die hierfür zuständige Bedingung ist die sogenannte lineare Unabhängigkeit.
Definition 11.5: Sei V ein Vektorraum. Dann heißen die Vektoren v1 , . . . , vn linear
unabhängig, wenn für alle Skalare λ1 , . . . , λn ∈ K aus λ1 v1 + · · · + λn vn = 0 bereits
λ1 = · · · = λn = 0 folgt.
Die Vektoren v1 , v2 , v3 des obigen Beispiels sind dann nicht linear unabhängig, da ja
etwa
3
1
v1 − v2 − v3 = 0
2
2
gilt. Beachte das die lineare Unabhängigkeit auch die Eindeutigkeit der Koeffizienten
in einer Linearkombination bedeutet, sind nämlich λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit
λ 1 v 1 + · · · + λ n v n = µ1 v 1 + · · · + µn v n
so folgt auch
(λ1 − µ1 )v1 + · · · + (λn − µn )vn = 0,
und damit ist λk − µk = 0, also λk = µk , für alle k = 1, . . . , n.
Wir wollen uns jetzt kurz klarmachen, wie man die lineare Unabhängigkeit von
Vektoren in einem Spaltenvektorraum K m rechnerisch nachweist. Seien also v1 , . . . , vn
Vektoren im K m , und schreibe






a12
a1n
a11






v1 =  ...  , v2 =  ...  , . . . , vn =  ...  .
am1
am2
amn
191
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
Die Linearkombinationen dieser Vektoren sind dann
 
a11 λ1 + · · · + a1n λn
 ! 

..
λ1 v 1 + · · · + λn v n = 
=
.
am1 λ1 + · · · + amn λn


0
..  ,
. 
0
und da die Vektoren v1 , . . . , vn nach Definition genau dann linear unabhängig sind,
wenn diese Gleichung nur durch λ1 = · · · = λn = 0 lösbar ist, sind sie auch genau dann
linear unabhängig wenn das homogene lineare Gleichungssystem
+ · · · + a1n xn
..
.
= 0
..
.
am1 x1 + · · · + amn xn
= 0
a11 x1
..
.
nur die triviale Lösung hat. Diese Bedingung können wir rechnerisch noch etwas weiter
auswerten. Nehme hierzu wieder an, dass wir das Gaußsche Eliminationsverfahren mit
dem obigen homogenen linearen Gleichungssystem laufen lassen, und das dieses mit
einen System in Stufenform, das aus r Gleichungen 6= 0 besteht, endet. Dann sind r
der n Unbekannten durch das Gleichungssystem festgelegt, es hat also genau dann nur
die triviale Lösung wenn r = n ist. Damit gilt auch

Das Gaußssche Eliminationsverfahren



angewandt auf die Matrix deren Spalten
v1 , . . . , vn sind linear unabhängig ⇐⇒
 die Vektoren v1 , . . . , vn sind endet mit


n von Null verschiedenen Zeilen.
Insbesondere stellt der Nachweis der linearen Unabhängigkeit im K m uns vor keine
neuen rechnerischen Probleme. Wir wollen jetzt unsere Beispiele von Erzeugendensystemen aus dem vorigen Abschnitt auf lineare Unabhängigkeit überprüfen. Starten wir
mit den Vektoren e1 , . . . , en ∈ K n . Für alle λ1 , . . . , λn ∈ K haben wir dann

n
X


λk ek = λ1 

k=1
1
0
..
.
0






+
λ

2


0
1
..
.






+
·
·
·
+
λ

n


0
0
0
..
.
1


 
 
=
 
λ1
λ2
..
.



,

λn
und damit folgt aus λ1 e1 + · · · + λn en = 0 sofort λ1 = · · · = λn = 0. Damit sind
e1 , . . . , en linear unabhängig. Kommen wir nun zu den n − r Vektoren u1 , . . . , un−r ,
die den Lösungsraum des homogenen linearen Gleichungssystems Ax = 0 aufspannen.
192
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
Diese Vektoren hatten die spezielle Form
 
 

∗
∗
∗

. 
 .. 
 .. 
 .. 
 . 
 . 
 . 
 . 
 
 . 
 .. 
 ∗ 
 . 
 
 
 




1
u1 =   , u2 =  ∗  , . . . , un−r =  ...  ,
 
 1 
 ... 
 .. 
 
 
 . 
 . 
 . 
 
 .. 
 .. 
 ∗ 
0
0
1

und wir behaupten, dass sie linear unabhängig sind. Seien nämlich λ1 , . . . , λn−r ∈ K mit
λ1 u1 + · · · + λn−r un−r = 0 gegeben. Beachten wir nun, dass nur der letzte Vektor un−r
in der untersten Zeile eine Eins hat, während die restlichen Vektoren u1 , . . . , un−r−1 an
dieser Stelle eine Null haben, so haben wir


∗
n−r
 .. 
X


λk u k =  .  ,
0=
 ∗ 
k=1
λn−r
also ist zumindest λn−r = 0. Damit ist aber auch λ1 u1 +· · ·+λn−r−1 un−r−1 = 0. Schauen
wir uns dann beim jetzt letzten Vektor un−r−1 die unterste von Null verschiedene Zeile
an, so haben alle anderen Vektoren u1 , . . . , un−r−2 dort eine Null, und es folgt wieder
λn−r−1 = 0. So fortfahrend erhalten wir schließlich λn−r = λn−r−1 = · · · = λ1 = 0. Damit sind u1 , . . . , un−r tatsächlich linear unabhängig, und somit wird der Lösungsraum
eines homogenen linearen Gleichungssystems von n − r linear unabhängigen Vektoren
erzeugt, wobei r wieder die Anzahl der nach dem Gaußschen Eliminationsverfahren
verbleibenden von Null verschiedenen Zeilen bezeichnet.
Wir kommen jetzt zu einer ganzen Sequenz eher theoretischer Aussagen über lineare Unabhängigkeit und Erzeugendensysteme in einem abstrakten Vektorraum. In der
Vorlesung wurden diese Tatsachen nur übersichtsweise vorgestellt und nicht weitergehend begründet. In diesem Skript wollen wir die vollständigen Beweise mit angeben.
Lemma 11.3 (Grundeigenschaften der linearen Unabhängigkeit)
Seien V ein Vektorraum über K und v1 , . . . , vn ∈ V .
(a) Ist v ∈ V , so sind v1 , . . . , vn , v genau dann linear unabhängig wenn v1 , . . . , vn linear
unabhängig sind und v ∈
/ hv1 , . . . , vn i gilt.
(b) Die folgenden Aussagen sind äquivalent:
1. Die Vektoren v1 , . . . , vn sind linear unabhängig.
193
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
2. Kein vi ist eine Linearkombination der anderen, d.h. für jedes 1 ≤ i ≤ n
ist vi ∈
/ hv1 , . . . , vbi , . . . , vn i (dabei ist b das sogenannte Auslassungssymbol,
d.h. die so bezeichneten Terme sollen weggelassen werden).
3. Für jedes 1 ≤ i ≤ n ist vi ∈
/ hv1 , . . . , vi−1 i.
Beweis: (a) ”=⇒” Dass die Vektoren v1 , . . . , vn linear
Pnunabhängig sind ist klar. Wäre
v ∈ hv1 , . . . , vn i, so gäbe es λ1 , . . . , λn ∈ K mit v = i=1 λi vi , und dann ist auch
1·v+
n
X
(−λi )vi = v −
i=1
n
X
λi vi = 0,
i=1
im Widerspruch zur linearen Unabhängigkeit
Pn von v1 , . . . , vn , v.
”⇐=” Seien λ, λ1 , . . . , λn ∈ K mit λv + i=1 λi vi = 0. Wäre λ 6= 0, so hätten wir
n n
X
1X
λi
v=−
λi v i =
−
vi ∈ hv1 , . . . , vn i,
λ i=1
λ
i=1
P
also muss λ = 0 sein. Wegen ni=1 λi vi = 0 ist damit auch λ1 = · · · = λn = 0. Damit
sind v1 , . . . , vn , v linear unabhängig.
(b) (1)=⇒(2). Klar nach (a).
(2)=⇒(3). Klar.
(3)=⇒(1). Dies ergibt sich durch vollständige Induktion aus (a).
Nennen wir die Vektoren v1 , . . . , vn linear abhängig, wenn sie nicht linear unabhängig
sind, so besagt der Satz, dass v1 , . . . , vn genau dann linear abhängig sind, wenn für einen
der Vektoren vi die Bedingung vi ∈ hv1 , . . . , vbi , . . . , vn i erfüllt ist, d.h. wenn sich ein
vi als Linearkombination der anderen vj schreiben läßt. Entsprechend sagt man häufig
auch anstelle von v ist eine Linearkombination von v1 , . . . , vn“ das v von v1 , . . . , vn
”
”
linear abhängt“.
Ist v1 , . . . , vn ein Erzeugendensystem des Vektorraums V , so läßt sich jedes v ∈ V
als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, und sind die v1 , . . . , vn
zusätzlich linear unabhängig, so sind die Koeffizienten λ1 , . . . , λn in dieser Linearkombination eindeutig bestimmt. In dieser Situation sprechen wir dann von einer Basis des
Vektorraums V .
Definition 11.6: Sei V ein Vektorraum über K. Eine Basis von V ist ein linear unabhängiges Erzeugendensystem v1 , . . . , vn von V .
Wir wollen einsehen, dass jeder nicht zu große“ Vektorraum eine Basis hat. Was dabei
”
nicht zu groß“ bedeutet werden wir bald genau sagen. Es gibt durchaus Vektorräume
”
die überhaupt kein (endliches) Erzeugendensystem, und damit auch keines Basis, haben, beispielsweise der reelle Vektorraum aller Funktionen f : R → R. Die Existenz
194
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
von Basen in den anderen Fällen ergibt sich leicht durch eine kleine Umformulierung
des Begriffs einer Basis, die wir in unserem nächsten Lemma beweisen werden.
Lemma 11.4 (Charakterisierung der Basen eines Vektorraums)
Seien V ein Vektorraum über K und v1 , . . . , vn ∈ V . Dann sind die folgenden Aussagen
äquivalent:
(a) Die Vektoren v1 , . . . , vn sind eine Basis von V .
(b) Die Vektoren v1 , . . . , vn sind maximal linear unabhängig, also linear unabhängig
und es kann kein weiterer Vektor zu ihnen hinzugefügt werden so, dass das vergrößerte System linear unabhängig bleibt.
(c) Die Vektoren v1 , . . . , vn sind ein minimales Erzeugendensystem von V , d.h. sie
bilden ein Erzeugendensystem von V und läßt man auch nur einen Vektor weg,
so bilden die restlichen Vektoren kein Erzeugendensystem.
Beweis: (a)=⇒(b). Jedes v ∈ V ist eine Linearkombination von v1 , . . . , vn , also sind
v1 , . . . , vn , v nach Lemma 3.(a) nicht linear unabhängig.
(b)=⇒(a). Ist v ∈ V , so sind v1 , . . . , vn , v nicht linear unabhängig, also ist nach Lemma
3.(a) auch v ∈ hv1 , . . . , vn i. Damit ist v1 , . . . , vn auch ein Erzeugendensystem von V ,
also eine Basis von V .
(a)=⇒(c). Für 1 ≤ i ≤ n ist nach Lemma 3.(b) stets vi ∈
/ hv1 , . . . , vbi , . . . , vn i und
insbesondere sind v1 , . . . , vbi , . . . , vn kein Erzeugendensystem von V .
(c)=⇒(a). Wäre vi ∈ hv1 , . . . , vbi , . . . , vn i für ein 1 ≤ i ≤ n, so wären auch die Vektoren
v1 , . . . , vbi , . . . , vn nach Lemma 2.(b) ein Erzeugendensystem von V , im Widerspruch zur
vorausgesetzten Minimalität von v1 , . . . , vn . Also ist vi ∈
/ hv1 , . . . , vbi , . . . , vn i für jedes
1 ≤ i ≤ n, und nach Lemma 3.(b) sind v1 , . . . , vn linear unabhängig, also eine Basis
von V .
Gibt es also überhaupt ein Erzeugendensystem v1 , . . . , vn von V , so können wir aus
diesem solange Vektoren rauswerfen bis wir zu einem minimalen Erzeugendensystem
kommen, und dieses ist dann eine Basis von V . Man kann also jedes Erzeugendensystem
eines Vektorraums zu einer Basis ausdünnen. Das eben bewiesene Lemma scheint auch
zu zeigen, dass man linear unabhängige Vektoren immer zu einer Basis ergänzen kann.
Angenommen wir starten mit linear unabhängigen Vektoren v1 , . . . , vn in V . Sind diese
maximal, so sind sie bereits eine Basis von V . Andernfalls kann man sie durch einen
Vektor vn+1 ∈ V zu einem linear unabhängigen System v1 , . . . , vn , vn+1 ergänzen. Ist
dieses System maximal, so haben wir wieder eine Basis von V . Andernfalls können
wir einen weiteren Vektor vn+2 ∈ V hinzufügen. Führen wir dies immer so weiter, so
sollten wir schließlich auf eine Basis von V stossen. Leider muss das nicht so sein, es
kann passieren das wir immer wieder einen neuen Vektor hinzufügen können, ohne je
zu einem Ende zu kommen. Wir werden zeigen, dass dies nur passieren kann wenn der
Vektorraum V zu groß“ ist. Sobald sich V von Vektoren w1 , . . . , wm erzeugen läßt,
”
195
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
muss das Verfahren zu einem Ende kommen. Zunächst führen wir einen Namen für
solche Vektorräume ein.
Definition 11.7: Ein Vektorraum V heißt endlich erzeugt wenn er ein Erzeugendensystem v1 , . . . , vn ∈ V besitzt.
Wie bereits gezeigt muss jedes solche eine Basis enthalten, und insbesondere hat jeder
endlich erzeugte Vektorraum eine Basis. Es wäre aber immer noch denkbar das es
unendlich lange Ketten linear unabhängiger Vektoren gibt, selbst wenn der Vektorraum
endlich erzeugt ist. Um einzusehen, dass dies nicht passieren kann beweisen wir gleich
den sogenannten Steinitzschen Austauchsatz. Die Hauptaussage dieses Satz ist ihnen
wohlbekannt, in den R2 passen nur zwei linear unabhängige Vektoren rein, in den R3
nur drei Stück und der Steinitzsche Austauschsatz verallgemeinert diese Tatsachen und
sagt unter anderem, dass in einem Vektorraum mit einer Basis aus n Vektoren auch
höchstens n linear unabhängige Vektoren hineinpassen.
Lemma 11.5 (Steinitzsches Austauschlemma für Vektorräume)
Seien V ein Vektorraum über K, w1 , . . . , wm ∈ V linear unabhängig und weiter seien
auch v1 , . . . , vn ∈ hw1 , . . . , wm i linear unabhängig. Dann ist n ≤ m und wir können n
der m Vektoren w1 , . . . , wm durch v1 , . . . , vn ersetzen so, dass das entstehende System
0
0
w10 , . . . , wm
linear unabhängig mit hw1 , . . . , wm i = hw10 , . . . , wm
i ist.
Beweis: Wir beweisen dies durch Induktion nach n. Für n = 0 ist die Behauptung
dabei klar. Nun sei n ∈ N und die Behauptung gelte für n linear unabhängige Vektoren v1 , . . . , vn ∈ hw1 , . . . , wm i. Wir kommen zum Induktionsschluß, seien also n + 1
linear unabhängige Vektoren v1 , . . . , vn+1 ∈ hw1 , . . . , wm i gegeben. Nach der Induktionsannahme ist n ≤ m und nach eventuellen Umnumerieren der w1 , . . . , wm können
wir annehmen, dass v1 , . . . , vn , wn+1 , . . . , wm linear unabhängig mit
hv1 , . . . , vn , wn+1 , . . . , wm i = hw1 , . . . , wm i
sind. Insbesondere ist
vn+1 ∈ hw1 , . . . , wm i = hv1 , . . . , vn , wn+1 , . . . , wm i,
also existieren Skalare λ1 , . . . , λm ∈ K mit
vn+1 =
n
X
λi v i +
i=1
m
X
λi wi .
i=n+1
Da v1 , . . . , vn+1 linear unabhängig sind, ist nach Lemma 3.(b) aber vn+1 ∈
/ hv1 , . . . , vn i
und damit kann nicht λn+1 = · · · = λm = 0 sein, d.h. es ist n + 1 ≤ m und es gibt
ein n < i ≤ m mit λi 6= 0. Durch ein weiteres eventuelles Umnumerieren der Vektoren wn+1 , . . . , wm können wir i = n + 1, also λn+1 6= 0 annehmen. Da die Vektoren
v1 , . . . , vn , wn+1 , . . . , wm linear unabhängig sind, ergibt die Eindeutigkeit der Darstellung von vn+1 als Linearkombination auch vn+1 ∈
/ hv1 , . . . , vn , wn+2 , . . . , wm i, also sind
196
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
v1 , . . . , vn , vn+1 , wn+2 , . . . , wm nach Lemma 3.(a) linear unabhängig. Wegen
wn+1 =
1
λn+1
−
n
X
λi vi + vn+1 −
i=1
m
X
!
λi wi
∈ hv1 , . . . , vn+1 , wn+2 , . . . , wm i
i=n+2
ist nach Lemma 2.(b) auch
hv1 , . . . , vn+1 , wn+2 , . . . , wm i = hv1 , . . . , vn , wn+1 , . . . , wm i = hw1 , . . . , wm i.
Damit ist die Behauptung auch für n + 1 bewiesen, und per vollständiger Induktion ist
damit alles gezeigt.
In einem endlichen erzeugten Vektorraum V hatten wir bereits gesehen, dass es stets
eine Basis gibt, und nach dem Steinitzschen Austauschlemma kann es in V keine beliebig großen Systeme linear unabhängiger Vektoren geben. Damit liefert die weiter oben
beschriebene Konstruktion, dass sich linear unabhängige Vektoren in V stets zu einer
Basis von V ergänzen lassen. Damit ist bereits der Hauptteil des nun folgenden Satzes
bewiesen.
Satz 11.6 (Existenz von Basen und Dimension)
Sei V ein endlich erzeugter Vektorraum über K.
(a) Es gibt eine Basis v1 , . . . , vn von V .
(b) Jedes Erzeugendensystem von V enthält eine Basis von V .
(c) Sind v1 , . . . , vn ∈ V linear unabhängig, so lassen sich diese Vektoren zu einer Basis
v1 , . . . , vm von V ergänzen.
(d) Sind v1 , . . . , vn und w1 , . . . , wm zwei Basen von V , so ist n = m.
Beweis: (b,c) Dies haben wir bereits eingesehen.
(a) Klar nach (b).
(d) Nach Lemma 5 sind n ≤ m und m ≤ n, also n = m.
Die nach dem Satz eindeutig bestimmte Länge einer Basis von V wird als die Dimension
des Vektorraums V bezeichnet.
Definition 11.8: Sei V ein endlich erzeugter Vektorraum. Die Dimension dim V von V
ist dann die nach Satz 6 eindeutig bestimmte Länge einer Basis von V .
Die oben eingeführten Vektoren e1 , . . . , en ∈ K n sind ein linear unabhängiges Erzeugendensystem des K n , also eine Basis. Diese Basis wird auch als die kanonische Basis
197
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
oder die Standardbasis des K n bezeichnet. Da die kanonische Basis aus n Elementen
besteht ist insbesondere dim K n = n. Ist
+ · · · + a1n xn
+ · · · + a2n xn
..
.
= 0
= 0
..
.
am1 x1 + am2 x2 + · · · + amn xn
= 0
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
ein homogenes lineares Gleichungssystem, und verbleiben nach Ablauf des Gaußschen
Eliminationsverfahrens r von Null verschiedene Zeilen, so haben wir oben eingesehen,
dass das Eliminationsverfahren uns dann ein Erzeugendensystem des Lösungsraums
U des Gleichungssystems liefert, das aus n − r linear unabhängigen Vektoren besteht.
Dieses Erzeugendensystem ist dann eine Basis von U , und insbesondere ist dim U =
n−r. Hieraus folgt insbesondere, dass das Gaußsche Eliminationsverfahren unabhängig
von den konkret gewählten Zeilenoperationen am Ende immer auf dieselbe Anzahl von
Null verschiedener Zeilen führt.
Ist die Dimension des endlich erzeugten Vektorraums V bereits bekannt, so läßt sich
die explizite Bestimmung von Basen rechnerisch noch etwas vereinfachen. Wollen wir
n Vektoren v1 , . . . , vn aus V ansehen ob sie eine Basis bilden, so muss man eigentlich
zeigen, dass sie zugleich linear unabhängig und ein Erzeugendensystem sind. Wenn
allerdings die Zahl n bereits die Dimension von V ist, also n = dim V , so reicht es eine
der beiden Bedingungen zu überprüfen, d.h. ein aus n = dim V Vektoren bestehendes
Erzeugendensystem ist automatisch auch linear unabhängig und n = dim V viele linear
unabhängige Vektoren bilden automatisch ein Erzeugendensystem. Diese Tatsachen
lassen sich leicht beweisen.
Korollar 11.7: Sei V ein endlich erzeugter Vektorraum und seien v1 , . . . , vn ∈ V .
(a) Sind v1 , . . . , vn ein Erzeugendensystem von V , so ist n ≥ dim V und v1 , . . . , vn ist
genau dann eine Basis von V wenn n = dim V ist.
(b) Sind v1 , . . . , vn linear unabhängig so ist n ≤ dim V und genau dann ist v1 , . . . , vn
eine Basis von V wenn n = dim V gilt.
Beweis: (a) Nach Satz 6.(b) bilden m ≤ n viele der Vektoren v1 , . . . , vn eine Basis von
V . Insbesondere ist n ≥ m = dim V und gilt n = dim V , so ist n = m und unsere
Vektoren bilden selbst eine Basis von V . Sind umgekehrt v1 , . . . , vn eine Basis von V ,
so ist n = dim V .
(b) Nach Satz 6.(c) lassen sich v1 , . . . , vn zu einer Basis v1 , . . . , vm von V ergänzen,
und insbesondere ist n ≤ m = dim V . Ist dabei n = dim V = m, so sind v1 , . . . , vn
selbst eine Basis von V . Ist umgekehrt v1 , . . . , vn als Basis von V vorausgesetzt, so ist
auch n = dim V .
198
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
Sind also insbesondere






a1n
a12
a11






v1 =  ...  , v2 =  ...  , . . . , vn =  ...  ,
ann
an2
an1
n Vektoren im K n , so ist v1 , . . . , vn genau dann eine Basis des K n , wenn das homogene
lineare Gleichungssystem
+ · · · + a1n xn
..
.
= 0
..
.
am1 x1 + · · · + amn xn
= 0
a11 x1
..
.
nur die triviale Lösung hat, und wie bereits gezeigt ist dies weiter genau dann der
Fall wenn das Gaußsche Eliminationsverfahren angewendet auf die n × n Matrix mit
den Spalten v1 , . . . , vn bis zur untersten Zeile durchläuft, also n von Null verschiedene
Zeilen liefert. Wir wollen dies an einem kleinen Beispiel im R3 illustrieren. Betrachte
etwa die drei Vektoren






1
−1
0
v1 :=  −1  , v2 :=  −1  , v3 :=  3  .
0
1
−1
Um zu überprüfen, ob diese eine Basis sind können wir also die Matrix A mit Spalten v1 , v2 , v3 hinschreiben, und lassen dann das Gaußsche Eliminationsverfahren auf A
laufen. Kommt dieses bei der untersten Zeile an, tritt also vorher keine nur aus Nullen bestehende Zeile auf, so sind die drei Vektoren eine Basis des R3 und sonst nicht.
Führen wir dies einmal durch
1 −1
0
1 −1
0
1 −1 0
−1 −1
3 → 0 −2
3 → 0 −2 3
0
1 −1
0
1 −1
0
0 12 .
Die Stufenform hat also drei von Null verschiedene Zeilen, und somit bilden v1 , v2 , v3
eine Basis des R3 .
11.4
Koordinatentransformationen
Sei V ein endlich erzeugter Vektorraum und bezeichne n = dim V seine Dimension.
Weiter sei v1 , . . . , vn eine Basis von V . Dann können wir jeden Vektor v ∈ V in eindeutiger Weise als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, man nennt
λ1 , . . . , λn ∈ K dann die Koordinaten des Vektors v bezüglich der Basis v1 , . . . , vn .
Diese Koordinaten hängen natürlich von der gewählten Basis ab, verwenden wir eine andere Basis, so ergeben sich auch andere Koordinaten. Wir wollen uns überlegen
wie die Koordinaten eines Vektors bezüglich verschiedener Basen miteinander zusammenhängen. Zu diesem Zweck ist es hilfreich die sogenannten Koordinatenabbildungen
199
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
einzuführen, diese ordnen den Koordinaten λ1 , . . . , λn ihren zugehörigen Vektor zu. In
anderen Worten ist die Koordinatenabbildung Ψ bezüglich der Basis v = (v1 , . . . , vn )
die bijektive Abbildung
n
Ψ : K → V ; (λ1 , . . . , λn ) 7→
n
X
λi v i .
i=1
Wir schreiben Ψ = Ψv für die Koordinatenabbildung von V bezüglich der Basis v =
(v1 , . . . , vn ) wenn wir die betrachtete Basis in der Notation hervorheben wollen. Ist
beispielsweise V = K n und e := (e1 , . . . , en ) die kanonische Basis des K n , so ist die
zugehörige Koordinatenabbildung durch


x1


Ψ(x) = x1 e1 + · · · + xn en =  ... 
xn
gegeben, d.h. Ψe = idK n ist die identische Abbildung. Ist dagegen






1
−1
0
v1 :=  −1  , v2 :=  −1  , v3 :=  3 
0
1
−1
die schon oben als Beispiel verwendete Basis des R3 , so ist die zugehörige Koordinatenabbildung gegeben als





 

1
−1
0
x−y
Ψ(x, y, z) = x ·  −1  + y ·  −1  + z ·  3  =  3z − x − y  .
0
1
−1
y−z
Zu verschiedenen Basen eines Vektorraums gehören auch verschiedene Koordinatenabbildungen, und wir wollen uns jetzt überlegen wie genau sich diese Koordinatenabbildungen unterscheiden.
Definition 11.9 (Transformationsmatrizen)
Sei V ein endlich erzeugter Vektorraum und seien v1 , . . . , vn sowie w1 , . . . , wn zwei
Basen von
. Für jedes 1 ≤ i ≤ n können wir dann vi bezüglich der Basis w1 , . . . , wn
PV
n
als vi = j=1 aji wj mit a1i , . . . , ani ∈ K schreiben, und mit diesen Zahlen bilden wir
die Matrix


a11 · · · a1n


A :=  ... . . . ...  .
an1 · · · ann
Diese Matrix ist dann die Transformationsmatrix oder Übergangsmatrix von der Basis
v1 , . . . , vn zur Basis w1 , . . . , wn von V .
Die Transformationsmatrix A überführt die Koordinaten bezüglich der ersten Basis
v = (v1 , . . . , vn ) in diejenigen bezüglich der anderen Basis w = (w1 , . . . , wn ). Damit
200
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
ist die folgende Beobachtung gemeint. Angenommen wir haben einen Vektor u ∈ V ,
der bezüglich der Basis v1 , . . . , vn die Koordinaten x1 , . . . , xn hat, also u = Ψv (x),
beziehungsweise u = x1 v1 + · · · + xn vn . Setzen wir hier die Darstellung von vi für
i = 1, . . . , n bezüglich der Basis w ein, so ergibt sich
!
n
n X
n
n
n
n
X
X
X
X
X
u=
xi vi =
aji xi wj =
aji xi wj =
(Ax)j wj ,
i=1
i=1 j=1
j=1
i=1
j=1
d.h. der Koordinatenvektor y ∈ K n von u bezüglich der Basis w ist gerade y = Ax. In
anderen Worten haben wir
Ψv (x) = Ψw (Ax)
für jedes x ∈ K n . Die Transformation von v- auf w-Koordinaten erfolgt also durch
Multiplikation mit der Transformationsmatrix zwischen v und w. Die Transformationsmatrix A ist immer invertierbar und ihre Inverse A−1 ist gerade die Transformationsmatrix in der anderen Richtung, also von der Basis w1 , . . . , wn von V zur Basis
v1 , . . . , vn von V .
Satz 11.8 (Invertierbarkeit der Transformationsmatrix)
Seien V ein endlich erzeugter Vektorraum, v1 , . . . , vn sowie w1 , . . . , wn zwei Basen von
V und bezeichne A ∈ K n×n die Transformationsmatrix von der Basis v1 , . . . , vn zur
Basis w1 , . . . , wn . Dann ist A invertierbar und die Inverse A−1 ist die Transformationsmatrix von der Basis w1 , . . . , wn zur Basis v1 , . . . , vn .
Beweis: Sei B die Transformationsmatrix von der Basis w = (w1 , . . . , wn ) zur Basis
v = (v1 , . . . , vn ). Für jedes x ∈ K n gilt
Ψv (x) = Ψw (Ax) = Ψv (BAx),
also BAx = x da Ψv bijektiv ist. Für jedes 1 ≤ i ≤ n ist die i-te Spakte von BA gleich
dem Vektor BAei = ei , also haben wir BA = 1. Analog folgt AB = 1 und damit ist A
invertierbar mit A−1 = B.
11.5
Lineare Abbildungen
Wir wollen jetzt einen der wichtigsten Begriffe der linearen Algebra einführen, die
sogenannten linearen Abbildungen. Dies sind Abbildungen zwischen Vektorräumen die
die additive und multiplikative Struktur des Vektorraums erhalten.
Definition 11.10: Seien V, W zwei Vektorräume über K. Eine Abbildung f : V → W
heißt linear, wenn sie die folgenden beiden Bedingungen erfüllt:
(L1) Für alle x, y ∈ V ist f (x + y) = f (x) + f (y).
201
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
(L2) Für alle x ∈ V , λ ∈ K ist f (λx) = λf (x).
Wir wollen kurz einige Beispiele linearer Abbildungen angeben.
1. Die Abbildung

x
f : R3 → R;  y  7→ x + y + z
z

ist linear. Für alle x, y ∈ R3 , λ ∈ R gelten nämlich

 



x1
y1
x1 + y1
f (x + y) = f  x2  +  y2  = f  x2 + y2 
x3
y3
x3 + y3
= (x1 + y1 ) + (x2 + y2 ) + (x3 + y3 ) = (x1 + x2 + x3 ) + (y1 + y2 + y3 )
= f (x) + f (y)
und



λx1
x1
f (λx) = f λ ·  x2  = f  λx2  = λx1 + λx2 + λx3
λx3
x3


= λ · (x1 + x2 + x3 ) = λf (x).
Im nächsten Kapitel werden wir lineare Abbildungen f : K n → K m etwas näher
untersuchen.
2. Sei M eine Menge und bezeichne V := K M den Vektorraum aller Funktionen
von M nach K. Weiter sei x ∈ M ein Element von M . Dann ist die Abbildung
ωx : V → K; f 7→ f (x)
linear. In der Tat, sind f, g ∈ V und λ ∈ K, so gelten
ωx (f + g) = (f + g)(x) = f (x) + g(x) = ωx (f ) + ωx (g)
und
ωx (λf ) = (λf )(x) = λf (x) = λωx (f ).
3. Ist V der Vektorraum aller konvergenten Folgen in K, so ist die Abbildung
lim : V → K; (an )n∈N 7→ lim an
n→∞
linear. Dies ist gerade eine Umformulierung von §6.Satz 6.(a,b).
202
Mathematik für Physiker I, WS 2010/2011
Freitag 21.1.2011
4. Sind U, V, W drei Vektorräume über K und f : V → W , g : W → U zwei lineare
Abbildungen, so ist auch die Hintereinanderausführung g ◦f : V → U eine lineare
Abbildung. Sind nämlich x, y ∈ V und λ ∈ K, so haben wir
(g ◦ f )(x + y) = g(f (x + y)) = g(f (x) + f (y)) = g(f (x)) + g(f (y))
= (g ◦ f )(x) + (g ◦ f )(y)
und
(g ◦ f )(λx) = g(f (λx)) = g(λf (x)) = λg(f (x)) = λ · (g ◦ f )(x).
5. Sind V ein endlich erzeugter Vektorraum und v1 , . . . , vn eine Basis von V , so ist
die Koordinatenabbildung Ψ : K n → V bezüglich der Basis v1 , . . . , vn eine lineare
Abbildung. Für x, y ∈ K n , λ ∈ K rechnen wir
Ψ(x + y) =
n
X
(xi + yi )vi =
i=1
und
Ψ(λx) =
n
X
xi vi +
i=1
n
X
λxi vi = λ ·
n
X
yi vi = Ψ(x) + Ψ(y)
i=1
n
X
xi vi = λΨ(x).
i=1
i=1
Wir starten jetzt mit der Auflistung einiger unmittelbar aus der Definition folgender
Tatsachen über lineare Abbildungen.
Lemma 11.9 (Grundeigenschaften linearer Abbildungen)
Seien V, W zwei Vektorräume über K und f : V → W eine lineare Abbildung. Dann
gelten:
(a) Es ist f (0) = 0.
(b) Das Bild Bild(f ) := f (V ) = {f (x)|x ∈ V } von V ist ein Untervektorraum von W .
(c) Ist v1 , . . . , vn ein Erzeugendensystem von V , so ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ).
(d) Ist V endlich erzeugt, so ist auch Bild(f ) endlich erzeugt mit dim Bild(f ) ≤ dim V .
(e) Die Menge Kern(f ) := f −1 ({0}) = {x ∈ V |f (x) = 0} ist ein Untervektorraum von
V.
(f ) Genau dann ist die Abbildung f : V → W injektiv wenn Kern(f ) = {0} ist.
Beweis: (a) Es ist f (0) = f (0 + 0) = f (0) + f (0), also f (0) = 0.
(b) Nach (a) ist 0 ∈ Bild(f ). Sind u, v ∈ Bild(f ) und λ ∈ K, so existieren x, y ∈ V mit
f (x) = u und f (y) = v, also ist auch u + v = f (x) + f (y) = f (x + y) ∈ Bild(f ) und
203
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
λu = λf (x) = f (λx) ∈ Bild(f ). Damit ist das Bild Bild(f ) von f ein Untervektorraum
von W .
(c) Sei u ∈ Bild(f ). Dann existiert ein v ∈ V mit u = f (v) und da v1 , . . . , vn ein
Erzeugendensyszem von V ist, existieren weiter λ1 , . . . , λn ∈ K mit v = λ1 v1 + · · · +
λn vn . Damit ist auch
u = f (v) = f (λ1 v1 + · · · + λn vn ) = λ1 f (v1 ) + · · · + λn f (vn ).
Dies zeigt, dass f (v1 ), . . . , f (vn ) ein Erzeugendensystems des Bilds von f ist.
(d) Klar nach (c) und Korollar 7.(a).
(e) Nach (a) ist 0 ∈ Kern(f ). Sind x, y ∈ Kern(f ) und λ ∈ K, so haben wir auch
f (x + y) = f (x) + f (y) = 0 und f (λx) = λf (x) = 0, also x + y ∈ Kern(f ) und
λx ∈ Kern(f ). Damit ist der Kern Kern(f ) von f ein Untervektorraum von V .
(g) ”=⇒” Klar nach (a).
”⇐=” Seien x, y ∈ V mit f (x) = f (y). Dann ist auch f (x − y) = f (x) − f (y) = 0, also
x − y ∈ Kern(f ) = {0}, und es folgt x = y. Also ist f : V → W injektiv.
Vorlesung 21, Montag 24.1.2011
Am Ende der letzten Sitzung hatten wir die sogenannten linearen Abbildungen
f : V → W zwischen zwei Vektorräumen eingeführt, und einige ihrer direkt aus der
Definition ersichtlichen Eigenschaften aufgelistet. Insbesondere hatten wir das Bild
Bild(f ) := f (V ) = {f (x)|x ∈ V }
und den Kern
Kern(f ) := {x ∈ V |f (x) = 0}
einer solcgen linearen Abbildung definiert. Das Bild mißt sozusagen die Surjektivität
einer linearen Abbildung, denn f ist genau dann surjektiv wenn Bild(f ) = W ist. Auf
der anderen Seite mißt der Kern die Injektivität, in Lemma 9.(g) wurde festgehalten
das f genau dann injektiv ist wenn Kern(f ) = {0} ist. Im verbleibenden Teil dieses
Abschnitts wollen wir die grundlegende Dimensionsformel herleiten, die einen Zusammenhang zwischen der Größe von Kern und Bild einer linearen Abbildung herstellt.
Von besonderen Interesse werden die sogenannten Isomorphismen sein, dies sind lineare
Abbildungen die zugleich surjektiv und injektiv, also bijektiv sind.
Definition 11.11 (Isomorphismen von Vektorräumen)
Seien V, W zwei Vektorräume über K. Ein Isomorphismus von V nach W ist eine
bijektive lineare Abbildung f : V → W . Weiter nennen wir die Vektorräume V und W
isomorph, geschrieben als V ' W , wenn es einen Isomorphismus von V nach W gibt.
204
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
Wir kennen bereits einige Beispiele von Isomorphismen, nur dass wir diese bisher nicht
so genannt haben. Ist etwa v1 , . . . , vn eine Basis von V , so ist die Koordinatenabbildung
n
Ψ : K → V ; x 7→
n
X
xi vi
i=1
bijektiv und linear, also ein Isomorphismus. An diesem Beispiel kann man schön sehen,
dass Isomorphismen im wesentlichen ein Übersetzungsmechanismus“ sind. Wollen wir
”
irgendetwas im Vektorraum V untersuchen, so können wir dies entweder in V selbst
tun, oder alles in Termen der Koordinaten bezüglich der Basis v1 , . . . , vn rechnen. Beide
Sichtweisen sind völlig gleichwertig und der Isomorphismus Ψ stellt die Übersetzung
zwischen ihnen her. Isomorphe Vektorräume sind also im wesentlichen gleich, und ein
Isomorphismus beschreibt in welchem Sinne sie gleich sind.
Wir wollen auch noch ein etwas komplizierteres Beispiel eines Isomorphismus besprechen. Bei unserer Untersuchung von Reihen in §7 hatten wir den Reihenbegriff
über den Begriff der Partialsummen wieder auf Folgen zurückgeführt. Wir können uns
das Bilden der Partialsummen also als eine Übersetzung zwischen Folgen und Reihen
vorstellen, und dies ist in Wahrheit ein Beispiel eines Isomorphismus von Vektorräumen. Sei hierzu K ∈ {R, C} und betrachte den Vektorraum V := K N aller Folgen in
K.
P∞Einen eigenen ”Reihenvektorraum“ führen wir nicht ein, wir denken uns die Reihe
n=0 an als die Folge (an )n∈N ihrer Summanden. Die Partialsummen sind dann die
Abbildung
!
n
X
Σ : V → V ; (an )n∈N 7→
ak
.
k=0
n∈N
Die Abbildung Σ ist linear und auch bijektiv, also ein Isomorphismus. Zum Nachweis
der Bijektivität können wir gemäß §3.Lemma 3 die Umkehrabbildung hinschreiben, und
diese ist durch die Differenzenabbildung ∆ : V → V gegeben, die eine Folge (an )n∈N
auf die durch
(
an − an−1 , n ≥ 1,
0
an :=
a0 ,
n=0
gegebene Folge (a0n )n∈N abbildet. Den expliziten Nachweis dieser Behauptungen können
Sie als eine Übungsaufgabe betrachten. Nach diesen Beispielen kommen wir nun zu
einem allgemeinen Satz über das Verhalten von Basen und Dimension unter Isomorphismen.
Lemma 11.10 (Grundeigenschaften von Isomorphismen)
Seien V, W zwei Vektorräume über K und f : V → W eine lineare Abbildung.
(a) Ist f ein Isomorphismus, so ist auch die Umkehrabbildung f −1 : W → V ein
Isomorphismus.
(b) Sei v1 , . . . , vn eine Basis von V . Dann ist f genau dann ein Isomorphismus wenn
f (v1 ), . . . , f (vn ) eine Basis von W ist. Insbesondere ist dann auch W endlich
erzeugt mit dim V = dim W .
205
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
Beweis: (a) Es ist nur zu zeigen, dass f −1 : W → V wieder eine lineare Abbildung ist.
Seien also x, y ∈ W und λ ∈ K gegeben. Dann ist
f −1 (x+y) = f −1 (f (f −1 (x))+f (f −1 (y))) = f −1 (f (f −1 (x)+f −1 (y))) = f −1 (x)+f −1 (y)
und
f −1 (λx) = f −1 (λf (f −1 (x))) = f −1 (f (λf −1 (x))) = λf −1 (x),
und damit ist f −1 eine lineare Abbildung.
(b) Die zweite Aussage ist eine unmittelbare Folgerung der ersten Aussage, es reicht
also letztere zu beweisen.
”=⇒” Sei also f ein Isomorphismus. Nach Lemma 9.(c) ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ) = W , es ist also nur noch zu zeigen,
P dass diese Vektoren
auch linear unabhängig sind. Hierzu seien λ1 , . . . , λn ∈ K mit ni=1 λi f (vi ) = 0 gegeben. Dann ist auch
!
n
n
X
X
λi f (vi ) = 0 = f (0)
f
λi v i =
i=1
i=1
Pn
nach Lemma 9.(a), also ist auch
i=1 λi vi = 0. Da die Vektoren v1 , . . . , vn linear
unabhängig sind, folgt λ1 = · · · = λn = 0. Damit sind auch f (v1 ), . . . , f (vn ) in W
linear unabhängig.
”⇐=” Nun nehmen wir an, dass die Vektoren f (v1 ), . . . , f (vn ) eine Basis von W bilden.
Nach Lemma 9.(c) ist dann
Bild(f ) = hf (v1 ), . . . , f (vn )i = W,
d.h. f : V → W ist zumindest surjektiv. Nun sei vP∈ Kern(f ) ein Vektor im Kern von
f , also f (v) = 0. Es gibt λ1 , . . . , λn ∈ K mit v = ni=1 λi vi . Wegen
!
n
n
X
X
λi f (vi ) = f
λi vi = f (v) = 0,
i=1
i=1
ergibt
Pndie lineare Unabhängigkeit von f (v1 ), . . . , f (vn ) auch λ1 = · · · = λn = 0, also
v = i=1 λi vi = 0. Dies zeigt Kern(f ) = {0} und nach Lemma 9.(f) ist f auch injektiv.
Insgesamt ist f damit bijektiv, also ein Isomorphismus.
Als nächstes Ziel wollen wir die schon erwähnte Dimensionsformel ansteuern. Diese
wird insbesondere implizieren, dass es für eine lineare Abbildung f : V → W zwischen
Vektorräumen gleicher Dimension, zum Test auf Isomorphie ausreicht zu zeigen, dass f
injektiv oder surjektiv ist, die andere Bedingung folgt dann automatisch. Zum Beweis
der Dimensionsformel benötigen wir eine Hilfsaussage über Untervektorräume, die wir
jetzt festhalten wollen.
Lemma 11.11: Seien V ein endlich erzeugter Vektorraum über K und U ≤ V ein
Untervektorraum von V . Dann ist auch U endlich erzeugt mit m := dim U ≤ dim V =:
206
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
n und es gibt eine Basis v1 , . . . , vn von V mit U = hv1 , . . . , vm i. Es ist genau dann
dim U = dim V wenn U = V gilt.
Beweis: Nach Korollar 7.(b) ist für jedes System v1 , . . . , vr linear unabhängiger Vektoren aus U stets r ≤ n. Damit existiert ein System v1 , . . . , vm linear unabhängiger
Vektoren in U der maximal möglichen Länge m ≤ n. Insbesondere sind diese Vektoren
maximal linear unabhängig in U , also ist v1 , . . . , vm nach Lemma 4 eine Basis von U .
Insbesondere ist U endlich erzeugt mit dim U = m ≤ n = dim V . Nach Satz 6.(c)
lassen sich die Vektoren v1 , . . . , vm zu einer Basis v1 , . . . , vn von V ergänzen. Es ist
U = hv1 , . . . , vm i und im Fall m = n haben wir damit sogar U = hv1 , . . . , vn i = V .
Damit ist jetzt möglich die Dimensionsformel zu beweisen.
Satz 11.12 (Dimensionsformel für lineare Abbildungen)
Seien V, W zwei endlich erzeugte Vektorräume über K und f : V → W eine lineare
Abbildung. Dann gilt
dim Bild(f ) + dim Kern(f ) = dim V .
Beweis: Nach Lemma 9.(e) und Lemma 11 existiert eine Basis v1 , . . . , vn von V mit
Kern(f ) = hv1 , . . . , vm i wobei m = dim Kern(f ) ist. Wir behaupten, dass die Vektoren
f (vm+1 ), . . . , f (vn ) eine Basis des Bilds von f sind. Nach Lemma 9.(c) sind die Vektoren
f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ), und wegen f (v1 ) = · · · = f (vm ) =
0 ist auch f (vm+1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ). Es bleibt also nur
noch diePlineare Unabhängigkeit dieser Vektoren zu zeigen. Seien hierzu λm+1 , . . . , λn ∈
K mit ni=m+1 λi f (vi ) = 0 gegeben. Dann ist auch
!
n
n
X
X
λi f (vi ) = 0,
f
λi v i =
i=m+1
also
n
X
i=m+1
λi vi ∈ Kern(f ) = hv1 , . . . , vm i.
i=m+1
Pn
P
P
Also existieren λ1 , . . . , λm ∈ K mit ni=m+1 λi vi = − m
i=1 λi vi , also auch
i=1 λi vi =
0. Da die Vektoren v1 , . . . , vn linear unabhängig sind, bedeutet dies λ1 = · · · = λn = 0,
also insbesondere λm+1 = · · · = λn = 0. Damit sind die Vektoren f (vm+1 ), . . . , f (vn )
linear unabhängig, und bilden somit eine Basis von Bild(f ). Es folgt
dim Bild(f ) = n − m = dim V − dim Kern(f ).
207
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
Eine wichtige Konsequenz der Dimensionsformel betrifft lineare Abbildungen zwischen
zwei endlich erzeugten Vektorräumen derselben Dimension. Es stellt sich heraus das
für eine solche Abbildung die Begriffe injektiv“ und surjektiv“ gleichwertig sind, eine
”
”
surjektive oder injektive lineare Abbildung ist dann also schon ein Isomorphismus.
Korollar 11.13: Seien V, W zwei endlich erzeugte Vektorräume über K mit dim V =
dim W und sei f : V → W eine lineare Abbildung. Dann sind die folgenden Aussagen
äquivalent:
(a) Die Abbildung f ist ein Isomorphismus.
(b) Die Abbildung f ist surjektiv.
(c) Die Abbildung f ist injektiv.
Beweis: Es reicht die Äquivalenz von (b) und (c) zu zeigen. Nach Lemma 9.(f) und
Lemma 11 bestehen die Äquivalenzen:
f ist injektiv ⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
Kern(f ) = {0}
dim Kern(f ) = 0
dim V = dim Bild(f )
dim W = dim Bild(f )
W = Bild(f )
f ist surjektiv.
$Id: cartesisch.tex,v 1.7 2011/08/17 20:39:28 hk Exp $
§12
Der Vektorraum K n
In Aufgabe (46) wird gezeigt, dass zwei endlich erzeugte Vektorräume über K ∈
{R, C} genau dann isomorph sind, wenn sie dieselbe Dimension haben. Insbesondere ist
damit ein beliebiger n-dimensionaler Vektorraum V über K isomorph zum Vektorraum
K n der Spaltenvektoren mit n Einträgen. In gewissen Sinne ist der K n damit der allge”
meine“ n-dimensionale Vektorraum über K. Eine besondere Bedeutung hat natürlich
der R3 zur Beschreibung des gewöhnlichen“ Raums. Aber auch der Rn für andere
”
Werte von n spielt oftmals eine Rolle bei der Beschreibung räumlicher Vorgänge. Will
208
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
man beispielsweise den vollständigen Zustand eines sich bewegenden Massepunktes beschreiben, so brauchen wir sowohl drei Koordinaten zur Beschreibung seiner Position
als auch drei Koordinaten für seinen Geschwindigkeitsvektor, insgesamt hat man dann
einen Vektor im R6 .
12.1
Affine Teilräume des K n
Wir beginnen mit der Definition der üblichen geometrischen Objekte, wie Geraden
und Ebenen. Wie wir sehen werden könnte man diese auf exakt dieselbe Weise auch in
einem allgemeinen Vektorraum definieren, wir wollen uns hier aber auf den Spezialfall
des Vektorraums K n beschränken. Als Startpunkt behandeln wir Ursprungsgeraden
im K n , also Geraden die durch den Nullpunkt gehen. Eine solche Gerade l ist durch
einen von Null verschiedenen Richtungsvektor v ∈ K n \{0} bestimmt, und die Gerade
l besteht dann gerade aus den Vielfachen von v, also
l = {tv|t ∈ K} = hvi.
In anderen Worten sind die Ursprungsgeraden genau die eindimensionalen Untervektorräume des K n . Für Ebenen e durch den Ursprung erhalten wir ein ähnliches Ergebis, solche Mengen werden von zwei linear unabhängigen Richtungsvektoren u, v
aufgespannt
e = {tu + sv|t, s ∈ K} = hu, vi,
es handelt sich also genau um die zweidimensionalen Untervektorräume des K n . Allgemeine Geraden beziehungsweise Ebenen erhalten wir durch Verschieben der Ursprungsgeraden. Die entstehenden Teilmengen des K n sind die sogenannten affinen Teilräume
eines Vektorraums.
Definition 12.1 (Affine Teilräume eines Vektorraums)
Sei V ein Vektorraum über K. Eine Teilmenge A ⊆ V heißt ein affiner Teilraum von
V , wenn A = ∅ ist oder es einen Vektor v ∈ V und einen Teilraum U ≤ V von V mit
A = v + U = {v + u|u ∈ U }
gibt.
Ob man die leere Menge als einen affinen Teilraum betrachten will, ist weitgehend
eine Geschmacksfrage und wird nicht einheitlich gehandhabt. Den Vektor v nennt man
in diesem Zusammenhang auch einen Aufpunkt des affinen Teilraums A. Der Teilraum
U in der Definition eines nichtleeren affinen Teilraums A eines Vektorraums V ist
eindeutig bestimmt. Nehme nämlich an, wir hätten zwei Teilräume U1 , U2 ≤ V und
zwei Aufpunkte v1 , v2 ∈ V mit A = v1 + U1 = v2 + U2 . Wegen
v2 = v2 + 0 ∈ v2 + U2 = v1 + U1
ist dann v2 − v1 ∈ U1 und für jedes u ∈ U2 gibt es wegen v2 + u ∈ v2 + U2 = v1 + U1
ein u0 ∈ U1 mit v2 + u = v1 + u0 , also auch u = u0 − (v2 − v1 ) ∈ U1 . Dies zeigt U2 ⊆ U1 .
209
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
Analog folgt auch U1 ⊆ U2 , es ist also U1 = U2 . Man nennt den eindeutig bestimmten
Teilraum U ≤ V die Richtung des affinen Teilraums A von V . Insbesondere können
wir damit die Dimension eines affinen Teilraums A eines Vektorraums V als
(
dim U, wenn A = v + U mit v ∈ V , U ≤ V ,
dim A :=
−1,
wenn A = ∅
definieren. Hiermit definieren wir jetzt:
(a) Eine Gerade im K n ist ein eindimensionaler affiner Teilraum des K n ,
(b) Eine Ebene im K n ist ein zweidimensionaler affiner Teilraum des K n ,
(c) und eine Hyperebene im K n ist ein (n − 1)-dimensionaler affiner Teilraum des K n .
Im K 2 sind also Hyperebenen und Geraden dasselbe und im K 3 sind Ebenen und
Hyperebenen dasselbe. Wir gewohnt kann man eine Gerade durch einen Aufpunkt
und einen Richtungsvektor angeben, und eine Ebene durch einen Aufpunkt und zwei
Richtungsvektoren. Die Richtungsvektoren sind dabei nicht eindeutig festgelegt, aber
der von ihnen aufgespannte Untervektorraum ist eindeutig bestimmt, er ist ja gerade
die Richtung des affinen Teilraums. Als Aufpunkt kann man dagegen einen beliebigen
Punkt des affinen Teilraums nehmen, d.h. ist A 6= ∅ ein affiner Teilraum von V mit
Richtung U ≤ V und v ∈ A ein beliebiger Punkt von A, so ist A = v + U . Nach
Definition eines affinen Teilraums gibt es nämlich überhaupt einen Vektor w ∈ V mit
A = w + U . Wegen v ∈ A gibt es weiter einen Vektor u ∈ U mit v = w + u. Da U
ein Untervektorraum von V ist, gilt u + U ⊆ U und wegen −u ∈ U auch −u ∈ U also
−u + U ⊆ U und somit U ⊆ u + U . Dies zeigt u + U = U , und somit folgt auch
A = w + U = w + u + U = v + U.
Im R3 ist der Schnitt einer Ebene und einer Geraden normalerweise ein Punkt und
der Schnitt zweier Ebenen normalerweise eine Gerade. Es gibt natürlich auch Ausnahmefälle wie parallele Ebenen, was die allgemeine Situation etwas verkompliziert. Wir
wollen einen Satz über das Schnittverhalten affiner Teilräume herleiten. Der Hauptteil
hiervon ist in Aufgabe (47) enthalten, dort ist zu zeigen das für zwei Teilräume U, W
eines endlich erzeugten Vektorraums V die Dimensionsformel
dim(U ∩ V ) + dim(U + W ) = dim U + dim W
gilt. Die affine Schnittdimensionsformel ist etwas komplizierter, da die Summe“ affiner
”
Teilräume von ihrer Lage zueinander abhängt. Beispielsweise können sich nicht schneidende Geraden im R3 entweder parallel oder windschief sein, im ersten Fall erzeugen
sie eine Ebene und im zweiten Fall den ganzen R3 . Im oben erwähnte Normalfall“
”
haben die Richtungen der beiden Teilräume eine Summe größtmöglicher Dimension,
beziehungsweise gleichwertig einen Schnitt kleinstmöglicher Dimension.
Satz 12.1 (Schnitte affiner Teilräume)
Sei V ein endlich erzeugter Vektorraum über K und seien A, B ⊆ V zwei affine
Teilräume von V .
210
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
(a) Die Menge A ∩ B ist wieder ein affiner Teilraum von V .
(b) Ist v ∈ A ∩ B und bezeichnet U die Richtung von A und W die Richtung von B,
so ist AB := v + (U + W ) der kleinste A und B enthaltende affine Teilraum von
V . Insbesondere ist AB unabhängig vom speziell gewählten v ∈ A ∩ B.
(c) Ist A ∩ B 6= ∅, so gilt die Dimensionsformel
dim(A ∩ B) + dim(AB) = dim A + dim B.
Beweis: Ist A ∩ B = ∅, so ist A ∩ B trivialerweise ein affiner Teilraum von V , wir
können also A ∩ B 6= ∅ annehmen. Wähle v ∈ A ∩ B. Zunächst behaupten wir, dass
A ∩ B = v + (U ∩ W )
gilt. Es ist v + (U ∩ W ) ⊆ v + U = A und ebenso v + (U ∩ W ) ⊆ B, also v + (U ∩ W ) ⊆
A ∩ B. Nun sei umgekehrt x ∈ A ∩ B = (v + U ) ∩ (v + W ). Dann existieren u ∈ U ,
w ∈ W mit x = v + u und x = v + w. Insbesondere ist u = x − v = w ∈ U ∩ W ,
also x = v + u ∈ v + (U ∩ W ). Damit ist diese Aussage bewiesen, und insbesondere ist
A ∩ B ein affiner Teilraum von V mit Richtung U ∩ W .
Wir kommen jetzt zu Aussage (b). Zunächst ist v+(U +W ) ⊆ V ein affiner Teilraum
von A = v +U ⊆ v +(U +W ) und B = v +W ⊆ v +(U +W ). Ist andererseits C ⊆ V ein
beliebiger affiner Teilraum von V mit A, B ⊆ C, so ist insbesondere v ∈ A∩B ⊆ A ⊆ C,
also C = v + T mit einem Teilraum T ≤ V , und wegen v + U = A ⊆ C = v + T und
v + W = B ⊆ C = v + T , sind auch U, W ⊆ T , also U + W ⊆ T und v + (U + W ) ⊆
v + T = C. Damit ist (b) bewiesen, und die Dimensionsformel ergibt sich jetzt mit der
Dimensionsformel für Untervektorräume
dim(A∩B)+dim(AB) = dim(U ∩W )+dim(U +W ) = dim U +dim W = dim A+dim B.
Angenommen wir wollen wissen was normalerweise der Durchschnitt zweier dreidimensionaler affiner Teilräume A, B des R5 ist. Im Regelfall ist AB = R5 und A ∩ B 6= ∅,
und die Dimensionsformel besagt damit dim(A ∩ B) = 2 · 3 − 5 = 1, d.h. zwei solche
Räume schneiden sich in der Regel in einer Geraden.
Wir können unsere bisher erzielten Ergebnisse über lineare Gleichungssysteme jetzt
in der Sprache affiner Teilräume formulieren, und erhalten den folgenden Satz.
Satz 12.2 (Lösungsräume linearer Gleichungssysteme)
Seien K ∈ {R, C}, n, m ∈ N mit n, m ≥ 1 und betrachte ein lineares Gleichungssystem
Ax = b mit aus m Gleichungen in n Unbekannten mit Koeffizientenmatrix A ∈ K m×n
und rechter Seite b ∈ K m . Weiter sei r die Anzahl von Null verschiedener Zeilen nach
Anwendung des Gaußsschen Eliminationsverfahrens auf A. Dann hat Ax = b entweder
211
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
keine Lösung oder die Menge L := {x ∈ K n |Ax = b} ist ein (n − r)-dimensionaler affiner Teilraum des K n , dessen Richtung die Lösungsmenge des zugehörigen homogenen
linearen Gleichungssystems Ax = 0 ist.
Beweis: Dies ist klar nach §9.Satz 3 und unseren Überlegungen zur Dimension des
Lösungsraums eines homogenen linearen Gleichungssystems in §11.3.
Umgekehrt ist jeder affine Teilraum des K n als Lösungsraum eines linearen Gleichungssystems mit n Unbekannten darstellbar. Für den leeren affinen Teilraum ist dies klar,
wir betrachten also einen affinen Teilraum T ⊆ K n der Dimension m mit 0 ≤ m ≤ n.
Sei U ≤ K n die Richtung von T und wähle einen Aufpunkt a ∈ T . Nach §11.Lemma
11 existiert eine Basis v1 , . . . , vn des K n mit U = hv1 , . . . , vm i. Sei C die Transformationsmatrix von der kanonischen Basis e1 , . . . , en des K n zur Basis v1 , . . . , vn . Ein Vektor
v ∈ K n liegt genau dann in U wenn die hinteren n − m Koordinaten von v bezüglich
der Basis v1 , . . . , vn gleich Null sind. Ist also A die aus den unteren m − n Zeilen von C
bestehende (n−m)×n Matrix über K, so ist U genau der Lösungsraum des homogenen
linearen Gleichungssystems Ax = 0. Verwenden wir dann b := Aa ∈ K n−m als rechte
Seite, so ist T genau der Lösungsraum von Ax = b.
Das beschriebene Verfahren ist effektiv leicht durchführbar. Wir nehmen an die
Richtung U des affinen Teilraums ist gegeben. Dann bestimmt man eine Basis v1 , . . . , vm
von U . Ist U beispielsweise durch ein Erzeugendensystem gegeben, so wissen wir das wir
nur linear abhängige Vektoren entfernen müssen bis eine Basis übrig bleibt. Im nächsten
Schritt muss v1 , . . . , vm dann zu einer Basis v1 , . . . , vn des K n ergänzt werden, und nach
dem Steinitzschen Austauschsatz §11.Lemma 5 wissen wir das wir hierbei mit Ergänzen
geeigneter der e1 , . . . , en auskommen. Die Übergangsmatrix von der Basis v1 , . . . , vn zur
kanonischen Basis e1 , . . . , en ist dann einfach die Matrix C deren Spalten die Vektoren
v1 , . . . , vn sind, und die gesuchte Übergangsmatrix von der Basis e1 , . . . , en zur Basis
v1 , . . . , vn ist die inverse Matrix C −1 .
Als ein konkretes Beispiel betrachten wir den zweidimensionalen affinen Teilraum



1
1
*
 −1 
 2


T =
 0  +  −1
1
1
 

0 +
  1 
,

  2 
−2
des R4 . Richtung und Aufpunkt sind hier direkt angegeben. Wegen
1
0
2
1
−1
2
1 −2
1
0
0
0
0
0
1
0
2
1
0
1
= −1
= − 2
2
1
1 −2
1 −2 0 212
= 5 6= 0
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
ist v1 , v2 , e1 , e3 eine Basis des R4 wobei v1 , v2 die beiden Erzeuger der Richtung von T
sind. Die gesuchte Übergangsmatrix erhalten wir durch Invertieren

−1


0
2 0
1
1
0 1 0
 2

1 0 −2 
1 0 0 
.
 = 1 0

 −1
2 0 1 
5  5 −2 0 −1 
0
0 5
5
1 −2 0 0
Die Koeffizientenmatrix unseres linearen Gleichungssystems besteht aus den unteren
beiden Zeilen dieser Matrix, also
1 5 −2 0 −1
A=
0 5
5
5 0
und die rechte Seite ist

b=
1
5
5 −2 0 −1
0
0 5
5

1
 −1  1 6

·
 0 = 5 5 .
1
Multiplizieren wir noch die erste Gleichung mit 5, so ergibt sich das lineare Gleichungssystem
5x − 2y
− v=6
u + v=1
dessen Lösungsmenge genau der affine Teilraum T ist.
12.2
Lineare Abbildungen und Matrizen
Wir wollen jetzt alle linearen Abbildungen f : K n → K m explizit bestimmen. Sei
A ∈ K m×n eine m × n Matrix über K. Für jeden Spaltenvektor x ∈ K n können wir
dann das Produkt Ax ∈ K m bilden, und erhalten auf diese Weise eine Abbildung
fA : K n → K m ; x 7→ Ax.
Diese Abbildung ist linear, denn sind x, y ∈ K n und λ ∈ K so haben wir nach den
Rechenregeln der Matrixmultiplikation
fA (x+y) = A·(x+y) = Ax+Ay = fA (x)+fA (y) und fA (λx) = A·λx = λ·Ax = λfA (x).
Damit gehört zu jeder m × n Matrix A über K eine lineare Abbildung fA ∈ K m×n .
Umgekehrt hat überhaupt jede lineare Abbildung f : K n → K m diese Form. Sei
nämlich f : K n → K m eine lineare Abbildung. Für jedes 1 ≤ i ≤ n schreiben wir dann


a1i


f (ei ) =  ...  ∈ K m
ami
213
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
und bilden die m × n Matrix


a11 · · · a1n

..  ,
...
A :=  ...
. 
am1 · · · amn
deren Spalten die Vektoren f (e1 ), . . . , f (en ) sind. Für jedes x ∈ K n rechnen wir dann
f (x) = f (x1 e1 + · · · + xn en ) = x1 f (e1 ) + · · · + xn f (xn )


 


a11 x1 + · · · + a1n xn
a1n
a11


 


..
= x1 ·  ...  + · · · + xn ·  ...  = 

.
am1 x1 + · · · + amn xn
amn
am1
= Ax = fA (x),
d.h. wir haben f = fA . Damit kann überhaupt jede lineare Abbildung f : K n →
K m durch eine m × n Matrix beschrieben werden, und zwar so, dass die Spalten der
Matrix genau die Bilder der kanonischen Basisvektoren e1 , . . . , en sind. Umgekehrt ist
fA (ei ) = Aei für jedes 1 ≤ i ≤ n gerade die i-te Spalte von A, wir haben also eine
bijektive Entsprechung
Lineare Abbildungen f : K n → K m = m × n-Matrizen über K.
Wir wollen die nebenstehend gezeigten Beispiele linearer Abbildungen R2 → R2 behandeln. Dabei
ist jeweils abgebildet wie die lineare Abbildung auf
die links unten stehende Figur wirkt. Wir beginnen
mit den Skalierungen, bei diesen werden x- und yAchse mit Faktoren a, b ∈ R gestreckt. Ist dabei a
oder b negativ, so treten auch noch Spiegelungen an
den Koordinatenachsen auf. Um die Matrix dieser
linearen Abbildung zu sehen, müssen wir die Bilder der kanonischen Basisvektoren e1 , e2 als Spalten verwenden. Dabei liegt e1 auf der x-Achse, wird
also um den Faktor a gestreckt und hat das Bild
ae1 . Für e2 ergibt sich analog das Bild be2 , und wir
erhalten die Matrix
a
Sa,b =
.
b
Phy I
Skaliert
Phy I
Identisch
Phy I
Scherung
y
Ph
I
Rotiert
Wir kommen zu den Scherungen längs der x-Achse. Diese lassen jede zur x-Achse
parallele Gerade fest, und bewirken auf diesen eine Verschiebung um einen zur Höhe y
proportionalen Wert. Die Proportionalitätskonstante sei dabei t ∈ R. Auf der x-Achse
selbst ist die Höhe 0 und es liegt überhaupt keine Verschiebung vor, d.h. e1 wird auf e1
214
Mathematik für Physiker I, WS 2010/2011
Montag 24.1.2011
abgebildet. Dagegen liegt e2 in der Höhe 1, wird also um t in x-Richtung verschoben
und somit auf te1 + e2 abgebildet. Die Scherungsmatrix ist damit
1 t
St =
.
1
Der letzte zu untersuche Abbildungstyp ist die
e2
Drehung um den Nullpunkt mit dem Winkel φ ∈ R.
v2
Dies ist eine lineare Abbildung, was klar ist wenn
sie etwa an die Interpretation der Addition von Vekv1
toren in einem Parallelogram denken. Zur Bestimmung der Drehmatrix Dφ müssen wir uns wieder
die Bilder der beiden Einheitsvektoren anschauen.
e1
Für das Bild von e1 erhalten wir das rechts gezeigte rechtwinklige Dreieck mit Hypothenuse 1 dessen
Ankathete und Gegenkathete zum Winkel φ gerade
die x- und y-Koordinaten des Bildes von e1 sind,
d.h. e1 wird auf cos(φ)e1 + sin(φ)e2 abgebildet. Für
das Bild von e2 liegt eine ähnliche Situation vor,
nur das Ankathete und Gegenkathete diesmal die y- beziehungsweise die negative xKoordinate des Bildes sind, das Bild von e2 ist also − sin(φ)e1 + cos(φ)e2 . Insgesamt
ergibt sich die Drehmatrix
cos φ − sin φ
Dφ =
.
sin φ
cos φ
Kommen wir zur allgemeinen Situation der Gleichheit von Matrizen und linearen Abbildungen K n → K m zurück. Im Lichte dieser Korrespondenz ist es dann natürlich zu
fragen wie sich Eigenschaften der linearen Abbildung in Eigenschaften der zugehörigen
Matrix übersetzen. Wir wollen einige dieser Entsprechungen kurz durchgehen.
1. Sind A, B ∈ K m×n zwei m × n-Matrizen über K, so können wir ihre Summe
A + B bilden. Die zugehörige lineare Abbildung ist gegeben als
fA+B (x) = (A + B) · x = Ax + Bx = fA (x) + fB (x),
also ist fA+B = fA + fB die Summe der zugehörigen linearen Abbildungen. Entsprechend ergibt sich für jeden Skalar λ ∈ K auch fλA = λfA .
2. Nun sei zusätzlich r ≥ 1 und betrachte Matrizen A ∈ K m×n und B ∈ K n×r .
Dann können wir das Produkt AB dieser beiden Matrizen bilden, und erhalten
eine m × r-Matrix. Für die zugehörige lineare Abbildung rechnen wir
fAB (x) = (AB)x = A(Bx) = fA (fB (x))
215
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
für jedes x ∈ K n , es ist also fAB = fA ◦ fB die Hintereinanderausführung der
zugehörigen linearen Abbildungen. Dies zeigt
Hintereinanderausführung linearer Abbildungen = Multiplikation von Matrizen.
Tatsächlich ist diese Beobachtung der Grund dafür das die Multiplikation von
Matrizen überhaupt so definiert wird, wie wir sie definiert haben.
3. Zur Einheitsmatrix gehört offenbar die identische Abbildung idK n . Kombinieren
wir dies mit der Kennzeichnung der Bijektivität gemäß §3.Lemma 3 so folgt für
eine quadratische Matrix A ∈ K n×n
fA ist Isomorphismus ⇐⇒ A ist invertierbar
und in diesem Fall gilt dann fA−1 = fA−1 .
4. Sei A ∈ K m×n . Was sind dann Kern und Bild der linearen Abbildung fA ? Für
das Bild erhalten wir mit §11.Lemma 9.(c)
Bild(fA ) = hfA (e1 ), . . . , fA (en )i = hAe1 , . . . , Aen i,
d.h. das Bild von fA ist der von den Spalten von A aufgespannte Untervektorraum
des K m . Kombinieren wir dies mit der Tatsache §11.Satz 6.(b) das wir jedes
Erzeugendensystem zu einer Basis ausdünnen können, so folgt
dim Bild(fA ) = Dimension des Aufspanns der Spalten von A
= Maximale Anzahl linear unabhängiger Spalten von A.
Auch den Kern können wir mit bekannten Objekten in Zusammenhang bringen.
Der Kern von fA ist die Menge aller x ∈ K n mit fA (x) = 0, also aller x ∈ K n
mit Ax = 0. Dies bedeutet
Kern(fA ) = Lösungsmenge des homogenen linearen Gleichungssystems Ax = 0.
Auch die Dimension des Kerns können wir damit berechnen. Führen wir das
Gaußsche Eliminationsverfahren mit der Matrix A durch und bezeichnen die
Anzahl der am Ende übrig bleibenden, von Null verschiedenen, Zeilen wieder
mit r, so wissen wir schon dass der Lösungsraum von Ax = 0 die Dimension
n − r hat. Damit ist auch
dim Kern(fA ) = n − r.
Die Zahl r der von Null verschiedenen Zeilen nach Durchführung des Gaußschen Eliminationsverfahrens hat nun schon mehrfach eine wichtige Rolle gespielt, und in der
nächsten Sitzung wollen wir dieser Zahl auch endlich einen Namen geben.
216
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Vorlesung 22, Freitag 28.1.2011
In der letzten Sitzung haben wir gesehen, dass lineare Abbildungen f : K n → K m
im wesentlichen dasselbe wie m × n Matrizen A ∈ K m×n sind. Wir hatten auch Eigenschaften linearer Abbildungen in die Sprache der Matrizen übersetzt. Insbesondere
hatten wir gesehen, dass die maximale Anzahl linear unabhängiger Spalten einer Matrix A genau gleich der Dimension des Bildes der zugehörigen linearen Abbildung ist.
Dies legt die folgende Definition des Rangs einer Matrix nahe.
Definition 12.2 (Der Rang einer Matrix)
Sei K ∈ {R, C} und sei A ∈ K m×n eine Matrix über K. Dann heißt die Zahl
rang(A) := dim Bild(fA )
der Rang der Matrix A.
Es stellt sich jetzt heraus, dass wir den Rang einer Matrix bereits ausrechnen können
und zwar wieder einmal mit dem Gaußschen Eliminationsverfahren. Schon mehrfach
hat die Zahl r der von Null verschiedenen Zeilen nach Ausführung des Gaußschen
Eliminationsverfahrens eine Rolle gespielt, und diese Zahl r stellt sich jetzt als der
Rang der Matrix A heraus. Geht es uns nur um die Berechnung des Ranges, so können
wir während der Elimination auch Spaltenumformungen verwenden, wenn diese die
Rechnung vereinfachen. All diese Tatsachen sind Konsequenzen des folgenden Satzes
über den Rang einer Matrix.
Satz 12.3 (Grundeigenschaften des Rangs)
Seien K ∈ {R, C}, n, m ∈ N mit n, m ≥ 1 und A ∈ K m×n eine m × n-Matrix über K.
Dann gelten
(a) Es ist rang(At ) = rang(A).
(b) Der Rang von A ist gleich der Dimension des Aufspanns der Spalten von A und
auch gleich der Dimension des Aufspanns der Zeilen von A.
(c) Der Rang von A ist die maximale Anzahl linear unabhängiger Spalten von A und
auch gleich der maximalen Anzahl linear unabhängiger Zeilen von A.
(d) Geht A0 aus A durch eine elementare Zeilenumformung oder durch eine elementare
Spaltenumformung hervor, so ist rang(A0 ) = rang(A).
(e) Verbleiben nach Ausführung des Gaußschen Eliminationsverfahrens mit der Matrix
A genau r von Null verschiedene Zeilen, so ist rang(A) = r.
217
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Beweis: Nach dem obigen Punkt (4) wissen wir bereits, dass der Rang von A sowohl
gleich der maximalen Anzahl linear unabhängiger Spalten von A ist, also auch gleich
der Dimension des von den Spalten von A aufgespannten Teilraums des K m ist. Hieraus
folgt, dass sich der Rang von A bei elementaren Spaltenumformungen nicht ändert. Um
dies zu begründen müssen wir die drei verschiedenen Sorten von Spaltenumformungen
durchgehen.
1. Die erste Spaltenoperation ist das Vertauschen zweier Spalten von A, und hierbei
ändert sich der Aufspann der Spalten nicht.
2. Die zweite Spaltenoperation ist die Multiplikation einer Spalte mit einem von
Null verschiedenen Skalar 0 ≤ c ∈ K. Auch dies ändert den Aufspann der Spalten
nicht.
3. Als die letzten Spaltenoperation haben wir die Addition eines Vielfachen der iten Zeile zur j-ten Zeile. Sind v1 , . . . , vn die Spalten von A, so sind die Spalten
der neuen Matrix
v1 , . . . , vj−1 , vj + λvi , vj+1 , . . . , vn
mit einem λ ∈ K. Wegen vj = (vj + λvi ) − λvi spannen diese Vektoren nach
§11.Lemma 2.(b) denselben Teilraum des K m auf wie die Vektoren v1 , . . . , vn .
Der von den Spalten der Matrix aufgespannt Teilraum ändert sich also auch in
diesem Fall nicht.
In allen drei Fällen hat sich der Aufspann der Spalten nicht geändert, und damit bleibt
auch seine Dimension, d.h. der Rang der Matrix erhalten.
Nun bezeichne r die Anzahl der von Null verschiedenen Zeilen nach Durchführung
des Gaußschen Eliminationsverfahrens. Mit der Dimensionsformel für lineare Abbildungen §11.Satz 12 erhalten wir dann
n = dim K n = dim Bild(fA ) + dim Kern(fA ) = rang(A) + n − r =⇒ rang(A) = r.
Damit ist Aussage (e) bewiesen, und da sich die Zahl r bei Anwendung elementarer
Zeilenumformungen auf A nicht ändert, bleibt auch der Rang von A bei elementaren
Zeilenumformungen erhalten, d.h. Aussage (d) ist bewiesen. Genau wie bei Spaltenumformungen ändert sich die Dimension s des von Zeilen von A erzeugten Teilraums nicht
bei Anwendung elementarer Zeilenumformungen, insbesondere ist diese Zahl gleich der
maximalen Anzahl linear unabhängiger Zeilen in der aus dem Gaußschen Eliminationsverfahren aus A gewonnenen Matrix A0 in Stufenform. Die r von Null verschiedenen
Zeilen in A0 sind aber linear unabhängig, also ist s = r = rang(A). Damit haben wir
auch die Aussagen (b) und (c) vollständig eingesehen. Aussage (a) ist klar nach (b)
und (c).
Insbesondere impliziert der Satz, dass wir bei gegebenen Vektoren v1 , . . . , vn im K m
mit dem Gaußschen Eliminationsverfahren entscheiden können ob die Vektoren linear
218
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
unabhängig, ein Erzeugendensystem oder eine Basis sind. Für alle drei Aufgaben wird
dasselbe Rechenverfahren verwendet, wir bilden die m × n Matrix A deren Spalten
die Vektoren v1 , . . . , vn sind und führen mit ihr das Gaußsche Eliminationsverfahren
durch. An der Zahl r = rang(A) der von Null verschiedenen Zeilen nach Abschluß der
Elimination lassen sich alle Fragen entscheiden:
Aufgabe
Sind v1 , . . . , vn linear unabhängig?
Sind v1 , . . . , vn ein Erzeugendensystem des K m ?
Ist v1 , . . . , vn eine Basis des K m ?
Kriterium
r=n
r=m
m=n=r
Für eine quadratische n × n Matrix A ∈ K n×n betrachten wir die zugehörige lineare
Abbildung fA : K n → K n . Wir wissen bereits, dass die Matrix A genau dann invertierbar ist, wenn die lineare Abbildung fA ein Isomorphismus ist, und letzteres ist nach
§11.Korollar 13 zur Surjektivität von fA äquivalent. Weiter ist nach §11.Lemma 11
auch genau dann Bild(fA ) = K n wenn rang(A) = dim Bild(fA ) = n ist, d.h.
A ∈ K n×n ist invertierbar ⇐⇒ rang(A) = n.
Kombinieren wir diese Beobachtung mit der Beschreibung der Invertierbarkeit einer
Matrix über ihre Determinante §10.Korollar 10, so folgt weiter
det A 6= 0 ⇐⇒
⇐⇒
⇐⇒
⇐⇒
Die
Die
Die
Die
Spalten von A sind linear unabhängig
Spalten von A sind eine Basis des K n
Zeilen von A sind linear unabhängig
Zeilen von A sind eine Basis des K n
Schließlich können wir auch den Satz 2 in Termen des Rang einer Matrix umformulieren.
In der Vorlesung wurde dieser Satz weggelassen da er inhaltlich nichts neues bringt. In
diesem Skript bleibt er trotzdem stehen um in nächsten Semester auf ihn verweisen zu
können.
Satz 12.4 (Hauptsatz über lineare Gleichungssysteme)
Seien K ∈ {R, C} und Ax = b ein lineares Gleichungsystem in m Gleichungen und
n Unbekannten mit Koeffizentenmatrix A ∈ K m×n und rechter Seite b ∈ K m . Dann
ist Ax = b genau dann lösbar wenn der Rang von A gleich dem Rang der erweiterten
Koeffizientenmatrix des linearen Gleichungssystems ist, also
Ax = b lösbar ⇐⇒ rang(A|b) = rang(A).
In diesem Fall ist der Lösungsraum L := {x ∈ K n |Ax = b} ein affiner Teilraum des
K n mit
dim L = n − rang(A).
219
Mathematik für Physiker I, WS 2010/2011
12.3
Freitag 28.1.2011
Linearformen und das Skalarprodukt
Unter einer Linearform verstehen wir eine lineare Abbildung
f : K n → K.
Dies ist der Fall m = 1 im vorigen Abschnitt, d.h. die Linearformen sind die 1 × nMatrizen, beziehungsweise die Zeilenvektoren. Definieren wir also für Vektoren u, v ∈
K n das Skalarprodukt


v1


u · v := ut v = (u1 . . . un ) ·  ...  = u1 v1 + · · · + un vn ,
vn
so haben alle Linearformen f : K n → K die Gestalt
f = fu : K n → K; x 7→ u · x
für ein geeignetes u ∈ K n . Es gibt eine Vielzahl alternativer Schreibweisen für das
Skalarprodukt, einige häufiger anzutreffende Schreibweisen sind
u · v = (u, v) = (u|v) = hu, vi = hu|vi.
Nennen wir zwei Vektoren u, v ∈ K n senkrecht aufeinander, geschrieben als u ⊥ v,
wenn u · v = 0 ist, so haben wir
Kern(fu ) = u⊥ := {v ∈ K n |u ⊥ v}.
Das ist alles sowohl im Fall K = R als auch im Fall K = C wahr, allerdings verhält sich
das Senkrechtstehen im komplexen Fall ein wenig merkwürdig. Ist etwa u der Vektor
1
u :=
∈ C2 ,
i
so haben wir u·u = 12 +i2 = 0, der Vektor u 6= 0 steht also auf sich selbst senkrecht. Da
wir so etwas nicht betrachten wollen, beschränken wir uns im Rest dieses Abschnitts auf
den reellen Fall K = R. Tatsächlich verwendet man im komplexen Fall normalerweise
ein leicht modifiziertes, sogenanntes hermitesches, Skalarprodukt, das wir in diesem
Semester aber nicht behandeln wollen.
Wir kommen nun zur geometrischen Bedeutung des Skalarprodukts. Da Ihnen diese
Dinge aus der Elementare mathematische Methoden der Physik“ Vorlesung wohlbe”
kannt sind, wurde dieses Thema in der Vorlesung nur kurz skizziert. Um im nächsten
Semester darauf verweisen zu können, wollen wir in diesem Skript alles im einzelnen
durchgehen. Die Länge eines Spaltenvektors u ∈ Rn definieren wir als die Zahl
√
||u|| := |u| := u · u.
√
Die Bezeichnung Länge von u“ für |u| = u · u bedarf natürlich noch einer Be”
gründung. Diese wollen wir hier für n = 2 vorführen, der allgemeine Fall folgt hieraus,
da jeder Vektor im Rn in einem zweidimensionalen Teilraum, also in einem R2 liegt.
Dies ist zumindest für n ≥ 2 so, aber für den Fall n = 1 ist sowieso nichts zu zeigen.
220
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
u
Betrachte nun einen Vektor
u=
x
y
l
∈ R2 .
y
Dann betrachten wir das nebenstehende rechtwinklige
x
Dreieck. Die Komponenten x, y, beziehungsweise eigent- 0
lich ihre Beträge, sind dann die beiden Kathetenlängen
im diesem Dreieck. Nach dem Satz von Pythagoras addieren sich ihre Quadrate damit zum Quadrat l2 der Länge
der Hypotenuse des Dreiecks. Aber diese wird gerade
p vom Vektor u gebildet, ihre Länge
ist also gerade die Länge des Vektors
u, d.h. l = x2 + y 2 . Andererseits ist aber auch
p
√
u · u = x2 + y 2 , d.h. u · u = x2 + y 2 ist tatsächlich die Länge von u.
Wir wollen jetzt die übliche geometrische Interpretation des Skalarprodukts herleiten. Hierzu ist es sehr nützlich zunächst zu zeigen, daß unser oben definiertes Senkrechtstehen genau das übliche geometrischen Senkrechtstehen ist. Auch dies wollen wir
wieder im ebenen Fall n = 2 nachweisen, da auch je zwei Vektoren in einer Ebene liegen
folgt hieraus wieder der allgemeine Fall. Gegeben seien also zwei Vektoren
u=
x
y
,v=
x0
y0
,
deren Skalarprodukt sich als u · v = xx0 + yy 0 ergibt. Wir können uns auf den Fall u 6= 0
beschränken. Dass u und v senkrecht aufeinander stehen, bedeutet das v ein Vielfaches
des um π/2 (also 90◦ ) gedrehten Vektors u ist, der als
0
u =
−y
x
gegeben ist. Dies können Sie beispielsweise als die Anwendung der Drehmatrix zum
Winkel φ = π/2 auffassen. Dass u und v senkrecht aufeinander stehen bedeutet nun
also das v ein Vielfaches dieses Vektors ist, also x0 = −cy, y 0 = cx für eine reelle
Zahl c, und damit xx0 + yy 0 = 0. Die Rückrichtung folgt dann ebenso. Damit ist das
Senkrechtstehen wirklich genau das geometrischen Senkrechtstehen.
Diese kleine geometrische Tatsache läßt sich nun leicht zur geometrischen Beschreibung des allgemeinen Skalarprodukts erweitern. Wieder können wir uns auf den ebenen
Fall n = 2 beschränken. Gegeben seien also wieder zwei Vektoren u und v im R2
221
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
v
w
u
p
0
Wir betrachten dann den von u und v eingeschlossenen Winkel φ. Weiter fällen wir
das Lot von v auf die Gerade durch 0 und u. Der Lotfußpunkt werde mit p bezeichnet,
und den Vektor von p nach v nennen wir w, d.h. es ist v = p + w wobei u und w
senkrecht aufeinander stehen. Wie bereits gezeigt ist damit u · w = 0. Weiter ist p ein
Vielfaches von u, wir können also p = λu mit einer reellen Zahl λ ∈ R schreiben. Im
obigen Bild ist der Winkel φ kleiner als π/2, und damit liegt p auf derselben Seite wie
u und wir haben λ ≥ 0. Ist φ größer als π/2, so liegt p links von 0 und es wird λ < 0,
aber diesen Fall wollen wir nicht gesondert ausführen da er zu keinem anderen Ergebnis
führt. Damit ist v = p + w = λu + w und wir rechnen
u · v = u · (λu + w) = λ u · u + u · w = λ|u|2 .
Dabei haben wir die aus der Definition des Skalarprodukts offensichtlichen Formeln
x · (y + z) = x · y + x · z, x · (λy) = λ x · y verwendet. Um nun den Winkel φ ins Geschäft
zu bringen betrachten wir noch das von 0, p und v gebildete rechtwinklige Dreieck. Die
Ankathete bezüglich des Winkels φ hat in diesem Dreieck die Länge |p| = λ|u|, und die
Hypotenuse wird vom Vektor v gebildet, hat also die Länge |v|. Also ist cos φ = λ|u|/|v|.
Damit rechnen wir nun
|u| · |v| · cos φ = |u| · |v| ·
λ|u|
= λ|u|2 = u · v.
|v|
Diese Formel ist die übliche geometrische Beschreibung des Skalarprodukts als
u · v = Produkt der Längen mal Cosinus des eingeschlossenen Winkels.
Streng genommen haben wir einen Winkel“ gar nicht definiert, und tatsächlich wird
”
in der Mathematik die Formel u · v = |u| · |v| · cos φ oft als Definition des Winkels φ
zwischen den Vektoren u und v interpretiert. Wir wollen noch ein weiteres Ergebnis
der eben durchgeführten Überlegung festhalten. Den oben verwendeten Lotfußpunkt p
222
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
nennt man auch die Projektion des Vektors v in Richtung von u, oder auf u. Unsere
obige Formel besagt dann
p = λu =
u·v
|u · v|
· u und |p| = λ · |u| =
.
2
|u|
|u|
Insbesondere ist damit
p·u=
u·v
· (u · u) = u · v.
|u|2
Diese Beobachtungen bilden auch die Grundlage für die Bedeutung des Skalarprodukts
in der Mechanik. Dort treten Vektoren zumeist bei der Beschreibung wirkender Kräfte
auf. Denken wir uns, dass der Vektor v eine Kraft beschreibt, so interessiert man sich
hier für den in Richtung von u wirkenden Teil der Kraft. Um diesen zu ermitteln zerlegt
man v in einen zu u parallelen und einen zu u senkrechten Teil, und dies ist gerade
unsere oben verwendet Zerlegung v = p + w. Der in Richtung u wirkende Teil der Kraft
ist dann also p = λu = ((u · v)/|u|2 )u. In der Regel wird die Richtung dann durch einen
Einheitsvektor beschrieben, d.h. wir haben |u| = 1 und somit p = (u · v)u. Der Betrag
der in Richtung u wirkenden Kraft ist dann |p| = |u · v|.
In §10 hatten wir bemerkt, dass die Determinante, beziehungsweise ihr Betrag, das
Volumen des von den Spalten der Determinante aufgespannten Parallelepipeds angibt.
An dieser Stellen wollen wir dies für den ebenen Fall n = 2 auch einmal nachweisen.
Hierzu betrachten wir die Fläche F des durch u und v gegebenen Parallelogramms:
v
w
u
p
0
Dann haben wir F = |u| · |w|, da wir etwa das rechts abgetrennte Teildreieck links
wieder anhängen können und ein Rechteck mit den Seitenlängen |u| und |w| erhalten.
Betrachten wir erneut unser rechtwinkliges Dreieck von oben, so können wir aus diesem
die Länge |w| als |w| = |v| sin φ gewinnen, und somit wird die Fläche des von u und v
aufgespannten Parallelogramms zu
F = |u| · |w| = |u| · |v| · sin φ.
223
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Dabei betrachten wir hier den Fall, dass u und v sich wie im obigen Bild verhalten,
der Punkt v also oberhalb von u liegt und der Winkel φ von u nach v kleiner als π ist,
denn dann ist sin φ > 0. Quadrieren wir die Gleichung, so wird
F 2 = (|u| · |w|)2 = |u|2 |v|2 sin2 φ = |u|2 |v|2 (1 − cos2 φ) = |u|2 |v|2 − (u · v)2 .
Setzen wir hier u = (u1 , u2 ), v = (v1 , v2 ) ein, so wird dieser Ausdruck zu
F 2 = (u21 + u22 ) · (v12 + v22 ) − (u1 v1 + u2 v2 )2
= u21 v12 + u21 v22 + u22 v12 + u22 v22 − u21 v12 − u22 v22 − 2u1 u2 v1 v2
2
u
v
1
1
,
= u21 v22 + u22 v12 − 2u1 u2 v1 v2 = (u1 v2 − u2 v1 )2 = u2 v 2 d.h. es ist tatsächlich F = | det(u, v)|. Auch das Vorzeichen der Determinante det(u, v)
hat eine geometrische Bedeutung. Um diese zu sehen betrachten wir die beiden möglichen Konstellationen von u und v
v
0
u
0
Positive Basis, det(u,v) > 0 u
Negative Basis, det(u,v) < 0
v
Wir drehen den Vektor u, beziehungsweise genauer die von ihm erzeugte Halbgerade,
gegen den Uhrzeigersinn zum Vektor v. Im linken Bild ist der dabei auftretende Drehwinken φ kleiner als π, und wir nennen die Basis u, v positiv. Im rechten Bild ist der
Winkel φ größer als π und wir haben eine negative Basis. Welcher der beiden Fälle
vorliegt läßt sich an der Determinante det(u, v) ablesen, ist diese positiv, so ist die
Basis positiv, und ist sie negativ, so ist die Basis negativ.
Als ein Beispiel zur Verwendung des Skalarprodukts wollen wir die sogenannte
Hessesche Normalform einer Hyperebene im Rn herleiten. Eine Hyperebene h im Rn
ist ein m = n − 1 dimensionaler affiner Teilraum des Rn . Wir wir im ersten Abschnitt
gesehen haben, können wir h als die Lösungsmenge eines linearen Gleichungssystems
in n Unbekannten mit n − m = 1 Gleichungen beschreiben, d.h. es gibt einen Vektor
u0 ∈ Rn und eine rechte Seite b ∈ Rn−m = R mit





 x1

 .. 
n 0
0
h =  .  ∈ R u1 x1 + · · · + un xn = b = {x ∈ Rn |u0 · x = b}.


 x

n
224
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Da h weder die leere Menge noch der ganze Rn ist, muss u0 6= 0 sein. Wir können also
den Vektor
u0
b
u := 0 der Länge 1 und c := 0 ∈ R
|u |
|u |
bilden und haben
h = {x ∈ Rn |u · x = c}.
Diese Beschreibung ist die sogenannte Hessesche Normalform der Hyperebene h. Der
Vektor u steht dabei senkrecht auf der Richtung H ≤ Rn von h. Wähle nämlich einen
Punkt p ∈ h. Für jeden Vektor v ∈ H ist dann auch p + v ∈ h und wir haben
c = u · (p + v) = u · p + u · v = c + u · v =⇒ u · v = 0.
Hieraus sehen wir insbesondere, dass der Vektor u bis auf ein Vorzeichen eindeutig bestimmt ist, es ist der sogenannte Normalenvektor auf der Richtung H von h. Auch die
Zahl c hat eine geometrische Bedeutung, sie ist gerade gleich dem Abstand der Hyperebene h zum Nullpunkt. Dies wollen wir an dieser Stelle aber nicht mehr begründen.
12.4
Das Vektorprodukt
Auch dieses Thema wurde in der Vorlesung nur kurz skizziert und soll hier vollständig
ausgeführt werden. Das Vektorprodukt ist ein spezifisch dreidimensionales Phänomen,
es ordnet zwei Vektoren u, v ∈ R3 einen weiteren Vektor u × v ∈ R3 zu, genannt
das Vektorprodukt oder auch das Kreuzprodukt von u und v. Wie für das bereits
behandelte Skalarprodukt gibt es zwei mögliche Arten das Vektorprodukt einzuführen,
eine algebraische und eine mehr geometrische Methode. Wir werden die algebraische
Form als Definition verwenden, wollen aber erst mal die geometrische Beschreibung des
Vektorprodukts angeben. Zunächst soll u × v senkrecht auf u und auf v stehen. Sind
insbesondere u und v linear unabhängig, so wird u × v senkrecht auf der von u und v
aufgespannten Ebene sein. Hierdurch ist das Vektorprodukt aber noch nicht festgelegt,
die auf u und v senkrechten Vektoren bilden einen eindimensionalen Teilraum des R3 ,
zumindest wenn u und v linear unabhängig sind.
Als nächste Einschränkung soll die Länge des Vektorprodukts gerade die Fläche
des von u und v aufgespannten Parallelograms sein. Dadurch ist das Vektorprodukt
fast vollständig festgelegt, es gibt gerade zwei auf u, v senkrechte Vektoren einer vorgeschriebenen Länge. Welcher dieser beiden Vektoren als Vektorprodukt verwendet wird,
ist durch die dritte Eigenschaft des Vektorprodukts festgelegt, die drei Vektoren u, v
und u × v sollen eine positive Basis des R3 bilden, also eine deren Determinante positiv ist. Dies beschreibt zumindest den Fall wenn u und v linear unabhängig sind,
andernfalls wird einfach u × v = 0 sein.
Wie im zweidimensionalen Fall läßt sich auch wieder sagen was die Positivität einer
Basis geometrisch bedeutet. Eine Basis u, v, w des R3 ist positiv, wenn sie ein Rechtssystem bildet, also wie die x-, y- und z-Achse im R3 angeordnet ist. Eine populäre andere
Formulierung dieser Bedingung ist die Rechte Hand Regel“. Halten Sie den Daumen
”
225
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
der rechten Hand in Richtung des ersten Basisvektors u, und den Finger daneben in
Richtung des zweiten Basisvektors v, so richtet sich der Mittelfinger in Richtung des
dritten Basisvektors w aus. Algebraisch erkennt man dies, wie bereits bemerkt, einfach daran das det(u, v, w) > 0 ist. Wir kommen nun zur algebraischen Definition
des Vektorprodukts, und werden dann im folgenden nachweisen, dass diese Definition
tatsächlich die obige geometrische Beschreibung verwirklicht.
Definition 12.3: Seien u, v ∈ R3 . Das Vektorprodukt von u und v ist dann der Vektor
u1 v1 e1 u × v := u2 v2 e2 ∈ R3 .
u3 v3 e3 Dabei stehen e1 , e2 , e3 wieder für die drei kanonischen Basisvektoren des R3 .
Eine etwas direktere Beschreibung des Vektorprodukts u × v erhalten wir, indem wir
die obige Determinante nach der dritten Spalte entwickeln. Das Vektorprodukt wird
dann zu
u1 v1 e1 u1 v 1 u1 v 1 u2 v 2 u × v = u2 v2 e2 = · e1 − u3 v3 · e2 + u2 v2 · e3
u
v
3
3
u3 v3 e3 
 u2 v 2  u3 v 3 

 

 
u
v
−
u
v
2
3
3
2
 u1 v 1 
  u3 v 1 − u1 v 3  .
=
 − u3 v 3  =


u1 v 2 − u2 v 1
 
 u1 v 1 
u2 v 2 Insbesondere ist das tatsächliche Berechnen von Kreuzprodukten einfach möglich

 
 
 

1
3
2 − 10
−8
 −1  ×  5  =  −(−2 − 6)  =  8  .
2
−2
5+3
8
Einige der algebraischen Grundeigenschaften des Vektorprodukts folgen sofort aus der
algebraischen Definition. Da eine Determinante genau dann Null ist, wenn ihre Spalten
linear abhängig sind, erhalten wir
u × v = 0 ⇐⇒ u und v sind linear abhängig.
Vertauschen wir in einer Determinante zwei Spalten, so ändert sich das Vorzeichen der
Determinante, also
u × v = −v × u.
226
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Da die Determinante in jeder ihrer Spalten linear ist, haben wir ebenfalls
(u1 +u2 )×v = u1 ×v +u2 ×v, u×(v1 +v2 ) = u×v1 +u×v2 , λ·u×v = (λu)×v = u×(λv)
für u, v, u1 , u2 , v1 , v2 ∈ R3 , λ ∈ R. Wir wollen nun beginnen uns die eingangs gegebene
geometrische Beschreibung des Vektorprodukts herzuleiten. Es stellt sich als nützlich
heraus, zunächst einmal für u, v, w ∈ R3 die folgende Kombination von Skalarprodukt
und Vektorprodukt zu berechnen
u1 v1 w1 u1 v 1 u1 v 1 u2 v 2 w3 = u2 v2 w2 = det(u, v, w).
w2 + w1 − (u×v)·w = u2 v 2 u3 v 3 u3 v3 u3 v3 w3 Man bezeichnet
(u × v) · w = det(u, v, w)
auch als das Spatprodukt der drei Vektoren u, v, w. Insbesondere haben wir nun
(u × v) · u = det(u, v, u) = 0
da die Determinante det(u, v, u) zwei identische, also insbesondere linear abhängige,
Spalten hat. Ebenso ist (u × v) · v = 0. Andererseits haben wir bereits eingesehen, dass
(u × v) · u = 0 gerade bedeutet, dass u × v senkrecht auf u steht, und ebenso steht dann
u × v senkrecht auf v. Damit haben wir die erste der obigen drei Bedingungen an das
Vektorprodukt eingesehen. Wir kommen nun zur Länge von u × v
2 2
2 u
v
u
v
u
v
1
1
1
1
2
2
+
+
|u × v|2 = u2 v 2 u3 v 3 u3 v 3 = (u2 v3 − u3 v2 )2 + (u1 v3 − u3 v1 )2 + (u1 v2 − u2 v1 )2
= u22 v32 + u23 v22 + u21 v32 + u23 v12 + u21 v22 + u22 v12
−2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 )
2
= (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u21 v12 + u22 v22 + u23 v32
+2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 ))
2
= (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u1 v1 + u2 v2 + u3 v3 )2
= |u|2 |v|2 − (u · v)2 .
Andererseits haben wir bereits bei der Diskussion des Skalarprodukts festgehalten,
dass |u|2 |v|2 − (u · v)2 gerade das Quadrat der Fläche des von u und v aufgespannten
Parallelograms ist. Folglich ist die Länge |u×v| gerade die Fläche dieses Parallelograms.
Es verbleibt nur noch zu zeigen, dass u, v, u × v eine positive Basis des R3 ist, wenn u
und v linear unabhängig sind. Dies ist aber mit unserer obigen Formel (u × v) · w =
det(u, v, w) klar
det(u, v, u × v) = (u × v) · (u × v) = |u × v|2 > 0.
227
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Damit haben wir auch die geometrische Beschreibung des Vektorprodukts verifiziert.
Wir wollen uns nun noch über die geometrische Bedeutung des Spatprodukts klar
werden.
w
uxv
v
F
0
u
Wir wollen uns überlegen, dass (u × v) · w gerade das Volumen des von u, v, w aufgespannten Spats ist, wie im obigen Bild angedeutet. Beachte dazu, das sich das Volumen
einer Teilmenge des R3 unter Scherungen nicht ändert, das Volumen V des Spats ergibt sich also als das Produkt F · l, wobei F die Fläche des von u und v aufgespannten
Parallelograms ist, und l die Länge der Projektion von w auf eine zu diesem Parallelogram senkrechte Gerade ist. Wie bereits gesehen steht das Vektorprodukt u × v
senkrecht auf u und v, also auch auf unserem Parallelogram. Wie bei der Diskussion
des Skalarprodukts gezeigt, ist die Länge der Projektion von w auf u × v gegeben als
l=
(u × v) · w
.
|u × v|
Andererseits haben wir auch bereits eingesehen, dass die Fläche F unseres Parallelograms gerade die Länge des Vektorprodukts u × v ist, d.h. wir haben
V = F · l = |u × v| ·
(u × v) · w
= (u × v) · w.
|u × v|
Das Spatprodukt ist also das Volumen unseres Spats versehen mit einem Vorzeichen.
Insbesondere ist dieses Volumen auch gleich V = (u × v) · w = det(u, v, w). Damit
haben wir die in §10 angemerkte Bedeutung der Determinante als Volumen auch für
n = 3 eingesehen. Das Vorzeichen des Spatprodukts zeigt wieder an, ob u, v, w eine
positive Basis bilden oder nicht, ist also positiv für ein Rechtssystem und negativ für
ein Linkssystem.
Die algebraischen Eigenschaften des Vektorprodukts sind ganz anders als diejenigen
der gewöhnlichen Multiplikation. Wir hatten beispielsweise schon gesehen, dass für alle
u, v ∈ R3 stets u × v = −v × u ist, und das u × v = 0 sein kann selbst wenn u, v 6= 0
beide nicht Null sind. Das Vektorprodukt ist auch nicht assoziativ, man kann also
228
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
nicht einfach Klammern weglassen. Zum Abschluß wollen wir noch zwei Formeln über
doppelte Vektorprodukte herleiten.
Satz 12.5: Seien u, v, w ∈ R3 . Dann gelten
u × (v × w) = (u · w)v − (u · v)w
(Graßman Identität)
und
u × (v × w) + v × (w × u) + w × (u × v) = 0
(Jacobi Identität).
Beweis: Wir zeigen zunächst, dass die Graßman Identität gilt wenn v und w linear
abhängig sind. Im Fall v = 0 sind dabei beide Seiten sofort gleich Null, und im Fall
v 6= 0 gibt es ein λ ∈ R mit w = λv und wir haben ebenfalls
(u · w)v − (u · v)w = λ(u · v)v − (u · v)λv = 0 = u × (v × w).
Zum Beweis der Graßman Identität im allgemeinen Fall beginnen wir mit dem Spezialfall
u × (u × v) = (u · v)u − |u|2 v.
Da der linear abhängige Fall schon erledigt ist, können wir annehmen das u und v
linear unabhängig sind. Dann spannen u und v den zweidimensionalen Teilraum hu, vi
auf, und u × v steht senkrecht auf diesem, also ist
(u × v)⊥ = {x ∈ R3 |u × v ⊥ x} = hu, vi.
Da u × (u × v) senkrecht auf u × v ist, folgt u × (u × v) ∈ hu, vi, es gibt also α, β ∈ R
mit
u × (u × v) = αu + βv.
Wir haben
0 = u · (u × (u × v)) = α|u|2 + β u · v
und wegen
(u × (u × v)) · v = det(u, u × v, v) = − det(u, v, u × v) = −|u × v|2 = (u · v)2 − |u|2 |v|2
ist auch
(u · v)2 − |u|2 |v|2 = α u · v + β|v|2 .
Damit haben wir zwei Gleichungen für α und β. Die erste Gleichung liefert
α=−
u·v
β,
|u|2
und eingesetzt in die zweite Gleichung ergibt dies
(u · v)2 − |u|2 |v|2 = β|v|2 −
(u · v)2
|u|2 |v|2 − (u · v)2
β
=
β,
|u|2
|u|2
229
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
d.h.
u·v
β = u · v.
|u|2
Insgesamt haben wir damit die zu beweisende Gleichung
β = −|u|2 und α = −
u × (u × v) = αu + βv = (u · v) u − |u|2 v.
Wir kommen jetzt zum Beweis der Graßman Identität im allgemeinen Fall. Wie schon
bemerkt können wir v und w also linear unabhängig annehmen. Dann ist v, w, v × w
eine Basis des R3 , wir können also
u = αv + βw + γ(v × w)
mit geeigneten α, β, γ ∈ R schreiben. Es folgen
u · w = α v · w + β|w|2 und u · v = α|v|2 + β v · w
und mit dem bereits bewiesenen Spezialfall der Graßman Identität ist damit
u × (v × w) = α v × (v × w) + β w × (v × w) + γ (v × w) × (v × w)
= α v × (v × w) − β w × (w × v) = α((v · w) v − |v|2 w) − β((v · w) w − |w|2 v)
= (α v · w + β|w|2 )v − (α|v|2 + β v · w)w = (u · w)v − (u · v)w.
Damit ist die Graßman Identität bewiesen. Die Jacobi Identität ist eine Folgerung, wir
haben
u × (v × w) + v × (w × u) + w × (u × v)
= (u · w)v − (u · v)w + (u · v)w − (v · w)u + (v · w)u − (u · w)v = 0.
$Id: stetig.tex,v 1.9 2011/08/18 05:30:49 hk Exp $
§13
Stetige Funktionen
In diesem Kapitel kommen wir zur Analysis zurück, und wollen den Stetigkeitsbegriff behandeln. Das Wort stetig“ bedeutet in der Mathematik wesentlich weniger
”
als im normalen Sprachgebrauch, stetige Funktionen können sich hochgradig irregulär
verhalten. Beispielsweise gibt es stetige Funktionen f : R → R die in keinem einzigen
Punkt eine Ableitung besitzen. In gewissen Sinne sind diese sogar der Regelfall, man
kann sagen was es bedeutet zufällig eine stetige Funktion zu wählen, und dann ist
die Wahrscheinlichkeit das eine zufällig gewählte stetige Funktion in auch nur einen
einzigen Punkt differenzierbar ist, gleich Null.
230
Mathematik für Physiker I, WS 2010/2011
13.1
Freitag 28.1.2011
Funktionsgrenzwerte
In diesem Abschnitt wollen wir die sogenannten Funktionsgrenzwerte limx→x0 f (x)
einführen. Wie wir sehen werden, gibt es eine ganze Reihe verschiedener Varianten
dieses Begriffs, was die folgenden Definitionen komplizierter erscheinen läßt als sie
wirklich sind. Wir wollen sowohl Funktionen von R nach R, von R nach C, von C
nach R als auch von C nach C behandeln können. Dies sind für sich genommen schon
vier Fälle. Weiterhin wollen wir bei einem Grenzwert limx→a f (x) für reelle Argumente
auch a = ±∞ zulassen und bei reellen Werten auch ±∞ als Grenzwert erlauben. Dies
ergibt neun mögliche Kombinationen von ∈ R“, +∞“ und −∞“. Um die Fallunter”
”
”
scheidungen nicht allzu sehr ausufern zu lassen, erfassen wir alle möglichen Fälle von
Argument–Wert Kombinationen indem wir f : K → L schreiben und K, L stehen dabei
jeweils für R oder C. Im reellen Fall soll ±∞ erlaubt werden, und schon in §4 hatten
wir für solche Zwecke die erweiterten reellen Zahlen R = R ∪ {−∞, +∞} einngeführt.
Wenn wir nun bei f : K → L einfach K und L schreiben wollen, müssen wir sagen was
dies im komplexen Fall K = C oder L = C bedeuten soll, und zu diesem Zweck setzen
wir
C := C.
Wie schon im Kapitel §6 über Folgen angekündigt, werden wir all die Grenzwertbegriffe für Funktionen auf die Konvergenz von Folgen zurückführen. Bevor wir zu den
Folgengrenzwerten kommen brauchen wir noch einen Hilfsbegriff, wenn ein Limes von
f (x) für x gegen x0 irgendeinen Sinn haben soll, darf der Punkt x0 nicht allzu weit weg
vom Definitionsbereich der Funktion f liegen, haben wir zum Beispiel eine für x > 0
definierte Funktion f (x), so wird es sicher keinen Sinn haben einen Grenzwert für x
gegen −1 definieren zu wollen. Einen Grenzwert für x gegen Null sollte es aber geben,
obwohl x = 0 nicht im Definitionsbereich der Funktion liegt. Dieses nicht allzu weit
”
weg sein“ wird durch den Hilfsbegriff der Häufungspunkte eine Menge exakt eingeführt.
Definition 13.1: Seien K ∈ {R, C} und M ⊆ K eine Teilmenge. Ein Punkt p ∈ K heißt
ein Häufungspunkt von M , wenn es eine in K gegen p konvergente Folge in M \{p}
gibt. Wir schreiben
M 0 := {p ∈ K|p ist ein Häufungspunkt von M }
für die Menge aller Häufungspunkte von M in K.
Beachte das ±∞ zwar Häufungspunkte einer Menge M ⊆ R sein können, aber trotzdem nicht in die Menge M 0 aufgenommen werden. Machen sie sich außerdem klar
des es einen Unterschied zwischen den Häufungspunkten einer Folge (xn )n∈N und den
Häufungspunkten der Menge {xn |n ∈ N} gibt. Analog zu unserem Vorgehen bei Folgen
folgen für eine Menge M ⊆ R
+∞ ist Häufungspunkt von M ⇐⇒ M ist nach oben unbeschränkt,
−∞ ist Häufungspunkt von M ⇐⇒ M ist nach unten unbeschränkt.
231
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Uns werden hauptsächlich zwei Beispieltypen interessieren. Sind a, b ∈ R mit a < b
und (a, b) ⊆ M ⊆ [a, b], so ist M 0 = [a, b], und entsprechendes gilt für unbeschränkte
Intervalle. Im komplexen Fall betrachten wir einen sogenannten offenen Kreis
M := Br (z) := {u ∈ C : |u − z| < r} ⊆ C,
mit Mittelpunkt z ∈ C und Radius r > 0, und dann ist
M 0 = B r (z) := {u ∈ C : |u − z| ≤ r}
der entsprechende, sogenannte, abgeschlossene Kreis mit Mittelpunkt z und Radius r.
In Beweisen brauchen wir gelegentlich eine besser handhabbare Bedingung für Punkte
a die keine Häufungspunkte sind. Seien also K ∈ {R, C}, eine Teilmenge D ⊆ K und
ein Punkt a ∈ K gegeben. Dann behaupten wir
a∈
/ D0 ⇐⇒ ∃( > 0) : B (a) ∩ D ⊆ {a},
d.h. ist a kein Häufungspunkt von D, so existiert ein > 0 so das kein von a verschiedenes Element von D näher als bei a liegt. Dies ist leicht zu beweisen. Ist a
nämlich ein Häufungspunkt von D, so gibt es eine gegen a konvergente Folge (xn )n∈N
in D\{a}, und für jedes > 0 gibt es dann insbesondere ein Folgenglied xn ∈ D\{a}
mit |xn − a| < , d.h. die rechte Seite unserer Äquivalenz ist dann nicht erfüllt. Ist
umgekehrt die rechte als falsch vorausgesetzt, so existiert für jedes > 0 ein x ∈ D mit
x 6= a und |x − a| < . Insbesondere gibt es für jedes n ∈ N mit n ≥ 1 ein xn ∈ D\{a}
mit |xn − a| < 1/n. Nach dem Einschnürungslemma §6.Lemma 5.(b) für Folgen ist
damit (xn )n≥1 −→ a, und a ist ein Häufungspunkt von D. Damit ist diese Behauptung
bewiesen.
Wir kommen jetzt zur Definition der Funktionsgrenzwerte und pressen alle überhaupt möglichen Fälle in eine einzige Definition.
Definition 13.2 (Funktionsgrenzwerte)
Seien K, L ∈ {R, C}, D ⊆ K und f : D → L eine Funktion. Weiter sei a ∈ K ein
Häufungspunkt von D. Dann ist die Funktion f an der Stelle a konvergent gegen ein
b ∈ L, wenn für jede in K gegen a konvergente Folge (xn )n∈N in D\{a} stets auch
(f (xn ))n∈N −→ b gilt. Wir schreiben dann
b = lim f (x)
x→a
und nennen b den Grenzwert von f an der Stelle a. Weiter heißt f an der Stelle a
konvergent, wenn es ein b ∈ L gibt so, dass f an der Stelle a gegen b konvergiert.
Andernfalls nennen wir die Funktion f an der Stelle a divergent.
Die Verwendung von K und L ist leider nötig um alle möglichen Konfigurationen abzudecken, man will sowohl auf R definierte Funktionen mit reellen oder komplexen Werten
als auch auf C definierte Funktionen mit reellen oder komplexen Werten betrachten
und wann immer man reelle Argumente oder Werte verwendet will man auch ±∞ zulassen können. Die mit ±∞ verbundene Sprechweise bei reellwertigen Funktionen ist
232
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
wie bei den Folgen, man spricht von Konvergenz in R, aber wenn nur von Konvergenz“
”
die Rede ist, ist damit immer ein reeller Grenzwert, also nicht ±∞ gemeint.
Oft, und vor allem wenn die Funktion f durch eine explizite Formel gegeben ist,
sprechen wir auch von der Konvergenz von f (x) für x gegen a beziehungsweise vom
Grenzwert von f (x) für x gegen a. Streng genommen sind diese Sprechweisen eigentlich
unsinnig, da es in der Mathematik wie schon am Anfang des Semesters bemerkt, keine
nicht in Quantoren gebundenen freien Variablen gibt, und x somit einen festen Wert
hat und gegen nichts gehen“ kann. Da diese Formulierung aber so schön suggestiv
”
ist und sich leicht in die genauere Version übersetzen läßt, wird sie trotzdem verwendet. Beachte aber das dieses x“ dann einen rein formalen Charakter hat, und nur
”
im Kontext des betrachteten Funktionsgrenzwerts verwendet werden kann. Weiterhin
unterstellt unsere Verwendung des bestimmten Artikels in der obigen Definition, dass
der Grenzwert b eindeutig ist, dies muss natürlich noch bewiesen werden. Dies werden
wir aber erst in der nächsten Sitzung durchführen, an dieser Stelle wollen wir lieber
zwei einfache Beispiele von Funktionsgrenzwerten besprechen. Zunächst sei
f : R → R; x 7→ x3 + 2x2 − 7x + 1,
und wir wollen den Funktionsgrenzwert limx→1 f (x) berechnen. Hierzu müssen wir
Folgen (xn )n∈N in R mit xn 6= 1 für alle n ∈ N und limn→∞ xn = 1 betrachten. Erstere
Bedingung wird dabei keine Rolle spielen. Die Grenzwertsätze für Folgen §6.Satz 6
ergeben
lim f (xn ) = lim (x3n + 2x2n − 7xn + 1)
n→∞
3
2
= lim xn + 2 lim xn − 7 · lim xn + 1
n→∞
n→∞
n→∞
n→∞
= 1 + 2 − 7 + 1 = f (1) = −3.
Der gesuchte Funktionsgrenzwert ist also f (1) = −3.
Eine ähnliche Rechnung funktioniert offenbar für jeden Punkt x0 ∈ R und jedes Polynom f , d.h. sind
f : R → R ein Polynom und x0 ∈ R, so gilt immer
10
8
6
y
lim f (x) = f (x0 ),
4
x→x0
2
und analog gilt dies auch für komplexe Polynome. Kommen wir zu einem etwas komplizierteren Beispiel, der rationalen Funktion
f : R\{1, −2} → R; x 7→
x3 − x2 + x + 1
x3 − 3x + 2
–3
–2
–1
0
–2
–4
–6
–8
–10
mit dem nebenstehend gezeigten Graphen. Betrachten
wir zunächst einmal den Grenzwert x → 0. Hier können
233
1
2
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
wir unsere obige Überlegung für Polynome und erneut den Grenzwertsatz für Folgen
zum Einsatz bringen, und rechnen für jede Nullfolge (xn )n∈N
lim (x3n − x2n + xn + 1)
lim f (xn ) =
n→∞
lim (x3n − 3xn + 2)
n→∞
n→∞
1
= ,
2
d.h. es ist
1
lim f (x) = f (0) = .
2
Ebenso können wir natürlich für jede rationale Funktion f und jeden Punkt x0 ∈ R
argumentieren, der nicht gerade eine Nullstelle des Nenners ist, und erhalten in diesen
Fällen limx→∞ f (x) = f (x0 ). Wie sieht es nun aus, wenn x0 doch eine Nullstelle des
Nenners ist? Im Beispiel haben wir
x→0
x3 − 3x + 2 = (x − 1)2 (x + 2)
mit den beiden Nullstellen −2 und 1. Betrachten wir erst einmal den Grenzwert für
x → 1. Zu diesem Zweck schreiben wir
f (x) =
1
x3 − x2 + x + 1
·
,
(x − 1)2
x+2
und wissen bereits
x3 − x2 + x + 1
1−1+1+1
2
=
= .
x→1
x+2
1+2
3
lim
Ist nun (xn )n∈N eine Folge mit limx→∞ xn = 1 und xn 6= 1, −2 für alle n ∈ N, so ist
2
1
x3n − x2n + xn + 1
= ∞,
= , lim
n→∞
xn − 2
3 n→∞ (xn − 1)2
lim
wobei letzterer Grenzwert aus unseren Überlegungen in §6.2 folgt, es handelt sich um
den Kehrwert einer Nullfolge mit positiven Vorzeichen, und solche Folgen konvergieren
gegen +∞. Also folgt erneut mit den Rechenregeln für Folgengrenzwerte
x3n − x2n + xn + 1
= ∞.
n→∞ (xn − 1)2 (xn + 2)
lim
Damit ist
lim f (x) = ∞.
x→1
Wie sieht es mit dem Grenzwert für x → −2 aus? Gehen wir wie bei x = 1 vor, so ist
x3 − x2 + x + 1
1
·
,
x+2
(x − 1)2
x3 − x2 + x + 1
(−2)3 − (−2)2 − 2 + 1
13
lim
=
=− .
2
2
x→−2
(x − 1)
(−2 − 1)
9
f (x) =
234
Mathematik für Physiker I, WS 2010/2011
Freitag 28.1.2011
Aber der Grenzwert von 1/(x + 2) für x → −2 existiert nicht, da dieser Quotient zwar
im Betrag beliebig groß wird wenn x nahe an 2 ist, aber für x < −2 negativ und
für x > −2 positiv ist. Was existiert sind die sogenannten links- und rechtsseitigen
Grenzwerte für x → −2, die wir aber erst einmal definieren müssen.
Links- und rechtsseitige Grenzwerte lassen sich nur im Fall K = R reeller Argumente
definieren. Weiterhin ist der Begriff nur sinnvoll wenn es überhaupt links und rechts
”
gibt“, also nur wenn a ∈ R, und nicht etwa ±∞, ist. Sind D ⊆ R eine Teilmenge und
a ∈ R, so betrachten wir die beiden Teilmengen
D≥a := {x ∈ D|x ≥ a} und D≤a := {x ∈ D|x ≤ a},
und nennen a einen rechtsseitigen Häufungspunkt von D wenn a ein Häufungspunkt
von D≥a ist, und einen linksseitigen Häufungspunkt von D wenn a ein Häufungspunkt
von D≤a ist. Offenbar ist a genau dann ein Häufungspunkt von D, wenn a ein links- oder
ein rechtsseitiger Häufungspunkt von D ist. Sei jetzt weiter eine Funktion f : D → L
gegeben, wobei wieder L ∈ {R, C} ist, und sei b ∈ L. Ist dann a ein rechtsseitiger
Häufungspunkt von D, so sagen wir das die Funktion f an der Stelle a von rechts
gegen b konvergiert, und schreiben
lim f (x) = b
x↓a
wenn die Einschränkung f |D≥a an der Stelle a gegen b konvergiert. Wir nennen b
dann auch den rechtsseitigen Grenzwert der Funktion f an der Stelle a. Als die Einschränkung einer Funktion f : M → N auf eine Teilmenge D ⊆ M bezeichnet man die
Funktion
f |D : D → N ; x 7→ f (x),
bei der der Definitionsbereich der Funktion zur Menge D verkleinert wird. Ausgeschrieben bedeutet die Aussage limx↓a f (x) = b dann dass für jede gegen a konvergente Folge
(xn )n∈N in D mit xn > a für alle n ∈ N auch (f (xn ))n∈N −→ b gilt. Ist a ein linksseitiger
Häufungspunkt von D, so wird die linksseitige Konvergenz von f an der Stelle a analog
definiert, und man schreibt dann
lim f (x).
x↑a
In diesem Fall nennen wir b den linksseitigen Grenzwert der Funktion f an der Stelle
a. Beachte das die links- und rechtsseitigen Grenzwerte einer Funktion f spezielle
Beispiele gewöhnlicher Funktionsgrenzwerte sind, und insbesondere sind alle Sätze über
Funktionsgrenzwerte auch auf links- und rechtsseitige Funktionsgrenzwerte anwendbar.
Ausgerüstet mit diesem Begriff, kommen wir jetzt zu unserem Beispiel der rationalen Funktion
f : R\{1, −2} → R; x 7→
x3 − x2 + x + 1
x3 − x2 + x + 1
1
=
·
x3 − 3x + 2
x+2
(x − 2)2
zurück. Ist (xn )n∈N eine gegen −2 konvergente Folge mit xn > −2 und xn 6= 1 für
alle n ∈ N, so ist (xn + 2)n∈N eine Nullfolge mit positiven Vorzeichen, also konvergiert
235
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
(1/(xn + 2))n∈N gegen +∞. Der rechte Term konvergierte gegen −13/9, und damit
konvergiert (f (xn ))n∈N insgesamt gegen −∞. Dies zeigt
lim f (x) = −∞ und analog ist auch
x↓−2
lim f (x) = ∞.
x↑−2
Vorlesung 23, Montag 31.1.2011
In der letzten Sitzung hatten wir die verschiedensten Arten von Funktionsgrenzwerten
eingeführt, und auch bereits zwei kleine Beispiele für diese Grenzwerte gerechnet. Die
Rechnungen in diesen beiden Beispielen können offensichtlich verallgemeinert werden
um auch limx→a f (x) = f (a) für jedes reelle oder komplexe Polynom f und sogar jede
reelle oder komplexe rationale Funktion f zu zeigen, solange a keine Nullstelle des
Nenners der ratonalen Funktion ist.
Wir wollen auch noch ein Beispiel behandeln in dem der Funktionsgrenzwert nicht
existiert. Hierzu schauen wir uns die folgende Funktion an:
1
0.5
1
f : (0, ∞) → R; x 7→ sin
x
0
0.2
0.4
0.6
0.8
1
–0.5
–1
Wenn x näher zu Null rückt wird 1/x immer größer und sin(1/x) durchläuft immer
schneller seine Perioden. Dies führt dann zu dem im Graphen sichtbaren Oszillationseffekt bei Null. In diesen Beispiel gibt es überhaupt keinen Grenzwert von f (x) für
x → 0. Wir haben beispielsweise die Folge
xn =
π
2
1
+ nπ
mit limn→∞ xn = 0 und f (xn ) = (−1)n für alle n ∈ N. Anschaulich ist dies die Folge,
die gerade die abwechselnden Maxima und Minima von f (x) abläuft. Es gibt also eine
236
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
Nullfolge (xn )n∈N in (0, ∞) bei der die Folge (f (xn ))n∈N divergiert, und damit gibt es
insbesondere keinen Grenzwert der Funktion f an der Stelle 0.
Wir wollen jetzt die allgemeinen Eigenschaften von Funktionsgrenzwerten herleiten.
All diese sind vollkommen analog zu den entsprechenden Eigenschaften von Folgen
und werden auch mittels dieser Aussagen über Folgen bewiesen. Wir geben in diesem
Skript auch die vollständigen Beweise an, in der Vorlesung wurden diese weitgehend
weggelassen.
Lemma 13.1 (Grundeigenschaften von Funktionsgrenzwerten)
Seien K, L ∈ {R, C}, D ⊆ K, a ∈ K ein Häufungspunkt von D und f : D → L eine
Funktion. Dann gelten:
(a) Es gibt höchstens einen Grenzwert von f an der Stelle a.
(b) Genau dann konvergiert f an der Stelle a nicht gegen b ∈ L, wenn es ein > 0
und eine Folge (xn )n∈N in D\{a} mit (xn )n∈N −→ a und |f (xn ) − b| ≥ für alle
n ∈ N gibt.
(c) Ist L = C, so konvergiert f genau dann an der Stelle a gegen b ∈ C wenn die
reellwertige Funktion Re ◦f an der Stelle a gegen Re(b) konvergiert und die reellwertige Funktion Im ◦f an der Stelle a gegen Im(b) konvergiert.
(d) Sind L = C sowie f (D) ⊆ R und konvergiert f an der Stelle a gegen b ∈ C, so ist
auch b ∈ R.
(e) Konvergiert f an der Stelle a gegen b ∈ L, so konvergiert auch |f | an der Stelle a
gegen |b|.
(f ) Sind a ∈ K und b ∈ L, so konvergiert f genau dann an der Stelle a gegen b, wenn
es für jedes ∈ R mit > 0 stets ein δ ∈ R mit δ > 0 gibt so, dass für alle x ∈ D
mit 0 < |x − a| < δ stets auch |f (x) − b| < ist.
(g) Sei M ⊆ D so das a auch ein Häufungspunkt von M ist. Konvergiert dann f an
der Stelle a gegen ein b ∈ L, so konvergiert auch die eingeschränkte Funktion
f |M : M → L; x 7→ f (x)
an der Stelle a gegen b.
Beweis: (a) Da es überhaupt eine gegen a konvergente Folge in D\{a} gibt, folgt dies
aus §6.Lemma 1.(b).
(b) ”=⇒” Es gibt eine in K gegen a konvergente Folge (xn )n∈N in D\{a} so, dass
die Bildfolge (f (xn ))n∈N nicht gegen b konvergiert. Nach §6.Lemma 1.(c) existieren ein
> 0 und eine Teilfolge (xnk )k∈N von (xn )n∈N mit |f (xnk ) − b| ≥ für alle k ∈ N. Nach
§6.Lemma 1.(a) ist auch (xnk ) eine in K gegen a konvergente Folge in D\{a} (im Fall
a ∈ {−∞, +∞} werden dabei die Ergänzungen aus §6.2 verwendet).
237
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
”⇐=” Gibt es ein > 0 und eine in K gegen a konvergente Folge in D\{a} mit
|f (xn ) − b| ≥ für alle n ∈ N, so kann die Folge (f (xn ))n∈N nicht in L gegen b
konvergieren, und damit konvergiert auch f an der Stelle a nicht gegen b.
(c) ”=⇒” Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{a}. Dann konvergiert
die Folge (f (xn ))n∈N in C gegen b, und nach §6.Lemma 1.(d) konvergiert die Folge
(Re(f (xn )))n∈N in R gegen Re(b) und die Folge (Im(f (xn )))n∈N konvergiert in R gegen
Im(b). Damit konvergiert die Funktion Re ◦f an der Stelle a gegen Re(b) und die
Funktion Im ◦f konvergiert an der Stelle a gegen Im(b).
”⇐=” Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{x}. Nach unserer Annahme gelten dann (Re(f (xn )))n∈N −→ Re(b) und (Im(f (xn )))n∈N −→ Im(b), also ist
nach §6.Lemma 1.(d) auch (f (xn ))n∈N −→ b. Damit konvergiert f an der Stelle a gegen
b.
(d) Wähle eine gegen a konvergente Folge (xn )n∈N in D\{a}. Dann konvergiert die
Folge (f (xn ))n∈N gegen b und für alle n ∈ N gilt f (xn ) ∈ f (D) ⊆ R, also ist nach
§6.Lemma 1.(e) auch b ∈ R.
(e) Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{a}. Dann ist (f (xn ))n∈N −→
b und mit §6.Lemma 2.(b) folgt auch (|f (xn )|)n∈N −→ |b|. Damit konvergiert die Funktion |f | an der Stelle a gegen |b|.
(f ) ”=⇒” Angenommen die Aussage
∀( > 0)∃(δ > 0)∀(x ∈ D) : 0 < |x − a| < δ =⇒ |f (x) − b| < wäre falsch. Dann existiert ein > 0 so, dass es für jedes δ > 0 stets ein x ∈ D mit
0 < |x − a| < δ und |f (x) − b| ≥ gibt. Insbesondere gibt es dann für jedes n ∈ N
ein xn ∈ D mit 0 < |xn − a| < 1/n und |f (xn ) − b| ≥ . Für jedes n ∈ N ist dann
insbesondere xn 6= a also xn ∈ D\{a}. Nach §6.Lemma 4.(e) ist (xn − a)n∈N eine
Nullfolge und nach §6.Lemma 4.(d) ist (xn )n∈N −→ a. Dies ist ein Widerspruch zu (b).
”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Wir müssen zeigen, dass die
Folge (f (xn ))n∈N gegen b konvergiert. Sei also > 0 gegeben. Nach unserer Annahme
existiert dann ein δ > 0 mit |f (x) − b| < für alle x ∈ D mit 0 < |x − a| < δ. Da
(xn )n∈N gegen a konvergiert, existiert ein n0 ∈ N mit |xn − a| < δ für alle n ∈ N mit
n ≥ n0 . Sei jetzt n ∈ N mit n ≥ n0 gegeben. Wegen xn 6= a ist dann xn ∈ D mit
0 < |xn − a| < δ, also ist auch |f (xn ) − b| < . Damit ist (f (xn ))n∈N −→ b bewiesen.
Damit ist limx→a f (x) = b gezeigt.
(g) Dies ist klar.
Die Aussagen (c) und (d) des Lemmas klären den Zusammenhang zwischen reellwertigen und komplexwertigen Funktionen, für reellwertige Funktionen spielt es keine Rolle
ob wir L = R oder L = C verwenden, man kann sich dann den komplexen Fall als den
allgemeinen Fall denken. In der Limes Notation kann man (c) als
Re lim f (z) = lim Re(f (z)) und Im lim f (z) = lim Im(f (z))
z→a
z→a
z→a
238
z→a
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
beziehungsweise als
lim f (z) = lim Re(f (z)) + i · lim Im(f (z))
z→a
z→a
z→a
lesen, entsprechend wird Teil (e) zu
lim |f (x)| = lim f (x) .
x→a
x→a
Die Bedingung in Teil (f), also
∀( > 0)∃(δ > 0)∀(x ∈ D) : 0 < |x − a| < δ =⇒ |f (x) − b| < wird als die –δ Definition der Funktionskonvergenz bezeichnet, ob man diese oder die
bei uns verwendete Folgendefinition als Definition verwendet, ist recht beliebig und
wird in der Literatur unterschiedlich gehandhabt. Wenden wir Teil (f) des Lemmas auf
rechtsseitige Grenzwerte an, so ergibt sich
lim f (x) = b ⇐⇒ ∀( > 0)∃(δ > 0)∀(x ∈ D) : a < x < a + δ =⇒ |f (x) − b| < ,
x↓a
und für linksseitige Grenzwerte ergibt sich ein analoges –δ Kriterium. Auch wenn a
oder b einer der Werte ±∞ ist, kann man eine zu (f) analoge Aussage zeigen, dies
ist völlig analog zum Beweis von (f), aber durch die große Anzahl möglicher Fälle
etwas umfangreich. Für eine reellwertige Funktion f : D → R mit D ⊆ C und einem
Häufungspunkt a ∈ D0 gelten
lim f (z) = +∞ ⇐⇒ ∀(t ∈ R)∃(δ > 0)∀(z ∈ D) : 0 < |z − a| < δ =⇒ f (z) > t,
z→a
lim f (z) = −∞ ⇐⇒ ∀(t ∈ R)∃(δ > 0)∀(z ∈ D) : 0 < |z − a| < δ =⇒ f (z) < t,
z→a
für eine Funktion f : D → C definiert auf einer nach oben unbeschränkten Menge
D ⊆ R und jedes b ∈ C ist
lim f (x) = b ⇐⇒ ∀( > 0)∃(t ∈ R)∀(x ∈ D) : x > t =⇒ |f (x) − b| < ,
x→∞
und ist D nach unten unbeschränkt, so haben wir analog
lim f (x) = b ⇐⇒ ∀( > 0)∃(t ∈ R)∀(x ∈ D) : x < t =⇒ |f (x) − b| < .
x→−∞
Sind schließlich D ⊆ R und f : D → R eine reellwertige Funktion, so ergeben sich für
nach oben unbeschränktes D die Äquivalenzen
lim f (x) = +∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x > s =⇒ f (x) > t,
x→∞
lim f (x) = −∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x > s =⇒ f (x) < t
x→∞
239
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
und für nach unten unbeschränktes D ist ebenso
lim f (x) = +∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x < s =⇒ f (x) > t,
x→−∞
lim f (x) = −∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x < s =⇒ f (x) < t.
x→−∞
Für links- und rechtsseitige Grenzwerte erhält man analoge äquivalente Beschreibungen. In §6 hatten wir gesehen das die Anordnung der reellen Zahlen uns auch spezielle
Eigenschaften reeller Folgen liefert. Diese können wir jetzt auch leicht auf Grenzwerte
reellwertiger Funktionen übertragen. Dabei kommt es nur darauf an, dass die Funktionswerte reell sind, die Funktionen dürfen aber durchaus auch auf C definiert sein.
Lemma 13.2 (Anordnungseigenschaften reelller Funktionsgrenzwerte)
Seien K ∈ {R, C}, D ⊆ K und a ∈ K ein Häufungspunkt von D. Weiter seien
f, g : D → R zwei Funktionen, die beide in R an der Stelle a konvergieren.
(a) Gilt f (x) ≤ g(x) für alle x ∈ D\{a}, so ist auch
lim f (x) ≤ lim g(x).
x→a
x→a
(b) Gilt lim f (x) = lim g(x) und ist h : D → R eine weitere Funktion mit f (x) ≤
x→a
x→a
h(x) ≤ g(x) für alle x ∈ D\{a}, so ist auch die Funktion h in R an der Stelle a
konvergent mit dem Grenzwert
lim h(x) = lim f (x) = lim g(x).
x→a
x→a
x→a
Beweis: (a) Wähle eine gegen a konvergente Folge (xn )n∈N in D\{a}. Dann ist für alle
n ∈ N stets f (xn ) ≤ g(xn ) und mit §6.Lemma 5.(a) folgt
lim f (x) = lim f (xn ) ≤ lim g(xn ) = lim g(x).
x→a
n→∞
n→∞
x→a
(b) Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Dann gelten auch
lim f (xn ) = lim f (x) = lim g(x) = lim g(xn )
n→∞
x→a
x→a
n→∞
und für alle n ∈ N ist f (xn ) ≤ h(xn ) ≤ g(xn ). Nach §6.Lemma 6.(b) ist damit auch die
Folge (h(xn ))n∈N in K konvergent mit dem Grenzwert
lim h(xn ) = lim f (xn ) = lim f (x).
n→∞
n→∞
x→a
Dies beweist das die Funktion h in R an der Stelle a gegen den angegebenen Wert
konvergiert.
240
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
In Teil (a) dieses Lemmas muss man die Ungleichung nicht für alle x ∈ D\{a} fordern,
sondern es reicht aus wenn diese für alle x ∈ D\{a} nahe bei a gelten. Man sagt das
Funktionsgrenzwerte lokal sind, d.h. der Grenzwert von f (x) für x gegen a hängt nicht
vom Verhalten der Funktion für weit von a entfernte Argument ab. Ändern wir zum
Beispiel eine auf R definierte Funktion f für Argumente x > 1 ab, so wird sich der
Grenzwert der Funktion in x = 0 nicht ändern. Das folgende Lemma gibt uns eine
exakte Formulierung dieser Lokalität von Grenzwerten.
Lemma 13.3 (Funktionsgrenzwerte sind lokal)
Seien K, L ∈ {R, C}, D ⊆ K, a ∈ K ein Häufungspunkt von D und f : D → L eine
Funktion. Im Fall a ∈ K sei > 0 und betrachte die Teilmenge
e := {x ∈ D : |x − a| < } ⊆ D
D
von D und im Fall a ∈ {−∞, +∞} sei t ∈ R und betrachte die Teilmenge
(
e := {x ∈ D|x > t}, a = +∞,
D
{x ∈ D|x < t}, a = −∞
e und genau dann konvergiert die
von D. Dann ist a auch ein Häufungspunkt von D
e an der Stelle
Funktion f an der Stelle a gegen ein b ∈ L, wenn die Einschränkung f |D
a gegen b konvergiert.
Beweis: Da a ein Häufungspunkt von D ist, gibt es eine in K gegen a konvergente
Folge (xn )n∈N in D\{a}. Im Fall a 6= ±∞ gibt es ein n0 ∈ N mit |xn − a| < für alle
n ∈ N mit n ≥ n0 , im Fall a = +∞ gibt es ein n0 ∈ N mit xn > t für alle n ≥ n0 und
im letzten Fall a = −∞ gibt es ein n0 ∈ N mit xn < t für alle n ≥ n0 . In allen drei
e für alle n ∈ N mit n ≥ n0 und somit ist (xn )n≥n0 eine gegen
Fällen ist damit xn ∈ D
e
e
a konvergente Folge in D\{a},
d.h. a ist ein Häufungspunkt der Menge D\{a}.
Damit
ist die erste Aussage bewiesen.
Wir kommen zur Äquivalenzaussage für die Funktionskonvergenz.
”=⇒” Dies ist klar nach Lemma 1.(g).
”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Wie oben gesehen, gibt es
e für alle n ≥ n0 , d.h. (xn )n≥n0 ist eine gegen a konvergente
dann ein n0 ∈ N mit xn ∈ D
e
e an der Stelle a gegen b konvergiert, ist auch (f (xn ))n≥n0 −→ b
Folge in D\{a}.
Da f |D
in L. Dann ist aber auch (f (xn ))n∈N −→ b in L und damit konvergiert auch f an der
Stelle a gegen b.
Dieses Lemma erlaubt es uns in vielen Aussagen über Funktionsgrenzwerte Bedingungen an alle x im Definitionsbereich der betrachteten Funktion durch die entsprechenden
Bedingungen nur noch an die x aus dem Definitionsbereich nahe an der betrachteten
Stelle zu ersetzen. Dies werden wir oft verwenden auch ohne jedesmal explizit auf dieses Lemma hinzuweisen. Wir wollen unser Lemma über Anordnungseigenschaften von
241
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
Funktionsgrenzwerten jetzt einmal dazu verwenden, die folgende Funktion zu behandeln:
1
0.5
1
f : (0, ∞) → R; x 7→ x · sin
x
0
0.2
0.4
0.6
0.8
1
–0.5
–1
Diese ist rein formal ähnlich zur schon früher diskutierten Funktion g(x) = sin(1/x),
und die Funktion g war in x = 0 divergent, da sie zu Null hin immer schneller oszillierte. Zwar oszilliert jetzt auch die Funktion f immer schneller zwischen positiven und
negativen Werten hin und her, aber durch die Multiplikation mit x wird diese Oszillation immer kleiner, was zur Existenz des Grenzwerts führt. Zur Begründung müssen
wir nicht mehr auf Folgen zurückgehen, sondern können unseren Einschnürungssatz
Lemma 2.(b) verwenden. Für jedes x > 0 gilt
1 ≤ |x|, also − x ≤ f (x) ≤ x,
|f (x)| = x sin
x und da wir bereits wissen, dass die linke und rechte Seite dieser Ungleichung für x
gegen 0 beide gegen Null konvergieren, ist damit auch limx→0 f (x) = 0.
Ein oftmals vorkommender Funktionstyp sind Funktionen die sozusagen aus meh”
reren Stücken“ zusammengesetzt sind, wie zum Beispiel die beiden Funktionen
H(x)
xH(x)
x
x
Funktion x · H(x)
Heaviside Funktion H(x)
wobei H die schon in §3 als Beispiel verwendete Heaviside Funktion ist, also H(x) = 0
für x < 0 und H(x) = 1 für x ≥ 0. Die Heaviside Funktion hat in Null die links- und
rechtsseitigen Grenzwerte
lim H(x) = 1 und lim H(x) = 0,
x↓0
x↑0
242
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
während die Funktion xH(x) sich als
(
0, x ≤ 0,
xH(x) =
x, x ≥ 0
schreiben läßt und die links- und rechtsseitigen Grenzwerte
lim xH(x) = lim xH(x) = 0
x↓0
x↑0
hat. Das folgende Lemma sagt uns, dass dann auch der Grenzwert in x = 0 existiert
und gleich Null ist. In diesem konkreten Fall kann man das natürlich auch leicht direkt
einsehen, aber darauf kommt es uns hier nicht an.
Lemma 13.4 (Grenzwerte zusammengesetzter Funktionen)
Seien D ⊆ R eine Menge, a ∈ R ein Häufungspunkt von D und f : D → K mit
K ∈ {R, C} eine Funktion. Dann ist die Funktion f genau dann an der Stelle a gegen
ein b ∈ K konvergent wenn die folgenden beiden Bedingungen gelten:
1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt
lim f (x) = b.
x↓a
2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger
Häufungspunkt von D und es gilt
lim f (x) = b.
x↑a
Beweis: ”=⇒” Dies ist klar nach Lemma 1.(g).
”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a} und betrachte
I + := {n ∈ N|xn > a} und I − := {n ∈ N|xn < a}.
Dann können drei verschiedene Fälle auftreten.
Fall 1. Die Menge I − ist endlich. Dann gibt es ein n0 ∈ N mit xn > a, also xn ∈
D≥a \{a} für alle n ≥ 0. Damit ist insbesondere a ein rechtsseitiger Häufungspunkt von
D und es folgt
lim f (xn ) = lim f (x) = b.
n→∞
x↓a
Fall 2. Die Menge I + ist endlich. Dann haben wir analog zu Fall 1
lim f (xn ) = lim f (x) = b.
n→∞
x↑a
243
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
Fall 3. Die Mengen I + und I − sind beide unendlich. Dann haben wir zwei Teilfolgen
−
−
(xn+ )k∈N und (xn− )k∈N der Folge (xn )n∈N mit I + = {n+
k |k ∈ N} und I = {nk |k ∈ N}.
k
k
Nach §6.Lemma 1.(a) gelten auch (xn+ )k∈N −→ a und (xn− )k∈N −→ a, also ist a ein
k
k
links- und rechtsseitiger Häufungspunkt von D und es gelten
lim f (xn+ ) = lim f (x) = b sowie lim f (xn− ) = lim f (x) = b.
k→∞
k
x↓a
k→∞
k
x↑a
Nach Aufgabe (21) ist damit auch (f (xn ))n∈N −→ b.
In allen drei Fällen haben wir damit (f (xn ))n∈N −→ b eingesehen, und somit ist
limx→a f (x) = b bewiesen.
Als ein weiteres Beispiel betrachten wir den Grenzwert der Funktion
(
0, x ≤ 0,
f : R → R; x 7→
x2 , x ≥ 0
für x → 0. Diese Funktion ist aus den beiden Stücken“ f − (x) = 0 für x ≤ 0 und
”
f + (x) = x2 für x ≥ 0 zusammengesetzt. Aus unseren bisherigen Beispielen wissen wir
schon limx→0 f − (x) = limx→0 f + (x) = 0, also auch
lim f (x) = lim f (x) = 0,
x↑0
x↓0
und das eben bewiesene Lemma ergibt limx→0 f (x) = 0. Wir kehren jetzt wieder zur
Theorie zurück. Die Rechenregeln für Folgengrenzwerte übertragen sich sofort zu den
folgenden Rechenregeln für Funktionsgrenzwerte.
Satz 13.5 (Rechenregeln für Funktionsgrenzwerte)
Seien K, L ∈ {R, C}, D ⊆ K und a ∈ K ein Häufungspunkt von D. Weiter seien
f, g : D → L zwei Funktionen deren Grenzwerte an der Stelle a in L existieren.
(a) Ist {limx→a f (x), limx→a g(x)} =
6 {−∞, +∞}, so existiert der Grenzwert
lim (f (x) + g(x)) = lim f (x) + lim g(x) .
x→a
x→a
x→a
(b) Ist c ∈ L, so existiert der Grenzwert
lim (cf (x)) = c · lim f (x),
x→a
x→a
solange nicht c = 0 und limx→a f (x) ∈ {−∞, ∞} ist.
(c) Ist {limx→a f (x), limx→a g(x)} =
6 {0, +∞}, {0, −∞}, so existiert der Grenzwert
lim (f (x) · g(x)) = lim f (x) · lim g(x) .
x→a
x→a
244
x→a
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
(d) Gelten g(x) 6= 0 für alle x ∈ D\{a} und auch limx→a g(x) 6= 0 und ist auch nicht
zugleich limx→a f (x) ∈ {−∞, ∞} und limx→∞ g(x) ∈ {−∞, ∞}, so existiert der
Grenzwert
lim f (x)
f (x)
x→a
lim
=
.
x→a g(x)
lim g(x)
x→a
Beweis: Klar nach §6.Satz 6 sowie den Erweiterungen dieser Regeln in §6.2.
Wie bei Folgengrenzwerten kann man all die Einschränkungen so zusammenfassen,
dass die rechte Seite der jeweiligen Gleichung überhaupt definiert sein muss. Für Quotienten reellwertiger Funktionen können wir auch noch eine Grenzwertregel erhalten
wenn der Nenner aber nicht der Zähler gegen Null geht, zumindest solange das Vorzeichen des Nenners konstant ist. Ist also unter den Voraussetzungen des Satzes und
den zusätzlichen Annahmen L = R, sign(g(x)) = σ für alle x ∈ D\{a} und ein festes
Vorzeichen σ ∈ {−1, 1} der Grenzwert limx→a g(x) = 0 aber limx→a f (x) 6= 0, so ist
f (x)
lim
= σ · sign lim f (x) · ∞.
x→a g(x)
x→a
Auch dies folgt aus den in §6.2 behandelten Rechenregeln für Grenzwerte reeller Folgen. Als ein Beispiel zur Anwendung dieser Rechenregeln können wir die Grenzwerte
rationaler Funktionen vollständig behandeln.
Satz 13.6 (Grenzwerte rationaler Funktionen)
Sei K ∈ {R, C} und seien p(x) = an xn + · · · + a0 , q(x) = bm xm + · · · + b0 mit
n, m ∈ N, a0 , . . . , an , b0 , . . . , bm ∈ K, an 6= 0, bm 6= 0 zwei Polynomfunktionen. Weiter
nehme an, dass p und q keine gemeinsame Nullstelle in K haben, und betrachte die
rationale Funktion
p(x)
an x n + · · · + a0
=
.
f : K\q −1 ({0}) → K; x 7→
q(x)
bm x m + · · · + b0
Dann gelten:
(a) Ist a ∈ K mit q(a) 6= 0, so ist limx→a f (x) = f (a).
(b) Ist a ∈ K mit q(a) = 0, so ist limx→a |f (x)| = +∞.
(c) Sei a ∈ K = R mit q(a) = 0. Bezeichne r ≥ 1 die Vielfachheit der Nullstelle a von
q, d.h. es ist q(x) = (x − a)r qe(x) wobei qe eine Polynomfunktion von Grad m − r
mit qe(a) 6= 0 ist. Ist die Vielfachheit r gerade, so gilt
lim f (x) = sign(p(a)) · sign(e
q (a)) · ∞,
x→a
und ist die Vielfachheit r ungerade, so gelten
lim f (x) = sign(p(a)) · sign(e
q (a)) · ∞ und lim f (x) = − sign(p(a)) · sign(e
q (a)) · ∞.
x↓a
x↑a
245
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
(d) Ist K = R und m > n, so gelten
lim f (x) = lim f (x) = 0.
x→∞
x→−∞
(e) Ist K = R und m = n, so gelten
lim f (x) = lim f (x) =
x→∞
x→−∞
an
.
bn
(f ) Ist K = R und m < n, so gelten
lim f (x) = sign(an )·sign(bm )·∞ und lim f (x) = (−1)n+m sign(an )·sign(bm )·∞.
x→∞
x→−∞
Beweis: (a) Dies haben wir bereits weiter oben festgehalten.
(b,c) Es sind
r
p(x)
p(x)
p(a)
1
f (x) =
für x ∈ K\q −1 ({0}) und lim
=
6= 0
x→a q
x − a qe(x)
e(x)
qe(a)
nach (a). Da für alle x ∈ K\q −1 ({0}) stets |x − a| > 0 ist und nach Lemma 1.(e)
auch limx→a |x − a| = 0 und limx→a |p(x)/e
q (x)| = |p(a)|/|e
q (a)| > 0 gelten, folgt mit
den Rechenregeln für Funktionsgrenzwerte auch limx→a |f (x)| = +∞. Nun nehmen wir
K = R an. Für x ∈ R\q −1 ({0}) ist dann x − a > 0 für x > a und x − a < 0 für x < a,
also ergeben die Rechenregeln für Funktionsgrenzwerte auch
lim f (x) = sign(p(a)) sign(e
q (a)) · ∞
x↓a
und
lim f (x) = sign(p(a)) sign(e
q (a)) · (−∞)r = (−1)r sign(p(a)) sign(e
q (a)) · ∞.
x↑a
Zusammen mit Lemma 4 folgen damit alle Behauptungen.
(e) Mit Satz 5 ergibt sich
lim f (x) = lim
x→∞
x→∞
an +
bn +
an−1
x
bn−1
x
+ ··· +
+ ··· +
a0
xn
b0
xn
=
an
,
bn
und analog ist auch limx→−∞ f (x) = an /bn .
(d) Mit (d) und Satz 5 erhalten wir
1
xm−n p(x)
lim f (x) = lim
·
=0
x→∞
x→∞ xm−n
q(x)
und analog ist auch limx→−∞ f (x) = 0.
246
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
(f ) Mit (d) und Satz 5 erhalten wir diesmal
p(x)
an
n−m
· ∞ = sign(an ) sign(bm ) · ∞.
=
lim f (x) = lim x
· n−m
x→∞
x→∞
x
q(x)
bm
Eine analoge Rechnung ergibt dann auch
lim f (x) =
x→−∞
13.2
an
(−∞)n−m = (−1)n+m sign(an ) sign(bm ) · ∞.
bm
Stetige Funktionen
Im letzten Abschitt hatten wir gesehen, dass bei einem Polynom f über K = R oder
K = C in jedem Punkt a ∈ K die Gleichung limx→a f (x) = f (a) gilt. Man bezeichnet
dies als die Stetigkeit der Funktion f an der Stelle a. Dies ist natürlich nur dann
sinnvoll wenn wir überhaupt von einem Grenzwert der Funktion f in x = a sprechen
können, wenn also a ein Häufungspunkt des Definitionsbereich der Funktion f ist. In
allen anderen Punkten wollen wir die Funktion ebenfalls als stetig bezeichnen. Dies ist
kein wesentlicher Punkt, es ist ein Randfall der normalerweise gar nicht auftritt, wir
müssen ihn hier nur der Vollständigkeit halber mit erfassen.
Definition 13.3 (Stetigkeit in einem Punkt)
Seien K ∈ {R, C} und D ⊆ K. Dann heißt eine Funktion f : D → K stetig in einem
Punkt a ∈ D, wenn entweder a ∈
/ D0 kein Häufungspunkt von D ist oder a ∈ D0 und
limx→a f (x) = f (a) gelten.
Beachte das wir überhaupt nur in Punkten in denen die Funktion f definiert ist, von
Stetigkeit sprechen, das weicht etwas von der in der Schule manchmal verwendeten
Terminologie ab. Beispielsweise ist die Frage ob eine der Funktionen f : R\{0} →
R; x 7→ 1/x oder g : R\{0} → R; x 7→ sin x/x in x = 0 stetig ist, völlig sinnlos. Was
man fragen kann, ist ob der Grenzwert in x = 0 existiert, aber das ist eine andere
Frage. Man kann die Stetigkeitsdefinition auf verschiedene Weisen umformulieren, und
damit insbesondere die etwas störende Fallunterscheidung zum Verschwinden bringen.
Lemma 13.7 (Charakterisierung der Stetigkeit in einem Punkt)
Seien K ∈ {R, C}, D ⊆ K, a ∈ D und f : D → K eine Funktion. Dann sind die
folgenden Aussagen äquivalent:
(a) Die Funktion f ist in a stetig.
(b) Für jede Folge (xn )n∈N in D mit (xn )n∈N −→ a gilt auch (f (xn ))n∈N −→ f (a).
247
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
(c) Für jedes ∈ R mit > 0 existiert ein δ ∈ R mit δ > 0 so, dass für jedes x ∈ D
mit |x − a| < δ stets |f (x) − f (a)| < ist.
Beweis: (a)=⇒(b). Sei (xn )n∈N eine gegen a konvergente Folge in D. Wir betrachten
dann die beiden Mengen
I1 := {n ∈ N|xn 6= a} und I2 := {n ∈ N|xn = a},
und unterscheiden drei verschiedene Fälle.
Fall 1. Sei die Menge I1 endlich, d.h. es gibt ein n0 ∈ N mit xn = a für alle n ≥ n0 .
Dann ist auch f (xn ) = f (a) für alle n ≥ n0 und somit gilt (f (xn ))n∈N −→ f (a).
Fall 2. Sei die Menge I2 endlich, d.h. es gibt ein n0 ∈ N mit xn 6= a für alle n ≥ n0 .
Dann ist (xn )n≥n0 eine gegen a konvergente Folge in D\{a} und insbesondere ist a ∈ D0
ein Häufungspunkt von D. Da die Funktion f in a stetig ist, folgt
lim f (xn ) = lim f (x) = f (a).
n→∞
x→a
Fall 3. Seien I1 und I2 beide unendlich. Wir definieren die Teilfolgen (xn(1) )k∈N und
k
(j)
(xn(2) )k∈N von (xn )n∈N durch Ij = {nk |k ∈ N} für j = 1, 2. Nach §6.Lemma 1.(a) gilt
k
auch (xn(j) )k∈N −→ a für j = 1, 2, und analog zu den beiden bereits behandelten Fällen
k
haben wir auch (f (xn(j) ))k∈N −→ f (a) für j = 1, 2. Nach Aufgabe (21) ist damit auch
k
(f (xn ))n∈N −→ f (a).
(b)=⇒(a). Ist a kein Häufungspunkt von D, so ist die Aussage klar, wir können also
a ∈ D0 annehmen. Für jede gegen a konvergente Folge (xn )n∈N in D\{a} ⊆ D ist dann
nach unserer Annahme auch (f (xn ))n∈N −→ f (a), d.h. wir haben limx→a f (x) = f (a),
und somit ist f auch in diesem Fall stetig in a.
(a)=⇒(c). Ist a ∈
/ D0 kein Häufungspunkt von D, so existiert ein δ > 0 mit {x ∈ D :
|x − a| < δ} = {a}, und dann ist für jedes x ∈ D mit |x − a| < δ wegen x = a auch
f (x) = f (a) und |f (x) − f (a)| = 0. Wir können also annehmen das a ∈ D0 ist, und
dann ist auch limx→a f (x) = f (a). Sei > 0. Nach Lemma 1.(f) existiert ein δ > 0 mit
|f (x) − f (a)| < für alle x ∈ D mit 0 < |x − a| < δ. Ist also x ∈ D mit |x − a| < δ, so
ist im Fall x 6= a sofort |f (x) − f (a)| < und im Fall x = a haben wir trivialerweise
ebenfalls |f (x) − f (a)| = 0 < .
(c)=⇒(a). Ist a ∈
/ D0 so sind wir bereits fertig. Nun sei a ∈ D0 . Dann gilt nach Lemma
1.(f) auch limx→a f (x) = f (a) und f ist auch in diesem Fall in a stetig.
Die Bedingung in (c) kann man als
∀( > 0)∃(δ > 0)∀(x ∈ D) : |x − a| < δ =⇒ |f (x) − f (x)| < schreiben, und bezeichnet dies als die –δ Definition der Stetigkeit in a. Oftmals wird
auch diese Bedingung als die Definition der Stetigkeit in a verwendet, wie bei den
248
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
Funktionsgrenzwerten ist dies im wesentlichen eine Geschmacksfrage. Eine Interpretation der –δ Bedingung ist es sich diese als eine Bedingung an Fehlerschranken zu
denken. Geben wir uns eine Fehlerschranke für die Werte der Funktion vor, so finden
wir eine passende Fehlerschranke δ für die Argumente der Funktion so, dass wann immer x eine Näherung an a mit Fehler höchstens δ ist, also wenn |x − a| < δ gilt, der
Wert f (x) eine Näherung an f (a) mit dem Fehler höchstens ist, also |f (x)−f (a)| < .
Jede der im vorigen Abschnitt hergeleiteten Eigenschaften von Funktionsgrenzwerten ergibt auch eine entsprechende Eigenschaft des Stetigkeitsbegriffs in einem Punkt.
Das folgende Lemma fasst einen Großteil der sich so ergebenden Eigenschaften zusammen.
Lemma 13.8 (Grundeigenschaften der Stetigkeit in einem Punkt)
Seien K ∈ {R, C}, D ⊆ K und a ∈ D gegeben. Weiter sei f : D → K eine Funktion.
(a) Ist f in a stetig, so ist auch die Funktion |f | in a stetig.
(b) Ist K = C, so ist f genau dann in a stetig, wenn die beiden Funktionen Re ◦f und
Im ◦f in a stetig sind.
(c) Ist M ⊆ D mit a ∈ M und ist f in a stetig, so ist auch f |M in a stetig.
e := {x ∈ D : |x − a| < }. Dann ist f genau dann in a stetig
(d) Sei > 0 und setze D
e in a stetig ist.
wenn f |D
(e) Ist K = R, so ist f genau dann in a stetig, wenn die folgenden beiden Aussagen
gelten:
1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt lim f (x) = f (a).
x↓a
2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger Häufungspunkt von D und es gilt lim f (x) = f (a).
x↑a
Beweis: Ist a ∈
/ D0 so ist auch a ∈
/ M 0 für jede Teilmenge M ⊆ D und alle Aussagen
sind trivial. Wir können also a ∈ D0 annehmen.
(a) Klar nach Lemma 1.(e).
(b) Klar nach Lemma 1.(c).
(c) Klar nach Lemma 1.(g).
(d) Klar nach Lemma 3.
(e) Klar nach Lemma 4.
Die Rechenregeln für Funktionsgrenzwerte ergeben sofort auch entsprechende Rechenregeln für die Stetigkeit in einem Punkt.
249
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
Lemma 13.9 (Rechenregeln für die Stetigkeit in einem Punkt)
Seien K ∈ {R, C}, D ⊆ K und a ∈ D gegeben. Weiter seien f, g : D → K zwei in a
stetige Funktionen. Dann gelten:
(a) Die Funktion f + g ist in a stetig.
(b) Ist c ∈ K, so ist die Funktion c · f in a stetig.
(c) Die Funktion f · g ist in f stetig.
(d) Ist g(x) 6= 0 für alle x ∈ D, so ist die Funktion f /g in a stetig.
Beweis: Im Fall a ∈
/ D0 sind alle vier Aussagen klar und im Hauptfall a ∈ D0 folgen
sie alle aus Satz 5.
Als einzige Aussage über die Stetigkeit in einem Punkt, die sich nicht direkt aus
einer entsprechenden Aussage über Funktionsgrenzwerte ergibt, wollen wir jetzt die
Stetigkeit von Hintereinanderausführungen von Funktionen untersuchen.
Lemma 13.10 (Stetigkeit und Hintereinanderausführungen)
e ⊆ L, g : D
e → L sei stetig in b ∈ D
e und f : D → D
e
Seien K, L ∈ {R, C}, D ⊆ K, D
sei eine weitere Funktion.
(a) Sei a ∈ K ein Häufungspunkt von D mit limx→a f (x) = b. Dann gilt auch
lim g(f (x)) = g(b).
x→a
(b) Sind K = L, a ∈ D und ist f in a stetig mit f (a) = b, so ist auch g ◦ f : D → K
in a stetig.
Beweis: (a) Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Dann ist auch
(f (xn ))n∈N −→ b und nach Lemma 7 ist damit (g(f (xn )))n∈N −→ g(b). Somit konvergiert die Funktion g ◦ f an der Stelle a gegen g(b).
(b) Ist a ∈
/ D0 , so ist dies klar und ist a ∈ D0 , so gilt limx→a f (x) = f (a) = b und nach
(a) ist auch limx→a g(f (x)) = g(b) = g(f (a)), d.h. g ◦ f ist auch in diesem Fall in a
stetig.
Nachdem wir bisher nur die Stetigkeit in einem einzelnen Punkt des Definitionsbereichs
betrachtet haben, kommen wir nun zur Stetigkeit der gesamten Funktion.
Definition 13.4 (Stetige Funktionen)
Seien K ∈ {R, C} und D ⊆ K eine Teilmenge. Dann heißt eine Funktion f : D → K
stetig wenn sie in jedem Punkt a ∈ D stetig ist.
Wir wollen einige erste einfache Beispiele stetiger Funktionen durchgehen.
250
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
1. Ist K ∈ {R, C}, so ist jedes Polynom f : K → K stetig.
2. Ist f eine rationale Funktion über K und bezeichnet N die Menge der Nullstellen
ihres Nenners, so ist f : K\N → K stetig.
3. Der Betrag | | : K → R ist stetig. Dies folgt zum Beispiel aus Lemma 8.(a).
4. Die Funktionen Re : C → R und Im : C → R sind stetig. Dies gilt zum Beispiel
nach Lemma 8.(b).
Zur Behandlung weiterer Beispiele verwenden wir die Aussagen (c) und (d) des folgenden Lemmas.
Lemma 13.11 (Charakterisierung der Stetigkeit)
Seien K ∈ {R, C}, D ⊆ K und f : D → K eine Funktion.
(a) Die Funktion f ist genau dann stetig wenn für jede konvergente Folge (xn )n∈N in
D mit limn→∞ xn ∈ D auch die Folge (f (xn ))n∈N konvergent ist mit
lim f (xn ) = f
n→∞
lim xn .
n→∞
(b) Ist K = C so ist f genau dann stetig wenn die beiden reellwertigen Funktionen
Re ◦f : D → R und Im ◦f : D → R stetig sind.
(c) Ist f stetig und ist M ⊆ D eine Teilmenge, so ist auch die Einschränkung f |M
stetig.
(d) Ist K = R und a ∈ R, so ist f genau dann stetig wenn die beiden Einschränkungen
f |D≥a und f |D≤a stetig sind.
Beweis: (a) Dies ist klar nach Lemma 7.
(b) Dies ist klar nach Lemma 8.(b).
(c) Dies ist klar nach Lemma 8.(c).
(d) ”=⇒” Klar nach (c).
e := {x ∈ D : |x − p| <
”⇐=” Sei p ∈ D. Ist p > a, so setzen wir := p − a > 0 und D
e in p stetig und nach Lemma 8.(d) ist damit auch
} ⊆ D≥a . Nach Lemma 8.(c) ist f |D
f in p stetig. Ist p < a so folgt die Stetigkeit von f in p analog. Wir müssen also nur
noch die Stetigkeit von f in a zeigen, und diese ist klar nach Lemma 8.(e).
251
Mathematik für Physiker I, WS 2010/2011
Wir wollen kurz vorführen wie sich mit den bisherigen Aussagen die Stetigkeit der nebenstehend
gezeigten Funktion


0,
x ≤ −2,





2 + x, −2 ≤ x ≤ −1,
f : R → R; x 7→ 1,
−1 ≤ x ≤ 1,



2 − x, 1 ≤ x ≤ 2,



0,
x≥2
Montag 31.1.2011
f(x)
−2
−1
1
2
x
zeigen läst. Zunächst sind die konstante Funktion f |(−∞, −2] und die Funktion
f |[−2, −1] als Einschränkung eines Polynoms stetig, und damit ist nach Teil (d) des obigen Lemmas auch f |(−∞, −1] stetig. Weiter ist dann die konstante Funktion f |[−1, 1]
stetig, und wieder nach Teil (d) des Lemmas ist f |(−∞, 1] stetig. Fahren wir noch
zweimal so fort, so erhalten wir schließlich die Stetigkeit der Funktion f : R → R. Diese Argumentation läßt sich auf alle ähnlichen Situationen übertragen, so das man nur
noch überprüfen muss das die einzelnen Stücke zusammenpassen. Zum Abschluß dieser allgemeinen Aussagen zum Nachweis der Stetigkeit, wollen wir noch die folgenden
Rechenregeln festhalten.
Satz 13.12 (Rechenregeln für die Stetigkeit)
Seien K ∈ {R, C}, D ⊆ K und f, g : D → K zwei stetige Funktionen. Dann gelten:
(a) Die Funktion f + g : D → K ist stetig.
(b) Für jedes c ∈ K ist die Funktion cf : D → K stetig.
(c) Die Funktion f · g : D → K ist stetig.
(d) Ist g(x) 6= 0 für alle x ∈ D, so ist die Funktion f /g : D → K stetig.
e ⊆ K und h : D
e → D stetig, so ist auch die Hintereinanderausführung
(e) Sind auch D
e → K stetig.
g◦h:D
Beweis: (a,b,c,d) Klar nach Lemma 9.
(e) Klar nach Lemma 10.(b).
13.3
Eigenschaften reeller stetiger Funktionen
In diesem Abschnitt beschäftigen wir uns mit auf R definierten, reellwertigen stetigen
Funktionen. Für derartige Funktionen werden wir zwei grundlegende Sätze herleiten,
zum einen den Satz über die Beschränktheit solcher Funktionen und zum anderen
252
Mathematik für Physiker I, WS 2010/2011
Montag 31.1.2011
den sogenannten Zwischenwertsatz. Letzterer ist dabei nur eine etwas exaktere Version
der anschaulichen Beobachtung das stetige Funktionen keine Sprünge haben. Bisher
haben wir nur beschränkte Mengen und Folgen definiert, aber noch keine beschränkten
Funktionen, was wir nun nachholen müssen.
Definition 13.5: Seien K ∈ {R, C} und D eine Menge. Eine Funktion f : D → K heißt
beschränkt wenn ihre Bildmenge f (D) = {f (x)|x ∈ D} ⊆ K beschränkt ist, wenn es
also ein C ≥ 0 mit |f (x)| ≤ C für alle x ∈ D gibt.
Ist K = R, so nennen wir f entsprechend nach oben beschränkt wenn die Menge
f (D) nach oben beschränkt ist und nach unten beschränkt wenn die Menge f (D) nach
unten beschränkt ist.
Eine reellwertige Funktion ist natürlich genau dann beschränkt wenn sie nach oben
und nach unten beschränkt ist. Genau wie wir es für Mengen in §5.2 eingesehen haben,
ist eine komplexwertige Funktion f : D → C genau dann beschränkt wenn die beiden
reellwertigen Funktionen Re ◦f und Im ◦f beide beschränkt sind. Wir kommen nun
zum angekündigten Satz über die Beschränktheit stetiger Funktionen. Für die Gültigkeit dieses Satzes ist nicht nur die Stetigkeit der Funktion wichtig, sondern auch die
Form des Definitionsbereichs der Funktion. Es gibt ja offenbar unbeschränkte stetige
Funktionen wie etwa f (x) = x definiert auf ganz R.
Satz 13.13 (Existenz von Maximum und Minimum)
Seien a, b ∈ R mit a ≤ b und sei f : [a, b] → R eine stetige Funktion. Dann ist f
beschränkt und nimmt ihr Supremum und Infimum an, d.h. es gibt x1 , x2 ∈ [a, b] mit
f (x1 ) ≤ f (x) ≤ f (x2 ) für alle x ∈ [a, b].
Beweis: Setze s := sup f ([a, b]) ∈ R ∪ {+∞}. Weiter wähle eine Folge (sn )n∈N in R
mit sup{sn |n ∈ N} = s und sn < s für alle n ∈ N. Für jedes n ∈ N existiert dann
wegen sn < s ein xn ∈ [a, b] mit f (xn ) > sn . Nach dem Satz von Heine-Borel §6.Satz 11
existiert eine konvergente Teilfolge (xnk )k∈N von (xn )n∈N . Wir setzen x := limk→∞ xnk
und wegen a ≤ xnk ≤ b für alle k ∈ N ist auch a ≤ x ≤ b, d.h. x ∈ [a, b]. Mit §6.Lemma
5.(a) folgt
s = lim sn = lim snk ≤ lim f (xnk ) = f lim xnk = f (x) ≤ s,
n→∞
k→∞
k→∞
k→∞
d.h. es ist f (x) = s. Insbesondere ist s < +∞, d.h. die Funktion f ist nach oben
beschränkt. Die Aussage über das Minimum folgt analog.
Damit kommen wir zum Zwischenwertsatz. Das wesentliche Beweisprinzip haben wir
schon einmal gesehen, nämlich beim Beweis der Existenz reeller Wurzeln in §4.Lemma
7. Die Details werden sich natürlich unterscheiden, bei der Behandlung der Wurzeln
konnten wir spezifische Abschätzungen über Potenzen verwenden, bei einer allgemeinen
stetigen Funktion muss man dagegen etwas abstrakter vorgehen. Tatsächlich liefert uns
der Zwischenwertsatz auch einen zweiten Beweis der Existenz von Wurzeln.
253
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Satz 13.14 (Zwischenwertsatz)
Seien a, b ∈ R mit a ≤ b und sei f : [a, b] → R eine stetige Funktion. Weiter sei y ∈ R
zwischen f (a) und f (b), also f (a) ≤ y ≤ f (b) oder f (b) ≤ y ≤ f (a). Dann existiert
ein x ∈ [a, b] mit f (x) = y.
Beweis: Wir behandeln den Fall f (a) ≤ y ≤ f (b), der andere Fall ist dann analog. Ist
y = f (a) oder y = f (b), so sind wir bereits fertig, d.h. wir können sogar f (a) < y < f (b)
annehmen. Wir betrachten die Menge
M := {x ∈ [a, b]|f (x) ≥ y} ⊆ [a, b].
Wegen b ∈ M ist M nicht leer und durch a nach unten beschränkt, also existiert
x := inf M und es ist a ≤ x ≤ b,
d.h. x ∈ [a, b]. Für jedes n ∈ N mit n ≥ 1 ist x + 1/n > x = inf M , also existiert ein
xn ∈ M ⊆ [a, b] mit x ≤ xn < x + 1/n. Nach dem Einschnürungslemma für Folgen
§6.Lemma 5.(b) ist damit limn→∞ xn = x, und wegen f (xn ) ≥ y für alle n ∈ N ist auch
f (x) = f lim xn = lim f (xn ) ≥ y.
n→∞
n→∞
Wegen f (a) < y ist x > a. Insbesondere existiert ein n0 ∈ N mit x − 1/n0 > a, und für
jedes n ≥ n0 haben wir damit auch
a<x−
1
1
≤ x − < x = inf M,
n0
n
also auch x − 1/n ∈
/ M aber x − 1/n ∈ [a, b], also f (x − 1/n) < y. Es folgt
1
1
f (x) = f lim x −
= lim f x −
≤ y.
n→∞
n→∞
n
n
Insgesamt ist somit f (x) = y.
Vorlesung 24, Freitag 4.2.2011
Am Ende der letzten Sitzung hatten wir den sogenannten Zwischwertsatz für stetige Funktionen notiert, der im wesentlichen eine formalisierte Version der Aussage
stetige Funktionen haben keine Sprünge“ ist. All die Aussagen die man gewöhnlich
”
über letztere anschauliche Vorstellung erschließt können durch den Zwischenwertsatz
254
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
exakt bewiesen werden. Als ein Beispiel wollen wir einmal die Lösbarkeit von Gleichungen f (x) = y mit stetiger linker Seite herleiten. Gegeben sei eine stetige Funktion
f : R → R mit limx→−∞ f (x) = −∞ und limx→∞ f (x) = +∞ und wir wollen zeigen,
dass f (x) = y immer lösbar ist, die Abbildung f also surjektiv ist. Sei nämlich ein
y ∈ R gegeben. Wegen limx→−∞ f (x) = −∞ gibt es dann ein a ∈ R mit f (a) < y
und wegen limx→∞ f (x) = +∞ gibt es weiter ein b ∈ R mit b > a und f (b) > y.
Der Zwischenwertsatz liefert dann ein x ∈ [a, b] mit f (x) = y. Eine Verallgemeinerung
dieses Arguments werden wir im folgenden Satz festhalten. Die Hauptaussage wird dabei sein, dass für auf Intervallen definierte stetige Funktionen die Begriffe injektiv und
streng monoton äquivalent sind. Da wir bisher Monotonieeigenschaften nur bei Folgen
definiert haben, müssen wir diese aber erst einmal auf reelle Funktionen übertragen.
Definition 13.6: Seien I ⊆ R ein Intervall und f : I → R eine Funktion. Dann heißt f
1. monoton steigend wenn f (x) ≤ f (y) für alle x, y ∈ I mit x ≤ y gilt,
2. streng monoton steigend wenn f (x) < f (y) für alle x, y ∈ I mit x < y gilt,
3. monoton fallend wenn f (x) ≥ f (y) für alle x, y ∈ I mit x ≤ y gilt,
4. streng monoton fallend wenn f (x) > f (y) für alle x, y ∈ I mit x < y gilt,
5. monoton wenn f monoton steigend oder monoton fallend ist,
6. streng monoton wenn f streng monoton steigend oder streng monoton fallend
ist.
Beachte das eine streng monotone Funktion f : I → R immer injektiv ist, sind x, y im
Definitionsbereich der Funktion mit x 6= y, so können wir nach eventuellen Vertauschen
von x und y auch x < y annehmen, und haben dann f (x) < f (y) oder f (y) < f (x),
also auf jeden Fall f (x) 6= f (y). Weiter ist die Umkehrfunktion f −1 : f (I) → I wieder
streng monoton von derselben Sorte wie f . Sei f streng monoton steigend. Sind dann
x, y ∈ f (I) mit x < y, so folgte aus f −1 (y) ≤ f −1 (x) auch der Widerspruch y =
f (f −1 (y)) ≤ f (f −1 (x)) = x, es muss also f −1 (x) < f −1 (y) sein und f −1 ist wieder
streng monoton steigend. Analog folgt das f −1 streng monoton fallend ist wenn f
streng monoton fallend ist.
Wie schon bemerkt wollen wir einsehen, dass eine injektive
stetige Funktion streng monoton steigend oder streng monoton
fallend ist. Der Beweis wurde in der Vorlesung nicht vorgeführt,
man kann sich aber schnell an einem Bild klarmachen warum die
y
Funktion monoton sein muss. Wenn f irgendwann seine Rich”
tung ändert“, also etwa zunächst steigt und dann wieder fällt, so
a
haben wir die nebenstehend abgebildete Situation. Wenden wir
dann den Zwischenwertsatz in den links und rechts vom Umkehrpunkt liegenden Intervallen an, so erhalten wir das ein geeignetes y ∈ R links und
rechts von a von der Funktion als Wert angenommen wird. Dies wiederspricht dann
255
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
der Injektivität der Funktion f , da eine injektive Funktion jeden Wert an höchstens
einer Stelle annimmt. Dies ersetzt natürlich keinen exakten Beweis, der Vollständigkeit
halber werden wir auch einen solchen angeben.
Satz 13.15 (Monotonie stetiger Funktionen)
Seien ∅ =
6 I ⊆ R ein Intervall und f : I → R eine stetige Funktion.
(a) Das Bild J := f (I) ⊆ R ist wieder ein Intervall.
(b) Genau dann ist f injektiv wenn f streng monoton ist.
(c) Ist f streng monoton, so ist auch die Umkehrfunktion f −1 : J → I stetig.
Beweis: (a) Setze a := inf J ∈ R ∪ {−∞} und b := sup J ∈ R ∪ {+∞}. Dann ist a ≤ b.
Ist sogar a = b, so haben wir J = {a} und sind bereits fertig, wir können also a < b
annehmen. Sei y ∈ R mit inf J = a < x < b = sup J. Dann existieren u, v ∈ I mit
f (u) < x < f (v), und nach dem Zwischenwertsatz Satz 14 existiert ein x zwischen u
und v, also auch x ∈ I, mit y = f (x) ∈ J. Dies zeigt (a, b) ⊆ J, und damit ist J eines
der höchstens vier möglichen Intervalle mit Grenzen a und b.
(b) Es ist nur die Implikation von links nach rechts zu zeigen, wir nehmen also an,
dass die Funktion f injektiv ist. Wir teilen den Beweis in drei Schritte auf.
(1) Seien a, b ∈ I mit a < b und f (a) < f (b). Dann ist für alle x ∈ (a, b) auch
f (x) ∈ (f (a), f (b)). Andernfalls wäre nämlich f (x) ≤ f (a) oder f (x) ≥ f (b). Ist
f (x) ≤ f (a), so hätten wir f (x) ≤ f (a) < f (b) also liegt f (a) zwischen f (x) und f (b),
d.h. nach Satz 14 existiert ein x0 ∈ [x, b] mit f (x0 ) = f (a). Wegen a < x ≤ x0 ist x0 6= a,
im Widerspruch zur Injektivität von f . Der zweite Fall f (x) ≥ f (b) führt analog zu
einem Widerspruch.
Damit ist Schritt (1) eingesehen. Analog ergibt sich das für a, b ∈ I mit a < b und
f (a) > f (b) auch f (x) ∈ (f (b), f (a)) für alle x ∈ (a, b) ist.
(2) Sind a, b ∈ I mit a < b und f (a) < f (b), so ist f |[a, b] streng monoton steigend.
Seien nämlich x, y ∈ [a, b] mit x < y gegeben. Nach Schritt (1) ist dann f (x) < f (b)
und wegen y ∈ (x, b) ergibt eine weitere Anwendung von Schritt (1) auch f (x) < f (y).
Damit ist auch Schritt (2) eingesehen. Analog folgt das für a, b ∈ I mit a < b und
f (a) > f (b) die Funktion f |[a, b] streng monoton fallend ist.
(3) Jetzt zeigen wir, dass f streng monoton ist. Gilt für alle x, y ∈ I mit x < y
stets f (y) ≤ f (x), so ist sogar f (y) < f (x) für alle x, y ∈ I mit x < y da f injektiv
ist, d.h. die Funktion f ist streng monoton fallend. Andernfalls existieren a, b ∈ I
mit a < b und f (a) < f (b). Seien x, y ∈ I mit x < y. Setze u := min{a, x} ∈ I
und v := max{y, b} ∈ I. Dann ist u ≤ a < b ≤ v und u ≤ x < y ≤ v, also
u < v und a, b, x, y ∈ [u, v]. Wäre f (v) < f (u), so wäre f |[a, b] nach Schritt (2) streng
monoton fallend, im Widerspruch zu f (a) < f (b). Da f injektiv ist, kann auch nicht
f (u) = f (v) sein, d.h. es ist f (u) < f (v). Erneut nach Schritt (2) ist f |[u, v] streng
monoton steigend, und damit haben wir f (x) < f (y). Dies zeigt, das f streng monoton
steigend ist.
256
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
(c) Angenommen die Umkehrabbildung f −1 : J → R wäre nicht stetig. Dann existiert
ein Punkt y ∈ J in dem f −1 nicht stetig ist, und dies bedeutet das f −1 (y) nicht der
Grenzwert von f −1 an der Stelle y ist. Nach Lemma 1.(b) existieren ein > 0 und eine
gegen y konvergente Folge (yn )n∈N in J mit |f −1 (yn ) − f −1 (y)| ≥ für alle n ∈ N. Da
J ein Intervall ist, existieren u, v ∈ J mit u ≤ v und ein δ > 0 mit
J ∩ (y − δ, y + δ) ⊆ [u, v].
Wegen u, v ∈ J = f (I) können wir {u, v} = {f (a), f (b)} mit a, b ∈ I, a < b schreiben.
Wegen (yn )n∈N −→ y existiert ein n0 ∈ N mit |yn − y| < δ für alle n ∈ N mit n ≥ n0 ,
und für diese n ist damit auch yn ∈ J ∩ (y − δ, y + δ) ⊆ [u, v], d.h. u ≤ yn ≤ v. Da
auch f −1 wieder monoton ist, gilt damit auch a ≤ f −1 (yn ) ≤ b für alle n ≥ n0 , und
insbesondere ist die Folge (f −1 (yn ))n∈N beschränkt. Nach dem Satz von Heine Borel
§6.Satz 11 existiert eine konvergente Teilfolge (f −1 (ynk ))k∈N von (f −1 (yn ))n∈N , und es
bezeichne x ∈ R ihren Grenzwert. Wegen a ≤ f −1 (ynk ) ≤ b für alle k ∈ N ist auch
a ≤ x ≤ b, also x ∈ [a, b] ⊆ I. Die Stetigkeit von f impliziert nun
f (x) = lim f (f −1 (ynk )) = lim ynk = y,
k→∞
k→∞
d.h. es ist x = f −1 (y), und somit haben wir |f −1 (ynk ) − x| = |f −1 (ynk ) − f −1 (y)| ≥ für alle k ∈ N, im Widerspruch zu (f −1 (ynk ))k∈N −→ x. Dieser Widerspruch beweist
die Stetigkeit von f −1 .
Als eine Anwendung können wir die Stetigkeit der Wurzelfunktionen nachweisen.
Sei n ∈ N mit n ≥ 1. Dann ist die Funktion f : R≥0 → R≥0 ; x 7→ xn stetig, streng
monoton steigend und surjektiv, und ihre Umkehrfunktion ist die Wurzelfunktion
√
n
: R≥0 → R≥0 .
Der eben bewiesene Satz sagt dann, dass auch diese Wurzelfunktion stetig ist. Damit
wissen wir dann√zum Beispiel, das für eine konvergente Folge (xk )k∈N −→ a in R≥0 auch
√
( n xk )k∈N −→ n a ist. Weiter folgt die Stetigkeit der Potenzfunktionen zu rationalen
Exponenten, d.h. ist α ∈ Q, so ist die Funktion
R>0 → R>0 ; x 7→ xα
stetig. Schreiben wir nämlich α = p/q mit p ∈ Z, q ∈ N, q ≥ 1, so ist
√
xα = ( q x)p
für alle x > 0 und dies ist als eine Hintereinanderausführung stetiger Funktionen wieder
stetig.
257
Mathematik für Physiker I, WS 2010/2011
13.4
Freitag 4.2.2011
Potenzreihen
Bisher haben wir an Beispielen stetiger Funktionen nur Polynome, rationale Funktionen, Wurzeln und aus solchen Teilen zusammengesetzte Funktionen. In diesem Abschnitt wollen wir jetzt eine umfangreiche Klasse stetiger Funktionen konstruieren die
sogenannten Potenzreihen. Eine Potenzreihe über K ∈ {R, C} ist eine Reihe der Form
f (z) =
∞
X
an (z − z0 )n
n=0
mit Koeffizienten an ∈ K für n ∈ N. Etwas genauer spricht man von einer Potenzreihe
mit dem Entwicklungspunkt z0 ∈ K. Solange diese Reihe konvergiert kann man sie als
eine Funktion in z ∈ K auffassen, die manchmal ebenfalls als Potenzreihe bezeichnet
wird. Beispielsweise ist die geometrische Reihe
f (z) =
∞
X
zn
n=0
eine für |z| < 1 definierte Funktion. Wir wissen auch schon, dass einfach
f (z) =
∞
X
zn =
n=0
1
1−z
für |z| < 1 gilt. Die Reihe konvergiert hier auf einem Kreis dessen Mittelpunkt der
Entwicklungspunkt z0 = 0 der Potenzreihe ist. Es stellt sich heraus, dass dies das
normale Konvergenzverhalten von Potenzreihen ist. Auch den Radius dieses Kreises
kann man explizit hinschreiben.
Definition 13.7 (Der Konvergenzradius einer P
Potenzreihe)
n
Der Konvergenzradius einer Potenzreihe f (z) = ∞
n=0 an (z − z0 ) über K ∈ {R, C} ist
die Zahl
r := sup {q ∈ R≥0 |Die Folge (|an |q n )n∈N ist beschränkt } ∈ R≥0 ∪ {∞}.
Es wird sich herausstellen, dass sich Potenzreihen in einem gewissen Sinne wie Polynome vom Grad ∞ verhalten. Diese Analogie kann man tatsächlich sehr weit treiben,
aber dies werden wir in diesem Semester noch nicht tun. Wir werden jetzt nur einige
Grundeigenschaften von Potenzreihen herleiten. Auf die Beweise all der folgenden Aussagen über Potenzreihen musste in der Vorlesung leider verzichtet werden, aber hier
werden wir die Beweise mit aufführen.
Lemma 13.16 (Konvergenzverhalten
P∞ von Potenzreihen)
Sei K ∈ {R, C} und sei f (z) = n=0 an (z − z0 )n eine Potenzreihe über K mit Entwicklungspunkt z0 ∈ K und Konvergenzradius r. Dann gelten:
258
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
(a) Für jedes z ∈ K mit |z − z0 | > r ist die Potenzreihe f (z) divergent.
(b) Sei s ∈ R mit 0 < s < r. Dann existieren Konstanten q, C ∈ R mit s < q ≤ r und
C > 0 mit den folgenden Eigenschaften:
1. Für jedes n ∈ N ist |an | ≤
C
.
qn
2. P
Für jedes z ∈ K mit |z − z0 | ≤ s ist die Reihe f (z) absolut konvergent und
∞
n
n=0 (s/q) ist eine konvergente Majorante von f (z).
3. Für jedes z ∈ K mit |z − z0 | ≤ s gilt |f (z)| ≤
Cq
.
q−s
P
n
Beweis: (a) Angenommen die Reihe ∞
n=0 an (z − z0 ) ist konvergent. Nach §7.Lemma
3 ist (an (z−z0 )n )n∈N eine Nullfolge, und damit ist auch (|an |·|z−z0 |n )n∈N eine Nullfolge,
also nach §6.Lemma 2.(a) insbesondere beschränkt. Es folgt |z − z0 | ≤ r.
(b) Wegen s < r existiert ein q ∈ R mit q > s so, dass die Folge (|an |q n )n∈N beschränkt
ist, d.h. es gibt ein C ∈ R mit C > 0 und |an |q n ≤ C für alle n ∈ N. Insbesondere
haben wir Eigenschaft (1). Für jedes z ∈ K mit |z − z0 | ≤ s folgt weiter
|z − z0 |n
|an (z − z0 ) | = |an | · |z − z0 | = |an |q ·
≤C
qn
n
n
n
n
s
,
q
P
n
für alle n ∈ N und wegen s/q < 1 ist ∞
n=0 (s/q) eine konvergente Majorante von f (z).
Nach dem Majorantenkriterium §7.Satz 14 ist damit f (z) absolut konvergent, und wir
haben (2). Schließlich gilt nach §7.Lemma 10 auch
∞
∞
∞ n
X
X
X
s
Cq
n
n
|f (z)| = an (z − z0 ) ≤
|an (z − z0 ) | ≤ C
=
,
n=0
n=0
q
q−s
n=0
und auch (3) ist bewiesen.
Innerhalb des Kreises mit Mittelpunkt z0 und
Radius r ist f (z) also absolut konvergent und außerhalb dieses Kreises ist f (z) divergent, man bezeichnet den Kreis Br (z0 ) mit Radius r und Mittelpunkt z0 daher auch als den Konvergenzkreis der
Potenzreihe. Für r = +∞ wird der Kreis dabei als
ganz K interpretiert. Im reellen Fall K = R hat
man natürlich eigentlich nur ein Intervall, aber der
Einheitlichkeit halber spricht man weiter von einem
Konvergenzkreis. Was auf dem Rand des Kreises,
also im Fall |z − z0 | = r, passiert, hängt ganz von
259
Divergenz
r
x0
(absolute) Konvergenz
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
der speziellen Potenzreihe ab. Beachte weiter das der Konvergenzradius nur von den
Beträgen der Koeffizienten an abhängt, d.h. die reelle Potenzreihe
F (x) :=
∞
X
|an |xn
n=0
hat denselben Konvergenzradius r, und ist nach Lemma 16 für |x| < r konvergent.
Nach §7.Lemma 10 ist für jedes z ∈ K mit |z − z0 | < r auch
∞
∞
X
X
n
|an | · |z − z0 |n = F (|z − z0 |).
an (z − z0 ) ≤
|f (z)| = n=0
n=0
Es gibt auch eine explizite Formel für den Konvergenzradius, die wir nun herleiten
wollen.
Satz 13.17 (Hadamardsche FormelP
für den Konvergenzradius)
∞
n
Sei K ∈ {R, C} und sei f (z) =
n=0 an (z − z0 ) eine Potenzreihe über K mit
Entwicklungspunkt z0 und Konvergenzradius r. Dann gilt
r=
1
lim sup
p
n
|an |
,
n→∞
wobei 1/0 als +∞ zu interpretieren ist. Gibt es ein n0 ∈ N mit an 6= 0 für alle n ≥ n0
und ist die Folge (|an |/|an+1 |)n∈N in R konvergent, so ist auch
|an |
.
n→∞ |an+1 |
r = lim
p
Beweis: Wir schreiben s := lim supn→∞ n |an | ∈ R≥0 ∪ {+∞}. Sei q ∈ R>0 so, dass die
Folge (|an |q n )n∈N beschränkt ist, d.h. es gibt
ein C >√
0 mit |an |q n ≤ C für alle n ∈ N.
p
n
Für jedes n ∈ N mit n ≥ 1 ist damit auch n |an |q ≤ C, und es folgt
p
p
√
√
n
n
qs = q · lim sup n |an | = lim sup( n |an |q) ≤ lim sup C = lim C = 1.
n→∞
n→∞
n→∞
n→∞
Insbesondere ist s 6= +∞ und q ≤ 1/s. Im Fall s = +∞ ist die Folge (|an |q n )n∈N also
nur für q = 0 beschränkt, und somit ist r = 0 = 1/s. Wir können jetzt also s < +∞
annehmen, und haben dann q ≤ 1/s für jedes q ∈ R≥0 für das (|an |q n )n∈N beschränkt
ist, wobei für s = 0 der Quotient 1/s = +∞ interpretiert wird. Dies zeigt r ≤ 1/s. Sei
jetzt q ∈ R mit 0 ≤ q < 1/s, also sq < 1. Dann ist
p
p
lim sup n |an q n | = q · lim sup n |an | = sq < 1,
n→∞
n→∞
und nach dem Wurzelkriterium §7.Korollar 15 ist f (z0 + q) absolut konvergent. Mit
Lemma 16.(a) folgt q ≤ r. Da dies für jedes q ∈ [0, 1/s) gilt, folgt auch 1/s ≤ r, d.h.
insgesamt ist r = 1/s auch im Fall s < +∞.
260
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Damit ist die erste Aussage bewiesen, und wir kommen zur zweiten Behauptung.
Nehme nun also an 6= 0 für alle n ≥ n0 sowie die Existenz des Grenzwertes t :=
limn→∞ |an |/|an+1 | ∈ R≥0 ∪ {+∞} an. Nach den Rechenregeln für Folgengrenzwerte
zusammen mit den Ergänzungen für Grenzwerte in R folgt auch die Existenz von
limn→∞ |an+1 |/|an | = 1/t in R wenn wir wieder 1/t = +∞ für t = 0 setzen. Mit
§7.Lemma 16.(c) folgt auch
lim sup
p
n
|an | = lim
p
n
n→∞
n→∞
und somit ist
r=
1
|an+1 |
= ,
n→∞ |an |
t
|an | = lim
1
lim sup
p
n
|an |
= t.
n→∞
Damit ist auch die Quotientenformel für den Konvergenzradius bewiesen.
Mit dieset Former können
jetzt beispielsweise den Konvergenzradius jeder PoPwir
∞
tenzreihe der Form f (z) = n=n0 an (z − z0 )n berechnen in der die Koeffizienten die
Form
br n r + · · · + b0
an =
cs ns + · · · + c0
für n ≥ n0 haben. Dabei soll br , cs 6= 0 sein und der Nenner werde für n ≥ n0 nicht Null.
Durch eventuellen Übergang zu −f können wir nämlich annehmen das br , csp
> 0 sind,
n
und nach Aufgabe (23) gilt für jede Folge (an )n≥n0 dieser Form stets limn→∞ |an | = 1
und damit hat die Potenzreihe
∞
X
f (z) =
an z n
n=n0
den Konvergenzradius 1.
Wir wollen noch eine weitere kleine Konsequenz der Formel
P∞ für den Konvergenzradius festhalten. Angenommen wir haben eine Potenzreihe n=0 an (z − z0 )n mit Konvergenzradius r. Dann ist auch für jeden Index n0 ∈ N und jedes z ∈ K\{z0 }
∞
X
an0 +n (z − z0 )n =
n=0
∞
X
1
an +n (z − z0 )n0 +n
(z − z0 )n0 n=0 0
1
=
(z − z0 )n0
∞
X
an (z − z0 )n −
n=0
P∞
nX
0 −1
!
an (z − z0 )n ,
n=0
P∞
d.h. genau dann ist n=0 an0 +n (z −z0 )n konvergent
−z0 )n konvergiert.
P∞ wenn n=0 an (z
n
Mit Lemma 16 folgt das auch die Potenzreihe n=0 an0 +n (z − z0 ) den Konvergenzradius r hat, und damit folgt auch
p
p
lim sup n |an0 +n | = lim sup n |an |.
n→∞
n→∞
261
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Dies kann man sich natürlich auch direkt überlegen, aber so ist es einfacher. Wir wollen zeigen, dass eine durch eine Potenzreihe definierte Funktion im Inneren ihres Konvergenzkreises stetig ist. Die Stetigkeit im Entwicklungspunkt selber ist dabei leicht
einzusehen. Um hieraus die Stetigkeit in allen anderen Punkten des Konvergenzkreises herzuleiten, zeigen wir das wir überhaupt jeden Punkt des Konvergenzkreises als
Entwicklungspunkt verwenden können.
Lemma 13.18 (Wechsel des Entwicklungspunktes)
P
n
Sei K ∈ {R, C} und sei f (z) = ∞
n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r > 0. Weiter sei z1 ∈ K mit |z1 − z0 | < r.
Für jedes n ∈ N ist die Reihe
∞ X
n+k
bn :=
an+k (z1 − z0 )k
n
k=0
P
n
absolut konvergent und die Potenzreihe g(z) = ∞
n=0 bn (z − z1 ) hat einen Konvergenzradius r0 ≥ r − |z1 − z0 | > 0. Für jedes z ∈ K mit |z − z1 | < r − |z1 − z0 | ist f (z) = g(z).
Beweis: Sei n ∈ N. Für jedes k ∈ N ist dann
n+k
(n + k)!
(k + 1) · . . . · (k + n)
=
=
,
n
k!n!
n!
d.h. dieser Binomialkoeffizient ist ein Polynom von Grad n in k, und nach Aufgabe
(23) gilt
s
n+k
k
lim
= 1.
k→∞
n
Mit Aufgabe (29) folgt jetzt auch
s
p
|z1 − z0 |
k n + k
< 1,
lim sup an+k (z1 − z0 )k = |z1 − z0 | lim sup k |an+k | =
r
n
k→∞
k→∞
und nach dem Wurzelkriterium §7.Korollar 15 ist
∞ X
n+k
bn :=
an+k (z1 − z0 )k
n
k=0
absolut konvergent. Setze s := r − |z1 − z0 | > 0 und sei z ∈ K mit |z − z1 | < s. Dann ist
auch |z −
0 | ≤ |z − z1 | + |z1 − z0 | < s + |z1 − z0 | = r und nach Lemma 16 ist die Reihe
Pz∞
f (z) = n=0 an (z − z0 )n absolut konvergent. Wir zeigen, dass auch g(z) konvergent
mit demselben Grenzwert ist.
P
Sei also > 0 gegeben. Wegen |z −z1 |+|z1 −z0 | < r ist die Reihe ∞
n=0 |an |(|z −z1 |+
n
|z1 − z0 |) konvergent, und nach dem Cauchy-Kriterium für Reihen §7.Satz 8 existiert
262
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Pm
ein n0 ∈ N so, dass für alle n, m ∈ N mit m ≥ n ≥ n0 stets
k=n |ak | · (|z − z1 | + |z1 −
P
z0 |)k < /3 gilt. Weiter existiert ein n1 ∈ N mit |f (z) − nk=0 ak (z − z0 )k | < /3 für alle
n ∈ N mit n ≥ n1 . Setze k0 := max{n0 , n1 }. Sei k ∈ N mit k ≥ k0 . Für jedes 0 ≤ i ≤ k
ist dann
∞ ∞ X
X
i+j
j
i
j
i
bi (z − z1 ) =
ai+j (z1 − z0 ) (z − z1 ) =
aj (z1 − z0 )j−i (z − z1 )i ,
i
i
j=0
j=i
und somit existiert ein mi ∈ N mit mi ≥ i und
m X
j
aj (z1 − z0 )j−i (z − z1 )i <
bi (z − z1 )i −
3(k + 1)
i
j=i
für alle m ∈ N mit m ≥ mi . Setze schließlich n∗ := max{m0 , . . . , mk , k + 1} ∈ N. Dann
ist
k
X n X
i
n−i
i
b
(z
−
z
)
−
a
(z
−
z
)
(z
−
z
)
i
1
n
1
0
1
i
i=0
0≤i≤n≤n∗
i≤k
∗
k
n k X
X
X
n
n−i
i
i
= .
an (z1 − z0 ) (z − z1 ) <
≤
bi (z − z1 ) −
3(k + 1)
3
i
i=0
n=i
i=0
Weiter haben wir nach der binomischen Formel §4.Lemma 5
X n an (z1 − z0 )n−i (z − z1 )i
i
0≤i≤n≤n∗
i≤k
n∗ X
k X
n
n−i
i
=
an (z1 − z0 ) (z − z1 ) +
an (z1 − z0 )n−i (z − z1 )i
i
i
n=0 i=0
n=k+1 i=0
∗
k
n
k X
X
X
n
n
=
an (z1 − z0 + z − z1 ) +
an (z1 − z0 )n−i (z − z1 )i
i
n=0
n=k+1 i=0
k
n∗ X
k X
X
n
n
=
an (z − z0 ) +
an (z1 − z0 )n−i (z − z1 )i
i
n=0
n=k+1 i=0
k X
n X
n
und ebenfalls nach der binomischen Formel §4.Lemma 5 sowie der Annahme k ≥ k0 ≥
n0 ist dabei
∗
n
k n∗ X
k X
X
X
n
n
n−i
i
an (z1 − z0 ) (z − z1 ) ≤
|an | · |z1 − z0 |n−i |z − z1 |i
i
i
n=k+1 i=0
n=k+1 i=0
∗
n
n
n∗
X
X
X n
n−i
i
≤
|an |
|z1 − z0 | |z − z1 | =
|an |(|z1 − z0 | + |z − z1 |)n < .
3
i
i=0
n=k+1
n=k+1
263
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Dies zeigt
k
X
X
n
n−i
i
n
an (z1 − z0 ) (z − z1 ) −
an (z − z0 ) 0≤i≤n≤n∗ i
n=0
i≤k
∗
n
k X
X
n
an (z1 − z0 )n−i (z − z1 )i < .
=
3
i
n=k+1 i=0
P
Wegen k ≥ k0 ≥ n1 ist andererseits auch |f (z) − kn=0 an (z − z0 )n | < /3, und wir
haben insgesamt die Abschätzung
k
k
X
X
n
i
an (z − z0 ) bi (z − z1 ) ≤ f (z) −
f (z) −
n=0
i=0
X
k
X
n
n
n−i
i
+
an (z − z0 ) −
an (z1 − z0 ) (z − z1 ) i
n=0
0≤i≤n≤n∗
i≤k
k
X
X
n
n−i
i
i
+ an (z1 − z0 ) (z − z1 ) −
bi (z − z1 ) 0≤i≤n≤n∗ i
i=0
i≤k
+ + = .
<
3 3 3
Damit haben wir
∞
X
n=0
n
bn (z − z1 ) = lim
k→∞
k
X
bn (z − z1 )n = f (z)
n=0
P∞
eingesehen, d.h. die Potenzreihe g(z) = n=0 bn (z − z1 )n konvergiert in z mit g(z) =
f (z). Nach Lemma 16 ist insbesondere r0 ≥ |z − z1 |. Da dies für jedes z ∈ K mit
|z − z1 | < r − |z1 − z0 | gilt, ist damit auch r0 ≥ r − |z1 − z0 |.
Wie schon bemerkt, ist es jetzt einfach die Stetigkeit von Potenzreihen innerhalb ihres
Konvergenzkreises zu beweisen.
Satz 13.19 (Stetigkeit von Potenzreihen)
P
n
Sei K ∈ {R, C} und sei f (z) = ∞
n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r > 0. Dann ist die Funktion f : Br (z0 ) → K
stetig.
Beweis: Nach Lemma 8.(d) und Lemma 18 reicht es die Stetigkeit von f in z0 zu
zeigen. Wähle ein s ∈ R mit 0 < s < r. Nach Satz 17 hat auch die Potenzreihe
264
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
P
n
g(z) := ∞
n=0 an+1 (z − z0 ) den Konvergenzradius r, also gibt es nach Lemma 16 eine
Konstante C > 0 mit
∞
X
an+1 (z − z0 )n ≤ C
n=0
für alle z ∈ K mit |z − z0 | ≤ s. Für jedes z ∈ K mit |z − z0 | ≤ s folgt damit auch
∞
∞
X
X
an+1 (z − z0 )n ·|z−z0 | ≤ C|z−z0 |.
an (z − z0 )n = |f (z)−f (z0 )| = |f (z)−a0 | = n=0
n=1
Jetzt ergibt Lemma 7.(c) die Stetigkeit von f in z0 .
Wir wollen uns jetzt einige spezielle Beispiele von Potenzreihen anschauen, und zwar
zunächst die Potenzreihe zu den Koeffizienten an = 1/n!. Zur Berechnung des Konvergenzradius verwenden wir Satz 17
1/n!
(n + 1)!
= lim
= lim (n + 1) = +∞,
n→∞ 1/(n + 1)!
n→∞
n→∞
n!
lim
d.h. die Potenzreihe
z
e := exp(z) :=
∞
X
zn
n=0
n!
hat den Konvergenzradius r = +∞. Insbesondere können wir e := exp(1) ∈ R definieren.
Satz 13.20 (Grundeigenschaften der Exponentialfunktion)
Die Exponentialfunktion exp : C → C hat die folgenden Eigenschaften:
(a) Die Funktion exp : C → C ist stetig.
(b) Es ist exp(0) = 1.
(c) Für alle z, w ∈ C gilt die Funktionalgleichung exp(z + w) = exp(z) · exp(w).
(d) Für jedes z ∈ C ist exp(z) 6= 0 und 1/ exp(z) = exp(−z).
(e) Für jedes z ∈ C ist exp(z) = exp(z).
(f ) Für jedes x ∈ R ist exp(x) ∈ R mit exp(x) > 0.
(g) Für jedes z ∈ C gilt | exp(z)| = exp(Re(z)).
Beweis: (a) Klar nach Lemma 19.
(b) Klar.
265
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
(c) Nach §7.Satz 18 und der binomischen Formel §4.Satz 5 gilt
exp(z) · exp(w) =
!
∞
n
X
X
z k wn−k
·
=
n!
n!
k!(n − k)!
n=0
n=0
n=0
k=0
!
∞
n ∞
X
X
1 X n k n−k
(z + w)n
=
z w
=
= exp(z + w).
n! k=0 k
n!
n=0
n=0
∞
X
zn
!
∞
X
wn
!
(d) Nach (c) und (d) ist
exp(z) · exp(−z) = exp(z − z) = exp(0) = 1,
also exp(z) 6= 0 und 1/ exp(z) = exp(−z).
(e) Da wir bereits wissen das Real- und Imaginärteil stetige Funktionen sind, ist auch
die komplexe Konjugation stetig, und damit folgt
exp(z) =
∞
X
zn
n=0
n!
=
∞
X
zn
n=0
n!
= exp(z).
P∞
(f ) Da die Reihe exp(x) = n=0 xn /n! reell ist, ist zumindest exp(x) ∈ R und nach (d)
ist auch exp(x) 6= 0. Ebenso ist exp(x/2) ∈ R und mit (c) folgt exp(x) = exp(x/2)2 ≥ 0,
d.h. es ist exp(x) > 0.
(g) Nach (e) und (c) ist
| exp(z)|2 = exp(z)·exp(z) = exp(z)·exp(z) = exp(z+z) = exp(2 Re(z)) = exp(Re(z))2 ,
und mit (f) ergibt sich schließlich | exp(z)| = exp(Re(z)).
Aus der Funktionalgleichung erhält man durch Induktion auch
exp(nz) = exp(z)n
für alle z ∈ C, n ∈ N mit n ≥ 1. Wegen exp(0) = 1 gilt dies auch für n = 0. Zur
Ausdehnung dieser Eigenschaft auf beliebige ganzzahlige Exponenten nehmen wir ein
n ∈ N mit n ≥ 1 und rechnen
exp(−nz) =
1
1
=
= exp(z)−n ,
exp(nz)
exp(z)n
also ist exp(nz) = exp(z)n sogar für alle n ∈ Z. Für reelles z kann man das noch etwas
weitertreiben. Sind x ∈ R und n ∈ N mit n ≥ 1, so wissen wir exp(x/n) > 0 und
x n
x
x p
exp
= exp n ·
= exp(x) =⇒ exp
= n exp(x).
n
n
n
266
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Ist also schließlich α ∈ Q, so schreiben wir α = p/q mit p, q ∈ Z, q ≥ 1 und haben
x
exp(αx) = exp p ·
q
p
p
x
= exp
= ( q exp(x))p = exp(x)α .
q
Insbesondere ist für jedes α ∈ Q auch exp(α) = exp(1)α = eα , die Schreibweise ez für
exp(z) ist im Fall z ∈ Q wirklich eine Potenz. Wir rechnen jetzt noch etwas weiter mit
der Exponentialfunktion herum. Für jedes z ∈ C haben wir
−z
e
=
∞
X
(−z)n
n!
n=0
=
∞
X
n=0
(−1)n
zn
,
n!
und mit §7.Lemma 5 folgt
z
−z
e +e
∞
X
zn
z 2n
.
=
(1 + (−1) ) = 2
n!
(2n)!
n=0
n=0
∞
X
n
Analog ergibt sich auch
z
−z
e −e
=2
∞
X
n=0
z 2n+1
.
(2n + 1)!
Diese Formeln führen uns auf die Definition der sogenannten Hyperbelfuktionen.
Definition 13.8 (Hyperbelfunktionen)
Für jedes z ∈ C definieren wir die Hyperbelfunktionen durch
∞
ez − e−z X z 2n+1
sinh z :=
=
2
(2n + 1)!
n=0
(Sinus Hyperbolicus),
∞
ez + e−z X z 2n
cosh z :=
=
2
(2n)!
n=0
sinh z
cosh z
cosh z
coth z :=
sinh z
tanh z :=
(Cosinus Hyperbolicus),
(Tangens Hyperbolicus),
(Cotangens Hyperbolicus),
wobei die letzteren beiden nur definiert werden wenn der jeweilige Nenner von Null
verschieden ist.
Wegen ex ∈ R für x ∈ R haben auch die vier Hyperbelfunktionen für reelle Argumente
stets reelle Werte. Die reellen Graphen dieser Funktionen sowie der Exponentialfunktion sehen wie folgt aus
267
Mathematik für Physiker I, WS 2010/2011
y
–3
–2
–1
Freitag 4.2.2011
4
4
4
4
4
3
3
3
3
3
y
2
y
2
y
2
y
2
2
1
1
1
1
1
0
0
0
0
0
1
2
3
–3
–2
–1
1
x
2
3
–3
–2
–1
1
x
2
3
–3
–2
–1
1
x
2
3
–3
–2
–1
–1
–1
–1
–2
–2
–2
–2
–2
–3
–3
–3
–3
–3
–4
–4
–4
–4
–4
sinh x
cosh x
tanh x
2
3
x
–1
ex
1
x
–1
coth x
Für jedes z ∈ C gelten sinh z + cosh z = ez und sinh z − cosh z = −e−z . Die Hyperbelfunktionen erfüllen fast dieselben Formeln wie die trigonometrischen Funktionen. In
der Vorlesung wurde dies nur erwähnt aber nicht weiter vorgeführt. An dieser Stelle
wollen wir die Rechnungen aber ruhig einmal vorführen. Das Analogon zum Pythagoras
sin2 + cos2 = 1 ist
cosh2 z − sinh2 z = (cosh z + sinh z) · (cosh z − sinh z) = ez e−z = e0 = 1
für jedes z ∈ C, und die Additionstheoreme berechnen sich als
1 z+w
(e
− e−(z+w) )
2
1 z w
(e e + ez e−w − e−z ew − e−z e−w + ez ew − ez e−w + e−z ew − e−z e−w )
=
4
1 z
=
((e − e−z ) · (ew + e−w ) + (ez + e−z ) · (ew − e−w ))
4
= sinh(z) cosh(w) + cosh(z) sinh(w)
sinh(z + w) =
und analog folgt
cosh(z + w) = cosh(z) cosh(w) + sinh(z) sinh(w).
Bis auf Vorzeichen sind das genau die vertrauten Formeln für die trigonometrischen
Funktionen. Die trigonometrischen Funktionen kann man für für z ∈ C jetzt durch
Rückgriff auf die Hyperbelfunktionen definieren:
∞
sin z := −i sinh(iz) =
eiz − e−iz X
z 2n+1
=
(−1)n
,
2i
(2n
+
1)!
n=0
∞
x2n
eiz + e−iz X
cos z := cosh(iz) =
=
(−1)n
,
2
(2n)!
n=0
sin z
tan z := −i tanh(iz) =
,
cos z
cos z
cot z := i coth(iz) =
,
sin z
268
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
letztere wieder solange dies definiert ist. Für reelle Argumente sind dies tatsächlich die
vier trigonometrischen Funktionen, was wir an dieser Stelle glauben müssen. Bei einem
etwas systematischeren Aufbau der Theorie wären die obigen Formeln tatsächlich die
Definitionen der trigonometrischen Funktionen, und man könnte jetzt beginnen ihre
Theorie zu entwickeln. Beispielsweise ergeben sich die grundlegenden Additionstheoreme durch
sin2 z + cos2 z = cosh2 z − sinh2 z = 1,
sin(z + w) = −i sinh(iz + iw) = −i sinh(iz) cosh(iz) + cosh(iz) · (−i sinh(iw))
= sin(z) cos(w) + cos(z) sin(w),
cos(z + w) = cosh(iz + iw) = cosh(iz) cosh(iw) + sinh(iz) sinh(iw)
= cosh(iz) cosh(iw) − (−i sinh(iz))(−i sinh(iw))
= cos(z) cos(w) − sin(z) sin(w)
für z, w ∈ C. Etwas raffinierter ist dann der Nachweis der Periodizitätseigenschaften der
trigonometrischen Funktionen. Für diese muss man sich erst einmal eine Definition von
π verschaffen, man kann sich beispielsweise überlegen das die reelle Cosinusfunktion
eine kleinste positive Nullstelle hat, und das Doppelte dieser Nullstelle definiert man
als π. Mit dieser Definition kann man dann letztlich alle Periodizitätsformeln herleiten,
dies wollen wir aber hier nicht vorführen.
Wir wollen uns noch kurz die sogenannte Eulersche Formel überlegen, die es erlaubt
umgekehrt die komplexe Exponentialfunktion durch die reelle Exponentialfunktion und
die reellen trigonometrischen Funktionen auszudrücken. Wir starten mit der Formel
cos z + i · sin z = cosh(iz) + sinh(iz) = eiz ,
und für reelles t ∈ R wird dies zu
eit = cos t + i sin t.
Speziell für t = π ist eiπ = −1. Für eine allgemeine komplexe Zahl z = s + it wird
ez = es+it = es eit = es cos t + ies sin t,
und die komplexe Exponentialfunktion ist auf die reelle Exponentialfunktion sowie den
Sinus und den Cosinus zurückgeführt. Man kann noch ein klein wenig weiter mit diesen
Formeln herumspielen. Es ist
e2πi = (eiπ )2 = (−1)2 = 1,
also auch
ez+2πi = ez e2πi = ez
für alle z ∈ C, die komplexe Exponentialfunktion ist also periodisch mit der Periode
2πi.
269
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Zum Abschluß dieses Kapitels kommen wir jetzt noch zum reellen Logarithmus.
Es gibt auch einen komplexen Logarithmus, aber diesen wollen wir in diesem Semester
nicht mehr behandeln. Wir beginnen indem wir die bekannten Eigenschaften der reellen
Exponentialfunktion herleiten.
Satz 13.21 (Grundeigenschaften der reellen Exponentialfunktion)
Die reelle Exponentialfunktion exp : R → R>0 hat die folgenden Eigenschaften:
(a) Die Funktion exp ist stetig und streng monoton steigend.
(b) Es gelten lim ex = ∞ und lim ex = 0.
x→∞
x→−∞
(c) Für jede reelle, rationale Funktion f sind
lim f (x)e−x = 0 und
x→∞
lim f (x)ex = 0.
x→−∞
Beweis: (a) Die Stetigkeit ist klar nach Satz 20.(a). Für jedes x ∈ R mit x > 0 ist
ex =
∞
X
xn
n=0
n!
> 1,
und für x, y ∈ R mit x < y folgt weiter
ey = ex+(y−x) = ey−x ex > ex ,
d.h. die reelle Exponentialfunktion ist streng monoton steigend.
(b,c) Seien p(x) = an xn + · · · + a0 und q(x) = bm xm + · · · + b0 mit an , bm 6= 0 zwei reelle
Polynome. Wir betrachten die rationale Funktion f (x) = p(x)/q(x). Nach §6.Lemma
7 gibt es ein x0 > 0 mit |p(x)| < 2|an |xn und |q(x)| > (|bm |/2)xm für alle x > x0 . Für
jedes x ∈ R mit x > x0 ist damit auch
|f (x)| =
|p(x)|
4|an | n−m
<
x
.
|q(x)|
|bm |
Setzen wir also
4|an |
A :=
, x1 := max{x0 , 1} und k :=
|bm |
(
n − m, n > m,
0,
n ≤ m,
so ist für alle x ∈ R mit x > x1 auch |f (x)| < Axk . Für jedes x ∈ R mit x > x1 > 0
gilt weiterhin auch
∞
X
xj
xk+1
x
e =
>
,
j!
(k + 1)!
j=0
270
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
also auch
|f (x)|
A(k + 1)!
<
.
x
e
x
Mit dem Einschnürungslemma Lemma 2.(b) folgt limx→∞ f (x)e−x = 0. Weiter folgt
damit
lim f (x)ex = lim f (−x)e−x = 0,
|f (x)e−x | =
x→−∞
x→∞
wobei diese Umparametrisierung“ des Limes eine kleine Übungsaufgabe ist. Wenden
”
wir dies speziell auf die rationale Funktion f (x) = 1 an, so ergeben sich limx→∞ e−x =
limx→−∞ ex = 0, also auch
lim ex = lim
x→∞
x→∞
1
e−x
= +∞,
da das Vorzeichen konstant +1 ist.
Wenden wir jetzt den Monotoniesatz Satz 15 für stetige Funktionen an, so folgt das
die reelle Exponentialfunktion exp : R → R>0 bijektiv mit einer stetigen und ebenfalls
streng monoton steigenden Umkehrfunktion
ln : R>0 → R
ist, genannt der Logarithmus, oder auch der natürliche Logarithmus. Da in der reinen
Mathematik keine anderen Logarithmen vorkommen, läßt man den Zusatz natürlich“
”
meistens weg. Oft wird der Logarithmus auch als log geschrieben, dies meint dann weiterhin den natürlichen Logarithmus, andere Logarithmen kommen wie gesagt nicht vor.
Die Eigenschaften der Exponentialfunktion ergeben sofort die folgenden Eigenschaften
des Logarithmus
x
ln(1) = 0, ln(xy) = ln(x) + ln(y), ln
= ln(x) − ln(y)
y
jeweils für alle x, y > 0, sowie
lim ln(x) = −∞ und lim ln(x) = +∞.
x→0
x→∞
Mit dem Logarithmus ist man schließlich auch in der Lage Potenzen mit beliebigen
reellen Exponenten zu definieren
xα := eα·ln x
für x, α ∈ R, x > 0. Die Funktionen x 7→ xα und α 7→ xα sind dann als Hintereinanderausführungen stetiger Funktionen stetig. Damit haben wir die allgemeinen Potenzen
mit reellen Exponenten definiert und die Stetigkeit dieser Potenzen im Exponenten
ergibt, dass diese Definition dieselben Potenzen liefert wie die am Ende von §4.4 angedeutete Konstruktion, d.h. für x, α ∈ R mit x > 1 gilt
xα = sup{xq |q ∈ Q, q < α},
271
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
und entsprechend ist für 0 < x < 1 auch
xα = inf{xq |q ∈ Q, q < α}.
Der genaue Beweis dieser Tatsachen ist eine Übungsaufgabe.
$Id: diffb.tex,v 1.8 2011/08/01 14:37:05 hk Exp $
§14
Differenzierbare Funktionen
Wir kommen jetzt zum letzten Thema dieses Semesters, den differenzierbaren Funktionen in einer Variablen. In diesem Semester sind wir nur am reellen Fall interessiert,
nur die Definition und die ersten Eigenschaften werden wir noch allgemein halten, da
es für diese keinen Unterschied macht ob wir reelle oder komplexe Zahlen verwenden.
Schon bei der Besprechung der Folgenkonvergenz in §6.1 hatten wir die Interpretation
der Ableitung als eine Änderungsrate besprochen. Es gibt noch mindestens zwei weitere
alternative Sichtweisen der Ableitung, einmal geometrisch über den Begriff der Tangentensteigung, und zum anderen als lineare Näherung. Alle drei Möglichkeiten haben
ihren Platz. Die geometrische Interpretation dient bei uns hauptsächlich zur anschaulichen Interpretation einiger Aussagen, und der Zugang als lineare Näherung wird erst
im nächsten Semester wirklich wichtig werden.
14.1
Differenzierbarkeit und Differenzenquotienten
Wir wollen jetzt die formale Definition der Ableitung f 0 (x) einer Funktion f in einem
Punkt x ihres Definitionsbereichs angeben. Wie schon bemerkt gibt es mindestens drei
verschiedene, aber natürlich gleichwertige, Methoden f 0 (x) einzuführen. Alle diese verschiedenen Definitionen involvieren einen Funktionsgrenzwert im Punkt x, und daher
müssen wir fordern das x ein Häufungspunkt des Definitionsbereich der Funktion f ist.
Seien K ∈ {R, C}, D ⊆ K eine Teilmenge, f : D → K eine Funktion und x ∈ D ein
Häufungspunkt von D. Wir beginnen mit der geometrischen Beschreibung der Ableitung. Hier betrachten wir Punkte y ∈ D verschieden von x, also y 6= x, und bilden die
Verbindungsgerade der beiden Punkte (x, f (x)) und (y, f (y)), dies ist sozusagen eine
Sekante der Kurve y = f (x). Die Steigung dieser Sekante ist durch den sogenannten
Differenzenquotienten
f (y) − f (x)
y−x
gegeben. Lassen wir jetzt y gegen x konvergieren, so sollte die Steigung dieser Sekanten
gegen die Steigung der Tangente an y = f (x) im Punkte x konvergieren, und diesen
272
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Grenzwert, sofern er existiert nennen wir dann die Ableitung von f in x
f (y) − f (x)
.
y→x
y−x
f 0 (x) := lim
Im komplexen Fall K = C hat man natürlich keine so direkte Anschauung, aber die
formale Definition ist ohne Probleme auch in der komplexen Situation sinnvoll. In
einer etwas exakteren Formulierung definieren wir dann nachträglich die Tangente von
y = f (x) im Punkte x als die Gerade der Steigung f 0 (x) durch den Punkt (x, f (x)).
Die zweite Beschreibung ist die Definition der Ableitung als Änderungsrate in einem
Punkt. Da wir diese schon in §6.1 diskutiert haben, wollen wir uns hier kurz fassen,
und kommen gleich zur Definition der Ableitung als
f (x + h) − f (x)
.
h→0
h
f 0 (x) := lim
Die Funktion bezüglich derer der Grenzwert gebildet wird, ist dabei die um x verschobene Menge D − x, und 0 ist wieder ein Häufungspunkt dieser Menge, der Grenzwert
ist also überhaupt sinnvoll. Die Ableitung tritt in dieser Formel als Änderungsrate auf.
Mathematisch ist dies genau dasselbe wie die geometrische Interpretation, man muss ja
nur y = x+h schreiben, und sich die einfache Tatsache klarmachen, dass diese Umparametrisierung auf den Grenzwert keinen Einfluss hat. Sie sollten sich dies ruhig als eine
kleine Übungsaufgabe einmal hinschreiben. Die dritte Interpretation ist die Auffassung
der Ableitung als eine lineare Approximation. Hier denken wir uns die Funktion f in
der Nähe des Punktes x durch eine lineare Funktion angenähert, wir schreiben also
f (x + h) = f (x) + mh + fehler(h)
mit einem m ∈ K wobei dann üblicherweise τ (h) = fehler(h) gesetzt wird. Dabei ist die
Störung h ein Element der Menge D −x. Beachte das wir diesen Ausdruck als Funktion
in h auffassen, der Punkt x ist hier fest gewählt und ändert sich nicht. Damit dies
eine sinnvolle Approximation ist, muss der Fehler dabei natürlich einigen Bedingungen
genügen. Die Minimalbedingung ist, dass der Fehler klein wird, wenn h klein wird,
es sollte also limh→0 τ (h) = 0 gelten. Für die Ableitung ist dies noch nicht genug. Der
Fehler soll nicht nur klein werden, er soll dies schlimmstenfalls proportional zu h tun, es
soll also eine Abschätzung |τ (h)| ≤ A|h| mit einer Proportionalitätskonstanten A > 0
gelten. Auch dies ist für die Differenzierbarkeit noch nicht gut genug. Differenzierbarkeit
bedeutet, dass man auch die Proportionalitätskonstante A beliebig klein machen kann,
wenn h nur klein genug ist. Es soll also für jede vorgegebene Proportionalitätskonstante
> 0 stets |τ (h)| ≤ |h| für ausreichend kleine h sein, beziehungsweise etwas exakter
soll es ein δ > 0 mit |τ (h)| ≤ |h| für alle h ∈ R mit |h| ≤ δ geben. Da wir dies
zu |τ (h)/h| ≤ für 0 6= h ∈ D − x mit |h| ≤ δ umformen können, sehen wir das
die Bedingung an den Fehler gemäß der –δ Definition von Funktionsgrenzwerten aus
§13.Lemma 1.(f) gerade
τ (h)
lim
=0
h→0 h
273
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
ist. Auch diese Interpretation ist zu den anderen beiden Differenzierbarkeitsdefinitionen
äquivalent, wobei die Steigung m der approximierenden linearen Funktion gerade m =
f 0 (x) sein muss. Dies ist leicht zu sehen, wir können die Gleichung f (x + h) = f (x) +
mh + τ (h) ja zu
τ (h)
f (x + h) − f (x)
−m=
h
h
umschreiben. Interpretieren wir die lineare Näherung als Gerade in K 2 , so wird diese
gerade zur Tangente aus dem geometrischen Standpunkt. Als Definition müssen wir
uns für eine dieser drei Varianten entscheiden, und wählen hierfür die zweite Methode.
Definition 14.1: Seien K ∈ {R, C}, D ⊆ K und f : D → K eine Abbildung. Weiter
sei x ∈ D ein Häufungspunkt von D. Wir nennen f in x differenzierbar, wenn der
Grenzwert
f (x + h) − f (x)
f 0 (x) := lim
h→0
h
existiert, welcher dann als die Ableitung von f in x bezeichnet wird.
Wie schon bemerkt kann man auch die äquivalente Form
f 0 (x) = lim
y→x
f (y) − f (x)
y−x
verwenden, was wir auch gelegentlich tun werden. Aus der Interpretation der Ableitung
als lineare Approximation ist klar, dass für eine lineare Funktion f : K → K; x 7→ ax+b
mit a, b ∈ K auch f 0 (x) = a für alle x ∈ K ist. Insbesondere ist die Ableitung konstanter
Funktionen in jedem Punkt gleich Null. Als ein weiteres Beispiel wollen wir die Funktion
f (x) = x2 definiert auf D = K behandeln. Hier rechnen wir
(x + h)2 = x2 + 2xh + h2
und haben f (x + h) = (x + h)2 geschrieben als die Summe des linearen Teils x2 + 2xh
und dem Fehler τ (h) = h2 . Dann ist limh→0 τ (h)/h = limh→0 h = 0, d.h. f ist in x
differenzierbar. Die Ableitung in x ist die Steigung des linearen Teils, also
f 0 (x) = 2x.
Als letztes Beispiel schauen wir uns die Funktion f : K\{0} → K; x 7→ 1/x an. Sei
x ∈ K\{0}. Als Differenzenquotient ergibt sich
1
x+h
−
h
1
x
=−
1
,
x(x + h)
und mit den Rechenregeln für Funktionsgrenzwerte §13.Satz 5 folgt
f (x + h) − f (x)
1
= − 2.
h→0
h
x
f 0 (x) = lim
274
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Aus der Lokalität von Funktionsgrenzwerten folgt, dass auch der Ableitungsbegriff
lokal ist, also nicht von der ganzen Funktion abhängt, sondern nur von den Werten der
Funktion in der Nähe des Punktes in dem abgeleitet wird.
Lemma 14.1: Seien K ∈ {R, C}, D ⊆ K eine Teilmenge, a ∈ D ein Häufungspunkt
von D und f : D → K eine Funktion.
(a) Sei f in a differenzierbar. Ist dann M ⊆ D eine Teilmenge mit a ∈ M und
ist a auch ein Häufungspunkt von M , so ist auch f |M in a differenzierbar mit
(f |M )0 (a) = f 0 (a).
e := B (a) ∩ D = {x ∈ D : |x − a| < }. Dann ist f genau
(b) Sei > 0 und setze D
e in a differenzierbar ist, und in diesem Fall
dann in a differenzierbar wenn f |D
e 0 (a) = f 0 (a).
gilt (f |D)
Beweis: (a) Klar nach §13.Lemma 1.(g).
(b) Klar nach §13.Lemma 3.
14.2
Die Ableitungsregeln
Wir wollen jetzt die Rechenregeln für Ableitungen herleiten. Zusammen mit den Regeln
für die Ableitungen der Grundfunktionen erhält man einen Kalkül der die Ableitung aller als Formeln in den Grundfunktionen gegebenen Funktionen erlaubt. Beweistechnisch
ist es bequem zuvor eine weitere Umformulierung der Ableitungsdefinition herzuleiten.
Da wir den Beweis der Ableitungsregeln in der Vorlesung weggelassen hatten, wurde
auch dieses ganze Lemma nicht angeschrieben, es wird auch in der nächsten Sitzung
nur in Beweisen verwendet werden.
Lemma 14.2 (Ableitungsdefinition nach Caratheodory)
Seien K ∈ {R, C}, D ⊆ K, f : D → K eine Funktion und x ∈ D ein Häufungspunkt
von D. Dann ist die Funktion f genau dann differenzierbar in x, wenn es eine in x
stetige Funktion φ : D → K mit
f (t) = f (x) + (t − x)φ(t)
für alle t ∈ D gibt. In diesem Fall ist f 0 (x) = φ(x).
Beweis: ”=⇒” Sei
(
φ : D → K; t 7→
f (t)−f (x)
,
t−x
0
f (x),
t 6= x,
t = x,
und dann gilt f (x) + (t − x)φ(t) = f (t) für alle t ∈ D. Außerdem ist
f (t) − f (x)
f (x + h) − f (x)
= lim
= f 0 (x) = φ(x),
t→x
h→0
t−x
h
lim φ(t) = lim
t→x
275
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
d.h. φ ist stetig in x. Die hier vorgenommene Umparametrisierung des Grenzwerts ist
dabei mit der –δ Beschreibung des Funktionsgrenzwerts nach §13.Lemma 1.(f) klar.
”⇐=” Es gilt
f (x + h) − f (x)
= lim φ(x + h) = φ(x)
lim
h→0
h→0
h
da φ in x stetig ist, also ist f in x differenzierbar mit f 0 (x) = φ(x).
Als ein direktes Korollar sehen wir das Differenzierbarkeit in einem Punkt auch die
Stetigkeit in diesem Punkt impliziert.
Lemma 14.3: Seien K ∈ {R, C}, D ⊆ K, x ∈ D ein Häufungspunkt von D und
f : D → K eine in x differenzierbare Funktion. Dann ist f an der Stelle x auch stetig.
Beweis: Klar nach Lemma 2 und §13.Lemma 9.(a,c).
Jetzt sind wir in der Lage die meisten der Ableitungsregeln zu beweisen. Diese Regeln
sind Formeln, die es erlauben, die Ableitung einer Funktion aus den bereits als bekannt
angenommenen Ableitungen ihrer Bestandteile zu berechnen. Im einzelnen sind dies die
Summenregel für die Ableitung von Summen, die Vielfachenregel für die Ableitungen
von Vielfachen, die Produktregel für die Ableitung von Produkten, Quotientenregel für
die Ableitung von Brüchen und schließlich die Kettenregel für die Ableitung von Hintereinanderausführungen. Die Quotientenregel ist dabei eigentlich keine eigenständige
Regel da sie aus der Kettenregel und der Produktregel folgt.
Satz 14.4 (Ableitungsregeln)
Seien K ∈ {R, C}, D ⊆ K, x ∈ D ein Häufungspunkt von D und f, g : D → K zwei
in x differenzierbare Funktionen.
(a) Die Funktion f +g : D → K ist in x differenzierbar mit (f +g)0 (x) = f 0 (x)+g 0 (x).
(b) Für jedes c ∈ K ist die Funktion cf : D → K differenzierbar mit (cf )0 (x) = cf 0 (x).
(c) Die Funktion f · g : D → K ist in x differenzierbar mit
(f · g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x).
(d) Ist g(t) 6= 0 für alle t ∈ D, so ist die Funktion f /g in x differenzierbar mit
0
f
f 0 (x)g(x) − f (x)g 0 (x)
(x) =
.
g
g(x)2
e ⊆ K eine weitere Menge, y ∈ D
e ein Häufungspunkt von D
e und h : D
e →D
(e) Sind D
e → K in y
eine in y differenzierbare Funktion mit h(y) = x, so ist auch f ◦ h : D
differenzierbar mit
(f ◦ h)0 (y) = f 0 (x)h0 (y) = f 0 (h(y)) · h0 (y).
276
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Beweis: Nach Lemma 2 gibt es in x stetige Funktionen φ, ψ : D → K mit f (t) =
f (x) + (t − x)φ(t) und g(t) = g(x) + (t − x)ψ(t) für alle t ∈ D, und es sind f 0 (x) = φ(x)
und g 0 (x) = ψ(x).
(a) Nach §13.Lemma 9.(a) ist θ := φ + ψ in x stetig und für alle t ∈ D gilt
f (t) + g(t) = f (x) + g(x) + (t − x)θ(t),
d.h. nach Lemma 2 ist f + g in x differenzierbar mit (f + g)0 (x) = θ(x) = φ(x) + ψ(x) =
f 0 (x) + g 0 (x).
(b) Nach §13.Lemma 9.(b) ist θ := cφ in x stetig und für alle t ∈ D gilt
cf (t) = cf (x) + (t − x)θ(t),
d.h. nach Lemma 2 ist cf in x differenzierbar mit (cf )0 (x) = θ(x) = cφ(x) = cf 0 (x).
(c) Nach §13.Lemma 9.(a,b,c) ist die Funktion
θ : D → K; t 7→ φ(t)g(x) + f (x)ψ(t) + (t − x)φ(t)ψ(t)
in x stetig, und für alle t ∈ D gilt
f (t)g(t) = (f (x) + (t − x)φ(t)) · (g(x) + (t − x)ψ(t))
= f (x)g(x) + (t − x)(φ(t)g(x) + f (x)ψ(t)) + (t − x)2 φ(t)ψ(t)
= f (x)g(x) + (t − x)θ(t).
Nach Lemma 2 ist f g in x differenzierbar mit (f g)0 (x) = θ(x) = φ(x)g(x)+f (x)ψ(x) =
f 0 (x)g(x) + f (x)g 0 (x).
e → K mit h(t) = h(y) +
(e) Nach Lemma 2 existiert eine in y stetige Funktion θ : D
e und θ(y) = h0 (y). Nach §13.Lemma 10.(b) und §13.Lemma
(t − y)θ(y) für alle t ∈ D
9.(c) ist die Funktion
e → K; t 7→ θ(y)φ(h(t))
%:D
e ist damit auch
in y stetig. Für jedes t ∈ D
f (h(t)) = f (x) + (h(t) − x)φ(h(t)) = f (x) + (h(y) + (t − y)θ(y) − x)φ(h(t))
= f (h(y)) + (t − y)θ(y)φ(h(t)) = f (h(y)) + (t − y)%(t),
und nach Lemma 2 ist f ◦ h in y differenzierbar mit (f ◦ h)0 (y) = %(y) = θ(y)φ(x) =
f 0 (x)h0 (y).
(d) Wir haben bereits eingesehen, dass die Funktion
h : K\{0} → K; t 7→
1
t
für jedes t ∈ K\{0} differenzierbar mit h0 (t) = −1/t2 ist. Nach (e) ist die Funktion
1/g = h ◦ g in x differenzierbar mit
0
g 0 (x)
1
(x) = (h ◦ g)0 (x) = h0 (g(x)) · g 0 (x) = −
.
g
g(x)2
277
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
Nach (c) ist damit auch f /g = f · (1/g) in x differenzierbar mit
0
0
0
1
f 0 (x)
1
f 0 (x) f (x)g 0 (x)
f
(x) = f ·
(x) =
− f (x)
(x) =
−
g
g
g(x)
g
g(x)
g(x)2
f 0 (x)g(x) − f (x)g 0 (x)
=
.
g(x)2
Damit ist auch die Quotientenregel bewiesen.
Per Induktion folgt mit der Produktregel die Formel für die Ableitung von Funktionen
f : K → K; x 7→ xn für jedes n ∈ N, es gilt f 0 (x) = nxn−1 für jedes x ∈ K. Für
n = 0 müssen wir die rechte Seite dabei als Null interpretieren, auch wenn x = 0 ist.
An dieser Stelle ist es nützlich eine kleine symbolische Schreibweise einzuführen. Es ist
gelegentlich lästig einer Funktion wie x 7→ xn extra einen Namen f geben zu müssen,
nur um die Ableitung als f 0 (x) hinschreiben zu können. Etwas verkürzend schreibt man
daher so etwas wie
d n dxn
x =
= nxn−1
dx
dx
für diese Ableitung. Das x“ hat hier eine rein formale Funktion und sollte außerhalb
”
der Formel nicht auftreten. Gelegentlich wenn der Definitionsbereich des angegebenen
Terms nicht ganz klar ist, kann man diesen mit einem Satz der Form für x ∈ D“ oder
”
ähnlich, hinzufügen. Will man die Ableitung in einem konkreten Punkt a angeben, so
schreibt man entsprechend
dxn d n
x =
= nan−1 .
dx x=a
dx x=a
Wenden wir noch die Quotientenregel an, so gilt diese Formel für alle n ∈ Z wenn
x 6= 0 ist. Damit können wir weiter die Ableitungen von Polynomen und die Ableitungen rationaler Funktionen berechnen. Um noch mehr Ableitungen berechnen zu
können, wollen wir jetzt zeigen, dass Potenzreihen im Inneren ihres Konvergenzkreises
differenzierbar sind.
Satz 14.5 (Ableitungen von P
Potenzreihen)
n
Seien K ∈ {R, C} und f (z) = ∞
n=0 an (z −z0 ) eine Potenzreihe mit Konvergenzradius
r > 0. Dann ist f für jedes z ∈ K mit |z − z0 | < r differenzierbar mit
0
f (z) =
∞
X
(n + 1)an+1 (z − z0 )n ,
n=0
und diese Potenzreihe hat wieder den Konvergenzradius r.
√
√ √
√
√
Beweis:
Für alle n ∈√N mit n ≥ 1 gilt n n ≤ n n + 1 ≤ n 2n = n 2 n n und wegen
√
( n n)n∈N −→ 1 und ( n 2)n∈N −→ 1 ist nach §6.Lemma 6.(c) und §6.Lemma 5.(b) auch
278
Mathematik für Physiker I, WS 2010/2011
Freitag 4.2.2011
√
( n n + 1)n∈N −→ 1. Nach Aufgabe (29) gilt
p
p
p
√
lim sup n |(n + 1)an+1 | = lim n n + 1 · lim sup n |an+1 | = lim sup n |an |,
n→∞
n→∞
n→∞
n→∞
P∞
n
und nach §13.Satz 17 hat auch die Potenzreihe g(z) :=
n=0 (n + 1)an+1 (z − z0 )
den Konvergenzradius r. Wir beweisen die P
Differenzierbarkeitsaussage zunächst im
n
Entwicklungspunkt. Die Potenzreihe φ(z) := ∞
n=0 an+1 (z − z0 ) hat wieder den Konvergenzradius r, und ist nach §13.Satz 19 eine stetige Funktion φ : Br (z0 ) → K. Für
jedes z ∈ K mit |z − z0 | < r gilt
f (z) = a0 +
∞
X
an (z − z0 )n = f (z0 ) + (z − z0 )φ(z),
n=1
und nach Lemma 2 ist f in z0 differenzierbar mit f 0 (z0 ) = φ(z0 ) = a1 = g(z0 ). Jetzt
sei z1 ∈ K mit |z − z1 | < r ein beliebiger Punkt im Konvergenzkreis von f , und setze
s := r − |z1 − z0 | > 0. Nach §13.Lemma 18 ist
∞ X
n+k
bn :=
an+k (z1 − z0 )k
n
k=0
P
n
für jedes n ∈ N absolut konvergent, die Potenzreihe f ∗ (z) := ∞
n=0 bn (z − z1 ) hat
∗
einen Konvergenzradius r ≥ s und für jedes z ∈ K mit |z − z1 | < s gilt f (z) = f ∗ (z).
Wie bereits gezeigt, ist f ∗ in z1 differenzierbar mit
∞ ∞
X
X
n+1
∗ 0
(f ) (z1 ) = b1 =
an+1 (z1 − z0 )n =
(n + 1)an+1 (z1 − z0 )n = g(z1 ).
1
n=0
n=0
Nach Lemma 1.(b) ist damit auch f in z1 differenzierbar mit f 0 (z1 ) = (f ∗ )0 (z1 ) = g(z1 ).
Wenden wir diesen Satz speziell auf die Exponentialfunktion
z
e =
∞
X
zn
n=0
n!
an, so ergibt sich die Ableitung
∞
∞
X
X zn
zn
dez
= exp0 (z) =
(n + 1)
=
= ez ,
dz
(n
+
1)!
n!
n=0
n=0
für alle z ∈ R. Damit kann man dann weiter die Ableitungen der Hyperbelfunktionen
als
d
d ez − e−z
ez + e−z
sinh z =
=
= cosh z,
dz
dz
2
2
d
d ez + e−z
ez − e−z
cosh z =
=
= sinh z,
dz
dz
2
2
d
d sinh z
cosh2 z − sinh2 z
1
tanh z =
=
=
= 1 − tanh2 z
2
dz
dz cosh z
cosh z
cosh2 z
279
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
berechnen. Für die Ableitungen der trigonometrischen Funktionen ergibt sich dann
weiter
d
d
sin z =
(−i sinh(iz)) = −i2 cosh(iz) = cosh(iz) = cos z,
dz
dz
d
d
cos z =
cosh(iz) = i sinh(iz) = − sin z,
dz
dz
d
d
1
tan z =
(−i tanh(iz)) =
= 1 + tan2 z.
2
dz
dz
cos z
Vorlesung 25, Montag 7.2.2011
In der letzten Sitzung hatten wir die Ableitungsregeln angegeben, die es erlauben ziemlich beliebige, als explizite Formeln gegebene, Funktionen abzuleiten solange man nur
die Ableitungen der auftretenden Grundfunktionen kennt. Damit verbleibt dann zur
Berechnung von Ableitungen nur noch das Problem die Ableitungen der Grundfunktionen auszurechnen. Für die Exponentialfunktion sowie die trigonometrischen Funktionen haben wir dies bereits getan, es verbleiben aber noch Funktionen wie beispielsweise
der reelle Logarithmus. Dieser ist als Umkehrfunktion der reellen Exponentialfunktion
definiert. Um derartige Funktionen abzuleiten, brauchen wir noch eine Ableitungsregel
für die Ableitung von Umkehrfunktionen. Wir formulieren und beweisen diese Formel
nur im reellen Fall, da wir im Beweis die Stetigkeit von Umkehrfunktionen verwenden
werden. Tatsächlich ist der wörtlich auf den Fall K = C übertragene Satz falsch. Man
kann einen entsprechenden Satz auch im komplexen Fall beweisen, allerdings muss man
zusätzliche Voraussetzungen an den Definitionsbereich der betrachteten Funktion stellen. Dieses durchzuführen ist zum einen etwas komplizierter und zum anderen gehört es
auch nicht mehr zu den Themen dieses Semesters. Wir werden im Rest dieses Kapitels
nur noch reelle Funktionen betrachten.
Satz 14.6 (Umkehrregel)
Seien I, J ⊆ R zwei Intervalle und sei f : I → J eine bijektive stetige Funktion, die
im Punkt x ∈ I differenzierbar ist mit f 0 (x) 6= 0. Dann ist auch die Umkehrfunktion
f −1 : J → I im Punkt y := f (x) ∈ J differenzierbar mit
(f −1 )0 (y) =
1
f 0 (x)
=
1
f 0 (f −1 (y))
.
Beweis: Wir müssen zeigen, dass der Grenzwert
f −1 (u) − f −1 (y)
u→y
u−y
(f −1 )0 (y) = lim
280
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
existiert und gleich dem angegebenen Wert ist. Hierzu ist es am bequemsten direkt auf
die Definition dieses Funktionsgrenzwerts durch Folgen zurückzugehen. Sei also (yn )n∈N
eine gegen y konvergente Folge in J\{y}. Nach §13.Satz 15.(c) ist die Umkehrfunktion
f −1 : J → I stetig, und damit ist (f −1 (yn ))n∈N eine gegen f −1 (y) = x konvergente
Folge in I\{x}. Mit den Rechenregeln für Folgengrenzwerte §6.Satz 6.(d) folgt
−1
f −1 (yn ) − f −1 (y)
f −1 (yn ) − x
f (f −1 (yn )) − f (x)
= lim
= lim
lim
n→∞ f (f −1 (yn )) − f (x)
n→∞
n→∞
yn − y
f −1 (yn ) − x
−1
−1
1
f (f −1 (yn )) − f (x)
f (u) − f (x)
= lim
= 0 .
= lim
−1
u→x
n→∞
f (yn ) − x
u−x
f (x)
Dies ergibt
f −1 (u) − f −1 (y)
1
= 0 .
u→y
u−y
f (x)
(f −1 )0 (y) = lim
Die Voraussetzung f 0 (x) 6= 0 ist tatsächlich nötig. Beispielsweise ist die Funktion
f : R → R; x 7→ x3
√
stetig, bijektiv und überall differenzierbar, aber die Umkehrfunktion f −1 (x) = 3 x ist
in x = 0 nicht differenzierbar. Der Satz ist wegen f 0 (0) = 0 hier auch nicht anwendbar.
Ausgerüstet mit der Umkehrregel können wir jetzt die Ableitungen der noch ausstehenden Grundfunktionen berechnen. Wir beginnen dabei mit dem Logarithmus, und
erhalten für jedes x > 0
1
1
d
ln x = ln x = .
dx
e
x
Zusammen mit der Kettenregel ergibt sich hieraus die Ableitung der allgemeinen Potenzfunktion
d α·ln x α α·ln x
d α
x =
e
= e
= αxα−1
dx
dx
x
für alle x, α ∈ R mit x > 0. Dagegen wird die Ableitung der Potenzfunktion nach dem
Exponenten für a, x ∈ R mit a > 0 zu
d x
d ln(a)·x
a =
e
= ln(a)eln(a)·x = ln(a)ax .
dx
dx
Wir wollen auch noch die Umkehrfunktionen der trigonometrischen Funktionen behandeln, die sogenannten Arcus Funktionen. All diese sind immer nur die Umkehrfunktion
der entsprechenden trigonometrischen Funktion auf einem geeignet gewählten Intervall,
nämlich
arcsin : [−1, 1] → − π2 , π2
(Arcus Sinus)
arccos : [−1, 1] → [0,π]
(Arcus Cosinus)
π π
arctan : R → − 2 , 2
(Arcus Tangens).
281
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Nach dem Satz §13.Satz 15.(c) sind diese Funktionen allesamt stetig. Auch die reellen
Hyperbelfunktionen sind auf geeigneten Intervallen umkehrbar, und ihre Umkehrfunktionen sind wieder stetig. Dies gibt uns die sogenannten Area Funktionen
arsinh : R → R
(Area Sinus Hyperbolicus)
arcosh : [1, ∞) → [0, ∞) (Area Cosinus Hyperbolicus)
artanh : (−1, 1) → R
(Area Tangens Hyperbolicus).
Die Stetigkeit der Area-Funktionen kann man aber auch leicht direkt einsehen, da es
für diese die expliziten Formeln
√
arsinh x = ln(x + x2 + 1),
√
arcosh x = ln(x + x2 − 1),
1
1+x
artanh x =
ln
2
1−x
für die x aus dem jeweiligen Definitionsbereich, gibt. Als nächsten Schritt können
wir jetzt die Ableitungen der Arcusfunktionen berechnen. Sei x ∈ (−1, 1). Dann ist
arcsin x ∈ (−π/2, π/2), also auch cos(arcsin x) > 0 und es gilt
q
√
d sin t 2
=
cos(arcsin
x)
=
1
−
sin
(arcsin
x)
=
1 − x2 > 0,
dt t=arcsin x
und damit ist
d
1
arcsin x = √
.
dx
1 − x2
Wegen
π
− arcsin x
2
für alle x ∈ [−1, 1], folgt für jedes x ∈ (−1, 1) auch
arccos x =
d
1
arccos x = − √
.
dx
1 − x2
Die Ableitung des Arcustangens ergibt sich für jedes x ∈ R zu
d
1
1
arctan x =
=
.
2
dx
1 + tan (arctan x)
1 + x2
Auch die Ableitungen der Areafunktionen lassen sich analog zu den Arcusfunktionen
berechnen, alternativ kann man auch die expliziten Logarithmus-Formeln verwenden.
Dies wollen wir hier nicht vorrechnen, das Ergebnis ist
d
1
arsinh x = √
(x ∈ R),
dx
x2 + 1
d
1
arcosh x = √
(x ∈ (1, ∞)),
2
dx
x −1
d
1
artanh x =
(x ∈ (−1, 1)).
dx
1 − x2
282
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Als letzte Ableitungsregel wollen wir noch kurz auf die Ableitungen von aus mehreren
Stücken zusammengesetzten Funktionen eingehen. Zunächst können wir dabei die sogenannten links- und rechtsseitigen Ableitungen einer Funktion definieren. Seien also
D ⊆ R eine Menge, a ∈ D und f : D → R eine Funktion. Ist dann a ein rechtsseitiger
Häufungspunkt von D, so nennen wir f in a rechtsseitig differenzierbar, wenn f |D≥a
in a differenzierbar ist, und die Ableitung
f+0 (a) := (f |D≥a )0 (a) = lim
x↓a
f (x) − f (a)
x−a
heißt die rechtsseitige Ableitung von f in a. Analog wird die linksseitige Ableitung von
f in a
f (x) − f (a)
f−0 (a) := (f |D≤a )0 (a) = lim
x↑a
x−a
einer von links differenzierbaren Funktion im Punkt a definiert, wenn a ein linksseitiger
Häufungspunkt von D ist. Ist beispielsweise f : R → R; x 7→ |x| die Betragsfunktion,
so existieren die links- und rechtsseitigen Ableitungen von f in 0 und es gelten
f−0 (0) = −1 und f+0 (0) = 1.
Dagegen ist die Betragsfunktion in 0 nicht differenzierbar, wie zum Beispiel das folgende
Lemma zeigt.
Lemma 14.7 (Ableitungen stückweise definierter Funktionen)
Seien D ⊆ R eine Menge, a ∈ D ein Häufungspunkt von D und f : D → R eine
Funktion. Dann ist die Funktion f genau dann in a differenzierbar mit der Ableitung
f 0 (a) = b ∈ R wenn die folgenden beiden Bedingungen erfüllt sind:
1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt f+0 (a) = b.
2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger
Häufungspunkt von D und es gilt f−0 (a) = b.
Beweis: Klar nach §13.Lemma 4.
Als ein Beispiel betrachten wir die Funktion f : R → R gegeben durch
(
x2 , x ≥ 0,
f (x) = x2 H(x) =
0, x ≤ 0
für jedes x ∈ R. Dabei ist H wieder die Heaviside Funktion. Für x < 0 ist f 0 (x) = 0
und für x > 0 haben wir f 0 (x) = 2x. In x = 0 ergeben sich die links- und rechtsseitigen
Ableitungen f−0 (0) = 0 und f+0 (0) = 0, also ist f auch in 0 differenzierbar mit f 0 (0) = 0.
Insgesamt zeigt diese Rechnug
d 2
x H(x) = 2xH(x).
dx
283
Mathematik für Physiker I, WS 2010/2011
14.3
Montag 7.2.2011
Grundeigenschaften differenzierbarer reeller Funktionen
In diesem Abschnitt wollen wir einige der wichtigsten Eigenschaften von auf R definierten, differenzierbaren Funktionen zusammenstellen. Insbesondere werden wir damit
die Grundlagen der sogenannten Kurvendiskussion“ legen. Wir beginnen mit einigen
”
vorbereitenden Definitionen.
Definition 14.2: Sei K ∈ {R, C} und sei D ⊆ K eine Teilmenge mit D ⊆ D0 , d.h.
jeder Punkt von D ist auch ein Häufungspunkt von D. Dann nennen wir eine Funktion
f : D → K differenzierbar in einer Teilmenge M ⊆ D wenn f in jedem Punkt x ∈ M
differenzierbar ist. Weiter nennen wir f differenzierbar wenn f in ganz D differenzierbar
ist, und in diesem Fall bezeichnen wir die Funktion
f 0 : D → K; x 7→ f 0 (x)
als die Ableitung von f . Alternativ sagen wir auch, dass die Funktion f einfach differenzierbar ist und schreiben f (1) := f 0 . Die höheren Ableitungen von f werden rekursiv
definiert, d.h. ist n ∈ N mit n ≥ 2, so nennen wir f n-fach differenzierbar wenn f
(n − 1)-fach differenzierbar ist und die (n − 1)-te Ableitung f (n−1) von f wieder differenzierbar ist. Die n-te Ableitung von f wird dann als f (n) := (f (n−1) )0 definiert. Die
Funktion f selbst nennen wir die nullte Ableitung und schreiben f (0) := f .
Für jedes n ∈ N nennen wir f n-fach stetig differenzierbar wenn f n-fach differenzierbar ist und die n-te Ableitung f (n) : D → K stetig ist. Schließlich heißt f unendlich
oft differenzierbar, wenn f für jedes n ∈ N stets n-fach differenzierbar ist.
Nach Lemma 3 ist eine n-fach differenzierbare Funktion für jedes n ≥ 1 auch (n − 1)fach stetig differenzierbar. Insbesondere ist eine unendlich oft differenzierbare Funktion
für jedes n ∈ N stets n-fach stetig differenzierbar. Die Bedingung D ⊆ D0 an den
Definitionsbereich der betrachteten Funktion f ist für uns unproblematisch, sie ist
beispielsweise erfüllt wenn D ein Kreis D = Br (z) in C oder ein Intervall mit mindestens
zwei Punkten in R ist. Die meisten der in diesem Abschnitt behandelten Aussagen
handeln von stetigen Funktionen f : [a, b] → R, die auf dem offenen Intervall (a, b)
differenzierbar sind. Dabei sind a, b ∈ R mit a < b gegeben.
Eine der Aufgaben bei der sogenannten Kurvendiskussion ist die Bestimmung der
lokalen Extrema einer gegebenen Funktion f : [a, b] → R. Wir beschränken uns bei der
Definition lokaler Extrema auf den reellen Fall.
Definition 14.3 (Lokale Extrema)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine Funktion. Ein Punkt x ∈ (a, b)
heißt ein lokales Maximum der Funktion f , wenn es ein > 0 mit f (x) ≥ f (t) für alle
t ∈ [a, b] mit |t − x| < gibt. Analog heißt x ein lokales Minimum von f wenn es ein
> 0 mit f (x) ≤ f (t) für alle t ∈ [a, b] mit |t − x| < gibt. Schließlich heißt x ein
lokales Extremum von f wenn x eine lokales Maximum oder ein lokales Minimum von
f ist.
284
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Damit x etwas ein lokales Maximum ist, wird nur f(x)
gefordert, dass der Funktionswert x maximal unter den
Funktionswerten nahe bei x ist, also für alle Stellen in
einem Intervall (x − , x + ) um x. Weiter von x entfernt kann die Funktion durchaus noch größere Werte
x
annehmen. Ein globales Maximum x ∈ [a, b] von f ist
x−ε
x x+ ε
eine Stelle an der das Maximum der Funktionswerte angenommen wird, also f (x) ≥ f (t) für alle x ∈ [a, b]. Ist x 6= a, b, so ist x dann offenbar
auch ein lokales Maximum. Analog gilt dies auch für globale Minima der Funktion.
Das folgende Lemma erlaubt in vielen Fällen die Bestimmung aller potentiellen
lokalen Extrema einer Funktion f .
Lemma 14.8 (Notwendige Bedingung für lokale Extrema)
Seien I ⊆ R ein Intervall, f : I → R eine Funktion und a ∈ I ein lokales Extremum
von f in dem die Funktion f differenzierbar ist. Dann gilt f 0 (a) = 0.
Beweis: Wir zeigen dies wenn a ein lokales Maximum ist, der Fall eines lokalen Minimums ist dann analog. Es gibt ein > 0 mit (a − , a + ) ⊆ I und f (a) ≥ f (x) für alle
x ∈ (a − , a + ). Mit Lemma 7 und §13.Lemma 2.(a) folgen
f (x) − f (a)
≤ 0,
x↓a
x−a
f (x) − f (a)
f 0 (a) = f−0 (a) = lim
≥ 0,
x↑a
x−a
f 0 (a) = f+0 (a) = lim
es ist also f 0 (a) = 0.
Dieses Lemma erlaubt es bereits das Maximum und Minimum der betrachteten Funktion zu berechnen. Angenommen wir haben eine stetige Funktion f : [a, b] → R, die in
(a, b) differenzierbar ist. Dann bilden wir die Menge
M := {x ∈ (a, b)|f 0 (x) = 0} ∪ {a, b}
also alle Nullstellen der Ableitung im Inneren des Intervalls plus die beiden Randpunkte. In vielen Aufgabenstellungen ist die Menge M endlich und sogar recht klein. Der
maximale Wert den die Funktion annimmt ist dann
m := max f (x) = max f (x),
x∈M
x∈[a,b]
man muss die Funktion also nur an den Punkten aus M auswerten und den größten
auftretenden Wert heraussuchen. Weiter ist auch
{x ∈ [a, b]|f (x) = m} = {x ∈ M |f (x) = m},
wir finden also auch alle Werte in denen das Maximum angenommen wird, d.h. die
globalen Maxima der Funktion. Dies ist leicht zu sehen. Zunächst wissen wir nach
285
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
§13.Satz 13 das f überhaupt sein Maximum annimmt, es gibt also überhaupt ein globales Maximum von f . Damit muss man nur zeigen, dass jedes globale Maximum von
f in der Menge M liegt. Ist x ein globales Maximum, so ist x entweder einer der beiden
Randpunkte a, b, und dann ist x ∈ M , oder x ist auch lokales Maximum, und dann
ist nach dem eben bewiesenen Lemma f 0 (x) = 0, und wir haben wieder x ∈ M . Beachte das wir nicht wissen müssen welche der Nullstellen der Ableitung lokale Maxima
oder überhaupt lokale Extrema sind, das spielt keinerlei Rolle. Für das Minimum der
Funktion f kann man analog vorgehen.
Wir wollen jetzt ein Beispiel rechnen, die Funktion
f : [0, 2] → R; x 7→ x3 − 4x2 + 4x − 5.
Wir suchen den maximalen und den minimalen Wert von f . Folgen wir dem obigen
Verfahren, so berechnen wir zunächst die Ableitung von f
f 0 (x) = 3x2 − 8x + 4,
und bestimmen ihre Nullstellen
8
4
4 !
x2 − x + = 0 =⇒ x = ±
3
3
3
r
4
16 4
− = ±
9
3
3
r
4 2
4
= ± ,
9
3 3
also
2
und x2 = 2.
3
Die relevanten Funktionswerte sind also
2
103
135
f (0) = −5, f (2) = −5 und f
=−
>−
= −5.
3
27
27
x1 =
Also hat f ein globales Maximum in x = 2/3 mit Wert max = −103/27 und ein
globales Minimum in x = 0 (und x = 2) mit Wert min = −5.
Wir wollen noch ein zweites Beispiel rechnen, dieses wurde in der Vorlesung aus
Zeitgründen weggelassen. Bisher haben wir uns auf Funktionen beschränkt die auf Intervallen der Form [a, b] definiert sind. In diesem Fall garantiert uns §13.Satz 13 die
Existenz von globalen Maximum und Minimum. Man kann natürlich auch andere Intervalle behandeln, benötigt dann aber zusätzliche Argumente. Als ein solches Beispiel
wollen wir jetzt das Minimum der Funktion
f : R → R; x 7→ 2x − x
berechnen, und insbesondere einsehen das es ein solches überhaupt gibt. Hier schauen
wir uns als ersten Schritt das Verhalten von f (x) für x gegen ±∞ an. Zunächst ist
lim 2x = lim eln(2)x = ∞ =⇒ lim (2x − x) = ∞
x→−∞
x→−∞
x→−∞
286
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
nach §13.Satz 21.(b) und §13.Satz 5.(a). Etwas komplizierter ist der Grenzwert gegen
+∞, da hier sowohl 2x als auch x gegen +∞ gehen. Intuitiv ist klar das als Grenzwert
+∞ herauskommt, da 2x wesentlich schneller wächst als x. Mit den uns inzwischen zur
Verfügung stehenden Hilfsmitteln können wir dies auch leicht formal beweisen, nach
§13.Satz 21.(c) gilt
lim xe−x = 0,
x→∞
und insbesondere existiert ein a ∈ R mit xe−x < ln(2)/2 für alle x ∈ R mit x > a. Für
jedes x > a ist dann auch ex > 2x/ ln(2). Für jedes x ∈ R mit x > a/ ln(2) ist damit
auch
2 ln(2)x
2x = eln(2)x >
= 2x =⇒ 2x − x > x,
ln(2)
und §13.Lemma 2.(b) ergibt
lim (2x − x) = ∞.
x→∞
Es ist f (0) = 1 und wegen limx→±∞ f (x) = ∞ existiert ein a > 0 mit f (x) ≥ 2 für alle
x ∈ R mit |x| > a. Damit folgt
inf f (x) =
x∈R
inf
f (x),
x∈[−a,a]
und auf das Intervall [−a, a] ist unsere obige Überlegung anwendbar. Für jedes x ∈ R
gilt jetzt
f 0 (x) = ln(2) · 2x − 1,
also
1
.
ln 2
Gleichungen der Form ax = b mit a, b > 0, a 6= 1 lassen sich leicht nach x auflösen, wir
haben
!
ax = eln(a)x = b ⇐⇒ ln(a)x = ln(b),
f 0 (x) = 0 =⇒ 2x =
d.h. die eindeutige Lösung ist
x = lna b :=
ln b
.
ln a
Damit haben wir
0
f (x) = 0 =⇒ x = ln2
1
ln 2
=
ln
1
ln 2
ln 2
=−
ln(ln 2)
,
ln 2
und somit hat f sein globales Minimum in x0 = − ln(ln 2)/ ln(2). Der Funktionswert
in diesem Punkt ist
1
ln(ln 2)
1 + ln(ln 2)
f (x0 ) = 2x0 − x0 =
+
=
.
ln 2
ln 2
ln 2
Insgesamt haben wir damit
min(2x − x) =
x∈R
1 + ln(ln 2)
.
ln 2
287
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Wir wollen jetzt die Theorie etwas fortsetzen
und steuern als nächstes Ergebis den sogenannten
Mittelwertsatz an. Bei diesem betrachten wir eine
differenzierbare Funktion f : [a, b] → R und schauen uns die Steigung des Geradenstücks an, das die
beiden Punkte (a, f (a)) und (b, f (b)) miteinander
verbindet. Diese Strecke ist sozusagen eine Sekante
a
ξ
b
an den Graphen der Funktion f . Der Mittelwertsatz besagt das es zwischen a und b immer einen
Punkt ξ gibt so, dass die Steigung der Tangente an den Graphen im Punkt (ξ, f (ξ))
gleich der Sekantensteigung zwischen a und b ist, oder geometrisch formuliert das es
zwischen a und b eine zur gegebenen Sekante parallele Tangente an den Graphen gibt.
Die Steigung der Tangente bei x = ξ ist dabei die Ableitung f 0 (ξ).
Der Mittelwertsatz spielt eine recht kuriose Rolle. Für rechnerische Zwecke und
die meisten Anwendungen der Differentialrechnung außerhalb der Mathematik spielt
der Mittelwertsatz keinerlei Rolle. Für den Aufbau der Theorie ist der Mittelwertsatz
dagegen das Herzstück von allen. Alle weiteren Ergebnisse bauen direkt oder indirekt
auf ihm auf, der Mittelwertsatz ist der Dreh- und Angelpunkt aller weiteren Beweise. Um den Mittelwertsatz zu beweisen, behandelt man zuvor einen Spezialfall den
sogenannten Satz von Rolle.
Satz 14.9 (Satz von Rolle)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion mit f (a) = f (b)
die in (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit f 0 (ξ) = 0.
Beweis: Ist f konstant so ist f 0 (ξ) = 0 für jedes ξ ∈ (a, b) und die Behauptung ist
klar. Wir können also annehmen, dass f nicht konstant ist. Insbesondere kann nicht
gleichzeitig f (a) ≥ f (x) für alle x ∈ [a, b] und f (a) ≤ f (x) für alle x ∈ [a, b] gelten, und
wir nehmen zunächst an das es x ∈ [a, b] mit f (a) = f (b) < f (x) gibt. Nach §13.Satz
13 nimmt f in [a, b] sein Maximum an, es gibt also ein ξ ∈ [a, b] mit f (ξ) ≥ f (x) für
alle x ∈ [a, b]. Nach unserer Annahme ist ξ 6= a, b, also ist sogar ξ ∈ (a, b). Dann ist
ξ auch ein lokales Maximum von f . Da f in ξ differenzierbar ist, ergibt Satz 8 auch
f 0 (ξ) = 0.
Damit ist die Aussage bewiesen wenn f in a nicht sein Maximum annimmt. Im
anderen Fall nimmt f in a nicht sein Minimum an, und wir können den obigen Beweis
analog mit einem globalen Minimum ξ führen.
Eigentlich hatten wir den Satz von Rolle schon implizit bei unseren Überlegungen zur
Berechnung des globalen Maximums beziehungsweise Minimums erhalten. Aus dem
Satz von Rolle wird jetzt der allgemeine Mittelwertsatz folgen. Der Beweis erfolgt im
wesentlichen durch Neigen des Kopfes“, der Satz von Rolle deckt den Fall einer waa”
gerechten Sekante ab, und der allgemeine Fall wird hierauf durch eine Scherung zurückgeführt. Bei dieser Gelegenheit wollen wir auch noch gleich eine leicht verallgemeinerte
288
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Form des Mittelwertsatzes formulieren und beweisen.
Satz 14.10 (Mittelwertsatz)
Seien a, b ∈ R mit a < b und seien f, g : [a, b] → R zwei stetige Funktion die in (a, b)
differenzierbar sind.
(a) Es existiert ein ξ ∈ (a, b) mit
f 0 (ξ) =
f (b) − f (a)
.
b−a
(b) Es existiert ein ξ ∈ (a, b) mit
f 0 (ξ) · (g(b) − g(a)) = g 0 (ξ) · (f (b) − f (a)).
Beweis: (b) Nach §13.Satz 12.(a,b) und Satz 4.(a,b) ist die Funktion
h : [a, b] → R; x 7→ f (x) · (g(b) − g(a)) − g(x) · (f (b) − f (a))
stetig und in (a, b) differenzierbar. Es gelten
h(a) = f (a)(g(b) − g(a)) − g(a)(f (b) − f (a)) = f (a)g(b) − g(a)f (b),
h(b) = f (b)(g(b) − g(a)) − g(b)(f (b) − f (a)) = g(b)f (a) − f (b)g(a),
also ist h(a) = h(b) und nach dem Satz von Rolle Satz 9 existiert ein ξ ∈ (a, b) mit
h0 (ξ) = 0. Mit Satz 4.(a,b) folgt
f 0 (ξ) · (g(b) − g(a)) − g 0 (ξ) · (f (b) − f (a)) = h0 (ξ) = 0,
und dies ergibt die Behauptung.
(a) Das Polynom h(x) = x ist auf ganz R stetig und differenzierbar mit h0 (x) = 1 für
alle x ∈ R. Nach (b) existiert also ein ξ ∈ (a, b) mit
f 0 (ξ) · (b − a) = f 0 (ξ) · (h(b) − h(a)) = h0 (ξ) · (f (b) − f (a)) = f (b) − f (a),
und hieraus folgt der Mittelwertsatz.
Als eine erste Anwendung des Mittelwertsatzes wollen wir die Kennzeichnung monotoner Funktionen durch Ableitungen herleiten. Die vollständige Aussage ist etwas
länglich da diverse Fälle zu unterscheiden sind. Da wir diesen Satz nicht nur auf Intervallen der Form [a, b] formulieren wollen, brauchen wir noch einen kleinen zusätzlichen
Begriff. Ist I ⊆ R ein Intervall, so nennen wir die Menge I ◦ aller von den Randpunkten
von I verschiedenen Elemente von I das Innere von I, d.h. für a, b ∈ R mit a < b sind
[a, b]◦ = [a, b)◦ = (a, b]◦ = (a, b)◦ = (a, b)
289
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
und
[a, ∞)◦ = (a, ∞)◦ = (a, ∞), (−∞, a]◦ = (−∞, a)◦ = (−∞, a)
sowie {a}◦ = ∅◦ = ∅ und R◦ = R.
Korollar 14.11 (Charakterisierung differenzierbarer monotoner Funktionen)
Seien I ⊆ R ein Intervall und f : I → R eine stetige, in jedem Punkt von I ◦ differenzierbare Funktion. Dann gelten:
(a) Gilt f 0 (x) ≥ 0 für alle x ∈ I ◦ , so ist f monoton steigend.
(b) Gilt f 0 (x) ≤ 0 für alle x ∈ I ◦ , so ist f monoton fallend.
(c) Ist f monoton steigend so gilt f 0 (x) ≥ 0 für alle x ∈ I ◦ .
(d) Ist f monoton fallend so gilt f 0 (x) ≤ 0 für alle x ∈ I ◦ .
(e) Gilt f 0 (x) > 0 für alle x ∈ I ◦ , so ist f streng monoton steigend.
(f ) Gilt f 0 (x) < 0 für alle x ∈ I ◦ , so ist f streng monoton fallend.
Beweis: (a) Seien x, y ∈ I mit x < y gegeben. Dann ist f in jedem Punkt von (x, y) ⊆
I ◦ differenzierbar, also existiert nach dem Mittelwertsatz Satz 10.(a) ein ξ ∈ (x, y) mit
f (y) − f (x) = f 0 (ξ)(y − x) ≥ 0, also f (x) ≤ f (y).
Damit ist f monoton steigend.
(e) Gehen wir wie im Beweis von (a) vor, so haben wir diesmal
f (y) − f (x) = f 0 (ξ)(y − x) > 0, also f (x) < f (y).
Damit ist f streng monoton steigend.
(c) Sei x ∈ I ◦ . Ist y ∈ I\{x}, so gilt im Fall y > x stets f (y) ≥ f (x) also (f (y) −
f (x))/(y − x) ≥ 0 und im Fall y < x ist f (y) ≤ f (x) und wir haben ebenfalls (f (y) −
f (x))/(y − x) ≥ 0. Nach §13.Lemma 2.(a) ist damit
f (y) − f (x)
≥ 0.
y→x
y−x
f 0 (x) = lim
(b,d,f ) Analog zum monoton steigenden Fall.
Man kann die Aussagen (e) und (f) des Korollars noch etwas verbessern, einzelne
isolierte Nullstellen der Ableitung können auch noch erlaubt werden. Gibt es etwa
x1 , . . . , xn ∈ I so, dass für alle x ∈ I ◦ \{x1 , . . . , xn } stets f 0 (x) > 0 ist, so ist f auch in
diesem Fall streng monoton steigend. Diese Behauptung läßt sich leicht durch Betrachtung der Teilintervalle zwischen den Ausnahmepunkten auf (e) zurückführen. Noch
allgemeiner reicht es f 0 (x) > 0 für alle x ∈ I ◦ \N zu fordern, wenn N ⊆ I ◦ eine
290
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Teilmenge ist, die keine Häufungspunkte in I ◦ hat. Dies nachzuweisen ist eine kleine
Übungsaufgabe.
Wir werden das eben bewiesene Korollar verwenden eine weitere Grundtatsache
herzuleiten, die Kennzeichnung lokaler Maxima und Minima über die zweite Ableitung. Wir wissen bereits aus Satz 8 das die Ableitung einer differenzierbaren Funktion
in einem lokalen Extremum stets Null ist, aber umgekehrt muss eine Nullstelle der
Ableitung nicht unbedingt ein lokales Extremum sein. Ist die Funktion sogar zweimal
differenzierbar, so werden wir zeigen das aus f 0 (x) = 0 und f 00 (x) 6= 0 folgt das die
Funktion im Punkt x ein lokales Extremum hat. Etwas genauer liegt ein lokales Maximum vor wenn die zweite Ableitung in x negativ ist und ein lokales Minimum wenn
sie positiv ist.
Korollar 14.12 (Hinreichende Bedingung für lokale Extrema)
Seien a, b ∈ R mit a < b und f : [a, b] → R sei in (a, b) differenzierbar. Weiter sei
x ∈ (a, b) mit f 0 (x) = 0 und f sei in x zweifach differenzierbar mit f 00 (x) 6= 0. Dann hat
f in x ein lokales Extremum. Genauer hat f in x ein lokales Minimum wenn f 00 (x) > 0
ist und ein lokales Maximum wenn f 00 (x) < 0 ist.
Beweis: Wir betrachten den Fall f 00 (x) > 0, der Beweis des anderen Falls ist dann
analog. Nach Lemma 2 existiert eine in x stetige Funktion φ : [a, b] → R mit
f 0 (y) = f 0 (x) + (y − x)φ(y) = (y − x)φ(y)
für alle y ∈ [a, b], und es ist φ(x) = f 00 (x) > 0. Nach §13.Lemma 7 existiert ein > 0
mit [x − , x + ] ⊆ (a, b) und |φ(y) − f 00 (x)| < f 00 (x)/2 für alle y ∈ [a, b] mit |y − x| < .
Für jedes y ∈ [a, b] mit |y − x| < ist damit
φ(y) = f 00 (x) + φ(y) − f 00 (x) ≥ f 00 (x) − |φ(y) − f 00 (x)| >
f 00 (x)
> 0,
2
und folglich ist auch sign(f 0 (y)) = sign(y − x). Für jedes y ∈ (x − , x) ist damit
f 0 (y) < 0 und für y ∈ (x, x + ) haben wir f 0 (y) > 0. Nach Korollar 11.(e,f) sind
f |[x − , x] streng monoton fallend und f |[x, x + ] streng monoton steigend. Ist also
y ∈ [a, b] mit |y − x| < , so ist im Fall y ≤ x stets f (y) ≥ f (x) und im Fall y ≥ x
haben wir ebenfalls f (x) ≤ f (y). Dies zeigt, dass f in x ein lokales Minimum hat.
Man sollte die praktische Bedeutung dieses Korollars nicht überschätzen. Welche der
Nullstellen von f 0 lokale Maxima beziehungsweise lokale Minima sind, ist in den meisten
Fällen sowieso klar. Ist beispielsweise x1 kleinste Nullstelle von f 0 und limx→−∞ f (x) =
+∞, so kann f in x1 nur ein lokales Minimum oder gar kein lokales Extremum haben.
Kennen wir dann auch die zweitkleinste Nullstelle x2 von f 0 , so müssen wir nur die
Werte f (x1 ) und f (x2 ) vergleichen. Ist f (x2 ) < f (x1 ), so hatte f in x1 kein lokales
Extremum, und in x2 ist entweder auch kein lokales Extremum oder ein lokales Minimum. Ist dagegen f (x2 ) > f (x1 ), so hatte f in x1 ein lokales Minimum und in x2
ist entweder ein lokales Maximum oder gar kein lokales Extremum. Mit Überlegungen
291
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
dieser Art lassen sich die meisten in Aufgaben vorkommenden Funktionen behandeln,
d.h. man kommt in der Regel alleine mit dem Vergleichen von Funktionswerten durch
und benötigt keine zweite Ableitung. Sucht man nach den globalen Minima und Maxima, so ist es wie bereits früher bemerkt völlig egal welche der Nullstellen von f 0 lokale
Extrema sind. Zusammengefasst stellt man sich meistens ungeschickt an, wenn man
sich beim Berechnen der zweiten Ableitung ertappt.
14.4
Die Regel von Hospital
Die sogenannten Hospitalschen Regeln sind Formeln zur Berechnung von Funktionsgrenzwerten unter Verwendung gewisser Ableitungen. Diese gehen ursprünglich auf
einen Brief von Hospital an Johann Bernoulli aus dem Jahr 1693 zurück, dort fragt
Hospital nach einer Berechnung des Grenzwerts
√
√
3
2a3 x − x4 − a a2 x
√
lim
4
x→a
a − ax3
für reelles a > 0. In seiner Antwort entwickelt Bernoulli die Hospitalschen Regeln,
die dann später von Hospital in ein Lehrbuch zur Analysis aufgenommen wurden. Es
handelt sich eigentlich um zwei verschiedene Regeln, einmal für Grenzwerte der Form
0/0“, und ein anderes Mal für Grenzwerte der Form ∞/∞“. In obigen Problem
”
”
können wir die Grenzwerte von Zähler und Nenner leicht berechnen
√
√
√
3
4
lim 2a3 x − x4 − a a2 x = a2 − a2 = 0 und lim a − a3 x = a − a = 0,
x→a
x→a
da wir bereits die Stetigkeit von Wurzelfunktionen bewiesen haben, und damit liegt
ein 0/0“-Problem vor.
”
Am häufigsten angewandt wird ein trivialer Spezialfall der Hospitalschen Regeln,
mit dem wir hier auch beginnen wollen. Wir wollen den schon in §6 diskutierten Grenzwert limn→∞ (1 + 1/n)n berechnen. Hierzu bestimmen wir zunächst den Grenzwert des
Logarithmus dieses Terms
n ln 1 + n1 − ln(1)
1
1
lim ln 1 +
= lim n ln 1 +
= lim
1
n→∞
n→∞
n→∞
n
n
n
ln(1 + h) − ln(1)
= lim
=1
h→0
h
da es sich um einen Differenzenquotienten der Ableitung des Logarithmus in 1 handelt.
Mit der Stetigkeit der Exponentialfunktion folgt weiter
n
n 1
1
lim 1 +
= exp lim ln 1 +
= exp(1) = e.
n→∞
n→∞
n
n
Die eigentliche Grundidee der Hospitalschen Regel haben wir damit schon gesehen, der
Grenzwert wurde berechnet, indem wir ihn als Grenzwert eines Differenzenquotienten
292
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
interpretiert haben. Etwas allgemeiner kann man die folgende Situation betrachten.
Gegeben seien zwei auf dem Intervall I definierte, differenzierbare Funktionen f, g :
I → R, und wir haben einen Punkt a ∈ I mit f (a) = g(a) = 0 und g 0 (a) 6= 0. Dann
berechnen wir den Grenzwert limx→a f (x)/g(x) indem wir ihn als einen Quotienten
zweier Differenzenquotienten auffassen
h
i
(a)
f (x)−f (a)
lim f (x)−f
x−a
x−a
f 0 (a)
f (x)
x→a
i =
=
lim
= lim h
.
x→a g(x)
x→a g(x)−g(a)
g 0 (a)
lim g(x)−g(a)
x−a
x→a
x−a
Wie man sieht ist dies eigentlich keine neue Aussage, sondern nur die Definition der
Ableitung. Ein beliebtes, wenn auch eigentlich ziemlich unsinniges, Beispiel ist der
Grenzwert
sin x
lim
= 1.
x→0 x
Die Rechnung über die Hospitalsche Regel wäre
sin x
sin0 x
lim
= lim
= cos 0 = 1.
x→0 x
x→0
1
Einfacher kann man auch sagen, dass dieser Grenzwert gerade der Grenzwert des Differenzenquotienten für sin x bei 0 ist, also gleich sin0 0 = cos 0 = 1 sein muss. Die nicht
triviale Hospitalsche Regel wird erstaunlich selten wirklich benötigt, in dieser wird
auch noch der Fall erfasst das die Ableitungen von Zähler und Nenner in a gar nicht
existieren sowie die Situation von Grenzwerten der Form ∞/∞“. In der Vorlesung
”
hatten wir uns auf den Beweis des einfacheren Falles 0/0“ beschränkt, hier soll aber
”
der volle Satz bewiesen werden.
Satz 14.13 (Die Hospitalschen Regeln)
Seien a, b ∈ R mit a < b und seien f, g : (a, b) → R zwei differenzierbare Funktionen
mit g(x) 6= 0 und g 0 (x) 6= 0 für alle x ∈ (a, b). Weiter nehme an, dass in R die beiden
Grenzwerte lim f (x) und lim g(x) existieren und das
x→a
x→a
lim f (x) = lim g(x) = 0 oder lim f (x), lim g(x) ∈ {−∞, +∞}
x→a
x→a
x→a
x→a
gelten. Existiert dann der Grenzwert limx→a f 0 (x)/g 0 (x) in R, so ist auch
f (x)
f 0 (x)
= lim 0
.
x→a g(x)
x→a g (x)
lim
Beweis: Wir schreiben c := limx→a f 0 (x)/g 0 (x) ∈ R. Zunächst sei limx→a f (x) =
limx→a g(x) = 0. Durch f (a) := 0 und g(a) := 0 können wir f und g zu, der Einfachheit
halber wieder mit f und g bezeichneten, stetigen Funktionen auf [a, b) fortsetzen. Sei
293
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
(xn )n∈N eine Folge in (a, b) mit (xn )n∈N −→ a. Sei n ∈ N. Nach Satz 10.(b) existiert
ein ξn ∈ (a, xn ) mit
f 0 (ξn ) · g(xn ) = f 0 (ξn ) · (g(xn ) − g(a)) = g 0 (ξn ) · (f (xn ) − f (a)) = g 0 (ξn ) · f (xn ),
also ist wegen g(xn ) 6= 0 und g 0 (ξn ) 6= 0 auch
f (xn )
f 0 (ξn )
.
= 0
g(xn )
g (ξn )
Wegen a < ξn < xn für alle n ∈ N gilt nach dem Einschnürungslemma §6.Lemma 5.(b)
auch (ξn )n∈N −→ a. Es folgt
f 0 (ξn )
f 0 (x)
f (xn )
= lim 0
= lim 0
= c.
n→∞ g (ξn )
x→a g (x)
n→∞ g(xn )
lim
Dies zeigt limx→a f (x)/g(x) = c, und die Aussage ist in diesem Fall bewiesen.
Nun kommen wir zum Fall limx→a f (x), limx→a g(x) ∈ {−∞, +∞}. Durch eventuellen Übergang von f zu −f beziehungsweise von g zu −g können wir limx→∞ f (x) =
limx→∞ g(x) = ∞ annehmen. Sei (xn )n∈N wieder eine gegen a konvergente Folge
in (a, b). Dann ist limn→∞ f (xn ) = limn→∞ g(xn ) = ∞. Wir behaupten zunächst,
dass es ein n0 ∈ N und eine gegen a konvergente Folge (bn )n≥n0 mit bn > xn und
f (xn ) > f (bn ) > 0, g(xn ) > g(bn ) > 0 für alle n ≥ n0 und
lim
n→∞
f (bn )
g(bn )
= lim
=0
n→∞
f (xn )
g(xn )
gibt. Zunächst wähle ein m0 ∈ N mit f (xn ), g(xn ) > 0 für alle n ≥ m0 . Nun sei
k ≥ 1 und mk−1 ∈ N sei schon gewählt. Dann existiert ein mk ∈ N mit mk > mk−1 ,
xn < xmk−1 für alle n ≥ mk und f (xn ) > kf (xmk−1 ), g(xn ) > kg(xmk−1 ) für alle n ≥ mk .
Damit haben wir induktiv eine streng monoton steigende Folge (mk )k∈N in N definiert.
Setze n0 := m1 ∈ N und definiere die Folge (bn )n≥n0 wie folgt: Ist n ∈ N mit n ≥ n0 =
m1 , so existiert ein k ≥ 1 mit mk ≤ n < mk+1 und wir setzen bn := xmk−1 ∈ (a, b). Wir
zeigen nun, dass diese Folge alle verlangten Eigenschaften hat. Sei n ∈ N mit n ≥ n0
und sei k ≥ 1 mit mk ≤ n < mk+1 . Wegen n ≥ mk > mk−1 ≥ m0 sind f (xn ) >
kf (xmk−1 ) ≥ f (xmk−1 ) = f (bn ) > 0 und g(xn ) > kg(xmk−1 ) ≥ g(xmk−1 ) = g(bn ) > 0.
Außerdem ist xn < xmk−1 = bn . Wir kommen nun zu den Konvergenzbehauptungen,
zunächst zeigen wir das die Folge (bn )n≥n0 gegen a konvergiert. Sei > 0. Dann existiert
ein n1 ∈ N mit a < xn < a + für alle n ≥ n1 . Sei nun n ∈ N mit n ≥ mn1 +1 . Dann
existiert ein k ≥ n1 + 1 mit mk ≤ n < mk+1 und wegen mk−1 ≥ mn1 ≥ n1 ist |bn − a| =
|xmk−1 − a| < . Damit haben wir (bn )n≥n0 −→ a eingesehen. Es verbleiben nur noch
die beiden Aussagen über die Quotientenfolgen. Sei wieder ein > 0 gegeben. Dann
existiert ein k0 ≥ 1 mit 1/k0 < . Sei n ∈ N mit n ≥ mk0 . Dann existiert ein k ≥ k0 mit
mk ≤ n < mk+1 und wegen f (xn ) > kf (xmk−1 ) = kf (bn ), g(xn ) > kg(xmk−1 ) = kg(bn )
und wegen f (xn ), g(xn ), f (bn ), g(bn ) > 0 folgen auch
0<
f (bn )
1
1
g(bn )
1
1
< ≤
< und 0 <
< ≤
< ,
f (xn )
k
k0
g(xn )
k
k0
294
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
also sind auch diese Konvergenzaussagen bewiesen.
Damit haben wir diese Zwischenbehauptung eingesehen, und kommen zur eigentlichen Aussage. Nach Satz 10.(b) existiert für jedes n ≥ n0 ein ξn ∈ (xn , bn ) mit
f 0 (ξn ) · (g(xn ) − g(bn )) = g 0 (ξn ) · (f (xn ) − f (bn ))
Wegen g(xn ) − g(bn ) > 0 und g 0 (ξn ) 6= 0 ist damit
f (xn ) − f (bn )
f 0 (ξn )
= 0
.
g(xn ) − g(bn )
g (ξn )
Für jedes n ≥ n0 ist wegen f (xn ) > f (bn ) > 0
f (xn )
f (xn ) − f (bn )
f (xn )
g(xn ) − g(bn )
=
·
·
g(xn )
g(xn ) − g(bn ) f (xn ) − f (bn )
g(xn )
f 0 (ξn )
1
g(bn )
·
· 1−
= 0
.
g (ξn ) 1 − f (bn )
g(xn )
f (xn )
Wegen xn < ξn < bn für alle n ≥ n0 gilt nach dem Einschnürungslemma §6.Lemma
5.(b) auch (ξn )n≥n0 −→ a. Mit den Grenzwertsätzen für Folgen §6.Satz 6 folgt
f (xn )
f 0 (ξn )
g(bn )
1
f 0 (x)
lim
= lim 0
·
1
−
lim
= c.
·
=
lim
n→∞ g(xn )
n→∞ g (ξn )
n→∞ g(xn )
x→a g 0 (x)
1 − lim f (bn )
n→∞ f (xn )
Dies zeigt limx→a f (x)/g(x) = c, und die Aussage ist auch in diesem Fall bewiesen.
Wir haben die Regel hier nur für rechtsseitige Grenzwerte x → a von auf (a, b) definierten Funktionen formuliert, analog gilt dies dann natürlich auch für linksseitige
Grenzwerte x → b, und auch für beidseitige Grenzwerte x → c mit c ∈ (a, b). Für letzteres müssen wir uns nur auf §13.Lemma 4 berufen. Im ursprünglichen Anwendungsfall
haben wir
√
d √ 3
a3 − 2x3
a3
3
( 2a x − x4 − a a2 x) = √
− √
,
dx
2a3 x − x4 3 3 a4 x2
√
d
3ax2
4
(a − ax3 ) = − √
4
dx
4 a3 x 9
Für x → a konvergieren die Ableitung des Zählers gegen −a − a/3 = −4a/3 und die
Ableitung des Nenners gegen −3/4, nach der Hospitalschen Regel gilt also
√
√
3
− 43 a
16
2a3 x − x4 − a a2 x
√
=
a.
lim
3 =
4
3
x→a
9
−4
a − ax
Wir wollen noch ein zweites Beispiel rechnen in dem Satz 13 gleich doppelt angewandt
wird
1
1 − cos x
sin x
1
x − sin x
lim
−
= lim
= lim
= lim
= 0.
x→0
x→0 x sin x
x→0 sin x + x cos x
x→0 2 cos x − x sin x
sin x x
295
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Streng genommen, ist diese Rechnung so falsch, da wir mit einem Grenzwert beginnen
von dem wir noch nicht wissen das er überhaupt existiert. Dies ist allerdings so verbreitet das wir uns dieser Unsitte hier anschließen wollen, man muss sich immer nur
dazudenken das diese Gleichungskette eigentlich von rechts nach links zu lesen ist. Wir
wollen auch noch ein Beispiel für die ∞/∞“ Situation rechnen
”
ln x
x−1
=
lim
= lim (−x) = 0.
x→0 x−1
x→0 −x−2
x→0
lim x ln x = lim
x→0
Als nächste Aufgabe wollen wir die Hospitalsche Regel auch auf Grenzwerte x → ∞
ausdehnen. Zu diesem Zweck führen wir derartige Grenzwerte auf den schon behandelten Grenzwerttyp zurück, indem x durch 1/x ersetzt wird. Hierfür benötigen wir
ein kleines Lemma, das derartige Umparametrisierungen von Grenzwerten untersucht.
Dabei sind wir nicht an die Substitution von 1/x gebunden, sondern können je nach
den aktuellen Erfordernissen auch andere Funktionen h(x) substituieren. Eine analoge
Aussage gilt natürlich auch für Grenzwerte gegen −∞.
Lemma 14.14 (Umparametrisierung von Funktionsgrenzwerten in ∞)
Seien a, b, c ∈ R mit a < b und weiter sei h : (a, b] → R eine stetige Funktion mit
limx→a h(x) = +∞ und h(x) > c für alle x ∈ (a, b]. Weiter seien f : (c, ∞) → R eine
Funktion und m ∈ R. Dann gilt
lim f (x) = m ⇐⇒ lim f (h(x)) = m.
x→∞
x→a
Beweis: ”=⇒” Sei (xn )n∈N eine gegen a konvergente Folge in (a, b]. Dann ist
lim h(xn ) = lim h(x) = +∞,
n→∞
x→a
also auch
lim f (h(xn )) = lim f (x) = m.
n→∞
x→∞
”⇐=” Wegen limx→a h(x) = +∞ und da das Bild h((a, b]) ⊆ R nach §13.Lemma
15.(a) ein Intervall ist, gilt [h(b), ∞) ⊆ h((a, b]). Sei jetzt (xn )n∈N eine Folge in (c, ∞)
mit (xn )n∈N −→ +∞. Dann existiert ein n0 ∈ N mit xn > h(b) für alle n ∈ N mit
n ≥ n0 , d.h. für jedes n ≥ n0 existiert ein tn ∈ (a, b] mit xn = h(tn ). Wir behaupten,
dass die Folge (tn )n≥n0 gegen a konvergiert. Angenommen (tn )n≥n0 konvergiert nicht
gegen a. Nach §6.Lemma 1.(c) existieren ein > 0 und eine Teilfolge (tnk )k∈N von
(tn )n≥n0 mit |tnk − a| ≥ für alle k ∈ N. Für alle k ∈ N ist dann a + ≤ tnk ≤ b, und
nach dem Satz von Heine Borel §6.Satz 11 existiert eine konvergente Teilfolge (tnkl )l∈N
von (tnk )k∈N . Für den Grenzwert t dieser Teilfolge gilt dann nach §6.Lemma 5.(a) auch
a + ≤ t ≤ b, und die Stetigkeit von h liefert den Widerspruch
h(t) = lim h(tnkl ) = lim xnkl = lim xn = +∞.
l→∞
l→∞
296
n→∞
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Dies zeigt (tn )n≥n0 −→ a, und somit gilt auch
lim f (xn ) = lim f (h(tn )) = lim f (h(x)) = m.
n→∞
n→∞
x→a
Damit ist dieses Lemma bewiesen.
Ausgerüstet mit diesem Lemma ist es leicht, die Hospitalsche Regel auch für Grenzwerte x → ±∞ zu beweisen. Wir formulieren und beweisen den folgenden Satz nur
für Grenzwerte gegen +∞, aber für Grenzwerte gegen −∞ gilt natürlich die analoge
Aussage.
Satz 14.15 (Regel von Hospital für x → ∞)
Sei a ∈ R und seien f, g : [a, ∞) → R zwei differenzierbare Funktionen mit g(x) 6= 0
und g 0 (x) 6= 0 für alle x ∈ [a, ∞). Weiter nehme an, dass in R die beiden Grenzwerte
lim f (x) und lim g(x) existieren und das
x→∞
x→∞
lim f (x) = lim g(x) = 0 oder lim f (x), lim g(x) ∈ {−∞, +∞}
x→∞
x→∞
x→∞
x→∞
gelten. Existiert dann der Grenzwert limx→∞ f 0 (x)/g 0 (x) in R, so ist auch
f 0 (x)
f (x)
= lim 0
.
x→∞ g (x)
x→∞ g(x)
lim
Beweis: Durch eventuelles Vergrößern von a können wir a > 0 annehmen. Die Funktion
1
1
h : 0,
→ [a, ∞); x 7→
a
x
ist differenzierbar mit limx→0 h(x) = +∞, und wir betrachten die beiden differenzierbaren Funktionen F := f ◦h : (0, 1/a] → R und G := g ◦h : (0, 1/a] → R. Nach Lemma
14 gelten limx→0 F (x) = limx→∞ f (x) und limx→0 G(x) = limx→∞ g(x). Weiter ist für
alle x ∈ (0, 1/a) nach der Kettenregel Satz 4.(e) auch
1 0 1
1 0 1
0
0
F (x) = − 2 f
und G (x) = − 2 g
x
x
x
x
also insbesondere G(x) 6= 0 und G0 (x) 6= 0 für alle x ∈ (0, 1/a). Wieder nach Lemma
14 ist auch
f 0 x1
− x12 f 0 x1
f 0 (x)
F 0 (x)
m := lim 0
= lim 0 1 = lim 1 0 1 = lim 0 ,
x→∞ g (x)
x→0 g
x→0 − 2 g
x→0 G (x)
x
x
x
und nach Satz 13 ist damit auch
F (x)
= m.
x→0 G(x)
lim
297
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Eine erneute Anwendung von Lemma 14 liefert damit auch
f (x)
F (x)
= lim
= m.
x→∞ g(x)
x→0 G(x)
lim
Auch hierfür wollen wir ein kleines, in der Vorlesung leider weggelassenes Beispiel
besprechen. Sei a ∈ R mit a > 0. Dann haben wir
1
ln x
1
x
=
lim
= lim
= 0.
a
a−1
x→∞ x
x→∞ ax
x→∞ axa
lim
Die Voraussetzungen g(x) 6= 0, g 0 (x) 6= 0 in den Hospitalschen Regeln sind tatsächlich
wichtig. Dies wurde in der Vorlesung nur mündlich erwähnt, hier wollen auch ein Beispiel angeben. Nehmen wir etwa die Funktionen
f (x) = x + cos(x) sin(x), g(x) = esin x f (x),
so ist limx→∞ f (x) = limx→∞ g(x) = +∞, jeweils da Sinus und Cosinus nur Werte
zwischen −1 und 1 annehmen, und der Grenzwert von f (x)/g(x) = e− sin x für x → ∞
existiert nicht. Dagegen haben wir
f 0 (x) = 1 + cos2 x − sin2 x = 2 cos2 x
und
g 0 (x) = cos(x)esin x f (x) + esin x f 0 (x) = esin x (x cos x + sin(x) cos2 x + 2 cos2 x)
= esin x cos(x) · (x + sin(x) cos(x) + 2 cos x),
also ist
14.5
2 cos x
1
f 0 (x)
lim
= lim
·
= 0.
x→∞ g 0 (x)
x→∞
esin x x + sin(x) cos(x) + 2 cos x
Die Taylor Entwicklung
Wir kommen nun zum allerletzten Thema dieser Vorlesung, der sogenannten Taylor
Entwicklung einer Funktion. Hierzu ist es sinnvoll sich zunächst an die Approximationsinterpretation der Ableitung zu erinnern. Bei dieser schrieben wir bei einem gegebenen
Punkt x0
f (x0 + h) = f (x0 ) + f 0 (x0 )h + fehler(h),
wobei der Fehler mit limh→0 fehler(h)/h = 0 klein wurde. Diese Formel können wir in
der Form
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + fehler(x − x0 )
298
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
umschreiben. Dies ist eine Approximation von f durch eine lineare Funktion, also durch
ein Polynom von Grad 1. Die Taylor Approximation ist nun die Approximation von f
durch Polynome höheren Grades.
Definition 14.4 (Das n-te Taylorpolynom)
Seien I ⊆ R ein Intervall, n ∈ N, x0 ∈ I und f : I → R eine n-fach differenzierbare Funktion. Das n-te Taylorpolynom von f im Entwicklungspunkt x0 ist dann das
Polynom
n
X
f (k) (x0 )
(x − x0 )k .
Tn,x0 (x) :=
k!
k=0
Das Taylorpolynom Tn,x0 ist nicht so willkürlich wie es zunächst ausschaut, es handelt
sich genau um dasjenige Polynom von Grad höchstens n, dessen Funktionswert und
erste n Ableitungen im Punkt x0 mit denjenigen von f übereinstimmen. Zur Berechnung des Taylorpolynoms reicht es aus Ableitungen berechnen zu können, es stellt sich
also kein neues rechnerisches Problem. Wir wollen uns einige einfache Beispiele von
Taylorpolynomen anschauen.
1. Zunächst betrachten wir die Sinusfunktion f (x) = sin x. Dann sind f 0 (x) =
cos x, f 00 (x) = − sin x, f 000 (x) = − cos x und f 0000 (x) = sin x, die ersten vier
Taylorpolynome zum Entwicklungspunkt Null sind also
T1 (x) = T2 (x) = x, T3 (x) = T4 (x) = x −
x3
.
6
Verwenden wir dagegen x = π/2 als Entwicklungspunkt, so ergeben sich die
Taylorpolynome
1
π 2
T1 (x) = 1, T2 (x) = T3 (x) = 1 −
x−
2
2
und
T4 (x) = 1 −
1
π 2
1 π 4
x−
+
x−
.
2
2
24
2
2. Nun sei f (x) = ex . Dann ist auch f (k) (x) = ex für jedes k ∈ N,P
also ist das n-te
Taylorpolynom zum Entwicklungspunkt x0 = 0 gleich Tn (x) = nk=0 xk /k!.
3. Als drittes Beispiel behandeln wir ein etwas unangenehmeres Beispiel, die Funktion
sin x
.
f (x) =
1 + x2
Die ersten Ableitungen dieser Funktion sind
(1 + x2 ) cos x − 2x sin x
,
(1 + x2 )2
(x4 − 4x2 + 3) sin x + 4x(x2 + 1) cos x
f 00 (x) = −
.
(1 + x2 )3
f 0 (x) =
299
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Damit haben wir f (0) = 0, f 0 (0) = 1 und f 00 (0) = 0, das quadratische Taylorpolynom ist also
T2 (x) = x.
In diesen Beispielen sieht man auch, dass es durchaus passieren kann, dass der Grad des
n-ten Taylorpolynoms echt kleiner als n ist. Ist der Entwicklungspunkt beispielsweise
ein Wendepunkt, also f 00 (x0 ) = 0, so stimmen lineares und quadratisches Taylorpolynom überein. Dies passiert etwa für f (x) = sin x beim Entwicklungspunkt x0 = 0. Das
so entstehende quadratische Taylorpolynom T2 (x) = x ist dann die sogenannte Sinus”
Approximation für kleine Auslenkungen“. Wir wollen jetzt quantitativ möglichst genau
wissen, wie gut die Approximation einer Funktion durch ihr Taylorpolynom ist, also
wie gross der Näherungsfehler f (x) − Tn (x) sein kann. Der nächste Satz gibt uns eine Formel für diesen Fehler, wir müssen aber noch kurz die verwendete Terminologie
einführen. Sind a, b ∈ R so sagen wir das ein ξ ∈ R zwischen a und b liegt wenn
a = b = ξ, a < ξ < b oder b < ξ < a gilt.
Satz 14.16 (Taylorpolynom mit Lagrangeschen Fehlerterm)
Seien I ⊆ R ein Intervall, x0 ∈ I, n ∈ N, f : I → R eine (n + 1)-fach differenzierbare
Funktion und bezeichne Tn das n-te Taylorpolynom von f zum Entwicklungspunkt x0 .
Dann gibt es für jedes x ∈ I ein ξ ∈ I zwischen x0 und x mit
n
f (x) = Tn (x) +
X f (k) (x0 ) f (n+1) (ξ)
f (n+1) (ξ)
(x − x0 )n+1 =
+
(x − x0 )n+1 .
(n + 1)!
k!
(n
+
1)!
k=0
Beweis: Sei x ∈ I. Im Fall x = x0 ist die Aussage klar, wir können also x 6= x0
annehmen. Wir setzen
f (x) − Tn (x)
m :=
(n + 1)!
(x − x0 )n+1
und definieren die Hilfsfunktion
g : I → R; t 7→
n
X
f (k) (t)
k=0
k!
(x − t)k + m
(x − t)n+1
.
(n + 1)!
Dann ist g differenzierbar mit g(x) = f (x) und
g(x0 ) =
n
X
f (k) (x0 )
k=0
k!
(x−x0 )k +m
(x − x0 )n+1
f (x) − Tn (x)
= Tn (x)+
(x−x0 )n+1 = f (x),
(n + 1)!
(x − x0 )n+1
300
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
d.h. wir haben g(x) = g(x0 ). Nach dem Satz von Rolle Satz 9 existiert ein ξ zwischen
x und x0 mit g 0 (ξ) = 0. Für jedes t ∈ I ist
n (k+1)
X
f
(t)
f (k) (t)
(x − t)n
k
k−1
0
0
(x − t) −
(x − t)
−m
g (t) = f (t) +
k!
(k − 1)!
n!
k=1
0
= f (t) +
n
X
f (k+1) (t)
k=1
k!
k
(x − t) −
n−1 (k+1)
X
f
(t)
k=0
k!
(x − t)k − m
(x − t)n
n!
f (n+1) (t)
(x − t)n
(x − t)n − m
n!
n!
n
f (n+1) (t)
(x
−
t)
=
(x − t)n − m
,
n!
n!
= f 0 (t) − f 0 (t) +
also haben wir
f (n+1) (ξ)
(x − ξ)n
(x − ξ)n − m
= g 0 (ξ) = 0,
n!
n!
und damit ist auch m = f (n+1) (ξ). Es folgt
f (x) − Tn (x) =
f (n+1) (ξ)
(x − x0 )n+1 ,
(n + 1)!
und der Satz ist bewiesen.
Der Approximationsfehler ist also gleich
Approximationsfehler =
f (n+1) (ξ)
(x − x0 )n+1
(n + 1)!
für eine geeignete Zwischenstelle ξ, was zunächst nicht sehr hilfreich aussieht. Glücklicherweise täuscht dieser Eindruck, man kann den Satz meistens recht explizit auswerten. Angenommen wir interessieren uns für Argumente x aus dem Intervall [x0 −a, x0 +a]
mit a > 0. Ist dann
M :=
sup
|f (n+1) (x)|,
x∈[x0 −a,x0 +a]
der größte Wert den die (n + 1)-Ableitung überhaupt annehmen kann, so können wir
den Fehler für x ∈ R mit |x − x0 | ≤ a durch
(n+1)
f
|f (n+1) (ξ)|
(ξ)
M
n+1 n+1
(x
−
x
)
≤
|x − x0 |n+1
0
(n + 1)!
= (n + 1)! |x − x0 |
(n + 1)!
abschätzen. Schauen wir uns beispielsweise einmal das quadratische Taylorpolynom
T2 (x) = x für f (x) = sin x an. Die dritte Ableitung ist f 000 (x) = − cos x, also wird die
Taylorformel zu
cos ξ 3
sin x − x = −
x
6
301
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
für ein ξ zwischen 0 und x. Wegen | cos ξ| ≤ 1 für überhaupt jedes ξ ∈ R folgt
1
| sin x − x| ≤ |x|3
6
für alle x ∈ R. Die Näherung ist nur in der Nähe des Entwicklungspunktes x0 = 0
sinnvoll, wir interessieren uns also für kleine x, und dann wird x3 sogar noch viel
kleiner. Merkwürdigerweise gibt uns die Taylorformel auch eine untere Schranke für
den Fehler.
√ Beschränken wir uns auf |x| ≤ π/4, so ist auch |ξ| ≤ π/4 und somit
cos ξ ≥ 2/2, für 0 < x < π/4 gilt also
√
2 3
1
x < x − sin x < x3 .
12
6
Als ein weiteres Beispiel betrachten wir
f (x) =
√
1+x
für |x| < 1. Es sind
1
1
3
, f 000 (x) =
,
, f 00 (x) = −
f 0 (x) = √
3/2
4(1 + x)
8(1 + x)5/2
2 1+x
also f (0) = 1, f 0 (0) = 1/2 und f 00 (0) = −1/4. Das quadratische Taylorpolynom ist
T2 (x) = 1 +
x x2
− .
2
8
Dies ist eine klassische Approximation der Quadratwurzel, die bereits von Newton
verwendet wurde. Die dritte Ableitung f 000 ist positiv und monoton fallend. Für x > 0
ergibt sich damit
√
x3
| 1 + x − T2 (x)| ≤
16
und für 0 < x < 0.1 ist der Approximationsfehler höchstens 0.0000625. Für −0.1 <
x < 0 haben wir dagegen f 000 (−0.1)/6 = 0.0813.. < 0.0814, also
√
| 1 + x − T2 (x)| < 0.0814 · |x|3 < 0.0000813... < 0.0000814.
Wir wollen noch eine Anmerkung zur Wahl der Ordnung n der Taylor-Approximation
machen. Auf der einen Seite wird die Approximation in der Regel besser wenn n größer
wird, man will n also eher groß wählen. Auf der anderen Seite ist es der Sinn einer
Approximation die gegebene Funktion f durch etwas einfacheres zu ersetzen. Ein Polynom ist umso einfacher je kleiner sein Grad ist, man möchte n also eigentlich auch
möglichst klein wählen. Was der ideale Kompromiss zwischen diesen beiden Forderungen ist, hängt natürlich immer an der speziellen Situation. Sehr oft stellt sich die
quadratische Taylor Approximation, also n = 2, als die geeigneteste Wahl von n heraus.
302
Index
A−1 , 152
A−t , 153
At , 149
\, 6
|x|, 43, 60, 220
|M|, 162
n
, 51
k
∩, 6
◦, 26
∈, 1
>, 41
<, 41
∅, 5
∈,
/ 1
ez , 265
≥, 41
b, siehe Auslassungssymbol
=⇒, 11
IdM , 34
∞, 49
', 204
z, 60
≤, 40
7→, 25
(−1)π , 163
M 0 , 231
¬, 10
||x||, 220
⊥, 220
Π, siehe Produktzeichen
∀, 13
∃, 13
Sn , 160
h. . .i, 185
Σ, siehe Summenzeichen
⊆, 4
(, 4
×, 23, 225
6⊆, 4
∪, 6
∨, 11
∧, 10
√
n
a, 54
Abbildung, siehe Funktion
linear, siehe Lineare Abbildung
Ableitung, 75–76, 272–274, 284
höhere, 284
n-te, 284
Ableitungsregeln, 276–277
Absolut konvergent, siehe Reihe, absolut
konvergent
Addition
von Matrizen, 145
von Vektoren, 145
Additionstheoreme, 62, 69, 268–269
Adjunkte, 177
Adjunkte Matrix, 174
affiner Teilraum, 209–213, 224
Allaussage, 13
Allquantor, 13
Änderungsrate, 75
Anordnung, siehe Ordnung
Antisymmetrie, 40
Approximation, 298, 300
linear, 273–274
Approximationsfehler, 301
Archimedische Eigenschaft, 49, 79, 82, 86,
92
Arcus
Cosinus, 281
Sinus, 281
Tangens, 281
Arcusfunktionen, siehe Funktion, arcus
Area
Cosinus Hyperbolicus, 282
Sinus Hyperbolicus, 282
303
Mathematik für Physiker I, WS 2010/2011
Tangens Hyperbolicus, 282
Areafunktionen, siehe Funktion, area
arg z, 64
Argument, 64, 66, 67
Hauptwert, 64, 65
Hauptzweig, 64
Assoziativgesetz, 160
der Addition, 37, 145, 180
der Hintereinanderausführung, 27
der Multiplikation, 38, 145, 147, 181
Aufpunkt, 135, 209–210
Aufspann, 184–186, 216, 217
Auslassungssymbol, 194
Aussage, 10
Austauschlemma, 196
Axiome, 36–37
der reellen Zahlen, 37–38, 40, 42, 48
einer Anordnung, 40
einer Gruppe, 160
eines angeordneten Körpers, 42, 59, 79
eines Körpers, 37–38, 59
eines Vektorraums, 180–181
Montag 7.2.2011
Cm×n , 144
Cantor, 1
Caratheodory, 275
Cardano Formel, 56–58, 70
Cartesisches Produkt, 23
Cauchy Kriterium
für Folgen, 105
für Reihen, 115, 131
Cauchyfolge, 102–106
Cauchyprodukt, 130, 131, 133
C− , 64
Cn , 144, 181
Cosinus, 268
Hyperbolicus, 267
Cotangens, 268
Hyperbolicus, 267
Cramersche Regel, 177–180
De Morgansche Regeln
für Aussagen, 11
für Mengen, 9
Definitionsbereich, 22, 25
Determinante, 158, 159, 164–165, 167, 173,
Basis, 194–199, 201, 205, 207, 219
223, 224, 227, 228
negativ, 224
Differenzenquotient, 272, 274, 292, 293
positiv, 224–228
Differenzierbarkeit, siehe Funktion, diffeBernoulli Ungleichung, 53, 74
renzierbar
beschränkt, 45, 46, 66–67, 72, 231–232, 253
Differenzmenge, 6, 15
nach oben, 45, 73
Dimension, 24, 197–198, 203, 205, 207, 208,
nach unten, 45, 73
210, 212, 216, 217, 219
Beschränktheitssatz, 253
Dimensionsformel, 207, 210, 211
bestimmt divergent, 93
Disjunktion, 11
Betrag, 43–44, 46, 60–61, 63, 80, 283
Distributivgesetz, 38, 146, 148, 181
Beweis
divergent, 80, 90, 107, 125, 128, 133, 232,
direkt, 16–17
259
indirekt, 17–18, 49
gegen ±∞, 93
Bijektiv, siehe Funktion, bijektiv
Division, 39
Bild, 203, 216
dom(f), 22, 25
Binomialkoeffizient, 51, 52
Drehmatrix, 215, 221
Binomische Formel, 51, 53, 74, 83
Drehung, 215
Br (z), 232
Dreiecksmatrix, 167
B r (z), 232
Dreiecksungleichung, 44, 61, 62
Durchschnitt, 6, 15
C, siehe Komplexe Zahlen
304
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
e, 265, 292
lokales, siehe lokales Extremum
Ebene, 24, 135, 209, 210
f | D, 235
Einheitsmatrix, 148, 216
Fehlstand, 162
Einheitswurzel, 67, 68
Folge, 71, 72, 182
Einschnürungslemma, 85–86
beschränkt, 72–74, 80, 83, 93, 100, 101,
Einschränkung, 235, 237, 241, 249, 251,
104, 110
275
konvergent, 76, 78, 80–82, 85, 86, 91,
einseitige
99–100, 104, 126, 184, 202, 251
Ableitung, 283
mit Startwert, 71
Differenzierbarkeit, 283
monoton, 72–74, 81–82, 94
Grenzwerte, 235
rational, 90
Häufungspunkte, 235
Folgenglied, 71
Konvergenz, 235, 249
Freiheitsgrade, 24
Element, 1
f 0 (x), 274
maximales, siehe Maximum
f−0 (x), 283
minimales, siehe Minimum
f (n) , 284
elementare
Spaltenumformungen, siehe Spaltenu- f+0 (x), 283
Funktion, 22–23, 25, 182
mformungen
arcus, 33, 34, 65, 281–282
Zeilenumformungen, siehe Zeilenumfarea, 282
ormungen
beschränkt, 253
Eliminationsverfahren, 139, 141–144, 155,
bijektiv, 29, 35, 118, 204, 216
156, 185, 192, 198, 211, 216–218
differenzierbar, 274–278, 280, 283, 284,
zum Invertieren, 155–157
290, 291, 293
endlich erzeugt, siehe Vektorraum, endlich
einfach differenzierbar, 284
erzeugt
identisch, 34, 160, 216
Entwicklungspunkt, 258, 262, 299, 300
injektiv, 29, 31, 203, 208, 255, 256
–δ Definition, 239–240, 248, 273
Komposition, siehe HintereinanderauErweiterte Koeffizientenmatrix, siehe Kosführung
effizientenmatrix, erweitert
konvergent, 232
Erzeugendensystem, 187, 190, 195–198, 203,
monoton, 255, 290
219
n-fach differenzierbar, 284
Erzeugnis, siehe Aufspann
nach oben beschränkt, 253
Eulersche Formel, 269
nach unten beschränkt, 253
Eulersche Konstante, 82, 265
rational, 245, 251, 270
Existenz, 49
stückweise definierte, 23
Existenzaussage, 13
stetig, 247–254, 256, 264, 276
Existenzquantor, 13
stetig differenzierbar, 284
exp(z), 265
streng monoton, 255, 256
Exponentialfunktion, 265–267, 269–270, 279,
292
surjektiv, 29, 31, 208, 255
Extremum
trigonometrisch, 25, 32–34, 69, 268, 269,
global, siehe globales Extremum
280, 281
305
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
I ◦ , 289
Identität, siehe Funktion, identisch
Im z, 60
imaginäre
Einheit, 58, 59
Zahl, 58
Ganze Zahlen, 2
Imaginärteil, 60, 66, 78, 109, 117, 237, 249,
Gaußsche Zahlenebene, 58
251, 253
Gauß Algorithmus, siehe Eliminationsver- Implikation, 11
fahren
Induktion, siehe Vollständige Induktion
Genau dann wenn, 9
Induktionsanfang, 18, 20
geometrische Reihe, siehe Reihe, geome- Induktionsannahme, 18, 20
trisch
Induktionsschritt, 18, 21
Gerade, 135, 209, 210
inf M , 47
geschlitzte Ebene, 64
Infimum, 46–48, 50, 82, 253
globales
Infinitesimale Grössen, 75, 76
Extremum, 285
Injektiv, siehe Funktion, injektiv
Maximum, 285–286
Inklusion, 7
Minimum, 285–287
Inneres eines Intervalls, 289
Graph, 22, 23, 25
Intervalle, 41, 50–51, 256
graph(f), 22
abgeschlossen, 41, 51
Graßman Identität, 229
beschränkt, 41
Grenzwert, 76
halboffen, 41
einer Folge, 80, 94
offen, 41, 51
einer Reihe, 107
unbeschränkt, 50
von Funktionen, 232, 237, 240, 243– Inverse Matrix, 152–157, 169, 177
246, 250, 296
Inverse Permutation, 160
Grundbegriff, 5, 36
isomorph, 204, 208
Grundrechenarten, 37, 59
Isomorphismus, 204–206, 208, 216
Gruppe, 160
Jacobi Identität, 229
Häufungspunkt, 91–92, 97, 101, 231–232, Junktoren, 10
235
K M , 182
Hadamardsche Formel, 260
K m×n , 144, 182
Halbierungsformeln, 69–70
Harmonische Reihe, siehe Reihe, harmo- K n , 144, 181, 208
kanonische Basis, 197
nisch
Kern, 203, 216
Heaviside Funktion, 23, 242, 283
Kettenregel, 276
Hessesche Normalform, 224–225
Hintereinanderausführung, 26, 27, 35, 203, Koeffizienten, 134, 258
Koeffizientenmatrix, 138, 150, 154, 219
216, 250, 252
erweitert, 138, 219
Hospitalsche Regel, 293, 295–298
Kommutativgesetz
Hyperbelfunktionen, 267–268, 279
der Addition, 37, 145, 181
Hyperebene, 210, 224
zusammengesetzt, 243, 251, 283
Funktionalgleichung, 265, 266
Funktionsgrenzwert, siehe Grenzwert, von
Funktionen
Funktionsraum, 182, 202
306
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
der Multiplikation, 38
Komplement, siehe Differenzmenge
Komplementärmatrix, 174, 177
Komplementärwert, 174
komplex Konjugierte, siehe Konjugierte
Komplexe Zahlen, 2, 58
Kondensationskriterium, 113
Konjugierte, 60–61, 265
Konjungtion, 10
Konvergenz
in R, 92, 110, 233
linksseitig, siehe einseitige Konvergenz
rechtsseitig, siehe einseitige Konvergenz
von Folgen, siehe Folge, konvergent
von Funktionen, siehe Funktion, konvergent
von Reihen, siehe Reihe, konvergent
Konvergenzkreis, 259, 264
Konvergenzradius, 258, 260–261, 278
Koordinaten, 199
Koordinatenabbildung, 199, 203, 205
Kreuzprodukt, 225
Kronecker Symbol, 187
Kurvendiskussion, 284
Lineare Approximation, siehe Approximation, linear
Lineares Gleichungssystem, 134–136, 138,
140, 150–152, 157, 185, 211, 212,
219
homogen, 151, 152, 183, 184, 188–190,
192, 198, 199, 216
inhomogen, 151
regulär, 154, 178
Linearform, 220
Linearkombination, 152, 184, 185, 187, 191,
194, 199
linksseitige
Ableitung, siehe einseitige Ableitung
Differenzierbarkeit, siehe einseitige Differenzierbarkeit
Grenzwerte, siehe einseitige Grenzwerte
Konvergenz, siehe einseitige Konvergenz
linksseitiger Häufungspunkt, siehe einseitige Häufungspunkte
ln, 271
log, 271
Logarithmus, 25, 271, 281, 292, 296
natürlich, siehe Logarithmus
lokal, 241, 275
lokales
Extremum, 284–285, 291
Maximum, 284, 291
Minimum, 284, 291
Länge, 220, 227
Lagrangescher Fehlerterm, 300
Laplace Entwicklung, 170–173, 175
Leipnitz Formel, 164, 175
Leipnitz Kriterium, 114, 134
Leipnitz Reihe, 115–117
lim, siehe Grenzwert
Limes Inferior, 99–101, 126–127
Limes Superior, 99–101, 124, 126–127
lim inf n→∞ an , 99
lim f (x), 235
Majorante, 124
Majorantenkriterium, 124
Mathematische Definition, 4–5, 36
Matrix, 137, 138, 144–149, 213
x↑a
invertierbar, 152, 177, 178, 216, 219
lim f (x), 235
quadratisch, 137
x↓a
regulär, 152
lim supn→∞ an , 99
max M , 45
linear abhängig, 194
Maximum, 45, 47, 253
linear unabhängig, 191–198, 217, 219
globales, siehe globales Maximum
Lineare Abbildung, 201, 203, 205, 207, 208,
lokales, siehe lokales Maximum
213–214, 220
307
Mathematik für Physiker I, WS 2010/2011
Menge, 1
Auswahl, 15
leere, 5
Liste der Elemente, 2
Parametrisierung, 3
min M , 45
Minimum, 45, 47, 253
globales, siehe globales Minimum
lokales, siehe lokales Minimum
Mittelwertsatz, 288–289
Monoton, 72
streng, 72
Multiplikation
mit Skalaren, 145
von Matrizen, 146, 216
Montag 7.2.2011
Potenzrechenregeln, 51, 53, 55
Potenzreihe, 258–260, 262, 264, 278
Produkt
von Mengen, siehe Cartesisches Produkt
Produktregel, 276
für Determinanten, 168
Produktzeichen, 162, 163
Projektion, 223
Q, siehe Rationale Zahlen
Quotientenkriterium, 127–128
Quotientenregel, 276
R, siehe Reelle Zahlen
Rm×n , 144
R, 49
N, siehe Natürliche Zahlen
Rang, 217–219
Näherungsfehler, 300
Rationale Zahlen, 2
Natürliche Zahlen, 2
Re z, 59
Normalenvektor, 225
Realteil, 59, 60, 66, 78, 109, 117, 237, 249,
Nullfolge, 83–84, 93, 95, 110
251, 253
Nullmatrix, 145
Rechenregeln
Nullvektor, 181
für Ableitungen, siehe Ableitungsregeln,
280
Ordnung, 39–41, 45, 49
für das Vorzeichen, 164
total, 40
für die Inverse, 153
Ortsvektor, 180
für die Transposition, 149
Pagerang, 136
für Folgengrenzwerte, 86, 93–96, 106
Parallelepiped, 159
für Funktionsgrenzwerte, 244
Parallelogram, 159, 223, 227
für Matrizen, 145–148
Partialsummen, 106, 107, 110, 116, 205
für Permutationen, 160
Partikularlösung, 152
für Reihen, 111
Pascalsches Dreieck, 52
für Stetigkeit, 250, 252
Permutation, 160–162, 165
rechtsseitige
gerade, 163
Ableitung, siehe einseitige Ableitung
ungerade, 163
Differenzierbarkeit, siehe einseitige DifPolarkoordinaten, 63–67
ferenzierbarkeit
Potenzen, 51–56, 84
Grenzwerte, siehe einseitige Grenzwermit ganzzahligen Exponenten, 53
te
mit natürliche Exponenten, 51
Konvergenz, siehe einseitige Konvermit rationalen Exponenten, 54, 84, 257,
genz
267
rechtsseitiger Häufungspunkt, siehe einseitige Häufungspunkte
mit reellen Exponenten, 55, 271, 281
308
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Reelle Zahlen, 2, 37
erweitert, 49, 92
Reflexivitätsgesetz, 40
Reihe, 106–109
absolut konvergent, 117, 121, 124, 127,
131
alternierend, 114
geometrisch, 103, 108–109, 117, 124,
133
harmonisch, 112–113
konvergent, 107, 109–111, 113–115, 117,
131
unbedingt konvergent, 117, 120, 121
rang( ), 217
Richtung, 210–212
Richtungsvektor, 135, 180, 209–210
Riemanscher Umordnungssatz, siehe Umordnungssatz
Rn , 144, 181
Russelsche Antinomie, 15
spezielle Lösung, 152
Standardbasis, 187, 198
Startindex, 84, 85, 107, 126
Steinitzscher Austauschsatz, siehe Austauschlemma
Steinitzscher Umordnungssatz, siehe Umordnungssatz
Stetigkeit, siehe Funktion, stetig
Stufenform, 139–142, 167
Subtraktion, 39
Summationsindex, 20
Summe, siehe Summenzeichen
von Funktionen, 182
von Untervektorräumen, 186
Summenregel, 276
Summenzeichen, 19–20, 107, 163
sup M , 47
Superpositionsprinzip, 152
Supremum, 46–48, 50, 82, 253
Surjektiv, siehe Funktion, surjektiv
Symmetrische Gruppe, 160, 162
Sarrus Regel, 159, 170
Satz von
Heine–Borel, 101
Rolle, 288, 289
Scherung, 214, 228
Schranke
obere, 45, 46
untere, 45, 46
Sekante, 272, 288
senkrecht, 220–222, 225
sign(x), 43
Sinus, 268
Hyperbolicus, 267
Sinusapproximation, 300–302
Skalar, 145, 183
Skalarprodukt, 220–222
Skalierung, 214
Spaltenumformungen, 165, 172, 217
Spaltenvektor, 140, 144
span(. . .), 185
Spat, 159, 228
Spatprodukt, 227, 228
Tangens, 268
Hyperbolicus, 267
Tangente, 272–274, 288
Taylorpolynom, 299–300
Teilfolge, 72, 78, 91, 93, 104
induktiv, 92
Teilmenge, 4, 51
echte, 4
Teilraum, siehe Untervektorraum
Transformationsmatrix, 200–201, 212
transitiv, 7
Transitivitätsgesetz, 40
Transponierte, 149, 153, 165, 217
Transposition, 163
Trichotomieprinzip, 41
triviale Lösung, 151
Übergangsmatrix, siehe Transformationsmatrix
Umkehrfunktion, 27, 28, 31–35, 205, 255,
256, 280
Umkehrregel, 280
309
Mathematik für Physiker I, WS 2010/2011
Montag 7.2.2011
Zusammengesetzte Funktion, siehe FunkUmordnung, 118–121
tion, zusammengesetzt
Umordnungssatz, 121, 124
zweifach differenzierbar, 291
Umparametrisierung, 296
Unbedingt konvergent, siehe Reihe, unbe- Zwischenwertsatz, 254–256
dingt konvergent
Untervektorraum, 184, 186, 203, 206, 209,
216
trivial, 186
Urbild, 28
Ursprungsgerade, 209
Variable, 8, 22, 25
formale, 8
Vektor, 180, 183
Vektorprodukt, 225, 226, 228
Vektorraum, 180, 186, 190, 193, 195, 196,
201, 203, 205
endlich erzeugt, 196–201, 203, 205–208,
210
Verdichtungskriterium, siehe Kondensationskriterium
Vereinigung, 6, 15
Verneinung, 10
von Quantoren, 14
Vielfachenregel, 276
Vielfachheit, 245
Vollständige Induktion, 18–21
Vollständigkeitsaxiom, 45, 48, 50, 79
Vorzeichen, 43, 44, 68
einer Permutation, 163
Wahrheitstabelle, 11
Widerspruch, siehe Beweis, indirekt
Winkel, 222
Wurzel, 29, 32, 257
komplexer Zahlen, 67, 68
reeller Zahlen, 54
Wurzelapproximation, 302
Wurzelkriterium, 124–126, 128
Z, siehe Ganze Zahlen
Zeilenumformungen, 141, 165, 172, 217
Zeilenvektor, 144
Zuordnungsvorschrift, 22, 25, 26
310
Herunterladen