Skript SS2012

Werbung
Inhaltsverzeichnis
§1
§2
§3
§4
§5
§6
§7
§8
§9
§10
Modulare Arithmetik
Gruppen . . . . . . .
Ringe . . . . . . . .
Körper . . . . . . . .
Metrische Räume . .
Folgen . . . . . . . .
Reihen . . . . . . . .
Vollständige Körper
Stetigkeit . . . . . .
Differenzierbarkeit .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
18
37
51
87
98
123
142
150
169
Vorlesung 1, Dienstag 10.4.2012
Prüfungsleistungen
Wir beschreiben zunächst einmal die zu erbringenden Prüfungsleistungen für diesen
Modul. Diese teilen sich in zwei Komponenten auf:
1. Eine Klausur am Ende des Semesters beziehungsweise am Anfang der nächsten
Vorlesungszeit. Diese Klausur geht zu 60% in die Endnote ein.
2. Die während des Semesters zu erbringenden vorlesungsbegleitenden Leistungen
gehen zu 40% in die Endnote ein.
Zum Bestehen des gesamten Moduls müssen mindestens 50% der insgesamt erreichbaren Punktzahl erreicht werden. Werden genau diese 50% erreicht, so ergibt sich die
Note 4,0. Der Notenspiegel nach dem sich die Staffelung der restlichen Noten ergibt
ist noch nicht festgelegt. Ist das Ergebnis aus der Klausur besser als das aus Klausur
und vorlesungsbegleitenden Leistungen zusammengesetzte Ergebnis, so zählt nur die
Klausur. In diesem Sinne sind die vorlesungsbegleitenden Leistungen Bonuspunkte“,
”
und durch Mitarbeit während des Semesters können Sie Ihr Ergebnis nur verbessern
aber nicht verschlechtern.
Die vorlesungsbegleitenden Leistungen setzen sich wiederum aus zwei Teilen zusammen:
1. Zur einen Hälfte aus zwei während des Semesters geschriebenen Minitests. In
beiden Minitests ist exakt dieselbe Punktzahl erreichbar, jeder einzelne Minitest
geht also zu 25% in die vorlesungsbegleitenden Leistungen, beziehungsweise zu
10% in die Endnote ein. Die beiden Minitests finden an den folgenden Terminen
statt:
1
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
Test 1 Donnerstag der 3.5.2012.
Test 2 Dienstag der 5.6.2012.
Die Minitests finden jeweils in der letzten halben Stunde der Vorlesung statt (also
auch im selben Raum in dem die Vorlesung stattfindet).
2. Die andere Hälfte der vorlesungsbegleitenden Leistungen sind die wöchentlich abzugebenden, schriftlichen Übungsaufgaben. Dabei lassen sich in jedem Übungsblatt genau 10 Punkte erreichen. Die Punkte werden Ihnen dabei nur dann angerechnet wenn Sie in der Übungstunde in der die fraglichen Aufgaben besprochen
werden auch anwesend waren. Die Besprechung einer Aufgabe findet dabei immer
in den Übungen in der auf die Abgabe folgenden Woche statt (beziehungsweise
noch eine Woche später wenn die Übung durch einen Feiertag ausfällt).
Die Abgabe der Übungsaufgaben in Zweiergruppen ist erlaubt, aber nicht in noch
größeren Gruppen. Falls bei der Besprechung eines Übungsblatts nur ein Mitglied einer
solchen Zweiergruppe anwesend ist, so werden auch nur diesem die Punkte angerechnet.
Die schlechtesten zwei Serien werden gestrichen, und die verbleibenden Punkte gehen
dann zu 50% in die vorlesungsbegleitenden Leistungen, beziehungsweise zu 20% in die
Endnote ein.
Zur Zulassung zur Klausur müssen Sie während des Semesters mindestens einmal
eine Aufgabe in der Übung vorrechnen. Dies kann entweder eine schriftliche oder eine
der Präsenzaufgaben sein.
Die Endklausur dauert 90 Minuten (der Termin wird noch bekannt gegeben). Mindestens eine der Aufgaben der Endklausur ist identisch mit einer der Übungsaufgaben,
das kann eine schriftliche oder eine Präsenzaufgabe sein.
Da das alles etwas kompliziert ist, wollen wir hier noch ein Beispiel für einen möglichen Semesterverlauf vorführen. Wir nehmen die folgenden Punktezahlen an:
Klausur 80 Punkte,
Übungen 12 Serien zu je 10 Punkten,
Minitests Je 30 Punkte.
Weiter nehmen wir an das Sie die folgenden Punktzahlen erreichen:
1. In einem Übungsblatt werden nur 2 Punkte erzielt.
2. Ein Übungsblatt wird gar nicht abgegeben (oder die Besprechung) versäumt.
3. Aus den restlichen 10 Blättern kriegen Sie insgesamt 84 Punkte und jedes einzelne
Blatt ist besser als 2 Punkte.
4. Im ersten Minitest schreiben Sie 17 Punkte,
5. und im zweiten Minitest 26 Punkte.
2
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
6. Die Klausur läuft nicht so gut, und Sie schreiben hier nur 26 Punkte.
Dann werden die beiden schlechtesten Übungen gestrichen, also einmal null und einmal
zwei Punkte, und es verbleiben 84 von 100 Punkten, also
84 / 100 = 0, 84.
In den beiden Minitests haben Sie 43 von insgesamt 60 möglichen Punkten, also
43 / 60 = 0, 72 (gerundet).
Die Klausur ist schließlich 26 von 80 Punkten, also
26 / 80 = 0, 33 (gerundet).
Die Klausur alleine ist also weit von den erforderlichen 50% weg. Damit ergibt sich für
das gesamte Semester
0, 2 · 0, 84 = 0, 168
0, 2 · 0, 72 = 0, 144
0, 6 · 0, 33 = 0, 21
0, 522.
Übungen (20%)
Minitests (20%)
Klausur (60%)
Insgesamt sind also ungefähr 52% erreicht und der Modul ist bestanden.
$Id: modul.tex,v 1.12 2012/06/28 18:16:56 hk Exp $
§1
Modulare Arithmetik
Im ersten Teil der Vorlesung wird es um die Behandlung der algebraischen Grundstrukturen gehen, dies sind für unsere eher bescheidenen Zwecke Gruppen, Ringe und
Körper. Zur Einstimmung auf diesen Themenkreis behandeln wir zunächst die modu”
lare Arithmetik“, manchmal auch Kongruenzrechnung“ oder Restklassenrechnung“
”
”
genannt. Diese wird sich als ein Beispiel für viele der später untersuchten Strukturen
herausstellen. Wir führen dabei auch die vollständigen Herleitungen, nahezu bei Null
beginnend, vor.
1.1
Teiler
Als vorbereitenden Grundbegriff benötigen wir die Teilbarkeitstheorie“ ganzer Zahlen.
”
All die Aussagen dieses Abschnitts werden Ihnen schon aus der Schulzeit bekannt sein.
Wir beweisen sie nicht etwa weil Zweifel an ihrer Gültigkeit bestehen würden, sondern
3
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
um uns an einem vertrauten und einfachen Gegenstand wieder an die Beweistechniken
der Mathematik zu gewöhnen. Das nachfolgende Lemma charakterisiert die Division
mit Rest.
Lemma 1.1 (Division mit Rest)
Zu jedem Zahlenpaar (a, d) ∈ Z × Z∗ gibt es eindeutig bestimmte Zahlen q, r ∈ Z mit
a = dq + r und 0 ≤ r < |d|.
Dabei heißen a der Divident, d der Divisor, q der Quotient und r der Rest. Das ∗“ bei
”
Z∗ steht einfach für das Weglassen der Null, also
Z∗ := Z\{0}.
Gehen wir einmal einige Beispiele durch:
1. Sei (a, d) = (99, 4), es soll also 99 mit Rest durch 4 geteilt werden. Wir haben
99 = 24 · 4 + 3, d.h. in der Notation des Lemmas sind q = 24 der Quotient und
r = 3 der Rest.
2. Sei (a, d) = (99, −4), wir teilen diesmal also durch −4. Dies läßt sich leicht auf
den schon behandelten Fall zurückführen, es ist
99 = 24 · 4 + 3 = (−24) · (−4) + 3,
d.h. der Quotient ist q = −24 und der Rest ist wieder r = 3.
3. Im nächsten Beispiel betrachten wir einen negativen Dividenden, nämlich (a, d) =
(−99, 4). Multiplizieren wir 99 = 24 · 4 + 3 mit −1, so wird −99 = (−24) · 4 − 3.
Dies ist aber noch nicht die Form des Lemmas, in der Position des Restes steht
hier −3, aber im Lemma muss der Rest mindestens Null sein. Das ist kein großes
Problem
−99 = (−24) · 4 − 3 = (−24) · 4 − 4 + 1 = (−25) · 4 + 1,
d.h. es sind q = −25 der Quotient und r = 1 der Rest.
4. Zum Abschluß sei noch (a, d) = (−99, −4). Dies kann man auf den vorigen Fall
zurückführen genauso wie das zweite Beispiel auf das erste zurückgeführt wurde.
Es gilt −99 = (−25) · 4 + 1 = 25 · (−4) + 1, also q = 25 und r = 1.
Wir wollen Lemma 1 jetzt tatsächlich einmal beweisen. Ähnlich wie wir in den Beispielen gerechnet haben, läßt sich die Aussage auf den Hauptfall a ≥ 0, d > 0 zurückführen.
Machen wir uns die Aussage erst einmal heuristisch klar. Um a als a = dq + r zu schreiben, schaut man zuerst nach wie oft d in a hereinpasst. Wir schauen uns also die Zahlen
d, 2d, 3d, 4d, . . . und so weiter an. Irgendwann werden diese größer als der Dividend a,
und unser Quotient q ist gerade diejenige Zahl für die dq noch nicht größer als a geworden ist.
4
Mathematik für Informatiker B, SS 2012
0
d
Dienstag 10.4.2012
2d
3d
qd
a (q+1)d
Das muss man jetzt nur noch ausformulieren, und hat einen Beweis des Lemmas. Bevor wir dies tun erinnern wir uns noch an eine Kleinigkeit über das Umgehen mit
Ungleichungen. Angenommen wir haben drei (reelle) Zahlen a, b, c. Dann ist
a ≤ b ⇐⇒ a + c ≤ b + c
der Wahrheitsgehalt einer Ungleichung bleibt unverändert wenn wir zu beiden Seiten
dieselbe Zahl addieren. Das gilt auch wenn wir von beiden Seiten dieselbe Zahl abziehen,
denn Subtraktion von c ist ja dasselbe wie Addition mit −c. Besonders häufig wird dies
angewendet um Terme in einer Ungleichung auf die andere Seite zu bringen, wir haben
zum Beispiel
a ≤ b + c ⇐⇒ a − c ≤ (b + c) − c = b.
Derlei Dinge und auch die entsprechenden Tatsachen für die Multiplikation werden wir
im folgenden frei verwenden.
Bew. (Lemma 1) Wir beginnen mit dem Beweis der Eindeutigkeit von Quotient und
Rest. Angenommen es sind q, q 0 , r, r0 ∈ Z mit 0 ≤ r, r0 < |d| und
a = dq + r = dq 0 + r0 .
Wir müssen einsehen, dass dann schon q = q 0 und r = r0 ist. Sortieren wir die Terme
etwas um, so wird die obige Gleichung zu
r0 − r = dq − dq 0 = d · (q − q 0 ).
Dabei ist
−|d| < −r ≤ r0 − r ≤ r0 < |d|, d.h. |r0 − r| < |d|.
Im letzten Semester hatten Sie festgehalten, dass der Betrag eines Produkts gleich dem
Produkt der Beträge ist, damit ist also auch
|d| · |q − q 0 | = |d · (q − q 0 )| = |r0 − r| < |d|,
und dies bedeutet |q − q 0 | < 1. Andererseits ist q − q 0 ∈ Z eine ganze Zahl, und die
einzige ganze Zahl von zwischen −1 und 1 ist 0, d.h. es muss q − q 0 = 0 sein. Dies
bedeutet q = q 0 und weiter ist dann auch r = a − dq = a − dq 0 = r0 .
Dies beweist die Eindeutigkeitsaussage und wir kommen zum Beweis der Existenz
von Quotient und Rest. Wie schon angekündigt unterscheiden wir dabei einige Fälle
je nach Vorzeichen von a und d. Zunächst seien a ≥ 0 und d > 0. Wir setzen q als
die größte ganze Zahl mit dq ≤ a und r := a − dq. Dann gilt sicher a = dq + r und
wir müssen uns nur noch klarmachen, dass r die Großenbeschränkung 0 ≤ r < |d| = d
erfüllt. Wegen dq ≤ a ist dabei r = a − dq ≥ 0. Da q maximal mit dq ≤ a ist, gilt
5
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
dq + d = d(q + 1) > a, und dies bedeutet r = a − dq < d. Damit ist die Behauptung
im Fall a ≥ 0, d > 0 bewiesen.
Die restlichen Fälle für a und d werden wie im Beispiel auf den bereits bewiesenen
Fall zurückgeführt. Zunächst nehme a < 0 und d > 0 an. Wenden wir die bereits
bewiesene Aussage mit −a > 0 statt a an, so erhalten wir die Existenz ganzer Zahlen
q, r ∈ Z mit a = dq + r und 0 ≤ r < d. Multiplikation dieser Gleichung mit −1 ergibt
−a = −dq − r = −dq − d + d − r = d · (−q − 1) + (d − r).
Jetzt müssen wir zwei Fälle unterscheiden. Ist der Rest gleich Null, also r = 0, so ist
−a = d · (−q), also gilt das Lemma mit −q als Quotient und 0 als Rest. Andernfalls
ist 0 < r < d, also auch 0 < d − r < d, und wir haben den Quotienten −q − 1 und den
Rest d − r.
Damit sind die beiden Fälle mit d > 0 behandelt. Wir nehmen also schließlich
d < 0 an. Wenden wir die bereits bewiesenen Aussagen dann mit −d > 0 statt d an,
so erhalten wir q, r ∈ Z mit 0 ≤ r < −d = |d| und a = (−d)q + r = d · (−q) + r, der
Quotient ist also −q und der Rest ist r.
Damit sind alle möglichen Fälle behandelt und das Lemma ist vollständig bewiesen.
Der Beweis zeigt uns insbesondere, dass das Vorzeichen des Quotienten q gleich dem
Vorzeichen von ad ist. Die praktische Durchführung der Bestimmung von Quotient und
Rest kann zum Beispiel über den bekannten schriftlichen Divisionsalgorithmus erfolgen.
Wir definieren jetzt die Teilbarkeitsrelation auf den ganzen Zahlen.
Definition 1.2: Eine ganze Zahl d ∈ Z∗ heißt ein Teiler einer ganzen Zahl a ∈ Z wenn
der Rest r bei Division von a durch d gleich r = 0 ist. Man schreibt dann auch
d | a (d teilt a).
Für die Verneinung, also wenn d kein Teiler von a ist, schreiben wir
d - a (d ist kein Teiler von a).
Wegen a = dq + r ist d genau dann ein Teiler von a wenn a ein Vielfaches von d ist,
wenn es also ein q ∈ Z mit a = dq gibt. Jedes d ∈ Z∗ ist Teiler der Null: d | 0. Wir
wollen einige einfache Eigenschaften des Teilbarkeitsbegriffs durchgehen.
1. Für alle a, b, c ∈ Z gilt
a | b ∧ b | c =⇒ a | c.
Dies ist leich zu sehen, gelten a | b und b | c, so existieren ganze Zahlen q, q 0 ∈ Z
mit b = qa und c = q 0 b, also ist auch c = q 0 b = q 0 qa und somit ist a ein Teiler von
c. Die Eigenschaft d ist Teiler von a“ kann man also auffassen als eine transitive
”
Relation auf Z.
6
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
2. Die Teilbarkeitsrelation ist auch reflexiv, d.h. für alle a ∈ Z gilt a | a.
3. Dagegen ist die Teilbarkeitsrelation weder symmetrisch noch antisymmetrisch.
Anstelle dessen haben wir für alle a, b ∈ Z die Implikation
a | b ∧ b | a =⇒ b = ±a.
Es gibt dann nämlich ganze Zahlen q, q 0 ∈ Z mit b = qa und a = q 0 b, also ist
auch b = qa = qq 0 b und somit qq 0 = 1. Da q, q 0 ganze Zahlen sind, muss damit
q = q 0 = 1 oder q = q 0 = −1 sein, d.h. wir haben b = qa = ±a.
4. Eine letzte Regel betrifft Kombinationen ganzer Zahlen im folgenden Sinn
d | a ∧ d | b =⇒ d | αa + βb
für alle a, b, d, α, β ∈ Z. Ein gemeinsamer Teiler von a und b teilt also auch jede
Kombination αa + βb von a und b. Dies kann man leicht sehen, es gibt ja ganze
Zahlen n, m ∈ Z mit a = nd und b = md, und dann ist auch
αa + βb = αnd + βmd = (αn + βm)d
ein Vielfaches von d, d.h. wir haben d|αa + βb.
Wir kommen jetzt zum, Ihnen höchstwahrscheinlich auch schon bekannten Begriff,
des größten gemeinsamen Teilers zweier ganzer Zahlen. Dabei kann man größten“ so”
wohl bezüglich der gewöhnlichen numerischen Anordnung der ganzen Zahlen als auch
bezüglich der Teilbarkeitsrelation interpretieren. Dies ist eine rein willkürliche Entscheidung, es kommt beides mal dasselbe heraus. Wir entscheiden uns hier für die zweite
Möglichkeit und stellen uns zunächst auf den Standpunkt das die Existenz des größten
gemeinsamen Teilers nicht bekannt wäre.
Definition 1.3: Zu zwei ganzen Zahlen a, b ∈ Z heißt d ∈ Z∗ ein gemeinsamer Teiler
von a und b wenn d | a und d | b gelten. Gilt ferner d > 0 und ist für jeden anderen gemeinsamen Teiler c ∈ Z∗ von a und b stets auch c|d, so heißt d ein größter gemeinsamer
Teiler von a und b, und wird bezeichnet mit d = ggt(a, b).
Hier wird noch vorsichtig von einem größten gemeinsamen Teiler“ gesprochen, da
”
wir noch nicht bewiesen haben, dass es stets genau einen solchen gibt. Der Beweis dieser
Tatsache sowie das Verfahren zu seiner Berechnung werden ein Thema der nächsten
Vorlesung sein. Einige Vorarbeiten werden wir schon heute durchführen. Wir werden
die Fragen der Eindeutigkeit und der Existenz getrennt behandeln, und beginnen mit
der Eindeutigkeit.
Lemma 1.4 (Eindeutigkeit des größten gemeinsamen Teilers)
Zu a, b ∈ Z kann es maximal einen größten gemeinsamen Teiler geben.
7
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
Beweis: Seien d1 , d2 > 0 zwei größte gemeinsame Teiler von a und b. Da d2 ein gemeinsamer Teiler von a und b ist und d1 ein größter gemeinsamer Teiler von a und b ist,
also von jedem anderen gemeinsamen Teiler geteilt wird, ist d2 |d1 . Vertauschen wir die
Rollen von d1 und d2 , so folgt ebenso auch d1 |d2 . Mit der obigen dritten Eigenschaft
des Teilbarkeitsbegriffs folgt hieraus d2 = ±d1 , und wegen d1 , d2 > 0 ist sogar d1 = d2 .
Damit haben wir die Eindeutigkeit des größten gemeinsamen Teilers bewiesen. Wir
werden die Existenz durch Angabe eines Berechnungsverfahrens beweisen, des sogenannten euklidischen Algorithmus. Um die Korrektheit dieses Algorithmus einsehen zu
können, ist es hilfreich ein kleines vorbereitendes Lemma voranzuschicken.
Lemma 1.5: Sei a, b ∈ Z. Dann gelten:
(a) Ist 0 6= a | b, so gilt |a| = ggt(a, b).
(b) Sind d, q ∈ Z, so gilt die Äquivalenz
d = ggt(a, b) ⇐⇒ d = ggt(a − qb, b).
(d) Für d ∈ Z ist genau dann d = ggt(a, b) wenn d = ggt(b, a) ist.
Beweis: (a) Zunächst ist |a| ∈ N∗ überhaupt ein gemeinsamer Teiler von a und b.
Jeder weitere gemeinsame Teiler c von a und b ist insbesondere ein Teiler von a und
damit auch von |a|, d.h. c | |a|. Damit ist |a| ein größter gemeinsamer Teiler von a
und b, und wir haben |a| = ggt(a, b).
(b) ”=⇒” Zunächst ist d ein Teiler von a und b, also d|a und d|b, und wie oben als
Punkt 4 festgehalten teilt d damit auch jede Kombination von a und b, also insbesondere
d|a−qb. Somit ist d ein gemeinsamer Teiler von a−qb und b. Ist jetzt c ∈ Z ein weiterer
gemeinsamer Teiler von a − qb und b, so folgt ebenso d|(a − qb) + qb = a, d.h. c ist auch
ein gemeinsamer Teiler von a und b, und dies bedeutet c|d. Dies zeigt d = ggt(a−qb, b).
”⇐=” Wenden wir die bereits bewiesene Implikation an, so ergibt sich d = ggt(a −
qb − (−q)b, b) = ggt(a, b).
(c) Dies ist klar da die Definition eines größten gemeinsamen Teilers symmetrisch in a
und b ist.
Aussage (c) zeigt uns insbesondere das wir in Teil (b) genausogut Vielfache der linken
von der rechten Seite subtrahieren können ohne den größten gemeinsamen Teiler zu
ändern. In der Tat, für a, b, d, q ∈ Z haben wir
d = ggt(a, b) ⇐⇒ d = ggt(b, a) ⇐⇒ d = ggt(b − qa, a) ⇐⇒ d = ggt(a, b − qa).
8
Mathematik für Informatiker B, SS 2012
1.2
Donnerstag 12.4.2012
Euklidischer Algorithmus
Vorlesung 2, Donnerstag 12.4.2012
Am Ende der letzten Sitzung hatten wir den größten gemeinsamen Teiler zweier ganzer
Zahlen a und b eingeführt, und auch bereits einige seiner Eigenschaften bewiesen. Im
folgenden werden wir zum einen die Existenz des größten gemeinsamen Teilers einsehen,
und zum anderen ein Verfahren zu seiner Berechnung angeben. Einen kleinen Sonderfall
muss man dabei allerdings ausnehmen. Ist a = b = 0, so ist überhaupt jedes c ∈ Z
ein gemeinsamer Teiler von a und b, und es kann keinen größten gemeinsamen Teiler
geben. Ist genau eine der beiden Zahlen a, b Null, etwa a 6= 0 und b = 0, so sind die
gemeinsamen Teiler von a und b genau die Teiler von a, und es folgt ggt(a, b) = |a|.
Hier gibt es also einen größten gemeinsamen Teiler, aber er ist uninteressant. Daher
werden wir uns bei der Berechnung des größten gemeinsamen Teilers auf den Hauptfall
a, b 6= 0 beschränken. Der euklidische Algorithmus kann verwendet werden, um den
größten gemeinsamen Teiler d = ggt(a, b) zweier ganzer Zahlen a, b ∈ Z∗ zu ermitteln.
Im Fall |a| = |b| ist b = ±a und dann ist ggt(a, b) = |a|. Wir können uns also auf den
Fall |a| =
6 |b| beschränken, und durch eventuelles Vertauschen von a und b können wir
weiter sogar |a| > |b| annehmen. Da Vorzeichen auf Teilbarkeit und damit auch auf
den größten gemeinsamen Teiler keinen Einfluss haben, kann man sich sogar auf den
Hauptfall a > b > 0 beschränken. Wir beginnen mit einem kleinen Beispiel und wollen
den größten gemeinsamen Teiler von 91 und 113 berechnen. Wir stützen uns dabei auf
Lemma 5.(d). Teilen wir die größere Zahl 113 mit Rest durch 91, so ist 113 = 91 + 22,
also 113 − 91 = 22 und das Lemma ergibt
ggt(113, 91) = ggt(113 − 91, 91) = ggt(22, 91) = ggt(91, 22).
Damit ist die Berechnung des größten gemeinsamen Teilers auf ein einfacheres Problem
reduziert. Wir können so fortfahren und auch 91 mit Rest durch 22 teilen, also 91 =
4 · 22 + 3 und somit
ggt(91, 22) = ggt(91 − 4 · 22, 22) = ggt(3, 22) = ggt(22, 3).
An dieser Stelle sehen wir natürlich schon direkt das der größte gemeinsame Teiler 1
ist, der Systematik halber wollen wir aber noch einmal 22 mit Rest durch 3 teilen, also
22 = 7 · 3 + 1 und erhalten diesmal
ggt(22, 3) = ggt(22 − 7 · 3, 3) = ggt(1, 3) = 3,
also insgesamt ggt(113, 91) = 1. Zusammengefasst haben wir die folgende Rechnung
9
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
durchgeführt:
113
91
22
3
=
=
=
=
91 · 1 + 22 =⇒ ggt(113, 91) = ggt(91, 22)
22 · 4 + 3 =⇒ ggt(91, 22) = ggt(22, 3)
3 · 7 + 1 =⇒ ggt(22, 3) = ggt(3, 1)
1·3
insgesamt ggt(91, 113) = 1.
Dieses Verfahren durch fortgesetzte Division mit Rest schließlich den größten gemeinsamen Teiler zu bestimmen, wird als der euklidische Algorithmus bezeichnet. Wir wollen
ihn einmal auch allgemein beschreiben. Gegeben seien also zwei Zahlen a, b ∈ Z∗ normiert auf |a| > |b|. Dann teilen wir die größere Zahl a mit Rest durch b, schreiben
also
a = bq0 + r0 , 0 ≤ r0 < |b|
wobei q0 ∈ Z den Quotienten und r0 ∈ N den Rest bezeichnet. Ist r0 = 0, also b|a,
so ist nach Lemma 5.(a) sofort ggt(a, b) = |b|, und wir sind bereits fertig. Andernfalls
dividieren wir b mit Rest durch r0 , also
b = r 0 q1 + r 1 , 0 ≤ r 1 < r 0 .
Ist nun r1 = 0, so hören wir auf, andernfals dividieren wir r0 mit Rest durch r1
r 0 = r 1 q2 + r 2 , 0 ≤ r 2 < r 1 ,
dann r1 mit Rest durch r2 und immer so weiter, bis irgendwann der Rest 0 auftaucht,
sagen wir nach n + 2 Schritten
rn−2 = rn−1 qn + rn , 0 ≤ rn+1 < rn−1 ,
rn−1 = rn qn+1 .
Da der Rest in jedem Schritt echt kleiner wird, müssen wir irgendwann einmal an diese
Stelle kommen. Der größte gemeinsame Teiler von a und b ist dann der letzte von Null
verschiede Rest
rn = ggt(a, b).
Diese Aussage folgt wie im Beispiel durch fortgesetzte Anwendung von Lemma 5.(b).
Man arbeitet sich von unten nach oben durch den euklidischen Algorithmus. In der
Abbruchzeile hatten wir rn−1 = rn qn+1 , und somit besagt Lemma 5.(a) auch
ggt(rn , rn−1 ) = ggt(rn , rn qn+1 ) = rn .
Angenommen wir wissen bereits rn = ggt(ri , ri−1 ) für ein 1 < i ≤ n, für i = n ist dies
beispielsweise der Fall. Die (i + 1)-te Zeile des euklidischen Algorithmus ist dann
ri−2 = ri−1 qi + ri
10
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
beziehungsweise ri = ri−2 − ri−1 qi und Lemma 5.(b) ergibt
rn = ggt(ri , ri−1 ) = ggt(ri−2 − ri−1 qi , ri−1 ) = ggt(ri−2 , ri−1 ) = ggt(ri−1 , ri−2 ).
Für wir also eine rückwärts laufende Induktion von i = n bis nach i = 1 durch, so
ergibt sich mit i = 1 schließlich
rn = ggt(r1 , r0 ).
Wenden wir jetzt noch zweimal Lemma 5.(b) an, so ist letztlich
rn = ggt(r1 , r0 ) = ggt(b − r0 q1 , r0 ) = ggt(r0 , b) = ggt(a − bq0 , b) = ggt(a, b).
Damit ist bewiesen das der letzte von Null verschiedene Rest rn im euklidischen Algorithmus der größte gemeinsame Teiler von a und b ist, und insbesondere ist damit
die Existenz von ggt(a, b) eingesehen. Wir wollen noch ein zweites Beispiel zum euklidischen Algorithmus rechnen und zwar ggt(91, 133).
133 = 91 · 1 + 42
91 = 42 · 2 + 7
42 = 7 · 6
=⇒ ggt(91, 133) = 7.
Wir fassen nun die bisherigen Ergebnisse über den größten gemeinsamen Teiler in einem
Satz zusammen. Bei der Gelegenheit können wir dem eukldischen Algorithmus noch
eine zusätzliche Tatsache entnehmen, der größte gemeinsame Teiler läßt sich immer als
eine ganzzahlige Kombination von a und b schreiben. Dies wird manchmal auch als die
Wechselsummendarstellung des größten gemeinsamen Teilers bezeichnet.
Satz 1.6 (Wechselsummendarstellung des größten gemeinsamen Teilers)
Zu zwei ganzen Zahlen a, b ∈ Z, a, b 6= 0, gibt es genau einen größten gemeinsamen
Teiler d = ggt(a, b). Ferner existieren α, β ∈ Z mit d = αa + βb.
Beweis: Die Eindeutigkeit von ggt(a, b) haben wir mit Lemma 4 gezeigt. Die Existenz
des größten gemeinsamen Teilers ergab sich aus dem euklidischen Algorithmus
a = bq0 + r0 , 0 ≤ r0 < |b|,
b = r 0 q1 + r 1 , 0 ≤ r 1 < r 0 ,
r 0 = r 1 q2 + r 2 , 0 ≤ r 2 < r 1 ,
..
..
.
.
rn−2 = rn−1 qn + rn , 0 ≤ rn < rn−1 ,
rn−1 = rn qn
als d = ggt(a, b) = rn , wobei wir uns bereits stillschweigend auf den Fall |a| > |b| normiert haben. Es ist nur noch die Darstellung von d = rn als ganzzahlige Kombination
11
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
von a und b einzusehen, und hierzu werden wir induktiv die stärkere Aussage zeigen,
dass es für alle 0 ≤ i ≤ n stets αi , βi ∈ Z mit ri = αi a + βi b gibt. Für i = 0 müssen wir
dabei wegen
r0 = a − q0 b nur α0 = 1, β0 = −q0
setzen. Für i = 1 ist
r1 = b − q1 r0 = b − q1 (α0 a + β0 b) = −q1 α0 a + (1 − q1 β0 )b,
wir können also α1 = −q1 α0 und β1 = 1 − q1 β0 verwenden. Ist weiter 1 < i ≤ n und
haben wir die verlangte Darstellung von rj für 0 ≤ j < i bereits gefunden, so ergibt
sich auch
ri = ri−2 −qi ri−1 = αi−2 a+βi−2 b−qi (αi−1 a+βi−1 b) = (αi−2 −qi αi−1 )a+(βi−2 −qi βi−1 )b,
wir setzen also αi := αi−2 − qi αi−1 und βi := βi−2 − qi βi−1 . Per Induktion haben wir
dann ri = αi a + βi b für überhaupt alle 0 ≤ i ≤ n, und speziell für i = n ergibt sich
d = rn = αn a + βn b.
Das im Beweis verwendete Verfahren liefert uns auch eine Methode die Zahlen α, β
auszurechnen, wir müssen nur die Rechnung im euklidischen Algorithmus verfolgen,
und in jedem Schritt den aktuellen Rest ri als Kombination von a und b schreiben. Wir
wollen dies einmal am Beispiel von ggt(91, 133) = 7 durchführen.
133 = 91 · 1 + 42, 42 = 133 − 91,
91 = 42 · 2 + 7,
7 = 91 − 2 · 42 = 91 − 2 · (133 − 91) = 3 · 91 − 2 · 133,
und wir haben die Wechselsummendarstellung gefunden. Zum Abschluß wollen wir noch
zwei kleine Folgerungen aus der Wechselsummendarstellung des größten gemeinsamen
Teilers festhalten. Seien hierzu a, b ∈ Z∗ gegeben. Wir nennen a und b teilerfremd wenn
ggt(a, b) = 1 ist, und es ergibt sich die folgende Kennzeichung der Teilerfremdheit über
die Wechselsummen:
a und b sind teilerfremd ⇐⇒ Es gibt n, m ∈ Z mit na + mb = 1.
In der Tat, gibt es n, m ∈ Z mit na + mb = 1, so gilt für jeden gemeinsamen Teiler
c von a und b auch c|na + mb = 1, also muss c = 1 oder c = −1 sein. Also haben a
und b nur die beiden gemeinsamen Teiler ±1 und somit ist ggt(a, b) = 1. Nehmen wir
umgekehrt ggt(a, b) = 1 an, so liefert uns die Wechselsummendarstellung des größten
gemeinsamen Teilers Satz 6 auch n, m ∈ Z mit na + mb = ggt(a, b) = 1.
Die zweite Folgerung aus der Wechselsummendarstellung ist etwas komplizierter.
Nehmen an wir haben drei Zahlen a, b, c ∈ Z, sagen wir mit a, b 6= 0. Dabei seien a und
b teilerfremd und es gelte a|c und b|c. Wir behaupten das dann auch ab|c gilt, also
∀(a, b ∈ Z∗ , c ∈ Z) : ggt(a, b) = 1 ∧ a|c ∧ b|c =⇒ ab|c.
12
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
Da nämlich a und b teilerfremd sind gibt es n, m ∈ Z mit na + mb = 1. Wegen a|c und
b|c gibt es weiter auch ganze Zahlen p, q ∈ Z mit c = pa = qb. Damit folgt
c = 1 · c = (na + mb) · c = nac + mbc = nqab + mpab = (nq + mp) · ab,
und wir haben auch ab|c wie behauptet.
1.3
Restklassen
Nachdem uns nun der Teilbarkeitsbegriff zur Verfügung steht, können wir auch den
Kongruenzbegriff modulo einer Zahl m einführen.
Definition 1.7: Sei m ∈ N∗ . Zwei ganze Zahlen heißen kongruent modulo m, wenn
m|a − b gilt. In diesem Fall schreibt man
a ≡ b mod m.
In der Literatur findet man auch diverse alternative Schreibweise für die Kongruenz
modulo m, zum Beispiel
a ≡ b (m) oder a ≡ b.
m
Die Kongruenz von a und b modulo m bedeutet das sich a von b nur durch ein Vielfaches
von m unterscheidet, denn m|a − b besagt die Existenz eines q ∈ Z mit a − b = qm,
und dies ist zu a = b + qm gleichwertig. Nun gilt
Lemma 1.8: Sei m ∈ N∗ . Dann ist die Relation Kongruenz modulo m“ eine Äquiva”
lenzrelation auf Z.
Der Beweis dieser Tatsache ist eine Übungsaufgabe. Wie Sie noch aus dem letzten
Semester wissen, kann man bei gegebener Äquivalenzrelation die zueinander äquivalenten Elemente zu Äquivalenzklassen zusammenfassen. In Fall der Kongruenz modulo
m als Äquivalenzrelation bezeichnet man diese Äquivalenzklassen als Restklassen oder
Kongruenzklassen modulo m. Ist a ∈ Z, so schreiben wir [a], oder manchmal auch [a]m
wenn wir die Zahl m hervorheben wollen, für die a enthaltende Restklasse, also konkret
[a] = {b ∈ Z|a ≡ b mod m} = {a + qm|q ∈ Z}.
Die Menge aller Kongruenzklassen modulo m wird mit dem Symbol
Zm := {[a]m |a ∈ Z}
bezeichnet. Die Grundeigenschaften dieser Restklassen werden im folgenden Lemma
beschrieben:
Lemma 1.9: Für a, b ∈ Z und m ∈ N∗ sind äquivalent:
(a) Es ist a ≡ b mod m.
13
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
(b) Die Zahlen a und b liefern bei Division durch m denselben Rest.
(c) Für die Restklassen modulo m gilt [a] = [b].
Beweis: Die Äquivalenz der Aussagen (a) und (c) ist klar, da die Restklassen ja definitionsgemäß die Äquivalenzklassen der Kongruenz modulo m sind. Es verbleibt auch
die Äquivalenz von (a) und (b) einzusehen.
(a)=⇒(b). Da a modulo m zu b kongruent ist, existiert ein p ∈ Z mit a = b + pm.
Dividiere nun b mit Rest durch m, d.h. schreibe b = qm + r mit q ∈ Z und dem Rest
r ∈ Z mit 0 ≤ r < m. Dann ist auch
a = b + pm = qm + r + pm = (p + q)m + r,
d.h. r ist auch der Rest bei Division von a durch m.
(b)=⇒(a). Sei r der gemeinsame Rest bei Division von a und b durch m. Dann existieren p, q ∈ Z mit
a = pm + r
=⇒ a − b = pm + r − qm − r = (p − q)m,
b = qm + r
und dies bedeutet m|a − b. Damit sind a und b kongruent modulo m.
In anderen Worten entsprechen die Restklassen modulo m, d.h. die Äquivalenzklassen
der Kongruenz modulo m, genau den möglichen Resten bei Division durch m, also
den Zahlen 0, 1, 2, . . . , m − 1. Folglich gibt es genau m Restklassen modulo m, nämlich
[0], [1], . . . , [m − 1]. Nehmen wir beispielsweise konkret m = 2, so sind die beiden
Kongruenzklassen modulo 2 die Menge der geraden und die Menge der ungeraden
Zahlen.
1.3.1
Operationen auf den Restklassen
Wir wollen jetzt eine Addition und eine Multiplikation auf den Restklassen modulo
einer Zahl m einführen. Dies geschieht indem zu zwei gegebenen Restklassen [a], [b]
(a, b ∈ Z) Summe und Produkt einfach als die Restklassen von Summe und Produkt
der beiden Zahlen a und b eingeführt werden. Wir müssen uns allerdings davon überzeugen, dass dies überhaupt eine sinnvolle Definition ist. Die Repräsentanten a, b unserer
Restklassen sind ja bei weitem nicht eindeutig festgelegt, anstellen von a, b hätten wir
auch irgendwelche anderen Repräsentanten a0 , b0 nehmen können, und kriegen dann
in der Regel auch andere Summen und Produkte a0 + b0 und a0 · b0 . Glücklicherweise
ist dies nicht weiter tragisch, auch wenn die Zahlen a0 + b0 , a0 b0 verschieden von a + b
beziehungsweise ab sind, so werden wir sehen, dass sie doch dieselben Restklassen modulo m definieren. Man spricht auch davon, dass unsere Definition der Summe und des
Produktes von Restklassen wohldefiniert ist.
14
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
Lemma 1.10 (Addition und Multiplikation von Restklassen)
Sei m ∈ N∗ . Die Operationen ⊕ und auf der Menge der Restklassen modulo m,
definiert durch
[a] ⊕ [b] := [a + b],
[a] [b] := [a · b]
für a, b ∈ Z, sind wohldefiniert.
Beweis: Seien a, b, a0 , b0 ∈ Z mit [a] = [a0 ] und [b] = [b0 ]. Dann gelten a ≡ a0 mod m
und b ≡ b0 mod m, und dies bedeutet m|a − a0 und m|b − b0 . Es folgen
m|(a − a0 ) + (b − b0 ) = (a + b) − (a0 + b0 )
und
m|(a − a0 )b + a0 (b − b0 ) = ab − a0 b + a0 b − a0 b0 = ab − a0 b0 ,
und dies bedeutet a + b ≡ a0 + b0 mod m und ab ≡ a0 b0 mod m. Damit ist tatsächlich
[a + b] = [a0 + b0 ] und [ab] = [a0 b0 ].
Diese Operationen auf den Restklassen erlauben es uns in Zukunft einfach mit den
Repräsentanten zu rechnen. Wir hatten bereits bemerkt das die verschiedenen Restklassen gerade den den möglichen Resten 0, 1, 2, . . . , m − 1 entsprechen, wir können
also neue Operationen auf den Zahlen 0, 1, . . . , m − 1 folgendermassen definieren:
a ⊕ b = (a + b) mod m,
a b = (ab) mod m.
Man spricht dann oft auch einfach von Modulo-Rechnen“. Wir wollen jetzt einige
”
Beispiele besprechen.
1. Ist etwa m = 13, so sind 7 ⊕ 9 = 3 und 7 9 = 11.
2. Wir betrachten die Addition von vorzeichenlosen, 8-Bit langen Binärzahlen, zum
Beispiel
Binär
Dezimal
1 0 0 1 1 0 0 1 + 1 1 0 0 0 0 1 1
153
= 0 1 0 1 1 1 0 0
= 92,
+
= 348.
195
Hier ist 348 = 92 + 256, die Addition der Binärzahlen erfolgt in diesem Beispiel
also modulo 256 = 28 . Dies ist tatsächlich immer so, das Rechnen mit 8-Bit Zahlen
ist gerade das Rechnen modulo 28 = 256. Entsprechend bedeutet Rechnen mit
16-Bit Zahlen dann modulo 216 = 65536, und entsprechend für 32-Bit und 64-Bit
Zahlen.
15
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
3. Auch das Rechnen modulo kleinerer Zweierpotenzen läßt sich leicht durchführen.
Als ein Beispiel nehmen wir das Rechnen modulo 8 = 23 . Eine 8-Bit Binärzahl
a7 . . . a0 ist gleich a0 + 2a1 + 4a2 + 23 a3 + · · · + 27 a7 , d.h. die hinteren Summanden zu a3 , . . . , a7 sind alle durch 8 teilbar. Modulo 8 ist unsere Zahl also gleich
00000a2 a1 a0 . Die Restklasse modulo 8 ist also durch die hinteren drei Bits gegeben, und kann beispielsweise durch bitweises und“ mit 00000111 = 7 berechnet
”
werden, also r = n&7 in C. Entsprechendes gilt für höhere Zweierpotenzen und
16,32 und 64-Bit Zahlen.
4. Als ein weiteres Beispiel wollen wir die Ihnen schon aus der Schule bekannte Regel
zur Teilbarkeit durch 3 diskutieren. Diese Regel besagt das eine natürliche Zahl
genau dann durch Drei teilbar ist, wenn ihre Quersumme durch Drei teilbar ist.
Ist n ∈ N∗ im Dezimalsystem als n = ar ar−1 . . . a1 a0 geschrieben, so ist explizit
n = a0 + 10 · a1 + 102 · a2 + · · · + 10r · ar .
Modulo 3 ist jetzt 10 ≡ 1 mod 3, also [10] = [1]. Damit ist
[n] = a0 + 10 · a1 + 102 · a2 + · · · + 10r · ar
= [a0 ] ⊕ [10] [a1 ] ⊕ [10]2 [a2 ] ⊕ · · · ⊕ [ar ] [10]r
= [a0 ] + [a1 ] + [a2 ] + · · · + [ar ] = [a0 + · · · + ar ],
und a0 + a1 + · · · + ar ist gerade die Summe der Dezimalziffern von n, also
die Quersumme von n, d.h. die Zahl n ist modulo 3 gleich ihrer Quersumme.
Insbesondere ist n genau dann durch 3 teilbar wenn die Quersumme dies ist.
Nehmen wir etwa konkret die Zahl
n = 17597032 mit Quersumme 1 + 3 + 7 + 9 + 5 + 7 + 2 = 34,
so sehen wir das 17597032 bei Division durch 3 den Rest 1 hat da 34 ≡ 1 mod 3
ist.
Da auch 10 ≡ 1 mod 9 gilt, ist n auch genau dann durch 9 teilbar wenn die
Quersumme dies ist. Im Zahlenbeispiel hat n = 17597032 bei Division durch 9
den Rest 7 da 34 ≡ 7 mod 9 ist.
5. Mit der Überlegung des vorigen Beispiels läßt sich auch schnell eine Bedingung
für die Teilbarkeit durch 11 herleiten. Modulo 11 ist 10 ≡ −1 mod 11, also ist
analog zur obigen Rechnung für eine Dezimalzahl n = ar . . . a0 auch
n ≡ a0 − a1 + a2 − · · · + (−1)r ar mod 11.
Auf der rechten Seite steht hier die sogenannte alternierende Quersumme, also
die mit wechselnden Vorzeichen gebildete Quersumme. Zum Beispiel ist für n =
17597032 die alternierende Quersumme 2 − 3 + 0 − 7 + 9 − 5 + 7 − 1 = 2,
also ist n nicht durch 11 teilbar und hat bei Division durch 11 den Rest 2. Als
Teilbarkeitsregel durch 11 ergibt sich also, dass eine Zahl genau dann durch 11
teilbar ist wenn ihre alternierende Quersumme durch 11 teilbar ist.
16
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
Vorlesung 3, Dienstag 17.4.2012
Wir waren gerade damit beschäftigt eine Beispiele zum Rechnen mit Restklassen
durchzugehen, und dies wollen wir nun fortsetzen.
6. Als nächstes Beispiel wollen wir uns die Teilbarkeitsregeln im Hexadezimalsystem
überlegen. Die Teilbarkeitsregeln für die Teilbarkeit durch 3 oder 9 im Dezimalsystem funktionierten weil 10 ≡ 1 mod 3 und 10 ≡ 1 mod 9 gelten. Im Hexadezimalsystem ist die Basis 16 statt 10. Wegen 16 ≡ 1 mod 3 und 16 ≡ 1 mod 5
können wir uns genau wie beim Dezimalsystem klarmachen, dass eine Hexadezimalzahl genau dann durch 3 beziehungweise 5 teilbar ist, wenn ihre Quersumme
dies ist. Ebenso ist 16 ≡ −1 mod 17, zur Teilbarkeit durch 17 = 0x11 hat man
also eine Teilbarkeitsregel über die alternierende Quersumme.
7. Wir kommen zu einem allerletzten Beispiel. Heute ist der 17te April 2012. Diese
Vorlesung findet im Steinitz-Hörsaal statt, und der damit gemeinte Steinitz hat
1894 in Breslau promoviert. Wir wollen uns jetzt überlegen welcher Wochentag
der 17te April im Jahr 1894 war. Überlegen wir uns zunächst einmal was der 17te
April letztes Jahr war. Ein Jahr hat 365 Tage und eine Woche hat 7 Tage, die
Wochentage wiederholen sich also alle 7 Tage und uns interessiert nur der Rest
von 365 modulo 7. Dieser ist 365 ≡ 1 mod 7, also haben wir in einem Jahr eine
Verschiebung um einen Wochentag. Allerdings ist 2012 eine Ausnahme da es sich
um ein Schaltjahr handelt und der Februar schon durch ist, also sind tatsächlich
366 ≡ 2 mod 7 Tage vergangen, der 17.4.2011 war also ein Sonntag. Zwischen
2012 und 1894 liegen 2012 − 1894 = 118 ≡ 6 mod 7 Jahre, also haben wir in
diesem Zeitraum eine Verschiebung von 6 Wochentagen, und wären bei Mittwoch.
Es gibt aber wieder die kleine Komplikation der Schaltjahre, alle vier Jahre haben
wir ein Schaltjahr mit 366 Tagen. Wegen 118/4 = 29, 5 und da 2012 selbst ein
Schaltjahr ist gab es zwischen 1894 und 2012 gerade 30 ≡ 2 mod 7 Schaltjahre,
und wir wären bei Montag. Das ist aber noch immer nicht wahr, alle 100 Jahre
fällt das Schaltjahr aus, aber alle 400 Jahre ist es doch da, d.h. wir haben ein
Schaltjahr im Jahr 1900 zuviel gerechnet, und somit war der 17.4.1894 tatsächlich
ein Dienstag.
$Id: gruppen.tex,v 1.14 2012/05/01 10:42:52 hk Exp $
17
Mathematik für Informatiker B, SS 2012
§2
Dienstag 17.4.2012
Gruppen
In diesem Kapitel beginnen wir mit der Untersuchung der algebraischen Grundstrukturen, und starten dabei mit den Gruppen. Um an das vorige Kapitel anzuschliessen, beginnen wir mit unseren Restklassen. Es sei m ∈ N∗ gegeben. Dann bezeichne
Zm wieder die Menge aller Restklassen modulo m, also explizit
Zm = {[0], [1], . . . , [m − 1]}.
Die Menge Zm ist eine endliche Menge mit m Elementen. Je zwei Elementen a, b ∈ Zm
hatten wir eine Summe a ⊕ b ∈ Zm und ein Produkt a b ∈ Zm zugeordnet. Diese
Addition“ und Multiplikation“ erfüllen einige einfache Rechenregeln:
”
”
1. Es gilt das sogenannte Assoziativgesetz der Addition dies bedeutet
a ⊕ (b ⊕ c) = (a ⊕ b) ⊕ c
für alle a, b, c ∈ Zm . Schreiben wir nämlich a = [k], b = [l] und c = [n] mit
k, l, n ∈ Z, so haben wir
a ⊕ (b ⊕ c) = [k] ⊕ ([l] ⊕ [n]) = [k] ⊕ [l + n] = [k + (l + n)] = [(k + l) + n]
= [k + l] ⊕ [n] = ([k] ⊕ [l]) ⊕ [n] = (a ⊕ b) ⊕ c
da die gewöhnliche Addition ganzer Zahlen das Assoziativgesetz erfüllt.
2. Analog haben wir auch das Assoziativgesetz der Multiplikation, also
a (b c) = (a b) c
für alle a, b, c ∈ Zm .
3. Addition und Multiplikation erfüllen auch das sogenannte Kommutativgesetz
a ⊕ b = b ⊕ a und a b = b a
für alle a, b ∈ Zm .
4. Die Restklasse [0] ∈ Zm wirkt als sogenannte neutrales Element der Addition,
dies bedeutet
a ⊕ [0] = [0] ⊕ a = a
für alle a ∈ Zm . Entsprechend ist die Restklasse [1] ein neutrales Element der
Multiplikation, wir haben
a [1] = [1] a = a
für alle a ∈ Zm .
18
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
5. Die Addition in Zm erlaubt es auch mit Minus“ zu rechnen, setzen wir für
”
a = [k] ∈ Zm
−a = −[k] := [−k] ∈ Zm ,
so haben wir
(−a) ⊕ a = a ⊕ (−a) = [0]
Der Begriff ist eine Verallgemeinerung dieser Situation. Wir haben nicht mehr speziell
die Restklassen modulo einer Zahl m sondern eine völlig beliebige Menge G auf der
eine zweistellige Verknüpfung (oder Operation) ∗ definiert ist, die gewisse Bedingungen erfüllt. Wir verwenden hier das neutrale Symbol ∗“ weil die Verknüpfung sowohl
”
Addition als auch Multiplikation oder etwas völlig anderes sein kann. Unter einer Verknüpfung auf der Menge G versteht man dabei einfach eine Abbildung
∗ : G × G → G,
d.h. je zwei Elementen a, b ∈ G wird von ∗ ein Produkt in G zugeordnet, das normalerweise in Infix-Notation als a ∗ b geschrieben wird. Neben den Gruppen selbst definieren
wir auch noch zwei Abschwächungen des Gruppenbegriffs.
Definition 2.1: Sei G eine Menge versehen mit einer zweistelligen Verknüpfung ∗ :
G × G → G.
(a) Das Paar (G, ∗) heißt eine Halbgruppe wenn ∗ das Assoziativgesetz
(a ∗ b) ∗ c = a ∗ (b ∗ c)
für alle a, b, c ∈ G erfüllt.
(b) Das Paar (G, ∗) heißt ein Monoid wenn (G, ∗) eine Halbgruppe ist und es ein
Element e ∈ G mit e ∗ a = a ∗ e = a für alle a ∈ G gibt. Ein solches Element e
heißt dann ein neutrales Element von (G, ∗).
(c) Das Paar (G, ∗) heißt eine Gruppe wenn (G, ∗) ein Monoid mit neutralen Element
e ∈ G ist und es für jedes a ∈ G ein zu a inverses Element inv(a) ∈ G mit
a ∗ inv(a) = e gibt.
Eine Halbgruppe (G, ∗) heißt kommutativ oder abelsch, wenn in ihr das Kommutativgesetz
a∗b=b∗a
für alle a, b ∈ G gilt.
Mit diesen Bezeichnung ist (Zm , ⊕) für jedes m ∈ N∗ eine kommutative Gruppe mit
neutralen Element e = [0] und inversen Elementen inv(a) = −a für a ∈ Zm . Dagegen ist
(Zm , ) nur ein kommutatives Monoid mit neutralen Element e = [1], da beispielsweise
a = [0] für m > 1 kein multiplikatives Inverses hat. Wir gehen noch einige weitere
Beispiele durch.
19
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
Das Paar (Q, +) ist eine kommutative Gruppe mit neutralen Element e = 0 und
für jedes a ∈ Q ist inv(a) = −a das zu a inverse Element. Dagegen ist (Q, ·) nur ein
kommutatives Monoid mit neutralen Element e = 1. Es handelt sich um keine Gruppe
da a = 0 kein multiplikatives Inverses hat. Nehmen wir die Null weg, so wird (Q∗ , ·)
aber eine kommutative Gruppe, denn für jedes a ∈ Q∗ haben wir das multiplikative
Inverse inv(a) = 1/a.
Für (Zm , ) funktioniert derselbe Trick leider nicht. Ist beispielsweise m = 10, so
haben wir [2], [5] ∈ Z∗10 mit [2] [5] = [10] = [0] ∈
/ Z∗10 . Damit ist die Multiplikation
von Restklassen nicht einmal eine Verknüpfung auf der Menge Z∗10 . Im vorigen Beispiel
(Q, ·) trat dieses Problem nicht auf, da das Produkt zweier von Null verschiedener
Zahlen wieder von Null verschieden ist.
Als ein Beispiel einer Verknüpfung die nicht einmal eine Halbgruppe, also nicht
assoziativ ist, haben wir etwa die Substraktion auf den ganzen Zahlen, also das Paar
(Z, −). Für alle a, b, c ∈ Z mit c 6= 0 sind
(a − b) − c 6= (a − b) + c = a − (b − c),
Subtraktion ist also nicht assoziativ. Es gibt auch Beispiele von Halbgruppen die keine
Monoide sind. Beispielsweise ist das Paar (N∗ , +) eine Halbgruppe da die Addition
assoziativ ist, aber kein Monoid da die Null nicht in N∗ liegt.
Als abschließendes Beispiel kommen wir zu den Restklassen zurück. Sei m ∈ N∗ .
Wir haben bereits gesehen, dass (Zm , ) im Allgemeinen keine Gruppe ist, und das
es auch nicht hilft die Null zu entfernen. Es gibt aber einen guten Fall in dem dieses
Phänomen nicht auftritt. Das Problem war ja das sich beispielsweise 10 = 2 · 5 als ein
Produkt zweier kleinerer Zahlen schreiben läßt, wann immer m diese Eigenschaft hat,
so kann (Z∗m , ) sicher keine Gruppe sein da es sich nicht einmal um eine Verknüpfung
handelt. Chancen haben wir also nur für diejenigen m, die sich nicht als ein solches
Produkt schreiben lassen, d.h. für die Primzahlen. Eine Primzahl ist dabei definiert als
eine Zahl m ∈ N mit m > 1 die sich nicht als ein Produkt zweier von 1 verschiedener
natürlicher Zahlen schreiben läßt. Für unsere Zwecke ist die folgende gleichwertige
Definition wichtig
Es ist m > 1 und für alle a, b ∈ Z
m ∈ N ist Primzahl ⇐⇒
mit m|ab ist stets m|a oder m|b.
Wir wollen uns diese Tatsache kurz überlegen. Sei also m ∈ N mit m > 1 gegeben.
”=⇒” Sei m eine Primzahl und seien a, b ∈ Z mit m|ab, d.h. es gibt ein q ∈ Z mit
ab = qm. Der größte gemeinsame Teiler von a und m ist eine natürliche Zahl die m
teilt, also muss ggt(a, m) = 1 oder ggt(a, m) = m sein. Im Fall ggt(a, m) = m ist m|a
und wir sind bereits fertig. Ist andererseits ggt(a, m) = 1, so gibt es nach §1.Satz 6
zwei Zahlen α, β ∈ Z mit αa + βm = 1, und dann ist
b = 1 · b = (αa + βm)b = αab + βmb = αqm + βbm = (αq + βb)m,
also haben wir m|b und sind wieder fertig.
20
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
”⇐=” Nun nehme umgekehrt an, dass aus m|ab für alle a, b ∈ Z stets m|a oder m|b
folgt. Angenommen m wäre keine Primzahl, d.h. es gibt natürliche Zahlen a, b ∈ N mit
a, b > 1 und m = ab. Dann ist aber auch m|ab, also m|a oder m|b, im Widerspruch zu
a < m und b < m. Dieser Widerspruch zeigt, dass m tatsächlich eine Primzahl sein
muss.
Damit ist diese Kennzeichnung der Primzahlen bewiesen. Sei jetzt m eine Primzahl.
Wie gerade gesehen folgt dann aus [a], [b] ∈ Z∗m stets auch [a][b] = [ab] ∈ Z∗m . Folglich
ist (Z∗m , ) zumindest ein Monoid mit neutralen Element e = [1].
Tatsächlich ist (Z∗m , ) sogar eine Gruppe. Sei nämlich a ∈ Z mit [a] 6= [0], also
m - a, gegeben. Wie im obigen Beweis ist dann ggt(m, a) = 1. Die Wechselsummendarstellung des größten gemeinsamen Teilers §1.Satz 6 liefert uns ganze Zahlen α, β ∈ Z
mit αm + βa = 1. Dies bedeutet aber
[1] = [αm + βa] = [αm] ⊕ [βa] = [0] ⊕ [aβ] = [aβ] = [a] [β],
d.h. inv([a]) = [β] ∈ Z∗m ist ein multiplikatives Inverses zu [a]. Damit ist (Z∗m , ) eine
Gruppe. Die Inversen können wir tatsächlich explizit berechnen. Die Zahlen α und
β konnten ja über den euklidischen Algorithmus wirklich berechnet werden, und wie
gesehen ist die Restklasse von β dann das gesuchte multiplikative Inverse. Nehmen wir
beispielsweise einmal die Primzahl m = 17 und wir suchen das multiplikative Inverse
von [6]. Führen wir den euklidischen Algorithmus durch
17 = 2 · 6 + 5, 5 = 17 − 2 · 6
6 = 1 · 5 + 1, 1 = 6 − 5 = 6 − (17 − 2 · 6) = 3 · 6 − 17,
so ergibt sich das Inverse inv([6]) = [3].
Zum Abschluß der Gruppenbeispiele wollen wir uns noch kurz die Möglichkeiten
zur expliziten Beschreibung von Gruppen anschauen. Eine solche haben wir jetzt reichlich gesehen, nämlich die Definition einer Gruppe durch geeignete explizite Formeln.
Für kleine, endliche Gruppen gibt es weiter die Beschreibung durch sogenannte Gruppentafeln. Dies hat in Wahrheit nichts mit Gruppen zu tun, solche Tafeln kann man
für beliebige zweistellige Operationen auf einer endlichen Menge einführen. Nehmen
wir einmal an, wir hätten eine solche endliche Menge M und eine zweistellige Operation ∗ auf M . Dann listen wir die Elemente von M in irgendeiner Reihenfolge auf,
etwa a, b, . . . , c. Dann konstruieren wir eine Tafel, also ein rechteckiges Schema, indem
a, b, . . . , c als Beschriftung der Zeilen und Spalten verwendet werden, und der Eintrag
der Tafel in der mit x ∈ M beschrifteten Zeile und der mit y ∈ M beschrifteten Spalte
sei x ∗ y. Also zum Beispiel auf der Menge M = Z5 der Restklassen modulo 5:
⊕
0
1
2
3
4
0
0
1
2
3
4
1
1
2
3
4
0
2
2
3
4
0
1
3
3
4
0
1
2
0
1
2
3
4
4
4
0
1
2
3
21
0
0
0
0
0
0
1
0
1
2
3
4
2
0
2
4
1
3
3
0
3
1
4
2
4
0
4
3
2
1
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
Hier sind links die Addition auf Z5 und rechts die Multiplikation auf Z5 gezeigt. Schauen wir uns die linke Tafel an, so können wir sofort einige wichtige Beobachtungen
machen. Zunächst kommt in jeder Zeile und in jeder Spalte der Gruppentafel jedes
der Elemente 0, . . . 4 genau einmal vor. Eine Tafel mit dieser Eigenschaft nennt man
auch ein lateinisches Quadrat. Als eine Aufgabe werden Sie einsehen, dass überhaupt
jede Gruppentafel ein lateinisches Quadrat ist. Lateinische Quadrate müssen aber umgekehrt keine Gruppen sein, das Assoziativgesetz läßt sich an der Gruppentafel nur
schlecht sehen. Die zweite Beobachtung ist, dass aufeinanderfolgende Zeilen der Tafel durch zyklisches Verschieben auseinander hervorgehen. Man spricht davon das Z5
eine sogenannte zyklische Gruppe ist, diesen Begriff werden wir später noch genauer
einführen.
Schauen wir uns noch kurz die rechte Tafel an. Hier handelt es sich um kein lateinisches Quadrat, zum Beispiel stehen in der ersten Zeile nur Nullen. Wenn wir allerdings
die erste Zeile und die erste Spalte streichen, so ergibt sich doch wieder ein lateinisches
Quadrat. Dieses ist gerade die Gruppentafel der Gruppe (Z∗5 , ), hieran sieht man
auch das die Zeilen einer Gruppentafel in der Regel nicht durch zyklisches Verschieben auseinander hervorgehen. Wenn durch Weglassen einiger Zeilen und Spalten einer
Gruppentafel wieder eine Gruppentafel entsteht, so spricht man allgemein von einer
Untergruppe. Diesen Begriff kann man dann allgemeiner auch für unendliche Gruppen
einführen, und erhält:
Definition 2.2: Eine Teilmenge U ⊆ G einer Gruppe (G, ∗) heißt Untergruppe von G,
wenn e ∈ U ist, a ∗ b ∈ U für alle a, b ∈ U gilt und auch inv(a) ∈ U für jedes a ∈ U ist.
Ist U eine Untergruppe von G, so können wir die Verknüpfung von G auf U einschränken und dann wir (U, ∗) selbst zu einer Gruppe. Dabei kann die Forderung e ∈ U
auch durch die gleichwertige Bedingung U 6= ∅ ersetzt werden. Haben wir nämlich eine
Teilmenge ∅ 6= U ⊆ G mit a ∗ b ∈ U und inv(a) ∈ U für alle a, b ∈ U , so können wir
wegen U 6= ∅ ein a ∈ U wählen und dann sind auch inv(a) ∈ U und e = a ∗ inv(a) ∈ U .
In der Gruppentafel lassen sich Untergruppen leicht erkennen, es handelt sich um Teiltafeln die für sich genommen ein lateinisches Quadrat bilden. Bevor wir zu Beispielen
kommen, wollen wir aber noch zwei allgemeine Tatsachen über Gruppen festhalten.
Beachte das wir in der Definition eines inversen Elements nur gefordert haben, dass
a ∗ inv(a) = e gilt, aber nicht gefordert wird das auch bei der Multiplikation mit inv(a)
von links wieder das neutrale Element herauskommt. Wir werden zeigen, dass dies
tatsächlich aus den anderen Gruppenaxiomen folgt. Ebenso hätte es für das neutrale
Element e ausgereicht a ∗ e = a für alle a zu fordern, aber dies soll hier nicht vorgeführt
werden. Ein zweites Lemma wird sich auf die Eindeutigkeitsfrage von neutralen und
inversen Elementen beziehen. Zunächst wäre es denkbar, dass es mehrere verschiedene
neutrale Elemente gibt oder das ein Element der Gruppe mehrere inverse Elemente
zuläßt. Dass dies nicht möglich ist, werden Sie als eine Übungsaufgabe zeigen.
Lemma 2.3: Sei (G, ∗) eine Gruppe. Dann gilt für jedes Element a ∈ G auch
inv(a) ∗ a = e,
22
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
wobei e das neutrale Element der Gruppe bezeichnet.
Beweis: Sei a ∈ G. Dann haben wir
inv(a) ∗ a = (inv(a) ∗ a) ∗ e = (inv(a) ∗ a) ∗ (inv(a) ∗ inv(inv(a)))
= ((inv(a) ∗ a) ∗ inv(a)) ∗ inv(inv(a)) = (inv(a) ∗ (a ∗ inv(a))) ∗ inv(inv(a))
= (inv(a) ∗ e) ∗ inv(inv(a)) = inv(a) ∗ inv(inv(a)) = e.
Lemma 2.4 (Eindeutigkeit neutraler und inverser Elemente)
In einer Gruppe (G, ∗) gibt es nur ein neutrales Element und zu jedem a ∈ G auch nur
ein inverses Element.
Beweis: Dies ist wie bereits bemerkt eine Übungsaufgabe.
Eine nützliche Folgerung aus diesen beiden Lemmata ist die für alle a ∈ G gültige
Gleichung
inv(inv(a)) = a.
Denn die Aussage inv(a) ∗ a = e aus Lemma 3 können wir so interpretieren, dass a
ein inverses Element zu inv(a) ist, und die Eindeutigkeit des Inversen gemäß Lemma 4
liefert dann inv(inv(a)) = a.
Wir schauen uns nun einige Beispiele von Untergruppen an.
1. Die Gruppe (Z, +) eine Untergruppe von (Q, +).
2. Dagegen ist (N, +) keine Untergruppe von (Z, +), da ja zum Beispiel 1 ∈ N aber
inv(1) = −1 ∈
/ N ist.
3. Als ein etwas komplizierteres Beispiel wollen wir uns jetzt die Untergruppen von
(Z, +) anschauen. Wir behaupten das für jede natürliche Zahl a ∈ N die Menge
aller Vielfachen von a, also
Ua := {qa|q ∈ Z} ⊆ Z
eine Untergruppe von (Z, +) ist. Gehen wir also die drei definierenden Bedingungen einer Untergruppe durch. Zunächst ist 0 = 0 · a ∈ Ua , also enthält Ua das
neutrale Element 0 von (Z, +). Sind weiter q, q 0 ∈ Z, so sind auch
qa + q 0 a = (q + q 0 )a ∈ Ua und − qa = (−q) · a ∈ Ua ,
d.h. Ua ist wirklich eine Untergruppe von (Z, +). Tatsächlich sind die Ua bereits
alle Untergruppen von (Z, +), dies wollen wir hier aber nicht weiter ausführen.
23
Mathematik für Informatiker B, SS 2012
2.1
Donnerstag 19.4.2012
Isomorphe Gruppen
Vorlesung 4, Donnerstag 19.4.2012
In der letzten Sitzung hatten unter anderen den Begriff einer Gruppe eingeführt und
auch schon einige Beispiele von Gruppen vorgeführt. Wir wollen diese Untersuchungen
jetzt noch etwas weiter fortführen und als nächsten Begriff die Isomorphie, oder strukturelle Gleichheit, von Gruppen einführen. Um zu sehen, was dies bedeutet betrachten
wir erst einmal die folgenden beiden Gruppen
0 1
0 0 1
1 1 0
und
a b
a a b
b b a
Diese beiden Gruppen sind sicherlich nicht gleich, sie haben ja nicht einmal dieselben
Elemente. So richtig verschieden sind sie aber auch nicht, die rechte Tafel entsteht aus
der linken indem man einfach a“ statt 0“ und b“ statt 1“ schreibt, es liegt also
”
”
”
”
nur eine Umbenennung der Elemente vor. Man spricht in solchen Situationen davon,
dass die beiden Gruppen isomorph sind. Für eine exakte Definition müssen wir den
Begriff nun formal genau erfassen. Seien also zwei Gruppen (G, ∗) und (H, ⊗) gegeben.
Die Umbenennung bedeutet das jedem Element von G ein eindeutiges Element von H
entspricht und umgekehrt, dass wir also in anderen Worten eine bijektive Abbildung
f : G → H haben. Was bedeutet jetzt, dass sich die Gruppentafeln dabei ineinander
übertragen? In der Zeile x ∈ G und Spalte y ∈ G der Gruppentafel von (G, ∗) steht
das Produkt x ∗ y. Die x und y entsprechenden Elemente von H sind f (x) und f (y),
also muss in Zeile f (x) und Spalte f (y) der Gruppentafel von (H, ⊗) das x ∗ y entsprechende Element stehen, und dieses ist f (x ∗ y). Andererseits steht dort f (x) ⊗ f (y), wir
benötigen also die Bedingung f (x ∗ y) = f (x) ⊗ f (y). Es stellt sich als sinnvoll heraus,
diese Eigenschaft von f auch für allgemeine, nicht notwendig bijektive, Abbildungen f
von G nach H zu untersuchen.
Definition 2.5: Eine Abbildung f : G1 → G2 zwischen zwei Gruppen (G1 , ∗) und
(G2 , ⊗) heißt Homomorphismus (oder ausführlicher Gruppenhomomorphismus), wenn
f (a ∗ b) = f (a) ⊗ f (b)
für alle a, b ∈ G1 gilt. Ist f dabei bijektiv, so heißt f ein Isomorphismus, beziehungsweise Gruppenisomorphismus, und G1 und G2 werden isomorph genannt.
Wir wollen einige Beispiele durchgehen.
1. Die Funktion f : (Z, +) → (Z, +); x 7→ 2x ist ein Gruppenhomomorphismus,
denn für alle x, y ∈ Z gilt f (x + y) = 2(x + y) = 2x + 2y = f (x) + f (y).
24
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
2. Die Funktion f : (Z, +) → (Z, +); x 7→ x2 ist dagegen kein Gruppenhomomorphismus, denn im allgemeinen ist f (x + y) = (x + y)2 = x2 + 2xy + y 2 6= x2 + y 2 =
f (x) + f (y).
3. Sei n ∈ N∗ . Dann ist die Funktion f : (Z, +) → (Zn , ⊕); x 7→ [x], die jede ganze
Zahl auf ihre Restklasse modulo n abbildet, ein Gruppenhomomorphismus. Die
Homomorphiebedingung
!
f (x + y) = [x + y] = [x] ⊕ [y] = f (x) + f (y)
für x, y ∈ Z ist dabei direkt die Definition der Addition von Restklassen modulo
n.
4. Die Abbildung f : (Z, +) → (Z, +); x 7→ −x ist ein Gruppenisomorphismus, denn
bijektiv ist sie allemal und für x, y ∈ Z gilt stets f (x + y) = −(x + y) = −x − y =
f (x) + f (y).
5. Zum Abschluß noch ein etwas komplizierteres Beispiel. Die Exponentialabbildung
f : (R, +) → (R>0 , ·); x 7→ ex
ist ein Gruppenisomorphismus. Dabei werden wir ex eigentlich erst etwas später
in diesem Semester behandeln, daher verlasse ich mich hier auf Ihre Erinnerungen
aus der Schulzeit. Dort haben Sie gelernt das f die reellen Zahlen bijektiv auf die
positiven reellen Zahlen abbildet. Die Homomorphiebedingung besagt
!
f (x + y) = ex+y = ex · ey = f (x) · f (y)
und dies ist gerade die Haupteigenschaft der e-Funktion, ihre Funktionalgleichung.
6. Wir wollen jetzt auch noch ein letztes Beispiel betrachten, das die Gruppentafeln
der beiden betrachteten Gruppen verwendet. Wir wollen die beiden folgenden
Gruppen auf vier Elementen 0, 1, 2, 3 betrachten:
∗
0
1
2
3
0
0
1
2
3
1
1
2
3
0
2
2
3
0
1
3
3
0
1
2
und
⊗
0
1
2
3
0
0
1
2
3
1
1
3
0
2
2
2
0
3
1
3
3
2
1
0
Wir behaupten, dass diese beiden Gruppen isomorph sind wobei der Isomorphismus durch Vertauschen von 2 und 3 gegeben ist. Diese Behauptung wollen wir
nun verifizieren. Wir müssen in der linken Tafel die dritte und die vierte Zeile
sowie Spalte jeweils miteinander vertauschen. Beachte das dies im linken, unteren 2 × 2-Kästchen zum Vertauschen der beiden Zeilen führt, im rechten, oberen
25
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
2×2-Kästchen zum Vertauschen der beiden Spalten und im rechten, unteren 2×2Kästchen muss beides zugleich gemacht werden, d.h. die Einträge werden über
Kreuz ausgetauscht. Anschließend müssen dann noch in den Tafeleinträgen die
2 und die 3 miteinander vertauscht werden. Der Übersichtlichkeit halber führen
wir dies hier in zwei Schritten durch
0
1
2
3
0
0
1
2
3
1
1
2
3
0
2
2
3
0
1
3
3
0
1
2
Vertauschen
−→
0
1
2
3
0
0
1
3
2
1
1
2
0
3
2
3
0
2
1
3
2
3
1
0
Umbenennen
−→
0
1
2
3
0
0
1
2
3
1
1
3
0
2
2
2
0
3
1
3
3
2
1
0
Insgesamt ist also die durch f (0) = 0, f (1) = 1, f (2) = 3 und f (3) = 2 gegebene
Abbildung ein Gruppenisomorphismus.
Bevor wir fortfahren wollen wir noch eine Grundeigenschaft von Gruppenisomorphismen und allgemeiner von Gruppenhomomorphismen festhalten.
Lemma 2.6: Seien (G1 , ∗) und (G2 , ⊗) Gruppen mit neutralen Elementen e1 ∈ G1 und
e2 ∈ G2 . Dann gilt für jeden Homomorphismus f : G1 → G2 stets
f (e1 ) = e2 und f (inv(a)) = inv(f (a))
für alle a ∈ G1 .
Beweis: Zunächst gilt
f (e1 ) = f (e1 ∗ e1 ) = f (e1 ) ⊗ f (e1 ),
und damit ist auch
f (e1 ) = f (e1 ) ⊗ e2 = f (e1 ) ⊗ f (e1 ) ⊗ inv(f (e1 )) = f (e1 ) ⊗ inv(f (e1 )) = e2 .
Dies zeigt die erste Behauptung. Nun sei a ∈ G gegeben. Die Eindeutigkeit inverser
Elemente nach Lemma 4 ergibt, dass wir nur zeigen müssen das f (inv(a)) ∈ G2 die
definierende Eigenschaft eines inversen Elements zu f (a) ∈ G2 hat. Dies ergibt sich aus
f (a) ⊗ f (inv(a)) = f (a ∗ inv(a)) = f (e1 ) = e2 .
26
Mathematik für Informatiker B, SS 2012
2.2
Donnerstag 19.4.2012
Klassifikation von Gruppen
Unter der Klassifikation von Gruppen versteht man die Beschreibung der möglichen
Isomorphietypen von Gruppen, beziehungsweise spezieller Klassen von Gruppen. Was
dabei genau unter einer Beschreibung“ zu verstehen ist, ist nicht ganz eindeutig fest”
gelegt, sondern hängt immer von den gerade verfolgten Zielen beziehungsweise von dem
was für die betrachtete Sorte von Gruppen überhaupt möglich ist, ab. Die einfachste
Art von Klassifikation ist eine vollständige Auflistung, also die Angabe einer Liste in
der jede der betrachteten Gruppen bis auf Isomorphie an genau einer Stelle auftaucht.
Für die ganz kleinen Gruppen werden wir dies hier vorführen.
2.2.1
Klassifikation der Gruppen mit einem Element
Eine solche Gruppe besteht nur aus ihrem neutralen Element, und je zwei gehen durch
Umbenennung eben dieses neutralen Elements auseinander hervor. Bis auf Isomorphie
gibt es also nur eine Gruppe mit einem Element.
2.2.2
Klassifikation der Gruppen mit zwei Elementen
In einer solchen Gruppe haben wir das neutrale Element e und ein weiteres Element
a. Die Gruppentafel hat also die Gestalt
e a
e e a
a a Nach Aufgabe (10) taucht in jeder Zeile und in jeder Spalte einer Gruppentafel jedes
Element genau einmal auf, die Tafel läßt sich also nur auf eine einzige Weise auffüllen
e a
e e a
a a e
Schreiben wir 0 statt e und 1 statt a, so erkennen wir hier die Gruppentafel von (Z2 , ⊕).
Bis auf Isomorphie gibt es also auch genau eine Gruppe mit zwei Elementen, nämlich
(Z2 , ⊕).
2.2.3
Klassifikation der Gruppen mit drei Elementen
Eine Gruppe mit drei Elementen hat ihr neutrales Element e und zwei weitere Elemente
a, b. Die Verknüpfungstafel ist
e a b
e e a b
a a b b
27
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
Starten wir mit dem markierten Eintrag. Dieser ist e oder b, aber würden wir e nehmen,
so müsste rechts daneben b stehen, was nicht geht. Wir sind also gezwungen die markierte Stelle mit b zu belegen. Für die restlichen drei Einträge gibt es dann überhaupt
keine Wahlfreiheiten mehr, und wir erhalten die Tafel
e
e e
a a
b b
a
a
b
e
b
b
e
a
Bis auf Isomorphie gibt es also höchstens eine Gruppe mit drei Elementen, nämlich
die mit der oben stehenden Tafel. Andererseits kennen wir schon die Gruppe (Z3 , ⊕)
mit drei Elementen, und damit gibt es bis auf Isomorphie genau eine Gruppe mit drei
Elementen, nämlich (Z3 , ⊕).
2.2.4
Klassifikation der Gruppen mit vier Elementen (teilweise)
Die Gruppen mit vier Elementen stellen sich als etwas komplizierter als diejenigen
mit 1, 2, 3 Elementen heraus. Hier gibt es erstmals echte Wahlmöglichkeiten in der
Gruppentafel und es gibt auch nicht isomorphe Gruppen. Wir wollen diesen Fall hier
nicht vollständig vorführen, aber zumindest zeigen was so getan werden muss. Man
nennt das neutrale Element wieder e und die drei anderen Elemente seien a, b, c. Die
erste frei Stelle in der Gruppentafel ist dann wieder a ∗ a, und dies könnte irgendein
Gruppenelement ungleich a sein. Man beginnt dann damit einfach die verschiedenen
Möglichkeiten durchzugehen, starten wir etwa mit a ∗ a = e. Durch diese Wahl werden
sofort auch einige weitere Einträge festgelegt, und wir kommen bis zur folgenden Tafel
e
a
b
c
e
e
a
b
c
a b c
a b c
e c b
c b
An der markierten Stelle können wir jetzt e oder a eintragen. Nachdem wir uns für
eine der Möglichkeiten entschieden haben ist alles weitere festgelegt. Dies führt auf
e
a
b
c
e
e
a
b
c
a
a
e
c
b
b
b
c
e
a
c
c
b
a
e
und
e
a
b
c
e
e
a
b
c
a
a
e
c
b
b
b
c
a
e
c
c
b
e
a
Dies sind beides Kandidaten für Gruppen mit vier Elementen, und wir müssten jetzt
überprüfen ob es sich um Gruppen handelt. Für die zweite Tafel führen wir eine kleine
28
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
Umbenennung durch
e
a
b
c
e
e
a
b
c
a
a
e
c
b
b
b
c
a
e
c
0
c
0 0
e = 0, a = 2,
−→ 1 1
b −→
b = 1, c = 3
e
2 2
a
3 3
1
1
2
3
0
2
2
3
0
1
3
3
0
1
2
und sehen das es sich um die Gruppe (Z4 , ⊕) handelt. Auch die erste Tafel ist die Tafel
einer Gruppe. Bezeichnen wir die mit Verknüpfung mit ∗“, so ist x ∗ x = e für alle x,
”
und sind x 6= y und x, y 6= e, so ist x ∗ y das dritte von e verschiedene Element. Hieraus
ergibt sich leicht das Assoziativgesetz. Sind etwa x, y, z 6= e paarweise verschieden, so
ist x ∗ y = z und (x ∗ y) ∗ z = z ∗ z = e und y ∗ z = x, x ∗ (y ∗ z) = x ∗ x = e. Die
anderen Fälle für x, y, z sind leichter und sollen jetzt nicht mehr vorgeführt werden.
Die beiden obigen Tafeln hatten wir durch die Wahl a ∗ a = e erhalten. Jetzt kann
man so fortfahren und auch die anderen möglichen Tafeln bestimmen. Dies werden
wir jetzt nicht mehr tun, es kommen zwar noch einige neue Tafeln hinzu, aber diese
führen alle auf Gruppen, die zu einer der beiden obigen Gruppen isomorph sind. Wenn
Sie Aufgabe (11) bearbeit haben, wissen Sie das noch zwei weitere Kandidatentafeln
auftauchen, die beides Gruppentafeln sind. Damit gibt es bis auf Isomorphie höchstens
zwei Gruppen mit vier Elementen. Um zu sehen, dass es genau zwei sind, muss man sich
noch überlegen, dass die beiden gefundenen Gruppen nicht isomorph sind. Dies kann
man entweder durch Durchprobieren aller möglichen Isomorphismen machen, das sind
ja nur sechs Stück, oder sich überlegen das bei isomorphen Gruppen auf der Diagonale
der Gruppentafel das neutrale Element gleich häufig auftauchen muss. Weil es in der
linken Tafel vier mal, in der rechten Tafel aber nur zweimal auftaucht, können die
beiden Gruppen damit nicht isomorph sein.
Gruppen mit noch mehr Elementen lassen sich immer schlechter durch die bisher
benutzte Methode des Auflistens möglicher Gruppentafeln behandeln. Was man anstelle dessen macht gehört aber nicht mehr zum Stoff dieser Vorlesung. Als Anzahl von
Isomorphietypen ergeben sich
n
1
1
2
1
3
1
4
2
5
1
6
2
7
1
8
5
9
2
10
2
11
1
12
5
13
1
14
2
15
1
16
14
17
1
Für die Zahl der Isomorphietypen ist die numerische Größe von n gar nicht so wichtig,
entscheidend ist vielmehr die Primzerlegung von n. Ist n beispielsweise eine Primzahl,
so gibt es bis auf Isomorphie immer nur eine eindeutige Gruppe. Besonders viele Typen
gibt es für n = 8 = 23 und n = 16 = 24 , hier sind eben die Exponenten in der
Primzerlegung schon etwas größer.
29
Mathematik für Informatiker B, SS 2012
2.3
Donnerstag 19.4.2012
Zyklische Gruppen
Sei (G, ∗) eine Gruppe mit neutralen Element e. Wir können dann Potenzen von Elementen von G einführen, indem für a ∈ G, n ∈ N∗
an := a
| ∗ a ∗{z· · · ∗ a}
n mal
definiert wird. Diese Operation erfüllt dann die üblichen Potenzrechenregeln
an ∗ am = an+m und (an )m = anm
für alle a ∈ G, n, m ∈ N∗ . Die erste Regel ergibt sich dabei als
n+m
an ∗ am = a
| ∗ a ∗{z· · · ∗ a} ∗ a
| ∗ a ∗{z· · · ∗ a} = a
| ∗ a ∗{z· · · ∗ a} = a
n mal
m mal
n + m mal
und für die zweite Regel rechnen wir
n
n
(an )m = a
∗ · · · ∗ an} = a
| ∗ a {z
| ∗ a ∗{z· · · ∗ a} ∗ · · · ∗ a
| ∗ a ∗{z· · · ∗ a}
m mal
n mal
| n mal
{z
}
m mal
nm
=a
| ∗ a ∗{z· · · ∗ a} = a .
nm mal
Die Potenzen von Gruppenelementen kann man auch noch auf ganzzahlige Exponenten
ausdehnen, indem für a ∈ G, n ∈ N∗ zusätzlich
a0 := e und a−n := inv(an )
definiert wird. Beispielsweise ist dann a−1 = inv(a). Als eine Übungsaufgabe kann man
sich überlegen, dass die Potenzrechenregeln auch bei beliebigen ganzzahligen Exponenten n, m ∈ Z gültig bleiben.
Am Ende der letzten Sitzung hatten wir die Potenzen an eines Elements a einer
Gruppe G eingeführt, und nachgewiesen das diese die Potenzrechenregeln
an ∗ am = an+m , (an )m = anm
für alle n, m ∈ Z erfüllen. Diese Potenzen erlauben es uns jetzt eine wichtige spezielle
Sorte von Gruppen einzuführen, die sogenannten zyklischen Gruppen. Wenn man jedes
Element einer Gruppe durch eine geeignete Potenz ein und desselben Elements darstellen kann, so spricht man von einer solchen zyklischen Gruppe. Die genaue Definition
einer lautet:
Definition 2.7: Eine Gruppe G heißt zyklisch, wenn es ein a ∈ G gibt so, dass
G = {ak |k ∈ Z}
30
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
gilt. Dieses Element a heißt dann ein erzeugendes Element der Gruppe G, oder auch
ein Erzeuger von G.
Wir kennen auch schon einige Beispiele zyklischer Gruppen. Ist beispielsweise m ∈
N∗ , so ist die Gruppe (Zm , ⊕) zyklisch mit dem Erzeuger a = [1]. Ist nämlich k ∈
{0, 1, . . . , m − 1} gegeben so ist
[k] = [1] ⊕ · · · ⊕ [1] = k[1]
|
{z
}
k mal
die k-te Potenz“ von a. Wir schreiben hier k[1] statt [1]k da dies bei additiv geschrie”
bener Verknüpfung üblich ist, man spricht dann meist auch von Vielfachen statt von
Potenzen. Eine weiteres Beispiel einer zyklischen Gruppe ist die Gruppe (Z, +) mit dem
Erzeuger a = 1, hier gilt direkt k = ka für jedes k ∈ Z. Ein weniger offensichtliches
Beispiel, das wir hier auch nicht beweisen wollen, ist die multiplikative Gruppe (Z∗p , )
wenn p eine Primzahl ist. Dieses Beispiel wird in einer Übungsaufgabe näher untersucht werden. Wir kommen nun zu einer allgemeinen Aussage über endliche zyklische
Gruppen.
Lemma 2.8 (Endliche zyklische Gruppen)
Sei (G, ∗) eine endliche zyklische Gruppe mit n ∈ N Elementen und bezeichne e das
neutrale Element von G. Dann gilt an = e für jedes erzeugende Element a ∈ G.
Beweis: Da G zyklisch mit erzeugenden Element a ist, gilt G = {ak |k ∈ Z}. Da G
endlich ist, können die Elemente e, a, a2 , a3 , . . . von G nicht alle verschieden sein, es
gibt also m, i ∈ Z mit 0 ≤ i < m und ai = am . Dabei wählen wir i und m der Reihe
nach minimal. Die Potenzrechenregeln ergeben
am−i = am ∗ a−i = am ∗ inv(ai ) = ai ∗ inv(ai ) = e = a0 ,
und die minimale Wahl von i ergibt i = 0. Damit ist auch am = ai = a0 = e und die
Minimalität von m besagt aj 6= e für alle 1 ≤ j < m. Die Elemente e, a, a2 , . . . , am−1
sind paarweise verschieden, denn andernfalls gäbe es 0 ≤ j < k < m mit aj = ak , und
wie oben folgt ak−j = e mit 0 < k − j ≤ k < m, im Widerspruch zur Minimalität
von m. Weiter sind dies überhaupt alle Elemente von G, ist nämlich k ∈ Z beliebig, so
liefert die Division mit Rest §1.Lemma 1 zwei ganze Zahlen q, r ∈ Z mit 0 ≤ r < m
und k = qm + r, und die Potenzrechenregeln ergeben
ak = aqm+r = aqm ∗ ar = (am )q ∗ ar = eq ∗ ar = e ∗ ar = ar ∈ {e, a, . . . , am−1 },
und es folgt
G = {ak |k ∈ Z} = {ak |0 ≤ k < m}.
Insbesondere ist n = m die Anzahl der Elemente von G, und damit ist an = am = e.
31
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
Vorlesung 5, Dienstag 24.4.2012
Wir hatten am Ende der letzten Sitzung bewiesen, dass in einer endlichen zyklischen
Gruppe G = {ak |k ∈ N} mit n Elementen für das erzeugende Element a stets an = e
gilt, wobei e das neutrale Element der Gruppe bezeichnete. Dieses Lemma können wir
auch noch etwas umformulieren. Angenommen wir haben eine beliebige ganze Zahl k ∈
Z. Führen wir die Division mit Rest nach §1.Lemma 1 durch, so können wir k = qn + r
mit einem Rest 0 ≤ r < n schreiben. Eine Anwendung der Potenzrechenregeln liefert
dann
ak = aqn+r = aqn ∗ ar = (an )q ∗ ar = eq ∗ ar = ar ,
man kann im Exponenten also modulo n rechnen. Diese Beobachtung ist die Grundlage für die Bestimmung der zyklischen Gruppen bis auf Isomorphie, auf die wir hier
aber verzichten wollen. Wir wollen noch eine weitere wichtige Folgerung aus Lemma
8 ziehen, und den sogenannten kleinen Satz von Fermat beweisen. Mit diesem Namen
werden diverse ähnliche aber verschiedene Aussagen bezeichnet, wundern Sie sich also
nicht wenn Ihnen auch etwas andere Aussagen als kleiner Satz von Fermat verkauft
werden. Wir benötigen einige kleine Vorbereitungen, seien hierzu eine Gruppe G und
eine Untergruppe U von G gegeben.
1. Für alle a, b ∈ G gilt die Gleichung
inv(a ∗ b) = inv(b) ∗ inv(a).
Dies ist leicht einzusehen, nach Lemma 4 ist nur zu zeigen, dass sich das Produkt
inv(b) ∗ inv(a) wi das neutrale Element von a ∗ b verhält. Hierzu rechnen wir
(a ∗ b) ∗ (inv(b) ∗ inv(a)) = a ∗ (b ∗ inv(b)) ∗ inv(a) = a ∗ e ∗ inv(a) = a ∗ inv(a) = e,
und damit gilt tatsächlich inv(a ∗ b) = inv(b) ∗ inv(a).
2. Nun behaupten wir das durch
a ∼ b :⇐⇒ a ∗ inv(b) ∈ U
für a, b ∈ G eine Äquivalenzrelation auf der Menge G definiert wird. Hierzu
müssen wir die drei definierenden Eigenschaften einer Äquivalenzrelation durchgehen. Für jedes a ∈ G haben wir zunächst a ∗ inv(a) = e ∈ U , d.h. a ∼ a und
somit ist unsere Relation reflexiv. Die Symmetrie ist die komplizierteste Eigenschaft, sind a, b ∈ G mit a ∼ b, so gilt a ∗ inv(b) ∈ U , und da U eine Untergruppe
ist folgt damit auch
b ∗ inv(a) = inv(inv(b)) ∗ inv(a) = inv(a ∗ inv(b)) ∈ U,
32
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
d.h. wir haben b ∼ a, und unsere Relation ist symmetrisch. Sind schließlich
a, b, c ∈ G mit a ∼ b und b ∼ c, also a ∗ inv(b) ∈ U und b ∗ inv(c) ∈ U , so folgt
mit Lemma 3 auch
a ∗ inv(c) = a ∗ e ∗ inv(c) = a ∗ (inv(b) ∗ b) ∗ inv(c) = (a ∗ inv(b)) ∗ (b ∗ inv(c)) ∈ U,
erneut da U eine Untergruppe ist. Somit ist unsere Relation auch transitiv und
insgesamt eine Äquivalenzrelation.
3. Nun behaupten wir, dass die Äquivalenzklasse jedes Elements b ∈ G genau
[b] = U ∗ b = {x ∗ b|x ∈ U }
ist. In der Tat, ist a ∈ G, so ist a ∗ inv(b) ∈ U nach Lemma 3 und Aufgabe (10)
gleichwertig zu
a = a ∗ e = a ∗ (inv(b) ∗ b) = (a ∗ inv(b)) ∗ b ∈ U ∗ b,
d.h. wir haben
[b] = {a ∈ G|a ∼ b} = {a ∈ G|a ∗ inv(b) ∈ U } = U ∗ b.
4. Nun nehme zusätzlich an, dass G endlich ist. Für jedes b ∈ G ist dann wieder
nach Aufgabe (10)
|[b]| = |U ∗ b| = |{x ∗ b|x ∈ U }| = |U |,
d.h. jede unserer Äquivalenzklassen hat genauso viele Elemente wie U . Da G die
disjunkte Vereinigung dieser Äquivalenzklassen ist, folgt
|G| = (Anzahl der Äquivalenzklassen von ∼) · |U |,
also ist |U ||G|. Die Elementeanzahl einer Untergruppe ist also immer ein Teiler
der Elementeanzahl der gesamten Gruppe.
Damit können wir jetzt den schon erwähnten kleinen Satz von Fermat beweisen.
Satz 2.9 (Kleiner Satz von Fermat)
Sei (G, ∗) eine endliche Gruppe mit neutralen Element e. Dann gilt für jedes a ∈ G
die Gleichung a|G| = e, wobei |G| für die Anzahl der Elemente von G steht.
Beweis: Sei a ∈ G gegeben. Wir betrachten dann die Menge
U := {ak |k ∈ Z} ⊆ G
der Potenzen von a, und behaupten das U eine Untergruppe von G ist. Wegen e =
a0 ∈ U ist dabei U 6= ∅. Sind k, l ∈ Z, so ergeben die Potenzrechenregeln auch
ak ∗ al = ak+l ∈ U und inv(ak ) = (ak )−1 = a−k ∈ U,
33
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
d.h. U erfüllt die drei Bedingungen einer Untergruppe. Weiter ist die Gruppe (U, ∗)
zyklisch mit dem erzeugenden Element a. Als Teilmenge der endlichen Menge G ist U
auch endlich, und es bezeichne n ∈ N die Anzahl der Elemente von U . Nach Lemma 8
ist dann an = e. Wie gerade gezeigt ist n ein Teiler von |G|, d.h. es existiert ein m ∈ Z
mit |G| = nm. Damit ist auch
a|G| = anm = (an )m = em = e,
wie behauptet.
Als eine kleine Anwendung wollen wir uns die zahlentheoretische Form des kleinen
Satzes von Fermat überlegen. Hierzu sei eine Primzahl p gegeben. Dann haben wir
die Gruppe (Z∗p , ) mit p − 1 Elementen, und nach dem kleinen Satz von Fermat gilt
ap−1 = e = [1] für jedes a ∈ Z∗p . Dies bedeutet [ap−1 ] = [a]p−1 = [1] für jedes a ∈ Z
mit p - a, d.h. für alle a ∈ Z die keine Vielfachen von p sind, ist ap−1 ≡ a mod p.
Multiplizieren wir diese Kongruenz noch mit a, so ergibt sich
ap ≡ a mod p
für jedes a ∈ Z, denn im Fall p | a ist dies trivialerweise wahr. Dies ist die zahlentheoretische Form des kleinen Satzes von Fermat. Beispielsweise wissen wir damit, ohne
irgendetwas ausrechnen zu müssen, dass 917 ≡ 9 mod 17 gilt. Ist p keine Primzahl, so
ist diese Kongruenz häufig falsch, sind zum Beispiel p = 6 und a = 2, so haben wir
26 = 64 ≡ 4 6≡ 2 mod 6.
2.4
Permutationsgruppen
Es sei M eine beliebige Menge. Dann bildet die Menge
SM := {f : M → M |f ist eine bijektive Abbildung}
aller bijektiven Abbildungen von M auf sich selbst versehen mit der Hintereinanderausführung ◦ von Abbildungen als zweistellige Verknüpfung eine Gruppe (SM , ◦). Überprüfen wir einmal die Gruppenaxiome. Dass die Komposition von Abbildungen das
Assoziativgesetz (h ◦ g) ◦ f = h ◦ (g ◦ f ) für alle f, g, h ∈ SM erfüllt wissen Sie schon aus
Teil A im letzten Semester. Die Begründung hierfür war auch recht einfach, für jedes
x ∈ M gelten ja
((h ◦ g) ◦ f )(x) = (h ◦ g)(f (x)) = h(g(f (x)))
und
(h ◦ (g ◦ f ))(x) = h((g ◦ f )(x)) = h(g(f (x))).
Damit ist (SM , ◦) schon mal eine Halbgruppe. Ein neutrales Element der Hintereinanderausführung ist auch leicht zu finden, es handelt sich um die identische Abbildung
idM : M → M ; x 7→ x.
34
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
Damit ist (SM , ◦) ein Monoid. Außerdem ist für jedes f ∈ SM die Umkehrabbildung
f −1 : M → M das zu f bezüglich Hintereinanderausführung inverse Element. Damit
ist (SM , ◦) wirklich eine Gruppe.
Hat die Menge M mindestens drei Elemente, so ist die Gruppe SM nicht kommutativ. Wähle nämlich drei verschiedene Elemente x, y, z ∈ M . Dann betrachten wir die
beiden Permutationen f, g ∈ SM gegeben durch




y,
u
=
x,

z, u = y,
f (u) = x, u = y, und g(u) = y, u = z,




u, u 6= x, y
u, u 6= y, z
für alle u ∈ M , d.h. f vertauscht nur x und y und g vertauscht y und z. Dann sind
g(f (x)) = g(y) = z aber f (g(x)) = f (x) = y 6= z,
also insbesondere g ◦ f 6= f ◦ g.
Ein besonders wichtiger Spezialfall liegt vor,
wenn M = {1, . . . , n} die Menge der ersten n
.....
natürlichen Zahlen für ein n ∈ N∗ ist. Man nennt
Sn := SM dann die symmetrische Gruppe auf n
Ziffern. Die Gruppe Sn ist eine endliche Gruppe, deren Elemente wir leicht zählen können.
.....
Für das Bild f (1) der 1 können wir jedes Element von M = {1, . . . , n} verwenden, es gibt
also n Möglichkeiten für f (1). Das Bild von 2 unterliegt dann schon einer kleinen Einschränkung, weil f bijektiv sein soll muss f (2) 6= f (1) sein, wir haben also nur noch
n − 1 Möglichkeiten für f (2). Für das Bild von 3 haben wir schon zwei Bedingungen
f (3) 6= f (1) und f (3) 6= f (2) mit n − 2 verbleibenden Möglichkeiten. So fortfahrend
reduziert sich die Zahl der Möglichkeiten für die Bilder unter f jedesmal um Eins, bis
es schließlich für das letzte Bild f (n) nur noch n − (n − 1) = 1 Möglichkeit gibt, eben
die letzte noch freie Ziffer. Insgesamt gibt es also
n · (n − 1) · (n − 2) · . . . · 1 = n!
viele bijektive Abbildungen f : M → M .
Damit haben wir den folgenden Satz begründet:
Satz 2.10: Für jedes n ∈ N ist Sn eine endliche Gruppe mit |Sn | = n!.
Überprüfen wir diesen Satz einmal an den kleinen Werten von n. Für n = 1 ist die
Identität das einzige Element von S1 . Für n = 2 haben wir einmal die Identität und
zum anderen die Bijektion, die die beiden Elemente von {1, 2} vertauscht. Bei n = 3 ist
es schon ein klein wenig komplizierter. Zum Einen gibt es wieder die Identität. Dann
gibt es die drei Bijektionen, die jeweils zwei der Elemente von {1, 2, 3} vertauschen
und das dritte nicht bewegen. Es gibt aber noch zwei weitere Bijektionen, nämlich
diejenigen die die Ziffern 1, 2, 3 einmal durchschieben, entweder von links nach rechts,
also 1 auf 2, 2 auf 3 und 3 zurück auf 1, oder von rechts nach links, also 3 auf 2, 2 auf
1 und 1 auf 3. Dies sind insgesamt 1 + 3 + 2 = 6 = 3! Elemente von S3 , wie erwartet.
35
Mathematik für Informatiker B, SS 2012
2.4.1
Dienstag 24.4.2012
Darstellung von Permutationen
Wie kann man ein Element f ∈ Sn hinschreiben? Hierfür gibt es im wesentlichen drei
übliche Methoden. Die direkteste Möglichkeit ist eine Art tabellarische Darstellung
etwa für n = 7
1 2 3 4 5 6 7
4 7 6 2 5 3 1
Dies soll dann die Permutation f ∈ S7 definiert durch f (1) = 4, f (2) = 7, f (3) = 6,
f (4) = 2, f (5) = 5, f (6) = 3 und f (7) = 1 sein. Damit so etwas wirklich eine
Permutation ist, muss in der unteren Zeile jedes Element genau einmal auftauchen.
Dies ist zwar eine ziemlich unmißverständliche Darstellung von f ∈ Sn , aber auch
etwas unhandlich.
Die zweite Darstellungsmethode ist eine kleine Modifikation der ersten, man läßt
einfach die obere Zeile weg, schreibt also im obigen Beispiel nur
f = (4, 7, 6, 2, 5, 3, 1).
Die dritte Darstellungsart folgt einer ganz anderen Idee. Wir bleiben einmal beim
obigen Beispiel f ∈ S7 . Hier wird 1 auf 4 abgebildet, 4 dann auf 2, 2 auf 7 und 7
schließlich zurück auf 1. Folgt man also den Bildern der Eins, so hat man
1
4
2
7
einen sogenannten Zykel. Dieses Phänomen tritt tatsächlich bei jedem Startwert und
bei jeder beliebigen Permutation g ∈ Sn auf. Verfolgen wir die sukzessiven Bilder eines
Startwerts 1 ≤ k ≤ n also k, g(k), g(g(k)), g(g(g(k))), . . . so muss sich aufgrund der
Endlichkeit irgendwann ein Wert wiederholen. Tatsächlich muss dieser erste wiederholte
Wert gleich k sein, denn andernfalls hätte ein Element g(. . . (g(k))) zwei verschiedene
Urbilder unter g. Bei jeder Permutation bewegen sich also alle Elemente in Zykeln.
Diese Zykel können wir jetzt zur Beschreibung der Permutation g verwenden. Für
einen einzelnen Zykel schreiben wir einfach die sukzessiven Bilder des Startwerts der
Reihe nach hin, und brechen unmittelbar vor der Wiederholung des Startwerts ab. Die
einzelnen Zahlen werden dabei durch Leerzeichen, oder manchmal auch Kommata oder
andere Trennsymbole, getrennt und in Klammern gesetzt, also im obigen Beispiel
1
4
2
7
= (1 4 2 7).
Die Ziffern 3, 5, 6 sind aufgetaucht. Diese laufen in den Zykeln 3 −→ 6 −→ 3 und
5 −→ 5, die vollständige Zykeldarstellung ist damit
f = (1 4 2 7)(3 6)(5) oder f = (1 4 2 7)(3 6),
wobei in der zweiten Variante Zykel der Länge Eins weggelassen sind.
$Id: ring.tex,v 1.15 2012/05/08 10:11:03 hk Exp $
36
Mathematik für Informatiker B, SS 2012
§3
Dienstag 24.4.2012
Ringe
Nachdem wir im letzten Abschnitt den Gruppenbegriff eingeführt haben, kommen
wir nun zur nächsten der algebraischen Grundstrukturen, den sogenannten Ringen. Auf
einem Ring hat man gleich zwei zweistellige Verknüpfungen, eine Addition und eine
Multiplikation, die meistens als + und · geschrieben werden.
Definition 3.1: Ein Ring (A, +, ·) besteht aus einer Menge A und zwei zweistelligen
Verknüpfungen + : A × A → A und · : A × A → A, die die folgenden Bedingungen
erfüllen:
(a) Das Paar (A, +) ist eine kommutative Gruppe.
(b) Das Paar (A, ·) ist eine Halbgruppe.
(c) Es gelten die beiden Distributivgesetze, d.h. für alle a, b, c ∈ A gilt
a · (b + c) = a · b + a · c,
(a + b) · c = a · c + b · c.
Es werden die vertrauten Schreibweisen verwendet. Das Multiplikationszeichen wird
meist weggelassen ab = a · b, und zur Vermeidung von Klammern wird weiter mit
Punkt vor Strich“ gerechnet. Man bezeichnet das neutrale Element der Addition mit
”
Null und das additive Inverse von a ∈ A wird mit −a bezeichnet. Die Subtraktion
können wir als eine Notation einführen, für a, b ∈ A setzen wir
a − b := a + (−b) ∈ A.
Beachte das in den Axiomen eines Ringes einige naheliegende Rechenregeln nicht gefordert werden, zum Beispiel wird nicht a · 0 = 0 · a = 0 verlangt. Dies folgt aber leicht
aus den anderen Axiomen. Ist nämlich a ∈ A, so rechnen wir mit dem Distributivgesetz
0 · a = (0 + 0) · a = 0 · a + 0 · a,
und da (A, +) eine Gruppe ist, können wir auf beiden Seiten dieser Gleichung das
additive Inverse von 0 · a addieren, und erhalten
0 = 0 · a − 0 · a = 0 · a + 0 · a − 0 · a = 0 · a,
d.h. 0 · a = 0. Analog ergibt sich mit dem anderen Distributivgesetz auch a · 0 = 0.
Ein Ring A heißt kommutativ wenn auch das Kommutativgesetz der Multiplikation
gilt, also a · b = b · a für alle a, b ∈ A. Ist schließlich (A, ·) sogar ein Monoid, gibt es
also ein neutrales Element der Multiplikation, so nennt man A einen Ring mit Eins.
Hat der Ring eine Eins, so bezeichnen wir das neutrale Element der Multiplikation
mit dem üblichen Symbol 1. Genau wie bei den Gruppen sind Null und Eins eindeutig
bestimmt. Hat der Ring A eine Eins, so lassen sich die additiven Inversen wir üblich
durch die Multiplikation beschreiben, d.h. für jedes a ∈ A ist −a = (−1)·a. Der Beweis
dieser Tatsache wird eine Übungsaufgabe sein. Einfache Beispiele von Ringen sind
37
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
1. Die ganzen Zahlen (Z, +, ·). Dies ist ein kommutativer Ring mit Eins.
2. Die geraden ganzen Zahlen (2Z, +, ·) sind ein kommutativer Ring der keine Eins
hat.
3. Die rationalen Zahlen (Q, +, ·). Dies ist wieder ein kommutativer Ring mit Eins.
4. Die reellen Zahlen (R, +, ·). Dies ist erneut ein kommutativer Ring mit Eins.
5. Die abstrakte Definition eines Rings läßt auch recht merkwürdige Beispiele zu.
Ist etwa (A, +) eine beliebige kommutative Gruppe mit neutralen Element 0,
so können wir A zu einem Ring machen indem die Multiplikation als konstant
Null definiert wird, also a · b := 0 für alle a, b in A. Diese Multiplikation ist
trivialerweise assoziativ, es ist ja (ab)c = 0 = a(bc) für alle a, b, c ∈ A und
auch die beiden Distributivgesetze werden einfach zu 0 = 0 + 0. Dieser Ring ist
kommutativ hat aber keine Eins, außer wenn A nur aus der Null besteht.
6. Dagegen ist (N, +, ·) kein Ring, da (N, +) keine Gruppe ist.
3.1
Der Ring Zm
Sei m ∈ N∗ . Wir hatten bereits in §1.Lemma 10 gesehen, dass man auf den Restklassen
modulo m eine Addition und eine Multiplikation einführen kann. Bei der Behandlung
von Beispielen von Halbgruppen, Monoiden und Gruppen in §2 hatten wir dann auch
gesehen, dass (Zm , ⊕) eine kommutative Gruppe und (Zm , ) ein kommutatives Monoid
sind. Dabei war Zm die Bezeichnung für die Menge aller Restklassen modulo m. In
Erweiterung dieser Aussagen gilt sogar:
Lemma 3.2 (Der Restklassenring)
Sei m ∈ N∗ . Dann ist (Zm , ⊕, ) ein kommutativer Ring mit Eins.
Beweis: Dies ist eine Übungsaufgabe.
Wir wollen jetzt den Restklassenring Zm etwas näher untersuchen, und beginnen dabei
mit der Bestimmung der Elemente, die ein multiplikatives Inverses haben. Allgemein
nennt man ein Element a ∈ A eines Rings A mit Eins invertierbar wenn es ein b ∈ A
mit ab = ba = 1 gibt, und dieses b heißt dann ein multiplikatives Inverses zu a. Was sind
jetzt die invertierbaren Elemente im Ring Zm ? Das wesentliche Argument haben wir
dabei schon bei unserer Behandlung von Beispielen von Gruppen gesehen, wir hatten
gezeigt das (Z∗m , ) eine Gruppe ist wenn m eine Primzahl ist. Die Behandlung eines
allgemeinen m ist nur eine kleinere Erweiterung unserer damaligen Überlegungen.
Lemma 3.3 (Bestimmung der invertierbaren Elemente des Restklassenrings)
Seien m ∈ N∗ und a ∈ Z. Dann hat die Restklasse [a] von a modulo m genau dann ein
multiplikatives Inverses im Ring Zm wenn ggt(m, a) = 1 gilt.
38
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
Beweis: Da [1] das neutrale Element der Multiplikation in Zm ist, bestehen die folgenden Äquivalenzen:
[a] invertierbar in Zm ⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
∃(β ∈ Z) : [a] [β] = [1]
∃(β ∈ Z) : [aβ] = [1]
∃(β ∈ Z) : m|1 − aβ
∃(α, β ∈ Z) : 1 − aβ = mα
∃(α, β ∈ Z) : mα + aβ = 1
ggt(m, a) = 1,
wobei wir die letzte Äquivalenz bei der Besprechung der Wechselsummendarstellung
des größten gemeinsamen Teilers in §1.2 eingesehen hatten.
Der Beweis des Lemmas gibt uns auch eine Methode die multiplikativen Inversen in
Zm wirklich zu berechnen. Ist a ∈ Z mit ggt(m, a) = 1, so können wir wie in §1 gesehen
den euklidischen Algorithmus verwenden um α, β ∈ Z mit mα + aβ = 1 zu finden. Der
Beweis des Lemmas zeigt, dass die Restklasse [β] dann das multiplikative Inverse von
[a] in Zm ist. Als ein Beispiel nehmen wir einmal m = 12. Die zu m teilerfremden a ∈ Z
mit 0 ≤ a < m = 12 sind dann 1, 5, 7 und 11, wir haben also genau vier modulo 12
invertierbare Elemente. Die Berechnung des Inversen der Restklasse von a = 7 führen
wir mit dem euklidischen Algorithmus durch:
12 = 7 + 5,
5 = 12 − 7,
7 = 5 + 2,
2 = 7 − 5 = 7 − (12 − 7) = 2 · 7 − 12,
5 = 2 · 2 + 1, 1 = 5 − 2 · 2 = 12 − 7 − 2 · (2 · 7 − 12) = 3 · 12 − 5 · 7,
und das multiplikative Inverse von [7] ergibt sich als inv([7]) = [−5] = [7]. Als nächstes
wollen wir uns die Eindeutigkeit der multiplikativen Inversen in Zm , und allgemeiner gleich in jedem Ring mit Eins klarmachen. Wir wollen diese Eindeutigkeitsaussage auf die in §2.Lemma 4 bewiesene Eindeutigkeit inverser Elemente in Gruppen
zurückführen, und zu diesem Zweck benötigen wir die sogenannte Einheitengruppe
eines Rings mit 1. Diese Gruppe wird uns auch später noch nützlich sein.
Lemma 3.4 (Die Einheitengruppe)
Sei (A, +, ·) ein Ring mit Eins. Wir nennen ein Element a ∈ A eine Einheit, wenn es
ein b ∈ A mit ab = ba = 1 gibt, und die Menge aller Einheiten von A werde mit U (A)
bezeichnet. Dann gelten:
(a) Sind a, b ∈ U (A) so ist auch ab ∈ U (A), und für jedes a ∈ U (A) ist das multiplikative Inverse von a eindeutig bestimmt und wieder eine Einheit von A.
(b) Das Paar (U (A), ·) ist eine Gruppe.
(c) Für jedes a ∈ U (A) sind die Linksmultiplikation
la : A → A; x 7→ ax
39
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
und die Rechtsmultiplikation
ra : A → A; x 7→ xa
bijektiv.
Beweis: (a,b) Wegen 1 · 1 = 1 ist 1 ∈ U (A). Sind a, b ∈ U (A), so existieren a0 , b0 ∈ A
mit aa0 = a0 a = 1 und bb0 = b0 b = 1, und damit sind auch
(ab) · (b0 a0 ) = a · 1 · a0 = aa0 = 1 und (b0 a0 ) · (ab) = b0 · 1 · b = b0 b = 1,
d.h. es ist ab ∈ U (A). Ist a ∈ U (A), so gibt es b ∈ A mit ab = ba = 1 und dann ist
auch b ∈ U (A) mit ab = 1, d.h. b ist ein Inverses von a in U (A). Somit ist U (A) eine
Gruppe und mit §2.Lemma 4 folgt auch die Eindeutigkeit multiplikativer Inverser.
(c) Sei a ∈ U (A) eine Einheit. Dann existiert ein b ∈ A mit ab = ba = 1. Sind x, y ∈ A
mit la (x) = la (y), also ax = ay, so folgt auch x = 1 · x = (ba)x = b(ax)b(ay) = (ba)y =
1 · y, d.h. la ist injektiv. Ist y ∈ A, so haben wir by ∈ A mit la (by) = a(by) = (ab)y =
1 · y = y, d.h. la ist auch surjektiv. Insgesamt ist la bijektiv, und analog folgt das auch
ra bijektiv ist.
Vorlesung 6, Donnerstag 3.5.2012
In der letzten Sitzung hatten wir die sogenannten Ringe eingeführt, dies waren Mengen A versehen mit einer Addition + und einer Multiplikation ·, die weitgehend die
üblichen Rechenregeln“ erfüllten. Nur bei der Multiplikation hatten wir weder die
”
Existenz eines neutralen Elements der Multiplikation noch die Existenz multiplikativer Inverser gefordert. Hauptsächlich sind wir aber an Ringen mit Eins interessiert, in
denen es also doch ein multiplikativ neutrales Element 1 gibt. Wir hatten bewiesen,
das in diesem Fall die Einheiten des Rings A eine Gruppe U (A) bilden, die sogenannte Einheitengruppe von A. Dabei ist Einheit“ nur ein Synonym für invertierbares
”
”
Element“. Wir wollen und zwei kleine Beispiele anschauen.
1. Sei A = Z12 . Wir hatten bereits gesehen, dass die Einheiten von Z12 gerade
die zu 12 teilerfremden Restklassen sind, also U (Z12 ) = {[1], [5], [7], [11]}. Als
Multiplikationstabelle der Einheitengruppe U (Z12 ) ergibt sich
[1] [5] [7] [11]
[1] [1] [5] [7] [11]
[5] [5] [1] [11] [7]
[7] [7] [11] [1] [5]
[11] [11] [7] [5] [1]
40
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
2. Nun betrachten wir den Ring A = Z. Eine ganze Zahl a ∈ Z ist eine Einheit von
Z wenn es eine ganze Zahl b ∈ Z mit ab = 1 gibt, wenn also a 6= 0 und 1/a ∈ Z
sind. Dies bedeutet a = ±1, also ist die Einheitengruppe U (Z) = {−1, 1}.
Wir geben jetzt noch zwei Sätze an, die unsere bisherigen Ergebnisse für den Spezialfall
des Restklassenrings Zm auswerten.
Satz 3.5: Seien a ∈ Z und m ∈ N∗ mit ggt(a, m) = 1. Dann liefert a · i für 0 ≤ i < m
paarweise verschiedene Reste modulo m. Weiter existiert genau ein x ∈ Z mit 0 < x <
m so, dass [x] das multiplikative Inverse von [a] in Zm ist. Hierfür gilt ggt(x, m) = 1.
Beweis: Klar nach Lemma 3 und Lemma 4.
Ist m eine Primzahl, so ist jedes a ∈ Z mit 0 < a < m zu m teilerfremd, hat also nach
Lemma 3 eine in Zm invertierbare Restklasse [a]. Diese Tatsache hatten wir übrigens
auch schon bei den Beispielen für Gruppen in §2 eingesehen.
Satz 3.6: Ist p eine Primzahl, so gibt es im Ring Zp für jedes a ∈ Zp mit a 6= 0 ein
eindeutiges multiplikatives Inverses a−1 ∈ Zp .
3.2
Grundprinzip der RSA-Public-Key Verschlüsselung
Die Aufgabe der Krypthographie ist es eine Nachricht in solch einer Weise zu verschlüsseln, dass der vorgesehene Empfänger diese Verschlüsselung leicht rückgängig machen kann, während diese Entschlüsselung für Außenstehende nur unter einem praktisch
nicht durchführbaren Aufwand möglich ist. Von einem sehr abstrakten Standpunkt aus,
ist solch eine Verschlüsselung eine bijektive Funktion
C:A→B
von einer Menge A von Klartexten“ auf eine Menge B von Verschlüsselungen“. Die
”
”
Menge A beschreibt in der praktischen Durchführung oft nur einzelne Teilpakete der
vollständigen Nachricht, diese wird dann in mehrere Pakete aus A aufgeteilt, die dann
einzeln verschlüsselt werden. Die Entschlüsselung D ist einfach die Umkehrfunktion
D := C −1 : B → A
der Verschlüsselungsfunktion C. Die oben genannten Nebenbedingungen, dass D für
den vorgesehenen Empfänger leicht“ berechenbar ist, für andere aber nur schwer“
”
”
machbar ist, ist in dieser simplen Beschreibung nicht mit erfasst. Diese Fragen muss
man gesondert diskutieren, oft auch auf einer eher heuristischen Ebene.
Eine spezielle Sorte von Verschlüsselungsmethoden sind die sogenannten PublicKey Methoden. Bei diesen ist die Verschlüsselungsfunktion C : A → B, und damit
auch die Mengen A und B, öffentlich bekannt, und wird nicht geheim gehalten. Dies
hat natürlich einige praktische Vorteile, jeder kann verschlüsselte Nachrichten senden
41
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
ohne das zuvor eine geheime Verschlüsselung ausgetauscht werden muss. Ein spezielles
solches Public-Key Verfahren ist das nach R. Rivest, A. Shamir und L. Adleman (1977)
benannte RSA-Verfahren. Hier ist eine natürliche Zahl n vorgegeben, und diese gehört
zu den Parametern des Verschlüsselungsverfahrens ist also öffentlich bekannt. Für die
Mengen A und B verwendet man
A := B := U (Zn ) = {a ∈ Z|0 ≤ a < n, ggt(n, a) = 1}
die Menge der zu n teilerfremden Reste modulo n, also nach Lemma 3 die Einheitengruppe des Rings Zn . Die Verschlüsselungsfunktion ist die Potenzbildung mit einem
festen Exponenten e im Ring Zn . Die Zahl e ∈ N ist öffentlich bekannt, und die Verschlüsselungsfunktion C ist definiert als
C(a) = ae mod n
für a ∈ A. Wie sich diese Potenzen praktisch berechnen lassen, wollen wir hier nicht besprechen, im Netz finden Sie Unmengen fertige Implementierungen hierfür. Die Zahlen
n und e müssen natürlich so gewählt werden, dass C überhaupt eine bijektive Abbildung ist. Beim RSA-Verfahren ist es so, dass die Wahl so getroffen wird das auch die
Entschlüsselungsfunktion D das Potenzieren mit einem festen Exponenten d ∈ N ist,
also
D(b) = bd mod n
für b ∈ B = A. Diese Zahl d darf natürlich nur dem vorgesehenen Empfänger bekannt
sein, kennt man sie so kann man die Entschlüsselung durchführen. Der folgende Satz
beschreibt nun wie n, e und d zu konstruieren sind, so das alles klappt.
Satz 3.7 (RSA Verfahren)
Seien p, q zwei verschiedene Primzahlen. Setze n := pq und m := (p − 1)(q − 1).
Weiter sei e ∈ N teilerfremd zu m, also ggt(e, m) = 1. Dann existiert ein d ∈ N mit
ed ≡ 1 mod m und die Abbildung C : U (Zn ) → U (Zn ); a 7→ ae ist bijektiv mit der
Umkehrfunktion D : U (Zn ) → U (Zn ); a 7→ ad . Dabei gilt
U (Zn ) = Z∗n \{[p], [2p], . . . , [(q − 1)p], [q], [2q], . . . , [(p − 1)q]}.
Beweis: Dass es ein d ∈ N mit ed ≡ 1 mod m gibt, gilt nach Lemma 3. Nach Aufgabe
(14) gibt es genau vier natürliche Zahlen k ∈ N mit k|n = pq, nämlich k = 1, k = p,
k = q und k = pq. Für a ∈ Z folgt, dass a und n genau dann einen gemeinsamen Teiler
k ∈ N mit k > 1 haben, wenn p|a oder q|a gilt, denn die einzigen Kandidaten für k
sind p, q und pq. Die Vielfachen a von p mit 0 < a < n = pq sind genau die Zahlen
p, 2p, . . . , (q − 1)p und die Vielfachen a von q mit 0 < a < n = pq sind genau die Zahlen
q, 2q, . . . , (p − 1)q. Die anderen Zahlen zwischen 1 und n − 1 sind also gerade die zu n
teilerfremden Rest modulo n, also nach Lemma 3 die Einheiten von Zn . Dies ergibt die
Aussage über die Einheitengruppe U (Zn ). Da jedes gemeinsame Vielfache von p und q
42
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
auch ein Vielfaches von n = pq ist, kommt unter den Zahlen 1, . . . , n − 1 kein solches
gemeinsames Vielfaches vor, d.h. es ist
|U (Zn )| = n − 1 − (q − 1) − (p − 1) = n − p − q + 1 = pq − p − q + 1 = (p − 1)(q − 1) = m.
Da die Einheitengruppe U (Zn ) nach Lemma 4.(b) eine Gruppe ist, ergibt der kleine
Satz von Fermat §2.Satz 9 jetzt
[a]m = [1], d.h. am ≡ 1 mod n
für alle a ∈ Z mit ggt(a, n) = 1. Verwenden wir jetzt die Potenzrechenregeln aus §2.3,
so ergibt sich für jedes a ∈ Z mit ggt(a, n) = 1 die Gleichung
D(C(a)) = (ae )d = aed = (ad )e = C(D(a)),
um zu beweisen das D die Umkehrfunktion von C ist, müssen wir also einsehen das
aed ≡ a mod n für jedes solche a gilt. Wegen ed ≡ 1 mod m ist m|ed − 1, d.h. es gibt
eine ganze Zahl k ∈ Z mit ed = 1 + km und wegen e, d, m ∈ N ist auch k ∈ N. Für
a ∈ Z mit ggt(a, n) = 1 haben wir damit
aed = a1+km = a · akm = a · (am )k ≡ a · 1k = a mod n
da wir oben bereits am ≡ 1 mod n eingesehen hatten.
Die Primzahlen p und q lassen sich frei wählen. Dann sind die Zahlen n = pq und
m = (p − 1)(q − 1) festgelegt und für e hat man wieder die freie Wahl. Die Bedingung
ggt(e, m) = 1 konnten wir dabei über den euklidischen Algorithmus leicht nachprüfen.
Ist e gewählt, so ist d das multiplikative Inverse modulo m, das wir erneut leicht über
den euklidischen Algorithmus berechnen können.
Als ein Beispiel betrachten wir einmal p = 3 und q = 7. Dann ist n = 21 und
m = 2 · 6 = 12, es gibt also 12 zu n = 21 teilerfremde Reste modulo 21. In diesem
kleinen Beispiel können wir diese auch leicht auflisten
A = {1, 2, 4, 5, 8, 10, 11, 13, 16, 17, 19, 20}.
Als zu m = 12 teilerfremde Zahl wählen wir etwa e = 5. Zur Bestimmung von d rechnen
wir
12 = 2 · 5 + 2, 2 = 12 − 2 · 5,
5 = 2 · 2 + 1, 1 = 5 − 2 · 2 = 5 − 2 · (12 − 2 · 5) = 5 · 5 − 2 · 12,
es ist also d = e = 5. In diesem (kleinen) Beispiel ist also C = D. Die Verschlüsselung,
und damit auch die Entschlüsselung, ist gegeben durch die Tabelle
a
C(a) = D(a)
1 2 4 5 8 10 11 13 16 17 19 20
1 11 16 17 8 19 2 13 4 5 10 20
43
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Der String 8, 19, 11 codiert sich beispielsweise als 8, 10, 2. Dass C = D ist, ist ein reiner
Zufall. Normalerweise ist n recht gross, und so etwas passiert nicht.
Bei realer Anwendung werden die Primzahlen p und q, und damit auch n recht groß
gewählt. Nach Wahl von e erfolgt die Berechnung von d über den euklidischen Algorithmus, und dies ist auch für großes m ohne viel Aufwand machbar. Was müsste ein
Angreifer nun tun um nicht für ihn bestimmte Mitteilungen zu entschlüsseln. Die Zahlen n und e sind wie gesagt allgemein bekannt. Um die Entschlüsselung durchzuführen
benötigt man die Zahl d, und um diese zu kriegen muss man m kennen. Es ist
m = (p − 1)(q − 1) = pq − p − q + 1 = n − (p + q) + 1
und da n bekannt ist, ist die Bestimmung von m also dasselbe wie die Berechnung der
Summe p + q. Der Angreifer kann also versuchen n in Primfaktoren zu zerlegen. Es
gibt kein bekanntes Verfahren um die Primzerlegung einer großen Zahl n in vertretbarer
Zeit zu berechnen. Man geht daher davon aus, dass p und q sicher sind obwohl n = pq
bekannt ist. Es wäre noch denkbar, dass man vielleicht p + q berechnen kann ohne p
und q kennen zu müssen. Das ist aber nicht der Fall, kennen wir nämlich r := p + q und
n = pq, so ist ja q = r − p, also n = pq = p(r − p) = pr − p2 und somit p2 − rp + n = 0.
Dies ist eine quadratische Gleichung für p, die man als
r
r
r2
p= ±
−n
2
4
lösen kann. Kennen wir also die Summe r = p + q, so kommen wir auch leicht an p
und q heran, die Bestimmung von m ist also genauso schwer“ wie die Berechnung der
”
Primzerlegung von n, und wie gesagt geht man davon aus das diese nicht praktikabel
durchgeführt werden kann.
3.3
Polynomringe
Vorlesung 7, Dienstag 8.5.2012
Zum Abschluß des Kapitels über allgemeine Ringe wollen wir jetzt noch eine spezielle
Sorte von Ringen einführen, die sogenannten Polynomringe. In voller Allgemeinheit
ist der Polynombegriff ein klein wenig diffizil, und wir starten daher mit dem etwas
einfachereren Begriff einer Polynomfunktion.
Definition 3.8: Sei A ein kommutativer Ring. Eine Funktion p : A → A heißt Polynomfunktion wenn es ein n ∈ N und Ringelemente a0 , . . . , an ∈ A mit
p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 =
n
X
i=0
44
ai xi
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
für alle x ∈ A gibt.
Beachte das die Zahl n ∈ N hier nicht eindeutig durch die Funktion p festgelegt ist,
da wir künstlich Terme 0 · xi hinzufügen können, zum Beispiel ist die obige Funktion
ja auch gleich
p(x) = 0 · xn+1 + an xn + an−1 xn−1 + · · · + a1 x + a0
für alle x ∈ A. Es ist bei einer Polynomfunktion durchaus erlaubt das einige der
Potenzen von x nicht auftauchen. Zum Beispiel ist
p(x) = x6 + 3x2 − x + 1
eine Polynomfunktion über A = R, da wir diese Funktion auch künstlich als
p(x) = 1 · x6 + 0 · x5 + 0 · x4 + 0 · x3 + 3 · x2 + (−1) · x + 1
schreiben können.
Im Spezialfall A = R der reellen Zahlen haben Polynomfunktionen die bekannte
Gestalt, einige typische Polynomfunktionen sind beispielsweise
4
3
y
2
2
1
2.5
1.5
2
–3
1.5
1
–2
0
–1
1
2
3
x
1
–1
0.5
0.5
–2
0
–1
1
2
–3
–2
0
–1
1
2
–0.5
x
n=0
–2
3
x
n=1
n=2
4
4
3
y
3
2
3
y
2
1
2
1
y
1
–3
–2
–1
0
1
2
3
–3
–2
–1
0
1
x
–3
–2
–1
–1
–1
–2
–2
–2
–3
–3
–3
–4
–4
1
2
3
2
3
x
–1
0
x
n=3
n=4
n=5
Wir wollen uns jetzt überlegen, dass Summen und Produkte von Polynomfunktionen
wieder Polynomfunktionen sind.
45
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Lemma 3.9: Seien A ein kommutativer Ring und p, q : A → A zwei Polynomfunktionen. Dann sind auch die Funktionen
p + q : A → A; x 7→ p(x) + q(x) und p · q : A → A; x 7→ p(x) · q(x)
Polynomfunktionen.
Beweis: Wähle n, m ∈ N und a0 , . . . , an ∈ A sowie b0 , . . . , bm ∈ A mit
p(x) =
n
X
i
ai x und q(x) =
m
X
i=0
bi x i
i=0
für alle x ∈ A. Wir zeigen zunächst, dass auch p + q eine Polynomfunktion ist. Hierzu
können wir durch eventuelles Auffüllen mit führenden Nullen annehmen, dass n = m
ist. Für jedes x ∈ A haben wir dann
(p + q)(x) = p(x) + q(x) =
n
X
ai xi +
n
X
bi x i =
i=0
i=0
n
X
(ai + bi )xi ,
i=0
und somit ist p + q eine Polynomfunktion. Nun kommen wir zum Produkt p · q, und
hier ist es nicht mehr nötig n = m anzunehmen. Für jedes x ∈ A gilt
!
!
!
n
m
n
m
X
X
X
X
X
i
j
i
j
ai bj xi+j
ai x ·
bj x =
(p · q)(x) = p(x)q(x) =
ai x ·
bj x =
i=0
i=0
j=0
j=0
0≤i≤n
0≤j≤m
wobei wir die Kommutativität von A und die Potenzrechenregeln verwendet haben um
ai xi · bj xj = ai bj xi xj = ai bj xi+j
zu rechnen. In dieser Doppelsumme fassen wir jetzt alle Summanden mit gleichen
k = i + j zusammen und klammern xk = xi+j aus. Wenn i von 0 bis n und j von 0 bis
m läuft, so nimmt k = i + j als Werte alle Zahlen von k = 0 bis k = n + m an. Damit
wird unsere obige Formel für jedes x ∈ A zu
"
#
" k
#
n+m
n+m
X X
X X
(p · q)(x) =
ai bj · xk =
ai bk−i · xk ,
k=0
k=0
i+j=k
i=0
und somit ist auch p · q eine Polynomfunktion. Die innere Summe ist dabei streng
genommen eigentlich als
k
X
i=0
min{n,k}
X
ai bk−i =
i=max{k−m,0}
46
ai bk−i
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
gemeint da ai ja nur für i ≤ n und bk−i nur für k − i ≤ m definiert ist. Wir verwenden
im folgenden immer die Konvention das Koeffizienten mit eigentlich nicht definierten
Indizes als Null zu interpretieren sind.
Mit dem Lemma kann man sich jetzt auch leicht überlegen, dass die Polynomfunktionen selber einen kommutativen Ring bilden, aber dies werden wir hier nicht benötigen.
Beachte das wir bisher konsequent von Polynomfunktionen und nicht von Polynomen
sprechen, und tatsächlich gibt es zwischen diesen beiden Begriffen für allgemeine kommutative Ringe A auch einen kleinen Unterschied. Wir wir im nächsten Kapitel sehen
werden, stimmen Polynome und Polynomfunktionen für gute“ Ringe dann doch übe”
rein, aber eben nicht für jedes A. Um das Problem zu sehen, betrachten wir einmal
den Restklassenring A = Z3 und auf diesem die durch p(x) = x3 gegebene Polynomfunktion. Die drei Elemente von Z3 sind die Restklassen von x = 0, x = 1 und x = 2,
und deren dritte Potenzen ergeben sich als
03 = 0, 13 = 1 und 23 = 8 ≡ 2 mod 3,
d.h. es ist x3 = x für jedes x ∈ Z3 . Die beiden Polynomfunktionen p(x) = x3 und q(x) =
x sind im Ring A = Z3 also genau dasselbe. Die Zahlen a0 , a1 , . . . zur Beschreibung
einer Polynomfunktion haben beim Ring A = Z3 somit etwas willkürliches. Das will
man für Polynome nicht haben, als Polynom soll auch beim Ring A = Z3 das Polynom
x3 etwas anderes als das Polynom x sein, obwohl beide bei Einsetzen der Elemente von
A dieselben Werte liefern. Das hat zur Folge, dass man Polynome nicht als Funktionen
definieren kann.
Anstelle dessen definieren wir ein Polynom p über A als einen formalen Ausdruck“
”
n
n−1
p = an x + an−1 x
+ · · · + aa x + a0
mit n ∈ N, a0 , . . . , an ∈ A. Das x“ ist hier rein formal
R bund steht nicht für ein Element
”
von A. Das ist ähnlich wie beim bestimmten Integral a f (x) dx wo das x“ ja ebenfalls
”
keine inhaltliche Bedeutung hat. Wären wir hier etwas konsequenter könnte man auch
einfach p = (an , an−1 , . . . , a0 ) statt p = an xn + an−1 xn−1 + · · · + a0 schreiben, aber dies
gilt aus guten Grund als unnötig verwirrend. Die Ringelemente a0 , . . . , an nennt man die
Koeffizienten des Polynoms p. Ist p 6= 0, so ist mindestens einer der Koeffizienten nicht
Null, und nach Streichen überflüssiger führender Nullen können wir an 6= 0 annehmen.
Man bezeichnet die Zahl n ∈ N dann als den Grad des Polynoms p. Das Polynom
p = 0 erhält dann per Konvention den Grad −∞. Der Grad eines Polynoms p über A
ist damit definiert als
(
n,
0 6= p = an xn + an−1 xn−1 + · · · + a0 mit a0 , . . . , an ∈ A, an 6= 0,
grad p :=
−∞, p = 0.
Die Summe und das Produkt von Polynomen über A definieren wir dann indem wir
einfach die Formel abschreiben, die sich bei der Berechnung von Summe und Produkt
von Polynomfunktionen ergeben hat.
47
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Lemma 3.10 (Der Polynomring über A)
Sei (A, +, ·) ein kommutativer Ring und bezeichne
( n
)
X
A[x] :=
ai xi n ∈ N, a0 , . . . , an ∈ A
i=0
die Menge der Polynome über A. Definieren wir auf A[x] Addition und Multiplikation
durch
n
X
ai xi +
i=0
n
X
i=0
(ai + bi )xi ,
i=0
" i
n+m
X X
!
bi x i
·
n
X
bi xi :=
i=0
m
X
!
ai xi
n
X
:=
i=0
i=0
#
aj bi−j · xi ,
j=0
so wird (A[x], +, ·) ein kommutativer Ring. Besitzt dabei A ein Einselement 1, so besitzt
auch A[x] ein Einselement, nämlich das Polynom p = 1 := 1 · x0 . Für alle Polynome
p, q ∈ A[x] gilt
grad(p + q) ≤ max{grad p, grad q},
grad(p · q) ≤ grad(p) + grad(q).
Beweis: Als erstes müssen wir zeigen, dass (A[x], +) eine kommutative Gruppe ist. Die
Assoziativität der Addition ist dabei einfach, sind p, q, r ∈ A[x], so können wir nach
eventuellen Hinzufügen führender Nullen
p=
n
X
i
ai x , q =
i=0
n
X
i
bi x und r =
i=0
n
X
ci xi
i=0
mit n ∈ N, ai , bi , ci ∈ A für 0 ≤ i ≤ n schreiben. Dann wird
(p + q) + r =
n
X
(ai + bi )xi +
i=0
n
X
i=0
ci xi =
n
X
((ai + bi ) + ci )xi =
i=0
=
n
X
(ai + (bi + ci ))xi
i=0
n
X
ai xi +
i=0
n
X
(bi + ci )xi = p + (q + r),
i=0
und damit ist die Addition assoziativ. Das
p = 0 ist offenbar ein neutrales
PPolynom
n
i
Element der Addition. Ist schließlich p = i=0 ai x ∈ A[x] mit n ∈ N, a0 , . . . , an ∈ A,
so ist
n
n
X
X
−p :=
(−ai )xi mit p + (−p) =
(ai − ai )xi = 0,
i=0
i=0
48
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
d.h. −p ist das additive Inverse zu p. Genau wie das Assoziativgesetz kann man auch
das Kommutativgesetz der Addition p + q = q + p für p, q ∈ A[x] nachweisen, d.h.
(A[x], +) ist eine kommutative Gruppe. Als nächstes untersuche wir die Multiplikation
von Polynomen, und hier ist der Nachweis des Assoziativ– und Kommutativgesetzes
leider etwas Arbeit. Wir geben uns drei Polynome
p=
n
X
i
ai x , q =
m
X
i=0
i
bi x und r =
i=0
s
X
ci xi
i=0
mit n, m, s ∈ A, a0 , . . . , an ∈ A, b0 , . . . , bm ∈ A und c0 , . . . , cs ∈ A vor. Die Formel
p · q = q · p ist klar wenn wir das Produkt in der symmetrischen Form
"
#
n+m
X X
p·q =
ai bj · xk
k=0
i+j=k
schreiben, da ja die Multiplikation in A als kommutativ vorausgesetzt ist. Auch für das
Assoziativgesetz verwenden wir diese symmetrische Form und schreiben
#
!
"
!
n+m
s
X
X X
ai bj · xk ·
cl xl
(p · q) · r =
k=0
i+j=k
=
l=0
n+m+s
X
!
"
t=0
X
X
k+l=t
i+j=k
ai bj
#
t
· cl · x =
n+m+s
X
t=0
#
"
X
ai b j c l · x t .
i+j+l=t
In der anderen Klammerung wird
p · (q · r) = (q · r) · p =
n+m+s
X
t=0
#
"
X
b j c l ai · x t =
n+m+s
X
"
t=0
j+l+i=t
#
X
ai b j c l · x t ,
i+j+l=t
und wir haben das Assoziativgesetz (p · q) · r = p · (q · r) der Multiplikation eingesehen.
Es verbleibt nur noch der Nachweis der Distributivgesetze, und da die Multiplikation
kommutativ ist, reicht es p · (q + r) = p · q + p · r zu rechnen. Wir geben uns also wieder
drei Polynome
n
m
m
X
X
X
i
i
p=
ai x , q =
bi x und r =
ci xi
i=0
i=0
i=0
mit n, m ∈ A, a0 , . . . , an ∈ A, b0 , . . . , bm ∈ A und c0 , . . . , cm ∈ A vor und rechnen
!
! n+m "
#
n
m
X
X X
X
p · (q + r) =
ai xi ·
(bj + cj )xj =
ai (bj + cj ) · xk
i=0
=
"
n+m
X X
k=0
i+j=k
j=0
#
(ai bj + ai cj ) ·xk =
k=0
"
n+m
X X
k=0
#
ai bj ·xk +
i+j=k
49
i+j=k
n+m
X
k=0
"
#
X
i+j=k
ai cj ·xk = p·q+p·r.
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Damit ist (A[x], +, ·) tatsächlich ein kommutativer Ring. Hat A eine 1, so ist p = 1
offenbar eine Eins von A[x]. Wir müssen also nur noch die Aussage über den Grad von
Summe und Produkt zeigen. Seien also wieder
p=
n
X
ai xi , q =
i=0
m
X
bi x i
i=0
mit n, m ∈ A, a0 , . . . , an ∈ A, b0 , . . . , bm ∈ A gegeben. Wir beginnen mit der Aussage
über die Summe, also grad(p+q) ≤ max{grad p, grad q}. Ist p+q = 0, also grad(p+q) =
−∞, so gilt dies trivialerweise. Nun sei p + q 6= 0. Dann ist auch p 6= 0 oder q 6= 0 und
wir können durch eventuelles Auffüllen eines der beiden Polynome mit Nullen auch
n = m mit an 6=P0 oder bn 6= 0 annehmen. Dann ist max{grad p, grad q} = n und
n
i
wegen p + q =
i=0 (ai + bi )x ist auch grad(p + q) ≤ n. Damit ist diese Aussage
bewiesen.
Es bleint nur noch die Produktformel grad(p · q) ≤ grad(p) + grad(q) zu zeigen. Ist
p = 0 oder q = 0, so ist auch p · q = 0. Wegen grad(p) = −∞ oder grad(q) = −∞
ist grad(p) + grad(q) = −∞ = grad(p · q), und wir sind in diesem Fall fertig. Nun
nehme p, q 6= 0 und dann können wir durch eventuelles Streichen führender Nullen
auch anP6= 0 P
und bm 6= 0 annehmen, d.h. n = grad(p) und m = grad(q). Wegen
n+m
p · q = k=0 ( i+j=k ai bj )xk ist grad(p · q) ≤ n + m = grad(p) + grad(q).
Die Formel für den Grad eines Produkt ist ein wenig verwunderlich, für normale“
”
Polynome als reelle Funktionen sind wir hier an ein =“ und nicht an ≤“ gewöhnt.
”
”
Für allgemeine Ringe A muss die Gleichheit tatsächlich nicht gelten. Nehmen wir beispielsweise einmal den Restklassenring A = Z4 und betrachten die beiden Polynome
p = 2x2 + 1 und q = 2x2 + x + 1
grad(p) = grad(q) = 2. Das Produkt wird zu
p · q = (2x2 + 1) · (2x2 + x + 1) = 4x4 + 2x3 + 4x2 + x + 1 = 2x3 + x + 1
da im Ring A = Z4 ja 4 = 0 gilt. Somit ist in diesem Beispiel grad(p · q) = 3 <
grad(p) + grad(q).
Wir können diese Situationen noch etwas näher analysieren und uns fragen wann
der Grad eines Produkts von Polynomen denn gleich der Summe der Einzelgrade ist?
Sind
p = an xn + · · · und q = bm xm + · · ·
mit an , bm 6= 0, also n = grad(p) und m = grad(q), so haben wir
pq = an bm xn+m + · · ·
also grad(pq) = n + m genau dann wenn an bm 6= 0 ist. Haben wir insbesondere einen
Ring in dem das Produkt zweier von Null verschiedener Elemente immer von Null
50
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
verschieden ist, so ist auch der Grad des Produkts zweier Polynome immer die Summe
der Einzelgrade. Dies trifft beispielsweise auf den Ring A = R der reellen Zahlen zu.
Abgesehen von diesem etwas ungewohnten Verhalten des Polynomgrads verläuft das
Rechnen mit Polynomen dann wie üblich. Insbesondere gibt es weiterhin eine Division
von Polynomen mit Rest. Angenommen wir haben zwei Polynome p, q ∈ A[x] über
dem kommutativen Ring A mit Eins. Bei der Division mit Rest suchen wir zwei weitere
Polynome, einen Quotienten f ∈ A[x] und einen Rest r ∈ A[x] mit
p = f · q + r, grad(r) < grad(q).
An den Divisor q müssen wir eine kleine Bedingung stellen damit dies definiert ist, der
höchste Koeffizient von q muss in A invertierbar sein. Insbesondere darf also q nicht
Null sein. Die Berechnung von f und r erfolgt dann wie aus der Schule gewohnt. Als
ein Beispiel wollen wir einmal
x3 + x2 + 2x + 5 : 3x2 + 1 über A = Z14 rechnen.
Da 3 und 14 teilerfremd ist der höchste Koeffizient 3 von 3x2 + 1 in Z14 invertierbar,
das inverse Element ist wegen 3 · 5 = 15 ≡ 1 mod 14 gleich inv(3) = 5. Nun führen
wir die schriftliche Division durch, wobei die Divsion durch 3 als Multiplikation mit
inv(3) = 5 ausgeführt wird:
x3 + x2 + 2x + 5 : 3x2 + 1 = 5x + 5
−(x3
+ 5x)
2
x + 11x + 5
− (x2
+ 5)
11x
wir haben also den Quotienten f (x) = 5x + 5 und den Rest r(x) = 11x. In der Tat ist
(5x + 5) · (3x2 + 1) + 11x = x3 + x2 + 2x + 5.
Wie bei ganzen Zahlen können wir dann auch einen Teilbarkeitsbegriff für Polynome
einführen, und haben sogar ein Analogon zu den Primzahlen. Man nennt ein Polynom
f ∈ A[x] irreduzibel, wenn man f nicht als ein Produkt f = p · q zweier Polynome
p, q ∈ A[x] von echt kleineren Grad grad(p), grad(q) < grad(f ) schreiben kann.
$Id: korper.tex,v 1.21 2012/05/22 18:33:21 hk Exp $
§4
Körper
Nach Gruppen und Ringen kommen wir jetzt zur letzten der algebraischen Grundstrukturen, den sogenannten Körpern. Ein Körper ist ein kommutativer Ring mit Eins
51
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
in dem jedes von Null verschiedene Element invertierbar ist. Für die exakte Definition
eines Körpers gibt es verschiedene, aber äquivalente Möglichkeiten, von denen wir die
folgende wählen.
Definition 4.1: Ein kommutativer Ring (K, +, ·) heißt Körper, wenn (K ∗ , ·) eine Gruppe ist.
Wir wollen die Definition eines Körpers jetzt noch etwas expliziter umformulieren. Ein
kommutativer Ring (A, +, ·) hat assoziative Multiplikation, d.h. (A, ·) ist eine Halbgruppe. Wann ist nun (A, +, ·) ein Körper? Definitionsgemäß muss (A∗ , ·) eine Gruppe
sein. Zum einen muss die Multiplikation also überhaupt eine binäre Verknüpfung auf
A∗ sein, d.h. für alle a, b ∈ A\{0} muss auch ab ∈ A\{0} sein. Als Kontraposition
formuliert besagt dies
∀(a, b ∈ A) : a · b = 0 =⇒ a = 0 ∨ b = 0.
Weiter muss (A∗ , ·) ein neutrales Element besitzen, es muss also ein Element 1 ∈ A∗ mit
1 · a = a für alle a ∈ A∗ geben. Da wir bereits in §3 gesehen haben, dass a · 0 = 0 · a = 0
für alle a ∈ A gilt, ist dann auch 1 · 0 = 0, d.h. es gilt 1 · a = a für überhaupt alle a ∈ A.
Dass (A∗ , ·) ein neutrales Element der Multiplikation besitzt, besagt also genau das der
Ring A eine Eins mit 1 6= 0 besitzt. Schließlich bedeutet die Existenz multiplikativer
Inverser in A∗ das jedes von Null verschiedene Element von A invertierbar ist, dass
also U (A) = A∗ gilt, wobei U (A) wieder die Einheitengruppe von A bezeichnet.
Lemma 4.2 (Kennzeichung von Körpern)
Das Tripel (K, +·) ist genau dann ein Körper wenn die folgenden drei Bedingungen
gelten:
(K1) (K, +, ·) ist ein kommutativer Ring.
(K2) Es gibt ein multiplikatives neutrales Element, d.h. es existiert ein 1 ∈ K mit
1 6= 0 und 1 · x = x für alle x ∈ K.
(K3) Für alle x ∈ K ∗ existiert ein multiplikatives Inverses.
Beweis: Dies folgt fast vollständig aus unseren einleitenden Überlegungen. Wir müssen
nur noch zeigen, dass aus den drei Bedingungen (K1), (K2) und (K3) auch x · y 6= 0 für
alle x, y ∈ K mit x, y 6= 0 folgt. Seien also x, y ∈ K\{0} gegeben. Nach (K3) existiert
ein multiplikatives Inverses y 0 ∈ K zu y, also y · y 0 = 1. Wäre jetzt x · y = 0, so hätten
wir auch
x = x · 1 = x · (y · y 0 ) = (x · y) · y 0 = 0 · y 0 = 0,
im Widerspruch zu x 6= 0, also ist x · y 6= 0.
Wir kennen bereits einige Beispiele und Gegenbeispiele von Körpern, etwa
1. Die rationalen Zahlen (Q, +, ·) bilden einen Körper.
52
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
2. Die reellen Zahlen (R, +, ·) bilden einen Körper.
3. Ist p eine Primzahl, so bildet der Restklassenring Zp modulo p nach §3.Satz 6
einen Körper.
4. Dagegen bilden die ganzen Zahlen (Z, +, ·) keinen Körper, da etwa 2 kein multiplikatives Inverses besitzt.
5. Auch der Restklassenring Z4 modulo 4 bildet keinen Körper, denn hier ist sogar
[2] [2] = [4] = [0], das Produkt von Null verschiedener Elemente kann also Null
werden.
In der letzten Sitzung haben wir mit der Besprechung der Körperaxiome begonnen.
Unter anderem hatten wir gezeigt, dass in einem Körper das Produkt zweier von Null
verschiedener stets wieder von Null verschieden ist. Da diese Tatsache so oft verwendet
wird, wollen wir sie noch in einem eigenen Lemma festhalten.
Lemma 4.3: In einem Körper (K, +, ·) gilt x · 0 = 0 für alle x ∈ K. Ferner folgt für
x, y ∈ K aus x · y = 0 auch x = 0 oder y = 0.
Beweis: Die erste Aussage gilt nach §3 in jedem Ring und die zweite ist nur die Kontraposition der im Beweis des letzten Lemmas bewiesenen Aussage
∀(x, y ∈ K) : x 6= 0 ∧ y 6= 0 =⇒ x · y 6= 0.
In einem Körper gelten alle die normalen“ Rechenregeln für die Grundrechenarten.
”
Die meisten der hiermit gemeinten Formeln wollen wir jetzt einmal durchgehen. Sei
hierzu (K, +, ·) ein Körper.
1. Für a ∈ K, n ∈ N haben wir die Potenz an ∈ K als n-faches Produkt von a mit
sich selbst. Für a 6= 0 können wir dabei sogar Potenzen an für alle n ∈ Z bilden.
Da (K ∗ , ·) eine Gruppe ist, wissen wir all dies bereits aus unseren Überlegungen
in §2. Streng genommen wird hiervon a = 0 nicht erfasst, aber dies ist ein trivialer
Sonderfall.
2. Für alle x, y ∈ K und alle n ∈ N gilt (xy)n = xn y n . Diese Aussage folgt aus der
Kommutativität der Multiplikation, durch Umsortieren der Faktoren erhalten wir
nämlich
(xy)n = xy · xy · . . . · xy = |x · .{z
. . · x} · y · . . . · y = xn y n .
|
| {z }
{z
}
n mal
n mal
n mal
3. Für jedes x ∈ K gilt −x = (−1) · x. Die Eindeutigkeit des additiven Inversen
gemäß §2.Lemma 4 ergibt das wir nur testen müssen ob x + (−1)x = 0 gilt. In
der Tat liefert das Distributivgesetz
x + (−1) · x = 1 · x + (−1) · x = (1 − 1) · x = 0 · x = 0.
53
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
4. Es ist (−1)2 = 1 denn die vorige Formel ergibt (−1)2 = (−1) · (−1) = −(−1) = 1.
5. Für jedes x ∈ K ist (−x)2 = x2 denn mit den schon eingesehenen Formeln folgt
(−x)2 = ((−1) · x)2 = (−1)2 x2 = 1 · x2 = x2 .
6. In §3 hatten wir die Subtraktion in Ringen als x − y := x + (−y) für x, y ∈ K
eingeführt. Entsprechend können wir für x, y ∈ K mit y 6= 0 auch den Bruch
x
:= x · inv(y)
y
einführen. Dann ist insbesondere
1
x
1
= 1 · inv(y) = inv(y) =⇒ = x · .
y
y
y
Wir werden uns klarmachen das für diese Brüche die normalen Bruchrechenregeln
gelten.
7. Brüche können erweitert werden, d.h. für alle x, y, z ∈ K mit y, z 6= 0 gilt
xz
x
= xz · inv(yz) = xz · inv(z) · inv(y) = x · 1 · inv(y) = x · inv(y) = .
yz
y
8. Bei der Multiplikation von Brüchen werden Zähler und Nenner jeweils einzeln
miteinander multipliziert, d.h. für alle x, y, u, v ∈ K mit u, v 6= 0 gilt
x y
xy
· = x · inv(u) · y · inv(v) = xy · inv(v) · inv(u) = xy · inv(uv) =
.
u v
uv
9. Kehrwerte von Brüchen entstehen durch Vertauschen von Zähler und Nenner,
d.h. für alle x, y ∈ K\{0} ist
x
1
y
= inv
= inv(x · inv(y)) = inv(inv(y)) · inv(x) = y · inv(x) = .
x
y
x
y
10. Brüche werden auch wie üblich durcheinander geteilt, d.h. für alle x, y, u, v ∈ K
mit y, u, v 6= 0 gilt
x
x 1
x v
xv
u
· y = · =
.
y =
u v
u y
uy
v
11. Als letztes gilt auch die normale Formel für die Addition von Brüchen, also alles
auf Hauptnenner bringen und dann die Zähler addieren. Für x, yu, v ∈ K mit
u, v 6= 0 ist nämlich
x y
xv uy
xv + uy
+ =
+
= xv · inv(uv) + uy · inv(uv) = (xv + uy) · inv(uv) =
.
u v
uv uv
uv
54
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
In Körpern kann man also mit den Grundrechenarten normal rechnen. Dieses normale
”
Rechnen“ bezieht sich aber nur auf Gleichungen, nicht auf Verschiedenheitsaussagen.
Zum Beispiel kann in einem Körper sehr wohl 1 + 1 = 0 gelten. Wir kennen auch schon
ein Beispiel hierfür, wie eingangs bemerkt ist der Restklassenring Z2 ein Körper und
wegen 1 + 1 = 2 ≡ 0 mod 2 gilt in diesem die Gleichung 1 + 1 = 0. Entsprechend
ergeben sich mit anderen Restklassenringen weitere Beispiele für Körper mit unerwarteten Eigenschaften. Nicht jeder Restklassenring ist ein Körper, und wir wollen jetzt
bestimmen welche genau die Körper unter den Restklassenringen sind.
Satz 4.4: Sei n ∈ N∗ . Dann ist der Restklassenring (Zn , ⊕, ) genau dann ein Körper
wenn n eine Primzahl ist.
Beweis: ”⇐=” Dies wissen wir bereits nach §3.Satz 6. ”=⇒” Wir zeigen die Kontraposition, d.h. ist n keine Primzahl so ist Zn kein Körper. Sei also n keine Primzahl.
Wir unterscheiden zwei Fälle.
Fall 1. Sei n = 1. Dann ist Zn = {[0]}, also gilt 1 = 0 in Zn und Zn ist kein Körper.
Fall 2. Nun sei n > 1. Da n keine Primzahl ist, können wir dann n = xy mit ganzen
Zahlen x, y ∈ Z mit 1 < x, y < n schreiben. Damit ist aber [x], [y] 6= 0 in Zn aber
[x] [y] = [xy] = [n] = 0 in Zn und nach Lemma 3 ist Zn kein Körper.
Vorlesung 8, Donnerstag 10.5.2012
In der letzten Sitzung hatten wir den Körperbegriff eingeführt und einige seiner
elementaren Eigenschaften vorgeführt. Insbesondere hatten wir festgehalten, dass die
Restklassen modulo p für jede Primzahl p einen Körper Zp bilden. Als eine kleine
Anwendung dieser endlichen Körper wollen wir den kleinen Satz von Fermat in seiner
zahlentheoretischen Form beweisen. Vielleicht erinnern Sie sich daran, dass wir dies
schon einmal getan haben, nämlich im Anschluß an den kleinen Satz von Fermat für
Gruppen §2.Satz 9, aber wir wollen das Argument noch einmal in Körpersprache“
”
wiederholen.
Satz 4.5 (Kleiner Satz von Fermat)
Seien p ∈ N eine Primzahl und a ∈ Z eine ganze Zahl mit p - a. Dann gilt
ap−1 ≡ 1 mod p.
Beweis: Nach Satz 4 ist der Restklassenring Zp ein Körper und wir betrachten seine
multiplikative Gruppe Z∗p . Diese hat |Z∗p | = |Zp | − 1 = p − 1 viele Elemente und nach
55
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
dem gruppentheoretischen kleinen Satz von Fermat gilt xp−1 = 1 für alle x ∈ Zp . Wegen
p - a ist die Restklasse [a] ∈ Z∗p , und somit
[ap−1 ] = [a]p−1 = [1]
in Zp , und dies bedeutet ap−1 ≡ 1 mod p.
Multiplizieren wir noch einmal mit a, so nimmt der Satz die Form
ap ≡ a mod p
an, und in dieser Form gilt er sogar für alle a ∈ Z.
Welche Körper sind nun für praktische Zwecke relevant? Zum einen sind dies die
Körper der reellen und komplexen Zahlen ohne die gar nichts geht. Auch der Körper Z2
mit zwei Elementen ist für einige Anwendungen wichtig. Um dies ein wenig zu sehen,
betrachten wir einmal Bitsequenzen einer festen Länge n, also etwa 10010 für n = 5.
Nennen wir die beiden Elemente von Z2 Null und Eins, so können wir diese Bitsequenzen mit n-dimensionalen Vektoren identifizieren, beispielsweise entspricht 10010 dem
Vektor (1, 0, 0, 1, 0). Ein n-dimensionaler Vektor über einem Körper ist dabei einfach
eine Liste von n Körperelementen. Das Wort n-dimensional“ wird hier wie immer
”
in der Mathematik in einem völlig prosaischen Sinne verwendet, hier als Listen von n
Zahlen, ohne irgendwelche implizierten Konotationen. Erinnern wir uns daran das man
in einem Körper normal rechnen kann, so kann man auch die gewohnte Vektorrechnung
durchführen. Dies erlaubt es den Bitsequenzen eine geometrische Bedeutung zu geben,
was sich als nützlich herausstellt. Andere Körper haben außerhalb der Mathematik
keine grosse Bedeutung.
Kommen wir jetzt wieder zur Mathematik zurück. Wir hatten Polynome über allgemeinen Ringen definiert, und festgestellt das es in dieser Allgemeinheit einen Unterschied zwischen Polynomen und Polynomfunktionen gibt. Wir wollen jetzt einsehen,
dass dies bei unendlichen Körpern kein Problem mehr ist. Wir erinnern uns dazu daran, dass wir am Ende von §3.3 eingesehen hatten das über einem Ring die normale
Polynomdivision durchführbar ist, solange nur der höchste Koeffizient des Divisors im
betrachteten Ring invertierbar ist. Da bei einem Körper jedes von Null verschiedene
Element invertierbar ist, ist die Polynomdivision über Körpern immer durchführbar,
d.h. sind a, d ∈ K[x] zwei Polynome über einem Körper K mit d 6= 0, so gibt es
einen eindeutig bestimmten Quotienten q ∈ K[x] und einen eindeutig bestimmten
Rest r ∈ K[x] mit grad(r) < grad(d) und a = q · d + r. Mit diesem Hilfsmittel können
wir das folgende Lemma beweisen.
Lemma 4.6 (Herausziehen von Nullstellen)
Seien K ein Körper und p ∈ K[x] ein Polynom mit grad(p) ≥ 1. Weiter sei a ∈
K eine Nullstelle von p, d.h. p(a) = 0 wenn wir a in die zum Polynom gehörige
Polynomfunktion einsetzen. Dann existiert genau ein Polynom q ∈ K[x] mit p = q ·
(x − a). Dabei gilt grad(q) = grad(p) − 1.
56
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
Beweis: Wie gerade festgehalten existieren eindeutig bestimmte Polynome q, r ∈ K[x]
mit
p = q · (x − a) + r und grad(r) < grad(x − a) = 1.
Damit ist grad(r) = 0 oder grad(r) = −∞, d.h. r ∈ K ist ein konstantes Polynom.
Einsetzen von x = a in die zugehörigen Polynomfunktionen ergibt
0 = p(a) = q(a) · (a − a) + r = r,
und somit gilt p = q · (x − a). Insbesondere ist nach der Gradformel für Polynome auch
grad(p) = grad(q) + grad(x − a) = grad(q) + 1, also grad(q) = grad(p) − 1.
Damit können wir nun zeigen, dass ein Polynom über einem Körper höchstens so viele
Nullstellen haben kann wie sein Grad ist.
Satz 4.7 (Nullstellen von Polynomen über Körpern)
Seien K ein Körper ein p ∈ K[x] ein Polynom mit n := grad(p) ≥ 1. Dann hat p
höchstens n verschiedene Nullstellen in K.
Beweis: Wir beweisen dies durch Induktion nach n. Im Fall n = 1 ist grad(p) = 1
also p = ax + b mit a, b ∈ K, a 6= 0. Damit hat p genau eine Nullstelle in K, nämlich
x = −b/a. Für n = 1 gilt die Aussage folglich.
Jetzt sei n ≥ 2 und jedes Polynom p ∈ K[x] mit grad(p) = n − 1 habe höchstens
n − 1 verschiedene Nullstellen in K. Sei p ∈ K[x] mit grad(p) = n ein Polynom von
Grad n. Wir unterscheiden zwei verschiedene Fälle.
Fall 1. Hat p überhaupt keine Nullstelle in K, so sind wir sofort fertig.
Fall 2. Nun gebe es eine Nullstelle, also ein a ∈ K mit p(a) = 0. Nach Lemma 6 existiert
dann ein Polynom q ∈ K[x] mit p = q · (x − a) und grad(q) = grad(p) − 1 = n − 1.
Nach unserer Induktionsannahme hat das Polynom q höchstens n − 1 Nullstellen in K.
Nach Lemma 3 gibt aber für jedes x ∈ K
p(x) = 0 ⇐⇒ q(x) · (x − a) = 0 ⇐⇒ x = a oder q(x) = 0,
d.h. p hat höchstens eine Nullstelle mehr als q, und somit insgesamt höchstens (n −
1) + 1 = n viele Nullstellen.
Per Induktion ist damit alles bewiesen.
Ist jetzt K ein unendlicher Körper, so sind zwei Polynome p, q ∈ K[x] genau dann
gleich, wenn ihre zugehörigen Polynomfunktionen gleich sind, wenn also p(x) = q(x)
für jedes x ∈ K gilt. Die Implikation von links nach rechts ist dabei trivial. Seien also
p, q ∈ K[x] mit p(x) = q(x) für alle x ∈ K gegeben. Dann ist jedes Element von K
eine Nullstelle der Differenz h := p − q, und da K als unendlich angenommen wird
hat h somit unendlich viele Nullstellen. Nach dem eben bewiesenen Satz ist damit
grad(h) ≤ 0, d.h. h ist konstant. Da h Nullstellen hat muss die Konstante Null sein,
also h = 0 und somit p = q. Über unendlichen Körpern, also insbesondere über den
reellen Zahlen, können wir Polynome also wirklich als Funktionen behandeln.
57
Mathematik für Informatiker B, SS 2012
4.1
Donnerstag 10.5.2012
Angeordnete Körper
Im letzten Abschnitt hatten wir Körper als spezielle Ringe definiert, in denen man
weitgehend normal rechnen kann. Dieses normale Rechnen“ bezog sich dabei nur auf
”
Gleichungen, nicht aber auf Verschiedenheitsaussagen, zum Beispiel konnte in einem
Körper sehr wohl die merkwürdige Identität 1 + 1 = 0 gelten. Wir werden jetzt eine
spezielle Sorte von Körpern einführen in denen so etwas 1 + 1 = 0 nicht passieren kann.
Diese Körper werden den reellen Zahlen sehr viel ähnlicher sein, als es zum Beispiel
die Restklassenkörper Zp für Primzahlen p sind.
In den reellen Zahlen haben wir nicht nur die arithmetischen Grundrechenarten
+, −, ·, / sondern auch eine Anordnung ≤ die mit den arithmetischen Operationen
zusammenpasst. Den Begriff einer Anordnung kennen Sie dabei aus Teil A, eine Anordnung einer Menge X ist eine Relation ≤ auf X, die die folgenden drei Eigenschaften
besitzt
1. Reflexivität, d.h. für alle x ∈ X ist x ≤ x.
2. Antisymmetrie, d.h. für alle x, y ∈ X mit x ≤ y und y ≤ x ist x = y.
3. Transitivität, d.h. für alle x, y, z ∈ X mit x ≤ y und y ≤ z ist auch x ≤ z.
4. Totalität, d.h. für alle x, y ∈ X gilt stets x ≤ y oder y ≤ x.
Oftmals verwendet man für den Begriff einer Anordnung auch nur die ersten drei
Bedingungen, und nennt dann eine Anordnung die auch die vierte Eigenschaft hat total
oder linear. Für unsere Zwecke ist es etwas praktischer die echt kleiner“ Beziehung,
”
definiert durch
x < y :⇐⇒ x ≤ y und x 6= y
für alle x, y ∈ X, zu verwenden. Wegen
x ≤ y ⇐⇒ x < y oder x = y
ist es egal welche dieser beiden Relationen verwendet wird. Man kann die definierenden
Eigenschaften einer Anordnung äquivalent auch für echt kleiner“ anstelle von kleiner
”
”
gleich“ formulieren, dies führt auf die folgenden beiden Bedingungen:
1. Es gilt das Trichotomieprinzip, d.h. für alle x, y ∈ X gilt genau eine der drei
Aussagen x < y oder x = y oder y < x.
2. Transitivität, d.h. für alle x, y, z ∈ X mit x < y und y < z gilt auch x < z.
Das Trichotomieprinzip ersetzt dabei die drei Bedingung der Reflexivität, Antisymmetrie und Totalität. Betrachten wir Anordnungen auf einem Körper K, so kann man
das ganze noch etwas weiter vereinfachen. Die Relation x < y sollte dann gleichwertig
zu y − x > 0 sein, es reicht also die Menge der positiven Elemente zu kennen. Diese
Überlegungen führen auf die folgende Definition:
Definition 4.8: Sei K ein Körper. Ein Positivbereich auf K ist eine Teilmenge P ⊆ K ∗
mit den folgenden beiden Eigenschaften:
58
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
(P1) Es sind P + P ⊆ P und P · P ⊆ P , d.h. für alle x, y ∈ P gelten auch x + y ∈ P
und x · y ∈ P .
(P2) Die Mengen P und −P := {−x|x ∈ P } bilden eine Partition von K ∗ , d.h.
K ∗ = P ∪ (−P ) und P ∩ (−P ) = ∅.
Die Elemente aus P heißen positiv und die aus −P negativ. Ein angeordneter Körper
(K, P ) ist ein Körper K mit einem Positivbereich P .
Der Positivbereich P spielt die Rolle der Menge der positiven Elemente von K. Wie
schon angekündigt können wir den Positivbereich verwenden, um eine Anordnung auf
dem Körper K zu definieren.
Definition 4.9: Sei K ein angeordneter Körper mit dem Positivbereich P . Dann lassen
sich auf K die folgenden Ordnungsrelationen definieren:
x<y
x≤y
x>y
x≥y
:⇐⇒
:⇐⇒
:⇐⇒
:⇐⇒
y − x ∈ P,
(x < y) ∨ (x = y) (also x = y ∨ y − x ∈ P ),
y < x (also x − y ∈ P ),
y ≤ x (also x = y ∨ x − y ∈ P ),
jeweils für alle x, y ∈ K.
Nun muss man verifizieren, dass diese Definition klappt, dass es sich bei ≤ beziehungsweise < also wirklich um Anordnungen handelt, und die von den reellen Zahlen
vertrauten Rechenregeln für < weiter wahr sind.
Lemma 4.10 (Grundeigenschaften angeordneter Körper)
In angeordneten Körpern K gilt:
(a) Für alle x, y ∈ K gilt genau eine der folgenden drei Aussagen: x < y, y < x oder
x = y (Trichotomieprinzip).
(b) Die Relation < ist transitiv.
(c) Verträglichkeit mit der Addition, d.h. für alle x1 , x2 , y1 , y2 ∈ K mit x1 < x2 und
y1 ≤ y2 ist auch x1 + y1 < x2 + y2 .
(d) Verträglichkeit mit der Multiplikation, d.h. für alle x, y, z ∈ K gilt
(x < y) ∧ (z > 0) =⇒ xz < yz,
(x < y) ∧ (z < 0) =⇒ xz > yz.
(e) Verträglichkeit mit additiven und multiplikativen Inversen, d.h. für alle x, y ∈ K
gelten:
x > 0 ⇐⇒ −x < 0,
x < y ⇐⇒ −x > −y,
1
1
0 < x < y =⇒ 0 < < .
y
x
59
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
Beweis: Dies ist Aufgabe (22).
Als nächsten Schritt halten wir fest das von Null verschiedene Quadrate in einem
angeordneten Körper immer positiv sind.
Lemma 4.11 (Quadrate in angeordneten Körpern)
In angeordneten Körpern gilt x2 > 0 für alle x ∈ K ∗ . Insbesondere gilt 1 > 0 und
−1 < 0.
Beweis: Ist x > 0, also x ∈ P , so gilt nach dem Anordnungsaxiom (P1) auch x2 ∈ P ,
d.h. x2 > 0. Andernfalls ist nach Anordnungsaxiom (P2) dann x ∈ −P , d.h. −x ∈ P ,
und somit ist auch x2 = (−x)2 ∈ P , also x2 > 0. Insbesondere ist 1 = 12 > 0 und mit
Lemma 10.(e) folgt auch −1 < 0.
In einem angeordneten Körper ist somit x2 6= −1 für alle x ∈ K. Die meisten Körper
besitzen keinen Positivbereich. Zum Beispiel ist im Restklassenkörper Z5 wegen 22 =
4 ≡ −1 mod 5 das Element −1 ein Quadrat, es kann also keinen Positivbereich in
Z5 geben. Tatsächlich werden wir bald sehen, dass kein endlicher Körper angeordnet
werden kann. Wenn es allerdings Positivbereiche gibt, so kann es passieren das gleich
mehrere verschiedene Positivbereiche existieren. Derartige Körper lassen sich dann auf
mehr als eine Weise anordnen. Ein Beispiel für einen solchen Körper wird in Aufgabe
(21) behandelt.
Es gibt also sowohl Körper die überhaupt keine Positivbereiche haben, wie etwa Z5 ,
es gibt Körper die genau einen Positivbereich haben, wie etwa die reellen Zahlen, und es
gibt auch Körper die mehrere Positivbereiche haben, wie das eben diskutierte Beispiel.
Wir wollen uns jetzt allmählich in Richtung des wichtigsten angeordneten Körpers
bewegen, dies sind gerade die reellen Zahlen. Zum Abschluß dieses Abschnitts über
allgemeine angeordnete Körper wollen wir noch zeigen, dass in angeordneten Körpern
niemals so etwas wie 1 + 1 = 0 passieren kann. Wir wollen sogar einsehen das man
in einem angeordneten Körper mit den rationalen Zahlen normal rechnen kann. Da Q
streng genommen nicht einmal eine Teilmenge eines gegebenen angeordneten Körpers
K sein muss, benötigen wir einen Isomorphiebegriff für angeordnete Körper. Dieser
wird analog zu demjenigen für Gruppen in §2 definiert. Ist für i = 1, 2 ein angeordneter
Körper Ki mit Positivbereich Pi gegeben, so ist ein Isomorphismus dieser angeordneten
Körper eine bijektive Abbildung ϕ : K1 → K2 mit den folgenden Eigenschaften:
1. Für alle x, y ∈ K1 ist ϕ(x + y) = ϕ(x) + ϕ(y). In anderen Worten ist ϕ ein
Isomorphismus der additiven Gruppe (K1 , +) mit (K2 , +). Insbesondere muss
nach §2.Lemma 6 damit ϕ(0) = 0 gelten.
2. Für alle x, y ∈ K1 ist ϕ(x · y) = ϕ(x) · ϕ(y). In anderen Worten ist ϕ ein Isomorphismus der multiplikativen Gruppe (K1∗ , ·) mit (K2∗ , ·). Erneut mit §2.Lemma 6
müssen wir also ϕ(1) = 1 haben.
60
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
3. Es gilt ϕ(P1 ) = P2 .
Da Pi für i = 1, 2 die Menge der positiven Elemente von Ki ist, können wir Bedingung
(3) auch in der Form
∀(x ∈ K1 ) : x > 0 ⇐⇒ ϕ(x) > 0
aussprechen. Für alle x, y ∈ K1 folgt damit auch
x < y ⇐⇒ y − x > 0 ⇐⇒ ϕ(y) − ϕ(x) = ϕ(y − x) > 0 ⇐⇒ ϕ(x) < ϕ(y),
d.h. ein Isomorphismus angeordneter Körper ist auch mit den Anordnungen der beiden
Körper verträglich. Jetzt können wir zeigen, dass jeder angeordnete Körper die rationalen Zahlen enthält, beziehungsweise genauer einen zu ihnen isomorphen Unterkörper.
Lemma 4.12: Jeder angeordnete Körper K enthält (bis auf Isomorphie) die rationalen
Zahlen Q.
Beweis: In der kommutativen Gruppe (K, +) haben wir nach §2 Potenzen von Elementen mit ganzen Zahlen. Da die Verknüpfung als +“ geschrieben wird, werden diese
”
Potenzen zu Vielfachen. Insbesondere haben wir für jedes n ∈ Z das Körperelement
n · 1 ∈ K, und hiermit definieren wir eine Abbildung
ϕ : Z → K; n 7→ n · 1.
Die Potenzrechenregeln für Gruppen ergeben dann ϕ(n + m) = (n + m) · 1 = n ·
1 + m · 1 = ϕ(n) + ϕ(m) für alle n, m ∈ Z. Damit ist ϕ : (Z, +) → (K, +) ein
Gruppenhomomorphismus. Weiter behaupten wir das für alle a ∈ K, n ∈ Z auch
(n · 1) · a = n · a ist. Für n ∈ N∗ folgt dies aus dem Distributivgesetz
(n · 1) · a = (1| + ·{z
· · + 1}) · a = a
· · + a} = n · a,
| + ·{z
n mal
n mal
für n = 0 ist trivialerweise (n · 1) · a = 0 · a = 0 = n · a, und für jedes n ∈ N∗ ist weiter
auch
((−n) · 1) · a = (−n · 1) · a = −((n · 1) · a) = −(n · a) = (−n) · a.
Für alle n, m ∈ Z ergibt sich mit den Potenzrechenregeln weiter
ϕ(nm) = (nm) · 1 = n · (m · 1) = (n · 1) · (m · 1) = ϕ(n) · ϕ(m).
Damit ist ϕ auch ein multiplikativer Isomorphismus. Schließlich ist für jedes n ∈ N∗
nach Lemma 11 und Lemma 10.(e) auch
ϕ(n) = |1 + ·{z
· · + 1} > 0 und ϕ(−n) = (−n) · 1 = −(n · 1) < 0,
n mal
also ist n > 0 ⇐⇒ ϕ(n) > 0 für jedes n ∈ Z. Für alle n, m ∈ Z folgt weiter
n < m ⇐⇒ m − n > 0 ⇐⇒ ϕ(m) − ϕ(n) = ϕ(m − n) > 0 ⇐⇒ ϕ(n) < ϕ(m).
61
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Insbesondere ist für n, m ∈ Z mit n 6= m auch ϕ(n) 6= ϕ(m) und ϕ ist injektiv. Damit
enthält K bis auf Isomorphie zumindest Z.
Nun definieren wir
m
ϕ(m)
ϕ : Q → K;
7→
n
ϕ(n)
für m ∈ Z, n ∈ N∗ . Da wir für n ∈ N∗ bereits ϕ(n) > 0 wissen, ist dies überhaupt
sinnvoll. Weiter wird durch obige Vorschrift eine wohldefinierte Abbildung eingeführt,
denn sind m, m0 ∈ Z, n, n0 ∈ N∗ mit m/n = m0 /n0 , so ist mn0 = m0 n, und somit auch
ϕ(m)ϕ(n0 ) = ϕ(mn0 ) = ϕ(m0 n) = ϕ(m0 )ϕ(n) =⇒
ϕ(m)
ϕ(m0 )
=
.
ϕ(n)
ϕ(n0 )
Die Gültigkeit der Bruchrechenregeln in einem Körper, ergibt das auch ϕ ein Homomorphismus von Addition und Multiplikation ist. Für m ∈ Z, n ∈ N∗ ist wegen ϕ(n) > 0
auch
m ϕ(m)
m
ϕ
=
> 0 ⇐⇒ ϕ(m) > 0 ⇐⇒ m > 0 ⇐⇒
> 0.
n
ϕ(n)
n
Damit bildet ϕ den Positivbereich von Q genau auf den Positivbereich von K ab. Wie
für ϕ folgt damit das auch ϕ injektiv ist. Das Bild von ϕ ist jetzt der bis auf Isomorphie
in K enthaltene Körper Q.
Insbesondere ist damit jeder angeordnete Körper unendlich, auf endlichen Körpern
wie unseren Restklassenkörpern kann es also keine Anordnung geben.
4.2
Der Körper der reellen Zahlen
Wir wiederholen zunächst einige Definitionen die Sie bereits aus Teil A kennen für den
Spezialfall angeordneter Körper.
Definition 4.13: Sei K ein angeordneter Körper. Eine Teilmenge A ⊆ K heißt nach
oben beschränkt, wenn es eine obere Schranke M ∈ K von A in K gibt, d.h. ein
M ∈ K mit x ≤ M für alle x ∈ A. Entsprechend heißt eine Teilmenge A ⊆ K nach
unten beschränkt, wenn es eine untere Schranke m ∈ K von A in K gibt, d.h. ein
m ∈ K mit x ≥ m für alle x ∈ A.
Vorlesung 9, Dienstag 15.5.2012
In der letzten Sitzung hatten wir mit der Untersuchung angeordneter Körper begonnen. Insbesondere hatten wir obere und unterer Schranken von Teilmengen eines
solchen Körpers K definiert, dies waren gerade Elemente des Körpers die größer-gleich
62
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
beziehungsweise kleiner-gleich als jedes Element der Teilmenge waren. Diese Schranken waren recht willkürlich ist a eine obere Schranke so ist auch jedes b ≥ a ebenfalls
ein obere Schranke. Von besonderen Interesse sind natürlich die besten“ oberen und
”
unteren Schranken, also die kleinste obere Schranke beziehungsweise die größte untere
Schranke. Diese Objekte stellen sich als wichtig heraus, und erhalten daher zunächst
einen eigenen Namen.
Sei also ein angeordneter Körper K gegeben. Sei A ⊆ K. Eine obere Schranke M
von A heißt Supremum von A, wenn sie die kleinste obere Schranke von A in K ist, es
soll also M ≤ M 0 für jede obere Schranke M 0 von A in K gelten. Man schreibt dann
M = sup A. Entsprechend heißt eine untere Schranke m von A das Infimum von A,
wenn sie die größte untere Schranke von A in K ist, wenn also m ≥ m0 für jede untere
Schranke m0 von A in K gilt. Man schreibt dann m = inf A.
Da all dies schon im letzten Semester dran war, wollen wir hier nur kurz einige
kleine Beispiele angeben. Wir werden den Begriff später noch einmal etwas genauer
wiederholen, sobald wir ihn etwas intensiver benutzen wollen.
Wir gehen jetzt einige Beispiele im angeordneten Körper K = Q durch.
1. Die Menge Q+ := {x ∈ Q|x > 0}, also der Positivbereich, ist nach unten aber
nicht nach oben beschränkt. Die unteren Schranken von Q+ sind genau die m ∈ Q
mit m ≤ 0, und die größte unter ihnen ist m = 0. Damit ist inf Q+ = 0 das
Infimum. Ein Supremum gibt es nicht, da es ja überhaupt keine oberen Schranken
gibt, also erst recht keine kleinste obere Schranke.
2. Die Menge Z der ganzen Zahlen ist in Q weder nach oben noch nach unten
beschränkt, sie hat also insbesondere auch weder Infimum noch Supremum.
3. Die Menge A := {x ∈ Q|1 < x < 2} ist nach oben und nach unten beschränkt,
etwa durch die untere Schranke m = 1 und die obere Schranke M = 2. Diese sind
offenbar auch Infimum und Supremum, also inf A = 1, sup A = 2.
4. Die Menge A := {x ∈ Q|x2 < 2} ist nach oben und unten beschränkt. Beispielsweise gilt für jedes x ∈ A stets x2 < 2 < 4 = 22 also auch
(x − 2) · (x + 2) = (x2 − 4) < 0,
also haben x − 2 und x + 2 verschiedenes Vorzeichen und wegen x − 2 < x + 2
bedeutet dies x − 2 < 0 < x + 2, d.h. −2 < x < 2. Diese Schranken sind aber
kein Supremum beziehungsweise Infimum, beispielsweise ist 3/2 eine kleine obere
Schranke. Tatsächlich hat A in Q weder Supremum noch Infimum. Dies wollen
wir hier nicht exakt beweisen, intuitiv ist Ihnen
hoffentlich klar was passiert,
√
Supremum beziehungsweise Infimum wären ± 2, aber diese sind keine rationalen
Zahlen.
Im Fall der rationalen Zahlen kann es also passieren, dass nach oben beschränkte
√ Mengen überhaupt keine kleinste obere Schranke besitzen, weil diese wie etwa 2 in Q
63
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
einfach fehlt. In den reellen Zahlen wird dieser Effekt nicht auftreten, und wir führen
zunächst einmal einen Namen für diese Eigenschaft der reellen Zahlen ein.
Definition 4.14: Ein angeordneter Körper heißt vollständig, wenn in ihm jede nicht
leere, nach oben beschränkte Menge ein Supremum besitzt.
Die Asymmetrie zwischen Supremum und Infimum in dieser Definition ist nur scheinbar, in einem vollständig angeordneten Körper K hat auch jede nicht leere, nach unten
beschränkte Menge A ⊆ K ein Infimum. Wir können nämlich zu A die Menge
B := {b ∈ K|b ist eine untere Schranke von A}
der unteren Schranken von A betrachten. Da A nach unten beschränkt ist, gibt es
überhaupt eine untere Schranke von A und damit ist B 6= ∅. Ist a ∈ A, so gilt x ≤ a
für jede untere Schranke x von A, d.h. für jedes x ∈ B. Damit ist jedes Element von A
eine obere Schranke von B, und wegen A 6= ∅ ist B insbesondere nach oben beschränkt.
Die Vollständigkeit von K liefert die Existenz des Supremums
s := sup B ∈ K,
und wir behaupten das s zugleich das Infimum von A ist. Ist a ∈ A so haben wir schon
festgehalten, dass a eine obere Schranke von B ist und da s die kleinste obere Schranke
von B ist, ist somit s ≤ a. Folglich ist s zumindest eine untere Schranke von A. Ist jetzt
t ∈ K eine beliebige untere Schranke von A, so ist t ∈ B da B ja gerade die Menge
der unteren Schranken von A war, und insbesondere ist t ≤ s. Damit ist s die größte
untere Schranke von A, d.h. das Infimum von A.
Damit ist die Symmetrie zwischen Supremum und Infimum wieder hergestellt. Wie
das letzte der obigen Beispiele zeigt, sind die rationalen Zahlen Q zwar angeordnet,
aber nicht vollständig angeordnet. Die reellen Zahlen sind dagegen vollständig angeordnet. Streng genommen beweist man die Existenz und Eindeutigkeit eines vollständig
angeordneten Körpers und definiert die reellen Zahlen dann als diesen Körper.
Satz 4.15 (Existenz und Eindeutigkeit der reellen Zahlen)
Es gibt bis auf Isomorphie genau einen angeordneten vollständigen Körper. Dieser wird
als der Körper R der reellen Zahlen bezeichnet.
Da dies etwas aufwändig ist, wollen wir diesen Satz hier nicht beweisen. Die Eindeutigkeit ist in Wahrheit kein großes Problem, und kann recht schnell basierend auf Lemma
12 bewiesen werden. Die Existenz wird durch explizite Konstruktion eines vollständig
angeordneten Körpers hergeleitet. Hierfür gibt es (mindestens) vier verschiedene, übliche Konstruktionsmethoden, aber in jeder dieser vier Methoden ist einiges an Details
abzuarbeiten.
Die reellen Zahlen sind eine Obermenge der rationalen Zahlen, was wir sowieso
nach Lemma 12 wissen, aber sehr viel größer als die rationalen Zahlen. Reelle Zahlen
lassen sich in Form von unendlichen Dezimalbrüchen darstellen. Tatsächlich ist dies der
Ansatzpunkt für eine der vier Konstruktionsmethoden. Wir werden uns im nächsten
64
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Abschnitt kurz und vereinfachend mit der Darstellung reeller Zahlen im Computer
beschäftigen, die dann über gewisse Zifferndarstellungen“ erfolgt. Zuvor wollen wir
”
aber noch ein wichtiges Lemma beweisen, das sich in späteren Kapiteln als grundlegend
herausstellen wird.
Lemma 4.16 (Archimedische Eigenschaft von R)
Zu jedem x ∈ R mit x > 0 gibt es ein n ∈ N∗ mit 0 <
1
n
< x.
Beweis: Zunächst gilt für jedes n ∈ N∗ natürlich 1/n > 0, wir müssen uns also nur um
1/n < x kümmern. Angenommen es gäbe kein solches n ∈ N∗ , d.h. für jedes n ∈ N∗
gilt
1
1
≥ x, und somit n ≤ .
n
x
∗
∗
Dann ist 1/x eine obere Schranke von N und N ist in R nach oben beschränkt. Die
Vollständigkeit der reellen Zahlen ergibt die Existenz des Supremums s := sup N∗ .
Dann ist aber s − 1 ∈ R eine reelle Zahl mit s − 1 < s, und da s die kleinste obere
Schranke von N∗ ist, kann s − 1 keine obere Schranke von N∗ sein. Dies bedeutet das
es ein n ∈ N∗ mit s − 1 < n gibt. Dann ist aber auch n + 1 ∈ N∗ und mit Lemma
10.(c) folgt s = (s − 1) + 1 < n + 1. Andererseits ist s eine obere Schranke von N∗ , wir
müssen also auch n + 1 ≤ s haben, und dies ist ein Widerspruch. Dieser Widerspruch
beweist, dass es ein n ∈ N∗ mit 1/n < x geben muss.
4.2.1
Darstellung reeller Zahlen
Wir kommen nun kurz zur Darstellung reeller Zahlen im Computer. Hier gibt es zwei
übliche Methoden. Das erste ist die sogenannte Fixpunktarithmetik, hier verwendet
man Dezimalzahlen deren Nachkommastellen auf eine fest vorgegebene Stellenzahl begrenzt sind. Alle über diese Grenze hinausgehenden Dezimalziffern werden abgeschnitten, eventuell mit Rundung durch Modifikation der letzten gültigen Nachkommastelle.
Ein Vorteil dieses Verfahrens ist, dass man so mit ganzen Zahlen auskommt. Wollen
wir beispielsweise e = 3 Nachkommastellen haben, so können wir einfach ganze Zahlen
benutzen deren Wert als Tausendstel interpretiert wird, die Zahl 1.217 wird dann zu
1217 Tausendsteln. Es gibt einige Situationen in denen einem diese Art der Arithmetik
begegnen kann:
1. Bei diversen mit dem Geldverkehr befassten Anwendungen gibt es ziemlich genaue gesetzliche Vorgaben mit wievielen Nachkommastellen gerechnet werden
muss, wie die Rundung durchgeführt werden muss und so weiter. Hier ist man
oft praktisch gezwungen mit der einen oder anderen Form von Fixpunktarithmetik zu rechnen.
2. Bei einigen graphischen Anwendungen ist durch die Existenz von Pixeln von vornherein eine kleinstmögliche sichtbare Größe gegeben. Trotzdem kann es praktisch
65
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
sein die Bildschirmkoordinaten nicht als Pixelanzahlen zu beschreiben sondern
in realen Einheiten“, etwa in Millimetern. Die wirklich verschiedenen Koordi”
natengrößen unterscheiden sich dann in Vielfachen der Pixelgröße, was man als
Anlass zur Verwendung einer Fixpunktarithmetik nehmen kann.
3. Manchmal wird Fixpunktarithmetik verwendet um von den Details der Fließpunktrechnung unabhängig zu sein. Beispielsweise verwendet die Originalimplementation von TEX eine Fixpunktarithmetik. Diese wurde zu einer Zeit erstellt
als es noch eine wesentlich größere Prozessorvielfalt als heute gab, und die Implementierung der Fließpunktarithmetik auf verschiedenen Prozessoren konnte
sich in diversen Details unterscheiden. Um unabhängig vom verwendeten Rechner immer dieselbe Ausgabe zu erhalten, hat TEX daher seine eigene Arithmetik
implementiert. Dies ist aktuell kein großes Problem mehr, da es für die Implementierung von Fließpunktzahlen inzwischen allgemein befolgte Standards gibt.
Die praktisch wichtigere Zahldarstellung ist die schon erwähnte Darstellung reeller
Zahlen als Fließpunktzahlen, oder Fließkommazahlen wenn Ihnen der Name lieber ist.
Die Grundidee ist es Größenordnung und Genauigkeit etwas zu entkoppeln und reelle
Zahlen in der Form x = m·10k zu schreiben. Die sogenannte Mantisse m“ ist dabei für
”
die Genauigkeit und der Exponent k“ für die Größenordnung zuständig. Eine derartige
”
Darstellung ist natürlich nicht eindeutig, durch Änderung des Exponenten verschiebt
sich der Dezimalpunkt in der Mantisse
178.5308 · 101 = 17.85308 · 102 = 1785.308 · 100 = 17853.08 · 10−1 .
Dieses Verschieben des Dezimalpunktes gibt der Fließpunktarithmetik ihren Namen.
Um die Darstellung eindeutig zu machen, legt man sich jetzt auf die sogenannten
normalisierten Fließpunktzahlen fest, bei denen die Mantisse die Form m = ±0.X... hat,
wobei die erste Nachkommastelle X“ nicht Null ist. Für die reelle Zahl x = 0 ist eine
”
solche Darstellung nicht möglich, und die Null wird daher als ein Sonderfall behandelt.
Zur Addition normalisierter Fließpunktzahlen müssen die beiden Zahlen erst durch
Verschieben des Dezimalpunktes auf dieselbe Größenordnung gebracht werden, dann
können die Mantissen addiert werden und anschließend muss das Ergebnis eventuell
noch normalisiert werden. Als ein Beispiel zur Addition wollen wir einmal
0.34127 · 1019 + 0.41578 · 1021 = 0.0034127 · 1021 + 0.41578 · 1021
= (0.0034127 + 0.41578) · 1021 = 0.4191927 · 1021
rechnen. Entsprechend wird auch die Subtraktion gehandhabt. Bei einer vollständigen
Implementierung der Fließpunktaddition müssen auch noch die Vorzeichen berücksichtigt werden, so das Addition bei verschiedenen Vorzeichen in Wahrheit eine Subtraktion
ist. Multiplikation ist etwas einfacher da m1 10e1 · m2 10e2 = m1 m2 10e1 +e2 ist, man muss
also nur die Mantissen multiplizieren, die Exponenten addieren und anschließend das
Ergebnis normalisieren. Die Behandlung des Vorzeichens kann dann gesondert erfolgen.
Entsprechend sieht die Division aus, hier haben wir m1 10e1 /m2 10e2 = (m1 /m2 )·10e1 −e2 .
66
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
In einer realen Implementierung stehen für Mantisse und Exponent nur eine begrenzte, fest vorgegebene Zahl an Dezimalstellen zur Verfügung. Es bezeichne t die
Anzahl der Mantissenstellen und e die Exponentenstellen. Bei Addition und Multiplikation gehen einige Stellen mangels Platz verloren. Wir verwenden hier eine vereinfachte
Version der Fließpunktarithmetik und schneiden nicht mehr darstellbare Ziffern einfach
ab. Die wirklich verwendeten Implementationen sind etwas komplizierter, da anstelle
des einfachen Abschneidens von Stellen noch geeignete Rundungen durchgeführt werden. Rechnen wir etwa unser obiges Beispiel noch einmal mit t = 5 Mantissenstellen
und e = 3 Exponentenstellen. Bei der Angleichung der Exponenten verschwinden dann
Dezimalstellen durch 0.34127 · 1019 = 0.00341 · 1021 , wobei man das Gleichheitszeichen
hier nicht so wörtlich nehmen darf. Diesmal ergibt sich
0.34127 · 1019 + 0.41578 · 1021 = 0.00341 · 1021 + 0.41578 · 1021
= (0.0034127 + 0.41578) · 1021 = 0.41919 · 1021 .
Wir wollen noch ein zweites Beispiel betrachten bei dem eine anschließende Normalisierung nötig wird
0.99994·103 +0.70000·10−1 = 0.99994·103 +0.00007·103 = 1.00001·103 = 0.10000·104 .
Im Prinzip könnte diese Normalisierung zu einem Überlauf im Exponenten führen,
aber solche Möglichkeiten wollen wir hier ignorieren. Multiplikation und Division sind
dann etwas komplizierter, und hier gibt es auch verschiedene Varianten wie diese mit
begrenzter Mantissenlänge implementiert werden müssen. Ein Unterschied liegt darin ob Zwischenergebnisse immer mit der fixierten Mantissenlänge gerechnet werden
müssen, oder ob für diese auch größere Zahlen erlaubt sind, typischerweise die doppelte Stellenzahl. In realen Rechnern ist die Wahl der Methode inzwischen, wie schon
bemerkt, standardisiert, hier wollen wir uns ruhig beide Möglichkeiten offenhalten. Als
ein Beispiel wollen wir einmal mit der Mantissenlänge t = 4 das Produkt
0, 7189 100 · 0, 1700 · 101
rechnen. Führen wir die übliche schriftliche Multiplikation aus, so wird 0, 7189 100 ·
0, 1700 101 = 7189 · 17 10−5 und
7189 · 1700
7189
+50323
122213
das normalisierte Ergebnis ist also
0, 7189 100 · 0, 1700 · 101 =“ 0.1222 · 101 .
”
Die Verschiebung in den Vorkommabereich haben wir dabei nur der Übersichtlichkeit
halber durchgeführt. Hier haben wir mit Zwischenergebnissen gerechnet die länger
67
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
als die Mantissenlänge t = 4 waren, dies hat hier allerdings auf das Ergebnis keinen
Einfluss. Wir wollen uns auch noch ein Beispiel anschauen, bei dem tatsächlich ein
Unterschied auftritt, nämlich 0, 9999 · 0, 9999 beide mit Exponent 0, und wieder in
Mantissenlänge t = 4. Wir zeigen die Rechnung links mit erweiterter Mantisse und
rechts mit sofortigen Streichen überzähliger Dezimalstellen
9999 · 9999 · 10−8
9999 · 9999
89991
8999
+ 89991
+ 899
+ 89991
+ 89
+ 89991
+ 8
99980001 · 10−8 =“ 0.9998
9995 · 10−4 =“ 0.9995
”
”
Hier tritt also tatsächlich ein Unterschied in der letzten Dezimalstelle auf. Wir wollen
auch noch ein Beispiel einer Division vorführen, und hier nehmen wir
0.1214 · 102 : 0.7189 · 101 =
1234
· 101 .
7189
Wir rechnen wieder mit der Mantissenlänge t = 4, und betrachten zwei mögliche Varianten. Links erlauben wir für Zwischenergebnisse eine zusätzliche Stelle in der Mantisse,
und rechts bleiben wir strikt bei t = 4 Dezimalstellen.
1214 : 7189 = 0.1688
− 7189
4951
− 43134
6366
− 57512
6148
− 57512
3968
496
· 10−1 = 1 · 10−1 + 718
· 10−1
=“1 · 10 + 496
· 10−2
71
”
= 1 · 10−1 + 6 · 10−2 + 70
· 10−2
71
=“1 · 10−1 + 6 · 10−2 + 70
· 10−3 = 0.17,
7
”
1214
=“ 1214
7189 ”
718
−1
links haben wir also das Ergebnis 0.1688 · 101 und rechts die deutlich schlechtere Näherung 0.1700 · 101 .
In realen Computern wird normalerweise eine binäre Fließpunktarithmetik anstelle
der bisher behandelten dezimalen Arithmetik benutzt. Dies ist aber inhaltlich kein
wesentlicher Unterschied. Weiter werden diverse spezielle Zahlen“ unterstützt also
”
Werte für unendlich kleine und unendlich große Zahlen, ungültige Zahlen“ die als
”
Ergebnisse bei Rechenfehlern verwendet werden, es gibt sogar verschiedene Werte für
eine positive und eine negative Null, und so weiter. Derartige Details wollen wir hier
nicht behandeln.
Es gibt zwei standardisierte Größen für binäre Fließpunktzahlen. Dies sind zum
einen die 32-Bit Zahlen, typischerweise der Datentyp float in C.
float
±
Mantisse, t = 24 Bits
68
Exponent, e = 8 Bits
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Das Vorzeichen nimmt dabei ein Bit in Anspruch. Im Exponenten wird kein Vorzeichen
verwendet, anstelle dessen werden negative Werte durch einen Offset realisiert. Bei e =
8 Bits haben wir 28 = 256 verschiedene Werte, und hierfür nimmt man die Zahlen von
−128 bis 127. Gespeichert werden diese mit dem Offset 27 = 128, d.h. der gespeicherte
Wert n meint n − 128 als Exponent. Wenn Sie oben mitgezählt haben benötigen wir t +
e = 32 Bits plus ein Vorzeichenbit und dies scheint eines zuviel zu sein. Das ist aber nur
eine Täuschung. Gespeichert werden ja normalisierte Fließpunktzahlen, also mit erster
Nachkommastelle ungleich Null. Im Binärsystem ist die erste Nachkommastelle einer
normalisierten Fließpunktzahl damit immer gleich Eins, und diese sowieso festgelegte
Eins wird einfach nicht mitgespeichert. Von den t = 24 Mantissenbits werden also nur
die hinteren 23 wirklich im Speicher abgelegt, und damit kommt man auf insgesamt 32
Bits für einen float Wert.
Die zweite Standardgröße sind 64 Bit große Fließpunktzahlen, typischerweise der
Datentyp double in C. Hier hat man
double
±
Mantisse, t = 53 Bits
Exponent, e = 11 Bits
Das oben für float gesagte trifft entsprechend auch auf double zu. Man mag sich
fragen warum die Mantisse so viel großzügiger bedacht wird als der Exponent, aber
dies hat gute Gründe. Zu große oder zu kleine Werte im Exponenten kann man in
der Regel vermeiden indem das Ausgangsproblem vorher passend skaliert wird, beispielsweise durch Wahl geeigneter Einheiten oder durch Übergang zu Logarithmen
und ähnlichen. Dies funktioniert nur nicht wenn zugleich Werte von sich stark unterscheidenden Größenordnungen auftreten, was glücklicherweise nicht so oft passiert.
Ungenaues Rechnen in der Mantisse kann man dagegen durch nichts ausgleichen. Spezielle Prozessoren bieten oft auch noch diverse andere Fließpunkttypen an, aber so
etwas soll hier nicht mehr besprochen werden.
4.3
Der Körper der komplexen Zahlen
Nachdem wir uns im letzten Teilabschnitt die reellen Zahlen ein wenig angeschaut
haben, kommen wir nun zum letzten der grundlegenden Zahlbereiche, den sogenannten
komplexen Zahlen. Wir beginnen mit einer eher operativen Einführung der komplexen
Zahlen bevor wir dann zu einer exakten Definition kommen. Das Ausgangsproblem zu
dessen Lösung die komplexen Zahlen ursprünglich eingeführt wurden ist die Lösung
der Gleichung dritten Grades
x3 + ax2 + bx + c = 0 (a, b, c ∈ R).
Analog zur quadratischen Ergänzung bei der quadratischen Gleichung kann man den
zweithöchsten Term zum Verschwinden bringen, hier durch die Ersetzung von x durch
x − a/3, und erhält die Normalform der Gleichung dritten Grades
x3 + px + q = 0 (p, q ∈ R).
69
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Für diese Gleichung gibt es jetzt, entsprechend zur pq-Formel bei der quadratischen
Gleichung, eine explizite Lösungsformel, die sogenannte Formel von Cardano. Die volle Cardano-Formel beschreibt alle drei Lösungen unserer Gleichung, aber für unsere
Zwecke reicht es die erste, und auch einfachste, dieser drei Lösungen hinzuschreiben.
Diese Lösung ist gegeben als
√
3
p
D
2p
x=
−√
mit D := −108q + 12 12p3 + 81q 2 .
3
6
D
Wir wollen uns als ein konkretes Beispiel einmal den Beginn der Rechnung für die
Gleichung
7
20
x3 − x +
=0
3
27
anschauen. Hier ist p = −7/3 und q = 20/27. Damit wird
12p3 + 81q 2 = −108 = −36 · 3,
also
√
√
D = −80 + 12 −108 = −80 + 72 −3.
Das scheint also gar nicht zu funktionieren, eine Wurzel aus −3 gibt es nun einmal
nicht. Der Trick an der Cardano-Formel ist es dieses Detail zu ignorieren, und einfach
weiter zu rechnen. Der weitere Verlauf spielt für uns keine Rolle und soll hier nicht
vorgeführt werden. Als Endergebnis ergibt sich x = 1/3, und dies ist tatsächlich eine
Lösung unserer Gleichung dritten Grades. Wir haben hier also mit der rein reellen
Gleichung
7
20
=0
x3 − x +
3
27
begonnen, √
und sind bei der reellen Lösung x = 1/3 gelandet. Nur zwischendurch ist so
etwas wie −3 in der Rechnung aufgetaucht, ist aber am Ende wieder verschwunden.
Man bezeichnet den Zahlbereich der durch Erweiterung von R um Wurzeln negativer
Zahlen entsteht als die komplexen Zahlen. Im Kontext der Cardano-Formel spielt es keinerlei Rolle ob die komplexen Zahlen logisch überhaupt stichhaltig sind, am Ende kann
man ja einfach nachschauen ob die erhaltene reelle Zahl tatsächlich eine Lösung ist.
Hier sind die komplexen Zahlen also nur ein obskurer Rechentrick, sie tauchen zwischendurch geisterhaft auf und verschwinden am Ende wieder. Aus dieser Zeit stammt auch
die Redeweise von den Wurzeln negativer Zahlen als den sogenannten imaginären Zahlen, denn als reiner Rechentrick betrachtet haben die komplexen Zahlen ja tatsächlich
etwas imaginäres“.
”
Bevor wir zu einer formalen Definition kommen, wollen wir erst einmal noch etwas
auf der vagen Basis komplexe Zahlen = Reelle Zahlen + Wurzeln negativer Zahlen“
”
weiterrechnen. Zunächst beachte das wir gar nicht die Wurzeln aller negativen Zahlen
hinzunehmen müssen, es reichht völlig eine Wurzel aus −1 zu haben. Denn dann können
wir beispielsweise auch
p
√
√
√
−3 = (−1) · 3 = −1 · 3
70
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
√
rechnen. Man nennt√i := −1 daher die imaginäre Einheit“. Alleine mit dem Hin”
zunehmen von i = −1 ist es aber nicht getan, es muss ja auch Zahlen wie 2 + i,
1/(3 + 2i) und so weiter geben. Wir wollen uns klarmachen das man mit komplexen
Zahlen der Form a + ib mit a, b ∈ R auskommt. Schauen wir uns zunächst einmal die
Potenzen der imaginären Einheit i an
i2 = −1, i3 = i2 · i = −i, i4 = (i2 )2 = (−1)2 = 1, i5 = i4 · i = 1 · i, . . .
Wegen i4 = 1 wiederholen sich die Potenzen von i jetzt im Viererrythmus. Ein allgemeiner polynomialer Ausdruck in i mit reellen Koeffizienten wird also zu
a0 + a1 i + a2 i2 + a3 i3 + a4 i4 + a5 i5 + · · · = a0 + a1 i − a2 − a3 i + a4 + a5 i + · · ·
= (a0 − a2 + a4 − · · · ) + (a1 − a3 + a5 − · · · )i,
diese Ausdrücke haben also immer die Form a + ib. Wie sieht es jetzt mit Quotienten
aus? Dabei ist 1/i leicht zu sehen, es ist ja
i · (−i) = −i2 = 1 =⇒
1
= −i,
i
aber schon so etwas wie 1/(1 + i) ist nicht so
√ einfach. Hier führt aber derselbe Trick
wie bei der obigen Umformung von 1/(1 − 3 3 i) zum Ziel, es ist
1
1−i
1−i
1−i
1 1
=
=
=
= − i.
2
1+i
(1 + i) · (1 − i)
1−i
2
2 2
Dieselbe Rechung funktioniert auch im allgemeinen Fall, sind a, b ∈ R mit a + ib 6= 0,
also (a, b) 6= (0, 0), so ist
1
a − ib
a − ib
a
b
= 2
− 2
i.
=
= 2
2
2
a + ib
(a + ib)(a − ib)
a +b
a +b
a + b2
Solange es nur um die Grundrechenarten geht, können wir uns bei den komplexen
Zahlen also auf die Menge
C = {a + ib|a, b ∈ R}
beschränken. Addition und Multiplikation dieser Zahlen sind dann durch die Formeln
(a1 + ib1 ) + (a2 + ib2 ) = (a1 + a2 ) + i(b1 + b2 ),
(a1 + ib1 ) · (a2 + ib2 ) = a1 a2 + ia1 b2 + ib1 a2 + i2 b1 b2
= (a1 a2 − b1 b2 ) + i(a1 b2 + b1 a2 )
für alle a1 , a2 , b1 , b2 ∈ R gegeben. Auch kompliziertere Rechenoperationen
√ sind in C
leicht möglich, als ein Beispiel √hierfür wollen wir einmal die Wurzel i berechnen.
Hierzu machen wir den Ansatz i = a + ib. Dass a + ib die Wurzel aus i ist, bedeutet
das das Quadrat von a + ib gleich i sein muss, also
!
(a + ib)2 = a2 − b2 + 2abi = i, also a2 − b2 = 0 und 2ab = 1.
71
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Die Bedingung a2 = b2 bedeutet b = ±a, und eingesetzt in die zweite Bedingung
erhalten wir ±2a2 = 1. Also ist nur das Pluszeichen möglich, d.h. b = a, und wir
brauchen a2 = 1/2, und somit
r
√
1√
1√
1
1√
a=b=
2 =⇒ i = ±
2+
2i .
=
2
2
2
2
Wir kommen jetzt zur formalen Definition der
komplexen Zahlen. Diese wird die komplexen Zahlen nicht nur auf eine sichere Grundlage stellen,
sondern auch ein geometrisches Verständnis der
komplexen Zahlen ermöglichen. Wir werden zum
Beispiel sehen das das Ziehen komplexer Wurzeln y=1
nicht nur möglich sondern auch vergleichsweise einfach ist. Die Grundidee ist es die komplexe Zahl
z = a + ib als den Punkt (a, b) ∈ R2 der Ebene zu
interpretieren
C = R2 , a + ib = (a, b).
z=(2, 1)=2+i
x=2
Als Punktmenge definieren wir also C := R2 . In diesem Zusammenhang nennt man die
Ebene R2 manchmal auch die Gaußsche Zahlenebene“. Damit lassen sich geometrische
”
Begriffe auf die komplexen Zahlen anwenden, wir können beispielsweise die Länge |z|
eine komplexen Zahl z = a + ib als ihren Abstand zum Nullpunkt definieren, und nach
dem Satz des Phythagoras ist dann explizit
√
|z| = a2 + b2 .
Vorlesung 10, Dienstag 22.5.2012
In der letzten Sitzung hatten wir begonnen die komplexen Zahlen C zu besprechen.
Wie schon angekündigt beruht die exakte Definition der komplexen Zahlen auf der
sogenannten Gaußschen Zahlenebene
C = R2
wobei die komplexe Zahl z = x + iy, x, y ∈ R dem Punkt z = (x, y) ∈ R2 der
Ebene entspricht. In unseren einleitenden Überlegungen haben wir gesehen, dass es
überhaupt nur eine einzige Möglichkeit gibt Addition und Multiplikation komplexer
Zahlen einzuführen. Dies stellen wir nun auf den Kopf und definieren
(a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 ),
(a1 , b1 ) · (a2 , b2 ) := (a1 a2 − b1 b2 , a1 b2 + b1 a2 )
72
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
für alle a1 , a2 , b1 , b2 ∈ R. Damit haben wir eine Addition und eine Multiplikation auf
der Menge C definiert, und wir wollen uns überlegen das hierdurch
√ tatsächlich eine
Erweiterung von R konstruiert wird, in der es eine Wurzel i = −1 gibt. Streng
genommen enthält C = R2 die reellen Zahlen nicht einmal als Teilmenge. Um dieses
kleine Problem zu korrigieren, denken wir uns R als die x-Achse in der Ebene, d.h. wir
wollen keinen Unterschied zwischen der reellen Zahl x ∈ R und dem Punkt (x, 0) ∈ R2
der Ebene machen. Wir denken uns also x = (x, 0), wobei das Gleichheitszeichen
hier nicht wörtlich zu verstehen ist. Wir müssen nur noch verifizieren, dass dann die
komplexe und die reelle Addition und Multiplikation reeller Zahlen übereinstimmen.
Dies ist schnell geschehen, für alle a, b ∈ R gelten
(a, 0) + (b, 0) = (a + b, 0),
(a, 0) · (b, 0) = (ab − 0 · 0, a · 0 + 0 · b) = (ab, 0).
Unsere Hauptforderung an die Arithmetik komplexer Zahlen war es, zumindest mit
den Grundrechenarten, normal rechnen“ zu können. Wie schon früher erwähnt, wird
”
dieses normale Rechnen gerade durch die Körperaxiome beschrieben, wir wollen also
den folgenden Satz einsehen:
Satz 4.17 (Der Körper der komplexen Zahlen)
Das Tripel (C, +, ·) ist ein Körper.
Beweis: Der Nachweis das (C, +, ·) ein kommutativer Ring mit Eins ist, geschieht durch
direktes Nachrechnen und soll hier nicht vorgeführt werden. Das neutrale Element
der Addition ist dabei 0 ∈ R ⊆ C und das neutrale Element der Multiplikation ist
1 ∈ R ⊆ C. Multiplikative Inverse berechnen sich wie zu Beginn dieses Abschnitts
gesehen, für x, y ∈ R mit (x, y) 6= (0, 0) ist
x
y
−1
(x, y) =
,−
x2 + y 2 x2 + y 2
das multiplikative Inverse von (x, y).
Schließlich gibt es in C auch eine Wurzel aus −1. Es handelt sich einfach um den
Punkt mit Koordinaten x = 0 und y = 1 auf der y-Achse.
Lemma 4.18: Die imaginäre Einheit“ i := (0, 1) ∈ C ist eine Quadratwurzel aus −1.
”
Beweis: Es gilt
i2 = (0, 1) · (0, 1) = (0 · 0 − 1 · 1, 0 · 1 + 1 · 0) = (−1, 0) = −1.
73
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Für alle a, b ∈ R gilt jetzt die Gleichung
a + ib = (a, 0) + (0, 1) · (b, 0) = (a, 0) + (0 · b − 1 · 0, 0 · 0 + 1 · b) = (a, 0) + (0, b) = (a, b)
die komplexe Zahl a + ib ist also tatsächlich wie vorgesehen der Punkt (a, b) der Ebene. Damit sind die komplexen Zahlen vollständig etabliert. Wir führen jetzt einige
zusätzliche, nützliche Schreibweisen ein.
Definition 4.19: Ist z = a + ib mit a, b ∈ R eine komplexe Zahl, so nennt man a den
Realteil von z und b den Imaginärteil von z, und schreibt
Re(z) := a und Im(z) := b.
Zur Vorbereitung der nächsten Definition erinnern wir uns noch einmal an die Formel
für die multiplikative Inverse einer komplexen Zahl z = a + ib 6= 0, diese war als
1
a − ib
= 2
a + ib
a + b2
gegeben. Sowohl der Zähler als auch der Nenner dieses Bruchs haben eine eigenständige
Bedeutung. Wir beginnen mit dem Zähler und definieren:
Definition 4.20: Ist z = a+ib ∈ C mit a, b ∈ R eine komplexe Zahl, so heißt z := a−ib
die zu z konjugiert komplexe Zahl. Offenbar ist genau dann z = z wenn z ∈ R ist.
Die komplexe Konjugation erfüllt eine ganze Reihe wichtiger Formeln.
Lemma 4.21 (Grundeigenschaften der Konjugation)
Für alle z, z1 , z2 ∈ C gelten
z1 + z2 = z1 + z2 , z1 · z2 = z1 · z2 und zz = Re(z)2 + Im(z)2 ∈ R≥0 .
Beweis: Dies ist Übungsaufgabe (32).
Insbesondere können wir für jede komplexe Zahl z = a + ib ∈ C mit a, b ∈ R den schon
in der letzten Sitzung eingeführten Betrag von z in Termen der Konjugation auch als
√
√
|z| := zz = a2 + b2 ∈ R≥0
schreiben, der Nenner in der Formel für 1/z ist dann gerade |z|2 , d.h. für jedes 0 6= z ∈ C
gilt
1
z
= 2.
z
|z|
Die komplexe Betragsfunktion erfüllt ähnliche Grundeigenschaften wie der reelle Betrag.
Lemma 4.22 (Grundeigenschaften der komplexen Betragsfunktion)
Für alle z1 , z2 ∈ C gelten
74
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
(a) Die Dreiecksungleichung |z1 + z2 | ≤ |z1 | + |z2 |.
(b) Die Multiplikativität |z1 z2 | = |z1 | · |z2 | des Betrags.
Beweis: (a) Nach Lemma 21 haben wir
√
√
√
√
|z1 z2 | = z1 z2 z1 z2 = z1 z2 z1 z2 = z1 z1 · z2 z2 = |z1 | · |z2 |.
(b) Wir zeigen zunächst, dass |1 + z| ≤ 1 + |z| für jedes z ∈ C gilt. Mit Lemma 21
ergibt sich
|1 + z|2 = (1 + z) · 1 + z = (1 + z) · (1 + z) = 1 + z + z + zz = 1 + z + z + |z|2 .
Nach Aufgabe (31) haben wir weiter
p
p
z + z = 2 Re(z) ≤ 2| Re(z)| = 2 Re(z)2 ≤ 2 Re(z)2 + Im(z)2 = 2|z|,
und setzen wir dies in die obige Gleichung ein, so wird
|1 + z|2 = 1 + z + z + |z|2 ≤ 1 + 2|z| + |z|2 = (1 + |z|)2 =⇒ |1 + z| ≤ 1 + |z|.
Wir kommen jetzt zur allgemeinen Dreiecksungleichung. Im Fall z1 = 0 haben wir
sofort |z1 + z2 | = |z2 | = |z1 | + |z2 |. Ist z1 6= 0, so ergibt sich mit (b) und der bereits
bewiesenen Teilaussage
z2 z
z
z
2
2
2
= |z1 | · 1 + ≤ |z1 | · 1 + = |z1 | + z1 · |z1 + z2 | = z1 · 1 +
z1 z1 z1 z1 = |z1 | + |z2 |.
Es gibt noch einige weitere einfache Formeln für die Konjugation und den Betrag. Für
z = a + ib ∈ C haben wir offenbar
p
√
z = z und |z| = z z = zz = |z|
sowie für z 6= 0
r
r
1
1
1
1
1
1
1
1
1
1
z · = z · = 1 = 1 =⇒ = und =
· =
=√ =
.
z
z
z
z
z
z z
zz
|z|
zz
Insbesondere ist für z1 , z2 ∈ C mit z2 6= 0 auch
z1 |z1 |
z1
z1
=
und =
.
z2
z2
z2
|z2 |
75
Mathematik für Informatiker B, SS 2012
4.3.1
Dienstag 22.5.2012
Graphische Darstellung der komplexen Zahlen
Wir haben die komplexen Zahlen als die Gaußsche Zahlenebene C = R2 eingeführt,
und wollen jetzt die bisher definierten Begriffe auch geometrisch interpretieren. Relativ
leicht ist dies für Addition, Konjugation und den Betrag möglich.
b1 + b 2
z1 + z 2
z=a+ib
z=(x,y)
r
b2
z2
y
x
b1
z1
z=a−ib
a2
a1
Addition
a1 + a 2
Konjugation
Betrag
Die Formel (a1 , b1 ) + (a2 , b2 ) = (a1 + a2 , b1 + b2 ) ist die Ihnen wahrscheinlich aus der
Schule noch vertraute Addition von Vektoren, manchmal als das Kräfteparallelogram“
”
bezeichnet. Die komplexe Konjugation ersetzt die y-Komponente eines Punktes durch
ihr Negatives, und dies ist gerade die Spiegelung an der x-Achse. Zur Interpretation
des Betrages muss man sich das oben rechts stehende rechtwinklige Dreieck anschauen.
Ist z = x + iy mit x, y ∈ R, so haben die beiden Katheten die Längen x und y.
Nach dem Satz von Pythagoras
ist das Hypothenusenquadrat gleich x2 + y 2 , die Länge
p
der Hypotenuse ist also x2 + y 2 = |z|. Diese Länge ist nun gerade der Abstand des
Punktes z zum Nullpunkt, d.h. |z| = Abstand von z zum Nullpunkt.
Hier wird jetzt auch die Benennung der Dreiecksungleichung verständlich. Schauen
wir uns das oben links stehende Parallelogram an, und schreiben z1 = a1 + ib1 , z2 =
a2 + ib2 , so wird |z1 + z2 | gerade die Länge der Diagonale des Parallelograms. Das
von 0, z1 und z1 + z2 gebildete Dreieck, hat die Seitenlänge |z1 |, |z2 | und |z1 + z2 |. Die
Dreiecksungleichung wird dann zur geometrischen Dreiecksungleichung, dass die Länge
einer jeden Seite eines Dreiecks höchstens so groß ist wie die Summe der Längen der
beiden anderen Seiten.
Es verbleibt nur noch die komplexe Multiplikation
geometrisch zu beschreiben. Hierzu beginnen wir mit einer kleinen Vorüberlegung. Wir geben uns einen Winkel
φ vor und betrachten den Punkt e(φ) = eφ ∈ R2 auf
e( )
1
dem Einheitskreis, der zur x-Achse den Winkel φ bildet.
y
In dem entstehenden rechtwinkligen Dreieck hat die Hyx
potenuse die Länge 1, die Länge der Ankathete ist die
x-Koordinate von e(φ) und die Länge der Gegenkathete
ist die y-Koordinate von e(φ).
Damit ist x das Verhältnis von Ankathete zu Hypotenuse, also x = cos φ. Ebenso ist y das Verhältnis von
76
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Gegenkathete zu Hypotenuse, also y = sin φ. Unser Punkt berechnet sich also zu
e(φ) = (cos φ, sin φ) = cos φ + i sin φ.
Der Punkt e(φ) auf dem Einheitskreis wird durch den Winkel φ repräsentiert. In diesem
Kontext, und eigentlich immer in der Mathematik, ist es hilfreich den Winkel φ nicht
im gewöhnlichen Gradmaß, also zwischen 0◦ und 360◦ zu messen, sondern im sogenannten Bogenmaß. Dieses entsteht aus dem Gradmaß indem wir den Bereich 0◦ . . . 360◦
proportional auf den Bereich von 0 bis 2π umskalieren. Die Winkel φ im Bogenmaß
und φ◦ im Gradmaß entsprechen sich also über die Formeln
φ = 2π ·
φ
φ◦
und φ◦ = 360◦ ·
.
◦
360
2π
Wir haben also beispielsweise die folgenden Übersetzungen
Gradmaß
0◦
30◦
45◦
60◦
90◦
180◦
360◦
Bogenmaß
0
π
6
π
4
π
3
π
2
π
2π
Beachte das wir Winkel im Bogenmaß einfach als reelle Zahlen betrachten, und nicht
als so etwas wie π/2 Grad. In der Mathematik gibt es keine Messungen, und daher
auch keinen Bedarf für Maßeinheiten. Das Bogenmaß hat auch eine einfache geometrische Bedeutung. Der Umfang eines Kreises mit Radius r > 0 ist ja bekanntlich 2πr,
und der Umfang des Einheitskreises ist somit 2π. Verändern wir den Winkel φ, so
verändert sich die Länge des oben dick eingezeichneten Bogens proportional mit φ. Da
der volle Umfang des Einheitskreises 2π, also gleich dem vollen Winkel ist, ist damit
φ auch zugleich die Länge unseres dick eingezeichneten Bogens. Dies erklärt auch den
Namen Bogenmaß“, das Maß des Winkels im Bogenmaß ist eben gerade die Länge
”
des entsprechenden Bogens auf dem Einheitskreis.
Wir berechnen jetzt, wie die Multiplikation von Punkten auf dem Einheitskreis
aussieht. Für alle φ, ψ ∈ R haben wir
e(φ) · e(ψ) =
=
=
=
(cos φ + i sin φ) · (cos ψ + i sin ψ)
cos φ cos ψ − sin φ sin ψ + i · (sin φ cos ψ + cos φ sin ψ)
cos(φ + ψ) + i sin(φ + ψ)
e(φ + ψ),
d.h. bei Multiplikation komplexer Zahlen auf dem Einheitskreis müssen nur die beiden
Winkel φ und ψ miteinander addiert werden. In dieser Rechnung haben wir die sogenannten Additionstheoreme von Sinus und Cosinus verwendet, die wir hier als bekannt
77
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
annehmen wollen. Bei der Multiplikation komplexer Zahlen auf dem Einheitskreis werden also einfach die Winkel die sie zur x-Achse bilden miteinander addiert.
Durch Einführung der sogenannten Polarkoordinaten
y
kann man diese Interpretation der Multiplikation auf alle
komplexen Zahlen ausdehnen. Gegeben sei eine komplexe
Zahl z ∈ C und wir nehmen erst einmal z 6= 0 an. Die
z=reφ
r
erste Polarkoordinate von z ist dann der Abstand r von
eφ
φ
z zum Nullpunkt, und wir wissen bereits das dies gerade
x
der Betrag von z ist, also
r = |z|.
Nun betrachten wir den Schnittpunkt der von Null ausgehenden Halbgeraden in Richtung z mit dem Einheitskreis, als Formel ist dies einfach
z/r = z/|z|. Die zweite Polarkoordinate von z ist der Winkel φ den diese Halbgerade
mit der x-Achse hat, also
z
= e(φ) =⇒ z = re(φ).
r
Haben wir umgekehrt eine Zahl r ≥ 0 und einen Winkel φ ∈ R gegeben, so können
wir die komplexe Zahl z := re(φ) bilden. Beachte das die erste Polarkoordinate r
immer eindeutig festgelegt ist, der Winkel φ aber nicht. Man kann zu φ noch beliebige
Vielfache von 2π, also von 360◦ im Gradmaß, hinzuaddieren ohne das sich z ändert. Um
ein eindeutiges φ zu kriegen muss man die erlaubten Winkel auf ein Intervall der Länge
2π einschränken. Für z = 0 ist φ sogar völlig willkürlich. Die komplexe Multiplikation
sieht in Polarkoordinaten nun sehr einfach aus, für alle r, s ≥ 0 und alle Winkel φ, ψ ∈ R
gelten
re(φ) · se(ψ) = rse(φ) · e(ψ) = rse(φ + ψ).
Bei der Multiplikation komplexer Zahlen in Polarkoordinaten werden also die beiden
Längen miteinander multipliziert, und die beiden Winkel werden addiert. Schauen wir
uns einmal drei kleine Beispiele an.
1. Sei z = i. Der Abstand zu 0 ist r = |i| = 1, und da i im oberen Teil der yAchse liegt, ist der Winkel zur x-Achse gleich 90◦ , beziehungsweise φ = π/2.
Also i = 1 · e(π/2) in Polarkoordinaten.
2. Die komplexe Zahl 1 + i hat als Abstand zum Nullpunkt
√
√
r = |1 + i| = 12 + 12 = 2.
Außerdem liegt z auf der Winkelhalbierenden im ersten Quadranten,
unser Win√
kel ist also φ = π/4. Polarkoordinaten sind damit 1 + i = 2 e(π/4).
3. Nehme jetzt z = −i. Es ist r = | − i| = 1. Was als Winkel genommen wird,
ist nicht mehr so eindeutig. Man kann etwa φ = 3π/2 oder auch φ = −π/2
verwenden. Diese beiden unterscheiden sich gerade um 2π.
78
Mathematik für Informatiker B, SS 2012
4.4
Dienstag 22.5.2012
Polynomdivision
Wir wollen jetzt Polynome über den reellen und über den komplexen Zahlen untersuchen. Da R und C unendliche Körper sind, wissen wir bereits nach Satz 7 das wir keinen
Unterschied zwischen Polynomen und Polynomfunktionen machen müssen. Wir beginnen mit einigen Wiederholungen und zunächst erinnern wir an die bereits vor Lemma
6 diskutierte Polynomdivision, die wir jetzt auch als einen Satz festhalten wollen.
Satz 4.23 (Polynomdivision mit Rest)
Sei K ein Körper und seien a, d ∈ K[x] zwei Polynome mit d 6= 0. Dann existieren
eindeutig bestimmte Polynome q, r ∈ K[x] mit a = q · d + r und grad(r) < grad(d).
Beweis: Klar da in einem Körper jedes von Null verschiedene Element eine Einheit ist.
Zur näheren Untersuchung von Polynomen erinnern wir jetzt an den Begriff der unzerlegbaren oder irreduziblen Polynome, und diesmal wollen wir diese auch einmal explizit
als eine Definition einführen.
Definition 4.24: Sei K ein Körper. Ein Polynom p ∈ K[x] heißt irreduzibel wenn
grad(p) ≥ 1 ist und es keine Polynome q1 , q2 ∈ K[x] mit p = q1 · q2 und grad(q1 ) ≥ 1,
grad(q2 ) ≥ 1 gibt.
Die irreduziblen Polynome sind also so etwas wie die Primzahlen unter den Polynomen, sie lassen sich nicht in nicht trivialer Weise als Produkt zweier kleinerer Polynome
schreiben. Im allgemeinen kann es recht schwer sein einem gegebenen Polynom anzusehen ob es irreduzibel ist oder nicht. Für Polynome kleinen Grades wird es sich allerdings
als vergleichsweise einfach herausstellen. Zunächst beachte, dass aus p = q1 · q2 auch
grad(p) = grad(q1 ) + grad(q2 )
folgt. Insbesondere ergibt sich für p ∈ K[x] damit
grad(p) = 1 =⇒ p ist irreduzibel.
Die Polynome von Grad 1 sind dabei die einzigen irreduziblen Polynome die eine Nullstelle haben. Ist nämlich p ∈ K[x] ein Polynom mit grad(p) ≥ 2 das eine Nullstelle
a ∈ K besitzt, so liefert Lemma 6 ein Polynom q ∈ K[x] mit grad(q) = grad(p) − 1 ≥ 1
und p = q · (x − a), d.h. p ist nicht irreduzibel. Dies zeigt
p ∈ K[x] irreduzibel, grad(p) ≥ 2 =⇒ p hat keine Nullstellen in K.
Umgekehrt ist dies falsch, beispielsweise hat das Polynom x4 + 1 ∈ R[x] keine reelle
Nullstelle, ist aber trotzdem nicht irreduzibel. Man kann x4 +1 als ein Produkt von zwei
quadratischen Polynomen schreiben. Für die Behandlung von Beispielen ist es praktisch
zu wissen, dass die Umkehrung für Polynome von Grad 2 und 3 gilt. Ist p ∈ K[x] mit
grad(p) ∈ {2, 3} und schreiben wir p = q1 · q2 mit grad(q1 ) ≥ 1, grad(q2 ) ≥ 1, so hat
79
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
wegen grad(q1 ) + grad(q2 ) = grad(p) ∈ {2, 3} eines der beiden Polynome q1 , q2 den
Grad 1, und wir schreiben qi = ax + b mit i ∈ {1, 2}, a, b ∈ K, a 6= 0. Dann ist −b/a
eine Nullstelle von qi und damit auch von p. Dies zeigt
p ∈ K[x] mit grad(p) ∈ {2, 3} hat keine Nullstelle =⇒ p ist irreduzibel.
Wie bemerkt sind die irreduziblen Polynome so etwas wie die Primzahlen unter den
Polynomen. Entsprechend der Tatsache das sich jede natürliche Zahl n ≥ 2 als Produkt
von Primzahlen schreiben läßt, kann man auch jedes Polynom von Grad mindestens 1
als Produkt irreduzibler Polynome schreiben.
Lemma 4.25 (Zerlegung in irreduzible Faktoren)
Seien K ein Körper und p ∈ K[x] ein Polynom mit grad(p) ≥ 1. Dann existieren
irreduzible Polynome p1 , . . . , ps ∈ K[x] mit p = p1 · . . . · ps .
Beweis: Wir beweisen die Aussage durch Induktion nach n = grad(p). Ist p ∈ K[x]
mit grad(p) = 1, so haben wir oben schon festgehalten das p selbst irreduzibel ist, und
insbesondere ein Produkt irreduzibler Polynome ist, also s = 1 und p1 = p. Nun sei
n ≥ 2 und die Aussage gelte bereits für alle Polynome p ∈ K[x] mit 1 ≤ grad(p) < n.
Sei p ∈ K[x] ein Polynom mit grad(p) = n. Dann können zwei Fälle auftreten.
Fall 1. Das Polynom p ist irreduzibel. Dann ist p insbesondere wieder ein Produkt
irreduzibler Polynome mit s = 1 und p1 = p.
Fall 2. Das Polynom p ist nicht irreduzibel. Dann gibt es Polynome q1 , q2 ∈ K[x] mit
grad(q1 ) ≥ 1, grad(q2 ) ≥ 1 und p = q1 · q2 . Wegen grad(q1 ) + grad(q2 ) = grad(p) = n
ist auch grad(q1 ), grad(q2 ) < n. Also können wir unsere Induktionsannahme anwenden
und erhalten irreduzible Polynome p1 , . . . , ps ∈ K[x] und ps+1 , . . . , ps+t ∈ K[x] mit
q1 = p1 · . . . · ps und q2 = ps+1 · . . . · ps+t . Damit ist insgesamt
p = q1 · q1 = p1 · . . . · ps · ps+1 · . . . · ps+t ,
und auch p ist als Produkt irreduzibler Polynome geschrieben.
Man kann zeigen, dass die Zerlegung in irreduzible Polynome im wesentlichen eindeutig
ist, also bis auf Umordnung der Faktoren und Multiplikation mit Konstanten. Diese
Tatsache wollen wir hier aber nicht mehr beweisen. Oft beschränkt man sich für die
Faktoren p1 , . . . , ps auf normierte, irreduzible Polynome. Ein normiertes Polynom war
dabei ein Polynom dessen höchster Koeffizient 1 ist, also ein Polynom der Form xn +
an−1 xn−1 + · · · + a0 . Dann muss man aber zusätzlich einen konstanten Faktor zulassen.
Etwas ausführlicher kann man also jedes Polynom p ∈ K[x] mit grad(p) ≥ 1 als ein
Produkt
p = ap1 · . . . · ps
schreiben, wobei p1 , . . . , ps normierte, irreduzible Polynome sind und a ∈ K\{0} der
höchste Koeffizient des Polynoms p ist. Besonders wichtig ist der Fall wenn alle Polynome p1 , . . . , ps den Grad 1 haben. Dann kann man pi = x − ai mit ai ∈ K schreiben
80
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
und hat
p = a(x − a1 ) · . . . · (x − as ).
Damit ist s = grad(p) dann der Grad von p und a1 , . . . , as sind die Nullstellen von
p. Dabei kann es durchaus passieren das dieselbe Nullstelle mehrfach aufgelistet wird,
man sagt das a1 , . . . , as die mit Vielfachheiten aufgelisteten Nullstellen von p sind und
das das Polynom p in Linearfaktoren zerfällt.
In Anbetracht des Zerlegungssatzes Lemma 25 ist es von Interesse die irreduziblen
Polynome über K möglichst explizit zu kennen. Leider hängt die Gestalt irreduzibler
Polynome sehr stark von Körper K ab. U”ber dem Körper mit zwei Elementen zeigte
Aufgabe (23) das es beispielsweise genau 1342176 irreduzible Polynome von Grad 25
über diesem Körper gibt, hier ist also keine gute explizite Beschreibung zu erwarten.
Über den komplexen Zahlen werden wir gleich sehen, dass die irreduziblen Polynome
genau die Polynome von Grad 1 sind, und über den reellen Zahlen haben irreduzible
Polynome immer den Grad 1 oder 2. Über den rationalen ist die Lage dann schon
wieder wesentlich komplizierter.
4.5
Polynome in C
Wir kommen jetzt speziell zu komplexen Polynomen p ∈ C[x]. Für diese vereinfachen
sich die oben eingeführten Begriffe wesentlich, die irreduziblen Polynome sind genau
die Polynome von Grad 1. Diese Tatsache beruht auf dem folgenden, leider schon recht
komplizierten, Satz.
Satz 4.26: Jedes Polynom p ∈ C[x] mit grad(p) ≥ 1 hat in C eine Nullstelle.
Beweis: Da ein Beweis dieses Satzes schon etwas fortgeschrittene Hilfsmittel benötigt,
soll hier auf den Beweis verzichtet werden.
Wir hatten im letzten Abschnitt bemerkt, dass irreduzible Polynome von Grad mindestens 2 keine Nullstellen haben können, also ergibt Satz 26 sofort das für komplexe
Polynome p ∈ C[x] die Äquivalenz
p ist irreduzibel ⇐⇒ grad(p) = 1
besteht. Damit erhalten wir jetzt auch
Satz 4.27 (Fundamentalsatz der Algebra)
Sei p ∈ C[x] ein komplexes Polynom von Grad n := grad(p) ≥ 1 mit höchsten Koeffizienten a ∈ C\{0}. Dann zerfällt p in Linearfaktoren und hat mit Vielfachheiten n
komplexe Nullstellen a1 , . . . , an ∈ C, also
p = a(x − a1 ) · . . . · (x − an ).
81
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Beweis: Dies ist klar nach Lemma 25 und der obigen Bemerkung über irreduzible,
komplexe Polynome.
4.6
Polynome in R
Über den reellen Zahlen ist die Lage etwas komplizierter als über den komplexen Zahlen.
Wir wollen uns einmal überlegen das jedes irreduzible, reelle Polynom Grad 1 oder 2
hat. Sei also ein irreduzibles Polynom p ∈ R[x] gegeben, und durch Multiplikation mit
einer Konstante können wir annehmen das der höchste Koeffizient von p gleich Eins
ist. Es können zwei verschiedene Fälle auftreten.
1. Im ersten Fall hat das Polynom p eine reelle Nullstelle a ∈ R. Dann muss p(x) =
x − a sein und insbesondere hat p den Grad 1.
2. Im zweiten Fall hat p keine reelle Nullstelle. Nach Satz 26 hat p dann zumindest
eine komplexe Nullstelle a ∈ C\R. Schreiben wir p(x) = pp + p1 x + · · · + pn xn , so
folgt mit den Rechenregeln für die komplexe Konjugation auch
p(a) = p0 + p1 a + · · · + pn an = p0 + p1 a + · · · + pn an = p(a) = 0,
d.h. auch das konjugiert komplexe a von a ist eine Nullstelle von p. Damit können
wir das Polynom p ohne Rest durch die Linearfaktoren x − a und x − a teilen,
d.h. es gibt ein Polynom q ∈ R[x] mit
p(x) = q(x)(x−a)(x−a) = q(x)·(x2 −(a+a)x+aa) = q(x)·(x2 −2 Re(a)x+|a|2 ).
Somit ist p ein Vielfaches des reellen Polynoms x2 − 2 Re(a)x + |a|2 ∈ R[x] und da
p irreduzibel ist, muss damit sogar p(x) = x2 − 2 Re(a)x + |a|2 , also insbesondere
grad(p) = 2, sein.
Bei Polynomen in R läßt sich generell keine Aussage über die Anzahlen der reellen
Nullstellen treffen. Wir wollen hier nur eine Tatsache festhalten, die nicht nur für
Polynome, sondern allgemein für die sogenannten stetigen Abbildungen wahr ist.
Lemma 4.28: Seien p ∈ R[x] ein Polynom und a, b ∈ R mit a < b. Es gelte p(a)·p(b) <
0, d.h. p(a) und p(b) haben verschiedene Vorzeichen. Dann existiert ein x ∈ R mit
a < x < b und p(x) = 0, d.h. das Polynom p hat eine Nullstelle zwischen a und b.
Diese Tatsache wollen wir hier nicht beweisen, da sie sich später als ein Spezialfall
des sogenannten Zwischenwertsatzes für stetige Funktionen ergeben wird. Anschaulich
ist das Lemma sowieso klar, ist p etwa bei x = a positiv und bei x = b negativ, so
muss p(x) zwischendurch auch irgendwo Null sein, da der Graph von p die x-Achse ja
nicht überspringen kann“. Da Polynome ungeraden Grades für |x| ausreichend groß
”
stets links und rechts verschiedenes Vorzeichen haben, folgt das jedes reelle Polynom
82
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
ungeraden Grades eine reelle Nullstelle hat. Alternativ kann man dies auch folgern
indem verwendet wird das irreduzible Polynome über R immer Grad 1 oder 2 haben.
Vorlesung 11, Donnerstag 24.5.2012
Wir sind noch mit der Behandlung reeller Polynome beschäftigt, und wollen kurz
auf eine Methode zur numerischen Berechnung der Nullstellen solcher Polynome p
eingehen. Diese Methode beruht auf dem letzten Lemma der vorigen Sitzung, nach
dem zwischen je zwei reellen Zahlen a, b für die die Werte p(a) und p(b) verschiedenes
Vorzeichen haben stets eine Nullstelle des Polynoms p liegt.
4.6.1
Intervallhalbierungsverfahren
Das Lemma 28 liefert uns auch ein erstes, wenn auch nicht besonders gutes, Verfahren
zum Berechnen der Nullstellen eines reellen Polynoms. Mit Berechnen“ ist dabei die
”
näherungsweise Berechnung der Nullstelle gemeint. Das Intervallhalbierungsverfahren
läuft wie folgt ab.
Gegeben sind ein Polynom p ∈ R[x] und zwei reelle
Zahlen a, b ∈ R mit a < b und p(a)p(b) < 0. Wir wissen das es zwischen a und b eine Nullstelle des Polynoms
gibt. Setze a0 := a, b0 := b und bestimme den Mittelpunkt c0 := (a0 + b0 )/2 des Intervalls [a, b]. Ist zufällig
x=a
x=b
p(c0 ) = 0, so haben wir bereits eine Nullstelle gefunden.
Andernfalls ist p(c0 ) > 0 oder p(c0 ) < 0. Da die Vorzeichen von p(a0 ) und p(b0 ) verschieden sind, haben entweder p(a0 ), p(c0 ) oder p(c0 ), p(b0 ) verschiede Vorzeichen, es
gilt also entweder p(a0 )p(c0 ) < 0 oder p(c0 )p(b0 ) < 0. Wir
betrachten jetzt nur noch dasjenige der beiden halbierten
Intervalle [a0 , c0 ] und [c0 , b0 ] bei dem die Vorzeichen von
p an den beiden Seiten verschieden sind, d.h. wir setzen
(
(
a0 , p(a0 )p(c0 ) < 0,
c0 , p(a0 )p(c0 ) < 0,
a1 :=
und b1 :=
c0 , p(c0 )p(b0 ) < 0,
b0 , p(c0 )p(b0 ) < 0.
Dann ist [a1 , b1 ] ein Intervall der Länge (b − a)/2 mit p(a1 )p(b1 ) < 0. Nun können wir
unser Vorgehen wiederholen, wir bilden also erneut den Mittelpunkt c1 := (a1 + b1 )/2
und setzen
(
(
a1 , p(a1 )p(c1 ) < 0,
c1 , p(a1 )p(c1 ) < 0,
und b2 :=
a2 :=
c1 , p(c1 )p(b1 ) < 0,
b1 , p(c1 )p(b1 ) < 0
83
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
erhalten also ein Intervall [a2 , b2 ] der Länge (b−a)/4 in dem noch immer Nullstelle liegt.
So fortfahrend kriegt man immer kleinere Intervalle [an , bn ] und es gibt eine Nullstelle
x von p mit an ≤ x ≤ bn . Der Fehler von an zur Nullstelle x ist höchstens
|x − an | ≤ bn − an =
b−a
.
2n
Führe wir den Halbierungsschritt also oft genu durch, so ergeben sich beliebig genaue
Näherungen für die Nullstelle x. Wenn die Intervalllänge unter eine vorgegebene Genauigkeitsschranke fällt, so können wir das Verfahren abbrechen und etwa den linken
Randpunkt des gerade betrachteten Intervalls als Näherung der Nullstelle nehmen. Ein
Beispiel wollen wir hier jetzt nicht vorführen, da wir dies etwas später für das allgemeine
Halbierungsverfahren tun werden.
4.7
Horner Schema
Das Horner-Schema ist ein Algorithmus zur möglichst effizienten Berechnung von Werten eines Polynoms. Wir interessieren uns hier hauptsächlich für den Fall reeller Polynome, das Hornerschema selbst funktioniert aber auch bei beliebigen Grundkörper.
Wir beginnen mit einem Beispiel, und betrachten das Polynom
p(x) = 2x5 − 3x4 + 2x3 + 2x2 − 5x + 1 ∈ R[x].
Angenommen wir wollen den Funktionswert p(x) für ein konkret gegebenes x ∈ R ausrechnen. Wenn wir ganz direkt vorgehen berechnen wir zunächst die Potenzen x2 , x3 , x4
und x5 . Für x2 brauchen wir eine Multiplikation, für x3 zwei Stück, für x4 drei und für
x5 schließlich vier Multiplikationen. Dies sind insgesamt 1+2+3+4 = 10 Multiplikationen zur Berechnung der Potenzen. Dann wird jede Potenz xk , k = 1, 2, 3, 4, 5 mit ihrem
Koeffizienten multipliziert und wir haben weitere fünf Multiplikationen durchzuführen,
also insgesamt 15 Multiplikationen. Zum Schluß muss alles aufaddiert werden, wozu
fünf Additionen notwendig sind. Insgesamt ist der benötigte Aufwand also
15 Multiplikationen und 5 Additionen, also insgesamt 20 Rechenoperationen.
Dies können wir leicht etwas verbessern. Bei der Berechnung der Potenzen von x kann
man einige Rechenschritte einsparen indem die Gleichungen x3 = x2 · x, x4 = x3 · x
und x5 = x4 · x verwendet werden. Wenn Sie die Auswertung als eine Schleife implementieren verwendet man nahezu zwangsläufig diese Berechnung der Potenzen. Man
braucht dann für jede der Potenzen x2 , x3 , x4 und x5 jeweils eine Multiplikation, also
nur 4 Multiplikationen statt der 10 von oben. Damit reduziert sich der Rechenaufwand
auf
9 Multiplikationen und 5 Additionen, also insgesamt 14 Rechenoperationen.
84
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
Es geht aber noch besser, eben mit dem Hornerschema. In diesem konkreten Beispiel
muss man nur das Polynom p(x) etwas umschreiben
2x5 − 3x4 + 2x3 + 2x2 − 5x + 1 =
=
=
=
(2x4 − 3x3 + 2x2 + 2x − 5) · x + 1
((2x3 − 3x2 + 2x + 2) · x − 5) · x + 1
(((2x2 − 3x + 2) · x + 2) · x − 5) · x + 1
((((2x − 3) · x + 2) · x + 2) · x − 5) · x + 1,
Berechnen wir jetzt diesen Ausdruck von der innersten zur äußersten Klammer, so
müssen wir fünf mal mit x multiplizieren und fünf Additionen durchführen. Der Rechenaufwand in dieser Methode ist also
5 Multiplikationen und 5 Additionen, also insgesamt 10 Rechenoperationen,
und wir haben erneut vier Multiplikationen eingespart. Überlegen wir uns nun wie das
für ein allgemeines Polynom
p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0
n-ten Grades aussieht. Bestimmen wir zunächst einmal den Rechenaufwand bei Verwendung der ersten Methode. Zur Berechnung der Potenzen x2 , x3 , . . . , xn benötigt
man
n(n − 1)
1 + 2 + · · · + (n − 1) =
2
Multiplikationen. Dann wird jede x-Potenz mit ihrem Koeffizienten multipliziert, also
weitere n Multiplikationen, und anschließend werden n Additionen durchgeführt. Der
Gesamtaufwand sind also
n(n − 1)
n(n + 1)
+n=
2
2
Multiplikationen und n Additionen, insgesamt
n(n + 1)
n(n + 3)
+n=
2
2
Rechoperationen. In der zweiten Methode, also mit x3 = x·x2 , . . . brauchen wir dagegen
nur n − 1 Multiplikationen zur Berechnung der Potenzen von x, haben also
n − 1 + n = 2n − 1 Multiplikationen und n Additionen, insgesamt 2n − 1 + n = 3n − 1
Rechenoperationen. Beim Hornerschema schreibt man p(x) analog zum oben behandelten Beispiel um
p(x) = a0 + x · (a1 + x · (. . . + x · (an−1 + an x) . . .)),
wobei wir der Übersichtlichkeit halber die Reihenfolge der Terme im Vergleich zum
Beispiel umgedreht haben. Hier wird n mal mit x multipliziert und n mal addiert, der
Rechenaufwand sind also
85
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
n Multiplikationen und n Additionen, also insgesamt 2n Rechenoperationen.
Das Hornerschema ist also im Verhältnis 2 zu 3 effizienter als die direkte Polynomauswertung. Beim Rechnen per Hand bietet es sich an die Auswertung des Hornerschemas
in einer tabellarischen Form durchzuführen. Es wird eine Tabelle mit drei Zeilen und
n + 1 Spalten angelegt, in deren oberster Zeile die Koeffizienten des Polynoms in fallender Reihenfolge, also beginnend mit dem höchsten Koeffizienten und endend mit
dem konstanten Koeffizienten, geschrieben werden. In der ersten Spalte werden dann
die mittlere Zeile freigelassen und in der untersten Zeile wird der Eintrag der obersten
wiederholt. In unserem Beispiel p(x) = 2x5 − 3x4 + 2x3 + 2x2 − 5x + 1 beginnen wir
also mit
2 −3 2 2 −5 1
2
Jede der weiteren Spalten entspricht jetzt einem Rechenschritt im Hornerschema
p(x) = ((((2x − 3) · x + 2) · x + 2) · x − 5) · x + 1,
also einer Multiplikation mit x gefolgt von der Addition eines der Koeffizienten. Beim
ersten Schritt wird dabei 2x − 3 gerechnet, also der höchste Koeffizient mit x multipliziert und der zweithöchste dazuaddiert. In der Tabelle wird dazu der Eintrag der
untersten Zeile mit x multipliziert, und das Ergebnis in die mittlere Zeile in der nächsten
Spalte eingetragen. Dann werden die ersten beiden Zeilen der nächsten Spalte miteinander addiert und das Ergebnis in die untere Zeile geschrieben. Rechnen wir im Beispiel
mit x = 2, so haben wir nach dem ersten Schritt also
2 −3 2 2 −5 1
4
2 1
Im nächsten Schritt wird das Ergebnis von 2x − 3 wieder mit x multipliziert und
dann wird 2 dazuaddiert. Dies wird dann in der dritten Spalte gemacht, der Eintrag
der untersten Zeile in der zweiten Spalte wird mit x multipliziert, das Produkt in die
mittlere Zeile eingetragen und dann werden die beiden oberen Einträge der dritten
Spalte addiert und die Summe wird in die untere Zeile geschrieben. Im Beispiel also
2 −3 2 2 −5 1
4 2
2 1 4
In der unteren Zeile steht also immer das momentane Zwischergebnis. Fährt man von
links nach rechts fort, so steht zum Schluß in der rechten unteren Ecke das Endergebnis
p(x). Im Beispiel ist die vollständige Tabelle dann
2 −3 2 2 −5 1
4 2 8 20 30
2 1 4 10 15 31
86
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
es ist also p(2) = 31.
$Id: metrik.tex,v 1.11 2012/05/29 15:07:05 hk Exp $
§5
Metrische Räume
Mit dem letzten Kapitel haben wir den algebraischen Teil abgeschlossen und kommen nun zur sogenannten Analysis. Grob gesagt befasst sich diese mit allen das mit
Grenzwerten zu tun hat. Zunächst führen wir den Begriff einer Metrik ein. Dies ist
die abstrakte Form eines Abstandsbegriffs. In einer mit einer Metrik versehenen Menge ist je zwei Punkten ein Abstand“ zugeordnet, der die in der folgenden Definition
”
genannten Bedingungen erfüllt.
Definition 5.1: Sei X eine Menge. Eine Abbildung d : X × X → R≥0 heißt eine Metrik
auf X, wenn:
(M1) Für x, y ∈ X ist genau dann d(x, y) = 0 wenn x = y gilt. Jeder Punkt von X
hat also zu sich, und nur zu sich, den Abstand Null.
(M2) Der Abstand ist symmetrisch, d.h. für alle x, y ∈ X ist d(x, y) = d(y, x), der
Abstand von x zu y ist genauso groß wie der Abstand von y zu x.
(M3) Der Abstand erfüllt die Dreiecksungleichung
d(x, z) ≤ d(x, y) + d(y, z)
für alle x, y, z ∈ X.
Das Paar (X, d) heißt dann ein metrischer Raum.
Wir wollen jetzt einige Beispiele metrischer Räume besprechen.
(1) Die Menge X = R der reellen Zahlen wird mit dem Abstand
d(x, y) := |x − y| (x, y ∈ R)
zum metrischen Raum. In anderen Worten ist d(x, y) die Länge des Intervalls zwischen
x und y, also das was man sich auch intuitiv unter dem Abstand zweier reeller Zahlen
vorstellt. Wir wollen einmal die Axiome eines metrischen Raums nachweisen. Seien
x, y, z ∈ R gegeben. Zunächst ist
d(x, y) = 0 ⇐⇒ |x − y| = 0 ⇐⇒ x − y = 0 ⇐⇒ x = y.
Die Symmetrie ist ebenfalls recht leicht, für jede reelle Zahl u ∈ R ist ja offenbar
| − u| = |u|, und somit auch
d(y, x) = |y − x| = | − (x − y)| = |x − y| = d(x, y).
87
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
Die Dreiecksungleichung wird schließlich auf die Dreiecksungleichung der Betragsfunktion zurückgeführt
d(x, z) = |x − z| = |(x − y) + (y − z)| ≤ |x − y| + |y − z| = d(x, y) + d(y, z).
Damit ist d tatsächlich eine Metrik.
(2) In der Ebene X = R2 wird durch
p
d((x1 , y1 ), (x2 , y2 )) := (x1 − x2 )2 + (y1 − y2 )2
(x1 , x2 , y1 , y2 ∈ R)
eine Metrik definiert, die sogenannte euklidische Metrik auf R2 . Betrachten wir R2 = C
als die Gaußsche Zahlenebene, so können wir die Metrik auch als d(z1 , z2 ) = |z1 − z2 |
für z1 , z2 ∈ C schreiben, und mit Hilfe von §4.Lemma 22 läßt sich der obige Beweis das
d eine Metrik ist, auf diesen Fall übertragen.
(3) Als nächstes wollen wir die sogenannte Taxi-Metrik auf X = R2 einführen. Anschaulich denken wir uns wie untenstehend gezeigt eine am Reißbrett angelegte Statt,
und einen Taxifahrer der auf den kürzesten Weg vom Punkt (x1 , y1 ) zum Punkte (x2 , y2 )
fahren will. Da die Straßen alle nur horizontal und vertikal verlaufen, müssen die Unterschiede in x– und y-Koordinaten einzelnen durchfahren werden. Der Abstand in den
x-Koordinaten ist dabei |x1 −x2 | und der in den y-Koordinaten |y1 −y2 |. Die Taximetrik
wird damit als
d((x1 , y1 ), (x2 , y2 )) := |x1 − x2 | + |y1 − y2 |
definiert.
Das es sich hierbei wirklich um eine Metrik handelt wird in Aufgabe (34) nachgewiesen.
(4) Wir betrachten auch noch eine weitere Metrik auf X = R2 die sogenannte `∞ Metrik. Hier definieren wir den Abstand zweier Punkte (x1 , y1 ), (x2 , y2 ) ∈ R2 als
d((x1 , y1 ), (x2 , y2 )) = max{|x1 − x2 |, |y1 − y2 |}.
Das dies eine Metrik wird ebenfalls in Aufgabe (34) behandelt.
88
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
(5) Die Metriken in (2), (3) und (4) kann man auch auf den n-dimensionalen Fall
verallgemeinern. Man erhält für x, y ∈ X = Rn
v
u n
uX
d(x, y) := t (xk − yk )2 ,
(euklidische Metrik),
k=1
d1 (x, y) :=
n
X
|xk − yk |,
(`1 -Metrik),
max |xk − yk |,
(`∞ -Metrik).
k=1
d∞ (x, y) :=
1≤k≤n
Die n-dimensionale euklidische Metrik ist weiterhin die Länge der Verbindungsstrecke
von x nach y, also der richtige“ geometrische Abstand der beiden Punkte. Die `1 ”
Metrik ist die n-dimensionale Verallgemeinerung der zweidimensionalen Taximetrik.
Auf den Beweis das all dies wirklich Metriken sind wollen wir hier verzichten.
(6)Als ein letztes Beispiel einer Metrik wollen wir auch noch ein etwas diskreteres“
”
Beispiel vorführen. Gegeben sei ein ungerichteter, zusammenhängender Graph Γ =
(V, E). Sind dann x, y ∈ V zwei verschiedene Punkte im Graphen, so gibt es immer
einen Weg der diese beiden Punkte verbindet, und die kleinstmögliche Länge eines
solchen Weges definieren wir als den Abstand von x und y, also
∃(x0 , x1 , . . . , xn ∈ V ) : x0 = x ∧ xn = y
d(x, y) := min n ∈ N .
∧∀(1 ≤ i ≤ n) : (xi−1 , xi ) ∈ E
Dies definiert tatsächlich eine Metrik, die Eigenschaften (M1) und (M2) sind klar und
für (M3) geben wir uns drei Punkte x, y, z ∈ V vor, wählen einen Weg der Länge
d(x, y) von x nach y und einen Weg der Länge d(y, z) von y nach z. Hängen wir diese
beiden Wege aneinander, so ergibt sich ein Weg der Länge d(x, y) + d(y, z) von x nach
z. Der kleinstmögliche Weg von x nach z ist höchstens kleiner, also haben wir die
Dreiecksungleichung d(x, z) ≤ d(x, y) + d(y, z).
Mit Hilfe des Abstandsbegriffs kann man in einem metrischen Raum diverse geometrische Begriffe einführen. Wir beginnen mit den sogenannten Kugeln.
Definition 5.2: Sei (X, d) ein metrischer Raum. Sind x ∈ X ein Punkt und > 0 ein
positiver Radius, so heißt die Menge
U (x) := {y ∈ X|d(x, y) < } ⊆ X
die offene Kugel mit Mittelpunkt x und Radius . Weiter heißt
U (x) := {y ∈ X|d(x, y) ≤ } ⊆ X
die abgeschlossene Kugel mit Mittelpunkt x und Radius .
Das Wort Kugel“ darf man dabei nicht allzu wörtlich nehmen, welche Gestalt die
”
Kugeln eines metrischen Raums haben hängt stark von der verwendeten Metrik ab.
Einige Beispiele von Kugeln bezüglich verschiedener Metriken in der Ebene X = R2
sind
89
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
ε
ε
x
ε
x
Euklidische Metrik
Taxi-Metrik (`1 -Metrik)
x
`∞ -Metrik
Die Randlinien gehören dabei zur abgeschlossenen Kugel aber nicht zur offenen Kugel.
Als ein weiteres Beispiel sei wieder Γ = (V, E) ein ungerichteter, zusammenhängender
Graph und betrachte wieder die durch eine minimale Länge eines Verbindungswegs
gegebene Metrik auf V . Ist dann x ∈ V ein Punkt des Graphen, so besteht die abgeschlossene Kugel U n (x) für jedes n ∈ N genau aus den Punkten y von V , die sich von
x ausgehend durch höchstens n Kanten erreichen lassen. Kommen wir jetzt wieder zur
Theorie zurück.
Definition 5.3: Sei X ein metrischer Raum. Eine Menge U ⊆ X heißt Umgebung eines
Punktes x ∈ X wenn es ein > 0 mit U (x) ⊆ U gibt. Insbesondere muss dann also
x ∈ U sein.
Mit diesem Begriff verwandt ist die Definition der inneren Punkte einer Menge in
einem metrischen Raum.
Definition 5.4: Seien X ein metrischer Raum und M ⊆ X eine Teilmenge. Ein Punkt
x ∈ M heißt innerer Punkt von M wenn M eine Umgebung von x ist, wenn es also ein
> 0 mit U (x) ⊆ M gibt.
Haben wir beispielsweise X = R2 in der euklidischen Metrik und betrachten die
abgeschlossene Kugel
M := U 1 ((0, 0)) = {(x, y) ∈ R2 |x2 + y 2 ≤ 1},
also den abgeschlossenen Einheitskreis in der Ebene, so sind die inneren Punkte von M
offenbar genau diejenigen (x, y) ∈ M die nicht auf Randkreis liegen, also die (x, y) ∈ R2
mit x2 + y 2 < 1. Betrachten wir dagegen die offene Kugel
M = U1 ((0, 0)) = {(x, y) ∈ R2 |x2 + y 2 < 1},
so ist jeder Punkt von M ein innerer Punkt von M . Mengen mit dieser Eigenschaft
stellen sich als ausreichend wichtig heraus um einen eigenen Namen zu erhalten, wir
definieren:
Definition 5.5: Sei X ein metrischer Raum. Eine Teilmenge U ⊆ X heißt offen in X,
wenn jeder Punkt x ∈ U ein innerer Punkt von U ist. Setzen wir die Definition einer
inneren Punktes ein, so ist dies weiter genau dann der Fall wenn es für jedes x ∈ U ein
> 0 mit U (x) ⊆ U gibt.
90
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Weiter heißt eine Menge M ⊆ X abgeschlossen in X, wenn ihr Komplement X\M
offen in X ist.
Zu Beispielen werden wir in der nächsten Sitzung kommen.
Vorlesung 12, Dienstag 29.5.2012
Am Ende der letzten Sitzung hatten wir eine Teilmenge U eines metrischen Raums
(X, d) offen genannt wenn sie eine Umgebung jedes ihrer Punkt ist, oder gleichwertig
wenn es für jedes x ∈ U eine positive reelle Zahl > 0 mit U (x) ⊆ U gibt. Eine Menge
deren Komplement offen ist nennen wir abgeschlossen. Wir gehen jetzt einige Beispiele
durch.
1. Ist X ein beliebiger metrischer Raum, so können wir X selbst als eine Teilmenge
von X betrachten. Die Menge X ist dann offen, denn ist x ∈ X ein beliebiger
Punkt, so ist zum Beispiel U1 (x) ⊆ X und x ist innerer Punkt von X. Gleichzeitig
ist X auch abgeschlossen in X, denn das Komplement von X in X ist X\X = ∅
die leere Menge, und diese ist offen. Damit ist X, und auch ∅, gleichzeitig offen
und abgeschlossen in X.
2. Ist X ein metrischer Raum, so sind die offenen Kugeln auch in X offene Mengen
und die abgeschlossenen Kugeln sind in X abgeschlossene Mengen. Dies ist gerade
Aufgabe (39).
3. Die rechte Halbebene M := {(x, y) ∈ R2 |x > 0} ist offen in X = R2 mit der
euklidischen Metrik. Das Komplement R2 \M = {(x, y) ∈ R2 |x ≤ 0} ist dagegen
nicht offen, da die Punkte (0, y), y ∈ R keine inneren Punkte von R2 \M sind,
d.h. die Menge M ist nicht abgeschlossen.
4. Die Teilmenge Q ⊆ R ist weder offen noch abgeschlossen. Dies ist klar, da jedes
nicht leere, offene Intervall sowohl rationale als auch irrationale Zahlen enthält.
Insbesondere sind offen“ und abgeschlossen“ keine Gegensätze alle möglichen Kom”
”
binationen von offen und abgeschlossen können vorkommen, was gerne als Mengen
”
sind keine Türen“ formuliert wird. Wir wollen jetzt einige der Eigenschaften offener
und abgeschlossener Mengen nachweisen.
Lemma 5.6 (Grundeigenschaften offener Mengen)
Sei (X, d) ein metrischer Raum. Dann sind beliebige Vereinigungen offener Teilmengen
von X und endliche Durchschnitte offener Teilmengen von X wieder offen in X.
Beweis: Wir beginnen mit Vereinigungen. Sei also (Ui )i∈I eine Familie offener Teilmengen von X, wobei I irgendeine Indexmenge ist. Wir wollen zeigen, dass dann auch die
91
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Vereinigung
[
Ui = {x ∈ X|∃(i ∈ I) : x ∈ Ui }
i∈I
S
offen in X ist. Sei also x ∈ i∈I Ui . Dann existiert ein j ∈ I mit x ∈ Uj und da Uj in
X offen ist, existiert weiter ein > 0 mit U (x) ⊆ Uj . Damit ist aber auch
[
U (x) ⊆ Uj ⊆
Ui .
i∈I
S
Folglich ist die Vereinigung i∈I Ui tatsächlich offen.
Wir kommen jetzt zu den endlichen Durchschnitten offener Mengen. Dabei reicht
es zu zeigen, dass für je zwei offene Mengen U, V ⊆ X auch U ∩ V wieder offen in X
ist. Denn sind dann U1 , . . . , Un mit n ∈ N endlich viele offene Teilmengen von X, so
haben wir
n
\
Ui = (. . . ((U1 ∩ U2 ) ∩ U3 ) . . . ∩ Un−1 ) ∩ Un ,
i=1
und durch iterierte Anwendung des Falls zweier offener Mengen ist auch dies wieder eine
offene Teilmenge von X. Streng genommen müßte man hier eigentlich eine Induktion
durchführen, aber darauf wollen wir hier verzichten.
Seien jetzt also zwei offene Mengen U, V ⊆ X gegeben. Sei x ∈ U ∩ V . Da U und V
beide offen sind, gibt es Zahlen 1 , 2 > 0 mit U1 (x) ⊆ U und U2 (x) ⊆ V . Setze jetzt
:= min{1 , 2 } > 0.
Dann haben wir
U (x) ⊆ U1 (x) ∩ U2 (x) ⊆ U ∩ V.
Damit ist auch U ∩ V eine offene Teilmenge von X.
Dagegen müssen unendliche Durchschnitte offener Mengen im Allgemeinen nicht mehr
offen sein. Ein einfaches Beispiel ist
∞ \
1 1
− ,
= {0}
n n
n=1
in X = R versehen mit der euklidischen Metrik. Offene Intervalle sind auch offene
Mengen, zum Beispiel da ein offenes Intervall (a, b) für a, b ∈ R mit a < b gleich
der offenen Kugel (a, b) = U(b−a)/2 ((a + b)/2) ist. Links steht hier also ein Durchschnitt
offener Mengen. Dagegen ist die Menge {0} nicht offen in R. Dass eine reelle Zahl deren
Betrag kleiner als 1/n für jedes n ∈ N ist, schon gleich Null ist, sollte anschaulich klar
sein. Formal folgt es aus der archimedischen Eigenschaft der reellen Zahlen §4.Lemma
16.
Durch Komplementbildung erhalten wir aus Lemma 6 auch eine entsprechende
Aussage über abgeschlossene Mengen.
92
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Lemma 5.7 (Grundeigenschaften abgeschlossener Mengen)
Sei (X, d) ein metrischer Raum. Dann sind beliebige Durchschnitte abgeschlossener
Teilmengen von X und endliche Vereinigungen abgeschlossener Teilmengen von X wieder abgeschlossen in X.
Beweis: Sei (Ai )i∈I eine Familie abgeschlossener Teilmengen von X, wobei I wieder
irgendeine Indexmenge ist. Für jedes i ∈ I ist das Komplement X\A
Si dann eine offene
Teilmenge von X. Folglich ergibt Lemma 6 das die Vereinigung i∈I (X\Ai ) wieder
eine offene Teilmenge von X ist. Wenden wir jetzt die de-Morganschen Regeln aus Teil
A im letzten Semester an, so ergibt sich das
!
\
[
X\
Ai = (X\Ai )
i∈I
i∈I
T
offen in X ist, d.h. i∈I Ai ist abgeschlossen in X.
Wir kommen jetzt zu den endlichen Vereinigungen. Seien also n ∈ N und abgeschlossene Mengen A1 , . . . T
, An ⊆ X gegeben. Erneut ist für jedes 1 ≤ i ≤ n dann
X\Ai offen in X, also ist ni=1 (X\Ai ) nach Lemma 6 auch offen in X. Eine erneute
Anwendung der de-Morganschen Regeln ergibt, dass auch
!
n
n
\
[
X\
Ai = (X\Ai )
i=1
i=1
offen in X ist, d.h.
Sn
i=1
Ai ist abgeschlossen in X.
Genau wie beliebige Durchschnitte offener Mengen nicht unbedingt offen sein müssen,
sind auch beliebige Vereinigungen abgeschlossener Mengen im Allgemeinen nicht mehr
abgeschlossen. Beispielsweise ist
∞ [
1
1
−1 + , 1 −
= (−1, 1).
n
n
n=1
Das diese Mengengleichheit besteht ist wieder eine Folgerung aus der archimedischen
Eigenschaft §4.Lemma 16 der reellen Zahlen. Die linke Seite ist hier eine Vereinigung
abgeschlossener Mengen denn jedes abgeschlossene Intervall [a, b] mit a, b ∈ R, a ≤ b
ist tatsächlich auch eine abgeschlossene Menge. Dies ist leicht zu sehen, wir wissen ja
schon das offene Intervalle (a, b) auch offene Mengen sind, und damit ist auch
[
[
R\[a, b] = (−∞, a) ∪ (b, ∞) =
(x, a) ∪ (b, x)
x<a
x>b
nach Lemma 6 eine offene Menge, d.h. das Intervall [a, b] ist eine abgeschlossene Menge.
Das offene Intervall (−1, 1) ist dagegen nicht abgeschlossen den zum Beispiel ist 1 kein
innerer Punkt des Komplements R\(−1, 1) = (−∞, −1] ∪ [1, ∞), d.h. das Komplement
93
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
ist nicht offen und die Menge ist nicht abgeschlossen. Nach diesen Grundeigenschaften wollen wir jetzt den sogenannten Rand einer Teilmenge eines metrischen Raums
einführen.
Definition 5.8: Seien (X, d) ein metrischer Raum und M ⊆ X eine Teilmenge von X.
Ein Punkt x ∈ X heißt ein Randpunkt von M , wenn für jede Umgebung U von x stets
U ∩ M 6= ∅ und U ∩ (X\M ) 6= ∅
gelten. Die Menge aller Randpunkte von M schreiben wir als ∂M .
In anderen Worten liegen die Umgebungen eines Randpunktes weder ganz in M noch
ganz außerhalb von M , was die Namensgebung Randpunkt“ rechtfertigt. Da jede
”
Umgebung von x eine offene Kugel U (x) enthält und umgekehrt diese Kugeln stets
Umgebungen von x sind, haben wir für x ∈ X auch
x ist Randpunkt von M ⇐⇒ ∀( > 0) : U (x) ∩ M 6= ∅ ∧ U (x) ∩ (X\M ) 6= ∅.
Eine weitere Umformulierung ist gelegentlich nützlich. Verneinen wir die definierende
Bedingung an einen Randpunkt, so folgt das x ∈ R2 genau dann kein Randpunkt von
M ⊆ X ist, wenn es eine Umgebung U von x in X mit U ∩ M = ∅ oder U ∩ (X\M ) = ∅
gibt, und dies ist gleichwertig zu U ⊆ X\M oder U ⊆ M . Damit ist x genau dann kein
Randpunkt von M wenn x ein innerer Punkt von M oder von X\M ist. Wir gehen
einige Beispiele von Randpunkten durch.
1. Sei X = R2 mit der euklidischen Metrik und
M := U 1 ((0, 0)) = {(x, y) ∈ R2 |x2 + y 2 ≤ 1}
der abgeschlossene Einheitskreis in der Ebene. Wie schon bemerkt sind die Punkte
(x, y) ∈ R2 mit x2 + y 2 < 1 nach Aufgabe (39) innere Punkt von M . Da M
abgeschlossen ist, ist R2 \M offen, d.h. jeder Punkt der nicht in M liegt ist ein
innerer Punkt von R2 \M . Die Randpunkte von M sind also genau
∂M = {(x, y) ∈ R2 |x2 + y 2 = 1},
d.h. die Punkte der berandenden Kreislinie. Für vernünftige“ Teilmengen des
”
Rn in der euklidischen Metrik ist der Rand einer Menge tatsächlich immer das
was man sich bildlich darunter vorstellt.
2. Als ein Beispiel für unvernünftige Mengen nehmen wir einmal M = Q als Teilmenge von X = R in der euklidischen Metrik. Ist x ∈ R eine beliebige reelle
Zahl und > 0, so ist die Kugel U (x) das Intervall (x − , x + ) und dieses
enthält sowohl rationale als auch irrationale Punkte, d.h. es ist U (x) ∩ M 6= ∅
und U (x) ∩ (X\M ) 6= ∅, und somit ist x ein Randpunkt von M = Q. Damit
∂Q = R.
94
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
3. Nun sei X ein beliebiger metrischer Raum und M = X. Wegen X\X = ∅ ist
dann kein Punkt von X eine Randpunkt von M also ∂X = ∅. Ebenso ist auch
∂∅ = ∅.
4. Dass der Rand einer Teilmenge leer ist, kann auch in nicht ganz so trivialen
Situationen passieren. Um hierfür ein Beispiel zu sehen, betrachten wir X = Q
mit√der√durch d(x, y) = |x − y| gegebenen Metrik. Als Teilmenge nehme M
√ :=
(− 2, 2) ∩ Q. Dann sind M und das Komplement Q\M offen in Q, da ± 2 ja
keine rationale Zahl ist, und somit ist ∂M = ∅.
Der letzte noch einzuführende Begriff ist der sogenannte Abschluß einer Menge in einem
metrischen Raum.
Definition 5.9: Sei (X, d) ein metrischer Raum und sei M ⊆ X eine Teilmenge. Der
Abschluß von M , geschrieben als M , ist dann die kleinste M enthaltende, abgeschlossene Teilmenge von X, d.h. die abgeschlossene Menge M ⊆ X mit M ⊆ M so, dass
A ⊆ X abgeschlossen mit M ⊆ A =⇒ M ⊆ A
gilt. Die Menge M heißt dann dicht in M .
Streng genommen müssten wir uns klarmachen das eine solche abgeschlossene Menge
M überhaupt existiert. Dies ist aber leicht zu sehen. Nach Lemma 7 ist der Durchschnitt
\
M = {A|A ⊆ X ist abgeschlossen mit M ⊆ X}
überhaupt aller abgeschlossenen Obermengen von M selbst eine abgeschlossene Menge,
und für jede abgeschlossene A ⊆ X mit M ⊆ A gilt trivialerweise auch M ⊆ A.
Zum konkrete Rechnungen ist es wichtig noch eine explizitere Beschreibung des
Abschluss einer Menge M ⊆ X zu kennen. Wir behaupten das für eine Teilmenge
M ⊆ X eines metrischen Raums X und jeden Punkt x ∈ X von X die Äquivalenz
x ∈ M ⇐⇒ ∀( > 0) : U (x) ∩ M 6= ∅
besteht. Sei nämlich zunächst x ∈ M . Sei > 0. Nach Aufgabe (39) ist die offene Kugel
U (x) eine offene Teilmenge von X, d.h. ihr Komplement X\U (x) ist eine abgeschlossene Teilmenge von X. Wegen x ∈ M und x ∈
/ X\U (x) ist M 6⊆ X\U (x), und nach
Definition des Abschluß muss damit auch M 6⊆ X\U (x). Dies bedeutet aber gerade
U (x) ∩ M 6= ∅. Jetzt nehme umgekehrt U (x) ∩ M 6= ∅ für jedes > 0 an. Sei A ⊆ X
eine abgeschlossene Menge mit M ⊆ A. Wäre jetzt x ∈
/ M , so ist x ein Element der
offenen Menge X\A, also ein innerer Punkt von X\A. Damit gibt es aber ein > 0 mit
U (x) ⊆ X\A ⊆ X\M , im Widerspruch zu U (x) ∩ M 6= ∅. Folglich ist x ein Element
jeder M enthaltenden abgeschlossenen Menge, und dies bedeutet x ∈ M .
Statt Kugeln kann man auch allgemeiner Umgebungen von x verwenden, und erhält
x ∈ M ⇐⇒ Für jede Umgebung U von x in X ist U ∩ M 6= ∅.
95
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Anhand dieser Beschreibung kann man jetzt auch den Zusammenhang zwischen Rand
und Abschluß einer Menge M erkennen. Die Bedingung x ∈ M ist sozusagen die halbe
Bedingung für x ∈ ∂M . Dies kann man noch etwas quantitativer formulieren. Jeder
Punkt x ∈ M ist wegen M ⊆ M auch im Abschluß von M . Ist dagegen x ∈ X mit
x∈
/ M , so ist x ∈ U (x) ∩ (X\M ) für jedes > 0, also auch U (x) ∩ (X\M ) 6= ∅ für
jedes > 0. Damit ist x genau dann ein Randpunkt von M , wenn U (x) ∩ M 6= ∅ für
jedes > 0 gilt, d.h. wenn x ∈ M ist. Diese Überlegung zeigt
M = M ∪ ∂M.
Der Abschluß einer Menge M entsteht also durch das Hinzunehmen der Randpunkte
zu M .
Ist beispielsweise M = (a, b) ein offenes Intervall in X = R mit der euklidischen
Metrik, so sind a und b die beiden Randpunkte von M , also ∂M = {a, b} und somit
M = M ∪ ∂M = [a, b].
5.1
Äquivalente Metriken
All die bisher für metrische Räume eingeführten Begriffe, also etwa innere Punkte“,
”
Umgebungen“, der Abschluß“ und so weiter, hängen nicht nur von der Menge X
”
”
sondern auch von der Metrik d auf X ab. Verschiedene Metriken führen zu ganz verschiedenen Effekten, und wir wollen uns zunächst ein besonders drastisches Beispiel
für dieses Phänomen anschauen. Wir betrachten die Menge X = R einmal mit der
euklidischen Metrik d(x, y) = |x − y| für alle x, y ∈ R und einmal mit der sogenannten
diskreten Metrik d0 , die durch
(
0, x = y,
d0 (x, y) :=
1, x 6= y
für alle x, y ∈ R definiert ist. Dass d0 tatsächlich eine Metrik ist können wir leicht
einsehen. Die ersten beiden Eigenschaften (M1), (M2) einer Metrik sind dabei klar,
nur die Dreiecksungleichung (M3) erfordert eine kleine Überlegung. Sind x, y, z ∈ R,
so gilt im Fall x = z trivialerweise d0 (x, z) = 0 ≤ d0 (x, y) + d0 (y, z). Ist dagegen x 6= z,
so ist auch x 6= y oder y 6= z, also d0 (x, y) = 1 oder d0 (y, z) = 1 und in beiden Fällen
haben wir damit d0 (x, y) + d0 (y, z) ≥ 1 = d0 (x, z). Damit sind d und d0 beides Metriken
auf X = R. Die Kugeln in der diskreten Metrik haben eine besonders einfache Gestalt,
für alle x ∈ R und alle > 0 gelten
(
(
0
X,
>
1,
X,
≥ 1,
0
d
Ud (x) =
U (x) =
{x}, ≤ 1,
{x}, < 1.
Insbesondere ist in der diskreten Metrik jede Teilmenge von X eine Umgebung jedes
ihrer Punkte, und damit ist in der diskreten Metrik jede Teilmenge von X offen und
abgeschlossen mit leeren Rand, und jede Teilmenge von X ist damit auch gleich ihrem
96
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
eigenen Abschluß. All unsere in diesem Abschnitt definierten Begriffe verhalten sich
bezüglich der diskreten Metrik also völlig anders als bezüglich der euklidischen Metrik.
Kommen wir zur allgemeinen Situation zurück. Es stellt sich heraus, dass sich all
diese Unterschiede zwischen verschiedenen Metriken bereits bei den offenen Mengen
zeigen, definieren zwei Metriken auf einer Menge X dieselben offenen Mengen, so stimmen auch abgeschlossene Mengen, Rand und Abschluß überein. In der Tat, die abgeschlossenen Mengen sind die Komplemente der offenen Mengen, stimmen also offene
Mengen überein so auch abgeschlossene. Da der Abschluß einer Menge M die kleinste
abgeschlossene Obermenge von M stimmt auch dieser bezüglich beider Metriken überein. Da eine Menge U nach Aufgabe (39) weiter genau dann Umgebung eines Punktes
x ∈ U ist, wenn es eine offene Menge V mit x ∈ V ⊆ U gibt, stimmen auch Umgebungen bezüglich beider Metriken überein. Da Randpunkte in Termen von Umgebungen
definiert sind, sind schließlich auch die Ränder gleich. Daher führen wir den folgenden
Äquivalenzbegriff für Metriken ein.
Definition 5.10: Sei X eine Menge. Zwei Metriken d1 , d2 auf X heißen äquivalent,
wenn sie die gleichen offenen Mengen generieren, d.h. wenn eine Menge U ⊆ X genau
dann in (X, d1 ) offen ist, wenn sie in (X, d2 ) offen ist.
Wir geben jetzt eine hinreichende, aber keinesfalls notwendige, Bedingung für die
Äquivalenz zweier Metriken an.
Lemma 5.11 (Hinreichendes Kriterium für die Äquivalenz von Metriken)
Sei X eine Menge und seien d1 , d2 zwei Metriken auf X. Es gebe Konstanten c1 , c2 > 0
mit
c1 d1 (x, y) ≤ d2 (x, y) ≤ c2 d1 (x, y)
für alle x, y ∈ X. Dann sind diese Metriken äquivalent.
Beweis: Für x ∈ X, > 0 und i ∈ {1, 2} bezeichne
Udi (x) = {y ∈ X|di (x, y) < }
die offene Kugel um x mit Radius bezüglich der Metrik di .
Sei U ⊆ X eine Teilmenge. Wir müssen zeigen, dass U genau dann in (X, d1 ) offen
ist wenn U in (X, d2 ) offen ist. Nehme zunächst an, dass U bezüglich der Metrik d1
offen ist. Sei x ∈ U . Dann existiert ein > 0 mit Ud1 (x) ⊆ U . Dann ist auch c1 · > 0,
und wir wollen Ucd12 (x) ⊆ U einsehen. Sei also y ∈ Ucd12 (x) gegeben, d.h. es ist y ∈ X
mit d2 (x, y) < c1 . Dann folgt auch
d1 (x, y) =
1
1
1
· c1 d1 (x, y) ≤ d2 (x, y) < c1 = ,
c1
c1
c1
und somit gilt y ∈ Ud1 (x) ⊆ U . Dies zeigt Ucd12 (x) ⊆ U , und damit ist x ein innerer
Punkt von U bezüglich d2 . Folglich ist U auch in (X, d2 ) offen.
97
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Jetzt nehme umgekehrt an, dass U in (X, d2 ) offen ist. Sei x ∈ U . Es gibt > 0 mit
d1
Ud2 (x) ⊆ U . Damit ist auch /c2 > 0 und für jedes y ∈ U/c
(x) gilt auch
2
d2 (x, y) ≤ c2 d1 (x, y) < c2 ·
= ,
c2
d1
also y ∈ Ud2 (x) ⊆ U . Damit ist U/c
(x) ⊆ U , und U ist auch bezüglich d1 offen.
2
Als ein Beispiel zu diesem Lemma werden sie in Aufgabe (37) zeigen, dass auf der
Menge X = R2 die euklidische Metrik, die Taximetrik und die `∞ -Metrik alle zueinader
äquivalent sind.
$Id: folgen.tex,v 1.14 2012/06/28 18:28:57 hk Exp $
§6
Folgen
Der Begriff einer Folge ist weitgehend ein Hilfsbegriff, und wir wollen damit beginnen zu erläutern wobei Folgen eigentlich helfen sollen. Für diesen etwas längeren Exkurs
müssen wir ein klein wenig vorgreifen und schon einmal Ableitungen besprechen. Für
das Folgende reicht dabei die in der Schule vermittelte Kenntnis von Ableitungen aus,
eine genauere Behandlung folgt später. Was ist also die Ableitung einer reellen Funktion
f : R → R. Ein Erklärungsansatz ist es die Ableitung als die Steigung von Tangenten an
den Funktionsgraph zu definieren“. Das ist zwar recht anschaulich und gelegentlich für
”
heuristische Zwecke auch ganz nützlich, geht aber doch etwas am Punkt vorbei. Dieser
geometrische Standpunkt spielt meistens keinerlei Rolle. Wesentlich wichtiger ist die
Interpretation der Ableitung als eine Änderungsrate, die Verwendung von Ableitungen
in Anwendungssituationen beruht fast immer auf diesem Standpunkt.
Zur Erinnerung starten wir mit dem Urbeispiel einer Ableitung, dem Begriff der
Geschwindigkeit. Wir denken uns einen sich bewegenden, physikalischen Körper. Um
keine Vektoren verwenden zu müssen, gehen wir davon aus, dass sich diese Bewegung in
einer festen Richtung abspielt. Dann können wir die Position unseres Körpers zum Zeitpunkt t durch eine einzelne Zahl x(t) beschreiben, die etwa den Abstand des Körpers
zum Koordinatenursprung angibt. Gehen wir erst einmal vom einfachsten Fall aus, und
nehmen an das auf unseren Körper keine Kräfte wirken. Wie Sie wahrscheinlich noch
aus dem Physikunterricht wissen, gilt dann das sogenannte Trägheitsprinzip, d.h. der
Körper legt in einem Zeitabschnitt der Dauer ∆t eine zur Dauer des Zeitabschnitts
proportionale Strecke ∆x zurück. Die hierbei auftretende Proportionalitätskonstante,
d.h. die Zahl v mit ∆x = v · ∆t, nennt man dann die Geschwindigkeit des Körpers.
Maßeinheiten ignorieren wir dabei, und denken uns alles als Zahlen.
Die kräftefreie Bewegung ist damit recht einfach. Kommen wir zum allgemeinen
Fall, bei dem auf den Körper irgendwelche Kräfte wirken. Betrachte wieder ein Zeit98
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
intervall der Länge ∆t, und in diesem Zeitintervall lege unser Körper die Strecke ∆x
zurück. Als die mittlere Geschwindigkeit in diesem Zeitintervall bezeichnen wir die Geschwindigkeit v die ein kräftefreier Körper hätte, der im Zeitintervall ∆t die Strecke
∆x zurücklegt, also
∆x
v=
.
∆t
Nun führt man eine Idealisierung durch. Geben wir uns einen Zeitpunkt t vor, und betrachten immer kleinere Zeitabschnitte ∆t, so gehen wir davon aus, dass sich die mittlere Geschwindigkeit bezüglich der Zeitintervalle t bis t + ∆t auf einen Wert v = v(t)
einpendelt. Diese Zahl bezeichnen wir dann als die Geschwindigkeit des Körpers zum
Zeitpunkt t. Die Existenz dieser Zahl kann man nicht logisch herleiten, es handelt sich
nur um eine idealisierende Annahme, die sich aber als sehr erfolgreich herausgestellt
hat. Diese mittlere Geschwindigkeit ist ein realer Wert, in dem Sinne das wir sie direkt
messen können, die Geschwindigkeit kann man dagegen nur näherungsweise durch Messung über ausreichend kleine Zeitabschnitte bestimmen. Das ist zwar kein praktischer
Unterschied da Messungen naturgemäß niemals exakt sind, aber inhaltlich liegt schon
ein gewisser Unterschied vor. Wir denken uns die Geschwindigkeit als einen Quotienten
v=
dx
dt
wobei man sich dt als einen unendlich kleinen Zeitabschnitt“ und dx als die in die”
sem Zeitabschnitt unendlich kleine zurückgelegte Strecke“ denkt. Ist allgemein x(t)
”
eine Funktion von t so definiert“ der Quotient die Ableitung x0 (t) von x in t. Dies
”
ist natürlich keine mathematische Definition im heutigen Sinne, da diese unendlich
”
kleinen“ Größen nicht wirklich definiert sind. Trotzdem ist die Mathematik sehr lange
Zeit mit einer derartig vagen Definition ausgekommen. Tatsächlich waren zu dieser Zeit
noch nicht einmal die reellen Zahlen wirklich streng definiert.
Geändert hat sich das alles erst im letzten Viertel des neunzehnten Jahrhunderts,
als man begann Fragestellungen zu untersuchen die sich mit dem vagen Konzept infinitesimaler Größen nicht mehr zufriedenstellend behandeln ließen.
Alle Versuche den unendlich kleinen und unendlich großen Zahlen eine wirklich
brauchbare, exakte Bedeutung zu geben, sind letztlich gescheitert und daher wurden
die infinitesimale Größen letztlich vollständig aus der Mathematik entfernt. Im mathematischen Sinn gibt es keine unendlich kleinen oder unendlich großen Zahlen. So
etwas wie Ableitungen wollte man aber natürlich trotzdem weiter verwenden, und daher mussten diese auf eine neue Grundlage gestellt werden. Als Ersatz für infinitesimale
Werte wurde der Begriff des Grenzwerts eingeführt. Es gibt viele verschiedene Arten
von Grenzwerten, von denen wir einige noch kennenlernen werden.
Damit sind wir jetzt soweit die Bedeutung von Folgen einsehen zu können. Viele
der erwähnten Grenzwertbegriffe lassen sich auf Grenzwerte von Folgen zurückführen.
Folgen sind in diesem Rahmen dann ein reines Hilfsmittel, sie erfassen gerade den
gemeinsamen Kern einer Vielfalt von Grenzwertbegriffen. Viele der Grundaussagen
über Grenzwerte überlegt man sich zunächst für Folgen und kann sie dann auf all die
99
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
anderen, uns wirklich interessierenden, Grenzwerttypen anwenden. Folgen sind also die
Maschinerie die den ganzen Kalkül am Laufen hält, haben aber für sich selbst eher
selten eine Bedeutung. Das hat leider zur Folge, dass die Theorie der Folgen zunächst
recht unmotiviert und wenig sinnvoll wirkt. Wir wiederholen die Definition einer Folge,
diese kam bereits in Teil A im letzten Semester vor.
Definition 6.1: Eine Folge in einer Menge M ist eine Abbildung a : N → M . Für
den Funktionswert a(n), n ∈ N schreiben wir an = a(n) und nennen an auch das n-te
Folgenglied. Die gesamte Folge wird meist als (an )n∈N notiert.
Das Funktionsargument n wird oft auch als der Index bezeichnet. Anstelle von auf
ganz N definierten Folgen werden oft auch Folgen betrachtet, die nur für alle Indizes
n ≥ n0 ab einem Startindex n0 definiert sind. Diesen Fall wollen wir nicht gesondert
hervorheben, er ist immer implizit mit gemeint, auch wenn wir es nicht explizit hinschreiben. Sprechen wir beispielsweise von der Folge an = 1/n, so ist aus dem Kontext
klar das diese nur für Indizes n ≥ 1 gemeint ist. Beispiele von Folgen werden wir uns
in der nächsten Sitzung anschauen.
Vorlesung 13, Donnerstag 31.5.2012
Am Ende der letzten Sitzung hatten wir Folgen in einer Menge X als Abbildungen
a : N → X definiert, die dann typischerweise in der Form (an )n∈N , also mit dem
Funktionsargument n ∈ N als Index geschrieben werden. Wir gehen zunächst einige
kleine Beispiele von Folgen durch.
1. Die Folge an = n in der Menge M = R der reellen Zahlen.
2. Die Folge an = (−1)n wieder in M = R. Dies springt abwechselnd zwischen den
Werten an = 1 für gerade Indizes n und an = −1 für ungerade Indizes n hin und
her.
3. Die Folge an = (−1)n n ist wie die Folge an = n nur das das Vorzeichen je nach
geraden und ungeraden Index hin und her springt.
4. Wie im letzten Semester gesehen kann man Folgen auch rekursiv definieren. Dies
meint das das n-te Folgenglied in Termen des (n − 1)-ten Gliedes definiert wird,
oder noch allgemeiner unter Verwendung aller vorherigen Folgenglieder ak , 1 ≤
k < n. Damit dies sinnvoll ist, muss zusätzlich ein Startwert vorgegeben werden.
Wie wollen kurz ein kleines Beispiel einer solchen rekursiv definierten Folge besprechen. Der Startwert a0 sei eine beliebige natürlich Zahl a0 ∈ N∗ verschieden
von Null. Ist jetzt n ≥ 1 und kennen wir bereits das Folgenglied an−1 , so setze
(
an−1
,
an−1 ist gerade,
2
an :=
3an−1 + 1, an−1 ist ungerade.
100
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Nehmen wir etwa den Startwert a0 = 5, so ergibt sich die Folge
a1 = 16, a2 = 8, a3 = 4, a4 = 2, a5 = 1, a6 = 4, a7 = 2, a8 = 1, . . .
und der 1–4–2 Zyklus wiederholt sich immer weiter. Die Folge hängt natürlich
vom Startwert ab, nehmen wir etwa a0 = 9, so wird
a1 = 28, a2 = 14 a3 = 7, a4 = 22, a5 = 11, a6 = 34, a7 = 17, a8 = 52, a9 = 26,
a10 = 13, a11 = 40, a12 = 20, a13 = 10, a14 = 5, a15 = 16, a16 = 8, a17 = 4,
a18 = 2, a19 = 1, . . .
und wir sind wieder im 1–4–2 Zyklus. Es wird vermutet, dass die Folge unabhängig
vom Startwert immer in diesem Zyklus landet.
Zur graphischen Darstellung reeller Folgen kann man diese etwa durch Markieren der
Punkte (n, an ) in der Ebene malen, zum Beispiel werden die obigen ersten drei Folgen
dann
20
1
20
0.5
10
18
16
14
12
10
0
2
4
6
8
10
12
14
16
18
20
0
2
4
6
8
10
12
14
16
18
20
8
6
–0.5
–10
4
2
2
4
6
8
10
12
an = n
14
16
18
20
–1
an = (−1)n
an = (−1)n n
In diesem allgemeinen Rahmen wollen wir nur einen einzigen Begriff einführen, nämlich
die sogenannten Teilfolgen einer gegebenen Folge.
Definition 6.2: Sei (an )n∈N eine Folge in einer Menge M . Eine Folge der Form (ank )k∈N ,
wobei für jedes k ∈ N stets nk ∈ N und nk < nk+1 gelten, heißt eine Teilfolge von
(an )n∈N .
Etwas ausführlicher besteht eine Teilfolge also aus einigen, aber nicht unbedingt allen,
Folgengliedern
an1 , an2 , an3 , . . .
der Originalfolge, wobei die Indizes n1 , n2 , n3 , . . . der in der Teilfolge vorkommenden
Indizes in derselben Reihenfolge wie in der Originalfolge sind, also n1 < n2 < n3 < . . ..
Beispielsweise hat die Folge an = (−1)n n die Teilfolge
a2n = (−1)2n 2n = 2n.
101
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Eine Folge kann viele ganz unterschiedlich aussehende Teilfolgen haben, beispielsweise
sind
1
1
1
,
,
n + 1 n∈N
2n n∈N
n2 + 3n + 2 n∈N
alles Teilfolgen der Folge (1/n)n∈N .
6.1
Konvergente Folgen in metrischen Räumen
Wie eingangs erwähnt sind Folgen ein Hilfsbegriff, der das Gemeinsame an all den verschiedenen Grenzwertbegriffen einfangen soll. Daher brauchen wir insbesondere einen
Grenzwertbegriff für Folgen. Diesen führen wir von vornherein recht allgemein für Folgen in metrischen Räumen ein.
Definition 6.3: Sei (X, d) ein metrischer Raum. Eine Folge (an )n∈N in X heißt konvergent gegen einen Punkt a ∈ X, wenn für jede Umgebung U von a stets ein Index
n0 ∈ N existiert ab dem die Folge ganz in U ist, also an ∈ U für alle n ≥ n0 . In
diesem Fall nennen wir den Punkt a den Limes, oder Grenzwert, der Folge (an )n∈N und
schreiben
a = lim an .
n→∞
Gibt es einen solchen Grenzwert, so heißt die Folge (an )n∈N konvergent und andernfalls
heißt sie divergent.
Ist speziell X = R oder X = C in der euklidischen Metrik, so nennt man eine gegen
0 konvergente Folge auch eine Nullfolge.
Egal wie klein die Umgebung U ist, schließlich
liegt die ganze Folge ab einem gewissen Index
ganz innerhalb U . Was die Folge vor diesem Index n0 macht spielt keine Rolle, nur ab diesem
Index ist sie ganz in der Umgebung. Gelegentlich wird dies auch so umschrieben, dass die Folge
dem Grenzwert a schließlich beliebig nahe kommt.
Das ist aber eigentlich eine etwas unglückliche
Sichtweise, da die Folgen ja überhaupt dazu dienen Konzepte wie dieses beliebig nahe kommen“
”
zu eliminieren. Oft wird die Grenzwertdefinition kompakt in Quantorenschreibweise formuliert,
d.h. a = limn→∞ an bedeutet
n0
a
U
∀(U Umgebung von a)∃(n0 ∈ N)∀(n ≥ n0 ) : an ∈ U.
Wir wollen einige einfache Beispiele von Grenzwerten behandeln. Zunächst ist eine konstante Folge an = a ∈ X in einem beliebigen metrischen Raum X gegen a konvergent.
Ist nämlich U eine Umgebung von a, so können wir etwa n0 = 1 setzen und für jede
102
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
natürliche Zahl n ∈ N mit n ≥ n0 ist dann an = a ∈ U . Als ein etwas komplizierteres Beispiel behandeln wir die Folge (1/n)n∈N im metrischen Raum X = R versehen
mit der durch d(x, y) = |x − y| gegebenen Metrik. Wir behaupten das diese Folge den
Grenzwert a = 0 hat. Sei hierzu eine Umgebung U von 0 in X = R gegeben. Dann existiert ein > 0 mit U (0) ⊆ U und nach Definition unserer Metrik ist U (0) = (−, ),
wir haben also (−, ) ⊆ U . Nach den archimedischen Eigenschaft der reellen Zahlen
aus §4.Lemma 16 existiert eine natürliche Zahl n0 ∈ N mit 1/n0 < . Für jedes n ∈ N
mit n ≥ n0 ist damit auch
0<
1
1
1
≤
< , also ∈ (−, ) ⊆ U.
n
n0
n
Damit ist auch diese Konvergenzaussage bewiesen.
Wir kommen nun zu einer ganzen Klasse von Beispielen. Angenommen wir haben
einen metrischen Raum X und eine gegen ein a ∈ X konvergente Folge (an )n∈N in X.
Wir behaupten das dann auch jede Teilfolge (ank )k∈N dieser Folge gegen a konvergiert.
Sei nämlich eine Umgebung U von a in X gegeben. Dann existiert ein Index n0 ∈ N
mit an ∈ U für jedes n ≥ n0 . Für jedes k ∈ N mit k ≥ n0 ist damit auch nk ≥ k ≥ n0
also ank ∈ U , und die Konvergenz der Teilfolge (ank )k∈N gegen a ist bewiesen.
Kombinieren wir die eben behandelte Aussage mit den schon bewiesenen Grenzwert
limn→∞ 1/n = 0, so ergeben sich auch
lim
n→∞
1
1
1
= 0, lim
= 0, lim 2
=0
n→∞
n→∞
n+1
2n
n + 3n + 2
denn all dies sind Teilfolgen von 1/n. Nach diesen Beispielen kommen wir jetzt zur
allgemeinen Theorie zurück. Eine Umgebung eines Punktes a in einem metrischen
Raum war definitionsgemäß eine Menge, die noch eine kleine Kugel um den Punkt a
herum enthält. Setzen wir diese Definition in die Grenzwertdefinition ein, so ergibt sich
die folgende Umformulierung des Grenzwerts einer Folge.
Lemma 6.4: Seien (X, d) ein metrischer Raum, (an )n∈N eine Folge in X und a ∈ X.
Dann gilt genau dann lim an = a wenn
n→∞
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : d(an , a) < gilt.
Beweis: ”=⇒” Sei > 0. Dann ist die Kugel U (a) eine Umgebung von a, also existiert
ein n0 ∈ N mit an ∈ U (a) für alle n ≥ n0 , und dies bedeutet d(an , a) < für n ≥ n0 .
”⇐=” Sei U eine Umgebung von a. Dann existiert ein > 0 mit U (a) ⊆ U . Weiter
existiert dann ein Index n0 ∈ N mit d(an , a) < für alle n ≥ n0 . Für jedes n ∈ N mit
n ≥ n0 ist damit auch
an ∈ U (a) ⊆ U,
und damit konvergiert (an )n∈N gegen a.
103
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Wir werden im folgenden meist die Formulierung des Lemmas verwenden, um die
Konvergenz einer Folge nachzuweisen. Es gibt jetzt noch einen etwas feinsinnigen Punkt
zu beachten. Wir sprechen immer von dem Grenzwert einer konvergenten Folge, was
die Eindeutigkeit dieses Grenzwerts unterstellt. Diese Eindeutigkeit muss aber bewiesen
werden, und dies holen wir im folgenden Lemma nach.
Lemma 6.5 (Eindeutigkeit von Folgengrenzwerten)
Eine konvergente Folge in einem metrischen Raum hat genau einen Grenzwert.
Beweis: Seien also (X, d) ein metrischer Raum und (an )n∈N eine konvergente Folge in
X. Weiter seien a, b ∈ X zwei Grenzwerte dieser Folge. Wir wollen zeigen, dass dann
bereits a = b gilt. Hierzu zeigen wir, dass d(a, b) < für jedes > 0 gilt. Sei also > 0
gegeben. Da die Folge (an )n∈N gegen a konvergiert, gibt es ein n1 ∈ N mit d(an , a) < /2
für alle n ≥ n1 . Da die Folge aber auch gegen b konvergiert, gibt es ebenso ein n2 ∈ N
mit d(an , b) < /2 für alle n ≥ n1 . Setze
n := max{n1 , n2 }.
Dann ist n ∈ N mit n ≥ n1 und n ≥ n2 , also d(an , a) < /2 und d(an , b) < /2. Mit der
Dreiecksungleichung folgt damit
d(a, b) ≤ d(a, an ) + d(an , b) = d(an , a) + d(an , b) < + = .
2 2
Da dies für jedes > 0 gilt, und andererseits d(a, b) ≥ 0 ist, folgt d(a, b) = 0, und
folglich auch a = b.
Wir führen jetzt noch eine kleine Verallgemeinerung von Grenzwerten ein, die sogenannten Häufungspunkte.
Definition 6.6: Seien (X, d) ein metrischer Raum und (an )n∈N eine Folge in X. Ein
Punkt a ∈ X heißt Häufungspunkt der Folge (an )n∈N wenn es eine gegen a konvergente
Teilfolge (ank )k∈N von (an )n∈N gibt.
Häufungspunkte einer Folge sind also die Grenzwerte konvergenter Teilfolgen der gegebenen Folge. Beispielsweise ist ein Grenzwert einer konvergenten Folge automatisch
auch ein Häufungspunkt. Aber auch nicht konvergente Folgen können Häufungspunkte haben. Beispielsweise hat die Folge an = (−1)n in X = R die beiden Teilfolgen
(−1)2k = 1 und (−1)2k+1 = −1, d.h. a = 1 und a = −1 sind beides Häufungspunkte
von ((−1)n )n∈N . Eine Folge kann sogar unendlich viele Häufungspunkte haben. Ein
Beispiel hierfür ist etwa die Folge an = sin(n). Man kann sich überlegen, dass jede
reelle Zahl x mit −1 ≤ x ≤ 1 ein Häufungspunkt der Folge (sin(n))n∈N ist.
6.2
Cauchy-Folgen
Unsere bisherige Definition konvergenter Folgen, also
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : d(an , a) < 104
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
in der Formulierung des Lemma 4, hat den Nachteil das in ihr der Grenzwert a explizit
vorkommt. Dadurch kann der Nachweis der Konvergenz recht mühsam werden, wenn
man den Grenzwert nicht ausrechnen kann, beziehungsweise ihn nicht in irgendeiner
handlichen Form beschreiben kann. Der Begriff der Cauchyfolge soll dieses Problem
umgehen, indem eine zur Konvergenz äquivalente Bedingung gefunden wird, in der
der Grenzwert nicht mehr explizit auftaucht. Leider besteht diese Äquivalenz nicht
allgemein in metrischen Räumen, wie wir noch sehen werden gilt sie aber beispielsweise
für X = R. Eine Cauchyfolge ist eine Folge in der die Folgenglieder für große Indizes
aneinander rücken. Die formale Definition ist wie folgt:
Definition 6.7: Eine Folge (an )n∈N in einem metrischen Raum (X, d) heißt eine Cauchyfolge, wenn es für jedes > 0 einen Index n0 ∈ N mit d(an , am ) < für alle n, m ∈ N
mit n, m ≥ n0 gibt.
In Quantorenschreibweise bedeutet dies
∀( > 0)∃(n0 ∈ N)∀(n, m ≥ n0 ) : d(an , am ) < .
Wir werden sehen, dass jede konvergente Folge auch eine Cauchyfolge ist, aber leider
nicht umgekehrt. Zuvor möchten wir aber noch auf einen wichtigen Punkt in der Definition einer Cauchyfolge hinweisen, es ist wichtig das die Bedingung d(an , am ) < für
alle n, m ≥ n0 verlangt wird, es reicht nicht aus aufeinanderfolgende
Folgenglieder zu
√
betrachten. Ein Beispiel hierfür ist die Folge an = n in X = R. Diese Folge ist nicht
konvergent, also wie wir gleich sehen werden auch keine Cauchyfolge. Die Abstände aufeinanderfolgender Folgenglieder werden allerdings für große Werte des Index n beliebig
klein, für alle n ∈ N ist nämlich
√
√
√
√
√
√
n+1−n
1
( n + 1 − n) · ( n + 1 + n)
√
n+1− n=
=√
√
√ =√
√ .
n+1+ n
n+1+ n
n+1+ n
Kommen wir jetzt zu der schon mehrfach angekündigten Tatsache das konvergente
Folgen immer auch Cauchyfolgen sind.
Satz 6.8: Jede konvergente Folge ist eine Cauchyfolge.
Beweis: Seien (X, d) ein metrischer Raum und (an )n∈N eine gegen ein a ∈ X konvergente Folge. Sei > 0 gegeben. Dann existiert ein Index n0 ∈ N mit d(an , a) < /2 für
alle n ≥ n0 . Für alle n, m ∈ N mit n, m ≥ n0 ist dann auch
d(an , am ) ≤ d(an , a) + d(a, am ) = d(an , a) + d(am , a) < + = .
2 2
Damit ist (an )n∈N eine Cauchyfolge.
In allgemeine metrischen Räumen ist die Umkehrung dieser Aussage leider falsch. Wir
können beispielsweise die Menge X := R\{0} mit der durch d(x, y) := |x − y| für
x, y ∈ R\{0} gegebenen Metrik betrachten. Da die Folge (1/n)n∈N in R gegen Null
konvergiert, ist sie in R, und somit auch in X, eine Cauchyfolge. In X ist diese Folge
aber divergent da ihr Grenzwert“ nicht in X liegt.
”
105
Mathematik für Informatiker B, SS 2012
6.3
Donnerstag 31.5.2012
Folgen in angeordneten Körpern
Während wir bisher Folgen in allgemeinen metrischen Räumen untersucht haben, konzentrieren wir uns jetzt auf die reellen Zahlen X = R in der euklidischen Metrik
d(x, y) = |x − y|. In diesem Rahmen werden wir untersuchen wie die arithmetische
Struktur und die Ordnungsstruktur der reellen Zahlen mit dem Konvergenzbegriff zusammenspielen. Ein oft nützliches Hilfsmittel sind hier die monoton steigenden beziehungsweise monoton fallenden Folgen.
Definition 6.9: Sei (an )n∈N eine Folge in einem angeordneten Körper K.
1. Die Folge (an )n∈N heißt nach oben beschränkt, wenn die Menge {an |n ∈ N} in K
nach oben beschränkt ist, d.h. wenn eine Konstante M ∈ K mit an ≤ M für alle
n ∈ N existiert.
2. Die Folge (an )n∈N heißt nach unten beschränkt, wenn die Menge {an |n ∈ N} in
K nach unten beschränkt ist, d.h. wenn eine Konstante M ∈ K mit an ≥ M für
alle n ∈ N existiert.
3. Die Folge (an )n∈N heißt beschränkt, wenn sie nach oben und nach unten beschränkt ist.
4. Die Folge (an )n∈N heißt monoton steigend, oder monoton wachsend, wenn an ≤
an+1 für alle n ∈ N gilt.
5. Die Folge (an )n∈N heißt monoton fallend, wenn an+1 ≤ an für alle n ∈ N gilt.
Für eine monoton steigende Folge gilt natürlich auch an ≤ am für alle n, m ∈ N mit
n ≤ m und für eine monoton fallende Folge ist entsprechend auch an ≥ am für alle
n, m ∈ N mit n ≤ m. Die meisten Folgen sind natürlich weder monoton steigend noch
monoton fallend. Eine reelle Folge (an )n∈N ist beschränkt wenn es Zahlen A, B ∈ R mit
A ≤ an ≤ B für alle n ∈ N gilt. In diesem Fall gilt dann auch
− max{|A|, |B|} ≤ an ≤ max{|A|, |B|}
für alle n ∈ N, d.h. setzen wir C := max{|A|, |B|}, so ist |an | ≤ C für alle n ∈ N. Gibt
es umgekehrt ein solches C, so ist auch −C ≤ an ≤ C für alle n ∈ N und die Folge ist
beschränkt. Also
(an )n∈N beschränkt ⇐⇒ ∃(C > 0)∀(n ∈ N) : |an | ≤ C.
Lemma 6.10: Jede konvergente Folge (an )n∈N in R ist auch beschränkt.
Beweis: Schreibe a := lim an . Dann existiert ein n0 ∈ N mit |an − a| < 1 für alle
n→∞
n ≥ n0 . Wir erhalten die Konstante
C := max{|a| + 1, |a0 |, . . . , |an0 −1 |} > 0.
106
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Sei n ∈ N. Ist n < n0 , so gilt trivialerweise |an | ≤ C, und für n ≥ n0 haben wir auch
|an | = |an − a + a| ≤ |an − a| + |a| < 1 + |a| ≤ C.
Damit ist die Folge (an )n∈N beschränkt.
Grenzwerte vertragen sich auch mit Ungleichungen zwischen den beteiligten Folgen,
d.h. eine Ungleichung an ≤ bn für alle n ∈ N zwischen den Gliedern zweier konvergenter
Folgen überträgt sich auch auf die Grenzwerte der beiden Folgen.
Lemma 6.11: Seien (an )n∈N und (bn )n∈N zwei konvergente reelle Folgen mit an ≤ bn
für alle n ∈ N. Dann gilt auch lim an ≤ lim bn .
n→∞
n→∞
Beweis: Dies ist Aufgabe (38).
Ein <“ zwischen den Folgengliedern überträgt sich im Allgemeinen aber nicht auf die
”
Grenzwerte. Zum Beispiel konvergieren die Folgen (1/n)n∈N und (1/(n + 1))n∈N beide
gegen Null und es ist 1/(n + 1) < 1/n für jedes n ∈ N.
Im metrischen Raum X = R können wir unter den divergenten Folgen einige nicht
”
so schlimm“ divergente Folgen gesondert behandeln. Für reelle Folgen gibt es zwei verschiedene Gründe die zur Divergenz einer Folge (an )n∈N führen. Zum einen könnte die
Folge zwischen mehreren Häufungspunkten hin und her springen, wie es zum Beispiel
die Folge ((−1)n )n∈N , oder noch schlimmer (sin(n))n∈N , tut. Zum anderen kann sie
auch einfach nur zu groß werden, wie etwa (n)n∈N , oder zu klein wie (−n)n∈N . Diese
Unterscheidung deckt nicht ganz alle Möglichkeiten ab, es gibt etwa auch noch Folgen
wie ((−1)n n)n∈N die gleichzeitig groß und klein werden, aber so etwas wollen wir hier
ignorieren. Bei den zu großen oder zu kleinen Folgen spricht man jetzt von bestimmter
Divergenz im Sinne der folgenden Definition.
Definition 6.12: Sei (an )n∈N eine reelle Folge. Die Folge heißt bestimmt divergent gegen
+∞, in Zeichen lim an = +∞, wenn es für jede Schranke M ∈ R einen Index n0 ∈ N
n→∞
mit an ≥ M für alle n ∈ N mit n ≥ n0 gibt. Analog heißt die Folge bestimmt divergent
gegen −∞, in Zeichen lim an = −∞, wenn es für jedes M ∈ R stets einen Index
n→∞
n0 ∈ N mit an ≤ M für alle n ∈ N mit n ≥ n0 gibt.
In Quantorenschreibweise haben wir also
lim an = +∞ ⇐⇒ ∀(M ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an ≥ M
n→∞
lim an = −∞ ⇐⇒ ∀(M ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an ≤ M.
n→∞
Oftmals wird dann auch einfach davon gesprochen das die Folge gegen +∞ beziehungsweise −∞ konvergiert, etwas inkonsequent nennt man sie dann aber weiterhin
divergent.
107
Mathematik für Informatiker B, SS 2012
6.4
Dienstag 5.6.2012
Folgen reeller Zahlen
Vorlesung 14, Dienstag 5.6.2012
In der letzten Sitzung haben wir den Begriff des Grenzwerts einer Folge in einem
metrischen Raum eingeführt, und auch schon einige kleine Tatsachen über diesen Begriff eingesehen. Allerdings haben wir bisher recht wenig Beispiele für Folgengrenzwerte
behandeln können, hauptsächlich wissen wir das die Folge (1/n)n≥1 in R gegen Null
konvergiert. Dass die Behandlung von Beispielen noch recht schwer ist, liegt im wesentlichen daran, dass wir momentan nur die Definition eines Grenzwerts zur Verfügung
haben, aber keine Rechenregeln für Grenzwerte kennen. Wenn man aber immer auf
die Definition der Konvergenz zurückgehen muss, ist die Behandlung von Beispielen
unnötig aufwändig. Wir werden daher jetzt einen Satz über die Grenzwerte von Summen, Produkten und Quotienten konvergenter Folgen herleiten. Zunächst halten wir
einmal die explizite Form der Grenzwertdefinition für X = R fest.
Lemma 6.13 (Konvergenz reeller Folgen)
Eine Folge (an )n∈N reeller Zahlen konvergiert genau dann gegen eine reelle Zahl a ∈ R,
wenn die folgende Aussage gilt:
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| < Beweis: Dies ist klar nach Lemma 4, da die Metrik auf R durch d(x, y) = |x − y| für
alle x, y ∈ R definiert ist.
Damit kommen wir zu den Grenzwertsätzen für X = R.
Lemma 6.14 (Rechenregeln für Folgengrenzwerte)
Seien (an )n∈N und (bn )n∈N zwei konvergente reelle Folgen. Dann gelten:
(a) Die Folge (an + bn )n∈N ist konvergent mit
lim (an + bn ) = lim an + lim bn .
n→∞
n→∞
n→∞
(b) Für jede Konstante λ ∈ R ist auch die Folge (λan )n∈N konvergent mit
lim (λan ) = λ lim an .
n→∞
n→∞
(c) Die Folge (an · bn )n∈N ist konvergent mit
lim (an · bn ) = ( lim an ) · ( lim bn ).
n→∞
n→∞
108
n→∞
Mathematik für Informatiker B, SS 2012
Dienstag 5.6.2012
(d) Ist bn 6= 0 für alle n ∈ N und limn→∞ bn 6= 0, so ist auch die Folge (an /bn )n∈N
konvergent mit
lim an
an
= n→∞ .
lim
n→∞ bn
lim bn
n→∞
Beweis: Wir weisen die Konvergenz jeweils in der Form von Lemma 13 nach. Schreibe
a := limn→∞ an und b := limn→∞ bn .
(a) Sei > 0 gegeben. Dann gibt es n1 , n2 ∈ N mit
|an − a| <
für n ≥ n1 und |bn − b| < für n ≥ n2 .
2
2
Setze n0 := max{n1 , n2 }. Für jedes n ∈ N mit n ≥ n0 gilt dann n ≥ n1 und n ≥ n2 ,
also auch
|(an + bn ) − (a + b)| = |(an − a) + (bn − b)| ≤ |an − a| + |bn − b| <
+ = .
2 2
Dies zeigt, dass (an + bn )n∈N gegen a + b konvergiert.
(c) Diese Aussage ist schon etwas komplizierter. Zunächst ist die konvergente Folge
(an )n∈N nach Lemma 10 beschränkt, also existiert ein M > 0 mit |an | ≤ M für alle
n ∈ N. Weiter existieren n1 , n2 ∈ N mit
|an − a| <
für alle n ≥ n1 und |bn − b| <
für alle n ≥ n2 .
2|b| + 1
2M
Setze n0 := max{n1 , n2 }. Ist dann n ∈ N mit n ≥ n0 , so haben wir auch
|an bn −ab| = |an bn −an b+an b−ab| ≤ |an bn −an b|+|an b−ab| = |an (bn −b)|+|(an −a)b|
+
· |b| < + = .
= |an | · |bn − b| + |an − a| · |b| < M ·
2M
2|b| + 1
2 2
Damit konvergiert die Folge (an bn )n∈N gegen ab.
(b) Sei λ ∈ R. Da die konstante Folge (λ)n∈N gegen λ konvergiert, folgt dies aus Teil
(c).
(d) Sei > 0. Es gibt n1 , n2 ∈ N mit
|b|
für n ≥ n1 und |bn − b| < min
|an − a| <
4
|b|2 |b|
,
4|a| + 1 2
für n ≥ n2 .
Setze n0 := max{n1 , n2 }. Sei n ∈ N mit n ≥ n0 . Dann gilt zunächst
|b| = |b − bn + bn | ≤ |bn − b| + |bn | <
109
|b|
|b|
+ |bn |, also auch |bn | > .
2
2
Mathematik für Informatiker B, SS 2012
Dienstag 5.6.2012
Weiter folgt
an a an b − bn a |an b − ab + ab − bn a|
|an − a| · |b| |a| · |bn − b|
=
− =
≤
+
bn
b
bn b
|bn | · |b|
|bn | · |b|
|bn | · |b|
2
|an − a| |a| · |bn − b|
|b| 2
2|a|
|b|
=
+
<
·
+ 2 ·
< + = .
|bn |
|bn | · |b|
4 |b|
|b| 4|a| + 1
2 2
Also konvergiert die Folge (an /bn )n∈N gegen a/b.
Die Aussage (a) gilt auch für die Subtraktion anstelle der Addition. Dies können wir
leicht auf die anderen Regeln zurückführen. Zunächst gilt nämlich
lim (−an ) = lim ((−1) · an ) = (−1) · lim an = − lim an
n→∞
n→∞
n→∞
n→∞
nach Regel (b) und mit der Additionsregel (a) folgt dann auch
lim (an − bn ) = lim (an + (−bn )) = lim an + lim (−bn ) = lim an − lim bn .
n→∞
n→∞
n→∞
n→∞
n→∞
n→∞
Als eine erste Anwendung dieser Rechenregeln wollen wir den Grenzwert der Folge
((2n + 1)/(3n + 2))n∈N berechnen. Die Rechenregeln sind hier nicht direkt anwendbar
da sowohl Zähler als auch Nenner divergent sind, aber dieser Umstand läßt sich durch
Erweitern mit 1/n beheben:
1
(2n + 1)
2+
2n + 1
= lim n1
lim
= lim
n→∞ (3n + 2)
n→∞ 3n + 2
n→∞ 3 +
n
1
n
2
n
1
n→∞ n
2 + lim
=
3+2·
lim 1
n→∞ n
2
= .
3
Es gibt auch noch eine Rechenregel für die Grenzwerte von Betragsfolgen. Hierzu sollten
wir uns zunächst an einige kleine Formeln aus dem letzten Semester erinnern. Seien
x, y ∈ R, oder auch x, y ∈ C, das macht hier keinen Unterschied. Wir haben die
Dreiecksungleichung
|x + y| ≤ |x| + |y|.
Damit folgt weiter
|x| = |x − y + y| ≤ |x − y| + |y| =⇒ |x − y| ≥ |x| − |y|.
Vertauschen wir x und y, so ist auch
−(|x| − |y|) = |y| − |x| ≤ |y − x| = | − (y − x)| = |x − y|.
Der Betrag der Differenz |x|−|y| ist jetzt eine der beiden Zahlen |x|−|y| oder −(|x|−|y|)
und da beide höchstens |x − y| sind, ist somit auch
|x| − |y| ≤ |x − y|.
110
Mathematik für Informatiker B, SS 2012
Dienstag 5.6.2012
Damit ist es leicht den Grenzwert einer Betragsfolge zu berechnen.
Lemma 6.15: Sei (an )n∈N eine konvergente reelle Folge. Dann ist auch die Folge
(|an |)n∈N der Beträge konvergent und es gilt
lim |an | = lim an .
n→∞
n→∞
Beweis: Schreibe a := limn→∞ an . Sei > 0. Dann existiert ein n0 ∈ N mit |an − a| < für alle n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 gilt dann auch
|an | − |a| ≤ |an − a| < .
Damit konvergiert (|an |)n∈N gegen |a|.
Aus der Konvergenz der Betragsfolge (|an |)n∈N folgt umgekehrt aber nicht die Konvergenz der Originalfolge (an )n∈N , wie schon das Beispiel an = (−1)n zeigt. Es gibt aber
einen wichtigen Sonderfall in dem diese Umkehrung doch wahr ist. Zunächst ist eine
reelle Folge (an )n∈N genau dann eine Nullfolge, also gegen 0 konvergent, wenn
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an | < gilt und wegen |an | = |an | für jedes n ∈ N ergibt sich die Äquivalenz
lim an = 0 ⇐⇒ lim |an | = 0.
n→∞
n→∞
Es gibt noch eine weitere ähnliche Aussage, das Einschnürungslemma oder SandwichLemma. Hier sind drei reelle Folgen (an )n∈N , (bn )n∈N und (cn )n∈N mit an ≤ bn ≤ cn
für alle n ∈ N gegeben, die Folge (bn )n∈N ist zwischen den beiden Folgen (an )n∈N und
(cn )n∈N eingeschnürt. Konvergieren dann die beiden äußeren Folgen (an )n∈N und (cn )n∈N
gegen denselben Grenzwert a ∈ R, so konvergiert auch die mittlere Folge (bn )n∈N gegen
a. Dies ist gerade Aufgabe (40).
Ausgerüstet mit diesen Formeln können wir jetzt einige Beispiele rechnen. Diese
beruhen größtenteils auf dem schon früher gerechneten Grundbeispiel
1
lim = 0.
n→∞ n
Weiter ist für jeden Exponenten k ∈ N∗ auch
1
lim k = 0,
n→∞ n
da es sich hier um eine Teilfolge von (1/n)n∈N handelt. Mit den Grenzwertsätzen kann
man jetzt auch kompliziertere Ausdrücke behandeln, beispielsweise
3 − n7 + n54
3n4 − 7n3 + 5
=
lim
n→∞ 5n4 − 2n3 + n2 + 1
n→∞ 5 − 2 + 12 +
n
n
lim
1
n4
1
+ 5 · limn→∞ n14
n→∞ n
lim 1 + lim n12 + lim n14
n→∞ n
n→∞
n→∞
3 − 7 · lim
=
111
5−2·
3
= ,
5
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
wobei wir diesmal einen Zwischenschritt ausgelassen haben. Wir wollen noch ein weiteres solches Beispiel rechnen, bei dem sich Zähler- und Nennergrad voneinander unterscheiden. Betrachte
n2 + 7n − 3
lim
.
n→∞ 2n3 + 5n − 1
Wir wollen wieder so erweitern, dass in Zähler und Nenner nach der Erweiterung konvergente Folgen auftauchen. Hierzu erweitern wir mit dem Kehrwert der höheren auftretenden Potenz von n, also in diesem Beispiel mit 1/n3 . Dann haben wir
1
+ n72 − n33
n2 + 7n − 3
n
lim
. = lim
= 0.
n→∞ 2n3 + 5n − 1
n→∞ 2 + 52 − 13
n
n
Als nächstes Beispiel wollen wir einmal den zunächst recht kompliziert wirkenden
Grenzwert
sin(n4 + 1)
lim
n→∞
n
berechnen. Es stellt sich heraus, dass derartige Grenzwerte einfach zu berechnen sind,
obwohl der Zähler recht kompliziert ist. Der Sinus nimmt ja nur Werte zwischen −1
und 1 an, es ist also | sin(n4 + 1)| ≤ 1 für alle n ∈ N. Damit ist auch
sin(n4 + 1) | sin(n4 + 1)|
1
1
sin(n4 + 1)
1
=
≤
=⇒
−
≤
≤ ,
n
n
n
n
n
n
und das schon oben erwähnte Sandwich Lemma, Aufgabe (40), liefert auch
sin(n4 + 1)
= 0.
n→∞
n
lim
Derartige Überlegungen kann man dann mit unserer Erweiterungstechnik kombinieren,
wie etwa im Beispiel des folgenden Grenzwerts
sin(n4 −5n2 +3n+1)
n2
n
1
+ (−1)
n
n2
2+
2n2 + sin(n4 − 5n2 + 3n + 1)
lim
= lim
2
n
n→∞
n→∞
3n + n + (−1)
3+
2
= .
3
Hier haben wir verwendet das genau wie obigen Beispiel auch
4
2
sin(n4 − 5n2 + 3n + 1) ≤ 1 und somit lim sin(n − 5n + 3n + 1) = 0
n2
n→∞
n2
n2
und analog auch
(−1)n
=0
n→∞
n2
gelten. Allgemeiner gilt diese Aussage natürlich auch für beliebige Potenzen von n
und nicht nur für Quadrate, d.h. für jedes k ∈ N mit k ≥ 1 konvergiert die Folge
((−1)n /nk )n≥1 gegen Null.
lim
112
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Vorlesung 15, Donnerstag 7.6.2012
Wir waren gerade mit der Besprechung diverser Beispiele zur Folgenkonvergenz
beschäftigt, und wollen jetzt noch zwei weitere Beispiele behandeln, in denen jeweils
ein Potenzterm q n“ vorkommt. Sei q ∈ R eine reelle Zahl. Wir wollen wissen, wann
”
die Folge (q n )n∈N der Potenzen von q konvergiert. Die Antwort wird von der Zahl q
abhängen, und man muss einige Fälle unterscheiden. Der Hauptfall ist |q| < 1, also
−1 < q < 1, und dann ergibt sich
lim q n = 0.
n→∞
Für q = 1 konvergiert die Folge ebenfalls, und zwar gegen 1. Für alle anderen Werte
von q ist (q n )n∈N dagegen divergent, wobei im Fall q > 1 immerhin noch bestimmte
Divergenz gegen +∞ vorliegt. Der Beweis all dieser Behauptungen ist Aufgabe (45).
Als ein letztes Beispiel wollen wir die Folge (q n /n!)n∈N behandeln. Diese Folge ist
immer konvergent, unabhängig vom Wert von q, und der Grenzwert ist 0. Beachte
das die Grenzwertsätze hier wieder nicht anwendbar sind, da die Folge der Nenner ja
divergiert. Es ist auch nicht sofort klar ob die Folge beispielsweise für q > 1 konvergiert,
denn dann divergieren Zähler und Nenner beide bestimmt gegen +∞, und man muss
sich überlegen welcher der beiden gewinnt“. Es wird aber alles klar, wenn wir uns
”
Zähler und Nenner einmal ausgeschrieben denken
n mal
n
z }| {
q
q · ... · q
q q
q
=
= · · ... · .
n!
1 · 2 · ... · n
1 2
n
Sobald der Index k im Quotienten q/k größer als |q| wird, kommen nur noch Faktoren
kleiner als Eins hinzu, im wesentlichen haben wir also eine Folge von Potenzen. Um ein
formales Argument zu geben, wählen wir ein n0 ∈ N mit n0 ≥ 2|q|. Für jedes n ∈ N
mit n ≥ n0 gilt dann
n
n−n0 +1
n−n0 +1
n0 −1
q |q|
|q|
|q|n0 −1
|q|
|q|n0 −1
1
= |q|
≤
·
n! (n0 − 1)! · n0 · . . . · n ≤ (n0 − 1)! · n0
(n0 − 1)!
2
n
n0 −1
(2|q|)
1
=
·
.
(n0 − 1)!
2
Wir wissen bereits
(2|q|)n0 −1
lim
·
n→∞ (n0 − 1)!
n
n
1
(2|q|)n0 −1
1
=
· lim
= 0,
n→∞
2
(n0 − 1)!
2
und mit dem Einschnürungslemma folgt auch
qn
= 0.
n→∞ n!
lim
113
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Nachdem wir jetzt einige Beispiele behandelt haben, wollen wir nun ein eher theoretisches Thema angehen. In einem allgemeinen metrischen Raum hatten wir Cauchyfolgen
als Folgen definiert, deren Glieder sich für ausreichend große Indizes so nahe kommen
wie wir es wollen. In Satz 8 hatten wir gezeigt das jede konvergente Folge auch eine
Cauchyfolge ist. Die Umkehrung dieser Aussage ist für allgemeine metrische Räume
falsch, man kann Cauchyfolgen konstruieren die nicht konvergent sind. Es gibt allerdings auch gute metrische Räume“ in denen tatsächlich jede Cauchyfolge konvergiert,
”
und ein solcher Raum sind die reellen Zahlen X = R bezüglich der euklidischen Metrik.
Wir beginnen mit einem Spezialfall, nämlich den monotonen Folgen.
Lemma 6.16 (Konvergenz monotoner Folgen)
Sei (an )n∈N eine reelle Folge. Dann gelten:
(a) Ist die Folge (an )n∈N monoton steigend und nach oben beschränkt, so ist sie auch
konvergent und es gilt
lim an = sup{an |n ∈ N}.
n→∞
(b) Ist die Folge (an )n∈N monoton fallend und nach unten beschränkt, so ist sie auch
konvergent und es gilt
lim an = inf{an |n ∈ N}.
n→∞
Beweis: Zunächst sollten wir uns daran erinnern, dass wir die reellen Zahlen in §4.Satz
15 als den, bis auf Isomorphie eindeutigen, vollständig angeordneten Körper definiert
hatten, d.h. nach oben beziehungsweise unten beschränkte, nicht leere Teilmengen von
R haben stets ein Supremum beziehungsweise Infimum.
(a) Die Menge {an |n ∈ N} ist nicht leer und nach oben beschränkt, also existiert
s := sup{an |n ∈ N}. Wir müssen zeigen, dass (an )n∈N gegen s konvergiert. Sei also
> 0 gegeben. Dann ist s − < s, und da s nach Definition die kleinste obere Schranke
der Menge {an |n ∈ N} ist, ist s − keine obere Schranke dieser Menge. Damit existiert
ein Index n0 ∈ N mit an0 > s − . Sei jetzt n ∈ N mit n ≥ n0 . Da die Folge (ak )k∈N
monoton steigend ist, folgt
s − < an0 ≤ an ≤ s, also auch |an − s| = s − an < s − (s − ) = .
Damit konvergiert die Folge (an )n∈N gegen s.
(b) Dies ist analog zu (a), und soll hier nicht vorgeführt werden.
Monotone Folgen sind zwar zum einen recht speziell zum anderen kommen sie aber
doch in jeder beliebigen Folge als Teilfolgen vor. Wir behaupten das jede beliebige
reelle Zahlenfolge (an )n∈N immer eine monoton steigenden Teilfolge (ank )k∈N oder eine monoton fallende Teilfolge (ank )k∈N enthält. Dies läßt sich am besten durch eine
Fallunterscheidung zeigen.
114
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Fall 1. Zunächst nehmen wir an, dass die Aussage
∃(n ∈ N)∀(m ≥ n)∃(k > m) : ak ≥ am
gilt. Dann wählen wir ein n0 ∈ N so, dass es für jedes n ∈ N mit n ≥ n0 stets ein m ∈ N
mit m > n und am ≥ an gibt. Die Indexfolge (nk )k∈N wird jetzt rekursiv konstruiert.
Ist k ∈ N und haben wir nk ∈ N mit nk ≥ n0 schon gewählt, so gibt es nach Wahl von
n0 auch ein nk+1 ∈ N mit nk+1 > nk ≥ n0 und ank+1 ≥ ank . Damit wird dann rekursiv
eine monoton steigende Teilfolge (ank )k∈N von (an )n∈N definiert.
Fall 2. Im zweiten Fall soll die obige Aussage nicht gelten, d.h. wir haben
∀(n ∈ N)∃(m ≥ n)∀(k > m) : ak < am .
Auch hier führen wir wieder eine rekursive Konstruktion durch, und beginnen mit
n0 := 0. Ist nun k ∈ N und haben wir nk ∈ N schon gewählt, so gibt es nach unserer
Annahme in diesem Fall ein nk+1 ∈ N mit nk+1 ≥ nk + 1 > nk so, dass für jedes k ∈ N
mit k > nk+1 stets ak < ank+1 gilt. Damit ist (ank )k≥1 eine Teilfolge von (an )n∈N und
wir behaupten das diese Folge monoton fallend ist. Sei nämlich k ≥ 1 gegeben. Wegen
nk+1 > nk ist dann nach unserer Konstruktion auch ank+1 < ank , die Folge (ank )k≥1 ist
also sogar streng monoton fallend.
Damit ist diese Behauptung bewiesen. Als nächsten Schritt können wir jetzt den
Satz von Bolzano-Weierstraß beweisen und zeigen das jede beschränkte Folge einen
Häufungspunkt besitzt. Da ein Häufungspunkt einer Folge nach Definition der Grenzwert einer konvergenten Teilfolge ist, kann man gleichwertig auch sagen, dass jede
beschränkte Folge eine konvergente Teilfolge besitzt.
Satz 6.17 (Der Satz von Bolzano und Weierstraß)
Jede beschränkte, reelle Folge hat einen Häufungspunkt.
Beweis: Sei also (an )n∈N eine beschränkte Folge in R. Nach Aufgabe (46) besitzt
(an )n∈N eine monoton steigende oder monoton fallende Teilfolge (ank )k∈N . Da (an )n∈N
beschränkt ist, ist auch die Teilfolge (ank )k∈N beschränkt, und nach dem eben bewiesenen Lemma 16 ist (ank )k∈N eine konvergente Teilfolge von (an )n∈N . Der Grenzwert
dieser Teilfolge ist damit ein Häufungspunkt von (an )n∈N .
Damit sind wir jetzt in der Lage die Konvergenz reeller Cauchyfolgen zu beweisen.
Satz 6.18 (Metrische Vollständigkeit der reellen Zahlen)
Jede reelle Cauchyfolge ist auch konvergent.
Beweis: Sei (an )n∈N eine Cauchyfolge in R. Wir zeigen zunächst, dass die Folge (an )n∈N
beschränkt ist. Es gibt einen Index n0 ∈ N mit |an − am | < 1 für alle n, m ∈ N mit
n, m ≥ n0 . Insbesondere folgt damit für jedes n ∈ N mit n ≥ n0 auch
|an | = |an − an0 + an0 | ≤ |an0 − an | + |an0 | < 1 + |an0 |.
115
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Setzen wir also
M := max{|an0 | + 1, |a0 |, . . . , |an0 −1 |},
so ist |an | ≤ M für überhaupt alle n ∈ N. Damit ist die Folge (an )n∈N beschränkt.
Nach Satz 17 gibt es eine konvergente Teilfolge (ank )k∈N von (an )n∈N , und wir schreiben
a := lim ank .
k→∞
Wir wollen beweisen, dass auch die gesamte Folge (an )n∈N gegen a konvergiert. Sei also
wieder einmal ein > 0 gegeben. Da die Folge (ank )k∈N gegen a konvergiert, existiert
ein k0 ∈ N mit |ank − a| < /2 für alle k ∈ N mit k ≥ k0 . Da (an )n∈N eine Cauchyfolge
ist, gibt es weiter ein n0 ∈ N mit |an − am | < /2 für alle n, m ∈ N mit n, m ≥ n0 . Da
die Indizes n1 < n2 < n3 < . . . der Teilfolge streng monoton steigend sind, gibt es auch
k ∈ N mit k ≥ k0 und nk ≥ n0 . Sei n ∈ N mit n ≥ n0 gegeben. Da auch nk ≥ n0 ist,
haben wir dann
|an − a| = |an − ank + ank − a| ≤ |an − ank | + |ank − a| <
+ = .
2 2
Damit konvergiert (an )n∈N gegen a.
6.5
Folgen mit rationalen Elementen
Wir behandeln im Folgenden einige weitere Beispielklassen. Wir beginnen dabei mit
Folgen deren n-tes Glied eine rationale Funktion in n ist. Dies verallgemeinert einige
unserer früheren Beispiele. Gegeben seien zwei Polynome
p(x) =
r
X
k
ak x und q(x) =
s
X
bk x k
k=0
k=0
in R[x] von Grad r beziehungsweise s, also ar 6= 0 und bs 6= 0. Wir betrachten den
Grenzwert
p(n)
lim
.
n→∞ q(n)
Wie wir schon an unseren Beispielen gesehen haben, hängt dieser vom Grad der beiden
Polynome p und q ab. Wir wollen die folgenden Aussagen beweisen.
p(n)
ar
= .
n→∞ q(n)
br
1. Ist r = s, so ist lim
p(n)
= 0.
n→∞ q(n)
2. Ist s > r, so ist lim
116
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
3. Ist r > s, so ist die Folge (p(n)/q(n))n∈N bestimmt divergent, und zwar
(
+∞, ar und bs haben dasselbe Vorzeichen,
p(n)
=
lim
n→∞ q(n)
−∞, ar und bs haben verschiedene Vorzeichen.
Wir gehen die drei Fälle der Reihe nach durch.
Fall 1. Sei also r = s, d.h. Zähler- und Nennergrad stimmen überein. Dann können
wir genau wie in den schon behandelten konkreten Beispielen mit 1/nr erweitern und
Lemma 14 ergibt
ar +
p(n)
lim
= lim
n→∞ q(n)
n→∞ b +
r
ar−1
n
br−1
n
+ ··· +
+ ··· +
a0
nr
b0
nr
=
ar
.
br
Damit ist dieser Fall bereits fertig.
Fall 2. Nun sei s > r, der Nennergrad ist also größer als der Zählergrad. Auch hierfür
haben wir bereits ein konkretes Beispiel gerechnet, und genau wie in diesem Beispiel
erweitern wir wieder mit 1/ns und wenden erneut Lemma 14 an
p(n)
lim
= lim
n→∞ q(n)
n→∞
ar
ns−r
+
bs +
ar−1
+ · · · + na0s
ns−r+1
bs−1
+ · · · + nb0s
n
= 0.
Fall 3. Schließlich sei r > s, also größerer Zähler- als Nennergrad. Hierfür haben wir
noch kein Beispiel gesehen. Zunächst nehmen wir ar , bs > 0 an. Wenden wir den bereits
bewiesenen Fall 1 an, so ergibt sich
p(n)
= ar ,
n→∞ nr
lim
also existiert ein n1 ∈ N mit
p(n)
ar
nr − ar < 2
für alle n ≥ n1 , und dies bedeutet
1
p(n)
3
1
3
ar < r < ar , also auch ar nr < p(n) < ar nr
2
n
2
2
2
für alle n ≥ n1 . Ebenso existiert ein n2 ∈ N mit (1/2)bs ns < q(n) < (3/2)bs ns für
n ≥ n2 . Für n ≥ max{n1 , n2 } ist somit
p(n)
>
q(n)
1
2
3
2
ar nr
ar r−s
ar
=
n
≥
· n,
s
3bs
3bs
bs n
und hieraus folgt die bestimmte Divergenz von (p(n)/q(n))n∈N gegen +∞.
Die beiden anderen Vorzeichenfälle lassen sich auf den schon behandelten Fall
zurückführen. Ist ar < 0 und bs < 0, so erweitern wir mit −1 und erhalten wieder
117
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
bestimmte Divergenz gegen +∞. Haben ar und bs schließlich verschiedene Vorzeichen,
so ergeben die schon behandelten beiden Fälle
−p(n)
= +∞,
n→∞ q(n)
lim
und dies impliziert offenbar die bestimmte Divergenz
−p(n)
p(n)
= lim −
= −∞.
lim
n→∞
n→∞ q(n)
q(n)
Wir haben jetzt das Konvergenzverhalten von Folgen der Form am = p(n)/q(n) mit
reellen Polynomen p, q ∈ R[x] vollständig behandelt. Eine kleine Folgerung aus diesen
Überlegungen wollen wir noch erwähnen. Angenommen wir haben zwei ganzzahlige
Polynome p, q ∈ Z[x] mit p, q 6= 0 für die (p(n)/q(n))n∈N konvergiert. Dann ist der
Grenzwert dieser Folge entweder Null oder der Quotient der höchsten Koeffizienten
von p und q, also ist auf jeden Fall eine rationale Zahl
p(n)
∈ Q.
n→∞ q(n)
lim
Es gibt aber natürlich auch rationale Folgen, die zwar in R konvergieren, deren Grenzwert aber nicht mehr rational ist. Wir können beispielsweise irgendeine irrationale Zahl
α nehmen, und als n-tes Folgenglied die nach den ersten n Nachkommastellen abgebrochene Dezimalentwicklung von α verwenden. Dies liefert eine gegen die irrationale
Zahl α konvergierende Folge rationaler Zahlen.
6.6
Folgen in C
Für komplexe Folgen treten keine neuen Effekte auf, hier läßt sich durch Betrachtung
von Real- und Imaginärteil alles auf den reellen Fall zurückführen. Hierzu erinnern
wir uns an Aufgabe (37), dort wurde unter anderem gezeigt das für alle z, w ∈ C die
Ungleichungen
max{| Re(z) − Re(w)|, | Im(z) − Im(z)|} ≤ |z − w|
√
≤ 2 · max{| Re(z) − Re(w)|, | Im(z) − Im(z)|}
gelten. Ist damit (zn )n∈N eine Folge in C und z ∈ C, so haben wir die Äquivalenz
lim zn = z ⇐⇒ lim Re(zn ) = Re(z) ∧ lim Im(zn ) = Im(z).
n→∞
n→∞
n→∞
Dies wollen wir kurz einmal näher begründen. Konvergiere zunächst (zn )n∈N gegen z.
Ist dann > 0, so gibt es n0 ∈ N mit |zn − z| < für n ≥ n0 . Für jedes n ∈ N mit
n ≥ n0 sind dann aber auch
| Re(zn ) − Re(z)| ≤ |zn − z| < und | Im(zn ) − Im(z)| ≤ |zn − z| < ,
118
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
also konvergieren (Re(zn ))n∈N gegen Re(z) und (Im(zn ))n∈N gegen Im(z). Dies beweist
die Implikation von links nach rechts.
Wir kommen nun zur anderen Implikation, seien also limn→∞ Re(zn ) = Re(z) und
limn→∞ Im(zn ) = Im(z) vorausgesetzt. Sei > 0. Dann existieren Indizes n1 , n2 ∈ N
mit
√
√
2
2
| Re(zn ) − Re(z)| <
· für n ≥ n1 und | Im(zn ) − Im(z)| <
· für n ≥ n2 .
2
2
Ist dann n0 := max{n1 , n2 }, so gilt für jedes n ∈ N mit n ≥ n0 auch
|zn − z| ≤
√
2 · max{| Re(zn ) − Re(z)|, | Im(zn ) − Im(z)|} <
√
√
2·
2
· = .
2
Also konvergiert auch die komplexe Folge (zn )n∈N gegen z.
Durch Zerlegung in Real- und Imaginärteil lassen sich jetzt auch die Grenzwertsätze
Lemma 14 leicht auf den Fall komplexer Folgen übertragen. Dies wollen wir an dieser Stelle nicht explizit vorführen, werden es aber gelegentlich verwenden. Ebenfalls
überträgt sich Lemma 15
lim zn = z =⇒ lim |zn | = |z|,
n→∞
n→∞
man kann den Beweis wörtlich übertragen.
6.7
Rekursiv definierte Folgen
Wir wollen jetzt auch noch an einem Beispiel die Berechnung von Grenzwerten bei
rekursiv definierten Folgen behandeln. Wir gegen uns eine reelle Zahl c > 0 vor und
wählen irgendeinen Startwert a0 ∈ R mit a0 > 0. Mit diesem Startwert wird jetzt durch
die Formel
1
c
an+1 =
an +
2
an
rekursiv eine Folge (an )n∈N definiert. Wegen a0 > 0 ergibt die Rekursionsformel auch
an > 0 für alle n ∈ N. Für jedes n ∈ N rechnen wir
a2n+1
1
−c=
4
a2n + c
an
2
−c=
a4n + 2ca2n + c2
a4n − 2ca2n + c2
(an − c)2
−
c
=
=
≥ 0,
4a2n
4a2n
4a2n
d.h. für jedes n ∈ N mit n ≥ 1 gilt
a2n ≥ c.
Weiter ist die Folge (an )n≥1 monoton fallend. Für n ≥ 1 haben wir nämlich
an − an+1
a2n + c
2a2n − a2n − c
a2n − c
=
=
≥0
= an −
2an
2an
2an
119
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
da wir schon a2n ≥ c wissen, also ist auch an ≥ an+1 . Damit ist (an )n∈N eine durch 0
nach unten beschränkte, monoton fallende Folge, also nach Lemma 16 auch konvergent. Bezeichne a den Grenzwert dieser Folge. Um a auszurechnen, wollen wir in der
Rekursionsgleichung den Grenzübergang für n gegen ∞ ausführen. Um a = 0 nicht
als Sonderfall behandeln zu müssen, multiplizieren wir die Rekursionsgleichung erst
einmal mit an , und erhalten
a2 + c
an an+1 = n
.
2
Mit Lemma 14 ergibt sich
a2 =
lim an ·
n→∞
a2 + c
a2 + c
=
,
lim an+1 = lim n
n→∞
n→∞
2
2
also a2 = c. Wegen an > 0 für alle n ≥ 1 ergibt Lemma 11 auch
a = lim an ≥ 0,
n→∞
und insgesamt haben wir damit a =
√
c. Damit haben wir
lim an =
√
n→∞
c
bewiesen. Wenn wir diese Folge ähnlich zu Aufgabe (46) zur numerischen Berechnung von Wurzeln verwenden wollen, so brauchen wir als Abbruchkriterium noch eine
Abschätzung des Fehlers nach n Iterationsschritten. Hierzu rechnen wir für n ≥ 1
an |an −
√
c| = an (an −
√
c) < (an +
also
|an −
√
c| <
√
c) · (an −
√
c) = a2n − c,
a2n − c
.
an
Als ein konkretes Beispiel nehmen wir einmal c = 2 und a1 = 3/2 = 1.5. Dann
sind a1 < c und a21 = 9/4 > c, also sind alle unsere Annahmen erfüllt. Die ersten
Folgenglieder sind
a1
a2
a3
a4
=
=
=
=
1.5,
1.416 . . . ,
1.414215 . . . ,
1.414213561374 . . . ,
wobei die korrekten Ziffern jeweils unterstrichen sind. Grob gesprochen verdoppelt sich
die Anzahl der gültigen in jeder Iteration, dieses Verhalten nennt man auch quadra”
tische Konvergenz“. Die Berechnung der Grenzwerte rekursiv definierter Folgen läuft
meistens wie in diesem Beispiel in zwei Schritten ab:
120
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
1. Weise nach das die Folge überhaupt konvergiert. Oftmals wird dies wie im Beispiel
durch Monotonieüberlegungen bewiesen, d.h. man versucht zu zeigen das die
Folge monoton steigend oder monoton fallend ist. Ist dies der Fall und kann
man zusätzlich Beschränktheit nachweisen, so ergibt sich die Konvergenz mit
Lemma 16. Funktioniert dieser Ansatz nicht, so kann man versuchen zu zeigen,
dass es sich um eine Cauchyfolge handelt um Satz 18 anzuwenden. Typischerweise
berechnet man hierzu die Differenzen an+1 −an und versucht einzusehen das diese
ausreichend schnell gegen Null konvergieren. Dass (an+1 − an )n∈N eine Nullfolge
ist, impliziert leider nicht das (an )n∈N eine Cauchyfolge ist, ist die Konvergenz
aber schnell genug“ so kann mas es oftmals doch zeigen.
”
2. Weiss man das ein Grenzwert existiert, so kann man in der Rekursionsgleichung
mit Hilfe der Grenzwertsätze den Grenzübergang für n gegen ∞ durchführen, und
erhält eine Gleichung für den Grenzwert. Gelegentlich ist es dabei wie im Beispiel sinnvoll, die Gleichung vorher etwas umzustellen, um keine Sonderfälle wie
Nullen im Nenner behandeln zu müssen. Durch Lösen der Gleichung erhält man
dann die möglichen Grenzwerte. Gibt es nur eine Lösung so ist man gleich fertig,
andernfalls muss man noch durch geeignete Abschätzungen überlegen welche der
Lösungen der Grenzwert ist.
Der erste Schritt muss dabei wirklich durchgeführt werden, obwohl er zur eigentlichen
Rechnung nichts beizutragen scheint. Der zweite Schritt, also die eigentliche Berechnung des Grenzwerts, kann nämlich auch funktionieren wenn die Folge divergiert, wenn
es also überhaupt keinen Grenzwert gibt. Als ein Beispiel für dieses Phänomen, betrachten wir einmal die durch
b0 := 0 und bn+1 := bn (1 + bn ) − 3 für n ∈ N
definierte Folge (bn )n∈N . Führen wir in der Rekursionsgleichung den Grenzübergang für
einen hypothetischen Grenzwert b durch, so ergibt sich
b = b(1 + b) − 3 =⇒ b2 = 3.
Für x ≥ 2 ist x(1 + x) − 3 ≥ 3, erreicht die Folge also einen Wert bn ≥ 2, so ist auch
bk ≥ 2 für alle k ≥ n. Nun sind b1 = −3 und b2 = 3, also√gilt bn ≥ 2 für alle n ≥ 2.
Insbesondere müsste der Grenzwert b ≥ 0 sein, also b = 3. Damit haben wir den
”
Grenzwert“ ausgerechnet, aber in Wahrheit existiert er gar nicht.
√ Es müsste wegen
bn ≥ 2 für alle n ≥ 2 ja auch b ≥ 2 sein, im Widerspruch zu b = 3. Die Berechnung“
”
des Grenzwerts alleine reicht also nicht aus, man muss auch seine Existenz beweisen.
6.8
Landau-Symbole
Wir wollen bei dieser Gelegenheit noch kurz an eine schon aus dem letzten Semester
bekannte Schreibweise erinnern.
121
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Definition 6.19: Sei (an )n∈N eine reelle Folge und sei f : N → R>0 eine reelle Funktion.
Dann schreibt man an = O(f (n)), gesprochen als groß O von n“ oder an ist von der
”
”
Ordnung f (n)“, wenn die Folge (an /f (n))n∈N beschränkt ist. Ist die Folge (an /f (n))n∈N
sogar eine Nullfolge, so schreibt man auch an = o(f (n)).
Wir konzentrieren uns hier auf das wesentlich häufiger vorkommende O(f (n)). Dass
die Folge (an /f (n))n∈N beschränkt ist, bedeutet das es eine Konstante C ≥ 0 mit
an f (n) ≤ C, also |an | ≤ C · f (n)
für alle n ∈ N gibt. Man muss das n-te Folgenglied also bis auf eine Konstante im
Betrag gegen f (n) abschätzen können. Manchmal ist es bequemer diese Abschätzung
erst ab einem Startindex n0 zu zeigen, und auch dies ist zu an = O(f (n)) äquivalent,
d.h.
an = O(f (n)) ⇐⇒ ∃(C ≥ 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an | ≤ C · f (n).
Dass dies ausreicht ist klar, man muss ja nur
|a1 | |a2 |
|an0 −1 |
∗
C := max C,
,
,...,
1
2
n0 − 1
setzen und hat |an | ≤ C ∗ f (n) für alle n ∈ N. Beispielsweise ist
an :=
n3 + n + 2
= O(n),
3n2 + 7
denn wegen
n3 + n + 2
n3 + n + 2
1
1
=
lim
=
<
n→∞ n · (3n2 + 7
n→∞ 3n3 + 7n
3
2
existiert ein n0 ∈ N mit
3
n + n + 2 1
3n2 + 7 ≤ 2 · n
für alle n ≥ n0 . Wie schon bemerkt impliziert dies an = O(n). Beachte noch das die
Funktion f (n) keinesfalls eindeutig festgelegt ist, beispielsweise ist
lim
n + 1 = O(n) und n + 1 = O(n2 ).
Normalerweise wähle man natürlich ein möglichst gutes“ f (n), ist hierzu aber nicht
”
gezwungen. Es gibt einige besonders häufige Wahlen für f (n):
O(f (n))
O(1)
O(n)
O(n2 )
O(nk )
O(ln n)
O(n ln n)
O(en )
Verhalten
beschränkte Folge
lineares Wachstum
quadratisches Wachstum
polyomiales Wachstum von Ordnung k
logarithmisch (viel langsamer als linear)
zwischen linear und quadratisch
exponentiell
122
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
n
Es gibt natürlich auch noch schnelleres Wachstum als exponentiell, zum Beispiel ee .
Der Logarithmus ln n in der Tabelle meint den natürlichen Logarithmus, aber dies
spielt keine Rolle. Die anderen Logarithmen unterscheiden sich nur um Konstanten
vom natürlichen Logarithmus, also ist zum Beispiel O(log2 n) = O(ln n).
$Id: reihen.tex,v 1.10 2012/06/19 11:26:28 hk Exp $
§7
Reihen
Vorlesung 16, Dienstag 12.6.2012
Eine Reihe ist eine unendliche Summe“
”
a1 + a2 + a3 + · · · .
Die Summanden ai können dabei reell oder komplex sein. Historisch sind Reihen sehr
viel älter als Folgen, und im Gegensatz zu den Folgen sind sie auch von eigenständigen Interesse. Wir hatten gesagt das Folgen und ihr Konvergenzbegriff ein Hilfsbegriff
sind, auf den alle anderen Grenzwertbegriffe zurückgeführt werden. Dementsprechend
werden wir unendliche Summen in Termen von Folgengrenzwerten definieren. Angenommen die Zahlen a0 , a1 , a2 , . . . sind gegeben. Dann betrachten wir die sogenannten
Partialsummen
s1 := a1 , s2 := a1 + a2 , s3 := a1 + a2 + a3 , und allgemein sn :=
n
X
ak ,
k=1
also die endlichen Summen die jeweils durch Summation der ersten n Summanden
unserer unendlichen Summe gebildet werden. Damit können wir definieren:
Definition 7.1: Sei (an )n∈N eine reelle oder komplexe Folge. Dann heißt die Folge der
∞
P
an bezeichnet. Wir
Partialsummen (sn )n∈N die zugeordnete Reihe. Diese wird mit
sagen das die Reihe
∞
P
n=1
an konvergiert wenn die Folge der Partialsummen konvergiert.
n=1
In diesem Fall schreiben wir
∞
X
n=1
an := lim sn .
n→∞
Eine nicht konvergente Reihe nennen wir auch divergent.
123
Mathematik für Informatiker B, SS 2012
Dass das Symbol
∞
P
Dienstag 12.6.2012
an sowohl die Folge der Partialsummen als auch den eventuellen
n=1
Grenzwert bezeichnet, ist normalerweise unproblematisch. Die jeweilige Bedeutung ist
immer aus dem Kontext heraus klar. Anstelle bei n = 1 kann die Reihe auch mit einem
anderen Startwert beginnen.
Wir wollen kurz ein Beispiel rechnen, bei dem man die Folge der Partialsummen
explizit ausrechnen kann, nämlich die Reihe
∞
X
n=1
1
1
1
1
1 1
1
=
+
+
+ ··· = + +
+ ···
n · (n + 1)
1·2 2·3 3·4
2 6 12
Für jedes k ∈ N haben wir die Gleichung
1
1
1
= −
,
k(k + 1)
k k+1
und als n-te Partialsumme ergibt sich
n n
X
X
1
1
1
1
1
1
1 1 1 1 1
=
−
= 1− + − + − +· · ·+ −
= 1−
.
k(k
+
1)
k
k
+
1
2
2
3
3
4
n
n
+
1
n
+
1
k=1
k=1
Da die Berechnung darauf beruht, dass sich die mittleren Terme alle wegheben spricht
man auch von einer Ziehharmonika-Summe“. Damit ist unsere Reihe konvergent mit
”
dem Grenzwert
∞
X
1
1
1
= lim 1 −
= 1 − lim
= 1.
n→∞ n + 1
n(n + 1) n→∞
n+1
n=1
Wir wollen jetzt einige Grundtatsachen über konvergente Reihen herleiten. All diese
Aussagen werden auf bereits bekannte Tatsachen über Folgen zurückgeführt. Die Folgen
erfüllen hier voll und ganz ihren Zweck als Hilfsbegriff zur Behandlung uns wirklich
interessierender Grenzwertbegriffe.
∞
P
Lemma 7.2: Sei
an eine konvergente Reihe.
n=1
(a) Die Folge (an )n∈N ist eine Nullfolge.
(b) Die Folge (sn )n∈N der Partialsummen ist beschränkt.
Beweis: (a) Mit den Rechenregeln §6.Lemma 14 für Folgengrenzwerte, die wie bereits
in §6.6 bemerkt auch für komplexe Folgen gelten, haben wir
lim an = lim (sn − sn−1 ) = lim sn − lim sn−1 = 0
n→∞
n→∞
n→∞
da der Grenzwert
lim sn−1 = lim sn =
n→∞
n→∞
124
n→∞
∞
X
n=1
an
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
existiert.
(b) Dies ist klar nach §6.Lemma 10 da die Folge (sn )n∈N beschränkt ist. Beachte das
dieses Lemma durch Betrachtung von Real- und Imaginärteil gemäß §6.6 auch für
komplexe Folgen gilt.
Leider gelten die Umkehrungen dieser beiden Aussagen nicht. Wenn (an )n∈N eine Null∞
P
folge ist, so muss die Reihe
an im Allgemeinen nicht konvergieren, hierfür werden
n=1
wir gleich ein Beispiel sehen. Auch die Beschränktheit der Partialsummen reicht nicht
aus um auf dieP
Konvergenz schließen zu können. Beispielsweise sind die Partialsumn
men der Reihe ∞
n=0 (−1) abwechselnd 1 und 0, also sicherlich beschränkt aber nicht
konvergent.
∞
P
an eine reelle Reihe in der die Summanden an alle dasselbe VorLemma 7.3: Sei
n=1
zeichen haben, also an ≥ 0 für alle n ∈ N oder an ≤ 0 für alle n ∈ N. Dann ist die
Reihe genau dann konvergent wenn die Folge ihrer Partialsummen beschränkt ist.
Beweis: ”=⇒” Dies gilt nach Lemma 2.(b).
”⇐=” Die Folge (sn )n∈N der Partialsummen ist im Fall positiver Vorzeichen monoton
steigend und im Fall negativer Vorzeichen monoton fallend. Da sie zugleich nach unserer
Voraussetzung beschränkt ist, ist (sn )n∈N nach §6.Lemma 16 auch konvergent. Damit
∞
P
ist die Reihe
an konvergent.
n=1
Aufgrund dieses Lemmas schreibt man für Reihen
∞
P
an mit an ≥ 0 für alle n ∈ N
n=1
auch
∞
X
an < ∞ für
n=1
∞
X
an ist konvergent.
n=1
Gelegentlich wird diese Schreibweise auch bei allgemeineren Folgen verwendet. Als ein
Beispiel wollen wir das Lemma einmal dazu verwenden die Konvergenz der Reihe
∞
X
n=1
1 1
1
1
= + +
+ ···
2
(n + 1)
4 9 16
zu beweisen. Alle Summanden sind hier positiv, nach dem Lemma müssen wir also nur
einsehen das die Partialsummen beschränkt bleiben. Wir können diese Partialsummen
zwar nicht explizit ausrechnen, werden aber trotzdem zeigen das sie beschränkt bleiben.
Für jedes n ∈ N rechnen wir hierzu
n
X
k=1
n
n
∞
X
X
X
1
1
1
1
=
≤
≤
= 1,
2
(k + 1)
(k
+
1)
·
(k
+
1)
k(k
+
1)
k(k
+
1)
k=1
k=1
k=1
125
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
die Partialsummen sind also durch Eins beschränkt, und folglich ist
∞. Wegen
∞
∞
X
X
1
1
=1+
<∞
2
n
(n + 1)2
n=1
n=1
P∞
n=1
1/(n + 1)2 <
folgt hieraus auch die Konvergenz der Reihe
∞
X
π2
1
=
.
2
n
6
n=1
Das Ergebnis ist dabei nur zur Information angegeben, für einen Beweis dieser von
Euler hergeleiteten Formel fehlen uns leider die benötigten Hilfsmittel. Bevor wir zu
weiteren Beispielen kommen, übertragen wir noch einige weitere Aussagen von Folgen
∞
∞
P
P
auf Reihen. Angenommen wir haben zwei konvergente Reihen
an und
bn sowie
n=1
n=1
zwei Konstanten α, β ∈ R beziehungsweise α, β ∈ C. Sind (s0n )n∈N und (s00n )n∈N die
jeweiligen Partialsummen, also
s0n =
n
X
ak und s00n =
k=1
n
X
bk
k=1
für alle n ∈ N, so ergeben sich die Partialsummender Reihe
∞
P
(αan + βbn ) als
n=1
sn =
n
X
(αak + βbk ) = α ·
n
X
ak + β ·
n
X
k=1
k=1
k=1
bk = αs0n + βs00n
für alle n ∈ N. Mit §6.Lemma 14 folgt
lim sn = α · lim s0n + β · lim s00n = α ·
n→∞
n→∞
n→∞
∞
X
an + β ·
n=1
∞
X
bn .
n=1
Damit haben wir das folgende Lemma bewiesen:
Lemma 7.4 (Linearkombinationen konvergenter Reihen)
∞
P
P∞
Seien
an und
n=1 bn zwei konvergente, reelle oder komplexe, Reihen. Für alle
n=1
reellen beziehungsweise komplexen Zahlen α, β ist dann auch
∞
P
(αan +βbn ) konvergent
n=1
mit
∞
X
n=1
(αan + βbn ) = α ·
∞
X
n=1
an + β ·
∞
X
bn .
n=1
Beachte das wir zum Beweis eigentlich nichts tun mussten, durch Betrachtung der Partialsummen konnten wir alles auf die entsprechende Aussage über Folgen zurückspielen.
126
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
Dies illustriert unsere Bemerkung zum Beginn von §6 das die Folgen ein Hilfskonstrukt
sind, das zum Nachweis der Eigenschaften der uns wirklich interessierenden Grenzwerte herangezogen wird. Ganz ähnlich zum eben gegebenen Beweis läßt sich §6.6 zum
Beweis der folgenden Aussage heranziehen:
Lemma 7.5 (Komplexe Reihen)
∞
P
Eine komplexe Reihe
zn ist genau dann konvergent, wenn die beiden reellen Reihen
∞
P
Re(zn ) und
n=1
n=1
∞
P
Im(zn ) konvergent sind, und in diesem Fall gilt
n=1
∞
X
zn =
n=1
∞
X
Re(zn ) + i ·
n=1
∞
X
Im(zn ).
n=1
Beweis: Wie schon bemerkt folgt dies aus §6.6.
In den nun folgenden Abschnitten werden wir einige spezielle Klassen von Reihen
behandeln.
7.1
Harmonische Reihe
Als die harmonische Reihe bezeichnet man die Reihe
∞
X
1 1
1
= 1 + + + ···
n
2 3
n=1
Nach Lemma 3 konvergiert die harmonische Reihe genau dann wenn die Folge
sn :=
n
X
1
k=1
k
ihrer Partialsummen beschränkt ist. Probiert man dies mit dem Taschenrechner aus,
berechnet also sn für vergleichsweise grosse n, so sieht es tatsächlich so aus als wären
die Partialsummen beschränkt, in der Gegend von 11 hören sie auf zu wachsen. Dies
stellt sich dann allerdings als ein der Rechenungenauigkeit geschuldeter Irrtum heraus.
Dies kann man wie folgt sehen
sn = 1 +
1
1 1
1 1 1 1
1
+ + + + + + +··· + .
2
n
|3 {z 4} |5 6 {z 7 8}
≥ 41 + 14 = 12
≥ 18 + 18 + 18 + 81 = 21
Man fasst also die beiden mit 1/3 beginnenden Summanden zusammen, und erhält
mindestens 1/2, dann fasst man die vier mit 1/5 beginnenden Summanden zusammen
und erhält wieder mindestens 1/2, und so weiter. Allgemein ist dann
s2n ≥ 1 +
127
1
·n
2
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
für alle n, und somit ist die Folge der Partialsummen unbeschränkt. Wir erhalten:
Lemma 7.6: Die harmonische Reihe divergiert bestimmt gegen +∞.
Die Partialsummen sind in der Größenordnung logarithmisch, wachsen also tatsächlich
sehr langsam. Die harmonische Reihe gibt uns insbesondere ein Beispiel einer diver∞
P
genten Reihe
an bei der (an )n∈N eine Nullfolge ist.
n=1
Eine gewisse Verallgemeinerung der harmonischen Reihe sind die Reihen
∞
X
1
nα
n=1
wobei α ∈ R ein fester Parameter ist. Ob diese Reihe konvergiert oder nicht hängt vom
Wert von α ab, es gilt
∞
X
1
< ∞ ⇐⇒ α > 1.
nα
n=1
Diese Tatsache wollen wir an dieser Stelle nur zur Kenntnis nehmen und auf einen
Beweis verzichten.
7.2
Geometrische Reihe
Nachdem wir im letzten Abschnitt das Urbeispiel einer divergenten Reihe vorgeführt
haben, bei der die Summanden trotzdem eine Nullfolge bilden, kommen wir jetzt zum
wohl wichtigsten Beispiel einer konvergenten Reihe. Gegeben sei eine Zahl q ∈ R, und
wir betrachten dann die Reihe
∞
X
qn = 1 + q + q2 + q3 + · · ·
(Geometrische Reihe)
n=0
der Potenzen von q. Diese Reihe bezeichnet man als die geometrische Reihe. Dieses
Beispiel hat man vollständig im Griff, da sich die Partialsummn explizit ausrechnen
lassen. Die n-te Partialsumme der geometrischen Reihe ist
sn :=
n
X
qk = 1 + q + q2 + · · · + qn,
k=0
eine sogenannte geometrische Summe. Zu ihrer Berechnung bilden wir q · sn
sn = 1 + q + q 2 + · · · + q n
qsn =
q + q 2 + · · · + q n + q n+1 ,
und ziehen wir hier die zweite von der ersten Zeile ab, so folgt
(1 − q)sn = sn − qsn = 1 − q n+1 =⇒ sn =
128
1 − q n+1
1−q
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
zumindest wenn q 6= 1 ist. Der Fall q = 1 ist ein Sonderfall, dort haben wir
sn =
n
X
k
1 =
k=0
n
X
1 = n + 1.
k=0
Hiermit erhalten wir
Lemma 7.7 (Geometrische Reihe)
∞
P
Sei q ∈ R. Dann ist die geometrische Reihe
q n genau dann konvergent wenn |q| < 1
n=0
gilt, und in diesem Fall ist
∞
X
qn =
n=0
1
.
1−q
Beweis: Für q = 1 ist die geometrische Reihe trivialerweise divergent, wir können also
q 6= 1 annehmen. Die oben hergeleitete Formel für die Partialsummen der geometrischen
P
n
Reihe und die Rechenregeln für Folgengrenzwerte §6.Lemma 14 zeigen, dass ∞
n=0 q
genau dann konvergiert wenn (q n )n∈N konvergiert, und nach Aufgabe (45) ist dies genau
dann der Fall wenn |q| < 1 ist.
Ist jetzt |q| < 1, so gilt nach Aufgabe (45) auch lim q n = 0 und mit §6.Lemma 14
n→∞
folgt
∞
X
1 − q n+1
1
n
q = lim
=
.
n→∞ 1 − q
1−q
n=0
Wir wollen drei kleine Beispiele für die Anwendung dieser Formel vorführen.
1. Zunächst betrachte die Reihe
∞
∞ n
X
X
1
1
1 1 1
=
= 1 + + + + ···
n
2
2
2 4 8
n=0
n=0
Dies ist eine geometrische Reihe mit q = 1/2, also konvergent mit Grenzwert
∞
X
1
1
=
n
2
1−
n=0
1
2
= 2.
2. Diesmal betrachten wir die Reihe
∞
X
(−1)n−1
n=1
2n
=
1 1 1
1
− + −
+ ···
2 4 8 16
129
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
Dies sieht zunächst nicht nach einer geometrischen Reihe aus, wir können sie aber
leicht zu einer solchen umformen
!
n
∞
∞
∞ X
X
X
(−1)n−1
(−1)n
1
=−
=−
−
−1 .
2n
2n
2
n=1
n=1
n=0
Innerhalb der Klammern steht hier eine geometrische Reihe mit q = −1/2, also
haben wir wieder Konvergenz und erhalten den Grenzwert
∞
X
(−1)n−1
n=1
2n
=−
1
1+
1
2
1
−1 = .
3
3. Als letztes Beispiel betrachten wir die Zahl 0, 9 = 0, 9999 . . .. Definitionsgemäß
ist diese Zahl gleich
n
∞ ∞
X
X
1
9
9
9
9
=9
+
+
+ ··· =
0, 9 =
10 100 1000
10n
10
n=1
n=1
!
∞
n
X
10
1
1
=9·
=9·
−1 =9·
− 1 = 1.
1 −1
10
9
1
−
10
n=0
7.3
Die eulersche Zahl e
In diesem Abschnitt wollen wir eine weitere spezielle Reihe behandeln, nämlich
∞
X
1
e=
.
n!
n=0
Wir werden zeigen, dass diese Reihe konvergiert. Ihr Grenzwert ist die eulersche Konstante, also e ≈ 2, 718281828 . . ..
∞
P
1
konvergiert.
Lemma 7.8: Die Reihe
n!
n=0
Beweis: Für jede natürliche Zahl k ∈ N∗ gilt
1
1
k! = 1 · 2 · . . . · k ≥ 2| · .{z
. . · 2} = 2k−1 , also auch
≤ k−1 .
k!
2
k − 1 mail
P
Die n-te Partialsumme der Reihe ∞
n=0 1/n! können wir jetzt zwar nicht ausrechnen,
wir können sie aber zumindest nach oben abschätzen
sn =
n
n
n
n−1
∞
X
X
X
X
X
1
1
1
1
1
1
=1+
≤1+
=
1
+
<
1
+
=1+
k−1
k
k
k!
k!
2
2
2
1−
k=0
k=1
k=1
k=0
k=0
130
1
2
= 3.
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
Damit sind die Partialsummen beschränkt und die Reihe konvergiert nach Lemma 3.
Der Beweis zeigt uns außerdem die recht ungenaue Abschätzung e ≤ 3. Bessere
Abschätzungen kann man ganz ähnlich erhalten. Beispielsweise gilt für k ≥ 2 auch
k! = 1 · 2 · 3 · . . . · k ≥ 2 · 3k−2 , also ergibt sich analog zur obigen Rechnung
sn ≤ 1 + 1 +
1
1
·
2 1−
1
3
=2+
3
= 2, 75.
4
Außerdem ist e ≥ s2 = 1+1+1/2 = 2, 5, also haben wir 2, 5 ≤ e ≤ 2, 75. So fortfahrend
kann man beliebig gute Abschätzungen für e beweisen.
7.4
7.4.1
Konvergenzkriterien für Reihen
Umsortierungen
P
Gegeben sei eine konvergente reelle Reihe ∞
n=1 an . Stellen wir uns diese Reihe als eine
unendliche Summe
∞
X
an = a1 + a2 + a3 + · · ·
n=1
vor, so kann man zunächst erwarten das das Kommutativgesetz der Addition sich auch
auf diese unendliche Summe überträgt, das man die Reihenfolge der Summanden also
beliebig ändern kann. Unter einer solchen Umsortierung“ versteht man dabei eine
”
Reihe der Form
∞
X
aπ(n) = aπ(1) + aπ(2) + aπ(3) + · · ·
n=1
wobei π(1), π(2), π(3), . . . die umsortierten Indizes sind. Jeder Index n ∈ N∗ soll dabei
als genau ein π(k) auftreten, d.h. es soll genau ein k ∈ N∗ mit π(k) = n geben. In
anderen Worten soll die Umsortierung π : N∗ → N∗ eine bijektive Abbildung sein.
Nehmen wir als ein Beispiel einmal an, dass nur endlich viele Summanden umgestellt
werden. Dann gibt es unter diesen endlich vielen einen größten, es gibt also ein n0 ∈ N∗
mit aπ(n) = an für alle n ≥ n0 . Ist dann n ≥ n0 , so ergibt sich für die umsortierte n-te
Partialsumme s0n und die gewöhnliche n-te Partialsumme sn
s0n
=
n
X
aπ(k) =
k=1
n
X
ak = s n ,
k=1
da wir in dieser endlichen Summe das Kommutativgesetz der Addition verwenden
können. Die Partialsummen stimmen also spätenstens ab dem Index n0 überein, und
damit konvergiert auch die umsortierte Reihe mit demselben Grenzwert
∞
X
aπ(n) =
n=1
∞
X
n=1
131
an .
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
Auf beliebige Umsortierungen trifft dies leider nicht mehr zu, und wir werden im
nächsten Abschnitt ein Beispiel für dieses Phänomen kennenlernen.
Vorlesung 17, Donnerstag 14.6.2012
7.4.2
Alternierende Reihen
Wir hatten gesehen das die harmonische Reihe
∞
P
n=1
1
n
divergiert, es gibt allerdings ei-
nige sehr ähnliche Reihen die konvergieren. Beispielsweise wird sich die alternierende
harmonische Reihe
∞
X
(−1)n−1
n=1
n
=1−
1 1 1 1
+ − + − · · · = ln(2)
2 3 4 5
als konvergent herausstellen. Der exakte Grenzwert ln(2) ist hier nur zur Information angegeben, wir werden in diesem Skript nur die Konvergenz beweisen. An diesem
Beispiel sieht man insbesondere das sich das Konvergenzverhalten von Reihen durch
Ändern von Vorzeichen beeinflussen läßt, d.h. Konvergenz von Reihen kann man nicht
an der Größenordnung der Summanden ablesen. Die Konvergenz der alternierenden
harmonischen Reihe läßt sich über das sogenannte Leibniz-Kriterium begründen, dies
ist eine hinreichende Bedingung für die Konvergenz reeller Reihen mit alternierenden
Vorzeichen.
Lemma 7.9 (Leibniz-Kriterium für alternierende Reihen)
Sei (an )n∈N eine monoton fallende Nullfolge mit an ≥ 0 für alle n ∈ N. Dann ist die
alternierende Reihe
∞
X
(−1)n−1 an
n=1
konvergent.
P
Beweis: Für n ∈ N sei sn := nk=1 (−1)k−1 ak die n-te Partialsumme unserer Reihe.
Weiter betrachten wir die Partialsummen zu geraden und ungeraden Indizes, also
un := s2n =
n
X
(a2k−1 − a2k ) und vn := s2n+1 = a1 −
k=1
n
X
(a2k − a2k+1 )
k=1
für n ∈ N. Da die Folge (an )n∈N monoton fallend ist, gelten a2k−1 − a2k ≥ 0 und
a2k − a2k+1 ≥ 0 für alle k ∈ N, und damit folgen
0 ≤ un ≤ un+1 und vn+1 ≤ vn ≤ a1
132
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
für alle n ∈ N, d.h. (un )n∈N ist monoton steigend und (vn )n∈N monoton fallend. Weiter
gilt für jedes n ∈ N auch
vn − un = s2n+1 − s2n = (−1)2n a2n+1 = a2n+1 ≥ 0,
und somit 0 ≤ un ≤ vn ≤ a1 . Damit ist die Folge (un )n∈N nach oben beschränkt und
(vn )n∈N ist nach unten beschränkt. Nach §6.Lemma 16 sind (un )n∈N und (vn )n∈N beide
konvergent, und wir schreiben
s := lim un und s0 := lim vn .
n→∞
n→∞
Mit den Rechenregeln für Folgengrenzwerte §6.Lemma 14 ergibt sich
s0 − s = lim vn − lim un = lim (vn − un ) = lim a2n+1 = 0,
n→∞
n→∞
n→∞
n→∞
da (an )n∈N als Nullfolge vorausgesetzt ist. Dies zeigt s0 = s. Nach Aufgabe (44) konvergiert auch die Folge (sn )n∈N gegen s, also konvergiert
∞
X
(−1)n−1 an = lim sn = s.
n→∞
n=1
Damit haben wir das Lemma über das Leibniz-Kriterium bewiesen.
Der Beweis zeigt uns auch wie man alternierende Reihen numerisch auswerten kann.
Die ungeraden Partialsummen sind größer als die Gesamtsumme und die geraden Partialsummen sind kleiner als die Gesamtsumme, also
s2n ≤
∞
X
(−1)k−1 ak ≤ s2n−1
k=1
P∞
für jedes n ≥ 1. Wollen wir also n=1 (−1)n−1 an mit einer gewünschten Genauigkeit
ausrechnen, so müssen wir soviele Summanden addieren bis s2n−1 − s2n kleiner als die
gewünschte Rechengenauigkeit wird. Die beiden bekanntesten Beispiele konvergenter
alternierender Reihen sind
∞
X
(−1)n−1
n
n=1
= ln 2 und
∞
X
(−1)n−1
n=1
2n − 1
=
π
.
4
Für beiden Reihen folgt die Konvergenz aus dem Leibniz Kriterium. Die Berechnung
der Grenzwerte ist uns an dieser Stelle nicht möglich, sie sind hier nur zur Information
angegeben. Wir betrachten jetzt noch eine Umordnung der alternierenden Reihe
∞
X
(−1)n−1
n=1
n
=1−
1 1 1 1 1
+ − + − + ··· ,
2 3 4 5 6
133
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
und zwar diejenige bei der wir immer zwei positiven Summanden gefolgt von einem
negativen Summanden nehmen, also ausgeschrieben
1+
1
1
1 1 1 1 1 1
− + + − + +
− + ···
3 2 5 7 4 9 11 6
Auch diese Umordnung konvergiert und zwar gegen π/4 6= ln(2). Diese exakten Werte
können wir hier zwar nicht berechnen, wir können aber zumindest sehen das die beiden
Umordnungen verschiedene Werte haben. Für die alternierende harmonische Reihe
ergibt unsere obige Abschätzung mit n = 2
∞
7
1 1 1 X (−1)n−1
1 1
5
350
=1− + − ≤
≤1− + = =
.
12
2 3 4 n=1
n
2 3
6
420
Für die umgeordnete Reihe kann man analog abschätzen und erhält
∞
389
1 1 1 1 1 X (−1)π(n)−1
1 1 1 1
247
=1+ − + + − ≤
≤1+ − + + =
,
420
3 2 5 7 4 n=1
π(n)
3 2 5 7
210
die beiden Reihen haben also tatsächlich verschiedene Werte. Hier ändert sich also
bei einer vergleichsweise kleinen Umgruppierung der Summanden der Wert der Reihe.
Insbesondere gibt es kein Kommutativgesetz“ für unendliche Summen.
”
7.4.3
Absolut konvergente Reihen
Dass es kein unendliches Kommutativgesetz der Addition gibt, das also bei Umordnung
von Reihen sich der Wert der Reihe ändern kann, ist natürlich eine eher störende
Tatsache. Es gibt glücklicherweise eine spezielle Sorte guter konvergenter Reihen“,
”
bei der so etwas nicht passiert. Dies sind die sogenannten absolut konvergenten Reihen
im Sinne der folgenden Definition:
∞
P
Definition 7.10: Eine reelle oder komplexe Reihe
an heißt absolut konvergent, wenn
auch die Reihe
∞
P
n=1
|an | der Beträge konvergiert.
n=1
Da die Beträge immer positiv sind, bedeutet die absolute Konvergenz einer Reihe nach
Lemma 3 gerade das die Partialsummen
n
X
|ak |
k=1
beschränkt sind, das also
P∞
n=1
|an | < ∞ ist. Beispielsweise ist
∞
∞
X
X
1
(−1)n−1
absolut
konvergent
aber
n2
n
n=1
n=1
134
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
ist nicht absolut konvergent, da die harmonische Reihe nach Lemma 6 divergiert. Wir
werden sehen das man absolut konvergente Reihen beliebig umordnen kann, ohne den
Wert der Reihe zu ändern. Anders sieht dies bei konvergenten, aber nicht absolut
konvergenten Reihen aus. Es ist nicht nur so, dass man diese nicht frei umordnen kann,
sondern die Werte die sich durch Umordnen ergeben sind völlig willkürlich. Es gilt: Ist
∞
X
an
n=1
eine konvergente, aber nicht absolut konvergente, reelle Reihe und ist x ∈ R eine völlig
willkürliche reelle Zahl, so existiert eine Umordnung π : N∗ → N∗ der Reihe mit
∞
X
aπ(n) = x.
n=1
Dies ist der sogenannte Riemannsche Umordnungsatz, den wir hier aber nicht beweisen wollen, er dient uns nur zur Illustration wie schlecht sich nicht absolut konvergente
Reihen verhalten. Wir werden jetzt zeigen, dass absolute Konvergenz auch die gewöhnliche Konvergenz impliziert, und hierfür benötigen wir eine kleine Vorbemerkung. Wir
wissen das eine reelle oder komplexe Zahlenfolge genau dann konvergiert wennP
sie eine
Cauchyfolge ist. Wenn wir diese Tatsache auf die Partialsummen einer Reihe ∞
n=0 an
anwenden, so ergibt sich das sogenannte Cauchy-Kriterium für die von Reihen. Ist
(sn )n∈N die Folge der Partialsummen, so gilt für alle m, n ∈ N mit m ≥ n stets
sm − sn−1 =
m
X
ak −
n−1
X
k=0
k=0
ak =
m
X
ak ,
k=n
das Cauchykriterium für Reihen nimmt also die folgende Form an
m
X
an konvergiert ⇐⇒ ∀( > 0)∃(n0 ∈ N)∀(m ≥ n ≥ n0 ) : ak < .
n=0
∞
X
k=n
Damit können wir jetzt einsehen das absolute Konvergenz auch die gewöhnliche Konvergenz impliziert.
Lemma 7.11: Eine absolut konvergente, reelle Reihe ist auch konvergent.
Beweis: Sei
∞
P
an eine absolut konvergente, reelle Reihe. Sei > 0. Da
n=1
vergiert, gibt es nach dem Cauchy-Kriterium für Reihen ein n0 ∈ N mit
m
m
X
X
|ak | = |ak | < k=n
k=n
135
∞
P
n=1
|an | kon-
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
für alle m ≥ n ≥ n0 . Sind also n, m ∈ N mit m ≥ n ≥ n0 , so ergibt die Dreiecksungleichung auch
m
m
X
X
|ak | < .
ak ≤
k=n
k=n
Damit liefert eine erneute Anwendung des Cauchykriteriums auch die Konvergenz von
∞
P
an .
n=1
Wir hatten die absolut konvergenten Reihen als die guten Reihen“ angekündigt,
”
deren Wert sich unter beliebiger Umordnung nicht ändert. Wir beweisen jetzt, dass
dies tatsächlich wahr ist.
Lemma 7.12 (Umordnungen absolut konvergenter Reihen)
∞
P
Seien
an eine absolut konvergente, reelle Reihe und π : N∗ → N∗ eine bijektive
n=1
Abbildung. Dann ist auch die umgeordnete Reihe
∞
P
aπ(n) absolut konvergent und es
n=1
gilt
∞
X
aπ(n) =
n=1
∞
X
an .
n=1
Beweis: Ist n ∈ N, so setzen wir n∗ := max{π(1), . . . , π(n)}, und haben die Inklusion
{π(1), . . . , π(n)} ⊆ {1, . . . , n∗ }, also auch
n
X
∗
|aπ(k) | ≤
k=1
Nach Lemma 3 ist
∞
P
n
X
|ak | ≤
k=1
∞
X
|ak | < ∞.
k=1
|aπ(n) | konvergent, d.h.
n=1
∞
P
aπ(n) ist absolut konvergent.
n=1
Damit ist die erste Aussage bewiesen. Insbesondere sind
∞
P
n=1
aπ(n) und
∞
P
an nach
n=1
Lemma 11 beide konvergent. Bezeichne
sn :=
n
X
ak und
s0n
k=1
:=
n
X
aπ(k)
k=1
für jedes n ∈ N die jeweiligen Partialsummen. Wir wollen zeigen, dass die Differenzen
(sn − s0n )n∈N eine Nullfolge bilden. Sei > 0. Nach dem Cauchykriterium für Reihen
existiert n1 ∈ N mit
m
X
|ak | < k=n
136
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
für alle m ≥ n ≥ n1 . Wir setzen
n0 := max{n1 , π −1 (1), . . . , π −1 (n1 )}.
Sei jetzt n ∈ N mit n ≥ n0 gegeben. Dann sind
1, . . . , n1 − 1, π −1 (1), . . . , π −1 (n1 − 1) ∈ {1, . . . , n},
also auch
1, . . . , n1 − 1 ∈ {π(1), . . . , π(n)}.
Bilden wir also die Differenz
sn −
s0n
=
n
X
ak −
k=1
n
X
aπ(k) ,
k=1
so kommt jeder der Summanden a1 , . . . , an1 −1 sowohl in sn als auch in s0n vor, und
verschwindet in der Differenz. Von sn und s0n verbleiben dann nur noch Summanden
der Form ak mit k ≥ n1 und k ∈ {1, . . . , n, π(1), . . . , π(n)}. Diejenigen davon die in
sn und s0n vorkommen verschwinden in der Differenz, und die anderen bleiben mit
eventuellen Vorzeichen stehen. Setzen wir also
m := max{n, π(1), . . . , π(n)},
so ist m ≥ n1 und es gibt eine Menge M ⊆ {n1 , n1 + 1, . . . , m} und Vorzeichen σk ∈
{−1, 1} für k ∈ M mit
X
sn − s0n =
σk ak .
k∈M
Mit der Dreiecksungleichung folgt
m
X
X
X
0
|sn − sn | = σk ak ≤
|ak | ≤
|ak | < .
k∈M
k∈M
k=n1
Damit ist (sn − s0n )n∈N eine Nullfolge. Mit den Grenzwertsätzen §6.Lemma 14 folgt
schließlich
∞
X
n=1
an −
∞
X
n=1
aπ(n) = lim sn − lim s0n = lim (sn − s0n ) = 0.
n→∞
n→∞
n→∞
Das meistens verwendete Kriterium um die absolute Konvergenz einer Reihe einzusehen, ist das sogenannte Majorantenkriterium. Dieses besagt das eine Reihe, die
höchstens so schnell wächst wie eine Reihe deren absolute Konvergenz wir schon kennen, auch absolut konvergent ist. Etwas genauer wird für das höchstens so schnell
”
wächst“ der Begriff einer sogenannten Majorante eingeführt.
137
Mathematik für Informatiker B, SS 2012
Definition 7.13: Eine Reihe
∞
P
Donnerstag 14.6.2012
Mn mit nichtnegativen Summanden Mn ≥ 0 heißt
n=1
∞
P
Majorante einer reellen oder komplexen Reihe
an , wenn eine Konstante c ≥ 0 und
n=1
ein Index n0 ∈ N existieren so, dass
|an | ≤ cMn
für alle n ≥ n0 gilt. In der Sprache der Landau-Symbole soll also an = O(Mn ) sein.
Mit diesem Begriff können wir der obigen Ankündigung jetzt eine exakte Form geben.
Satz 7.14 (Majorantenkriterium)
Eine Reihe ist absolut konvergent wenn sie eine konvergente Majorante besitzt.
∞
P
Beweis: Sei also
an eine Reihe, die die konvergente Majorante
n=1
∞
P
Mn besitzt. Dann
n=1
existieren eine Konstante c ≥ 0 und ein Index n0 ∈ N mit |an | ≤ cMn für alle n ≥ n0 .
∞
P
|ak | dann
Für jedes n ∈ N mit n ≥ n0 ist die n-te Partialsumme der Reihe
k=1
n
X
|ak | =
k=1
nX
0 −1
|ak | +
k=1
n
X
|ak | ≤
k=n0
nX
0 −1
n
X
|ak | + c
k=n0
k=1
Mk ≤
nX
0 −1
|ak | + c
∞
X
Mk < ∞.
k=1
k=1
P∞
Damit ist die Folge der Partialsummen von n=1 |an | beschränkt, und nach Lemma 3
∞
∞
P
P
ist
|an | konvergent, d.h.
an ist absolut konvergent.
n=1
n=1
Mit diesem Kriterium kann man schon recht kompliziert aussehende Reihen behandeln.
Beispielsweise gilt | sin(n)/n2 | ≤ 1/n2 für jedes n ∈ N, und damit ist die Reihe
∞
X
sin n
n=1
n2
absolut konvergent. Wir wollen uns jetzt um den Spezialfall einer geometrischen Reihe
als Majorante kümmern, dies wird unsPauf das sogenannte Wurzelkriterium führen.
n
Wir wissen das die geometrische Reihe ∞
n=0 q für |q| < 1 konvergiert. Wir wollen uns
∞
P
jetzt überlegen was es für eine Reihe
an bedeutet von der geometrischen Reihe mit
n=0
q ≥ 0 majorisiert zu werden. Definitionsgemäß bedeutet dies das es c ≥ 0 und n0 ∈ N
mit |an | ≤ cq n für alle n ≥ n0 gibt, und gehen wir auf beiden Seiten zur n-ten Wurzel
über, so folgt
∞
X
n=0
q n majorisiert
∞
X
an ⇐⇒ ∃(c ≥ 0)∃(n0 ∈ N)∀(n ≥ n0 ) :
n=0
138
p
n
|an | ≤
√
n
c · q.
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
Um dies weiter zu vereinfachen, wollen wir verwenden das für jede reelle Zahl c ≥ 0
stets
(
√
1, c > 0,
lim n c =
n→∞
0, c = 0
√
n
gilt.
Dies
ist
leicht
zu
sehen.
Ist
c
≥
1,
so
gilt
für
alle
n
∈
N
mit
n
≥
c
stets
1
≤
c≤
√
√
n
n
n und nach Aufgabe (43) konvergiert die Folge
( n)n∈N gegen 1. Damit liefert das
√
n
Einschnürungslemma Aufgabe (40), das auch ( c)n∈N gegen 1 konvergiert. Ist dagegen
0 < c < 1, so rechnen wir mit den Rechenregeln für Folgengrenzwerte
lim
n→∞
√
n
1
c = lim q =
n→∞
n
1
c
1
lim
n→∞
q =1
n
1
c
da 1/c > 1 ist. Damit ist diese Zwischenbehauptung bewiesen. Es folgt weiter
∃(0 < q < 1) :
∞
X
n=0
n
q majorisiert
∞
X
an
n=0
⇐⇒ ∃(0 ≤ q < 1)∃(n0 ∈ N)∀(n ≥ n0 ) :
p
n
|an | ≤ q.
Diese Bedingung bezeichnet man als das Wurzelkriterium, und wir erhalten das folgende Korollar aus dem Majorantenkriterium Satz 14
Korollar
P 7.15 (Wurzelkriterium)
Sei ∞
n=1 an eine reelle Reihe. Es gebe ein 0 ≤ q < 1 und einen Index n0 ∈ N mit
p
n
|an | ≤ q für alle n ≥ n0 .
P∞
Dann ist die Reihe n=1 an absolut konvergent.
Wir gesehen sind die Reihen die das Wurzelkriterium erfüllen genau diejenigen, die sich
von einer konvergenten geometrischen Reihe majorisieren lassen. Bei der Überprüfung
des Wurzelkriteriums ist es oftmals sogar so, dass der Grenzwert
p
q := lim n |an |
n→∞
existiert. Ist dann q < 1, so gibt es ein n0 ∈ N mit
p
1+q
n
|an | <
<1
2
p
für alle n ≥ n√0 . Es reicht dagegen nicht aus, dass n |an | < 1 für n ≥ n0 ist. Beispielsn
weise
Reihe
P∞ gilt 1/ n < 1 für alle n ∈ N, aber nach Lemma 6 ist die harmonische
√
n
n=1 1/n divergent. In diesem Beispiel existiert auch der Grenzwert limn→∞ 1/ n = 1.
Als ein Beispiel in dem das Wurzelkriterium erfolgreich ist, nehmen wir einmal die
Reihe
∞
X
1
.
n
n
n=1
139
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Für alle natürlichen Zahlen n ≥ 2 gilt in diesem Beispiel
r
1
1
1
n
= ≤ < 1,
n
n
n
2
also ist das Wurzelkriterium anwendbar und liefert die absolute Konvergenz der Reihe
∞
P
1/nn .
n=1
Vorlesung 18, Dienstag 19.6.2012
Am Ende der letzten SitzungPhatten wir das sogenannte Wurzelkriterium besprochen,
dieses besagt das eine Reihe ∞
n=1 an die die Bedingung
∃(0 ≤ q < 1)∃(n0 ∈ N)∀(n ≥ n0 ) :
p
n
|an | ≤ q
erfüllt bereits absolut konvergent ist, genauer wurde die Reihe dann durch eine konvergente geometrische Reihe majorisiert. Als ein einfaches Beispiel
P hatten nwir das Wurzelkriterium dann verwendet die absolute Konvergenz der Reihe ∞
n=1 1/n nachzuweisen.
Während in diesem Beispiel
durch das Bilden der n-ten Wurzel alles vereinfacht wird,
p
n
kann die Berechnung von |an | im Allgemeinen oft recht unangenehm werden. Oftmals
ist es dann einfacher das sogenannte Quotientenkriterium zu verwenden.
Korollar 7.16 (Quotientenkriterium)
∞
P
Sei
an eine reelle Reihe mit an 6= 0 für alle n ∈ N. Es gebe eine Konstante 0 < q < 1
n=1
und einen Index n0 ∈ N mit
an+1 an ≤ q für alle n ≥ n0 .
Dann ist
∞
P
an absolut konvergent.
n=1
Beweis: Lese die Bedingung |an+1 /an | = |an+1 |/|an | ≤ q als |an+1 | ≤ q|an |. Für jedes
k ∈ N ergibt sich dann auch
|an0 +k | ≤ q|an0 +k−1 | ≤ q 2 |an0 +k−2 | ≤ . . . ≤ q k |an0 | = q n0 +k
d.h. mit C := |an0 |/q n0 ≥ 0 ist
|an | ≤ Cq n =⇒
p
n
|an | ≤
√
n
140
C · q für alle n ≥ n0 .
|an0 |
,
q n0
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Wegen 0 < q < 1 ist
√ q + 1 > 2q > 0 also auch (q + 1)/(2q) > 1. Wie bereits oben
eingesehen ist lim n C ∈ {0, 1}, und somit existiert ein n1 ∈ N mit
n→∞
√
n
C<
q+1
für alle n ≥ n1 .
2q
Ist schließlich n2 := max{n0 , n1 }, so gilt für jedes n ∈ N mit n ≥ n2 auch
p
n
|an | ≤
√
n
C ·q <
q+1
q+1
·q =
< 1.
2q
2
Nach dem Wurzelkriterium Korollar 15 ist
∞
P
an damit absolut konvergent.
n=1
Wie der Beweis zeigt ist das Quotientenkriterium ein Spezialfall des Wurzelkriteriums.
Als ein Beispiel wollen wir uns einmal überlegen, dass die Reihe
∞
X
n=1
(−1)n−1
n2 n
q
n+1
für jedes q ∈ R mit |q| < 1 absolut konvergiert. Die Quotienten aufeinanderfolgender
Glieder ergeben sich als
(−1)n (n+1)2 q n+1 (n + 1)3
n+2
=
|q|,
n2
(−1)n−1 n+1
q n n2 (n + 2)
und wie in §6.5 gesehen gilt
(n + 1)3
n3 + 3n2 + 3n + 1
|q|
=
lim
|q| = |q| < 1.
n→∞ n2 (n + 2)
n→∞
n3 + 2n2
lim
Das Quotientenkriterium Korollar 16 ergibt damit die absolute Konvergenz der Reihe
∞
X
(−1)n−1 n2 q n /(n + 1)
n=1
für |q| < 1. Das übliche Vorgehen die absolute Konvergenz einer Reihe einzusehen,
zumindest im Rahmen von Übungs- oder Klausuraufgaben, läuft in den folgenden
Schritten ab:
1. Schaue ob es sich um eine schon bekannte Reihe handelt, oder um eine Reihe die
sich in einfacher Weise durch eine schon bekannte Reihe majorisieren läßt. Eventuell braucht man hierzu eine kleine algebraische Umformung um die bekannte
Reihe sichtbar zu machen.
141
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
2. Probiere das Quotientenkriterium. Meistens existiert der Grenzwert
an+1 q := lim n→∞
an und man muss nur schauen ob q < 1 ist.
3. Probiere das Wurzelkriterium. Meistens existiert der Grenzwert
p
q := lim n |an |
n→∞
und man muss nur schauen ob q < 1 ist.
4. Hier kommt man bei Übungsaufgaben in der Regel gar nicht hin. Was man in
diesem Fall tun kann, wollen wir in dieser Vorlesung nicht behandeln.
$Id: preihen.tex,v 1.5 2012/06/19 11:30:51 hk Exp hk $
§8
Vollständige Körper
In §6.Satz 18 hatten wir gesehen, dass jede reelle Cauchyfolge konvergiert, eine
Eigenschaft die man auch als die Vollständigkeit der reellen Zahlen bezeichnet. Bewiesen wurde diese Eigenschaft der reellen Zahlen mit Hilfe der ordnungstheoretischen
Vollständigkeit der reellen Zahlen gemäß §4.Satz 15. In den rationalen Zahlen gibt es
dagegen nicht konvergente Cauchyfolgen, man kann beispielsweise eine rationale Folge nehmen die in R gegen eine irrationale Zahl konvergiert. Die reellen Zahlen sind
die sogenannte Vervollständigung der rationalen Zahlen, d.h. derjenige Körper der aus
Q durch Hinzunehmen all der fehlenden Grenzwerte nicht konvergenter Cauchyfolgen
entsteht. Um dies einzusehen, muss man sich nur überlegen das jede reelle Zahl als
ein solcher Grenzwert vorkommt, dass also jede reelle Zahl sich beliebig genau durch
rationale Zahlen approximieren läßt.
Satz 8.1: Die Menge Q ist dicht in R.
Beweis: Sei x ∈ R. Wir müssen zeigen das x ∈ Q im Abschluß von Q in R liegt und
wie in §5 gezeigt, bedeutet dies das es für jedes > 0 eine rationale Zahl q ∈ Q mit
|x − q| < gibt. Sei also > 0. Nach der archimedischen Eigenschaft von R, §4.Lemma
16, gibt es ein n ∈ N∗ mit 1/n < . Dann können wir R in Intervalle der Länge 1/n
einteilen, also
[ k k + 1
R=
,
.
n
n
k∈Z
142
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Die reelle Zahl x muss in einem dieser Intervalle liegen, es gibt also ein m ∈ Z mit
m+1
m
≤x<
.
n
n
Wir erhalten die rationale Zahl q := m/n ∈ Q mit
m m
m+1 m
1
|x − q| = x − = x −
<
−
= < .
n
n
n
n
n
Damit ist der Satz bewiesen.
Alternativ könnte man auch die Dezimaldarstellung der Zahl x heranziehen, brechen
wir die Nachkommastellen nach ausreichend vielen Gliedern ab, so erhält man die
gesuchte Näherung q ∈ Q an x.
Ist (X, d) ein beliebiger metrischer Raum, so ist nach §5.Satz 8 jede konvergente
Folge auch eine Cauchyfolge. Wie das Beispiel X = Q in der euklidischen Metrik zeigt,
kann es aber auch nicht konvergente Cauchyfolgen in X geben. Die guten“ metrischen
”
Räume, in denen so etwas nicht vorkommt, kriegen jetzt einen eigenen Namen.
Definition 8.2: Ein metrischer Raum (X, d) heißt vollständig, wenn jede Cauchyfolge
(xn )n∈N in X auch in X konvergent ist.
Also sind beispielsweise die reellen Zahlen nach §6.Satz 18 vollständig, die rationalen
Zahlen aber nicht. Man kann sich überlegen das man jeden metrischen Raum zu einem
vollständigen metrischen Raum ergänzen kann, der sogenannten Vervollständigung. In
dem Sinne ist dann R die Vervollständigung von Q.
Wir wollen uns jetzt überlegen, dass auch die komplexen Zahlen C in der euklidischen Metrik vollständig sind. Sei also (zn )n∈N eine komplexe Cauchyfolge. Nach
unseren Überlegungen aus §6.6 wissen wir das eine komplexe Folge genau dann konvergiert wenn die Folgen ihrer Real- und Imaginärteile beide konvergieren. Daher wollen
wir zunächst zeigen, dass diese beiden Folgen reelle Cauchyfolgen sind. Hierzu erinnern
wir uns an die schon aus Aufgabe (37) bekannte Ungleichung
| Re(z) − Re(w)| ≤ |z − w| und | Im(z) − Im(w)| ≤ |z − w|
für alle z, w ∈ C. Ist also ein > 0 gegeben, so haben wir ein n0 ∈ N mit |zn − zm | < für alle n, m ≥ n0 , da (zn )n∈N ja als Cauchyfolge vorausgesetzt ist, und damit ist für
alle n, m ∈ N mit n, m ≥ n0 auch
| Re(zn ) − Re(zm )| ≤ |zn − zm | < und | Im(zn ) − Im(zm )| ≤ |zn − zm | < ,
d.h. (Re(zn ))n∈N und (Im(zn ))n∈N sind beides Cauchyfolgen. Jetzt wissen wir bereits
das die reellen Zahlen vollständig sind, und damit sind beide Folgen (Re(zn ))n∈N
und (Im(zn ))n∈N konvergent. Nach §6.6 ist auch (zn )n∈N konvergent. Dies beweist die
Vollständigkeit von C.
143
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Damit müssen auch alle aus der Vollständigkeit folgenden Aussagen in C genauso
wie in R gelten. Insbesondere ist jede absolut konvergente, komplexe Reihe auch konvergent. Dies hatten wir für reelle Reihen in §7.Lemma 11 durch Zurückführung auf
Aufgabe (49) bewiesen, die ihrerseits wieder auf der metrischen Vollständigkeit von R
beruhte. Weiter gelten damit Majoranten-, Wurzel- und Quotientenkriterium auch für
komplexe Reihen.
8.1
Potenzreihen
Eine der wichtigsten Typen von Reihen sind die sogenannten Potenzreihen. Dies sind
sozusagen Polynome von Grad ∞“.
”
Definition 8.3: Eine Potenzreihe ist eine Reihe der Form
f (z) =
∞
X
an z n
n=0
mit z ∈ C wobei (an )n∈N eine komplexe Folge ist. Man nennt an für n ∈ N dann auch
den n-ten Koeffizienten der Potenzreihe.
Polynome sind dann spezielle Potenzreihen, nämlich diejenigen bei denen die Koeffizienten an ab einem gewissen Index n0 = grad(f ) alle Null sind, d.h. an = 0 für
n > n0 . Ist (an )n∈N eine reelle Folge, so spricht man auch von einer reellen Potenzreihe.
In diesem Fall kann man sich auf reelle Werte von z beschränken, also
f (x) =
∞
X
an x n
n=0
für x ∈ R betrachten, muss dies aber nicht tun. Wenn Sie in Bücher schauen finden Sie gelegentlich auch den etwas allgemeineren Begriff einer Potenzreihe mit einem
Entwicklungspunkt z0 ∈ C, dies meint
f (z) =
∞
X
an (z − z0 )n .
n=0
Die Potenzreihen in unserem Sinne entsprechen dann dem Entwicklungspunkt z0 = 0.
Da diese allgemeineren Potenzreihen nur etwas mehr Schreibarbeit, aber keine weiteren
Erkenntnisse, bringen, wollen wir hier nur
den Fall z0 = 0 betrachten.
P∞
Haben wir eine Potenzreihe f (z) = n=0 an z n , so wollen wir diese als eine Funktion in z ∈ C auffassen. Allerdings muss die Reihe nicht für jede komplexe Zahl z
konvergieren. Als Definitionsbereich unserer Funktion muss man die Menge
(
)
∞
X
Mf := M := z ∈ C an z n konvergiert
n=0
144
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
verwenden. Dann können wir uns f (z) als eine Funktion f : M → C denken. Offenbar
ist immer 0 ∈ M mit f (0) = a0 . Wir wollen uns überlegen wie die Menge M prinzipiell
aussieht. Es stellt sich heraus, dass M im wesentlichen ein Kreis mit Mittelpunkt im
Nullpunkt ist. Dabei muss man allerdings auch einen Kreis von Radius 0 für M = {0},
und einen Kreis von Radius ∞ für M = C zulassen. Der Radius unseres Kreises ist der
sogenannte Konvergenzradius der Potenzreihe. Da wir aber noch nicht bewiesen haben,
dass M wirklich ein Kreis ist, müssen wir zur exakten Definition des Konvergenzradius
eine gewisse Umschreibung verwenden.
Definition 8.4: Der Konvergenzradius R(f ) einer Potenzreihe
f (z) =
∞
X
an z n
n=0
ist die Zahl
R(f ) := sup{|z| : z ∈ Mf } ∈ R≥0 ∪ {∞}.
Das Supremum war dabei die kleinste obere Schranke der rechts stehenden Menge.
Leider gibt es auch den Fall das die Menge gar nicht nach oben beschränkt ist, etwa
wenn M = C ist, und dann interpretieren wir das Supremum als ∞.
Wir wollen uns jetzt überlegen, dass Mf wirklich im wesentlichen ein Kreis mit Radius
R(f ) ist, wobei die Randfälle R(f ) = 0 und R(f ) = ∞ wie oben als Mf = {0}
beziehungsweise Mf = C interpretiert werden. Wir werden zeigen das mit jedem z ∈
Mf auch jedes z 0 ∈ C das näher an 0 liegt, also mit |z 0 | < |z|, in Mf ist.
P
n
Lemma 8.5: Sei fP(z) = ∞
n=0 an z eine in z0 ∈ C konvergente Potenzreihe. Dann ist
∞
n
die Reihe f (z) = n=0 an z in jedem z ∈ C mit |z| < |z0 | absolut konvergent.
P∞
n
n
Beweis: Da
n=0 an z0 konvergiert, ist die Folge (an z0 )n∈N nach §7.Lemma 2 eine
Nullfolge. Insbesondere ist diese Folge nach §6.Lemma 10 beschränkt, es gibt also eine
Konstante M ≥ 0 mit
|an z0n | ≤ M
für alle n ∈ N. Wegen |z| < |z0 | ist
∞ X
z
z n
= |z| < 1, also ist
z0 |z0 |
z0 n=0
nach §7.Lemma 7 konvergent. Für jedes n ∈ N ist nun
n
n
n z
z
n
z
n
n
= |an z0 | · ≤ M ,
|an z | = an z0 ·
z0
z0
z0
d.h. die Reihe
∞ ∞
X
X
z n
ist eine Majorante von
an z n .
z0 n=0
n=0
145
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Nach dem Majorantenkriterium §7.Satz 14 ist
P∞
n=0
an z n absolut konvergent.
P
n
Beachte das der Beweis sogar zeigt, dass ∞
n=0 an z durch eine konvergente, geometrische Reihe majorisiert wird. Jetzt ist es leicht unseren Konvergenzkreis herzuleiten.
Satz 8.6 (Der
einer Potenzreihe)
P∞Konvergenzkreis
n
Sei f (z) = n=0 an z eine Potenzreihe mit Konvergenzradius R. Dann ist f (z) für
jedes z ∈ C mit |z| < R absolut konvergent, und für jedes z ∈ C mit |z| > R divergent.
Beweis: Direkt nach Definition des Konvergenzradius impliziert die Konvergenz von
f (z) für ein z ∈ C auch |z| ≤ R, d.h. für z ∈ C mit |z| > R muss f (z) divergieren.
Nun sei z ∈ C mit |z| < R gegeben. Dann ist |z| keine obere Schranke der Menge
{|u| : u ∈ Mf }, also muss ein z0 ∈ Mf mit |z| < |z0 | existieren. Dann ist f (z) aber
nach Lemma 5 absolut konvergent.
Was auf dem Rand des Konvergenzkreises
geschieht, also für die z ∈ C mit |z| = R :=
R(f ), wird durch den Satz nicht beschrieben.
Dies ist auch ein recht kompliziertes Thema,
Divergenz
r
das für uns glücklicherweise keine Rolle spielen wird. Innerhalb des Kreises mit Radius R
x0
um den Entwicklungspunkt x0 = 0 liegt da(absolute) Konvergenz
bei absolute Konvergenz von f (z) vor und außerhalb des Kreises divergiert f (z). Man bezeichnet den offenen Kreis mit Radius R auch
als den Konvergenzkreis der Potenzreihe f (z).
Dabei wird dieser Kreis im Fall R = ∞ als die
gesamte Ebene interpretiert. Wir wollen jetzt einige Beispiele von Potenzreihen durchgehen.
P
1. Wir hatten schon früher bemerkt das jedes Polynom p(z) = nk=0 ak z k auch als
Potenzreihe interpretiert werden kann, indem ak = 0 für k > n interpretiert wird.
Dann konvergiert p(z) für überhaupt jedes z ∈ C und somit ist der Konvergenzradius R = ∞.
2. Die Potenzreihe
f (z) =
∞
X
zn
n=0
ist eine geometrische Reihe, also nach §7.Lemma 7 genau dann konvergent wenn
|z| < 1 ist. Als Konvergenzradius ergibt sich damit R = 1. In diesem Beispiel
146
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
können wir die Reihe nach §7.Lemma 7 auch explizit berechnen
∞
X
1
, |z| < 1.
1−z
zn =
n=0
3. Nun betrachten die recht ähnlich aussehende Potenzreihe
f (z) =
∞
X
(−1)n z n .
n=0
Für jedes z ∈ C ist dann
f (z) =
∞
X
n n
(−1) z =
n=0
∞
X
(−z)n
n=0
und wie im vorigen Beispiel ist dies genau dann konvergent wenn |z| = | − z| < 1
ist, d.h. der Konvergenzradius ist wieder R = 1. Als Wert ergibt sich
f (z) =
∞
X
(−1)n z n =
n=0
1
1
=
.
1 − (−z)
1+z
4. Als nächstes Beispiel betrachten wir die Potenzreihe
f (z) =
∞
X
(−1)n z 2n .
n=0
Für z ∈ C ist dann
f (z) =
∞
X
n 2n
(−1) z
n=0
=
∞
X
(−1)n (z 2 )n ,
n=0
und nach dem vorigen Beispiel ist dies genau dann konvergent wenn |z|2 = |z 2 | <
1 ist. Dies ist gleichwertig zu |z| < 1 also haben wir erneut den Konvergenzradius
R = 1. Als Wert der Reihe ergibt sich
f (z) =
1
.
1 + z2
An diesem Beispiel zeigt sich übrigens auch, dass es auch bei reellen Potenzreihen sinnvoll
P∞ istn komplexe Argumente zu betrachten. Für die geometrische Reihe
f (z) = n=0 z = 1/(1 − z) ist der Konvergenzradius R = 1 nicht überraschend
da 1/(1 − z) nur bis z = 1 existiert. Es gibt hier sozusagen einen
P Grund dafür
2n
das die Reihe nicht mehr konvergiert. Dagegen gibt es f (x) = ∞
=
n=0 (−1)x
2
1/(1 + x ) für alle reellen x ∈ R und trotzdem konvergiert die Reihe nicht überall. Sehen wir uns dagegen komplexe Argumente an, so wird dies klar denn der
Nenner 1 + z 2 wird bei z = ±1 zu Null, die Konvergenz kann also nicht über ±1
hinausgehen und wir haben den Konvergenzradius R = 1.
147
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
5. Als unser letztes Beispiel behandeln wir die Potenzreihe
∞
X
f (z) =
nn z n ,
n=0
und behaupten das diese den Konvergenzradius R = 0 ist. Hierzu muss man
zeigen, dass f (z) für jedes z ∈ C mit z 6= 0 divergiert. Sei also 0 6= z ∈ C
gegeben. Dann gibt es ein n0 ∈ N mit |nz| > 1 für alle n ≥ n0 , also ist auch
|(nz)n | = |nz|n > 1 für alle n ≥ n0 . Folglich ist (nn z n )n∈N = ((nz)n )n∈N keine
Nullfolgt, und damit ist die Reihe
f (z) =
∞
X
n n
n z =
n=0
∞
X
(nz)n
n=0
tatsächlich divergent.
Wir hatten bereits bemerkt das Potenzreihen so etwas wie Polynome von Grad ∞ sind.
Dies ist tatsächlich mehr als nur eine rein oberflächliche Analogie, und als ein Beispiel
hierfür wollen wir uns einmal Produkte von Potenzreihen anschauen. In §3.Lemma 9
hatten wir das Produkt von Polynomen als
#
!
! n+m " k
n
m
X X
X
X
al bk−l · z k
ak z k ·
bk z k =
k=0
k=0
k=0
l=0
berechnet. Für Potenzreihen gilt genau dieselbe Multiplikationsformel, sind also
f (z) =
∞
X
an z n , g(z) =
n=0
∞
X
bn z n
n=0
zwei Potenzreihen mit Konvergenzradien R(f ) und R(g), so ist das Produkt wieder
eine Potenzreihe
" n
#
∞
X
X
f (z)g(z) =
ak bn−k · z n ,
n=0
k=0
deren Konvergenzradius R(f g) mindestens so groß wie der kleinere der beiden Konvergenzradien R(f ) und R(g) ist, also
R(f g) ≥ min{R(f ), R(g)}.
Aus Zeitgründen wollen wir diese Tatsache jetzt nicht beweisen, aber zumindest ein
Beispiel rechnen. Wir starten mit der geometrischen Reihe
∞
X
n=0
zn =
1
für |z| < 1.
1−z
148
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Multiplizieren wir diese mittels der Produktformel mit sich selbst, so ergibt sich
" n #
2 X
∞
∞
∞
∞
∞
X
X
X
X
X
1
1
n
n
n
n
=
1 z =
(n + 1)z =
+
nz n
z +
nz =
1−z
1
−
z
n=0
n=1
n=0 k=0
n=0
n=1
für |z| < 1. Damit ist weiter
∞
X
n=1
nz n =
1
1 − (1 − z)
z
1
−
=
=
für |z| < 1.
2
2
(1 − z)
1−z
(1 − z)
(1 − z)2
Setzen wir hier beispielsweise z = 1/2 ein, so wird
∞
X
n
1 2 3
= + + + · · · = 2.
n
2
2 4 8
n=1
8.1.1
Die Exponentialfunktion
Eine besonders wichtige Potenzreihe ist die Exponentialfunktion
exp(z) =
∞
X
zn
n=0
n!
.
Für jedes 0 6= z ∈ C haben wir
n+1
z /(n + 1)! = lim |z| = 0,
lim n→∞ n + 1
n→∞
z n /n!
und nach dem Quotientenkriterium §7.Korollar 16 konvergiert exp(z). Damit hat die
Exponentialfunktion den Konvergenzradius R = ∞, definiert also eine auf ganz C
erklärte Funktion
∞
X
zn
ez := exp(z) =
.
n!
n=0
Dass es sich hier wirklich um ez handelt werden wir später noch etwas begründen. Den
Wert
∞
X
1
e = exp(1) =
n!
n=0
hatten wir schon in §7.3 behandelt. Wir wollen die Grundeigenschaft der Exponentialfunktion jetzt ohne Beweis einfach angeben:
Satz 8.7 (Funktionalgleichung der Exponentialfunktion)
Für alle z, w ∈ C gilt exp(z + w) = exp(z) · exp(w).
Denken wir uns ez = exp(z) so wird die Funktionalgleichung zum Potenzgesetz
ez+w = ez · ew ,
der Satz ist also ein Hinweis darauf das exp(z) wirklich eine Potenzfunktion ist.
149
Mathematik für Informatiker B, SS 2012
8.1.2
Donnerstag 21.6.2012
Die trigonometrischen Funktionen
Über die Exponentialfunktion kann man die vertraute reelle Funktion ex auch auf
komplexe Argumente ausdehnen. Dies ist auch für andere Grundfunktionen möglich
und insbesondere gibt es auch komplexe Sinus- und Cosinusfunktionen. Diese werden
durch die folgenden Potenzreihen definiert:
sin z =
cos z =
∞
X
(−1)n 2n+1
z3
z5
z
=z−
+
− ··· ,
(2n
+
1)!
6
120
n=0
∞
X
(−1)n
n=0
(2n)!
z 2n = 1 −
z2 z4
+
− ···
2
24
Da diese Potenzreihen beide von der konvergenten Reihe
exp(|z|) =
∞
X
|z|n
n=0
n!
majorisiert werden, haben sie nach §7.Lemma 14 beide den Konvergenzradius R = ∞.
Dass es sich wirklich für reelles z ∈ R um den normalen Sinus und den normalen
Cosinus handelt, kann man an dieser Stelle leider nicht direkt begründen. Wir werden
später bei der Behandlung der Taylorentwicklung dazu kommen.
$Id: stetig.tex,v 1.12 2012/07/16 15:38:22 hk Exp $
§9
Stetigkeit
Vorlesung 19, Donnerstag 21.6.2012
Wir wollen den Begriff einer stetigen Funktion einführen, und als Hilfsbegriff hierfür
benötigen wir etwas allgemeiner die sogenannten Grenzwerte von Funktionen. All dies
können wir sowohl für reelle als auch für komplexe Zahlen durchführen. Um diese
beiden Fälle nicht trennen zu müssen, schreiben wir im folgenden K für die reellen
oder die komplexen Zahlen, es sei also K ∈ {R, C}. Wie in §6 angekündigt werden alle
Grenzwertbegriffe auf den Begriff der Folgenkonvergenz zurückgeführt. Dies haben wir
in §7 bereits für Reihen getan, und jetzt führen wir auch Funktionsgrenzwerte durch
Zurückführung auf Folgengrenzwerte ein.
150
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Definition 9.1: Seien D ⊆ K und f : D → K eine Funktion. Weiter sei x0 ∈ K mit
x0 ∈ D\{x0 }. Dann konvergiert f (x) für x gegen x0 gegen ein y ∈ K, in Zeichen
lim f (x) = y,
x→x0
wenn für jede Folge (xn )n∈N in D\{x0 } mit lim xn = x0 auch
n→∞
lim f (xn ) = y
n→∞
ist. Ist x0 ∈ D, so nennen wir die Funktion f stetig in x0 wenn
lim f (x) = f (x0 )
x→x0
gilt. Schließlich heißt f stetig wenn f in jedem Punkt x0 ∈ D stetig ist.
Wir wollen die Definition zunächst noch ein klein wenig kommentieren. Zunächst
einmal kann man sich fragen warum Grenzwerte für x gegen ein x0 ∈
/ D überhaupt
betrachtet werden sollen? Dies ist aber tatsächlich gewünscht, zum Beispiel will man
Dinge wie
sin x
lim
x→0 x
untersuchen, und hier ist die Funktion sin(x)/x in x = 0 überhaupt nicht definiert.
Warum jetzt die Bedingung x0 ∈ D\{x0 }? Damit die Definition des Grenzwerts sinnvoll
ist, muss es überhaupt gegen x0 konvergente Folgen in D\{x0 } geben und genau dies
wird durch die Forderung x0 ∈ D\{x0 } erreicht. Da Folgengrenzwerte nach §6.Lemma 5
eindeutig sind, ist auch der Funktionsgrenzwert für x gegen x0 eindeutig, wenn er denn
überhaupt existiert. Als letzte Frage, warum soll xn 6= x0 für alle n ∈ N sein? Auch
dies hat seinen Grund. Andernfalls könnten wir im Fall x0 ∈ D die konstante Folge
xn = x0 nehmen, und dann ist auch f (xn ) = f (x0 ) konstant, hat also den Grenzwert
f (x0 ). Damit könnte f (x) dann wenn überhaupt nur gegen f (x0 ) konvergieren, die
Existenz des Grenzwerts und Stetigkeit wären also dasselbe. Das kann man so machen,
wir wollen es hier aber nicht tun. Wir diskutieren jetzt einige Beispiele.
1. Sei f : R → R; x 7→ x, also D = R. Sind x0 ∈ R und (xn )n∈N eine gegen x0
konvergente Folge, so ist auch (f (xn ))n∈N = (xn )n∈N gegen x0 konvergent, also
lim x = x0 .
x→x0
2. Jetzt sei f : R\{0} → R; x 7→ x. Ist f dann in 0 stetig? Man ist geneigt auf das
vorige Beispiel zu verweisen und dies zu bejahen. Aber es gibt hier ein kleines
Problem. Stetigkeit ist überhaupt nur in Punkten des Definitionsbereichs der
Funktion definiert, also nicht in 0. Die Funktion ist also nicht nur nicht stetig
in 0, die ganze Frage ist eigentlich sinnlos. Man kann f natürlich zu einer in 0
stetigen Funktion ergänzen, aber das ist ein ganz anderes Thema.
151
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
3. Etwas komplizierter betrachte jetzt f : R → R; x 7→ x2 . Sind dann wieder x0 ∈ R
und (xn )n∈N eine gegen x0 konvergente Folge, so ergibt sich mit den Rechenregeln
für Folgengrenzwerte §6.Lemma 14 auch
2
2
lim f (xn ) = lim xn = lim xn = x20 .
n→∞
n→∞
n→∞
Damit ist
lim x2 = x20 .
x→x0
Insbesondere ist f stetig.
4. Analog zum eben behandelten Beispiel ist auch jedes Polynom p : K → K stetig.
5. Kommen wir einmal zu einem Beispiel einer nicht stetigen Funktion. Wir betrachten die sogenannte Heaviside-Funktion
(
1, x ≥ 0,
H : R → R; x 7→
0, x < 0.
Diese spielt zum Beispiel bei der Diskussion von Einschaltvorgängen“ eine Rolle.
”
Wir wollen uns klarmachen, dass der Grenzwert limx→0 H(x) nicht existiert. Um
dies zu sehen, können wir beispielsweise die durch
(−1)n
xn :=
n
für n ∈ N definierte Folge betrachten. Diese ist ein Nullfolge und für jedes n ∈ N
gilt
(
1, n ist gerade,
H(xn ) =
0, n ist ungerade.
Wir haben also verschiedene Häufungspunkte 0 und 1, und die Folge (H(xn ))n∈N
ist somit divergent. Folglich gibt es auch keinen Grenzwert von H(x) für x gegen
0.
Es gibt die sogenannten links- und rechtsseitigen Grenzwerte. Diese entstehen
wenn man nur von links beziehungsweise von rechts gegen x0 konvergente Folgen
betrachtet. Formal ist der linksseitige Grenzwert von x gegen x0 einer Funktion
f : D → K definiert durch

 Für jede gegen x0 konvergente Folge
(xn )n∈N in D mit xn < x0 für alle
lim f (x) = y :⇐⇒
x↑x0
 n ∈ N ist auch lim f (x ) = y.
n
n→∞
Man braucht natürlich auch wieder Voraussetzungen an D und x0 , die die Existenz einer solchen Folge überhaupt sicherstellen, aber dieses Detail wollen wir
152
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
jetzt einmal ignorieren. Analog ist auch ein rechtsseitiger Grenzwert lim f (x) dex↓x0
finiert, bei dem nur Folgen mit xn > x0 für alle n ∈ N betrachtet werden. All
dies ist natürlich nur im Fall K = R sinnvoll.
Im Beispiel unserer Heaviside-Funktion haben wir
lim H(x) = 0 und lim H(x) = 1.
x↑0
x↓0
6. Als letztes Beispiel betrachten wir den ganzzahligen Anteil einer reellen Zahl x,
die sogenannte Gauß-Klammer
[x] := max{n ∈ Z|n ≤ x} (x ∈ R).
Die Schreibweise hierfür wird nicht einheitlich gehandhabt, gelegentlich finden
sie auch andere Symbole für diese Größe. Beispielsweise sind [2, 3] = 2 aber
[−2, 3] = −3. Die Funktion f (x) = [x] ist in jedem Punkt x0 ∈ R\Z stetig, aber
nicht bei ganzzahligen Argumenten x0 ∈ Z. Für x0 ∈ Z gelten dagegen
lim [x] = x0 − 1 und lim [x] = x0 .
x↑x0
x↓x0
Wir hatten eine Funktion f : D → K stetig in einem Punkt x0 ∈ D genannt, wenn
limx→x0 f (x) = f (x0 ) gilt, und setzen wir die Definition des Funktionsgrenzwerts hier
ein, so bedeutet dies das für jede gegen x0 konvergente Folge (xn )n∈N in D\{x0 } stets
auch limn→∞ f (xn ) = f (x0 ) ist. Die Einschränkung xn 6= x0 ist dabei in diesem Kontext
überflüssig, für Folgenglieder xn = x0 ist ja sogar f (xn ) = f (x0 ). Wir erhalten
f stetig in x0 ⇐⇒ ∀((xn )n∈N ∈ D) : lim xn = x0 =⇒ lim f (xn ) = f (x0 ).
n→∞
n→∞
Dabei stand K“ für die reellen Zahlen oder die komplexen Zahlen. Erinnern wir uns
”
weiter daran, dass f stetig ist wenn f in jedem Punkt x0 ∈ D stetig ist, so ergibt sich
weiter die folgende Äquivalenz
(
Für jede in D konvergente Folge
f stetig ⇐⇒
(xn )n∈N ∈ D gilt f ( lim xn ) = lim f (xn ).
n→∞
n→∞
Neben dieser Formulierung des Stetigkeitsbegriffs gibt es auch noch eine hierzu gleichwertige sogenannte –δ Definition der Stetigkeit, die im nächsten Lemma hergeleitet
wird.
Lemma 9.2 (–δ Definition der Stetigkeit)
Seien D ⊆ K und f : D → K eine Funktion. Dann ist f genau dann stetig in einem
Punkt x0 ∈ D wenn es für jedes > 0 ein δ > 0 mit |f (x) − f (x0 )| < für alle x ∈ D
mit |x − x0 | < δ gibt.
153
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Beweis: ”=⇒” Wir müssen die Gültigkeit der Aussage
∀( > 0)∃(δ > 0)∀(x ∈ D) : |x − x0 | < δ =⇒ |f (x) − f (x0 )| < einsehen, und dies werden wir durch einen Widerspruchsbeweis tun. Angenommen
unsere Aussage wäre falsch, d.h. ihre Verneinung ist wahr. Erinnern wir uns daran
das die Verneinung einer Allaussage eine Existenzaussage und die Verneinung einer
Existenzaussage eine Allaussage ist, jeweils mit der verneinten Aussageform, so erhalten
wir die Gültigkeit von
∃( > 0)∀(δ > 0)∃(x ∈ D) : |x − x0 | < δ ∧ |f (x) − f (x0 )| ≥ .
Wähle ein solches 0 > 0, es soll also für jedes δ > 0 stets ein x ∈ D mit |x − x0 | < δ
und |f (x) − f (x0 )| ≥ 0 geben. Ist jetzt n ∈ N, so können wir dies mit δ = 1/n > 0
anwenden, und erhalten ein xn ∈ D mit
|xn − x0 | <
1
und |f (xn ) − f (x0 )| ≥ 0 .
n
Damit haben wir eine Folge (xn )n∈N in D, und wegen limn→∞ 1/n = 0 liefert das Einschnürungslemma Aufgabe (43) auch limn→∞ (xn −x0 ) = 0 und somit auch limn→∞ xn =
x0 . Die vorausgesetzte Stetigkeit von f in x0 ergibt
lim f (xn ) = f (x0 ).
n→∞
Insbesondere existiert ein n ∈ N mit |f (xn ) − f (x0 )| < 0 , im Widerspruch zur Wahl
von xn .
”⇐=” Sei (xn )n∈N eine gegen x0 konvergente Folge in D. Wir müssen zeigen, dass
dann auch (f (xn ))n∈N gegen f (x0 ) konvergiert. Sei also > 0 gegeben. Nach unserer
Voraussetzung gibt es dann ein δ > 0 mit |f (x) − f (x0 )| < für alle x ∈ D mit
|x−x0 | < δ. Da (xn )n∈N gegen x0 konvergiert gibt es weiter ein n0 ∈ N mit |xn −x0 | < δ
für alle n ≥ n0 . Ist also n ∈ N mit n ≥ n0 , so ist xn ∈ D mit |xn − x0 | < δ und folglich
auch |f (xn ) − f (x0 )| < . Damit konvergiert (f (xn ))n∈N gegen f (x0 ).
Oft wird auch die Bedingung
∀( > 0)∃(δ > 0)∀(x ∈ D) : |x − x0 | < δ =⇒ |f (x) − f (x0 )| < des Lemmas als Definition der Stetigkeit in x0 verwendet und unsere Folgendefinition
dann als gleichwertig bewiesen. Wir wollen noch kurz die Bedeutung des obigen Kriteriums kommentieren. In vielen Situationen sind die Argumente x nicht exakt gegeben,
sondern man hat nur eine Näherung x0 . Dies kann beispielsweise durch Rundungen
bei numerischen Rechnungen eintreten oder auch weil x durch Messungen ermittelt
wurde. Wollen wir dann den Funktionswert y = f (x) ausrechnen, so erhalten wir auch
nur einen genäherten Wert y 0 = f (x0 ). Diese Auswertung ist nur dann sinnvoll möglich
154
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
wenn bei kleinen Fehlern im Argument auch nur kleine Fehler im Wert auftreten. Wir
können die –δ in diesem Zusammenhang wie folgt interpretieren: Zu gegebener Fehlerschranke > 0 für den Funktionswert gibt es immer eine passende Fehlerschranke δ > 0
für das Funktionsargument so, dass wann immer die Näherung x0 von x höchstens um
δ von x abweicht, wenn also |x − x0 | < δ ist, so kann auch der genäherte Wert f (x0 )
um höchstens von f (x) abweichen, also |f (x) − f (x0 )| < . Stetigkeit bedeutet in dieser Interpretation also, dass man die Funktion sinnvoll auf Näherungswerte anwenden
kann.
Bisher haben wir noch nicht allzu viele Beispiele stetiger Funktionen gesehen. Wir
wollen jetzt einsehen das alle normalen“, also durch Formeln in den Grundfunktionen
”
definierten, Funktionen stetig sind, solange nicht gerade irgendwo durch Null geteilt
wird. Die Begründung dieser Tatsache beruht auf den sogenannten Vererbungseigen”
schaften“ der Stetigkeit, dies meint Aussagen die aus der vorausgesetzten Stetigkeit
gegebener Funktion f, g, . . . auf die Stetigkeit von aus f, g, . . . in irgendeinem Sinne
zusammengesetzten Funktionen schließen.
Der Beweis dieser Aussagen wird uns keine große Mühe machen. Schon bei der
Einführung der Folgen in §6 hatten wir angekündigt das die Folgen das technische
Hilfsmittel zur Behandlung aller anderen Grenzwertbegriffe sind, und dementsprechend werden wir jetzt alles auf uns schon bekannte Aussagen über konvergente Folgen
zurückführen.
Lemma 9.3: Seien D ⊆ K, x0 ∈ D und f : D → K eine Funktion. Dann gelten:
(a) Existiert der Grenzwert von f (x) für x gegen x0 , so existiert auch
lim |f (x)| = lim f (x) .
x→x0
x→x0
Ist insbesondere f in x0 stetig, so ist auch |f | in x0 stetig.
(b) Im Fall K = C gilt für jedes z ∈ C
lim f (x) = z ⇐⇒ lim Re(f (x)) = Re(z) ∧ lim Im(f (x)) = Im(z).
x→x0
x→x0
x→x0
Insbesondere ist f genau dann in x0 stetig wenn Re(f ) und Im(f ) beide in x0
stetig sind.
Beweis: (a) Sei (xn )n∈N eine gegen x0 konvergente Folge in D\{x0 }. Dann konvergiert die Folge (f (xn ))n∈N gegen den Grenzwert y = limx→x0 f (x). Nach §6.Lemma 15
konvergiert (|f (xn )|)n∈N gegen |y|. Dies beweist
lim |f (x)| = |y| = lim f (x) .
x→x0
x→x0
Die zweite Aussage ist eine unmittelbare Folgerung. (b) Diese Aussagen folgen da sich
die Konvergenz komplexer Folgen nach §6.6 an Real- und Imaginärteil ablesen läßt.
155
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Nun kommen wir zu den Rechenregeln für Funktionsgrenzwerte. Jede dieser Rechenregeln läßt sich auf die entsprechende Formel für Folgengrenzwerte zurückführen.
Lemma 9.4 (Rechenregeln für Funktionsgrenzwerte)
Seien D ⊆ K und x0 ∈ D. Dann gelten:
(a) Sind f, g : D → K, α, β ∈ K und existieren die Grenzwerte von f und g für x
gegen x0 , so existiert auch der Grenzwert
lim (αf (x) + βg(x)) = α · lim f (x) + β · lim g(x).
x→x0
x→x0
x→x0
Sind f und g in x0 stetig, so ist auch αf + βg in x0 stetig.
(b) Sind f, g : D → K zwei Funktionen und existieren die Grenzwerte von f und g
für x gegen x0 , so existiert auch der Grenzwert
lim (f (x) · g(x)) = lim f (x) · lim g(x).
x→x0
x→x0
x→x0
Sind f und g in x0 stetig, so ist auch f · g in x0 stetig.
(c) Sind f, g : D → K zwei Funktionen mit g(x) 6= 0 für alle x ∈ D und existieren die
Grenzwerte von f und g für x gegen x0 mit limx→x0 g(x) 6= 0, so existiert auch
der Grenzwert
lim f (x)
f (x)
x→x0
=
.
lim
x→x0 g(x)
lim g(x)
x→x0
Sind f und g in x0 stetig, so ist auch f /g in x0 stetig.
(d) Sind auch D0 ⊆ K, f : D → D0 in x0 stetig und g : D0 → K in f (x0 ) stetig, so ist
auch die Hintereinanderausführung g ◦ f : D → K in x0 stetig.
P
n
(e) Ist f (z) = ∞
n=0 an z eine Potenzreihe mit Konvergenzradius R > 0, so ist die
Funktion f : UR (0) → K in ihrem Konvergenzkreis stetig (für R = ∞ wird dieser
als ganz C interpretiert).
Beweis: (a) Sei (xn )n∈N eine gegen x0 konvergente Folge in D\{x0 }. Dann gilt nach
§6.Lemma 14.(a,b) auch
lim (αf (xn ) + βg(xn )) = α · lim f (xn ) + β · lim g(xn ) = α · lim f (x) + β · lim g(x).
n→∞
n→∞
n→∞
x→x0
x→x0
Dies beweist
lim (αf (x) + βg(x)) = α · lim f (x) + β · lim lim g(x).
x→x0
x→x0
x→x0 n→∞
Sind f und g beide in x0 stetig, so haben wir auch
lim (αf (x) + βg(x)) = α · lim f (x) + β · lim lim g(x) = αf (x0 ) + βg(x0 ),
x→x0
x→x0
x→x0 n→∞
156
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
d.h. auch αf + βg ist in x0 stetig.
(b,c) Dies ist mit §6.Lemma 14.(c,d) völlig analog zum Beweis von Teil (a).
(d) Sei (xn )n∈N eine gegen x0 konvergente Folge in D. Da f in x0 stetig ist, ist dann
auch (f (xn ))n∈N eine gegen f (x0 ) konvergente Folge in D0 . Da weiter auch g in f (x0 )
stetig ist, ist schließlich auch (g(f (xn )))n∈N gegen g(f (x0 )) konvergent. Dies beweist
die Stetigkeit von g ◦ f in x0 .
(e) Da dies etwas komplizierter ist, wollen wir hier auf diesen Beweis verzichten.
Mit diesem Lemma sind jetzt tatsächlich alle durch Formeln in den Grundfunktionen
gegebenen Funktionen stetig. Denn zunächst sind nach Aussage (e) Polynome, die
Exponentialfunktion und die trigonometrischen Funktionen Sinus und Cosinus allesamt
stetig. Weiter ist dann alles was wir hieraus durch Hintereinanderausführen und die
Grundrechenarten zusammensetzen können stetig. Beispielsweise ist
f (x) = e2x + sin(x) · cos(x2 ) + esin x
stetig, da es durch eine Formel in den Grundfunktionen definiert ist. Im reellen Fall
K = R werden stetige Funktionen gelegentlich auch stückchenweise zusammengesetzt.
Als einfachsten Fall nehmen wir eine Funktion die aus zwei Stücken zusammengesetzt
ist, etwa
(
sin x, x ≥ 0,
f : R → R; x 7→
x,
x < 0.
Die Funktion f ist in zwei Teilen I1 = R≥0 und I2 = R<0 definiert. Auf I1 stimmt f
mit der stetigen Funktion f1 (x) = sin x überein und auf I2 ist f die stetige Funktion
f2 (x) = x. Eine solche Funktion ist genau dann stetig wenn f1 und f2 im gemeinsamen
Endpunkt x0 = 0 der beiden Intervalle übereinstimmen, wenn also f1 (x0 ) = f2 (x0 ) gilt.
Im Beispiel ist f1 (0) = sin(0) = 0 = f2 (0), die Funktion f ist also stetig.
Allgemein haben wir die folgende Situation. Gegeben seien von links nach rechts
angeordnete Intervalle I1 , . . . , Ir bei denen aufeinanderfolgende Intervalle IS
j und Ij+1
stets einen gemeinsamen Randpunkt xj haben (1 ≤ j < r). Sei D := rj=1 Ij die
Vereinigung dieser Intervalle und f : D → R eine auf D definierte Funktion. Auf jedem
der Intervalle Ij stimme f mit einer stetigen Funktion fj : Ij → R überein. Dann
ist f genau dann stetig wenn fj (xj ) = fj+1 (xj ) für alle 1 ≤ j < r gilt, also wenn
die Funktionen f1 , . . . , fr in den Punkten in denen die aufeinanderfolgenden Intervalle
zusammentreffen stets übereinstimmen. Wir wollen dies nicht formal beweisen, man
kann es leicht über die Betrachtung links- und rechtsseitiger Grenzwerte einsehen. Wir
wollen uns lieber zwei Beispiele anschauen. Betrachte die beiden Funktionen
 x

e ,
x ≤ 0,




1,
0, x ≤ 0,
0 < x < 1,
f : R → R; x 7→
g : R → R; x 7→ x, 0 < x < 2,
2


x
,
1
≤
x
<
2,

 2

x , x ≥ 2.

6 − x, x ≥ 2,
157
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Im ersten Beispiel ist der Definitionsbereich D = R in die vier Intervalle I1 = R≤0 ,
I2 = (0, 1), I3 = [1, 2) und I4 = R≥2 unterteilt. Die gemeinsamen Randpunkte sind
x1 = 0, x2 = 1 und x3 = 2. Auf Ij für j = 1, 2, 3, 4 stimmt f mit der stetigen Funktion
f1 (x) = ex , f2 (x) = 1, f3 (x) = x2 und f4 (x) = 6 − x überein. Um f auf Stetigkeit zu
überprüfen müssen wir die Funktionswerte in den drei Zerlegungspunkten anschauen.
Es sind f1 (0) = e0 = 1, f2 (0) = 1, f2 (1) = 1, f3 (1) = 12 = 1, f3 (2) = 22 = 4 und
f4 (2) = 6 − 2 = 4, an den drei Schnittstellen passt also alles zusammen. Damit ist f
auf ganz R stetig.
Schauen wir uns noch die Funktion g an. Hier haben wir die drei Intervall I1 = R≤0 ,
I2 = (0, 2) und I3 = R≥2 mit den Zerlegungspunkten x1 = 0 und x2 = 2. Auf den
Intervallen Ij , j = 1, 2, 3 haben wir jeweils die stetige Funktion g1 (x) = 0, g2 (x) = x
und g3 (x) = x2 . In x1 = 0 ist wegen g1 (0) = 0 = g2 (0) alles in Ordnung. Bei x2 = 2
haben wir dagegen g2 (2) = 2 aber g3 (2) = 22 = 4 6= 2. Hier passen die Teile also nicht
zusammen und die Funktion g ist in x2 = 2 nicht stetig.
9.1
Eigenschaften stetiger Funktionen
Wir wollen in diesem Abschnitt einige der Haupteigenschaften stetiger Funktionen
herleiten. Dabei betrachten wir hier nur den reellen Fall K = R. Wir beginnen mit
dem sogenannten Zwischenwertsatz, zu dessen Beweis wir das schon in §4.6.1 für reelle
Polynome angekündigte Intervallhalbierungsverfahren benutzen werden. Der Zwischenwertsatz besagt das eine stetige Funktion f : [a, b] → R jeden Funktionswert zwischen
f (a) und f (b) annimmt. Anschaulich ist dies klar, denken wir uns x als eine Zeit, so ist
f zum Zeitpunkt x = a in f (a) und zum Zeitpunkt x = b in f (b). Ist dann ξ zwischen
f (a) und f (b), so kann f den Wert ξ auf dem Weg von f (a) nach f (b) nicht einfach
überspringen. Der exakte Beweis läuft wie schon bemerkt über das Intervallhalbierungsverfahren und liefert sogar einen Algorithmus zur näherungsweisen Berechnung
eines x mit f (x) = ξ.
Satz 9.5 (Zwischenwertsatz und Intervallhalbierungsverfahren)
Seien a, b ∈ R mit a < b und f : [a, b] → R stetig mit f (a) < f (b). Dann gibt es für
jedes ξ ∈ [f (a), f (b)] zwischen f (a) und f (b) ein x ∈ [a, b] mit f (x) = ξ.
Beweis: Wir setzen a0 := a und b0 := b. Dann ist a0 < b0 und f (a0 ) ≤ ξ ≤ f (b0 ). Nun
sei n ∈ N mit n ≥ 1 und an−1 , bn−1 mit a ≤ an−1 < bn−1 ≤ b und f (an−1 ) ≤ ξ ≤ f (bn−1 )
seien bereits konstruiert. Wir betrachten dann den Mittelpunkt cn zwischen an−1 und
bn−1 also
an−1 + bn−1
cn :=
mit an−1 < cn < bn−1 .
2
Es gibt jetzt zwei verschiedene Fälle.
Fall 1. Es ist f (cn ) ≤ ξ. Dann setzen wir an := cn , bn := bn−1 und haben weiterhin
a ≤ an−1 < an < bn ≤ b und f (an ) = f (cn ) ≤ ξ ≤ f (bn ).
Fall 2. Andernfalls ist f (cn ) > ξ. Dann können wir an := an−1 und bn := cn setzen,
und haben erneut a ≤ an < bn < bn−1 ≤ b und f (an ) ≤ ξ < f (bn ).
158
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Damit haben wir rekursiv zwei Folgen (an )n∈N und (bn )n∈N mit a ≤ an < bn ≤ b
und f (an ) ≤ ξ ≤ f (bn ) für alle n ∈ N definiert. Im jeden Iterationsschritt halbiert sich
der Abstand zwischen an und bn , wir haben also
bn − an =
b−a
2n
für alle n ∈ N. Weiter sind (an )n∈N nach Konstruktion monoton steigend und (bn )n∈N
monoton fallend. Nach §6.Lemma 16 konvergieren beide Folgen
x := lim an und x0 := lim bn .
n→∞
n→∞
Nach den Rechenregeln für Folgengrenzwerte §6.Lemma 14 gilt
b−a
= 0,
n→∞ 2n
x0 − x = lim bn − lim an = lim (bn − an ) = lim
n→∞
n→∞
n→∞
d.h. es ist x = x0 . Da f in x stetig ist und Anordnungsbeziehungen nach §6.Lemma 11
von Folgengrenzwerten erhalten werden, ist
f (x) = lim f (an ) ≤ ξ ≤ lim f (bn ) = f (x),
x→∞
n→∞
d.h. es ist f (x) = ξ.
Ein entsprechender Satz gilt natürlich auch wenn f (b) < f (a) ist, dann gibt es für jedes
f (b) ≤ ξ ≤ f (a) ein x ∈ [a, b] mit f (x) = ξ. Auch das Intervallhalbierungsverfahren
kann man in diesem Fall entsprechend verwenden. Die Lösung x von f (x) = ξ liegt
immer zwischen an und bn , also ist auch
|x − an | = x − an ≤ bn − an =
b−a
2n
und ebenso |x−bn | ≤ (b−a)/2n . Verwenden wir also an beziehungsweise bn als Näherung
an die Lösung x von f (x) = ξ, so verkleinert sich der Approximationsfehler bei dreifacher Ausführung des Iterationsschritts um den Faktor 8, und bei vierfacher Ausführung
um den Faktor 16, wir können also sagen, dass wir grob alle drei bis vier Iterationsschritte eine neue Dezimalstelle gewinnen. Das ist zwar nicht besonders schnell, aber
der Rechenaufwand läßt sich gut a priori abschätzen. Zum Beispiel verwenden wir einmal das Intervallhalbierungsverfahren um die Gleichung cos x = x für 0 ≤ x ≤ π/2
zu lösen. Als Funktion verwenden wir f (x) = x − cos x, also f (0) = −1 < 0 und
f (π/2) = π/2 > 0. Wegen π/2 ≈ 1.57 sollten wir nach spätestens 12 Iterationsschritten eine auf zwei Dezimalstellen genaue Lösung haben:
159
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
1.6
n
0
1
2
3
4
5
6
7
8
9
10
11
a
0
0
0.3926990818
0.5890486227
0.6872233932
0.7363107784
0.7363107784
0.7363107784
0.7363107784
0.7363107784
0.7378447592
0.7386117496
b
1.570796327
0.7853981635
0.7853981635
0.7853981635
0.7853981635
0.7853981635
0.7608544710
0.7485826247
0.7424467016
0.7393787400
0.7393787400
0.7393787400
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Der Fehler bei n = 11 ist dabei höchstens π/212 ≈ 0.0007669903940, und auf zwei
Dezimalstellen genau ist die Lösung x ≈ 0.73.
Vorlesung 20, Dienstag 26.6.2012
Am Ende der letzten Sitzung hatten wir eine der Grundeigenschaften stetiger Funktionen nachgewiesen, den sogenannten Zwischenwertsatz, und diesen verwendet das
Intervallhalbierungsverfahren zu begründen. Wir werden jetzt auch noch zwei weitere
wichtige Eigenschaften stetiger Funktionen herleiten.
Satz 9.6 (Beschränktheit stetiger Funktionen)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion. Dann ist die
Funktion f beschränkt und nimmt ihr Maximum und Minimum in [a, b] an, d.h. es gibt
u, v ∈ [a, b] mit f (u) ≤ f (x) ≤ f (v) für alle x ∈ [a, b].
Beweis: Angenommen die Funktion f wäre unbeschränkt. Sei n ∈ N. Dann kann nicht
|f (x)| ≤ n für alle x ∈ [a, b] gelten, also existiert ein xn ∈ [a, b] mit |f (xn )| > n.
Dies definiert eine Folge (xn )n∈N in [a, b] und nach dem Satz von Bolzano-Weierstrass
§6.Satz 17 existiert eine konvergente Teilfolge (xnk )k∈N dieser Folge. Bezeichne x ∈ R
den Grenzwert von (xnk )k∈N . Nach §6.Lemma 11 ist x ∈ [a, b] und da die Funktion f in
x stetig ist, konvergiert (f (xnk ))k∈N gegen f (x). Insbesondere ist die Folge (f (xnk ))k∈N
nach §6.Lemma 10 beschränkt. Andererseits ist |f (xnk )| > nk für jedes k ∈ N und damit
kann diese Folge nicht beschränkt sein. Dieser Widerspruch beweist die Beschränktheit
der Funktion f .
Wir zeigen nun das f sein Maximum in [a, b] annimmt. Da wir schon wissen das f
beschränkt ist, existiert das Supremum s := sup{f (x)|x ∈ [a, b]}. Sei n ∈ N. Wegen
s − 1/n < s ist s − 1/n dann keine obere Schranke von f ([a, b]), also existiert ein
160
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
xn ∈ [a, b] mit f (xn ) > s − 1/n. Wie oben existiert eine Teilfolge (xnk )k∈N die gegen
ein x ∈ [a, b] konvergiert. Da f in x stetig ist, konvergiert (f (xnk ))k∈N gegen f (x). Mit
§6.Lemma 11 folgt
s = lim s −
k→∞
1
≤ lim f (xnk ) = f (x) ≤ s,
nk k→∞
d.h. es ist f (x) = s. Also nimmt die Funktion f ihr Maximum in x ∈ [a, b] an. Analog
nimmt die Funktion auch ihr Minimum in [a, b] an.
Für diesen Satz ist es entscheidend, dass f auf einem Intervall der Form [a, b] definiert
ist, für andere Intervalltypen ist die Aussage falsch. Beispielsweise ist die Funktion
f : (0, 1] → R; x 7→ 1/x stetig aber unbeschränkt. Als letzte Grundeigenschaft können
wir jetzt die Stetigkeit der Umkehrfunktionen bijektiver stetiger Funktionen einsehen.
Lemma 9.7 (Umkehrfunktionen stetiger Bijektionen)
Seien a, b ∈ R mit a < b und f : [a, b] → R eine stetige, streng monoton wachsende
(fallende) Funktion. Dann ist f : [a, b] → [f (a), f (b)] (f : [a, b] → [f (b), f (a)]) bijektiv
und die Umkehrfunktion f −1 : [f (a), f (b)] → [a, b] (f −1 : [f (b), f (a)] → [a, b]) ist wieder
stetig und streng monoton wachsend (fallend).
Beweis: Wir beweisen die Aussagen im monoton steigenden Fall, die andere Fall ist
dann analog. Für alle x ∈ [a, b] ist f (a) ≤ f (x) ≤ f (b) da f monoton steigend ist, also
f (x) ∈ [f (a), f (b)]. Ist umgekehrt y ∈ [f (a), f (b)] so gibt es nach dem Zwischenwertsatz
Satz 5 ein x ∈ [a, b] mit f (x) = y. Damit ist f : [a, b] → [f (a), f (b)] surjektiv. Da f
streng monoton steigend ist, ist f auch injektiv denn sind x, y ∈ [a, b] mit x 6= y,
also etwa x < y, so ist auch f (x) < f (y) und insbesondere f (x) 6= f (y). Somit ist
f : [a, b] → [f (a), f (b)] bijektiv.
Es verbleibt die Stetigkeit der Umkehrfunktion f −1 : [f (a), f (b)] → [a, b] zu beweisen. Sei also (yn )n∈N eine Folge in [f (a), f (b)] die gegen ein y ∈ [f (a), f (b)] konvergiert.
Angenommen (f −1 (yn ))n∈N konvergiert nicht gegen f −1 (y). Dann gilt nicht
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |f −1 (yn ) − f −1 (y)| < .
Verneinen wir diese Aussage, so erhalten wir ein 0 > 0 so, dass
∀(n ∈ N)∃(m ≥ n) : |f −1 (ym ) − f −1 (y)| ≥ 0
gilt. Rekursiv können wir damit eine Teilfolge (ynk )k∈N konstruieren so, dass
|f −1 (ynk ) − f −1 (y)| ≥ 0
für alle k ∈ N gilt. Nach dem Satz von Bolzano-Weierstrass §6.Satz 17 existiert eine
weitere Teilfolge (ynkl )l∈N so, dass die Folge (f −1 (ynkl ))l∈N gegen ein x ∈ R konvergiert,
und nach §6.Lemma 11 ist auch x ∈ [a, b]. Da die Funktion f in x stetig ist, gilt auch
f (x) = lim f (f −1 (ynkl )) = lim ynkl = lim yn = y,
l→∞
l→∞
161
n→∞
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
d.h. es ist x = f −1 (y). Insbesondere existiert ein l ∈ N mit
|f −1 (ynkl ) − f −1 (y)| = |f −1 (ynkl ) − x| < 0 ,
im Widerspruch zur Wahl der Teilfolge (ynk )k∈N . Dieser Widerspruch beweist die Konvergenz von (f −1 (yn ))n∈N gegen f −1 (y). Damit ist f −1 stetig. Dass f −1 auch streng
monoton steigend ist, ist klar denn sind x, y ∈ [f (a), f (b)] mit x < y so folgte aus
f −1 (x) ≥ f −1 (y) auch x = f (f −1 (x)) ≥ f (f −1 (y)) = y, d.h. es ist f −1 (x) < f −1 (y).
Sei beispielsweise n ∈ N∗ gegeben. Dann ist die Funktion
f : R≥0 → R≥0 ; x 7→ xn
streng monoton steigend und damit folgt das die Umkehrfunktion von f wieder stetig
ist. Streng genommen kann Lemma 7 eigentlich nicht angewendet werden da es sich
nicht um ein Intervall [a, b] handelt, aber Anwendung auf die Intervalle [0, m] mit
wachsenden m ∈ N ergibt auch in diesem Fall die Aussage. Die Umkehrfunktion von f
ist
√
n
: R≥0 → R≥0
was somit ebenfalls eine stetige Funktion ist.
9.2
Die Potenzfunktion mit rationalen Exponenten
In §8.1.1 hatten wir die Exponentialfunktion als die auf ganz C konvergente Potenzreihe
exp(z) =
∞
X
zn
n=0
n!
eingeführt und bereits behauptet das diese eine Potenzfunktion exp(z) = ez ist. Dies
soll in den folgenden Abschnitten etwas näher begründet werden. Entscheidend hierfür
wird die Funktionalgleichung §8.Satz 7 exp(z + w) = exp(z) · exp(w) gültig für alle
z, w ∈ C sein. Wir wissen bereits das
∞
X
1
exp(1) =
=e
n!
n=0
die in §7.3 eingeführte eulersche Zahl ist. Wir werden uns klarmachen, dass exp(x)
für reelles x ∈ R tatsächlich die reelle Potenz ex ist. Dies machen wir in mehreren
Schritten und beginnen mit dem Fall x = n ∈ Z ganzzahliger Exponenten. Potenzen
mit natürlichen Exponenten n ∈ N∗ hatten wir für jedes a ∈ R als
an = a
. . . · a}
| · · ·{z
n mal
162
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
definiert. Für jedes n ∈ N∗ erhalten wir durch mehrfache Anwendung der Funktionalgleichung
exp(n) = exp(1| + ·{z
· · + 1} = exp(1) · . . . · exp(1) = exp(1)n = en ,
{z
}
|
n mal
n mal
für natürliches x = n ∈ N∗ ist also exp(x) = ex . Für die noch fehlende natürliche
Zahl x = 0 haben wir ebenfalls exp(0) = 1 = e0 = ex . Um die Gleichung exp(x) = ex
auch auf ganzzahliges x ∈ Z auszudehnen, werden wir erneut die Funktionalgleichung
verwenden. Sei nämlich n ∈ N∗ . Dann wissen wir bereits exp(n) = en und erhalten
weiter
1 = exp(0) = exp(n + (−n)) = exp(n) · exp(−n) = en · exp(−n)
=⇒ exp(−n) =
1
= e−n .
en
Damit gilt exp(x) = ex für alle ganzen Zahlen x ∈ Z. Im nächsten Schritt wollen
wir dies auch noch auf rationales x ∈ Q ausdehnen und erinnern uns zunächst an die
Definition von Potenzen mit rationalen Exponenten. Eine rationale Zahl q ∈ Q konnten
wir als Bruch q = m/n mit m ∈ Z, n ∈ N∗ schreiben, und dann wurde für a > 0
√
√ m
m
aq = a n := n am = n a
definiert. Wir starten mit den Stammbrüchen, sei also q ∈ Q gegeben und schreibe
q = m/n mit m ∈ Z, n ∈ N∗ . Mit einer n-fachen Anwendung der Funktionalgleichung
erhalten wir
em = exp(m) = exp(n · q) = exp(q + · · · + q ) = exp(q) · . . . · exp(q) = exp(q)n ,
| {z }
|
{z
}
n mal
und dies bedeutet
exp(q) =
√
n
n mal
m
em = e n = eq .
Damit gilt exp(x) = ex auch für x = q ∈ Q.
9.3
Die Exponentialfunktion in R
Die Überlegungen des letzten Abschnitts haben das folgende Lemma bewiesen:
Lemma 9.8: Es gilt exp(q) = eq für alle q ∈ Q.
Es verbleibt diese Formel auf allgemeine reelle Exponenten auszudehnen. Wie wird ex
für x ∈ R\Q überhaupt definiert? Ist x ∈ R, so gibt es eine gegen x konvergente Folge
(qn )n∈N rationaler Zahlen. Dies gilt letztlich da die rationalen Zahlen Q nach §8.Satz 1
dicht in R sind. Haben wir jetzt eine solche Folge, so setze
ex := lim eqn .
n→∞
163
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
Natürlich gibt es einige zu lösende Probleme bei dieser Konstruktion, zum einen muss
man zeigen das dieser Grenzwert überhaupt existiert und das er zum anderen nur von
x und nicht von der speziell gewählten Folge (qn )n∈N abhängt. All dies folgt aber aus
den uns schon bekannten Tatsachen. Zunächst ist die die Exponentialfunktion Lemma
4.(e) stetig das sie durch eine Potenzreihe definiert wird. Außerdem wissen wir nach
Lemma 8 bereits exp(qn ) = eqn für jedes n ∈ N, und somit folgt
lim eqn = lim exp(qn ) = exp( lim qn ) = exp(x).
n→∞
n→∞
n→∞
Damit ist exp(x) = ex für jedes x ∈ R.
9.4
Die Exponentialfunktion in C
Nachdem wir im letzten Abschnitt exp(x) = ex für alle x ∈ R eingesehen haben, ist es
nun naheliegend ez für komplexe Exponenten z einfach durch
ez := exp(z)
zu definieren wie es schon in §8.1.1 vorweg genommen wurde. Wir wollen jetzt einige
Eigenschaften dieser komplexen Exponentialfunktion herleiten.
Satz 9.9: Die Exponentialfunktion exp : C → C ist stetig.
Beweis: Dies wissen wir bereits aus Lemma 4.(e).
Bevor wir zu den Grundeigenschaften der komplexen Exponentialfunktion kommen,
wollen wir noch eine Kleinigkeit
über komplexe Reihen festhalten. Angenommen wir
P∞
haben eine konvergente Reihe n=0 zn komplexer
5 wissen
P∞Zahlen. GemäßP§7.Lemma
∞
wir dann, dass auch die beiden reellen Reihen n=0 Re(zn ) und n=0 Im(zn ) konvergieren mit
∞
∞
∞
X
X
X
zn =
Re(zn ) + i ·
Im(zn ).
n=0
n=0
n=0
Dann konvergieren aber auch die beiden Reihen
∞
X
Re(zn ) =
n=0
und
∞
X
Im(zn ) =
n=0
∞
X
Re(zn )
n=0
∞
X
(− Im(zn )) = −
n=0
∞
X
Im(zn ),
n=0
und eine erneute Anwendung von §7.Lemma 5 ergibt die Konvergenz von
∞
X
n=0
zn =
∞
X
n=0
Re(zn ) + i ·
∞
X
n=0
Im(zn ) =
∞
X
n=0
164
Re(zn ) − i ·
∞
X
n=0
Im(zn ) =
∞
X
n=0
zn .
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
Mit dieser Vorbemerkung erhalten wir:
Lemma 9.10 (Grundeigenschaften der komplexen Exponentialfunktion)
Sei z ∈ C. Dann gelten
ez = eRe(z) · ei Im(z) , ez = ez und |ez | = eRe(z) .
Beweis: Wegen z = Re(z) + i Im(z) ergibt die Funktionalgleichung §8.Satz 7 der Exponentialfunktion
ez = eRe(z)+i Im(z) = eRe(z) · ei Im(z) .
Weiter ist nach unserer Vorbemerkung und §4.Lemma 21 auch
ez
∞
∞
∞
X
1 n X 1 n X 1 n
=
z =
z = ez .
z =
n!
n!
n!
n=0
n=0
n=0
Für jedes x ∈ R folgt weiter
p
p
√
√
√
|eix | = eix · eix = eix · eix = eix · e−ix = eix−ix = 1 = 1.
Damit folgt schließlich
|ez | = |eRe(z) · ei Im(z) | = eRe(z) · |ei Im(z) | = eRe(z) .
Wir können jetzt noch etwas weitergehen und die komplexe Exponentialfunktion
vollständig auf reelle Größen zurückführen.
Lemma 9.11 (Reelle Beschreibung der Exponentialfunktion)
Für alle x, y ∈ R gilt
ex+iy = ex · (cos y + i sin y),
insbesondere ist sin2 y + cos2 y = 1.
Beweis: Sei y ∈ R. Dann haben wir
iy
e =
∞
X
(iy)n
=
+
n!
n!
n=0
∞
X
(iy)n
n=0
n gerade
∞
X
n=0
n ungerade
(iy)n
.
n!
Durchläuft n die natürlichen Zahlen so durchläuft 2n die geraden Zahlen also ist
∞
∞
∞
∞
X
(iy)n X (iy)2n X (i2 )n 2n X (−1)n 2n
=
=
y =
y = cos y,
n!
(2n)!
(2n)!
(2n)!
n=0
n=0
n=0
n=0
n gerade
165
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
wobei wir die Beschreibung des Cosinus als Potenzreihe gemäß §8.1.2 verwenden. Ebenso durchläuft 2n + 1 für n ∈ N die ungeraden natürlich Zahlen und somit ist
∞
X
n=0
n ungerade
∞
∞
∞
X
X
(iy)n X (iy)2n+1
i · (i2 )n 2n+1
(−1)n 2n+1
=
=
y
=i
y
= i sin y.
n!
(2n + 1)! n=0 (2n + 1)!
(2n + 1)!
n=0
n=0
Insgesamt erhalten wir
eiy = cos y + i sin y.
Die restlichen Aussagen folgen jetzt mit Hilfe von Lemma 10. Zunächst ist
sin2 y + cos2 y = | cos y + i sin y|2 = |eiy |2 = 1
und weiter
ex+iy = ex · eiy = ex · (cos x + i sin y).
Die Gleichung sin2 y + cos2 y = 1 kennen Sie natürlich bereits, bilden wir Sinus durch
Cosinus durch Seitenverhältnisse in einem rechtwinkligen so ist dies gerade der Satz
des Pythagoras. Der Wert der hier bewiesenen Aussage liegt darin das hier die trigonometrischen Funktionen in ihrer Form als Potenzreihen gemäß §8.1.2 verwendet
werden. Streng genommen wissen wir von diesen nicht, dass sie die normalen“ trigo”
nometrischen Funktionen sind. Dass es sich tatsächlich um diese handelt werden wir
nicht mehr vollständig begründen, aber wir werden zumindest einige Indizien hierfür
sammeln. Der Definition von Sinus uns Cosinus als Potenzreihe sieht man nicht an,
dass es sich hier um periodische Funktionen handelt. Auch dies werden wir nicht mehr
zeigen, aber als einen ersten Schritt hierzu überlegen wie π ins Spiel kommt. Bei einem
strengen methodischen Aufbau der Theorie tut man zunächst so, als wäre π noch gar
nicht bekannt und müsste erst erfunden werden. Die geometrische Definition, etwa als
Fläche des Einheitskreises, ist nicht besonders geeignet da man dann erst einmal exakt
sagen müsste was Fläche“ eigentlich ist. Man behilft sich mit dem folgenden Trick.
”
Lemma 9.12: Die Cosinusfunktion hat eine kleinste positive Nullstelle, die wir als π/2
definieren. Diese liegt zwischen 0 und 2.
Auf einen Beweis wollen wir hier verzichten. Diese Methode π als das Doppelte der
kleinsten positiven Nullstelle des Cosinus zu definieren wirkt zugegebenermaßen recht
gekünstelt und wenig natürlich. Technisch ist es aber ein relativ bequemer Weg, den
Sie daher in vielen Einführungen in die Mathematik finden. Um jetzt zu zeigen, dass
Sinus und Cosinus beide die Periode 2π haben, kann man mit Lemma 11 aus der Funktionalgleichung der Exponentialfunktion die Additionstheorem für Sinus und Cosinus
herleiten. Durch geschicktes Einsetzen spezieller Werte in diese Additonstheorem ergibt
sich dann die Periodizität. Wie gesagt wollen wir dies nicht vollständig durchführen,
und geben im nächsten Lemma nur einige erste Folgerungen an.
166
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
Lemma 9.13: Es gelten
π
ei 2 = i, eiπ = −1 und e2πi = 1.
Beweis: Mit cos(π/2) = 0 ergibt sich über Lemma 11 auch
1 = sin2
π
π
π
+ cos2 = sin2 ,
2
2
2
also sin(π/2) = 1. Eigentlich gibt es auch noch die Möglichkeit sin(π/2) = −1, durch
Rechnen mit der Reihe
∞
π X (−1)n π 2n+1
sin =
2
(2n + 1)! 2
n=0
kann man unter Ausnutzung von 0 ≤ π/2 ≤ 2 aber sin(π/2) > 0 zeigen. Dies wäre eine
Übungsaufgabe falls das Semester etwas mehr Termine hätte. Einsetzen in Lemma 11
ergibt
π
π
π
ei 2 = cos + i sin = i.
2
2
Mit der Funktionalgleichung der Exponentialfunktion folgen jetzt weiter
π
π 2
π
eiπ = ei 2 +i 2 = ei 2 = i2 = −1
und
e2πi = eiπ+iπ = (eiπ )2 = (−1)2 = 1.
Hieraus folgt weiter das für jedes z ∈ C die Gleichung
ez+2πi = ez e2πi = ez
gilt, die komplexe Exponentialfunktion ist also periodisch mit der Periode 2πi.
9.5
Die Logarithmusfunktion
Wir haben bereits die Potenzen ex von e für alle reellen Zahlen x ∈ R mit Hilfe der
Exponentialfunktion als ex = exp(x) beschrieben. Dieses Ergebnis wollen wir jetzt
auf allgemeine reelle Potenzen ax mit a, x ∈ R, a > 0 ausdehnen. Als ein Hilfsmittel
hierzu benötigen wir den reellen Logarithmus, dies ist die Umkehrfunktion der reellen
Exponentialfunktion. Zunächst machen wir uns klar das die Exponentialfunktion auf
R streng monoton steigend ist. Für x ∈ R mit x > 0 gilt
ex =
∞
X
xn
n=0
n!
167
>1>0
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
da xn > 0 für alle n ∈ N ist. Ebenso ist e0 = 1 > 0. Außerdem ist auch
1 = e0 = ex−x = ex · e−x =⇒ e−x =
1
> 0.
ex
Damit haben wir ex > 0 für überhaupt alle x ∈ R. Jetzt ergibt sich auch leicht das die
Exponentialfunktion streng monoton steigend ist. Seien nämlich x, y ∈ R mit x < y
gegeben. Dann ist y − x > 0 und wir haben bereits ey−x > 1 eingesehen. Mit der
Funktionalgleichung folgt
ey = ey−x+x = ey−x ex > 1 · ex = ex .
Wir müssen uns noch überlegen was das Bild exp(R) ist. Für jedes m ∈ N∗ haben wir
m
e =1+m+
∞
X
mn
n=2
n!
> 1 + m, also lim em = +∞.
m→∞
Dies ergibt weiter auch
1
= 0.
m→∞
m→∞ em
Da die Exponentialfunktion nach Satz 9 stetig ist, folgt mit dem Lemma über Umkehrfunktionen Lemma 7 das exp : R → R>0 bijektiv ist, und eine stetige, streng monoton
steigende Umkehrfunktion
ln : R>0 → R
lim e−m = lim
besitzt. Diese Umkehrfunktion ist der sogenannte natürliche Logarithmus. Auch der
natürlich Logarithmus erfüllt eine Funktionalgleichung die aus der Funktionalgleichung
der Exponentialfunktion folgt. Sind x, y ∈ R>0 , so haben wir
exp(ln x + ln y) = exp(ln x) · exp(ln y) = x · y,
also
ln(xy) = ln x + ln y.
9.6
Exponential und Logarithmusfunktionen zur allgemeinen
Basis
Wie schon angekündigt wollen wir jetzt ax für a, x ∈ R mit a > 0 definieren.
Definition 9.14: Für a, x ∈ R mit a > 0 definiere die Potenz
ax := exp(x · ln(a)).
Um zu sehen, dass dies für x = q ∈ Q mit den gewöhnlichen Potenzen übereinstimmt,
halten wir erst einmal die Gleichung
(ax+y )y = ax ay
168
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
für alle a, x, y ∈ R mit a > 0 fest. Diese läßt sich leicht nachrechnen
ax+y = e(x+y) ln(a) = ex ln(a)+y ln(a) = ex ln(a) ey ln(a) = ax ay .
Außerdem ist a1 = eln a = a. Jetzt folgt genau wie in den Überlegungen zu ex das aq für
q ∈ Q die gewöhnliche Potenz von a zum Exponenten q. Um dies einzusehen brauchten
wir ja nur die Funktionalgleichung für ex und diese haben wir jetzt auch für ax eingesehen. Mit den Erhaltungseigenschaften der Stetigkeit aus Lemma 4 folgt auch die
Stetigkeit der Funktion f (x) = ax und dies ergibt wie im Fall der Exponentialfunktion
ax = lim aqn
n→∞
für jede gegen x konvergente Folge (qn )n∈N rationaler Zahlen. Damit sind allgemeine
reelle Potenzen etabliert.
Es gibt auch Logarithmen zu beliebiger Basis 0 < a 6= 1. Für x, y ∈ R mit y > 0
haben wir nämlich
ax = y ⇐⇒ ex ln(a) = y ⇐⇒ ln(y) = x ln(a) ⇐⇒ x =
ln(y)
.
ln(a)
Damit ist auch die Funktion f (x) = ax bijektiv mit der Umkehrfunktion
loga (y) =
ln(y)
.
ln(a)
$Id: diffb.tex,v 1.11 2012/07/04 10:46:15 hk Exp $
§10
Differenzierbarkeit
Vorlesung 21, Donnerstag 28.6.2012
Schon zu Beginn von §6 hatten wir die heuristische Bedeutung der Ableitung einer
Funktion als Änderungsrate besprochen. Hierunter verstanden wir den Grenzwert der
relativen Zuwächse über kleiner werdende Zeitabschnitte. Diese relativen Zuwächse
werden in diesem Zusammenhang auch als Differenzenquotienten bezeichnet. Wie im
vorigen Kapitel bezeichne K entweder die reellen Zahlen K = R oder die komplexen
Zahlen K = C. Die Definition werden wir noch allgemein für reelle und komplexe
169
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Funktionen formulieren, die weitergehenden Aussagen werden dann hauptsächlich im
reellen Fall behandelt.
Definition 10.1: Seien D ⊆ K, f : D → K eine Funktion und x ∈ D mit x ∈ D\{x}.
Ist dann h ∈ K mit x + h ∈ D, so nennt man
Dh f (x) :=
f (x + h) − f (x)
h
den Differenzenquotienten von f im Punkt x zur Schrittweite h.
Im reellen Fall K = R ist der Differenzenquotient gerade die Steigung der Verbindungsstrecke vom Punkt (x, f (x)) zum Punkt (x + h, f (x + h)). In der Regel ist der
Definitionsbereich D im reellen Fall ein Intervall und im komplexen Fall eine offene
Teilmenge von C. Damit können wir jetzt die Ableitung einer Funktion f definieren.
Definition 10.2: Seien D ⊆ K und x ∈ D mit x ∈ D\{x}. Dann heißt eine Funktion
f : D → K differenzierbar in x wenn der Grenzwert der Differenzenquotienten
f (x + h) − f (x)
h→0
h
f 0 (x) := lim Dh f (x) = lim
h→0
existiert. Dieser wird dann die Ableitung von f im Punkt x genannt.
Schreiben wir y = x + h so ist h → 0 gleichwertig zu y → x also ist auch
f (y) − f (x)
.
y→x
y−x
f 0 (x) = lim
Differenzierbarkeit in einem Punkt x ist eine stärkere Forderung als Stetigkeit im Punkt
x. Ist f : D → K nämlich in x ∈ D differenzierbar, so haben wir nach §9.Lemma 4.(b)
auch
f (y) − f (x)
f (y) − f (x)
lim f (y) − f (x) = lim (y − x) ·
= lim (y − x) · lim
y→x
y→x
y→x
y→x
y−x
y−x
= 0 · f 0 (x) = 0,
und damit ist auch
lim f (y) = lim (f (y) − f (x)) + f (x) = f (x).
y→x
y→x
Wir wollen zwei kleine Beispiele von Ableitungen rechnen. Zunächst betrachten wir die
Funktion f (x) = xn für n ∈ N. Wir müssen die Differenzenquotienten der Funktion f
ausrechnen. Mit der binomischen Formel erhalten wir
n n X
X
n n−k k
n n−k k
n
n
n−1
f (x + h) = (x + h) =
x h = x + nx h +
x h ,
k
k
k=2
k=0
170
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
also werden
n X
n
f (x + h) − f (x) =
k=1
und somit
Dh f (x) =
n X
n
k=1
k
k
xn−k hk
xn−k hk−1 .
Mit den Rechenregeln für Funktionsgrenzwerte §9.Lemma 4.(a,b) haben wir
n k−1 n
X
n n−k 0
f (x) = lim Dh f (x) =
x
lim h
=
xn−1 = nxn−1 ,
h→0
h→0
k
1
k=1
also ist f in jedem Punkt x ∈ R differenzierbar mit
(xn )0 = f 0 (x) = nxn−1 .
Behandeln wir als ein weiteres Beispiel einmal die Funktion f (x) = 1/x. Sei 0 6= x ∈ R.
Für h ∈ R, streng genommen mit x + h 6= 0 gilt
1
x − (x + h)
h
1
− =
=−
,
x+h x
x(x + h)
x(x + h)
also
lim
h→0
1
x+h
−
h
1
x
= lim −
h→0
1
1
=− 2
x(x + h)
x
nach den Rechenregeln §9.Lemma 4.(b,c) für Funktionsgrenzwerte. Damit haben wir
f 0 (x) = −
1
.
x2
Eine weitere Umformulierung der Ableitungsdefinition ist häufig nützlich:
Lemma 10.3 (Approximationsinterpretation der Ableitung)
Seien I ⊆ R ein Intervall, x0 ∈ I und f : I → R eine Funktion. Dann ist die Funktion f
genau dann differenzierbar in x0 wenn es eine Funktion φ : I → R und eine Konstante
c ∈ R mit den folgenden Eigenschaften gibt:
(a) Es ist f (x) = f (x0 ) + c(x − x0 ) + φ(x) für alle x ∈ I.
(b) Es gilt
φ(x0 + h)
= 0.
h→0
h
lim
In diesem Fall ist c = f 0 (x0 ) die Ableitung von f in x0 .
Beweis: ”=⇒” Sei
φ : I → R; x 7→ f (x) − f (x0 ) − f 0 (x)(x − x0 ).
171
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Dann gilt f (x) = f (x0 ) + f 0 (x0 )(x − x0 ) + φ(x) für alle x ∈ I und nach §9.Lemma
4.(a,b) ist
φ(x0 + h)
f (x0 + h) − f (x0 ) − f 0 (x0 )h
= lim
h→0
h h→0
h
f (x0 + h) − f (x0 )
f (x0 + h) − f (x0 )
0
− f (x0 ) = lim
− f 0 (x0 ) = 0.
= lim
h→0
h→0
h
h
lim
”⇐=” Als Grenzwert der Differenzenquotienten ergibt sich erneut mit §9.Lemma 4.(a)
f (x0 + h) − f (x0 )
φ(x0 + h)
ch + φ(x0 + h)
0
= lim
= lim c +
f (x0 ) = lim
h→0
h→0
h→0
h
h
h
φ(x0 + h)
= c + lim
= c.
h→0
h
Die Funktion φ ist der Approximationsfehler. Beachte das Bedingung (a) die Funktion
φ bereits vollständig festlegt. Zum Verständnis von Bedingung (b) ist es vorteilhaft
alles etwas umzuschreiben, mit
τ (h) := ϕ(x0 + h) wird f (x0 + h) = f (x0 ) + f 0 (x0 )h + τ (h).
Die Funktion f ist also geschrieben als
f (x0 + h) = f (x0 ) + f 0 (x0 )h + τ (h)
{z
} |{z}
|
Linearer Teil
Fehler
als ein linearer Hauptterm plus ein Fehler. Die Bedingung an φ wird zu limh→0 τ (h)/h =
0, und gemäß §9.Lemma 2 bedeutet dies
τ (h) < .
∀( > 0)∃(δ > 0)∀(|h| < δ) : h Dies können wir ein klein wenig umschreiben als
∀( > 0)∃(δ > 0)∀(0 < |h| < δ) : |τ (h)| < |h|.
Der Approximationsfehler soll also schlimmstenfalls proportional mit |h| wachsen und
zwar so, dass auch die Proportionalitätskonstante beliebig klein gewählt werden kann,
solange man sich auf ausreichend kleine h, eben mit |h| < δ, beschränkt.
In der hochmultiplizierten Form |τ (h)| < |h| muss man h = 0 auch nicht mehr
als Sonderfall behandeln. Allerdings muss dann zusätzlich das echt kleiner“ durch ein
”
normales kleiner“ ersetzen. Dies ergibt die folgende modifizierte Variante der Diffe”
renzierbarkeitsbedingung
∀( > 0)∃(δ > 0)∀(|h| ≤ δ) : |τ (h)| ≤ |h|.
172
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Dass wir auch bei δ nur noch |h| ≤ δ statt |h| < δ fordern geschieht aus rein optischen
Gründen und hat keine inhaltliche Bedeutung.
Will man die Differenzierbarkeit einer Funktion f in einem Punkt x gemäß Lemma
3 beweisen, so versucht man die Funktion in der Form
f (x + h) = f (x) + ch + τ (h)
| {z } |{z}
Linearer Teil
Fehler
zu schreiben. Kann man dann limh→0 τ (h)/h = 0 einsehen, so ist c = f 0 (x) die Ableitung von f im Punkt x. Dass eine differenzierbare Funktion eine lineare Funktion
plus eine Störung ist, gibt uns eine weitere Begründung der folgenden schon früher
festgehaltenen Tatsache:
Lemma 10.4: Sind I ⊆ R ein Intervall und f : I → R eine in x ∈ I differenzierbare
Funktion. Dann ist f in x auch stetig.
Beweis: Dies haben wir bereits bewiesen.
Differenzierbarkeit ist aber eine sehr viel stärkere Bedingung als Stetigkeit. Beispielsweise ist die Betragsfunktion f : R → R; x 7→ |x| auf ganz R stetig, aber in x = 0 ist
sie nicht differenzierbar. Die Differenzenquotienten bei x = 0 sind nämlich
(
1,
h > 0,
|h|
Dh f (0) =
=
h
−1, h < 0,
und somit hat der Differenzenquotient für h → 0 keinen Grenzwert. Dies ist allerdings ein vergleichsweise harmloses Beispiel. Es gibt auch stetige Funktionen, die in
überhaupt keinen Punkt differenzierbar sind.
10.1
Differentationsregeln
In diesem Abschnitt werden wir die meisten der Differentationsregeln beweisen. Wir beginnen mit den Regeln für die Ableitung von Summen und Vielfachen. Der Einfachheit
halber kombinieren wir diese in eine einzige Regel für Ableitungen von Linearkombinationen.
Satz 10.5 (Summen und Vielfachenregel)
Seien I ⊆ R ein Intervall, f, g : I → R zwei in einem Punkt x ∈ I differenzierbare
Funktionen und α, β ∈ R zwei Konstanten. Dann ist auch die Funktion αf +βg : I → R
in x differenzierbar und es gilt
(αf + βg)0 (x) = αf 0 (x) + βg 0 (x).
173
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Für jedes 0 6= h ∈ R mit x + h ∈ I können wir den Differenzenquotienten als
Dh (αf + βg)(x) =
(αf + βg)(x + h) − (αf + βg)(x)
h
αf (x + h) − αf (x) + βg(x + h) − βg(x)
=
h
f (x + h) − f (x)
g(x + h) − g(x)
=α
+β
h
h
schreiben. Mit den Rechenregeln §9.Lemma 4a,b folgt
(αf + βg)0 (x) = lim Dh (αf + βg)(x)
h→0
g(x + h) − g(x)
f (x + h) − f (x)
+ β lim
= αf 0 (x) + βg 0 (x).
h→0
h→0
h
h
= α lim
Mit α = β = 1 ergibt der Satz die Summenregel
(f + g)0 (x) = f 0 (x) + g 0 (x),
mit α = 1, β = −1 die Regel für Differenzenregel
(f − g)0 (x) = f 0 (x) − g 0 (x)
und schließlich mit α = λ, β = 0 die Vielfachenregel
(λf )0 (x) = λf 0 (x).
Kombinieren wir diese Regeln mit der schon hergeleiteten Ableitung (xn )0 = nxn−1 , so
folgt das jedes reelle Polynom p(x) = an xn + an−1 xn−1 + · · · + a0 in jedem Punkt x ∈ R
differenzierbar ist, mit
!0
n
n
n−1
X
X
X
0
k
k−1
p (x) =
ak x
=
kak x
=
(k + 1)ak+1 xk .
k=0
k=1
k=0
Streng genommen benutzen wir dabei auch die Tatsache das konstante Funktionen
überall differenzierbar mit Ableitung Null sind. Dies haben wir bisher noch nicht festgehalten, es ist aber auch trivial da für eine konstante Funktion sogar alle Differenzenquotienten gleich Null sind.
Satz 10.6 (Produktregel)
Seien I ⊆ R ein Intervall und f, g : I → R zwei in einem Punkt x ∈ I differenzierbare
Funktionen. Dann ist auch das Produkt f · g : I → R in x differenzierbar mit
(f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x).
174
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Sei h ∈ R mit h 6= 0 und x + h ∈ I. Wir schreiben den Differenzenquotienten
als
f (x + h)g(x + h) − f (x)g(x)
h
f (x + h)g(x + h) − f (x)g(x + h) + f (x)g(x + h) − f (x)g(x)
=
h
f (x + h) − f (x)
g(x + h) − g(x)
=
· g(x + h) + f (x) ·
h
h
Dh (f g)(x) =
und erhalten
f (x + h)g(x + h) − f (x)g(x)
h→0
h
g(x + h) − g(x)
f (x + h) − f (x)
· g(x + h) + f (x) ·
= lim
h→0
h
h
f (x + h) − f (x)
g(x + h) − g(x)
· lim g(x + h) + f (x) · lim
= lim
h→0
h→0
h→0
h
h
0
0
= f (x)g(x) + f (x)g (x),
(f g)0 (x) = lim
da g ja nach Lemma 4 in x stetig ist, also limh→0 g(x + h) = limy→x g(y) = g(x) gilt.
Als ein erstes Beispiel behandeln wir die Funktion
f (x) :=
1
1 1
= · .
2
x
x x
Leiten wir diese mit der Produktregel ab, so ergibt sich
2
1 1
f 0 (x) = −2 · 2 = − 3 .
x x
x
Um auch interessantere Beispiele rechen zu können, benötigen wir die Ableitungen
einiger weiterer Grundfunktionen. Diese wollen wir hier nicht wirklich formal herleiten, sondern nur eine Begründung andeuten. Wir hatten gesehen das sich Polynome
gliedweise ableiten ließen. Fassen wir jetzt Potenzreihen
f (x) =
∞
X
an x n
n=0
als Polynome von unendlichen Grad auf, so ist es naheliegend zu glauben das auch
diese sich gliedweise ableiten lassen, also
f 0 (x) =
∞
X
nan xn−1 =
n=1
∞
X
n=0
175
(n + 1)an+1 xn .
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Dies stellt sich tatsächlich als wahr heraus, wir wollen den Beweis hier aber nicht
vorführen. Als ein Beispiel behandeln wir die Exponentialfunktion
ex =
∞
X
xn
n=0
n!
=⇒ (ex )0 =
∞
X
nxn−1
n=1
n!
=
∞
∞
X
X
xn−1
xn
=
= ex .
(n − 1)! n=0 n!
n=1
Die Exponentialfunktion ist also gleich ihrer eigenen Ableitung. Für den Sinus rechnen
wir
∞
∞
∞
X
X
(−1)n 2n+1
(−1)n (2n + 1) 2n X (−1)n 2n
0
sin x =
x
=⇒ sin x =
x =
x = cos x.
(2n
+
1)!
(2n
+
1)!
(2n)!
n=0
n=0
n=0
Für die Ableitung des Cosinus ergibt eine analoge Rechnung
cos0 x = − sin x.
Mit der Produktregel erhalten wir jetzt zum Beispiel
f (x) = x sin x =⇒ f 0 (x) = sin x + x cos x,
f (x) = xex =⇒ f 0 (x) = ex + xex = (1 + x)ex .
Wir kommen zur Kettenregel.
Satz 10.7 (Kettenregel)
Seien I, J ⊆ R zwei Intervalle, f : I → J eine in x ∈ J differenzierbare Funktion und
g : J → R eine in f (x) ∈ J differenzierbare Funktion. Dann ist die Hintereinanderausführung g ◦ f : I → R in x differenzierbar mit
(g ◦ f )0 (x) = g 0 (f (x)) · f 0 (x).
Beweis: Dies kann man übersichtlichsten über den Approximationsstandpunkt aus
Lemma 3 beweisen. Dabei verwenden wir die umformulierte Version. Da f in x differenzierbar ist können wir
f (x + h) = f (x) + f 0 (x)h + τ (h)
für alle h ∈ R mit x + h ∈ I schreiben, wobei der Fehler τ (h) die Bedingung
∀( > 0)∃(δ > 0)∀(h ∈ R) : (x + h ∈ I ∧ |h| ≤ δ) =⇒ |τ (h)| ≤ |h|
erfüllt. Da g in f (x) differenzierbar ist, können wir ebenso
g(f (x) + h) = g(f (x)) + g 0 (f (x))h + η(h)
für h ∈ R mit f (x) + h ∈ J schreiben so, dass
∀( > 0)∃(δ > 0)∀(h ∈ R) : (f (x) + h ∈ J ∧ |h| ≤ δ) =⇒ |η(h)| ≤ |h|
176
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
gilt. Für jedes h ∈ R mit x + h ∈ I erhalten wir
g(f (x + h)) = g(f (x) + f 0 (x)h + τ (h))
= g(f (x)) + g 0 (f (x)) · (f 0 (x)h + τ (h)) + η(f 0 (x)h + τ (h))
= g(f (x)) + g 0 (f (x))f 0 (x)h + θ(h)
mit
θ(h) := g 0 (f (x)) · τ (h) + η(f 0 (x)h + τ (h)).
Wir haben also g(f (x + h)) als Summe des linearen Teils g(f (x)) + g 0 (f (x))f 0 (x)h
mit dem Fehlerterm θ(h) geschrieben. Wir müssen zeigen, dass der Fehler θ(h) mit
beliebig kleiner Proportionalitätskonstante proportional zu |h| klein wird. Sei also > 0
gegeben. Dann existiert ein δ1 > 0 mit
|η(h)| ≤
· |h|
0
2(|f (x)| + 1)
für alle h ∈ R mit f (x) + h ∈ J und |h| ≤ δ1 . Setzen wir weiter
0
> 0,
:= min 1,
2(|g 0 (f (x))| + 1)
so gibt es auch ein δ2 > 0 mit
|τ (h)| ≤ 0 |h|
für alle h ∈ R mit x + h ∈ I und |h| ≤ δ2 . Schließlich erhalten wir
δ1
δ := min δ2 , 0
> 0.
|f (x)| + 1
Sei jetzt h ∈ R mit x + h ∈ I und |h| ≤ δ gegeben. Dann ist
|g 0 (f (x)) · τ (h)| = |g 0 (f (x))| · |τ (h)| ≤ |g 0 (f (x))|0 |h| ≤
|g 0 (f (x))|
· |h| ≤ · |h|.
0
2(|g (f (x))| + 1)
2
Weiter haben wir
|f 0 (x)h + τ (h)| ≤ |f 0 (x)| · |h| + |τ (h)| ≤ (|f 0 (x)| + 0 )|h| ≤ (|f 0 (x)| + 1)|h|
δ1
= δ1 ,
≤ (|f 0 (x)| + 1)δ ≤ (|f 0 (x)| + 1) · 0
|f (x)| + 1
und somit ist auch
|η(f 0 (x)h+τ (h))| ≤
0
0
·|f
(x)h+τ
(h)|
≤
·(|f
(x)|+1)|h|
=
·|h|.
2(|f 0 (x)| + 1
2(|f 0 (x)| + 1
2
Insgesamt ist damit
|θ(h)| = |g 0 (f (x))τ (h) + η(f 0 (x)h + τ (h))| ≤ |g 0 (f (x))τ (h)| + |η(f 0 (x)h + τ (h))|
≤ |h| + |h| = |h|.
2
2
177
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Damit haben wir die benötigte Zerlegung in linearen Anteil und Fehlerterm, und mit
der umformulierten Version Lemma 3 folgt das g ◦ f in x differenzierbar ist mit
(g ◦ f )0 (x) = g 0 (f (x))f 0 (x).
Wir haben bereits die Ableitungen der Funktionen xn für jedes n ∈ N und der Funktion
1/x berechnet. Mit Hilfe der Kettenregel können wir aus diesen bekannten Ableitungen
jetzt auch die Ableitung der Funktion
f : R\{0} → R; x 7→
1
xn
berechnen, wobei n ∈ N∗ fest gegeben ist. Wir können die Funktion f nämlich als eine
Hintereinanderausführung schreiben. Betrachten wir die Funktionen
g : R → R; x 7→ xn und h : R\{0} → R; x 7→
1
,
x
so ist f = h ◦ g. Da wir die Ableitungen von g und h schon kennen, können wir mit
der Kettenregel auch die Ableitung von f ausrechnen. Es ergibt sich
f 0 (x) = h0 (g(x)) · g 0 (x) = −
1
nxn−1
1
0
·
g
=
−n
(x)
=
−
g(x)2
x2n
xn+1
für jedes x ∈ R\{0}. Denselben Trick kann man jetzt allgemein verwenden um die
Quotientenregel herzuleiten.
Satz 10.8 (Quotientenregel)
Seien I ⊆ R ein Intervall und f, g : I → R zwei Funktionen mit g(x) 6= 0 für alle
x ∈ I. Weiter seien f und g in einem Punkt x ∈ I differenzierbar. Dann ist auch f /g
in x differenzierbar mit
0
f
f 0 (x)g(x) − f (x)g 0 (x)
(x) =
.
g
g(x)2
Beweis: Wir betrachten die Hilfsfunktion
1
h : R\{0} → R; y 7→ ,
y
und wissen bereits das h in jedem Punkt y ∈ R\{0} differenzierbar ist mit h0 (y) =
−1/y 2 . Nach der Kettenregel Satz 7 ist die Funktion
1
=h◦g :I →R
g
178
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
damit in x differenzierbar mit
0
g 0 (x)
1
(x) = h0 (g(x)) · g 0 (x) = −
.
g
g(x)2
Mit der Produktregel Satz 6 folgt weiter, dass auch
1
f
=f·
g
g
in x differenzierbar ist mit der Ableitung
0
0
0
f
1
1
1
f 0 (x) f (x)g 0 (x)
0
(x) = f ·
(x) = f (x) ·
+ f (x) ·
(x) =
−
g
g
g(x)
g
g(x)
g(x)2
0
f g(x) − f (x)g 0 (x)
.
=
g(x)2
Insbesondere ist die Quotientenregel eigentlich keine eigenständige Regel, sondern eine
Kombination von Kettenregel und Produktregel. Als ein Beispiel zur Quotientenregel
wollen wir die Ableitung des Tangens
tan x =
sin x
cos x
berechnen. Wir haben
tan0 x =
cos2 x + sin2 x
1
sin2 x
=
=
1
+
= 1 + tan2 x.
cos2 x
cos2 x
cos2 x
In der letzten Sitzung hatten wir bereits die meisten der Rechenregeln für Ableitungen
behandelt, nämlich die Summen, Vielfachen, Produkt, Ketten und Quotientenregel.
Wir kommen jetzt zu einer letzten Regel, die zur Berechnung der Ableitungen von
Umkehrfunktionen dient.
Satz 10.9 (Umkehrregel)
Seien I, J ⊆ R zwei Intervalle und sei f : I → J eine bijektive stetige Funktion, die
im Punkt x ∈ I differenzierbar ist mit f 0 (x) 6= 0. Dann ist auch die Umkehrfunktion
f −1 : J → I im Punkt y := f (x) ∈ J differenzierbar mit
(f −1 )0 (y) =
1
f 0 (x)
=
1
f 0 (f −1 (y))
.
Beweis: Wir müssen zeigen, dass der Grenzwert
f −1 (u) − f −1 (y)
u→y
u−y
(f −1 )0 (y) = lim
179
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
existiert und gleich dem angegebenen Wert ist. Hierzu ist es am bequemsten direkt auf
die Definition dieses Funktionsgrenzwerts durch Folgen zurückzugehen. Sei also (yn )n∈N
eine gegen y konvergente Folge in J\{y}. Nach §9.Lemma 7 ist die Umkehrfunktion
f −1 : J → I stetig, und damit ist (f −1 (yn ))n∈N eine gegen f −1 (y) = x konvergente
Folge in I\{x}. Mit den Rechenregeln für Folgengrenzwerte §6.Lemma 14.(d) folgt
−1
f −1 (yn ) − x
f (f −1 (yn )) − f (x)
f −1 (yn ) − f −1 (y)
lim
= lim
= lim
n→∞
n→∞ f (f −1 (yn )) − f (x)
n→∞
yn − y
f −1 (yn ) − x
−1
−1
f (f −1 (yn )) − f (x)
f (u) − f (x)
1
= lim
= lim
= 0 .
−1
n→∞
u→x
f (yn ) − x
u−x
f (x)
Dies ergibt
f −1 (u) − f −1 (y)
1
= 0 .
u→y
u−y
f (x)
(f −1 )0 (y) = lim
Die Voraussetzung f 0 (x) 6= 0 ist tatsächlich nötig. Beispielsweise ist die Funktion
f : R → R; x 7→ x3
√
stetig, bijektiv und überall differenzierbar, aber die Umkehrfunktion f −1 (x) = 3 x ist
in x = 0 nicht differenzierbar. Der Satz ist wegen f 0 (0) = 0 hier auch nicht anwendbar.
Mit der Umkehrregel können wir schon die Ableitungen einiger wichtiger Funktionen
ausrechnen. Wir beginnen einmal mit dem Arcussinus arcsin : [−1, 1] → [−π/2, π/2].
Dies ist definitionsgemäß die Umkehrfunktion des Sinus
h π πi
sin : − ,
→ [−1, 1]
2 2
auf dem Intervall [−π/2, π/2]. Die Ableitung des Sinus ist der Cosinus und für −π/2 <
x < π/2 ist cos x > 0. Die Umkehrregel ergibt, dass der Arcussinus in jedem Punkt
x ∈ R mit |x| < 1 differenzierbar ist mit der Ableitung
arcsin0 x =
1
.
cos(arcsin x)
Dies können wir noch etwas weiter auswerten. Für −1 < x < 1 haben wir
1 = sin2 (arcsin x) + cos2 (arcsin x) = x2 + cos2 (arcsin x) =⇒ cos2 (arcsin x) = 1 − x2 ,
und
√ da wegen | arcsin x| < π/2 auch cos(arcsin x) > 0 ist, folgt sogar cos(arcsin x) =
1 − x2 , also insgesamt
arcsin0 x =
1
1
=√
.
cos(arcsin x)
1 − x2
180
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Etwas einfacher ist die Ableitung des Arcustangens arctan : R → (−π/2, π/2), dies ist
die Umkehrfunktion von
π π
tan : − ,
→ R.
2 2
Erinnern wir uns an die Formel tan0 x = 1 + tan2 x ≥ 1 > 0, so folgt das der Arcustangens auf ganz R differenzierbar ist mit der Ableitung
arctan0 x =
1
1
=
1 + tan (arctan x)
1 + x2
2
für jedes x ∈ R. Als nächstes Beispiel wollen wir einmal die Ableitung des Logarithmus
berechnen. Diesen hatten wir §9.5 als die Umkehrfunktion der Exponentialfunktion
ex = exp(x) eingeführt. Wegen exp0 (x) = exp(x) > 0 ist der Logarithmus damit in
jedem Punkt x ∈ R>0 differenzierbar mit der Ableitung
ln0 x =
1
1
= .
exp(ln x)
x
Mit der Kettenregel folgen hieraus einige weitere wichtige Formeln. Bisher haben wir
nur die Ableitungen der Potenzfunktionen f (x) = xn mit ganzzahligen Exponenten
n ∈ Z behandelt. Jetzt sind wir in der Lage auch die Ableitung der allgemeinen Potenzfunktion
f : R>0 → R; x 7→ xa
für einen beliebigen Exponenten a ∈ R zu berechnen. In §9.6 hatten wir diese als
f (x) = xa = ea·ln(x)
definiert. Mit der Kettenregel Satz 7, der Vielfachenregel und den schon bekannten
Ableitungen von Exponentialfunktion und Logarithmus ergibt sich für jedes x > 0 die
Formel
a
a
f 0 (x) = ea·ln(x) · = xa · = axa−1 .
x
x
Ganz anders sieht die Lage aus, wenn wir Potenzen als Funktion des Exponenten
betrachten, also die Funktion
f : R → R; x 7→ ax
für eine Konstante a > 0. Dann ist
f (x) = ax = ex·ln(a)
für alle x ∈ R und diesmal ergibt sich mit der Kettenregel
f 0 (x) = ex·ln(a) · ln(a) = ln(a) · ax .
181
Mathematik für Informatiker B, SS 2012
10.2
Donnerstag 28.6.2012
Lokale Extrema und der Mittelwertsatz der Differentialrechnung
Nachdem wir die Ableitungsregeln weitgehend begründet haben, wollen wir nun die
Grundlagen der Kurvendiskussion untersuchen. Wir konzentrieren uns dabei auf einen
Teilabschnitt dieses Problemkreises, nämlich auf die Berechnung von Maximum und
Minimum einer Funktion f : [a, b] → R, die üblicherweise als differenzierbar vorausgesetzt ist. Gesucht sind dann der maximale und minimale Wert f (x) für x ∈ [a, b] und
Punkte x in denen diese Werte von f angenommen werden. Das Problem der Berechnung des Maximums ist es dann ein x∗ ∈ [a, b] mit f (x∗ ) ≥ f (x) für alle x ∈ [a, b]
zu finden, und entsprechend für das Minimum. Man nennt x∗ dann auch ein globales Maximum beziehungsweise ein globales Minimum. Dass es diese globalen Maxima
und Minima überhaupt gibt ist dabei eine Folge von §9.Satz 6, eine differenzierbare
Funktion ist nach Lemma 4 ja insbesondere stetig.
Wie sie wissen besteht der Rechenweg solche Maxima und Minima zu finden, im
Bestimmen der Nullstellen der Ableitung von f , und wir wollen jetzt einsehen ob
und warum das zum Erfolg führt. Entscheidend hierfür ist der Begriff eines lokalen
Extremums der Funktion f .
Definition 10.10: Sei D ⊆ R und sei f : D → R eine Funktion. Man nennt einen Punkt
x0 ∈ D ein lokales Maximum von f wenn es eine Umgebung U von x0 mit U ⊆ D und
f (x0 ) ≥ f (x) für alle x ∈ U gibt. Entsprechend heißt x0 ein lokales Minimum von f
wenn es eine Umgebung U von x0 mit U ⊆ D und f (x0 ) ≤ f (x) für alle x ∈ U gibt.
Schließlich heißt x0 ein lokales Extremum von f wenn x0 ein lokales Maximum oder
ein lokales Minimum von f ist.
Beachte das ein lokales Extremum x0 definitionsgemäß immer ein innerer Punkt des
Definitionsbereichs D von f ist. Dieser Punkt wird nicht ganz einheitlich gehandhabt,
es gibt alternative Definitionen des Begriffs eines lokalen Extremum bei denenn x0
kein innerer Punkt sein muss. Für uns ist aber die hier gegebene Formulierung am
bequemsten.
Angenommen x0 ist ein globales Extremum von f , also ein globales Maximum oder
ein globales Minimum von f . Dann gelten f (x0 ) ≥ f (x) beziehungsweise f (x0 ) ≤ f (x)
für überhaupt alle x ∈ D. Ist x0 ∈ D◦ also ein innerer Punkt von D, so gibt es eine
Umgebung U von x0 mit U ⊆ D und diese erfüllt dann die obige Eigenschaft, d.h. x0
ist auch ein lokales Extremum von f .
Der hier wichtigste Speziallfall ist D = [a, b], d.h. wir haben eine Funktion f :
[a, b] → R. Das Innere von D ist dann gerade das offene Intervall D◦ = (a, b). Ist also
x0 ∈ [a, b] ein globales Extremum von f , so ist entweder x0 = a oder x0 = b oder
a < x0 < b und x0 ist ein lokales Extremum von f . Die Nullstellen der Ableitung
hängen jetzt mit den lokalen Extrema der Funktion f zusammen.
Satz 10.11 (Notwendige Bedingung für lokale Extrema)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine Funktion. Weiter sei x0 ∈ (a, b)
ein lokales Extremum von f und f sei in x0 differenzierbar. Dann ist f 0 (x0 ) = 0.
182
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Es gibt zwei verschiedene Fälle, entweder hat f in x0 ein lokales Maximum
oder ein lokales Minimum. Diese beiden Fälle sind völlig analog, und wir behandeln
hier den Fall, dass f in x0 ein lokales Maximum hat. Dann gibt es ein > 0 mit
(x0 − , x0 + ) ⊆ [a, b] und f (x0 ) ≥ f (x) für alle x ∈ R mit |x − x0 | < . Wir betrachten
jetzt die beiden Folgen definiert durch
x+
n := x0 +
und x−
n := x0 −
n+1
n+1
für alle n ∈ N∗ . Für jedes n ∈ N∗ haben wir dann
+
+
−
x0 − < x −
n < x0 < xn < x0 + und |xn − x0 | = |xn − x0 | =
,
n+1
−
+
−
also insbesondere x+
n , xn ∈ U , f (x0 ) ≥ f (xn ), f (xn ) und
+
lim x−
n = lim xn = x0 .
n→∞
n→∞
Für die Differenzenquotienten folgt
f (x−
f (x+
n ) − f (x0 )
n ) − f (x0 )
≤
0
und
≥0
+
xn − x0
x−
n − x0
und mit §6.Lemma 11 folgt
f 0 (x0 ) = lim
f (x) − f (x0 )
f (x+
n ) − f (x0 )
= lim
≤0
n→∞
x − x0
x+
n − x0
f 0 (x0 ) = lim
f (x−
f (x) − f (x0 )
n ) − f (x0 )
≥ 0.
= lim
n→∞
x − x0
x−
n − x0
x→x0
und
x→x0
Insgesamt ist damit f 0 (x0 ) = 0.
Die Bedingung des Satzes ist nur notwendig nicht aber hinreichend für ein lokales
Extremum. Beispielsweise ist für f (x) = x3 auch f 0 (x) = 3x2 also f 0 (0) = 0 aber f hat
in x0 = 0 kein lokales Extremum. Mit dem Satz können wir jetzt ein Verfahren zur Berechnung des Maximums beziehungsweise Minimums einer differenzierbaren Funktion
angeben.
Gegeben sei eine stetige Funktion f : [a, b] → R, die für jeden Punkt x ∈ (a, b) differenzierbar ist. Nehme an das die Ableitung f 0 nur endlich viele Nullstellen x1 , . . . , xn
in (a, b) hat. Das muss nicht so sein, ist aber oft der Fall. Dann ist das Element
x∗ ∈ {a, b, x1 , . . . , xn } mit f (x∗ ) = max{f (a), f (b), f (x1 ), . . . , f (xn )}
ein globales Maximum von f . Denn nach §9.Satz 6 gibt es überhaupt ein globales
Maximum x∗ ∈ [a, b] von f . Dann ist entweder x∗ ∈ {a, b} einer der beiden Randpunkte
oder x∗ ∈ (a, b) ist ein innerer Punkt. Ist x∗ ∈ (a, b), so ist x∗ auch ein lokales Maximum
183
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
von f und nach Satz 11 ist f 0 (x∗ ) = 0. Damit ist x∗ eine der Nullstellen von f 0 , d.h.
x∗ = xi für ein 1 ≤ i ≤ n. In beiden Fällen ist damit
max f (x) = f (x∗ ) ∈ {f (a), f (b), f (x1 ), . . . , f (xn )}
x∈[a,b]
und damit ist der maximale Wert von f einer der Werte auf der rechten Seite. Da
diese allesamt Werte von f sind, ist der Maximalwert f (x∗ ) das größte Element der
Menge {f (a), f (b), f (x1 ), . . . , f (xn )}. Damit ist die Berechnung des Maximums geklärt
und das Minimum kann man analog durch Suchen des kleinsten Wertes unter den
f (a), f (b), f (x1 ), . . . , f (xn ) finden.
Beachte das es für diese Rechnung nicht nötig ist zu wissen ob eine Nullstelle xi von
0
f ein lokales Maximum, ein lokales Minimum oder überhaupt ein lokales Extremum
ist, das spielt überhaupt keine Rolle. Eventuell überprüft man einige überflüssige Werte
die gar keine lokalen Extrema sind, aber das ist allemal schneller als sich zu überlegen
ob ein lokales Extremum vorliegt oder nicht. Dass wir uns auf den Fall endlich vieler
Nullstellen beschränken ist nur Bequemlichkeit. Offenbar läßt sich die Überlegung auch
auf kompliziertere Situationen ausdehnen.
Wir wollen jetzt ein Beispiel rechnen, die Funktion
f : [0, 2] → R; x 7→ x3 − 4x2 + 4x − 5.
Wir suchen den maximalen und den minimalen Wert von f . Folgen wir dem obigen
Verfahren, so berechnen wir zunächst die Ableitung von f
f 0 (x) = 3x2 − 8x + 4,
und bestimmen ihre Nullstellen
8
4 !
4
x − x + = 0 =⇒ x = ±
3
3
3
r
2
16 4
4
− = ±
9
3
3
r
4
4 2
= ± ,
9
3 3
also
2
und x2 = 2.
3
Die relevanten Funktionswerte sind also
135
2
103
f (0) = −5, f (2) = −5 und f
=−
>−
= −5.
3
27
27
x1 =
Also hat f ein globales Maximum in x∗ = 2/3 mit Wert max = −103/27 und globalen
Minimum in x∗ = 0 (und x∗ = 2) mit Wert min = −5.
Bisher haben wir uns auf Funktionen beschränkt die auf Intervallen der Form [a, b]
definiert sind. In diesem Fall garantiert uns §9.Satz 6 die Existenz von globalen Maximum und Minimum. Man kann natürlich auch andere Intervalle behandeln, benötigt
dann aber zusätzliche Argumente. Als ein solches Beispiel wollen wir jetzt das Minimum
der Funktion
f : R → R; x 7→ 2x − x
184
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
berechnen, und insbesondere einsehen das es ein solches überhaupt gibt. Auf die Behandlung dieses Beispiels hatten wir in der Vorlesung aus Zeitgründen verzichtet, hier
soll es aber mit aufgeführt werden. Wir schauen uns als ersten Schritt das Verhalten
von f (x) für x gegen ±∞ an. Zunächst ist
lim 2x = 0 =⇒ lim (2x − x) = ∞.
x→−∞
x→−∞
Etwas komplizierter ist der Grenzwert gegen +∞, da hier sowohl 2x als auch x gegen
+∞ gehen. Da aber eine Potenzfunktion schneller als eine lineare Funktion wächst, ist
auch
lim (2x − x) = ∞.
x→∞
Da es in diesem Beispiel nicht um dieses Detail geht, wollen wir jetzt kein genaueres
Argument für diesen Grenzwert angeben. Es ist f (0) = 1 und wegen limx→±∞ f (x) = ∞
existiert ein a > 0 mit f (x) ≥ 2 für alle x ∈ R mit |x| > a. Damit folgt
inf f (x) =
x∈R
inf
f (x),
x∈[−a,a]
und auf das Intervall [−a, a] ist §9.Satz 6 anwendbar. Damit ist die Funktion f nach
unten beschränkt und hat ein globales Minimum x0 ∈ [−a, a]. Dieses ist auch ein lokales
Minimum, also f 0 (x0 ) = 0 nach Satz 11. Für jedes x ∈ R gilt jetzt
f 0 (x) = ln(2) · 2x − 1,
also
1
f (x) = 0 =⇒ 2 =
=⇒ x = ln2
ln 2
0
x
1
ln 2
=
ln
1
ln 2
ln 2
=−
ln(ln 2)
,
ln 2
und somit hat f sein globales Minimum in x0 = − ln(ln 2)/ ln(2). Der Funktionswert
in diesem Punkt ist
f (x0 ) = 2x0 − x0 =
1
ln(ln 2)
1 + ln(ln 2)
+
=
.
ln 2
ln 2
ln 2
Insgesamt haben wir damit
min(2x − x) =
x∈R
1 + ln(ln 2)
.
ln 2
Wir wollen jetzt die Theorie etwas fortsetzen und
steuern als nächstes Ergebis den sogenannten Mittelwertsatz an. Bei diesen betrachten wir eine difa
ξ
b
ferenzierbare Funktion f : [a, b] → R und schauen uns die Steigung des Geradenstücks an, das die
beiden Punkte (a, f (a)) und (b, f (b)) miteinander
verbindet. Diese Strecke ist sozusagen eine Sekante an den Graphen der Funktion f .
Der Mittelwertsatz besagt das es zwischen a und b immer einen Punkt ξ gibt so, dass
185
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
die Steigung der Tangente an den Graphen im Punkt (ξ, f (ξ)) gleich der Sekantensteigung zwischen a und b ist, oder geometrisch formuliert das es zwischen a und b eine zur
gegebenen Sekante parallele Tangente an den Graphen gibt. Die Steigung der Tangente
bei x = ξ ist dabei die Ableitung f 0 (ξ).
Der Mittelwertsatz spielt eine recht kuriose Rolle. Für rechnerische Zwecke und
die meisten Anwendungen der Differentialrechnung außerhalb der Mathematik spielt
der Mittelwertsatz keinerlei Rolle. Für den Aufbau der Theorie ist der Mittelwertsatz
dagegen das Herzstück von allen. Alle weiteren Ergebnisse bauen direkt oder indirekt
auf ihm auf, der Mittelwertsatz ist der Dreh- und Angelpunkt aller weiteren Beweise. Um den Mittelwertsatz zu beweisen, behandelt man zuvor einen Spezialfall den
sogenannten Satz von Rolle.
Satz 10.12 (Satz von Rolle)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion mit f (a) = f (b)
die in jedem Punkt x ∈ (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit
f 0 (ξ) = 0.
Beweis: Ist f konstant so ist f 0 (ξ) = 0 für jedes ξ ∈ (a, b) und die Behauptung ist
klar. Wir können also annehmen, dass f nicht konstant ist. Insbesondere kann nicht
gleichzeitig f (a) ≥ f (x) für alle x ∈ [a, b] und f (a) ≤ f (x) für alle x ∈ [a, b] gelten, und
wir nehmen zunächst an das es x ∈ [a, b] mit f (a) = f (b) < f (x) gibt. Nach §9.Satz
6 nimmt f in [a, b] sein Maximum an, es gibt also ein ξ ∈ [a, b] mit f (ξ) ≥ f (x) für
alle x ∈ [a, b]. Nach unserer Annahme ist ξ 6= a, b, also ist sogar ξ ∈ (a, b). Dann ist
das globale Maximum ξ von f ein innerer Punkt des Definitionsbereichs von f , also ist
ξ auch ein lokales Maximum von f . Da f in ξ differenzierbar ist, ergibt Satz 11 auch
f 0 (ξ) = 0.
Damit ist die Aussage bewiesen wenn nicht f in a nicht sein Maximum annimmt.
Im anderen Fall nimmt f in a nicht sein Minimum an, und wir können den obigen
Beweis analog mit einem globalen Minimum ξ führen.
Eigentlich hatten wir den Satz von Rolle schon implizit bei unseren Überlegungen zur
Berechnung des globalen Maximums beziehungsweise Minimums erhalten. Aus dem
Satz von Rolle wird jetzt der allgemeine Mittelwertsatz folgen. Der Beweis erfolgt
im wesentlichen durch Neigen des Kopfes“, der Satz von Rolle deckt den Fall einer
”
waagerechten Sekante ab, und der allgemeine Fall wird hierauf durch eine Scherung
zurückgeführt.
Satz 10.13 (Mittelwertsatz)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion die in jedem Punkt
x ∈ (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit
f 0 (ξ) =
f (b) − f (a)
.
b−a
186
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Wie schon angedeutet bringen wir f durch eine Scherung in die für den Satz
von Rolle benötigte Lage, als Formel bedeutet dies die Funktion
g : [a, b] → R; x 7→ f (x) −
f (b) − f (a)
(x − a)
b−a
zu betrachten. Nach §9.Lemma 4 ist g stetig und nach Satz 5 ist g in jedem Punkt
x ∈ (a, b) differenzierbar mit
g 0 (x) = f 0 (x) −
f (b) − f (a)
.
b−a
Außerdem gilt
g(b) = f (b) −
f (b) − f (a)
(b − a) = f (b) − (f (b) − f (a)) = f (a) = g(a),
b−a
und nach dem Satz von Rolle Satz 12 existiert ein ξ ∈ (a, b) mit
f 0 (ξ) −
f (b) − f (a)
f (b) − f (a)
= g 0 (ξ) = 0, also f 0 (ξ) =
.
b−a
b−a
187
Zugehörige Unterlagen
Herunterladen