Skript SS2012

Inhaltsverzeichnis
§1
§2
§3
§4
§5
§6
§7
§8
§9
§10
Modulare Arithmetik
Gruppen . . . . . . .
Ringe . . . . . . . .
Körper . . . . . . . .
Metrische Räume . .
Folgen . . . . . . . .
Reihen . . . . . . . .
Vollständige Körper
Stetigkeit . . . . . .
Differenzierbarkeit .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
18
37
51
87
98
123
142
150
169
Vorlesung 1, Dienstag 10.4.2012
Prüfungsleistungen
Wir beschreiben zunächst einmal die zu erbringenden Prüfungsleistungen für diesen
Modul. Diese teilen sich in zwei Komponenten auf:
1. Eine Klausur am Ende des Semesters beziehungsweise am Anfang der nächsten
Vorlesungszeit. Diese Klausur geht zu 60% in die Endnote ein.
2. Die während des Semesters zu erbringenden vorlesungsbegleitenden Leistungen
gehen zu 40% in die Endnote ein.
Zum Bestehen des gesamten Moduls müssen mindestens 50% der insgesamt erreichbaren Punktzahl erreicht werden. Werden genau diese 50% erreicht, so ergibt sich die
Note 4,0. Der Notenspiegel nach dem sich die Staffelung der restlichen Noten ergibt
ist noch nicht festgelegt. Ist das Ergebnis aus der Klausur besser als das aus Klausur
und vorlesungsbegleitenden Leistungen zusammengesetzte Ergebnis, so zählt nur die
Klausur. In diesem Sinne sind die vorlesungsbegleitenden Leistungen Bonuspunkte“,
”
und durch Mitarbeit während des Semesters können Sie Ihr Ergebnis nur verbessern
aber nicht verschlechtern.
Die vorlesungsbegleitenden Leistungen setzen sich wiederum aus zwei Teilen zusammen:
1. Zur einen Hälfte aus zwei während des Semesters geschriebenen Minitests. In
beiden Minitests ist exakt dieselbe Punktzahl erreichbar, jeder einzelne Minitest
geht also zu 25% in die vorlesungsbegleitenden Leistungen, beziehungsweise zu
10% in die Endnote ein. Die beiden Minitests finden an den folgenden Terminen
statt:
1
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
Test 1 Donnerstag der 3.5.2012.
Test 2 Dienstag der 5.6.2012.
Die Minitests finden jeweils in der letzten halben Stunde der Vorlesung statt (also
auch im selben Raum in dem die Vorlesung stattfindet).
2. Die andere Hälfte der vorlesungsbegleitenden Leistungen sind die wöchentlich abzugebenden, schriftlichen Übungsaufgaben. Dabei lassen sich in jedem Übungsblatt genau 10 Punkte erreichen. Die Punkte werden Ihnen dabei nur dann angerechnet wenn Sie in der Übungstunde in der die fraglichen Aufgaben besprochen
werden auch anwesend waren. Die Besprechung einer Aufgabe findet dabei immer
in den Übungen in der auf die Abgabe folgenden Woche statt (beziehungsweise
noch eine Woche später wenn die Übung durch einen Feiertag ausfällt).
Die Abgabe der Übungsaufgaben in Zweiergruppen ist erlaubt, aber nicht in noch
größeren Gruppen. Falls bei der Besprechung eines Übungsblatts nur ein Mitglied einer
solchen Zweiergruppe anwesend ist, so werden auch nur diesem die Punkte angerechnet.
Die schlechtesten zwei Serien werden gestrichen, und die verbleibenden Punkte gehen
dann zu 50% in die vorlesungsbegleitenden Leistungen, beziehungsweise zu 20% in die
Endnote ein.
Zur Zulassung zur Klausur müssen Sie während des Semesters mindestens einmal
eine Aufgabe in der Übung vorrechnen. Dies kann entweder eine schriftliche oder eine
der Präsenzaufgaben sein.
Die Endklausur dauert 90 Minuten (der Termin wird noch bekannt gegeben). Mindestens eine der Aufgaben der Endklausur ist identisch mit einer der Übungsaufgaben,
das kann eine schriftliche oder eine Präsenzaufgabe sein.
Da das alles etwas kompliziert ist, wollen wir hier noch ein Beispiel für einen möglichen Semesterverlauf vorführen. Wir nehmen die folgenden Punktezahlen an:
Klausur 80 Punkte,
Übungen 12 Serien zu je 10 Punkten,
Minitests Je 30 Punkte.
Weiter nehmen wir an das Sie die folgenden Punktzahlen erreichen:
1. In einem Übungsblatt werden nur 2 Punkte erzielt.
2. Ein Übungsblatt wird gar nicht abgegeben (oder die Besprechung) versäumt.
3. Aus den restlichen 10 Blättern kriegen Sie insgesamt 84 Punkte und jedes einzelne
Blatt ist besser als 2 Punkte.
4. Im ersten Minitest schreiben Sie 17 Punkte,
5. und im zweiten Minitest 26 Punkte.
2
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
6. Die Klausur läuft nicht so gut, und Sie schreiben hier nur 26 Punkte.
Dann werden die beiden schlechtesten Übungen gestrichen, also einmal null und einmal
zwei Punkte, und es verbleiben 84 von 100 Punkten, also
84 / 100 = 0, 84.
In den beiden Minitests haben Sie 43 von insgesamt 60 möglichen Punkten, also
43 / 60 = 0, 72 (gerundet).
Die Klausur ist schließlich 26 von 80 Punkten, also
26 / 80 = 0, 33 (gerundet).
Die Klausur alleine ist also weit von den erforderlichen 50% weg. Damit ergibt sich für
das gesamte Semester
0, 2 · 0, 84 = 0, 168
0, 2 · 0, 72 = 0, 144
0, 6 · 0, 33 = 0, 21
0, 522.
Übungen (20%)
Minitests (20%)
Klausur (60%)
Insgesamt sind also ungefähr 52% erreicht und der Modul ist bestanden.
$Id: modul.tex,v 1.12 2012/06/28 18:16:56 hk Exp $
§1
Modulare Arithmetik
Im ersten Teil der Vorlesung wird es um die Behandlung der algebraischen Grundstrukturen gehen, dies sind für unsere eher bescheidenen Zwecke Gruppen, Ringe und
Körper. Zur Einstimmung auf diesen Themenkreis behandeln wir zunächst die modu”
lare Arithmetik“, manchmal auch Kongruenzrechnung“ oder Restklassenrechnung“
”
”
genannt. Diese wird sich als ein Beispiel für viele der später untersuchten Strukturen
herausstellen. Wir führen dabei auch die vollständigen Herleitungen, nahezu bei Null
beginnend, vor.
1.1
Teiler
Als vorbereitenden Grundbegriff benötigen wir die Teilbarkeitstheorie“ ganzer Zahlen.
”
All die Aussagen dieses Abschnitts werden Ihnen schon aus der Schulzeit bekannt sein.
Wir beweisen sie nicht etwa weil Zweifel an ihrer Gültigkeit bestehen würden, sondern
3
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
um uns an einem vertrauten und einfachen Gegenstand wieder an die Beweistechniken
der Mathematik zu gewöhnen. Das nachfolgende Lemma charakterisiert die Division
mit Rest.
Lemma 1.1 (Division mit Rest)
Zu jedem Zahlenpaar (a, d) ∈ Z × Z∗ gibt es eindeutig bestimmte Zahlen q, r ∈ Z mit
a = dq + r und 0 ≤ r < |d|.
Dabei heißen a der Divident, d der Divisor, q der Quotient und r der Rest. Das ∗“ bei
”
Z∗ steht einfach für das Weglassen der Null, also
Z∗ := Z\{0}.
Gehen wir einmal einige Beispiele durch:
1. Sei (a, d) = (99, 4), es soll also 99 mit Rest durch 4 geteilt werden. Wir haben
99 = 24 · 4 + 3, d.h. in der Notation des Lemmas sind q = 24 der Quotient und
r = 3 der Rest.
2. Sei (a, d) = (99, −4), wir teilen diesmal also durch −4. Dies läßt sich leicht auf
den schon behandelten Fall zurückführen, es ist
99 = 24 · 4 + 3 = (−24) · (−4) + 3,
d.h. der Quotient ist q = −24 und der Rest ist wieder r = 3.
3. Im nächsten Beispiel betrachten wir einen negativen Dividenden, nämlich (a, d) =
(−99, 4). Multiplizieren wir 99 = 24 · 4 + 3 mit −1, so wird −99 = (−24) · 4 − 3.
Dies ist aber noch nicht die Form des Lemmas, in der Position des Restes steht
hier −3, aber im Lemma muss der Rest mindestens Null sein. Das ist kein großes
Problem
−99 = (−24) · 4 − 3 = (−24) · 4 − 4 + 1 = (−25) · 4 + 1,
d.h. es sind q = −25 der Quotient und r = 1 der Rest.
4. Zum Abschluß sei noch (a, d) = (−99, −4). Dies kann man auf den vorigen Fall
zurückführen genauso wie das zweite Beispiel auf das erste zurückgeführt wurde.
Es gilt −99 = (−25) · 4 + 1 = 25 · (−4) + 1, also q = 25 und r = 1.
Wir wollen Lemma 1 jetzt tatsächlich einmal beweisen. Ähnlich wie wir in den Beispielen gerechnet haben, läßt sich die Aussage auf den Hauptfall a ≥ 0, d > 0 zurückführen.
Machen wir uns die Aussage erst einmal heuristisch klar. Um a als a = dq + r zu schreiben, schaut man zuerst nach wie oft d in a hereinpasst. Wir schauen uns also die Zahlen
d, 2d, 3d, 4d, . . . und so weiter an. Irgendwann werden diese größer als der Dividend a,
und unser Quotient q ist gerade diejenige Zahl für die dq noch nicht größer als a geworden ist.
4
Mathematik für Informatiker B, SS 2012
0
d
Dienstag 10.4.2012
2d
3d
qd
a (q+1)d
Das muss man jetzt nur noch ausformulieren, und hat einen Beweis des Lemmas. Bevor wir dies tun erinnern wir uns noch an eine Kleinigkeit über das Umgehen mit
Ungleichungen. Angenommen wir haben drei (reelle) Zahlen a, b, c. Dann ist
a ≤ b ⇐⇒ a + c ≤ b + c
der Wahrheitsgehalt einer Ungleichung bleibt unverändert wenn wir zu beiden Seiten
dieselbe Zahl addieren. Das gilt auch wenn wir von beiden Seiten dieselbe Zahl abziehen,
denn Subtraktion von c ist ja dasselbe wie Addition mit −c. Besonders häufig wird dies
angewendet um Terme in einer Ungleichung auf die andere Seite zu bringen, wir haben
zum Beispiel
a ≤ b + c ⇐⇒ a − c ≤ (b + c) − c = b.
Derlei Dinge und auch die entsprechenden Tatsachen für die Multiplikation werden wir
im folgenden frei verwenden.
Bew. (Lemma 1) Wir beginnen mit dem Beweis der Eindeutigkeit von Quotient und
Rest. Angenommen es sind q, q 0 , r, r0 ∈ Z mit 0 ≤ r, r0 < |d| und
a = dq + r = dq 0 + r0 .
Wir müssen einsehen, dass dann schon q = q 0 und r = r0 ist. Sortieren wir die Terme
etwas um, so wird die obige Gleichung zu
r0 − r = dq − dq 0 = d · (q − q 0 ).
Dabei ist
−|d| < −r ≤ r0 − r ≤ r0 < |d|, d.h. |r0 − r| < |d|.
Im letzten Semester hatten Sie festgehalten, dass der Betrag eines Produkts gleich dem
Produkt der Beträge ist, damit ist also auch
|d| · |q − q 0 | = |d · (q − q 0 )| = |r0 − r| < |d|,
und dies bedeutet |q − q 0 | < 1. Andererseits ist q − q 0 ∈ Z eine ganze Zahl, und die
einzige ganze Zahl von zwischen −1 und 1 ist 0, d.h. es muss q − q 0 = 0 sein. Dies
bedeutet q = q 0 und weiter ist dann auch r = a − dq = a − dq 0 = r0 .
Dies beweist die Eindeutigkeitsaussage und wir kommen zum Beweis der Existenz
von Quotient und Rest. Wie schon angekündigt unterscheiden wir dabei einige Fälle
je nach Vorzeichen von a und d. Zunächst seien a ≥ 0 und d > 0. Wir setzen q als
die größte ganze Zahl mit dq ≤ a und r := a − dq. Dann gilt sicher a = dq + r und
wir müssen uns nur noch klarmachen, dass r die Großenbeschränkung 0 ≤ r < |d| = d
erfüllt. Wegen dq ≤ a ist dabei r = a − dq ≥ 0. Da q maximal mit dq ≤ a ist, gilt
5
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
dq + d = d(q + 1) > a, und dies bedeutet r = a − dq < d. Damit ist die Behauptung
im Fall a ≥ 0, d > 0 bewiesen.
Die restlichen Fälle für a und d werden wie im Beispiel auf den bereits bewiesenen
Fall zurückgeführt. Zunächst nehme a < 0 und d > 0 an. Wenden wir die bereits
bewiesene Aussage mit −a > 0 statt a an, so erhalten wir die Existenz ganzer Zahlen
q, r ∈ Z mit a = dq + r und 0 ≤ r < d. Multiplikation dieser Gleichung mit −1 ergibt
−a = −dq − r = −dq − d + d − r = d · (−q − 1) + (d − r).
Jetzt müssen wir zwei Fälle unterscheiden. Ist der Rest gleich Null, also r = 0, so ist
−a = d · (−q), also gilt das Lemma mit −q als Quotient und 0 als Rest. Andernfalls
ist 0 < r < d, also auch 0 < d − r < d, und wir haben den Quotienten −q − 1 und den
Rest d − r.
Damit sind die beiden Fälle mit d > 0 behandelt. Wir nehmen also schließlich
d < 0 an. Wenden wir die bereits bewiesenen Aussagen dann mit −d > 0 statt d an,
so erhalten wir q, r ∈ Z mit 0 ≤ r < −d = |d| und a = (−d)q + r = d · (−q) + r, der
Quotient ist also −q und der Rest ist r.
Damit sind alle möglichen Fälle behandelt und das Lemma ist vollständig bewiesen.
Der Beweis zeigt uns insbesondere, dass das Vorzeichen des Quotienten q gleich dem
Vorzeichen von ad ist. Die praktische Durchführung der Bestimmung von Quotient und
Rest kann zum Beispiel über den bekannten schriftlichen Divisionsalgorithmus erfolgen.
Wir definieren jetzt die Teilbarkeitsrelation auf den ganzen Zahlen.
Definition 1.2: Eine ganze Zahl d ∈ Z∗ heißt ein Teiler einer ganzen Zahl a ∈ Z wenn
der Rest r bei Division von a durch d gleich r = 0 ist. Man schreibt dann auch
d | a (d teilt a).
Für die Verneinung, also wenn d kein Teiler von a ist, schreiben wir
d - a (d ist kein Teiler von a).
Wegen a = dq + r ist d genau dann ein Teiler von a wenn a ein Vielfaches von d ist,
wenn es also ein q ∈ Z mit a = dq gibt. Jedes d ∈ Z∗ ist Teiler der Null: d | 0. Wir
wollen einige einfache Eigenschaften des Teilbarkeitsbegriffs durchgehen.
1. Für alle a, b, c ∈ Z gilt
a | b ∧ b | c =⇒ a | c.
Dies ist leich zu sehen, gelten a | b und b | c, so existieren ganze Zahlen q, q 0 ∈ Z
mit b = qa und c = q 0 b, also ist auch c = q 0 b = q 0 qa und somit ist a ein Teiler von
c. Die Eigenschaft d ist Teiler von a“ kann man also auffassen als eine transitive
”
Relation auf Z.
6
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
2. Die Teilbarkeitsrelation ist auch reflexiv, d.h. für alle a ∈ Z gilt a | a.
3. Dagegen ist die Teilbarkeitsrelation weder symmetrisch noch antisymmetrisch.
Anstelle dessen haben wir für alle a, b ∈ Z die Implikation
a | b ∧ b | a =⇒ b = ±a.
Es gibt dann nämlich ganze Zahlen q, q 0 ∈ Z mit b = qa und a = q 0 b, also ist
auch b = qa = qq 0 b und somit qq 0 = 1. Da q, q 0 ganze Zahlen sind, muss damit
q = q 0 = 1 oder q = q 0 = −1 sein, d.h. wir haben b = qa = ±a.
4. Eine letzte Regel betrifft Kombinationen ganzer Zahlen im folgenden Sinn
d | a ∧ d | b =⇒ d | αa + βb
für alle a, b, d, α, β ∈ Z. Ein gemeinsamer Teiler von a und b teilt also auch jede
Kombination αa + βb von a und b. Dies kann man leicht sehen, es gibt ja ganze
Zahlen n, m ∈ Z mit a = nd und b = md, und dann ist auch
αa + βb = αnd + βmd = (αn + βm)d
ein Vielfaches von d, d.h. wir haben d|αa + βb.
Wir kommen jetzt zum, Ihnen höchstwahrscheinlich auch schon bekannten Begriff,
des größten gemeinsamen Teilers zweier ganzer Zahlen. Dabei kann man größten“ so”
wohl bezüglich der gewöhnlichen numerischen Anordnung der ganzen Zahlen als auch
bezüglich der Teilbarkeitsrelation interpretieren. Dies ist eine rein willkürliche Entscheidung, es kommt beides mal dasselbe heraus. Wir entscheiden uns hier für die zweite
Möglichkeit und stellen uns zunächst auf den Standpunkt das die Existenz des größten
gemeinsamen Teilers nicht bekannt wäre.
Definition 1.3: Zu zwei ganzen Zahlen a, b ∈ Z heißt d ∈ Z∗ ein gemeinsamer Teiler
von a und b wenn d | a und d | b gelten. Gilt ferner d > 0 und ist für jeden anderen gemeinsamen Teiler c ∈ Z∗ von a und b stets auch c|d, so heißt d ein größter gemeinsamer
Teiler von a und b, und wird bezeichnet mit d = ggt(a, b).
Hier wird noch vorsichtig von einem größten gemeinsamen Teiler“ gesprochen, da
”
wir noch nicht bewiesen haben, dass es stets genau einen solchen gibt. Der Beweis dieser
Tatsache sowie das Verfahren zu seiner Berechnung werden ein Thema der nächsten
Vorlesung sein. Einige Vorarbeiten werden wir schon heute durchführen. Wir werden
die Fragen der Eindeutigkeit und der Existenz getrennt behandeln, und beginnen mit
der Eindeutigkeit.
Lemma 1.4 (Eindeutigkeit des größten gemeinsamen Teilers)
Zu a, b ∈ Z kann es maximal einen größten gemeinsamen Teiler geben.
7
Mathematik für Informatiker B, SS 2012
Dienstag 10.4.2012
Beweis: Seien d1 , d2 > 0 zwei größte gemeinsame Teiler von a und b. Da d2 ein gemeinsamer Teiler von a und b ist und d1 ein größter gemeinsamer Teiler von a und b ist,
also von jedem anderen gemeinsamen Teiler geteilt wird, ist d2 |d1 . Vertauschen wir die
Rollen von d1 und d2 , so folgt ebenso auch d1 |d2 . Mit der obigen dritten Eigenschaft
des Teilbarkeitsbegriffs folgt hieraus d2 = ±d1 , und wegen d1 , d2 > 0 ist sogar d1 = d2 .
Damit haben wir die Eindeutigkeit des größten gemeinsamen Teilers bewiesen. Wir
werden die Existenz durch Angabe eines Berechnungsverfahrens beweisen, des sogenannten euklidischen Algorithmus. Um die Korrektheit dieses Algorithmus einsehen zu
können, ist es hilfreich ein kleines vorbereitendes Lemma voranzuschicken.
Lemma 1.5: Sei a, b ∈ Z. Dann gelten:
(a) Ist 0 6= a | b, so gilt |a| = ggt(a, b).
(b) Sind d, q ∈ Z, so gilt die Äquivalenz
d = ggt(a, b) ⇐⇒ d = ggt(a − qb, b).
(d) Für d ∈ Z ist genau dann d = ggt(a, b) wenn d = ggt(b, a) ist.
Beweis: (a) Zunächst ist |a| ∈ N∗ überhaupt ein gemeinsamer Teiler von a und b.
Jeder weitere gemeinsame Teiler c von a und b ist insbesondere ein Teiler von a und
damit auch von |a|, d.h. c | |a|. Damit ist |a| ein größter gemeinsamer Teiler von a
und b, und wir haben |a| = ggt(a, b).
(b) ”=⇒” Zunächst ist d ein Teiler von a und b, also d|a und d|b, und wie oben als
Punkt 4 festgehalten teilt d damit auch jede Kombination von a und b, also insbesondere
d|a−qb. Somit ist d ein gemeinsamer Teiler von a−qb und b. Ist jetzt c ∈ Z ein weiterer
gemeinsamer Teiler von a − qb und b, so folgt ebenso d|(a − qb) + qb = a, d.h. c ist auch
ein gemeinsamer Teiler von a und b, und dies bedeutet c|d. Dies zeigt d = ggt(a−qb, b).
”⇐=” Wenden wir die bereits bewiesene Implikation an, so ergibt sich d = ggt(a −
qb − (−q)b, b) = ggt(a, b).
(c) Dies ist klar da die Definition eines größten gemeinsamen Teilers symmetrisch in a
und b ist.
Aussage (c) zeigt uns insbesondere das wir in Teil (b) genausogut Vielfache der linken
von der rechten Seite subtrahieren können ohne den größten gemeinsamen Teiler zu
ändern. In der Tat, für a, b, d, q ∈ Z haben wir
d = ggt(a, b) ⇐⇒ d = ggt(b, a) ⇐⇒ d = ggt(b − qa, a) ⇐⇒ d = ggt(a, b − qa).
8
Mathematik für Informatiker B, SS 2012
1.2
Donnerstag 12.4.2012
Euklidischer Algorithmus
Vorlesung 2, Donnerstag 12.4.2012
Am Ende der letzten Sitzung hatten wir den größten gemeinsamen Teiler zweier ganzer
Zahlen a und b eingeführt, und auch bereits einige seiner Eigenschaften bewiesen. Im
folgenden werden wir zum einen die Existenz des größten gemeinsamen Teilers einsehen,
und zum anderen ein Verfahren zu seiner Berechnung angeben. Einen kleinen Sonderfall
muss man dabei allerdings ausnehmen. Ist a = b = 0, so ist überhaupt jedes c ∈ Z
ein gemeinsamer Teiler von a und b, und es kann keinen größten gemeinsamen Teiler
geben. Ist genau eine der beiden Zahlen a, b Null, etwa a 6= 0 und b = 0, so sind die
gemeinsamen Teiler von a und b genau die Teiler von a, und es folgt ggt(a, b) = |a|.
Hier gibt es also einen größten gemeinsamen Teiler, aber er ist uninteressant. Daher
werden wir uns bei der Berechnung des größten gemeinsamen Teilers auf den Hauptfall
a, b 6= 0 beschränken. Der euklidische Algorithmus kann verwendet werden, um den
größten gemeinsamen Teiler d = ggt(a, b) zweier ganzer Zahlen a, b ∈ Z∗ zu ermitteln.
Im Fall |a| = |b| ist b = ±a und dann ist ggt(a, b) = |a|. Wir können uns also auf den
Fall |a| =
6 |b| beschränken, und durch eventuelles Vertauschen von a und b können wir
weiter sogar |a| > |b| annehmen. Da Vorzeichen auf Teilbarkeit und damit auch auf
den größten gemeinsamen Teiler keinen Einfluss haben, kann man sich sogar auf den
Hauptfall a > b > 0 beschränken. Wir beginnen mit einem kleinen Beispiel und wollen
den größten gemeinsamen Teiler von 91 und 113 berechnen. Wir stützen uns dabei auf
Lemma 5.(d). Teilen wir die größere Zahl 113 mit Rest durch 91, so ist 113 = 91 + 22,
also 113 − 91 = 22 und das Lemma ergibt
ggt(113, 91) = ggt(113 − 91, 91) = ggt(22, 91) = ggt(91, 22).
Damit ist die Berechnung des größten gemeinsamen Teilers auf ein einfacheres Problem
reduziert. Wir können so fortfahren und auch 91 mit Rest durch 22 teilen, also 91 =
4 · 22 + 3 und somit
ggt(91, 22) = ggt(91 − 4 · 22, 22) = ggt(3, 22) = ggt(22, 3).
An dieser Stelle sehen wir natürlich schon direkt das der größte gemeinsame Teiler 1
ist, der Systematik halber wollen wir aber noch einmal 22 mit Rest durch 3 teilen, also
22 = 7 · 3 + 1 und erhalten diesmal
ggt(22, 3) = ggt(22 − 7 · 3, 3) = ggt(1, 3) = 3,
also insgesamt ggt(113, 91) = 1. Zusammengefasst haben wir die folgende Rechnung
9
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
durchgeführt:
113
91
22
3
=
=
=
=
91 · 1 + 22 =⇒ ggt(113, 91) = ggt(91, 22)
22 · 4 + 3 =⇒ ggt(91, 22) = ggt(22, 3)
3 · 7 + 1 =⇒ ggt(22, 3) = ggt(3, 1)
1·3
insgesamt ggt(91, 113) = 1.
Dieses Verfahren durch fortgesetzte Division mit Rest schließlich den größten gemeinsamen Teiler zu bestimmen, wird als der euklidische Algorithmus bezeichnet. Wir wollen
ihn einmal auch allgemein beschreiben. Gegeben seien also zwei Zahlen a, b ∈ Z∗ normiert auf |a| > |b|. Dann teilen wir die größere Zahl a mit Rest durch b, schreiben
also
a = bq0 + r0 , 0 ≤ r0 < |b|
wobei q0 ∈ Z den Quotienten und r0 ∈ N den Rest bezeichnet. Ist r0 = 0, also b|a,
so ist nach Lemma 5.(a) sofort ggt(a, b) = |b|, und wir sind bereits fertig. Andernfalls
dividieren wir b mit Rest durch r0 , also
b = r 0 q1 + r 1 , 0 ≤ r 1 < r 0 .
Ist nun r1 = 0, so hören wir auf, andernfals dividieren wir r0 mit Rest durch r1
r 0 = r 1 q2 + r 2 , 0 ≤ r 2 < r 1 ,
dann r1 mit Rest durch r2 und immer so weiter, bis irgendwann der Rest 0 auftaucht,
sagen wir nach n + 2 Schritten
rn−2 = rn−1 qn + rn , 0 ≤ rn+1 < rn−1 ,
rn−1 = rn qn+1 .
Da der Rest in jedem Schritt echt kleiner wird, müssen wir irgendwann einmal an diese
Stelle kommen. Der größte gemeinsame Teiler von a und b ist dann der letzte von Null
verschiede Rest
rn = ggt(a, b).
Diese Aussage folgt wie im Beispiel durch fortgesetzte Anwendung von Lemma 5.(b).
Man arbeitet sich von unten nach oben durch den euklidischen Algorithmus. In der
Abbruchzeile hatten wir rn−1 = rn qn+1 , und somit besagt Lemma 5.(a) auch
ggt(rn , rn−1 ) = ggt(rn , rn qn+1 ) = rn .
Angenommen wir wissen bereits rn = ggt(ri , ri−1 ) für ein 1 < i ≤ n, für i = n ist dies
beispielsweise der Fall. Die (i + 1)-te Zeile des euklidischen Algorithmus ist dann
ri−2 = ri−1 qi + ri
10
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
beziehungsweise ri = ri−2 − ri−1 qi und Lemma 5.(b) ergibt
rn = ggt(ri , ri−1 ) = ggt(ri−2 − ri−1 qi , ri−1 ) = ggt(ri−2 , ri−1 ) = ggt(ri−1 , ri−2 ).
Für wir also eine rückwärts laufende Induktion von i = n bis nach i = 1 durch, so
ergibt sich mit i = 1 schließlich
rn = ggt(r1 , r0 ).
Wenden wir jetzt noch zweimal Lemma 5.(b) an, so ist letztlich
rn = ggt(r1 , r0 ) = ggt(b − r0 q1 , r0 ) = ggt(r0 , b) = ggt(a − bq0 , b) = ggt(a, b).
Damit ist bewiesen das der letzte von Null verschiedene Rest rn im euklidischen Algorithmus der größte gemeinsame Teiler von a und b ist, und insbesondere ist damit
die Existenz von ggt(a, b) eingesehen. Wir wollen noch ein zweites Beispiel zum euklidischen Algorithmus rechnen und zwar ggt(91, 133).
133 = 91 · 1 + 42
91 = 42 · 2 + 7
42 = 7 · 6
=⇒ ggt(91, 133) = 7.
Wir fassen nun die bisherigen Ergebnisse über den größten gemeinsamen Teiler in einem
Satz zusammen. Bei der Gelegenheit können wir dem eukldischen Algorithmus noch
eine zusätzliche Tatsache entnehmen, der größte gemeinsame Teiler läßt sich immer als
eine ganzzahlige Kombination von a und b schreiben. Dies wird manchmal auch als die
Wechselsummendarstellung des größten gemeinsamen Teilers bezeichnet.
Satz 1.6 (Wechselsummendarstellung des größten gemeinsamen Teilers)
Zu zwei ganzen Zahlen a, b ∈ Z, a, b 6= 0, gibt es genau einen größten gemeinsamen
Teiler d = ggt(a, b). Ferner existieren α, β ∈ Z mit d = αa + βb.
Beweis: Die Eindeutigkeit von ggt(a, b) haben wir mit Lemma 4 gezeigt. Die Existenz
des größten gemeinsamen Teilers ergab sich aus dem euklidischen Algorithmus
a = bq0 + r0 , 0 ≤ r0 < |b|,
b = r 0 q1 + r 1 , 0 ≤ r 1 < r 0 ,
r 0 = r 1 q2 + r 2 , 0 ≤ r 2 < r 1 ,
..
..
.
.
rn−2 = rn−1 qn + rn , 0 ≤ rn < rn−1 ,
rn−1 = rn qn
als d = ggt(a, b) = rn , wobei wir uns bereits stillschweigend auf den Fall |a| > |b| normiert haben. Es ist nur noch die Darstellung von d = rn als ganzzahlige Kombination
11
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
von a und b einzusehen, und hierzu werden wir induktiv die stärkere Aussage zeigen,
dass es für alle 0 ≤ i ≤ n stets αi , βi ∈ Z mit ri = αi a + βi b gibt. Für i = 0 müssen wir
dabei wegen
r0 = a − q0 b nur α0 = 1, β0 = −q0
setzen. Für i = 1 ist
r1 = b − q1 r0 = b − q1 (α0 a + β0 b) = −q1 α0 a + (1 − q1 β0 )b,
wir können also α1 = −q1 α0 und β1 = 1 − q1 β0 verwenden. Ist weiter 1 < i ≤ n und
haben wir die verlangte Darstellung von rj für 0 ≤ j < i bereits gefunden, so ergibt
sich auch
ri = ri−2 −qi ri−1 = αi−2 a+βi−2 b−qi (αi−1 a+βi−1 b) = (αi−2 −qi αi−1 )a+(βi−2 −qi βi−1 )b,
wir setzen also αi := αi−2 − qi αi−1 und βi := βi−2 − qi βi−1 . Per Induktion haben wir
dann ri = αi a + βi b für überhaupt alle 0 ≤ i ≤ n, und speziell für i = n ergibt sich
d = rn = αn a + βn b.
Das im Beweis verwendete Verfahren liefert uns auch eine Methode die Zahlen α, β
auszurechnen, wir müssen nur die Rechnung im euklidischen Algorithmus verfolgen,
und in jedem Schritt den aktuellen Rest ri als Kombination von a und b schreiben. Wir
wollen dies einmal am Beispiel von ggt(91, 133) = 7 durchführen.
133 = 91 · 1 + 42, 42 = 133 − 91,
91 = 42 · 2 + 7,
7 = 91 − 2 · 42 = 91 − 2 · (133 − 91) = 3 · 91 − 2 · 133,
und wir haben die Wechselsummendarstellung gefunden. Zum Abschluß wollen wir noch
zwei kleine Folgerungen aus der Wechselsummendarstellung des größten gemeinsamen
Teilers festhalten. Seien hierzu a, b ∈ Z∗ gegeben. Wir nennen a und b teilerfremd wenn
ggt(a, b) = 1 ist, und es ergibt sich die folgende Kennzeichung der Teilerfremdheit über
die Wechselsummen:
a und b sind teilerfremd ⇐⇒ Es gibt n, m ∈ Z mit na + mb = 1.
In der Tat, gibt es n, m ∈ Z mit na + mb = 1, so gilt für jeden gemeinsamen Teiler
c von a und b auch c|na + mb = 1, also muss c = 1 oder c = −1 sein. Also haben a
und b nur die beiden gemeinsamen Teiler ±1 und somit ist ggt(a, b) = 1. Nehmen wir
umgekehrt ggt(a, b) = 1 an, so liefert uns die Wechselsummendarstellung des größten
gemeinsamen Teilers Satz 6 auch n, m ∈ Z mit na + mb = ggt(a, b) = 1.
Die zweite Folgerung aus der Wechselsummendarstellung ist etwas komplizierter.
Nehmen an wir haben drei Zahlen a, b, c ∈ Z, sagen wir mit a, b 6= 0. Dabei seien a und
b teilerfremd und es gelte a|c und b|c. Wir behaupten das dann auch ab|c gilt, also
∀(a, b ∈ Z∗ , c ∈ Z) : ggt(a, b) = 1 ∧ a|c ∧ b|c =⇒ ab|c.
12
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
Da nämlich a und b teilerfremd sind gibt es n, m ∈ Z mit na + mb = 1. Wegen a|c und
b|c gibt es weiter auch ganze Zahlen p, q ∈ Z mit c = pa = qb. Damit folgt
c = 1 · c = (na + mb) · c = nac + mbc = nqab + mpab = (nq + mp) · ab,
und wir haben auch ab|c wie behauptet.
1.3
Restklassen
Nachdem uns nun der Teilbarkeitsbegriff zur Verfügung steht, können wir auch den
Kongruenzbegriff modulo einer Zahl m einführen.
Definition 1.7: Sei m ∈ N∗ . Zwei ganze Zahlen heißen kongruent modulo m, wenn
m|a − b gilt. In diesem Fall schreibt man
a ≡ b mod m.
In der Literatur findet man auch diverse alternative Schreibweise für die Kongruenz
modulo m, zum Beispiel
a ≡ b (m) oder a ≡ b.
m
Die Kongruenz von a und b modulo m bedeutet das sich a von b nur durch ein Vielfaches
von m unterscheidet, denn m|a − b besagt die Existenz eines q ∈ Z mit a − b = qm,
und dies ist zu a = b + qm gleichwertig. Nun gilt
Lemma 1.8: Sei m ∈ N∗ . Dann ist die Relation Kongruenz modulo m“ eine Äquiva”
lenzrelation auf Z.
Der Beweis dieser Tatsache ist eine Übungsaufgabe. Wie Sie noch aus dem letzten
Semester wissen, kann man bei gegebener Äquivalenzrelation die zueinander äquivalenten Elemente zu Äquivalenzklassen zusammenfassen. In Fall der Kongruenz modulo
m als Äquivalenzrelation bezeichnet man diese Äquivalenzklassen als Restklassen oder
Kongruenzklassen modulo m. Ist a ∈ Z, so schreiben wir [a], oder manchmal auch [a]m
wenn wir die Zahl m hervorheben wollen, für die a enthaltende Restklasse, also konkret
[a] = {b ∈ Z|a ≡ b mod m} = {a + qm|q ∈ Z}.
Die Menge aller Kongruenzklassen modulo m wird mit dem Symbol
Zm := {[a]m |a ∈ Z}
bezeichnet. Die Grundeigenschaften dieser Restklassen werden im folgenden Lemma
beschrieben:
Lemma 1.9: Für a, b ∈ Z und m ∈ N∗ sind äquivalent:
(a) Es ist a ≡ b mod m.
13
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
(b) Die Zahlen a und b liefern bei Division durch m denselben Rest.
(c) Für die Restklassen modulo m gilt [a] = [b].
Beweis: Die Äquivalenz der Aussagen (a) und (c) ist klar, da die Restklassen ja definitionsgemäß die Äquivalenzklassen der Kongruenz modulo m sind. Es verbleibt auch
die Äquivalenz von (a) und (b) einzusehen.
(a)=⇒(b). Da a modulo m zu b kongruent ist, existiert ein p ∈ Z mit a = b + pm.
Dividiere nun b mit Rest durch m, d.h. schreibe b = qm + r mit q ∈ Z und dem Rest
r ∈ Z mit 0 ≤ r < m. Dann ist auch
a = b + pm = qm + r + pm = (p + q)m + r,
d.h. r ist auch der Rest bei Division von a durch m.
(b)=⇒(a). Sei r der gemeinsame Rest bei Division von a und b durch m. Dann existieren p, q ∈ Z mit
a = pm + r
=⇒ a − b = pm + r − qm − r = (p − q)m,
b = qm + r
und dies bedeutet m|a − b. Damit sind a und b kongruent modulo m.
In anderen Worten entsprechen die Restklassen modulo m, d.h. die Äquivalenzklassen
der Kongruenz modulo m, genau den möglichen Resten bei Division durch m, also
den Zahlen 0, 1, 2, . . . , m − 1. Folglich gibt es genau m Restklassen modulo m, nämlich
[0], [1], . . . , [m − 1]. Nehmen wir beispielsweise konkret m = 2, so sind die beiden
Kongruenzklassen modulo 2 die Menge der geraden und die Menge der ungeraden
Zahlen.
1.3.1
Operationen auf den Restklassen
Wir wollen jetzt eine Addition und eine Multiplikation auf den Restklassen modulo
einer Zahl m einführen. Dies geschieht indem zu zwei gegebenen Restklassen [a], [b]
(a, b ∈ Z) Summe und Produkt einfach als die Restklassen von Summe und Produkt
der beiden Zahlen a und b eingeführt werden. Wir müssen uns allerdings davon überzeugen, dass dies überhaupt eine sinnvolle Definition ist. Die Repräsentanten a, b unserer
Restklassen sind ja bei weitem nicht eindeutig festgelegt, anstellen von a, b hätten wir
auch irgendwelche anderen Repräsentanten a0 , b0 nehmen können, und kriegen dann
in der Regel auch andere Summen und Produkte a0 + b0 und a0 · b0 . Glücklicherweise
ist dies nicht weiter tragisch, auch wenn die Zahlen a0 + b0 , a0 b0 verschieden von a + b
beziehungsweise ab sind, so werden wir sehen, dass sie doch dieselben Restklassen modulo m definieren. Man spricht auch davon, dass unsere Definition der Summe und des
Produktes von Restklassen wohldefiniert ist.
14
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
Lemma 1.10 (Addition und Multiplikation von Restklassen)
Sei m ∈ N∗ . Die Operationen ⊕ und auf der Menge der Restklassen modulo m,
definiert durch
[a] ⊕ [b] := [a + b],
[a] [b] := [a · b]
für a, b ∈ Z, sind wohldefiniert.
Beweis: Seien a, b, a0 , b0 ∈ Z mit [a] = [a0 ] und [b] = [b0 ]. Dann gelten a ≡ a0 mod m
und b ≡ b0 mod m, und dies bedeutet m|a − a0 und m|b − b0 . Es folgen
m|(a − a0 ) + (b − b0 ) = (a + b) − (a0 + b0 )
und
m|(a − a0 )b + a0 (b − b0 ) = ab − a0 b + a0 b − a0 b0 = ab − a0 b0 ,
und dies bedeutet a + b ≡ a0 + b0 mod m und ab ≡ a0 b0 mod m. Damit ist tatsächlich
[a + b] = [a0 + b0 ] und [ab] = [a0 b0 ].
Diese Operationen auf den Restklassen erlauben es uns in Zukunft einfach mit den
Repräsentanten zu rechnen. Wir hatten bereits bemerkt das die verschiedenen Restklassen gerade den den möglichen Resten 0, 1, 2, . . . , m − 1 entsprechen, wir können
also neue Operationen auf den Zahlen 0, 1, . . . , m − 1 folgendermassen definieren:
a ⊕ b = (a + b) mod m,
a b = (ab) mod m.
Man spricht dann oft auch einfach von Modulo-Rechnen“. Wir wollen jetzt einige
”
Beispiele besprechen.
1. Ist etwa m = 13, so sind 7 ⊕ 9 = 3 und 7 9 = 11.
2. Wir betrachten die Addition von vorzeichenlosen, 8-Bit langen Binärzahlen, zum
Beispiel
Binär
Dezimal
1 0 0 1 1 0 0 1 + 1 1 0 0 0 0 1 1
153
= 0 1 0 1 1 1 0 0
= 92,
+
= 348.
195
Hier ist 348 = 92 + 256, die Addition der Binärzahlen erfolgt in diesem Beispiel
also modulo 256 = 28 . Dies ist tatsächlich immer so, das Rechnen mit 8-Bit Zahlen
ist gerade das Rechnen modulo 28 = 256. Entsprechend bedeutet Rechnen mit
16-Bit Zahlen dann modulo 216 = 65536, und entsprechend für 32-Bit und 64-Bit
Zahlen.
15
Mathematik für Informatiker B, SS 2012
Donnerstag 12.4.2012
3. Auch das Rechnen modulo kleinerer Zweierpotenzen läßt sich leicht durchführen.
Als ein Beispiel nehmen wir das Rechnen modulo 8 = 23 . Eine 8-Bit Binärzahl
a7 . . . a0 ist gleich a0 + 2a1 + 4a2 + 23 a3 + · · · + 27 a7 , d.h. die hinteren Summanden zu a3 , . . . , a7 sind alle durch 8 teilbar. Modulo 8 ist unsere Zahl also gleich
00000a2 a1 a0 . Die Restklasse modulo 8 ist also durch die hinteren drei Bits gegeben, und kann beispielsweise durch bitweises und“ mit 00000111 = 7 berechnet
”
werden, also r = n&7 in C. Entsprechendes gilt für höhere Zweierpotenzen und
16,32 und 64-Bit Zahlen.
4. Als ein weiteres Beispiel wollen wir die Ihnen schon aus der Schule bekannte Regel
zur Teilbarkeit durch 3 diskutieren. Diese Regel besagt das eine natürliche Zahl
genau dann durch Drei teilbar ist, wenn ihre Quersumme durch Drei teilbar ist.
Ist n ∈ N∗ im Dezimalsystem als n = ar ar−1 . . . a1 a0 geschrieben, so ist explizit
n = a0 + 10 · a1 + 102 · a2 + · · · + 10r · ar .
Modulo 3 ist jetzt 10 ≡ 1 mod 3, also [10] = [1]. Damit ist
[n] = a0 + 10 · a1 + 102 · a2 + · · · + 10r · ar
= [a0 ] ⊕ [10] [a1 ] ⊕ [10]2 [a2 ] ⊕ · · · ⊕ [ar ] [10]r
= [a0 ] + [a1 ] + [a2 ] + · · · + [ar ] = [a0 + · · · + ar ],
und a0 + a1 + · · · + ar ist gerade die Summe der Dezimalziffern von n, also
die Quersumme von n, d.h. die Zahl n ist modulo 3 gleich ihrer Quersumme.
Insbesondere ist n genau dann durch 3 teilbar wenn die Quersumme dies ist.
Nehmen wir etwa konkret die Zahl
n = 17597032 mit Quersumme 1 + 3 + 7 + 9 + 5 + 7 + 2 = 34,
so sehen wir das 17597032 bei Division durch 3 den Rest 1 hat da 34 ≡ 1 mod 3
ist.
Da auch 10 ≡ 1 mod 9 gilt, ist n auch genau dann durch 9 teilbar wenn die
Quersumme dies ist. Im Zahlenbeispiel hat n = 17597032 bei Division durch 9
den Rest 7 da 34 ≡ 7 mod 9 ist.
5. Mit der Überlegung des vorigen Beispiels läßt sich auch schnell eine Bedingung
für die Teilbarkeit durch 11 herleiten. Modulo 11 ist 10 ≡ −1 mod 11, also ist
analog zur obigen Rechnung für eine Dezimalzahl n = ar . . . a0 auch
n ≡ a0 − a1 + a2 − · · · + (−1)r ar mod 11.
Auf der rechten Seite steht hier die sogenannte alternierende Quersumme, also
die mit wechselnden Vorzeichen gebildete Quersumme. Zum Beispiel ist für n =
17597032 die alternierende Quersumme 2 − 3 + 0 − 7 + 9 − 5 + 7 − 1 = 2,
also ist n nicht durch 11 teilbar und hat bei Division durch 11 den Rest 2. Als
Teilbarkeitsregel durch 11 ergibt sich also, dass eine Zahl genau dann durch 11
teilbar ist wenn ihre alternierende Quersumme durch 11 teilbar ist.
16
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
Vorlesung 3, Dienstag 17.4.2012
Wir waren gerade damit beschäftigt eine Beispiele zum Rechnen mit Restklassen
durchzugehen, und dies wollen wir nun fortsetzen.
6. Als nächstes Beispiel wollen wir uns die Teilbarkeitsregeln im Hexadezimalsystem
überlegen. Die Teilbarkeitsregeln für die Teilbarkeit durch 3 oder 9 im Dezimalsystem funktionierten weil 10 ≡ 1 mod 3 und 10 ≡ 1 mod 9 gelten. Im Hexadezimalsystem ist die Basis 16 statt 10. Wegen 16 ≡ 1 mod 3 und 16 ≡ 1 mod 5
können wir uns genau wie beim Dezimalsystem klarmachen, dass eine Hexadezimalzahl genau dann durch 3 beziehungweise 5 teilbar ist, wenn ihre Quersumme
dies ist. Ebenso ist 16 ≡ −1 mod 17, zur Teilbarkeit durch 17 = 0x11 hat man
also eine Teilbarkeitsregel über die alternierende Quersumme.
7. Wir kommen zu einem allerletzten Beispiel. Heute ist der 17te April 2012. Diese
Vorlesung findet im Steinitz-Hörsaal statt, und der damit gemeinte Steinitz hat
1894 in Breslau promoviert. Wir wollen uns jetzt überlegen welcher Wochentag
der 17te April im Jahr 1894 war. Überlegen wir uns zunächst einmal was der 17te
April letztes Jahr war. Ein Jahr hat 365 Tage und eine Woche hat 7 Tage, die
Wochentage wiederholen sich also alle 7 Tage und uns interessiert nur der Rest
von 365 modulo 7. Dieser ist 365 ≡ 1 mod 7, also haben wir in einem Jahr eine
Verschiebung um einen Wochentag. Allerdings ist 2012 eine Ausnahme da es sich
um ein Schaltjahr handelt und der Februar schon durch ist, also sind tatsächlich
366 ≡ 2 mod 7 Tage vergangen, der 17.4.2011 war also ein Sonntag. Zwischen
2012 und 1894 liegen 2012 − 1894 = 118 ≡ 6 mod 7 Jahre, also haben wir in
diesem Zeitraum eine Verschiebung von 6 Wochentagen, und wären bei Mittwoch.
Es gibt aber wieder die kleine Komplikation der Schaltjahre, alle vier Jahre haben
wir ein Schaltjahr mit 366 Tagen. Wegen 118/4 = 29, 5 und da 2012 selbst ein
Schaltjahr ist gab es zwischen 1894 und 2012 gerade 30 ≡ 2 mod 7 Schaltjahre,
und wir wären bei Montag. Das ist aber noch immer nicht wahr, alle 100 Jahre
fällt das Schaltjahr aus, aber alle 400 Jahre ist es doch da, d.h. wir haben ein
Schaltjahr im Jahr 1900 zuviel gerechnet, und somit war der 17.4.1894 tatsächlich
ein Dienstag.
$Id: gruppen.tex,v 1.14 2012/05/01 10:42:52 hk Exp $
17
Mathematik für Informatiker B, SS 2012
§2
Dienstag 17.4.2012
Gruppen
In diesem Kapitel beginnen wir mit der Untersuchung der algebraischen Grundstrukturen, und starten dabei mit den Gruppen. Um an das vorige Kapitel anzuschliessen, beginnen wir mit unseren Restklassen. Es sei m ∈ N∗ gegeben. Dann bezeichne
Zm wieder die Menge aller Restklassen modulo m, also explizit
Zm = {[0], [1], . . . , [m − 1]}.
Die Menge Zm ist eine endliche Menge mit m Elementen. Je zwei Elementen a, b ∈ Zm
hatten wir eine Summe a ⊕ b ∈ Zm und ein Produkt a b ∈ Zm zugeordnet. Diese
Addition“ und Multiplikation“ erfüllen einige einfache Rechenregeln:
”
”
1. Es gilt das sogenannte Assoziativgesetz der Addition dies bedeutet
a ⊕ (b ⊕ c) = (a ⊕ b) ⊕ c
für alle a, b, c ∈ Zm . Schreiben wir nämlich a = [k], b = [l] und c = [n] mit
k, l, n ∈ Z, so haben wir
a ⊕ (b ⊕ c) = [k] ⊕ ([l] ⊕ [n]) = [k] ⊕ [l + n] = [k + (l + n)] = [(k + l) + n]
= [k + l] ⊕ [n] = ([k] ⊕ [l]) ⊕ [n] = (a ⊕ b) ⊕ c
da die gewöhnliche Addition ganzer Zahlen das Assoziativgesetz erfüllt.
2. Analog haben wir auch das Assoziativgesetz der Multiplikation, also
a (b c) = (a b) c
für alle a, b, c ∈ Zm .
3. Addition und Multiplikation erfüllen auch das sogenannte Kommutativgesetz
a ⊕ b = b ⊕ a und a b = b a
für alle a, b ∈ Zm .
4. Die Restklasse [0] ∈ Zm wirkt als sogenannte neutrales Element der Addition,
dies bedeutet
a ⊕ [0] = [0] ⊕ a = a
für alle a ∈ Zm . Entsprechend ist die Restklasse [1] ein neutrales Element der
Multiplikation, wir haben
a [1] = [1] a = a
für alle a ∈ Zm .
18
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
5. Die Addition in Zm erlaubt es auch mit Minus“ zu rechnen, setzen wir für
”
a = [k] ∈ Zm
−a = −[k] := [−k] ∈ Zm ,
so haben wir
(−a) ⊕ a = a ⊕ (−a) = [0]
Der Begriff ist eine Verallgemeinerung dieser Situation. Wir haben nicht mehr speziell
die Restklassen modulo einer Zahl m sondern eine völlig beliebige Menge G auf der
eine zweistellige Verknüpfung (oder Operation) ∗ definiert ist, die gewisse Bedingungen erfüllt. Wir verwenden hier das neutrale Symbol ∗“ weil die Verknüpfung sowohl
”
Addition als auch Multiplikation oder etwas völlig anderes sein kann. Unter einer Verknüpfung auf der Menge G versteht man dabei einfach eine Abbildung
∗ : G × G → G,
d.h. je zwei Elementen a, b ∈ G wird von ∗ ein Produkt in G zugeordnet, das normalerweise in Infix-Notation als a ∗ b geschrieben wird. Neben den Gruppen selbst definieren
wir auch noch zwei Abschwächungen des Gruppenbegriffs.
Definition 2.1: Sei G eine Menge versehen mit einer zweistelligen Verknüpfung ∗ :
G × G → G.
(a) Das Paar (G, ∗) heißt eine Halbgruppe wenn ∗ das Assoziativgesetz
(a ∗ b) ∗ c = a ∗ (b ∗ c)
für alle a, b, c ∈ G erfüllt.
(b) Das Paar (G, ∗) heißt ein Monoid wenn (G, ∗) eine Halbgruppe ist und es ein
Element e ∈ G mit e ∗ a = a ∗ e = a für alle a ∈ G gibt. Ein solches Element e
heißt dann ein neutrales Element von (G, ∗).
(c) Das Paar (G, ∗) heißt eine Gruppe wenn (G, ∗) ein Monoid mit neutralen Element
e ∈ G ist und es für jedes a ∈ G ein zu a inverses Element inv(a) ∈ G mit
a ∗ inv(a) = e gibt.
Eine Halbgruppe (G, ∗) heißt kommutativ oder abelsch, wenn in ihr das Kommutativgesetz
a∗b=b∗a
für alle a, b ∈ G gilt.
Mit diesen Bezeichnung ist (Zm , ⊕) für jedes m ∈ N∗ eine kommutative Gruppe mit
neutralen Element e = [0] und inversen Elementen inv(a) = −a für a ∈ Zm . Dagegen ist
(Zm , ) nur ein kommutatives Monoid mit neutralen Element e = [1], da beispielsweise
a = [0] für m > 1 kein multiplikatives Inverses hat. Wir gehen noch einige weitere
Beispiele durch.
19
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
Das Paar (Q, +) ist eine kommutative Gruppe mit neutralen Element e = 0 und
für jedes a ∈ Q ist inv(a) = −a das zu a inverse Element. Dagegen ist (Q, ·) nur ein
kommutatives Monoid mit neutralen Element e = 1. Es handelt sich um keine Gruppe
da a = 0 kein multiplikatives Inverses hat. Nehmen wir die Null weg, so wird (Q∗ , ·)
aber eine kommutative Gruppe, denn für jedes a ∈ Q∗ haben wir das multiplikative
Inverse inv(a) = 1/a.
Für (Zm , ) funktioniert derselbe Trick leider nicht. Ist beispielsweise m = 10, so
haben wir [2], [5] ∈ Z∗10 mit [2] [5] = [10] = [0] ∈
/ Z∗10 . Damit ist die Multiplikation
von Restklassen nicht einmal eine Verknüpfung auf der Menge Z∗10 . Im vorigen Beispiel
(Q, ·) trat dieses Problem nicht auf, da das Produkt zweier von Null verschiedener
Zahlen wieder von Null verschieden ist.
Als ein Beispiel einer Verknüpfung die nicht einmal eine Halbgruppe, also nicht
assoziativ ist, haben wir etwa die Substraktion auf den ganzen Zahlen, also das Paar
(Z, −). Für alle a, b, c ∈ Z mit c 6= 0 sind
(a − b) − c 6= (a − b) + c = a − (b − c),
Subtraktion ist also nicht assoziativ. Es gibt auch Beispiele von Halbgruppen die keine
Monoide sind. Beispielsweise ist das Paar (N∗ , +) eine Halbgruppe da die Addition
assoziativ ist, aber kein Monoid da die Null nicht in N∗ liegt.
Als abschließendes Beispiel kommen wir zu den Restklassen zurück. Sei m ∈ N∗ .
Wir haben bereits gesehen, dass (Zm , ) im Allgemeinen keine Gruppe ist, und das
es auch nicht hilft die Null zu entfernen. Es gibt aber einen guten Fall in dem dieses
Phänomen nicht auftritt. Das Problem war ja das sich beispielsweise 10 = 2 · 5 als ein
Produkt zweier kleinerer Zahlen schreiben läßt, wann immer m diese Eigenschaft hat,
so kann (Z∗m , ) sicher keine Gruppe sein da es sich nicht einmal um eine Verknüpfung
handelt. Chancen haben wir also nur für diejenigen m, die sich nicht als ein solches
Produkt schreiben lassen, d.h. für die Primzahlen. Eine Primzahl ist dabei definiert als
eine Zahl m ∈ N mit m > 1 die sich nicht als ein Produkt zweier von 1 verschiedener
natürlicher Zahlen schreiben läßt. Für unsere Zwecke ist die folgende gleichwertige
Definition wichtig
Es ist m > 1 und für alle a, b ∈ Z
m ∈ N ist Primzahl ⇐⇒
mit m|ab ist stets m|a oder m|b.
Wir wollen uns diese Tatsache kurz überlegen. Sei also m ∈ N mit m > 1 gegeben.
”=⇒” Sei m eine Primzahl und seien a, b ∈ Z mit m|ab, d.h. es gibt ein q ∈ Z mit
ab = qm. Der größte gemeinsame Teiler von a und m ist eine natürliche Zahl die m
teilt, also muss ggt(a, m) = 1 oder ggt(a, m) = m sein. Im Fall ggt(a, m) = m ist m|a
und wir sind bereits fertig. Ist andererseits ggt(a, m) = 1, so gibt es nach §1.Satz 6
zwei Zahlen α, β ∈ Z mit αa + βm = 1, und dann ist
b = 1 · b = (αa + βm)b = αab + βmb = αqm + βbm = (αq + βb)m,
also haben wir m|b und sind wieder fertig.
20
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
”⇐=” Nun nehme umgekehrt an, dass aus m|ab für alle a, b ∈ Z stets m|a oder m|b
folgt. Angenommen m wäre keine Primzahl, d.h. es gibt natürliche Zahlen a, b ∈ N mit
a, b > 1 und m = ab. Dann ist aber auch m|ab, also m|a oder m|b, im Widerspruch zu
a < m und b < m. Dieser Widerspruch zeigt, dass m tatsächlich eine Primzahl sein
muss.
Damit ist diese Kennzeichnung der Primzahlen bewiesen. Sei jetzt m eine Primzahl.
Wie gerade gesehen folgt dann aus [a], [b] ∈ Z∗m stets auch [a][b] = [ab] ∈ Z∗m . Folglich
ist (Z∗m , ) zumindest ein Monoid mit neutralen Element e = [1].
Tatsächlich ist (Z∗m , ) sogar eine Gruppe. Sei nämlich a ∈ Z mit [a] 6= [0], also
m - a, gegeben. Wie im obigen Beweis ist dann ggt(m, a) = 1. Die Wechselsummendarstellung des größten gemeinsamen Teilers §1.Satz 6 liefert uns ganze Zahlen α, β ∈ Z
mit αm + βa = 1. Dies bedeutet aber
[1] = [αm + βa] = [αm] ⊕ [βa] = [0] ⊕ [aβ] = [aβ] = [a] [β],
d.h. inv([a]) = [β] ∈ Z∗m ist ein multiplikatives Inverses zu [a]. Damit ist (Z∗m , ) eine
Gruppe. Die Inversen können wir tatsächlich explizit berechnen. Die Zahlen α und
β konnten ja über den euklidischen Algorithmus wirklich berechnet werden, und wie
gesehen ist die Restklasse von β dann das gesuchte multiplikative Inverse. Nehmen wir
beispielsweise einmal die Primzahl m = 17 und wir suchen das multiplikative Inverse
von [6]. Führen wir den euklidischen Algorithmus durch
17 = 2 · 6 + 5, 5 = 17 − 2 · 6
6 = 1 · 5 + 1, 1 = 6 − 5 = 6 − (17 − 2 · 6) = 3 · 6 − 17,
so ergibt sich das Inverse inv([6]) = [3].
Zum Abschluß der Gruppenbeispiele wollen wir uns noch kurz die Möglichkeiten
zur expliziten Beschreibung von Gruppen anschauen. Eine solche haben wir jetzt reichlich gesehen, nämlich die Definition einer Gruppe durch geeignete explizite Formeln.
Für kleine, endliche Gruppen gibt es weiter die Beschreibung durch sogenannte Gruppentafeln. Dies hat in Wahrheit nichts mit Gruppen zu tun, solche Tafeln kann man
für beliebige zweistellige Operationen auf einer endlichen Menge einführen. Nehmen
wir einmal an, wir hätten eine solche endliche Menge M und eine zweistellige Operation ∗ auf M . Dann listen wir die Elemente von M in irgendeiner Reihenfolge auf,
etwa a, b, . . . , c. Dann konstruieren wir eine Tafel, also ein rechteckiges Schema, indem
a, b, . . . , c als Beschriftung der Zeilen und Spalten verwendet werden, und der Eintrag
der Tafel in der mit x ∈ M beschrifteten Zeile und der mit y ∈ M beschrifteten Spalte
sei x ∗ y. Also zum Beispiel auf der Menge M = Z5 der Restklassen modulo 5:
⊕
0
1
2
3
4
0
0
1
2
3
4
1
1
2
3
4
0
2
2
3
4
0
1
3
3
4
0
1
2
0
1
2
3
4
4
4
0
1
2
3
21
0
0
0
0
0
0
1
0
1
2
3
4
2
0
2
4
1
3
3
0
3
1
4
2
4
0
4
3
2
1
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
Hier sind links die Addition auf Z5 und rechts die Multiplikation auf Z5 gezeigt. Schauen wir uns die linke Tafel an, so können wir sofort einige wichtige Beobachtungen
machen. Zunächst kommt in jeder Zeile und in jeder Spalte der Gruppentafel jedes
der Elemente 0, . . . 4 genau einmal vor. Eine Tafel mit dieser Eigenschaft nennt man
auch ein lateinisches Quadrat. Als eine Aufgabe werden Sie einsehen, dass überhaupt
jede Gruppentafel ein lateinisches Quadrat ist. Lateinische Quadrate müssen aber umgekehrt keine Gruppen sein, das Assoziativgesetz läßt sich an der Gruppentafel nur
schlecht sehen. Die zweite Beobachtung ist, dass aufeinanderfolgende Zeilen der Tafel durch zyklisches Verschieben auseinander hervorgehen. Man spricht davon das Z5
eine sogenannte zyklische Gruppe ist, diesen Begriff werden wir später noch genauer
einführen.
Schauen wir uns noch kurz die rechte Tafel an. Hier handelt es sich um kein lateinisches Quadrat, zum Beispiel stehen in der ersten Zeile nur Nullen. Wenn wir allerdings
die erste Zeile und die erste Spalte streichen, so ergibt sich doch wieder ein lateinisches
Quadrat. Dieses ist gerade die Gruppentafel der Gruppe (Z∗5 , ), hieran sieht man
auch das die Zeilen einer Gruppentafel in der Regel nicht durch zyklisches Verschieben auseinander hervorgehen. Wenn durch Weglassen einiger Zeilen und Spalten einer
Gruppentafel wieder eine Gruppentafel entsteht, so spricht man allgemein von einer
Untergruppe. Diesen Begriff kann man dann allgemeiner auch für unendliche Gruppen
einführen, und erhält:
Definition 2.2: Eine Teilmenge U ⊆ G einer Gruppe (G, ∗) heißt Untergruppe von G,
wenn e ∈ U ist, a ∗ b ∈ U für alle a, b ∈ U gilt und auch inv(a) ∈ U für jedes a ∈ U ist.
Ist U eine Untergruppe von G, so können wir die Verknüpfung von G auf U einschränken und dann wir (U, ∗) selbst zu einer Gruppe. Dabei kann die Forderung e ∈ U
auch durch die gleichwertige Bedingung U 6= ∅ ersetzt werden. Haben wir nämlich eine
Teilmenge ∅ 6= U ⊆ G mit a ∗ b ∈ U und inv(a) ∈ U für alle a, b ∈ U , so können wir
wegen U 6= ∅ ein a ∈ U wählen und dann sind auch inv(a) ∈ U und e = a ∗ inv(a) ∈ U .
In der Gruppentafel lassen sich Untergruppen leicht erkennen, es handelt sich um Teiltafeln die für sich genommen ein lateinisches Quadrat bilden. Bevor wir zu Beispielen
kommen, wollen wir aber noch zwei allgemeine Tatsachen über Gruppen festhalten.
Beachte das wir in der Definition eines inversen Elements nur gefordert haben, dass
a ∗ inv(a) = e gilt, aber nicht gefordert wird das auch bei der Multiplikation mit inv(a)
von links wieder das neutrale Element herauskommt. Wir werden zeigen, dass dies
tatsächlich aus den anderen Gruppenaxiomen folgt. Ebenso hätte es für das neutrale
Element e ausgereicht a ∗ e = a für alle a zu fordern, aber dies soll hier nicht vorgeführt
werden. Ein zweites Lemma wird sich auf die Eindeutigkeitsfrage von neutralen und
inversen Elementen beziehen. Zunächst wäre es denkbar, dass es mehrere verschiedene
neutrale Elemente gibt oder das ein Element der Gruppe mehrere inverse Elemente
zuläßt. Dass dies nicht möglich ist, werden Sie als eine Übungsaufgabe zeigen.
Lemma 2.3: Sei (G, ∗) eine Gruppe. Dann gilt für jedes Element a ∈ G auch
inv(a) ∗ a = e,
22
Mathematik für Informatiker B, SS 2012
Dienstag 17.4.2012
wobei e das neutrale Element der Gruppe bezeichnet.
Beweis: Sei a ∈ G. Dann haben wir
inv(a) ∗ a = (inv(a) ∗ a) ∗ e = (inv(a) ∗ a) ∗ (inv(a) ∗ inv(inv(a)))
= ((inv(a) ∗ a) ∗ inv(a)) ∗ inv(inv(a)) = (inv(a) ∗ (a ∗ inv(a))) ∗ inv(inv(a))
= (inv(a) ∗ e) ∗ inv(inv(a)) = inv(a) ∗ inv(inv(a)) = e.
Lemma 2.4 (Eindeutigkeit neutraler und inverser Elemente)
In einer Gruppe (G, ∗) gibt es nur ein neutrales Element und zu jedem a ∈ G auch nur
ein inverses Element.
Beweis: Dies ist wie bereits bemerkt eine Übungsaufgabe.
Eine nützliche Folgerung aus diesen beiden Lemmata ist die für alle a ∈ G gültige
Gleichung
inv(inv(a)) = a.
Denn die Aussage inv(a) ∗ a = e aus Lemma 3 können wir so interpretieren, dass a
ein inverses Element zu inv(a) ist, und die Eindeutigkeit des Inversen gemäß Lemma 4
liefert dann inv(inv(a)) = a.
Wir schauen uns nun einige Beispiele von Untergruppen an.
1. Die Gruppe (Z, +) eine Untergruppe von (Q, +).
2. Dagegen ist (N, +) keine Untergruppe von (Z, +), da ja zum Beispiel 1 ∈ N aber
inv(1) = −1 ∈
/ N ist.
3. Als ein etwas komplizierteres Beispiel wollen wir uns jetzt die Untergruppen von
(Z, +) anschauen. Wir behaupten das für jede natürliche Zahl a ∈ N die Menge
aller Vielfachen von a, also
Ua := {qa|q ∈ Z} ⊆ Z
eine Untergruppe von (Z, +) ist. Gehen wir also die drei definierenden Bedingungen einer Untergruppe durch. Zunächst ist 0 = 0 · a ∈ Ua , also enthält Ua das
neutrale Element 0 von (Z, +). Sind weiter q, q 0 ∈ Z, so sind auch
qa + q 0 a = (q + q 0 )a ∈ Ua und − qa = (−q) · a ∈ Ua ,
d.h. Ua ist wirklich eine Untergruppe von (Z, +). Tatsächlich sind die Ua bereits
alle Untergruppen von (Z, +), dies wollen wir hier aber nicht weiter ausführen.
23
Mathematik für Informatiker B, SS 2012
2.1
Donnerstag 19.4.2012
Isomorphe Gruppen
Vorlesung 4, Donnerstag 19.4.2012
In der letzten Sitzung hatten unter anderen den Begriff einer Gruppe eingeführt und
auch schon einige Beispiele von Gruppen vorgeführt. Wir wollen diese Untersuchungen
jetzt noch etwas weiter fortführen und als nächsten Begriff die Isomorphie, oder strukturelle Gleichheit, von Gruppen einführen. Um zu sehen, was dies bedeutet betrachten
wir erst einmal die folgenden beiden Gruppen
0 1
0 0 1
1 1 0
und
a b
a a b
b b a
Diese beiden Gruppen sind sicherlich nicht gleich, sie haben ja nicht einmal dieselben
Elemente. So richtig verschieden sind sie aber auch nicht, die rechte Tafel entsteht aus
der linken indem man einfach a“ statt 0“ und b“ statt 1“ schreibt, es liegt also
”
”
”
”
nur eine Umbenennung der Elemente vor. Man spricht in solchen Situationen davon,
dass die beiden Gruppen isomorph sind. Für eine exakte Definition müssen wir den
Begriff nun formal genau erfassen. Seien also zwei Gruppen (G, ∗) und (H, ⊗) gegeben.
Die Umbenennung bedeutet das jedem Element von G ein eindeutiges Element von H
entspricht und umgekehrt, dass wir also in anderen Worten eine bijektive Abbildung
f : G → H haben. Was bedeutet jetzt, dass sich die Gruppentafeln dabei ineinander
übertragen? In der Zeile x ∈ G und Spalte y ∈ G der Gruppentafel von (G, ∗) steht
das Produkt x ∗ y. Die x und y entsprechenden Elemente von H sind f (x) und f (y),
also muss in Zeile f (x) und Spalte f (y) der Gruppentafel von (H, ⊗) das x ∗ y entsprechende Element stehen, und dieses ist f (x ∗ y). Andererseits steht dort f (x) ⊗ f (y), wir
benötigen also die Bedingung f (x ∗ y) = f (x) ⊗ f (y). Es stellt sich als sinnvoll heraus,
diese Eigenschaft von f auch für allgemeine, nicht notwendig bijektive, Abbildungen f
von G nach H zu untersuchen.
Definition 2.5: Eine Abbildung f : G1 → G2 zwischen zwei Gruppen (G1 , ∗) und
(G2 , ⊗) heißt Homomorphismus (oder ausführlicher Gruppenhomomorphismus), wenn
f (a ∗ b) = f (a) ⊗ f (b)
für alle a, b ∈ G1 gilt. Ist f dabei bijektiv, so heißt f ein Isomorphismus, beziehungsweise Gruppenisomorphismus, und G1 und G2 werden isomorph genannt.
Wir wollen einige Beispiele durchgehen.
1. Die Funktion f : (Z, +) → (Z, +); x 7→ 2x ist ein Gruppenhomomorphismus,
denn für alle x, y ∈ Z gilt f (x + y) = 2(x + y) = 2x + 2y = f (x) + f (y).
24
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
2. Die Funktion f : (Z, +) → (Z, +); x 7→ x2 ist dagegen kein Gruppenhomomorphismus, denn im allgemeinen ist f (x + y) = (x + y)2 = x2 + 2xy + y 2 6= x2 + y 2 =
f (x) + f (y).
3. Sei n ∈ N∗ . Dann ist die Funktion f : (Z, +) → (Zn , ⊕); x 7→ [x], die jede ganze
Zahl auf ihre Restklasse modulo n abbildet, ein Gruppenhomomorphismus. Die
Homomorphiebedingung
!
f (x + y) = [x + y] = [x] ⊕ [y] = f (x) + f (y)
für x, y ∈ Z ist dabei direkt die Definition der Addition von Restklassen modulo
n.
4. Die Abbildung f : (Z, +) → (Z, +); x 7→ −x ist ein Gruppenisomorphismus, denn
bijektiv ist sie allemal und für x, y ∈ Z gilt stets f (x + y) = −(x + y) = −x − y =
f (x) + f (y).
5. Zum Abschluß noch ein etwas komplizierteres Beispiel. Die Exponentialabbildung
f : (R, +) → (R>0 , ·); x 7→ ex
ist ein Gruppenisomorphismus. Dabei werden wir ex eigentlich erst etwas später
in diesem Semester behandeln, daher verlasse ich mich hier auf Ihre Erinnerungen
aus der Schulzeit. Dort haben Sie gelernt das f die reellen Zahlen bijektiv auf die
positiven reellen Zahlen abbildet. Die Homomorphiebedingung besagt
!
f (x + y) = ex+y = ex · ey = f (x) · f (y)
und dies ist gerade die Haupteigenschaft der e-Funktion, ihre Funktionalgleichung.
6. Wir wollen jetzt auch noch ein letztes Beispiel betrachten, das die Gruppentafeln
der beiden betrachteten Gruppen verwendet. Wir wollen die beiden folgenden
Gruppen auf vier Elementen 0, 1, 2, 3 betrachten:
∗
0
1
2
3
0
0
1
2
3
1
1
2
3
0
2
2
3
0
1
3
3
0
1
2
und
⊗
0
1
2
3
0
0
1
2
3
1
1
3
0
2
2
2
0
3
1
3
3
2
1
0
Wir behaupten, dass diese beiden Gruppen isomorph sind wobei der Isomorphismus durch Vertauschen von 2 und 3 gegeben ist. Diese Behauptung wollen wir
nun verifizieren. Wir müssen in der linken Tafel die dritte und die vierte Zeile
sowie Spalte jeweils miteinander vertauschen. Beachte das dies im linken, unteren 2 × 2-Kästchen zum Vertauschen der beiden Zeilen führt, im rechten, oberen
25
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
2×2-Kästchen zum Vertauschen der beiden Spalten und im rechten, unteren 2×2Kästchen muss beides zugleich gemacht werden, d.h. die Einträge werden über
Kreuz ausgetauscht. Anschließend müssen dann noch in den Tafeleinträgen die
2 und die 3 miteinander vertauscht werden. Der Übersichtlichkeit halber führen
wir dies hier in zwei Schritten durch
0
1
2
3
0
0
1
2
3
1
1
2
3
0
2
2
3
0
1
3
3
0
1
2
Vertauschen
−→
0
1
2
3
0
0
1
3
2
1
1
2
0
3
2
3
0
2
1
3
2
3
1
0
Umbenennen
−→
0
1
2
3
0
0
1
2
3
1
1
3
0
2
2
2
0
3
1
3
3
2
1
0
Insgesamt ist also die durch f (0) = 0, f (1) = 1, f (2) = 3 und f (3) = 2 gegebene
Abbildung ein Gruppenisomorphismus.
Bevor wir fortfahren wollen wir noch eine Grundeigenschaft von Gruppenisomorphismen und allgemeiner von Gruppenhomomorphismen festhalten.
Lemma 2.6: Seien (G1 , ∗) und (G2 , ⊗) Gruppen mit neutralen Elementen e1 ∈ G1 und
e2 ∈ G2 . Dann gilt für jeden Homomorphismus f : G1 → G2 stets
f (e1 ) = e2 und f (inv(a)) = inv(f (a))
für alle a ∈ G1 .
Beweis: Zunächst gilt
f (e1 ) = f (e1 ∗ e1 ) = f (e1 ) ⊗ f (e1 ),
und damit ist auch
f (e1 ) = f (e1 ) ⊗ e2 = f (e1 ) ⊗ f (e1 ) ⊗ inv(f (e1 )) = f (e1 ) ⊗ inv(f (e1 )) = e2 .
Dies zeigt die erste Behauptung. Nun sei a ∈ G gegeben. Die Eindeutigkeit inverser
Elemente nach Lemma 4 ergibt, dass wir nur zeigen müssen das f (inv(a)) ∈ G2 die
definierende Eigenschaft eines inversen Elements zu f (a) ∈ G2 hat. Dies ergibt sich aus
f (a) ⊗ f (inv(a)) = f (a ∗ inv(a)) = f (e1 ) = e2 .
26
Mathematik für Informatiker B, SS 2012
2.2
Donnerstag 19.4.2012
Klassifikation von Gruppen
Unter der Klassifikation von Gruppen versteht man die Beschreibung der möglichen
Isomorphietypen von Gruppen, beziehungsweise spezieller Klassen von Gruppen. Was
dabei genau unter einer Beschreibung“ zu verstehen ist, ist nicht ganz eindeutig fest”
gelegt, sondern hängt immer von den gerade verfolgten Zielen beziehungsweise von dem
was für die betrachtete Sorte von Gruppen überhaupt möglich ist, ab. Die einfachste
Art von Klassifikation ist eine vollständige Auflistung, also die Angabe einer Liste in
der jede der betrachteten Gruppen bis auf Isomorphie an genau einer Stelle auftaucht.
Für die ganz kleinen Gruppen werden wir dies hier vorführen.
2.2.1
Klassifikation der Gruppen mit einem Element
Eine solche Gruppe besteht nur aus ihrem neutralen Element, und je zwei gehen durch
Umbenennung eben dieses neutralen Elements auseinander hervor. Bis auf Isomorphie
gibt es also nur eine Gruppe mit einem Element.
2.2.2
Klassifikation der Gruppen mit zwei Elementen
In einer solchen Gruppe haben wir das neutrale Element e und ein weiteres Element
a. Die Gruppentafel hat also die Gestalt
e a
e e a
a a Nach Aufgabe (10) taucht in jeder Zeile und in jeder Spalte einer Gruppentafel jedes
Element genau einmal auf, die Tafel läßt sich also nur auf eine einzige Weise auffüllen
e a
e e a
a a e
Schreiben wir 0 statt e und 1 statt a, so erkennen wir hier die Gruppentafel von (Z2 , ⊕).
Bis auf Isomorphie gibt es also auch genau eine Gruppe mit zwei Elementen, nämlich
(Z2 , ⊕).
2.2.3
Klassifikation der Gruppen mit drei Elementen
Eine Gruppe mit drei Elementen hat ihr neutrales Element e und zwei weitere Elemente
a, b. Die Verknüpfungstafel ist
e a b
e e a b
a a b b
27
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
Starten wir mit dem markierten Eintrag. Dieser ist e oder b, aber würden wir e nehmen,
so müsste rechts daneben b stehen, was nicht geht. Wir sind also gezwungen die markierte Stelle mit b zu belegen. Für die restlichen drei Einträge gibt es dann überhaupt
keine Wahlfreiheiten mehr, und wir erhalten die Tafel
e
e e
a a
b b
a
a
b
e
b
b
e
a
Bis auf Isomorphie gibt es also höchstens eine Gruppe mit drei Elementen, nämlich
die mit der oben stehenden Tafel. Andererseits kennen wir schon die Gruppe (Z3 , ⊕)
mit drei Elementen, und damit gibt es bis auf Isomorphie genau eine Gruppe mit drei
Elementen, nämlich (Z3 , ⊕).
2.2.4
Klassifikation der Gruppen mit vier Elementen (teilweise)
Die Gruppen mit vier Elementen stellen sich als etwas komplizierter als diejenigen
mit 1, 2, 3 Elementen heraus. Hier gibt es erstmals echte Wahlmöglichkeiten in der
Gruppentafel und es gibt auch nicht isomorphe Gruppen. Wir wollen diesen Fall hier
nicht vollständig vorführen, aber zumindest zeigen was so getan werden muss. Man
nennt das neutrale Element wieder e und die drei anderen Elemente seien a, b, c. Die
erste frei Stelle in der Gruppentafel ist dann wieder a ∗ a, und dies könnte irgendein
Gruppenelement ungleich a sein. Man beginnt dann damit einfach die verschiedenen
Möglichkeiten durchzugehen, starten wir etwa mit a ∗ a = e. Durch diese Wahl werden
sofort auch einige weitere Einträge festgelegt, und wir kommen bis zur folgenden Tafel
e
a
b
c
e
e
a
b
c
a b c
a b c
e c b
c b
An der markierten Stelle können wir jetzt e oder a eintragen. Nachdem wir uns für
eine der Möglichkeiten entschieden haben ist alles weitere festgelegt. Dies führt auf
e
a
b
c
e
e
a
b
c
a
a
e
c
b
b
b
c
e
a
c
c
b
a
e
und
e
a
b
c
e
e
a
b
c
a
a
e
c
b
b
b
c
a
e
c
c
b
e
a
Dies sind beides Kandidaten für Gruppen mit vier Elementen, und wir müssten jetzt
überprüfen ob es sich um Gruppen handelt. Für die zweite Tafel führen wir eine kleine
28
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
Umbenennung durch
e
a
b
c
e
e
a
b
c
a
a
e
c
b
b
b
c
a
e
c
0
c
0 0
e = 0, a = 2,
−→ 1 1
b −→
b = 1, c = 3
e
2 2
a
3 3
1
1
2
3
0
2
2
3
0
1
3
3
0
1
2
und sehen das es sich um die Gruppe (Z4 , ⊕) handelt. Auch die erste Tafel ist die Tafel
einer Gruppe. Bezeichnen wir die mit Verknüpfung mit ∗“, so ist x ∗ x = e für alle x,
”
und sind x 6= y und x, y 6= e, so ist x ∗ y das dritte von e verschiedene Element. Hieraus
ergibt sich leicht das Assoziativgesetz. Sind etwa x, y, z 6= e paarweise verschieden, so
ist x ∗ y = z und (x ∗ y) ∗ z = z ∗ z = e und y ∗ z = x, x ∗ (y ∗ z) = x ∗ x = e. Die
anderen Fälle für x, y, z sind leichter und sollen jetzt nicht mehr vorgeführt werden.
Die beiden obigen Tafeln hatten wir durch die Wahl a ∗ a = e erhalten. Jetzt kann
man so fortfahren und auch die anderen möglichen Tafeln bestimmen. Dies werden
wir jetzt nicht mehr tun, es kommen zwar noch einige neue Tafeln hinzu, aber diese
führen alle auf Gruppen, die zu einer der beiden obigen Gruppen isomorph sind. Wenn
Sie Aufgabe (11) bearbeit haben, wissen Sie das noch zwei weitere Kandidatentafeln
auftauchen, die beides Gruppentafeln sind. Damit gibt es bis auf Isomorphie höchstens
zwei Gruppen mit vier Elementen. Um zu sehen, dass es genau zwei sind, muss man sich
noch überlegen, dass die beiden gefundenen Gruppen nicht isomorph sind. Dies kann
man entweder durch Durchprobieren aller möglichen Isomorphismen machen, das sind
ja nur sechs Stück, oder sich überlegen das bei isomorphen Gruppen auf der Diagonale
der Gruppentafel das neutrale Element gleich häufig auftauchen muss. Weil es in der
linken Tafel vier mal, in der rechten Tafel aber nur zweimal auftaucht, können die
beiden Gruppen damit nicht isomorph sein.
Gruppen mit noch mehr Elementen lassen sich immer schlechter durch die bisher
benutzte Methode des Auflistens möglicher Gruppentafeln behandeln. Was man anstelle dessen macht gehört aber nicht mehr zum Stoff dieser Vorlesung. Als Anzahl von
Isomorphietypen ergeben sich
n
1
1
2
1
3
1
4
2
5
1
6
2
7
1
8
5
9
2
10
2
11
1
12
5
13
1
14
2
15
1
16
14
17
1
Für die Zahl der Isomorphietypen ist die numerische Größe von n gar nicht so wichtig,
entscheidend ist vielmehr die Primzerlegung von n. Ist n beispielsweise eine Primzahl,
so gibt es bis auf Isomorphie immer nur eine eindeutige Gruppe. Besonders viele Typen
gibt es für n = 8 = 23 und n = 16 = 24 , hier sind eben die Exponenten in der
Primzerlegung schon etwas größer.
29
Mathematik für Informatiker B, SS 2012
2.3
Donnerstag 19.4.2012
Zyklische Gruppen
Sei (G, ∗) eine Gruppe mit neutralen Element e. Wir können dann Potenzen von Elementen von G einführen, indem für a ∈ G, n ∈ N∗
an := a
| ∗ a ∗{z· · · ∗ a}
n mal
definiert wird. Diese Operation erfüllt dann die üblichen Potenzrechenregeln
an ∗ am = an+m und (an )m = anm
für alle a ∈ G, n, m ∈ N∗ . Die erste Regel ergibt sich dabei als
n+m
an ∗ am = a
| ∗ a ∗{z· · · ∗ a} ∗ a
| ∗ a ∗{z· · · ∗ a} = a
| ∗ a ∗{z· · · ∗ a} = a
n mal
m mal
n + m mal
und für die zweite Regel rechnen wir
n
n
(an )m = a
∗ · · · ∗ an} = a
| ∗ a {z
| ∗ a ∗{z· · · ∗ a} ∗ · · · ∗ a
| ∗ a ∗{z· · · ∗ a}
m mal
n mal
| n mal
{z
}
m mal
nm
=a
| ∗ a ∗{z· · · ∗ a} = a .
nm mal
Die Potenzen von Gruppenelementen kann man auch noch auf ganzzahlige Exponenten
ausdehnen, indem für a ∈ G, n ∈ N∗ zusätzlich
a0 := e und a−n := inv(an )
definiert wird. Beispielsweise ist dann a−1 = inv(a). Als eine Übungsaufgabe kann man
sich überlegen, dass die Potenzrechenregeln auch bei beliebigen ganzzahligen Exponenten n, m ∈ Z gültig bleiben.
Am Ende der letzten Sitzung hatten wir die Potenzen an eines Elements a einer
Gruppe G eingeführt, und nachgewiesen das diese die Potenzrechenregeln
an ∗ am = an+m , (an )m = anm
für alle n, m ∈ Z erfüllen. Diese Potenzen erlauben es uns jetzt eine wichtige spezielle
Sorte von Gruppen einzuführen, die sogenannten zyklischen Gruppen. Wenn man jedes
Element einer Gruppe durch eine geeignete Potenz ein und desselben Elements darstellen kann, so spricht man von einer solchen zyklischen Gruppe. Die genaue Definition
einer lautet:
Definition 2.7: Eine Gruppe G heißt zyklisch, wenn es ein a ∈ G gibt so, dass
G = {ak |k ∈ Z}
30
Mathematik für Informatiker B, SS 2012
Donnerstag 19.4.2012
gilt. Dieses Element a heißt dann ein erzeugendes Element der Gruppe G, oder auch
ein Erzeuger von G.
Wir kennen auch schon einige Beispiele zyklischer Gruppen. Ist beispielsweise m ∈
N∗ , so ist die Gruppe (Zm , ⊕) zyklisch mit dem Erzeuger a = [1]. Ist nämlich k ∈
{0, 1, . . . , m − 1} gegeben so ist
[k] = [1] ⊕ · · · ⊕ [1] = k[1]
|
{z
}
k mal
die k-te Potenz“ von a. Wir schreiben hier k[1] statt [1]k da dies bei additiv geschrie”
bener Verknüpfung üblich ist, man spricht dann meist auch von Vielfachen statt von
Potenzen. Eine weiteres Beispiel einer zyklischen Gruppe ist die Gruppe (Z, +) mit dem
Erzeuger a = 1, hier gilt direkt k = ka für jedes k ∈ Z. Ein weniger offensichtliches
Beispiel, das wir hier auch nicht beweisen wollen, ist die multiplikative Gruppe (Z∗p , )
wenn p eine Primzahl ist. Dieses Beispiel wird in einer Übungsaufgabe näher untersucht werden. Wir kommen nun zu einer allgemeinen Aussage über endliche zyklische
Gruppen.
Lemma 2.8 (Endliche zyklische Gruppen)
Sei (G, ∗) eine endliche zyklische Gruppe mit n ∈ N Elementen und bezeichne e das
neutrale Element von G. Dann gilt an = e für jedes erzeugende Element a ∈ G.
Beweis: Da G zyklisch mit erzeugenden Element a ist, gilt G = {ak |k ∈ Z}. Da G
endlich ist, können die Elemente e, a, a2 , a3 , . . . von G nicht alle verschieden sein, es
gibt also m, i ∈ Z mit 0 ≤ i < m und ai = am . Dabei wählen wir i und m der Reihe
nach minimal. Die Potenzrechenregeln ergeben
am−i = am ∗ a−i = am ∗ inv(ai ) = ai ∗ inv(ai ) = e = a0 ,
und die minimale Wahl von i ergibt i = 0. Damit ist auch am = ai = a0 = e und die
Minimalität von m besagt aj 6= e für alle 1 ≤ j < m. Die Elemente e, a, a2 , . . . , am−1
sind paarweise verschieden, denn andernfalls gäbe es 0 ≤ j < k < m mit aj = ak , und
wie oben folgt ak−j = e mit 0 < k − j ≤ k < m, im Widerspruch zur Minimalität
von m. Weiter sind dies überhaupt alle Elemente von G, ist nämlich k ∈ Z beliebig, so
liefert die Division mit Rest §1.Lemma 1 zwei ganze Zahlen q, r ∈ Z mit 0 ≤ r < m
und k = qm + r, und die Potenzrechenregeln ergeben
ak = aqm+r = aqm ∗ ar = (am )q ∗ ar = eq ∗ ar = e ∗ ar = ar ∈ {e, a, . . . , am−1 },
und es folgt
G = {ak |k ∈ Z} = {ak |0 ≤ k < m}.
Insbesondere ist n = m die Anzahl der Elemente von G, und damit ist an = am = e.
31
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
Vorlesung 5, Dienstag 24.4.2012
Wir hatten am Ende der letzten Sitzung bewiesen, dass in einer endlichen zyklischen
Gruppe G = {ak |k ∈ N} mit n Elementen für das erzeugende Element a stets an = e
gilt, wobei e das neutrale Element der Gruppe bezeichnete. Dieses Lemma können wir
auch noch etwas umformulieren. Angenommen wir haben eine beliebige ganze Zahl k ∈
Z. Führen wir die Division mit Rest nach §1.Lemma 1 durch, so können wir k = qn + r
mit einem Rest 0 ≤ r < n schreiben. Eine Anwendung der Potenzrechenregeln liefert
dann
ak = aqn+r = aqn ∗ ar = (an )q ∗ ar = eq ∗ ar = ar ,
man kann im Exponenten also modulo n rechnen. Diese Beobachtung ist die Grundlage für die Bestimmung der zyklischen Gruppen bis auf Isomorphie, auf die wir hier
aber verzichten wollen. Wir wollen noch eine weitere wichtige Folgerung aus Lemma
8 ziehen, und den sogenannten kleinen Satz von Fermat beweisen. Mit diesem Namen
werden diverse ähnliche aber verschiedene Aussagen bezeichnet, wundern Sie sich also
nicht wenn Ihnen auch etwas andere Aussagen als kleiner Satz von Fermat verkauft
werden. Wir benötigen einige kleine Vorbereitungen, seien hierzu eine Gruppe G und
eine Untergruppe U von G gegeben.
1. Für alle a, b ∈ G gilt die Gleichung
inv(a ∗ b) = inv(b) ∗ inv(a).
Dies ist leicht einzusehen, nach Lemma 4 ist nur zu zeigen, dass sich das Produkt
inv(b) ∗ inv(a) wi das neutrale Element von a ∗ b verhält. Hierzu rechnen wir
(a ∗ b) ∗ (inv(b) ∗ inv(a)) = a ∗ (b ∗ inv(b)) ∗ inv(a) = a ∗ e ∗ inv(a) = a ∗ inv(a) = e,
und damit gilt tatsächlich inv(a ∗ b) = inv(b) ∗ inv(a).
2. Nun behaupten wir das durch
a ∼ b :⇐⇒ a ∗ inv(b) ∈ U
für a, b ∈ G eine Äquivalenzrelation auf der Menge G definiert wird. Hierzu
müssen wir die drei definierenden Eigenschaften einer Äquivalenzrelation durchgehen. Für jedes a ∈ G haben wir zunächst a ∗ inv(a) = e ∈ U , d.h. a ∼ a und
somit ist unsere Relation reflexiv. Die Symmetrie ist die komplizierteste Eigenschaft, sind a, b ∈ G mit a ∼ b, so gilt a ∗ inv(b) ∈ U , und da U eine Untergruppe
ist folgt damit auch
b ∗ inv(a) = inv(inv(b)) ∗ inv(a) = inv(a ∗ inv(b)) ∈ U,
32
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
d.h. wir haben b ∼ a, und unsere Relation ist symmetrisch. Sind schließlich
a, b, c ∈ G mit a ∼ b und b ∼ c, also a ∗ inv(b) ∈ U und b ∗ inv(c) ∈ U , so folgt
mit Lemma 3 auch
a ∗ inv(c) = a ∗ e ∗ inv(c) = a ∗ (inv(b) ∗ b) ∗ inv(c) = (a ∗ inv(b)) ∗ (b ∗ inv(c)) ∈ U,
erneut da U eine Untergruppe ist. Somit ist unsere Relation auch transitiv und
insgesamt eine Äquivalenzrelation.
3. Nun behaupten wir, dass die Äquivalenzklasse jedes Elements b ∈ G genau
[b] = U ∗ b = {x ∗ b|x ∈ U }
ist. In der Tat, ist a ∈ G, so ist a ∗ inv(b) ∈ U nach Lemma 3 und Aufgabe (10)
gleichwertig zu
a = a ∗ e = a ∗ (inv(b) ∗ b) = (a ∗ inv(b)) ∗ b ∈ U ∗ b,
d.h. wir haben
[b] = {a ∈ G|a ∼ b} = {a ∈ G|a ∗ inv(b) ∈ U } = U ∗ b.
4. Nun nehme zusätzlich an, dass G endlich ist. Für jedes b ∈ G ist dann wieder
nach Aufgabe (10)
|[b]| = |U ∗ b| = |{x ∗ b|x ∈ U }| = |U |,
d.h. jede unserer Äquivalenzklassen hat genauso viele Elemente wie U . Da G die
disjunkte Vereinigung dieser Äquivalenzklassen ist, folgt
|G| = (Anzahl der Äquivalenzklassen von ∼) · |U |,
also ist |U ||G|. Die Elementeanzahl einer Untergruppe ist also immer ein Teiler
der Elementeanzahl der gesamten Gruppe.
Damit können wir jetzt den schon erwähnten kleinen Satz von Fermat beweisen.
Satz 2.9 (Kleiner Satz von Fermat)
Sei (G, ∗) eine endliche Gruppe mit neutralen Element e. Dann gilt für jedes a ∈ G
die Gleichung a|G| = e, wobei |G| für die Anzahl der Elemente von G steht.
Beweis: Sei a ∈ G gegeben. Wir betrachten dann die Menge
U := {ak |k ∈ Z} ⊆ G
der Potenzen von a, und behaupten das U eine Untergruppe von G ist. Wegen e =
a0 ∈ U ist dabei U 6= ∅. Sind k, l ∈ Z, so ergeben die Potenzrechenregeln auch
ak ∗ al = ak+l ∈ U und inv(ak ) = (ak )−1 = a−k ∈ U,
33
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
d.h. U erfüllt die drei Bedingungen einer Untergruppe. Weiter ist die Gruppe (U, ∗)
zyklisch mit dem erzeugenden Element a. Als Teilmenge der endlichen Menge G ist U
auch endlich, und es bezeichne n ∈ N die Anzahl der Elemente von U . Nach Lemma 8
ist dann an = e. Wie gerade gezeigt ist n ein Teiler von |G|, d.h. es existiert ein m ∈ Z
mit |G| = nm. Damit ist auch
a|G| = anm = (an )m = em = e,
wie behauptet.
Als eine kleine Anwendung wollen wir uns die zahlentheoretische Form des kleinen
Satzes von Fermat überlegen. Hierzu sei eine Primzahl p gegeben. Dann haben wir
die Gruppe (Z∗p , ) mit p − 1 Elementen, und nach dem kleinen Satz von Fermat gilt
ap−1 = e = [1] für jedes a ∈ Z∗p . Dies bedeutet [ap−1 ] = [a]p−1 = [1] für jedes a ∈ Z
mit p - a, d.h. für alle a ∈ Z die keine Vielfachen von p sind, ist ap−1 ≡ a mod p.
Multiplizieren wir diese Kongruenz noch mit a, so ergibt sich
ap ≡ a mod p
für jedes a ∈ Z, denn im Fall p | a ist dies trivialerweise wahr. Dies ist die zahlentheoretische Form des kleinen Satzes von Fermat. Beispielsweise wissen wir damit, ohne
irgendetwas ausrechnen zu müssen, dass 917 ≡ 9 mod 17 gilt. Ist p keine Primzahl, so
ist diese Kongruenz häufig falsch, sind zum Beispiel p = 6 und a = 2, so haben wir
26 = 64 ≡ 4 6≡ 2 mod 6.
2.4
Permutationsgruppen
Es sei M eine beliebige Menge. Dann bildet die Menge
SM := {f : M → M |f ist eine bijektive Abbildung}
aller bijektiven Abbildungen von M auf sich selbst versehen mit der Hintereinanderausführung ◦ von Abbildungen als zweistellige Verknüpfung eine Gruppe (SM , ◦). Überprüfen wir einmal die Gruppenaxiome. Dass die Komposition von Abbildungen das
Assoziativgesetz (h ◦ g) ◦ f = h ◦ (g ◦ f ) für alle f, g, h ∈ SM erfüllt wissen Sie schon aus
Teil A im letzten Semester. Die Begründung hierfür war auch recht einfach, für jedes
x ∈ M gelten ja
((h ◦ g) ◦ f )(x) = (h ◦ g)(f (x)) = h(g(f (x)))
und
(h ◦ (g ◦ f ))(x) = h((g ◦ f )(x)) = h(g(f (x))).
Damit ist (SM , ◦) schon mal eine Halbgruppe. Ein neutrales Element der Hintereinanderausführung ist auch leicht zu finden, es handelt sich um die identische Abbildung
idM : M → M ; x 7→ x.
34
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
Damit ist (SM , ◦) ein Monoid. Außerdem ist für jedes f ∈ SM die Umkehrabbildung
f −1 : M → M das zu f bezüglich Hintereinanderausführung inverse Element. Damit
ist (SM , ◦) wirklich eine Gruppe.
Hat die Menge M mindestens drei Elemente, so ist die Gruppe SM nicht kommutativ. Wähle nämlich drei verschiedene Elemente x, y, z ∈ M . Dann betrachten wir die
beiden Permutationen f, g ∈ SM gegeben durch




y,
u
=
x,

z, u = y,
f (u) = x, u = y, und g(u) = y, u = z,




u, u 6= x, y
u, u 6= y, z
für alle u ∈ M , d.h. f vertauscht nur x und y und g vertauscht y und z. Dann sind
g(f (x)) = g(y) = z aber f (g(x)) = f (x) = y 6= z,
also insbesondere g ◦ f 6= f ◦ g.
Ein besonders wichtiger Spezialfall liegt vor,
wenn M = {1, . . . , n} die Menge der ersten n
.....
natürlichen Zahlen für ein n ∈ N∗ ist. Man nennt
Sn := SM dann die symmetrische Gruppe auf n
Ziffern. Die Gruppe Sn ist eine endliche Gruppe, deren Elemente wir leicht zählen können.
.....
Für das Bild f (1) der 1 können wir jedes Element von M = {1, . . . , n} verwenden, es gibt
also n Möglichkeiten für f (1). Das Bild von 2 unterliegt dann schon einer kleinen Einschränkung, weil f bijektiv sein soll muss f (2) 6= f (1) sein, wir haben also nur noch
n − 1 Möglichkeiten für f (2). Für das Bild von 3 haben wir schon zwei Bedingungen
f (3) 6= f (1) und f (3) 6= f (2) mit n − 2 verbleibenden Möglichkeiten. So fortfahrend
reduziert sich die Zahl der Möglichkeiten für die Bilder unter f jedesmal um Eins, bis
es schließlich für das letzte Bild f (n) nur noch n − (n − 1) = 1 Möglichkeit gibt, eben
die letzte noch freie Ziffer. Insgesamt gibt es also
n · (n − 1) · (n − 2) · . . . · 1 = n!
viele bijektive Abbildungen f : M → M .
Damit haben wir den folgenden Satz begründet:
Satz 2.10: Für jedes n ∈ N ist Sn eine endliche Gruppe mit |Sn | = n!.
Überprüfen wir diesen Satz einmal an den kleinen Werten von n. Für n = 1 ist die
Identität das einzige Element von S1 . Für n = 2 haben wir einmal die Identität und
zum anderen die Bijektion, die die beiden Elemente von {1, 2} vertauscht. Bei n = 3 ist
es schon ein klein wenig komplizierter. Zum Einen gibt es wieder die Identität. Dann
gibt es die drei Bijektionen, die jeweils zwei der Elemente von {1, 2, 3} vertauschen
und das dritte nicht bewegen. Es gibt aber noch zwei weitere Bijektionen, nämlich
diejenigen die die Ziffern 1, 2, 3 einmal durchschieben, entweder von links nach rechts,
also 1 auf 2, 2 auf 3 und 3 zurück auf 1, oder von rechts nach links, also 3 auf 2, 2 auf
1 und 1 auf 3. Dies sind insgesamt 1 + 3 + 2 = 6 = 3! Elemente von S3 , wie erwartet.
35
Mathematik für Informatiker B, SS 2012
2.4.1
Dienstag 24.4.2012
Darstellung von Permutationen
Wie kann man ein Element f ∈ Sn hinschreiben? Hierfür gibt es im wesentlichen drei
übliche Methoden. Die direkteste Möglichkeit ist eine Art tabellarische Darstellung
etwa für n = 7
1 2 3 4 5 6 7
4 7 6 2 5 3 1
Dies soll dann die Permutation f ∈ S7 definiert durch f (1) = 4, f (2) = 7, f (3) = 6,
f (4) = 2, f (5) = 5, f (6) = 3 und f (7) = 1 sein. Damit so etwas wirklich eine
Permutation ist, muss in der unteren Zeile jedes Element genau einmal auftauchen.
Dies ist zwar eine ziemlich unmißverständliche Darstellung von f ∈ Sn , aber auch
etwas unhandlich.
Die zweite Darstellungsmethode ist eine kleine Modifikation der ersten, man läßt
einfach die obere Zeile weg, schreibt also im obigen Beispiel nur
f = (4, 7, 6, 2, 5, 3, 1).
Die dritte Darstellungsart folgt einer ganz anderen Idee. Wir bleiben einmal beim
obigen Beispiel f ∈ S7 . Hier wird 1 auf 4 abgebildet, 4 dann auf 2, 2 auf 7 und 7
schließlich zurück auf 1. Folgt man also den Bildern der Eins, so hat man
1
4
2
7
einen sogenannten Zykel. Dieses Phänomen tritt tatsächlich bei jedem Startwert und
bei jeder beliebigen Permutation g ∈ Sn auf. Verfolgen wir die sukzessiven Bilder eines
Startwerts 1 ≤ k ≤ n also k, g(k), g(g(k)), g(g(g(k))), . . . so muss sich aufgrund der
Endlichkeit irgendwann ein Wert wiederholen. Tatsächlich muss dieser erste wiederholte
Wert gleich k sein, denn andernfalls hätte ein Element g(. . . (g(k))) zwei verschiedene
Urbilder unter g. Bei jeder Permutation bewegen sich also alle Elemente in Zykeln.
Diese Zykel können wir jetzt zur Beschreibung der Permutation g verwenden. Für
einen einzelnen Zykel schreiben wir einfach die sukzessiven Bilder des Startwerts der
Reihe nach hin, und brechen unmittelbar vor der Wiederholung des Startwerts ab. Die
einzelnen Zahlen werden dabei durch Leerzeichen, oder manchmal auch Kommata oder
andere Trennsymbole, getrennt und in Klammern gesetzt, also im obigen Beispiel
1
4
2
7
= (1 4 2 7).
Die Ziffern 3, 5, 6 sind aufgetaucht. Diese laufen in den Zykeln 3 −→ 6 −→ 3 und
5 −→ 5, die vollständige Zykeldarstellung ist damit
f = (1 4 2 7)(3 6)(5) oder f = (1 4 2 7)(3 6),
wobei in der zweiten Variante Zykel der Länge Eins weggelassen sind.
$Id: ring.tex,v 1.15 2012/05/08 10:11:03 hk Exp $
36
Mathematik für Informatiker B, SS 2012
§3
Dienstag 24.4.2012
Ringe
Nachdem wir im letzten Abschnitt den Gruppenbegriff eingeführt haben, kommen
wir nun zur nächsten der algebraischen Grundstrukturen, den sogenannten Ringen. Auf
einem Ring hat man gleich zwei zweistellige Verknüpfungen, eine Addition und eine
Multiplikation, die meistens als + und · geschrieben werden.
Definition 3.1: Ein Ring (A, +, ·) besteht aus einer Menge A und zwei zweistelligen
Verknüpfungen + : A × A → A und · : A × A → A, die die folgenden Bedingungen
erfüllen:
(a) Das Paar (A, +) ist eine kommutative Gruppe.
(b) Das Paar (A, ·) ist eine Halbgruppe.
(c) Es gelten die beiden Distributivgesetze, d.h. für alle a, b, c ∈ A gilt
a · (b + c) = a · b + a · c,
(a + b) · c = a · c + b · c.
Es werden die vertrauten Schreibweisen verwendet. Das Multiplikationszeichen wird
meist weggelassen ab = a · b, und zur Vermeidung von Klammern wird weiter mit
Punkt vor Strich“ gerechnet. Man bezeichnet das neutrale Element der Addition mit
”
Null und das additive Inverse von a ∈ A wird mit −a bezeichnet. Die Subtraktion
können wir als eine Notation einführen, für a, b ∈ A setzen wir
a − b := a + (−b) ∈ A.
Beachte das in den Axiomen eines Ringes einige naheliegende Rechenregeln nicht gefordert werden, zum Beispiel wird nicht a · 0 = 0 · a = 0 verlangt. Dies folgt aber leicht
aus den anderen Axiomen. Ist nämlich a ∈ A, so rechnen wir mit dem Distributivgesetz
0 · a = (0 + 0) · a = 0 · a + 0 · a,
und da (A, +) eine Gruppe ist, können wir auf beiden Seiten dieser Gleichung das
additive Inverse von 0 · a addieren, und erhalten
0 = 0 · a − 0 · a = 0 · a + 0 · a − 0 · a = 0 · a,
d.h. 0 · a = 0. Analog ergibt sich mit dem anderen Distributivgesetz auch a · 0 = 0.
Ein Ring A heißt kommutativ wenn auch das Kommutativgesetz der Multiplikation
gilt, also a · b = b · a für alle a, b ∈ A. Ist schließlich (A, ·) sogar ein Monoid, gibt es
also ein neutrales Element der Multiplikation, so nennt man A einen Ring mit Eins.
Hat der Ring eine Eins, so bezeichnen wir das neutrale Element der Multiplikation
mit dem üblichen Symbol 1. Genau wie bei den Gruppen sind Null und Eins eindeutig
bestimmt. Hat der Ring A eine Eins, so lassen sich die additiven Inversen wir üblich
durch die Multiplikation beschreiben, d.h. für jedes a ∈ A ist −a = (−1)·a. Der Beweis
dieser Tatsache wird eine Übungsaufgabe sein. Einfache Beispiele von Ringen sind
37
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
1. Die ganzen Zahlen (Z, +, ·). Dies ist ein kommutativer Ring mit Eins.
2. Die geraden ganzen Zahlen (2Z, +, ·) sind ein kommutativer Ring der keine Eins
hat.
3. Die rationalen Zahlen (Q, +, ·). Dies ist wieder ein kommutativer Ring mit Eins.
4. Die reellen Zahlen (R, +, ·). Dies ist erneut ein kommutativer Ring mit Eins.
5. Die abstrakte Definition eines Rings läßt auch recht merkwürdige Beispiele zu.
Ist etwa (A, +) eine beliebige kommutative Gruppe mit neutralen Element 0,
so können wir A zu einem Ring machen indem die Multiplikation als konstant
Null definiert wird, also a · b := 0 für alle a, b in A. Diese Multiplikation ist
trivialerweise assoziativ, es ist ja (ab)c = 0 = a(bc) für alle a, b, c ∈ A und
auch die beiden Distributivgesetze werden einfach zu 0 = 0 + 0. Dieser Ring ist
kommutativ hat aber keine Eins, außer wenn A nur aus der Null besteht.
6. Dagegen ist (N, +, ·) kein Ring, da (N, +) keine Gruppe ist.
3.1
Der Ring Zm
Sei m ∈ N∗ . Wir hatten bereits in §1.Lemma 10 gesehen, dass man auf den Restklassen
modulo m eine Addition und eine Multiplikation einführen kann. Bei der Behandlung
von Beispielen von Halbgruppen, Monoiden und Gruppen in §2 hatten wir dann auch
gesehen, dass (Zm , ⊕) eine kommutative Gruppe und (Zm , ) ein kommutatives Monoid
sind. Dabei war Zm die Bezeichnung für die Menge aller Restklassen modulo m. In
Erweiterung dieser Aussagen gilt sogar:
Lemma 3.2 (Der Restklassenring)
Sei m ∈ N∗ . Dann ist (Zm , ⊕, ) ein kommutativer Ring mit Eins.
Beweis: Dies ist eine Übungsaufgabe.
Wir wollen jetzt den Restklassenring Zm etwas näher untersuchen, und beginnen dabei
mit der Bestimmung der Elemente, die ein multiplikatives Inverses haben. Allgemein
nennt man ein Element a ∈ A eines Rings A mit Eins invertierbar wenn es ein b ∈ A
mit ab = ba = 1 gibt, und dieses b heißt dann ein multiplikatives Inverses zu a. Was sind
jetzt die invertierbaren Elemente im Ring Zm ? Das wesentliche Argument haben wir
dabei schon bei unserer Behandlung von Beispielen von Gruppen gesehen, wir hatten
gezeigt das (Z∗m , ) eine Gruppe ist wenn m eine Primzahl ist. Die Behandlung eines
allgemeinen m ist nur eine kleinere Erweiterung unserer damaligen Überlegungen.
Lemma 3.3 (Bestimmung der invertierbaren Elemente des Restklassenrings)
Seien m ∈ N∗ und a ∈ Z. Dann hat die Restklasse [a] von a modulo m genau dann ein
multiplikatives Inverses im Ring Zm wenn ggt(m, a) = 1 gilt.
38
Mathematik für Informatiker B, SS 2012
Dienstag 24.4.2012
Beweis: Da [1] das neutrale Element der Multiplikation in Zm ist, bestehen die folgenden Äquivalenzen:
[a] invertierbar in Zm ⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
∃(β ∈ Z) : [a] [β] = [1]
∃(β ∈ Z) : [aβ] = [1]
∃(β ∈ Z) : m|1 − aβ
∃(α, β ∈ Z) : 1 − aβ = mα
∃(α, β ∈ Z) : mα + aβ = 1
ggt(m, a) = 1,
wobei wir die letzte Äquivalenz bei der Besprechung der Wechselsummendarstellung
des größten gemeinsamen Teilers in §1.2 eingesehen hatten.
Der Beweis des Lemmas gibt uns auch eine Methode die multiplikativen Inversen in
Zm wirklich zu berechnen. Ist a ∈ Z mit ggt(m, a) = 1, so können wir wie in §1 gesehen
den euklidischen Algorithmus verwenden um α, β ∈ Z mit mα + aβ = 1 zu finden. Der
Beweis des Lemmas zeigt, dass die Restklasse [β] dann das multiplikative Inverse von
[a] in Zm ist. Als ein Beispiel nehmen wir einmal m = 12. Die zu m teilerfremden a ∈ Z
mit 0 ≤ a < m = 12 sind dann 1, 5, 7 und 11, wir haben also genau vier modulo 12
invertierbare Elemente. Die Berechnung des Inversen der Restklasse von a = 7 führen
wir mit dem euklidischen Algorithmus durch:
12 = 7 + 5,
5 = 12 − 7,
7 = 5 + 2,
2 = 7 − 5 = 7 − (12 − 7) = 2 · 7 − 12,
5 = 2 · 2 + 1, 1 = 5 − 2 · 2 = 12 − 7 − 2 · (2 · 7 − 12) = 3 · 12 − 5 · 7,
und das multiplikative Inverse von [7] ergibt sich als inv([7]) = [−5] = [7]. Als nächstes
wollen wir uns die Eindeutigkeit der multiplikativen Inversen in Zm , und allgemeiner gleich in jedem Ring mit Eins klarmachen. Wir wollen diese Eindeutigkeitsaussage auf die in §2.Lemma 4 bewiesene Eindeutigkeit inverser Elemente in Gruppen
zurückführen, und zu diesem Zweck benötigen wir die sogenannte Einheitengruppe
eines Rings mit 1. Diese Gruppe wird uns auch später noch nützlich sein.
Lemma 3.4 (Die Einheitengruppe)
Sei (A, +, ·) ein Ring mit Eins. Wir nennen ein Element a ∈ A eine Einheit, wenn es
ein b ∈ A mit ab = ba = 1 gibt, und die Menge aller Einheiten von A werde mit U (A)
bezeichnet. Dann gelten:
(a) Sind a, b ∈ U (A) so ist auch ab ∈ U (A), und für jedes a ∈ U (A) ist das multiplikative Inverse von a eindeutig bestimmt und wieder eine Einheit von A.
(b) Das Paar (U (A), ·) ist eine Gruppe.
(c) Für jedes a ∈ U (A) sind die Linksmultiplikation
la : A → A; x 7→ ax
39
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
und die Rechtsmultiplikation
ra : A → A; x 7→ xa
bijektiv.
Beweis: (a,b) Wegen 1 · 1 = 1 ist 1 ∈ U (A). Sind a, b ∈ U (A), so existieren a0 , b0 ∈ A
mit aa0 = a0 a = 1 und bb0 = b0 b = 1, und damit sind auch
(ab) · (b0 a0 ) = a · 1 · a0 = aa0 = 1 und (b0 a0 ) · (ab) = b0 · 1 · b = b0 b = 1,
d.h. es ist ab ∈ U (A). Ist a ∈ U (A), so gibt es b ∈ A mit ab = ba = 1 und dann ist
auch b ∈ U (A) mit ab = 1, d.h. b ist ein Inverses von a in U (A). Somit ist U (A) eine
Gruppe und mit §2.Lemma 4 folgt auch die Eindeutigkeit multiplikativer Inverser.
(c) Sei a ∈ U (A) eine Einheit. Dann existiert ein b ∈ A mit ab = ba = 1. Sind x, y ∈ A
mit la (x) = la (y), also ax = ay, so folgt auch x = 1 · x = (ba)x = b(ax)b(ay) = (ba)y =
1 · y, d.h. la ist injektiv. Ist y ∈ A, so haben wir by ∈ A mit la (by) = a(by) = (ab)y =
1 · y = y, d.h. la ist auch surjektiv. Insgesamt ist la bijektiv, und analog folgt das auch
ra bijektiv ist.
Vorlesung 6, Donnerstag 3.5.2012
In der letzten Sitzung hatten wir die sogenannten Ringe eingeführt, dies waren Mengen A versehen mit einer Addition + und einer Multiplikation ·, die weitgehend die
üblichen Rechenregeln“ erfüllten. Nur bei der Multiplikation hatten wir weder die
”
Existenz eines neutralen Elements der Multiplikation noch die Existenz multiplikativer Inverser gefordert. Hauptsächlich sind wir aber an Ringen mit Eins interessiert, in
denen es also doch ein multiplikativ neutrales Element 1 gibt. Wir hatten bewiesen,
das in diesem Fall die Einheiten des Rings A eine Gruppe U (A) bilden, die sogenannte Einheitengruppe von A. Dabei ist Einheit“ nur ein Synonym für invertierbares
”
”
Element“. Wir wollen und zwei kleine Beispiele anschauen.
1. Sei A = Z12 . Wir hatten bereits gesehen, dass die Einheiten von Z12 gerade
die zu 12 teilerfremden Restklassen sind, also U (Z12 ) = {[1], [5], [7], [11]}. Als
Multiplikationstabelle der Einheitengruppe U (Z12 ) ergibt sich
[1] [5] [7] [11]
[1] [1] [5] [7] [11]
[5] [5] [1] [11] [7]
[7] [7] [11] [1] [5]
[11] [11] [7] [5] [1]
40
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
2. Nun betrachten wir den Ring A = Z. Eine ganze Zahl a ∈ Z ist eine Einheit von
Z wenn es eine ganze Zahl b ∈ Z mit ab = 1 gibt, wenn also a 6= 0 und 1/a ∈ Z
sind. Dies bedeutet a = ±1, also ist die Einheitengruppe U (Z) = {−1, 1}.
Wir geben jetzt noch zwei Sätze an, die unsere bisherigen Ergebnisse für den Spezialfall
des Restklassenrings Zm auswerten.
Satz 3.5: Seien a ∈ Z und m ∈ N∗ mit ggt(a, m) = 1. Dann liefert a · i für 0 ≤ i < m
paarweise verschiedene Reste modulo m. Weiter existiert genau ein x ∈ Z mit 0 < x <
m so, dass [x] das multiplikative Inverse von [a] in Zm ist. Hierfür gilt ggt(x, m) = 1.
Beweis: Klar nach Lemma 3 und Lemma 4.
Ist m eine Primzahl, so ist jedes a ∈ Z mit 0 < a < m zu m teilerfremd, hat also nach
Lemma 3 eine in Zm invertierbare Restklasse [a]. Diese Tatsache hatten wir übrigens
auch schon bei den Beispielen für Gruppen in §2 eingesehen.
Satz 3.6: Ist p eine Primzahl, so gibt es im Ring Zp für jedes a ∈ Zp mit a 6= 0 ein
eindeutiges multiplikatives Inverses a−1 ∈ Zp .
3.2
Grundprinzip der RSA-Public-Key Verschlüsselung
Die Aufgabe der Krypthographie ist es eine Nachricht in solch einer Weise zu verschlüsseln, dass der vorgesehene Empfänger diese Verschlüsselung leicht rückgängig machen kann, während diese Entschlüsselung für Außenstehende nur unter einem praktisch
nicht durchführbaren Aufwand möglich ist. Von einem sehr abstrakten Standpunkt aus,
ist solch eine Verschlüsselung eine bijektive Funktion
C:A→B
von einer Menge A von Klartexten“ auf eine Menge B von Verschlüsselungen“. Die
”
”
Menge A beschreibt in der praktischen Durchführung oft nur einzelne Teilpakete der
vollständigen Nachricht, diese wird dann in mehrere Pakete aus A aufgeteilt, die dann
einzeln verschlüsselt werden. Die Entschlüsselung D ist einfach die Umkehrfunktion
D := C −1 : B → A
der Verschlüsselungsfunktion C. Die oben genannten Nebenbedingungen, dass D für
den vorgesehenen Empfänger leicht“ berechenbar ist, für andere aber nur schwer“
”
”
machbar ist, ist in dieser simplen Beschreibung nicht mit erfasst. Diese Fragen muss
man gesondert diskutieren, oft auch auf einer eher heuristischen Ebene.
Eine spezielle Sorte von Verschlüsselungsmethoden sind die sogenannten PublicKey Methoden. Bei diesen ist die Verschlüsselungsfunktion C : A → B, und damit
auch die Mengen A und B, öffentlich bekannt, und wird nicht geheim gehalten. Dies
hat natürlich einige praktische Vorteile, jeder kann verschlüsselte Nachrichten senden
41
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
ohne das zuvor eine geheime Verschlüsselung ausgetauscht werden muss. Ein spezielles
solches Public-Key Verfahren ist das nach R. Rivest, A. Shamir und L. Adleman (1977)
benannte RSA-Verfahren. Hier ist eine natürliche Zahl n vorgegeben, und diese gehört
zu den Parametern des Verschlüsselungsverfahrens ist also öffentlich bekannt. Für die
Mengen A und B verwendet man
A := B := U (Zn ) = {a ∈ Z|0 ≤ a < n, ggt(n, a) = 1}
die Menge der zu n teilerfremden Reste modulo n, also nach Lemma 3 die Einheitengruppe des Rings Zn . Die Verschlüsselungsfunktion ist die Potenzbildung mit einem
festen Exponenten e im Ring Zn . Die Zahl e ∈ N ist öffentlich bekannt, und die Verschlüsselungsfunktion C ist definiert als
C(a) = ae mod n
für a ∈ A. Wie sich diese Potenzen praktisch berechnen lassen, wollen wir hier nicht besprechen, im Netz finden Sie Unmengen fertige Implementierungen hierfür. Die Zahlen
n und e müssen natürlich so gewählt werden, dass C überhaupt eine bijektive Abbildung ist. Beim RSA-Verfahren ist es so, dass die Wahl so getroffen wird das auch die
Entschlüsselungsfunktion D das Potenzieren mit einem festen Exponenten d ∈ N ist,
also
D(b) = bd mod n
für b ∈ B = A. Diese Zahl d darf natürlich nur dem vorgesehenen Empfänger bekannt
sein, kennt man sie so kann man die Entschlüsselung durchführen. Der folgende Satz
beschreibt nun wie n, e und d zu konstruieren sind, so das alles klappt.
Satz 3.7 (RSA Verfahren)
Seien p, q zwei verschiedene Primzahlen. Setze n := pq und m := (p − 1)(q − 1).
Weiter sei e ∈ N teilerfremd zu m, also ggt(e, m) = 1. Dann existiert ein d ∈ N mit
ed ≡ 1 mod m und die Abbildung C : U (Zn ) → U (Zn ); a 7→ ae ist bijektiv mit der
Umkehrfunktion D : U (Zn ) → U (Zn ); a 7→ ad . Dabei gilt
U (Zn ) = Z∗n \{[p], [2p], . . . , [(q − 1)p], [q], [2q], . . . , [(p − 1)q]}.
Beweis: Dass es ein d ∈ N mit ed ≡ 1 mod m gibt, gilt nach Lemma 3. Nach Aufgabe
(14) gibt es genau vier natürliche Zahlen k ∈ N mit k|n = pq, nämlich k = 1, k = p,
k = q und k = pq. Für a ∈ Z folgt, dass a und n genau dann einen gemeinsamen Teiler
k ∈ N mit k > 1 haben, wenn p|a oder q|a gilt, denn die einzigen Kandidaten für k
sind p, q und pq. Die Vielfachen a von p mit 0 < a < n = pq sind genau die Zahlen
p, 2p, . . . , (q − 1)p und die Vielfachen a von q mit 0 < a < n = pq sind genau die Zahlen
q, 2q, . . . , (p − 1)q. Die anderen Zahlen zwischen 1 und n − 1 sind also gerade die zu n
teilerfremden Rest modulo n, also nach Lemma 3 die Einheiten von Zn . Dies ergibt die
Aussage über die Einheitengruppe U (Zn ). Da jedes gemeinsame Vielfache von p und q
42
Mathematik für Informatiker B, SS 2012
Donnerstag 3.5.2012
auch ein Vielfaches von n = pq ist, kommt unter den Zahlen 1, . . . , n − 1 kein solches
gemeinsames Vielfaches vor, d.h. es ist
|U (Zn )| = n − 1 − (q − 1) − (p − 1) = n − p − q + 1 = pq − p − q + 1 = (p − 1)(q − 1) = m.
Da die Einheitengruppe U (Zn ) nach Lemma 4.(b) eine Gruppe ist, ergibt der kleine
Satz von Fermat §2.Satz 9 jetzt
[a]m = [1], d.h. am ≡ 1 mod n
für alle a ∈ Z mit ggt(a, n) = 1. Verwenden wir jetzt die Potenzrechenregeln aus §2.3,
so ergibt sich für jedes a ∈ Z mit ggt(a, n) = 1 die Gleichung
D(C(a)) = (ae )d = aed = (ad )e = C(D(a)),
um zu beweisen das D die Umkehrfunktion von C ist, müssen wir also einsehen das
aed ≡ a mod n für jedes solche a gilt. Wegen ed ≡ 1 mod m ist m|ed − 1, d.h. es gibt
eine ganze Zahl k ∈ Z mit ed = 1 + km und wegen e, d, m ∈ N ist auch k ∈ N. Für
a ∈ Z mit ggt(a, n) = 1 haben wir damit
aed = a1+km = a · akm = a · (am )k ≡ a · 1k = a mod n
da wir oben bereits am ≡ 1 mod n eingesehen hatten.
Die Primzahlen p und q lassen sich frei wählen. Dann sind die Zahlen n = pq und
m = (p − 1)(q − 1) festgelegt und für e hat man wieder die freie Wahl. Die Bedingung
ggt(e, m) = 1 konnten wir dabei über den euklidischen Algorithmus leicht nachprüfen.
Ist e gewählt, so ist d das multiplikative Inverse modulo m, das wir erneut leicht über
den euklidischen Algorithmus berechnen können.
Als ein Beispiel betrachten wir einmal p = 3 und q = 7. Dann ist n = 21 und
m = 2 · 6 = 12, es gibt also 12 zu n = 21 teilerfremde Reste modulo 21. In diesem
kleinen Beispiel können wir diese auch leicht auflisten
A = {1, 2, 4, 5, 8, 10, 11, 13, 16, 17, 19, 20}.
Als zu m = 12 teilerfremde Zahl wählen wir etwa e = 5. Zur Bestimmung von d rechnen
wir
12 = 2 · 5 + 2, 2 = 12 − 2 · 5,
5 = 2 · 2 + 1, 1 = 5 − 2 · 2 = 5 − 2 · (12 − 2 · 5) = 5 · 5 − 2 · 12,
es ist also d = e = 5. In diesem (kleinen) Beispiel ist also C = D. Die Verschlüsselung,
und damit auch die Entschlüsselung, ist gegeben durch die Tabelle
a
C(a) = D(a)
1 2 4 5 8 10 11 13 16 17 19 20
1 11 16 17 8 19 2 13 4 5 10 20
43
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Der String 8, 19, 11 codiert sich beispielsweise als 8, 10, 2. Dass C = D ist, ist ein reiner
Zufall. Normalerweise ist n recht gross, und so etwas passiert nicht.
Bei realer Anwendung werden die Primzahlen p und q, und damit auch n recht groß
gewählt. Nach Wahl von e erfolgt die Berechnung von d über den euklidischen Algorithmus, und dies ist auch für großes m ohne viel Aufwand machbar. Was müsste ein
Angreifer nun tun um nicht für ihn bestimmte Mitteilungen zu entschlüsseln. Die Zahlen n und e sind wie gesagt allgemein bekannt. Um die Entschlüsselung durchzuführen
benötigt man die Zahl d, und um diese zu kriegen muss man m kennen. Es ist
m = (p − 1)(q − 1) = pq − p − q + 1 = n − (p + q) + 1
und da n bekannt ist, ist die Bestimmung von m also dasselbe wie die Berechnung der
Summe p + q. Der Angreifer kann also versuchen n in Primfaktoren zu zerlegen. Es
gibt kein bekanntes Verfahren um die Primzerlegung einer großen Zahl n in vertretbarer
Zeit zu berechnen. Man geht daher davon aus, dass p und q sicher sind obwohl n = pq
bekannt ist. Es wäre noch denkbar, dass man vielleicht p + q berechnen kann ohne p
und q kennen zu müssen. Das ist aber nicht der Fall, kennen wir nämlich r := p + q und
n = pq, so ist ja q = r − p, also n = pq = p(r − p) = pr − p2 und somit p2 − rp + n = 0.
Dies ist eine quadratische Gleichung für p, die man als
r
r
r2
p= ±
−n
2
4
lösen kann. Kennen wir also die Summe r = p + q, so kommen wir auch leicht an p
und q heran, die Bestimmung von m ist also genauso schwer“ wie die Berechnung der
”
Primzerlegung von n, und wie gesagt geht man davon aus das diese nicht praktikabel
durchgeführt werden kann.
3.3
Polynomringe
Vorlesung 7, Dienstag 8.5.2012
Zum Abschluß des Kapitels über allgemeine Ringe wollen wir jetzt noch eine spezielle
Sorte von Ringen einführen, die sogenannten Polynomringe. In voller Allgemeinheit
ist der Polynombegriff ein klein wenig diffizil, und wir starten daher mit dem etwas
einfachereren Begriff einer Polynomfunktion.
Definition 3.8: Sei A ein kommutativer Ring. Eine Funktion p : A → A heißt Polynomfunktion wenn es ein n ∈ N und Ringelemente a0 , . . . , an ∈ A mit
p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 =
n
X
i=0
44
ai xi
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
für alle x ∈ A gibt.
Beachte das die Zahl n ∈ N hier nicht eindeutig durch die Funktion p festgelegt ist,
da wir künstlich Terme 0 · xi hinzufügen können, zum Beispiel ist die obige Funktion
ja auch gleich
p(x) = 0 · xn+1 + an xn + an−1 xn−1 + · · · + a1 x + a0
für alle x ∈ A. Es ist bei einer Polynomfunktion durchaus erlaubt das einige der
Potenzen von x nicht auftauchen. Zum Beispiel ist
p(x) = x6 + 3x2 − x + 1
eine Polynomfunktion über A = R, da wir diese Funktion auch künstlich als
p(x) = 1 · x6 + 0 · x5 + 0 · x4 + 0 · x3 + 3 · x2 + (−1) · x + 1
schreiben können.
Im Spezialfall A = R der reellen Zahlen haben Polynomfunktionen die bekannte
Gestalt, einige typische Polynomfunktionen sind beispielsweise
4
3
y
2
2
1
2.5
1.5
2
–3
1.5
1
–2
0
–1
1
2
3
x
1
–1
0.5
0.5
–2
0
–1
1
2
–3
–2
0
–1
1
2
–0.5
x
n=0
–2
3
x
n=1
n=2
4
4
3
y
3
2
3
y
2
1
2
1
y
1
–3
–2
–1
0
1
2
3
–3
–2
–1
0
1
x
–3
–2
–1
–1
–1
–2
–2
–2
–3
–3
–3
–4
–4
1
2
3
2
3
x
–1
0
x
n=3
n=4
n=5
Wir wollen uns jetzt überlegen, dass Summen und Produkte von Polynomfunktionen
wieder Polynomfunktionen sind.
45
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Lemma 3.9: Seien A ein kommutativer Ring und p, q : A → A zwei Polynomfunktionen. Dann sind auch die Funktionen
p + q : A → A; x 7→ p(x) + q(x) und p · q : A → A; x 7→ p(x) · q(x)
Polynomfunktionen.
Beweis: Wähle n, m ∈ N und a0 , . . . , an ∈ A sowie b0 , . . . , bm ∈ A mit
p(x) =
n
X
i
ai x und q(x) =
m
X
i=0
bi x i
i=0
für alle x ∈ A. Wir zeigen zunächst, dass auch p + q eine Polynomfunktion ist. Hierzu
können wir durch eventuelles Auffüllen mit führenden Nullen annehmen, dass n = m
ist. Für jedes x ∈ A haben wir dann
(p + q)(x) = p(x) + q(x) =
n
X
ai xi +
n
X
bi x i =
i=0
i=0
n
X
(ai + bi )xi ,
i=0
und somit ist p + q eine Polynomfunktion. Nun kommen wir zum Produkt p · q, und
hier ist es nicht mehr nötig n = m anzunehmen. Für jedes x ∈ A gilt
!
!
!
n
m
n
m
X
X
X
X
X
i
j
i
j
ai bj xi+j
ai x ·
bj x =
(p · q)(x) = p(x)q(x) =
ai x ·
bj x =
i=0
i=0
j=0
j=0
0≤i≤n
0≤j≤m
wobei wir die Kommutativität von A und die Potenzrechenregeln verwendet haben um
ai xi · bj xj = ai bj xi xj = ai bj xi+j
zu rechnen. In dieser Doppelsumme fassen wir jetzt alle Summanden mit gleichen
k = i + j zusammen und klammern xk = xi+j aus. Wenn i von 0 bis n und j von 0 bis
m läuft, so nimmt k = i + j als Werte alle Zahlen von k = 0 bis k = n + m an. Damit
wird unsere obige Formel für jedes x ∈ A zu
"
#
" k
#
n+m
n+m
X X
X X
(p · q)(x) =
ai bj · xk =
ai bk−i · xk ,
k=0
k=0
i+j=k
i=0
und somit ist auch p · q eine Polynomfunktion. Die innere Summe ist dabei streng
genommen eigentlich als
k
X
i=0
min{n,k}
X
ai bk−i =
i=max{k−m,0}
46
ai bk−i
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
gemeint da ai ja nur für i ≤ n und bk−i nur für k − i ≤ m definiert ist. Wir verwenden
im folgenden immer die Konvention das Koeffizienten mit eigentlich nicht definierten
Indizes als Null zu interpretieren sind.
Mit dem Lemma kann man sich jetzt auch leicht überlegen, dass die Polynomfunktionen selber einen kommutativen Ring bilden, aber dies werden wir hier nicht benötigen.
Beachte das wir bisher konsequent von Polynomfunktionen und nicht von Polynomen
sprechen, und tatsächlich gibt es zwischen diesen beiden Begriffen für allgemeine kommutative Ringe A auch einen kleinen Unterschied. Wir wir im nächsten Kapitel sehen
werden, stimmen Polynome und Polynomfunktionen für gute“ Ringe dann doch übe”
rein, aber eben nicht für jedes A. Um das Problem zu sehen, betrachten wir einmal
den Restklassenring A = Z3 und auf diesem die durch p(x) = x3 gegebene Polynomfunktion. Die drei Elemente von Z3 sind die Restklassen von x = 0, x = 1 und x = 2,
und deren dritte Potenzen ergeben sich als
03 = 0, 13 = 1 und 23 = 8 ≡ 2 mod 3,
d.h. es ist x3 = x für jedes x ∈ Z3 . Die beiden Polynomfunktionen p(x) = x3 und q(x) =
x sind im Ring A = Z3 also genau dasselbe. Die Zahlen a0 , a1 , . . . zur Beschreibung
einer Polynomfunktion haben beim Ring A = Z3 somit etwas willkürliches. Das will
man für Polynome nicht haben, als Polynom soll auch beim Ring A = Z3 das Polynom
x3 etwas anderes als das Polynom x sein, obwohl beide bei Einsetzen der Elemente von
A dieselben Werte liefern. Das hat zur Folge, dass man Polynome nicht als Funktionen
definieren kann.
Anstelle dessen definieren wir ein Polynom p über A als einen formalen Ausdruck“
”
n
n−1
p = an x + an−1 x
+ · · · + aa x + a0
mit n ∈ N, a0 , . . . , an ∈ A. Das x“ ist hier rein formal
R bund steht nicht für ein Element
”
von A. Das ist ähnlich wie beim bestimmten Integral a f (x) dx wo das x“ ja ebenfalls
”
keine inhaltliche Bedeutung hat. Wären wir hier etwas konsequenter könnte man auch
einfach p = (an , an−1 , . . . , a0 ) statt p = an xn + an−1 xn−1 + · · · + a0 schreiben, aber dies
gilt aus guten Grund als unnötig verwirrend. Die Ringelemente a0 , . . . , an nennt man die
Koeffizienten des Polynoms p. Ist p 6= 0, so ist mindestens einer der Koeffizienten nicht
Null, und nach Streichen überflüssiger führender Nullen können wir an 6= 0 annehmen.
Man bezeichnet die Zahl n ∈ N dann als den Grad des Polynoms p. Das Polynom
p = 0 erhält dann per Konvention den Grad −∞. Der Grad eines Polynoms p über A
ist damit definiert als
(
n,
0 6= p = an xn + an−1 xn−1 + · · · + a0 mit a0 , . . . , an ∈ A, an 6= 0,
grad p :=
−∞, p = 0.
Die Summe und das Produkt von Polynomen über A definieren wir dann indem wir
einfach die Formel abschreiben, die sich bei der Berechnung von Summe und Produkt
von Polynomfunktionen ergeben hat.
47
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Lemma 3.10 (Der Polynomring über A)
Sei (A, +, ·) ein kommutativer Ring und bezeichne
( n
)
X
A[x] :=
ai xi n ∈ N, a0 , . . . , an ∈ A
i=0
die Menge der Polynome über A. Definieren wir auf A[x] Addition und Multiplikation
durch
n
X
ai xi +
i=0
n
X
i=0
(ai + bi )xi ,
i=0
" i
n+m
X X
!
bi x i
·
n
X
bi xi :=
i=0
m
X
!
ai xi
n
X
:=
i=0
i=0
#
aj bi−j · xi ,
j=0
so wird (A[x], +, ·) ein kommutativer Ring. Besitzt dabei A ein Einselement 1, so besitzt
auch A[x] ein Einselement, nämlich das Polynom p = 1 := 1 · x0 . Für alle Polynome
p, q ∈ A[x] gilt
grad(p + q) ≤ max{grad p, grad q},
grad(p · q) ≤ grad(p) + grad(q).
Beweis: Als erstes müssen wir zeigen, dass (A[x], +) eine kommutative Gruppe ist. Die
Assoziativität der Addition ist dabei einfach, sind p, q, r ∈ A[x], so können wir nach
eventuellen Hinzufügen führender Nullen
p=
n
X
i
ai x , q =
i=0
n
X
i
bi x und r =
i=0
n
X
ci xi
i=0
mit n ∈ N, ai , bi , ci ∈ A für 0 ≤ i ≤ n schreiben. Dann wird
(p + q) + r =
n
X
(ai + bi )xi +
i=0
n
X
i=0
ci xi =
n
X
((ai + bi ) + ci )xi =
i=0
=
n
X
(ai + (bi + ci ))xi
i=0
n
X
ai xi +
i=0
n
X
(bi + ci )xi = p + (q + r),
i=0
und damit ist die Addition assoziativ. Das
p = 0 ist offenbar ein neutrales
PPolynom
n
i
Element der Addition. Ist schließlich p = i=0 ai x ∈ A[x] mit n ∈ N, a0 , . . . , an ∈ A,
so ist
n
n
X
X
−p :=
(−ai )xi mit p + (−p) =
(ai − ai )xi = 0,
i=0
i=0
48
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
d.h. −p ist das additive Inverse zu p. Genau wie das Assoziativgesetz kann man auch
das Kommutativgesetz der Addition p + q = q + p für p, q ∈ A[x] nachweisen, d.h.
(A[x], +) ist eine kommutative Gruppe. Als nächstes untersuche wir die Multiplikation
von Polynomen, und hier ist der Nachweis des Assoziativ– und Kommutativgesetzes
leider etwas Arbeit. Wir geben uns drei Polynome
p=
n
X
i
ai x , q =
m
X
i=0
i
bi x und r =
i=0
s
X
ci xi
i=0
mit n, m, s ∈ A, a0 , . . . , an ∈ A, b0 , . . . , bm ∈ A und c0 , . . . , cs ∈ A vor. Die Formel
p · q = q · p ist klar wenn wir das Produkt in der symmetrischen Form
"
#
n+m
X X
p·q =
ai bj · xk
k=0
i+j=k
schreiben, da ja die Multiplikation in A als kommutativ vorausgesetzt ist. Auch für das
Assoziativgesetz verwenden wir diese symmetrische Form und schreiben
#
!
"
!
n+m
s
X
X X
ai bj · xk ·
cl xl
(p · q) · r =
k=0
i+j=k
=
l=0
n+m+s
X
!
"
t=0
X
X
k+l=t
i+j=k
ai bj
#
t
· cl · x =
n+m+s
X
t=0
#
"
X
ai b j c l · x t .
i+j+l=t
In der anderen Klammerung wird
p · (q · r) = (q · r) · p =
n+m+s
X
t=0
#
"
X
b j c l ai · x t =
n+m+s
X
"
t=0
j+l+i=t
#
X
ai b j c l · x t ,
i+j+l=t
und wir haben das Assoziativgesetz (p · q) · r = p · (q · r) der Multiplikation eingesehen.
Es verbleibt nur noch der Nachweis der Distributivgesetze, und da die Multiplikation
kommutativ ist, reicht es p · (q + r) = p · q + p · r zu rechnen. Wir geben uns also wieder
drei Polynome
n
m
m
X
X
X
i
i
p=
ai x , q =
bi x und r =
ci xi
i=0
i=0
i=0
mit n, m ∈ A, a0 , . . . , an ∈ A, b0 , . . . , bm ∈ A und c0 , . . . , cm ∈ A vor und rechnen
!
! n+m "
#
n
m
X
X X
X
p · (q + r) =
ai xi ·
(bj + cj )xj =
ai (bj + cj ) · xk
i=0
=
"
n+m
X X
k=0
i+j=k
j=0
#
(ai bj + ai cj ) ·xk =
k=0
"
n+m
X X
k=0
#
ai bj ·xk +
i+j=k
49
i+j=k
n+m
X
k=0
"
#
X
i+j=k
ai cj ·xk = p·q+p·r.
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
Damit ist (A[x], +, ·) tatsächlich ein kommutativer Ring. Hat A eine 1, so ist p = 1
offenbar eine Eins von A[x]. Wir müssen also nur noch die Aussage über den Grad von
Summe und Produkt zeigen. Seien also wieder
p=
n
X
ai xi , q =
i=0
m
X
bi x i
i=0
mit n, m ∈ A, a0 , . . . , an ∈ A, b0 , . . . , bm ∈ A gegeben. Wir beginnen mit der Aussage
über die Summe, also grad(p+q) ≤ max{grad p, grad q}. Ist p+q = 0, also grad(p+q) =
−∞, so gilt dies trivialerweise. Nun sei p + q 6= 0. Dann ist auch p 6= 0 oder q 6= 0 und
wir können durch eventuelles Auffüllen eines der beiden Polynome mit Nullen auch
n = m mit an 6=P0 oder bn 6= 0 annehmen. Dann ist max{grad p, grad q} = n und
n
i
wegen p + q =
i=0 (ai + bi )x ist auch grad(p + q) ≤ n. Damit ist diese Aussage
bewiesen.
Es bleint nur noch die Produktformel grad(p · q) ≤ grad(p) + grad(q) zu zeigen. Ist
p = 0 oder q = 0, so ist auch p · q = 0. Wegen grad(p) = −∞ oder grad(q) = −∞
ist grad(p) + grad(q) = −∞ = grad(p · q), und wir sind in diesem Fall fertig. Nun
nehme p, q 6= 0 und dann können wir durch eventuelles Streichen führender Nullen
auch anP6= 0 P
und bm 6= 0 annehmen, d.h. n = grad(p) und m = grad(q). Wegen
n+m
p · q = k=0 ( i+j=k ai bj )xk ist grad(p · q) ≤ n + m = grad(p) + grad(q).
Die Formel für den Grad eines Produkt ist ein wenig verwunderlich, für normale“
”
Polynome als reelle Funktionen sind wir hier an ein =“ und nicht an ≤“ gewöhnt.
”
”
Für allgemeine Ringe A muss die Gleichheit tatsächlich nicht gelten. Nehmen wir beispielsweise einmal den Restklassenring A = Z4 und betrachten die beiden Polynome
p = 2x2 + 1 und q = 2x2 + x + 1
grad(p) = grad(q) = 2. Das Produkt wird zu
p · q = (2x2 + 1) · (2x2 + x + 1) = 4x4 + 2x3 + 4x2 + x + 1 = 2x3 + x + 1
da im Ring A = Z4 ja 4 = 0 gilt. Somit ist in diesem Beispiel grad(p · q) = 3 <
grad(p) + grad(q).
Wir können diese Situationen noch etwas näher analysieren und uns fragen wann
der Grad eines Produkts von Polynomen denn gleich der Summe der Einzelgrade ist?
Sind
p = an xn + · · · und q = bm xm + · · ·
mit an , bm 6= 0, also n = grad(p) und m = grad(q), so haben wir
pq = an bm xn+m + · · ·
also grad(pq) = n + m genau dann wenn an bm 6= 0 ist. Haben wir insbesondere einen
Ring in dem das Produkt zweier von Null verschiedener Elemente immer von Null
50
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
verschieden ist, so ist auch der Grad des Produkts zweier Polynome immer die Summe
der Einzelgrade. Dies trifft beispielsweise auf den Ring A = R der reellen Zahlen zu.
Abgesehen von diesem etwas ungewohnten Verhalten des Polynomgrads verläuft das
Rechnen mit Polynomen dann wie üblich. Insbesondere gibt es weiterhin eine Division
von Polynomen mit Rest. Angenommen wir haben zwei Polynome p, q ∈ A[x] über
dem kommutativen Ring A mit Eins. Bei der Division mit Rest suchen wir zwei weitere
Polynome, einen Quotienten f ∈ A[x] und einen Rest r ∈ A[x] mit
p = f · q + r, grad(r) < grad(q).
An den Divisor q müssen wir eine kleine Bedingung stellen damit dies definiert ist, der
höchste Koeffizient von q muss in A invertierbar sein. Insbesondere darf also q nicht
Null sein. Die Berechnung von f und r erfolgt dann wie aus der Schule gewohnt. Als
ein Beispiel wollen wir einmal
x3 + x2 + 2x + 5 : 3x2 + 1 über A = Z14 rechnen.
Da 3 und 14 teilerfremd ist der höchste Koeffizient 3 von 3x2 + 1 in Z14 invertierbar,
das inverse Element ist wegen 3 · 5 = 15 ≡ 1 mod 14 gleich inv(3) = 5. Nun führen
wir die schriftliche Division durch, wobei die Divsion durch 3 als Multiplikation mit
inv(3) = 5 ausgeführt wird:
x3 + x2 + 2x + 5 : 3x2 + 1 = 5x + 5
−(x3
+ 5x)
2
x + 11x + 5
− (x2
+ 5)
11x
wir haben also den Quotienten f (x) = 5x + 5 und den Rest r(x) = 11x. In der Tat ist
(5x + 5) · (3x2 + 1) + 11x = x3 + x2 + 2x + 5.
Wie bei ganzen Zahlen können wir dann auch einen Teilbarkeitsbegriff für Polynome
einführen, und haben sogar ein Analogon zu den Primzahlen. Man nennt ein Polynom
f ∈ A[x] irreduzibel, wenn man f nicht als ein Produkt f = p · q zweier Polynome
p, q ∈ A[x] von echt kleineren Grad grad(p), grad(q) < grad(f ) schreiben kann.
$Id: korper.tex,v 1.21 2012/05/22 18:33:21 hk Exp $
§4
Körper
Nach Gruppen und Ringen kommen wir jetzt zur letzten der algebraischen Grundstrukturen, den sogenannten Körpern. Ein Körper ist ein kommutativer Ring mit Eins
51
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
in dem jedes von Null verschiedene Element invertierbar ist. Für die exakte Definition
eines Körpers gibt es verschiedene, aber äquivalente Möglichkeiten, von denen wir die
folgende wählen.
Definition 4.1: Ein kommutativer Ring (K, +, ·) heißt Körper, wenn (K ∗ , ·) eine Gruppe ist.
Wir wollen die Definition eines Körpers jetzt noch etwas expliziter umformulieren. Ein
kommutativer Ring (A, +, ·) hat assoziative Multiplikation, d.h. (A, ·) ist eine Halbgruppe. Wann ist nun (A, +, ·) ein Körper? Definitionsgemäß muss (A∗ , ·) eine Gruppe
sein. Zum einen muss die Multiplikation also überhaupt eine binäre Verknüpfung auf
A∗ sein, d.h. für alle a, b ∈ A\{0} muss auch ab ∈ A\{0} sein. Als Kontraposition
formuliert besagt dies
∀(a, b ∈ A) : a · b = 0 =⇒ a = 0 ∨ b = 0.
Weiter muss (A∗ , ·) ein neutrales Element besitzen, es muss also ein Element 1 ∈ A∗ mit
1 · a = a für alle a ∈ A∗ geben. Da wir bereits in §3 gesehen haben, dass a · 0 = 0 · a = 0
für alle a ∈ A gilt, ist dann auch 1 · 0 = 0, d.h. es gilt 1 · a = a für überhaupt alle a ∈ A.
Dass (A∗ , ·) ein neutrales Element der Multiplikation besitzt, besagt also genau das der
Ring A eine Eins mit 1 6= 0 besitzt. Schließlich bedeutet die Existenz multiplikativer
Inverser in A∗ das jedes von Null verschiedene Element von A invertierbar ist, dass
also U (A) = A∗ gilt, wobei U (A) wieder die Einheitengruppe von A bezeichnet.
Lemma 4.2 (Kennzeichung von Körpern)
Das Tripel (K, +·) ist genau dann ein Körper wenn die folgenden drei Bedingungen
gelten:
(K1) (K, +, ·) ist ein kommutativer Ring.
(K2) Es gibt ein multiplikatives neutrales Element, d.h. es existiert ein 1 ∈ K mit
1 6= 0 und 1 · x = x für alle x ∈ K.
(K3) Für alle x ∈ K ∗ existiert ein multiplikatives Inverses.
Beweis: Dies folgt fast vollständig aus unseren einleitenden Überlegungen. Wir müssen
nur noch zeigen, dass aus den drei Bedingungen (K1), (K2) und (K3) auch x · y 6= 0 für
alle x, y ∈ K mit x, y 6= 0 folgt. Seien also x, y ∈ K\{0} gegeben. Nach (K3) existiert
ein multiplikatives Inverses y 0 ∈ K zu y, also y · y 0 = 1. Wäre jetzt x · y = 0, so hätten
wir auch
x = x · 1 = x · (y · y 0 ) = (x · y) · y 0 = 0 · y 0 = 0,
im Widerspruch zu x 6= 0, also ist x · y 6= 0.
Wir kennen bereits einige Beispiele und Gegenbeispiele von Körpern, etwa
1. Die rationalen Zahlen (Q, +, ·) bilden einen Körper.
52
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
2. Die reellen Zahlen (R, +, ·) bilden einen Körper.
3. Ist p eine Primzahl, so bildet der Restklassenring Zp modulo p nach §3.Satz 6
einen Körper.
4. Dagegen bilden die ganzen Zahlen (Z, +, ·) keinen Körper, da etwa 2 kein multiplikatives Inverses besitzt.
5. Auch der Restklassenring Z4 modulo 4 bildet keinen Körper, denn hier ist sogar
[2] [2] = [4] = [0], das Produkt von Null verschiedener Elemente kann also Null
werden.
In der letzten Sitzung haben wir mit der Besprechung der Körperaxiome begonnen.
Unter anderem hatten wir gezeigt, dass in einem Körper das Produkt zweier von Null
verschiedener stets wieder von Null verschieden ist. Da diese Tatsache so oft verwendet
wird, wollen wir sie noch in einem eigenen Lemma festhalten.
Lemma 4.3: In einem Körper (K, +, ·) gilt x · 0 = 0 für alle x ∈ K. Ferner folgt für
x, y ∈ K aus x · y = 0 auch x = 0 oder y = 0.
Beweis: Die erste Aussage gilt nach §3 in jedem Ring und die zweite ist nur die Kontraposition der im Beweis des letzten Lemmas bewiesenen Aussage
∀(x, y ∈ K) : x 6= 0 ∧ y 6= 0 =⇒ x · y 6= 0.
In einem Körper gelten alle die normalen“ Rechenregeln für die Grundrechenarten.
”
Die meisten der hiermit gemeinten Formeln wollen wir jetzt einmal durchgehen. Sei
hierzu (K, +, ·) ein Körper.
1. Für a ∈ K, n ∈ N haben wir die Potenz an ∈ K als n-faches Produkt von a mit
sich selbst. Für a 6= 0 können wir dabei sogar Potenzen an für alle n ∈ Z bilden.
Da (K ∗ , ·) eine Gruppe ist, wissen wir all dies bereits aus unseren Überlegungen
in §2. Streng genommen wird hiervon a = 0 nicht erfasst, aber dies ist ein trivialer
Sonderfall.
2. Für alle x, y ∈ K und alle n ∈ N gilt (xy)n = xn y n . Diese Aussage folgt aus der
Kommutativität der Multiplikation, durch Umsortieren der Faktoren erhalten wir
nämlich
(xy)n = xy · xy · . . . · xy = |x · .{z
. . · x} · y · . . . · y = xn y n .
|
| {z }
{z
}
n mal
n mal
n mal
3. Für jedes x ∈ K gilt −x = (−1) · x. Die Eindeutigkeit des additiven Inversen
gemäß §2.Lemma 4 ergibt das wir nur testen müssen ob x + (−1)x = 0 gilt. In
der Tat liefert das Distributivgesetz
x + (−1) · x = 1 · x + (−1) · x = (1 − 1) · x = 0 · x = 0.
53
Mathematik für Informatiker B, SS 2012
Dienstag 8.5.2012
4. Es ist (−1)2 = 1 denn die vorige Formel ergibt (−1)2 = (−1) · (−1) = −(−1) = 1.
5. Für jedes x ∈ K ist (−x)2 = x2 denn mit den schon eingesehenen Formeln folgt
(−x)2 = ((−1) · x)2 = (−1)2 x2 = 1 · x2 = x2 .
6. In §3 hatten wir die Subtraktion in Ringen als x − y := x + (−y) für x, y ∈ K
eingeführt. Entsprechend können wir für x, y ∈ K mit y 6= 0 auch den Bruch
x
:= x · inv(y)
y
einführen. Dann ist insbesondere
1
x
1
= 1 · inv(y) = inv(y) =⇒ = x · .
y
y
y
Wir werden uns klarmachen das für diese Brüche die normalen Bruchrechenregeln
gelten.
7. Brüche können erweitert werden, d.h. für alle x, y, z ∈ K mit y, z 6= 0 gilt
xz
x
= xz · inv(yz) = xz · inv(z) · inv(y) = x · 1 · inv(y) = x · inv(y) = .
yz
y
8. Bei der Multiplikation von Brüchen werden Zähler und Nenner jeweils einzeln
miteinander multipliziert, d.h. für alle x, y, u, v ∈ K mit u, v 6= 0 gilt
x y
xy
· = x · inv(u) · y · inv(v) = xy · inv(v) · inv(u) = xy · inv(uv) =
.
u v
uv
9. Kehrwerte von Brüchen entstehen durch Vertauschen von Zähler und Nenner,
d.h. für alle x, y ∈ K\{0} ist
x
1
y
= inv
= inv(x · inv(y)) = inv(inv(y)) · inv(x) = y · inv(x) = .
x
y
x
y
10. Brüche werden auch wie üblich durcheinander geteilt, d.h. für alle x, y, u, v ∈ K
mit y, u, v 6= 0 gilt
x
x 1
x v
xv
u
· y = · =
.
y =
u v
u y
uy
v
11. Als letztes gilt auch die normale Formel für die Addition von Brüchen, also alles
auf Hauptnenner bringen und dann die Zähler addieren. Für x, yu, v ∈ K mit
u, v 6= 0 ist nämlich
x y
xv uy
xv + uy
+ =
+
= xv · inv(uv) + uy · inv(uv) = (xv + uy) · inv(uv) =
.
u v
uv uv
uv
54
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
In Körpern kann man also mit den Grundrechenarten normal rechnen. Dieses normale
”
Rechnen“ bezieht sich aber nur auf Gleichungen, nicht auf Verschiedenheitsaussagen.
Zum Beispiel kann in einem Körper sehr wohl 1 + 1 = 0 gelten. Wir kennen auch schon
ein Beispiel hierfür, wie eingangs bemerkt ist der Restklassenring Z2 ein Körper und
wegen 1 + 1 = 2 ≡ 0 mod 2 gilt in diesem die Gleichung 1 + 1 = 0. Entsprechend
ergeben sich mit anderen Restklassenringen weitere Beispiele für Körper mit unerwarteten Eigenschaften. Nicht jeder Restklassenring ist ein Körper, und wir wollen jetzt
bestimmen welche genau die Körper unter den Restklassenringen sind.
Satz 4.4: Sei n ∈ N∗ . Dann ist der Restklassenring (Zn , ⊕, ) genau dann ein Körper
wenn n eine Primzahl ist.
Beweis: ”⇐=” Dies wissen wir bereits nach §3.Satz 6. ”=⇒” Wir zeigen die Kontraposition, d.h. ist n keine Primzahl so ist Zn kein Körper. Sei also n keine Primzahl.
Wir unterscheiden zwei Fälle.
Fall 1. Sei n = 1. Dann ist Zn = {[0]}, also gilt 1 = 0 in Zn und Zn ist kein Körper.
Fall 2. Nun sei n > 1. Da n keine Primzahl ist, können wir dann n = xy mit ganzen
Zahlen x, y ∈ Z mit 1 < x, y < n schreiben. Damit ist aber [x], [y] 6= 0 in Zn aber
[x] [y] = [xy] = [n] = 0 in Zn und nach Lemma 3 ist Zn kein Körper.
Vorlesung 8, Donnerstag 10.5.2012
In der letzten Sitzung hatten wir den Körperbegriff eingeführt und einige seiner
elementaren Eigenschaften vorgeführt. Insbesondere hatten wir festgehalten, dass die
Restklassen modulo p für jede Primzahl p einen Körper Zp bilden. Als eine kleine
Anwendung dieser endlichen Körper wollen wir den kleinen Satz von Fermat in seiner
zahlentheoretischen Form beweisen. Vielleicht erinnern Sie sich daran, dass wir dies
schon einmal getan haben, nämlich im Anschluß an den kleinen Satz von Fermat für
Gruppen §2.Satz 9, aber wir wollen das Argument noch einmal in Körpersprache“
”
wiederholen.
Satz 4.5 (Kleiner Satz von Fermat)
Seien p ∈ N eine Primzahl und a ∈ Z eine ganze Zahl mit p - a. Dann gilt
ap−1 ≡ 1 mod p.
Beweis: Nach Satz 4 ist der Restklassenring Zp ein Körper und wir betrachten seine
multiplikative Gruppe Z∗p . Diese hat |Z∗p | = |Zp | − 1 = p − 1 viele Elemente und nach
55
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
dem gruppentheoretischen kleinen Satz von Fermat gilt xp−1 = 1 für alle x ∈ Zp . Wegen
p - a ist die Restklasse [a] ∈ Z∗p , und somit
[ap−1 ] = [a]p−1 = [1]
in Zp , und dies bedeutet ap−1 ≡ 1 mod p.
Multiplizieren wir noch einmal mit a, so nimmt der Satz die Form
ap ≡ a mod p
an, und in dieser Form gilt er sogar für alle a ∈ Z.
Welche Körper sind nun für praktische Zwecke relevant? Zum einen sind dies die
Körper der reellen und komplexen Zahlen ohne die gar nichts geht. Auch der Körper Z2
mit zwei Elementen ist für einige Anwendungen wichtig. Um dies ein wenig zu sehen,
betrachten wir einmal Bitsequenzen einer festen Länge n, also etwa 10010 für n = 5.
Nennen wir die beiden Elemente von Z2 Null und Eins, so können wir diese Bitsequenzen mit n-dimensionalen Vektoren identifizieren, beispielsweise entspricht 10010 dem
Vektor (1, 0, 0, 1, 0). Ein n-dimensionaler Vektor über einem Körper ist dabei einfach
eine Liste von n Körperelementen. Das Wort n-dimensional“ wird hier wie immer
”
in der Mathematik in einem völlig prosaischen Sinne verwendet, hier als Listen von n
Zahlen, ohne irgendwelche implizierten Konotationen. Erinnern wir uns daran das man
in einem Körper normal rechnen kann, so kann man auch die gewohnte Vektorrechnung
durchführen. Dies erlaubt es den Bitsequenzen eine geometrische Bedeutung zu geben,
was sich als nützlich herausstellt. Andere Körper haben außerhalb der Mathematik
keine grosse Bedeutung.
Kommen wir jetzt wieder zur Mathematik zurück. Wir hatten Polynome über allgemeinen Ringen definiert, und festgestellt das es in dieser Allgemeinheit einen Unterschied zwischen Polynomen und Polynomfunktionen gibt. Wir wollen jetzt einsehen,
dass dies bei unendlichen Körpern kein Problem mehr ist. Wir erinnern uns dazu daran, dass wir am Ende von §3.3 eingesehen hatten das über einem Ring die normale
Polynomdivision durchführbar ist, solange nur der höchste Koeffizient des Divisors im
betrachteten Ring invertierbar ist. Da bei einem Körper jedes von Null verschiedene
Element invertierbar ist, ist die Polynomdivision über Körpern immer durchführbar,
d.h. sind a, d ∈ K[x] zwei Polynome über einem Körper K mit d 6= 0, so gibt es
einen eindeutig bestimmten Quotienten q ∈ K[x] und einen eindeutig bestimmten
Rest r ∈ K[x] mit grad(r) < grad(d) und a = q · d + r. Mit diesem Hilfsmittel können
wir das folgende Lemma beweisen.
Lemma 4.6 (Herausziehen von Nullstellen)
Seien K ein Körper und p ∈ K[x] ein Polynom mit grad(p) ≥ 1. Weiter sei a ∈
K eine Nullstelle von p, d.h. p(a) = 0 wenn wir a in die zum Polynom gehörige
Polynomfunktion einsetzen. Dann existiert genau ein Polynom q ∈ K[x] mit p = q ·
(x − a). Dabei gilt grad(q) = grad(p) − 1.
56
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
Beweis: Wie gerade festgehalten existieren eindeutig bestimmte Polynome q, r ∈ K[x]
mit
p = q · (x − a) + r und grad(r) < grad(x − a) = 1.
Damit ist grad(r) = 0 oder grad(r) = −∞, d.h. r ∈ K ist ein konstantes Polynom.
Einsetzen von x = a in die zugehörigen Polynomfunktionen ergibt
0 = p(a) = q(a) · (a − a) + r = r,
und somit gilt p = q · (x − a). Insbesondere ist nach der Gradformel für Polynome auch
grad(p) = grad(q) + grad(x − a) = grad(q) + 1, also grad(q) = grad(p) − 1.
Damit können wir nun zeigen, dass ein Polynom über einem Körper höchstens so viele
Nullstellen haben kann wie sein Grad ist.
Satz 4.7 (Nullstellen von Polynomen über Körpern)
Seien K ein Körper ein p ∈ K[x] ein Polynom mit n := grad(p) ≥ 1. Dann hat p
höchstens n verschiedene Nullstellen in K.
Beweis: Wir beweisen dies durch Induktion nach n. Im Fall n = 1 ist grad(p) = 1
also p = ax + b mit a, b ∈ K, a 6= 0. Damit hat p genau eine Nullstelle in K, nämlich
x = −b/a. Für n = 1 gilt die Aussage folglich.
Jetzt sei n ≥ 2 und jedes Polynom p ∈ K[x] mit grad(p) = n − 1 habe höchstens
n − 1 verschiedene Nullstellen in K. Sei p ∈ K[x] mit grad(p) = n ein Polynom von
Grad n. Wir unterscheiden zwei verschiedene Fälle.
Fall 1. Hat p überhaupt keine Nullstelle in K, so sind wir sofort fertig.
Fall 2. Nun gebe es eine Nullstelle, also ein a ∈ K mit p(a) = 0. Nach Lemma 6 existiert
dann ein Polynom q ∈ K[x] mit p = q · (x − a) und grad(q) = grad(p) − 1 = n − 1.
Nach unserer Induktionsannahme hat das Polynom q höchstens n − 1 Nullstellen in K.
Nach Lemma 3 gibt aber für jedes x ∈ K
p(x) = 0 ⇐⇒ q(x) · (x − a) = 0 ⇐⇒ x = a oder q(x) = 0,
d.h. p hat höchstens eine Nullstelle mehr als q, und somit insgesamt höchstens (n −
1) + 1 = n viele Nullstellen.
Per Induktion ist damit alles bewiesen.
Ist jetzt K ein unendlicher Körper, so sind zwei Polynome p, q ∈ K[x] genau dann
gleich, wenn ihre zugehörigen Polynomfunktionen gleich sind, wenn also p(x) = q(x)
für jedes x ∈ K gilt. Die Implikation von links nach rechts ist dabei trivial. Seien also
p, q ∈ K[x] mit p(x) = q(x) für alle x ∈ K gegeben. Dann ist jedes Element von K
eine Nullstelle der Differenz h := p − q, und da K als unendlich angenommen wird
hat h somit unendlich viele Nullstellen. Nach dem eben bewiesenen Satz ist damit
grad(h) ≤ 0, d.h. h ist konstant. Da h Nullstellen hat muss die Konstante Null sein,
also h = 0 und somit p = q. Über unendlichen Körpern, also insbesondere über den
reellen Zahlen, können wir Polynome also wirklich als Funktionen behandeln.
57
Mathematik für Informatiker B, SS 2012
4.1
Donnerstag 10.5.2012
Angeordnete Körper
Im letzten Abschnitt hatten wir Körper als spezielle Ringe definiert, in denen man
weitgehend normal rechnen kann. Dieses normale Rechnen“ bezog sich dabei nur auf
”
Gleichungen, nicht aber auf Verschiedenheitsaussagen, zum Beispiel konnte in einem
Körper sehr wohl die merkwürdige Identität 1 + 1 = 0 gelten. Wir werden jetzt eine
spezielle Sorte von Körpern einführen in denen so etwas 1 + 1 = 0 nicht passieren kann.
Diese Körper werden den reellen Zahlen sehr viel ähnlicher sein, als es zum Beispiel
die Restklassenkörper Zp für Primzahlen p sind.
In den reellen Zahlen haben wir nicht nur die arithmetischen Grundrechenarten
+, −, ·, / sondern auch eine Anordnung ≤ die mit den arithmetischen Operationen
zusammenpasst. Den Begriff einer Anordnung kennen Sie dabei aus Teil A, eine Anordnung einer Menge X ist eine Relation ≤ auf X, die die folgenden drei Eigenschaften
besitzt
1. Reflexivität, d.h. für alle x ∈ X ist x ≤ x.
2. Antisymmetrie, d.h. für alle x, y ∈ X mit x ≤ y und y ≤ x ist x = y.
3. Transitivität, d.h. für alle x, y, z ∈ X mit x ≤ y und y ≤ z ist auch x ≤ z.
4. Totalität, d.h. für alle x, y ∈ X gilt stets x ≤ y oder y ≤ x.
Oftmals verwendet man für den Begriff einer Anordnung auch nur die ersten drei
Bedingungen, und nennt dann eine Anordnung die auch die vierte Eigenschaft hat total
oder linear. Für unsere Zwecke ist es etwas praktischer die echt kleiner“ Beziehung,
”
definiert durch
x < y :⇐⇒ x ≤ y und x 6= y
für alle x, y ∈ X, zu verwenden. Wegen
x ≤ y ⇐⇒ x < y oder x = y
ist es egal welche dieser beiden Relationen verwendet wird. Man kann die definierenden
Eigenschaften einer Anordnung äquivalent auch für echt kleiner“ anstelle von kleiner
”
”
gleich“ formulieren, dies führt auf die folgenden beiden Bedingungen:
1. Es gilt das Trichotomieprinzip, d.h. für alle x, y ∈ X gilt genau eine der drei
Aussagen x < y oder x = y oder y < x.
2. Transitivität, d.h. für alle x, y, z ∈ X mit x < y und y < z gilt auch x < z.
Das Trichotomieprinzip ersetzt dabei die drei Bedingung der Reflexivität, Antisymmetrie und Totalität. Betrachten wir Anordnungen auf einem Körper K, so kann man
das ganze noch etwas weiter vereinfachen. Die Relation x < y sollte dann gleichwertig
zu y − x > 0 sein, es reicht also die Menge der positiven Elemente zu kennen. Diese
Überlegungen führen auf die folgende Definition:
Definition 4.8: Sei K ein Körper. Ein Positivbereich auf K ist eine Teilmenge P ⊆ K ∗
mit den folgenden beiden Eigenschaften:
58
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
(P1) Es sind P + P ⊆ P und P · P ⊆ P , d.h. für alle x, y ∈ P gelten auch x + y ∈ P
und x · y ∈ P .
(P2) Die Mengen P und −P := {−x|x ∈ P } bilden eine Partition von K ∗ , d.h.
K ∗ = P ∪ (−P ) und P ∩ (−P ) = ∅.
Die Elemente aus P heißen positiv und die aus −P negativ. Ein angeordneter Körper
(K, P ) ist ein Körper K mit einem Positivbereich P .
Der Positivbereich P spielt die Rolle der Menge der positiven Elemente von K. Wie
schon angekündigt können wir den Positivbereich verwenden, um eine Anordnung auf
dem Körper K zu definieren.
Definition 4.9: Sei K ein angeordneter Körper mit dem Positivbereich P . Dann lassen
sich auf K die folgenden Ordnungsrelationen definieren:
x<y
x≤y
x>y
x≥y
:⇐⇒
:⇐⇒
:⇐⇒
:⇐⇒
y − x ∈ P,
(x < y) ∨ (x = y) (also x = y ∨ y − x ∈ P ),
y < x (also x − y ∈ P ),
y ≤ x (also x = y ∨ x − y ∈ P ),
jeweils für alle x, y ∈ K.
Nun muss man verifizieren, dass diese Definition klappt, dass es sich bei ≤ beziehungsweise < also wirklich um Anordnungen handelt, und die von den reellen Zahlen
vertrauten Rechenregeln für < weiter wahr sind.
Lemma 4.10 (Grundeigenschaften angeordneter Körper)
In angeordneten Körpern K gilt:
(a) Für alle x, y ∈ K gilt genau eine der folgenden drei Aussagen: x < y, y < x oder
x = y (Trichotomieprinzip).
(b) Die Relation < ist transitiv.
(c) Verträglichkeit mit der Addition, d.h. für alle x1 , x2 , y1 , y2 ∈ K mit x1 < x2 und
y1 ≤ y2 ist auch x1 + y1 < x2 + y2 .
(d) Verträglichkeit mit der Multiplikation, d.h. für alle x, y, z ∈ K gilt
(x < y) ∧ (z > 0) =⇒ xz < yz,
(x < y) ∧ (z < 0) =⇒ xz > yz.
(e) Verträglichkeit mit additiven und multiplikativen Inversen, d.h. für alle x, y ∈ K
gelten:
x > 0 ⇐⇒ −x < 0,
x < y ⇐⇒ −x > −y,
1
1
0 < x < y =⇒ 0 < < .
y
x
59
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
Beweis: Dies ist Aufgabe (22).
Als nächsten Schritt halten wir fest das von Null verschiedene Quadrate in einem
angeordneten Körper immer positiv sind.
Lemma 4.11 (Quadrate in angeordneten Körpern)
In angeordneten Körpern gilt x2 > 0 für alle x ∈ K ∗ . Insbesondere gilt 1 > 0 und
−1 < 0.
Beweis: Ist x > 0, also x ∈ P , so gilt nach dem Anordnungsaxiom (P1) auch x2 ∈ P ,
d.h. x2 > 0. Andernfalls ist nach Anordnungsaxiom (P2) dann x ∈ −P , d.h. −x ∈ P ,
und somit ist auch x2 = (−x)2 ∈ P , also x2 > 0. Insbesondere ist 1 = 12 > 0 und mit
Lemma 10.(e) folgt auch −1 < 0.
In einem angeordneten Körper ist somit x2 6= −1 für alle x ∈ K. Die meisten Körper
besitzen keinen Positivbereich. Zum Beispiel ist im Restklassenkörper Z5 wegen 22 =
4 ≡ −1 mod 5 das Element −1 ein Quadrat, es kann also keinen Positivbereich in
Z5 geben. Tatsächlich werden wir bald sehen, dass kein endlicher Körper angeordnet
werden kann. Wenn es allerdings Positivbereiche gibt, so kann es passieren das gleich
mehrere verschiedene Positivbereiche existieren. Derartige Körper lassen sich dann auf
mehr als eine Weise anordnen. Ein Beispiel für einen solchen Körper wird in Aufgabe
(21) behandelt.
Es gibt also sowohl Körper die überhaupt keine Positivbereiche haben, wie etwa Z5 ,
es gibt Körper die genau einen Positivbereich haben, wie etwa die reellen Zahlen, und es
gibt auch Körper die mehrere Positivbereiche haben, wie das eben diskutierte Beispiel.
Wir wollen uns jetzt allmählich in Richtung des wichtigsten angeordneten Körpers
bewegen, dies sind gerade die reellen Zahlen. Zum Abschluß dieses Abschnitts über
allgemeine angeordnete Körper wollen wir noch zeigen, dass in angeordneten Körpern
niemals so etwas wie 1 + 1 = 0 passieren kann. Wir wollen sogar einsehen das man
in einem angeordneten Körper mit den rationalen Zahlen normal rechnen kann. Da Q
streng genommen nicht einmal eine Teilmenge eines gegebenen angeordneten Körpers
K sein muss, benötigen wir einen Isomorphiebegriff für angeordnete Körper. Dieser
wird analog zu demjenigen für Gruppen in §2 definiert. Ist für i = 1, 2 ein angeordneter
Körper Ki mit Positivbereich Pi gegeben, so ist ein Isomorphismus dieser angeordneten
Körper eine bijektive Abbildung ϕ : K1 → K2 mit den folgenden Eigenschaften:
1. Für alle x, y ∈ K1 ist ϕ(x + y) = ϕ(x) + ϕ(y). In anderen Worten ist ϕ ein
Isomorphismus der additiven Gruppe (K1 , +) mit (K2 , +). Insbesondere muss
nach §2.Lemma 6 damit ϕ(0) = 0 gelten.
2. Für alle x, y ∈ K1 ist ϕ(x · y) = ϕ(x) · ϕ(y). In anderen Worten ist ϕ ein Isomorphismus der multiplikativen Gruppe (K1∗ , ·) mit (K2∗ , ·). Erneut mit §2.Lemma 6
müssen wir also ϕ(1) = 1 haben.
60
Mathematik für Informatiker B, SS 2012
Donnerstag 10.5.2012
3. Es gilt ϕ(P1 ) = P2 .
Da Pi für i = 1, 2 die Menge der positiven Elemente von Ki ist, können wir Bedingung
(3) auch in der Form
∀(x ∈ K1 ) : x > 0 ⇐⇒ ϕ(x) > 0
aussprechen. Für alle x, y ∈ K1 folgt damit auch
x < y ⇐⇒ y − x > 0 ⇐⇒ ϕ(y) − ϕ(x) = ϕ(y − x) > 0 ⇐⇒ ϕ(x) < ϕ(y),
d.h. ein Isomorphismus angeordneter Körper ist auch mit den Anordnungen der beiden
Körper verträglich. Jetzt können wir zeigen, dass jeder angeordnete Körper die rationalen Zahlen enthält, beziehungsweise genauer einen zu ihnen isomorphen Unterkörper.
Lemma 4.12: Jeder angeordnete Körper K enthält (bis auf Isomorphie) die rationalen
Zahlen Q.
Beweis: In der kommutativen Gruppe (K, +) haben wir nach §2 Potenzen von Elementen mit ganzen Zahlen. Da die Verknüpfung als +“ geschrieben wird, werden diese
”
Potenzen zu Vielfachen. Insbesondere haben wir für jedes n ∈ Z das Körperelement
n · 1 ∈ K, und hiermit definieren wir eine Abbildung
ϕ : Z → K; n 7→ n · 1.
Die Potenzrechenregeln für Gruppen ergeben dann ϕ(n + m) = (n + m) · 1 = n ·
1 + m · 1 = ϕ(n) + ϕ(m) für alle n, m ∈ Z. Damit ist ϕ : (Z, +) → (K, +) ein
Gruppenhomomorphismus. Weiter behaupten wir das für alle a ∈ K, n ∈ Z auch
(n · 1) · a = n · a ist. Für n ∈ N∗ folgt dies aus dem Distributivgesetz
(n · 1) · a = (1| + ·{z
· · + 1}) · a = a
· · + a} = n · a,
| + ·{z
n mal
n mal
für n = 0 ist trivialerweise (n · 1) · a = 0 · a = 0 = n · a, und für jedes n ∈ N∗ ist weiter
auch
((−n) · 1) · a = (−n · 1) · a = −((n · 1) · a) = −(n · a) = (−n) · a.
Für alle n, m ∈ Z ergibt sich mit den Potenzrechenregeln weiter
ϕ(nm) = (nm) · 1 = n · (m · 1) = (n · 1) · (m · 1) = ϕ(n) · ϕ(m).
Damit ist ϕ auch ein multiplikativer Isomorphismus. Schließlich ist für jedes n ∈ N∗
nach Lemma 11 und Lemma 10.(e) auch
ϕ(n) = |1 + ·{z
· · + 1} > 0 und ϕ(−n) = (−n) · 1 = −(n · 1) < 0,
n mal
also ist n > 0 ⇐⇒ ϕ(n) > 0 für jedes n ∈ Z. Für alle n, m ∈ Z folgt weiter
n < m ⇐⇒ m − n > 0 ⇐⇒ ϕ(m) − ϕ(n) = ϕ(m − n) > 0 ⇐⇒ ϕ(n) < ϕ(m).
61
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Insbesondere ist für n, m ∈ Z mit n 6= m auch ϕ(n) 6= ϕ(m) und ϕ ist injektiv. Damit
enthält K bis auf Isomorphie zumindest Z.
Nun definieren wir
m
ϕ(m)
ϕ : Q → K;
7→
n
ϕ(n)
für m ∈ Z, n ∈ N∗ . Da wir für n ∈ N∗ bereits ϕ(n) > 0 wissen, ist dies überhaupt
sinnvoll. Weiter wird durch obige Vorschrift eine wohldefinierte Abbildung eingeführt,
denn sind m, m0 ∈ Z, n, n0 ∈ N∗ mit m/n = m0 /n0 , so ist mn0 = m0 n, und somit auch
ϕ(m)ϕ(n0 ) = ϕ(mn0 ) = ϕ(m0 n) = ϕ(m0 )ϕ(n) =⇒
ϕ(m)
ϕ(m0 )
=
.
ϕ(n)
ϕ(n0 )
Die Gültigkeit der Bruchrechenregeln in einem Körper, ergibt das auch ϕ ein Homomorphismus von Addition und Multiplikation ist. Für m ∈ Z, n ∈ N∗ ist wegen ϕ(n) > 0
auch
m ϕ(m)
m
ϕ
=
> 0 ⇐⇒ ϕ(m) > 0 ⇐⇒ m > 0 ⇐⇒
> 0.
n
ϕ(n)
n
Damit bildet ϕ den Positivbereich von Q genau auf den Positivbereich von K ab. Wie
für ϕ folgt damit das auch ϕ injektiv ist. Das Bild von ϕ ist jetzt der bis auf Isomorphie
in K enthaltene Körper Q.
Insbesondere ist damit jeder angeordnete Körper unendlich, auf endlichen Körpern
wie unseren Restklassenkörpern kann es also keine Anordnung geben.
4.2
Der Körper der reellen Zahlen
Wir wiederholen zunächst einige Definitionen die Sie bereits aus Teil A kennen für den
Spezialfall angeordneter Körper.
Definition 4.13: Sei K ein angeordneter Körper. Eine Teilmenge A ⊆ K heißt nach
oben beschränkt, wenn es eine obere Schranke M ∈ K von A in K gibt, d.h. ein
M ∈ K mit x ≤ M für alle x ∈ A. Entsprechend heißt eine Teilmenge A ⊆ K nach
unten beschränkt, wenn es eine untere Schranke m ∈ K von A in K gibt, d.h. ein
m ∈ K mit x ≥ m für alle x ∈ A.
Vorlesung 9, Dienstag 15.5.2012
In der letzten Sitzung hatten wir mit der Untersuchung angeordneter Körper begonnen. Insbesondere hatten wir obere und unterer Schranken von Teilmengen eines
solchen Körpers K definiert, dies waren gerade Elemente des Körpers die größer-gleich
62
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
beziehungsweise kleiner-gleich als jedes Element der Teilmenge waren. Diese Schranken waren recht willkürlich ist a eine obere Schranke so ist auch jedes b ≥ a ebenfalls
ein obere Schranke. Von besonderen Interesse sind natürlich die besten“ oberen und
”
unteren Schranken, also die kleinste obere Schranke beziehungsweise die größte untere
Schranke. Diese Objekte stellen sich als wichtig heraus, und erhalten daher zunächst
einen eigenen Namen.
Sei also ein angeordneter Körper K gegeben. Sei A ⊆ K. Eine obere Schranke M
von A heißt Supremum von A, wenn sie die kleinste obere Schranke von A in K ist, es
soll also M ≤ M 0 für jede obere Schranke M 0 von A in K gelten. Man schreibt dann
M = sup A. Entsprechend heißt eine untere Schranke m von A das Infimum von A,
wenn sie die größte untere Schranke von A in K ist, wenn also m ≥ m0 für jede untere
Schranke m0 von A in K gilt. Man schreibt dann m = inf A.
Da all dies schon im letzten Semester dran war, wollen wir hier nur kurz einige
kleine Beispiele angeben. Wir werden den Begriff später noch einmal etwas genauer
wiederholen, sobald wir ihn etwas intensiver benutzen wollen.
Wir gehen jetzt einige Beispiele im angeordneten Körper K = Q durch.
1. Die Menge Q+ := {x ∈ Q|x > 0}, also der Positivbereich, ist nach unten aber
nicht nach oben beschränkt. Die unteren Schranken von Q+ sind genau die m ∈ Q
mit m ≤ 0, und die größte unter ihnen ist m = 0. Damit ist inf Q+ = 0 das
Infimum. Ein Supremum gibt es nicht, da es ja überhaupt keine oberen Schranken
gibt, also erst recht keine kleinste obere Schranke.
2. Die Menge Z der ganzen Zahlen ist in Q weder nach oben noch nach unten
beschränkt, sie hat also insbesondere auch weder Infimum noch Supremum.
3. Die Menge A := {x ∈ Q|1 < x < 2} ist nach oben und nach unten beschränkt,
etwa durch die untere Schranke m = 1 und die obere Schranke M = 2. Diese sind
offenbar auch Infimum und Supremum, also inf A = 1, sup A = 2.
4. Die Menge A := {x ∈ Q|x2 < 2} ist nach oben und unten beschränkt. Beispielsweise gilt für jedes x ∈ A stets x2 < 2 < 4 = 22 also auch
(x − 2) · (x + 2) = (x2 − 4) < 0,
also haben x − 2 und x + 2 verschiedenes Vorzeichen und wegen x − 2 < x + 2
bedeutet dies x − 2 < 0 < x + 2, d.h. −2 < x < 2. Diese Schranken sind aber
kein Supremum beziehungsweise Infimum, beispielsweise ist 3/2 eine kleine obere
Schranke. Tatsächlich hat A in Q weder Supremum noch Infimum. Dies wollen
wir hier nicht exakt beweisen, intuitiv ist Ihnen
hoffentlich klar was passiert,
√
Supremum beziehungsweise Infimum wären ± 2, aber diese sind keine rationalen
Zahlen.
Im Fall der rationalen Zahlen kann es also passieren, dass nach oben beschränkte
√ Mengen überhaupt keine kleinste obere Schranke besitzen, weil diese wie etwa 2 in Q
63
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
einfach fehlt. In den reellen Zahlen wird dieser Effekt nicht auftreten, und wir führen
zunächst einmal einen Namen für diese Eigenschaft der reellen Zahlen ein.
Definition 4.14: Ein angeordneter Körper heißt vollständig, wenn in ihm jede nicht
leere, nach oben beschränkte Menge ein Supremum besitzt.
Die Asymmetrie zwischen Supremum und Infimum in dieser Definition ist nur scheinbar, in einem vollständig angeordneten Körper K hat auch jede nicht leere, nach unten
beschränkte Menge A ⊆ K ein Infimum. Wir können nämlich zu A die Menge
B := {b ∈ K|b ist eine untere Schranke von A}
der unteren Schranken von A betrachten. Da A nach unten beschränkt ist, gibt es
überhaupt eine untere Schranke von A und damit ist B 6= ∅. Ist a ∈ A, so gilt x ≤ a
für jede untere Schranke x von A, d.h. für jedes x ∈ B. Damit ist jedes Element von A
eine obere Schranke von B, und wegen A 6= ∅ ist B insbesondere nach oben beschränkt.
Die Vollständigkeit von K liefert die Existenz des Supremums
s := sup B ∈ K,
und wir behaupten das s zugleich das Infimum von A ist. Ist a ∈ A so haben wir schon
festgehalten, dass a eine obere Schranke von B ist und da s die kleinste obere Schranke
von B ist, ist somit s ≤ a. Folglich ist s zumindest eine untere Schranke von A. Ist jetzt
t ∈ K eine beliebige untere Schranke von A, so ist t ∈ B da B ja gerade die Menge
der unteren Schranken von A war, und insbesondere ist t ≤ s. Damit ist s die größte
untere Schranke von A, d.h. das Infimum von A.
Damit ist die Symmetrie zwischen Supremum und Infimum wieder hergestellt. Wie
das letzte der obigen Beispiele zeigt, sind die rationalen Zahlen Q zwar angeordnet,
aber nicht vollständig angeordnet. Die reellen Zahlen sind dagegen vollständig angeordnet. Streng genommen beweist man die Existenz und Eindeutigkeit eines vollständig
angeordneten Körpers und definiert die reellen Zahlen dann als diesen Körper.
Satz 4.15 (Existenz und Eindeutigkeit der reellen Zahlen)
Es gibt bis auf Isomorphie genau einen angeordneten vollständigen Körper. Dieser wird
als der Körper R der reellen Zahlen bezeichnet.
Da dies etwas aufwändig ist, wollen wir diesen Satz hier nicht beweisen. Die Eindeutigkeit ist in Wahrheit kein großes Problem, und kann recht schnell basierend auf Lemma
12 bewiesen werden. Die Existenz wird durch explizite Konstruktion eines vollständig
angeordneten Körpers hergeleitet. Hierfür gibt es (mindestens) vier verschiedene, übliche Konstruktionsmethoden, aber in jeder dieser vier Methoden ist einiges an Details
abzuarbeiten.
Die reellen Zahlen sind eine Obermenge der rationalen Zahlen, was wir sowieso
nach Lemma 12 wissen, aber sehr viel größer als die rationalen Zahlen. Reelle Zahlen
lassen sich in Form von unendlichen Dezimalbrüchen darstellen. Tatsächlich ist dies der
Ansatzpunkt für eine der vier Konstruktionsmethoden. Wir werden uns im nächsten
64
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Abschnitt kurz und vereinfachend mit der Darstellung reeller Zahlen im Computer
beschäftigen, die dann über gewisse Zifferndarstellungen“ erfolgt. Zuvor wollen wir
”
aber noch ein wichtiges Lemma beweisen, das sich in späteren Kapiteln als grundlegend
herausstellen wird.
Lemma 4.16 (Archimedische Eigenschaft von R)
Zu jedem x ∈ R mit x > 0 gibt es ein n ∈ N∗ mit 0 <
1
n
< x.
Beweis: Zunächst gilt für jedes n ∈ N∗ natürlich 1/n > 0, wir müssen uns also nur um
1/n < x kümmern. Angenommen es gäbe kein solches n ∈ N∗ , d.h. für jedes n ∈ N∗
gilt
1
1
≥ x, und somit n ≤ .
n
x
∗
∗
Dann ist 1/x eine obere Schranke von N und N ist in R nach oben beschränkt. Die
Vollständigkeit der reellen Zahlen ergibt die Existenz des Supremums s := sup N∗ .
Dann ist aber s − 1 ∈ R eine reelle Zahl mit s − 1 < s, und da s die kleinste obere
Schranke von N∗ ist, kann s − 1 keine obere Schranke von N∗ sein. Dies bedeutet das
es ein n ∈ N∗ mit s − 1 < n gibt. Dann ist aber auch n + 1 ∈ N∗ und mit Lemma
10.(c) folgt s = (s − 1) + 1 < n + 1. Andererseits ist s eine obere Schranke von N∗ , wir
müssen also auch n + 1 ≤ s haben, und dies ist ein Widerspruch. Dieser Widerspruch
beweist, dass es ein n ∈ N∗ mit 1/n < x geben muss.
4.2.1
Darstellung reeller Zahlen
Wir kommen nun kurz zur Darstellung reeller Zahlen im Computer. Hier gibt es zwei
übliche Methoden. Das erste ist die sogenannte Fixpunktarithmetik, hier verwendet
man Dezimalzahlen deren Nachkommastellen auf eine fest vorgegebene Stellenzahl begrenzt sind. Alle über diese Grenze hinausgehenden Dezimalziffern werden abgeschnitten, eventuell mit Rundung durch Modifikation der letzten gültigen Nachkommastelle.
Ein Vorteil dieses Verfahrens ist, dass man so mit ganzen Zahlen auskommt. Wollen
wir beispielsweise e = 3 Nachkommastellen haben, so können wir einfach ganze Zahlen
benutzen deren Wert als Tausendstel interpretiert wird, die Zahl 1.217 wird dann zu
1217 Tausendsteln. Es gibt einige Situationen in denen einem diese Art der Arithmetik
begegnen kann:
1. Bei diversen mit dem Geldverkehr befassten Anwendungen gibt es ziemlich genaue gesetzliche Vorgaben mit wievielen Nachkommastellen gerechnet werden
muss, wie die Rundung durchgeführt werden muss und so weiter. Hier ist man
oft praktisch gezwungen mit der einen oder anderen Form von Fixpunktarithmetik zu rechnen.
2. Bei einigen graphischen Anwendungen ist durch die Existenz von Pixeln von vornherein eine kleinstmögliche sichtbare Größe gegeben. Trotzdem kann es praktisch
65
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
sein die Bildschirmkoordinaten nicht als Pixelanzahlen zu beschreiben sondern
in realen Einheiten“, etwa in Millimetern. Die wirklich verschiedenen Koordi”
natengrößen unterscheiden sich dann in Vielfachen der Pixelgröße, was man als
Anlass zur Verwendung einer Fixpunktarithmetik nehmen kann.
3. Manchmal wird Fixpunktarithmetik verwendet um von den Details der Fließpunktrechnung unabhängig zu sein. Beispielsweise verwendet die Originalimplementation von TEX eine Fixpunktarithmetik. Diese wurde zu einer Zeit erstellt
als es noch eine wesentlich größere Prozessorvielfalt als heute gab, und die Implementierung der Fließpunktarithmetik auf verschiedenen Prozessoren konnte
sich in diversen Details unterscheiden. Um unabhängig vom verwendeten Rechner immer dieselbe Ausgabe zu erhalten, hat TEX daher seine eigene Arithmetik
implementiert. Dies ist aktuell kein großes Problem mehr, da es für die Implementierung von Fließpunktzahlen inzwischen allgemein befolgte Standards gibt.
Die praktisch wichtigere Zahldarstellung ist die schon erwähnte Darstellung reeller
Zahlen als Fließpunktzahlen, oder Fließkommazahlen wenn Ihnen der Name lieber ist.
Die Grundidee ist es Größenordnung und Genauigkeit etwas zu entkoppeln und reelle
Zahlen in der Form x = m·10k zu schreiben. Die sogenannte Mantisse m“ ist dabei für
”
die Genauigkeit und der Exponent k“ für die Größenordnung zuständig. Eine derartige
”
Darstellung ist natürlich nicht eindeutig, durch Änderung des Exponenten verschiebt
sich der Dezimalpunkt in der Mantisse
178.5308 · 101 = 17.85308 · 102 = 1785.308 · 100 = 17853.08 · 10−1 .
Dieses Verschieben des Dezimalpunktes gibt der Fließpunktarithmetik ihren Namen.
Um die Darstellung eindeutig zu machen, legt man sich jetzt auf die sogenannten
normalisierten Fließpunktzahlen fest, bei denen die Mantisse die Form m = ±0.X... hat,
wobei die erste Nachkommastelle X“ nicht Null ist. Für die reelle Zahl x = 0 ist eine
”
solche Darstellung nicht möglich, und die Null wird daher als ein Sonderfall behandelt.
Zur Addition normalisierter Fließpunktzahlen müssen die beiden Zahlen erst durch
Verschieben des Dezimalpunktes auf dieselbe Größenordnung gebracht werden, dann
können die Mantissen addiert werden und anschließend muss das Ergebnis eventuell
noch normalisiert werden. Als ein Beispiel zur Addition wollen wir einmal
0.34127 · 1019 + 0.41578 · 1021 = 0.0034127 · 1021 + 0.41578 · 1021
= (0.0034127 + 0.41578) · 1021 = 0.4191927 · 1021
rechnen. Entsprechend wird auch die Subtraktion gehandhabt. Bei einer vollständigen
Implementierung der Fließpunktaddition müssen auch noch die Vorzeichen berücksichtigt werden, so das Addition bei verschiedenen Vorzeichen in Wahrheit eine Subtraktion
ist. Multiplikation ist etwas einfacher da m1 10e1 · m2 10e2 = m1 m2 10e1 +e2 ist, man muss
also nur die Mantissen multiplizieren, die Exponenten addieren und anschließend das
Ergebnis normalisieren. Die Behandlung des Vorzeichens kann dann gesondert erfolgen.
Entsprechend sieht die Division aus, hier haben wir m1 10e1 /m2 10e2 = (m1 /m2 )·10e1 −e2 .
66
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
In einer realen Implementierung stehen für Mantisse und Exponent nur eine begrenzte, fest vorgegebene Zahl an Dezimalstellen zur Verfügung. Es bezeichne t die
Anzahl der Mantissenstellen und e die Exponentenstellen. Bei Addition und Multiplikation gehen einige Stellen mangels Platz verloren. Wir verwenden hier eine vereinfachte
Version der Fließpunktarithmetik und schneiden nicht mehr darstellbare Ziffern einfach
ab. Die wirklich verwendeten Implementationen sind etwas komplizierter, da anstelle
des einfachen Abschneidens von Stellen noch geeignete Rundungen durchgeführt werden. Rechnen wir etwa unser obiges Beispiel noch einmal mit t = 5 Mantissenstellen
und e = 3 Exponentenstellen. Bei der Angleichung der Exponenten verschwinden dann
Dezimalstellen durch 0.34127 · 1019 = 0.00341 · 1021 , wobei man das Gleichheitszeichen
hier nicht so wörtlich nehmen darf. Diesmal ergibt sich
0.34127 · 1019 + 0.41578 · 1021 = 0.00341 · 1021 + 0.41578 · 1021
= (0.0034127 + 0.41578) · 1021 = 0.41919 · 1021 .
Wir wollen noch ein zweites Beispiel betrachten bei dem eine anschließende Normalisierung nötig wird
0.99994·103 +0.70000·10−1 = 0.99994·103 +0.00007·103 = 1.00001·103 = 0.10000·104 .
Im Prinzip könnte diese Normalisierung zu einem Überlauf im Exponenten führen,
aber solche Möglichkeiten wollen wir hier ignorieren. Multiplikation und Division sind
dann etwas komplizierter, und hier gibt es auch verschiedene Varianten wie diese mit
begrenzter Mantissenlänge implementiert werden müssen. Ein Unterschied liegt darin ob Zwischenergebnisse immer mit der fixierten Mantissenlänge gerechnet werden
müssen, oder ob für diese auch größere Zahlen erlaubt sind, typischerweise die doppelte Stellenzahl. In realen Rechnern ist die Wahl der Methode inzwischen, wie schon
bemerkt, standardisiert, hier wollen wir uns ruhig beide Möglichkeiten offenhalten. Als
ein Beispiel wollen wir einmal mit der Mantissenlänge t = 4 das Produkt
0, 7189 100 · 0, 1700 · 101
rechnen. Führen wir die übliche schriftliche Multiplikation aus, so wird 0, 7189 100 ·
0, 1700 101 = 7189 · 17 10−5 und
7189 · 1700
7189
+50323
122213
das normalisierte Ergebnis ist also
0, 7189 100 · 0, 1700 · 101 =“ 0.1222 · 101 .
”
Die Verschiebung in den Vorkommabereich haben wir dabei nur der Übersichtlichkeit
halber durchgeführt. Hier haben wir mit Zwischenergebnissen gerechnet die länger
67
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
als die Mantissenlänge t = 4 waren, dies hat hier allerdings auf das Ergebnis keinen
Einfluss. Wir wollen uns auch noch ein Beispiel anschauen, bei dem tatsächlich ein
Unterschied auftritt, nämlich 0, 9999 · 0, 9999 beide mit Exponent 0, und wieder in
Mantissenlänge t = 4. Wir zeigen die Rechnung links mit erweiterter Mantisse und
rechts mit sofortigen Streichen überzähliger Dezimalstellen
9999 · 9999 · 10−8
9999 · 9999
89991
8999
+ 89991
+ 899
+ 89991
+ 89
+ 89991
+ 8
99980001 · 10−8 =“ 0.9998
9995 · 10−4 =“ 0.9995
”
”
Hier tritt also tatsächlich ein Unterschied in der letzten Dezimalstelle auf. Wir wollen
auch noch ein Beispiel einer Division vorführen, und hier nehmen wir
0.1214 · 102 : 0.7189 · 101 =
1234
· 101 .
7189
Wir rechnen wieder mit der Mantissenlänge t = 4, und betrachten zwei mögliche Varianten. Links erlauben wir für Zwischenergebnisse eine zusätzliche Stelle in der Mantisse,
und rechts bleiben wir strikt bei t = 4 Dezimalstellen.
1214 : 7189 = 0.1688
− 7189
4951
− 43134
6366
− 57512
6148
− 57512
3968
496
· 10−1 = 1 · 10−1 + 718
· 10−1
=“1 · 10 + 496
· 10−2
71
”
= 1 · 10−1 + 6 · 10−2 + 70
· 10−2
71
=“1 · 10−1 + 6 · 10−2 + 70
· 10−3 = 0.17,
7
”
1214
=“ 1214
7189 ”
718
−1
links haben wir also das Ergebnis 0.1688 · 101 und rechts die deutlich schlechtere Näherung 0.1700 · 101 .
In realen Computern wird normalerweise eine binäre Fließpunktarithmetik anstelle
der bisher behandelten dezimalen Arithmetik benutzt. Dies ist aber inhaltlich kein
wesentlicher Unterschied. Weiter werden diverse spezielle Zahlen“ unterstützt also
”
Werte für unendlich kleine und unendlich große Zahlen, ungültige Zahlen“ die als
”
Ergebnisse bei Rechenfehlern verwendet werden, es gibt sogar verschiedene Werte für
eine positive und eine negative Null, und so weiter. Derartige Details wollen wir hier
nicht behandeln.
Es gibt zwei standardisierte Größen für binäre Fließpunktzahlen. Dies sind zum
einen die 32-Bit Zahlen, typischerweise der Datentyp float in C.
float
±
Mantisse, t = 24 Bits
68
Exponent, e = 8 Bits
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Das Vorzeichen nimmt dabei ein Bit in Anspruch. Im Exponenten wird kein Vorzeichen
verwendet, anstelle dessen werden negative Werte durch einen Offset realisiert. Bei e =
8 Bits haben wir 28 = 256 verschiedene Werte, und hierfür nimmt man die Zahlen von
−128 bis 127. Gespeichert werden diese mit dem Offset 27 = 128, d.h. der gespeicherte
Wert n meint n − 128 als Exponent. Wenn Sie oben mitgezählt haben benötigen wir t +
e = 32 Bits plus ein Vorzeichenbit und dies scheint eines zuviel zu sein. Das ist aber nur
eine Täuschung. Gespeichert werden ja normalisierte Fließpunktzahlen, also mit erster
Nachkommastelle ungleich Null. Im Binärsystem ist die erste Nachkommastelle einer
normalisierten Fließpunktzahl damit immer gleich Eins, und diese sowieso festgelegte
Eins wird einfach nicht mitgespeichert. Von den t = 24 Mantissenbits werden also nur
die hinteren 23 wirklich im Speicher abgelegt, und damit kommt man auf insgesamt 32
Bits für einen float Wert.
Die zweite Standardgröße sind 64 Bit große Fließpunktzahlen, typischerweise der
Datentyp double in C. Hier hat man
double
±
Mantisse, t = 53 Bits
Exponent, e = 11 Bits
Das oben für float gesagte trifft entsprechend auch auf double zu. Man mag sich
fragen warum die Mantisse so viel großzügiger bedacht wird als der Exponent, aber
dies hat gute Gründe. Zu große oder zu kleine Werte im Exponenten kann man in
der Regel vermeiden indem das Ausgangsproblem vorher passend skaliert wird, beispielsweise durch Wahl geeigneter Einheiten oder durch Übergang zu Logarithmen
und ähnlichen. Dies funktioniert nur nicht wenn zugleich Werte von sich stark unterscheidenden Größenordnungen auftreten, was glücklicherweise nicht so oft passiert.
Ungenaues Rechnen in der Mantisse kann man dagegen durch nichts ausgleichen. Spezielle Prozessoren bieten oft auch noch diverse andere Fließpunkttypen an, aber so
etwas soll hier nicht mehr besprochen werden.
4.3
Der Körper der komplexen Zahlen
Nachdem wir uns im letzten Teilabschnitt die reellen Zahlen ein wenig angeschaut
haben, kommen wir nun zum letzten der grundlegenden Zahlbereiche, den sogenannten
komplexen Zahlen. Wir beginnen mit einer eher operativen Einführung der komplexen
Zahlen bevor wir dann zu einer exakten Definition kommen. Das Ausgangsproblem zu
dessen Lösung die komplexen Zahlen ursprünglich eingeführt wurden ist die Lösung
der Gleichung dritten Grades
x3 + ax2 + bx + c = 0 (a, b, c ∈ R).
Analog zur quadratischen Ergänzung bei der quadratischen Gleichung kann man den
zweithöchsten Term zum Verschwinden bringen, hier durch die Ersetzung von x durch
x − a/3, und erhält die Normalform der Gleichung dritten Grades
x3 + px + q = 0 (p, q ∈ R).
69
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
Für diese Gleichung gibt es jetzt, entsprechend zur pq-Formel bei der quadratischen
Gleichung, eine explizite Lösungsformel, die sogenannte Formel von Cardano. Die volle Cardano-Formel beschreibt alle drei Lösungen unserer Gleichung, aber für unsere
Zwecke reicht es die erste, und auch einfachste, dieser drei Lösungen hinzuschreiben.
Diese Lösung ist gegeben als
√
3
p
D
2p
x=
−√
mit D := −108q + 12 12p3 + 81q 2 .
3
6
D
Wir wollen uns als ein konkretes Beispiel einmal den Beginn der Rechnung für die
Gleichung
7
20
x3 − x +
=0
3
27
anschauen. Hier ist p = −7/3 und q = 20/27. Damit wird
12p3 + 81q 2 = −108 = −36 · 3,
also
√
√
D = −80 + 12 −108 = −80 + 72 −3.
Das scheint also gar nicht zu funktionieren, eine Wurzel aus −3 gibt es nun einmal
nicht. Der Trick an der Cardano-Formel ist es dieses Detail zu ignorieren, und einfach
weiter zu rechnen. Der weitere Verlauf spielt für uns keine Rolle und soll hier nicht
vorgeführt werden. Als Endergebnis ergibt sich x = 1/3, und dies ist tatsächlich eine
Lösung unserer Gleichung dritten Grades. Wir haben hier also mit der rein reellen
Gleichung
7
20
=0
x3 − x +
3
27
begonnen, √
und sind bei der reellen Lösung x = 1/3 gelandet. Nur zwischendurch ist so
etwas wie −3 in der Rechnung aufgetaucht, ist aber am Ende wieder verschwunden.
Man bezeichnet den Zahlbereich der durch Erweiterung von R um Wurzeln negativer
Zahlen entsteht als die komplexen Zahlen. Im Kontext der Cardano-Formel spielt es keinerlei Rolle ob die komplexen Zahlen logisch überhaupt stichhaltig sind, am Ende kann
man ja einfach nachschauen ob die erhaltene reelle Zahl tatsächlich eine Lösung ist.
Hier sind die komplexen Zahlen also nur ein obskurer Rechentrick, sie tauchen zwischendurch geisterhaft auf und verschwinden am Ende wieder. Aus dieser Zeit stammt auch
die Redeweise von den Wurzeln negativer Zahlen als den sogenannten imaginären Zahlen, denn als reiner Rechentrick betrachtet haben die komplexen Zahlen ja tatsächlich
etwas imaginäres“.
”
Bevor wir zu einer formalen Definition kommen, wollen wir erst einmal noch etwas
auf der vagen Basis komplexe Zahlen = Reelle Zahlen + Wurzeln negativer Zahlen“
”
weiterrechnen. Zunächst beachte das wir gar nicht die Wurzeln aller negativen Zahlen
hinzunehmen müssen, es reichht völlig eine Wurzel aus −1 zu haben. Denn dann können
wir beispielsweise auch
p
√
√
√
−3 = (−1) · 3 = −1 · 3
70
Mathematik für Informatiker B, SS 2012
Dienstag 15.5.2012
√
rechnen. Man nennt√i := −1 daher die imaginäre Einheit“. Alleine mit dem Hin”
zunehmen von i = −1 ist es aber nicht getan, es muss ja auch Zahlen wie 2 + i,
1/(3 + 2i) und so weiter geben. Wir wollen uns klarmachen das man mit komplexen
Zahlen der Form a + ib mit a, b ∈ R auskommt. Schauen wir uns zunächst einmal die
Potenzen der imaginären Einheit i an
i2 = −1, i3 = i2 · i = −i, i4 = (i2 )2 = (−1)2 = 1, i5 = i4 · i = 1 · i, . . .
Wegen i4 = 1 wiederholen sich die Potenzen von i jetzt im Viererrythmus. Ein allgemeiner polynomialer Ausdruck in i mit reellen Koeffizienten wird also zu
a0 + a1 i + a2 i2 + a3 i3 + a4 i4 + a5 i5 + · · · = a0 + a1 i − a2 − a3 i + a4 + a5 i + · · ·
= (a0 − a2 + a4 − · · · ) + (a1 − a3 + a5 − · · · )i,
diese Ausdrücke haben also immer die Form a + ib. Wie sieht es jetzt mit Quotienten
aus? Dabei ist 1/i leicht zu sehen, es ist ja
i · (−i) = −i2 = 1 =⇒
1
= −i,
i
aber schon so etwas wie 1/(1 + i) ist nicht so
√ einfach. Hier führt aber derselbe Trick
wie bei der obigen Umformung von 1/(1 − 3 3 i) zum Ziel, es ist
1
1−i
1−i
1−i
1 1
=
=
=
= − i.
2
1+i
(1 + i) · (1 − i)
1−i
2
2 2
Dieselbe Rechung funktioniert auch im allgemeinen Fall, sind a, b ∈ R mit a + ib 6= 0,
also (a, b) 6= (0, 0), so ist
1
a − ib
a − ib
a
b
= 2
− 2
i.
=
= 2
2
2
a + ib
(a + ib)(a − ib)
a +b
a +b
a + b2
Solange es nur um die Grundrechenarten geht, können wir uns bei den komplexen
Zahlen also auf die Menge
C = {a + ib|a, b ∈ R}
beschränken. Addition und Multiplikation dieser Zahlen sind dann durch die Formeln
(a1 + ib1 ) + (a2 + ib2 ) = (a1 + a2 ) + i(b1 + b2 ),
(a1 + ib1 ) · (a2 + ib2 ) = a1 a2 + ia1 b2 + ib1 a2 + i2 b1 b2
= (a1 a2 − b1 b2 ) + i(a1 b2 + b1 a2 )
für alle a1 , a2 , b1 , b2 ∈ R gegeben. Auch kompliziertere Rechenoperationen
√ sind in C
leicht möglich, als ein Beispiel √hierfür wollen wir einmal die Wurzel i berechnen.
Hierzu machen wir den Ansatz i = a + ib. Dass a + ib die Wurzel aus i ist, bedeutet
das das Quadrat von a + ib gleich i sein muss, also
!
(a + ib)2 = a2 − b2 + 2abi = i, also a2 − b2 = 0 und 2ab = 1.
71
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Die Bedingung a2 = b2 bedeutet b = ±a, und eingesetzt in die zweite Bedingung
erhalten wir ±2a2 = 1. Also ist nur das Pluszeichen möglich, d.h. b = a, und wir
brauchen a2 = 1/2, und somit
r
√
1√
1√
1
1√
a=b=
2 =⇒ i = ±
2+
2i .
=
2
2
2
2
Wir kommen jetzt zur formalen Definition der
komplexen Zahlen. Diese wird die komplexen Zahlen nicht nur auf eine sichere Grundlage stellen,
sondern auch ein geometrisches Verständnis der
komplexen Zahlen ermöglichen. Wir werden zum
Beispiel sehen das das Ziehen komplexer Wurzeln y=1
nicht nur möglich sondern auch vergleichsweise einfach ist. Die Grundidee ist es die komplexe Zahl
z = a + ib als den Punkt (a, b) ∈ R2 der Ebene zu
interpretieren
C = R2 , a + ib = (a, b).
z=(2, 1)=2+i
x=2
Als Punktmenge definieren wir also C := R2 . In diesem Zusammenhang nennt man die
Ebene R2 manchmal auch die Gaußsche Zahlenebene“. Damit lassen sich geometrische
”
Begriffe auf die komplexen Zahlen anwenden, wir können beispielsweise die Länge |z|
eine komplexen Zahl z = a + ib als ihren Abstand zum Nullpunkt definieren, und nach
dem Satz des Phythagoras ist dann explizit
√
|z| = a2 + b2 .
Vorlesung 10, Dienstag 22.5.2012
In der letzten Sitzung hatten wir begonnen die komplexen Zahlen C zu besprechen.
Wie schon angekündigt beruht die exakte Definition der komplexen Zahlen auf der
sogenannten Gaußschen Zahlenebene
C = R2
wobei die komplexe Zahl z = x + iy, x, y ∈ R dem Punkt z = (x, y) ∈ R2 der
Ebene entspricht. In unseren einleitenden Überlegungen haben wir gesehen, dass es
überhaupt nur eine einzige Möglichkeit gibt Addition und Multiplikation komplexer
Zahlen einzuführen. Dies stellen wir nun auf den Kopf und definieren
(a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 ),
(a1 , b1 ) · (a2 , b2 ) := (a1 a2 − b1 b2 , a1 b2 + b1 a2 )
72
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
für alle a1 , a2 , b1 , b2 ∈ R. Damit haben wir eine Addition und eine Multiplikation auf
der Menge C definiert, und wir wollen uns überlegen das hierdurch
√ tatsächlich eine
Erweiterung von R konstruiert wird, in der es eine Wurzel i = −1 gibt. Streng
genommen enthält C = R2 die reellen Zahlen nicht einmal als Teilmenge. Um dieses
kleine Problem zu korrigieren, denken wir uns R als die x-Achse in der Ebene, d.h. wir
wollen keinen Unterschied zwischen der reellen Zahl x ∈ R und dem Punkt (x, 0) ∈ R2
der Ebene machen. Wir denken uns also x = (x, 0), wobei das Gleichheitszeichen
hier nicht wörtlich zu verstehen ist. Wir müssen nur noch verifizieren, dass dann die
komplexe und die reelle Addition und Multiplikation reeller Zahlen übereinstimmen.
Dies ist schnell geschehen, für alle a, b ∈ R gelten
(a, 0) + (b, 0) = (a + b, 0),
(a, 0) · (b, 0) = (ab − 0 · 0, a · 0 + 0 · b) = (ab, 0).
Unsere Hauptforderung an die Arithmetik komplexer Zahlen war es, zumindest mit
den Grundrechenarten, normal rechnen“ zu können. Wie schon früher erwähnt, wird
”
dieses normale Rechnen gerade durch die Körperaxiome beschrieben, wir wollen also
den folgenden Satz einsehen:
Satz 4.17 (Der Körper der komplexen Zahlen)
Das Tripel (C, +, ·) ist ein Körper.
Beweis: Der Nachweis das (C, +, ·) ein kommutativer Ring mit Eins ist, geschieht durch
direktes Nachrechnen und soll hier nicht vorgeführt werden. Das neutrale Element
der Addition ist dabei 0 ∈ R ⊆ C und das neutrale Element der Multiplikation ist
1 ∈ R ⊆ C. Multiplikative Inverse berechnen sich wie zu Beginn dieses Abschnitts
gesehen, für x, y ∈ R mit (x, y) 6= (0, 0) ist
x
y
−1
(x, y) =
,−
x2 + y 2 x2 + y 2
das multiplikative Inverse von (x, y).
Schließlich gibt es in C auch eine Wurzel aus −1. Es handelt sich einfach um den
Punkt mit Koordinaten x = 0 und y = 1 auf der y-Achse.
Lemma 4.18: Die imaginäre Einheit“ i := (0, 1) ∈ C ist eine Quadratwurzel aus −1.
”
Beweis: Es gilt
i2 = (0, 1) · (0, 1) = (0 · 0 − 1 · 1, 0 · 1 + 1 · 0) = (−1, 0) = −1.
73
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Für alle a, b ∈ R gilt jetzt die Gleichung
a + ib = (a, 0) + (0, 1) · (b, 0) = (a, 0) + (0 · b − 1 · 0, 0 · 0 + 1 · b) = (a, 0) + (0, b) = (a, b)
die komplexe Zahl a + ib ist also tatsächlich wie vorgesehen der Punkt (a, b) der Ebene. Damit sind die komplexen Zahlen vollständig etabliert. Wir führen jetzt einige
zusätzliche, nützliche Schreibweisen ein.
Definition 4.19: Ist z = a + ib mit a, b ∈ R eine komplexe Zahl, so nennt man a den
Realteil von z und b den Imaginärteil von z, und schreibt
Re(z) := a und Im(z) := b.
Zur Vorbereitung der nächsten Definition erinnern wir uns noch einmal an die Formel
für die multiplikative Inverse einer komplexen Zahl z = a + ib 6= 0, diese war als
1
a − ib
= 2
a + ib
a + b2
gegeben. Sowohl der Zähler als auch der Nenner dieses Bruchs haben eine eigenständige
Bedeutung. Wir beginnen mit dem Zähler und definieren:
Definition 4.20: Ist z = a+ib ∈ C mit a, b ∈ R eine komplexe Zahl, so heißt z := a−ib
die zu z konjugiert komplexe Zahl. Offenbar ist genau dann z = z wenn z ∈ R ist.
Die komplexe Konjugation erfüllt eine ganze Reihe wichtiger Formeln.
Lemma 4.21 (Grundeigenschaften der Konjugation)
Für alle z, z1 , z2 ∈ C gelten
z1 + z2 = z1 + z2 , z1 · z2 = z1 · z2 und zz = Re(z)2 + Im(z)2 ∈ R≥0 .
Beweis: Dies ist Übungsaufgabe (32).
Insbesondere können wir für jede komplexe Zahl z = a + ib ∈ C mit a, b ∈ R den schon
in der letzten Sitzung eingeführten Betrag von z in Termen der Konjugation auch als
√
√
|z| := zz = a2 + b2 ∈ R≥0
schreiben, der Nenner in der Formel für 1/z ist dann gerade |z|2 , d.h. für jedes 0 6= z ∈ C
gilt
1
z
= 2.
z
|z|
Die komplexe Betragsfunktion erfüllt ähnliche Grundeigenschaften wie der reelle Betrag.
Lemma 4.22 (Grundeigenschaften der komplexen Betragsfunktion)
Für alle z1 , z2 ∈ C gelten
74
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
(a) Die Dreiecksungleichung |z1 + z2 | ≤ |z1 | + |z2 |.
(b) Die Multiplikativität |z1 z2 | = |z1 | · |z2 | des Betrags.
Beweis: (a) Nach Lemma 21 haben wir
√
√
√
√
|z1 z2 | = z1 z2 z1 z2 = z1 z2 z1 z2 = z1 z1 · z2 z2 = |z1 | · |z2 |.
(b) Wir zeigen zunächst, dass |1 + z| ≤ 1 + |z| für jedes z ∈ C gilt. Mit Lemma 21
ergibt sich
|1 + z|2 = (1 + z) · 1 + z = (1 + z) · (1 + z) = 1 + z + z + zz = 1 + z + z + |z|2 .
Nach Aufgabe (31) haben wir weiter
p
p
z + z = 2 Re(z) ≤ 2| Re(z)| = 2 Re(z)2 ≤ 2 Re(z)2 + Im(z)2 = 2|z|,
und setzen wir dies in die obige Gleichung ein, so wird
|1 + z|2 = 1 + z + z + |z|2 ≤ 1 + 2|z| + |z|2 = (1 + |z|)2 =⇒ |1 + z| ≤ 1 + |z|.
Wir kommen jetzt zur allgemeinen Dreiecksungleichung. Im Fall z1 = 0 haben wir
sofort |z1 + z2 | = |z2 | = |z1 | + |z2 |. Ist z1 6= 0, so ergibt sich mit (b) und der bereits
bewiesenen Teilaussage
z2 z
z
z
2
2
2
= |z1 | · 1 + ≤ |z1 | · 1 + = |z1 | + z1 · |z1 + z2 | = z1 · 1 +
z1 z1 z1 z1 = |z1 | + |z2 |.
Es gibt noch einige weitere einfache Formeln für die Konjugation und den Betrag. Für
z = a + ib ∈ C haben wir offenbar
p
√
z = z und |z| = z z = zz = |z|
sowie für z 6= 0
r
r
1
1
1
1
1
1
1
1
1
1
z · = z · = 1 = 1 =⇒ = und =
· =
=√ =
.
z
z
z
z
z
z z
zz
|z|
zz
Insbesondere ist für z1 , z2 ∈ C mit z2 6= 0 auch
z1 |z1 |
z1
z1
=
und =
.
z2
z2
z2
|z2 |
75
Mathematik für Informatiker B, SS 2012
4.3.1
Dienstag 22.5.2012
Graphische Darstellung der komplexen Zahlen
Wir haben die komplexen Zahlen als die Gaußsche Zahlenebene C = R2 eingeführt,
und wollen jetzt die bisher definierten Begriffe auch geometrisch interpretieren. Relativ
leicht ist dies für Addition, Konjugation und den Betrag möglich.
b1 + b 2
z1 + z 2
z=a+ib
z=(x,y)
r
b2
z2
y
x
b1
z1
z=a−ib
a2
a1
Addition
a1 + a 2
Konjugation
Betrag
Die Formel (a1 , b1 ) + (a2 , b2 ) = (a1 + a2 , b1 + b2 ) ist die Ihnen wahrscheinlich aus der
Schule noch vertraute Addition von Vektoren, manchmal als das Kräfteparallelogram“
”
bezeichnet. Die komplexe Konjugation ersetzt die y-Komponente eines Punktes durch
ihr Negatives, und dies ist gerade die Spiegelung an der x-Achse. Zur Interpretation
des Betrages muss man sich das oben rechts stehende rechtwinklige Dreieck anschauen.
Ist z = x + iy mit x, y ∈ R, so haben die beiden Katheten die Längen x und y.
Nach dem Satz von Pythagoras
ist das Hypothenusenquadrat gleich x2 + y 2 , die Länge
p
der Hypotenuse ist also x2 + y 2 = |z|. Diese Länge ist nun gerade der Abstand des
Punktes z zum Nullpunkt, d.h. |z| = Abstand von z zum Nullpunkt.
Hier wird jetzt auch die Benennung der Dreiecksungleichung verständlich. Schauen
wir uns das oben links stehende Parallelogram an, und schreiben z1 = a1 + ib1 , z2 =
a2 + ib2 , so wird |z1 + z2 | gerade die Länge der Diagonale des Parallelograms. Das
von 0, z1 und z1 + z2 gebildete Dreieck, hat die Seitenlänge |z1 |, |z2 | und |z1 + z2 |. Die
Dreiecksungleichung wird dann zur geometrischen Dreiecksungleichung, dass die Länge
einer jeden Seite eines Dreiecks höchstens so groß ist wie die Summe der Längen der
beiden anderen Seiten.
Es verbleibt nur noch die komplexe Multiplikation
geometrisch zu beschreiben. Hierzu beginnen wir mit einer kleinen Vorüberlegung. Wir geben uns einen Winkel
φ vor und betrachten den Punkt e(φ) = eφ ∈ R2 auf
e( )
1
dem Einheitskreis, der zur x-Achse den Winkel φ bildet.
y
In dem entstehenden rechtwinkligen Dreieck hat die Hyx
potenuse die Länge 1, die Länge der Ankathete ist die
x-Koordinate von e(φ) und die Länge der Gegenkathete
ist die y-Koordinate von e(φ).
Damit ist x das Verhältnis von Ankathete zu Hypotenuse, also x = cos φ. Ebenso ist y das Verhältnis von
76
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Gegenkathete zu Hypotenuse, also y = sin φ. Unser Punkt berechnet sich also zu
e(φ) = (cos φ, sin φ) = cos φ + i sin φ.
Der Punkt e(φ) auf dem Einheitskreis wird durch den Winkel φ repräsentiert. In diesem
Kontext, und eigentlich immer in der Mathematik, ist es hilfreich den Winkel φ nicht
im gewöhnlichen Gradmaß, also zwischen 0◦ und 360◦ zu messen, sondern im sogenannten Bogenmaß. Dieses entsteht aus dem Gradmaß indem wir den Bereich 0◦ . . . 360◦
proportional auf den Bereich von 0 bis 2π umskalieren. Die Winkel φ im Bogenmaß
und φ◦ im Gradmaß entsprechen sich also über die Formeln
φ = 2π ·
φ
φ◦
und φ◦ = 360◦ ·
.
◦
360
2π
Wir haben also beispielsweise die folgenden Übersetzungen
Gradmaß
0◦
30◦
45◦
60◦
90◦
180◦
360◦
Bogenmaß
0
π
6
π
4
π
3
π
2
π
2π
Beachte das wir Winkel im Bogenmaß einfach als reelle Zahlen betrachten, und nicht
als so etwas wie π/2 Grad. In der Mathematik gibt es keine Messungen, und daher
auch keinen Bedarf für Maßeinheiten. Das Bogenmaß hat auch eine einfache geometrische Bedeutung. Der Umfang eines Kreises mit Radius r > 0 ist ja bekanntlich 2πr,
und der Umfang des Einheitskreises ist somit 2π. Verändern wir den Winkel φ, so
verändert sich die Länge des oben dick eingezeichneten Bogens proportional mit φ. Da
der volle Umfang des Einheitskreises 2π, also gleich dem vollen Winkel ist, ist damit
φ auch zugleich die Länge unseres dick eingezeichneten Bogens. Dies erklärt auch den
Namen Bogenmaß“, das Maß des Winkels im Bogenmaß ist eben gerade die Länge
”
des entsprechenden Bogens auf dem Einheitskreis.
Wir berechnen jetzt, wie die Multiplikation von Punkten auf dem Einheitskreis
aussieht. Für alle φ, ψ ∈ R haben wir
e(φ) · e(ψ) =
=
=
=
(cos φ + i sin φ) · (cos ψ + i sin ψ)
cos φ cos ψ − sin φ sin ψ + i · (sin φ cos ψ + cos φ sin ψ)
cos(φ + ψ) + i sin(φ + ψ)
e(φ + ψ),
d.h. bei Multiplikation komplexer Zahlen auf dem Einheitskreis müssen nur die beiden
Winkel φ und ψ miteinander addiert werden. In dieser Rechnung haben wir die sogenannten Additionstheoreme von Sinus und Cosinus verwendet, die wir hier als bekannt
77
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
annehmen wollen. Bei der Multiplikation komplexer Zahlen auf dem Einheitskreis werden also einfach die Winkel die sie zur x-Achse bilden miteinander addiert.
Durch Einführung der sogenannten Polarkoordinaten
y
kann man diese Interpretation der Multiplikation auf alle
komplexen Zahlen ausdehnen. Gegeben sei eine komplexe
Zahl z ∈ C und wir nehmen erst einmal z 6= 0 an. Die
z=reφ
r
erste Polarkoordinate von z ist dann der Abstand r von
eφ
φ
z zum Nullpunkt, und wir wissen bereits das dies gerade
x
der Betrag von z ist, also
r = |z|.
Nun betrachten wir den Schnittpunkt der von Null ausgehenden Halbgeraden in Richtung z mit dem Einheitskreis, als Formel ist dies einfach
z/r = z/|z|. Die zweite Polarkoordinate von z ist der Winkel φ den diese Halbgerade
mit der x-Achse hat, also
z
= e(φ) =⇒ z = re(φ).
r
Haben wir umgekehrt eine Zahl r ≥ 0 und einen Winkel φ ∈ R gegeben, so können
wir die komplexe Zahl z := re(φ) bilden. Beachte das die erste Polarkoordinate r
immer eindeutig festgelegt ist, der Winkel φ aber nicht. Man kann zu φ noch beliebige
Vielfache von 2π, also von 360◦ im Gradmaß, hinzuaddieren ohne das sich z ändert. Um
ein eindeutiges φ zu kriegen muss man die erlaubten Winkel auf ein Intervall der Länge
2π einschränken. Für z = 0 ist φ sogar völlig willkürlich. Die komplexe Multiplikation
sieht in Polarkoordinaten nun sehr einfach aus, für alle r, s ≥ 0 und alle Winkel φ, ψ ∈ R
gelten
re(φ) · se(ψ) = rse(φ) · e(ψ) = rse(φ + ψ).
Bei der Multiplikation komplexer Zahlen in Polarkoordinaten werden also die beiden
Längen miteinander multipliziert, und die beiden Winkel werden addiert. Schauen wir
uns einmal drei kleine Beispiele an.
1. Sei z = i. Der Abstand zu 0 ist r = |i| = 1, und da i im oberen Teil der yAchse liegt, ist der Winkel zur x-Achse gleich 90◦ , beziehungsweise φ = π/2.
Also i = 1 · e(π/2) in Polarkoordinaten.
2. Die komplexe Zahl 1 + i hat als Abstand zum Nullpunkt
√
√
r = |1 + i| = 12 + 12 = 2.
Außerdem liegt z auf der Winkelhalbierenden im ersten Quadranten,
unser Win√
kel ist also φ = π/4. Polarkoordinaten sind damit 1 + i = 2 e(π/4).
3. Nehme jetzt z = −i. Es ist r = | − i| = 1. Was als Winkel genommen wird,
ist nicht mehr so eindeutig. Man kann etwa φ = 3π/2 oder auch φ = −π/2
verwenden. Diese beiden unterscheiden sich gerade um 2π.
78
Mathematik für Informatiker B, SS 2012
4.4
Dienstag 22.5.2012
Polynomdivision
Wir wollen jetzt Polynome über den reellen und über den komplexen Zahlen untersuchen. Da R und C unendliche Körper sind, wissen wir bereits nach Satz 7 das wir keinen
Unterschied zwischen Polynomen und Polynomfunktionen machen müssen. Wir beginnen mit einigen Wiederholungen und zunächst erinnern wir an die bereits vor Lemma
6 diskutierte Polynomdivision, die wir jetzt auch als einen Satz festhalten wollen.
Satz 4.23 (Polynomdivision mit Rest)
Sei K ein Körper und seien a, d ∈ K[x] zwei Polynome mit d 6= 0. Dann existieren
eindeutig bestimmte Polynome q, r ∈ K[x] mit a = q · d + r und grad(r) < grad(d).
Beweis: Klar da in einem Körper jedes von Null verschiedene Element eine Einheit ist.
Zur näheren Untersuchung von Polynomen erinnern wir jetzt an den Begriff der unzerlegbaren oder irreduziblen Polynome, und diesmal wollen wir diese auch einmal explizit
als eine Definition einführen.
Definition 4.24: Sei K ein Körper. Ein Polynom p ∈ K[x] heißt irreduzibel wenn
grad(p) ≥ 1 ist und es keine Polynome q1 , q2 ∈ K[x] mit p = q1 · q2 und grad(q1 ) ≥ 1,
grad(q2 ) ≥ 1 gibt.
Die irreduziblen Polynome sind also so etwas wie die Primzahlen unter den Polynomen, sie lassen sich nicht in nicht trivialer Weise als Produkt zweier kleinerer Polynome
schreiben. Im allgemeinen kann es recht schwer sein einem gegebenen Polynom anzusehen ob es irreduzibel ist oder nicht. Für Polynome kleinen Grades wird es sich allerdings
als vergleichsweise einfach herausstellen. Zunächst beachte, dass aus p = q1 · q2 auch
grad(p) = grad(q1 ) + grad(q2 )
folgt. Insbesondere ergibt sich für p ∈ K[x] damit
grad(p) = 1 =⇒ p ist irreduzibel.
Die Polynome von Grad 1 sind dabei die einzigen irreduziblen Polynome die eine Nullstelle haben. Ist nämlich p ∈ K[x] ein Polynom mit grad(p) ≥ 2 das eine Nullstelle
a ∈ K besitzt, so liefert Lemma 6 ein Polynom q ∈ K[x] mit grad(q) = grad(p) − 1 ≥ 1
und p = q · (x − a), d.h. p ist nicht irreduzibel. Dies zeigt
p ∈ K[x] irreduzibel, grad(p) ≥ 2 =⇒ p hat keine Nullstellen in K.
Umgekehrt ist dies falsch, beispielsweise hat das Polynom x4 + 1 ∈ R[x] keine reelle
Nullstelle, ist aber trotzdem nicht irreduzibel. Man kann x4 +1 als ein Produkt von zwei
quadratischen Polynomen schreiben. Für die Behandlung von Beispielen ist es praktisch
zu wissen, dass die Umkehrung für Polynome von Grad 2 und 3 gilt. Ist p ∈ K[x] mit
grad(p) ∈ {2, 3} und schreiben wir p = q1 · q2 mit grad(q1 ) ≥ 1, grad(q2 ) ≥ 1, so hat
79
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
wegen grad(q1 ) + grad(q2 ) = grad(p) ∈ {2, 3} eines der beiden Polynome q1 , q2 den
Grad 1, und wir schreiben qi = ax + b mit i ∈ {1, 2}, a, b ∈ K, a 6= 0. Dann ist −b/a
eine Nullstelle von qi und damit auch von p. Dies zeigt
p ∈ K[x] mit grad(p) ∈ {2, 3} hat keine Nullstelle =⇒ p ist irreduzibel.
Wie bemerkt sind die irreduziblen Polynome so etwas wie die Primzahlen unter den
Polynomen. Entsprechend der Tatsache das sich jede natürliche Zahl n ≥ 2 als Produkt
von Primzahlen schreiben läßt, kann man auch jedes Polynom von Grad mindestens 1
als Produkt irreduzibler Polynome schreiben.
Lemma 4.25 (Zerlegung in irreduzible Faktoren)
Seien K ein Körper und p ∈ K[x] ein Polynom mit grad(p) ≥ 1. Dann existieren
irreduzible Polynome p1 , . . . , ps ∈ K[x] mit p = p1 · . . . · ps .
Beweis: Wir beweisen die Aussage durch Induktion nach n = grad(p). Ist p ∈ K[x]
mit grad(p) = 1, so haben wir oben schon festgehalten das p selbst irreduzibel ist, und
insbesondere ein Produkt irreduzibler Polynome ist, also s = 1 und p1 = p. Nun sei
n ≥ 2 und die Aussage gelte bereits für alle Polynome p ∈ K[x] mit 1 ≤ grad(p) < n.
Sei p ∈ K[x] ein Polynom mit grad(p) = n. Dann können zwei Fälle auftreten.
Fall 1. Das Polynom p ist irreduzibel. Dann ist p insbesondere wieder ein Produkt
irreduzibler Polynome mit s = 1 und p1 = p.
Fall 2. Das Polynom p ist nicht irreduzibel. Dann gibt es Polynome q1 , q2 ∈ K[x] mit
grad(q1 ) ≥ 1, grad(q2 ) ≥ 1 und p = q1 · q2 . Wegen grad(q1 ) + grad(q2 ) = grad(p) = n
ist auch grad(q1 ), grad(q2 ) < n. Also können wir unsere Induktionsannahme anwenden
und erhalten irreduzible Polynome p1 , . . . , ps ∈ K[x] und ps+1 , . . . , ps+t ∈ K[x] mit
q1 = p1 · . . . · ps und q2 = ps+1 · . . . · ps+t . Damit ist insgesamt
p = q1 · q1 = p1 · . . . · ps · ps+1 · . . . · ps+t ,
und auch p ist als Produkt irreduzibler Polynome geschrieben.
Man kann zeigen, dass die Zerlegung in irreduzible Polynome im wesentlichen eindeutig
ist, also bis auf Umordnung der Faktoren und Multiplikation mit Konstanten. Diese
Tatsache wollen wir hier aber nicht mehr beweisen. Oft beschränkt man sich für die
Faktoren p1 , . . . , ps auf normierte, irreduzible Polynome. Ein normiertes Polynom war
dabei ein Polynom dessen höchster Koeffizient 1 ist, also ein Polynom der Form xn +
an−1 xn−1 + · · · + a0 . Dann muss man aber zusätzlich einen konstanten Faktor zulassen.
Etwas ausführlicher kann man also jedes Polynom p ∈ K[x] mit grad(p) ≥ 1 als ein
Produkt
p = ap1 · . . . · ps
schreiben, wobei p1 , . . . , ps normierte, irreduzible Polynome sind und a ∈ K\{0} der
höchste Koeffizient des Polynoms p ist. Besonders wichtig ist der Fall wenn alle Polynome p1 , . . . , ps den Grad 1 haben. Dann kann man pi = x − ai mit ai ∈ K schreiben
80
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
und hat
p = a(x − a1 ) · . . . · (x − as ).
Damit ist s = grad(p) dann der Grad von p und a1 , . . . , as sind die Nullstellen von
p. Dabei kann es durchaus passieren das dieselbe Nullstelle mehrfach aufgelistet wird,
man sagt das a1 , . . . , as die mit Vielfachheiten aufgelisteten Nullstellen von p sind und
das das Polynom p in Linearfaktoren zerfällt.
In Anbetracht des Zerlegungssatzes Lemma 25 ist es von Interesse die irreduziblen
Polynome über K möglichst explizit zu kennen. Leider hängt die Gestalt irreduzibler
Polynome sehr stark von Körper K ab. U”ber dem Körper mit zwei Elementen zeigte
Aufgabe (23) das es beispielsweise genau 1342176 irreduzible Polynome von Grad 25
über diesem Körper gibt, hier ist also keine gute explizite Beschreibung zu erwarten.
Über den komplexen Zahlen werden wir gleich sehen, dass die irreduziblen Polynome
genau die Polynome von Grad 1 sind, und über den reellen Zahlen haben irreduzible
Polynome immer den Grad 1 oder 2. Über den rationalen ist die Lage dann schon
wieder wesentlich komplizierter.
4.5
Polynome in C
Wir kommen jetzt speziell zu komplexen Polynomen p ∈ C[x]. Für diese vereinfachen
sich die oben eingeführten Begriffe wesentlich, die irreduziblen Polynome sind genau
die Polynome von Grad 1. Diese Tatsache beruht auf dem folgenden, leider schon recht
komplizierten, Satz.
Satz 4.26: Jedes Polynom p ∈ C[x] mit grad(p) ≥ 1 hat in C eine Nullstelle.
Beweis: Da ein Beweis dieses Satzes schon etwas fortgeschrittene Hilfsmittel benötigt,
soll hier auf den Beweis verzichtet werden.
Wir hatten im letzten Abschnitt bemerkt, dass irreduzible Polynome von Grad mindestens 2 keine Nullstellen haben können, also ergibt Satz 26 sofort das für komplexe
Polynome p ∈ C[x] die Äquivalenz
p ist irreduzibel ⇐⇒ grad(p) = 1
besteht. Damit erhalten wir jetzt auch
Satz 4.27 (Fundamentalsatz der Algebra)
Sei p ∈ C[x] ein komplexes Polynom von Grad n := grad(p) ≥ 1 mit höchsten Koeffizienten a ∈ C\{0}. Dann zerfällt p in Linearfaktoren und hat mit Vielfachheiten n
komplexe Nullstellen a1 , . . . , an ∈ C, also
p = a(x − a1 ) · . . . · (x − an ).
81
Mathematik für Informatiker B, SS 2012
Dienstag 22.5.2012
Beweis: Dies ist klar nach Lemma 25 und der obigen Bemerkung über irreduzible,
komplexe Polynome.
4.6
Polynome in R
Über den reellen Zahlen ist die Lage etwas komplizierter als über den komplexen Zahlen.
Wir wollen uns einmal überlegen das jedes irreduzible, reelle Polynom Grad 1 oder 2
hat. Sei also ein irreduzibles Polynom p ∈ R[x] gegeben, und durch Multiplikation mit
einer Konstante können wir annehmen das der höchste Koeffizient von p gleich Eins
ist. Es können zwei verschiedene Fälle auftreten.
1. Im ersten Fall hat das Polynom p eine reelle Nullstelle a ∈ R. Dann muss p(x) =
x − a sein und insbesondere hat p den Grad 1.
2. Im zweiten Fall hat p keine reelle Nullstelle. Nach Satz 26 hat p dann zumindest
eine komplexe Nullstelle a ∈ C\R. Schreiben wir p(x) = pp + p1 x + · · · + pn xn , so
folgt mit den Rechenregeln für die komplexe Konjugation auch
p(a) = p0 + p1 a + · · · + pn an = p0 + p1 a + · · · + pn an = p(a) = 0,
d.h. auch das konjugiert komplexe a von a ist eine Nullstelle von p. Damit können
wir das Polynom p ohne Rest durch die Linearfaktoren x − a und x − a teilen,
d.h. es gibt ein Polynom q ∈ R[x] mit
p(x) = q(x)(x−a)(x−a) = q(x)·(x2 −(a+a)x+aa) = q(x)·(x2 −2 Re(a)x+|a|2 ).
Somit ist p ein Vielfaches des reellen Polynoms x2 − 2 Re(a)x + |a|2 ∈ R[x] und da
p irreduzibel ist, muss damit sogar p(x) = x2 − 2 Re(a)x + |a|2 , also insbesondere
grad(p) = 2, sein.
Bei Polynomen in R läßt sich generell keine Aussage über die Anzahlen der reellen
Nullstellen treffen. Wir wollen hier nur eine Tatsache festhalten, die nicht nur für
Polynome, sondern allgemein für die sogenannten stetigen Abbildungen wahr ist.
Lemma 4.28: Seien p ∈ R[x] ein Polynom und a, b ∈ R mit a < b. Es gelte p(a)·p(b) <
0, d.h. p(a) und p(b) haben verschiedene Vorzeichen. Dann existiert ein x ∈ R mit
a < x < b und p(x) = 0, d.h. das Polynom p hat eine Nullstelle zwischen a und b.
Diese Tatsache wollen wir hier nicht beweisen, da sie sich später als ein Spezialfall
des sogenannten Zwischenwertsatzes für stetige Funktionen ergeben wird. Anschaulich
ist das Lemma sowieso klar, ist p etwa bei x = a positiv und bei x = b negativ, so
muss p(x) zwischendurch auch irgendwo Null sein, da der Graph von p die x-Achse ja
nicht überspringen kann“. Da Polynome ungeraden Grades für |x| ausreichend groß
”
stets links und rechts verschiedenes Vorzeichen haben, folgt das jedes reelle Polynom
82
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
ungeraden Grades eine reelle Nullstelle hat. Alternativ kann man dies auch folgern
indem verwendet wird das irreduzible Polynome über R immer Grad 1 oder 2 haben.
Vorlesung 11, Donnerstag 24.5.2012
Wir sind noch mit der Behandlung reeller Polynome beschäftigt, und wollen kurz
auf eine Methode zur numerischen Berechnung der Nullstellen solcher Polynome p
eingehen. Diese Methode beruht auf dem letzten Lemma der vorigen Sitzung, nach
dem zwischen je zwei reellen Zahlen a, b für die die Werte p(a) und p(b) verschiedenes
Vorzeichen haben stets eine Nullstelle des Polynoms p liegt.
4.6.1
Intervallhalbierungsverfahren
Das Lemma 28 liefert uns auch ein erstes, wenn auch nicht besonders gutes, Verfahren
zum Berechnen der Nullstellen eines reellen Polynoms. Mit Berechnen“ ist dabei die
”
näherungsweise Berechnung der Nullstelle gemeint. Das Intervallhalbierungsverfahren
läuft wie folgt ab.
Gegeben sind ein Polynom p ∈ R[x] und zwei reelle
Zahlen a, b ∈ R mit a < b und p(a)p(b) < 0. Wir wissen das es zwischen a und b eine Nullstelle des Polynoms
gibt. Setze a0 := a, b0 := b und bestimme den Mittelpunkt c0 := (a0 + b0 )/2 des Intervalls [a, b]. Ist zufällig
x=a
x=b
p(c0 ) = 0, so haben wir bereits eine Nullstelle gefunden.
Andernfalls ist p(c0 ) > 0 oder p(c0 ) < 0. Da die Vorzeichen von p(a0 ) und p(b0 ) verschieden sind, haben entweder p(a0 ), p(c0 ) oder p(c0 ), p(b0 ) verschiede Vorzeichen, es
gilt also entweder p(a0 )p(c0 ) < 0 oder p(c0 )p(b0 ) < 0. Wir
betrachten jetzt nur noch dasjenige der beiden halbierten
Intervalle [a0 , c0 ] und [c0 , b0 ] bei dem die Vorzeichen von
p an den beiden Seiten verschieden sind, d.h. wir setzen
(
(
a0 , p(a0 )p(c0 ) < 0,
c0 , p(a0 )p(c0 ) < 0,
a1 :=
und b1 :=
c0 , p(c0 )p(b0 ) < 0,
b0 , p(c0 )p(b0 ) < 0.
Dann ist [a1 , b1 ] ein Intervall der Länge (b − a)/2 mit p(a1 )p(b1 ) < 0. Nun können wir
unser Vorgehen wiederholen, wir bilden also erneut den Mittelpunkt c1 := (a1 + b1 )/2
und setzen
(
(
a1 , p(a1 )p(c1 ) < 0,
c1 , p(a1 )p(c1 ) < 0,
und b2 :=
a2 :=
c1 , p(c1 )p(b1 ) < 0,
b1 , p(c1 )p(b1 ) < 0
83
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
erhalten also ein Intervall [a2 , b2 ] der Länge (b−a)/4 in dem noch immer Nullstelle liegt.
So fortfahrend kriegt man immer kleinere Intervalle [an , bn ] und es gibt eine Nullstelle
x von p mit an ≤ x ≤ bn . Der Fehler von an zur Nullstelle x ist höchstens
|x − an | ≤ bn − an =
b−a
.
2n
Führe wir den Halbierungsschritt also oft genu durch, so ergeben sich beliebig genaue
Näherungen für die Nullstelle x. Wenn die Intervalllänge unter eine vorgegebene Genauigkeitsschranke fällt, so können wir das Verfahren abbrechen und etwa den linken
Randpunkt des gerade betrachteten Intervalls als Näherung der Nullstelle nehmen. Ein
Beispiel wollen wir hier jetzt nicht vorführen, da wir dies etwas später für das allgemeine
Halbierungsverfahren tun werden.
4.7
Horner Schema
Das Horner-Schema ist ein Algorithmus zur möglichst effizienten Berechnung von Werten eines Polynoms. Wir interessieren uns hier hauptsächlich für den Fall reeller Polynome, das Hornerschema selbst funktioniert aber auch bei beliebigen Grundkörper.
Wir beginnen mit einem Beispiel, und betrachten das Polynom
p(x) = 2x5 − 3x4 + 2x3 + 2x2 − 5x + 1 ∈ R[x].
Angenommen wir wollen den Funktionswert p(x) für ein konkret gegebenes x ∈ R ausrechnen. Wenn wir ganz direkt vorgehen berechnen wir zunächst die Potenzen x2 , x3 , x4
und x5 . Für x2 brauchen wir eine Multiplikation, für x3 zwei Stück, für x4 drei und für
x5 schließlich vier Multiplikationen. Dies sind insgesamt 1+2+3+4 = 10 Multiplikationen zur Berechnung der Potenzen. Dann wird jede Potenz xk , k = 1, 2, 3, 4, 5 mit ihrem
Koeffizienten multipliziert und wir haben weitere fünf Multiplikationen durchzuführen,
also insgesamt 15 Multiplikationen. Zum Schluß muss alles aufaddiert werden, wozu
fünf Additionen notwendig sind. Insgesamt ist der benötigte Aufwand also
15 Multiplikationen und 5 Additionen, also insgesamt 20 Rechenoperationen.
Dies können wir leicht etwas verbessern. Bei der Berechnung der Potenzen von x kann
man einige Rechenschritte einsparen indem die Gleichungen x3 = x2 · x, x4 = x3 · x
und x5 = x4 · x verwendet werden. Wenn Sie die Auswertung als eine Schleife implementieren verwendet man nahezu zwangsläufig diese Berechnung der Potenzen. Man
braucht dann für jede der Potenzen x2 , x3 , x4 und x5 jeweils eine Multiplikation, also
nur 4 Multiplikationen statt der 10 von oben. Damit reduziert sich der Rechenaufwand
auf
9 Multiplikationen und 5 Additionen, also insgesamt 14 Rechenoperationen.
84
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
Es geht aber noch besser, eben mit dem Hornerschema. In diesem konkreten Beispiel
muss man nur das Polynom p(x) etwas umschreiben
2x5 − 3x4 + 2x3 + 2x2 − 5x + 1 =
=
=
=
(2x4 − 3x3 + 2x2 + 2x − 5) · x + 1
((2x3 − 3x2 + 2x + 2) · x − 5) · x + 1
(((2x2 − 3x + 2) · x + 2) · x − 5) · x + 1
((((2x − 3) · x + 2) · x + 2) · x − 5) · x + 1,
Berechnen wir jetzt diesen Ausdruck von der innersten zur äußersten Klammer, so
müssen wir fünf mal mit x multiplizieren und fünf Additionen durchführen. Der Rechenaufwand in dieser Methode ist also
5 Multiplikationen und 5 Additionen, also insgesamt 10 Rechenoperationen,
und wir haben erneut vier Multiplikationen eingespart. Überlegen wir uns nun wie das
für ein allgemeines Polynom
p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0
n-ten Grades aussieht. Bestimmen wir zunächst einmal den Rechenaufwand bei Verwendung der ersten Methode. Zur Berechnung der Potenzen x2 , x3 , . . . , xn benötigt
man
n(n − 1)
1 + 2 + · · · + (n − 1) =
2
Multiplikationen. Dann wird jede x-Potenz mit ihrem Koeffizienten multipliziert, also
weitere n Multiplikationen, und anschließend werden n Additionen durchgeführt. Der
Gesamtaufwand sind also
n(n − 1)
n(n + 1)
+n=
2
2
Multiplikationen und n Additionen, insgesamt
n(n + 1)
n(n + 3)
+n=
2
2
Rechoperationen. In der zweiten Methode, also mit x3 = x·x2 , . . . brauchen wir dagegen
nur n − 1 Multiplikationen zur Berechnung der Potenzen von x, haben also
n − 1 + n = 2n − 1 Multiplikationen und n Additionen, insgesamt 2n − 1 + n = 3n − 1
Rechenoperationen. Beim Hornerschema schreibt man p(x) analog zum oben behandelten Beispiel um
p(x) = a0 + x · (a1 + x · (. . . + x · (an−1 + an x) . . .)),
wobei wir der Übersichtlichkeit halber die Reihenfolge der Terme im Vergleich zum
Beispiel umgedreht haben. Hier wird n mal mit x multipliziert und n mal addiert, der
Rechenaufwand sind also
85
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
n Multiplikationen und n Additionen, also insgesamt 2n Rechenoperationen.
Das Hornerschema ist also im Verhältnis 2 zu 3 effizienter als die direkte Polynomauswertung. Beim Rechnen per Hand bietet es sich an die Auswertung des Hornerschemas
in einer tabellarischen Form durchzuführen. Es wird eine Tabelle mit drei Zeilen und
n + 1 Spalten angelegt, in deren oberster Zeile die Koeffizienten des Polynoms in fallender Reihenfolge, also beginnend mit dem höchsten Koeffizienten und endend mit
dem konstanten Koeffizienten, geschrieben werden. In der ersten Spalte werden dann
die mittlere Zeile freigelassen und in der untersten Zeile wird der Eintrag der obersten
wiederholt. In unserem Beispiel p(x) = 2x5 − 3x4 + 2x3 + 2x2 − 5x + 1 beginnen wir
also mit
2 −3 2 2 −5 1
2
Jede der weiteren Spalten entspricht jetzt einem Rechenschritt im Hornerschema
p(x) = ((((2x − 3) · x + 2) · x + 2) · x − 5) · x + 1,
also einer Multiplikation mit x gefolgt von der Addition eines der Koeffizienten. Beim
ersten Schritt wird dabei 2x − 3 gerechnet, also der höchste Koeffizient mit x multipliziert und der zweithöchste dazuaddiert. In der Tabelle wird dazu der Eintrag der
untersten Zeile mit x multipliziert, und das Ergebnis in die mittlere Zeile in der nächsten
Spalte eingetragen. Dann werden die ersten beiden Zeilen der nächsten Spalte miteinander addiert und das Ergebnis in die untere Zeile geschrieben. Rechnen wir im Beispiel
mit x = 2, so haben wir nach dem ersten Schritt also
2 −3 2 2 −5 1
4
2 1
Im nächsten Schritt wird das Ergebnis von 2x − 3 wieder mit x multipliziert und
dann wird 2 dazuaddiert. Dies wird dann in der dritten Spalte gemacht, der Eintrag
der untersten Zeile in der zweiten Spalte wird mit x multipliziert, das Produkt in die
mittlere Zeile eingetragen und dann werden die beiden oberen Einträge der dritten
Spalte addiert und die Summe wird in die untere Zeile geschrieben. Im Beispiel also
2 −3 2 2 −5 1
4 2
2 1 4
In der unteren Zeile steht also immer das momentane Zwischergebnis. Fährt man von
links nach rechts fort, so steht zum Schluß in der rechten unteren Ecke das Endergebnis
p(x). Im Beispiel ist die vollständige Tabelle dann
2 −3 2 2 −5 1
4 2 8 20 30
2 1 4 10 15 31
86
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
es ist also p(2) = 31.
$Id: metrik.tex,v 1.11 2012/05/29 15:07:05 hk Exp $
§5
Metrische Räume
Mit dem letzten Kapitel haben wir den algebraischen Teil abgeschlossen und kommen nun zur sogenannten Analysis. Grob gesagt befasst sich diese mit allen das mit
Grenzwerten zu tun hat. Zunächst führen wir den Begriff einer Metrik ein. Dies ist
die abstrakte Form eines Abstandsbegriffs. In einer mit einer Metrik versehenen Menge ist je zwei Punkten ein Abstand“ zugeordnet, der die in der folgenden Definition
”
genannten Bedingungen erfüllt.
Definition 5.1: Sei X eine Menge. Eine Abbildung d : X × X → R≥0 heißt eine Metrik
auf X, wenn:
(M1) Für x, y ∈ X ist genau dann d(x, y) = 0 wenn x = y gilt. Jeder Punkt von X
hat also zu sich, und nur zu sich, den Abstand Null.
(M2) Der Abstand ist symmetrisch, d.h. für alle x, y ∈ X ist d(x, y) = d(y, x), der
Abstand von x zu y ist genauso groß wie der Abstand von y zu x.
(M3) Der Abstand erfüllt die Dreiecksungleichung
d(x, z) ≤ d(x, y) + d(y, z)
für alle x, y, z ∈ X.
Das Paar (X, d) heißt dann ein metrischer Raum.
Wir wollen jetzt einige Beispiele metrischer Räume besprechen.
(1) Die Menge X = R der reellen Zahlen wird mit dem Abstand
d(x, y) := |x − y| (x, y ∈ R)
zum metrischen Raum. In anderen Worten ist d(x, y) die Länge des Intervalls zwischen
x und y, also das was man sich auch intuitiv unter dem Abstand zweier reeller Zahlen
vorstellt. Wir wollen einmal die Axiome eines metrischen Raums nachweisen. Seien
x, y, z ∈ R gegeben. Zunächst ist
d(x, y) = 0 ⇐⇒ |x − y| = 0 ⇐⇒ x − y = 0 ⇐⇒ x = y.
Die Symmetrie ist ebenfalls recht leicht, für jede reelle Zahl u ∈ R ist ja offenbar
| − u| = |u|, und somit auch
d(y, x) = |y − x| = | − (x − y)| = |x − y| = d(x, y).
87
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
Die Dreiecksungleichung wird schließlich auf die Dreiecksungleichung der Betragsfunktion zurückgeführt
d(x, z) = |x − z| = |(x − y) + (y − z)| ≤ |x − y| + |y − z| = d(x, y) + d(y, z).
Damit ist d tatsächlich eine Metrik.
(2) In der Ebene X = R2 wird durch
p
d((x1 , y1 ), (x2 , y2 )) := (x1 − x2 )2 + (y1 − y2 )2
(x1 , x2 , y1 , y2 ∈ R)
eine Metrik definiert, die sogenannte euklidische Metrik auf R2 . Betrachten wir R2 = C
als die Gaußsche Zahlenebene, so können wir die Metrik auch als d(z1 , z2 ) = |z1 − z2 |
für z1 , z2 ∈ C schreiben, und mit Hilfe von §4.Lemma 22 läßt sich der obige Beweis das
d eine Metrik ist, auf diesen Fall übertragen.
(3) Als nächstes wollen wir die sogenannte Taxi-Metrik auf X = R2 einführen. Anschaulich denken wir uns wie untenstehend gezeigt eine am Reißbrett angelegte Statt,
und einen Taxifahrer der auf den kürzesten Weg vom Punkt (x1 , y1 ) zum Punkte (x2 , y2 )
fahren will. Da die Straßen alle nur horizontal und vertikal verlaufen, müssen die Unterschiede in x– und y-Koordinaten einzelnen durchfahren werden. Der Abstand in den
x-Koordinaten ist dabei |x1 −x2 | und der in den y-Koordinaten |y1 −y2 |. Die Taximetrik
wird damit als
d((x1 , y1 ), (x2 , y2 )) := |x1 − x2 | + |y1 − y2 |
definiert.
Das es sich hierbei wirklich um eine Metrik handelt wird in Aufgabe (34) nachgewiesen.
(4) Wir betrachten auch noch eine weitere Metrik auf X = R2 die sogenannte `∞ Metrik. Hier definieren wir den Abstand zweier Punkte (x1 , y1 ), (x2 , y2 ) ∈ R2 als
d((x1 , y1 ), (x2 , y2 )) = max{|x1 − x2 |, |y1 − y2 |}.
Das dies eine Metrik wird ebenfalls in Aufgabe (34) behandelt.
88
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
(5) Die Metriken in (2), (3) und (4) kann man auch auf den n-dimensionalen Fall
verallgemeinern. Man erhält für x, y ∈ X = Rn
v
u n
uX
d(x, y) := t (xk − yk )2 ,
(euklidische Metrik),
k=1
d1 (x, y) :=
n
X
|xk − yk |,
(`1 -Metrik),
max |xk − yk |,
(`∞ -Metrik).
k=1
d∞ (x, y) :=
1≤k≤n
Die n-dimensionale euklidische Metrik ist weiterhin die Länge der Verbindungsstrecke
von x nach y, also der richtige“ geometrische Abstand der beiden Punkte. Die `1 ”
Metrik ist die n-dimensionale Verallgemeinerung der zweidimensionalen Taximetrik.
Auf den Beweis das all dies wirklich Metriken sind wollen wir hier verzichten.
(6)Als ein letztes Beispiel einer Metrik wollen wir auch noch ein etwas diskreteres“
”
Beispiel vorführen. Gegeben sei ein ungerichteter, zusammenhängender Graph Γ =
(V, E). Sind dann x, y ∈ V zwei verschiedene Punkte im Graphen, so gibt es immer
einen Weg der diese beiden Punkte verbindet, und die kleinstmögliche Länge eines
solchen Weges definieren wir als den Abstand von x und y, also
∃(x0 , x1 , . . . , xn ∈ V ) : x0 = x ∧ xn = y
d(x, y) := min n ∈ N .
∧∀(1 ≤ i ≤ n) : (xi−1 , xi ) ∈ E
Dies definiert tatsächlich eine Metrik, die Eigenschaften (M1) und (M2) sind klar und
für (M3) geben wir uns drei Punkte x, y, z ∈ V vor, wählen einen Weg der Länge
d(x, y) von x nach y und einen Weg der Länge d(y, z) von y nach z. Hängen wir diese
beiden Wege aneinander, so ergibt sich ein Weg der Länge d(x, y) + d(y, z) von x nach
z. Der kleinstmögliche Weg von x nach z ist höchstens kleiner, also haben wir die
Dreiecksungleichung d(x, z) ≤ d(x, y) + d(y, z).
Mit Hilfe des Abstandsbegriffs kann man in einem metrischen Raum diverse geometrische Begriffe einführen. Wir beginnen mit den sogenannten Kugeln.
Definition 5.2: Sei (X, d) ein metrischer Raum. Sind x ∈ X ein Punkt und > 0 ein
positiver Radius, so heißt die Menge
U (x) := {y ∈ X|d(x, y) < } ⊆ X
die offene Kugel mit Mittelpunkt x und Radius . Weiter heißt
U (x) := {y ∈ X|d(x, y) ≤ } ⊆ X
die abgeschlossene Kugel mit Mittelpunkt x und Radius .
Das Wort Kugel“ darf man dabei nicht allzu wörtlich nehmen, welche Gestalt die
”
Kugeln eines metrischen Raums haben hängt stark von der verwendeten Metrik ab.
Einige Beispiele von Kugeln bezüglich verschiedener Metriken in der Ebene X = R2
sind
89
Mathematik für Informatiker B, SS 2012
Donnerstag 24.5.2012
ε
ε
x
ε
x
Euklidische Metrik
Taxi-Metrik (`1 -Metrik)
x
`∞ -Metrik
Die Randlinien gehören dabei zur abgeschlossenen Kugel aber nicht zur offenen Kugel.
Als ein weiteres Beispiel sei wieder Γ = (V, E) ein ungerichteter, zusammenhängender
Graph und betrachte wieder die durch eine minimale Länge eines Verbindungswegs
gegebene Metrik auf V . Ist dann x ∈ V ein Punkt des Graphen, so besteht die abgeschlossene Kugel U n (x) für jedes n ∈ N genau aus den Punkten y von V , die sich von
x ausgehend durch höchstens n Kanten erreichen lassen. Kommen wir jetzt wieder zur
Theorie zurück.
Definition 5.3: Sei X ein metrischer Raum. Eine Menge U ⊆ X heißt Umgebung eines
Punktes x ∈ X wenn es ein > 0 mit U (x) ⊆ U gibt. Insbesondere muss dann also
x ∈ U sein.
Mit diesem Begriff verwandt ist die Definition der inneren Punkte einer Menge in
einem metrischen Raum.
Definition 5.4: Seien X ein metrischer Raum und M ⊆ X eine Teilmenge. Ein Punkt
x ∈ M heißt innerer Punkt von M wenn M eine Umgebung von x ist, wenn es also ein
> 0 mit U (x) ⊆ M gibt.
Haben wir beispielsweise X = R2 in der euklidischen Metrik und betrachten die
abgeschlossene Kugel
M := U 1 ((0, 0)) = {(x, y) ∈ R2 |x2 + y 2 ≤ 1},
also den abgeschlossenen Einheitskreis in der Ebene, so sind die inneren Punkte von M
offenbar genau diejenigen (x, y) ∈ M die nicht auf Randkreis liegen, also die (x, y) ∈ R2
mit x2 + y 2 < 1. Betrachten wir dagegen die offene Kugel
M = U1 ((0, 0)) = {(x, y) ∈ R2 |x2 + y 2 < 1},
so ist jeder Punkt von M ein innerer Punkt von M . Mengen mit dieser Eigenschaft
stellen sich als ausreichend wichtig heraus um einen eigenen Namen zu erhalten, wir
definieren:
Definition 5.5: Sei X ein metrischer Raum. Eine Teilmenge U ⊆ X heißt offen in X,
wenn jeder Punkt x ∈ U ein innerer Punkt von U ist. Setzen wir die Definition einer
inneren Punktes ein, so ist dies weiter genau dann der Fall wenn es für jedes x ∈ U ein
> 0 mit U (x) ⊆ U gibt.
90
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Weiter heißt eine Menge M ⊆ X abgeschlossen in X, wenn ihr Komplement X\M
offen in X ist.
Zu Beispielen werden wir in der nächsten Sitzung kommen.
Vorlesung 12, Dienstag 29.5.2012
Am Ende der letzten Sitzung hatten wir eine Teilmenge U eines metrischen Raums
(X, d) offen genannt wenn sie eine Umgebung jedes ihrer Punkt ist, oder gleichwertig
wenn es für jedes x ∈ U eine positive reelle Zahl > 0 mit U (x) ⊆ U gibt. Eine Menge
deren Komplement offen ist nennen wir abgeschlossen. Wir gehen jetzt einige Beispiele
durch.
1. Ist X ein beliebiger metrischer Raum, so können wir X selbst als eine Teilmenge
von X betrachten. Die Menge X ist dann offen, denn ist x ∈ X ein beliebiger
Punkt, so ist zum Beispiel U1 (x) ⊆ X und x ist innerer Punkt von X. Gleichzeitig
ist X auch abgeschlossen in X, denn das Komplement von X in X ist X\X = ∅
die leere Menge, und diese ist offen. Damit ist X, und auch ∅, gleichzeitig offen
und abgeschlossen in X.
2. Ist X ein metrischer Raum, so sind die offenen Kugeln auch in X offene Mengen
und die abgeschlossenen Kugeln sind in X abgeschlossene Mengen. Dies ist gerade
Aufgabe (39).
3. Die rechte Halbebene M := {(x, y) ∈ R2 |x > 0} ist offen in X = R2 mit der
euklidischen Metrik. Das Komplement R2 \M = {(x, y) ∈ R2 |x ≤ 0} ist dagegen
nicht offen, da die Punkte (0, y), y ∈ R keine inneren Punkte von R2 \M sind,
d.h. die Menge M ist nicht abgeschlossen.
4. Die Teilmenge Q ⊆ R ist weder offen noch abgeschlossen. Dies ist klar, da jedes
nicht leere, offene Intervall sowohl rationale als auch irrationale Zahlen enthält.
Insbesondere sind offen“ und abgeschlossen“ keine Gegensätze alle möglichen Kom”
”
binationen von offen und abgeschlossen können vorkommen, was gerne als Mengen
”
sind keine Türen“ formuliert wird. Wir wollen jetzt einige der Eigenschaften offener
und abgeschlossener Mengen nachweisen.
Lemma 5.6 (Grundeigenschaften offener Mengen)
Sei (X, d) ein metrischer Raum. Dann sind beliebige Vereinigungen offener Teilmengen
von X und endliche Durchschnitte offener Teilmengen von X wieder offen in X.
Beweis: Wir beginnen mit Vereinigungen. Sei also (Ui )i∈I eine Familie offener Teilmengen von X, wobei I irgendeine Indexmenge ist. Wir wollen zeigen, dass dann auch die
91
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Vereinigung
[
Ui = {x ∈ X|∃(i ∈ I) : x ∈ Ui }
i∈I
S
offen in X ist. Sei also x ∈ i∈I Ui . Dann existiert ein j ∈ I mit x ∈ Uj und da Uj in
X offen ist, existiert weiter ein > 0 mit U (x) ⊆ Uj . Damit ist aber auch
[
U (x) ⊆ Uj ⊆
Ui .
i∈I
S
Folglich ist die Vereinigung i∈I Ui tatsächlich offen.
Wir kommen jetzt zu den endlichen Durchschnitten offener Mengen. Dabei reicht
es zu zeigen, dass für je zwei offene Mengen U, V ⊆ X auch U ∩ V wieder offen in X
ist. Denn sind dann U1 , . . . , Un mit n ∈ N endlich viele offene Teilmengen von X, so
haben wir
n
\
Ui = (. . . ((U1 ∩ U2 ) ∩ U3 ) . . . ∩ Un−1 ) ∩ Un ,
i=1
und durch iterierte Anwendung des Falls zweier offener Mengen ist auch dies wieder eine
offene Teilmenge von X. Streng genommen müßte man hier eigentlich eine Induktion
durchführen, aber darauf wollen wir hier verzichten.
Seien jetzt also zwei offene Mengen U, V ⊆ X gegeben. Sei x ∈ U ∩ V . Da U und V
beide offen sind, gibt es Zahlen 1 , 2 > 0 mit U1 (x) ⊆ U und U2 (x) ⊆ V . Setze jetzt
:= min{1 , 2 } > 0.
Dann haben wir
U (x) ⊆ U1 (x) ∩ U2 (x) ⊆ U ∩ V.
Damit ist auch U ∩ V eine offene Teilmenge von X.
Dagegen müssen unendliche Durchschnitte offener Mengen im Allgemeinen nicht mehr
offen sein. Ein einfaches Beispiel ist
∞ \
1 1
− ,
= {0}
n n
n=1
in X = R versehen mit der euklidischen Metrik. Offene Intervalle sind auch offene
Mengen, zum Beispiel da ein offenes Intervall (a, b) für a, b ∈ R mit a < b gleich
der offenen Kugel (a, b) = U(b−a)/2 ((a + b)/2) ist. Links steht hier also ein Durchschnitt
offener Mengen. Dagegen ist die Menge {0} nicht offen in R. Dass eine reelle Zahl deren
Betrag kleiner als 1/n für jedes n ∈ N ist, schon gleich Null ist, sollte anschaulich klar
sein. Formal folgt es aus der archimedischen Eigenschaft der reellen Zahlen §4.Lemma
16.
Durch Komplementbildung erhalten wir aus Lemma 6 auch eine entsprechende
Aussage über abgeschlossene Mengen.
92
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Lemma 5.7 (Grundeigenschaften abgeschlossener Mengen)
Sei (X, d) ein metrischer Raum. Dann sind beliebige Durchschnitte abgeschlossener
Teilmengen von X und endliche Vereinigungen abgeschlossener Teilmengen von X wieder abgeschlossen in X.
Beweis: Sei (Ai )i∈I eine Familie abgeschlossener Teilmengen von X, wobei I wieder
irgendeine Indexmenge ist. Für jedes i ∈ I ist das Komplement X\A
Si dann eine offene
Teilmenge von X. Folglich ergibt Lemma 6 das die Vereinigung i∈I (X\Ai ) wieder
eine offene Teilmenge von X ist. Wenden wir jetzt die de-Morganschen Regeln aus Teil
A im letzten Semester an, so ergibt sich das
!
\
[
X\
Ai = (X\Ai )
i∈I
i∈I
T
offen in X ist, d.h. i∈I Ai ist abgeschlossen in X.
Wir kommen jetzt zu den endlichen Vereinigungen. Seien also n ∈ N und abgeschlossene Mengen A1 , . . . T
, An ⊆ X gegeben. Erneut ist für jedes 1 ≤ i ≤ n dann
X\Ai offen in X, also ist ni=1 (X\Ai ) nach Lemma 6 auch offen in X. Eine erneute
Anwendung der de-Morganschen Regeln ergibt, dass auch
!
n
n
\
[
X\
Ai = (X\Ai )
i=1
i=1
offen in X ist, d.h.
Sn
i=1
Ai ist abgeschlossen in X.
Genau wie beliebige Durchschnitte offener Mengen nicht unbedingt offen sein müssen,
sind auch beliebige Vereinigungen abgeschlossener Mengen im Allgemeinen nicht mehr
abgeschlossen. Beispielsweise ist
∞ [
1
1
−1 + , 1 −
= (−1, 1).
n
n
n=1
Das diese Mengengleichheit besteht ist wieder eine Folgerung aus der archimedischen
Eigenschaft §4.Lemma 16 der reellen Zahlen. Die linke Seite ist hier eine Vereinigung
abgeschlossener Mengen denn jedes abgeschlossene Intervall [a, b] mit a, b ∈ R, a ≤ b
ist tatsächlich auch eine abgeschlossene Menge. Dies ist leicht zu sehen, wir wissen ja
schon das offene Intervalle (a, b) auch offene Mengen sind, und damit ist auch
[
[
R\[a, b] = (−∞, a) ∪ (b, ∞) =
(x, a) ∪ (b, x)
x<a
x>b
nach Lemma 6 eine offene Menge, d.h. das Intervall [a, b] ist eine abgeschlossene Menge.
Das offene Intervall (−1, 1) ist dagegen nicht abgeschlossen den zum Beispiel ist 1 kein
innerer Punkt des Komplements R\(−1, 1) = (−∞, −1] ∪ [1, ∞), d.h. das Komplement
93
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
ist nicht offen und die Menge ist nicht abgeschlossen. Nach diesen Grundeigenschaften wollen wir jetzt den sogenannten Rand einer Teilmenge eines metrischen Raums
einführen.
Definition 5.8: Seien (X, d) ein metrischer Raum und M ⊆ X eine Teilmenge von X.
Ein Punkt x ∈ X heißt ein Randpunkt von M , wenn für jede Umgebung U von x stets
U ∩ M 6= ∅ und U ∩ (X\M ) 6= ∅
gelten. Die Menge aller Randpunkte von M schreiben wir als ∂M .
In anderen Worten liegen die Umgebungen eines Randpunktes weder ganz in M noch
ganz außerhalb von M , was die Namensgebung Randpunkt“ rechtfertigt. Da jede
”
Umgebung von x eine offene Kugel U (x) enthält und umgekehrt diese Kugeln stets
Umgebungen von x sind, haben wir für x ∈ X auch
x ist Randpunkt von M ⇐⇒ ∀( > 0) : U (x) ∩ M 6= ∅ ∧ U (x) ∩ (X\M ) 6= ∅.
Eine weitere Umformulierung ist gelegentlich nützlich. Verneinen wir die definierende
Bedingung an einen Randpunkt, so folgt das x ∈ R2 genau dann kein Randpunkt von
M ⊆ X ist, wenn es eine Umgebung U von x in X mit U ∩ M = ∅ oder U ∩ (X\M ) = ∅
gibt, und dies ist gleichwertig zu U ⊆ X\M oder U ⊆ M . Damit ist x genau dann kein
Randpunkt von M wenn x ein innerer Punkt von M oder von X\M ist. Wir gehen
einige Beispiele von Randpunkten durch.
1. Sei X = R2 mit der euklidischen Metrik und
M := U 1 ((0, 0)) = {(x, y) ∈ R2 |x2 + y 2 ≤ 1}
der abgeschlossene Einheitskreis in der Ebene. Wie schon bemerkt sind die Punkte
(x, y) ∈ R2 mit x2 + y 2 < 1 nach Aufgabe (39) innere Punkt von M . Da M
abgeschlossen ist, ist R2 \M offen, d.h. jeder Punkt der nicht in M liegt ist ein
innerer Punkt von R2 \M . Die Randpunkte von M sind also genau
∂M = {(x, y) ∈ R2 |x2 + y 2 = 1},
d.h. die Punkte der berandenden Kreislinie. Für vernünftige“ Teilmengen des
”
Rn in der euklidischen Metrik ist der Rand einer Menge tatsächlich immer das
was man sich bildlich darunter vorstellt.
2. Als ein Beispiel für unvernünftige Mengen nehmen wir einmal M = Q als Teilmenge von X = R in der euklidischen Metrik. Ist x ∈ R eine beliebige reelle
Zahl und > 0, so ist die Kugel U (x) das Intervall (x − , x + ) und dieses
enthält sowohl rationale als auch irrationale Punkte, d.h. es ist U (x) ∩ M 6= ∅
und U (x) ∩ (X\M ) 6= ∅, und somit ist x ein Randpunkt von M = Q. Damit
∂Q = R.
94
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
3. Nun sei X ein beliebiger metrischer Raum und M = X. Wegen X\X = ∅ ist
dann kein Punkt von X eine Randpunkt von M also ∂X = ∅. Ebenso ist auch
∂∅ = ∅.
4. Dass der Rand einer Teilmenge leer ist, kann auch in nicht ganz so trivialen
Situationen passieren. Um hierfür ein Beispiel zu sehen, betrachten wir X = Q
mit√der√durch d(x, y) = |x − y| gegebenen Metrik. Als Teilmenge nehme M
√ :=
(− 2, 2) ∩ Q. Dann sind M und das Komplement Q\M offen in Q, da ± 2 ja
keine rationale Zahl ist, und somit ist ∂M = ∅.
Der letzte noch einzuführende Begriff ist der sogenannte Abschluß einer Menge in einem
metrischen Raum.
Definition 5.9: Sei (X, d) ein metrischer Raum und sei M ⊆ X eine Teilmenge. Der
Abschluß von M , geschrieben als M , ist dann die kleinste M enthaltende, abgeschlossene Teilmenge von X, d.h. die abgeschlossene Menge M ⊆ X mit M ⊆ M so, dass
A ⊆ X abgeschlossen mit M ⊆ A =⇒ M ⊆ A
gilt. Die Menge M heißt dann dicht in M .
Streng genommen müssten wir uns klarmachen das eine solche abgeschlossene Menge
M überhaupt existiert. Dies ist aber leicht zu sehen. Nach Lemma 7 ist der Durchschnitt
\
M = {A|A ⊆ X ist abgeschlossen mit M ⊆ X}
überhaupt aller abgeschlossenen Obermengen von M selbst eine abgeschlossene Menge,
und für jede abgeschlossene A ⊆ X mit M ⊆ A gilt trivialerweise auch M ⊆ A.
Zum konkrete Rechnungen ist es wichtig noch eine explizitere Beschreibung des
Abschluss einer Menge M ⊆ X zu kennen. Wir behaupten das für eine Teilmenge
M ⊆ X eines metrischen Raums X und jeden Punkt x ∈ X von X die Äquivalenz
x ∈ M ⇐⇒ ∀( > 0) : U (x) ∩ M 6= ∅
besteht. Sei nämlich zunächst x ∈ M . Sei > 0. Nach Aufgabe (39) ist die offene Kugel
U (x) eine offene Teilmenge von X, d.h. ihr Komplement X\U (x) ist eine abgeschlossene Teilmenge von X. Wegen x ∈ M und x ∈
/ X\U (x) ist M 6⊆ X\U (x), und nach
Definition des Abschluß muss damit auch M 6⊆ X\U (x). Dies bedeutet aber gerade
U (x) ∩ M 6= ∅. Jetzt nehme umgekehrt U (x) ∩ M 6= ∅ für jedes > 0 an. Sei A ⊆ X
eine abgeschlossene Menge mit M ⊆ A. Wäre jetzt x ∈
/ M , so ist x ein Element der
offenen Menge X\A, also ein innerer Punkt von X\A. Damit gibt es aber ein > 0 mit
U (x) ⊆ X\A ⊆ X\M , im Widerspruch zu U (x) ∩ M 6= ∅. Folglich ist x ein Element
jeder M enthaltenden abgeschlossenen Menge, und dies bedeutet x ∈ M .
Statt Kugeln kann man auch allgemeiner Umgebungen von x verwenden, und erhält
x ∈ M ⇐⇒ Für jede Umgebung U von x in X ist U ∩ M 6= ∅.
95
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Anhand dieser Beschreibung kann man jetzt auch den Zusammenhang zwischen Rand
und Abschluß einer Menge M erkennen. Die Bedingung x ∈ M ist sozusagen die halbe
Bedingung für x ∈ ∂M . Dies kann man noch etwas quantitativer formulieren. Jeder
Punkt x ∈ M ist wegen M ⊆ M auch im Abschluß von M . Ist dagegen x ∈ X mit
x∈
/ M , so ist x ∈ U (x) ∩ (X\M ) für jedes > 0, also auch U (x) ∩ (X\M ) 6= ∅ für
jedes > 0. Damit ist x genau dann ein Randpunkt von M , wenn U (x) ∩ M 6= ∅ für
jedes > 0 gilt, d.h. wenn x ∈ M ist. Diese Überlegung zeigt
M = M ∪ ∂M.
Der Abschluß einer Menge M entsteht also durch das Hinzunehmen der Randpunkte
zu M .
Ist beispielsweise M = (a, b) ein offenes Intervall in X = R mit der euklidischen
Metrik, so sind a und b die beiden Randpunkte von M , also ∂M = {a, b} und somit
M = M ∪ ∂M = [a, b].
5.1
Äquivalente Metriken
All die bisher für metrische Räume eingeführten Begriffe, also etwa innere Punkte“,
”
Umgebungen“, der Abschluß“ und so weiter, hängen nicht nur von der Menge X
”
”
sondern auch von der Metrik d auf X ab. Verschiedene Metriken führen zu ganz verschiedenen Effekten, und wir wollen uns zunächst ein besonders drastisches Beispiel
für dieses Phänomen anschauen. Wir betrachten die Menge X = R einmal mit der
euklidischen Metrik d(x, y) = |x − y| für alle x, y ∈ R und einmal mit der sogenannten
diskreten Metrik d0 , die durch
(
0, x = y,
d0 (x, y) :=
1, x 6= y
für alle x, y ∈ R definiert ist. Dass d0 tatsächlich eine Metrik ist können wir leicht
einsehen. Die ersten beiden Eigenschaften (M1), (M2) einer Metrik sind dabei klar,
nur die Dreiecksungleichung (M3) erfordert eine kleine Überlegung. Sind x, y, z ∈ R,
so gilt im Fall x = z trivialerweise d0 (x, z) = 0 ≤ d0 (x, y) + d0 (y, z). Ist dagegen x 6= z,
so ist auch x 6= y oder y 6= z, also d0 (x, y) = 1 oder d0 (y, z) = 1 und in beiden Fällen
haben wir damit d0 (x, y) + d0 (y, z) ≥ 1 = d0 (x, z). Damit sind d und d0 beides Metriken
auf X = R. Die Kugeln in der diskreten Metrik haben eine besonders einfache Gestalt,
für alle x ∈ R und alle > 0 gelten
(
(
0
X,
>
1,
X,
≥ 1,
0
d
Ud (x) =
U (x) =
{x}, ≤ 1,
{x}, < 1.
Insbesondere ist in der diskreten Metrik jede Teilmenge von X eine Umgebung jedes
ihrer Punkte, und damit ist in der diskreten Metrik jede Teilmenge von X offen und
abgeschlossen mit leeren Rand, und jede Teilmenge von X ist damit auch gleich ihrem
96
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
eigenen Abschluß. All unsere in diesem Abschnitt definierten Begriffe verhalten sich
bezüglich der diskreten Metrik also völlig anders als bezüglich der euklidischen Metrik.
Kommen wir zur allgemeinen Situation zurück. Es stellt sich heraus, dass sich all
diese Unterschiede zwischen verschiedenen Metriken bereits bei den offenen Mengen
zeigen, definieren zwei Metriken auf einer Menge X dieselben offenen Mengen, so stimmen auch abgeschlossene Mengen, Rand und Abschluß überein. In der Tat, die abgeschlossenen Mengen sind die Komplemente der offenen Mengen, stimmen also offene
Mengen überein so auch abgeschlossene. Da der Abschluß einer Menge M die kleinste
abgeschlossene Obermenge von M stimmt auch dieser bezüglich beider Metriken überein. Da eine Menge U nach Aufgabe (39) weiter genau dann Umgebung eines Punktes
x ∈ U ist, wenn es eine offene Menge V mit x ∈ V ⊆ U gibt, stimmen auch Umgebungen bezüglich beider Metriken überein. Da Randpunkte in Termen von Umgebungen
definiert sind, sind schließlich auch die Ränder gleich. Daher führen wir den folgenden
Äquivalenzbegriff für Metriken ein.
Definition 5.10: Sei X eine Menge. Zwei Metriken d1 , d2 auf X heißen äquivalent,
wenn sie die gleichen offenen Mengen generieren, d.h. wenn eine Menge U ⊆ X genau
dann in (X, d1 ) offen ist, wenn sie in (X, d2 ) offen ist.
Wir geben jetzt eine hinreichende, aber keinesfalls notwendige, Bedingung für die
Äquivalenz zweier Metriken an.
Lemma 5.11 (Hinreichendes Kriterium für die Äquivalenz von Metriken)
Sei X eine Menge und seien d1 , d2 zwei Metriken auf X. Es gebe Konstanten c1 , c2 > 0
mit
c1 d1 (x, y) ≤ d2 (x, y) ≤ c2 d1 (x, y)
für alle x, y ∈ X. Dann sind diese Metriken äquivalent.
Beweis: Für x ∈ X, > 0 und i ∈ {1, 2} bezeichne
Udi (x) = {y ∈ X|di (x, y) < }
die offene Kugel um x mit Radius bezüglich der Metrik di .
Sei U ⊆ X eine Teilmenge. Wir müssen zeigen, dass U genau dann in (X, d1 ) offen
ist wenn U in (X, d2 ) offen ist. Nehme zunächst an, dass U bezüglich der Metrik d1
offen ist. Sei x ∈ U . Dann existiert ein > 0 mit Ud1 (x) ⊆ U . Dann ist auch c1 · > 0,
und wir wollen Ucd12 (x) ⊆ U einsehen. Sei also y ∈ Ucd12 (x) gegeben, d.h. es ist y ∈ X
mit d2 (x, y) < c1 . Dann folgt auch
d1 (x, y) =
1
1
1
· c1 d1 (x, y) ≤ d2 (x, y) < c1 = ,
c1
c1
c1
und somit gilt y ∈ Ud1 (x) ⊆ U . Dies zeigt Ucd12 (x) ⊆ U , und damit ist x ein innerer
Punkt von U bezüglich d2 . Folglich ist U auch in (X, d2 ) offen.
97
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
Jetzt nehme umgekehrt an, dass U in (X, d2 ) offen ist. Sei x ∈ U . Es gibt > 0 mit
d1
Ud2 (x) ⊆ U . Damit ist auch /c2 > 0 und für jedes y ∈ U/c
(x) gilt auch
2
d2 (x, y) ≤ c2 d1 (x, y) < c2 ·
= ,
c2
d1
also y ∈ Ud2 (x) ⊆ U . Damit ist U/c
(x) ⊆ U , und U ist auch bezüglich d1 offen.
2
Als ein Beispiel zu diesem Lemma werden sie in Aufgabe (37) zeigen, dass auf der
Menge X = R2 die euklidische Metrik, die Taximetrik und die `∞ -Metrik alle zueinader
äquivalent sind.
$Id: folgen.tex,v 1.14 2012/06/28 18:28:57 hk Exp $
§6
Folgen
Der Begriff einer Folge ist weitgehend ein Hilfsbegriff, und wir wollen damit beginnen zu erläutern wobei Folgen eigentlich helfen sollen. Für diesen etwas längeren Exkurs
müssen wir ein klein wenig vorgreifen und schon einmal Ableitungen besprechen. Für
das Folgende reicht dabei die in der Schule vermittelte Kenntnis von Ableitungen aus,
eine genauere Behandlung folgt später. Was ist also die Ableitung einer reellen Funktion
f : R → R. Ein Erklärungsansatz ist es die Ableitung als die Steigung von Tangenten an
den Funktionsgraph zu definieren“. Das ist zwar recht anschaulich und gelegentlich für
”
heuristische Zwecke auch ganz nützlich, geht aber doch etwas am Punkt vorbei. Dieser
geometrische Standpunkt spielt meistens keinerlei Rolle. Wesentlich wichtiger ist die
Interpretation der Ableitung als eine Änderungsrate, die Verwendung von Ableitungen
in Anwendungssituationen beruht fast immer auf diesem Standpunkt.
Zur Erinnerung starten wir mit dem Urbeispiel einer Ableitung, dem Begriff der
Geschwindigkeit. Wir denken uns einen sich bewegenden, physikalischen Körper. Um
keine Vektoren verwenden zu müssen, gehen wir davon aus, dass sich diese Bewegung in
einer festen Richtung abspielt. Dann können wir die Position unseres Körpers zum Zeitpunkt t durch eine einzelne Zahl x(t) beschreiben, die etwa den Abstand des Körpers
zum Koordinatenursprung angibt. Gehen wir erst einmal vom einfachsten Fall aus, und
nehmen an das auf unseren Körper keine Kräfte wirken. Wie Sie wahrscheinlich noch
aus dem Physikunterricht wissen, gilt dann das sogenannte Trägheitsprinzip, d.h. der
Körper legt in einem Zeitabschnitt der Dauer ∆t eine zur Dauer des Zeitabschnitts
proportionale Strecke ∆x zurück. Die hierbei auftretende Proportionalitätskonstante,
d.h. die Zahl v mit ∆x = v · ∆t, nennt man dann die Geschwindigkeit des Körpers.
Maßeinheiten ignorieren wir dabei, und denken uns alles als Zahlen.
Die kräftefreie Bewegung ist damit recht einfach. Kommen wir zum allgemeinen
Fall, bei dem auf den Körper irgendwelche Kräfte wirken. Betrachte wieder ein Zeit98
Mathematik für Informatiker B, SS 2012
Dienstag 29.5.2012
intervall der Länge ∆t, und in diesem Zeitintervall lege unser Körper die Strecke ∆x
zurück. Als die mittlere Geschwindigkeit in diesem Zeitintervall bezeichnen wir die Geschwindigkeit v die ein kräftefreier Körper hätte, der im Zeitintervall ∆t die Strecke
∆x zurücklegt, also
∆x
v=
.
∆t
Nun führt man eine Idealisierung durch. Geben wir uns einen Zeitpunkt t vor, und betrachten immer kleinere Zeitabschnitte ∆t, so gehen wir davon aus, dass sich die mittlere Geschwindigkeit bezüglich der Zeitintervalle t bis t + ∆t auf einen Wert v = v(t)
einpendelt. Diese Zahl bezeichnen wir dann als die Geschwindigkeit des Körpers zum
Zeitpunkt t. Die Existenz dieser Zahl kann man nicht logisch herleiten, es handelt sich
nur um eine idealisierende Annahme, die sich aber als sehr erfolgreich herausgestellt
hat. Diese mittlere Geschwindigkeit ist ein realer Wert, in dem Sinne das wir sie direkt
messen können, die Geschwindigkeit kann man dagegen nur näherungsweise durch Messung über ausreichend kleine Zeitabschnitte bestimmen. Das ist zwar kein praktischer
Unterschied da Messungen naturgemäß niemals exakt sind, aber inhaltlich liegt schon
ein gewisser Unterschied vor. Wir denken uns die Geschwindigkeit als einen Quotienten
v=
dx
dt
wobei man sich dt als einen unendlich kleinen Zeitabschnitt“ und dx als die in die”
sem Zeitabschnitt unendlich kleine zurückgelegte Strecke“ denkt. Ist allgemein x(t)
”
eine Funktion von t so definiert“ der Quotient die Ableitung x0 (t) von x in t. Dies
”
ist natürlich keine mathematische Definition im heutigen Sinne, da diese unendlich
”
kleinen“ Größen nicht wirklich definiert sind. Trotzdem ist die Mathematik sehr lange
Zeit mit einer derartig vagen Definition ausgekommen. Tatsächlich waren zu dieser Zeit
noch nicht einmal die reellen Zahlen wirklich streng definiert.
Geändert hat sich das alles erst im letzten Viertel des neunzehnten Jahrhunderts,
als man begann Fragestellungen zu untersuchen die sich mit dem vagen Konzept infinitesimaler Größen nicht mehr zufriedenstellend behandeln ließen.
Alle Versuche den unendlich kleinen und unendlich großen Zahlen eine wirklich
brauchbare, exakte Bedeutung zu geben, sind letztlich gescheitert und daher wurden
die infinitesimale Größen letztlich vollständig aus der Mathematik entfernt. Im mathematischen Sinn gibt es keine unendlich kleinen oder unendlich großen Zahlen. So
etwas wie Ableitungen wollte man aber natürlich trotzdem weiter verwenden, und daher mussten diese auf eine neue Grundlage gestellt werden. Als Ersatz für infinitesimale
Werte wurde der Begriff des Grenzwerts eingeführt. Es gibt viele verschiedene Arten
von Grenzwerten, von denen wir einige noch kennenlernen werden.
Damit sind wir jetzt soweit die Bedeutung von Folgen einsehen zu können. Viele
der erwähnten Grenzwertbegriffe lassen sich auf Grenzwerte von Folgen zurückführen.
Folgen sind in diesem Rahmen dann ein reines Hilfsmittel, sie erfassen gerade den
gemeinsamen Kern einer Vielfalt von Grenzwertbegriffen. Viele der Grundaussagen
über Grenzwerte überlegt man sich zunächst für Folgen und kann sie dann auf all die
99
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
anderen, uns wirklich interessierenden, Grenzwerttypen anwenden. Folgen sind also die
Maschinerie die den ganzen Kalkül am Laufen hält, haben aber für sich selbst eher
selten eine Bedeutung. Das hat leider zur Folge, dass die Theorie der Folgen zunächst
recht unmotiviert und wenig sinnvoll wirkt. Wir wiederholen die Definition einer Folge,
diese kam bereits in Teil A im letzten Semester vor.
Definition 6.1: Eine Folge in einer Menge M ist eine Abbildung a : N → M . Für
den Funktionswert a(n), n ∈ N schreiben wir an = a(n) und nennen an auch das n-te
Folgenglied. Die gesamte Folge wird meist als (an )n∈N notiert.
Das Funktionsargument n wird oft auch als der Index bezeichnet. Anstelle von auf
ganz N definierten Folgen werden oft auch Folgen betrachtet, die nur für alle Indizes
n ≥ n0 ab einem Startindex n0 definiert sind. Diesen Fall wollen wir nicht gesondert
hervorheben, er ist immer implizit mit gemeint, auch wenn wir es nicht explizit hinschreiben. Sprechen wir beispielsweise von der Folge an = 1/n, so ist aus dem Kontext
klar das diese nur für Indizes n ≥ 1 gemeint ist. Beispiele von Folgen werden wir uns
in der nächsten Sitzung anschauen.
Vorlesung 13, Donnerstag 31.5.2012
Am Ende der letzten Sitzung hatten wir Folgen in einer Menge X als Abbildungen
a : N → X definiert, die dann typischerweise in der Form (an )n∈N , also mit dem
Funktionsargument n ∈ N als Index geschrieben werden. Wir gehen zunächst einige
kleine Beispiele von Folgen durch.
1. Die Folge an = n in der Menge M = R der reellen Zahlen.
2. Die Folge an = (−1)n wieder in M = R. Dies springt abwechselnd zwischen den
Werten an = 1 für gerade Indizes n und an = −1 für ungerade Indizes n hin und
her.
3. Die Folge an = (−1)n n ist wie die Folge an = n nur das das Vorzeichen je nach
geraden und ungeraden Index hin und her springt.
4. Wie im letzten Semester gesehen kann man Folgen auch rekursiv definieren. Dies
meint das das n-te Folgenglied in Termen des (n − 1)-ten Gliedes definiert wird,
oder noch allgemeiner unter Verwendung aller vorherigen Folgenglieder ak , 1 ≤
k < n. Damit dies sinnvoll ist, muss zusätzlich ein Startwert vorgegeben werden.
Wie wollen kurz ein kleines Beispiel einer solchen rekursiv definierten Folge besprechen. Der Startwert a0 sei eine beliebige natürlich Zahl a0 ∈ N∗ verschieden
von Null. Ist jetzt n ≥ 1 und kennen wir bereits das Folgenglied an−1 , so setze
(
an−1
,
an−1 ist gerade,
2
an :=
3an−1 + 1, an−1 ist ungerade.
100
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Nehmen wir etwa den Startwert a0 = 5, so ergibt sich die Folge
a1 = 16, a2 = 8, a3 = 4, a4 = 2, a5 = 1, a6 = 4, a7 = 2, a8 = 1, . . .
und der 1–4–2 Zyklus wiederholt sich immer weiter. Die Folge hängt natürlich
vom Startwert ab, nehmen wir etwa a0 = 9, so wird
a1 = 28, a2 = 14 a3 = 7, a4 = 22, a5 = 11, a6 = 34, a7 = 17, a8 = 52, a9 = 26,
a10 = 13, a11 = 40, a12 = 20, a13 = 10, a14 = 5, a15 = 16, a16 = 8, a17 = 4,
a18 = 2, a19 = 1, . . .
und wir sind wieder im 1–4–2 Zyklus. Es wird vermutet, dass die Folge unabhängig
vom Startwert immer in diesem Zyklus landet.
Zur graphischen Darstellung reeller Folgen kann man diese etwa durch Markieren der
Punkte (n, an ) in der Ebene malen, zum Beispiel werden die obigen ersten drei Folgen
dann
20
1
20
0.5
10
18
16
14
12
10
0
2
4
6
8
10
12
14
16
18
20
0
2
4
6
8
10
12
14
16
18
20
8
6
–0.5
–10
4
2
2
4
6
8
10
12
an = n
14
16
18
20
–1
an = (−1)n
an = (−1)n n
In diesem allgemeinen Rahmen wollen wir nur einen einzigen Begriff einführen, nämlich
die sogenannten Teilfolgen einer gegebenen Folge.
Definition 6.2: Sei (an )n∈N eine Folge in einer Menge M . Eine Folge der Form (ank )k∈N ,
wobei für jedes k ∈ N stets nk ∈ N und nk < nk+1 gelten, heißt eine Teilfolge von
(an )n∈N .
Etwas ausführlicher besteht eine Teilfolge also aus einigen, aber nicht unbedingt allen,
Folgengliedern
an1 , an2 , an3 , . . .
der Originalfolge, wobei die Indizes n1 , n2 , n3 , . . . der in der Teilfolge vorkommenden
Indizes in derselben Reihenfolge wie in der Originalfolge sind, also n1 < n2 < n3 < . . ..
Beispielsweise hat die Folge an = (−1)n n die Teilfolge
a2n = (−1)2n 2n = 2n.
101
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Eine Folge kann viele ganz unterschiedlich aussehende Teilfolgen haben, beispielsweise
sind
1
1
1
,
,
n + 1 n∈N
2n n∈N
n2 + 3n + 2 n∈N
alles Teilfolgen der Folge (1/n)n∈N .
6.1
Konvergente Folgen in metrischen Räumen
Wie eingangs erwähnt sind Folgen ein Hilfsbegriff, der das Gemeinsame an all den verschiedenen Grenzwertbegriffen einfangen soll. Daher brauchen wir insbesondere einen
Grenzwertbegriff für Folgen. Diesen führen wir von vornherein recht allgemein für Folgen in metrischen Räumen ein.
Definition 6.3: Sei (X, d) ein metrischer Raum. Eine Folge (an )n∈N in X heißt konvergent gegen einen Punkt a ∈ X, wenn für jede Umgebung U von a stets ein Index
n0 ∈ N existiert ab dem die Folge ganz in U ist, also an ∈ U für alle n ≥ n0 . In
diesem Fall nennen wir den Punkt a den Limes, oder Grenzwert, der Folge (an )n∈N und
schreiben
a = lim an .
n→∞
Gibt es einen solchen Grenzwert, so heißt die Folge (an )n∈N konvergent und andernfalls
heißt sie divergent.
Ist speziell X = R oder X = C in der euklidischen Metrik, so nennt man eine gegen
0 konvergente Folge auch eine Nullfolge.
Egal wie klein die Umgebung U ist, schließlich
liegt die ganze Folge ab einem gewissen Index
ganz innerhalb U . Was die Folge vor diesem Index n0 macht spielt keine Rolle, nur ab diesem
Index ist sie ganz in der Umgebung. Gelegentlich wird dies auch so umschrieben, dass die Folge
dem Grenzwert a schließlich beliebig nahe kommt.
Das ist aber eigentlich eine etwas unglückliche
Sichtweise, da die Folgen ja überhaupt dazu dienen Konzepte wie dieses beliebig nahe kommen“
”
zu eliminieren. Oft wird die Grenzwertdefinition kompakt in Quantorenschreibweise formuliert,
d.h. a = limn→∞ an bedeutet
n0
a
U
∀(U Umgebung von a)∃(n0 ∈ N)∀(n ≥ n0 ) : an ∈ U.
Wir wollen einige einfache Beispiele von Grenzwerten behandeln. Zunächst ist eine konstante Folge an = a ∈ X in einem beliebigen metrischen Raum X gegen a konvergent.
Ist nämlich U eine Umgebung von a, so können wir etwa n0 = 1 setzen und für jede
102
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
natürliche Zahl n ∈ N mit n ≥ n0 ist dann an = a ∈ U . Als ein etwas komplizierteres Beispiel behandeln wir die Folge (1/n)n∈N im metrischen Raum X = R versehen
mit der durch d(x, y) = |x − y| gegebenen Metrik. Wir behaupten das diese Folge den
Grenzwert a = 0 hat. Sei hierzu eine Umgebung U von 0 in X = R gegeben. Dann existiert ein > 0 mit U (0) ⊆ U und nach Definition unserer Metrik ist U (0) = (−, ),
wir haben also (−, ) ⊆ U . Nach den archimedischen Eigenschaft der reellen Zahlen
aus §4.Lemma 16 existiert eine natürliche Zahl n0 ∈ N mit 1/n0 < . Für jedes n ∈ N
mit n ≥ n0 ist damit auch
0<
1
1
1
≤
< , also ∈ (−, ) ⊆ U.
n
n0
n
Damit ist auch diese Konvergenzaussage bewiesen.
Wir kommen nun zu einer ganzen Klasse von Beispielen. Angenommen wir haben
einen metrischen Raum X und eine gegen ein a ∈ X konvergente Folge (an )n∈N in X.
Wir behaupten das dann auch jede Teilfolge (ank )k∈N dieser Folge gegen a konvergiert.
Sei nämlich eine Umgebung U von a in X gegeben. Dann existiert ein Index n0 ∈ N
mit an ∈ U für jedes n ≥ n0 . Für jedes k ∈ N mit k ≥ n0 ist damit auch nk ≥ k ≥ n0
also ank ∈ U , und die Konvergenz der Teilfolge (ank )k∈N gegen a ist bewiesen.
Kombinieren wir die eben behandelte Aussage mit den schon bewiesenen Grenzwert
limn→∞ 1/n = 0, so ergeben sich auch
lim
n→∞
1
1
1
= 0, lim
= 0, lim 2
=0
n→∞
n→∞
n+1
2n
n + 3n + 2
denn all dies sind Teilfolgen von 1/n. Nach diesen Beispielen kommen wir jetzt zur
allgemeinen Theorie zurück. Eine Umgebung eines Punktes a in einem metrischen
Raum war definitionsgemäß eine Menge, die noch eine kleine Kugel um den Punkt a
herum enthält. Setzen wir diese Definition in die Grenzwertdefinition ein, so ergibt sich
die folgende Umformulierung des Grenzwerts einer Folge.
Lemma 6.4: Seien (X, d) ein metrischer Raum, (an )n∈N eine Folge in X und a ∈ X.
Dann gilt genau dann lim an = a wenn
n→∞
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : d(an , a) < gilt.
Beweis: ”=⇒” Sei > 0. Dann ist die Kugel U (a) eine Umgebung von a, also existiert
ein n0 ∈ N mit an ∈ U (a) für alle n ≥ n0 , und dies bedeutet d(an , a) < für n ≥ n0 .
”⇐=” Sei U eine Umgebung von a. Dann existiert ein > 0 mit U (a) ⊆ U . Weiter
existiert dann ein Index n0 ∈ N mit d(an , a) < für alle n ≥ n0 . Für jedes n ∈ N mit
n ≥ n0 ist damit auch
an ∈ U (a) ⊆ U,
und damit konvergiert (an )n∈N gegen a.
103
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Wir werden im folgenden meist die Formulierung des Lemmas verwenden, um die
Konvergenz einer Folge nachzuweisen. Es gibt jetzt noch einen etwas feinsinnigen Punkt
zu beachten. Wir sprechen immer von dem Grenzwert einer konvergenten Folge, was
die Eindeutigkeit dieses Grenzwerts unterstellt. Diese Eindeutigkeit muss aber bewiesen
werden, und dies holen wir im folgenden Lemma nach.
Lemma 6.5 (Eindeutigkeit von Folgengrenzwerten)
Eine konvergente Folge in einem metrischen Raum hat genau einen Grenzwert.
Beweis: Seien also (X, d) ein metrischer Raum und (an )n∈N eine konvergente Folge in
X. Weiter seien a, b ∈ X zwei Grenzwerte dieser Folge. Wir wollen zeigen, dass dann
bereits a = b gilt. Hierzu zeigen wir, dass d(a, b) < für jedes > 0 gilt. Sei also > 0
gegeben. Da die Folge (an )n∈N gegen a konvergiert, gibt es ein n1 ∈ N mit d(an , a) < /2
für alle n ≥ n1 . Da die Folge aber auch gegen b konvergiert, gibt es ebenso ein n2 ∈ N
mit d(an , b) < /2 für alle n ≥ n1 . Setze
n := max{n1 , n2 }.
Dann ist n ∈ N mit n ≥ n1 und n ≥ n2 , also d(an , a) < /2 und d(an , b) < /2. Mit der
Dreiecksungleichung folgt damit
d(a, b) ≤ d(a, an ) + d(an , b) = d(an , a) + d(an , b) < + = .
2 2
Da dies für jedes > 0 gilt, und andererseits d(a, b) ≥ 0 ist, folgt d(a, b) = 0, und
folglich auch a = b.
Wir führen jetzt noch eine kleine Verallgemeinerung von Grenzwerten ein, die sogenannten Häufungspunkte.
Definition 6.6: Seien (X, d) ein metrischer Raum und (an )n∈N eine Folge in X. Ein
Punkt a ∈ X heißt Häufungspunkt der Folge (an )n∈N wenn es eine gegen a konvergente
Teilfolge (ank )k∈N von (an )n∈N gibt.
Häufungspunkte einer Folge sind also die Grenzwerte konvergenter Teilfolgen der gegebenen Folge. Beispielsweise ist ein Grenzwert einer konvergenten Folge automatisch
auch ein Häufungspunkt. Aber auch nicht konvergente Folgen können Häufungspunkte haben. Beispielsweise hat die Folge an = (−1)n in X = R die beiden Teilfolgen
(−1)2k = 1 und (−1)2k+1 = −1, d.h. a = 1 und a = −1 sind beides Häufungspunkte
von ((−1)n )n∈N . Eine Folge kann sogar unendlich viele Häufungspunkte haben. Ein
Beispiel hierfür ist etwa die Folge an = sin(n). Man kann sich überlegen, dass jede
reelle Zahl x mit −1 ≤ x ≤ 1 ein Häufungspunkt der Folge (sin(n))n∈N ist.
6.2
Cauchy-Folgen
Unsere bisherige Definition konvergenter Folgen, also
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : d(an , a) < 104
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
in der Formulierung des Lemma 4, hat den Nachteil das in ihr der Grenzwert a explizit
vorkommt. Dadurch kann der Nachweis der Konvergenz recht mühsam werden, wenn
man den Grenzwert nicht ausrechnen kann, beziehungsweise ihn nicht in irgendeiner
handlichen Form beschreiben kann. Der Begriff der Cauchyfolge soll dieses Problem
umgehen, indem eine zur Konvergenz äquivalente Bedingung gefunden wird, in der
der Grenzwert nicht mehr explizit auftaucht. Leider besteht diese Äquivalenz nicht
allgemein in metrischen Räumen, wie wir noch sehen werden gilt sie aber beispielsweise
für X = R. Eine Cauchyfolge ist eine Folge in der die Folgenglieder für große Indizes
aneinander rücken. Die formale Definition ist wie folgt:
Definition 6.7: Eine Folge (an )n∈N in einem metrischen Raum (X, d) heißt eine Cauchyfolge, wenn es für jedes > 0 einen Index n0 ∈ N mit d(an , am ) < für alle n, m ∈ N
mit n, m ≥ n0 gibt.
In Quantorenschreibweise bedeutet dies
∀( > 0)∃(n0 ∈ N)∀(n, m ≥ n0 ) : d(an , am ) < .
Wir werden sehen, dass jede konvergente Folge auch eine Cauchyfolge ist, aber leider
nicht umgekehrt. Zuvor möchten wir aber noch auf einen wichtigen Punkt in der Definition einer Cauchyfolge hinweisen, es ist wichtig das die Bedingung d(an , am ) < für
alle n, m ≥ n0 verlangt wird, es reicht nicht aus aufeinanderfolgende
Folgenglieder zu
√
betrachten. Ein Beispiel hierfür ist die Folge an = n in X = R. Diese Folge ist nicht
konvergent, also wie wir gleich sehen werden auch keine Cauchyfolge. Die Abstände aufeinanderfolgender Folgenglieder werden allerdings für große Werte des Index n beliebig
klein, für alle n ∈ N ist nämlich
√
√
√
√
√
√
n+1−n
1
( n + 1 − n) · ( n + 1 + n)
√
n+1− n=
=√
√
√ =√
√ .
n+1+ n
n+1+ n
n+1+ n
Kommen wir jetzt zu der schon mehrfach angekündigten Tatsache das konvergente
Folgen immer auch Cauchyfolgen sind.
Satz 6.8: Jede konvergente Folge ist eine Cauchyfolge.
Beweis: Seien (X, d) ein metrischer Raum und (an )n∈N eine gegen ein a ∈ X konvergente Folge. Sei > 0 gegeben. Dann existiert ein Index n0 ∈ N mit d(an , a) < /2 für
alle n ≥ n0 . Für alle n, m ∈ N mit n, m ≥ n0 ist dann auch
d(an , am ) ≤ d(an , a) + d(a, am ) = d(an , a) + d(am , a) < + = .
2 2
Damit ist (an )n∈N eine Cauchyfolge.
In allgemeine metrischen Räumen ist die Umkehrung dieser Aussage leider falsch. Wir
können beispielsweise die Menge X := R\{0} mit der durch d(x, y) := |x − y| für
x, y ∈ R\{0} gegebenen Metrik betrachten. Da die Folge (1/n)n∈N in R gegen Null
konvergiert, ist sie in R, und somit auch in X, eine Cauchyfolge. In X ist diese Folge
aber divergent da ihr Grenzwert“ nicht in X liegt.
”
105
Mathematik für Informatiker B, SS 2012
6.3
Donnerstag 31.5.2012
Folgen in angeordneten Körpern
Während wir bisher Folgen in allgemeinen metrischen Räumen untersucht haben, konzentrieren wir uns jetzt auf die reellen Zahlen X = R in der euklidischen Metrik
d(x, y) = |x − y|. In diesem Rahmen werden wir untersuchen wie die arithmetische
Struktur und die Ordnungsstruktur der reellen Zahlen mit dem Konvergenzbegriff zusammenspielen. Ein oft nützliches Hilfsmittel sind hier die monoton steigenden beziehungsweise monoton fallenden Folgen.
Definition 6.9: Sei (an )n∈N eine Folge in einem angeordneten Körper K.
1. Die Folge (an )n∈N heißt nach oben beschränkt, wenn die Menge {an |n ∈ N} in K
nach oben beschränkt ist, d.h. wenn eine Konstante M ∈ K mit an ≤ M für alle
n ∈ N existiert.
2. Die Folge (an )n∈N heißt nach unten beschränkt, wenn die Menge {an |n ∈ N} in
K nach unten beschränkt ist, d.h. wenn eine Konstante M ∈ K mit an ≥ M für
alle n ∈ N existiert.
3. Die Folge (an )n∈N heißt beschränkt, wenn sie nach oben und nach unten beschränkt ist.
4. Die Folge (an )n∈N heißt monoton steigend, oder monoton wachsend, wenn an ≤
an+1 für alle n ∈ N gilt.
5. Die Folge (an )n∈N heißt monoton fallend, wenn an+1 ≤ an für alle n ∈ N gilt.
Für eine monoton steigende Folge gilt natürlich auch an ≤ am für alle n, m ∈ N mit
n ≤ m und für eine monoton fallende Folge ist entsprechend auch an ≥ am für alle
n, m ∈ N mit n ≤ m. Die meisten Folgen sind natürlich weder monoton steigend noch
monoton fallend. Eine reelle Folge (an )n∈N ist beschränkt wenn es Zahlen A, B ∈ R mit
A ≤ an ≤ B für alle n ∈ N gilt. In diesem Fall gilt dann auch
− max{|A|, |B|} ≤ an ≤ max{|A|, |B|}
für alle n ∈ N, d.h. setzen wir C := max{|A|, |B|}, so ist |an | ≤ C für alle n ∈ N. Gibt
es umgekehrt ein solches C, so ist auch −C ≤ an ≤ C für alle n ∈ N und die Folge ist
beschränkt. Also
(an )n∈N beschränkt ⇐⇒ ∃(C > 0)∀(n ∈ N) : |an | ≤ C.
Lemma 6.10: Jede konvergente Folge (an )n∈N in R ist auch beschränkt.
Beweis: Schreibe a := lim an . Dann existiert ein n0 ∈ N mit |an − a| < 1 für alle
n→∞
n ≥ n0 . Wir erhalten die Konstante
C := max{|a| + 1, |a0 |, . . . , |an0 −1 |} > 0.
106
Mathematik für Informatiker B, SS 2012
Donnerstag 31.5.2012
Sei n ∈ N. Ist n < n0 , so gilt trivialerweise |an | ≤ C, und für n ≥ n0 haben wir auch
|an | = |an − a + a| ≤ |an − a| + |a| < 1 + |a| ≤ C.
Damit ist die Folge (an )n∈N beschränkt.
Grenzwerte vertragen sich auch mit Ungleichungen zwischen den beteiligten Folgen,
d.h. eine Ungleichung an ≤ bn für alle n ∈ N zwischen den Gliedern zweier konvergenter
Folgen überträgt sich auch auf die Grenzwerte der beiden Folgen.
Lemma 6.11: Seien (an )n∈N und (bn )n∈N zwei konvergente reelle Folgen mit an ≤ bn
für alle n ∈ N. Dann gilt auch lim an ≤ lim bn .
n→∞
n→∞
Beweis: Dies ist Aufgabe (38).
Ein <“ zwischen den Folgengliedern überträgt sich im Allgemeinen aber nicht auf die
”
Grenzwerte. Zum Beispiel konvergieren die Folgen (1/n)n∈N und (1/(n + 1))n∈N beide
gegen Null und es ist 1/(n + 1) < 1/n für jedes n ∈ N.
Im metrischen Raum X = R können wir unter den divergenten Folgen einige nicht
”
so schlimm“ divergente Folgen gesondert behandeln. Für reelle Folgen gibt es zwei verschiedene Gründe die zur Divergenz einer Folge (an )n∈N führen. Zum einen könnte die
Folge zwischen mehreren Häufungspunkten hin und her springen, wie es zum Beispiel
die Folge ((−1)n )n∈N , oder noch schlimmer (sin(n))n∈N , tut. Zum anderen kann sie
auch einfach nur zu groß werden, wie etwa (n)n∈N , oder zu klein wie (−n)n∈N . Diese
Unterscheidung deckt nicht ganz alle Möglichkeiten ab, es gibt etwa auch noch Folgen
wie ((−1)n n)n∈N die gleichzeitig groß und klein werden, aber so etwas wollen wir hier
ignorieren. Bei den zu großen oder zu kleinen Folgen spricht man jetzt von bestimmter
Divergenz im Sinne der folgenden Definition.
Definition 6.12: Sei (an )n∈N eine reelle Folge. Die Folge heißt bestimmt divergent gegen
+∞, in Zeichen lim an = +∞, wenn es für jede Schranke M ∈ R einen Index n0 ∈ N
n→∞
mit an ≥ M für alle n ∈ N mit n ≥ n0 gibt. Analog heißt die Folge bestimmt divergent
gegen −∞, in Zeichen lim an = −∞, wenn es für jedes M ∈ R stets einen Index
n→∞
n0 ∈ N mit an ≤ M für alle n ∈ N mit n ≥ n0 gibt.
In Quantorenschreibweise haben wir also
lim an = +∞ ⇐⇒ ∀(M ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an ≥ M
n→∞
lim an = −∞ ⇐⇒ ∀(M ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an ≤ M.
n→∞
Oftmals wird dann auch einfach davon gesprochen das die Folge gegen +∞ beziehungsweise −∞ konvergiert, etwas inkonsequent nennt man sie dann aber weiterhin
divergent.
107
Mathematik für Informatiker B, SS 2012
6.4
Dienstag 5.6.2012
Folgen reeller Zahlen
Vorlesung 14, Dienstag 5.6.2012
In der letzten Sitzung haben wir den Begriff des Grenzwerts einer Folge in einem
metrischen Raum eingeführt, und auch schon einige kleine Tatsachen über diesen Begriff eingesehen. Allerdings haben wir bisher recht wenig Beispiele für Folgengrenzwerte
behandeln können, hauptsächlich wissen wir das die Folge (1/n)n≥1 in R gegen Null
konvergiert. Dass die Behandlung von Beispielen noch recht schwer ist, liegt im wesentlichen daran, dass wir momentan nur die Definition eines Grenzwerts zur Verfügung
haben, aber keine Rechenregeln für Grenzwerte kennen. Wenn man aber immer auf
die Definition der Konvergenz zurückgehen muss, ist die Behandlung von Beispielen
unnötig aufwändig. Wir werden daher jetzt einen Satz über die Grenzwerte von Summen, Produkten und Quotienten konvergenter Folgen herleiten. Zunächst halten wir
einmal die explizite Form der Grenzwertdefinition für X = R fest.
Lemma 6.13 (Konvergenz reeller Folgen)
Eine Folge (an )n∈N reeller Zahlen konvergiert genau dann gegen eine reelle Zahl a ∈ R,
wenn die folgende Aussage gilt:
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| < Beweis: Dies ist klar nach Lemma 4, da die Metrik auf R durch d(x, y) = |x − y| für
alle x, y ∈ R definiert ist.
Damit kommen wir zu den Grenzwertsätzen für X = R.
Lemma 6.14 (Rechenregeln für Folgengrenzwerte)
Seien (an )n∈N und (bn )n∈N zwei konvergente reelle Folgen. Dann gelten:
(a) Die Folge (an + bn )n∈N ist konvergent mit
lim (an + bn ) = lim an + lim bn .
n→∞
n→∞
n→∞
(b) Für jede Konstante λ ∈ R ist auch die Folge (λan )n∈N konvergent mit
lim (λan ) = λ lim an .
n→∞
n→∞
(c) Die Folge (an · bn )n∈N ist konvergent mit
lim (an · bn ) = ( lim an ) · ( lim bn ).
n→∞
n→∞
108
n→∞
Mathematik für Informatiker B, SS 2012
Dienstag 5.6.2012
(d) Ist bn 6= 0 für alle n ∈ N und limn→∞ bn 6= 0, so ist auch die Folge (an /bn )n∈N
konvergent mit
lim an
an
= n→∞ .
lim
n→∞ bn
lim bn
n→∞
Beweis: Wir weisen die Konvergenz jeweils in der Form von Lemma 13 nach. Schreibe
a := limn→∞ an und b := limn→∞ bn .
(a) Sei > 0 gegeben. Dann gibt es n1 , n2 ∈ N mit
|an − a| <
für n ≥ n1 und |bn − b| < für n ≥ n2 .
2
2
Setze n0 := max{n1 , n2 }. Für jedes n ∈ N mit n ≥ n0 gilt dann n ≥ n1 und n ≥ n2 ,
also auch
|(an + bn ) − (a + b)| = |(an − a) + (bn − b)| ≤ |an − a| + |bn − b| <
+ = .
2 2
Dies zeigt, dass (an + bn )n∈N gegen a + b konvergiert.
(c) Diese Aussage ist schon etwas komplizierter. Zunächst ist die konvergente Folge
(an )n∈N nach Lemma 10 beschränkt, also existiert ein M > 0 mit |an | ≤ M für alle
n ∈ N. Weiter existieren n1 , n2 ∈ N mit
|an − a| <
für alle n ≥ n1 und |bn − b| <
für alle n ≥ n2 .
2|b| + 1
2M
Setze n0 := max{n1 , n2 }. Ist dann n ∈ N mit n ≥ n0 , so haben wir auch
|an bn −ab| = |an bn −an b+an b−ab| ≤ |an bn −an b|+|an b−ab| = |an (bn −b)|+|(an −a)b|
+
· |b| < + = .
= |an | · |bn − b| + |an − a| · |b| < M ·
2M
2|b| + 1
2 2
Damit konvergiert die Folge (an bn )n∈N gegen ab.
(b) Sei λ ∈ R. Da die konstante Folge (λ)n∈N gegen λ konvergiert, folgt dies aus Teil
(c).
(d) Sei > 0. Es gibt n1 , n2 ∈ N mit
|b|
für n ≥ n1 und |bn − b| < min
|an − a| <
4
|b|2 |b|
,
4|a| + 1 2
für n ≥ n2 .
Setze n0 := max{n1 , n2 }. Sei n ∈ N mit n ≥ n0 . Dann gilt zunächst
|b| = |b − bn + bn | ≤ |bn − b| + |bn | <
109
|b|
|b|
+ |bn |, also auch |bn | > .
2
2
Mathematik für Informatiker B, SS 2012
Dienstag 5.6.2012
Weiter folgt
an a an b − bn a |an b − ab + ab − bn a|
|an − a| · |b| |a| · |bn − b|
=
− =
≤
+
bn
b
bn b
|bn | · |b|
|bn | · |b|
|bn | · |b|
2
|an − a| |a| · |bn − b|
|b| 2
2|a|
|b|
=
+
<
·
+ 2 ·
< + = .
|bn |
|bn | · |b|
4 |b|
|b| 4|a| + 1
2 2
Also konvergiert die Folge (an /bn )n∈N gegen a/b.
Die Aussage (a) gilt auch für die Subtraktion anstelle der Addition. Dies können wir
leicht auf die anderen Regeln zurückführen. Zunächst gilt nämlich
lim (−an ) = lim ((−1) · an ) = (−1) · lim an = − lim an
n→∞
n→∞
n→∞
n→∞
nach Regel (b) und mit der Additionsregel (a) folgt dann auch
lim (an − bn ) = lim (an + (−bn )) = lim an + lim (−bn ) = lim an − lim bn .
n→∞
n→∞
n→∞
n→∞
n→∞
n→∞
Als eine erste Anwendung dieser Rechenregeln wollen wir den Grenzwert der Folge
((2n + 1)/(3n + 2))n∈N berechnen. Die Rechenregeln sind hier nicht direkt anwendbar
da sowohl Zähler als auch Nenner divergent sind, aber dieser Umstand läßt sich durch
Erweitern mit 1/n beheben:
1
(2n + 1)
2+
2n + 1
= lim n1
lim
= lim
n→∞ (3n + 2)
n→∞ 3n + 2
n→∞ 3 +
n
1
n
2
n
1
n→∞ n
2 + lim
=
3+2·
lim 1
n→∞ n
2
= .
3
Es gibt auch noch eine Rechenregel für die Grenzwerte von Betragsfolgen. Hierzu sollten
wir uns zunächst an einige kleine Formeln aus dem letzten Semester erinnern. Seien
x, y ∈ R, oder auch x, y ∈ C, das macht hier keinen Unterschied. Wir haben die
Dreiecksungleichung
|x + y| ≤ |x| + |y|.
Damit folgt weiter
|x| = |x − y + y| ≤ |x − y| + |y| =⇒ |x − y| ≥ |x| − |y|.
Vertauschen wir x und y, so ist auch
−(|x| − |y|) = |y| − |x| ≤ |y − x| = | − (y − x)| = |x − y|.
Der Betrag der Differenz |x|−|y| ist jetzt eine der beiden Zahlen |x|−|y| oder −(|x|−|y|)
und da beide höchstens |x − y| sind, ist somit auch
|x| − |y| ≤ |x − y|.
110
Mathematik für Informatiker B, SS 2012
Dienstag 5.6.2012
Damit ist es leicht den Grenzwert einer Betragsfolge zu berechnen.
Lemma 6.15: Sei (an )n∈N eine konvergente reelle Folge. Dann ist auch die Folge
(|an |)n∈N der Beträge konvergent und es gilt
lim |an | = lim an .
n→∞
n→∞
Beweis: Schreibe a := limn→∞ an . Sei > 0. Dann existiert ein n0 ∈ N mit |an − a| < für alle n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 gilt dann auch
|an | − |a| ≤ |an − a| < .
Damit konvergiert (|an |)n∈N gegen |a|.
Aus der Konvergenz der Betragsfolge (|an |)n∈N folgt umgekehrt aber nicht die Konvergenz der Originalfolge (an )n∈N , wie schon das Beispiel an = (−1)n zeigt. Es gibt aber
einen wichtigen Sonderfall in dem diese Umkehrung doch wahr ist. Zunächst ist eine
reelle Folge (an )n∈N genau dann eine Nullfolge, also gegen 0 konvergent, wenn
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an | < gilt und wegen |an | = |an | für jedes n ∈ N ergibt sich die Äquivalenz
lim an = 0 ⇐⇒ lim |an | = 0.
n→∞
n→∞
Es gibt noch eine weitere ähnliche Aussage, das Einschnürungslemma oder SandwichLemma. Hier sind drei reelle Folgen (an )n∈N , (bn )n∈N und (cn )n∈N mit an ≤ bn ≤ cn
für alle n ∈ N gegeben, die Folge (bn )n∈N ist zwischen den beiden Folgen (an )n∈N und
(cn )n∈N eingeschnürt. Konvergieren dann die beiden äußeren Folgen (an )n∈N und (cn )n∈N
gegen denselben Grenzwert a ∈ R, so konvergiert auch die mittlere Folge (bn )n∈N gegen
a. Dies ist gerade Aufgabe (40).
Ausgerüstet mit diesen Formeln können wir jetzt einige Beispiele rechnen. Diese
beruhen größtenteils auf dem schon früher gerechneten Grundbeispiel
1
lim = 0.
n→∞ n
Weiter ist für jeden Exponenten k ∈ N∗ auch
1
lim k = 0,
n→∞ n
da es sich hier um eine Teilfolge von (1/n)n∈N handelt. Mit den Grenzwertsätzen kann
man jetzt auch kompliziertere Ausdrücke behandeln, beispielsweise
3 − n7 + n54
3n4 − 7n3 + 5
=
lim
n→∞ 5n4 − 2n3 + n2 + 1
n→∞ 5 − 2 + 12 +
n
n
lim
1
n4
1
+ 5 · limn→∞ n14
n→∞ n
lim 1 + lim n12 + lim n14
n→∞ n
n→∞
n→∞
3 − 7 · lim
=
111
5−2·
3
= ,
5
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
wobei wir diesmal einen Zwischenschritt ausgelassen haben. Wir wollen noch ein weiteres solches Beispiel rechnen, bei dem sich Zähler- und Nennergrad voneinander unterscheiden. Betrachte
n2 + 7n − 3
lim
.
n→∞ 2n3 + 5n − 1
Wir wollen wieder so erweitern, dass in Zähler und Nenner nach der Erweiterung konvergente Folgen auftauchen. Hierzu erweitern wir mit dem Kehrwert der höheren auftretenden Potenz von n, also in diesem Beispiel mit 1/n3 . Dann haben wir
1
+ n72 − n33
n2 + 7n − 3
n
lim
. = lim
= 0.
n→∞ 2n3 + 5n − 1
n→∞ 2 + 52 − 13
n
n
Als nächstes Beispiel wollen wir einmal den zunächst recht kompliziert wirkenden
Grenzwert
sin(n4 + 1)
lim
n→∞
n
berechnen. Es stellt sich heraus, dass derartige Grenzwerte einfach zu berechnen sind,
obwohl der Zähler recht kompliziert ist. Der Sinus nimmt ja nur Werte zwischen −1
und 1 an, es ist also | sin(n4 + 1)| ≤ 1 für alle n ∈ N. Damit ist auch
sin(n4 + 1) | sin(n4 + 1)|
1
1
sin(n4 + 1)
1
=
≤
=⇒
−
≤
≤ ,
n
n
n
n
n
n
und das schon oben erwähnte Sandwich Lemma, Aufgabe (40), liefert auch
sin(n4 + 1)
= 0.
n→∞
n
lim
Derartige Überlegungen kann man dann mit unserer Erweiterungstechnik kombinieren,
wie etwa im Beispiel des folgenden Grenzwerts
sin(n4 −5n2 +3n+1)
n2
n
1
+ (−1)
n
n2
2+
2n2 + sin(n4 − 5n2 + 3n + 1)
lim
= lim
2
n
n→∞
n→∞
3n + n + (−1)
3+
2
= .
3
Hier haben wir verwendet das genau wie obigen Beispiel auch
4
2
sin(n4 − 5n2 + 3n + 1) ≤ 1 und somit lim sin(n − 5n + 3n + 1) = 0
n2
n→∞
n2
n2
und analog auch
(−1)n
=0
n→∞
n2
gelten. Allgemeiner gilt diese Aussage natürlich auch für beliebige Potenzen von n
und nicht nur für Quadrate, d.h. für jedes k ∈ N mit k ≥ 1 konvergiert die Folge
((−1)n /nk )n≥1 gegen Null.
lim
112
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Vorlesung 15, Donnerstag 7.6.2012
Wir waren gerade mit der Besprechung diverser Beispiele zur Folgenkonvergenz
beschäftigt, und wollen jetzt noch zwei weitere Beispiele behandeln, in denen jeweils
ein Potenzterm q n“ vorkommt. Sei q ∈ R eine reelle Zahl. Wir wollen wissen, wann
”
die Folge (q n )n∈N der Potenzen von q konvergiert. Die Antwort wird von der Zahl q
abhängen, und man muss einige Fälle unterscheiden. Der Hauptfall ist |q| < 1, also
−1 < q < 1, und dann ergibt sich
lim q n = 0.
n→∞
Für q = 1 konvergiert die Folge ebenfalls, und zwar gegen 1. Für alle anderen Werte
von q ist (q n )n∈N dagegen divergent, wobei im Fall q > 1 immerhin noch bestimmte
Divergenz gegen +∞ vorliegt. Der Beweis all dieser Behauptungen ist Aufgabe (45).
Als ein letztes Beispiel wollen wir die Folge (q n /n!)n∈N behandeln. Diese Folge ist
immer konvergent, unabhängig vom Wert von q, und der Grenzwert ist 0. Beachte
das die Grenzwertsätze hier wieder nicht anwendbar sind, da die Folge der Nenner ja
divergiert. Es ist auch nicht sofort klar ob die Folge beispielsweise für q > 1 konvergiert,
denn dann divergieren Zähler und Nenner beide bestimmt gegen +∞, und man muss
sich überlegen welcher der beiden gewinnt“. Es wird aber alles klar, wenn wir uns
”
Zähler und Nenner einmal ausgeschrieben denken
n mal
n
z }| {
q
q · ... · q
q q
q
=
= · · ... · .
n!
1 · 2 · ... · n
1 2
n
Sobald der Index k im Quotienten q/k größer als |q| wird, kommen nur noch Faktoren
kleiner als Eins hinzu, im wesentlichen haben wir also eine Folge von Potenzen. Um ein
formales Argument zu geben, wählen wir ein n0 ∈ N mit n0 ≥ 2|q|. Für jedes n ∈ N
mit n ≥ n0 gilt dann
n
n−n0 +1
n−n0 +1
n0 −1
q |q|
|q|
|q|n0 −1
|q|
|q|n0 −1
1
= |q|
≤
·
n! (n0 − 1)! · n0 · . . . · n ≤ (n0 − 1)! · n0
(n0 − 1)!
2
n
n0 −1
(2|q|)
1
=
·
.
(n0 − 1)!
2
Wir wissen bereits
(2|q|)n0 −1
lim
·
n→∞ (n0 − 1)!
n
n
1
(2|q|)n0 −1
1
=
· lim
= 0,
n→∞
2
(n0 − 1)!
2
und mit dem Einschnürungslemma folgt auch
qn
= 0.
n→∞ n!
lim
113
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Nachdem wir jetzt einige Beispiele behandelt haben, wollen wir nun ein eher theoretisches Thema angehen. In einem allgemeinen metrischen Raum hatten wir Cauchyfolgen
als Folgen definiert, deren Glieder sich für ausreichend große Indizes so nahe kommen
wie wir es wollen. In Satz 8 hatten wir gezeigt das jede konvergente Folge auch eine
Cauchyfolge ist. Die Umkehrung dieser Aussage ist für allgemeine metrische Räume
falsch, man kann Cauchyfolgen konstruieren die nicht konvergent sind. Es gibt allerdings auch gute metrische Räume“ in denen tatsächlich jede Cauchyfolge konvergiert,
”
und ein solcher Raum sind die reellen Zahlen X = R bezüglich der euklidischen Metrik.
Wir beginnen mit einem Spezialfall, nämlich den monotonen Folgen.
Lemma 6.16 (Konvergenz monotoner Folgen)
Sei (an )n∈N eine reelle Folge. Dann gelten:
(a) Ist die Folge (an )n∈N monoton steigend und nach oben beschränkt, so ist sie auch
konvergent und es gilt
lim an = sup{an |n ∈ N}.
n→∞
(b) Ist die Folge (an )n∈N monoton fallend und nach unten beschränkt, so ist sie auch
konvergent und es gilt
lim an = inf{an |n ∈ N}.
n→∞
Beweis: Zunächst sollten wir uns daran erinnern, dass wir die reellen Zahlen in §4.Satz
15 als den, bis auf Isomorphie eindeutigen, vollständig angeordneten Körper definiert
hatten, d.h. nach oben beziehungsweise unten beschränkte, nicht leere Teilmengen von
R haben stets ein Supremum beziehungsweise Infimum.
(a) Die Menge {an |n ∈ N} ist nicht leer und nach oben beschränkt, also existiert
s := sup{an |n ∈ N}. Wir müssen zeigen, dass (an )n∈N gegen s konvergiert. Sei also
> 0 gegeben. Dann ist s − < s, und da s nach Definition die kleinste obere Schranke
der Menge {an |n ∈ N} ist, ist s − keine obere Schranke dieser Menge. Damit existiert
ein Index n0 ∈ N mit an0 > s − . Sei jetzt n ∈ N mit n ≥ n0 . Da die Folge (ak )k∈N
monoton steigend ist, folgt
s − < an0 ≤ an ≤ s, also auch |an − s| = s − an < s − (s − ) = .
Damit konvergiert die Folge (an )n∈N gegen s.
(b) Dies ist analog zu (a), und soll hier nicht vorgeführt werden.
Monotone Folgen sind zwar zum einen recht speziell zum anderen kommen sie aber
doch in jeder beliebigen Folge als Teilfolgen vor. Wir behaupten das jede beliebige
reelle Zahlenfolge (an )n∈N immer eine monoton steigenden Teilfolge (ank )k∈N oder eine monoton fallende Teilfolge (ank )k∈N enthält. Dies läßt sich am besten durch eine
Fallunterscheidung zeigen.
114
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Fall 1. Zunächst nehmen wir an, dass die Aussage
∃(n ∈ N)∀(m ≥ n)∃(k > m) : ak ≥ am
gilt. Dann wählen wir ein n0 ∈ N so, dass es für jedes n ∈ N mit n ≥ n0 stets ein m ∈ N
mit m > n und am ≥ an gibt. Die Indexfolge (nk )k∈N wird jetzt rekursiv konstruiert.
Ist k ∈ N und haben wir nk ∈ N mit nk ≥ n0 schon gewählt, so gibt es nach Wahl von
n0 auch ein nk+1 ∈ N mit nk+1 > nk ≥ n0 und ank+1 ≥ ank . Damit wird dann rekursiv
eine monoton steigende Teilfolge (ank )k∈N von (an )n∈N definiert.
Fall 2. Im zweiten Fall soll die obige Aussage nicht gelten, d.h. wir haben
∀(n ∈ N)∃(m ≥ n)∀(k > m) : ak < am .
Auch hier führen wir wieder eine rekursive Konstruktion durch, und beginnen mit
n0 := 0. Ist nun k ∈ N und haben wir nk ∈ N schon gewählt, so gibt es nach unserer
Annahme in diesem Fall ein nk+1 ∈ N mit nk+1 ≥ nk + 1 > nk so, dass für jedes k ∈ N
mit k > nk+1 stets ak < ank+1 gilt. Damit ist (ank )k≥1 eine Teilfolge von (an )n∈N und
wir behaupten das diese Folge monoton fallend ist. Sei nämlich k ≥ 1 gegeben. Wegen
nk+1 > nk ist dann nach unserer Konstruktion auch ank+1 < ank , die Folge (ank )k≥1 ist
also sogar streng monoton fallend.
Damit ist diese Behauptung bewiesen. Als nächsten Schritt können wir jetzt den
Satz von Bolzano-Weierstraß beweisen und zeigen das jede beschränkte Folge einen
Häufungspunkt besitzt. Da ein Häufungspunkt einer Folge nach Definition der Grenzwert einer konvergenten Teilfolge ist, kann man gleichwertig auch sagen, dass jede
beschränkte Folge eine konvergente Teilfolge besitzt.
Satz 6.17 (Der Satz von Bolzano und Weierstraß)
Jede beschränkte, reelle Folge hat einen Häufungspunkt.
Beweis: Sei also (an )n∈N eine beschränkte Folge in R. Nach Aufgabe (46) besitzt
(an )n∈N eine monoton steigende oder monoton fallende Teilfolge (ank )k∈N . Da (an )n∈N
beschränkt ist, ist auch die Teilfolge (ank )k∈N beschränkt, und nach dem eben bewiesenen Lemma 16 ist (ank )k∈N eine konvergente Teilfolge von (an )n∈N . Der Grenzwert
dieser Teilfolge ist damit ein Häufungspunkt von (an )n∈N .
Damit sind wir jetzt in der Lage die Konvergenz reeller Cauchyfolgen zu beweisen.
Satz 6.18 (Metrische Vollständigkeit der reellen Zahlen)
Jede reelle Cauchyfolge ist auch konvergent.
Beweis: Sei (an )n∈N eine Cauchyfolge in R. Wir zeigen zunächst, dass die Folge (an )n∈N
beschränkt ist. Es gibt einen Index n0 ∈ N mit |an − am | < 1 für alle n, m ∈ N mit
n, m ≥ n0 . Insbesondere folgt damit für jedes n ∈ N mit n ≥ n0 auch
|an | = |an − an0 + an0 | ≤ |an0 − an | + |an0 | < 1 + |an0 |.
115
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Setzen wir also
M := max{|an0 | + 1, |a0 |, . . . , |an0 −1 |},
so ist |an | ≤ M für überhaupt alle n ∈ N. Damit ist die Folge (an )n∈N beschränkt.
Nach Satz 17 gibt es eine konvergente Teilfolge (ank )k∈N von (an )n∈N , und wir schreiben
a := lim ank .
k→∞
Wir wollen beweisen, dass auch die gesamte Folge (an )n∈N gegen a konvergiert. Sei also
wieder einmal ein > 0 gegeben. Da die Folge (ank )k∈N gegen a konvergiert, existiert
ein k0 ∈ N mit |ank − a| < /2 für alle k ∈ N mit k ≥ k0 . Da (an )n∈N eine Cauchyfolge
ist, gibt es weiter ein n0 ∈ N mit |an − am | < /2 für alle n, m ∈ N mit n, m ≥ n0 . Da
die Indizes n1 < n2 < n3 < . . . der Teilfolge streng monoton steigend sind, gibt es auch
k ∈ N mit k ≥ k0 und nk ≥ n0 . Sei n ∈ N mit n ≥ n0 gegeben. Da auch nk ≥ n0 ist,
haben wir dann
|an − a| = |an − ank + ank − a| ≤ |an − ank | + |ank − a| <
+ = .
2 2
Damit konvergiert (an )n∈N gegen a.
6.5
Folgen mit rationalen Elementen
Wir behandeln im Folgenden einige weitere Beispielklassen. Wir beginnen dabei mit
Folgen deren n-tes Glied eine rationale Funktion in n ist. Dies verallgemeinert einige
unserer früheren Beispiele. Gegeben seien zwei Polynome
p(x) =
r
X
k
ak x und q(x) =
s
X
bk x k
k=0
k=0
in R[x] von Grad r beziehungsweise s, also ar 6= 0 und bs 6= 0. Wir betrachten den
Grenzwert
p(n)
lim
.
n→∞ q(n)
Wie wir schon an unseren Beispielen gesehen haben, hängt dieser vom Grad der beiden
Polynome p und q ab. Wir wollen die folgenden Aussagen beweisen.
p(n)
ar
= .
n→∞ q(n)
br
1. Ist r = s, so ist lim
p(n)
= 0.
n→∞ q(n)
2. Ist s > r, so ist lim
116
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
3. Ist r > s, so ist die Folge (p(n)/q(n))n∈N bestimmt divergent, und zwar
(
+∞, ar und bs haben dasselbe Vorzeichen,
p(n)
=
lim
n→∞ q(n)
−∞, ar und bs haben verschiedene Vorzeichen.
Wir gehen die drei Fälle der Reihe nach durch.
Fall 1. Sei also r = s, d.h. Zähler- und Nennergrad stimmen überein. Dann können
wir genau wie in den schon behandelten konkreten Beispielen mit 1/nr erweitern und
Lemma 14 ergibt
ar +
p(n)
lim
= lim
n→∞ q(n)
n→∞ b +
r
ar−1
n
br−1
n
+ ··· +
+ ··· +
a0
nr
b0
nr
=
ar
.
br
Damit ist dieser Fall bereits fertig.
Fall 2. Nun sei s > r, der Nennergrad ist also größer als der Zählergrad. Auch hierfür
haben wir bereits ein konkretes Beispiel gerechnet, und genau wie in diesem Beispiel
erweitern wir wieder mit 1/ns und wenden erneut Lemma 14 an
p(n)
lim
= lim
n→∞ q(n)
n→∞
ar
ns−r
+
bs +
ar−1
+ · · · + na0s
ns−r+1
bs−1
+ · · · + nb0s
n
= 0.
Fall 3. Schließlich sei r > s, also größerer Zähler- als Nennergrad. Hierfür haben wir
noch kein Beispiel gesehen. Zunächst nehmen wir ar , bs > 0 an. Wenden wir den bereits
bewiesenen Fall 1 an, so ergibt sich
p(n)
= ar ,
n→∞ nr
lim
also existiert ein n1 ∈ N mit
p(n)
ar
nr − ar < 2
für alle n ≥ n1 , und dies bedeutet
1
p(n)
3
1
3
ar < r < ar , also auch ar nr < p(n) < ar nr
2
n
2
2
2
für alle n ≥ n1 . Ebenso existiert ein n2 ∈ N mit (1/2)bs ns < q(n) < (3/2)bs ns für
n ≥ n2 . Für n ≥ max{n1 , n2 } ist somit
p(n)
>
q(n)
1
2
3
2
ar nr
ar r−s
ar
=
n
≥
· n,
s
3bs
3bs
bs n
und hieraus folgt die bestimmte Divergenz von (p(n)/q(n))n∈N gegen +∞.
Die beiden anderen Vorzeichenfälle lassen sich auf den schon behandelten Fall
zurückführen. Ist ar < 0 und bs < 0, so erweitern wir mit −1 und erhalten wieder
117
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
bestimmte Divergenz gegen +∞. Haben ar und bs schließlich verschiedene Vorzeichen,
so ergeben die schon behandelten beiden Fälle
−p(n)
= +∞,
n→∞ q(n)
lim
und dies impliziert offenbar die bestimmte Divergenz
−p(n)
p(n)
= lim −
= −∞.
lim
n→∞
n→∞ q(n)
q(n)
Wir haben jetzt das Konvergenzverhalten von Folgen der Form am = p(n)/q(n) mit
reellen Polynomen p, q ∈ R[x] vollständig behandelt. Eine kleine Folgerung aus diesen
Überlegungen wollen wir noch erwähnen. Angenommen wir haben zwei ganzzahlige
Polynome p, q ∈ Z[x] mit p, q 6= 0 für die (p(n)/q(n))n∈N konvergiert. Dann ist der
Grenzwert dieser Folge entweder Null oder der Quotient der höchsten Koeffizienten
von p und q, also ist auf jeden Fall eine rationale Zahl
p(n)
∈ Q.
n→∞ q(n)
lim
Es gibt aber natürlich auch rationale Folgen, die zwar in R konvergieren, deren Grenzwert aber nicht mehr rational ist. Wir können beispielsweise irgendeine irrationale Zahl
α nehmen, und als n-tes Folgenglied die nach den ersten n Nachkommastellen abgebrochene Dezimalentwicklung von α verwenden. Dies liefert eine gegen die irrationale
Zahl α konvergierende Folge rationaler Zahlen.
6.6
Folgen in C
Für komplexe Folgen treten keine neuen Effekte auf, hier läßt sich durch Betrachtung
von Real- und Imaginärteil alles auf den reellen Fall zurückführen. Hierzu erinnern
wir uns an Aufgabe (37), dort wurde unter anderem gezeigt das für alle z, w ∈ C die
Ungleichungen
max{| Re(z) − Re(w)|, | Im(z) − Im(z)|} ≤ |z − w|
√
≤ 2 · max{| Re(z) − Re(w)|, | Im(z) − Im(z)|}
gelten. Ist damit (zn )n∈N eine Folge in C und z ∈ C, so haben wir die Äquivalenz
lim zn = z ⇐⇒ lim Re(zn ) = Re(z) ∧ lim Im(zn ) = Im(z).
n→∞
n→∞
n→∞
Dies wollen wir kurz einmal näher begründen. Konvergiere zunächst (zn )n∈N gegen z.
Ist dann > 0, so gibt es n0 ∈ N mit |zn − z| < für n ≥ n0 . Für jedes n ∈ N mit
n ≥ n0 sind dann aber auch
| Re(zn ) − Re(z)| ≤ |zn − z| < und | Im(zn ) − Im(z)| ≤ |zn − z| < ,
118
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
also konvergieren (Re(zn ))n∈N gegen Re(z) und (Im(zn ))n∈N gegen Im(z). Dies beweist
die Implikation von links nach rechts.
Wir kommen nun zur anderen Implikation, seien also limn→∞ Re(zn ) = Re(z) und
limn→∞ Im(zn ) = Im(z) vorausgesetzt. Sei > 0. Dann existieren Indizes n1 , n2 ∈ N
mit
√
√
2
2
| Re(zn ) − Re(z)| <
· für n ≥ n1 und | Im(zn ) − Im(z)| <
· für n ≥ n2 .
2
2
Ist dann n0 := max{n1 , n2 }, so gilt für jedes n ∈ N mit n ≥ n0 auch
|zn − z| ≤
√
2 · max{| Re(zn ) − Re(z)|, | Im(zn ) − Im(z)|} <
√
√
2·
2
· = .
2
Also konvergiert auch die komplexe Folge (zn )n∈N gegen z.
Durch Zerlegung in Real- und Imaginärteil lassen sich jetzt auch die Grenzwertsätze
Lemma 14 leicht auf den Fall komplexer Folgen übertragen. Dies wollen wir an dieser Stelle nicht explizit vorführen, werden es aber gelegentlich verwenden. Ebenfalls
überträgt sich Lemma 15
lim zn = z =⇒ lim |zn | = |z|,
n→∞
n→∞
man kann den Beweis wörtlich übertragen.
6.7
Rekursiv definierte Folgen
Wir wollen jetzt auch noch an einem Beispiel die Berechnung von Grenzwerten bei
rekursiv definierten Folgen behandeln. Wir gegen uns eine reelle Zahl c > 0 vor und
wählen irgendeinen Startwert a0 ∈ R mit a0 > 0. Mit diesem Startwert wird jetzt durch
die Formel
1
c
an+1 =
an +
2
an
rekursiv eine Folge (an )n∈N definiert. Wegen a0 > 0 ergibt die Rekursionsformel auch
an > 0 für alle n ∈ N. Für jedes n ∈ N rechnen wir
a2n+1
1
−c=
4
a2n + c
an
2
−c=
a4n + 2ca2n + c2
a4n − 2ca2n + c2
(an − c)2
−
c
=
=
≥ 0,
4a2n
4a2n
4a2n
d.h. für jedes n ∈ N mit n ≥ 1 gilt
a2n ≥ c.
Weiter ist die Folge (an )n≥1 monoton fallend. Für n ≥ 1 haben wir nämlich
an − an+1
a2n + c
2a2n − a2n − c
a2n − c
=
=
≥0
= an −
2an
2an
2an
119
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
da wir schon a2n ≥ c wissen, also ist auch an ≥ an+1 . Damit ist (an )n∈N eine durch 0
nach unten beschränkte, monoton fallende Folge, also nach Lemma 16 auch konvergent. Bezeichne a den Grenzwert dieser Folge. Um a auszurechnen, wollen wir in der
Rekursionsgleichung den Grenzübergang für n gegen ∞ ausführen. Um a = 0 nicht
als Sonderfall behandeln zu müssen, multiplizieren wir die Rekursionsgleichung erst
einmal mit an , und erhalten
a2 + c
an an+1 = n
.
2
Mit Lemma 14 ergibt sich
a2 =
lim an ·
n→∞
a2 + c
a2 + c
=
,
lim an+1 = lim n
n→∞
n→∞
2
2
also a2 = c. Wegen an > 0 für alle n ≥ 1 ergibt Lemma 11 auch
a = lim an ≥ 0,
n→∞
und insgesamt haben wir damit a =
√
c. Damit haben wir
lim an =
√
n→∞
c
bewiesen. Wenn wir diese Folge ähnlich zu Aufgabe (46) zur numerischen Berechnung von Wurzeln verwenden wollen, so brauchen wir als Abbruchkriterium noch eine
Abschätzung des Fehlers nach n Iterationsschritten. Hierzu rechnen wir für n ≥ 1
an |an −
√
c| = an (an −
√
c) < (an +
also
|an −
√
c| <
√
c) · (an −
√
c) = a2n − c,
a2n − c
.
an
Als ein konkretes Beispiel nehmen wir einmal c = 2 und a1 = 3/2 = 1.5. Dann
sind a1 < c und a21 = 9/4 > c, also sind alle unsere Annahmen erfüllt. Die ersten
Folgenglieder sind
a1
a2
a3
a4
=
=
=
=
1.5,
1.416 . . . ,
1.414215 . . . ,
1.414213561374 . . . ,
wobei die korrekten Ziffern jeweils unterstrichen sind. Grob gesprochen verdoppelt sich
die Anzahl der gültigen in jeder Iteration, dieses Verhalten nennt man auch quadra”
tische Konvergenz“. Die Berechnung der Grenzwerte rekursiv definierter Folgen läuft
meistens wie in diesem Beispiel in zwei Schritten ab:
120
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
1. Weise nach das die Folge überhaupt konvergiert. Oftmals wird dies wie im Beispiel
durch Monotonieüberlegungen bewiesen, d.h. man versucht zu zeigen das die
Folge monoton steigend oder monoton fallend ist. Ist dies der Fall und kann
man zusätzlich Beschränktheit nachweisen, so ergibt sich die Konvergenz mit
Lemma 16. Funktioniert dieser Ansatz nicht, so kann man versuchen zu zeigen,
dass es sich um eine Cauchyfolge handelt um Satz 18 anzuwenden. Typischerweise
berechnet man hierzu die Differenzen an+1 −an und versucht einzusehen das diese
ausreichend schnell gegen Null konvergieren. Dass (an+1 − an )n∈N eine Nullfolge
ist, impliziert leider nicht das (an )n∈N eine Cauchyfolge ist, ist die Konvergenz
aber schnell genug“ so kann mas es oftmals doch zeigen.
”
2. Weiss man das ein Grenzwert existiert, so kann man in der Rekursionsgleichung
mit Hilfe der Grenzwertsätze den Grenzübergang für n gegen ∞ durchführen, und
erhält eine Gleichung für den Grenzwert. Gelegentlich ist es dabei wie im Beispiel sinnvoll, die Gleichung vorher etwas umzustellen, um keine Sonderfälle wie
Nullen im Nenner behandeln zu müssen. Durch Lösen der Gleichung erhält man
dann die möglichen Grenzwerte. Gibt es nur eine Lösung so ist man gleich fertig,
andernfalls muss man noch durch geeignete Abschätzungen überlegen welche der
Lösungen der Grenzwert ist.
Der erste Schritt muss dabei wirklich durchgeführt werden, obwohl er zur eigentlichen
Rechnung nichts beizutragen scheint. Der zweite Schritt, also die eigentliche Berechnung des Grenzwerts, kann nämlich auch funktionieren wenn die Folge divergiert, wenn
es also überhaupt keinen Grenzwert gibt. Als ein Beispiel für dieses Phänomen, betrachten wir einmal die durch
b0 := 0 und bn+1 := bn (1 + bn ) − 3 für n ∈ N
definierte Folge (bn )n∈N . Führen wir in der Rekursionsgleichung den Grenzübergang für
einen hypothetischen Grenzwert b durch, so ergibt sich
b = b(1 + b) − 3 =⇒ b2 = 3.
Für x ≥ 2 ist x(1 + x) − 3 ≥ 3, erreicht die Folge also einen Wert bn ≥ 2, so ist auch
bk ≥ 2 für alle k ≥ n. Nun sind b1 = −3 und b2 = 3, also√gilt bn ≥ 2 für alle n ≥ 2.
Insbesondere müsste der Grenzwert b ≥ 0 sein, also b = 3. Damit haben wir den
”
Grenzwert“ ausgerechnet, aber in Wahrheit existiert er gar nicht.
√ Es müsste wegen
bn ≥ 2 für alle n ≥ 2 ja auch b ≥ 2 sein, im Widerspruch zu b = 3. Die Berechnung“
”
des Grenzwerts alleine reicht also nicht aus, man muss auch seine Existenz beweisen.
6.8
Landau-Symbole
Wir wollen bei dieser Gelegenheit noch kurz an eine schon aus dem letzten Semester
bekannte Schreibweise erinnern.
121
Mathematik für Informatiker B, SS 2012
Donnerstag 7.6.2012
Definition 6.19: Sei (an )n∈N eine reelle Folge und sei f : N → R>0 eine reelle Funktion.
Dann schreibt man an = O(f (n)), gesprochen als groß O von n“ oder an ist von der
”
”
Ordnung f (n)“, wenn die Folge (an /f (n))n∈N beschränkt ist. Ist die Folge (an /f (n))n∈N
sogar eine Nullfolge, so schreibt man auch an = o(f (n)).
Wir konzentrieren uns hier auf das wesentlich häufiger vorkommende O(f (n)). Dass
die Folge (an /f (n))n∈N beschränkt ist, bedeutet das es eine Konstante C ≥ 0 mit
an f (n) ≤ C, also |an | ≤ C · f (n)
für alle n ∈ N gibt. Man muss das n-te Folgenglied also bis auf eine Konstante im
Betrag gegen f (n) abschätzen können. Manchmal ist es bequemer diese Abschätzung
erst ab einem Startindex n0 zu zeigen, und auch dies ist zu an = O(f (n)) äquivalent,
d.h.
an = O(f (n)) ⇐⇒ ∃(C ≥ 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an | ≤ C · f (n).
Dass dies ausreicht ist klar, man muss ja nur
|a1 | |a2 |
|an0 −1 |
∗
C := max C,
,
,...,
1
2
n0 − 1
setzen und hat |an | ≤ C ∗ f (n) für alle n ∈ N. Beispielsweise ist
an :=
n3 + n + 2
= O(n),
3n2 + 7
denn wegen
n3 + n + 2
n3 + n + 2
1
1
=
lim
=
<
n→∞ n · (3n2 + 7
n→∞ 3n3 + 7n
3
2
existiert ein n0 ∈ N mit
3
n + n + 2 1
3n2 + 7 ≤ 2 · n
für alle n ≥ n0 . Wie schon bemerkt impliziert dies an = O(n). Beachte noch das die
Funktion f (n) keinesfalls eindeutig festgelegt ist, beispielsweise ist
lim
n + 1 = O(n) und n + 1 = O(n2 ).
Normalerweise wähle man natürlich ein möglichst gutes“ f (n), ist hierzu aber nicht
”
gezwungen. Es gibt einige besonders häufige Wahlen für f (n):
O(f (n))
O(1)
O(n)
O(n2 )
O(nk )
O(ln n)
O(n ln n)
O(en )
Verhalten
beschränkte Folge
lineares Wachstum
quadratisches Wachstum
polyomiales Wachstum von Ordnung k
logarithmisch (viel langsamer als linear)
zwischen linear und quadratisch
exponentiell
122
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
n
Es gibt natürlich auch noch schnelleres Wachstum als exponentiell, zum Beispiel ee .
Der Logarithmus ln n in der Tabelle meint den natürlichen Logarithmus, aber dies
spielt keine Rolle. Die anderen Logarithmen unterscheiden sich nur um Konstanten
vom natürlichen Logarithmus, also ist zum Beispiel O(log2 n) = O(ln n).
$Id: reihen.tex,v 1.10 2012/06/19 11:26:28 hk Exp $
§7
Reihen
Vorlesung 16, Dienstag 12.6.2012
Eine Reihe ist eine unendliche Summe“
”
a1 + a2 + a3 + · · · .
Die Summanden ai können dabei reell oder komplex sein. Historisch sind Reihen sehr
viel älter als Folgen, und im Gegensatz zu den Folgen sind sie auch von eigenständigen Interesse. Wir hatten gesagt das Folgen und ihr Konvergenzbegriff ein Hilfsbegriff
sind, auf den alle anderen Grenzwertbegriffe zurückgeführt werden. Dementsprechend
werden wir unendliche Summen in Termen von Folgengrenzwerten definieren. Angenommen die Zahlen a0 , a1 , a2 , . . . sind gegeben. Dann betrachten wir die sogenannten
Partialsummen
s1 := a1 , s2 := a1 + a2 , s3 := a1 + a2 + a3 , und allgemein sn :=
n
X
ak ,
k=1
also die endlichen Summen die jeweils durch Summation der ersten n Summanden
unserer unendlichen Summe gebildet werden. Damit können wir definieren:
Definition 7.1: Sei (an )n∈N eine reelle oder komplexe Folge. Dann heißt die Folge der
∞
P
an bezeichnet. Wir
Partialsummen (sn )n∈N die zugeordnete Reihe. Diese wird mit
sagen das die Reihe
∞
P
n=1
an konvergiert wenn die Folge der Partialsummen konvergiert.
n=1
In diesem Fall schreiben wir
∞
X
n=1
an := lim sn .
n→∞
Eine nicht konvergente Reihe nennen wir auch divergent.
123
Mathematik für Informatiker B, SS 2012
Dass das Symbol
∞
P
Dienstag 12.6.2012
an sowohl die Folge der Partialsummen als auch den eventuellen
n=1
Grenzwert bezeichnet, ist normalerweise unproblematisch. Die jeweilige Bedeutung ist
immer aus dem Kontext heraus klar. Anstelle bei n = 1 kann die Reihe auch mit einem
anderen Startwert beginnen.
Wir wollen kurz ein Beispiel rechnen, bei dem man die Folge der Partialsummen
explizit ausrechnen kann, nämlich die Reihe
∞
X
n=1
1
1
1
1
1 1
1
=
+
+
+ ··· = + +
+ ···
n · (n + 1)
1·2 2·3 3·4
2 6 12
Für jedes k ∈ N haben wir die Gleichung
1
1
1
= −
,
k(k + 1)
k k+1
und als n-te Partialsumme ergibt sich
n n
X
X
1
1
1
1
1
1
1 1 1 1 1
=
−
= 1− + − + − +· · ·+ −
= 1−
.
k(k
+
1)
k
k
+
1
2
2
3
3
4
n
n
+
1
n
+
1
k=1
k=1
Da die Berechnung darauf beruht, dass sich die mittleren Terme alle wegheben spricht
man auch von einer Ziehharmonika-Summe“. Damit ist unsere Reihe konvergent mit
”
dem Grenzwert
∞
X
1
1
1
= lim 1 −
= 1 − lim
= 1.
n→∞ n + 1
n(n + 1) n→∞
n+1
n=1
Wir wollen jetzt einige Grundtatsachen über konvergente Reihen herleiten. All diese
Aussagen werden auf bereits bekannte Tatsachen über Folgen zurückgeführt. Die Folgen
erfüllen hier voll und ganz ihren Zweck als Hilfsbegriff zur Behandlung uns wirklich
interessierender Grenzwertbegriffe.
∞
P
Lemma 7.2: Sei
an eine konvergente Reihe.
n=1
(a) Die Folge (an )n∈N ist eine Nullfolge.
(b) Die Folge (sn )n∈N der Partialsummen ist beschränkt.
Beweis: (a) Mit den Rechenregeln §6.Lemma 14 für Folgengrenzwerte, die wie bereits
in §6.6 bemerkt auch für komplexe Folgen gelten, haben wir
lim an = lim (sn − sn−1 ) = lim sn − lim sn−1 = 0
n→∞
n→∞
n→∞
da der Grenzwert
lim sn−1 = lim sn =
n→∞
n→∞
124
n→∞
∞
X
n=1
an
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
existiert.
(b) Dies ist klar nach §6.Lemma 10 da die Folge (sn )n∈N beschränkt ist. Beachte das
dieses Lemma durch Betrachtung von Real- und Imaginärteil gemäß §6.6 auch für
komplexe Folgen gilt.
Leider gelten die Umkehrungen dieser beiden Aussagen nicht. Wenn (an )n∈N eine Null∞
P
folge ist, so muss die Reihe
an im Allgemeinen nicht konvergieren, hierfür werden
n=1
wir gleich ein Beispiel sehen. Auch die Beschränktheit der Partialsummen reicht nicht
aus um auf dieP
Konvergenz schließen zu können. Beispielsweise sind die Partialsumn
men der Reihe ∞
n=0 (−1) abwechselnd 1 und 0, also sicherlich beschränkt aber nicht
konvergent.
∞
P
an eine reelle Reihe in der die Summanden an alle dasselbe VorLemma 7.3: Sei
n=1
zeichen haben, also an ≥ 0 für alle n ∈ N oder an ≤ 0 für alle n ∈ N. Dann ist die
Reihe genau dann konvergent wenn die Folge ihrer Partialsummen beschränkt ist.
Beweis: ”=⇒” Dies gilt nach Lemma 2.(b).
”⇐=” Die Folge (sn )n∈N der Partialsummen ist im Fall positiver Vorzeichen monoton
steigend und im Fall negativer Vorzeichen monoton fallend. Da sie zugleich nach unserer
Voraussetzung beschränkt ist, ist (sn )n∈N nach §6.Lemma 16 auch konvergent. Damit
∞
P
ist die Reihe
an konvergent.
n=1
Aufgrund dieses Lemmas schreibt man für Reihen
∞
P
an mit an ≥ 0 für alle n ∈ N
n=1
auch
∞
X
an < ∞ für
n=1
∞
X
an ist konvergent.
n=1
Gelegentlich wird diese Schreibweise auch bei allgemeineren Folgen verwendet. Als ein
Beispiel wollen wir das Lemma einmal dazu verwenden die Konvergenz der Reihe
∞
X
n=1
1 1
1
1
= + +
+ ···
2
(n + 1)
4 9 16
zu beweisen. Alle Summanden sind hier positiv, nach dem Lemma müssen wir also nur
einsehen das die Partialsummen beschränkt bleiben. Wir können diese Partialsummen
zwar nicht explizit ausrechnen, werden aber trotzdem zeigen das sie beschränkt bleiben.
Für jedes n ∈ N rechnen wir hierzu
n
X
k=1
n
n
∞
X
X
X
1
1
1
1
=
≤
≤
= 1,
2
(k + 1)
(k
+
1)
·
(k
+
1)
k(k
+
1)
k(k
+
1)
k=1
k=1
k=1
125
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
die Partialsummen sind also durch Eins beschränkt, und folglich ist
∞. Wegen
∞
∞
X
X
1
1
=1+
<∞
2
n
(n + 1)2
n=1
n=1
P∞
n=1
1/(n + 1)2 <
folgt hieraus auch die Konvergenz der Reihe
∞
X
π2
1
=
.
2
n
6
n=1
Das Ergebnis ist dabei nur zur Information angegeben, für einen Beweis dieser von
Euler hergeleiteten Formel fehlen uns leider die benötigten Hilfsmittel. Bevor wir zu
weiteren Beispielen kommen, übertragen wir noch einige weitere Aussagen von Folgen
∞
∞
P
P
auf Reihen. Angenommen wir haben zwei konvergente Reihen
an und
bn sowie
n=1
n=1
zwei Konstanten α, β ∈ R beziehungsweise α, β ∈ C. Sind (s0n )n∈N und (s00n )n∈N die
jeweiligen Partialsummen, also
s0n =
n
X
ak und s00n =
k=1
n
X
bk
k=1
für alle n ∈ N, so ergeben sich die Partialsummender Reihe
∞
P
(αan + βbn ) als
n=1
sn =
n
X
(αak + βbk ) = α ·
n
X
ak + β ·
n
X
k=1
k=1
k=1
bk = αs0n + βs00n
für alle n ∈ N. Mit §6.Lemma 14 folgt
lim sn = α · lim s0n + β · lim s00n = α ·
n→∞
n→∞
n→∞
∞
X
an + β ·
n=1
∞
X
bn .
n=1
Damit haben wir das folgende Lemma bewiesen:
Lemma 7.4 (Linearkombinationen konvergenter Reihen)
∞
P
P∞
Seien
an und
n=1 bn zwei konvergente, reelle oder komplexe, Reihen. Für alle
n=1
reellen beziehungsweise komplexen Zahlen α, β ist dann auch
∞
P
(αan +βbn ) konvergent
n=1
mit
∞
X
n=1
(αan + βbn ) = α ·
∞
X
n=1
an + β ·
∞
X
bn .
n=1
Beachte das wir zum Beweis eigentlich nichts tun mussten, durch Betrachtung der Partialsummen konnten wir alles auf die entsprechende Aussage über Folgen zurückspielen.
126
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
Dies illustriert unsere Bemerkung zum Beginn von §6 das die Folgen ein Hilfskonstrukt
sind, das zum Nachweis der Eigenschaften der uns wirklich interessierenden Grenzwerte herangezogen wird. Ganz ähnlich zum eben gegebenen Beweis läßt sich §6.6 zum
Beweis der folgenden Aussage heranziehen:
Lemma 7.5 (Komplexe Reihen)
∞
P
Eine komplexe Reihe
zn ist genau dann konvergent, wenn die beiden reellen Reihen
∞
P
Re(zn ) und
n=1
n=1
∞
P
Im(zn ) konvergent sind, und in diesem Fall gilt
n=1
∞
X
zn =
n=1
∞
X
Re(zn ) + i ·
n=1
∞
X
Im(zn ).
n=1
Beweis: Wie schon bemerkt folgt dies aus §6.6.
In den nun folgenden Abschnitten werden wir einige spezielle Klassen von Reihen
behandeln.
7.1
Harmonische Reihe
Als die harmonische Reihe bezeichnet man die Reihe
∞
X
1 1
1
= 1 + + + ···
n
2 3
n=1
Nach Lemma 3 konvergiert die harmonische Reihe genau dann wenn die Folge
sn :=
n
X
1
k=1
k
ihrer Partialsummen beschränkt ist. Probiert man dies mit dem Taschenrechner aus,
berechnet also sn für vergleichsweise grosse n, so sieht es tatsächlich so aus als wären
die Partialsummen beschränkt, in der Gegend von 11 hören sie auf zu wachsen. Dies
stellt sich dann allerdings als ein der Rechenungenauigkeit geschuldeter Irrtum heraus.
Dies kann man wie folgt sehen
sn = 1 +
1
1 1
1 1 1 1
1
+ + + + + + +··· + .
2
n
|3 {z 4} |5 6 {z 7 8}
≥ 41 + 14 = 12
≥ 18 + 18 + 18 + 81 = 21
Man fasst also die beiden mit 1/3 beginnenden Summanden zusammen, und erhält
mindestens 1/2, dann fasst man die vier mit 1/5 beginnenden Summanden zusammen
und erhält wieder mindestens 1/2, und so weiter. Allgemein ist dann
s2n ≥ 1 +
127
1
·n
2
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
für alle n, und somit ist die Folge der Partialsummen unbeschränkt. Wir erhalten:
Lemma 7.6: Die harmonische Reihe divergiert bestimmt gegen +∞.
Die Partialsummen sind in der Größenordnung logarithmisch, wachsen also tatsächlich
sehr langsam. Die harmonische Reihe gibt uns insbesondere ein Beispiel einer diver∞
P
genten Reihe
an bei der (an )n∈N eine Nullfolge ist.
n=1
Eine gewisse Verallgemeinerung der harmonischen Reihe sind die Reihen
∞
X
1
nα
n=1
wobei α ∈ R ein fester Parameter ist. Ob diese Reihe konvergiert oder nicht hängt vom
Wert von α ab, es gilt
∞
X
1
< ∞ ⇐⇒ α > 1.
nα
n=1
Diese Tatsache wollen wir an dieser Stelle nur zur Kenntnis nehmen und auf einen
Beweis verzichten.
7.2
Geometrische Reihe
Nachdem wir im letzten Abschnitt das Urbeispiel einer divergenten Reihe vorgeführt
haben, bei der die Summanden trotzdem eine Nullfolge bilden, kommen wir jetzt zum
wohl wichtigsten Beispiel einer konvergenten Reihe. Gegeben sei eine Zahl q ∈ R, und
wir betrachten dann die Reihe
∞
X
qn = 1 + q + q2 + q3 + · · ·
(Geometrische Reihe)
n=0
der Potenzen von q. Diese Reihe bezeichnet man als die geometrische Reihe. Dieses
Beispiel hat man vollständig im Griff, da sich die Partialsummn explizit ausrechnen
lassen. Die n-te Partialsumme der geometrischen Reihe ist
sn :=
n
X
qk = 1 + q + q2 + · · · + qn,
k=0
eine sogenannte geometrische Summe. Zu ihrer Berechnung bilden wir q · sn
sn = 1 + q + q 2 + · · · + q n
qsn =
q + q 2 + · · · + q n + q n+1 ,
und ziehen wir hier die zweite von der ersten Zeile ab, so folgt
(1 − q)sn = sn − qsn = 1 − q n+1 =⇒ sn =
128
1 − q n+1
1−q
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
zumindest wenn q 6= 1 ist. Der Fall q = 1 ist ein Sonderfall, dort haben wir
sn =
n
X
k
1 =
k=0
n
X
1 = n + 1.
k=0
Hiermit erhalten wir
Lemma 7.7 (Geometrische Reihe)
∞
P
Sei q ∈ R. Dann ist die geometrische Reihe
q n genau dann konvergent wenn |q| < 1
n=0
gilt, und in diesem Fall ist
∞
X
qn =
n=0
1
.
1−q
Beweis: Für q = 1 ist die geometrische Reihe trivialerweise divergent, wir können also
q 6= 1 annehmen. Die oben hergeleitete Formel für die Partialsummen der geometrischen
P
n
Reihe und die Rechenregeln für Folgengrenzwerte §6.Lemma 14 zeigen, dass ∞
n=0 q
genau dann konvergiert wenn (q n )n∈N konvergiert, und nach Aufgabe (45) ist dies genau
dann der Fall wenn |q| < 1 ist.
Ist jetzt |q| < 1, so gilt nach Aufgabe (45) auch lim q n = 0 und mit §6.Lemma 14
n→∞
folgt
∞
X
1 − q n+1
1
n
q = lim
=
.
n→∞ 1 − q
1−q
n=0
Wir wollen drei kleine Beispiele für die Anwendung dieser Formel vorführen.
1. Zunächst betrachte die Reihe
∞
∞ n
X
X
1
1
1 1 1
=
= 1 + + + + ···
n
2
2
2 4 8
n=0
n=0
Dies ist eine geometrische Reihe mit q = 1/2, also konvergent mit Grenzwert
∞
X
1
1
=
n
2
1−
n=0
1
2
= 2.
2. Diesmal betrachten wir die Reihe
∞
X
(−1)n−1
n=1
2n
=
1 1 1
1
− + −
+ ···
2 4 8 16
129
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
Dies sieht zunächst nicht nach einer geometrischen Reihe aus, wir können sie aber
leicht zu einer solchen umformen
!
n
∞
∞
∞ X
X
X
(−1)n−1
(−1)n
1
=−
=−
−
−1 .
2n
2n
2
n=1
n=1
n=0
Innerhalb der Klammern steht hier eine geometrische Reihe mit q = −1/2, also
haben wir wieder Konvergenz und erhalten den Grenzwert
∞
X
(−1)n−1
n=1
2n
=−
1
1+
1
2
1
−1 = .
3
3. Als letztes Beispiel betrachten wir die Zahl 0, 9 = 0, 9999 . . .. Definitionsgemäß
ist diese Zahl gleich
n
∞ ∞
X
X
1
9
9
9
9
=9
+
+
+ ··· =
0, 9 =
10 100 1000
10n
10
n=1
n=1
!
∞
n
X
10
1
1
=9·
=9·
−1 =9·
− 1 = 1.
1 −1
10
9
1
−
10
n=0
7.3
Die eulersche Zahl e
In diesem Abschnitt wollen wir eine weitere spezielle Reihe behandeln, nämlich
∞
X
1
e=
.
n!
n=0
Wir werden zeigen, dass diese Reihe konvergiert. Ihr Grenzwert ist die eulersche Konstante, also e ≈ 2, 718281828 . . ..
∞
P
1
konvergiert.
Lemma 7.8: Die Reihe
n!
n=0
Beweis: Für jede natürliche Zahl k ∈ N∗ gilt
1
1
k! = 1 · 2 · . . . · k ≥ 2| · .{z
. . · 2} = 2k−1 , also auch
≤ k−1 .
k!
2
k − 1 mail
P
Die n-te Partialsumme der Reihe ∞
n=0 1/n! können wir jetzt zwar nicht ausrechnen,
wir können sie aber zumindest nach oben abschätzen
sn =
n
n
n
n−1
∞
X
X
X
X
X
1
1
1
1
1
1
=1+
≤1+
=
1
+
<
1
+
=1+
k−1
k
k
k!
k!
2
2
2
1−
k=0
k=1
k=1
k=0
k=0
130
1
2
= 3.
Mathematik für Informatiker B, SS 2012
Dienstag 12.6.2012
Damit sind die Partialsummen beschränkt und die Reihe konvergiert nach Lemma 3.
Der Beweis zeigt uns außerdem die recht ungenaue Abschätzung e ≤ 3. Bessere
Abschätzungen kann man ganz ähnlich erhalten. Beispielsweise gilt für k ≥ 2 auch
k! = 1 · 2 · 3 · . . . · k ≥ 2 · 3k−2 , also ergibt sich analog zur obigen Rechnung
sn ≤ 1 + 1 +
1
1
·
2 1−
1
3
=2+
3
= 2, 75.
4
Außerdem ist e ≥ s2 = 1+1+1/2 = 2, 5, also haben wir 2, 5 ≤ e ≤ 2, 75. So fortfahrend
kann man beliebig gute Abschätzungen für e beweisen.
7.4
7.4.1
Konvergenzkriterien für Reihen
Umsortierungen
P
Gegeben sei eine konvergente reelle Reihe ∞
n=1 an . Stellen wir uns diese Reihe als eine
unendliche Summe
∞
X
an = a1 + a2 + a3 + · · ·
n=1
vor, so kann man zunächst erwarten das das Kommutativgesetz der Addition sich auch
auf diese unendliche Summe überträgt, das man die Reihenfolge der Summanden also
beliebig ändern kann. Unter einer solchen Umsortierung“ versteht man dabei eine
”
Reihe der Form
∞
X
aπ(n) = aπ(1) + aπ(2) + aπ(3) + · · ·
n=1
wobei π(1), π(2), π(3), . . . die umsortierten Indizes sind. Jeder Index n ∈ N∗ soll dabei
als genau ein π(k) auftreten, d.h. es soll genau ein k ∈ N∗ mit π(k) = n geben. In
anderen Worten soll die Umsortierung π : N∗ → N∗ eine bijektive Abbildung sein.
Nehmen wir als ein Beispiel einmal an, dass nur endlich viele Summanden umgestellt
werden. Dann gibt es unter diesen endlich vielen einen größten, es gibt also ein n0 ∈ N∗
mit aπ(n) = an für alle n ≥ n0 . Ist dann n ≥ n0 , so ergibt sich für die umsortierte n-te
Partialsumme s0n und die gewöhnliche n-te Partialsumme sn
s0n
=
n
X
aπ(k) =
k=1
n
X
ak = s n ,
k=1
da wir in dieser endlichen Summe das Kommutativgesetz der Addition verwenden
können. Die Partialsummen stimmen also spätenstens ab dem Index n0 überein, und
damit konvergiert auch die umsortierte Reihe mit demselben Grenzwert
∞
X
aπ(n) =
n=1
∞
X
n=1
131
an .
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
Auf beliebige Umsortierungen trifft dies leider nicht mehr zu, und wir werden im
nächsten Abschnitt ein Beispiel für dieses Phänomen kennenlernen.
Vorlesung 17, Donnerstag 14.6.2012
7.4.2
Alternierende Reihen
Wir hatten gesehen das die harmonische Reihe
∞
P
n=1
1
n
divergiert, es gibt allerdings ei-
nige sehr ähnliche Reihen die konvergieren. Beispielsweise wird sich die alternierende
harmonische Reihe
∞
X
(−1)n−1
n=1
n
=1−
1 1 1 1
+ − + − · · · = ln(2)
2 3 4 5
als konvergent herausstellen. Der exakte Grenzwert ln(2) ist hier nur zur Information angegeben, wir werden in diesem Skript nur die Konvergenz beweisen. An diesem
Beispiel sieht man insbesondere das sich das Konvergenzverhalten von Reihen durch
Ändern von Vorzeichen beeinflussen läßt, d.h. Konvergenz von Reihen kann man nicht
an der Größenordnung der Summanden ablesen. Die Konvergenz der alternierenden
harmonischen Reihe läßt sich über das sogenannte Leibniz-Kriterium begründen, dies
ist eine hinreichende Bedingung für die Konvergenz reeller Reihen mit alternierenden
Vorzeichen.
Lemma 7.9 (Leibniz-Kriterium für alternierende Reihen)
Sei (an )n∈N eine monoton fallende Nullfolge mit an ≥ 0 für alle n ∈ N. Dann ist die
alternierende Reihe
∞
X
(−1)n−1 an
n=1
konvergent.
P
Beweis: Für n ∈ N sei sn := nk=1 (−1)k−1 ak die n-te Partialsumme unserer Reihe.
Weiter betrachten wir die Partialsummen zu geraden und ungeraden Indizes, also
un := s2n =
n
X
(a2k−1 − a2k ) und vn := s2n+1 = a1 −
k=1
n
X
(a2k − a2k+1 )
k=1
für n ∈ N. Da die Folge (an )n∈N monoton fallend ist, gelten a2k−1 − a2k ≥ 0 und
a2k − a2k+1 ≥ 0 für alle k ∈ N, und damit folgen
0 ≤ un ≤ un+1 und vn+1 ≤ vn ≤ a1
132
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
für alle n ∈ N, d.h. (un )n∈N ist monoton steigend und (vn )n∈N monoton fallend. Weiter
gilt für jedes n ∈ N auch
vn − un = s2n+1 − s2n = (−1)2n a2n+1 = a2n+1 ≥ 0,
und somit 0 ≤ un ≤ vn ≤ a1 . Damit ist die Folge (un )n∈N nach oben beschränkt und
(vn )n∈N ist nach unten beschränkt. Nach §6.Lemma 16 sind (un )n∈N und (vn )n∈N beide
konvergent, und wir schreiben
s := lim un und s0 := lim vn .
n→∞
n→∞
Mit den Rechenregeln für Folgengrenzwerte §6.Lemma 14 ergibt sich
s0 − s = lim vn − lim un = lim (vn − un ) = lim a2n+1 = 0,
n→∞
n→∞
n→∞
n→∞
da (an )n∈N als Nullfolge vorausgesetzt ist. Dies zeigt s0 = s. Nach Aufgabe (44) konvergiert auch die Folge (sn )n∈N gegen s, also konvergiert
∞
X
(−1)n−1 an = lim sn = s.
n→∞
n=1
Damit haben wir das Lemma über das Leibniz-Kriterium bewiesen.
Der Beweis zeigt uns auch wie man alternierende Reihen numerisch auswerten kann.
Die ungeraden Partialsummen sind größer als die Gesamtsumme und die geraden Partialsummen sind kleiner als die Gesamtsumme, also
s2n ≤
∞
X
(−1)k−1 ak ≤ s2n−1
k=1
P∞
für jedes n ≥ 1. Wollen wir also n=1 (−1)n−1 an mit einer gewünschten Genauigkeit
ausrechnen, so müssen wir soviele Summanden addieren bis s2n−1 − s2n kleiner als die
gewünschte Rechengenauigkeit wird. Die beiden bekanntesten Beispiele konvergenter
alternierender Reihen sind
∞
X
(−1)n−1
n
n=1
= ln 2 und
∞
X
(−1)n−1
n=1
2n − 1
=
π
.
4
Für beiden Reihen folgt die Konvergenz aus dem Leibniz Kriterium. Die Berechnung
der Grenzwerte ist uns an dieser Stelle nicht möglich, sie sind hier nur zur Information
angegeben. Wir betrachten jetzt noch eine Umordnung der alternierenden Reihe
∞
X
(−1)n−1
n=1
n
=1−
1 1 1 1 1
+ − + − + ··· ,
2 3 4 5 6
133
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
und zwar diejenige bei der wir immer zwei positiven Summanden gefolgt von einem
negativen Summanden nehmen, also ausgeschrieben
1+
1
1
1 1 1 1 1 1
− + + − + +
− + ···
3 2 5 7 4 9 11 6
Auch diese Umordnung konvergiert und zwar gegen π/4 6= ln(2). Diese exakten Werte
können wir hier zwar nicht berechnen, wir können aber zumindest sehen das die beiden
Umordnungen verschiedene Werte haben. Für die alternierende harmonische Reihe
ergibt unsere obige Abschätzung mit n = 2
∞
7
1 1 1 X (−1)n−1
1 1
5
350
=1− + − ≤
≤1− + = =
.
12
2 3 4 n=1
n
2 3
6
420
Für die umgeordnete Reihe kann man analog abschätzen und erhält
∞
389
1 1 1 1 1 X (−1)π(n)−1
1 1 1 1
247
=1+ − + + − ≤
≤1+ − + + =
,
420
3 2 5 7 4 n=1
π(n)
3 2 5 7
210
die beiden Reihen haben also tatsächlich verschiedene Werte. Hier ändert sich also
bei einer vergleichsweise kleinen Umgruppierung der Summanden der Wert der Reihe.
Insbesondere gibt es kein Kommutativgesetz“ für unendliche Summen.
”
7.4.3
Absolut konvergente Reihen
Dass es kein unendliches Kommutativgesetz der Addition gibt, das also bei Umordnung
von Reihen sich der Wert der Reihe ändern kann, ist natürlich eine eher störende
Tatsache. Es gibt glücklicherweise eine spezielle Sorte guter konvergenter Reihen“,
”
bei der so etwas nicht passiert. Dies sind die sogenannten absolut konvergenten Reihen
im Sinne der folgenden Definition:
∞
P
Definition 7.10: Eine reelle oder komplexe Reihe
an heißt absolut konvergent, wenn
auch die Reihe
∞
P
n=1
|an | der Beträge konvergiert.
n=1
Da die Beträge immer positiv sind, bedeutet die absolute Konvergenz einer Reihe nach
Lemma 3 gerade das die Partialsummen
n
X
|ak |
k=1
beschränkt sind, das also
P∞
n=1
|an | < ∞ ist. Beispielsweise ist
∞
∞
X
X
1
(−1)n−1
absolut
konvergent
aber
n2
n
n=1
n=1
134
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
ist nicht absolut konvergent, da die harmonische Reihe nach Lemma 6 divergiert. Wir
werden sehen das man absolut konvergente Reihen beliebig umordnen kann, ohne den
Wert der Reihe zu ändern. Anders sieht dies bei konvergenten, aber nicht absolut
konvergenten Reihen aus. Es ist nicht nur so, dass man diese nicht frei umordnen kann,
sondern die Werte die sich durch Umordnen ergeben sind völlig willkürlich. Es gilt: Ist
∞
X
an
n=1
eine konvergente, aber nicht absolut konvergente, reelle Reihe und ist x ∈ R eine völlig
willkürliche reelle Zahl, so existiert eine Umordnung π : N∗ → N∗ der Reihe mit
∞
X
aπ(n) = x.
n=1
Dies ist der sogenannte Riemannsche Umordnungsatz, den wir hier aber nicht beweisen wollen, er dient uns nur zur Illustration wie schlecht sich nicht absolut konvergente
Reihen verhalten. Wir werden jetzt zeigen, dass absolute Konvergenz auch die gewöhnliche Konvergenz impliziert, und hierfür benötigen wir eine kleine Vorbemerkung. Wir
wissen das eine reelle oder komplexe Zahlenfolge genau dann konvergiert wennP
sie eine
Cauchyfolge ist. Wenn wir diese Tatsache auf die Partialsummen einer Reihe ∞
n=0 an
anwenden, so ergibt sich das sogenannte Cauchy-Kriterium für die von Reihen. Ist
(sn )n∈N die Folge der Partialsummen, so gilt für alle m, n ∈ N mit m ≥ n stets
sm − sn−1 =
m
X
ak −
n−1
X
k=0
k=0
ak =
m
X
ak ,
k=n
das Cauchykriterium für Reihen nimmt also die folgende Form an
m
X
an konvergiert ⇐⇒ ∀( > 0)∃(n0 ∈ N)∀(m ≥ n ≥ n0 ) : ak < .
n=0
∞
X
k=n
Damit können wir jetzt einsehen das absolute Konvergenz auch die gewöhnliche Konvergenz impliziert.
Lemma 7.11: Eine absolut konvergente, reelle Reihe ist auch konvergent.
Beweis: Sei
∞
P
an eine absolut konvergente, reelle Reihe. Sei > 0. Da
n=1
vergiert, gibt es nach dem Cauchy-Kriterium für Reihen ein n0 ∈ N mit
m
m
X
X
|ak | = |ak | < k=n
k=n
135
∞
P
n=1
|an | kon-
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
für alle m ≥ n ≥ n0 . Sind also n, m ∈ N mit m ≥ n ≥ n0 , so ergibt die Dreiecksungleichung auch
m
m
X
X
|ak | < .
ak ≤
k=n
k=n
Damit liefert eine erneute Anwendung des Cauchykriteriums auch die Konvergenz von
∞
P
an .
n=1
Wir hatten die absolut konvergenten Reihen als die guten Reihen“ angekündigt,
”
deren Wert sich unter beliebiger Umordnung nicht ändert. Wir beweisen jetzt, dass
dies tatsächlich wahr ist.
Lemma 7.12 (Umordnungen absolut konvergenter Reihen)
∞
P
Seien
an eine absolut konvergente, reelle Reihe und π : N∗ → N∗ eine bijektive
n=1
Abbildung. Dann ist auch die umgeordnete Reihe
∞
P
aπ(n) absolut konvergent und es
n=1
gilt
∞
X
aπ(n) =
n=1
∞
X
an .
n=1
Beweis: Ist n ∈ N, so setzen wir n∗ := max{π(1), . . . , π(n)}, und haben die Inklusion
{π(1), . . . , π(n)} ⊆ {1, . . . , n∗ }, also auch
n
X
∗
|aπ(k) | ≤
k=1
Nach Lemma 3 ist
∞
P
n
X
|ak | ≤
k=1
∞
X
|ak | < ∞.
k=1
|aπ(n) | konvergent, d.h.
n=1
∞
P
aπ(n) ist absolut konvergent.
n=1
Damit ist die erste Aussage bewiesen. Insbesondere sind
∞
P
n=1
aπ(n) und
∞
P
an nach
n=1
Lemma 11 beide konvergent. Bezeichne
sn :=
n
X
ak und
s0n
k=1
:=
n
X
aπ(k)
k=1
für jedes n ∈ N die jeweiligen Partialsummen. Wir wollen zeigen, dass die Differenzen
(sn − s0n )n∈N eine Nullfolge bilden. Sei > 0. Nach dem Cauchykriterium für Reihen
existiert n1 ∈ N mit
m
X
|ak | < k=n
136
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
für alle m ≥ n ≥ n1 . Wir setzen
n0 := max{n1 , π −1 (1), . . . , π −1 (n1 )}.
Sei jetzt n ∈ N mit n ≥ n0 gegeben. Dann sind
1, . . . , n1 − 1, π −1 (1), . . . , π −1 (n1 − 1) ∈ {1, . . . , n},
also auch
1, . . . , n1 − 1 ∈ {π(1), . . . , π(n)}.
Bilden wir also die Differenz
sn −
s0n
=
n
X
ak −
k=1
n
X
aπ(k) ,
k=1
so kommt jeder der Summanden a1 , . . . , an1 −1 sowohl in sn als auch in s0n vor, und
verschwindet in der Differenz. Von sn und s0n verbleiben dann nur noch Summanden
der Form ak mit k ≥ n1 und k ∈ {1, . . . , n, π(1), . . . , π(n)}. Diejenigen davon die in
sn und s0n vorkommen verschwinden in der Differenz, und die anderen bleiben mit
eventuellen Vorzeichen stehen. Setzen wir also
m := max{n, π(1), . . . , π(n)},
so ist m ≥ n1 und es gibt eine Menge M ⊆ {n1 , n1 + 1, . . . , m} und Vorzeichen σk ∈
{−1, 1} für k ∈ M mit
X
sn − s0n =
σk ak .
k∈M
Mit der Dreiecksungleichung folgt
m
X
X
X
0
|sn − sn | = σk ak ≤
|ak | ≤
|ak | < .
k∈M
k∈M
k=n1
Damit ist (sn − s0n )n∈N eine Nullfolge. Mit den Grenzwertsätzen §6.Lemma 14 folgt
schließlich
∞
X
n=1
an −
∞
X
n=1
aπ(n) = lim sn − lim s0n = lim (sn − s0n ) = 0.
n→∞
n→∞
n→∞
Das meistens verwendete Kriterium um die absolute Konvergenz einer Reihe einzusehen, ist das sogenannte Majorantenkriterium. Dieses besagt das eine Reihe, die
höchstens so schnell wächst wie eine Reihe deren absolute Konvergenz wir schon kennen, auch absolut konvergent ist. Etwas genauer wird für das höchstens so schnell
”
wächst“ der Begriff einer sogenannten Majorante eingeführt.
137
Mathematik für Informatiker B, SS 2012
Definition 7.13: Eine Reihe
∞
P
Donnerstag 14.6.2012
Mn mit nichtnegativen Summanden Mn ≥ 0 heißt
n=1
∞
P
Majorante einer reellen oder komplexen Reihe
an , wenn eine Konstante c ≥ 0 und
n=1
ein Index n0 ∈ N existieren so, dass
|an | ≤ cMn
für alle n ≥ n0 gilt. In der Sprache der Landau-Symbole soll also an = O(Mn ) sein.
Mit diesem Begriff können wir der obigen Ankündigung jetzt eine exakte Form geben.
Satz 7.14 (Majorantenkriterium)
Eine Reihe ist absolut konvergent wenn sie eine konvergente Majorante besitzt.
∞
P
Beweis: Sei also
an eine Reihe, die die konvergente Majorante
n=1
∞
P
Mn besitzt. Dann
n=1
existieren eine Konstante c ≥ 0 und ein Index n0 ∈ N mit |an | ≤ cMn für alle n ≥ n0 .
∞
P
|ak | dann
Für jedes n ∈ N mit n ≥ n0 ist die n-te Partialsumme der Reihe
k=1
n
X
|ak | =
k=1
nX
0 −1
|ak | +
k=1
n
X
|ak | ≤
k=n0
nX
0 −1
n
X
|ak | + c
k=n0
k=1
Mk ≤
nX
0 −1
|ak | + c
∞
X
Mk < ∞.
k=1
k=1
P∞
Damit ist die Folge der Partialsummen von n=1 |an | beschränkt, und nach Lemma 3
∞
∞
P
P
ist
|an | konvergent, d.h.
an ist absolut konvergent.
n=1
n=1
Mit diesem Kriterium kann man schon recht kompliziert aussehende Reihen behandeln.
Beispielsweise gilt | sin(n)/n2 | ≤ 1/n2 für jedes n ∈ N, und damit ist die Reihe
∞
X
sin n
n=1
n2
absolut konvergent. Wir wollen uns jetzt um den Spezialfall einer geometrischen Reihe
als Majorante kümmern, dies wird unsPauf das sogenannte Wurzelkriterium führen.
n
Wir wissen das die geometrische Reihe ∞
n=0 q für |q| < 1 konvergiert. Wir wollen uns
∞
P
jetzt überlegen was es für eine Reihe
an bedeutet von der geometrischen Reihe mit
n=0
q ≥ 0 majorisiert zu werden. Definitionsgemäß bedeutet dies das es c ≥ 0 und n0 ∈ N
mit |an | ≤ cq n für alle n ≥ n0 gibt, und gehen wir auf beiden Seiten zur n-ten Wurzel
über, so folgt
∞
X
n=0
q n majorisiert
∞
X
an ⇐⇒ ∃(c ≥ 0)∃(n0 ∈ N)∀(n ≥ n0 ) :
n=0
138
p
n
|an | ≤
√
n
c · q.
Mathematik für Informatiker B, SS 2012
Donnerstag 14.6.2012
Um dies weiter zu vereinfachen, wollen wir verwenden das für jede reelle Zahl c ≥ 0
stets
(
√
1, c > 0,
lim n c =
n→∞
0, c = 0
√
n
gilt.
Dies
ist
leicht
zu
sehen.
Ist
c
≥
1,
so
gilt
für
alle
n
∈
N
mit
n
≥
c
stets
1
≤
c≤
√
√
n
n
n und nach Aufgabe (43) konvergiert die Folge
( n)n∈N gegen 1. Damit liefert das
√
n
Einschnürungslemma Aufgabe (40), das auch ( c)n∈N gegen 1 konvergiert. Ist dagegen
0 < c < 1, so rechnen wir mit den Rechenregeln für Folgengrenzwerte
lim
n→∞
√
n
1
c = lim q =
n→∞
n
1
c
1
lim
n→∞
q =1
n
1
c
da 1/c > 1 ist. Damit ist diese Zwischenbehauptung bewiesen. Es folgt weiter
∃(0 < q < 1) :
∞
X
n=0
n
q majorisiert
∞
X
an
n=0
⇐⇒ ∃(0 ≤ q < 1)∃(n0 ∈ N)∀(n ≥ n0 ) :
p
n
|an | ≤ q.
Diese Bedingung bezeichnet man als das Wurzelkriterium, und wir erhalten das folgende Korollar aus dem Majorantenkriterium Satz 14
Korollar
P 7.15 (Wurzelkriterium)
Sei ∞
n=1 an eine reelle Reihe. Es gebe ein 0 ≤ q < 1 und einen Index n0 ∈ N mit
p
n
|an | ≤ q für alle n ≥ n0 .
P∞
Dann ist die Reihe n=1 an absolut konvergent.
Wir gesehen sind die Reihen die das Wurzelkriterium erfüllen genau diejenigen, die sich
von einer konvergenten geometrischen Reihe majorisieren lassen. Bei der Überprüfung
des Wurzelkriteriums ist es oftmals sogar so, dass der Grenzwert
p
q := lim n |an |
n→∞
existiert. Ist dann q < 1, so gibt es ein n0 ∈ N mit
p
1+q
n
|an | <
<1
2
p
für alle n ≥ n√0 . Es reicht dagegen nicht aus, dass n |an | < 1 für n ≥ n0 ist. Beispielsn
weise
Reihe
P∞ gilt 1/ n < 1 für alle n ∈ N, aber nach Lemma 6 ist die harmonische
√
n
n=1 1/n divergent. In diesem Beispiel existiert auch der Grenzwert limn→∞ 1/ n = 1.
Als ein Beispiel in dem das Wurzelkriterium erfolgreich ist, nehmen wir einmal die
Reihe
∞
X
1
.
n
n
n=1
139
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Für alle natürlichen Zahlen n ≥ 2 gilt in diesem Beispiel
r
1
1
1
n
= ≤ < 1,
n
n
n
2
also ist das Wurzelkriterium anwendbar und liefert die absolute Konvergenz der Reihe
∞
P
1/nn .
n=1
Vorlesung 18, Dienstag 19.6.2012
Am Ende der letzten SitzungPhatten wir das sogenannte Wurzelkriterium besprochen,
dieses besagt das eine Reihe ∞
n=1 an die die Bedingung
∃(0 ≤ q < 1)∃(n0 ∈ N)∀(n ≥ n0 ) :
p
n
|an | ≤ q
erfüllt bereits absolut konvergent ist, genauer wurde die Reihe dann durch eine konvergente geometrische Reihe majorisiert. Als ein einfaches Beispiel
P hatten nwir das Wurzelkriterium dann verwendet die absolute Konvergenz der Reihe ∞
n=1 1/n nachzuweisen.
Während in diesem Beispiel
durch das Bilden der n-ten Wurzel alles vereinfacht wird,
p
n
kann die Berechnung von |an | im Allgemeinen oft recht unangenehm werden. Oftmals
ist es dann einfacher das sogenannte Quotientenkriterium zu verwenden.
Korollar 7.16 (Quotientenkriterium)
∞
P
Sei
an eine reelle Reihe mit an 6= 0 für alle n ∈ N. Es gebe eine Konstante 0 < q < 1
n=1
und einen Index n0 ∈ N mit
an+1 an ≤ q für alle n ≥ n0 .
Dann ist
∞
P
an absolut konvergent.
n=1
Beweis: Lese die Bedingung |an+1 /an | = |an+1 |/|an | ≤ q als |an+1 | ≤ q|an |. Für jedes
k ∈ N ergibt sich dann auch
|an0 +k | ≤ q|an0 +k−1 | ≤ q 2 |an0 +k−2 | ≤ . . . ≤ q k |an0 | = q n0 +k
d.h. mit C := |an0 |/q n0 ≥ 0 ist
|an | ≤ Cq n =⇒
p
n
|an | ≤
√
n
140
C · q für alle n ≥ n0 .
|an0 |
,
q n0
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Wegen 0 < q < 1 ist
√ q + 1 > 2q > 0 also auch (q + 1)/(2q) > 1. Wie bereits oben
eingesehen ist lim n C ∈ {0, 1}, und somit existiert ein n1 ∈ N mit
n→∞
√
n
C<
q+1
für alle n ≥ n1 .
2q
Ist schließlich n2 := max{n0 , n1 }, so gilt für jedes n ∈ N mit n ≥ n2 auch
p
n
|an | ≤
√
n
C ·q <
q+1
q+1
·q =
< 1.
2q
2
Nach dem Wurzelkriterium Korollar 15 ist
∞
P
an damit absolut konvergent.
n=1
Wie der Beweis zeigt ist das Quotientenkriterium ein Spezialfall des Wurzelkriteriums.
Als ein Beispiel wollen wir uns einmal überlegen, dass die Reihe
∞
X
n=1
(−1)n−1
n2 n
q
n+1
für jedes q ∈ R mit |q| < 1 absolut konvergiert. Die Quotienten aufeinanderfolgender
Glieder ergeben sich als
(−1)n (n+1)2 q n+1 (n + 1)3
n+2
=
|q|,
n2
(−1)n−1 n+1
q n n2 (n + 2)
und wie in §6.5 gesehen gilt
(n + 1)3
n3 + 3n2 + 3n + 1
|q|
=
lim
|q| = |q| < 1.
n→∞ n2 (n + 2)
n→∞
n3 + 2n2
lim
Das Quotientenkriterium Korollar 16 ergibt damit die absolute Konvergenz der Reihe
∞
X
(−1)n−1 n2 q n /(n + 1)
n=1
für |q| < 1. Das übliche Vorgehen die absolute Konvergenz einer Reihe einzusehen,
zumindest im Rahmen von Übungs- oder Klausuraufgaben, läuft in den folgenden
Schritten ab:
1. Schaue ob es sich um eine schon bekannte Reihe handelt, oder um eine Reihe die
sich in einfacher Weise durch eine schon bekannte Reihe majorisieren läßt. Eventuell braucht man hierzu eine kleine algebraische Umformung um die bekannte
Reihe sichtbar zu machen.
141
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
2. Probiere das Quotientenkriterium. Meistens existiert der Grenzwert
an+1 q := lim n→∞
an und man muss nur schauen ob q < 1 ist.
3. Probiere das Wurzelkriterium. Meistens existiert der Grenzwert
p
q := lim n |an |
n→∞
und man muss nur schauen ob q < 1 ist.
4. Hier kommt man bei Übungsaufgaben in der Regel gar nicht hin. Was man in
diesem Fall tun kann, wollen wir in dieser Vorlesung nicht behandeln.
$Id: preihen.tex,v 1.5 2012/06/19 11:30:51 hk Exp hk $
§8
Vollständige Körper
In §6.Satz 18 hatten wir gesehen, dass jede reelle Cauchyfolge konvergiert, eine
Eigenschaft die man auch als die Vollständigkeit der reellen Zahlen bezeichnet. Bewiesen wurde diese Eigenschaft der reellen Zahlen mit Hilfe der ordnungstheoretischen
Vollständigkeit der reellen Zahlen gemäß §4.Satz 15. In den rationalen Zahlen gibt es
dagegen nicht konvergente Cauchyfolgen, man kann beispielsweise eine rationale Folge nehmen die in R gegen eine irrationale Zahl konvergiert. Die reellen Zahlen sind
die sogenannte Vervollständigung der rationalen Zahlen, d.h. derjenige Körper der aus
Q durch Hinzunehmen all der fehlenden Grenzwerte nicht konvergenter Cauchyfolgen
entsteht. Um dies einzusehen, muss man sich nur überlegen das jede reelle Zahl als
ein solcher Grenzwert vorkommt, dass also jede reelle Zahl sich beliebig genau durch
rationale Zahlen approximieren läßt.
Satz 8.1: Die Menge Q ist dicht in R.
Beweis: Sei x ∈ R. Wir müssen zeigen das x ∈ Q im Abschluß von Q in R liegt und
wie in §5 gezeigt, bedeutet dies das es für jedes > 0 eine rationale Zahl q ∈ Q mit
|x − q| < gibt. Sei also > 0. Nach der archimedischen Eigenschaft von R, §4.Lemma
16, gibt es ein n ∈ N∗ mit 1/n < . Dann können wir R in Intervalle der Länge 1/n
einteilen, also
[ k k + 1
R=
,
.
n
n
k∈Z
142
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Die reelle Zahl x muss in einem dieser Intervalle liegen, es gibt also ein m ∈ Z mit
m+1
m
≤x<
.
n
n
Wir erhalten die rationale Zahl q := m/n ∈ Q mit
m m
m+1 m
1
|x − q| = x − = x −
<
−
= < .
n
n
n
n
n
Damit ist der Satz bewiesen.
Alternativ könnte man auch die Dezimaldarstellung der Zahl x heranziehen, brechen
wir die Nachkommastellen nach ausreichend vielen Gliedern ab, so erhält man die
gesuchte Näherung q ∈ Q an x.
Ist (X, d) ein beliebiger metrischer Raum, so ist nach §5.Satz 8 jede konvergente
Folge auch eine Cauchyfolge. Wie das Beispiel X = Q in der euklidischen Metrik zeigt,
kann es aber auch nicht konvergente Cauchyfolgen in X geben. Die guten“ metrischen
”
Räume, in denen so etwas nicht vorkommt, kriegen jetzt einen eigenen Namen.
Definition 8.2: Ein metrischer Raum (X, d) heißt vollständig, wenn jede Cauchyfolge
(xn )n∈N in X auch in X konvergent ist.
Also sind beispielsweise die reellen Zahlen nach §6.Satz 18 vollständig, die rationalen
Zahlen aber nicht. Man kann sich überlegen das man jeden metrischen Raum zu einem
vollständigen metrischen Raum ergänzen kann, der sogenannten Vervollständigung. In
dem Sinne ist dann R die Vervollständigung von Q.
Wir wollen uns jetzt überlegen, dass auch die komplexen Zahlen C in der euklidischen Metrik vollständig sind. Sei also (zn )n∈N eine komplexe Cauchyfolge. Nach
unseren Überlegungen aus §6.6 wissen wir das eine komplexe Folge genau dann konvergiert wenn die Folgen ihrer Real- und Imaginärteile beide konvergieren. Daher wollen
wir zunächst zeigen, dass diese beiden Folgen reelle Cauchyfolgen sind. Hierzu erinnern
wir uns an die schon aus Aufgabe (37) bekannte Ungleichung
| Re(z) − Re(w)| ≤ |z − w| und | Im(z) − Im(w)| ≤ |z − w|
für alle z, w ∈ C. Ist also ein > 0 gegeben, so haben wir ein n0 ∈ N mit |zn − zm | < für alle n, m ≥ n0 , da (zn )n∈N ja als Cauchyfolge vorausgesetzt ist, und damit ist für
alle n, m ∈ N mit n, m ≥ n0 auch
| Re(zn ) − Re(zm )| ≤ |zn − zm | < und | Im(zn ) − Im(zm )| ≤ |zn − zm | < ,
d.h. (Re(zn ))n∈N und (Im(zn ))n∈N sind beides Cauchyfolgen. Jetzt wissen wir bereits
das die reellen Zahlen vollständig sind, und damit sind beide Folgen (Re(zn ))n∈N
und (Im(zn ))n∈N konvergent. Nach §6.6 ist auch (zn )n∈N konvergent. Dies beweist die
Vollständigkeit von C.
143
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Damit müssen auch alle aus der Vollständigkeit folgenden Aussagen in C genauso
wie in R gelten. Insbesondere ist jede absolut konvergente, komplexe Reihe auch konvergent. Dies hatten wir für reelle Reihen in §7.Lemma 11 durch Zurückführung auf
Aufgabe (49) bewiesen, die ihrerseits wieder auf der metrischen Vollständigkeit von R
beruhte. Weiter gelten damit Majoranten-, Wurzel- und Quotientenkriterium auch für
komplexe Reihen.
8.1
Potenzreihen
Eine der wichtigsten Typen von Reihen sind die sogenannten Potenzreihen. Dies sind
sozusagen Polynome von Grad ∞“.
”
Definition 8.3: Eine Potenzreihe ist eine Reihe der Form
f (z) =
∞
X
an z n
n=0
mit z ∈ C wobei (an )n∈N eine komplexe Folge ist. Man nennt an für n ∈ N dann auch
den n-ten Koeffizienten der Potenzreihe.
Polynome sind dann spezielle Potenzreihen, nämlich diejenigen bei denen die Koeffizienten an ab einem gewissen Index n0 = grad(f ) alle Null sind, d.h. an = 0 für
n > n0 . Ist (an )n∈N eine reelle Folge, so spricht man auch von einer reellen Potenzreihe.
In diesem Fall kann man sich auf reelle Werte von z beschränken, also
f (x) =
∞
X
an x n
n=0
für x ∈ R betrachten, muss dies aber nicht tun. Wenn Sie in Bücher schauen finden Sie gelegentlich auch den etwas allgemeineren Begriff einer Potenzreihe mit einem
Entwicklungspunkt z0 ∈ C, dies meint
f (z) =
∞
X
an (z − z0 )n .
n=0
Die Potenzreihen in unserem Sinne entsprechen dann dem Entwicklungspunkt z0 = 0.
Da diese allgemeineren Potenzreihen nur etwas mehr Schreibarbeit, aber keine weiteren
Erkenntnisse, bringen, wollen wir hier nur
den Fall z0 = 0 betrachten.
P∞
Haben wir eine Potenzreihe f (z) = n=0 an z n , so wollen wir diese als eine Funktion in z ∈ C auffassen. Allerdings muss die Reihe nicht für jede komplexe Zahl z
konvergieren. Als Definitionsbereich unserer Funktion muss man die Menge
(
)
∞
X
Mf := M := z ∈ C an z n konvergiert
n=0
144
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
verwenden. Dann können wir uns f (z) als eine Funktion f : M → C denken. Offenbar
ist immer 0 ∈ M mit f (0) = a0 . Wir wollen uns überlegen wie die Menge M prinzipiell
aussieht. Es stellt sich heraus, dass M im wesentlichen ein Kreis mit Mittelpunkt im
Nullpunkt ist. Dabei muss man allerdings auch einen Kreis von Radius 0 für M = {0},
und einen Kreis von Radius ∞ für M = C zulassen. Der Radius unseres Kreises ist der
sogenannte Konvergenzradius der Potenzreihe. Da wir aber noch nicht bewiesen haben,
dass M wirklich ein Kreis ist, müssen wir zur exakten Definition des Konvergenzradius
eine gewisse Umschreibung verwenden.
Definition 8.4: Der Konvergenzradius R(f ) einer Potenzreihe
f (z) =
∞
X
an z n
n=0
ist die Zahl
R(f ) := sup{|z| : z ∈ Mf } ∈ R≥0 ∪ {∞}.
Das Supremum war dabei die kleinste obere Schranke der rechts stehenden Menge.
Leider gibt es auch den Fall das die Menge gar nicht nach oben beschränkt ist, etwa
wenn M = C ist, und dann interpretieren wir das Supremum als ∞.
Wir wollen uns jetzt überlegen, dass Mf wirklich im wesentlichen ein Kreis mit Radius
R(f ) ist, wobei die Randfälle R(f ) = 0 und R(f ) = ∞ wie oben als Mf = {0}
beziehungsweise Mf = C interpretiert werden. Wir werden zeigen das mit jedem z ∈
Mf auch jedes z 0 ∈ C das näher an 0 liegt, also mit |z 0 | < |z|, in Mf ist.
P
n
Lemma 8.5: Sei fP(z) = ∞
n=0 an z eine in z0 ∈ C konvergente Potenzreihe. Dann ist
∞
n
die Reihe f (z) = n=0 an z in jedem z ∈ C mit |z| < |z0 | absolut konvergent.
P∞
n
n
Beweis: Da
n=0 an z0 konvergiert, ist die Folge (an z0 )n∈N nach §7.Lemma 2 eine
Nullfolge. Insbesondere ist diese Folge nach §6.Lemma 10 beschränkt, es gibt also eine
Konstante M ≥ 0 mit
|an z0n | ≤ M
für alle n ∈ N. Wegen |z| < |z0 | ist
∞ X
z
z n
= |z| < 1, also ist
z0 |z0 |
z0 n=0
nach §7.Lemma 7 konvergent. Für jedes n ∈ N ist nun
n
n
n z
z
n
z
n
n
= |an z0 | · ≤ M ,
|an z | = an z0 ·
z0
z0
z0
d.h. die Reihe
∞ ∞
X
X
z n
ist eine Majorante von
an z n .
z0 n=0
n=0
145
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Nach dem Majorantenkriterium §7.Satz 14 ist
P∞
n=0
an z n absolut konvergent.
P
n
Beachte das der Beweis sogar zeigt, dass ∞
n=0 an z durch eine konvergente, geometrische Reihe majorisiert wird. Jetzt ist es leicht unseren Konvergenzkreis herzuleiten.
Satz 8.6 (Der
einer Potenzreihe)
P∞Konvergenzkreis
n
Sei f (z) = n=0 an z eine Potenzreihe mit Konvergenzradius R. Dann ist f (z) für
jedes z ∈ C mit |z| < R absolut konvergent, und für jedes z ∈ C mit |z| > R divergent.
Beweis: Direkt nach Definition des Konvergenzradius impliziert die Konvergenz von
f (z) für ein z ∈ C auch |z| ≤ R, d.h. für z ∈ C mit |z| > R muss f (z) divergieren.
Nun sei z ∈ C mit |z| < R gegeben. Dann ist |z| keine obere Schranke der Menge
{|u| : u ∈ Mf }, also muss ein z0 ∈ Mf mit |z| < |z0 | existieren. Dann ist f (z) aber
nach Lemma 5 absolut konvergent.
Was auf dem Rand des Konvergenzkreises
geschieht, also für die z ∈ C mit |z| = R :=
R(f ), wird durch den Satz nicht beschrieben.
Dies ist auch ein recht kompliziertes Thema,
Divergenz
r
das für uns glücklicherweise keine Rolle spielen wird. Innerhalb des Kreises mit Radius R
x0
um den Entwicklungspunkt x0 = 0 liegt da(absolute) Konvergenz
bei absolute Konvergenz von f (z) vor und außerhalb des Kreises divergiert f (z). Man bezeichnet den offenen Kreis mit Radius R auch
als den Konvergenzkreis der Potenzreihe f (z).
Dabei wird dieser Kreis im Fall R = ∞ als die
gesamte Ebene interpretiert. Wir wollen jetzt einige Beispiele von Potenzreihen durchgehen.
P
1. Wir hatten schon früher bemerkt das jedes Polynom p(z) = nk=0 ak z k auch als
Potenzreihe interpretiert werden kann, indem ak = 0 für k > n interpretiert wird.
Dann konvergiert p(z) für überhaupt jedes z ∈ C und somit ist der Konvergenzradius R = ∞.
2. Die Potenzreihe
f (z) =
∞
X
zn
n=0
ist eine geometrische Reihe, also nach §7.Lemma 7 genau dann konvergent wenn
|z| < 1 ist. Als Konvergenzradius ergibt sich damit R = 1. In diesem Beispiel
146
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
können wir die Reihe nach §7.Lemma 7 auch explizit berechnen
∞
X
1
, |z| < 1.
1−z
zn =
n=0
3. Nun betrachten die recht ähnlich aussehende Potenzreihe
f (z) =
∞
X
(−1)n z n .
n=0
Für jedes z ∈ C ist dann
f (z) =
∞
X
n n
(−1) z =
n=0
∞
X
(−z)n
n=0
und wie im vorigen Beispiel ist dies genau dann konvergent wenn |z| = | − z| < 1
ist, d.h. der Konvergenzradius ist wieder R = 1. Als Wert ergibt sich
f (z) =
∞
X
(−1)n z n =
n=0
1
1
=
.
1 − (−z)
1+z
4. Als nächstes Beispiel betrachten wir die Potenzreihe
f (z) =
∞
X
(−1)n z 2n .
n=0
Für z ∈ C ist dann
f (z) =
∞
X
n 2n
(−1) z
n=0
=
∞
X
(−1)n (z 2 )n ,
n=0
und nach dem vorigen Beispiel ist dies genau dann konvergent wenn |z|2 = |z 2 | <
1 ist. Dies ist gleichwertig zu |z| < 1 also haben wir erneut den Konvergenzradius
R = 1. Als Wert der Reihe ergibt sich
f (z) =
1
.
1 + z2
An diesem Beispiel zeigt sich übrigens auch, dass es auch bei reellen Potenzreihen sinnvoll
P∞ istn komplexe Argumente zu betrachten. Für die geometrische Reihe
f (z) = n=0 z = 1/(1 − z) ist der Konvergenzradius R = 1 nicht überraschend
da 1/(1 − z) nur bis z = 1 existiert. Es gibt hier sozusagen einen
P Grund dafür
2n
das die Reihe nicht mehr konvergiert. Dagegen gibt es f (x) = ∞
=
n=0 (−1)x
2
1/(1 + x ) für alle reellen x ∈ R und trotzdem konvergiert die Reihe nicht überall. Sehen wir uns dagegen komplexe Argumente an, so wird dies klar denn der
Nenner 1 + z 2 wird bei z = ±1 zu Null, die Konvergenz kann also nicht über ±1
hinausgehen und wir haben den Konvergenzradius R = 1.
147
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
5. Als unser letztes Beispiel behandeln wir die Potenzreihe
∞
X
f (z) =
nn z n ,
n=0
und behaupten das diese den Konvergenzradius R = 0 ist. Hierzu muss man
zeigen, dass f (z) für jedes z ∈ C mit z 6= 0 divergiert. Sei also 0 6= z ∈ C
gegeben. Dann gibt es ein n0 ∈ N mit |nz| > 1 für alle n ≥ n0 , also ist auch
|(nz)n | = |nz|n > 1 für alle n ≥ n0 . Folglich ist (nn z n )n∈N = ((nz)n )n∈N keine
Nullfolgt, und damit ist die Reihe
f (z) =
∞
X
n n
n z =
n=0
∞
X
(nz)n
n=0
tatsächlich divergent.
Wir hatten bereits bemerkt das Potenzreihen so etwas wie Polynome von Grad ∞ sind.
Dies ist tatsächlich mehr als nur eine rein oberflächliche Analogie, und als ein Beispiel
hierfür wollen wir uns einmal Produkte von Potenzreihen anschauen. In §3.Lemma 9
hatten wir das Produkt von Polynomen als
#
!
! n+m " k
n
m
X X
X
X
al bk−l · z k
ak z k ·
bk z k =
k=0
k=0
k=0
l=0
berechnet. Für Potenzreihen gilt genau dieselbe Multiplikationsformel, sind also
f (z) =
∞
X
an z n , g(z) =
n=0
∞
X
bn z n
n=0
zwei Potenzreihen mit Konvergenzradien R(f ) und R(g), so ist das Produkt wieder
eine Potenzreihe
" n
#
∞
X
X
f (z)g(z) =
ak bn−k · z n ,
n=0
k=0
deren Konvergenzradius R(f g) mindestens so groß wie der kleinere der beiden Konvergenzradien R(f ) und R(g) ist, also
R(f g) ≥ min{R(f ), R(g)}.
Aus Zeitgründen wollen wir diese Tatsache jetzt nicht beweisen, aber zumindest ein
Beispiel rechnen. Wir starten mit der geometrischen Reihe
∞
X
n=0
zn =
1
für |z| < 1.
1−z
148
Mathematik für Informatiker B, SS 2012
Dienstag 19.6.2012
Multiplizieren wir diese mittels der Produktformel mit sich selbst, so ergibt sich
" n #
2 X
∞
∞
∞
∞
∞
X
X
X
X
X
1
1
n
n
n
n
=
1 z =
(n + 1)z =
+
nz n
z +
nz =
1−z
1
−
z
n=0
n=1
n=0 k=0
n=0
n=1
für |z| < 1. Damit ist weiter
∞
X
n=1
nz n =
1
1 − (1 − z)
z
1
−
=
=
für |z| < 1.
2
2
(1 − z)
1−z
(1 − z)
(1 − z)2
Setzen wir hier beispielsweise z = 1/2 ein, so wird
∞
X
n
1 2 3
= + + + · · · = 2.
n
2
2 4 8
n=1
8.1.1
Die Exponentialfunktion
Eine besonders wichtige Potenzreihe ist die Exponentialfunktion
exp(z) =
∞
X
zn
n=0
n!
.
Für jedes 0 6= z ∈ C haben wir
n+1
z /(n + 1)! = lim |z| = 0,
lim n→∞ n + 1
n→∞
z n /n!
und nach dem Quotientenkriterium §7.Korollar 16 konvergiert exp(z). Damit hat die
Exponentialfunktion den Konvergenzradius R = ∞, definiert also eine auf ganz C
erklärte Funktion
∞
X
zn
ez := exp(z) =
.
n!
n=0
Dass es sich hier wirklich um ez handelt werden wir später noch etwas begründen. Den
Wert
∞
X
1
e = exp(1) =
n!
n=0
hatten wir schon in §7.3 behandelt. Wir wollen die Grundeigenschaft der Exponentialfunktion jetzt ohne Beweis einfach angeben:
Satz 8.7 (Funktionalgleichung der Exponentialfunktion)
Für alle z, w ∈ C gilt exp(z + w) = exp(z) · exp(w).
Denken wir uns ez = exp(z) so wird die Funktionalgleichung zum Potenzgesetz
ez+w = ez · ew ,
der Satz ist also ein Hinweis darauf das exp(z) wirklich eine Potenzfunktion ist.
149
Mathematik für Informatiker B, SS 2012
8.1.2
Donnerstag 21.6.2012
Die trigonometrischen Funktionen
Über die Exponentialfunktion kann man die vertraute reelle Funktion ex auch auf
komplexe Argumente ausdehnen. Dies ist auch für andere Grundfunktionen möglich
und insbesondere gibt es auch komplexe Sinus- und Cosinusfunktionen. Diese werden
durch die folgenden Potenzreihen definiert:
sin z =
cos z =
∞
X
(−1)n 2n+1
z3
z5
z
=z−
+
− ··· ,
(2n
+
1)!
6
120
n=0
∞
X
(−1)n
n=0
(2n)!
z 2n = 1 −
z2 z4
+
− ···
2
24
Da diese Potenzreihen beide von der konvergenten Reihe
exp(|z|) =
∞
X
|z|n
n=0
n!
majorisiert werden, haben sie nach §7.Lemma 14 beide den Konvergenzradius R = ∞.
Dass es sich wirklich für reelles z ∈ R um den normalen Sinus und den normalen
Cosinus handelt, kann man an dieser Stelle leider nicht direkt begründen. Wir werden
später bei der Behandlung der Taylorentwicklung dazu kommen.
$Id: stetig.tex,v 1.12 2012/07/16 15:38:22 hk Exp $
§9
Stetigkeit
Vorlesung 19, Donnerstag 21.6.2012
Wir wollen den Begriff einer stetigen Funktion einführen, und als Hilfsbegriff hierfür
benötigen wir etwas allgemeiner die sogenannten Grenzwerte von Funktionen. All dies
können wir sowohl für reelle als auch für komplexe Zahlen durchführen. Um diese
beiden Fälle nicht trennen zu müssen, schreiben wir im folgenden K für die reellen
oder die komplexen Zahlen, es sei also K ∈ {R, C}. Wie in §6 angekündigt werden alle
Grenzwertbegriffe auf den Begriff der Folgenkonvergenz zurückgeführt. Dies haben wir
in §7 bereits für Reihen getan, und jetzt führen wir auch Funktionsgrenzwerte durch
Zurückführung auf Folgengrenzwerte ein.
150
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Definition 9.1: Seien D ⊆ K und f : D → K eine Funktion. Weiter sei x0 ∈ K mit
x0 ∈ D\{x0 }. Dann konvergiert f (x) für x gegen x0 gegen ein y ∈ K, in Zeichen
lim f (x) = y,
x→x0
wenn für jede Folge (xn )n∈N in D\{x0 } mit lim xn = x0 auch
n→∞
lim f (xn ) = y
n→∞
ist. Ist x0 ∈ D, so nennen wir die Funktion f stetig in x0 wenn
lim f (x) = f (x0 )
x→x0
gilt. Schließlich heißt f stetig wenn f in jedem Punkt x0 ∈ D stetig ist.
Wir wollen die Definition zunächst noch ein klein wenig kommentieren. Zunächst
einmal kann man sich fragen warum Grenzwerte für x gegen ein x0 ∈
/ D überhaupt
betrachtet werden sollen? Dies ist aber tatsächlich gewünscht, zum Beispiel will man
Dinge wie
sin x
lim
x→0 x
untersuchen, und hier ist die Funktion sin(x)/x in x = 0 überhaupt nicht definiert.
Warum jetzt die Bedingung x0 ∈ D\{x0 }? Damit die Definition des Grenzwerts sinnvoll
ist, muss es überhaupt gegen x0 konvergente Folgen in D\{x0 } geben und genau dies
wird durch die Forderung x0 ∈ D\{x0 } erreicht. Da Folgengrenzwerte nach §6.Lemma 5
eindeutig sind, ist auch der Funktionsgrenzwert für x gegen x0 eindeutig, wenn er denn
überhaupt existiert. Als letzte Frage, warum soll xn 6= x0 für alle n ∈ N sein? Auch
dies hat seinen Grund. Andernfalls könnten wir im Fall x0 ∈ D die konstante Folge
xn = x0 nehmen, und dann ist auch f (xn ) = f (x0 ) konstant, hat also den Grenzwert
f (x0 ). Damit könnte f (x) dann wenn überhaupt nur gegen f (x0 ) konvergieren, die
Existenz des Grenzwerts und Stetigkeit wären also dasselbe. Das kann man so machen,
wir wollen es hier aber nicht tun. Wir diskutieren jetzt einige Beispiele.
1. Sei f : R → R; x 7→ x, also D = R. Sind x0 ∈ R und (xn )n∈N eine gegen x0
konvergente Folge, so ist auch (f (xn ))n∈N = (xn )n∈N gegen x0 konvergent, also
lim x = x0 .
x→x0
2. Jetzt sei f : R\{0} → R; x 7→ x. Ist f dann in 0 stetig? Man ist geneigt auf das
vorige Beispiel zu verweisen und dies zu bejahen. Aber es gibt hier ein kleines
Problem. Stetigkeit ist überhaupt nur in Punkten des Definitionsbereichs der
Funktion definiert, also nicht in 0. Die Funktion ist also nicht nur nicht stetig
in 0, die ganze Frage ist eigentlich sinnlos. Man kann f natürlich zu einer in 0
stetigen Funktion ergänzen, aber das ist ein ganz anderes Thema.
151
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
3. Etwas komplizierter betrachte jetzt f : R → R; x 7→ x2 . Sind dann wieder x0 ∈ R
und (xn )n∈N eine gegen x0 konvergente Folge, so ergibt sich mit den Rechenregeln
für Folgengrenzwerte §6.Lemma 14 auch
2
2
lim f (xn ) = lim xn = lim xn = x20 .
n→∞
n→∞
n→∞
Damit ist
lim x2 = x20 .
x→x0
Insbesondere ist f stetig.
4. Analog zum eben behandelten Beispiel ist auch jedes Polynom p : K → K stetig.
5. Kommen wir einmal zu einem Beispiel einer nicht stetigen Funktion. Wir betrachten die sogenannte Heaviside-Funktion
(
1, x ≥ 0,
H : R → R; x 7→
0, x < 0.
Diese spielt zum Beispiel bei der Diskussion von Einschaltvorgängen“ eine Rolle.
”
Wir wollen uns klarmachen, dass der Grenzwert limx→0 H(x) nicht existiert. Um
dies zu sehen, können wir beispielsweise die durch
(−1)n
xn :=
n
für n ∈ N definierte Folge betrachten. Diese ist ein Nullfolge und für jedes n ∈ N
gilt
(
1, n ist gerade,
H(xn ) =
0, n ist ungerade.
Wir haben also verschiedene Häufungspunkte 0 und 1, und die Folge (H(xn ))n∈N
ist somit divergent. Folglich gibt es auch keinen Grenzwert von H(x) für x gegen
0.
Es gibt die sogenannten links- und rechtsseitigen Grenzwerte. Diese entstehen
wenn man nur von links beziehungsweise von rechts gegen x0 konvergente Folgen
betrachtet. Formal ist der linksseitige Grenzwert von x gegen x0 einer Funktion
f : D → K definiert durch

 Für jede gegen x0 konvergente Folge
(xn )n∈N in D mit xn < x0 für alle
lim f (x) = y :⇐⇒
x↑x0
 n ∈ N ist auch lim f (x ) = y.
n
n→∞
Man braucht natürlich auch wieder Voraussetzungen an D und x0 , die die Existenz einer solchen Folge überhaupt sicherstellen, aber dieses Detail wollen wir
152
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
jetzt einmal ignorieren. Analog ist auch ein rechtsseitiger Grenzwert lim f (x) dex↓x0
finiert, bei dem nur Folgen mit xn > x0 für alle n ∈ N betrachtet werden. All
dies ist natürlich nur im Fall K = R sinnvoll.
Im Beispiel unserer Heaviside-Funktion haben wir
lim H(x) = 0 und lim H(x) = 1.
x↑0
x↓0
6. Als letztes Beispiel betrachten wir den ganzzahligen Anteil einer reellen Zahl x,
die sogenannte Gauß-Klammer
[x] := max{n ∈ Z|n ≤ x} (x ∈ R).
Die Schreibweise hierfür wird nicht einheitlich gehandhabt, gelegentlich finden
sie auch andere Symbole für diese Größe. Beispielsweise sind [2, 3] = 2 aber
[−2, 3] = −3. Die Funktion f (x) = [x] ist in jedem Punkt x0 ∈ R\Z stetig, aber
nicht bei ganzzahligen Argumenten x0 ∈ Z. Für x0 ∈ Z gelten dagegen
lim [x] = x0 − 1 und lim [x] = x0 .
x↑x0
x↓x0
Wir hatten eine Funktion f : D → K stetig in einem Punkt x0 ∈ D genannt, wenn
limx→x0 f (x) = f (x0 ) gilt, und setzen wir die Definition des Funktionsgrenzwerts hier
ein, so bedeutet dies das für jede gegen x0 konvergente Folge (xn )n∈N in D\{x0 } stets
auch limn→∞ f (xn ) = f (x0 ) ist. Die Einschränkung xn 6= x0 ist dabei in diesem Kontext
überflüssig, für Folgenglieder xn = x0 ist ja sogar f (xn ) = f (x0 ). Wir erhalten
f stetig in x0 ⇐⇒ ∀((xn )n∈N ∈ D) : lim xn = x0 =⇒ lim f (xn ) = f (x0 ).
n→∞
n→∞
Dabei stand K“ für die reellen Zahlen oder die komplexen Zahlen. Erinnern wir uns
”
weiter daran, dass f stetig ist wenn f in jedem Punkt x0 ∈ D stetig ist, so ergibt sich
weiter die folgende Äquivalenz
(
Für jede in D konvergente Folge
f stetig ⇐⇒
(xn )n∈N ∈ D gilt f ( lim xn ) = lim f (xn ).
n→∞
n→∞
Neben dieser Formulierung des Stetigkeitsbegriffs gibt es auch noch eine hierzu gleichwertige sogenannte –δ Definition der Stetigkeit, die im nächsten Lemma hergeleitet
wird.
Lemma 9.2 (–δ Definition der Stetigkeit)
Seien D ⊆ K und f : D → K eine Funktion. Dann ist f genau dann stetig in einem
Punkt x0 ∈ D wenn es für jedes > 0 ein δ > 0 mit |f (x) − f (x0 )| < für alle x ∈ D
mit |x − x0 | < δ gibt.
153
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Beweis: ”=⇒” Wir müssen die Gültigkeit der Aussage
∀( > 0)∃(δ > 0)∀(x ∈ D) : |x − x0 | < δ =⇒ |f (x) − f (x0 )| < einsehen, und dies werden wir durch einen Widerspruchsbeweis tun. Angenommen
unsere Aussage wäre falsch, d.h. ihre Verneinung ist wahr. Erinnern wir uns daran
das die Verneinung einer Allaussage eine Existenzaussage und die Verneinung einer
Existenzaussage eine Allaussage ist, jeweils mit der verneinten Aussageform, so erhalten
wir die Gültigkeit von
∃( > 0)∀(δ > 0)∃(x ∈ D) : |x − x0 | < δ ∧ |f (x) − f (x0 )| ≥ .
Wähle ein solches 0 > 0, es soll also für jedes δ > 0 stets ein x ∈ D mit |x − x0 | < δ
und |f (x) − f (x0 )| ≥ 0 geben. Ist jetzt n ∈ N, so können wir dies mit δ = 1/n > 0
anwenden, und erhalten ein xn ∈ D mit
|xn − x0 | <
1
und |f (xn ) − f (x0 )| ≥ 0 .
n
Damit haben wir eine Folge (xn )n∈N in D, und wegen limn→∞ 1/n = 0 liefert das Einschnürungslemma Aufgabe (43) auch limn→∞ (xn −x0 ) = 0 und somit auch limn→∞ xn =
x0 . Die vorausgesetzte Stetigkeit von f in x0 ergibt
lim f (xn ) = f (x0 ).
n→∞
Insbesondere existiert ein n ∈ N mit |f (xn ) − f (x0 )| < 0 , im Widerspruch zur Wahl
von xn .
”⇐=” Sei (xn )n∈N eine gegen x0 konvergente Folge in D. Wir müssen zeigen, dass
dann auch (f (xn ))n∈N gegen f (x0 ) konvergiert. Sei also > 0 gegeben. Nach unserer
Voraussetzung gibt es dann ein δ > 0 mit |f (x) − f (x0 )| < für alle x ∈ D mit
|x−x0 | < δ. Da (xn )n∈N gegen x0 konvergiert gibt es weiter ein n0 ∈ N mit |xn −x0 | < δ
für alle n ≥ n0 . Ist also n ∈ N mit n ≥ n0 , so ist xn ∈ D mit |xn − x0 | < δ und folglich
auch |f (xn ) − f (x0 )| < . Damit konvergiert (f (xn ))n∈N gegen f (x0 ).
Oft wird auch die Bedingung
∀( > 0)∃(δ > 0)∀(x ∈ D) : |x − x0 | < δ =⇒ |f (x) − f (x0 )| < des Lemmas als Definition der Stetigkeit in x0 verwendet und unsere Folgendefinition
dann als gleichwertig bewiesen. Wir wollen noch kurz die Bedeutung des obigen Kriteriums kommentieren. In vielen Situationen sind die Argumente x nicht exakt gegeben,
sondern man hat nur eine Näherung x0 . Dies kann beispielsweise durch Rundungen
bei numerischen Rechnungen eintreten oder auch weil x durch Messungen ermittelt
wurde. Wollen wir dann den Funktionswert y = f (x) ausrechnen, so erhalten wir auch
nur einen genäherten Wert y 0 = f (x0 ). Diese Auswertung ist nur dann sinnvoll möglich
154
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
wenn bei kleinen Fehlern im Argument auch nur kleine Fehler im Wert auftreten. Wir
können die –δ in diesem Zusammenhang wie folgt interpretieren: Zu gegebener Fehlerschranke > 0 für den Funktionswert gibt es immer eine passende Fehlerschranke δ > 0
für das Funktionsargument so, dass wann immer die Näherung x0 von x höchstens um
δ von x abweicht, wenn also |x − x0 | < δ ist, so kann auch der genäherte Wert f (x0 )
um höchstens von f (x) abweichen, also |f (x) − f (x0 )| < . Stetigkeit bedeutet in dieser Interpretation also, dass man die Funktion sinnvoll auf Näherungswerte anwenden
kann.
Bisher haben wir noch nicht allzu viele Beispiele stetiger Funktionen gesehen. Wir
wollen jetzt einsehen das alle normalen“, also durch Formeln in den Grundfunktionen
”
definierten, Funktionen stetig sind, solange nicht gerade irgendwo durch Null geteilt
wird. Die Begründung dieser Tatsache beruht auf den sogenannten Vererbungseigen”
schaften“ der Stetigkeit, dies meint Aussagen die aus der vorausgesetzten Stetigkeit
gegebener Funktion f, g, . . . auf die Stetigkeit von aus f, g, . . . in irgendeinem Sinne
zusammengesetzten Funktionen schließen.
Der Beweis dieser Aussagen wird uns keine große Mühe machen. Schon bei der
Einführung der Folgen in §6 hatten wir angekündigt das die Folgen das technische
Hilfsmittel zur Behandlung aller anderen Grenzwertbegriffe sind, und dementsprechend werden wir jetzt alles auf uns schon bekannte Aussagen über konvergente Folgen
zurückführen.
Lemma 9.3: Seien D ⊆ K, x0 ∈ D und f : D → K eine Funktion. Dann gelten:
(a) Existiert der Grenzwert von f (x) für x gegen x0 , so existiert auch
lim |f (x)| = lim f (x) .
x→x0
x→x0
Ist insbesondere f in x0 stetig, so ist auch |f | in x0 stetig.
(b) Im Fall K = C gilt für jedes z ∈ C
lim f (x) = z ⇐⇒ lim Re(f (x)) = Re(z) ∧ lim Im(f (x)) = Im(z).
x→x0
x→x0
x→x0
Insbesondere ist f genau dann in x0 stetig wenn Re(f ) und Im(f ) beide in x0
stetig sind.
Beweis: (a) Sei (xn )n∈N eine gegen x0 konvergente Folge in D\{x0 }. Dann konvergiert die Folge (f (xn ))n∈N gegen den Grenzwert y = limx→x0 f (x). Nach §6.Lemma 15
konvergiert (|f (xn )|)n∈N gegen |y|. Dies beweist
lim |f (x)| = |y| = lim f (x) .
x→x0
x→x0
Die zweite Aussage ist eine unmittelbare Folgerung. (b) Diese Aussagen folgen da sich
die Konvergenz komplexer Folgen nach §6.6 an Real- und Imaginärteil ablesen läßt.
155
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Nun kommen wir zu den Rechenregeln für Funktionsgrenzwerte. Jede dieser Rechenregeln läßt sich auf die entsprechende Formel für Folgengrenzwerte zurückführen.
Lemma 9.4 (Rechenregeln für Funktionsgrenzwerte)
Seien D ⊆ K und x0 ∈ D. Dann gelten:
(a) Sind f, g : D → K, α, β ∈ K und existieren die Grenzwerte von f und g für x
gegen x0 , so existiert auch der Grenzwert
lim (αf (x) + βg(x)) = α · lim f (x) + β · lim g(x).
x→x0
x→x0
x→x0
Sind f und g in x0 stetig, so ist auch αf + βg in x0 stetig.
(b) Sind f, g : D → K zwei Funktionen und existieren die Grenzwerte von f und g
für x gegen x0 , so existiert auch der Grenzwert
lim (f (x) · g(x)) = lim f (x) · lim g(x).
x→x0
x→x0
x→x0
Sind f und g in x0 stetig, so ist auch f · g in x0 stetig.
(c) Sind f, g : D → K zwei Funktionen mit g(x) 6= 0 für alle x ∈ D und existieren die
Grenzwerte von f und g für x gegen x0 mit limx→x0 g(x) 6= 0, so existiert auch
der Grenzwert
lim f (x)
f (x)
x→x0
=
.
lim
x→x0 g(x)
lim g(x)
x→x0
Sind f und g in x0 stetig, so ist auch f /g in x0 stetig.
(d) Sind auch D0 ⊆ K, f : D → D0 in x0 stetig und g : D0 → K in f (x0 ) stetig, so ist
auch die Hintereinanderausführung g ◦ f : D → K in x0 stetig.
P
n
(e) Ist f (z) = ∞
n=0 an z eine Potenzreihe mit Konvergenzradius R > 0, so ist die
Funktion f : UR (0) → K in ihrem Konvergenzkreis stetig (für R = ∞ wird dieser
als ganz C interpretiert).
Beweis: (a) Sei (xn )n∈N eine gegen x0 konvergente Folge in D\{x0 }. Dann gilt nach
§6.Lemma 14.(a,b) auch
lim (αf (xn ) + βg(xn )) = α · lim f (xn ) + β · lim g(xn ) = α · lim f (x) + β · lim g(x).
n→∞
n→∞
n→∞
x→x0
x→x0
Dies beweist
lim (αf (x) + βg(x)) = α · lim f (x) + β · lim lim g(x).
x→x0
x→x0
x→x0 n→∞
Sind f und g beide in x0 stetig, so haben wir auch
lim (αf (x) + βg(x)) = α · lim f (x) + β · lim lim g(x) = αf (x0 ) + βg(x0 ),
x→x0
x→x0
x→x0 n→∞
156
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
d.h. auch αf + βg ist in x0 stetig.
(b,c) Dies ist mit §6.Lemma 14.(c,d) völlig analog zum Beweis von Teil (a).
(d) Sei (xn )n∈N eine gegen x0 konvergente Folge in D. Da f in x0 stetig ist, ist dann
auch (f (xn ))n∈N eine gegen f (x0 ) konvergente Folge in D0 . Da weiter auch g in f (x0 )
stetig ist, ist schließlich auch (g(f (xn )))n∈N gegen g(f (x0 )) konvergent. Dies beweist
die Stetigkeit von g ◦ f in x0 .
(e) Da dies etwas komplizierter ist, wollen wir hier auf diesen Beweis verzichten.
Mit diesem Lemma sind jetzt tatsächlich alle durch Formeln in den Grundfunktionen
gegebenen Funktionen stetig. Denn zunächst sind nach Aussage (e) Polynome, die
Exponentialfunktion und die trigonometrischen Funktionen Sinus und Cosinus allesamt
stetig. Weiter ist dann alles was wir hieraus durch Hintereinanderausführen und die
Grundrechenarten zusammensetzen können stetig. Beispielsweise ist
f (x) = e2x + sin(x) · cos(x2 ) + esin x
stetig, da es durch eine Formel in den Grundfunktionen definiert ist. Im reellen Fall
K = R werden stetige Funktionen gelegentlich auch stückchenweise zusammengesetzt.
Als einfachsten Fall nehmen wir eine Funktion die aus zwei Stücken zusammengesetzt
ist, etwa
(
sin x, x ≥ 0,
f : R → R; x 7→
x,
x < 0.
Die Funktion f ist in zwei Teilen I1 = R≥0 und I2 = R<0 definiert. Auf I1 stimmt f
mit der stetigen Funktion f1 (x) = sin x überein und auf I2 ist f die stetige Funktion
f2 (x) = x. Eine solche Funktion ist genau dann stetig wenn f1 und f2 im gemeinsamen
Endpunkt x0 = 0 der beiden Intervalle übereinstimmen, wenn also f1 (x0 ) = f2 (x0 ) gilt.
Im Beispiel ist f1 (0) = sin(0) = 0 = f2 (0), die Funktion f ist also stetig.
Allgemein haben wir die folgende Situation. Gegeben seien von links nach rechts
angeordnete Intervalle I1 , . . . , Ir bei denen aufeinanderfolgende Intervalle IS
j und Ij+1
stets einen gemeinsamen Randpunkt xj haben (1 ≤ j < r). Sei D := rj=1 Ij die
Vereinigung dieser Intervalle und f : D → R eine auf D definierte Funktion. Auf jedem
der Intervalle Ij stimme f mit einer stetigen Funktion fj : Ij → R überein. Dann
ist f genau dann stetig wenn fj (xj ) = fj+1 (xj ) für alle 1 ≤ j < r gilt, also wenn
die Funktionen f1 , . . . , fr in den Punkten in denen die aufeinanderfolgenden Intervalle
zusammentreffen stets übereinstimmen. Wir wollen dies nicht formal beweisen, man
kann es leicht über die Betrachtung links- und rechtsseitiger Grenzwerte einsehen. Wir
wollen uns lieber zwei Beispiele anschauen. Betrachte die beiden Funktionen
 x

e ,
x ≤ 0,




1,
0, x ≤ 0,
0 < x < 1,
f : R → R; x 7→
g : R → R; x 7→ x, 0 < x < 2,
2


x
,
1
≤
x
<
2,

 2

x , x ≥ 2.

6 − x, x ≥ 2,
157
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Im ersten Beispiel ist der Definitionsbereich D = R in die vier Intervalle I1 = R≤0 ,
I2 = (0, 1), I3 = [1, 2) und I4 = R≥2 unterteilt. Die gemeinsamen Randpunkte sind
x1 = 0, x2 = 1 und x3 = 2. Auf Ij für j = 1, 2, 3, 4 stimmt f mit der stetigen Funktion
f1 (x) = ex , f2 (x) = 1, f3 (x) = x2 und f4 (x) = 6 − x überein. Um f auf Stetigkeit zu
überprüfen müssen wir die Funktionswerte in den drei Zerlegungspunkten anschauen.
Es sind f1 (0) = e0 = 1, f2 (0) = 1, f2 (1) = 1, f3 (1) = 12 = 1, f3 (2) = 22 = 4 und
f4 (2) = 6 − 2 = 4, an den drei Schnittstellen passt also alles zusammen. Damit ist f
auf ganz R stetig.
Schauen wir uns noch die Funktion g an. Hier haben wir die drei Intervall I1 = R≤0 ,
I2 = (0, 2) und I3 = R≥2 mit den Zerlegungspunkten x1 = 0 und x2 = 2. Auf den
Intervallen Ij , j = 1, 2, 3 haben wir jeweils die stetige Funktion g1 (x) = 0, g2 (x) = x
und g3 (x) = x2 . In x1 = 0 ist wegen g1 (0) = 0 = g2 (0) alles in Ordnung. Bei x2 = 2
haben wir dagegen g2 (2) = 2 aber g3 (2) = 22 = 4 6= 2. Hier passen die Teile also nicht
zusammen und die Funktion g ist in x2 = 2 nicht stetig.
9.1
Eigenschaften stetiger Funktionen
Wir wollen in diesem Abschnitt einige der Haupteigenschaften stetiger Funktionen
herleiten. Dabei betrachten wir hier nur den reellen Fall K = R. Wir beginnen mit
dem sogenannten Zwischenwertsatz, zu dessen Beweis wir das schon in §4.6.1 für reelle
Polynome angekündigte Intervallhalbierungsverfahren benutzen werden. Der Zwischenwertsatz besagt das eine stetige Funktion f : [a, b] → R jeden Funktionswert zwischen
f (a) und f (b) annimmt. Anschaulich ist dies klar, denken wir uns x als eine Zeit, so ist
f zum Zeitpunkt x = a in f (a) und zum Zeitpunkt x = b in f (b). Ist dann ξ zwischen
f (a) und f (b), so kann f den Wert ξ auf dem Weg von f (a) nach f (b) nicht einfach
überspringen. Der exakte Beweis läuft wie schon bemerkt über das Intervallhalbierungsverfahren und liefert sogar einen Algorithmus zur näherungsweisen Berechnung
eines x mit f (x) = ξ.
Satz 9.5 (Zwischenwertsatz und Intervallhalbierungsverfahren)
Seien a, b ∈ R mit a < b und f : [a, b] → R stetig mit f (a) < f (b). Dann gibt es für
jedes ξ ∈ [f (a), f (b)] zwischen f (a) und f (b) ein x ∈ [a, b] mit f (x) = ξ.
Beweis: Wir setzen a0 := a und b0 := b. Dann ist a0 < b0 und f (a0 ) ≤ ξ ≤ f (b0 ). Nun
sei n ∈ N mit n ≥ 1 und an−1 , bn−1 mit a ≤ an−1 < bn−1 ≤ b und f (an−1 ) ≤ ξ ≤ f (bn−1 )
seien bereits konstruiert. Wir betrachten dann den Mittelpunkt cn zwischen an−1 und
bn−1 also
an−1 + bn−1
cn :=
mit an−1 < cn < bn−1 .
2
Es gibt jetzt zwei verschiedene Fälle.
Fall 1. Es ist f (cn ) ≤ ξ. Dann setzen wir an := cn , bn := bn−1 und haben weiterhin
a ≤ an−1 < an < bn ≤ b und f (an ) = f (cn ) ≤ ξ ≤ f (bn ).
Fall 2. Andernfalls ist f (cn ) > ξ. Dann können wir an := an−1 und bn := cn setzen,
und haben erneut a ≤ an < bn < bn−1 ≤ b und f (an ) ≤ ξ < f (bn ).
158
Mathematik für Informatiker B, SS 2012
Donnerstag 21.6.2012
Damit haben wir rekursiv zwei Folgen (an )n∈N und (bn )n∈N mit a ≤ an < bn ≤ b
und f (an ) ≤ ξ ≤ f (bn ) für alle n ∈ N definiert. Im jeden Iterationsschritt halbiert sich
der Abstand zwischen an und bn , wir haben also
bn − an =
b−a
2n
für alle n ∈ N. Weiter sind (an )n∈N nach Konstruktion monoton steigend und (bn )n∈N
monoton fallend. Nach §6.Lemma 16 konvergieren beide Folgen
x := lim an und x0 := lim bn .
n→∞
n→∞
Nach den Rechenregeln für Folgengrenzwerte §6.Lemma 14 gilt
b−a
= 0,
n→∞ 2n
x0 − x = lim bn − lim an = lim (bn − an ) = lim
n→∞
n→∞
n→∞
d.h. es ist x = x0 . Da f in x stetig ist und Anordnungsbeziehungen nach §6.Lemma 11
von Folgengrenzwerten erhalten werden, ist
f (x) = lim f (an ) ≤ ξ ≤ lim f (bn ) = f (x),
x→∞
n→∞
d.h. es ist f (x) = ξ.
Ein entsprechender Satz gilt natürlich auch wenn f (b) < f (a) ist, dann gibt es für jedes
f (b) ≤ ξ ≤ f (a) ein x ∈ [a, b] mit f (x) = ξ. Auch das Intervallhalbierungsverfahren
kann man in diesem Fall entsprechend verwenden. Die Lösung x von f (x) = ξ liegt
immer zwischen an und bn , also ist auch
|x − an | = x − an ≤ bn − an =
b−a
2n
und ebenso |x−bn | ≤ (b−a)/2n . Verwenden wir also an beziehungsweise bn als Näherung
an die Lösung x von f (x) = ξ, so verkleinert sich der Approximationsfehler bei dreifacher Ausführung des Iterationsschritts um den Faktor 8, und bei vierfacher Ausführung
um den Faktor 16, wir können also sagen, dass wir grob alle drei bis vier Iterationsschritte eine neue Dezimalstelle gewinnen. Das ist zwar nicht besonders schnell, aber
der Rechenaufwand läßt sich gut a priori abschätzen. Zum Beispiel verwenden wir einmal das Intervallhalbierungsverfahren um die Gleichung cos x = x für 0 ≤ x ≤ π/2
zu lösen. Als Funktion verwenden wir f (x) = x − cos x, also f (0) = −1 < 0 und
f (π/2) = π/2 > 0. Wegen π/2 ≈ 1.57 sollten wir nach spätestens 12 Iterationsschritten eine auf zwei Dezimalstellen genaue Lösung haben:
159
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
1.6
n
0
1
2
3
4
5
6
7
8
9
10
11
a
0
0
0.3926990818
0.5890486227
0.6872233932
0.7363107784
0.7363107784
0.7363107784
0.7363107784
0.7363107784
0.7378447592
0.7386117496
b
1.570796327
0.7853981635
0.7853981635
0.7853981635
0.7853981635
0.7853981635
0.7608544710
0.7485826247
0.7424467016
0.7393787400
0.7393787400
0.7393787400
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Der Fehler bei n = 11 ist dabei höchstens π/212 ≈ 0.0007669903940, und auf zwei
Dezimalstellen genau ist die Lösung x ≈ 0.73.
Vorlesung 20, Dienstag 26.6.2012
Am Ende der letzten Sitzung hatten wir eine der Grundeigenschaften stetiger Funktionen nachgewiesen, den sogenannten Zwischenwertsatz, und diesen verwendet das
Intervallhalbierungsverfahren zu begründen. Wir werden jetzt auch noch zwei weitere
wichtige Eigenschaften stetiger Funktionen herleiten.
Satz 9.6 (Beschränktheit stetiger Funktionen)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion. Dann ist die
Funktion f beschränkt und nimmt ihr Maximum und Minimum in [a, b] an, d.h. es gibt
u, v ∈ [a, b] mit f (u) ≤ f (x) ≤ f (v) für alle x ∈ [a, b].
Beweis: Angenommen die Funktion f wäre unbeschränkt. Sei n ∈ N. Dann kann nicht
|f (x)| ≤ n für alle x ∈ [a, b] gelten, also existiert ein xn ∈ [a, b] mit |f (xn )| > n.
Dies definiert eine Folge (xn )n∈N in [a, b] und nach dem Satz von Bolzano-Weierstrass
§6.Satz 17 existiert eine konvergente Teilfolge (xnk )k∈N dieser Folge. Bezeichne x ∈ R
den Grenzwert von (xnk )k∈N . Nach §6.Lemma 11 ist x ∈ [a, b] und da die Funktion f in
x stetig ist, konvergiert (f (xnk ))k∈N gegen f (x). Insbesondere ist die Folge (f (xnk ))k∈N
nach §6.Lemma 10 beschränkt. Andererseits ist |f (xnk )| > nk für jedes k ∈ N und damit
kann diese Folge nicht beschränkt sein. Dieser Widerspruch beweist die Beschränktheit
der Funktion f .
Wir zeigen nun das f sein Maximum in [a, b] annimmt. Da wir schon wissen das f
beschränkt ist, existiert das Supremum s := sup{f (x)|x ∈ [a, b]}. Sei n ∈ N. Wegen
s − 1/n < s ist s − 1/n dann keine obere Schranke von f ([a, b]), also existiert ein
160
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
xn ∈ [a, b] mit f (xn ) > s − 1/n. Wie oben existiert eine Teilfolge (xnk )k∈N die gegen
ein x ∈ [a, b] konvergiert. Da f in x stetig ist, konvergiert (f (xnk ))k∈N gegen f (x). Mit
§6.Lemma 11 folgt
s = lim s −
k→∞
1
≤ lim f (xnk ) = f (x) ≤ s,
nk k→∞
d.h. es ist f (x) = s. Also nimmt die Funktion f ihr Maximum in x ∈ [a, b] an. Analog
nimmt die Funktion auch ihr Minimum in [a, b] an.
Für diesen Satz ist es entscheidend, dass f auf einem Intervall der Form [a, b] definiert
ist, für andere Intervalltypen ist die Aussage falsch. Beispielsweise ist die Funktion
f : (0, 1] → R; x 7→ 1/x stetig aber unbeschränkt. Als letzte Grundeigenschaft können
wir jetzt die Stetigkeit der Umkehrfunktionen bijektiver stetiger Funktionen einsehen.
Lemma 9.7 (Umkehrfunktionen stetiger Bijektionen)
Seien a, b ∈ R mit a < b und f : [a, b] → R eine stetige, streng monoton wachsende
(fallende) Funktion. Dann ist f : [a, b] → [f (a), f (b)] (f : [a, b] → [f (b), f (a)]) bijektiv
und die Umkehrfunktion f −1 : [f (a), f (b)] → [a, b] (f −1 : [f (b), f (a)] → [a, b]) ist wieder
stetig und streng monoton wachsend (fallend).
Beweis: Wir beweisen die Aussagen im monoton steigenden Fall, die andere Fall ist
dann analog. Für alle x ∈ [a, b] ist f (a) ≤ f (x) ≤ f (b) da f monoton steigend ist, also
f (x) ∈ [f (a), f (b)]. Ist umgekehrt y ∈ [f (a), f (b)] so gibt es nach dem Zwischenwertsatz
Satz 5 ein x ∈ [a, b] mit f (x) = y. Damit ist f : [a, b] → [f (a), f (b)] surjektiv. Da f
streng monoton steigend ist, ist f auch injektiv denn sind x, y ∈ [a, b] mit x 6= y,
also etwa x < y, so ist auch f (x) < f (y) und insbesondere f (x) 6= f (y). Somit ist
f : [a, b] → [f (a), f (b)] bijektiv.
Es verbleibt die Stetigkeit der Umkehrfunktion f −1 : [f (a), f (b)] → [a, b] zu beweisen. Sei also (yn )n∈N eine Folge in [f (a), f (b)] die gegen ein y ∈ [f (a), f (b)] konvergiert.
Angenommen (f −1 (yn ))n∈N konvergiert nicht gegen f −1 (y). Dann gilt nicht
∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |f −1 (yn ) − f −1 (y)| < .
Verneinen wir diese Aussage, so erhalten wir ein 0 > 0 so, dass
∀(n ∈ N)∃(m ≥ n) : |f −1 (ym ) − f −1 (y)| ≥ 0
gilt. Rekursiv können wir damit eine Teilfolge (ynk )k∈N konstruieren so, dass
|f −1 (ynk ) − f −1 (y)| ≥ 0
für alle k ∈ N gilt. Nach dem Satz von Bolzano-Weierstrass §6.Satz 17 existiert eine
weitere Teilfolge (ynkl )l∈N so, dass die Folge (f −1 (ynkl ))l∈N gegen ein x ∈ R konvergiert,
und nach §6.Lemma 11 ist auch x ∈ [a, b]. Da die Funktion f in x stetig ist, gilt auch
f (x) = lim f (f −1 (ynkl )) = lim ynkl = lim yn = y,
l→∞
l→∞
161
n→∞
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
d.h. es ist x = f −1 (y). Insbesondere existiert ein l ∈ N mit
|f −1 (ynkl ) − f −1 (y)| = |f −1 (ynkl ) − x| < 0 ,
im Widerspruch zur Wahl der Teilfolge (ynk )k∈N . Dieser Widerspruch beweist die Konvergenz von (f −1 (yn ))n∈N gegen f −1 (y). Damit ist f −1 stetig. Dass f −1 auch streng
monoton steigend ist, ist klar denn sind x, y ∈ [f (a), f (b)] mit x < y so folgte aus
f −1 (x) ≥ f −1 (y) auch x = f (f −1 (x)) ≥ f (f −1 (y)) = y, d.h. es ist f −1 (x) < f −1 (y).
Sei beispielsweise n ∈ N∗ gegeben. Dann ist die Funktion
f : R≥0 → R≥0 ; x 7→ xn
streng monoton steigend und damit folgt das die Umkehrfunktion von f wieder stetig
ist. Streng genommen kann Lemma 7 eigentlich nicht angewendet werden da es sich
nicht um ein Intervall [a, b] handelt, aber Anwendung auf die Intervalle [0, m] mit
wachsenden m ∈ N ergibt auch in diesem Fall die Aussage. Die Umkehrfunktion von f
ist
√
n
: R≥0 → R≥0
was somit ebenfalls eine stetige Funktion ist.
9.2
Die Potenzfunktion mit rationalen Exponenten
In §8.1.1 hatten wir die Exponentialfunktion als die auf ganz C konvergente Potenzreihe
exp(z) =
∞
X
zn
n=0
n!
eingeführt und bereits behauptet das diese eine Potenzfunktion exp(z) = ez ist. Dies
soll in den folgenden Abschnitten etwas näher begründet werden. Entscheidend hierfür
wird die Funktionalgleichung §8.Satz 7 exp(z + w) = exp(z) · exp(w) gültig für alle
z, w ∈ C sein. Wir wissen bereits das
∞
X
1
exp(1) =
=e
n!
n=0
die in §7.3 eingeführte eulersche Zahl ist. Wir werden uns klarmachen, dass exp(x)
für reelles x ∈ R tatsächlich die reelle Potenz ex ist. Dies machen wir in mehreren
Schritten und beginnen mit dem Fall x = n ∈ Z ganzzahliger Exponenten. Potenzen
mit natürlichen Exponenten n ∈ N∗ hatten wir für jedes a ∈ R als
an = a
. . . · a}
| · · ·{z
n mal
162
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
definiert. Für jedes n ∈ N∗ erhalten wir durch mehrfache Anwendung der Funktionalgleichung
exp(n) = exp(1| + ·{z
· · + 1} = exp(1) · . . . · exp(1) = exp(1)n = en ,
{z
}
|
n mal
n mal
für natürliches x = n ∈ N∗ ist also exp(x) = ex . Für die noch fehlende natürliche
Zahl x = 0 haben wir ebenfalls exp(0) = 1 = e0 = ex . Um die Gleichung exp(x) = ex
auch auf ganzzahliges x ∈ Z auszudehnen, werden wir erneut die Funktionalgleichung
verwenden. Sei nämlich n ∈ N∗ . Dann wissen wir bereits exp(n) = en und erhalten
weiter
1 = exp(0) = exp(n + (−n)) = exp(n) · exp(−n) = en · exp(−n)
=⇒ exp(−n) =
1
= e−n .
en
Damit gilt exp(x) = ex für alle ganzen Zahlen x ∈ Z. Im nächsten Schritt wollen
wir dies auch noch auf rationales x ∈ Q ausdehnen und erinnern uns zunächst an die
Definition von Potenzen mit rationalen Exponenten. Eine rationale Zahl q ∈ Q konnten
wir als Bruch q = m/n mit m ∈ Z, n ∈ N∗ schreiben, und dann wurde für a > 0
√
√ m
m
aq = a n := n am = n a
definiert. Wir starten mit den Stammbrüchen, sei also q ∈ Q gegeben und schreibe
q = m/n mit m ∈ Z, n ∈ N∗ . Mit einer n-fachen Anwendung der Funktionalgleichung
erhalten wir
em = exp(m) = exp(n · q) = exp(q + · · · + q ) = exp(q) · . . . · exp(q) = exp(q)n ,
| {z }
|
{z
}
n mal
und dies bedeutet
exp(q) =
√
n
n mal
m
em = e n = eq .
Damit gilt exp(x) = ex auch für x = q ∈ Q.
9.3
Die Exponentialfunktion in R
Die Überlegungen des letzten Abschnitts haben das folgende Lemma bewiesen:
Lemma 9.8: Es gilt exp(q) = eq für alle q ∈ Q.
Es verbleibt diese Formel auf allgemeine reelle Exponenten auszudehnen. Wie wird ex
für x ∈ R\Q überhaupt definiert? Ist x ∈ R, so gibt es eine gegen x konvergente Folge
(qn )n∈N rationaler Zahlen. Dies gilt letztlich da die rationalen Zahlen Q nach §8.Satz 1
dicht in R sind. Haben wir jetzt eine solche Folge, so setze
ex := lim eqn .
n→∞
163
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
Natürlich gibt es einige zu lösende Probleme bei dieser Konstruktion, zum einen muss
man zeigen das dieser Grenzwert überhaupt existiert und das er zum anderen nur von
x und nicht von der speziell gewählten Folge (qn )n∈N abhängt. All dies folgt aber aus
den uns schon bekannten Tatsachen. Zunächst ist die die Exponentialfunktion Lemma
4.(e) stetig das sie durch eine Potenzreihe definiert wird. Außerdem wissen wir nach
Lemma 8 bereits exp(qn ) = eqn für jedes n ∈ N, und somit folgt
lim eqn = lim exp(qn ) = exp( lim qn ) = exp(x).
n→∞
n→∞
n→∞
Damit ist exp(x) = ex für jedes x ∈ R.
9.4
Die Exponentialfunktion in C
Nachdem wir im letzten Abschnitt exp(x) = ex für alle x ∈ R eingesehen haben, ist es
nun naheliegend ez für komplexe Exponenten z einfach durch
ez := exp(z)
zu definieren wie es schon in §8.1.1 vorweg genommen wurde. Wir wollen jetzt einige
Eigenschaften dieser komplexen Exponentialfunktion herleiten.
Satz 9.9: Die Exponentialfunktion exp : C → C ist stetig.
Beweis: Dies wissen wir bereits aus Lemma 4.(e).
Bevor wir zu den Grundeigenschaften der komplexen Exponentialfunktion kommen,
wollen wir noch eine Kleinigkeit
über komplexe Reihen festhalten. Angenommen wir
P∞
haben eine konvergente Reihe n=0 zn komplexer
5 wissen
P∞Zahlen. GemäßP§7.Lemma
∞
wir dann, dass auch die beiden reellen Reihen n=0 Re(zn ) und n=0 Im(zn ) konvergieren mit
∞
∞
∞
X
X
X
zn =
Re(zn ) + i ·
Im(zn ).
n=0
n=0
n=0
Dann konvergieren aber auch die beiden Reihen
∞
X
Re(zn ) =
n=0
und
∞
X
Im(zn ) =
n=0
∞
X
Re(zn )
n=0
∞
X
(− Im(zn )) = −
n=0
∞
X
Im(zn ),
n=0
und eine erneute Anwendung von §7.Lemma 5 ergibt die Konvergenz von
∞
X
n=0
zn =
∞
X
n=0
Re(zn ) + i ·
∞
X
n=0
Im(zn ) =
∞
X
n=0
164
Re(zn ) − i ·
∞
X
n=0
Im(zn ) =
∞
X
n=0
zn .
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
Mit dieser Vorbemerkung erhalten wir:
Lemma 9.10 (Grundeigenschaften der komplexen Exponentialfunktion)
Sei z ∈ C. Dann gelten
ez = eRe(z) · ei Im(z) , ez = ez und |ez | = eRe(z) .
Beweis: Wegen z = Re(z) + i Im(z) ergibt die Funktionalgleichung §8.Satz 7 der Exponentialfunktion
ez = eRe(z)+i Im(z) = eRe(z) · ei Im(z) .
Weiter ist nach unserer Vorbemerkung und §4.Lemma 21 auch
ez
∞
∞
∞
X
1 n X 1 n X 1 n
=
z =
z = ez .
z =
n!
n!
n!
n=0
n=0
n=0
Für jedes x ∈ R folgt weiter
p
p
√
√
√
|eix | = eix · eix = eix · eix = eix · e−ix = eix−ix = 1 = 1.
Damit folgt schließlich
|ez | = |eRe(z) · ei Im(z) | = eRe(z) · |ei Im(z) | = eRe(z) .
Wir können jetzt noch etwas weitergehen und die komplexe Exponentialfunktion
vollständig auf reelle Größen zurückführen.
Lemma 9.11 (Reelle Beschreibung der Exponentialfunktion)
Für alle x, y ∈ R gilt
ex+iy = ex · (cos y + i sin y),
insbesondere ist sin2 y + cos2 y = 1.
Beweis: Sei y ∈ R. Dann haben wir
iy
e =
∞
X
(iy)n
=
+
n!
n!
n=0
∞
X
(iy)n
n=0
n gerade
∞
X
n=0
n ungerade
(iy)n
.
n!
Durchläuft n die natürlichen Zahlen so durchläuft 2n die geraden Zahlen also ist
∞
∞
∞
∞
X
(iy)n X (iy)2n X (i2 )n 2n X (−1)n 2n
=
=
y =
y = cos y,
n!
(2n)!
(2n)!
(2n)!
n=0
n=0
n=0
n=0
n gerade
165
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
wobei wir die Beschreibung des Cosinus als Potenzreihe gemäß §8.1.2 verwenden. Ebenso durchläuft 2n + 1 für n ∈ N die ungeraden natürlich Zahlen und somit ist
∞
X
n=0
n ungerade
∞
∞
∞
X
X
(iy)n X (iy)2n+1
i · (i2 )n 2n+1
(−1)n 2n+1
=
=
y
=i
y
= i sin y.
n!
(2n + 1)! n=0 (2n + 1)!
(2n + 1)!
n=0
n=0
Insgesamt erhalten wir
eiy = cos y + i sin y.
Die restlichen Aussagen folgen jetzt mit Hilfe von Lemma 10. Zunächst ist
sin2 y + cos2 y = | cos y + i sin y|2 = |eiy |2 = 1
und weiter
ex+iy = ex · eiy = ex · (cos x + i sin y).
Die Gleichung sin2 y + cos2 y = 1 kennen Sie natürlich bereits, bilden wir Sinus durch
Cosinus durch Seitenverhältnisse in einem rechtwinkligen so ist dies gerade der Satz
des Pythagoras. Der Wert der hier bewiesenen Aussage liegt darin das hier die trigonometrischen Funktionen in ihrer Form als Potenzreihen gemäß §8.1.2 verwendet
werden. Streng genommen wissen wir von diesen nicht, dass sie die normalen“ trigo”
nometrischen Funktionen sind. Dass es sich tatsächlich um diese handelt werden wir
nicht mehr vollständig begründen, aber wir werden zumindest einige Indizien hierfür
sammeln. Der Definition von Sinus uns Cosinus als Potenzreihe sieht man nicht an,
dass es sich hier um periodische Funktionen handelt. Auch dies werden wir nicht mehr
zeigen, aber als einen ersten Schritt hierzu überlegen wie π ins Spiel kommt. Bei einem
strengen methodischen Aufbau der Theorie tut man zunächst so, als wäre π noch gar
nicht bekannt und müsste erst erfunden werden. Die geometrische Definition, etwa als
Fläche des Einheitskreises, ist nicht besonders geeignet da man dann erst einmal exakt
sagen müsste was Fläche“ eigentlich ist. Man behilft sich mit dem folgenden Trick.
”
Lemma 9.12: Die Cosinusfunktion hat eine kleinste positive Nullstelle, die wir als π/2
definieren. Diese liegt zwischen 0 und 2.
Auf einen Beweis wollen wir hier verzichten. Diese Methode π als das Doppelte der
kleinsten positiven Nullstelle des Cosinus zu definieren wirkt zugegebenermaßen recht
gekünstelt und wenig natürlich. Technisch ist es aber ein relativ bequemer Weg, den
Sie daher in vielen Einführungen in die Mathematik finden. Um jetzt zu zeigen, dass
Sinus und Cosinus beide die Periode 2π haben, kann man mit Lemma 11 aus der Funktionalgleichung der Exponentialfunktion die Additionstheorem für Sinus und Cosinus
herleiten. Durch geschicktes Einsetzen spezieller Werte in diese Additonstheorem ergibt
sich dann die Periodizität. Wie gesagt wollen wir dies nicht vollständig durchführen,
und geben im nächsten Lemma nur einige erste Folgerungen an.
166
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
Lemma 9.13: Es gelten
π
ei 2 = i, eiπ = −1 und e2πi = 1.
Beweis: Mit cos(π/2) = 0 ergibt sich über Lemma 11 auch
1 = sin2
π
π
π
+ cos2 = sin2 ,
2
2
2
also sin(π/2) = 1. Eigentlich gibt es auch noch die Möglichkeit sin(π/2) = −1, durch
Rechnen mit der Reihe
∞
π X (−1)n π 2n+1
sin =
2
(2n + 1)! 2
n=0
kann man unter Ausnutzung von 0 ≤ π/2 ≤ 2 aber sin(π/2) > 0 zeigen. Dies wäre eine
Übungsaufgabe falls das Semester etwas mehr Termine hätte. Einsetzen in Lemma 11
ergibt
π
π
π
ei 2 = cos + i sin = i.
2
2
Mit der Funktionalgleichung der Exponentialfunktion folgen jetzt weiter
π
π 2
π
eiπ = ei 2 +i 2 = ei 2 = i2 = −1
und
e2πi = eiπ+iπ = (eiπ )2 = (−1)2 = 1.
Hieraus folgt weiter das für jedes z ∈ C die Gleichung
ez+2πi = ez e2πi = ez
gilt, die komplexe Exponentialfunktion ist also periodisch mit der Periode 2πi.
9.5
Die Logarithmusfunktion
Wir haben bereits die Potenzen ex von e für alle reellen Zahlen x ∈ R mit Hilfe der
Exponentialfunktion als ex = exp(x) beschrieben. Dieses Ergebnis wollen wir jetzt
auf allgemeine reelle Potenzen ax mit a, x ∈ R, a > 0 ausdehnen. Als ein Hilfsmittel
hierzu benötigen wir den reellen Logarithmus, dies ist die Umkehrfunktion der reellen
Exponentialfunktion. Zunächst machen wir uns klar das die Exponentialfunktion auf
R streng monoton steigend ist. Für x ∈ R mit x > 0 gilt
ex =
∞
X
xn
n=0
n!
167
>1>0
Mathematik für Informatiker B, SS 2012
Dienstag 26.6.2012
da xn > 0 für alle n ∈ N ist. Ebenso ist e0 = 1 > 0. Außerdem ist auch
1 = e0 = ex−x = ex · e−x =⇒ e−x =
1
> 0.
ex
Damit haben wir ex > 0 für überhaupt alle x ∈ R. Jetzt ergibt sich auch leicht das die
Exponentialfunktion streng monoton steigend ist. Seien nämlich x, y ∈ R mit x < y
gegeben. Dann ist y − x > 0 und wir haben bereits ey−x > 1 eingesehen. Mit der
Funktionalgleichung folgt
ey = ey−x+x = ey−x ex > 1 · ex = ex .
Wir müssen uns noch überlegen was das Bild exp(R) ist. Für jedes m ∈ N∗ haben wir
m
e =1+m+
∞
X
mn
n=2
n!
> 1 + m, also lim em = +∞.
m→∞
Dies ergibt weiter auch
1
= 0.
m→∞
m→∞ em
Da die Exponentialfunktion nach Satz 9 stetig ist, folgt mit dem Lemma über Umkehrfunktionen Lemma 7 das exp : R → R>0 bijektiv ist, und eine stetige, streng monoton
steigende Umkehrfunktion
ln : R>0 → R
lim e−m = lim
besitzt. Diese Umkehrfunktion ist der sogenannte natürliche Logarithmus. Auch der
natürlich Logarithmus erfüllt eine Funktionalgleichung die aus der Funktionalgleichung
der Exponentialfunktion folgt. Sind x, y ∈ R>0 , so haben wir
exp(ln x + ln y) = exp(ln x) · exp(ln y) = x · y,
also
ln(xy) = ln x + ln y.
9.6
Exponential und Logarithmusfunktionen zur allgemeinen
Basis
Wie schon angekündigt wollen wir jetzt ax für a, x ∈ R mit a > 0 definieren.
Definition 9.14: Für a, x ∈ R mit a > 0 definiere die Potenz
ax := exp(x · ln(a)).
Um zu sehen, dass dies für x = q ∈ Q mit den gewöhnlichen Potenzen übereinstimmt,
halten wir erst einmal die Gleichung
(ax+y )y = ax ay
168
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
für alle a, x, y ∈ R mit a > 0 fest. Diese läßt sich leicht nachrechnen
ax+y = e(x+y) ln(a) = ex ln(a)+y ln(a) = ex ln(a) ey ln(a) = ax ay .
Außerdem ist a1 = eln a = a. Jetzt folgt genau wie in den Überlegungen zu ex das aq für
q ∈ Q die gewöhnliche Potenz von a zum Exponenten q. Um dies einzusehen brauchten
wir ja nur die Funktionalgleichung für ex und diese haben wir jetzt auch für ax eingesehen. Mit den Erhaltungseigenschaften der Stetigkeit aus Lemma 4 folgt auch die
Stetigkeit der Funktion f (x) = ax und dies ergibt wie im Fall der Exponentialfunktion
ax = lim aqn
n→∞
für jede gegen x konvergente Folge (qn )n∈N rationaler Zahlen. Damit sind allgemeine
reelle Potenzen etabliert.
Es gibt auch Logarithmen zu beliebiger Basis 0 < a 6= 1. Für x, y ∈ R mit y > 0
haben wir nämlich
ax = y ⇐⇒ ex ln(a) = y ⇐⇒ ln(y) = x ln(a) ⇐⇒ x =
ln(y)
.
ln(a)
Damit ist auch die Funktion f (x) = ax bijektiv mit der Umkehrfunktion
loga (y) =
ln(y)
.
ln(a)
$Id: diffb.tex,v 1.11 2012/07/04 10:46:15 hk Exp $
§10
Differenzierbarkeit
Vorlesung 21, Donnerstag 28.6.2012
Schon zu Beginn von §6 hatten wir die heuristische Bedeutung der Ableitung einer
Funktion als Änderungsrate besprochen. Hierunter verstanden wir den Grenzwert der
relativen Zuwächse über kleiner werdende Zeitabschnitte. Diese relativen Zuwächse
werden in diesem Zusammenhang auch als Differenzenquotienten bezeichnet. Wie im
vorigen Kapitel bezeichne K entweder die reellen Zahlen K = R oder die komplexen
Zahlen K = C. Die Definition werden wir noch allgemein für reelle und komplexe
169
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Funktionen formulieren, die weitergehenden Aussagen werden dann hauptsächlich im
reellen Fall behandelt.
Definition 10.1: Seien D ⊆ K, f : D → K eine Funktion und x ∈ D mit x ∈ D\{x}.
Ist dann h ∈ K mit x + h ∈ D, so nennt man
Dh f (x) :=
f (x + h) − f (x)
h
den Differenzenquotienten von f im Punkt x zur Schrittweite h.
Im reellen Fall K = R ist der Differenzenquotient gerade die Steigung der Verbindungsstrecke vom Punkt (x, f (x)) zum Punkt (x + h, f (x + h)). In der Regel ist der
Definitionsbereich D im reellen Fall ein Intervall und im komplexen Fall eine offene
Teilmenge von C. Damit können wir jetzt die Ableitung einer Funktion f definieren.
Definition 10.2: Seien D ⊆ K und x ∈ D mit x ∈ D\{x}. Dann heißt eine Funktion
f : D → K differenzierbar in x wenn der Grenzwert der Differenzenquotienten
f (x + h) − f (x)
h→0
h
f 0 (x) := lim Dh f (x) = lim
h→0
existiert. Dieser wird dann die Ableitung von f im Punkt x genannt.
Schreiben wir y = x + h so ist h → 0 gleichwertig zu y → x also ist auch
f (y) − f (x)
.
y→x
y−x
f 0 (x) = lim
Differenzierbarkeit in einem Punkt x ist eine stärkere Forderung als Stetigkeit im Punkt
x. Ist f : D → K nämlich in x ∈ D differenzierbar, so haben wir nach §9.Lemma 4.(b)
auch
f (y) − f (x)
f (y) − f (x)
lim f (y) − f (x) = lim (y − x) ·
= lim (y − x) · lim
y→x
y→x
y→x
y→x
y−x
y−x
= 0 · f 0 (x) = 0,
und damit ist auch
lim f (y) = lim (f (y) − f (x)) + f (x) = f (x).
y→x
y→x
Wir wollen zwei kleine Beispiele von Ableitungen rechnen. Zunächst betrachten wir die
Funktion f (x) = xn für n ∈ N. Wir müssen die Differenzenquotienten der Funktion f
ausrechnen. Mit der binomischen Formel erhalten wir
n n X
X
n n−k k
n n−k k
n
n
n−1
f (x + h) = (x + h) =
x h = x + nx h +
x h ,
k
k
k=2
k=0
170
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
also werden
n X
n
f (x + h) − f (x) =
k=1
und somit
Dh f (x) =
n X
n
k=1
k
k
xn−k hk
xn−k hk−1 .
Mit den Rechenregeln für Funktionsgrenzwerte §9.Lemma 4.(a,b) haben wir
n k−1 n
X
n n−k 0
f (x) = lim Dh f (x) =
x
lim h
=
xn−1 = nxn−1 ,
h→0
h→0
k
1
k=1
also ist f in jedem Punkt x ∈ R differenzierbar mit
(xn )0 = f 0 (x) = nxn−1 .
Behandeln wir als ein weiteres Beispiel einmal die Funktion f (x) = 1/x. Sei 0 6= x ∈ R.
Für h ∈ R, streng genommen mit x + h 6= 0 gilt
1
x − (x + h)
h
1
− =
=−
,
x+h x
x(x + h)
x(x + h)
also
lim
h→0
1
x+h
−
h
1
x
= lim −
h→0
1
1
=− 2
x(x + h)
x
nach den Rechenregeln §9.Lemma 4.(b,c) für Funktionsgrenzwerte. Damit haben wir
f 0 (x) = −
1
.
x2
Eine weitere Umformulierung der Ableitungsdefinition ist häufig nützlich:
Lemma 10.3 (Approximationsinterpretation der Ableitung)
Seien I ⊆ R ein Intervall, x0 ∈ I und f : I → R eine Funktion. Dann ist die Funktion f
genau dann differenzierbar in x0 wenn es eine Funktion φ : I → R und eine Konstante
c ∈ R mit den folgenden Eigenschaften gibt:
(a) Es ist f (x) = f (x0 ) + c(x − x0 ) + φ(x) für alle x ∈ I.
(b) Es gilt
φ(x0 + h)
= 0.
h→0
h
lim
In diesem Fall ist c = f 0 (x0 ) die Ableitung von f in x0 .
Beweis: ”=⇒” Sei
φ : I → R; x 7→ f (x) − f (x0 ) − f 0 (x)(x − x0 ).
171
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Dann gilt f (x) = f (x0 ) + f 0 (x0 )(x − x0 ) + φ(x) für alle x ∈ I und nach §9.Lemma
4.(a,b) ist
φ(x0 + h)
f (x0 + h) − f (x0 ) − f 0 (x0 )h
= lim
h→0
h h→0
h
f (x0 + h) − f (x0 )
f (x0 + h) − f (x0 )
0
− f (x0 ) = lim
− f 0 (x0 ) = 0.
= lim
h→0
h→0
h
h
lim
”⇐=” Als Grenzwert der Differenzenquotienten ergibt sich erneut mit §9.Lemma 4.(a)
f (x0 + h) − f (x0 )
φ(x0 + h)
ch + φ(x0 + h)
0
= lim
= lim c +
f (x0 ) = lim
h→0
h→0
h→0
h
h
h
φ(x0 + h)
= c + lim
= c.
h→0
h
Die Funktion φ ist der Approximationsfehler. Beachte das Bedingung (a) die Funktion
φ bereits vollständig festlegt. Zum Verständnis von Bedingung (b) ist es vorteilhaft
alles etwas umzuschreiben, mit
τ (h) := ϕ(x0 + h) wird f (x0 + h) = f (x0 ) + f 0 (x0 )h + τ (h).
Die Funktion f ist also geschrieben als
f (x0 + h) = f (x0 ) + f 0 (x0 )h + τ (h)
{z
} |{z}
|
Linearer Teil
Fehler
als ein linearer Hauptterm plus ein Fehler. Die Bedingung an φ wird zu limh→0 τ (h)/h =
0, und gemäß §9.Lemma 2 bedeutet dies
τ (h) < .
∀( > 0)∃(δ > 0)∀(|h| < δ) : h Dies können wir ein klein wenig umschreiben als
∀( > 0)∃(δ > 0)∀(0 < |h| < δ) : |τ (h)| < |h|.
Der Approximationsfehler soll also schlimmstenfalls proportional mit |h| wachsen und
zwar so, dass auch die Proportionalitätskonstante beliebig klein gewählt werden kann,
solange man sich auf ausreichend kleine h, eben mit |h| < δ, beschränkt.
In der hochmultiplizierten Form |τ (h)| < |h| muss man h = 0 auch nicht mehr
als Sonderfall behandeln. Allerdings muss dann zusätzlich das echt kleiner“ durch ein
”
normales kleiner“ ersetzen. Dies ergibt die folgende modifizierte Variante der Diffe”
renzierbarkeitsbedingung
∀( > 0)∃(δ > 0)∀(|h| ≤ δ) : |τ (h)| ≤ |h|.
172
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Dass wir auch bei δ nur noch |h| ≤ δ statt |h| < δ fordern geschieht aus rein optischen
Gründen und hat keine inhaltliche Bedeutung.
Will man die Differenzierbarkeit einer Funktion f in einem Punkt x gemäß Lemma
3 beweisen, so versucht man die Funktion in der Form
f (x + h) = f (x) + ch + τ (h)
| {z } |{z}
Linearer Teil
Fehler
zu schreiben. Kann man dann limh→0 τ (h)/h = 0 einsehen, so ist c = f 0 (x) die Ableitung von f im Punkt x. Dass eine differenzierbare Funktion eine lineare Funktion
plus eine Störung ist, gibt uns eine weitere Begründung der folgenden schon früher
festgehaltenen Tatsache:
Lemma 10.4: Sind I ⊆ R ein Intervall und f : I → R eine in x ∈ I differenzierbare
Funktion. Dann ist f in x auch stetig.
Beweis: Dies haben wir bereits bewiesen.
Differenzierbarkeit ist aber eine sehr viel stärkere Bedingung als Stetigkeit. Beispielsweise ist die Betragsfunktion f : R → R; x 7→ |x| auf ganz R stetig, aber in x = 0 ist
sie nicht differenzierbar. Die Differenzenquotienten bei x = 0 sind nämlich
(
1,
h > 0,
|h|
Dh f (0) =
=
h
−1, h < 0,
und somit hat der Differenzenquotient für h → 0 keinen Grenzwert. Dies ist allerdings ein vergleichsweise harmloses Beispiel. Es gibt auch stetige Funktionen, die in
überhaupt keinen Punkt differenzierbar sind.
10.1
Differentationsregeln
In diesem Abschnitt werden wir die meisten der Differentationsregeln beweisen. Wir beginnen mit den Regeln für die Ableitung von Summen und Vielfachen. Der Einfachheit
halber kombinieren wir diese in eine einzige Regel für Ableitungen von Linearkombinationen.
Satz 10.5 (Summen und Vielfachenregel)
Seien I ⊆ R ein Intervall, f, g : I → R zwei in einem Punkt x ∈ I differenzierbare
Funktionen und α, β ∈ R zwei Konstanten. Dann ist auch die Funktion αf +βg : I → R
in x differenzierbar und es gilt
(αf + βg)0 (x) = αf 0 (x) + βg 0 (x).
173
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Für jedes 0 6= h ∈ R mit x + h ∈ I können wir den Differenzenquotienten als
Dh (αf + βg)(x) =
(αf + βg)(x + h) − (αf + βg)(x)
h
αf (x + h) − αf (x) + βg(x + h) − βg(x)
=
h
f (x + h) − f (x)
g(x + h) − g(x)
=α
+β
h
h
schreiben. Mit den Rechenregeln §9.Lemma 4a,b folgt
(αf + βg)0 (x) = lim Dh (αf + βg)(x)
h→0
g(x + h) − g(x)
f (x + h) − f (x)
+ β lim
= αf 0 (x) + βg 0 (x).
h→0
h→0
h
h
= α lim
Mit α = β = 1 ergibt der Satz die Summenregel
(f + g)0 (x) = f 0 (x) + g 0 (x),
mit α = 1, β = −1 die Regel für Differenzenregel
(f − g)0 (x) = f 0 (x) − g 0 (x)
und schließlich mit α = λ, β = 0 die Vielfachenregel
(λf )0 (x) = λf 0 (x).
Kombinieren wir diese Regeln mit der schon hergeleiteten Ableitung (xn )0 = nxn−1 , so
folgt das jedes reelle Polynom p(x) = an xn + an−1 xn−1 + · · · + a0 in jedem Punkt x ∈ R
differenzierbar ist, mit
!0
n
n
n−1
X
X
X
0
k
k−1
p (x) =
ak x
=
kak x
=
(k + 1)ak+1 xk .
k=0
k=1
k=0
Streng genommen benutzen wir dabei auch die Tatsache das konstante Funktionen
überall differenzierbar mit Ableitung Null sind. Dies haben wir bisher noch nicht festgehalten, es ist aber auch trivial da für eine konstante Funktion sogar alle Differenzenquotienten gleich Null sind.
Satz 10.6 (Produktregel)
Seien I ⊆ R ein Intervall und f, g : I → R zwei in einem Punkt x ∈ I differenzierbare
Funktionen. Dann ist auch das Produkt f · g : I → R in x differenzierbar mit
(f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x).
174
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Sei h ∈ R mit h 6= 0 und x + h ∈ I. Wir schreiben den Differenzenquotienten
als
f (x + h)g(x + h) − f (x)g(x)
h
f (x + h)g(x + h) − f (x)g(x + h) + f (x)g(x + h) − f (x)g(x)
=
h
f (x + h) − f (x)
g(x + h) − g(x)
=
· g(x + h) + f (x) ·
h
h
Dh (f g)(x) =
und erhalten
f (x + h)g(x + h) − f (x)g(x)
h→0
h
g(x + h) − g(x)
f (x + h) − f (x)
· g(x + h) + f (x) ·
= lim
h→0
h
h
f (x + h) − f (x)
g(x + h) − g(x)
· lim g(x + h) + f (x) · lim
= lim
h→0
h→0
h→0
h
h
0
0
= f (x)g(x) + f (x)g (x),
(f g)0 (x) = lim
da g ja nach Lemma 4 in x stetig ist, also limh→0 g(x + h) = limy→x g(y) = g(x) gilt.
Als ein erstes Beispiel behandeln wir die Funktion
f (x) :=
1
1 1
= · .
2
x
x x
Leiten wir diese mit der Produktregel ab, so ergibt sich
2
1 1
f 0 (x) = −2 · 2 = − 3 .
x x
x
Um auch interessantere Beispiele rechen zu können, benötigen wir die Ableitungen
einiger weiterer Grundfunktionen. Diese wollen wir hier nicht wirklich formal herleiten, sondern nur eine Begründung andeuten. Wir hatten gesehen das sich Polynome
gliedweise ableiten ließen. Fassen wir jetzt Potenzreihen
f (x) =
∞
X
an x n
n=0
als Polynome von unendlichen Grad auf, so ist es naheliegend zu glauben das auch
diese sich gliedweise ableiten lassen, also
f 0 (x) =
∞
X
nan xn−1 =
n=1
∞
X
n=0
175
(n + 1)an+1 xn .
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Dies stellt sich tatsächlich als wahr heraus, wir wollen den Beweis hier aber nicht
vorführen. Als ein Beispiel behandeln wir die Exponentialfunktion
ex =
∞
X
xn
n=0
n!
=⇒ (ex )0 =
∞
X
nxn−1
n=1
n!
=
∞
∞
X
X
xn−1
xn
=
= ex .
(n − 1)! n=0 n!
n=1
Die Exponentialfunktion ist also gleich ihrer eigenen Ableitung. Für den Sinus rechnen
wir
∞
∞
∞
X
X
(−1)n 2n+1
(−1)n (2n + 1) 2n X (−1)n 2n
0
sin x =
x
=⇒ sin x =
x =
x = cos x.
(2n
+
1)!
(2n
+
1)!
(2n)!
n=0
n=0
n=0
Für die Ableitung des Cosinus ergibt eine analoge Rechnung
cos0 x = − sin x.
Mit der Produktregel erhalten wir jetzt zum Beispiel
f (x) = x sin x =⇒ f 0 (x) = sin x + x cos x,
f (x) = xex =⇒ f 0 (x) = ex + xex = (1 + x)ex .
Wir kommen zur Kettenregel.
Satz 10.7 (Kettenregel)
Seien I, J ⊆ R zwei Intervalle, f : I → J eine in x ∈ J differenzierbare Funktion und
g : J → R eine in f (x) ∈ J differenzierbare Funktion. Dann ist die Hintereinanderausführung g ◦ f : I → R in x differenzierbar mit
(g ◦ f )0 (x) = g 0 (f (x)) · f 0 (x).
Beweis: Dies kann man übersichtlichsten über den Approximationsstandpunkt aus
Lemma 3 beweisen. Dabei verwenden wir die umformulierte Version. Da f in x differenzierbar ist können wir
f (x + h) = f (x) + f 0 (x)h + τ (h)
für alle h ∈ R mit x + h ∈ I schreiben, wobei der Fehler τ (h) die Bedingung
∀( > 0)∃(δ > 0)∀(h ∈ R) : (x + h ∈ I ∧ |h| ≤ δ) =⇒ |τ (h)| ≤ |h|
erfüllt. Da g in f (x) differenzierbar ist, können wir ebenso
g(f (x) + h) = g(f (x)) + g 0 (f (x))h + η(h)
für h ∈ R mit f (x) + h ∈ J schreiben so, dass
∀( > 0)∃(δ > 0)∀(h ∈ R) : (f (x) + h ∈ J ∧ |h| ≤ δ) =⇒ |η(h)| ≤ |h|
176
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
gilt. Für jedes h ∈ R mit x + h ∈ I erhalten wir
g(f (x + h)) = g(f (x) + f 0 (x)h + τ (h))
= g(f (x)) + g 0 (f (x)) · (f 0 (x)h + τ (h)) + η(f 0 (x)h + τ (h))
= g(f (x)) + g 0 (f (x))f 0 (x)h + θ(h)
mit
θ(h) := g 0 (f (x)) · τ (h) + η(f 0 (x)h + τ (h)).
Wir haben also g(f (x + h)) als Summe des linearen Teils g(f (x)) + g 0 (f (x))f 0 (x)h
mit dem Fehlerterm θ(h) geschrieben. Wir müssen zeigen, dass der Fehler θ(h) mit
beliebig kleiner Proportionalitätskonstante proportional zu |h| klein wird. Sei also > 0
gegeben. Dann existiert ein δ1 > 0 mit
|η(h)| ≤
· |h|
0
2(|f (x)| + 1)
für alle h ∈ R mit f (x) + h ∈ J und |h| ≤ δ1 . Setzen wir weiter
0
> 0,
:= min 1,
2(|g 0 (f (x))| + 1)
so gibt es auch ein δ2 > 0 mit
|τ (h)| ≤ 0 |h|
für alle h ∈ R mit x + h ∈ I und |h| ≤ δ2 . Schließlich erhalten wir
δ1
δ := min δ2 , 0
> 0.
|f (x)| + 1
Sei jetzt h ∈ R mit x + h ∈ I und |h| ≤ δ gegeben. Dann ist
|g 0 (f (x)) · τ (h)| = |g 0 (f (x))| · |τ (h)| ≤ |g 0 (f (x))|0 |h| ≤
|g 0 (f (x))|
· |h| ≤ · |h|.
0
2(|g (f (x))| + 1)
2
Weiter haben wir
|f 0 (x)h + τ (h)| ≤ |f 0 (x)| · |h| + |τ (h)| ≤ (|f 0 (x)| + 0 )|h| ≤ (|f 0 (x)| + 1)|h|
δ1
= δ1 ,
≤ (|f 0 (x)| + 1)δ ≤ (|f 0 (x)| + 1) · 0
|f (x)| + 1
und somit ist auch
|η(f 0 (x)h+τ (h))| ≤
0
0
·|f
(x)h+τ
(h)|
≤
·(|f
(x)|+1)|h|
=
·|h|.
2(|f 0 (x)| + 1
2(|f 0 (x)| + 1
2
Insgesamt ist damit
|θ(h)| = |g 0 (f (x))τ (h) + η(f 0 (x)h + τ (h))| ≤ |g 0 (f (x))τ (h)| + |η(f 0 (x)h + τ (h))|
≤ |h| + |h| = |h|.
2
2
177
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Damit haben wir die benötigte Zerlegung in linearen Anteil und Fehlerterm, und mit
der umformulierten Version Lemma 3 folgt das g ◦ f in x differenzierbar ist mit
(g ◦ f )0 (x) = g 0 (f (x))f 0 (x).
Wir haben bereits die Ableitungen der Funktionen xn für jedes n ∈ N und der Funktion
1/x berechnet. Mit Hilfe der Kettenregel können wir aus diesen bekannten Ableitungen
jetzt auch die Ableitung der Funktion
f : R\{0} → R; x 7→
1
xn
berechnen, wobei n ∈ N∗ fest gegeben ist. Wir können die Funktion f nämlich als eine
Hintereinanderausführung schreiben. Betrachten wir die Funktionen
g : R → R; x 7→ xn und h : R\{0} → R; x 7→
1
,
x
so ist f = h ◦ g. Da wir die Ableitungen von g und h schon kennen, können wir mit
der Kettenregel auch die Ableitung von f ausrechnen. Es ergibt sich
f 0 (x) = h0 (g(x)) · g 0 (x) = −
1
nxn−1
1
0
·
g
=
−n
(x)
=
−
g(x)2
x2n
xn+1
für jedes x ∈ R\{0}. Denselben Trick kann man jetzt allgemein verwenden um die
Quotientenregel herzuleiten.
Satz 10.8 (Quotientenregel)
Seien I ⊆ R ein Intervall und f, g : I → R zwei Funktionen mit g(x) 6= 0 für alle
x ∈ I. Weiter seien f und g in einem Punkt x ∈ I differenzierbar. Dann ist auch f /g
in x differenzierbar mit
0
f
f 0 (x)g(x) − f (x)g 0 (x)
(x) =
.
g
g(x)2
Beweis: Wir betrachten die Hilfsfunktion
1
h : R\{0} → R; y 7→ ,
y
und wissen bereits das h in jedem Punkt y ∈ R\{0} differenzierbar ist mit h0 (y) =
−1/y 2 . Nach der Kettenregel Satz 7 ist die Funktion
1
=h◦g :I →R
g
178
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
damit in x differenzierbar mit
0
g 0 (x)
1
(x) = h0 (g(x)) · g 0 (x) = −
.
g
g(x)2
Mit der Produktregel Satz 6 folgt weiter, dass auch
1
f
=f·
g
g
in x differenzierbar ist mit der Ableitung
0
0
0
f
1
1
1
f 0 (x) f (x)g 0 (x)
0
(x) = f ·
(x) = f (x) ·
+ f (x) ·
(x) =
−
g
g
g(x)
g
g(x)
g(x)2
0
f g(x) − f (x)g 0 (x)
.
=
g(x)2
Insbesondere ist die Quotientenregel eigentlich keine eigenständige Regel, sondern eine
Kombination von Kettenregel und Produktregel. Als ein Beispiel zur Quotientenregel
wollen wir die Ableitung des Tangens
tan x =
sin x
cos x
berechnen. Wir haben
tan0 x =
cos2 x + sin2 x
1
sin2 x
=
=
1
+
= 1 + tan2 x.
cos2 x
cos2 x
cos2 x
In der letzten Sitzung hatten wir bereits die meisten der Rechenregeln für Ableitungen
behandelt, nämlich die Summen, Vielfachen, Produkt, Ketten und Quotientenregel.
Wir kommen jetzt zu einer letzten Regel, die zur Berechnung der Ableitungen von
Umkehrfunktionen dient.
Satz 10.9 (Umkehrregel)
Seien I, J ⊆ R zwei Intervalle und sei f : I → J eine bijektive stetige Funktion, die
im Punkt x ∈ I differenzierbar ist mit f 0 (x) 6= 0. Dann ist auch die Umkehrfunktion
f −1 : J → I im Punkt y := f (x) ∈ J differenzierbar mit
(f −1 )0 (y) =
1
f 0 (x)
=
1
f 0 (f −1 (y))
.
Beweis: Wir müssen zeigen, dass der Grenzwert
f −1 (u) − f −1 (y)
u→y
u−y
(f −1 )0 (y) = lim
179
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
existiert und gleich dem angegebenen Wert ist. Hierzu ist es am bequemsten direkt auf
die Definition dieses Funktionsgrenzwerts durch Folgen zurückzugehen. Sei also (yn )n∈N
eine gegen y konvergente Folge in J\{y}. Nach §9.Lemma 7 ist die Umkehrfunktion
f −1 : J → I stetig, und damit ist (f −1 (yn ))n∈N eine gegen f −1 (y) = x konvergente
Folge in I\{x}. Mit den Rechenregeln für Folgengrenzwerte §6.Lemma 14.(d) folgt
−1
f −1 (yn ) − x
f (f −1 (yn )) − f (x)
f −1 (yn ) − f −1 (y)
lim
= lim
= lim
n→∞
n→∞ f (f −1 (yn )) − f (x)
n→∞
yn − y
f −1 (yn ) − x
−1
−1
f (f −1 (yn )) − f (x)
f (u) − f (x)
1
= lim
= lim
= 0 .
−1
n→∞
u→x
f (yn ) − x
u−x
f (x)
Dies ergibt
f −1 (u) − f −1 (y)
1
= 0 .
u→y
u−y
f (x)
(f −1 )0 (y) = lim
Die Voraussetzung f 0 (x) 6= 0 ist tatsächlich nötig. Beispielsweise ist die Funktion
f : R → R; x 7→ x3
√
stetig, bijektiv und überall differenzierbar, aber die Umkehrfunktion f −1 (x) = 3 x ist
in x = 0 nicht differenzierbar. Der Satz ist wegen f 0 (0) = 0 hier auch nicht anwendbar.
Mit der Umkehrregel können wir schon die Ableitungen einiger wichtiger Funktionen
ausrechnen. Wir beginnen einmal mit dem Arcussinus arcsin : [−1, 1] → [−π/2, π/2].
Dies ist definitionsgemäß die Umkehrfunktion des Sinus
h π πi
sin : − ,
→ [−1, 1]
2 2
auf dem Intervall [−π/2, π/2]. Die Ableitung des Sinus ist der Cosinus und für −π/2 <
x < π/2 ist cos x > 0. Die Umkehrregel ergibt, dass der Arcussinus in jedem Punkt
x ∈ R mit |x| < 1 differenzierbar ist mit der Ableitung
arcsin0 x =
1
.
cos(arcsin x)
Dies können wir noch etwas weiter auswerten. Für −1 < x < 1 haben wir
1 = sin2 (arcsin x) + cos2 (arcsin x) = x2 + cos2 (arcsin x) =⇒ cos2 (arcsin x) = 1 − x2 ,
und
√ da wegen | arcsin x| < π/2 auch cos(arcsin x) > 0 ist, folgt sogar cos(arcsin x) =
1 − x2 , also insgesamt
arcsin0 x =
1
1
=√
.
cos(arcsin x)
1 − x2
180
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Etwas einfacher ist die Ableitung des Arcustangens arctan : R → (−π/2, π/2), dies ist
die Umkehrfunktion von
π π
tan : − ,
→ R.
2 2
Erinnern wir uns an die Formel tan0 x = 1 + tan2 x ≥ 1 > 0, so folgt das der Arcustangens auf ganz R differenzierbar ist mit der Ableitung
arctan0 x =
1
1
=
1 + tan (arctan x)
1 + x2
2
für jedes x ∈ R. Als nächstes Beispiel wollen wir einmal die Ableitung des Logarithmus
berechnen. Diesen hatten wir §9.5 als die Umkehrfunktion der Exponentialfunktion
ex = exp(x) eingeführt. Wegen exp0 (x) = exp(x) > 0 ist der Logarithmus damit in
jedem Punkt x ∈ R>0 differenzierbar mit der Ableitung
ln0 x =
1
1
= .
exp(ln x)
x
Mit der Kettenregel folgen hieraus einige weitere wichtige Formeln. Bisher haben wir
nur die Ableitungen der Potenzfunktionen f (x) = xn mit ganzzahligen Exponenten
n ∈ Z behandelt. Jetzt sind wir in der Lage auch die Ableitung der allgemeinen Potenzfunktion
f : R>0 → R; x 7→ xa
für einen beliebigen Exponenten a ∈ R zu berechnen. In §9.6 hatten wir diese als
f (x) = xa = ea·ln(x)
definiert. Mit der Kettenregel Satz 7, der Vielfachenregel und den schon bekannten
Ableitungen von Exponentialfunktion und Logarithmus ergibt sich für jedes x > 0 die
Formel
a
a
f 0 (x) = ea·ln(x) · = xa · = axa−1 .
x
x
Ganz anders sieht die Lage aus, wenn wir Potenzen als Funktion des Exponenten
betrachten, also die Funktion
f : R → R; x 7→ ax
für eine Konstante a > 0. Dann ist
f (x) = ax = ex·ln(a)
für alle x ∈ R und diesmal ergibt sich mit der Kettenregel
f 0 (x) = ex·ln(a) · ln(a) = ln(a) · ax .
181
Mathematik für Informatiker B, SS 2012
10.2
Donnerstag 28.6.2012
Lokale Extrema und der Mittelwertsatz der Differentialrechnung
Nachdem wir die Ableitungsregeln weitgehend begründet haben, wollen wir nun die
Grundlagen der Kurvendiskussion untersuchen. Wir konzentrieren uns dabei auf einen
Teilabschnitt dieses Problemkreises, nämlich auf die Berechnung von Maximum und
Minimum einer Funktion f : [a, b] → R, die üblicherweise als differenzierbar vorausgesetzt ist. Gesucht sind dann der maximale und minimale Wert f (x) für x ∈ [a, b] und
Punkte x in denen diese Werte von f angenommen werden. Das Problem der Berechnung des Maximums ist es dann ein x∗ ∈ [a, b] mit f (x∗ ) ≥ f (x) für alle x ∈ [a, b]
zu finden, und entsprechend für das Minimum. Man nennt x∗ dann auch ein globales Maximum beziehungsweise ein globales Minimum. Dass es diese globalen Maxima
und Minima überhaupt gibt ist dabei eine Folge von §9.Satz 6, eine differenzierbare
Funktion ist nach Lemma 4 ja insbesondere stetig.
Wie sie wissen besteht der Rechenweg solche Maxima und Minima zu finden, im
Bestimmen der Nullstellen der Ableitung von f , und wir wollen jetzt einsehen ob
und warum das zum Erfolg führt. Entscheidend hierfür ist der Begriff eines lokalen
Extremums der Funktion f .
Definition 10.10: Sei D ⊆ R und sei f : D → R eine Funktion. Man nennt einen Punkt
x0 ∈ D ein lokales Maximum von f wenn es eine Umgebung U von x0 mit U ⊆ D und
f (x0 ) ≥ f (x) für alle x ∈ U gibt. Entsprechend heißt x0 ein lokales Minimum von f
wenn es eine Umgebung U von x0 mit U ⊆ D und f (x0 ) ≤ f (x) für alle x ∈ U gibt.
Schließlich heißt x0 ein lokales Extremum von f wenn x0 ein lokales Maximum oder
ein lokales Minimum von f ist.
Beachte das ein lokales Extremum x0 definitionsgemäß immer ein innerer Punkt des
Definitionsbereichs D von f ist. Dieser Punkt wird nicht ganz einheitlich gehandhabt,
es gibt alternative Definitionen des Begriffs eines lokalen Extremum bei denenn x0
kein innerer Punkt sein muss. Für uns ist aber die hier gegebene Formulierung am
bequemsten.
Angenommen x0 ist ein globales Extremum von f , also ein globales Maximum oder
ein globales Minimum von f . Dann gelten f (x0 ) ≥ f (x) beziehungsweise f (x0 ) ≤ f (x)
für überhaupt alle x ∈ D. Ist x0 ∈ D◦ also ein innerer Punkt von D, so gibt es eine
Umgebung U von x0 mit U ⊆ D und diese erfüllt dann die obige Eigenschaft, d.h. x0
ist auch ein lokales Extremum von f .
Der hier wichtigste Speziallfall ist D = [a, b], d.h. wir haben eine Funktion f :
[a, b] → R. Das Innere von D ist dann gerade das offene Intervall D◦ = (a, b). Ist also
x0 ∈ [a, b] ein globales Extremum von f , so ist entweder x0 = a oder x0 = b oder
a < x0 < b und x0 ist ein lokales Extremum von f . Die Nullstellen der Ableitung
hängen jetzt mit den lokalen Extrema der Funktion f zusammen.
Satz 10.11 (Notwendige Bedingung für lokale Extrema)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine Funktion. Weiter sei x0 ∈ (a, b)
ein lokales Extremum von f und f sei in x0 differenzierbar. Dann ist f 0 (x0 ) = 0.
182
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Es gibt zwei verschiedene Fälle, entweder hat f in x0 ein lokales Maximum
oder ein lokales Minimum. Diese beiden Fälle sind völlig analog, und wir behandeln
hier den Fall, dass f in x0 ein lokales Maximum hat. Dann gibt es ein > 0 mit
(x0 − , x0 + ) ⊆ [a, b] und f (x0 ) ≥ f (x) für alle x ∈ R mit |x − x0 | < . Wir betrachten
jetzt die beiden Folgen definiert durch
x+
n := x0 +
und x−
n := x0 −
n+1
n+1
für alle n ∈ N∗ . Für jedes n ∈ N∗ haben wir dann
+
+
−
x0 − < x −
n < x0 < xn < x0 + und |xn − x0 | = |xn − x0 | =
,
n+1
−
+
−
also insbesondere x+
n , xn ∈ U , f (x0 ) ≥ f (xn ), f (xn ) und
+
lim x−
n = lim xn = x0 .
n→∞
n→∞
Für die Differenzenquotienten folgt
f (x−
f (x+
n ) − f (x0 )
n ) − f (x0 )
≤
0
und
≥0
+
xn − x0
x−
n − x0
und mit §6.Lemma 11 folgt
f 0 (x0 ) = lim
f (x) − f (x0 )
f (x+
n ) − f (x0 )
= lim
≤0
n→∞
x − x0
x+
n − x0
f 0 (x0 ) = lim
f (x−
f (x) − f (x0 )
n ) − f (x0 )
≥ 0.
= lim
n→∞
x − x0
x−
n − x0
x→x0
und
x→x0
Insgesamt ist damit f 0 (x0 ) = 0.
Die Bedingung des Satzes ist nur notwendig nicht aber hinreichend für ein lokales
Extremum. Beispielsweise ist für f (x) = x3 auch f 0 (x) = 3x2 also f 0 (0) = 0 aber f hat
in x0 = 0 kein lokales Extremum. Mit dem Satz können wir jetzt ein Verfahren zur Berechnung des Maximums beziehungsweise Minimums einer differenzierbaren Funktion
angeben.
Gegeben sei eine stetige Funktion f : [a, b] → R, die für jeden Punkt x ∈ (a, b) differenzierbar ist. Nehme an das die Ableitung f 0 nur endlich viele Nullstellen x1 , . . . , xn
in (a, b) hat. Das muss nicht so sein, ist aber oft der Fall. Dann ist das Element
x∗ ∈ {a, b, x1 , . . . , xn } mit f (x∗ ) = max{f (a), f (b), f (x1 ), . . . , f (xn )}
ein globales Maximum von f . Denn nach §9.Satz 6 gibt es überhaupt ein globales
Maximum x∗ ∈ [a, b] von f . Dann ist entweder x∗ ∈ {a, b} einer der beiden Randpunkte
oder x∗ ∈ (a, b) ist ein innerer Punkt. Ist x∗ ∈ (a, b), so ist x∗ auch ein lokales Maximum
183
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
von f und nach Satz 11 ist f 0 (x∗ ) = 0. Damit ist x∗ eine der Nullstellen von f 0 , d.h.
x∗ = xi für ein 1 ≤ i ≤ n. In beiden Fällen ist damit
max f (x) = f (x∗ ) ∈ {f (a), f (b), f (x1 ), . . . , f (xn )}
x∈[a,b]
und damit ist der maximale Wert von f einer der Werte auf der rechten Seite. Da
diese allesamt Werte von f sind, ist der Maximalwert f (x∗ ) das größte Element der
Menge {f (a), f (b), f (x1 ), . . . , f (xn )}. Damit ist die Berechnung des Maximums geklärt
und das Minimum kann man analog durch Suchen des kleinsten Wertes unter den
f (a), f (b), f (x1 ), . . . , f (xn ) finden.
Beachte das es für diese Rechnung nicht nötig ist zu wissen ob eine Nullstelle xi von
0
f ein lokales Maximum, ein lokales Minimum oder überhaupt ein lokales Extremum
ist, das spielt überhaupt keine Rolle. Eventuell überprüft man einige überflüssige Werte
die gar keine lokalen Extrema sind, aber das ist allemal schneller als sich zu überlegen
ob ein lokales Extremum vorliegt oder nicht. Dass wir uns auf den Fall endlich vieler
Nullstellen beschränken ist nur Bequemlichkeit. Offenbar läßt sich die Überlegung auch
auf kompliziertere Situationen ausdehnen.
Wir wollen jetzt ein Beispiel rechnen, die Funktion
f : [0, 2] → R; x 7→ x3 − 4x2 + 4x − 5.
Wir suchen den maximalen und den minimalen Wert von f . Folgen wir dem obigen
Verfahren, so berechnen wir zunächst die Ableitung von f
f 0 (x) = 3x2 − 8x + 4,
und bestimmen ihre Nullstellen
8
4 !
4
x − x + = 0 =⇒ x = ±
3
3
3
r
2
16 4
4
− = ±
9
3
3
r
4
4 2
= ± ,
9
3 3
also
2
und x2 = 2.
3
Die relevanten Funktionswerte sind also
135
2
103
f (0) = −5, f (2) = −5 und f
=−
>−
= −5.
3
27
27
x1 =
Also hat f ein globales Maximum in x∗ = 2/3 mit Wert max = −103/27 und globalen
Minimum in x∗ = 0 (und x∗ = 2) mit Wert min = −5.
Bisher haben wir uns auf Funktionen beschränkt die auf Intervallen der Form [a, b]
definiert sind. In diesem Fall garantiert uns §9.Satz 6 die Existenz von globalen Maximum und Minimum. Man kann natürlich auch andere Intervalle behandeln, benötigt
dann aber zusätzliche Argumente. Als ein solches Beispiel wollen wir jetzt das Minimum
der Funktion
f : R → R; x 7→ 2x − x
184
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
berechnen, und insbesondere einsehen das es ein solches überhaupt gibt. Auf die Behandlung dieses Beispiels hatten wir in der Vorlesung aus Zeitgründen verzichtet, hier
soll es aber mit aufgeführt werden. Wir schauen uns als ersten Schritt das Verhalten
von f (x) für x gegen ±∞ an. Zunächst ist
lim 2x = 0 =⇒ lim (2x − x) = ∞.
x→−∞
x→−∞
Etwas komplizierter ist der Grenzwert gegen +∞, da hier sowohl 2x als auch x gegen
+∞ gehen. Da aber eine Potenzfunktion schneller als eine lineare Funktion wächst, ist
auch
lim (2x − x) = ∞.
x→∞
Da es in diesem Beispiel nicht um dieses Detail geht, wollen wir jetzt kein genaueres
Argument für diesen Grenzwert angeben. Es ist f (0) = 1 und wegen limx→±∞ f (x) = ∞
existiert ein a > 0 mit f (x) ≥ 2 für alle x ∈ R mit |x| > a. Damit folgt
inf f (x) =
x∈R
inf
f (x),
x∈[−a,a]
und auf das Intervall [−a, a] ist §9.Satz 6 anwendbar. Damit ist die Funktion f nach
unten beschränkt und hat ein globales Minimum x0 ∈ [−a, a]. Dieses ist auch ein lokales
Minimum, also f 0 (x0 ) = 0 nach Satz 11. Für jedes x ∈ R gilt jetzt
f 0 (x) = ln(2) · 2x − 1,
also
1
f (x) = 0 =⇒ 2 =
=⇒ x = ln2
ln 2
0
x
1
ln 2
=
ln
1
ln 2
ln 2
=−
ln(ln 2)
,
ln 2
und somit hat f sein globales Minimum in x0 = − ln(ln 2)/ ln(2). Der Funktionswert
in diesem Punkt ist
f (x0 ) = 2x0 − x0 =
1
ln(ln 2)
1 + ln(ln 2)
+
=
.
ln 2
ln 2
ln 2
Insgesamt haben wir damit
min(2x − x) =
x∈R
1 + ln(ln 2)
.
ln 2
Wir wollen jetzt die Theorie etwas fortsetzen und
steuern als nächstes Ergebis den sogenannten Mittelwertsatz an. Bei diesen betrachten wir eine difa
ξ
b
ferenzierbare Funktion f : [a, b] → R und schauen uns die Steigung des Geradenstücks an, das die
beiden Punkte (a, f (a)) und (b, f (b)) miteinander
verbindet. Diese Strecke ist sozusagen eine Sekante an den Graphen der Funktion f .
Der Mittelwertsatz besagt das es zwischen a und b immer einen Punkt ξ gibt so, dass
185
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
die Steigung der Tangente an den Graphen im Punkt (ξ, f (ξ)) gleich der Sekantensteigung zwischen a und b ist, oder geometrisch formuliert das es zwischen a und b eine zur
gegebenen Sekante parallele Tangente an den Graphen gibt. Die Steigung der Tangente
bei x = ξ ist dabei die Ableitung f 0 (ξ).
Der Mittelwertsatz spielt eine recht kuriose Rolle. Für rechnerische Zwecke und
die meisten Anwendungen der Differentialrechnung außerhalb der Mathematik spielt
der Mittelwertsatz keinerlei Rolle. Für den Aufbau der Theorie ist der Mittelwertsatz
dagegen das Herzstück von allen. Alle weiteren Ergebnisse bauen direkt oder indirekt
auf ihm auf, der Mittelwertsatz ist der Dreh- und Angelpunkt aller weiteren Beweise. Um den Mittelwertsatz zu beweisen, behandelt man zuvor einen Spezialfall den
sogenannten Satz von Rolle.
Satz 10.12 (Satz von Rolle)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion mit f (a) = f (b)
die in jedem Punkt x ∈ (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit
f 0 (ξ) = 0.
Beweis: Ist f konstant so ist f 0 (ξ) = 0 für jedes ξ ∈ (a, b) und die Behauptung ist
klar. Wir können also annehmen, dass f nicht konstant ist. Insbesondere kann nicht
gleichzeitig f (a) ≥ f (x) für alle x ∈ [a, b] und f (a) ≤ f (x) für alle x ∈ [a, b] gelten, und
wir nehmen zunächst an das es x ∈ [a, b] mit f (a) = f (b) < f (x) gibt. Nach §9.Satz
6 nimmt f in [a, b] sein Maximum an, es gibt also ein ξ ∈ [a, b] mit f (ξ) ≥ f (x) für
alle x ∈ [a, b]. Nach unserer Annahme ist ξ 6= a, b, also ist sogar ξ ∈ (a, b). Dann ist
das globale Maximum ξ von f ein innerer Punkt des Definitionsbereichs von f , also ist
ξ auch ein lokales Maximum von f . Da f in ξ differenzierbar ist, ergibt Satz 11 auch
f 0 (ξ) = 0.
Damit ist die Aussage bewiesen wenn nicht f in a nicht sein Maximum annimmt.
Im anderen Fall nimmt f in a nicht sein Minimum an, und wir können den obigen
Beweis analog mit einem globalen Minimum ξ führen.
Eigentlich hatten wir den Satz von Rolle schon implizit bei unseren Überlegungen zur
Berechnung des globalen Maximums beziehungsweise Minimums erhalten. Aus dem
Satz von Rolle wird jetzt der allgemeine Mittelwertsatz folgen. Der Beweis erfolgt
im wesentlichen durch Neigen des Kopfes“, der Satz von Rolle deckt den Fall einer
”
waagerechten Sekante ab, und der allgemeine Fall wird hierauf durch eine Scherung
zurückgeführt.
Satz 10.13 (Mittelwertsatz)
Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion die in jedem Punkt
x ∈ (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit
f 0 (ξ) =
f (b) − f (a)
.
b−a
186
Mathematik für Informatiker B, SS 2012
Donnerstag 28.6.2012
Beweis: Wie schon angedeutet bringen wir f durch eine Scherung in die für den Satz
von Rolle benötigte Lage, als Formel bedeutet dies die Funktion
g : [a, b] → R; x 7→ f (x) −
f (b) − f (a)
(x − a)
b−a
zu betrachten. Nach §9.Lemma 4 ist g stetig und nach Satz 5 ist g in jedem Punkt
x ∈ (a, b) differenzierbar mit
g 0 (x) = f 0 (x) −
f (b) − f (a)
.
b−a
Außerdem gilt
g(b) = f (b) −
f (b) − f (a)
(b − a) = f (b) − (f (b) − f (a)) = f (a) = g(a),
b−a
und nach dem Satz von Rolle Satz 12 existiert ein ξ ∈ (a, b) mit
f 0 (ξ) −
f (b) − f (a)
f (b) − f (a)
= g 0 (ξ) = 0, also f 0 (ξ) =
.
b−a
b−a
187

Zugehörige Unterlagen

Blatt 6

Skript SS2012

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können