Mathematik für Informatiker B und (Teile von) C - Christian

Werbung
Mathematik für
Informatiker B und (Teile von) C
Malte Braack
Christian-Albrechts-Universität zu Kiel
06.11.2015
Inhaltsverzeichnis
1 Modulare Arithmetik
1.1 Teiler . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Euklidischer Algorithmus . . . . . . . . . . . . . . .
1.3 Restklassen . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Operationen auf den Restklassen . . . . . .
1.3.2 Anwendung von Restklassen auf Prüfziffern
Eine Ziffer fehlerhaft . . . . . . . . . . . . .
Zahlendreher . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Gruppen
2.1 Isomorphe Gruppen . . . . . . . . . . . . . . . . . . . .
2.2 Klassifikation von Gruppen . . . . . . . . . . . . . . . .
2.2.1 Klassifikation der Gruppen mit einem Element .
2.2.2 Klassifikation der Gruppen mit zwei Elementen
2.2.3 Klassifikation der Gruppen mit drei Elementen .
2.2.4 Gruppen mit vier Elementen . . . . . . . . . . .
2.3 Zyklische Gruppen . . . . . . . . . . . . . . . . . . . .
2.4 Permutationsgruppen . . . . . . . . . . . . . . . . . . .
2.5 Existenz von multiplikativen Inversen in Zm . . . . . .
2.6 Die Gruppe Z∗n und die Eulersche Funktion . . . . . . .
2.7 RSA-Public-Key Verschlüsselung . . . . . . . . . . . .
2.7.1 Chiffrieren . . . . . . . . . . . . . . . . . . . . .
2.7.2 Dechiffrieren . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
4
5
6
6
6
.
.
.
.
.
.
.
.
.
.
.
.
.
9
11
12
12
12
12
13
13
14
15
17
19
20
21
3 Ringe
23
3.1 Der Ring Zm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Polynomringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
ii
M. Braack - INHALTSVERZEICHNIS
4 Körper
4.1 Angeordnete Körper . . . . . . . . . . . . . . . . . .
4.2 Der Körper der reellen Zahlen . . . . . . . . . . . . .
4.2.1 Darstellung reeller Zahlen . . . . . . . . . . .
4.3 Der Körper der komplexen Zahlen . . . . . . . . . . .
4.3.1 Graphische Darstellung der komplexen Zahlen
4.4 Polynomdivision . . . . . . . . . . . . . . . . . . . . .
4.5 Polynome in C . . . . . . . . . . . . . . . . . . . . .
4.6 Polynome in R . . . . . . . . . . . . . . . . . . . . .
4.6.1 Intervallhalbierungsverfahren . . . . . . . . .
4.7 Polynomdivision zur Datensicherung . . . . . . . . .
4.8 Horner-Schema . . . . . . . . . . . . . . . . . . . . .
5 Vektorräume
5.1 Beispiele von Vektorräumen . . . . . .
5.1.1 Die Vektorräume Rn und Cn . .
5.1.2 Der Vektorräume Zn2 . . . . . .
5.1.3 Funktionenräume . . . . . . . .
5.2 Unterräume . . . . . . . . . . . . . . .
5.3 Linearkombinationen und aufgespannte
5.4 Lineare Abhängigkeit . . . . . . . . . .
5.5 Basen und Dimension . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Teilräume
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Lineare Abbildungen
6.1 Kern und Bild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Matrizenprodukte . . . . . . . . . . . . . . . . . . . . . . . .
6.2.2 Endomorphismen des Rn . . . . . . . . . . . . . . . . . . . .
6.2.3 Dreiecksmatrizen . . . . . . . . . . . . . . . . . . . . . . . .
6.2.4 Transponierte und symmetrische Matrizen . . . . . . . . . .
6.2.5 Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . .
6.3 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 Allgemeine und spezielle Lösungen . . . . . . . . . . . . . .
6.3.2 Vorwärts- und Rückwärtseinsetzen . . . . . . . . . . . . . .
6.3.3 Gauß’sches Eliminationsverfahren bei quadratischen regulären
Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
27
29
30
32
32
35
35
38
39
40
40
42
.
.
.
.
.
.
.
.
45
46
46
47
47
47
48
49
51
.
.
.
.
.
.
.
.
.
.
57
59
62
64
65
67
68
69
71
72
73
. 74
. 76
INHALTSVERZEICHNIS
iii
6.3.4
6.4
6.5
6.6
Gauß’sche Elimination bei nicht notwendigerweise quadratischen Matrizen . . . . . . . . . . . . . . . . . . . . . . . . .
Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.1 Entwicklungssatz von Laplace . . . . . . . . . . . . . . . . .
6.4.2 Berechnung von Inversen mittels Determinanten . . . . . . .
6.4.3 Lösen von Gleichungssystemen mittels Determinanten . . . .
Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . .
Skalarprodukt und orthogonale Matrizen . . . . . . . . . . . . . . .
6.6.1 Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . .
6.6.2 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . .
7 Folgen und Grenzwerte
7.1 Metrische Räume . . . . . . . . . . . . .
7.1.1 Äquivalente Metriken . . . . . . .
7.2 Folgen . . . . . . . . . . . . . . . . . . .
7.2.1 Konvergente Folgen in metrischen
7.2.2 Cauchy-Folgen . . . . . . . . . .
7.2.3 Folgen in angeordneten Körpern .
7.2.4 Folgen reeller Zahlen . . . . . . .
7.2.5 Folgen mit rationalen Elementen
7.2.6 Folgen in C . . . . . . . . . . . .
7.2.7 Rekursiv definierte Folgen . . . .
7.2.8 Landau-Symbole . . . . . . . . .
. . . . .
. . . . .
. . . . .
Räumen
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
8 Reihen
8.1 Harmonische Reihe . . . . . . . . . . . . . .
8.2 Geometrische Reihe . . . . . . . . . . . . . .
8.3 Die Eulersche Zahl e . . . . . . . . . . . . .
8.4 Konvergenzkriterien für Reihen . . . . . . .
8.4.1 Umsortierungen . . . . . . . . . . . .
8.4.2 Alternierende Reihen . . . . . . . . .
8.4.3 Absolut konvergente Reihen . . . . .
8.5 Vervollständigungen . . . . . . . . . . . . .
8.6 Potenzreihen . . . . . . . . . . . . . . . . . .
8.6.1 Die Exponentialfunktion . . . . . . .
8.6.2 Die Trigonometrischen Funktionen .
8.6.3 Die Binomialreihe . . . . . . . . . . .
8.6.4 Allgemeinere Form von Potenzreihen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
76
80
84
86
87
88
94
94
96
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
103
104
105
106
107
108
111
113
113
116
.
.
.
.
.
.
.
.
.
.
.
.
.
119
. 121
. 122
. 123
. 123
. 123
. 124
. 125
. 127
. 128
. 131
. 132
. 132
. 133
iv
M. Braack - INHALTSVERZEICHNIS
9 Stetige Funktionen
9.1 Eigenschaften stetiger Funktionen . . . . . . . . . . . . . .
9.2 Die Potenzfunktion mit rationalen Exponenten . . . . . . .
9.3 Die Exponentialfunktion in Q . . . . . . . . . . . . . . . .
9.4 Die Exponentialfunktion in C . . . . . . . . . . . . . . . .
9.5 Die Logarithmusfunktion . . . . . . . . . . . . . . . . . . .
9.6 Die Exponential- und Logarithmusfunktion zur allgemeinen
10 Differenzierbare Funktionen
10.1 Differentiationsregeln . . . . . . . . . .
10.2 Lokale Extrema und der Mittelwertsatz
10.3 Taylor-Entwicklung . . . . . . . . . . .
10.4 Approximation von Ableitungen . . . .
10.5 Newton-Verfahren . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Basis
. . . . . . . . . . . . . .
der Differentialrechnung
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
135
. 137
. 138
. 139
. 140
. 143
. 143
.
.
.
.
.
145
. 148
. 152
. 155
. 157
. 158
Kapitel 1
Modulare Arithmetik
1.1
Teiler
Das nachfolgende Lemma charakterisiert die Division mit Rest.
Lemma 1.1 Zu jedem Zahlenpaar (a, d) ∈ Z×Z∗ gibt es eindeutig bestimmte Zahlen
q, r ∈ Z mit a = dq + r und 0 ≤ r < |d|.
Bezeichnung: a heißt hierbei Dividend, d ist der Divisor, q der Quotient und r
der Rest.
Beispiele:
• (a, d) = (99, 4), 99 = 24 · 4 + 3, also q = 24 und r = 3.
• (a, d) = (99, −4), 99 = (−24) · (−4) + 3, also q = −24 und r = 3.
• (a, d) = (−99, −4), −99 = 25 · (−4) + 1, also q = 25 und r = 1.
• (a, d) = (−99, 4), −99 = (−25) · 4 + 1, also q = −25 und r = 1.
Also hat q immer das gleiche Vorzeichen wie das Produkt ad.
Beweis. Sei zunächst a, d ≥ 0. Wir setzen q als die größte ganze Zahl mit dq ≤ a
und r := a − dq, also r ≥ 0. Aufgrund der Maximalität von q gilt auch r < |d|. Die
Eindeutigkeit von q folgt aus der Forderung 0 ≤ r < |d|. Die übrigen Fälle a ≤ 0
bzw. d < 0 erfolgen analog.
Definition 1.2 Gilt im obigen Satz r = 0, so heißt d Teiler von a. Man schreibt
dann d|a, anderenfalls d6 | a.
2
M. Braack - Modulare Arithmetik
Jedes d ∈ Z∗ ist Teiler der Null: d|0. Die Eigenschaft “d ist Teiler von a” kann
man auffassen als eine transitive Relation auf Z. Es folgt also insbesondere
a|b ∧ b|c =⇒ a|c .
Eine andere offensichtliche Regel ist:
d|a ∧ d|b =⇒ d|(αa + βb) ∀α, β ∈ Z .
(1.1)
Definition 1.3 Zu zwei ganzen Zahlen a, b ∈ Z heißt d ∈ Z∗ ein gemeinsamer
Teiler, wenn d|a und d|b. Gilt ferner d > 0 und für jeden anderen gemeinsamen
Teiler c ∈ Z, c|d, so heißt d größter gemeinsamer Teiler und wird bezeichnet mit
d = ggt(a, b).
Lemma 1.4 Zu a, b ∈ Z kann es maximal einen größten gemeinsamen Teiler geben.
Beweis. Seien d1 , d2 > 0 zwei größte gemeinsame Teiler von a und b. Dann gilt
di |dj , für i, j ∈ {1, 2}, also d1 = q1 d2 und d2 = q2 d1 mit geeigneten q1 , q2 ∈ Z. Da
aber d1 und d2 als positiv vorausgesetzt wurden, muß auch q1 > 0 und q2 > 0 gelten.
Ferner folgt d1 = q1 q2 d1 , bzw. q1 q2 = 1. Da q1 , q2 ∈ N, folgt q1 = q2 = 1.
Dennoch wissen wir noch nicht, ob es immer einen ggt gibt. Wir werden dies
aber etwas später sehen.
Lemma 1.5 Es gilt für alle d ∈ N:
(i) d = ggt(qd, d) für alle q ∈ Z.
(ii) Sind a, b, q ∈ Z, so gilt die Äquivalenz:
d = ggt(a, b) ⇐⇒ d = ggt(a − qb, b) .
Beweis. (i): d ist offensichtlich ein gemeinsamer Teiler von qd und von d. Für
jeden weiterer Teiler c von qd und d gilt c|d, also d = ggt(qd, d).
(ii): Wir zeigen zunächst “⇒”: Ist d = ggt(a, b) so ist d auch ein Teiler von a − qb
wegen (1.1). Sei c ∈ Z ein weiterer Teiler von a − qb und b. Dann bleibt zu zeigen,
dass c|d. Dies sieht man wie folgt: Da c|qb und c|a − qb ist auch c|a. Somit ist c
gemeinsamer Teiler von a und b. Da nach Voraussetzung d = ggt(a, b) folgt c|d. Die
andere Richtung “⇐” folgt analog.
1.2 Euklidischer Algorithmus
1.2
3
Euklidischer Algorithmus
Der euklidische Algorithmus kann verwendet werden, um den größten gemeinsamen
Teiler d = ggt(a, b) zu ermitteln. Wir nehmen an, dass |a| > |b|. Dann geht man
folgendermaßen vor:
a = bq0 + r0 ,
0 ≤ r0 < |b| ,
b = r0 q1 + r1 ,
0 ≤ r1 < r0 ,
r0 = r1 q2 + r2 ,
..
.
0 ≤ r2 < r1 ,
rn−2 = rn−1 qn + rn ,
0 ≤ rn < rn−1 ,
rn−1 = rn qn+1 .
In jedem Schritt wird der Rest echt kleiner, 0 ≤ ri+1 < ri . Daher bricht diese
sukzessive Dividieren mit Rest irgendwann ab, wenn der Rest den Wert Null erreicht.
Wenn dieses Abbruchkriterium erreicht ist gilt
rn = ggt(a, b) .
(1.2)
Wir werden sehen, dass sogar gilt:
rn = ggt(ri , ri−1 ) ∀i = 0, . . . , n .
(1.3)
Insbesondere folgt dann auch (1.2). Die Eigenschaft (1.3) sieht man mittels Induktion nach i. Da wir den Induktionsbeweis rückwärts führen lautet die Induktionsannahme rn = ggt(rn , rn−1 ). Dies ist aber eine unmittelbare Folgerung aus Lemma 1.5
(i), da rn−1 ein Vielfaches von rn ist. Wir nehmen nun rn = ggt(ri , ri−1 ) für ein
i ∈ {1, . . . , n} an. Da nach Konstruktion
ri = ri−2 − ri−1 qi
gilt, folgt rn = ggt(ri−1 , ri−2 ) nach Lemma 1.5 (ii).
Beispiel: Zur Ermittlung von ggt(91, 133) erhält man:
133 = 91 · 1 + 42
91 = 42 · 2 + 7
42 = 7 · 6
=⇒
7 = ggt(91, 133) .
Als Nebenprodukt dieses Algorithmus erhalten wir folgenden Existenzsatz:
4
M. Braack - Modulare Arithmetik
Satz 1.6 Zu zwei ganzen Zahlen a, b ∈ Z, a, b 6= 0, gibt es genau einen größten
gemeinsamen Teiler d = ggt(a, b). Ferner existieren α, β ∈ Z mit d = αa + βb.
Beweis. Die Existenz haben wir zuvor mittels des Euklidischen Algorithmus gezeigt. Die Eindeutigkeit haben wir in Lemma 1.4 bereits gezeigt. Es bleibt also die
Behauptung zu zeigen, dass sich der ggt(a, b) stets als Linearkombinationen von
a und b darstellen läßt: Hierzu verifizieren wir, dass der Rest rn im Euklidischen
Algorithmus eine Linearkombination von a und b ist, also rn = αa + βb:
r0 = a − bq0 = α0 a + β0 b
r1 = b − r0 q1 = b − (α0 a + β0 b)q1 = α1 a + β1 b
r2 = r0 − r1 q2 = α2 a + β2 b
..
.
rn = rn−2 − rn−1 qn = αn a + βn b
Mit jeweils geeigneten Koeeffizienten αi , βi ∈ Z.
1.3
Restklassen
Definition 1.7 Zwei ganze Zahlen a, b ∈ Z heißen kongruent modulo m ∈ N,
wenn m|(a − b). In diesem Fall schreibt man
a ≡ b mod m .
Lemma 1.8 Die Relation “kongruent modulo m” ist eine Äquivalenzrelation auf Z.
Die zugehörigen Äquivalenzklassen heißen Restklassen modulo m. Diese werden
mit [·]m bezeichnet.
Beweis. Für den Nachweis einer Äquivalenzrelation muss man die Reflexivtät,
die Symmetrie und die Transitivität nachweisen. Wir lassen diese einfache Übung
als Übungsaufgabe.
Man überlege sich folgende Äquivalenz:
a ∈ [b]m ⇔ [a]m ∈ [b]m .
Lemma 1.9 Für a, b ∈ Z und m ∈ N sind äquivalent:
(a) a ≡ b mod m.
(b) a und b liefern bei Division durch m den selben Rest.
1.3 Restklassen
5
(c) Für die Restklassen modulo m gilt: [a]m = [b]m .
Beweis. (a) ⇒ (b) : Laut Definition gilt m|(a − b). Also existiert ein d ∈ Z mit
a − b = md. Sei ferner a = md1 + r1 und b = md2 + r2 mit 0 ≤ r1 , r2 < m. Es folgt
m(d1 − d2 ) + r1 − r2 = md .
Somit muß m|(r1 − r2 ). Da aber −m < r1 − r2 < m folgt r1 = r2 .
(b) ⇒ (c) : Es gelte a = md1 + r und b = md2 + r, also a − md1 = b − md2 . Dann
gilt aber a ∈ [b + m(d1 − d2 )]m = [b]m , und mit dem oben gezeigten [a]m = [b]m .
(c) ⇒ (a) : Aus [a] = [b] folgt a ∈ [b]. Dies besagt aber gerade, dass a und b
kongruent modulo m sind.
Als Konsequenz dieses Satzes ergibt sich, dass es genau m Restklassen gibt, nämlich
[0], [1], . . . , [m − 1]. Die Restklassen werden also durch den zugehörigen Rest repräsentiert.
1.3.1
Operationen auf den Restklassen
Lemma 1.10 Die Operationen ⊕ und auf der Menge der Restklassen, definiert
durch
[a]m ⊕ [b]m := [a + b]m ,
[a]m [b]m := [a · b]m .
sind wohldefiniert.
Beweis. Mit Wohldefiniertheit ist hier gemeint, dass die Operationen unabhängig
sind von den jeweiligen Repräsentanten. Beispielsweise gilt für a, a0 ∈ [a]m und
b, b0 ∈ [b]m :
[a]m ⊕ [b]m = [a0 ]m ⊕ [b0 ]m ,
[a]m [b]m = [a0 ] [b0 ]m .
Die Begründung hierfür ist, dass m|(a − a0 ) sowie m|(b − b0 ). Hiermit gilt dann auch
m|((a + b) − (a0 + b0 )) bzw. [a + b]m = [a0 + b0 ]m . Die Multiplikation geht entsprechend
und lassen wir als Übungsaufgabe.
Diese Operationen auf den Restklassen erlauben es uns in Zukunft einfach mit
den Repräsentanten zu rechnen. Wir können also neue Operationen auf den Zahlen
0, 1, . . . , m − 1 folgendermassen definieren:
a ⊕ b = (a + b) mod m
a b = (ab) mod m .
6
M. Braack - Modulare Arithmetik
1.3.2
Anwendung von Restklassen auf Prüfziffern
Die ISBN Nummern im Buchhandel werden an der letzten Stelle mit einer Prüfziffer
versehen. Anhand dieser können manche Übertragungsfehler aufgedeckt werden. Der
Aufbau der 10-stelligen ISBN Nummer ist wie folgt (verwendet bis zum Jahr 2006):
An den ersten neun Stellen ai stehen Ziffern aus denen die letzte Ziffer (Prüfziffer)
a10 folgendermaßen gebildet wird:
!
9
X
a10 ≡
iai mod 11 .
i=1
Im Fall a10 = 10 wird das Symbol “X” verwendet. Seit 1.1.2007 besitzt die ISBN
Nummer sogar 13 Stellen (ISBN-13).
Beispiel: Das Buch von P. Hartmann [7] besitzt die ISBN Nummer 3-8348-0096-1.
Die entsprechende gewichtete Summe der ersten neun Ziffern ergibt
3 · 1 + 8 · 2 + 3 · 3 + 4 · 4 + 8 · 5 + 0 · 6 + 0 · 7 + 9 · 8 + 6 · 9 = 210 .
Da 210 ≡ 1 mod 11 erhält man tatsächlich die 1 als letzte Ziffer.
Eine Ziffer fehlerhaft
Wir werden nin sehen, dass eine fehlerhafte Ziffer zu einer nicht zulässigen Prüfziffer
führt. Im Fall, dass eine Ziffer fehlerhaft ist, also abi anstelle von ai , so würde bei
gleicher Prüfziffer gelten:
iai ≡ iabi mod 11 .
Hieraus folgt dann aber i(ai − abi ) ≡ 0 mod 11, bzw. ausgedrückt in Restklassen:
[i]11 [ai − abi ]11 = [0]11 .
Dann müsste aber i ≡ 0 mod 11 oder ai − abi ≡ 0 mod 11 sein. Da 11 eine Primzahl
ist, ist dies nur für den Fall ai = abi möglich. Also liegt keine falsche Ziffer vor.
Zahlendreher
Wir wollen uns nun überlegen was im Fall eines Zahlendrehers passiert, also bei
einem Vertauschen von ai und aj für i 6= j. Bliebe die Prüfziffer gleich, so würde
gelten:
iai + jaj ≡ (iaj + jai ) mod 11 .
1.3 Restklassen
7
Dies bedeutet aber
(i − j)(ai − aj ) ≡ 0 mod 11 .
Aufgrund der Rechenregel von Restklassen ist dies aber gleichbedeutend mit:
[i − j]11 [ai − aj ]11 = [0]11 .
Dann müsste aber i − j ≡ 0 mod 11 oder ai − aj ≡ 0 mod 11 sein. Dies ist aber nur
möglich für ai = aj . Also wird die Prüfziffer bei dem Vertauschen zweier verschiedener Ziffern sicherlich anders sein.
Bemerkung: Die Begründung, dass aus [a]11 [b]11 = [0]11 folgt, dass [a]11 = [0]11
oder [b]11 = [0]11 gilt, beweisen wir erst im Abschnitt 4. Hierzu ist wichtig, dass 11
eine Primzahl ist. Anderenfalls gilt diese Folgerung nicht. Beispielsweise ist [2]4 [2]4 =
[0]4 .
8
M. Braack - Modulare Arithmetik
Kapitel 2
Gruppen
Im folgenden beschäftigen wir uns mit Mengen G, auf denen eine (binäre) Verknüpfung, beispielsweise mit ∗ bezeichnet, definiert ist. Hierunter versteht man eine
Abbildung
∗ : G×G→G
(x, y) 7→ x ∗ y
Wir beginnen mit Mengen auf denen solch eine Verknüpfung definiert ist, die aber
noch recht “schwache” Struktureigenschaften aufweisen.
Definition 2.1 (Halbgruppe und Gruppe) Eine Halbgruppe (G, ∗) besteht aus
einer Menge G und einer Verknüpfung ∗ : G × G → G auf dieser Menge, so dass
das Assoziativgesetz gilt, d.h.
(G1)
(a ∗ b) ∗ c = a ∗ (b ∗ c)
∀a, b, c ∈ G .
Eine Halbgruppe (G, ∗) heißt Gruppe, wenn folgenden Eigenschaften gelten:
(G2) Es gibt ein neutrales Element e ∈ G, d.h. a ∗ e = e ∗ a = a ∀a ∈ G .
(G3) Für jedes Element a ∈ G existiert ein inverses Element inv∗ (a) ∈ G, d.h.
a ∗ inv∗ (a) = e.
Eine Gruppe heißt kommutative Gruppe (oder abelsche Gruppe), wenn zusätzlich
das Kommutativgesetz gilt, d.h.
a∗b = b∗a
∀a, b ∈ G .
10
M. Braack - Gruppen
Ist |G| endlich, so spricht man von einer endlichen Gruppe.
Beispiele:
1. (Z, +) ist eine kommutative Gruppe mit neutralem Element e = 0 und Inversem inv+ (a) = −a.
2. (Q, +) ist eine kommutative Gruppe mit neutralem Element e = 0 und Inversem inv+ (a) = −a.
3. (Q \ {0}, ·) ist eine kommutative Gruppe mit neutralem Element e = 1 und
Inversem inv· (a) = 1/a.
4. (N0 , +) ist nur eine Halbgruppe, da es keine Inversen in dieser Menge gibt
(abgesehen von dem Inversen des neutralen Elementes 0).
Lemma 2.2 In einer Gruppe G sind die linksinversen und rechtsinversen Elemente
gleich, d.h. a ∗ inv∗ (a) = inv∗ (a) ∗ a = e.
Beweis. Sei a ∗ inv∗ (a) = e. Dann folgt mit dem Rechtsinverse b = inv∗ (a):
inv∗ (a) ∗ a = (b ∗ a) ∗ e = (b ∗ a) ∗ (b ∗ inv∗ (b))
= b ∗ (a ∗ b) ∗ inv∗ (b) = b ∗ e ∗ inv∗ (b) = b ∗ inv∗ (b) = e .
Lemma 2.3 In einer Gruppe G gibt es nur ein neutrales Element und zu jedem
a ∈ G auch nur ein Inverses.
Beweis. Übungsaufgabe.
Definition 2.4 (Untergruppe) Eine Teilmenge U ⊂ G einer Gruppe (G, ∗) heißt
Untergruppe von G, wenn für alle a, b ∈ U gilt a ∗ b ∈ U und inv∗ (a) ∈ U .
Beispiele:
1. (Z, +) ist eine Untergruppe von (Q, +).
2. (N, +) ist hingegen keine Untergruppe von (Q, +), da die Inversen nicht enthalten sind.
2.1 Isomorphe Gruppen
2.1
11
Isomorphe Gruppen
Definition 2.5 Eine Abbildung f : G1 → G2 zwischen zwei Gruppen (G1 , ∗) und
(G2 , +) heißt (Gruppen-) Homomorphismus, wenn
f (a ∗ b) = f (a) + f (b)
∀a, b ∈ G1 .
Ist f dabei bijektiv, so heißt f (Gruppen-) Isomorphismus, und G1 und G2 werden
isomorph genannt.
Beispiele:
1. Die Identität id : (Z, +) → (R, +) ist ein Homomorphismus.
2. Die Funktion, die einer reellen Zahl den ganzzahligen Anteil (INT) zuweist,
f : (R, +) → (Z, +), x 7→ [x] ist kein Homomorphismus, denn beispielsweise
gilt 1 = f ( 34 ) = f ( 23 + 32 ) 6= f ( 23 ) + f ( 32 ) = 0 + 0. Das gleiche gilt für andere
Arten der “Rundung”.
3. Dadurch dass ein Rechner immer nur endlich viele Dezimalstellen verarbeiten
kann, ist die Abbildung f der reellen Zahlen auf Maschinenzahlen ebenfalls
kein Homomorphismus. Ein wichtiger Effekt ist die Auslöschung: Wenn wir
mit 4-stelliger Fließkomma-Arithmetik arbeiten erhält man mit a = 1.2343e4,
b = −1.2344e4:
−1 = f (−1) = f (a + b) 6= f (a) ⊕ f (b) = 1.234 · 104 ⊕ (−1.234 · 104 ) = 0 .
Hierbei bezeichnet ⊕ die Maschinen-Addition mit Fließkommazahlen. Dass
es zu einem Unterschied zwischen der exakten und der Maschinenaddition
kommt, ist nicht weiter verwunderlich. Wichtig ist hier aber, dass der Fehler
relativ zum Endergebnis sehr groß ist.
Lemma 2.6 Seien G1 und G2 Gruppen mit neutralen Elementen e1 ∈ G1 und e2 ∈
G2 . Dann gilt für jeden Homomorphismus f : G1 → G2 :
f (e1 ) = e2
und
f (inv(a)) = inv(f (a)) ∀a ∈ G1 .
Beweis. Wir verwenden für die binären Verknüpfungen auf den beiden Gruppen
das gleiche Symbol ∗. Es gilt:
f (e1 ) = f (e1 ∗ e1 ) = f (e1 ) ∗ f (e1 ) .
12
M. Braack - Gruppen
Wegen der Eindeutigkeit des neutralen Elementes in G2 (Satz 2.3) folgt e2 = f (e1 ).
Ferner folgt nun:
e2 = f (e1 ) = f (a ∗ inv(a)) = f (a) ∗ f (inv(a)) .
Dies bedeutet aber inv(f (a)) = f (inv(a)).
Mit Hilfe von Isomorphismen können wir jetzt Gruppen klassifizieren:
2.2
2.2.1
Klassifikation von Gruppen
Klassifikation der Gruppen mit einem Element
Bis auf Isomorphismen gibt es nur eine Gruppe mit einem Element. Diese besteht nur
aus dem neutralen Element G = {e} und der Operation e ∗ e = e und dem Inversen
inv(e) = e. Das Inverse des neutralen Elementes ist übrigens in jeder Gruppe das
neutrale Element selbst.
2.2.2
Klassifikation der Gruppen mit zwei Elementen
Die Gruppe mit zwei Elementen bezeichnen wir mit G = {e, a}, wobei e das neutrale
Element ist und a ein weiteres Element, also a 6= e. Nun wollen wir uns die möglichen
Verknüpfungstafeln überlegen:
*
e
a
e
e
a
a
a
x
Damit reduziert sich die Anzahl von möglichen Gruppen auf zwei, nämlich je nachdem welchen Wert a ∗ a ∈ {e, a} annimmt. Hierbei ist a ∗ a = a aber ausgeschlossen,
da sonst das neutrale Element nicht eindeutig wäre; also gibt es bis auf Isomorphie
nur eine Gruppe mit zwei Elementen. Diese erhält man, indem man in der obigen
Verknüpfungstafel x = e setzt. Diese ist gerade die Gruppe Z2 = {0, 1} zusammen
mit der Addition modulo 2.
2.2.3
Klassifikation der Gruppen mit drei Elementen
Für Kandidaten mit drei Elementen erhält man zunächst mehr Möglichkeiten:
2.3 Zyklische Gruppen
13
* e a
e e a
a a ?
b b ?
b
b
?
?
Hier kommt nur a ∗ a = e oder a ∗ a = b in Betracht (wieder wegen der Eindeutigkeit
des neutralen Elementes). Aus dem gleichen Grund darf in jeder Zeile und in jeder
Spalte kein Element doppelt vorkommen. Wäre nun a ∗ a = e, so müßte a ∗ b = b
ergeben; was aber zu einem Konflikt mit b ∗ e = b führt. Also ist nur a ∗ a = b,
b ∗ a = e, a ∗ b = e, b ∗ b = a möglich. Wir erhalten:
*
e
a
b
e a
e a
a b
b e
b
b
e
a
Dies entspricht der Gruppe Z3 = {0, 1, 2} mit der Addition modulo 3.
2.2.4
Gruppen mit vier Elementen
Bei vier Elementen gibt es allerdings zwei mögliche Gruppen, die nicht isomorph
zueinander sind, die Gruppe Z4 (links) und die sogenannte Klein’sche Vierergruppe
(rechts):
* e a b
e e a b
a a b c
b b c e
c c e a
2.3
c
c
e
a
b
* e a
e e a
a a e
b b c
c c b
b
b
c
e
a
c
c
b
a
e
Zyklische Gruppen
Wenn man jedes Element der Gruppe durch ein geeignetes Vielfaches ein und desselben Elementes darstellen kann, so spricht man von einer zyklischen Gruppe. Hierbei
bezeichnet an = an−1 ∗ a für n ∈ N, n > 1, und a1 = a. Die genaue Definition einer
zyklischen Gruppe lautet:
Definition 2.7 Eine endliche Gruppe heißt zyklisch, wenn es ein a ∈ G gibt, so
dass
G = {a, a2 , a3 , . . .} .
14
M. Braack - Gruppen
Dieses Element heißt dann erzeugendes Element der Gruppe.
Lemma 2.8 Sei G eine zyklische Gruppe mit n Elementen, n ∈ N. Dann gilt an = e
für das erzeugende Element a ∈ G.
Beweis. Da G zyklisch mit erzeugendem Element a ist, gilt G = {a, a2 , . . . , an }.
Folglich existiert ein m ∈ {1, . . . , n} mit am = e. Mit diesem m gilt dann am+1 =
am ∗ a = e ∗ a = a. Wäre nun m < n, so hätte G weniger als n Elemente. Da dies
ein Widerspruch zur Voraussetzung wäre, folgt m = n.
Die zuvor betrachteten Gruppen Zm sind allesamt zyklisch. Im nächsten Abschnitt betrachten wir Gruppen, die u.U. zyklisch sein können, aber nicht müssen.
Der folgende Satz verwendet eine zyklische Untergruppe im Beweis.
Satz 2.9 Sei (G, ∗) eine endliche Gruppe mit neutralem Element e. Dann gilt a|G| =
e für alle a ∈ G.
Beweis. Wir betrachten die zyklische Untergruppe
Ua := {an ∈ G : n ∈ N}.
Nun gilt einerseits
a|U |a = e.
Andererseits ist die Mächtigkeit einer Untergruppe
Ua einer endlichen Gruppe G
stets ein Teiler von |G| (Satz von Lagrange): |U |a |G|, bzw. |G| = |U |a m, mit m ∈ N.
Hieraus folgt die Behauptung:
a|G| = (a|U |a )m = em = e.
2.4
Permutationsgruppen
Wenn M eine Menge ist, dann bildet die Menge G aller bijektiven Abbildungen f :
M → M zusammen mit der Komposition ◦ von Abbildungen eine Gruppe (G, ◦). Im
Spezialfall einer endlichen Menge, z.B. repräsentiert durch M = {1, 2, . . . , n}, erhält
man durch diese bijektiven Abbildungen gerade die Permutationen. Man spricht
dann von der Permutationsgruppe Sn :
Sn = {f : M → M bijektiv} .
2.5 Existenz von multiplikativen Inversen in Zm
15
Für M = {1, . . . , n} können wir jedes Element f aus Sn eindeutig darstellen mittels
(f (1), f (2), . . . , f (n))
mit paarweise verschiedenen f (k). Entsprechend ist jedes Element aus Sn identifizierbar mit einer Permutation der n Elemente. Ein Element dieser Gruppe ist also
eine Permutation auf n Elementen. Somit gilt nach dem folgenden Satz |Sn | = n!.
Satz 2.10 Die Elemente einer n-elementigen Menge, n ∈ N, lassen sich auf genau
n! verschiedene Arten anordnen.
Beispiel: Für n = 3 können wir die Permutation f , die abbildet 1 7→ 2, 2 7→ 3,
3 7→ 1, verkürzt ausdrücken durch den Ausdruck (2, 3, 1). Führen wir diese Permutation 3 mal hintereinander aus, so erhalten wir das neutrale Element: f ◦ f ◦ f =
f 3 = id. In diesem Fall hat man also einen Zyklus. Es ist aber damit nicht gesagt,
dass die Gruppe S3 zyklisch ist.
Die Permutationsgruppe ist im Fall n = 2 zyklisch. Im allgemeinen Fall (n > 2)
gilt dies jedoch nicht. Untergruppen der Permutationsgruppe können aber sehr wohl
zyklisch sein.
Man überlege sich, dass man jede Permutation als Komposition von 2er-Zyklen
(sogenannte Transpositionen) darstellen kann.
2.5
Existenz von multiplikativen Inversen in Zm
Wir hatten bereits gesehen, dass man auf den Äquivalenzklassen der Relation modulo
m eine Multiplikation definieren kann. Allerdings existieren nicht für alle a ∈ Zm
Inverse bezüglich der Multiplikation. Der Euklidische Algorithmus liefert uns aber
für bestimmte a die Inversen:
Lemma 2.11 Für m ∈ N und a ∈ Z mit ggt(a, m) = 1 existiert ein inverses
Element von [a]m bezüglich der Multiplikation in Zm . Dieses bezeichnen wir mit
[a]−1
m ∈ Zm .
Beweis. Wir müssen eine Restklasse [x]m ∈ Zm finden mit [x]m [a]m = [1]m .
Da ggt(a, m) = 1 liefert der Euklidische Algorithmus ganze Zahlen α, β ∈ Z mit
αa + βm = 1. Hieraus folgt insbesondere
αa + βm ≡ 1 mod m .
16
M. Braack - Gruppen
Subtraktion von βm liefert bereits αa ≡ 1 mod m. Da aber zunächst noch α ∈ Z gilt,
bilden wir die entsprechende Restklasse von x ∈ {1, 2, . . . , m − 1} mit [α]m = [x]m .
Dies ist dann das gewünschte multiplikative Inverse [a]−1
m := [x]m
[x]m [a]m = [1]m .
Dieser Beweis liefert uns gleichzeitig eine Konstruktionsmöglichkeit des Inversen
über den Euklidische Algorithmus.
Beispiel: Das multiplikative Inverse von a = 325 im Ring Zm mit m = 1848
erhält man wie folgt:
1848
325
223
102
19
7
5
2
= 325 · 5 + 223
= 223 · 1 + 102
= 102 · 2 + 19
=
19 · 5 + 7
=
7·2+5
=
5·1+2
=
2·2+1
=
1·2+0
; 223 = 1848 − 5 · 325
; 102 = 325 − 223 = −1848 + 6 · 325
; 19 = 223 − 102 · 2 = 3 · 1848 − 17 · 325
; 7 = 102 − 19 · 5 = −16 · 1848 + 91 · 325
; 5 = 19 − 7 · 2 = 35 · 1848 − 199 · 325
; 2 = 7 − 5 · 1 = −51 · 1848 + 290 · 325
; 1 = 5 − 2 · 2 = 137 · 1848 − 779 · 325
Wir erhalten also
1 = 137 · 1848 − 779 · 325 ≡ (β · m + α · a) mod m
≡ (β · 1848 + α · 325) mod m .
Das multiplikative Inverse zu a = 325 im Ring Z1848 lautet also
α = −779 ≡ −779 + 1848 ≡ 1069 mod 1848 .
Nun wissen wir, dass es unter gewissen Voraussetzungen multiplikative Inverse gibt.
Da (Zm , ) aber im allgemeinen keine Gruppe ist, wissen wir nichts über die Eindeutigkeit solcher Inversen. Um dies doch zu zeigen benötigen wir zunächst eine
weitere Hilfsaussage:
Lemma 2.12 Für beliebige a, b ∈ Z∗ sind äquivalent:
(a) ggt(a, b) = 1,
(b) ∃α, β ∈ Z : αa + βb = 1.
2.6 Die Gruppe Z∗n und die Eulersche Funktion
17
Beweis. Die Richtung (a) ⇒ (b) ist bereits gezeigt in Satz 1.6. Für die Gegenrichtung sei c ein gemeinsamer Teiler von a und b. Damit ist auch c|αa + βb für
beliebige α, β ∈ Z, speziell für die aus Voraussetzung (b). Dies impliziert c|1, woraus
wiederum (a) folgt.
Mit diesen Hilfsmitteln können wir die Eindeutigkeit der Inversen beweisen:
Satz 2.13 Sei a ∈ Z, m ∈ N und ggt(a, m) = 1. Dann liefert a · i für 0 ≤ i < m
paarweise verschiedene Reste modulo m. Insbesondere existiert genau ein 0 < x < m,
so dass [x]m das multiplikative Inverse von [a]m ist. Hierfür gilt ggt(x, m) = 1.
Beweis. Zunächst zu den paarweise verschiedenen Resten: Angenommen ai ≡
aj mod m für 0 ≤ i ≤ j < m. Dies bedeutet m|a(i − j). Da a und m nur die
gemeinsamen Teiler ±1 haben, folgt m|(i − j). Dies ist aber nur möglich für i =
j. Zusammen mit Lemma 2.11 folgt hieraus die Existenz und Eindeutigkeit des
multiplikatives Inversen [x]m ∈ Zm :
ax ≡ 1
mod m .
Dies bedeutet, dass ein q ∈ Z existiert mit ax − 1 = qm, bzw. ax − qm = 1. Mit
Lemma 2.12 ist dies äquivalent mit ggt(x, m) = 1.
2.6
Die Gruppe Z∗n und die Eulersche Funktion
Wir betrachten zu n ∈ N folgende Menge
Z∗n := {[i]n ∈ Zn : ggt(i, n) = 1}.
Die Elemente von Z∗n werden Einheiten modulo n genannt. Zusammen mit der Multiplikation (im Sinne von Restklassen) ist dies eine kommutative Gruppe:
Lemma 2.14 (Z∗n , ·) ist eine kommutative Gruppe.
Beweis. Der Beweis ergibt sich aus den folgenden Punkten:
• Zur Abgeschlossenheit bzgl. der Multiplikation: Seien [a]n , [b]n ∈ Z∗n , also
ggt(a, n) = ggt(b, n) = 1. Dann ist 1 der einzige gemeinsame positive Teiler von a und n, sowie der von b und n. Dann ist aber auch 1 der einzige
gemeinsame positive Teiler von a · b und n, also ggt(ab, n) = 1. Somit folgt
[ab]n ∈ Zn∗ .
• Das Assoziativgesetz gilt offensichtlich, da es in ganz Zn gilt.
18
M. Braack - Gruppen
• Das multiplikative neutrale Element ist [1]n . Dieses ist offensichtlich auch ein
Element in Z∗n .
• Die Existenz der Inversen ist nach Lemma 2.11 gesichert.
Wir erhalten als unmittelbare Folgerung:
Satz 2.15 Ist p eine Primzahl, so ist Z∗p = Zp \ {0}. Insbesondere gibt es in Zp für
alle [a] ∈ Zp , a 6= 0, ein eindeutiges multiplikatives Inverse [a]−1 ∈ Zp : [a]−1
p [a]p =
[1]p .
Die Mächtigkeit der Menge Z∗n wird ϕ(n), bzw. Eulersche Funktion, genannt:
ϕ(n) := |Z∗n |.
Für Primzahlen p gilt offensichtlich
ϕ(p) = p − 1.
Für das Produkt verschiedener Primzahlen gilt hingegen:
Lemma 2.16 Seien p, q zwei verschiedene Primzahlen, n = pq. Dann gelten ϕ(pq) =
(p − 1)(q − 1) und
Z∗n := Zn \ {p, 2p, . . . , (q − 1)p, q, 2q, . . . , (p − 1)q}.
Beweis. Sei M := {p, 2p, . . . , (q − 1)p, q, 2q, . . . , (p − 1)q}. Alle Zahlen k ∈ Zn ,
k 6= 1, die Teiler von n = pq sind, sind Vielfache von p oder von q, also Elemente aus
M . Umgekehrt besitzen die Elemente aus M gemeinsame Teiler mit pq, die größer
als 1 sind. Daher gilt die Äquivalenz:
a ∈ M ⇔ ggt(a, n) > 1 ⇔ a 6∈ Z∗n .
Die Umkehrung ergibt:
a ∈ Zn \ M ⇔ ggt(a, n) = 1 ⇔ a ∈ Z∗n .
Da die oben angegebenen Elemente aus M paarweise verschieden sind, gilt |M | =
q − 1 + p − 1. Hiermit folgt
ϕ(n) = |Z∗n | = |Zn \ M | = pq − (q − 1 + p − 1) = (p − 1)(q − 1).
Für das Konzept von Verschlüsselungstechniken benötigen wir den Satz von Euler:
2.7 RSA-Public-Key Verschlüsselung
19
Satz 2.17 (Satz von Euler) Für n ∈ N und a ∈ Z mit ggt(a, n) = 1 gilt:
aϕ(n) ≡ 1 mod n.
Beweis. Aus ggt(a, n) = 1 folgt [a]n ∈ Z∗n . Nach Satz 2.9 folgt:
∗
aϕ(n) = a|Zn | ≡ 1 mod n.
2.7
RSA-Public-Key Verschlüsselung
Das RSA-Public-Key Verschlüsselungverfahren, benannt nach R. Rivest, A. Shamir
und L. Adleman (1977) beruht auf folgendem Prinzip:
Satz 2.18 Seien p, q zwei verschiedene Primzahlen, n = pq, m = (p − 1)(q − 1),
und e ∈ N derart, dass ggt(e, m) = 1 gilt. Dann ist die Abbildung
C : Z∗n → Z∗n , a 7→ C(a) := ae mod n
eine Bijektion. Die Inverse von C ist
D : Z∗n → Z∗n , b 7→ D(b) := bd mod n,
wobei e · d = 1 mod m.
Beweis. (a) Zunächst ist zu zeigen, dass die Bilder unter C tatsächlich wieder
in Z∗n liegen. Für a ∈ Z∗n gilt ggt(a, n) = 1. Es folgt dann ggt(ae , n) = 1, also
C(a) ∈ Z∗n .
(b) Existenz von d: Da ggt(e, m) = 1, ist e ∈ Z∗m und besitzt somit ein Inverses
d ∈ Zm . Für dieses d gilt die Forderung
e · d ≡ 1 mod m.
(2.1)
(c) Die Abbildungseigenschaft von D folgt aus den gleichen Gründen wie in (a).
(d) Wir zeigen nun, dass für alle a ∈ Z∗n gilt D(C(a)) = a. Hieraus folgt die Bijektivität von C. Aufgrund der Verträglichkeit der Multiplikation mit der Äquivalenzklassenbildung gilt:
D(C(a)) = (ae mod n)d mod n = aed mod n.
20
M. Braack - Gruppen
Wegen (2.1), folgt mit einem geeigneten k ∈ Z:
aed ≡ a1+km mod n
≡ (a · (am )k ) mod n
≡ a · (am mod n)k mod n.
Das Lemma 2.16 liefert uns m = ϕ(n). Der Satz von Euler 2.17 besagt nun am ≡ 1
mod n. Damit folgt
aed ≡ a · 1k mod n
≡ a mod n.
(e) Analog folgert man C(D(b)) = b für b ∈ Z∗n , so dass C und D tatsächlich bijektiv
auf Z∗n sind.
2.7.1
Chiffrieren
Das Chiffrieren geschieht mittels der bijektiven Funktion
C : Z∗n → Z∗n , C(a) = ae mod n.
Dabei ist die Konstruktion der Funktion C öffentlich (öffentlicher Schlüssel). Insofern
sind e, n ∈ N bekannt. Hierbei muss n als ein Produkt von zwei Primzahlen gewählt,
n = pq.
Es ist dabei zu beachten, dass man die Botschaft, die verschlüsselt werden soll, so
in Einzelportionen zerteilt, dass man jedes Teil durch eine Zahl aus Z∗n repräsentieren
läßt. Für große Primzahlen p, q ist aber die Mächtigkeit von |Z∗n | vergleichbar mit
der von |Zn |, denn
|Z∗n |
(p − 1)(q − 1)
pq − (p + q − 1)
=
=
> 1−
|Zn |
pq
pq
1 1
+
p q
≈ 1.
Ferner läßt sich sagen, dass die Anwendung von C relativ schnell möglich ist, selbst
wenn e eine große Zahl ist.
Die chiffrierte Nachricht C(a) kann nun versendet werden. Durch alleinige Kenntnis von e und n kann man aber a nicht aus C(a) zurückerhalten. Hierzu würde man
die Umkehrfunktion D aus dem nächsten Teilabschnitt benötigen.
2.7 RSA-Public-Key Verschlüsselung
2.7.2
21
Dechiffrieren
Das Dechiffrieren geschieht über die Umkehrfunktion
D : Z∗n → Z∗n , b 7→ D(b) := bd mod n.
Gemäß des Satzes 2.18 gilt D ◦ C = Id : Z∗n → Z∗n . Hierdurch wird die Nachricht
a ∈ Z∗n tatsächlich zurückerhalten. D bzw. die Zahl d sind nur einem kleinen Kreis
bekannt ist (z.B. nur der Empfangsperson). d ist aber auch berechenbar aus Kenntnis
der Primzahlen p und q, denn d ist das multiplikative Inverse von e modulo m =
(p − 1)(q − 1). Dies geschieht z.B. durch den Euklidischen Algorithmus. Durch die
Kenntnis von n allein, ist dies aber nicht möglich.
Das ganze Verfahren beruht nun auf der folgenden wichtigen Eigenschaft: Man
kann C(a) schnell bei Kenntnis von a, n und e ermitteln, aber nicht umgekehrt a
aus C(a), n und e. Ferner muss d auch so groß sein, dass man nicht durch bloßes
ausprobieren, den Schlüssel errät. Aus diesem Grund müssen die beiden Primzahlen p, q sehr groß sein. In der Praxis ist die Zahl n mind. von der Größenordnung
1024 Bits. Rechnet man dies um in Dezimalstellen, so ergeben sich p und q in der
Größenordnung 10100 . In dieser Größenordnung läßt sich auch die Faktorisierung
von n in die Primzahlen p, q nicht ohne Kenntnis von p oder q in vertretbarer Zeit
bestimmen.
22
M. Braack - Gruppen
Kapitel 3
Ringe
Mehr Struktur als eine Gruppe hat ein sogenannter Ring. Hierzu müssen allerdings
zwei Verknüpfungen definiert sein.
Definition 3.1 (Ring) Ein Ring (R, +, ·) besteht aus einer Menge R und zwei
Verknüpfungen + : R × R → R und · : R × R → R auf dieser Menge mit folgenden
Eigenschaften:
(a) (R, +) ist eine kommutative Gruppe.
(b) (R, ·) ist eine Halbgruppe.
(c) Es gelten die Distributivgesetze, d.h. ∀a, b, c ∈ R gilt:
a · (b + c) = (a · b) + (a · c) ,
(b + c) · a = (b · a) + (c · a) .
Gilt ferner das Kommutativgesetz für die Verknüpfung ·, so spricht man von einem
kommutativen Ring.
Wir haben hier einfach die Bezeichnungen + und · als Verknüpfungen gewählt,
obgleich dies zunächst nicht unbedingt die Addition bzw. Multiplikation sein muß. Es
wird sich aber als sehr praktikabel erweisen, diese Operationen stets mit “Addition”
und “Multiplikation” zu bezeichnen. Ferner bezeichnen wir im folgenden das neutrale
Element bzgl. + als 0 und das (additive) Inverse von a ∈ R als −a. Mit a − b
bezeichnen wir a + (−b) und mit ab den Ausdruck a · b. Desweiteren werden wir mit
R∗ im folgenden die Menge R \ {0} bezeichnen.
24
M. Braack - Ringe
Lemma 3.2 In einem Ring (R, +, ·) gilt für alle x ∈ R: x · 0 = 0. Existiert im Ring
die 1, so gilt außerdem:
(−1)x = −x, (−1)2 = 1, (−x)2 = x2 .
Beweis. (a) Zunächst folgt mit dem Distributivgesetz x·0 = x·(0+0) = x·0+x·0.
Demnach ist x · 0 das neutrale Element der Addition. Mit der Eindeutigkeit des
neutralen Elementes folgt x · 0 = 0.
(b): Mit dem Distributivgesetz und Aussage (a) folgt: (−1)x + x = (−1 + 1)x =
0 · x = 0. Also ist (−1)x das additive Inverse von x, d.h. (−1)x = −x.
(c): (−1)2 x = (−1)(−1)x = (−1)(−x) = −(−x) = x.
(d): Distributivgesetz und Aussage (a) liefern:
(−x)2 − x2 = (−x)(−x) − x2 = (−x)(−1)x − x2 = (−x(−1) − x)x
= (−x)(1 − 1)x = (−x)0x = 0.
3.1
Der Ring Zm
Wir hatten bereits gesehen, dass man auf den Äquivalenzklassen der Relation modulo
m ebenfalls eine Addition und eine Multiplikation definieren kann. Die Menge der
zugehörigen Restklassen wird mit Zm (oder auch Z/mZ) bezeichnet und bildet einen
Ring:
Lemma 3.3 Für m ∈ N bildet (Zm , ⊕, ) einen kommutativen Ring mit 1, d.h. es
existiert ein neutrales Element für die Multiplikation.
Beweis. Übungsaufgabe.
3.2
Polynomringe
Definition 3.4 (Polynom) Sei (R, +, ·) ein kommutativer Ring und ai , 0 ≤ i ≤ n,
n ∈ N0 endlich viele Elemente aus R. Dann versteht man unter einem Polynom
auf R eine Abbildung p : R → R gegeben durch
p(x) =
n
X
ai x i .
i=0
Ist an 6= 0, so heißt deg(p) = n Grad des Polynoms. Die ai ∈ R heißen Koeffizienten
des Polynoms und x ∈ R das jeweilige Argument.
3.2 Polynomringe
25
Den Grad des Nullpolynoms definiert man als negativ, d.h. deg(0) = −1. Ferner
gehen wir bei obiger Definition des Polynomgrads davon aus, dass die Darstellung
des Polynoms “minimal” ist: beispielsweise ist im Ring Z2 das Polynom p(x) = x2
identisch mit p(x) = x und besitzt daher den Polynomgrad deg(p) = 1.
Lemma 3.5 Sind p, q Polynome auf R , so sind auch p + q, pq definiert durch
(p + q)(x) = p(x) + q(x) ,
(p · q)(x) = p(x) · q(x)
Polynome auf R mit deg(p + q) ≤ max{deg(p), deg(q)} und deg(pq) ≤ deg(p) +
deg(q) .
Beweis. Dies sieht man indem man sich die Koeffizienten von p + q und pq
überlegt. Wenn p und q von der Form
m
X
p(x) =
i
ai x ,
q(x) =
i=0
n
X
bi x i
i=0
sind, so ist die Summe gegeben durch:
max{m,n}
X
(p + q)(x) =
(ai + bi )xi .
i=0
In dieser Darstellung ist ai = 0 für i > m und bj = 0 für j > n zu verstehen. Das
Produktpolynom lautet:
(pq)(x) =
m X
n
X
ai bj x
i=0 j=0
i+j
=
m+n
X
ck x k ,
k=0
mit Koeffizienten:
ck =
n
X
aj bk−j
0 ≤ k ≤ n + m.
j=0
Beispiel: Wir betrachten der einfach halber Polynome auf dem Ring (Q, +, ·):
1
p(x) = 2 + 3x + x2 ,
2
q(x) = −2 + x − x3 .
26
M. Braack - Ringe
Dann gilt:
1
(p + q)(x) = 4x + x2 − x3
2
1
1
(pq)(x) = −4 + (2 − 6)x + (3 − 1)x2 + (−2 + )x3 − 3x4 − x5 .
2
2
Übungsaufgabe: Man überlege sich ein Beispiel zweier Polynome p, q über einem Ring
R, so dass deg(pq) < deg(p) + deg(q).
Lemma 3.6 (Polynomring) Sei (R, +, ·) ein kommutativer Ring. Dann ist die
Menge der Polynome zusammen mit den Verknüpfungen + und · ein Unterring aller
Abbildungen R → R, der sogenannte Polynomring R[x]. Besitzt R ein Einselement
1, so ist besitzt auch R[x] ein Einselement, nämlich das Polynom p(x) = 1.
Beweis. Das vorherige Lemma besagt gerade, dass R[x] abgeschlossen bezüglich
der Addition und der Multiplikation ist. Die Assoziativgesetze für die Addition und
für die Multiplikation, sowie die Distributivgesetze folgen direkt aus denen in R. Es
bleibt zu zeigen, dass (R[x], +) eine Gruppe ist, dass also ein neutrales Polynom
und inverse Polynome für die Addition existieren. Das neutrales Polynom ist das
Nullpolynom p(x) = 0 und das Inverse zu p ∈ R[x] ist −p.
Kapitel 4
Körper
Definition 4.1 Ein kommutativer Ring (K, +, ·) heißt Körper, wenn (K ∗ , ·) eine
Gruppe ist.
Beispiele:
1. Q bildet zusammen mit + und · ein Körper.
2. Genauso ist (R, +, ·) ein Körper.
Lemma 4.2 (K, +, ·) ist genau dann ein Körper, wenn
(K1) (K, +, ·) ist ein kommutativer Ring.
(K2) Es gibt ein multiplikatives neutrales Element, d.h. es existiert 1 ∈ K mit 1·x =
x für alle x ∈ K ∗ := K \ {0}.
(K3) Für alle x ∈ K ∗ existiert ein multiplikatives Inverses.
Beweis. Es genügt nachzuweisen, dass (K ∗ , ·) nicht nur eine Halbgruppe, sondern
eine Gruppe ist, sofern (K1)-(K3) erfüllt sind. Dies ist aber trivial.
Lemma 4.3 In einem Körper (K, +, ·) gilt für x, y ∈ K mit xy = 0, dass x = 0
oder y = 0.
Beweis. Zunächst folgt mit dem Distributivgesetz x · 0 = x · (0 + 0) = x · 0 + x · 0.
Demnach ist x · 0 das neutrale Element der Addition, also x · 0 = 0. Für die zweite
Aussage nehmen wir an, dass xy = 0 und x 6= 0 gelte. Dann folgt mit der ersten
Aussage dieses Satzes:
0 = x−1 · 0 = x−1 (xy) = (x−1 x)y = 1 · y = y .
28
M. Braack - Körper
Man verwendet die Bezeichnung
xn := x
. . · x} .
| · .{z
n−mal
Satz 4.4 Für p ∈ N gilt: (Zp , ⊕, ) ist genau dann ein Körper, wenn p eine Primzahl ist.
Beweis. Wir wissen bereits nach Lemma 3.3, dass (Zp , ⊕, ) für beliebiges p ∈
N ein kommutativer Ring mit 1 ist. Ferner wissen wir wegen Satz 2.15, dass es
eindeutige Inverse gibt, wenn p prim ist.
Ist p hingegen keine Primzahl, so existieren q1 , q2 ∈ {2, 3, . . . , p−1} mit p = q1 q2 , also
[q1 ]p [q2 ]p = 0. Wäre nun (Zp , ⊕, ) ein Körper, so würde man mittels Lemma 4.3
einen Widerspruch erhalten.
Bemerkung: Dass Zp ein Körper ist, liefert die Rechtfertigung für Abschnitt die
Prüfziffern bei den ISBN Buchnummern.
Satz 4.5 (Kleiner Fermat’scher Satz) Sei p eine Primzahl und a ∈ Z∗ kein
Vielfaches von p. Dann gilt
ap−1 ≡ 1 mod p .
Beweis. Die Aussage folgt direkt aus dem Satz von Euler und der Tatsache
ϕ(p) = p − 1:
ap−1 = aϕ(p) ≡ 1 mod p .
Man kann es aber auch direkt beweisen: Die Restklassen [a]p , [2a]p , . . . , [(p − 1)a]p
müssen alle paarweise verschieden sein, denn wäre [ia]p = [ja]p für 1 ≤ i, j < p,
so wäre 0 = [(i − j)a]p = [i − j]p [a]p . Nach Lemma 4.3 folgt, dass [a]p = 0
oder [i − j]p = 0. Da nach Voraussetzung [a]p 6= 0 gilt, muß i = j sein. Damit
entsprechen die p − 1 Restklassen [a]p , [2a]p , . . . , [(p − 1)a]p gerade den Restklassen
[1]p , . . . , [p − 1]p . Es folgt für die Produkte:
p−1
Y
i=1
ai ≡
p−1
Y
i mod p .
i=1
bzw.
(p − 1)! ap−1 ≡ (p − 1)! mod p .
4.1 Angeordnete Körper
29
Da ggt((p − 1)!, p) = 1, können wir beide Seiten durch (p − 1)! teilen und erhalten
so die Behauptung.
Da jeder Körper K auch ein Ring ist, können wir auch den Polynomring K[x]
bilden. Dies werden wir im folgenden auch machen, wenn wir Polynome dividieren.
4.1
Angeordnete Körper
Definition 4.6 Ein Körper K heißt angeordnet, wenn es einen Positivbereich
P ⊂ K mit folgenden Eigenschaften gibt:
(A1) P, −P und {0} bilden eine Zerlegung von K.
(A2) Aus x, y ∈ P folgt x + y, xy ∈ P .
Die Elemente aus P heißen positiv, die aus −P negativ.
Hierbei ist −P := {x ∈ K : −x ∈ P }. Summen und Produkte positiver Elemente
sind also wieder positiv. Man beachte ferner, das die Bezeichnung “positiv” abhängt
von der Wahl des Positivbereichs P ; es mag i.a. mehrere Mengen geben, die (A1)
und (A2) erfüllen.
Definition 4.7 In einem angeordneten Körper K lassen sich folgende Ordnungsrelationen definieren:
x < y :⇐⇒ y − x ∈ P ,
x ≤ y :⇐⇒ (x < y) ∨ (x = y) ,
x > y :⇐⇒ y < x ,
x ≥ y :⇐⇒ y ≤ x .
Auch diese Relationen <, ≤, >, ≥ hängen also i.a. von der Wahl des Positivbereichs
P ab.
Lemma 4.8 In angeordneten Körpern K gilt:
(a) Für alle x, y ∈ K: (x < y) ∨ (y < x) ∨ (x = y)
(b) Die Relation < ist transitiv.
(c) Verträglichkeit mit +: Aus x1 < y1 und x2 < y2 folgt x1 + x2 < y1 + y2 .
30
M. Braack - Körper
(d) Verträglichkeit mit ·: (x < y) ∧ (z > 0) =⇒ xz < yz,
(x < y) ∧ (z < 0) =⇒ xz > yz .
(e) Übergang zum Inversen: x > 0 =⇒ −x < 0,
x < y =⇒ −x > −y ,
0 < x < y =⇒ 0 < y −1 < x−1 .
Beweis. Übungsaufgabe
Lemma 4.9 In angeordneten Körpern gilt x2 > 0 für alle x ∈ K ∗ . Insbesondere gilt
0 < 1.
Beweis. Ist x > 0, so gilt nach Anordnungsaxiom (A2) x2 > 0. Im Fall von
x < 0 ist −x > 0 und damit nach (A2) auch (−x)2 > 0. Da wir bereits (−x)2 = x2
in beliebigen Körpern gezeigt haben, folgt x2 > 0. Die zweite Aussage folgt nun
aufgrund von 0 < 12 = 1 · 1 = 1.
In einem angeordneten Körper wird man also niemals ein x finden mit x2 = −1.
Lemma 4.10 Jeder angeordnete Körper K enthält (bis auf Isomorphie) die rationalen Zahlen Q.
Beweis. Wir identifizieren die Zahl n ∈ N mit der n-fachen Addition des Einselementes in K: n = 1| + 1 +
{z. . . + 1}. Da die Addition abgeschlossen ist in K, folgt
n-mal
n ∈ K, und damit N ⊂ K. Diese Einbettung muss injektiv sein, da 1 < 1 + 1 <
1 + 1 + 1 < . . . < n. Da in einem Körper auch die additiven Inversen enthalten
sein müssen, folgt Z ⊂ K. Aufgrund der Existenz der multiplikativen Inversen folgt
Q ⊂ K.
4.2
Der Körper der reellen Zahlen
Definition 4.11 Sei K ein angeordnete Körper. Eine Teilmenge A ⊆ K heißt nach
oben beschränkt, wenn es eine obere Schranke M ∈ K gibt, d.h x ≤ M für alle
x ∈ A. Sie heißt nach unten beschränkt, wenn es eine untere Schranke m ∈ K
gibt, d.h. m ≤ x für alle x ∈ A. Eine obere Schranke heißt Supremum, wenn sie
die kleineste obere Schranke ist. Eine untere Schranke heißt Infimum, wenn sie die
größte untere Schranke ist.
Beispiele im Körper Q:
4.2 Der Körper der reellen Zahlen
31
• Die Menge Q+ ist nach unten, aber nicht nach oben beschränkt. Das Infimum
lautet 0.
• Die Menge Z ist in Q weder nach oben, noch nach unten beschränkt.
• A = {x ∈ Q 1 < x < 2} ist nach oben und nach unten beschränkt mit
Infimum m = 1 und Supremum M = 2.
• Die Menge
p
2
W =
x= ∈Q: x <2
q
ist nach oben durch z.B. 3 beschränkt, aber es gibt kein Supremum in Q.
Definition 4.12 Ein angeordnete Körper heißt vollständig, wenn in ihm jede nach
oben beschränkte Menge ein Supremum besitzt.
Beispiel: Die rationalen Zahlen Q sind zwar angeordnet aber nicht vollständig.
Dies zeigte die obige Beispielmenge W .
Der folgende Satz ist ein wenig aufwändiger zu beweisen, so dass wir im Rahmen
dieser Vorlesung auf den Beweis verzichten wollen.
Satz 4.13 Es gibt (bis auf Isomorphie) genau einen angeordneten vollständigen
Körper. Dieser wird Körper der reellen Zahlen R genannt.
Die reellen Zahlen sind eine Obermenge der rationalen Zahlen, aber sie ist sehr
√
√
viel “reichhaltiger”. Beispielsweise sind auch die Zahlen 2, − 2 und π reelle Zahlen. Diese drei Zahlen lassen sich nicht in Form von Dezimalzahlen mit endlich vielen
Stellen darstellen. Auch werden die Nachkommastellen nicht notwendigerweise periodisch, wie etwa 17 = 0.14 285714 285714 285714 . . .
Im folgenden wird uns das folgende Lemma noch sehr nützlich sein:
Lemma 4.14 Zu jedem x ∈ R, x > 0, gibt es ein n ∈ N mit 0 <
Beweis. Mit 0 < x ist auch 0 <
0 < 1 < nx bzw. 0 < n1 < x.
1
.
x
Wir wählen n ∈ N mit:
1
n
< x.
1
x
< n. Es folgt
32
4.2.1
M. Braack - Körper
Darstellung reeller Zahlen
Streng genommen können Zahlen aus R \ Q gar nicht exakt mit dem Rechner dargestellt werden. Sie können allerdings approximiert (d.h. näherungsweise dargestellt)
werden. Insofern wird eine reelle Zahle x in der Informatik durch eine rationale Zahl
q ∈ Q mit einer vorgegebenen Anzahl von Nachkommastellen angenähert. Üblicherweise werden hierzu Darstellungen der Form
Vorzeichen, Mantisse, Exponent
(4.1)
gewählt. Hierbei bezeichnet “Vorzeichen” das Vorzeichen der Zahl. Hierzu ist nur
ein Bit notwendig. Die “Mantisse” bezeichnet die führenden Dezimalstellen. In Java
sind bei dem Datentyp float hierfür 23 Bit vorgesehen. Der “Exponent” stellt den
Exponenten zur Basis 2 dar. Hierfür sind für float 8 Bit vorgesehen, also Zahlen
von −126 bis +127. Insgesamt werden also 32 Bit, bzw. 4 Byte benötigt.
Beispiele: Die Zahl q = 2/3 wird mit 8-stelliger Mantisse und 2-stelligem Exponenten approximativ dargestellt durch 6.6666667E − 01. Die reelle Zahl π hingegen
durch 3.1415926E + 00.
4.3
Der Körper der komplexen Zahlen
Wir werden jetzt den Körper der reellen Zahlen weiter vergrößern, um auch Aus√
drücke wie −1 zu erhalten. Diese Erweiterung soll wieder zu einem Körper führen.
Nach Satz 4.13 wird der resultierende Körper aber nicht mehr angeordnet sein. Da
√
auf der Zahlengeraden R kein Platz für −1 ist, geht man in die zweite Dimension:
C := R2 = {(a, b) : a, b ∈ R} .
Die reellen Zahlen R sollen hierin eingebettet sein:
R ∼
= {(a, 0) : a ∈ R} ⊂ C .
Hierbei bedeutet ∼
= “isomorph”, d.h. es gibt eine bijektive Abbildung zwischen den
beiden Mengen, die Verträglich ist mit den Verknüpfungen + und ·. Nun wollen wir
noch die Addition und Multiplikation auf C so definieren, dass (C, +, ·) wieder ein
Körper ist und eingeschränkt auf R die gewöhnlichen Operationen + und · darstellt.
Diese Operationen lauten auf C:
(x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 )
(x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) .
4.3 Der Körper der komplexen Zahlen
33
Die Addition ist hierbei sicherlich sofort verständlich. Die Multiplikation wirkt hingegen zunächst sehr konstruiert. Doch zunächst wollen wir verifizieren, ob diese
Operationen mit denen in R wohldefiniert sind:
(a, 0) + (b, 0) = (a + b, 0) ,
(a, 0) · (b, 0) = (ab − 0 · 0, a · 0 + b · 0) = (ab, 0) .
Somit sind die Operationen miteinander verträglich: Wenn wir zwei reelle Zahlen a, b
als komplexe Zahlen interpretieren und dann die komplexen Operationen ausführen,
erhalten wir das gleiche wie durch die reellen Operationen. Als praktikabel wird sich
zudem der Betrag einer komplexen Zahl herausstellen:
√
a2 + b 2
|(a, b)| :=
Satz 4.15 (C, +, ·) ist ein Körper.
Beweis. Es sind mehrere Dinge zu zeigen:
(i): (C, +) ist eine abelsche Gruppe mit neutralem Element (0, 0) und Inversen
(−a, −b) zu (a, b) ∈ C.
(ii): (C∗ , ·) ist eine abelsche Gruppe mit neutralem Element (1, 0). Das multiplikative
Inverse von (a, b) ∈ C∗ lautet:
a b
,−
c c
mit c = |(a, b)|2 = a2 + b2 > 0. Dies sieht man wie folgt:
2
a b
b(−b) a(−b) ba
a
(a, b)
,−
=
−
,
+
= (1, 0) .
c c
c
c
c
c
(iii): Auch die Distributivgestze sind einfach nachzuvollziehen.
Auch hier sollte man sich vergewissern, ob das multiplikative Inverse verträglich ist
mit dem in R (Übungsaufgabe).
Lemma 4.16 Im Körper der komplexen Zahlen lässt sich die Quadratwurzel aus
√
−1 ziehen. Das Ergebnis wird die imaginäre Einheit i = −1 = (0, 1) ∈ C genannt.
Beweis. Man prüft einfach nach:
i2 = (0, 1) · (0, 1) = (0 · 0 − 1 · 1, 0 · 1 + 1 · 0) = (−1, 0)
Da (−1, 0) der reellen Zahl −1 entspricht, folgt i2 = −1.
34
M. Braack - Körper
Dieses Lemma läßt uns die komplexen Zahlen auch auf anderer Art darstellen:
a + ib := (a, b) .
Diese Darstellung ist insbesondere für die Addition und Multiplikation sehr suggestiv:
(a + ib) · (c + id) = ac + ibc + aid + ibid
= ac − bd + i(ad + bc)
= (a, b) · (c, d) .
Definition 4.17 Daher nennt man bei z = a + ib ∈ C den Anteil a auch Realteil
und den Anteil b Imaginärteil:
Re(a + ib) = a ,
Im(a + ib) = b .
Lemma 4.18 Für die Betragsfunktion gilt mit z1 , z2 ∈ C:
(a) Dreiecksungleichung: |z1 + z2 | ≤ |z1 | + |z2 |.
(b) |z1 z2 | = |z1 | · |z2 |
Beweis. Wir beweisen lediglich (a) während wir (b) als Übungsaufgabe lassen.
Da die Terme auf beiden Seiten von (a) positiv sind, reicht es zu zeigen:
|z1 + z2 |2 ≤ (|z1 | + |z2 |)2 .
Mit der Darstellung z1 = a + ib und z2 = c + id erhält man dann durch Subtraktion
von a2 + b2 + c2 + d2 , dass die Ungleichung äquivalent ist mit:
p
ac + bd ≤
(a2 + b2 )(c2 + d2 ) .
Nun könen wir nochmals das Quadrat auf beiden Seiten bilden und erhalten nach
weiterem subtrahieren von identischen Termen:
2acbd ≤ a2 d2 + b2 c2 .
Dies ist aber wiederum äquivalent mit:
0 ≤ a2 d2 − 2acbd + b2 c2 = (ad − bc)2
Da diese Ungleichung wahr ist, haben wir die Dreiecksungleichung bewiesen.
4.4 Polynomdivision
35
Definition 4.19 Unter der zu z = x + iy ∈ C, (x, y ∈ R), konjugierten Zahl z̄
versteht man z := x − iy ∈ C.
Lemma 4.20 Es gilt z1 + z2 = z1 + z2 , z1 z2 = z1 · z2 und |z|2 = zz.
Beweis. Übungsaufgabe.
Insbesondere ist also das Produkt einer komplexen Zahl z mit ihrem konjugiert
komplexen z immer reell: zz ∈ R.
4.3.1
Graphische Darstellung der komplexen Zahlen
Die komplexen Zahlen können als “Vektoren” der komplexen Ebene dargestellt werden, siehe Abb. 4.1. Der Realteil Re(z) von z ∈ C ist dann gerade die Projektion
auf die waagerechte Koordinatenachse, der Imaginärteil Im(z) die Projektion auf
die senkrechte Achse.
Im(z)
z
Re(z)
z
Abbildung 4.1: Der Real- und Imaginärteil einer komplexen Zahl z ergeben sich als
Projektion auf die Koordinatenachsen. Die konjugierte Zahl z̄ erhält man mittels
Spiegelung an der reellen Achse.
4.4
Polynomdivision
Analog zum Euklidischen Algorithmus zur Division von ganzen Zahlen lassen sich
auch Polynome dividieren.
36
M. Braack - Körper
Satz 4.21 (Polynomdivision) Sei K ein Körper. Dann kann man im Polynomring K[x] die Division mit Rest durchführen, d.h.:
∀p, q ∈ K[x], q 6= 0 ∃s, r ∈ K[x], deg(r) < deg(q) :
p = sq + r .
Beweis. Den Beweis führen wir per vollständiger Induktion nach dem Polynomgrad n = deg(p) ≥ 0:
Induktionsverankerung: Zunächst behandeln wir den einfachen Fall, dass p ein konstantes Polynom ist, also n = 0. Sollte auch q ein konstantes Polynom sein, so
wählen wir einfach das konstante Polynom s = p/q. Dann gilt p = sq. Sollte hingegen deg(q) ≥ 1, so leisten s ≡ 0 und r = p das Gewünschte.
Der Induktionsschritt geht nun von m ≤ n nach n + 1: Wir gehen von folgender
Form von p und q aus:
p(x) =
n+1
X
i
ai x ,
q(x) =
i=0
m
X
b i xi ,
i=0
mit bm 6= 0, an+1 6= 0. Im Fall m > n + 1 wählen wir einfach wieder s ≡ 0 und r = p.
Im Fall m ≤ n + 1 setzen wir s1 = abn+1
xn+1−m ∈ K[x]. Nun gilt:
m
r1 := p − s1 q
n
m
X
an+1 X n+1−m+i
i
=
ai x −
bi x
bm i=0
i=0
=
n+1
X
i
ai x − an+1 x
i=0
n
X
n+1
m−1
an+1 X n+1−m+i
−
bi x
bm i=0
m−1
an+1 X n+1−m+i
=
ai x +
bi x
.
b
m
i=0
|i=0{z } |
{z
}
Grad≤n
i
Grad≤n+1−m+m−1=n
Es existieren also r1 , s1 ∈ K[x] mit p = s1 q + r1 und
deg(r1 ) ≤ n .
Nach Induktionsannahme existieren nun s2 , r ∈ K[x] mit deg(r) < deg(q) so dass
r1 = s2 q + r. Es folgt insgesamt
p = s1 q + s2 q + r = (s1 + s2 )q + r .
Setzen wir s = s1 + s2 erhalten wir die geforderte Polynomdivision.
Im Beweis sehen wir, dass wir multiplikative Inverse b−1
m bilden müssen. Daher muss
K ein Körper sein. Ein Ring reicht dafür i.a. nicht aus.
Beispiele:
4.4 Polynomdivision
37
1. Wir wollen diese Polynomdivision einmal an einem konkreten Beispiel durchführen:
(x4 + 2x2 − 1) : (2x2 + x) = 0.5 x2
− [x4 + 0.5 x3 ]
−0.5 x3 + 2x2 − 1
−0.25 x
=
− [−0.5 x3 − 0.25 x2 ]
2.25 x2 − 1
=
1.125
2
− [2.25 x + 1.125x]
−1.125x − 1
Damit erhalten wir
4
2
2
x
+ x) (0.5 x2 − 0.25 x + 1.125) + (−1.125x − 1)
| + 2x
{z − 1} = (2x
| {z } |
{z
} |
{z
}
p(x)
s(x)
q(x)
r(x)
2. Die Polynomdivision ist in jedem Körper möglich. Wenn wir das Polynom
p(x) = 2x2 + 4x − 1 beispielsweise in Z5 durch q(x) = x + 4 teilen wollen,
erhalten wir:
In Z5 :
(2x2 + 4x − 1) : (x + 4) = 2x
−[2x2 + 3x]
x−1 =
1
−[x + 4]
0
In diesem Fall läßt sich das Polynom also sogar ohne Rest teilen:
In Z5 :
In Z5 :
(2x2 + 4x − 1) : (x + 4) = 2x + 1
2x2 + 4x − 1 = (x + 4)(2x + 1)
Das Polynom verschwindet also in Z5 an den Stellen x0 = 1 und x1 = 2:
x0 + 4 ≡ 0 mod 5,
2x1 + 1 ≡ 0 mod 5.
Definition 4.22 Unter einer Nullstelle eines Polynoms p ∈ K[x] versteht man
ein x0 ∈ K für das das Polynom verschwindet, also p(x0 ) = 0 gilt.
38
M. Braack - Körper
Das folgende Lemma macht eine Aussage über die Polynome mit einer Nullstelle.
Lemma 4.23 Hat p ∈ K[x] eine Nullstelle in x0 ∈ K so existiert ein s ∈ K[x] mit
p(x) = (x − x0 )s(x) für alle x ∈ K.
Beweis. Wir setzen q(x) = x − x0 und wenden Satz 4.21 an. Dieser liefert
p(x) = (x − x0 ) · s(x) + r(x) ,
mit einem Polynom r vom Grad deg(r) < deg(q) = 1. Also besteht r aus einer
konstanten Funktion r(x) = r0 . Da ferner 0 = p(x0 ) = (x0 − x0 ) · s(x0 ) + r0 = r0
gilt, verschwindet r.
Dieses Lemma besagt also, dass man für jede Nullstelle x0 den Linearfaktor
(x − x0 ) ohne Rest von dem Polynom abspalten kann. Es ist aber noch nicht gesagt,
ob überhaupt solche Nullstellen existieren. Im Fall des Körpers C kann man hingegen
die Existenz von n = deg(p) Nullstellen beweisen. Hiermit beschäftigen wir uns im
folgenden Abschnitt.
4.5
Polynome in C
Satz 4.24 Jedes Polynom p ∈ C[x] vom Grad deg(p) ≥ 1 hat (mindestens) eine
Nullstelle in C.
Beweis. Da der Beweis dieser Aussage relativ aufwändig ist, werden wir in diesem
Rahmen keinen Beweis angeben. Diese Aussage wurde erstmalig von C.F. Gauß im
Jahr 1799 bewiesen. Der heute am meisten verbreitete Beweis benutzt Techniken
aus der Funktionentheorie. Das ist die Theorie von Funktionen in C. Es gibt aber
noch eine ganze Reihe anderer Beweise, die aber alle den Rahmen dieser Vorlesung
sprengen würden.
Satz 4.25 (Fundamentalsatz der Algebra) Sei p ∈ C[x] ein Polynom vom Grad
P
n ∈ N, also p(z) = ni=0 ai z i mit an 6= 0. Dann gilt:
(i) p hat genau n Nullstellen z1 , . . . , zn ∈ C (Vielfachheiten mitgezählt),
(ii) p zerfällt in n Linearfaktoren, d.h
n
Y
p(z) = an (z − zi ) .
i=1
4.6 Polynome in R
39
Beweis. Auch hier verwenden wir als Beweisprinzip die vollständige Induktion
nach n = deg(p). Für n = 1 ist z1 := −a0 /a1 eine Nullstelle und p(z) = a1 (z +a0 /a1 )
die geforderte Faktorisierung in Linearfaktoren. Ferner ist z1 die einzige Nullstelle,
denn wäre z2 eine weitere Nullstelle, so würde folgen:
0 = p(z2 ) = a1 (z2 − z1 ) .
Da C ein Körper ist, würde mit Lemma 4.3 folgen: a1 = 0 oder z1 = z2 , was beides
zu einem Widerspruch führt. Für den Induktionsschritt n − 1 → n benutzen wir
Satz 4.24. Dieser liefert uns die Existenz mindestens einer Nullstelle zn ∈ C. Lemma
4.23 gibt uns die Faktorisierung:
p(z) = (z − zn )q(z)
mit q ∈ C[x]. Ein Koeffizientenvergleich liefert deg(q) = n − 1, und der führende
Koeffizient von q ist der gleiche wie der von p, also gerade an . Nach Induktionsannahme zerfällt q in n − 1 Linearfaktoren mit Vorfaktor an . Hierdurch erhält man die
Behauptung.
Beispiel: Das Polynom p(z) = 2z 3 − 2iz 2 + 2z − 2i hat die Nullstellen z1 = z2 = i,
z3 = −i und die Darstellung
p(z) = 2(z − i)2 (z + i) .
Hier ist allerdings noch nicht gesagt, wie man diese Nullstellen erhält. Dies werden
wir in einem späteren Kapitel behandeln.
4.6
Polynome in R
Bei Polynomen in R läßt sich generell keine Aussage über die Anzahl der reellen
Nullstellen treffen. Wir wollen jedoch ein Resultat vorweg nehmen, dass wir später
in einem sehr viel allgemeineren Kontext beweisen werden.
Lemma 4.26 Sei p ∈ R[x] ein Polynom mit p(a) · p(b) < 0 für zwei reelle Zahlen
a < b. Dann besitzt p (mindestens) eine Nullstelle im offenen Intervall (a, b).
Beweis. Wie gesagt werden wir den Beweis später führen und zwar allgemein für
“stetige” Funktionen. Allerdings sei hier angemerkt, dass die Voraussetzung p(a) ·
p(b) < 0 impliziert, dass p(a) und p(b) ungleich Null sind und entgegengesetztes
Vorzeichen besitzen. Hierdurch ist auch anschaulich klar, dass der Graph von p die
40
M. Braack - Körper
Nulllinie (x-Achse) zwischen x = a und x = b mindestens einmal schneiden muss.
Dies korrespondiert dann gerade mit einer Nullstelle.
Insbesondere haben somit Polynome mit ungeradem Grad mindestens eine reelle
Nullstelle.
4.6.1
Intervallhalbierungsverfahren
Dieses Resultat liefert uns aber auch einen Algorithmus, Nullstellen von Polynomen
unter gewissen Voraussetzungen zu finden. Wir nehmen an, die Voraussetzungen des
Lemmas seien erfüllt. Dann liegt also in I1 := (a, b) mindestens eine Nullstelle von
p. Nun halbieren wir das Intervall und erhalten die beiden Teilintervalle (a, c) und
(c, b) mit c = (a + b)/2. Nun könen drei Fälle eintreten: p(c) = 0, p(a) · p(c) < 0
oder p(c) · p(b) < 0. Im ersten Fall sind wir fertig. Im zweiten Fall wählen wir
I2 = (a, c), sonst I2 = (c, b). Nun wiederholen wir das ganze mit I2 , also teilen
und Fälle unterscheiden. Wir nähern uns so immer näher einer Nullstelle, denn die
Intervalllänge der In halbiert sich sukzessive.
Exakt treffen wir die Nullstelle im allgemeinen aber nicht. Wir generieren daher
nur sogenannte approximative Lösungen, indem wir als Näherungslösung z.B. den
Mittelpunkt xn des Intervalls In wählen. Wir haben dann automatisch eine Fehlerabschätzung:
|xn − x∗ | <
1
(b − a) ,
2n
wobei x∗ eine (exakte) Nullstelle von p bezeichnet.
4.7
Polynomdivision zur Datensicherung
Zur Datensicherung werden i.d.R. Prüfbits an die zu übermittelnden Daten herangehängt. Wie bei der ISBN Nummer geben diese Aufschluß über einen etwaige
Datenübertragungsfehler. Die Prüfbits können beispielsweise per Polynomdivision
erhalten werden. Angenommen wir wollen n Prüfbits zur Kontrolle “opfern”. Eine
Nachricht in Bitreihenfolge w ∈ Z2 codiert soll also um n Bits verlängert werden:
eigentliche Daten der Länge m | n Prüfbits
Das verlängerte Wort nennen wir W . Dieses wird also übermittelt.
Für die Erzeugung der Prüfbits wird ein fest gewähltes (sogenanntes) Generatorpolynoms g ∈ Z2 [x] mit n = deg(g) benutzt. Der Algorithmus um das Wort w
zu senden verläuft wie folgt:
4.7 Polynomdivision zur Datensicherung
41
1. Das Wort w wird als Polynom f ∈ Z2 interpretiert und um den Faktor xn
erweitert: p(x) = xn f (x). Das Polynom p ∈ Z2 [x] entspricht dem w erweitert
um n Nullen (den Stellen für die Prüfbits).
2. Teile p durch g:
p(x) = q(x)g(x) + r(x) .
Das Restpolynom r ∈ Z2 [x] hat den Grad deg(r) < n. Wir bilden das Polynom
P := p − r = qg. Hier sei noch angemerkt, dass in Z2 [x] gilt r = −r. Daher
folgt insgesamt:
P = p + r = qg .
Da p in den letzten n Stellen nur Nullen besitzt, entspricht das Polynom P dem
um n Bits erweiterten Wort w. Diese hinzugefügten Bits entsprechen gerade
dem Rest r.
3. Wir interpretieren jetzt P wieder zurück als eine Bitkombination W ∈ Z2 und
übertragen dieses Wort.
4. Bei dem Empfänger kommt W an. Er interpretiert dies als ein Polynom P
und dividiert dies durch g. Wenn kein Fehler vorliegt gilt P = qg, es bildet
sich also kein Rest. Liegt hingegen ein Übertragungsfehler vor, so bildet sich
(wahrscheinlich) ein Rest.
Beispiel: Wir wollen das in Bitreihenfolge kodierte Wort w = 10110 übermitteln und
prüfen.
f (x) = x4 + x2 + x,
g(x) = x3 + 1
p(x) = x7 + x5 + x4
x7 + x5 + x4 = (x4 + x2 )(x3 + 1) + x2
5
4
P (x) = |x7 + x
x2 = x7 + x5 + x4 +x2
{z + x} − |{z}
p(x)
(in Z2 )
r(x)
W = 10110 100
Bemerkung: In der Praxis sind die zu übertragenden Worte natürlich länger. Bei dem
weit verbreiteten Datenübertragungsprotokoll X.25 beträgt die gesamte Datenlänge
4096 Byte = 215 Bit. Hierbei werden 2 Byte als Prüfbytes verwendet, also gerade
mal 0.5 Promille. Erkannt werden hierdurch alle Bitfehler mit ungerader Anzahl,
42
M. Braack - Körper
sowie 2-Bit Fehler. Das Generatorpolynom lautet g(x) = x16 + x12 + x5 + 1. Das
Polynom p hat den Grad 32767 = 215 − 1:
Gesamte Wortlänge W
davon Wortlänge w
Prüfbitlänge b
4.8
215 Bit= 212 Byte
215 − 24 Bit= 212 − 2 Byte
n = deg(p) = 24 = 16 Bit= 2 Byte.
Horner-Schema
Zur (numerischen) Auswertung von Polynomen wird sinnvollerweise das Horner
Schema verwendet, da hierdurch die Anzahl der mathematischen Operationen (Addition und Multiplikation) im Gegensatz zur Standard-Darstellung
p(x) =
n
X
ai x i
(4.2)
i=0
verringert wird. Zunächst wollen wir die Anzahl der notwendigen Operationen auf
Basis der Darstellung (4.2) ermitteln:
• Der Ansatz (4.2) verlangt n Additionen und 1+2+. . .+(n+1) = (n+1)(n+2)/2
Multiplikationen. Also insgesamt (n2 + 5n + 2)/2 Operationen.
• Selbstverständlich ist dies die naivste Art, denn die Ausdrücke xk kann man
zwischenspeichern und wiederverwenden. In diesem Fall reduziert sich die Anzahl an Multiplikationen auf 1 + 2 + 2 + . . . + 2 = 2n − 1. Man kommt dann
auf insgesamt 3n − 1 Operationen.
Alternativ hierzu werden wir nun den Faktor x sukzessives ausklammern:
p(x) = a0 + x(a1 + a2 x + a3 x2 + . . . + an xn−1 )
= a0 + x(a1 + x(a2 + a3 x + . . . + an xn−2 ))
..
.
= a0 + x(a1 + x(a2 + x(a3 + . . . + x(an−1 + xan ))))
Die Berechnung nach dem Horner Schema erfolgt nun sukzessive von “innen” nach
“außen”:
c n = an
cn−1 = an−1 + xcn
..
.
p(x) = c0 = a0 + xc1 .
4.8 Horner-Schema
43
Wir wollen an dieser Stelle kurz die notwendige Anzahl an Operationen vergleichen.
Das Horner Schema benẗigt nur für jede der Zahlen c0 bis cn−1 jeweils eine Addition
und eine Multiplikation. Insgesamt kommt man also auf 2n Operationen.
Dieses Horner Schema kann auch in Form einer Tabelle abgelegt werden: In der
ersten Zeile stehen die ursprünglichen Koeffizienten ak . Nun werden die Spalten
sukzessive von links gefüllt. In der ersten Spalte für die ck steht stets eine Null. Die
letzte Zeile erhält man durch Addition der ersten und der zweiten Zeile. Die zweite
Zeile k−te Spalte ist ck+1 x. Das Endergebnis ist c0 = p(x):
ak
+
ck
an
0
cn
an−1
cn x
cn−1
...
...
...
a0
c1 x
c0
Beispiel: Wir wollen dies an dem Beispiel p(x) = x3 − x2 + 2 an der Stelle x = 2
einmal durchführen:
ak
+
ck
1
0
1
−1
2
1
0
2
2
4
2 p(2) = 6
44
M. Braack - Körper
Kapitel 5
Vektorräume
Definition 5.1 Sei (V ,+) eine kommutative Gruppe auf der noch eine weitere skalare Multiplikation mit Elementen eines Körpers K definiert ist, · : K × V → V .
Dann heißt (V, +, ·) K-Vektorraum, wenn folgende Bedingungen für alle λ, µ ∈ K
und v, w ∈ V erfüllt sind:
• λ · (µ · v) = (λ · µ) · v,
• 1 · v = v (hierbei bezeichnet 1 das neutrale Element der Multiplikation in K),
• λ(v + w) = λ · v + λ · w,
• (λ + µ) · v = λ · v + µ · v.
Die Elemente von v ∈ V heißen dann Vektoren, und die des Körpers λ ∈ K Skalare.
Im Fall K = R sprechen wir von einem reellen Vektorraum und für K = C von einem
komplexen.
Als unmittelbare Folgerung aus den obigen Vektorraumaxiomen ergibt sich:
λ · 0 = 0,
0 · v = 0,
(−1)v = −v ,
wobei der Nullvektor 0 stets fett gedruckt wurde, um ihn nicht mit dem neutralen
Element der Addition des Körpers K zu verwechseln.
Wie bereits zuvor bei Ringen und Körpern lassen wir das Zeichen der Multiplikation i.d.R. weg, also λv anstelle von λ · v.
46
5.1
5.1.1
M. Braack - Vektorräume
Beispiele von Vektorräumen
Die Vektorräume Rn und Cn
Unter dem n-dimensionalen Raum Rn (n ∈ N) versteht man den Raum der Vektoren
(oder auch n−Tupel)


v1
 v2 


v =  .  mit v1 , . . . , vn ∈ R .
.
 . 
vn
Vektoren lassen sich Addieren



v, w ∈ R , v + w = 

n
v1 + w 1
v2 + w 2
..
.





vn + w n
und skalar Multiplizieren (skalieren) mit Werten λ ∈ R:


λv1
 λv2 


n
v ∈ R ,λ ∈ R :
λv =  . 
.
 . 
λvn
Die skalare Multiplikation λw entspricht einer Streckung (oder Stauchung) um den
Faktor λ. Die Addition von Vektoren, v + w, entspricht dem aneinander heften der
Vektoren, siehe Abb. 5.1. Man prüft leicht nach, dass Rn ein R-Vektorraum ist.
Ebenso sind aber auch Cn ein C-Vektorraum und R ist ein Q-Vektorraum. Andererseits ist aber Qn kein R-Vektorraum, denn die skalare Multiplikation · : R×Qn →
Qn ist in diesem Fall nicht definiert.
λw
2
v+w
w
1
v
1
2
3
4
Abbildung 5.1: Addition und skalare Multiplikation von Vektoren.
5.2 Unterräume
5.1.2
47
Der Vektorräume Zn2
Der Raum Zn2 ist ein Z-Vektorraum, der in der Informatik und dort insbesondere
in der Codierungstheorie sehr wichtig ist. So lassen sich INTEGER Zahlen in einem
Rechner als Vektoren in Zn2 darstellen (hier ist für gewöhnlich n = 32).
5.1.3
Funktionenräume
In der Mathematik spielen Funktionen(vektor)-Räume eine große Rolle. So ist zum
Beispiel der Raum der stetigen reellwertigen Funktionen C(R) ein R-Vektorraum.
Die Addition von Funktionen ist dann definiert als:
(f + g)(x) = f (x) + g(x) ,
(λf )(x) = λf (x) .
Der Nullvektor ist die Funktion identisch Null: 0(x) = 0.
Der Raum der Polynome K[x] über einem Körper bilden einen K-Vektorraum.
Im folgenden werden wir nur noch von einem Vektorraum V sprechen und den
zugehörigen Körper K im Hinterkopf behalten. In unseren Beispielen gilt zumeist
K = R oder K = C.
5.2
Unterräume
Definition 5.2 Eine Teilmenge U ⊂ V eines Vektorraumes V heißt Unterraum
(oder Untervektorraum oder Teilraum), wenn er selbst einen Vektorraum darstellt.
Es gilt folgendes Kriterium, dass i.d.R. einfach nachzuprüfen ist:
Lemma 5.3 Eine nichtleere Teilmenge U ⊂ V eines Vektorraumes V ist genau
dann ein Unterraum, wenn er bezüglich der Addition und der skalaren Multiplikation
abgeschlossen ist, d.h. für alle v, w ∈ U und alle λ ∈ K gilt:
v + w ∈ U und λv ∈ U .
Beweis. ⇒: Dass der Vektorraum U abgeschlossen ist bezüglich der Verknüpfungen + und ·, folgt unmittelbar aus der Definition 5.1 eines Vektorraums.
⇐: Die Rechenregel in Definition 5.1 gelten für alle Vektoren in V und damit insbesondere für die in U . Es bleibt zu zeigen, dass (U, +) eine kommutative Gruppe
ist und dass · : K × U → U gilt. Letzteres besagt gerade die Tatsache, dass U
48
M. Braack - Vektorräume
abgeschlossen ist bzgl. der skalaren Multplikation. Da ferner U auch abgeschlossen
ist bzgl. der Addition und da das Kommutativgesetz für ganz V gilt, ist nur nachzuweisen, dass 0 ∈ U und dass die Inversen in U sind. Da U 6= ∅, sei v ∈ U . Dann
folgt aber aufgrund der Abgeschlossenheit bzgl. der skalaren Multplikation
U 3 0 · v = 0.
Ferner gilt mit v ∈ U auch
U 3 (−1) · v = −v .
Also sind das neutrale Element bzgl. + und die Inversen in U , und (U, +) damit
eine kommutative Gruppe.
Beispiele von Unterräumen des R3 : Neben den trivialen Unterräumen {0} und R3
sind Geraden und Flächen, die jeweils den Nullpunkt enthalten, Unterräume des R3 :
{λv : λ ∈ R}
{λv + µw : λ, µ ∈ R} .
Hierbei sind v, w ∈ R3 beliebige linear unabhängige Vektoren.
Folgende Beobachtungen gelten in Bezug auf Unterräume:
• Jeder Vektorraum V hat die trivialen Unterräume {0} und V .
• 0 ∈ U für beliebigen Unterraum U .
• Für v ∈ V ist {λv : λ ∈ K} ein Unterraum von V .
• Sind W1 , W2 ⊂ V Unterräume von V , so ist auch W1 ∩W2 ein Unterraum. Dies
gilt sogar für beliebige Schnitte von Unterräumen. Hingegen ist W1 ∪ W2 i.a.
keiner. Es gilt sogar: W1 , W2 , W1 ∪W2 Unterräume ⇒ (W1 ⊂ W2 ) ∨ (W2 ⊂ W1 )
(Übungsaufgabe). Man kann sich diesen Sachverhalt schnell an Flächen oder
Geraden im R3 vergegenwärtigen.
5.3
Linearkombinationen und aufgespannte Teilräume
Unter einer Linearkombination von Vektoren v1 , . . . , vm ∈ V versteht man einen
Vektor der Form:
w =
m
X
i=1
αi vi ∈ V,
5.4 Lineare Abhängigkeit
49
mit Koeffizienten α1 , . . . , αm ∈ K. Der von den Vektoren v1 , . . . , vm ∈ V aufgespannte Raum ist gerade die Menge aller Linearkombinationen:
( m
)
X
span(v1 , . . . , vm ) :=
αi vi : α1 , . . . , αm ∈ K .
i=1
Wir haben hier den aufgespannten Raum nur definiert mittels endlich vieler Vektoren. Man kann diesen Begriff aber auch verallgemeinern für unendlich viele Vektoren.
Sei hierzu I eine Indexmenge und vi ∈ V für i ∈ I. Dann ist der span(vi : i ∈ I) der
Raum der Vektoren, die sich als endliche Linearkombination der vi , i ∈ I darstellen
lassen. Dies lässt sich auch formulieren durch:
[
span(vi )i∈I :=
span(vi )i∈J .
J⊂I endlich
Dass dies tatsächlich (Unter-)Vektorräume sind besagt der nachfolgende Satz:
Lemma 5.4 Sei I eine beliebige Indexmenge. Dann ist die Menge span(vi )i∈I der
kleinste Unterraum von V , der alle vi , i ∈ I, enthält.
Beweis. Zunächst ist zu prüfen, dass V0 := span(vi )i∈I tatsächlich ein Unterraum
von V ist. Dies ist aber offensichtlich, da dieser Raum abgeschlossen ist bzgl. der
Addition und der skalaren Multiplikation und wegen Lemma 5.3. Es bleibt zu zeigen,
dass für einen Unterraum W von V mit vi ∈ W für alle i ∈ I gilt: V0 ⊆ W . Dies
folgt aber aus der notwendigen Abgeschlossenheit bzgl. + und · von W .
5.4
Lineare Abhängigkeit
Zwei Vektoren v, w ∈ V heißen linear abhängig, wenn einer von ihnen Skalierung
des anderen ist, also
v = λw
mit beliebigem λ ∈ K
bzw. es gibt λ1 , λ2 ∈ K mit λ1 6= 0 oder λ2 6= 0 und λ1 v + λ2 w = 0. Im allgemeinen
lautet die Definition folgendermaßen:
Definition 5.5 Endlich viele Vektoren v1 , . . . , vm ∈ V heißen linear abhängig,
wenn es eine nicht-triviale Linearkombination gibt, die Null ergibt, also
m
X
i=1
λi vi = 0 ,
50
M. Braack - Vektorräume
für λ1 , . . . , λm ∈ K mit mindestens einem λi 6= 0. Anderenfalls heißen die Vektoren
linear unabhängig. Ist I eine (unendliche) Indexmenge und vi ∈ V für alle i ∈ I,
so heißt die Familie (vi )i∈I genau dann linear unabhängig, wenn für jede endliche
Teilmenge J ⊆ I die Vektoren (vi )i∈J linear unabhängig sind.
Vektoren sind also genau dann linear abhängig, wenn man durch sie den Nullvektor als nichttriviale Linearkombination darstellen kann.
Beispiel:
1. Die drei Vektoren



v1 = 

1
2
3
8




,



v2 = 

2
4
−1
4



,




v3 = 

3
6
−5
0





sind linear abhängig, da v1 − 2v2 + v3 = 0.
2. Im allgemeinen sieht man dies nicht sofort, so dass man zunächst ein lineares
Gleichungssystem (LGS) aufstellen muss:
v 1 x1 + v 2 x2 + v 3 x3 = 0
Speziell hier also:
x1 + 2x2 + 3x3 = 0
2x1 + 4x2 + 6x3 = 0
3x1 − x2 − 5x3 = 0
8x1 + 4x2 = 0
Hat dieses LGS eine von Null verschiedene Lösung ? Auf den ersten Blick sehen
wir dies evtl. nicht. Wie man dies entscheiden kann werden wir im folgenden
erarbeiten.
Hier nun ein paar Beobachtungen und Eigenschaften linearer Abhängigkeit:
• Eine Menge von Vektoren, die den Nullvektor 0 enthält, ist immer linear
abhängig.
• Jede Untermenge linear unabhängiger Vektoren ist wieder linear unabhängig.
5.5 Basen und Dimension
51
• Im Vektorraum Rn sind die “kanonischen” Einheitsvektoren ei ∈ Rn , 1 ≤ i ≤
n, mit
ei T = (0, 0, . . . , 0,
1
, 0, . . . , 0)
|{z}
i−te Stelle
stets linear unabhängig.
Lemma 5.6 Sei I eine Indexmenge und {vi }i∈I ⊂ V . Dann sind die Vektoren
{vi }i∈I genau dann linear unabhängig, wenn sich jeder v ∈ span(vi )i∈I eindeutig als
(endliche) Linearkombination der {vi }i∈I darstellen läßt.
Beweis. ⇒: Die {vi }i∈I seien linear unabhängig und es sei v ∈ V darstellbar als
X
X
v =
λi vi =
µj vj ,
i∈I1
j∈I2
mit zwei endlichen Indexmengen I1 , I2 ⊂ I. Dann folgt für J = I1 ∪ I2 :
X
0 =
(λj − µj )vj ,
j∈J
wobei wir ggf. gewisse λj oder µj setzen: λj = 0 für j ∈ J \I1 und µj = 0 für j ∈ J \I2 .
Da J wieder endlich ist folgt nun aus der linearen Unabhängigkeit λj = µj für alle
j ∈ J. Also war die obige Darstellung eindeutig.
⇐: Nun setzen wir voraus, das sich jeder Vektor aus span(vi )i∈I eindeutig als endliche Linearkombination der vi darstellen läßt. Insbesondere gilt dies für den Nullvektor 0. Damit ist die eindeutige Darstellung diejenige bei der alle Koeffizienten
verschwinden, λi = 0. Also sind die (vi )i∈I linear unabhängig
5.5
Basen und Dimension
Definition 5.7 Eine Teilmenge E = {vi }i∈I eines Vektorraumes V heißt Erzeugendensystem von V , wenn span(vi )i∈I = V .
Definition 5.8 Ein Erzeugendensystem B heißt Basis, wenn es aus linear unabhängigen Vektoren besteht.
Beispiele:
• Die kanonischen Einheitsvektoren {e1 , . . . , en } bilden eine Basis des Rn .
52
M. Braack - Vektorräume
• Der Vektorraum der Polynome R[x] hat die Basis {1, x, x2 , x3 , . . .}.
Satz 5.9 (Basisauswahlsatz) Aus einem endlichen Erzeugendensystem E eines
Vektorraumes V lässt sich stets eine Basis B ⊆ E von V auswählen.
Beweis. Wenn E aus linear unabhängigen Vektoren besteht, so stellt dies bereits
eine Basis dar. Anderenfalls lässt sich der Nullvektor als nicht-triviale Linearkombination des Erzeugendensystems darstellen. Sei nun E = {v1 , . . . , vn }. Dann gilt:
n
X
λi vi = 0 .
i=1
Wir könne oBdA (ohne Beschränkung der Allgemeinheit) annehmen, dass λ1 6= 0.
Dann folgt:
v1
n
X
λi
=
vi .
λ
1
i=2
Nun sieht man, dass E 0 = E \ {v1 } immer noch Erzeugendensystem von V ist, denn
es gilt
v =
n
X
n
X
µi vi =
(µi + µ1 λi /λ1 )vi .
i=1
i=2
Dieses Argument führen wir durch, bis wir ein linear unabhängiges Erzeugendensystem B ⊆ . . . ⊂ E 0 ⊂ E erhalten.
Das folgende Lemma macht nun eine Aussage darüber, wann man einen Vektor einer
Basis gegen einen anderen austauscht, ohne die Eigenschaft, eine Basis zu sein, zu
verletzen.
Lemma 5.10 (Austauschlemma von Steinitz) Sei V ein Vektorraum mit endP
licher Basis B = {v1 , . . . , vn }. Gilt nun w = ni=1 λi vi mit einem λk 6= 0, so ist
B 0 := {v1 , . . . , vk−1 , w, vk+1 , . . . , vn }
wieder eine Basis von V .
Beweis. Wir können zur Vereinfachung der Schreibweise k = 1 annehmen. Zu zeigen ist die Eigenschaft eines Erzeugendensystems sowie die lineare Unabhängigkeit.
Sei v ∈ V . Dann gibt es eine Darstellung
v =
n
X
i=1
µi vi .
5.5 Basen und Dimension
53
Nun folgt wegen λ1 v1 = w −
Pn
i=2
v = µ1 /λ1 w −
n
X
λi vi :
!
λi vi
+
n
X
i=2
µi vi = α 1 w +
i=2
n
X
αi v i ,
i=2
mit α1 = µ1 /λ1 und αi = µi − µ1 λi /λ1 für i = 2, . . . , n. Also läßt sich jedes v ∈ V
geeignet darstellen.
Zur linearen Unabhängigkeit: Wir wollen die Annahme zum Widerspruch führen,
dass die Vektoren aus B 0 linear abhängig sind. Es gelte also:
0 = µ1 w +
n
X
µi v i ,
i=2
mit mindestens einem µi 6= 0. Im Fall von µ1 = 0, wären schon die {v2 , . . . , vn }
linear abhängig. Dies ist nach Voraussetzung ausgeschlossen. Also ist µ1 6= 0. Dann
folgt
w = −
n
X
µi /µ1 vi .
i=2
Da aber noch nach Voraussetzung die Darstellung
w =
n
X
λi vi
mit λ1 6= 0
i=1
gilt, konnte die Darstellung von w nicht eindeutig sein. Dies ist ein Widerspruch zu
Lemma 5.6.
Beispiel: Wir betrachten die kanonische Basis bestehend aus Einheitsvektoren des
R3 : B = {e1 , e2 , e3 }. Nun stellen wir die Frage, welchen dieser Vektoren wir wählen
und austauschen können gegen den Vektor w = (2, 3, 0)T und dabei wieder eine
Basis des R3 erhalten ? Wir können sowohl e1 als auch e2 gegen w austauschen.
Den Vektor e3 können wir hingegen nicht wählen. Die Begründung ist, dass wir zur
Darstellung von w durch eine Linearkombination aus Vektoren von B, sowohl für
e1 als auch e2 ein von Null verschiedenes Gewicht haben. Das Gewicht für e3 ist
hingegen immer Null:
w = 2e1 + 3e2 + 0e3 .
Dieses Lemma kann nun dahingehend verallgemeinert werden, dass man eine größere
Anzahl (aber endlich viele) Vektoren aus einer Basis austauscht.
54
M. Braack - Vektorräume
Satz 5.11 (Austauschsatz von Steinitz) Sei B eine endliche Basis eines Vektorraumes V und M ⊆ V eine endliche Menge linear unabhängiger Vektoren. Dann
gilt:
(a) |M | ≤ |B| und
(b) ∃B 0 ⊂ B mit |M | = |B 0 |, so dass M ∪ (B \ B 0 ) wieder eine Basis von V ist.
Beweis. Der Beweis wird per Induktion nach der Anzahl m an Elementen von
M geführt. Für m = 0 ist nichts zu zeigen (Induktionsverankerung). Wir nehmen
also an, die Behauptung sei für m − 1 bereits gezeigt (Induktionsannahme). Sei
M = {w1 , . . . , wm } und B = {v1 , . . . , vn }. Da die wi linear unabhängig sind, weiß
man nach Induktionsannahme, dass
{w1 , . . . , wm−1 , vm , . . . , vn }
eine Basis von V ist (ggf. werden die vi umnummeriert). Außerdem gilt nach Induktionsannahme m − 1 ≤ n, bzw. m ≤ n + 1. Zum Nachweis der Behauptung
(a) ist daher nur noch der Fall m = n + 1 auszuschließen. Dann wäre aber bereits
M \ {wm } eine Basis und die Vektoren von M wären linear abhängig (wm ließe
sich als Linearkombination der übrigen wi darstellen). Da dies ein Widerspruch zur
Voraussetzung des Satzes ist, folgt also |M | = m ≤ n = |B|.
Nun gilt wm ∈ span(w1 , . . . , wm−1 , vm , . . . , vn ). Da ferner wm 6∈ span(w1 , . . . , wm−1 ),
muss eine Darstellung
wm =
m−1
X
i=1
λi wi +
n
X
λi vi
i=m
existieren mit λk 6= 0 für ein k ∈ {m, . . . , n}. Nach dem Austauschlemma 5.10 lässt
sich nun vk durch wm ersetzen und man erhält wieder eine Basis von V .
Korollar 5.12 Besitzt ein Vektorraum V eine endliche Basis B, so ist jede Basis
B 0 endlich und besitzt gleich viele Elemente wie B.
Beweis. Sei B = {v1 , . . . , vn } und B 0 = {wi }i∈I . Wäre I unendlich, so gäbe es
in B 0 linear unabhängige Vektoren w1 , . . . , wn+1 . Das widerspricht aber dem Austauschsatz 5.11, denn es gilt n + 1 6≤ n. Also ist auch B 0 endlich. Nun liefert der
Austauschsatz sowohl |B| ≤ |B 0 | wie auch |B 0 | ≤ |B|. Demnach folgt |B| = |B 0 |.
Dies legt nun folgende Definition nahe:
5.5 Basen und Dimension
55
Definition 5.13 Für einen Vektorraum V definiert man dessen Dimension als
dim V
:=
∞ wenn V keine endliche Basis besitzt,
n wenn V eine Basis mit n Elementen besitzt.
Streng genommen kann die Dimension von der speziellen Wahl des zugrunde liegenden Körpers K abhängen. Da wir aber i.d.R. K = R haben, wollen wir dies nicht
weiter in die Bezeichnungsweise der Dimension integrieren.
Beispiele:
• Der Rn besitzt die Dimension n. Somit sind m Vektoren v1 , v2 , . . . , vm ∈ Rn
mit m > n stets linear abhängig.
• Geraden besitzen als Unterraum die Dimension 1, Flächen die Dimension 2.
• Der Raum der Polynome R[x] besitzt die Dimension ∞.
• C kann als reeller Vektorraum der Dimension 2 aufgefaßt werden. Eine Basis
ist B = {1, i}.
Satz 5.14 (Basisergänzungssatz) Sei M eine Menge linear unabhängiger Vektoren eines Vektorraumes V , so existiert eine Basis B von V mit M ⊆ B.
Beweis. Wir werden hier nur den Fall betrachten, dass V ein endliches Erzeugendensystem E besitzt. Nach Satz 5.9 können wir hieraus eine (endliche) Basis B 0 ⊂ E
auswählen. Nach dem Austauschsatz 5.11 muss M nun ebenfalls endlich sein und
wir können diese |M| Elemente aus E gegen die von M austauschen. Wir erhalten
so die gewünschte Basis B.
Im Falle eine unendlichen Erzeugendensystems ist die Argumentation erheblich
schwieriger, weil auf das sogenannte Auswahlaxiom oder äquivalente Aussagen zurückgegriffen werden muss.
Auswahlaxiom: Ist M eine Menge von nichtleeren Mengen, dann gibt es eine
Funktion F mit Definitionsbereich M, genannt Auswahlfunktion, so dass gilt:
F (X) ∈ X
Hierzu ein paar Bemerkungen:
∀X ∈ M .
56
M. Braack - Vektorräume
• Für Mengen von nichtleeren Teilmengen von N ist es problemlos möglich: Man
wählt von jeder Teilmenge das kleinste Element aus. Ähnlich kann man für
eine Menge von abgeschlossenen Teilmengen der reellen Zahlen eine explizite
Auswahlfunktion (ohne Verwendung des Auswahlaxioms) angeben, indem man
etwa aus jeder Menge das (wenn möglich positive) Element mit kleinstem
Absolutbetrag wählt.
• Selbst für Mengen von Intervallen reeller Zahlen ist eine Auswahlfunktion definierbar: Man wählt von jedem Intervall den Mittelpunkt aus.
• Für Mengen von beliebigen nichtleeren Teilmengen von R gibt es jedoch keine
offensichtliche Definition einer Auswahlfunktion. In diesem Fall ist das Auswahlaxiom relevant. Es postuliert die Existenz einer Auswahlfunktion, ohne
sie anzugeben.
Eine unmittelbare Folgerung aus dem Basisergänzungssatz ist:
Korollar 5.15 Jeder Vektorraum besitzt eine Basis.
Beweis. Wir gehen von der leeren Menge aus und ergänzen diese gemäß Satz 5.14
zu einer Basis.
Lemma 5.16 Ist W ein Unterraum eines endlich-dimensionalen Vektorraumes V ,
so gilt dim W ≤ dim V . Im Fall dim W = dim V folgt sogar W = V .
Beweis. Wir können eine Basis B von W zu einer von V ergänzen. Hieraus folgt
dim W ≤ dim V . Im Fall dim W = dim V ist B bereits Basis von V , also W = V .
Bemerkung: Dies gilt nicht mehr für unendlich-dimensionale Vektorräume V . So ist
z.B. R[x] eine echte Teilmenge von C(R), aber dim R[x] = dim C(R) = ∞.
Kapitel 6
Lineare Abbildungen
Definition 6.1 Eine Abbildung zwischen zwei K-Vektoräumen F : V → W wird
lineare Abbildung, oder auch (Vektorraum-) Homomorphismus, genannt, wenn
gilt:
F (v + w) = F (v) + F (w)
F (λv) = λF (v)
∀v, w ∈ V ,
∀v ∈ V ∀λ ∈ K .
Ist F außerdem bijektiv, so heißt F Isomorphismus und V und W heißen isomorph. Gilt hingegen V = W so heißt eine lineare Abbildung auch Endomorphismus.
Beispiele:
1. Alle linearen Abbildungen F : R → R haben die Gestalt F (x) = λx mit
λ = F (1).
2. Die konstante Abbildung F (v) = w ∈ V ist genau dann linear, wenn w = 0.
3. Das Bilden der Ableitung Ψ : C 1 (R) → C(R), f 7→ Ψ(f ) = f 0 ist eine lineare
Abbildung. Hierbei bezeichnen C 1 (R) und C(R), die Vektorräume der einmal stetig differenzierbaren und der stetigen reellwertigen Funktionen über
R. Genauso ist das Bilden der Ableitung in einem Punkt x0 ∈ R linear:
Ψ : C 1 (R) → R, f 7→ Ψ(f ) = f 0 (x0 ).
Nun ein paar wichtige Eigenschaften linearer Abbildung F : V → W :
1. Es gilt stets F (0) = F (0 · v) = 0F (v) = 0.
58
M. Braack - Lineare Abbildungen
2. Das Bild linear abhängiger Vektoren v1 , . . . , vm ist stets wieder linear abhängig,
denn wenn
m
X
λi vi = 0 ,
i=1
mit λk 6= 0, so gilt auch:
m
X
λi F (vi ) = F
i=1
m
X
!
λi vi
= F (0) = 0 .
i=1
Andererseits sind die Bilder linear unabhängiger Vektoren nicht notwendigerweise linear unabhängig (Beispiel: F ≡ 0).
3. Die Umkehrung dieser Aussage lautet: Die Urbilder v1 , . . . , vm linear unabhängiger Vektoren w1 , . . . , wm sind wieder linear unabhängig (F (vi ) = wi ).
4. Ist V 0 ⊂ V ein Unterraum, so ist auch F (V 0 ) ⊂ W ein Unterraum von W
mit dim F (V 0 ) ≤ dim V 0 (Übungsaufgabe). Insbesondere werden Geraden als
Unterräume des Rn durch lineare Abbildungen F : Rn → Rm auf Geraden
oder den Nullvektor abgebildet.
5. F ist genau dann injektiv, wenn es kein v ∈ V , v 6= 0, mit F (v) = 0 gibt.
Denn wäre F (v1 ) = F (v2 ) für zwei verschiedene Vektoren v1 , v2 ∈ V , so gelte
aufgrund der Linearität F (v1 − v2 ) = 0.
6. Die Hintereinanderausführung (Komposition) von Homomorphismen F : V →
W und G : W → Y ist wieder ein Homomorphismus, G ◦ F : V → Y .
Satz 6.2 Seien V, W Vektorräume und B eine Basis von V . Dann ist eine lineare
Abbildung F : V → W durch die Bilder der Basis {F (v) : v ∈ B} bereits eindeutig
festgelegt und es gilt F (V ) = span(F (B)). Ferner ist F genau dann injektiv, wenn
die Familie F (B) aus linear unabhängigen Vektoren besteht.
Beweis. Sei v ∈ V beliebig. Es ist zunächst zu zeigen, dass F (v) durch die Werte
F (vi ), vi ∈ B, bereits eindeutig festgelegt ist. Dies folgt aber aus der eindeutigen
Darstellung
v =
m
X
i=1
λi vi ,
6.1 Kern und Bild
59
mit geeigneten λ1 , . . . , λm ∈ K und der Linearität von F :
F (v) =
m
X
λi F (vi ) .
(6.1)
i=1
Also gibt es maximal eine lineare Abbildung mit vorgegebenen Werten für die Basiselemente. Man prüft nun noch sehr leicht nach, dass die durch Definition (6.1)
gegebene Funktion F tatsächlich linear ist. Die Eigenschaften F (V ) = span(F (B))
folgt auch unmittelbar aus (6.1).
Nun bestehe die Menge F (B) aus linear unabhängigen Vektoren. Dies ist gleichbedeutend mit folgender Implikation:
!
m
X
λi F (vi ) = 0
=⇒ (λ1 = . . . = λm = 0) .
i=1
Dies ist aber wiederum äquivalent zu:
!
!
m
X
F
λi vi = 0
=⇒ (λ1 = . . . = λm = 0) .
i=1
Da sich jedes v als Linearkombination der vi darstellen läßt (B ist Erzeugendensystem) ist dies wiederum äquivalent zur Injektivität von F .
Als Folgerung aus diesem Satz erhalten wir eine Aussage über lineare Abbildungen
F : Rn → Rm . Eine solche ist nämlich bereits dann eindeutig definiert, wenn wir
wissen, wie die Bilder F (ei ) der kanonischen Basis, den Einheitsvektoren e1 , . . . , en ,
aussehen.
6.1
Kern und Bild
Definition 6.3 Unter dem Kern einer linearen Abbildung F : V → W versteht
man den Unterraum
Ker(F ) = F −1 (0) = {v ∈ V : F (v) = 0} .
Dass dies tatsächlich ein Unterraum ist, folgt aus der Abgeschlossenheit von Ker(F )
bzgl. + und ·:
F (v + w) = F (v) + F (w) = 0 + 0 = 0 ,
F (λv) = λF (v) = λ0 = 0 ,
für beliebige v, w ∈ Ker(F ) und λ ∈ K. Nun folgt unmittelbar aus der bereits
gezeigten Bemerkung oben:
60
M. Braack - Lineare Abbildungen
Lemma 6.4 Ein Vektorraumhomomorphismus F : V → W ist genau dann injektiv,
wenn Ker(F ) = {0}.
Beweis. Sei 0 6= v ∈ Ker(F ). Dies impliziert F (v) = 0 = F (0). Also ist F nicht
injektiv. Ist umgekehrt F nicht injektiv, also F (v) = F (w) für v, w ∈ V und v 6= w,
so folgt aufgrund der Linearität von F : 0 6= v − w ∈ Ker(F ).
Lemma 6.5 Das Bild Im(F ) eines Vektorraumhomomorphismus F : V → W ist
ein Unterraum von W :
Im(F ) = F (V ) = {w ∈ W : ∃v ∈ V F (v) = w} .
Definition 6.6 Unter dem Rang einer linearen Abbildung F : V → W versteht
man die Dimension des Bildes, rang (F ) = dim Im(F ). Im Fall eines unendlich
dimensionalen Bildes schreibt man rang (F ) = ∞.
Die Bezeichnung Im stammt aus dem englischen “image”.
Beispiele:
1. Die Abbildung F : R3 → R3 , (x, y, z)T 7→ F ((x, y, z)T ) = (x + y, x + y, x + z)
besitzt den eindimensionalen Kern (dim Ker(F ) = 1)
Ker(F ) = {(x, −x, −x)T ∈ R3 : x ∈ R}
und das Bild
Im(F ) = {(x, x, z) ∈ R3 : x, z ∈ R} .
Der Kern entspricht einer Geraden und das Bild einer Fläche durch den Nullpunkt. Somit besitzt diese Abbildung den rang (F ) = 2.
2. Kern und Bild der linearen Abbildung F : R[x] → R, F (p) = p(0) lauten:
Ker(F ) = {p ∈ R[x] : p besitzt bei x = 0 eine Nullstelle.} ,
Im(F ) = R .
Also haben wir dim Ker(F ) = ∞ und rang (F ) = 1.
Satz 6.7 (Dimensionsformel) Für einen Vektorraumhomomorphismus F : V →
W mit einem endlich-dimensionalen Vektorraum V gilt:
dim V
= dim Ker(F ) + rang (F ) .
6.1 Kern und Bild
61
Beweis. Sei hierzu B 0 = {u1 , . . . , ur } eine Basis von Ker(F ) und C = {w1 , . . . , wm }
eine von Im(F ). Wir setzen vk := F −1 (wk ) und zeigen, dass
B := B 0 ∪ {v1 , . . . , vm }
eine r + m-elementige Basis von V ist. Hierzu zeigen wir, dass ein beliebiges v ∈ V
auch im span(B) ist. Wir setzen w = F (v) ∈ Im(F ). Dann existiert eine eindeutige
P
Darstellung w = m
i=1 λi wi . Hieraus folgt
!
m
m
X
X
F (v) = w =
λi F (vi ) = F
λi v i
i=1
und somit v −
Pm
i=1
i=1
λi vi ∈ Ker(F ). Nun folgt die Existenz einer Darstellung
v−
m
X
r
X
λi vi =
i=1
µr ui .
i=1
Somit läßt sich v auch als Linearkombinationen der vi zusammen mit den ui darstellen. Also v ∈ span(B).
Es bleibt zu zeigen, dass sie vi zusammen mit den ui linear unabhängig sind: Aus
0 =
m
X
λi vi +
i=1
r
X
µr ui
i=1
folgt aufgrund von F (ui ) = 0:
0 = F (0) =
m
X
i=1
λi F (vi ) +
r
X
i=1
µr F (ui ) =
m
X
λi wi .
i=1
Da die wi linear unabhängig waren, folgt nun λ1 = . . . = λm = 0. Nun folgt aus der
linearen Unabhängigkeit der ui aber auch µi = 0 für alle i.
Korollar 6.8 Zwischen zwei endlich-dimensionalen Vektorräumen V und W gibt
es genau dann einen Isomomorphismus F : V → W , wenn dim V = dim W .
Beweis. (a) Es gelte dim V = dim W und {v1 , . . . , vn } sei eine Basis von V
und {w1 , . . . , wn } eine Basis von W . Dann gibt es gemäß Satz 6.2 einen injektiven
Homomorphismus F : V → W mit wi = F (vi ). Da die wi außerdem ein Erzeugendensystem von W sind ist dieses F auch surjektiv und somit ein Isomomorphismus.
(b) Im Fall dim W < dim V gilt nach der Dimensionsformel
dim Ker(F ) = dim V − dim Im(F ) ≥ dim V − dim W ≥ 1 .
62
M. Braack - Lineare Abbildungen
Somit kann nach Lemma 6.4 keine injektive lineare Abbildung von V nach W existieren.
(c) Im Fall dim W > dim V folgt nach der Dimensionsformel für jede lineare Abbildung F :
dim Im(F ) = dim V − dim Ker(F ) < dim W − 0 = dim W .
Damit kann F nicht surjektiv sein.
6.2
Matrizen
Wir wissen, dass eine lineare Abbildungen F : Rn → Rm bereits eindeutig definiert
ist, wenn wir wissen, wie die Bilder F (ei ) der kanonischen Basis, den Einheitsvektoren e1 , . . . , en , aussehen. Wir wollen diese Bilder, was ja jeweils Vektoren im Rm
sind,


a1i


F (ei ) =  ...  ,
ami
als Spaltenvektoren ai ∈ Rm nebeneinander schreiben:


a11 . . . a1n

..  = (a · · · a ) .
..
A =  ...
.
1
n
. 
am1 . . . amn
Solche rechteckigen Schemata nennen wir Matrizen.
Definition 6.9 Den Raum der linearen Abbildungen von Rn nach Rm bezeichnen
wir mit M at(m × n; R), oder kurz Rm×n . Die Elemente heißen Matrizen und bestehen aus m Zeilen und n Spalten reellwertiger Einträge.
Eine Matrix A ∈ Rm×n , bestehend aus den Spaltenvektoren ai ∈ Rm , ist also
gerade die lineare Abbildung, die den Vektor ei auf den Vektor ai abbildet. Häufig
schreibt man auch A = (aij ), um die Notation der Einträge aufzuzeigen.
Lemma 6.10 Eine Matrix A = (aij ) ∈ Rm×n aufgefasst als lineare Abbildung von
Rn → Rm , x 7→ Ax ist gegeben durch die Matrix-Vektor-Multiplikation





a11 . . . a1n
x1
a11 x1 + . . . + a1n xn


..   ..  = 
..
..
..
Ax =  ...

,
.
.  . 
.
.
am1 . . . amn
xn
am1 x1 + . . . + amn xn
6.2 Matrizen
63
bzw. durch die Komponenten
(Ax)i =
n
X
aij xj ,
i = 1, . . . , m .
j=1
.
Beweis. Ein x ∈ Rn lässt sich als Linearkombination der kanonischen Basis darstellen:
n
X
x =
xj e j .
j=1
Somit folgt aufgrund der Linearität von A:
Ax =
n
X
xj A(ej ) =
j=1
n
X
aj xj .
j=1
Dies ist aber gerade die geforderte Matrix-Vektor Multiplikation. Die i-te Komponente ist dann:
n
n
X
X
(Ax)i =
(aj )i xj =
aij xj .
j=1
j=1
Beispiel: Die lineare Abbildung R3 → R2 , (x, y, z)T 7→ ( 21 x − z, − 12 x + y)T lautet in
Matrixdarstellung
1
0
−1
2
A =
∈ R2×3 .
1
0
−2 1
Jede Matrix A ∈ Rm×n kann man aber auch auffassen als einen Vektor mit m · n
Komponenten, also als Element von Rmn . Insofern bildet der Raum Rm×n einen
Vektorraum auf dem die Addition zwischen zwei (gleichartigen) Matrizen A = (aij )
und B = (bij )


a11 + b11 . . . a1n + b1n


..
..
..
A+B = 
,
.
.
.
am1 + bm1 . . . amn + bmn
und die skalare Multiplikation mit λ ∈ R definiert sind


λa11 . . . λa1n

.. 
...
λA =  ...
. 
λam1 . . . λamn
64
M. Braack - Lineare Abbildungen
Im Übrigen gelten auch das Kommutativgesetz für die Addition, das Assoziativgesetz und das Distributivgesetz für A, B, C ∈ Rm×n und λ ∈ R:
A + B = B + A,
6.2.1
(A + B) + C = A + (B + C) ,
λ(A + B) = λA + λB .
Matrizenprodukte
Die Hintereinanderausführung C von zwei linearen Abbildungen A ∈ Rm×n und
B ∈ Rn×r
B
A
Rr −→ Rn −→ Rm
ist dann die Matrix C = (cij ) = AB ∈ Rm×r , deren Einträge cij durch die Multiplikation
cij =
n
X
aik bkj
k=1
gegeben ist. Dies sehen wir wie folgt: Sei z = (AB)x, bzw. z = Ay und y = Bx.
Dann lautet die i-te Komponente von z:
zi =
n
X
aij yj ,
yj =
j=1
r
X
bjk xk .
k=1
Einsetzen und Vertauschen der Summationsreihenfolge ergibt:
!
r
r
n
n
r
X
X
X
X
X
cik xk .
bjk xk =
aij bjk xk =
zi :=
aij
j=1
k=1
k=1
j=1
k=1
Bei der Matrizenmultiplikation ist wichtig, dass das Kommutativgesetz i.a. nicht
gilt:
AB 6= BA .
Im Fall A ∈ Rm×n und B ∈ Rn×r mit m 6= r ist sogar nur AB definiert und nicht BA.
Ferner kann es passieren, dass das Produkt zweier von der Nullmatrix verschiedener
Matrizen die Nullmatrix ergibt.
Im Fall m = r = 1 und n beliebig ergibt die Matrixmultiplikation eine reelle
Zahl:


b1
n
X
 .. 
(a1 . . . an )  .  =
aj b j ∈ R
bn
j=1
6.2 Matrizen
65
Beispiel: (Anreicherung von Schadstoffen in Nahrungsketten)
Wir gehen von r Pflanzenarten b1 ,. . ., br aus, die von s Pflanzenfresser p1 ,. . ., ps
gefressen werden. Diese werden wiederum von t Fleischfresser f1 ,. . ., ft verspeist.
Man erhält also folgende Nahrungskette:
−→
|{z}
bj
−→
|{z}
pk
B
fi
A
Nun seien die Pflanzen bj mit Schadstoffen belastet und man fragt sich, inwieweit
die armen Fleischfresser belastet werden ?
Im Fall von linearen Zusammenhängen lässt sich dies mit Matrizenmultiplikation
beschreiben:
B = (bkj ) ∈ Rs×r
beschreibe die jeweilige Aufnahme von bj durch pk ,
A = (aik ) ∈ Rt×s
beschreibe die jeweilige Aufnahme von pk durch fi ,
C = AB ∈ Rt×r
beschreibt dann die indirekte Aufnahme von bj durch fi .
Insbesondere ist die Aufnahme von Pflanze bi durch fj gegeben durch
cij =
s
X
aik bkj .
k=1
Zahlenbeispiel:


2 1
A =  1 2 ,
0 3
B =
0 0 1 3
4 1 0 1

,

4 1 2 7
C = AB =  8 2 1 5  .
12 3 0 3
Fleischfresser f2 nimmt bspw. indirekt die Menge 8 an Pflanzenart p1 auf.
6.2.2
Endomorphismen des Rn
Die Endomorphismen auf dem Vektorraum Rn , also die linearen Abbildungen F :
Rn → Rn ist demnach gegeben durch die quadratischen Matrizen A ∈ Rn×n


a11 . . . a1n


A =  ... . . . ... 
an1 . . . ann
Eine wichtige Matrix ist die sogenannte Einheitsmatrix


1 0 ... 0


 0 . . . . . . ... 

In = 
 .. . . . .

.
. 0 
 .
0 ... 0 1
66
M. Braack - Lineare Abbildungen
Gelegentlich wird der Index “n” auch weggelassen, wenn man weiß , um welches es
sich handelt. Eine weitere wichtige Eigenschaft ist, dass In das neutrale Element der
Matrizenmultiplikation ist:
∀A ∈ Rn×n .
AIn = In A = A
Definition 6.11 Eine quadratischen Matrix A ∈ Kn×n heißt regulär, wenn eine
sogenannte Inverse Matrix A−1 ∈ Kn×n existiert, so dass A−1 A = AA−1 = In .
Die Menge dieser regulären Matrizen wird mit GL(n, K) bezeichnet (“general linear
group”). Nicht-reguläre quadratische Matrizen werden als singulär bezeichnet.
Beispiele regulärer Endomorphismen im Körper K = R:
1. Die Einheitsmatrix ist nicht nur symmetrisch, sondern auch regulär mit Inverser In−1 = In .
2. Drehung um einen Winkel θ für n = 2:
cos θ − sin θ
A =
sin θ
cos θ
Die Inverse ist dann sicherlich die Drehung um einen Winkel −θ:
cos(−θ) − sin(−θ)
cos θ sin θ
−1
A
=
=
sin(−θ)
cos(−θ)
− sin θ cos θ
Probe:
(A−1 A)11 = cos2 θ + sin2 θ = 1 ,
(A−1 A)12 = cos θ sin θ + (− sin θ) cos θ = 0 .
Entsprechend ergeben sich auch (A−1 A)21 = 0 und (A−1 A)22 = 1, also A−1 A =
I2 .
3. Skalierung um den Faktor λ ∈ R, λ 6= 0:
A = λIn
Die Inverse ist (λIn )−1 = λ−1 In .
4. Scherung mit λ ∈ R:
A =
1 λ
0 1
,
−1
A
=
1 −λ
0
1
.
6.2 Matrizen
67
5. Spiegelung an der y−Achse:
A =
−1 0
0 1
,
A−1 = A .
Satz 6.12 Die Menge der regulären Matrizen GL(n, K) bildet zusammen mit der
(Matrizen-) Multiplikation eine (i.a. nicht-kommutative) Gruppe.
Beweis. Man prüft leicht nach, dass für A, B ∈ GL(n, K) das Produkt B −1 A−1
das Inverse zu AB ist, z.B.:
(B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 In B = B −1 B = In .
Satz 6.13 Für eine quadratischen Matrix A ∈ Kn×n sind äquivalent:
(i) A ist injektiv.
(ii) A ist surjektiv.
(iii) A ist bijektiv.
(iv) A ist regulär.
(v) dim Ker(A) = 0.
(vi) rang(A) = n.
Beweis. Die Äquivalenz der Aussagen (i), (ii) und (iii) folgt unmittelbar aus dem
Dimensionssatz, denn dieser besagt für injektives A:
n = dim V = dim Ker(A) + rang (A) = rang (A)
Also folgt aus der Injektivität die Surjektivität. Umkehrt folgt aus dem Dimensionssatz die Injektivität aus der Surjektivität. Also sind (i), (ii) und (iii) äquivalent. Die
Äquivalenz von (iii) und (iv)ist auch offensichtlich. Dass (i) und (v) äquivalent sind
haben wir schon in Lemma 6.4 gezeigt. Letztendlich folgt dann aus der Äquivalenz
von (vi) und (ii) die Äquivalenz aller sechs Aussagen.
6.2.3
Dreiecksmatrizen
Sogenannte obere Dreiecksmatrizen besitzen unterhalb der Diagonalen nur Nulleinträge:


a11
∗ ∗
∗
 0 a22
∗
∗ 


A =  . .
.
.
.
.
.
 .
.
.
∗ 
0 ···
0 ann
68
M. Braack - Lineare Abbildungen
Oberhalb der Diagonalen sind die Einträge beliebig (angedeutet durch ein *). Diese
sind genau dann regulär, wenn die Hauptdiagonalelemente ungleich Null sind, aii 6= 0
für alle i = 1, . . . , n. Das gleiche gilt für untere Dreiecksmatrizen, also Matrizen
A = (aij ) ∈ Kn×n mit aij = 0 für i < j:
Lemma 6.14 Eine Dreiecksmatrix A = (aij ) ∈ Kn×n ist genau dann regulär, wenn
aii 6= 0 für alle i = 1, . . . , n.
Beweis. Wir zeigen die Behauptung für eine untere Dreiecksmatrix. Für obere
Dreiecksmatrizen folgert man analog. Es gelte aii 6= 0 für alle i = 1, . . . , n. Nach
Satz 6.13 genügt es zu zeigen, dass Ker(A) = {0}. Wenn nun x ∈ Ker(A) , also Ax = 0, so gilt insbesondere für die erste Komponente von Ax aufgrund der
Dreiecksgestalt:
0 = (Ax)1 =
n
X
a1i xi = a11 x1 .
i=1
Da nun a11 6= 0 angenommen wurde, folgt x1 = 0. Für die zweite Komponente
folgert man entsprechend 0 = a21 x1 + a22 x2 = a22 x2 . Mit dem gleichen Argument
erhält man nun x2 = 0 usw., also x = 0.
Wenn nun akk = 0 für ein k ∈ {1, . . . , n}, so sind die letzten n−k+1 Spaltenvektoren
ak , . . . , an von der Gestalt (0, . . . , 0, ∗, . . . , ∗) mit mindestens k führenden Nulleinträgen. Es sind also maximal die letzten n − k Komponenten von Null verschieden.
Dann müssen diese n − k + 1 Spaltenvektoren linear abhängig sein. Zusammen mit
den ersten k − 1 Spaltenvektoren, besitzt A also maximal n − k + k − 1 = n − 1
linear unabhängige Spaltenvektoren. Da die Spaltenvektoren gerade die Bilder der
n Einheitsvektoren sind, kann A nicht surjektiv sein.
6.2.4
Transponierte und symmetrische Matrizen
Zu einer gegebenen Matrix A ∈ Rm×n heißt die Matrix AT ∈ Rn×m mit Einträgen
(AT )ij = aji
die zu A transponierte Matrix. Offensichtlich gilt:
(AT )T = A ,
(A + B)T = AT + B T ,
(λA)T = λ(AT ) .
6.2 Matrizen
69
Das Transponieren ist demnach ein Isomorphismus vom Vektorraum Rm×n auf Rn×m .
Ein wenig aufpassen muss man bei der Transposition von Produkten von Matrizen:
(AB)T = B T AT .
(6.2)
Dies prüft man nach indem man setzt C = (AB) = (cij ) und B T AT = (dij ):
dji
n
n
X
X
T
T
=
(B )jk (A )ki =
bkj aik = cij
k=1
k=1
Lemma 6.15 Für A ∈ GL(n, K) ist auch AT ∈ GL(n, K) und es gilt (A−1 )T =
(AT )−1 .
Beweis. Zunächst gilt aufgrund von (6.2)
AT (A−1 )T = (A−1 A)T = I T = I.
Also ist (A−1 )T die Inverse von AT . Aufgrund der Eindeutigkeit der Inversen folgt
die Behauptung.
Definition 6.16 Eine quadratische Matrix A heißt symmetrisch, wenn AT = A.
6.2.5
Rang einer Matrix
Wir schreiben eine Matrix A ∈ Km×n nun in Form von n Spaltenvektoren a1 , . . . , an
und in Form von m Zeilenvektoren a1 , . . . , an ∈ Kn :




− a1 −
| ... |


A =  a1 . . . an  =  ... ... ... 
| ... |
− an −
Unter dem Spaltenrang von A versteht man die Dimension des Unterraums, der
durch die Spaltenvektoren aufgespannt wird:
Spaltenrang(A) = dim span(a1 , . . . , an ) .
Entsprechend definiert man den Zeilenrang als die Dimension des Unterraums, der
durch die m Zeilenvektoren aufgespannt wird:
Zeilenrang(A) = dim span(a1 , . . . , an ) .
Folgendes Lemma besagt nun, dass der Spaltenrang gleich dem Rang der linearen
Abbildung A entspricht.
70
M. Braack - Lineare Abbildungen
Lemma 6.17 Es gilt für A ∈ Km×n : rang (A) = Spaltenrang (A).
Beweis. Der Rang einer Matrix, rang (A), ist die Dimension des Bildraumes
Im(A). Da der Bildraum aber gerade durch die n Spaltenvektoren ai aufgespannt
wird, ergibt sich die Behauptung.
Später werden wir sehen, dass der Rang auch gerade dem Zeilenrang entspricht. Um
dies zu sehen, benötigen wir aber noch ein paar weitere Hilfsmittel.
Lemma 6.18 Sei A ∈ Km×n , S ∈ GL(n, K) und T ∈ GL(m, K). Dann gilt:
(a)
Spaltenrang(A) = Spaltenrang(T AS −1 ) ,
(b)
Zeilenrang(A) = Zeilenrang(T AS −1 ) .
Beweis. Wir betrachten das folgende Diagramm:
A
m
n
IK
IK
S
S
−1
−1
T
n
IK
TAS
−1
IK
T
m
Ein solches Diagramm wird kommutativ genannt, weil es wegunabhängige Abbildungen aufzeigt. So ist die Abbildung A : Kn → Km die gleiche wie T −1 (T AS −1 )S.
Da S und T Isomorphismen sind, gilt rang (A) = rang (T AS −1 ). Es folgt:
Spaltenrang(A) = rang (A) = rang (T AS −1 ) = Spaltenrang(T AS −1 ) .
Somit ist (a) gezeigt. Die Behauptung (b) folgt analog durch Betrachtung des kommutativen Diagramms für AT und (S T )−1 AT T T und Anwendung von Lemma 6.15:
Zeilenrang(A) = Spaltenrang(AT ) = Spaltenrang((S T )−1 AT T T )
= Spaltenrang((T AS −1 )T ) = Zeilenrang(T AS −1 ) .
Lemma 6.19 Spaltenrang und Zeilenrang beliebiger Matrizen A ∈ Rm×n sind identisch.
Beweis. Wir wählen S ∈ GL(n, K) und T ∈ GL(m, K), so dass
Ir 0
−1
T AS
=
,
0 0
6.3 Lineare Gleichungssysteme
71
mit der Einheitsmatrix Ir ∈ Kr×r . Den Beweis, dass dies stets gilt, führen wir
anschließend. Hierbei ist zu beachten, dass die obigen Nulleinträge für Matrizen
stehen, die nur Nullen enthalten, aber nicht notwendigerweise quadratisch sind. Nun
folgt mit dem vorherigen Lemma:
Spaltenrang(A) = Spaltenrang(T AS −1 ) = r
= Zeilenrang(T AS −1 ) = Zeilenrang(A) .
Nun wollen wir noch kurz zeigen, dass obige Isomorphismen S und T tatsächlich
existieren. Sei {w1 , . . . , wr } eine r-elementige Basis von Im(A) und v1 , . . . , vr ∈
Kn die Urbilder dieser Basis, also Avi = wi für i = 1, . . . , r. Die vi sind linear
unabhängig. Wir ergänzen diese Mengen nach dem Basisergänzungssatz zu einer
Basis {w1 , . . . , wm } von Km und zu einer Basis {v1 , . . . , vn } von Kn . Hierbei können
wir (gemäß des Beweises des Dimensionssatzes) vr+1 , . . . , vn ∈ Ker(A) wählen. Wir
wählen nun:
| ···

S :=
v1 · · ·
| ···

−1
|
vn  ,
|
−1
| ···
|
T :=  w1 · · · wm  .
| ···
|

Es gilt S −1 ei = vi und T −1 ei = wi . Nun gilt für 1 ≤ i ≤ r:
T AS −1 ei = T Avi = T wi = ei ,
und für r < i ≤ m:
T AS −1 ei = T Avi = T 0 = 0 .
Damit ergibt sich die gewünschte Struktur von T AS −1 .
6.3
Lineare Gleichungssysteme
Ein lineare Gleichungssystem (LGS) mit n Unbekannten x1 , . . . , xn und m Gleichungen der Form
a11 x1 + . . . + a1n xn = b1
..
.
.
= ..
am1 x1 + . . . + amn xn = bm ,
72
M. Braack - Lineare Abbildungen
läßt sich durch Matrizen kompakt schreiben in der Form
Ax = b ,
(6.3)
mit der Matrix A = (aij ) ∈ Rm×n . Der Lösungsvektor x besitzt n Komponenten,
also x ∈ Rn . Im Fall b 6= 0 spricht man von einem inhomogenen System. Das
zugehörige homogene System lautet:
Ax = 0 .
Beispiel: Die beiden Gleichungen 2x1 − x2 + 4x3 = 5 und x2 + x3 = 1 lassen sich in
der Form (6.3) schreiben indem man setzt:
2 −1 4
5
A =
, b =
0
1 1
1
Im Fall einer regulären quadratischen Matrix A ∈ GL(n, R), bei der man die
Inverse A−1 kennt, ist die Lösung x ∈ Rn einfach gegeben durch eine Matrix-VektorMultiplikation:
x = In x = A−1 Ax = A−1 b .
Ferner kann man ein Gleichungssystem der Form (6.3) von beiden Seiten mit einer
regulären m × m Matrix S ∈ GL(m, R) multiplizieren ohne, dass man die Lösung x
ändert:
SAx = Sb .
Dies liegt daran, dass S regulär ist und damit eine Inverse S −1 besitzt. Multipliziert man diese Inverse von links wieder auf beiden Seiten heran, erhält man die
Ausgangsgleichung.
6.3.1
Allgemeine und spezielle Lösungen
Ein abstrakteres Kriterium für die Lösbarkeit des Gleichungssystems (6.3) liefert
folgendes Lemma:
Lemma 6.20 Das LGS (6.3) hat genau dann eine Lösung, wenn b ∈ Im(A).
Beweis. Der Beweis ist offensichtlich.
Zur Überprüfung der Lösbarkeit, macht die Betrachtung des Ranges der um den
Spaltenvektor b erweiterte Matrix Sinn. Dieser wird mit rang(A, b) bezeichnet.
6.3 Lineare Gleichungssysteme
73
Lemma 6.21 Das LGS (6.3) ist genau dann lösbar, wenn rang(A) = rang(A, b).
Beweis. Der Beweis ist offensichtlich, da rang(A) = rang(A, b) äquivalent ist zu
b ∈ Im(A).
Satz 6.22 Ist x eine Lösung von (6.3) und y ∈ Ker(A), so ist auch x + y eine
Lösung. Man sagt: Die allgemeine Lösung des inhomogenen Systems ergibt sich aus
der Addition einer speziellen Lösung des inhomogenen Systems und der allgemeine
Lösung des zugehörigen homogenen Systems.
Beweis. Aufgrund der Linearität gilt A(x + y) = Ax + Ay = b + 0 = b.
Hieraus folgen wir unmittelbar:
Korollar 6.23 Das LGS (6.3) besitzt maximal eine Lösung, wenn Ker(A) = {0}.
Korollar 6.24 Das LGS (6.3) ist genau dann eindeutig lösbar, wenn rang(A) =
rang(A, b) = n ≤ m.
Beweis. Nach Satz 6.22 ist eine notwendige Bedingung für die eindeutige Lösbarkeit, dass Ker(A) = {0}. Nach der Dimensionformel 6.7 folgt dann n = dim(Rn ) =
rang(A). Da rang(A) ≤ min(m, n), folgt m ≥ n. Damit überhaupt eine Lösung
existiert, muss b ∈ Im(A) gelten. Dies bedeutet aber, dass sich b durch die Spaltenvektoren von A linear kombinieren läßt, also rang(A) = rang(A, b).
Um nun alle Lösungen angeben zu können, benötigen wir nun also ein praktisches
Verfahren, um
(a) eine spezielle Lösung eines inhomogenen Systems, und
(b) die allgemeine Lösung eines homogenen Systems
ermitteln zu können. Dies machen wir zunächst für spezielle Matrizen.
6.3.2
Vorwärts- und Rückwärtseinsetzen
Wenn A eine reguläre obere Dreiecksmatrix ist, so kann man eine spezielle Lösung
x durch einfaches Rückwärtseinsetzen erhalten:
xn = bn /ann
xn−1 = a−1
n−1,n−1 (bn−1 − an−1,n xn )
..
.
. = ..
!
n
X
xk = a−1
bk −
akj xj
kk
j=k+1
k = n, . . . 1 .
74
M. Braack - Lineare Abbildungen
Entsprechend ergibt Vorwärtseinsetzen bei unteren Dreiecksmatrizen die Lösung:
!
k−1
X
xk = a−1
bk −
akj xj
k = 1, . . . , n .
kk
j=1
Beispielsweise erhält man die Lösung von

 


x1
1
2 3 −1
  x2  =  2  .
 0 1
1
2
3
x3
0 0
2
wie folgt:
1
3
3 =
2
2
= 2(2 − 1x3 ) = 1
1
1
=
(1 − 3x2 − (−1)x3 ) = − .
2
4
x3 =
x2
x1
Besitzt die Dreiecksmatrix auf der Hauptdiagonalen nur von Null verschiedene Einträge, so gibt es keine von Null verschiedene allgemeine Lösung des homogenen
Systems. Die Lösung ist also eindeutig.
Besitzt die Matrix hingegen ein oder mehrere Diagonaleinträge, die verschwinden
zB. akk = 0, so ...
6.3.3
Gauß’sches Eliminationsverfahren bei quadratischen
regulären Matrizen
Wir setzen nun zunächst voraus, dass A ∈ GL(n, R). Die Inverse von A existiert
also, ist aber im allgemeinen nicht bekannt. Dann gibt es die Möglichkeit, beide
Seiten der Gleichung (6.3) mit regulären Matrizen S1 , . . . , Sr zu multiplizieren:
Sr . . . S1 A x = Sr . . . S1 b .
| {z }
| {z }
b
A
b
b
Man hat dann (6.3) in ein äquivalentes LGS
b = bb
Ax
b = Sr . . . S1 A möglichst
überführt. Hierbei sollten die Sk so gewählt sein, dass A
b = In . Da aber die Umformung mit Aufwand vereinfach ist. Im idealen Fall ist A
b eine Dreiecksmatrix
bunden ist, genügt es i.a. Umformungen so zu wählen, dass A
6.3 Lineare Gleichungssysteme
75
ist. Für gewöhnlich wählt man die Sr , so dass das resultierende System aus einer
oberen Dreiecksmatrix besteht.
Hierzu reicht es aus als Umformungsmatrizen Sk sogenannte Elementarmatrizen
zu wählen. Diese beschreiben folgende Zeilenumformungen:
1. Vertauschen zweier Zeilen.
2. Multiplikation einer Zeile mit λ ∈ R, λ 6= 0.
3. Addition des λ-fachen der j-ten Zeile zur i-ten Zeile.
Hierbei ist streng genommen die 4. Umformung auch darstellbar als Kombination
von 2. und 3.
Wenn man diese Manipulationen von Hand durchführt, erweitert man die Matrix
A i.d.R. um die Spalte b und führt dann hiermit die Umformungen durch. man
operiert also auf der erweiterten Koeffizientenmatrix (A|b). Das Endresultat führt
b und die entsprechende rechte Seite bb.
dann auf die Matrix A
Dies wollen wir einmal an einem Beispiel durchführen:
 


1
0 1 −4
 1 2 −1  x =  2 
1 1

0 1 −4 1
 1 2 −1 2 
1 1
2 3
3
2


Vertausche Z.1 und Z.3
−→
Subtrahiere Z.1 von Z.2
−→

1 1
2 3
 1 2 −1 2 
0 1 −4 1


1 1
2
3
 0 1 −3 −1 
0 1 −4
1

Subtrahiere Z.2 von Z.3
−→

1 1
2
3
 0 1 −3 −1 
0 0 −1
2
Hieraus ergibt sich also das äquivalente lineare Gleichungssystem:




1 1
2
3
 0 1 −3  x =  −1 
0 0 −1
2
Man erhält nun einfach durch Rückwärtseinsetzen:
x3 = −2 ,
x2 = −1 + 3x3 = −7 ,
x1 = 3 − x2 − 2x3 = 14 .
76
M. Braack - Lineare Abbildungen
C Code
Nun wollen wir diese Gauß’sche Elimination einmal in Form eines C-Codes formulieren. Die Indexierung sei wie in C üblich von 0 bis n − 1.
for (int i=0; i<n-1; i++) {
if (fabs(a(i,i))<epsilon) rowswap(i);
for (int j=i+1; j<n; j++) {
for (int k=i; k<n; k++) {
a(j,k) -= a(i,k)*a(j,i)/a(i,i);
}
b[j] -= b[i]*a(j,i)/a(i,i);
}
}
Hierbei bezeichnet rowswap(i) eine Unterroutine, die die i-te Zeile mit einer k-ten
Zeile vertauscht. Es gilt hierbei k > i und f abs(a(k, k)) möglichst groß.
6.3.4
Gauß’sche Elimination bei nicht notwendigerweise quadratischen Matrizen
Ist die Ausgangsmatrix A ∈ Rm×n nicht unbedingt vom quadratischen Typ, sondern
m, n ∈ N beliebig, so kann man nicht unbedingt eine Umformung in eine Dreiecksmatrix erreichen. Die im vorherigen Abschnitt beschriebe Elimination kann aber im
wesentlichen auch hier angewendet werden. Hierzu führt man die Umformung der
erweiterten Koeffizientenmatrix (A|b) analog durch.
Der Ablauf zur Bestimmung einer allgemeinen Lösung ist wie folgt:
1. Schritt (Umformung auf Zeilenstufenform)
Man führt die Gauß’sche Elimination so durch, dass die Endmatrix von sogenannter Zeilenstufenform ist. In Zeilenstufenform befindet sich eine Matrix,
wenn die unterste Zeile die meisten links-stehenden Nullen von allen Zeilen
beinhaltet und die Anzahl der links-stehenden Nullen von unten nach oben
abnimmt. Beispielsweise ist die folgende erweiterte 4 × 5-Matrix von Zeilenstufenform:


c1,j1 ∗
∗
∗ ∗ bb1


0 0 c2,j2
∗ ∗ bb2 




0 0
0 c3,j3 ∗ bb3 
0 0
0
0 0 bb4
6.3 Lineare Gleichungssysteme
77
Eine obere Dreiecksmatrix ist eine besondere Form der Zeilenstufenform. Umgekehrt ist eine quadratische Matrix von Zeilenstufenform auch eine Dreiecksmatrix. Sei r ≤ m die letzte Zeile, in der von Null verschiedene Einträge cr,j
auftreten. Der Rang von A ist gerade dieser Wert, rang(A) = r. Im obigen
Beispiel gilt r = 3. Nun können folgende Fälle auftreten:
Fall 1: In einer der unteren Zeilen j ∈ {r + 1, . . . , m}, die nur aus Nulleinträgen besteht, ist der Koeffizient bbj ungleich Null. In diesem Fall existiert
keine Lösung des ursprünglichen LGS, denn es gilt dann rang(A, b) =
rang(A) + 1. Dies sieht man auch in der zugehörigen Gleichung, die lauten würde:
0xj1 + . . . + 0xn = bbj =
6 0.
In diesem Fall ist man also fertig, da es keine Lösung gibt.
Fall 2: Alle Nullzeilen haben auch auf der rechten Seite einen Nulleintrag,
bbr+1 = . . . = bbm = 0. In diesem Fall existiert mindestens eine Lösung,
denn dann ist rang(A, b) = rang(A) = r.
2. Schritt (Spezielle Lösung des inhomogenen Systems)
Um im Fall 2 eine spezielle Lösung zu erhalten, geht man wie folgt vor:
Man setzt xjr +1 = . . . = xn = 0, sowie für alle i deren Diagonalkoeffizient
verschwindet, cii = 0, setzt man ebenfalls xi = 0. Die übrigen xj erhält man
durch Rückwärtseinsetzen. Im Beispiel der obigen 4 × 5-Matrix setzt man im
Fall von bb4 = 0: x2 = x5 = 0 und x4 = bb3 /c3,4 , x3 = (bb2 − c2,4 x4 )/c2,3 ,
P
x1 = (bb1 − 5i=2 c1,i xi )/c1,1 .
3. Schritt (Allgemeine Lösung des homogenen Systems)
Diejenigen Komponenten, die im 2. Schritt a priori zu Null gesetzt wurden,
also xjr +1 , . . . , xn und die xi mit cii = 0, werden nun freie Parameter: Im obigen
Beispiel sind dies x2 = λ1 und x5 = λ2 . Die übrigen xj ergeben sich nun wieder
durch Rückwärtseinsetzen und sind abhängig von den freien Parametern λi ,
i = 1, . . . , n − r.
Die Dimension des (affinen) Lösungsraumes X ist die des Kerns von A, also beträgt
sie n − r. Im Fall r < n existieren also noch allgemeine Lösungen des zugehörigen
homogenen Systems. Diese erhält man wie folgt:
Wir wollen dies nun an einem konkreten Beispiel einmal umsetzen: Gegeben sei
78
M. Braack - Lineare Abbildungen
folgendes LGS mit m = 5 und n = 7:







0
0
0
0
0
1
0
1
0
1
0
2 −1 −4
0
1 −1 −1
2
1
0
2
1 −2
0
1 −1
0
2 −1
1
1
0
0
1










x1
..
.
..
.
..
.
x7









 = 





1
2
3
2
5







Im ersten Schritt modifizieren wir die 3., 4. und 5. Zeile, um die Zeilenstufenform
zu erreichen: Wir ziehen die erste Zeile von der 3. Zeile ab. Ferner subtrahieren wir
die 2. Zeile von der 4. Zeile:



 x
 
1
0 1 0
2 −1 −4
0  . 
1
.. 
 0 0 1 −1 −1




2
1 


 2 

  .. 
 
0
2
2
0  .  =  2 
 0 0 0



 
 0 0 0
 0 
0
1
0 −2   .. 
.


0 1 1
1
0
0
1
5
x7
Nun subtrahieren wir die 1. und 2. Zeile von der letzen Zeile. Außerdem dividieren
wir die 3. Zeile durch 2:


 
 x

1
1
0 1 0
2 −1 −4
0  . 
.. 




 0 0 1 −1 −1
2
1 
 2 


 
  .. 

0
1
1
0  .  =  1 
 0 0 0

 


 0 
 0 0 0
0
1
0 −2   .. 
 . 
2
0 0 0
0
2
2
0
x7
Nun sehen wir, dass wir die letzte Zeile ganz zu Null machen können, indem wir das
2-fache, der 3. Zeile von der letzten abziehen. Die vorletzte Zeile modifizieren wir
noch dahingehend, dass wir die 3. von ihr abziehen:







0
0
0
0
0
1
0
0
0
0
0
2 −1 −4
0
1 −1 −1
2
1
0
0
1
1
0
0
0
0 −1 −2
0
0
0
0
0










x1
..
.
..
.
..
.
x7









 = 





1
2
1
−1
0







6.3 Lineare Gleichungssysteme
79
Um nun eine spezielle Lösung zu erhalten, setzen wir x1 = x4 = x7 = 0. Hierdurch
reduziert sich das System zu:





1
1 0 −1 −4
x2





2   x3 
 2 
 0 1 −1

 = 


1
1   x5 
 1 
 0 0
−1
0 0
0 −1
x6
Die restlichen Komponenten ergeben sich daher zu x6 = 1, x5 = 1 − x6 = 0,
x3 = 2 − x5 − 2x6 = 0 und x2 = 1 + 4x6 = 5. Eine spezielle Lösung ist also:
x∗ = (0, 5, 0, 0, 0, 1, 0)T .
Für die allgemeine Lösung des zugehörigen homogenen LGS setzen wir x1 = λ1 ,
x4 = λ2 und x7 = λ3 . Die übrigen vier Komponenten ergeben sich aus:


 

 x
1
0
0 1 0
2 −1 −4
0  . 
.. 


 0 0 1 −1 −1


2
1 
 0 


 

  .. 
0
1
1
0  .  =  0 
 0 0 0
 



 0 
 0 0 0
0
0 −1 −2   .. 
 . 
0
0 0 0
0
0
0
0
x7
bzw.







1
0
0
0
0
0 −1 −4
1 −1
2
0
1
1
0
0 −1
0
0
0





 x2




  x3 
 = −λ1 


  x5 


x6
Diese ist wiederum äquivalent zu


1 0 −1 −4
x2


2   x3
 0 1 −1


1
1   x5
 0 0
0 0
0 −1
x6
0
0
0
0
0









 − λ2 









 = 


2
−1
0
0
0
−2λ2
λ2 − λ3
0
2λ3
Also muss für die abhängigen Variablen gelten:
x6 = −2λ3 ,
x5 = −x6 = 2λ3 ,
x3 = λ2 − λ3 + x5 − 2x6 = λ2 + 5λ3
x2 = −2λ2 + x5 + 4x6 = −2λ2 − 6λ3 .








 − λ3 









0
1
0
−2
0







80
M. Braack - Lineare Abbildungen
Damit lautet die allgemeine Lösung:






x = 




6.4
λ1
5 − 2λ2 − 6λ3
λ2 + 5λ3
λ2
2λ3
1 − 2λ3
λ3











Determinanten
Definition 6.25 Die Determinante ist eine Abbildung
det : M at(n × n, K) → K.
Diese ist definiert als
det(A) :=
X
σ∈Sn
sign (σ)
n
Y
ai,σ(i) .
i=1
In obiger Definition bezeichnet Sn die Menge der n-elementigen Permutationen und
sign(σ) ∈ {−1, 1} das Vorzeichen einer Permutation. Es gilt sign(σ) = 1, wenn die
Permutation einer gradzahligen Vertauschung von Elementen entspricht. Anderenfalls wird der Wert −1 angenommen.
Bemerkung: Die Determinante det A entspricht dem Volumenmaß, des durch
die Zeilenvektoren von A aufgespannte Parallelepipeds (auch Spat genannt), siehe
Abb. 6.1. Hierdurch erhält man insbesondere die Volumina unter linearer Transformation: Ist S ⊂ Rn mit Volumenmaß |S|, so hat das Bild unter einer linearen
Abbildung A ∈ Rn×n das Maß:
|A(S)| = | det A| · |S| .
Man beachte, dass die Abbildung det i.a. nicht-linear ist (zB. gilt det(λA) =
λ det A). Speziell für eine n = 2 Matrix ist gegeben durch
a b a b
= ad − bc
det
= c d c d
n
Die senkrechten Striche haben nichts mit dem Absolutbetrag zu tun, sondern sind
lediglich eine andere Schreibweise für die Determinante.
6.4 Determinanten
81
Abbildung 6.1: Parallelepiped in 3 Raumdimensionen aufgespannt durch drei
(Zeilen-) Vektoren einer Matrix A. Die Determinante von A ist das eingeschlossene
Volumen.
Lemma 6.26 Besitzt eine Matrix zwei identische Zeilen, so verschwindet die Determinate, also det A = 0.
Beweis. Die Matrix A besitze zwei gleiche Zeilen(-vektoren) ai1 und ai2 . Wir
betrachten die Untermenge der geraden Permutationen
An := {σ ∈ Sn : sign(σ) = 1}.
Sei nun τ ∈ Sn die Permutation, die i1 und i2 vertauscht. Dann lässt sich Sn wie
folgt disjunkt zerlegen:
Sn = An ∪ An τ.
Somit lässt sich die Summe in der Definition der Determinate schreiben als die
Summe zweier Summen:
n
n
X
Y
X
Y
det A =
sign(σ)
ai,σ(i) +
sign (σ ◦ τ )
ai,σ(τ (i))
i=1
σ∈An
i=1
σ∈An
Nun gilt aber sign(σ ◦ τ ) = sign(σ)sign(τ ) = −sign(σ) und
det A =
X
sign(σ)
n
Y
ai,σ(i) −
i=1
σ∈An
n
Y
!
ai,σ(τ (i))
.
i=1
Die Behauptung folgt nun aus der Gleichheit der auftretenden Produkte
n
Y
i=1
ai,σ(i) =
n
Y
ai,σ(τ (i)) ,
i=1
denn τ (i) = i für i 6= i1 , i2 und aufgrund der angenommenen Gleicheit der zwei
Zeilen
ai1 ,σ(i1 ) ai2 ,σ(i2 ) = ai2 ,σ(i1 ) ai1 ,σ(i2 ) = ai1 ,σ(i2 ) ai2 ,σ(i1 ) = ai1 ,σ(τ (i1 )) ai2 ,σ(τ (i2 )) .
82
M. Braack - Lineare Abbildungen
Lemma 6.27 Vertauscht man zwei Zeilen bei einer quadratischen Matrix, so unterscheiden sich die Determinanten nur um das Vorzeichen. Durch die Addition des
λ-fachen einer Zeile zu einer anderen ändert sich die Determinante überhaupt nicht.
Beweis. (a) Das Vertauschen zweier Zeilen entspricht einer Permutation σ ∈ Sn
mit sign(σ) = −1. Die Behauptung folgt nun aus der Definition der Determinante
und dem Vorzeichen von verknüpften Permutationen
sign(σ ◦ σ̃) = sign(σ)sign(σ̃)
∀σ, σ̃ ∈ Sn .
(b) Als Übungsaufgabe verifiziere man zunächst für Matrizen
ai , a0i :





..
..
..
.


 . 
 .
0 


 0
det 
 ai + ai  = det  ai  + det  ai
..
..
..
.
.
.
mit Spaltenvektoren


,

wobei beide Matrizen auf der rechten Seite in allen Zeilen identisch sind, bis auf eine
Zeile, in der sie evtl. verschieden sind. Wir wollen jetzt das λ− fache der j-ten Zeile
von A zur i-ten Zeile von A hinzuaddieren. Hierbei muss i 6= j gelten. Es bezeichne
a1 , . . . , an die Zeilenvektoren. Ferner bezeichne A0 die quadratische Matrix, die sich
von A nur in einer Zeile i unterscheidet indem man die i-te Zeile identisch mit der
j-ten Zeile setzt. Nach dem vorherigen Lemma gilt det A0 = 0. Wir erhalten nun


..
.


0

det  ai + λa0i 
 = det A + λ det A = det A.
..
.
Lemma 6.28 Für transponierte Matrizen gilt
det AT = det A.
Beweis. Die Produkte in der Definition der Determinante 6.25 lässt sich auch wie
folgt ausdrücken:
n
Y
i=1
ai,σ(i) =
n
Y
j=1
aσ−1 (j),j .
6.4 Determinanten
83
Nun ist mit σ ∈ Sn aber auch σ −1 ∈ Sn und sign(σ) = sign(σ −1 ). Durchläuft σ ganz
Sn , so tut dies auch σ −1 .
Die Determinante einer Summe von Matrizen ist i.a. aber nicht identisch mit der
Summe der Determinanten, d.h. es kann durchaus
det(A + B) 6= det A + det B.
vorkommen.
Lemma 6.29 Für (obere oder untere) Dreiecksmatrizen A ∈ Kn×n ist die Determinante gerade das Produkt der Diagonaleinträge:
det A = a11 a22 · · · ann .
Insbesondere hat die Einheitsmatrix die Determinante det In = 1.
Beweis. Das einzige von Null verschiedene Produkt in der Definition der Determinante 6.25 erhält man durch die Permutation σ = id.
Die nachfolgende Charakterisierung regulärer Matrizen durch deren Determinante
ist außerordentlich nützlich:
Satz 6.30 Eine quadratische Matrix A ist genau dann regulär, wenn det A 6= 0.
Beweis. Dies zeigt man dadurch, dass man sich zunächst anschaut, wie sich die
Determinante bei Multiplikation mit Elementarmatrizen verhält. Gemäß Lemma
6.27 gilt, dass
- sich durch das Vertauschen zweier Zeilen nur das Vorzeichen ändert und
- die Addition des λ-fachen einer Zeile zu einer anderen, die Determinante überhaupt nicht ändert.
Insofern bleibt die Determinate bei der Gauss’schen Elimination bis auf ihr Vorzeichen erhalten. Für eine Dreiecksmatrix B ist die Determinate leicht berechenbar,
det B = b11 · . . . · bnn . Insbesondere sieht man, dass det B 6= 0 genau dann gilt, wenn
B regulär ist. Das gleiche gilt somit auch für eine allgemeine Matrix A ∈ Kn×n .
Satz 6.31 (Determinanten-Multiplikationssatz) Für A, B ∈ Kn×n gilt
det(AB) = det A · det B.
84
M. Braack - Lineare Abbildungen
Beweis. Nehmen wir zunächst an, dass A und/oder B singulär ist. Dann ist es
aber auch das Produkt AB. Nach dem vorherigen Satz gilt dann det(AB) = 0 und
det A · det B = 0. Daher genügt es diese Gleichheit für reguläre Matrizen A, B zu
zeigen. Dann lässt sich A als Produkt von Elementarmatrizen, d.h. solchen die eine
Skalierung einer Zeile mit einer skalaren Größe λ darstellt (bezeichnet mit Si (λ))
und der Addition einer Zeile zu einer anderen (bezeichnet mit Qji ). Daher genügt es
zu zeigen:
det(Si (λ)B) = det(Si (λ)) · det B
und
det(Qji B) = det(Qji ) · det B.
Da es sich bei diesen Elementarmatrizen um Dreiecksmatrizen handelt, gilt det(Si (λ) =
λ und det(Qji ) = 1. Gemäß der Definition der Determinate gilt det(Si (λ)B) =
λ det B = det(Si (λ) · det B. Wie bereits in Lemma 6.27 gezeigt, ändert die Addition von einer Zeile zu einer anderen die Determinante nicht. Also gilt auch hier
det(Qji B) = det B = det(Qji ) · det B.
Korollar 6.32 Ist A ∈ Kn×n regulär, so gilt
det(A−1 ) = (det A)−1 .
Beweis. Dies folgt aus dem Determinantenmultiplikationssatz und det(In ) = 1:
1 = det(In ) = det(AA−1 ) = det(A) det(A−1 ).
6.4.1
Entwicklungssatz von Laplace
Mit dem Entwicklungssatz von Laplace läßt sich eine Determinante rekursiv berechnen. Man führt die Determinantenberechnung einer n × n-Matrix zurück auf n
Determinanten von jeweils (n − 1) × (n − 1)-Matrizen.
Hierzu benötigen wir noch folgende Notation. Ist A ∈ Rn×n , n ≥ 2, so entsteht
A0ij ∈ R(n−1)×(n−1) durch Streichen der i-ten Zeile und j-ten Spalte:


a11 · · · a///
a1n
1j · · ·


 · · · · ///
··· ···
· 




 ai1 ///

· · · ///
aij ///
· · · a///
in 
A0ij =  ///
← i-te Zeile gestrichen


 · · · · ///
··· ···
· 




an1 · · · a///
ann
nj · · ·
↑
j-te Spalte gestrichen
6.4 Determinanten
85
Die Determinante det(A0ij ) ist ein sogenannter Minor von A.
Satz 6.33 (Entwicklungssatz von Laplace) Die Determinante einer quadratischen Matrix A ∈ Rn×n mit n ≥ 2 lässt sich berechnen durch Entwicklung nach der
i-ten Zeile:
det A =
n
X
(−1)i+j aij det A0ij ,
1 ≤ i ≤ n,
j=1
sowie durch Entwicklung nach der j-ten Spalte:
det A =
n
X
(−1)i+j aij det A0ij ,
1 ≤ j ≤ n.
i=1
Beweis. Wir wollen den Beweis hierzu nicht führen. Man kann diesen aber nachlesen in den Standardlehrbüchern der Linearen Algebra, z.B. [4]
Man überlegt sich leicht, dass der numerische Aufwand zur Berechnung der Determinante sich hier verhält wie O((n + 1)!) (Übungsaufgabe).
Beispiele:
• Die Determinante einer 3 × 3 Matrix ist beispielsweise gegeben durch Entwicklung nach der 1. Spalte:
a
a23
det A = a11 22
a32 a33
− a21 a12 a13
a32 a33
+ a31 a12 a13
a22 a23
• Ein Zahlenbeispiel für die Entwicklung nach der 2-ten Zeile:
2 3 4 3 4 2 4 2 3 0 2 0 = 0
5 1 + 2 −1 1 − 0 −1 5 = 2(2 + 4) = 12
−1 5 1 und als Entwicklung nach der 3-ten Spalte:
2 3 4 0 2 2 3 2 3
0 2 0 = 4
−1 5 − 0 −1 5 + 1 0 2
−1 5 1 = 4 · 2 + 4 = 12
86
M. Braack - Lineare Abbildungen
6.4.2
Berechnung von Inversen mittels Determinanten
Satz 6.34 Ist A ∈ GL(n, K), so lässt sich die Inverse berechnen mittels der Matrix
C ∈ Rn×n :
A−1 =
1
CT
det A
mit
cij = (−1)i+j det A0ij .
Beweis. Wir zeigen, dass D := (dij ) = A det1 A C T die Einheitsmatrix ist. Es gilt
n
X
n
1 X
1
=
ckj =
aik
(−1)k+j aik det A0kj .
det
A
det
A
k=1
k=1
dij
Es folgt im Fall i = j unmittelbar dii = 1 aufgrund des Entwicklungssatzes von
e dar,
Laplace. Im Fall i 6= j stellt die obige Summe die Determinante der Matrix A
die aus A entsteht indem man die j-te Zeile durch die i-te Zeile ersetzt. Da die Zeilen
e = 0 und folglich dij = 0. Also ergibt
dann aber linear abhänging sind, folgt det(A)
sich insgesamt D = In .
Zur Berechnung der Inverse sind somit folgende Schritte notwendig:
1. Ersetze jeden Koeffizienten von A durch den entsprechenden Minor.
2. Multipliziere einige Koeffizienten mit −1, wenn i + j ungerade ist.
3. Transponiere die Matrix
4. Dividiere alle Koeffizienten durch det A.
Spezialfall n = 2:
a b
c d
1
=
ad − bc
A =
a b
c d
−1
Beispiel einer 3 × 3 Inversen:
Wir wollen die Inverse berechnen von:

⇒
C =
d −b
−c
a

0 1 −4
A =  1 2 −1 
1 1
2
d −c
−b
a
6.4 Determinanten
87
Entwicklung nach der ersten Spalte:
2 −1 1 −4
−
det A = 0 2
1
2 1
1 −4
+
2 −1
= −(2 + 4) + (−1 + 8) = 1
Die Matrix C:

5 −3 −1
C =  −6
4
1 
7 −4 −1

Damit erhalten wir:

5 −6
7
=  −3
4 −4 
−1
1 −1

A−1
6.4.3
Lösen von Gleichungssystemen mittels Determinanten
Die folgende Regel liefert uns die (theoretische) Möglichkeit, ein lineares Gleichungssystem mit Hilfe von Determinanten zu berechnen. Hierbei ist zu beachten, dass man
A als regulär voraussetzen muß. Auch hier sehen wir von einem Beweis ab.
Satz 6.35 (Kramer’sche Regel) Sei A ∈ GL(n, R) aufgebaut durch die Spaltenvektoren a1 , . . . , an und sei b ∈ Rn . Dann sind die Komponenten der Lösung des
linearen Gleichungssystems Ax = b gegeben durch:
xi = (det A)−1 det(a1 , . . . , ai−1 , b, ai+1 , . . . , an ) .
Beweis. Auch hier geben wir keinen Beweis an. Wir möchten nur erwähnen, dass
man dieses Ergebnis erhält, indem man xi = (A−1 b)i ansetzt und nun die Inverse
A−1 über die Determinanten berechnet.
Diese Regel eignet sich allerdings in der Praxis nur für kleine n, denn es sind n + 1
Determinanten zu berechnen. Jede dieser Determinanten erfordert einen Aufwand
O(n!). Man erhält somit den Gesamtaufwand O((n + 1)!) zur Bestimmung von x.
Trotzdem wollen wir dies einmal an einem kleinen überschaubaren Beispiel durchführen.
Wir betrachten hierzu das LGS
x1 + x2 = 1
x2 + x3 = 1
3x1 + 2x2 + x3 = 0 .
88
M. Braack - Lineare Abbildungen
Dies ergibt die Matrix

1 1 0
A =  0 1 1 .
3 2 1

Dessen Determinate ergibt sich durch Entwicklung nach der ersten Spalte zu:
1 1
det A = 2 1
+ 3 1 0
1 1
= −1 + 3 = 2 .
Wir erhalten nun mittels der Kramer’schen Regel:
x1
x2
x3
6.5
1 =
2 1 =
2 1 =
2 1 1 0 1 1 1 0 1
−
= −1
1 1 1 =
2 2 1 2 1 0 2 1
1 1 0 1 1 1 0 1
+ 3
0 1 1 =
1 1 = 2
2 0 1 3 0 1
1 1 1 1 1 1 1 1
+ 3
0 1 1 =
1 1 = −1 .
2 2 0 3 2 0
Eigenwerte und Eigenvektoren
Definition 6.36 Sei F : V → V ein Endormorphismus auf dem K-Vektorraum V .
Ein λ ∈ K heißt Eigenwert von F , wenn
F (v) = λv ,
für ein v ∈ V , v 6= 0. Der Vektor v heißt ein zu λ zugehörige Eigenvektor.
Hierbei lassen wir sehr wohl auch einen Eigenwert 0 zu. Eigenvektoren müssen aber
stets ungleich dem Nullvektor sein.
Ein Eigenvektor ist also ein Vektor, der unter der linearen Abbildung seine Richtung nicht ändert, sondern nur um den Faktor λ gestreckt oder gestaucht wird. Im
Fall λ < 0 ändert der Vektor allerdings insofern die Richtung, als dass die “entgegengesetzte” Richtung angenommen wird.
6.5 Eigenwerte und Eigenvektoren
89
Im Fall von V = Kn sind die Endormorphismen gerade die quadratischen Matrizen A ∈ M at(n × n, K). Ein λ ∈ K ist also Eigenwert von A mit Eigenvektor v,
wenn
Av = λv .
Beispiele:
1. Wie man leicht nachprüft besitzt die Matrix
1
und zugehörigen Eigenvektor v =
.
1
3 −1
1 1
den Eigenwert λ = 2
2. Diagonalmatrizen A = diag{λ1 , . . . , λn } besitzen die Eigenwerte λ1 , . . . , λn
und Eigenvektoren e1 , . . . , en .
0 −1
3. Nicht jede Matrix besitzt (reelle) Eigenwerte, z.B. A =
. Aus Av =
1 0
λv folgt für die Komponenten von v:
−v2 = λv1
und v1 = λv2 .
Also −v2 = λ2 v2 bzw. v2 = v1 = 0, wenn man nur reelle λ zulässt.
Satz 6.37 λ ∈ K ist genau dann Eigenwert einer Matrix A ∈ Kn×n , wenn det(A −
λI) = 0.
Beweis. λ ist genau dann Eigenwert, wenn ein v 6= 0 existiert, mit Av = λv.
Dies ist gleichbedeutend mit
0 = Av − λv = Av − λIv = (A − λI)v .
Mit anderen Worten: v liegt im Kern der linearen Abbildung A − λI:
0 6= v ∈ Ker(A − λI) .
Also ist A − λI nicht injektiv, also nicht regulär bzw. det(A − λI) = 0.
Insofern ist die Suche nach einem Eigenwert also äquivalent mit der Suche nach
Nullstellen der Determinante
det(A − λIn ) ,
aufgefasst als Funktion in λ.
90
M. Braack - Lineare Abbildungen
Beispiel: Als ein Beispiel schauen wir uns die Drehung um den Winkel α im R2
an:
cos α − sin α
sin α
cos α
v1
v2
= λ
v1
v2
Für 0 < α < π wird jeder Vektor gedreht und ändert somit seine Richtung. Wir
wollen daher einmal nachrechnen, dass es keinen Eigenwert λ ∈ R geben kann. In
Form von einzelnen Gleichungen lautet die Bedingung an einen Eigenwert:
(cos α − λ)v1 − sin αv2 = 0
sin αv1 + (cos α − λ)v2 = 0
Wir erhalten also zwei Gleichungen mit drei Unbekannten v1 , v2 und λ. Es handelt
sich aber hierbei nicht mehr um ein lineares Gleichungssystem, da beispielsweise auch
das Produkt λv1 vorkommt. Insofern kommen wir hier auch mit dem Gauß’schen
Algorithmus nicht weiter. Daher wollen wir uns jetzt die Matrix
cos(α) − λ − sin α
A − λI =
sin α
cos(α) − λ
anschauen. Die Determinante dieser 2 × 2-Matrix lautet:
det(A − λI) = (cos(α) − λ)2 + sin2 α
= cos2 α − 2 cos(α)λ + λ2 + sin2 α
= 1 − 2 cos(α)λ + λ2
Damit diese Determinante verschwindet, müsste also gelten
λ2 + pλ + 1 = 0 .
mit p = −2 cos(α). Die Lösungen lauten
r
p
p
p2
− 1 = cos(α) ± cos2 (α) − 1 = cos(α) ± i sin α ,
λ = − ±
2
4
und sind damit komplexwertig, sofern sin α 6= 0. Dies ist der Fall für 0 < α < π. Es
gibt also - wie oben bereits behauptet - keine reellen Eigenwerte.
Definition 6.38 Zu einer quadratischen Matrix A ∈ Kn×n ist die Funktion PA :
K → K, definert durch
PA (t) := det(A − tI)
ein Polynom in t vom echten Grad n, also PA ∈ K[t]. Dieses wird charakteristisches
Polynom von A genannt.
6.5 Eigenwerte und Eigenvektoren
91
Beweis. Wir verwenden die Definition der Determinante und erhalten
PA (t) = p(t) + q(t),
mit der Aufspaltung in die Permutation σ = id und den übrigen Permutationen
p(t) :=
n
Y
(aii − t),
i=1
q(t) :=
X
sign(σ)
σ∈Sn \{id}
n
Y
(ai,σ(i) − δi,σ(i) t).
i=1
Hierbei bezeichnet δij das Kronecker-Symbol (= 1 für i = j, sonst = 0). Offensichtlich ist p ein Polynom vom echten Grad n. Die weiteren Terme, die in q zusammengefasst sind, sind Polynome in vom maximalen Grad n − 1, da mindestens ein
i 6= σ(i) gilt. Insgesamt erhalten wir ein Polynom vom echten Grad n und führendem
Koeffizienten (−1)n :
PA (t) = (−1)n tn + . . .
Der Beweis zeigt, dass das charakteristische Polynom sogar exakt vom Grad n ist,
und nicht etwa weniger. Als unmittelbare Folgerung erhalten wir somit eine Existenzaussage von Eigenwerten:
Korollar 6.39 Jede reelle Matrix A ∈ M at(n × n, R) mit ungeradem n hat mindestens einen reellen Eigenwert.
Beweis. Das charakteristische Polynom det(A − λI) hat einen ungeraden Grad
und damit mindestens eine reelle Nullstelle. Da diese Nullstelle ein Eigenwert ist,
folgt die Behauptung.
Korollar 6.40 Jede Matrix A ∈ M at(n × n, C) hat mindestens einen (komplexen)
Eigenwert und maximal n.
Beweis. Wir wissen bereits, dass jedes komplexe (und damit auch jedes reelle)
Polynom in n Linearfaktoren der Form
PA (t) = c(t − λ1 ) · . . . · (t − λn )
mit komplexen Nullstellen λi ∈ C zerfällt. Diese λi sind nach Satz 6.37 automatisch
Eigenwerte der Matrix A. Somit erhalten wir maximal n Eigenwerte. Da aber ein
oder mehrere der λi identisch sein können, können wir höchstens die Existenz eines
Eigenwertes sichern.
Dass wir tatsächlich niemals mehr als n Eigenwerte finden, wird durch folgenden
Satz untermauert.
92
M. Braack - Lineare Abbildungen
Satz 6.41 Eigenvektoren zu verschiedenen Eigenwerten einer Matrix sind stets linear unabhängig.
Beweis. Der Beweis wird per Induktion nach m geführt. Für m = 1 ist nichts
weiter zu zeigen, denn Eigenvektoren sind per Definition niemals Nullvektoren. Wir
nehmen also an, die Behauptung sei für m − 1 gezeigt. Wir nehmen die Existenz von
m verschiedenen Eigenwerten λ1 , . . . , λm mit zugehörigen Eigenvektoren v1 , . . . , vm
an. Nun suchen wir Koeffizienten α1 , . . . , αm mit:
0 =
m
X
αi v i .
(6.4)
αi λm vi .
(6.5)
i=1
Multiplikation beider Seiten mit λm ergibt:
0 =
m
X
i=1
Wenden wir hingegen A auf beiden Seiten von (6.4) an, so erhält man:
0 =
m
X
αi Avi =
i=1
m
X
αi λi vi .
(6.6)
i=1
Subtraktion von (6.5) und (6.6) ergibt:
0 =
m
X
αi (λm − λi )vi =
i=1
m−1
X
αi (λm − λi )vi .
i=1
Aufgrund der Induktionsannahme sind v1 , . . . , vm−1 linear unabhängig. Folglich gilt
αi (λm − λi ) = 0 ∀i = 1, . . . , m − 1.
Nun gilt aber λm − λi 6= 0, so dass aufgrund der Induktionsannahme α1 = . . . =
αm−1 = 0 gelten muss. Letztendlich folgt dann aber noch 0 = αm vm , bzw. αm = 0,
da die Eigenvektoren niemals die Nullvektoren sein können.
Definition 6.42 Zwei Matrizen A, B ∈ M at(n × n, K) heißen ähnlich, wenn ein
S ∈ GL(n, K) existiert mit:
B = S −1 AS .
Man überlegt sich schnell, dass hierdurch eine Äquivalenzrelation definiert ist.
6.5 Eigenwerte und Eigenvektoren
93
Definition 6.43 Eine Matrix A ∈ M at(n × n, K) heißt diagonalisierbar, wenn
sie ähnlich ist zu einer Diagonalmatrix.
Den Zusammenhang zu Eigenwerten liefert folgender Satz:
Satz 6.44 Sei A ∈ M at(n × n, K) mit Eigenvektoren v1 , . . . , vn ∈ Kn und (nicht
notwendigerweise verschiedener) Eigenwerte λ1 , . . . , λn ∈ K. Wenn B = {v1 , . . . , vn }
eine Basis des Kn ist, so ist A diagonalisierbar; genauer:


λ1


...
∃S ∈ GL(n, K) mit S −1 AS = 
.
λn
Die Spaltenvektoren der Transformationsmatrix S sind gerade die Vektoren vi .
Beweis. Da B eine Basis des Kn ist, existiert genau eine lineare Abbildung S ∈
Kn×n mit vi = Sei . Da die vi linear unabhängig sind, ist S invertierbar, also S ∈
GL(n, K). Wir setzen B = S −1 AS. Nun gilt:
Bei = S −1 ASei = S −1 Avi = S −1 λi vi = S −1 λi Sei = λi S −1 Sei = λi ei .
Also hat B die obige Diagonalstruktur.
Diese Struktur wird auch im folgenden kommutativen Diagramm wiedergegeben:
vi
A
−→
↓ S −1
S↑
ei
λi vi
S −1 AS
−→
λi e i
Beispiel: Die 2 × 2-Matrix
2
0
6 −1
hat die Eigenwerte λ1 = −1 und λ2 = 2 mit zugehörigen Eigenvektoren v1 = (0, 1)T
und v2 = (1, 2)T . Da diese linear unabhängig sind, gilt
−1 0 1
2
0
0 1
−1 0
=
.
1 2
6 −1
1 2
0 2
Lemma 6.45 Ähnliche Matrizen besitzen stets die gleiche Determinante.
Beweis. Aufgrund des Determinanten-Multiplikationssatzes 6.31 und Korollar
6.32 gilt:
det(S −1 AS) = det(S −1 ) · det(A) · det(S)
= det(S)−1 · det(A) · det(S) = det(A).
94
M. Braack - Lineare Abbildungen
6.6
Skalarprodukt und orthogonale Matrizen
Da wir uns hinreichend mit Vektoren beschäftigt haben, müssen wir nicht mehr in
der Schreibweise zwischen Vektoren und Skalaren unterscheiden. Wir werden daher
von nun an die Vektoren nicht mehr in fett schreiben.
6.6.1
Skalarprodukt
Definition 6.46 Sei V ein K-Vektorraum. Dann heißt eine Abbildung a : V × V →
K Bilinearform, wenn gilt:
a(v1 + v2 , w) = a(v1 , w) + a(v2 , w)
∀v1 , v2 , w ∈ V
a(v, w1 + w2 ) = a(v, w1 ) + a(v, w2 )
∀v, w1 , w2 ∈ V
∀v ∈ V , ∀λ ∈ K .
a(λv, w) = a(v, λw) = λa(v, w)
Sie heißt symmetrisch, wenn außerdem gilt:
a(v, w) = a(w, v)
∀v, w ∈ V .
Eine symmetrische Bilinearform h·, ·i : V × V → R heißt positiv definit, wenn
hv, vi > 0
∀v ∈ V \ {0}.
Diese wird dann auch Skalarprodukt genannt.
Beispiele:
1. Das Euklidische Skalarprodukt für V = Rn :
T
hv, wi = v w =
n
X
vi wi
i=1
2. Im Falle vom Funktionenraum V = C(a, b):
Z
hf, gi =
b
f (x)g(x) dx
a
6.6 Skalarprodukt und orthogonale Matrizen
95
Im Fall K = C werden von einem Skalarprodukt modifizierte Regeln gefordert,
nämlich für alle v1 , v2 , v, w1 , w2 , w ∈ V und alle λ ∈ C:
hv1 + v2 , wi = hv1 , wi + hv2 , wi
hv, w1 + w2 i = hv, w1 i + hv, w2 i
hλv, wi = λhv, wi
hv, λwi = λhv, wi
hv, wi = hw, vi
hv, vi > 0
∀v ∈ V \ {0} .
Ein Skalarprodukt in C nennt man auch eine positive definite Hermitesche Form.
Definition 6.47 Ein Vektorraum V auf dem ein Skalarprodukt h·, ·i definiert ist
heißt (a) im Fall K = R euklidischer Vektorraum, und (b) im Fall K = C
unitärer Vektorraum.
Lemma 6.48 Seien v, w ∈ Rn , n ∈ {2, 3}, mit einem Winkel 0 ≤ α ≤ 180◦ zwischen diesen beiden Vektoren. Dann gilt für
pdas euklidische Skalarprodukt h·, ·i und
der sogenannten euklidischen Norm ||v|| = v12 + v22 :
hv, wi = ||v|| ||w|| cos α .
Beweis. Wir setzen zunächst ||v|| = ||w|| = 1 sowie 0 ≤ α < 90◦ voraus. Für diesen
Spezialfall zeigen wir nun:
hv, wi = cos α .
Es gilt nach dem Satz von Pythagoras:
(1 − cos α)2 + sin2 α = ||v − w||2 =
n
n
X
X
(vi − wi )2 =
(vi2 − 2vi wi + wi2 )
i=1
2
= ||v|| − 2hv, wi + ||w||
i=1
2
= 2 − 2hv, wi .
Multiplizieren wir auch die rechte Seite aus, erhält man:
−2 cos α + cos2 α + sin2 α = 1 − 2hv, wi
Da außerdem gilt cos2 α + sin2 α = 1 ergibt sich hieraus:
−2 cos α = −2hv, wi ,
96
M. Braack - Lineare Abbildungen
was die Behauptung impliziert. Die Fälle ||v|| = 0 oder ||w|| = 0 sind unmittelbar
evident. Der allgemeine Fall ||v|| =
6 0 und ||w|| =
6 0 lässt sich nun auf den ersten Fall
zurückführen:
hv, wi = ||v|| ||w|| hv/||v||, w/||w||i = ||v|| ||w|| cos α .
Der Fall α ≥ 90◦ ergibt sich entsprechend.
6.6.2
Anwendungsbeispiel
Dieses Beispiel ist aus [7]. Wir sehen auf dem Computerbildschirm eine Linie zwischen den beiden Punkten v1 und v2 . Diese können als Vektoren des V = R2 aufgefaßt werden: v1 , v2 ∈ V . Mit der Maus wollen wir diese nun markieren indem
wir auf die Linie oder etwa in ihre Nähe klicken. Diesen Punkt benennen wir mit
m ∈ V . Der Computer muß nun entscheiden, ob m nah genug an der Linie liegt.
Dieser Tolerenzbereich T ⊂ R2 ist in Abb. 6.2 als grauer Bereich gekennzeichnet.
Wie entscheiden wir nun, ob m ∈ T ?
Wir stellen T dar als Schnittmenge zweier Bereiche T1 und T2 . Nun gilt:
m ∈ T ⇔ (m ∈ T1 ) ∧ (m ∈ T2 ) .
Ob m ∈ T1 gilt, kann man auch folgerdermaßen formulieren:
π
m ∈ T1 ⇔ 0 ≤ α, β <
2
⇔ cos α, cos β > 0
Da mit u = v2 − v1 gilt
hu, m − v1 i = ||u|| ||m − v1 || cos α ,
h−u, m − v2 i = ||u|| ||m − v2 || cos β ,
L
eps
v2
v1
m
Abbildung 6.2: Liegt der Punkt m in der straffierten Fläche ?
6.6 Skalarprodukt und orthogonale Matrizen
97
erhalten wir:
m ∈ T1 ⇔
hu, m − v1 i > 0 ∧ h−u, m − v2 i > 0
Die Entscheidung ob m ∈ T2 gilt, lässt sich zurückführen auf die Frage, ob die Fläche
des Parallelograms in Abb. 6.2 kleiner ist als die halbe dunkle Fläche:
m ∈ T2 ⇔ F (P arallelogramm) < L
Diese Fläche ist aber gerade gegeben durch die Determinante der Matrix, deren
Zeilenvektoren u und m − v1 sind. Daher gilt:
u
< L
m ∈ T2 ⇔ det
m − v1 Insgesamt erhalten wir somit:
m∈T ⇔
hu, m − v1 i > 0
∧ h−u, m − v2 i > 0
u < L
∧ det
m − v1 98
M. Braack - Lineare Abbildungen
Kapitel 7
Folgen und Grenzwerte
7.1
Metrische Räume
Zunächst führen wir den Begriff einer Metrik ein. Dies ist die abstrakte Form eines
Abstandsbegriffes. In einer Menge, auf der eine Metrik definiert ist, können also
“Abstände” zwischen Elementen der Menge formuliert werden.
Definition 7.1 Sei X eine Menge. Eine Abbildung d : X × X → R+
0 heißt Metrik
auf X, wenn:
(M1) d(x, y) = 0 ⇐⇒ x = y.
(M2) (Symmetrie) Für alle x, y ∈ X gilt d(x, y) = d(y, x).
(M3) (Dreiecksungleichung) Für alle x, y, z ∈ X gilt d(x, z) ≤ d(x, y) + d(y, z).
Das Paar (X, d) heißt dann metrischer Raum.
Beispiele:
1. Auf X = R erfüllt der Absolutbetrag | · | die Kriterien einer Metrik indem man
setzt
d(x, y) := |x − y|.
2. Auf der Menge M = R × R können mehrere Metriken definiert werden, z.B.
mit v = (x1 , y1 ), w = (x2 , y2 ):
p
(x1 − x2 )2 + (y1 − y2 )2
(Euklidische Metrik),
d2 (v, w) =
d∞ (v, w) = max{|x1 − x2 |, |y1 − y2 |}
d1 (v, w) = |x1 − x2 | + |y1 − y2 |
(Maximum-Metrik),
(l1 -Metrik) .
100
M. Braack - Folgen und Grenzwerte
3. In C hatten wir schon einen Betrag |·| definiert. Dieser kann auch dazu dienen,
eine Metrik in C zu formulieren:
d(z1 , z2 ) = |z1 − z2 | .
4. Auch bei der Binärdarstellung von Zahlen lassen sich Metriken definieren. In
M = {0, 1}n ist der “Hamming-Abstand” gegeben durch
d(a, b) :=
n
X
|ai − bi |,
für a, b ∈ M .
i=1
Dies ist gerade die Anzahl verschiedener Stellen von a und b.
Mit dem Abstandsbegriff können wir nun Kugeln um Punkte definieren:
Definition 7.2 In einem metrischen Raum (X, d) heißt zu x ∈ X und > 0 die
Menge
B (x) := {y ∈ X : d(x, y) < }
(offene) -Kugel um x mit Abstand bzgl. der Metrik d.
Beispiele: Wir wollen hier die Kugeln um den Nullpunkt zu den drei obigen Metriken
im R2 einmal grafisch veranschaulichen:
Abbildung 7.1: Kugeln um den Nullpunkt im R2 zur Euklidischen Metrik (links),
l1 -Metrik (mitte) und der Maximum-Metrik (rechts).
Definition 7.3 In einem metrischen Raum X heißt U ⊆ X Umgebung von x ∈
X, wenn ein > 0 existiert mit B (x) ⊆ U .
Insbesondere sind also die offenen Kugeln eines Punktes Umgebungen desselben.
7.1 Metrische Räume
101
Definition 7.4 Sei X ein metrischer Raum und M ⊆ X eine Teilmenge. Dann
heißt ein Punkt x ∈ M innerer Punkt von M , wenn eine Umgebung U von x
existiert, so dass U ⊆ M .
Beispiele: Die inneren Punkte der Kreisscheibe M1 = {(x, y) ∈ R : x2 +y 2 ≤ 1} ⊆ R2
sind all die, für die gilt x2 + y 2 < 1. Dagegen besitzt M2 = {(x, y) ∈ R : x2 + y 2 =
1} ⊆ R2 keine inneren Punkte.
Wir hatten schon den Begriff von offenen und abgeschlossenen Intervallen. Eine
Verallgemeinerung sind offene und abgeschlossene Mengen:
Definition 7.5 Eine Teilmenge M eines metrischen Raumes X heißt offen, wenn
sie nur innere Punkt besitzt. M heißt hingegen abgeschlossen, wenn das Komplement X \ M offen ist.
Beispiele:
1. Ein Intervalle [a, ∞) ⊂ R mit a ∈ R ist abgeschlossen, während (a, ∞) offen
ist.
2. Es gibt Mengen, die sowohl offen, als auch abgeschlossen sind. Dies sind beispielsweise der ganze Raum X und die leere Menge ∅.
3. Betrachten wir Q als Teilmenge des metrischen Raumes R (mit der Euklidischen Metrik), so ist diese Teilmenge weder offen noch abgeschlossen. Dies
liegt daran, dass in es in jeder beliebigen Umgebung eine Punktes x ∈ R stets
rationale sowie irrationale Punkte gibt.
Lemma 7.6 Beliebige (auch unendlich viele) Vereinigungen offener Mengen sind
wieder offen. Endliche Durchschnitte offener Mengen sind wieder offen.
Beweis. (i) Sei I eine nicht-leere Indexmenge und Ui . i ∈ I, offen. Zu untersuchen
ist
U =
[
Ui .
i∈I
Sei hierzu x ∈ U . Dann existiert k ∈ I mit x ∈ Uk ⊆ U . Hieraus folgt, dass U offen
ist.
(ii) Es genügt zu zeigen, dass mit U1 , U2 ⊆ X offen auch U1 ∩ U2 wieder offen ist.
Für x ∈ U1 ∩ U2 sei B1 (x) ⊆ U1 und B2 (x) ⊆ U2 . Dann folgt für = min{1 , 2 }:
x ∈ B (x) ⊆ U1 ∩ U2 .
102
M. Braack - Folgen und Grenzwerte
Also ist U1 ∩ U2 offen.
Bemerkung: Insbesondere ist zu bemerken, dass unendliche Durchschnitte offener
Mengen nicht notwendigerweise wieder offen sein müssen. Beispielsweise ist
∞ \
1 1
− ,
= {0}
n n
n=1
nicht offen, sondern abgeschlossen.
Lemma 7.7 Endliche Vereinigungen sowie beliebige (auch unendliche) Durchschnitte abgeschlossener Mengen sind wieder abgeschlossen.
Beweis. Seien A1 , A2 abgeschlossen. Dann sind die Komplemente U1 := AC
1 =
C
X \ A1 und U2 := A2 = X \ A2 offen. Nach Lemma 7.6 ist U1 ∩ U2 auch offen. Der
Satz von de Morgan liefert nun:
C C
A1 ∪ A2 = (AC
= X \ (U1 ∩ U2 ) .
1 ∩ A2 )
Da U1 ∩ U2 offen ist, ist folglich A1 ∪ A2 abgeschlossen. Für beliebige Durchschnitte
folgert man analog.
Mithilfe des Komplementes X \ M können wir nun auch Randpunkte definieren.
Dies sind Punkte, die sowohl M als auch X \ M beliebig nahe sind.
Definition 7.8 Ein Punkt x ∈ X heißt Randpunkt einer Menge M ⊆ X, wenn
für jede Umgebung U von x gilt:
U ∩ M 6= ∅
und
U ∩ (X \ M ) 6= ∅ .
Die Menge der Randpunkte von M bezeichnen wir mit ∂M .
Aufgrund dieser Definition ist klar, dass ein Randpunkt niemals ein innerer Punkt
sein kann. Andererseits muss ein Randpunkt x von M ⊆ X aber nicht notwendigerweise Element aus M sein. So sind z.B. die Punkte (x, y) ∈ R2 mit x2 + y 2 = 1
Randpunkte von M = {(x, y) ∈ R : x2 + y 2 < 1} ⊆ R2 .
Definition 7.9 Unter dem Abschluss M einer Menge M ⊆ X eines metrischen
Raumes verstehen wir die kleinste abgeschlossene Menge, die M enthält; d.h.
A abgeschlossen mit M ⊆ A ⊆ X =⇒ M ⊆ A .
Die Menge M heißt dann dicht in M .
7.1 Metrische Räume
103
Als Übungsaufgabe lassen wir folgende Charakterisierung des Abschlusses:
Lemma 7.10 Sei X ein metrischer Raum und M ⊆ X mit Rand ∂M . Dann gilt
für den Abschluss: M = M ∪ ∂M .
Beispiele: Der Abschluss eines offenen Intervalls (a, b) ⊂ R ist gerade das zugehörige
abgeschlossene Intervall [a, b].
Unter dem Begriff “dicht” versteht man also die Eigenschaft, dass man jeden
Punkt in M mit Punkten aus M beliebig nahe kommen kann.
7.1.1
Äquivalente Metriken
Wir hatten von offenen Mengen, abgeschlossenen Mengen und Randpunkten in metrischen Räumen gesprochen, insbesondere in Rd , d ∈ N. Nun sind diese Begriffe
aber zunächst einmal abhängig von der speziellen betrachteten Metrik. Da es in Rd
nicht nur eine Metrik gibt (sondern unendlich viele), stellt sich die Frage, ob die obige Begriffsbildung von der speziell betrachteten Metrik abhängt; ob also eine Menge
M ⊆ Rd bzgl. einer Metrik d1 (·, ·) offen ist und bzgl. einer anderen Metrik d2 (·, ·)
nicht.
Definition 7.11 In einem Raum X heißen zwei Metriken äquivalent, wenn sie
die gleichen offenen Mengen generieren.
Lemma 7.12 Zu zwei Metriken d1 , d2 auf X gebe es Konstanten c1 , c2 > 0 mit:
c1 d1 (x, y) ≤ d2 (x, y) ≤ c2 d1 (x, y)
∀x, y ∈ X .
Dann sind diese Metriken äquivalent.
eδ (x) die Kugeln
Beweis. Wir bezeichnen mit B (x) die Kugeln bzgl. d1 , und B
bzgl. d2 . Dann gilt mit δ := c2 :
eδ (x) .
y ∈ B (x) ⇐⇒ d1 (x, y) < =⇒ d2 (x, y) ≤ c2 d1 (x, y) < δ ⇐⇒ y ∈ B
eδ (x). Analog zeigt man B
eδ (x) ⊆ Bσ (x) mit σ := δ/c1 , so
Die bedeutet B (x) ⊆ B
dass man insgesamt die Inklusionen
eδ (x) ⊆ Bσ (x)
B (x) ⊆ B
erhält. Hieraus folgt nun, dass der Begriff “offene Menge” für beide Metriken der
gleiche ist.
104
M. Braack - Folgen und Grenzwerte
Beispiel: In Rd sind die Euklidische Metrik und die Maximum-Metrik äquivalent,
denn es gilt z.B. für d = 2:
√
1√ 2
a + b2 ≤ max{|a|, |b|} ≤ a2 + b2 .
2
Ebenso sind diese Metriken auch mit der l1 -Metrik äquivalent:
1
(|a| + |b|) ≤ max{|a|, |b|} ≤ |a| + |b| .
2
Für diejenigen, die den Begriff der Norm bereits kennen, geben wir folgendes Resultat an:
Satz 7.13 In Rd mit d ∈ N sind alle Metriken, die aus einer Norm k · k durch
d(x, y) = kx − yk resultieren, äquivalent.
Beweis. Wir verweisen auf Lehrbücher.
Im folgenden gehen wir im Rd für gewöhnlich von dem Begriff der offenen Mengen aus, der durch die Maximum-Metrik, die l1 -Metrik, bzw. durch die Euklidische
Metrik generiert werden; es sei denn wir nennen explizit eine andere Metrik.
7.2
Folgen
Definition 7.14 Eine Folge in einer Menge M ist eine Abbildung a : N → M ,
mit a(n) = an für n ∈ N. Wir bezeichnen solch eine Folge mit (an )n∈N , oder auch
kurz (an ). Wir schreiben (an )n∈N ⊆ M , um anzudeuten, dass die Folgenglieder in M
liegen.
Die Zahl n bezeichnet man in dieser Schreibweise als Index von a, während an das
n−te Glied der Folge ist.
Beispiele:
1. Die Folge a : N → R, an = (−1)n nimmt wechselweise die Werte −1 und 1 an.
Diese Folge ist somit periodisch.
2. Die komplexwertige Folge bn = in nimmt die Werte i, −1, −i, 1, i, −1, −i, 1, . . .
an und ist somit ebenfalls periodisch.
3. Bei der Folge b : N → R, bn = 1 + (−1)n n1 wird ausgehend vom Wert +1 der
Ausdruck 1/n abwechselnd addiert und subtrahiert.
Zu einer Folge macht es gelegentlich Sinn Teilfolgen zu betrachten:
7.2 Folgen
105
Definition 7.15 Sei (an )n∈N eine Folge und n1 , n2 , . . . eine streng monoton wachsende Folge natürlicher Zahlen: ni < ni+1 für alle i ∈ N. Dann heißt die Folge
an1 , an2 , an3 , . . .
Teilfolge von (an ).
So erhält man zwei interessante Teilfolgen von an =
bzw. die ungeraden Glieder betrachtet.
7.2.1
(−1)n
n
indem man nur die geraden
Konvergente Folgen in metrischen Räumen
Bei Folgen in metrischen Räumen macht es Sinn zu untersuchen, ob sich die Folge
einem gewissen Grenzwert nähert. Dies präzesiert die folgende Definition.
Definition 7.16 Eine Folge (an ) ⊆ X in einem metrischen Raum (X, d) heißt
konvergent gegen ein a ∈ X, wenn für eine beliebige Umgebung U von a gilt:
∃n0 ∈ N ∀n ≥ n0 :
an ∈ U .
In diesem Fall nennen wir a den Limes (oder Grenzwert) der Folge und schreiben
lim an = a .
n→∞
Anderenfalls heißt die Folge divergent. Eine gegen Null konvergente Folge wird
Nullfolge genannt.
Die Bezeichnung konvergent bezeichnet also Folgen, deren Folgenglieder beliebig
nahe einem festen Wert a kommen. Hierbei müssen die Folgenglieder bei jeder noch
so kleinen Umgebung U von a ab einem (von U abhängigen) Index alle in U liegen
und dürfen nicht wieder heraus treten.
Die Eigenschaft, ob eine Folge konvergent ist oder nicht, hängt nur davon ab,
wie sich die Folge für beliebig große Indizes verhält. Insbesondere ändert sich das
Konvergenzverhalten nicht, wenn man endlich viele Folgenglieder ändert (und seien
es die ersten 10 Millionen.) Es gilt auch für konvergente Folgen:
lim an =
n→∞
lim an+k
n→∞
für beliebiges aber festes k ∈ N.
Lemma 7.17 Für eine Folge (an ) in einem metrischen Raum (X, d) gilt limn→∞ an =
a ∈ X, genau dann wenn:
∀ > 0 ∃n0 ∈ N ∀n ≥ n0 :
d(an , a) < .
106
M. Braack - Folgen und Grenzwerte
Beweis. ⇒: Sei > 0 vorgegeben. Dann gilt für U := B (a) und einem geeigneten
n0 ∈ N: an ∈ U . Dies bedeutet aber gerade d(an , a) < .
⇐: Nun sei eine beliebige Umgebung U von a vorgegeben. Dann existiert ein > 0
mit B (a) ⊂ U . Aufgrund der Annahme gilt mit geeignetem n0 ∈ N für alle n ≥ n0 :
an ∈ B (a) ⊂ U .
Lemma 7.18 Der Grenzwert einer konvergenten Folge ist eindeutig.
Beweis. Wir nehmen an, dass die Folge (an ) zwei Grenzwerte a, ã besitze. Um
zu zeigen, dass a = ã gelten muss, schauen wir uns die Distanz an. Es gilt aufgrund
der Dreiecksungleichung für beliebiges n ∈ N:
d(a, ã) ≤ d(a, an ) + d(an , ã).
Zu beliebigem > 0 findet sich ein n0 ∈ N, so dass
d(a, an ) ≤
und d(an , ã) ≤
2
2
∀n ≥ n0 .
Damit folgt d(a, ã) < für beliebiges > 0, also d(a, ã) = 0. Aufgrund der Definitheit
der Metrik folgt a = ã.
Etwas schwächer als ein Limes ist der Begriff des Häufungspunktes.
Definition 7.19 Ein Punkt a ∈ X heißt Häufungspunkt einer Folge (an )n∈N ⊆
X in einem metrischen Raum X, wenn eine Teilfolge (ank )k∈N ⊆ X existiert, die
gegen a konvergiert.
Bemerkungen: Eine Folge kann u.U. mehrere Häufungspunkte besitzen. Andererseits
ist jeder Limes einer Folge automatisch Häufungspunkt.
7.2.2
Cauchy-Folgen
Definition 7.20 Eine Folge (an )n∈N ⊆ X in einem metrischen Raum (X, d) heißt
Cauchy-Folge, wenn
∀ > 0 ∃n0 ∈ N ∀n, m ≥ n0 :
d(an , am ) < .
Satz 7.21 Jede konvergente Folge ist eine Cauchy-Folge.
Beweis. Sei > 0 vorgegeben. Dann existiert ein n0 ∈ N so dass für n ≥ n0 gilt
d(an , a) < 2 . Hieraus folgt nun für n, m ≥ n0 :
d(an , am ) ≤ d(an , a) + d(a, am ) <
+
= .
2 2
7.2 Folgen
107
Beispiel: Hieraus erhält man unmittelbar die Divergenz der alternierenden Folge
an = (−1)n , denn wegen |an − an+1 | = 2 ist dies keine Cauchy-Folge und damit auch
nicht konvergent.
7.2.3
Folgen in angeordneten Körpern
Bei Folgen in angeordneten Körpern K (also z.B. in Q oder R können) wir Folgenglieder und deren evtl. Grenzwerte bzgl. der Größe miteinander vergleichen. Wir
gehen hier immer davon aus, dass wir auf K auch eine Metrik definiert haben, die
durch
d(a, b) := |a − b|
definiert ist. Hierbei ist der Betrag in einem angeordneten Körper K mit Positivbereich P definiert als |a| := a, wenn a ∈ P und |a| := −a, sonst.
Definition 7.22 Für eine Folge (an ) eines angeordneten Körpers übertragen sich
die Begriffe nach oben beschränkt und nach unten beschränkt von denen der
Menge M := {an : n ∈ N}. Die Folge heißt monoton wachsend, wenn an+1 ≥ an ,
bzw. monoton fallend, wenn an+1 ≤ an , für alle n ∈ N.
Hieraus folgt unmittelbar, dass Folgen in K genau dann beschränkt sind, wenn ein
R > 0 existiert, so dass an ∈ BR (0) für alle n ∈ N.
Lemma 7.23 Jede konvergente Folge in einem angeordneten Körper ist beschränkt.
Beweis. Wir bezeichnen die Folge mit (an ) und ihren Limes mit a. Es existiert
ein n0 ∈ N mit:
d(an , a) = |an − a| < 1
∀n ≥ n0 .
Dann sind eine obere Schranke M und eine untere Schranke m der Folge gegeben
durch
M := max{a1 , . . . , an0 , a + 1} ,
m := min{a1 , . . . , an0 , a − 1} .
Lemma 7.24 Sind (an ), (bn ) konvergente reelle Folgen mit an ≤ bn für alle n ≥ n0 ,
so gilt limn→∞ an ≤ limn→∞ bn .
108
M. Braack - Folgen und Grenzwerte
Beweis. Übungsaufgabe.
Beispiel: Auch wenn für die einzelnen Folgenglieder gilt an < bn , so kann für die
1
und bn = n1
Grenzwerte a, b auch gelten a = b. Dies ist z.B. bei den Folgen an = n+1
der Fall. Beide Grenzwerte sind Null.
Ferner ist in angeordneten Körpern der Fall möglich, dass die Folgenglieder beliebig groß werden:
Definition 7.25 Eine Folge (an ) in einem angeordneten Körper heißt bestimmt
divergent gegen ∞, wenn ∀M ∈ N ∃n0 ∈ N ∀n ≥ n0 : an ≥ M , in Zeichen
limn→∞ an = ∞.
Sie heißt bestimmt divergent gegen −∞, wenn limn→∞ (−an ) = ∞.
7.2.4
Folgen reeller Zahlen
Wenn wir von Folgen in R sprechen, gehen wir von dem Begriff der offenen Mengen
aus, der (genauso wie im letzten Abschnitt) durch die Metrik d(x, y) = |x − y|
erzeugt wird. Zunächst wollen wir das Konvergenzkriterium für reelle Zahlen etwas
anders formulieren.
Lemma 7.26 Eine Folge (an ) reeller Zahlen konvergiert genau dann, wenn gilt:
∀ > 0 ∃n0 ∈ N ∀n ≥ n0 :
|an − a| < .
Beweis. Dies ist eine unmittelbare Umformulierung von Lemma 7.17.
Beispiele von konvergenten Folgen in R sind:
(i)
(ii)
(iii)
an =
1
,
n
lim an = 0 ,
n→∞
1
an = (−1)n , lim an = 0 ,
n→∞
n
2
3n + 2n
an =
, lim an = 1 .
n→∞
3n2 + 1
Divergent sind hingegen:
(iv)
(v)
n2 + 1
n2
, da an ≥
= n → ∞,
n
n
an = (−1)n , da alternierend die Werte 1 und − 1
an =
angenommen werden.
7.2 Folgen
109
Lemma 7.27 Die Summe und das Produkt konvergenter reeller Folgen ist wieder
konvergent, d.h. sind die reellen Zahlenfolgen (an ), (bn ) konvergent, so folgt
lim (an ± bn ) = ( lim an ) ± ( lim bn ) ,
n→∞
n→∞
n→∞
lim (an bn ) = ( lim an )( lim bn ) .
n→∞
n→∞
n→∞
Ist ferner b = limn→∞ bn 6= 0, so ist auch die Folge (an /bn ) ab einem gewissen
n ≥ n0 wohldefiniert und konvergent mit Grenzwert (limn→∞ an )/b.
Beweis. (i) Sei > 0 vorgegeben. Dann existieren na , nb ∈ N mit:
2
|bn − b| ≤
2
|an − a| ≤
∀n ≥ na ,
∀n ≥ nb .
Wir folgern mit der Dreiecksungleichung für n ≥ max{na , nb }:
|(an + bn ) − (a + b)| ≤ |an − a| + |bn − b| <
+ = .
2 2
Für die Folge an − bn folgert man entsprechend.
(ii) Wieder sei > 0 vorgegeben. Da jede konvergente Folge beschränkt ist, existiert
ein M > 0 und ein n0 ∈ N mit |b| ≤ M und |an | ≤ M sofern n ≥ n0 . Es gilt dann
für n ≥ n0 :
|an bn − ab| = |an (bn − b) + (an − a)b|
≤ |an (bn − b)| + |(an − a)b|
≤ |an | |bn − b| + |an − a| |b|
≤ M (|bn − b| + |an − a|) .
Wählen wir ferner n1 ∈ N so groß, dass |an − a| ≤ /M und |bn − b| ≤ /M für
n ≥ n1 so folgt für n ≥ max{n0 , n1 }:
|an bn − ab| ≤ .
Lemma 7.28 Sei (an ) eine konvergente reelle Folge mit a = lim an . Dann gelten:
(a) Für beliebiges λ ∈ R ist (λan )n∈N konvergent mit limn→∞ (λan ) = λa.
(b) (|an |)n∈N ist konvergent mit limn→∞ |an | = |a|.
110
M. Braack - Folgen und Grenzwerte
Beweis. (a) ist eine direkte Folgerung aus Lemma 7.27, wenn man die konstante
(und damit automatisch konvergente) Folge bn = λ betrachtet.
(b) Hier unterscheiden wir verschiedene Fälle. Im Fall a > 0 wird gelten an > 0
für alle n ≥ n0 . Dies ist eine unmittelbare Folgerung aus der Konvergenz gegen a.
Nun folgt |an | = an und |a| = a, woraus sich die Behauptung ergibt. Im Fall a < 0
schliesst man analog |an | = −an für n ≥ n0 und
|a| = −a. Der dritte Fall a = 0
beweist sich durch die Beobachtung |an | − |a| = |an | = |an − 0| → 0.
Definition 7.29 (Vollständigkeitsaxiom) In R konvergiert jede Cauchy-Folge.
Dies ist keine Aussage, die man beweisen kann. Vielmehr ist dies als Definition der
reellen Zahlen zu verstehen. Im Grunde kann man die reellen Zahlen auffassen als
Äquivalenzklassen von Cauchyfolgen in Q. Hierbei identifiziert man zwei Cauchyfolgen (an )n∈N , (bn )n∈N ⊆ Q miteinander, wenn die Folge der Differenzen eine Nullfolge
darstellt: limn→∞ (an − bn ) = 0. Beispielsweise kann man die konstante Folge an = 1
mit der Folge bn = 1 − 10−n miteinander identifizieren.
Satz 7.30 (Bolzano-Weierstraß) Jede beschränkte Folge reeller Zahlen besitzt
(mindestens) einen Häufungspunkt.
Beweis. Aufgrund der Beschränktheit der Folge existieren m, M ∈ R, so dass
an ∈ I0 := [m, M ] für alle n ∈ N. Nun konstruieren wir per Intervallschachtelung
eine Folge von Intervallen In = [mn , Mn ] mit folgenden Eigenschaften:
• In In liegen unendlich viele Folgenglieder von (an ),
• In+1 ⊂ In ,
• Mn − mn = 2−n (M − m).
Diese Intervalle erhält man durch jeweiliges Ermitteln des Mittelpunktes x = (mn +
Mn )/2 und der Betrachtung von In− = [mn , x] und In+ = [x, Mn ]. In mindestens
eines der beiden Teilintervalle In− oder In+ müssen unendlich viele Folgenglieder von
(an ) liegen. Dieses wählt man dann als nachfolgendes Intervall, also In+1 = In− oder
In+1 = In+ . Hierdurch sind offensichtlich die drei obigen Bedingungen erfüllt.
Nun wählen wir eine Teilfolge (ank ) von (an ) indem wir jeweils ein ank ∈ Ik wählen
mit nk > nk−1 . Dies ist möglich, da in Ik unendlich viele Glieder liegen.
Die so konstruierte Teilfolge ist eine Cauchy-Folge, denn zu gegebenem > 0 wählen
wir n so groß, dass 2−n ≤ /(M − m). Es folgt für k, l ≥ n da ank , anl ∈ In :
|ank − anl | < Mn − mn = 2−n (M − m) ≤ .
7.2 Folgen
111
Also handelt es sich um eine Cauchy-Folge. Da in R jede Cauchy-Folge konvergiert,
erhalten wir die Behauptung.
Als Folgerung aus dem Satz von Bolzano-Weierstraß ergibt sich:
Korollar 7.31 Jede beschränkte monotone Folge reeller Zahlen konvergiert.
Beweis. Aufgrund der Beschränktheit der Folge (an ) wissen wir, dass ein Häufungspunkt a ∈ R existiert. Wir zeigen nun noch, dass die Folge gegen a konvergiert. Sei
hierzu > 0 gegeben. Dann existiert ein k0 ∈ N mit |ank − a| < /2 sofern k ≥ k0 .
Nun nehmen wir zunächst an, dass die Ursprungsfolge monoton wachsend ist. Es
gilt ank ≤ a wegen Lemma 7.24. Für n ≥ nk0 existiert stets ein nk ∈ N mit n ≤ nk .
Daher folgt auch ank0 ≤ an ≤ ank ≤ a. Insgesamt erhält man nun:
|an − a| ≤ |an − ank0 | + |ank0 − a| ≤ 2|ank0 − a| < .
Für monoton fallende Folgen schließt man analog.
Bemerkung: Allerdings ist nicht jede durch Null nach unten beschränkte monoton
fallende Folge notwendigerweise eine Nullfolge. So ist beispielsweise an = 1 + n1
monoton fallend aber besitzt den Limes 1.
Genausowenig muss jede monoton wachsende Folge bestimmt gegen ∞ divergieren;
so konvergiert z.B. an = 1 − n1 gegen 1.
7.2.5
Folgen mit rationalen Elementen
Wir wollen hier kurz reelle Folgen betrachten, deren Elemente ak von der Form
ak =
p(k)
q(k)
(7.1)
mit Polynomen p, q ∈ Q[x] sind. Wir verwenden folgende Darstellung
p(x) =
m
X
i
ci x ,
i=0
q(x) =
n
X
d i xi
i=0
mit cm , dn 6= 0. Das Zählerpolynom ist also vom Grad deg(p) = m und das Nennerpolynom vom Grad deg(q) = n. Nun können folgende Fälle auftreten:
• m < n: Dann ist (an ) eine Nullfolge.
• m > n: In diesem Fall erhält man bestimmte Divergenz gegen ∞ oder gegen
−∞, je nach Vorzeichen von cm /dn .
112
M. Braack - Folgen und Grenzwerte
• m = n: Hier hat man wieder Konvergenz: limk→∞ ak = cm /dn .
Konvergente Folgen der Form (7.1) haben also ihren Limes (Null oder cm /dn ) in Q.
Diese Folgen konvergieren also auch als Folgen in Q. Es gibt aber andere Folgen in
Q, die sowohl beschränkt als auch monoton sind, und nicht in Q konvergieren. Sie
konvergieren aber dann gegen eine reelle Zahl.
Ein wenig komplizierter ist die Analyse von Folgen der Art
an =
cn
n!
oder an =
nc
,
n!
mit gegebenem c > 0. Da sowohl Zähler als auch Nenner (schnell) “gegen ∞ gehen”,
ist nicht so einfach zu sehen, ob der Quotonient nun konvergiert oder nicht. Hier
kann man probieren, die Glieder entweder nach oben abzuschätzen durch Ausdrücke
der Form:
an ≤
α
n
oder an ≤ βq n
(7.2)
mit α, β > 0 ,0 < q < 1, oder aber nach unten durch
an ≥ αn oder an ≥ βq n ,
(7.3)
mit q > 1. Im Fall (7.2) erhält man Konvergenz, während im Fall (7.3) bestimmte
Divergenz gegen +∞ vorliegt. Hierbei ist zu beachten, dass die Abschätzungen (7.2)
und (7.3) nur für n ≥ n0 benötigt wird, wobei n0 beliebig groß sein kann.
Beispiel: Die Glieder an = 10n /(n!) lassen sich für n ≥ 11 folgendermaßen
abschätzen:
(n−10)−mal
z }| {
10
10
10
10
=
=
·
···
n!
10! 11
n
n−10
10
10
10
≤
10! 11
10 n
1010 11
10
=
10! 10
11
n
an
10
Also gilt an ≤ βq n mit β = 1110 /(10!) und q = 10/11 < 1. Die Folge ist damit eine
Nullfolge.
Die Untersuchung von an = n10 /(n!) lassen wir als Übungsaufgabe.
7.2 Folgen
7.2.6
113
Folgen in C
Folgen (zn )n∈N mit komplexen Gliedern sind genau dann konvergent, z = limn→∞ zn ,
wenn die Folgen aus ihren Realteilen und Imaginärteilen konvergieren:
lim Re(zn ) = Re(z) ,
n→∞
lim Im(zn ) = Im(z) .
n→∞
Ferner gilt für den Betrag:
lim |zn | = |z| .
n→∞
7.2.7
Rekursiv definierte Folgen
Selbstverständlich können Folgen auch rekursiv definiert sein. Hierzu folgende Beispiele:
• Ein bekannter Vertreter ist die Fibonacci-Folge:
a0 := 0 ,
a1 := 1 ,
an+1 := an + an−1
für n > 1 .
Wegen an ≥ n für n ≥ 5 ist diese monoton wachsende Folge bestimmt divergent
gegen ∞.
Die Fibonacci Zahlen 0, 1, 1, 2, 3, 5, 8, 13, 21, 34 . . . treten in der Natur tatsächlich häufig auf. Beispielsweise bei der Schraubenlinienförmigen Anordnung von
Blättern mit Divergenzwinkel 0 < θ ≤ 360o . Die Periode sei n und m die
Anzahl von Umläufen:
nθ = 360o m
z.B: θ = 144o , n = 5, m = 2.
m n
1 2 einige Zwiebelpflanzen
1 3 Erle, Birke
2 5 Weiden, Rosen, Steinobst
3 8 Kohl, Astern, Habichtskraut
5 13 Nadeln von Nadelhölzer
8 21 Schuppen von Fichte- und Tannenzapfen
13 34 Schuppen von Pinienzapfen
114
M. Braack - Folgen und Grenzwerte
• Während die Fibonacci-Folge selbst divergiert, so konvergiert hingegen die
Folge der Quotienten:
an
gn :=
.
an−1
Wie man leicht nachprüft gilt die rekursive Beziehung
gn+1 = 1 +
1
.
gn
Daher muss auch für den Grenzwert (sofern existent)
an−1
n→∞ an
g = lim gn = 1 + lim
n→∞
folgende Fixpunktgleichung gelten:
g = 1+
1
.
g
Hieraus erhält man durch Umformen in eine quadratische Gleichung folgenden
Kandidaten für g:
g =
√
1
(1 + 5) = 1.618 . . . .
2
Dies ist der sogenannte goldene Schnitt. Selbstverständlich war dies kein mathematischer Beweis, sondern lediglich der Nachweis dafür, dass die gn entweder divergieren oder aber gegen den goldenen Schnitt konvergieren.
• Ein anderes Beispiel für eine rekursiv definierte Folge ist
b0 := 0
bn+1 := bn (1 + bn ) − 3 .
Die zugehörige Fixpunktgleichung
b = b(1 + b) − 3
√
wird von b = ± 3 erfüllt, obgleich die Folge (bn ) divergiert: b1 = −3, b2 = 3,
b3 = 9, b4 = 87, b5 = 7653, . . ..
√
• Zur Berechnung der Quadratwurzel c, c > 1, kann folgende rekursiv definierte Folge verwendet werden:
c
1
an +
.
an+1 =
2
an
7.2 Folgen
115
Der Startwert a1 ∈ Q ist so zu wählen, dass gilt:
0 < a1 ≤ c < a21 .
Man kann nun relativ einfach per Induktion zeigen, dass die Folge (an )n∈N
streng monoton fallend ist:
an+1
1
c
1
=
an 1 + 2
< an (1 + 1) = an .
2
an
2
Ferner kann man einfach sehen, dass für alle n ∈ N gilt: (Übungsaufgabe)
c < a2n+1 .
Die Folge ist also monoton fallend und sowohl nach oben als auch nach unten
beschränkt, 1 < an ≤ c. Also ist sie konvergent mit limn→∞ an = a. Für diesen
Grenzwert gilt außerdem aufgrund der rekursiven Konstruktionsvorschrift die
Fixpunktgleichung:
a =
c
1
a+
.
2
a
Hieraus folgt a2 = c, bzw.:
lim an =
n→∞
√
c.
Wir wollen dies einmal austesten für den Fall c = 2. Es ergibt sich für den
Startwert a1 = 2:
a2 = 1.5
a3 = 1.416 . . .
a4 = 1.414215 . . .
a5 = 1.414213561374 . . .
Grob gesprochen verdoppelt sich die Anzahl der gültigen Stellen (unterstrichen) in jeder Iteration. Ein solches Verhalten nennt man “quadratisch konvergent”. Im Grunde genommen führt diese Folge auf das sogenannte “Newton
Verfahren”.
116
7.2.8
M. Braack - Folgen und Grenzwerte
Landau-Symbole
Wir hatten schon das Symbol O(nk ) verwendet. Auch bei Folgen ist eine solche
Bezeichnung zum Vergleich von Folgen nützlich:
Definition 7.32 Sei (an ) eine Folge reeller Zahlen und f : N → R∗ eine Funktion.
Dann schreibt man an = O(f (n)) (sprich: “groß O von f (n)”), wenn die Folge
(an /f (n)) beschränkt ist. Gilt sogar, dass (an /f (n)) eine Nullfolge ist, so schreibt
man an = o(f (n)) (sprich: “klein o von f (n)”).
2
+1
Beispiele: Die Folge mit den Gliedern an = nn+4
verhält sich asymptotisch (für n
groß) wie die Funktion n 7→ n. Daher schreibt man:
n2 + 1
= O(n) .
n+4
Hierbei sieht man leicht, dass an /n = n+1/n
= 1 + −4+1/n
nach oben und unten
n+4
n+4
beschränkt ist durch ±1. Bei solchen Folgen mit rationalen Elementen (wie in Abschnitt 7.2.5) kommt es also nur auf die führenden Terme im Zähler und Nenner
an.
Selbstverständlich ist die Schreibweise an = O(f (n)) niemals eindeutig. Insbesondere kommt es bei f nicht auf Konstanten an. Ferner sind alle Terme niedrigerer Ordnung unwichtig. Man könnte im obigen Beispiel auch schreiben an = O(n + 1) oder
an = O(n/2). Genauso könnte man auch eine höhere Potenz wählen an = O(n2 ).
Dies ist mathematisch korrekt, aber im Grunde genommen verwirrend. Was hingegen nicht richtig ist, ist zu behaupten, dass sich obige Folge wie ln(n) verhält, also
an 6= O(ln(n)).
Typische Kandidaten für die Funktion f (n) sind zunächst Monome (also Potenzen von n) sowie ln(n):
O
Verhalten
1
konstant
ln(n)
logarithmisch
n
linear
n ln(n) n log(n)
n2
quadratisch
k
n
polynomial der Ordnung k
n
e
exponentiell
7.2 Folgen
117
Hierbei wird offensichtlich der Ausdruck für den natürlichen Logarithmus ln(n)
genauso verwendet wie der 10er Logarithmus log(n). Dies liegt daran, dass die Logarithmusfunktionen sich nur um eine multiplikative Konstante voneinander unterscheiden.
Das Auswerten eines Polynoms p ∈ R[x] vom Grad n an einem Punkt x ∈ R
benötigt über die (naive) Auswertung O(n2 ) Operationen und über das Horner
Schema O(n) Operationen, siehe Abschnitt 4.8.
118
M. Braack - Folgen und Grenzwerte
Kapitel 8
Reihen
Sei nun (an )n∈N eine Folge reeller oder komplexer Zahlen. Die Ausdrücke
sn =
n
X
ak
k=1
werden Partialsummen genannt. Auch diese Partialsummen bilden wieder eine
Folge, (sn )n∈N .
Definition 8.1 Sei (an )n∈N eine Folge reeller oder komplexer Zahlen. Dann heißt
P
die Folge der Partialsummen (sn )n∈N die zugeordnete Reihe. Diese wird mit ∞
n=1 an
bezeichnet. Wenn diese Reihe konvergiert, so wird auch der Grenzwert mit s∞ =
P∞
n=1 an bezeichnet.
Wir müssen also aufpassen, ob wir mit der obigen Notation nur die Reihe bezeichnen
wollen, oder aber ihren Limes. Um die Konvergenz einer Reihe anzudeuten, schreiben
wir
∞
X
an < ∞.
n=1
Hierbei ist der Ausdruck < ∞ nicht im Sinne von “kleiner” zu verstehen, sondern
nur als symbolische Schreibweise dafür, dass der Grenzwert existiert. Beispielsweise
ist für die Reihe, die sich aus den Folgengliedern an = −1 für alle n ∈ N ergibt, diese
Schreibweise nicht zulässig, obgleich alle Partialsummen negativ sind. Im Falle einer
komplexen Folge ist die Symbolik < ∞ ebenfalls nur zu verstehen als Konvergenz
der Reihe. Wir bemerken hier nocheinmal, dass der Körper C nicht angeordnet ist,
so dass der “Kleiner Operator” < im herkömmlichen Sinne gar nicht definiert ist.
Zunächst geben wir eine notwendige Bedingung für die Konvergenz der Reihe
an:
120
M. Braack - Reihen
P
Lemma 8.2 Für eine konvergente Reihe ∞
n=1 an gilt:
(i) Die zugeordnete Folge (an )n∈N ist eine Nullfolge, und
(ii) die Partialsummen sind beschränkt.
Beweis. Da jede konvergente Folge eine Cauchy-Folge ist, muss auch die Folge der
(sn ) eine Cauchy-Folge sein. Zu gegebenem > 0 muss daher ein n0 ∈ N existieren,
so dass für n ≥ n0 insbesondere gilt:
> |sn+1 − sn | = |an | = |an − 0| .
Dies besagt aber gerade, dass limn→∞ an = 0. Ferner müssen die Partialsummen
beschränkt sein, da jede konvergente Folge notwendigerweise beschränkt ist (Lemma 7.23).
P
Lemma 8.3 Eine Reihe ∞
n=1 an , die sich aus einer Folge nicht-negativer (nichtpositiver) Glieder an ≥ 0 ∀n ∈ N (an ≤ 0 ∀n ∈ N) ergibt, ist in R konvergent, wenn
ihre Partialsummen beschränkt sind.
Beweis. Dies folgt unmittelbar aus der Tatsache, dass aufgrund des Vorzeichens
der an die Folge der sn dann monoton wächst (monoton fällt) und dem Corollar 7.31.
Lemma 8.4 Linearkombinationen konvergenter Reihen sind wieder konvergent. Insbesondere gilt für α, β ∈ R, C:
!
!
∞
∞
∞
X
X
X
bn .
(αan + βbn ) = α
an + β
n=1
n=1
n=1
Beweis. Dies ist eine unmittelbare Folgerung aus der Konvergenz von Summen
und Skalierungen konvergenter Folgen (Satz 7.27 und 7.28).
Ferner ergibt sich unmittelbar aus Abschnitt 7.2.6.
P∞
Lemma 8.5 Eine komplexe Reihe
n=1 zn ist genau dann konvergent, wenn die
zugehörigen Reihen ihrer Realteile und ihrer Imaginärteile konvergiert. Insbesondere
gilt:
!
!
∞
∞
∞
X
X
X
zn =
Re zn + i
Im zn .
n=1
n=1
n=1
Wir hatten als notwendiges Kriterium der Reihenkonvergenz, dass die zugrunde
liegende Folge eine Nullfolge ist (Lemma 8.2). Dass dies aber keine hinreichende
Bedingung ist, zeigt der folgende Abschnitt.
8.1 Harmonische Reihe
8.1
121
Harmonische Reihe
Eine sehr häufig auftretene Reihe bildet sich aus der Folge an = n1 :
∞
X
1
.
n
n=1
Diese wird harmonische Reihe genannt.
Lemma 8.6 Die harmonische Reihe divergiert bestimmt gegen ∞.
Beweis. Da alle an positiv sind, ist die Folge der Partialsummen monoton wachsend. Daher genügt es zu zeigen, dass die Folge nach oben unbeschränkt ist. Zu
beliebigem M ∈ N muss also ein n ∈ N gefunden werden, mit
sn =
n
X
1
k=1
k
≥ M.
Dass dies möglich ist, sieht man folgendermaßen:
1 1 1
1 1 1
+ + + ... + + + + ...
2 3 4
7 8 9
1 1 1 1
1
1
1
≥ 1 + + + + + ... + +
+
+ ...+
2 |4 {z 4} |8
8} |16 16
{z
{z
}
sn = 1 +
=1/2
= 1+
=1/2
=1/2
1 1
+ + ... ≥ M ,
2 2
sofern n ≥ 2M +2 .
Eine Verallgemeinerung der harmonischen Reihe ist gegeben durch
∞
X
1
,
ns
n=1
mit einer natürlichen Zahl s. Im Fall s = 1 erhält man die divergente harmonische
Reihe. Für s ≥ 2 ist die Reihe aber konvergent. Insbesondere gilt im Fall s = 2:
∞
X
1
π2
=
.
n2
6
n=1
Dies lässt sich beispielsweise mit der Theorie der sogenannten Fourierreihen zeigen.
122
8.2
M. Braack - Reihen
Geometrische Reihe
Die geometrische Reihe lautet mit q ∈ C:
∞
X
qk .
k=0
Man beachte, dass die Summe bei k = 0 beginnt.
Lemma 8.7 Für die Partialsummen der geometrischen Reihe mit q ∈ C \ {1} gilt:
sn =
n
X
qk =
k=0
1 − q n+1
.
1−q
Für |q| ≥ 1 ist die Reihe divergent (im Fall q ≥ 1 sogar bestimmt gegen ∞), und für
0 ≤ |q| < 1 ist sie konvergent mit
∞
X
qk =
k=0
1
.
1−q
Beweis. Wir zeigen zunächst die Gültigkeit der Formel für die Partialsummen per
Induktion nach n. Für n = 0 ist die Formel trivial. Als Induktionsschritt n − 1 → n
ergibt sich:
sn = sn−1 + q n =
1 − qn
1 − q n + q n − q n+1
1 − q n+1
+ qn =
=
.
1−q
1−q
1−q
Die Divergenz der Reihe für |q| > 1 folgt aus der Beobachtung, dass die Folge
(q n )n∈N keine Nullfolge darstellt. Die Konvergenz für 0 ≤ |q| < 1 ergibt sich hingegen
unmittelbar aus der Formel für die Partialsummen, da q n+1 → 0 (n → ∞).
Beispiel: Die geometrische Reihe tritt u.a. bei der Berechnung von Zinsen auf:
Möchte man jährlich (zum Jahresbeginn) einen festen Betrag b zu einem jährlichen
Zinssatz z (mit Zinseszins) anlegen, so entwickelt sich das Guthaben in den folgenden
Jahren folgendermaßen (q = 1 + z):
K1 = bq ,
K2 = (K1 + b)q = b(q 2 + q) ,
K3 = (K2 + b)q = b(q 3 + q 2 + q) ,
..
.
n
X
q − q n+1
1 − q n+1
k
−1 = b
.
Kn = (Kn−1 + b)q = b
q = b
1−q
1−q
k=1
Bei beispielsweise 5% Zinsen rechnet man mit q = 1.05.
8.3 Die Eulersche Zahl e
8.3
123
Die Eulersche Zahl e
Durch das Resultat, dass die geometrische Reihe für q = 1/2 konvergiert können wir
die Konvergenz einer weiteren Reihe beweisen:
Lemma 8.8 Die Reihe, die sich aus der Folge an = 1/n! ergibt, ist konvergent. Ihr
Grenzwert wird Eulersche Zahl e genannt:
e =
∞
X
1
.
n!
n=0
Bemerkung: Zu beachten ist, dass auch hier der Laufindex n bei Null beginnt. Die
Eulersche Zahl ist eine irrationale Zahl, also nicht als Bruch darstellbar und besitzt
eine unendliche Dezimalentwicklung, die nicht periodisch wird. Die führenden Ziffern
dieser Zahl sind e = 2.718281828 . . ..
Beweis. Da 1/n! stets positiv ist, genügt es für den Nachweis der Konvergenz zu
zeigen, dass die Partialsummen nach oben beschränkt sind (Lemma 8.3). Man sieht
schnell, dass für jede natürliche Zahl k ≥ 1 gilt 2k−1 ≤ k!. Hieraus folgt:
1
1
≤ k−1 .
k!
2
Folglich gilt für n ≥ 1:
sn
n
n
n−1
X
X
X
1
1
1
=
≤ 1+
= 1+
k−1
k!
2
2k
k=0
k=1
k=0
= 1+
1 − ( 12 )n
1
= 3 − n+1 < 3 .
1
2
1− 2
Wir erhalten als Grenzwert:
∞
X
1
≤ 3.
n!
n=0
8.4
8.4.1
Konvergenzkriterien für Reihen
Umsortierungen
Die etwaige Konvergenz (bzw. Divergenz) bleibt bei einer Reihe unverändert, wenn
man endlich viele Glieder an umsortiert, da dies dann auch nur maximal endlich
viele Partialsummen sn ändert.
124
M. Braack - Reihen
Wenn man hingegen unendliche viele an umsortiert, so kann sich das Konvergenzverhalten einer Reihe u.U. drastisch ändern. Hierzu werden wir im folgenden
Unterabschnitt Beispiele kennenlernen.
8.4.2
Alternierende Reihen
Ein wichtiges Konvergenzkriterium gilt für alternierende Reihen. Dies sind reP
ellwertige Reihen ∞
n=1 an , deren Glieder an alternierende Vorzeichen besitzen, also
an an+1 < 0.
Satz 8.9 (Leibniz-Kriterium) Eine alternierende Reihe ist konvergent, wenn die
Absolutbeträge ihrer Glieder eine monoton fallende Nullfolge bilden, also wenn |an+1 | ≤
|an | und limn→∞ |an | = 0.
Beweis. Wir nehmen oEdA an, dass die Folge (an ) mit geradem Index positiv
sind. Den Beweis erhält man nun durch die Betrachtung der Partialsummen mit
geradem Index, also s2n . Man sieht schnell, dass diese monoton fallend und durch
Null nach unten beschränkt sind:
s2n+2 = s2n + a2n+1 + a2n+2 ≤ s2n
und s2n = (a0 + a1 ) + (a2 + a3 ) + . . . + (a2n−2 + a2n−1 ) + a2n ≥ a2n > 0.
Also ist die Folge (s2n )n∈N konvergent, s := limn→∞ s2n . Für die Folge der ungeraden
Partialsummen folgert man analog, also s̃ := limn→∞ s2n+1 . Diese beiden Grenzwerte
müssen aber identisch sein, denn
s =
lim s2n = lim (s2n−1 + a2n ) = lim s2n−1 + lim a2n
n→∞
n→∞
n→∞
n→∞
= s̃ + 0
Insgesamt folgt
∞
X
k=0
ak =
lim sn = s.
n→∞
Damit ist die Konvergenz gezeigt. Der Fall a2n ≤ 0 folgt durch Betrachtung von
P∞
k=0 (−ak ).
Beispiele: Ein Standardbeispiel einer alternierenden Reihe ist die alternierende
harmonische Reihe:
∞
X
(−1)n+1
n=1
n
= 1−
1 1 1
+ − + . . . = ln(2) = 0.69314718 . . . .
2 3 4
8.4 Konvergenzkriterien für Reihen
125
Ordnet man unendlich viele Glieder um, so kann sich der Grenzwert ändern (die
resultierende Reihe ist nicht mehr alternierend):
1 1
1 1 1
1
1
1
π
1+ −
+
+ −
+
+
−
+ ... =
.
3 2
5 7 4
9 11 6
4
Es kann bei Umsortierung unendlich vieler Glieder sogar Divergenz entstehen:
∞
∞
X
X
1
1
1 1
1 1 1
−
+
= − 1 + + + ... +
+ + + ... .
2n
2n
−
1
3
5
2
4 6
n=1
n=1
|
{z
} |
{z
}
→ ∞
→ ∞
Die Rechenregeln wie Assoziativgesetz und Kommutativgesetz müssen für unendliche Summe also nicht gelten.
8.4.3
Absolut konvergente Reihen
P
Definition 8.10 Eine Reihe s∞ = ∞
n=1 an heißt absolut konvergent, wenn die
P∞
Reihe ihrer Absolutbeträge, n=1 |an |, konvergiert.
Lemma 8.11 Jede absolut konvergente Reihe ist konvergent.
Beweis. Dies folgt aus dem Cauchy-Kriterium für Folgen: (m > n)
m
m
X
X
|sm − sn | = ak ≤
|ak | → 0
m, n → ∞ .
k=n+1
k=n+1
Die Folge der Partialsummen bildet eine Cauchy-Folge in R (oder in C) und ist
damit konvergent.
Lemma 8.12 Jede absolut konvergente Reihe bleibt bei Umsortierung absolut konvergent.
P
Beweis. Da nach Voraussetzung s∞ = ∞
n=1 |an | endlich ist, folgt für eine beliebige Umsortierung an1 , an2 , . . . und die zugehörigen Partialsummen mit den Absolutbeträgen für hinreichendes großes N = N (n):
s0n
=
n
X
k=1
|ank | ≤
N
X
|ak | ≤ s∞ .
k=1
Also sind die Partialsummen mit den Absolutbeträgen beschränkt.
126
M. Braack - Reihen
P∞ 0
Definition 8.13 Eine Reihe s0∞ =
mit nichtnegativen Gliedern a0n ≥ 0
n=1 anP
heißt Majorante einer zweiten Reihe s∞ = ∞
n=1 an , wenn ein c ≥ 0 existiert, so
dass für fast alle n ∈ N gilt:
|an | ≤ ca0n .
Hierbei bedeutet “für fast alle”: für alle bis auf endlich viele, also ∀n ≥ n0 mit einem
gewissen n0 ∈ N.
Satz 8.14 (Majoranten-Kriterium) Eine Reihe ist absolut konvergent, wenn sie
eine konvergente Majorante besitzt.
Beweis. Es existiert ein n0 ∈ N, so dass |an | ≤ ca0n sofern n ≥ n0 . Damit erhalten
wir:
n
X
|ak | ≤
nX
0 −1
|ak | + c
k=1
k=1
n
X
a0k .
k=n0
Hierbei ist die endliche Summe eine feste Zahl. Die letzte Summe ist konvergent, da
nach Voraussetzung s0∞ < ∞.
Zu beachten ist, dass die auftretene Konstante c durchaus größer als 1 sein darf. Als
Anwendung dieses Satzes ergeben sich sofort zwei weitere Kriterien:
P
Korollar 8.15 (Wurzelkriterium) Eine Reihe s∞ = ∞
n=1 an ist absolut konvergent, wenn es ein 0 ≤ q < 1 gibt mit:
p
n
|an | ≤ q für fast alle n ∈ N .
Beweis. Nach Voraussetzung ist |an | ≤ q n . Also ist die geometrische Reihe eine
Majorante. Da die geometrische Reihe für 0 ≤ q < 1 konvergiert, folgt die Behauptung aufgrund des Majorantenkriteriums Satz 8.14.
Beispiele: Die Reihe
∞
X
1
nn
n=0
q
konvergiert, da n | n1n | =
1
n
≤
1
2
für n ≥ 2.
Korollar 8.16 (Quotientenkriterium) Eine Reihe s∞ =
konvergent, wenn es ein 0 ≤ q < 1 gibt mit:
an+1 an ≤ q für fast alle n ∈ N .
P∞
n=0
an ist absolut
8.5 Vervollständigungen
127
Gilt hingegen
an+1 an ≥ q > 1 für fast alle n ∈ N ,
so ist die Reihe
P∞
n=1
an nicht absolut konvergent.
Beweis. (a) Wir gehen zunächst davon aus, dass |an /an−1 | ≤ q < 1 für alle n ∈ N
gilt. Per Induktion ergibt sich dann
an ≤ q n a0 .
P
P∞
n
Damit ist die geometrische Reihe ∞
n=0 q eine konvergente Majorante von
n=0 an .
Es folgt die Konvergenz. Der Fall, dass die Ungleichung nur für fast alle n gilt, ergibt
sich entsprechend.
(b) Sollte hingegen |an /an−1 | ≥ q ≥ 1 gelten, so kann man aus der Annahme, dass
P∞
folgern, dass diese eine konvergente Majorante der geometrin=0 an konvergiere,
P∞ n
schen Reihe n=0 q mit q ≥ 1 wäre. Dann wäre aber auch die geometrischen Reihe
mit q ≥ 1 absolut konvergent. Da dies aber falsch ist, folgt der Widerspruch.
P
1
Beispiele: Die Reihe ∞
n=0 n! hatten wir bereits in Abschnitt 8.3 untersucht. Mit
dem Quotientenkriterium erkennt man die Konvergenz aber erheblich schneller:
an+1 n!
1
1
an = (n + 1)! = n + 1 ≤ 2 , für n ≥ 1 .
8.5
Vervollständigungen
Satz 8.17 Die rationalen Zahlen liegen (bezüglich der vorgestellten Metriken) dicht
in den reellen Zahlen, d.h. Q = R.
Beweis. Es seien ein beliebiges aber festes x ∈ R sowie > 0 gegeben. Wir müssen
ein p/q ∈ Q finden, so dass p/q ∈ U (x). Zunächst wählen wir gemäß Lemma 4.14
ein q ∈ N mit 0 < 1q < und die größte ganze Zahl p ∈ Z mit p ≤ qx. Dann gilt
p + r = qx mit 0 ≤ r < 1. Es folgt:
p
r
= x−
∈ U (x) .
q
q
Da p/q ∈ Q gilt, folgt die Behauptung.
Definition 8.18 Ein Körper K heißt vollständig, wenn jede Cauchy-Folge (in K)
konvergiert.
128
M. Braack - Reihen
Somit ist R vollständig, Q aber nicht. Die reellen Zahlen sind sozusagen die Vervollständigung der rationalen Zahlen. Man kann die reellen Zahlen auch auffassen als
Äquivalenzklassen von Cauchy-Folgen in Q. Diese Konstruktion ist folgendermaßen
zu verstehen: Sei F die Menge aller Cauchy-Folgen (an )n∈N ⊂ Q. Eine Äquivalenzrelation “∼” auf dieser Menge ist definiert durch:
(an )n∈N ∼ (bn )n∈N ⇐⇒
lim (an − bn ) = 0 .
n→∞
Nun definieren wir die Menge der zugehörigen Äquivalenzklassen als R. Die Einbettung Q ⊂ R ist nun folgendermaßen zu verstehen: Einer rationalen Zahl a = p/q ∈ Q
ordnen wir die konstante Folge an := a zu. Dies ist trivialerweise eine Cauchy-Folge,
also Element von F . Die zugehörige Äquivalenzklasse [a] ∈ R kann repräsentiert
werden durch a selbst. Zwei verschiedene rationale Zahlen werde so stets auf verschiedene Äquivalenzklassen abgebildet und sind somit auch in R verschieden. Zah√
len wir 2 ∈ R sind dann im Grunde genommen Cauchy-Folgen, die aber nicht in
Q konvergieren.
8.6
Potenzreihen
Definition 8.19 Zu einer Folge reeller Zahlen (an )n∈N versteht man unter der zugehörigen reellen Potenzreihe die Reihe
∞
X
an x n .
n=0
Bei einer Potenzreihe ist x ∈ R ein freier Parameter. Die Konvergenz oder Divergenz
wird i.a. von x abhängen. Man kann eine solche Potenzreihe also auch auffassen als
eine Funktion mit dem Argument x. Hierbei ist aber sicherzustellen, dass die Reihe
konvergiert. Besteht also M ⊂ R aus den x, für die diese Reihe konvergiert,
x ∈ M :⇐⇒
∞
X
an xn konvergiert,
n=0
so ist
P : M → R , x 7→ P (x) =
∞
X
an x n ,
n=0
eine reellwertige Funktion.
P
n
Entsprechendes gilt auch für komplexe Potenzreihen ∞
n=0 an z , wobei wir auch
komplexwertige Folgen (an ) ⊂ C zulassen. Man erhält dann entsprechend (im Falle
der Konvergenz) eine i.a. komplexwertige Funktion P (z).
8.6 Potenzreihen
129
Definition 8.20 Unter dem Konvergenzradius R(P ) einer Potenzreihe P (z) im
Körper K = R oder K = C:
R(P ) := sup {|z| : z ∈ K, P (z) < ∞} .
Ist die Potenzreihe konvergent für z mit |z| beliebig groß , so ist der Konvergenzradius
R(P ) = ∞.
In obiger Definition ist “< ∞” wieder zu verstehen als “konvergent” und nicht im
Sinne von “kleiner als unendlich”.
P
n
Lemma 8.21 Konvergiert eine Potenzreihe P (z) = ∞
n=0 an z in einem Punkt z0 ∈
C, so konvergiert sie auch absolut für alle z ∈ C mit |z| < |z0 |.
Beweis. Die Behauptung ergibt sich unmittelbar aus dem Majorantenkriterium Satz 8.14. (an z0n )n∈N0 ist notwendigerweise eine Nullfolge. Da jede Nullfolge beschränkt ist, existiert ein M ∈ R mit |an z0n | ≤ M . Es folgt nun wegen q := |z/z0 | < 1:
|an z n | = |an z0n |q n ≤ M q n .
P
n
Somit ist die konvergente geometrische Reihe ∞
n=0 q eine Majorante der Potenzreihe P , die somit absolut konvergent ist.
Hieraus ergibt sich nun unmittelbar folgender Satz:
Satz 8.22 Gilt für den Konvergenzradius einer Potenzreihe P (z), R(P ) > 0, so ist
die Reihe für alle z ∈ C mit |z| < R(P ) absolut konvergent. Für |z| > R(P ) ist die
Potenzreihe hingegen divergent.
Beweis. |z| < R: Es existiert ein z0 ∈ K mit |z| < |z0 | ≤ R(P ), so dass P (z0 ) <
∞. Damit folgt die Behauptung aus Lemma 8.21.
|z| > R(P ): Wäre P (z) < ∞, so fände man ein z0 ∈ K mit R(P ) < |z0 | < |z|. Für
diese z0 , wäre die Potenzreihe wegen Lemma 8.21 konvergent. Dies wäre aber dann
ein Widerspruch zur Definition des Konvergenzradiuses.
Für |z| = R(P ) ist im allgemeinen keine Aussage möglich.
Beispiele:
P
1. Jedes Polynom p ∈ C[x] (bzw. p ∈ R[x]), p(z) = nk=0 ck z k , lässt sich als eine
Potenzreihe interpretieren, die sich aus der Folge c0 , c1 , . . . , cn , 0, 0 . . . ergibt.
Da die Reihe abbricht, ist sie automatisch für alle x ∈ R konvergent. Der
Konvergenzradius ist also R(p) = ∞.
130
M. Braack - Reihen
2. Die Potenzreihe
∞
X
1 n
x
n
n=0
ist für |x| < 1 konvergent. Dies erhält man durch Anwendung des Quotientenkriteriums:
n+1
x /(n + 1) = |x|n < |x| < 1 .
n
x /n
n+1
Für x = 1 ist diese Potenzreihe hingegen divergent, denn dann erhalten wir
gerade die harmonischer Reihe. Ebenso ist die Reihe für |x| > 1 divergent.
Für x = −1 erhalten wir letztendlich die bereits vorgestellte alternierende
harmonischer Reihe. Diese war konvergent. Der Konvergenzradius ist also R =
1.
Weitere Beispiele wollen wir in den folgenden Unterkapiteln genauer erläutern:
Lemma 8.23 Die Koeffizienten der Potenzreihe P (z) =
gleich Nulll und es gelte
an < ∞.
r := lim n→∞ an+1 P∞
n=0
an z n seien alle un-
Dann gilt R(P ) = r.
Beweis. (a) Fall r > 0: Es folgt limn→∞ |an /an+1 | = 1/r. Sei z ∈ C mit |z| < r.
Setze = 21 (r − |z|). Dann gilt für die Quotienten der Potenzreihe für hinreichend
großes n:
an+1 z n+1 an+1 1
an z n = an |z| < r − (r − 2) < 1.
Daher folgt die Konvergenz der Potenzreihe P (z) aus dem Quotientenkriterium. Es
folgt r ≤ P (z).
Wenn z ∈ C mit |z| > r, so setzen wir = 21 (|z| − r). Es folgt entsprechend für
hinreichend großes n:
an+1 z n+1 1
= an+1 |z| >
(r + 2) > 1.
an z n an r+
P
n
Somit kann ∞
n=0 an z nicht absolut konvergieren. Es folgt R(z) ≤ r. Zusammengenommen folgt die Gleichheit R(P ) = r.
8.6 Potenzreihen
131
(b) Fall r = 0: Nun ist lediglich zu zeigen, dass P (z) nicht absolut konvergieren
kann, wenn z 6= 0. Dies ist aber wieder eine Konsequenz des Quotientenkriteriums,
denn es gilt
an+1 z n+1 an+1 an z n = an |z| ≥ 2,
sofern n so groß, dass
8.6.1
an
an+1
≤ 1/(2|z|).
Die Exponentialfunktion
Für cn = 1/n! ergibt sich die Potenzreihe
∞
X
1 n
z .
n!
n=0
Diese ist für alle z ∈ C konvergent, denn die Anwendung des Quotientenkriteriums
liefert:
n+1
z /(n + 1)! |z|
=
.
z n /n!
n+1
n+1
1
Für n ≥ n0 ≥ 2|z| ergibt sich also z zn/(n+1)!
≤ 2 < 1. Somit ist diese Potenzreihe
/n!
für alle z ∈ C absolut konvergent. Ihr Wert wird mit exp(z) bezeichnet:
∞
X
1 n
exp(z) =
z .
n!
n=0
Der Konvergenzradius ist also R = ∞. Selbstverständlich gilt für x ∈ R, exp(x) ∈ R.
Insbesondere erhalten wir für x = 1 die in Abschnitt 8.3 eingeführte Eulersche Zahl:
e = exp(1) =
∞
X
1
.
n!
n=0
(8.1)
Wir werden später sehen, dass exp(z) = ez . Hierzu müssen wir aber erst das potenzieren mit komplexen Zahlen definieren. Bisher kennen wir erst Ausdrücke der Form
z n mit natürlichen Zahlen n ∈ N.
Satz 8.24 Es gilt die Funktionalgleichung:
exp(z + w) = exp(z) exp(w)
∀z, w ∈ C .
Beweis. Der Beweis wird beispielsweise mit dem Produktsatz für Reihen geführt.
Für Details verweisen wir auf Standard-Lehrbücher (z.B. [7]).
132
8.6.2
M. Braack - Reihen
Die Trigonometrischen Funktionen
Die Funktionen Sinus und Cosinus lassen sich ebenso über Potenzreihen mit Konvergenzradius R = ∞ definieren:
cos(x) =
sin(x) =
∞
X
(−1)n
n=0
∞
X
n=0
(2n)!
x2n = 1 −
x2 x4 x6
+
−
+ ... ,
2!
4!
6!
(−1)n 2n+1
x3 x5 x7
x
= x−
+
−
+ ... .
(2n + 1)!
3!
5!
7!
Die Konvergenz folgt aus der Tatsache, dass die Exponentialfunktion eine Majorante
ist, z.B.:
cos(x) =
∞
X
(−1)n
n=0
(2n)!
x
2n
=
∞
X
cn
n=0
n!
xn ,
mit cn ∈ {−1, 0, 1} .
8.6.3
Die Binomialreihe
Definition 8.25 Unter der Binomialreihe
versteht man die Potenzreihe die sich
m
aus den Folgengliedern cn =
für festes m ∈ N0 ergibt:
n
∞ X
m
Bm (z) :=
zn .
n
n=0
Lemma 8.26 Die Binomialreihe ist für alle m ∈ N0 und alle z ∈ C konvergent und
es gilt:
Bm (z) = (1 + z)m
∀z ∈ C .
m
Beweis. Da für n > m,
= 0 gilt, ist die Summe endlich und somit der
n
Konvergenzradius R(Bm ) = ∞. Der nachfolgend genannte Binomische Lehrsatz 8.27
(verallgemeinert für komplexe Zahlen) liefert die Behauptung.
Satz 8.27 (Binomischer Lehrsatz) Für beliebige x, y ∈ C und n ∈ N0 gilt:
n X
n
n
(x + y) =
xk y n−k .
(8.2)
k
k=0
Im Fall n = 2 und x, y ∈ R spricht man auch von der ersten binomischen Formel.
8.6 Potenzreihen
8.6.4
133
Allgemeinere Form von Potenzreihen
Definition 8.28 Zu einer Folge komplexer Zahlen (an )n∈N und z0 ∈ C versteht man
unter der zugehörigen Potenzreihe die Reihe
∞
X
an (z − z0 )n .
n=0
Die Begriffe der Konvergenz und Konvergenzradius verallgemeinern sich entsprechend:
R(P ) := sup {|z − z0 | : z ∈ C, P (z) < ∞} .
Genauso verallgemeinern sich alle bisherigen Aussagen. Man muss lediglich anstelle
von z die Größe z − z0 betrachten.
134
M. Braack - Reihen
Kapitel 9
Stetige Funktionen
Nun führen wir den Begriff der Stetigkeit für reellwertige und komplexwertige Funktionen ein. Daher bezeichnet K entweder den Körper R oder aber C. Den Stetigkeitsbegriff wollen wir zunächst über Folgen definieren:
Definition 9.1 Eine Funktion f : D → K, D ⊂ K, heißt stetig im Punkt x ∈ D,
wenn für jede Folge (xn )n∈N ⊂ D mit limn→∞ xn = x gilt limn→∞ f (xn ) = f (x). f
heißt stetig in D, wenn sie für alle x ∈ D stetig ist.
Ist x ∈ D ein innerer Punkt von D und ist die Funktion f im Punkt x stetig, so
können wir schreiben
lim f (xn ) = f (x) ,
xn →x
denn der Grenzwert ist unabhängig von der speziellen Folge, die gegen x konvergiert.
Beispiele:
• Jedes Polynom p ∈ K[x] ist stetig auf ganz K.
√
• Die Funktion f (x) = x ist auf D = [0, ∞) stetig.
• Treppenfunktionen, wie zum Beispiel die INTEGER-Funktion INT :R → Z, definiert durch:
INT(x) := max{z ∈ Z z ≤ x} .
ist an den sogenannten Sprungstellen z ∈ Z nicht stetig, da
lim INT(x) = z
x&z
lim INT(x) = z − 1 .
x%z
136
M. Braack - Stetige Funktionen
Hierbei steht “limx&z ” für den rechtsseitigen Grenzwert, d.h. für Folgen (xn )n∈N
mit xn > z und limn→∞ xn = z. Entsprechend ist “limx%z ” der linksseitige
Grenzwert. Beispielsweise gilt für die Folge xn = z − 1/n:
1
lim INT(x) = lim INT z −
= lim (z − 1) = z − 1 .
n→∞
n→∞
x%z
n
Lemma 9.2 ( − δ-Kriterium) Eine Funktion f : D → K, D ⊂ K offen, ist
genau dann stetig im Punkt x0 ∈ D, wenn für alle > 0 ein δ > 0 existiert, so dass
gilt:
|x − x0 | < δ =⇒ |f (x) − f (x0 )| < .
Beweis. ⇒: f sei stetig gemäß der Definition 9.1 und > 0 sei gegeben. Wenn
nun kein δ > 0 mit der geforderten Eigenschaft existiert, so können wir jeweils zu
n ∈ N, δn := n1 , ein xn ∈ D finden mit |xn −x0 | < 1/n und |f (xn )−f (x0 )| ≥ . Dann
gilt aber limn→∞ xn = x0 und nach Voraussetzung limn→∞ f (xn ) = f (x0 ). Dies ist
ein Widerspruch. Also existiert das Gewünschte δ > 0.
⇐: Wir nehmen an, dass die “ − δ” Bedingung gilt. Wenn nun limn→∞ xn = x0 gilt,
so ist zu zeigen, dass für beliebiges > 0 ein n0 ∈ N existiert mit
|f (xn ) − f (x0 )| < ∀n ≥ n0 .
Dies ist aber trivialerweise erfüllt, da für n0 hinreichend groß gilt: |xn − x0 | < δ.
Lemma 9.3 Sei f : D → K eine in x ∈ D stetige Funktion. Dann folgt:
(a) |f | ist stetig in x ∈ D.
(b) Im Fall K = C: Re(f ) und Im(f ) sind stetig in x ∈ D.
Beweis. Die Aussage (a) folgt unmittelbar aus Lemma 7.28. Aussage (b) folgt
aus der Konvergenz komplexer Folgen (Abschnitt 7.2.6).
Lemma 9.4 Sind f, g : D → K stetig im Punkt x ∈ D, so gilt:
(a) Jede Linearkombination λf + µg : D → K mit λ, µ ∈ K ist stetig in x ∈ D.
(b) f · g : D → K ist stetig in x ∈ D.
(c) Ist g(x) 6= 0, so ist auch f /g stetig in x ∈ D.
9.1 Eigenschaften stetiger Funktionen
137
Beweis. Alle drei Aussagen folgen direkt aus Lemma 7.27.
Insbesondere folgt also, dass Polynome f ∈ K[x] in ganz K stetig sind.
Lemma 9.5 Die Verknüpfung (Komposition) stetiger Funktionen ist wieder stetig.
Beweis. Sei D1 , D2 ⊂ K offen, f1 : D1 → K, f2 : D2 → K seien stetig mit
f (D1 ) ⊆ D2 . Dann gilt f2 ◦ f1 : D1 → K und für (xn )n∈N ⊂ D1 mit xn → x ∈ D
folgt für yn := f1 (xn ):
lim yn = lim f1 (xn ) = f1 (lim xn ) = f1 (x),
lim f2 (f1 (xn )) = lim f2 (yn ) = f2 (lim yn ) = f2 (f1 (x)).
9.1
Eigenschaften stetiger Funktionen
Den folgenden fundamentalen Satz hatten wir bereits speziell für Polynome formuliert (Satz 4.26).
Satz 9.6 (Zwischenwertsatz) Ist f : [a, b] → R stetig, a < b, mit f (a) < f (b), so
wird jeder Wert ξ ∈ [f (a), f (b)] von f angenommen.
Beweis. Im Fall ξ = 0 erhalten wir die gleiche Aussage, wie bereits für Polynome in Satz 4.26. Das im damaligen Zusammenhang beschriebene Verfahren
der Intervallschachtelung kann auch hier angewendet werden. Den allgemeinen Fall
ξ ∈ [f (a), f (b)] führen wir mittels g : [a, b] → R, g(x) := f (x) − ξ auf den zuvorigen
Fall zurück.
Satz 9.7 Eine stetige Funktion f : [a, b] → R nimmt ihr Maximum und ihr Minimum im Intervall [a, b] an.
Beweis. Sei M := sup{f (x)|x ∈ [a, b]} ∈ R ∪ {∞}. Dann existiert eine Folge
(xn )n∈N ⊂ [a, b] mit limn→∞ f (xn ) = M (für den Fall M = ∞ ist hier die bestimmte
Divergenz gemeint). Da diese Folge beschränkt ist, besitzt sie einen Häufungspunkt
x ∈ [a, b]. Dann gilt für die zugehörige Teilfolge (xnk )k∈N : limk→∞ xnk = x und
limk→∞ f (xnk ) = M . Aufgrund der Stetigkeit von f folgt nun
f (x) = f ( lim xnk ) = lim (f (xnk )) = M .
k→∞
k→∞
138
M. Braack - Stetige Funktionen
Also ist M ∈ R und f nimmt sein Maximum im Punkt x ∈ [a, b] an. Für das
Minimum folgt man entsprechend.
Bemerkung: Wichtig ist im vorherigen Satz, dass man ein abgeschlossenes Intervall
betrachtet. Eine entsprechende Aussage gilt nicht in (halb-) offenen Intervallen oder
in unbeschränkten Definitionsgebieten (z.B. [a, ∞)).
Lemma 9.8 Ist f : [a, b] → R eine stetige und streng monoton wachsende (fallende)
Funktion, so ist auch die Umkehrfunktion f −1 : I → [a, b], I = [f (a), f (b)] (I =
[f (b), f (a)]), stetig und streng monoton wachsend (fallend).
Beweis. Da aus x < y folgt f (x) < f (y), ist f automatisch injektiv. Durch
den Mittelwertsatz 9.6 folgt die Surjektivität. Also ist f : [a, b] → I bijektiv und
somit existiert die Umkehrfunktion f −1 : I → [a, b]. Nun zur Stetigkeit von f −1 : Sei
(yn )n∈N ⊂ I eine konvergente Folge mit Limes y ∈ I. Wir setzen xn := f −1 (yn ) und
x := f −1 (y). Zu seigen ist limn→∞ xn = x. Nach dem Satz von Bolzano-Weierstraß
7.30 existiert eine konvergente Teilfolge (xnk )k∈N mit Grenzwert x̃ = limk→∞ xnk ∈
[a, b]. Aufgrund der Stetigkeit von f folgt limk→∞ ynk = limk→∞ f (xnk ) = f (x̃). Da
(ynk ) ⊂ (yn ) und y = lim yn , folgt y = f (x̃). Nun folgt aufgrund der Bijektivität:
x = f −1 (y) = x̃ = lim xnk .
k→∞
Also hat die beschränkte Folge (xn )n∈N nur den einen Häufungspunkt x, woraus
x = limn→∞ xn folgt. Die Monotonie von f −1 folgt aus der Monotonie von f , denn
für y1 < y2 und x1 := f −1 (y1 ), x2 := f −1 (y2 ) würde aus x1 ≥ x2 der Widerspruch
y1 = f (x1 ) ≥ f (x2 ) = y2 folgen.
9.2
Die Potenzfunktion mit rationalen Exponenten
Wir haben bereits mit Monomen gearbeitet (dies sind spezielle Polynome):
xn := x
. . · x}
| · .{z
n−mal
Auch kennen wir bereits die Rechenregeln für x, y ∈ R und m, n ∈ N:
xn · y n = (xy)n ,
xn · xm = xn+m ,
(xn )m = xnm .
+
n
Die Funktion f : R+
0 → R0 , x 7→ x , n ∈ N, ist streng monoton wachsend und stetig
in R+
0 . Insbesondere ist sie bijektiv, so dass nach Lemma 9.8 die Umkehrabbildung
9.3 Die Exponentialfunktion in Q
139
f −1 existiert:
+
f −1 : R+
0 → R0
√
x 7→ n x
Es gilt daher
√
n
xn = x. Als eine andere Bezeichnung führen wir ein:
√
√
m
1
x n := n x und x n := n xm .
Insofern können wir auch rationalen Exponenten q = m/n ∈ Q+ zulassen:
√
m
xq = x n = n xm .
Für q ∈ Q− setzen wir hingegen:
xq :=
1
.
x−q
Nach Lemma 9.5 sind diese Funktionen ebenfalls stetig. Wie man leicht nachprüft
gelten auch hier die Rechenregeln:
xq · y q = (xy)q
xp · xq = xp+q
p q
(x )
9.3
= xpq
∀x, y ∈ R und q ∈ Q ,
∀x ∈ R und p, q ∈ Q ,
∀x ∈ R und p, q ∈ Q .
Die Exponentialfunktion in Q
Nun können wir auch die Funktion betrachten, in der wir den Exponenten variieren
und die Basis konstant halten, d.h. zu a ∈ R+
0:
q
fa : Q → R+
0 , q 7→ fa (q) := a
Aufgrund der eben erwähnten Rechenregeln gilt nun für diese Funktion die Funktionalgleichung:
fa (p + q) = fa (p) · fa (q) .
Dies erinnert an die Funktionalgleichung der Exponentialfunktion:
exp(p + q) = exp(p) · exp(q) .
(9.1)
Folgendes Lemma besagt nun, dass die Exponentialfunktion gerade der Funktion fe
mit der Eulerschen Zahl e = exp(1) = 2.718281 . . . aus Abschnitt 8.3 entspricht.
140
M. Braack - Stetige Funktionen
Lemma 9.9 Es gilt exp(q) = eq für alle rationalen Zahlen q.
Beweis. Dass die Behauptung für natürliche Zahlen n ∈ N gilt, folgt aufgrund
der Funktionalgleichung der Exponentialfunktion und wegen (8.1):
!
n
n
X
Y
exp(n) = exp
1 =
exp(1) = exp(1)n = en .
i=1
i=1
Für q ∈ Q+ stellen wir q als Bruch dar, q = m/n mit m, n ∈ N. Nun gilt wegen des
eben gezeigten:
!
n
X
em = exp(m) = exp
q = exp(q)n
i=1
Ziehen wir nun auf beiden Seiten die n-te Wurzel, so erhalten wir
p
√
n m
e
= n exp(q)n = exp(q) .
Hieraus folgt nun eq = exp(q).
Ist hingegen q ∈ Q− , so gilt 1 = exp(0) = exp(q) exp(−q) = exp(q)e−q . Nun folgt
die Behauptung aus exp(q) = 1/e−q = eq .
Aufgrund dieser Identität können wir nun auch den Ausdruck ez für z ∈ C interpretieren, nämlich durch ez := exp(z).
Hierdurch können wir letztendlich auch Ausdrücke wie xy mit x, y ∈ R, x > 0,
definieren:
xy := ey ln(x) .
9.4
Die Exponentialfunktion in C
In diesem Abschnitt betrachten wir die Exponentialfunktion in C und damit insbesondere auch für reelle Argumente.
Satz 9.10 Die Exponentialfunktion exp : C → C ist stetig (in ganz C).
Beweis. Zunächst zeigt man die Stetigkeit im Nullpunkt. Hierzu sei (hn )n∈N ⊂ C
eine komplexe Nullfolge. Dann gilt exp(hn ) = 1 + r1 (hn ) mit
r1 (hn ) =
∞
X
hk
n
k=1
k!
.
9.4 Die Exponentialfunktion in C
141
Nun zeigt man mit Hilfe der geometrischen Reihe |r1 (h)| = O(|h|) für |h| ≤ 1 (siehe
Übungsaufgabe), so dass man limn→∞ exp(hn ) = 1 = exp(0) erhält. Die Stetigkeit
an beliebigem z ∈ C führt man nun auf die Stetigkeit im Nullpunkt zurück: Da man
jede Folge zn → z in der Form zn = z + hn mit einer Nullfolge (hn )n∈N schreiben
kann, folgt mit der Funktionalgleichung und der Stetigkeit der Exponentialfunktion
im Nullpunkt:
lim exp(zn ) =
n→∞
lim exp(z + hn ) = lim (exp(z) exp(hn ))
n→∞
n→∞
= exp(z) lim (exp(hn )) = exp(z) exp( lim hn ) = exp(z) exp 0
n→∞
n→∞
= exp(z) .
Lemma 9.11 Für die Exponentialfunktion gilt im Komplexen mit z = x + iy ∈ C,
x, y ∈ R:
ez = ex eiy ,
ex > 0 ,
|eiy | = 1 ,
ez = ez ,
|ez | = ex .
Beweis. Die Gleichung ez = ex eiy folgt unmittelbar aus der Funktionalgleichung.
ex > 0 folgt für x ≥ 0 aus der Definition der Exponentialfunktion über die unendliche
Reihe. Für x < 0 folgt es wegen ex = 1/e−x . Die Gleichung ez = ez erhält man über
die Rechenregel des Konjugierens und dem Grenzübergang n → ∞:
n
X
zk
k=0
k!
=
n
X
zk
k=0
k!
.
Zur Berechnung von |eiy | schliessen wir folgendermaßen:
|eiy |2 = eiy · eiy = eiy · eiy = eiy · e−iy = e0 = 1 ,
also |eiy | = 1.
Lemma 9.12 Für y ∈ R gilt:
(a) cos y = Re(eiy ),
(b) sin y = Im(eiy ), und
(c) cos2 y + sin2 y = 1.
142
M. Braack - Stetige Funktionen
Beweis. (a): Da Re((iy)n ) = ±y n für n gerade und Re((iy)n ) = 0 für n ungerade,
erhält man
∞
X
Re((iy)n )
y2 y4
y6
Re(eiy ) =
= 1−
+
− + + ... .
n!
2!
4!
6!
n=0
Dies ist gerade die Definition von cos y gemäß Abschnitt 8.6.2.
(b): folgert man analog.
(c): Folgt aus (a) und (b), denn mit z := iy folgt:
cos2 y + sin2 y = Re(ez )2 + Im(ez )2 = |ez |2 .
Die Behauptung folgt nun wegen Lemma 9.11: |ez | = eRe z = e0 = 1.
Ohne Beweis wollen wir folgendes Resultat vorstellen, das uns eine Definition
der Zahl π liefert.
Lemma 9.13 Die Funktion cos hat im Intervall [0, 2] genau eine Nullstelle. Diese
bezeichnen wir mit π2 .
Die Zahl π ∈ R \ Q ist nicht rational, sondern irrational. Die ersten 10 Stellen von
π lauten:
π = 3.141592653 . . .
Spezielle Beziehungen der Eulerschen Zahl e und der Zahl π liefert das folgende
Lemma:
Lemma 9.14 Es gilt:
π
ei 2 = i ,
eiπ = −1, ,
3π
ei 2 = −i
und
e2πi = 1 .
Beweis. Da cos π2 = 0 gilt:
π
π
= 1 − cos2
= 1.
2
2
Also sin π2 = ±1. Durch eine Abschätzung des Restgliedes in der Reihenentwicklung
des Sinus kann man sin x > 0 für 0 < x ≤ 2 herleiten (Übungsaufgabe). Damit folgt
sin π2 = 1 und mit Lemma 9.12
sin2
π
π
+ i sin
= i.
2
2
Die restlichen Behauptungen folgen wegen
π
ei 2
= cos
π
π
ei 2 n = (ei 2 )n = in .
9.5 Die Logarithmusfunktion
9.5
143
Die Logarithmusfunktion
Da die Exponentialfunktion exp : R → R+ = {x ∈ R : x > 0} stetig, streng monoton wachsend und bijektiv ist, ist auch die Umkehrfunktion stetig, streng monoton
wachsend und bijektiv. Diese Umkehrfunktion wird Logarithmus genannt:
ln : R+ → R .
Es gilt ln(exp(x)) = x. Diese erfüllt die Funktionalgleichung:
ln(xy) = ln(x) + ln(y) .
Dies ist eine unmittelbare Folgerung aus der Funktionalgleichung der Exponentialfunktion (9.1):
exp(ln(x) + ln(y)) = exp(ln(x)) · exp(ln(y)) = xy = exp(ln(xy)) ,
zusammen mit der Bijektivität von exp.
9.6
Die Exponential- und Logarithmusfunktion zur
allgemeinen Basis
In Abschnitt 9.2 hatten wir den Ausdruck aq mit a ∈ R und q ∈ Q eingeführt. Nun
können wir dies noch verallgemeinern für reelle Exponenten:
Definition 9.15 Unter der Exponentialfunktion zur Basis a ∈ R+ versteht man die
Funktion expa : R → R+ :
expa (x) = ax := exp(x · ln(a)) .
Im Fall x = q =
m
n
∈ Q ist dies identisch mit der zuvor definierten Funktion:
√
exp(q · ln(a)) = aq = n am .
Dies sieht man folgendermaßen:
am = expa (m) = expa (nq) = expa (q)n
Zieht man auf beiden Seiten die n-te Wurzel erhält man die Behauptung. Hier wurde
verwendet, dass die Funktionalgleichung der Exponentialfunktion auch für die Basis
a gilt.
144
M. Braack - Stetige Funktionen
Da die Exponentialfunktion zur Basis a im Fall a > 1 streng monoton wachsend
ist, kann man auch hier die (stetige) Umkehrfunktion bilden:
lna : R+ → R ,
(a > 1).
Es gilt lna (expa (x)) = x. Auch diese erfüllt die Funktionalgleichung:
lna (xy) = lna (x) + lna (y) .
Die so entstehenden Logarithmusfunktionen werden “Zweige” des Logarithmuses
genannt. Man prüft leicht nach (Übungsaufgabe), dass sich die einzelnen Zweige des
Logarithmuses nur um eine Konstante unterscheiden, d.h. für a, b > 0, a, b 6= 0 gilt:
lnb (x) =
ln(a)
lna (x)
ln(b)
∀x > 0 ,
denn:
exp(ln(b) lnb (x)) = expb (lnb (x)) = x = expa (lna (x)) = exp(ln(a) lna (x)) .
Kapitel 10
Differenzierbare Funktionen
In diesem Abschnitt sei D ⊆ R stets eine offene Menge.
Definition 10.1 Unter dem Differenzenquotienten einer Funktion f : D → K
an einer Stelle x ∈ D und der Schrittweite h ∈ R versteht man den Ausdruck
Dh f (x) :=
f (x + h) − f (x)
.
h
Man beachte, dass der Differenzenquotient Dh f (x) nur definiert ist, sofern x+h 6∈ D
gilt. Dadurch dass D als offen vorausgesetzt ist, existiert dieser Differenzenquotient
aber sofern |h| klein genug ist.
Der Differenzenquotient lässt sich auffassen als Steigung der Sekante des Graphen von f an den Punkten x und x + h. Lässt man nun die Schrittweite h gegen
Null gehen, so geht die Sekante in die Tangente über (falls existent). Wenn dieser
Grenzprozeß möglich ist, so spricht man von Differenzierbarkeit:
Definition 10.2 f : D → K heißt differenzierbar an der Stelle x ∈ D, wenn der
Grenzwert
f 0 (x) := lim Dh f (x)
h→0
existiert. Dieser wird dann Ableitung von f an der Stelle x genannt.
Beispiele:
1. Eine (affin) lineare Funktion f (x) = ax + b mit a, b ∈ K besitzt die konstante
Ableitung f 0 (x) = a, da der Differenzenquotient konstant ist:
Dh f (x) =
1
(a(x + h) − b − (ax + b)) = a .
h
146
M. Braack - Differenzierbare Funktionen
2. Polynome p ∈ K[x] sind ebenfalls global differenzierbar. Die Ableitung lässt
sich besonders einfach berechnen, wenn das Polynom in der Standard-Darstellung
gegeben ist:
p(x) =
n
X
k
ak x ,
0
p (x) =
k=0
n
X
kak xk−1 .
k=1
Mit dem Binomischen Lehrsatz 8.27 erhalten wir:
n
1X
ak ((x + h)k − xk )
h k=1
n
1X
k
k
k
k−1
2 k−2
k
k
ak x +
hx
+
hx
+ ... + h − x
=
1
2
h k=1
Dh p(x) =
=
n
X
ak kxk−1 + O(h) .
k=1
Mittels Grenzübergang h → 0 erhält man das gewünschte Resultat.
3. Die Ableitung der Exponentialfunktion ist wieder die Exponentialfunktion:
exp0 (x) = exp(x) .
Hierzu sehen wir uns wieder den diskreten Differenzenquotienten an:
1
1
(exp(x + h) − exp(x)) = (exp(x) exp(h) − exp(x))
h
h
exp(h) − exp(0)
1
exp(x)(exp(h) − 1) = exp(x)
=
h
h
= exp(x) · Dh exp(0) .
Dh exp(x) =
Somit folgt:
exp0 (x) = lim Dh exp(x) = exp(x) · exp0 (0) .
h→0
Wir müssen also nur noch exp0 (0) = 1 zeigen. Dies sieht man mit Hilfe der
Restgliedabschätzung der Exponentialfunktion (Übungsaufgabe):
Dh exp(0) =
exp(h) − 1
1 + h + O(h2 ) − 1
=
= 1 + O(h) .
h
h
Der Grenzübergang h → 0 liefert nun exp0 (0) = limh→0 Dh exp(0) = 1.
147
4. Aus den Reihenentwicklungen von sin und cos in Abschnitt 8.6.2 lassen sich
schnell folgende Ableitungen motivieren:
sin0 (x) = cos(x)
cos0 (x) = − sin(x) .
Das folgende Lemma besagt, dass die differenzierbaren Funktionen gerade die sind,
die sich in einer Umgebung des jeweiligen Punktes durch eine (affin) lineare Funktion
approximieren lassen.
Lemma 10.3 Eine Funktion f : D → R ist genau dann differenzierbar im Punkt
x0 ∈ D, wenn eine Konstante c ∈ R und eine Funktion ϕ : D → R existieren, so
dass gilt:
(a)
f (x) = f (x0 ) + c(x − x0 ) + ϕ(x)
(b)
ϕ(x0 + h) = o(h) .
∀x ∈ D ,
In diesem Fall ist c = f 0 (x0 ).
Bemerkung: Der Punkt (b) besagt, dass ϕ(x0 +h) als Funktion von h schneller gegen
Null geht als die lineare Funktion h 7→ h, dass also gilt
lim
x→x0
ϕ(x)
ϕ(x0 + h)
= 0.
= lim
h→0
x − x0
h
In der Nähe von x0 lässt sich f also durch eine lineare Funktion approximieren:
f (x) ≈ f (x0 ) − cx0 + cx .
Der Graph dieser Funktion ist gerade die Tangente von f im Punkt x0 .
Beweis. ⇒: Wenn f in x0 differenzierbar ist, so definieren wir
ϕ(x) := f (x) − f (x0 ) − f 0 (x0 )(x − x0 ) .
Damit ist (a) erfüllt. (b) ergibt sich aus:
ϕ(x0 + h)
f (x0 + h) − f (x0 ) − f 0 (x0 )(x0 + h − x0 )
=
h
h
f (x0 + h) − f (x0 )
=
− f 0 (x0 ) .
h
Aufgrund der Differenzierbarkeit von f in x0 erhalten wir den Grenzübergang:
ϕ(x0 + h)
= 0.
h→0
h
lim
148
M. Braack - Differenzierbare Funktionen
⇐: Die Differenzierbarkeit folgt unmittelbar:
Dh f (x0 ) =
ch + ϕ(x0 + h)
ϕ(x0 + h)
=c+
.
h
h
Der Grenzübergang h → 0 ergibt f 0 (x0 ) = c.
Eine unmittelbare Folgerung aus Lemma 10.3 ist, dass differenzierbare Funktionen
automatisch auch stetig sind:
Korollar 10.4 Aus der Differenzierbarkeit folgt die Stetigkeit.
Beweis. Wegen Lemma 10.3 und limh→0 ϕ(x0 + h) = 0 gilt:
lim f (x0 + h) = lim (f (x0 ) + ch + ϕ(x0 + h)) = f (x0 ) .
h→0
h→0
Bemerkung: Die Umkehrung gilt aber i.a. nicht. Es gibt stetige Funktionen, die nicht
differenzierbar sind. Das Paradebeispiel ist die Betragsfunktion f : x 7→ |x|. Diese
Funktion ist in ganz R stetig, aber im Nullpunkt nicht differenzierbar, denn
Dh f (0) =
|h| − 0
= ±1
h
je nach Vorzeichen von h.
Damit ist der Grenzwert limh→0 Dh f (0) nicht definiert.
10.1
Differentiationsregeln
Satz 10.5 Sind f, g : D → R, D ⊂ R in x ∈ D differenzierbar, so ist für alle
α, β ∈ R such die Funktion αf +βg differenzierbarin x differenzierbar mit Ableitung:
(αf + βg)0 (x) = αf 0 (x) + βg 0 (x) .
Beweis. Folgt unmittelbar aus den Rechenregeln für Folgen.
Satz 10.6 (Produktregel) Sind f, g : D → R, D ⊂ R in x ∈ D differenzierbar,
so ist auch f · g im Punkt x differenzierbar mit Ableitung:
(f · g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x) .
Beweis. Der Differenzenquotient für f · g lautet:
1
f (x + h)g(x + h) − f (x)g(x)
h
1
=
f (x + h) g(x + h) − g(x) + g(x) f (x + h) − f (x) .
h
Dh (f g)(x) =
10.1 Differentiationsregeln
149
Der Grenzübergang ergibt damit:
1
lim Dh (f g)(x) = lim f (x + h)
lim (g(x + h) − g(x))
h→0
h→0
h→0 h
1
+g(x) lim (f (x + h) − f (x))
h→0 h
Hieraus erhalten wir die Behauptung.
Beispiel: Anwendung der Produktregel auf sin2 (x) ergibt:
0
sin2 (x)
= sin0 (x) sin(x) + sin(x) sin0 (x) = 2 sin(x) cos(x) .
Satz 10.7 (Quotientenregel) Sind f, g : D → R, D ⊆ R in x ∈ D differenzierbar
und ist g(x) 6= 0, so ist auch fg im Punkt x differenzierbar mit Ableitung:
0
f 0 (x)g(x) − f (x)g 0 (x)
f
(x) =
.
g
g(x)2
Beweis. Wir behandeln zunächst den Spezialfall f = 1:
1
1/g(x + h) − 1/g(x)
Dh
(x) =
g
h
1
1
(g(x) − g(x + h))
=
g(x + h)g(x) h
Der Grenzübergang h → 0 liefert:
0
1
g 0 (x)
.
(x) = −
g
g(x)2
Der allgemeine Fall lässt sich nun durch die Produktregel einfach behandeln:
0
f
f 0 (x) f (x)g 0 (x)
−
(x) =
g
g(x)
g(x)2
Erweitert man den ersten Summanden auf der rechte Seite mit dem Faktor g(x)
ergibt sich die Behauptung.
Beispiele:
1. Mittels der Quotientenregel lässt sich die Ableitung von f (x) = x−n leicht
ermitteln:
f 0 (x) = −
(xn )0
nxn−1
=
−
= −nx−n−1 .
x2n
x2n
150
M. Braack - Differenzierbare Funktionen
2. Der Tangens ist definiert als Quotient aus Sinus und Cosinus. Der Definitionsbereich ist x ∈ R \ {π + 2kπ : k ∈ Z}:
tan(x) :=
sin(x)
.
cos(x)
Die Ableitung erhält man mit der Quotientenregel und Lemma 9.12:
tan0 (x) =
sin0 (x) cos(x) − sin(x) cos0 (x)
cos2 (x) + sin2 (x)
1
=
=
.
2
2
cos (x)
cos (x)
cos2 (x)
Satz 10.8 (Ableitung der Umkehrfunktion) Ist f : [a, b] → R in y ∈ [a, b]
differenzierbar mit Ableitung f 0 (y) 6= 0, so ist die Umkehrfunktion f −1 in einer
Umgebung von x = f (y) wohldefiniert und im Punkt x differenzierbar mit Ableitung:
(f −1 )0 (x) =
1
f 0 (y)
.
Beweis. Wir setzen y := f −1 (x) und yh := f −1 (x + h) (wohldefiniert für |h|
hinreichend klein)
1 −1
yh − y
(f (x + h) − f −1 (x)) =
h
(x + h) − x
−1
yh − y
f (yh ) − f (y)
=
=
f (yh ) − f (y)
yh − y
Dh f −1 (x) =
Der Grenzübergang h → 0 impliziert yh → y aufgrund der Stetigkeit von f −1 und
somit
f (yh ) − f (y)
= f 0 (y) .
h→0
yh − y
lim
Beispiel: Da der Logarithmus ln(x) die Umkehrfunktion der Exponentialfunktion
ist, können wir nun die Ableitung ausrechnen, da exp0 (y) = exp(y) und y = ln(x)
ln0 (x) =
1
1
1
=
=
.
exp(y)
exp(ln(x))
x
Satz 10.9 (Kettenregel) Sind g : D → R, D ⊆ R in x ∈ D differenzierbar und
ist f : E → R im Punkt y = g(x) ∈ E differenzierbar, so ist auch f ◦ g im Punkt x
differenzierbar mit Ableitung:
(f ◦ g)0 (x) = f 0 (g(x)) · g 0 (x) .
10.1 Differentiationsregeln
151
Beweis. Zunächst stellen wir f (yh ) für yh = g(x + h) mittels Lemma 10.3 dar:
f (yh ) = f (y) + f 0 (y0 )(yh − y0 ) + ϕ(yh − y0 ) .
Hierbei gilt ϕ(yh − y0 ) = o(h). Diese Darstellung verwenden wir innerhalb des Differenzenquotienten:
1
(f (yh ) − f (y0 ))
h
1 0
=
f (y0 )(yh − y) + ϕ(yh − y0 )
h
1
1
0
(g(x + h) − g(x)) + ϕ(yh − y0 ) .
= f (g(x))
h
h
Dh (f ◦ g)(x) =
Da ϕ(yh − y0 ) = o(h) folgt für den Grenzübergang h1 ϕ(g(x + h)) → 0 (h → 0), so
dass wir die Behauptung erhalten.
Beispiele:
1. Die allgemeine Exponentialfunktion x 7→ ax ist die Verkettung der Exponentialfunktion f (y) = exp(y) und der linearen Funktion g(x) = x ln(a):
ax = exp(x ln(a)) = f (g(x)) .
Als Ableitung erhalten wir daher aufgrund der Kettenregel
(ax )0 = exp0 (y) · (x ln(a))0 = exp(x ln(a)) ln(a) = ax ln(a) .
2. Die Ableitung der allgemeinen Potenzfunktion x 7→ xa ist hingegen:
(xa )0 = (exp(a ln(x))0 = exp0 (a ln(x)) · (a ln(x))0 = exp0 (a ln(x))
a
x
= axa−1 .
Es gibt Funktionen, die differenzierbar sind, aber deren Ableitungen nicht stetig
sind. Ein Beispiel ist die Funktion
2
x sin(1/x) für x 6= 0,
f (x) =
0
für x = 0.
Für die Ableitung in Punkten x 6= 0 gilt nach der Produkt- und Kettenregel:
f 0 (x) = 2x sin(1/x) − cos(1/x) .
Der Grenzwert von f 0 (x) für 0 6= x → 0 existiert offensichtlich nicht. Wenn wir uns
aber den Differenzenquotienten direkt im Nullpunkt anschauen, erhalten wir:
Dh f (0) =
h2 sin(1/h)
= h sin(1/h) .
h
152
M. Braack - Differenzierbare Funktionen
10.2
Lokale Extrema und der Mittelwertsatz der
Differentialrechnung
Definition 10.10 Eine Funktion f : D → R, D ⊂ R, hat im Punkt x0 ∈ D ein
lokales Maximum (lokales Minimum), wenn eine Umgebung U ⊂ D von x0
existiert, so dass f (x) ≤ f (x0 ) (f (x) ≥ f (x0 ) für alle x ∈ U . Unter einem lokalen
Extremum versteht man ein lokales Maximum oder lokales Minimum.
Satz 10.11 (Notwendige Bedingung lokaler Extrema) Eine in einer Umgebung eines Punktes x0 ∈ D differenzierbare Funktion f : D → R besitze in x0 ein
lokales Extremum. Dann gilt f 0 (x0 ) = 0.
Beweis. Wir beweisen den Fall, dass f in x0 ein lokales Minimum besitzt. Da
f (x) ≥ f (x0 ) in einer Umgebung von x0 gilt für den Differenzenquotienten Dh f , mit
0 < h < und > 0 hinreichend klein:
Dh f (x0 ) =
f (x0 + h) − f (x0 )
≥ 0.
h
Für negative h mit − < h < 0 gilt entsprechend Dh f (x0 ) ≤ 0. Aufgrund der
Differenzierbarkeit von f im Punkt x0 muss der Differenzenquotient für h → 0
konvergieren. Mit obiger Überlegungen gilt
f 0 (x0 ) ≤ 0 ≤ f 0 (x0 ) .
Die Ableitung kann damit nur Null sein, also f 0 (x0 ) = 0. Für lokale Maxima schließt
man entsprechend.
Bemerkungen:
1. Diese Bedingung ist nur eine notwendige Bedingung. Dies heißt, dass aus
f 0 (x0 ) = 0 noch nicht folgt, dass f in x0 ein Extremum besitzen muss. Ein
Gegenbeispiel ist die Funktion f (x) = x3 . Diese Funktion ist streng monton
wachsend aber es gilt f 0 (x) = 3x2 . Im Nullpunkt verschwindet die Ableitung
also, obwohl die Funktion hier kein Extremum besitzt.
2. Möchte man eine stetige Funktion auf einem abgeschlossenen Intervall, f :
[a, b] → R, auf lokale Extrema überprüfen, so muss man nicht nur mögliche
Extrema mittels f 0 (x) = 0 in (a, b), sondern auch die Randpunkte f (a) und
f (b) als mögliche Kandidaten für lokale Extrema überprüfen.
Satz 10.12 (Satz von Rolle) Sei f : [a, b] → R im Intervall [a, b] differenzierbar
und f (a) = f (b). Dann besitzt die Ableitung f 0 in (a, b) (mindestens) eine Nullstelle.
10.2 Lokale Extrema und der Mittelwertsatz der Differentialrechnung
153
Beweis. Im Fall f = const. ist die Behauptung sicherlich erfüllt. Wenn hingegen
f im Intervall [a, b] nicht konstant ist, so muss sie hier wegen f (a) = f (b) ein lokales
Extremum besitzen. An diesem Extremum x gilt dann f 0 (x) = 0 aufgrund von
Satz 10.11.
Satz 10.13 (Mittelwertsatz der Differentialrechnung) Sei f : [a, b] → R im
Intervall [a, b] differenzierbar. Dann existiert ein x ∈ [a, b] mit
f 0 (x) =
f (b) − f (a)
.
b−a
Beweis. Wir betrachten die Funktion
g(x) := f (x) − (x − a)
f (b) − f (a)
.
b−a
Es gilt g(a) = f (a) und g(b) = f (a). Also ist der Satz von Rolle 10.12 anwendbar. Dieser liefert die Existenz eines Punktes x ∈ [a, b] mit g 0 (x) = 0. Da sich die
Ableitung von g ergibt aus
g 0 (x) = f 0 (x) −
f (b) − f (a)
,
b−a
erhalten wir die Behauptung.
Korollar 10.14 Ist f : I → R auf dem offenen Intervall I = (a, b) differenzierbar
und f 0 ≥ 0 (f 0 > 0) in I. Dann ist f in I (streng) monoton wachsend. Im Fall
f 0 ≤ 0 (f 0 < 0) in I ist f in I (streng) monoton fallend.
Beweis. Wir beweisen nur den Fall f 0 ≥ 0, da die übrigen Fälle analog behandelt
werden. Für a < x < y < b existiert aufgrund des Mittelwertsatzes der Differentialrechnung stets ein ξ ∈ (x, y) mit
f 0 (ξ) =
f (y) − f (x)
.
y−x
Da nach Voraussetzung f 0 (ξ) ≥ 0 und y > x, folgt f (y) ≥ f (x). Dies war zu zeigen.
Um eine hinreichende Bedingung für lokale Extrema zu formulieren benötigen wir
den Begriff einer zweiten Ableitung f 00 (x), oder auch mit f (2) (x) bezeichnet. Hierunter versteht man die Ableitung von f 0 im Punkt x, sofern f 0 an der Stelle x wieder
differenzierbar ist. Analog definiert man höhere Ableitungen f 000 , f (4) , . . ..
154
M. Braack - Differenzierbare Funktionen
Definition 10.15 Eine Funktion f : D → R heißt n-mal differenzierbar in D,
wenn die Ableitungen f 0 , f 00 , . . . , f (n) in D definiert sind. Ist f (n) außerdem stetig in
D, so ist f n-mal stetig differenzierbar in D.
Korollar 10.16 (Hinreichende Bedingung für lokale Extrema) Ist f : I →
R auf dem offenen Intervall I = (a, b) zweimal differenzierbar und es gelte f 0 (x) = 0
für x ∈ I. Dann gilt:
• f 00 (x) > 0 =⇒ f hat in x ein lokales Minimum,
• f 00 (x) < 0 =⇒ f hat in x ein lokales Maximum,
Beweis. Es gelte f 0 (x) = 0 und f 00 (x) > 0. Folglich gilt für |h| < ( hinreichend
klein) Dh (f 0 )(x) > 0, also
1 0
(f (x + h) − f 0 (x)) > 0 .
h
Da nach Voraussetzung f 0 (x) = 0, ist dies gleichbedeutend mit
f 0 (x + h)
> 0.
h
Folglich ist f 0 (x + h) < 0 für − < h < 0 und f 0 (x + h) > 0 für 0 < h < . Daher
ist f im Intervall (x − , x) streng monoton fallend und in (x, x + ) streng monoton
wachsend. Dies impliziert die Existenz eines lokalen Minimums in x.
Bemerkungen: Auch hier ist zu beachten, dass dies nur eine hinreichende Bedingung
für lokale Extrema ist. Beispielsweise besitzt f (x) = x4 im Nullpunkt ein lokales
Minimum aber f 00 (0) = f 0 (0) = 0.
Beispiele:
1. Gegeben seinen n ∈ N reelle Zahlen a1 , . . . , an . Gesucht sei x ∈ R, so dass
n
X
f (x) =
(x − ai )2
i=1
minimal wird. Es gilt
f 0 (x) =
n
X
2(x − ai ) = 2 nx −
i=1
Die Bedingung f 0 (x) = 0 impliziert also x =
Mittel). Für die zweite Ableitung gilt:
n
X
!
ai
.
i=1
1
n
f 00 (x) = 2n > 0 .
Pn
i=1
ai = a (arithmetisches
10.3 Taylor-Entwicklung
155
Also ist die hinreichende Bedingung für die Existenz eines lokalen Minimums
für x = a erfüllt. Da f 0 keine weitere Nullstelle hat, muss dies sogar das globale
Minimum sein.
2. Wir wollen das Rechteck mit Flächeninhalt 1 und minimalem Umfang ermitteln. Sind die Seitenlängen also x ≥ 0 und y ≥ 0, so ist wegen xy = 1: y = 1/x.
Der Umfang beträgt 2(x + y), bzw.
f (x) = 2(x + 1/x) .
Die Ableitung ist f 0 (x) = 2(1 − x−2 ). Deren einzige Nullstelle ist x2 = 1, bzw.
x = 1. Da f 00 (x) = 4/x3 > 0 für x > 0 handelt es sich hierbei tatsächlich um
ein lokales Minimum. In diesem Sinne ist das “optimale” Rechteck also ein
Quadrat der Kantenlänge 1.
10.3
Taylor-Entwicklung
Definition 10.17 Sei f : I → R auf dem offenen Intervall I := (a, b) ⊂ R eine
n-mal stetig differenzierbare Funktion. Dann heißt zu x0 ∈ I das Polynom
1
1
1
Tn,x0 (h) := f (x0 ) + f 0 (x0 )h + f 00 (x0 )h2 + f (3) (x0 )h3 + . . . + f (n) (x0 )hn
2
3!
n!
n
(k)
X
f (x0 ) k
=
h ,
k!
k=0
das n-te Taylor-Polynom von f um x0 .
(j)
Offensichtlich ist Tn,x0 ∈ R[x] vom Grad deg(Tn,x0 ) ≤ n und Tn,x0 (0) = f (j) (x0 )/j!
für 0 ≤ j ≤ n.
Die Frage, ob sich eine Funktion durch ein Taylor-Polynom approximieren läßt
wird durch den folgenden Satz beantwortet:
Satz 10.18 (Satz von Taylor) Sei f : I → R auf dem offenen Intervall I :=
(a, b) ⊂ R eine (n + 1)-mal stetig differenzierbare Funktion. Dann existiert zu x0 ∈ I
eine Darstellung, die sogenannten Taylor-Entwicklung:
f (x0 + h) = Tn,x0 (h) +
f (n+1) (ξ) n+1
h
(n + 1)!
mit einem ξ zwischen x0 und x0 + h.
∀h ∈ (a − x0 , b − x0 ) ,
156
M. Braack - Differenzierbare Funktionen
Beweis. Man muss für das Restglied
Rn,x0 (h) := f (x0 + h) − Tn,x0 (h)
zeigen, dass es ein ξ ∈ [x0 , x0 + h] (bzw. ξ ∈ [x0 + h, x0 ]) gibt, so dass gilt:
f (n+1) (ξ) = (n + 1)! · h−n−1 Rn,x0 (h) .
Dies beweist man mit einer Verallgemeinerung des Mittelwertsatzes der Differentialrechnung 10.13. Dies wollen wir hier nicht ausführen.
Korollar 10.19 Sei f : I → R auf dem offenen Intervall I := (a, b) ⊂ R eine
(n + 1)-mal stetig differenzierbare Funktion, deren (n + 1)-te Ableitung f (n+1) in I
beschränkt sind. Dann gilt:
|f (x0 + h) − Tn,x0 (h)| = O(hn+1 ) .
Beweis. Dies ist eine unmittelbare Folgerung aus dem Satz von Taylor, da
Rn,x0 (h) = O(hn+1 ) .
Beispiele:
1. Die Taylor-Entwicklung der Exponentialfunktion exp(x) um x0 = 0 lautet:
n
X
1 k
x + O(xn+1 ) ,
exp(x) =
k!
k=0
da exp(n) (0) = exp(0) = 1. Dies ist also gerade die Reihe, mittels der exp(h)
definiert war, aber abgebrochen nach dem n-ten Glied.
2. Die Taylor-Entwicklung der Sinus-Funktion sin(h) um x0 = 0 lautet:
sin(x) = x −
x3 x5
+
− . . . + O(xn+1 ) ,
3!
5!
da sin(2k) (0) = ± sin(0) = 0 und sin(2k+1) (0) = ± cos(0) = ±1.
3. Die Taylor-Entwicklung des Logarithmuses ln(1 + x) (also um x0 = 1) lautet:
ln(1 + x) =
n
X
(−1)k−1
k=1
k
xk + O(xn+1 ) ,
da ln(k) (1) = (−1)k−1 (k − 1)!. Speziell für ln(2) erhält man die alternierende
harmonische Reihe.
10.4 Approximation von Ableitungen
10.4
157
Approximation von Ableitungen
In der Praxis kommt es häufig vor, dass man mit Ableitungen für Funktionen arbeiten muss, die nicht in analytischer Form gegeben sind. Denkbar ist z.B. dass man die
Funktion f nur an diskreten Punkten auswerten kann (z.B. mittels einer Messung).
Wie können wir trotzdem mit Ableitungen arbeiten ?
Unter dem zentralen Differenzenquotienten 1. Ordnung versteht man
1
(f (x + h) − f (x − h)) ≈ f 0 (x) .
2h
Der zentrale Differenzenquotient 2. Ordnung lautet
(1)
Dh f (x) :=
1
(f (x + h) − 2f (x) + f (x − h)) ≈ f 00 (x) .
h2
Das folgende Lemma macht eine qualitative Aussage über die Güte dieser Differenzenquotienten. Wir benutzen die Notation
(2)
Dh f (x) :=
||f ||I,∞ := sup |f (x)| .
x∈I
für die Supremumsnorm in einem Intervall I.
Lemma 10.20 Ist f : I → R im Intervall I := [a, b] 4-mal stetig differenzierbar, so
gilt
1 2 (3)
h ||f ||I,∞ + O(h3 ) .
6
Ist f in I 5-mal stetig differenzierbar, so gilt
(1)
||f 0 − Dh f ||I,∞ ≤
1 2 (4)
h ||f ||I,∞ + O(h3 ) .
12
Beweis. Wir benutzen die Taylorentwicklung von f :
(2)
||f 00 − Dh f ||I,∞ ≤
1
1
f (x − h) = f (x) − f 0 (x)h + f 00 (x)h2 − f 000 (x)h3 + O(h4 )
2
6
1
1
f (x + h) = f (x) + f 0 (x)h + f 00 (x)h2 + f 000 (x)h3 + O(h4 ) .
2
6
Für den zentralen Differenzenquotienten 1. Ordnung ergibt sich damit:
(1)
1
(f (x + h) − f (x − h))
2h 1
1 000
0
3
4
2f (x)h + f (x)h + O(h )
=
2h
3
1
= f 0 (x) + f 000 (x)h2 + O(h3 )
6
Dh f (x) =
158
M. Braack - Differenzierbare Funktionen
Insgesamt folgt:
1
(1)
f 0 (x) − Dh f (x) = − f 000 (x)h2 + O(h3 ) .
6
(1)
(2)
Hieraus folgt die Behauptung für Dh f . Den Nachweis für Dh f lassen wir als
Übungsaufgabe.
10.5
Newton-Verfahren
Das Newton-Verfahren ist eine Methode zur approximativen Lösung nichtlinearer
Gleichungen der Form:
f (x) = 0 ,
also zur Bestimmung von Nullstellen. Hierbei kann die Funktion durchaus nichtlinear
sein. Die Voraussetzungen sind allerdings:
• f ist differenzierbar und
• man kennt eine “gute” Näherungslösung x0 .
Das Verfahren beruht nun auf einer iterativen Bestimmung von Näherungslösung
en:
xn+1 = xn −
f (xn )
,
f 0 (xn )
n ≥ 0.
Das Verfahren wird abgebrochen, wenn ein Abbruchkriterium erreicht ist, z.B. wenn
|f (xn )| ≤ abs
und
|f (xn )| ≤ rel |f (x0 )| ,
mit vorgegebener absoluter Toleranz abs und relativer Toleranz rel . Diese sind
selbstverständlich in Abhängigkeit der Maschinengenauigkeit des eingesetzten Rechners zu wählen (z.B. rel , abs ∼ 10−8 ).
Dieses Verfahren lässt sich grafisch folgendermaßen veranschaulichen: Man legt
durch den Punkt (xk , f (xk )) die Tangente zur Funktion f . Der neue Kandidat für
eine Nullstelle ist nun gerade der Punkt xk+1 der sich als Nullstelle dieser Tangente
ergibt; siehe hierzu Abbildung 10.1.
10.5 Newton-Verfahren
159
Abbildung 10.1: Das Newton Verfahren zur Bestimmung einer Nullstelle.
Beispiele:
1. Wir wollen die Lösung der Gleichung
x3 = 10
bestimmen. Hierzu setzen wir f (x) = x3 − 10 und als Startwert x0 = 2. Die
Ableitung lautet f 0 (x) = 3x2 . Wir erhalten:
23 − 10
13
f (x0 )
=
2
−
=
= 2, 16667 ,
f 0 (x0 )
3 · 22
6
x31 = 10, 1713 . . .
13
f (13/6)
f (x1 )
=
− 0
= 2, 1545 . . . ,
= x1 − 0
f (x1 )
6
f (13/6)
x32 = 10, 00091 . . .
f (x2 )
0, 0342
= 2, 1545 − 0
= 2, 1544347 ,
= x1 − 0
f (x2 )
f (2, 1568889)
x33 = 10, 00000003 . . .
x1 = x0 −
x2
x3
Die “exakte” Lösung lautet in der Tat x = 2, 1544347 . . ..
2. Zur Berechnung der k-ten Wurzel einer Zahl a > 0 wählen wir f (x) = xk − a.
Die Ableitung ist f 0 (x) = kxk−1 . Die Newton-Iteration ergibt sich somit zu:
xn+1
1
a
xkn − a
= xn (1 − ) + k−1
= xn −
k−1
kxn
k
kxn
1
a
=
(k − 1)xn + k−1 .
k
xn
160
M. Braack - Differenzierbare Funktionen
Im Speziallfall der Quadratwurzel, also k = 2, erhält man:
1
a
xn+1 =
xn +
.
2
xn
Dies ist gerade die rekursiv definierte Folge aus Abschnitt 7.2.7.
Um die Güte der Konvergenz eines iterativen Verfahrens zu beurteilen, benötigen
wir den Begriff der Konvergenzordnung:
Definition 10.21 Ein Iterationsverfahren zur Berechnung einer Größe x∗ ∈ R
heißt konvergent von der Ordnung α, α ≥ 1, wenn
|xn − x∗ | ≤ c|xn−1 − x∗ |α ,
mit einer Konstanten c > 0. Im Fall α = 2 spricht man von quadratischer Konvergenz.
Lemma 10.22 Ein iteratives Verfahren der Ordnung α = 1 ist konvergent, wenn
die Konstante c kleiner als 1 gewählt werden kann. In diesem Fall spricht man von
linearer Konvergenz mit linearer Konvergenzrate c < 1.
Beweis. Es gilt:
|xn − x∗ | ≤ c|xn−1 − x∗ | ≤ c2 |xn−2 − x∗ |
.
≤ ..
≤ cn |x0 − x∗ | .
Wenn nun c < 1 ist, so folgt limn→∞ |xn − x∗ | = 0.
Lemma 10.23 Ein iteratives Verfahren der Ordnung α > 1 ist immer konvergent,
sofern der Startwert x0 hinreichend nah an x∗ ist.
Beweis. Entsprechend den Überlegungen zuvor erhält man :
|xn − x∗ | ≤ c|xn−1 − x∗ |α
≤ ccα |xn−2 − x∗ |α·α
.
≤ ..
=
n−1
|x0 − x∗ |α
αn
cd |x0 − x∗ |
≤ ccα . . . cα
n
10.5 Newton-Verfahren
161
mit der geometrischen Reihe
d = α
−n
(1 + α + . . . + α
n−1
) =
n
X
α−k ≤
k=1
X
k∈N
α−k − 1 =
1
1
,
−1=
−1
1−α
α−1
Ist nun |x0 − x∗ | < cα−1 so folgt limn→∞ xn = x∗ .
Selbstverständlich ist ein iteratives Verfahren der Ordnung α > 1 unabhängig
von der Startlösung konvergent, wenn c < 1 ist. Bei dem Newton-Verfahren liegt bei
geeigneter Wahl der Startlösung quadratische Konvergenz vor. Dies bedeutet, dass
sich die Anzahl der korrekten Stellen je Iterationsschritt verdoppelt:
Satz 10.24 Die Funktion f : I → R sei im Intervall I = [a, b] zweimal stetig
differenzierbar, besitze eine Nullstelle x∗ ∈ I und es sei minx∈I |f 0 (x)| > 0. Dann ist
das Newton-Verfahren von zweiter Ordnung konvergent gegen x∗ .
Wichtig ist hierbei zu erwähnen, dass das Newton-Verfahren beileibe nicht immer
konvergent ist, selbst wenn die Voraussetzungen des Satzes erfüllt sind. Bei der quadratischen Konvergenz muss, wie oben bereits erwähnt, die Startlösung hinreichend
nahe an der Lösung sein. Ebenso ist es möglich, dass eine extrem langsame Konvergenz vorliegt, so dass man (zunächst) keine quadratische Konvergenz erkennt.
Wenn wir beispielsweise die Gleichung ex = 2, bzw. die Nullstelle von f (x) = ex − 2,
mit dem Newton-Verfahren bestimmen wollen, so erhalten wir mit dem Startwert
x0 = −10:
x1 = x0 − (ex0 − 2)/ex0 = x0 − 1 + 2/ex0 = −11 + 2e10 ≈ 44042
x2 = 44041 + 2e−44042 ≈ 44041
x3 = 44040 + 2e−44041 ≈ 44040 .
Es ist also der Fall extrem langsamer Konvergenz zu beobachten. Erst wenn man
mehrere 1000 Iterationen gemacht hat, wird man letztendlich die schnelle quadratische Konvergenz beobachten.
162
M. Braack - Differenzierbare Funktionen
Literaturverzeichnis
[1] G. Berendt. Mathematik für Informatiker. Wissenschaftsverlag, Mannheim,
1994.
[2] M. Brill. Mathematik für Informatiker. Hauser Verlag, München, 2. edition,
2005.
[3] D. Hachenberger. Mathematik für Informatiker. Pearson Studium, München,
2. Aufl., 2008.
[4] G. Fischer. Lineare Algebra. Vieweg Verlag, Braunschweig, 1986.
[5] G. Teschl und S. Teschl. Mathematik für Informatiker, Teil I. Springer Verlag,
Berlin, 2006.
[6] G. Teschl und S. Teschl. Mathematik für Informatiker, Teil II. Springer Verlag,
Berlin, 2006.
[7] P. Hartmann. Mathematik für Informatiker. Vieweg Verlag, Wiesbaden, 4.
edition, 2006.
[8] O. Forster. Analysis 1. Vieweg Verlag, Braunschweig, 7. Aufl., 2004.
[9] O. Forster. Analysis 2. Vieweg Verlag, Braunschweig, 2006.
[10] W. Struckmann und D. Wätjen. Mathematik für Informatiker. Spektrum Akademischer Verlag (Elsevier), München, 2007.
Herunterladen