Inhaltsverzeichnis - G-CSC

Werbung
Inhaltsverzeichnis
1 Grundlagen
1.1 Mathematische Sprache .
1.2 Beweistechniken . . . . .
1.3 Mengen . . . . . . . . .
1.4 Abbildungen . . . . . . .
1.5 Natürliche Zahlen N und
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
vollständige Induktion
2 Zahlen
2.1 Die Gruppe der ganzen Zahlen Z . . . . . .
2.2 Der Körper der rationalen Zahlen Q . . . . .
2.3 Der Körper der reellen Zahlen R . . . . . . .
2.4 Mächtigkeit von Mengen und Abzählbarkeit
2.5 Rechnerarithmetik . . . . . . . . . . . . . .
2.6 Der Körper der komplexen Zahlen C . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
7
9
14
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
25
27
30
37
40
44
3 Konvergenz, Folgen und Reihen
3.1 Konvergenz . . . . . . . . . . . . . . . . . . . .
3.2 Bestimmung von Konvergenz und Grenzwerten .
3.3 Häufungspunkte und Teilfolgen . . . . . . . . .
3.4 Reihen . . . . . . . . . . . . . . . . . . . . . . .
3.5 Konvergenzkriterien für Reihen . . . . . . . . .
3.6 Potenzreihen . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
52
55
56
59
61
.
.
.
.
.
63
63
64
67
69
72
.
.
.
.
.
75
76
78
80
83
86
4 Stetigkeit
4.1 Intervalle . . . . . . . . . . . . . . .
4.2 Folgenstetigkeit . . . . . . . . . . .
4.3 -δ-Stetigkeit . . . . . . . . . . . .
4.4 Rechenregeln für stetige Funktionen
4.5 Zwischenwertsatz . . . . . . . . . .
.
.
.
.
.
5 Differentiation
5.1 Ableitung von Funktionen . . . . . .
5.2 Ableitung als lineare Approximation
5.3 Ableitungsregeln . . . . . . . . . . .
5.4 Extrema und Mittelwertsatz . . . . .
5.5 Taylorreihe . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Inhaltsverzeichnis
5.6
Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Integration
6.1 Zerlegungen und Flächeninhalte . . . . . . . . . .
6.2 Riemann-Integral . . . . . . . . . . . . . . . . . .
6.3 Hauptsatz der Differential- und Integralrechnung .
6.4 Integrationsregeln . . . . . . . . . . . . . . . . . .
6.4.1 Partielle Integration . . . . . . . . . . . .
6.4.2 Substitutionsregeln . . . . . . . . . . . . .
6.5 Quadraturformeln . . . . . . . . . . . . . . . . . .
91
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
97
99
106
107
107
108
109
7 Vektorräume
7.1 Der n-dimensionale reelle Raum Rn . . . . . . . . . .
7.2 Raum von Folgen und Funktionen . . . . . . . . . . .
7.3 Allgemeine Definition von Vektorräumen . . . . . . .
7.4 Linearkombination, Span und lineare Unabhängigkeit
7.5 Basis und Dimension . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
113
113
117
120
122
126
.
.
.
.
.
131
131
135
153
161
171
8 Lineare Abbildungen
8.1 Lineare Gleichungssysteme und Matrizen .
8.2 Lösungsmengen, Kern und Bild . . . . . .
8.3 Elementarmatrizen und inverse Matrizen .
8.4 Lineare Abbildungen . . . . . . . . . . . .
8.5 Basiswahl und Koordinatentransformation
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Determinanten
183
9.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.2 Berechnung von Determinanten . . . . . . . . . . . . . . . . . . . . . . . 189
9.3 Determinante eines Endomorphismus . . . . . . . . . . . . . . . . . . . . 195
10 Eigenwerte
10.1 Eigenwert, Eigenvektor und Eigenräume . . . . . . . . . . . . . . . . . .
10.2 Das charakteristische Polynom . . . . . . . . . . . . . . . . . . . . . . . .
10.3 Diagonalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
197
197
202
207
11 Euklidische und unitäre Vektorräume
11.1 Norm und Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.2 Orthogonale Vektoren und Abbildungen . . . . . . . . . . . . . . . . . .
11.3 Adjungierte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . .
213
213
217
223
12 Metrische Räume
12.1 Metrik, Konvergenz und Vollständigkeit .
12.2 Offene und abgeschlossene Mengen . . .
12.3 Inneres, Äußeres, Rand und Abschluss .
12.4 Stetige Abbildungen . . . . . . . . . . .
229
229
232
235
237
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Inhaltsverzeichnis
13 Differentiation im Rn
13.1 Partielle Ableitung . . . . . . . . . . . . .
13.2 Gradient, Jacobi-Matrix, Laplace-Operator
13.3 Differenzierbarkeit . . . . . . . . . . . . .
13.4 Taylorentwicklung und Extrema . . . . . .
13.5 Newton-Verfahren . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
243
243
246
248
252
254
3
1 Grundlagen
1.1 Mathematische Sprache
Möchte man mathematische Sachverhalte ausdrücken, so verwendet man dafür eine Sprache, die präziser in seiner Aussagekraft ist als dies zum Beispiel in der Alltagssprache
üblich ist. Dadurch sollen mathematische Zusammenhänge übersichtlich und kompakt
darstellbar sein und vor allem sollen mathematische Aussagen beweisbar werden. Es hat
sich dazu ein gebräuchlicher Zeichenvorrat entwickelt, der neben weiteren grundlegenden
Begriffen im Folgenden vorgestellt werden soll.
Mathematische Aussagen
Eine mathematische Aussage ist ein Satz, der wahr oder falsch sein kann. So ist zum
Beispiel der Satz
„Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“
eine Aussage, die wahr ist. Zwei Dinge sind bei der Betrachtung von Aussagen wichtig:
(i) Eine Aussage ist immer ein ganzer Satz. Aussagen der Form „x2 + 3“ sind nur
Terme, deren Wahrheitsgehalt sich nicht ermitteln lässt.
(ii) Eine Aussage ist immer entweder wahr oder falsch („Tertium non datur“; Prinzip
des ausgeschlossenen Dritten). Dabei ist durchaus möglich, dass noch nicht bekannt
ist, ob eine Aussage wahr oder falsch ist (z.B. da noch kein Beweis gefunden ist).
Aussagen werden gewöhlich mit lateinischen Großbuchstaben bezeichnet. Man verwendet
bei der Angabe das Definitionssymbol := („ist definiert durch“). Zudem können Aussagen
auch von Variablen abhängen. Durch Einsetzen eines konkreten Wertes für die Variable
kann dann der Wahrheitsgehalt der so entstandenen Aussage ermittelt werden. Dadurch
lassen sich ganze Klassen von Aussagen kompakt angeben.
Beispiele 1.1
(i) A := „Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“
(ii) B(n) := „n + n ist eine gerade Zahl.“
(iii) C(n) := „n2 + 2n = 8“
(iv) D := „2 = 3“
5
1 Grundlagen
A
w
f
w
f
B
w
w
f
f
A∧B
w
f
f
f
A∨B
w
w
w
f
A xor B
f
w
w
f
A
w
f
¬A
f
w
Tabelle 1.1: Wahrheitstafeln (w: wahr; f: falsch)
Hierbei ist sowohl A als auch B(n) für alle natürlichen Zahlen eine wahre Aussage. Die
Gültigkeit von C(n) hängt vom gewählten n ab und D ist falsch.
Kombination und Folgerung von Aussagen
In der Alltagssprache ist es üblich Aussagen zu verneinen oder durch die Wörter „und“,
„oder“, etc. zu neuen Aussagen zusammenzusetzen. Dies wird auch bei mathematischen
Aussagen gemacht. Die dabei entstehenden zusammengesetzten Aussagen sind wiederum
Aussagen, die wahr oder falsch sein können. Die Verknüpfungen werden mathematisch
präzise über Wahrheitstafeln definiert.
Seien A, B Aussagen, dann schreibt man:
(i) A ∧ B: „A und B sind wahr“ (Konjunktion)
(ii) A ∨ B: „A oder B ist wahr“ (Disjunktion)
(iii) ¬A: „A ist falsch / A gilt nicht“ (Negation)
(iv) A xor B: „Entweder A oder B ist wahr“ (Kontravalenz)
Je nach Wahrheitsbelegung der ursprünglichen Aussagen besitzt die zusammengesetzte
Aussage einen Wahrheitswert gemäß Tabelle 1.1. Wesentlich sind die Punkte:
(i) A ∧ B ist genau nur dann wahr, wenn beide Aussagen A und B wahr sind.
(ii) A ∨ B ist wahr, sobald mindestens eine der Aussagen A oder B wahr ist. Es dürfen
dabei auch beide Aussagen wahr sein (inklusive oder ).
(iii) A xor B ist wahr, wenn genau nur eine der Aussagen A oder B wahr ist. Sind A
und B wahr, dann wird die Zusammensetzung falsch (exklusives oder ).
Folgt aus A die Gültigkeit der Aussage B („Wenn A gilt, dann gilt auch B“ (Implikation)), so schreibt man dies als
A ⇒ B.
In diesem Fall bezeichnet man die Aussage A als hinreichend für die Gültigkeit von B.
Verliert die Aussage B immer ihre Gültigkeit, sobald A nicht gültig ist (¬A ⇒ ¬B), so
bezeichnet man A als notwendig für B.
6
1.2 Beweistechniken
Man beachte, dass es bei der Folgerung A ⇒ B jedoch zwei Möglichkeiten gibt:
- A ist wahr, B ist wahr - das ist der übliche, gewünschte Fall der Schlussfolgerung.
- A ist falsch, B ist wahr oder falsch - d.h., aus einer falschen Aussage lässt sich alles
schlussfolgern.
Um auszudrücken, dass zwei Aussagen A, B gleichwertig sind („A gilt genau dann,
wenn B gilt“ (Äquivalenz)), schreibt man
A ⇔ B.
Quantoren
Oftmals möchte man Aussagen tätigen, die von äußeren Parametern abhängen. Dabei
stellt sich dann zum Beispiel die Frage, ob die Aussage für alle möglichen Parameter
gültig ist oder ob überhaupt ein Parameter existiert, für den diese Aussage gültig wird.
Dies lässt sich über sogenannte Quantoren ausdrücken, die sich wie folgt lesen:
(i) ∀: „für alle“
(ii) ∃: „es existiert (mindestens) ein“
(iii) ∃!: „es existiert genau ein“
(iv) @: „es existiert kein“
Beispiel 1.2
Sei B(n) := „n + n ist eine gerade Zahl.“ und C(n) := „n2 + 2n = 8“.
(i) D := „∀n : B(n)“
(ii) E := „∃n : C(n)“
(iii) F := „∀n : C(n)“
Die beiden Aussagen D, E sind beide wahr. Hingegen ist die Aussage F falsch.
1.2 Beweistechniken
In der Mathematik geht man davon aus, dass es gewissse Aussagen gibt, die gültig sind.
Diese nennt man Axiome. Ausgehend von diesen Grundwahrheiten werden dann alle
weiteren Aussagen gefolgert. Für die Schlussfolgerungen gibt es ein paar grundlegende
Techniken, die sich oft anwenden lassen.
Direkter Beweis
Die einfachste Form des Beweises ist die direkte Schlussfolgerung. Dabei wird ausgehend
von als wahr bekannten (bzw. als Axiom vorausgesetzen) Aussagen eine weitere wahre
Aussage gefolgert. Dazu ein Beispiel:
7
1 Grundlagen
Satz 1.3 (Quadratzahlen von geraden Zahlen sind gerade)
Sei n eine gerade natürliche Zahl. Dann ist auch n2 eine gerade natürliche Zahl.
Beweis. Sei A := „n eine gerade natürliche Zahl“. Daraus wird nun gezeigt, dass sich
durch eine Kette von Implikationen die Aussage B := „n2 eine gerade natürliche Zahl“
folgern lässt.
n gerade ⇒ Es gibt eine natürliche Zahl m mit n = 2 · m
⇒ n2 = (2 · m)2 = 4 · m2 = 2 · (2 · m2 )
⇒ n2 gerade.
Äquivalenzbeweis
Ein Äquivalenzbeweis dient dazu die Gleichheit zweier Aussagen zu zeigen: A ⇔ B. Dies
wird dadurch bewiesen, dass man einen direkten Beweis in beide Richtungen ausführt:
Man zeigt sowohl A ⇒ B als auch B ⇒ A. Hieraus sieht man die Gleichheit der
Aussagen.
Beweis durch Kontraposition
Möchte man A ⇒ B zeigen, so kann man stattdessen auch die äquivalente Aussage
¬B ⇒ ¬A zeigen, denn es gilt:
(A ⇒ B) ⇔ (¬B ⇒ ¬A).
Dazu ein Beispiel:
Satz 1.4
Sei n2 eine gerade natürliche Zahl. Dann ist auch n eine gerade natürliche Zahl.
Beweis. Sei A := „n2 eine gerade natürliche Zahl“ und B := „n eine gerade natürliche
Zahl“. Anstatt A ⇒ B zu folgern, wird nun ¬B ⇒ ¬A gezeigt.
¬B = n ist eine ungerade natürliche Zahl
⇒ Es gibt eine natürliche Zahl m mit n = 2 · m + 1
⇒ n2 = (2 · m + 1)2 = 4 · m2 + 4 · m + 1 = 2 · (2 · m2 + 2 · m) + 1
⇒ n2 ist eine ungerade natürliche Zahl = ¬A
8
1.3 Mengen
Widerspruchsbeweis (indirekter Schluss)
Hier nimmt man an, dass die Aussage A ⇒ B, die man eigentlich beweisen möchte, nicht
gilt. Die Negation von A ⇒ B lautet A ∧ ¬B. Hieraus leitet man nun einen Widerspruch
her, d.h. dass damit dann gleichzeitig auch eine Aussage C und dessen Gegenteil ¬C
gelten muss. Da dies nicht sein kann, muss die Annahme der Nagation falsch gewesen
sein und somit die zu beweisende Aussage gelten.
Satz 1.5 (Euklid)
Es gibt unendlich viele Primzahlen.
Beweis. Der Beweis wird durch einen Widerspruch geführt. Angenommen, es gäbe nur
endlich viele Primzahlen. Dann lassen sich diese als p1 , p2 , . . . , pn auflisten und daraus
eine neue Zahl M := p1 ·p2 ·. . .·pn bilden. Da M durch jede der Primzahlen teilbar ist, ist
jedoch M +1 durch keine der Primzahlen teilbar und somit selbst eine Primzahl. Die Zahl
M + 1 ist somit eine weitere Primzahl, die nicht in p1 , . . . , pn vorkommt - Widerspruch.
Somit muss die Annahme, dass es nur endlich viele Primzahlen gibt, falsch gewesen sein.
Eine weitere, sehr wichtige Beiweistechnik ist der Induktionsbeweis, mit dem man Aussagen beweisen kann, die von den natürlichen Zahlen abhängen. Auf Grund der Wichtigkeit
der Induktion wird diese im weiteren Verlauf gesondert behandelt.
1.3 Mengen
Einer der grundlegenden Begriffe der Mathematik ist die Menge. Die folgende intuitive
Beschreibung stammt von G. Cantor.
Definition 1.6 (Menge (Cantor, 1885))
Eine Menge ist eine wohldefinierte Zusammenfassung verschiedener Objekte zu einem
Ganzen.
Die Objekte in einer Menge werden Elemente genannt. Gemäß der Definition sind alle
Elemente einer Menge von einander unterschiedlich. Üblicherweise werden Mengen durch
lateinische Großbuchstaben A, B, C, . . . bezeichnet.
Ist ein Objekt a Element einer Menge A, so schreibt man dies als
a∈A
(∈: „ist Element von“),
andernfalls schreibt man
a∈
/A
(∈:
/ „ist nicht Element von“).
9
1 Grundlagen
Beispiele 1.7
Beispiele für Mengen sind:
(i) Die Menge der Studierenden an der Universität Frankfurt.
(ii) Die Menge der Gemüse G := { Tomate, Gurke, Paprika, . . .}.
(iii) Die Menge N := {0, 1, 2, 3, . . .} der natürlichen Zahlen.
(iv) Die Menge N+ := {1, 2, 3, . . .} der positiven natürlichen Zahlen.
(v) Die Menge Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . .} der ganzen Zahlen.
Mengen werden durch die explizite Angabe ihrer Elemente beschrieben,
A := {a, b, c, . . .},
oder man gibt die charakterisierende Eigenschaft ihrer Elemente an
hat die Eigenschaft XY}.
A := { a
{z O} | a
|∈
{z
}
|
Obermenge
Beispiele 1.8
Bedingung
(i) Die Menge P
oder
P := {2, 3, 5, 7, 11, ..},
P := {n ∈ N+ | n ist Primzahl }
beschreibt die Menge der Primzahlen, d.h. derjenigen natürlichen Zahlen, die nur
durch 1 und sich selbst teilbar sind.
(ii) Die Menge der positiven, geraden Zahlen
{2, 4, 6, . . .},
oder
{n ∈ N+ | ∃ m ∈ N : n = 2 · m}.
(iii) Die Menge der Zahlen, die durch b ∈ N teilbar sind:
{b, 2b, 3b, . . .},
oder
{n ∈ N+ | ∃ m ∈ N : n = b · m}.
(iv) Die Menge Q := { nz | z ∈ Z, n ∈ N+ }.
Definition 1.9
Seien A und B Mengen.
(a) A heißt Teilmenge von B, falls jedes Element von A auch in B enthalten ist. Man
schreibt dies als A ⊂ B.
(b) Gilt A ⊂ B und B ⊂ A, so sind die Mengen gleich: A = B.
(c) Die leere Menge ∅ enthält kein Element und ist in jeder Menge enthalten.
10
1.3 Mengen
(d) Der Durchschnitt A ∩ B besteht aus allen Elementen, die sowohl in A als auch in
B enthalten sind:
A ∩ B := {x | x ∈ A und x ∈ B}.
(e) Die Vereinigung A ∪ B besteht aus allen Elementen, die in A oder in B enthalten
sind:
A ∪ B := {x | x ∈ A oder x ∈ B}.
(f) Der Differenz A \ B besteht aus den Elementen, die in A aber nicht in B enthalten
sind:
A \ B := {x | x ∈ A und x ∈
/ B}.
A
B
A[B
B
A
(a)
A⇢B
(b)
A\B
A\B
Abbildung 1.1: (a) Teilmenge (b) verschiedene Mengenoperationen
Bemerkung 1.10 (Exklusives und inklusives „oder“)
Mit „oder“ ist das inklusive oder gemeint, d.h. A ∪ B enthält auch die Elemente, die
sowohl in A als auch in B liegen. (Die Alternative ist das exklusive oder, bei dem ein
Element entweder in A oder in B liegen muss, jedoch nicht in beiden gleichzeitig.)
Für Vereinigung und Durchschnitt von Mengen gelten die folgenden Regeln:
(a) Das Kommutativgesetz (es kommt nicht auf die Reihenfolge an):
A ∪ B = B ∪ A,
A∩B =B∩A
(b) Das Assoziativgesetz (bei Mehrfachverkettung ist die Reihenfolge egal):
(A ∪ B) ∪ C = A ∪ (B ∪ C),
(A ∩ B) ∩ C = A ∩ (B ∩ C)
11
1 Grundlagen
(c) Das Distributivgesetz :
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C),
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Beweis. Möchte man zeigen, dass zwei Mengen X = Y identisch sind, dann bietet sich
an zunächst einzeln sowohl X ⊂ Y als auch Y ⊂ X zu zeigen. Daraus folgt dann X = Y .
Um die Aussage X ⊂ Y zu zeigen, wählt man ein beliebiges Element der Menge x ∈ X
und zeigt dann, dass auch x ∈ Y gilt. Da das Element beliebig war, ist somit jedes
Element aus X auch in Y enthalten und dies zeigt X ⊂ Y .
Nach diesem Muster sei exemplarisch die Aussage
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
bewiesen.
„A ∪ (B ∩ C) ⊂ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ A ∪ (B ∩ C) beliebig gewählt. Somit gilt
x ∈ A oder x ∈ B ∩ C. Die beiden Fälle lassen sich getrennt betrachten:
1. Fall: Gilt x ∈ A, dann ist x ∈ A∪B und x ∈ A∪C und somit auch x ∈ (A∪B)∩(A∪C).
2. Fall: Gilt x ∈ B ∩ C, dann gilt x ∈ B und x ∈ C. Somit gilt auch x ∈ A ∪ B und
x ∈ A ∪ C. Darauf folgt ebenfalls x ∈ (A ∪ B) ∩ (A ∪ C).
„A ∪ (B ∩ C) ⊃ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ (A ∪ B) ∩ (A ∪ C) beliebig gewählt. Somit
gilt x ∈ A ∪ B und x ∈ A ∪ C. Es lassen sich erneut zwei Fälle getrennt betrachten:
1. Fall: Gilt x ∈ A, dann ist x ∈ A ∪ (B ∩ C).
2. Fall: Gilt x ∈
/ A, dann muss x ∈ B und x ∈ C gelten. Somit gilt auch x ∈ A ∪ (B ∩ C).
Hat man mehrere Mengen, so lassen sich aus diesen die „Produktmenge“ bilden.
Definition 1.11 (Kartesisches Produkt)
Seien A, B zwei Mengen. Das kartesische Produkt von A und B ist die Menge
A × B := {(a, b) | a ∈ A, b ∈ B}.
Die Elemente (a, b) sind geordnete Paare und werden Tupel genannt.
Analog lassen sich auch kartesische Produkte A1 × A2 × . . . × An definieren, die als
Elemente n-Tupel (a1 , a2 , . . . , an ) besitzen.
Zu einer gegebenen Menge lässt sich zudem die „Menge aller Teilmengen“ bilden.
Definition 1.12 (Potenzmenge)
Zu einer Menge A ist die Potenzmenge P gegeben durch die Menge aller Teilmengen,
d.h.
P(A) := {B | B ⊂ A}.
12
(1.1)
1.3 Mengen
N
N⇥N
..
.
..
.
..
.
..
.
(0, 2)
(1, 2)
(2, 2)
(1, 1)
(2, 1)
..
.
..
.
(0, 1)
(0, 0)
(1, 0)
(2, 0)
(3, 0)
...
N
Abbildung 1.2: Kartesisches Produkt N2 := N × N
Beispiel 1.13
n
o
(i) P({1}) = ∅, {1} .
n
o
(ii) P({1, 2}) = ∅, {1}, {2}, {1, 2} .
n
o
(iii) P({1, 2, 3}) = ∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3} .
Bemerkung 1.14 (Russellsche Antinomie)
Der Mathematiker B. Russell hat durch ein Paradoxon gezeigt, dass beim Umgang von
Konstrukten gemäß „Menge aller Mengen mit gewisser Eigenschaft“ Vorsicht geboten ist.
Dazu konstruiert er die „Menge aller Mengen, die sich nicht selbst als Element enthalten“,
d.h. formal
R := {M | M ∈
/ M }.
(1.2)
Man denke zum Beispiel an ein Buch, das alle Bücher auflistet, in denen nicht auf sich
selbst verwiesen wird.
Die Frage ist nun, ob diese Menge in sich selbst enthalten ist, d.h ob gilt R ∈ R oder
R∈
/ R. Enthält sich die Menge R nicht selbst, so muss sie sich aber gemäß Definition
enthalten. Enthält R sich selbst, dann darf sie sich gemäß Definition nicht enthalten. Es
gilt also der Widerspruch
R∈R⇔R∈
/ R.
(1.3)
Diese Problematik kann durch einen axiomatischen Ansatz der Mengenlehre umgangen
werden. Für den Rahmen dieser Vorlesung soll der einfache Ansatz zur Mengenlehre
aber genügen, auf widersprüchliche Definitionen wird verzichtet.
13
1 Grundlagen
1.4 Abbildungen
Definition 1.15 (Abbildung)
Eine Abbildung (auch Funktion) f von einer Menge A auf eine Menge B ist eine Vorschrift, die jedem Element a ∈ A genau ein Element b ∈ B zuordnet. Man schreibt:
f : A → B,
a 7→ f (a)
oder auch kurz
f : A → B, A 3 a 7→ f (a) ∈ B.
Die Menge A heißt Definitionsbereich von f .
Die Menge B heißt Wertebereich von f .
Die Menge f (A) := {f (a) | a ∈ A} ⊂ B heißt Bild von f .
Beispiele 1.16
Beispiele für Abbildungen zwischen Mengen:
(a) f : {1, 2, 3} → {1, 2, 3, 4}, n 7→ n + 1: Abbildung auf nächste Zahl
(b) g : N → N, n 7→ n2 : Abbildung der natürlichen Zahlen auf die Quadratzahlen
(c) h : Z → Z, n 7→ n2 : Abbildung der ganzen Zahlen auf die Quadratzahlen
Abbildungen zwischen Mengen lassen sich durch Wertetabellen angeben. Dies ist zum
Beispiel die übliche Angabe einer Abbildung zwischen zwei Mengen, wenn es sich um
experimentelle Messwerte handelt. Dann wird eine Abbildug zwischen der Menge der
Messpunkte MP und der Menge der Messwerte MW aufgezeichnet:
Messung : MP → MW.
x ∈ MP
3
1
5
f (x) ∈ MW
9
8
16
Tabelle 1.2: Illustration der Wertetabelle zu einer Messung
Alternativ lässt sich eine Abbildung gut durch ihren Graph veranschaulichen.
Definition 1.17 (Graph)
Zu einer Abbildung f : A → B heißt die Menge
G := {(a, b) ∈ A × B | b = f (a)}
der Graph der Abbildung.
14
1.4 Abbildungen
Bild
4
3
f : {1, 2, 3} ! {1, 2, 3, 4},
2
Wertebereich
n 7! n + 1
1
1
2
|
{z
3
}
Definitionsbereich
Abbildung 1.3: Graph, Definitonsbereich, Wertebereich und Bild einer Funktion
Definition 1.18 (Injektiv, surjektiv und bijektiv)
Sei f : A → B eine Abbildung. Die Abbildung heißt
(a) injektiv, falls jedes Element aus B höchstens ein Urbild hat, d.h. wenn gilt
∀a1 , a2 ∈ A : f (a1 ) = f (a2 ) ⇒ a1 = a2 ,
(b) surjektiv, falls auf jedes Element aus B abgebildet wird, d.h. wenn gilt
f (A) = B,
(c) bijektiv (oder auch one-to-one), falls sie injektiv und surjektiv ist.
Ist eine Abbildung f : A → B bijektiv, dann existiert zu jedem Element b ∈ B im Wertebereich mindestens ein Element a ∈ A im Definitionsbereich, das auf b = f (a) abbildet
(surjektiv). Gleichzeitig gibt es aber höchstens ein Element a ∈ A im Definitionsbereich,
das auf b = f (a) abbildet (injektiv). Somit gibt es genau ein solches Element.
Bijektive Abbildungen lassen sich eindeutig umkehren.
Definition 1.19 (Umkehrabbildung)
Zu einer bijektiven Abbildung f : A → B ist die Umkehrabbildung gegeben durch
f −1 : B → A,
a = f −1 (b) :⇔ b = f (a).
Umkehrabbildungen sind wieder bijektiv.
Manchmal möchte man auch mehrere Abbildungen hintereinander ausführen. Dies geht
dann, wenn der Bildbereich der einen Abbildung im Definitionsbereich der zweiten liegt.
15
1 Grundlagen
f :A!B
A
a3
b3
a2
b2
a1
(a)
B
b1
a0
b0
A := {a0 , a1 , a2 , a3 }
B := {b0 , b1 , b2 , b3 }
f :A!B
A
b3
a2
b2
a1
(b)
B
b1
a0
b0
A := {a0 , a1 , a2 }
B := {b0 , b1 , b2 , b3 }
f :A!B
A
B
b1
a0
a3
a2
b2
a1
(c)
b0
A := {a0 , a1 , a2 , a3 }
B := {b0 , b1 , b2 }
Abbildung 1.4: Beispiele für eine Funktion f : A → B: (a) nicht injektiv, nicht surjektiv
(b) injektiv, nicht surjektiv, (b) nicht injektiv, surjektiv
f :A!B
A
f
B
b3
a0
a3
a2
a1
A
a0
b1
b2
b0
1
:B!A
B
b3
a3
a2
a1
b1
b2
b0
Abbildung 1.5: Bijektive Funktion f : A → B und Umkehrfunktion f −1 : B → A
16
1.5 Natürliche Zahlen N und vollständige Induktion
Definition 1.20 (Verkettung von Abbildungen)
Seien f : A → B und g : C → D mit f (A) ⊂ C. Dann heißt die Abbildung
g ◦ f : A → D,
a 7→ g(f (a)),
die Verkettung der Abbildungen f und g.
Man liest dies als „g nach f “, denn die Abbildung f wird zuerst ausgeführt.
1.5 Natürliche Zahlen N und vollständige Induktion
Die Menge der natürlichen Zahlen
N := {0, 1, 2, 3, . . .}
wird intuitiv verstanden und - wie der Name schon sagt - als „natürlich“ gegeben angesehen. Was aber genau die natürlichen Zahlen sind und wie diese mathematisch präzise
zu verstehen sind, wurde immer wieder diskutiert. Heute werden die natürlichen Zahlen
üblicherweise über ein Axiomensystem eingeführt.
Definition 1.21 (G. Peano, 1889)
(P1) Es gibt ein ausgezeichnetes (kleinstes) Element: 0 ∈ N.
(P2) Zu jeder natürlichen Zahl n ∈ N gibt es einen Nachfolger ν(n) ∈ N.
(P3) Die Zahl 0 ∈ N ist nicht Nachfolger einer natürlichen Zahl.
(P4) Die Nachfolger unterschiedlicher Zahlen sind unterschiedlich:
n1 6= n2 ⇒ ν(n1 ) 6= ν(n2 ).
(P5) Enthält eine Menge M ⊂ N die Zahl 0 und mit jedem n ∈ M auch den Nachfolger
ν(n) ∈ M , dann ist M = N.
Die arithmetischen Grundoperationen lassen sich ausgehend von diesen Axiomen wie
folgt definieren:
n + 0 := n,
n · 0 := 0,
n + ν(m) := ν(n + m),
n · ν(m) := n · m + n.
17
1 Grundlagen
Man erhält so die üblichen Zahlen, wenn man definiert:
0 := 0,
1 := ν(0),
2 := ν(ν(0)) = ν(1),
3 := ν(ν(ν(0))) = ν(ν(1)) = ν(2),
..
.
Vollständige Induktion
Eine wichtige Beweismethode ist die vollständige Induktion. Diese dient dazu Aussagen
der Form A(n) zu beweisen, die von den natürlichen Zahlen abhängen. Man ist daran
interessiert, dass man die Aussage für alle natürlichen Zahlen beweist. Dies sind jedoch
unendlich viele Aussagen A(0), A(1), A(2), A(3), . . . und man kann diese nicht alle einzeln
beweisen. Stattdessen zieht man sich auf das folgende Beweisprinzip zurück.
Satz 1.22 (Induktionsprinzip)
Sei A(n) eine Aussage, die von den natürlichen Zahlen n ∈ N abhängt. Falls gilt:
(IA) Induktionsanfang: A(0) ist wahr,
(IS) Induktionsschritt: Wenn A(n) wahr ist, dann ist auch A(n + 1) wahr,
dann ist die Aussage A(n) für alle n ∈ N wahr.
Beweis. Das Induktionsprinzip folgt direkt aus dem 5. Peanoschen Axiom. Dies sieht
man wie folgt: Sei eine Teilmenge M ⊂ N definiert durch
M := {n ∈ N | A(n) ist wahr }.
Durch den Induktionsanfang gilt 0 ∈ M . Die Induktionsannahme besagt, dass aus n ∈ M
auch n + 1 ∈ M folgt. Somit gilt mit dem 5. Peanoschen Axiom M = N.
Bemerkung 1.23
Der Induktionsanfang muss nicht immer bei 0 gewählt werden. Gilt eine Aussage erst ab
einem n0 ≥ 1, so zeigt man die Gültigkeit von A(n0 ) und ebenfalls den Induktionsschritt.
Also Folgerung gilt dann A(n) für alle n ∈ N, n ≥ n0 , jedoch nicht für n < n0 .
Mittels der Induktion lassen sich viele Aussagen über Summen beweisen. Dazu sei zunächst eine vereinfachende Notation für Summen und Produkte definiert.
Definition 1.24 (Summe, Produkt)
Seien {am , am+1 , . . . , an } ⊂ A Elemente einer Menge A, für die Summe als auch Produktbildung definiert ist. Für m, n ∈ Z, m ≤ n schreibt man
am + am+1 + . . . + an =:
n
X
i=m
18
ai .
1.5 Natürliche Zahlen N und vollständige Induktion
Für m > n definiert man die leere Summe
n
X
ai := 0,
(m > n).
i=m
Analog schreibt man für die Multiplikation
am · am+1 · . . . · an =:
und
n
Y
n
Y
ai ,
i=m
ai := 1,
(m ≤ n),
(m > n).
i=m
Ein paar Beispiele sollen den Beiweis durch Induktion verdeutlichen.
Satz 1.25 (C. F. Gauß)
Für alle n ∈ N gilt:
n
X
k=1
Beweis.
Sei A(n) die Aussage: „
n
P
k=
k=1
n(n+1)
2
k=
n(n + 1)
.
2
ist wahr“.
Induktionsanfang (n = 0):
0
P
k = 0 und 0(0+1)
Für n = 0 ist
= 0. Somit ist A(0) wahr.
2
Für n = 1 ist
k=1
1
P
k = 1 und
k=1
1(1+1)
2
= 1. Somit ist A(1) wahr.
Induktionsschritt:
n
P
Angenommen A(n) ist wahr (Induktionsvoraussetzung, IV), d.h. es gelte
k =
k=1
n(n+1)
.
2
Daraus schließt man auf die Gültigkeit von A(n + 1) wie folgt:
n+1
X
k=
k=1
n
X
k=1
(IV)
k + (n + 1) =
n(n + 1)
+ (n + 1)
2
n(n + 1) + 2(n + 1)
(n + 2)(n + 1)
=
2
2
(n + 1)((n + 1) + 1)
=
.
2
=
Somit folgt aus der Gültigkeit von A(n) auch die Gültigkeit von A(n + 1).
19
1 Grundlagen
Satz 1.26 (Anzahl der Elemente der Potenzmenge)
Sei M eine Menge mit n ∈ N Elementen. Dann hat die Potenzmenge P(M ) genau 2n
Elemente.
Beweis.
Sei A(n) die Aussage: „Die Potenzmenge einer Menge mit n Elementen hat 2n Elemente“.
Induktionsanfang (n = 1): Für M = {m} ist P({m}) = ∅, {m} und hat 2 = 21 Elemente. Somit ist A(1) wahr.
Induktionsschritt:
Angenommen A(n) ist wahr (Induktionsannahme), d.h. die Potenzmenge einer Menge
mit n Elementen hat 2n Elemente. Nun muss gezeigt werden, wie viele Elemente die
Potenzmenge einer Menge mit n + 1 Elementen hat.
Sei M eine Menge mit n + 1 Elementen und sei ein m ∈ M willkürlich gewählt. Dann
lässt sich M schreiben als
M = N ∪ {m},
und N hat n Elemente.
mit N := M \ {m},
Es gibt nun zwei Arten von Teilmengen von M :
(a) Jene Teilmengen, die m nicht enthalten, d.h. die Teilmengen von N := M \ {m}.
Nach Induktionsvoraussetzung sind dies 2n .
(b) Jene Teilmengen, die m enthalten, d.h. alle Teilmengen der Form B ∪ {m} mit
B ⊂ N . Nach Induktionsvoraussetzung sind dies 2n .
Somit hat M genau 2n + 2n = 2 · 2n = 2n+1 Elemente. Somit gilt A(n + 1).
Rekursive Definition
Umgekehrt kann das Induktionsprinzip auch genutzt werden, um rekursive Definitionen
D(n) vorzunehmen. Dazu definiert man zunächst für D(0) und gibt dann die Definition
D(n) für alle weiteren n ∈ N, n ≥ 1 durch D(n) := F (D(0), D(1), . . . , D(n − 1)) als eine
Vorschrift an, die von den vorhergehenden Definitionen abhängen kann.
Definition 1.27 (Potenz)
Sei a ∈ N. Die n-te Potenz von a ist rekursiv definiert durch
(
1,
n = 0,
an :=
a · an−1 ,
n ≥ 1.
Definition 1.28 (Fakultät)
Die n-Fakultät ist rekursiv definiert durch
(
1,
n! :=
n · (n − 1)!,
20
n = 0,
n ≥ 1.
1.5 Natürliche Zahlen N und vollständige Induktion
Solche rekursiven Definitionen lassen sich auch verwenden, um biologische Populationen
zu beschreiben. So hat Leonardo da Pisa (genannt Fibonacci) bereits 1220 die Anzahl
an Kaninchenpaaren berechnet. Er nahm dabei an, dass jedes Paar an Kaninchen ab
dem zweiten Lebensmonat jeden Monat ein weiteres Paar als Nachwuchs bekommt und
Kaninchen unsterblich sind. Beginnt man mit einer Population von einem neu geborenen
Kaninchenpaar in Monat eins, F1 = 1, so bleibt es bei einem in Monat zwei, F2 = 1,
und in Monat drei bekommt dieses Paar den ersten Nachwuchs, F3 = 2. Im Monat vier
bekommt weiterhin nur das erste Paar Nachwuchs, F4 = 3, ab Monat fünf dann auch
das Paar aus Monat 3, F5 = 5, usw. In jedem Monat gibt es folglich immer die Anzahl
Paare, die im Vormonat vorhanden waren, plus der Nachwuchs der Paare die bereits vor
zwei Monaten lebten, d.h. Fn+1 = Fn + Fn−1 .
Definition 1.29 (Fibonacci-Folge)
Die Fibonacci-Zahlen Fn , n ∈ N+ , sind definiert durch


n = 1,
1,
Fn := 1,
n = 2,


Fn−1 + Fn−2 ,
n ≥ 3.
21
2 Zahlen
Betrachtet man die Menge der natürlichen Zahlen N = {0, 1, 2, 3, . . .}, so lassen sich
in gewissen Fällen die elementaren arithmetischen Operationen „a + b“ (Addition) und
„a · b“ (Multiplikation) umkehren, die dann als „b − a“ (Subtraktion) und „ ab “ (Division) bezeichnet werden. Allerdings lassen sich Addition und Division nicht für beliebige
Zahlen aus N definieren - so ist z.B. die Subtraktion für „b − a“ zunächst nur für Paare
(b, a) natürlicher Zahlen sinnvoll, für die b > a gilt. Dies zeigt: Während die Addition
+ : N × N → N,
(a, b) 7→ a + b
für alle Paare natürliche Zahlen definiert ist, so ist die Subtraktion
− : N × N → N,
(a, b) 7→ a − b
nicht immer erklärt - man spricht davon, dass die Menge der natürlichen Zahlen bezüglich
der Subtraktion „unvollständig“ ist. Man möchte daher den Zahlenraum dahingehend
erweitern, dass die Operationen der Subtraktion und Division immer erklärt sind - dies
führt auf die größeren Zahlenmengen der ganzen Zahlen Z und der rationalen Zahlen Q.
Um diesen Erweiterungsprozess mathematisch beschreiben zu können, wird die Äquivalenzrelation verwendet.
Definition 2.1 (Relation)
Eine Relation zwischen zwei Mengen A, B ist eine Teilmenge R ⊂ A×B des kartesischen
Produkts der Mengen.
Zu einer Relation R lässt sich immer entscheiden, ob ein Paar (a, b) ∈ A × B in der
Relation vorhanden ist oder nicht. Ist es Teil der Relation, d.h. (a, b) ∈ R, so schreibt
R
man dies als a ∼ b oder auch kurz a ∼ b, wenn aus dem Kontext hervorgeht, welche
Relation gemeint ist.
Eine sehr häufige Verwendung der Relation dient zur Beschreibung von Äquivalenzen
innerhalb einer Menge.
Definition 2.2 (Äquivalenzrelation)
Eine Äquivalenzrelation auf einer Menge A ist eine Relation R ⊂ A × A mit den Eigenschaften
(i) Reflexivität: a ∼ a für alle a ∈ A,
(ii) Symmetriegesetz: a ∼ b ⇒ b ∼ a,
23
2 Zahlen
y1
y1
6
5
4
3
2
1
t1
t2
t3
Abbildung 2.1: Beispiel einer Relation: Eine Messreihe an den Zeitpunkten t1 , t2 , t3 , . . .
zeichnet im Fehlerbalkendiagramm als „Messwert“ den Fehlerbereich zu
jedem ti als die Teilmenge {y | y i ≤≤ y i } auf
(iii) Transitivität: a ∼ b, b ∼ c ⇒ a ∼ c.
Die Bedeutung von Äquivalenzrelationen liegt darin, dass sich dadurch Mengen in Teilmengen („Klassen“) einteilen lassen, die eine gröbere Beschreibung der Menge sind, jedoch gewünschte „wesentliche“ Aspekte hervorheben.
Beispiel 2.3
Als Blutgruppen von Menschen werden die Zuordnungen A, B, AB und 0 verwendet.
Durch diese Zuordnung lässt sich auf der Menge der Menschen eine Relation definitieren
gemäß
x ∼ y :⇔ x, y haben diesselbe Blutgruppe
Dabei bezeichnet man die Äquivalenzklassen durch die folgende Schreibweise
[a] := {b ∈ A | b ∼ a}.
Das (zufällig gewählte) erzeugene Element a wird Repräsentant der Äquivalenzklasse [a]
genannt.
Beispiel 2.4
Die natürlichen Zahlen N lassen sich gerade und ungerade Zahlen aufteilen. Diese unterscheiden sich dadurch, ob sie durch 2 teilbar sind oder nicht, d.h. ob bei Division durch
2 ein Rest bleibt oder nicht:
a ∼ b :⇔ a, b haben bei Division durch 2 denselben Rest
Dadurch entstehen die Restklassen
[1] := {a ∈ N | @c ∈ N : a = 2c} = {1, 3, 5, 7, . . .},
[2] := {a ∈ N | ∃c ∈ N : a = 2c} = {0, 2, 4, 6, . . .}.
24
2.1 Die Gruppe der ganzen Zahlen Z
Beispiel 2.5
Der Menge Z × N+ lassen sich die rationalen Zahlen als Brüche zuordnen:
a
mit (a, b) ∈ Z × N+ .
b
Hier sind jedoch gewisse Brüche äquivalent. So sind z.B. 21 , 24 , 63 , . . . alle mit derselben
rationalen Zahl assoziiert. Dafür lässt sich die Äquivalenzrelation
(a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b
(d.h. gedacht
a0
a
= 0 ).
b
b
Die Menge der rationalen Zahlen kann man dann auffassen als die Menge der Äquivalenzklassen
Q := {[(a, b)] | (a, b) ∈ Z × N+ }.
Das letzte Beispiel motiviert nun die folgende Erweiterung des Zahlenbereichs N zu Z
und Z zu Q.
2.1 Die Gruppe der ganzen Zahlen Z
Die Menge der natürlichen Zahlen ist unter der Subtraktion nicht vollständig. Für Paare
a, b ∈ N ist die Gleichung
a+x=b
nicht immer durch ein x ∈ N lösbar. Formal lässt sich dies für den Fall a > b immer
durch die Einführung einer negativen Zahl x := b − a erreichen. Allerdings gibt es hier
eine Mehrdeutigkeit: Es gibt unendlich vielen Differenzen b − a = (b + 1) − (a + 1) = (b +
2) − (a + 2) = . . ., die diese Gleichung formal lösen. Abhilfe schafft hier die Betrachtung
der folgenden Äquivalenzrelation auf N × N:
(a, b) ∼ (a0 , b0 ) :⇔ a + b0 = a0 + b.
Dass es sich hier um eine Äquivalenzrelation handelt, zeigt sich folgendermaßen:
(i) Reflexivität: für alle a, b ∈ N gilt a + b = a + b ⇒ (a, b) ∼ (a, b).
(ii) Symmetrie: (a, b) ∼ (a0 , b0 ) ⇔ a + b0 = a0 + b ⇔ a0 + b = a + b0 ⇔ (a0 , b0 ) ∼ (a, b).
(iii) Transitivität: Mit (a, b) ∼ (a0 , b0 ) und (a0 , b0 ) ∼ (a00 , b00 ) gilt a + b0 = a0 + b und
a0 + b00 = a00 + b0 . Somit
a + b00 + b0 = (a + b0 ) + b00 = (a0 + b) + b00 = (a0 + b00 ) + b = (a00 + b0 ) + b = a00 + b + b0
und somit a + b00 = a00 + b bzw. (a, b) ∼ (a00 , b00 ).
25
2 Zahlen
Die zugehörigen Äquivalenzklassen [(a, b)] werden von den Paaren der natürlichen Zahlen
gebildet, die dieselbe Differenz aufweisen. Damit lässt sich die Äquivalenzklasse [(a, b)]
dann interpretieren als
(i) für a > b als natürliche Zahl a − b ∈ N,
(ii) für a = b als neutrale Zahl 0,
(iii) für a < b als negative Zahl a − b.
Die Menge der ganzen Zahlen lässt sich entsprechend als Menge von Äquivalenzklassen
definieren:
Z : = {[(n, 0)] | n ∈ N} ∪ [(0, n)] | n ∈ N+ .
Die natürlichen Zahlen sind diesen Äquivalenzklassen zuordbar, indem man den folgenden Repräsentanten wählt
N 3 n 7→ [(n, 0)] ∈ Z.
Die Äquivalenzklassen [(0, n)] ∈ Z notiert man entsprechend mit 0 − n oder einfach −n.
Mittels dieser Erweiterung von N nach Z ist nun der Zahlenbereich bezüglich der Subtraktion abgeschlossen, d.h. formal: jede Gleichung der Form a + x = b mit a, b ∈ Z hat
eine Lösung x ∈ Z. Das mathematische Konstrukt der ganzen Zahlen ist prototypisch
für viele andere Gebilde der Mathematik. Die elementaren Eigenschaften werden in der
folgenden Definition zusammengefasst.
Definition 2.6 (Gruppe)
Eine Menge G mit einer Verknüpfung
◦: G×G→G
(a, b) 7→ a ◦ b
wird als Gruppe (G, ◦) bezeichnet, falls die folgenden Eigenschaften gelten:
(a) Die Verknüpfung ist assoziativ, d.h. es gilt
(a ◦ b) ◦ c = a ◦ (b ◦ c)
für alle a, b, c ∈ G.
(b) Es existiert ein neutrales Element e ∈ G, so dass
a◦e=e◦a=a
für alle a ∈ G.
(c) Es existiert ein inverses Element a−1 ∈ G, so dass
a ◦ a−1 = a−1 ◦ a = e
für alle a ∈ G.
Eine Gruppe (G, ◦) heißt kommutativ (oder abelsch), falls für alle a, b ∈ G zusätzlich
das Kommutativgesetz
a◦b=b◦a
erfüllt ist.
26
2.2 Der Körper der rationalen Zahlen Q
Eine Gruppe ist dadurch gekennzeichnet, dass sich Gleichungen der Form a ◦ x = b lösen
lassen. Denn für jede Gleichung a ◦ x = b mit a, b ∈ G folgt allein aus der Gruppendefinition, dass x = a−1 ◦ b eine Lösung ist, da gilt
a ◦ (a−1 ◦ b) = (a ◦ a−1 ) ◦ b = e ◦ b = b.
Die ganzen Zahlen mit der Addition bilden folglich eine Gruppe (Z, +). Das neutrale
Element ist die Null (e = 0) und das inverse Element zu einer Zahl a ∈ Z ist die Zahl
−a ∈ Z. Die natürlichen Zahlen (N, +) hingegen bilden noch keine Gruppe, da das
inverse Element nicht zu jedem Element existiert.
2.2 Der Körper der rationalen Zahlen Q
Für die Menge Z hat nun die Gleichung a + x = b die Lösung x = b − a und ist somit
bezüglich der Subtraktion abgeschlossen. Jedoch lässt sich die Gleichung
a·x=b
nicht immer durch ein x ∈ Z lösen. Der Zahlenbereich muss folglich ein weiteres mal
erweitert werden, diesmal zur Menge der rationalen Zahlen Q.
Man betrachte für a, a0 ∈ Z, b, b0 ∈ N+ zunächst die Äquivalenzrelation
(a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b.
Zu a ∈ Z, b ∈ N+ sei die zugehörige Äquivalenzklasse [(a, b)] dann mit
a
:= [(a, b)] = {a0 ∈ Z, b0 ∈ N+ | ab0 = a0 b}
b
bezeichnet.
Dies führt auf die Menge der rationalen Zahlen als Menge von Äquivalenzklassen
Q :=
o 0
| a ∈ Z \ {0}, b ∈ N , a, b teilerfremd ∪
.
b
1
na
+
Als Repräsentant der jeweiligen Äquivalenzklasse wird also der Bruch in seiner vollständig gekürzten Fassung gewählt, bzw. 01 als Repräsentant der 0.
In der Menge Q hat nun sowohl die Gleichung a + x = b als auch a · x = b immer eine
Lösung. Sie ist somit sowohl bezüglich der Subtraktion als auch bezüglich der Division abgeschlossen. Dieses mathematische Gebilde ist wiederum sehr prototypisch. Seine
Eigenschaften werden unter der Bezeichnung Körper abstrakt zusammengefasst.
27
2 Zahlen
Definition 2.7 (Körper)
Eine Menge K mit zwei Verknüpfungen
+ : K × K → K,
· : K × K → K,
heißt Körper, falls gilt:
(a, b) 7→ a + b,
(a, b) 7→ a · b,
(Addition)
(M ultiplikation)
(K1) Addition und Multiplikation sind kommutativ, d.h. für alle a, b ∈ K gilt:
a + b = b + a,
a · b = b · a.
(K2) Addition und Multiplikation sind assoziativ, d.h. für alle a, b, c ∈ K gilt:
(a + b) + c = a + (b + c),
(a · b) · c = a · (b · c).
(K3) Es gilt das Distributivgesetz, d.h. für alle a, b, c ∈ K gilt:
a · (b + c) = a · b + a · c.
(K4) Die folgenden Gleichungen haben für alle a, b ∈ K ein Lösung x ∈ K:
a + x = b,
a · x = b sofern a 6= 0.
Aus den Eigenschaften (K4) folgen direkt wichtige Eigenschaften eines Körpers.
Satz 2.8
In einem Körper gibt es bzgl. der Addition ein neutrales Element 0 und zu jedem Element
a ein Inverses −a. Ebenso gibt es bzgl. der Multiplikation ein neutrales Element 1 und
zu jedem Element a 6= 0 ein Inverses a−1 .
Beweis. Nach (K4) ist im Speziellen die Gleichung a + x = a für alle a lösbar. Die
Lösung ist das verlangte neutrale Element 0. Dieses ist eindeutig, denn gäbe es ein
weiteres Element 00 mit a + 00 = a, so folgt mit a + 00 = a = a + 0 durch Kürzen von a
immer 00 = 0. Ebenso folgt aus (K4), dass die Lösung von a + x = 0 existiert und gerade
das inverse Element −a darstellt.
Für die Multiplikation argumentiert man analog.
Der vorangeganene Satz zeigt, dass man einen Körper auch alternativ folgendermaßen
definieren kann:
Bemerkung 2.9 (Körper – alternative Definition)
Ein Körper (K, +, ·) ist eine Menge K mit zwei Verknüpfungen + („Addition“) und ·
(Multiplikation) mit den Eigenschaften
(i) (K, +) ist eine kommutative Gruppe mit neutralem Element 0,
(ii) (K \ {0}, ·) ist eine kommutative Gruppe mit neutralem Element 1,
(iii) Multiplikation und Addition sind distributiv: a · (b + c) = a · b + a · c.
28
2.2 Der Körper der rationalen Zahlen Q
Anordnung von Q
Auf der Menge der rationalen Zahlen Q lassen sich gewisse Zahlen als positiv auszeichnen,
indem man die Teilmenge
Q+ := {a ∈ Q | a =
z
, z, n ∈ N+ }
n
auszeichnet. Dadurch lässt sich für Paare (a, b) ∈ Q × Q die Ordnungsrelation
a > b :⇔ a − b ∈ Q+
definieren. Analog definiert man
a < b :⇔ b > a,
a ≤ b :⇔ a < b oder a = b,
a ≥ b :⇔ b ≤ a,
und erhält die gewohnten kleiner und größer Beziehungen.
Auf Q lässt sich der Absolutbetrag definieren durch


a > 0,
a,
|a| := 0,
a = 0,


−a,
a < 0.
Satz 2.10 (Eigenschaften des Betrags)
Für beliebige Zahlen a, b ∈ Q besitzt der Betrag die folgenden drei charakteristischen
Eigenschaften:
(i) Definitheit: |a| = 0 ⇒ a = 0.
(ii) Multiplikativität: |a · b| = |a| · |b|.
(iii) Dreiecksungleichung: |a + b| ≤ |a| + |b| (auch Subadditivität).
Zudem gilt:
(iv) ||a| − |b|| ≤ |a + b|.
(v) ||a| − |b|| ≤ |a − b|.
Beweis. Exemplarisch wird (v) gezeigt:
|a| = |a − b + b| ≤ |a − b| + |b|
⇒ |a| − |b| ≤ |a − b|
und
und
|b| = |b − a + a| ≤ |b − a| + |a|
|b| − |a| ≤ |a − b|.
Somit folgt insgesamt:
||a| − |b|| ≤ |a − b|.
29
2 Zahlen
2.3 Der Körper der reellen Zahlen R
In den vorangegenenen Abschnitten wurde der Zahlenbereich der natürlichen Zahlen N
schrittweise zunächst zu den ganzen Zahlen Z und dann zu den rationalen Zahlen Q
erweitert, so dass man immer größere Zahlenräume N ⊂ Z ⊂ Q erhalten hat. Bei jeder
Erweiterung stand die Fragestellung im Raum, ob sich gewisse Gleichungen lösen lassen.
Im Körper Q schließlich lassen sich nun lineare Gleichungen bzgl. der Addition und der
Multiplikation stets lösen.
Konsequenter Weise lässt sich fragen, ob nun allgemeine quadratische Gleichungen der
Form
für a, b, c, d ∈ Q
a + b · x + c · x2 = d
eine Lösung x ∈ Q besitzen. Wieder stellt man fest, dass sich nicht jede Gleichung in Q
lösen lässt.
Satz 2.11 (Irrationalität der Quadratwurzel)
Die quadratische Gleichung
x2 = 2
besitzt keine Lösung in Q.
Beweis. Widerspruchsbeweis: Angenommen, es gäbe die Lösung x = nz mit Zahlen
r ∈ Z, n ∈ N+ , so dass x2 = 2. Es sei dann die vollständig gekürzte Fassung des Bruchs
gewählt. Insbesondere seien Nenner und Zähler nicht gleichzeitig durch 2 teilbar. Nun
ist aber r2 = 2 · n2 und somit r durch 2 teilbar. Wählt man r = 2 · s, so ist aber wegen
2 · s2 = n2 auch n durch 2 teilbar. Widerspruch.
p
2
1
1
Abbildung 2.2: Geometrische Interpretation der Lösung von x2 = 12 + 12 = 2.
Erneut möchte man den Zahlenbereich erweitern, damit solche Gleichungen eine Lösung
bekommen. Anschaulich entspricht die Lösung x2 = 2 zum Beispiel der Diagonalen im
30
2.3 Der Körper der reellen Zahlen R
Einheitsquadrat und solche Längen möchte man mit dem Zahlenraum ebenfalls abdecken
können.
Die Idee ist nun, nach und nach eine Folge von rationalen Zahlen zu konstruieren, die
die Lösung der Gleichung x2 = 2 immer besser annähern. Man gewinnt so eine Approximation, d.h. eine Näherungslösung, der gesuchten Lösung. Dazu seien zunächst einige
Begrifflichkeiten genauer geklärt:
Definition 2.12 (Folge)
Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung
N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet.
Beispiele 2.13
(a) Mit an = n ∀n ∈ N erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...) = (n)n∈N .
(b) Mit an =
1
n+1
1
∀n ∈ N erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) = ( n+1
)n∈N .
n
)n∈N = (0, 12 , 23 , 43 , ...).
(c) ( n+1
Nützlich ist im Folgenden auch die Darstellung von Zahlen als Dezimalzahlen.
Definition 2.14 (Dezimalbruchdarstellung)
Die Dezimalbruchdarstellung einer Zahl
!
k
X
d1
d2
d3
dk
−j
a = ± a0 +
dj · 10
= ± a0 +
+
+
+ ... + k
10 102 103
10
j=1
mit a0 , k ∈ N, d1 , ..., dk ∈ {0, 1, 2, ..., 9}, sei im Folgenden gegeben durch
a = ±(a0 , d1 ...dk ).
Ein mögliches Verfahren zur Approximation der Lösung von x2 = 2 besteht nun darin,
die Lösung x durch eine Folge von Zahlen aus Q sowohl von unten als auch von oben
einzugrenzen.
Dazu betrachte man die Foglen
an = an−1 +
dan
,
10n
für n>0,
a0 = 1,
bn = bn−1 −
dbn
,
10n
für n>0,
b0 = 2,
und
mit dan , dbn ∈ {0, 1, 2, ..., 9} ∀n ∈ N+ , wobei für alle n ∈ N gelte:
bn − an = 10−n ,
a2n < 2 < b2n .
31
2 Zahlen
Um diese Folge zu konstruieren beginnt man also mit denjenigen ganzen Zahlen, die
am nächsten unterhalb bzw. oberhalb der gesuchten Lösung liegen (a0 = 1 und b0 = 2).
Diese erfüllen die geforderten Bedingungen:
b0 − a0 = 2 − 1 = 1 = 10−0 ,
a20 = 1 < 2 < 4 = b20 .
Die nächste Annäherung an die Lösung erhält man nun, indem man diejenigen Zehntel
da
db1
1
und
addiert bzw. abzieht, so dass die oben geforderten Bedingungen erfüllt sind.
10
10
2
2
da
da
a
1
1 +1
Dazu zählt man d1 von 0 aus so lange hoch bis gilt: a0 + 10 < 2 < a0 + 10
Dies
ist gerade für da1 = 4 der Fall. Man wähle dann db1 = 9 − da1 , womit sich ergibt:
b1 − a1 = 1, 5 − 1, 4 = 0, 1 = 10−1 ,
a21 = 1, 96 < 2 < 2, 25 = b21 .
Dieses Vorgehen lässt sich beliebig lang fortführen. In den ersten 10 Schritten erhält man
so die folgenden Werte für an und bn :
n
0:
1:
2:
3:
4:
5:
6:
7:
8:
9:
an
1
1,4
1,41
1,414
1,4142
1,41421
1,414213
1,4142135
1,41421356
1,414213562
bn
2
1,5
1,42
1,415
1,4143
1,41422
1,414214
1,4142136
1,41421357
1,414213563
?
(x2 = 2)
ai
a0
a1
a2 . . . an
bi
bn
. . . b2
b1
b0
Abbildung 2.3: Approximation der Lösung von x2 = 2 durch zwei Folgen.
Nach Konstruktion liegen folglich die Zahlen an stets unterhalb, die Zahlen bn stets überhalb der gesuchten Lösung. Zusätzlich jedoch verringert sich der Abstand zwischen den
32
2.3 Der Körper der reellen Zahlen R
Zahlen immer mehr, so dass für das n-te Folgenglied beider Folgen gilt, dass der Abstand
zur tatsächlichen Lösung kleiner 10−n ist, die Lösung also immer besser angenähert (approximiert) wird. Die Lösung der Gleichung x2 = 2 lässt sich also über Folgen beliebig
genau eingrenzen. Man ist deshalb bestrebt den Zahlenraum um die Grenzwerte dieser
Folgen zu erweitern.
Mit dem Grenzwert a zur Folge (an )n∈N = (a0 , a1 , a2 , . . .) ist dabei derjenige Wert gemeint, dem die Folgenglieder mit fortschreitendem n immer näher kommen. Der Abstand
zwischen den Folgengliedern an und dem Grenzwert a wird also immer kleiner. Dies wird
durch das folgende Kriterium formalisiert.
Definition 2.15 (Cauchy Konvergenzkriterium)
Eine Folge (an )n∈N heißt konvergent gegen einen Grenzwert (Limes) a, falls es zu jedem
(beliebig kleinen) > 0 ein n ∈ N gibt, so dass gilt:
Dies wird notiert als
für
|an − a| < n ≥ n .
oder
|an − a| → 0 (n → 0)
lim an = a.
n→∞
Man beachte dabei, dass das zu wählende n vom gewählten abhängt. Im Allgemeinen
wird man n desto größer wählen müssen je kleiner man wählt.
a = lim an
n!1
a0
a2
a5
a6
✏
. . . a7
a4
a3
a1
✏
Abbildung 2.4: Illustration des Konvergenzkriterium für die Folge (an )n∈N mit a =
limn→∞ an . Für jedes > 0 liegen die Folgenglieder ab einem n ∈ N
alle höchstens vom Grenzwert a entfernt.
Problematisch ist diese Definition, wenn der Grenzwert einer Folge nicht im gleichen
Raum wie die Folgenglieder selbst liegen.
√ Dies ist aber gerade bei der oben konstruierten
Folge in Q der Fall, da der Grenzwert 2 selbst nicht in Q liegt.
Dies lässt sich umgehen, indem man die Konvergenz einer Folge ausdrückt, ohne den
Grenzwert explizit zu verwenden:
Definition 2.16 (Cauchy-Folge)
Eine Folge (an )n∈N heißt Cauchy-Folge, wenn es zu jedem (beliebig kleinen) > 0 eine
natürliche Zahl n ∈ N gibt, so dass gilt:
|an − am | < für alle n, m ≥ n .
33
2 Zahlen
Anschaulich bedeutet dies, dass sich die Folgenglieder einer Cauchy-Folge ab einer gewissen Stelle nicht mehr als einen vorgegebenen Abstand voneinander unterscheiden und
dass dieser Abstand beliebig klein gewählt werden kann.
Analog zur Konstruktion der ganzen und rationalen Zahlen wird zur Konstruktion der
reellen Zahlen eine Äquivalenzrelation verwendet. Für die Menge der Cauchy-Folgen in
den rationalen Zahlen ist durch
(an )n∈N ∼ (a0 n )n∈N :⇔ |an − a0 n | → 0 (n → ∞)
eine Äquivalenzrelation gegeben. Die reellen Zahlen lassen sich dann als Menge der
Äquivalenzklassen bezüglich dieser Relation auffassen:
R := {[(an )n∈N ] | (an )n∈N ist Cauchy-Folge in Q} .
Die rationalen Zahlen lassen sich in die Menge der reellen Zahlen in natürlicher Weise
einbetten, indem man diese als konstante Cauchy-Folgen auffasst:
Für a ∈ Q : (an )n∈N mit an = a für alle n
Identifiziert man jede Äquivalenzklasse von Cauchy-Folgen mit dem gemeinsamen Grenzwert der jeweils enthaltenen Folgen, so wird die Idee hinter der Konstruktion der reellen
Zahlen als Menge aller Grenzwerte von Cauchy-Folgen in Q klarer.
Der folgende Satz hilft dabei eine konkretere Vorstellung der reellen Zahlen zu entwickeln:
Satz 2.17
Jeder Äquivalenzklasse [(an )n∈N ] ∈ R entspricht genau ein (gegebenenfalls unendlicher)
Dezimalbruch.
a := {±(a0 , d1 d2 d3 ...) | a0 ∈ N, dk ∈ {0, 1, ..., 9} ∀k > 0}.
Umgekehrt entspricht jedem solchen Dezimalbruch genau eine Äquivalenzklasse in R.
R lässt sich dementsprechend auch als Menge von (gegebenenfalls unendlichen) Dezimalbrüchen auffassen.
Beweis. (Skizze) Fasst man einen unendlichen Dezimalbruch als Folge von endlichen
Dezimalbrüchen auf, so lässt sich zeigen, dass es sich dabei um eine Cauchy-Folge handelt. Damit repräsentiert der Dezimalbruch ein Element aus R. Schließt man Periode 9
bei der Dezimalbruchdarstellung aus, so lässt sich auch zeigen, dass zwei unterschiedliche
Dezimalbrüche niemals zur gleichen Äquivalenzklasse gehören können.
Umgekehrt lässt sich über das Prinzip der Intervallschachtelung zeigen, dass sich zu
jeder Äquivalenzklasse a = [(an )n∈N ] ∈ R ein (gegebenenfalls unendlicher) Dezimalbruch
finden lässt, der eben zu dieser Äquivalenzklasse gehört.
Die beiden Darstellungen sind damit äquivalent.
34
2.3 Der Körper der reellen Zahlen R
Übertragung der Eigenschaften von Q auf R
Die wesentlichen Eigenschaften von Q übertragen sich auf die reellen Zahlen R.
Von der Anordnung von Q ausgehend lassen sich auch auf R Ordnungsrelationen definieren. Dazu werden die zu Zahlen den a, b ∈ R zugehörigen Äquivalenzklassen von
Cauchy-Folgen (an )n∈N , (bn )n∈N in Q betrachtet. Für alle
a := [(an )n∈N )] ∈ R,
b := [(bn )n∈N )] ∈ R,
an ∈ Q ∀n ∈ N
bn ∈ Q ∀n ∈ N
definiert man
a>b
∃N ∈ N : (an − bn ) > 0 ∀n > N.
:⇔
und entsprechend
a≥b
a<b
a≤b
:⇔
:⇔
:⇔
a > b oder a = b,
b > a,
b ≥ a.
Analog zu Q sei dann auch auf R die Betragsfunktion gegeben als:
R → R+
0,


a,
|a| := 0,


−a,
|·|:
a > 0,
a = 0,
a < 0.
In analoger Weise sollen die elementaren Rechenoperationen von Q auf R übertragen
werden. Dazu ist der folgende Hilfssatz wichtig.
Satz 2.18
Seien (an )n∈N und (bn )n∈N Cauchy-Folgen mit Grenzwerten
lim an = a
n→∞
und
lim bn = b.
n→∞
Dann gilt
(i) lim {an + bn } = a + b,
n→∞
(ii) lim {an · bn } = a · b,
n→∞
(iii) lim { abnn } = ab , falls alle |bn | ≥ α > 0 und |b| =
6 0 echt positiv sind.
n→∞
35
2 Zahlen
Beweis. Der technische Beweis wird ausgelassen.
Somit lassen sich die arithmetischen Operationen von Q auf R übertragen und man
erhält das folgende Resultat.
Satz 2.19
R mit Addition und Multiplikation bildet den Körper (R, +, ·).
Beweis. Die arihtmetischen Grundoperationen + und · übertragen sich direkt von Q
auf R und somit sind Assoziativität und Kommutativität sowie das Distributivgesetz
direkt erfüllt. Es verbleibt zu zeigen, dass die Lösungen von linearen Gleichungen existieren. Sei dazu die Gleichung a + x = b mit a, b ∈ R gegeben. Die Lösung x = b − a
ist folglich die Differenz zweier Cauchy-Folgen und durch eine Cauchy-Folge rationaler
Zahlen approximierbar. Analog zeigt man die Lösung der Gleichung a · x = b, a 6= 0. Satz 2.20
Q liegt dicht in R, d.h. zu jedem a ∈ R und zu jedem > 0 existiert q ∈ Q : |a − q| < .
Beweis. Nach Konstruktion von R existiert zu jedem a ∈ R eine gegen a konvergente
Cauchy-Folge (an )n∈N in Q.
Bei den rationalen Zahlen Q wurde festgestellt, dass gewisse Löcher existieren, die durch
den Zahlenraum Q nicht darstellbar waren. Zum Beispiel war die approximierende Folge
√
der Lösung der Gleichung x2 = 2 zwar konvergent, allerdings lag der Grenzwert x = 2
nicht in Q. Für den Körper R gilt hingegen nun folgendes Resultat.
Satz 2.21
R ist vollständig, d.h. jede Cauchy-Folge in R konvergiert gegen einen Grenzwert in R.
Beweis. Sei eine Cauchy-Folge (an )n∈N mit Folgengliedern an ∈ R reeller Zahlen gegeben. Nun ist zu zeigen, dass der Grenzwert dieser Folge ebenfalls in R liegt (d.h. durch
eine Cauchy-Folge mit Folgenglieder in Q approximierbar ist). Zu jedem der Folgenglieder (die in R liegen) sei daher zunächst die approximierende Folge in Q gegeben, d.h. es
sei das n-te Folgenglied dargestellt durch
R 3 an = lim an,m ,
m→∞
an,m ∈ Q für alle m ∈ N.
Da dies eine Cauchy-Folge ist, lässt sich für jedes Folgenglied an eine Schranke kn wählen,
ab der die Approximation durch die Folge rationaler Zahlen so gut ist, dass gilt
|an − an,kn | <
Dies erzeugt einen neue Folge (an,kn )n∈N :
36
1
n
mit kn ∈ N.
1
mit kn 2 N.
n
2.4 Mächtigkeit von Mengen und Abzählbarkeit
Dies erzeugt einen neue Folge (an,kn )n2N :
|an
a0,0
a1,0
a2,0
..
.
a0,1
a1,1
a2,1
an,0
an,1
a0,2
a1,2
a2,2
an,2
a0,3
a1,3
a2,3
...
an,kn | <
a0,4
a1,4
a2,4
...
...
...
an,kn
...
...
a0 2 R
a1 2 R
a2 2 R
..
.
!
!
!
!
!
lim an,kn
n!1
an 2 R
#
= a = lim an
n!1
Die Folge (an,kn )n2N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und
hat denselben Grenzwert wie die Folge (an )n2N . Dies sieht man folgendermaßen: Sei ✏ >
Die Folge (an,kn )n∈N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und
beliebig vorgegeben, so findet man ein n✏ 2 N, so dass für alle n, m n✏ gilt
hat denselben Grenzwert wie die Folge (an )n∈N . Dies sieht man folgendermaßen: Sei > 0
beliebig vorgegeben, so findet man ein n ∈ N, so 1dass für alle n, m ≥ n gilt1
|an
1
|an − am | < ,
3
und somit gilt auch
und somit gilt auch
am | < ✏,
3
|an
1
|an − an,kn | < ,
3
an,kn | < ✏,
3
am,km |  |an,kn an | + |an am | + |am
1 n −1 am | +1 |am − am,km |
|an,kn − am,km | ≤ |an,kn − an | +
 ✏|a+
✏ + ✏ = ✏.
1
1
13
3
3
Sei nun
|an,kn
am,km |
≤ + + = .
3
3
3
Sei nun
a = lim an,kn
a = lim an,kn
n!1
n→∞
der Grenzwert dieser Folge von rationalen Zahlen - der gemäß Definition in R liegt
der Grenzwert
dieser Folge stimmt
von rationalen
Zahlen.
Grenzwert
stimmt der
nun Folge
aber (an )n2N überein
Dieser Grenzwert
nun aber
auchDieser
mit dem
Grenzwert
auch mit
demesGrenzwert
der Folge (an )n∈N überein, denn es gilt
denn
gilt
1
1
|an − a| |a
≤n|an −
|+
|an,k
≤ n,k
+n|an,ka|
a| →+0|an,k
(n n→ ∞).
n,kn|a
a|a
an,k

a| ! 0
n − |a|
n −
n
n + |a
n
n
(n ! 1).
Dies zeigt:
Grenzwert
der Cauchy-Folge
(an )n∈N ist durch
Cauchy-Folge
(an,k
n )n∈N
Diesder
zeigt:
der Grenzwert
der Cauchy-Folge
(an die
)n2N
ist durch die
Cauchy-Folge
(an,kn )n2N
von rationalen
Zahlen
approximierbar
und
somit
auch
in
R.
von rationalen Zahlen approximierbar und somit auch in R.
⇤
2.4 Mächtigkeit von Mengen und Abzählbarkeit
2.4 Mächtigkeit von Mengen und Abzählbarkeit
Es lässt sich die Frage stellen, welche der Mengen Q und R mehr Elemente besitzt oder
lässt
sich
die Frage
stellen,
welche der
R mehrdieElemente
besitzt ode
ob sie Es
gleich
viele
Elemente
haben.
Dazu benötigt
man Mengen
zunächst Q
eineund
Definition,
die
Anzahlob
ansie
Elementen
in einer
Menge greifbar
und
speziell die
Anzahl
bei Mengen
gleich viele
Elemente
haben.macht
Dazu
benötigt
man
zunächst
eine Definition, die di
mit unendlich
vielen
Elementen
(z.B.
N,
Z,
Q,
R)
differenzierter
auffassen
lässt.
Anzahl an Elementen in einer Menge greifbar macht.
37
3
2 Zahlen
Definition 2.22 (Mächtigkeit von Mengen)
Die Mächtigkeit einer Menge gibt die Anzahl der Elemente in einer Menge an.
Seien A und B zwei Mengen. Die Mengen heißen gleichmächtig, falls es eine bijektive
Abbildung A → B gibt.
Eine Menge A heißt
(i) endlich, falls es für ein n ∈ N eine bijektive Abbildung {1, 2, . . . , n} → A gibt. Man
schreibt in diesem Fall |A| = n.
(ii) abzählbar, wenn sie die gleiche Mächtigkeit wie die Menge der natürlichen Zahlen
hat, d.h. falls es eine bijektive Abbildung N → A gibt.
(iii) überabzählbar, falls A weder endlich noch abzählbar ist.
Beispiel 2.23
Für die Menge A := {4, 7, 8, −5, −7} ist |A| = 5.
Satz 2.24 (Z ist abzählbar)
Die Menge Z ist abzählbar.
Beweis. Gesucht ist eine bijektive Abbildung f : N → Z, die eine Zuordnung der natürlichen Zahlen zu den ganzen Zahlen darstellt. Dies wird durch die folgende Abbildung
geleistet
(
für n gerade,
− n2 ,
f (n) := n+1
,
für n ungerade,
2
oder anschaulich durch die Zuordnung
N:
↓
Z:
0 1
2
↓ ↓
↓
0 1 −1
Somit ist Z abzählbar.
3
4 5
↓
↓ ↓
2 −2 3
6 7
↓ ↓
−3 4
8 ...
↓ ...
−4 . . .
Satz 2.25
Der Körper Q ist abzählbar.
Beweis. Jede rationale Zahl kann als Bruch nz mit z ∈ Z und n ∈ N+ dargestellt werden.
Dies lässt sich als ein kartesisches Produkt zeichnen und durch eine raumfüllende Kurve
lässt sich jeder Punkt (z, n) ablaufen. Die gesuchte Nummerierung von Q ist nun gegeben
dadurch, dass man die Elemente von Q gemäß dieser Kurve listet und dabei diejenigen
Paare überspringt, die nicht teilfremd sind.
38
2.4 Mächtigkeit
Mächtigkeit von
und
Abzählbarkeit
2.4
vonMengen
Mengen
und
Abzählbarkeit
N+
...
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
...
4
4
3
4
2
4
1
4
0
4
1
4
2
4
3
4
4
4
...
...
4
3
3
3
2
3
1
3
0
3
1
3
2
3
3
3
4
3
...
...
4
2
3
2
2
2
1
2
0
2
1
2
2
2
3
2
4
2
...
...
4
1
3
1
2
1
1
1
0
1
1
1
2
1
3
1
4
1
...
...
Z
⇤
Für die reellen Zahlen ist gilt nun aber folgender Satz.
Für die reellen Zahlen ist gilt nun aber folgender Satz.
SatzSatz
2.262.26
Die
Körper
R ist
überabzählbar.
Die Körper
R ist
überabzählbar.
Beweis. Der Beweis wird über einen Widerspruch geführt. Es reicht dazu sogar aus
sich nur
eine Teilmenge
dereinen
reellenWiderspruch
Zahlen zu beschränken.
Angenommen,
gäbe aus
Beweis.
DeraufBeweis
wird über
geführt. Es
reicht dazuessogar
eine Abzählung der reellen Zahlen im Interval [0, 1) und diese Zahlen seien durch eine
sich nur auf eine Teilmenge der reellen Zahlen zu beschränken. Angenommen, es gäbe
bijektive Abbildung f : N → R darstellbar. Dann lässt sich jede dieser Zahlen f (n) als
eine eine
Abzählung
der reellen
1) und diese Zahlen seien durch eine
Dezimalzahl
f (n) = Zahlen
0, dn,0 dn,1im
dn,2Interval
. . . mit d[0,
n,i ∈ {0, 1, 2, . . . , 9} darstellen. Da die
bijektive
Abbildung
f :N
! lassen
R darstellbar.
Dann
lässt
sich jede
dieser
Zahlen
f (n) als
Zahlen
nummerierbar
sind,
sie sich alle
in einer
unendlich
langen
Liste
schreiben:
eine Dezimalzahl f (n) = 0, dn,0 dn,1 dn,2 . . . mit dn,i 2 {0, 1, 2, . . . , 9} darstellen. Da die
f (0)sie
= 0,
d0,0alle
d0,1in
d0,2einer
d0,3 unendlich
...
Zahlen nummerierbar sind, lassen
sich
langen Liste schreiben:
f (1) = 0, d1,0 d1,1 d1,2 d1,3 . . .
(2) =
d 0,2 d
d0,3
2,3 .. .. ..
ff (0)
= 0,0,dd2,00,0dd2,1
0,1 d2,2
(3) =
d3,2 d3,3 . . .
ff (1)
= 0,0,dd3,01,0dd3,1
1,1 d1,2 d1,3 . . .
.
f (2).. = 0, d2,0 d2,1 d2,2 d2,3 . . .
f (3) = 0, d3,0 d3,1 d3,2 d3,3 . . .
Nun kann diese Liste aber noch immer nicht alle Dezimalzahlen enthalten. Denn man
..
kann stets eine weitere Zahl finden,
. die noch nicht in der aktuellen Nummerierung vorhanden ist. Dazu wählt man diese Zahl wie folgt: Für die erste Dezimalstelle d0 ∈
{0, 1, 2, . . . , 9} wählt man eine Zahl, die von der Dezimalstelle der ersten Zahl d0,0 verNunschieden
kann diese
Listedieaber
noch
immer nicht
alle Dezimalzahlen
enthalten. von
Denn
ist. Für
zweite
Dezimalstelle
d2 wählt
man eine Zahl verschieden
derman
kannzweiten
stets eine
weitere Zahl
finden, Zahl
die noch
nicht
der So
aktuellen
Nummerierung
Dezimalstelle
der zweiten
d1,1 auf
der in
Liste.
fährt man
fort und wähltvorfür
die
Dezimalstelle
d
eine
Zahl
aus
{0,
.
.
.
,
9},
die
verschieden
von
der
Dezimalstelled0 2
handen ist. Dazu wählt nman diese Zahl wie folgt: Für die erste Dezimalstelle
Dieeine
so entstehende
Zahlder
kann
also mit keiner
Zahlen
aufdder
{0, 1,dn,n
2, . in
. . ,der
9} Liste
wähltist.
man
Zahl, die von
Dezimalstelle
derder
ersten
Zahl
0,0 verListe
übereinstimmen.
Dies
steht
jedoch
im
Widerspruch
zu
der
Annahme,
dass
in
der
schieden ist. Für die zweite Dezimalstelle d2 wählt man eine Zahl verschieden von der
ListeDezimalstelle
bereits alle Zahlen
auftauchen.
zweiten
der zweiten
Zahl d auf der Liste. So fährt man fort und wählt
1,1
für die Dezimalstelle dn eine Zahl aus {0, . . . , 9}, die verschieden von der Dezimalstelle
dn,n in der Liste ist. Die so entstehende Zahl kann also mit keiner der Zahlen auf der
Liste übereinstimmen. Dies steht jedoch im Widerspruch zu der Annahme, dass 39
in der
Liste bereits alle (abzählbaren) Zahlen aus R auftauchen.
⇤
37
2 Zahlen
2.5 Rechnerarithmetik
Möchte man Zahlen im Computer darstellen, so ist es notwendig sich über die Repräsentation von Zahlen Gedanken zu machen.
Stellenwertsysteme
Die gewöhnliche Darstellung von natürlichen Zahlen im Dezimalsystem ist sehr vertraut.
Ausgehend von den 10 Ziffern {0, 1, 2, . . . , 9} bildet man neue Zahlen, die man implizit
folgendermaßen versteht:
748, 25 = 7 · 102 + 4 · 101 + 8 · 100 + 2 · 10−1 + 5 · 10−2 .
Dies ist der spezielle Fall eines Stellenwertsystems zur Basis 10.
Definition 2.27 (Stellenwertsystem)
Zu einer Basis b ≥ 2 ist die b-adische Darstellung einer Zahl a gegeben durch
a=
n
X
i=−m
ai · b i
mit ai ∈ {0, 1, . . . , b − 1}
und man notiert dies als
(an an−1 an−2 . . . a1 a0 , a−1 a−2 . . . a−m )b .
Ist aus dem Kontext ersichtlich um welche Basis es sich handelt, so wird die explizite
Angabe weggelassen (z.B. beim Dezimalsystem im Alltag). Der Name Stellenwertsystem
rührt daher, dass die Stelle einer Ziffer angibt, mit welcher Potenz von b die Ziffer zu
multiplizieren ist.
Beispiele 2.28
(i)
(10111)2 = 1 · 24 + 0 · 23 + 1 · 22 + 1 · 21 + 1 · 20
= 1 · 16 + 0 · 8 + 1 · 4 + 1 · 2 + 1 · 1 = (23)10
(ii)
(0, 011)2 = 0 · 20 + 0 · 2−1 + 1 · 2−2 + 1 · 2−3
1
1
1
= 0 · 1 + 0 · + 1 · + 1 · = (0, 375)10
2
4
8
40
2.5 Rechnerarithmetik
(iii)
(10111, 011)2 = (10111)2 + (0, 011)2
= (23)10 + (0, 375)10 = (23, 375)10
Möchte man eine Zahl von einer Basis in eine andere Umrechnen, so bietet es sich an
nach folgender Überlegung vorzugehen: Bei einer Zahl in Dezimaldarstellung verschiebt
die Division durch die Basis 10 das Komma um eine Stelle nach links, die Multiplikation
mit 10 das Komma um eine Stelle nach rechts. Für eine Ganzzahl erhält man also die
Ziffern, indem man durch sukzessive durch 10 teilt und die Reste notiert:
753/10 = 75
75/10 = 7
7/10 = 0
Rest 3
Rest 5
Rest 7
und analog für eine Zahl kleiner 1, indem man mit 10 multipliziert und die Überträge
notiert:
0, 682 · 10 = 6, 82 = 6 + 0, 82
0, 82 · 10 = 8, 2 = 8 + 0, 2
0, 2 · 10 = 2, 0 = 2 + 0, 0
Man kann dann stoppen, wenn eine 0 erreicht wird. Analog lässt sich dies auch bei der
Umrechnung ins Binärsystem durchführen:
23/2 = 11
11/2 = 5
5/2 = 2
2/2 = 1
1/2 = 0
Rest
Rest
Rest
Rest
Rest
1
1
1
0
1
und dies liefert (23)10 = (10111)2 . Für Nachkommastellen geht man analog vor
0, 375 · 2 = 0, 75 = 0 + 0, 75
0, 75 · 2 = 1, 5 = 1 + 0, 5
0, 5 · 2 = 1, 0 = 1 + 0, 0
und dies liefert (0, 375)10 = (0, 011)2 .
41
2 Zahlen
Man beachte hierbei, dass eine Darstellung in einem Basissystem endlich sein kann,
während sie in einer anderen Basis periodisch wird. So gilt
0, 8 · 2
0, 6 · 2
0, 2 · 2
0, 4 · 2
0, 8 · 2
..
.
= 1, 6
= 1, 2
= 0, 4
= 0, 8
= 1, 6
= 1 + 0, 6
= 1 + 0, 2
= 0 + 0, 4
= 0 + 0, 8
= 1 + 0, 6
..
.
und somit (0, 8)10 = (0, 1100110011001100 . . .)2 = (0, 1100)2 .
Die obige Darstellung nennt man auch Festkommadarstellung. Das Komma gibt dabei
an, ab wann mit negativen Exponenten multipliziert wird. Im Gegensatz dazu verwendet man zur Darstellung von rationalen oder reellen Zahlen im Computer oftmals die
Gleitkommadarstellung.
Gleitkommadarstellung
Aktuelle Computer speichern und verarbeiten Daten als Folgen von Bits (bits = bi nary
digits), d.h. es wird die Basis b = 2 verwendet. Dies ist dem Umstand geschuldet,
dass die Bauteile eines Computers nur zwei Zustände zulassen (Strom vs. kein Strom,
magnetisiert vs. unmagnetisiert, . . . ).
Um reelle Zahlen darzustellen, wird die Binärdarstellung einer Zahl x im Computer über
eine Summe von Brüchen
r
s
r
x = ± m0 , m1 m2 m3 ...mk · 2 = (−1) · 2 ·
k
X
mi · 2−i ,
k
X
mi · 2−i
i=0
mi ∈ {0, 1},
verwendet, die jedoch im Gegensatz zur Festkommadarstellung über einen Faktor 2r
skaliert werden kann. Dabei nennt man
M := m0 , m1 m2 m3 ...mk =
i=0
die Mantisse und r den Exponenten. Für jedes x 6= 0 lässt sich dabei bei geeigneter
Wahl des Exponenten immer 1 ≤ M < 2 wählen und somit kann man die Konvention
m0 = 1 verwenden. Ein zusätzliches Bit s gibt das Vorzeichen der Zahl über (−1)s an.
Für den Exponenten werden nur ganze Zahlen in einem gewissen Bereich zugelassen,
die selbst wieder als Binärzahl durch l Bits dargestellt werden. Um das Vorzeichen des
Exponenten nicht explizit speichern zu müssen, wird der Exponent intern in der Form
r = e − e∗ mit einem festen ganzzahligen Offset e∗ > 0 und mit
e=
l−1
X
j=0
42
ej · 2j ,
ej ∈ {0, 1},
2.5 Rechnerarithmetik
dargestellt.
Für die Darstellung von Zahlen werden typischerweise Bitfolgen der Länge 32 oder 64
genutzt. Man spricht dann im vorliegenden Fall von 32- oder 64-Bit Gleitkommazahlen.
Im Falle von 64 Bit wird nach IEEE-Standard folgende Darstellung verwendet:
(s, e10 , e9 , ..., e0 , m1 , m2 , ...m52 ) ∈ {0, 1}64 ,
die der Wahl k = 52, l = 11 und e∗ = 1023 entspricht. Dabei kann man durch den
Exponenten
e=
10
X
j=0
ej · 2j
die Werte 0 ≤ e ≤ 211 − 1 = 2047 darstellen. Hier wird die folgende Konvention verwendet:
(i) Durch e = 2047, M 6= 0 werden nicht zulässige Zahlen NaN (Not a Number)
ausgedrückt.
(ii) Durch e = 2047, M = 0 wird unendlich ausgedrückt.
(iii) Durch 1 ≤ e ≤ 2046 werden normalisierte Zahlen ausgedrückt, bei denen das
implizite (nicht gespeicherte) Bit als m0 = 1 vereinbart wird:
!
52
X
x = (−1)s 2e−1023 1 +
mi · 2−i .
i=1
(iv) Durch e = 0, M = 0 wird die Zahl Null ausgedrückt.
(v) Durch e = 0, M 6= 0 werden denormalisierte Zahlen ausgedrückt, bei denen das
das implizite (nicht gespeicherte) Bit als m0 = 0 vereinbart wird:
s
−1022
x = (−1) 2
52
X
i=1
mi · 2−i .
Die kleinste positive darstellbare Zahl ist folglich 2−1022 · 2−52 = 2−1074 ≈ 5 · 10−324 , die
größe Zahl 21023 · (2 − 2−52 ) ≈ 1, 8 · 10308 .
Offensichtlich ist die Menge der so darstellbaren Gleitkommazahlen endlich. Fast alle
reellen Zahlen lassen sich dementsprechend nur näherungsweise im Computer darstellen.
Auch Ergebnisse aus Addition, Multiplikation, Subtraktion oder Division solcher Gleitkommazahlen müssen nicht unbedingt in der Menge der darstellbaren Zahlen enthalten
sein. Üblicherweise werden daher die arithmetischen Operationen intern mit höherer
Genauigkeit durchgeführt und dann auf die nächstmögliche Gleitkommazahl gerundet.
Dabei kommt es notwendigerweise zu Rundungsfehlern.
Besonderen Stellenwert hat in diesem Zusammenhang der maximale Fehler, der beim
Runden einer Zahl x zur nächstgelegenen Gleitkommazahl rd(x) = M · 2r auftritt. Die
43
2 Zahlen
zwei benachbarten Gleitkommazahlen, zwischen denen x liegt, unterscheiden sich um
genau das letzte Bit mk , haben also einen Abstand von 2−k ·2r . Dabei liegt die gerundete
Zahl x nur maximal die Hälfte dieser Strecke von einer der beiden darstellbaren Zahl
entfernt. Für den relativen Fehler ergibt sich somit
x − rd(x) 1 2−k · 2r
−(k+1)
≤ ·
(da 1 ≤ |M | < 2).
2 |M | · 2r ≤ 2
x
Definition 2.29
Die Zahl eps := 2−(k+1) heißt relative Maschinengenauigkeit.
Diese kann als kleinste Gleitkommazahl genähert werden, für die in der gewählten
Gleitkommadarstellung gilt:
1 + > 1.
Dies ist der Abstand zweier benachbarter Fließkommazahlen, es gilt also = 2 · eps.
Das Python Programm
#!/usr/bin/env python3
eps = 1
while(1):
if 1 + eps <= 1:
break
eps = eps / 2
print("eps = {0}".format(eps))
liefert auf einer 64-Bit Architektur beispielsweise das folgende Ergebnis für eps:
eps = 1.1102230246251565e-16.
Dies entspricht 2−53 ≈ 1, 11 · 10−16 und die Fließkommaarithmetik auf einer 64-Bit
Architektur hat somit eine Genauigkeit von 16 Stellen. Für 32-Bit gilt mit k = 23 und
2−24 ≈ 5, 98 · 10−8 eine Genauigkeit von 8 Stellen.
2.6 Der Körper der komplexen Zahlen C
Die Erweiterungen der Zahlenräume N ⊂ Z ⊂ Q ⊂ R verfolgte das Ziel immer mehr
Gleichungen lösen zu können und endete mit dem vollständigen Körper R. Doch noch
immer lassen sich nicht alle Gleichungen mit Koeffizienten in den reellen Zahlen lösen.
So hat die bekannte Lösung (p/q-Formel ) der Gleichung
p
p ± p2 − 4q
2
x + px + q = 0, mit p, q ∈ R
⇒
x± =
2
nur eine reelle Lösung für p2 − 4q ≥ 0.
44
2.6 Der Körper der komplexen Zahlen C
Daher sei angenommen, dass ein erneute Erweiterung des Zahlenraums existiert, die
wiederum ein Körper ist und R als Teilmenge enthält. In diesem Erweiterungskörper soll
die Gleichung x2 + 1 = 0 eine Lösung besitzen und diese Lösung sei mit i bezeichnet
(d.h. es gilt i2 = −1). Mit i sind dann auch z := x + iy und w := u + iv mit x, y, u, v ∈ R
Elemente dieses Körpers und somit ergibt sich
z + w = x + iy + u + iv = (x + u) + i(y + v),
z · w = (x + iy) · (u + iv) = xu + ixv + iyu + i2 yv = (xu − yv) + i(xv + yu),
und somit sind solche Elemente unter Addition und Multiplikation abgeschlossen. Dies
motiviert die Einführung der komplexen Zahlen.
Definition 2.30 (komplexe Zahl)
Die komplexen Zahlen sind geordnete Paare z := (x, y) ∈ R×R, für die die Multiplikation
und Addition definiert werden durch
(x, y) + (x0 , y 0 ) := (x + x0 , y + y 0 ),
(x, y) · (x0 , y 0 ) := (xx0 − yy 0 , xy 0 + x0 y).
Diese Zahlen werden auch notiert als z = x+iy mit der Lösung i2 = −1. Man bezeichnet
x =: Re z als Realteil und y =: Im z als Imaginärteil und i als imaginäre Einheit.
Satz 2.31 (C ist ein Körper)
Die Menge der komplexen Zahlen bildet einen Körper C mit neuralen Elementen (0, 0)
und (1, 0). In diesem Körper hat die Gleichung z 2 + (1, 0) = (0, 0) zwei Lösungen ±i :=
(0, ±1). Zu einem Element z = (x, y) ergeben sich die inversen Elemente zu
z −1
−z := (−x, −y),
x
−y
1
,
.
= :=
z
x2 + y 2 x2 + y 2
Beweis. Kommutativ-, Assoziativ- und Distributivgesetz ergibt sich durch direktes
Nachrechnen. Für a = (a1 , a2 ), b = (b1 , b2 ) ∈ C ergibt sich die Lösung von a + z = b zu
z = (b1 − a1 , b2 − a2 ) und somit ist (0, 0) das neutrale Element als Lösung von a + z = a.
Das neutrale Element (1, 0) bzgl. der Multiplikation zeigt man durch direktes Nachrechen von (1, 0) · z = z für alle z ∈ C. Ebenso rechnet man direkt nach, dass a · a1 = (1, 0)
gilt und z = a1 · b eine Lösung von a · z = b ist.
Die kürzere Notation einer imaginären Zahl z = x + iy kann man folglich als (x, y) =
(x, 0) + (0, 1) · (y, 0) lesen. Eine reelle Zahl x ∈ R wird mit der komplexen Zahl (x, 0)
identifiziert. Eine komplexe Zahl (0, y) heißt rein imaginär.
Analog zur Darstellung der reellen Zahlen auf einer Geraden, lässen sich die komplexen Zahlen als Ebene darstellen. Dabei entsprecht ein Punkte (x, y) dieser Ebene der
komplexen Zahl z = (x, y) ∈ C.
45
2 Zahlen
imaginäre Achse
z = x + iy
y
i
reelle Achse
1
1
x
i
Abbildung 2.5: Darstellung einer komplexen Zahl in der komplexen Zahlenebene.
Definition 2.32 (Komplexe Konjugation)
Für eine komplexe Zahl z = (x, y) = x + iy ist die komplexe konjugierte Zahl gegeben
durch
z = (x, −y) = x − iy.
Definition 2.33 (Betrag einer komplexen Zahl)
Der Betrag einer komplexen Zahl z = (x, y) = x + iy ist gegeben durch
p
√
|z| := z · z = x2 + y 2 .
Bemerkung 2.34
Die komplexen Zahlen lassen sich nicht anordnen, d.h. es lässt sich auf C keine kleiner/größer Relation einführen.
Mit den komplexen Zahlen kommt die Erweiterung des Zahlenraums zu einem Ende. In
diesem Körper lassen sich nun alle algebraischen Gleichungen lösen.
Satz 2.35 (Fundamentalsatz der Algebra)
Jede Gleichung
z n + an−1 z n−1 + . . . + a1 z + a0 = 0,
mit Koeffizienten ai ∈ C hat mindestens eine Lösung in C.
46
(n > 0),
2.6 Der Körper der komplexen Zahlen C
imaginäre Achse
z = x + iy
y
|z|
x
y
reelle Achse
z=x
iy
Abbildung 2.6: Graphische Interpretation von Betrag und Konjugation einer komplexen
Zahl: Der Betrag ist der Abstand vom Ursprung, die komplexe Konjugation bewirkt eine Spiegelung an der reellen Achse.
47
3 Konvergenz, Folgen und Reihen
Für die Einführung der reellen Zahlen waren Cauchy-Folgen von rationalen Zahlen von
großer Bedeutung. Ganz Allgemein lassen sich Folgen von Elementen in einer beliebigen
Menge A betrachten.
Definition 3.1 (Folgen)
Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung
N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet.
Beispiele 3.2
(a) Mit der Vorschrift an = n (n ∈ N) erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...)
und es gilt an ∈ N (n ∈ N).
1
(n ∈ N) erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) und es gilt
(b) Für an = n+1
an ∈ Q (n ∈ N).
(c) Es sei eine Population gegeben, die in jedem Jahr um einen festen Faktor wächst
(z.B. um 10%). Ausgehend von einer Anfangspopulation a0 ∈ R ist somit die Größe
nach 1 Jahr a0 · q (q = 1, 1 für 10%), nach Jahr 2 beträgt sie a0 · q · q, usw. . . Dies
definiert die sogenannte geometrische Folge an = a0 · q n (n ∈ N).
(d) Ein Guthaben G0 sei jährlich um einen Zinssatz p verzinst, d.h. nach einem Jahr
erhält man das Geld G1 = G0 ·(1+p) zurück (z.B. p = 0, 05 bei 5% Zinsen). Addiert
man die Zinsen bereits nach einem halben Jahr (mit halbem Zinssatz) und verzinst
diese am Ende des Jahres mit, so erhält man G2 = G0 · (1 + p2 )2 . Teilt man das
Jahr in drei Teile, so ergibt sich eine Verzinsung von G3 = G0 · (1 + p3 )3 . Allgemein
strebt die Folge an = (1 + np )n gegen den Faktor für kontinuerliche Verzinsung (d.h.
beliebig kleine Verzinsungsintervalle).
3.1 Konvergenz
Von der Konvergenz einer Folge gegen einen Grenzwert (Limes) spricht man, wenn die
Folgenglieder diesem Grenzwert ab einem Folgenglied beliebig nahe kommen. Dazu benötigt man eine Möglichkeit den Abstand zwischen dem Grenzwert und den Folgengliedern
messen zu können. Für die Körper Q, R und C kann man den Betrag definieren und
der Abstand zwischen zwei Elemente dieser Körper z, z 0 lässt sich über die Abstandsfunktion |z − z 0 | ermitteln. Daher macht die Definition der Konvergenz für alle dieser
49
3 Konvergenz, Folgen und Reihen
Körper K = Q, R, C Sinn. Im Folgenden wird der wichtige Spezialfall des Körpers K = R
betrachtet. Fast alle dieser Aussagen lassen sich jedoch direkt auf die anderen Körper
übertragen, z.B. indem man R durch C ersetzt.
Man sagt, dass eine Eigenschaft für fast alle Elemente einer Folge gilt, sofern die Eigenschaft auf alle bis auf höchstens endlich viele Elemente zutrifft. In diesem Sinne
konvergiert eine Folge gegen einen Grenzwert, falls fast alle Folgenglieder beliebig nahe
an dem Grenzwert liegen, oder formal:
Definition 3.3 (Konvergenz)
Eine Folge (an )n∈N in R heißt konvergent gegen den Grenzwert (Limes) a ∈ R, falls zu
jeder (beliebig kleinen) reellen Zahl > 0 ein n ∈ N existiert, so dass gilt:
|an − a| < für alle n ≥ n .
Es ist zu beachten, dass die Zahl n vom jeweils gewählten abhängt. Entscheidend ist
dabei nicht der genaue Wert von n , sondern lediglich die Existenz eines Wertes, ab dem
die obige Bedingung bei vorgegebenem gilt.
Konvergiert (an )n∈N gegen a so schreibt man
lim an = a
n→∞
oder
an → a (n → ∞).
Konvergiert eine Folge für n → ∞ nicht gegen einen Grenzwert so nennt man die Folge
divergent.
Beispiele 3.4
(a) Für jedes a ∈ R konvergiert die konstante Folge an = a (n ∈ N) gegen den
Grenzwert limn→∞ an = a.
1
(n ∈ N) konvergiert gegen Null, denn: Zu jedem > 0 gibt es
(b) Die Folge an = n+1
1
ein N ∈ N mit N > 1 . Somit gilt für alle n ≥ N : |an − 0| = n+1
< n1 < N1 < .
(c) Die Folge an = (−1)n (n ∈ N) divergiert, denn der Abstand zwischen zwei Folgengliedern ist |an − an+1 | = 2. Somit kann der Abstand zwischen zu einem Grenzwert
nicht beliebig klein werden.
Eigenschaften konvergenter Folgen
Definition 3.5 (Beschränkte Folgen)
Eine Folge (an )n∈N reeller Zahlen heißt
(i) beschränkt, falls alle |an | ≤ M (n ∈ N) für ein M ∈ R,
(ii) von oben beschränkt, falls alle an ≤ M (n ∈ N) für ein M ∈ R,
(iii) von unten beschränkt, falls alle an ≥ M (n ∈ N) für ein M ∈ R.
50
3.1 Konvergenz
Zudem sei an die Cauchy-Folge erinnert. Diese dient dazu Konvergenz zu definieren,
ohne dass man den Grenzwert explizit kennen muss.
Definition 3.6 (Cauchy-Folge)
Eine Folge (an )n∈N heißt Cauchy-Folge, falls zu jedem > 0 ein n ∈ N existiert, so dass
|an − am | < für alle n, m ≥ n .
Für konvergente Folgen besitzen die folgenden Eigenschaften.
Satz 3.7
(i) Der Grenzwert einer konvergenten Folge ist eindeutig.
(ii) Der Grenzwert einer konvergenten Folge bleibt gleich, wenn man endlich viele Folgenglieder ändert.
(iii) Eine konvergente Folge ist beschränkt.
(iv) Jede konvergente Folge ist eine Cauchy-Folge.
Beweis.
(i) Sei (an )n∈N eine konvergente Folge mit den Grenzwerten a und b. Dann gilt jedoch
|a − b| = |a − an | + |an − b| → 0(n → ∞) und die Grenzwerte müssen gleich sein.
(ii) Für die konvergente Folge (an )n∈N gibt es zu jedem ein n mit |an −a| < , n ≥ n .
Die Folge wird nun an endlich vielen Stellen abgeändert. Das letzte geänderte
Folgenglied sei ar , r ∈ N. Dann wählt man für die Abschätzung |an − a| < die
Schranke n = max(n , r) und erhält erneut konvergenz gegen denselben Grenzwert.
(iii) Mit = 1 gilt für n ≥ n1 ∈ N: |an | ≤ |an − a| + |a| ≤ 1 + |an |. Da nur endlich viele
Folgenglieder an , n < n1 existieren gilt:
|an | < max(|a0 |, |a1 |, ..., |an1 −1 |, 1 + |a|)
für alle n ∈ N.
(iv) Sei (an )n∈N eine konvergente Folge mit Grenzwert a ∈ R. Dann existiert zu jedem
> 0 ein n ∈ N mit |an − a| < 2 für alle n ≥ n . Insbesondere gilt für n, m ∈
N, n, m ≥ N :
|an − am | = |an − a + a − am | ≤ |an − a| + |am − a| < + < .
2 2
Bemerkung 3.8
Umgekehrt müssen beschränkte Folgen nicht notwendigerweise konvergieren. Ein Beispiel
ist die Folge ((−1)n )n∈N .
Bemerkung 3.9
Für Folgen im vollständigen Körper R gilt die Umkehrung: Jede Cauchy-Folge in R
konvergiert (mit Grenzwert a ∈ R). Denn gemäß Konstruktion ist R so gewählt, dass
jede Cauchy-Folge in R einen Grenzwert hat.
51
3 Konvergenz, Folgen und Reihen
3.2 Bestimmung von Konvergenz und Grenzwerten
Manchmal möchte man zeigen, dass einen Folge konvergent ist, ohne dass man den
Grenzwert explizit kennt. Zum einen kann man zeigen, dass es sich um eine CauchyFolge handelt. Für spezielle Typen von Folgen gibt es einen direkteren Schluss.
Monotone Folgen
Definition 3.10 (Monotone Folgen)
Eine Folge (an )n∈N heißt
monoton wachsend,
streng monoton wachsend,
monoton f allend,
streng monoton f allend,
falls
falls
falls
falls
an
an
an
an
≤ an+1
< an+1
≥ an+1
> an+1
für
für
für
für
alle
alle
alle
alle
n ∈ N,
n ∈ N,
n ∈ N,
n ∈ N.
Satz 3.11
Eine monoton wachsende und von oben beschränkt Folge in R ist konvergent.
Eine monoton fallende und von unten beschränkt Folge in R ist konvergent.
Beweis. (Skizze) Da (an )n∈N von oben beschränkt ist, existiert aufgrund der Vollständigkeit von R eine kleinste obere Schranke (das sogenannte Supremum)
a := sup an := min{M ∈ R | an ≤ M für alle n ∈ N}.
n∈N
Das Supremum a ∈ R ist der gesuchte Grenzwert, denn die Folgenglieder werden immer
größer, dürfen aber diese Schranke nicht überschreiten. Für monoton fallende Folgen
schließt man analog mit der größten oberen Schranke (das sogenannte Infimum)
a := inf an := max{M ∈ R | an ≥ M für alle n ∈ N}.
n∈N
Beispiel 3.12
Für a ∈ R, a ≥ 0 konvergiert die rekursiv definierte Folge
1
a
xn +
,
xn+1 :=
2
xn
mit jedem Startwert x0 > 0. Dies sieht man wie folgt.
Mit x0 > 0 sind auch alle Folgenglieder xn > 0, n ∈ N. Es gilt sogar
2
1
a
2
xn+1 − a =
xn +
−a
4
xn
!
2
2
a
a
1
1
2
xn + 2a +
− 4a =
xn −
≥0
=
4
xn
4
xn
52
3.2 Bestimmung von Konvergenz und Grenzwerten
und daher x2n ≥ a für n ≥ 1 (d.h. die Folge ist nach unten beschränkt).
Zudem findet man
xn − xn+1
1
a
= xn −
xn +
2
x
n
a
1
1
xn −
=
x2n − a ≥ 0
=
2
xn
2xn
und daher xn+1 ≤ xn für n ≥ 1 (d.h. die Folge ist monoton fallend).
Die monoton fallende, nach unten beschränkte Folge ist damit konvergent. Da die Folge
konvergent ist, besitzt sie in R den Grenzwert x. Für xn , xn+1 → x muss für diesen
gelten:
1
a
x=
x+
bzw.
x2 = a.
2
x
Grenzwerte und Anordnung
Eine Eigenschaft von Grenzwerten ist, dass sie die Anordnung nicht ändern.
Satz 3.13
Sei (an )n∈N und (bn )n∈N konvergente Folgen in R mit
für alle n ∈ N,
an ≤ b n ,
dann gilt für die Grenzwerte ebenfalls
lim an ≤ lim bn .
n→∞
n→∞
Beweis. (Skizze) Widerspruchsbeweis mit der Annahme lim an > lim bn .
n→∞
n→∞
Damit lässt sich der Grenzwerte einer Folge bestimmen, indem man eine untere und
einer obere Folge findet, die denselben Grenzwert besitzt. Denn aus
an ≤ b n ≤ c n ,
für alle n ∈ N
folgt aus obigem Satz
lim an ≤ lim bn ≤ lim cn
n→∞
n→∞
n→∞
und gilt limn→∞ an = b = limn→∞ cn , so folgt
b ≤ lim bn ≤ b.
n→∞
Dies lässt sich nutzen, um einen Grenzwert ausgehend von bekannten Grenzwerten zu
zeigen.
53
3 Konvergenz, Folgen und Reihen
Beispiele 3.14
(i) Sei bn = n12 , (n ∈ N+ ). Als Einschachtelung wird nun die Nullfolge an = 0, (n ∈
N+ ) und die Folge cn = n1 , (n ∈ N+ ) verwendet. Wegen n12 < n1 , n ≥ 1, gilt
an → 0 (n → ∞) und cn → 0 (n → ∞). Damit folgert man bn → 0 (n → ∞).
Analog zeigt man
lim
n→∞
(ii) Die Folge an :=
10n
n!
1
= 0,
nk
für alle Potenzen k ∈ N+ .
(n ∈ N) konvergiert gegen 0.
Denn für n ≥ 11 gilt:
10n
10 10n−1
10
10n−1
≤
≤
n!
n (n − 1)!
n 1 · 2 · . . . (n − 2) · (n − 1)
10
1
10
=
1
9
10 11
n−1 ≤
n 10 · . . . · 10 · 10 · 10 · . . . · 10
n
1
→0
1 10
10
(n → ∞)
Rechenregeln für Grenzwerte
Satz 3.15
Seien (an )n∈N und (bn )n∈N konvergente Folgen mit Grenzwerten
lim an = a
n→∞
und
lim bn = b.
n→∞
Dann sind auch die Summenfolge (an + bn )n∈N und Produktfolge (an · bn )n∈N konvergent
und für die Grenzwerte gilt
(i) lim {an + bn } = a + b,
n→∞
(ii) lim {an · bn } = a · b,
n→∞
Ist zudem b 6= 0, bn 6= 0 (n ∈ N), so ist die Quotientenfolge ( abnn )n∈N konvergent mit
(iii) lim { abnn } = ab .
n→∞
Beweis. Exemplarisch wird (ii) gezeigt. Da beide Folgen konvergent sind, gibt es n mit
|an − a| < und
|bn − b| < ,
für n ≥ n ,
sowie einen Konstante M (konvergente Folgen sind beschränkt) mit
|an | ≤ M
54
und
|bn | ≤ M
für n ∈ N.
3.3 Häufungspunkte und Teilfolgen
Durch das Einschieben des Terms −an · b + an · b = 0 folgert man:
|an · bn − a · b| = |an · bn − an · b + an · b − a · b|
= |an · (bn − b) + (an − a) · b|
≤ |an | · |(bn − b)| + |(an − a)| · |b|
≤ M + M = 2M .
Beispiele 3.16
(i) Für die Multiplikation mit der konstanten Folge (c)n∈N gilt lim {c · an } = c · a und
n→∞
Allgemein für beliebige c, d ∈ R:
lim {c · an + d · bn } = c · lim an + d · lim bn = c · a + d · b.
n→∞
n→∞
n→∞
(ii)
n
1
1
lim
= lim 1 −
= lim 1 − lim
=1−0=1
n→∞ n + 1
n→∞
n→∞
n→∞ n + 1
n+1
(iii)
lim
n→∞
5n + 1
3n − 10
= lim
n→∞
5 + n1
3 − 10
n
=
lim {5 + n1 }
n→∞
lim {3 −
n→∞
10
}
n
=
5
5+0
=
3−0
3
(iv)
√
n√ √
√ o
√
n+1−n
n
lim
n( n + 1 − n) = lim
n√
= lim √
√
√
n→∞
n→∞
n→∞
n+1+ n
n+1+ n




1
1
1
q
=
= lim
=
n→∞ 

1+1
2
1+ 1 +1
n
Bemerkung 3.17
Für das Rechnen mit den Grenzwerte ist es essentiell, dass die Folgen konvergent sind.
Für nicht-konvergente Folgen (z.B. limn→∞ n = ∞) lässt sich durch obige Rechenregeln
keine Aussage treffen. So lässt sich „ ∞
“ nicht ermitteln, denn limn→∞ nn2 = 0, limn→∞ nn =
∞
2
1 und limn→∞ nn = ∞. Vor der Verwendung obiger Rechenregeln muss zunächst die
Konvergenz der Folgen an und bn gezeigt werden.
3.3 Häufungspunkte und Teilfolgen
Definition 3.18 (Häufungspunkt)
Ein Punkt a ∈ R heißt Häufungspunkt einer Folge (an )n∈N , falls zu jedem > 0 immer
55
3 Konvergenz, Folgen und Reihen
unendlich viele Folgenglieder an mit einem Abstand von höchstens zu a gibt, d.h. für
jedes N ∈ N gibt es ein an , n ≥ N mit
|an − a| < .
Beispiel 3.19
Die reelle Folge an = (−1)n hat zwei Häufungspunkte a = 1 und a = −1.
Beispiel 3.20
Jede konvergente Folge hat genau einen Häufungspunkt, nämlich den Grenzwert der
Folge.
Besitzt eine Folge mehr als einen Häufungspunkt, dann kann man sich auch die Folgenglieder beschränken, die in der Nähe eines Häufungspunktes liegen. Man wählt also die
Folgenglieder entsprechend aus. Dies nennen man das bilden einer Teilfolge.
Definition 3.21 (Teilfolge)
Sei (an )n∈N eine Folge. Eine Folge (bm )m∈N heißt Teilfolge von (an )n∈N , falls es eine streng
monotone Folge von Indizes n1 < n2 < n3 < . . . gibt, so dass bm = anm für alle m ∈ N.
Zu einer Folge mit mehr als einem Häufungspunkt kann man somit eine Teilfolge auswählen, die dann gegen den Häufungspunkt konvergiert.
Definition 3.22 (Limes superior/inferior)
Zu einer Folge reeller Zahlen (an )n∈N mit mindestens einem Häufungspunkt. Den größten
Häufungspunkt bezeichnet man als Limes superior lim sup an . Den kleinsten Häufungspunkt bezeichnet man als Limes inferior lim inf an .
n→∞
n→∞
Für beschränkte Folgen in R gilt folgender Satz, der hier ohne Beweis angegeben wird.
Satz 3.23 (Bolzano-Weierstraß)
Jede beschränkte Folge reeller Zahlen besitzt einen größten und einen kleinsten Häufungswert. Jede beschränkte Folge reeller Zahlen besitzt daher eine konvergente Teilfolge.
3.4 Reihen
Ein berühmtes Paradoxon der antiken Griechen stammt vom Zenon: Der schnelle Achilles
versucht eine langsame Schildkröte zu erreichen. Doch obwohl Achilles doppelt so schnell
ist wie die Schildkröte, scheint es ihm nicht zu gelingen. Denn jedes Mal, wenn Achilles
den Punkt erreicht, an dem sich die Schildkröte aktuell befindet, ist diese ebenfalls
ein Stück weiter gekommen. Daher muss Achilles erneut versuchen, die Schildkröte auf
dieser nun halb so langen Strecke zu erreichen. Dieses Spiel scheint sich unendlich oft zu
wiederholen und Achilles erreicht die Schildkröte folglich nicht.
56
3.4 Reihen
t = 0 min
A
S
t = 1 min
A
t = 1 min
S
t=
t=1+
1
min
2
1
min
2
A
t=
t=1+
1 1
+ min
2 4
..
.
S
1
min
4
AS
t=
1
min
8
..
.
Abbildung 3.1: Paradoxon von Zenon: Der doppelt so schnelle Achilles (A) scheint die
Schildkröte (S) niemals zu erreichen, denn diese ist immer bereits ein
(wenn auch kleineres) Stück weiter, wenn Achilles den Punkt erreicht,
an dem sich die Schildkröte aktuell befindet.
Der Trugschluss in diesem Paradoxon liegt darin, dass unendliche Summen durchaus
endliche Werte annehmen können. So beträgt die von Achilles benötigte Zeit
∞
X 1
1
1 1 1
+ ... =
T =1+ + + +
2 4 8 16
2k
k=0
und diese Summe hat einen endlichen Wert. Von der mathematischen Behandlung solcher
unendlichen Summen handelt dieses Kapitel.
Zu jeder Folge (an )n∈N lassen sich endlich viele der Folgenglieder aufsummieren. Eine
solche Teilsumme nennt man die Partialsumme
sn :=
n
X
ak .
k=0
So entsteht eine neue Folge (sn )n∈N , deren Konvergenz man untersuchen kann.
Definition 3.24 (Reihe)
Eine Reihe mit den Gliedern ak ist die unendliche Summe
∞
X
ak ,
k=0
57
3 Konvergenz, Folgen und Reihen
die verstanden wird als die Folge der Partialsummen
sn :=
n
X
mit n → ∞.
ak
k=0
Existiert der Grenzwert limn→∞ sn , so heißt die Reihe konvergent, andernfalls divergent.
Beispiel 3.25 (Geometrische Reihe)
Die sogenannte geometrische Reihe ist gegeben durch
2
3
4
1 + q + q + q + q + ... =
∞
X
qk .
k=0
Diese Reihe ist für |q| < 1 konvergent. Betrachtet man nämlich die Partialsummen, so
findet man durch
!
!
!
n
n
n
n
n+1
X
X
X
X
X
k
k
k
k
(1 − q) ·
=1·
=
q
q −q·
q
q −
q k = 1 − q n+1
k=0
k=0
k=0
k=0
k=1
zunächst die geometrische Summenformel
n
X
k=0
qk =
1 − q n+1
1−q
für alle n ∈ N.
Somit folgt für den Grenzwert der Reihe
∞
X
n
X
1 − q n+1
1
q = lim
q = lim
=
.
n→∞ 1 − q
n→∞
1−q
k=0
k=0
k
k
Beispiel 3.26 (Harmonische Reihe)
Die sogenannt harmonische Reihe ist gegeben durch
∞
X1
1 1 1 1
1 + + + + + ... =
.
2 3 4 5
k
k=1
Diese Reihe divergiert. Denn betrachtet man die Partialsumme für n = 2k , so findet man
die Abschätzung
1
2
1
=1+
2
1
≥1+
2
1
=1+
2
1 1 1
1
+ + + ... +
3 4 5 n
1 1
1
+
+
+
+ ... +
3 4
5
1 1
1
+
+
+
+ ... +
4 4
8
1
1
1
+ 2 · + 4 · + 2k−1 · k
4
8
2
1
= 1 + k · → ∞ (k → ∞).
2
s2k = 1 +
58
+
1
1
1
+
+ ... + k
8
2k−1 + 1
2
1
1
1
+
+
.
.
.
+
8
2k
2k
3.5 Konvergenzkriterien für Reihen
3.5 Konvergenzkriterien für Reihen
Ein Konvergenzkriterium für Reihen erhält man, indem man das Cauchy-Kriterium für
die Folge der Partialsummen anwendet.
Satz 3.27 (Cauchy-Kriterium für Reihen)
Eine Reihe ist genau dann konvergent, wenn es für jedes > 0 ein n gibt, so dass gilt:
|sn − sm | = |
n
X
k=m+1
für alle n ≥ m ≥ n .
ak | < Beweis. Dies ist das Cauchy-Kriterium für die Folge der Partialsummen (sn )n∈N .
Damit eine Reihe überhaupt konvergierten kann, müssen die Reihenglieder eine Nullfolge
bilden. Denn mit sn → s gilt immer an = sn − sn−1 → s − s = 0.
Sind alle Elemente der Summe positiv, so ist die Folge der Partialsummen monoton
wachsend. Ist sie zudem beschränkt, dann muss die Reihe konvergieren.
Satz 3.28 (Konvergenz
für nicht-negative Reihen)
P
Eine Reihe
ak mit nicht-negativen Gliedern ak ≥ 0 konvergiert genau dann, wenn die
Folge der Partialsummen beschränkt ist, d.h. es gibt ein M ∈ R, mit
n
X
k=0
für alle n ∈ n.
ak ≤ M
Analog zu Folgen lassen sich die Reihen auch gegen andere Reihen abschätzen.
Satz 3.29 (Majoranten-Kriterium)
Gilt |ak | ≤ |bk | für alle k ∈ N und konvergiert die Reihe
∞
P
ak mit
∞
P
k=0
|bk |, dann konvergiert auch
k=0
∞
∞
X
X
|
ak | ≤
|bk |.
k=0
k=0
Beweis. Folgerung aus dem Anordnungssatz für Grenzwerte angewendet auf die Partialsummenfolge.
Definition 3.30 (Absolut konvergente Reihe)
Eine Reihe heißt absolut konvergent, falls die Summe der Beträge
∞
X
k=0
konvergiert.
|ak |
59
3 Konvergenz, Folgen und Reihen
Eine absolut konvergente Reihe ist immer auch konvergent, wie man aufgrund der Dreiecksungleichung direkt sieht:
n
n
X
X
|
ak | ≤
|ak |.
k=0
k=0
Durch Abschätzung gegen die geometrische Reihe findet man zwei weitere Kritierien.
Satz 3.31 (Wurzel-Kriterium)
Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt
p
p
k
k
|ak | ≤ q < 1,
d.h. lim sup |ak | < 1
k→∞
p
dann konvergiert die Reihe absolut. Gilt k |ak | > 1 für unendlich viele k ∈ N, so
divergiert die Reihe.
Beweis. Aus |ak | ≤ q k folgt, p
dass die geometrische Reihe eine Majorante ist und diese
k
konvergiert für |q| < 1. Gilt |ak | > 1, so auch |ak | > 1 und die Glieder bilden nicht
einmal einen Nullfolge.
Satz 3.32 (Quotienten-Kriterium)
Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt
ak+1 ak+1 ≤ q < 1,
d.h. lim sup <1
ak ak k→∞
dann konvergiert die Reihe absolut.
Beweis. Aus |ak+1 /ak | ≤ q für alle k ≥ N folgt
|ak | ≤ q|ak−1 | ≤ q 2 |ak−2 | ≤ . . . ≤ q k−N |aN |.
Somit hat die Reihe mit
|aN |q
eine konvergente Majorante für |q| < 1.
−N
∞
X
qk
k=N
Beispiel 3.33 (Eulersche Zahl)
Die Reihe
∞
X
1
e :=
k!
k=0
konvergiert. Ihr Wert e ≈ 2, 7182818 . . . heißt Eulersche Zahl.
Die Konvergenz sieht man mit dem Quotientenkriterium. Für k ≥ 1 gilt
1
ak+1 k!
1
1
= (k+1)! =
=
≤ < 1.
1
ak (k + 1)!
k+1
2
k!
und damit ist der größte Häufungswert echt kleiner eins.
60
3.6 Potenzreihen
3.6 Potenzreihen
Definition 3.34 (Potenzreihe)
Eine Reihe der Form
P (x) :=
∞
X
k=0
ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . .
heißt Potenzreihe mit Koeffizienten ak ∈ R, Entwicklungspunkt x0 ∈ R und Argument
x ∈ R.
Satz 3.35 (Konvergenzradius von Potenzreihen)
Eine Potenzreihe
P (x) =
∞
X
k=0
ak (x − x0 )k
konvergiert absolut für alle Argumente x ∈ R, die innerhalb des sogenannten Konvergenzradius ρ liegen,
1
1
1
p
|x − x0 | < ρ :=
:= 0
mit formal: := ∞ und
0
∞
lim sup k |ak |
k→∞
und divergiert für |x − x0 | > ρ. Existiert der Grenzwert
ρ :=
1
ak+1 ,
lim ak k→∞
so entspricht dies ebenfalls dem Konvergenzradius.
Beweis. Gemäß Wurzelkriterium gilt:
p
p
lim sup k |ak (x − x0 )k | = |x − x0 | · lim sup k |ak |
k→∞
k→∞
(
< 1, für |x − x0 | < ρ,
|x − x0 |
=
=
ρ
> 1, für |x − x0 | > ρ.
Analog folgert man mit dem Quotientenkriterium.
Die wohl wichtigste Potenzreihe ist die Exponentialfunktion.
Definition 3.36
Die Exponentialfunktion ist gegeben durch
exp(x) :=
∞
X
xn
k=0
n!
.
61
3 Konvergenz, Folgen und Reihen
Die Exponentialfunktion ist überall konvergent, wie das Quotientenkriterium zeigt:
ak+1 xk+1 k! |x|
1
für alle k ≥ 2|x|.
ak = (k + 1)! xk = k + 1 ≤ 2 < 1
Absolut konvergente Reihen lassen sich multiplizieren.
Satz 3.37 (Cauchy-Produkt)
∞
∞
P
P
Seien
ak und
bk zwei absolut konvergente Reihen. Dann gilt
k=0
k=0
∞
X
k=0
ak
!
·
∞
X
k=0
bk
!
=
∞
k
X
X
k=0
aj bk−j
j=0
!
.
Man nennt
k
X
aj bk−j
j=0
das Cauchy-Produkt.
Beweis. (Skizze) Ausmultiplizieren der endlichen Summe, Dreiecksungleichung und Grenzübergang für n → ∞.
Für die Exponentialfunktion ergibt sich damit folgendes Resultat.
Satz 3.38 (Funktionalgleichung für die Exponentialfunktion)
Es gilt
exp(x) · exp(y) = exp(x + y).
Beweis. (Übung)
62
4 Stetigkeit
Der Grenzwertbegriff für Zahlenfolgen lässt sich auf Funktionen übertragen. Funktionen
(oder Abbildungen) waren bereits im Kapitel über Mengen aufgetreten. Hier wird nun
der Fall betrachtet, dass Definitionsbereich und Bild Teilmengen der reellen Zahlen R
sind.
Definition 4.1 (Funktion)
Sei D ⊂ R. Eine Vorschrift f : D → R, die jedem x ∈ D genau einen Funktionswert
f (x) ∈ R zuordnet, heißt reellwertige Funktion.
4.1 Intervalle
Ein häufiger anzutreffender Fall für den Definitionsbereich D ⊂ R sind Intervalle.
Definition 4.2 (Intervalle)
Für die Endpunkte a, b ∈ R mit −∞ < a ≤ b < ∞ notiert man die Intervalle
[a, b] := {x ∈ R | a ≤ x ≤ b},
(a, b) := {x ∈ R | a < x < b},
[a, b) := {x ∈ R | a ≤ x < b},
(a, b] := {x ∈ R | a < x ≤ b},
(abgeschlossenes
(offenes
(rechts halboffenes
(links halboffenes
Intervall),
Intervall),
Intervall),
Intervall),
und die uneigentlichen Intervalle
[a, ∞) := {x ∈ R | a ≤ x},
(−∞, b] := {x ∈ R | x ≤ b},
(nach oben unbeschränktes Intervall),
(nach unten unbeschränktes Intervall).
In diesem Zusammenhang ist der Abschluss einer Menge interessant. Dieser wird dadurch
gebildet, dass man die „Randpunkte“ der Menge mit hinzunimmt. Anschaulich sind dies
alle Punkte, die sich durch Folgen mit Folgengliedern in der Menge selbst annähern
lassen. Dabei muss der Grenzwert dieser Folge nicht in der Menge enthalten sein, kann
also am „Rand“ liegen. Formal definiert man:
Definition 4.3 (Abschluss)
Eine Teilmenge M ⊂ R heißt abgeschlossen, falls der Grenzwert jeder konvergenten Folge
(an )n∈N von Punkten an ∈ M ebenfalls in der Menge M liegt, d.h. limn→∞ ∈ M .
63
4 Stetigkeit
Für eine Teilmenge M ⊂ R ist der Abschluss M definiert durch
n
o
M := x ∈ R | Es gibt eine Folge (xn )n∈N , xn ∈ M mit x = lim xn .
n→∞
Jeder Punkt von M ist automatisch in M enthalten, da man als Folge die konstante
Folge von diesem Punkt wählen kann. Eine Menge ist abgeschlossen, falls M = M gilt.
Beispiele 4.4
(i) Die Menge [a, b] ist abgeschlossen.
(ii) Der Abschluss von (a, b), (a, b] und [a, b) ist gegeben durch [a, b].
(iii) Die Menge [0, ∞) ist abgeschlossen.
(iv) Der Abschluss von R \ {0} ist gegeben durch R.
4.2 Folgenstetigkeit
Nun lässt sich der Grenzwertprozess auf Funktionen übertragen.
Definition 4.5 (Grenzwert einer Funktion in einem Punkt)
Sei D ⊂ R und f : D → R eine Funktion. Die Funktion hat einen Grenzwert c ∈ R
in einem Punkt a ∈ D, wenn für alle Folgen von Punkten (xn )n∈N mit Grenzwert a =
limn→∞ xn auch die Folge ( f (xn ) )n∈N mit Grenzwert c konvergiert, d.h. wenn gilt
xn → a (n → ∞)
In diesem Fall wird auch kurz notiert:
⇒
f (xn ) → c (n → ∞).
lim f (x) = c.
x→a,
x∈D
Man beachte, dass der betrachtete Punkt a nicht im Definitionsbereich liegen muss. Er
muss lediglich im Abschluss D liegen, damit überhaupt eine Folge xn → a existiert. Im
Speziellen muss also auch die Funktion f : D → R dort nicht definiert sein. Dies wird
bei der späterten Definition der Ableitung wesentlich sein.
Zunächst sei aber die Eigenschaft der Stetigkeit einer Funktion betrachtet. Eine Funktion auf einem reellen Intervall ist anschaulich gesprochen dann stetig, wenn der Graph
zusammenhängt, d.h. ohne abzusetzen zeichenbar ist. Formal lässt sich dies dadurch
erklären, dass alle Folgen zu einem Punkt (im Speziellen die von „links“ und die von
„rechts“) denselben Grenzwert haben.
Definition 4.6 (Stetigkeit)
Eine Funktion f : D → R heißt stetig in einem Punkt a ∈ D, wenn für jede Folge
(xn )n∈N in D gilt:
xn → a (n → ∞)
64
⇒
f (xn ) → f (a) (n → ∞).
4.2 Folgenstetigkeit
f (x)
f (x2 )
f (x3 )
f (a)
f (a)
!
!
f (x2 )
f (x1 )
!
f (x2 )
f (x1 )
x1
x2
x3
!
a
x
x1
x3 x2
f (x)
x1
x2
x3
!
a
x3 x2
x1
x
Abbildung 4.1: Stetigkeit nach der Folgendefinition: Für alle Folgen (xn )n∈N mit xn → a
muss auch f (xn ) → f (a) gelten. (Links: stetig / Rechts: unstetig)
Andernfalls heißt die Funktion unstetig in a. Ist die Funktion stetig in jedem Punkt von
D, so nennt man sie stetig auf D (oder auch schlicht: stetig).
Für einen stetige Funktion gilt also
lim f (x) = f (lim x),
x→a
x→a
d.h. Stetigkeit erlaubt es, dass die Grenzwertbildung mit dem Anwenden der Funktion
vertauscht wird.
Beispiele 4.7
(i) Für ein beliebiges c ∈ R ist eine konstante Funktion f (x) = c (x ∈ R) gegeben.
Diese ist stetig, denn die Folge ( f (xn ) )n∈N = (c)n∈N konvergiert für alle Folgen
(xn )n∈N gegen c.
f (x)
c
f (x) = c
1
1
x
65
4 Stetigkeit
(ii) Die Identitätsfunktion f (x) = x ist stetig. Hier sind (xn )n∈N und ( f (xn ) )n∈N gleich
und die eine konvergiert genau dann, wenn die andere konvergiert.
f (x)
f (x) = x
1
x
1
(iii) Die Exponentialfunktion f (x) = ex ist stetig.
f (x)
f (x) = ex
4
3
e ≈ 2.71828...
2
1
−2
−1
1
2
x
−1
Zunächst ist f (x) = ex stetig im Punkt a = 0, d.h limx→0 ex = e0 = 1, denn es gilt
für |x| < 1
0
x
x1 x2 x3
x
|e − 1| = +
+
+
+ . . . − 1
0!
1!
2!
3!
2
3
x
x
x
= +
+
+ . . .
1!
2!
3!
1
|x| |x|2
≤ |x| ·
+
+
+ ...
1!
2!
3!
1
1
1
≤ |x| ·
+ + + ...
1! 2! 3!
= |x| · (e − 1) → 0 (|x| → 0).
Sei nun a ∈ R beliebig und (xn )n∈N eine Folge mit xn → a. Dann gilt:
|ea − exn | = |ea | · |1 − exn −a | → |ea | · |1 − 1| = 0
66
für (xn − a) → 0.
4.3 -δ-Stetigkeit
(iv) Die Heavisidefunktion
H(x) :=
(
für x < 0,
für x ≥ 0,
0,
1,
ist unstetig im Punkt a = 0.
f (x)
f (x) = H(x)
1
−3
−2
−1
1
2
3
x
−1
1
Dazu betrachtet man die Folge xn := − n+1
, (n ∈ N). Für diese gilt:
xn → 0 (n → ∞) und f (xn ) = 0 für alle n ∈ N,
jedoch f (0) = 1.
(v) Für eine endliche Zerlegung eines Intervall [a, b) durch Punkte a = p0 < p1 < p2 <
. . . < pk = b ist eine Treppenfunktion stückweise definiert durch
f (x) := ci für x ∈ [ pi−1 , pi ) , 1 ≤ i ≤ k.
f (x)
a
p1
p2 p3
p4
p5
b
x
Eine Treppenfunktion ist im Allgemeinen in den Zerlegungspunkten pi unstetig
(außer für ci−1 = ci ) und zwischen den Zerlegungspunkten stetig.
4.3 -δ-Stetigkeit
Die Definition der Stetigkeit besagt qualitativ, dass man denselben Wert erhält, egal
auf welchem Weg man zum Punkt a gelangt. Der Nachweis der Stetigkeit für eine kon-
67
4 Stetigkeit
krete Funktion ist mit diesem Kriterium jedoch oftmals schwierig, da man alle Folgen
betrachten muss. Eine quantitative, äquivalente Definition der Stetigkeit ist wie folgt.
Satz 4.8 (-δ-Stetigkeit)
Eine Funktion f : D → R ist genau dann stetig in einem Punkt a ∈ D, wenn es zu
jedem > 0 ein δ > 0 gibt, so dass für alle Punkte x ∈ D gilt:
|x − a| < δ
⇒
|f (x) − f (a)| < .
Beweis.
-δ-stetig → Folgen-stetig:
Sei (xn )n∈N eine beliebige Folge mit xn → a (n → ∞). Zu zeigen ist, dass dann auch
f (xn ) → f (a) gilt. Sei also > 0 vorgegeben. Dann gibt es nach -δ-stetig ein δ > 0, so
dass für alle |x − a| < δ der Abstand |f (xn ) − f (a)| < ist. Da die Folge (xn )n∈N gegen
a konvergiert, gibt es auch ein nδ , so dass |xn − a| < δ für alle n ≥ nδ . Somit gilt auch
|f (xn ) − f (a)| < für alle n ≥ nδ .
Folgen-stetig → -δ-stetig:
Widerspruchsargument: Angenommen, zu einem vorgegebenen > 0 gibt es kein geeignetes δ, d.h. es gibt zu jedem noch so kleinen δ > 0 immer einen Punkt mit |x − a| < δ,
aber |f (x) − f (a)| ≥ . Dann wählt man δ = 1, 12 , 13 , 41 , . . . und bildet mit diesen Punkten
die Folge x1 , x2 , x3 , x4 , . . .. Für diese Folge gilt nun
|xn − a| <
1
n
und
|f (xn ) − f (a)| ≥ .
Damit gilt xn → a, jedoch nicht f (xn ) → f (a) im Widerspruch zum Folgenkriterium
der Stetigkeit.
Anschaulich bedeutet dies, dass der Funktionswert f (x) beliebig nahe an f (a) liegt,
sofern nur auch x hinreichend nahe an a gewählt wird.
Beispiele 4.9
(i) Für die Identität f (x) = x kann man für jedes das gesuchte δ = wählen. Damit
gilt dann
|x − a| < δ ⇒ |f (x) − f (a)| = |x − a| < δ = .
(ii) Für die konstante Funktion f (x) = c gilt immer
|f (x) − f (a)| = |c − c| = 0 für alle x, a ∈ R.
68
4.4 Rechenregeln für stetige Funktionen
f (x)
f (a) + ✏
f (a)
f (a) + ✏
f (a)
f (a)
✏
f (a)
✏
f (x)
x
a
a
a
|{z}
?
a+
x
Abbildung 4.2: Stetigkeit nach der -δ-Definition: Für alle > 0 muss sich ein δ finden
lassen, so dass alle Funktionswerte für Argumente x ∈ D mit |x − a| < δ
die Funktionswerte höchstens |f (x) − f (a)| < entfernt liegen.
(iii) Die Betragsfunktion f (x) = |x| ist stetig. Man wähle δ = . Denn mit der Beziehung
||x| − |y|| ≤ |x − y| für alle x, y ∈ R
gilt dann die Abschätzung:
|x − a| < δ ⇒ |f (x) − f (a)| = ||x| − |a|| < |x − a| < δ = .
f (x)
f (x) = |x|
1
−1
1
x
4.4 Rechenregeln für stetige Funktionen
Funktionen mit demselben Definitionsbereich lassen sich auf natürliche Weise addieren
oder multiplizieren.
Definition 4.10
Für Funktionen f, g : D → R mit demselben Definitionsbereich ist Summe und Produkt
69
4 Stetigkeit
der Funktionen definiert durch:
(f + g)(x) := f (x) + g(x),
und
(f · g)(x) := f (x) · g(x).
Die Stetigkeit bleibt bei solchen Operationen erhalten.
Satz 4.11
Seien f, g : D → R stetig. Dann ist auch f + g und f · g stetig.
Beweis. Sei (xn )n∈N mit xn → a. Dann gilt
lim (f + g)(xn ) = lim {f (xn ) + g(xn )}
n→∞
n→∞
= lim f (xn ) + lim g(xn ) = f (a) + g(a) = (f + g)(a).
n→∞
n→∞
Beispiel 4.12
Polynome
P (x) =
n
X
ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n
k=0
sind stetig. Denn diese sind Summe und Produkt von stetigen Funktionen (konstante
Funktionen und die Identität f (x) = x).
Es sei daran erinnert, dass für injektive Funktionen die sogenannte Umkehrfunktion
existiert.
Definition 4.13 (Umkehrfunktion)
Sei f : D → B ⊂ R eine injektive Funktion mit Definitionsbereich D, Bild B. Die
zugehörige Umkehrfunktion f −1 : B → D (oder auch inverse Funktion) ist auf dem Bild
von f definiert durch
f −1 (y) := x ⇔ y = f (x).
1
verDie Umkehrfunktion f −1 (x) darf nicht mit der reziproken Funktion f (x)−1 = f (x)
−1
wechselt werden. Es ist vielmehr diejenige Funktion, für die f (f (x)) = x, x ∈ D gilt.
Zudem sei daran erinnert, dass die Verkettung von Funktion definiert werden kann,
sofern der Bildbereich der einen Funktion im Definitionsbereich der anderen liegt.
Definition 4.14 (Komposition von Funktionen)
Für zwei reellwertige Funktionen g : D → B ⊂ R und f : B → R ist die Komposition
(auch: Verkettung) f ◦ g : D → R definiert durch:
(f ◦ g)(x) := f (g(x)),
70
für alle x ∈ D.
4.4 Rechenregeln für stetige Funktionen
Beispiele 4.15
(i) Für k ∈ N ist die k-te Potenz gegeben durch die Funktion
x ∈ R.
f (x) := xk ,
Beschränkt man den Definitionsbereich auf [0, ∞) = R+ ∪ {0}, so ist diese injektiv
mit Bild R+ ∪ {0} und die zugehörige Umkehrfunktion wird als die k-te Wurzel
bezeichnet:
f −1 : R+ ∪ {0} → R+ ∪ {0},
Für einen rationalen Exponenten
Komposition definiert:
z
n
f −1 (x) :=
√
k
x.
mit z ∈ Z, n ∈ N wird die Potenzfunktion als
z
f (x) = x n :⇔
f1 (x) = xz , f2 (x) =
√
n
x und f (x) = f1 (f2 (x)), x ∈ R+ ∪ {0}.
f (x) = x2
4
3
f (x) =
2
√
2
x
1
−2
−1
1
2
3
4
5
x
(ii) Die Exponentialfunktion f (x) = exp(x) = ex ist für ganz R definiert und nimmt nur
positive Werte an. Die Umkehrfunktion ist definiert als der natürliche Logarithmus
f −1 (x) =: ln(x), d.h.
Für alle x ∈ R+ gilt :
y := ln(x)
:⇔
x = ey .
Somit gilt für alle x ∈ R: ln(ex ) = x = eln(x) .
71
4 Stetigkeit
f (x) = ex
5
4
3
2
f (x) = ln(x)
1
−2
−1
1
2
3
4
5
x
−1
−2
Satz 4.16 (Stetigkeit der Umkehrfunktion)
Sei die auf einem beschränkten und abgeschlossenen Definitionsbereich D definierte reellwertige Funktion f : D → B ⊂ R injektiv und stetig. Dann ist auch die Umkehrfunktion
f −1 : B → D stetig.
Beweis. Sei (yn )n∈N eine beliebige Folge in B mit yn → b ∈ B, (n → ∞). Damit die
Umkehrfunktion stetig, muss nun gezeigt werden, dass für die Folge der Funktionswerte
gilt: xn := f −1 (yn ) → f −1 (b) =: a, (n ∈ N). Dies sieht man wie folgt: Die Folge (xn )n∈N
ist beschränkt, da alle Folgenglieder in der beschränkten Menge D liegen. Damit besitzt
(xn )n∈N eine konvergente Teilfolge xnk → p ∈ D. Da f stetig ist, konvergieren aber auch
die Funktionswerte f (xnk ) → f (p). Zudem gilt aber auch, dass f (xnk ) = ynk → b = f (a)
konvergiert und somit f (a) = f (p) gilt. Wegen der Injektivität von f folgt daraus a = p.
Somit besitzt jede konvergente Teilfolge von (xn )n∈N den gleichen Grenzwert a und es
gilt xn → a, was zu zeigen war.
Beispiele 4.17
(i) Die k-te Wurzel f (x) =
√
k
x ist als Umkehrfunktion von xk stetig.
(ii) Der natürliche Logarithmus f (x) = ln(x) ist als Umkehrfunktion von ex stetig.
4.5 Zwischenwertsatz
Stetige, reellwertige Funktion auf reellen Intervallen sind dadurch gekennzeichnet, dass
sie keine Sprünge in den Funktionswerten aufweisen. Besitzt eine Funktion unterscheidliche Funktionswerte f (a) 6= f (b) an zwei Stellen a 6= b, a, b ∈ D und ist dazwischen stetig,
72
4.5 Zwischenwertsatz
so nimmt die Funktion daher auch alle Werte zwischen f (a) und f (b) an. Dies lässt sich
so veranschaulichen: Geht ein Bergsteiger aus dem Tal auf den Gipfel und dies durch
einen stetigen Aufstieg (d.h. er kann nicht plötzlich etliche Meter in die Höhe springen),
dann kommt er bei seinem Aufstieg auch an jedem Höhenmeter zwischen Tal und Gipfel
vorbei. Mathematisch wird dies durch den sogenannten Zwischenwertsatz ausgedrückt.
Satz 4.18 (Zwischenwertsatz)
Sei f : [a, b] → R eine stetige Funktion. Dann gibt es zu jeder Zahl y zwischen f (a) und
f (b), d.h. f (a) ≤ y ≤ f (b) bzw. f (a) ≥ y ≥ f (b), ein c ∈ [a, b] mit f (c) = y.
Beweis. (Skizze) Durch Einschachtelung lässt sich ein immer kleineres Intervall finden,
in dem der gesuchte Punkt liegen muss. Aufgrund der Vollständigkeit von R konvergiert
dies gegen den gesuchten Punkt c.
f (x)
f (b)
f (c)
f (a)
a
c
b
x
Abbildung 4.3: Illustration zum Zwischenwertsatz
Beispiel 4.19
Der Zwischenwertsatz hat zahlreiche Anwendungen. Eine davon ist die Existenz von
Fixpunkten einer Funktion f . Dies sind Punkte x∗ ∈ R für die f (x∗ ) = x∗ gilt. Es gilt:
Jede stetige Funktion f : [a, b] → [a, b] besitzt einen Fixpunkt. Man betrachte dazu
die Funktion g(x) := f (x) − x. Diese ist wiederum stetig und da alle Funktionswerte
im Intervall [a, b] liegen, muss im Speziellen f (a), f (b) ∈ [a, b] gelten. Damit ist g(a) =
f (a) − a ≥ 0 und g(b) = f (b) − b ≤ 0. Aus dem Zwischenwertsatz folgt, dass es eine
Nullstelle x∗ ∈ [a, b] mit g(x∗ ) = 0 gibt. Für diese gilt dann f (x∗ ) = x∗ .
73
5 Differentiation
Bei der Betrachtung von reellwertigen Funktionen f : D → R auf einem Intervall D ⊂
R war die Stetigkeit der Funktion eine wesentliche Eigenschaft. Ist die Funktion in
einen Punkt x0 stetig, so unterscheiden sich die Funktionswerte f (x) an Punkten x
nicht wesentlich von dem Wert f (x0 ) unterscheiden, wenn man x nur hinreichend nahe
an x0 wählt. Anschaulich gesprochen hat eine stetige Funktion keinen Sprung in den
Funktionswerten, d.h. entfernt man sich nur wenig von dem Punkt x0 , so ändert sich
auch der Funktionswert nur geringfügig von f (x0 ). Durch Differentiation lässt sich die
Änderung einer Funktion in der Nähe von x0 quantitativer betrachten. Dazu ein Beispiel:
Die Größe einer Population sei als eine Funktion g : D → R über die Zeit aufgetragen.
Somit lässt sich zu jedem Zeitpunkt t ∈ D die aktuelle Populationsgröße g(t) ermitteln.
g(t)
g(t)
∆y
g(t0 )
t0
t
t
∆t
Abbildung 5.1: Illustration zur zeitlichen Entwicklung einer Größe einer Population.
Zudem lässt sich fragen, wie sich die Population im zeitlichen Mittel von einem Startzeitpunkt t0 bis zum Zeitpunkt t verändert hat. Diese Änderung beträgt g(t) − g(t0 ) und
somit kann man auch die mittlere Änderungsrate der Population
im Intervall [t0 , t] bestimmen.
g(t) − g(t0 )
t − t0
75
5 Differentiation
Dies führt zunächst auf die folgende Definition.
Definition 5.1 (Differenzenquotient)
Zu einer Funktion f : D → R ist für die Änderung der Funktionswerte ∆y := f (x)−f (x0 )
im Intervall ∆x := x − x0 die mittlere Änderungsrate gegeben durch
f (x) − f (x0 )
∆y
=
, für x 6= x0
∆x
x − x0
und wird als Differenzenquotient von f zu den Stellen x und x0 bezeichnet.
Man kann sich zudem fragen, wie momentane Änderungsrate aussieht, d.h. die Größe
der Änderung in einem beliebig kleinen Bereich um den betrachteten Zeitpunkt herum.
Mathematisch benötigt man dazu den Grenzwert des Differenzenquotienten.
5.1 Ableitung von Funktionen
Definition 5.2 (Differenzierbar)
Eine Funktion f : D → R heißt differenzierbar in einem Punkt x0 ∈ D, wenn der
Grenzwert
f (x) − f (x0 )
df
(x0 ) := f 0 (x0 ) := x→x
lim ,
0
dx
x − x0
x∈D\{x }
0
existiert. f (x0 ) heißt Differentialquotient oder Ableitung von f im Punkt x0 .
0
Ist die Funktion f in jedem Punkt von D differenzierbar, so bezeichnet man sie als
differenzierbar in D.
Die geometrische Interpretation dieses Vorgehens ist wie folgt: Der Differenzenquotient
ist die Steigung der Sekante des Graphens durch die Punkte (x0 , f (x0 )) und (x, f (x)). Bildet man den Grenzwert x → x0 , so wird die Sekante zur Tangente im Punkt (x0 , f (x0 ))
und f 0 (x0 ) entspricht der Steigung der Tangente.
Bemerkung 5.3
(i) Wichtig bei der Definition der Ableitung ist, dass der Differenzenquotient für alle
Folgen x → x0 gegen denselben Grenzwert f 0 (x0 ) konvergieren muss.
(ii) Der Differenzenquotient ist nur für x 6= x0 definiert, d.h. nur auf D \ {x0 }. Die
Ermittlung des Grenzwerts ist dennoch möglich, da dieser auch für die Punkte im
Abschluss einer Menge definiert ist.
(iii) Eine analoge Definition ist durch Nullfolgen h → 0 möglich. Die Ableitung ist
gegeben durch
f (x0 + h) − f (x0 )
,
h→0
h
wobei die Folge x0 + h in D liegen muss.
f 0 (x0 ) = lim
76
5.1 Ableitung von Funktionen
f (x)
f (x)
f (x)
∆y
f (x0 )
f (x0 )
∆x
x0
x
x
x0
x
Abbildung 5.2: Geometrische Interpretation der Ableitung. Links: Sekante. Rechts:
Tangente.
(iv) Die Ableitung ist zunächst eine punktweise Eigenschaft einer Funktion, d.h. Differenzierbarkeit ist für einen gegebenen Punkt x0 ∈ D definiert und die Ableitung hat
einen Wert f 0 (x0 ) ∈ R, sofern sie existiert. Ist jedoch die Funktion auf dem gesamten Definitionsbereich D differenzierbar, d.h. für alle x0 ∈ D existiert der Grenzwert f 0 (x0 ), so kann man die Ableitung wieder als Funktion f 0 : D → R, x 7→ f 0 (x)
auffassen.
Beispiele 5.4
(i) Die konstante Funktion f (x) = c mit c ∈ R ist differenzierbar mit
f 0 (x0 ) = lim
x→x0
c−c
f (x) − f (x0 )
= lim
= 0.
x→x
x − x0
0 x − x0
(ii) Die lineare Funktion f (x) = m · x mit m ∈ R ist differenzierbar mit
f 0 (x0 ) = lim
x→x0
f (x) − f (x0 )
m · x − m · x0
m · (x − x0 )
= lim
lim
= m.
x→x0
x→x0
x − x0
x − x0
x − x0
(iii) Die affin-lineare Funktion f (x) = m · x + b mit m, b ∈ R ist differenzierbar mit
f 0 (x0 ) = lim
x→x0
f (x) − f (x0 )
m · x + b − (m · x0 + b)
= lim
= m.
x→x0
x − x0
x − x0
(iv) Die Betragsfunktion f (x) = |x| ist nicht differenzierbar in x0 = 0, denn
(
1,
x > 0,
|x| − |0|
=
x−0
−1,
x < 0,
und die Grenzwerte des Differenzenquotienten unterscheiden sich, je nachdem, ob
man sich von oben oder von unten an x0 annähert.
77
5 Differentiation
(v) Die Funktion f (x) =
1
x
ist für x0 > 0 differenzierbar mit
1
f 0 (x0 ) = lim
x→x0
x −x
1
0
−
−1
f (x) − f (x0 )
1
= lim x x0 = lim x·x0 = lim
=− 2
x→x0 x − x0
x→x0 x − x0
x→x0 x · x0
x − x0
x0
(vi) Die Exponentialfunktion f (x) = ex ist differenzierbar mit
ex+h − ex
eh − 1
1
f 0 (x) = lim
= ex lim
= ex lim
h→0
h→0
h→0 h
h
h
= ex lim
h→0
∞
X
hk
k=0
k!
∞
X
hk
k=0
k!
!
−1
= ex lim eh = ex e0 = ex
h→0
5.2 Ableitung als lineare Approximation
Sei noch einmal die affin-lineare Funktion f (x) = m · x + b mit Ableitung f 0 (x0 ) = m
in jedem Punkt x0 ∈ D betrachtet. Für diese gilt auch die folgende Darstellung der
Funktionsdifferenz:
f (x) − f (x0 ) = m · x + b − (m · x0 + b) = m · (x − x0 ) = f 0 (x0 ) · (x − x0 )
oder anders ausgedrückt
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ),
mit f (x0 ), f 0 (x0 ) ∈ R.
Dies zeigt, dass sich die Funktion als lineare Funktion mit Aufpunkt in x0 schreiben lässt.
Dies ist nicht weiter verwunderlich, denn die Funktion ist ja bereits linear. Vielmehr lässt
sich aber jede differenzierbare Funktion in der Nähe eines Punktes x0 in einer solchen
Form schreiben, wenn man einen kleinen Fehler zulässt. Dieser Fehler muss dabei beliebig
klein werden, je näher man x an x0 betrachtet. Man spricht davon, dass man die Funktion
lokal (d.h. für x nahe bei x0 ) durch eine lineare Approximation darstellen kann.
Satz 5.5 (Die Ableitung ist die lineare Approximation)
Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn
es eine konstante c ∈ R gibt, so dass
f (x) = f (x0 ) + c · (x − x0 ) + ω(x),
mit einer Funktion ω(x) : D → R, für die gilt
lim
x→x0
In diesem Fall gilt c = f 0 (x0 ).
78
ω(x)
= 0.
x − x0
x ∈ D,
5.2 Ableitung als lineare Approximation
Beweis.
Differenzierbar → linear approximierbar:
Sei f in x0 differenzierbar. Definiert man nun
ω(x) := f (x) − f (x0 ) − f 0 (x0 ) · (x − x0 ),
so gilt
lim
x→x0
ω(x)
x − x0
f (x) − f (x0 ) f 0 (x0 ) · (x − x0 )
= lim
−
x→x0
x − x0
x − x0
f (x) − f (x0 )
= lim
− f 0 (x0 ) = 0.
x→x0
x − x0
Linear approximierbar → differenzierbar:
Umgekehrt gelte für eine Funktion ω(x) mit limx→x0
ω(x)
x−x0
= 0:
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + ω(x).
Dann gilt auch
lim
x→x0
f (x) − f (x0 )
− f 0 (x0 )
x − x0
= lim
x→x0
ω(x)
x − x0
=0
und somit
lim
x→x0
f (x) − f (x0 )
x − x0
= f 0 (x0 ).
Die Forderung an den Restterm ω(x) bedeutet, dass ω(x) im Vergleich zu x − x0 verschwindend klein wird je näher x gegen x0 strebt. Für diese Eigenschaft wurde das
sogenannte Landau-Symbol o („klein-O“) eingeführt. Für zwei Funktionen g, h : D → R
schreibt man:
g(x) = o(h(x)) für x → x0 ,
falls lim
x→x0
g(x)
= 0.
h(x)
Damit lässt sich die Differenzierbarkeit in einem Punkt kompakt beschreiben:
Satz 5.6
Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn
sie sich in der Nähe von x0 durch eine lineare Funktion darstellen lässt, d.h.
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |),
für x → x0 ,
mit f 0 (x0 ) ∈ R.
79
5 Differentiation
Aus dieser Darstellung sieht man sofort, dass eine differenzierbare Funktion stetig sein
muss.
Satz 5.7 (differenzierbar → stetig)
Ist eine Funktion f : D → R differenzierbar in x0 ∈ D, so ist sie auch stetig in x0 .
Beweis. Da f differenzierbar in x0 ist, gilt
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |).
Durch den Grenzübergang x → x0 erhält man




lim f (x) = lim f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |) = f (x0 ) = f ( lim x).
x→x0
x→x0 
x→x0
| {z } | {z }
→0
→0
Bemerkung 5.8
In gleicher Weise lässt sich Stetigkeit als die Approximation mit konstanten Funktionen
auffassen. Denn ist einen Funktion f : D → R stetig in x0 ∈ D, so gilt
f (x) = f (x0 ) + o(1),
für x → x0 ,
mit der Konstanten f (x0 ) ∈ R.
5.3 Ableitungsregeln
Erneut stellt sich die Frage, ob und wie sich die Differenzierbarkeit auf Summe, Produkt
und Komposition Funktionen sowie auf die Umkehrfunktion überträgt.
Satz 5.9 (Summen-, Produkt- und Quotientenregel)
Sei D ⊂ R und seien f, g : D → R differenzierbar. Dann gilt
(i) Die Summe (f + g)(x) := f (x) + g(x) (für x ∈ D) ist differenzierbar mit:
(f + g)0 (x) = f 0 (x) + g 0 (x).
(ii) Das Produkt (f · g)(x) := f (x) · g(x) (für x ∈ D) ist differenzierbar mit:
(f · g)0 (x) = f 0 (x) · g(x) + f (x) · g 0 (x).
(iii) Der Quotient
80
f
g
(x) :=
f (x)
g(x)
(für x ∈ D) ist für g(x) 6= 0 differenzierbar mit:
0
f
f 0 (x) · g(x) − f (x) · g 0 (x)
.
(x) =
g
g(x)2
5.3 Ableitungsregeln
Beweis. Die Regeln folgen aus den entsprechenden Eigenschaften konvergenter Folgen
und den Betrachtungen:
(i)
f (x) + g(x) − f (x0 ) − g(x0 )
(f + g)(x) − (f + g)(x0 )
= lim
x→x
x − x0
x − x0
0
f (x) − f (x0 )
g(x) − g(x0 )
= lim
+ lim
= f 0 (x0 ) + g 0 (x0 ).
x→x0
x→x0
x − x0
x − x0
(f + g)0 (x) = lim
x→x0
(ii)
f (x) · g(x) − f (x0 ) · g(x0 )
(f · g)(x) − (f · g)(x0 )
= lim
x→x0
x→x0
x − x0
x − x0
f (x) · g(x) − f (x) · g(x0 ) + f (x) · g(x0 ) − f (x0 ) · g(x0 )
= lim
x→x0
x − x0
f (x) · (g(x) − g(x0 )) + (f (x) − f (x0 )) · g(x0 )
= lim
x→x0
x − x0
(g(x) − g(x0 ))
(f (x) − f (x0 ))
= lim f (x) ·
+ lim
· g(x0 )
x→x0
x→x0
x − x0
x − x0
= lim {f (x)} · g 0 (x0 ) + f 0 (x0 ) · g(x0 )
(f · g)0 (x) = lim
x→x0
= f (x0 ) · g 0 (x0 ) + f 0 (x0 ) · g(x0 )
(wegen der Stetigkeit von f ).
(iii)
0
f
f
f (x) f (x0 )
1
1
f
−
(x) = lim
(x) −
(x0 ) = lim
x→x0 x − x0
x→x0 x − x0
g
g
g
g(x)
g(x0 )
f (x) · g(x0 ) − f (x0 ) · g(x)
1
= lim
x→x0 x − x0
g(x) · g(x0 )
f (x) · g(x0 ) − f (x0 ) · g(x0 ) + f (x0 ) · g(x0 ) − f (x0 ) · g(x)
1
= lim
x→x0 x − x0
g(x) · g(x0 )
f (x) − f (x0 )
g(x0 )
f (x0 )
g(x0 ) − g(x)
= lim
·
+
·
x→x0
x − x0
g(x) · g(x0 ) g(x) · g(x0 )
x − x0
g(x0 )
f (x0 ) 0
+
· g (x0 ) (wegen der Stetigkeit von g)
= f 0 (x0 ) ·
g(x0 )2 g(x0 )2
f 0 (x0 ) · g(x0 ) + f (x0 ) · g 0 (x0 )
=
g(x0 )2
Beispiel 5.10 (i) Für f (x) = x2 = x · x gilt f 0 (x) = x · 1 + 1 · x = 2x.
(ii) Per Induktion zeigt für f (x) = xn die Ableitung f 0 (x) = nxn−1 , denn man die
Produktregel liefert für f (x) = x·xn−1 die Ableitung f 0 (x) = xn−1 +x·(n−1)xn−2 =
nxn−1 .
81
5 Differentiation
(iii) Als Summe und Produkt von differenzierbaren Funktionen sind Polynome
P (x) =
n
X
ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n
k=0
in jedem Punkt differenzierbar mit
0
P (x) =
n
X
kak xk−1 = a1 + 2a2 x + 3a3 x2 + . . . + nan xn−1 .
k=1
Satz 5.11 (Kettenregel)
Seien g : D → B ⊂ R, f : B → R und sei g differenzierbar in x0 ∈ D und
f differenzierbar in y0 := g(x0 ) ∈ B. Dann ist die Komposition (auch: Verkettung)
f ◦ g : D → R, x 7→ f (g(x)) ebenfalls in x0 differenzierbar mit
(f ◦ g)0 (x0 ) = f 0 (g(x0 )) · g 0 (x0 ).
Beweis. Die Schwierigkeit im Beweis liegt zunächst darin, dass y−y0 = g(x)−g(x0 ) = 0
sein könnte und damit sich der Differenzenquotient zu (f ◦ g)0 (x0 ) nicht mit g(x) − g(x0 )
erweitern lässt. Man betrachte daher zunächst die Funktion ∆f : B → R definiert als:
(
f (y)−f (y0 )
,
für y 6= y0 ,
y−y0
∆f (y) :=
0
f (y0 ),
für y = y0 .
Es gilt dann limy→y0 ∆f (y) = f 0 (y0 ), da f in y0 differenzierbar ist. Zudem gilt
f (y) − f (y0 ) = ∆ f (y) · (y − y0 ) .
Damit findet man
f (g(x)) − f (g(x0 ))
∆f (g(x)) · (g(x) − g(x0 ))
= lim
x→x0
x→x0
x − x0
x − x0
g(x) − g(x0 )
= f 0 (g(x0 )) · g(x0 ).
= lim ∆f (g(x)) · lim
x→x0
x→x0
x − x0
(f ◦ g)0 (x0 ) = lim
Beispiel 5.12
2
Die Funktion h(x) = e−x lässt sich als h(x) = f (g(x)) mit f (x) = ex und g(x) = −x2
auffassen. Somit lautet die Ableitung:
2
h0 (x) = f 0 (g(x)) · g 0 (x) = e−x · (−2x) = −2xe−2x .
Satz 5.13 (Differenzierbarkeit der Umkehrfunktion)
Sei f : D → B ⊂ R eine auf einem abgeschlossenen Definitionsbereich stetige, invertierbare Funktion und f −1 : B → D die zugehörige Umkehrfunktion. Ist f in einem Punkt
x0 ∈ D differenzierbar mit f 0 (x0 ) 6= 0, dann ist auch die Umkehrfunktion f −1 im Punkt
y0 = f (x0 ) differenzierbar und für die Ableitung gilt
(f −1 )0 (y0 ) =
82
1
f 0 (x
0)
,
x0 = f −1 (y0 ).
5.4 Extrema und Mittelwertsatz
Beweis. Da f stetig ist, ist dies auch f −1 . Somit gilt folgt aus f (x) =: y → y0 := f (x0 )
auch x = f −1 (y) → f −1 (y0 ) = x0 . Unter Beachtung von y = f (x) ⇔ x = f −1 (y) gilt
x − x0
f −1 (y) − f −1 (y0 )
= lim
= lim
lim
x→x0 f (x) − f (x0 )
x→x0
y→y0
y − y0
1
x−x0
f (x)−f (x0 )
=
1
.
f 0 (x0 )
Beispiel 5.14
Sei f (x) = ex mit Umkehrfunktion f −1 (y) = ln(y). Dann gilt für die Ableitung des
natürlichen Logarithmus:
1
1
1
ln0 (y) = x 0 = x = , mit y = ex .
(e )
e
y
Dies erlaubt es die folgende Darstellung der Eulerschen Zahl zu zeigen:
n
1
e = lim 1 +
.
n→∞
n
Man folgert nämlich so: Da für den Logarithmus ln0 (1) = 1 sowie ln(1) = 0 gilt, folgt
ln(1 + h)
ln(1 + h) − ln(1)
= lim
h→0
h→0
h
h
1
für alle Folgen und somit auch für die Folge h := n . Deshalb ist
1 = ln0 (1) = lim
1 = lim
n→∞
ln(1 + n1 )
1
n
= lim n ln(1 +
n→∞
1
).
n
Damit schließt man wegen der Stetigkeit der Exponentialfunktion:
n
n
o
1
1
= lim en ln(1+ n ) = e1 = e.
lim 1 +
n→∞
n→∞
n
5.4 Extrema und Mittelwertsatz
Definition 5.15 (lokale / globale Extrema)
Eine Funktion f : D → R hat in einem Punkt x0 ∈ D ein globales Extremum (Maximum
bzw. Minimum), falls gilt:
f (x0 ) ≥ f (x) für alle x ∈ D
f (x0 ) ≤ f (x) für alle x ∈ D
(Maximum),
(Minimum).
Gilt diese Eigenschaft nicht auf dem gesamten Definitionsbereich D, sondern nur auf
einer Teilmenge {x ∈ D | |x − x0 | < δ} um den betrachteten Punkt x0 herum, d.h. es
gibt ein δ > 0, so dass
f (x0 ) ≥ f (x) für alle x mit |x − x0 | < δ
f (x0 ) ≤ f (x) für alle x mit |x − x0 | < δ
(Maximum),
(Minimum),
dann heißt die Stelle x0 lokales Extremum (lokales Maximum bzw. lokales Minimum).
83
5 Differentiation
f (x)
globales Maximum
lokales Maximum
lokales Minimum
globales Minimum
x
D
Satz 5.16 (Notwendige Bedingung für Extrema)
Besitzt eine differentierbare Funktion f : (a, b) → R ein lokales Extremum in x0 ∈ (a, b),
so gilt notwendig
f 0 (x0 ) = 0.
Beweis. Besitze f ein lokales Minimum. Dann gilt in der Nähe von x0 für monotone
Folgen x → x0 von oben und unten
f (x) − f (x0 )
≥ 0,
x − x0
f (x) − f (x0 )
≤ 0,
x − x0
falls x > x0 , und
falls x < x0 .
Somit gilt beim Grenzübergang x → x0 :
0 ≤ f 0 (x0 ) ≤ 0
Für das Maximum schließt man analog.
⇒
f 0 (x0 ) = 0.
Satz 5.17 (Rolle)
Sei f : [a, b] → R einen stetige Funktion mit f (a) = f (b) . Ist f in (a, b) differenzierbar,
so dann existiert eine Stelle c ∈ (a, b) mit f 0 (c) = 0.
Beweis. Ist f konstant, so gilt direkt f 0 (x) = 0 für alle x ∈ (a, b). Ist f nicht konstant,
so muss es einen Punkt x0 ∈ (a, b) geben an dem der Funktionswert von f (a) = f (b)
verschieden ist, d.h. mit f (x0 ) > f (a) = f (b) oder f (x0 ) < f (a) = f (b). Somit wird
das globale Maximum oder Minimum nicht in a oder b angenommen, sondern in einem
Punkt c ∈ (a, b). Für diesen gilt f 0 (c) = 0.
84
5.4 Extrema und Mittelwertsatz
Der folgende Satz ist das Analogon für differenzierbare Funktionen zu dem Zwischenwertsatz für stetige Funktionen.
Satz 5.18 (Mittelwertsatz)
Sei f : [a, b] → R eine stetige Funktion, die in (a, b) differenzierbar ist. Dann gibt es ein
c ∈ (a, b), so dass
f 0 (c) =
f (b) − f (a)
.
b−a
Beweis. Man definiert g : [a, b] → R durch
g(x) := f (x) −
f (b) − f (a)
(x − a).
b−a
Diese Funktion ist stetig in [a, b] und differenzierbar in (a, b) und es gilt g(a) = f (a) =
g(b). Aus dem Satz von Rolle folgt, dass es dann ein c ∈ (a, b) gibt mit g 0 (c) = 0. Für
dieses gilt
g 0 (c) = f 0 (c) −
f (b) − f (a)
= 0.
b−a
f (x)
f (a) +
a
c
b
f (b)−f (a)
(x
b−a
− a)
x
Abbildung 5.3: Illustration zum Mittelwertsatz
85
5 Differentiation
5.5 Taylorreihe
Eine im Punkt x0 differenzierbare Funktion lässt sich bis auf einen Fehler der Ordnung
o(|x − x0 |) durch eine lineare Funktion annähern gemäß
f (x) = f (x0 ) + f 0 (x0 )(x − x0 ) + o(|x − x0 |).
An dieser Stelle lässt sich fragen, ob sich die Approximation besser machen lässt, indem
man weitere Terme höherer Ordung (z.B. (x − x0 )2 ) mit hinzunimmt. Um die obige
Summe logisch fortzusetzen benötigt man dafür aber eine weitere, zweite Ableitung von
f.
Definition 5.19 (Höhere Ableitungen)
Sei für eine Funktion f : D → R die Ableitung f 0 : D → R stetig, dann bezeichnet man
f als stetig differenzierbar.
Ist die Ableitung f 0 : D → R zudem sogar differenzierbar, so bezeichnet man die Ableitung von f 0 (x) als die 2. Ableitung von f (x) und diese wird notiert als f 00 (x) oder
f (2) (x).
Rekursiv wird die n-te Ableitung (sofern sie existiert) definiert durch:
f (0) (x) := f (x),
df
(x) := f (1) (x) := f 0 (x),
dx
d2 f
(x) := f (2) (x) := f 00 (x),
2
dx
..
.
dn f
(x) := f (n) (x) := (f (n−1) )0 (x), (n ≥ 3).
n
dx
Beispiel 5.20
Betrachtet man nun zunächst ein allgemeines Polynom
n
X
ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . + an (x − x0 )n ,
P (x) =
k=0
so findet man für die n-t Ableitung
P (1) (x) = a1 + 2 · a2 · (x − x0 ) + 3 · a3 · (x − x0 )2 + . . . + n · an · (x − x0 )n−1 ,
P (2) (x) = 2 · 1 · a2 + 3 · 2 · a3 · (x − x0 ) + . . . + n · (n − 1) · an · (x − x0 )n−2 ,
..
.
P (k) (x) = k · (k − 1) · . . . · 1 · ak + (k + 1) · k · . . . · 2 · ak+1 · (x − x0 )
..
.
+ . . . + n · (n − 1) · . . . · (n − k + 1) · an · (x − x0 )n−k ,
P (n) (x) = n · (n − 1) · . . . · 2 · 1 · an ,
86
5.5 Taylorreihe
und somit als Ableitung an der Stelle x0 die Darstellung
P (k) (x0 ) = k · (k − 1) · . . . · 1 · ak = k! · ak
⇒
ak =
P (k) (x0 )
.
k!
Setzt man im obigen Beispiel die Darstellung der Koeffizient ein, so zeigt sich, dass sich
das Polynom auch wie folgt darstellen lässt:
P (x) =
n
X
P (k) (x0 )
k!
k=0
(x − x0 )k .
Dies motiviert die folgende Definition.
Definition 5.21 (Taylor-Polynom)
Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar. Dann nennt man
Tn (x) := Tn [f, x0 ](x) :=
n
X
f (k) (x0 )
k!
k=0
(x − x0 )k
das n-te Taylor-Polynom von f zum Entwicklungspunkt x0 ∈ (a, b).
Aus der obigen Diskussion hat sich gezeigt, dass das n-te Taylor-Polynom von einem
Polynom f vom Grad n mit dem Polynom f identisch ist - oder anders ausgedrückt: Die
Funktion und ihre Darstellung durch das Taylor-Polynom hatten keine Abweichung von
einander. Für eine Allgemeine Funktion wird dies nicht der Fall sein, jedoch lässt sich
hoffen, dass man die Größe des Fehlers zwischen einer Funktion f und ihrem TaylorPolynom geeignet abschätzen kann und dieser hinreichend klein gemacht werden kann.
Dies liefert die folgende Aussage.
Satz 5.22 (Restglied der Taylor-Approximation)
Die Funktion f : (a, b) → R sei n + 1-mal stetig differenzierbar und x0 ∈ (a, b). Dann
gibt es zu jedem x ∈ (a, b) ein ξ zwischen x und x0 , so dass gilt
f (x) =
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k +
f (n+1) (ξ)
(x − x0 )n+1 .
(n + 1)!
Der Unterschied zwischen f (x) und dem zugehörigen Taylor-Polynom Tn [f, x0 ](x),
Rn+1 (x) := f (x) − Tn [f, x0 ](x) =
f (n+1) (ξ)
(x − x0 )n+1 ,
(n + 1)!
wird als Lagranges Restglied bezeichnet.
Beweis. Sei x ∈ (a, b) fest gewählt. Die Hilfsfunktion g : (a, b) → R gegeben durch
g(y) := f (x) −
n
X
f (k) (y)
k=0
k!
(x − y)k − α
(x − y)n+1
(n + 1)!
87
5 Differentiation
hat für jedes α den Funktionswert g(x) = 0. Zudem lässt sich α so wählen, dass g(x0 ) = 0
gilt. Als Zusammensetzung differenzierbarer Funktionen ist auch g(y) nach y differenzierbar. Jeder Summand mit k ≥ 0 hat dabei die Ableitung
f (k+1) (y)
f (k) (y)
d f (k) (y)
k
(x − y) =
(x − y)k +
k · (x − y)k−1 · (−1)
dy
k!
k!
k!
(k+1)
(k)
f
(y)
f (y)
=
(x − y)k −
· (x − y)k−1
k!
(k − 1)!
und für k = 0 ohne den zweiten Term. Somit folgt
g 0 (y) = −
=−
n
X
f (k+1) (y)
k=0
n
X
k!
(x − y)k +
n
X
f (k) (y)
(x − y)n
(x − y)k−1 + α
(k − 1)!
n!
k=1
n−1 (k+1)
X
f (k+1) (y)
f
(y)
(x − y)n
k
k
(x − y) +
(x − y) + α
k!
k!
n!
k=0
k=0
(n+1)
(x − y)n
.
n!
n!
Wegen g(x) = g(x0 ) = 0 gibt es nach dem Satz von Rolle ein ξ zwischen x und x0 mit
der Eigenschaft
=−
f
(y)
(x − y)n + α
f (n+1) (ξ)
(x − ξ)n
(x − ξ)n + α
n!
n!
n
n
(x
−
ξ)
(x
−
ξ)
=α
f (n+1) (ξ)
n!
n!
α = f (n+1) (ξ).
0 = g 0 (ξ) = −
⇒
Somit folgt insgesamt
⇒
0 = g(x0 ) = f (x) −
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k − f (n+1) (ξ)
(x − x0 )n+1
.
(n + 1)!
Bemerkung 5.23
Um zu wissen, die gut ein Taylor-Polynom eine Funktion approximiert, muss das Restglied abgeschätzt werden. Hierfür gilt im Falle x > x0 (für x < x0 analog):
|Rn+1 (x)| ≤
1
· sup |f (n+1) (ξ)| · |x − x0 |n+1 .
(n + 1)! x0 <ξ<x
Beispiel 5.24
Für die Exponentialfunktion f (x) = ex gilt f (n) = ex und somit f (n) (0) = 1, (n ≥ 0).
Die Taylor-Reihe zum Entwicklungspunkt x0 = 0 liest sich als
n
X
1 k
x .
k!
k=0
88
5.5 Taylorreihe
ex
6
T3 = 1 + x + 12 x2 + 61 x3
5
T2 = 1 + x + 21 x2
4
T1 = 1 + x
3
2
T0 = 1
1
−3
−2
−1
1
2
3
x
4
−1
Abbildung 5.4: Taylorentwicklung der Exponentialfunktion für x0 = 0
Analog zur Approximierbarkeit durch lineare Funktionen durch die Ableitung einer
Funktion, lässt sich auch die Approximierbarkeit durch Taylor-Polynome fassen.
Satz 5.25 (Approximation durch Taylor-Polynome)
Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar und x0 ∈ (a, b). Dann gilt
für alle x ∈ (a, b)
f (x) =
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k + o(|x − x0 |n )
für x → x0 .
Beweis. Es gilt für die Restglieddarstellung des n − 1-ten Taylor-Polynoms mit einem
ξ ∈ (a, b) (wobei ξ von x abhängt)
f (x) −
n−1 (k)
X
f (x0 )
k=0
k!
(x − x0 )k =
=
f n (ξ)
(x − x0 )n
n!
f n (x0 )
f n (ξ) − f n (x0 )
(x − x0 )n +
(x − x0 )n
n!
n!
und somit
f (x) −
Pn
f (k) (x0 )
(x
k!
n
− x0 )
k=0
(x
wegen der Stetigkeit von f n (x).
− x0 )k
=
f n (ξ) − f n (x0 )
→0
n!
für x → x0
89
5 Differentiation
Ist eine Funktion beliebig oft differenzierbar, so kann man das Taylor-Polynom zu einer
Taylor-Reihe machen.
Definition 5.26 (Taylor-Reihe)
Sei f : (a, b) → R beliebig oft differenzierbar, d.h. für alle k ∈ N existiert f (k) (x). Dann
ist die Taylor-Reihe zum Entwicklungspunkt x0 ∈ (a, b) definiert durch
T∞ [f, x0 ](x) :=
∞
X
f k (x0 )
k=0
k!
(x − x0 )k .
Bemerkung 5.27
Eine Taylor-Reihe muss die Funktion f nicht darstellen. Es gibt folgende Fälle:
(i) Die Reihe konvergiert nicht oder nicht für jedes x. Dann stimmt der Konvergenzradius nicht mit dem Definitionsbereich der Funktion überein.
(ii) Konvergiert die Reihe in einem Punkt x, so kann dennoch f (x) 6= Tn [f, x0 ](x) sein.
(iii) Die Taylor-Reihe stellt die Funktion f (x) genau dann dar, falls das Lagrange
Restglied Rn+1 (x) → 0 (n → ∞) gegen null konvergiert. Dafür ist z.B. hinreichend, dass alle Ableitungen beschränkt sind, d.h. es gibt ein M > 0, so dass
supx∈(a,b) |f n (x)| ≤ M < ∞ für alle n ∈ N gilt.
Funktionen, die sich durch ihre Taylor-Reihe darstellen lassen, nennt man (reell) analystisch.
Mit Hilfe der Taylor-Polynome lassen sich nun hinreichende Bedingungen für Extrema
finden.
Satz 5.28 (Hinreichende Bedingung für Extrema)
Sei f : (a, b) → R eine n-mal (n ≥ 2) stetig differenzierbare Funktion, für die in einem
Punkt x0 ∈ (a, b) für die Ableitungen gilt
f 0 (x0 ) = f 00 (x0 ) = . . . = f (n−1) (x0 ) = 0,
jedoch f (n) (x0 ) 6= 0.
Dann gilt:
(i) Ist n gerade, so hat f in x0 für f (n) (x0 ) > 0 ein lokales Minimum und für f (n) (x0 ) < 0
ein lokales Maximum.
(ii) Ist n ungerade, so hat f in x0 kein Extremum, sondern nur einen sog. Wendepunkt.
Beweis. Gemäß Taylor-Entwicklung gilt für ein ξ ∈ (a, b) zwischen x und x0 die Darstellung
f (x) =
n−1 (k)
X
f (x0 )
k=0
90
k!
(x − x0 )k +
f (n) (ξ)
f (n) (ξ)
(x − x0 )n = f (x0 ) +
(x − x0 )n .
n!
n!
5.6 Newton-Verfahren
Somit gilt
lim
x→x0
f (x) − f (x0 )
f (n) (ξ)
f (n) (x0 )
=
,
=
lim
x→x0
(x − x0 )n
n!
n!
da f (n) stetig ist und ξ zwischen x und x0 liegt. Damit ist
Fn (x) :=
f (x) − f (x0 )
(x − x0 )n
(n)
eine stetig Funktion mit Fn (x0 ) = f n!(x0 ) . Im Falle f (n) (x0 ) > 0 ist deshalb für eine
ganze -Umgebung Fn (x) > 0 und für n gerade gilt die Gleichung
f (x) − f (x0 ) = Fn (x) (x − x0 )n > 0,
| {z } | {z }
>0
für |x − x0 | < , x 6= x0 .
>0
Folglich hat f in x0 ein Minimum. Gilt jedoch n ungerade, so findet man
(
> 0,
x > x0 ,
f (x) − f (x0 ) = Fn (x)(x − x0 )n =
< 0,
x < x0 ,
und somit kann kein Extremum vorliegen.
Für den Fall f (n) (x0 ) < 0 schließt man analog.
5.6 Newton-Verfahren
Für die Suche nach Nullstellen
f (x) = 0
einer Funktion f : D → R lässt sich das Newton-Verfahren verwenden. Das Verfahren
wird motiviert durch die Überlegung, dass man lineare Gleichungen direkt lösen kann
und man die Suche nach Nullstellen einer komplizierten Funktion durch sukzessive Lösung von linearen, direkt lösbaren Gleichungen ersetzt. Die so entstehende Folge (xn )n∈N
konvergiert in vielen Fällen dann tatsächlich gegen einen Nullstelle. Die Iterationsvorschrift ergibt sich dabei aus der Überlegung, dass für eine differenzierbare Funktion in
etwa gelten soll:
!
0 ≈ f (x) = f (xn ) + f 0 (xn )(x − xn ) + o(|x − xn |).
Für das Folgenglied xn+1 wählt man dazu die Lösung der linearen Gleichung:
0 =: f (xn ) + f 0 (xn )(xn+1 − xn )
⇒
xn+1 := xn −
f (xn )
,
f 0 (xn )
(n ∈ N).
91
5 Differentiation
Damit die Folge wohldefiniert ist, muss sicherlich gelten, dass für kein Folgenglied die
Ableitung null wird, zum Beispiel durch die Forderung f 0 (x) 6= 0, x ∈ D. Konvergiert
die Folge xn → x∗ gegen einen Grenzwert, so gilt dann
x∗ = x∗ −
f (x∗ )
f 0 (x∗ )
⇒
f (x∗ ) = 0
und x∗ ist tatsächlich einen Nullstelle.
f (x)
x0
x1
x2
x
Abbildung 5.5: Illustration zum Newton-Verfahren.
Geometrisch versteht man das Newton-Verfahren durch folgende Vorschrift: Für jede
Iterierte xn zeichnet man die Tangenten an den Graphen und bestimmt den Schnittpunkt
dieser Gerade mit der x-Achse. Diese Nullstelle ist die neue Iterierte xn+1 .
Allerdings muss das Verfahren nicht zwingend konvergieren. Es lassen sich viele Beispiele
finden, so dass die Newton-Folge divergiert.
Satz 5.29
Für eine Funktion f : [a, b] → R seien folgende Bedingungen gegeben:
(a) f sei zweimal stetig differenzierbar,
(b) f habe eine Nullstelle x∗ ∈ (a, b),
(c) die erste Ableitung von f sei von null verschieden, d.h.
m := min |f 0 (x)| > 0,
a≤x≤b
(d) die zweite Ableitung von f sei beschränkt, d.h.
M := max |f 00 (x)| < ∞,
a≤x≤b
92
5.6 Newton-Verfahren
f (x)
x0
x1
x2
x3
x
Abbildung 5.6: Divergentes Newton-Verfahren.
(e) ein Radius ρ ≥ 0 sei so gwählt, dass gilt
ρ<
2m
.
M
Dann ist für jeden Startwert x0 mit |x0 − x∗ | ≤ ρ die Newton-Folge (xn )n∈N gegeben
durch
xn+1 := xn −
f (xn )
,
f 0 (xn )
(n ∈ N),
wohldefiniert und es gilt:
(i) Die Funktion hat außer x∗ keine weitere Nullstelle in [a, b].
(ii) Die Folge (xn )n∈N konvergiert gegen die Nullstelle x∗ .
(iii) Alle Folgenglieder xn liegt höchstens |xn − x∗ | ≤ ρ von der Nullstelle x∗ entfernt.
(iv) Die Folge ist quadratisch konvergent mit der Fehlerabschätzung
|xn − x∗ | ≤
M
|xn−1 − x∗ |2 ,
2m
n ≥ 1.
(v) Es gilt die a-posteriori-Fehlerabschätzung
|xn − x∗ | ≤
1
M
|f (xn )| ≤
|xn − xn−1 |2 ,
m
2m
n ≥ 1.
Beweis. Für zwei Punkte x, x∗ ∈ [a, b], x 6= x∗ gibt es wegen dem Zwischenwertsatz ein
c ∈ [a, b] mit
f (x) − f (x∗ ) = |f 0 (c)| ≥ m ⇒ |x − x∗ | ≤ 1 |f (x) − f (x∗ )|
x − x∗ m
93
5 Differentiation
und somit folgt (v). Zudem sieht man daraus (i), denn für eine weitere Nullstelle f (x) = 0
folgt automatisch x = x∗ . Den zweiten Teil von (i) folgt aus der Taylor-Darstellung
1
f (xn ) = f (xn−1 ) + f 0 (xn−1 )(xn − xn−1 ) + f 00 (ξ)(xn − xn−1 )2
{z
} |2
|
{z
}
=0 (Iterationsvorschrift)
≤M
|xn −xn−1 |2
2
Unter Beachtung der Taylor-Formel
1
f (x∗ ) = f (x) + f 0 (x)(x∗ − x) + f 00 (ξ)(x∗ − x)2
| {z }
|2
{z
}
=0
sieht man zudem
≤M
|x∗ −x|2
2
|f (x) + f 0 (x)(x∗ − x)| ≤
M ∗
|x − x|2 ,
2
und für alle x mit |x − x∗ | ≤ ρ findet man für die Newton-Vorschrift g(x) := x −
die Abschätzung
f (x)
f 0 (x)
1
f (x)
− x∗ | = 0
|f (x) + f 0 (x)(x∗ − x)|
0
f (x)
|f (x)|
M
M 2 Mρ
≤
|x − x∗ |2 ≤
ρ =
·ρ ≤ ρ.
2m
2m
2m
|{z}
|g(x) − x∗ | = |x −
<1
Mit dem Startwert x0 liegen also auch alle Iterierten xn höchstens ρ von der Nullstelle
entfernt, d.h. (iii) gilt. Die Abschätzung liefert zudem mit x = xn−1 die Fehlerabschätzung (iv)
|xn − x∗ | ≤
M
|xn−1 − x∗ |2 .
2m
Schließlich sieht man, dass die Newton-Folge konvergiert, indem man diese AbschätM
zung rekursive einsetzt. Dann gilt nämlich mit der Abkürzung qn := 2m
|xn − x∗ | die
Abschätzung
n
2
4
qn ≤ qn−1
≤ qn−2
≤ . . . ≤ q02
und somit durch die Wahl
2m
|xn − x | ≤
M
∗
Mρ
2m
< 1 auch (ii) gemäß
2n
2n
M
2m M ρ
∗
|x0 − x |
≤
→ 0,
2m
M 2m
n → ∞.
94
5.6 Newton-Verfahren
Bemerkungen 5.30 (i) Das Verfahren konvergiert nicht immer, sondern nur, wenn
x0 hinreichend nahe an der Nullstelle x∗ gewählt wird.
(ii) Aufgrund der quadratischen Konvergenz verdoppelt sich die Anzahl der korrekten
Stellen im Ergebnis mit jedem Iterationsschritt.
(iii) Die Anzahl der benötigten Schritt zum Erreichen einer vorgebenen Genauigkeit
> 0 lässt sich angeben:
!
2n
ln M
Mρ
1
M
2m M ρ
n
∗
2m
=n
= 2 ln
⇔
ln
⇔ ln
= |xn − x | ≤
ρ
M 2m
2m
2m
ln(2)
ln M
2m
Beispiel 5.31
√
Für die Funktion f (x) := xk − a ist die Nullstelle x∗ = k a die k-te Wurzel der Zahl
a ∈ R+ . Als Newton-Iteration findet man mit f 0 (x) = kxk−1 die Vorschrift
xkn − a
a
a
f (xn )
kxn xn
1
= xn −
−
+ k−1 =
(k − 1)xn + k−1 .
xn+1 = xn − 0
=
f (xn )
kxk−1
k
k
xn
k
xn
n
95
6 Integration
Die Integration von Funktionen ist historisch entstanden, um Flächeninhalte von krummlinig berandeten Gebieten bestimmen zu können. Dabei misst man mit dem Integral die
Fläche zwischen der x-Achse und dem Funktionsgraphen. Durch die bahnbrechenden
Arbeiten von Leibniz und Newton wurde zudem der Zusammenhang zwischen Integration und Differentiation hergestellt und man kann die Integration in gewissem Sinne als
Umkehrung der Diffentiation auffassen.
f (x)
F =
Zb
f (x) dx
a
a
b
x
Abbildung 6.1: Das Integral F als Flächeninhalt zwischen der x-Achse und dem Graph
einer Funktion f : [a, b] → R
6.1 Zerlegungen und Flächeninhalte
Der Flächeninhalt eines Rechtecks berechnet sich sehr leicht als das Produkt von Höhe
mal Breite. Daher liegt es Nahe den Begriff des Integrals zunächst für Treppenfunktionen
zu definieren. Bei diesen kann man nämlich die Fläche unterhalb des Graphens als Summe der Fläche von Rechtecken einfach aufsummieren. Dazu sei zunächst die Zerlegung
eines Intervalls und die Menge der Treppenfunktionen erneut präzisiert.
Definition 6.1 (Unterteilung)
Sind zu einem Intervall I := [a, b] die n + 1 Punkte xi , (0 ≤ i ≤ n), so angeordnet, dass
97
6 Integration
gilt
a =: x0 < x1 < x2 < . . . < xn := b
so nennt man Z := {x0 , x1 , . . . , xn } eine endliche Unterteilung (oder Zerlegung) des
Intervalls.
Jedes der offenen Intervalle Ik := (xk−1 , xk ), (1 ≤ k ≤ n) heißt Teilintervall und hat eine
Größe hk := |xk − xk−1 |. Die maximale Größe aller Teilintervalle
h := h(Z) := max hk := max |xk − xk−1 |
1≤k≤n
1≤k≤n
heißt Feinheit der Unterteilung.
Die Menge aller Zerteilungen des Intervalls [a, b] wird mit Z(a, b) bezeichnet.
f (x)
f (x) := ck , für x ∈ (xk−1 , xk )
Zb
a
x0 x1 x2 . . . xn−1 xn
f (x) dx :=
n
X
k=1
ck · (xk − xk−1 )
x
Abbildung 6.2: Integral für eine Treppenfunktion auf a = x0 < x1 < x2 < . . . < xn = b
Auf einer Zerteilung eines Intervalls lassen sich Treppenfunktionen definieren.
Definition 6.2
Für eine Zerlegung a = x0 < x1 < x2 < . . . < xn = b ist eine Treppenfunktion stückweise
definiert durch
f (x) := ck für x ∈ ( xk−1 , xk ) , 1 ≤ k ≤ n,
d.h. es ist diejenige Funktion, die auf dem Teilintervall Ik den konstanten Wert ck ∈ R
annimmt.
Für Treppenfunktionen erhält man nun direkt den Begriff des Integrals.
Definition 6.3 (Integral für Treppenfunktionen)
Sei f : [a, b] → R eine Treppenfunktion bzgl. der Unterteilung a = x0 < x1 < x2 < . . . <
xn = b mit Werten f (x) = ck , x ∈ (xk−1 , xk ), 1 ≤ k ≤ n. Dann nennt man
Z b
n
X
f (x) dx :=
ck · (xk − xk−1 )
a
k=1
das Integral der Treppenfunktion über [a, b].
98
6.2 Riemann-Integral
6.2 Riemann-Integral
Ausgehend vom Integralbegriff für Treppenfunktionen lässt sich nun das Integral auf
einen breite Klasse von Funktionen erweitern. Dabei möchte man sicherstellen, dass das
Integral für Treppenfunktionen weiterhin mit obigem Integral übereinstimmt.
Definition 6.4 (Unter-/Obersumme)
Sei f : [a, b] → R eine beschränkte Funktion und Z ∈ Z(a, b) eine Zerlegung von [a, b].
Dann ist die Untersumme S(Z, f ) und die Obersumme S(Z, f ) definiert durch
S(Z, f ) :=
n
X
k=1
inf f (x) · (xk − xk−1 )
x∈Ik
S(Z, f ) :=
n
X
k=1
sup f (x) · (xk − xk−1 )
x∈Ik
Anschaulich wird also für die Unter- und Obersumme das Integral einer Treppenfunktion gebildet. Dabei wird für die Obersumme die Treppenfunktion so gewählt, dass die
Treppenfunktion ganz überhalb des Graphen der Funktion f liegt. Bei der Untersumme
hingegen verläuft die Treppenfunktion vollständig unterhalb des Graphen der Funktion
f.
Mit Hilfe von Unter- und Obersumme lässt sich nun ein Unter- und Oberintegral definieren. Dazu betrachtet man alle möglichen Zerlegungen.
Definition 6.5 (Unter-/Oberintegral)
Für eine beschränkte Funktion f : [a, b] → R sind Unterintegral und Oberintegral definiert durch
Z b
Z b
f (x) dx := sup S(Z, f ),
f (x) dx := inf S(Z, f ),
Z∈Z(a,b)
a
Z∈Z(a,b)
a
Somit wählt man für die Untersumme die größtmöglich Approximation (das Supremum)
des Integrals mit Treppenfunktion, die unterhalb der Funktion liegen, und analog die
kleinstmögliche Approximation (das Infimum) des Integrals mit Treppenfunktionen, die
oberhalb der Funktion liegen. Für Treppenfunktionen ist diese Approximation identisch
mit dem Integral für Treppenfunktionen und Ober- und Untersumme sind identisch. Für
beliebige Funktionen definiert man das sogenannte Riemann-Integral.
Anschaulich gesprochen wird die Approximation der Integrationsfläche immer besser, je
feiner die Zerlegung gewählt wird. Den Zusammenhang zwischen den Ober-/Untersummen
und Ober-/Unterintegralen für beliebig feine Zerlegungen stellt die folgende Aussage dar.
Satz 6.6
Für eine beschränkte Funktion f : [a, b] → R existieren Ober-/Untersumme für alle
Zerlegungen und für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit Feinheit
hn := h(Zn ) → 0, (n → ∞) gilt:
Z b
Z b
f (x) dx ≤
f (x) dx = lim S(Zn , f ).
lim S(Zn , f ) =
n→∞
a
a
n→∞
99
6 Integration
f (x)
a
f (x)
b
a
f (x)
a
f (x)
b
a
f (x)
a
b
b
f (x)
b
a
b
Abbildung 6.3: Approximationen des Integrals einer Funktion f : [a, b] → R durch die
Untersumme (links) und Obersumme (rechts)
100
6.2 Riemann-Integral
Beweis. Da die Funktion f beschränkt ist, existieren untere Schranken inf x∈[a,b] f (x)
und obere Schranken supx∈[a,b] f (x) und die die Abschätzungen
inf f (x) · (b − a) ≤ S(Zn , f ) ≤ S(Zn , f ) ≤ sup f (x) · (b − a)
x∈[a,b]
x∈[a,b]
folgt direkt aus der Definition von Infimum und Supremum. Damit sind auch Ober- und
Untersumme beschränkt.
Für die zweite Behauptung sei nun (Zn )n∈N , Zn ∈ Z(a, b) eine Folge von Zerlegungen
mit Feinheit hn := h(Zn ) → 0, (n → ∞). Gemäß der Definition über Supremum und
Infimum gibt es zu jedem > 0 Zerlegungen Z , Z mit
Z b
Z b
f (x) dx + .
f (x) dx ≤ S(Z , f ) + , S(Z , f ) ≤
2
2
a
a
Nun hat jedoch jede der beiden Zerlegungen Z , Z nur endlich viele Teilungspunkte.
Daher kann man die Feinheit hn so fein wählen (d.h. n so groß), dass die gesamte Länge
der Intervalle von Zn , die einen Teillungspunkt von Z oder Z enthalten insgesamt
kleiner als M 2 mit M := supx∈[a,b] |f (x)| wird und daher gilt:
S(Z n , f ) ≤ S(Z , f ) + ,
2
2
und somit zu jedem > 0 ein n ∈ N existiert, so dass
Z b
Z b
n
f (x) dx + .
f (x) dx ≤ S(Zn , f ) + , S(Z , f ) ≤
S(Z , f ) ≤ S(Zn , f ) +
a
a
Beispiel 6.7
Sei f : [0, b] → R, f (x) := x gegeben. Auf jedem Teilintervall (xk−1 , xk ) einer Zerlegung
ist das Supremum von f (x) = x durch xk gegeben und das Infimum durch xk−1 . Bildet
man für n ∈ N eine äquidistante Zerlegung Zn gegeben durch xk := b · nk , 1 ≤ k ≤ n, mit
Feinheit hn = nb , so findet man
S(Zn , f ) =
n
X
k=1
2
=
S(Zn , f ) =
b
n2
sup f (x) · (xk − xk−1 ) =
x∈Ik
n
X
k=
k=1
n
X
k=1
2
xk ·
n
X
xk−1 ·
k=1
b
n
b n(n + 1)
b2
1
·
=
·
(1
+
),
n2
2
2
n
inf f (x) · (xk − xk−1 ) =
x∈Ik
n
X
k=1
b
n
n
b X
b2 (n − 1)n)
b2
1
= 2
k−1= 2 ·
=
· (1 − ),
n k=1
n
2
2
n
2
101
6 Integration
und somit
b2
lim (1 +
n→∞
2 n→∞
b2
lim (1 −
lim S(Zn , f ) =
n→∞
2 n→∞
lim S(Zn , f ) =
b2
,
2
b2
.
2
1
)=
n
1
)=
n
Folglich findet man für Unter- und Oberintegral denselben Wert
b2
=
2
Z
a
Z
b
f (x) dx ≤
b
b2
,
2
f (x) dx =
a
der auch mit dem Flächeninhalt des so beschriebenen Dreicks übereinstimmt.
Dadurch motiviert definiert man das sogenannte Riemann-Integral.
Definition 6.8 (Riemann-Integral)
Sind für eine beschränkte Funktion f : [a, b] → R das Unterintegral und Oberintegral
gleich, so bezeichnet man die Funktion f als Riemann-integrierbar und den gemeinsamen
Wert als das Riemann-Integral von f über [a, b]
Z
a
b
f :=
Z
b
f (x) dx :=
a
Z
b
f (x) dx =
a
Z
b
f (x) dx
a
Es stellt sich nun die Frage, welche Funktionen so integriert werden können. Zunächst
sind dies natürlich die Treppenfunktionen und für diese stimmt das Riemann-Integral
mit dem bereits definierten Integral für Treppenfunktionen überein. Aber viel mehr
Funktionen lassen sich so integrieren.
Hilfreich bei der Analyse ist dabei das Integrationskriterium in Form einer -Definition.
Definition 6.9 (Riemannsches Integrationskriterium)
Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es
zu jedem > 0 eine Zerlegung Z gibt, so dass die Unter- und Obersumme sich höchstens
um unterscheiden, d.h.
|S(Z, f ) − S(Z, f )| < .
Mittels dieses Kriteriums lässt sich nun die Integrierbarkeit von stetigen Funktionen
untersuchen. Dazu benötigt man zunächst die folgende Verschärfung der Stetigkeit.
Satz 6.10 (Gleichmäßige Stetigkeit)
Sei [a, b] ⊂ R ein abgeschlossenes, beschränktes Intervall. Dann ist jede stetige Funktion
f : [a, b] → R sogar gleichmäßig stetig, d.h. zu jedem > 0 gibt es ein δ > 0, so dass für
alle x, x0 ∈ [a, b] gilt:
|x − x0 | < δ
102
⇒
|f (x) − f (x0 )| < .
6.2 Riemann-Integral
Beweis. Widerspruchsbeweis. Angenommen, f ist nicht gleichmäßig stetig. Dann gibt
es ein > 0 so, dass für alle n ∈ N Punkte xn , x0n ∈ [a, b] derart existieren, dass gilt
1
, aber |f (xn ) − f (x0n )| ≥ .
n
Nach dem Satz von Bolzano-Weierstraß besitzt die beschränkte Folge (xn )n∈N (denn
das Intervall ist beschränkt) eine konvergente Teilfolge (xnk )k∈N mit einem Grenzwert
x ∈ [a, b]. Dies ist auch der Grenzwert der Folge (x0nk )k∈N , denn es gilt |xn − x0n | < n1 .
Somit folgt wegen der Stetigkeit von f
|xn − x0n | <
|f (xnk ) − f (x0nk )| → |f (x) − f (x)| = 0,
im Widerspruch zu |f (xn ) − f (x0n )| ≥ .
(k → ∞),
Der Unterschied zwischen Stetigkeit und gleichmäßiger Stetigkeit besteht darin, dass
man für stetige Funktionen die δ-Umgebung bei jedem Punkt unterschiedlich wählen darf. Bei gleichmäßig stetigen Funktionen hingegen muss man zu jedem die δUmgebung für alle Punkte im Definitionsbereich simultan wählen können.
Satz 6.11 (Stetige Funktionen sind Riemann-integrierbar)
Jede stetig Funktion f : [a, b] → R ist Riemann-integrierbar.
Beweis. Auf dem abgeschlossenen, beschränkten Intervall ist die Funktion gleichmäßig
stetig, d.h. es gibt zu jedem > 0 ein δ > 0, so das gilt
|x − x0 | < δ
⇒
|f (x) − f (x0 )| < .
Daher kann man nun jede Zerlegung Z ∈ Z(a, b) wählen, die eine Feinheit h < δ besitzt.
Denn dann gilt
|S(Z, f ) − S(Z, f )| ≤
n
X
k=1
| sup f (x) − inf f (x)|(xk − xk−1 ) ≤ ≤
x∈Ik
x∈Ik
n
X
k=1
(xk − xk−1 ) = (b − a).
Satz 6.12 (Monotone Funktionen sind Riemann-integrierbar)
Jede beschränkte, monotone Funktion f : [a, b] → R ist Riemann-integrierbar.
Beweis. Sei f monoton steigend (monoton fallend analog). Dann gilt f (a) ≤ f (x) ≤
f (b) für alle x ∈ [a, b]. Wählt man eine Zerlegung mit Feinheit h, so folgt
S(Z, f ) − S(Z, f ) =
=
n
X
k=1
n
X
(sup f (x) − inf f (x))(xk − xk−1 )
x∈Ik
(f (xk ) − f (xk−1 ))(xk − xk−1 )
k=1
n
X
≤h
x∈Ik
k=1
(f (xk ) − f (xk−1 )) = h (f (b) − f (a)) .
Somit lässt sich zu jedem > 0 eine Zerlegung mit h :=
f (b)−f (a)
wählen.
103
6 Integration
Für die Ermittelung des Wertes muss man sich nicht einmal auf Ober- und Untersummen
festlegen, sondern kann den Wert der Funktion irgendwo innerhalb der Teilintervalle
auswerten. Dies ist definiert als Riemannsche Summe.
Definition 6.13 (Riemannsche Summe)
Sei f : [a, b] → R und Z ∈ Z(a, b). Wählt man in jedem Intervall Ik der Zerlegung einen
Punkt ξk ∈ (xk−1 , xk ) = Ik , so bezeichnet man die Summe
S(Z, f ) :=
n
X
k=1
f (ξk ) · (xk − xk−1 )
als Riemannsche Summe von f .
f (x)
a
f (x)
a
b
b
Abbildung 6.4: Approximationen des Integrals einer Funktion f : [a, b] → R durch die
Riemannsche Summe
Satz 6.14 (Riemann-Integral über Riemann-Summe)
Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es
für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit hn := h(Zn ) → 0, (n → ∞)
alle zugehörigen Riemannschen Summen mit demselben Grenzwert konvergieren:
Z b
S(Zn , f ) →
f (x) dx
(n → ∞).
a
Satz 6.15 (Eigenschaften des Riemann-Integrals)
Seien f, g : [a, b] → R Riemann-integrierbare Funktionen und α ∈ R.
(i) (Linearität) Die Funktionen f + g und αf sind integrierbar mit
Z
Z
b
b
(f + g)(x) dx =
f (x) dx +
a
a
Z b
Z b
(αf )(x) dx = α
f (x) dx.
a
104
a
Z
a
b
g(x) dx,
6.2 Riemann-Integral
(ii) (Monotonie) Gilt f (x) ≤ g(x) für alle x ∈ [a, b], so folgt
Z b
Z b
g(x) dx.
f (x) dx ≤
a
a
(iii) (Definitheit) Gilt f (x) ≥ 0 für alle x ∈ [a, b], so gilt
Z b
f (x) dx = 0 ⇒ f ≡ 0.
a
Satz 6.16
Sei a < c < b. Eine Funktion f : [a, b] → R ist genau dann integrierbar, wenn f : [a, c] →
R und f : [c, b] → R integrierbar sind und es gilt in diesem Fall
Z b
Z c
Z b
f (x) dx =
f (x) dx +
f (x) dx.
a
Definition 6.17
Man definiert
Z
a
c
a
f (x) dx := 0,
a
Z
b
f (x) dx := −
a
Z
a
f (x) dx
(falls b < a).
b
Satz 6.18 (Mittelwertsatz der Integralrechnung)
Seien f, g : [a, b] → R stetige Funktionen und gelte g ≥ 0. Dann gibt es ein ξ ∈ [a, b], so
dass
Z b
Z b
f (x) g(x) dx = f (ξ)
g(x) dx,
a
a
und im Speziellen
Z
a
b
f (x) dx = f (ξ) · (b − a) für ein ξ ∈ [a, b].
Beweis. Schreibt man m := inf x∈[a,b] f (x) und M := supx∈[a,b] f (x), so gilt direkt mg ≤
f g ≤ M g und somit wegen der Monotonie des Integrals
Z b
Z b
Z b
m
g(x) dx ≤
f (x) g(x) dx ≤ M
g(x) dx.
a
a
a
Daher gibt es auch einen Wert µ ∈ [m, M ] mit
Z b
Z b
f (x) g(x) dx = µ
g(x) dx,
a
a
und nach dem Zwischenwertsatz auch ein ξ ∈ [a, b] mit f (ξ) = µ.
105
6 Integration
6.3 Hauptsatz der Differential- und Integralrechnung
Definition 6.19 (Stammfunktion)
Eine Funktion F : [a, b] → R heißt Stammfunktion (oder unbestimmtes Integral ) zu einer
Funktion f : [a, b] → R, falls F differenzierbar ist und gilt
für alle x ∈ [a, b].
F 0 (x) = f (x),
Der folgende Satz zeigt, dass am die Integration als Umkehrung der Differentiation
verstehen kann.
Satz 6.20 (Hauptsatz der Differential- und Integralrechnung)
Sei f : [a, b] → R eine stetige Funktion. Dann gilt:
(i) Das bestimmte Riemann-Integral (aufgefasst als eine Funktion der oberen Grenze)
Z x
f (t) dt, x ∈ [a, b]
F (x) :=
a
ist eine Stammfunktion von f und jede weitere Stammfunktion unterscheidet sich
von F nur durch eine Konstante.
(ii) Ist F : [a, b] → R eine Stammfunktion von f , so gilt
b
Z b
f (x) dx = F (x) := F (b) − F (a).
a
a
Beweis. (i) Man betrachtet den Differenzenquotienten von F (x):
Z x+h
Z x
Z
1
1 x+h
F (x + h) − F (x)
=
f (t) dt −
f (t) dt =
f (t) dt.
h
h
h x
a
a
Nach dem Mittelwertsatz der Integralrechnung gibt es folglich ein ξh ∈ [x, x + h] mit
F (x + h) − F (x)
1
= f (ξh )(x + h − x) = f (ξh ).
h
h
Somit folgt für h → 0 auch ξh → x und mit der Stetigkeit von f :
F (x + h) − F (x)
= lim f (ξh ) = f (x).
h→0
h→0
h
Ist G ebenfalls Stammfunktion, so gilt 0 = F 0 − G0 = (F − G)0 und F − G ist konstant.
F 0 (x) = lim
(ii) Sei nun F irgendeine Stammfunktion. Nach Teil (i) ist aber auch
Z x
G(x) :=
f (t) dt, G(a) = 0,
a
Stammfunktion und es gilt F (x) − G(x) = c für eine Konstante c ∈ R. Somit folgt
Z b
F (b) − F (a) = G(b) + c − G(a) − c = G(b) =
f (t) dt.
a
106
6.4 Integrationsregeln
Beispiele 6.21 (i) Sei k ∈ N, dann gilt
Z
b
xk+1 x dx =
.
k + 1 a
b
k
a
(ii) Für a, b > 0 gilt
Z
b
1
dx = ln(x) .
x
a
b
a
(iii) Es gilt
Z
b
a
b
ex dx = ex .
a
6.4 Integrationsregeln
Es gibt einige nützliche Hilfsmittel, um Integral auszuwerten.
6.4.1 Partielle Integration
Satz 6.22 (Partielle Integration)
Seien f, g : [a, b] → R zwei stetig differenzierbare Funktionen. Dann gilt:
Z
b
a
f (x) · g 0 (x) dx = −
Z
a
Beweis. Nach der Produktregel gilt
b
b
f 0 (x) · g(x) dx + f (x) · g(x) .
a
(f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x)
und somit
Z
a
b
0
0
{f (x)g(x) + f (x)g (x)} dx =
Z
b
a
b
(f g) (x) dx = f (x)g(x) .
0
a
Beispiel 6.23
Sei a, b > 0 und die Auswertung des Integrals
Z b
ln(x) dx
a
107
6 Integration
gesucht. Setzt man f (x) := ln(x) und g(x) := x (und somit f 0 (x) = x1 und g 0 (x) = 1),
so folgt
b
b
Z b
Z b
Z b
1
1 dx + ln(x) · x
· x dx + ln(x) · x = −
ln(x) · 1 dx = −
a
a x
a
a
a
b
b
b
= −x + ln(x) · x = (ln(x) · x − x) . = ln(b) · b − b − ln(a) · a + a.
a
a
a
6.4.2 Substitutionsregeln
Satz 6.24 (Substitutionsregel)
Sei f : I → R eine stetige Funktion und ϕ : [a, b] → I stetig differenzierbar. Dann gilt:
Z
b
0
f (ϕ(t)) · ϕ (t) dt =
a
Z
ϕ(b)
f (x)dx.
ϕ(a)
Beweis. Sei F : I → R eine Stammfunktion von f . Nach der Kettenregel gilt für
F ◦ ϕ : [a, b] → R
(F ◦ ϕ)0 (t) = F 0 (ϕ(t)) · ϕ0 (t) = f (ϕ(t)) · ϕ0 (t),
und somit
b
Z b
Z
Z b
0
0
(F ◦ ϕ) (t) dt = (F ◦ ϕ)(t) = F (ϕ(b)) − F (ϕ(a)) =
f (ϕ(t)) · ϕ (t) dt =
a
a
ϕ(b)
f (x)dx.
ϕ(a)
a
Beispiele 6.25 (i) Für ϕ(t) := t + c mit einer Konstanten c ∈ R gilt wegen ϕ0 (t) = 1
Z
Z
b
f (t + c) dt =
b
a
a
0
f (ϕ(t)) · ϕ (t) dt =
Z
ϕ(b)
f (x) dx =
ϕ(a)
Z
b
a
1
f (ct) dt =
c
Z
a
b
1
f (ϕ(t)) · ϕ (t) dt =
c
0
Z
ϕ(b)
ϕ(a)
f (x) dx
a+c
(ii) Für ϕ(t) := c · t mit einer Konstanten c 6= 0 gilt wegen ϕ0 (t) = c
Z
b+c
1
f (x) dx =
c
Z
cb
f (x) dx
ca
(iii) Sei ϕ : [a, b] → R stetig differenzierbar mit ϕ(x) > 0 für alle x ∈ [a, b]. Dann gilt
mit f (x) = x1
Z
a
108
b
ϕ0 (t)
dt =
ϕ(t)
Z
a
b
0
f (ϕ(t)) · ϕ (t) dt =
Z
ϕ(b)
ϕ(a)
ϕ(b)
b
1
dx = ln(x)
= ln(ϕ(t))
x
ϕ(a)
a
6.5 Quadraturformeln
6.5 Quadraturformeln
Durch Quadraturformeln möchte man Integrale approximativ ausrechnen. Dazu möchte
man nur geeignet gewichtete Funktionsauswertungen verwenden und auch die Größe des
Approximationsfehlers kennen. Man sucht also eine Formel, so dass sich das Integral
schreiben lässt als
Z b
n
X
f (x) dx =
wk f (xk ) + R,
a
k=1
wobei wk ∈ R Koeffizienten und die xk ∈ [a, b] Auswertungspunkte sind. Den Restterm
R bezeichnet man als Approximationsfehler. Solche Formeln lassen sich dann verwenden,
um numerisch den Wert des Integrals hinreichend genau mit dem Computer anzunähern.
Formeln dieser Art erhält man, indem man das Intervall [a, b] in Teilabschnitte zerlegt
und auf jedem dieser Abschnitte eine einfach Auswertungsregel anwendet. Daher wird
zunächst eine Auswertungsregel für ein einzelnes Intervall [0, 1] betrachtet. Diese Regel
kann dann später über die Substitutionsregel auf beliebige Teilabschnitte übertragen
werden.
Rechtecksregel
Satz 6.26 (Boxregel)
Sei f : [0, 1] → R einmal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass
Z 1
1
f (x) dx = f (1) − f 0 (ξ).
2
0
Analog gibt es ein ξ ∈ [0, 1] mit
Z 1
0
1
f (x) dx = f (0) + f 0 (ξ).
2
Beweis. Wählt man g(x) := x, so gilt für die Ableitungen g 0 (x) = 1. Integriert man
nun partiell, so findet man
1 Z 1
Z 1
Z 1
Z 1
0
0
g (x)f (x) dx = g(x)f (x) −
g(x)f (x) dx = f (1) −
g(x)f 0 (x) dx.
f (x) dx =
0
0
0
0
Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz
anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt
1
Z 1
Z 1
1 2 0
0
0
g(x)f (x) dx = f (ξ)
g(x) dx = f (ξ) x =
2 0
0
0
Für den zweiten Teil wähle man g(x) = 1 − x.
0
der Integralrechnung
1 0
f (ξ).
2
109
6 Integration
Mittelpunktsregel
Satz 6.27 (Mittelpunktsregel)
Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass
Z 1
1
1
f (x) dx = f ( ) + f 00 (ξ).
2
24
0
Beweis. Gemäß Taylor-Formel lässt sich mit einem ξ ∈ [0, 1] schreiben
1
1
1
1
1
f (x) = f ( ) + f 0 ( )(x − ) + f 00 (ξ)(x − )2 .
2
2
2
2
2
Somit folgt:
Z
Z 1
f (x) dx =
0
Z 1
Z 1
1
1
1 00
1
0 1
f ( ) dx +
f ( )(x − ) dx +
f (ξ)(x − )2 dx
2
2
2
2
0
0
0 2
Z 1
Z 1
Z 1
1
1
1
1
1
= f( )
1 dx +f 0 ( )
(x − ) dx +f 00 (ξ)
(x − )2 dx .
2 0
2 0
2
2
2
| {z }
|
{z
}
| 0 {z
}
1
=1
=0
1
= 24
Trapezregel
Satz 6.28 (Trapezregel)
Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass
Z 1
1
1
f (x) dx = (f (0) + f (1)) − f 00 (ξ).
2
12
0
Beweis. Wählt man g(x) := 12 x(1 − x), so gilt für die Ableitungen g 0 (x) = 21 − x und
g 00 (x) = −1 sowie für die Auswertungen g(0) = g(1) = 0 und g 0 (1) = − 21 , g 0 (0) = 12 .
Integriert man nun zweimal partiell, so findet man
Z 1
Z 1
g 00 (x)f (x) dx
f (x) dx = −
0
0
1 Z 1
0
= −g (x)f (x) +
g 0 (x)f 0 (x) dx
0
0
Z 1
1
= (f (1) + f (0)) +
g 0 (x)f 0 (x) dx
2
0
1 Z 1
1
0
= (f (1) + f (0)) + g(x)f (x) −
g(x)f 00 (x) dx
2
0
0
Z 1
1
= (f (1) + f (0)) −
g(x)f 00 (x) dx.
2
0
110
6.5 Quadraturformeln
Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz der Integralrechnung
anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt
Z
Z 1
Z 1
1 1
00
00
00
(x − x2 ) dx
g(x)f (x) dx = f (ξ)
g(x) dx = f (ξ)
2 0
0
0
1
1 1
1 1
= f 00 (ξ) ( x2 − x3 ) = f 00 (ξ).
2 2
3
12
0
Summierte Quadraturformeln
Die obigen Auswertungsregeln verwenden immer ein festes Intervall. Die Idee von summierten Quadraturformeln ist es nun, dass man das betrachtete Intervall [a, b] in viele
kleine Intervalle zerlegt und auf jedem dieser Intervalle die elementaren Quadraturformeln anwendet.
Satz 6.29 (Summierte Trapezregel)
Sei f : [a, b] → R zweimal stetig differenzierbar und die zweiten Ableitungen beschränkt
mit K := supa≤x≤b |f 00 (x)|.
Für die Unterteilung in n äquidistante Abschnitte mit Feinheit h := b−a
findet man die
n
summierte Trapezregel
!
Z b
n−1
X
1
1
f (a + kh) + f (b) h + R
f (a) +
f (x) dx =
2
2
a
k=1
mit einem Restterm der Größe
|R| ≤
K
(b − a)h2 .
12
Beweis. Für jedem der Teilabschnitte [a + kh, a + (k + 1)h] lässt sich die Variablentransformation ϕ(x) = a + (k + x)h mit ϕ0 (x) = h anwenden
a+(k+1)h
Z
f (x) dx =
Z
ϕ(1)
ϕ(0)
a+kh
f (x) dx =
Z
0
1
0
f (ϕ(x))ϕ (x) dx = h
Z
1
f (ϕ(x)) dx
0
h
h
(f (ϕ(0)) + f (ϕ(1))) − (f ◦ ϕ)00 (c)
2
12
h
h3
= (f (a + kh) + f (a + (k + 1)h)) − f 00 (ξ).
2
12
=
mit einem c ∈ [0, 1] und einem ϕ(c) =: ξ ∈ [a + kh, a + (k + 1)h]. Dabei wendet man die
Kettenregel der Ableitung zweimal an, um zu folgern
(f ◦ ϕ)00 (c) = [f (ϕ(c))]00 = [f 0 (ϕ(c))]0 · ϕ0 (c) = f 00 (ϕ(c)) · ϕ0 (c) · ϕ0 (c) = h2 f 00 (ϕ(c)) = h2 f 00 (ξ).
111
6 Integration
Summation über alle Teilintervalle und zusammenfassen gleicher Auswertungspunkte
liefert nun
Z
b
a
f (x) dx =
n−1
X
k=0
a+(k+1)h
Z
f (x) dx =
n−1
X
h
k=0
a+kh
=
2
(f (a + kh) + f (a + (k + 1)h)) −
n−1 3
X
h
k=0
12
f 00 (ξ)
!
n−1
X
1
1
f (a) +
f (a + kh) + f (b) h + R.
2
2
k=1
Die Größe des Restterms ergibt sich aus der Abschätzung
n−1 3
n−1
X
X
h 00 h2
h2
00
f (ξ) ≤
sup |f (x)|
|R| = h = K(b − a),
12 a≤x≤b
12
12
k=0
k=0
wobei verwendet wird, dass
entspricht.
Pn−1
k=0
h = n · h = (b − a) der Länge des Integrationsintervalls
Bemerkung 6.30
Die Fehlerabschätzung für den Restterm zeigt, dass die Approximation des Integrals von
zweiter Ordnung ist. Dies bedeutet, dass eine Halbierung von h zu einem Vierteln des
Fehlers führt.
f (x)
a
b
x
Abbildung 6.5: Das Integral F einer Funktion f : [a, b] → R approximiert durch die
summierte Trapezregel
112
7 Vektorräume
7.1 Der n-dimensionale reelle Raum Rn
Der Körper R der reellen Zahlen lässt sich über die Zahlengerade darstellen. Möchten man jedoch eine Ebene betrachten, so lässt sich diese als R2 := R × R auffassen
und man benötigt zum Beschreiben eines Punktes jeweils ein Paar von reellen Zahlen
(x, y), x, y ∈ R (sogenannte 2-Tupel). Analog lässt sich der 3-dimensionale Raum als das
karthesische Produkt R3 := R × R × R auffassen und Punkte werden durch ein 3-Tupel
(x, y, z), x, y, z ∈ R beschrieben. Allgemein lässt sich dies wie folgt definieren.
Definition 7.1 (Rn )
Für n ∈ N, n ≥ 1 ist der n-dimensionale reelle Standardraum
 
x1
 x2 
 
Rn := {x =  ..  | xi ∈ R für alle 1 ≤ i ≤ n}
.
xn
die Menge der geordneten n-Tupel (oder Vektoren) von reellen Zahlen. Die einzelnen
Einträge x1 , . . . , xn der n-Tupel heißen Komponenten.
Auf den n-Tupeln lassen sich Addition und Multiplikation dadurch erklären, dass man
die Operation komponentenweise durchführt. Man notiert die n-Tupel auch als xT :=
(x1 , x2 , . . . , xn ).
Definition 7.2 (Addition und Multiplikation für n-Tupeln)
Für zwei n-Tupel x, y ∈ Rn ist die Addition definiert durch
   


x1
y1
x1 + y 1
 x2   y 2 
 x2 + y 2 
   


x + y =  ..  +  ..  :=  ..  ,
. .
 . 
xn
yn
xn + y n
und die Multiplikation mit λ ∈ R durch




x1
λ · x1
 x2 
 λ · x2 
 


λ · x = λ ·  ..  :=  ..  .
.
 . 
xn
λ · xn
113
7 Vektorräume
x 2 + y2
x+y
λ·x
λx2
y
y2
x2
0
x
y1
x1 x1 + y 1
x2
0
x
x1
λx1
Abbildung 7.1: Illustration zur Addition und Multiplikation im Rd
Nun lässt sich leicht feststellen, dass die Menge der Vektoren die folgenden Eigenschaften
hat.
Satz 7.3 (Eigenschaften im Rn )
Seien x, y, z ∈ Rn beliebige Vektoren (oder n-Tupel) und λ, µ ∈ R beliebige reelle Zahlen
(genannt Skalare).
(V1) (Rn , +) ist eine kommutative Gruppe, d.h.
(Kommutativität): x + y = y + x
(Assoziativiät): x + (y + z) = (x + y) + z
(Null): Für 0T := (0, 0, . . . , 0) gilt x + 0 = x
(Inverse): Für −xT := (−x1 , −x2 , . . . , −xn ) gilt x + (−x) = 0
(V2) Für die Multiplikation von Skalaren und Vektoren gilt:
(λ + µ) · x = λ · x + µ · x,
λ · (µx) = (λµ) · x,
λ · (x + y) = λ · x + λ · y,
1 · x = x.
Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der
Eigenschaften von R.
Es zeigt sich somit, dass auf der Menge Rn für die Addition ein neutrales und inverses
Element existieren.
Für zwei Vektoren x, y ∈ Rn lässt sich das sogenannte Skalarprodukt definieren.
Definition 7.4 (Skalarprodukt im Rn )
Für zwei Vektoren x, y ∈ Rn ist das kanonische Skalarprodukt h·, ·i : Rn × Rn → R
definiert durch
hx, yi := x1 y1 + x2 y2 + . . . + xn yn .
114
7.1 Der n-dimensionale reelle Raum Rn
x2
x
−x1
x1
0
−x2
−x
Abbildung 7.2: Illustration des Inversen Vektors im Rd
Satz 7.5 (Eigenschaften des Skalarprodukts im Rn )
Für beliebige Vektoren x, y, z ∈ Rn und Skalare λ ∈ R gilt
(i) Bilinearität: Die Abbildung ist linear in beiden Einträgen
hx + y, zi = hx, zi + hy, zi,
hλx, yi = λhx, yi,
hx, y + zi = hx, yi + hx, zi,
hx, λyi = λhx, yi.
(ii) Symmetrie:
hx, yi = hy, xi.
(iii) Positive Definitheit: Das Skalarprodukt eines Vektors mit sich selbst ist nichtnegativ und genau nur für den Nullvekotr null
hx, xi ≥ 0
und
hx, xi = 0 ⇔ x = 0.
Beweis. Ergibt sich durch direktes Nachrechnen.
Definition 7.6 (Norm im Rn )
Für einen Vektoren x ∈ Rn ist die euklidische Norm k·k : R → R gegeben durch
q
p
kxk := kxk2 := hx, xi = x21 + x22 + . . . + x2n
und wird als Betrag oder Länge des Vektors bezeichnet.
Einen sehr wichtigen Zusammenhang zwischen Skalarprodukt und Norm stellt die folgende Ungleichung dar.
Satz 7.7 (Cauchy-Schwarzsche Ungleichung)
Für zwei beliebige Vektoren x, y ∈ Rn gilt die Cauchy-Schwarzsche Ungleichung
|hx, yi| ≤ kxk · kyk .
115
7 Vektorräume
Beweis. Ist x = 0 oder y = 0 so gilt die Gleichung direkt. Andernfalls gilt für x, y 6= 0
und jedes λ ∈ R:
0 ≤ hx − λy, x − λyi = hx, xi − 2λhx, yi + λ2 hy, yi.
Für die Wahl λ =
hx,yi
kyk2
folgt damit
hx, yi2
hx, yi2 hx, yi2
2
2
+
kyk = kxk −
0 ≤ kxk − 2λhx, yi + λ kyk = kxk − 2
kyk2
kyk4
kyk2
2
2
2
2
und somit
hx, yi2 ≤ kxk2 kyk2 .
Wurzelziehen liefert die Behauptung.
Damit findet man die essentiellen Eigenschaften der euklidischen Norm.
Satz 7.8 (Eigenschaften der euklidischen Norm)
Für beliebige Vektoren x, y ∈ Rn und Skalare λ ∈ R gilt
(i) (Definitheit): kxk = 0 ⇔ x = 0.
(ii) (Linearität): kλxk = |λ| · kxk.
(iii) (Dreiecksungleichung): kx + yk ≤ kxk + kyk.
Beweis. Definitheit und Linearität ergibt sich durch direktes Nachrechnen. Für die
Dreieckungleichung folgt mit Hilfe der Cauchy-Schwarzschen Ungleichung
kx + yk2 = hx + y, x + yi = hx, xi + 2hx, yi + hy, yi
≤ kxk2 + 2 kxk kyk + kyk2 = (kxk + kyk)2
und Wurzelziehen liefert die Behauptung.
Bemerkung 7.9
Für die Darstellung des Skalarprodukts gilt auch die Formel
hx, yi = kxk · kyk cos ](x, y),
wobei ](x, y) den Winkel zwischen x und y bezeichnet.
Definition 7.10 (Orthogonale Vektoren)
Zwei Vektoren x, y ∈ Rn heißen orthogonal oder senkrecht, falls gilt
hx, yi = 0.
Definition 7.11 (Normierte Vektoren)
Ein Vektor x ∈ Rn heißt normiert, falls gilt
kxk = 1.
Jeden Vektor x 6= 0 kann man normieren gemäß
1
x̃ :=
· x.
kxk
116
7.2 Raum von Folgen und Funktionen
x
x2
x
cos ](x, y) =
2
2
kx
0
p x1
k=
+
x2
](x, y)
x1
hx,yi
kxk kyk
y
0
Abbildung 7.3: Die Norm als Abstand zum Ursprung und Interpretation des Skalarprodukts über den Winkel zwischen zwei Vektoren.
7.2 Raum von Folgen und Funktionen
Ziel dieses Abschnitts ist es zu zeigen, dass verschiedenste mathematische Dinge ähnliche
Struktur besitzen. Diese unterliegende, gemeinsame Struktur wird im nächsten Abschnitt
als (abstrakter) Vektorraum eingeführt. Zur Motivation hier einige Betrachtungen.
Folgen
Eine konsequente Verallgemeinerung des Konzepts der n-Tupel besteht darin Tupel von
unendlicher Länge zu betrachten - dies sind Folgen. Betrachtet man die Menge der
Folgen (an )n∈N = (a0 , a1 , a2 , . . .) mit Koeffizienten ai ∈ R, so lässt sich analog zum Rn
eine Addition und Multiplikation mit Skalaren definieren, indem man die Operationen
Komponentenweise ausführt.
Für zwei Folgen (an )n∈N und (bn )n∈N ist die Addition definiert als
(a0 , a1 , a2 , . . .) + (b0 , b1 , b2 , . . .) := (a0 + b0 , a1 + b1 , a2 + b2 , . . .)
und die Multiplikation mit λ ∈ R gegeben durch
λ · (a0 , a1 , a2 , . . .) := (λa0 , λa1 , λa2 , . . .).
Man beachte, dass beide Operationen wieder als Resultat eine Folge liefern. Analog zum
Rn findet man die folgenden Eigenschaften.
Satz 7.12 (Eigenschaften in Raum aller Folgen)
Sei V der Raum aller Folgen (an )n∈N mit Koeffizienten in R. Seien (an )n , (bn )n , (cn )n ∈ V
beliebige Folgen und λ, µ ∈ R beliebige reelle Zahlen. Dann gilt:
(V1) (V, +) ist eine kommutative Gruppe, d.h.
117
7 Vektorräume
(Kommutativität): (an )n + (bn )n = (bn )n + (an )n
(Assoziativiät): (an )n + ((bn )n + (cn )n ) = ((an )n + (bn )n ) + (cn )n
(Null): Für die Nullfolge 0 := (0, 0, 0, . . .) gilt (an )n + 0 = (an )n
(Inverse): Für −(an ) := (−a0 , −a1 , −a2 , . . .) gilt (an )n + (−(an )n ) = 0
(V2) Für die Multiplikation von reellen Zahlen und Folgen gilt:
(λ + µ) · (an )n = λ · (an )n + µ · (an )n ,
λ · (µ(an )n ) = (λµ) · (an )n ,
λ · ((an )n + (bn )n ) = λ · (an )n + λ · (bn )n ,
1 · (an )n = (an )n .
Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der
Eigenschaften von R.
Polynomräume
Es sei daran erinnert, dass man zu einem Körper K (z.B. Q, R, C) Polynome bilden kann.
Definition 7.13 (Polynom und Grad)
Sei K ein Körper und x eine Unbestimmte. Ein Polynom mit Koeffizienten in K ist ein
Ausdruck der Form
P (x) = a0 + a1 x + a2 x2 + . . . + an xn ,
wobei n ∈ N und a0 , . . . , an ∈ K gilt.
Der Grad eines Polynomes ist der höchste, nicht verschwindende Koeffizient
(
max{i ∈ N | ai 6= 0},
(f 6= 0)
deg P :=
−∞,
(f = 0).
Die Menge aller Polynome wird mit K[x] bezeichnet. Die Menge aller Polynome mit
Grad kleiner gleich n wird mit K[x]≤n bezeichnet.
Betrachtet man zwei Polynome f, g ∈ K[x], so lassen sich diese in natürlicher Weise
addieren. Gilt f (x) := a0 + a1 x + . . . + an xn und g(x) := b0 + b1 x + . . . + bm xm mit
m < n, so wählt man formal bm+1 = . . . = bn = 0 und erhält Polynome vom selben Grad
(analog für n < m). Die Addition ist nun gegeben durch
(f + g)(x) := f (x) + g(x) := (a0 + b0 ) + (a1 + b1 )x + (a2 + b2 )x2 + . . . + (an + bn )xn .
Man beachte, dass deg f + g ≤ max(deg f, deg g) gilt, d.h. es handelt sich um eine
Abbildung + : K[x]≤n × K[x]≤n → K[x]≤n .
Ebenso lässt sich eine Multiplikation mit Werten aus K in natürlicher Weise aufstellen.
Gilt f (x) := a0 + a1 x + . . . + an xn , so ist die Multiplikation mit dem Skalar λ ∈ K
gegeben durch
(λf )(x) := λ · f (x) := (λa0 ) + (λa1 )x + (λa2 )x2 + . . . + (λan )xn
118
7.2 Raum von Folgen und Funktionen
und bei dieser Multiplikation ist der Grad des Polynoms höchstens so groß wie zuvor,
d.h. es handelt sich um eine Abbildung · : K × K[x]≤n → K[x]≤n .
Schaut man sich diese Addition und Multiplikation genauer an, so findet man Eigenschaften analog zu denen, die man bereits aus dem Rn kennt.
Satz 7.14 (Eigenschaften in K[x])
Seien f, g, h ∈ K[x] beliebige Polynome und λ, µ ∈ K beliebige Skalare. Dann gilt:
(V1) (K[x], +) ist eine kommutative Gruppe, d.h.
(Kommutativität): f + g = g + f
(Assoziativiät): f + (g + h) = (f + g) + h.
(Null): Für das Nullpolynom 0 gilt f + 0 = f .
(Inverse): Für −f := −a0 − a1 x − . . . − an xn gilt f + (−f ) = 0.
(V2) Für die Multiplikation von Skalaren und Polynomen gilt:
(λ + µ) · f = λ · f + µ · f,
λ · (µf ) = (λµ) · f,
λ · (f + g) = λ · f + λ · g,
1 · f = f.
Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der
Eigenschaften von K.
Funktionenräume
Allgemeiner kann man auch die Menge der Funktionen von einer Menge D in einen
Körper K betrachten. Dann definiert man für diese Menge
Abb(D, K) := {f : D → K}
die Addition zweier Funktionen sowie die Multiplikation mit Skalaren λ ∈ K durch
(f + g)(x) := f (x) + g(x),
und
(λ · f )(x) := λ · f (x)
und erhält dadurch erneut Abbildung
+ : Abb(D, K) × Abb(D, K) → Abb(D, K) und
· : K × Abb(D, K) → Abb(D, K),
d.h. diese beiden Verknüpfungen bilden erneut in diesselbe Menge ab.
Auch diese Menge besitzt analoge Struktur wie die bereits besprochenen Fälle.
119
7 Vektorräume
7.3 Allgemeine Definition von Vektorräumen
Die vorangegangenen Beispiele zeigen, dass viele verschiedene mathematische Strukturen
dieselbe unterliegenden Eigenschaften besitzen. Somit lassen sich alle Strukturen auf
einmal untersuchen, indem man sich auf einen abstrakten Standpunkt zurückzieht und
anstatt konkreter Räume ganz allgemein sogenannte Vektorräume betrachtet.
Definition 7.15 (Vektorraum)
Sei K ein Körper. Ein Tripel (V, +, ·) bestehend aus einer Menge V , einer auf V definierten inneren Verknüpfung (genannt Addition)
+ : V × V → V,
(v, w) 7→ v + w,
und einer äußeren Verknüpfung (genannt skalare Multikplikation)
· : K × V → V,
(λ, v) 7→ λ · v,
heißt K-Vektorraum (oder auch Vektorraum über K), falls gilt:
(V1) (V, +) ist eine kommutative Gruppe, d.h.
(Kommutativität)
(Assoziativiät)
(Neutrales Element)
(Inverse Elemente)
u + v = v + u für alle u, v ∈ V
u + (v + w) = (u + v) + w für alle u, v, w ∈ V
Es gibt 0 ∈ V mit v + 0 = v für alle v ∈ V
Zu jedem v ∈ V gibt es −v ∈ V mit v + (−v) = 0
(V2) Die skalare Multiplikation und Addition sind verträglich miteinander, d.h. es gilt
(Distributivität)
(λ + µ) · v = λ · v + µ · v,
λ · (v + w) = λ · v + λ · w,
und die multiplikative Gruppe des Körpers K operiert auf V , d.h. es gilt
(Assoziativiät)
(Neutralität der Eins)
λ · (µ · v)
1·v
= (λ · µ) · v,
= v,
für alle λ, µ ∈ K und v, w ∈ V .
Die Elemente der Menge V werden Vektoren genannt.
Man beachte, dass die Zeichen + und · je nach Kontext die Addition oder Multiplikation
im Körper K als auch die Operationen des Vektorraums bezeichnen.
Beispiele 7.16
(i) Qn , Rn , Cn oder allgemein der K-Vektorraum Kn .
(ii) Die Polynomräume K[x] und K[x]≤n für einen Körper K.
120
7.3 Allgemeine Definition von Vektorräumen
(iii) Der Raum aller unendlichen Folgen.
(iv) Der Raum Abb(R, R) aller Funktionen f : R 7→ R.
(v) Der Raum C(R, R) aller stetigen Funktionen f : R 7→ R.
(vi) Der Raum C 1 (R, R) aller stetig differenzierbaren Funktionen f : R 7→ R.
Betrachtet man eine U ⊂ V Teilmenge eines Vektorraums V , dann ist im Allgemeinen
nicht mehr sicher gestellt, dass auch die Summe zweier Vektoren dieses Teilraums wieder
in dem Teilraum U enthalten ist, denn sie könnte auch in V \ U liegen. Analog ist nicht
jede Teilmenge eines Vektorraums bezüglich der skalaren Multiplikation abgeschlossen.
Daher sind die folgenden Teilmengen eines Vektorraums von besonderer Bedeutung.
Definition 7.17 (Untervektorraum)
Eine Teilmenge U ⊂ V heißt Untervektorraum eines K-Vektorraums V , falls gilt:
(UV1)
(UV2)
(UV3)
U 6= ∅,
(nicht leer)
u, v ∈ U ⇒ u + v ∈ U ,
(Abgeschlossenheit bzgl. Vektoraddition),
v ∈ U, λ ∈ K ⇒ λ · v ∈ U , (Abgeschlossenheit bzgl. skalarer Multiplikation).
Beispiele 7.18 (i) Jeder Vektorraum V hat die trivialen Untervektorräume {0} und
V selbst.
(ii) Die Vektorraum R1 hat genau die zwei trivialen Untervektorräume {0} und R1 .
(iii) Der Vektorraum R2 hat die Untervektorräume
(a) den Nullvektorraum {0},
(b) alle Geraden durch den Ursprung, d.h. die Mengen {(x, y) ∈ R2 | ax + by = 0}
mit a, b ∈ R, (a, b) 6= (0, 0),
(c) den Vektorraum R2 selbst.
(iv) Der Vektorraum R3 hat als Unterräume {0}, alle Geraden durch den Ursprung,
alle Ebenen durch den Ursprung und R3 selbst.
(v) Da die Summe von stetigen (bzw. differenzierbaren) Funktionen wiederum stetig
(bzw. differenzierbar) ist und diese Eigenschaften auch bei der Multiplikation mit
einem Skalar erhalten bleiben, so gibt es die Kette an Untervektorräumen
R[x]≤n ⊂ R[x] ⊂ C 1 (R, R) ⊂ C(R, R) ⊂ Abb(R, R).
Die Bezeichnung Untervektorraum suggeriert, dass die Teilmenge U ⊂ V die Vektorraumeigenschaften von V erbt. Dass dies tatsächlich der Fall ist, zeigt der folgende Satz.
Satz 7.19
Ein Untervektorraum U ⊂ V ist ein Vektorraum.
Beweis. Addition und skalare Multiplikation sind nach (UV2) und (UV3) abgeschlossen, bilden also wieder in U ab. Die Kommuntativität und Assoziativität gilt, da sie auch
121
7 Vektorräume
schon in V vorhanden war und man sich nun nur auf eine Teilmenge U ⊂ V beschränkt.
Alle Bedingungen (V2) folgen ebenfalls direkt von V . Da U 6= ∅ mindestens einen Vektor
v ∈ U enthält, ist wegen (UV3) auch 0 = 0 · v ∈ U enthalten. Zudem ist wegen (UV3)
auch mit −v = (−1) · v ∈ U jedes Inverse in U enthalten.
Untervektorräume enthalten somit im Speziellen immer den Nullvektor und zu einem
Vektor immer dessen Inverse.
7.4 Linearkombination, Span und lineare
Unabhängigkeit
Hat man eine Teilmenge an Vektoren von einem Vektorraum, so bilden diese nicht automatisch einen Untervektorraum. Man kann sich jedoch fragen, ob man diese Menge durch
Hinzunahme weiterer geeigneter Vektoren zu einem Untervektorraum machen kann. Dies
bezeichnt man als Abschluss dieser Teilmenge. Speziell möchte man gerne mit möglichst
wenig zusätzlichen Vektoren einen Untervektorraum erhalten. Dies motiviert die folgende
Betrachtung.
Definition 7.20 (Familie)
Sei I eine Indexmenge und V ein Vektorraum. Eine Abbildung
ϕ : I → V,
i 7→ vi = ϕ(i),
die einem Index i ein Element aus vi ∈ V zuordnet, heißt Familie von Vektoren. Die
Familie I → V wird auch mit (vi )i∈I bezeichnet.
In einer Familie können Vektoren mehrfach auftreten und (im Gegensatz zu einer Menge)
ist die Reihenfolge von Bedeutung.
Beispiel 7.21 (i) Für I = {1, 2, . . . , n} ist (vi )i∈{1,2,...,n} = (v1 , v2 , . . . , vn ) eine endliche Familie an Vektoren.
1
0
1
1
2
(ii) Für I = {1, 2, 3, 4} und V = R ist (
,
,
,
) eine Familie von 4
0
1
1
0
Vektoren.
(iii) Für I = N ist = (vi )i∈N = (v0 , v1 , . . .) eine unendliche Familie an Vektoren. Dies
wird auch als Folge bezeichnet.
(iv) Für I = N und V = R[x] ist (1, x, x2 , x3 , . . .) eine Familie.
(v) Für die leere Indexmenge I = ∅ ist (vi )i∈∅ = ( ) die leere Familie.
Definition 7.22 (Linearkombination)
Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V .
122
7.4 Linearkombination, Span und lineare Unabhängigkeit
(i) Zu einer endlichen Familie (v1 , . . . , vr ) mit r ∈ N und Skalaren λ1 , . . . , λr ∈ K
nennt man den Vektor
v = λ1 v1 + λ2 v2 + . . . + λr vr
eine Linearkombination der Vektoren v1 , . . . , vr .
(ii) Für eine unendliche Familie (vi )i∈I heißt ein Vektor v Linearkombination der Vektoren (vi )i∈I , falls v Linearkombination einer endlichen Teilfamilie von (vi )i∈I ist,
d.h. es gibt ein r ∈ N, Indizes i1 , . . . , ir ∈ I und Skalare λ1 , . . . , λr ∈ K, so dass
v = λ1 vi1 + λ2 vi2 + . . . + λr vir .
Betrachtet man zu einer Familie von Vektoren alle möglichen Linearkombinationen, so
erhält man einen Raum der als Abschluss, Aufspann oder lineare Hülle bezeichnet wird.
Definition 7.23 (Lineare Hülle / Span / Erzeugnis)
Sei V ein K-Vektorraum und (vi )i∈I eine (endliche oder unendliche) Familie von Vektoren. Die Menge aller Linearkombinationen
span(vi )i∈I := {v | v ist Linearkombination der Vektoren (vi )i∈I }
heißt lineare Hülle oder Span.
Für eine endlich Familie (v1 , . . . , vr ) schreibt man dies auch als
Kv1 + . . . + Kvr := span(v1 , . . . , vr ) = {λ1 v1 + λ2 v2 + . . . + λr vr | λi ∈ K}.
Für die leere Familie setzt man
span(vi )i∈∅ := {0}.
1
Beispiel 7.24 (i) Für (vi )i∈{1} = (
) ist
1
1
1
1
span(vi )i∈{1} = span(
) = {λ1
| λ1 ∈ R} = R
1
1
1
eine Gerade durch den Ursprung.
1
0
1
,
,
) ist
(ii) Für (vi )i∈{1,2,3} = (
0
1
1
1
0
1
1
0
1
span(vi )i∈{1,2,3} = span(
,
,
) = {λ1
+ λ2
+ λ3
| λi ∈ R}
0
1
1
0
1
1
λ1 + λ3
={
| λi ∈ R} = R2
λ2 + λ3
der Raum V = R2 selbst.
123
7 Vektorräume
In den Beispielen sieht man, dass der Span ein Untervektorraum ist. Dies gilt ganz
allgemein und sogar noch mehr: Zu einer Familie von Vektoren (vi )i∈I , vi ∈ V, ist die
lineare Hülle span(vi )i∈I der kleinste Untervektorraum von V , in dem alle vi enthalten
sind.
Satz 7.25 (Span ist kleinster Untervektorraum zu einer Familie)
Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V . Dann gilt:
(i) span(vi )i∈I ist ein Untervektorraum von V .
(ii) Ist U ⊂ V auch ein Untervektorraum, der alle vi , i ∈ I enthält, so gilt
span(vi )i∈I ⊂ U.
Beweis. (i) Zu endlichen Linearkombinationen λ1 v1 + . . . + λr vr und µ1 v1 + . . . + µr vr
ist auch die Summe
(λ1 v1 + . . . + λr vr ) + (µ1 v1 + . . . + µr vr ) = (λ1 + µ1 )v1 + . . . + (λr + µr )vr
als auch das Produkt mit einem Skalar λ
λ(λ1 v1 + . . . + λr vr ) = (λλ1 )v1 + . . . + (λλr )vr
eine Linearkombination. Durch die Wahl von λ1 = . . . = λr = 0 ist zudem 0 enthalten.
(ii) Da U Untervektorraum ist, sind alle endlichen Linearkombinationen von Vektoren
aus U wieder in U enthalten. Da speziell auch alle vi ∈ U liegen, sind somit auch alle
Linearkombination der vi (und somit span(vi )i∈I ) enthalten.
Einen gegebenen (Unter-)Vektorraum kann man durch viele verschiedene Familien aufspannen (bzw. erzeugen). So ist zum Beispiel
0
1
1
0
1
0
1
2
R =R
+R
=R
+R
+R
=R
+R
.
0
1
0
1
1
1
1
Im Allgemeinen existieren unendlich viele Möglichkeiten um einen Vektor linear zu kombinieren. Speziell lässt sich der Nullvektor immer durch
0 = 0v1 + . . . + 0vr
linear kombinieren. Gibt es noch weitere Koeffizienten λi 6= 0, die dies erfüllen, so ist
die Eindeutigkeit der Darstellung nicht gegeben. Man bezeichnet dann die Vektoren
v1 , . . . , vr als linear abhängig.
Definition 7.26 (Lineare Unabhängigkeit)
Sei V ein K-Vektorraum. Eine endliche Familie (v1 , . . . , vr ) heißt linear unabhängig,
falls sich der Nullvektor nur durch Nullkoeffizienten linear kombinieren lässt, d.h. für
eine Darstellung mit Koeffizienten λ1 , . . . , λr ∈ K gilt stets
0 = λ1 v1 + . . . + λr vr
124
⇒
λ1 = . . . = λr = 0.
7.4 Linearkombination, Span und lineare Unabhängigkeit
Eine unendliche Familie (vi )i∈I heißt linear unabhängig, falls jede endliche Teilfamilie
linear unabhängig ist.
Eine Familie (vi )i∈I heißt linear abhängig, falls sie nicht linear unabhängig ist.
Die leere Familie () ist linear unabhängig.
Satz 7.27 (Charakterisierung linear abhängiger Vektoren)
Sei V ein K-Vektorraum und r ≥ 2. Eine Familie von Vektoren (v1 , . . . , vr ) ist genau
dann linear abhängig, wenn mindestens einer der Vektoren Linearkombination der anderen ist.
Beweis. „Linear abhängig ⇒ Linearkombination“: Sind v1 , . . . , vr linear abhängig, so
gibt es Koeffizienten λ1 , . . . , λr ∈ K mit mindestens einem λk 6= 0, k ∈ {1, . . . , r}, so dass
sich der Nullvektor nichttrivial kombinieren lässt: 0 = λ1 v1 + . . . + λk vk + . . . + λr vr .
Löst man nach vk auf, so ist dieser Linearkombination der übigen, denn
vk = −
λk−1
λk+1
λr
λ1
v1 − . . . −
vk−1 −
vk+1 − . . . − vr .
λk
λk
λk
λk
„Linearkombination ⇒ linear abhängig“: Gilt umgekehrt
vk = µ1 v1 + . . . + µk−1 vk−1 + µk+1 vk+1 + . . . + µr vr ,
so lässt sich der Nullvektor mit λk = −1 6= 0 linear kombinieren gemäß
0 = µ1 v1 + . . . + µk−1 vk−1 + (−1)vk + µk+1 vk+1 + . . . + µr vr .
Dieser Satz sagt zugleich, dass sich bei linear unabhängigen Vektoren (v1 , . . . , vr ) keiner der Vektoren vi durch die übrigen linear kombinieren lässt und somit als einzige
Möglichkeit nur eine Darstellung durch sich selbst bleibt. Es gilt sogar noch mehr: Jeder
Vektor in der linearen Hülle lässt sich eindeutig linear kombinieren.
Satz 7.28 (Charakterisierung linear unabhängiger Vektoren)
Sei V ein K-Vektorraum. Eine Familie von Vektoren (vi )i∈I ist genau dann linear unabhängig, wenn sich jeder Vektor v ∈ span(vi )i∈I als eindeutige Linearkombination aus
(vi )i∈I schreiben lässt.
Beweis. „Linear unabhängig ⇒ Eindeutigkeit“: Angenommen es gibt zwei verschienden
Darstellungen eines Vektors v ∈ span(vi )i∈I , dann gibt es Skalare λi , µi und der Vektor
lässt sich schreiben als
X
X
λi vi = v =
µi vi ,
i∈I
i∈I
125
7 Vektorräume
wobei nur endlich viele der λi , µi ungleich Null sind. Damit gilt jedoch auch
X
(λi − µi )vi = 0
i∈I
und auf Grund der linearen Unabhängigkeit müssen alle Koeffizienten λi − µi = 0 verschwinden. Somit gilt λi = µi und die Darstellung eindeutig.
„Eindeutigkeit ⇒ linear unabhängig“: Der Nullvektor lässt sich stets als 0 = 0v1 + . . . +
0vr kombinieren. Ist die Darstellung eindeutig, so muss für alle weiteren Darstellungen
0 = λ1 v1 + . . . + λr vr folgen, dass λ1 = . . . = λr = 0 gilt.
7.5 Basis und Dimension
Es hat sich gezeigt, dass man durch das Bilden der linearen Hülle einer Familie an
Vektoren einen Vektorraum aufspannen kann, d.h. man kann gewisse Vektoren angeben,
aus denen sich alle Vektoren des Vektorraums linear kombinieren lassen. Zudem hat sich
gezeigt, dass manchmal schon selbst innerhalb dieser Familien einige Vektoren davon
durch die anderen darstellbar sind - dies gilt, wenn die Familie linear abhängig ist - und
die Darstellung der Vektoren des Raums durch die Familie daher nicht eindeutig ist. An
dieser Stelle lässt sich fragen, ob immer eine Darstellung eines Vektorraums durch einen
Span existiert, ob sich eine Familie mit eindeutiger Darstellung finden lässt und ob dabei
eine möglichst effiziente Beschreibung des Vektorraums möglich ist, d.h. eine Darstellung
durch die linear Hülle einer möglichst kleinen Familie an Vektoren. Dies führt auf den
Begriff der Basis.
Definition 7.29 (Erzeugenensystem, Basis)
Sei V ein Vektorraum.
(i) Eine Familie B = (vi )i∈I heißt Erzeugendensystem von V, wenn
V = span(vi )i∈I
ist, d.h. jedes v ∈ V ist eine (endliche) Linearkombination der (vi )i∈I .
(ii) Eine Familie B = (vi )i∈I heißt Basis von V, wenn sie eine linear unabhängiges
Erzeugendensystem ist, d.h. jedes v ∈ V ist eine eindeutige (endliche) Linearkombination der (vi )i∈I .
Existiert ein endliches Erzeugendensystem (v1 , . . . , vn ), so nennt man V endlich erzeugt.
Eine Basis heißt endlich, falls sie eine endliche Familie (v1 , . . . , vn ) ist.
Beispiele 7.30
(i) Für V = Rn , n ∈ N, ist die kanonische Basis (oder Standardbasis) gegeben durch
ei := (0, . . . , 0, 1, 0, . . . , 0),
wobei die 1 an der i-ten Stelle steht. Damit ist span(ei )i={1,...,n} = Rn .
126
7.5 Basis und Dimension
(ii) Für V = R[x]≤n , n ∈ N, ist die kanonische Basis gegeben durch
(1, x, x2 , . . . , xn ).
(iii) Für V = R[x] ist die kanonische Basis gegeben durch
(1, x, x2 , . . .).
Dieser Raum ist nicht endlich erzeugt.
(iv) Für V = C (aufgefasst als R-Vektorraum) ist die kanonische Basis gegeben durch
(1, i).
Hat man zu einem Vektorraum eine endliche Basis (ein linear unabhängiges Erzeugendensystem) gefunden, so hat diese in folgendem Sinne eine optimale Länge: Fügt man
nämlich nur einen Vektor zur Familie hinzu oder entfernt einen Vektor aus der Familie,
so verliert diese die Basiseigenschaft.
Satz 7.31 (Äquivalenzen zu einer endlichen Basis)
Für eine endliche Familie B = (v1 , . . . , vn ) von Vektoren sind äquivalent:
(i) B ist Basis (d.h. ein linear unabhängiges Erzeugendensystem).
(ii) B ist ein unverkürzbares Erzeugendensystem, d.h. für jedes k ∈ {1, . . . , n} ist
(v1 , . . . , vk−1 , vk+1 , . . . , vn ) kein Erzeugendensystem mehr.
(iii) B ist ein Erzeugendensystem mit Eindeutigkeit der Darstellung, d.h. jedes v ∈ V
lässt sich eindeutig als Linearkombination v = λ1 v1 + . . . + λn vn schreiben.
(iv) B ist unverlängerbar linear unabhängig, d.h. für jedes v ∈ V ist (v1 , . . . , vn , v)
nicht mehr linear unabhängig.
Beweis. (i) ⇒ (ii): Angenommen, B wäre um vk verkürzbar und weiterhin Erzeugendensystem. Dann lässt sich vk = λ1 v1 + . . . + λk−1 vk−1 + λk+1 vk+1 + . . . + λn vn darstellen
und nach Umstellung gilt 0 = λ1 v1 + . . . + λk−1 vk−1 + (−1)vk + λk+1 vk+1 + . . . + λn vn .
Somit wäre (v1 , . . . , vn ) linear abhängig im Widerspruch zur Unabhängigkeit einer Basis.
(ii) ⇒ (iii): Angenommen es existiert zu einem unverkürzbaren Erzeugendensystem eine
nicht eindeutige Darstellung zu einem Element v ∈ V . Dann
∃v ∈ V :
v = λ1 v1 + . . . + λn vn = µ1 v1 + . . . + µn vn .
O.B.d.A. λ1 6= µ1 (die vi können stets entsprechend umsortiert werden). Dann folgt
0 = (λ1 − µ1 )v1 + ... + (λn − µn )vn
µn − λn
µ2 − λ2
v2 + . . . +
⇔ v1 =
λ1 − µ1
λ1 − µ1
127
7 Vektorräume
⇒ vi linear abhängig ⇒ B verkürzbar. Widerspruch!
(iii) ⇒ (iv): B ist linear unabhängig auf Grund der eindeutigen Darstellbarkeit. Fügt
man noch einen weiteren Vektor v = λ1 v1 + . . . + λn vn zur Familie hinzu, so wird diese
wegen 0 = λ1 v1 + . . . + λn vn + (−1)v linear abhängig.
(iv) ⇒ (i): Ist B unverlängerbar linear unabhängig, so gibt es für jedes v ∈ V Koeffizienten λ1 , . . . , λn , λ ∈ K, so dass 0 = λ1 v1 + . . . + λn vn + λv, wobei mindestens eines
der λ1 , . . . , λn , λ 6= 0. Da (v1 , . . . , vn ) linear unabhängig sind, muss folglich λ 6= 0 gelten
und somit gilt
v=−
λn
λ1
v1 − . . . − vn .
λ
λ
Somit ist B ein Erzeugendensystem und linear unabhängig, d.h. eine Basis.
Daraus folgt direkt die Existenz einer Basis für endliche Vektorräume.
Satz 7.32 (Basisauswahlsatz)
Sei V ein endlich erzeugter Vektorraum. Dann kann man aus dem endlichen Erzeugendensystem eine endliche Basis auswählen.
Beweis. Sei das endliche Erzeugendensystem gegeben. Aus diesem entfernt man solange
Vektoren, bis es kein Erzeugendensystem mehr ist, d.h. bis es unverkürzbar ist. Damit
ist die so entstanden Familie eine Basis.
Allgemeiner lässt sich zeigen, dass sogar jeder Vektorraum eine Basis besitzt. Dieser
Beweis ist aufwändiger und wir daher weggelassen.
Eine Basis zu einem Vektorraum ist nicht eindeutig. Vielmehr kann man viele verschiedenen Basen wählen. Man kann bei einer vorgegebenen Basis sogar geeignet Vektoren
austauschen und erhält erneut eine Basis. Betrachtet man zunächst nur den Austausch
eines Vektors, so findet man die folgende Aussage.
Satz 7.33 (Austauschlemma)
Sie V ein Vektorraum mit Basis B = (v1 , . . . , vn ) und w = λ1 v1 + . . . + λn vn ∈ V . Gilt
λk 6= 0 für k ∈ {1, . . . , n}, so ist auch B 0 = (v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) eine Basis von
V.
Beweis. Zu zeigen ist, dass B 0 eine Basis ist.
Erzeugendensystem: Wegen λk 6= 0 gilt für vk die Darstellung
vk =
1
λ1
λk−1
λk+1
λn
w − v1 − . . . −
vk−1 −
vk+1 − . . . − vn .
λk
λk
λk
λk
λk
und somit für einen beliebigen Vektor v = µ1 v1 + . . . + µn vn die Darstellung
v=
128
µ1
µ k λ1
− λk
v1 + . . . +
v1 + . . . −
µk−1 vk−1
µk λk−1
vk−1
λk
+ µλkk w
+
−
µk+1 vk+1
µk λk+1
vk+1
λk
+... +
+... −
µn v n
µk λn
vn .
λk
7.5 Basis und Dimension
Somit lässt sich ein beliebiger Vektor v ∈ V auch als Linearkombination der Familie
(v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) darstellen und B 0 ist ein Erzeugendensystem.
Lineare Unabhängigkeit: Sei µ1 v1 + . . . + µk−1 vk−1 + µw + µk+1 vk+1 + . . . + µn vn = 0
mit Koeffizienten µ, µ1 , . . . , µn . Durch Einsetzen von w = λ1 v1 + . . . + λn vn findet man
0=
µ1 v1 + . . . + µk−1 vk−1
+ µk+1 vk+1 + . . . + µn vn
+µλ1 v1 + . . . + µλk−1 vk−1 +µλk vk + µλk+1 vk+1 + . . . + µλn vn
und, da B linear unabhängig ist, folglich für die Koeffizienten µλk = 0 sowie (µi +µλi ) = 0
für i 6= k. Da λk 6= 0 folgt zunächst µ = 0 und damit µi = 0 für i 6= k.
Möchte man gleich mehrere Vektoren austauschen, so findet man den Basisaustauschssatz von Steinitz.
Satz 7.34 (Basisaustauschsatz)
Sei V ein Vektorraum, B = (v1 , . . . , vn ) eine endliche Basis und (w1 , . . . , wr ) eine linear
unabhängige Familie von Vektoren.
Dann folgt:
(i) r ≤ n.
(ii) Man kann r Vektoren aus B durch w1 , . . . , wr austauschen, so dass man erneut
eine Basis erhält, d.h. nach evtl. Umnummerierung der (vi )1,...,n ist auch
(w1 , . . . , wr , vr+1 , . . . , vn )
eine Basis von V .
Beweis. Induktion über r:
Für r = 1: Sei ein linear unabhäniger Vektor w1 6= 0 gegeben. Die Basis enthält somit
auch mindestens einen Vektor (es gilt also 1 ≤ n) und gemäß des Austauschlemmas lässt
sich w1 für einen Vektor in der Basis ersetzen und erhält wieder eine Basis.
Sei nun r ≥ 2 und per Induktionsannahme die Aussage bewiesen für r − 1. Es müssen
zwei Dinge gezeigt werden.
(i) ”r ≤ n”: Nach Induktionsannahme gilt bereits r −1 ≤ n. Damit bleibt noch zu zeigen,
dass der Fall r−1 = n nicht eintreten kann. Dazu ein Widerspruchsbeweis: Angenommen,
es gälte r −1 = n. Entsprechend sind die Vektoren (w1 , . . . , wr−1 ) linear unabhängig und
nach Induktionsvoraussetzung kann man alle n Elemente der Basis (v1 , . . . , vn ) durch
die r −1 Vektoren (wi )1≤i≤r−1 ersetzen und erhält wieder eine Basis (w1 , . . . , wr−1 ). Eine
Basis ist aber unverlängerbar linear unabhängig und daher ist (w1 , . . . , wr−1 , wr ) linear
abhängig. Widerspruch.
(ii) ”(w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis”: Nach Induktionsvorausssetzung lassen sich
die (w1 , . . . , wr−1 ) derart austauschen, dass (nach evtl. Umnummerierung) auch
(w1 , . . . , wr−1 , vr , . . . , vn )
129
7 Vektorräume
eine Basis bilden. Somit kann man auch wr durch diese Basis als Linearkombination
wr = λ1 w1 + . . . + λr−1 wr−1 + λr vr + . . . + λn vn
ausdrücken. Dabei muss einer der Koeffizienten λr , . . . , λn nicht 0 sein, denn andernfalls wäre 0 = −wr + λ1 w1 + . . . + λr−1 wr−1 im Widerspruch zur linearen Unabhängigkeit. Gemäß dem Austauschlemma lässt sich der zugehörige Vektor durch wr
ersetzen. Nach geeigneter Umnummerierung sei dieser Vektor vr und somit ist auch
(w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis.
Die Aussage dieses Satzes lässt sich auch so verstehen, dass man linear unabhängige
Familien zu einer Basis auffüllen kann.
Satz 7.35 (Basisergänzungssatz)
Sei V ein endlich erzeugter Vektorraum. Dann lässt sich jede linear unabhängige Familie
(w1 , . . . , wr ) durch Hinzunahme geeigneter Vektoren zu einer Basis
(w1 , . . . , wr , vr+1 , . . . , vn )
ergänzen.
Beweis. Man wählt eine Basis (diese existiert gemäß Basisauswahlsatz) und wendet
den Basisaustauschsatz an.
Durch den Basisaustauschsatz ist auch geklärt, dass für jeden endlichen Vektorraum alle
Basen dieselbe Länge haben.
Satz 7.36 (Länge endlicher Basen)
Je zwei Basen eines endlichen Vektorraums haben gleiche Länge.
Beweis. Hat man zwei Basen der Länge n und m, so kann man den Basisaustauschsatz
zweimal anwenden und erhält n ≤ m und m ≤ n, also n = m.
Somit lässt sich mittels der Länge der Basis die Dimension eines Vektorraums sinnvoll
definieren.
Definition 7.37 (Dimension)
Für einen K-Vektorraum V heißt
(
n,
falls V eine Basis der Länge n ∈ N besitzt,
dimK V :=
∞,
falls V keine endliche Basis besitzt,
die Dimension von V über K.
Beispiele 7.38
(i) Der Vektorraum Rn hat Dimension dimR Rn = n.
(ii) Die Vektorraum der Polynome hat Dimension dimR R[x] = ∞.
(iii) Der Vektorraum C, aufgefasst als Vektorraum über R, hat Dimension dimR C = 2.
130
8 Lineare Abbildungen
Eine besondere Rolle sowohl in der linearen Algebra als auch der Analysis spielen lineare
Abbildungen. Auf endlich erzeugten Vektorräumen hängen diese eng mit sogenannten
Matrizen (rechteckige Zahlenschemata) zusammen. Um für den weiteren Verlauf dieses
Kapitels eine Anschauung zu entwickeln, werden daher zunächst der Begriff der Matrix
sowie grundlegende Matrix-Vektor Operationen eingeführt.
8.1 Lineare Gleichungssysteme und Matrizen
In vielen Anwendungen ist man an Lösungen von sogenannten linearen Gleichungssystemen interessiert. Hierbei sucht man n Unbekannte die m lineare Bedingungen erfüllen.
Definition 8.1 (Lineares Gleichungssystem)
Für m, n ∈ N bezeichnet man für die n Unbekannten x1 , x2 , . . . , xn ∈ K und die Werte
b1 , . . . , bm ∈ K die m Gleichungen
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
+ . . . + a1n xn
+ . . . + a2n xn
..
.
= b1
= b2
..
.
am1 x1 + am2 x2 + . . . + amn xn = bm
als lineares Gleichungssystem. Die Zahlen aij ∈ K (1 ≤ i ≤ m, 1 ≤ j ≤ n) heißen
Koeffizienten. Das Gleichungssystem lässt sich auch kompakt schreiben als
n
X
aij xj = bi ,
für i = 1, . . . , m.
j=1
Das obige Gleichungssystem möchte man in vielen Fällen kompakter (und damit übersichtlicher) notieren. Wesentlich für ein Gleichungssystem sind die Koeffizienten und
daher fasst man diese in einem Zahlenschema zusammen.
Definition 8.2 (Matrix)
Eine m × n Matrix A, m, n ∈ N, mit Einträgen aij ∈ K, 1 ≤ i ≤ m, und 1 ≤ j ≤ n ist
131
8 Lineare Abbildungen
ein rechteckiges Zahlenschema
A = (aij )m,n
i,j=1

a11
 a21

=  ..
 .
a12
a22
..
.
am1 am2

. . . a1n
. . . a2n 

..  .
..
.
. 
. . . amn
Die Menge aller m × n Matrizen mit Einträgen aus K wird als Km×n bezeichnet.
Um damit das obige Gleichungssystem kompakter notierien zu können, wird noch die
Definitionen der Multiplikation einer Matrix mit einem Vektor benötigt.
Definition 8.3 (Matrix-Vektor-Multiplikation)
Zu einer Matrix A ∈ Km×n und einem Vektor x ∈ Kn ist das Matrix-Vektor-Produkt
· : Km×n × Kn → Km
definiert durch

a11 a12
 a21 a22

A · x =  ..
..
 .
.
am1 am2
oder in Indexnotation
  


. . . a1n
x1
a11 · x1 + a12 · x2 + . . . + a1n · xn
 
 a21 · x1 + a22 · x2 + . . . + a2n · xn 
. . . a2n 
  x2 



..  ·  ..  := 
..
..


.
.  .
.
. . . amn
xn
am1 · x1 + am2 · x2 + . . . + amn · xn
(A · x)i :=
n
X
j=1
aij xj ,
für alle 1 ≤ i ≤ m.
Damit lässt sich ein lineares Gleichungssystem in Matrixschreibweise darstellen. Sei dazu
A ∈ Km×n und b ∈ Km . Gesucht ist dann x ∈ Kn , so dass

  
a11 x1 + a12 x2 + . . . + a1n xn
b1
 a21 x1 + a22 x2 + . . . + a2n xn   b2 

  
A · x =  ..
..
..  =  ..  = b.
 .
.
.   . 
am1 x1 + am2 x2 + . . . + amn xn
bm
Beispiele 8.4 (i) A := 2 ∈ R1×1 : A · x = (2) · (x1 ) = 2x1 .
x1
2×1
(ii) A := 3 4 ∈ R : A · x = 3 4 ·
= 3x1 + 4x2 .
x2
1 0
(iii) (Identität) A :=
∈ R2×2 :
0 1
1 0
x1
1 · x1 + 0 · x2
x1
A·x=
·
=
=
= x.
0 1
x2
0 · x1 + 1 · x2
x2
132
8.1 Lineare Gleichungssysteme und Matrizen
0 −1
(iv) (Rotation um 90 ) A :=
∈ R2×2 :
1 0
0 −1
x1
0 · x1 − 1 · x2
−x2
A·x=
·
=
=
.
1 0
x2
1 · x1 + 0 · x2
x1
◦
Die so definiert Abbildung besitzt interessante Eigenschaften.
Satz 8.5 (Linearität der Matrixmultiplikation)
Die Multiplikation einer Matrix A ∈ Km×n mit einem Vektor x ∈ Kn ist eine Abbildung
A : Kn → Km , x 7→ A · x und besitzt die Eigenschaften
A · (x + y) = A · x + A · y,
für alle x, y ∈ Kn , λ ∈ K.
A · (λx) = λ(A · x),
Beweis. Beim direkten Nachrechnen kann man sich auf die i-te Zeile beschränken und
findet
n
n
n
X
X
X
(A · (x + y))i =
aij (xj + yj ) =
aij xj +
aij yj = (A · x)i + (A · y)i
j=1
j=1
j=1
sowie
(A · (λx))i =
n
X
j=1
aij (λxj ) = λ
n
X
j=1
aij xj
!
= λ (A · x)i .
Für Matrizen lässt sich zudem eine Addition, eine Multiplikation mit Skalaren und eine
Multiplikation mit Matrizen definieren.
Definition 8.6 (Matrix-Matrix-Operationen)
Für A, B ∈ Km×n ist die (Matrix-)Addition definiert als
 


a11 a12 . . . a1n
b11 b12 . . . b1n
 a21 a22 . . . a2n   b21 b22 . . . b2n 

 

A + B =  ..
..
..  +  ..
.. . .
.. 
.
.
 .
.
.
.
.   .
.
. 
am1 am2 . . . amn
bm1 bm2 . . . bmn


a11 + b11 a12 + b12 . . . a1n + b1n
 a21 + b21 a22 + b22 . . . a2n + b2n 


=

..
..
..
.
.


.
.
.
.
am1 + bm1 am2 + bm2 . . . amn + bmn
und die Multiplikation mit einem Skalar λ ∈ K als

 
a11 a12 . . . a1n
λa11 λa12
 a21 a22 . . . a2n   λa21 λa22

 
λA = λ  ..
..
..  =  ..
..
.
.
 .
.
.
.   .
.
am1 am2 . . . amn
λam1 λam2

. . . λa1n
. . . λa2n 

..  .
..
.
. 
. . . λamn
133
8 Lineare Abbildungen
Für A ∈ Km×n und B ∈ Kn×r ist das Matrixprodukt eine Matrix C ∈ Km×r gegeben
durch
n
X
i = 1, . . . , m
C = A · B, mit cik :=
aij bjk für
.
k = 1, . . . , r
j=1
Im Spezialfall r = 1 stimmt diese Definition mit der Matrix-Vektor-Multiplikation überein.
Definition 8.7 (Transponierte Matrix)
Die zu A ∈ Km×n transponierte Matrix AT ∈ Kn×m ist definiert durch
aTij := aji
i = 1, . . . , n,
.
j = 1, . . . , m
für
max(n,m)
Anschaulich gesprochen entspricht dies der Spiegelung an der Diagonalen (aii )i=1
der Matrix und diese fasst man einen Vektor x ∈ Rn×1 als einspaltige Matrix x ∈ Rn×1
auf, so ist diese Definition konsistent mit der Notation eines liegenden Vektors xT =
(x1 , . . . , xn ).
Eine wichtige Matrix ist die sehr einfache Einheitsmatrix.
Definition 8.8 (Einheitsmatrix)
Die Einheitsmatrix ist die n × n Matrix

1
0

1n :=  ..
.
0
0 ...
1 ...
.. . .
.
.
0 ...

0
0

..  .
.
1
Für die Rechenregeln mit Matrizen findet man zudem folgende Äquivalenzen.
Satz 8.9 (Rechenregeln für Matrizen)
Seien A ∈ Rm×n und B, C ∈ Rn×r Matrizen sowie λ ∈ K. Dann gilt:
(i) A · (B + C) = A · B + A · C,
(ii) A · (B · C) = (A · B) · C,
(A + B) · C = A · C + B · C,
(iii) A · (λB) = (λA) · B = λ(A · B),
(iv) (A · B)T = BT · AT ,
(v) 1m · A = A · 1n = A.
Im Allgemeinen gelten jedoch die folgenden Ungleichungen
A · B 6= B · A
und
A · B 6= AT · BT
für beliebige Matrizen A, B, obwohl selbstverständlich für Spezialfälle Gleichheit vorliegen kann.
134
8.2 Lösungsmengen, Kern und Bild
8.2 Lösungsmengen, Kern und Bild
Gleichungssysteme entstehen an vielen Stellen und für ihre Lösung ist ein verlässliches
Verfahren wünschenswert.
Zum Beispiel führt die Berechnung von Schnittpunkten zwischen Ebenen im R3 auf
solche Gleichungssysteme. Eine Ebene im R3 lässt sich über eine lineare Gleichung beschreiben
{x ∈ R3 | a1 x1 + a2 x2 + a3 x3 = b},
mit Koeffizienten ai ∈ R, i = 1, 2, 3 und rechter Seite b ∈ R. Um den Schnittpunkt
dreier Ebenen im R3 zu berechnen, muss dementsprechend ein x ∈ R3 gefunden werden,
so dass simultan die Ebenengleichung für alle drei erfüllt ist, d.h. es gilt
a11 x1 + a12 x2 + a13 x3 = b1
a21 x1 + a22 x2 + a23 x3 = b2
a31 x1 + a32 x2 + a33 x3 = b3
oder kurz
A · x = b,
mit A = (aij ) ∈ R3×3 und x = (xi ) ∈ R3 , b = (bi ) ∈ R3 .
Eliminationsverfahren von Gauß
Es stellt sich nun die Frage, ob eine solche Matrixgleichung überhaupt eine Lösung besitzt
und falls ja, ob die gefundene Lösung die einzige ist. Ein Allgemeines Verfahren zur
Bestimmung der Lösungen eines solchen Gleichungssystem ist das Verfahren von Gauß.
Dabei formt man Matrix und rechte Seite geeignet um, so dass sich bei gleichbleibender
Lösung eine Zeilenstufenform der Matrix ergibt, aus der man die Lösung durch einfaches
Einsetzen ablesen kann.
Dies erklärt sich am besten durch ein Beispiel. Seien
{x ∈ R3 | 2x1 + x2 + 3x3 = 8},
{x ∈ R3 | 2x1 + 2x2 + 4x3 = 12},
{x ∈ R3 | − 4x1 + 4x2 + 6x3 = 14}
Ebenen im Raum, deren Schnittpunkt gesucht ist. Ausgehend von den drei Gleichungen
2x1 + x2 + 3x3 = 8
2x1 + 2x2 + 4x3 = 12
−4x1 + 4x2 + 6x3 = 14
(i)
(ii)
(iii)
135
8 Lineare Abbildungen
erhält man durch Addition des Vielfachen einer Gleichung zu den anderen zunächst
2x1 +
x2 + 3x3 = 8
x2 + x3 = 4
6x2 + 12x3 = 30
und schließlich die sogenannte Zeilenstufenform
2x1 + x2 + 3x3 = 8
x2 + x3 = 4
6x3 = 6
(i)
(ii := ii + (−1) · i)
(iii := iii + 2 · i)
(i)
(ii)
(iii := iii + (−6) · ii)
Nun lässt sich die Lösung direkt von unten nach oben ablesen. Denn durch einfaches
Dividieren findet man aus (iii) nun zunächst x3 = 1. Einsetzen von x3 in (ii) und
Umformen ergibt x2 = 3 und schließlich Einsetzen von x2 und x3 in (i) und Umformen
x1 = 1.
Man rechnet zudem leicht nach, dass
Gleichungssystem

2 1
e · x = 0 1
A
0 0
auch die Lösung des ursprünglichen

2
A·x= 2
−4
die Lösung xT = (1, 3, 1) des so umgeformten
    
3
1
8
e
1 · 3 = 4 = b
6
1
6
Gleichungssystem
    
1 3
1
8
2 4 · 3 = 12 = b
4 6
1
14
ist. Dieses Vorgehen lässt sich auf beliebige Matrizen A ∈ Km×n anwenden und soll nun
im Folgenden systematisch untersucht werden.
Definition 8.10 (Lösungsmenge)
Die Lösungsmenge eines linearen Gleichungssystems Ax = b ist gegeben durch
L(A, b) := {x ∈ Kn | Ax = b}.
Ist dieses Menge leer, so ist das Gleichungssystem nicht lösbar. Enthält sie genau einen
Vektor, so ist dies eine eindeutige Lösung. Gibt es mehr als ein Element in der Lösungsmenge, so hat das Gleichungssystem mehr als einen Lösung.
Das Ziel des Algorithmus von Gauß ist es, diese Menge zu bestimmen. Dazu schreibt
man das zu lösende Gleichungssystem oftmals der Einfachheit halber als erweiterte Koeffizientenmatrix


a11 a12 . . . a1n b1
 a21 a22 . . . a2n b2 


(A|b) =  ..
..
..
..  .
.
.
 .
.
.
.
. 
am1 am2 . . . amn bm
136
8.2 Lösungsmengen, Kern und Bild
Nun stellt man zunächst direkt fest, dass es Gleichungssysteme gibt, die sich besonders
einfach lösen lassen. Diese haben die folgende Gestalt, bei der das untere Dreieck der
Matrix nur aus Nullen besteht.
Definition 8.11 (Zeilenstufenform)
Eine Matrix A ∈ Km×n besitzt Zeilenstufenform, wenn es einen Zahl r (0 ≤ r ≤ m)
gibt, so dass die Zeilen folgende Form haben:
(i) In den Zeilen r + 1, . . . , m sind alle Einträge Null.
(ii) In den Zeilen 1, . . . , r sind nicht alle Einträge Null und die von Null verschiedenen
Einträge mit kleinstem Spaltenindex ji := min{j | aij 6= 0} (sogenannte Pivots)
erfüllen die Bedingung j1 < j2 < . . . < jr .
Die Matrix hat somit die Gestalt

0 . . . 0 a1,j1 ∗ . . . ∗ ∗ . . . ∗ . . .

0 . . . . . . 0 a2,j2 ∗
∗ ...


0 . . . 0 a3,j3 ∗ . . .

..

.

A=
ar,jr ∗


0
0 ...


..

.
0 ...

... ∗
... ∗ 

... ∗ 
.. 

. 
,
... ∗ 

... 0 
.. 
. 
... 0
wobei die Pivots ai,ji 6= 0 (1 ≤ i ≤ r) nicht null sind, an mit ∗ gekennzeichneten Stellen
sowohl von Null verschiedenen Einträge als auch Nullen stehen dürfen und unterhalb der
eingezeichneten Linie nur Nullen stehen. Nun stellt man fest, dass sich die Lösungsmenge
eines linearen Gleichungssystems in einer Zeilenstufenform direkt ermitteln lässt.
Satz 8.12 (Lösungen einer Matrix in Zeilenstufenform)
Sei eine lineares Gleichungssystem in Zeilenstufenform gegeben mit

0 . . . 0 a1,j1 ∗ . . . ∗ ∗ . . . ∗ . . .

0 . . . . . . 0 a2,j2 ∗
∗ ...


0 . . . 0 a3,j3 ∗ . . .

..

.

(A|b) = 
ar,jr ∗


0
0 ...


..

.
0 ...
... ∗
... ∗
... ∗
..
.
... ∗
... 0
..
.
... 0
b1
b2
b3
..
.







,
br 

br+1 

... 
bm
(i) Ist nur eins der br+1 , . . . , bm ungleich null, so ist das Gleichungssystem nicht lösbar.
(ii) Sind alle br+1 = . . . = bm = 0, so lässt sich das Gleichungssystem rekursiv auflösen
und man benötigt dazu n − r freie Parameter.
137
8 Lineare Abbildungen
Beweis. (i) Ist bi 6= 0 mit i ≥ r + 1, so lautet die i-te Gleichung
0 · x1 + 0 · x2 + . . . + 0 · xn = bi 6= 0
und keine Wahl von x kann diese Gleichung lösen.
(ii) Man löst das System von unten nach oben auf. Ausgehend von der r-ten Gleichung
ar,jr xjr + ar,jr +1 xjr +1 + ar,jr +2 xjr +2 + . . . + ar,n xn = br
wählt man zunächst die Variablen xjr +1 , xjr +2 , . . . , xn als freie Parameter, die einen beliebigen Wert annehmen können: xn := λ1 , . . . , xjr +2 := λn−jr −1 , xjr +1 := λn−jr . Damit
verbleibt nur noch xjr als Variable in der Gleichung und nach dieser kann aufgelöst
werden
ar,jr xjr + ar,jr +1 λn−jr + ar,jr +2 λn−jr −1 + . . . + ar,n λ1 = br
1
(br − ar,jr +1 λn−jr − ar,jr +2 λn−jr −1 − . . . − ar,n λ1 ).
⇒ xj r =
ar,jr
Somit sind nun die xjr , . . . , xn bekannt. Mit der r −1-te Gleichung fährt man analog fort:
Zunächst wählt man für die Variablen xjr−1 +1 , xjr−1 +2 , . . . , xjr −1 freie Parameter und löst
danach die Gleichung
ar−1,jr−1 xjr−1 + ar−1,jr−1 +1 xjr−1 +1 + ar−1,jr−1 +1 xjr−1 +1 + . . . + ar−1,n xn = br−1
nach xjr−1 auf. Dies ist stets möglich, da die Variablen xjr−1 +1 , . . . , xn bekannt bzw.
bereits paramterisiert sind. Diese Verfahren führt man bis zur ersten Zeile durch und
erhält somit eine Parametrisierung der Lösung.
Die Anzahl der benötigten freien Parameter bestimmt sich dadurch, dass für jede Spalte
außer den Spalten mit Pivots ein freier Parameter eingeführt werden muss. Man hat n
Unbekannte, r Pivots und dementsprechend n − r freie Parameter.
Man sieht folglich, dass sich Matrizen in Zeilenstufenform direkt lösen lassen. Die Idee
des Verfahrens von Gauß ist es nun ein beliebiges Gleichungssystem durch Umformungen in ein Gleichungssystem in Zeilenstufenform zu überführen, ohne dass sich dabei die
Lösungsmenge ändert. Wesentlich sind dabei die sogenanten elementaren Zeilenumformungen.
Definition 8.13 (elementare Zeilenumformungen)
Eine elementare Zeilenumformung ist eine der folgenden drei Operationen
(I) Vertauschung von zwei Zeilen,
(II) Multiplikation einer Zeile mit einer Zahl λ 6= 0,
(III) Addition des λ-fachen einer Zeile zu einer anderen.
Führt man diese Operationen auf einem Gleichungssystem aus, so bleibt die Lösungsmenge gleich.
138
8.2 Lösungsmengen, Kern und Bild
Satz 8.14 (Elementare Zeilenumformungen ändern die Lösungsmenge nicht)
e durch endlich viele elementare Zeilenumformungen aus
e b)
Ist das Gleichungssystem (A|
dem Gleichungssystem (A|b) hervorgegangen, dann haben beiden Gleichungssysteme
dieselbe Lösungsmenge, d.h.
e
e b).
L(A, b) = L(A,
Beweis. Es genügt zu zeigen, dass sich die Lösungsmenge bei jeder elementaren Zeilenumformung nicht ändert. Dann ist auch die mehrfache Hintereinanderausführung problemlos möglich.
Die Umformung (I) ändert die Lösungsmenge sicher nicht, denn die Reihenfolge in der
die Gleichungen notiert werden ist für die Lösung irrelevant.
Die Umformung (II) ändert die Lösungsmenge nicht, denn durch Multiplikation mit λ
bzw. λ−1 findet man zunächst die Äquivalenz
ai1 x1 + . . . + ain xn = bi
⇔
λai1 x1 + . . . + λain xn = λbi .
Erfüllt nun eine Lösung x = (x1 , . . . , xn ) die linke Gleichung, so auch die rechte und
umgekehrt. Daher sind die Lösungsmengen identisch.
Die Umformung (III) ändert die Lösungsmenge ebenfalls nicht, denn die beiden Gleichungssysteme
ai1 x1 + . . . + ain xn = bi
ak1 x1 + . . . + akn xn = bk
⇔
ai1 x1 + . . . + ain xn = bi
(ak1 + λai1 )x1 + . . . + (akn + λain )xn = bk + λbi
sind zueinander äquivalent, wie man durch Addition bzw. Subtraktion sieht. Daher kann
man Lösungen des einen Gleichungssystems in Lösungen des zweiten überführen und
umgekehrt.
Es lässt sich nun aber jedes Gleichungssystem mittels den elementaren Zeilenumformungen in ein äquivalentes Gleichungssystem in Zeilenstufenform überführen.
Satz 8.15 (Umformungssatz von Gauß)
e in
Jede Matrix A lässt sich durch elementare Zeilenumformungen in eine Matrix A
Zeilenstufenform umformen.
Beweis. Sind alle Einträge der Matrix A ∈ Km×n gleich Null, so liegt per Definition
schon eine Zeilenstufenform mit r = 0 vor und der Satz ist direkt gezeigt. Sei daher mindestens ein Eintrag der Matrix von Null verscheiden und somit gibt es auch mindestens
einen Spalte, in der nicht alle Einträge Null sind. Damit kann man sich diejenige solche
Spalte mit kleinstem Index suchen, d.h. j1 = min{j | für mindestens ein i gilt aij 6= 0}.
139
8 Lineare Abbildungen




A=



0 ...
..
.
..
.
..
.
0
0
..
..
.
.
..
. ai1 ,j1
..
..
.
.
0 ... 0
∗
∗ ... ... ∗


∗ ... ... ∗ 

∗ ... ... ∗ 
.

∗ ... ... ∗ 
∗ ... ... ∗
In der j1 -ten Spalte ist somit mindestens ein Eintrag ungleich Null. Falls dies nicht
bereits der Eintrag a1,j1 der ersten Zeile ist, so findet man eine Zeile i1 bei der ai1 ,j1 6= 0
gilt und durch Vertauschung der i1 -ten Zeile mit der ersten Zeile erhält man einen von
Null verschiedenen Pivot e
a1,j1 = ai1 ,j1 . Durch diese elementare Zeilenumformung vom
e
Typ (I) erhält man somit die erste Zeile der Matrix A.


0 ... 0 e
a1,j1 ∗ . . . . . . ∗
..
..
 ..

 .
.
.
∗ ... ... ∗ 


..
e =  ...
.
A
.
∗
∗
.
.
.
.
.
.
∗


 .

..
..
 ..
.
.
∗ ... ... ∗ 
0 ... 0 ∗ ∗ ... ... ∗
Nun kann man die unterhalb von e
a1,j1 stehenden Einträge zu Null machen, indem man
die elementare Zeilenumformung vom Typ (III) auf jede der Zeilen anwendet und jeweils
ein Vielfaches der ersten Zeile hinzuaddiert. Dabei wählt man für den Eintrag der k-ten
Zeile den Faktor λ so, dass gilt
ak,j
ak,j1 + λe
a1,j1 = 0 ⇒ λ = − 1 .
e
a1,j1
Damit erhält man eine Matrix der Form


0 ... 0 e
a1,j1 ∗ . . . . . . ∗
..
 ..

 .

.
0
 .

.
.
e

.
.
.
.
A1 =  .
.
.
A2

 .

.
.
.
.
.
 .

.
.
0 ... 0 0
Nun kann man die Untermatrix A2 ∈ Km−1×n−j1 betrachten und dasselbe Verfahren auf
diese anwenden. Damit ergibt sich die zweite Zeile der gesuchten Matrix und man erhält


0 ... 0 e
a1,j1 ∗ . . . . . . ∗
..
 ..

 .
.
0
0 e
a2,j2 . . . ∗ 


..
..
..
e 2 =  ...
.
A
.
.
.
0


 .

.
.
.
..
..
..
 ..
0
A3 
0 ... 0 ... ... 0
140
8.2 Lösungsmengen, Kern und Bild
Nach diesem Muster fährt man fort bis entweder eine Untermatrix vorliegt, die nur
Null Einträge besitzt, oder bis keine Untermatrix mehr übrig bleibt, da die Anzahl der
Zeilen/Spalten mit jedem Schritt abnehmen.
Somit kann nun das gesamte Vorgehen angeben werden.
Definition 8.16 (Eliminationsverfahren von Gauß)
Sei das lineare Gleichungssystem Ax = b mit A ∈ Km×n , x ∈ Kn , b ∈ Km gegeben. Das
Eliminationsverfahren von Gauß bestimmt die Lösungsmenge L(A, b) durch folgendes
Vorgehen:
(a) Notiere die Koeffizientenmatrix (A|b).
e mit einer Matrix
e b)
(b) Überführe diese durch elementare Zeilenumformungen in (A|
e in Zeilenstufenform und bestimme die Anzahl der nicht-Null Zeilen r.
A
(c) Bestimme anhand der ebr+1 , . . . , ebm , ob einen Lösung exisiert und berechne diese
gegebenenfalls als Parametrisierung.
Beispiel 8.17 (i) Das Gleichungssystem
1 1 5 (III) 1 1 5
2 2 12
0 0 2
besitzt keine Lösung, wie man sofort an der letzten Zeile nach der Umformung
sehen kann,
L(A, b) = ∅.
(ii) Das Beispiel vom Anfang des



2 1 3 8
2
 2 2 4 12  (III)  0
0
−4 4 6 14
(iii)
Kapitels liest sich als folgendes Vorgehen





1 3 8
2 1 3 8
2 1 3 8
(III)
 0 1 1 4  (II)  0 1 1 4 
1 1 4 
0 0 6 6
0 0 1 1
6 12 30
und rekursives Auflösen liefert die eindeutige Lösung
 
1

L(A, b) = { 3}.
1

0 1 4 2 4
 2 5 8 8 6 
1 2 2 3 1


1 2 2 3
(I)
 2 5 8 8
0 1 4 2

1 2 2 3
(III)
 0 1 4 2
0 0 0 0


1
1
(III)


6
0
4
0


1
1
(III)


4
0
0
0

2 2 3 1
1 4 2 4 
1 4 2 4

2 2 3 1
1 4 2 4 
0 0 0 0
141
8 Lineare Abbildungen
Da für eb3 = 0 gilt, lässt sich dieses Gleichungssystem lösen. Setzt man x3 = λ1
und x4 = λ2 mit den freien Parametern λ1 , λ2 ∈ R, so erhält man zunächst durch
Einsetzen in die zweite Gleichung
0x1 + 1x2 + 4λ1 + 2λ2 = 4
⇒
x2 = 4 − 4λ1 − 2λ2 .
Durch Einsetzen in die erste Gleichung erhält man schließlich
1x1 + 2 (4 − 4λ1 − 2λ2 ) + 2λ1 + 3λ2 = 1
⇒
x1 = −7 + 6λ1 + λ2 .
Die Lösungsmenge sieht dementsprechend folgendermaßen aus


−7 + 6λ1 + λ2
 4 − 4λ1 − 2λ2 
 ∈ R4 | λ1 , λ2 ∈ R}.
L(A, b) = {


λ1
λ2
Dies kann man auch so auffassen, dass die Lösungen





−7
6
 4 
 −4 





L(A, b) = {
 0  + λ1  1  + λ2 
0
0
durch die Ebene

1
−2 
 | λ , λ ∈ R}.
0  1 2
1
beschrieben werden. Oder anders ausgedrückt: Jede Lösung wird dargestellt mit
Hilfe der Vektoren






−7
6
1
 4 




 , v1 :=  −4  , v2 :=  −2 
v0 := 
 0 
 1 
 0 
0
0
1
durch eine Linearkombination
x = v0 + λ1 v1 + λ2 v2 .
Durch direktes Nachrechnen stellt man dabei fest, dass sogar schon alleine v0 eine
Lösung ist. Zudem gilt Av1 = 0 und Av2 = 0.
Bild, Kern und Rang einer Matrix
Dass die Ergebnisse dieser drei Beispiele kein Zufall sind, sondern sehr repräsentative
Beispiele von Lösungsarten wiedergeben, zeigt die folgende Betrachtung. Um die Begrifflichkeiten etwas zu präzisieren, verwendet man die folgenden Definitionen.
Definition 8.18 (Bild und Kern einer Matrix)
Für eine Matrix A ∈ Km×n bezeichnet
142
8.2 Lösungsmengen, Kern und Bild
Im(A)
das Bild von A,
= {Ax | x ∈ Kn } ⊂ Km
den Kern von A.
Kern(A) = {x ∈ Kn | Ax = 0} ⊂ Kn
Der Kern sind also alle Vektoren, die auf den Nullvektor abgebildet werden. Das Bild
einer Matrix sind alle möglichen Ergebnisse der Matrixabbildung.
Satz 8.19 (Bild und Kern sind Untervektorräume)
Für eine Matrix A ∈ Km×n sind das Bild Im(A) ⊂ Km und Kern(A) ⊂ Kn Untervektorräume.
Beweis. Wegen A · 0 = 0 ist immer 0 ∈ Kern(A) 6= ∅ und 0 ∈ Im(A) 6= ∅. Die anderen
Unterraumaxiome sieht man durch elementares Nachrechnen.
Mit Hilfe von Bild und Kern einer Matrix lässt sich die Lösungsmenge elegant beschreiben.
Satz 8.20 (Möglichkeiten der Lösungen eines linearen Gleichungssystems)
Sei zu b ∈ Km die Lösung x ∈ Kn des linearen Gleichungssystem Ax = b mit A ∈ Km×n
gesucht. Dann gilt
(i)
(ii)
(iii)
Ax = b nicht lösbar
Ax = b eindeutig lösbar
Ax = b mehrdeutig lösbar
⇔
⇔
⇔
und genau einer dieser drei Fälle trifft zu.
b∈
/ Im(A),
b ∈ Im(A) und Kern(A) = {0},
b ∈ Im(A) und Kern(A) =
6 {0},
Existiert eine Lösung, so lässt sich diese schreiben als Summe einer speziellen Lösung des
inhomogenen Systems (Ax = b) und jeder allgemeinen Lösung des homogenen Systems
(Ax = 0), d.h. ist x ∈ L(A, b) eine beliebige Lösung, dann gilt
L(A, b) = x + Kern(A) := {x + x0 | x0 ∈ Kern(A)}.
Beweis. (i) Dies ist die Definition von Im(A).
(ii) + (iii) Da b ∈ Im(A) in beiden Fällen gilt, gibt es mindestens eine Lösung. Es bleibt
die Äquivalenz zwischen Eindeutigkeit und Kern(A) = {0} zu zeigen.
“Eindeutigkeit ⇒ Kern(A) = {0}”: Sei x ∈ Kn die eindeutige Lösung von Ax = b,
und angenommen es existiert y ∈ Kern(A), y 6= 0, d.h. Ay = 0. Dann ist wegen
A(x + y) = Ax + Ay = Ax = b auch x + y eine Lösung im Widerspruch zur Annahme.
“Kern(A) = {0} ⇒ Eindeutigkeit”: Sei x ∈ Kn eine Lösung von Ax = b, und angenommen es existiert noch eine weitere Lösung y ∈ Kn , y 6= x mit Ay = b. Dann folgt für
z := y − x zum einen z 6= 0 und zum anderen
Ay = b
⇒
A(x + z) = b
⇒
Ax + Az = b
⇒
und damit z ∈ Kern(A), aber z 6= 0. Widerspruch zur Annahme.
Az = 0
143
8 Lineare Abbildungen
Vom Bild einer Matrix bekommt man eine bessere Vorstellung, wenn man sich das Bild
eines Vektors in die Bilder der Einheitsvektoren zerlegt. Für einen beliebigen Vektor
xT = (x1 , x2 , . . . , xn ) erhält man die Darstellung
Ax = A (x1 e1 + x2 e2 + . . . + xn en )
= x1 Ae1 + x2 Ae2 + . . . + xn Aen
= x1 aS,1 + x2 aS,2 + . . . + xn aS,n ,
wobei die i-te Spalte der Matrix A als Spaltenvektor aS,i aufgefasst wird. Die Anwendung
der Matrix auf einen Einheitsbektor liefert also eine Spalte der Matrix gemäß aS,j = Aej
(1 ≤ j ≤ n). Möchte man daher wissen, wie die Koordinatenachsen abgebildet werden,
so muss man sich nur die Spalten der Matrix ansehen. Für einen beliebigen Vektor im
Bild gilt zudem, dass er immer eine Linearkombination der Spaltenvektoren ist. Oder
anders formuliert: das Bild einer Matrix wird von den Spaltenvektoren aufgespannt.
Definition 8.21 (Zeilen- und Spaltenvektoren)
Zu einer Matrix A ∈ Km×n nennt man die j-te Spalte


a1j
 a2j 


aS,j := Aej =  ..  , 1 ≤ j ≤ n,
 . 
amj
einen Spaltenvektor und die i-te Zeile
aTZ,i := (ai1 , ai2 , . . . , ain ),
1 ≤ i ≤ m,
einen Zeilenvektor und die Matrix lässt sich somit schreiben als
 T 
aZ,1
 aT 
 Z,2 
A = (aS,1 aS,2 . . . aS,n ) =  ..  .
 . 
aTZ,m
Die obige Diskussion hat gezeigt:
Satz 8.22 (Bild einer Matrix wird von den Spaltenvektoren aufgespannt)
Das Bild einer Matrix A ∈ Km×n wird von den Spaltenvektoren aufgespannt, d.h.
Im(A) = span(aS,1 , aS,2 , . . . , aS,n ) = span(Ae1 , Ae2 , . . . , Aen ).
Unter den Spaltenvektoren können natürlich gewisse Vektoren von den anderen linear
abhängig sein. Daher ist die Dimension des Bildes maximal n und dies genau dann, wenn
alle Spaltenvektoren linear unabhängig sind und somit eine Basis vom Bild bilden.
144
8.2 Lösungsmengen, Kern und Bild
Definition 8.23 (Rang)
Der Rang einer Matrix A ∈ Km×n ist die Dimension des Bildes, d.h.
Rang(A) := dim Im(A).
Der Spaltenrang ist die maximale Anzahl an linear unabhängigen Spalten, d.h.
Spaltenrang(A) := dim span(aS,1 , aS,2 , . . . , aS,n ).
Der Zeilenrang ist die maximale Anzahl an linear unabhängigen Zeilen, d.h.
Zeilenrang(A) := dim span(aZ,1 , aZ,2 , . . . , aZ,m ).
Etwas überraschend zeigt sich, dass diese drei Definitionen für jede Matrix diesselbe Zahl
beschreiben.
Satz 8.24 (Spaltenrang = Zeilenrang = Rang)
Für jede Matrix A ∈ Km×n gilt
Rang(A) = Spaltenrang(A) = Zeilenrang(A).
Beweis. Per Definition ist der Rang die Dimension des von den Spalten von A aufgespannten Raum. Dieser hat natürlich genau die Dimension, wie es linear unabhängige
Spalten gibt.
Um zu zeigen, dass Zeilen- und Spaltenrang identisch sind, muss man mehr Überlegungen
anstellen. Zunächst überlegt man sich, dass sich der Zeilen- und Spaltenrang nicht ändert,
wenn man in der Matrix eine linear abhängige Zeile entfernt. Dies sieht man wie folgt:
Sei angenommen, dass die i-te Zeile von den anderen linear unabhängig ist, d.h. man
kann Koeffizienten µ1 , . . . , µm ∈ K finden, so dass gilt
aZ,i =
m
X
µk aZ,k
k=1
k6=i
und dies gilt näturlich auch für jede Komponente
aij =
m
X
k=1
k6=i
µk akj ,
für alle 1 ≤ j ≤ m.
Entfernt man diese Zeile aus dem Span der Zeilenvektoren, so ändert sich offensichtlich
der Zeilenrang nicht. Für den Spaltenrang ist dies nicht so offensichtlich, gilt jedoch
auch: Wenn die i-te Zeile aus der Matrix streicht, so sei die so verkleinerte Matrix mit
A bezeichnet. Gemäß des Basisauswahlsatzes kann man zunächst aus den Spalten der
Matrix A eine Basis des Bildes auswählen. Sei daher (ggf. nach Umnummerierung der
Spalten) (a1 , . . . , ar ) eine Basis des Bildes. Nun kann man in jedem dieser Vektoren die
145
8 Lineare Abbildungen
i-te Komponente streichen und erhält zunächst ein Erzeugenensystem des Bildes der
Matrix A bezeichnet mit (a1 , . . . , ar ). Dies stellt aber auch eine Basis dar, denn für eine
Linearkombination λ1 a1 + . . . + λr ar = 0 folgt für die gestrichenen Komponenten mit
λ1 ai1 + . . . + λn air =
r
X
j=1
λj aij =
r
X
j=1
λj
m
X
k=1
k6=i
µk akj =
m
X
k=1
k6=i
µk
r
X
λj akj =
j=1
m
X
k=1
k6=i
µk · 0 = 0
dass auch die Linearkombination der gestrichenen Zeile Null wäre. Somit kann diese
wieder hinzugefügt werden und es ist somit auch λ1 a1 + . . . + λr ar = 0 und da dies eine
Basis ist, folgt λ1 = . . . = λr = 0. Damit gilt: Streicht man eine linear abhängige Zeile,
so ändert sich der Spaltenrang nicht. Analog kann man folgern: Streicht man eine linear
abhängige Spalte, so ändert sich der Zeilenrang nicht.
Nun kann man wie folgt vorgehen: So lange es noch linear abhängige Zeilen oder Spalten
gibt, entfernt man diese aus der Matrix, ohne dass sich dabei der Zeilen- und Spaltenrang
e die nur noch linear unabhängige Zeilen
ändert. Man endet schließlich mit einer Matrix A,
und Spalten hat. Diese Matrix ist nun aber zwingend quadratisch: gäbe es mehr Spalten
als Zeilen, so hätte man Tupel mit so viel Einträgen, wie es Zeilen gibt, davon jedoch
so viele wie es Spalten gibt. Aber für ein d-Tupel gibt es maximal d linear unabhängige
Vektoren. Analog sieht man dass es nicht mehr Zeilen als Spalten geben kann. Somit
sieht man: Zeilenrang = Zeilenanzahl = Spaltenanzahl = Spaltenrang.
Man muss folglich bei einer Matrix nicht zwischen Zeilen- oder Spaltenrang unterscheiden und kann einfach vom Rang sprechen. Der Rang einer Matrix ist dabei eindeutig
bestimmt und lässt sich durch das Verfahren von Gauß bestimmen, indem man nach
einer Umformung auf Zeilenstufenform die nicht-null Zeilen zählt.
Satz 8.25 (Bestimmung des Rangs einer Matrix)
Es gilt:
(i) Die elementaren Zeilenumformungen (I), (II) und (III) ändern den Zeilenrang nicht.
(ii) In einer Matrix in Zeilenstufenform sind die nicht-null Zeilen linear unabhängig.
Beweis. (i) Die Operation (I) vertauscht nur die Zeilen und somit bleibt der Span der
Zeilenvektoren gleich. Für die Darstellungsmöglichkeit eines beliebigen Vektors v ändert
sich durch Multiplikation der i-ten Zeile mit λ, d.h. e
aZ,i := λaZ,i gemäß
v = λ1 aZ,1 + . . . + λi aZ,i + . . . + λm aZ,m
λi
⇔ v = λ1 aZ,1 + . . . + (λaZ,i ) + . . . + λm aZ,m
λ
auch nichts bei der Operation (II). Analog sieht man, dass die Addition des λ-fachen
der k-ten Zeile zur i-ten, d.h. e
aZ,i := aZ,i + λaZ,k , gemäß
v = λ1 aZ,1 + . . . + λk aZ,k + . . . + λi aZ,i + . . . + λm aZ,m
⇔ v = λ1 aZ,1 + .. + (λk − λi λ)aZ,k + . . . + λi (aZ,i + λaZ,k ) + . . . + λm aZ,m
146
8.2 Lösungsmengen, Kern und Bild
auch der Zeilenrang nicht durch Operation (III) ändert.
(ii) Betrachtet man eine Linearkombination λ1 aZ,1 + λ2 aZ,2 + . . . + λr aZ,r , so kann man
sukzessive ausrechnen: Da in Zeilenstufenform nur a1,j1 6= 0 in der ersten Spalte ist, so
folgt λ1 a1,j1 = 0 und daher λ1 = 0. Für die zweite Zeile folgt dann mit a2,j2 6= 0 auch
λ2 = 0. Somit sieht man λ1 = . . . = λr = 0.
Damit kann man eine Matrix zunächst in Zeilenstufenform überführen. Die Anzahl der
verbleibenden nicht-null Zeilen sind dann genau der Rang der Matrix. Somit lässt sich
auch ein praktisches Verfahren angeben, ob ein Vektor b ∈ Im(A) enthalten ist oder
nicht.
Satz 8.26 (Lösbarkeitskriterium nach Fontené, Rouché und Frobenius)
Für ein lineares Gleichungssystem A ∈ Km×n und b ∈ Kn gilt
L(A, b) 6= ∅
⇔
Rang(A) = Rang(A, b),
d.h. die Lösungsmenge ist genau dann nicht leer, wenn die um den Vektor b erweiterte
Matrix denselben Rang wie die Matrix A besitzt.
Beweis. Ist das System lösbar, so gilt b ∈ Im(A) und somit fügt man durch den Vektor
b nur einen von den Spalten der Matrix A linear abhängigen Vektor hinzu. Dies ändert
den Spaltenrang nicht und es gilt somit Rang(A) = Rang(A, b).
Umgekehrt gilt sicherlich immer Im(A) ⊂ Im(A, b). Gilt nun zudem noch Rang(A) =
Rang(A, b), dann muss auch Im(A) = Im(A, b) und damit im Speziellen auch b ∈
Im(A) gelten. Damit ist das System lösbar.
Berechnung einer Basis von Bild und Kern
Durch die Charakterisierung der Lösbarkeit eines Gleichungssystems über das Bild und
den Kern einer Matrix ist es sehr interessant diese beiden Räume besser zu kennen.
Speziell lässt sich fragen, wie man eine Basis dieser Untervektorräume berechnen kann
und welche Dimension diese besitzen.
Ein praktisches Verfahren, um den Kern einer Matrix zu bestimmen, besteht darin, diese
in eine sogenannte reduzierte Zeilenstufenform zu überführen. Diese ist sogar eindeutig
bestimmt und aus ihr lässt sich der Kern als auch eine spezielle Lösung (es gibt natürlich
beliebig viele spezielle Lösungen, sobald der Kern nicht nur die Null enthält) ablesen.
Definition 8.27 (Reduzierte Zeilenstufenform)
Eine Matrix A ∈ Km×n besitzt reduzierte Zeilenstufenform, falls sie in Zeilenstufenform
ist und zusätzlich gilt:
(i) Alle Pivots haben den Wert 1, d.h. a1,j1 = . . . = ar,jr = 1.
(ii) Alle weiteren Einträge in den Pivotspalten sind Null, d.h. ai,ji = 0 für i 6= ji und
alle Spalten j1 , . . . , jr .
147
8 Lineare Abbildungen
Eine Matrix in reduzierter Zeilenstufenform hat somit die Gestalt

0 ... 0 1 ∗ ... ∗ 0 ∗ 0 ∗ 0 ∗

0 ... ... 0 1 ∗ 0 ∗ 0 ∗


0 ... 0 1 ∗ 0 ∗

..

. 0

A=
1 ∗


0
0 ...


..

.
0 ...

... ∗
... ∗ 

... ∗ 
.. 

. 
.
... ∗ 

... 0 
.. 
. 
... 0
Satz 8.28 (Überführung in reduzierte Zeilenstufenform)
Jede Matrix A ∈ Km×n lässt sich durch elementare Zeilenumformungen in reduzierte
Zeilenstufenform überführen.
Beweis. Jede Matrix lässt sich zunächst in Zeilenstufenform überführen. Danach multipliziert man jede Zeile mit dem Inversen des Pivots und erhält somit die Pivots als 1.
Nun kann man alle überhalb der Pivots liegenden Einträge durch Addition geeigneter
Vielfache der Zeilen zu Null machen, ohne dadurch die Zeilenstufenform zu verlieren. Ist eine lineares Gleichungssystem in die reduzierte Zeilenstufenform umgeformt, so lassen sich nun tatsächlich die Lösungen direkt ablesen.
Satz 8.29 (Lösungen bei reduzierter Zeilenstufenform)
Sei ein lineares Gleichungssystem in reduzierter Zeilenstufenform gegeben mit einem
1 ≤ r ≤ n und den Pivotspalten 1 ≤ j1 < j2 < . . . < jr ≤ n

0 ... 0 1 ∗ ... ∗ 0 ∗ 0 ∗ 0 ∗

0 ... ... 0 1 ∗ 0 ∗ 0 ∗


0 ... 0 1 ∗ 0 ∗

..

. 0

(A|b) = 
1 ∗


0
0 ...


..

.
0 ...
... ∗
... ∗
... ∗
..
.
b1
b2
b3
..
.
. . . ∗ br
. . . 0 br+1
..
..
.
.
... 0
bm







.





Dann gilt:
(i) Ist nur eines der br+1 , . . . , bm ungleich Null, so hat das System keine Lösung.
148
8.2 Lösungsmengen, Kern und Bild
(ii) Der Vektor x mit
xk :=


b i ,


0,
wenn k = ji
eine Pivotspalte ist,
sonst,
also
0
 ... 
 
0
 
b1  ← j1 -te Zeile
 
0
 
 .. 
.
 
0
 
b2  ← j2 -te Zeile
 
0
..
.
ist eine spezielle Lösung des Gleichungssystems Ax = b.
(iii) Für jede der Nichtpivotspalten j = 1, . . . , n, j ∈
/ {j1 , . . . , jr } ist der aus den Einträgen der Spalte gebildete Vektor xj mit

0
 ... 
 
0
 
a  ← j -te Zeile
1
 1j 
0
 
 .. 
 . 
 
0
 
a2j  ← j2 -te Zeile
 
0
 
 .. 
 . 
 
0
 
−1 ← j-te Zeile
 
0
 . 
 .. 

(xj )k :=

aij ,





−1,



0,
wenn k = ji
eine Pivotspalte ist,
wenn k = j,
sonst,
also
0
eine Lösung des Gleichungssystems Ax = 0. Zudem sind die so definierten Vektoren
xj , j = 1, . . . , n, j ∈
/ {j1 , . . . , jr } eine Basis von Kern(A).
Beweis. (i) Gilt bereits schon für Zeilenstufenform.
(ii) Dass x eine Lösung des Systems ist, sieht man durch direktes Nachrechnen. Betrachtet man nämlich das Ergebnis der Multiplikation dieses Vektors mit der i-ten Zeile, so
149
8 Lineare Abbildungen
ergibt sich
X
aik xk =
k=1,...,n
X
aik xk +
k=1,...,n
k∈{j1 ,...,jr }
X
X
aik xk =
s=1,...,r
k=1,...,n
k∈{j
/ 1 ,...,jr }
ai,js · bs +
X
k=1,...,n
k∈{j
/ 1 ,...,jr }
aik · 0 = bi ,
da in der i-ten Zeile nur für die Pivotspalte ji der Eintrag ai,ji 6= 0 ist und an den anderen
Pivotspalten eine Null steht.
(iii) Dass die so definierten xj eine Lösung von Ax = 0 ist, sieht man ebenfalls durch
direktes Nachrechnen. Betrachtet man nämlich das Ergebnis der Multiplikation dieses
Vektors mit der i-ten Zeile, so ergibt sich
X
X
X
aik · (xj )k =
aik · (xj )k + aij · (xj )j +
aik · (xj )k
k=1,...,n
k=1,...,n
k∈{j1 ,...,jr }
X
=
s=1,...,r
k=1,...,n
k∈{j,j
/
1 ,...,jr }
ai,js · asj + aij · (−1) +
X
k=1,...,n
k∈{j,j
/
1 ,...,jr }
aik · 0
= aij − aij = 0.
Um zu zeigen, dass die so definierten xj linear unabhängig sind, sei
X
λk xk = 0
k=1,...,n
k∈{j
/ 1 ,...,jr }
eine Linearkombination des Nullvektors. Sei l ≤ n der höchste Index in der Summe mit
l∈
/ {j1 , . . . , jr }. Dann gilt für den l-ten Eintrag (xk )l = −1 für k = l, jedoch (xk )j = 0
für j < l. Damit folgt λl = 0. Analog fährt man mit dem nächst größten Index in der
Summe fort und schließt analog. Nach und nach sind somit alle λk = 0.
Um zu zeigen, dass es sich um ein Erzeugendensystem handelt, sei v ∈ Kern(A) ein
beliebiger Vektor aus dem Kern, d.h. es gilt
X
aik vk = 0, für alle i = 1, . . . , m.
k=1,...,n
Nun gilt für alle i = 1, . . . , m unter Verwendung von δij := (1n )ij
X
X
X
X
(aik − δik ) · vk +
δik · vk =
(aik − δik ) · vk + vi
aik · vk =
0=
k=1,...,n
k=1,...,n
und somit
vi =
X
(−vk ) · (aik − δik ) +
k=1,...,n
k∈{j
/ 1 ,...,jr }
=
X
(−vk )(xk )i +
k=1,...,n
k∈{j
/ 1 ,...,jr }
X
X
k=1,...,n
k∈{j1 ,...,jr }
k=1,...,n
k∈{j1 ,...,jr }
(−vk ) · (aik − δik )
(−vk ) · 0
und jeder Vektor aus dem Kern lässt sich kombinieren.
150
k=1,...,n
k=1,...,n
8.2 Lösungsmengen, Kern und Bild
Beispiel 8.30
Die Matrix






1 2 2 3 1
1 2 0 1 −3
1 2 2 3 1
 0 0 2 2 4  (II)  0 0 1 1 2  (III)  0 0 1 1 2 
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
kann auf reduzierte Zeilenstufenform gebracht werden. Die Lösungen der Gleichung liest
man am Einfachsten durch eine Hilfskonstruktion ab: Zunächst fügt man an den Stufenstellen so viele Nullzeilen ein, bis alle Pivots auf der Diagonalen stehen. Danach werden
nach dem letzten Pivot Nullzeilen hinzugefügt oder entfernt, bis eine quadratische Matrix verbleibt. Schließlich ersetzt man gedanklich noch alle Nullen auf der Diagonale
durch eine −1 in den Nullzeilen. Man findet somit als Hilfsdarstellung






1 2 0 1 −3
1 2 0 1 −3
1 2 0 1 −3
 0 0 0 0 0 
 0 −1 0 0
0 



,
 0 0 1 1 2 
 0 0 1 1 2 
 0 0 1 1
2 
0 0 0 0 0
0 0 0 0 0
0 0 0 −1 0
und liest die Lösung wie folgt ab: In den Nichtpivotspalten (hier: Spalte 2 und 4) stehen
die gesuchten homogenen Lösungen, die eine Basis vom Kern bilden, und in der letzten
Spalte (hier: Spalte 5) steht eine spezielle Lösung. Somit lässt sich jede Lösung schreiben
als
 
 
 
−3
2
1
0
−1
0
 
 

x=
 2  + λ1  0  + λ2  1  .
0
0
−1
Vom Bild ist bereits bekannt, dass es per Definition als Dimension den Rang der Matrix
haben muss und dieser Rang konnte mittels Gauß-Verfahren und elementaren Zeilenumformungen gewonnen werden, bei denen sich der Rang nicht änderte. Jedoch ändert
sich natürlich das Bild der Matrix (wenn auch nicht dessen Dimension), sobald man
elementare Zeilenumformungen durchführt und daher kann eine Basis vom Bild nicht
nach Umformungen auf Zeilenstufenformen abgelesen werden. Das Bild der Matrix wird
jedoch von den Spalten aufgespannt und daher kann man grundsätzlich aus den Spalten
der Matrix eine Basis auswählen. Dies ist in der Praxis jedoch unhandlich. Viel besser
ist es, wenn man sich aus diesen Vektoren eine Basis linear kombiniert. Dazu kann man
Spalten tauschen, Spalten mit Skalaren multiplizieren oder das Vielfache einer Spalten
zu einer anderen hinzufügen - oder anders gesagt: man führt das Gauß-Verfahren auf
den Spalten durch. Dies kann man direkt so auffassen, dass man das Verfahren mit Zeilenumformungen auf der transponierten Matrix durchführt und man erhält somit die
analogen Definitionen Spaltenstufenform und elementare Spaltenumformungen.
1 0 0
1 0 0
1 0 0
1 −1 2
1 1 −2
1 1 0
0 1 0
1 0 0
151
8 Lineare Abbildungen
An den letzen beiden Darstellungen liest man ab: Eine Basis des Bildes ist gegeben durch
0
1
0
1
(
,
)
oder auch
(
,
).
1
1
0
1
Aus der reduzierten Zeilenstufenform konnte eine Basis des Kerns direkt als die Anzahl
der Nichtpivotspalten bestimmt werden. Hat eine Matrix die Größe m × n und den Rang
r, dann sind dies genau n Spalten minus die r Pivotspalten und damit ist die Dimension
des Kerns k := n − r.
Satz 8.31 (Dimensionsformel für Rang und Kern von Matrizen)
Sei A ∈ Km×n und r := Rang(A) sowie k := dim Kern(A). Dann gilt
n = k + r,
d.h. die Dimension des Bildes plus die Dimension des Kerns ergibt die Dimension des
Urbildraums.
Diesen Zusammenhang wird sich später ganz allgemein wiederfinden. Für die Lösbarkeit
von Matrizengleichungen liefert die Dimensionsformel eine sehr griffige Formulierung der
Lösbarkeit.
Satz 8.32 (Lösungen von Gleichungssystemen)
Seien die n Komponenten der Lösung x ∈ Kn des linearen Gleichungssystem Ax = b
mit A ∈ Km×n und b ∈ Km gesucht und der Rang der Matrix durch r := Rang(A)
gegeben. Dann gilt für die Größe des Lösungsraums:
(i) Kern(A) = L(A, 0) ⊂ Kn ist ein Untervektorraum der Dimension n − r.
(ii) Existiert eine Lösung, dann ist der Lösungsraum L(A, b) ⊂ Rn ein affiner Unterraum der Dimension n − r und mit jeder speziellen Lösung x ∈ L(A, b) gilt
L(A, b) = x + L(A, 0).
Als Kriterien für die Lösbarkeit findet man:
(iii) Zu b ∈ Rm ist Ax = b lösbar
(iv) Zu b ∈ Rm ist Ax = b eindeutig lösbar
(v) Für jedes b ∈ Rm ist Ax = b lösbar
⇔
⇔
⇔
Rang(A) = Rang(A, b),
Rang(A) = Rang(A, b) = n,
Rang(A) = m.
Beweis. (i) Die Größe von dim Kern(A) folgt direkt aus der Dimensionsformel mit
r = dim Im(A). (ii)+(iii) sind bereits bewiesene Aussagen. (iv) erweitert (iii) um die
Eindeutigkeit. Dies folgt, da mit dim Im(A) = n auch dim Kern(A) = 0 gilt und somit
Kern(A) = {0}. (v) Rang(A) = m bedeutet, dass die Abbildung surjektiv ist. Damit
gibt es mindestens eine Lösung.
Für den wichtigen Spezialfall m = n, d.h. Abbildungen des Rn auf sich selbst, erhält
man zudem folgendes.
152
8.3 Elementarmatrizen und inverse Matrizen
Satz 8.33 (Lösbarkeit bei quadratischen Matrizen)
Für eine quadratische Matrix A ∈ Kn×n und einen beliebigen Vektor b ∈ Kn gilt:
Ax = b ist eindeutig lösbar
⇔
Rang(A) = n.
Beweis. Da Rang(A) = n gilt, ist die Abbildung surjektiv und damit sogar bijektiv.
Durch die inverse Abbildung A−1 erhält man stets die eindeutige Lösung x = A−1 b. 8.3 Elementarmatrizen und inverse Matrizen
Der Ablauf das Gauß-Verfahrens lässt sich formal auch als eine Multiplikation durch
e durch einen elementare
geeignete Matrizen beschreiben, d.h. wird eine Matrix A → A
e = E · A mit einer
Zeilenumformung überführt, dann lässt sich dies auch schreiben als A
geeigneten Matrix E, die diese Transformation bewirkt. Die dazu geeigneten Matrizen
werden entsprechend als Elementarmatrizen bezeichnet.
Definition 8.34 (Elementarmatrizen)
Sei m ∈ N und zwei Zeilenindizes i, j mit 1 ≤ i, j ≤ m beliebig gewählt. Als Elementarmatrizen bezeichnet man eine der folgenden drei quadratischen Matrizen aus Km×m ,
die durch Anwendung von elementaren Zeilenumformungen aus 1m hervorgehen:
(I) EIij durch Vertauchung der i-ten Zeile mit der j-ten Zeile von 1m
1
..

.




...




EIij :=




...





1
0
...
1
..
1
...
0
...
.
1
1
...
1
...
1




 ← i-te Zeile








 ← j-te Zeile




153
8 Lineare Abbildungen
(II) EII
i (λ) durch Multiplikation der i-ten Zeile von 1m mit einer Zahl λ 6= 0
1
...





...





(λ)
=
EII

i








1
λ
...
1
...
...
...
1
1
1
..
.
1




 ← i-te Zeile













(III) EIII
ij (λ) durch Addition des λ-fachen der j-ten Zeile zur i-ten Zeile von 1m
1
...





...




III
Eij (λ) =




...





1
1
...
1
λ
...
1
...
...
1
...
...
1
..
.
1




 ← i-te Zeile








 ← j-te Zeile




In analoger Weise lassen sich dies Matrizen auch als elementare Spaltenoperationen
auffassen. Diese Elementarmatrizen sind nun sehr hilfreich zur Darstellung von Matrixumformungen.
Satz 8.35 (Elementarmatrizen bewirken elementare Zeilen- und Spaltenoperationen)
Aus der seien Matrix A seien die folgenden Matrizen durch elementare Zeilenoperationen
hervorgegangen:
(I) AI durch Vertauchung der i-ten Zeile mit der j-ten Zeile,
(II) AII durch Multiplikation der i-ten Zeile mit einer Zahl λ 6= 0,
(III) AIII durch Addition des λ-fachen der j-ten Zeile zur i-ten Zeile,
154
8.3 Elementarmatrizen und inverse Matrizen
dann lässt sich dies Darstellen als Multiplikation von links mit einer Elementarmatrix
(I) AI = EIij · A,
(II) AII = EII
i (λ) · A,
(III) AIII = EIII
ij (λ) · A.
Analog seien die folgenden Matrizen durch elementare Spaltenoperationen aus A hervorgegangen:
(I) AI durch Vertauchung der i-ten Spalte mit der j-ten Spalte,
(II) AII durch Multiplikation der i-ten Spalte mit einer Zahl λ 6= 0,
(III) AIII durch Addition des λ-fachen der i-ten Spalte zur j-ten Spalte,
dann lässt sich dies Darstellen als Multiplikation von rechts mit einer Elementarmatrix
(I) AI = A · EIij ,
(II) AII = A · EII
i (λ),
(III) AIII = A · EIII
ij (λ).
Bei der Multiplikation mit einer Elementarmatrix ändert sich der Rang der Matrix nicht.
Beweis. Elementares Nachrechnen.
Damit lässt sich das Verfahren von Gauß dadurch kennzeichnen, dass man eine Multiplikation mit Elementarmatrizen durchführt.
Satz 8.36 (Gauß-Elimination durch Elementarmatrizen)
Zu jeder Matrix A ∈ Km×n gibt es Elementarmatrizen E1 , . . . , Es ∈ Km×m , so dass die
Matrix
eine Zeilenstufenform besitzt.
e = Es · . . . · E2 · E1 · A
A
Analog gibt es Elementarmatrizen E01 , . . . , E0t ∈ Km×m , so dass die Matrix
eine Spaltenstufenform besitzt.
e = A · E0 · E0 · . . . · E0
A
1
2
t
Beweis. Dies ist die äquivalente Formulierung des bereits bewiesenen mit Elementarmatrizen.
Damit lässt sich auch noch ein anderer Blick auf den Rang der Matrix werfen. Es gilt
nämlich der folgende Satz.
Satz 8.37 (Transformation auf Diagonalgestalt)
Zu jeder Matrix A ∈ Km×n mit r := Rang(A) gibt es zwei Matrizen E ∈ Km×m und
E0 ∈ Kn×n , so dass man die Matrix auf die folgende Gestalt umformen kann:
1r 0
0
E·A·E =
0 0
und diese Matrizen sind Produkte von Elementarmatrizen
E = Es · . . . · E2 · E1 ,
E0 = E01 · E02 · . . . · E0t .
155
8 Lineare Abbildungen
Beweis. Nach dem Verfahren von Gauß lässt sich durch Multiplikation mit Elementarmatrizen von links - d.h. durch elementare Zeilenumformungen - die Matrix zunächst
auf reduzierte Zeilenstufenform bringen:


0 ... 0 1 ∗ ... ∗ 0 ∗ 0 ∗ 0 ∗ ... ∗

0 ... ... 0 1 ... 0 ∗ 0 ∗ ... ∗ 



0 0 0 1 ∗ 0 ∗ ... ∗ 



.. 
.
.
.
. 
e =
A
.



1
∗
.
.
.
∗








0
0
Die bis hierher durchgeführten Zeilenumformungen bilden die Matrix E = Es · . . . ·
E1 . Nun beginnt man mit den Spaltenumformungen und bringt durch Vertauschen der
Spalten die Pivots nach links auf die Diagonale:


1 0 ...
0 ∗ ...
... ∗ ... ∗

1 0 ... 0 ∗ ...
... ∗ ... ∗ 




1
0
0
∗
.
.
.
.
.
.
∗
.
.
.
∗



..
..
.. 
..

.
.
... .
. 
e =
A
.


1
∗
.
.
.
.
.
.
∗
.
.
.
∗








0
0
Nun kann man durch Addition eines Vielfachen der Pivot-Spalten zu den rechts stehenden Spalten den Rest der Matrix zu Null machen:


1 0 ...
0 ...
... 0 ... 0

1 0 ...
0 ...
... 0 ... 0 




1
0
.
.
.
0
.
.
.
.
.
.
0
.
.
.
0



..
..
.. 
..

.
.
... .
. 
e =
A
.


1
0
.
.
.
.
.
.
0
.
.
.
0








0
0
Die durchgeführten Spaltenumformungen bilden die Matrix E0 = E01 · . . . · E0t .
Dieses Vorgehen zeigt wieder, dass Spaltenrang gleich Zeilenrang ist, denn: Der Zeilenund Spaltenrang ändert sich nicht bei den elementare Zeilen- und Spaltenumformungen.
e = E·A·E0 denselben
Daher haben die ursprüngliche Matrix A und die transformierte A
Zeilen- und Spaltenrang. Es bildet sich jedoch stets eine quadratische Teilmatrix, an der
man den Rang direkt ablesen kann.
156
8.3 Elementarmatrizen und inverse Matrizen
Möchte man die Matrizen E und E0 explizit berechnen, so bietet sich das folgenden
Vorgehen an: Man schreibt sich drei Matrizen 1m , A, 1n nebeneinander. Nun formt
man zunächst die Matrix A durch Zeilenumformungen in reduzierte Zeilenstufenform
um und nimmt dabei dieselben Umformungen an der Matrix 1m vor. Dann formt man
die Matrix A durch Spaltenumformungen weiter in die gesuchte Gestalt um und nimmt
dabei gleichzeitig dieselben Spaltenumformungen an der Matrix 1n vor. Man hat also
das Schema
1m
A
E1 · 1m
..
.
E1 ·A
..
.
Es · . . . · E1 · 1m
..
.
..
.
Es · . . . · E1 · 1m
Es · . . . · E1 ·A
1n
..
.
..
.
1n
Es · . . . · E1 ·A·E01
..
.
1n · E01
..
.
Es · . . . · E1 ·A·E01 · . . . · E0t
1n · E01 · . . . · E0t
und kann somit die Matrizen E und E0 direkt ablesen.
Beispiel 8.38
Durch die simultanen Umformungen
12
x
EIII
21 (−2) ·
x
1
EII
2 (2) ·
x
EIII
12 (−3) ·
A
1
0
0
1
1
−2
0
1
1
−1
0
1
2
4 − 32
1
−1
2
=: E
3
8
1
6
1
0
3
2
1
4
1
0
3
1
1
2
1
0
0 −5
1 2
1
0
1
0
0
1
0
1
..
.

1
 0
0

0
1
 0
2
0

0
1

0
0
0
0
1
0
0
1
0
0
1
0
=: E0

0
0 
1

5
0 
1

5
−2 
1
· EIII
13 (5)
· EIII
23 (−2)
y
..
.
1
2
y
13
findet man
III
II 1
E = EIII
12 (−3) · E2 ( 2 ) · E21 (−2) · 12 ,
III
E0 = 13 · EIII
13 (5) · E23 (−2)
157
8 Lineare Abbildungen
und es gilt
0
E·A·E =
4
−1
− 23
1
2
1
·
2
3
8
1
6

1

0
·
0

0 5
1

1 −2
=
0
0 1
0
1
0
0
Besonders interessant wird dieses Vorgehen für quadratische Matrizen, die zusätzlich
vollen Rang besitzen. Für diese Matrizen existiert eine inverse Abbildung, wie aus der
Theorie über die Lösbarkeit vom Gleichungssystem bereits bekannt ist. Dies motiviert
die folgende Definition.
Definition 8.39 (Invertierbare Matrix)
Eine Matrix A ∈ Kn×n heißt invertierbar, falls es eine Matrix A−1 ∈ Kn×n gibt, so dass
gilt
A · A−1 = A−1 · A = 1n .
Sofort findet man damit die folgenden Äquivalenzen.
Satz 8.40 (Äquivalenzen zur Invertierbarkeit)
Für eine quadratische Matrix A ∈ Kn×n sind äquivalent:
(i) A ist invertierbar,
(ii) Rang(A) = n,
(iii) die durch A beschriebene Abbildung Kn → Kn ist bijektiv.
Die Menge der invertierbaren Matrizen bildet eine Gruppe mit 1n als neutralem Element.
Im Speziellen gilt daher:
Satz 8.41 (Eindeutigkeit der Inverse)
Die inverse Matrix A−1 (sofern sie existiert) ist eindeutig bestimmt.
Beweis. Seien B, C zwei Matrizen mit A · B = B · A = 1n bzw. A · C = C · A = 1n .
Dann folgt B = B · 1n = B · (A · C) = (B · A) · C = 1n · C = C.
Als Rechenregeln für inverse Matrizen findet man zudem:
Satz 8.42 (Eigenschaften der Inversen Matrix)
Sei A, B ∈ Kn×n invertierbar. Dann gilt
(i) (A−1 )−1 = A,
(ii) (A · B)−1 = B−1 · A−1 ,
(iii) (AT )−1 = (A−1 )T := A−T .
Beweis. Direktes Nachrechnen.
158
8.3 Elementarmatrizen und inverse Matrizen
Es stellt sich nun die Frage, wie man zu einer gegeben Matrix die dazu die inverse Matrix
praktisch berechnen kann. Dazu stellt man zunächst fest, dass alle Elementarmatrizen
invertierbar sind.
Satz 8.43 (Inverse der Elementarmatrizen)
Alle Elementarmatrizen sind invertierbar und es gilt
−1
−1
1
EIij
= EIij ,
EII
(λ)
= EII
i
i ( λ ),
Beweis. Direktes Nachrechnen.
−1
EIII
(λ)
= EIII
ij
ij (−λ).
Eine Zeilenvertauschung wird also durch dieselbe Zeilenvertauschung rückgängig gemacht, die Multiplikation einer Zeile mit λ wird durch Multiplikation derselben Zeile
mit λ1 invertiert und die Addition des λ-fachen einer Zeile zu einer anderen wird umgekehrt durch die Addition des Negativen.
Von großer Bedeutung ist nun, dass sich jede inverse Matrix als ein Produkt von Elementarmatrizen schreiben lässt.
Satz 8.44 (Darstellung inverser Matrizen)
Jede invertierbare Matrix A ∈ Kn×n und dessen Inverse A−1 ∈ Kn×n lässt sich als ein
Produkt von Elementarmatrizen schreiben.
Beweis. Man überführe die Matrix mittels Elementarmatrizen E1 , . . . , Es auf reduzierte
Zeilenstufenform, die die Form


1 0 0 ... 0
0 1 0 . . . 0




Es · . . . · E1 · A = 0 0 1 . . . 0

 ..
.. ..
.
. 0
.
0
... 0 1
haben muss, denn für invertierbare Matrizen gilt stets Rang(A) = n und es bleiben nur
Pivotzeilen- und Spalten. Aus dieser Darstellung Es · . . . · E1 · A = 1n findet man direkt
A−1 = Es · . . . · E1 ,
−1
A = E−1
1 · . . . · Es .
Formt man also eine invertierbare Matrix mittels elementaren Zeilenumformungen zur
Einheitsmatrix um, so kann man gleichzeitig dieselben Umformungen an einer Einheitsmatrix vornehmen, denn so kann man mittels
1n
E 1 · 1n
..
.
E s · . . . · E 1 · 1n
A
E1 · A
..
.
E s · . . . · E 1 · A = 1n
die inverse Matrix A−1 = Es · . . . · E1 · 1n direkt ablesen.
159
8 Lineare Abbildungen
Beispiel 8.45
Durch die simultanen Umformungen
12
x
EIII
21 (−3) ·
x
1
EII
2 (− 2 ) ·
x
EIII
12 (−2) ·
A
1
0
0
1
1
−3
1
0
1
3
2
0
− 12
3
2
1
− 12
−2
= A−1
1
3
2
4
1 2
0 −2
1
0
2
1
1
0
0
1
= 12
findet man als inverse Matrix
II
III
1
A−1 = EIII
12 (−2) · E2 (− 2 ) · E21 (−3),
sowie für die Darstellung von A selbst
−1
III
II
1
)
·
E
(−3)
A = EIII
(−2)
·
E
(−
21
12
2
2
−1
−1
III
II
1 −1
= E21 (−3)
· E2 (− 2 )
· EIII
12 (−2)
II
III
= EIII
21 (3) · E2 (−2) · E12 (2)
1 0
1 0
1
=
·
·
3 1
0 −2
0
2
1
=
=
1
0
1
3
2
4
und es gilt
A
160
−1
·A=
−2
3
2
1
− 21
1
·
3
2
4
0
1
.
8.4 Lineare Abbildungen
8.4 Lineare Abbildungen
Nach diesen praktischen Betrachtungen über die Lösung von Gleichungssystemen, lässt
sich das Vorgehen vom abstrakteren Standpunkt betrachten. Die Eigenschaften der
Matrix-Vektor-Multiplikation motivieren das Studium der folgenden Begrifflichkeit.
Definition 8.46 (Lineare Abbildung)
Seien V und W zwei K-Vektorräume. Eine Abbildung f : V → W heißt lineare Abbildung, wenn gilt:
(L1) die Abbildung ist additiv bzgl. der Vektoraddition, d.h.
für alle v, w ∈ V,
f (v + w) = f (v) + f (w)
(L2) die Abbildung ist homogen bzgl. der Skalarmultiplikation, d.h.
f (λ · v) = λ · f (v)
für alle v ∈ V, λ ∈ K,
oder zusammengefasst
für alle v, w ∈ V, λ, µ ∈ K.
f (λ · v + µ · w) = λ · f (v) + µ · f (w)
Statt linearer Abbildung ist auch der präzisere Begriff K-lineare Abbildung gebräuchlich.
Zudem hat es sich eingebürgert die folgenden griechischen Begriffe zu verwenden, falls
die lineare Abbildung zusätzliche Eigenschaften erfüllt. Dabei greift die Wortwahl stets
auf das griechische Wort morphé =
ˆ “Form, Gestalt” zurück.
Definition 8.47 (Vektorraum-Morphismen)
Eine Abbildung f : V → W zwischen zwei K-Vektorräumen V und W heißt
Homomorphismus,
falls f linear ist.
(griech.: homos =
ˆ gleich)
Man nennt einen Homomorphismus f : V → W zudem
Monomorphismus, falls f injektiv ist.
(griech.: monos =
ˆ ein, allein)
Epimorphismus,
falls f surjektiv ist.
(griech.: epi =
ˆ auf)
Isomorphismus,
falls f bijektiv ist.
(griech.: ísos =
ˆ gleich)
Endomorphismus, falls V = W ist.
(griech.: endo =
ˆ innen)
Automorphismus, falls f bijektiv ist und V = W gilt. (griech.: autos =
ˆ selbst)
Beispiele 8.48
(i) Für jede Matrix A ∈ Km×n ist die Abbildung
f : Kn → Km ,
x 7→ A · x,
eine lineare Abbildung. Speziell gilt für den Fall n = m = 1, dass die Abbildung
f : R1 → R1 , x 7→ a · x (oder kurz: f (x) = a · x) eine lineare Abbildung ist.
161
8 Lineare Abbildungen
f (e2 ) =
f (x)
α
x2
− sin(α)
cos(α)
x
e2
f (e1 ) =
α
x1
0
cos(α)
0
(b)
cos(α)
sin(α)
sin(α)
α
(a)
e1
Abbildung 8.1: Drehung (a) eines Vektors im R2 (b) der Einheitsvektoren.
x2
e2
x
f (e1 ) =
sin(2α)
0
x1
cos(2α)
e1
− cos(2α)
f (x)
(a)
cos(2α)
sin(2α)
α
α
0
(b)
sin(2α)
f (e2 ) =
sin(2α)
− cos(2α)
Abbildung 8.2: Spiegelung (a) eines Vektors im R2 (b) der Einheitsvektoren.
(ii) Die Abbildung f : R2 → R2 , die jeden Vektor x ∈ R2 durch eine Drehung mit dem
Winkel α um den Ursprung abbildet, ist gegeben durch
x1
cos(α) − sin(α)
x1
cos(α) · x1 − sin(α) · x2
7→
=
x2
sin(α)
cos(α)
x2
sin(α) · x1 + cos(α) · x2
wie man anhand der Bilder der Einheitsvektoren sieht.
(iii) Die Abbildung f : R2 → R2 , die jeden Vektor x ∈ R2 durch Spieglung an einer
Ursprungsgerade mit Winkel α zwischen Abszisse und Gerade abbildet, ist gegeben
durch
x1
cos(2α)
sin(2α)
x1
cos(2α) · x1 + sin(2α) · x2
7→
=
x2
sin(2α) − cos(2α)
x2
sin(2α) · x1 − cos(2α) · x2
wie man anhand der Bilder der Einheitsvektoren sieht.
(iv) Die Abbildung
P : R3 → R2 ,
162
 
x1
 x2  → x1 ,
x2
x3
8.4 Lineare Abbildungen
die jeden Punkt des drei-dimensionalen Raums auf die Ebene projiziert, ist eine
lineare Abbildung, denn es gilt für x, y ∈ R3 und λ, µ ∈ R
λ · x 1 + µ · y1
x1
y
P (λ · x + µ · y) =
=λ·
+ µ · 1 = λ · P (x) + µ · P (y).
λ · x 2 + µ · y2
x2
y2
(v) Sei C ∞ (R; R) der Vektorraum aller beliebig oft stetig differenzierbaren Funktionen
R 7→ R. Die Summe und das Produkt von differenzierbaren Funktionen ist ebenfalls
differenzierbar, die konstante Funktion p(x) = λ ∈ R ist differenzierbar und für
beliebige Funktionen g, h ∈ C ∞ (R; R) gilt
(f + g)0 (x) = f 0 (x) + g 0 (x),
(λ · f )0 (x) = λ · f 0 (x).
Daher ist die Differentiation aufgefasst als Abbildung
D : C ∞ (R; R) → C ∞ (R; R),
f 7→ f 0
eine linear Abbildung.
(vi) Sei C([a, b]; R) der Raum aller stetigen Funktionen auf einem Interval [a, b] ⊂ R.
Aus den Eigenschaften des Integrals (Additivität, Linearität) für f, g ∈ C([a, b]; R)
Z
b
f (x) + g(x) dx =
a
Z
b
f (x) dx +
a
Z
b
g(x) dx,
Z
b
a
a
λ · f (x) dx = λ ·
Z
b
f (x) dx
a
sieht man, dass die Abbildung
I : C([a, b]; R) → R,
f 7→
Z
b
f (x) dx
a
eine lineare Abbildung ist.
Als direkte Folgerung aus der Definition der linearen Abbildungen lassen sich folgende
Eigenschaften ableiten:
Satz 8.49 (Eigenschaften linearer Abbildungen)
Seien V, W Vektorräume, f : V → W eine lineare Abbildung, so gilt:
(i) f (0) = 0
(ii) f (v − w) = f (v) − f (w).
(iii) f (λ1 v1 + ... + λn vn ) = λ1 f (v1 ) + ... + λn f (vn ).
(iv) Ist eine Familie (vi )i∈I in V linear abhängig, so ist auch (f (vi ))i∈I linear abhängig.
(v) Ist U ⊂ V ein Untervektorraum, so ist f (U ) ⊂ W Untervektorraum.
(vi) Ist f ein Isomorphismus, so ist auch f −1 : W → V ein Isomorphismus.
163
8 Lineare Abbildungen
Beweis.
(i) f (0) = f (0 · 0) = 0 · f (0) = 0.
(ii) f (v − w) = f (v + (−1) · w) = f (v) + (−1)f (w) = f (v) − f (w).
(iii) Mehrfache Anwendung der Eigenschaft der Linearität.
(iv) Gibt es eine endliche, linear abhängige Teilfamilie (vi1 , . . . , vin ), so gibt λ1 , ...λn ∈ K
mit mindestens einem λi 6= 0, so dass
λ1 vi1 + ... + λn vin = 0.
Nach (ii) gilt dann aber auch
λ1 f (vi1 ) + ... + λn f (vin ) = 0.
(v) Untervektorraumeigenschaften des Raums f (U ) nachprüfen. Dazu betrachte man
Vektoren u, u0 ∈ f (U ) und nutze die Eigenschaften der linearen Abbildung f .
(vi) Umkehrungen von bijektiven Abbildungen sind wieder bijektiv. Es verbleibt die
Linearität zu zeigen. Es sei v, v0 ∈ V , w := f (v), w0 := f (v0 ). Mit
f (λv + µv0 ) = λw + µw0
und v = f −1 (w) sowie v0 = f −1 (w0 ) folgt nach Anwendung von f −1 schließlich
λf −1 (w) + µf −1 (w0 ) = f −1 (λw + µw0 ).
Bei der Matrix-Matrix-Multiplikation war das Resultat wieder als eine Matrix definiert
worden. Ganz allgemein gilt, dass die Hintereinanderausführung mehrerer linearer Abbildungen wiederum eine lineare Abbildung ist.
Satz 8.50 (Die Verkettung linearer Abbildungen ist linear)
Seien f : V → W und g : W → U lineare Abbildungen auf Vektorräumen V, W und U ,
so ist die Verkettung
f ◦ g : V → U,
v 7→ f (g(v)),
eine lineare Abbildung zwischen den Vektorräumen V und U .
Beweis. Es gilt:
(f ◦ g)(λv + µw) = f (g(λv + µw)) = f (λg(v) + µg(w))
= λf (g(v)) + µf (g(w)) = λ(f ◦ g)(v) + µ(f ◦ g)(w)
164
8.4 Lineare Abbildungen
Zunächst stellt sich die Frage, ob und wie viele lineare Abbildungen existieren.
Satz 8.51 (Existenz und Eindeutigkeit linearer Abbildungen)
Seien V, W Vektorräume und (v1 , . . . , vn ) eine Basis von V . Dann gibt es zu jeder Familie
an Vektoren (w1 , . . . , wn ) aus W genau eine lineare Abbildung f : V → W mit der
Eigenschaft
f (vi ) = wi
für alle 1 ≤ i ≤ n.
Beweis. Die Existenz zeigt sich durch explizite Konstruktion. Jedes v ∈ V lässt sich
eindeutig durch geeignete Koeffizienten als Linearkombination v = λ1 v1 + . . . + λn vn
darstellen. Das Bild dieses Vektors sei nun definiert als f (v) := λ1 w1 + . . . + λn wn . Diese
Abbildung f : V → W ist linear und erfüllt f (vi ) = wi für alle 1 ≤ i ≤ n.
Zum Beweis der Eindeutig sei angenommen, dass zwei Abbildungen f und f 0 die Anforderungen erfüllen. Dann folgt aber für beliebiges v = λ1 v1 + . . . + λn vn auch
f (v) = f (λ1 v1 + . . . + λn vn ) = λ1 f (v1 ) + . . . + λn f (vn )
= λ1 w1 + . . . + λn wn = λ1 f 0 (v1 ) + . . . + λn f 0 (vn ) = f 0 (λ1 v1 + . . . + λn vn ) = f 0 (v).
Daran sieht man: Eine lineare Abbildung zwischen zwei Vektorräumen ist bereits durch
die Bilder von Basisvektoren eindeutig festgelegt. Man besitzt also nicht die Freiheit
die Abbildung für jeden Vektor des Vektorraums einzeln festzulegen. Vielmehr legt die
Vorgabe von f (vi ) = wi für ein i = 1, . . . , n schon die Werte auf der ganzen “Ursprungsgeraden” λvi fest, denn auf Grund der Linearität muss gelten f (λvi ) = λf (vi ) = λwi .
Setzt man nun einen weiteren Wert f (vj ) = wj für j 6= i fest, so ist der gesamte Untervektorraum span(vi , vj ) festgelegt, denn es gilt f (λi vi + λj vj ) = λi f (vi ) + λj f (vj ) =
λi wi + λj wj .
Aus den Beispielen ist bekannt, dass Matrizen A ∈ Km×n lineare Abbildungen zwischen
den Vektorräumen Kn und Km beschreiben, A : Kn → Km , v 7→ Av. Der Satz über
die Existenz und Eindeutigkeit von linearen Abbildungen zeigt jedoch, dass auch die
Umkehrung gilt.
Satz 8.52 (Äquivalenz Matrizen und lineare Abbildungen)
Zu jeder linearen Abbildung f : Kn → Km gibt es genau eine Matrix A ∈ Km×n mit der
Eigenschaft f (v) = Av für alle v ∈ Kn .
Beweis. Man wähle als Spalten der Matrix (f (e1 ), . . . , f (en )) die Bilder der Einheitsvektoren. Dann gilt Aei = f (ei ) und diese Abbildung ist eindeutig. Für das Bild eines
allgemeinen Vektors v = v1 e1 + . . . + vn en findet man zudem
f (v) = f (v1 e1 + . . . + vn en ) = v1 f (e1 ) + . . . + vn (en )
= v1 Ae1 + . . . + vn Aen = A(v1 e1 + . . . + vn en ) = Av.
165
8 Lineare Abbildungen
Somit lassen sich die lineare Abbildungen zwischen den Vektorräumen Kn und Km und
die Matrizen A ∈ Km×n direkt miteinander identifizieren.
Analog zu den Betrachtungen über Matrizen sind beim Umgang mit linearen Abbildungen die Begriffe Bild und Kern besonders hilfreich.
Definition 8.53 (Bild und Kern einer linearen Abbildung)
Für eine lineare Abbildung f : V → W bezeichnet
Im(f )
:= f (V )
= {f (v) | v ∈ V } ⊂ W
Kern(f ) := f −1 (0) = {v ∈ V | f (v) = 0} ⊂ V
das Bild von f,
den Kern von f.
und Rang(f ) := dim Im(f ) die Dimension des Bildes von f .
Kern und Bild einer Abbildung besitzen charakteristische Eigenschaften.
Satz 8.54
Für eine lineare Abbildungen f : V → W zwischen zwei Vektorräumen V, W gilt
(i) Im(f ) ⊂ W und Kern(f ) ⊂ V sind Untervektorräume,
(ii) f surjektiv ⇔ Im(f ) = W ,
(iii) f injektiv ⇔ Kern(f ) = {0}.
Beweis. Die Unterrraumeigenschaften prüft man direkt nach und (ii) ist die Definition
von Surjektivität. Die Aussage (iii) folgt direkt aus der Linearität von f , denn es gilt
f (v) = f (w) ⇔ f (v − w) = 0.
Ist der Urbildraum zu einer linearen Abbildung endlichdimensional, dann besitzen Kern
und Bild dieser Abbildung eine äußerst bemerkenswerte Eigenschaft: Es lässt sich daraus
eine Basis des Urbildraums ermitteln. Bereits bei der Untersuchung für Matrizen war
aufgefallen, dass für eine Matrix vom Rang r der Kern die Dimension k := n − r besitzt,
d.h. es gilt n = k + r. Dies gilt ganz allgemein für lineare Abbildungen.
Satz 8.55 (Dimensionsformel)
Seien V, W Vektorräume, V endlichdimensional (n := dim V < ∞) und f : V → W eine
lineare Abbildung. Seien
(v1 , . . . , vk )
(w1 , . . . , wr )
eine Basis von Kern(f ),
eine Basis von Im(f ),
und beliebige Vektoren aus dem Urbild
(vk+1 , . . . , vk+r )
166
mit
f (vk+1 ) = w1 , . . . , f (vk+r ) = wr ,
8.4 Lineare Abbildungen
gewählt. Dann ist
B = (v1 , . . . , vk , vk+1 , . . . , vk+r )
eine Basis von V , somit n = k + r und es gilt die Dimensionsformel
dim V = dim Kern(f ) + dim Im(f ).
Beweis. Es muss gezeigt werden, dass B ein Erzeugendensystem von V ist und die
Vektoren linear unabhängig sind.
Sei ein v ∈ V vorgegeben und das Bild davon durch die Basis (w1 , . . . , wr ) dargestellt,
f (v) = λ1 w1 + . . . + λr wr .
Nun stellt man fest, dass man wegen
f (v − λ1 vk+1 − . . . − λr vk+r ) = f (v) − λ1 f (vk+1 ) − . . . − λr f (vk+r )
= f (v) − λ1 w1 − . . . − λr wr = 0
einen Vektor im Kern von f finden kann und dieser kann durch die Basis von Kern(f )
dargestellt werden,
v − λ1 vk+1 − . . . − λr vk+r = µ1 v1 + . . . + µk vk .
Somit findet man die Darstellung
v = µ1 v1 + . . . + µk vk + λ1 vk+1 + . . . + λr vk+r
und da v ∈ V beliebig war, kann jeder Vektor durch B erzeugt werden.
Die lineare Unabhängigkeit sieht man folgendermaßen: Sei
0 = λ1 v1 + . . . + λk vk + λk+1 vk+1 + . . . + λk+r vk+r .
Durch Anwendung der linearen Abbildung und unter Beachtung von f (v1 ) = . . . =
f (vk ) = 0 folgt daraus zunächst
0 = f (0) = λ1 f (v1 ) + . . . + λk f (vk ) + λk+1 f (vk+1 ) + . . . + λk+r f (vk+r )
= λk+1 f (vk+1 ) + . . . + λk+r f (vk+r )
= λk+1 w1 + . . . + λk+r wr
und da die (w1 , . . . , wr ) linear unabhängig sind, folgt λk+1 = . . . = λk+r = 0. Es verbleibt
0 = λ1 v1 + . . . + λk vk
und da die (v1 , . . . , vk ) linear unabhängig sind, folgt ebenfalls λ1 = . . . = λk = 0.
167
8 Lineare Abbildungen
Aus dieser Formel lässt sich direkt eine ganz wesentliche, wiederum äußerst bemerkenswerte Eigenschaft von linearen Abbildungen zwischen Vektorräumen mit gleicher
endlicher Dimension ablesen. Im Speziellen trifft dies auf Abbildungen f : Rn → Rn zu.
Satz 8.56
Ist f : V → W linear und dim V = dim W < ∞. Dann gilt
f injektiv ⇔ f surjektiv ⇔ f bijektiv.
Beweis. Ist f injektiv, so gilt dim Kern(f ) = 0. Nach der Dimensionsformel ist dann
dim Im(f ) = dim V = dim W , also f surjektiv. Ist umgekehrt f surjektiv, dann gilt
dim Im(f ) = dim W und nach der Dimensionsformel somit dim Kern(f ) = 0, also f
injektiv.
Zudem liefert dies die Möglichkeit die endlichdimensionalen Vektorräume zu klassifizieren. Dazu benötigt man zunächst eine Vorschrift, wie Vektorräume verglichen werden
können. Zum Vergleich von endlichen Mengen verwendet man bijektive Abbildungen.
Dies bietet sich auch für Vektorräume an, wobei man jedoch fordert, dass lineare Eigenschaften unter der Abbildung erhalten bleiben sollen, d.h. die vermittelnde Abbildung
soll bijektiv und zudem linear sein.
Definition 8.57 (Isomophie)
Zwei Vektorräume V, W heißen isomorph, wenn es eine Isomorphismus Φ : V → W gibt.
Dies bezeichnet man mit V ∼
= W.
Gibt es einen Isomorphismus Φ : V → W , dann ist bereits bekannt, dass dann auch
Φ−1 : W → V ein Isomorphismus ist und daher gilt V ∼
= W genau dann wenn W ∼
=V
gilt. Zudem ist die Verkettung von Isomorphismen wieder ein Isomorphismus. Sind also
U ∼
= V und V ∼
= W , dann gilt auch U ∼
= W . Durch die Wahl der Identität ist zudem
jeder Vektorraum isomorph zu sich selbst, V ∼
= V , und somit ist die Isomorphie eine
Äquivalenzrelation auf der Menge der Vektorräume.
Es stellt sich also die Frage, ob man zu zwei Vektorräumen V, W einen Isomorphismus,
d.h. eine lineare, bijektive Abbildung, finden kann. Gemäß des Satzes über die Existenz
von linearen Abbildungen lässt sich für eine Basis (v1 , . . . , vn ) zu gegebenen (w1 , . . . , wn )
genau eine lineare Abbildung Φ: V → W konstruieren, die Φ(vi ) = wi , 1 ≤ i ≤ n, erfüllt.
Haben nun beide Vektorräume dieselbe Dimension, so kann man für die (w1 , . . . , wn )
sogar eine Basis wählen. Damit existiert eine lineare Abbildung f : V → W und diese
ist sogar bijektiv, denn dann gilt Im f = f (V ) = W und die Dimensionsformel liefert die
Behauptung. Dass sogar die Umkehrung gilt, folgt ebenfalls mit der Dimensionsformel.
Satz 8.58
Zwei endlichdimensionale Vektorräume V, W sind genau dann isomorph, wenn sie dieselbe Dimension haben, d.h.
V ∼
=W
168
⇔
dim V = dim W.
8.4 Lineare Abbildungen
Beweis. Gibt es einen Isomorphismus f : V → W , so gilt dim Kern(f ) = 0 und
dim Im(f ) = dim W . Aus der Dimensionsformel folgt dim V = dim Kern(f ) + dim Im(f )
= 0 + dim W = dim W .
Damit ist eine bedeutende Klassifizierung der endlichdimensionalen Vektorräume gefunden: Zu jedem n ∈ N gibt es bis auf Isomorphie nur einen n-dimensionalen K-Vektorraum
und man kann Kn als den Repräsentaten wählen.
Bemerkung 8.59 (Bedeutung der Isomorphie)
Sind zwei Vektorräume isomorph, so sind sie von “gleicher Struktur” - das sagt die Übersetzung des Griechischen ins Deutsche. Dies ist wie folgt zu verstehen: Die Elemente der
beiden Vektorräume können zwar verschieden benannt sein, jedoch sind alle linearen Beziehungen zwischen den Elementen dieselben. Ein Isomorphismus Φ : V → W garantiert
dabei zwei Dinge:
(i) Da die Abbildung Φ bijektiv ist, stellt sie eine eins-zu-eins Beziehung auf: Es wird
jedem Element des einen Vektorraums genau ein Element des anderen zugeordnet.
e∈W
Man kann folglich zwischen einem Element v ∈ V und seinem Gegenstück v
e = Φ(v) und v = Φ−1 (e
beliebig hin und her wechseln durch v
v).
(ii) Da die Abbildung Φ linear ist, lässt sich zu jeder linearen Abbildung f : V → V
e nach V
eine lineare Abbildung fe : W → W konstruieren: Man bildet zunächst v
ab, wendet dort f an und bildet dann zurück nach W ab,
fe := Φ ◦ f ◦ Φ−1 ,
e 7→ fe(e
v
v) := Φ(f (Φ−1 (e
v))).
Sucht man folglich Lösungen von f (v) = 0 in V , so kann man stattdessen auch Lösungen
e suchen. Denn hat man eine Lösung v
e gefunden, so ist v = Φ−1 (e
von fe(e
v) = 0
v) auch
eine Lösung der Gleichung in V , denn
e = Φ(0)
Φ(f (v)) = Φ(f (Φ−1 (e
v))) = fe(e
v) = 0
⇒
f (v) = 0.
Gilt also eine lineare Beziehung in W , so gilt sie auch (mit anders bezeichneten, aber
eindeutig miteinander identifierbaren Elementen) in V : Sind also Vektoren in V linear
unabhängig, so sind auch die isomorphen Bilder in W linear unabhängig; isomorphe
Bilder von Untervektorräumen haben diesselbe Dimension; eine lineare Gleichung hat
einen Lösung in V genau dann, wenn sie auch eine Lösung in W besitzt. In diesem Sinne
muss man zwischen den beiden Vektorräumen nicht unterscheiden, solange man sich für
lineare Beziehungen von einem der Vektorräume interessiert. Der Sachverhalt wird - bis
auf die Benennung der Elemente - derselbe sein.
Beispiel 8.60
Sei V = R3 und W = R[x]≤2 der Vektorraum der Polynome vom Grad kleiner gleich
zwei. Dann lässt sich eine Bijektion angeben durch
 
a1
3

a2  7→ a1 + a2 · x + a3 · x2
Φ : R → R[x]≤2 ,
a3
169
8 Lineare Abbildungen
mit der Umkehrung
Φ−1 : R[x]≤2 → R3 ,
 
a1
2

a1 + a2 · x + a3 · x 7→ a2  ,
a3
d.h. jedem Vektor im R3 entspricht eineindeutig ein Polynom vom Grad zwei. Die Struktur der beiden Räume ist bezüglich der Vektoraddition und Skalarmultiplikation daher
gleich und bis auf die “Bezeichnung” der Vektoren (speziell der Basisvektoren) führt eine
Rechnung zum selben Ergebnis. Identifiziert man nämlich
 
 
   
1
0
0
a1
Φ
2







a1 + a2 · x + a3 · x
←→ a1 0 + a2 1 + a3 0 = a2  ,
0
0
1
a3
 
 
   
1
0
0
b1
Φ
2







b1 + b2 · x + b3 · x
←→ b1 0 + b2 1 + b3 0 = b2  ,
0
0
1
b3
so erhält man
a1
+a2 · x
+a3 · x2
+b1
+b2 · x
+b3 · x2
(a1 + b1 ) +(a2 + b2 ) · x +(a3 + b3 ) · x2
Φ
←→
und die Ergebnisse sind bis auf Isomorphie gleich
(a1 + b1 ) + (a2 + b2 ) · x + (a3 + b3 ) · x2
170

    
a1 + b 1
a1
b1
 a2  +  b 2  =  a2 + b 2 
a3 + b 3
a3
b3
Φ
←→


a1 + b 1
 a2 + b 2  .
a3 + b 3
8.5 Basiswahl und Koordinatentransformation
8.5 Basiswahl und Koordinatentransformation
Es hat sich gezeigt, dass jeder linearen Abbildung Kn → Km genau eine Matrix A ∈
Km×n entspricht und dass dabei die Spalten der Matrix den Bildern der kanonischen
Einheitsvektoren entsprechen. Dies lässt fragen, ob auch jede Abbildung f : V → W
zwischen zwei beliebigen K-Vektorräumen V, W durch eine Matrix A ∈ Km×n darstellbar
ist, wenn diese endliche Dimensionen n = dim V, m = dim W besitzen. Zudem muss
man sich selbst im Falle des Kn nicht auf die kanonischen Basisvektoren beschränken
wollen und kann sich fragen, ob man eine Matrix auch verwenden kann, um Abbildungen
bezüglich einer anderen Wahl der Basis darzustellen.
Satz 8.61 (Äquivalenz Matrizen und lineare Abbildungen)
Seien zu den K-Vektorräumen V, W die Basen BV = (v1 , . . . , vn ) und BW = (w1 , . . . , wm )
gewählt. Dann gibt es zu jeder linearen Abbildung f : V → W genau eine Matrix
A ∈ Km×n mit
f (vj ) =
m
X
i=1
aij wi
für alle 1 ≤ j ≤ n.
Die dabei verwendete Matrix A =: MBW ,BV (f ) nennt man die Matrixdarstellung der
linearen Abbildung f bezüglich der Basen BV und BW .
Beweis. Der Satz über die Existenz und Eindeutigkeit hat gezeigt, dass genau eine
Abbildung mit der Eigenschaft f (vj ) = wj0 , 1P≤ j ≤ m, existiert. Diese Bilder lassen
sich in der Basis BW entwickeln durch wj0 = m
i=1 aij wi , 1 ≤ j ≤ m, und die Wahl der
Koeffizienten ist eindeutig, da es sich um eine Basis handelt.
Dies zeigt: Wählt man eine feste Basis der Vektorräume, dann entspricht jeder linearen
Abbildung eine Matrix. Dadurch kann man sich bei der Betrachtung von linearen Abbildungen zwischen endlichdimensionalen Vektorräumen durch eine Basiswahl auf Matrizen
zurückziehen.
Beispiel 8.62
Sei
V = R[x]≤n = {p | p(x) = a0 + a1 x + a2 x2 + . . . + an xn mit ai ∈ R für 0 ≤ i ≤ n}
der Raum der Polynome vom Grad kleiner gleich n. Dann ist eine Basis von V gegeben
durch BV = (1, x, x2 , . . . , xn ) = (xi )i=0,...,n . Für die Bilder der Basis unter der Differentiation findet man D(xj ) = j · xj−1 und daher lässt sich die Differentiation als lineare
Abbildung
D : R[x]≤n → R[x]≤n−1 ,
p 7→ p0
171
8 Lineare Abbildungen
auffassen. Wählt man daher den Bildraum als W = R[x]≤n−1 und verwendet die Basis
BW = (1, x, x2 , . . . , xn−1 ) = (xi )i=0,...,n−1 , so findet man die Darstellungen
D(1)
D(x)
D(x2 )
D(x3 )
=
=
=
=
..
.
0
1
2x
3x2
=
=
=
=
..
.
0·1
1·1
0·1
0·1
+
+
+
+
0·x
0·x
2·x
0·x
+
+
+
+
0 · x2
0 · x2
0 · x2
3 · x2
+
+
+
+
0 · x3
0 · x3
0 · x3
0 · x3
+
+
+
+
...
...
...
...
+
+
+
+
..
.
0 · xn−1
0 · xn−1
0 · xn−1
0 · xn−1
D(xn ) = nxn−1 = 0 · 1 + 0 · x + 3 · x2 + 0 · x3 + . . . + n · xn−1
Die Darstellungsmatrix ergibt sich also zu

0 1 0 ...
...
0 0 2 0 . . . . . .
.
...
.
3 0
...
.
MBW ,BV (D) =  .
.
.
 ..
.. ..
0

0 . . .
... 0 n − 1
0 ...
...
0

0
0
.. 

.
∈ Rn×(n+1)
.. 

.
0
n
Bemerkung 8.63
Sind die Vektorräume V = Kn und W = Km und wählt man die kanonische Basis
ei = (0, . . . , 0, 1, 0, . . . , 0)T , so erhält man
!
!
m
n
n
n
n
m
X
X
X
X
X
X
aij xj ei = Ax
f (x) = f (
xj ej ) =
xj f (ej ) =
xj
aij ei =
j=1
j=1
j=1
i=1
i=1
j=1
die Darstellung f (x) = Ax.
Da es beliebig viele verschiedene Basen gibt, stellt sich nun natürlich die Frage, ob
man zu einer linearen Abbildung f : V → W die Basen von V und W so wählen
kann, dass die Darstellungsmatrix besonders einfach wird. Dies ist implizit bereits durch
den Satz der Dimensionsformel beantwortet: Für jede lineare Abbildung zwischen zwei
endlichdimensionalen Vektorräumen lässt sich eine Basis vom Kern zu einer Basis des
Urbildraums ergänzen, so dass die Bilder der zusätzlichen Basisvektoren eine Basis vom
Bild sind - und diese lässt sich zu einer Basis von W ergänzen. In diesen Basen ist dann
die Darstellung besonders einfach.
Satz 8.64 (Diagonaldarstellung von linearen Abbildungen)
Für jede lineare Abbildung f : V → W zwischen zwei K-Vektorräumen V, W kann man
eine Basis BV = (v1 , . . . , vn ) von V und eine Basis BW = (w1 , . . . , wm ) von W so wählen,
dass die Darstellungsmatrix
1r 0
MBW ,BV =
∈ Km×n
0 0
Diagonalgestalt hat.
172
8.5 Basiswahl und Koordinatentransformation
Beweis. Sei (vr+1 , . . . , vn ) eine Basis von Kern(f ). Dann lässt sich diese gemäß des
Dimensionssatzes zu einer Basis BV = (v1 , . . . , vr , vr+1 , . . . , vn ) von V ergänzen und die
zusätzlichen Vektoren können so gewählt werden, dass f (v1 ) = w1 , . . . , f (vr ) = wr gilt
und die (w1 , . . . , wr ) eine Basis von Im(f ) sind. Nun ergänzt man einfach diese zu einer
Basis BW = (w1 , . . . , wr , wr+1 , . . . , wm ) von W . Für die so gewählten Basen gilt dann
aber stets die Darstellung
f (vj ) = wj =
f (vj ) = 0 =
m
X
i=1
m
X
i=1
δji · wi ,
0 · wi ,
j = 1, . . . , r,
j = r + 1, . . . , n,
d.h. die Matrix hat die gesuchte Gestalt.
Beispiel 8.65
Sei erneut V = R[x]≤n gewählt und als lineare Abbildung die Ableitung
D : R[x]≤n → R[x]≤n−1 ,
p 7→ p0
betrachtet. Man sieht schnell, dass nur die konstanten Polynome auf das Nullpolynom abgebildet wird, d.h es gilt Kern(f ) = {p ∈ R[x]≤n | p(x) = c mit c ∈ R} =
span(1) und der Kern wird von nur einem Vektor aufgespannt. Diese Basis vom Kern
wird nun durch die Vektoren x, x2 , . . . , xn zu einer Basis des gesamten Raums BV =
(x, x2 , . . . , xn , 1) ergänzt. Die Bilder der zusätzlichen Vektoren ergeben sich zu D(x) =
1, D(x2 ) = 2x, . . . , D(xn ) = nxn−1 und somit wird die Basis vom Bild gewählt als
(1, 2x, 3x2 , . . . , nxn−1 ). Dies spannt aber auch gleich den gesamten Raum R[x]≤n−1 auf.
Somit hat man die gesuchten Basen gefunden und für die Wahl
BV = (x, x2 , . . . , xn , 1),
BW = (1, 2x, 3x2 , . . . , nxn−1 )
gilt die Darstellungsmatrix

1 0 0 ...
... 0
0 1 0 0 . . . . . . 0
.
.
..
.
. 0 0 . . . .. 
.

MBW ,BV (D) =  .
 ∈ Rn×(n+1) .
.
.
.
 ..
. . . . 0 .. 


0 . . .
. . . 1 0 0
0 ...
... 1 0

Gerne möchte man dieses Vorgehen systematisieren. Dazu stellt man zunächst fest, dass
man zu jedem n-dimensionalen K-Vektorraum einen kanonischen Isomorphismus zum
Kn konstruieren kann.
173
8 Lineare Abbildungen
Definition 8.66 (Kanonischer Basisisomorphismus)
Sei V ein K-Vektorraum und B = (v1 , . . . , vn ) eine Basis von V . Dann bezeichnet die
Abbildung
ΦB : Kn → V,
x = (x1 , . . . , xn )T 7→ x1 v1 + . . . + xn vn
den kanonischen Basisisomorphismus oder das Koordinatensystem bezüglich der Basis
B und die Koeffizienten x1 , . . . , xn ∈ K in dieser Summe
 
x1
 .. 
x =  .  = Φ−1
B (v)
xn B
werden als Koordinaten von v ∈ V bzgl. der Basis B bezeichnet.
Ist aus dem Kontext ersichtlich, um welche Basis es sich handelt, so wird der Subskript
bei der Angabe der Koordinaten weggelassen. Speziell wird bei der üblichen Wahl der
kanonischen Basisvektoren des Kn die Basis nicht explizit notiert.
Bemerkung 8.67
Gemäß des Satzes über die Existenz und Eindeutigkeit linearer Abbildungen gibt es zu
jeder Basis B = (v1 , . . . , vn ) eines Vektorraums V genau eine lineare Abbildung mit
ΦB (ej ) = vj , die sogar bijektiv ist, da das Bild von einer Basis des Raums aufgespannt
wird. Somit existiert zu jeder Basis eines endlichdimensionalen Vektorraums genau ein
kanonische Basisisomorphismus.
Somit lässt sich jedes Element in einem Vektorraum durch verschiedene Koordinaten
darstellen und da alle Koordinatensysteme Isomorphismen sind, lässt sich damit auch
eine Koordinatentransformation zwischen je zwei solcher Koordinatensystemen konstruieren.
Beispiel 8.68 (i) Sei V = R[x]≤2 und die Basis E = (1, x, x2 ) gewählt. Dann ergeben
sich die Koordinaten eines Polynoms p(x) = a0 + a1 x + a2 x2 durch die Zuordnung
ΦE : R3 → R[x]≤2 ,
zu
x = (x0 , x1 , x2 )TE 7→ x0 · 1 + x1 · x + x2 · x2
 
a0
−1

ΦE (p) = a1 
a2 E
(ii) Sei V = R[x]≤2 und die Basis B = (4, x − 1, x2 ) gewählt. Ein allgemeines Polynoms
lässt sich auch schreiben als
a0 a1
p(x) = a0 + a1 x + a2 x2 = ( + ) · 4 + a1 · (x − 1) + a2 · x2
4
4
174
8.5 Basiswahl und Koordinatentransformation
und man findet die Koordinaten
ΦB : R3 → R[x]≤2 ,
x = (x0 , x1 , x2 )TB 7→ x0 · 4 + x1 · (x − 1) + x2 · x2
zu
 a0

Φ−1
B (p) =
4

+ a41
a1 
a2
B
(iii) Sei V = R2 und
= (e
1 , e2 ) die kanonische Basis. Zu der alternativen Wahl einer
E
2
0
Basis B = (
,
) ergeben sich die Koordinaten bezüglich der Basis B zu
2 E −1 E
x1 x1
x1
1
0
2
0
2
·
+ (x1 − x2 ) ·
=
= x1 ·
+ x2 ·
=
x2 E
0 E
1 E
2 E
−1 E
x1 − x2 B
2
Hat man nun die Koordinaten bezüglich einer Basis bestimmt, so möchte man diese
Koordinaten auch gerne bezüglich einer anderen Basis ausdrücken können.
Definition 8.69 (Koordinatentransformation)
en ) zwei Basen eines K-Vektorraums V mit
Seien B = (v1 , . . . , vn ) und Be = (e
v1 , . . . , v
den zugehörigen kanonischen Basisisomorphismen ΦB und ΦBe, so dass ein Vektor v ∈ V
mit den jeweiligen Koordinaten
x = (x1 , . . . , xn )TB = Φ−1
B (v)
bzw.
e = (e
x
x1 , . . . , x
en )TBe = Φ−1
(v)
Be
dargestellt wird als
x 1 v1 + . . . + x n vn =
Die lineare Abbildung
v
e1 + . . . + x
en .
=x
e1 v
en v
Kn
n
n
TB,B
e : K 7→ K ,
−1
TB,B
e := ΦBe ◦ ΦB ,
d.h.
TB,B
e
Kn
ΦBe
V
ΦB
e
heißt Koordinatentransformation von der Basis B auf die Basis B.
Da die Koordinatentransformation eine lineare Abbildung ist, lässt sie sich durch eine
Matrix beschreiben.
175
8 Lineare Abbildungen
Satz 8.70 (Transformationsmatrix)
en ) zwei Basen eines Vektorraums V und
Seien B = (v1 , . . . , vn ) und Be = (e
v1 , . . . , v
n×n
TB,B
die Matrixdarstellung der Koordinatentransformation, d.h.
e ∈ K
Dann gilt
e = TB,B
x
e ·x
⇔
e = Φ−1
x
(ΦB (x))
Be
(i) Für die Matrixdarstellung der inversen Transformation x = Φ−1
x)), d.h. x =
B (ΦBe (e
e ergibt sich
TB,Be · x
TB,Be = TB,B
e
−1
.
(ii) Die Koeffizienten der Matrix TB,Be bilden die eindeutige Darstellung der Vektoren
der Basis Be durch die Basis B gemäß
ej = TB,Be v1 + . . . + TB,Be
v
vn , j = 1, . . . , n.
1j
nj
e = TB,B
Beweis. (i) Liest sich direkt aus x
e
e · x ⇔ TB,B
−1
e = x ab.
·x
(ii) Man zieht sich auf die Darstellung der kanonischen Basisvektoren des Kn zurück,
denn gilt die Aussage für diese, so auch für alle Vektoren. Für jedes j = 1, . . . , n findet
man
ej = TB,Be v1 + . . . + TB,Be
vn
ΦBe(ej ) = v
1j
nj
!
T
= ΦB
TB,Be , . . . , TB,Be
= ΦB TB,Be · ej
1j
nj
und somit
TB,Be · ej = Φ−1
(e
)
.
Φ
e
j
B
B
Dies liefert auch eine schnelle Möglichkeit die Transformationsmatrix zu berechnen, sofern man die Abbildung der Basisvektoren kennt: Man ermittelt zunächst die Lineardarstellung der neuen Basis durch die alte und schreibt diese Koeffizienten als Spalten in die
Matrix TB,Be. Daraus ermittelt man die Transformationsmatrix TB,B
durch invertieren.
e
Besonders einfach wird dabei die Ermittlung, wenn der Vektorraum V der Kn selbst ist
und man die kanonischen Einheitsvektoren als Basis B = (e1 , . . . , en ) wählt. Dann gilt
ej = ve1 e1 + . . . + ven en und die Spalten der Matrix TB,Be werden von den
nämlich direkt v
neuen Basisvektoren gebildet.
176
8.5 Basiswahl und Koordinatentransformation
Beispiel 8.71
Sei V = R[x]≤2 und B = (1, x, x2 ) sowie Be = (4, x − 1, x2 ) zwei Basen von V . Man findet
die Darstellung
4 =
4 · 1 + 0 · x + 0 · x2 ,
x − 1 = −1 · 1 + 1 · x + 0 · x2 ,
x2 =
0 · 1 + 0 · x + 1 · x2 ,
und daher


4 −1 0
TB,Be = 0 1 0
0 0 1
mit der Inversen

0
= T−1
=  0 1 0 .
B,Be
0 0 1
1
4
TB,B
e
1
4
Somit ergibt sich die Koordinatentransformation eines Polynoms p(x) = a0 + a1 x + a2 x2
zu
1 1   
 a0 a1 
+ 4
0
a0
4
4
4





e=
a1
a1  = TB,B
= 0 1 0
x
e x
a2
0 0 1
a2 B
Be
Einer linearen Abbildung entspricht nach Basiswahl eine Matrixdarstellung. Diese Darstellung ändert sich natürlich, wenn man eine andere Basis wählt. Dabei gilt der folgende
Zusammenhang.
Satz 8.72 (Koordinatendarstellung bei Matrizen)
Seien V, W zwei K-Vektorräume mit den Basen BV und BW . Dann lässt sich eine lineare Abbildung f : V → W durch eine Matrix MBW ,BV (f ) beschreiben, so dass der
Zusammenhang
f
V
W
ΦBV
Kn
Φ BW
MBW ,BV (f )
Km
gilt und
d.h.
ΦBW ◦ MBW ,BV (f ) = f ◦ ΦBV ,
MBW ,BV (f ) = Φ−1
BW ◦ f ◦ ΦBV .
Beweis. Seien die Basen BV = (v1 , . . . , vn ) und BW = (w1 , . . . , wm ) zu den Vektorräumen V, W gewählt. Dann lässt sich f : V → W eindeutig darstellen als
f (vj ) =
m
X
i=1
aij wi
für alle 1 ≤ j ≤ n
177
8 Lineare Abbildungen
mit der Matrix MBW ,BV (f ) = (aij )m,n
i,j=1 und die Basisvektoren über die Basisisomorphismen vj = ΦBV (ej ) und wj = ΦBW (ej ). Für jedes j = 1, . . . , n gilt nun für die Abbildung
eines kanonischen Basisvektors ej :
f (ΦBV (ej )) = f (vj ) =
m
X
i=1
aij wi = ΦBW ((a1j , . . . , amj )TBW ) = ΦBW (MBW ,BV (f ) · ej ).
Somit stimmt das Bild auf jedem Basisvektor und somit auch auf jedem beliebigen
Vektor überein.
Damit lässt sich nun abschließend die Frage beantworten, wie sich die darstellende Matrix
zu einer linearen Abbildung unter Basiswechsel verhält.
Satz 8.73 (Transformationssatz)
Seien V, W zwei K-Vektorräume mit den Basen BV , BW und den transformierten Basen
BeV , BeW . Dann gilt für die Matrixdarstellung einer linearen Abbildung f : V → W der
Zusammenhang
MBeW ,BeV (f )
Kn
Km
ΦBeW
ΦBeV
TBeV ,BV
K
V
f
ΦBV
n
TBeW ,BW
W
ΦBW
MBW ,BV (f )
Km
und somit für die Matrizen
−1
.
MBeW ,BeV = TBeW ,BW · MBW ,BV · TBeV ,BV
Beweis. Die Teile des Abbildungszusammenhangs wurden bereits in den vorherigen
Sätzen gezeigt. Für die Zusammensetzung gilt daher die Abbildungskette ebenfalls. Die Kernaussage dieser Transformation ist also folgendes: Hat man einen Matrix A
gegeben, die eine lineare Abbildung f : V → W bezüglich zweier gewählten Basen von
V, W darstellt, und wählt nun zwei andere Basen, so stellt sich die lineare Abbildung
bezüglich der neuen Basis als Matrix
e = S · A · T−1
A
dar und die Matrizen S und T beschreiben die Basistransformationen, sind daher Isomorphismen und invertierbar. Diese Eigenschaft bezeichnet man als Äquivalenz von
Matrizen und für eine Endomorphismus lässt sich die Anforderung noch verschärfen.
178
8.5 Basiswahl und Koordinatentransformation
Definition 8.74 (Äquivalente und ähnliche Matrizen)
e ∈ Km×n heißen äquivalent, falls es zwei invertierbare Matrizen S, T
Zwei Matrizen A, A
gibt mit
e = S · A · T−1 .
A
e ∈ Kn×n heißen ähnlich, falls es eine invertierbare Matrix S gibt mit
Zwei Matrizen A, A
e = S · A · S−1 .
A
Durch die Transformation auf Diagonalgestalt mittels Multiplikation von links und rechts
mit Elementarmatrizen ergibt sich sofort die folgende Einteilung.
Satz 8.75 (Äquivalente Matrizen)
Jede Matrix vom Rang r ∈ N ist äquivalent zur Diagonalmatrix
1r 0
0 0
und somit sind zwei Matrizen genau dann äquivalent, wenn sie denselben Rang besitzen.
Beweis. Man findet zu einer Matrix A stets Produkte von Elementarmatrizen (und
diese sind invertierbar), so dass E · A · E0 die gesucht Gestalt besitzt.
Dies liefert auch direkt eine Möglichkeit eine neue Basis zu berechnen, bezüglich derer
eine lineare Abbildung f : V → W eine besonders einfach Gestalt hat:
(1) Man wähle zwei Basen BV = (v1 , . . . , vn ) und BW = (w1 , . . . , wm ) und bestimme
die Matrixdarstellung MBW ,BV (f ) ∈ Km×n bezüglich dieser Basen, indem man jeden
Basisvektor vj , j = 1, . . . , n abbildet und die Koeffizienten der Darstellung durch
die Basis BW
f (vj ) =
m
X
aij wi
i=1
für alle 1 ≤ j ≤ n
als j-te Spalte in die Matrix einträgt.
(2) Durch das Verfahren der Multiplikation mit Elementarmatrizen finde man ein Darstellung
1 0
0
E · MBW ,BV (f ) · E =
=: MBeW ,BeV (f )
0 0
und wähle die Diagonalmatrix als neue Darstellung.
179
8 Lineare Abbildungen
(3) Man interpretiere auf Grund von
−1
TBeW ,BW · MBW ,BV (f ) · TBeV ,BV
= MBeW ,BeV (f )
die Matrizen E, E0 als Basistransformation
−1
E0 = TBeV ,BV
= TBV ,BeV ,
⇒
E = TBeW ,BW ,
−1
E−1 = TBeW ,BW
= TBW ,BeW .
en ) und BeW = (w
e 1, . . . , w
e m ) durch
(4) Man bestimme die neuen Basen BeV = (e
v1 , . . . , v
die Darstellung
ej = TBV ,BeV
v
v1 + . . . + TBV ,BeV
vn , j = 1, . . . , n,
1j
nj
e j = TBW ,BeW
und w
w1 + . . . + TBW ,BeW
wm , j = 1, . . . , m,
1j
mj
d.h. die Koeffizienten der j-ten Spalte linear kombinieren den neuen j-ten Basisvektor.
In den so bestimmten Basen BeV , BeW besitzt die lineare Abbildung f : V → W dann
die gewünschte einfache Darstellung. Man beachte, dass für den Fall V = Kn , W = Km
und die Wahl BV = (e1 , . . . , en ) und BW = (e1 , . . . , em ) die neue Basis direkt aus den
Spalten der Transformationsmatrizen abgelesen werden kann.
Beispiel 8.76
Sei V = R[x]≤2 der Raum der Polynome vom Grad kleiner gleich zwei und W = R4 .
Dann lässt sich die Auswertung eines Polynoms an den Stellen x = 0, 1, 2, 3 als lineare
Abbildung zwischen diesen Räume auffassen gemäß


p(0)
p(1)

f : R[x]≤2 → R4 , p(x) 7→ 
p(2) .
p(3)
(1) Wählt man zunächst die Basen BR[x]≤2 = (1, x, x2 ) und BR4 = (e1 , . . . , e4 ), so findet
man
f (1) = (1, 1, 1, 1)T = 1 e1 + 1 e2 + 1 e3 + 1 e4 ,
f (x) = (0, 1, 2, 3)T = 0 e1 + 1 e2 + 2 e3 + 3 e4 ,
f (x2 ) = (0, 1, 4, 9)T = 0 e1 + 1 e2 + 4 e3 + 9 e4 ,
und somit die Matrixdarstellung

1
1
MBR4 ,BR[x]≤2 (f ) = 
1
1
180
0
1
2
3

0
1
.
4
9
8.5 Basiswahl und Koordinatentransformation
(2) Hieraus berechnet man eine Zerlegung
14
x
x
x
x

0
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
1
−2
−3
0
0
1
0
0
1
−1
−3
0
0
1
2
0
0 0
1 0
1
−1
2
3 −3
..
.
=E
=: TBe 4 ,B
R
R4

0
0 

0 
1

0
0 

0 
1

0
0 

0 
1

0
0 

0 
1

0
0 

0 
1
=: MBe 4 ,BeR[x] (f )
R
≤2
13
..
.

1
 0
0
0
1
0

1
 0
0
= E0
=: T−1
Be

0
0 
1

0 0
1 −1 
0 1
y
1
 0

 0
0

1
−1

−1
−1

1
−1

 1
2

1
−1
 1

2
2

1
−1
 1

2
−1
MBR4 ,BR[x]≤2 (f )


1 0 0
 1 1 1 


 1 2 4 
1 3 9


1 0 0
 0 1 1 


 0 2 4 
0 3 9


1 0 0
 0 1 1 


 0 0 2 
0 0 6


1 0 0
 0 1 1 


 0 0 1 
0 0 6


1 0 0
 0 1 1 


 0 0 1 
0 0 0


1 0 0
 0 1 0 


 0 0 1 
0 0 0
R[x]≤2 ,BR[x]≤2
(3) Man liest nun die gesuchte Transformationsmatrix des Raums R[x]≤2 ab als


1
0
0
−1
1 −1  .
TBR[x] ,BeR[x] = TBeR[x] ,BR[x]
= E0 =  0
≤2
≤2
≤2
≤2
0
0
1
Für die Transformation des R4 muss man die Matrix noch

1 0
−1

1 1
= E−1 = 
TB 4 ,Be 4 = TBe 4 ,B 4
1 2
R
R
R
R
1 3
invertieren und findet

0 0
0 0
.
2 0
6 1
181
8 Lineare Abbildungen
(4) Die neue Basis von R[x]≤2 ergibt sich mittels
e1 = 1 · 1 +
v
0 · x + 0 · x2 =
1,
2
e2 = 0 · 1 +
v
1·x + 0·x =
x,
2
2
e3 = 0 · 1 + −1 · x + 1 · x = x − x,
v
als BeR[x]≤2 = (1, x, x2 − x). Die neue Basis von R4 liest sich direkt ab als
 
 
 
 
1
0
0
0
1
1
0
0

 
 
 
BeR4 = (
1 , 2 , 2 , 0 ).
1 B4
3 B4
6 B4
1 B4
R
R
R
R
Zur Abbildung eines allgemeinen Polynoms stellt man dieses daher durch
p(x) = a0 + a1 x + a2 x2 = a0 · 1 + (a1 + a2 ) · x + a2 · (x2 − x)
zunächst in der Basis BeR[x]≤2 mit den Koordinaten (a0 , a1 + a2 , a2 )BeR[x]
≤2
dar.
Die Anwendung der linearen Abbildung ist nun besonders einfach durch






a0
1 0 0
a
0
 a1 + a2 
0 1 0



 

=
 a2 
0 0 1 · a1 + a2
a2
BeR[x]≤2
0
0 0 0
Be 4
R
und das Ergebnis ist in kanonischen Basisvektoren ausgedrückt das vertraute Verhalten bei Polynomauswertung


 
 
 


a0
1
0
0
a0
 a1 + a2 
1
1
0
 a0 + a1 + a2 



 
 

= a0 
=
 a2 
1 + (a1 + a2 ) 2 + a2 2
a0 + 2a1 + 4a2  .
0
1 B4
3 B4
6 B4
a0 + 3a1 + 9a2 B 4
Be 4
R
R
R
R
Bisher wurden lineare Abbildungen f : V → W betrachtet, wobei im Allgemeinen
die Vektorräume verschieden sein konnten und es hat sich gezeigt, dass man dabei die
Basen BV , BW der Räume so geeignet wählen konnte, dass die Darstellungsmatrix eine
Diagonalgestalt erhält, bei der auf der Diagonalen nur r = Rang(f ) Einsen und sonst
Nullen standen. Die Darstellungsmatrix und besonders ihre Anwendung auf einen Vektor
war daher besonders einfach. Dieses Vorgehen ist natürlich auch dann noch möglich,
wenn Bild und Urbild derselbe Raum sind, d.h. V = W - man muss nur für Bild und
Urbild eine unterschiedliche Basis zulassen und geeignet wählen. Deutlich anders wird
die Situation, wenn man für Bild und Urbild dieselbe Basis wählen möchte und zwar
so, dass die Darstellungsmatrix erneut besonders einfach ist. Man sucht also nach einer
Basis BV , so dass für eine linear Abbilung f : V → V die darstellende Matrix MBV ,BV (f )
einfach wird - oder anders gesagt: man sucht nach einer Basistransformation, so dass die
ähnliche Matrix S · MBV ,BV (f ) · S−1 einfach wird. Dieses Problem ist deutlich schwerer
zu behandeln und wird auf die Diagonalisierbarkeit einer Matrix führen.
182
R
9 Determinanten
Historisch von großer Bedeutung war die Fragestellung, ob ein gegebenes lineares Gleichungssystem eine Lösung besitzt. Zu einer gegebenen Matrix ist man daran interessiert
diese Lösbarkeit möglichst direkt zu charakterisieren. Dies hat zur Entwicklung der sogenannten Determinanten einer Matrix (lat. determinare: “abgrenzen”, “bestimmen”)
geführt, die jeder Matrix eine Zahl zuordnet, an der man die Lösbarkeit direkt ablesen kann - diese determiniert also die Lösbarkeit des Gleichungssystems. Determinanten
sind jedoch nicht nur zur Lösung von Gleichungssytemen interessant, sondern mit ihrer Hilfe lässt sich bequem ein Volumen in mehreren Dimensionen berechnen, was von
großer praktischer Bedeutung in der Integrationstheorie in mehreren Dimensionen ist.
Auch zur Bestimmung der Diagonalisierbarkeit einer Matrix wird die Determinante ein
entscheidenes Hilfsmittel sein. Zunächst seien aber zwei Spezialfälle betrachtet.
(1) Betrachtet man ein lineares Gleichungssystem für 1 Unbekannte
ax = b,
so ist dies genau dann lösbar, wenn a 6= 0 gilt. Daher definiert man als Determinante
det (a) := a
und das System ist lösbar für det(a) 6= 0. Für die Lösung gilt in diesem Fall
x=
b
det b
=
.
a
det a
(2) Betrachtet man ein lineares Gleichungssystem für 2 Unbekannte
x1
b
a11 a12
= 1 ,
b2
x2
a21 a22
so findet man durch Umformungen das äquivalente System
a11 a22 − a12 a21
0
x1
a22 b1 − a12 b2
=
.
0
a11 a22 − a12 a21
x2
a11 b2 − a21 b1
Dieses System kann man genau dann lösen, falls a11 a22 − a12 a21 6= 0 gilt. Daher führt
man für 2 × 2 Matrizen die Determinante ein als
a11 a12
det
:= a11 a22 − a12 a21
a21 a22
183
9 Determinanten
und das System ist genau dann
die Lösung
b
det 1
b
a22 b1 − a12 b2
2
=
x1 =
a11 a22 − a12 a21
a
det 11
a21
lösbar, falls det A 6= 0 gilt. In diesem Fall gilt für
a12
a22
,
a12
a22
x2 =
a11 b2 − a21 b1
a11 a22 − a12 a21
a
det 11
a21
=
a
det 11
a21
b1
b2
.
a12
a22
Ein solches Lösbarkeitskriterium und die Darstellung der Lösung möchte man gerne für
Matrixgleichungen beliebiger Größe besitzen. Gesucht ist daher nach einer Verallgemeinerung dieses Vorgehens für Matrizen Kn×n für alle natürlichen Zahlen n ∈ N.
9.1 Definition und Eigenschaften
Definition 9.1 (Determinante)
Für einen Körper K heißt eine Abbildung
det : Kn×n → K,
A 7→ det A,
die Determinante einer Matrix, falls gilt:
(D1) Linearität: det ist linear in jeder Zeile, d.h. für alle i = 1, . . . , n gilt: Betrachtet
man zu einer Matrix alle Zeilen als fest und variiert nur die i-te Zeile, so ist diese
Abbildung
(i) additiv
 T 

aZ,1
aTZ,1
 .. 
 .. 


 . 
 . 








det aTZ,i + bTZ,i  = det  aTZ,i  + det  bTZ,i ,






..
 ... 
 ... 


.
aTZ,n
aTZ,n
aTZ,n

aTZ,1
..
.


(ii) homogen


 T 
aTZ,1
aZ,1
 .. 
 .. 
 . 
 . 




det λ · aTZ,i  = λ · det  aTZ,i .
 . 
 . 
 .. 
 .. 
aTZ,n
aTZ,n
(D2) Alternierend : Sind in einer Matrix A zwei Zeilen identisch, so gilt det A = 0.
(D3) Normierung: Für die Einheitsmatrix gilt det 1n = 1.
184
9.1 Definition und Eigenschaften
Sofort lässt sich fragen, wie sich die Determinante ändert, wenn man elementare Zeilenumformungen auf einer Matrix ausführt. Direkt aus der Definition findet man dazu
folgendes.
Satz 9.2 (Determinante bei Zeilenumformungen)
Eine Determinante det : Kn×n → K hat die folgenden Eigenschaften:
(I) Bei Zeilenumformungen vom Typ (I) ändert die Determinante das Vorzeichen,
d.h. vertauscht man zwei Zeilen einer Matrix, so gilt
 . 
 . 
..
..
 T 
 T 
 aZ,i 
aZ,j 
 . 
 . 



det 
 ..  = (−1) · det  .. .
aT 
 aT 
 Z,j 
 Z,i 
..
..
.
.
Dies begründet auch die Bezeichnung alternierend.
(II) Bei Zeilenumformungen vom Typ (II) ändert sich die Determinante um den Faktor, d.h. multipliziert man eine Zeile der Matrix mit einer Zahl λ ∈ K, so gilt
erhält man

 . 
.. 
..
.

 T 
T 
det λ · aZ,i  = λ · det aZ,i .
..
..
.
.
(III) Bei Zeilenumformungen vom Typ (III) ändert sich Determinante nicht, d.h. addiert man das λ-fache der j-ten Zeile zur i-ten Zeile (i 6= j), dann gilt
 . 


..
..
.
 T 
 T

 aZ,i 
aZ,i + λ · aTZ,j 
 . 


..


.
det 
.
 ..  = det 

aT 


T
a
 Z,j 


Z,j
..
..
.
.
185
9 Determinanten
Beweis. (I) Aus der Additivität bzgl. einer Zeile (D1),(i) und der Eigenschaft (D2) folgt
 . 
 . 
 . 
 . 
 . 
 . 
..
..
..
..
..
..
 T 
 T 
 T 
 T 
 T 
 T 
 aZ,i 
 aZ,i 
aZ,j 
aZ,j 
aZ,i 
aZ,j 
 . 
 . 
 . 
 . 
 . 
 . 











det  ..  + det  ..  = det  ..  + det  ..  + det  ..  + det 
 .. 
aT 
aT 
 aT 
 aT 
aT 
aT 
 Z,j 
 Z,j 
 Z,i 
 Z,i 
 Z,i 
 Z,j 
..
..
..
..
..
..
.
.
.
.
.
.
{z
}
| {z }
|
=0
=0






..
..
..
.
.
.




 T

 aTZ,i 
 aTZ,j 
aZ,i + aTZ,j 






..
..
..




 = 0.
= det 
+
det
=
det
.
.
.






aT + aT 
aT + aT 
aT + aT 
 Z,i
 Z,i
 Z,i
Z,j 
Z,j 
Z,j 
..
..
..
.
.
.
(II) Ist die Definition (D1),(ii).
(III) Aus (D1) und (D2) folgt
 . 

 . 
 . 

..
..
..
..
.
 T







 aTZ,i 
aZ,i + λ · aTZ,j 
 aTZ,i 
aTZ,j 








..
 = det  ...  + λ · det  ...  = det  ... .
det 
.








aT 

aT 
aT 

T
a
 Z,j 

 Z,j 
 Z,j 

Z,j
..
..
..
..
.
.
.
.
{z
}
|
=0
Anhand der definierenden Merkmale lassen sich ebenso direkt weitere Eigenschaften der
Determinante ableiten.
Satz 9.3 (Eigenschaften der Determinante)
Eine Determinante det : Kn×n → K hat die folgenden Eigenschaften:
(i) Ist eine Zeile der Matrix gleich Null, so gilt det A = 0.
(ii) Multipliziert man die Matrix mit einer Zahl λ ∈ K, so gilt
det (λ · A) = λn · det A.
(iii) Für eine obere Dreiecksmatrix gilt


λ1 ∗ . . . ∗
.
.

 0 λ2 . . .. 
det  . .
 = λ1 · λ2 · . . . · λn ,
.. ... ∗ 
 ..
0 . . . 0 λn
d.h. die Determinante ist das Produkt der Diagonaleinträge.
186
9.1 Definition und Eigenschaften
(iv) Eine Matrix A ∈ Kn×n ist genau dann invertierbar, wenn det A 6= 0 ist, d.h.
det A = 0
⇔
Rang(A) < n.
(v) Es gilt der Determinanten-Multiplikationssatz : Für alle A, B ∈ Kn×n gilt
det (A · B) = det A · det B.
(vi) Für eine invertierbare Matrix A ∈ Kn×n (d.h. für det A 6= 0) gilt
det A−1 = (det A)−1 =
1
.
det A
Beweis. Aus der Homogenität bzgl. einer Zeile in (D1),(ii) findet man durch die Wahl
λ = 0 die Aussage (i) und durch das n-fache Anwenden auf jede Zeile mit gleichem
λ ∈ K die Aussage (ii).
(iii) Gilt λi 6= 0 für alle i = 1, . . . , n, dann kann man die Matrix durch elementare
Zeilenumformungen vom Typ (III) auf Diagonalgestalt bringen, indem man alle Einträge
oberhalb der Diagonalen durch Addition eines geeigneten Vielfachen zu Null macht.
Dadurch ändert sich die Determinante nicht. Man kann nun noch die linearen Faktoren
zeilenweise herausziehen und findet mit det 1n = 1 (D3) schließlich die Aussage durch




λ1 0 . . . 0
λ1 ∗ . . . ∗
.
.
.
.


 0 λ2 . . .. 
 0 λ2 . . .. 
det  . .
 = λ1 · λ2 · . . . · λn · det 1n .
 = det  . .
.. ... 0 
.. ... ∗ 
 ..
 ..
0 . . . 0 λn
0 . . . 0 λn
Ist hingegen λi = 0 für mindestens ein 1 ≤ i ≤ n, so wählt man das Maximale von diesen,
macht durch Addition geeigneter Vielfacher der Zeilen j = i + 1, . . . , n die Einträge der
i-ten Zeile zu Null und hat nun eine Nullzeile in der Matrix. Daher ist die Determinante
Null, aber ebenso das Produkt der λi .
(iv) Durch elementare Zeilenumformungen vom Typ (I) und (III) formt man die Matrix
e
A in eine Matrix A,


λ1 ∗ . . . ∗
.
.

0 λ2 . . .. 
e =
A
. .
,
.. ... ∗ 
 ..
0 . . . 0 λn
e = ± det A und man hat Rang(A)
e =
mit oberer Dreiecksgestalt um. Für diese gilt det A
Rang(A). Diese Matrix hat nun vollen Rang genau dann wenn alle λi 6= 0 sind. Dann
gilt aber auch
e =n
Rang(A) = Rang(A)
⇔
e = ±λ1 · . . . · λn 6= 0.
det A = ± det A
187
9 Determinanten
(v) Gilt Rang(A) < n, dann auch Rang(A · B) < n und die Aussage folgt mit (iv), da
beide Seiten dann Null sind. Für eine Matrix mit vollem Rang lässt sich diese durch ein
Produkt von Elementarmatrizen darstellen A = E1 ·. . .·Es . Die Elementarmatrizen vom
jeweiligen Typ gehen durch elementare Zeilenumformung aus der Einheitsmatrix hervor,
daher gilt mit den Eigenschaften der Determinante unter elementaren Zeilenumformungen
det EIij = (−1) · det 1n = −1,
det EII
i (λ) = λ · det 1n = λ,
det EIII
ij (λ) = det 1n = 1.
Nun bewirken die Elementarmatrizen bei Multiplikation auch dieselben Operationen,
d.h. es gilt
det (EIij ) · det B,
det (EIij · B) = (−1) · det B =
λ · det B = det (EII
det (EII
i (λ)) · det B,
i (λ) · B) =
III
1 · det B = det (EIII
det (Eij (λ) · B) =
ij (λ)) · det B,
und daher gilt det (E · B) = det E · det B für alle Elementarmatrizen E. Nun folgt damit
det (A · B) = det (E1 · . . . · Es · B)
= det E1 · . . . · det Es · det B
= det (E1 · . . . · Es ) · det B
= det A · det B.
(vi) Folgt direkt aus (v) und det 1n = 1 (D3) durch
1 = det (1n ) = det (A · A−1 ) = det (A) · det A−1 .
Bemerkung 9.4
Im Allgemeinen kann man keine Aussage über die Determinante einer Summe von Matrizen treffen, d.h. es gilt im Allgemeinen
det (A + B) 6= det A + det B
für beliebige A, B ∈ Kn×n .
Die bisher gezeigten Eigenschaften gelten für jede Determinantenfunktion und konnten direkt aus den Definitionen (D1)-(D3) gewonnen werden. Jedoch steht noch aus
zu zeigen, dass überhaupt für jedes n ∈ N eine Funktion mit solchen Eigenschaften
existiert. Zudem lässt sich fragen, ob auch mehrere verschiedene Funktionen mit diesen
Eigenschaften (D1)-(D3) existieren können. Die zweite Frage nach der Eindeutigkeit soll
zuerst beantwortet werden. Die Existenz der Determinantenfunktinon wird durch die
Angabe einer expliziten Berechnungsformel folgen.
188
9.2 Berechnung von Determinanten
Satz 9.5 (Eindeutigkeit der Determinante)
Für n ∈ N seien det, det0 : Kn×n → K zwei Abbildungen mit den Eigenschaften (D1)(D3). Dann gilt det A = det0 A für jede Matrix A ∈ Kn×n , d.h. es gibt höchstens eine
Determinantenfunktion.
Beweis. Gilt Rang(A) < n, so auch det A = 0 = det0 A und die Aussage ist richtig. Ist
hingegen Rang(A) = n, dann lässt sich die Matrix durch elementare Zeilenumformungen
auf die Einheitsmatrix 1n umformen und für diese gilt wegen (D3) immer det 1n =
1 = det0 1n . Nun kann man die Zeilenumformungen wieder rückgängig machen und
erhält dieselben Vorfaktoren bei Zeilenumformungen für det und det0 , d.h. schließlich
det A = det0 A.
9.2 Berechnung von Determinanten
Aus den Eigenschaften der Determinanten ergibt sich direkt ein praktisches Vorgehen
zur Berechnung der Determinanten.
Satz 9.6 (Berechnung einer Determinanten)
Wird die Matrix A durch Zeilenvertauschungen und die Addition geeigneter Vielfacher
von Zeilen zu anderen Zeilen (elementare Zeilenumformungen (I) und (III)) in eine Mae mit
trix A


λ1 ∗ . . . ∗
.
.

0 λ2 . . .. 
e =
A
A

. .
.. ... ∗ 
 ..
0 . . . 0 λn
in oberer Dreiecksgestalt umgeformt und werden dabei k Zeilenvertauschungen durchgeführt, dann gilt
e = (−1)k · λ1 · . . . · λn .
det A = (−1)k · det A
Beweis. Ergibt sich direkt aus den obigen Eigenschaften der Determinante.
Beispiel 9.7
Man findet






0 5 2
2 3 3
2 3 3
det 2 3 3 = (−1) · det 0 5 2 = (−1) · det 0 5 2
2 3 7
2 3 7
0 0 4
= (−1)1 · 2 · 5 · 4 = −40,
da man bei der Transformation auf Dreiecksgestalt eine Zeilenvertauschung benötigt.
189
9 Determinanten
Dieses Vorgehen ist in der Praxis ein sehr effizientes Vorgehen. Man kann aber auch für
die Berechnung eine (deutlich aufwändigere) Formel angeben und durch diese Angabe
einer expliziten Berechnungsformel wird die Existenz der Determinante gesichert.
Definition 9.8 (Untermatrix)
Für eine Matrix A ∈ Kn×n bezeichnet Aij ∈ K(n−1)×(n−1) diejenige Matrix, die durch
Streichen der i-ten Zeile und j-ten Spalte aus A entsteht.
Beispiel 9.9

Man findet für A =
A11
A23

a11 a12
 a a
=  21 22
a31 a32

a11 a12
 a a
=  21 22
a31 a32

a11 a12 a13
 a a a

 21 22 23 :
a31 a32 a33

a13
a23 
 =
a33

a13
a23 
 =
a33
a22 a23
a32 a33
!
a11 a12
a31 a32
!
Satz 9.10 (Laplacescher Entwicklungssatz nach einer Spalte)
Die Determinante einer Matrix A ∈ Kn×n lässt sich induktiv berechnen:
Für n = 1 und A = (a11 ) ∈ K1×1 setzt man det A := a11 .
Für n ≥ 2 und A ∈ Kn×n berechnet man für eine beliebige Spalte j ∈ {1, . . . , n}
n
X
det A =
(−1)i+j · aij · det Aij
(Entwicklung nach der j-ten Spalte).
i=1
Beweis. Der Beweis wird als Induktion über n geführt: Für n = 1 erfüllt die angegebene Formel det A := a11 die Eigenschaften (D1)-(D3) direkt. Sei also n ≥ 2 und
angenommen, dass die obige Berechnungsformel für Matrizen K(n−1)×(n−1) eine Determinante mit den Eigenschaften (D1)-(D3) ist (Induktionsannahme). Nun folgert man,
dass die Formel für Matrizen A ∈ Kn×n eine Determinante ist:
(D1) Um die Linearität bzgl. einer Zeile zu zeigen, wähle man beliebig die k-te Zeile.
Dann findet man in jedem der Summanden
(−1)i+j · aij · det Aij
die Einträge der k-ten Zeile entweder nur in den aij (falls k = i und daher die k-te Zeile
in Aij gestrichen ist) oder nur in Aij (falls k 6= i). Im ersten Fall ist der Summand damit
linear in der k-ten Zeile, im zweiten Fall ebenfalls nach Induktionsvoraussetzung. Somit
ist für die Entwicklungsformel jeder Summand linear bzgl. der k-ten Zeile und daher
auch die gesamte Summe.
190
9.2 Berechnung von Determinanten
(D2) Seien in A die k-te und l-te Zeile gleich. Für i ∈
/ {k, l} sind dann in Aij ebenfalls
zwei Zeilen gleich, da keine dieser beiden Zeilen gestrichen wird und nach Induktionsvoraussetzung gilt somit det Aij = 0 für i ∈
/ {k, l}. Die Formel vereinfacht sich zu
n
X
det A =
(−1)i+j · aij · det Aij
i=1
= (−1)k+j · akj · det Akj + (−1)l+j · alj · det Alj
= (−1)j · akj · ((−1)k · det Akj + (−1)l · det Alj )
denn wegen der Zeilengleichheit gilt zudem akj = alj für jedes 1 ≤ j ≤ n. Nun betrachtet
man die beiden Untermatrizen Akj und Alj genauer: Gilt |k − l| = 1 so sind die beiden
identischen Zeilen direkt untereinander und es ist egal, welche der Zeilen man streicht,
d.h. det Akj = det Alj . Liegen zwischen den beiden identischen Zeilen genau eine weitere
Zeile, |l − k| = 2, so kann man durch eine Zeilenvertauschung det Akj in det Alj überführen. Im Allgemeinen gilt: Liegen die identischen Zeilen den Abstand |l − k| auseinander,
so benötigt man |l − k| − 1 Zeilenvertauschungen, um det Akj in det Alj zu überführen. Nach Induktionsvoraussetzung gilt somit det Akj = (−1)|l−k|−1 · det Alj . Man findet
(ohne Einschräkung sei l > k)
det A = (−1)j · akj · ((−1)k · (−1)|l−k|−1 · det Alj + (−1)l · det Alj )
= (−1)j · akj · ((−1)l−1 + (−1)l ) · det Alj = 0.
{z
}
|
=0
(D3) Nach Induktionsvoraussetzung gilt det 1n−1 = 1 und daher auch
det (1n ) = (−1)j+j · 1 · det ((1n )jj ) = (−1)2j · 1 · det (1n−1 ) = 1.
Beispiel 9.11
Man berechnet somit die Determinante einer 3x3 Matrix nach der ersten Spalte zu


a11 a12 a13
det a21 a22 a23 
a31 a32 a33
a22 a23
a12 a13
a12 a13
= a11 · det
− a21 · det
+ a31 · det
a32 a33
a32 a33
a22 a23
= a11 a22 a33 − a11 a23 a32 − a21 a12 a33 + a21 a13 a32 + a31 a12 a23 − a31 a13 a22 .
Dies wird auch als Regel von Sarrus bezeichnet. Man merkt sich diese, indem man die
ersten beiden Spalten noch einmal hinter die Matrix schreibt und dann die Diagonalen
multipliziert, mit +1 oder −1 gewichtet und aufsummiert. Ebenso merkt man sich auch
die Regel für 2 × 2 Matrizen graphisch wie folgt:
191
9 Determinanten
+
a11
a21
Für 2 × 2: −
+
a11
+
a12
+
a13
a11
a12
a12
a21
a22
a23
a21
a22
a22
a31
Für 3 × 3: −
a32
−
a33
−
a31
a32
Die Zeilen scheinen gegenüber den Spalten einer Matrix gemäß der Definition (D1)-(D3)
eine ausgezeichnete Rolle zu spielen. Dies ist jedoch nicht der Fall, denn man könnte
analog auch eine Determinante über die Spalten definieren. Dies sieht man an folgenden
Aussagen, die man auch zur Definition der Determinante verwenden könnte.
Satz 9.12 (Spalteneigenschaften der Determinante)
Für die Determinante einer Matrix A ∈ Kn×n gilt:
(D1)’ det ist linear in jeder Spalte.
(D2)’ Sind in einer Matrix A zwei Spalten identisch, so gilt det A = 0.
Beweis. (D1)’: Um zu sehen, dass die Determinante linear in der j-ten Spalte ist, schaut
man sich die Entwicklung nach dieser Spalte an,
det A =
n
X
i=1
(−1)i+j · aij · det Aij .
Da die Aij nicht von der gestrichenen j-ten Spalte abhängt, ist dies offensichtlich linear
in dieser Zeile, denn es hängt bis auf Faktoren nur von aij ab.
(D2)’: Sind zwei Spalten einer Matrix identisch, dann gilt Rang(A) < n und somit
det A = 0.
Aus dieser Symmetrie lässen sich aber auch direkt zwei Folgerungen ableiten.
Satz 9.13 (Determinante der Transponierten)
Für die Determinante jeder Matrix A ∈ Kn×n gilt
det A = det AT .
Beweis. Man zeigt direkt, dass auch die Abbildung det0 : A 7→ det AT die Eigenschaften
einer Determinante hat:
(D1) det AT ist linear in den Spalten von AT und somit linear in den Zeilen von A.
(D2) Sind zwei Zeilen in AT identisch, dann ist Rang(AT ) < n und somit det AT = 0.
(D3) Für die Einheitsmatrix gilt det 1Tn = det 1n = 1.
Aufgrund der Eindeutigkeit der Determinantenfunktion gilt daher die obige Gleichheit.
192
9.2 Berechnung von Determinanten
Damit lässt sich eine Determinante auch nach einer Zeile entwickeln.
Satz 9.14 (Laplacescher Entwicklungssatz nach einer Zeile)
Für n ≥ 2 lässt sich die Determinante einer Matrix A ∈ Kn×n induktiv nach einer
beliebigen Zeile i ∈ {1, . . . , n} berechnen durch
det A =
n
X
j=1
(Entwicklung nach der i-ten Zeile).
(−1)i+j · aij · det Aij
Beweis. Man wendet die Entwicklung nach einer Spalte auf AT an und benennt die
Indizes um:
n
n
X
X
i+j
T
T
det A = det A =
(−1) · aij · det Aij =
(−1)i+j · aji · det Aji
T
i=1
i=1
n
X
=
(−1)i+j · aij · det Aij .
j=1
Die Zeilenentwicklungsformel ist von der Form her einer Matrixmultiplikation sehr ähnlich. Daher definiert man die sogenannte komplementäre Matrix.
Definition 9.15 (Komplementäre Matrix)
Für eine Matrix A ∈ Kn×n ist die komplementäre Matrix A# ∈ Kn×n definiert durch
i+j
a#
· det Aji .
ij := (−1)
Damit lässt sich die inverse Matrix als Formel angeben.
Satz 9.16 (Darstellung der inversen Matrix)
Für eine Matrix A ∈ Kn×n gilt
A · A# = (det A) · 1n
bzw. falls A invertierbar:
A−1 =
1
A# .
det A
Beweis. Gemäß Entwicklung nach der k-ten Zeile gilt
#
(A · A )ik =
n
X
j=1
aij ·
a#
jk
n
X
=
(−1)k+j · aij · det Akj = det A0 ,
j=1
wobei die Matrix A0 aus A entsteht, indem man die k-te Zeile durch die i-te ersetzt.
Somit folgt
(
det A,
i = k,
(A0 = A)
(A · A# )ik =
0,
i 6= k,
(A0 enthält zwei identische Zeilen).
193
9 Determinanten
Beispiel 9.17
Für A ∈ K2×2 mit det A 6= 0 gilt
−1
1
1
a22 −a12
a11 a12
−1
·
=
A# .
A =
=
−a21
a11
a21 a22
a11 a22 − a12 a21
det A
Satz 9.18 (Cramersche Regel)
Für A ∈ Kn×n mit det A 6= 0 und b ∈ Kn sind die eindeutigen Lösungen des Gleichungssystems Ax = b gegeben durch


a11 . . . a1,i−1 b1 a1,i+1 . . . a1n
1

..
..  .
xi =
· det  · · ·
.
. 
det A
an1 . . . an,i−1 bn an,i+1 . . . ann
Beweis. Die Lösung linear kombiniert die Spaltenvektoren von A zum Vektor b gemäß
und somit gilt auch
x1 · aS,1 + . . . + xi · aS,i + . . . + xn · aS,n = b
x1 · aS,1 + . . . + (xi · aS,i − b) + . . . + xn · aS,n = 0.
Damit sind diese Vektoren linear abhängig und die Determinante der daraus gebildeten
Matrix verschwindet. Es folgt
0 = det (aS,1 , . . . , xi · aS,i − b, . . . , aS,n )
= xi · det (aS,1 , . . . , aS,i , . . . , aS,n ) − det (aS,1 , . . . , b, . . . , aS,n ).
Die Fälle der Cramerschen Regel für n = 1, 2 sind bereits in der Einleitung des Kapitels aufgetreten. Hier findet sich also die gewünschte Verallgemeinerung für beliebige
Dimensionen.
Es gibt noch eine weitere Möglichkeit die Determinante einer Matrix zu berechnen. Dabei
verwendet man die Vertauschungen der Zahlen 1 bis n.
Definition 9.19 (Permutationen)
Für jede natürliche Zahl n ∈ N bezeichnet Sn die Menge aller bijektiven Abbildungen
τ : {1, . . . , n} → {1, . . . , n}.
Die Elemente von Sn heißen Permutationen.
Eine Permutation, die zwei benachbarte Zahlen vertauscht und alle anderen fest lässt,
heißt Nachbarnvertauschung und jede Permutation lässt sich als Hintereinanderausführung von Nachbarnvertauschungen auffassen.
Das Signum einer Permutation ist definiert durch
(
+1, falls τ einer geraden Anzahl an Nachbarnvertauschungen entspricht,
sign(τ ) :=
−1, falls τ einer ungeraden Anzahl an Nachbarnvertauschungen entspricht.
194
9.3 Determinante eines Endomorphismus
Damit lässt sich die Formel von Leibniz angeben.
Satz 9.20 (Leibnizsche Formel)
Die Determinante einer Matrix A ∈ Kn×n lässt sich berechnen durch
X
det A =
sign(τ ) · a1,τ (1) · . . . · an,τ (n)
(Summe über alle Permutationen).
τ ∈Sn
Bemerkung 9.21
Die Cramersche Regel als auch die Determinantenformeln von Laplace und Leibniz sind
in der Praxis (außer für sehr kleine Matrizen) nicht brauchbar, da sie viel Rechenaufwand
für große n benötigen (die Anzahl der Permutationen und damit der Summanden ist:
n!). Praktisch bestimmt man daher Lösungen und Determinanten durch das Umformen
auf Dreiecksgestalt mit dem Verfahren von Gauß. Aus theoretischer Sicht sind diese
Formel jedoch sehr interessant, denn an der Formel von Leibniz sieht man, dass (für
den Fall K = R oder C) die Determinante ein Polynom in den Einträgen der Matrix ist
und somit nach diesen differenzierbar und damit stetig ist. Ebenso zeigt die Cramersche
Regel, dass die Lösung x eines Gleichungssystem Ax = b stetig von A und b abhängt.
Bemerkung 9.22
Unter einem n-dimensionalen Parallelotop (Parallelogramm in 2D, Spat in 3D) versteht
man zu den Vektoren a1 , . . . , an die Menge
P (a1 , . . . , an ) = {λ1 a1 + . . . + λn an | 0 ≤ λi ≤ 1 für alle 1 ≤ i ≤ n}.
Das n-dimensionale Volumen, das von P beschreiben wird, kann man mit Hilfe der
Determinanten berechnen, indem man die Vektoren als Spalten einer Matrix verwendet:
Vol(P (a1 , . . . , an )) = | det(a1 , . . . , an )|.
9.3 Determinante eines Endomorphismus
Die Determinante ist zunächst nur für eine Matrix definiert. Man kann jedoch auch
einem Endomorphismus (einer linearen Abbildung eines Vektorraums auf sich selbst)
eine Determinante zuordnen.
Definition 9.23 (Determinante eines Endomorphismus)
Sei V ein K-Vektorraum und f : V → V eine lineare Abbildung. Sei die lineare Abbildung bzgl. einer (beliebig gewählten) Basis B als Matrix MB,B (f ) dargestellt. Dann ist
die Determinante von f definiert durch
det f := det (MB,B (f )) .
Es lässt sich fragen, ob diese Definition sinnvoll ist, da die Matrixdarstellung von der
Basiswahl abhängt und damit auch die Determinante des Endomorphismus bei verschiedener Wahl der Basis verschieden sein könnte. Dies ist zum Glück nicht der Fall.
195
9 Determinanten
Satz 9.24 (Ähnlich Matrizen haben dieselbe Determinante)
Ähnliche Matrizen haben dieselbe Determinante.
e ähnlich, dann gibt es eine invertierbare Matrix S, so
Beweis. Sind zwei Matrizen A, A
−1
e = SAS gilt. Damit folgt auch
dass A
e = det(SAS−1 ) = det(S) det(A) det(S−1 ) = det(S) det(S)−1 det(A) = det(A).
det(A)
Satz 9.25 (Eindeutigkeit der Determinante eines Endomorphismus)
Die Determinante eines Endomorphismus ist von der Basiswahl unabhängig.
Beweis. Seien B und Be zwei Basen. Dann gilt
−1
MB,
e Be(f ) = TB,B
e · MB,B (f ) · TB,B
e
und die Darstellungsmatrizen sind ähnlich, haben also dieselbe Determinante.
196
10 Eigenwerte
Zu einer linearen Abbildung f : V → W kann man ein Paar von Basen BV und BW so
finden, dass die Matrixdarstellung der Abbildung bzgl. dieser Basen eine Diagonalgestalt
hat. In der Sprache der Matrizen bedeutet dies, dass man zu einer Darstellungsmatrix
A stets zwei inververtierbar Matrizen S und T finden kann, so dass durch
1r 0
−1
S·A·T =
0 0
die Matrix A mit r = Rang(A) auf eine Matrix in Diagonalgestalt transformiert wird
und die nötigen Transformationsmatrizen können algorithmisch ermittelt werden.
Bedeutend schwieriger wird die Fragestellung, wenn man zu einer linearen Abbildung
eines Vektorraums auf sich selbst (d.h. zu einem Endomorphismus)
f :V →V
übergeht und eine einzige Basis BV sowohl für Urbildraum und Bildraum wählen möchte
- erneut derart, dass die Darstellungsmatrix einfache Gestalt besitzt. Da man nun nur
noch die Freiheit hat, eine anstatt zwei Basen zu wählen, ist dieses Problem aufwändiger
zu lösen und im Allgemeinen wird man keine Transformation auf Diagonalgestalt finden.
In der Sprache der Matrizen ausgedrückt stellt sich also die Frage, ob und wann eine
invertierbare Matrix S existiert, so dass man zu einer quadratischen Matrix A eine
möglichst einfache Darstellung
erhalten kann.
e = S · A · S−1
A
10.1 Eigenwert, Eigenvektor und Eigenräume
Definition 10.1 (Eigenwert und Eigenvektor)
Sei V ein K-Vektorraum und f : V → V ein Endomorphismus. Ein λ ∈ K heißt Eigenwert von f , falls es einen Vektor v ∈ V mit v 6= 0 gibt, so dass gilt
f (v) = λ · v.
Zu einem Eigenwert λ ∈ K heißt jeder vom Nullvektor verschiedene Vektor v ∈ V
Eigenvektor, sofern f (v) = λ · v gilt.
197
10 Eigenwerte
Eigenvektoren eines Endomorphismus sind also diejenigen Vektoren, die auf ein Vielfaches von sich selbst abgebildet werden und der Faktor, um den bei dieser Abbildung der
Eigenvektor gestreckt wird, ist der zugehörige Eigenwert.
Bemerkung 10.2
Der Nullvektor 0 ∈ V ist per Definition niemals Eigenvektor von f . Es kann aber
durchaus 0 ∈ K ein Eigenwert von f zu Eigenvektoren v 6= 0 sein.
Beispiel 10.3 (i) Sei V = R und f (x) := 5 · x. Dann ist λ = 5 ein Eigenwert von f
und und jeder Vektor v ∈ R, v 6= 0 ist Eigenvektor.
(ii) Sei V = R2 und
f (x) :=
1 −1
x1
·
.
−1
1
x2
Dann findet man durch
1 −1
1
2
1
·
=
= 2 ·
,
−1
1
−1
−2
−1
1 −1
1
0
1
·
=
= 0 ·
−1
1
1
0
1
zwei Eigenwerte von f : λ1 = 2 und λ2 = 0. Als Eigenvektoren findet man
1
für λ1 = 2 : alle v = µv1 = µ ·
, für jedes µ 6= 0,
−1
1
für λ2 = 0 : alle v = µv2 = µ ·
,
für jedes µ 6= 0.
1
(iii) Sei V = C ∞ ((a, b); R) der Raum der beliebig oft differenzierbaren reellwertigen
Funktionen auf dem Intervall (a, b). Betrachtet man als Endomorphismus
D : V → V,
f 7→ f 0
die Ableitung der Funktionen, dann findet man zu jedem λ ∈ R die Eigenvektoren
0
v(x) = eλx , denn D(v) = eλx = λeλx = λv.
(iv) Sei V = R3 und

  
λ1 0 0
x1
f (x) =  0 λ2 0  · x2  .
0 0 λ3
x3
Dann sind die kanonischen Basisvektoren e1 , e2 , e3 Eigenvektoren und es gilt
f (ei ) = λi ei ,
198
für i = 1, . . . , 3.
10.1 Eigenwert, Eigenvektor und Eigenräume
Stellt man also einen beliebigen Vektor x = x1 e1 +x2 e2 +x3 e3 durch diese Basis dar,
so ist die Anwendung der linearen Abbildung nur eine Skalierung in den jeweiligen
Basisrichtungen
f (x) = f (x1 e1 + x2 e2 + x3 e3 )
= x1 f (e1 ) + x2 f (e2 ) + x3 f (e3 )
= x1 λ1 e1 + x2 λ2 e2 + x3 λ3 e3 .
(Darstellung durch Basis)
(Linearität)
(Eigenwertgleichung)
Am letzten Beispiel hat sich folgendes gezeigt: Kann man eine Basis von V finden, die
nur aus Eigenvektoren von f : V → V besteht, so lässt sich jeder Vektor in dieser Basis
notieren und die Anwendung von f ist einfach nur noch eine Skalierung der Koeffizienten
mit den Eigenwerten. Dies motiviert die folgende Definition.
Definition 10.4 (Diagonalisierbar)
Ein Endomorphismus f : V → V heißt diagonalisierbar, wenn es eine Basis aus Eigenvektoren gibt.
Eine Basis aus Eigenvektoren möchte man sehr gerne finden, denn mit ihr wird die
Matrixdarstellung eines Endomorphismus besonders einfach. Die Matrixdarstellung von
f hat nämlich bzgl. dieser Basis dann eine Diagonalgestalt und auf der Diagonalen stehen
die Eigenwerte zu den Eigenvektoren.
Satz 10.5 (Diagonalgestalt eines Endomorphismus)
Sei f : V → V ein Endomorphismus eines n-dimensionalen Vektorraums V . Dann ist
f genau dann diagonalisierbar, wenn es eine Basis B = {v1 , . . . , vn } gibt, so dass die
Darstellungsmatrix die Diagonalgestalt der Form


λ1 . . . 0


MB,B (f ) =  ... . . . ... 
0
. . . λn
mit den zugehörigen Eigenwerten λ1 , . . . , λn besitzt.
Beweis. Gibt es eine Basis aus Eigenvektoren B = {v1 , . . . , vn } mit den zugehörigen
Eigenwerten λ1 , . . . , λn , dann gilt für die Darstellungsmatrix
f (vj ) = λj vj =
n
X
λi δij vi ,
j = 1, . . . , n
i=1
und die Darstellungsmatrix hat die gesuchte Gestalt. Gibt es umgekehrt eine Basis bzgl.
der die Darstellung die Diagonalgestalt besitzt, dann sind alle Vektoren der Basis Eigenvektoren.
Leider ist es nicht immer möglich, eine solche Basis aus Eigenvektoren zu finden. Dies
macht man sich anschaulich schon an Beispielen in zwei Dimensionen direkt klar.
199
10 Eigenwerte
Beispiele 10.6 (i) Die Drehung mit einen festen Winkel α um den Ursprung
f :R →R ,
2
2
x1
cos(α) − sin(α)
x1
7→
·
x2
sin(α)
cos(α)
x2
bildet – außer für α = 0 oder π – keinen Vektor auf ein Vielfaches von sich selbst
ab.
f (x)
α
x
0
Daher besitzt die Drehung keine Eigenvektoren und Eigenwerte (außer für die Fälle
α = 0, d.h. f (x) = x, und α = π, d.h. f (x) = −x).
(ii) Für die Scherung mit Faktor m ∈ R in Richtung der Abszisse
f :R →R ,
2
2
1 m
x1
x1
7→
·
x2
x2
0 1
ist jeder Vektor v = c · e1 (c ∈ R) ein Eigenvektor und der Eigenwert ist 1.
x
f (x)
0
Alle anderen Vektoren x mit x2 6= 0 werden nicht auf ein Vielfaches abgebildet.
Daher besitzt die Scherung nur diesen einen Eigenwert.
(iii) Die Spieglung an einer Ursprungsgerade mit Winkel α zwischen Abszisse und Gerade
f :R →R ,
2
2
x1
cos(2α)
sin(2α)
x1
7→
·
x2
sin(2α) − cos(2α)
x2
besitzt eine Basis aus Eigenvektoren.
200
10.1 Eigenwert, Eigenvektor und Eigenräume
v2 =
x
cos(α+ π2 )
sin(α+ π2 )
v1 =
cos(α)
sin(α)
α
α
0
= f (v1 )
0
f (x)
f (v2 ) =
− cos(α+ π2 )
− sin(α+ π2 )
Dazu wählt man einen Eigenvektor entlang der Spiegelgeraden (mit Eigenwert 1)
und einen Eigenvektor senkrecht zur Spiegelgeraden (mit Eigenwert −1).
Diese Beispiele zeigen, dass die Anzahl an Eigenwerten verschieden sein kann. Es stellt
sich also die Frage, wie viele Eigenwerte ein Endomorphismus besitzen kann.
Satz 10.7 (Eigenvektoren zu paarweise verschiedenen Eigenwerten sind linear
unabhängig)
Sei f : V → V ein Endomorphismus mit Eigenvektoren v1 , . . . , vk zu paarweise verschiedenen Eigenwerten λ1 , . . . , λk (d.h. λi 6= λj für i 6= j). Dann sind die Vektoren
(v1 , . . . , vk ) linear unabhängig und somit k ≤ dim V .
Beweis. Dies sieht man per Induktion nach k. Für k = 1 ist der Eigenvektor v1 6= 0
linear unabhängig und der Induktionsanfang ist gezeigt. Sei daher angenommen, die
Aussage gilt für k − 1, d.h. die Eigenvektoren (v1 , . . . , vk−1 ) zu paarweise verschiedenen
Eigenwerten seien linear unabhängig. Ist nun vk ein weiterer Eigenvektor mit anderem
Eigenwert, dann betrachtet man
α1 v1 + . . . + αk−1 vk−1 + αk vk = 0.
Diese Gleichung kann man zum einen mit λk multiplizieren, zum anderen auch f darauf
anwenden. Man findet durch Subtraktion der so entstehenden Gleichungen
α1 λk v1 + . . . +
α 1 λ1 v1 + . . . +
αk−1 λk vk−1 + αk λk vk = 0,
αk−1 λk−1 vk−1 + αk λk vk = 0,
⇒ α1 (λk − λ1 )v1 + . . . + αk−1 (λk − λk−1 )vk−1
= 0,
und nach Induktionsannahme müssen daher alle α1 = . . . = αk−1 = 0 sein, da alle
Eigenwerte verschieden sind. Somit verbleibt αk vk = 0 und da für den Eigenvektor
vk 6= 0 gilt, folgt auch αk = 0.
Ein Endomorphismus eines Vektorraums mit n = dim V hat also höchstens n Eigenwerte
und in den obigen Beispielen hat sich gezeigt, dass diese verschiedenen Anzahlen auch
201
10 Eigenwerte
tatsächlich realisiert werden können. Die Anzahl der Eigenvektoren ist im Allgemeinen
viel größer als die Anzahl der Eigenwerte, denn zu einem Eigenvektor v ist auch w := c·v
wegen f (w) = f (cv) = c · f (v) = λ · c · v = λ · w ein Eigenvektor. Daher fasst man alle
Eigenvektoren zu einem Eigenwert zusammen.
Definition 10.8 (Eigenraum)
Sei f : V → V ein Endomorphismus und λ ∈ K. Dann heißt
Eig(f ; λ) := {v ∈ V | f (v) = λv}
der Eigenraum von f bzgl. λ.
Dass die Bezeichnung Eigenraum berechtigt ist, ist dadurch begründet, dass es sich um
einen Untervektorraum handelt. Diese sieht man am elegantesten unter Verwendung der
identischen Abbildung
idV : V → V,
v 7→ v,
die jeden Vektor auf sich selbst abbildet.
Satz 10.9 (Charakterisierung des Eigenraums)
Für den Eigenraum Eig(f ; λ) gilt:
(i) Eig(f ; λ) ⊂ V ist ein Untervektorraum,
(ii) Eig(f ; λ) = Kern(f − λ idV ),
(iii) λ ist Eigenwert ⇔ Eig(f ; λ) 6= {0}.
Beweis. Man findet direkt die Äquivalenz
f (v) = λv
⇔
0 = f (v) − λv = (f − λ idV )(v),
damit die Darstellung als Eig(f ; λ) = Kern(f − λidV ) und der Kern ist stets ein Untervektorraum. Ist der Kern nicht nur der Nullvektor, dann gibt es einen Eigenvektor und
damit ist λ auch Eigenwert.
Da ein Eigenraum ein Vektorraum ist, lässt sich auch dessen Dimension ermitteln.
Definition 10.10 (Geometrische Vielfachheit)
Zu einem Eigenwert λ heißt die Dimension dim Eig(f ; λ) des Eigenraums die geometrische Vielfachheit des Eigenwerts.
10.2 Das charakteristische Polynom
Es stellt sich nun die Frage, wie man zu einem Endomorphismus die Eigenwerte und
Eigenvektoren algorithmisch bestimmen kann. Hat man bereits einen Eigenwert gefunden, so lassen sich die zugehörigen Eigenvektoren automatisiert direkt ermitteln, indem
202
10.2 Das charakteristische Polynom
man den Kern der Abbildung f − λ idV bestimmt. Die algorithmische Bestimmung der
Eigenwerte selbst gestaltet sich jedoch schwieriger. Dazu ist die Determinante ein entscheidenes Hilfsmittel.
Satz 10.11 (Eigenwertgleichung)
Sei f : V → V ein Endomorphismus und dim V < ∞. Dann gilt
λ ist Eigenwert
⇔
det (f − λ idV ) = 0.
Beweis.
λ ist Eigenwert
⇔ Eig(f ; λ) 6= {0}
⇔ Kern(f − λ idV ) 6= {0}
⇔ Im(f − λ idV ) 6= V
⇔ Rang(f − λ idV ) < dim V
⇔ det (f − λ idV ) = 0
(Charakterisierung Eigenraum, (iii))
(Charakterisierung Eigenraum, (ii))
(Dimensionssatz)
(Definition Rang)
(Definition der Determinante)
Damit kann man alle Eigenwerte finden, indem man die Nullstellen der Abbildung λ 7→
det (f − λ idV ) bestimmt.
Definition 10.12 (Charakteristisches Polynom)
Sei der Endomorphismus f : V → V bzgl. einer Basis B als Matrix A := MB,B (f )
dargestellt. Das charakteristische Polynom von f ist definiert durch


a11 − λ
a12
...
a1n
 a21
a22 − λ . . .
a2n 


Pf (λ) := det (f − λ idV ) = det (A − λ1) = det  ..
..  .
.
.
 .
.
. 
an1
an2
. . . ann − λ
Dass es sich bei dieser Abbildung tatsächlich - wie der Name sagt - um ein Polynom
handelt, sieht man wie folgt.
Satz 10.13 (Eigenschaften des charakteristischen Polynoms)
Für einen Endomorphismus f : V → V mit n := dim V ≤ ∞ gilt:
(i) Das charakteristische Polynom Pf (λ) ist von der Wahl der Basis unabhängig.
(ii) Ist f bzgl. einer Basis B als Matrix A := MB,B (f ) dargestellt, dann gibt es Koeffizienten α0 , . . . , αn ∈ K, so dass das charakteristische Polynom die Darstellung
Pf (λ) = αn λn + αn−1 λn−1 + . . . + α1 λ + α0
hat und für die Koeffizient gilt
αn = (−1)n ,
αn−1 = (−1)n−1 (a11 + . . . + ann )
und
α0 = det A.
203
10 Eigenwerte
Beweis. (i) Ähnliche Matrizen haben dieselbe Determinante.
(ii) Sei zunächst sogar allgemeiner eine Matrix B gegeben, die aus insgesamt k Einsen
und sonst nur Nullen besteht, jedoch in jeder Zeile und jeder Spalte maximal eine Eins
vorkommt. Dann sieht man per Induktion nach n und k ≤ n, dass det (A − λB) ein
Polynom von Grad k ist und somit die Darstellung α
ek λk +. . .+ α
e1 λ+ α
e0 mit α
e0 , . . . , α
ek ∈
K hat:
Für n = 1 gilt det (a11 − λ · 1) = (−1) · λ + a11 oder det (a11 − λ · 0) = a11 und damit
die Aussage. Sei nun angenommen, die Darstellung gilt für (n − 1) × (n − 1)-Matrizen.
Ist B = 0, dann gilt die Darstellung sofort. Andernfalls seien 1 ≤ r, s ≤ n so gewählt,
dass brs = 1 gilt, und die Determinante nach der s-ten Spalte entwickelt:
det (A − λB) = (−1)
r+s
n
X
· (ars − λ) · det ((A − λB)rs ) +
(−1)i+s · ais · det ((A − λB)is ).
i=1
i6=r
Da in den Untermatrizen Bis , i = 1, . . . , n, nur Elemente aus Zeilen und Spalten entfernt
werden, haben diese weiterhin nur maximal eine Eins pro Zeile und Spalte. Für i 6= r
bleibt die Gesamtzahl der Einsen bei k (falls nur Nullen gestrichen werden). In Brs wird
jedoch sicher eine Eins gestrichen und man hat daher höchstens k − 1 Einsen. Nun kann
man die Induktionsannahme anwenden und erhält vom ersten Teil einen Term proportial
zu λ · λk−1 = λk und Terme niedrigerer Ordnung. Durch den zweiten Teil bekommt man
maximal Terme der Ordnung λk .
Sei nun der spezielle Fall mit B = 1 betrachtet. Den konstanten Koeffizienten eines
Polynoms findet durch Einsetzen der Null und damit α0 = det(A − 0 · 1) = det(A). Für
die Darstellung der höchsten Koeffizienten führt man erneut eine Induktion nach n. Für
n = 1 hat das charakteristische Polynom die gesuchte Form. Sei daher angenommen,
dies gilt auch für n − 1. Dann kann man nun nach der ersten Spalte entwickeln
n
X
det (A − λB) = (a11 − λ) · det ((A − λ1n )11 ) +
(−1)i+1 · ai1 · det ((A − λ1n )i1 ).
i=2
Nach Induktionsannahme hat die Determinante der ersten Untermatrix die Form
det ((A − λ1n )11 ) = (−1)n−1 λn−1 + (−1)n−2 (a22 + . . . + ann )λn−2 + . . . + α0
und die Untermatrizen für i 6= 1 haben in 1n sogar zwei Einsen gestrichen, die Determinante ist somit gemäß obiger Ausführung maximal ein Polynom der Ordnung
n − 2. Für die beiden höchsten Koeffizienten kann man daher nur den ersten Term
betrachten und findet für den höchsten Grad −λ · (−1)n−1 λn−1 = (−1)n λn . Für den
zweithöchsten Grad findet man a11 · (−1)n−1 + (−λ) · (−1)n−2 (a22 + . . . + ann )λn−2 =
(−1)n−1 (a11 + a22 + . . . + ann )λn−1 .
Man findet also alle Eigenwerte zu einem Endomorphismus, indem man sämtliche Nullstellen des charakteristischen Polynoms bestimmt. Dazu ein paar Beispiele.
204
10.2 Das charakteristische Polynom
Beispiele 10.14 (i) Man findet für A =
PA (λ) = det (A − λ1) = det
1 −1
das Polynom
−1
1
1−λ
−1
−1
= (1 − λ)2 − 1
1−λ
= λ2 − 2λ + 1 − 1 = λ2 − 2λ = (λ − 2) · (λ − 0)
und damit die Nullstellen (und Eigenwerte) λ1 = 2 und λ2 = 0.
(ii) Für die Drehung um den Winkel α =
0 −1
A=
1
0
π
2
findet man wegen
−λ −1
PA (λ) = det (A − λ1) = det
= λ2 + 1
1 −λ
keine reellen Nullstellen und somit gibt es auch keine Eigenwerte.
(iii) Für die Scherung mit Faktor m ∈ R findet man durch
A=
1 m
0 1
1−λ
m
PA (λ) = det (A − λ1) = det
0
1−λ
= (λ − 1)2
die Nullstelle (und damit den einzigen Eigenwert) λ1 = 1.
(iv) Für die Spiegelung an der Geraden mit Winkel α findet man mittels
cos(2α)
sin(2α)
A=
sin(2α) − cos(2α)
cos(2α) − λ
sin(2α)
PA (λ) = det (A − λ1) = det
sin(2α)
− cos(2α) − λ
= (cos(2α) − λ) · (− cos(2α) − λ) − sin2 (2α)
= λ2 − (cos2 (2α) + sin2 (2α)) = λ2 − 1 = (λ − 1)(λ + 1)
die Nullstellen (und damit zwei Eigenwerte) λ1 = 1 und λ2 = −1.
Im Allgemeinen ist es jedoch nicht so leicht die Nullstellen von Polynomen zu finden.
Meist kann man die Nullstellen nur durch numerische Methoden (z.B. das NewtonVerfahren) annähern. Findet man jedoch eine Nullstelle, dann lässt sich die Suche nach
den weiteren Nullstellen vereinfachen.
Satz 10.15 (Linearfaktor einer Nullstelle)
Ist λ0 ∈ K eine Nullstelle von p ∈ K[λ], dann gibt es ein eindeutig bestimmtes Polynom
q ∈ K[λ], so dass man denn Linearfaktor (λ − λ0 ) abspalten kann durch
(i) p(λ) = (λ − λ0 ) · q(λ),
(ii) deg(q) = deg(p) − 1.
205
10 Eigenwerte
Beweis. Ist p ein Polynom vom Grad n, dann ist auch p̃(x) := p(x + λ0 ) ein Polynom
vom Grad n und wegen p̃(0) = p(λ0 ) = 0 hat dieses eine Nullstelle bei Null, ist also von
der Form
p̃(x) = an xn + . . . + a2 x2 + a1 x = x · (an xn−1 + . . . + a2 x + a1 ).
Somit findet man durch die Wahl x = λ − λ0 auch die Darstellung
p(λ) = p̃(λ − λ0 ) = (λ − λ0 ) · (an (λ − λ0 )n−1 + . . . + a2 (λ − λ0 ) + a1 ) .
|
{z
}
:=q(λ)
Spaltet man einen Linearfaktor ab, so kann das verbleibenden Polynom wiederum eine
Nullstelle besitzen und man daher auch aus diesem einen weiteren Linearfaktor herausziehen. Dies kann man so lange durchführen bis das verbleibende Polynom keine Nullstelle mehr besitzt. Dabei kann es natürlich vorkommen, dass eine Nullstelle mehrfach
auftritt. Diese fasst man dann in der Darstellung zusammen.
Definition 10.16 (Vielfachheit von Nullstellen)
Sind die λ1 , . . . , λk ∈ K die paarweise verschiedenen Nullstellen eines Polynoms p ∈ K[λ]
und gilt die Darstellung
p(λ) = (λ − λ1 )m1 · . . . (λ − λk )mk · q(λ)
mit einem Polynom q ∈ K[λ] vom Grad n − m1 − . . . − mk ohne Nullstellen, dann
bezeichnet man µ(p; λi ) := mi als die Vielfachheit der Nullstelle λi .
Gilt zusätzlich deg(q) = 0 (konstantes Polynom), dann spricht man davon, dass das
Polynom p in Linearfaktoren zerfällt.
Ob und wie ein Polynom in Linearfaktoren zerfällt, ist eine delikate Frage. Für den
reellen und den komplexen Körper ist in der Literatur folge Aussage bekannt.
Satz 10.17 (Zerlegung von Polynomen)
Für Polynome über den Körper K = R und C findet man:
(i) Jedes komplexe Polynom p ∈ C[λ] mit n = deg(p) zerfällt in Linearfaktoren, d.h.
es gibt einen konstanten Faktor c ∈ C und komplexe Nullstellen λ1 , . . . , λn ∈ C
mit
p(λ) = c · (λ − λ1 ) · . . . · (λ − λn ).
(ii) Jedes reelle Polynom p ∈ R[λ] mit n = deg(p) besitzt eine Zerlegung
p(λ) = c · (λ − λ1 ) · . . . · (λ − λr ) · q1 · . . . · qm ,
wobei der konstante Faktor c ∈ R und die Nullstellen λ1 , . . . , λr ∈ R reell sind und
q1 , . . . , qm ∈ K[λ] Polynome ohne reelle Nullstelle vom Grad 2, d.h. n = r + 2m.
206
10.3 Diagonalisierung
Aus der letzten Aussage folgt im Speziellen, dass jedes reelle Polynom von ungeradem
Grad mindestens eine Nullstelle besitzen muss.
Definition 10.18 (Algebraische Vielfachheit)
Zu f : V → V nennt man die Vielfachheit µ(Pf ; λi ) einer Nullstelle λi des charakteristischen Polynoms die algebraische Vielfachheit des Eigenwerts λi .
10.3 Diagonalisierung
Kennt man die Eigenwerte eines Endomorphismus, kann man auf die Frage der Diagonalisierbarkeit zurückkommen. Ein einfaches, jedoch nur hinreichendes Kriterium findet
man direkt aus der Tatsache, dass Eigenvektoren zu verschiedenen Eigenwerten linear
unabhängig sind.
Satz 10.19 (Hinreichendes Kriterium für Diagonalisierung)
Sei V ein Vektorraum mit Dimension n = dim V < ∞. Es gilt:
f : V → V hat genau n = dim V
paarweise verschiedene Eigenwerte
⇒
f diagonalisierbar.
Beweis. Da alle Eigenwerte verschieden sind, sind die zugehörigen Eigenvektoren (v1 , . . . , vn )
linear unabhängig und damit eine Basis von V .
Anders herum lässt sich zu einem diagonalisierbaren Endomorphimus das charakteristische Polynom einfach berechnen. Zwingend notwendig für die Diagonalisierbarkeit ist
daher sicherlich, dass das Polynom in Linearfaktoren zerfällt.
Satz 10.20 (Notwendiges Kriterium für die Diagonalisierung)
Sei V ein Vektorraum mit Dimension n = dim V < ∞. Es gilt:
f diagonalisierbar
Das charakteristische Polynom
zerfällt in n Linearfaktoren:
Pf (λ) = ±(λ − λ1 ) · . . . · (λ − λn )
⇒
Beweis. Da f diagonalisierbar ist, findet man eine Darstellung A := MB,B (f ) in Diagonalgestalt. Das charakteristische Polynom ergibt sich dann sofort zu


λ1 − λ . . .
0

..  = (λ − λ) · . . . · (λ − λ).
..
Pf (λ) = det (A − λ1n ) = det  ...
.
1
n
. 
0
. . . λn − λ
207
10 Eigenwerte
Es verbleibt damit nur noch die Frage zu klären, wann der Endomorphismus diagonalisierbar ist, wenn das charakteristische Polynom zwar in n Linearfaktoren zerfällt, jedoch
die Eigenwerte nicht alle verschieden sind.
Satz 10.21 (Kriterium für Diagonalisierbarkeit)
Sei V ein Vektorraum mit Dimension dim V < ∞ und zum Endomorphismus f : V → V
seien λ1 , . . . , λk die paarweise verschiedenen Eigenwerte von f . Dann gilt:
f ist diagonalisierbar
⇔
⇔
dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = dim V,
(a) Das charakteristische Polynom zerfällt in Linearfaktoren:
Pf (λ) = ±(λ − λ1 )µ(Pf ;λ1 ) · . . . · (λ − λk )µ(Pf ;λk )
(b) dim Eig(f ; λi ) = µ(Pf ; λi ) für alle Eigenwerte λi , i = 1, . . . , k,
d.h. f ist genau dann diagonalisierbar, wenn eine der folgenden zwei äquivalenten Bedingungen erfüllt ist:
(i) die Summe der Dimension der Eigenräume ist gleich der Dimension des Raums,
(ii) das charakteristische Polynom zerfällt in Linearfaktoren und für alle Eigenwerte
stimmen die geometrische und algebraische Vielfachheit überein.
Beweis. Ist f diagonalisierbar, so gibt es eine Basis aus n Eigenvektoren und jeder
dieser Vektoren liegt in genau einem der Eigenräume. Seien daher mi Basisvektoren in
Eig(f ; λi ) und da diese linear unabhängig sind muss mi ≤ dim Eig(f ; λi ) gelten. Da man
mit den Vektoren der Eigenräume nicht mehr als den gesamten Raum aufspannen kann,
folgt damit
n = m1 + . . . + mk ≤ dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) ≤ n
und somit auch die Gleichheit dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = n.
Gilt umgekehrt, dass die Summe der Dimension der Eigenräume der Dimension des
Raumes entspricht, dann kann man zu jedem Eigenraum Eig(f ; λi ) (i = 1, . . . , k) ei(i)
(i)
ne Basis v1 , . . . , vni mit ni := dim Eig(f ; λi ) wählen (und diese sind als Basis linear
unabhängig). Dann ist aber auch die Vereinigung dieser Basen
(1)
(k)
(v1 , . . . , vn(1)1 , . . . , v1 , . . . , vn(k)
)
k
P P i (i) (i)
P i (i) (i)
linear unabhängig, denn aus ki=1 nr=1
αr vr = 0 folgt zunächst nr=1
α r vr = 0
(Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig) und damit sind
(i)
alle αr = 0. Damit ist eine Basis aus Eigenvektoren gefunden und dies zeigt die erste
Äquivalenz.
Betrachtet man die Vielfachheiten, dann stellt man zunächst dim Eig(f ; λi ) ≤ µ(Pf ; λi )
für jeden Eigenwert λi fest. Um dies zu sehen, wählt man eine Basis (v1 , . . . , vr ) von
208
10.3 Diagonalisierung
Eig(f ; λi ) und ergänzt dies zu einer Basis B = (v1 , . . . , vr , . . . , vn ) von V . In dieser Basis
hat nun der Endomorphismus die Darstellung

λi . . . 0
 .. . .
.
 .
. ..


A = MB,B (f ) =  0 . . . λi



0
∗
∗









mit r-mal λi auf der Diagonalen. Durch Entwicklung nach den ersten r Spalten sieht
man, dass im charakteristischen Polynom mindestens der Faktor (λi − λ)r vorkommen
muss.
Ist nun f diagonalisierbar, so zerfällt Pf in n := dim V Linearfaktoren mit den (evtl.
mehrfachen) Nullstellen λ1 , . . . , λk . Für diese gilt nun dim Eig(f ; λi ) ≤ µ(Pf ; λi ) und
dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = n,
µ(Pf ; λ1 ) + . . . +
µ(Pf ; λk ) = n.
Dies ist nur möglich, wenn für alle i = 1, . . . , k auch dim Eig(f ; λi ) = µ(Pf ; λi ) gilt. Sind
umgekehrt die Bedingungen (a) und (b) erfüllt, dann summieren sich die algebraischen
Vielfachheiten von Pf zu n = dim V , dieses hat als zerfallendes Polynom vom Grad n
genau so viele Nullstellen. Damit folgt auch dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = n. Damit lässt sich das Vorgehen zur Diagonalisierung (sofern möglich) algorithmisch beschreiben:
(1) Man stellt f : V → V bzgl. einer beliebigen Basis B als Matrix A = MB,B (f ) dar
und berechnet das charakteristische Polynom Pf .
(2) Man bestimmt eine Zerlegung Pf (λ) = ±(λ − λ1 )µ(Pf ;λ1 ) · . . . · (λ − λk )µ(Pf ;λk ) und
damit die Nullstellen λ1 , . . . , λk von Pf und deren algebraische Vielfachheit µ(f ; λi ).
Hindernis 1: Zerfällt Pf nicht in Linearfaktoren, dann kann man keine Diagonalisierung durchführen.
(i)
(i)
(3) Man berechnet für jeden Eigenwert λi , i = 1, . . . , k, eine Basis (v1 , . . . , vni ) vom
Eigenraum Eig(f ; λi ) und bestimmt damit dessen Dimension ni := dim Eig(f ; λi ).
Hindernis 2: Ist dim Eig(f ; λi ) 6= µ(f ; λi ) für nur einen Eigenwert λi , dann kann
man keine Diagonalisierung durchführen.
(4) Die Aneinanderreihung der Basisvektoren ergibt die gesuchte Basis
(1)
(k)
Be = (v1 , . . . , vn(1)1 , . . . , v1 , . . . , vn(k)
)
k
209
10 Eigenwerte
bezüglich derer die Matrixdarstellung die Gestalt

λ1

...

0


λ1

..
e

A = MB,
.
e Be(f ) = 

λk


..

.
0
λk
 



dim Eig(f ; λ1 ) − mal
 

 .
 ..
 

 

  dim Eig(f ; λk ) − mal
−1
besitzt und so hat man mit S := TB,B
:= TB,Be die gesuchte Transformation
e und S
e = SAS−1
A
bzw.
−1
MB,
e Be(f ) = TB,B
e · MB,B (f ) · (TB,B
e ) .
Beispiele 10.22 (i) Betrachtet man das charakteristische Polynom zu
1 −1
1 − λ −1
A=
⇒ PA (λ) = det
= (λ − 2) · (λ − 0),
−1
1
−1 1 − λ
so zerfällt dieses in Linearfaktoren und das Hindernis 1 tritt nicht ein. Für die
beiden Eigenwert λ1 = 2 und λ2 = 0 bestimmt man nun noch den Eigenraum
Eig(A; λi ) – d.h. alle Lösungen von (A − λi 12 ) · x = 0 – indem man eine Basis von Kern(A − λi 12 ) berechnet. Dazu bringt man die Matrizen auf reduzierte
Zeilenstufenform und liest ab:
1 − 2 −1
−1 −1
1 1
1
=
⇒ Eig(A; 2) = span(
),
−1 1 − 2
−1 −1
0 0
−1
1 − 0 −1
1 −1
1 −1
−1
=
⇒ Eig(A; 0) = span(
).
−1 1 − 0
−1 1
0 0
−1
Damit sind algebraische und geometrische Vielfachheit jeweils gleich und Hindernis 2 tritt ebenfalls nicht ein. Daher ist die gesuchte Basis gegeben durch
1
−1
2
0
e =
Be = (
,
), und A
.
−1
−1
0 0
Da die ursprüngliche Basis B = (e1 , e2 ) die kanonische war, findet man die Transformation durch Schreiben der Basis als Spalten der Transformationsmatrix
1
− 12
1 −1
−1
2
,
S = TB,Be =
, ⇒ S = TB,B
e =
− 21 − 12
−1 −1
und man rechnet zur Überprüfung nach
1
1
2
0
1
−1
1
−1
−
2
2
e =
A
=
·
·
= SAS−1 .
0 0
−1
1
−1 −1
− 12 − 12
210
10.3 Diagonalisierung
(ii) Für die Drehung um den Winkel α = π2 zerfällt das charakteristische Polynom
0 −1
−λ −1
A=
⇒ PA (λ) = det
= λ2 + 1
1
0
1 −λ
nicht in Linearfaktoren (Hindernis 1). Daher gibt es keine Diagonalisierung.
(iii) Für die Scherung mit Faktor m ∈ R zerfällt das charakteristische Polynom
1 m
1−λ
m
A=
⇒ PA (λ) = det
= (λ − 1)2
0 1
0
1−λ
in Linearfaktoren und Hindernis 1 tritt nicht ein. Die Nullstelle λ1 = 1 hat algebraische Vielfachheit 2, jedoch berechnet man als Eigenraum
1−1
m
0 m
0 1
−1
=
⇒ Eig(A; 1) = span(
)
0
1−1
0 0
0 0
0
und damit ist die geometrische Vielfachheit nur dim Eig(A; 1) = 1. Damit tritt
Hindernis 2 ein und es gibt keine Diagonalisierung.
(iv) Für die Spiegelung an der Geraden mit Winkel α zerfällt das charakteristische
Polynom
cos(2α)
sin(2α)
A=
⇒ PA (λ) = (λ − 1)(λ + 1)
sin(2α) − cos(2α)
in verschiedene Linearfaktoren und die Matrix ist diagonalisierbar. Als Eigenwerte
findet man λ1 = 1 und λ2 = −1 und die Diagonaldarstellung lautet damit
1
0
e
A=
.
0 −1
211
11 Euklidische und unitäre
Vektorräume
11.1 Norm und Skalarprodukt
Für den Rn lässt sich die Länge eines Vektors x durch die Norm kxk messen und durch
hx,yi
Skalarprodukte sogar der Winkel cos ](x, y) = kxk·kyk
zwischen zwei Vektoren x, y ermitteln. Diese Eigenschaften möchte man gerne auf allgemeine Vektorräume übertragen
und dazu werden die charakterisierenden Eigenschaften dieser geometrischen Begriffe
benötigt. Ist ein Vektorraum über R oder C gegeben, so lassen sich die wesentlichen
Eigenschaften der Länge eines Vektors wie folgt zusammenfassen.
Definition 11.1 (Norm)
Für einem K-Vektorraum V mit K = R oder C ist eine Abbildung
k·k : V → R+ ,
v 7→ kvk
eine Norm auf V , falls für alle v, w ∈ V und λ ∈ K die folgenden Eigenschaften gelten:
(N1)
(N2)
(N3)
kvk = 0 ⇔ v = 0,
(Positive Definitheit)
kλvk = |λ| · kvk,
(Absolute Homogenität)
kv + wk ≤ kvk + kwk.
(Sublinearität)
Gibt es auf einem Vektorraum V eine Norm k·k, so nennt man das Paar (V, k·k) einen
normierten Raum.
Erfüllt eine Norm nicht die Eigenschaft (N1), so nennt man sie eine Semi- oder Halbnorm.
Die Halbnorm (und Norm) des Nullvektors ist stets Null und jede Halbnorm (und Norm)
stets nicht-negativ, denn
(N2)
(N3)
(N2)
0 = |0| · kvk = k0 · vk = k0k = kv + (−v)k ≤ kvk + k−vk = kvk + kvk = 2 · kvk .
Beispiel 11.2 (i) Für V = Rn sind die folgenden Abbildungen eine Norm auf Rn :
(a) Die kanonische Norm (oder euklidische Norm bzw. 2-Norm)
q
kxk2 := x21 + x22 + . . . + x2n =
n
X
i=1
x2i
! 12
für x ∈ Rn .
213
11 Euklidische und unitäre Vektorräume
(b) Die Summennorm (oder 1-Norm)
n
X
kxk1 := |x1 | + |x2 | + . . . + |xn | =
i=1
für x ∈ Rn .
|xi |
(c) Für alle p ≥ 1 die p-Norm
n
X
p
kxkp := p |x1 |p + |x2 |p + . . . + |xn |p =
i=1
|xi |p
! p1
für x ∈ Rn .
(d) Die Maximumsnorm (mit kxk∞ := lim kxkp )
p→∞
kxk∞ := max {|xi |}
1≤i≤n
für x ∈ Rn .
(ii) Für V = Cn ist die kanonische Norm k·k : Cn → R gegeben durch
kzk :=
√
z1 z1 + . . . + zn zn =
n
X
zi zi
i=1
! 21
=
n
X
i=1
|zi |2
! 12
für z ∈ Cn .
(iii) Für den Raum der stetigen Funktionen V = C([a, b]; R) auf dem abgeschlossenen
Intervall [a, b] sind die folgenden Abbildungen k·k : C([a, b]; R) → R eine Norm
(a) Die 2-Norm
kf k2 :=
Z
a
b
|f (x)|2 dx
21
.
(b) Die Supremumsnorm
kf k∞ := sup{|f (x)| | a ≤ x ≤ b}.
Die Beispiele zeigen, dass es zu einem Vektorraum viele verschiedene Normen geben
kann. Üblicherweise ist aus dem Kontext ersichtlich, welche Norm verwendet wird, und
man lässt daher den Subskript an der Norm weg. Oftmals ist sogar die Angabe nicht
notwendig, denn viele Normen sind in folgendem Sinne äquivalent.
Definition 11.3 (Äquivalente Normen)
Zwei Normen k·kV,1 und k·kV,2 heißen äquivalent, falls es Konstanten c1 , c2 > 0 gibt, so
dass gilt
c1 kvkV,2 ≤ kvkV,1 ≤ c2 kvkV,2
214
für alle v ∈ V.
(11.1)
11.1 Norm und Skalarprodukt
Sind zwei Normen äquivalent, so lassen sich Abschätzungen in der einen Norm direkt auf
die andere Norm übertragen. Ist der Raum V endlichdimensional, so sind alle Normen
äquivalent.
Beispiel 11.4
Für alle x ∈ Rn gilt:
√
1
√ kxk2 ≤ kxk∞ ≤ kxk1 ≤ n kxk2 .
n
Definition 11.5 (Normierter Vektor)
Ein Vektor v ∈ V mit der Eigenschaft kvk = 1 heißt normiert.
Jeden Vektor v 6= 0 kann man normieren, denn
1
1
= 1 · kvk = 1.
e :=
·v
⇒
ke
vk = ·
v
v
kvk kvk
kvk
Um die Möglichkeit der Winkelmessung zu verallgemeinern, werden die wesentlichen
Eigenschaften eines Skalarprodukts durch die folgende Definition beschrieben.
Definition 11.6 (Skalarprodukt)
Für einem K-Vektorraum V mit K = R oder C ist eine Abbildung
h·, ·i : V × V → K,
(v, w) 7→ hv, wi
(11.2)
ein Skalarprodukt (oder inneres Produkt), falls für alle u, v, w ∈ V und λ ∈ K die
folgenden Eigenschaften erfüllt sind:
(S1)
hu, ui ≥ 0 und hu, ui = 0 ⇔ u = 0,
(S2)(i) hu + v, wi = hu, wi + hv, wi, hλu, vi = λhu, vi,
(S3)
hu, vi = hv, ui.
(Positive Definitheit)
(Linear im 1. Argument)
(Symmetrie / Hermitesch)
Gibt es auf einem Vektorraum V ein Skalarprodukt h·, ·i, so nennt man das Paar (V, h·, ·i)
einen Skalarproduktraum (oder Prä-Hilbertraum).
Für eine reelle Zahl λ gilt stets λ = λ. Verwendet man zudem die Eigenschaft (S3), so
findet man für die beiden Fälle erweiterte Eigenschaften.
Für K = R:
(S2)(ii) hu, v + wi = hu, vi + hu, wi,
(S3)
hu, vi = hv, ui,
Für K = C:
(S2)(ii) hu, v + wi = hu, vi + hu, wi,
(S3)
hu, vi = hv, ui.
hu, λvi = λhu, vi,
(Linear im 2. Argument)
(Symmetrie)
hu, λvi = λhu, vi,
(Semilinear im 2. Argument)
(Hermitesch)
Man bezeichnet dabei eine lineare Funktion, die zwar additiv ist, jedoch die Homogenität
nur halb erfüllt, f (λx) = λf (x), als semilinear. Dementsprechend wird die Eigenschaft
215
11 Euklidische und unitäre Vektorräume
(S2)(i)-(S2)(ii) im komplexen Fall auch Sesquilinearität (1 12 -fach linear) und im reellen
Fall Bilinearität (2-fach linear) genannt.
Ein Skalarprodukt für einen reellen Vektorraum ist somit eine positiv definite, symmetrische Bilinearform und für einen komplexen Vektorraum eine positiv definite, hermitesche
Sesquilinearform.
Definition 11.7 (Euklidische und unitäre Vektorräume)
Einen K-Vektorraum mit Skalarprodukt nennt man im Falle K = R einen euklidischen
Vektorraum und im Falle K = C einen unitären Vektorraum.
Beispiel 11.8 (i) Für V = Rn ist das kanonische Skalarprodukt h·, ·i : Rn × Rn → R
definiert durch
hx, yi := x1 y1 + x2 y2 + . . . + xn yn =
n
X
xi y i
i=1
für x, y ∈ Rn .
(ii) Für V = Cn ist das kanonische Skalarprodukt h·, ·i : Cn × Cn → R definiert durch
hz, wi := z1 w1 + . . . + zn wn =
n
X
zi wi
i=1
für z, w ∈ Cn .
(iii) Für den Raum der stetigen Funktionen V = C([a, b]; R) ist ein Skalarprodukt h·, ·i :
C([a, b]; R) × C([a, b]; R) → R gegeben durch
hf, gi :=
Z
b
f (x)g(x) dx.
a
Besitzt ein Vektorraum ein Skalarprodukt, dann auch automatisch eine Norm.
Satz 11.9 (Induzierte Norm)
Auf jedem Skalarproduktraum gibt es die durch das Skalarprodukt induzierte Norm
p
kvk := hv, vi, für alle v ∈ V.
Beweis. Durch die definierenden Eigenschaften des Skalarprodukts lassen sich direkt
die Norm-Eigenschaften der induzierten Norm folgern.
Für den Rn wird die Norm k·kp nur für p = 2 von einem Skalarprodukt induziert.
Satz 11.10 (Cauchy-Schwarzsche Ungleichung)
In einem Skalarproduktraum
p (V, h·, ·i) gilt für beliebige Vektoren v, w ∈ V und mit der
induzierten Norm k·k = h·, ·i die Cauchy-Schwarzsche Ungleichung
|hv, wi| ≤ kvk · kwk .
216
11.2 Orthogonale Vektoren und Abbildungen
Beweis. Für w = 0 gilt die Gleichung direkt. Für w 6= 0 und jedes λ ∈ C gilt
0 ≤ hv − λw, v − λwi = hv, vi − λhw, vi − λhv, wi + λλhw, wi.
Für die Wahl λ =
hv,wi
kwk2
folgt damit
0 ≤ kvk2 − λhw, vi − λhv, wi + λλ kwk2
hv, wi
hv, wi
hv, wihv, wi
kwk2
2 hw, vi −
2 hv, wi +
kwk
kwk
kwk2 kwk2
|hv, wi|2
2
= kvk −
kwk2
= kvk2 −
und somit
|hv, wi|2 ≤ kvk2 kwk2 .
Wurzelziehen liefert die Behauptung.
Aufgrund der Cauchy-Schwarzschen-Ungleichung gilt damit stets
−1 ≤
hv, wi
≤1
kvk · kwk
und somit macht die folgende Definition Sinn.
Definition 11.11 (Winkel)
In einem Skalarproduktraum (V, h·, ·i) ist der Winkel ](v, w) zwischen zwei Vektoren
v, w ∈ V definiert durch
cos ](v, w) :=
hv, wi
.
kvk · kwk
Damit lässt sich auch zwischen zwei Funktionen eines Funktionenraums formal ein Winkel zuordnen.
11.2 Orthogonale Vektoren und Abbildungen
Definition 11.12 (Orthogonale Vektoren)
Sei (V, h·, ·i) ein Skalarproduktraum.
(i) Zwei Vektoren v, w ∈ V heißen orthogonal oder senkrecht, falls gilt
hv, wi = 0
(:⇔ v ⊥ w).
217
11 Euklidische und unitäre Vektorräume
(ii) Zwei Untervektorräume U, W ⊂ V heißen orthogonal, falls gilt
U ⊥W
:⇔
für alle u ∈ U, w ∈ W.
u⊥w
(iii) Zu einem Untervektorraum U ⊂ V ist das orthogonale Komplement definiert als
U ⊥ := {v ∈ V | v ⊥ u für alle u ∈ U }.
(iv) Eine Familie (v1 , . . . , vk ) in V heißt orthogonal, falls vi ⊥ vj für alle i 6= j.
Die Familie heißt orthonormal, falls zusätzlich kvi k = 1 für alle i = 1, . . . , k gilt.
(v) Ist eine Basis von V eine orthonormale Familie, so heißt sie Orthonormalbasis.
U
U⊥
Eine Orthonormalbasis ist sehr wünschenswert, denn die Darstellung eines Vektors lässt
sich dann mit Hilfe des Skalarprodukts ermitteln.
Satz 11.13 (Entwicklung in der Orthonormalbasis)
Sei (v1 , . . . , vn ) eine Orthonormalbasis von V . Dann gilt für jeden Vektor v ∈ V die
Darstellung
v=
n
X
i=1
hv, vi i vi .
Beweis. Die Koeffizienten der Linearkombination v = α1 v1 + . . . + αi vi + . . . + αn vn
durch die Basis sind eindeutig bestimmt und man findet durch Skalarproduktbildung
mit vi den Koeffizienten
hv, vi i = α1 hv1 , vi i + . . . + αi hvi , vi i + . . . + αn hvn , vi i = αi .
| {z }
| {z }
| {z }
=0
=1
=0
Daher möchte man zu einem Vektorraum gerne eine Orthonormalbasis besitzen. Diese
kann man wie folgt bestimmen.
218
11.2 Orthogonale Vektoren und Abbildungen
Satz 11.14 (Gram-Schmidt Orthonormalisierung)
Sei (V, h·, ·i) ein Skalarproduktraum mit n := dim V < ∞ und (v1 , . . . , vn ) eine Basis
von V . Dann erhält man durch die rekursive Berechnung von
ek := vk −
v
k−1
X
i=1
hvk , wi i wi ,
1
ek
v
wk :=
ke
vk k
(Orthogonalisierung)
(Normierung)
eine Orthonormalbasis (w1 , . . . , wn ) von V und somit besitzt jeder endlichdimensionale
Skalarproduktraum eine Orthonormalbasis.
Beweis. Induktion nach k: Seien die (w, . . . , wk−1 ) orthonormal. Dann ist der Vektor
ek orthogonal zu allen wj mit j = 1, . . . , k − 1, denn es gilt
v
he
vk , wj i = hvk , wj i −
k−1
X
i=1
hvk , wi i hwi , wj i = hvk , wj i − hvk , wj i = 0.
Die Normalisierung liefert dann die Behauptung.
Beispiel 11.15
Gegeben sei die Basis des R3 durch
 
 
 
1
0
0





v1 = 1 , v2 = 1 , v3 = 0 .
1
1
1
219
11 Euklidische und unitäre Vektorräume
Dann findet man die Orthonormalbasis
 
1

e1 = v1 = 1 ,
v
1
√
ke
v1 k = 3
⇒
 
1
1  
√
1 ,
w1 =
3 1
e2 = v2 − hv2 , w1 i w1
v
 
 
 
 
1
1
0
0
1  
1  




1 i· √
1
= 1 −h 1 ,√
3 1
3 1
1
1
 
 
 
1
−2
0
2  1 


1 =
1 ,
= 1 −
3
3
1
1
1
 
√
−2
6
1  
√
1 ,
⇒
w2 =
ke
v2 k =
3
6
1
e3 = v3 − hv3 , w1 i w1 − hv3 , w2 i w2
v
 
 
 
 
 
 
 
0
0
1
1
−2
−2
0
1  
1  
1  
1  






1 i· √
1 −h 0 ,√
1 i· √
1
= 0 −h 0 ,√
3 1
3 1
6
6
1
1
1
1
1
 
 
 
 
1
−2
0
0
1  1  1 


1 −
1 =
−1 ,
= 0 −
3
6
2
1
1
1
1
 
√
0
2
1  
√
−1 .
ke
v3 k =
⇒
w3 =
2
2
1
Durch diese Darstellungsmöglichkeiten mittels des Skalarprodukts kann man auch eine
eindeutige Projektion definieren.
Definition 11.16 (Orthogonale Projektion)
Sei V ein Skalarproduktraum und U ⊂ V ein Untervektorraum. Eine orthogonale Projektion auf U ist eine Abbildung, die jedem Vektor v ∈ V einen Vektor PU (v) ∈ U des
Unterraums zuordnet, der den geringsten Abstand zu v besitzt.
220
11.2 Orthogonale Vektoren und Abbildungen
u3
v
u1
PU (v)
u2
U = span(u1 , u2 )
Satz 11.17
Zu jedem Unterraum U ⊂ V eines Skalarproduktraums ist die orthogonale Projektion
mittels einer Orthonormalbasis (u1 , . . . , ur ) von U gegeben durch
PU : V → U,
v 7→ PU (v) :=
r
X
i=1
hv, ui i ui .
Diese Abbildung ist eindeutig und erfüllt PU |U = idU und Kern(PU ) = U ⊥ und man
findet eine orthogonale Darstellung v = u + u⊥ mit u ∈ U und u⊥ ∈ U ⊥ .
Beweis. Die Orthonormalbasis (u1 , . . . , ur ) von U lässt sich zu einer Orthonormalbasis
(u1 , . . . , ur , ur+1 , . . . , un ) von V mit dem Verfahren von Gram-Schmidt ergänzen. Stellt
man v durch diese Basis dar, so findet man eine Zerlegung
n
r
X
X
hv, ui i ui = u + u⊥
v=
hv, ui i ui +
|i=1 {z
}
:=u ∈U
i=r+1
|
{z
:=u⊥ ∈V \U
}
und da es sich um eine Basis handelt, ist diese Darstellung eindeutig. Der so definierte
Vektor u ist auch der Vektor mit kürzestem Abstand zu v, denn man findet für einen
beliebigen Vektor in U den Abstand
2
r
r
r
X
X
X
λi ui = hv −
λi ui , v −
λj uj i
v −
i=1
i=1
j=1
= hv, vi −
r
X
= hv, vi +
r
X
= hv, vi +
= kvk2 −
i=1
i=1
r
X
i=1
r
X
i=1
λi hui , vi −
r
X
j=1
λj hv, uj i +
r
X
i,j=1
λi λi − λi hui , vi − λi hv, ui i
λi λj hui , uj i
| {z }
=δij
(λi − hv, ui i)(λi − hui , vi) − |hv, ui i|2
|hv, ui i|2 +
r
X
i=1
und dieser wird für die Wahl λi = hv, ui i minimal.
|λi − hv, ui i|2 ,
221
11 Euklidische und unitäre Vektorräume
Definition 11.18 (Orthogonale Abbildungen)
Seien V, W zwei Skalarprodukträume über K. Eine lineare Abbildung f : V → W heißt
orthogonal (K = R) bzw. unitär (K = C), falls gilt
hf (v1 ), f (v2 )iW = hv1 , v2 iV
für alle v1 , v2 ∈ V.
Eine orthogonale Abbildung besitzt bemerkenswerte Eigenschaften.
Satz 11.19 (Eigenschaften von orthogonalen Abbildungen)
Für eine orthogonale Abbildung f : V → W gilt:
(i) kf (v)k = kvk (Längen bleiben erhalten),
(ii)
hf (v1 ),f (v2 )i
kf (v1 )k·kf (v2 )k
=
hv1 ,v2 i
kv1 k·kv2 k
(Winkel bleiben erhalten),
(iii) f ist injektiv und falls V = W somit ein Isomorphismus,
(iv) für einen Eigenwert λ von f gilt stets |λ| = 1.
Beweis. (i)-(ii) folgen direkt aus der Definition. Durch (i) und der Positivität der Norm
sieht man, dass nur der Nullvektor auf Null abgebildet werden kann. Für eine Eigenwert
findet man zudem kvk = kf (v)k = kλ vk = |λ| kvk und damit |λ| = 1.
Orthogonale Abbildung erhalten somit Längen und Winkel. Anschaulich gesprochen sind
dies die Drehungen und Spiegelungen im Raum.
Satz 11.20 (Orthogonale Abbildungen erhalten Orthonormalbasen)
Sei f : V → W und (v1 , . . . , vn ) eine Orthonormalbasis von V . Eine lineare Abbildung
f : V → W ist genau dann orthogonal, wenn (f (v1 ), . . . , f (vn )) eine Orthonormalbasis
von W ist.
Beweis. Ist f orthogonal, dann gilt hf (vi ), f (vj )i = hvi , vj i = δij und man hat die
gewünschte Orthonormalbasis in W . Sind umgekehrt mit hf (vi ), f (v
Pjn)i = δij eine Orthonormalbasis
gegeben,
so
findet
man
für
beliebige
Vektoren
v
=
i=1 λi vi und w =
Pn
i=1 µi vi auch
n
n
n
n
X
X
X
X
hf (v), f (w)i = hf (
λi vi ), f (
µj vj )i = h
λi f (vi ),
µj f (vj )i
=
i=1
n
n
XX
i=1 j=1
= hv, wi.
j=1
λi µj hf (vi ), f (vj )i =
i=1
n
n
XX
i=1 j=1
j=1
λi µj δij =
n X
n
X
i=1 j=1
λi µj hvi , vj i
222
11.3 Adjungierte Abbildungen
In der Sprache der Matrizen bedeutet dies, dass die Spalten der Matrixdarstellung (dies
sind die Bilder der kanonischen Einheitsvektoren) ein Orthonormalsystem bilden müssen. Bildet man daher das Skalarprodukt von jeder Spalte mit den anderen, so ergeben
alle Null und nur das Produkt mit sich selbst ergibt Eins. Eine elegante Art alle diese
Produkte zu notieren besteht darin, das Produkt AT · A zu bilden, da dieses genau alle
diese Skalarprodukte durchführt. Dafür gilt dann aber AT · A = 1n .
Definition 11.21 (Orthogonale Matrix)
Eine Matrix A ∈ Rn×n heißt orthogonal, falls gilt A−1 = AT .
T
Eine Matrix A ∈ Cn×n heißt unitär, falls gilt A−1 = A .
Satz 11.22 (Eigenschaften orthogonaler Matrizen)
Für eine orthogonale Matrix A ∈ Rn×n gilt:
(i) AT A = AAT = 1n ,
(ii) Die Spalten und Zeilen von A bilden eine Orthonormalbasis,
(iii) det A = ±1.
Beweis. (i)-(ii) folgen aus obiger Diskussion. Für (iii) folgt aus AT · A = 1n auch
det (AT · A) = det AT · det A = (det A)2 = det 1n = 1.
11.3 Adjungierte Abbildungen
Definition 11.23 (Adjungierte Abbildungen)
Sei (V, h·, ·i) und (W, h·, ·i) zwei Skalarprodukträume und f : V → W eine lineare
Abbildung. Dann heißt eine lineare Abbildung f ∗ : W → V die adjungierte Abbildung
zu f , falls gilt:
hf (v), wiW = hv, f ∗ (w)iV
für alle v ∈ V, w ∈ W.
Definition 11.24 (Selbstadjungierte Endomorphismen)
Sei (V, h·, ·i) ein Skalarproduktraum. Ein Endomorphismus f : V → V heißt selbstadjungiert, falls gilt:
hf (v), wi = hv, f (w)i
für alle v, w ∈ V.
Beispiel 11.25
Sei V = C0∞ ([a, b]; R) der Raum der reellwertigen, beliebig oft differenzierbaren Funktionen auf dem Intervall [a, b], die in den Randpunkten den Wert Null annehmen, d.h. für
f ∈ C0∞ ([a, b]; R) gilt stets f (a) = f (b) = 0. Dann ist die zweite Ableitung
∆ : V → V,
f 7→ f 00
223
11 Euklidische und unitäre Vektorräume
ein selbstadjungierter Endomorphismus bzgl. des Skalarprodukts
Z b
f (x) g(x) dx.
h·, ·i : V × V → R, hf, gi :=
a
Dies sieht man durch die zweifache Anwendung der partiellen Integration
Z b
Z b
0
b
f 0 (x) g(x) dx.
f (x) g (x) dx = [f (x) g(x)]a −
a
a
Damit gilt nämlich für zwei beliebige Funktionen f, g ∈ C0∞ ([a, b]; R) die Gleichung
hf, ∆(g)i =
Z
b
a
= [f
|
00
0
f (x) g (x) dx = [f (x) g
|
{z
0
(x) g(x)]ba
{z
}
+
=0, da g(a)=g(b)=0
Z
(x)]ba
}
=0, da f (a)=f (b)=0
b
a
−
Z
b
f 0 (x) g 0 (x) dx
a
f 00 (x) g(x) dx = h∆(f ), gi.
Diese Endomorphismen hängen eng mit symmetrischen bzw. hermiteschen Matrizen zusammen.
Definition 11.26 (Symmetrische und hermitesche Matrizen)
Eine Matrix A ∈ Rn×n heißt symmetrisch, falls AT = A.
Eine Matrix A ∈ Cn×n heißt hermitesch, falls AT = A (dabei bezeichnet A die komplex
konjugierte Matrix zu A, in der jedes Element komplex konjugiert ist).
Satz 11.27 (Darstellung selbstadjungierte Endomorphismen)
Sei f : V → V ein Endomorphismus und B eine Orthonormalbasis von V . Dann gilt
f selbstadjungiert
⇔
MB,B (f ) ist symmetrisch bzw. hermitesch.
Beweis. Sei B = (v1 , . . . , vn ) die Orthonormalbasis und zwei Vektoren v, w ∈ V in den
−1
Koordinaten x = Φ−1
B (v), y = ΦB (w) dieser Basis entwickelt. Dann findet man
hv, wi = h
n
X
i=1
xi v i ,
n
X
j=1
y j vj i =
n
X
i,j=1
xi yj hvi , vj i =
n
X
i,j=1
xi yj δij =
n
X
i=1
xi yi = xT y = hx, yi.
Ist der Endomorphismus durch die Matrix A := MB,B (f ) dargestellt, so findet man
daher
und
hf (v), wi = (Ax)T y = xT AT y
hv, f (w)i = xT (Ay) = xT Ay
und daher AT = A bzw. AT = A.
224
bzw.
bzw.
hf (v), wi = (Ax)T y = xT AT y
hv, f (w)i = xT (Ay) = xT Ay
11.3 Adjungierte Abbildungen
Selbstadjungierte Endomorphismen sind dahingehend besonders (und damit einfacher),
dass sie nur reelle Eigenwerte besitzen können.
Satz 11.28 (Eigenwerte selbstadjungierter Endomorphismen sind reell)
Ist f : V → V ein selbstadjungierter Endomorphismus eines K-Skalarproduktraums V
mit K = R oder C, dann sind alle Eigenwerte reell - d.h. eine hermitesche Matrix hat
nur reelle Eigenwerte.
Beweis. Für einen Eigenwert λ mit Eigenvektor v findet man
λhv, vi = hλv, vi = hf (v), vi = hv, f (v)i = hv, λvi = λhv, vi
und da v 6= 0 und somit hv, vi =
6 0 folgt λ = λ.
Zudem sind Eigenvektoren zu verschiedenen Eigenwerte nicht nur linear unabhängig,
sondern sogar orthogonal.
Satz 11.29 (Eigenvektoren selbstadjungierter Endomorphismen sind orthogonal)
Sei f : V → V ein selbstadjungierter Endomorphismus eines K-Skalarproduktraums V .
Dann sind die Eigenvektoren zu verschiedenen Eigenwerten von f orthogonal.
Beweis. Für f (vi ) = λi vi und f (vj ) = λj vj findet man
hf (vi ), vj i = hvi , f (vj )i ⇒ hλi vi , vj i = hvi , λj vj i ⇒ (λi − λj )hvi , vj i = 0
und somit hvi , vj i = 0 für λi 6= λj .
Wählt man zusätzlich in jedem Eigenraum eine Orthonormalbasis, dann erhält man
somit eine Familie von Eigenvektoren die orthonormal sind. Diese bilden dann aber
sogar eine Basis vom Raum.
Satz 11.30 (Für selbstadjungierte Endomorphismen gibt es eine Orthonormalbasis aus Eigenvektoren)
Ist f : V → V ein selbstadjungierter Endomorphismus eines Skalarproduktraums V ,
dann gibt es eine Orthonormalbasis von V aus Eigenvektoren von f .
Beweis. Das charakteristische Polynom zerfällt in Linearfaktoren: Für den Fall K = C
gilt dies wegen des Fundamentalsatzes der Algebra. Für den Fall K = R fasst man das
(reelle) Polynom zunächst auch als ein Polynom in C auf. Dies zerfällt zu nächst in
Linearfaktoren mit Koeffizienten in C. Da alle Eigenwerte des selbstadjungierten Endomorphismus reell sein müssen, sind die Koeffizienten sogar aus R und man erhält nur
reelle Linearfaktoren
Pf (λ) = ±(λ − λ1 ) · . . . · (λ − λn )
mit λ1 , . . . , λn ∈ R.
225
11 Euklidische und unitäre Vektorräume
Die zugehörigen Eigenvektoren lassen sich nun als Orthonormalbasis wählen: Dies sieht
man als Induktion über n := dim V . Für n = 0 hat man die leere (und somit orthonormale) Basis. Für n ≥ 1 gibt es eine Eigenvektor v1 zu λ1 und diesen kann man sogar
normiert wählen kv1 k = 1. Zu diesem Eigenvektor betrachtet man das orthogonale Komplement V ⊥ := {v ∈ V | hv1 , vi = 0}. Dafür stellt man fest, dass f von V ⊥ wieder nach
V ⊥ abbildet, denn für irgendeinen Vektor v ∈ V ⊥ findet man, dass auch f (v) ∈ V ⊥ gilt,
wie man schnell nachrechnet:
hv1 , f (v)i = hf (v1 ), vi = hλ1 v1 , vi = λ1 hv1 , vi = 0.
Damit ist f : V ⊥ → V ⊥ eine Endomorphismus und die Dimension von V ⊥ ist n − 1.
Nach Induktionsvoraussetzung gibt es dafür eine Basis aus Eigenvektoren für V ⊥ und
zusammen mit v1 erhält man daraus eine Orthonormalbasis aus Eigenvektoren für V . Satz 11.31 (Hauptachsentransformation)
Sei der selbstadjungierte Endomorphismus f : V → V bzgl. der Orthonormalbasis B
durch die symmetrische (bzw. hermitesche) Matrix A := MB,B (f ) dargestellt. Dann
gibt es eine Basistransformation auf eine Basis Be mit einer orthogonalen Transformation
TB,B
e , so dass die Matrixdarstellung Diagonalgestalt besitzt, d.h. es gilt


λ1 . . .
0
.. 
T  ... λ
.

2
e
A = MB,
=.

e Be(f ) = TB,B
e · MB,B (f ) · TB,B
e
.
..
 ..

0 ...
λn
und die λ1 , . . . , λn sind die Eigenwerte von f . Speziell gibt es zu jeder symmetrischen
reellen Matrix A eine orthogonale Matrix S, so dass
Diagonalgestalt besitzt.
e = SAST
A
Die praktische Berechnung zur Diagonalisierung eines selbstadjungierten Endomorphismus f : V → V geht wie folgt:
(1) Man stellt f : V → V bzgl. einer beliebigen Basis B als Matrix A = MB,B (f ) dar
und berechnet das charakteristische Polynom Pf .
(2) Man bestimmt die Zerlegung Pf (λ) = ±(λ − λ1 )µ(Pf ;λ1 ) · . . . · (λ − λk )µ(Pf ;λk ) und
damit die Eigenwerte λ1 , . . . , λk von Pf .
(3) Man berechnet für jeden Eigenwert λi , i = 1, . . . , k, eine Basis vom Eigenraum
Eig(f ; λi ) und wendet darauf das Verfahren von Gram-Schmidt an. Dadurch erhält
(i)
(i)
man eine Orthonormalbasis (v1 , . . . , vni ) für jeden Eigenraum.
(4) Die Aneinanderreihung der Basisvektoren ergibt die gesuchte Orthonormalbasis
(1)
(k)
)
Be = (v1 , . . . , vn(1)1 , . . . , v1 , . . . , vn(k)
k
226
11.3 Adjungierte Abbildungen
bezüglich derer die Matrixdarstellung die Gestalt

λ1

..
.

0


λ1

..
e

A = MB,
.
e Be(f ) = 

λk


...

0
λk
 



dim Eig(f ; λ1 ) − mal
 

 .
 ..
 

 

  dim Eig(f ; λk ) − mal
besitzt und so hat man mit S := TB,B
und ST = S−1 := TB,Be die gesuchte Transe
formation
e = SAST
A
bzw.
T
MB,
e Be(f ) = TB,B
e · MB,B (f ) · (TB,B
e ) .
Da man zu einem selbstadjungierten Endomorphismus stets eine Orthonormalbasis finden kann, lässt sich auch eine wichtige Darstellung des Endomorphismus konstruieren.
Satz 11.32 (Spektraldarstellung selbstadjungierter Endomorphismen)
Ist f : V → V ein selbstadjungierter Endomorphismus eines endlich-dimensionalen
Skalarproduktraums V , dann gilt die Spektraldarstellung
f=
r
X
λk P k ,
k=1
wobei die λ1 , . . . , λr ∈ R die Eigenwerte des Endomorphismus sind und Pk : V →
Eig(f ; λk ) die orthogonale Projektion auf den Eigenraum Eig(f ; λk ) bezeichnet.
Beweis. Es gibt eine Orthonormalbasis (v1 , . . . , vn ) aus Eigenvektoren von f . Damit genügt es zu zeigen, dass für jeden Basisvektor die beiden Darstellungen dieselbe Wirkung
haben. Für einen Eigenvektor v zum Eigenwert λj liefert die orthogonale Projektion
jedoch
(
v, für k = j,
Pk (v) =
0, für k 6= j,
und somit
r
X
k=1
λk Pk (v) =
r
X
λk δkj v = λj v = f (v).
k=1
227
12 Metrische Räume
Die ersten Kapitel waren dem Studium von Funktionen f : R → R mit einer Variablen
in den Körper der reellen Zahlen R gewidmet und für diese lassen sich Begriffe wie
Stetigkeit, Differenzierbarkeit oder Integrierbarkeit formulieren und untersuchen. Die
Betrachtungen über lineare Abbildungen zwischen Vektorräumen V und W
f :V →W
zum Beispiel: f : Rn → Rm
legt nun nahe diese Begriffe auf Abbildungen zwischen mehrdimensionalen Räumen auszuweiten. Dabei muss man den für die Analysis wesentlichen Begriff der Konvergenz für
solche Räume erklären, d.h. man muss ausdrücken können, wann sich zwei Vektoren nahe kommen. Dies erfordert die Einführung eines Verständnisses vom Abstand zwischen
zwei Vektoren und wird durch die Definition einer Metrik geschehen.
12.1 Metrik, Konvergenz und Vollständigkeit
Für eine Menge (und damit auch für Vektorräume) ist der Abstand zwischen zwei Elementen der Menge durch die folgenden Eigenschaften charakterisiert.
Definition 12.1 (Metrik und metrischer Raum)
Für eine Menge M heißt eine Abbildung
d : M × M → R+ ,
(x, y) 7→ d(x, y)
eine Metrik (oder Abstandsfunktion) auf M , falls sie für alle x, y ∈ M die folgenden
Eigenschaften besitzt:
(M1) d(x, y) = 0 ⇔ x = y,
(M2) d(x, y) = d(y, x),
(M3) d(x, z) ≤ d(x, y) + d(y, z).
(Positive Definitheit)
(Symmetrie)
(Dreiecksungleichung)
Gibt es auf einer Menge M eine Metrik d, so nennt man das Paar (M, d) einen metrischen
Raum und d(x, y) den Abstand oder die Distanz der Punkte x, y ∈ M bzgl. der Metrik
d.
Der Abstand ist damit stets nicht-negativ, denn mit (M1)-(M3) folgt
(M1)
(M3)
(M2)
0 = d(x, x) ≤ d(x, y) + d(y, x) = d(x, y) + d(x, y) = 2 · d(x, y).
229
12 Metrische Räume
Satz 12.2 (Induzierte Metrik)
Auf jedem normierten Vektorraum (V, k·k) gibt es die durch die Norm induzierte Metrik
d(v, w) := kv − wk
für alle v, w ∈ V.
Beweis. Durch die definierenden Eigenschaften der Norm lassen sich direkt die MetrikEigenschaften der induzierten Metrik folgern.
Für zwei reelle Zahlen x, y ∈ R ist eine Abstandsfunktion d(x, y) := |x − y| durch
den Betrag gegeben. Dieser wird verwendet, um den Begriff Konvergenz zu definieren.
Ersetzt man in der Definition den Betrag durch eine Norm oder allgemeiner durch eine
Metrik, dann lässt sich diese Begrifflichkeit direkt auf metrische Räume übertragen.
Definition 12.3 (Konvergenz, Grenzwert)
Sei (M, d) ein metrischer Raum. Eine Folge (an )n∈N in M heißt konvergent gegen den
Grenzwert (oder Limes) a ∈ M , falls der Abstand der Folgenglieder an zu a immer
geringer wird, d.h. falls zu jeder (beliebig kleinen) reellen Zahl > 0 ein n ∈ N existiert,
so dass gilt:
d(an , a) < für alle
n ≥ n .
Ist eine Folge (an )n∈N konvergent gegen den Grenzwert a ∈ M , so schreibt man
lim an = a
n→∞
oder
an → a (n → ∞).
Für einen normierten Vektorraum (V, k·k) ist die Metrik durch eine Norm induziert und
das Kriterium lautet damit vollkommen analog zum reellen Fall: Die Folge (an )n∈N in V
konvergiert gegen den Grenzwert a ∈ V , falls es zu jedem > 0 ein n ∈ N gibt, so dass:
kan − ak < für alle
n ≥ n ,
oder anders ausgedrückt: Der Abstand ist eine Nullfolge, d.h.
lim kan − ak = 0.
n→∞
Damit lässt sich die Konvergenz einer Folge in Rn genauer untersuchen.
Satz 12.4 (Konvergenz im Rn ⇔ komponentenweise Konvergenz )
Für eine Folge im normierten Vektorraum (Rn , k·k2 ) gilt: Eine Folge von Vektoren
(a1 , a2 , a3 , . . .) = (ak )k∈N im Rn ist genau dann konvergent gegen den Grenzwert a ∈ Rn ,
wenn jede Folge der Komponenten der Vektoren konvergent ist, d.h.
lim ak = a
k→∞
230
⇔
lim ak,j = aj ,
k→∞
für alle j = 1, . . . , n.
12.1 Metrik, Konvergenz und Vollständigkeit
Beweis. Für alle j = 1, . . . , n gilt
q
√
|ak,j − aj | ≤ |ak,1 − a1 |2 + . . . + |ak,n − an |2 ≤ n max {|ak,j − aj |}.
1≤j≤n
Damit gilt: lim kak − ak2 = 0 ⇔ lim |ak,j − aj | = 0 für alle j = 1, . . . , n.
k→∞
k→∞
Bemerkung 12.5
In Vektorräumen von endlicher Dimension sind alle Normen äquivalent und daher hängt
die Konvergenz nicht von der Wahl der Norm ab. Für unendlichdimensionale Vektorräume gilt dies im Allgemeinen nicht und die Konvergenz einer Folge in einer Norm
bedeutet nicht zwingend die Konvergenz bzgl. einer anderen Norm.
Ganz analog lässt sich auch der Begriff der Cauchy-Folge übertragen.
Definition 12.6 (Cauchy-Folge)
Sei (M, d) ein metrischer Raum. Eine Folge (an )n∈N heißt Cauchy-Folge, wenn es zu
jedem > 0 ein n ∈ N gibt, so dass gilt:
d(an , am ) < für alle m, n ≥ n .
Bei den Untersuchungen zum Körper Q der rationalen Zahlen wurde festgestellt, dass
√
dieser nicht vollständig ist. Damit ist gemeint, dass man zwar gewisse Zahlen (z.B. 2)
durch Folgen mit Werten in Q beliebig genau approximieren kann, jedoch der Grenzwert der Folge keine rationale Zahl ist und somit nicht in Q liegt. Der Zahlenraum wurde
daraufhin erweitert, indem man den Grenzwert aller Cauchy-Folgen mit zu dem Zahlenraum hinzunimmt (genauer: man erweitert den Zahlenraum um die Äquivalenzklassen
aller Cauchy-Folgen). Dadurch hat man den vollständigen Körper R erhalten, in dem
jede Cauchy-Folge eine Grenzwert in R besitzt. Durch die Einführung der Cauchy-Folge
lässt sich diese Eigenschaft nun auch auf beliebigen metrischen Räumen untersuchen.
Definition 12.7 (Vollständigkeit, Banachraum, Hilbertraum)
(i) Ein metrischer Raum (M, d) heißt vollständig, falls jede Cauchy-Folge aus M gegen
einen Grenzwert in M konvergiert.
(ii) Ein normierter Vektorraum (V, k·k) heißt Banachraum, falls V bzgl. der durch die
Norm induzierten Metrik d(x, y) := kx − yk vollständig ist.
(iii) Ein Skalarproduktraum (V, h·, ·i) heißt Hilbertraum, falls V mit der durch das Skalarprodukt induzierten Norm ein Banachraum ist.
Kurz ausgedrückt: Ein Banachraum ist ein vollständiger, normierter Vektorraum. Ein
Hilbertraum ist ein vollständiger, normierter Vektorraum mit Skalarprodukt.
Satz 12.8 (Rn ist vollständig)
Der normierte Vektorraum (Rn , k·k2 ) ist vollständig.
231
12 Metrische Räume
Beweis. Sei (ak )k∈N eine Cauchyfolge in (Rn , k·k2 ). Dann gilt für alle j = 1, . . . , n und
für jedes > 0:
|am,j − al,j | ≤ kam − al k2 < für alle m, l ≥ n .
Somit ist jede Komponentenfolge (ak,j )k∈N eine Cauchy-Folge in R. Da nun aber R
vollständig ist, gibt es damit auch dessen Grenzwert lim ak,j =: aj und somit findet
k→∞
man
  lim ak,1   

ak,1
a
k→∞
  1
 ak,2  
lim
a
k,2


a2 


k→∞
=
lim ak = lim  ..  = 

 =: a ∈ Rn .
.
.


.
k→∞
k→∞  . 
..

 .
ak,n
an
lim ak,n
k→∞
Bemerkung 12.9 (i) Die Vollständigkeit von Rn wird auf die Vollständigkeit von R
zurückgeführt. Die Vollständigkeit von R jedoch ist ein Postulat, d.h. R ist gemäß
seiner Definition (Q + Grenzwerte aller Cauchy-Folgen) vollständig.
(ii) Rn ist bzgl. jeder Norm vollständig. Ganz allgemein ist sogar jeder endlichdimensionale normierte Raum vollständig.
(iii) Der Raum C([a, b]; R) der stetigen Funktionen auf dem abgeschlossenen Intervall
[a, b] ist bzgl. der Supremumsnorm
kf k∞ := sup{|f (x)| | a ≤ x ≤ b}
vollständig, jedoch ist er bzgl. der vom Skalarprodukt induzierten Norm
kf k2 :=
Z
a
b
|f (x)|2 dx
21
nicht vollständig.
12.2 Offene und abgeschlossene Mengen
Definition 12.10 (offene Kugel)
Sei (M, d) ein metrischer Raum, a ∈ M und r > 0. Dann heißt die Menge
Br (a) := {x ∈ M | d(x, a) < r}
die offene Kugel mit Radius r und Mittelpunkt a bzgl. der Metrik d.
232
12.2 Offene und abgeschlossene Mengen
Definition 12.11 (Umgebung)
Eine Teilmenge U ⊂ M eines metrischen Raums (M, d) heißt Umgebung von a ∈ M ,
falls ein > 0 existiert, so dass
B (a) ⊂ U.
M
U
a
Definition 12.12 (Offene Menge)
Eine Teilmenge U ⊂ M eines metrischen Raums (M, d) heißt offen, wenn sie Umgebung
aller ihrer Elemente ist, d.h. falls es zu jedem a ∈ U ein > 0 gibt mit
B (a) ⊂ U.
Beispiele 12.13 (a) Sei V = R und a, b ∈ R, a < b.
Das Invervall (a, b) := {x ∈ R | a < x < b} ist offen, denn für x ∈ (a, b) findet man
mit := min{|a−x|, |b−x|} eine Umgebung B (x) ⊂ (a, b). Auch die uneigentlichen
Intervalle (−∞, a) und (b, ∞) sind offen.
Das Invervall [a, b) := {x ∈ R | a ≤ x < b} ist nicht offen, denn betrachtet man
a ∈ [a, b), so liegt keine Umgebung B (a) ganz in [a, b).
(b) Für jeden metrischen Raum V , a ∈ V und r > 0 ist die offene Kugel Br (a) offen
(und rechtfertig damit den Namen), denn für ein beliebiges x ∈ Br (a) findet man
stets eine Umgebung ganz innerhalb der Kugel durch die Wahl
:= r − d(x, a) > 0
⇒
B (x) ⊂ Br (a)
wie man durch die Dreiecksungleichung nachrechnet.
x
a
r
Satz 12.14 (Eigenschaften offener Mengen)
Für die offenen Teilmengen eines metrischen Raums V gilt:
233
12 Metrische Räume
(i) ∅ und V sind offene Mengen.
(ii) Die Vereinigung von beliebig vielen offenen Mengen ist offen,
S
d.h. für eine beliebige Indexmenge I gilt: (Ui )i∈I offen ⇒
Ui offen.
i∈I
(iii) Der Durchschnitt endlich vieler offener Mengen ist offen,
n
T
d.h. es gilt: U1 , U2 , . . . , Un offen ⇒
Ui offen.
i=1
Beweis. (i) Per Definition ist V eine Umgebung aller ihrer Punkte. Die leere Menge ∅
besitzt keinen Punkt, um den es eine Umgebung geben müsste.
S
(ii) Sei x ∈ i∈I Ui . Dann gibt es mindestens S
einen Index j ∈ I mit x ∈ Uj . Da Uj offen
ist, gibt es einen Radius mit B (x) ⊂ Uj ⊂ i∈I Ui .
(iii) Sei x ∈ U1 ∩ . . . ∩ Un . Da alle U1 , . . . , Un offen sind, gibt es jeweils einen geeigneten
Radius i , so dass Bi (x) ⊂ Ui gilt. Wählt man den kleinsten solchen Radius :=
min{1 , . . . , n }, so gilt B (x) ⊂ U1 ∩ . . . ∩ Un und der Durchschnitt ist offen.
Bemerkung 12.15
Gibt es zu einer Menge V eine Menge an Teilmengen T mit den Eigenschaften (i)-(iii),
so nennt man T eine Topologie auf V und (V, T ) einen topologischen Raum. Die offenen
Teilmenge eines metrischen Raums V sind somit eine Topologie auf V .
Bemerkung 12.16
Der Durchschnitt von unendlich vielen offenen Mengen ist im Allgemeinen
nicht offen.
T
1 (0) = {0}
B
So findet man z.B. für die offenen Kugeln B 1 (0) den Durchschnitt ∞
n=1
n
n
und dies ist keine offene Menge.
Definition 12.17 (Abgeschlossene Menge)
Eine Teilmenge U ⊂ M eines metrischen Raums (M, d) heißt abgeschlossen, wenn das
Komplement M \ U offen ist.
Beispiele 12.18 (i) Sei V = R und a, b ∈ R, a < b.
Das Invervall [a, b] := {x ∈ R | a ≤ x ≤ b} ist abgeschlossen, denn die uneigentlichen Intervalle (−∞, a) und (b, ∞) sind offen.
Das Invervall [a, b) := {x ∈ R | a ≤ x < b} ist nicht abgeschlossen, denn [b, ∞) ist
nicht offen.
(ii) ∅ und V sind abgeschlossen, denn ihre Komplemente sind offen.
Die Beispiele zeigen, dass es folglich Teilmengen gibt, die sowohl offen als auch abgeschlossen sind (z.B. ∅ und V ). Zudem gibt es Mengen, die weder offen noch abgeschlossen
sind (z.B. [a, b) oder (a, b]).
Betrachtet man für eine Teilmenge U ⊂ M eine Folge (xk )k∈N in U , d.h. für alle Folgenglieder gilt xk ∈ U, k ∈ N, und konvergiert diese Folge, dann liegt der Grenzwert im
Allgemeinen nur in M . Dies kommt typischerweise dann vor, wenn die Folge gegen den
234
12.3 Inneres, Äußeres, Rand und Abschluss
“Rand” der Menge U strebt, z.B. ist sind für M = R und U = (0, 1] alle Glieder der
Folge n1 , n ≥ 1, in U enthalten, der Grenzwert limn→∞ n1 = 0 jedoch ist nur Element von
M , nicht von U .
Bei abgeschlossenen Mengen kann dies nicht passieren, denn ihre wesentliche Eigenschaft
ist, dass der Grenzwert einer Folge innerhalb der Menge — sofern er existiert — stets
auch Element der Menge ist.
Satz 12.19 (Charakterisierung abgeschlossener Mengen)
Sei M ein metrischer Raum. Für eine Teilmenge U ⊂ M gilt:
U abgeschlossen
Der Grenzwert lim xk =: x ∈ M jeder konvergenten
k→∞
⇔
Folge (xk )k∈N in U (d.h. xk ∈ U für alle k ∈ N)
liegt ebenfalls in U (d.h. x ∈ U ⊂ M ).
Beweis. Sei U abgeschlossen vorausgesetzt. Angenommen der Grenzwert x := limk→∞ xk
liegt in M \ U , dann gibt es eine -Umgebung B (x) ⊂ M \ U , da M \ U offen ist. Gemäß
der Definition der Konvergenz einer Folge liegen ab einer Schranke n ∈ N aber dann
alle Folgenglieder xk , x ≥ n in dieser Umgebung und damit in M \ U . Widerspruch zu
xk ∈ U .
Sei die Folgeneigenschaft vorausgesetzt. Dann ist M \ U offen, denn zu jedem Punkt
x ∈ M \ U findet man ein mit B (x) ⊂ M \ U . Dies sieht man durch Widerspruch:
Angenommen, dies wäre nicht der Fall, dann kann man für jedes k ∈ N einen Punkt
xk ∈ U finden, so dass d(xk , x) < k1 . Diese Folge konvergiert gegen x und damit gälte
x ∈ U nach der Folgeneigenschaft, im Widerspruch zu x ∈ M \ U .
12.3 Inneres, Äußeres, Rand und Abschluss
Mehr Einblick in die Eigenschaften von offenen und abgeschlossenen Mengen findet man,
indem man die Punkte der Mengen betrachtet.
Definition 12.20 (Inneres, Äußeres und Rand)
Sei (M, d) ein metrischer Raum und U ⊂ M eine Teilmenge. Ein Punkt a ∈ M heißt
(i) innerer Punkt von U , falls es eine Umgebung von a gibt, die ganz in U liegt, d.h.
für ein > 0 gilt B (a) ⊂ U ,
(ii) äußerer Punkt von U , falls es eine Umgebung von a gibt, die ganz im Komplement
M \ U liegt, d.h. für ein > 0 gilt B (a) ⊂ M \ U ,
(iii) Randpunkt von U , falls jede Umgebung von a wenigstens einen Punkt mit U als
auch mit M \ U gemeinsam hat, d.h. für alle > 0 gilt sowohl B (a) ∩ U 6= ∅, als
auch B (a) ∩ (M \ U ) 6= ∅.
Der Raum M wird dadurch in die folgenden disjunkten Mengen zerlegt:
(i) das Innere Ů von U als Menge aller inneren Punkte,
235
12 Metrische Räume
(ii) das Äußere von U als Menge aller äußeren Punkte,
(iii) den Rand ∂U von U als Menge aller Randpunkte.
Ein Punkt a ∈ M heißt
(i) Berührpunkt von U , falls jede Umgebung von a wenigstens einen Punkt aus U
enthält, d.h. für alle > 0 gilt B (a) ∩ U 6= ∅,
(ii) Häufungspunkt von U , falls jede Umgebung von a wenigstens einen von a verschiedenen Punkt aus U enthält, d.h. für alle > 0 gilt (B (a) \ {a}) ∩ U 6= ∅,
(iii) isolierter Punkt von U , falls es eine Umgebung von a gibt, in der (außer a) kein
weiterer Punkt von U liegt, d.h. es gibt ein > 0, so dass (B (a) \ {a}) ∩ U = ∅.
Der Abschluss von U ist definiert durch
U := {x ∈ M | x ist Berührpunkt von U }.
Anschaulich bedeuten diese Begriffe folgendes:
Ein Punkt ist genau dann Randpunkt, falls man für jeden beliebig kleinen Abstand > 0
stets noch einen Punkt der Menge U als auch einen Punkt im Komplements M \U finden
kann, so dass diese höchsten diesen Abstand entfernt liegen — ein Randpunkt hat somit
unendlich viele Punkte der Menge als auch des Komplements in seiner Nähe.
Ein Punkt liegt im Inneren, falls er zur Menge gehört und noch echt vom Rand entfernt
ist — man kann nämlich einen Abstand > 0 finden, so dass nur Punkte der Menge U
innerhalb dieses Abstands liegen und somit keiner vom Komplement.
Analog liegt ein Punkt im Äußeren, falls er nicht zur Menge gehört und noch echt vom
Rand entfernt ist — man kann nämlich einen Abstand > 0 finden, so dass nur Punkte
des Komplements M \ U innerhalb dieses Abstands liegen und somit keiner der Menge.
Die Häufungspunkte sind die Punkte von M , die sich durch die Punkte von U beliebig gut
approximieren lassen — denn man findet für einen beliebig kleinen Abstand > 0 stets
noch einen Punkt von U , der höchstens diesen Abstand entfernt ist. Häufungspunkte
müssen nicht zur Menge U gehören (z.B. der Rand einer offenen Kugel im Rn ). Jedoch
sind nicht zwingend alle Punkte der Menge auch Häufungspunkte. Dies sind genau die
isolierten Punkte, die in einer Umgebung keinen anderen Punkt von U liegen haben.
Die Berührpunkte lassen sich ebenfalls durch Punkte aus U approximieren und jeder
Häufungspunkt ist immer auch Berührpunkt. Anders als bei den Häugfungspunkten ist
jedoch jeder Punkt der Menge U auch stets Berührpunkt (d.h. auch isoliert liegende
Punkte gehören dazu).
Der Abschluss U einer Menge U ist somit die Menge U selbst, zu der man noch alle
Häufungspunkte von U hinzunimmt, d.h. alle Punkte aus M , die sich mit Punkten aus
U approximieren lassen.
Bemerkung 12.21
Es gilt:
236
12.4 Stetige Abbildungen
M
Außen
a
Innen
U
U
∂U
Abbildung 12.1: Links: Eine Teilmenge U ⊂ M ⊂ R2 bestehend aus einem zusammenhängenden Gebiet und zwei isolierten Punkten. Rechts: Inneres, Äußeres
und Rand von U , sowie eine Umgebung zu einem Randpunkt a
(i) Ů = U \ ∂U und das Innere Ů ist offen.
(ii) U = U ∪ ∂U und der Abschluss U ist abgeschlossen.
(iii) Ů ⊂ U ⊂ U .
(iv) Der Rand ∂U ist abgeschlossen.
Beispiel 12.22
Für M := R und das halboffene Intervall I := [a, b) (mit a < b) findet man das Innere
˚
I = (a, b), das Äußere (−∞, a) ∪ [b, ∞), den Rand ∂I = {a, b}, den Abschluss I = [a, b].
12.4 Stetige Abbildungen
Für reellwertige Funktionen f : R → R wird die Stetigkeit einer Funktion über Folgen
definiert und kann analog in einer -δ-Formulierung über den Abstand mittels des Betrags |x − y| (x, y ∈ R) ausgedrückt werden. Auf metrischen Räumen besitzt man zum
einen ebenfalls den Begriff des Abstands und dadurch zum anderen auch den Begriff
der Konvergenz einer Folge. Dies ermöglicht es die Definition der Stetigkeit ohne gr
Herunterladen