Inhaltsverzeichnis

Inhaltsverzeichnis
1 Grundlagen
1.1 Mathematische Sprache .
1.2 Beweistechniken . . . . .
1.3 Mengen . . . . . . . . .
1.4 Abbildungen . . . . . . .
1.5 Natürliche Zahlen N und
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
vollständige Induktion
2 Zahlen
2.1 Die Gruppe der ganzen Zahlen Z . . . . . .
2.2 Der Körper der rationalen Zahlen Q . . . . .
2.3 Der Körper der reellen Zahlen R . . . . . . .
2.4 Mächtigkeit von Mengen und Abzählbarkeit
2.5 Rechnerarithmetik . . . . . . . . . . . . . .
2.6 Der Körper der komplexen Zahlen C . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
7
12
15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
23
25
28
35
38
42
3 Konvergenz, Folgen und Reihen
3.1 Konvergenz . . . . . . . . . . . . . . . . . . . .
3.2 Bestimmung von Konvergenz und Grenzwerten .
3.3 Häufungspunkte und Teilfolgen . . . . . . . . .
3.4 Reihen . . . . . . . . . . . . . . . . . . . . . . .
3.5 Konvergenzkriterien für Reihen . . . . . . . . .
3.6 Potenzreihen . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
50
53
54
57
59
.
.
.
.
.
61
61
62
65
67
70
.
.
.
.
.
73
74
76
78
81
84
4 Stetigkeit
4.1 Intervalle . . . . . . . . . . . . . . .
4.2 Folgenstetigkeit . . . . . . . . . . .
4.3 -δ-Stetigkeit . . . . . . . . . . . .
4.4 Rechenregeln für stetige Funktionen
4.5 Zwischenwertsatz . . . . . . . . . .
.
.
.
.
.
5 Differentiation
5.1 Ableitung von Funktionen . . . . . .
5.2 Ableitung als lineare Approximation
5.3 Ableitungsregeln . . . . . . . . . . .
5.4 Extrema und Mittelwertsatz . . . . .
5.5 Taylorreihe . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Inhaltsverzeichnis
5.6
Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Integration
6.1 Zerlegungen und Flächeninhalte . . . . . . . . . .
6.2 Riemann-Integral . . . . . . . . . . . . . . . . . .
6.3 Hauptsatz der Differential- und Integralrechnung .
6.4 Integrationsregeln . . . . . . . . . . . . . . . . . .
6.4.1 Partielle Integration . . . . . . . . . . . .
6.4.2 Substitutionsregeln . . . . . . . . . . . . .
6.5 Quadraturformeln . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Vektorräume
7.1 Der n-dimensionale reelle Raum Rn . . . . . . . . . .
7.2 Raum von Folgen und Funktionen . . . . . . . . . . .
7.3 Allgemeine Definition von Vektorräumen . . . . . . .
7.4 Linearkombination, Span und lineare Unabhängigkeit
7.5 Basis und Dimension . . . . . . . . . . . . . . . . . .
8 Lineare Abbildungen und Matrizen
8.1 Matrizen . . . . . . . . . . . . .
8.2 Lineare Abbildungen . . . . . .
8.3 Lineare Gleichungssysteme . . .
8.4 Gauß-Elimination . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
.
.
.
.
.
.
.
95
95
97
104
105
106
106
107
.
.
.
.
.
113
113
117
120
121
125
.
.
.
.
131
131
132
135
137
1 Grundlagen
1.1 Mathematische Sprache
Möchte man mathematische Sachverhalte ausdrücken, so verwendet man dafür eine Sprache, die präziser in seiner Aussagekraft ist als dies zum Beispiel in der Alltagssprache
üblich ist. Dadurch sollen mathematische Zusammenhänge übersichtlich und kompakt
darstellbar sein und vor allem sollen mathematische Aussagen beweisbar werden. Es hat
sich dazu ein gebräuchlicher Zeichenvorrat entwickelt, der neben weiteren grundlegenden
Begriffen im Folgenden vorgestellt werden soll.
Mathematische Aussagen
Eine mathematische Aussage ist ein Satz, der wahr oder falsch sein kann. So ist zum
Beispiel der Satz
„Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“
eine Aussage, die wahr ist. Zwei Dinge sind bei der Betrachtung von Aussagen wichtig:
(i) Eine Aussage ist immer ein ganzer Satz. Aussagen der Form „x2 + 3“ sind nur
Terme, deren Wahrheitsgehalt sich nicht ermitteln lässt.
(ii) Eine Aussage ist immer entweder wahr oder falsch („Tertium non datur“; Prinzip
des ausgeschlossenen Dritten). Dabei ist durchaus möglich, dass noch nicht bekannt
ist, ob eine Aussage wahr oder falsch ist (z.B. da noch kein Beweis gefunden ist).
Aussagen werden gewöhlich mit lateinischen Großbuchstaben bezeichnet. Man verwendet
bei der Angabe das Definitionssymbol := („ist definiert durch“). Zudem können Aussagen
auch von Variablen abhängen. Durch Einsetzen eines konkreten Wertes für die Variable
kann dann der Wahrheitsgehalt der so entstandenen Aussage ermittelt werden. Dadurch
lassen sich ganze Klassen von Aussagen kompakt angeben.
Beispiele 1.1
(i) A := „Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“
(ii) B(n) := „n + n ist eine gerade Zahl.“
(iii) C(n) := „n2 + 2n = 8“
(iv) D := „2 = 3“
3
1 Grundlagen
A
w
f
w
f
B
w
w
f
f
A∧B
w
f
f
f
A∨B
w
w
w
f
A xor B
f
w
w
f
A
w
f
¬A
f
w
Tabelle 1.1: Wahrheitstafeln (w: wahr; f: falsch)
Hierbei ist sowohl A als auch B(n) für alle natürlichen Zahlen eine wahre Aussage. Die
Gültigkeit von C(n) hängt vom gewählten n ab und D ist falsch.
Kombination und Folgerung von Aussagen
In der Alltagssprache ist es üblich Aussagen zu verneinen oder durch die Wörter „und“,
„oder“, etc. zu neuen Aussagen zusammenzusetzen. Dies wird auch bei mathematischen
Aussagen gemacht. Die dabei entstehenden zusammengesetzten Aussagen sind wiederum
Aussagen, die wahr oder falsch sein können. Die Verknüpfungen werden mathematisch
präzise über Wahrheitstafeln definiert.
Seien A, B Aussagen, dann schreibt man:
(i) A ∧ B: „A und B sind wahr“ (Konjunktion)
(ii) A ∨ B: „A oder B ist wahr“ (Disjunktion)
(iii) ¬A: „A ist falsch / A gilt nicht“ (Negation)
(iv) A xor B: „Entweder A oder B ist wahr“ (Kontravalenz)
Je nach Wahrheitsbelegung der ursprünglichen Aussagen besitzt die zusammengesetzte
Aussage einen Wahrheitswert gemäß Tabelle 1.1. Wesentlich sind die Punkte:
(i) A ∧ B ist genau nur dann wahr, wenn beide Aussagen A und B wahr sind.
(ii) A ∨ B ist wahr, sobald mindestens eine der Aussagen A oder B wahr ist. Es dürfen
dabei auch beide Aussagen wahr sein (inklusive oder ).
(iii) A xor B ist wahr, wenn genau nur eine der Aussagen A oder B wahr ist. Sind A
und B wahr, dann wird die Zusammensetzung falsch (exklusives oder ).
Folgt aus A die Gültigkeit der Aussage B („Wenn A gilt, dann gilt auch B“ (Implikation)), so schreibt man dies als
A ⇒ B.
In diesem Fall bezeichnet man die Aussage A als hinreichend für die Gültigkeit von B.
Verliert die Aussage B immer ihre Gültigkeit, sobald A nicht gültig ist (¬A ⇒ ¬B), so
bezeichnet man A als notwendig für B.
4
1.2 Beweistechniken
Man beachte, dass es bei der Folgerung A ⇒ B jedoch zwei Möglichkeiten gibt:
- A ist wahr, B ist wahr - das ist der übliche, gewünschte Fall der Schlussfolgerung.
- A ist falsch, B ist wahr oder falsch - d.h., aus einer falschen Aussage lässt sich alles
schlussfolgern.
Um auszudrücken, dass zwei Aussagen A, B gleichwertig sind („A gilt genau dann,
wenn B gilt“ (Äquivalenz)), schreibt man
A ⇔ B.
Quantoren
Oftmals möchte man Aussagen tätigen, die von äußeren Parametern abhängen. Dabei
stellt sich dann zum Beispiel die Frage, ob die Aussage für alle möglichen Parameter
gültig ist oder ob überhaupt ein Parameter existiert, für den diese Aussage gültig wird.
Dies lässt sich über sogenannte Quantoren ausdrücken, die sich wie folgt lesen:
(i) ∀: „für alle“
(ii) ∃: „es existiert (mindestens) ein“
(iii) ∃!: „es existiert genau ein“
(iv) @: „es existiert kein“
Beispiel 1.2
Sei B(n) := „n + n ist eine gerade Zahl.“ und C(n) := „n2 + 2n = 8“.
(i) D := „∀n : B(n)“
(ii) E := „∃n : C(n)“
(iii) F := „∀n : C(n)“
Die beiden Aussagen D, E sind beide wahr. Hingegen ist die Aussage F falsch.
1.2 Beweistechniken
In der Mathematik geht man davon aus, dass es gewissse Aussagen gibt, die gültig sind.
Diese nennt man Axiome. Ausgehend von diesen Grundwahrheiten werden dann alle
weiteren Aussagen gefolgert. Für die Schlussfolgerungen gibt es ein paar grundlegende
Techniken, die sich oft anwenden lassen.
Direkter Beweis
Die einfachste Form des Beweises ist die direkte Schlussfolgerung. Dabei wird ausgehend
von als wahr bekannten (bzw. als Axiom vorausgesetzen) Aussagen eine weitere wahre
Aussage gefolgert. Dazu ein Beispiel:
5
1 Grundlagen
Satz 1.3 (Quadratzahlen von geraden Zahlen sind gerade)
Sei n eine gerade natürliche Zahl. Dann ist auch n2 eine gerade natürliche Zahl.
Beweis. Sei A := „n eine gerade natürliche Zahl“. Daraus wird nun gezeigt, dass sich
durch eine Kette von Implikationen die Aussage B := „n2 eine gerade natürliche Zahl“
folgern lässt.
n gerade ⇒ Es gibt eine natürliche Zahl m mit n = 2 · m
⇒ n2 = (2 · m)2 = 4 · m2 = 2 · (2 · m2 )
⇒ n2 gerade.
Äquivalenzbeweis
Ein Äquivalenzbeweis dient dazu die Gleichheit zweier Aussagen zu zeigen: A ⇔ B. Dies
wird dadurch bewiesen, dass man einen direkten Beweis in beide Richtungen ausführt:
Man zeigt sowohl A ⇒ B als auch B ⇒ A. Hieraus sieht man die Gleichheit der
Aussagen.
Beweis durch Kontraposition
Möchte man A ⇒ B zeigen, so kann man stattdessen auch die äquivalente Aussage
¬B ⇒ ¬A zeigen, denn es gilt:
(A ⇒ B) ⇔ (¬B ⇒ ¬A).
Dazu ein Beispiel:
Satz 1.4
Sei n2 eine gerade natürliche Zahl. Dann ist auch n eine gerade natürliche Zahl.
Beweis. Sei A := „n2 eine gerade natürliche Zahl“ und B := „n eine gerade natürliche
Zahl“. Anstatt A ⇒ B zu folgern, wird nun ¬B ⇒ ¬A gezeigt.
¬B = n ist eine ungerade natürliche Zahl
⇒ Es gibt eine natürliche Zahl m mit n = 2 · m + 1
⇒ n2 = (2 · m + 1)2 = 4 · m2 + 4 · m + 1 = 2 · (2 · m2 + 2 · m) + 1
⇒ n2 ist eine ungerade natürliche Zahl = ¬A
6
1.3 Mengen
Widerspruchsbeweis (indirekter Schluss)
Hier nimmt man an, dass die Aussage A ⇒ B, die man eigentlich beweisen möchte, nicht
gilt. Die Negation von A ⇒ B lautet A ∧ ¬B. Hieraus leitet man nun einen Widerspruch
her, d.h. dass damit dann gleichzeitig auch eine Aussage C und dessen Gegenteil ¬C
gelten muss. Da dies nicht sein kann, muss die Annahme der Nagation falsch gewesen
sein und somit die zu beweisende Aussage gelten.
Satz 1.5 (Euklid)
Es gibt unendlich viele Primzahlen.
Beweis. Der Beweis wird durch einen Widerspruch geführt. Angenommen, es gäbe nur
endlich viele Primzahlen. Dann lassen sich diese als p1 , p2 , . . . , pn auflisten und daraus
eine neue Zahl M := p1 ·p2 ·. . .·pn bilden. Da M durch jede der Primzahlen teilbar ist, ist
jedoch M +1 durch keine der Primzahlen teilbar und somit selbst eine Primzahl. Die Zahl
M + 1 ist somit eine weitere Primzahl, die nicht in p1 , . . . , pn vorkommt - Widerspruch.
Somit muss die Annahme, dass es nur endlich viele Primzahlen gibt, falsch gewesen sein.
Eine weitere, sehr wichtige Beiweistechnik ist der Induktionsbeweis, mit dem man Aussagen beweisen kann, die von den natürlichen Zahlen abhängen. Auf Grund der Wichtigkeit
der Induktion wird diese im weiteren Verlauf gesondert behandelt.
1.3 Mengen
Einer der grundlegenden Begriffe der Mathematik ist die Menge. Die folgende intuitive
Beschreibung stammt von G. Cantor.
Definition 1.6 (Menge (Cantor, 1885))
Eine Menge ist eine wohldefinierte Zusammenfassung verschiedener Objekte zu einem
Ganzen.
Die Objekte in einer Menge werden Elemente genannt. Gemäß der Definition sind alle
Elemente einer Menge von einander unterschiedlich. Üblicherweise werden Mengen durch
lateinische Großbuchstaben A, B, C, . . . bezeichnet.
Ist ein Objekt a Element einer Menge A, so schreibt man dies als
a∈A
(∈: „ist Element von“),
andernfalls schreibt man
a∈
/A
(∈:
/ „ist nicht Element von“).
7
1 Grundlagen
Beispiele 1.7
Beispiele für Mengen sind:
(i) Die Menge der Studierenden an der Universität Frankfurt.
(ii) Die Menge der Gemüse G := { Tomate, Gurke, Paprika, . . .}.
(iii) Die Menge N := {0, 1, 2, 3, . . .} der natürlichen Zahlen.
(iv) Die Menge N+ := {1, 2, 3, . . .} der positiven natürlichen Zahlen.
(v) Die Menge Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . .} der ganzen Zahlen.
Mengen werden durch die explizite Angabe ihrer Elemente beschrieben,
A := {a, b, c, . . .},
oder man gibt die charakterisierende Eigenschaft ihrer Elemente an
hat die Eigenschaft XY}.
A := { a
{z O} | a
|∈
{z
}
|
Obermenge
Beispiele 1.8
Bedingung
(i) Die Menge P
oder
P := {2, 3, 5, 7, 11, ..},
P := {n ∈ N+ | n ist Primzahl }
beschreibt die Menge der Primzahlen, d.h. derjenigen natürlichen Zahlen, die nur
durch 1 und sich selbst teilbar sind.
(ii) Die Menge der positiven, geraden Zahlen
{2, 4, 6, . . .},
oder
{n ∈ N+ | ∃ m ∈ N : n = 2 · m}.
(iii) Die Menge der Zahlen, die durch b ∈ N teilbar sind:
{b, 2b, 3b, . . .},
oder
{n ∈ N+ | ∃ m ∈ N : n = b · m}.
(iv) Die Menge Q := { nz | z ∈ Z, n ∈ N+ }.
Definition 1.9
Seien A und B Mengen.
(a) A heißt Teilmenge von B, falls jedes Element von A auch in B enthalten ist. Man
schreibt dies als A ⊂ B.
(b) Gilt A ⊂ B und B ⊂ A, so sind die Mengen gleich: A = B.
(c) Die leere Menge ∅ enthält kein Element und ist in jeder Menge enthalten.
8
1.3 Mengen
(d) Der Durchschnitt A ∩ B besteht aus allen Elementen, die sowohl in A als auch in
B enthalten sind:
A ∩ B := {x | x ∈ A und x ∈ B}.
(e) Die Vereinigung A ∪ B besteht aus allen Elementen, die in A oder in B enthalten
sind:
A ∪ B := {x | x ∈ A oder x ∈ B}.
(f) Der Differenz A \ B besteht aus den Elementen, die in A aber nicht in B enthalten
sind:
A \ B := {x | x ∈ A und x ∈
/ B}.
A
B
A[B
B
A
(a)
A⇢B
(b)
A\B
A\B
Abbildung 1.1: (a) Teilmenge (b) verschiedene Mengenoperationen
Bemerkung 1.10 (Exklusives und inklusives „oder“)
Mit „oder“ ist das inklusive oder gemeint, d.h. A ∪ B enthält auch die Elemente, die
sowohl in A als auch in B liegen. (Die Alternative ist das exklusive oder, bei dem ein
Element entweder in A oder in B liegen muss, jedoch nicht in beiden gleichzeitig.)
Für Vereinigung und Durchschnitt von Mengen gelten die folgenden Regeln:
(a) Das Kommutativgesetz (es kommt nicht auf die Reihenfolge an):
A ∪ B = B ∪ A,
A∩B =B∩A
(b) Das Assoziativgesetz (bei Mehrfachverkettung ist die Reihenfolge egal):
(A ∪ B) ∪ C = A ∪ (B ∪ C),
(A ∩ B) ∩ C = A ∩ (B ∩ C)
9
1 Grundlagen
(c) Das Distributivgesetz :
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C),
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Beweis. Möchte man zeigen, dass zwei Mengen X = Y identisch sind, dann bietet sich
an zunächst einzeln sowohl X ⊂ Y als auch Y ⊂ X zu zeigen. Daraus folgt dann X = Y .
Um die Aussage X ⊂ Y zu zeigen, wählt man ein beliebiges Element der Menge x ∈ X
und zeigt dann, dass auch x ∈ Y gilt. Da das Element beliebig war, ist somit jedes
Element aus X auch in Y enthalten und dies zeigt X ⊂ Y .
Nach diesem Muster sei exemplarisch die Aussage
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
bewiesen.
„A ∪ (B ∩ C) ⊂ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ A ∪ (B ∩ C) beliebig gewählt. Somit gilt
x ∈ A oder x ∈ B ∩ C. Die beiden Fälle lassen sich getrennt betrachten:
1. Fall: Gilt x ∈ A, dann ist x ∈ A∪B und x ∈ A∪C und somit auch x ∈ (A∪B)∩(A∪C).
2. Fall: Gilt x ∈ B ∩ C, dann gilt x ∈ B und x ∈ C. Somit gilt auch x ∈ A ∪ B und
x ∈ A ∪ C. Darauf folgt ebenfalls x ∈ (A ∪ B) ∩ (A ∪ C).
„A ∪ (B ∩ C) ⊃ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ (A ∪ B) ∩ (A ∪ C) beliebig gewählt. Somit
gilt x ∈ A ∪ B und x ∈ A ∪ C. Es lassen sich erneut zwei Fälle getrennt betrachten:
1. Fall: Gilt x ∈ A, dann ist x ∈ A ∪ (B ∩ C).
2. Fall: Gilt x ∈
/ A, dann muss x ∈ B und x ∈ C gelten. Somit gilt auch x ∈ A ∪ (B ∩ C).
Hat man mehrere Mengen, so lassen sich aus diesen die „Produktmenge“ bilden.
Definition 1.11 (Kartesisches Produkt)
Seien A, B zwei Mengen. Das kartesische Produkt von A und B ist die Menge
A × B := {(a, b) | a ∈ A, b ∈ B}.
Die Elemente (a, b) sind geordnete Paare und werden Tupel genannt.
Analog lassen sich auch kartesische Produkte A1 × A2 × . . . × An definieren, die als
Elemente n-Tupel (a1 , a2 , . . . , an ) besitzen.
Zu einer gegebenen Menge lässt sich zudem die „Menge aller Teilmengen“ bilden.
Definition 1.12 (Potenzmenge)
Zu einer Menge A ist die Potenzmenge P gegeben durch die Menge aller Teilmengen,
d.h.
P(A) := {B | B ⊂ A}.
10
(1.1)
1.3 Mengen
N
N⇥N
..
.
..
.
..
.
..
.
(0, 2)
(1, 2)
(2, 2)
(1, 1)
(2, 1)
..
.
..
.
(0, 1)
(0, 0)
(1, 0)
(2, 0)
(3, 0)
...
N
Abbildung 1.2: Kartesisches Produkt N2 := N × N
Beispiel 1.13
n
o
(i) P({1}) = ∅, {1} .
n
o
(ii) P({1, 2}) = ∅, {1}, {2}, {1, 2} .
n
o
(iii) P({1, 2, 3}) = ∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3} .
Bemerkung 1.14 (Russellsche Antinomie)
Der Mathematiker B. Russell hat durch ein Paradoxon gezeigt, dass beim Umgang von
Konstrukten gemäß „Menge aller Mengen mit gewisser Eigenschaft“ Vorsicht geboten ist.
Dazu konstruiert er die „Menge aller Mengen, die sich nicht selbst als Element enthalten“,
d.h. formal
R := {M | M ∈
/ M }.
(1.2)
Man denke zum Beispiel an ein Buch, das alle Bücher auflistet, in denen nicht auf sich
selbst verwiesen wird.
Die Frage ist nun, ob diese Menge in sich selbst enthalten ist, d.h ob gilt R ∈ R oder
R∈
/ R. Enthält sich die Menge R nicht selbst, so muss sie sich aber gemäß Definition
enthalten. Enthält R sich selbst, dann darf sie sich gemäß Definition nicht enthalten. Es
gilt also der Widerspruch
R∈R⇔R∈
/ R.
(1.3)
Diese Problematik kann durch einen axiomatischen Ansatz der Mengenlehre umgangen
werden. Für den Rahmen dieser Vorlesung soll der einfache Ansatz zur Mengenlehre
aber genügen, auf widersprüchliche Definitionen wird verzichtet.
11
1 Grundlagen
1.4 Abbildungen
Definition 1.15 (Abbildung)
Eine Abbildung (auch Funktion) f von einer Menge A auf eine Menge B ist eine Vorschrift, die jedem Element a ∈ A genau ein Element b ∈ B zuordnet. Man schreibt:
f : A → B,
a 7→ f (a)
oder auch kurz
f : A → B, A 3 a 7→ f (a) ∈ B.
Die Menge A heißt Definitionsbereich von f .
Die Menge B heißt Wertebereich von f .
Die Menge f (A) := {f (a) | a ∈ A} ⊂ B heißt Bild von f .
Beispiele 1.16
Beispiele für Abbildungen zwischen Mengen:
(a) f : {1, 2, 3} → {1, 2, 3, 4}, n 7→ n + 1: Abbildung auf nächste Zahl
(b) g : N → N, n 7→ n2 : Abbildung der natürlichen Zahlen auf die Quadratzahlen
(c) h : Z → Z, n 7→ n2 : Abbildung der ganzen Zahlen auf die Quadratzahlen
Abbildungen zwischen Mengen lassen sich durch Wertetabellen angeben. Dies ist zum
Beispiel die übliche Angabe einer Abbildung zwischen zwei Mengen, wenn es sich um
experimentelle Messwerte handelt. Dann wird eine Abbildug zwischen der Menge der
Messpunkte MP und der Menge der Messwerte MW aufgezeichnet:
Messung : MP → MW.
x ∈ MP
3
1
5
f (x) ∈ MW
9
8
16
Tabelle 1.2: Illustration der Wertetabelle zu einer Messung
Alternativ lässt sich eine Abbildung gut durch ihren Graph veranschaulichen.
Definition 1.17 (Graph)
Zu einer Abbildung f : A → B heißt die Menge
G := {(a, b) ∈ A × B | b = f (a)}
der Graph der Abbildung.
12
1.4 Abbildungen
Bild
4
3
f : {1, 2, 3} ! {1, 2, 3, 4},
2
Wertebereich
n 7! n + 1
1
1
2
|
{z
3
}
Definitionsbereich
Abbildung 1.3: Graph, Definitonsbereich, Wertebereich und Bild einer Funktion
Definition 1.18 (Injektiv, surjektiv und bijektiv)
Sei f : A → B eine Abbildung. Die Abbildung heißt
(a) injektiv, falls jedes Element aus B höchstens ein Urbild hat, d.h. wenn gilt
∀a1 , a2 ∈ A : f (a1 ) = f (a2 ) ⇒ a1 = a2 ,
(b) surjektiv, falls auf jedes Element aus B abgebildet wird, d.h. wenn gilt
f (A) = B,
(c) bijektiv (oder auch one-to-one), falls sie injektiv und surjektiv ist.
Ist eine Abbildung f : A → B bijektiv, dann existiert zu jedem Element b ∈ B im Wertebereich mindestens ein Element a ∈ A im Definitionsbereich, das auf b = f (a) abbildet
(surjektiv). Gleichzeitig gibt es aber höchstens ein Element a ∈ A im Definitionsbereich,
das auf b = f (a) abbildet (injektiv). Somit gibt es genau ein solches Element.
Bijektive Abbildungen lassen sich eindeutig umkehren.
Definition 1.19 (Umkehrabbildung)
Zu einer bijektiven Abbildung f : A → B ist die Umkehrabbildung gegeben durch
f −1 : B → A,
a = f −1 (b) :⇔ b = f (a).
Umkehrabbildungen sind wieder bijektiv.
Manchmal möchte man auch mehrere Abbildungen hintereinander ausführen. Dies geht
dann, wenn der Bildbereich der einen Abbildung im Definitionsbereich der zweiten liegt.
13
1 Grundlagen
f :A!B
A
a3
b3
a2
b2
a1
(a)
B
b1
a0
b0
A := {a0 , a1 , a2 , a3 }
B := {b0 , b1 , b2 , b3 }
f :A!B
A
b3
a2
b2
a1
(b)
B
b1
a0
b0
A := {a0 , a1 , a2 }
B := {b0 , b1 , b2 , b3 }
f :A!B
A
B
b1
a0
a3
a2
b2
a1
(c)
b0
A := {a0 , a1 , a2 , a3 }
B := {b0 , b1 , b2 }
Abbildung 1.4: Beispiele für eine Funktion f : A → B: (a) nicht injektiv, nicht surjektiv
(b) injektiv, nicht surjektiv, (b) nicht injektiv, surjektiv
f :A!B
A
f
B
b3
a0
a3
a2
a1
A
a0
b1
b2
b0
1
:B!A
B
b3
a3
a2
a1
b1
b2
b0
Abbildung 1.5: Bijektive Funktion f : A → B und Umkehrfunktion f −1 : B → A
14
1.5 Natürliche Zahlen N und vollständige Induktion
Definition 1.20 (Verkettung von Abbildungen)
Seien f : A → B und g : C → D mit f (A) ⊂ C. Dann heißt die Abbildung
g ◦ f : A → D,
a 7→ g(f (a)),
die Verkettung der Abbildungen f und g.
Man liest dies als „g nach f “, denn die Abbildung f wird zuerst ausgeführt.
1.5 Natürliche Zahlen N und vollständige Induktion
Die Menge der natürlichen Zahlen
N := {0, 1, 2, 3, . . .}
wird intuitiv verstanden und - wie der Name schon sagt - als „natürlich“ gegeben angesehen. Was aber genau die natürlichen Zahlen sind und wie diese mathematisch präzise
zu verstehen sind, wurde immer wieder diskutiert. Heute werden die natürlichen Zahlen
üblicherweise über ein Axiomensystem eingeführt.
Definition 1.21 (G. Peano, 1889)
(P1) Es gibt ein ausgezeichnetes (kleinstes) Element: 0 ∈ N.
(P2) Zu jeder natürlichen Zahl n ∈ N gibt es einen Nachfolger ν(n) ∈ N.
(P3) Die Zahl 0 ∈ N ist nicht Nachfolger einer natürlichen Zahl.
(P4) Die Nachfolger unterschiedlicher Zahlen sind unterschiedlich:
n1 6= n2 ⇒ ν(n1 ) 6= ν(n2 ).
(P5) Enthält eine Menge M ⊂ N die Zahl 0 und mit jedem n ∈ M auch den Nachfolger
ν(n) ∈ M , dann ist M = N.
Die arithmetischen Grundoperationen lassen sich ausgehend von diesen Axiomen wie
folgt definieren:
n + 0 := n,
n · 0 := 0,
n + ν(m) := ν(n + m),
n · ν(m) := n · m + n.
15
1 Grundlagen
Man erhält so die üblichen Zahlen, wenn man definiert:
0 := 0,
1 := ν(0),
2 := ν(ν(0)) = ν(1),
3 := ν(ν(ν(0))) = ν(ν(1)) = ν(2),
..
.
Vollständige Induktion
Eine wichtige Beweismethode ist die vollständige Induktion. Diese dient dazu Aussagen
der Form A(n) zu beweisen, die von den natürlichen Zahlen abhängen. Man ist daran
interessiert, dass man die Aussage für alle natürlichen Zahlen beweist. Dies sind jedoch
unendlich viele Aussagen A(0), A(1), A(2), A(3), . . . und man kann diese nicht alle einzeln
beweisen. Stattdessen zieht man sich auf das folgende Beweisprinzip zurück.
Satz 1.22 (Induktionsprinzip)
Sei A(n) eine Aussage, die von den natürlichen Zahlen n ∈ N abhängt. Falls gilt:
(IA) Induktionsanfang: A(0) ist wahr,
(IS) Induktionsschritt: Wenn A(n) wahr ist, dann ist auch A(n + 1) wahr,
dann ist die Aussage A(n) für alle n ∈ N wahr.
Beweis. Das Induktionsprinzip folgt direkt aus dem 5. Peanoschen Axiom. Dies sieht
man wie folgt: Sei eine Teilmenge M ⊂ N definiert durch
M := {n ∈ N | A(n) ist wahr }.
Durch den Induktionsanfang gilt 0 ∈ M . Die Induktionsannahme besagt, dass aus n ∈ M
auch n + 1 ∈ M folgt. Somit gilt mit dem 5. Peanoschen Axiom M = N.
Bemerkung 1.23
Der Induktionsanfang muss nicht immer bei 0 gewählt werden. Gilt eine Aussage erst ab
einem n0 ≥ 1, so zeigt man die Gültigkeit von A(n0 ) und ebenfalls den Induktionsschritt.
Also Folgerung gilt dann A(n) für alle n ∈ N, n ≥ n0 , jedoch nicht für n < n0 .
Mittels der Induktion lassen sich viele Aussagen über Summen beweisen. Dazu sei zunächst eine vereinfachende Notation für Summen und Produkte definiert.
Definition 1.24 (Summe, Produkt)
Seien {am , am+1 , . . . , an } ⊂ A Elemente einer Menge A, für die Summe als auch Produktbildung definiert ist. Für m, n ∈ Z, m ≤ n schreibt man
am + am+1 + . . . + an =:
n
X
i=m
16
ai .
1.5 Natürliche Zahlen N und vollständige Induktion
Für m > n definiert man die leere Summe
n
X
ai := 0,
(m > n).
i=m
Analog schreibt man für die Multiplikation
am · am+1 · . . . · an =:
und
n
Y
n
Y
ai ,
i=m
ai := 1,
(m ≤ n),
(m > n).
i=m
Ein paar Beispiele sollen den Beiweis durch Induktion verdeutlichen.
Satz 1.25 (C. F. Gauß)
Für alle n ∈ N gilt:
n
X
k=1
Beweis.
Sei A(n) die Aussage: „
n
P
k=
k=1
n(n+1)
2
k=
n(n + 1)
.
2
ist wahr“.
Induktionsanfang (n = 0):
0
P
k = 0 und 0(0+1)
Für n = 0 ist
= 0. Somit ist A(0) wahr.
2
Für n = 1 ist
k=1
1
P
k = 1 und
k=1
1(1+1)
2
= 1. Somit ist A(1) wahr.
Induktionsschritt:
n
P
Angenommen A(n) ist wahr (Induktionsvoraussetzung, IV), d.h. es gelte
k =
k=1
n(n+1)
.
2
Daraus schließt man auf die Gültigkeit von A(n + 1) wie folgt:
n+1
X
k=
k=1
n
X
k=1
(IV)
k + (n + 1) =
n(n + 1)
+ (n + 1)
2
n(n + 1) + 2(n + 1)
(n + 2)(n + 1)
=
2
2
(n + 1)((n + 1) + 1)
=
.
2
=
Somit folgt aus der Gültigkeit von A(n) auch die Gültigkeit von A(n + 1).
17
1 Grundlagen
Satz 1.26 (Anzahl der Elemente der Potenzmenge)
Sei M eine Menge mit n ∈ N Elementen. Dann hat die Potenzmenge P(M ) genau 2n
Elemente.
Beweis.
Sei A(n) die Aussage: „Die Potenzmenge einer Menge mit n Elementen hat 2n Elemente“.
Induktionsanfang (n = 1): Für M = {m} ist P({m}) = ∅, {m} und hat 2 = 21 Elemente. Somit ist A(1) wahr.
Induktionsschritt:
Angenommen A(n) ist wahr (Induktionsannahme), d.h. die Potenzmenge einer Menge
mit n Elementen hat 2n Elemente. Nun muss gezeigt werden, wie viele Elemente die
Potenzmenge einer Menge mit n + 1 Elementen hat.
Sei M eine Menge mit n + 1 Elementen und sei ein m ∈ M willkürlich gewählt. Dann
lässt sich M schreiben als
M = N ∪ {m},
und N hat n Elemente.
mit N := M \ {m},
Es gibt nun zwei Arten von Teilmengen von M :
(a) Jene Teilmengen, die m nicht enthalten, d.h. die Teilmengen von N := M \ {m}.
Nach Induktionsvoraussetzung sind dies 2n .
(b) Jene Teilmengen, die m enthalten, d.h. alle Teilmengen der Form B ∪ {m} mit
B ⊂ N . Nach Induktionsvoraussetzung sind dies 2n .
Somit hat M genau 2n + 2n = 2 · 2n = 2n+1 Elemente. Somit gilt A(n + 1).
Rekursive Definition
Umgekehrt kann das Induktionsprinzip auch genutzt werden, um rekursive Definitionen
D(n) vorzunehmen. Dazu definiert man zunächst für D(0) und gibt dann die Definition
D(n) für alle weiteren n ∈ N, n ≥ 1 durch D(n) := F (D(0), D(1), . . . , D(n − 1)) als eine
Vorschrift an, die von den vorhergehenden Definitionen abhängen kann.
Definition 1.27 (Potenz)
Sei a ∈ N. Die n-te Potenz von a ist rekursiv definiert durch
(
1,
n = 0,
an :=
a · an−1 ,
n ≥ 1.
Definition 1.28 (Fakultät)
Die n-Fakultät ist rekursiv definiert durch
(
1,
n! :=
n · (n − 1)!,
18
n = 0,
n ≥ 1.
1.5 Natürliche Zahlen N und vollständige Induktion
Solche rekursiven Definitionen lassen sich auch verwenden, um biologische Populationen
zu beschreiben. So hat Leonardo da Pisa (genannt Fibonacci) bereits 1220 die Anzahl
an Kaninchenpaaren berechnet. Er nahm dabei an, dass jedes Paar an Kaninchen ab
dem zweiten Lebensmonat jeden Monat ein weiteres Paar als Nachwuchs bekommt und
Kaninchen unsterblich sind. Beginnt man mit einer Population von einem neu geborenen
Kaninchenpaar in Monat eins, F1 = 1, so bleibt es bei einem in Monat zwei, F2 = 1,
und in Monat drei bekommt dieses Paar den ersten Nachwuchs, F3 = 2. Im Monat vier
bekommt weiterhin nur das erste Paar Nachwuchs, F4 = 3, ab Monat fünf dann auch
das Paar aus Monat 3, F5 = 5, usw. In jedem Monat gibt es folglich immer die Anzahl
Paare, die im Vormonat vorhanden waren, plus der Nachwuchs der Paare die bereits vor
zwei Monaten lebten, d.h. Fn+1 = Fn + Fn−1 .
Definition 1.29 (Fibonacci-Folge)
Die Fibonacci-Zahlen Fn , n ∈ N+ , sind definiert durch


n = 1,
1,
Fn := 1,
n = 2,


Fn−1 + Fn−2 ,
n ≥ 3.
19
2 Zahlen
Betrachtet man die Menge der natürlichen Zahlen N = {0, 1, 2, 3, . . .}, so lassen sich
in gewissen Fällen die elementaren arithmetischen Operationen „a + b“ (Addition) und
„a · b“ (Multiplikation) umkehren, die dann als „b − a“ (Subtraktion) und „ ab “ (Division) bezeichnet werden. Allerdings lassen sich Addition und Division nicht für beliebige
Zahlen aus N definieren - so ist z.B. die Subtraktion für „b − a“ zunächst nur für Paare
(b, a) natürlicher Zahlen sinnvoll, für die b > a gilt. Dies zeigt: Während die Addition
+ : N × N → N,
(a, b) 7→ a + b
für alle Paare natürliche Zahlen definiert ist, so ist die Subtraktion
− : N × N → N,
(a, b) 7→ a − b
nicht immer erklärt - man spricht davon, dass die Menge der natürlichen Zahlen bezüglich
der Subtraktion „unvollständig“ ist. Man möchte daher den Zahlenraum dahingehend
erweitern, dass die Operationen der Subtraktion und Division immer erklärt sind - dies
führt auf die größeren Zahlenmengen der ganzen Zahlen Z und der rationalen Zahlen Q.
Um diesen Erweiterungsprozess mathematisch beschreiben zu können, wird die Äquivalenzrelation verwendet.
Definition 2.1 (Relation)
Eine Relation zwischen zwei Mengen A, B ist eine Teilmenge R ⊂ A×B des kartesischen
Produkts der Mengen.
Zu einer Relation R lässt sich immer entscheiden, ob ein Paar (a, b) ∈ A × B in der
Relation vorhanden ist oder nicht. Ist es Teil der Relation, d.h. (a, b) ∈ R, so schreibt
R
man dies als a ∼ b oder auch kurz a ∼ b, wenn aus dem Kontext hervorgeht, welche
Relation gemeint ist.
Eine sehr häufige Verwendung der Relation dient zur Beschreibung von Äquivalenzen
innerhalb einer Menge.
Definition 2.2 (Äquivalenzrelation)
Eine Äquivalenzrelation auf einer Menge A ist eine Relation R ⊂ A × A mit den Eigenschaften
(i) Reflexivität: a ∼ a für alle a ∈ A,
(ii) Symmetriegesetz: a ∼ b ⇒ b ∼ a,
21
2 Zahlen
y1
y1
6
5
4
3
2
1
t1
t2
t3
Abbildung 2.1: Beispiel einer Relation: Eine Messreihe an den Zeitpunkten t1 , t2 , t3 , . . .
zeichnet im Fehlerbalkendiagramm als „Messwert“ den Fehlerbereich zu
jedem ti als die Teilmenge {y | y i ≤≤ y i } auf
(iii) Transitivität: a ∼ b, b ∼ c ⇒ a ∼ c.
Die Bedeutung von Äquivalenzrelationen liegt darin, dass sich dadurch Mengen in Teilmengen („Klassen“) einteilen lassen, die eine gröbere Beschreibung der Menge sind, jedoch gewünschte „wesentliche“ Aspekte hervorheben.
Beispiel 2.3
Als Blutgruppen von Menschen werden die Zuordnungen A, B, AB und 0 verwendet.
Durch diese Zuordnung lässt sich auf der Menge der Menschen eine Relation definitieren
gemäß
x ∼ y :⇔ x, y haben diesselbe Blutgruppe
Dabei bezeichnet man die Äquivalenzklassen durch die folgende Schreibweise
[a] := {b ∈ A | b ∼ a}.
Das (zufällig gewählte) erzeugene Element a wird Repräsentant der Äquivalenzklasse [a]
genannt.
Beispiel 2.4
Die natürlichen Zahlen N lassen sich gerade und ungerade Zahlen aufteilen. Diese unterscheiden sich dadurch, ob sie durch 2 teilbar sind oder nicht, d.h. ob bei Division durch
2 ein Rest bleibt oder nicht:
a ∼ b :⇔ a, b haben bei Division durch 2 denselben Rest
Dadurch entstehen die Restklassen
[1] := {a ∈ N | @c ∈ N : a = 2c} = {1, 3, 5, 7, . . .},
[2] := {a ∈ N | ∃c ∈ N : a = 2c} = {0, 2, 4, 6, . . .}.
22
2.1 Die Gruppe der ganzen Zahlen Z
Beispiel 2.5
Der Menge Z × N+ lassen sich die rationalen Zahlen als Brüche zuordnen:
a
mit (a, b) ∈ Z × N+ .
b
Hier sind jedoch gewisse Brüche äquivalent. So sind z.B. 21 , 24 , 63 , . . . alle mit derselben
rationalen Zahl assoziiert. Dafür lässt sich die Äquivalenzrelation
(a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b
(d.h. gedacht
a0
a
= 0 ).
b
b
Die Menge der rationalen Zahlen kann man dann auffassen als die Menge der Äquivalenzklassen
Q := {[(a, b)] | (a, b) ∈ Z × N+ }.
Das letzte Beispiel motiviert nun die folgende Erweiterung des Zahlenbereichs N zu Z
und Z zu Q.
2.1 Die Gruppe der ganzen Zahlen Z
Die Menge der natürlichen Zahlen ist unter der Subtraktion nicht vollständig. Für Paare
a, b ∈ N ist die Gleichung
a+x=b
nicht immer durch ein x ∈ N lösbar. Formal lässt sich dies für den Fall a > b immer
durch die Einführung einer negativen Zahl x := b − a erreichen. Allerdings gibt es hier
eine Mehrdeutigkeit: Es gibt unendlich vielen Differenzen b − a = (b + 1) − (a + 1) = (b +
2) − (a + 2) = . . ., die diese Gleichung formal lösen. Abhilfe schafft hier die Betrachtung
der folgenden Äquivalenzrelation auf N × N:
(a, b) ∼ (a0 , b0 ) :⇔ a + b0 = a0 + b.
Dass es sich hier um eine Äquivalenzrelation handelt, zeigt sich folgendermaßen:
(i) Reflexivität: für alle a, b ∈ N gilt a + b = a + b ⇒ (a, b) ∼ (a, b).
(ii) Symmetrie: (a, b) ∼ (a0 , b0 ) ⇔ a + b0 = a0 + b ⇔ a0 + b = a + b0 ⇔ (a0 , b0 ) ∼ (a, b).
(iii) Transitivität: Mit (a, b) ∼ (a0 , b0 ) und (a0 , b0 ) ∼ (a00 , b00 ) gilt a + b0 = a0 + b und
a0 + b00 = a00 + b0 . Somit
a + b00 + b0 = (a + b0 ) + b00 = (a0 + b) + b00 = (a0 + b00 ) + b = (a00 + b0 ) + b = a00 + b + b0
und somit a + b00 = a00 + b bzw. (a, b) ∼ (a00 , b00 ).
23
2 Zahlen
Die zugehörigen Äquivalenzklassen [(a, b)] werden von den Paaren der natürlichen Zahlen
gebildet, die dieselbe Differenz aufweisen. Damit lässt sich die Äquivalenzklasse [(a, b)]
dann interpretieren als
(i) für a > b als natürliche Zahl a − b ∈ N,
(ii) für a = b als neutrale Zahl 0,
(iii) für a < b als negative Zahl a − b.
Die Menge der ganzen Zahlen lässt sich entsprechend als Menge von Äquivalenzklassen
definieren:
Z : = {[(n, 0)] | n ∈ N} ∪ [(0, n)] | n ∈ N+ .
Die natürlichen Zahlen sind diesen Äquivalenzklassen zuordbar, indem man den folgenden Repräsentanten wählt
N 3 n 7→ [(n, 0)] ∈ Z.
Die Äquivalenzklassen [(0, n)] ∈ Z notiert man entsprechend mit 0 − n oder einfach −n.
Mittels dieser Erweiterung von N nach Z ist nun der Zahlenbereich bezüglich der Subtraktion abgeschlossen, d.h. formal: jede Gleichung der Form a + x = b mit a, b ∈ Z hat
eine Lösung x ∈ Z. Das mathematische Konstrukt der ganzen Zahlen ist prototypisch
für viele andere Gebilde der Mathematik. Die elementaren Eigenschaften werden in der
folgenden Definition zusammengefasst.
Definition 2.6 (Gruppe)
Eine Menge G mit einer Verknüpfung
◦: G×G→G
(a, b) 7→ a ◦ b
wird als Gruppe (G, ◦) bezeichnet, falls die folgenden Eigenschaften gelten:
(a) Die Verknüpfung ist assoziativ, d.h. es gilt
(a ◦ b) ◦ c = a ◦ (b ◦ c)
für alle a, b, c ∈ G.
(b) Es existiert ein neutrales Element e ∈ G, so dass
a◦e=e◦a=a
für alle a ∈ G.
(c) Es existiert ein inverses Element a−1 ∈ G, so dass
a ◦ a−1 = a−1 ◦ a = e
für alle a ∈ G.
Eine Gruppe (G, ◦) heißt kommutativ (oder abelsch), falls für alle a, b ∈ G zusätzlich
das Kommutativgesetz
a◦b=b◦a
erfüllt ist.
24
2.2 Der Körper der rationalen Zahlen Q
Eine Gruppe ist dadurch gekennzeichnet, dass sich Gleichungen der Form a ◦ x = b lösen
lassen. Denn für jede Gleichung a ◦ x = b mit a, b ∈ G folgt allein aus der Gruppendefinition, dass x = a−1 ◦ b eine Lösung ist, da gilt
a ◦ (a−1 ◦ b) = (a ◦ a−1 ) ◦ b = e ◦ b = b.
Die ganzen Zahlen mit der Addition bilden folglich eine Gruppe (Z, +). Das neutrale
Element ist die Null (e = 0) und das inverse Element zu einer Zahl a ∈ Z ist die Zahl
−a ∈ Z. Die natürlichen Zahlen (N, +) hingegen bilden noch keine Gruppe, da das
inverse Element nicht zu jedem Element existiert.
2.2 Der Körper der rationalen Zahlen Q
Für die Menge Z hat nun die Gleichung a + x = b die Lösung x = b − a und ist somit
bezüglich der Subtraktion abgeschlossen. Jedoch lässt sich die Gleichung
a·x=b
nicht immer durch ein x ∈ Z lösen. Der Zahlenbereich muss folglich ein weiteres mal
erweitert werden, diesmal zur Menge der rationalen Zahlen Q.
Man betrachte für a, a0 ∈ Z, b, b0 ∈ N+ zunächst die Äquivalenzrelation
(a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b.
Zu a ∈ Z, b ∈ N+ sei die zugehörige Äquivalenzklasse [(a, b)] dann mit
a
:= [(a, b)] = {a0 ∈ Z, b0 ∈ N+ | ab0 = a0 b}
b
bezeichnet.
Dies führt auf die Menge der rationalen Zahlen als Menge von Äquivalenzklassen
Q :=
o 0
| a ∈ Z \ {0}, b ∈ N , a, b teilerfremd ∪
.
b
1
na
+
Als Repräsentant der jeweiligen Äquivalenzklasse wird also der Bruch in seiner vollständig gekürzten Fassung gewählt, bzw. 01 als Repräsentant der 0.
In der Menge Q hat nun sowohl die Gleichung a + x = b als auch a · x = b immer eine
Lösung. Sie ist somit sowohl bezüglich der Subtraktion als auch bezüglich der Division abgeschlossen. Dieses mathematische Gebilde ist wiederum sehr prototypisch. Seine
Eigenschaften werden unter der Bezeichnung Körper abstrakt zusammengefasst.
25
2 Zahlen
Definition 2.7 (Körper)
Eine Menge K mit zwei Verknüpfungen
+ : K × K → K,
· : K × K → K,
heißt Körper, falls gilt:
(a, b) 7→ a + b,
(a, b) 7→ a · b,
(Addition)
(M ultiplikation)
(K1) Addition und Multiplikation sind kommutativ, d.h. für alle a, b ∈ K gilt:
a + b = b + a,
a · b = b · a.
(K2) Addition und Multiplikation sind assoziativ, d.h. für alle a, b, c ∈ K gilt:
(a + b) + c = a + (b + c),
(a · b) · c = a · (b · c).
(K3) Es gilt das Distributivgesetz, d.h. für alle a, b, c ∈ K gilt:
a · (b + c) = a · b + a · c.
(K4) Die folgenden Gleichungen haben für alle a, b ∈ K ein Lösung x ∈ K:
a + x = b,
a · x = b sofern a 6= 0.
Aus den Eigenschaften (K4) folgen direkt wichtige Eigenschaften eines Körpers.
Satz 2.8
In einem Körper gibt es bzgl. der Addition ein neutrales Element 0 und zu jedem Element
a ein Inverses −a. Ebenso gibt es bzgl. der Multiplikation ein neutrales Element 1 und
zu jedem Element a 6= 0 ein Inverses a−1 .
Beweis. Nach (K4) ist im Speziellen die Gleichung a + x = a für alle a lösbar. Die
Lösung ist das verlangte neutrale Element 0. Dieses ist eindeutig, denn gäbe es ein
weiteres Element 00 mit a + 00 = a, so folgt mit a + 00 = a = a + 0 durch Kürzen von a
immer 00 = 0. Ebenso folgt aus (K4), dass die Lösung von a + x = 0 existiert und gerade
das inverse Element −a darstellt.
Für die Multiplikation argumentiert man analog.
Der vorangeganene Satz zeigt, dass man einen Körper auch alternativ folgendermaßen
definieren kann:
Bemerkung 2.9 (Körper – alternative Definition)
Ein Körper (K, +, ·) ist eine Menge K mit zwei Verknüpfungen + („Addition“) und ·
(Multiplikation) mit den Eigenschaften
(i) (K, +) ist eine kommutative Gruppe mit neutralem Element 0,
(ii) (K \ {0}, ·) ist eine kommutative Gruppe mit neutralem Element 1,
(iii) Multiplikation und Addition sind distributiv: a · (b + c) = a · b + a · c.
26
2.2 Der Körper der rationalen Zahlen Q
Anordnung von Q
Auf der Menge der rationalen Zahlen Q lassen sich gewisse Zahlen als positiv auszeichnen,
indem man die Teilmenge
Q+ := {a ∈ Q | a =
z
, z, n ∈ N+ }
n
auszeichnet. Dadurch lässt sich für Paare (a, b) ∈ Q × Q die Ordnungsrelation
a > b :⇔ a − b ∈ Q+
definieren. Analog definiert man
a < b :⇔ b > a,
a ≤ b :⇔ a < b oder a = b,
a ≥ b :⇔ b ≤ a,
und erhält die gewohnten kleiner und größer Beziehungen.
Auf Q lässt sich der Absolutbetrag definieren durch


a > 0,
a,
|a| := 0,
a = 0,


−a,
a < 0.
Satz 2.10 (Eigenschaften des Betrags)
Für beliebige Zahlen a, b ∈ Q besitzt der Betrag die folgenden drei charakteristischen
Eigenschaften:
(i) Definitheit: |a| = 0 ⇒ a = 0.
(ii) Multiplikativität: |a · b| = |a| · |b|.
(iii) Dreiecksungleichung: |a + b| ≤ |a| + |b| (auch Subadditivität).
Zudem gilt:
(iv) ||a| − |b|| ≤ |a + b|.
(v) ||a| − |b|| ≤ |a − b|.
Beweis. Exemplarisch wird (v) gezeigt:
|a| = |a − b + b| ≤ |a − b| + |b|
⇒ |a| − |b| ≤ |a − b|
und
und
|b| = |b − a + a| ≤ |b − a| + |a|
|b| − |a| ≤ |a − b|.
Somit folgt insgesamt:
||a| − |b|| ≤ |a − b|.
27
2 Zahlen
2.3 Der Körper der reellen Zahlen R
In den vorangegenenen Abschnitten wurde der Zahlenbereich der natürlichen Zahlen N
schrittweise zunächst zu den ganzen Zahlen Z und dann zu den rationalen Zahlen Q
erweitert, so dass man immer größere Zahlenräume N ⊂ Z ⊂ Q erhalten hat. Bei jeder
Erweiterung stand die Fragestellung im Raum, ob sich gewisse Gleichungen lösen lassen.
Im Körper Q schließlich lassen sich nun lineare Gleichungen bzgl. der Addition und der
Multiplikation stets lösen.
Konsequenter Weise lässt sich fragen, ob nun allgemeine quadratische Gleichungen der
Form
für a, b, c, d ∈ Q
a + b · x + c · x2 = d
eine Lösung x ∈ Q besitzen. Wieder stellt man fest, dass sich nicht jede Gleichung in Q
lösen lässt.
Satz 2.11 (Irrationalität der Quadratwurzel)
Die quadratische Gleichung
x2 = 2
besitzt keine Lösung in Q.
Beweis. Widerspruchsbeweis: Angenommen, es gäbe die Lösung x = nz mit Zahlen
r ∈ Z, n ∈ N+ , so dass x2 = 2. Es sei dann die vollständig gekürzte Fassung des Bruchs
gewählt. Insbesondere seien Nenner und Zähler nicht gleichzeitig durch 2 teilbar. Nun
ist aber r2 = 2 · n2 und somit r durch 2 teilbar. Wählt man r = 2 · s, so ist aber wegen
2 · s2 = n2 auch n durch 2 teilbar. Widerspruch.
p
2
1
1
Abbildung 2.2: Geometrische Interpretation der Lösung von x2 = 12 + 12 = 2.
Erneut möchte man den Zahlenbereich erweitern, damit solche Gleichungen eine Lösung
bekommen. Anschaulich entspricht die Lösung x2 = 2 zum Beispiel der Diagonalen im
28
2.3 Der Körper der reellen Zahlen R
Einheitsquadrat und solche Längen möchte man mit dem Zahlenraum ebenfalls abdecken
können.
Die Idee ist nun, nach und nach eine Folge von rationalen Zahlen zu konstruieren, die
die Lösung der Gleichung x2 = 2 immer besser annähern. Man gewinnt so eine Approximation, d.h. eine Näherungslösung, der gesuchten Lösung. Dazu seien zunächst einige
Begrifflichkeiten genauer geklärt:
Definition 2.12 (Folge)
Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung
N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet.
Beispiele 2.13
(a) Mit an = n ∀n ∈ N erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...) = (n)n∈N .
(b) Mit an =
1
n+1
1
∀n ∈ N erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) = ( n+1
)n∈N .
n
)n∈N = (0, 12 , 23 , 43 , ...).
(c) ( n+1
Nützlich ist im Folgenden auch die Darstellung von Zahlen als Dezimalzahlen.
Definition 2.14 (Dezimalbruchdarstellung)
Die Dezimalbruchdarstellung einer Zahl
!
k
X
d1
d2
d3
dk
−j
a = ± a0 +
dj · 10
= ± a0 +
+
+
+ ... + k
10 102 103
10
j=1
mit a0 , k ∈ N, d1 , ..., dk ∈ {0, 1, 2, ..., 9}, sei im Folgenden gegeben durch
a = ±(a0 , d1 ...dk ).
Ein mögliches Verfahren zur Approximation der Lösung von x2 = 2 besteht nun darin,
die Lösung x durch eine Folge von Zahlen aus Q sowohl von unten als auch von oben
einzugrenzen.
Dazu betrachte man die Foglen
an = an−1 +
dan
,
10n
für n>0,
a0 = 1,
bn = bn−1 −
dbn
,
10n
für n>0,
b0 = 2,
und
mit dan , dbn ∈ {0, 1, 2, ..., 9} ∀n ∈ N+ , wobei für alle n ∈ N gelte:
bn − an = 10−n ,
a2n < 2 < b2n .
29
2 Zahlen
Um diese Folge zu konstruieren beginnt man also mit denjenigen ganzen Zahlen, die
am nächsten unterhalb bzw. oberhalb der gesuchten Lösung liegen (a0 = 1 und b0 = 2).
Diese erfüllen die geforderten Bedingungen:
b0 − a0 = 2 − 1 = 1 = 10−0 ,
a20 = 1 < 2 < 4 = b20 .
Die nächste Annäherung an die Lösung erhält man nun, indem man diejenigen Zehntel
da
db1
1
und
addiert bzw. abzieht, so dass die oben geforderten Bedingungen erfüllt sind.
10
10
2
2
da
da
a
1
1 +1
Dazu zählt man d1 von 0 aus so lange hoch bis gilt: a0 + 10 < 2 < a0 + 10
Dies
ist gerade für da1 = 4 der Fall. Man wähle dann db1 = 9 − da1 , womit sich ergibt:
b1 − a1 = 1, 5 − 1, 4 = 0, 1 = 10−1 ,
a21 = 1, 96 < 2 < 2, 25 = b21 .
Dieses Vorgehen lässt sich beliebig lang fortführen. In den ersten 10 Schritten erhält man
so die folgenden Werte für an und bn :
n
0:
1:
2:
3:
4:
5:
6:
7:
8:
9:
an
1
1,4
1,41
1,414
1,4142
1,41421
1,414213
1,4142135
1,41421356
1,414213562
bn
2
1,5
1,42
1,415
1,4143
1,41422
1,414214
1,4142136
1,41421357
1,414213563
?
(x2 = 2)
ai
a0
a1
a2 . . . an
bi
bn
. . . b2
b1
b0
Abbildung 2.3: Approximation der Lösung von x2 = 2 durch zwei Folgen.
Nach Konstruktion liegen folglich die Zahlen an stets unterhalb, die Zahlen bn stets überhalb der gesuchten Lösung. Zusätzlich jedoch verringert sich der Abstand zwischen den
30
2.3 Der Körper der reellen Zahlen R
Zahlen immer mehr, so dass für das n-te Folgenglied beider Folgen gilt, dass der Abstand
zur tatsächlichen Lösung kleiner 10−n ist, die Lösung also immer besser angenähert (approximiert) wird. Die Lösung der Gleichung x2 = 2 lässt sich also über Folgen beliebig
genau eingrenzen. Man ist deshalb bestrebt den Zahlenraum um die Grenzwerte dieser
Folgen zu erweitern.
Mit dem Grenzwert a zur Folge (an )n∈N = (a0 , a1 , a2 , . . .) ist dabei derjenige Wert gemeint, dem die Folgenglieder mit fortschreitendem n immer näher kommen. Der Abstand
zwischen den Folgengliedern an und dem Grenzwert a wird also immer kleiner. Dies wird
durch das folgende Kriterium formalisiert.
Definition 2.15 (Cauchy Konvergenzkriterium)
Eine Folge (an )n∈N heißt konvergent gegen einen Grenzwert (Limes) a, falls es zu jedem
(beliebig kleinen) > 0 ein n ∈ N gibt, so dass gilt:
Dies wird notiert als
für
|an − a| < n ≥ n .
oder
|an − a| → 0 (n → 0)
lim an = a.
n→∞
Man beachte dabei, dass das zu wählende n vom gewählten abhängt. Im Allgemeinen
wird man n desto größer wählen müssen je kleiner man wählt.
a = lim an
n!1
a0
a2
a5
a6
✏
. . . a7
a4
a3
a1
✏
Abbildung 2.4: Illustration des Konvergenzkriterium für die Folge (an )n∈N mit a =
limn→∞ an . Für jedes > 0 liegen die Folgenglieder ab einem n ∈ N
alle höchstens vom Grenzwert a entfernt.
Problematisch ist diese Definition, wenn der Grenzwert einer Folge nicht im gleichen
Raum wie die Folgenglieder selbst liegen.
√ Dies ist aber gerade bei der oben konstruierten
Folge in Q der Fall, da der Grenzwert 2 selbst nicht in Q liegt.
Dies lässt sich umgehen, indem man die Konvergenz einer Folge ausdrückt, ohne den
Grenzwert explizit zu verwenden:
Definition 2.16 (Cauchy-Folge)
Eine Folge (an )n∈N heißt Cauchy-Folge, wenn es zu jedem (beliebig kleinen) > 0 eine
natürliche Zahl n ∈ N gibt, so dass gilt:
|an − am | < für alle n, m ≥ n .
31
2 Zahlen
Anschaulich bedeutet dies, dass sich die Folgenglieder einer Cauchy-Folge ab einer gewissen Stelle nicht mehr als einen vorgegebenen Abstand voneinander unterscheiden und
dass dieser Abstand beliebig klein gewählt werden kann.
Analog zur Konstruktion der ganzen und rationalen Zahlen wird zur Konstruktion der
reellen Zahlen eine Äquivalenzrelation verwendet. Für die Menge der Cauchy-Folgen in
den rationalen Zahlen ist durch
(an )n∈N ∼ (a0 n )n∈N :⇔ |an − a0 n | → 0 (n → ∞)
eine Äquivalenzrelation gegeben. Die reellen Zahlen lassen sich dann als Menge der
Äquivalenzklassen bezüglich dieser Relation auffassen:
R := {[(an )n∈N ] | (an )n∈N ist Cauchy-Folge in Q} .
Die rationalen Zahlen lassen sich in die Menge der reellen Zahlen in natürlicher Weise
einbetten, indem man diese als konstante Cauchy-Folgen auffasst:
Für a ∈ Q : (an )n∈N mit an = a für alle n
Identifiziert man jede Äquivalenzklasse von Cauchy-Folgen mit dem gemeinsamen Grenzwert der jeweils enthaltenen Folgen, so wird die Idee hinter der Konstruktion der reellen
Zahlen als Menge aller Grenzwerte von Cauchy-Folgen in Q klarer.
Der folgende Satz hilft dabei eine konkretere Vorstellung der reellen Zahlen zu entwickeln:
Satz 2.17
Jeder Äquivalenzklasse [(an )n∈N ] ∈ R entspricht genau ein (gegebenenfalls unendlicher)
Dezimalbruch.
a := {±(a0 , d1 d2 d3 ...) | a0 ∈ N, dk ∈ {0, 1, ..., 9} ∀k > 0}.
Umgekehrt entspricht jedem solchen Dezimalbruch genau eine Äquivalenzklasse in R.
R lässt sich dementsprechend auch als Menge von (gegebenenfalls unendlichen) Dezimalbrüchen auffassen.
Beweis. (Skizze) Fasst man einen unendlichen Dezimalbruch als Folge von endlichen
Dezimalbrüchen auf, so lässt sich zeigen, dass es sich dabei um eine Cauchy-Folge handelt. Damit repräsentiert der Dezimalbruch ein Element aus R. Schließt man Periode 9
bei der Dezimalbruchdarstellung aus, so lässt sich auch zeigen, dass zwei unterschiedliche
Dezimalbrüche niemals zur gleichen Äquivalenzklasse gehören können.
Umgekehrt lässt sich über das Prinzip der Intervallschachtelung zeigen, dass sich zu
jeder Äquivalenzklasse a = [(an )n∈N ] ∈ R ein (gegebenenfalls unendlicher) Dezimalbruch
finden lässt, der eben zu dieser Äquivalenzklasse gehört.
Die beiden Darstellungen sind damit äquivalent.
32
2.3 Der Körper der reellen Zahlen R
Übertragung der Eigenschaften von Q auf R
Die wesentlichen Eigenschaften von Q übertragen sich auf die reellen Zahlen R.
Von der Anordnung von Q ausgehend lassen sich auch auf R Ordnungsrelationen definieren. Dazu werden die zu Zahlen den a, b ∈ R zugehörigen Äquivalenzklassen von
Cauchy-Folgen (an )n∈N , (bn )n∈N in Q betrachtet. Für alle
a := [(an )n∈N )] ∈ R,
b := [(bn )n∈N )] ∈ R,
an ∈ Q ∀n ∈ N
bn ∈ Q ∀n ∈ N
definiert man
a>b
∃N ∈ N : (an − bn ) > 0 ∀n > N.
:⇔
und entsprechend
a≥b
a<b
a≤b
:⇔
:⇔
:⇔
a > b oder a = b,
b > a,
b ≥ a.
Analog zu Q sei dann auch auf R die Betragsfunktion gegeben als:
R → R+
0,


a,
|a| := 0,


−a,
|·|:
a > 0,
a = 0,
a < 0.
In analoger Weise sollen die elementaren Rechenoperationen von Q auf R übertragen
werden. Dazu ist der folgende Hilfssatz wichtig.
Satz 2.18
Seien (an )n∈N und (bn )n∈N Cauchy-Folgen mit Grenzwerten
lim an = a
n→∞
und
lim bn = b.
n→∞
Dann gilt
(i) lim {an + bn } = a + b,
n→∞
(ii) lim {an · bn } = a · b,
n→∞
(iii) lim { abnn } = ab , falls alle |bn | ≥ α > 0 und |b| =
6 0 echt positiv sind.
n→∞
33
2 Zahlen
Beweis. Der technische Beweis wird ausgelassen.
Somit lassen sich die arithmetischen Operationen von Q auf R übertragen und man
erhält das folgende Resultat.
Satz 2.19
R mit Addition und Multiplikation bildet den Körper (R, +, ·).
Beweis. Die arihtmetischen Grundoperationen + und · übertragen sich direkt von Q
auf R und somit sind Assoziativität und Kommutativität sowie das Distributivgesetz
direkt erfüllt. Es verbleibt zu zeigen, dass die Lösungen von linearen Gleichungen existieren. Sei dazu die Gleichung a + x = b mit a, b ∈ R gegeben. Die Lösung x = b − a
ist folglich die Differenz zweier Cauchy-Folgen und durch eine Cauchy-Folge rationaler
Zahlen approximierbar. Analog zeigt man die Lösung der Gleichung a · x = b, a 6= 0. Satz 2.20
Q liegt dicht in R, d.h. zu jedem a ∈ R und zu jedem > 0 existiert q ∈ Q : |a − q| < .
Beweis. Nach Konstruktion von R existiert zu jedem a ∈ R eine gegen a konvergente
Cauchy-Folge (an )n∈N in Q.
Bei den rationalen Zahlen Q wurde festgestellt, dass gewisse Löcher existieren, die durch
den Zahlenraum Q nicht darstellbar waren. Zum Beispiel war die approximierende Folge
√
der Lösung der Gleichung x2 = 2 zwar konvergent, allerdings lag der Grenzwert x = 2
nicht in Q. Für den Körper R gilt hingegen nun folgendes Resultat.
Satz 2.21
R ist vollständig, d.h. jede Cauchy-Folge in R konvergiert gegen einen Grenzwert in R.
Beweis. Sei eine Cauchy-Folge (an )n∈N mit Folgengliedern an ∈ R reeller Zahlen gegeben. Nun ist zu zeigen, dass der Grenzwert dieser Folge ebenfalls in R liegt (d.h. durch
eine Cauchy-Folge mit Folgenglieder in Q approximierbar ist). Zu jedem der Folgenglieder (die in R liegen) sei daher zunächst die approximierende Folge in Q gegeben, d.h. es
sei das n-te Folgenglied dargestellt durch
R 3 an = lim an,m ,
m→∞
an,m ∈ Q für alle m ∈ N.
Da dies eine Cauchy-Folge ist, lässt sich für jedes Folgenglied an eine Schranke kn wählen,
ab der die Approximation durch die Folge rationaler Zahlen so gut ist, dass gilt
|an − an,kn | <
Dies erzeugt einen neue Folge (an,kn )n∈N :
34
1
n
mit kn ∈ N.
1
mit kn 2 N.
n
2.4 Mächtigkeit von Mengen und Abzählbarkeit
Dies erzeugt einen neue Folge (an,kn )n2N :
|an
a0,0
a1,0
a2,0
..
.
a0,1
a1,1
a2,1
an,0
an,1
a0,2
a1,2
a2,2
an,2
a0,3
a1,3
a2,3
...
an,kn | <
a0,4
a1,4
a2,4
...
...
...
an,kn
...
...
a0 2 R
a1 2 R
a2 2 R
..
.
!
!
!
!
!
lim an,kn
n!1
an 2 R
#
= a = lim an
n!1
Die Folge (an,kn )n2N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und
hat denselben Grenzwert wie die Folge (an )n2N . Dies sieht man folgendermaßen: Sei ✏ >
Die Folge (an,kn )n∈N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und
beliebig vorgegeben, so findet man ein n✏ 2 N, so dass für alle n, m n✏ gilt
hat denselben Grenzwert wie die Folge (an )n∈N . Dies sieht man folgendermaßen: Sei > 0
beliebig vorgegeben, so findet man ein n ∈ N, so 1dass für alle n, m ≥ n gilt1
|an
1
|an − am | < ,
3
und somit gilt auch
und somit gilt auch
am | < ✏,
3
|an
1
|an − an,kn | < ,
3
an,kn | < ✏,
3
am,km |  |an,kn an | + |an am | + |am
1 n −1 am | +1 |am − am,km |
|an,kn − am,km | ≤ |an,kn − an | +
 ✏|a+
✏ + ✏ = ✏.
1
1
13
3
3
Sei nun
|an,kn
am,km |
≤ + + = .
3
3
3
Sei nun
a = lim an,kn
a = lim an,kn
n!1
n→∞
der Grenzwert dieser Folge von rationalen Zahlen - der gemäß Definition in R liegt
der Grenzwert
dieser Folge stimmt
von rationalen
Zahlen.
Grenzwert
stimmt der
nun Folge
aber (an )n2N überein
Dieser Grenzwert
nun aber
auchDieser
mit dem
Grenzwert
auch mit
demesGrenzwert
der Folge (an )n∈N überein, denn es gilt
denn
gilt
1
1
|an − a| |a
≤n|an −
|+
|an,k
≤ n,k
+n|an,ka|
a| →+0|an,k
(n n→ ∞).
n,kn|a
a|a
an,k

a| ! 0
n − |a|
n −
n
n + |a
n
n
(n ! 1).
Dies zeigt:
Grenzwert
der Cauchy-Folge
(an )n∈N ist durch
Cauchy-Folge
(an,k
n )n∈N
Diesder
zeigt:
der Grenzwert
der Cauchy-Folge
(an die
)n2N
ist durch die
Cauchy-Folge
(an,kn )n2N
von rationalen
Zahlen
approximierbar
und
somit
auch
in
R.
von rationalen Zahlen approximierbar und somit auch in R.
⇤
2.4 Mächtigkeit von Mengen und Abzählbarkeit
2.4 Mächtigkeit von Mengen und Abzählbarkeit
Es lässt sich die Frage stellen, welche der Mengen Q und R mehr Elemente besitzt oder
lässt
sich
die Frage
stellen,
welche der
R mehrdieElemente
besitzt ode
ob sie Es
gleich
viele
Elemente
haben.
Dazu benötigt
man Mengen
zunächst Q
eineund
Definition,
die
Anzahlob
ansie
Elementen
in einer
Menge greifbar
und
speziell die
Anzahl
bei Mengen
gleich viele
Elemente
haben.macht
Dazu
benötigt
man
zunächst
eine Definition, die di
mit unendlich
vielen
Elementen
(z.B.
N,
Z,
Q,
R)
differenzierter
auffassen
lässt.
Anzahl an Elementen in einer Menge greifbar macht.
35
3
2 Zahlen
Definition 2.22 (Mächtigkeit von Mengen)
Die Mächtigkeit einer Menge gibt die Anzahl der Elemente in einer Menge an.
Seien A und B zwei Mengen. Die Mengen heißen gleichmächtig, falls es eine bijektive
Abbildung A → B gibt.
Eine Menge A heißt
(i) endlich, falls es für ein n ∈ N eine bijektive Abbildung {1, 2, . . . , n} → A gibt. Man
schreibt in diesem Fall |A| = n.
(ii) abzählbar, wenn sie die gleiche Mächtigkeit wie die Menge der natürlichen Zahlen
hat, d.h. falls es eine bijektive Abbildung N → A gibt.
(iii) überabzählbar, falls A weder endlich noch abzählbar ist.
Beispiel 2.23
Für die Menge A := {4, 7, 8, −5, −7} ist |A| = 5.
Satz 2.24 (Z ist abzählbar)
Die Menge Z ist abzählbar.
Beweis. Gesucht ist eine bijektive Abbildung f : N → Z, die eine Zuordnung der natürlichen Zahlen zu den ganzen Zahlen darstellt. Dies wird durch die folgende Abbildung
geleistet
(
für n gerade,
− n2 ,
f (n) := n+1
,
für n ungerade,
2
oder anschaulich durch die Zuordnung
N:
↓
Z:
0 1
2
↓ ↓
↓
0 1 −1
Somit ist Z abzählbar.
3
4 5
↓
↓ ↓
2 −2 3
6 7
↓ ↓
−3 4
8 ...
↓ ...
−4 . . .
Satz 2.25
Der Körper Q ist abzählbar.
Beweis. Jede rationale Zahl kann als Bruch nz mit z ∈ Z und n ∈ N+ dargestellt werden.
Dies lässt sich als ein kartesisches Produkt zeichnen und durch eine raumfüllende Kurve
lässt sich jeder Punkt (z, n) ablaufen. Die gesuchte Nummerierung von Q ist nun gegeben
dadurch, dass man die Elemente von Q gemäß dieser Kurve listet und dabei diejenigen
Paare überspringt, die nicht teilfremd sind.
36
2.4 Mächtigkeit
Mächtigkeit von
und
Abzählbarkeit
2.4
vonMengen
Mengen
und
Abzählbarkeit
N+
...
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
...
4
4
3
4
2
4
1
4
0
4
1
4
2
4
3
4
4
4
...
...
4
3
3
3
2
3
1
3
0
3
1
3
2
3
3
3
4
3
...
...
4
2
3
2
2
2
1
2
0
2
1
2
2
2
3
2
4
2
...
...
4
1
3
1
2
1
1
1
0
1
1
1
2
1
3
1
4
1
...
...
Z
⇤
Für die reellen Zahlen ist gilt nun aber folgender Satz.
Für die reellen Zahlen ist gilt nun aber folgender Satz.
SatzSatz
2.262.26
Die
Körper
R ist
überabzählbar.
Die Körper
R ist
überabzählbar.
Beweis. Der Beweis wird über einen Widerspruch geführt. Es reicht dazu sogar aus
sich nur
eine Teilmenge
dereinen
reellenWiderspruch
Zahlen zu beschränken.
Angenommen,
gäbe aus
Beweis.
DeraufBeweis
wird über
geführt. Es
reicht dazuessogar
eine Abzählung der reellen Zahlen im Interval [0, 1) und diese Zahlen seien durch eine
sich nur auf eine Teilmenge der reellen Zahlen zu beschränken. Angenommen, es gäbe
bijektive Abbildung f : N → R darstellbar. Dann lässt sich jede dieser Zahlen f (n) als
eine eine
Abzählung
der reellen
1) und diese Zahlen seien durch eine
Dezimalzahl
f (n) = Zahlen
0, dn,0 dn,1im
dn,2Interval
. . . mit d[0,
n,i ∈ {0, 1, 2, . . . , 9} darstellen. Da die
bijektive
Abbildung
f :N
! lassen
R darstellbar.
Dann
lässt
sich jede
dieser
Zahlen
f (n) als
Zahlen
nummerierbar
sind,
sie sich alle
in einer
unendlich
langen
Liste
schreiben:
eine Dezimalzahl f (n) = 0, dn,0 dn,1 dn,2 . . . mit dn,i 2 {0, 1, 2, . . . , 9} darstellen. Da die
f (0)sie
= 0,
d0,0alle
d0,1in
d0,2einer
d0,3 unendlich
...
Zahlen nummerierbar sind, lassen
sich
langen Liste schreiben:
f (1) = 0, d1,0 d1,1 d1,2 d1,3 . . .
(2) =
d 0,2 d
d0,3
2,3 .. .. ..
ff (0)
= 0,0,dd2,00,0dd2,1
0,1 d2,2
(3) =
d3,2 d3,3 . . .
ff (1)
= 0,0,dd3,01,0dd3,1
1,1 d1,2 d1,3 . . .
.
f (2).. = 0, d2,0 d2,1 d2,2 d2,3 . . .
f (3) = 0, d3,0 d3,1 d3,2 d3,3 . . .
Nun kann diese Liste aber noch immer nicht alle Dezimalzahlen enthalten. Denn man
..
kann stets eine weitere Zahl finden,
. die noch nicht in der aktuellen Nummerierung vorhanden ist. Dazu wählt man diese Zahl wie folgt: Für die erste Dezimalstelle d0 ∈
{0, 1, 2, . . . , 9} wählt man eine Zahl, die von der Dezimalstelle der ersten Zahl d0,0 verNunschieden
kann diese
Listedieaber
noch
immer nicht
alle Dezimalzahlen
enthalten. von
Denn
ist. Für
zweite
Dezimalstelle
d2 wählt
man eine Zahl verschieden
derman
kannzweiten
stets eine
weitere Zahl
finden, Zahl
die noch
nicht
der So
aktuellen
Nummerierung
Dezimalstelle
der zweiten
d1,1 auf
der in
Liste.
fährt man
fort und wähltvorfür
die
Dezimalstelle
d
eine
Zahl
aus
{0,
.
.
.
,
9},
die
verschieden
von
der
Dezimalstelled0 2
handen ist. Dazu wählt nman diese Zahl wie folgt: Für die erste Dezimalstelle
Dieeine
so entstehende
Zahlder
kann
also mit keiner
Zahlen
aufdder
{0, 1,dn,n
2, . in
. . ,der
9} Liste
wähltist.
man
Zahl, die von
Dezimalstelle
derder
ersten
Zahl
0,0 verListe
übereinstimmen.
Dies
steht
jedoch
im
Widerspruch
zu
der
Annahme,
dass
in
der
schieden ist. Für die zweite Dezimalstelle d2 wählt man eine Zahl verschieden von der
ListeDezimalstelle
bereits alle Zahlen
auftauchen.
zweiten
der zweiten
Zahl d auf der Liste. So fährt man fort und wählt
1,1
für die Dezimalstelle dn eine Zahl aus {0, . . . , 9}, die verschieden von der Dezimalstelle
dn,n in der Liste ist. Die so entstehende Zahl kann also mit keiner der Zahlen auf der
Liste übereinstimmen. Dies steht jedoch im Widerspruch zu der Annahme, dass 37
in der
Liste bereits alle (abzählbaren) Zahlen aus R auftauchen.
⇤
37
2 Zahlen
2.5 Rechnerarithmetik
Möchte man Zahlen im Computer darstellen, so ist es notwendig sich über die Repräsentation von Zahlen Gedanken zu machen.
Stellenwertsysteme
Die gewöhnliche Darstellung von natürlichen Zahlen im Dezimalsystem ist sehr vertraut.
Ausgehend von den 10 Ziffern {0, 1, 2, . . . , 9} bildet man neue Zahlen, die man implizit
folgendermaßen versteht:
748, 25 = 7 · 102 + 4 · 101 + 8 · 100 + 2 · 10−1 + 5 · 10−2 .
Dies ist der spezielle Fall eines Stellenwertsystems zur Basis 10.
Definition 2.27 (Stellenwertsystem)
Zu einer Basis b ≥ 2 ist die b-adische Darstellung einer Zahl a gegeben durch
a=
n
X
i=−m
ai · b i
mit ai ∈ {0, 1, . . . , b − 1}
und man notiert dies als
(an an−1 an−2 . . . a1 a0 , a−1 a−2 . . . a−m )b .
Ist aus dem Kontext ersichtlich um welche Basis es sich handelt, so wird die explizite
Angabe weggelassen (z.B. beim Dezimalsystem im Alltag). Der Name Stellenwertsystem
rührt daher, dass die Stelle einer Ziffer angibt, mit welcher Potenz von b die Ziffer zu
multiplizieren ist.
Beispiele 2.28
(i)
(10111)2 = 1 · 24 + 0 · 23 + 1 · 22 + 1 · 21 + 1 · 20
= 1 · 16 + 0 · 8 + 1 · 4 + 1 · 2 + 1 · 1 = (23)10
(ii)
(0, 011)2 = 0 · 20 + 0 · 2−1 + 1 · 2−2 + 1 · 2−3
1
1
1
= 0 · 1 + 0 · + 1 · + 1 · = (0, 375)10
2
4
8
38
2.5 Rechnerarithmetik
(iii)
(10111, 011)2 = (10111)2 + (0, 011)2
= (23)10 + (0, 375)10 = (23, 375)10
Möchte man eine Zahl von einer Basis in eine andere Umrechnen, so bietet es sich an
nach folgender Überlegung vorzugehen: Bei einer Zahl in Dezimaldarstellung verschiebt
die Division durch die Basis 10 das Komma um eine Stelle nach links, die Multiplikation
mit 10 das Komma um eine Stelle nach rechts. Für eine Ganzzahl erhält man also die
Ziffern, indem man durch sukzessive durch 10 teilt und die Reste notiert:
753/10 = 75
75/10 = 7
7/10 = 0
Rest 3
Rest 5
Rest 7
und analog für eine Zahl kleiner 1, indem man mit 10 multipliziert und die Überträge
notiert:
0, 682 · 10 = 6, 82 = 6 + 0, 82
0, 82 · 10 = 8, 2 = 8 + 0, 2
0, 2 · 10 = 2, 0 = 2 + 0, 0
Man kann dann stoppen, wenn eine 0 erreicht wird. Analog lässt sich dies auch bei der
Umrechnung ins Binärsystem durchführen:
23/2 = 11
11/2 = 5
5/2 = 2
2/2 = 1
1/2 = 0
Rest
Rest
Rest
Rest
Rest
1
1
1
0
1
und dies liefert (23)10 = (10111)2 . Für Nachkommastellen geht man analog vor
0, 375 · 2 = 0, 75 = 0 + 0, 75
0, 75 · 2 = 1, 5 = 1 + 0, 5
0, 5 · 2 = 1, 0 = 1 + 0, 0
und dies liefert (0, 375)10 = (0, 011)2 .
39
2 Zahlen
Man beachte hierbei, dass eine Darstellung in einem Basissystem endlich sein kann,
während sie in einer anderen Basis periodisch wird. So gilt
0, 8 · 2
0, 6 · 2
0, 2 · 2
0, 4 · 2
0, 8 · 2
..
.
= 1, 6
= 1, 2
= 0, 4
= 0, 8
= 1, 6
= 1 + 0, 6
= 1 + 0, 2
= 0 + 0, 4
= 0 + 0, 8
= 1 + 0, 6
..
.
und somit (0, 8)10 = (0, 1100110011001100 . . .)2 = (0, 1100)2 .
Die obige Darstellung nennt man auch Festkommadarstellung. Das Komma gibt dabei
an, ab wann mit negativen Exponenten multipliziert wird. Im Gegensatz dazu verwendet man zur Darstellung von rationalen oder reellen Zahlen im Computer oftmals die
Gleitkommadarstellung.
Gleitkommadarstellung
Aktuelle Computer speichern und verarbeiten Daten als Folgen von Bits (bits = bi nary
digits), d.h. es wird die Basis b = 2 verwendet. Dies ist dem Umstand geschuldet,
dass die Bauteile eines Computers nur zwei Zustände zulassen (Strom vs. kein Strom,
magnetisiert vs. unmagnetisiert, . . . ).
Um reelle Zahlen darzustellen, wird die Binärdarstellung einer Zahl x im Computer über
eine Summe von Brüchen
r
s
r
x = ± m0 , m1 m2 m3 ...mk · 2 = (−1) · 2 ·
k
X
mi · 2−i ,
k
X
mi · 2−i
i=0
mi ∈ {0, 1},
verwendet, die jedoch im Gegensatz zur Festkommadarstellung über einen Faktor 2r
skaliert werden kann. Dabei nennt man
M := m0 , m1 m2 m3 ...mk =
i=0
die Mantisse und r den Exponenten. Für jedes x 6= 0 lässt sich dabei bei geeigneter
Wahl des Exponenten immer 1 ≤ M < 2 wählen und somit kann man die Konvention
m0 = 1 verwenden. Ein zusätzliches Bit s gibt das Vorzeichen der Zahl über (−1)s an.
Für den Exponenten werden nur ganze Zahlen in einem gewissen Bereich zugelassen,
die selbst wieder als Binärzahl durch l Bits dargestellt werden. Um das Vorzeichen des
Exponenten nicht explizit speichern zu müssen, wird der Exponent intern in der Form
r = e − e∗ mit einem festen ganzzahligen Offset e∗ > 0 und mit
e=
l−1
X
j=0
40
ej · 2j ,
ej ∈ {0, 1},
2.5 Rechnerarithmetik
dargestellt.
Für die Darstellung von Zahlen werden typischerweise Bitfolgen der Länge 32 oder 64
genutzt. Man spricht dann im vorliegenden Fall von 32- oder 64-Bit Gleitkommazahlen.
Im Falle von 64 Bit wird nach IEEE-Standard folgende Darstellung verwendet:
(s, e10 , e9 , ..., e0 , m1 , m2 , ...m52 ) ∈ {0, 1}64 ,
die der Wahl k = 52, l = 11 und e∗ = 1023 entspricht. Dabei kann man durch den
Exponenten
e=
10
X
j=0
ej · 2j
die Werte 0 ≤ e ≤ 211 − 1 = 2047 darstellen. Hier wird die folgende Konvention verwendet:
(i) Durch e = 2047, M 6= 0 werden nicht zulässige Zahlen NaN (Not a Number)
ausgedrückt.
(ii) Durch e = 2047, M = 0 wird unendlich ausgedrückt.
(iii) Durch 1 ≤ e ≤ 2046 werden normalisierte Zahlen ausgedrückt, bei denen das
implizite (nicht gespeicherte) Bit als m0 = 1 vereinbart wird:
!
52
X
x = (−1)s 2e−1023 1 +
mi · 2−i .
i=1
(iv) Durch e = 0, M = 0 wird die Zahl Null ausgedrückt.
(v) Durch e = 0, M 6= 0 werden denormalisierte Zahlen ausgedrückt, bei denen das
das implizite (nicht gespeicherte) Bit als m0 = 0 vereinbart wird:
s
−1022
x = (−1) 2
52
X
i=1
mi · 2−i .
Die kleinste positive darstellbare Zahl ist folglich 2−1022 · 2−52 = 2−1074 ≈ 5 · 10−324 , die
größe Zahl 21023 · (2 − 2−52 ) ≈ 1, 8 · 10308 .
Offensichtlich ist die Menge der so darstellbaren Gleitkommazahlen endlich. Fast alle
reellen Zahlen lassen sich dementsprechend nur näherungsweise im Computer darstellen.
Auch Ergebnisse aus Addition, Multiplikation, Subtraktion oder Division solcher Gleitkommazahlen müssen nicht unbedingt in der Menge der darstellbaren Zahlen enthalten
sein. Üblicherweise werden daher die arithmetischen Operationen intern mit höherer
Genauigkeit durchgeführt und dann auf die nächstmögliche Gleitkommazahl gerundet.
Dabei kommt es notwendigerweise zu Rundungsfehlern.
Besonderen Stellenwert hat in diesem Zusammenhang der maximale Fehler, der beim
Runden einer Zahl x zur nächstgelegenen Gleitkommazahl rd(x) = M · 2r auftritt. Die
41
2 Zahlen
zwei benachbarten Gleitkommazahlen, zwischen denen x liegt, unterscheiden sich um
genau das letzte Bit mk , haben also einen Abstand von 2−k ·2r . Dabei liegt die gerundete
Zahl x nur maximal die Hälfte dieser Strecke von einer der beiden darstellbaren Zahl
entfernt. Für den relativen Fehler ergibt sich somit
x − rd(x) 1 2−k · 2r
−(k+1)
≤ ·
(da 1 ≤ |M | < 2).
2 |M | · 2r ≤ 2
x
Definition 2.29
Die Zahl eps := 2−(k+1) heißt relative Maschinengenauigkeit.
Diese kann als kleinste Gleitkommazahl genähert werden, für die in der gewählten
Gleitkommadarstellung gilt:
1 + > 1.
Dies ist der Abstand zweier benachbarter Fließkommazahlen, es gilt also = 2 · eps.
Das Python Programm
#!/usr/bin/env python3
eps = 1
while(1):
if 1 + eps <= 1:
break
eps = eps / 2
print("eps = {0}".format(eps))
liefert auf einer 64-Bit Architektur beispielsweise das folgende Ergebnis für eps:
eps = 1.1102230246251565e-16.
Dies entspricht 2−53 ≈ 1, 11 · 10−16 und die Fließkommaarithmetik auf einer 64-Bit
Architektur hat somit eine Genauigkeit von 16 Stellen. Für 32-Bit gilt mit k = 23 und
2−24 ≈ 5, 98 · 10−8 eine Genauigkeit von 8 Stellen.
2.6 Der Körper der komplexen Zahlen C
Die Erweiterungen der Zahlenräume N ⊂ Z ⊂ Q ⊂ R verfolgte das Ziel immer mehr
Gleichungen lösen zu können und endete mit dem vollständigen Körper R. Doch noch
immer lassen sich nicht alle Gleichungen mit Koeffizienten in den reellen Zahlen lösen.
So hat die bekannte Lösung (p/q-Formel ) der Gleichung
p
p ± p2 − 4q
2
x + px + q = 0, mit p, q ∈ R
⇒
x± =
2
nur eine reelle Lösung für p2 − 4q ≥ 0.
42
2.6 Der Körper der komplexen Zahlen C
Daher sei angenommen, dass ein erneute Erweiterung des Zahlenraums existiert, die
wiederum ein Körper ist und R als Teilmenge enthält. In diesem Erweiterungskörper soll
die Gleichung x2 + 1 = 0 eine Lösung besitzen und diese Lösung sei mit i bezeichnet
(d.h. es gilt i2 = −1). Mit i sind dann auch z := x + iy und w := u + iv mit x, y, u, v ∈ R
Elemente dieses Körpers und somit ergibt sich
z + w = x + iy + u + iv = (x + u) + i(y + v),
z · w = (x + iy) · (u + iv) = xu + ixv + iyu + i2 yv = (xu − yv) + i(xv + yu),
und somit sind solche Elemente unter Addition und Multiplikation abgeschlossen. Dies
motiviert die Einführung der komplexen Zahlen.
Definition 2.30 (komplexe Zahl)
Die komplexen Zahlen sind geordnete Paare z := (x, y) ∈ R×R, für die die Multiplikation
und Addition definiert werden durch
(x, y) + (x0 , y 0 ) := (x + x0 , y + y 0 ),
(x, y) · (x0 , y 0 ) := (xx0 − yy 0 , xy 0 + x0 y).
Diese Zahlen werden auch notiert als z = x+iy mit der Lösung i2 = −1. Man bezeichnet
x =: Re z als Realteil und y =: Im z als Imaginärteil und i als imaginäre Einheit.
Satz 2.31 (C ist ein Körper)
Die Menge der komplexen Zahlen bildet einen Körper C mit neuralen Elementen (0, 0)
und (1, 0). In diesem Körper hat die Gleichung z 2 + (1, 0) = (0, 0) zwei Lösungen ±i :=
(0, ±1). Zu einem Element z = (x, y) ergeben sich die inversen Elemente zu
z −1
−z := (−x, −y),
x
−y
1
,
.
= :=
z
x2 + y 2 x2 + y 2
Beweis. Kommutativ-, Assoziativ- und Distributivgesetz ergibt sich durch direktes
Nachrechnen. Für a = (a1 , a2 ), b = (b1 , b2 ) ∈ C ergibt sich die Lösung von a + z = b zu
z = (b1 − a1 , b2 − a2 ) und somit ist (0, 0) das neutrale Element als Lösung von a + z = a.
Das neutrale Element (1, 0) bzgl. der Multiplikation zeigt man durch direktes Nachrechen von (1, 0) · z = z für alle z ∈ C. Ebenso rechnet man direkt nach, dass a · a1 = (1, 0)
gilt und z = a1 · b eine Lösung von a · z = b ist.
Die kürzere Notation einer imaginären Zahl z = x + iy kann man folglich als (x, y) =
(x, 0) + (0, 1) · (y, 0) lesen. Eine reelle Zahl x ∈ R wird mit der komplexen Zahl (x, 0)
identifiziert. Eine komplexe Zahl (0, y) heißt rein imaginär.
Analog zur Darstellung der reellen Zahlen auf einer Geraden, lässen sich die komplexen Zahlen als Ebene darstellen. Dabei entsprecht ein Punkte (x, y) dieser Ebene der
komplexen Zahl z = (x, y) ∈ C.
43
2 Zahlen
imaginäre Achse
z = x + iy
y
i
reelle Achse
1
1
x
i
Abbildung 2.5: Darstellung einer komplexen Zahl in der komplexen Zahlenebene.
Definition 2.32 (Komplexe Konjugation)
Für eine komplexe Zahl z = (x, y) = x + iy ist die komplexe konjugierte Zahl gegeben
durch
z = (x, −y) = x − iy.
Definition 2.33 (Betrag einer komplexen Zahl)
Der Betrag einer komplexen Zahl z = (x, y) = x + iy ist gegeben durch
p
√
|z| := z · z = x2 + y 2 .
Bemerkung 2.34
Die komplexen Zahlen lassen sich nicht anordnen, d.h. es lässt sich auf C keine kleiner/größer Relation einführen.
Mit den komplexen Zahlen kommt die Erweiterung des Zahlenraums zu einem Ende. In
diesem Körper lassen sich nun alle algebraischen Gleichungen lösen.
Satz 2.35 (Fundamentalsatz der Algebra)
Jede Gleichung
z n + an−1 z n−1 + . . . + a1 z + a0 = 0,
mit Koeffizienten ai ∈ C hat mindestens eine Lösung in C.
44
(n > 0),
2.6 Der Körper der komplexen Zahlen C
imaginäre Achse
z = x + iy
y
|z|
x
y
reelle Achse
z=x
iy
Abbildung 2.6: Graphische Interpretation von Betrag und Konjugation einer komplexen
Zahl: Der Betrag ist der Abstand vom Ursprung, die komplexe Konjugation bewirkt eine Spiegelung an der reellen Achse.
45
3 Konvergenz, Folgen und Reihen
Für die Einführung der reellen Zahlen waren Cauchy-Folgen von rationalen Zahlen von
großer Bedeutung. Ganz Allgemein lassen sich Folgen von Elementen in einer beliebigen
Menge A betrachten.
Definition 3.1 (Folgen)
Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung
N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet.
Beispiele 3.2
(a) Mit der Vorschrift an = n (n ∈ N) erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...)
und es gilt an ∈ N (n ∈ N).
1
(n ∈ N) erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) und es gilt
(b) Für an = n+1
an ∈ Q (n ∈ N).
(c) Es sei eine Population gegeben, die in jedem Jahr um einen festen Faktor wächst
(z.B. um 10%). Ausgehend von einer Anfangspopulation a0 ∈ R ist somit die Größe
nach 1 Jahr a0 · q (q = 1, 1 für 10%), nach Jahr 2 beträgt sie a0 · q · q, usw. . . Dies
definiert die sogenannte geometrische Folge an = a0 · q n (n ∈ N).
(d) Ein Guthaben G0 sei jährlich um einen Zinssatz p verzinst, d.h. nach einem Jahr
erhält man das Geld G1 = G0 ·(1+p) zurück (z.B. p = 0, 05 bei 5% Zinsen). Addiert
man die Zinsen bereits nach einem halben Jahr (mit halbem Zinssatz) und verzinst
diese am Ende des Jahres mit, so erhält man G2 = G0 · (1 + p2 )2 . Teilt man das
Jahr in drei Teile, so ergibt sich eine Verzinsung von G3 = G0 · (1 + p3 )3 . Allgemein
strebt die Folge an = (1 + np )n gegen den Faktor für kontinuerliche Verzinsung (d.h.
beliebig kleine Verzinsungsintervalle).
3.1 Konvergenz
Von der Konvergenz einer Folge gegen einen Grenzwert (Limes) spricht man, wenn die
Folgenglieder diesem Grenzwert ab einem Folgenglied beliebig nahe kommen. Dazu benötigt man eine Möglichkeit den Abstand zwischen dem Grenzwert und den Folgengliedern
messen zu können. Für die Körper Q, R und C kann man den Betrag definieren und
der Abstand zwischen zwei Elemente dieser Körper z, z 0 lässt sich über die Abstandsfunktion |z − z 0 | ermitteln. Daher macht die Definition der Konvergenz für alle dieser
47
3 Konvergenz, Folgen und Reihen
Körper K = Q, R, C Sinn. Im Folgenden wird der wichtige Spezialfall des Körpers K = R
betrachtet. Fast alle dieser Aussagen lassen sich jedoch direkt auf die anderen Körper
übertragen, z.B. indem man R durch C ersetzt.
Man sagt, dass eine Eigenschaft für fast alle Elemente einer Folge gilt, sofern die Eigenschaft auf alle bis auf höchstens endlich viele Elemente zutrifft. In diesem Sinne
konvergiert eine Folge gegen einen Grenzwert, falls fast alle Folgenglieder beliebig nahe
an dem Grenzwert liegen, oder formal:
Definition 3.3 (Konvergenz)
Eine Folge (an )n∈N in R heißt konvergent gegen den Grenzwert (Limes) a ∈ R, falls zu
jeder (beliebig kleinen) reellen Zahl > 0 ein n ∈ N existiert, so dass gilt:
|an − a| < für alle n ≥ n .
Es ist zu beachten, dass die Zahl n vom jeweils gewählten abhängt. Entscheidend ist
dabei nicht der genaue Wert von n , sondern lediglich die Existenz eines Wertes, ab dem
die obige Bedingung bei vorgegebenem gilt.
Konvergiert (an )n∈N gegen a so schreibt man
lim an = a
n→∞
oder
an → a (n → ∞).
Konvergiert eine Folge für n → ∞ nicht gegen einen Grenzwert so nennt man die Folge
divergent.
Beispiele 3.4
(a) Für jedes a ∈ R konvergiert die konstante Folge an = a (n ∈ N) gegen den
Grenzwert limn→∞ an = a.
1
(n ∈ N) konvergiert gegen Null, denn: Zu jedem > 0 gibt es
(b) Die Folge an = n+1
1
ein N ∈ N mit N > 1 . Somit gilt für alle n ≥ N : |an − 0| = n+1
< n1 < N1 < .
(c) Die Folge an = (−1)n (n ∈ N) divergiert, denn der Abstand zwischen zwei Folgengliedern ist |an − an+1 | = 2. Somit kann der Abstand zwischen zu einem Grenzwert
nicht beliebig klein werden.
Eigenschaften konvergenter Folgen
Definition 3.5 (Beschränkte Folgen)
Eine Folge (an )n∈N reeller Zahlen heißt
(i) beschränkt, falls alle |an | ≤ M (n ∈ N) für ein M ∈ R,
(ii) von oben beschränkt, falls alle an ≤ M (n ∈ N) für ein M ∈ R,
(iii) von unten beschränkt, falls alle an ≥ M (n ∈ N) für ein M ∈ R.
48
3.1 Konvergenz
Zudem sei an die Cauchy-Folge erinnert. Diese dient dazu Konvergenz zu definieren,
ohne dass man den Grenzwert explizit kennen muss.
Definition 3.6 (Cauchy-Folge)
Eine Folge (an )n∈N heißt Cauchy-Folge, falls zu jedem > 0 ein n ∈ N existiert, so dass
|an − am | < für alle n, m ≥ n .
Für konvergente Folgen besitzen die folgenden Eigenschaften.
Satz 3.7
(i) Der Grenzwert einer konvergenten Folge ist eindeutig.
(ii) Der Grenzwert einer konvergenten Folge bleibt gleich, wenn man endlich viele Folgenglieder ändert.
(iii) Eine konvergente Folge ist beschränkt.
(iv) Jede konvergente Folge ist eine Cauchy-Folge.
Beweis.
(i) Sei (an )n∈N eine konvergente Folge mit den Grenzwerten a und b. Dann gilt jedoch
|a − b| = |a − an | + |an − b| → 0(n → ∞) und die Grenzwerte müssen gleich sein.
(ii) Für die konvergente Folge (an )n∈N gibt es zu jedem ein n mit |an −a| < , n ≥ n .
Die Folge wird nun an endlich vielen Stellen abgeändert. Das letzte geänderte
Folgenglied sei ar , r ∈ N. Dann wählt man für die Abschätzung |an − a| < die
Schranke n = max(n , r) und erhält erneut konvergenz gegen denselben Grenzwert.
(iii) Mit = 1 gilt für n ≥ n1 ∈ N: |an | ≤ |an − a| + |a| ≤ 1 + |an |. Da nur endlich viele
Folgenglieder an , n < n1 existieren gilt:
|an | < max(|a0 |, |a1 |, ..., |an1 −1 |, 1 + |a|)
für alle n ∈ N.
(iv) Sei (an )n∈N eine konvergente Folge mit Grenzwert a ∈ R. Dann existiert zu jedem
> 0 ein n ∈ N mit |an − a| < 2 für alle n ≥ n . Insbesondere gilt für n, m ∈
N, n, m ≥ N :
|an − am | = |an − a + a − am | ≤ |an − a| + |am − a| < + < .
2 2
Bemerkung 3.8
Umgekehrt müssen beschränkte Folgen nicht notwendigerweise konvergieren. Ein Beispiel
ist die Folge ((−1)n )n∈N .
Bemerkung 3.9
Für Folgen im vollständigen Körper R gilt die Umkehrung: Jede Cauchy-Folge in R
konvergiert (mit Grenzwert a ∈ R). Denn gemäß Konstruktion ist R so gewählt, dass
jede Cauchy-Folge in R einen Grenzwert hat.
49
3 Konvergenz, Folgen und Reihen
3.2 Bestimmung von Konvergenz und Grenzwerten
Manchmal möchte man zeigen, dass einen Folge konvergent ist, ohne dass man den
Grenzwert explizit kennt. Zum einen kann man zeigen, dass es sich um eine CauchyFolge handelt. Für spezielle Typen von Folgen gibt es einen direkteren Schluss.
Monotone Folgen
Definition 3.10 (Monotone Folgen)
Eine Folge (an )n∈N heißt
monoton wachsend,
streng monoton wachsend,
monoton f allend,
streng monoton f allend,
falls
falls
falls
falls
an
an
an
an
≤ an+1
< an+1
≥ an+1
> an+1
für
für
für
für
alle
alle
alle
alle
n ∈ N,
n ∈ N,
n ∈ N,
n ∈ N.
Satz 3.11
Eine monoton wachsende und von oben beschränkt Folge in R ist konvergent.
Eine monoton fallende und von unten beschränkt Folge in R ist konvergent.
Beweis. (Skizze) Da (an )n∈N von oben beschränkt ist, existiert aufgrund der Vollständigkeit von R eine kleinste obere Schranke (das sogenannte Supremum)
a := sup an := min{M ∈ R | an ≤ M für alle n ∈ N}.
n∈N
Das Supremum a ∈ R ist der gesuchte Grenzwert, denn die Folgenglieder werden immer
größer, dürfen aber diese Schranke nicht überschreiten. Für monoton fallende Folgen
schließt man analog mit der größten oberen Schranke (das sogenannte Infimum)
a := inf an := max{M ∈ R | an ≥ M für alle n ∈ N}.
n∈N
Beispiel 3.12
Für a ∈ R, a ≥ 0 konvergiert die rekursiv definierte Folge
1
a
xn +
,
xn+1 :=
2
xn
mit jedem Startwert x0 > 0. Dies sieht man wie folgt.
Mit x0 > 0 sind auch alle Folgenglieder xn > 0, n ∈ N. Es gilt sogar
2
1
a
2
xn+1 − a =
xn +
−a
4
xn
!
2
2
a
a
1
1
2
xn + 2a +
− 4a =
xn −
≥0
=
4
xn
4
xn
50
3.2 Bestimmung von Konvergenz und Grenzwerten
und daher x2n ≥ a für n ≥ 1 (d.h. die Folge ist nach unten beschränkt).
Zudem findet man
xn − xn+1
1
a
= xn −
xn +
2
x
n
a
1
1
xn −
=
x2n − a ≥ 0
=
2
xn
2xn
und daher xn+1 ≤ xn für n ≥ 1 (d.h. die Folge ist monoton fallend).
Die monoton fallende, nach unten beschränkte Folge ist damit konvergent. Da die Folge
konvergent ist, besitzt sie in R den Grenzwert x. Für xn , xn+1 → x muss für diesen
gelten:
1
a
x=
x+
bzw.
x2 = a.
2
x
Grenzwerte und Anordnung
Eine Eigenschaft von Grenzwerten ist, dass sie die Anordnung nicht ändern.
Satz 3.13
Sei (an )n∈N und (bn )n∈N konvergente Folgen in R mit
für alle n ∈ N,
an ≤ b n ,
dann gilt für die Grenzwerte ebenfalls
lim an ≤ lim bn .
n→∞
n→∞
Beweis. (Skizze) Widerspruchsbeweis mit der Annahme lim an > lim bn .
n→∞
n→∞
Damit lässt sich der Grenzwerte einer Folge bestimmen, indem man eine untere und
einer obere Folge findet, die denselben Grenzwert besitzt. Denn aus
an ≤ b n ≤ c n ,
für alle n ∈ N
folgt aus obigem Satz
lim an ≤ lim bn ≤ lim cn
n→∞
n→∞
n→∞
und gilt limn→∞ an = b = limn→∞ cn , so folgt
b ≤ lim bn ≤ b.
n→∞
Dies lässt sich nutzen, um einen Grenzwert ausgehend von bekannten Grenzwerten zu
zeigen.
51
3 Konvergenz, Folgen und Reihen
Beispiele 3.14
(i) Sei bn = n12 , (n ∈ N+ ). Als Einschachtelung wird nun die Nullfolge an = 0, (n ∈
N+ ) und die Folge cn = n1 , (n ∈ N+ ) verwendet. Wegen n12 < n1 , n ≥ 1, gilt
an → 0 (n → ∞) und cn → 0 (n → ∞). Damit folgert man bn → 0 (n → ∞).
Analog zeigt man
lim
n→∞
(ii) Die Folge an :=
10n
n!
1
= 0,
nk
für alle Potenzen k ∈ N+ .
(n ∈ N) konvergiert gegen 0.
Denn für n ≥ 11 gilt:
10n
10 10n−1
10
10n−1
≤
≤
n!
n (n − 1)!
n 1 · 2 · . . . (n − 2) · (n − 1)
10
1
10
=
1
9
10 11
n−1 ≤
n 10 · . . . · 10 · 10 · 10 · . . . · 10
n
1
→0
1 10
10
(n → ∞)
Rechenregeln für Grenzwerte
Satz 3.15
Seien (an )n∈N und (bn )n∈N konvergente Folgen mit Grenzwerten
lim an = a
n→∞
und
lim bn = b.
n→∞
Dann sind auch die Summenfolge (an + bn )n∈N und Produktfolge (an · bn )n∈N konvergent
und für die Grenzwerte gilt
(i) lim {an + bn } = a + b,
n→∞
(ii) lim {an · bn } = a · b,
n→∞
Ist zudem b 6= 0, bn 6= 0 (n ∈ N), so ist die Quotientenfolge ( abnn )n∈N konvergent mit
(iii) lim { abnn } = ab .
n→∞
Beweis. Exemplarisch wird (ii) gezeigt. Da beide Folgen konvergent sind, gibt es n mit
|an − a| < und
|bn − b| < ,
für n ≥ n ,
sowie einen Konstante M (konvergente Folgen sind beschränkt) mit
|an | ≤ M
52
und
|bn | ≤ M
für n ∈ N.
3.3 Häufungspunkte und Teilfolgen
Durch das Einschieben des Terms −an · b + an · b = 0 folgert man:
|an · bn − a · b| = |an · bn − an · b + an · b − a · b|
= |an · (bn − b) + (an − a) · b|
≤ |an | · |(bn − b)| + |(an − a)| · |b|
≤ M + M = 2M .
Beispiele 3.16
(i) Für die Multiplikation mit der konstanten Folge (c)n∈N gilt lim {c · an } = c · a und
n→∞
Allgemein für beliebige c, d ∈ R:
lim {c · an + d · bn } = c · lim an + d · lim bn = c · a + d · b.
n→∞
n→∞
n→∞
(ii)
n
1
1
lim
= lim 1 −
= lim 1 − lim
=1−0=1
n→∞ n + 1
n→∞
n→∞
n→∞ n + 1
n+1
(iii)
lim
n→∞
5n + 1
3n − 10
= lim
n→∞
5 + n1
3 − 10
n
=
lim {5 + n1 }
n→∞
lim {3 −
n→∞
10
}
n
=
5
5+0
=
3−0
3
(iv)
√
n√ √
√ o
√
n+1−n
n
lim
n( n + 1 − n) = lim
n√
= lim √
√
√
n→∞
n→∞
n→∞
n+1+ n
n+1+ n




1
1
1
q
=
= lim
=
n→∞ 

1+1
2
1+ 1 +1
n
Bemerkung 3.17
Für das Rechnen mit den Grenzwerte ist es essentiell, dass die Folgen konvergent sind.
Für nicht-konvergente Folgen (z.B. limn→∞ n = ∞) lässt sich durch obige Rechenregeln
keine Aussage treffen. So lässt sich „ ∞
“ nicht ermitteln, denn limn→∞ nn2 = 0, limn→∞ nn =
∞
2
1 und limn→∞ nn = ∞. Vor der Verwendung obiger Rechenregeln muss zunächst die
Konvergenz der Folgen an und bn gezeigt werden.
3.3 Häufungspunkte und Teilfolgen
Definition 3.18 (Häufungspunkt)
Ein Punkt a ∈ R heißt Häufungspunkt einer Folge (an )n∈N , falls zu jedem > 0 immer
53
3 Konvergenz, Folgen und Reihen
unendlich viele Folgenglieder an mit einem Abstand von höchstens zu a gibt, d.h. für
jedes N ∈ N gibt es ein an , n ≥ N mit
|an − a| < .
Beispiel 3.19
Die reelle Folge an = (−1)n hat zwei Häufungspunkte a = 1 und a = −1.
Beispiel 3.20
Jede konvergente Folge hat genau einen Häufungspunkt, nämlich den Grenzwert der
Folge.
Besitzt eine Folge mehr als einen Häufungspunkt, dann kann man sich auch die Folgenglieder beschränken, die in der Nähe eines Häufungspunktes liegen. Man wählt also die
Folgenglieder entsprechend aus. Dies nennen man das bilden einer Teilfolge.
Definition 3.21 (Teilfolge)
Sei (an )n∈N eine Folge. Eine Folge (bm )m∈N heißt Teilfolge von (an )n∈N , falls es eine streng
monotone Folge von Indizes n1 < n2 < n3 < . . . gibt, so dass bm = anm für alle m ∈ N.
Zu einer Folge mit mehr als einem Häufungspunkt kann man somit eine Teilfolge auswählen, die dann gegen den Häufungspunkt konvergiert.
Definition 3.22 (Limes superior/inferior)
Zu einer Folge reeller Zahlen (an )n∈N mit mindestens einem Häufungspunkt. Den größten
Häufungspunkt bezeichnet man als Limes superior lim sup an . Den kleinsten Häufungspunkt bezeichnet man als Limes inferior lim inf an .
n→∞
n→∞
Für beschränkte Folgen in R gilt folgender Satz, der hier ohne Beweis angegeben wird.
Satz 3.23 (Bolzano-Weierstraß)
Jede beschränkte Folge reeller Zahlen besitzt einen größten und einen kleinsten Häufungswert. Jede beschränkte Folge reeller Zahlen besitzt daher eine konvergente Teilfolge.
3.4 Reihen
Ein berühmtes Paradoxon der antiken Griechen stammt vom Zenon: Der schnelle Achilles
versucht eine langsame Schildkröte zu erreichen. Doch obwohl Achilles doppelt so schnell
ist wie die Schildkröte, scheint es ihm nicht zu gelingen. Denn jedes Mal, wenn Achilles
den Punkt erreicht, an dem sich die Schildkröte aktuell befindet, ist diese ebenfalls
ein Stück weiter gekommen. Daher muss Achilles erneut versuchen, die Schildkröte auf
dieser nun halb so langen Strecke zu erreichen. Dieses Spiel scheint sich unendlich oft zu
wiederholen und Achilles erreicht die Schildkröte folglich nicht.
54
3.4 Reihen
t = 0 min
A
S
t = 1 min
A
t = 1 min
S
t=
t=1+
1
min
2
1
min
2
A
t=
t=1+
1 1
+ min
2 4
..
.
S
1
min
4
AS
t=
1
min
8
..
.
Abbildung 3.1: Paradoxon von Zenon: Der doppelt so schnelle Achilles (A) scheint die
Schildkröte (S) niemals zu erreichen, denn diese ist immer bereits ein
(wenn auch kleineres) Stück weiter, wenn Achilles den Punkt erreicht,
an dem sich die Schildkröte aktuell befindet.
Der Trugschluss in diesem Paradoxon liegt darin, dass unendliche Summen durchaus
endliche Werte annehmen können. So beträgt die von Achilles benötigte Zeit
∞
X 1
1
1 1 1
+ ... =
T =1+ + + +
2 4 8 16
2k
k=0
und diese Summe hat einen endlichen Wert. Von der mathematischen Behandlung solcher
unendlichen Summen handelt dieses Kapitel.
Zu jeder Folge (an )n∈N lassen sich endlich viele der Folgenglieder aufsummieren. Eine
solche Teilsumme nennt man die Partialsumme
sn :=
n
X
ak .
k=0
So entsteht eine neue Folge (sn )n∈N , deren Konvergenz man untersuchen kann.
Definition 3.24 (Reihe)
Eine Reihe mit den Gliedern ak ist die unendliche Summe
∞
X
ak ,
k=0
55
3 Konvergenz, Folgen und Reihen
die verstanden wird als die Folge der Partialsummen
sn :=
n
X
mit n → ∞.
ak
k=0
Existiert der Grenzwert limn→∞ sn , so heißt die Reihe konvergent, andernfalls divergent.
Beispiel 3.25 (Geometrische Reihe)
Die sogenannte geometrische Reihe ist gegeben durch
2
3
4
1 + q + q + q + q + ... =
∞
X
qk .
k=0
Diese Reihe ist für |q| < 1 konvergent. Betrachtet man nämlich die Partialsummen, so
findet man durch
!
!
!
n
n
n
n
n+1
X
X
X
X
X
k
k
k
k
(1 − q) ·
=1·
=
q
q −q·
q
q −
q k = 1 − q n+1
k=0
k=0
k=0
k=0
k=1
zunächst die geometrische Summenformel
n
X
k=0
qk =
1 − q n+1
1−q
für alle n ∈ N.
Somit folgt für den Grenzwert der Reihe
∞
X
n
X
1 − q n+1
1
q = lim
q = lim
=
.
n→∞ 1 − q
n→∞
1−q
k=0
k=0
k
k
Beispiel 3.26 (Harmonische Reihe)
Die sogenannt harmonische Reihe ist gegeben durch
∞
X1
1 1 1 1
1 + + + + + ... =
.
2 3 4 5
k
k=1
Diese Reihe divergiert. Denn betrachtet man die Partialsumme für n = 2k , so findet man
die Abschätzung
1
2
1
=1+
2
1
≥1+
2
1
=1+
2
1 1 1
1
+ + + ... +
3 4 5 n
1 1
1
+
+
+
+ ... +
3 4
5
1 1
1
+
+
+
+ ... +
4 4
8
1
1
1
+ 2 · + 4 · + 2k−1 · k
4
8
2
1
= 1 + k · → ∞ (k → ∞).
2
s2k = 1 +
56
+
1
1
1
+
+ ... + k
8
2k−1 + 1
2
1
1
1
+
+
.
.
.
+
8
2k
2k
3.5 Konvergenzkriterien für Reihen
3.5 Konvergenzkriterien für Reihen
Ein Konvergenzkriterium für Reihen erhält man, indem man das Cauchy-Kriterium für
die Folge der Partialsummen anwendet.
Satz 3.27 (Cauchy-Kriterium für Reihen)
Eine Reihe ist genau dann konvergent, wenn es für jedes > 0 ein n gibt, so dass gilt:
|sn − sm | = |
n
X
k=m+1
für alle n ≥ m ≥ n .
ak | < Beweis. Dies ist das Cauchy-Kriterium für die Folge der Partialsummen (sn )n∈N .
Damit eine Reihe überhaupt konvergierten kann, müssen die Reihenglieder eine Nullfolge
bilden. Denn mit sn → s gilt immer an = sn − sn−1 → s − s = 0.
Sind alle Elemente der Summe positiv, so ist die Folge der Partialsummen monoton
wachsend. Ist sie zudem beschränkt, dann muss die Reihe konvergieren.
Satz 3.28 (Konvergenz
für nicht-negative Reihen)
P
Eine Reihe
ak mit nicht-negativen Gliedern ak ≥ 0 konvergiert genau dann, wenn die
Folge der Partialsummen beschränkt ist, d.h. es gibt ein M ∈ R, mit
n
X
k=0
für alle n ∈ n.
ak ≤ M
Analog zu Folgen lassen sich die Reihen auch gegen andere Reihen abschätzen.
Satz 3.29 (Majoranten-Kriterium)
Gilt |ak | ≤ |bk | für alle k ∈ N und konvergiert die Reihe
∞
P
ak mit
∞
P
k=0
|bk |, dann konvergiert auch
k=0
∞
∞
X
X
|
ak | ≤
|bk |.
k=0
k=0
Beweis. Folgerung aus dem Anordnungssatz für Grenzwerte angewendet auf die Partialsummenfolge.
Definition 3.30 (Absolut konvergente Reihe)
Eine Reihe heißt absolut konvergent, falls die Summe der Beträge
∞
X
k=0
konvergiert.
|ak |
57
3 Konvergenz, Folgen und Reihen
Eine absolut konvergente Reihe ist immer auch konvergent, wie man aufgrund der Dreiecksungleichung direkt sieht:
n
n
X
X
|
ak | ≤
|ak |.
k=0
k=0
Durch Abschätzung gegen die geometrische Reihe findet man zwei weitere Kritierien.
Satz 3.31 (Wurzel-Kriterium)
Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt
p
p
k
k
|ak | ≤ q < 1,
d.h. lim sup |ak | < 1
k→∞
p
dann konvergiert die Reihe absolut. Gilt k |ak | > 1 für unendlich viele k ∈ N, so
divergiert die Reihe.
Beweis. Aus |ak | ≤ q k folgt, p
dass die geometrische Reihe eine Majorante ist und diese
k
konvergiert für |q| < 1. Gilt |ak | > 1, so auch |ak | > 1 und die Glieder bilden nicht
einmal einen Nullfolge.
Satz 3.32 (Quotienten-Kriterium)
Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt
ak+1 ak+1 ≤ q < 1,
d.h. lim sup <1
ak ak k→∞
dann konvergiert die Reihe absolut.
Beweis. Aus |ak+1 /ak | ≤ q für alle k ≥ N folgt
|ak | ≤ q|ak−1 | ≤ q 2 |ak−2 | ≤ . . . ≤ q k−N |aN |.
Somit hat die Reihe mit
|aN |q
eine konvergente Majorante für |q| < 1.
−N
∞
X
qk
k=N
Beispiel 3.33 (Eulersche Zahl)
Die Reihe
∞
X
1
e :=
k!
k=0
konvergiert. Ihr Wert e ≈ 2, 7182818 . . . heißt Eulersche Zahl.
Die Konvergenz sieht man mit dem Quotientenkriterium. Für k ≥ 1 gilt
1
ak+1 k!
1
1
= (k+1)! =
=
≤ < 1.
1
ak (k + 1)!
k+1
2
k!
und damit ist der größte Häufungswert echt kleiner eins.
58
3.6 Potenzreihen
3.6 Potenzreihen
Definition 3.34 (Potenzreihe)
Eine Reihe der Form
P (x) :=
∞
X
k=0
ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . .
heißt Potenzreihe mit Koeffizienten ak ∈ R, Entwicklungspunkt x0 ∈ R und Argument
x ∈ R.
Satz 3.35 (Konvergenzradius von Potenzreihen)
Eine Potenzreihe
P (x) =
∞
X
k=0
ak (x − x0 )k
konvergiert absolut für alle Argumente x ∈ R, die innerhalb des sogenannten Konvergenzradius ρ liegen,
1
1
1
p
|x − x0 | < ρ :=
:= 0
mit formal: := ∞ und
0
∞
lim sup k |ak |
k→∞
und divergiert für |x − x0 | > ρ. Existiert der Grenzwert
ρ :=
1
ak+1 ,
lim ak k→∞
so entspricht dies ebenfalls dem Konvergenzradius.
Beweis. Gemäß Wurzelkriterium gilt:
p
p
lim sup k |ak (x − x0 )k | = |x − x0 | · lim sup k |ak |
k→∞
k→∞
(
< 1, für |x − x0 | < ρ,
|x − x0 |
=
=
ρ
> 1, für |x − x0 | > ρ.
Analog folgert man mit dem Quotientenkriterium.
Die wohl wichtigste Potenzreihe ist die Exponentialfunktion.
Definition 3.36
Die Exponentialfunktion ist gegeben durch
exp(x) :=
∞
X
xn
k=0
n!
.
59
3 Konvergenz, Folgen und Reihen
Die Exponentialfunktion ist überall konvergent, wie das Quotientenkriterium zeigt:
ak+1 xk+1 k! |x|
1
für alle k ≥ 2|x|.
ak = (k + 1)! xk = k + 1 ≤ 2 < 1
Absolut konvergente Reihen lassen sich multiplizieren.
Satz 3.37 (Cauchy-Produkt)
∞
∞
P
P
Seien
ak und
bk zwei absolut konvergente Reihen. Dann gilt
k=0
k=0
∞
X
k=0
ak
!
·
∞
X
k=0
bk
!
=
∞
k
X
X
k=0
aj bk−j
j=0
!
.
Man nennt
k
X
aj bk−j
j=0
das Cauchy-Produkt.
Beweis. (Skizze) Ausmultiplizieren der endlichen Summe, Dreiecksungleichung und Grenzübergang für n → ∞.
Für die Exponentialfunktion ergibt sich damit folgendes Resultat.
Satz 3.38 (Funktionalgleichung für die Exponentialfunktion)
Es gilt
exp(x) · exp(y) = exp(x + y).
Beweis. (Übung)
60
4 Stetigkeit
Der Grenzwertbegriff für Zahlenfolgen lässt sich auf Funktionen übertragen. Funktionen
(oder Abbildungen) waren bereits im Kapitel über Mengen aufgetreten. Hier wird nun
der Fall betrachtet, dass Definitionsbereich und Bild Teilmengen der reellen Zahlen R
sind.
Definition 4.1 (Funktion)
Sei D ⊂ R. Eine Vorschrift f : D → R, die jedem x ∈ D genau einen Funktionswert
f (x) ∈ R zuordnet, heißt reellwertige Funktion.
4.1 Intervalle
Ein häufiger anzutreffender Fall für den Definitionsbereich D ⊂ R sind Intervalle.
Definition 4.2 (Intervalle)
Für die Endpunkte a, b ∈ R mit −∞ < a ≤ b < ∞ notiert man die Intervalle
[a, b] := {x ∈ R | a ≤ x ≤ b},
(a, b) := {x ∈ R | a < x < b},
[a, b) := {x ∈ R | a ≤ x < b},
(a, b] := {x ∈ R | a < x ≤ b},
(abgeschlossenes
(offenes
(rechts halboffenes
(links halboffenes
Intervall),
Intervall),
Intervall),
Intervall),
und die uneigentlichen Intervalle
[a, ∞) := {x ∈ R | a ≤ x},
(−∞, b] := {x ∈ R | x ≤ b},
(nach oben unbeschränktes Intervall),
(nach unten unbeschränktes Intervall).
In diesem Zusammenhang ist der Abschluss einer Menge interessant. Dieser wird dadurch
gebildet, dass man die „Randpunkte“ der Menge mit hinzunimmt. Anschaulich sind dies
alle Punkte, die sich durch Folgen mit Folgengliedern in der Menge selbst annähern
lassen. Dabei muss der Grenzwert dieser Folge nicht in der Menge enthalten sein, kann
also am „Rand“ liegen. Formal definiert man:
Definition 4.3 (Abschluss)
Eine Teilmenge M ⊂ R heißt abgeschlossen, falls der Grenzwert jeder konvergenten Folge
(an )n∈N von Punkten an ∈ M ebenfalls in der Menge M liegt, d.h. limn→∞ ∈ M .
61
4 Stetigkeit
Für eine Teilmenge M ⊂ R ist der Abschluss M definiert durch
n
o
M := x ∈ R | Es gibt eine Folge (xn )n∈N , xn ∈ M mit x = lim xn .
n→∞
Jeder Punkt von M ist automatisch in M enthalten, da man als Folge die konstante
Folge von diesem Punkt wählen kann. Eine Menge ist abgeschlossen, falls M = M gilt.
Beispiele 4.4
(i) Die Menge [a, b] ist abgeschlossen.
(ii) Der Abschluss von (a, b), (a, b] und [a, b) ist gegeben durch [a, b].
(iii) Die Menge [0, ∞) ist abgeschlossen.
(iv) Der Abschluss von R \ {0} ist gegeben durch R.
4.2 Folgenstetigkeit
Nun lässt sich der Grenzwertprozess auf Funktionen übertragen.
Definition 4.5 (Grenzwert einer Funktion in einem Punkt)
Sei D ⊂ R und f : D → R eine Funktion. Die Funktion hat einen Grenzwert c ∈ R
in einem Punkt a ∈ D, wenn für alle Folgen von Punkten (xn )n∈N mit Grenzwert a =
limn→∞ xn auch die Folge ( f (xn ) )n∈N mit Grenzwert c konvergiert, d.h. wenn gilt
xn → a (n → ∞)
In diesem Fall wird auch kurz notiert:
⇒
f (xn ) → c (n → ∞).
lim f (x) = c.
x→a,
x∈D
Man beachte, dass der betrachtete Punkt a nicht im Definitionsbereich liegen muss. Er
muss lediglich im Abschluss D liegen, damit überhaupt eine Folge xn → a existiert. Im
Speziellen muss also auch die Funktion f : D → R dort nicht definiert sein. Dies wird
bei der späterten Definition der Ableitung wesentlich sein.
Zunächst sei aber die Eigenschaft der Stetigkeit einer Funktion betrachtet. Eine Funktion auf einem reellen Intervall ist anschaulich gesprochen dann stetig, wenn der Graph
zusammenhängt, d.h. ohne abzusetzen zeichenbar ist. Formal lässt sich dies dadurch
erklären, dass alle Folgen zu einem Punkt (im Speziellen die von „links“ und die von
„rechts“) denselben Grenzwert haben.
Definition 4.6 (Stetigkeit)
Eine Funktion f : D → R heißt stetig in einem Punkt a ∈ D, wenn für jede Folge
(xn )n∈N in D gilt:
xn → a (n → ∞)
62
⇒
f (xn ) → f (a) (n → ∞).
4.2 Folgenstetigkeit
f (x)
f (x2 )
f (x3 )
f (a)
f (a)
!
!
f (x2 )
f (x1 )
!
f (x2 )
f (x1 )
x1
x2
x3
!
a
x
x1
x3 x2
f (x)
x1
x2
x3
!
a
x3 x2
x1
x
Abbildung 4.1: Stetigkeit nach der Folgendefinition: Für alle Folgen (xn )n∈N mit xn → a
muss auch f (xn ) → f (a) gelten. (Links: stetig / Rechts: unstetig)
Andernfalls heißt die Funktion unstetig in a. Ist die Funktion stetig in jedem Punkt von
D, so nennt man sie stetig auf D (oder auch schlicht: stetig).
Für einen stetige Funktion gilt also
lim f (x) = f (lim x),
x→a
x→a
d.h. Stetigkeit erlaubt es, dass die Grenzwertbildung mit dem Anwenden der Funktion
vertauscht wird.
Beispiele 4.7
(i) Für ein beliebiges c ∈ R ist eine konstante Funktion f (x) = c (x ∈ R) gegeben.
Diese ist stetig, denn die Folge ( f (xn ) )n∈N = (c)n∈N konvergiert für alle Folgen
(xn )n∈N gegen c.
f (x)
c
f (x) = c
1
1
x
63
4 Stetigkeit
(ii) Die Identitätsfunktion f (x) = x ist stetig. Hier sind (xn )n∈N und ( f (xn ) )n∈N gleich
und die eine konvergiert genau dann, wenn die andere konvergiert.
f (x)
f (x) = x
1
x
1
(iii) Die Exponentialfunktion f (x) = ex ist stetig.
f (x)
f (x) = ex
4
3
e ≈ 2.71828...
2
1
−2
−1
1
2
x
−1
Zunächst ist f (x) = ex stetig im Punkt a = 0, d.h limx→0 ex = e0 = 1, denn es gilt
für |x| < 1
0
x
x1 x2 x3
x
|e − 1| = +
+
+
+ . . . − 1
0!
1!
2!
3!
2
3
x
x
x
= +
+
+ . . .
1!
2!
3!
1
|x| |x|2
≤ |x| ·
+
+
+ ...
1!
2!
3!
1
1
1
≤ |x| ·
+ + + ...
1! 2! 3!
= |x| · (e − 1) → 0 (|x| → 0).
Sei nun a ∈ R beliebig und (xn )n∈N eine Folge mit xn → a. Dann gilt:
|ea − exn | = |ea | · |1 − exn −a | → |ea | · |1 − 1| = 0
64
für (xn − a) → 0.
4.3 -δ-Stetigkeit
(iv) Die Heavisidefunktion
H(x) :=
(
für x < 0,
für x ≥ 0,
0,
1,
ist unstetig im Punkt a = 0.
f (x)
f (x) = H(x)
1
−3
−2
−1
1
2
3
x
−1
1
Dazu betrachtet man die Folge xn := − n+1
, (n ∈ N). Für diese gilt:
xn → 0 (n → ∞) und f (xn ) = 0 für alle n ∈ N,
jedoch f (0) = 1.
(v) Für eine endliche Zerlegung eines Intervall [a, b) durch Punkte a = p0 < p1 < p2 <
. . . < pk = b ist eine Treppenfunktion stückweise definiert durch
f (x) := ci für x ∈ [ pi−1 , pi ) , 1 ≤ i ≤ k.
f (x)
a
p1
p2 p3
p4
p5
b
x
Eine Treppenfunktion ist im Allgemeinen in den Zerlegungspunkten pi unstetig
(außer für ci−1 = ci ) und zwischen den Zerlegungspunkten stetig.
4.3 -δ-Stetigkeit
Die Definition der Stetigkeit besagt qualitativ, dass man denselben Wert erhält, egal
auf welchem Weg man zum Punkt a gelangt. Der Nachweis der Stetigkeit für eine kon-
65
4 Stetigkeit
krete Funktion ist mit diesem Kriterium jedoch oftmals schwierig, da man alle Folgen
betrachten muss. Eine quantitative, äquivalente Definition der Stetigkeit ist wie folgt.
Satz 4.8 (-δ-Stetigkeit)
Eine Funktion f : D → R ist genau dann stetig in einem Punkt a ∈ D, wenn es zu
jedem > 0 ein δ > 0 gibt, so dass für alle Punkte x ∈ D gilt:
|x − a| < δ
⇒
|f (x) − f (a)| < .
Beweis.
-δ-stetig → Folgen-stetig:
Sei (xn )n∈N eine beliebige Folge mit xn → a (n → ∞). Zu zeigen ist, dass dann auch
f (xn ) → f (a) gilt. Sei also > 0 vorgegeben. Dann gibt es nach -δ-stetig ein δ > 0, so
dass für alle |x − a| < δ der Abstand |f (xn ) − f (a)| < ist. Da die Folge (xn )n∈N gegen
a konvergiert, gibt es auch ein nδ , so dass |xn − a| < δ für alle n ≥ nδ . Somit gilt auch
|f (xn ) − f (a)| < für alle n ≥ nδ .
Folgen-stetig → -δ-stetig:
Widerspruchsargument: Angenommen, zu einem vorgegebenen > 0 gibt es kein geeignetes δ, d.h. es gibt zu jedem noch so kleinen δ > 0 immer einen Punkt mit |x − a| < δ,
aber |f (x) − f (a)| ≥ . Dann wählt man δ = 1, 12 , 13 , 41 , . . . und bildet mit diesen Punkten
die Folge x1 , x2 , x3 , x4 , . . .. Für diese Folge gilt nun
|xn − a| <
1
n
und
|f (xn ) − f (a)| ≥ .
Damit gilt xn → a, jedoch nicht f (xn ) → f (a) im Widerspruch zum Folgenkriterium
der Stetigkeit.
Anschaulich bedeutet dies, dass der Funktionswert f (x) beliebig nahe an f (a) liegt,
sofern nur auch x hinreichend nahe an a gewählt wird.
Beispiele 4.9
(i) Für die Identität f (x) = x kann man für jedes das gesuchte δ = wählen. Damit
gilt dann
|x − a| < δ ⇒ |f (x) − f (a)| = |x − a| < δ = .
(ii) Für die konstante Funktion f (x) = c gilt immer
|f (x) − f (a)| = |c − c| = 0 für alle x, a ∈ R.
66
4.4 Rechenregeln für stetige Funktionen
f (x)
f (a) + ✏
f (a)
f (a) + ✏
f (a)
f (a)
✏
f (a)
✏
f (x)
x
a
a
a
|{z}
?
a+
x
Abbildung 4.2: Stetigkeit nach der -δ-Definition: Für alle > 0 muss sich ein δ finden
lassen, so dass alle Funktionswerte für Argumente x ∈ D mit |x − a| < δ
die Funktionswerte höchstens |f (x) − f (a)| < entfernt liegen.
(iii) Die Betragsfunktion f (x) = |x| ist stetig. Man wähle δ = . Denn mit der Beziehung
||x| − |y|| ≤ |x − y| für alle x, y ∈ R
gilt dann die Abschätzung:
|x − a| < δ ⇒ |f (x) − f (a)| = ||x| − |a|| < |x − a| < δ = .
f (x)
f (x) = |x|
1
−1
1
x
4.4 Rechenregeln für stetige Funktionen
Funktionen mit demselben Definitionsbereich lassen sich auf natürliche Weise addieren
oder multiplizieren.
Definition 4.10
Für Funktionen f, g : D → R mit demselben Definitionsbereich ist Summe und Produkt
67
4 Stetigkeit
der Funktionen definiert durch:
(f + g)(x) := f (x) + g(x),
und
(f · g)(x) := f (x) · g(x).
Die Stetigkeit bleibt bei solchen Operationen erhalten.
Satz 4.11
Seien f, g : D → R stetig. Dann ist auch f + g und f · g stetig.
Beweis. Sei (xn )n∈N mit xn → a. Dann gilt
lim (f + g)(xn ) = lim {f (xn ) + g(xn )}
n→∞
n→∞
= lim f (xn ) + lim g(xn ) = f (a) + g(a) = (f + g)(a).
n→∞
n→∞
Beispiel 4.12
Polynome
P (x) =
n
X
ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n
k=0
sind stetig. Denn diese sind Summe und Produkt von stetigen Funktionen (konstante
Funktionen und die Identität f (x) = x).
Es sei daran erinnert, dass für injektive Funktionen die sogenannte Umkehrfunktion
existiert.
Definition 4.13 (Umkehrfunktion)
Sei f : D → B ⊂ R eine injektive Funktion mit Definitionsbereich D, Bild B. Die
zugehörige Umkehrfunktion f −1 : B → D (oder auch inverse Funktion) ist auf dem Bild
von f definiert durch
f −1 (y) := x ⇔ y = f (x).
1
verDie Umkehrfunktion f −1 (x) darf nicht mit der reziproken Funktion f (x)−1 = f (x)
−1
wechselt werden. Es ist vielmehr diejenige Funktion, für die f (f (x)) = x, x ∈ D gilt.
Zudem sei daran erinnert, dass die Verkettung von Funktion definiert werden kann,
sofern der Bildbereich der einen Funktion im Definitionsbereich der anderen liegt.
Definition 4.14 (Komposition von Funktionen)
Für zwei reellwertige Funktionen g : D → B ⊂ R und f : B → R ist die Komposition
(auch: Verkettung) f ◦ g : D → R definiert durch:
(f ◦ g)(x) := f (g(x)),
68
für alle x ∈ D.
4.4 Rechenregeln für stetige Funktionen
Beispiele 4.15
(i) Für k ∈ N ist die k-te Potenz gegeben durch die Funktion
x ∈ R.
f (x) := xk ,
Beschränkt man den Definitionsbereich auf [0, ∞) = R+ ∪ {0}, so ist diese injektiv
mit Bild R+ ∪ {0} und die zugehörige Umkehrfunktion wird als die k-te Wurzel
bezeichnet:
f −1 : R+ ∪ {0} → R+ ∪ {0},
Für einen rationalen Exponenten
Komposition definiert:
z
n
f −1 (x) :=
√
k
x.
mit z ∈ Z, n ∈ N wird die Potenzfunktion als
z
f (x) = x n :⇔
f1 (x) = xz , f2 (x) =
√
n
x und f (x) = f1 (f2 (x)), x ∈ R+ ∪ {0}.
f (x) = x2
4
3
f (x) =
2
√
2
x
1
−2
−1
1
2
3
4
5
x
(ii) Die Exponentialfunktion f (x) = exp(x) = ex ist für ganz R definiert und nimmt nur
positive Werte an. Die Umkehrfunktion ist definiert als der natürliche Logarithmus
f −1 (x) =: ln(x), d.h.
Für alle x ∈ R+ gilt :
y := ln(x)
:⇔
x = ey .
Somit gilt für alle x ∈ R: ln(ex ) = x = eln(x) .
69
4 Stetigkeit
f (x) = ex
5
4
3
2
f (x) = ln(x)
1
−2
−1
1
2
3
4
5
x
−1
−2
Satz 4.16 (Stetigkeit der Umkehrfunktion)
Sei die auf einem beschränkten und abgeschlossenen Definitionsbereich D definierte reellwertige Funktion f : D → B ⊂ R injektiv und stetig. Dann ist auch die Umkehrfunktion
f −1 : B → D stetig.
Beweis. Sei (yn )n∈N eine beliebige Folge in B mit yn → b ∈ B, (n → ∞). Damit die
Umkehrfunktion stetig, muss nun gezeigt werden, dass für die Folge der Funktionswerte
gilt: xn := f −1 (yn ) → f −1 (b) =: a, (n ∈ N). Dies sieht man wie folgt: Die Folge (xn )n∈N
ist beschränkt, da alle Folgenglieder in der beschränkten Menge D liegen. Damit besitzt
(xn )n∈N eine konvergente Teilfolge xnk → p ∈ D. Da f stetig ist, konvergieren aber auch
die Funktionswerte f (xnk ) → f (p). Zudem gilt aber auch, dass f (xnk ) = ynk → b = f (a)
konvergiert und somit f (a) = f (p) gilt. Wegen der Injektivität von f folgt daraus a = p.
Somit besitzt jede konvergente Teilfolge von (xn )n∈N den gleichen Grenzwert a und es
gilt xn → a, was zu zeigen war.
Beispiele 4.17
(i) Die k-te Wurzel f (x) =
√
k
x ist als Umkehrfunktion von xk stetig.
(ii) Der natürliche Logarithmus f (x) = ln(x) ist als Umkehrfunktion von ex stetig.
4.5 Zwischenwertsatz
Stetige, reellwertige Funktion auf reellen Intervallen sind dadurch gekennzeichnet, dass
sie keine Sprünge in den Funktionswerten aufweisen. Besitzt eine Funktion unterscheidliche Funktionswerte f (a) 6= f (b) an zwei Stellen a 6= b, a, b ∈ D und ist dazwischen stetig,
70
4.5 Zwischenwertsatz
so nimmt die Funktion daher auch alle Werte zwischen f (a) und f (b) an. Dies lässt sich
so veranschaulichen: Geht ein Bergsteiger aus dem Tal auf den Gipfel und dies durch
einen stetigen Aufstieg (d.h. er kann nicht plötzlich etliche Meter in die Höhe springen),
dann kommt er bei seinem Aufstieg auch an jedem Höhenmeter zwischen Tal und Gipfel
vorbei. Mathematisch wird dies durch den sogenannten Zwischenwertsatz ausgedrückt.
Satz 4.18 (Zwischenwertsatz)
Sei f : [a, b] → R eine stetige Funktion. Dann gibt es zu jeder Zahl y zwischen f (a) und
f (b), d.h. f (a) ≤ y ≤ f (b) bzw. f (a) ≥ y ≥ f (b), ein c ∈ [a, b] mit f (c) = y.
Beweis. (Skizze) Durch Einschachtelung lässt sich ein immer kleineres Intervall finden,
in dem der gesuchte Punkt liegen muss. Aufgrund der Vollständigkeit von R konvergiert
dies gegen den gesuchten Punkt c.
f (x)
f (b)
f (c)
f (a)
a
c
b
x
Abbildung 4.3: Illustration zum Zwischenwertsatz
Beispiel 4.19
Der Zwischenwertsatz hat zahlreiche Anwendungen. Eine davon ist die Existenz von
Fixpunkten einer Funktion f . Dies sind Punkte x∗ ∈ R für die f (x∗ ) = x∗ gilt. Es gilt:
Jede stetige Funktion f : [a, b] → [a, b] besitzt einen Fixpunkt. Man betrachte dazu
die Funktion g(x) := f (x) − x. Diese ist wiederum stetig und da alle Funktionswerte
im Intervall [a, b] liegen, muss im Speziellen f (a), f (b) ∈ [a, b] gelten. Damit ist g(a) =
f (a) − a ≥ 0 und g(b) = f (b) − b ≤ 0. Aus dem Zwischenwertsatz folgt, dass es eine
Nullstelle x∗ ∈ [a, b] mit g(x∗ ) = 0 gibt. Für diese gilt dann f (x∗ ) = x∗ .
71
5 Differentiation
Bei der Betrachtung von reellwertigen Funktionen f : D → R auf einem Intervall D ⊂
R war die Stetigkeit der Funktion eine wesentliche Eigenschaft. Ist die Funktion in
einen Punkt x0 stetig, so unterscheiden sich die Funktionswerte f (x) an Punkten x
nicht wesentlich von dem Wert f (x0 ) unterscheiden, wenn man x nur hinreichend nahe
an x0 wählt. Anschaulich gesprochen hat eine stetige Funktion keinen Sprung in den
Funktionswerten, d.h. entfernt man sich nur wenig von dem Punkt x0 , so ändert sich
auch der Funktionswert nur geringfügig von f (x0 ). Durch Differentiation lässt sich die
Änderung einer Funktion in der Nähe von x0 quantitativer betrachten. Dazu ein Beispiel:
Die Größe einer Population sei als eine Funktion g : D → R über die Zeit aufgetragen.
Somit lässt sich zu jedem Zeitpunkt t ∈ D die aktuelle Populationsgröße g(t) ermitteln.
g(t)
g(t)
∆y
g(t0 )
t0
t
t
∆t
Abbildung 5.1: Illustration zur zeitlichen Entwicklung einer Größe einer Population.
Zudem lässt sich fragen, wie sich die Population im zeitlichen Mittel von einem Startzeitpunkt t0 bis zum Zeitpunkt t verändert hat. Diese Änderung beträgt g(t) − g(t0 ) und
somit kann man auch die mittlere Änderungsrate der Population
im Intervall [t0 , t] bestimmen.
g(t) − g(t0 )
t − t0
73
5 Differentiation
Dies führt zunächst auf die folgende Definition.
Definition 5.1 (Differenzenquotient)
Zu einer Funktion f : D → R ist für die Änderung der Funktionswerte ∆y := f (x)−f (x0 )
im Intervall ∆x := x − x0 die mittlere Änderungsrate gegeben durch
f (x) − f (x0 )
∆y
=
, für x 6= x0
∆x
x − x0
und wird als Differenzenquotient von f zu den Stellen x und x0 bezeichnet.
Man kann sich zudem fragen, wie momentane Änderungsrate aussieht, d.h. die Größe
der Änderung in einem beliebig kleinen Bereich um den betrachteten Zeitpunkt herum.
Mathematisch benötigt man dazu den Grenzwert des Differenzenquotienten.
5.1 Ableitung von Funktionen
Definition 5.2 (Differenzierbar)
Eine Funktion f : D → R heißt differenzierbar in einem Punkt x0 ∈ D, wenn der
Grenzwert
f (x) − f (x0 )
df
(x0 ) := f 0 (x0 ) := x→x
lim ,
0
dx
x − x0
x∈D\{x }
0
existiert. f (x0 ) heißt Differentialquotient oder Ableitung von f im Punkt x0 .
0
Ist die Funktion f in jedem Punkt von D differenzierbar, so bezeichnet man sie als
differenzierbar in D.
Die geometrische Interpretation dieses Vorgehens ist wie folgt: Der Differenzenquotient
ist die Steigung der Sekante des Graphens durch die Punkte (x0 , f (x0 )) und (x, f (x)). Bildet man den Grenzwert x → x0 , so wird die Sekante zur Tangente im Punkt (x0 , f (x0 ))
und f 0 (x0 ) entspricht der Steigung der Tangente.
Bemerkung 5.3
(i) Wichtig bei der Definition der Ableitung ist, dass der Differenzenquotient für alle
Folgen x → x0 gegen denselben Grenzwert f 0 (x0 ) konvergieren muss.
(ii) Der Differenzenquotient ist nur für x 6= x0 definiert, d.h. nur auf D \ {x0 }. Die
Ermittlung des Grenzwerts ist dennoch möglich, da dieser auch für die Punkte im
Abschluss einer Menge definiert ist.
(iii) Eine analoge Definition ist durch Nullfolgen h → 0 möglich. Die Ableitung ist
gegeben durch
f (x0 + h) − f (x0 )
,
h→0
h
wobei die Folge x0 + h in D liegen muss.
f 0 (x0 ) = lim
74
5.1 Ableitung von Funktionen
f (x)
f (x)
f (x)
∆y
f (x0 )
f (x0 )
∆x
x0
x
x
x0
x
Abbildung 5.2: Geometrische Interpretation der Ableitung. Links: Sekante. Rechts:
Tangente.
(iv) Die Ableitung ist zunächst eine punktweise Eigenschaft einer Funktion, d.h. Differenzierbarkeit ist für einen gegebenen Punkt x0 ∈ D definiert und die Ableitung hat
einen Wert f 0 (x0 ) ∈ R, sofern sie existiert. Ist jedoch die Funktion auf dem gesamten Definitionsbereich D differenzierbar, d.h. für alle x0 ∈ D existiert der Grenzwert f 0 (x0 ), so kann man die Ableitung wieder als Funktion f 0 : D → R, x 7→ f 0 (x)
auffassen.
Beispiele 5.4
(i) Die konstante Funktion f (x) = c mit c ∈ R ist differenzierbar mit
f 0 (x0 ) = lim
x→x0
c−c
f (x) − f (x0 )
= lim
= 0.
x→x
x − x0
0 x − x0
(ii) Die lineare Funktion f (x) = m · x mit m ∈ R ist differenzierbar mit
f 0 (x0 ) = lim
x→x0
f (x) − f (x0 )
m · x − m · x0
m · (x − x0 )
= lim
lim
= m.
x→x0
x→x0
x − x0
x − x0
x − x0
(iii) Die affin-lineare Funktion f (x) = m · x + b mit m, b ∈ R ist differenzierbar mit
f 0 (x0 ) = lim
x→x0
f (x) − f (x0 )
m · x + b − (m · x0 + b)
= lim
= m.
x→x0
x − x0
x − x0
(iv) Die Betragsfunktion f (x) = |x| ist nicht differenzierbar in x0 = 0, denn
(
1,
x > 0,
|x| − |0|
=
x−0
−1,
x < 0,
und die Grenzwerte des Differenzenquotienten unterscheiden sich, je nachdem, ob
man sich von oben oder von unten an x0 annähert.
75
5 Differentiation
(v) Die Funktion f (x) =
1
x
ist für x0 > 0 differenzierbar mit
1
f 0 (x0 ) = lim
x→x0
x −x
1
0
−
−1
f (x) − f (x0 )
1
= lim x x0 = lim x·x0 = lim
=− 2
x→x0 x − x0
x→x0 x − x0
x→x0 x · x0
x − x0
x0
(vi) Die Exponentialfunktion f (x) = ex ist differenzierbar mit
ex+h − ex
eh − 1
1
f 0 (x) = lim
= ex lim
= ex lim
h→0
h→0
h→0 h
h
h
= ex lim
h→0
∞
X
hk
k=0
k!
∞
X
hk
k=0
k!
!
−1
= ex lim eh = ex e0 = ex
h→0
5.2 Ableitung als lineare Approximation
Sei noch einmal die affin-lineare Funktion f (x) = m · x + b mit Ableitung f 0 (x0 ) = m
in jedem Punkt x0 ∈ D betrachtet. Für diese gilt auch die folgende Darstellung der
Funktionsdifferenz:
f (x) − f (x0 ) = m · x + b − (m · x0 + b) = m · (x − x0 ) = f 0 (x0 ) · (x − x0 )
oder anders ausgedrückt
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ),
mit f (x0 ), f 0 (x0 ) ∈ R.
Dies zeigt, dass sich die Funktion als lineare Funktion mit Aufpunkt in x0 schreiben lässt.
Dies ist nicht weiter verwunderlich, denn die Funktion ist ja bereits linear. Vielmehr lässt
sich aber jede differenzierbare Funktion in der Nähe eines Punktes x0 in einer solchen
Form schreiben, wenn man einen kleinen Fehler zulässt. Dieser Fehler muss dabei beliebig
klein werden, je näher man x an x0 betrachtet. Man spricht davon, dass man die Funktion
lokal (d.h. für x nahe bei x0 ) durch eine lineare Approximation darstellen kann.
Satz 5.5 (Die Ableitung ist die lineare Approximation)
Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn
es eine konstante c ∈ R gibt, so dass
f (x) = f (x0 ) + c · (x − x0 ) + ω(x),
mit einer Funktion ω(x) : D → R, für die gilt
lim
x→x0
In diesem Fall gilt c = f 0 (x0 ).
76
ω(x)
= 0.
x − x0
x ∈ D,
5.2 Ableitung als lineare Approximation
Beweis.
Differenzierbar → linear approximierbar:
Sei f in x0 differenzierbar. Definiert man nun
ω(x) := f (x) − f (x0 ) − f 0 (x0 ) · (x − x0 ),
so gilt
lim
x→x0
ω(x)
x − x0
f (x) − f (x0 ) f 0 (x0 ) · (x − x0 )
= lim
−
x→x0
x − x0
x − x0
f (x) − f (x0 )
= lim
− f 0 (x0 ) = 0.
x→x0
x − x0
Linear approximierbar → differenzierbar:
Umgekehrt gelte für eine Funktion ω(x) mit limx→x0
ω(x)
x−x0
= 0:
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + ω(x).
Dann gilt auch
lim
x→x0
f (x) − f (x0 )
− f 0 (x0 )
x − x0
= lim
x→x0
ω(x)
x − x0
=0
und somit
lim
x→x0
f (x) − f (x0 )
x − x0
= f 0 (x0 ).
Die Forderung an den Restterm ω(x) bedeutet, dass ω(x) im Vergleich zu x − x0 verschwindend klein wird je näher x gegen x0 strebt. Für diese Eigenschaft wurde das
sogenannte Landau-Symbol o („klein-O“) eingeführt. Für zwei Funktionen g, h : D → R
schreibt man:
g(x) = o(h(x)) für x → x0 ,
falls lim
x→x0
g(x)
= 0.
h(x)
Damit lässt sich die Differenzierbarkeit in einem Punkt kompakt beschreiben:
Satz 5.6
Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn
sie sich in der Nähe von x0 durch eine lineare Funktion darstellen lässt, d.h.
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |),
für x → x0 ,
mit f 0 (x0 ) ∈ R.
77
5 Differentiation
Aus dieser Darstellung sieht man sofort, dass eine differenzierbare Funktion stetig sein
muss.
Satz 5.7 (differenzierbar → stetig)
Ist eine Funktion f : D → R differenzierbar in x0 ∈ D, so ist sie auch stetig in x0 .
Beweis. Da f differenzierbar in x0 ist, gilt
f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |).
Durch den Grenzübergang x → x0 erhält man




lim f (x) = lim f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |) = f (x0 ) = f ( lim x).
x→x0
x→x0 
x→x0
| {z } | {z }
→0
→0
Bemerkung 5.8
In gleicher Weise lässt sich Stetigkeit als die Approximation mit konstanten Funktionen
auffassen. Denn ist einen Funktion f : D → R stetig in x0 ∈ D, so gilt
f (x) = f (x0 ) + o(1),
für x → x0 ,
mit der Konstanten f (x0 ) ∈ R.
5.3 Ableitungsregeln
Erneut stellt sich die Frage, ob und wie sich die Differenzierbarkeit auf Summe, Produkt
und Komposition Funktionen sowie auf die Umkehrfunktion überträgt.
Satz 5.9 (Summen-, Produkt- und Quotientenregel)
Sei D ⊂ R und seien f, g : D → R differenzierbar. Dann gilt
(i) Die Summe (f + g)(x) := f (x) + g(x) (für x ∈ D) ist differenzierbar mit:
(f + g)0 (x) = f 0 (x) + g 0 (x).
(ii) Das Produkt (f · g)(x) := f (x) · g(x) (für x ∈ D) ist differenzierbar mit:
(f · g)0 (x) = f 0 (x) · g(x) + f (x) · g 0 (x).
(iii) Der Quotient
78
f
g
(x) :=
f (x)
g(x)
(für x ∈ D) ist für g(x) 6= 0 differenzierbar mit:
0
f
f 0 (x) · g(x) − f (x) · g 0 (x)
.
(x) =
g
g(x)2
5.3 Ableitungsregeln
Beweis. Die Regeln folgen aus den entsprechenden Eigenschaften konvergenter Folgen
und den Betrachtungen:
(i)
f (x) + g(x) − f (x0 ) − g(x0 )
(f + g)(x) − (f + g)(x0 )
= lim
x→x
x − x0
x − x0
0
f (x) − f (x0 )
g(x) − g(x0 )
= lim
+ lim
= f 0 (x0 ) + g 0 (x0 ).
x→x0
x→x0
x − x0
x − x0
(f + g)0 (x) = lim
x→x0
(ii)
f (x) · g(x) − f (x0 ) · g(x0 )
(f · g)(x) − (f · g)(x0 )
= lim
x→x0
x→x0
x − x0
x − x0
f (x) · g(x) − f (x) · g(x0 ) + f (x) · g(x0 ) − f (x0 ) · g(x0 )
= lim
x→x0
x − x0
f (x) · (g(x) − g(x0 )) + (f (x) − f (x0 )) · g(x0 )
= lim
x→x0
x − x0
(g(x) − g(x0 ))
(f (x) − f (x0 ))
= lim f (x) ·
+ lim
· g(x0 )
x→x0
x→x0
x − x0
x − x0
= lim {f (x)} · g 0 (x0 ) + f 0 (x0 ) · g(x0 )
(f · g)0 (x) = lim
x→x0
= f (x0 ) · g 0 (x0 ) + f 0 (x0 ) · g(x0 )
(wegen der Stetigkeit von f ).
(iii)
0
f
f
f (x) f (x0 )
1
1
f
−
(x) = lim
(x) −
(x0 ) = lim
x→x0 x − x0
x→x0 x − x0
g
g
g
g(x)
g(x0 )
f (x) · g(x0 ) − f (x0 ) · g(x)
1
= lim
x→x0 x − x0
g(x) · g(x0 )
f (x) · g(x0 ) − f (x0 ) · g(x0 ) + f (x0 ) · g(x0 ) − f (x0 ) · g(x)
1
= lim
x→x0 x − x0
g(x) · g(x0 )
f (x) − f (x0 )
g(x0 )
f (x0 )
g(x0 ) − g(x)
= lim
·
+
·
x→x0
x − x0
g(x) · g(x0 ) g(x) · g(x0 )
x − x0
g(x0 )
f (x0 ) 0
+
· g (x0 ) (wegen der Stetigkeit von g)
= f 0 (x0 ) ·
g(x0 )2 g(x0 )2
f 0 (x0 ) · g(x0 ) + f (x0 ) · g 0 (x0 )
=
g(x0 )2
Beispiel 5.10 (i) Für f (x) = x2 = x · x gilt f 0 (x) = x · 1 + 1 · x = 2x.
(ii) Per Induktion zeigt für f (x) = xn die Ableitung f 0 (x) = nxn−1 , denn man die
Produktregel liefert für f (x) = x·xn−1 die Ableitung f 0 (x) = xn−1 +x·(n−1)xn−2 =
nxn−1 .
79
5 Differentiation
(iii) Als Summe und Produkt von differenzierbaren Funktionen sind Polynome
P (x) =
n
X
ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n
k=0
in jedem Punkt differenzierbar mit
0
P (x) =
n
X
kak xk−1 = a1 + 2a2 x + 3a3 x2 + . . . + nan xn−1 .
k=1
Satz 5.11 (Kettenregel)
Seien g : D → B ⊂ R, f : B → R und sei g differenzierbar in x0 ∈ D und
f differenzierbar in y0 := g(x0 ) ∈ B. Dann ist die Komposition (auch: Verkettung)
f ◦ g : D → R, x 7→ f (g(x)) ebenfalls in x0 differenzierbar mit
(f ◦ g)0 (x0 ) = f 0 (g(x0 )) · g 0 (x0 ).
Beweis. Die Schwierigkeit im Beweis liegt zunächst darin, dass y−y0 = g(x)−g(x0 ) = 0
sein könnte und damit sich der Differenzenquotient zu (f ◦ g)0 (x0 ) nicht mit g(x) − g(x0 )
erweitern lässt. Man betrachte daher zunächst die Funktion ∆f : B → R definiert als:
(
f (y)−f (y0 )
,
für y 6= y0 ,
y−y0
∆f (y) :=
0
f (y0 ),
für y = y0 .
Es gilt dann limy→y0 ∆f (y) = f 0 (y0 ), da f in y0 differenzierbar ist. Zudem gilt
f (y) − f (y0 ) = ∆ f (y) · (y − y0 ) .
Damit findet man
f (g(x)) − f (g(x0 ))
∆f (g(x)) · (g(x) − g(x0 ))
= lim
x→x0
x→x0
x − x0
x − x0
g(x) − g(x0 )
= f 0 (g(x0 )) · g(x0 ).
= lim ∆f (g(x)) · lim
x→x0
x→x0
x − x0
(f ◦ g)0 (x0 ) = lim
Beispiel 5.12
2
Die Funktion h(x) = e−x lässt sich als h(x) = f (g(x)) mit f (x) = ex und g(x) = −x2
auffassen. Somit lautet die Ableitung:
2
h0 (x) = f 0 (g(x)) · g 0 (x) = e−x · (−2x) = −2xe−2x .
Satz 5.13 (Differenzierbarkeit der Umkehrfunktion)
Sei f : D → B ⊂ R eine auf einem abgeschlossenen Definitionsbereich stetige, invertierbare Funktion und f −1 : B → D die zugehörige Umkehrfunktion. Ist f in einem Punkt
x0 ∈ D differenzierbar mit f 0 (x0 ) 6= 0, dann ist auch die Umkehrfunktion f −1 im Punkt
y0 = f (x0 ) differenzierbar und für die Ableitung gilt
(f −1 )0 (y0 ) =
80
1
f 0 (x
0)
,
x0 = f −1 (y0 ).
5.4 Extrema und Mittelwertsatz
Beweis. Da f stetig ist, ist dies auch f −1 . Somit gilt folgt aus f (x) =: y → y0 := f (x0 )
auch x = f −1 (y) → f −1 (y0 ) = x0 . Unter Beachtung von y = f (x) ⇔ x = f −1 (y) gilt
x − x0
f −1 (y) − f −1 (y0 )
= lim
= lim
lim
x→x0 f (x) − f (x0 )
x→x0
y→y0
y − y0
1
x−x0
f (x)−f (x0 )
=
1
.
f 0 (x0 )
Beispiel 5.14
Sei f (x) = ex mit Umkehrfunktion f −1 (y) = ln(y). Dann gilt für die Ableitung des
natürlichen Logarithmus:
1
1
1
ln0 (y) = x 0 = x = , mit y = ex .
(e )
e
y
Dies erlaubt es die folgende Darstellung der Eulerschen Zahl zu zeigen:
n
1
e = lim 1 +
.
n→∞
n
Man folgert nämlich so: Da für den Logarithmus ln0 (1) = 1 sowie ln(1) = 0 gilt, folgt
ln(1 + h)
ln(1 + h) − ln(1)
= lim
h→0
h→0
h
h
1
für alle Folgen und somit auch für die Folge h := n . Deshalb ist
1 = ln0 (1) = lim
1 = lim
n→∞
ln(1 + n1 )
1
n
= lim n ln(1 +
n→∞
1
).
n
Damit schließt man wegen der Stetigkeit der Exponentialfunktion:
n
n
o
1
1
= lim en ln(1+ n ) = e1 = e.
lim 1 +
n→∞
n→∞
n
5.4 Extrema und Mittelwertsatz
Definition 5.15 (lokale / globale Extrema)
Eine Funktion f : D → R hat in einem Punkt x0 ∈ D ein globales Extremum (Maximum
bzw. Minimum), falls gilt:
f (x0 ) ≥ f (x) für alle x ∈ D
f (x0 ) ≤ f (x) für alle x ∈ D
(Maximum),
(Minimum).
Gilt diese Eigenschaft nicht auf dem gesamten Definitionsbereich D, sondern nur auf
einer Teilmenge {x ∈ D | |x − x0 | < δ} um den betrachteten Punkt x0 herum, d.h. es
gibt ein δ > 0, so dass
f (x0 ) ≥ f (x) für alle x mit |x − x0 | < δ
f (x0 ) ≤ f (x) für alle x mit |x − x0 | < δ
(Maximum),
(Minimum),
dann heißt die Stelle x0 lokales Extremum (lokales Maximum bzw. lokales Minimum).
81
5 Differentiation
f (x)
globales Maximum
lokales Maximum
lokales Minimum
globales Minimum
x
D
Satz 5.16 (Notwendige Bedingung für Extrema)
Besitzt eine differentierbare Funktion f : (a, b) → R ein lokales Extremum in x0 ∈ (a, b),
so gilt notwendig
f 0 (x0 ) = 0.
Beweis. Besitze f ein lokales Minimum. Dann gilt in der Nähe von x0 für monotone
Folgen x → x0 von oben und unten
f (x) − f (x0 )
≥ 0,
x − x0
f (x) − f (x0 )
≤ 0,
x − x0
falls x > x0 , und
falls x < x0 .
Somit gilt beim Grenzübergang x → x0 :
0 ≤ f 0 (x0 ) ≤ 0
Für das Maximum schließt man analog.
⇒
f 0 (x0 ) = 0.
Satz 5.17 (Rolle)
Sei f : [a, b] → R einen stetige Funktion mit f (a) = f (b) . Ist f in (a, b) differenzierbar,
so dann existiert eine Stelle c ∈ (a, b) mit f 0 (c) = 0.
Beweis. Ist f konstant, so gilt direkt f 0 (x) = 0 für alle x ∈ (a, b). Ist f nicht konstant,
so muss es einen Punkt x0 ∈ (a, b) geben an dem der Funktionswert von f (a) = f (b)
verschieden ist, d.h. mit f (x0 ) > f (a) = f (b) oder f (x0 ) < f (a) = f (b). Somit wird
das globale Maximum oder Minimum nicht in a oder b angenommen, sondern in einem
Punkt c ∈ (a, b). Für diesen gilt f 0 (c) = 0.
82
5.4 Extrema und Mittelwertsatz
Der folgende Satz ist das Analogon für differenzierbare Funktionen zu dem Zwischenwertsatz für stetige Funktionen.
Satz 5.18 (Mittelwertsatz)
Sei f : [a, b] → R eine stetige Funktion, die in (a, b) differenzierbar ist. Dann gibt es ein
c ∈ (a, b), so dass
f 0 (c) =
f (b) − f (a)
.
b−a
Beweis. Man definiert g : [a, b] → R durch
g(x) := f (x) −
f (b) − f (a)
(x − a).
b−a
Diese Funktion ist stetig in [a, b] und differenzierbar in (a, b) und es gilt g(a) = f (a) =
g(b). Aus dem Satz von Rolle folgt, dass es dann ein c ∈ (a, b) gibt mit g 0 (c) = 0. Für
dieses gilt
g 0 (c) = f 0 (c) −
f (b) − f (a)
= 0.
b−a
f (x)
f (a) +
a
c
b
f (b)−f (a)
(x
b−a
− a)
x
Abbildung 5.3: Illustration zum Mittelwertsatz
83
5 Differentiation
5.5 Taylorreihe
Eine im Punkt x0 differenzierbare Funktion lässt sich bis auf einen Fehler der Ordnung
o(|x − x0 |) durch eine lineare Funktion annähern gemäß
f (x) = f (x0 ) + f 0 (x0 )(x − x0 ) + o(|x − x0 |).
An dieser Stelle lässt sich fragen, ob sich die Approximation besser machen lässt, indem
man weitere Terme höherer Ordung (z.B. (x − x0 )2 ) mit hinzunimmt. Um die obige
Summe logisch fortzusetzen benötigt man dafür aber eine weitere, zweite Ableitung von
f.
Definition 5.19 (Höhere Ableitungen)
Sei für eine Funktion f : D → R die Ableitung f 0 : D → R stetig, dann bezeichnet man
f als stetig differenzierbar.
Ist die Ableitung f 0 : D → R zudem sogar differenzierbar, so bezeichnet man die Ableitung von f 0 (x) als die 2. Ableitung von f (x) und diese wird notiert als f 00 (x) oder
f (2) (x).
Rekursiv wird die n-te Ableitung (sofern sie existiert) definiert durch:
f (0) (x) := f (x),
df
(x) := f (1) (x) := f 0 (x),
dx
d2 f
(x) := f (2) (x) := f 00 (x),
2
dx
..
.
dn f
(x) := f (n) (x) := (f (n−1) )0 (x), (n ≥ 3).
n
dx
Beispiel 5.20
Betrachtet man nun zunächst ein allgemeines Polynom
n
X
ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . + an (x − x0 )n ,
P (x) =
k=0
so findet man für die n-t Ableitung
P (1) (x) = a1 + 2 · a2 · (x − x0 ) + 3 · a3 · (x − x0 )2 + . . . + n · an · (x − x0 )n−1 ,
P (2) (x) = 2 · 1 · a2 + 3 · 2 · a3 · (x − x0 ) + . . . + n · (n − 1) · an · (x − x0 )n−2 ,
..
.
P (k) (x) = k · (k − 1) · . . . · 1 · ak + (k + 1) · k · . . . · 2 · ak+1 · (x − x0 )
..
.
+ . . . + n · (n − 1) · . . . · (n − k + 1) · an · (x − x0 )n−k ,
P (n) (x) = n · (n − 1) · . . . · 2 · 1 · an ,
84
5.5 Taylorreihe
und somit als Ableitung an der Stelle x0 die Darstellung
P (k) (x0 ) = k · (k − 1) · . . . · 1 · ak = k! · ak
⇒
ak =
P (k) (x0 )
.
k!
Setzt man im obigen Beispiel die Darstellung der Koeffizient ein, so zeigt sich, dass sich
das Polynom auch wie folgt darstellen lässt:
P (x) =
n
X
P (k) (x0 )
k!
k=0
(x − x0 )k .
Dies motiviert die folgende Definition.
Definition 5.21 (Taylor-Polynom)
Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar. Dann nennt man
Tn (x) := Tn [f, x0 ](x) :=
n
X
f (k) (x0 )
k!
k=0
(x − x0 )k
das n-te Taylor-Polynom von f zum Entwicklungspunkt x0 ∈ (a, b).
Aus der obigen Diskussion hat sich gezeigt, dass das n-te Taylor-Polynom von einem
Polynom f vom Grad n mit dem Polynom f identisch ist - oder anders ausgedrückt: Die
Funktion und ihre Darstellung durch das Taylor-Polynom hatten keine Abweichung von
einander. Für eine Allgemeine Funktion wird dies nicht der Fall sein, jedoch lässt sich
hoffen, dass man die Größe des Fehlers zwischen einer Funktion f und ihrem TaylorPolynom geeignet abschätzen kann und dieser hinreichend klein gemacht werden kann.
Dies liefert die folgende Aussage.
Satz 5.22 (Restglied der Taylor-Approximation)
Die Funktion f : (a, b) → R sei n + 1-mal stetig differenzierbar und x0 ∈ (a, b). Dann
gibt es zu jedem x ∈ (a, b) ein ξ zwischen x und x0 , so dass gilt
f (x) =
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k +
f (n+1) (ξ)
(x − x0 )n+1 .
(n + 1)!
Der Unterschied zwischen f (x) und dem zugehörigen Taylor-Polynom Tn [f, x0 ](x),
Rn+1 (x) := f (x) − Tn [f, x0 ](x) =
f (n+1) (ξ)
(x − x0 )n+1 ,
(n + 1)!
wird als Lagranges Restglied bezeichnet.
Beweis. Sei x ∈ (a, b) fest gewählt. Die Hilfsfunktion g : (a, b) → R gegeben durch
g(y) := f (x) −
n
X
f (k) (y)
k=0
k!
(x − y)k − α
(x − y)n+1
(n + 1)!
85
5 Differentiation
hat für jedes α den Funktionswert g(x) = 0. Zudem lässt sich α so wählen, dass g(x0 ) = 0
gilt. Als Zusammensetzung differenzierbarer Funktionen ist auch g(y) nach y differenzierbar. Jeder Summand mit k ≥ 0 hat dabei die Ableitung
f (k+1) (y)
f (k) (y)
d f (k) (y)
k
(x − y) =
(x − y)k +
k · (x − y)k−1 · (−1)
dy
k!
k!
k!
(k+1)
(k)
f
(y)
f (y)
=
(x − y)k −
· (x − y)k−1
k!
(k − 1)!
und für k = 0 ohne den zweiten Term. Somit folgt
g 0 (y) = −
=−
n
X
f (k+1) (y)
k=0
n
X
k!
(x − y)k +
n
X
f (k) (y)
(x − y)n
(x − y)k−1 + α
(k − 1)!
n!
k=1
n−1 (k+1)
X
f (k+1) (y)
f
(y)
(x − y)n
k
k
(x − y) +
(x − y) + α
k!
k!
n!
k=0
k=0
(n+1)
(x − y)n
.
n!
n!
Wegen g(x) = g(x0 ) = 0 gibt es nach dem Satz von Rolle ein ξ zwischen x und x0 mit
der Eigenschaft
=−
f
(y)
(x − y)n + α
f (n+1) (ξ)
(x − ξ)n
(x − ξ)n + α
n!
n!
n
n
(x
−
ξ)
(x
−
ξ)
=α
f (n+1) (ξ)
n!
n!
α = f (n+1) (ξ).
0 = g 0 (ξ) = −
⇒
Somit folgt insgesamt
⇒
0 = g(x0 ) = f (x) −
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k − f (n+1) (ξ)
(x − x0 )n+1
.
(n + 1)!
Bemerkung 5.23
Um zu wissen, die gut ein Taylor-Polynom eine Funktion approximiert, muss das Restglied abgeschätzt werden. Hierfür gilt im Falle x > x0 (für x < x0 analog):
|Rn+1 (x)| ≤
1
· sup |f (n+1) (ξ)| · |x − x0 |n+1 .
(n + 1)! x0 <ξ<x
Beispiel 5.24
Für die Exponentialfunktion f (x) = ex gilt f (n) = ex und somit f (n) (0) = 1, (n ≥ 0).
Die Taylor-Reihe zum Entwicklungspunkt x0 = 0 liest sich als
n
X
1 k
x .
k!
k=0
86
5.5 Taylorreihe
ex
6
T3 = 1 + x + 12 x2 + 61 x3
5
T2 = 1 + x + 21 x2
4
T1 = 1 + x
3
2
T0 = 1
1
−3
−2
−1
1
2
3
x
4
−1
Abbildung 5.4: Taylorentwicklung der Exponentialfunktion für x0 = 0
Analog zur Approximierbarkeit durch lineare Funktionen durch die Ableitung einer
Funktion, lässt sich auch die Approximierbarkeit durch Taylor-Polynome fassen.
Satz 5.25 (Approximation durch Taylor-Polynome)
Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar und x0 ∈ (a, b). Dann gilt
für alle x ∈ (a, b)
f (x) =
n
X
f (k) (x0 )
k=0
k!
(x − x0 )k + o(|x − x0 |n )
für x → x0 .
Beweis. Es gilt für die Restglieddarstellung des n − 1-ten Taylor-Polynoms mit einem
ξ ∈ (a, b) (wobei ξ von x abhängt)
f (x) −
n−1 (k)
X
f (x0 )
k=0
k!
(x − x0 )k =
=
f n (ξ)
(x − x0 )n
n!
f n (x0 )
f n (ξ) − f n (x0 )
(x − x0 )n +
(x − x0 )n
n!
n!
und somit
f (x) −
Pn
f (k) (x0 )
(x
k!
n
− x0 )
k=0
(x
wegen der Stetigkeit von f n (x).
− x0 )k
=
f n (ξ) − f n (x0 )
→0
n!
für x → x0
87
5 Differentiation
Ist eine Funktion beliebig oft differenzierbar, so kann man das Taylor-Polynom zu einer
Taylor-Reihe machen.
Definition 5.26 (Taylor-Reihe)
Sei f : (a, b) → R beliebig oft differenzierbar, d.h. für alle k ∈ N existiert f (k) (x). Dann
ist die Taylor-Reihe zum Entwicklungspunkt x0 ∈ (a, b) definiert durch
T∞ [f, x0 ](x) :=
∞
X
f k (x0 )
k=0
k!
(x − x0 )k .
Bemerkung 5.27
Eine Taylor-Reihe muss die Funktion f nicht darstellen. Es gibt folgende Fälle:
(i) Die Reihe konvergiert nicht oder nicht für jedes x. Dann stimmt der Konvergenzradius nicht mit dem Definitionsbereich der Funktion überein.
(ii) Konvergiert die Reihe in einem Punkt x, so kann dennoch f (x) 6= Tn [f, x0 ](x) sein.
(iii) Die Taylor-Reihe stellt die Funktion f (x) genau dann dar, falls das Lagrange
Restglied Rn+1 (x) → 0 (n → ∞) gegen null konvergiert. Dafür ist z.B. hinreichend, dass alle Ableitungen beschränkt sind, d.h. es gibt ein M > 0, so dass
supx∈(a,b) |f n (x)| ≤ M < ∞ für alle n ∈ N gilt.
Funktionen, die sich durch ihre Taylor-Reihe darstellen lassen, nennt man (reell) analystisch.
Mit Hilfe der Taylor-Polynome lassen sich nun hinreichende Bedingungen für Extrema
finden.
Satz 5.28 (Hinreichende Bedingung für Extrema)
Sei f : (a, b) → R eine n-mal (n ≥ 2) stetig differenzierbare Funktion, für die in einem
Punkt x0 ∈ (a, b) für die Ableitungen gilt
f 0 (x0 ) = f 00 (x0 ) = . . . = f (n−1) (x0 ) = 0,
jedoch f (n) (x0 ) 6= 0.
Dann gilt:
(i) Ist n gerade, so hat f in x0 für f (n) (x0 ) > 0 ein lokales Minimum und für f (n) (x0 ) < 0
ein lokales Maximum.
(ii) Ist n ungerade, so hat f in x0 kein Extremum, sondern nur einen sog. Wendepunkt.
Beweis. Gemäß Taylor-Entwicklung gilt für ein ξ ∈ (a, b) zwischen x und x0 die Darstellung
f (x) =
n−1 (k)
X
f (x0 )
k=0
88
k!
(x − x0 )k +
f (n) (ξ)
f (n) (ξ)
(x − x0 )n = f (x0 ) +
(x − x0 )n .
n!
n!
5.6 Newton-Verfahren
Somit gilt
lim
x→x0
f (x) − f (x0 )
f (n) (ξ)
f (n) (x0 )
=
,
=
lim
x→x0
(x − x0 )n
n!
n!
da f (n) stetig ist und ξ zwischen x und x0 liegt. Damit ist
Fn (x) :=
f (x) − f (x0 )
(x − x0 )n
(n)
eine stetig Funktion mit Fn (x0 ) = f n!(x0 ) . Im Falle f (n) (x0 ) > 0 ist deshalb für eine
ganze -Umgebung Fn (x) > 0 und für n gerade gilt die Gleichung
f (x) − f (x0 ) = Fn (x) (x − x0 )n > 0,
| {z } | {z }
>0
für |x − x0 | < , x 6= x0 .
>0
Folglich hat f in x0 ein Minimum. Gilt jedoch n ungerade, so findet man
(
> 0,
x > x0 ,
f (x) − f (x0 ) = Fn (x)(x − x0 )n =
< 0,
x < x0 ,
und somit kann kein Extremum vorliegen.
Für den Fall f (n) (x0 ) < 0 schließt man analog.
5.6 Newton-Verfahren
Für die Suche nach Nullstellen
f (x) = 0
einer Funktion f : D → R lässt sich das Newton-Verfahren verwenden. Das Verfahren
wird motiviert durch die Überlegung, dass man lineare Gleichungen direkt lösen kann
und man die Suche nach Nullstellen einer komplizierten Funktion durch sukzessive Lösung von linearen, direkt lösbaren Gleichungen ersetzt. Die so entstehende Folge (xn )n∈N
konvergiert in vielen Fällen dann tatsächlich gegen einen Nullstelle. Die Iterationsvorschrift ergibt sich dabei aus der Überlegung, dass für eine differenzierbare Funktion in
etwa gelten soll:
!
0 ≈ f (x) = f (xn ) + f 0 (xn )(x − xn ) + o(|x − xn |).
Für das Folgenglied xn+1 wählt man dazu die Lösung der linearen Gleichung:
0 =: f (xn ) + f 0 (xn )(xn+1 − xn )
⇒
xn+1 := xn −
f (xn )
,
f 0 (xn )
(n ∈ N).
89
5 Differentiation
Damit die Folge wohldefiniert ist, muss sicherlich gelten, dass für kein Folgenglied die
Ableitung null wird, zum Beispiel durch die Forderung f 0 (x) 6= 0, x ∈ D. Konvergiert
die Folge xn → x∗ gegen einen Grenzwert, so gilt dann
x∗ = x∗ −
f (x∗ )
f 0 (x∗ )
⇒
f (x∗ ) = 0
und x∗ ist tatsächlich einen Nullstelle.
f (x)
x0
x1
x2
x
Abbildung 5.5: Illustration zum Newton-Verfahren.
Geometrisch versteht man das Newton-Verfahren durch folgende Vorschrift: Für jede
Iterierte xn zeichnet man die Tangenten an den Graphen und bestimmt den Schnittpunkt
dieser Gerade mit der x-Achse. Diese Nullstelle ist die neue Iterierte xn+1 .
Allerdings muss das Verfahren nicht zwingend konvergieren. Es lassen sich viele Beispiele
finden, so dass die Newton-Folge divergiert.
Satz 5.29
Für eine Funktion f : [a, b] → R seien folgende Bedingungen gegeben:
(a) f sei zweimal stetig differenzierbar,
(b) f habe eine Nullstelle x∗ ∈ (a, b),
(c) die erste Ableitung von f sei von null verschieden, d.h.
m := min |f 0 (x)| > 0,
a≤x≤b
(d) die zweite Ableitung von f sei beschränkt, d.h.
M := max |f 00 (x)| < ∞,
a≤x≤b
90
5.6 Newton-Verfahren
f (x)
x0
x1
x2
x3
x
Abbildung 5.6: Divergentes Newton-Verfahren.
(e) ein Radius ρ ≥ 0 sei so gwählt, dass gilt
ρ<
2m
.
M
Dann ist für jeden Startwert x0 mit |x0 − x∗ | ≤ ρ die Newton-Folge (xn )n∈N gegeben
durch
xn+1 := xn −
f (xn )
,
f 0 (xn )
(n ∈ N),
wohldefiniert und es gilt:
(i) Die Funktion hat außer x∗ keine weitere Nullstelle in [a, b].
(ii) Die Folge (xn )n∈N konvergiert gegen die Nullstelle x∗ .
(iii) Alle Folgenglieder xn liegt höchstens |xn − x∗ | ≤ ρ von der Nullstelle x∗ entfernt.
(iv) Die Folge ist quadratisch konvergent mit der Fehlerabschätzung
|xn − x∗ | ≤
M
|xn−1 − x∗ |2 ,
2m
n ≥ 1.
(v) Es gilt die a-posteriori-Fehlerabschätzung
|xn − x∗ | ≤
1
M
|f (xn )| ≤
|xn − xn−1 |2 ,
m
2m
n ≥ 1.
Beweis. Für zwei Punkte x, x∗ ∈ [a, b], x 6= x∗ gibt es wegen dem Zwischenwertsatz ein
c ∈ [a, b] mit
f (x) − f (x∗ ) = |f 0 (c)| ≥ m ⇒ |x − x∗ | ≤ 1 |f (x) − f (x∗ )|
x − x∗ m
91
5 Differentiation
und somit folgt (v). Zudem sieht man daraus (i), denn für eine weitere Nullstelle f (x) = 0
folgt automatisch x = x∗ . Den zweiten Teil von (i) folgt aus der Taylor-Darstellung
1
f (xn ) = f (xn−1 ) + f 0 (xn−1 )(xn − xn−1 ) + f 00 (ξ)(xn − xn−1 )2
{z
} |2
|
{z
}
=0 (Iterationsvorschrift)
≤M
|xn −xn−1 |2
2
Unter Beachtung der Taylor-Formel
1
f (x∗ ) = f (x) + f 0 (x)(x∗ − x) + f 00 (ξ)(x∗ − x)2
| {z }
|2
{z
}
=0
sieht man zudem
≤M
|x∗ −x|2
2
|f (x) + f 0 (x)(x∗ − x)| ≤
M ∗
|x − x|2 ,
2
und für alle x mit |x − x∗ | ≤ ρ findet man für die Newton-Vorschrift g(x) := x −
die Abschätzung
f (x)
f 0 (x)
1
f (x)
− x∗ | = 0
|f (x) + f 0 (x)(x∗ − x)|
0
f (x)
|f (x)|
M
M 2 Mρ
≤
|x − x∗ |2 ≤
ρ =
·ρ ≤ ρ.
2m
2m
2m
|{z}
|g(x) − x∗ | = |x −
<1
Mit dem Startwert x0 liegen also auch alle Iterierten xn höchstens ρ von der Nullstelle
entfernt, d.h. (iii) gilt. Die Abschätzung liefert zudem mit x = xn−1 die Fehlerabschätzung (iv)
|xn − x∗ | ≤
M
|xn−1 − x∗ |2 .
2m
Schließlich sieht man, dass die Newton-Folge konvergiert, indem man diese AbschätM
zung rekursive einsetzt. Dann gilt nämlich mit der Abkürzung qn := 2m
|xn − x∗ | die
Abschätzung
n
2
4
qn ≤ qn−1
≤ qn−2
≤ . . . ≤ q02
und somit durch die Wahl
2m
|xn − x | ≤
M
∗
Mρ
2m
< 1 auch (ii) gemäß
2n
2n
M
2m M ρ
∗
|x0 − x |
≤
→ 0,
2m
M 2m
n → ∞.
92
5.6 Newton-Verfahren
Bemerkungen 5.30 (i) Das Verfahren konvergiert nicht immer, sondern nur, wenn
x0 hinreichend nahe an der Nullstelle x∗ gewählt wird.
(ii) Aufgrund der quadratischen Konvergenz verdoppelt sich die Anzahl der korrekten
Stellen im Ergebnis mit jedem Iterationsschritt.
(iii) Die Anzahl der benötigten Schritt zum Erreichen einer vorgebenen Genauigkeit
> 0 lässt sich angeben:
!
2n
ln M
Mρ
1
M
2m M ρ
n
∗
2m
=n
= 2 ln
⇔
ln
⇔ ln
= |xn − x | ≤
ρ
M 2m
2m
2m
ln(2)
ln M
2m
Beispiel 5.31
√
Für die Funktion f (x) := xk − a ist die Nullstelle x∗ = k a die k-te Wurzel der Zahl
a ∈ R+ . Als Newton-Iteration findet man mit f 0 (x) = kxk−1 die Vorschrift
xkn − a
a
a
f (xn )
kxn xn
1
= xn −
−
+ k−1 =
(k − 1)xn + k−1 .
xn+1 = xn − 0
=
f (xn )
kxk−1
k
k
xn
k
xn
n
93
6 Integration
Die Integration von Funktionen ist historisch entstanden, um Flächeninhalte von krummlinig berandeten Gebieten bestimmen zu können. Dabei misst man mit dem Integral die
Fläche zwischen der x-Achse und dem Funktionsgraphen. Durch die bahnbrechenden
Arbeiten von Leibniz und Newton wurde zudem der Zusammenhang zwischen Integration und Differentiation hergestellt und man kann die Integration in gewissem Sinne als
Umkehrung der Diffentiation auffassen.
f (x)
F =
Zb
f (x) dx
a
a
b
x
Abbildung 6.1: Das Integral F als Flächeninhalt zwischen der x-Achse und dem Graph
einer Funktion f : [a, b] → R
6.1 Zerlegungen und Flächeninhalte
Der Flächeninhalt eines Rechtecks berechnet sich sehr leicht als das Produkt von Höhe
mal Breite. Daher liegt es Nahe den Begriff des Integrals zunächst für Treppenfunktionen
zu definieren. Bei diesen kann man nämlich die Fläche unterhalb des Graphens als Summe der Fläche von Rechtecken einfach aufsummieren. Dazu sei zunächst die Zerlegung
eines Intervalls und die Menge der Treppenfunktionen erneut präzisiert.
Definition 6.1 (Unterteilung)
Sind zu einem Intervall I := [a, b] die n + 1 Punkte xi , (0 ≤ i ≤ n), so angeordnet, dass
95
6 Integration
gilt
a =: x0 < x1 < x2 < . . . < xn := b
so nennt man Z := {x0 , x1 , . . . , xn } eine endliche Unterteilung (oder Zerlegung) des
Intervalls.
Jedes der offenen Intervalle Ik := (xk−1 , xk ), (1 ≤ k ≤ n) heißt Teilintervall und hat eine
Größe hk := |xk − xk−1 |. Die maximale Größe aller Teilintervalle
h := h(Z) := max hk := max |xk − xk−1 |
1≤k≤n
1≤k≤n
heißt Feinheit der Unterteilung.
Die Menge aller Zerteilungen des Intervalls [a, b] wird mit Z(a, b) bezeichnet.
f (x)
f (x) := ck , für x ∈ (xk−1 , xk )
Zb
f (x) dx :=
a
x0
x1
x2
. . . xn−1 xn
n
X
k=1
ck · (xk − xk−1 )
x
Abbildung 6.2: Integral für eine Treppenfunktion auf a = x0 < x1 < x2 < . . . < xn = b
Auf einer Zerteilung eines Intervalls lassen sich Treppenfunktionen definieren.
Definition 6.2
Für eine Zerlegung a = x0 < x1 < x2 < . . . < xn = b ist eine Treppenfunktion stückweise
definiert durch
f (x) := ck für x ∈ ( xk−1 , xk ) , 1 ≤ k ≤ n,
d.h. es ist diejenige Funktion, die auf dem Teilintervall Ik den konstanten Wert ck ∈ R
annimmt.
Für Treppenfunktionen erhält man nun direkt den Begriff des Integrals.
96
6.2 Riemann-Integral
Definition 6.3 (Integral für Treppenfunktionen)
Sei f : [a, b] → R eine Treppenfunktion bzgl. der Unterteilung a = x0 < x1 < x2 < . . . <
xn = b mit Werten f (x) = ck , x ∈ (xk−1 , xk ), 1 ≤ k ≤ n. Dann nennt man
Z
b
f (x) dx :=
a
n
X
k=1
ck · (xk − xk−1 )
das Integral der Treppenfunktion über [a, b].
6.2 Riemann-Integral
Ausgehend vom Integralbegriff für Treppenfunktionen lässt sich nun das Integral auf
einen breite Klasse von Funktionen erweitern. Dabei möchte man sicherstellen, dass das
Integral für Treppenfunktionen weiterhin mit obigem Integral übereinstimmt.
Definition 6.4 (Unter-/Obersumme)
Sei f : [a, b] → R eine beschränkte Funktion und Z ∈ Z(a, b) eine Zerlegung von [a, b].
Dann ist die Untersumme S(Z, f ) und die Obersumme S(Z, f ) definiert durch
S(Z, f ) :=
n
X
k=1
inf f (x) · (xk − xk−1 )
x∈Ik
S(Z, f ) :=
n
X
k=1
sup f (x) · (xk − xk−1 )
x∈Ik
Anschaulich wird also für die Unter- und Obersumme das Integral einer Treppenfunktion gebildet. Dabei wird für die Obersumme die Treppenfunktion so gewählt, dass die
Treppenfunktion ganz überhalb des Graphen der Funktion f liegt. Bei der Untersumme
hingegen verläuft die Treppenfunktion vollständig unterhalb des Graphen der Funktion
f.
Mit Hilfe von Unter- und Obersumme lässt sich nun ein Unter- und Oberintegral definieren. Dazu betrachtet man alle möglichen Zerlegungen.
Definition 6.5 (Unter-/Oberintegral)
Für eine beschränkte Funktion f : [a, b] → R sind Unterintegral und Oberintegral definiert durch
Z b
Z b
f (x) dx := sup S(Z, f ),
f (x) dx := inf S(Z, f ),
a
Z∈Z(a,b)
a
Z∈Z(a,b)
Somit wählt man für die Untersumme die größtmöglich Approximation (das Supremum)
des Integrals mit Treppenfunktion, die unterhalb der Funktion liegen, und analog die
kleinstmögliche Approximation (das Infimum) des Integrals mit Treppenfunktionen, die
oberhalb der Funktion liegen. Für Treppenfunktionen ist diese Approximation identisch
mit dem Integral für Treppenfunktionen und Ober- und Untersumme sind identisch. Für
beliebige Funktionen definiert man das sogenannte Riemann-Integral.
97
6 Integration
f (x)
a
f (x)
b
a
f (x)
a
f (x)
b
a
f (x)
a
b
b
f (x)
b
a
b
Abbildung 6.3: Approximationen des Integrals einer Funktion f : [a, b] → R durch die
Untersumme (links) und Obersumme (rechts)
98
6.2 Riemann-Integral
Anschaulich gesprochen wird die Approximation der Integrationsfläche immer besser, je
feiner die Zerlegung gewählt wird. Den Zusammenhang zwischen den Ober-/Untersummen
und Ober-/Unterintegralen für beliebig feine Zerlegungen stellt die folgende Aussage dar.
Satz 6.6
Für eine beschränkte Funktion f : [a, b] → R existieren Ober-/Untersumme für alle
Zerlegungen und für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit Feinheit
hn := h(Zn ) → 0, (n → ∞) gilt:
lim S(Zn , f ) =
n→∞
Z
a
b
f (x) dx ≤
Z
b
f (x) dx = lim S(Zn , f ).
n→∞
a
Beweis. Da die Funktion f beschränkt ist, existieren untere Schranken inf x∈[a,b] f (x)
und obere Schranken supx∈[a,b] f (x) und die die Abschätzungen
inf f (x) · (b − a) ≤ S(Zn , f ) ≤ S(Zn , f ) ≤ sup f (x) · (b − a)
x∈[a,b]
x∈[a,b]
folgt direkt aus der Definition von Infimum und Supremum. Damit sind auch Ober- und
Untersumme beschränkt.
Für die zweite Behauptung sei nun (Zn )n∈N , Zn ∈ Z(a, b) eine Folge von Zerlegungen
mit Feinheit hn := h(Zn ) → 0, (n → ∞). Gemäß der Definition über Supremum und
Infimum gibt es zu jedem > 0 Zerlegungen Z , Z mit
Z
b
a
f (x) dx ≤ S(Z , f ) + ,
2
S(Z , f ) ≤
Z
b
a
f (x) dx + .
2
Nun hat jedoch jede der beiden Zerlegungen Z , Z nur endlich viele Teilungspunkte.
Daher kann man die Feinheit hn so fein wählen (d.h. n so groß), dass die gesamte Länge
der Intervalle von Zn , die einen Teillungspunkt von Z oder Z enthalten insgesamt
kleiner als M 2 mit M := supx∈[a,b] |f (x)| wird und daher gilt:
S(Z , f ) ≤ S(Zn , f ) +
2
S(Z n , f ) ≤ S(Z , f ) + ,
2
und somit zu jedem > 0 ein n ∈ N existiert, so dass
Z
a
b
f (x) dx ≤ S(Zn , f ) + ,
n
S(Z , f ) ≤
Z
b
f (x) dx + .
a
Beispiel 6.7
Sei f : [0, b] → R, f (x) := x gegeben. Auf jedem Teilintervall (xk−1 , xk ) einer Zerlegung
ist das Supremum von f (x) = x durch xk gegeben und das Infimum durch xk−1 . Bildet
99
6 Integration
man für n ∈ N eine äquidistante Zerlegung Zn gegeben durch xk := b · nk , 1 ≤ k ≤ n, mit
Feinheit hn = nb , so findet man
S(Zn , f ) =
n
X
k=1
x∈Ik
n
X
2
xk ·
n
X
xk−1 ·
k=1
b
n
b2
1
b n(n + 1)
k= 2·
=
· (1 + ),
n
2
2
n
k=1
b
= 2
n
S(Zn , f ) =
sup f (x) · (xk − xk−1 ) =
n
X
n
X
k=1
2
inf f (x) · (xk − xk−1 ) =
x∈Ik
k=1
b
n
n
b X
b2
1
b2 (n − 1)n)
= 2
=
· (1 − ),
k−1= 2 ·
n k=1
n
2
2
n
2
und somit
b2
lim (1 +
lim S(Zn , f ) =
n→∞
2 n→∞
b2
lim S(Zn , f ) =
lim (1 −
n→∞
2 n→∞
1
)=
n
1
)=
n
b2
,
2
b2
.
2
Folglich findet man für Unter- und Oberintegral denselben Wert
b2
=
2
Z
a
Z
b
f (x) dx ≤
b
a
b2
f (x) dx = ,
2
der auch mit dem Flächeninhalt des so beschriebenen Dreicks übereinstimmt.
Dadurch motiviert definiert man das sogenannte Riemann-Integral.
Definition 6.8 (Riemann-Integral)
Sind für eine beschränkte Funktion f : [a, b] → R das Unterintegral und Oberintegral
gleich, so bezeichnet man die Funktion f als Riemann-integrierbar und den gemeinsamen
Wert als das Riemann-Integral von f über [a, b]
Z
a
b
f :=
Z
a
b
f (x) dx :=
Z
a
b
f (x) dx =
Z
b
f (x) dx
a
Es stellt sich nun die Frage, welche Funktionen so integriert werden können. Zunächst
sind dies natürlich die Treppenfunktionen und für diese stimmt das Riemann-Integral
mit dem bereits definierten Integral für Treppenfunktionen überein. Aber viel mehr
Funktionen lassen sich so integrieren.
Hilfreich bei der Analyse ist dabei das Integrationskriterium in Form einer -Definition.
100
6.2 Riemann-Integral
Definition 6.9 (Riemannsches Integrationskriterium)
Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es
zu jedem > 0 eine Zerlegung Z gibt, so dass die Unter- und Obersumme sich höchstens
um unterscheiden, d.h.
|S(Z, f ) − S(Z, f )| < .
Mittels dieses Kriteriums lässt sich nun die Integrierbarkeit von stetigen Funktionen
untersuchen. Dazu benötigt man zunächst die folgende Verschärfung der Stetigkeit.
Satz 6.10 (Gleichmäßige Stetigkeit)
Sei [a, b] ⊂ R ein abgeschlossenes, beschränktes Intervall. Dann ist jede stetige Funktion
f : [a, b] → R sogar gleichmäßig stetig, d.h. zu jedem > 0 gibt es ein δ > 0, so dass für
alle x, x0 ∈ [a, b] gilt:
|x − x0 | < δ
⇒
|f (x) − f (x0 )| < .
Beweis. Widerspruchsbeweis. Angenommen, f ist nicht gleichmäßig stetig. Dann gibt
es ein > 0 so, dass für alle n ∈ N Punkte xn , x0n ∈ [a, b] derart existieren, dass gilt
1
, aber |f (xn ) − f (x0n )| ≥ .
n
Nach dem Satz von Bolzano-Weierstraß besitzt die beschränkte Folge (xn )n∈N (denn
das Intervall ist beschränkt) eine konvergente Teilfolge (xnk )k∈N mit einem Grenzwert
x ∈ [a, b]. Dies ist auch der Grenzwert der Folge (x0nk )k∈N , denn es gilt |xn − x0n | < n1 .
Somit folgt wegen der Stetigkeit von f
|xn − x0n | <
|f (xnk ) − f (x0nk )| → |f (x) − f (x)| = 0,
im Widerspruch zu |f (xn ) − f (x0n )| ≥ .
(k → ∞),
Der Unterschied zwischen Stetigkeit und gleichmäßiger Stetigkeit besteht darin, dass
man für stetige Funktionen die δ-Umgebung bei jedem Punkt unterschiedlich wählen darf. Bei gleichmäßig stetigen Funktionen hingegen muss man zu jedem die δUmgebung für alle Punkte im Definitionsbereich simultan wählen können.
Satz 6.11 (Stetige Funktionen sind Riemann-integrierbar)
Jede stetig Funktion f : [a, b] → R ist Riemann-integrierbar.
Beweis. Auf dem abgeschlossenen, beschränkten Intervall ist die Funktion gleichmäßig
stetig, d.h. es gibt zu jedem > 0 ein δ > 0, so das gilt
|x − x0 | < δ
⇒
|f (x) − f (x0 )| < .
Daher kann man nun jede Zerlegung Z ∈ Z(a, b) wählen, die eine Feinheit h < δ besitzt.
Denn dann gilt
|S(Z, f ) − S(Z, f )| ≤
n
X
k=1
| sup f (x) − inf f (x)|(xk − xk−1 ) ≤ ≤
x∈Ik
x∈Ik
n
X
k=1
(xk − xk−1 ) = (b − a).
101
6 Integration
Satz 6.12 (Monotone Funktionen sind Riemann-integrierbar)
Jede beschränkte, monotone Funktion f : [a, b] → R ist Riemann-integrierbar.
Beweis. Sei f monoton steigend (monoton fallend analog). Dann gilt f (a) ≤ f (x) ≤
f (b) für alle x ∈ [a, b]. Wählt man eine Zerlegung mit Feinheit h, so folgt
n
X
S(Z, f ) − S(Z, f ) =
(sup f (x) − inf f (x))(xk − xk−1 )
=
k=1
n
X
x∈Ik
x∈Ik
(f (xk ) − f (xk−1 ))(xk − xk−1 )
k=1
n
X
≤h
k=1
(f (xk ) − f (xk−1 )) = h (f (b) − f (a)) .
Somit lässt sich zu jedem > 0 eine Zerlegung mit h :=
f (b)−f (a)
wählen.
Für die Ermittelung des Wertes muss man sich nicht einmal auf Ober- und Untersummen
festlegen, sondern kann den Wert der Funktion irgendwo innerhalb der Teilintervalle
auswerten. Dies ist definiert als Riemannsche Summe.
Definition 6.13 (Riemannsche Summe)
Sei f : [a, b] → R und Z ∈ Z(a, b). Wählt man in jedem Intervall Ik der Zerlegung einen
Punkt ξk ∈ (xk−1 , xk ) = Ik , so bezeichnet man die Summe
S(Z, f ) :=
n
X
k=1
als Riemannsche Summe von f .
f (ξk ) · (xk − xk−1 )
Satz 6.14 (Riemann-Integral über Riemann-Summe)
Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es
für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit hn := h(Zn ) → 0, (n → ∞)
alle zugehörigen Riemannschen Summen mit demselben Grenzwert konvergieren:
Z b
f (x) dx
(n → ∞).
S(Zn , f ) →
a
Satz 6.15 (Eigenschaften des Riemann-Integrals)
Seien f, g : [a, b] → R Riemann-integrierbare Funktionen und α ∈ R.
(i) (Linearität) Die Funktionen f + g und αf sind integrierbar mit
Z b
Z b
Z b
(f + g)(x) dx =
f (x) dx +
g(x) dx,
a
a
a
Z b
Z b
(αf )(x) dx = α
f (x) dx.
a
102
a
6.2 Riemann-Integral
f (x)
f (x)
a
a
b
b
Abbildung 6.4: Approximationen des Integrals einer Funktion f : [a, b] → R durch die
Riemannsche Summe
(ii) (Monotonie) Gilt f (x) ≤ g(x) für alle x ∈ [a, b], so folgt
Z b
Z b
f (x) dx ≤
g(x) dx.
a
a
(iii) (Definitheit) Gilt f (x) ≥ 0 für alle x ∈ [a, b], so gilt
Z b
f (x) dx = 0 ⇒ f ≡ 0.
a
Satz 6.16
Sei a < c < b. Eine Funktion f : [a, b] → R ist genau dann integrierbar, wenn f : [a, c] →
R und f : [c, b] → R integrierbar sind und es gilt in diesem Fall
Z b
Z c
Z b
f (x) dx.
f (x) dx +
f (x) dx =
a
Definition 6.17
Man definiert
Z
a
c
a
f (x) dx := 0,
a
Z
a
b
f (x) dx := −
Z
a
f (x) dx
(falls b < a).
b
Satz 6.18 (Mittelwertsatz der Integralrechnung)
Seien f, g : [a, b] → R stetige Funktionen und gelte g ≥ 0. Dann gibt es ein ξ ∈ [a, b], so
dass
Z b
Z b
f (x) g(x) dx = f (ξ)
g(x) dx,
a
a
103
6 Integration
und im Speziellen
Z
b
a
f (x) dx = f (ξ) · (b − a) für ein ξ ∈ [a, b].
Beweis. Schreibt man m := inf x∈[a,b] f (x) und M := supx∈[a,b] f (x), so gilt direkt mg ≤
f g ≤ M g und somit wegen der Monotonie des Integrals
m
Z
a
b
g(x) dx ≤
Z
a
b
f (x) g(x) dx ≤ M
Daher gibt es auch einen Wert µ ∈ [m, M ] mit
Z
b
f (x) g(x) dx = µ
Z
Z
b
g(x) dx.
a
b
g(x) dx,
a
a
und nach dem Zwischenwertsatz auch ein ξ ∈ [a, b] mit f (ξ) = µ.
6.3 Hauptsatz der Differential- und Integralrechnung
Definition 6.19 (Stammfunktion)
Eine Funktion F : [a, b] → R heißt Stammfunktion (oder unbestimmtes Integral ) zu einer
Funktion f : [a, b] → R, falls F differenzierbar ist und gilt
für alle x ∈ [a, b].
F 0 (x) = f (x),
Der folgende Satz zeigt, dass am die Integration als Umkehrung der Differentiation
verstehen kann.
Satz 6.20 (Hauptsatz der Differential- und Integralrechnung)
Sei f : [a, b] → R eine stetige Funktion. Dann gilt:
(i) Das bestimmte Riemann-Integral (aufgefasst als eine Funktion der oberen Grenze)
Z x
F (x) :=
f (t) dt, x ∈ [a, b]
a
ist eine Stammfunktion von f und jede weitere Stammfunktion unterscheidet sich
von F nur durch eine Konstante.
(ii) Ist F : [a, b] → R eine Stammfunktion von f , so gilt
Z
a
104
b
b
f (x) dx = F (x) := F (b) − F (a).
a
6.4 Integrationsregeln
Beweis. (i) Man betrachtet den Differenzenquotienten von F (x):
Z x+h
Z x
Z
F (x + h) − F (x)
1 x+h
1
f (t) dt −
f (t) dt =
=
f (t) dt.
h
h
h x
a
a
Nach dem Mittelwertsatz der Integralrechnung gibt es folglich ein ξh ∈ [x, x + h] mit
1
F (x + h) − F (x)
= f (ξh )(x + h − x) = f (ξh ).
h
h
Somit folgt für h → 0 auch ξh → x und mit der Stetigkeit von f :
F 0 (x) = lim
h→0
F (x + h) − F (x)
= lim f (ξh ) = f (x).
h→0
h
Ist G ebenfalls Stammfunktion, so gilt 0 = F 0 − G0 = (F − G)0 und F − G ist konstant.
(ii) Sei nun F irgendeine Stammfunktion. Nach Teil (i) ist aber auch
Z x
G(x) :=
f (t) dt, G(a) = 0,
a
Stammfunktion und es gilt F (x) − G(x) = c für eine Konstante c ∈ R. Somit folgt
Z b
F (b) − F (a) = G(b) + c − G(a) − c = G(b) =
f (t) dt.
a
Beispiele 6.21 (i) Sei k ∈ N, dann gilt
Z
b
xk+1 .
x dx =
k + 1 a
b
k
a
(ii) Für a, b > 0 gilt
Z
b
a
(iii) Es gilt
Z
a
6.4 Integrationsregeln
b
1
dx = ln(x) .
x
a
b
b
e dx = e .
x
x
a
Es gibt einige nützliche Hilfsmittel, um Integral auszuwerten.
105
6 Integration
6.4.1 Partielle Integration
Satz 6.22 (Partielle Integration)
Seien f, g : [a, b] → R zwei stetig differenzierbare Funktionen. Dann gilt:
b
Z b
Z b
0
0
f (x) · g (x) dx = −
f (x) · g(x) dx + f (x) · g(x) .
a
a
a
Beweis. Nach der Produktregel gilt
(f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x)
und somit
Z
a
b
0
0
{f (x)g(x) + f (x)g (x)} dx =
Z
b
a
b
(f g) (x) dx = f (x)g(x) .
0
a
Beispiel 6.23
Sei a, b > 0 und die Auswertung des Integrals
Z b
ln(x) dx
a
gesucht. Setzt man f (x) := ln(x) und g(x) := x (und somit f 0 (x) = x1 und g 0 (x) = 1),
so folgt
b
b
Z b
Z b
Z b
1
ln(x) · 1 dx = −
· x dx + ln(x) · x = −
1 dx + ln(x) · x
a
a x
a
a
a
b
b
b
= −x + ln(x) · x = (ln(x) · x − x) . = ln(b) · b − b − ln(a) · a + a.
a
a
a
6.4.2 Substitutionsregeln
Satz 6.24 (Substitutionsregel)
Sei f : I → R eine stetige Funktion und ϕ : [a, b] → I stetig differenzierbar. Dann gilt:
Z b
Z ϕ(b)
0
f (ϕ(t)) · ϕ (t) dt =
f (x)dx.
a
ϕ(a)
Beweis. Sei F : I → R eine Stammfunktion von f . Nach der Kettenregel gilt für
F ◦ ϕ : [a, b] → R
(F ◦ ϕ)0 (t) = F 0 (ϕ(t)) · ϕ0 (t) = f (ϕ(t)) · ϕ0 (t),
106
6.5 Quadraturformeln
und somit
Z
a
b
0
f (ϕ(t)) · ϕ (t) dt =
Z
b
Z
(F ◦ ϕ) (t) dt = (F ◦ ϕ)(t) = F (ϕ(b)) − F (ϕ(a)) =
b
0
a
ϕ(b)
f (x)dx.
ϕ(a)
a
Beispiele 6.25 (i) Für ϕ(t) := t + c mit einer Konstanten c ∈ R gilt wegen ϕ0 (t) = 1
Z
Z
b
f (t + c) dt =
a
b
a
0
f (ϕ(t)) · ϕ (t) dt =
Z
ϕ(b)
f (x) dx =
ϕ(a)
Z
b+c
f (x) dx
a+c
(ii) Für ϕ(t) := c · t mit einer Konstanten c 6= 0 gilt wegen ϕ0 (t) = c
Z
b
a
1
f (ct) dt =
c
Z
b
a
1
f (ϕ(t)) · ϕ (t) dt =
c
0
Z
ϕ(b)
ϕ(a)
1
f (x) dx =
c
Z
cb
f (x) dx
ca
(iii) Sei ϕ : [a, b] → R stetig differenzierbar mit ϕ(x) > 0 für alle x ∈ [a, b]. Dann gilt
mit f (x) = x1
Z
a
b
ϕ0 (t)
dt =
ϕ(t)
Z
a
b
0
f (ϕ(t)) · ϕ (t) dt =
6.5 Quadraturformeln
Z
ϕ(b)
ϕ(a)
ϕ(b)
b
1
dx = ln(x)
= ln(ϕ(t))
x
ϕ(a)
a
Durch Quadraturformeln möchte man Integrale approximativ ausrechnen. Dazu möchte
man nur geeignet gewichtete Funktionsauswertungen verwenden und auch die Größe des
Approximationsfehlers kennen. Man sucht also eine Formel, so dass sich das Integral
schreiben lässt als
Z
a
b
f (x) dx =
n
X
wk f (xk ) + R,
k=1
wobei wk ∈ R Koeffizienten und die xk ∈ [a, b] Auswertungspunkte sind. Den Restterm
R bezeichnet man als Approximationsfehler. Solche Formeln lassen sich dann verwenden,
um numerisch den Wert des Integrals hinreichend genau mit dem Computer anzunähern.
Formeln dieser Art erhält man, indem man das Intervall [a, b] in Teilabschnitte zerlegt
und auf jedem dieser Abschnitte eine einfach Auswertungsregel anwendet. Daher wird
zunächst eine Auswertungsregel für ein einzelnes Intervall [0, 1] betrachtet. Diese Regel
kann dann später über die Substitutionsregel auf beliebige Teilabschnitte übertragen
werden.
107
6 Integration
Rechtecksregel
Satz 6.26 (Boxregel)
Sei f : [0, 1] → R einmal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass
Z 1
1
f (x) dx = f (1) − f 0 (ξ).
2
0
Analog gibt es ein ξ ∈ [0, 1] mit
Z 1
0
1
f (x) dx = f (0) + f 0 (ξ).
2
Beweis. Wählt man g(x) := x, so gilt für die Ableitungen g 0 (x) = 1. Integriert man
nun partiell, so findet man
1 Z 1
Z 1
Z 1
Z 1
0
0
g(x)f (x) dx = f (1) −
g(x)f 0 (x) dx.
f (x) dx =
g (x)f (x) dx = g(x)f (x) −
0
0
0
0
Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz
anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt
1
Z 1
Z 1
1 2 0
0
0
g(x) dx = f (ξ) x =
g(x)f (x) dx = f (ξ)
2 0
0
0
0
der Integralrechnung
1 0
f (ξ).
2
Für den zweiten Teil wähle man g(x) = 1 − x.
Mittelpunktsregel
Satz 6.27 (Mittelpunktsregel)
Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass
Z 1
1
1
f (x) dx = f ( ) + f 00 (ξ).
2
24
0
Beweis. Gemäß Taylor-Formel lässt sich mit einem ξ ∈ [0, 1] schreiben
1
1
1
1
1
f (x) = f ( ) + f 0 ( )(x − ) + f 00 (ξ)(x − )2 .
2
2
2
2
2
Somit folgt:
Z 1
Z
f (x) dx =
0
Z 1
Z 1
1
1
1 00
1
0 1
f ( ) dx +
f ( )(x − ) dx +
f (ξ)(x − )2 dx
2
2
2
2
0
0
0 2
Z 1
Z 1
Z 1
1
1
1
1
1
= f( )
1 dx +f 0 ( )
(x − ) dx +f 00 (ξ)
(x − )2 dx .
2 0
2 0
2
2
2
| {z }
|
{z
}
| 0 {z
}
1
=1
108
=0
1
= 24
6.5 Quadraturformeln
Trapezregel
Satz 6.28 (Trapezregel)
Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass
Z 1
1
1
f (x) dx = (f (0) + f (1)) − f 00 (ξ).
2
12
0
Beweis. Wählt man g(x) := 21 x(1 − x), so gilt für die Ableitungen g 0 (x) = 12 − x und
g 00 (x) = −1 sowie für die Auswertungen g(0) = g(1) = 0 und g 0 (1) = − 12 , g 0 (0) = 12 .
Integriert man nun zweimal partiell, so findet man
Z 1
Z 1
f (x) dx = −
g 00 (x)f (x) dx
0
0
1 Z 1
0
g 0 (x)f 0 (x) dx
= −g (x)f (x) +
0
0
Z 1
1
= (f (1) + f (0)) +
g 0 (x)f 0 (x) dx
2
0
1 Z 1
1
0
g(x)f 00 (x) dx
= (f (1) + f (0)) + g(x)f (x) −
2
0
0
Z 1
1
= (f (1) + f (0)) −
g(x)f 00 (x) dx.
2
0
Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz der Integralrechnung
anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt
Z 1
Z 1
Z
1 1
00
00
00
g(x)f (x) dx = f (ξ)
g(x) dx = f (ξ)
(x − x2 ) dx
2 0
0
0
1
1 1
1 1
= f 00 (ξ) ( x2 − x3 ) = f 00 (ξ).
2 2
3
12
0
Summierte Quadraturformeln
Die obigen Auswertungsregeln verwenden immer ein festes Intervall. Die Idee von summierten Quadraturformeln ist es nun, dass man das betrachtete Intervall [a, b] in viele
kleine Intervalle zerlegt und auf jedem dieser Intervalle die elementaren Quadraturformeln anwendet.
Satz 6.29 (Summierte Trapezregel)
Sei f : [a, b] → R zweimal stetig differenzierbar und die zweiten Ableitungen beschränkt
mit K := supa≤x≤b |f 00 (x)|.
109
6 Integration
Für die Unterteilung in n äquidistante Abschnitte mit Feinheit h := b−a
findet man die
n
summierte Trapezregel
!
Z b
n−1
X
1
1
f (a) +
f (x) dx =
f (a + kh) + f (b) h + R
2
2
a
k=1
mit einem Restterm der Größe
|R| ≤
K
(b − a)h2 .
12
Beweis. Für jedem der Teilabschnitte [a + kh, a + (k + 1)h] lässt sich die Variablentransformation ϕ(x) = a + (k + x)h mit ϕ0 (x) = h anwenden
a+(k+1)h
Z
f (x) dx =
Z
ϕ(1)
f (x) dx =
ϕ(0)
a+kh
Z
0
1
0
f (ϕ(x))ϕ (x) dx = h
Z
1
f (ϕ(x)) dx
0
h
h
(f (ϕ(0)) + f (ϕ(1))) − (f ◦ ϕ)00 (c)
2
12
h
h3
= (f (a + kh) + f (a + (k + 1)h)) − f 00 (ξ).
2
12
mit einem c ∈ [0, 1] und einem ϕ(c) =: ξ ∈ [a + kh, a + (k + 1)h]. Dabei wendet man die
Kettenregel der Ableitung zweimal an, um zu folgern
=
(f ◦ ϕ)00 (c) = [f (ϕ(c))]00 = [f 0 (ϕ(c))]0 · ϕ0 (c) = f 00 (ϕ(c)) · ϕ0 (c) · ϕ0 (c) = h2 f 00 (ϕ(c)) = h2 f 00 (ξ).
Summation über alle Teilintervalle und zusammenfassen gleicher Auswertungspunkte
liefert nun
Z
b
a
f (x) dx =
n−1
X
k=0
a+(k+1)h
Z
f (x) dx =
n−1
X
h
k=0
a+kh
=
2
(f (a + kh) + f (a + (k + 1)h)) −
!
n−1 3
X
h
k=0
12
f 00 (ξ)
n−1
X
1
1
f (a + kh) + f (b) h + R.
f (a) +
2
2
k=1
Die Größe des Restterms ergibt sich aus der Abschätzung
n−1
n−1
X h3
h2
X
h2
|R| = f 00 (ξ) ≤
sup |f 00 (x)|
h = K(b − a),
12 a≤x≤b
12
12
k=0
k=0
P
wobei verwendet wird, dass n−1
k=0 h = n · h = (b − a) der Länge des Integrationsintervalls
entspricht.
Bemerkung 6.30
Die Fehlerabschätzung für den Restterm zeigt, dass die Approximation des Integrals von
zweiter Ordnung ist. Dies bedeutet, dass eine Halbierung von h zu einem Vierteln des
Fehlers führt.
110
6.5 Quadraturformeln
f (x)
a
b
x
Abbildung 6.5: Das Integral F einer Funktion f : [a, b] → R approximiert durch die
summierte Trapezregel
111
7 Vektorräume
7.1 Der n-dimensionale reelle Raum Rn
Der Körper R der reellen Zahlen lässt sich über die Zahlengerade darstellen. Möchten man jedoch eine Ebene betrachten, so lässt sich diese als R2 := R × R auffassen
und man benötigt zum Beschreiben eines Punktes jeweils ein Paar von reellen Zahlen
(x, y), x, y ∈ R (sogenannte 2-Tupel). Analog lässt sich der 3-dimensionale Raum als das
karthesische Produkt R3 := R × R × R auffassen und Punkte werden durch ein 3-Tupel
(x, y, z), x, y, z ∈ R beschrieben. Allgemein lässt sich dies wie folgt definieren.
Definition 7.1 (Rn )
Für n ∈ N, n ≥ 1 ist der n-dimensionale reelle Standardraum
 
x1
 x2 
 
Rn := {x =  ..  | xi ∈ R für alle 1 ≤ i ≤ n}
.
xn
die Menge der geordneten n-Tupel (oder Vektoren) von reellen Zahlen. Die einzelnen
Einträge x1 , . . . , xn der n-Tupel heißen Komponenten.
Auf den n-Tupeln lassen sich Addition und Multiplikation dadurch erklären, dass man
die Operation komponentenweise durchführt. Man notiert die n-Tupel auch als xT :=
(x1 , x2 , . . . , xn ).
Definition 7.2 (Addition und Multiplikation für n-Tupeln)
Für zwei n-Tupel x, y ∈ Rn ist die Addition definiert durch
   


x1
y1
x1 + y 1
 x2   y 2 
 x2 + y 2 
   


x + y =  ..  +  ..  :=  ..  ,
. .
 . 
xn
yn
xn + y n
und die Multiplikation mit λ ∈ R durch




x1
λ · x1
 x2 
 λ · x2 
 


λ · x = λ ·  ..  :=  ..  .
.
 . 
xn
λ · xn
113
7 Vektorräume
x 2 + y2
x+y
λ·x
λx2
y
y2
x2
0
x
y1
x1 x1 + y 1
x2
0
x
x1
λx1
Abbildung 7.1: Illustration zur Addition und Multiplikation im Rd
Nun lässt sich leicht feststellen, dass die Menge der Vektoren die folgenden Eigenschaften
hat.
Satz 7.3 (Eigenschaften im Rn )
Seien x, y, z ∈ Rn beliebige Vektoren (oder n-Tupel) und λ, µ ∈ R beliebige reelle Zahlen
(genannt Skalare).
(V1) (Rn , +) ist eine kommutative Gruppe, d.h.
(Assoziativiät): x + (y + z) = (x + y) + z
(Null): Für 0T := (0, 0, . . . , 0) gilt x + 0 = x
(Inverse): Für −xT := (−x1 , −x2 , . . . , −xn ) gilt x + (−x) = 0
(Kommutativität): x + y = y + x
(V2) Für die Multiplikation von Skalaren und Vektoren gilt:
(λ + µ) · x = λ · x + µ · x,
λ · (µx) = (λµ) · x,
λ · (x + y) = λ · x + λ · y,
1 · x = x.
Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der
Eigenschaften von R.
Es zeigt sich somit, dass auf der Menge Rn für die Addition ein neutrales und inverses
Element existieren.
Für zwei Vektoren x, y ∈ Rn lässt sich das sogenannte Skalarprodukt definieren.
Definition 7.4 (Skalarprodukt im Rn )
Für zwei Vektoren x, y ∈ Rn ist das kanonische Skalarprodukt h·, ·i : Rn × Rn → R
definiert durch
hx, yi := x1 y1 + x2 y2 + . . . + xn yn .
114
7.1 Der n-dimensionale reelle Raum Rn
x2
x
−x1
x1
0
−x2
−x
Abbildung 7.2: Illustration des Inversen Vektors im Rd
Satz 7.5 (Eigenschaften des Skalarprodukts im Rn )
Für beliebige Vektoren x, y, z ∈ Rn und Skalare λ ∈ R gilt
(i) Bilinearität: Die Abbildung ist linear in beiden Einträgen
hx + y, zi = hx, zi + hy, zi,
hλx, yi = λhx, yi,
hx, y + zi = hx, yi + hx, zi,
hx, λyi = λhx, yi.
(ii) Symmetrie:
hx, yi = hy, xi.
(iii) Positive Definitheit: Das Skalarprodukt eines Vektors mit sich selbst ist nichtnegativ und genau nur für den Nullvekotr null
hx, xi ≥ 0
und
hx, xi = 0 ⇔ x = 0.
Beweis. Ergibt sich durch direktes Nachrechnen.
Definition 7.6 (Norm im Rn )
Für einen Vektoren x ∈ Rn ist die euklidische Norm k·k : R → R gegeben durch
q
p
kxk := kxk2 := hx, xi = x21 + x22 + . . . + x2n
und wird als Betrag oder Länge des Vektors bezeichnet.
Einen sehr wichtigen Zusammenhang zwischen Skalarprodukt und Norm stellt die folgende Ungleichung dar.
Satz 7.7 (Cauchy-Schwarzsche Ungleichung)
Für zwei beliebige Vektoren x, y ∈ Rn gilt die Cauchy-Schwarzsche Ungleichung
|hx, yi| ≤ kxk · kyk.
115
7 Vektorräume
Beweis. Ist x = 0 oder y = 0 so gilt die Gleichung direkt. Andernfalls gilt für x, y 6= 0
und jedes λ ∈ R:
0 ≤ hx − λy, x − λyi = hx, xi − 2λhx, yi + λ2 hy, yi.
Für die Wahl λ =
hx,yi
kyk2
folgt damit
hx, yi2 hx, yi2
hx, yi2
2
2
0 ≤ kxk − 2λhx, yi + λ kyk = kxk − 2
+
kyk = kxk −
kyk2
kyk4
kyk2
2
2
2
2
und somit
hx, yi2 ≤ kxk2 kyk2 .
Wurzelziehen liefert die Behauptung.
Damit findet man die essentiellen Eigenschaften der euklidischen Norm.
Satz 7.8 (Eigenschaften der euklidischen Norm)
Für beliebige Vektoren x, y ∈ Rn und Skalare λ ∈ R gilt
(i) (Definitheit): kxk = 0 ⇔ x = 0.
(ii) (Linearität): kλxk = |λ| · kxk.
(iii) (Dreiecksungleichung): kx + yk ≤ kxk + kyk.
Beweis. Definitheit und Linearität ergibt sich durch direktes Nachrechnen. Für die
Dreieckungleichung folgt mit Hilfe der Cauchy-Schwarzschen Ungleichung
kx + yk2 = hx + y, x + yi = hx, xi + 2hx, yi + hy, yi
≤ kxk2 + 2kxkkyk + kyk2 = (kxk + kyk)2
und Wurzelziehen liefert die Behauptung.
Bemerkung 7.9
Für die Darstellung des Skalarprodukts gilt auch die Formel
hx, yi = kxk · kyk cos ](x, y),
wobei ](x, y) den Winkel zwischen x und y bezeichnet.
Definition 7.10 (Orthogonale Vektoren)
Zwei Vektoren x, y ∈ Rn heißen orthogonal oder senkrecht, falls gilt
hx, yi = 0.
Definition 7.11 (Normierte Vektoren)
Ein Vektor x ∈ Rn heißt normiert, falls gilt
kxk = 1.
Jeden Vektor x 6= 0 kann man normieren gemäß
1
· x.
x̃ :=
kxk
116
7.2 Raum von Folgen und Funktionen
x
x2
x
cos ](x, y) =
2
2
kx
0
p x1
k=
+
x2
](x, y)
x1
hx,yi
kxk kyk
y
0
Abbildung 7.3: Die Norm als Abstand zum Ursprung und Interpretation des Skalarprodukts über den Winkel zwischen zwei Vektoren.
7.2 Raum von Folgen und Funktionen
Ziel dieses Abschnitts ist es zu zeigen, dass verschiedenste mathematische Dinge ähnliche
Struktur besitzen. Diese unterliegende, gemeinsame Struktur wird im nächsten Abschnitt
als (abstrakter) Vektorraum eingeführt. Zur Motivation hier einige Betrachtungen.
Folgen
Eine konsequente Verallgemeinerung des Konzepts der n-Tupel besteht darin Tupel von
unendlicher Länge zu betrachten - dies sind Folgen. Betrachtet man die Menge der
Folgen (an )n∈N = (a0 , a1 , a2 , . . .) mit Koeffizienten ai ∈ R, so lässt sich analog zum Rn
eine Addition und Multiplikation mit Skalaren definieren, indem man die Operationen
Komponentenweise ausführt.
Für zwei Folgen (an )n∈N und (bn )n∈N ist die Addition definiert als
(a0 , a1 , a2 , . . .) + (b0 , b1 , b2 , . . .) := (a0 + b0 , a1 + b1 , a2 + b2 , . . .)
und die Multiplikation mit λ ∈ R gegeben durch
λ · (a0 , a1 , a2 , . . .) := (λa0 , λa1 , λa2 , . . .).
Man beachte, dass beide Operationen wieder als Resultat eine Folge liefern. Analog zum
Rn findet man die folgenden Eigenschaften.
Satz 7.12 (Eigenschaften in Raum aller Folgen)
Sei V der Raum aller Folgen (an )n∈N mit Koeffizienten in R. Seien (an )n , (bn )n , (cn )n ∈ V
beliebige Folgen und λ, µ ∈ R beliebige reelle Zahlen. Dann gilt:
(V1) (V, +) ist eine kommutative Gruppe, d.h.
117
7 Vektorräume
(Assoziativiät): (an )n + ((bn )n + (cn )n ) = ((an )n + (bn )n ) + (cn )n
(Null): Für die Nullfolge 0 := (0, 0, 0, . . .) gilt (an )n + 0 = (an )n
(Inverse): Für −(an ) := (−a0 , −a1 , −a2 , . . .) gilt (an )n + (−(an )n ) = 0
(Kommutativität): (an )n + (bn )n = (bn )n + (an )n
(V2) Für die Multiplikation von reellen Zahlen und Folgen gilt:
(λ + µ) · (an )n = λ · (an )n + µ · (an )n ,
λ · (µ(an )n ) = (λµ) · (an )n ,
λ · ((an )n + (bn )n ) = λ · (an )n + λ · (bn )n ,
1 · (an )n = (an )n .
Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der
Eigenschaften von R.
Polynomräume
Es sei daran erinnert, dass man zu einem Körper K (z.B. Q, R, C) Polynome bilden kann.
Definition 7.13 (Polynom und Grad)
Sei K ein Körper und x eine Unbestimmte. Ein Polynom mit Koeffizienten in K ist ein
Ausdruck der Form
P (x) = a0 + a1 x + a2 x2 + . . . + an xn ,
wobei n ∈ N und a0 , . . . , an ∈ K gilt.
Der Grad eines Polynomes ist der höchste, nicht verschwindende Koeffizient
(
max{i ∈ N | ai 6= 0},
(f 6= 0)
deg P :=
−∞,
(f = 0).
Die Menge aller Polynome wird mit K[x] bezeichnet. Die Menge aller Polynome mit
Grad kleiner gleich n wird mit K[x]≤n bezeichnet.
Betrachtet man zwei Polynome f, g ∈ K[x], so lassen sich diese in natürlicher Weise
addieren. Gilt f (x) := a0 + a1 x + . . . + an xn und g(x) := b0 + b1 x + . . . + bm xm mit
m < n, so wählt man formal bm+1 = . . . = bn = 0 und erhält Polynome vom selben Grad
(analog für n < m). Die Addition ist nun gegeben durch
(f + g)(x) := f (x) + g(x) := (a0 + b0 ) + (a1 + b1 )x + (a2 + b2 )x2 + . . . + (an + bn )xn .
Man beachte, dass deg f + g ≤ max(deg f, deg g) gilt, d.h. es handelt sich um eine
Abbildung + : K[x]≤n × K[x]≤n → K[x]≤n .
Ebenso lässt sich eine Multiplikation mit Werten aus K in natürlicher Weise aufstellen.
Gilt f (x) := a0 + a1 x + . . . + an xn , so ist die Multiplikation mit dem Skalar λ ∈ K
gegeben durch
(λf )(x) := λ · f (x) := (λa0 ) + (λa1 )x + (λa2 )x2 + . . . + (λan )xn
118
7.2 Raum von Folgen und Funktionen
und bei dieser Multiplikation ist der Grad des Polynoms höchstens so groß wie zuvor,
d.h. es handelt sich um eine Abbildung · : K × K[x]≤n → K[x]≤n .
Schaut man sich diese Addition und Multiplikation genauer an, so findet man Eigenschaften analog zu denen, die man bereits aus dem Rn kennt.
Satz 7.14 (Eigenschaften in K[x])
Seien f, g, h ∈ K[x] beliebige Polynome und λ, µ ∈ K beliebige Skalare. Dann gilt:
(V1) (K[x], +) ist eine kommutative Gruppe, d.h.
(Assoziativiät): f + (g + h) = (f + g) + h.
(Null): Für das Nullpolynom 0 gilt f + 0 = f .
(Inverse): Für −f := −a0 − a1 x − . . . − an xn gilt f + (−f ) = 0.
(Kommutativität): f + g = g + f
(V2) Für die Multiplikation von Skalaren und Polynomen gilt:
(λ + µ) · f = λ · f + µ · f,
λ · (µf ) = (λµ) · f,
λ · (f + g) = λ · f + λ · g,
1 · f = f.
Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der
Eigenschaften von K.
Funktionenräume
Allgemeiner kann man auch die Menge der Funktionen von einer Menge D in einen
Körper K betrachten. Dann definiert man für diese Menge
Abb(D, K) := {f : D → K}
die Addition zweier Funktionen sowie die Multiplikation mit Skalaren λ ∈ K durch
(f + g)(x) := f (x) + g(x),
und
(λ · f )(x) := λ · f (x)
und erhält dadurch erneut Abbildung
+ : Abb(D, K) × Abb(D, K) → Abb(D, K) und
· : K × Abb(D, K) → Abb(D, K),
d.h. diese beiden Verknüpfungen bilden erneut in diesselbe Menge ab.
Auch diese Menge besitzt analoge Struktur wie die bereits besprochenen Fälle.
119
7 Vektorräume
7.3 Allgemeine Definition von Vektorräumen
Die vorangegangenen Beispiele zeigen, dass viele verschiedene mathematische Strukturen
dieselbe unterliegenden Eigenschaften besitzen. Somit lassen sich alle Strukturen auf
einmal untersuchen, indem man sich auf einen abstrakten Standpunkt zurückzieht und
anstatt konkreter Räume ganz allgemein sogenannte Vektorräume betrachtet.
Definition 7.15 (Vektorraum)
Sei K ein Körper. Eine Menge V zusammen mit einer inneren Verknüpfung (Addition)
+ : V × V → V,
(v, w) 7→ v + w,
und einer äußeren Verknüpfung (skalare Multikplikation bzw. Multiplikation mit Skalaren)
· : K × V → V,
(λ, v) 7→ λ · v,
heißt K-Vektorraum (oder auch Vektorraum über K), falls gilt:
(V1) (V, +) ist eine kommutative Gruppe, d.h.
(Assoziativiät): u + (v + w) = (u + v) + w für alle u, v, w ∈ V
(Nullvektor): Es gibt einen Vektor 0 mit v + 0 = v für alle v ∈ V
(Inverse): Zu jedem Vektor v ∈ V gibt es einen Vektor −v ∈ V mit v + (−v) = 0
(Kommutativität): u + v = v + u für alle u, v ∈ V
(V2) Für die Multiplikation von Skalaren und Vektoren gilt:
(λ + µ) · v = λ · v + µ · v,
λ · (µv) = (λµ) · v,
λ · (v + w) = λ · v + λ · w,
1 · v = v,
für alle λ, µ ∈ K und v, w ∈ V .
Beispiele 7.16
(i) Qn , Rn , Cn oder allgemein der K-Vektorraum Kn .
(ii) Die Polynomräume K[x] und K[x]≤n für einen Körper K.
(iii) Der Raum aller unendlichen Folgen.
(iv) Der Raum aller Funktionen f : R 7→ R.
(v) Der Raum aller stetigen Funktionen f : R 7→ R.
(vi) Der Raum aller differenzierbaren Funktionen f : R 7→ R.
Definition 7.17 (Untervektorraum)
Sei V ein K-Vektorraum und U ⊂ V eine Teilmenge. Dann heißt U Untervektorraum
von V , falls gilt:
120
7.4 Linearkombination, Span und lineare Unabhängigkeit
(UV1) U 6= ∅,
(UV2) u, v ∈ U ⇒ u + v ∈ U ,
(UV3) v ∈ U, λ ∈ K ⇒ λ · v ∈ U ,
Beispiele 7.18
Jeder Vektorraum V hat die trivialen Untervektorräume {0} und V selbst.
Die Vektorraum R1 hat genau die zwei trivialen Untervektorräume {0} und R.
Der Vektorraum R2 hat die Untervektorräume
(i) Der Nullvektorraum {0},
(ii) alle Geraden durch den Urspruch {(x, y) ∈ R2 | ax + by = 0} mit a, b ∈ R, (a, b) 6=
(0, 0),
(iii) den Vektorraum R2 selbst.
Der Vektorraum R3 hat als Unterräume {0}, alle Geraden durch den Urspruch, alle
Ebenen durch den Ursprung und R3 selbst.
Satz 7.19
Ein Untervektorraum U ⊂ V ist wieder ein Vektorraum.
Beweis. Addition und skalare Multiplikation sind nach (UV2) und (UV3) abgeschlossen, bilden also wieder in U ab. Die Kommuntativität und Assoziativität gilt, da sie auch
schon in V vorhanden war und man sich nun nur auf eine Teilmenge U ⊂ V beschränkt.
Alle Bedingungen (V2) folgen ebenfalls direkt von V . Da U 6= ∅ mindestens einen Vektor
v ∈ U enthält, ist wegen (UV3) auch 0 = 0 · v ∈ U enthalten. Zudem ist wegen (UV3)
auch −v = (−1) · v ∈ U das Inverse.
7.4 Linearkombination, Span und lineare
Unabhängigkeit
Hat man eine Teilmenge an Vektoren von einem Vektorraum, so bilden diese nicht automatisch einen Unterraum. Man kann sich jedoch fragen, ob man diese Menge durch
Hinzunahme weiterer geeigneter Vektoren zu einem Unterraum machen kann. Dies bezeichnt man als Abschluss des Vektorraums. Speziell möchte man gerne mit möglichst
wenig zusätzlichen Vektoren einen Unterraum erhalten. Dies motiviert die folgende Betrachtung.
Definition 7.20 (Familie)
Sei I eine Indexmenge und V ein Vektorraum. Eine Abbildung
ϕ : I → V,
i 7→ vi = ϕ(i),
die einem Index i ein Element aus vi ∈ V zuordnet, heißt Familie von Vektoren. Die
Familie I → V wird auch mit (vi )i∈I bezeichnet.
121
7 Vektorräume
In einer Familie können Vektoren mehrfach auftreten und (im Gegensatz zu einer Menge)
ist die Reihenfolge von Bedeutung.
Beispiel 7.21 (i) Für I = {1, 2, . . . , n} ist (vi )i∈{1,2,...,n} = (v1 , v2 , . . . , vn ) eine endliche Familie an Vektoren.
1
0
1
1
2
(ii) Für I = {1, 2, 3, 4} und V = R ist (
,
,
,
) eine Familie von 4
0
1
1
0
Vektoren.
(iii) Für I = N ist = (vi )i∈N = (v0 , v1 , . . .) eine unendliche Familie an Vektoren. Dies
wird auch als Folge bezeichnet.
(iv) Für I = N und V = R[x] ist (1, x, x2 , x3 , . . .) eine Familie.
(v) Für die leere Indexmenge I = ∅ ist (vi )i∈∅ = ( ) die leere Familie.
Definition 7.22 (Linearkombination)
Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V .
(i) Zu einer endlichen Familie (v1 , . . . , vr ) mit r ∈ N und Skalaren λ1 , . . . , λr ∈ K
nennt man den Vektor
v = λ1 v1 + λ2 v2 + . . . + λr vr
eine Linearkombination der Vektoren v1 , . . . , vr .
(ii) Für eine unendliche Familie (vi )i∈I heißt ein Vektor v Linearkombination der Vektoren (vi )i∈I , falls v Linearkombination einer endlichen Teilfamilie von (vi )i∈I ist,
d.h. es gibt ein r ∈ N, Indizes i1 , . . . , ir ∈ I und Skalare λ1 , . . . , λr ∈ K, so dass
v = λ1 vi1 + λ2 vi2 + . . . + λr vir .
Betrachtet man zu einer Familie von Vektoren alle möglichen Linearkombinationen, so
erhält man einen Raum der als Abschluss, Aufspann oder lineare Hülle bezeichnet wird.
Definition 7.23 (Lineare Hülle / Span / Erzeugnis)
Sei V ein K-Vektorraum und (vi )i∈I eine (endliche oder unendliche) Familie von Vektoren. Die Menge aller Linearkombinationen
span(vi )i∈I := {v | v ist Linearkombination der Vektoren (vi )i∈I }
heißt lineare Hülle oder Span.
Für eine endlich Familie (v1 , . . . , vr ) schreibt man dies auch als
Kv1 + . . . + Kvr := span(v1 , . . . , vr ) = {λ1 v1 + λ2 v2 + . . . + λr vr | λi ∈ K}.
Für die leere Familie setzt man
span(vi )i∈∅ := {0}.
122
7.4 Linearkombination, Span und lineare Unabhängigkeit
1
Beispiel 7.24 (i) Für (vi )i∈{1} = (
) ist
1
1
1
1
span(vi )i∈{1} = span(
) = {λ1
| λ1 ∈ K} = R
1
1
1
eine Gerade durch den Ursprung.
1
0
1
(ii) Für (vi )i∈{1,2,3} = (
,
,
) ist
0
1
1
1
0
1
1
0
1
span(vi )i∈{1,2,3} = span(
,
,
) = {λ1
+ λ2
+ λ3
| λi ∈ K}
0
1
1
0
1
1
λ1 + λ3
={
| λi ∈ K} = R2
λ2 + λ3
der Raum V = R2 selbst.
In den Beispielen sieht man, dass der Span ein Untervektorraum ist. Dies gilt ganz
allgemein und sogar noch mehr: span(vi ) ist der kleinste Untervektorraum von V , der
alle vi enthält.
Satz 7.25 (Span ist kleinster Untervektorraum zu einer Familie)
Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V . Dann gilt:
(i) span(vi )i∈I ist ein Untervektorraum von V .
(ii) Ist W ⊂ V auch ein Untervektorraum, der alle vi , i ∈ I enthält, so gilt
span(vi )i∈I ⊂ W.
Beweis. (i) Zu endlichen Linearkombinationen λ1 v1 + . . . + λr vr und µ1 v1 + . . . + µr vr
ist auch die Summe
(λ1 v1 + . . . + λr vr ) + (µ1 v1 + . . . + µr vr ) = (λ1 + µ1 )v1 + . . . + (λr + µr )vr
als auch das Produkt mit einem Skalar λ
λ(λ1 v1 + . . . + λr vr ) = (λλ1 )v1 + . . . + (λλr )vr
eine Linearkombination. Durch die Wahl von λ1 = . . . = λr = 0 ist zudem 0 enthalten.
(ii) Da W Untervektorraum ist, sind alle endlichen Linearkombinationen von Vektoren
aus W wieder in W enthalten. Da speziell auch alle vi ∈ W liegen, sind somit auch alle
Linearkombination der vi (und somit span(vi )i∈I ) enthalten.
Einen gegebenen (Unter-)Vektorraum kann man durch viele verschiedene Familien aufspannen (bzw. erzeugen). So ist zum Beispiel
1
0
1
0
1
1
0
2
R =R
+R
=R
+R
+R
=R
+R
.
0
1
0
1
1
1
1
123
7 Vektorräume
Im Allgemeinen existieren unendlich viele Möglichkeiten um einen Vektor linear zu kombinieren. Speziell lässt sich der Nullvektor immer durch
0 = 0v1 + . . . + 0vr
linearkombinieren. Gibt es noch weitere Koeffizienten λi 6= 0, die dies erfüllen, so ist
die Eindeutigkeit der Darstellung nicht gegeben. Man bezeichnet dann die Vektoren
v1 , . . . , vr als linear abhängig.
Definition 7.26 (Lineare Unabhängigkeit)
Sei V ein K-Vektorraum. Eine endliche Familie (v1 , . . . , vr ) heißt linear unabhängig,
falls sich der Nullvektor nur durch Nullkoeffizienten linearkombinieren lässt, d.h. für
eine Darstellung mit Koeffizienten λ1 , . . . , λr ∈ K gilt stets
0 = λ1 v1 + . . . + λr vr
⇒
λ1 = . . . = λr = 0.
Eine unendliche Familie (vi )i∈I heißt linear unabhängig, falls jede endliche Teilfamilie
linear unabhängig ist.
Eine Familie (vi )i∈I heißt linear abhängig, falls sie nicht linear unabhängig ist.
Die leere Familie () ist linear unabhängig.
Satz 7.27 (Charakterisierung linear abhängiger Vektoren)
Sei V ein K-Vektorraum und r ∈ N, r ≥ 2. Eine Familie von Vektoren (v1 , . . . , vr ) ist
genau dann linear abhängig, wenn mindestens einer der Vektoren Linearkombination der
anderen ist.
Beweis. „Linear abhängig ⇒ Linearkombination“: Sind v1 , . . . , vr linear abhängig, so
gibt es Koeffizienten λ1 , . . . , λr ∈ K mit mindestens einem λk 6= 0, k ∈ {1, . . . , r}, so dass
sich der Nullvektor nichttrivial kombinieren lässt: 0 = λ1 v1 + . . . + λk vk + . . . + λr vr .
Löst man nach vk auf, so ist dieser Linearkombination der übigen, denn
vk = −
λk−1
λk+1
λr
λ1
v1 − . . . −
vk−1 −
vk+1 − . . . − vr .
λk
λk
λk
λk
„Linearkombination ⇒ linear abhängig“: Gilt umgekehrt
vk = µ1 v1 + . . . + µk−1 vk−1 + µk+1 vk+1 + . . . + µr vr ,
so lässt sich der Nullvektor mit λk = −1 6= 0 linearkombinieren gemäß
0 = µ1 v1 + . . . + µk−1 vk−1 + (−1)vk + µk+1 vk+1 + . . . + µr vr .
Dieser Satz sagt zugleich, dass sich bei linear unabhängigen Vektoren (v1 , . . . , vr ) keiner der Vektoren vi durch die übrigen linear kombinieren lässt und somit als einzige
Möglichkeit nur eine Darstellung durch sich selbst bleibt. Es gilt sogar noch mehr: Jeder
Vektor in der linearen Hülle lässt sich eindeutig linear kombinieren.
124
7.5 Basis und Dimension
Satz 7.28 (Charakterisierung linear unabhängiger Vektoren)
Sei V ein K-Vektorraum. Eine Familie von Vektoren (vi )i∈I ist genau dann linear unabhängig, wenn sich jeder Vektor v ∈ span(vi )i∈I als eindeutige Linearkombination aus
(vi )i∈I schreiben lässt.
Beweis. „Linear unabhängig ⇒ Eindeutigkeit“: Sei v ∈ span(vi )i∈I auf zwei Arten linear
kombinierbar, d.h. es gebe Skalare λi , µi und gelte
X
X
λi vi = v =
µi vi ,
i∈I
i∈I
wobei nur endlich viele der λi , µi ungleich Null sind. Damit gilt jedoch auch
X
(λi − µi )vi = 0
i∈I
und wegen der linearen Unabhängigkeit müssen alle Koeffizienten λi − µi = 0 verschwinden. Somit ist λi = µi und die Darstellung eindeutig.
„Eindeutigkeit ⇒ linear unabhängig“: Der Nullvektor lässt sich stets als 0 = 0v1 + . . . +
0vr kombinieren. Ist die Darstellung eindeutig, so muss für alle weiteren Darstellungen
0 = λ1 v1 + . . . + λr vr folgen, dass λ1 = . . . = λr = 0 gilt.
7.5 Basis und Dimension
Definition 7.29 (Erzeugenensystem, Basis)
Sei V ein Vektorraum.
(i) Eine Familie B = (vi )i∈I heißt Erzeugendensystem von V, wenn
V = span(vi )i∈I
ist, d.h. jedes v ∈ V ist eine (endliche) Linearkombination der (vi )i∈I .
(ii) Eine Familie B = (vi )i∈I heißt Basis von V, wenn sie eine linear unabhängiges
Erzeugendensystem ist, d.h. jedes v ∈ V ist eine eindeutige (endliche) Linearkombination der (vi )i∈I .
Existiert ein endliches Erzeugendensystem (v1 , . . . , vn ), so nennt man V endlich erzeugt.
Eine Basis heißt endlich, falls sie eine endliche Familie (v1 , . . . , vn ) ist.
Beispiele 7.30
(i) Für n ∈ N und V = Rn ist die kanonische Basis (oder Standardbasis) gegeben
durch
ei := (0, . . . , 0, 1, 0, . . . , 0),
wobei die 1 an der i-ten Stelle steht. Damit ist span(ei )i={1,...,n} = Rn .
125
7 Vektorräume
(ii) Für n ∈ N und V = R[x]≤n ist die kanonische Basis gegeben durch
(1, x, x2 , . . . , xn ).
(iii) Für V = R[x] ist die kanonische Basis gegeben durch
(1, x, x2 , . . .).
Dieser Raum ist nicht endlich erzeugt.
(iv) Für V = C (aufgefasst als R-Vektorraum) ist die kanonische Basis gegeben durch
(1, i).
Satz 7.31 (Äquivalenzen zu einer endlichen Basis)
Für eine endliche Familie B = (v1 , . . . , vn ) von Vektoren sind äquivalent:
(i) B ist Basis (d.h. ein linear unabhängiges Erzeugendensystem).
(ii) B ist ein unverkürzbares Erzeugendensystem, d.h. für jedes k ∈ {1, . . . , n} ist
(v1 , . . . , vk−1 , vk+1 , . . . , vn ) kein Erzeugendensystem mehr.
(iii) B ist ein Erzeugendensystem mit Eindeutigkeit der Darstellung, d.h. jedes v ∈ V
lässt sich eindeutig als Linearkombination v = λ1 v1 + . . . + λn vn schreiben.
(iv) B ist unverlängerbar linear unabhängig, d.h. für jedes v ∈ V ist (v1 , . . . , vn , v)
nicht mehr linear unabhängig.
Beweis. (i) ⇒ (ii): Angenommen, B wäre um vk verkürzbar und weiterhin Erzeugendensystem. Dann lässt sich vk = λ1 v1 + . . . + λk−1 vk−1 + λk+1 vk+1 + . . . + λn vn darstellen
und nach Umstellung gilt 0 = λ1 v1 + . . . + λk−1 vk−1 + (−1)vk + λk+1 vk+1 + . . . + λn vn .
Somit wäre (v1 , . . . , vn ) linear abhängig im Widerspruch zur Unabhängigkeit einer Basis.
(ii) ⇒ (iii): Angenommen es existiert zu einem unverkürzbaren Erzeugendensystem eine
nicht eindeutige Darstellung zu einem Element v ∈ V . Dann
∃v ∈ V :
v = λ1 v1 + . . . + λn vn = µ1 v1 + . . . + µn vn .
O.B.d.A. λ1 6= µ1 (die vi können stets entsprechend umsortiert werden). Dann folgt
0 = (λ1 − µ1 )v1 + ... + (λn − µn )vn
µn − λn
µ2 − λ2
⇔ v1 =
v2 + . . . +
λ1 − µ1
λ1 − µ1
⇒ vi linear abhängig ⇒ B verkürzbar. Widerspruch!
(iii) ⇒ (iv): B ist linear unabhängig auf Grund der eindeutigen Darstellbarkeit. Fügt
man noch einen weiteren Vektor v = λ1 v1 + . . . + λn vn zur Familie hinzu, so wird diese
wegen 0 = λ1 v1 + . . . + λn vn + (−1)v linear abhängig.
126
7.5 Basis und Dimension
(iv) ⇒ (i): Ist B unverlängerbar linear unabhängig, so gibt es für jedes v ∈ V Koeffizienten λ1 , . . . , λn , λ ∈ K, so dass 0 = λ1 v1 + . . . + λn vn + λv, wobei mindestens eines
der λ1 , . . . , λn , λ 6= 0. Da (v1 , . . . , vn ) linear unabhängig sind, muss folglich λ 6= 0 gelten
und somit gilt
v=−
λn
λ1
v1 − . . . − vn .
λ
λ
Somit ist B ein Erzeugendensystem und linear unabhängig, d.h. eine Basis.
Daraus folgt direkt die Existenz einer Basis für endliche Vektorräume.
Satz 7.32 (Basisauswahlsatz)
Sei V ein endlich erzeugter Vektorraum. Dann kann man aus dem endlichen Erzeugendensystem eine endliche Basis auswählen.
Beweis. Sei das endliche Erzeugendensystem gegeben. Aus diesem entfernt man solange
Vektoren, bis es kein Erzeugendensystem mehr ist, d.h bis es unverkürzbar ist. Damit
ist die so entstanden Familie eine Basis.
Allgemeiner lässt sich zeigen, dass sogar jeder Vektorraum eine Basis besitzt. Dieser
Beweis ist aufwändiger und wir daher weggelassen.
Eine Basis zu einem Vektorraum ist nicht eindeutig. Vielmehr kann man viele verschiedenen Basen wählen. Man kann bei einer vorgegebenen Basis sogar geeignet Vektoren
austauschen und erhält erneut eine Basis. Betrachtet man zunächst nur den Austausch
eines Vektors, so findet man die folgende Aussage.
Satz 7.33 (Austauschlemma)
Sie V ein Vektorraum mit Basis B = (v1 , . . . , vn ) und w = λ1 v1 + . . . + λn vn ∈ V . Gilt
λk 6= 0 für k ∈ {1, . . . , n}, so ist auch B 0 = (v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) eine Basis von
V.
Beweis. Zu zeigen ist, dass B 0 eine Basis ist.
Erzeugendensystem: Wegen λk 6= 0 gilt für vk die Darstellung
vk =
λ1
λk−1
λk+1
λn
1
w − v1 − . . . −
vk−1 −
vk+1 − . . . − vn .
λk
λk
λk
λk
λk
und somit für einen beliebigen Vektor v = µ1 v1 + . . . + µn vn die Darstellung
v=
µ1
µk λ1
− λk
v1 + . . . +
v1 + . . . −
µk−1 vk−1
µk λk−1
vk−1
λk
+ µλkk w
+
−
µk+1 vk+1
µk λk+1
vk+1
λk
+... +
+... −
µn vn
µk λn
vn .
λk
Somit lässt sich ein beliebiger Vektor v ∈ V auch als Linearkombination der Familie
(v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) darstellen und B 0 ist ein Erzeugendensystem.
127
7 Vektorräume
Lineare Unabhängigkeit: Sei µ1 v1 + . . . + µk−1 vk−1 + µw + µk+1 vk+1 + . . . + µn vn = 0
mit Koeffizienten µ, µ1 , . . . , µn . Durch Einsetzen von w = λ1 v1 + . . . + λn vn findet man
0=
µ1 v1 + . . . + µk−1 vk−1
+ µk+1 vk+1 + . . . + µn vn
+µλ1 v1 + . . . + µλk−1 vk−1 +µλk vk + µλk+1 vk+1 + . . . + µλn vn
und, da B linear unabhängig ist, folglich für die Koeffizienten µλk = 0 sowie (µi +µλi ) = 0
für i 6= k. Da λk 6= 0 folgt zunächst µ = 0 und damit µi = 0 für i 6= k.
Möchte man gleich mehrere Vektoren austauschen, so findet man den Basisaustauschssatz von Steinitz.
Satz 7.34 (Basisaustauschsatz)
Sei V ein Vektorraum, B = (v1 , . . . , vn ) eine endliche Basis und (w1 , . . . , wr ) eine linear
unabhängige Familie von Vektoren.
Dann folgt:
(i) r ≤ n.
(ii) Man kann r Vektoren aus B durch w1 , . . . , wr austauschen, so dass man erneut
eine Basis erhält, d.h. nach evtl. Umnummerierung der (vi )1,...,n ist auch
(w1 , . . . , wr , vr+1 , . . . , vn )
eine Basis von V .
Beweis. Induktion über r:
Für r = 1: Sei ein linear unabhäniger Vektor w1 6= 0 gegeben. Die Basis enthält somit
auch mindestens einen Vektor (es gilt also 1 ≤ n) und gemäß des Austauschlemmas lässt
sich w1 für einen Vektor in der Basis ersetzen und erhält wieder eine Basis.
Sei nun r ≥ 2 und per Induktionsannahme die Aussage bewiesen für r − 1. Es müssen
zwei Dinge gezeigt werden.
(i) ”r ≤ n”: Nach Induktionsannahme gilt bereits r −1 ≤ n. Damit bleibt noch zu zeigen,
dass der Fall r−1 = n nicht eintreten kann. Dazu ein Widerspruchsbeweis: Angenommen,
es gälte r −1 = n. Entsprechend sind die Vektoren (w1 , . . . , wr−1 ) linear unabhängig und
nach Induktionsvoraussetzung kann man alle n Elemente der Basis (v1 , . . . , vn ) durch
die r −1 Vektoren (wi )1≤i≤r−1 ersetzen und erhält wieder eine Basis (w1 , . . . , wr−1 ). Eine
Basis ist aber unverlängerbar linear unabhängig und daher ist (w1 , . . . , wr−1 , wr ) linear
abhängig. Widerspruch.
(ii) ”(w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis”: Nach Induktionsvorausssetzung lassen sich
die (w1 , . . . , wr−1 ) derart austauschen, dass (nach evtl. Umnummerierung) auch
(w1 , . . . , wr−1 , vr , . . . , vn )
128
7.5 Basis und Dimension
eine Basis bilden. Somit kann man auch wr durch diese Basis als Linearkombination
wr = λ1 w1 + . . . + λr−1 wr−1 + λr vr + . . . + λn vn
ausdrücken. Dabei muss einer der Koeffizienten λr , . . . , λn nicht 0 sein, denn andernfalls wäre 0 = −wr + λ1 w1 + . . . + λr−1 wr−1 im Widerspruch zur linearen Unabhängigkeit. Gemäß dem Austauschlemma lässt sich der zugehörige Vektor durch wr
ersetzen. Nach geeigneter Umnummerierung sei dieser Vektor vr und somit ist auch
(w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis.
Die Aussage dieses Satzes lässt sich auch so verstehen, dass man linear unabhängige
Familien zu einer Basis auffüllen kann.
Satz 7.35 (Basisergänzungssatz)
Sei V ein endlich erzeugter Vektorraum. Dann lässt sich jede linear unabhängige Familie
(w1 , . . . , wr ) durch Hinzunahme geeigneter Vektoren zu einer Basis
(w1 , . . . , wr , vr+1 , . . . , vn )
ergänzen.
Beweis. Man wählt eine Basis (diese existiert gemäß Basisauswahlsatz) und wendet
den Basisaustauschsatz an.
Durch den Basisaustauschsatz ist auch geklärt, dass für jeden endlichen Vektorraum alle
Basen dieselbe Länge haben.
Satz 7.36 (Länge endlicher Basen)
Je zwei Basen eines endlichen Vektorraums haben gleiche Länge.
Beweis. Hat man zwei Basen der Länge n und m, so kann man den Basisaustauschsatz
zweimal anwenden und erhält n ≤ m und m ≤ n, also n = m.
Somit lässt sich definieren.
Definition 7.37 (Dimension)
Für einen K-Vektorraum V heißt
(
n,
falls V eine Basis der Länge n ∈ N besitzt,
dimK V :=
∞,
falls V keine endliche Basis besitzt,
die Dimension von V über K.
Beispiele 7.38
(i) Der Raum Rn hat Dimension n.
(ii) Die Vektorraum der Polynome hat Dimension dimR R[x] = ∞.
(iii) Der Vektorraum C, aufgefasst als Vektorraum über R, hat Dimension dimR C = 2.
129
8 Lineare Abbildungen und
Matrizen
8.1 Matrizen
Eine besondere Rolle sowohl in der linearen Algebra als auch der Analysis spielen lineare
Abbildungen. Auf endlich erzeugten Vektorräumen hängen diese eng mit sogenannten
Matrizen (rechteckige Zahlenschemata) zusammen. Um für den weiteren Verlauf dieses
Kapitels eine Anschauung zu entwickeln soll deshalb zunächst der Begriff der Matrix
sowie grundlegende Matrix-Vektor Operationen eingeführt werden.
Definition 8.1 (Matrix)
Eine m × n Matrix A, m, n ∈ N, mit Einträgen aij ∈ K, 1 ≤ i ≤ m, und 1 ≤ j ≤ n ist
ein rechteckiges Zahlenschema

a11
 a21

A = (aij ) =  ..
 .
a12
a22
..
.
am1 am2

. . . a1n
. . . a2n 

..  .
..
.
. 
. . . amn
Der Vektorraum aller m × n Matrizen mit Einträgen aus K wird als Km×n bezeichnet.
Dabei sei zu A, B ∈ Km×n , A = (aij ), B = (bij ) die Addition definiert als

a11
 a21

A + B = (aij ) + (bij ) =  ..
 .
a12
a22
..
.
am1 am2

a11 + b11
 a21 + b21

=
..

.
 
. . . a1n
b11 b12
 b21 b22
. . . a2n 
 
..  +  ..
..
..
.
.   .
.
. . . amn
bm1 bm2
a12 + b12
a22 + b22
..
.
...
...
...

. . . b1n
. . . b2n 

.. 
..
.
. 
. . . bmn

a1n + b1n
a2n + b2n
..
.
am1 + bm1 am2 + bm2 . . . amn + bmn




131
8 Lineare Abbildungen und Matrizen
sowie Multiplikation mit einem

a11
 a21

λA = λ(aij ) = λ  ..
 .
am1
Skalar λ ∈ K als
 
a12 . . . a1n
λa11 λa12


a22 . . . a2n   λa21 λa22
..
..  =  ..
..
..
.
.
.   .
.
am2 . . . amn
λam1 λam2

. . . λa1n
. . . λa2n 

..  .
..
.
. 
. . . λamn
Definiert man zu einer Matrix A ∈ Km×n und einem Spaltenvektor v ∈ Kn das Produkt

   
  
a11 a12 . . . a1n
v1
a11 · v1 + a12 · v2 + . . . + a1n · vn
w1
 a21 a22 . . . a2n   v2   a21 · v1 + a22 · v2 + . . . + a2n · vn   w2 

   
  
A · v =  ..
 =  ..  ,
..
..  ·  ..  = 
..
.
.
 .
  . 
.
.
.  . 
.
am1 am2 . . . amn
vn
am1 · v1 + am2 · v2 + . . . + amn · vn
wm
so erhält man eine Abbildung
f : Kn → Km ,
v 7→ A · v.
Durch Nachrechnen erkennt man, dass ein derart definiertes f folgende Eigenschaften
besitzt:
f (v + w) = f (v) + f (w),
f (λv) = λf (v).
Beispiele 8.2
Zu A = (aij ) ∈ Rm×n , v ∈ Rn , betrachte man die folgenden Beispiele:
(i) n, m = 1, A := 2 : Av = 2v = 2v1 .
(ii) n = 2, m = 1, A := 1 1 : Av = v1 + v2 .
1 0
1 · v1 + 0 · v2
= v.
(iii) (Identität) n = 2, m = 2, A :=
: Av =
0 · v1 + 1 · v1
0 1
0 −1
◦
(iv) (Rotation um 90 ) n = 2, m = 2, A :=
:
1 0
−v2
0 · v1 − 1 · v2
Av =
=
.
v1
1 · v1 + 0 · v2
Ausgehend von diesen Beobachtungen soll der allgemeinere Begriff der linearen Abbildung
definiert werden.
8.2 Lineare Abbildungen
Definition 8.3 (Lineare Abbildung)
Seien V und W zwei K-Vektorräume. Eine Abbildung f : V → W heißt lineare Abbildung, wenn gilt:
132
8.2 Lineare Abbildungen
(i) f (v + w) = f (v) + f (w) für alle v, w ∈ V .
(ii) f (λ · v) = λ · f (v) für alle v ∈ V und alle λ ∈ K
oder zusammengefasst
f (λ · v + µ · w) = λ · f (v) + µ · f (w)
∀v, w ∈ V, λ, µ ∈ K.
Statt linearer Abbildung sind auch die präziseren Begriffe K-lineare Abbildung oder
Homomorphismus von K-Vektorräumen gebräuchlich.
Dabei nennt man eine lineare Abbildung f : V → W
• Isomorphismus, falls f bijektiv ist,
• Endomorphismus, falls V = W ,
• Automorphismus, falls f bijektiv ist und außerdem V = W gilt.
Als direkte Folgerung aus der Definition der linearen Abbildungen lassen sich folgende
Eigenschaften ableiten:
Bemerkung 8.4
Seien V, W Vektorräume, f : V → W eine lineare Abbildung, so gilt:
a) f (0) = 0 und f (v − w) = f (v) − f (w).
b) f (λ1 v1 + ... + λn vn ) = λ1 f (v1 ) + ... + λn f (vn ).
c) Ist eine Familie (vi )i∈I in V linear abhängig, so ist auch (f (vi ))i∈I linear abhängig.
d) Ist V 0 ⊂ V ein Untervektorraum, so ist f (V 0 ) ⊂ W Untervektorraum.
e) dim(f (V )) ≤ dim(V ).
f) Ist f bijektiv (also ein Isomorphismus), so ist auch f −1 : W → V linear.
Beweis.
a) + b): Folgt durch einfaches Nachrechnen mit f (0) = f (0 · 0) und f (v − w) =
f (v + (−1)w).
c) ”Lineare Abhängigkeit” ⇒ ∃i1 , ..., in ∈ I und λ1 , ...λn ∈ K:
λ1 vi1 + ... + λn vin = 0,
wobei zumindest eines der λ1 , ..., λn 6= 0. Mit (b) folgt dann, dass auch
λ1 f (vi1 ) + ... + λn f (vin ) = 0
gilt.
d) Untervektorraumeigenschaften des Raums f (V 0 ) nachprüfen. Dazu betrachte man
Vektoren w, w0 ∈ f (V 0 ) und nutze die Eigenschaften der linearen Abbildung f .
e) Mit (c) folgt: Ist f (v1 ), ..., f (vn ) ∈ f (V ) linear unabhängig, so auch v1 , ..., vn ∈ V .
Die Dimension von V ist damit mindestens so groß wie die von f (V ).
133
8 Lineare Abbildungen und Matrizen
f) Es sei v, v 0 ∈ V , w := f (v), w0 := f (v 0 ). Mit
f (λv + µv 0 ) = λw + µw0
und v = f −1 (w) sowie v 0 = f −1 (w0 ) folgt nach Anwendung von f −1 schließlich
λf −1 (w) + µf −1 (w0 ) = f −1 (λw + µw0 ).
Häufig werden mehrere lineare Abbildungen hintereinander ausgeführt, also verkettet.
Nützlich ist hierbei folgende Bemerkung:
Bemerkung 8.5
Seien f : V → W und g : W → U lineare Abbildungen auf Vektorräumen V, W und U ,
so ist die Verkettung
f ◦ g : V → U,
v 7→ f (g(v)),
eine lineare Abbildung zwischen den Vektorräumen V und U .
Beweis. Es gilt:
(f ◦ g)(λv + µw) = f (g(λv + µw))
= f (λg(v) + µg(w))
= λf (g(v)) + µf (g(w))
= λ(f ◦ g)(v) + µ(f ◦ g)(w)
Im Umgang mit linearen Abbildungen sind die folgenden Begriffe besonders hilfreich:
Definition 8.6 (Bild und Kern)
Zu einer linearen Abbildung f : V → W nennt man
Im(f )
:= f (V ) = {f (v) | v ∈ V } ⊂ W
Kern(f ) := f −1 (0) = {v ∈ V | f (v) = 0} ⊂ V
das Bild von f,
den Kern von f.
Durch Nachprüfen der Untervektorraumeigenschaften sieht man, dass zu einer linearen
Abbildung f : V → W zwischen Vektorräumen V und W sowohl Im(f ) ⊂ W als auch
Kern(f ) ⊂ V jeweils Untervektorräume sind.
Definition 8.7 (Rang)
Ist f : V → W eine lineare Abbildung zwischen Vektorräumen V, W , so bezeichnet
Rang(f ) := dim Im(f )
die Dimension des Bilds von f .
Zu Beginn des Kapitels wurde gezeigt, dass Matrizen A ∈ Km×n lineare Abbildungen
zwischen den Vektorräumen Kn und Km beschreiben:
A : Kn → Km ,
v 7→ Av.
Der Rang einer Matrix A ∈ Km×n ist entsprechend gegeben als
Rang(A) = dim{Av | v ∈ Kn }.
134
8.3 Lineare Gleichungssysteme
8.3 Lineare Gleichungssysteme
In vielen Anwendungen ist man an Lösungen von sogenannten linearen Gleichungssystemen interessiert. Hierbei sucht man n Unbekannte die m lineare Bedingungen erfüllen.
Definition 8.8 (Lineares Gleichungssystem)
Für m, n ∈ N bezeichnet man für die n Unbekannten x1 , x2 , . . . , xn ∈ K und die Werte
b1 , . . . , bm ∈ K die m Gleichungen
a11 x1
a21 x1
..
.
+ a12 x2
+ a22 x2
..
.
+ . . . + a1n xn
+ . . . + a2n xn
..
.
= b1
= b2
..
.
am1 x1 + am2 x2 + . . . + amn xn = bm
als lineares Gleichungssystem. Die Zahlen aij ∈ K (1 ≤ i ≤ m, 1 ≤ j ≤ n) heißen
Koeffizienten. Das Gleichungssystem lässt sich auch kompakt schreiben als
n
X
für i = 1, . . . , m.
aij xj = bi ,
j=1
Alternativ lässt sich ein lineares Gleichungssystem in Matrixschreibweise darstellen. Sei
dazu A = (aij ) ∈ Km×n , b ∈ Km . Gesucht ist dann x ∈ Kn , so dass

  
a11 x1 + a12 x2 + . . . + a1n xn
b1
 a21 x1 + a22 x2 + . . . + a2n xn   b2 

  
A · x =  ..
..
..  =  ..  = b.
 .
.
.   . 
am1 x1 + am2 x2 + . . . + amn xn
bm
Bemerkung 8.9
Ob ein Gleichungssystem A · x = b mit A ∈ Km×n , x ∈ Kn , b ∈ Km lösbar ist hängt
von der Beschaffenheit der Matrix A beziehungsweise der durch sie definierten linearen
Abbildung ab. Betrachtet man die lineare Abbildung
f : Kn → Km ,
x → Ax,
so gilt:
(i) Ax = b lösbar
⇔
b ∈ Im(f ).
(ii) Ax = b besitzt eindeutige Lösung
⇔
b ∈ Im(f ) und Kern(f ) = {0}.
Beweis. (i) folgt direkt aus der Definition von Im(f ).
(ii) ”Eindeutige Lösung ⇒ Kern(f ) = {0} ”: Sei x∗ ∈ Kn die eindeutige Lösung von
Ax = b, und angenommen es existiert y ∈ Kern(f ), y 6= 0. Wegen Ay = 0 folt dann
135
8 Lineare Abbildungen und Matrizen
Ax∗ + Ay = b und damit A(x∗ + y) = b. Damit wäre aber auch (x∗ + y) eine Lösung.
Widerspruch zur Annahme.
”b ∈ Im(f ) und Kern(f ) = {0} ⇒ Eindeutigkeit”: Wegen b ∈ Im(f ) existiert x∗ ∈ Kn :
Ax∗ = b. Angenommen es existierte noch eine weitere Lösung y ∈ Kn , y 6= x∗ : Ay = b.
Dann ließe sich y schreiben als y = x∗ + z mit z ∈ Kn , z 6= 0. Damit würde dann aber
gelten:
Ay = b
⇔ A(x∗ + z) = b
⇔ Ax∗ + Az = b
⇔ Az = 0
und damit z ∈ Kern(f ). Widerspruch zur Annahme.
Um eine Anschauung zu entwickeln soll der Einsatz von linearen Gleichungssystemen
im Folgenden bei der Berechnung von Schnittpunkten zwischen Ebenen im R3 gezeigt
werden. Eine Ebene im R3 lässt sich über eine lineare Gleichung beschreiben
E := {x ∈ R3 | a1 x1 + a2 x2 + a3 x3 = b},
mit Koeffizienten ai ∈ R, i = 1, 2, 3 und rechter Seite b ∈ R. Um den Schnittpunkt
dreier Ebenen E1 , E2 , E3 im R3 zu berechnen, muss dementsprechend x ∈ R3 gefunden
werden, so dass gilt:
a11 x1 + a12 x2 + a13 x3 = b1
a21 x1 + a22 x2 + a23 x3 = b2
a31 x1 + a32 x2 + a33 x3 = b3
(E1 )
(E2 )
(E3 )
oder kurz
A · x = b,
mit A = (aij ) ∈ R3×3 und x = (xi ) ∈ R3 , b = (bi ) ∈ R3 . Seien zum Beispiel
E1 := {x ∈ R3 | 2x1 + x2 + 3x3 = 8},
E2 := {x ∈ R3 | 2x1 + 2x2 + 4x3 = 12},
E3 := {x ∈ R3 | − 4x1 + 4x2 + 6x3 = 14}.
Fasst man die Koeffizienten in der
b ∈ R3 zusammen, so lässt sich das

2

2
A·x=
−4
Matrix A ∈ R3×3 und die rechte Seite im Vektor
Gleichungssystem schreiben als
    
1 3
x1
8




2 4 · x2 = 12 = b.
4 6
x3
14
Um die Schnittmenge der Ebenen zu bestimmen, muss also die Lösungsmenge dieser
Matrixgleichung gefunden werden.
136
8.4 Gauß-Elimination
8.4 Gauß-Elimination
Existiert eine Lösung eines linearen Gleichungssystems, so lässt sich diese mit dem Eliminationsverfahren von Gauß finden. Dabei formt man Matrix und rechte Seite geeignet
um, so dass sich bei gleichbleibender Lösung eine Zeilenstufenform der Matrix ergibt,
aus der man die Lösung durch einfaches Einsetzen ablesen kann.
Beispielhaft sei hier die Berechnung des Schnittpunktes der drei Ebenen aus obigem
Beispiel durchgeführt. Ausgehend von den drei Gleichungen
2x1 + x2 + 3x3 = 8
2x1 + 2x2 + 4x3 = 12
−4x1 + 4x2 + 6x3 = 14
(i)
(ii)
(iii)
erhält man durch Addition des Vielfachen einer Gleichung zu den anderen zunächst
2x1 +
x2 + 3x3 = 8
x2 + x3 = 4
6x2 + 12x3 = 30
(i)
(ii := ii + (−1) · i)
(iii := iii + 2 · i)
und schließlich die sogenannte Zeilenstufenform
2x1 + x2 + 3x3 = 8
x2 + x3 = 4
6x3 = 6
(i)
(ii)
(iii := iii + (−6) · ii)
Nun lässt sich die Lösung direkt von unten nach oben ablesen. Denn durch einfaches
Dividieren findet man aus (iii) nun zunächst x3 = 1. Einsetzen von x3 in (ii) und
Umformen ergibt x2 = 3 und schließlich Einsetzen von x2 und x3 in (i) und Umformen
x1 = 1.
Man rechnet zudem leicht nach, dass
Gleichungssystem

2 1

Ã · x = 0 1
0 0
auch die Lösung des ursprünglichen

2

2
A·x=
−4
die Lösung xT = (1, 3, 1) des so umgeformten
    
3
x1
8




1 · x2 = 4 = b̃
6
x3
6
Gleichungssystem
    
1 3
x1
8




2 4 · x2 = 12 = b
4 6
x3
14
ist. Dieses Vorgehen bezeichnet man als Gauß-Elimination, es lässt sich auf beliebige
Matrizen A ∈ Rm×n anwenden und soll nun im Folgenden systematisch untersucht
werden.
137
8 Lineare Abbildungen und Matrizen
Die Lösungsmenge eines linearen Gleichungssystems
Ax = b
lässt sich ganz allgemein schreiben als
L(A, b) := {x ∈ Rn | Ax = b}.
Ist dieses Menge leer, so ist das Gleichungssystem nicht lösbar. Enthält sie genau einen
Vektor, so ist dies eine eindeutige Lösung. Gibt es mehr als ein Element in der Lösungsmenge, so hat das Gleichungssystem mehr als einen Lösung.
Das Ziel des Algorithmus von Gauß ist es, diese Menge zu bestimmen. Dazu schreibt
man das zu lösende Gleichungssystem oftmals der Einfachheit halber als erweiterte Koeffizientenmatrix


a11 a12 . . . a1n b1
 a21 a22 . . . a2n b2 


(A, b) =  ..
..
..
..  .
.
.
 .
.
.
.
. 
am1 am2 . . . amn bm
Nun stellt man zunächst direkt fest, dass es Gleichungssysteme gibt, die sich besonders
einfach lösen lassen. Diese haben die folgende Gestalt, bei der das untere Dreieck der
Matrix nur aus Nullen besteht.
Definition 8.10 (Zeilenstufenform)
Eine Matrix A ∈ Rm×n besitzt Zeilenstufenform, falls es einen Zahl r (0 ≤ r ≤ m) gibt,
so dass
(i) in den Zeilen 1, . . . , r nicht nur Nullen stehen und in den Zeilen r + 1, . . . , m nur
Nullen,
(ii) die nicht-Null Einträge mit dem kleinsten Spaltenindex ji := min{j | aij 6= 0}
(sogenannte Pivots) die Bedingung
j1 < j2 < . . . < jr
erfüllen.
Die Matrix hat somit die Gestalt

0 . . . 0 a1j1 ∗ . . . ∗ ∗

0 . . . . . . 0 a2j2 . . .


0 . . . 0 a3j3 ∗ . . .

...


A=
arjr ∗


0
0 ...


..

.
0 ...
138

... ∗
... ∗ 

... ∗ 
.. 

. 
,
... ∗ 

... 0 
.. 
. 
... 0
8.4 Gauß-Elimination
wobei an mit ∗ gekennzeichneten Stellen sowohl von Null verschiedenen Einträge als auch
Nullen stehen dürfen, unterhalb der eingezeichneten Linie jedoch nur Nullen stehen.
Durch Vertauschen von Spalten lässt sich zudem immer erreichen, dass die Pivots auf der
Diagonalen der Matrix stehen, d.h. das j1 = 1, j2 = 2, . . . , jr = r gilt. Bei der Spaltenvertauschung werden die Unbekannten xi vertauscht. Führt man solche Vertauschungen
durch, muss man sich daher diese Veränderungen merken und nachher die Lösung entsprechend umnennen. Hat man jedoch ein Gleichungssystem in dieser Form, so lassen
sich die Lösungen direkt ausrechnen.
Satz 8.11 (Lösungen einer Matrix in Zeilenstufenform)
Sei eine lineares Gleichungssystem in Zeilenstufenform gegeben mit


a11 a12 . . .
. . . a1n b1
 0 a22 . . .
. . . a2n b2 
 .
.. . .
..
.. 

 .
.
.
.
. 
 .


0 . . . arr . . . arn br  .
(A, b) =  0


0 . . . 0 . . . 0 br+1 
 0
 .
..
.. 
 ..
.
. 
0
0 ... 0 ... 0
bm
(i) Gibt es ein bi 6= 0, r + 1 ≤ i ≤ m, so ist das Gleichungssystem nicht lösbar.
(ii) Sind alle bi = 0, r+1 ≤ i ≤ m, so lässt sich das Gleichungssystem rekursiv auflösen.
Beweis. (i) Ist bi 6= 0, so lautet die i-te Gleichung
0 · x1 + 0 · x2 + . . . + 0 · xn = bi 6= 0
und keine Wahl von x kann diese Gleichung lösen.
(ii) Die Variablen xr+1 , . . . , xn sind freie Variablen und können einen beliebigen Wert
annehmen. Daher wird ihnen ein freier Parameter λ1 , . . . , λk mit k := n − r zugewiesen:
xr+1 = λ1 , xr+2 = λ2 , . . . , xn = λk .
Damit lassen sich nun die übrigen abhängigen Variablen x1 , . . . , xr als eine Lösung dieser
Parameter angeben. Dazu geht man von unten nach oben vor. Zunächst berechnet man
ausgehend von der r-ten Gleichung
arr xr + ar,r+1 xr+1 + ar,r+2 xr+2 + . . . + ar,n xn = br
durch Einsetzen der bekannten xr+1 , . . . , xn den Wert für xr zu
arr xr + ar,r+1 λ1 + ar,r+2 λ2 + . . . + ar,n λk = br
1
(b2 − ar,r+1 λ1 − ar,r+2 λ2 − . . . − ar,n λk ).
⇔ xr =
arr
139
8 Lineare Abbildungen und Matrizen
Somit sind nun die xr , . . . , xn bekannt und auch die r − 1-te Gleichung
ar−1,r−1 xr−1 + ar−1,r xr + ar−1,r+1 xr+1 + ar−1,r+2 xr+2 + . . . + ar−1,n xn = br−1
kann analog verwendet werden, um xr−1 zu berechnen. Diese Verfahren führt man bis
zum Index r = 1 durch und erhält somit eine Parametrisierung der Lösung.
Man sieht folglich, dass sich Matrizen in Zeilenstufenform direkt lösen lassen. Die Idee
des Verfahrens von Gauß ist es nun ein beliebiges Gleichungssystem durch Umformungen in ein Gleichungssystem in Zeilenstufenform zu überführen, ohne dass sich dabei die
Lösungsmenge ändert. Wesentlich sind dabei die sogenanten elementaren Zeilenumformungen.
Definition 8.12 (elementare Zeilenumformungen)
Eine elementare Zeilenumformung ist eine der folgenden drei Operationen
(I) Vertauschung von zwei Zeilen.
(II) Multiplikation einer Zeile mit einer Zahl λ 6= 0.
(III) Addition des λ-fachen einer Zeile zu einer anderen (λ 6= 0).
Führt man diese Operationen auf einem Gleichungssystem aus, so bleibt die Lösungsmenge gleich.
Satz 8.13
Sei (Ã, b̃) durch endlich viele elementare Zeilenumformungen aus dem Gleichungssystem (A, b) entstanden. Dann haben beiden Gleichungssysteme dieselbe Lösungsmenge
L(A, b) = L(Ã, b̃).
Beweis. Es genügt zu zeigen, dass sich die Lösungsmenge bei jeder elementaren Zeilenumformung nicht ändert. Dann ist auch die mehrfache Hintereinanderausführung problemlos möglich.
Die Umformung (I) ändert die Lösungsmenge sicher nicht, denn die Reihenfolge in der
die Gleichungen notiert werden ist für die Lösung irrelevant.
Die Umformung (II) ändert die Lösungsmenge nicht, denn erfüllt eine Lösung x =
(x1 , . . . , xn ) die Gleichung
ai1 x1 + . . . + ain xn = bi ,
so auch die Gleichung
λai1 x1 + . . . + λain xn = λbi .
Umgekehrt sieht man durch Multiplikation mit λ−1 , dass jede Lösung der zweiten Gleichung auch Lösung der ersten Gleichung ist. Somit ist jede Lösung der einen Gleichung
auch Lösung der anderen und die Lösungsmenge ist identisch.
140
8.4 Gauß-Elimination
Die Umformung (III) ändert die Lösungsmenge ebenfalls nicht, denn die beiden Gleichungssysteme
ai1 x1 + . . . + ain xn = bi
ak1 x1 + . . . + akn xn = bk
und
ai1 x1 + . . . + ain xn = bi
(ak1 + λai1 )x1 + . . . + (akn + λain )xn = bk + λbi
haben diesselbe Lösungsmenge. Dies sieht man erneut dadurch, dass man Lösungen des
einen Gleichungssystems in Lösungen des zweiten überführen kann und umgekehrt.
Es lässt sich nun aber jedes Gleichungssystem mittels den elementaren Zeilenumformungen in ein äquivalentes Gleichungssystem in Zeilenstufenform überführen.
Satz 8.14 (Umformungssatz von Gauß)
Jede Matrix A lässt sich durch elementare Zeilenumformungen in eine Matrix Ã in
Zeilenstufenform umformen.
Beweis. Sind alle Einträge der Matrix A ∈ Rm×n gleich Null, so liegt per Definition
schon eine Zeilenstufenform mit r = 0 vor und der Satz ist direkt gezeigt. Sei daher mindestens ein Eintrag der Matrix von Null verscheiden und somit gibt es auch mindestens
einen Spalte, in der nicht alle Einträge Null sind. Damit kann man sich diejenige solche
Spalte mit kleinstem Index suchen, d.h. j1 = min{j | für mindestens ein i gilt aij 6= 0}.




A=



0 ...
..
.
..
.
..
.
0
0
..
..
.
.
..
. ai1 ,j1
..
..
.
.
0 ... 0
∗
∗ ... ... ∗


∗ ... ... ∗ 

∗ ... ... ∗ 
.

∗ ... ... ∗ 
∗ ... ... ∗
In der j1 -ten Spalte ist somit mindestens ein Eintrag ungleich Null. Falls dies nicht
bereits der Eintrag a1,j1 der ersten Zeile ist, so findet man eine Zeile i1 bei der ai1 ,j1 6= 0
gilt und durch Vertauschung der i1 -ten Zeile mit der ersten Zeile erhält man einen von
Null verschiedenen Pivot ã1,j1 = ai1 ,j1 . Durch diese elementare Zeilenumformung vom
Typ (I) erhält man somit die erste Zeile der Matrix Ã.


0 . . . 0 ã1,j1 ∗ . . . . . . ∗
..
..
 ..

 .
.
.
∗ ... ... ∗ 
 .

..
Ã = 
.
∗ ∗ ... ... ∗ 
 ..
.
 .

..
..
 ..
.
.
∗ ... ... ∗ 
0 ... 0 ∗ ∗ ... ... ∗
141
8 Lineare Abbildungen und Matrizen
Nun kann man die unterhalb von ã1,j1 stehenden Einträge zu Null machen, indem man
die elementare Zeilenumformung vom Typ (II) auf jede der Zeilen anwendet und jeweils
ein Vielfaches der ersten Zeile hinzuaddiert. Dabei wählt man für den Eintrag der k-ten
Zeile den Faktor λ so, dass gilt
ak,j
ak,j1 + λã1,j1 = 0 ⇒ λ = − 1 .
ã1,j1
Damit erhält man eine Matrix der Form


0 . . . 0 ã1,j1 ∗ . . . . . . ∗
..
 ..

 .

.
0
 .

.
.
.
.
.
.
Ã1 = 
.
.
.
A


2
 .

..
..
 ..

.
.
0 ... 0 0
Nun kann man die Untermatrix A2 ∈ Rm−1×n−j1 betrachten und dasselbe Verfahren auf
diese anwenden. Damit ergibt sich die zweite Zeile der gesuchten Matrix und man erhält


0 . . . 0 ã1,j1 ∗ . . . . . . ∗
..
 ..

 .
.
0 0 ã2,j2 . . . ∗ 
 .

..
..
.
.
Ã1 = 
.
.
.
0


 .

..
..
 ..

.
.
0
A3
0 ... 0 0 0
Nach diesem Muster fährt man fort bis entweder eine Untermatrix vorliegt, die nur
Null Einträge besitzt, oder bis keine Untermatrix mehr übrig bleibt, da die Anzahl der
Zeilen/Spalten mit jedem Schritt abnehmen.
Somit kann nun das gesamte Vorgehen angeben werden.
Definition 8.15 (Eliminationsverfahren von Gauß)
Sei das lineare Gleichungssystem Ax = b mit A ∈ Rm×n , x ∈ Rn , b ∈ Rm gegeben. Der
Eliminationsverfahren von Gauß bestimmt die Lösungsmenge L(A, b) durch folgendes
Vorgehen:
(a) Notiere die Koeffizientenmatrix (A, b).
(b) Überführe diese durch elementare Zeilenumformungen in (Ã, b̃) mit einer Matrix
Ã in Zeilenstufenform.
(c) Bestimme anhand der b̃r+1 , . . . , b̃m , ob einen Lösung exisiert und bestimme diese
gegebenenfalls durch Berechnung der Parametrisierung.
Beispiel 8.16 (i) Das
Vorgehen:

2 1
 2 2
−4 4
142
Beispiel vom Anfang des Kapitels liest sich somit als folgendes





3 8
2 1 3 8
2 1 3 8
(III)
(III)
4 12  →  0 1 1 4  →  0 1 1 4 
6 14
0 6 12 30
0 0 6 6
8.4 Gauß-Elimination
(ii)




0 3 1 2 4
1 2 3 3 1
1
(I)
 2 7 7 8 6  (III)
 2 7 7 8 6 →
→  0
0
1 2 3 3 1
0 3 1 2 4




2 3 3 1
1 2 3 3 1
(III)
3 1 2 4  →  0 3 1 2 4 
3 1 2 4
0 0 0 0 0
Da für b̃3 = 0 gilt, lässt sich dieses Gleichungssystem lösen. Setzt man x3 = λ1
und x4 = λ2 mit den freien Parametern λ1 , λ2 ∈ R, so erhält man zunächst durch
Einsetzen in die zweite Gleichung
0x1 + 3x2 + 1λ1 + 2λ2 = 4
⇒
2
1
x2 = 4 − λ1 − λ2 .
3
3
Durch Einsetzen in die erste Gleichung erhält man schließlich
1
2
1x1 + 2(4 − λ1 − λ2 ) + 3λ1 + 3λ2 = 1
3
3
⇒
7
5
x1 = −7 − λ1 − λ2 .
3
3
Die Lösungsmenge sieht dementsprechend folgendermaßen aus


−7 − 73 λ1 − 53 λ2
 4 − 1 λ1 − 2 
3
3
 ∈ R4 | λ1 , λ2 ∈ R}.
L(A, b) = {


λ1
λ2
143
Literaturverzeichnis
[Braunß]
H.-A. Braunß, H. Junek, T. Krainer: Grundkurs Mathematik
in den Biowissenschaften, Wirkhäuser Verlag (Basel, Boston,
Berlin), 2007
[Ebbinghaus]
H.-D. Ebbinghaus et. al, Zahlen, Springer Verlag (Berlin, Heidelberg), 3. Auflage, 1992 (ISBN 3-540-55654-0)
[Fischer]
G. Fischer: Lineare Algebra, Springer Spektrum (Wiesbaden),
2014 (ISBN 3-658-03944-8)
[Forster]
O. Forster: Analysis 1 (Differential- und Integralrechnung einer
Veränderlichen), Vieweg Verlag (Wiesbaden), 2008 (ISBN 3528-67224-2)
[Jänich]
K. Jänich: Lineare Algebra, Springer (Berlin, Heidelberg), 2008
(ISBN 3-540-75501-2)
[Königsberger]
K. Königsberger: Analysis 1, Springer Verlag (Berlin, Heidelberg), 2004 (ISBN 3-540-58876-0)
145