Analysis und lineare Algebra f¨ur die Informatik

Analysis und lineare Algebra für die Informatik
Amin Coja-Oghlan
[email protected]
12. Februar 2014
Zusammenfassung
Inhalt dieser Vorlesung sind die Grundlagen der Linearen Algebra und der Analysis. Die Vorlesung
ist angelehnt an Standardtexte zu diesen Themen wie insbesondere [1, 2, 3, 5]. Die Themen der Veranstaltung sind (nicht notwendigerweise in dieser Reihenfolge):
• Vektorräume, lineare Abbildungen und Matrizen.
• Skalarprodukt und Orthogonalität.
• Orthonormalbasen und Orthogonalprojektion.
• Symmetrische Matrizen, quadratische Formen, Singulärwertzerlegung.
• Eigenwerte und Eigenvektoren.
• Lokale lineare Approximation und Differentialkalkül.
• Lokale Approximation der Ordnung zwei.
• Integration.
• Die komplexe Zahlenebene und Euler-Formel.
• Exponentialfunktion, Logarithmus, trigonometrische Funktionen.
• Fourierreihen und Geometrie in Funktionenräumen.
• Jacobimatrix, Volumen und Determinante.
• Lineare dynamische Systeme.
1
Grundbegriffe
Dieser Abschnitt faßt einige Konzepte zusammen, die aus der Schulmathematik bekannt sein sollten.
In der Vorlesung werden die Begriffe der (naiven) Mengenlehre benutzt. Insbesondere bezeichnet N =
{1, 2, 3, . . .} die Menge der natürlichen Zahlen, Z = {0, −1, 1, −2, 2, . . .} die Menge der ganzen Zahlen,
Q die Menge der rationalen und R die Menge der reellen Zahlen.
Seien A, B Mengen. Die Schreibweise x ∈ A bedeutet, daß x ein Element der Menge A ist. Ferner
bedeutet A ⊂ B, daß A eine (nicht notwendigerweise echte) Teilmenge von B ist, d.h. jedes Element
von A ist auch ein Element von B. Mit A ∪ B bezeichnen wir die Vereinigung von A und B; dies ist die
Menge aller Element, die in A oder in B enthalten sind. Außerdem ist A ∩ B der Durchschnitt von zwei
Mengen, d.h. die Menge aller Elemente, die in A und B enthalten sind. Mit A \ B, gesprochen A ohne B,
bezeichnen wir die Menge aller Elemente von A, die nicht Element von B sind. Schließlich ist A × B die
Produktmenge von A und B, d.h. die Menge aller geordneten Paare (x, y) mit x ∈ A und y ∈ B.
Sind f : A → B, x 7→ f (x) und g : B → C, y 7→ g(y) Abbildungen, so bezeichnen wir mit g ◦ f die
Abbildung A → C, x 7→ g(f (x)). Eine Abbildung f : A → B heißt injektiv, falls für je zwei verschiedene
Elemente x, x0 ∈ A gilt, daß f (x) 6= f (x0 ). Ferner heißt f surjektiv, falls es zu jedem y ∈ B ein x ∈ A
mit f (x) = y gibt. Eine Abbildung, die sowohl injektiv als auch surjektiv ist, heißt bijektiv.
Für eine Abbildung f : A → B und eine Teilmenge Z ⊂ A ist f (Z) = {f (z) : z ∈ Z} das Bild von
Z unter f . Umgekehrt bezeichnen wir für C ⊂ B mit f −1 (C) die Menge aller x ∈ A mit f (x) ∈ C. Wir
nennen f −1 (C) die Urbildmenge von C. Falls f eine bijektive Abbildung ist, so hat für jedes y ∈ B die
1
1
GRUNDBEGRIFFE
2
Menge f −1 ({y}) genau ein Element x und wir schreiben einfach x = f −1 (y). Die Abbildung f −1 : B →
A, y 7→ f −1 (y) ist in diesem Fall ebenfalls bijektiv und heißt die Umkehrabbildung von f .
Für eine Menge B und eine Zahl k ∈ N bezeichnen wir mit B k die Menge aller Abbildugen f :
{1, . . . , k} → B. Anstelle der Notation f : A → B, a 7→ f (a) schreiben wir mitunter etwas lax
(f (a))a∈A . Diese Notation wird häufig verwendet, wenn A = {1, 2, 3, . . . , k} für eine Zahl k ∈ N.
Insbesondere schreiben wir die Elemente f der Menge B k als (f (1), . . . , f (k)); sie werden auch k-Tupel
(und im Fall k = 2 Paare und im Fall k = 3 Tripel) genannt. Allgemeiner bezeichnen wir mit B A die
Menge aller Abbildungen f : A → B.
Ist (Ai )i∈I eine Abbildung, die Elementen einer Menge I Teilmengen Ai einer Menge A zuordnet, so
bezeichnet
[
Ai = {x ∈ A : es gibt ein i ∈ I mit x ∈ Ai }
i∈I
die Vereinigung aller Mengen Ai . Analog ist
\
Ai = {x ∈ A : für alle i ∈ I gilt x ∈ Ai }
i∈I
der Durchschnitt aller Ai .
Mit ∅ bezeichnen wir die leere Menge. Eine endliche Menge ist eine Menge A mit einer der beiden
folgenden Eigenschaften:
• A = ∅.
• Für eine Zahl k ∈ N existiert eine bijektive Abbildung f : {1, 2, . . . , k} → A.
Mit |A| bezeichnen wir die Größe, auch genannt die Mächtigkeit oder Kardinalität, einer endlichen Menge
A, definiert als
• |A| = 0, falls A = ∅.
• |A| = k, falls zu k ∈ N eine bijektive Abbildung f : {1, 2, . . . , k} → A existiert.
Falls A nicht endlich ist, schreibt man |A| = ∞.
Sei f : A → R eine Abbildung von einer endlichen Menge A 6= ∅ in die reellen Zahlen. Dann existiert
eine Bijektion g : {1, . . . , k} → A, wobei k ∈ N. Wir definieren die Summe
X
f (a) = f (g(1)) + f (g(1)) + · · · + f (g(k)).
a∈A
und das Produkt
Y
f (a) = f (g(1)) · f (g(2)) · · · f (g(k)).
a∈A
Falls A die leere Menge ist, interpretieren wir die Summe als 0 und das Produkt als 1.
Wir benötigen die Beweismethode der Induktion. Die Grundlage des Induktionsprinzips ist folgende
Tatsache.
Jede nicht-leere Menge natürlicher Zahlen enthält eine kleinste Zahl.
Aus dieser Tatsache folgt
Lemma 1.1 (“Induktionsprinzip”) Angenommen eine Menge A ⊂ N hat die beiden folgenden Eigenschaften.
i. 1 ∈ A.
ii. Wenn 1, . . . , n ∈ A, dann gilt auch n + 1 ∈ A.
Dann gilt A = N.
1
GRUNDBEGRIFFE
3
Beweis. Angenommen A 6= N. Dann ist die Menge B = N \ A nicht leer. Folglich gibt es eine kleinste
Zahl x ∈ B. Aufgrund von i. ist x 6= 1. Ferner gilt 1, . . . , x − 1 ∈ A, weil x ja die kleinste Zahl in B ist.
Nach ii. gilt also x ∈ A, im Widerspruch zu unserer Annahme, daß x ∈ B.
2
Das Induktionsprinzip ermöglicht uns, Beweise nach folgendem Schema zu führen.
i. Zeige, daß die Behauptung für n = 1 stimmt.
ii. Weise ferner nach, daß die Behauptung für n + 1 gilt, wenn sie für 1, . . . , n gilt.
Dann folgt die Behauptung für alle n ∈ N.
Als Beispiel zeigen wir
Lemma 1.2 (“Binomischer Lehrsatz”) Für x, y ∈ R und n ∈ N gilt
n
(x + y)
=
n X
n
i=0
n
=
i
i
xi y n−i ,
n!
i!(n − i)!
wobei
mit
k! =
k
Y
für k ∈ N.
j
j=1
Beweis. Wir
führen Induktion über n. Im Fall n = 1 ist die linke Seite einfach gleich x + y. Die Rechte
Seite ist 10 x + 11 y = x + y, also stimmt die Gleichung.
Für den Induktionsschritt nehmen wir nun an, daß die Formel für (x + y)n stimmt und zeigen, daß dies
auch für (x + y)n+1 der Fall ist. Es gilt
(x + y)
n+1
=
n
(x + y) · (x + y) = (x + y) ·
n X
n
i=0
=
n X
n
i
i=0
xi+1 y n−i +
n X
n
i=0
xi y n−i
[nach Induktion]
xi y n−i+1
n X
n
n i n+1−i
xi+1 y n+1−(i+1) +
xy
(i
+
1)
−
1
i
i=0
i=0
n+1
n X n X
n i n+1−i
=
xj y n+1−j +
xy
j−1
i
j=1
i=0
n X
n
n
n+1
= x
+
+
xj y n+1−j + y n+1 .
j
−
1
j
j=1
=
n X
i
i
(1)
Ferner haben wir
n!
n!(n + 1 − j + j)
n+1
n
n
n!
+
=
=
.
+
=
j!(n − j)! (j − 1)!(n + 1 − j)!
j!(n + 1 − j)!
j
j
j−1
Setzen wir dies in (1) ein, so erhalten wir
(x + y)
n+1
=x
n+1
+
n X
n+1
j=1
wie behauptet.
j
j n+1−j
x y
+y
n+1
=
n+1
X
k=0
n + 1 k n+1−k
x y
,
k
2
2
2
VEKTORRÄUME UND LINEARE ABBILDUNGEN
4
Vektorräume und lineare Abbildungen
Das Hauptziel der ersten Hälfte dieser Vorlesung ist das Verständnis linearer Abbildungen. Dies ist ein Typ
von Abbildung (oder “Funktion”), den wir in der Tat sehr gut verstehen. Deshalb befaßt sich die zweite
Hälfte der Vorlesung in etwa damit, wie man Abbildungen, die nicht linear sind, durch lineare Abbildungen
annähern kann (“was nicht linear ist, wird linear gemacht”).
Um den Begriff der linearen Abbildung einzuführen, müssen wir beschreiben, was sie wohin abbildet.
Diese Objekte sind “Vektoren”. In diesem Abschnitt geben wir eine einfache aber zunächst ausreichende
Definition dieses Begriffs: ein Vektor x ist ein n-Tupel reeller Zahlen, das wir als Spalte schreiben:


x1
 x2 


x =  . .
 .. 
xn
Die Zahlen x1 , . . . , xn heißen die Komponenten des Vektors. Wir führen zwei Rechenregeln für Vektoren
ein: für x, y ∈ Rn definieren wir


x1 + y1
 x2 + y2 


x+y =
.
..


.
xn + yn
Mit anderen Worten:
Zwei Vektoren werden addiert, indem die einzelnen Komponenten als reelle Zahlen addiert
werden.
Außerdem definieren wir für eine reelle Zahl a und einen Vektor x ∈ Rn


a · x1
 a · x2 


a·x=
.
..


.
a · xn
Das bedeutet:
Eine Zahl wird mit einem Vektor multipliziert, indem jede einzelne Komponente mit der Zahl
multipliziert wird.
Wir definieren für x, y ∈ Rn außerdem



x − y = x + (−1) · y = 

x1 − y1
x2 − y2
..
.
xn − yn








und − y = (−1) · y = 

−y1
−y2
..
.



.

−vn
Vektoren werden also komponentenweise subtrahiert. Die Subtraktion x − y ist genaugenommen keine
neue Operation, sondern nur eine “Kurzschreibweise”, weil sie einfach auf die beiden anderen Operationen
(Multiplikation mit einer Zahl und Addition von Vektoren) zurückgeführt wird.
Ein besonders einfacher Vektor ist der Nullvektor, für den wir das Symbol 0 verwenden. Dies ist der
Vektor
 
0
 0 
 
0 =  . ,
 .. 
0
2
VEKTORRÄUME UND LINEARE ABBILDUNGEN
5
dessen Komponenten sämtlich gleich 0 sind. Der Nullvektor hat die Eigenschaft, daß x + 0 = x für jeden
Vektor x.
Natürlich kann man Mengen von Vektoren bilden (und das werden wir auch oft tun). Aber von besonderem Interesse sind Mengen, die mit den soeben definierten Operationen “verträglich sind”.
Definition 2.1 Wir nennen eine Menge E einen Vektorraum, falls die folgenden Bedingungen erfüllt sind.
V0. Es gibt eine natürliche Zahl n, so daß E ⊂ Rn . Außerdem gilt E 6= ∅.
V1. Falls x, y ∈ E, dann gilt auch x + y ∈ E.
V2. Falls x ∈ E, dann gilt für jede reelle Zahl a auch a · x ∈ E.
Mit anderen Worten: ein Vektorraum ist eine nicht-leere Menge von Vektoren in Rn , aus der man mit
den oben definierten Operationen + und · nicht “herausfallen kann”. Insbesondere enthält jeder Vektorraum E den Nullvektor. Um das einzusehen, sei x ∈ E ein Vektor. Nach V2 gilt dann auch 0 · x = 0 ∈ E.
Beispiel 2.2
1. Für jede natürliche Zahl n ist die Menge Rn ein Vektorraum.
2. Für je zwei natürliche Zahlen 1 ≤ k ≤ n ist die Menge
E = {x ∈ Rn : x1 = · · · = xk = 0}
ein Vektorraum.
3. Für jede reelle Zahl a ist die Menge
E = x ∈ R2 : x 2 = a · x 1
ein Vektorraum.
Der Vektorraumbegriff gibt Anlaß zur folgenden Kennzeichung besonderer Teilmengen eines Vektorraumes E, die ebenfalls mit den Operationen + und · verträglich sind.
Definition 2.3 Sei E ein Vektorraum. Wir nennen eine Teilmenge F Untervektorraum von E, falls folgende Bedingungen erfüllt sind.
U0. Es gilt ∅ =
6 F ⊂ E.
U1. Falls x, y ∈ F , dann gilt auch x + y ∈ F .
U2. Falls x ∈ F , dann gilt für jede reelle Zahl a auch a · x ∈ F .
Ein Untervektorraum eines Vektorraums ist also selbst wieder ein Vektorraum.
Beispiel 2.4
1. Der Vektorraum R hat nur zwei Untervektorräume: sich selbst und die Menge {0}, die
nur den Nullvektor enthält.
2. Die Untervektorräume von R2 sind genau die Mengen {0},
Fa = x ∈ R 2 : x 2 = a · x 1
mit a ∈ R,
F∞ = {(0, y) : y ∈ R} ,
(2)
und der gesamte Vektorraum R2 selbst. Geometrisch gesprochen sind die Mengen in (2) nichts anderes als die Geraden durch 0.
3. Die Untervektorräume des R3 sind entsprechend die Mengen {0} und R3 selbst sowie die Geraden
und Ebenen durch 0.
Wir kommen nun zum Hauptbegriff, um den sich der erste Teil der Vorlesung dreht.
2
VEKTORRÄUME UND LINEARE ABBILDUNGEN
6
Definition 2.5 Seien E, E 0 Vektorräume. Eine Abbildung f : E → E 0 heißt linear, falls sie die folgenden
Bedingungen erfüllt.
L1. Für je zwei Vektoren x, y ∈ E gilt f (x + y) = f (x) + f (y).
L2. Für jeden Vektor x ∈ E und jede Zahl a ∈ R gilt f (a · x) = a · f (x).
Salopp gesagt ist eine Abbildung f also linear, wenn man f mit + und · “vertauschen kann”.
Es gibt einige offensichtliche Beispiele linearer Abbildungen. Für je zwei Vektorräume E, E 0 ist die
Abbildung f : E → E 0 , x 7→ 0, die also alle Vektoren auf den Nullvektor abbildet, linear. Außerdem ist
für jeden Vektorraum E die Abbildung id : E → E, x 7→ x, die einfach x auf sich selbst abbildet, linear.
Ist allgemeiner a eine reelle Zahl, so ist die Abbildung E → E, x 7→ a · x linear. Kommen wir zu einigen
vielleicht weniger offensichtliche Beispielen.
x
Beispiel 2.6
1. Die Abbildung R2 → R2 , xy 7→ −y
ist, geometrisch gesprochen, die Spiegelung an
der x-Achse.
◦
2. Die Abbildung R2 → R2 , xy 7→ −y
x ist die Rotation um 90 .
3. Allgemeiner ist R2 → R2 , xy 7→ cos(α)x−sin(α)y
die Rotation um den Winkel α.
sin(α)x+cos(α)y
Aus gegebenen linearen Abbildungen kann man neue basteln. Für eine lineare Abbildung f : E → E 0
und b ∈ R definieren wir eine neue Abbildung b · f : E → E 0 durch x 7→ b · f (x). Außerdem definieren
wir für lineare f, g : E → E 0 die Abbildung f + g : E → E 0 durch x 7→ f (x) + g(x).
Proposition 2.7 Seien f, g : E → E 0 und h : E 0 → E 00 lineare Abbildugen.
1. Für jede Zahl b ∈ R ist b · f linear.
2. Die Abbildung f + g ist linear.
3. Die Abbildung h ◦ f : E → E 00 ist linear.
Beweis. Wir rechnen einfach die erforderlichen Eigenschaften nach. Seien x, y ∈ E und a ∈ R. Weil
f, g, h linear sind, gilt
(b · f )(x + y)
(f + g)(x + y)
h ◦ f (x + y)
= b · (f (x) + f (y)) = b · f (x) + b · f (y) = (b · f )(x) + (b · f )(y),
= f (x + y) + g(x + y) = f (x) + f (y) + g(x) + g(y) = (f + g)(x) + (f + g)(y),
= h(f (x + y)) = h(f (x) + f (y)) = h(f (x)) + h(f (y)) = h ◦ f (x) + h ◦ f (y).
Also erfüllen b · f , f + g und h ◦ f die Bedingung L1. Ferner gilt
(b · f )(a · x)
(f + g)(a · x)
h ◦ f (a · x)
= b · (a · f (x)) = a · (b · f (x)) = a · (b · f )(x),
= f (a · x) + g(a · x) = a · f (x) + a · g(x) = a · (f + g)(x),
= h(f (a · x)) = h(a · f (x)) = a · h(f (x)) = a · h ◦ f (x),
2
woraus L2 folgt.
Proposition 2.8 Sei f : E → E 0 eine bijektive lineare Abbildung. Dann ist auch ihre Umkehrabbildung
f −1 : E 0 → E linear.
Beweis. Seien x0 , y 0 ∈ E 0 Vektoren. Dann gibt es x, y ∈ E mit x0 = f (x), y 0 = f (y). Weil f linear ist, gilt
also x0 + y 0 = f (x + y). Weil f außerdem bijektiv ist, folgt
f −1 (x0 + y 0 ) = f −1 (f (x + y)) = x + y = f −1 (x0 ) + f −1 (y 0 ).
Ist ferner a ∈ R, so gilt
f −1 (a · x0 ) = f −1 (a · f (x)) = f −1 (f (a · x)) = a · x = a · f −1 (x0 ).
Also erfüllt f −1 die Bedingungen L1–L2.
2
Lineare Abbildungen werden auch oft als Homomorphismen bezeichnet. Eine bijektive lineare Abbildung heißt ein Isomorphismus.
3
3
MATRIZEN
7
Matrizen
Das Ziel in diesem Abschnitt ist, lineare Abbildungen f : Rn → Rm möglichst einfach zu beschreiben.
Dazu definieren wir ein neues Objekt: eine m × n-Matrix A ist eine Abbildung
A : {1, . . . , m} × {1, . . . , n} → R,
(i, j) 7→ Aij .
Wir schreiben eine Matrix in der Form

A11
 ..
A= .
Am1
···
..
.
···

A1n
..  .
. 
Amn
Wir nennen das n-Tupel A(i) = (Ai1 , . . . , Ain ) die i-te Zeile von A. Entsprechend heißt der Vektor


A1j


A(j) =  ... 
Amj
die j-te Spalte von A. Die einzelnen Zahlen Aij heißen die Einträge von A. Die Reihenfolge der Indices
merken wir uns mit der Eselsbrücke “Zeilen zuerst, Spalten später”. Falls m = n, nennen wir M eine
quadratische Matrix.
Was haben Matrizen mit linearen Abbildungen zu tun? Betrachten wir einmal die Vektoren
 
 
 
1
0
0
 0 
 1 
 0 
 
 
 
 
 
 
e(1) =  0  , e(2) =  0  , . . . , e(n) =  ...  ∈ Rn .
(3)
 .. 
 .. 
 
 . 
 . 
 0 
0
0
1
In Worten: e(i) ist der Vektor, dessen i-te Komponente 1 ist, während alle anderen Komponenten 0 sind.
Dann können wir jeden Vektor x ∈ Rn schreiben als


x1
n
X


xk e(k) .
x =  ...  = x1 · e(1) + · · · + xn e(n) =
k=1
xn
Ist f : Rn → Rm eine lineare Abbildung, dann ist also
!
n
n
X
X
f (x) = f
xk e(k) =
xk f (e(k) ).
k=1
(4)
k=1
Wenn wir also die n Vektoren f (e(1) ), . . . , f (e(n) ) ∈ Rm kennen, dann wissen wir f (x) für alle x ∈ Rn .
Mit anderen Worten: f is vollständig dadurch bestimmt, wohin es die Vektoren e(1) , . . . , e(n) abbildet.
Wir fassen diese n Vektoren in einer Matrix zuammen. Genauer sei M (f ) die m × n-Matrix mit Spalten
f (e(1) ), . . . , f (e(n) ). Diese Matrix heißt die darstellende Matrix von f .
Um die Gleichung (4) direkt mit der Matrix M (f ) schreiben zu können, definieren wir, wie man eine
Matrix mit einem Vektor multipliziert. Für eine mP
× n-Matrix A und einen Vektor x ∈ Rn definieren wir
n
m
A · x ∈ R als den Vektor mit i-ter Komponente j=1 Aij xj . Anders ausgedrückt,


A11 x1 + A12 x2 + · · · + A1n xn


..


.
A·x=
.
 A21 x1 + A22 x2 + · · · + A2n xn 
Am1 x1 + A12 x2 + · · · + Amn xn
3
MATRIZEN
8
Noch anders ausgedrückt, wenn wir mit A(k) die k-te Spalte


A1k
 A2k 


 .. 
 . 
Amk
von A bezeichnen, dann ist
A·x=
n
X
xj A(j) = x1 A(1) + x2 A(2) + · · · + xn A(n) .
(5)
j=1
Mit dieser Definition können wir dann (4) schreiben als
f (x) = M (f ) · x.
Die lineare Abbildung f ist also nichts anderes als Multiplikation mit der Matrix M (f ). Umgekehrt stellt
unsere Definition von “Matrix mal Vektor” sicher, daß für jede m × n Matrix A die Abbildung Rn → Rm ,
x 7→ A · x linear ist.
Beispiel 3.1 Wir hatten gesehen, daß die lineare Abbildung
x
cos(α)x − sin(α)y
2
2
f :R →R ,
7→
y
sin(α)x + cos(α)y
geometrisch gesehen die Rotation um den Winkel α ist. Die darstellende Matrix ist
cos α − sin α
M (f ) =
.
sin α cos α
Wir hatten gewissen Rechenregeln für lineare Abbildungen definiert. Beispielsweise hatten wir gesehen, daß für zwei lineare Abbildungen f, g : Rn → Rm auch f + g eine lineare Abbildung ist. Um
diese Operationen in den Matrizen M (f ), M (g), M (f + g) widerzuspiegeln, definieren wir einige weitere
Rechenarten für Matrizen. Für zwei m × n-Matrizen A, B definieren wir


A11 + B11 · · · A1n + B1n


..
..
..
A+B =
.
.
.
.
Am1 + Bm1
···
Amn + Bmn
Man addiert also Matrizen, indem man die einzelnen Einträge addiert. Für eine reelle Zahl a definieren wir
ferner


a · A11 · · · a · A1n


..
..
..
a·A=
.
.
.
.
a · Am1
···
a · Amn
Also multipliziert man eine Zahl mit einer Matrix, indem man jeden Eintrag mit der Zahl multipliziert.
Proposition 3.2 Sind f, g : Rn → Rm lineare Abbildungen, so ist M (f + g) = M (f ) + M (g). Ist ferner
a ∈ R, so ist M (a · f ) = a · M (f ).
Beweis. Per Definition der Matrizen M (f ), M (g), M (f +g), M (a·f ) genügt es, (f +g)(e(k) ), (a·f )(e(k) )
auszurechnen. Es gilt (f + g)(e(k) ) = f (e(k) ) + g(e(k) ), (a · f )(e(k) ) = a · f (e(k) ).
2
Wenn f : Rn → Rm und g : Rm → Rl lineare Abbildungen sind, können wir dann auch eine
schöne Formel für M (g ◦ f ) angeben? Dazu müßten wir verstehen, was die lineare Abbildung g ◦ f mit
3
MATRIZEN
9
den Vektoren e(j) ∈ Rn macht. Der Einfachheit halber schreiben wir A = M (f ) und B = M (g). Dann
ist


A1j


f (e(j) ) = A(j) =  ... 
Amj
die j-te Spalte von A. Wenden wir die Matrix-mal-Vektor-Formel (5) an, so erhalten wir
g ◦ f (e(j) ) = g(f (e(j) )) = g(A(j) ) =
m
X
Ahj B (h) .
h=1
Hierbei ist Ahj ∈ R die h-te Komponente des Vektors A
Der (i, j)-Eintrag der Matrix M (g ◦ f ) ist also
(M (g ◦ f ))ij =
(j)
m
X
und B (h) ∈ Rl die h-te Spalte der Matrix B.
Bih Ahj .
(6)
h=1
Wir verwandeln diese Gleichung nun in eine Definition. Ist B eine l × m-Matrix
und A eine m × nPm
Matrix, so definieren wir ihr Produkt B · A als die l × n-Matrix mit (i, j)-Eintrag h=1 Bih Ahj für alle
i ∈ {1, . . . , l} und alle j ∈ {1, . . . , n}. In Symbolen,
(B · A)ij =
m
X
Bih Ahj .
h=1
Als Eselsbrücke kann man sagen, daß man B · A erhält nach der Regel “Zeile mal Spalte”. Genauer: man
multipliziert die Einträge der i-ten Zeile von B mit den entsprechenden Einträgen der j-ten Spalte von A
und summiert die Produkte auf. Die Gleichung (6) zeigt nun, daß
M (g ◦ f ) = M (g) · M (f ).
(7)
Für quadratische Matrizen benutzen wir auch die Potenzschreibweise . Mit Ak für k ∈ N bezeichnen
wir also das Produkt
Ak = A
| · A{z· · · A} .
k mal
Einige Matrizen spielen eine besondere Rolle. Für jede Größe m × n bezeichnen wir mit 0 die Matrix,
deren Einträge alle gleich 0 sind. Diese Matrix hat die Eigenschaft, daß A + 0 = 0 + A = A für alle A.
Außerdem bezeichnet id die n × n-Matrix, deren Diagonaleinträge gleich 1 sind, während alle anderen
Einträge gleich 0 sind. Für jede n × n-Matrix A gilt id · A = A · id = A. Ferner gilt id · x = x für jeden
Vektor x ∈ Rn . Allgemeiner bezeichnen wir für einen Vektor a ∈ Rn mit diag(a) die n × n-Matrix, deren
Diagonale gerade der Vektor a ist, während alle anderen Einträge gleich 0 sind. Für jeden Vektor x ∈ Rn
gilt dann


a1 x1
 a2 x2 


diag(a) · x =  .  .
 .. 
an xn
Schließlich sagen wir, daß eine m×n-Matrix D Diagonalform hat, wenn aus Dij 6= 0 folgt, daß i = j (i =
1, . . . , m; j = 1, . . . , n). Mit anderen Worten: nur die Diagonaleinträge Dii dürfen von Null verschieden
sein.
Bemerkung 3.3 Die Multiplikation von Matrizen ist nicht kommutativ, d.h. A · B ist im allgemeinen nicht
dasselbe wie B · A. In der Tat sind beide Produkte überhaupt nur dann definiert, wenn A, B beide quadratisch und von derselben Größe sind. Aber auch in diesem Fall stimmen A · B und B · A im allgemeinen
nicht überein. Als Gegenbeispiel betrachte
0 1
1 1
A=
,
B=
.
0 0
0 0
4
BASEN UND DIE DIMENSION
Wir erhalten
10
A·B =
0
0
0
0
,
B·A=
0
0
1
0
.
Wenn man Matrizen addieren und multiplizieren kann, kann man sie dann auch durcheinander “dividieren”?
Definition 3.4 Seien A, B n × n-Matrizen. Wir sagen, daß B zu A invers ist, wenn A · B = B · A = id.
Falls es eine Matrix B gibt, die zu A invers ist, heißt A invertierbar oder regulär, andernfalls heißt A
singulär.
Obige Bemerkung zeigt, daß nicht jede Matriz invertierbar ist. Es kann sogar passieren, daß A · B = 0,
obwohl A 6= 0 und B 6= 0. Wir können invertierbare Matrizen wie folgt charakterisieren.
Proposition 3.5 Eine n × n-Matrix A ist genau dann invertierbar, wenn die lineare Abbildung x ∈ Rn 7→
A · x ein Isomorphismus ist.
Beweis. Angenommen die lineare Abbildung f : Rn → Rn , x 7→ A · x ist ein Isomorphismus. Dann
ist auch f −1 : Rn → Rn ein Isomorphismus. Sei B = M (f −1 ) die Matrix, die diesen Isomorphismus
darstellt. Dann gilt
id = M (f ◦ f −1 ) = M (f ) · M (f −1 ) = A · B und id = M (f −1 ◦ f ) = M (f −1 ) · M (f ) = B · A.
Also ist B zu A invers.
Nehmen wir nun umgekehrt an, daß A ein Inverses B hat, so definieren wir die lineare Abbildung
g : x 7→ B · x. Dann gilt für jeden Vektor x ∈ Rn
f ◦ g(x) = f (g(x)) = A · B · x = id · x = x,
g ◦ f (x) = g(f (x)) = B · A · x = id · x = x.
Folglich ist f bijektiv und g die Umkehrabbildung von f .
2
Der Beweis von Proposition 3.5 zeigt, daß eine invertierbare Matrix A eine eindeutige inverse Matrix
hat (nämlich die Matrix M (f −1 ) in obigem Beweis). Wir bezeichnen diese Matrix durch A−1 . Aus (7)
folgt, daß für zwei invertierbare n × n-Matrizen A, B gilt
(A · B)−1 = B −1 · A−1 .
Beispiel 3.6
1. Die Diagonalmatrix A = diag(a1 , . . . , an ) ist genau dann invertierbar, wenn a1 , . . . , an 6=
−1
0. Ihr Inverses ist in diesem Fall A−1 = diag(a−1
1 , . . . , an ).
2. Die darstellende Matrix
cos α
sin α
− sin α
cos α
der Rotation um den Winkel α ist invertierbar. Ihr Inverses ist die Matrix
cos α sin α
,
− sin α cos α
die die Rotation um den Winkel −α darstellt.
4
Basen und die Dimension
Wir führen ein Maß für die “Größe” eines Vektorraums ein, die Dimension. Beispielsweise wird die Dimension des Vektorraumes Rn gleich n sein. Um den Begriff der Dimension einzuführen, benötigen wir
folgende
Definition 4.1 Seien x1 , . . . , xk ∈ E Vektoren in einem Vektorraum E. Wir nennen x1 , . . . , xk linear
unabhängig, falls folgendes gilt.
4
BASEN UND DIE DIMENSION
11
Sind a1 , . . . , ak reelle Zahlen, so daß
Pk
i=1
ai xi = 0, so folgt ai = 0 für i = 1, . . . , k.
Beispiel 4.2 Die Vektoren e(1) , . . . , e(n) ∈ Rn sind linear unabhängig. Denn für reelle a1 , . . . , an gilt


a1
n
 a2 
X


ai e(i) =  .  .
 .. 
i=1
an
Dies ist nur dann der Nullvektor, wenn a1 = a2 = · · · = an = 0.
Für Vektoren x1 , . . . , xk definieren wir
[x1 , . . . , xk ] =
( k
X
)
ai · xi : a1 , . . . , ak ∈ R .
i=1
Dies ist ein Vektorraum, den wir den von x1 , . . . , xk aufgespannten Vektorraum nennen. Der Kernbegriff,
den wir benötigen, um die Dimension zu definieren, ist der der Basis.
Definition 4.3 Seien x1 , . . . , xk Vektoren in einem Vektorraum E. Wir nennen x1 , . . . , xk eine Basis von
E, falls die beiden folgenden Bedingungen erfüllt sind.
B1. x1 , . . . , xk sind linear unabhängig.
B2. Es gilt E = [x1 , . . . , xk ].
Eine Basis hat die folgende wichtige Eigenschaft.
Proposition 4.4 Ist x1 , . . . , xk eine Basis
Pk des Vektorraums E, so gibt es zu jedem Vektor y ∈ E genau ein
k-Tupel a1 , . . . , ak ∈ R, so daß y = i=1 ai xi .
Pk
Beweis. Weil E = [x1 , . . . , xk ], gibt es zu jedem y ∈ E Zahlen a1 , . . . , ak mit y = i=1 ai xi . Nehmen
Pk
wir nun an, daß b1 , . . . , bk ∈ R ein weiteres k-Tupel ist, so daß y = i=1 bi xi . Dann gilt
0=y−y =
k
X
(bi − ai )xi .
i=1
Weil die Vektoren x1 , . . . , xk linear unabhängig sind, folgt bi = ai für alle i.
2
Wir würden gern die Dimension des Raumes E definieren als die Anzahl der Vektoren in einer Basis
von E. Dazu müssen wir uns allerdings noch zwei Dinge überlegen:
• Jeder Vektorraum hat eine Basis.
• Alle Basen bestehen aus gleichvielen Vektoren.
Dazu benötigen wir
Proposition 4.5 Angenommen x1 , . . . , xn ist eine Basis von E und die Vektoren y1 , . . . , yk ∈ E sind
linear unabhängig. Dann ist k ≤ n und es gibt eine injektive Abbildung τ : {k + 1, . . . , n} → {1, . . . , n},
so daß
y1 , . . . , yk , xτ (k+1) , . . . , xτ (n)
eine Basis von E ist.
Der Beweis dieser Aussage benötigt einen Zwischenschritt.
Lemma 4.6 Sei x1 , . . . , xn eine Basis des Vektorraums E. Falls z = a1 x1 + · · · + an xn ein Vektor ist mit
a1 6= 0, so ist z, x2 , . . . , xn eine Basis von E.
4
BASEN UND DIE DIMENSION
12
Beweis. Angenommen es gibt reelle Zahlen b1 , . . . , bn , so daß
b1 z + b2 x2 + · · · + bn xn = 0.
Indem wir z = a1 x1 + · · · + an xn einsetzen, erhalten wir
b1 a1 x1 + (b1 a2 + b2 )x2 + · · · + (b1 an + bn )xn = 0.
Aus der linearen Unabhängigkeit von x1 , . . . , xn folgt b1 a1 = 0. Weil a1 6= 0 bedeutet das, daß b1 = 0.
Wiederum aus der linearen Unabhängigkeit von x1 , . . . , xn folgt also bi = b1 ai + bi = 0 für i = 2, . . . , n.
Folglich sind z, x2 , . . . , xn linear unabhängig.
Da x1 , . . . , xn eine Basis ist, läßt sich ferner jeder Vektor y ∈ E darstellen als
y=
n
X
ci x i
mit c1 , . . . , cn ∈ R.
i=1
Folglich gilt
y=
n X
a i c1
c1
z+
xi .
ci −
a1
a1
i=2
2
Dies zeigt [z, x2 , . . . , xn ] = E.
Beweis von Proposition 4.5. Wir führen Induktion über k, beginnend mit k = 1. Der Vektor y1 läßt sich
darstellen als
y1 = a1 x1 + · · · + an xn
mit a1 , . . . , an ∈ R.
Da y1 6= 0 (aufgrund der linearen Unabhängigkeit), gibt es ein ai 6= 0. Lemma 4.6 zeigt also, daß wir eine
Basis erhalten, indem wir xi durch y1 ersetzen. D.h. x1 , . . . , xi−1 , y1 , xi+1 , . . . , xn ist eine Basis.
Wir führen nun den Induktionsschritt durch. Nach geeigneter Umnumerierung der Vektoren dürfen wir
annehmen, daß y1 , . . . , yk−1 , xk , . . . , xn eine Basis ist, und daß n ≥ k − 1. Insbesondere läßt sich der
Vektor yk darstellen als
n
k−1
X
X
bi x i .
bi y i +
yk =
i=1
i=k
Weil y1 , . . . , yk linear unabhängig sind, gibt es ein i ≥ k mit bi 6= 0. Daraus folgt, daß n ≥ k. Numerieren
wir der Einfachheit halber wir die Vektoren xk , . . . , xn so um, daß bk 6= 0, so zeigt Lemma 4.6, daß
y1 , . . . , yk , xk+1 , . . . , xn eine Basis ist.
2
Korollar 4.7 Sind x1 , . . . , xn und y1 , . . . , yk Basen des Vektorraums E, so gilt k = n.
Satz 4.8 Jeder Vektorraum E 6= {0} hat eine Basis.
Beweis. Nach unserer Defintition von Vektorraum gibt eine natürliche Zahl n mit E ⊂ Rn . Der Vektorraum
Rn hat die Basis bestehend aus den in (3) eingeführten Vektoren e(1) , . . . , e(n) . Sind x1 , . . . , xk ∈ E ⊂ Rn
linear unabhängige Vektoren, zeigt Proposition 4.5 also, daß k ≤ n. Wähle in der Tat k größtmöglich, so
daß es linear unabhängige x1 , . . . , xk ∈ E gibt. Wir behaupten, daß x1 , . . . , xk eine Basis von E ist.
Denn wäre z ∈ E \ [x1 , . . . , xk ], so wären die k + 1 Vektoren z, x1 , . . . , xk linear unabhängig. Um dies
einzusehen, seien a0 , . . . , ak ∈ R Zahlen mit
a0 z + a1 x1 + · · · + ak xk = 0.
(8)
Falls a0 = 0, folgt aus der linearen Unabhängig von x1 , . . . , xk , daß a1 = · · · = ak = 0. Ist ferner a0 6= 0,
so zeigt (8), daß
k
X
ai
xi ∈ [x1 , . . . , xk ] ,
z=−
a
i=1 0
im Widerspruch zu der Annahme, daß z 6∈ [x1 , . . . , xk ].
Korollar 4.7 und Satz 4.8 ermöglichen folgende Definition.
2
4
BASEN UND DIE DIMENSION
13
Definition 4.9 Sei E ein Vektorraum und x1 , . . . , xk eine Basis von E. Dann nennen wir k die Dimension
von E und schreiben dim E = k.
Wir nennen zwei Vektorräume E, E 0 isomorph, falls es einen Isomorphismis f : E → E 0 gibt. Die
folgende Proposition zeigt, daß es zu jeder Dimension “im wesentlichen” nur einen einzigen Vektorraum
gibt; formal bedeutet das, daß je zwei Vektorräume derselben Dimension isomorph sind.
Proposition 4.10 Jeder Vektorraum E der Dimension n ≥ 1 ist isomorph zu Rn .
Beweis. Sei x1 , . . . , xn eine Basis von E. Wir definieren


a1
n
X
 .. 
f : Rn → E,
7
ai xi .
 . →
i=1
an
(9)
Diese Abbildung ist linear. Außerdem ist f injektiv, weil x1 , . . . , xn linear unabhängig sind, und surjektiv,
weil E = [x1 , . . . , xn ].
2
In Abschnitt 3 haben wir gelernt, lineare Abbildungen g : Rn → Rm durch Matrizen darzustellen. Erlauben auch lineare Abbildungen g : E → E 0 zwischen anderen Vektorräumen E, E 0 eine solche Darstellung? Das geht tatsächlich, allerdings müssen wir zuvor Basen von E, E 0 festlegen. Sei also
A = (x1 , . . . , xn ) eine Basis von E und B = (y1 , . . . , ym ) eine Basis von E 0 . Wir benutzen den Isomorphismus aus Proposition 4.10, um g als Matrix darzustellen. Bezeichne dazu f den in (9) definierten
Isomorphismus und h den analog definierten Isomorphismus


b1
m
X
 .. 
bi yi .
h : Rm → E 0 ,
 .  7→
i=1
bm
Dann ist h−1 ◦ g ◦ f : Rn → Rm eine lineare Abbildung. Ihre darstellende Matrix M (h−1 ◦ g ◦ f )
bezeichnen wir mit MA,B (g). Explizit können wir ihre Einträge wie folgt beschreiben. Das Bild f (xj ) des
jten Basisvektors von A läßt sich schreiben als
g(xj ) =
m
X
cij yi ,
i=1
weil B ja eine Basis von E 0 ist. Dann gilt

MA,B (g) = (cij )i=1,...,m;j=1,...n
c11
 ..
= .
cm1
···
..
.
···

c1n
..  .
. 
cmn
Ein wichtiger Spezialfall ergibt sich, wenn E = Rn und E 0 = Rm . In diesem Fall erhalten wir also zu
je zwei Basen A von Rn und B von Rm eine darstellende Matrix MA,B (g) der linearen Abbildung g. Wie
verhält sich diese Matrix zu der “natürlichen” Matrix M (g)? Die beiden Isomorphismen f : Rn → Rn
und h : Rm → Rm können ebefalls durch Matrizen dargesellt werden, und nach der Definition gilt
MA,B (g) = M (h−1 ◦ g ◦ f ) = M (h−1 ) · M (g) · M (f ) = M (h)−1 · M (g) · M (f ).
Anhand der Definition von f und g sieht man ferner, daß M (f ) die Matrix ist, deren Spalten die Basisvektoren A sind. Entsprechend ist M (h) die Matrix, deren Spalten die Basisvektoren B sind. Ein wesentliches
Ziel der folgenden Abschnitte wird sein, Basen A, B zu finden, so daß die Matrix MA,B (f ) eine möglichst
einfache Gestalt hat.
5
5
LINEARE GLEICHUNGSSYSTEME
14
Lineare Gleichungssysteme
Für eine gegebene lineare Abbildung f : E → E 0 und einen Vektor y ∈ E 0 möchten wir einen Vektor
x ∈ E mit f (x) = y finden, falls es ein solches x gibt. Weil f durch eine Matrix dargestellt werden kann
(durch Wahl von Basen für E, E 0 ), genügt es, das folgende, konkretere Problem zu lösen: für eine m × nMatrix A und einen Vektor b ∈ Rm ist x ∈ Rn mit Ax = b zu bestimmen, falls es ein solches x gibt.
Genauer gesagt möchten wir alle solchen Vektoren x bestimmen.
Zur Lösung des linearen Gleichungssystems Ax = b verwenden wir die Gaußsche Eliminiationsmethode. In dieser Methode wird die Matrix durch Umformungen in eine Form gebracht, in der der linke untere
Teil der Matrix aus Nullen besteht. Genauer sagen wir, daß eine m×n-Matrix B Zeilenstufenform hat, falls
es eine Folge j1 < j2 < · · · < jm natürlicher Zahlen gibt, so daß Bij = 0 falls j < ji und Biji 6= 0 falls
ji ≤ n. Wenn die Matrix in Zeilenstufenform gebracht ist, kann man eine Lösung des Gleichungssystems
Ax = b direkt ablesen. In der Tat erhält man unmittelbar alle Lösungen dieses Gleichungssystems.
Um die Matrix auf diese Form zu bringen, geht man wie folgt vor. Sei j1 der kleinste Spaltenindex,
so daß in Splate A(j1 ) eine von Null verschiedene Zahl vorkommt. Sei i1 der kleinste Zeilenindex, so daß
Ai1 j1 6= 0. Zunächst vertauschen wir die Zeile i1 mit der ersten Zeile der Matrix. Gleichzeitig wird bi1
mit b1 vertauscht. Seien A0 , b0 die Matrix und der Vektor, die dabei entstehen. Dann addieren wir passende
Vielfache der ersten Zeile von A0 zu den anderen Zeilen von A0 , so daß in der resultierenden Matrix A00
gilt A00ij1 = 0 für alle i > 1. Dieselben Operationen werden an dem Vektor b ausgeführt, und b00 bezeichne
den resultierenden Vektor. Nun wiederholen wir das Verfahren auf der kleineren Matrix A000 , die aus A00
durch Weglassen der ersten Zeile entsteht, und dem Vektor b000 , der aus b00 durch Fortlassen der ersten
Komponente entsteht.
Beispiel 5.1 Wir lösen das Gleichungssystem Ax = b mit


−1 −1 0 2
 −1 0 0 3 

A=
 −1 0 1 2  ,
2
1 0 −4

−1
 −1 

b=
 −1  .
3

Um die Umformungen zugleich an A und b durchführen zu können, schreiben wir b als Spalte neben die
Matrix A; allerdings merken wir uns, daß diese Spalte eine besondere Rolle spielt:


−1 −1 0 2 −1
 −1 0 0 3 −1 


 −1 0 1 2 −1  .
2
1 0 −4 3
Wir subtrahieren nun die erste Zeilen von der zweiten und erhalten


−1 −1 0 2 −1
 0
1 0 1
0 


 −1 0 1 2 −1  .
2
1 0 −4 3
Anschließend subtrahieren wir die erste Zeile von der dritten; das Ergebnis ist


−1 −1 0 2 −1
 0
1 0 1
0 
.

 0
1 1 0
0 
2
1 0 −4 3
Dann wird das 2-fache der ersten Zeile zur letzten Zeile addiert:


−1 −1 0 2 −1
 0
1 0 1 0 

.
 0
1 1 0 0 
0 −1 0 0 1
5
LINEARE GLEICHUNGSSYSTEME
15
Damit haben wir die erste Zeile und Spalte abgearbeitet. Wir fahren jetzt auf dem Rest fort, indem wir die
zweite Zeile zur dritten addieren und von der letzten subtrahieren:


−1 −1 0 2 −1
 0
1 0 1
0 
.

 0
0 1 −1 0 
1
0
0 0 1
Wir haben die Matrix auf Zeilenstufenform gebracht. Man liest jetzt die Lösung x4 = 1, x3 = 1, x2 = −1,
x1 = 4 ab.
Satz 5.2 Zu jeder m×n-Matrix A gibt es eine invertierbare m×m-Matrix C, so daß C·A Zeilenstufenform
hat.
Beweis. Wir haben gesehen, daß eine Matrix durch das Gaußschen Eliminationsverfahren in Zeilenstufenform gebracht werden kann. Dabei werden die folgenden Operationen durchgeführt:
• Vertauschen von zwei Zeilen.
• Addieren des Vielfachen einer Zeile zu einer anderen Zeile.
Zu Indices 1 ≤ i1 < i2 ≤ m sei nun S[i1 , i2 ] die m × m-Matrix, die aus der Einheitsmatrix id durch
Vertauschen der i1 ten und der i2 ten Zeile hervorgeht. Dann ist S[i1 , i2 ] · A die Matrix, die aus A durch
Vertauschen der Zeilen i1 und i2 entsteht. Außerdem ist S[i1 , i2 ] invertierbar, da S[i1 , i2 ] · S[i1 , i2 ] = id.
Ferner definieren wir zu i1 , i2 ∈ {1, . . . , m}, i1 6= i2 , und λ ∈ R eine Matrix T [i1 , i2 , λ], deren
Diagonaleinträge alle gleich 1 sind, deren Eintrag in Zeile i1 und Spalte i2 gleich λ ist, und deren übrige
Einträge gleich 0 sind. Dann ist T [i1 , i2 , λ] · A die Matrix, die aus A durch addieren des λ-Fachen der Zeile
i2 zur Zeile i1 entsteht. Weil T [i1 , i2 , −λ] · T [i1 , i2 , λ] = 1, ist T [i1 , i2 , λ] invertierbar. Die Operationen,
die im Gaußschen Eliminationsverfahren durchgeführt werden, entsprechen also einfach der Multiplikation
von links mit invertierbaren Matrizen S[i1 , i2 ], T [i1 , i2 , λ]. Die Matrix C ist das Produkt derselben.
2
T
Zu einer m × n-Matrix A definieren wir eine n × m-Matrix A , die transponierte Matrix, durch
ATji = Aij für i = 1, . . . , m und j = 1, . . . , n. Ist B eine l × m-Matrix, so ist (BA)T = AT B T . Ist ferner
A eine invertierbare quadratische Matrix, so trifft dies auch auf AT zu und (AT )−1 = (A−1 )T .
Korollar 5.3 Zu jeder m × n-Matrix A gibt es eine invertierbare m × m-Matrix C und eine invertierbare
n × n-Matrix D und eine Zahl r ≤ min {m, n}, so daß C · A · D = Er , wobei Er die Matrix ist, deren
erste r Diagonaleinträge gleich 1 sind und deren übrige Einträge gleich 0 sind.
Beweis. Zunächst wenden wir das Gaußsche Eliminationsverfahren an, um eine invertierbare Matrix C
zu erhalten, so daß CA Zeilenstufenform hat. Dann wenden wir das Gaußsche Eliminationsverfahren auf
die transponierte Matrix (CA)T an. Dies gibt eine invertierbare n × n-Matrix F , so daß F (CA)T eine
n × m-Matrix ist, die nur auf der Diagonalen von Null verschiedene Einträge hat. Durch Multiplikation
mit einer geeigneten invertierbaren n×n-Diagonalmatrix G kann man erreichen, daß die Matrix GF (CA)T
Diagonalform hat mit Einträgen 1 oder 0. Die transponierte Matrix CA(GF )T ist also eine m × n-Matrix
2
in Diagonalform mit Einträgen 1 oder 0, und die Matrix D = (GF )T ist invertierbar.
Korollar 5.3 liefert eine erste Lösung des Problems, eine lineare Abbildung durch eine möglichst einfache Matrix darzustellen. Sehen wir nämlich die m×n-Matrix A als eine lineare Abbildung f : Rn → Rm ,
x 7→ Ax, so gibt Korollar 5.3 Basen A, B von Rn und Rm , so daß MA,B (f ) = Er . Genauer ist A die
Basis, die aus den Spalten der Matrix D besteht, während B aus den Spalten von C −1 besteht. Zwar ist
MA,B (f ) = Er eine sehr einfache Matrix und diese Darstellung ist auch durchaus hilfreich (s. die folgenden Anwendungen). Jedoch sind leider die Basen A, B im allgemeinen nicht besonders “schön”. Wir
setzen uns daher weiterhin das (zugegebenermaßen etwas vage) Ziel, lineare Abbildungen durch möglichst
einfache Matrizen darzustellen, allerdings bezüglich möglichst “schöner” Basen.
n
(1)
(n)
Ist A eine m×n-Matrix, so sind die Zeilen A(1) , . . . , A(m) Vektoren
in R . Die Spalten
A ,...,A
m
sind Vektoren in R . Wir definieren den Zeilenrang von A als dim A(1) , . . . , A(m) . Der Spaltenrang
von A ist dim A(1) , . . . , A(n) .
5
LINEARE GLEICHUNGSSYSTEME
16
Korollar 5.4 Für jede Matrix A stimmen Zeilen- und Spaltenrang überein.
Beweis. Mit den Bezeichnungen von Korollar 5.3 sieht man, daß r sowohl der Zeilen- als auch der Spaltenrang von A ist.
2
Aufgrund von Korollar 5.4 kann man einfach vom Rang der Matrix A sprechen.
Korollar 5.5 Sei A eine m × n-Matrix und b ∈ Rm . Es gibt genau dann ein x ∈ Rn mit Ax = b, wenn
die Matrix A denselben Rang hat wie die Matrix (A b), die aus A durch Hinzufügen von b als n + 1ter
Spalte entsteht.
Für eine lineare Abbildung f : E → E 0 nennen wir f −1 (0) = {x ∈ E : f (x) = 0} den Kern von f .
Dieser ist ein Untervektorraum von E. Entsprechend definieren wir den Kern einer Matrix A als den Kern
der linearen Abbildung x 7→ Ax. Sind A eine m × n-Matrix, b ∈ Rm und x ∈ Rn so, daß Ax = b, so
gilt für jeden Vektor z im Kern von A, daß A(x + z) = b. Ist umgekehrt x0 ein Vektor mit Ax0 = b, so ist
z = x − x0 im Kern von A.
Korollar 5.6 Sei A eine m × n-Matrix vom Rang r. Sei l die Dimension des Kerns von A. Dann gilt
n = r + l. Ferner ist A genau dann invertierbar, wenn m = n = r.
Beweis. Seien C, D die Matrizen aus Korollar 5.3, so daß CAD = Er . Die Anzahl der Spalten der m × nMatrix Er , die gleich Null sind, ist dann die Dimension des Kerns von A. Also hat der Kern die Dimension
n − r. Dies zeigt die erste Behauptung.
Wenn A invertierbar ist, muß notwendigerweise m = n gelten. Außerdem ist in diesem Fall die lineare
Abbildung Rn → Rn , x 7→ Ax bijektiv, d.h. der Kern besteht nur aus dem Nullvektor. Aus der ersten
Behauptung folgt also r = n. Wenn umgekehrt r = n ist, dann ist CAD = id. Die inverse Matrix von A
ist also einfach DC.
2
Wie der letzte Beweis zeigt, erlauben uns die Umformungsregeln des Gaußverfahrens, zu einer gegebenen n × n-Matrix A festzustellen, ob sie invertierbar ist, und ggf. ihre inverse Matrix zu berechnen. Dazu
geht man wie folgt vor. Zunächst bringt man die Matrix A mit dem Gaußverfahren auf Zeilenstufenform.
An der Zeilenstufenform von A kann man den Rang ablesen, und A ist genau dann invertierbar, wenn der
Rang gleich n ist. In diesem Fall führt man weitere Zeilenumformungen durch, bis aus A eine Diagonalmatrix geworden ist. Dann multiplizieren wir jede Zeile mit einer reellen Zahl, um die Einheitsmatrix id
zu erhalten. Parallel dazu führt man dieselben Umformungen ausgehend von der Einheitsmatrix id durch.
Die Matrix B, die dabei aus der Einheitsmatrix entsteht, ist A−1 .
Beispiel 5.7 Wir invertieren die Matrix

−1
 −1
A=
 −1
2
−1
0
0
1

0 2
0 3 
.
1 2 
0 −4
Zunächst subtrahieren wir die erste Zeile von der zweiten und dritten und addieren ihr 2-faches zur vierten.
Dieselben Umformungen führen wir auch ausgehend von der Matrix id durch und erhalten




−1 −1 0 2
1 0 0 0
 0


1 0 1 

 und  −1 1 0 0  .
 0


1 1 0
−1 0 1 0 
0 −1 0 0
2 0 0 1
Als nächstes subtrahieren wir die zweite Zeile von der dritten und addieren sie zur vierten:




−1 −1 0 2
1
0 0 0
 0


1 0 1 

 und  −1 1 0 0  .
 0


0 1 −1
0 −1 1 0 
0
0 0 1
1
1 0 1
6
DIE DETERMINANTE
17
An dieser Stelle erkennen wir, daß die Matrix A Rang 4 hat, also invertierbar ist. Wir fahren fort, indem
wir die letzte Zeile zur dritten Zeile addieren, von der zweiten Zeile abziehen und zweimal von der ersten
Zeile abziehen. Dieselben Umformungen führen wir an der rechten Matrix durch und erhalten




−1 −1 0 0
−1 −2 0 −2
 0


1 0 0 

 und  −2 0 0 −1  .
 0


0 1 0
1
0 1 1 
0
0 0 1
1
1 0 1
Als nächsten Schritt addieren wir in beiden Matrizen die zweite Zeile zur ersten. Dies ergibt




−3 −2 0 −3
−1 0 0 0
 −2 0 0 −1 
 0 1 0 0 

.


 0 0 1 0  und  1
0 1 1 
1
1 0 1
0 0 0 1
Schließlich multiplizieren wir die erste Zeile beider Matrizen mit −1:




1 0 0 0
3 2 0 3
 0 1 0 0 
 −2 0 0 −1 




 0 0 1 0  und  1 0 1 1  .
0 0 0 1
1 1 0 1
Wir haben also ausgerechnet, daß

A−1
6
3
 −2
=
 1
1

2 0 3
0 0 −1 
.
0 1 1 
1 0 1
Die Determinante
In diesem Abschnitt ordnen wir einer Matrix eine reelle Zahl zu, die gewisse geometrische Eigenschaften
der Matrix widerspiegelt. Dazu müssen wir uns zunächst mit Permutationen befassen. Eine Permutation
der Länge n ist eine Bijektion σ : {1, . . . , n} → {1, . . . , n}. Wir bezeichnen die Menge aller Permutationen der Länge n mit Sn . Man überlegt sich leicht, daß |Sn | = n!. Ferner definieren wir das Vorzeichen
oder Signum von σ ∈ Sn als
Y σ(i) − σ(j)
sign(σ) =
.
i−j
1≤i<j≤n
Lemma 6.1 Es gilt sign(σ) ∈ {−1, 1} für alle σ ∈ Sn , und für alle σ, τ ∈ Sn gilt
sign(σ ◦ τ ) = sign(σ) · sign(τ ).
Beweis. Es gilt

sign(σ)2
= 
Y
1≤i<j≤n
2
Y σ(i) − σ(j)
σ(i) − σ(j) 
=
= 1;
i−j
i−j
i6=j
6
DIE DETERMINANTE
18
das letzte Gleichheitszeichen stimmt, weil σ eine Permutation ist. Daraus folgt, daß sign(σ) ∈ {−1, 1}.
Ferner gilt
sign(σ ◦ τ )
Y
=
1≤i<j≤n
=
sign(τ ) ·
σ ◦ τ (i) − σ ◦ τ (j)
=
i−j
Y
1≤i<j≤n
=
1≤i<j≤n:τ (i)<τ (j)
Y
=
sign(τ ) ·
=
sign(τ ) · sign(σ),
1≤i<j≤n
σ ◦ τ (i) − σ ◦ τ (j)
·
τ (i) − τ (j)
Y
1≤i<j≤n
τ (i) − τ (j)
i−j
σ ◦ τ (i) − σ ◦ τ (j)
τ (i) − τ (j)
Y
sign(τ ) ·
Y
1≤i<j≤n:τ (i)<τ (j)
σ ◦ τ (i) − σ ◦ τ (j)
·
τ (i) − τ (j)
Y
σ ◦ τ (i) − σ ◦ τ (j)
·
τ (i) − τ (j)
Y
1≤i<j≤n:τ (i)>τ (j)
1≤i<j≤n:τ (i)>τ (j)
σ ◦ τ (i) − σ ◦ τ (j)
τ (i) − τ (j)
σ ◦ τ (j) − σ ◦ τ (i)
τ (j) − τ (i)
2
wie behauptet.
Definition 6.2 Die Determinante einer n × n-Matrix A ist
det A =
X
sign(σ)
σ∈Sn
n
Y
Aiσ(i) .
(10)
i=1
Wir erinnern, daß die Zeilen einer n × n-Matrix A mit A(1) , . . . , A(n) bezeichnet werden.
Proposition 6.3 Seien A, B, C drei n × n-Matrizen. Die Determinante hat die folgenden Eigenschaften.
DET1. det(id) = 1.
DET2. Falls A zwei identische Zeilen hat, gilt det A = 0.
DET3. Die Determinante ist linear in jeder Zeile, d.h. die beiden folgenden Bedingungen sind erfüllt.
• Angenommen es gibt ein i ∈ {1, . . . , n}, so daß A(i) + B(i) = C(i) , während A(h) = B(h) =
C(h) für alle h 6= i. Dann gilt det(A) + det(B) = det(C).
• Angenommen es gibt ein i ∈ {1, . . . , n} und ein z ∈ R, so daß B(i) = z · A(i) , während
B(h) = A(h) für alle h 6= i. Dann gilt det(B) = z · det(A).
Insbesondere gilt det(A) = 0 wenn A eine Zeile hat, die nur aus 0en besteht.
DET4. Wenn B aus A durch Vertauschen von zwei Zeilen entsteht, gilt det(B) = − det(A).
DET5. Seien i, j ∈ {1, . . . , n} verschieden und z ∈ R. Wenn B aus A durch Addieren des z-fachen der
i-ten Zeile zur j-ten Zeile entsteht, gilt det(B) = det(A).
Qn
DET6. Wenn A in Zeilenstufenform ist, gilt det(A) = i=1 Aii .
DET7. Es gilt det(A · B) = det(A) · det(B).
DET8. Die Matrix A ist invertierbar genau dann, wenn det(A) 6= 0. In diesem Fall gilt
det(A−1 ) = 1/ det(A).
DET9. Es gilt det(AT ) = det A.
6
DIE DETERMINANTE
19
Beweis. DET1 folgt unmittelbar aus der Definition. Um DET2 zu zeigen, nehmen wir an, daß die Zeilen
i1 und i2 von A identisch sind (i1 6= i2 ). Sei τ ∈ Sn die Permutation, die die Zahlen i1 und i2 vertauscht,
während τ (h) = h für alle h ∈ {1, . . . , n} \ {j1 , j2 }. Dann gilt
"
#
n
n
n
X
Y
Y
Y
1 X
sign(σ)
sign(σ)
det(A) =
Aiσ(i) =
Aiσ(i) + sign(σ ◦ τ )
Ai τ ◦σ(i) .(11)
2
i=1
i=1
i=1
σ∈Sn
σ∈Sn
Nun zeigt Lemma 6.1, daß sign(τ ◦ σ) = sign(τ ) · sign(σ). Weil τ einfach zwei Zahlen i1 , i2 vertauscht,
zeigt die Definition von sign(τ ), daß sign(τ ) = −1. Daher können wir (11) schreiben als
" n
#
n
Y
Y
1 X
sign(σ)
Aiσ(i) −
Ai σ◦τ (i) .
(12)
det(A) =
2
i=1
i=1
σ∈Sn
Weil die i1 -te Zeile und die i2 -te Zeile von A übereinstimmen, erhalten wir
n
Y
Aiσ(i)
=
Ai1 σ(i1 ) Ai2 σ(i2 ) ·
i=1
Y
Aiσ(i)
i6∈{i1 ,i2 }
=
Ai1 σ(i2 ) Ai2 σ(i1 ) ·
Y
Aiσ(i)
i6∈{i1 ,i2 }
=
Y
Ai1 σ◦τ (i1 ) Ai2 σ◦τ (i2 ) ·
Aiσ(i) =
i6∈{i1 ,i2 }
n
Y
Ai σ◦τ (i) .
i=1
Folglich zeigt (12), daß det(A) = 0.
Um DET3 zu zeigen, betrachten wir A, B, C, so daß A(i) + B(i) = C(i) , während alle anderen Zeilen
der drei Matrizen übereinstimmen. Dann gilt
det(C)
=
X
σ∈Sn
=
X
sign(σ)
n
Y
Cjσ(j) =
j=1
X
sign(σ)Aiσ(i)
Y
Cjσ(j) +
sign(σ)Aiσ(i)
Y
j6=i
Ajσ(j) +
Y
Cjσ(j)
j6=i
X
sign(σ)Biσ(i)
σ∈Sn
j6=i
σ∈Sn
=
sign(σ)(Aiσ(i) + Biσ(i) )
σ∈Sn
σ∈Sn
=
X
X
Y
Cjσ(j)
j6=i
sign(σ)Biσ(i)
σ∈Sn
Y
Bjσ(j)
j6=i
det(A) + det(B).
Der Nachweis der zweiten Bedingung geht analog. Die Eigenschaften DET4–DET8 können aus DET1–
DET3 hergeleitet werden, während DET9 aus Lemma 6.1 und (10) folgt.
2
Bemerkung 6.4
1. Sei A eine n × n-Matrix mit Spalten A(i) . Geometrisch ist die Menge
( n
)
X
(i)
P =
ai A : a1 , . . . , an ∈ [0, 1]
i=1
ein “schiefer Quader”, ein sogenanntes Parallelepiped. Anschaulich ist | det A| das Volumen von P .
2. Im allgemeinen gilt nicht det(A + B) = det(A) + det(B).
3. Aufgrund von DET9 gelten DET2–DET 6 auch entsprechend für die Spalten der Matrix.
4. Ist A eine 2 × 2-Matrix, so folgt aus (10), daß det A = A11 A22 − A12 A21 .
6
DIE DETERMINANTE
20
Die Formel (10) ist, zumindest für größere Matrizen, nicht zur praktischen Berechnung der Determinante geeignet. Der Grund dafür ist die große Anzahl von n! Summanden. Andererseits ermöglichen die
Aussagen DET1–DET6 eine geschicktere Berechnung der Determinante: wir können die Matrix n × n mit
dem Gaußverfahren (d.h. durch geeignetes Vertauschen von Zeilen und Addieren eines Vielfachen einer
Zeile zu einer anderen) auf Zeilenstufenform bringen. Dabei verändert sich dabei der Betrag der Determinante nicht. Das Vorzeichen ändert sich jedesmal, wenn wir zwei Zeilen vertauschen. Und die Determinante
einer Matrix in Zeilenstufenform können wir mit DET6 unmittelbar ausrechnen. Wenn also B die Matrix
in Zeilenstufenform ist, die wir mit dem Gaußschen Eliminationsverfahren bekommen, und k die Anzahl
der Zeilenvertauschungen ist, die wir auf dem Weg von A zu B durchgeführt haben, gilt
det A = (−1)k det B.
Beispiel 6.5 Wir möchten die Determinante von

1
A =  −1
−1
bestimmen. Nach Gauß addieren wir die ersten Zeile
sich die Determinante dabei nicht:

1 0
 0 0
0 2

0 −3
0 4 
2 2
(13)
zur zweiten und dritten Zeile; wegen DET5 ändert

−3
1 
−1
Um die Matrix in Zeilenstufenform zu bringen, brauchen wir nur noch die zweite und dritte Zeile zu tauschen. Dies ergibt


1 0 −3
B =  0 2 −1  .
0 0 1
Nun zeigt DET6, daß det B = 1·2·1 = 2. Die Gesamtzahl der Zeilenvertauschungen, die wir durchgefürht
haben, ist k = 1. Also zeigt DET4, daß det A = (−1)k det B = − det B = −2.
Sei A eine n × n-Matrix. Die Determinante liefert eine generelle Formel für die inverse Matrix A−1
(falls sie existiert) und zur Lösung von linearen Gleichungssystemen Ax = b, die “Cramersche Regel”. Zur
Herleitung derselben bezeichnen wir mit A0(i,j) die (n − 1) × (n − 1)-Matrix, die aus A durch Entfernen
der i-ten Zeile und der j-ten Spalte entsteht. Die zu A komplementäre Matrix ist die n × n-Matrix Ã mit
Einträgen
Ãij = (−1)i+j det A0(j,i)
(i, j ∈ {1, . . . , n}).
Man beachte, daß sich die Indices “umdrehen”!
Beispiel 6.6 Wir bestimmen die komplementäre Matrix von A aus (13). Durch Streichen der ersten Zeile
und der ersten Spalte entsteht die 2 × 2-Matrix
0 4
0
A(1,1) =
2 2
mit Determinante det A0(1,1) = 0 · 2 − 4 · 2 = −8. Streicht man die erste Zeile und die zweite Spalte, so
erhält man
−1 4
A0(1,2) =
.
−1 2
Es gilt A0(1,2) = −1 · 2 − 4 · (−1) = 2. Wenn man die erste Zeile und die dritte Spalte aus A streicht, ergibt
sich die Matrix
−1 0
A0(1,3) =
−1 2
6
DIE DETERMINANTE
21
mit det A0(1,3) = −2. Durch Streichen der zweiten Zeile und der ersten Spalte erhält man analog
A0(2,1)
=
0
2
−3
2
mit det A0(2,1) = 6. Die übrigen Determinanten ergeben sich als
det A0(2,2) = −1, det A0(2,3) = 2,
det A0(3,1) = 0,
det A0(3,2) = 1,
det A0(3,3) = 0.
Die komplementäre Matrix ist also

−8
Ã =  −2
−2
−6
−1
−2

0
−1  .
0
Proposition 6.7 Sei A eine n × n-Matrix und Ã die zu A komplementäre Matrix. Dann gilt
A · Ã = Ã · A = det(A) · id.
Beweis. Wir bestimmen direkt die Einträge der Matrix B = A · Ã. Für i, j ∈ {1, . . . , n} erhalten wir
Bij
=
n
X
Aih Ãhj =
h=1
n
X
Aih · (−1)h+j det A0(j,h) .
(14)
h=1
Um fortzufahren, benötigen wir eine weitere Hilfsmatrix. Wir definieren A00(j,h) als die n × n-Matrix mit
den folgenden Einträgen. Für s, t ∈ {1, . . . , n} ist der Eintrag in der s-ten Zeile und t-ten Spalte von A00(j,h)
• gleich Ast , wenn s 6= j und t 6= h,
• gleich 0, wenn entweder s = j und t 6= h oder s 6= j und t = h,
• gleich 1, wenn s = j und t = h.
Man erhält A00(j,h) also aus A, indem man die Einträge in der j-ten Zeile und der h-ten Spalte durch 0en
ersetzt, außer daß der “Kreuzpunkt”, d.h. der (j, h)-te Eintrag, gleich 1 ist. Indem man j − 1 Zeilen- und
h − 1 Spaltenvertauschungen durchführt, erhält man aus A00(j,h) die Matrix





1
0
..
.
0···0

A0(j,h)


,

(15)
0
deren unterer rechter (n − 1) × (n − 1)-Block gerade die Matrix A0(j,h) ist. Ihre Determinante ist



(−1)j+h det A00(j,h) = det 

1
0
..
.
0···0

A0(j,h)


 = det A0(j,h) ,

0
denn um (15) in Zeilenstufenform bringen, bringt man einfach A0(j,h) in Zeilenstufenform. Wir können
also (14) schreiben als
Bij
=
n
X
h=1
Aih · det A00(j,h) .
(16)
7
ORTHOGONALITÄT
22
(h)
Sei nun A000
, A(j+1) , . . . , A(n) . Dann gilt
(j,h) die Matrix mit den Zeilen A(1) , . . . , A(j−1) , e
det A00(j,h) = det A000
(j,h) .
(17)
Denn indem man geeignete Vielfache der j-ten Zeile der Matrix A000
(j,h) zu den anderen Zeilen addiert, kann
man sie in die Matrix A00(j,h) umformen. Wir bezeichnen ferner mit A0000
(i,j) die n × n-Matrix, die aus A
dadruch entsteht, daß man die j-te Zeile durch die i-te Zeile ersetzt. (Ist insbesondere i = j ist, erhält man
A0000
(i,j) = A.) Mit DET3 wird aus (16) und (17) dann
Bij
=
n
X
0000
Aih · det A000
(j,h) = det A(i,j) .
(18)
h=1
Es gibt nun zwei Fälle.
Fall 1: i = j. Dann ist A0000
(i,j) = A, also zeigt (18), daß Bij = det A.
Fall 2: i 6= j. Die Matrix A0000
(i,j) hat zwei identische Zeilen (nämlich die i-te und die j-te). Aus DET2 folgt
also Bij = 0.
Insgesamt erhalten wir also B = det A · id, wie behauptet. Das Produkt Ã · A kann man entsprechend
berechnen.
2
Korollar 6.8 Wenn A eine n × n-Matrix mit det A 6= 0 ist, gilt A−1 =
1
det A
· Ã.
Korollar 6.9 (“Cramersche Regel”) Sei A eine n × n-Matrix mit det A 6= 0 und b ∈ Rn . Dann gibt es
genau ein x ∈ Rn mit Ax = b, und zwar ist dies der Vektor mit den Komponenten
det A(1) · · · A(i−1) b A(i+1) · · · A(n)
xi =
(i = 1, . . . , n).
det A
In Worten: xi ist die Determinante der n × n-Matrix, die aus A entsteht, wenn man die i-te Spalte von A
durch den Vektor b ersetzt, gebrochen durch die Determinante von A.
Beweis. Der gesuchte Vektor ist x = A−1 b. Mit der Notation aus dem Beweis von Proposition 6.7 erhalten
wir
xi
=
n
X
n
A−1
ij bj =
j=1
=
n
1 X
1 X
bj Ãij =
(−1)i+j bj det A0(j,i)
det A j=1
det A j=1
n
det A(1) · · · A(i−1) b A(i+1) · · · A(n)
1 X
000
,
bj det A(j,i) =
det A j=1
det A
2
wobei die letzte Gleichung aus DET3 folgt.
7
Orthogonalität
Für zwei Vektor x, y ∈ Rn definieren wir das Skalarprodukt
hx, yi =
n
X
xi yi .
i=1
Es gilt hx, yi = hy, xi. Außerdem ist für jeden Vektor y ∈ Rn die Abbildung Rn → R, z 7→ hz, yi linear.
Die euklidische Norm eines Vektors x ∈ Rn ist definiert als
v
u n
p
uX
kxk = hx, xi = t
x2i .
i=1
7
ORTHOGONALITÄT
23
Lemma 7.1 (“Cauchy-Schwarz-Ungleichung”) Für Vektoren x, y ∈ Rn gilt stets | hx, yi | ≤ kxk · kyk.
Beweis. Wir dürfen annehmen, daß x, y 6= 0. Für jede reelle Zahl a gilt
0
≤
2
kx − a · yk = hx − a · y, x − a · yi = hx, xi − 2a hx, yi + a2 hy, yi .
Insbesondere gilt diese Ungleichung für a =
hx,yi
hy,yi .
Setzt man dieses a in (19) ein, ergibt sich
2
0 ≤ hx, xi − 2
(19)
2
hx, yi
hx, yi
+
.
hy, yi
hy, yi
2
Durch Umstellen erhält man die Behauptung.
Korollar 7.2 Die folgenden drei Aussagen gelten für alle x, y ∈ Rn und a ∈ R.
1. kxk = 0 genau dann, wenn x = 0.
2. ka · xk = |a| · kxk.
3. kx + yk ≤ kxk + kyk (“Dreiecksungleichung”).
Beweis. Die ersten und die zweite Behauptung folgen unmittelbar aus der Definition der Norm. Für die
dritte Behauptung berechnen wir
2
kx + yk
= hx + y, x + yi = hx, xi + 2 hx, yi + hy, yi
≤
=
2
2
kxk + 2 kxk kyk + kyk
[nach Cauchy-Schwarz]
2
(kxk + kyk) .
Zieht man auf beiden Seiten die Quadratwurzel, erhält man 3.
Definition 7.3
0.
2
1. Wir nennen zwei Vektoren x, y ∈ Rn orthogonal, in Symbolen x ⊥ y, falls hx, yi =
2. Allgemeiner heißen Vektoren x1 , . . . , xk orthogonal, wenn für je zwei Indices 1 ≤ i < j ≤ k gilt
xi ⊥ xj .
3. Fernen heißen x1 , . . . , xk orthonormal, wenn x1 , . . . , xk orthogonal sind und kxi k = 1 für alle
i ∈ {1, . . . , k}.
4. Sei E ein Vektorraum. Wir nennen x1 , . . . , xk eine Orthonormalbasis von E, falls x1 , . . . , xk eine
Basis von E ist und die Vektoren x1 , . . . , xk orthonormal sind.
Beispielsweise bilden die Vektoren e(1) , . . . , e(n) eine Orthonormalbasis des Rn . Das Hauptergebnis
dieses Abschnittes ist der folgende Satz.
Satz 7.4 Jeder Vektorraum hat eine Orthonormalbasis.
Beweis. Wir führen Induktion über die Dimension des Vektorraums E. Nach Satz 4.8 hat E eine Basis
x1 , . . . , xn (wobei n = dim E). Ist n = 1, so ist y1 = x1 / kx1 k eine Orthonormalbasis.
Im Fall n > 1 konstruieren wir aus x1 , . . . , xn die gewünschte Orthonormalbasis mit dem sogenannten
Gram-Schmidt-Verfahren. Dazu definieren wir y1 = kxx11 k und
E 0 = {z ∈ E : hz, y1 i = 0} .
Diese Menge E 0 ist ein Untervektorraum von E. Sei m = dim E 0 seine Dimension. Weil hy1 , y1 i =
hx1 ,x1 i
= 1, gilt y1 6∈ E 0 . Also ist E 0 eine echte Teilmenge von E, und folglich m < n. Nach Induktion
kx k2
1
7
ORTHOGONALITÄT
24
hat E 0 also eine Orthonormalbasis w1 , . . . , wm . Wir behaupten, daß y1 , w1 , . . . , wm eine Orthonormalbasis
von E ist.
Daß die Vektoren y1 , w1 , . . . , wm orthonormal sind, folgt unmittelbar aus der Konstruktion. Sind ferner
a1 , b1 , . . . , bm reelle Zahlen, so daß
a1 y1 + b1 w1 + · · · + bm wm = 0,
so folgt
0 = ha1 y1 + b1 w1 + · · · + bm wm , y1 i = a1 hy1 , y1 i +
m
X
2
bk hwk , y1 i = a1 ky1 k = a1 .
k=1
Weil ferner w1 , . . . , wm eine Orthonormalbasis von E 0 ist und somit w1 , . . . , wm linear unabhängig sind,
folgt b1 = · · · = bm = 0. Also sind die Vektoren y1 , w1 , . . . , wm linear unabhängig.
Ist schließlich v ∈ E ein Vektor, so betrachte u = v − hv, y1 i y1 . Es gilt
2
hu, y1 i = hv, y1 i − hv, y1 i · hy1 , y1 i = hv, y1 i − hv, y1 i · ky1 k = 0,
Pm
also u ∈ E 0 . Folglich existieren c1 , . . . , cm mit u =
k=1 bk wk . Setzen wir ferner d1 = hv, y1 i, so
erhalten wir
m
X
v = d 1 y1 +
bk wk .
k=1
Dies zeigt E = [y1 , w1 , . . . , wm ]. Also ist y1 , w1 , . . . , wm eine Orthonormalbasis von E.
In obigem Beweis haben wir folgendes beobachtet.
2
Korollar 7.5 Wenn die Vektoren x1 , . . . , xn orthonormal sind, sind sie linear unabhängig.
Das Gram-Schmidt-Verfahren aus dem obigen Beweis hat die folgende Konsequenz. Ist x1 , . . . , xn
eine Orthonormalbasis eines Vektorraums E, so läßt sich jeder Vektor v ∈ E schreiben als
v=
n
X
hv, xi i xi .
i=1
Die Zahlen hv, xi i heißen die Fourierkoeffizienten von v bezüglich der Basis x1 , . . . , xn . Insbesondere
gilt
n
X
2
2
kvk =
hv, xi i .
i=1
Der Begriff der Orthogonalität führt auf eine natürliche Zerlegung von Vektorräumen. Sei E ein Vektorraum und F ⊂ E ein Untervektorraum. Das orthogonale Komplement von F in E ist
F ⊥ = {x ∈ E : für alle y ∈ F gilt x ⊥ y} .
Die Menge F ⊥ ist ein Untervektorraum von E.
Proposition 7.6 Sei E ein Vektorraum und F ⊂ E ein Untervektorraum. Die Abbildung f : F ×F ⊥ → E,
(x, y) 7→ x + y ist bijektiv und es gilt dim F + dim F ⊥ = dim E.
Beweis. Sei x1 , . . . , xn eine Orthonormalbasis von F und y1 , . . . , ym eine Orthonormalbasis von F ⊥ . Wir
behaupten, daß x1 , . . . , xn , y1 , . . . , ym eine Orthonormalbasis von E ist. Aus der Definition von F ⊥ folgt
unmittelbar, daß die Vektoren x1 , . . . , xn , y1 , . . . , ym orthonormal und damit linear unabhängig sind. Zu
einem Vektor z ∈ E betrachten wir nun
z0 = z −
n
X
i=1
hz, xi i xi .
(20)
7
ORTHOGONALITÄT
25
Für jeden Vektor xj , j = 1, . . . , n, gilt
hz 0 , xj i = hz, xj i −
n
X
hz, xi i hxi , xj i = hz, xj i − hz, xj i = 0.
i=1
Die zweite Gleichung folgt aus der Orthonormalität von x1 , . . . , xn . Weil x1 , . . . , xn eine Basis von F ist,
können wir schließen, daß hz 0 , xi = 0 für alle x ∈ F . Also gilt z 0 ∈ F ⊥ , und somit
z0 =
m
X
hz 0 , yi i yi .
(21)
i=1
Aus (20) und (21) folgt, daß sich jeder Vektor z ∈ E darstellen läßt als
z=
n
X
hz, xi i xi +
i=1
m
X
hz, yi i yi ,
i=1
d.h. x1 , . . . , xn , y1 , . . . , ym ist eine Basis von E.
2
n
Seien x1 , . . . , xn ∈ R orthonormal. Die n × n-Matrix A mit Spalten x1 , . . . , xn stellt die lineare
Abbildung, die den Vektor e(i) auf xi abbildet (i = 1, . . . , n), dar. Weil x1 , . . . , xn die Spalten von A sind,
sind diese Vektoren genau die Zeilen der transponierten Matrix AT . Das Produkt B = AT · A hat daher die
Einträge Bij = hxi , xj i, d.h. B = id. Das bedeutet, daß AT = A−1 . Wenn umgekehrt die n × n-Matrix A
die Eigenschaft AT = A−1 hat, dann sind die Spalten von A orthonormal. Wir geben Matrizen mit dieser
Eigenschaft einen besonderen Namen.
Definition 7.7 Eine n × n-Matrix A heißt orthogonal, wenn AT A = id.
Im Zusammenhang mit dem Skalarprodukt spielt die transponierte Matrix eine besondere Rolle: ist A
eine n × n-Matrix und sind x, y ∈ Rn , so gilt
hAx, yi = x, AT y ,
(22)
wie man leicht nachrrechnet. In der Tat ist AT die einzige Matrix mit dieser Eigenschaft: wenn B eine
Matrix ist, so daß
hAx, yi = hx, Byi
für alle x, y ∈ Rn ,
so gilt B = AT . (Der Nachweis dieser Tatsache ist eine gute Übung.)
Lemma 7.8 Wenn A eine orthogonal Matrix ist, dann gilt hAx, Ayi = hx, yi für alle x, y. Ferner ist AT
orthogonal.
Beweis. Mit (22) erhalten wir hAx, Ayi = x, AT Ay = hx, id yi = hx, yi. Außerdem ist A invertierbar.
Deshalb trifft dies auch auf AT zu, und (AT )−1 = (A−1 )T = (AT )T = A.
2
Lemma 7.9 Wenn A, B orthogonale n × n-Matrizen sind, dann ist A · B orthogonal.
Beweis. Es gilt (AB)T AB = B T AT AB = B T idB = B T B = id.
2
Beispiel 7.10 Der Vektorraum Rn hat die
e(1) , . . . , e(n) , aber es gibt viele andere. Bei Orthonormalbasis
1
−1
1
1
spielsweise bilden die Vektoren √2 −1 , √2 1 eine Orthonormalbasis des R2 , die aus der Orthonor malbasis 10 , 01 durch Rotation um 45◦ entsteht. Die Matrix
1
1 −1
√
−1 1
2
ist also orthogonal. Allgemeiner ist die Matrix,
cos α
sin α
− sin α
cos α
,
8
EIGEN- UND SINGULÄRWERTE
26
2
welche die Rotation um
den
Winkel α in R darstellt, orthogonal. Eine weitere Orthonormalbasis besteht
−1
0
aus den Vektoren 0 , 1 , die geometrisch durch Spieglung der horizontalen Achse entsteht. Die entsprechende Matrix ist
−1 0
.
0 1
8
Eigen- und Singulärwerte
Sei f : E → E 0 eine lineare Abbildung zwischen zwei n-dimensionalen Vektorräumen. Wir erinnern uns
an das Ziel, “schöne” Basen A, B von E, E 0 zu finden, so daß die Matrix MA,B (f ) möglichst einfach ist.
Genauer werden wir zeigen, daß dies für Orthonormalbasen A, B möglich ist. Die Kernbegriffe in diesem
Unterfangen sind folgende.
Definition 8.1 Sei A eine n × n-Matrix.
1. Eine reelle Zahl k heißt Eigenwert von A, wenn es einen Vektor x 6= 0 gibt, so daß Ax = k · x.
2. Entsprechend heißt ein Vektor x 6= 0 Eigenvektor von A, falls Ax ∈ [x].
3. Die Matrix A heißt symmetrisch, wenn AT = A.
Mit diesen Begriffen können wir nun folgenden Satz formulieren.
Satz 8.2 Zu jeder symmetrischen n × n-Matrix A existieren eine orthogonale n × n-Matrix U und reelle
Zahlen k1 , . . . , kn , so daß
U T AU = diag(k1 , . . . , kn ).
(23)
Die Zahlen k1 , . . . , kn sind genau die Eigenwerte von A, und die Spalten von U bilden eine Orthonormalbasis, die aus Eigenvektoren von A besteht.
Satz 8.2 besagt, daß bezüglich der Orthonormalbasis A, die aus den Spalten U (1) , . . . , U (n) besteht,
die darstellende Matrix der linearen Abbildung f : Rn → Rn , x 7→ Ax, einfach die Diagonalmatrix
diag(k1 , . . . , kn ) ist. In Symbolen,
MA,A (f ) = diag(k1 , . . . , kn ).
Das bedeutet, daß wir uns die lineare Abbildung f in der Basis A hervorragend veranschaulichen können: f
“streckt” einfach den Basisvektor U (i) um den Faktor ki , für i = 1, . . . , n. Man nennt die Darstellung (23)
Diagonalisierung der Matrix A. Eine Matrix A, die eine solche Darstellung zuläßt, heißt diagonalisierbar.
Es stellen sich nun zwei offensichtliche Fragen. Erstens (aus Sicht der Mathematik): wie beweisen
wir Satz 8.2? Zweitens (aus Sicht der Praxis): wie finden wir die Matrix U zu einem gegebenen A? Im
folgenden entwickeln wir simultan die Antwort auf diese beiden Fragen.
Wir beginnen mit einer einfachen Beobachtung. Wenn k ein Eigenwert der Matrix A ist, sind die Eigenvektoren von A zum Eigenwert k genau die Lösungen x des linearen Gleichungssystems
(A − k · id)x = 0.
(24)
Wenn wir also die Eigenwerte von A kennen, können wir die zugehörigen Eigenvektoren mit dem Gaußschen Eliminationsverfahren bestimmen.
Ferner zeigt (24), daß die Matrix A − k · id genau dann nicht invertierbar ist, wenn k ein Eigenwert
von A ist. Denn wenn k ein Eigenwert von A ist, hat die Matrix A − k · id Rang kleiner als n und ist nach
Korollar 5.6 nicht invertierbar. Die Eigenschaft DET8 der Determinante zeigt also, daß k genau dann ein
Eigenwert von A ist, wenn
det(A − k · id) = 0.
(25)
Es liegt daher nahe, die Funktion
PA : R → R,
z 7→ det(A − z · id)
8
EIGEN- UND SINGULÄRWERTE
27
zu betrachten. Nach Definition der Determinate kann man diese Funktion schreiben in der Form
PA (z) = cn z n + cn−1 z n−1 + · · · + c1 z + c0 ,
wobei c0 , . . . , cn reelle Zahlen sind (die selbstverständlich von A abhängen). Eine solche Funktion nennt
man ein Polynom, und PA heißt das charakteristische Polynom von A. Wir können nun (25) wie folgt
formulieren.
Eine reelle Zahl k ist genau dann ein Eigenwert von A, wenn PA (k) = 0.
(26)
Wenn wir die Eigenwerte und Eigenvektoren von A bestimmen wollen, gehen wir also wie folgt vor.
DIAG1. Bestimme die Menge {k ∈ R : PA (k) = 0}, die sogenannten Nullstellen von PA . Ihre Elemente
sind die Eigenwerte von A.
DIAG2. Zu jeder Nullstelle k von PA bestimme die Lösungen x des linearen Gleichungssystems (24).
Während wir für DIAG2 ein systematisches Verfahren haben (die Gaußsche Eliminationsmethode), ist
kein solches allgemeines Verfahren für DIAG1 bekannt. Dieser Schritt muß praktisch mit Hilfe von Heuristiken und/oder Approximationsverfahren durchgeführt werden. Im folgenden überlegen wir uns gleichwohl, daß das Verfahren DIAG1–DIAG2 im Prinzip die in Satz 8.2 versprochene orthogonale Matrix
produziert. Dazu benötigen wir die folgende Aussage, deren Beweis über den Rahmen dieser Vorlesung
hinausgeht.
Lemma 8.3 Wenn A eine symmetrische Matrix ist, dann existieren ein n-Tupel (k1 , . . . , kn ) reeller Zahlen
und q ∈ {−1, 1}, so daß
n
Y
PA (z) = q ·
(z − ki ).
i=1
Die (nicht notwendigerweise verschiedenen) Zahlen k1 , . . . , kn sind also genau die Nullstellen des
Polynoms PA (z). Mit Hilfe von Lemma 8.3 führen wir nun den
Beweis von Satz 8.2. Wir führen Induktion über die Größe n der Matrix. Im Fall n = 1 hat die Matrix
A selbst bereits die gewünschte Form und wir wählen einfach U = (1) und k1 = A11 . Sei nun n > 1.
Lemma 8.3 zeigt, daß es eine reelle Zahl k1 gibt mit PA (k1 ) = 0. Nach (26) hat A einen Eigenvektor
x1 6= 0 mit Eigenwert k1 . Sei F1 = [x1 ]. Der Vektorraum F1⊥ besitzt eine Orthonormalbasis x2 , . . . , xn .
Sei U1 die orthogonale Matrix mit Spalten x1 , . . . , xn . Weil x1 ein Eigenvektor und A symmetrisch ist,
gibt es eine (n − 1) × (n − 1)-Matrix A0 , so daß


k1 0 · · · 0
 0



U1T AU1 =  .
.
A0 
 ..
0
Nach Induktion gibt es eine orthonormale (n − 1) × (n − 1)-Matrix U2 und reelle Zahlen k2 , . . . , kn , so
daß
U2T A0 U2 = diag(k2 , . . . , kn ).
Sei nun U die n × n-Matrix



U = U1 

1
0
..
.
0···0

U2


.

0
Nach Lemma 7.9 ist U orthogonal. Ferner gilt

k1
0···0
 0

U T AU =  .
U2T A0 U2
 ..
0



 = diag(k1 , . . . , kn ),

8
EIGEN- UND SINGULÄRWERTE
28
2
wie behauptet.
Beispiel 8.4 Wir diagonalisieren die Matrix
A=
−1
1
1
.
1
Ihr charakteristisches Polynom lautet
PA (z)
=
−1 − z
det(A − zid) = det
1
=
(−1 − z) · (1 − z) − 1 · 1 = z 2 − 2 = (z −
1
1−z
√
2) · (z +
√
2).
√
Die Nullstellen
des charakteristischen Polynoms, und damit die Eigenwerte von A, sind also k1 = − 2
√
und k2 = 2. Um auch die Eigenvektoren zu bestimmen, lösen wir die beiden linearen Gleichungssysteme
√
−1 + 2
1√
(A − k1 id)x =
x = 0,
(27)
1
1+ 2
√
1√
−1 − 2
(A − k2 id)x =
x = 0.
(28)
1
1− 2
Das Ergebnis ist, daß die Lösungsmenge von (27) gerade [v1 ] ist, wobei
√ 1/(1 − 2)
.
v1 =
1
Die Lösungsmenge von (28) ist [v2 ], wobei
v2 =
1/(1 +
1
√ 2)
.
Also ist v1 ein Eigenvektor von A zum Eigenwert k1 und v2 ein Eigenvektor von A zum Eigenwert k2 . Die
Norm dieser Vektoren ist
s
s
1
1
√
√ .
kv1 k = 1 +
,
kv2 k = 1 +
2
(1 − 2)
(1 + 2)2
Die beiden Vektoren
−1/2 √ 1/(1 − 2)
,
1
(1 − 2)2
−1/2 √ 1
1
1/(1 + 2)
√
v2 = 1 +
u2 =
1
kv2 k
(1 + 2)2
1
u1 =
v1 =
kv1 k
1+
1
√
bilden also eine Orthonormalbasis des R2 , die aus Eigenwerten besteht. Wenn U die Matrix mit den Spalten u1 , u2 ist, dann ist U orthogonal und
k1 0
T
U AU =
.
0 k2
Leider erfaßt Satz 8.2 nur symmetrische Matrizen und in der Tat gibt es Matrizen, die nicht symmetrisch sind, für die keine Zerlegung der Form (23) existiert. Allerdings kann man die Matrix in Diagnalform
bringen, indem man links und rechts mit zwei möglicherweise verschiedenen orthogonalen Matrizen multipliziert.
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
29
Satz 8.5 Sei A eine m × n-Matrix. Dann existieren eine orthogonal m × m-Matrix V , eine orthogonale
n × n-Matrix U und eine m × n-Matrix D in Diagonalform, so daß V T AU = D.
Beweis. Wir beschäftigen uns zunächst mit dem Spezialfall, daß A eine invertierbare n × n-Matrix ist. Weil
die Matrix AT A ist symmetrisch ist, kann man sie nach Satz 8.2 schreiben als
U T (AT A)U = diag(k1 , . . . , kn ).
Dabei sind k1 , . . . , kn von Null verschieden, weil A invertierbar ist. Wir behaupten nun, daß die Vektoren
AU (1) , . . . , AU (n) orthogonal sind. Denn für je zwei Indices 1 ≤ i < j ≤ n gilt
E
D
E D
E
D
=
AT AU (i) , U (j) = U diag(k1 , . . . , kn )U T U (i) , U (j)
AU (i) , AU (j)
E
E D
D
=
diag(k1 , . . . , kn )U T U (i) , U T U (j) = diag(k1 , . . . , kn )e(i) , e(j)
E
D
= ki e(i) , e(j) = 0.
Analog gilt für alle i = 1, . . . , n
2 D
E
D
E
AU (i) = AU (i) , AU (i) = ki e(i) , e(i) = ki 6= 0.
Die Vektoren
1
(i)
vi = AU (i) AU
(i = 1, . . . , n)
sind also orthonormal. Folglich ist die Matrix V mit den Spalten v1 , . . . , vn orthogonal. Wir definieren
D
E
di = AU (i) , vi
und D = diag(d1 , . . . , dn ). Sei nun B = V DU T . Für i = 1, . . . , n erhalten wir
AU (i) , AU (i)
(i)
(i)
T
(i)
(i)
· AU (i) = AU (i) = AU e(i) .
BU e = BU = (V DU )U = V De = di vi =
AU (i) 2
Folglich gilt BU = AU , weshalb V DU T = B = A.
Wir befassen uns nun mit dem Fall, daß A keine invertierbare n×n-Matrix
ist. In diesem
Fall betrachten
wir E = {x ∈ Rn : Ax = 0} ⊂ Rn , den Kern von A, und F = A(1) , . . . , A(n) ⊂ Rm , den von
den Spalten von A aufgespannten Raum. Nach Korollar 5.3 haben die beiden Vektorräume E ⊥ und F
dieselbe Dimension l und die lineare Abbildung f : E ⊥ → F , x 7→ Ax ist invertierbar. Nach dem soeben
gezeigten existieren also Orthonormalbasen A0 , B 0 von E ⊥ und F sowie eine Diagonalmatrix D0 , so daß
MA0 ,B0 (f ) = D0 . Seien A00 , B 00 nun Orthonormalbasen von E und F ⊥ . Fügen wir A0 und A00 zu A sowie
B 0 und B 00 zu B zusammen, so erhalten wir eine Orthonormalbasis A von Rn und eine Orthonormalbasis B
von Rm . Sei schließlich D die m × n-Matrix in Diagonalform deren einzige von Null verschiede Einträge
0
die Einträge Dii = Dii
für i = 1, . . . , l sind. Dann ist MA,B (A) = D. Die Spalten von A und B bilden
also orthogonale Matrizen U und V , so daß A = V T DU .
2
T
Die Darstellung A = V DU aus Satz 8.5 nennt sich die Singulärwertzerlegung von A. Die Diagonaleinträge der Matrix D heißen entsprechend die Singulärwerte von A.
9
Projektionen und quadratische Formen
Eine n × n-Matrix B induziert eine Abbildung
qB : Rn → R,
x 7→ hBx, xi ,
die quadratische Form von B. In der Tat gibt es zu jeder n × n-Matrix B eine symmetrische n × n-Matrix
A, so daß qA = qB , nämlich die Matrix A = 12 (B + B T ). Die symmetrische Matrix A hat eine Zerlegung
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
30
Abbildung 1: die quadratische Form x21 + x22 .
A = U DU T , wobei D = diag(k1 , . . . , kn ) in Diagonalform und U orthogonal ist. Schreiben wir den
Vektor x in der Form
n D
E
X
x=
x, U (i) U (i) ,
i=1
erhalten wir
hAx, xi =
=
=
U DU T x, x = DU T x, U T x
n X
n D
ED
ED
E
X
x, U (i) x, U (j) DU T U (i) , U T U (j)
i=1 j=1
n D
X
x, U (i)
n
E2 D
E X
D
E2
DU T U (i) , U T U (i) =
ki x, U (i) .
i=1
i=1
Beispiel 9.1
1. Die quadratische Form, die der Matrix A =
x1
q
x2
1
0
0
entspricht, ist
1
= x21 + x22 .
Ihr Graph ist in Abbildung 1 dargestellt.
2. Die quadratische Form, die der Matrix A =
x1
q
x2
1
0
0
entspricht, ist
−1
= x21 − x22 .
Ihr Graph ist in Abbildung 2 dargestellt.
Die Matrizen A, so daß qA (x) = hAx, xi ≥ 0 für alle x ∈ Rn , spielen eine besondere Rolle.
(29)
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
31
Abbildung 2: die quadratische Form x21 − x22 .
Definition 9.2 Eine n × n-Matrix A heißt positiv semidefinit, wenn A symmetrisch ist und hAx, xi ≥ 0
für alle x ∈ Rn .
Proposition 9.3 Seien A, B n × n-Matrizen und sei a ≥ 0 reell.
1. A ist genau dann positiv semidefinit, wenn A symmetrisch ist und alle Eigenwerte von A größer oder
gleich Null sind.
2. A ist genau dann positiv semidefinit, wenn es eine symmetrische Matrix C gibt, so daß A = C 2 .
3. Wenn A und B positiv semidefinit sind, dann ist auch A + B positiv semidefinit.
4. Wenn A positiv semidefinit ist, dann ist auch a · A positiv semidefinit.
5. Die Matrix AT A ist positiv semidefinit.
Beweis. ad 1.: Sei A eine symmetrische Matrix. Dann
existiert die Zerlegung (23). Angenommen A ist
positiv semidefinit. Dann gilt für die Eigenwerte ki = AU (i) , U (i) ≥ 0 für alle i = 1, . . . , n. Nehmen
wir umgekehrt an, daß ki ≥ 0 für i = 1, . . . , n, dann zeigt (29), daß hAx, xi = qA (x) ≥ 0. Somit ist A
positiv semidefinit.
ad 2.: Wenn A = C 2 für eine symmetrische Matrix C, dann gilt für alle x ∈ Rn
2
hAx, xi = C 2 x, x = hCx, Cxi = kCxk ≥ 0.
Ist umgekehrt A positiv semidefinit, so wissen wir aus 1., daß die Eigenwerte k1 , . . . , kn in der Zerlegung (23) größer oder gleich Null sind. Wir können also die Matrix C definieren als
p
p
C = U T diag( k1 , . . . , kn )U.
Quadrieren wir diese Matrix, erhalten wir
p
p
p
p
C 2 = (U T diag( k1 , . . . , kn )U ) · (U T diag( k1 , . . . , kn )U )
p
p
= U T diag( k1 , . . . , kn )2 U = U T diag(k1 , . . . , kn )U = A.
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
32
ad 3.: Für x ∈ Rn gilt h(A + B)x, xi = hAx, xi + hBx, xi ≥ 0, weil A, B positiv semidefinit sind.
ad 4: Für x ∈ Rn gilt ha · Ax, xi= a · hAx, xi ≥ 0, weil A positiv semidefinit ist.
2
ad 5: Für x ∈ Rn gilt AT Ax, x = hAx, Axi = kAxk ≥ 0.
2
Wir befassen uns schließlich noch mit einer besonderen Art von semidefiniten Matrizen.
Definition 9.4 Eine n × n-Matrix A heißt Orthogonalprojektion oder einfach Projektion, falls A positiv
semidefinit ist und A2 = A.
Proposition 9.5 Eine symmetrische n × n-Matrix A ist eine Projektion genau dann, wenn alle ihre Eigenwerte gleich 0 oder 1 sind.
Beweis. Wenn A eine Projektion ist, ist A insbesondere symmetrisch. Folglich existiert die Zerlegung (23).
Es gilt
A2 = (U T diag(k1 , . . . , kn )U )2
= U T diag(k1 , . . . , kn )U · U T diag(k1 , . . . , kn )U
= U T diag(k12 , . . . , kn2 )U.
(30)
Weil A2 = A, erhalten wir
U T diag(k1 , . . . , kn )U = A = A2 = U T diag(k12 , . . . , kn2 )U
und folglich diag(k1 , . . . , kn ) = diag(k12 , . . . , kn2 ). Es gilt also ki2 = ki woraus ki ∈ {0, 1} folgt für
i = 1, . . . , n.
Wenn umgekehrt A symmetrisch ist mit Eigenwerten k1 , . . . , kn ∈ {0, 1}, zeigt (30), daß
A2 = U T diag(k12 , . . . , kn2 )U = U diag(k1 , . . . , kn )U = A,
2
also ist A eine Projektion.
Projektionen sind im Grunde nichts anderes als Untervektorräume. Genauer gilt folgendes.
Proposition 9.6
1. Zu jedem Untervektorraum E ⊂ Rn existiert eine Projektion A, so daß E ⊥ der
Kern von A ist und E = {Ax : x ∈ Rn }.
2. Ist umgekehrt A eine Projektion mit Kern F , so ist F ⊥ der von den Spalten von A aufgespannte
Vektorraum.
Beweis. ad 1.: der Vektorraum E hat eine Orthonormalbasis x1 , . . . , xk und E ⊥ besitzt eine Orthonormalbasis xk+1 , . . . , xn . Die Matrix U mit den Spalten x1 , . . . , xn ist orthogonal und wir definieren
A = U T diag(1, . . . , 1, 0, . . . , 0)U.
| {z }
k Stück
Dann ist A die gesuchte Projektion.
ad 2.: Die Matrix A hat eine Zerlegung der Form (23) mit k1 , . . . , kn ∈ {0, 1}. Sei
I = {i ∈ {1, . . . , n} : ki = 1} .
Dann ist der Kern F von A genau der von den Spalten U (i) , i 6∈ I, aufgespannte Raum. Weil U (1) , . . . , U (n)
eine Orthonormalbasis ist, ist folglich F ⊥ der von U (i) , i ∈ I, aufgespannte Raum. Dies sind genau die
Spalten von A.
2
10
10
AUSBLICK: KOMPLEXE UND ALLGEMEINE VEKTORRÄUME
33
Ausblick: komplexe und allgemeine Vektorräume
In den vergangegen Abschnitten haben wir uns mit Untervektorräumen des Rn befaßt. Allerdings können
viele der angestellten Überlegungen weitgehend verallgemeinert werden. Die naheliegendste Verallgemeinerung besteht darin, Vektorräume über den komplexen Zahlen C zu definieren. Dazu diskutieren wir
zunächst die kompexen Zahlen C.
Als Menge definieren wir C = R × R. Die Paare (x, y) ∈ C schreiben wir in der Form x + iy; das
Symbol i nennen wir die imaginäre Einheit, während x der Realteil und y der Imaginärteil von x + iy
heißt. Man kann sich die komplexe Zahl x + iy also als einen Punkt in der Ebene vorstellen (“komplexe
Zahlenebene”). Wir führen nun folgende Rechenregeln ein: wir definieren
(x + iy) + (s + it)
=
(x + s) + i(y + t),
(x + iy) · (s + it)
=
(xs − yt) + i(ys + xt).
Insbesondere gilt also
i2 = (0 + i1)2 = −1.
Mit anderen Worten: die imaginäre Einheit i ist eine Quadratwurzel von −1. Ferner definieren wir die
konjugierte komplexe Zahl von x + iy als
x + iy = x − iy.
Der Betrag von x + iy wird definiert als
|x + iy| =
q
p
x2 + y 2 = (x + iy) · (x + iy).
Mit 0 bezeichnen wir die komplexe Zahl 0 + i0 und mit 1 die komplexe Zahl 1 + i0. Man prüft nach, daß
mit diesen Definitionen die von R gewohnten Rechenregeln gelten. Insbesondere hat jede komplexe Zahl
x + iy 6= 0 ein multiplikatives Inverses, nämlich
1
x
y
= (x + iy)−1 = 2
−i 2
.
x + iy
x + y2
x + y2
(Allerdings ist es nicht möglich, die Ordnung der reellen Zahlen (“≤”) auf C zu übertragen.)
Die in den Abschnitten 2–6 angestellten Betrachtungen lassen sich problemlos von R auf C übetragen.
Das bedeutet, dass wir Vektoren in Cn und Matrizen mit komplexen Einträgen genauso behandeln können.
Auch das Material der Abschnitte 7–9 kann auf C verallgemeinert werden, allerdings mit einigen subtilen
Änderungen. Beispielsweise definieren man das Skalarprodukt für x, y ∈ Cn als
hx, yi =
n
X
xi ȳi .
i=1
Für eine eingehende Behandlung komplexer Vektorräume sei auf [3] verwiesen.
Bei genauerer Betrachtung stellt sich heraus, daß die Begriffe und Konzepte der linearen Algebra eine
noch deutlich weitergehende Verallgemeinerung zulassen. Im wesentlichen ist die Grundvoraussetzungen,
um lineare Algebra betreiben zu können, daß man eine Addition von Vektoren mit sowie eine Multiplikation von Vektoren mit “Skalaren” (z.B. reellen oder komplexen Zahlen) mit gewissen natürlichen Eigenschaften erklären kann. Dies führt auf den allgemeinen Vektorraumbegriff, für den wir wiederum auf [3]
verweisen.
Ein Beispiel eines allgemeineren Vektorraums ist die Menge E aller Funktion f : R → R. Wir können
zwei solche Funktionen addieren, indem wir zu f, g ∈ E einfach f + g : R → R als die Abbildung
x 7→ f (x) + g(x) definieren. Entsprechend definieren wir zu a ∈ R und f ∈ E das Produkt a · f als die
Abbildung R → R, x 7→ a · f (x). Allerdings gibt es einen wesentlichen Unterschied zwischen diesem
Vektorraum E und den bisher behandelten Vektorräumen: der Vektorraum E hat zwar eine Basis, aber
keine, die aus endlich vielen Vektoren besteht. Um derartige Vektorräume sinnvoll zu behandeln, müssen
wir uns mit einem weiteren Teilgebiet der Mathematik befassen, der Analysis. Diese ist Thema der zweiten
Hälfte der Vorlesung.
11
FOLGEN UND REIHEN
11
34
Folgen und Reihen
Das Thema des nun folgenden zweiten Abschnittes der Vorlesung ist die Analysis zunächst auf R, dann
auch auf Rn . Wir beginnen mit dem Begriff des Grenzwertes. Eine Folge reeller Zahlen ist eine Abbildung
N → R, n 7→ an , die man häufig in der Form (an )n∈N schreibt.
Definition 11.1 Eine Zahl x ∈ R heißt Grenzwert oder Limes der Folge (an )n∈N , wenn folgende Bedingung erfüllt ist.
Zu jeder reellen Zahl ε > 0 existiert eine Zahl N (ε) ∈ N, so daß für alle n > N (ε) gilt
|an − x| < ε.
In diesem Fall schreibt man x = limn→∞ an und sagt, daß (an )n∈N gegen x konvergiert.
Beispiel 11.2 Die Folge (an )n∈N mit an = 1/n hat den Grenzwert 0. Denn zu gegebenem ε > 0 definieren
wir N (ε) = 1/ε. Für alle n > N (ε) gilt dann |an − 0| = an = 1/n < ε.
Der Begriff des Grenzwerts ist eng verbunden mit dem folgenden Konzept. Sei A ⊂ R eine Menge
reeller Zahlen. Wir nennen eine Zahl x ∈ R eine obere Schranke für A, falls für alle a ∈ A gilt a ≤ x.
Analog heißt y ∈ R eine untere Schranke für A, falls für alle a ∈ A gilt a ≥ y. Die Menge A heißt nach
oben/unten beschränkt, falls sie eine obere/untere Schranke hat. Falls beides zutrifft, nennt man A einfach
beschränkt.
Sei A eine nach oben beschränkte Menge. Wir nennen x ∈ R das Supremum von A, falls x eine
obere Schranke von A ist und für jede obere Schranke z von A gilt z ≥ x. Entsprechend heißt y ∈ R das
Infimum einer nach unten beschränkten Menge A, falls y eine untere Schranke von A ist und für jede untere
Schranke z von A gilt z ≤ y. Die folgende Tatsache werden wir nicht beweisen, weil dies eine genauere
Beschäftigung mit den reellen Zahlen voraussezten würde, als der Rahmen dieser Vorlesung erlaubt.
Fakt 11.3 Jede nach oben beschränkte Menge A ⊂ R hat ein Supremum, und jede nach unten beschränkte
Menge hat ein Infimum.
Beispiel 11.4 Sei A die Menge aller x ∈ R mit x2 < 3. Die Menge √
A ist beschränkt, denn jedes x ∈ A
3, als auch ein Infimum, und zwar
erfüllt
−2
≤
x
≤
2.
Folglich
hat
A
sowohl
ein
Supremum,
nämlich
√
−√3. Diese Beispiel zeigt insbesondere, daß Fakt 11.3 in den rationalen Zahlen Q nicht zutrifft, denn
± 3 sind irrational.
Wir nennen eine Folge (an )n∈N nach oben/unten beschränkt, falls die Menge {an : n ∈ N} diese
Eigenschaft hat. Ferner heißt (an )n∈N monoton wachsend, falls an+1 ≥ an für alle n ∈ N, und monoton
fallend, falls an+1 ≤ an für alle n ∈ N. Falls diese Bedingungen mit > statt ≥ bzw. mit < statt ≤ erfüllt
sind, spricht man von einer streng monoton wachsenden/fallenden Folge.
Proposition 11.5 Sei (an )n∈N eine Folge.
1. Wenn (an )n∈N monoton wachsend und nach oben beschränkt ist, dann konvergiert diese Folge gegen
sup {an : n ∈ N}.
2. Wenn (an )n∈N monoton fallend und nach unten beschränkt ist, dann konvergiert diese Folge gegen
inf {an : n ∈ N}.
Beweis. Wir zeigen nur 1.; die zweite Behauptung folgt daraus, indem man zu der Folge (−an )n∈N übergeht. Sei also s = sup {an : n ∈ N} und sei ε > 0. Weil s das Supremum ist, gibt es ein N (ε), so daß
aN ≥ s − ε. Für alle n > N (ε) gilt folglich s ≥ an ≥ aN ≥ s − ε.
2
Beispiel 11.6 Sei 0 ≤ b < 1. Die Folge (an )n∈N mit an = bn hat den Grenzwert 0. Denn diese Folge ist
monoton fallend und ihr Infimum ist 0.
Sei (an )n∈N eine Folge und (mn )n∈N eine streng monoton wachsende Folge. Dann ist (amn )n∈N eine
Folge, die wir eine Teilfolge von (an )n∈N nennen.
11
FOLGEN UND REIHEN
35
Lemma 11.7 Jede Folge (an )n∈N hat eine Teilfolge, die monoton wachsend ist, oder eine Teilfolge, die
monoton fallend ist.
Beweis. Sei B die Menge aller Zahlen n ∈ N, so daß an > aj für alle j > n. Wir betrachten zwei Fälle.
Fall 1: die Menge B ist unendlich. Sei (mn )n∈N streng monoton wachsend, so daß {mn : n ∈ N} ⊂ B.
Dann ist die Folge (amn )n∈N (streng) monoton fallend.
Fall 2: die Menge B ist endlich. Dann hat B eine obere Schranke n0 ∈ N. Wir konstruieren die Folge
mn induktiv, beginnend mit m1 = n0 + 1. Wenn mn bereits definiert ist, definieren wir
Cn+1 = {k ∈ N : ak ≥ amn , k > mn } .
Diese Menge ist nicht leer, weil mn 6∈ B. Sei also mn+1 = min Cn+1 . Dann ist (amn )n∈N monoton
wachsend.
2
Können wir einer Folge irgendwie ansehen, ob sie konvergiert oder nicht, ohne notwendigerweise den
Grenzwert zu kennen? Um dies zu beantworten, benötigen wir eine weitere
Definition 11.8 Eine Folge (an )n∈N heißt eine Cauchyfolge, wenn es zu jedem ε > 0 ein N (ε) ∈ N gibt,
so daß für alle n > N (ε) und alle m > N (ε) gilt |am − an | < ε.
Proposition 11.9 Eine Folge (an )n∈N konvergiert genau dann, wenn sie eine Cauchyfolge ist.
Beweis. Angenommen (an )n∈N konvergiert gegen z ∈ R. Sei ε > 0 und sei N (ε) ∈ N so, daß |an −z| < ε
für alle n ≥ N (ε). Dann gilt für alle n, m > N (ε)
|an − am | ≤ |an − z| + |am − z| < 2ε.
Folglich ist (an )n∈N eine Cauchyfolge.
Nehmen wir also umgekehrt an, daß (an )n∈N eine Cauchyfolge ist. Dann ist (an )n∈N beschränkt. Ferner existiert eine monotone Teilfolge (amn )n∈N , die nach Proposition 11.5 gegen eine Zahl z ∈ R konvergiert. Sei nun ε > 0 und wähle N (ε) so, daß |aN (ε) − an | < ε für alle n > N (ε). Weil limn→∞ amn = z,
existiert ein k ∈ N, so daß mk > N (ε) und |amk − z| < ε. Für alle n > N (ε) gilt folglich
|an − z| ≤ |amk − z| + |amk − an | ≤ 2ε.
Daraus folgt limn→∞ an = z.
2
Reihen sind eine besonders wichtige Art von Folgen. Sei dazu (an )n∈N eine Folge. Wir definieren eine
weitere Folge
n
X
An =
ak ,
k=1
die wir die Reihe mit den Gliedern (an )n∈N nennen. Wenn die Folge (An )n∈N gegen eine Zahl z ∈ R
konvergiert, schreiben wir
∞
X
z=
an .
n=1
P∞
an auch, um einfach die Folge (An )n∈N zu bezeichnen.
P∞
Beispiel 11.10 Zu x ∈ R definieren wir die geometrische Reihe als die Reihe n=1 xn−1 mit den Gliedern xn−1 . Falls x 6= 1 gilt für N ∈ N
Man verwendet die Schreibweise
n=1
N
X
n=1
xn−1 =
1 − xN
;
1−x
das sieht man, indem man beide Seiten der Gleichung mit 1 − x multipliziert. Ist also −1 < x < 1, so gilt
∞
X
n=1
xn−1 = 1/(1 − x).
12
STETIGKEIT
36
P∞
P∞
Proposition 11.11 Die Reihe n=1 an konvergiert, wenn n=1 |an | konvergiert.
Pn
Pn
Beweis. Sei An = k=1 ak und Bk = k=1 |ak |. Für N ∈ N und n > N gilt
n
X
|An − aN | = |
ak | ≤
k=N +1
n
X
|ak | = |Bn − BN |.
k=N +1
2
Wenn (Bn )n∈N eine Cauchyfolgt ist, trifft dies also auch auf (An )n∈N zu.
Korollar 11.12 Die Reihe
xn−1 für alle n ∈ N.
P∞
n=1
an konvergiert, wenn es eine reelle Zahl 0 < x < 1 gibt, so daß |an | ≤
Beweis. In diesem Fall konvergiert
2
Beispiel 11.13 Die Reihe
P∞
P∞
1
n=1 n2n
n=1
|an |, weil
PN
n=1
|an | ≤
PN
n=1
xn−1 und
P∞
n=1
xn−1 =
1
1−x .
konvergiert.
In diesem Abschnitt haben wir der Einfachheit halber Folgen und Reihen betrachtet, deren Index n die
natürlichen Zahlen durchläuft. Alles läßt sich einfach verallgemeinern auf den Fall,
n eine nach unten
P∞daß −n
beschränkte
unendliche
Teilmenge
von
Z
durchläuft.
Beispielsweise
bedeutet
2
nichts anderes
n=0
P∞
als n=1 2−(n−1) .
12
Stetigkeit
In diesem Abschnitt behandeln wir Funktionen die man, anschaulich gesprochen, “zeichnen kann, ohne
den Stift abzusetzen”. Um diese Intuition mathematisch zu erfassen, beginnen wir mit
Definition 12.1 Sei u ∈ R, X ⊂ R und f : X → R. Wir sagen f (x) konvergiert gegen y ∈ R für
x → u, in Symbolen: limx→u f (x) = y, falls die beiden folgenden Bedingungen erfüllt sind:
• Zu jedem δ > 0 gibt es ein x ∈ X mit |x − u| < δ.
• Zu jedem ε > 0 gibt es ein δ > 0, so daß für alle x ∈ X mit |x − u| < δ gilt |f (x) − y| < ε.
Für zwei Funktionen f, g : X → R ist bekanntlich f + g : X → R die Funktion x 7→ f (x) + g(x).
Analog ist f · g : X → R die Funktion x 7→ f (x) · g(x).
Proposition 12.2 Seien f, g : X → R Funktionen und u ∈ R. Wenn limx→u f (x) = y und limx→u g(x) =
z, dann gilt
lim f (x) + g(x) = y + z
und
lim f (x) · g(x) = y · z.
x→u
x→u
Beweis. Zu ε > 0 sei δ > 0 so, daß |f (x) − y| < ε und |g(x) − z| < ε, falls |x − u| < δ. Dann gilt für
solche x
|(f + g)(x) − (y + z)| ≤ |f (x) − y| + |g(x) − z| < 2ε.
Daraus folgt die erste Behauptung.
Um die zweite Behauptung zu zeigen, bemerken wir, daß
|f · g(x) − y · z| =
≤
|(f (x) − y) · g(x) + y · (g(x) − g(u))|
|g(x)| · |f (x) − y| + |y| · |g(x) − z|.
(31)
Wir wählen also δ > 0 klein genug, so daß für alle x mit |x − u| < δ gilt
|g(x)| ≤ |z| + 1,
|f (x) − y| < ε/(|z| + 1)
Dann zeigt (31), daß |f · g(x) − y · z| < 2ε.
und
|g(x) − z| < ε/(1 + |y|).
2
13
DIE ABLEITUNG
37
Proposition 12.3 Seien f : X → Y , h : Y → R Funktionen und u ∈ X, v ∈ Y , z ∈ R so, daß
limx→u f (x) = v und limy→v h(y) = z. Dann gilt limx→u h ◦ f (x) = z.
Beweis. Zu jedem ε > 0 existiert δ > 0, so daß für alle y ∈ Y mit |v − y| < δ gilt |h(y) − z| < ε.
Ferner gibt es ein γ > 0, so daß für alle x ∈ X mit |x − u| < γ gilt |f (x) − v| < δ. Für diese x gilt also
|h(f (x)) − z| < ε.
2
Definition 12.4 Sei X ⊂ R, f : X → R und u ∈ X. Wir nennen f stetig im Punkt u, falls
lim f (x) = f (u).
x→u
Ist ferner S ⊂ X, so heißt f stetig auf S, falls f stetig in jedem Punkt u ∈ S ist.
Anschaulich bedeutet Stetigkeit, daß die Funktion f keinen “plötzlichen Sprung” im Punkt u macht.
Ein Gegenbeispiel ist die Funktion
−1 falls x < 0,
R → R,
x 7→
1
falls x ≥ 0.
Beispiele für eine stetige Funktion sind die Funktionen x 7→ x und x 7→ c für jede Zahl c ∈ R. Proposition 12.2 liefert uns viele neue Beispiele stetiger Funktionen, insbesondere die Polynome
R → R,
x 7→ an xn + an−1 xn−1 + · · · + a1 x + a0 ,
mit a0 , a1 , . . . , an ∈ R.
Seien (a, b) reelle Zahlen. Wir bezeichnen mit (a, b) = {x ∈ R : a < x < b} das offene Intervall von
a bis b. (Trotz der identischen Schreibweise ist dies natürlich nicht dasselbe wie das Paar (a, b).) Ferner
bezeichnet [a, b] = {x ∈ R : a ≤ x ≤ b} das abgeschlossene Intervall von a bis b. Stetige Funktionen
haben die folgende wichtige Eigenschaft.
Satz 12.5 (“Zwischenwertsatz”) Seien a < b reelle Zahlen und sei f : [a, b] → R stetig auf dem gesamten Intervall [a, b]. Wenn f (a) < 0 aber f (b) > 0, dann existiert eine Zahl c ∈ (a, b) mit f (c) = 0.
Beweis. Die Menge Z = {x ∈ [a, b] : f (x) < 0} ist beschränkt und nicht leer und b 6∈ Z. Sei c = sup Z.
Die Funktion f ist stetig in c.
Wir behaupten, daß f (c) ≤ 0. Denn angenommen f (c) > 0. Dann setzen wir ε = f (c)/2 und wählen
δ > 0 so klein, daß |f (x) − f (c)| < ε wenn |x − c| < δ. Nach Definition des Supremums gibt es eine Zahl
x ∈ Z mit |x − c| < δ; folglich erhalten wir den Widerspruch
0 > f (x) ≥ f (c) − ε ≥ f (c)/2 > 0.
Wir wissen also, daß f (c) ≤ 0. Andererseits behaupten wir, daß f (c) ≥ 0. Denn angenommen f (c) <
0. In diesem Fall setzen wir ε = −f (c)/2 > 0. Weil f stetig ist in c, gibt es eine Zahl δ > 0, so daß
|f (c) − f (x)| < ε/2 sofern |x − c| < δ. Ferner gibt es, da c = sup Z < b, eine Zahl c < x < b mit
|x − c| < δ. Weil x 6∈ Z, gilt f (x) ≥ 0, und folglich erhalten wir den Widerspruch
0 ≤ f (x) ≤ f (c) + ε ≤ f (c)/2 < 0.
Die einzige verbleibende Möglichkeit ist also f (c) = 0.
13
2
Die Ableitung
Stetigkeit, d.h. daß eine Funktion keine “plötzlichen Sprünge” macht, ist ein einfaches aber wichtiges Konzept. Der Stetigkeitsbegriff erlaubt, aus dem Wert einer Funktion in einem Punkt u Schlüsse zu ziehen die
Funkionswerte für x “in der Nähe” von u betreffend. Allerdings ist die Art von Schluß, die man ziehen
kann, noch recht rudimentär. Um genauere Aussagen zu treffen, führen wir nun den Begriff der Differenzierbarkeit ein. Dieser erlaubt wesentlich genauere Aussagen über das lokale Verhalten einer Funktion: die
Idee ist, eine Funktion lokal durch eine lineare Funktion zu approximieren. Der Nachteil ist, daß nicht jede
stetige Funktion differenziert werden kann.
13
DIE ABLEITUNG
38
Definition 13.1 Sei f : X → R eine Funktion und sei u ∈ X ein Punkt, so daß es zu jedem ε > 0 ein
x ∈ X \ {u} mit |x − u| < ε gibt. Wir sagen, daß die Funktion f differenzierbar ist im Punkt u, falls
folgendes gilt:
Sei g : X \ {u} → R, x 7→
f (x)−f (u)
.
x−u
Dann konvergiert g(x) für x → u.
In diesem Fall nennen wir limx→u g(x) die Ableitung von f in u.
(u)
die Steigung der Geraden durch die Punkte (x, f (x)), (u, f (u)) ∈
Anschaulich gesprochen ist f (x)−f
x−u
R . Da wir den Limes x → u betrachten, können wir uns die Ableitung also als die Steigung der Funktion
df
f im Punkt u vorstellen. Für die Ableitung von f im Punkt u schreiben wir oft f 0 (u) oder dx
(u). Wenn f
df
0
auf der gesamten Menge X differenzierbar ist, können wir also f (oder dx ) als eine Abbildung X → R
auffassen.
2
Proposition 13.2 Wenn die Funktion f : X → R im Punkt u ∈ X differenzierbar ist, dann ist sie dort
auch stetig.
Beweis. Sei 0 < ε < 1. Wähle 0 < δ < 2(1+|fε 0 (u)|) so klein, daß für alle x ∈ X mit |x − u| < δ gilt
f (x) − f (u)
0
− f (u) < ε/2.
x−u
Dann gilt
f (x) − f (u) · |x − u| ≤ f (x) − f (u) − f 0 (u) + |f 0 (u)| · |x − u|
|f (u) − f (x)| = x−u
x−u <
εδ
+ δ|f 0 (u)| ≤ ε2 /4 + ε/2 < ε.
2
Also ist f stetig in u.
2
Ähnlich wie im Fall von stetigen Funktionen kann man aus gegebenen differenzierbaren Funktionen
neue basteln.
Proposition 13.3 Angenommen die Funktionen f : X → R, g : X → R sind differenzierbar im Punkt
u ∈ X. Dann gilt folgendes.
1. Die Funktion f + g : X → R, x 7→ f (x) + g(x) ist differenzierbar in u und
(f + g)0 (u) = f 0 (u) + g 0 (u).
2. Die Funktion f · g : X → R, x 7→ f (x) · g(x) ist differenzierbar in u und
(f · g)0 (x) = f 0 (x) · g(x) + f (x) · g 0 (x).
Beweis. Es gilt
(f + g)(x) − (f + g)(u)
f (x) − f (u) g(x) − g(u)
=
+
.
x−u
x−u
x−u
Wenn also
f (x)−f (u)
x−u
lim
x→u
und
g(x)−g(u)
x−u
für x → u konvergieren, gilt nach Proposition 12.2
(f + g)(x) − (f + g)(u)
f (x) − f (u)
g(x) − g(u)
= lim
+ lim
.
x→u
x→u
x−u
x−u
x−u
Daraus folgt die erste Behauptung.
Ferner gilt
(f · g)(x) − (f · g)(u)
x−u
=
=
f (x)g(x) − f (u)g(x) − (f (u)g(u) − f (u)g(x))
x−u
f (x) − f (u)
g(x) − g(u)
g(x) ·
+ f (u) ·
.
x−u
x−u
13
DIE ABLEITUNG
39
Proposition 13.2 zeigt, daß limx→u g(x) = g(u). Aus Proposition 12.2 folgt also
lim
x→u
(f · g)(x) − (f · g)(u)
x−u
f (x) − f (u)
g(x) − g(u)
+ f (u) lim
x→u
x−u
x−u
g(u)f 0 (u) + f (u)g 0 (u),
lim g(x) · lim
=
x→u
=
x→u
2
wie behauptet.
Proposition 13.4 (“Kettenregel”) Angenommen die Funktion f : X → Y ist differenzierbar im Punkt
u ∈ X und die Funktion h : Y → R ist differenzierbar im Punkt v = f (u). Dann ist h ◦ f differenzierbar
im Punkt u und
(h ◦ f )0 (u) = h0 (f (u)) · f 0 (u).
Beweis. Wir führen die Kurzschreibweise t = f (x) − f (u) ein. Es gilt
h ◦ f (x) − h ◦ f (u)
x−u
h(v + t) − h(v)
x−u
(h(v) + th0 (v)) − h(v) h(v + t) − h(v) − th0 (v)
+
x−u
x−u
th0 (v) h(v + t) − h(v) − th0 (v)
+
.
x−u
x−u
=
=
=
Wir erhalten
(32)
h0 (v)(f (x) − f (u)))
th0 (v)
= lim
= h0 (v)f 0 (u).
x→u
x→u x − u
x−u
(33)
h(v + t) − h(v)
h(v + t) − h(v) − th0 (v)
t
0
lim
= lim
− h (v) .
x→u
x→u x − u
x−u
t
(34)
lim
Ferner gilt, sofern t 6= 0,
Nach Definition der Ableitung h0 (v) bzw. f 0 (v) gilt
lim
s→0
h(v + s) − h(v)
− h0 (v) = 0,
s
lim
x→u
t
= f 0 (u).
x−u
Also zeigt (34), daß
h(v + t) − h(v) − th0 (v)
= 0.
x→u
x−u
Schließlich folgt die Behauptung, indem man (33) und (35) in (32) einsetzt.
lim
(35)
2
Proposition 13.5 Die Funktion f : R \ {0} → R, x 7→ 1/x is differenzierbar. Es gilt f 0 (x) = −1/x2 .
Beweis. Wir zeigen zunächst, daß die Funktion f stetig in x ∈ R \ {0} ist. Denn
f (u) − f (x) =
1
1
x−u
− =
.
u x
ux
(36)
Wenn |x − u| hinreichend klein ist, gilt |u| ≥ 12 |x|. Dann zeigt (36)
|f (u) − f (x)| ≤
|x − u|
2|x − u|
≤
.
|ux|
|x|2
Folglich gilt
lim |f (u) − f (x)| = 0,
u→x
also ist f stetig im Punkt x.
(37)
13
DIE ABLEITUNG
40
Ferner folgt aus (36), daß
f (u) − f (x)
u−x
=
−
1
.
ux
(38)
Aus (37) und (38) ergibt sich schließlich
lim
u→x
f (u) − f (x)
−1
1
= lim
= − 2,
u→x ux
u−x
x
2
wie behauptet.
Korollar 13.6 Seien f : X → R, g : X → R zwei Funktionen, die im Punkt x ∈ X differenzierbar sind.
Wenn g(y) 6= 0 für alle y ∈ X, dann ist f /g im Punkt x differenzierbar und
0
f 0 (x)g(x) − f (x)g 0 (x)
f
(x) =
.
g
g(x)2
Beweis. Proposition 13.3 zeigt, daß
0
0
0
f
1
1
1
(x) =
f·
(x) = f 0 (x) ·
+ f (x)
(x).
g
g
g(x)
g
(39)
Sei h : R \ {0}, z 7→ 1/z. Aus Proposition 13.4 folgt
0
1
1
g 0 (x)
(x) = (h ◦ g)0 (x) = g 0 (x) · h0 (g(x)) = g 0 (x) · −
=−
.
2
g
g(x)
g(x)2
Aus (39) und (40) folgt schließlich die Behauptung.
(40)
2
Der Beweis des folgenden Satzes benötigt einige Überlegungen, die den Rahmen dieser Vorlesung
sprengen.
Satz 13.7 (“Satz über die Umkehrfunktion”) Sei f : (a, b) → (c, d) eine stetige bijektive Funktion, die
im Punkt x ∈ (a, b) differenzierbar ist. Dann ist die Umkehrfunktion f −1 : (c, d) → (a, b) im Punkt
y = f (x) differenzierbar mit Ableitung 1/f 0 (x).
Was sagt die Ableitung über das lokale Verhalten der Funktion aus? Wir beginnen mit der folgenden
Beobachtung.
Satz 13.8 (“Satz von Rolle”) Sei f : [a, b] → R eine differenzierbare Funktion mit f (a) = f (b) = 0.
Dann gibt es ein c ∈ (a, b) mit f 0 (c) = 0.
Beweis. Wir nehmen zunächst an, daß es ein d ∈ (a, b) gibt mit f (d) > 0. Sei Z = {f (x) : x ∈ [a, b]}. Wir
zeigen zunächst, daß die Menge Z nach oben beschränkt ist. Angenommen, sie wäre es nicht. Dann gibt
es zu jeder natürlichen Zahl n ein xn ∈ [a, b], so daß f (xn ) > n. Die Folge (xn )n∈N hat eine monotone
Teilfolge (xkn )n∈N , die nach Proposition 11.5 gegen eine Zahl x∗ ∈ [a, b] konvergiert. Weil f stetig ist,
folgt f (x∗ ) > n für alle n ∈ N, was unmöglich ist. Dieser Widerspruch zeigt, daß Z nach oben beschränkt
ist.
Folglich existiert s = sup Z. Nach Definition des Supremums gibt es zu jedem n ∈ N eine Zahl
yn ∈ [a, b], so daß |s − f (yn )| < 1/n. Die Folge (yn )n∈N hat eine monotone Teilfolge (ykn )n∈N , die
nach Proposition 11.5 gegen eine Zahl c ∈ [a, b] konvergiert. Folglich gilt f (c) = s. Weil s > 0, folgt
c 6∈ {a, b}, also c ∈ (a, b).
Wir behaupten, daß f 0 (c) = 0. Denn angenommen f 0 (c) > 0. Dann gibt es ein kleines δ > 0, so daß
mit ε = f 0 (c)/2 gilt
f (c + δ) − f (c)
≥ f 0 (c) − ε > 0.
δ
14
DAS INTEGRAL
41
Daraus folgt, daß f (c + δ) > f (c) = s. Das kann nicht angehen, weil s das Supremum der Menge
Z = {f (x) : x ∈ [a, b]} ist. Also folgt f 0 (c) ≤ 0.
Ist entsprechend f 0 (c) < 0, so gibt es ein kleines δ > 0, so daß mit ε = −f 0 (c)/2 gilt
f (c − δ) − f (c)
≥ −f 0 (c) − ε > 0.
δ
Also finden wir, daß f (c − δ) > f (c) = s, was wiederum einen Widerspruch ergibt. Dies zeigt f 0 (c) = 0.
Was, wenn f (x) ≤ 0 für alle x ∈ (a, b)? Wenn es ein x ∈ (a, b) gibt mit f (x) < 0, dann wenden wir
das obige Argument auf die Funktion −f an und erhalten ein c mit −f 0 (c) = 0, also auch f 0 (c) = 0. Und
wenn f (x) = 0 für alle x ∈ (a, b), dann folgt unmittelbar, daß f 0 (x) = 0 für alle x.
2
Korollar 13.9 (“Mittelwertsatz der Differentialrechnung”) Sei f : [a, b] → R differenzierbar. Es gibt
ein c ∈ [a, b], so daß f (b) − f (a) = f 0 (c) · (b − a).
Beweis. Die Funktion
g : [a, b] → R,
x 7→ f (x) − f (a) −
f (b) − f (a)
· (x − a)
b−a
erfüllt die Voraussetzungen des Satzes von Rolle. Folglich existiert ein c ∈ [a, b] mit
0 = g 0 (c) = f 0 (c) −
f (b) − f (a)
.
b−a
Umstellen dieser Gleichung liefert die Behauptung.
2
Wir nennen eine Funktion f : [a, b] → R monoton wachsend, falls für je zwei reelle Zahlen x, y mit
a ≤ x < y ≤ b gilt f (x) ≤ f (y). Ferner heißt f streng monoton wachsend, falls für je zwei reelle Zahlen
x, y mit a ≤ x < y ≤ b gilt f (x) < f (y). Analog heißt f monoton fallend, falls x, y mit a ≤ x < y ≤ b
stets gilt f (x) ≥ f (y), und streng monoton fallend, wenn für x, y wie zuvor gilt f (x) < f (y).
Korollar 13.10 Sei f : [a, b] → R differenzierbar.
1. Wenn f 0 (c) ≥ 0 für alle c ∈ [a, b], dann ist f monoton wachsend.
2. Wenn f 0 (c) > 0 für alle c ∈ [a, b], dann ist f streng monoton wachsend.
3. Wenn f 0 (c) ≤ 0 für alle c ∈ [a, b], dann ist f monoton fallend.
4. Wenn f 0 (c) < 0 für alle c ∈ [a, b], dann ist f streng monoton fallend.
Sei f : [a, b] → R eine Funktion. Ein Punkt c ∈ [a, b] heißt lokales Maximum von f , wenn es ein
ε > 0 gibt, so daß für alle x ∈ [a, b] mit |x − c| < ε gilt f (x) ≤ f (c). Entsprechend nennt man c ein
lokales Minimum von f , falls es ein ε > 0 gibt, so daß für alle x ∈ [a, b] mit |x − c| < ε gilt f (x) ≥ f (c).
Wenn c ein lokales Minimum oder ein lokales Maximum ist, nennt man c ein lokales Extremum.
Korollar 13.11 Sei f : [a, b] → R differenzierbar. Wenn c ∈ [a, b] ein lokales Extremum ist, gilt f 0 (c) = 0.
14
Das Integral
Für eine Funktion f : [a, b] → R möchten wir die Fläche, die f mit der x-Achse einschließt, bestimmen.
Ist beispielsweise f die Funktion f : [0, 1] → R, x 7→ 1, so ist der Flächeninhalt 1. Im Fall der Funktion
g : [0, 1] → R, x 7→ −1, ist der Flächeninhalt −1.
Für bestimmte besonders einfache Funktionen kann man den Flächeninhalt leicht bestimmen. Wir nennen eine Funktion t : [a, b] → R eine Treppenfunktion, wenn es Zahlen a = a0 < a1 < · · · < ak = b
und c1 , . . . , ck ∈ R gibt, so daß
t(x) = ci
für alle x ∈ (ai−1 , ai )
(i = 1, . . . , k).
14
DAS INTEGRAL
42
In diesem Fall definieren wir
b
Z
t(x) dx =
a
k
X
ci (ai − ai−1 ).
i=1
Sei nun allgemeiner f : S → R eine Funktion und seien a, b Zahlen, so daß [a, b] ⊂ S. Sei ferner
T ∗ (f, [a, b]) die Menge aller Treppenfunktionen t : [a, b] → R, so daß t(x) ≥ f (x) für alle x ∈ [a, b].
Analog sei T∗ (f, [a, b]) die Menge aller Treppenfunktionen t : [a, b] → R, so daß t(x) ≤ f (x) für alle
x ∈ [a, b]. Wir nennen eine Funktion f : [a, b] → R integrierbar auf [a, b], falls
(Z
)
(Z
)
b
b
∗
t(x)dx : t ∈ T (f, [a, b]) = sup
t(x)dx : t ∈ T∗ (f, [a, b]) .
inf
a
a
In diesem Fall definieren wir das Integral von f über [a, b] als
)
(Z
Z b
b
t(x)dx : t ∈ T∗ (f, [a, b]) .
f (x)dx = sup
a
a
Welche Funktionen sind integrierbar? Wir nennen eine Funktion f : [a, b] → R stückweise stetig,
wenn es Zahlen c > 0 und a = a0 < a1 < · · · < ak = b gibt, so daß f auf jedem der Intervalle (ai−1 , ai )
stetig ist für i = 1, . . . , k, und |f (x)| ≤ c für alle x ∈ [a, b].
Proposition 14.1 Wenn f : [a, b] → R stückweise stetig ist, ist f integrierbar auf [a, b].
Der Beweis von Proposition 14.1 ist relativ aufwendig und übersteigt daher den Rahmen dieser Vorlesung.
Beispiel 14.2 Wir integrieren die Funktion f : [0, 1] → R, x 7→ x. Zu diesem Zweck konstruieren wir
“untere” und “obere” Treppenfunktionen. Sei n ≥ 1 eine natürliche Zahl. Wir erhalten eine untere Treppenfunktion un , indem wir definieren
1
k
un (x) = · max k ∈ Z : ≤ x .
n
n
Entsprechend erhält man eine obere Treppenfunktion on :
1
k
on (x) = · min k ∈ Z : ≥ x .
n
n
Die Integrale dieser Treppenfunktionen können wir leicht ausrechnen:
Z 1
Z 1
n
n−1
X i
X
(n − 1)n
i
n(n + 1)
=
,
o
(x)dx
=
=
.
un (x)dx =
n
2
2
2
n
2n
n
2n2
0
0
i=0
i=1
Weil
Z
lim
n→∞
folgt
R1
0
1
Z
un (x)dx = lim
n→∞
0
1
on (x)dx =
0
1
,
2
f (x)dx = 1/2.
Die folgende Tatsache folgt relativ leicht aus der Konstruktion des Integrals.
Proposition 14.3 Seien f : [a, b] → R, g : [a, b] → R auf [a, b] integrierbare Funktionen. Sei c ∈ R.
Dann sind die Funktionen f + g, c · f integrierbar und
Z b
Z b
Z b
Z b
Z b
(f + g)(x)dx =
f (x)dx +
g(x)dx,
(c · f )(x)dx = c ·
f (x)dx.
a
a
a
a
Wenn ferner f (x) ≤ g(x) für alle x ∈ (a, b), dann gilt
Z b
Z
f (x)dx ≤
a
a
b
g(x)dx.
a
14
DAS INTEGRAL
43
Wenn f auf [a, b] integrierbar ist, definieren wir
Z a
Z
f (x)dx = −
b
b
f (x)dx.
a
Wenn a ≤ b ≤ c reelle Zahlen sind und f auf [a, c] integrierbar ist, gilt
Z c
Z b
Z c
f (x)dx =
f (x)dx +
f (x)dx.
a
a
b
Proposition 14.4 (“Mittelwertsatz der Integralrechnung”) Wenn f auf [a, b] stetig ist, gibt es ein c ∈
[a, b], so daß
Z b
f (x)dx = (b − a) · f (c).
a
Beweis. Wir betrachten die stetige Funktion g : [a, b] → R, x 7→ f (x) · (b − a). Es gilt
Z b
inf {g(x) : x ∈ [a, b]} ≤
f (x)dx ≤ sup {g(x) : x ∈ [a, b]} .
a
Nach dem Zwischenwertsatz gibt es also ein c ∈ [a, b], so daß
Z b
(b − a)f (c) = g(c) =
f (x)dx,
a
wie behauptet.
2
Sei S ⊂ R und f : S → R eine Funktion. Eine Funktion F : S → R, die auf S differenzierbar ist,
heißt Stammfunktion von f , falls
f (x) = F 0 (x)
für alle x ∈ S.
Proposition 14.5 Sei S ⊂ R und f : S → R. Angenommen F1 , F2 sind Stammfunktionen von f . Dann
gibt es eine Zahl c ∈ R, so daß
F1 (x) = F2 (x) + c
für alle x ∈ S.
Beweis. Die Funktion F1 − F2 hat Ableitung (F1 − F2 )0 (x) = F10 (x) − F20 (x) = f (x) − f (x) = 0. Nach
Korollar 13.10 ist F1 − F2 also sowohl monoton wachsend als auch monoton fallend. Das bedeutet, daß es
eine Zahl c ∈ R gibt, so daß F1 (x) − F2 (x) = c für alle x ∈ S.
2
Satz 14.6 (“Hauptsatz der Differential- und Integralrechnung”) Sei f : [a, b] → R stetig. Dann ist
Z x
F : [a, b] → R,
x 7→
f (y)dy
a
eine Stammfunktion von f .
Beweis. Sei x ∈ [a, b]. Falls x < b, gibt es nach Proposition 14.4 zu jeder hinreichend kleinen Zahl h > 0
ein s(h) ∈ [x, x + h], so daß
Z x+h
Z x
Z x+h
F (x + h) − F (x) =
f (y)dy −
f (y)dy =
f (y)dy = h · f (s(h)).
(41)
a
a
x
Weil f stetig ist, gilt limh→0 f (s(h)) = f (x). Falls x > a, gibt es entsprechend zu jedem hinreichend
kleinen h > 0 ein t ∈ [x − h, x], so daß
Z x−h
Z x
Z x−h
F (x − h) − F (x) =
f (y)dy −
f (y)dy =
f (y)dy = −h · f (t(h)).
(42)
a
a
x
15
DER LOGARITHMUS UND DIE EXPONENTIALFUNKTION
44
Wiederum aufgrund der Stetigkeit von f gilt limh→0 f (t(h)) = f (x). Aus (41) und (42) folgt also
F (x + h) − F (x)
= f (x),
h→0
h
F 0 (x) = lim
wie behauptet.
2
Proposition 14.5 und Satz 14.6 ermöglichen es uns, viele Integrale auszurechnen. Das folgende Korollar
verrät das allgemeine Rezept.
Korollar 14.7 Sei f : [a, b] → R stetig und sei F eine Stammfunktion von f . Dann gilt
b
Z
f (y)dy = F (b) − F (a).
a
Rx
Beweis. Sei G(x) = a f (y)dy. Nach Satz 14.6 ist G eine Stammfunktion von f . Nach Proposition 14.5
existiert also eine Zahl c ∈ R, so daß F (x) = G(x) + c für alle x ∈ [a, b]. Daraus folgt, daß
Z
b
F (b) − F (a) = G(b) − G(a) =
Z
f (y)dy −
a
a
b
Z
Z
f (y)dy − 0 =
f (y)dy =
a
a
b
f (y)dy,
a
2
wie behauptet.
R1
Beispiel 14.8 In Beispiel 14.2 haben wir ausgerechnet, daß 0 xdx = 1/2. Mit Korollar 14.7 können wir
dieses Integral einfacher ausrechnen. Denn die Funktion f : [0, 1] → R, x 7→ x hat die Stammfunktion
R1
F : [0, 1] → R, x 7→ x2 /2. Also erhalten wir 0 f (x)dx = F (1) − F (0) = 1/2.
Mit Hilfe von Korollar 14.7 gewinnen wir aus den Ableitungsregeln, insbesondere der Produkt- und der
Kettenregel, Rechenregeln für das Integrieren. Um diese Regeln formulieren zu können, benötigen wir noch
einen weiteren Begriff: eine Funktion f : S → R heißt stetig differenzierbar, falls f auf S differenzierbar
ist und die Ableitung f 0 : S → R eine stetige Funktion ist.
Korollar 14.9 (“Partielle Integration”) Seien f, g : [a, b] → R stetig differenzierbar. Dann gilt
Z
b
f 0 (y)g(y)dy = f (b)g(b) − f (a)g(a) −
a
Z
b
f (y)g 0 (y)dy.
a
Korollar 14.10 (“Substitutionsregel”) Sei f : [c, d] → R stetig und g : [a, b] → [c, d] stetig differenzierbar. Dann gilt
Z b
Z g(b)
f (g(y))g 0 (y)dy =
f (y)dy.
a
15
g(a)
Der Logarithmus und die Exponentialfunktion
Im folgenden benutzen wir die Differential- und Integralrechnung, um einige wichtige Funktionen einzuführen. Die erste ist der natürliche Logarithmus: wir definieren die Funktion
Z x
1
dt.
ln : R>0 = {x ∈ R : x > 0} → R,
x 7→
1 t
Nach Satz 14.6 hat diese Funktion die Ableitung
d
1
ln(x) = .
dx
x
(43)
ln(1) = 0.
(44)
Ferner gilt nach Konstruktion des Integrals
15
DER LOGARITHMUS UND DIE EXPONENTIALFUNKTION
45
Proposition 15.1 Für alle a, x > 0 gilt ln(a · x) = ln(a) + ln(x).
Beweis. Sei f : R>0 → R, x 7→ ln(a · x) und g : R>0 → R, x 7→ ln(a) + ln(x). Nach der Kettenregel
gilt
1
1
1
f 0 (x) = a ·
= , und ferner g 0 (x) = .
a·x
x
x
Also sind f, g Stammfunktionen der Funktion x 7→ 1/x. Weil außerdem f (1) = ln(a) = g(1), folgt
f (x) = g(x) für alle x > 0.
2
Durch wiederholte Anwendung der Proposition erhält man
Korollar 15.2 Sei x > 0 und n eine natürliche Zahl. Dann gilt ln(xn ) = n ln(x).
Wie (43) zeigt ist die Ableitung des Logarithmus’ stets positiv. Aus Korollar 13.10 folgt also, daß die
Funktion ln(x) streng monoton wachsend ist. Insbesondere gilt z.B. ln(2) > 0. Aus Korollar 15.2 folgt
außerdem, daß ln(2n ) = n · ln(2). Der Logarithmus ln(x) nimmt also für hinreichend große x beliebig
große Werte an. Weil entsprechend ln(1/2) < 0 und ln((1/2)n ) = n ln(1/2), nimmt ln(x) für kleine
x > 0 auch beliebig kleine (negative) Werte an. Nach dem Zwischenwertsatz ist ln : R>0 → R somit eine
bijektive Abbildung.
Folglich hat ln : R>0 → R eine Umkehrfunktion. Wir bezeichnen sie mit exp : R → R>0 und
nennen sie die Exponentialfunktion. Aus (44) folgt, daß exp(0) = 1. Ferner folgt aus (15.1), daß
exp(x + y) = exp(x) · exp(y)
für alle x, y ∈ R.
(45)
Aus (43) und dem Satz über die Umkehrfunktion folgt, daß die Funktion exp differenzierbar ist mit Ableitung
d
exp(x) = exp(x).
dx
Der Wert der Funktion x 7→ exp(x) an der Stelle x = 1 spielt eine besondere Rolle und wird die
eulersche Zahl genannt:
e = exp(1).
Man kann ausrechnen, daß
e = 2, 718 . . . .
Aus (45) folgt, daß für jede natürliche Zahl n gilt
en = exp(n).
(46)
Wir nehmen die Gleichung (46) zum Anlass, um die Potenz ex für jedes reelle x einzuführen: wir definieren
ex = exp(x)
für x ∈ R.
Noch allgemeiner definieren wir für a > 0, x ∈ R
ax = exp(x · ln(a)).
Insbesondere definieren wir
√
a = a1/2 .
Analog definieren wir für b > 1 noch den Logarithmus zur Basis b durch
logb (x) =
ln x
.
ln b
Diese Definitionen stellen sicher, daß für jedes b > 1 und jedes x ∈ R gilt
logb (bx ) = x.
Aus unsere Definition der Potenz folgt die folgende nützliche Rechenregel.
16
DIE TRIGONOMETRISCHEN FUNKTIONEN
46
Lemma 15.3 Sei q ∈ R \ {0}. Die Funktion f : R>0 → R, x 7→ xq hat die Ableitung f 0 (x) = qxq−1 .
Beweis. Mit der Kettenregel erhalten wir
f 0 (x) =
d
d
q
exp(q · ln x) = exp(q · ln x) ·
q · ln(x) = xq · = qxq−1 ,
dx
dx
x
2
wie behauptet.
16
Die trigonometrischen Funktionen
Wie im vorherigen Abschnitt tun wir so, also ob wir noch nichts über die trigonometrischen Funktionen
sin, cos, tan etc. gehört hätten. Wir wollen diese Funktionen mit Hilfe der Differential- und Integralrechnung definieren. Wir beginnen mit dem Arcustangens:
Z x
1
dy.
arctan : R → R,
x 7→
2
0 1+y
Weil seine Ableitung strikt positiv ist, ist arctan(x) streng monoton wachsend. Außerdem folgt aus der
Definition unmittelbar, daß
arctan(−x) = − arctan(x) und
arctan(0) = 0.
(47)
Mit Hilfe des Arcustangens können wir eine Zahl einführen, die eine ganz besondere Rolle spielt: wir
definieren
π = 4 · arctan(1) = 3, 1415 . . . .
Lemma 16.1 Für alle x > 0 gilt arctan(x) + arctan(1/x) = π/2.
Beweis. Mit der Kettenregel erhalten wir für x > 0
1
1
1
d
[arctan(x) + arctan(1/x)] =
− 2·
= 0.
dx
1 + x2
x 1 + (1/x)2
Also gilt für alle x > 0, daß arctan(x) + arctan(1/x) = 2 arctan(1) = π/2.
2
Korollar 16.2 Für alle x ∈ R gilt arctan(x) ∈ (−π/2, π/2). Genauer ist die Abbildung
arctan : R → (−π/2, π/2),
x 7→ arctan(x)
bijektiv.
Die Umkehrabbildung des Arcustangens nennen wir den Tangens, d.h. wir definieren
tan : (−π/2, π/2) → R,
x 7→ arctan−1 (x).
Wir setzen tan zu einer Funktion R → R fort, indem wir definieren
tan(x + k · π) = tan x
für k ∈ Z.
Aus (47) folgt
tan(−x) = − tan(x)
für alle x ∈ R.
Außerdem liefert der Satz über die Umkehrfunktion, daß
d
tan(x) = 1 + tan2 (x).
dx
(48)
17
TAYLORENTWICKLUNG
47
Mit Hilfe des Tangens’ können wir nun Sinus und Cosinus definieren: für x ∈ (−π/2, π/2) sei
1
cos(x) = p
,
1 + tan2 (x)
tan(x)
sin(x) = p
.
1 + tan2 (x)
Wir definieren ferner cos(−π/2) = cos(π/2) = 0, sin(−π/2) = −1 und sin(π/2) = 1. Ferner setzen wir
cos, sin zu Funktionen R → [0, 1] fort durch
cos(x + k · π) = (−1)k cos(x),
sin(x + k · π) = (−1)k sin(x)
(x ∈ [−π/2, π/2], k ∈ Z).
Aus (48) erhält man, daß
d
cos(x) = − sin(x),
dx
d
sin(x) = cos(x).
dx
Außerdem
überlegt man sich mit Hilfe der Definition (und des Zwischenwertsatzes) leicht, daß es zu jedem
Punkt xy ∈ R2 mit x2 + y 2 genau eine Zahl a ∈ [−π, π) gibt, so daß
x
cos(a)
=
.
y
sin(a)
Diese Beobachtung kann man benutzen, um die Umkehrabbildungen arccos : [−1, 1] → [0, π], arcsin :
[−1, 1] → [−π/2, π/2] einzuführen.
17
Taylorentwicklung
Wir haben die Ableitung eingführt: zu einer Funktion f : (a, b) → R, die auf dem gesamten Intervall (a, b)
differenzierbar ist, erhalten wir eine Funktion f 0 : (a, b) → R. Diese Funktion ist nicht notwendigerweise
differenzierbar (und in der Tat womöglich nicht einmal stetig). Aber wenn sie es ist, kann man sie wiederum
differenzieren und erhält eine weitere Funktion f 00 : (a, b) → R. Diese nennen wir die zweite Ableitung
von f . Induktiv kann man auf diese Art selbstverständlich auch die dritte, vierte, . . . Ableitung definieren.
Allgemein bezeichnen wir die k-te Ableitung von f durch f [k] . Wir nennen f k-mal stetig differenzierbar,
wenn die Ableitungen f [1] , . . . , f [k] existieren und f [k] : (a, b) → R eine stetige Funktion ist.
Wie wir gesehen haben, stellt die Ableitung f 0 eine “lokale Approximation” von f durch eine lineare
Funktion dar:
f (x + h) = f (x) + hf 0 (x) + h · r(h),
wobei lim r(h) = 0.
h→0
Können wir mit Hilfe der höheren Ableitungen von f eine noch genauere lokale Approximation erhalten?
Sei f : (a, b) → R eine k-mal differenzierbare Funktion und x ∈ (a, b). Wir definieren das k-te
Taylorpolynom von f im Punkt x als
t(y) = f (x) +
k
X
f [j] (x)
j=1
j!
· yj .
Wie man leicht nachrechnet gilt
t(0) = f (x),
t[j] (0) = f [j] (x) für 1 ≤ j ≤ k.
Mit anderen Worten: die ersten k Ableitungen von t im Punkt 0 stimmen mit den ersten k Ableitungen von
f im Punkt x überein. Die folgende Aussage quantifiziert, wie gut das Taylorpolynom t die Funktion f
approximiert.
Satz 17.1 (“Taylor-Formel”) Angenommen die Funktion f : (a, b) → R ist (k + 1)-mal stetig differenzierbar. Sei t das k-te Taylorpolynom von f im Punkt x ∈ (a, b), und sei z ∈ (a, b). Dann gibt es ein
a ∈ [0, 1], so daß
f (z)
=
t(z − x) +
f [k+1] (y)
· (z − x)k+1 ,
(k + 1)!
wobei y = (1 − a) · x + a · z.
17
TAYLORENTWICKLUNG
48
Der Beweis der Taylor-Formel geht über den Rahmen dieser Vorlesung hinaus. Wir sehen stattdessen einige wichtige Beispiele. Die Ableitung der Exponentialfunktion exp(x) ist, wie wir in Abschnitt 15
gesehen haben, einfach die Exponentialfunktion selbst, d.h. exp0 (x) = exp(x). Folglich ist die Exponentialfunktion k-mal differenzierbar für jede natürliche Zahl k; man sagt, sie ist beliebig oft differenzierbar.
Ferner ist exp(0) = 1. Das k-te Taylorpolynom im Punkt x = 0 ist also
tk (y) = exp(0) +
k
X
exp(0)
j!
j=1
· yj =
k
X
yj
j=0
j!
,
mit der Konvention, daß y 0 = 1 für alle y. Mit Satz 17.1 erhalten wir nun
Proposition 17.2 Für jede reelle Zahl y gilt
exp(y) =
∞
X
yj
j=0
.
j!
Beweis. Satz 17.1 zeigt, daß für jedes y ∈ R
exp(y)
= tk (y) + rk (y),
wobei
exp(ak · y) k+1
rk (y) =
·y
,
für ein ak ∈ [0, 1].
(k + 1)!
Unser Ziel ist, zu zeigen, daß exp(y) = limk→∞ tk (y). Das bedeutet, wir müssen zeigen, daß
lim rk (y)
k→∞
=
0.
(49)
Sei dazu l die kleinste natürliche Zahl, die größer als |y| ist. Dann können wir rk (y) für k > l großzügig
abschätzen durch
|rk (y)| ≤ exp(l)
lk−l
lk+1
exp(l)ll+1
≤ exp(l)ll+1 · Qk
= Qk
.
j
(k + 1)!
j=l+1 j
j=l+1
(50)
l
Der Zähler des letzten Ausdrucks ist unabhängig von k. Andererseits wird für große k der Nenner in (50)
auch beliebig groß. Also folgt (49) aus (50).
2
Die trigonometrischen Funktionen sin, cos lassen eine ganz ähnliche Reihenentwicklung zu. Weil
sin0 (x) = cos(x) und cos0 (x) = − sin(x),
erhalten wir
[k]
cos (0) =
(−1)k/2
0
falls k gerade ist,
falls k ungerade ist.
Das 2k-te Taylorpolynom von cos(x) im Punkt 0 lautet also
k
X
(−1)j
j=0
(2j)!
· y 2j ,
mit der Interpretation, daß y 0 = 1 für alle y. Entsprechend erhält man
(−1)(k−1)/2 falls k ungerade ist,
[k]
sin (0) =
0
falls k gerade ist.
Das (2k + 1)-te Taylorpolynom von sin(x) im Punkt 0 ist also
k
X
(−1)2j+1
j=0
(2j + 1)!
· y 2j+1 .
17
TAYLORENTWICKLUNG
49
Abbildung 3: die Taylorpolynome t2 (x), t4 (x), t6 (x), t8 (x) im Punkt 0 (rot, von links oben nach rechts
unten) der Funktion cos(x) (blau, gepunktet).
Proposition 17.3 Für jede reelle Zahl y gilt
cos(y) =
∞
X
(−1)j
j=0
(2j)!
· y 2j ,
sin(y) =
∞
X
(−1)j
· y 2j+1 .
(2j
+
1)!
j=0
Der Beweis von Proposition 17.3 beruht auf einem ähnlichem Arugment wie der von Proposition 17.2;
wir verzichten auf die Details. Abbildung 3 zeigt, wie die Taylorentwicklung uns immer bessere Approximationen an die Funktion cos(x) beschert.
Wenn wir uns an die imaginäre Einheit i erinnern, ergibt sich zwischen den Reihendarstellungen von
exp(x), cos(x), sin(x) ein interessanter Zusammenhang: weil i2 = −1, erhalten wir für y ∈ R
exp(iy)
=
cos(y) + i sin(y).
(51)
Weil
exp(i(y1 + y2 )) = exp(iy1 ) · exp(iy2 ),
(52)
18
FOURIERREIHEN
50
kann man mit Hilfe von (51) Zusammenhänge zwischen den trigonometrischen Funktionen herleiten, die
sogenannten “Additionstheoreme”.
Bemerkung 17.4 Um der Argumentation im vorherigen Absatz zu folgen, müßte man genaugenommen den
Konvergenzbegriff für komplexe Zahlen einführen. Das ist kein Problem: in allen Definitionen wird einfach
der reelle Betrag durch den komplexen ersetzt. Wir verzichten auf eine detaillierte Diskussion ebenso wie
auf den Beweis von (52).
18
Fourierreihen
Viele Funktionen lassen sich besser durch die trigonometrischen Funktionen sin(x), cos(x) approximieren als durch Polynome wie in der Taylorentwicklung. Diese Approximation durch Fourierreihen spielt
insbesondere in der Signalverarbeitung eine Rolle, in der Funktionen auftreten, die Überlagerungen von
Schwingungen sind (z.B. ein Audiosignal). Dieses Kapitel ist angelehnt an [4, Kapitel 23].
Um Fourierreihen einzuführen, ist es sinnvoll, das Integral von Funktionen f : R → C mit Werten in
den komplexen Zahlen zu definieren. Weil sich jede komplexe Zahl schreiben läßt als x + iy, kann man f
zerlegen in der Form
f (x) = g(x) + ih(x)
mit g, h : R → R.
Naheliegenderweise nennen wir f integrierbar, wenn g und h integrierbar sind. In diesem Fall definieren
wir
Z b
Z b
Z b
f (x)dx =
g(x)dx + i
h(x)dx.
a
a
a
Insbesondere ist also f integrierbar, wenn g und h stückweise stetig sind; in diesem Fall nennen wir f
selbst stückweise stetig.
Beispiel 18.1 Sei t ∈ R \ {0}. Die Funktion f : R → C, x 7→ exp(itx) = cos(tx) + i sin(tx) ist
integrierbar. Ihr Integral ist
Z b
1
i
i
exp(itx)dx = − [exp(itb) − exp(ita)] = [sin(tb) − sin(ta)] + [cos(ta) − cos(tb)] .
t
t
t
a
R 2π
Insbesondere ist 0 exp(itx)dx = 0.
Angenommen f, g : [0, 2π] → C sind Funktionen, so daß die Funktion
f¯ · g : [0, 2π] → C,
x 7→ f (x) · g(x)
integrierbar ist; dies ist insbesondere dann der Fall, wenn f, g stückweise stetig sind. Dann definieren wir
Z 2π
1
hf, gi =
f (x) · g(x)dx.
2π 0
Ferner definieren wir
kf k2 =
p
hf, f i ≥ 0,
sofern f¯ · f integrierbar ist. Der Beweis der folgenden Rechnenregeln ergibt sich unmittelbar aus den
Definitionen.
Proposition 18.2 Angenommen die Funktionen f, g, h : [0, 2π] → C sind stückweise stetig und a ∈ C.
Dann gilt folgendes.
1. hf + g, hi = hf, hi + hg, hi und hf, g + hi = hf, gi + hf, hi.
2. ha · f , hi = ā hf, hi und hf, a · hi = a hf, hi.
3. hf, hi = hh, f i.
18
FOURIERREIHEN
51
4. ka · f k2 = |a| · kf k2 .
5. kf + gk2 ≤ kf k2 + kgk2 .
Man nennt kf k2 die Norm von f . Wenn f : [0, 2π] → C eine Funktion ist und wenn zu jeder natürlichen Zahl Fn : [0, 2π] → C eine Funktion ist, so daß
lim kf − Fn k2 = 0,
n→∞
dann sagt man, die Folge von Funktionen (Fn )n∈N konvergiert gegen f im quadratischen Mittel.
Der Hauptgegenstand dieses Abschnittes sind Funktionen, die eine besondere Eigenschaft haben: eine
Funktion f : [0, 2π] → C heißt periodisch, falls f (2π) = f (0). Ein Beispiel ist die Funktion
ek : [0, 2π] → C,
x 7→ exp(ikx)
für jedes k ∈ Z.
Unser Ziel ist, eine gegebene Funktion f : [0, 2π] → C mit Hilfe der Funktionen ek darzustellen. Wir
beginnen mit der folgenden Beobachtung.
Lemma 18.3 Für k, l ∈ Z gilt
hek , el i =
1
0
falls k = l,
falls k 6= l.
Beweis. Es gilt
hek , el i =
1
2π
2π
Z
exp(−ikx) · exp(ilx)dx =
0
Falls l = k, gilt exp(i(l − k)x) = 1 für alle x, somit
Falls l 6= k folgt aus Beispiel 18.1, daß hek , el i = 0.
R 2π
0
1
2π
Z
2π
exp(i(l − k)x)dx.
0
exp(i(l − k)x)dx = 2π und daher hek , el i = 1.
2
Für eine integrierbare Funktion f : [0, 2π] → R nennen wir die Zahlen
1
hek , f i =
2π
2π
Z
exp(−ikx)f (x)dx
mit k ∈ Z
0
die Fourierkoeffizienten. (Wenn f integrierbar ist, trifft dies auch auf die Funktion ēk · f zu; also macht es
Sinn, hek , f i zu schreiben.) Ferner heißt die Funktion [0, 2π] → C,
x 7→
∞
X
n
X
hek , f i · ek (x) = lim
n→∞
k=−∞
hek , f i · ek (x)
(53)
k=−n
die Fourierreihe von f .
Satz 18.4 Angenommen f : [0, 2π] → C ist integrierbar. Sei
Fn : [0, 2π] → C,
x 7→
n
X
hek , f i · ek (x).
(54)
k=−n
Dann gilt limn→∞ kf − Fn k2 = 0. Außerdem gilt
∞
X
2
hek , f i = kf k2 .
k=−∞
Satz 18.4 zeigt, daß die Fourierreihe (53) von f im quadratischen Mittel gegen f konvergiert. Das
bedeutet, daß man jede integrierbare Funktion (also insbesondere jede stückweise stetige Funktion) in
gewisser Weise durch ihre Fourierreihe “approximieren” kann.
18
FOURIERREIHEN
52
Abbildung 4: die Funktionen aus Beispiel 18.5: f (rot), F1 (blau), F3 (grün), F5 (orange).
Beispiel 18.5 Die Funktion
f : [0, 2π] → C,
x 7→
−1
1
falls x ≤ π,
falls x > π
ist eine Treppenfunktion und folglich integrierbar. Für die Funktionen Fn aus (54) rechnet man nach, daß
F1 (x)
=
F3 (x)
=
=
F5 (x)
=
=
2i
4
[exp(ix) − exp(−ix)] = − sin(x),
π π
2i 1
1
exp(3ix) + exp(ix) − exp(−ix) − exp(−3ix)
π 3
3
4
sin(3x)
−
sin(x) +
,
π
3
1
1
1
2i 1
exp(5ix) + exp(3ix) + exp(ix) − exp(−ix) − exp(−3ix) − exp(−5ix)
π 5
3
3
5
4
sin(3x) sin(5x)
−
sin(x) +
+
.
π
3
5
Abbildung 4 zeigt die Graphen der entsprechenden Funktionen.
Beispiel 18.5 zeigt, daß die Funktionswerte Fn (x) aus (54) nicht notwendigerweise in jedem Punkt x ∈
[0, 2π] gegen die Funktion f konverigeren. Das überrascht kaum, denn die Funktionen Fn sind periodisch,
was auf f nicht zuzutreffen braucht (und in Beispiel 18.5 nicht zutrifft).
Allerdings kann man unter gewissen Annahmen an die Funktion f eine “bessere” Art von Konvergenz
erhalten. Angenommen f : [0, 2π] → C und Fn : [0, 2π] → C, n ∈ N, sind Funktionen. Wir sagen, die
Folge von Funktionen (Fn )n∈N konvergiert gleichmäßig gegen f , wenn
lim
sup |f (x) − Fn (x)| = 0.
n→∞ x∈[0,2π]
Insbesondere muß also für alle x ∈ [0, 2π] gelten, daß limn→∞ Fn (x) = f (x).
Satz 18.6 Angenommen die Funktion f : [0, 2π] → C ist stetig differenzierbar und periodisch. Dann
konvergiert die Funktionenfolge (Fn )n∈N aus (54) gleichmäßig gegen f .
19
AUSBLICK: DIFFERENTIALRECHNUNG IM RN
53
Abbildung 5: die Funktionen aus Beispiel 18.7: f (rot), F1 (blau), F2 (grün), F3 (orange).
Beispiel 18.7 Sei f : [0, 2π] → C die Funktion x 7→ (x − π)2 . Man rechnet nach, daß
F1 (x)
=
F2 (x)
=
=
F3 (x)
=
=
π2
π2
+ 2 exp(−ix) =
+ 4 cos(x),
3
3
1
π2
1
exp(2ix) + 2 exp(ix) +
+ 2 exp(−ix) + exp(−2ix)
2
3
2
π2
+ 4 cos(x) + cos(2x),
3
2
1
π2
1
2
exp(3ix) + exp(2ix) + 2 exp(ix) +
+ 2 exp(−ix) + exp(−2ix) + exp(−3ix)
9
2
3
2
9
π2
4
+ 4 cos(x) + cos(2x) + cos(3x).
3
9
2 exp(ix) +
Abbildung 5 zeigt die Graphen der entsprechenden Funktionen.
Die Beweise von Satz 18.4 und 18.6 gehen über den Rahmen der Vorlesung hinaus. Der interessierte
Leser sei auf [4, Kapitel 23] verwiesen, wo sich auch weiteres Material zu Fourierreihen findet.
19
Ausblick: Differentialrechnung im Rn
Bisher haben wir uns mit Funktionen f : X → R von einer Teilmenge X ⊂ R in die reellen Zahlen
befaßt. Häufig treten aber auch Funktionen f : X → Rm von einer Teilmenge X ⊂ Rn in den Rm auf.
Wie können wir die Ableitung für solche Funktionen einführen?
Zunächst beobachten wir, daß die Funktion f : X → Rm in einzelne Funktion fi : X → R, i =
1, . . . , m, zerlegt werden kann. Denn f bildet jeden Punkt x ∈ X auf einen m-dimensionalen Vektor


f1 (x)
 .. 
 . 
fm (x)
ab.
19
AUSBLICK: DIFFERENTIALRECHNUNG IM RN
54
Abbildung 6: die Funktion aus Beispiel 19.1.
Sei nun x ∈ X. Zu jeder Zahl j = 1, . . . , n betrachten wir die Menge Xj,x aller u ∈ R, so daß


x1
xj,u
 .. 
 . 


xj−1 


=  u  ∈ X.
x 
 j+1 
 . 
 .. 
xn
(In Worten: wir können die j-te Koordinate durch u ersetzen, ohne die Menge X zu verlassen.) Dann
erhalten wir zu jedem i ∈ {1, . . . , m}, x ∈ X und j ∈ {1, . . . , n} eine Funktion
fi,j,x : Xj,x → R,
u 7→ fi (xj,u ).
Falls diese Funktion differenzierbar ist im Punkt xj , nennen wir ihre Ableitung die partielle Ableitung von
fi nach xj im Punkt x, geschrieben als
∂fi
0
(x) = fi,j,x
(xj ).
∂xj
Die partielle Ableitung erhält man also, indem man fi nach der j-ten Variable xj differenziert und die
anderen Variablen xh , h 6= j, als Konstanten betrachtet. Sofern alle Ableitungen existieren, nennt man die
m × n-Matrix
∂fi
(x)
Df (x) =
∂xj
i=1,...,m;j=1,...,n
die Jacobimatrix von f im Punkt x.
Wir haben gelernt, uns die Ableitung einer Funktion als Approximation der Funktion durch eine lineare
Abbildung vorzustellen. Das Konzept der Jacobimatrix paßt sehr gut in diese Vorstellung, weil eine Matrix
ja nichts andere als eine lineare Abbildung ist. Die Abbildung, Df : x 7→ Df (x), die einem Punkt x die
Jacobimatrix von f im Punkt x zuordnet (sofern diese existiert), nennen wir die Ableitung von f .
Beispiel 19.1 Die Funktion f : R2 → R sei definiert durch f xx12 = sin(x1 · x22 ). Ihre partiellen Ableitungen sind
∂f
∂f
= x22 · cos(x1 · x22 ),
= 2x1 x2 · cos(x1 · x22 ).
∂x1
∂x2
19
AUSBLICK: DIFFERENTIALRECHNUNG IM RN
55
Die Jacobimatrix ist also die 1 × 2-Matrix
Df (x) = (x22 · cos(x1 · x22 )
2x1 x2 · cos(x1 · x22 )).
Der Graph der Funktion für x1 , x2 ∈ [−2, 2] ist in Abbildung 6 skizziert.
Viele der Aussagen und Zusammenhänge, die wir in der “eindimensionalen” Differentialrechnung kennengelernt haben, lassen sich auf den mehrdimensionalen Fall verallgemeinern. Auch höhere Ableitungen
lassen sich einführen und die Taylorformel hat eine mehrdimensionale Verallgemeinerung. Details dazu
finden sich etwa in [2].
Als Anwendung der mehrdimensionalen Differentialrechung betrachten wir sogenannte “lineare dynamische Systeme”; der folgende Text folgt dem (englischen) Wikipedia-Artikel zu diesem Thema1 . Sei also
f : [0, 1] → Rn eine Funktion vom Ein- ins Mehrdimensionale. Wir können uns f als eine Kurve im Raum
vorstellen. Sei ferner A eine n × n-Matrix. Angenommen es gilt
Df (t) = A · f (t)
(55)
für alle t ∈ [0, 1]. Was können wir dann über f aussagen?
Angenommen die Matrix A hat eine Orthonormalbasis v1 , . . . , vn bestehend aus Eigenvektoren mit
den Eigenwerten k1 , . . . , kn . Dann können wir jeden Funktionswert f (t) schreiben als
f (t) =
n
X
ei (t) · vi
(56)
i=1
mit ei : [0, 1] → R. Differenzieren von f ergibt
Df (t) =
n
X
e0i (t) · vi ,
(57)
i=1
weil die Vektoren vi ja nicht von t abhängen. Setzt man ferner (56) in A · f (t) ein, so erhält man
A · f (t) =
n
X
ei (t) · ki vi .
(58)
i=1
Aus (55), (57) und (58) folgt also
n
X
e0i (t)
· vi =
i=1
n
X
ei (t) · ki vi .
(59)
i=1
Weil die Vektoren v1 , . . . , vn eine Basis bilden, zeigt (59)
e0i (t) = ki ei (t)
für i = 1, . . . , n.
(60)
Aufgrund unserer Kenntnis der Exponentialfunktion sehen wir also, daß
ei (t) = ci · exp(ki t)
(61)
für gewisse c1 , . . . , cn ∈ R. Setzen wir t = 0 in (61) ein, so ergibt sich
ci = ei (0) für i = 1, . . . , n.
Die Zahlen ci sind also durch die sogenannte “Anfangsbedingung” f (0) bestimmt. Umgekehrt erlaubt die
obige Herleitung die Lösung der Gleichung (55), also das Berechnen von f , sofern die Matrix A diagonalisierbar und die Anfangsbedingung f (0) bekannt ist.
1 http://en.wikipedia.org/wiki/Linear
dynamical system
LITERATUR
Literatur
[1] T. Bröcker: Analysis 1.
[2] T. Bröcker: Analysis 2.
[3] G. Fischer: Lineare Algebra.
[4] O. Forster: Analysis 1.
[5] G. Strang: Lineare Algebra.
56