Analysis und lineare Algebra f¨ur die Informatik

Werbung
Analysis und lineare Algebra für die Informatik
Amin Coja-Oghlan
[email protected]
12. Februar 2014
Zusammenfassung
Inhalt dieser Vorlesung sind die Grundlagen der Linearen Algebra und der Analysis. Die Vorlesung
ist angelehnt an Standardtexte zu diesen Themen wie insbesondere [1, 2, 3, 5]. Die Themen der Veranstaltung sind (nicht notwendigerweise in dieser Reihenfolge):
• Vektorräume, lineare Abbildungen und Matrizen.
• Skalarprodukt und Orthogonalität.
• Orthonormalbasen und Orthogonalprojektion.
• Symmetrische Matrizen, quadratische Formen, Singulärwertzerlegung.
• Eigenwerte und Eigenvektoren.
• Lokale lineare Approximation und Differentialkalkül.
• Lokale Approximation der Ordnung zwei.
• Integration.
• Die komplexe Zahlenebene und Euler-Formel.
• Exponentialfunktion, Logarithmus, trigonometrische Funktionen.
• Fourierreihen und Geometrie in Funktionenräumen.
• Jacobimatrix, Volumen und Determinante.
• Lineare dynamische Systeme.
1
Grundbegriffe
Dieser Abschnitt faßt einige Konzepte zusammen, die aus der Schulmathematik bekannt sein sollten.
In der Vorlesung werden die Begriffe der (naiven) Mengenlehre benutzt. Insbesondere bezeichnet N =
{1, 2, 3, . . .} die Menge der natürlichen Zahlen, Z = {0, −1, 1, −2, 2, . . .} die Menge der ganzen Zahlen,
Q die Menge der rationalen und R die Menge der reellen Zahlen.
Seien A, B Mengen. Die Schreibweise x ∈ A bedeutet, daß x ein Element der Menge A ist. Ferner
bedeutet A ⊂ B, daß A eine (nicht notwendigerweise echte) Teilmenge von B ist, d.h. jedes Element
von A ist auch ein Element von B. Mit A ∪ B bezeichnen wir die Vereinigung von A und B; dies ist die
Menge aller Element, die in A oder in B enthalten sind. Außerdem ist A ∩ B der Durchschnitt von zwei
Mengen, d.h. die Menge aller Elemente, die in A und B enthalten sind. Mit A \ B, gesprochen A ohne B,
bezeichnen wir die Menge aller Elemente von A, die nicht Element von B sind. Schließlich ist A × B die
Produktmenge von A und B, d.h. die Menge aller geordneten Paare (x, y) mit x ∈ A und y ∈ B.
Sind f : A → B, x 7→ f (x) und g : B → C, y 7→ g(y) Abbildungen, so bezeichnen wir mit g ◦ f die
Abbildung A → C, x 7→ g(f (x)). Eine Abbildung f : A → B heißt injektiv, falls für je zwei verschiedene
Elemente x, x0 ∈ A gilt, daß f (x) 6= f (x0 ). Ferner heißt f surjektiv, falls es zu jedem y ∈ B ein x ∈ A
mit f (x) = y gibt. Eine Abbildung, die sowohl injektiv als auch surjektiv ist, heißt bijektiv.
Für eine Abbildung f : A → B und eine Teilmenge Z ⊂ A ist f (Z) = {f (z) : z ∈ Z} das Bild von
Z unter f . Umgekehrt bezeichnen wir für C ⊂ B mit f −1 (C) die Menge aller x ∈ A mit f (x) ∈ C. Wir
nennen f −1 (C) die Urbildmenge von C. Falls f eine bijektive Abbildung ist, so hat für jedes y ∈ B die
1
1
GRUNDBEGRIFFE
2
Menge f −1 ({y}) genau ein Element x und wir schreiben einfach x = f −1 (y). Die Abbildung f −1 : B →
A, y 7→ f −1 (y) ist in diesem Fall ebenfalls bijektiv und heißt die Umkehrabbildung von f .
Für eine Menge B und eine Zahl k ∈ N bezeichnen wir mit B k die Menge aller Abbildugen f :
{1, . . . , k} → B. Anstelle der Notation f : A → B, a 7→ f (a) schreiben wir mitunter etwas lax
(f (a))a∈A . Diese Notation wird häufig verwendet, wenn A = {1, 2, 3, . . . , k} für eine Zahl k ∈ N.
Insbesondere schreiben wir die Elemente f der Menge B k als (f (1), . . . , f (k)); sie werden auch k-Tupel
(und im Fall k = 2 Paare und im Fall k = 3 Tripel) genannt. Allgemeiner bezeichnen wir mit B A die
Menge aller Abbildungen f : A → B.
Ist (Ai )i∈I eine Abbildung, die Elementen einer Menge I Teilmengen Ai einer Menge A zuordnet, so
bezeichnet
[
Ai = {x ∈ A : es gibt ein i ∈ I mit x ∈ Ai }
i∈I
die Vereinigung aller Mengen Ai . Analog ist
\
Ai = {x ∈ A : für alle i ∈ I gilt x ∈ Ai }
i∈I
der Durchschnitt aller Ai .
Mit ∅ bezeichnen wir die leere Menge. Eine endliche Menge ist eine Menge A mit einer der beiden
folgenden Eigenschaften:
• A = ∅.
• Für eine Zahl k ∈ N existiert eine bijektive Abbildung f : {1, 2, . . . , k} → A.
Mit |A| bezeichnen wir die Größe, auch genannt die Mächtigkeit oder Kardinalität, einer endlichen Menge
A, definiert als
• |A| = 0, falls A = ∅.
• |A| = k, falls zu k ∈ N eine bijektive Abbildung f : {1, 2, . . . , k} → A existiert.
Falls A nicht endlich ist, schreibt man |A| = ∞.
Sei f : A → R eine Abbildung von einer endlichen Menge A 6= ∅ in die reellen Zahlen. Dann existiert
eine Bijektion g : {1, . . . , k} → A, wobei k ∈ N. Wir definieren die Summe
X
f (a) = f (g(1)) + f (g(1)) + · · · + f (g(k)).
a∈A
und das Produkt
Y
f (a) = f (g(1)) · f (g(2)) · · · f (g(k)).
a∈A
Falls A die leere Menge ist, interpretieren wir die Summe als 0 und das Produkt als 1.
Wir benötigen die Beweismethode der Induktion. Die Grundlage des Induktionsprinzips ist folgende
Tatsache.
Jede nicht-leere Menge natürlicher Zahlen enthält eine kleinste Zahl.
Aus dieser Tatsache folgt
Lemma 1.1 (“Induktionsprinzip”) Angenommen eine Menge A ⊂ N hat die beiden folgenden Eigenschaften.
i. 1 ∈ A.
ii. Wenn 1, . . . , n ∈ A, dann gilt auch n + 1 ∈ A.
Dann gilt A = N.
1
GRUNDBEGRIFFE
3
Beweis. Angenommen A 6= N. Dann ist die Menge B = N \ A nicht leer. Folglich gibt es eine kleinste
Zahl x ∈ B. Aufgrund von i. ist x 6= 1. Ferner gilt 1, . . . , x − 1 ∈ A, weil x ja die kleinste Zahl in B ist.
Nach ii. gilt also x ∈ A, im Widerspruch zu unserer Annahme, daß x ∈ B.
2
Das Induktionsprinzip ermöglicht uns, Beweise nach folgendem Schema zu führen.
i. Zeige, daß die Behauptung für n = 1 stimmt.
ii. Weise ferner nach, daß die Behauptung für n + 1 gilt, wenn sie für 1, . . . , n gilt.
Dann folgt die Behauptung für alle n ∈ N.
Als Beispiel zeigen wir
Lemma 1.2 (“Binomischer Lehrsatz”) Für x, y ∈ R und n ∈ N gilt
n
(x + y)
=
n X
n
i=0
n
=
i
i
xi y n−i ,
n!
i!(n − i)!
wobei
mit
k! =
k
Y
für k ∈ N.
j
j=1
Beweis. Wir
führen Induktion über n. Im Fall n = 1 ist die linke Seite einfach gleich x + y. Die Rechte
Seite ist 10 x + 11 y = x + y, also stimmt die Gleichung.
Für den Induktionsschritt nehmen wir nun an, daß die Formel für (x + y)n stimmt und zeigen, daß dies
auch für (x + y)n+1 der Fall ist. Es gilt
(x + y)
n+1
=
n
(x + y) · (x + y) = (x + y) ·
n X
n
i=0
=
n X
n
i
i=0
xi+1 y n−i +
n X
n
i=0
xi y n−i
[nach Induktion]
xi y n−i+1
n X
n
n i n+1−i
xi+1 y n+1−(i+1) +
xy
(i
+
1)
−
1
i
i=0
i=0
n+1
n X n X
n i n+1−i
=
xj y n+1−j +
xy
j−1
i
j=1
i=0
n X
n
n
n+1
= x
+
+
xj y n+1−j + y n+1 .
j
−
1
j
j=1
=
n X
i
i
(1)
Ferner haben wir
n!
n!(n + 1 − j + j)
n+1
n
n
n!
+
=
=
.
+
=
j!(n − j)! (j − 1)!(n + 1 − j)!
j!(n + 1 − j)!
j
j
j−1
Setzen wir dies in (1) ein, so erhalten wir
(x + y)
n+1
=x
n+1
+
n X
n+1
j=1
wie behauptet.
j
j n+1−j
x y
+y
n+1
=
n+1
X
k=0
n + 1 k n+1−k
x y
,
k
2
2
2
VEKTORRÄUME UND LINEARE ABBILDUNGEN
4
Vektorräume und lineare Abbildungen
Das Hauptziel der ersten Hälfte dieser Vorlesung ist das Verständnis linearer Abbildungen. Dies ist ein Typ
von Abbildung (oder “Funktion”), den wir in der Tat sehr gut verstehen. Deshalb befaßt sich die zweite
Hälfte der Vorlesung in etwa damit, wie man Abbildungen, die nicht linear sind, durch lineare Abbildungen
annähern kann (“was nicht linear ist, wird linear gemacht”).
Um den Begriff der linearen Abbildung einzuführen, müssen wir beschreiben, was sie wohin abbildet.
Diese Objekte sind “Vektoren”. In diesem Abschnitt geben wir eine einfache aber zunächst ausreichende
Definition dieses Begriffs: ein Vektor x ist ein n-Tupel reeller Zahlen, das wir als Spalte schreiben:


x1
 x2 


x =  . .
 .. 
xn
Die Zahlen x1 , . . . , xn heißen die Komponenten des Vektors. Wir führen zwei Rechenregeln für Vektoren
ein: für x, y ∈ Rn definieren wir


x1 + y1
 x2 + y2 


x+y =
.
..


.
xn + yn
Mit anderen Worten:
Zwei Vektoren werden addiert, indem die einzelnen Komponenten als reelle Zahlen addiert
werden.
Außerdem definieren wir für eine reelle Zahl a und einen Vektor x ∈ Rn


a · x1
 a · x2 


a·x=
.
..


.
a · xn
Das bedeutet:
Eine Zahl wird mit einem Vektor multipliziert, indem jede einzelne Komponente mit der Zahl
multipliziert wird.
Wir definieren für x, y ∈ Rn außerdem



x − y = x + (−1) · y = 

x1 − y1
x2 − y2
..
.
xn − yn








und − y = (−1) · y = 

−y1
−y2
..
.



.

−vn
Vektoren werden also komponentenweise subtrahiert. Die Subtraktion x − y ist genaugenommen keine
neue Operation, sondern nur eine “Kurzschreibweise”, weil sie einfach auf die beiden anderen Operationen
(Multiplikation mit einer Zahl und Addition von Vektoren) zurückgeführt wird.
Ein besonders einfacher Vektor ist der Nullvektor, für den wir das Symbol 0 verwenden. Dies ist der
Vektor
 
0
 0 
 
0 =  . ,
 .. 
0
2
VEKTORRÄUME UND LINEARE ABBILDUNGEN
5
dessen Komponenten sämtlich gleich 0 sind. Der Nullvektor hat die Eigenschaft, daß x + 0 = x für jeden
Vektor x.
Natürlich kann man Mengen von Vektoren bilden (und das werden wir auch oft tun). Aber von besonderem Interesse sind Mengen, die mit den soeben definierten Operationen “verträglich sind”.
Definition 2.1 Wir nennen eine Menge E einen Vektorraum, falls die folgenden Bedingungen erfüllt sind.
V0. Es gibt eine natürliche Zahl n, so daß E ⊂ Rn . Außerdem gilt E 6= ∅.
V1. Falls x, y ∈ E, dann gilt auch x + y ∈ E.
V2. Falls x ∈ E, dann gilt für jede reelle Zahl a auch a · x ∈ E.
Mit anderen Worten: ein Vektorraum ist eine nicht-leere Menge von Vektoren in Rn , aus der man mit
den oben definierten Operationen + und · nicht “herausfallen kann”. Insbesondere enthält jeder Vektorraum E den Nullvektor. Um das einzusehen, sei x ∈ E ein Vektor. Nach V2 gilt dann auch 0 · x = 0 ∈ E.
Beispiel 2.2
1. Für jede natürliche Zahl n ist die Menge Rn ein Vektorraum.
2. Für je zwei natürliche Zahlen 1 ≤ k ≤ n ist die Menge
E = {x ∈ Rn : x1 = · · · = xk = 0}
ein Vektorraum.
3. Für jede reelle Zahl a ist die Menge
E = x ∈ R2 : x 2 = a · x 1
ein Vektorraum.
Der Vektorraumbegriff gibt Anlaß zur folgenden Kennzeichung besonderer Teilmengen eines Vektorraumes E, die ebenfalls mit den Operationen + und · verträglich sind.
Definition 2.3 Sei E ein Vektorraum. Wir nennen eine Teilmenge F Untervektorraum von E, falls folgende Bedingungen erfüllt sind.
U0. Es gilt ∅ =
6 F ⊂ E.
U1. Falls x, y ∈ F , dann gilt auch x + y ∈ F .
U2. Falls x ∈ F , dann gilt für jede reelle Zahl a auch a · x ∈ F .
Ein Untervektorraum eines Vektorraums ist also selbst wieder ein Vektorraum.
Beispiel 2.4
1. Der Vektorraum R hat nur zwei Untervektorräume: sich selbst und die Menge {0}, die
nur den Nullvektor enthält.
2. Die Untervektorräume von R2 sind genau die Mengen {0},
Fa = x ∈ R 2 : x 2 = a · x 1
mit a ∈ R,
F∞ = {(0, y) : y ∈ R} ,
(2)
und der gesamte Vektorraum R2 selbst. Geometrisch gesprochen sind die Mengen in (2) nichts anderes als die Geraden durch 0.
3. Die Untervektorräume des R3 sind entsprechend die Mengen {0} und R3 selbst sowie die Geraden
und Ebenen durch 0.
Wir kommen nun zum Hauptbegriff, um den sich der erste Teil der Vorlesung dreht.
2
VEKTORRÄUME UND LINEARE ABBILDUNGEN
6
Definition 2.5 Seien E, E 0 Vektorräume. Eine Abbildung f : E → E 0 heißt linear, falls sie die folgenden
Bedingungen erfüllt.
L1. Für je zwei Vektoren x, y ∈ E gilt f (x + y) = f (x) + f (y).
L2. Für jeden Vektor x ∈ E und jede Zahl a ∈ R gilt f (a · x) = a · f (x).
Salopp gesagt ist eine Abbildung f also linear, wenn man f mit + und · “vertauschen kann”.
Es gibt einige offensichtliche Beispiele linearer Abbildungen. Für je zwei Vektorräume E, E 0 ist die
Abbildung f : E → E 0 , x 7→ 0, die also alle Vektoren auf den Nullvektor abbildet, linear. Außerdem ist
für jeden Vektorraum E die Abbildung id : E → E, x 7→ x, die einfach x auf sich selbst abbildet, linear.
Ist allgemeiner a eine reelle Zahl, so ist die Abbildung E → E, x 7→ a · x linear. Kommen wir zu einigen
vielleicht weniger offensichtliche Beispielen.
x
Beispiel 2.6
1. Die Abbildung R2 → R2 , xy 7→ −y
ist, geometrisch gesprochen, die Spiegelung an
der x-Achse.
◦
2. Die Abbildung R2 → R2 , xy 7→ −y
x ist die Rotation um 90 .
3. Allgemeiner ist R2 → R2 , xy 7→ cos(α)x−sin(α)y
die Rotation um den Winkel α.
sin(α)x+cos(α)y
Aus gegebenen linearen Abbildungen kann man neue basteln. Für eine lineare Abbildung f : E → E 0
und b ∈ R definieren wir eine neue Abbildung b · f : E → E 0 durch x 7→ b · f (x). Außerdem definieren
wir für lineare f, g : E → E 0 die Abbildung f + g : E → E 0 durch x 7→ f (x) + g(x).
Proposition 2.7 Seien f, g : E → E 0 und h : E 0 → E 00 lineare Abbildugen.
1. Für jede Zahl b ∈ R ist b · f linear.
2. Die Abbildung f + g ist linear.
3. Die Abbildung h ◦ f : E → E 00 ist linear.
Beweis. Wir rechnen einfach die erforderlichen Eigenschaften nach. Seien x, y ∈ E und a ∈ R. Weil
f, g, h linear sind, gilt
(b · f )(x + y)
(f + g)(x + y)
h ◦ f (x + y)
= b · (f (x) + f (y)) = b · f (x) + b · f (y) = (b · f )(x) + (b · f )(y),
= f (x + y) + g(x + y) = f (x) + f (y) + g(x) + g(y) = (f + g)(x) + (f + g)(y),
= h(f (x + y)) = h(f (x) + f (y)) = h(f (x)) + h(f (y)) = h ◦ f (x) + h ◦ f (y).
Also erfüllen b · f , f + g und h ◦ f die Bedingung L1. Ferner gilt
(b · f )(a · x)
(f + g)(a · x)
h ◦ f (a · x)
= b · (a · f (x)) = a · (b · f (x)) = a · (b · f )(x),
= f (a · x) + g(a · x) = a · f (x) + a · g(x) = a · (f + g)(x),
= h(f (a · x)) = h(a · f (x)) = a · h(f (x)) = a · h ◦ f (x),
2
woraus L2 folgt.
Proposition 2.8 Sei f : E → E 0 eine bijektive lineare Abbildung. Dann ist auch ihre Umkehrabbildung
f −1 : E 0 → E linear.
Beweis. Seien x0 , y 0 ∈ E 0 Vektoren. Dann gibt es x, y ∈ E mit x0 = f (x), y 0 = f (y). Weil f linear ist, gilt
also x0 + y 0 = f (x + y). Weil f außerdem bijektiv ist, folgt
f −1 (x0 + y 0 ) = f −1 (f (x + y)) = x + y = f −1 (x0 ) + f −1 (y 0 ).
Ist ferner a ∈ R, so gilt
f −1 (a · x0 ) = f −1 (a · f (x)) = f −1 (f (a · x)) = a · x = a · f −1 (x0 ).
Also erfüllt f −1 die Bedingungen L1–L2.
2
Lineare Abbildungen werden auch oft als Homomorphismen bezeichnet. Eine bijektive lineare Abbildung heißt ein Isomorphismus.
3
3
MATRIZEN
7
Matrizen
Das Ziel in diesem Abschnitt ist, lineare Abbildungen f : Rn → Rm möglichst einfach zu beschreiben.
Dazu definieren wir ein neues Objekt: eine m × n-Matrix A ist eine Abbildung
A : {1, . . . , m} × {1, . . . , n} → R,
(i, j) 7→ Aij .
Wir schreiben eine Matrix in der Form

A11
 ..
A= .
Am1
···
..
.
···

A1n
..  .
. 
Amn
Wir nennen das n-Tupel A(i) = (Ai1 , . . . , Ain ) die i-te Zeile von A. Entsprechend heißt der Vektor


A1j


A(j) =  ... 
Amj
die j-te Spalte von A. Die einzelnen Zahlen Aij heißen die Einträge von A. Die Reihenfolge der Indices
merken wir uns mit der Eselsbrücke “Zeilen zuerst, Spalten später”. Falls m = n, nennen wir M eine
quadratische Matrix.
Was haben Matrizen mit linearen Abbildungen zu tun? Betrachten wir einmal die Vektoren
 
 
 
1
0
0
 0 
 1 
 0 
 
 
 
 
 
 
e(1) =  0  , e(2) =  0  , . . . , e(n) =  ...  ∈ Rn .
(3)
 .. 
 .. 
 
 . 
 . 
 0 
0
0
1
In Worten: e(i) ist der Vektor, dessen i-te Komponente 1 ist, während alle anderen Komponenten 0 sind.
Dann können wir jeden Vektor x ∈ Rn schreiben als


x1
n
X


xk e(k) .
x =  ...  = x1 · e(1) + · · · + xn e(n) =
k=1
xn
Ist f : Rn → Rm eine lineare Abbildung, dann ist also
!
n
n
X
X
f (x) = f
xk e(k) =
xk f (e(k) ).
k=1
(4)
k=1
Wenn wir also die n Vektoren f (e(1) ), . . . , f (e(n) ) ∈ Rm kennen, dann wissen wir f (x) für alle x ∈ Rn .
Mit anderen Worten: f is vollständig dadurch bestimmt, wohin es die Vektoren e(1) , . . . , e(n) abbildet.
Wir fassen diese n Vektoren in einer Matrix zuammen. Genauer sei M (f ) die m × n-Matrix mit Spalten
f (e(1) ), . . . , f (e(n) ). Diese Matrix heißt die darstellende Matrix von f .
Um die Gleichung (4) direkt mit der Matrix M (f ) schreiben zu können, definieren wir, wie man eine
Matrix mit einem Vektor multipliziert. Für eine mP
× n-Matrix A und einen Vektor x ∈ Rn definieren wir
n
m
A · x ∈ R als den Vektor mit i-ter Komponente j=1 Aij xj . Anders ausgedrückt,


A11 x1 + A12 x2 + · · · + A1n xn


..


.
A·x=
.
 A21 x1 + A22 x2 + · · · + A2n xn 
Am1 x1 + A12 x2 + · · · + Amn xn
3
MATRIZEN
8
Noch anders ausgedrückt, wenn wir mit A(k) die k-te Spalte


A1k
 A2k 


 .. 
 . 
Amk
von A bezeichnen, dann ist
A·x=
n
X
xj A(j) = x1 A(1) + x2 A(2) + · · · + xn A(n) .
(5)
j=1
Mit dieser Definition können wir dann (4) schreiben als
f (x) = M (f ) · x.
Die lineare Abbildung f ist also nichts anderes als Multiplikation mit der Matrix M (f ). Umgekehrt stellt
unsere Definition von “Matrix mal Vektor” sicher, daß für jede m × n Matrix A die Abbildung Rn → Rm ,
x 7→ A · x linear ist.
Beispiel 3.1 Wir hatten gesehen, daß die lineare Abbildung
x
cos(α)x − sin(α)y
2
2
f :R →R ,
7→
y
sin(α)x + cos(α)y
geometrisch gesehen die Rotation um den Winkel α ist. Die darstellende Matrix ist
cos α − sin α
M (f ) =
.
sin α cos α
Wir hatten gewissen Rechenregeln für lineare Abbildungen definiert. Beispielsweise hatten wir gesehen, daß für zwei lineare Abbildungen f, g : Rn → Rm auch f + g eine lineare Abbildung ist. Um
diese Operationen in den Matrizen M (f ), M (g), M (f + g) widerzuspiegeln, definieren wir einige weitere
Rechenarten für Matrizen. Für zwei m × n-Matrizen A, B definieren wir


A11 + B11 · · · A1n + B1n


..
..
..
A+B =
.
.
.
.
Am1 + Bm1
···
Amn + Bmn
Man addiert also Matrizen, indem man die einzelnen Einträge addiert. Für eine reelle Zahl a definieren wir
ferner


a · A11 · · · a · A1n


..
..
..
a·A=
.
.
.
.
a · Am1
···
a · Amn
Also multipliziert man eine Zahl mit einer Matrix, indem man jeden Eintrag mit der Zahl multipliziert.
Proposition 3.2 Sind f, g : Rn → Rm lineare Abbildungen, so ist M (f + g) = M (f ) + M (g). Ist ferner
a ∈ R, so ist M (a · f ) = a · M (f ).
Beweis. Per Definition der Matrizen M (f ), M (g), M (f +g), M (a·f ) genügt es, (f +g)(e(k) ), (a·f )(e(k) )
auszurechnen. Es gilt (f + g)(e(k) ) = f (e(k) ) + g(e(k) ), (a · f )(e(k) ) = a · f (e(k) ).
2
Wenn f : Rn → Rm und g : Rm → Rl lineare Abbildungen sind, können wir dann auch eine
schöne Formel für M (g ◦ f ) angeben? Dazu müßten wir verstehen, was die lineare Abbildung g ◦ f mit
3
MATRIZEN
9
den Vektoren e(j) ∈ Rn macht. Der Einfachheit halber schreiben wir A = M (f ) und B = M (g). Dann
ist


A1j


f (e(j) ) = A(j) =  ... 
Amj
die j-te Spalte von A. Wenden wir die Matrix-mal-Vektor-Formel (5) an, so erhalten wir
g ◦ f (e(j) ) = g(f (e(j) )) = g(A(j) ) =
m
X
Ahj B (h) .
h=1
Hierbei ist Ahj ∈ R die h-te Komponente des Vektors A
Der (i, j)-Eintrag der Matrix M (g ◦ f ) ist also
(M (g ◦ f ))ij =
(j)
m
X
und B (h) ∈ Rl die h-te Spalte der Matrix B.
Bih Ahj .
(6)
h=1
Wir verwandeln diese Gleichung nun in eine Definition. Ist B eine l × m-Matrix
und A eine m × nPm
Matrix, so definieren wir ihr Produkt B · A als die l × n-Matrix mit (i, j)-Eintrag h=1 Bih Ahj für alle
i ∈ {1, . . . , l} und alle j ∈ {1, . . . , n}. In Symbolen,
(B · A)ij =
m
X
Bih Ahj .
h=1
Als Eselsbrücke kann man sagen, daß man B · A erhält nach der Regel “Zeile mal Spalte”. Genauer: man
multipliziert die Einträge der i-ten Zeile von B mit den entsprechenden Einträgen der j-ten Spalte von A
und summiert die Produkte auf. Die Gleichung (6) zeigt nun, daß
M (g ◦ f ) = M (g) · M (f ).
(7)
Für quadratische Matrizen benutzen wir auch die Potenzschreibweise . Mit Ak für k ∈ N bezeichnen
wir also das Produkt
Ak = A
| · A{z· · · A} .
k mal
Einige Matrizen spielen eine besondere Rolle. Für jede Größe m × n bezeichnen wir mit 0 die Matrix,
deren Einträge alle gleich 0 sind. Diese Matrix hat die Eigenschaft, daß A + 0 = 0 + A = A für alle A.
Außerdem bezeichnet id die n × n-Matrix, deren Diagonaleinträge gleich 1 sind, während alle anderen
Einträge gleich 0 sind. Für jede n × n-Matrix A gilt id · A = A · id = A. Ferner gilt id · x = x für jeden
Vektor x ∈ Rn . Allgemeiner bezeichnen wir für einen Vektor a ∈ Rn mit diag(a) die n × n-Matrix, deren
Diagonale gerade der Vektor a ist, während alle anderen Einträge gleich 0 sind. Für jeden Vektor x ∈ Rn
gilt dann


a1 x1
 a2 x2 


diag(a) · x =  .  .
 .. 
an xn
Schließlich sagen wir, daß eine m×n-Matrix D Diagonalform hat, wenn aus Dij 6= 0 folgt, daß i = j (i =
1, . . . , m; j = 1, . . . , n). Mit anderen Worten: nur die Diagonaleinträge Dii dürfen von Null verschieden
sein.
Bemerkung 3.3 Die Multiplikation von Matrizen ist nicht kommutativ, d.h. A · B ist im allgemeinen nicht
dasselbe wie B · A. In der Tat sind beide Produkte überhaupt nur dann definiert, wenn A, B beide quadratisch und von derselben Größe sind. Aber auch in diesem Fall stimmen A · B und B · A im allgemeinen
nicht überein. Als Gegenbeispiel betrachte
0 1
1 1
A=
,
B=
.
0 0
0 0
4
BASEN UND DIE DIMENSION
Wir erhalten
10
A·B =
0
0
0
0
,
B·A=
0
0
1
0
.
Wenn man Matrizen addieren und multiplizieren kann, kann man sie dann auch durcheinander “dividieren”?
Definition 3.4 Seien A, B n × n-Matrizen. Wir sagen, daß B zu A invers ist, wenn A · B = B · A = id.
Falls es eine Matrix B gibt, die zu A invers ist, heißt A invertierbar oder regulär, andernfalls heißt A
singulär.
Obige Bemerkung zeigt, daß nicht jede Matriz invertierbar ist. Es kann sogar passieren, daß A · B = 0,
obwohl A 6= 0 und B 6= 0. Wir können invertierbare Matrizen wie folgt charakterisieren.
Proposition 3.5 Eine n × n-Matrix A ist genau dann invertierbar, wenn die lineare Abbildung x ∈ Rn 7→
A · x ein Isomorphismus ist.
Beweis. Angenommen die lineare Abbildung f : Rn → Rn , x 7→ A · x ist ein Isomorphismus. Dann
ist auch f −1 : Rn → Rn ein Isomorphismus. Sei B = M (f −1 ) die Matrix, die diesen Isomorphismus
darstellt. Dann gilt
id = M (f ◦ f −1 ) = M (f ) · M (f −1 ) = A · B und id = M (f −1 ◦ f ) = M (f −1 ) · M (f ) = B · A.
Also ist B zu A invers.
Nehmen wir nun umgekehrt an, daß A ein Inverses B hat, so definieren wir die lineare Abbildung
g : x 7→ B · x. Dann gilt für jeden Vektor x ∈ Rn
f ◦ g(x) = f (g(x)) = A · B · x = id · x = x,
g ◦ f (x) = g(f (x)) = B · A · x = id · x = x.
Folglich ist f bijektiv und g die Umkehrabbildung von f .
2
Der Beweis von Proposition 3.5 zeigt, daß eine invertierbare Matrix A eine eindeutige inverse Matrix
hat (nämlich die Matrix M (f −1 ) in obigem Beweis). Wir bezeichnen diese Matrix durch A−1 . Aus (7)
folgt, daß für zwei invertierbare n × n-Matrizen A, B gilt
(A · B)−1 = B −1 · A−1 .
Beispiel 3.6
1. Die Diagonalmatrix A = diag(a1 , . . . , an ) ist genau dann invertierbar, wenn a1 , . . . , an 6=
−1
0. Ihr Inverses ist in diesem Fall A−1 = diag(a−1
1 , . . . , an ).
2. Die darstellende Matrix
cos α
sin α
− sin α
cos α
der Rotation um den Winkel α ist invertierbar. Ihr Inverses ist die Matrix
cos α sin α
,
− sin α cos α
die die Rotation um den Winkel −α darstellt.
4
Basen und die Dimension
Wir führen ein Maß für die “Größe” eines Vektorraums ein, die Dimension. Beispielsweise wird die Dimension des Vektorraumes Rn gleich n sein. Um den Begriff der Dimension einzuführen, benötigen wir
folgende
Definition 4.1 Seien x1 , . . . , xk ∈ E Vektoren in einem Vektorraum E. Wir nennen x1 , . . . , xk linear
unabhängig, falls folgendes gilt.
4
BASEN UND DIE DIMENSION
11
Sind a1 , . . . , ak reelle Zahlen, so daß
Pk
i=1
ai xi = 0, so folgt ai = 0 für i = 1, . . . , k.
Beispiel 4.2 Die Vektoren e(1) , . . . , e(n) ∈ Rn sind linear unabhängig. Denn für reelle a1 , . . . , an gilt


a1
n
 a2 
X


ai e(i) =  .  .
 .. 
i=1
an
Dies ist nur dann der Nullvektor, wenn a1 = a2 = · · · = an = 0.
Für Vektoren x1 , . . . , xk definieren wir
[x1 , . . . , xk ] =
( k
X
)
ai · xi : a1 , . . . , ak ∈ R .
i=1
Dies ist ein Vektorraum, den wir den von x1 , . . . , xk aufgespannten Vektorraum nennen. Der Kernbegriff,
den wir benötigen, um die Dimension zu definieren, ist der der Basis.
Definition 4.3 Seien x1 , . . . , xk Vektoren in einem Vektorraum E. Wir nennen x1 , . . . , xk eine Basis von
E, falls die beiden folgenden Bedingungen erfüllt sind.
B1. x1 , . . . , xk sind linear unabhängig.
B2. Es gilt E = [x1 , . . . , xk ].
Eine Basis hat die folgende wichtige Eigenschaft.
Proposition 4.4 Ist x1 , . . . , xk eine Basis
Pk des Vektorraums E, so gibt es zu jedem Vektor y ∈ E genau ein
k-Tupel a1 , . . . , ak ∈ R, so daß y = i=1 ai xi .
Pk
Beweis. Weil E = [x1 , . . . , xk ], gibt es zu jedem y ∈ E Zahlen a1 , . . . , ak mit y = i=1 ai xi . Nehmen
Pk
wir nun an, daß b1 , . . . , bk ∈ R ein weiteres k-Tupel ist, so daß y = i=1 bi xi . Dann gilt
0=y−y =
k
X
(bi − ai )xi .
i=1
Weil die Vektoren x1 , . . . , xk linear unabhängig sind, folgt bi = ai für alle i.
2
Wir würden gern die Dimension des Raumes E definieren als die Anzahl der Vektoren in einer Basis
von E. Dazu müssen wir uns allerdings noch zwei Dinge überlegen:
• Jeder Vektorraum hat eine Basis.
• Alle Basen bestehen aus gleichvielen Vektoren.
Dazu benötigen wir
Proposition 4.5 Angenommen x1 , . . . , xn ist eine Basis von E und die Vektoren y1 , . . . , yk ∈ E sind
linear unabhängig. Dann ist k ≤ n und es gibt eine injektive Abbildung τ : {k + 1, . . . , n} → {1, . . . , n},
so daß
y1 , . . . , yk , xτ (k+1) , . . . , xτ (n)
eine Basis von E ist.
Der Beweis dieser Aussage benötigt einen Zwischenschritt.
Lemma 4.6 Sei x1 , . . . , xn eine Basis des Vektorraums E. Falls z = a1 x1 + · · · + an xn ein Vektor ist mit
a1 6= 0, so ist z, x2 , . . . , xn eine Basis von E.
4
BASEN UND DIE DIMENSION
12
Beweis. Angenommen es gibt reelle Zahlen b1 , . . . , bn , so daß
b1 z + b2 x2 + · · · + bn xn = 0.
Indem wir z = a1 x1 + · · · + an xn einsetzen, erhalten wir
b1 a1 x1 + (b1 a2 + b2 )x2 + · · · + (b1 an + bn )xn = 0.
Aus der linearen Unabhängigkeit von x1 , . . . , xn folgt b1 a1 = 0. Weil a1 6= 0 bedeutet das, daß b1 = 0.
Wiederum aus der linearen Unabhängigkeit von x1 , . . . , xn folgt also bi = b1 ai + bi = 0 für i = 2, . . . , n.
Folglich sind z, x2 , . . . , xn linear unabhängig.
Da x1 , . . . , xn eine Basis ist, läßt sich ferner jeder Vektor y ∈ E darstellen als
y=
n
X
ci x i
mit c1 , . . . , cn ∈ R.
i=1
Folglich gilt
y=
n X
a i c1
c1
z+
xi .
ci −
a1
a1
i=2
2
Dies zeigt [z, x2 , . . . , xn ] = E.
Beweis von Proposition 4.5. Wir führen Induktion über k, beginnend mit k = 1. Der Vektor y1 läßt sich
darstellen als
y1 = a1 x1 + · · · + an xn
mit a1 , . . . , an ∈ R.
Da y1 6= 0 (aufgrund der linearen Unabhängigkeit), gibt es ein ai 6= 0. Lemma 4.6 zeigt also, daß wir eine
Basis erhalten, indem wir xi durch y1 ersetzen. D.h. x1 , . . . , xi−1 , y1 , xi+1 , . . . , xn ist eine Basis.
Wir führen nun den Induktionsschritt durch. Nach geeigneter Umnumerierung der Vektoren dürfen wir
annehmen, daß y1 , . . . , yk−1 , xk , . . . , xn eine Basis ist, und daß n ≥ k − 1. Insbesondere läßt sich der
Vektor yk darstellen als
n
k−1
X
X
bi x i .
bi y i +
yk =
i=1
i=k
Weil y1 , . . . , yk linear unabhängig sind, gibt es ein i ≥ k mit bi 6= 0. Daraus folgt, daß n ≥ k. Numerieren
wir der Einfachheit halber wir die Vektoren xk , . . . , xn so um, daß bk 6= 0, so zeigt Lemma 4.6, daß
y1 , . . . , yk , xk+1 , . . . , xn eine Basis ist.
2
Korollar 4.7 Sind x1 , . . . , xn und y1 , . . . , yk Basen des Vektorraums E, so gilt k = n.
Satz 4.8 Jeder Vektorraum E 6= {0} hat eine Basis.
Beweis. Nach unserer Defintition von Vektorraum gibt eine natürliche Zahl n mit E ⊂ Rn . Der Vektorraum
Rn hat die Basis bestehend aus den in (3) eingeführten Vektoren e(1) , . . . , e(n) . Sind x1 , . . . , xk ∈ E ⊂ Rn
linear unabhängige Vektoren, zeigt Proposition 4.5 also, daß k ≤ n. Wähle in der Tat k größtmöglich, so
daß es linear unabhängige x1 , . . . , xk ∈ E gibt. Wir behaupten, daß x1 , . . . , xk eine Basis von E ist.
Denn wäre z ∈ E \ [x1 , . . . , xk ], so wären die k + 1 Vektoren z, x1 , . . . , xk linear unabhängig. Um dies
einzusehen, seien a0 , . . . , ak ∈ R Zahlen mit
a0 z + a1 x1 + · · · + ak xk = 0.
(8)
Falls a0 = 0, folgt aus der linearen Unabhängig von x1 , . . . , xk , daß a1 = · · · = ak = 0. Ist ferner a0 6= 0,
so zeigt (8), daß
k
X
ai
xi ∈ [x1 , . . . , xk ] ,
z=−
a
i=1 0
im Widerspruch zu der Annahme, daß z 6∈ [x1 , . . . , xk ].
Korollar 4.7 und Satz 4.8 ermöglichen folgende Definition.
2
4
BASEN UND DIE DIMENSION
13
Definition 4.9 Sei E ein Vektorraum und x1 , . . . , xk eine Basis von E. Dann nennen wir k die Dimension
von E und schreiben dim E = k.
Wir nennen zwei Vektorräume E, E 0 isomorph, falls es einen Isomorphismis f : E → E 0 gibt. Die
folgende Proposition zeigt, daß es zu jeder Dimension “im wesentlichen” nur einen einzigen Vektorraum
gibt; formal bedeutet das, daß je zwei Vektorräume derselben Dimension isomorph sind.
Proposition 4.10 Jeder Vektorraum E der Dimension n ≥ 1 ist isomorph zu Rn .
Beweis. Sei x1 , . . . , xn eine Basis von E. Wir definieren


a1
n
X
 .. 
f : Rn → E,
7
ai xi .
 . →
i=1
an
(9)
Diese Abbildung ist linear. Außerdem ist f injektiv, weil x1 , . . . , xn linear unabhängig sind, und surjektiv,
weil E = [x1 , . . . , xn ].
2
In Abschnitt 3 haben wir gelernt, lineare Abbildungen g : Rn → Rm durch Matrizen darzustellen. Erlauben auch lineare Abbildungen g : E → E 0 zwischen anderen Vektorräumen E, E 0 eine solche Darstellung? Das geht tatsächlich, allerdings müssen wir zuvor Basen von E, E 0 festlegen. Sei also
A = (x1 , . . . , xn ) eine Basis von E und B = (y1 , . . . , ym ) eine Basis von E 0 . Wir benutzen den Isomorphismus aus Proposition 4.10, um g als Matrix darzustellen. Bezeichne dazu f den in (9) definierten
Isomorphismus und h den analog definierten Isomorphismus


b1
m
X
 .. 
bi yi .
h : Rm → E 0 ,
 .  7→
i=1
bm
Dann ist h−1 ◦ g ◦ f : Rn → Rm eine lineare Abbildung. Ihre darstellende Matrix M (h−1 ◦ g ◦ f )
bezeichnen wir mit MA,B (g). Explizit können wir ihre Einträge wie folgt beschreiben. Das Bild f (xj ) des
jten Basisvektors von A läßt sich schreiben als
g(xj ) =
m
X
cij yi ,
i=1
weil B ja eine Basis von E 0 ist. Dann gilt

MA,B (g) = (cij )i=1,...,m;j=1,...n
c11
 ..
= .
cm1
···
..
.
···

c1n
..  .
. 
cmn
Ein wichtiger Spezialfall ergibt sich, wenn E = Rn und E 0 = Rm . In diesem Fall erhalten wir also zu
je zwei Basen A von Rn und B von Rm eine darstellende Matrix MA,B (g) der linearen Abbildung g. Wie
verhält sich diese Matrix zu der “natürlichen” Matrix M (g)? Die beiden Isomorphismen f : Rn → Rn
und h : Rm → Rm können ebefalls durch Matrizen dargesellt werden, und nach der Definition gilt
MA,B (g) = M (h−1 ◦ g ◦ f ) = M (h−1 ) · M (g) · M (f ) = M (h)−1 · M (g) · M (f ).
Anhand der Definition von f und g sieht man ferner, daß M (f ) die Matrix ist, deren Spalten die Basisvektoren A sind. Entsprechend ist M (h) die Matrix, deren Spalten die Basisvektoren B sind. Ein wesentliches
Ziel der folgenden Abschnitte wird sein, Basen A, B zu finden, so daß die Matrix MA,B (f ) eine möglichst
einfache Gestalt hat.
5
5
LINEARE GLEICHUNGSSYSTEME
14
Lineare Gleichungssysteme
Für eine gegebene lineare Abbildung f : E → E 0 und einen Vektor y ∈ E 0 möchten wir einen Vektor
x ∈ E mit f (x) = y finden, falls es ein solches x gibt. Weil f durch eine Matrix dargestellt werden kann
(durch Wahl von Basen für E, E 0 ), genügt es, das folgende, konkretere Problem zu lösen: für eine m × nMatrix A und einen Vektor b ∈ Rm ist x ∈ Rn mit Ax = b zu bestimmen, falls es ein solches x gibt.
Genauer gesagt möchten wir alle solchen Vektoren x bestimmen.
Zur Lösung des linearen Gleichungssystems Ax = b verwenden wir die Gaußsche Eliminiationsmethode. In dieser Methode wird die Matrix durch Umformungen in eine Form gebracht, in der der linke untere
Teil der Matrix aus Nullen besteht. Genauer sagen wir, daß eine m×n-Matrix B Zeilenstufenform hat, falls
es eine Folge j1 < j2 < · · · < jm natürlicher Zahlen gibt, so daß Bij = 0 falls j < ji und Biji 6= 0 falls
ji ≤ n. Wenn die Matrix in Zeilenstufenform gebracht ist, kann man eine Lösung des Gleichungssystems
Ax = b direkt ablesen. In der Tat erhält man unmittelbar alle Lösungen dieses Gleichungssystems.
Um die Matrix auf diese Form zu bringen, geht man wie folgt vor. Sei j1 der kleinste Spaltenindex,
so daß in Splate A(j1 ) eine von Null verschiedene Zahl vorkommt. Sei i1 der kleinste Zeilenindex, so daß
Ai1 j1 6= 0. Zunächst vertauschen wir die Zeile i1 mit der ersten Zeile der Matrix. Gleichzeitig wird bi1
mit b1 vertauscht. Seien A0 , b0 die Matrix und der Vektor, die dabei entstehen. Dann addieren wir passende
Vielfache der ersten Zeile von A0 zu den anderen Zeilen von A0 , so daß in der resultierenden Matrix A00
gilt A00ij1 = 0 für alle i > 1. Dieselben Operationen werden an dem Vektor b ausgeführt, und b00 bezeichne
den resultierenden Vektor. Nun wiederholen wir das Verfahren auf der kleineren Matrix A000 , die aus A00
durch Weglassen der ersten Zeile entsteht, und dem Vektor b000 , der aus b00 durch Fortlassen der ersten
Komponente entsteht.
Beispiel 5.1 Wir lösen das Gleichungssystem Ax = b mit


−1 −1 0 2
 −1 0 0 3 

A=
 −1 0 1 2  ,
2
1 0 −4

−1
 −1 

b=
 −1  .
3

Um die Umformungen zugleich an A und b durchführen zu können, schreiben wir b als Spalte neben die
Matrix A; allerdings merken wir uns, daß diese Spalte eine besondere Rolle spielt:


−1 −1 0 2 −1
 −1 0 0 3 −1 


 −1 0 1 2 −1  .
2
1 0 −4 3
Wir subtrahieren nun die erste Zeilen von der zweiten und erhalten


−1 −1 0 2 −1
 0
1 0 1
0 


 −1 0 1 2 −1  .
2
1 0 −4 3
Anschließend subtrahieren wir die erste Zeile von der dritten; das Ergebnis ist


−1 −1 0 2 −1
 0
1 0 1
0 
.

 0
1 1 0
0 
2
1 0 −4 3
Dann wird das 2-fache der ersten Zeile zur letzten Zeile addiert:


−1 −1 0 2 −1
 0
1 0 1 0 

.
 0
1 1 0 0 
0 −1 0 0 1
5
LINEARE GLEICHUNGSSYSTEME
15
Damit haben wir die erste Zeile und Spalte abgearbeitet. Wir fahren jetzt auf dem Rest fort, indem wir die
zweite Zeile zur dritten addieren und von der letzten subtrahieren:


−1 −1 0 2 −1
 0
1 0 1
0 
.

 0
0 1 −1 0 
1
0
0 0 1
Wir haben die Matrix auf Zeilenstufenform gebracht. Man liest jetzt die Lösung x4 = 1, x3 = 1, x2 = −1,
x1 = 4 ab.
Satz 5.2 Zu jeder m×n-Matrix A gibt es eine invertierbare m×m-Matrix C, so daß C·A Zeilenstufenform
hat.
Beweis. Wir haben gesehen, daß eine Matrix durch das Gaußschen Eliminationsverfahren in Zeilenstufenform gebracht werden kann. Dabei werden die folgenden Operationen durchgeführt:
• Vertauschen von zwei Zeilen.
• Addieren des Vielfachen einer Zeile zu einer anderen Zeile.
Zu Indices 1 ≤ i1 < i2 ≤ m sei nun S[i1 , i2 ] die m × m-Matrix, die aus der Einheitsmatrix id durch
Vertauschen der i1 ten und der i2 ten Zeile hervorgeht. Dann ist S[i1 , i2 ] · A die Matrix, die aus A durch
Vertauschen der Zeilen i1 und i2 entsteht. Außerdem ist S[i1 , i2 ] invertierbar, da S[i1 , i2 ] · S[i1 , i2 ] = id.
Ferner definieren wir zu i1 , i2 ∈ {1, . . . , m}, i1 6= i2 , und λ ∈ R eine Matrix T [i1 , i2 , λ], deren
Diagonaleinträge alle gleich 1 sind, deren Eintrag in Zeile i1 und Spalte i2 gleich λ ist, und deren übrige
Einträge gleich 0 sind. Dann ist T [i1 , i2 , λ] · A die Matrix, die aus A durch addieren des λ-Fachen der Zeile
i2 zur Zeile i1 entsteht. Weil T [i1 , i2 , −λ] · T [i1 , i2 , λ] = 1, ist T [i1 , i2 , λ] invertierbar. Die Operationen,
die im Gaußschen Eliminationsverfahren durchgeführt werden, entsprechen also einfach der Multiplikation
von links mit invertierbaren Matrizen S[i1 , i2 ], T [i1 , i2 , λ]. Die Matrix C ist das Produkt derselben.
2
T
Zu einer m × n-Matrix A definieren wir eine n × m-Matrix A , die transponierte Matrix, durch
ATji = Aij für i = 1, . . . , m und j = 1, . . . , n. Ist B eine l × m-Matrix, so ist (BA)T = AT B T . Ist ferner
A eine invertierbare quadratische Matrix, so trifft dies auch auf AT zu und (AT )−1 = (A−1 )T .
Korollar 5.3 Zu jeder m × n-Matrix A gibt es eine invertierbare m × m-Matrix C und eine invertierbare
n × n-Matrix D und eine Zahl r ≤ min {m, n}, so daß C · A · D = Er , wobei Er die Matrix ist, deren
erste r Diagonaleinträge gleich 1 sind und deren übrige Einträge gleich 0 sind.
Beweis. Zunächst wenden wir das Gaußsche Eliminationsverfahren an, um eine invertierbare Matrix C
zu erhalten, so daß CA Zeilenstufenform hat. Dann wenden wir das Gaußsche Eliminationsverfahren auf
die transponierte Matrix (CA)T an. Dies gibt eine invertierbare n × n-Matrix F , so daß F (CA)T eine
n × m-Matrix ist, die nur auf der Diagonalen von Null verschiedene Einträge hat. Durch Multiplikation
mit einer geeigneten invertierbaren n×n-Diagonalmatrix G kann man erreichen, daß die Matrix GF (CA)T
Diagonalform hat mit Einträgen 1 oder 0. Die transponierte Matrix CA(GF )T ist also eine m × n-Matrix
2
in Diagonalform mit Einträgen 1 oder 0, und die Matrix D = (GF )T ist invertierbar.
Korollar 5.3 liefert eine erste Lösung des Problems, eine lineare Abbildung durch eine möglichst einfache Matrix darzustellen. Sehen wir nämlich die m×n-Matrix A als eine lineare Abbildung f : Rn → Rm ,
x 7→ Ax, so gibt Korollar 5.3 Basen A, B von Rn und Rm , so daß MA,B (f ) = Er . Genauer ist A die
Basis, die aus den Spalten der Matrix D besteht, während B aus den Spalten von C −1 besteht. Zwar ist
MA,B (f ) = Er eine sehr einfache Matrix und diese Darstellung ist auch durchaus hilfreich (s. die folgenden Anwendungen). Jedoch sind leider die Basen A, B im allgemeinen nicht besonders “schön”. Wir
setzen uns daher weiterhin das (zugegebenermaßen etwas vage) Ziel, lineare Abbildungen durch möglichst
einfache Matrizen darzustellen, allerdings bezüglich möglichst “schöner” Basen.
n
(1)
(n)
Ist A eine m×n-Matrix, so sind die Zeilen A(1) , . . . , A(m) Vektoren
in R . Die Spalten
A ,...,A
m
sind Vektoren in R . Wir definieren den Zeilenrang von A als dim A(1) , . . . , A(m) . Der Spaltenrang
von A ist dim A(1) , . . . , A(n) .
5
LINEARE GLEICHUNGSSYSTEME
16
Korollar 5.4 Für jede Matrix A stimmen Zeilen- und Spaltenrang überein.
Beweis. Mit den Bezeichnungen von Korollar 5.3 sieht man, daß r sowohl der Zeilen- als auch der Spaltenrang von A ist.
2
Aufgrund von Korollar 5.4 kann man einfach vom Rang der Matrix A sprechen.
Korollar 5.5 Sei A eine m × n-Matrix und b ∈ Rm . Es gibt genau dann ein x ∈ Rn mit Ax = b, wenn
die Matrix A denselben Rang hat wie die Matrix (A b), die aus A durch Hinzufügen von b als n + 1ter
Spalte entsteht.
Für eine lineare Abbildung f : E → E 0 nennen wir f −1 (0) = {x ∈ E : f (x) = 0} den Kern von f .
Dieser ist ein Untervektorraum von E. Entsprechend definieren wir den Kern einer Matrix A als den Kern
der linearen Abbildung x 7→ Ax. Sind A eine m × n-Matrix, b ∈ Rm und x ∈ Rn so, daß Ax = b, so
gilt für jeden Vektor z im Kern von A, daß A(x + z) = b. Ist umgekehrt x0 ein Vektor mit Ax0 = b, so ist
z = x − x0 im Kern von A.
Korollar 5.6 Sei A eine m × n-Matrix vom Rang r. Sei l die Dimension des Kerns von A. Dann gilt
n = r + l. Ferner ist A genau dann invertierbar, wenn m = n = r.
Beweis. Seien C, D die Matrizen aus Korollar 5.3, so daß CAD = Er . Die Anzahl der Spalten der m × nMatrix Er , die gleich Null sind, ist dann die Dimension des Kerns von A. Also hat der Kern die Dimension
n − r. Dies zeigt die erste Behauptung.
Wenn A invertierbar ist, muß notwendigerweise m = n gelten. Außerdem ist in diesem Fall die lineare
Abbildung Rn → Rn , x 7→ Ax bijektiv, d.h. der Kern besteht nur aus dem Nullvektor. Aus der ersten
Behauptung folgt also r = n. Wenn umgekehrt r = n ist, dann ist CAD = id. Die inverse Matrix von A
ist also einfach DC.
2
Wie der letzte Beweis zeigt, erlauben uns die Umformungsregeln des Gaußverfahrens, zu einer gegebenen n × n-Matrix A festzustellen, ob sie invertierbar ist, und ggf. ihre inverse Matrix zu berechnen. Dazu
geht man wie folgt vor. Zunächst bringt man die Matrix A mit dem Gaußverfahren auf Zeilenstufenform.
An der Zeilenstufenform von A kann man den Rang ablesen, und A ist genau dann invertierbar, wenn der
Rang gleich n ist. In diesem Fall führt man weitere Zeilenumformungen durch, bis aus A eine Diagonalmatrix geworden ist. Dann multiplizieren wir jede Zeile mit einer reellen Zahl, um die Einheitsmatrix id
zu erhalten. Parallel dazu führt man dieselben Umformungen ausgehend von der Einheitsmatrix id durch.
Die Matrix B, die dabei aus der Einheitsmatrix entsteht, ist A−1 .
Beispiel 5.7 Wir invertieren die Matrix

−1
 −1
A=
 −1
2
−1
0
0
1

0 2
0 3 
.
1 2 
0 −4
Zunächst subtrahieren wir die erste Zeile von der zweiten und dritten und addieren ihr 2-faches zur vierten.
Dieselben Umformungen führen wir auch ausgehend von der Matrix id durch und erhalten




−1 −1 0 2
1 0 0 0
 0


1 0 1 

 und  −1 1 0 0  .
 0


1 1 0
−1 0 1 0 
0 −1 0 0
2 0 0 1
Als nächstes subtrahieren wir die zweite Zeile von der dritten und addieren sie zur vierten:




−1 −1 0 2
1
0 0 0
 0


1 0 1 

 und  −1 1 0 0  .
 0


0 1 −1
0 −1 1 0 
0
0 0 1
1
1 0 1
6
DIE DETERMINANTE
17
An dieser Stelle erkennen wir, daß die Matrix A Rang 4 hat, also invertierbar ist. Wir fahren fort, indem
wir die letzte Zeile zur dritten Zeile addieren, von der zweiten Zeile abziehen und zweimal von der ersten
Zeile abziehen. Dieselben Umformungen führen wir an der rechten Matrix durch und erhalten




−1 −1 0 0
−1 −2 0 −2
 0


1 0 0 

 und  −2 0 0 −1  .
 0


0 1 0
1
0 1 1 
0
0 0 1
1
1 0 1
Als nächsten Schritt addieren wir in beiden Matrizen die zweite Zeile zur ersten. Dies ergibt




−3 −2 0 −3
−1 0 0 0
 −2 0 0 −1 
 0 1 0 0 

.


 0 0 1 0  und  1
0 1 1 
1
1 0 1
0 0 0 1
Schließlich multiplizieren wir die erste Zeile beider Matrizen mit −1:




1 0 0 0
3 2 0 3
 0 1 0 0 
 −2 0 0 −1 




 0 0 1 0  und  1 0 1 1  .
0 0 0 1
1 1 0 1
Wir haben also ausgerechnet, daß

A−1
6
3
 −2
=
 1
1

2 0 3
0 0 −1 
.
0 1 1 
1 0 1
Die Determinante
In diesem Abschnitt ordnen wir einer Matrix eine reelle Zahl zu, die gewisse geometrische Eigenschaften
der Matrix widerspiegelt. Dazu müssen wir uns zunächst mit Permutationen befassen. Eine Permutation
der Länge n ist eine Bijektion σ : {1, . . . , n} → {1, . . . , n}. Wir bezeichnen die Menge aller Permutationen der Länge n mit Sn . Man überlegt sich leicht, daß |Sn | = n!. Ferner definieren wir das Vorzeichen
oder Signum von σ ∈ Sn als
Y σ(i) − σ(j)
sign(σ) =
.
i−j
1≤i<j≤n
Lemma 6.1 Es gilt sign(σ) ∈ {−1, 1} für alle σ ∈ Sn , und für alle σ, τ ∈ Sn gilt
sign(σ ◦ τ ) = sign(σ) · sign(τ ).
Beweis. Es gilt

sign(σ)2
= 
Y
1≤i<j≤n
2
Y σ(i) − σ(j)
σ(i) − σ(j) 
=
= 1;
i−j
i−j
i6=j
6
DIE DETERMINANTE
18
das letzte Gleichheitszeichen stimmt, weil σ eine Permutation ist. Daraus folgt, daß sign(σ) ∈ {−1, 1}.
Ferner gilt
sign(σ ◦ τ )
Y
=
1≤i<j≤n
=
sign(τ ) ·
σ ◦ τ (i) − σ ◦ τ (j)
=
i−j
Y
1≤i<j≤n
=
1≤i<j≤n:τ (i)<τ (j)
Y
=
sign(τ ) ·
=
sign(τ ) · sign(σ),
1≤i<j≤n
σ ◦ τ (i) − σ ◦ τ (j)
·
τ (i) − τ (j)
Y
1≤i<j≤n
τ (i) − τ (j)
i−j
σ ◦ τ (i) − σ ◦ τ (j)
τ (i) − τ (j)
Y
sign(τ ) ·
Y
1≤i<j≤n:τ (i)<τ (j)
σ ◦ τ (i) − σ ◦ τ (j)
·
τ (i) − τ (j)
Y
σ ◦ τ (i) − σ ◦ τ (j)
·
τ (i) − τ (j)
Y
1≤i<j≤n:τ (i)>τ (j)
1≤i<j≤n:τ (i)>τ (j)
σ ◦ τ (i) − σ ◦ τ (j)
τ (i) − τ (j)
σ ◦ τ (j) − σ ◦ τ (i)
τ (j) − τ (i)
2
wie behauptet.
Definition 6.2 Die Determinante einer n × n-Matrix A ist
det A =
X
sign(σ)
σ∈Sn
n
Y
Aiσ(i) .
(10)
i=1
Wir erinnern, daß die Zeilen einer n × n-Matrix A mit A(1) , . . . , A(n) bezeichnet werden.
Proposition 6.3 Seien A, B, C drei n × n-Matrizen. Die Determinante hat die folgenden Eigenschaften.
DET1. det(id) = 1.
DET2. Falls A zwei identische Zeilen hat, gilt det A = 0.
DET3. Die Determinante ist linear in jeder Zeile, d.h. die beiden folgenden Bedingungen sind erfüllt.
• Angenommen es gibt ein i ∈ {1, . . . , n}, so daß A(i) + B(i) = C(i) , während A(h) = B(h) =
C(h) für alle h 6= i. Dann gilt det(A) + det(B) = det(C).
• Angenommen es gibt ein i ∈ {1, . . . , n} und ein z ∈ R, so daß B(i) = z · A(i) , während
B(h) = A(h) für alle h 6= i. Dann gilt det(B) = z · det(A).
Insbesondere gilt det(A) = 0 wenn A eine Zeile hat, die nur aus 0en besteht.
DET4. Wenn B aus A durch Vertauschen von zwei Zeilen entsteht, gilt det(B) = − det(A).
DET5. Seien i, j ∈ {1, . . . , n} verschieden und z ∈ R. Wenn B aus A durch Addieren des z-fachen der
i-ten Zeile zur j-ten Zeile entsteht, gilt det(B) = det(A).
Qn
DET6. Wenn A in Zeilenstufenform ist, gilt det(A) = i=1 Aii .
DET7. Es gilt det(A · B) = det(A) · det(B).
DET8. Die Matrix A ist invertierbar genau dann, wenn det(A) 6= 0. In diesem Fall gilt
det(A−1 ) = 1/ det(A).
DET9. Es gilt det(AT ) = det A.
6
DIE DETERMINANTE
19
Beweis. DET1 folgt unmittelbar aus der Definition. Um DET2 zu zeigen, nehmen wir an, daß die Zeilen
i1 und i2 von A identisch sind (i1 6= i2 ). Sei τ ∈ Sn die Permutation, die die Zahlen i1 und i2 vertauscht,
während τ (h) = h für alle h ∈ {1, . . . , n} \ {j1 , j2 }. Dann gilt
"
#
n
n
n
X
Y
Y
Y
1 X
sign(σ)
sign(σ)
det(A) =
Aiσ(i) =
Aiσ(i) + sign(σ ◦ τ )
Ai τ ◦σ(i) .(11)
2
i=1
i=1
i=1
σ∈Sn
σ∈Sn
Nun zeigt Lemma 6.1, daß sign(τ ◦ σ) = sign(τ ) · sign(σ). Weil τ einfach zwei Zahlen i1 , i2 vertauscht,
zeigt die Definition von sign(τ ), daß sign(τ ) = −1. Daher können wir (11) schreiben als
" n
#
n
Y
Y
1 X
sign(σ)
Aiσ(i) −
Ai σ◦τ (i) .
(12)
det(A) =
2
i=1
i=1
σ∈Sn
Weil die i1 -te Zeile und die i2 -te Zeile von A übereinstimmen, erhalten wir
n
Y
Aiσ(i)
=
Ai1 σ(i1 ) Ai2 σ(i2 ) ·
i=1
Y
Aiσ(i)
i6∈{i1 ,i2 }
=
Ai1 σ(i2 ) Ai2 σ(i1 ) ·
Y
Aiσ(i)
i6∈{i1 ,i2 }
=
Y
Ai1 σ◦τ (i1 ) Ai2 σ◦τ (i2 ) ·
Aiσ(i) =
i6∈{i1 ,i2 }
n
Y
Ai σ◦τ (i) .
i=1
Folglich zeigt (12), daß det(A) = 0.
Um DET3 zu zeigen, betrachten wir A, B, C, so daß A(i) + B(i) = C(i) , während alle anderen Zeilen
der drei Matrizen übereinstimmen. Dann gilt
det(C)
=
X
σ∈Sn
=
X
sign(σ)
n
Y
Cjσ(j) =
j=1
X
sign(σ)Aiσ(i)
Y
Cjσ(j) +
sign(σ)Aiσ(i)
Y
j6=i
Ajσ(j) +
Y
Cjσ(j)
j6=i
X
sign(σ)Biσ(i)
σ∈Sn
j6=i
σ∈Sn
=
sign(σ)(Aiσ(i) + Biσ(i) )
σ∈Sn
σ∈Sn
=
X
X
Y
Cjσ(j)
j6=i
sign(σ)Biσ(i)
σ∈Sn
Y
Bjσ(j)
j6=i
det(A) + det(B).
Der Nachweis der zweiten Bedingung geht analog. Die Eigenschaften DET4–DET8 können aus DET1–
DET3 hergeleitet werden, während DET9 aus Lemma 6.1 und (10) folgt.
2
Bemerkung 6.4
1. Sei A eine n × n-Matrix mit Spalten A(i) . Geometrisch ist die Menge
( n
)
X
(i)
P =
ai A : a1 , . . . , an ∈ [0, 1]
i=1
ein “schiefer Quader”, ein sogenanntes Parallelepiped. Anschaulich ist | det A| das Volumen von P .
2. Im allgemeinen gilt nicht det(A + B) = det(A) + det(B).
3. Aufgrund von DET9 gelten DET2–DET 6 auch entsprechend für die Spalten der Matrix.
4. Ist A eine 2 × 2-Matrix, so folgt aus (10), daß det A = A11 A22 − A12 A21 .
6
DIE DETERMINANTE
20
Die Formel (10) ist, zumindest für größere Matrizen, nicht zur praktischen Berechnung der Determinante geeignet. Der Grund dafür ist die große Anzahl von n! Summanden. Andererseits ermöglichen die
Aussagen DET1–DET6 eine geschicktere Berechnung der Determinante: wir können die Matrix n × n mit
dem Gaußverfahren (d.h. durch geeignetes Vertauschen von Zeilen und Addieren eines Vielfachen einer
Zeile zu einer anderen) auf Zeilenstufenform bringen. Dabei verändert sich dabei der Betrag der Determinante nicht. Das Vorzeichen ändert sich jedesmal, wenn wir zwei Zeilen vertauschen. Und die Determinante
einer Matrix in Zeilenstufenform können wir mit DET6 unmittelbar ausrechnen. Wenn also B die Matrix
in Zeilenstufenform ist, die wir mit dem Gaußschen Eliminationsverfahren bekommen, und k die Anzahl
der Zeilenvertauschungen ist, die wir auf dem Weg von A zu B durchgeführt haben, gilt
det A = (−1)k det B.
Beispiel 6.5 Wir möchten die Determinante von

1
A =  −1
−1
bestimmen. Nach Gauß addieren wir die ersten Zeile
sich die Determinante dabei nicht:

1 0
 0 0
0 2

0 −3
0 4 
2 2
(13)
zur zweiten und dritten Zeile; wegen DET5 ändert

−3
1 
−1
Um die Matrix in Zeilenstufenform zu bringen, brauchen wir nur noch die zweite und dritte Zeile zu tauschen. Dies ergibt


1 0 −3
B =  0 2 −1  .
0 0 1
Nun zeigt DET6, daß det B = 1·2·1 = 2. Die Gesamtzahl der Zeilenvertauschungen, die wir durchgefürht
haben, ist k = 1. Also zeigt DET4, daß det A = (−1)k det B = − det B = −2.
Sei A eine n × n-Matrix. Die Determinante liefert eine generelle Formel für die inverse Matrix A−1
(falls sie existiert) und zur Lösung von linearen Gleichungssystemen Ax = b, die “Cramersche Regel”. Zur
Herleitung derselben bezeichnen wir mit A0(i,j) die (n − 1) × (n − 1)-Matrix, die aus A durch Entfernen
der i-ten Zeile und der j-ten Spalte entsteht. Die zu A komplementäre Matrix ist die n × n-Matrix à mit
Einträgen
Ãij = (−1)i+j det A0(j,i)
(i, j ∈ {1, . . . , n}).
Man beachte, daß sich die Indices “umdrehen”!
Beispiel 6.6 Wir bestimmen die komplementäre Matrix von A aus (13). Durch Streichen der ersten Zeile
und der ersten Spalte entsteht die 2 × 2-Matrix
0 4
0
A(1,1) =
2 2
mit Determinante det A0(1,1) = 0 · 2 − 4 · 2 = −8. Streicht man die erste Zeile und die zweite Spalte, so
erhält man
−1 4
A0(1,2) =
.
−1 2
Es gilt A0(1,2) = −1 · 2 − 4 · (−1) = 2. Wenn man die erste Zeile und die dritte Spalte aus A streicht, ergibt
sich die Matrix
−1 0
A0(1,3) =
−1 2
6
DIE DETERMINANTE
21
mit det A0(1,3) = −2. Durch Streichen der zweiten Zeile und der ersten Spalte erhält man analog
A0(2,1)
=
0
2
−3
2
mit det A0(2,1) = 6. Die übrigen Determinanten ergeben sich als
det A0(2,2) = −1, det A0(2,3) = 2,
det A0(3,1) = 0,
det A0(3,2) = 1,
det A0(3,3) = 0.
Die komplementäre Matrix ist also

−8
à =  −2
−2
−6
−1
−2

0
−1  .
0
Proposition 6.7 Sei A eine n × n-Matrix und à die zu A komplementäre Matrix. Dann gilt
A · Ã = Ã · A = det(A) · id.
Beweis. Wir bestimmen direkt die Einträge der Matrix B = A · Ã. Für i, j ∈ {1, . . . , n} erhalten wir
Bij
=
n
X
Aih Ãhj =
h=1
n
X
Aih · (−1)h+j det A0(j,h) .
(14)
h=1
Um fortzufahren, benötigen wir eine weitere Hilfsmatrix. Wir definieren A00(j,h) als die n × n-Matrix mit
den folgenden Einträgen. Für s, t ∈ {1, . . . , n} ist der Eintrag in der s-ten Zeile und t-ten Spalte von A00(j,h)
• gleich Ast , wenn s 6= j und t 6= h,
• gleich 0, wenn entweder s = j und t 6= h oder s 6= j und t = h,
• gleich 1, wenn s = j und t = h.
Man erhält A00(j,h) also aus A, indem man die Einträge in der j-ten Zeile und der h-ten Spalte durch 0en
ersetzt, außer daß der “Kreuzpunkt”, d.h. der (j, h)-te Eintrag, gleich 1 ist. Indem man j − 1 Zeilen- und
h − 1 Spaltenvertauschungen durchführt, erhält man aus A00(j,h) die Matrix





1
0
..
.
0···0

A0(j,h)


,

(15)
0
deren unterer rechter (n − 1) × (n − 1)-Block gerade die Matrix A0(j,h) ist. Ihre Determinante ist



(−1)j+h det A00(j,h) = det 

1
0
..
.
0···0

A0(j,h)


 = det A0(j,h) ,

0
denn um (15) in Zeilenstufenform bringen, bringt man einfach A0(j,h) in Zeilenstufenform. Wir können
also (14) schreiben als
Bij
=
n
X
h=1
Aih · det A00(j,h) .
(16)
7
ORTHOGONALITÄT
22
(h)
Sei nun A000
, A(j+1) , . . . , A(n) . Dann gilt
(j,h) die Matrix mit den Zeilen A(1) , . . . , A(j−1) , e
det A00(j,h) = det A000
(j,h) .
(17)
Denn indem man geeignete Vielfache der j-ten Zeile der Matrix A000
(j,h) zu den anderen Zeilen addiert, kann
man sie in die Matrix A00(j,h) umformen. Wir bezeichnen ferner mit A0000
(i,j) die n × n-Matrix, die aus A
dadruch entsteht, daß man die j-te Zeile durch die i-te Zeile ersetzt. (Ist insbesondere i = j ist, erhält man
A0000
(i,j) = A.) Mit DET3 wird aus (16) und (17) dann
Bij
=
n
X
0000
Aih · det A000
(j,h) = det A(i,j) .
(18)
h=1
Es gibt nun zwei Fälle.
Fall 1: i = j. Dann ist A0000
(i,j) = A, also zeigt (18), daß Bij = det A.
Fall 2: i 6= j. Die Matrix A0000
(i,j) hat zwei identische Zeilen (nämlich die i-te und die j-te). Aus DET2 folgt
also Bij = 0.
Insgesamt erhalten wir also B = det A · id, wie behauptet. Das Produkt à · A kann man entsprechend
berechnen.
2
Korollar 6.8 Wenn A eine n × n-Matrix mit det A 6= 0 ist, gilt A−1 =
1
det A
· Ã.
Korollar 6.9 (“Cramersche Regel”) Sei A eine n × n-Matrix mit det A 6= 0 und b ∈ Rn . Dann gibt es
genau ein x ∈ Rn mit Ax = b, und zwar ist dies der Vektor mit den Komponenten
det A(1) · · · A(i−1) b A(i+1) · · · A(n)
xi =
(i = 1, . . . , n).
det A
In Worten: xi ist die Determinante der n × n-Matrix, die aus A entsteht, wenn man die i-te Spalte von A
durch den Vektor b ersetzt, gebrochen durch die Determinante von A.
Beweis. Der gesuchte Vektor ist x = A−1 b. Mit der Notation aus dem Beweis von Proposition 6.7 erhalten
wir
xi
=
n
X
n
A−1
ij bj =
j=1
=
n
1 X
1 X
bj Ãij =
(−1)i+j bj det A0(j,i)
det A j=1
det A j=1
n
det A(1) · · · A(i−1) b A(i+1) · · · A(n)
1 X
000
,
bj det A(j,i) =
det A j=1
det A
2
wobei die letzte Gleichung aus DET3 folgt.
7
Orthogonalität
Für zwei Vektor x, y ∈ Rn definieren wir das Skalarprodukt
hx, yi =
n
X
xi yi .
i=1
Es gilt hx, yi = hy, xi. Außerdem ist für jeden Vektor y ∈ Rn die Abbildung Rn → R, z 7→ hz, yi linear.
Die euklidische Norm eines Vektors x ∈ Rn ist definiert als
v
u n
p
uX
kxk = hx, xi = t
x2i .
i=1
7
ORTHOGONALITÄT
23
Lemma 7.1 (“Cauchy-Schwarz-Ungleichung”) Für Vektoren x, y ∈ Rn gilt stets | hx, yi | ≤ kxk · kyk.
Beweis. Wir dürfen annehmen, daß x, y 6= 0. Für jede reelle Zahl a gilt
0
≤
2
kx − a · yk = hx − a · y, x − a · yi = hx, xi − 2a hx, yi + a2 hy, yi .
Insbesondere gilt diese Ungleichung für a =
hx,yi
hy,yi .
Setzt man dieses a in (19) ein, ergibt sich
2
0 ≤ hx, xi − 2
(19)
2
hx, yi
hx, yi
+
.
hy, yi
hy, yi
2
Durch Umstellen erhält man die Behauptung.
Korollar 7.2 Die folgenden drei Aussagen gelten für alle x, y ∈ Rn und a ∈ R.
1. kxk = 0 genau dann, wenn x = 0.
2. ka · xk = |a| · kxk.
3. kx + yk ≤ kxk + kyk (“Dreiecksungleichung”).
Beweis. Die ersten und die zweite Behauptung folgen unmittelbar aus der Definition der Norm. Für die
dritte Behauptung berechnen wir
2
kx + yk
= hx + y, x + yi = hx, xi + 2 hx, yi + hy, yi
≤
=
2
2
kxk + 2 kxk kyk + kyk
[nach Cauchy-Schwarz]
2
(kxk + kyk) .
Zieht man auf beiden Seiten die Quadratwurzel, erhält man 3.
Definition 7.3
0.
2
1. Wir nennen zwei Vektoren x, y ∈ Rn orthogonal, in Symbolen x ⊥ y, falls hx, yi =
2. Allgemeiner heißen Vektoren x1 , . . . , xk orthogonal, wenn für je zwei Indices 1 ≤ i < j ≤ k gilt
xi ⊥ xj .
3. Fernen heißen x1 , . . . , xk orthonormal, wenn x1 , . . . , xk orthogonal sind und kxi k = 1 für alle
i ∈ {1, . . . , k}.
4. Sei E ein Vektorraum. Wir nennen x1 , . . . , xk eine Orthonormalbasis von E, falls x1 , . . . , xk eine
Basis von E ist und die Vektoren x1 , . . . , xk orthonormal sind.
Beispielsweise bilden die Vektoren e(1) , . . . , e(n) eine Orthonormalbasis des Rn . Das Hauptergebnis
dieses Abschnittes ist der folgende Satz.
Satz 7.4 Jeder Vektorraum hat eine Orthonormalbasis.
Beweis. Wir führen Induktion über die Dimension des Vektorraums E. Nach Satz 4.8 hat E eine Basis
x1 , . . . , xn (wobei n = dim E). Ist n = 1, so ist y1 = x1 / kx1 k eine Orthonormalbasis.
Im Fall n > 1 konstruieren wir aus x1 , . . . , xn die gewünschte Orthonormalbasis mit dem sogenannten
Gram-Schmidt-Verfahren. Dazu definieren wir y1 = kxx11 k und
E 0 = {z ∈ E : hz, y1 i = 0} .
Diese Menge E 0 ist ein Untervektorraum von E. Sei m = dim E 0 seine Dimension. Weil hy1 , y1 i =
hx1 ,x1 i
= 1, gilt y1 6∈ E 0 . Also ist E 0 eine echte Teilmenge von E, und folglich m < n. Nach Induktion
kx k2
1
7
ORTHOGONALITÄT
24
hat E 0 also eine Orthonormalbasis w1 , . . . , wm . Wir behaupten, daß y1 , w1 , . . . , wm eine Orthonormalbasis
von E ist.
Daß die Vektoren y1 , w1 , . . . , wm orthonormal sind, folgt unmittelbar aus der Konstruktion. Sind ferner
a1 , b1 , . . . , bm reelle Zahlen, so daß
a1 y1 + b1 w1 + · · · + bm wm = 0,
so folgt
0 = ha1 y1 + b1 w1 + · · · + bm wm , y1 i = a1 hy1 , y1 i +
m
X
2
bk hwk , y1 i = a1 ky1 k = a1 .
k=1
Weil ferner w1 , . . . , wm eine Orthonormalbasis von E 0 ist und somit w1 , . . . , wm linear unabhängig sind,
folgt b1 = · · · = bm = 0. Also sind die Vektoren y1 , w1 , . . . , wm linear unabhängig.
Ist schließlich v ∈ E ein Vektor, so betrachte u = v − hv, y1 i y1 . Es gilt
2
hu, y1 i = hv, y1 i − hv, y1 i · hy1 , y1 i = hv, y1 i − hv, y1 i · ky1 k = 0,
Pm
also u ∈ E 0 . Folglich existieren c1 , . . . , cm mit u =
k=1 bk wk . Setzen wir ferner d1 = hv, y1 i, so
erhalten wir
m
X
v = d 1 y1 +
bk wk .
k=1
Dies zeigt E = [y1 , w1 , . . . , wm ]. Also ist y1 , w1 , . . . , wm eine Orthonormalbasis von E.
In obigem Beweis haben wir folgendes beobachtet.
2
Korollar 7.5 Wenn die Vektoren x1 , . . . , xn orthonormal sind, sind sie linear unabhängig.
Das Gram-Schmidt-Verfahren aus dem obigen Beweis hat die folgende Konsequenz. Ist x1 , . . . , xn
eine Orthonormalbasis eines Vektorraums E, so läßt sich jeder Vektor v ∈ E schreiben als
v=
n
X
hv, xi i xi .
i=1
Die Zahlen hv, xi i heißen die Fourierkoeffizienten von v bezüglich der Basis x1 , . . . , xn . Insbesondere
gilt
n
X
2
2
kvk =
hv, xi i .
i=1
Der Begriff der Orthogonalität führt auf eine natürliche Zerlegung von Vektorräumen. Sei E ein Vektorraum und F ⊂ E ein Untervektorraum. Das orthogonale Komplement von F in E ist
F ⊥ = {x ∈ E : für alle y ∈ F gilt x ⊥ y} .
Die Menge F ⊥ ist ein Untervektorraum von E.
Proposition 7.6 Sei E ein Vektorraum und F ⊂ E ein Untervektorraum. Die Abbildung f : F ×F ⊥ → E,
(x, y) 7→ x + y ist bijektiv und es gilt dim F + dim F ⊥ = dim E.
Beweis. Sei x1 , . . . , xn eine Orthonormalbasis von F und y1 , . . . , ym eine Orthonormalbasis von F ⊥ . Wir
behaupten, daß x1 , . . . , xn , y1 , . . . , ym eine Orthonormalbasis von E ist. Aus der Definition von F ⊥ folgt
unmittelbar, daß die Vektoren x1 , . . . , xn , y1 , . . . , ym orthonormal und damit linear unabhängig sind. Zu
einem Vektor z ∈ E betrachten wir nun
z0 = z −
n
X
i=1
hz, xi i xi .
(20)
7
ORTHOGONALITÄT
25
Für jeden Vektor xj , j = 1, . . . , n, gilt
hz 0 , xj i = hz, xj i −
n
X
hz, xi i hxi , xj i = hz, xj i − hz, xj i = 0.
i=1
Die zweite Gleichung folgt aus der Orthonormalität von x1 , . . . , xn . Weil x1 , . . . , xn eine Basis von F ist,
können wir schließen, daß hz 0 , xi = 0 für alle x ∈ F . Also gilt z 0 ∈ F ⊥ , und somit
z0 =
m
X
hz 0 , yi i yi .
(21)
i=1
Aus (20) und (21) folgt, daß sich jeder Vektor z ∈ E darstellen läßt als
z=
n
X
hz, xi i xi +
i=1
m
X
hz, yi i yi ,
i=1
d.h. x1 , . . . , xn , y1 , . . . , ym ist eine Basis von E.
2
n
Seien x1 , . . . , xn ∈ R orthonormal. Die n × n-Matrix A mit Spalten x1 , . . . , xn stellt die lineare
Abbildung, die den Vektor e(i) auf xi abbildet (i = 1, . . . , n), dar. Weil x1 , . . . , xn die Spalten von A sind,
sind diese Vektoren genau die Zeilen der transponierten Matrix AT . Das Produkt B = AT · A hat daher die
Einträge Bij = hxi , xj i, d.h. B = id. Das bedeutet, daß AT = A−1 . Wenn umgekehrt die n × n-Matrix A
die Eigenschaft AT = A−1 hat, dann sind die Spalten von A orthonormal. Wir geben Matrizen mit dieser
Eigenschaft einen besonderen Namen.
Definition 7.7 Eine n × n-Matrix A heißt orthogonal, wenn AT A = id.
Im Zusammenhang mit dem Skalarprodukt spielt die transponierte Matrix eine besondere Rolle: ist A
eine n × n-Matrix und sind x, y ∈ Rn , so gilt
hAx, yi = x, AT y ,
(22)
wie man leicht nachrrechnet. In der Tat ist AT die einzige Matrix mit dieser Eigenschaft: wenn B eine
Matrix ist, so daß
hAx, yi = hx, Byi
für alle x, y ∈ Rn ,
so gilt B = AT . (Der Nachweis dieser Tatsache ist eine gute Übung.)
Lemma 7.8 Wenn A eine orthogonal Matrix ist, dann gilt hAx, Ayi = hx, yi für alle x, y. Ferner ist AT
orthogonal.
Beweis. Mit (22) erhalten wir hAx, Ayi = x, AT Ay = hx, id yi = hx, yi. Außerdem ist A invertierbar.
Deshalb trifft dies auch auf AT zu, und (AT )−1 = (A−1 )T = (AT )T = A.
2
Lemma 7.9 Wenn A, B orthogonale n × n-Matrizen sind, dann ist A · B orthogonal.
Beweis. Es gilt (AB)T AB = B T AT AB = B T idB = B T B = id.
2
Beispiel 7.10 Der Vektorraum Rn hat die
e(1) , . . . , e(n) , aber es gibt viele andere. Bei Orthonormalbasis
1
−1
1
1
spielsweise bilden die Vektoren √2 −1 , √2 1 eine Orthonormalbasis des R2 , die aus der Orthonor malbasis 10 , 01 durch Rotation um 45◦ entsteht. Die Matrix
1
1 −1
√
−1 1
2
ist also orthogonal. Allgemeiner ist die Matrix,
cos α
sin α
− sin α
cos α
,
8
EIGEN- UND SINGULÄRWERTE
26
2
welche die Rotation um
den
Winkel α in R darstellt, orthogonal. Eine weitere Orthonormalbasis besteht
−1
0
aus den Vektoren 0 , 1 , die geometrisch durch Spieglung der horizontalen Achse entsteht. Die entsprechende Matrix ist
−1 0
.
0 1
8
Eigen- und Singulärwerte
Sei f : E → E 0 eine lineare Abbildung zwischen zwei n-dimensionalen Vektorräumen. Wir erinnern uns
an das Ziel, “schöne” Basen A, B von E, E 0 zu finden, so daß die Matrix MA,B (f ) möglichst einfach ist.
Genauer werden wir zeigen, daß dies für Orthonormalbasen A, B möglich ist. Die Kernbegriffe in diesem
Unterfangen sind folgende.
Definition 8.1 Sei A eine n × n-Matrix.
1. Eine reelle Zahl k heißt Eigenwert von A, wenn es einen Vektor x 6= 0 gibt, so daß Ax = k · x.
2. Entsprechend heißt ein Vektor x 6= 0 Eigenvektor von A, falls Ax ∈ [x].
3. Die Matrix A heißt symmetrisch, wenn AT = A.
Mit diesen Begriffen können wir nun folgenden Satz formulieren.
Satz 8.2 Zu jeder symmetrischen n × n-Matrix A existieren eine orthogonale n × n-Matrix U und reelle
Zahlen k1 , . . . , kn , so daß
U T AU = diag(k1 , . . . , kn ).
(23)
Die Zahlen k1 , . . . , kn sind genau die Eigenwerte von A, und die Spalten von U bilden eine Orthonormalbasis, die aus Eigenvektoren von A besteht.
Satz 8.2 besagt, daß bezüglich der Orthonormalbasis A, die aus den Spalten U (1) , . . . , U (n) besteht,
die darstellende Matrix der linearen Abbildung f : Rn → Rn , x 7→ Ax, einfach die Diagonalmatrix
diag(k1 , . . . , kn ) ist. In Symbolen,
MA,A (f ) = diag(k1 , . . . , kn ).
Das bedeutet, daß wir uns die lineare Abbildung f in der Basis A hervorragend veranschaulichen können: f
“streckt” einfach den Basisvektor U (i) um den Faktor ki , für i = 1, . . . , n. Man nennt die Darstellung (23)
Diagonalisierung der Matrix A. Eine Matrix A, die eine solche Darstellung zuläßt, heißt diagonalisierbar.
Es stellen sich nun zwei offensichtliche Fragen. Erstens (aus Sicht der Mathematik): wie beweisen
wir Satz 8.2? Zweitens (aus Sicht der Praxis): wie finden wir die Matrix U zu einem gegebenen A? Im
folgenden entwickeln wir simultan die Antwort auf diese beiden Fragen.
Wir beginnen mit einer einfachen Beobachtung. Wenn k ein Eigenwert der Matrix A ist, sind die Eigenvektoren von A zum Eigenwert k genau die Lösungen x des linearen Gleichungssystems
(A − k · id)x = 0.
(24)
Wenn wir also die Eigenwerte von A kennen, können wir die zugehörigen Eigenvektoren mit dem Gaußschen Eliminationsverfahren bestimmen.
Ferner zeigt (24), daß die Matrix A − k · id genau dann nicht invertierbar ist, wenn k ein Eigenwert
von A ist. Denn wenn k ein Eigenwert von A ist, hat die Matrix A − k · id Rang kleiner als n und ist nach
Korollar 5.6 nicht invertierbar. Die Eigenschaft DET8 der Determinante zeigt also, daß k genau dann ein
Eigenwert von A ist, wenn
det(A − k · id) = 0.
(25)
Es liegt daher nahe, die Funktion
PA : R → R,
z 7→ det(A − z · id)
8
EIGEN- UND SINGULÄRWERTE
27
zu betrachten. Nach Definition der Determinate kann man diese Funktion schreiben in der Form
PA (z) = cn z n + cn−1 z n−1 + · · · + c1 z + c0 ,
wobei c0 , . . . , cn reelle Zahlen sind (die selbstverständlich von A abhängen). Eine solche Funktion nennt
man ein Polynom, und PA heißt das charakteristische Polynom von A. Wir können nun (25) wie folgt
formulieren.
Eine reelle Zahl k ist genau dann ein Eigenwert von A, wenn PA (k) = 0.
(26)
Wenn wir die Eigenwerte und Eigenvektoren von A bestimmen wollen, gehen wir also wie folgt vor.
DIAG1. Bestimme die Menge {k ∈ R : PA (k) = 0}, die sogenannten Nullstellen von PA . Ihre Elemente
sind die Eigenwerte von A.
DIAG2. Zu jeder Nullstelle k von PA bestimme die Lösungen x des linearen Gleichungssystems (24).
Während wir für DIAG2 ein systematisches Verfahren haben (die Gaußsche Eliminationsmethode), ist
kein solches allgemeines Verfahren für DIAG1 bekannt. Dieser Schritt muß praktisch mit Hilfe von Heuristiken und/oder Approximationsverfahren durchgeführt werden. Im folgenden überlegen wir uns gleichwohl, daß das Verfahren DIAG1–DIAG2 im Prinzip die in Satz 8.2 versprochene orthogonale Matrix
produziert. Dazu benötigen wir die folgende Aussage, deren Beweis über den Rahmen dieser Vorlesung
hinausgeht.
Lemma 8.3 Wenn A eine symmetrische Matrix ist, dann existieren ein n-Tupel (k1 , . . . , kn ) reeller Zahlen
und q ∈ {−1, 1}, so daß
n
Y
PA (z) = q ·
(z − ki ).
i=1
Die (nicht notwendigerweise verschiedenen) Zahlen k1 , . . . , kn sind also genau die Nullstellen des
Polynoms PA (z). Mit Hilfe von Lemma 8.3 führen wir nun den
Beweis von Satz 8.2. Wir führen Induktion über die Größe n der Matrix. Im Fall n = 1 hat die Matrix
A selbst bereits die gewünschte Form und wir wählen einfach U = (1) und k1 = A11 . Sei nun n > 1.
Lemma 8.3 zeigt, daß es eine reelle Zahl k1 gibt mit PA (k1 ) = 0. Nach (26) hat A einen Eigenvektor
x1 6= 0 mit Eigenwert k1 . Sei F1 = [x1 ]. Der Vektorraum F1⊥ besitzt eine Orthonormalbasis x2 , . . . , xn .
Sei U1 die orthogonale Matrix mit Spalten x1 , . . . , xn . Weil x1 ein Eigenvektor und A symmetrisch ist,
gibt es eine (n − 1) × (n − 1)-Matrix A0 , so daß


k1 0 · · · 0
 0



U1T AU1 =  .
.
A0 
 ..
0
Nach Induktion gibt es eine orthonormale (n − 1) × (n − 1)-Matrix U2 und reelle Zahlen k2 , . . . , kn , so
daß
U2T A0 U2 = diag(k2 , . . . , kn ).
Sei nun U die n × n-Matrix



U = U1 

1
0
..
.
0···0

U2


.

0
Nach Lemma 7.9 ist U orthogonal. Ferner gilt

k1
0···0
 0

U T AU =  .
U2T A0 U2
 ..
0



 = diag(k1 , . . . , kn ),

8
EIGEN- UND SINGULÄRWERTE
28
2
wie behauptet.
Beispiel 8.4 Wir diagonalisieren die Matrix
A=
−1
1
1
.
1
Ihr charakteristisches Polynom lautet
PA (z)
=
−1 − z
det(A − zid) = det
1
=
(−1 − z) · (1 − z) − 1 · 1 = z 2 − 2 = (z −
1
1−z
√
2) · (z +
√
2).
√
Die Nullstellen
des charakteristischen Polynoms, und damit die Eigenwerte von A, sind also k1 = − 2
√
und k2 = 2. Um auch die Eigenvektoren zu bestimmen, lösen wir die beiden linearen Gleichungssysteme
√
−1 + 2
1√
(A − k1 id)x =
x = 0,
(27)
1
1+ 2
√
1√
−1 − 2
(A − k2 id)x =
x = 0.
(28)
1
1− 2
Das Ergebnis ist, daß die Lösungsmenge von (27) gerade [v1 ] ist, wobei
√ 1/(1 − 2)
.
v1 =
1
Die Lösungsmenge von (28) ist [v2 ], wobei
v2 =
1/(1 +
1
√ 2)
.
Also ist v1 ein Eigenvektor von A zum Eigenwert k1 und v2 ein Eigenvektor von A zum Eigenwert k2 . Die
Norm dieser Vektoren ist
s
s
1
1
√
√ .
kv1 k = 1 +
,
kv2 k = 1 +
2
(1 − 2)
(1 + 2)2
Die beiden Vektoren
−1/2 √ 1/(1 − 2)
,
1
(1 − 2)2
−1/2 √ 1
1
1/(1 + 2)
√
v2 = 1 +
u2 =
1
kv2 k
(1 + 2)2
1
u1 =
v1 =
kv1 k
1+
1
√
bilden also eine Orthonormalbasis des R2 , die aus Eigenwerten besteht. Wenn U die Matrix mit den Spalten u1 , u2 ist, dann ist U orthogonal und
k1 0
T
U AU =
.
0 k2
Leider erfaßt Satz 8.2 nur symmetrische Matrizen und in der Tat gibt es Matrizen, die nicht symmetrisch sind, für die keine Zerlegung der Form (23) existiert. Allerdings kann man die Matrix in Diagnalform
bringen, indem man links und rechts mit zwei möglicherweise verschiedenen orthogonalen Matrizen multipliziert.
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
29
Satz 8.5 Sei A eine m × n-Matrix. Dann existieren eine orthogonal m × m-Matrix V , eine orthogonale
n × n-Matrix U und eine m × n-Matrix D in Diagonalform, so daß V T AU = D.
Beweis. Wir beschäftigen uns zunächst mit dem Spezialfall, daß A eine invertierbare n × n-Matrix ist. Weil
die Matrix AT A ist symmetrisch ist, kann man sie nach Satz 8.2 schreiben als
U T (AT A)U = diag(k1 , . . . , kn ).
Dabei sind k1 , . . . , kn von Null verschieden, weil A invertierbar ist. Wir behaupten nun, daß die Vektoren
AU (1) , . . . , AU (n) orthogonal sind. Denn für je zwei Indices 1 ≤ i < j ≤ n gilt
E
D
E D
E
D
=
AT AU (i) , U (j) = U diag(k1 , . . . , kn )U T U (i) , U (j)
AU (i) , AU (j)
E
E D
D
=
diag(k1 , . . . , kn )U T U (i) , U T U (j) = diag(k1 , . . . , kn )e(i) , e(j)
E
D
= ki e(i) , e(j) = 0.
Analog gilt für alle i = 1, . . . , n
2 D
E
D
E
AU (i) = AU (i) , AU (i) = ki e(i) , e(i) = ki 6= 0.
Die Vektoren
1
(i)
vi = AU (i) AU
(i = 1, . . . , n)
sind also orthonormal. Folglich ist die Matrix V mit den Spalten v1 , . . . , vn orthogonal. Wir definieren
D
E
di = AU (i) , vi
und D = diag(d1 , . . . , dn ). Sei nun B = V DU T . Für i = 1, . . . , n erhalten wir
AU (i) , AU (i)
(i)
(i)
T
(i)
(i)
· AU (i) = AU (i) = AU e(i) .
BU e = BU = (V DU )U = V De = di vi =
AU (i) 2
Folglich gilt BU = AU , weshalb V DU T = B = A.
Wir befassen uns nun mit dem Fall, daß A keine invertierbare n×n-Matrix
ist. In diesem
Fall betrachten
wir E = {x ∈ Rn : Ax = 0} ⊂ Rn , den Kern von A, und F = A(1) , . . . , A(n) ⊂ Rm , den von
den Spalten von A aufgespannten Raum. Nach Korollar 5.3 haben die beiden Vektorräume E ⊥ und F
dieselbe Dimension l und die lineare Abbildung f : E ⊥ → F , x 7→ Ax ist invertierbar. Nach dem soeben
gezeigten existieren also Orthonormalbasen A0 , B 0 von E ⊥ und F sowie eine Diagonalmatrix D0 , so daß
MA0 ,B0 (f ) = D0 . Seien A00 , B 00 nun Orthonormalbasen von E und F ⊥ . Fügen wir A0 und A00 zu A sowie
B 0 und B 00 zu B zusammen, so erhalten wir eine Orthonormalbasis A von Rn und eine Orthonormalbasis B
von Rm . Sei schließlich D die m × n-Matrix in Diagonalform deren einzige von Null verschiede Einträge
0
die Einträge Dii = Dii
für i = 1, . . . , l sind. Dann ist MA,B (A) = D. Die Spalten von A und B bilden
also orthogonale Matrizen U und V , so daß A = V T DU .
2
T
Die Darstellung A = V DU aus Satz 8.5 nennt sich die Singulärwertzerlegung von A. Die Diagonaleinträge der Matrix D heißen entsprechend die Singulärwerte von A.
9
Projektionen und quadratische Formen
Eine n × n-Matrix B induziert eine Abbildung
qB : Rn → R,
x 7→ hBx, xi ,
die quadratische Form von B. In der Tat gibt es zu jeder n × n-Matrix B eine symmetrische n × n-Matrix
A, so daß qA = qB , nämlich die Matrix A = 12 (B + B T ). Die symmetrische Matrix A hat eine Zerlegung
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
30
Abbildung 1: die quadratische Form x21 + x22 .
A = U DU T , wobei D = diag(k1 , . . . , kn ) in Diagonalform und U orthogonal ist. Schreiben wir den
Vektor x in der Form
n D
E
X
x=
x, U (i) U (i) ,
i=1
erhalten wir
hAx, xi =
=
=
U DU T x, x = DU T x, U T x
n X
n D
ED
ED
E
X
x, U (i) x, U (j) DU T U (i) , U T U (j)
i=1 j=1
n D
X
x, U (i)
n
E2 D
E X
D
E2
DU T U (i) , U T U (i) =
ki x, U (i) .
i=1
i=1
Beispiel 9.1
1. Die quadratische Form, die der Matrix A =
x1
q
x2
1
0
0
entspricht, ist
1
= x21 + x22 .
Ihr Graph ist in Abbildung 1 dargestellt.
2. Die quadratische Form, die der Matrix A =
x1
q
x2
1
0
0
entspricht, ist
−1
= x21 − x22 .
Ihr Graph ist in Abbildung 2 dargestellt.
Die Matrizen A, so daß qA (x) = hAx, xi ≥ 0 für alle x ∈ Rn , spielen eine besondere Rolle.
(29)
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
31
Abbildung 2: die quadratische Form x21 − x22 .
Definition 9.2 Eine n × n-Matrix A heißt positiv semidefinit, wenn A symmetrisch ist und hAx, xi ≥ 0
für alle x ∈ Rn .
Proposition 9.3 Seien A, B n × n-Matrizen und sei a ≥ 0 reell.
1. A ist genau dann positiv semidefinit, wenn A symmetrisch ist und alle Eigenwerte von A größer oder
gleich Null sind.
2. A ist genau dann positiv semidefinit, wenn es eine symmetrische Matrix C gibt, so daß A = C 2 .
3. Wenn A und B positiv semidefinit sind, dann ist auch A + B positiv semidefinit.
4. Wenn A positiv semidefinit ist, dann ist auch a · A positiv semidefinit.
5. Die Matrix AT A ist positiv semidefinit.
Beweis. ad 1.: Sei A eine symmetrische Matrix. Dann
existiert die Zerlegung (23). Angenommen A ist
positiv semidefinit. Dann gilt für die Eigenwerte ki = AU (i) , U (i) ≥ 0 für alle i = 1, . . . , n. Nehmen
wir umgekehrt an, daß ki ≥ 0 für i = 1, . . . , n, dann zeigt (29), daß hAx, xi = qA (x) ≥ 0. Somit ist A
positiv semidefinit.
ad 2.: Wenn A = C 2 für eine symmetrische Matrix C, dann gilt für alle x ∈ Rn
2
hAx, xi = C 2 x, x = hCx, Cxi = kCxk ≥ 0.
Ist umgekehrt A positiv semidefinit, so wissen wir aus 1., daß die Eigenwerte k1 , . . . , kn in der Zerlegung (23) größer oder gleich Null sind. Wir können also die Matrix C definieren als
p
p
C = U T diag( k1 , . . . , kn )U.
Quadrieren wir diese Matrix, erhalten wir
p
p
p
p
C 2 = (U T diag( k1 , . . . , kn )U ) · (U T diag( k1 , . . . , kn )U )
p
p
= U T diag( k1 , . . . , kn )2 U = U T diag(k1 , . . . , kn )U = A.
9
PROJEKTIONEN UND QUADRATISCHE FORMEN
32
ad 3.: Für x ∈ Rn gilt h(A + B)x, xi = hAx, xi + hBx, xi ≥ 0, weil A, B positiv semidefinit sind.
ad 4: Für x ∈ Rn gilt ha · Ax, xi= a · hAx, xi ≥ 0, weil A positiv semidefinit ist.
2
ad 5: Für x ∈ Rn gilt AT Ax, x = hAx, Axi = kAxk ≥ 0.
2
Wir befassen uns schließlich noch mit einer besonderen Art von semidefiniten Matrizen.
Definition 9.4 Eine n × n-Matrix A heißt Orthogonalprojektion oder einfach Projektion, falls A positiv
semidefinit ist und A2 = A.
Proposition 9.5 Eine symmetrische n × n-Matrix A ist eine Projektion genau dann, wenn alle ihre Eigenwerte gleich 0 oder 1 sind.
Beweis. Wenn A eine Projektion ist, ist A insbesondere symmetrisch. Folglich existiert die Zerlegung (23).
Es gilt
A2 = (U T diag(k1 , . . . , kn )U )2
= U T diag(k1 , . . . , kn )U · U T diag(k1 , . . . , kn )U
= U T diag(k12 , . . . , kn2 )U.
(30)
Weil A2 = A, erhalten wir
U T diag(k1 , . . . , kn )U = A = A2 = U T diag(k12 , . . . , kn2 )U
und folglich diag(k1 , . . . , kn ) = diag(k12 , . . . , kn2 ). Es gilt also ki2 = ki woraus ki ∈ {0, 1} folgt für
i = 1, . . . , n.
Wenn umgekehrt A symmetrisch ist mit Eigenwerten k1 , . . . , kn ∈ {0, 1}, zeigt (30), daß
A2 = U T diag(k12 , . . . , kn2 )U = U diag(k1 , . . . , kn )U = A,
2
also ist A eine Projektion.
Projektionen sind im Grunde nichts anderes als Untervektorräume. Genauer gilt folgendes.
Proposition 9.6
1. Zu jedem Untervektorraum E ⊂ Rn existiert eine Projektion A, so daß E ⊥ der
Kern von A ist und E = {Ax : x ∈ Rn }.
2. Ist umgekehrt A eine Projektion mit Kern F , so ist F ⊥ der von den Spalten von A aufgespannte
Vektorraum.
Beweis. ad 1.: der Vektorraum E hat eine Orthonormalbasis x1 , . . . , xk und E ⊥ besitzt eine Orthonormalbasis xk+1 , . . . , xn . Die Matrix U mit den Spalten x1 , . . . , xn ist orthogonal und wir definieren
A = U T diag(1, . . . , 1, 0, . . . , 0)U.
| {z }
k Stück
Dann ist A die gesuchte Projektion.
ad 2.: Die Matrix A hat eine Zerlegung der Form (23) mit k1 , . . . , kn ∈ {0, 1}. Sei
I = {i ∈ {1, . . . , n} : ki = 1} .
Dann ist der Kern F von A genau der von den Spalten U (i) , i 6∈ I, aufgespannte Raum. Weil U (1) , . . . , U (n)
eine Orthonormalbasis ist, ist folglich F ⊥ der von U (i) , i ∈ I, aufgespannte Raum. Dies sind genau die
Spalten von A.
2
10
10
AUSBLICK: KOMPLEXE UND ALLGEMEINE VEKTORRÄUME
33
Ausblick: komplexe und allgemeine Vektorräume
In den vergangegen Abschnitten haben wir uns mit Untervektorräumen des Rn befaßt. Allerdings können
viele der angestellten Überlegungen weitgehend verallgemeinert werden. Die naheliegendste Verallgemeinerung besteht darin, Vektorräume über den komplexen Zahlen C zu definieren. Dazu diskutieren wir
zunächst die kompexen Zahlen C.
Als Menge definieren wir C = R × R. Die Paare (x, y) ∈ C schreiben wir in der Form x + iy; das
Symbol i nennen wir die imaginäre Einheit, während x der Realteil und y der Imaginärteil von x + iy
heißt. Man kann sich die komplexe Zahl x + iy also als einen Punkt in der Ebene vorstellen (“komplexe
Zahlenebene”). Wir führen nun folgende Rechenregeln ein: wir definieren
(x + iy) + (s + it)
=
(x + s) + i(y + t),
(x + iy) · (s + it)
=
(xs − yt) + i(ys + xt).
Insbesondere gilt also
i2 = (0 + i1)2 = −1.
Mit anderen Worten: die imaginäre Einheit i ist eine Quadratwurzel von −1. Ferner definieren wir die
konjugierte komplexe Zahl von x + iy als
x + iy = x − iy.
Der Betrag von x + iy wird definiert als
|x + iy| =
q
p
x2 + y 2 = (x + iy) · (x + iy).
Mit 0 bezeichnen wir die komplexe Zahl 0 + i0 und mit 1 die komplexe Zahl 1 + i0. Man prüft nach, daß
mit diesen Definitionen die von R gewohnten Rechenregeln gelten. Insbesondere hat jede komplexe Zahl
x + iy 6= 0 ein multiplikatives Inverses, nämlich
1
x
y
= (x + iy)−1 = 2
−i 2
.
x + iy
x + y2
x + y2
(Allerdings ist es nicht möglich, die Ordnung der reellen Zahlen (“≤”) auf C zu übertragen.)
Die in den Abschnitten 2–6 angestellten Betrachtungen lassen sich problemlos von R auf C übetragen.
Das bedeutet, dass wir Vektoren in Cn und Matrizen mit komplexen Einträgen genauso behandeln können.
Auch das Material der Abschnitte 7–9 kann auf C verallgemeinert werden, allerdings mit einigen subtilen
Änderungen. Beispielsweise definieren man das Skalarprodukt für x, y ∈ Cn als
hx, yi =
n
X
xi ȳi .
i=1
Für eine eingehende Behandlung komplexer Vektorräume sei auf [3] verwiesen.
Bei genauerer Betrachtung stellt sich heraus, daß die Begriffe und Konzepte der linearen Algebra eine
noch deutlich weitergehende Verallgemeinerung zulassen. Im wesentlichen ist die Grundvoraussetzungen,
um lineare Algebra betreiben zu können, daß man eine Addition von Vektoren mit sowie eine Multiplikation von Vektoren mit “Skalaren” (z.B. reellen oder komplexen Zahlen) mit gewissen natürlichen Eigenschaften erklären kann. Dies führt auf den allgemeinen Vektorraumbegriff, für den wir wiederum auf [3]
verweisen.
Ein Beispiel eines allgemeineren Vektorraums ist die Menge E aller Funktion f : R → R. Wir können
zwei solche Funktionen addieren, indem wir zu f, g ∈ E einfach f + g : R → R als die Abbildung
x 7→ f (x) + g(x) definieren. Entsprechend definieren wir zu a ∈ R und f ∈ E das Produkt a · f als die
Abbildung R → R, x 7→ a · f (x). Allerdings gibt es einen wesentlichen Unterschied zwischen diesem
Vektorraum E und den bisher behandelten Vektorräumen: der Vektorraum E hat zwar eine Basis, aber
keine, die aus endlich vielen Vektoren besteht. Um derartige Vektorräume sinnvoll zu behandeln, müssen
wir uns mit einem weiteren Teilgebiet der Mathematik befassen, der Analysis. Diese ist Thema der zweiten
Hälfte der Vorlesung.
11
FOLGEN UND REIHEN
11
34
Folgen und Reihen
Das Thema des nun folgenden zweiten Abschnittes der Vorlesung ist die Analysis zunächst auf R, dann
auch auf Rn . Wir beginnen mit dem Begriff des Grenzwertes. Eine Folge reeller Zahlen ist eine Abbildung
N → R, n 7→ an , die man häufig in der Form (an )n∈N schreibt.
Definition 11.1 Eine Zahl x ∈ R heißt Grenzwert oder Limes der Folge (an )n∈N , wenn folgende Bedingung erfüllt ist.
Zu jeder reellen Zahl ε > 0 existiert eine Zahl N (ε) ∈ N, so daß für alle n > N (ε) gilt
|an − x| < ε.
In diesem Fall schreibt man x = limn→∞ an und sagt, daß (an )n∈N gegen x konvergiert.
Beispiel 11.2 Die Folge (an )n∈N mit an = 1/n hat den Grenzwert 0. Denn zu gegebenem ε > 0 definieren
wir N (ε) = 1/ε. Für alle n > N (ε) gilt dann |an − 0| = an = 1/n < ε.
Der Begriff des Grenzwerts ist eng verbunden mit dem folgenden Konzept. Sei A ⊂ R eine Menge
reeller Zahlen. Wir nennen eine Zahl x ∈ R eine obere Schranke für A, falls für alle a ∈ A gilt a ≤ x.
Analog heißt y ∈ R eine untere Schranke für A, falls für alle a ∈ A gilt a ≥ y. Die Menge A heißt nach
oben/unten beschränkt, falls sie eine obere/untere Schranke hat. Falls beides zutrifft, nennt man A einfach
beschränkt.
Sei A eine nach oben beschränkte Menge. Wir nennen x ∈ R das Supremum von A, falls x eine
obere Schranke von A ist und für jede obere Schranke z von A gilt z ≥ x. Entsprechend heißt y ∈ R das
Infimum einer nach unten beschränkten Menge A, falls y eine untere Schranke von A ist und für jede untere
Schranke z von A gilt z ≤ y. Die folgende Tatsache werden wir nicht beweisen, weil dies eine genauere
Beschäftigung mit den reellen Zahlen voraussezten würde, als der Rahmen dieser Vorlesung erlaubt.
Fakt 11.3 Jede nach oben beschränkte Menge A ⊂ R hat ein Supremum, und jede nach unten beschränkte
Menge hat ein Infimum.
Beispiel 11.4 Sei A die Menge aller x ∈ R mit x2 < 3. Die Menge √
A ist beschränkt, denn jedes x ∈ A
3, als auch ein Infimum, und zwar
erfüllt
−2
≤
x
≤
2.
Folglich
hat
A
sowohl
ein
Supremum,
nämlich
√
−√3. Diese Beispiel zeigt insbesondere, daß Fakt 11.3 in den rationalen Zahlen Q nicht zutrifft, denn
± 3 sind irrational.
Wir nennen eine Folge (an )n∈N nach oben/unten beschränkt, falls die Menge {an : n ∈ N} diese
Eigenschaft hat. Ferner heißt (an )n∈N monoton wachsend, falls an+1 ≥ an für alle n ∈ N, und monoton
fallend, falls an+1 ≤ an für alle n ∈ N. Falls diese Bedingungen mit > statt ≥ bzw. mit < statt ≤ erfüllt
sind, spricht man von einer streng monoton wachsenden/fallenden Folge.
Proposition 11.5 Sei (an )n∈N eine Folge.
1. Wenn (an )n∈N monoton wachsend und nach oben beschränkt ist, dann konvergiert diese Folge gegen
sup {an : n ∈ N}.
2. Wenn (an )n∈N monoton fallend und nach unten beschränkt ist, dann konvergiert diese Folge gegen
inf {an : n ∈ N}.
Beweis. Wir zeigen nur 1.; die zweite Behauptung folgt daraus, indem man zu der Folge (−an )n∈N übergeht. Sei also s = sup {an : n ∈ N} und sei ε > 0. Weil s das Supremum ist, gibt es ein N (ε), so daß
aN ≥ s − ε. Für alle n > N (ε) gilt folglich s ≥ an ≥ aN ≥ s − ε.
2
Beispiel 11.6 Sei 0 ≤ b < 1. Die Folge (an )n∈N mit an = bn hat den Grenzwert 0. Denn diese Folge ist
monoton fallend und ihr Infimum ist 0.
Sei (an )n∈N eine Folge und (mn )n∈N eine streng monoton wachsende Folge. Dann ist (amn )n∈N eine
Folge, die wir eine Teilfolge von (an )n∈N nennen.
11
FOLGEN UND REIHEN
35
Lemma 11.7 Jede Folge (an )n∈N hat eine Teilfolge, die monoton wachsend ist, oder eine Teilfolge, die
monoton fallend ist.
Beweis. Sei B die Menge aller Zahlen n ∈ N, so daß an > aj für alle j > n. Wir betrachten zwei Fälle.
Fall 1: die Menge B ist unendlich. Sei (mn )n∈N streng monoton wachsend, so daß {mn : n ∈ N} ⊂ B.
Dann ist die Folge (amn )n∈N (streng) monoton fallend.
Fall 2: die Menge B ist endlich. Dann hat B eine obere Schranke n0 ∈ N. Wir konstruieren die Folge
mn induktiv, beginnend mit m1 = n0 + 1. Wenn mn bereits definiert ist, definieren wir
Cn+1 = {k ∈ N : ak ≥ amn , k > mn } .
Diese Menge ist nicht leer, weil mn 6∈ B. Sei also mn+1 = min Cn+1 . Dann ist (amn )n∈N monoton
wachsend.
2
Können wir einer Folge irgendwie ansehen, ob sie konvergiert oder nicht, ohne notwendigerweise den
Grenzwert zu kennen? Um dies zu beantworten, benötigen wir eine weitere
Definition 11.8 Eine Folge (an )n∈N heißt eine Cauchyfolge, wenn es zu jedem ε > 0 ein N (ε) ∈ N gibt,
so daß für alle n > N (ε) und alle m > N (ε) gilt |am − an | < ε.
Proposition 11.9 Eine Folge (an )n∈N konvergiert genau dann, wenn sie eine Cauchyfolge ist.
Beweis. Angenommen (an )n∈N konvergiert gegen z ∈ R. Sei ε > 0 und sei N (ε) ∈ N so, daß |an −z| < ε
für alle n ≥ N (ε). Dann gilt für alle n, m > N (ε)
|an − am | ≤ |an − z| + |am − z| < 2ε.
Folglich ist (an )n∈N eine Cauchyfolge.
Nehmen wir also umgekehrt an, daß (an )n∈N eine Cauchyfolge ist. Dann ist (an )n∈N beschränkt. Ferner existiert eine monotone Teilfolge (amn )n∈N , die nach Proposition 11.5 gegen eine Zahl z ∈ R konvergiert. Sei nun ε > 0 und wähle N (ε) so, daß |aN (ε) − an | < ε für alle n > N (ε). Weil limn→∞ amn = z,
existiert ein k ∈ N, so daß mk > N (ε) und |amk − z| < ε. Für alle n > N (ε) gilt folglich
|an − z| ≤ |amk − z| + |amk − an | ≤ 2ε.
Daraus folgt limn→∞ an = z.
2
Reihen sind eine besonders wichtige Art von Folgen. Sei dazu (an )n∈N eine Folge. Wir definieren eine
weitere Folge
n
X
An =
ak ,
k=1
die wir die Reihe mit den Gliedern (an )n∈N nennen. Wenn die Folge (An )n∈N gegen eine Zahl z ∈ R
konvergiert, schreiben wir
∞
X
z=
an .
n=1
P∞
an auch, um einfach die Folge (An )n∈N zu bezeichnen.
P∞
Beispiel 11.10 Zu x ∈ R definieren wir die geometrische Reihe als die Reihe n=1 xn−1 mit den Gliedern xn−1 . Falls x 6= 1 gilt für N ∈ N
Man verwendet die Schreibweise
n=1
N
X
n=1
xn−1 =
1 − xN
;
1−x
das sieht man, indem man beide Seiten der Gleichung mit 1 − x multipliziert. Ist also −1 < x < 1, so gilt
∞
X
n=1
xn−1 = 1/(1 − x).
12
STETIGKEIT
36
P∞
P∞
Proposition 11.11 Die Reihe n=1 an konvergiert, wenn n=1 |an | konvergiert.
Pn
Pn
Beweis. Sei An = k=1 ak und Bk = k=1 |ak |. Für N ∈ N und n > N gilt
n
X
|An − aN | = |
ak | ≤
k=N +1
n
X
|ak | = |Bn − BN |.
k=N +1
2
Wenn (Bn )n∈N eine Cauchyfolgt ist, trifft dies also auch auf (An )n∈N zu.
Korollar 11.12 Die Reihe
xn−1 für alle n ∈ N.
P∞
n=1
an konvergiert, wenn es eine reelle Zahl 0 < x < 1 gibt, so daß |an | ≤
Beweis. In diesem Fall konvergiert
2
Beispiel 11.13 Die Reihe
P∞
P∞
1
n=1 n2n
n=1
|an |, weil
PN
n=1
|an | ≤
PN
n=1
xn−1 und
P∞
n=1
xn−1 =
1
1−x .
konvergiert.
In diesem Abschnitt haben wir der Einfachheit halber Folgen und Reihen betrachtet, deren Index n die
natürlichen Zahlen durchläuft. Alles läßt sich einfach verallgemeinern auf den Fall,
n eine nach unten
P∞daß −n
beschränkte
unendliche
Teilmenge
von
Z
durchläuft.
Beispielsweise
bedeutet
2
nichts anderes
n=0
P∞
als n=1 2−(n−1) .
12
Stetigkeit
In diesem Abschnitt behandeln wir Funktionen die man, anschaulich gesprochen, “zeichnen kann, ohne
den Stift abzusetzen”. Um diese Intuition mathematisch zu erfassen, beginnen wir mit
Definition 12.1 Sei u ∈ R, X ⊂ R und f : X → R. Wir sagen f (x) konvergiert gegen y ∈ R für
x → u, in Symbolen: limx→u f (x) = y, falls die beiden folgenden Bedingungen erfüllt sind:
• Zu jedem δ > 0 gibt es ein x ∈ X mit |x − u| < δ.
• Zu jedem ε > 0 gibt es ein δ > 0, so daß für alle x ∈ X mit |x − u| < δ gilt |f (x) − y| < ε.
Für zwei Funktionen f, g : X → R ist bekanntlich f + g : X → R die Funktion x 7→ f (x) + g(x).
Analog ist f · g : X → R die Funktion x 7→ f (x) · g(x).
Proposition 12.2 Seien f, g : X → R Funktionen und u ∈ R. Wenn limx→u f (x) = y und limx→u g(x) =
z, dann gilt
lim f (x) + g(x) = y + z
und
lim f (x) · g(x) = y · z.
x→u
x→u
Beweis. Zu ε > 0 sei δ > 0 so, daß |f (x) − y| < ε und |g(x) − z| < ε, falls |x − u| < δ. Dann gilt für
solche x
|(f + g)(x) − (y + z)| ≤ |f (x) − y| + |g(x) − z| < 2ε.
Daraus folgt die erste Behauptung.
Um die zweite Behauptung zu zeigen, bemerken wir, daß
|f · g(x) − y · z| =
≤
|(f (x) − y) · g(x) + y · (g(x) − g(u))|
|g(x)| · |f (x) − y| + |y| · |g(x) − z|.
(31)
Wir wählen also δ > 0 klein genug, so daß für alle x mit |x − u| < δ gilt
|g(x)| ≤ |z| + 1,
|f (x) − y| < ε/(|z| + 1)
Dann zeigt (31), daß |f · g(x) − y · z| < 2ε.
und
|g(x) − z| < ε/(1 + |y|).
2
13
DIE ABLEITUNG
37
Proposition 12.3 Seien f : X → Y , h : Y → R Funktionen und u ∈ X, v ∈ Y , z ∈ R so, daß
limx→u f (x) = v und limy→v h(y) = z. Dann gilt limx→u h ◦ f (x) = z.
Beweis. Zu jedem ε > 0 existiert δ > 0, so daß für alle y ∈ Y mit |v − y| < δ gilt |h(y) − z| < ε.
Ferner gibt es ein γ > 0, so daß für alle x ∈ X mit |x − u| < γ gilt |f (x) − v| < δ. Für diese x gilt also
|h(f (x)) − z| < ε.
2
Definition 12.4 Sei X ⊂ R, f : X → R und u ∈ X. Wir nennen f stetig im Punkt u, falls
lim f (x) = f (u).
x→u
Ist ferner S ⊂ X, so heißt f stetig auf S, falls f stetig in jedem Punkt u ∈ S ist.
Anschaulich bedeutet Stetigkeit, daß die Funktion f keinen “plötzlichen Sprung” im Punkt u macht.
Ein Gegenbeispiel ist die Funktion
−1 falls x < 0,
R → R,
x 7→
1
falls x ≥ 0.
Beispiele für eine stetige Funktion sind die Funktionen x 7→ x und x 7→ c für jede Zahl c ∈ R. Proposition 12.2 liefert uns viele neue Beispiele stetiger Funktionen, insbesondere die Polynome
R → R,
x 7→ an xn + an−1 xn−1 + · · · + a1 x + a0 ,
mit a0 , a1 , . . . , an ∈ R.
Seien (a, b) reelle Zahlen. Wir bezeichnen mit (a, b) = {x ∈ R : a < x < b} das offene Intervall von
a bis b. (Trotz der identischen Schreibweise ist dies natürlich nicht dasselbe wie das Paar (a, b).) Ferner
bezeichnet [a, b] = {x ∈ R : a ≤ x ≤ b} das abgeschlossene Intervall von a bis b. Stetige Funktionen
haben die folgende wichtige Eigenschaft.
Satz 12.5 (“Zwischenwertsatz”) Seien a < b reelle Zahlen und sei f : [a, b] → R stetig auf dem gesamten Intervall [a, b]. Wenn f (a) < 0 aber f (b) > 0, dann existiert eine Zahl c ∈ (a, b) mit f (c) = 0.
Beweis. Die Menge Z = {x ∈ [a, b] : f (x) < 0} ist beschränkt und nicht leer und b 6∈ Z. Sei c = sup Z.
Die Funktion f ist stetig in c.
Wir behaupten, daß f (c) ≤ 0. Denn angenommen f (c) > 0. Dann setzen wir ε = f (c)/2 und wählen
δ > 0 so klein, daß |f (x) − f (c)| < ε wenn |x − c| < δ. Nach Definition des Supremums gibt es eine Zahl
x ∈ Z mit |x − c| < δ; folglich erhalten wir den Widerspruch
0 > f (x) ≥ f (c) − ε ≥ f (c)/2 > 0.
Wir wissen also, daß f (c) ≤ 0. Andererseits behaupten wir, daß f (c) ≥ 0. Denn angenommen f (c) <
0. In diesem Fall setzen wir ε = −f (c)/2 > 0. Weil f stetig ist in c, gibt es eine Zahl δ > 0, so daß
|f (c) − f (x)| < ε/2 sofern |x − c| < δ. Ferner gibt es, da c = sup Z < b, eine Zahl c < x < b mit
|x − c| < δ. Weil x 6∈ Z, gilt f (x) ≥ 0, und folglich erhalten wir den Widerspruch
0 ≤ f (x) ≤ f (c) + ε ≤ f (c)/2 < 0.
Die einzige verbleibende Möglichkeit ist also f (c) = 0.
13
2
Die Ableitung
Stetigkeit, d.h. daß eine Funktion keine “plötzlichen Sprünge” macht, ist ein einfaches aber wichtiges Konzept. Der Stetigkeitsbegriff erlaubt, aus dem Wert einer Funktion in einem Punkt u Schlüsse zu ziehen die
Funkionswerte für x “in der Nähe” von u betreffend. Allerdings ist die Art von Schluß, die man ziehen
kann, noch recht rudimentär. Um genauere Aussagen zu treffen, führen wir nun den Begriff der Differenzierbarkeit ein. Dieser erlaubt wesentlich genauere Aussagen über das lokale Verhalten einer Funktion: die
Idee ist, eine Funktion lokal durch eine lineare Funktion zu approximieren. Der Nachteil ist, daß nicht jede
stetige Funktion differenziert werden kann.
13
DIE ABLEITUNG
38
Definition 13.1 Sei f : X → R eine Funktion und sei u ∈ X ein Punkt, so daß es zu jedem ε > 0 ein
x ∈ X \ {u} mit |x − u| < ε gibt. Wir sagen, daß die Funktion f differenzierbar ist im Punkt u, falls
folgendes gilt:
Sei g : X \ {u} → R, x 7→
f (x)−f (u)
.
x−u
Dann konvergiert g(x) für x → u.
In diesem Fall nennen wir limx→u g(x) die Ableitung von f in u.
(u)
die Steigung der Geraden durch die Punkte (x, f (x)), (u, f (u)) ∈
Anschaulich gesprochen ist f (x)−f
x−u
R . Da wir den Limes x → u betrachten, können wir uns die Ableitung also als die Steigung der Funktion
df
f im Punkt u vorstellen. Für die Ableitung von f im Punkt u schreiben wir oft f 0 (u) oder dx
(u). Wenn f
df
0
auf der gesamten Menge X differenzierbar ist, können wir also f (oder dx ) als eine Abbildung X → R
auffassen.
2
Proposition 13.2 Wenn die Funktion f : X → R im Punkt u ∈ X differenzierbar ist, dann ist sie dort
auch stetig.
Beweis. Sei 0 < ε < 1. Wähle 0 < δ < 2(1+|fε 0 (u)|) so klein, daß für alle x ∈ X mit |x − u| < δ gilt
f (x) − f (u)
0
− f (u) < ε/2.
x−u
Dann gilt
f (x) − f (u) · |x − u| ≤ f (x) − f (u) − f 0 (u) + |f 0 (u)| · |x − u|
|f (u) − f (x)| = x−u
x−u <
εδ
+ δ|f 0 (u)| ≤ ε2 /4 + ε/2 < ε.
2
Also ist f stetig in u.
2
Ähnlich wie im Fall von stetigen Funktionen kann man aus gegebenen differenzierbaren Funktionen
neue basteln.
Proposition 13.3 Angenommen die Funktionen f : X → R, g : X → R sind differenzierbar im Punkt
u ∈ X. Dann gilt folgendes.
1. Die Funktion f + g : X → R, x 7→ f (x) + g(x) ist differenzierbar in u und
(f + g)0 (u) = f 0 (u) + g 0 (u).
2. Die Funktion f · g : X → R, x 7→ f (x) · g(x) ist differenzierbar in u und
(f · g)0 (x) = f 0 (x) · g(x) + f (x) · g 0 (x).
Beweis. Es gilt
(f + g)(x) − (f + g)(u)
f (x) − f (u) g(x) − g(u)
=
+
.
x−u
x−u
x−u
Wenn also
f (x)−f (u)
x−u
lim
x→u
und
g(x)−g(u)
x−u
für x → u konvergieren, gilt nach Proposition 12.2
(f + g)(x) − (f + g)(u)
f (x) − f (u)
g(x) − g(u)
= lim
+ lim
.
x→u
x→u
x−u
x−u
x−u
Daraus folgt die erste Behauptung.
Ferner gilt
(f · g)(x) − (f · g)(u)
x−u
=
=
f (x)g(x) − f (u)g(x) − (f (u)g(u) − f (u)g(x))
x−u
f (x) − f (u)
g(x) − g(u)
g(x) ·
+ f (u) ·
.
x−u
x−u
13
DIE ABLEITUNG
39
Proposition 13.2 zeigt, daß limx→u g(x) = g(u). Aus Proposition 12.2 folgt also
lim
x→u
(f · g)(x) − (f · g)(u)
x−u
f (x) − f (u)
g(x) − g(u)
+ f (u) lim
x→u
x−u
x−u
g(u)f 0 (u) + f (u)g 0 (u),
lim g(x) · lim
=
x→u
=
x→u
2
wie behauptet.
Proposition 13.4 (“Kettenregel”) Angenommen die Funktion f : X → Y ist differenzierbar im Punkt
u ∈ X und die Funktion h : Y → R ist differenzierbar im Punkt v = f (u). Dann ist h ◦ f differenzierbar
im Punkt u und
(h ◦ f )0 (u) = h0 (f (u)) · f 0 (u).
Beweis. Wir führen die Kurzschreibweise t = f (x) − f (u) ein. Es gilt
h ◦ f (x) − h ◦ f (u)
x−u
h(v + t) − h(v)
x−u
(h(v) + th0 (v)) − h(v) h(v + t) − h(v) − th0 (v)
+
x−u
x−u
th0 (v) h(v + t) − h(v) − th0 (v)
+
.
x−u
x−u
=
=
=
Wir erhalten
(32)
h0 (v)(f (x) − f (u)))
th0 (v)
= lim
= h0 (v)f 0 (u).
x→u
x→u x − u
x−u
(33)
h(v + t) − h(v)
h(v + t) − h(v) − th0 (v)
t
0
lim
= lim
− h (v) .
x→u
x→u x − u
x−u
t
(34)
lim
Ferner gilt, sofern t 6= 0,
Nach Definition der Ableitung h0 (v) bzw. f 0 (v) gilt
lim
s→0
h(v + s) − h(v)
− h0 (v) = 0,
s
lim
x→u
t
= f 0 (u).
x−u
Also zeigt (34), daß
h(v + t) − h(v) − th0 (v)
= 0.
x→u
x−u
Schließlich folgt die Behauptung, indem man (33) und (35) in (32) einsetzt.
lim
(35)
2
Proposition 13.5 Die Funktion f : R \ {0} → R, x 7→ 1/x is differenzierbar. Es gilt f 0 (x) = −1/x2 .
Beweis. Wir zeigen zunächst, daß die Funktion f stetig in x ∈ R \ {0} ist. Denn
f (u) − f (x) =
1
1
x−u
− =
.
u x
ux
(36)
Wenn |x − u| hinreichend klein ist, gilt |u| ≥ 12 |x|. Dann zeigt (36)
|f (u) − f (x)| ≤
|x − u|
2|x − u|
≤
.
|ux|
|x|2
Folglich gilt
lim |f (u) − f (x)| = 0,
u→x
also ist f stetig im Punkt x.
(37)
13
DIE ABLEITUNG
40
Ferner folgt aus (36), daß
f (u) − f (x)
u−x
=
−
1
.
ux
(38)
Aus (37) und (38) ergibt sich schließlich
lim
u→x
f (u) − f (x)
−1
1
= lim
= − 2,
u→x ux
u−x
x
2
wie behauptet.
Korollar 13.6 Seien f : X → R, g : X → R zwei Funktionen, die im Punkt x ∈ X differenzierbar sind.
Wenn g(y) 6= 0 für alle y ∈ X, dann ist f /g im Punkt x differenzierbar und
0
f 0 (x)g(x) − f (x)g 0 (x)
f
(x) =
.
g
g(x)2
Beweis. Proposition 13.3 zeigt, daß
0
0
0
f
1
1
1
(x) =
f·
(x) = f 0 (x) ·
+ f (x)
(x).
g
g
g(x)
g
(39)
Sei h : R \ {0}, z 7→ 1/z. Aus Proposition 13.4 folgt
0
1
1
g 0 (x)
(x) = (h ◦ g)0 (x) = g 0 (x) · h0 (g(x)) = g 0 (x) · −
=−
.
2
g
g(x)
g(x)2
Aus (39) und (40) folgt schließlich die Behauptung.
(40)
2
Der Beweis des folgenden Satzes benötigt einige Überlegungen, die den Rahmen dieser Vorlesung
sprengen.
Satz 13.7 (“Satz über die Umkehrfunktion”) Sei f : (a, b) → (c, d) eine stetige bijektive Funktion, die
im Punkt x ∈ (a, b) differenzierbar ist. Dann ist die Umkehrfunktion f −1 : (c, d) → (a, b) im Punkt
y = f (x) differenzierbar mit Ableitung 1/f 0 (x).
Was sagt die Ableitung über das lokale Verhalten der Funktion aus? Wir beginnen mit der folgenden
Beobachtung.
Satz 13.8 (“Satz von Rolle”) Sei f : [a, b] → R eine differenzierbare Funktion mit f (a) = f (b) = 0.
Dann gibt es ein c ∈ (a, b) mit f 0 (c) = 0.
Beweis. Wir nehmen zunächst an, daß es ein d ∈ (a, b) gibt mit f (d) > 0. Sei Z = {f (x) : x ∈ [a, b]}. Wir
zeigen zunächst, daß die Menge Z nach oben beschränkt ist. Angenommen, sie wäre es nicht. Dann gibt
es zu jeder natürlichen Zahl n ein xn ∈ [a, b], so daß f (xn ) > n. Die Folge (xn )n∈N hat eine monotone
Teilfolge (xkn )n∈N , die nach Proposition 11.5 gegen eine Zahl x∗ ∈ [a, b] konvergiert. Weil f stetig ist,
folgt f (x∗ ) > n für alle n ∈ N, was unmöglich ist. Dieser Widerspruch zeigt, daß Z nach oben beschränkt
ist.
Folglich existiert s = sup Z. Nach Definition des Supremums gibt es zu jedem n ∈ N eine Zahl
yn ∈ [a, b], so daß |s − f (yn )| < 1/n. Die Folge (yn )n∈N hat eine monotone Teilfolge (ykn )n∈N , die
nach Proposition 11.5 gegen eine Zahl c ∈ [a, b] konvergiert. Folglich gilt f (c) = s. Weil s > 0, folgt
c 6∈ {a, b}, also c ∈ (a, b).
Wir behaupten, daß f 0 (c) = 0. Denn angenommen f 0 (c) > 0. Dann gibt es ein kleines δ > 0, so daß
mit ε = f 0 (c)/2 gilt
f (c + δ) − f (c)
≥ f 0 (c) − ε > 0.
δ
14
DAS INTEGRAL
41
Daraus folgt, daß f (c + δ) > f (c) = s. Das kann nicht angehen, weil s das Supremum der Menge
Z = {f (x) : x ∈ [a, b]} ist. Also folgt f 0 (c) ≤ 0.
Ist entsprechend f 0 (c) < 0, so gibt es ein kleines δ > 0, so daß mit ε = −f 0 (c)/2 gilt
f (c − δ) − f (c)
≥ −f 0 (c) − ε > 0.
δ
Also finden wir, daß f (c − δ) > f (c) = s, was wiederum einen Widerspruch ergibt. Dies zeigt f 0 (c) = 0.
Was, wenn f (x) ≤ 0 für alle x ∈ (a, b)? Wenn es ein x ∈ (a, b) gibt mit f (x) < 0, dann wenden wir
das obige Argument auf die Funktion −f an und erhalten ein c mit −f 0 (c) = 0, also auch f 0 (c) = 0. Und
wenn f (x) = 0 für alle x ∈ (a, b), dann folgt unmittelbar, daß f 0 (x) = 0 für alle x.
2
Korollar 13.9 (“Mittelwertsatz der Differentialrechnung”) Sei f : [a, b] → R differenzierbar. Es gibt
ein c ∈ [a, b], so daß f (b) − f (a) = f 0 (c) · (b − a).
Beweis. Die Funktion
g : [a, b] → R,
x 7→ f (x) − f (a) −
f (b) − f (a)
· (x − a)
b−a
erfüllt die Voraussetzungen des Satzes von Rolle. Folglich existiert ein c ∈ [a, b] mit
0 = g 0 (c) = f 0 (c) −
f (b) − f (a)
.
b−a
Umstellen dieser Gleichung liefert die Behauptung.
2
Wir nennen eine Funktion f : [a, b] → R monoton wachsend, falls für je zwei reelle Zahlen x, y mit
a ≤ x < y ≤ b gilt f (x) ≤ f (y). Ferner heißt f streng monoton wachsend, falls für je zwei reelle Zahlen
x, y mit a ≤ x < y ≤ b gilt f (x) < f (y). Analog heißt f monoton fallend, falls x, y mit a ≤ x < y ≤ b
stets gilt f (x) ≥ f (y), und streng monoton fallend, wenn für x, y wie zuvor gilt f (x) < f (y).
Korollar 13.10 Sei f : [a, b] → R differenzierbar.
1. Wenn f 0 (c) ≥ 0 für alle c ∈ [a, b], dann ist f monoton wachsend.
2. Wenn f 0 (c) > 0 für alle c ∈ [a, b], dann ist f streng monoton wachsend.
3. Wenn f 0 (c) ≤ 0 für alle c ∈ [a, b], dann ist f monoton fallend.
4. Wenn f 0 (c) < 0 für alle c ∈ [a, b], dann ist f streng monoton fallend.
Sei f : [a, b] → R eine Funktion. Ein Punkt c ∈ [a, b] heißt lokales Maximum von f , wenn es ein
ε > 0 gibt, so daß für alle x ∈ [a, b] mit |x − c| < ε gilt f (x) ≤ f (c). Entsprechend nennt man c ein
lokales Minimum von f , falls es ein ε > 0 gibt, so daß für alle x ∈ [a, b] mit |x − c| < ε gilt f (x) ≥ f (c).
Wenn c ein lokales Minimum oder ein lokales Maximum ist, nennt man c ein lokales Extremum.
Korollar 13.11 Sei f : [a, b] → R differenzierbar. Wenn c ∈ [a, b] ein lokales Extremum ist, gilt f 0 (c) = 0.
14
Das Integral
Für eine Funktion f : [a, b] → R möchten wir die Fläche, die f mit der x-Achse einschließt, bestimmen.
Ist beispielsweise f die Funktion f : [0, 1] → R, x 7→ 1, so ist der Flächeninhalt 1. Im Fall der Funktion
g : [0, 1] → R, x 7→ −1, ist der Flächeninhalt −1.
Für bestimmte besonders einfache Funktionen kann man den Flächeninhalt leicht bestimmen. Wir nennen eine Funktion t : [a, b] → R eine Treppenfunktion, wenn es Zahlen a = a0 < a1 < · · · < ak = b
und c1 , . . . , ck ∈ R gibt, so daß
t(x) = ci
für alle x ∈ (ai−1 , ai )
(i = 1, . . . , k).
14
DAS INTEGRAL
42
In diesem Fall definieren wir
b
Z
t(x) dx =
a
k
X
ci (ai − ai−1 ).
i=1
Sei nun allgemeiner f : S → R eine Funktion und seien a, b Zahlen, so daß [a, b] ⊂ S. Sei ferner
T ∗ (f, [a, b]) die Menge aller Treppenfunktionen t : [a, b] → R, so daß t(x) ≥ f (x) für alle x ∈ [a, b].
Analog sei T∗ (f, [a, b]) die Menge aller Treppenfunktionen t : [a, b] → R, so daß t(x) ≤ f (x) für alle
x ∈ [a, b]. Wir nennen eine Funktion f : [a, b] → R integrierbar auf [a, b], falls
(Z
)
(Z
)
b
b
∗
t(x)dx : t ∈ T (f, [a, b]) = sup
t(x)dx : t ∈ T∗ (f, [a, b]) .
inf
a
a
In diesem Fall definieren wir das Integral von f über [a, b] als
)
(Z
Z b
b
t(x)dx : t ∈ T∗ (f, [a, b]) .
f (x)dx = sup
a
a
Welche Funktionen sind integrierbar? Wir nennen eine Funktion f : [a, b] → R stückweise stetig,
wenn es Zahlen c > 0 und a = a0 < a1 < · · · < ak = b gibt, so daß f auf jedem der Intervalle (ai−1 , ai )
stetig ist für i = 1, . . . , k, und |f (x)| ≤ c für alle x ∈ [a, b].
Proposition 14.1 Wenn f : [a, b] → R stückweise stetig ist, ist f integrierbar auf [a, b].
Der Beweis von Proposition 14.1 ist relativ aufwendig und übersteigt daher den Rahmen dieser Vorlesung.
Beispiel 14.2 Wir integrieren die Funktion f : [0, 1] → R, x 7→ x. Zu diesem Zweck konstruieren wir
“untere” und “obere” Treppenfunktionen. Sei n ≥ 1 eine natürliche Zahl. Wir erhalten eine untere Treppenfunktion un , indem wir definieren
1
k
un (x) = · max k ∈ Z : ≤ x .
n
n
Entsprechend erhält man eine obere Treppenfunktion on :
1
k
on (x) = · min k ∈ Z : ≥ x .
n
n
Die Integrale dieser Treppenfunktionen können wir leicht ausrechnen:
Z 1
Z 1
n
n−1
X i
X
(n − 1)n
i
n(n + 1)
=
,
o
(x)dx
=
=
.
un (x)dx =
n
2
2
2
n
2n
n
2n2
0
0
i=0
i=1
Weil
Z
lim
n→∞
folgt
R1
0
1
Z
un (x)dx = lim
n→∞
0
1
on (x)dx =
0
1
,
2
f (x)dx = 1/2.
Die folgende Tatsache folgt relativ leicht aus der Konstruktion des Integrals.
Proposition 14.3 Seien f : [a, b] → R, g : [a, b] → R auf [a, b] integrierbare Funktionen. Sei c ∈ R.
Dann sind die Funktionen f + g, c · f integrierbar und
Z b
Z b
Z b
Z b
Z b
(f + g)(x)dx =
f (x)dx +
g(x)dx,
(c · f )(x)dx = c ·
f (x)dx.
a
a
a
a
Wenn ferner f (x) ≤ g(x) für alle x ∈ (a, b), dann gilt
Z b
Z
f (x)dx ≤
a
a
b
g(x)dx.
a
14
DAS INTEGRAL
43
Wenn f auf [a, b] integrierbar ist, definieren wir
Z a
Z
f (x)dx = −
b
b
f (x)dx.
a
Wenn a ≤ b ≤ c reelle Zahlen sind und f auf [a, c] integrierbar ist, gilt
Z c
Z b
Z c
f (x)dx =
f (x)dx +
f (x)dx.
a
a
b
Proposition 14.4 (“Mittelwertsatz der Integralrechnung”) Wenn f auf [a, b] stetig ist, gibt es ein c ∈
[a, b], so daß
Z b
f (x)dx = (b − a) · f (c).
a
Beweis. Wir betrachten die stetige Funktion g : [a, b] → R, x 7→ f (x) · (b − a). Es gilt
Z b
inf {g(x) : x ∈ [a, b]} ≤
f (x)dx ≤ sup {g(x) : x ∈ [a, b]} .
a
Nach dem Zwischenwertsatz gibt es also ein c ∈ [a, b], so daß
Z b
(b − a)f (c) = g(c) =
f (x)dx,
a
wie behauptet.
2
Sei S ⊂ R und f : S → R eine Funktion. Eine Funktion F : S → R, die auf S differenzierbar ist,
heißt Stammfunktion von f , falls
f (x) = F 0 (x)
für alle x ∈ S.
Proposition 14.5 Sei S ⊂ R und f : S → R. Angenommen F1 , F2 sind Stammfunktionen von f . Dann
gibt es eine Zahl c ∈ R, so daß
F1 (x) = F2 (x) + c
für alle x ∈ S.
Beweis. Die Funktion F1 − F2 hat Ableitung (F1 − F2 )0 (x) = F10 (x) − F20 (x) = f (x) − f (x) = 0. Nach
Korollar 13.10 ist F1 − F2 also sowohl monoton wachsend als auch monoton fallend. Das bedeutet, daß es
eine Zahl c ∈ R gibt, so daß F1 (x) − F2 (x) = c für alle x ∈ S.
2
Satz 14.6 (“Hauptsatz der Differential- und Integralrechnung”) Sei f : [a, b] → R stetig. Dann ist
Z x
F : [a, b] → R,
x 7→
f (y)dy
a
eine Stammfunktion von f .
Beweis. Sei x ∈ [a, b]. Falls x < b, gibt es nach Proposition 14.4 zu jeder hinreichend kleinen Zahl h > 0
ein s(h) ∈ [x, x + h], so daß
Z x+h
Z x
Z x+h
F (x + h) − F (x) =
f (y)dy −
f (y)dy =
f (y)dy = h · f (s(h)).
(41)
a
a
x
Weil f stetig ist, gilt limh→0 f (s(h)) = f (x). Falls x > a, gibt es entsprechend zu jedem hinreichend
kleinen h > 0 ein t ∈ [x − h, x], so daß
Z x−h
Z x
Z x−h
F (x − h) − F (x) =
f (y)dy −
f (y)dy =
f (y)dy = −h · f (t(h)).
(42)
a
a
x
15
DER LOGARITHMUS UND DIE EXPONENTIALFUNKTION
44
Wiederum aufgrund der Stetigkeit von f gilt limh→0 f (t(h)) = f (x). Aus (41) und (42) folgt also
F (x + h) − F (x)
= f (x),
h→0
h
F 0 (x) = lim
wie behauptet.
2
Proposition 14.5 und Satz 14.6 ermöglichen es uns, viele Integrale auszurechnen. Das folgende Korollar
verrät das allgemeine Rezept.
Korollar 14.7 Sei f : [a, b] → R stetig und sei F eine Stammfunktion von f . Dann gilt
b
Z
f (y)dy = F (b) − F (a).
a
Rx
Beweis. Sei G(x) = a f (y)dy. Nach Satz 14.6 ist G eine Stammfunktion von f . Nach Proposition 14.5
existiert also eine Zahl c ∈ R, so daß F (x) = G(x) + c für alle x ∈ [a, b]. Daraus folgt, daß
Z
b
F (b) − F (a) = G(b) − G(a) =
Z
f (y)dy −
a
a
b
Z
Z
f (y)dy − 0 =
f (y)dy =
a
a
b
f (y)dy,
a
2
wie behauptet.
R1
Beispiel 14.8 In Beispiel 14.2 haben wir ausgerechnet, daß 0 xdx = 1/2. Mit Korollar 14.7 können wir
dieses Integral einfacher ausrechnen. Denn die Funktion f : [0, 1] → R, x 7→ x hat die Stammfunktion
R1
F : [0, 1] → R, x 7→ x2 /2. Also erhalten wir 0 f (x)dx = F (1) − F (0) = 1/2.
Mit Hilfe von Korollar 14.7 gewinnen wir aus den Ableitungsregeln, insbesondere der Produkt- und der
Kettenregel, Rechenregeln für das Integrieren. Um diese Regeln formulieren zu können, benötigen wir noch
einen weiteren Begriff: eine Funktion f : S → R heißt stetig differenzierbar, falls f auf S differenzierbar
ist und die Ableitung f 0 : S → R eine stetige Funktion ist.
Korollar 14.9 (“Partielle Integration”) Seien f, g : [a, b] → R stetig differenzierbar. Dann gilt
Z
b
f 0 (y)g(y)dy = f (b)g(b) − f (a)g(a) −
a
Z
b
f (y)g 0 (y)dy.
a
Korollar 14.10 (“Substitutionsregel”) Sei f : [c, d] → R stetig und g : [a, b] → [c, d] stetig differenzierbar. Dann gilt
Z b
Z g(b)
f (g(y))g 0 (y)dy =
f (y)dy.
a
15
g(a)
Der Logarithmus und die Exponentialfunktion
Im folgenden benutzen wir die Differential- und Integralrechnung, um einige wichtige Funktionen einzuführen. Die erste ist der natürliche Logarithmus: wir definieren die Funktion
Z x
1
dt.
ln : R>0 = {x ∈ R : x > 0} → R,
x 7→
1 t
Nach Satz 14.6 hat diese Funktion die Ableitung
d
1
ln(x) = .
dx
x
(43)
ln(1) = 0.
(44)
Ferner gilt nach Konstruktion des Integrals
15
DER LOGARITHMUS UND DIE EXPONENTIALFUNKTION
45
Proposition 15.1 Für alle a, x > 0 gilt ln(a · x) = ln(a) + ln(x).
Beweis. Sei f : R>0 → R, x 7→ ln(a · x) und g : R>0 → R, x 7→ ln(a) + ln(x). Nach der Kettenregel
gilt
1
1
1
f 0 (x) = a ·
= , und ferner g 0 (x) = .
a·x
x
x
Also sind f, g Stammfunktionen der Funktion x 7→ 1/x. Weil außerdem f (1) = ln(a) = g(1), folgt
f (x) = g(x) für alle x > 0.
2
Durch wiederholte Anwendung der Proposition erhält man
Korollar 15.2 Sei x > 0 und n eine natürliche Zahl. Dann gilt ln(xn ) = n ln(x).
Wie (43) zeigt ist die Ableitung des Logarithmus’ stets positiv. Aus Korollar 13.10 folgt also, daß die
Funktion ln(x) streng monoton wachsend ist. Insbesondere gilt z.B. ln(2) > 0. Aus Korollar 15.2 folgt
außerdem, daß ln(2n ) = n · ln(2). Der Logarithmus ln(x) nimmt also für hinreichend große x beliebig
große Werte an. Weil entsprechend ln(1/2) < 0 und ln((1/2)n ) = n ln(1/2), nimmt ln(x) für kleine
x > 0 auch beliebig kleine (negative) Werte an. Nach dem Zwischenwertsatz ist ln : R>0 → R somit eine
bijektive Abbildung.
Folglich hat ln : R>0 → R eine Umkehrfunktion. Wir bezeichnen sie mit exp : R → R>0 und
nennen sie die Exponentialfunktion. Aus (44) folgt, daß exp(0) = 1. Ferner folgt aus (15.1), daß
exp(x + y) = exp(x) · exp(y)
für alle x, y ∈ R.
(45)
Aus (43) und dem Satz über die Umkehrfunktion folgt, daß die Funktion exp differenzierbar ist mit Ableitung
d
exp(x) = exp(x).
dx
Der Wert der Funktion x 7→ exp(x) an der Stelle x = 1 spielt eine besondere Rolle und wird die
eulersche Zahl genannt:
e = exp(1).
Man kann ausrechnen, daß
e = 2, 718 . . . .
Aus (45) folgt, daß für jede natürliche Zahl n gilt
en = exp(n).
(46)
Wir nehmen die Gleichung (46) zum Anlass, um die Potenz ex für jedes reelle x einzuführen: wir definieren
ex = exp(x)
für x ∈ R.
Noch allgemeiner definieren wir für a > 0, x ∈ R
ax = exp(x · ln(a)).
Insbesondere definieren wir
√
a = a1/2 .
Analog definieren wir für b > 1 noch den Logarithmus zur Basis b durch
logb (x) =
ln x
.
ln b
Diese Definitionen stellen sicher, daß für jedes b > 1 und jedes x ∈ R gilt
logb (bx ) = x.
Aus unsere Definition der Potenz folgt die folgende nützliche Rechenregel.
16
DIE TRIGONOMETRISCHEN FUNKTIONEN
46
Lemma 15.3 Sei q ∈ R \ {0}. Die Funktion f : R>0 → R, x 7→ xq hat die Ableitung f 0 (x) = qxq−1 .
Beweis. Mit der Kettenregel erhalten wir
f 0 (x) =
d
d
q
exp(q · ln x) = exp(q · ln x) ·
q · ln(x) = xq · = qxq−1 ,
dx
dx
x
2
wie behauptet.
16
Die trigonometrischen Funktionen
Wie im vorherigen Abschnitt tun wir so, also ob wir noch nichts über die trigonometrischen Funktionen
sin, cos, tan etc. gehört hätten. Wir wollen diese Funktionen mit Hilfe der Differential- und Integralrechnung definieren. Wir beginnen mit dem Arcustangens:
Z x
1
dy.
arctan : R → R,
x 7→
2
0 1+y
Weil seine Ableitung strikt positiv ist, ist arctan(x) streng monoton wachsend. Außerdem folgt aus der
Definition unmittelbar, daß
arctan(−x) = − arctan(x) und
arctan(0) = 0.
(47)
Mit Hilfe des Arcustangens können wir eine Zahl einführen, die eine ganz besondere Rolle spielt: wir
definieren
π = 4 · arctan(1) = 3, 1415 . . . .
Lemma 16.1 Für alle x > 0 gilt arctan(x) + arctan(1/x) = π/2.
Beweis. Mit der Kettenregel erhalten wir für x > 0
1
1
1
d
[arctan(x) + arctan(1/x)] =
− 2·
= 0.
dx
1 + x2
x 1 + (1/x)2
Also gilt für alle x > 0, daß arctan(x) + arctan(1/x) = 2 arctan(1) = π/2.
2
Korollar 16.2 Für alle x ∈ R gilt arctan(x) ∈ (−π/2, π/2). Genauer ist die Abbildung
arctan : R → (−π/2, π/2),
x 7→ arctan(x)
bijektiv.
Die Umkehrabbildung des Arcustangens nennen wir den Tangens, d.h. wir definieren
tan : (−π/2, π/2) → R,
x 7→ arctan−1 (x).
Wir setzen tan zu einer Funktion R → R fort, indem wir definieren
tan(x + k · π) = tan x
für k ∈ Z.
Aus (47) folgt
tan(−x) = − tan(x)
für alle x ∈ R.
Außerdem liefert der Satz über die Umkehrfunktion, daß
d
tan(x) = 1 + tan2 (x).
dx
(48)
17
TAYLORENTWICKLUNG
47
Mit Hilfe des Tangens’ können wir nun Sinus und Cosinus definieren: für x ∈ (−π/2, π/2) sei
1
cos(x) = p
,
1 + tan2 (x)
tan(x)
sin(x) = p
.
1 + tan2 (x)
Wir definieren ferner cos(−π/2) = cos(π/2) = 0, sin(−π/2) = −1 und sin(π/2) = 1. Ferner setzen wir
cos, sin zu Funktionen R → [0, 1] fort durch
cos(x + k · π) = (−1)k cos(x),
sin(x + k · π) = (−1)k sin(x)
(x ∈ [−π/2, π/2], k ∈ Z).
Aus (48) erhält man, daß
d
cos(x) = − sin(x),
dx
d
sin(x) = cos(x).
dx
Außerdem
überlegt man sich mit Hilfe der Definition (und des Zwischenwertsatzes) leicht, daß es zu jedem
Punkt xy ∈ R2 mit x2 + y 2 genau eine Zahl a ∈ [−π, π) gibt, so daß
x
cos(a)
=
.
y
sin(a)
Diese Beobachtung kann man benutzen, um die Umkehrabbildungen arccos : [−1, 1] → [0, π], arcsin :
[−1, 1] → [−π/2, π/2] einzuführen.
17
Taylorentwicklung
Wir haben die Ableitung eingführt: zu einer Funktion f : (a, b) → R, die auf dem gesamten Intervall (a, b)
differenzierbar ist, erhalten wir eine Funktion f 0 : (a, b) → R. Diese Funktion ist nicht notwendigerweise
differenzierbar (und in der Tat womöglich nicht einmal stetig). Aber wenn sie es ist, kann man sie wiederum
differenzieren und erhält eine weitere Funktion f 00 : (a, b) → R. Diese nennen wir die zweite Ableitung
von f . Induktiv kann man auf diese Art selbstverständlich auch die dritte, vierte, . . . Ableitung definieren.
Allgemein bezeichnen wir die k-te Ableitung von f durch f [k] . Wir nennen f k-mal stetig differenzierbar,
wenn die Ableitungen f [1] , . . . , f [k] existieren und f [k] : (a, b) → R eine stetige Funktion ist.
Wie wir gesehen haben, stellt die Ableitung f 0 eine “lokale Approximation” von f durch eine lineare
Funktion dar:
f (x + h) = f (x) + hf 0 (x) + h · r(h),
wobei lim r(h) = 0.
h→0
Können wir mit Hilfe der höheren Ableitungen von f eine noch genauere lokale Approximation erhalten?
Sei f : (a, b) → R eine k-mal differenzierbare Funktion und x ∈ (a, b). Wir definieren das k-te
Taylorpolynom von f im Punkt x als
t(y) = f (x) +
k
X
f [j] (x)
j=1
j!
· yj .
Wie man leicht nachrechnet gilt
t(0) = f (x),
t[j] (0) = f [j] (x) für 1 ≤ j ≤ k.
Mit anderen Worten: die ersten k Ableitungen von t im Punkt 0 stimmen mit den ersten k Ableitungen von
f im Punkt x überein. Die folgende Aussage quantifiziert, wie gut das Taylorpolynom t die Funktion f
approximiert.
Satz 17.1 (“Taylor-Formel”) Angenommen die Funktion f : (a, b) → R ist (k + 1)-mal stetig differenzierbar. Sei t das k-te Taylorpolynom von f im Punkt x ∈ (a, b), und sei z ∈ (a, b). Dann gibt es ein
a ∈ [0, 1], so daß
f (z)
=
t(z − x) +
f [k+1] (y)
· (z − x)k+1 ,
(k + 1)!
wobei y = (1 − a) · x + a · z.
17
TAYLORENTWICKLUNG
48
Der Beweis der Taylor-Formel geht über den Rahmen dieser Vorlesung hinaus. Wir sehen stattdessen einige wichtige Beispiele. Die Ableitung der Exponentialfunktion exp(x) ist, wie wir in Abschnitt 15
gesehen haben, einfach die Exponentialfunktion selbst, d.h. exp0 (x) = exp(x). Folglich ist die Exponentialfunktion k-mal differenzierbar für jede natürliche Zahl k; man sagt, sie ist beliebig oft differenzierbar.
Ferner ist exp(0) = 1. Das k-te Taylorpolynom im Punkt x = 0 ist also
tk (y) = exp(0) +
k
X
exp(0)
j!
j=1
· yj =
k
X
yj
j=0
j!
,
mit der Konvention, daß y 0 = 1 für alle y. Mit Satz 17.1 erhalten wir nun
Proposition 17.2 Für jede reelle Zahl y gilt
exp(y) =
∞
X
yj
j=0
.
j!
Beweis. Satz 17.1 zeigt, daß für jedes y ∈ R
exp(y)
= tk (y) + rk (y),
wobei
exp(ak · y) k+1
rk (y) =
·y
,
für ein ak ∈ [0, 1].
(k + 1)!
Unser Ziel ist, zu zeigen, daß exp(y) = limk→∞ tk (y). Das bedeutet, wir müssen zeigen, daß
lim rk (y)
k→∞
=
0.
(49)
Sei dazu l die kleinste natürliche Zahl, die größer als |y| ist. Dann können wir rk (y) für k > l großzügig
abschätzen durch
|rk (y)| ≤ exp(l)
lk−l
lk+1
exp(l)ll+1
≤ exp(l)ll+1 · Qk
= Qk
.
j
(k + 1)!
j=l+1 j
j=l+1
(50)
l
Der Zähler des letzten Ausdrucks ist unabhängig von k. Andererseits wird für große k der Nenner in (50)
auch beliebig groß. Also folgt (49) aus (50).
2
Die trigonometrischen Funktionen sin, cos lassen eine ganz ähnliche Reihenentwicklung zu. Weil
sin0 (x) = cos(x) und cos0 (x) = − sin(x),
erhalten wir
[k]
cos (0) =
(−1)k/2
0
falls k gerade ist,
falls k ungerade ist.
Das 2k-te Taylorpolynom von cos(x) im Punkt 0 lautet also
k
X
(−1)j
j=0
(2j)!
· y 2j ,
mit der Interpretation, daß y 0 = 1 für alle y. Entsprechend erhält man
(−1)(k−1)/2 falls k ungerade ist,
[k]
sin (0) =
0
falls k gerade ist.
Das (2k + 1)-te Taylorpolynom von sin(x) im Punkt 0 ist also
k
X
(−1)2j+1
j=0
(2j + 1)!
· y 2j+1 .
17
TAYLORENTWICKLUNG
49
Abbildung 3: die Taylorpolynome t2 (x), t4 (x), t6 (x), t8 (x) im Punkt 0 (rot, von links oben nach rechts
unten) der Funktion cos(x) (blau, gepunktet).
Proposition 17.3 Für jede reelle Zahl y gilt
cos(y) =
∞
X
(−1)j
j=0
(2j)!
· y 2j ,
sin(y) =
∞
X
(−1)j
· y 2j+1 .
(2j
+
1)!
j=0
Der Beweis von Proposition 17.3 beruht auf einem ähnlichem Arugment wie der von Proposition 17.2;
wir verzichten auf die Details. Abbildung 3 zeigt, wie die Taylorentwicklung uns immer bessere Approximationen an die Funktion cos(x) beschert.
Wenn wir uns an die imaginäre Einheit i erinnern, ergibt sich zwischen den Reihendarstellungen von
exp(x), cos(x), sin(x) ein interessanter Zusammenhang: weil i2 = −1, erhalten wir für y ∈ R
exp(iy)
=
cos(y) + i sin(y).
(51)
Weil
exp(i(y1 + y2 )) = exp(iy1 ) · exp(iy2 ),
(52)
18
FOURIERREIHEN
50
kann man mit Hilfe von (51) Zusammenhänge zwischen den trigonometrischen Funktionen herleiten, die
sogenannten “Additionstheoreme”.
Bemerkung 17.4 Um der Argumentation im vorherigen Absatz zu folgen, müßte man genaugenommen den
Konvergenzbegriff für komplexe Zahlen einführen. Das ist kein Problem: in allen Definitionen wird einfach
der reelle Betrag durch den komplexen ersetzt. Wir verzichten auf eine detaillierte Diskussion ebenso wie
auf den Beweis von (52).
18
Fourierreihen
Viele Funktionen lassen sich besser durch die trigonometrischen Funktionen sin(x), cos(x) approximieren als durch Polynome wie in der Taylorentwicklung. Diese Approximation durch Fourierreihen spielt
insbesondere in der Signalverarbeitung eine Rolle, in der Funktionen auftreten, die Überlagerungen von
Schwingungen sind (z.B. ein Audiosignal). Dieses Kapitel ist angelehnt an [4, Kapitel 23].
Um Fourierreihen einzuführen, ist es sinnvoll, das Integral von Funktionen f : R → C mit Werten in
den komplexen Zahlen zu definieren. Weil sich jede komplexe Zahl schreiben läßt als x + iy, kann man f
zerlegen in der Form
f (x) = g(x) + ih(x)
mit g, h : R → R.
Naheliegenderweise nennen wir f integrierbar, wenn g und h integrierbar sind. In diesem Fall definieren
wir
Z b
Z b
Z b
f (x)dx =
g(x)dx + i
h(x)dx.
a
a
a
Insbesondere ist also f integrierbar, wenn g und h stückweise stetig sind; in diesem Fall nennen wir f
selbst stückweise stetig.
Beispiel 18.1 Sei t ∈ R \ {0}. Die Funktion f : R → C, x 7→ exp(itx) = cos(tx) + i sin(tx) ist
integrierbar. Ihr Integral ist
Z b
1
i
i
exp(itx)dx = − [exp(itb) − exp(ita)] = [sin(tb) − sin(ta)] + [cos(ta) − cos(tb)] .
t
t
t
a
R 2π
Insbesondere ist 0 exp(itx)dx = 0.
Angenommen f, g : [0, 2π] → C sind Funktionen, so daß die Funktion
f¯ · g : [0, 2π] → C,
x 7→ f (x) · g(x)
integrierbar ist; dies ist insbesondere dann der Fall, wenn f, g stückweise stetig sind. Dann definieren wir
Z 2π
1
hf, gi =
f (x) · g(x)dx.
2π 0
Ferner definieren wir
kf k2 =
p
hf, f i ≥ 0,
sofern f¯ · f integrierbar ist. Der Beweis der folgenden Rechnenregeln ergibt sich unmittelbar aus den
Definitionen.
Proposition 18.2 Angenommen die Funktionen f, g, h : [0, 2π] → C sind stückweise stetig und a ∈ C.
Dann gilt folgendes.
1. hf + g, hi = hf, hi + hg, hi und hf, g + hi = hf, gi + hf, hi.
2. ha · f , hi = ā hf, hi und hf, a · hi = a hf, hi.
3. hf, hi = hh, f i.
18
FOURIERREIHEN
51
4. ka · f k2 = |a| · kf k2 .
5. kf + gk2 ≤ kf k2 + kgk2 .
Man nennt kf k2 die Norm von f . Wenn f : [0, 2π] → C eine Funktion ist und wenn zu jeder natürlichen Zahl Fn : [0, 2π] → C eine Funktion ist, so daß
lim kf − Fn k2 = 0,
n→∞
dann sagt man, die Folge von Funktionen (Fn )n∈N konvergiert gegen f im quadratischen Mittel.
Der Hauptgegenstand dieses Abschnittes sind Funktionen, die eine besondere Eigenschaft haben: eine
Funktion f : [0, 2π] → C heißt periodisch, falls f (2π) = f (0). Ein Beispiel ist die Funktion
ek : [0, 2π] → C,
x 7→ exp(ikx)
für jedes k ∈ Z.
Unser Ziel ist, eine gegebene Funktion f : [0, 2π] → C mit Hilfe der Funktionen ek darzustellen. Wir
beginnen mit der folgenden Beobachtung.
Lemma 18.3 Für k, l ∈ Z gilt
hek , el i =
1
0
falls k = l,
falls k 6= l.
Beweis. Es gilt
hek , el i =
1
2π
2π
Z
exp(−ikx) · exp(ilx)dx =
0
Falls l = k, gilt exp(i(l − k)x) = 1 für alle x, somit
Falls l 6= k folgt aus Beispiel 18.1, daß hek , el i = 0.
R 2π
0
1
2π
Z
2π
exp(i(l − k)x)dx.
0
exp(i(l − k)x)dx = 2π und daher hek , el i = 1.
2
Für eine integrierbare Funktion f : [0, 2π] → R nennen wir die Zahlen
1
hek , f i =
2π
2π
Z
exp(−ikx)f (x)dx
mit k ∈ Z
0
die Fourierkoeffizienten. (Wenn f integrierbar ist, trifft dies auch auf die Funktion ēk · f zu; also macht es
Sinn, hek , f i zu schreiben.) Ferner heißt die Funktion [0, 2π] → C,
x 7→
∞
X
n
X
hek , f i · ek (x) = lim
n→∞
k=−∞
hek , f i · ek (x)
(53)
k=−n
die Fourierreihe von f .
Satz 18.4 Angenommen f : [0, 2π] → C ist integrierbar. Sei
Fn : [0, 2π] → C,
x 7→
n
X
hek , f i · ek (x).
(54)
k=−n
Dann gilt limn→∞ kf − Fn k2 = 0. Außerdem gilt
∞
X
2
hek , f i = kf k2 .
k=−∞
Satz 18.4 zeigt, daß die Fourierreihe (53) von f im quadratischen Mittel gegen f konvergiert. Das
bedeutet, daß man jede integrierbare Funktion (also insbesondere jede stückweise stetige Funktion) in
gewisser Weise durch ihre Fourierreihe “approximieren” kann.
18
FOURIERREIHEN
52
Abbildung 4: die Funktionen aus Beispiel 18.5: f (rot), F1 (blau), F3 (grün), F5 (orange).
Beispiel 18.5 Die Funktion
f : [0, 2π] → C,
x 7→
−1
1
falls x ≤ π,
falls x > π
ist eine Treppenfunktion und folglich integrierbar. Für die Funktionen Fn aus (54) rechnet man nach, daß
F1 (x)
=
F3 (x)
=
=
F5 (x)
=
=
2i
4
[exp(ix) − exp(−ix)] = − sin(x),
π π
2i 1
1
exp(3ix) + exp(ix) − exp(−ix) − exp(−3ix)
π 3
3
4
sin(3x)
−
sin(x) +
,
π
3
1
1
1
2i 1
exp(5ix) + exp(3ix) + exp(ix) − exp(−ix) − exp(−3ix) − exp(−5ix)
π 5
3
3
5
4
sin(3x) sin(5x)
−
sin(x) +
+
.
π
3
5
Abbildung 4 zeigt die Graphen der entsprechenden Funktionen.
Beispiel 18.5 zeigt, daß die Funktionswerte Fn (x) aus (54) nicht notwendigerweise in jedem Punkt x ∈
[0, 2π] gegen die Funktion f konverigeren. Das überrascht kaum, denn die Funktionen Fn sind periodisch,
was auf f nicht zuzutreffen braucht (und in Beispiel 18.5 nicht zutrifft).
Allerdings kann man unter gewissen Annahmen an die Funktion f eine “bessere” Art von Konvergenz
erhalten. Angenommen f : [0, 2π] → C und Fn : [0, 2π] → C, n ∈ N, sind Funktionen. Wir sagen, die
Folge von Funktionen (Fn )n∈N konvergiert gleichmäßig gegen f , wenn
lim
sup |f (x) − Fn (x)| = 0.
n→∞ x∈[0,2π]
Insbesondere muß also für alle x ∈ [0, 2π] gelten, daß limn→∞ Fn (x) = f (x).
Satz 18.6 Angenommen die Funktion f : [0, 2π] → C ist stetig differenzierbar und periodisch. Dann
konvergiert die Funktionenfolge (Fn )n∈N aus (54) gleichmäßig gegen f .
19
AUSBLICK: DIFFERENTIALRECHNUNG IM RN
53
Abbildung 5: die Funktionen aus Beispiel 18.7: f (rot), F1 (blau), F2 (grün), F3 (orange).
Beispiel 18.7 Sei f : [0, 2π] → C die Funktion x 7→ (x − π)2 . Man rechnet nach, daß
F1 (x)
=
F2 (x)
=
=
F3 (x)
=
=
π2
π2
+ 2 exp(−ix) =
+ 4 cos(x),
3
3
1
π2
1
exp(2ix) + 2 exp(ix) +
+ 2 exp(−ix) + exp(−2ix)
2
3
2
π2
+ 4 cos(x) + cos(2x),
3
2
1
π2
1
2
exp(3ix) + exp(2ix) + 2 exp(ix) +
+ 2 exp(−ix) + exp(−2ix) + exp(−3ix)
9
2
3
2
9
π2
4
+ 4 cos(x) + cos(2x) + cos(3x).
3
9
2 exp(ix) +
Abbildung 5 zeigt die Graphen der entsprechenden Funktionen.
Die Beweise von Satz 18.4 und 18.6 gehen über den Rahmen der Vorlesung hinaus. Der interessierte
Leser sei auf [4, Kapitel 23] verwiesen, wo sich auch weiteres Material zu Fourierreihen findet.
19
Ausblick: Differentialrechnung im Rn
Bisher haben wir uns mit Funktionen f : X → R von einer Teilmenge X ⊂ R in die reellen Zahlen
befaßt. Häufig treten aber auch Funktionen f : X → Rm von einer Teilmenge X ⊂ Rn in den Rm auf.
Wie können wir die Ableitung für solche Funktionen einführen?
Zunächst beobachten wir, daß die Funktion f : X → Rm in einzelne Funktion fi : X → R, i =
1, . . . , m, zerlegt werden kann. Denn f bildet jeden Punkt x ∈ X auf einen m-dimensionalen Vektor


f1 (x)
 .. 
 . 
fm (x)
ab.
19
AUSBLICK: DIFFERENTIALRECHNUNG IM RN
54
Abbildung 6: die Funktion aus Beispiel 19.1.
Sei nun x ∈ X. Zu jeder Zahl j = 1, . . . , n betrachten wir die Menge Xj,x aller u ∈ R, so daß


x1
xj,u
 .. 
 . 


xj−1 


=  u  ∈ X.
x 
 j+1 
 . 
 .. 
xn
(In Worten: wir können die j-te Koordinate durch u ersetzen, ohne die Menge X zu verlassen.) Dann
erhalten wir zu jedem i ∈ {1, . . . , m}, x ∈ X und j ∈ {1, . . . , n} eine Funktion
fi,j,x : Xj,x → R,
u 7→ fi (xj,u ).
Falls diese Funktion differenzierbar ist im Punkt xj , nennen wir ihre Ableitung die partielle Ableitung von
fi nach xj im Punkt x, geschrieben als
∂fi
0
(x) = fi,j,x
(xj ).
∂xj
Die partielle Ableitung erhält man also, indem man fi nach der j-ten Variable xj differenziert und die
anderen Variablen xh , h 6= j, als Konstanten betrachtet. Sofern alle Ableitungen existieren, nennt man die
m × n-Matrix
∂fi
(x)
Df (x) =
∂xj
i=1,...,m;j=1,...,n
die Jacobimatrix von f im Punkt x.
Wir haben gelernt, uns die Ableitung einer Funktion als Approximation der Funktion durch eine lineare
Abbildung vorzustellen. Das Konzept der Jacobimatrix paßt sehr gut in diese Vorstellung, weil eine Matrix
ja nichts andere als eine lineare Abbildung ist. Die Abbildung, Df : x 7→ Df (x), die einem Punkt x die
Jacobimatrix von f im Punkt x zuordnet (sofern diese existiert), nennen wir die Ableitung von f .
Beispiel 19.1 Die Funktion f : R2 → R sei definiert durch f xx12 = sin(x1 · x22 ). Ihre partiellen Ableitungen sind
∂f
∂f
= x22 · cos(x1 · x22 ),
= 2x1 x2 · cos(x1 · x22 ).
∂x1
∂x2
19
AUSBLICK: DIFFERENTIALRECHNUNG IM RN
55
Die Jacobimatrix ist also die 1 × 2-Matrix
Df (x) = (x22 · cos(x1 · x22 )
2x1 x2 · cos(x1 · x22 )).
Der Graph der Funktion für x1 , x2 ∈ [−2, 2] ist in Abbildung 6 skizziert.
Viele der Aussagen und Zusammenhänge, die wir in der “eindimensionalen” Differentialrechnung kennengelernt haben, lassen sich auf den mehrdimensionalen Fall verallgemeinern. Auch höhere Ableitungen
lassen sich einführen und die Taylorformel hat eine mehrdimensionale Verallgemeinerung. Details dazu
finden sich etwa in [2].
Als Anwendung der mehrdimensionalen Differentialrechung betrachten wir sogenannte “lineare dynamische Systeme”; der folgende Text folgt dem (englischen) Wikipedia-Artikel zu diesem Thema1 . Sei also
f : [0, 1] → Rn eine Funktion vom Ein- ins Mehrdimensionale. Wir können uns f als eine Kurve im Raum
vorstellen. Sei ferner A eine n × n-Matrix. Angenommen es gilt
Df (t) = A · f (t)
(55)
für alle t ∈ [0, 1]. Was können wir dann über f aussagen?
Angenommen die Matrix A hat eine Orthonormalbasis v1 , . . . , vn bestehend aus Eigenvektoren mit
den Eigenwerten k1 , . . . , kn . Dann können wir jeden Funktionswert f (t) schreiben als
f (t) =
n
X
ei (t) · vi
(56)
i=1
mit ei : [0, 1] → R. Differenzieren von f ergibt
Df (t) =
n
X
e0i (t) · vi ,
(57)
i=1
weil die Vektoren vi ja nicht von t abhängen. Setzt man ferner (56) in A · f (t) ein, so erhält man
A · f (t) =
n
X
ei (t) · ki vi .
(58)
i=1
Aus (55), (57) und (58) folgt also
n
X
e0i (t)
· vi =
i=1
n
X
ei (t) · ki vi .
(59)
i=1
Weil die Vektoren v1 , . . . , vn eine Basis bilden, zeigt (59)
e0i (t) = ki ei (t)
für i = 1, . . . , n.
(60)
Aufgrund unserer Kenntnis der Exponentialfunktion sehen wir also, daß
ei (t) = ci · exp(ki t)
(61)
für gewisse c1 , . . . , cn ∈ R. Setzen wir t = 0 in (61) ein, so ergibt sich
ci = ei (0) für i = 1, . . . , n.
Die Zahlen ci sind also durch die sogenannte “Anfangsbedingung” f (0) bestimmt. Umgekehrt erlaubt die
obige Herleitung die Lösung der Gleichung (55), also das Berechnen von f , sofern die Matrix A diagonalisierbar und die Anfangsbedingung f (0) bekannt ist.
1 http://en.wikipedia.org/wiki/Linear
dynamical system
LITERATUR
Literatur
[1] T. Bröcker: Analysis 1.
[2] T. Bröcker: Analysis 2.
[3] G. Fischer: Lineare Algebra.
[4] O. Forster: Analysis 1.
[5] G. Strang: Lineare Algebra.
56
Herunterladen