Skript - Institut für Algebra, Zahlentheorie und Diskrete Mathematik

Werbung
Lineare Algebra I
Prof.Dr. Stefan Wewers
Institut für Algebra, Zahlentheorie und Diskrete Mathematik
Leibniz-Universität Hannover
Vorlesung, gehalten im WS 07/08
Contents
1 Lineare Gleichungssysteme
1.1 Ein Beispiel: Netzwerkanalyse . . . . .
1.2 Ringe und Körper . . . . . . . . . . .
1.3 Das Eliminationsverfahren von Gauss
1.4 Analytische Geometrie . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
6
16
24
2 Vektorräume und lineare Abbildungen
2.1 Grundlegende Definitionen . . . . . . . . . .
2.2 Basis und Dimension . . . . . . . . . . . . .
2.3 Beispiel: Interpolation von Funktionswerten
2.4 Lineare Abbildungen und Matrizen . . . . .
2.5 Matrizenmultiplikation . . . . . . . . . . . .
2.6 Basiswechsel . . . . . . . . . . . . . . . . . .
2.7 Elementarmatrizen . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
44
55
60
64
70
73
3 Diagonalisieren
3.1 Lineare Rekursionsfolgen . . . . . .
3.2 Diagonalisierbare Endomorphismen
3.3 Determinanten . . . . . . . . . . .
3.4 Das charakteristische Polynom . .
3.5 Die komplexen Zahlen . . . . . . .
3.6 Orthogonale Matrizen . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
78
. 78
. 82
. 86
. 96
. 101
. 109
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Lineare Gleichungssysteme
1.1
Ein Beispiel: Netzwerkanalyse
Wir betrachten das folgende Modell eines elektrischen Schaltkreises.1 Die durchgezogenen Linien sind Leitungen. Die Kreise stehen für Spannungsquellen, die
Kästchen für Widerstände.
I1
R1
Uq1
?
I3
R3
I2 R2
?
U
? q2
Figure 1:
Die Buchstaben auf den Widerständen (R1 , R2 , R3 ) stehen für den Wert des
entsprechenden Widerstandes, gemessen in Ohm. Für uns (d.h. vom mathematischen Standpunkt aus) sind R1 , R2 , R3 einfach fest vorgegebene positive reelle
Zahlen.
Die Buchstaben neben den Spannungsquellen (Uq1 , Uq2 ) stehen für den Wert
der angelegten Spannung, gemessen in Volt. Allerdings sind Uq1 und Uq2 nicht
notwendigerweise positiv, oder – anders ausgedrückt – diese Werte haben ein
Vorzeichen. Damit wir das Vorzeichen richtig deuten können, ist neben der
Spannungsquelle zusätzlich ein Pfeil eingezeichnet, der die Ausrichtung der anliegenden Spannung anzeigt. Handelt es sich bei der Spannungsquelle z.B. um
eine Batterie, so würde man den Wert Uqi als positiv annehmen und den Pfeil
vom Plus- zum Minuspol ausrichten. Rein mathematisch betrachtet sind Uq1
und Uq2 einfach beliebige (aber fest vorgegebene) reelle Zahlen.
Schliesslich bezeichnen die Buchstaben I1 , I2 , I3 die Stärke des durch den
entsprechend nummerierten Widerstand fliessenden Stroms, gemessen in Ampere. Hierbei ist zu beachten, dass Stromstärke, genau wie Spannung, eine
vorzeichenbehaftete Grösse ist. Das Vorzeichen bestimmt die Richtung des
Stromflusses, und zwar folgendermassen. Ist Ii positiv, so fliesst der Strom in
die Richtung des im Bild 1.1 neben dem Widerstand Ri eingezeichneten Pfeiles.
Ist Ii dagegen negativ, so fliesst der Strom in die entgegengesetzte Richtung.
Problem 1.1.1 Man bestimme die Stromstärken I1 , I2 , I3 (in Abhängigkeit
von Ri und Uqj ).
1 Quelle:
Wikipedia, Stichwort Netzwerkanalyse (Elektrotechnik)
2
Wir werden sehen, dass dieses Problem auf ein lineares Gleichungssystem
hinausläuft. Um dieses Gleichungssystem aufstellen zu können, benötigt man
drei fundamentale Gesetze der Elektrotechnik. Das erste Gesetz lautet:
Das Ohmsche Gesetz: Fliesst durch einen Widerstand R der Strom I, und bezeichnet U den Spannungsabfall zwischen den beiden Enden des Widerstandes,
so gilt
U = R · I.
Man beachte wieder, dass Stromstärke genauso wie Spannungsabfall vorzeichenbehaftete Grössen sind, oder physikalisch gesprochen eine Richtung haben.
Da wir den Widerstand R als positiv annehmen, sind die Vorzeichen von U und
I gleich, d.h. der Spannungsabfall erfolgt in der Richtung des Stromflusses.
Das Ohmsche Gesetz ist ein typisches Beispiel für eine lineare Abhängigkeit
zwischen zwei physikalischen Grössen. Legt man an ein ektronisches Schaltelement eine (variable) Spannung U an und misst den resultierenden Strom I, so
ist der Quotient U/I unabhängig von U . Somit ist die Grösse R := U/I eine
Konstante des Schaltelementes, die man suggestiv Widerstand nennt.
Zurück zu unserem Schaltkreis in Bild 1.1. Es sei Ui der am Widerstand Ri
auftretende Spannungsabfall. Nach dem Ohmschen Gesetz gilt dann
U1 = R1 · I1 ,
U2 = R2 · I2 ,
U3 = R3 · I3 .
(1)
Die nächste Grundregel bezeichnet man auch als das 1. Kirchhoffsche Gesetz.
Die Maschenregel: Die Summe der Spannungsgewinne entlang eines geschlossenen Weges ist gleich Null. Dabei heben sich Spannungsgewinne und -verluste
gegenseitig auf.
Unser Schaltkreis hat offenbar zwei Maschen, d.h. nichttriviale geschlossene
Wege, die in Bild 1.1 durch das Symbol gekennzeichnet sind. Durchläuft man
diese Wege im Uhrzeigersinn und rechnet die erfahrenen Spannungsgewinne bzw.
-verluste auf, so führt uns die Maschenregel auf die beiden Gleichungen
U1 + U2 − Uq1 = 0,
−U2 − U3 + Uq2 = 0.
(2)
Die dritte Grundregel ist das 2. Kirchhoffsche Gesetz, auch genannt
Die Knotenregel: Die Summe der in einem Teilbereich des Netzwerkes zufliessenden Ströme ist gleich Null. Dabei heben sich zu- und abfliessende Ströme
gegenseitig auf.
Unser Schaltkreis hat zwei Knoten, d.h. Kreuzungspunkte von Leitungen.
Wir betrachten zunächst den oberen Knoten und wenden auf ihn die Knotenregel an. Gemäß dem folgenden Schema
3
I1
-
I3
I2 ?
erhalten wir die Gleichung
I1 − I2 + I3 = 0.
(3)
Offenbar liefert der zweite Knoten die äquivalente Gleichung−I1 + I2 − I3 = 0,
die wir nicht extra aufführen brauchen.2
Wir können jetzt die Gleichungen (1), (2) und (3) zu folgendem Gleichungssystem zusammenfassen.
R1 I1
I1
+
−
R2 I2
R2 I2
I2
+ R3 I3
+
I3
=
=
=
Uq1
Uq2
0.
(4)
Wir haben das Problem 1.1.1 auf das Lösen des Gleichungssystems (4)
zurückgeführt. Dies ist nun ein rein mathematisches Problem. Die Erfahrung
mit der physikalischen Wirklichkeit sagt uns, dass (4) eine eindeutige Lösung
haben sollte. Und tatsächlich kann man sich durch eine etwas längliche Rechnung oder durch Benutzen eines Computeralgebrasystems (wie z.B. Maple) davon
überzeugen, dass das Gleichungssystem (4) die eindeutige Lösung
(R2 + R3 )Uq1 − R2 Uq2
,
R1 R2 + R1 R3 + R2 R3
R3 Uq1 + R1 Uq2
I2 =
,
R1 R2 + R1 R3 + R2 R3
−R2 Uq1 + (R1 + R2 )Uq2
I3 =
.
R1 R2 + R1 R3 + R2 R3
I1 =
(5)
besitzt.
Das Gleichungssystem (4) ist ein Beispiel für ein lineares Gleichungssystem mit drei Gleichungen und drei Unbestimmten I1 , I2 , I3 . Wir werden sehr
bald lernen, wie man entscheiden kann, ob ein lineares Gleichungssystem eine
Lösung besitzt, ob diese Lösung eindeutig ist, und wie man sämtliche Lösungen
berechnen kann. Insbesondere kann man im vorliegenden Fall mit rein mathematischen Methoden zeigen, dass (4) eine eindeutige Lösung besitzt, die durch
(5) beschrieben wird.
1. Beobachtung: Das Rechnen von Hand ist meistens unpraktikabel.
Selbst bei einem so simplen Schaltkreis wie im Bild 1.1 ist die Lösung des
auftretenden Gleichungssystems schon so kompliziert, dass die Berechnung derselben von Hand sehr mühsam ist (probieren Sie es aus!). Schon in diesem einfachen Fall ist uns ein Computeralgebrasystem wie Maple haushoch überlegen.
2 Allgemein gilt, dass in einem Netzwerk mit k Knoten von den k resultierenden Gleichungen
immer eine überflüssig ist, aber die restlichen k − 1 Gleichungen voneinander unabhängig sind.
4
In der Praxis treten leicht Schaltkreise mit tausenden Schaltelementen auf. Es
versteht sich von selbst, dass hier ohne Einsatz eines Rechners gar nichts läuft.
Was können wir daraus lernen? Für das Lösen von Übungsaufgaben und das
erfolgreiche Bestehen der Klausuren ist ein gewisses Maß an Rechenfertigkeit
unerlässlich, und sie werden ausreichend Gelegenheit haben, dies zu trainieren.
Diese Rechentechnik ist aber allenfalls ein Nebenprodukt; das eigentliche Lernziel der Vorlesung ist etwas ganz anderes.
2. Beobachtung: Die Lösung des linearen Gleichungssystems (4) ist selbst
eines.
Wie ist das gemeint? Nun, wir können die Gleichungen (5) auch so schreiben:
R2 + R3
R2
· Uq1 +
· Uq2
R1 R2 + R1 R3 + R2 R3
R1 R2 + R1 R3 + R2 R3
R3
R1
· Uq1 +
· Uq2
R1 R2 + R1 R3 + R2 R3
R1 R2 + R1 R3 + R2 R3
R1 + R2
−R2
· Uq1 +
· Uq2
R1 R2 + R1 R3 + R2 R3
R1 R2 + R1 R3 + R2 R3
=
I1
=
I2
=
I3 .
In dieser Form können wir (5) als lineares Gleichungssystem in den Unbekannten
Uq1 , Uq2 auffassen, wenn wir Werte für I1 , I2 , I3 vorgeben. Das macht auch
physikalisch Sinn: wenn man z.B. die durch die Widerstände Ri fliessenden
Ströme Ii gemessen hat, kann man anhand von (5) die an den beiden Spannungsquellen anliegenden Spannungen Uqj bestimmen.
Dies ist tatsächlich eine Verallgemeinerung von etwas, das wir schon anhand
des Ohmschen Gesetzes beobachtet haben, nämlich die lineare Abhängigkeit
zwischen zwei Grössen. Dazu ist es zweckmässig, die drei Grössen I1 , I2 , I3 zu
einer zusammenzufassen, und zwar als Spaltenvektor:
 
I1
I := I2  .
I3
Mit den Spannungsquellen Uq1 und Uq2 wollen wir es ähnlich machen. Ein Blick
auf das Gleichungssystem (4) sagt uns, dass wir drei Einträge brauchen, wobei
der letzte Null sein muss:
 
Uq1
U := Uq2  .
0
Ausserdem schreiben wir die Koeffizienten auf der linken Seite von (4) in ein
rechteckiges Zahlenschema, Matrix genannt:


R1 R2 0
A :=  0 R2 R3 
1 −1 1
Mit diesen Bezeichnungen können wir nun das Gleichungssystem (4) in der Form
A·I = U
5
(6)
schreiben. Das Produkt A · I ist per definitionem der Spaltenvektor, dessen
Einträge die Ausdrücke auf der linken Seite von (4) bilden.
Die Vorteile dieser neuen Schreibweise sind offensichtlich: sie ist kürzer und
sie sieht formal genauso aus wie das Ohmsche Gesetz, U = R · I. Wie wir später
sehen werden lässt sich jede lineare Abhängigkeit zwischen zwei (vektorwertigen)
Grössen als eine Gleichung der Form (6) schreiben.
Wenn wir umgekehrt den Vektor I in Abhängigkeit des Vektors U betrachten
wollen, so ist es naheliegend, die Matrix A ‘auf die andere Seite zu bringen’, d.h.
wir möchten die Umformung
A·I = U
?
⇒
I = A−1 · U
durchführen. Ist das erlaubt bzw. führt so eine Umformung zu einem korrekten Ergebnis? Was bedeutet überhaupt A−1 ? Die Antwort werden wir bald
kennenlernen.
3. Beobachtung: Überlagerungen von Lösungen
1.2
Ringe und Körper
Wir setzen die folgenden Zahlbereiche als bekannt voraus.
• Die natürlichen Zahlen N = {1, 2, 3, . . .} (bzw. N0 = {0, 1, 2, 3, . . .}).
• Die ganzen Zahlen Z = {. . . , −2, −1, 0, 1, 2, . . .}.
• Die rationalen Zahlen Q = { ab | a, b ∈ Z, b 6= 0}.
• Die reellen Zahlen R (siehe Vorlesung Analysis I).
Es handelt sich jeweils um eine Menge mit zwei Verknüpfungen, die Addition
und die Multiplikation.
Wir wollen nun den Begriff eines Zahlbereiches formalisieren.
Definition 1.2.1 Sei G eine (nichtleere) Menge.
(i) Eine Verknüpfung auf G ist eine Abbildung ∗ : G×G → G.3 Schreibweise:
a ∗ b := ∗(a, b),
für a, b ∈ G.
(ii) Eine Verknüpfung ∗ : G × G → G heißt assoziativ, wenn für alle a, b, c ∈ G
gilt:
(a ∗ b) ∗ c = a ∗ (b ∗ c).
(iii) Eine Verknüpfung ∗ : G×G → G heißt kommutativ, wenn für alle a, b ∈ G
gilt:
a ∗ b = b ∗ a.
3 G × G bezeichnet das kartesische Produkt von G mit sich selbst, also die Menge aller
(geordneten) Paare (a, b) mit a, b ∈ G.
6
Beispiel 1.2.2 Die Addition + und die Multiplikation · auf der Menge der
natürlichen Zahlen sind beide sowohl assoziativ als auch kommutativ. Dasselbe
gilt für G = Z, Q oder R.
Beispiel 1.2.3 Sei G = R die Menge der reellen Zahlen. Wir definieren eine
Verknüpfung ∗ auf R durch die Vorschrift
a ∗ b :=
a+b
,
2
a, b ∈ R.
Offensichtlich ist ∗ kommutativ (weil + kommutativ ist). Aber ∗ ist nicht assoziativ: es gilt
(a ∗ b) ∗ c = a/4 + b/4 + c/2,
a ∗ (b ∗ c) = a/2 + b/4 + c/4.
Z.B. erhalten wir für a := 1, b := 0, c := 0 die Ungleichheit
(1 ∗ 0) ∗ 0 = 1/4 6= 1/2 = 1 ∗ (0 ∗ 0).
Beispiel 1.2.4 Sei X eine nichtleere Menge. Wir definieren G := Abb(X, X)
als die Menge aller Abbildungen f : X → X. Auf G definieren wir die
Verknüpfung ◦ : G × G → G durch die Vorschrift
(f ◦ g)(a) := f (g(a)),
a ∈ X.
Dann ist ◦ nicht kommutativ, wenn X mindestens drei verschiedene Elemente
enthält. Ist z.B. X = {1, 2, 3} und setzen wir


 1 7→ 3
 1 7→ 1
2 7→ 1 ,
2 7→ 1 ,
g :=
f :=


3 7→ 1
3 7→ 2
so erhält man

 1
2
f ◦g =

3

 1
2
g◦f =

3
7→ 2
7→ 1 ,
7→ 1
7→ 3
7→ 3 .
7→ 1
Man sieht dass f ◦ g 6= g ◦ f (weil z.B. f ◦ g(1) 6= g ◦ f (1)).
Andererseit ist ◦ assoziativ. Um das zu zeigen, wählen wir beliebige Elemente f, g, h ∈ G and a ∈ X und formen ein bischen um:
((f ◦ g) ◦ h)(a) = (f ◦ g)(h(a)) = f (g(h(a)))
= f ((g ◦ h)(a)) = (f ◦ (g ◦ h))(a).
Kurz gesagt: für alle a ∈ G gilt ((f ◦ g) ◦ h)(a) = (f ◦ (g ◦ h))(a). Das bedeutet
aber, dass die beiden Abbildungen (f ◦ g) ◦ h und f ◦ (g ◦ h) identisch sind4 . Da
f, g, h beliebige Elemente von G waren, haben wir gezeigt, dass ◦ assoziativ ist.
4 Sind X, Y Mengen und f, g : X → Y Abbildungen, so gilt f = g genau dann, wenn
f (a) = g(a) für alle a ∈ X gilt.
7
Definition 1.2.5 Sei G eine Menge und ∗ : G × G → G eine Verknüpfung.
(i) Ein neutrales Element (bzgl. ∗) ist ein Element e ∈ G mit der Eigenschaft,
dass für alle a ∈ G gilt:
a ∗ e = e ∗ a = a.
(ii) Sei e ein neutrales Element zu ∗ und sei a ∈ G. Ein inverses Element zu
a (bezüglich e) ist ein Element b ∈ G mit der Eigenschaft
a ∗ b = b ∗ a = e.
Proposition 1.2.6 Sei ∗ : G × G → G eine Verknüpfung.
(i) Es existiert höchstens ein neutrales Element bzgl. ∗. Insbesondere dürfen
wir (im Fall der Existenz) von dem neutralen Element reden und können
wir uns den Hinweis ‘bzgl. e’ beim Benennen eines inversen Elementes
sparen.
(ii) Angenommen, die Verknüpfung ∗ ist assoziativ und besitzt ein neutrales
Element e. Dann besitzt jedes Element a ∈ G genau ein inverses Element.
Beweis: Sind e, e′ zwei neutrale Elemente, so gilt zum einen
e · e′ = e
(weil e′ neutrales Element ist)
e · e′ = e′
(weil e neutrales Element ist).
zum anderen
′
Es folgt e = e . Damit ist (i) bewiesen.
Nun zum Beweis von (ii). Sei a ∈ G beliebig, und seien b, c ∈ G zwei inverse
Elemente zu a. Dann folgern wir:
b=b∗e
= b ∗ (a ∗ c)
(e ist neutrales Element)
(c ist Inverses von a)
= (b ∗ a) ∗ c
=e∗c
(∗ ist assoziativ)
(b ist Inverses von a)
=c
(e ist neutrales Element).
Insbesondere gilt b = c, und (ii) ist ebenfalls bewiesen.
2
Beispiel 1.2.7 Sei G := Z und ∗ = +. Die Null ist offensichtlich ein neutrales
Element zu +. Für a ∈ Z ist das Negative −a ∈ Z ein inverses Element zu a.
Beispiel 1.2.8 Sei G := Q und ∗ = · . Die Eins ist offensichtlich ein neutrales
Element zu · . Für eine rationale Zahl ab ∈ Q ungleich 0 ist ab ∈ Q ein inverses
Element. Die Null besitzt kein inverses Element bzgl. der Multiplikation, da
a
0 · = 0 6= 1
b
gilt, für alle
a
b
∈ Q.
8
Definition 1.2.9 Ein Ring ist eine Menge, zusammen mit zwei Verknüpfungen
+ : R × R → R,
(die Addition)
und
· : R × R → R,
(die Multiplikation),
die folgende Axiome erfüllen.
(i) Die Addition ist assoziativ und kommutativ.
(ii) Die Addition besitzt ein neutrales Element 0R , genannt das Nullelement.
(iii) Jedes Element a ∈ R besitzt ein (eindeutiges) inverses Element −a bzgl.
der Addition, genannt das Negative von a.
(iv) Die Multiplikation ist assoziativ.
(v) Es gelten die Distributivgesetze:
a · (b + c) = a · b + a · c,
(a + b) · c = a · c + b · c,
für alle a, b, c ∈ R.
Ein Ring (R, +, · ) heißt kommutativ, wenn auch die Multiplikation kommutativ
ist.
Ein neutrales Element der Multiplikation (wenn es existiert) heißt das Einselement, und wird 1R geschrieben.
Beispiel 1.2.10 (i) Die Mengen Z, Q und R, versehen mit der üblichen Addition und Multiplikation, sind kommutative Ringe mit einem Einselement.
(ii) Die Menge der natürlichen Zahlen N, versehen mit der üblichen Addition
und Multiplikation, erfüllt die Bedingungen (i), (iv) und (v). Die Bedingungen (ii) und (iii) sind beide nicht erfüllt, also ist (N, +, · ) kein
Ring.
Bemerkung 1.2.11 Sei (R, +, · ) ein Ring. Um uns Schreibarbeit zu sparen,
werden wir stillschweigend folgende Annahmen treffen bzw. folgende Schreibweisen benutzen.
(i) Wir nehmen grundsätzlich an, dass R ein Einselement 1R besitzt. Zwar
kommen in der Mathematik auch Ringe vor ohne Einselement, aber nicht
in dieser Vorlesung.
(ii) Wir schreiben meistens einfach 0 und 1 anstelle von 0R und 1R . Aber
natürlich nur, wenn aus dem Kontext klar hervorgeht, in welchem Ring
die Elemente 0 und 1 leben.
9
(iii) Wir nehmen immer an, dass 0 6= 1 gilt. Denn aus der Gleichheit 0 = 1
würde sofort folgen, dass der Ring nur aus dem Nullelement besteht (also
R = {0}), und das ist eher langweilig.
(iv) Wir benutzen u.a. die folgenden abkürzenden Schreibweisen (die man vom
Rechnen mit ‘normalen Zahlen’ gewohnt ist):
a+b+c
abc
statt
statt
ab + c
a−b
statt
statt
an
(a + b) + c,
(a · b) · c,
(a · b) + c,
a + (−b),
a
. . · a}, für n ∈ N
| · .{z
statt
n mal
usw. Die letzte Zeile legt uns auch die Schreibweise
n · a := a + . . . + a
| {z }
n mal
für a ∈ R und n ∈ N nahe. Hierbei muss man aber darauf achten, dass n
kein Element von R ist und es sich bei dem Ausdruck n · a nicht um die
Multiplikation von zwei Elementen aus R handelt.
Proposition 1.2.12 Sei (R, +, · ) ein Ring und a, b, c ∈ R drei beliebige Elemente.
(i) Aus der Gleichung
a+b=a+c
(7)
folgt die Gleichung b = c.
(ii) Es gelten folgende Regeln:
0·a = a·0
=
−(−a) =
(−1) · a = a · (−1) =
(−a) · (−b) =
0,
a,
−a,
a · b.
(8)
(9)
(10)
(11)
Beweis: Teil (i) der Proposition folgt aus der folgenden Kette von Umformungen:
b = (−a + a) + b = −a + (a + b) = −a + (a + c)
= (−a + a) + c = 0 + c = c.
Alternativ kann man das Argument auch so formulieren: man addiert zu beiden
Seiten der Gleichung (7) das Negative von a. Nach Kürzen ergibt sich die
Gleichung b = c.
10
Zum Beweis von (8) überlegt man sich zuerst, dass
0 · a = (0 + 0) · a = 0 · a + 0 · a,
für ein beliebiges Element a ∈ R. Wendet man auf diese Gleichheit die unter
(i) bewiesene Aussage an, so erhält man 0 · a = 0. Die Gleichung a · 0 = 0 zeigt
man auf analoge Weise, womit (8) bewiesen wäre.
Nach Definition ist −a das inverse Element zu a (bzgl. der Addition), d.h.
es gilt
a + (−a) = 0.
Man kann diese Gleichung aber auch lesen als: a ist das inverse Element zu
−a, d.h. a = −(−a), womit (9) bewiesen wäre. Man beachte, dass wir in
diesem Argument die Eindeutigkeit des inversen Elementes benutzt haben, vergl.
Proposition 1.2.6.
Zum Beweis von (10) führt man zuerst die folgenden Umformungen durch:
a + (−1) · a = 1 · a + (−1) · a = (1 + (−1)) · a = 0 · a = 0.
(Im letzten Schritt haben wir (8) benutzt!) Die obige Gleichheit zeigt, dass
(−1) · a das inverse Element von a bzgl. der Addition ist, also (−1) · a = −a
gilt. Die Gleichung a · (−1) = −a zeigt man wieder auf analoge Weise.
Der Beweis von (11) sei dem Leser als Übungsaufgabe überlassen.
2
Die Proposition 1.2.12 zeigt, dass in einem allgemeinen Ring viele uns von
den ganzen Zahlen vertraute Rechenregeln ebenfalls gelten, aber einer ausführlichen Begründung bedürfen. Es gibt aber auch ein paar Überraschungen. Z.B.
ist die im Ring der ganzen Zahlen geltende Ungleichung −1 6= 1 in vielen Ringen
falsch!
Unser eigentliches Ziel ist ja das Studium von linearen Gleichungssytemen.
Es ist möglich und durchaus sinnvoll, lineare Gleichungssysteme über sehr allgemeinen Ringen zu betrachten. Zu grosse Allgemeinheit führt hier aber schnell
zu Komplikationen. Deshalb werden wir uns in dieser Vorlesung meistens auf
einen bestimmten Typ von Ringen beschränken, die Körper.
Zur Illustration der Probleme betrachten wir den einfachsten Typ von linearen Gleichungssystemen: eine Gleichung in einer Unbekannten x:
a · x = b.
Hierbei sind a, b beliebige Elemente eines kommutativen Rings R. Falls a = 0
ist, so hat diese Gleichung entweder keine Lösung (im Fall b 6= 0) oder jedes
Element x ∈ R ist eine Lösung (im Fall b = 0). Man darf also getrost a 6= 0
annehmen.
Definition 1.2.13 Sei (R, +, · ) ein kommutativer Ring.
(i) Ein Element a ∈ R heißt Einheit, wenn a ein multiplikatives Inverses
besitzt (welches wir dann mit a−1 bezeichnen).
11
(ii) Ein Element a ∈ R heißt Nullteiler, wenn es ein Element b ∈ R, b 6= 0,
gibt mit
ab = 0.
Der Ring R heißt nullteilerfrei wenn 0 der einzige Nullteiler ist.
Bemerkung 1.2.14 Der Begriff Nullteiler ist etwas irreführend. Haben wir
allgemeiner zwei Elemente a, b ∈ R, so sagen wir dass a ein Teiler von b ist,
wenn die Gleichung
a·x=b
eine Lösung x ∈ R besitzt. Setzt man in diese Definition b = 0 ein, so folgt
sofort, dass jedes Element a ∈ R ein Teiler von 0 ist (denn obige Gleichung hat
ja die Lösung x = 0). Man nennt ein Element a aber nur dann einen Nullteiler,
wenn es eine Lösung x 6= 0 gibt.
Beispiel 1.2.15 Der Ring der ganzen Zahlen Z ist nullteilerfrei. Die Menge
der Einheiten von Z besteht nur aus den zwei Elementen 1, −1.
Proposition 1.2.16 Sei R ein kommutativer Ring, a, b ∈ R und a 6= 0.
(i) Ist R nullteilerfrei, so besitzt die Gleichung
a·x=b
(12)
höchstens eine Lösung x ∈ R.
(ii) Wenn a ein (multiplikatives) Inverses a−1 besitzt, so hat die Gleichung
(12) genau eine Lösung x ∈ R, nämlich x := a−1 b.
Beweis: Angenommen, der Ring R ist nullteilerfrei, und die Gleichung (12)
habe die Lösungen x = x1 und x = x2 ∈ R. Dann gilt
0 = b − b = a · x1 − a · x2 = a · (x1 − x2 ).
Wegen der Annahme a 6= 0 bedeutet dies aber, dass x1 − x2 ein Nullteiler ist.
Da R als nullteilerfrei angenommen wurde, folgt x1 = x2 . Es gibt also höchstens
eine Lösung von (12), und (i) ist bewiesen.
Zum Beweis von (ii) nehmen wir an, dass a ein Inverses a−1 besitzt. Ist
dann x ∈ R eine Lösung der Gleichung ax = b, so folgt
x = a−1 ax = a−1 b.
Dies legt den Wert der Lösung also eindeutig fest. Umgekehrt ist der Wert
x := a−1 b natürlich eine Lösung der Gleichung. Wir haben also die Existenz
und die Eindeutigkeit der Lösung gezeigt.
2
Definition 1.2.17 Ein Körper ist ein kommutativer Ring (K, +, · ) mit einem
Einselement 1 6= 0 und folgender Eigenschaft: jedes Element a 6= 0 ist eine
Einheit.
12
Beispiel 1.2.18 Die rationalen Zahlen Q und die reellen Zahlen R bilden einen
Körper. Der Ring Z ist kein Körper.
Bemerkung 1.2.19 Ein Körper K ist automatisch nullteilerfrei. Denn wenn
wir Elemente a, b ∈ R haben mit a 6= 0 und ab = 0, so folgt wie im Beweis von
Proposition 1.2.16 (ii) die Gleichung
b = a−1 · 0 = 0.
Zum Abschluss wollen wir noch zeigen, dass man einen nullteilerfreien kommutativen Ring R auf einfache Weise in einen Körper K einbetten kann. Diese
Konstruktion ist völlig analog (genauer: eine Verallgemeinerung von) dem Übergang von den ganzen Zahlen Z zu den rationalen Zahlen Q.
Sei also R ein nullteilerfreier und kommutativer Ring mit einem Einselement
1 6= 0. Das Beispiel der rationalen Zahlen legt uns nahe, den Körper K als die
Menge der Brüche über dem Ring R zu definieren,
K := {
a
| a, b ∈ R, b 6= 0 }.
b
(13)
Die Addition und Multiplikation definiert man ebenfalls so, wie man es von den
rationalen Zahlen gewohnt ist:
ad + bc
a c
+ :=
,
b
d
bd
a c
ac
· := .
b d
bd
(14)
Man beachte, dass aus b 6= 0 und d 6= 0 die Ungleichheit bd 6= 0 folgt, weil wir
annehmen, dass der Ring R nullteilerfrei ist. Jetzt muss man noch zeigen, dass
man mit solchen Brüchen so rechnen kann, wie man es gewohnt ist.
Die obige ‘Definition’ ist vom mathematischen Standpunkt aus sehr unbefriedigend, da man nicht präzise formuliert hat, was ein ‘Bruch’ eigentlich ist.
Für eine wirklich wasserdichte Definition benötigt man das folgende Konzept.
Definition 1.2.20 Sei M ein nichtleere Menge.
(i) Eine Relation auf M ist eine Teilmenge ∼ von M × M . Für a, b ∈ M
definieren wir
a ∼ b :⇔ (a, b) ∈∼ .
(ii) Eine Relation ∼ auf M heißt Äquivalenzrelation, wenn für alle a, b, c ∈ M
gilt:
a∼a
a∼b ⇒ b∼a
a ∼ b, b ∼ c ⇒ a ∼ c
(Reflexivität)
(Symmetrie)
(Transitivität).
Sind diese Bedingungen erfüllt, so sprechen wir die Beziehung ‘a ∼ b’ aus
als: a ist äquivalent zu b (bzgl. der Relation ∼).
13
(iii) Sei ∼ eine Äquivalenzrelation auf M . Eine nichtleere Teilmenge A ⊂ M
heißt Äquivalenzklasse (bzgl. ∼), wenn es ein Element a ∈ M gibt so, dass
A genau die Elemente von M enthält, die äquivalent zu a sind, d.h.
A = { b ∈ M | a ∼ b }.
In diesem Fall schreiben wir A = [a]∼ und nennen a einen Repräsentanten
der Äquivalenzklasse A. (Beachte: die Reflexivität impliziert a ∈ [a]∼ !)
Wir bezeichnen mit M/∼ die Menge aller Äquivalenzklassen (bzgl. ∼).
Der entscheidende Punkt ist:
Bemerkung 1.2.21 Sei M eine nichtleere Menge und ∼ eine Äquivalenzrelation auf M . Dann liegt jedes Element von M in genau einer Äquivalenzklasse
(bzgl. ∼). Für zwei Elemente a, b ∈ M gilt:
a ∼ b ⇔ [a]∼ = [b]∼ .
Beim Übergang von der Menge M zur Menge M/ ∼ geht also die Relation ∼
in die Relation = über.
Nun zurück zu unserer ursprünglichen Situation. Wir haben einen kommutativen und nullteilerfreien Ring R. Wir setzen
M := { (a, b) | a, b ∈ R, b 6= 0 }
und definieren die Relation ∼ auf M durch
(a, b) ∼ (c, d) :⇔ ad = bc.
Lemma 1.2.22 Die Relation ∼ ist eine Äquivalenzrelation.
Beweis: Reflexivität und Symmetrie sind klar. Um die Transitivität nachzuweisen, nehmen wir uns drei Elemente (a, b), (c, d), (e, f ) ∈ M her. Wir nehmen
an, dass (a, b) ∼ (c, d) und (c, d) ∼ (e, f ) gelten, was gleichbedeutend ist mit
ad = bc,
cf = de.
(15)
Der Trick ist nun, beide Seiten der erste Gleichungen mit f zu multiplizieren
und dann mithilfe der zweiten Gleichung umzuformen. Wir erhalten:
adf = bcf = bde,
woraus wir die Gleichung
d(af − be) = 0
schliessen. Aber R ist nach Voraussetzung ein nullteilerfreier Ring. Aus d 6= 0
folgt deshalb af = be, oder (a, b) ∼ (e, f ). Damit ist das Lemma bewiesen. 2
Jetzt können wir eine formale Definition des Körpers K wagen. Wir definieren
K := M/∼
14
als die Menge der Äquivalenzklassen bzgl. der Relation ∼. Für ein Element
(a, b) ∈ M schreiben wir die zugehörige Äquivalenzklasse als
a
:= [(a, b)]∼ ∈ K.
b
Ein Bruch ab ist also die Menge der Paare (a′ , b′ ) ∈ M mit ab′ = a′ b, und K ist
die Menge aller Brüche ab (wobei b 6= 0). Damit haben wir (13) präzise definiert.
Die Addition und die Multiplikation auf K sollen wie in (14) definiert sein.
Hier stossen wir auf das nächste Problem, die Wohldefiniertheit. Seien also
α, β ∈ K zwei Elemente aus K. Nach Definition von K gibt es Elemente
a, b, c, d ∈ R, b, d 6= 0, so dass α = ab , β = dc . Nach (14) möchten wir definieren:
α + β :=
ad + bc
,
bd
αβ :=
ac
.
bd
(16)
Auf der rechten Seite steht jeweils ein wohldefiniertes Element aus K (weil
bd 6= 0 ist). Es ist aber auf den ersten Blick nicht klar, dass diese Elemente
unabhängig von der Wahl der Darstellung α = ab , β = dc sind. Damit unsere
Definition von α+β und αβ überhaupt Sinn macht, müssen wir zuerst folgendes
zeigen:
Lemma 1.2.23 Gegeben (a, b), (a′ , b′ ), (c, d), (c′ , d′ ) ∈ M mit
a
a′
= ′
b
b
Dann gilt
c
c′
= ′.
d
d
und
ad + bc
a′ d′ + b′ c′
,
=
bd
b′ d′
ac
a ′ c′
= ′ ′.
bd
bd
(17)
Beweis: Nach Vorausetzung gelten die Gleichungen
ab′ = ba′ ,
cd′ = dc′ .
(18)
Durch Umformen erhalten wir
(ad + bc)b′ d′ = adb′ d′ + bcb′ d′
= (ab′ )dd′ + (cd′ )bb′
′
′
′
= (ba )dd + (dc )bb
′ ′
′
′ ′
= (a d + b c )bd.
(umsortieren)
(benutze (18))
(umsortieren)
Die resultierende Gleichung besagt gerade dass
ad + bc
a′ d′ + b′ c′
.
=
bd
b′ d′
Die erste Gleichung in (17) ist damit bewiesen. Die zweite Gleichung zeigt man
durch eine ähnliche Rechnung.
2
Mit dem Beweis des Lemmas ist gezeigt, dass durch (16) auf der Menge K
zwei Verknüpfungen, + und · , definiert sind.
15
Satz 1.2.24 Die oben definierte Menge K, zusammen mit den Verknüpfungen
+ und · , bildet einen Körper.
Wir nennen K den Quotientenkörper von R.
Beweis: Zunächst einmal ist zu zeigen, dass (K, +, · ) ein kommutativer
Ring mit Einselement ist. Es sind also insbesondere die Eigenschaften (i) bis (v)
der Definition 1.2.5 nachzuprüfen, plus die Kommutativität und die Existenz der
Eins. Das ist etwas mühselig, aber nicht schwierig, und sei dem Leser überlassen.
Wir weisen nur darauf hin, dass das Nullelement von K der Bruch 0K := 10 und
das Einselement der Bruch 1K := 11 ist.
Zeigen wir, dass K sogar ein Körper ist. Dazu sei α = ab ∈ K ein beliebiges
Element. Dann gilt α 6= 0 genau dann, wenn a 6= 0. In diesem Fall ist α−1 := ab
ein Inverses zu α, wegen
αα−1 =
ab
1
a b
· =
= = 1K .
b a
ab
1
Jedes von Null verschiedene Element von K ist demnach eine Einheit, also ist
K ein Körper.
2
Bemerkung 1.2.25 Die Abbildung
R → K,
a 7→
a
1
ist injektiv (aus a1 = 1b folgt a = b). Es ist üblich und nützlich, den Ring R
mit dem Bild obiger Abbildung zu identifizieren und somit als Teilmenge von
K aufzufassen. Mit anderen Worten: wir unterscheiden nicht zwischen dem
Element a ∈ R und dem Element a1 ∈ K.
Diese Konvention ist mit der Definition der Addition und der Multiplikation
auf K verträglich, wegen
a b
a+b
+ =
,
1 1
1
a b
ab
· = .
1 1
1
Mit anderen Worten: fassen wir R als Teilmenge des Körpers K auf, so ist die
Einschränkung der auf K definierten Addition und Multiplikation auf die Teilmenge R die übliche Addition und Multiplikation des Ringes R. Diese Aussage
formuliert man auch so: R ist ein Unterring von K.
1.3
Das Eliminationsverfahren von Gauss
Sei K ein Körper. Ein lineares Gleichungssystem über K ist von der Form
a1,1 x1
..
.
+
am,1 x1
+
...
...
+
+
16
a1,n xn
..
.
=
am,n xn
=
b1
..
.
bm .
(19)
Hierbei sind ai,j , bi Elemente von K und xj die Unbestimmten. Die Lösungsmenge
des Gleichungssystems (19) ist die Menge
Lös((19)) := {(x1 , . . . , xn ) | xj ∈ K, (19) ist erfüllt }.
Ein Gleichungssystem zu lösen bedeutet für uns, die Lösungsmenge zu bestimmen. Das kann auch bedeuten, die Nichtexistenz von Lösungen zu beweisen.
Das Eliminationsverfahren von Gauss liefert einen Algorithmus zum Lösen eines
beliebigen linearen Gleichungssystems.
Zunächst führen wir eine praktische Schreibweise für das Gleichungssystem
(19) ein. Die Koeffizienten ai,j schreiben wir in ein rechteckiges Schema, eine
Matrix:


a1,1 . . . a1,n

..  .
A :=  ...
. 
am,1
. . . am,n
Die Menge aller solcher (m, n)-Matrizen bezeichnen wir mit Mm,n (K).
Die Einträge bi und die Unbestimmten xj schreiben wir als Spaltenvektoren:
 
 
x1
b1
 .. 
 .. 
n
x :=  .  ∈ K ,
b :=  .  ∈ K m .
xn
bm
Man beachte, dass die Anzahl der Einträge im allgemeinen verschieden ist: b hat
m Einträge (die Anzahl der Zeilen von (19)) und x hat n Einträge (die Anzahl
der Unbestimmten).
Wir erklären das Produkt der Matrix A mit dem Spaltenvektor x durch die
Formel


a1,1 x1 + . . . + a1,n xn

..  ∈ K m .
A · x :=  ...
. 
am,1 x1
+
...
+
am,n xn
Hierbei ist es entscheidend, dass der Vektor x genau soviel Einträge hat wie die
Matrix A Spalten hat (nämlich n). Das Ergebnis ist ein Spaltenvektor mit m
Einträgen.
Mit dieser Vorbereitung können wir das lineare Gleichungssystem (19) jetzt
in die kompaktere, aber äquivalente Form
A·x =b
bringen. Die Lösungsmenge schreiben wir als
Lös(A, b) := { x ∈ K n | A · x = b }.
Wir nennen A die Koeffizientenmatrix des Gleichungssystems; hängt man an
A noch den Vektor b als letzte Spalte an, so spricht man von der erweiterten
17
Koeffizientenmatrix:

a1,1
 ..
à = (A, b) :=  .
am,1
...
a1,n
..
.
. . . am,n

b1
..  .
. 
bm
In ihr ist die gesamte Information über das Gleichungssystem enthalten.
Das Prinzip des Gauss’schen Eliminationsverfahrens besteht darin, das Gleichungssystems durch wiederholtes Anwenden von sogenannten Zeilenoperationen so weit zu vereinfachen, bis man die Lösungsmenge leicht angeben kann.
Definition 1.3.1 Sei A = (ai,j ) ∈ Mm,n (K) eine (m, n)-Matrix mit Einträgen
in einem Körper K. Eine elementare Zeilenoperation, angewendet auf A, liefert
eine Matrix A′ = (a′i,j ) ∈ Mm,n (K) und ist vom Typ (I), (II) oder (III), wie
folgt:
(I) A′ geht aus A hervor durch Multiplikation der i-ten Zeile mit einem Element λ 6= 0 von K, d.h.
(
λai,l , falls k = i,
′
ak,l :=
ak,l , falls k 6= i.
Hierbei sind i, k ∈ {1, . . . , m}, l ∈ {1, . . . , n}.
(II) A′ geht aus A hervor durch Addition des λ-fachen der iten Zeile auf die
jte Zeile, d.h.
(
aj,l + λai,l , für k = j,
′
ak,l :=
ak,l ,
für k 6= j.
Hierbei sind 1 ≤ i, j ≤ m verschiedene Indizes und λ ist ein beliebiges
Element von K.
(III) A′ geht aus A hervor durch Vertauschen der iten mit der jten Zeile,


aj,l , für k = i,
a′k,l := ai,l , für k = j,


ak,l , sonst.
Lemma 1.3.2 Sei A · x = b ein lineares Gleichungssystem über einem Körper
K, mit erweiterter Koeffizientenmatrix (A, b). Sei (A′ , b′ ) das Ergebnis einer
elementaren Zeilenoperation, angewendet auf (A, b). Dann haben die beiden
Gleichungssysteme A · x = b und A′ · x = b′ dieselbe Lösungsmenge:
Lös(A, b) = Lös(A′ , b′ ).
18
Beweis: Wir zeigen das Lemma exemplarisch für eine elementare Zeilenumformung vom Typ (II). Die anderen beiden Fälle sind einfacher und dem Leser
überlassen.
Schreibe A = (ak,l ) und b = (bk ). Es seien 1 ≤ i 6= j ≤ m und λ ∈ K.
Es sei ausserdem (A′ , b′ ) das Ergebnis der Zeilenoperation vom Typ (II) mit
Parameter i, j, λ, angewendet auf die erweiterte Koeffizientenmatrix (A, b).
Sei x = (xl ) ∈ Lös(A, b) eine Lösung von A · x = b, d.h. es gelten die
Gleichungen
a1,1 x1 + . . . + a1,n xn = b1
..
..
..
(20)
.
.
.
am,1 x1
+
...
+
am,n xn
=
bm .
Multiplizieren wir die ite Gleichung von (20) mit λ und addieren wir diese zur
jten Gleichung, so folgt, nach einer einfachen Umformung:
(aj,1 + λai,1 )x1 + . . . + (aj,n + λai,n )xn = bj + λbi .
(21)
Ersetzen wir in (20) die jte Zeile durch die Gleichung (21), so erhalten wir, in
Matrixschreibweise und nach Definition von (A′ , b′ ), die Gleichung
A′ · x = b′ .
Wir haben also gezeigt: aus A · x = b folgt A′ · x = b′ . Anders ausgedrückt:
Lös(A, b) ⊂ Lös(A′ , b′ ).
Nun überlegt man sich folgendes: wendet man auf (A′ , b′ ) eine Zeilenumformung vom Typ (II) mit Parameter (i, j, −λ), so erhält man die ursprüngliche
erweiterte Koeffizientenmatrix (A, b). Mit dem soeben ausgeführten Argument
folgt dann
Lös(A′ , b′ ) ⊂ Lös(A, b),
und insgesamt Lös(A, b) = Lös(A′ , b′ ).
2
Definition 1.3.3 Eine (m, n)-Matrix A = (ai,j ) über einem Körper K ist in
Zeilenstufenform, wenn sie folgende Form hat:


•


•


..


.
,

• 6= 0.
A = 

•




∗
0
Etwas genauer: es gibt eine ganze Zahl r mit 0 ≤ r ≤ m und r ganze Zahlen
j1 < j2 < . . . < jr , so dass gilt:
ai,1 = . . . = ai,ji −1 = 0,
ai,1 = . . . = ai,n = 0,
ai,ji 6= 0
19
für i = 1, . . . , r,
für i = r + 1, . . . , m.
Die von Null verschiedenen Einträge a1,j1 , . . . , ar,jr heißen die Angelpunkte von
A. Die Zahl r heißt der Zeilenrang von A.
Die Matrix A ist in normalisierter Zeilenstufenform, wenn, zusätzlich zu den
oben aufgeführten Bedingen, gilt:
a1,ji = . . . , ai−1,ji = 0,
ai,ji = 1,
für i = 1, . . . , r.
Das entsprechende Bild sieht also in etwa so aus:

1
0

1

..

.
A = 



0
0.
..
0
1




.



Man beachte, dass die Fälle r = 0 und r = m ausdrücklich zugelassen sind: im
ersten Fall ist A = 0, d.h. alle Einträge von A sind Null.
Ein weiterer interessanter Grenzfall tritt ein für m = n = r. Ist dann A in
normalisierter Zeilenstufenform, so gilt


1
0


..
A = En := 
.
.
0
1
Die Matrix En heißt die Einheitsmatrix vom Rang n.
Lemma 1.3.4 Sei A ∈ Mm,n (K) eine (m, n)-Matrix über einem Körper K.
Dann lässt sich A durch eine Folge von elementaren Zeilenumformungen in eine
Matrix A′ ∈ Mm,n (K) in normalisierter Zeilenstufenform umformen.
Beweis: Zum Beweis werden wir einen konkreten Algorithmus angeben, der
eine gegebene Matrix A = (ai,j ) schrittweise auf normalisierte Zeilenstufenform
bringt. Dabei werden wir die Namen A für die Matrix und ai,j für ihre Einträge
immer beibehalten, auch wenn sich letztere durch die laufenden Umformungen
geändert haben.
Ist A = 0, so ist A bereits in normalisierter Zeilenstufenform, und wir sind
fertig. Andernfalls gibt es mindesten einen Eintrag ai,j 6= 0. Setze
j1 := min{ j | es gibt ein i mit ai,j 6= 0 }
und wähle ein i1 mit ai1 ,j1 6= 0. Jetzt führen wir die folgenden Umformungen
aus:
• Falls i1 6= 1, vertausche die erste mit der i1 ten Zeile. Wir dürfen danach
annehmen, dass i1 = 1. Unser erster Angelpunkt ist der Eintrag a1,j1 6= 0.
• Multipliziere die erste Zeile von A mit a−1
1,j1 . Danach gilt a1,j1 = 1.
20
• Addiere das −ai,j1 fache der ersten Zeile zur iten Zeile, für i = 2, . . . , m.
Dadurch verschwinden die Einträge unterhalb des Angelpunktes a1,j1 = 1.
Die Matrix A hat nun die Form

0 ···
 ..
.
A=
.
 ..
0 ···
0 1
..
. 0
.. ..
. .
0 0

∗


,


∗ ···
B
wobei B eine gewisse (m − 1, n − j1 )-Matrix ist. Nun könnte es sein, dass
m = 1 oder j1 = n. In beiden Fällen ist die Matrix B leer und A ist bereits in
normalisierter Zeilenstufenform.
Wenn aber m > 1 und j1 < n gilt, so wenden wir das im letzten Abschnitt
beschriebene Verfahren auf die Matrix B an. Dabei führen wir aber die anfallenden Zeilenumformungen nicht einfach nur auf B aus, sondern auf die ganze
Matrix A. Hat man mit dieser Vorgehensweise Erfolg, so hat die Matrix A
anschliessend die Form


0 ··· 0 1 ∗ ··· ··· ∗
.. 
 ..
.
0 0
∗
.


 ..

.. ..
.
. .
1 ∗
,
A=
.

.. ..
 ..
. .
0 0


.
.. ..
..
.. 
 ..
. .
.
.
0
···
0
0 ···
0
0
d.h. sie ist in Zeilenstufenform, und die Angelpunkte haben alle den Wert 1.
Vom algorithmischen Standpunkt aus haben wir eine Prozedur beschrieben,
die sich u.U. selbst aufruft (ein sogenannter rekursiver Aufruf). Das ist erlaubt,
aber wir müssen uns klarmachen, dass obiges Verfahren nach endlich vielen
Schritten abbricht. Um das einzusehen, betrachtet man die Anzahl m der Zeilen
der Matrix, auf die man die Prozedur anwendet. Die Prozedur ruft nur dann
sich selbst auf, wenn m > 1, und in diesem Fall ist die Eingabe ein Matrix mit
m − 1 Zeilen. Daraus folgt, dass die Tiefe der rekursiven Aufrufe höchstens m
beträgt und das Verfahren tatsächlich nach endlich vielen Schritten abbricht.
Wir haben nun die Matrix A auf Zeilenstufenform gebracht und dafür gesorgt,
dass die Werte der Angelpunkte alle gleich 1 sind. Es ist nun klar, wie man durch
weitere elementare Zeilenumformungen vom Typ (II) erreichen kann, dass alle
Einträge oberhalb der Angelpunkte verschwinden.
2
Satz 1.3.5 Sei K ein Körper, m, n ∈ N, A ∈ Mm,n (K) und b ∈ K m . Wir
betrachten das lineare Gleichungssystem
A · x = b,
mit x ∈ K n . Dann können zwei verschiedene Fälle auftreten:
21
(i) Es gibt keine Lösung, d.h. Lös(A, b) = ∅.
(ii) Es gibt eine ganze Zahl s, 0 ≤ s ≤ n, und paarweise verschiedene ganze
Zahlen k1 , . . . , ks , 1 ≤ k1 < · · · < ks ≤ n, mit folgender Eigenschaft. Für
jedes s-Tupel (t1 , . . . , ts ) ∈ K s gibt es genau eine Lösung x = (x1 , . . . , xn ) ∈
K n der Gleichung A · x = b mit
xk1 = t1 , . . . , xks = ts .
Insbesondere erhalten wir eine Bijektion
∼
φ : K s → Lös(A, b),
(t1 , . . . , ts ) 7→ x = (x1 , . . . , xn ).
Im Fall (ii) des Satzes nennen wir die Unbestimmten xk1 , . . . , xkn−r die freien
Variablen und die übrigen Unbestimmten die gebundenen Variablen. Die Bijektion φ heißt Parametrisierung der Lösungsmenge, die Elemente ti heißen
Parameter.
Beweis: Nach Lemma 1.3.4 können wir die erweiterte Koeffizientenmatrix
(A, b) durch eine Folge von Zeilenumformungen zu einer Koeffizientenmatrix
(A′ , b′ ) umformen, so dass A′ in normalisierter Zeilenstufenform ist. Nach
Lemma 1.3.2 gilt ausserdem
Lös(A, b) = Lös(A′ , b′ ).
Nun sei r der Zeilenrang von A′ und seien j1 < . . . < jr die Spaltenindizes der
Angelpunkte von A′ . Setze s := n − r und sortiere die s Elemente der Menge
{1, . . . , n}\{j1 , . . . , jr } in aufsteigender Reihenfolge: k1 < . . . < ks . Stellen wir
jetzt das lineare Gleichungssystem A′ ·x = b′ auf und bringen die Unbestimmten
xk1 , . . . , xks auf die rechte Seite, so erhalten wir ein Gleichungssystem der Form
xj1 =
..
.
xjr =
b′1 − a′1,k1 xk1 − . . . − a′1,ks xks
..
.
b′r − a′r,k1 xk1 − . . . − a′r,ks xks
0 =
..
.
b′r+1
..
.
0 =
b′m .
Es können nun zwei verschiedene Fälle auftreten: entweder sind die Einträge
b′r+1 , . . . , b′m alle gleich Null, oder einer dieser Einträge ist ungleich Null. Wenn
letzteres zutrifft, so ist mindestens eine der obigen Gleichungen unerfüllbar, und
dann ist die Lösungsmenge leer:
Lös(A, b) = Lös(A′ , b′ ) = ∅.
Dies entspricht dem Fall (i) des Satzes. Andernfalls gilt b′r+1 = . . . , b′m = 0 und
die letzten m − r Gleichungen sind automatisch erfüllt und können weggelassen
22
werden. In diesem Fall ist es klar, dass man für die Unbestimmten xk1 , . . . , xks
beliebige Werte aus dem Körper K vorgeben kann, und dass dann mit dieser
Vorgabe eine eindeutige Lösung des Gleichungssystems existiert. Die Aussage
im Fall (ii) des Satzes sagt genau das.
2
Bemerkung 1.3.6 Man beachte, dass die Unterteilung in freie und gebundene
Variablen nicht nur von dem Gleichungssystem A · x = b, sondern vor allem von
den vorgenommenen Zeilenumformungen abhängt. Da es viele Möglichkeiten
gibt, eine Matrix auf Zeilenstufenform zu bringen, gibt es im allgemeinen auch
viele Möglichkeiten für die Wahl der freien Variablen.
Wir werden im zweiten Kapitel zeigen, dass zumindest die Anzahl s der
freien Variablen (bzw. der Parameter ti ) eindeutig durch das Gleichungssystem
bestimmt ist: sie entspricht der Dimension des Lösungsraumes.
Die Aussage von Satz 1.3.5 lässt sich noch verschärfen, wenn b = 0 gilt.
Definition 1.3.7 Ein homogenes lineares Gleichungssystem ist ein Gleichungssystem der Form
A · x = 0,
mit A ∈ Mm,n (K). Hierbei bezeichnet 0 den Nullvektor von K m , d.h. 0 :=
(0, . . . , 0) ∈ K m .
Offensichtlich hat ein homogenes lineares Gleichungssystem immer mindestens eine Lösung, nämlich den Nullvektor 0 := (0, . . . , 0) ∈ K n . Der Fall (i)
in Satz 1.3.5 tritt also nicht auf. Eine Lösung x ∈ Lös(A, 0), x 6= 0, heißt
nichttriviale Lösung.
Satz 1.3.8 Sei A ∈ Mm,n (K). Wenn m < n gilt, dann hat das homogene
Gleichungssystem
A·x =0
mindestens eine nichttriviale Lösung, x 6= 0. Ausserdem gilt für die Anzahl s
der freien Parameter (Bezeichnung wie in Satz 1.3.5):
s ≥ n − m > 0.
Beweis: Wie im Beweis von Satz 1.3.5 formen wir die erweiterte Koeffizientenmatrix (A, 0) so zu einer Matrix (A′ , b′ ), dass A′ in normalisierter Zeilenstufenform ist. (Man macht sich leicht klar, dass dann b′ = 0 gilt. Mit anderen Worten: ein homogenes Gleichungssystem bleibt unter Zeilenumformungen homogen.)
Sei r der Zeilenrang von A′ . Man beachte, dass r ≤ m und r ≤ n. Wie im
Beweis von Satz 1.3.5 ist dann s := n − r die Anzahl der freien Parameter der
Lösungsmenge. Wegen r ≤ m gilt dann
s ≥ n − m.
23
Gilt zusätzlich m < n, so folgt s > 0, und es gibt mindestens eine freie Variable
xk1 . Nach Satz 1.3.5 existiert dann eine Lösung x = (x1 , . . . , xn ) ∈ Lös(A, 0)
2
mit xk1 = 1 6= 0. Insbesondere gilt x 6= 0.
1.4
Analytische Geometrie
Als analytische Geometrie bezeichnet man heute meistens den Teil der linearen Algebra, der sich mit der Geometrie der Ebene und des dreidimensionalen
Raumes beschäftigt. Dies war der historische Ursprung der linearen Algebra.
Das Beispiel aus §1.1 zeigt aber, dass moderne Anwendungen meistens nicht
auf drei Dimensionen beschränkt sind und nicht notwendigerweise einen geometrischen Hintergrund haben. Trotzdem ist die geometrische Anschauung für
ein intuitives Verständnis der Begriffe der linearen Algebra unerlässlich.
Bevor wir also im nächsten Kapitel die grundlegenden Begriffe wie Vektorraum und lineare Abbildung offiziel und in abstrakter Weise definieren werden,
wollen wir sie zunächst geometrisch motivieren.
Der euklidische Standardraum
Die Elemente des Euklid waren bis zum Beginn der Neuzeit das Standardwerk der Mathematik und insbesondere der Geometrie; in ihnen ist praktisch
das gesamte mathematische Wissen und Denken der griechischen Antike zusammengefasst. Der Einfluss der Elemente auf Mathematik, Philosophie und Wissenschaft ist enorm. Wir wollen hier zwei wesentliche Aspekte hervorheben.5
• Die Mathematik wird als eine deduktive Wissenschaft aufgebaut; am Anfang stehen einige wenige Axiome, aus denen dann alles andere durch
logische Schlüsse abgeleitet wird.
• Die Algebra wird aus der Geometrie heraus begründet. Z.B. werden rationale Zahlen einfach als Längenverhältnisse von Strecken definiert, die
man durch gewisse geometrische Konstruktionen erhalten kann. (Die
Begründung der reellen Zahlen bereit massive Probleme und ist nicht allgemein gelungen.)
Der erste Punkt bestimmt auch heute noch unseren Zugang zur Mathematik
als Wissenschaft. Beim zweiten Punkt fand aber ab dem 17. Jahrhundert ein
Umdenken und eine Abkehr von den Grundsätzen der Elemente statt, dessen
Ergebnis vielleicht noch bedeutsamer ist als der Einfuss der Elemente selbst.
Das entscheidende Ereignis war wohl die Einführung von Koordinatensystemen durch René Descartes in seinem Hauptwerk Discours de la méthode (1637).
Durch diese Entdeckung wurde es möglich, die Geometrie aus der Algebra heraus
zu begründen. Dieser Standpunkt ist vielleicht weniger elegant als der von Euklid und philosophisch unbefiedigend, hat aber unschätzbare praktische Vorteile.
5 Für eine kritische Betrachtung siehe Euklid: Die Elemente – eine Übersicht, Vorlesungsskript von G.-D. Geyer SS 2001, Erlangen, oder Euklid und die Elemente, Norbert
Froese, 2007.
24
Oft kann man geometrische Fragestellungen in eine Rechenaufgabe übersetzen
und dann mit numerischen Methoden lösen. Im Zeitalter der digitalen Datenverarbeitung ist dieser Vorteil sogar noch viel grösser als zu Descartes Zeit.
Ganz im Sinne von Descartes gehen wir also vom Körper der reellen Zahlen
aus und definieren:
Definition 1.4.1 Sei n ∈ N eine natürliche Zahl. Der Euklidische Standardraum der Dimension n ist die Menge Rn aller n-Tupel von reellen Zahlen.
Für n ≤ 3 kann man sich diesem Raum leicht geometrisch veranschaulichen.
Die reellen Zahlen R stellt man sich als ‘Zahlengerade’ vor:
0
1
-
Für n = 2 identifiziert man R2 mit einer Ebene, in der man ein Koordinatensystem gewählt hat, wie folgt. Zu einem Punkt P in der Ebene assoziert man
das Paar (x1 , x2 ) ∈ R2 , indem man von P aus das Lot auf beide Koordinatenachsen fällt, welche man als Zahlengerade mit der Menge der reellen Zahlen
identifiziert.
6
x2
P = (x1 , x2 )
x1
-
Wir nennen R2 deshalb auch die Euklidische Standardebene.
Analog verfährt man mit R3 , das man mit dem dreidimensionalen Raum
mit drei Koordinatenachsen identifiziert. Für den Moment bleiben wir aber in
Dimension zwei.
Definition 1.4.2 Eine Gerade in der Standardebene R2 ist die Lösungsmenge
einer (nichttrivialen) linearen Gleichung,
L = { (x1 , x2 ) ∈ R2 | ax1 + bx2 = c }.
Hierbei sind a, b, c ∈ R und (a, b) 6= (0, 0).
25
Wir wollen im folgenden mit den Methoden des letzten Abschnittes illustrieren, dass der soeben definierte Begriff einer Geraden mit der geometrischen
Anschauung übereinstimmt.
Sei also L ⊂ R2 eine Gerade, gegeben durch die Gleichung
ax1 + bx2 = c.
Eine Gleichung ist auch ein Gleichungssystem, also können wir den GaussAlgorithmus anwenden. Der ist in diesem Fall so einfach, dass wir in einem
Schritt das Ergebnis angeben können. Allerdings ist eine Fallunterscheidung
notwendig. Ist a 6= 0, so erhalten wir die äquivalente Gleichung
x1 =
c
b
− · x2 .
a a
Wir fassen also x2 als freie und x1 als gebundene Variable auf und erhalten die
Parametrisierung
b
c
∼
φ : R → L,
t 7→ ( − · t, t).
a a
∼
Die Umkehrabbildung φ−1 : L → R entspricht geometrisch der Projektion von
L auf die x2 -Achse. Wenn b 6= 0, so können wir auch so umformen:
x2 =
c a
− · x1 .
b
b
Die entsprechende Parametrisierung
∼
φ′ : R → L,
t 7→ (t,
c a
− · t)
b
b
entspricht der Projektion auf die x1 -Achse.
x2
6
(2, 2)
(0, 1)
(−2, 0)
x1
-
Figure 2: Die Gerade L : x1 − 2x2 = −2
26
Der Fall a 6= 0, b 6= 0 ist ein Beispiel für die Bemerkung 1.3.6: man kann
sowohl x1 als auch x2 als freien Parameter wählen. Die Anzahl der freien Parameter ist aber in beiden Fällen 1. Dies entspricht der Vorstellung von einer
Geraden als ein ‘eindimensionales Objekt’.
Die Grenzfälle a = 0 (bzw. b = 0) beschreiben eine Gerade, die parallel zur
x1 -Achse (bzw. parallel zur x2 -Achse) liegt. Es ist klar, dass in diesem Fall nur
x1 (bzw. x2 ) als freie Variable in Frage kommt.
Als Ergebnis der obigen Diskussion wollen wir folgendes festhalten.
Proposition 1.4.3 Eine Teilmenge L ⊂ R2 der Ebene ist genau dann eine
∼
Gerade, wenn es eine Bijektion φ : R → L gibt der Form
∼
φ : R → L,
t 7→ (u1 + v1 t, u2 + v2 t),
mit gewissen reellen Zahlen u1 , u2 , v1 , v2 ∈ R, wobei (v1 , v2 ) 6= (0, 0).
Beweis: Angenommen, L ⊂ R ist eine Gerade, also die Lösungsmenge einer
Gleichung der Form
ax1 + bx2 = c,
mit (a, b) 6= (0, 0). Die obige Diskussion zeigt: wenn a 6= 0, so existiert die
geforderte Parametrisierung φ, wobei
u1 :=
c
,
a
b
v1 := − ,
a
u2 := 0,
v2 := 1.
Wenn a = 0 so gilt zumindest b 6= 0, und wir können ebenfalls eine explizite
Parametrisierung φ′ angeben.
∼
Nehmen wir umgekehrt an, dass es eine Bijektion φ : R → L gibt, wobei
φ(t) = (u1 + v1 t, u2 + v2 t) und (v1 , v2 ) 6= 0. Wir setzen
a := v2 ,
b := −v1 ,
c := u1 v2 − u2 v1 ,
und wollen zeigen, dass L die Lösungsmenge der Gleichung ax1 + bx2 = c, also
eine Gerade ist. Mit anderen Worten: ein Punkt (x1 , x2 ) ∈ R2 ist genau dann
eine Lösung der Gleichung ax1 + bx2 = c, wenn es ein t ∈ R gibt mit
x1 = u1 + v1 t,
x2 = u2 + v2 t.
Der Beweis dieser Aussage ist dem Leser als Übungsaufgabe überlassen.
2
∼
Eine Bijektion φ : R → L wie in Proposition 1.4.3 heißt eine Parametrisierung
oder eine Parameterdarstellung der Geraden L.
Jetzt wenden wir uns dem Problem zu, das Verhältnis zweier Geraden zueinander zu studieren.
Proposition 1.4.4 Es seien L1 , L2 ⊂ R2 Geraden in der Ebene. Dann können
nur die folgenden drei Fälle eintreten.
27
(i) L1 = L2 ,
(ii) L1 und L2 schneiden sich in genau einem Punkt, oder
(iii) L1 und L2 schneiden sich in keinem Punkt.
Beweis: Die Geraden L1 , L2 sind nach Definition Lösungsmenge einer linearen Gleichung in den Unbestimmten x1 , x2 . Die Schnittmenge L1 ∩ L2 ist demnach die Lösungsmenge eines linearen Gleichungssystems mit zwei Gleichungen:
a1 x1 + b1 x2 = c1 ,
a2 x1 + b2 x2 = c2 .
(22)
mit ai , bi , ci ∈ R und (ai , bi ) 6= (0, 0). Die erste Zeile von (22) entspricht der
Geraden L1 , die zweite Zeile der Geraden L2 .
Wir wenden nun auf (22) das Gauss-Verfahren an. Dabei ist eine Fallunterscheidung nötig, z.B. a1 6= 0 oder b1 6= 0. Die beiden Fälle sind sich aber so
ähnlich, dass die Betrachtung des ersten Falles a1 6= 0 hier genügen soll.
Sei also a1 6= 0. Wendet man das Gauss’sche Eliminationsverfahren auf (22)
an, so erhält man nach zwei Schritten das äquivalente Gleichungssystem
c1
b1
· x2 =
a1
a1
a2 b 1
a 2 c1
(b2 −
) · x2 = c2 −
a1
a1
x1 +
(23)
(24)
An dieser Stelle ist eine erneute Fallunterscheidung nötig.
Fall 1: a1 b2 = a2 b1 .
Die Gleichung (24) ist dann äquivalent zu der Gleichung
a 1 c2 = a 2 c1 .
(25)
die gar nicht mehr von x1 , x2 abhängt.
Fall 1 (a): a1 b2 = a2 b1 und a1 c2 = a2 c1 .
In diesem Fall verschwindet die Gleichung (24) vollständig, und es bleibt nur
die erste Gleichung übrig. Geometrisch bedeutet das, dass die Schnittmenge
L1 ∩ L2 identisch mit der Geraden L1 ist, oder äquivalent: L2 ⊂ L1 .
Unsere Anschauung sagt uns, dass eine Gerade nur dann Teilmenge einer
anderen Geraden sein kann, wenn beide Geraden gleich sind. Also sollte sogar
L1 = L2 gelten. Da wir uns aber nicht auf unsere Anschauung verlassen wollen,
müssen wir diese Aussage beweisen. Das geht z.B. so. Wenn a2 = 0 wäre, so
würde aus a1 b2 = a2 b1 und a1 6= 0 folgen, dass auch b2 = 0. Das widerspricht
aber der Annahme, dass die zweite Gleichung in (22) die Gerade L2 beschreibt
(siehe Definition 1.4.2). Also gilt a2 6= 0, und die reelle Zahl λ := a−1
1 a2 ist
ebenfalls von Null verschieden. Aus den beiden Gleichungen a1 b2 = a2 b1 und
a1 c2 = a2 c1 folgt nun, dass die zweite Gleichung in (22) das λ-fache der ersten
Gleichung ist. Also sind beide Gleichungen äquivalent und es gilt L1 = L2 . Dies
ist Fall (i) in der Aussage von Proposition 1.4.4.
28
Fall 1 (b): a1 b2 = a2 b1 und a1 c2 6= a2 c1 .
In diesem Fall ist die Gleichung (24) unlösbar. Das bedeutet, dass die Schnittmenge
L1 ∩ L2 die leere Menge ist und entspricht dem Fall (iii) aus Proposition 1.4.4.
Fall 2: a1 b2 6= a2 b1 .
In diesem Fall kann man das Gauss-Verfahren weiterführen und erhält nach
einer kurzen Rechnung die eindeutige Lösung
x1 =
b 2 c1 − b 1 c2
,
a1 b 2 − a2 b 1
x2 =
a 1 c2 − a 2 c1
.
a1 b 2 − a2 b 1
Insbesondere besteht die Schnittmenge L1 ∩ L2 aus genau einem Punkt, dessen
Koordinaten durch die obigen Gleichungen gegeben sind. Dies entspricht dem
Fall (ii) aus Proposition 1.4.4.
2
Definition 1.4.5 Zwei Geraden L1 , L2 in der Ebene heißen parallel, wenn entweder L1 = L2 gilt oder wenn sich L1 und L2 nicht schneiden (Fall (i) und (iii)
aus Proposition 1.4.4).
Der Beweis von Proposition 1.4.4 zeigt: die beiden Geraden
L1 : a1 x1 + b1 x2 = c1 ,
L2 : a2 x1 + b2 x2 = c2 ,
sind genau dann parallel, wenn die Gleichung
a1 b 2 = a2 b 1
erfüllt ist. Ist dies der Fall, so kann man die Gleichung für L2 durch Multiplikation mit einer von Null verschiedenen reellen Zahl in eine äquivalente Gleichung
der Form
L2 : a1 x1 + b1 x2 = c′2
umwandeln. Dieses Argument zeigt:
Bemerkung 1.4.6 Zwei Geraden
L1 : a1 x1 + b1 x2 = c1 ,
L2 : a2 x1 + b2 x2 = c2 ,
sind genau dann parallel, wenn die beiden zugehörigen homogenen Gleichungssysteme äquivalent sind:
a1 x1 + b1 x2 = 0 ⇔ a2 x1 + b2 x2 = 0.
Geometrisch können wir diese Bemerkung folgendermassen interpretieren.
Ist die Gerade L ⊂ R2 durch die Gleichung ax1 + bx2 = c gegeben, so ist die
Lösungsmenge L′ der assoziierten homogenen Gleichung,
L′ = {(x1 , x2 ) ∈ R2 | ax1 + bx2 = 0 },
die eindeutige zu L parallele Gerade, die den Nullpunkt (0, 0) enthält.
Wenden wir uns nun dem dreidimensionalen Raum R3 zu.
29
Definition 1.4.7 Eine Ebene im R3 ist die Lösungsmenge einer linearen Gleichung,
E = { (x1 , x2 , x3 ) ∈ R3 | ax1 + bx2 + cx3 = d },
mit a, b, c, d ∈ R und (a, b, c) 6= (0, 0, 0).
Wie im Fall der Geraden sieht man leicht ein, dass jede Ebene E ⊂ R3 eine
Parametrisierung
∼
φ : R2 → E
mit zwei Parametern besitzt. Dies entspricht unserem Verständnis von einer
Ebene als einem zweidimensionalen Objekt.
Definition 1.4.8 (i) Zwei Ebenen E1 , E2 heißen parallel wenn entweder E1 =
E2 oder E1 ∩ E2 = ∅ gilt.
(ii) Eine Teilmenge L ⊂ R3 heißt Gerade, wenn sie Schnittmenge zweier nichtparalleler Ebenen ist.
Mit anderen Worten: eine Gerade L ⊂ R3 ist Lösungsmenge eines linearen Gleichungssystems mit drei Unbestimmten und zwei ’voneinander unabhängigen’ Gleichungen, d.h.
a1 x1 + b1 x2 + c1 x3
=
d1 ,
a2 x1 + b2 x2 + c2 x3
=
d2 ,
wobei ai , bi , ci , di ∈ R, (ai , bi , ci ) 6= (0, 0, 0) die Eigenschaft haben, dass es keine
λ ∈ R gibt mit
a2 = λa1 , b2 = λb1 , c2 = λc1 .
Wendet man auf so eine Gleichungssystem den Gauss-Algorithmus an, so erhält
man eine Parametrisierung der Geraden L mit genau einem freien Parameter,
∼
φ : R → L.
Dies entspricht wieder unserer Anschauung von einer Geraden als einem eindimensionalen Objekt.
Nach diesen Betrachtungen in Dimension zwei und drei können wir nun eine
allgemeine Definition wagen.
Definition 1.4.9 Sei n ∈ N. Eine nichtleere Teilmenge H ⊂ Rn des n-dimensionalen Standardraumes heißt linearer Unterraum, wenn sie Lösungsmenge
eines linearen Gleichungssystems ist, also
H = { x ∈ Rn | A · x = b },
mit A ∈ Mm,n (R) und b ∈ Rm .
Die Dimension eines linearen Unterraumes H ⊂ Rn ist die Anzahl s der
freien Parameter einer Parametrisierung,
∼
φ : Rs → H,
30
wie man sie durch Anwenden des Gauss-Algorithmus auf das Gleichungssystem
A · x = b erhält.
Ein linearer Unterraum der Dimension eins heißt Gerade, ein linearer Unterraum der Dimension zwei heißt Ebene.
Offenbar enthält diese Definition die Definitionen 1.4.2, 1.4.7 und 1.4.8 (ii)
als Spezialfall. Trotzdem gibt es eine Menge auszusetzen.
Ein erster Kritikpunkt ist, dass wir die Wohldefiniertheit der Dimension
eines linearen Unterraumes noch nicht überprüft haben. Schliesslich ist die
∼
Parametrisierung φ : Rs → H nicht eindeutig durch die Teilmenge H ⊂ Rn
bestimmt. Sie hängt unter anderem von der Wahl des Gleichungssystems A·x =
b und von den bei der Durchführung des Gauss-Algorithmus vorgenommenen
Zeilenumformungen ab. Es ist eine nichttriviale und sehr wichtige Tatsache, dass
die Zahl der freien Parameter aber nur von H ⊂ Rn abhängt (vgl. Bemerkung
1.3.6).
Eine weitere Unzulänglichkeit der Definition 1.4.9 besteht darin, dass sie
den Begriff des linearen Unterraumes nicht durch geometrische Eigenschaften
charakterisiert. Stattdessen wird die Existenz eines linearen Gleichungssystems
gefordert, für welches es aber keinerlei natürlichen Kandidaten gibt. Denkt man
z.B. an den oben besprochenen Fall einer Geraden im R3 , so ist anschaulich klar,
dass es unendlich viele Möglichkeiten gibt, eine Gerade als Schnittmenge zweier
Ebenen darzustellen. Eine bestimmte Auswahl solcher Ebenen zu treffen ist
aber eher unnatürlich.
Im Folgenden wollen wir eine geometrische Charakterisierung von linearen
Unterräumen durch Vektoren entwickeln und damit den allgemeinen Begriff des
Vektorraumes, den wir im nächsten Kapitel behandeln werden, vorbereiten und
motivieren.
Der Vektorbegriff
Um den geometrischen Begriff Vektor klar zu fassen, ist es zunächst hilfreich,
streng zwischen Punkten und Vektoren zu unterscheiden (diese Unterscheidung
werden wir aber sehr bald wieder aufgeben). Wir gehen also von einem gegebenen Raum aus, dessen Elemente Punkte sind, die wir mit P, Q usw. bezeichnen.
Wir gehen ebenfalls davon aus, dass in unserem Raum die Gesetze der euklidischen Geometrie gelten. Die Beziehung zwischen Punkten und Vektoren ist
dann folgende:
• Zwei Punkte P, Q legen einen Vektor fest. Schreibweise:
x := P~Q.
Man kann sich den Vektor x = P~Q als einen Pfeil mit Anfangspunkt P
und Endpunkt Q vorstellen.
• Ist ein Punkt P und eine Vektor x gegeben, so gibt es genau einen Punkt
Q mit der Eigenschaft x = P~Q.
31
Q
3
x
3 Q′
P
x
P′
Figure 3:
• Zwei Punktepaare (P, Q) und (P ′ , Q′ ) definieren denselben Vektor, also
P~Q = P ~′ Q′ ,
wenn der Pfeil von P nach Q mit dem Pfeil von P ′ nach Q′ durch eine
Parallelverschiebung in Deckung gebracht werden kann.
Sind z.B. drei paarweise verschiedene Punkte P, P ′ , Q gegeben, die nicht alle
auf einer Geraden liegen, und setzt man x := P~Q, so gibt es nach der zweiten
Regel einen vierten Punkt Q′ mit x = P ~′ Q′ . Die Strecken P Q und P ′ Q′ bilden
dann gegenüberliegende Kanten eines Parallelogramms, siehe Bild 1.4.
Aus den geometrischen Eigenschaften von Vektoren ergeben sich zwei Operationen, die Vektoraddition und die Multiplikation mit einem Skalar. Sind
zwei Vektoren x, y gegeben, so kann man einen dritten Vektor, z = x + y, folgendermassen definieren. Man wählt einen beliebigen Punkt P . Dann gibt es
einen eindeutigen Punkt Q so dass x = P~Q. Weiterhin gibt es einen eindeuti~ Wir definieren jetzt die Vektoraddition von x und y
gen Punkt R mit y = QR.
durch die Vorschrift
x + y := P~R.
Man kann mit rein geometrischen Argumenten zeigen, dass die so definierte
Vektoraddition eine assoziative und kommutative Verknüpfung auf der Menge
aller Vektoren definiert. Darauf wollen wir hier aber verzichten.
Wir definieren den Nullvektor durch die Vorschrift 0 := P~P (die Wahl des
Punktes P spielt hierbei keine Rolle). Es ist klar, dass 0 ein neutrales Element
bzgl. der Vektoraddition ist, und dass jeder Vektor ein inverses Element −x
~ .
besitzt: für x = P~Q gilt −x = QP
Eine formale Begründung der Multiplikation eines Vektors mit einem Skalar
(i.e. einer reellen Zahl) durch rein geometrische Argumente ist viel schwieriger.
Wir begnügen uns mit der folgenden Pseudodefinition. Ist x ein Vektor und
t > 0 eine positive relle Zahl, so definieren wir den Vektor t · x als den Vektor,
der dieselbe ‘Richtung’ wie x hat, dessen ‘Länge’ aber das t-fache der ‘Länge’
von x ist. Ist t < 0 so setzen wir t · x := −|t| · x, und für t = 0 setzen wir
0 · x := 0.
32
E
P
3
x
z
R = φ(t1 , t2 )
:
O
y j
Q
Figure 4:
Jetzt haben wir genügend Hilfsmittel zur Hand, um den Begriff des linearen
Unterraumes neu zu begründen. Dazu betrachten wir das folgende Beispiel. Es
seien drei paarweise verschieden Punkte O, P, Q gegeben, die nicht alle auf einer
Geraden liegen. Unsere geometrische Anschauung sagt uns, dass O, P, Q eine
Ebene E aufspannen. Wie können wir die Menge aller Punkte von E aus den
drei gegebenen Punkten gewinnen?
~ und y := OQ
~ und betrachten die Menge aller Vektoren
Wir setzen x := OP
z der Form
z := t1 · x + t2 · y,
wobei t1 , t2 beliebige reelle Zahlen sind. Wir nennen z eine Linearkombination
der Vektoren x und y. Legt man als Anfangspunkt des Vektors z den Punkt O
~
fest und nennt den Endpunkt R (d.h. z = OR),
so ist anschaulich klar:
• der durch (t1 , t2 ) definierte Punkt R liegt auf der Ebene E, und
• jeder Punkt der Ebene E ist auf eindeutige Weise einem Paar (t1 , t2 )
zugeordnet.
Mit anderen Worten: wir haben eine Bijektion
∼
φ : R2 → E,
(t1 , t2 ) 7→ R,
~ = z = t1 · x + t2 · y. Die Bijektion φ nennen wir eine Parametrisierung
wobei OR
der Ebene E. Anschaulich gesprochen haben wir die Ebene E mit einem Koordinatensystem versehen, das uns erlaubt, Punkte mit Zahlenpaaren zu identifizieren. Vergleiche mit dem Bild der Euklidischen Standardebene auf Seite 25.
Aber im Unterschied zu dort stehen die Koordinatenachsen hier im allgemeinen
nicht senkrecht aufeinander.
Der Standardvektorraum
Der nächste Schritt ist nun, den soeben entwickelten, auf geometrischer Anschauung basierenden Vektorbegriff durch eine algebraisches Modell zu realisieren, das mit der vorhergehenden Definition des Euklidischen Standardraumes
kompatibel ist.
33
Definition 1.4.10 Der reelle Standardvektorraum der Dimension n ist die Menge
Rn , zusammen mit den folgenden Verknüpfungen:
• die Vektoraddition
Rn × Rn → Rn ,
definiert durch
(x, y) 7→ x + y,

  


x1
y1
x1 + y1
 ..   .. 


..
 .  +  .  := 
.
.
xn
yn
xn + yn
• die Multiplikation mit einem Skalar
R × Rn → Rn ,
definiert durch
(t, x) 7→ t · x,


 
x1
tx1
 .. 
 .. 
t ·  .  :=  .  .
xn
txn
Der Vektor 0 := (0, . . . , 0) ∈ Rn heißt der Nullvektor.
Der Bezug zur Definition des Euklidischen Standardraumes (Definition 1.4.2)
ist folgender. Zu zwei Punkt P = (p1 , . . . , pn ), Q = (q1 , . . . , qn ) ∈ Rn ist der
zugehörige Vektor definiert durch
P~Q := (q1 − p1 , . . . , qn − pn ).
Wenn wir den Punkt O = (0, . . . , 0) ∈ Rn als Ursprungspunkt wählen, so können
~ = (p1 , . . . , pn ) identiwir einen Punkt P = (p1 , . . . , pn ) mit dem Vektor OP
fizieren. Das werden wir im Folgenden auch immer tun. Man sollte aber nicht
vergessen, dass dieser Identifizierung die willkürliche Auswahl eines Ursprungs
zugrundeliegt.
Bemerkung 1.4.11 (i) Die Vektoraddition + auf Rn ist eine assoziative und
kommutative Verknüpfung.
(ii) Der Nullvektor 0 ∈ Rn ist das neutrale Element bzgl. der Vektoraddition.
(iii) Jeder Vektor x ∈ Rn besitzt ein inverses Element bzgl. der Addition, und
zwar
−x := (−1) · x.
(iv) Es gilt das folgende Distributivgesetz6 :
t · (x + y) = t · x + t · y
für alle x, y ∈ R, t ∈ R.
6 Die
Regel Punktrechnung vor Strichrechnung benutzen wir stillschweigend
34
(v) Ist A ∈ Mm,n (R), x, y ∈ Rn und t ∈ R, so gilt:
A · (x + y) = A · x + A · y,
A · (t · x) = t · (A · x).
Diese Regeln ergeben sich unmittelbar aus den entsprechenden Regeln für
das Rechnen mit reellen Zahlen. Nur die Regel (v) verdient eine ausführlichere
Begründung. Schreibe A = (ai,j ), x = (xj ), y = (yj ) (der Index i läuft über die
Menge {1, . . . , m}, und j läuft über {1, . . . , n}. Nach Definition der Multiplikation einer Matrix mit einem Vektor haben wir
A · (x + y) =
=
n
X
j=1
n
X
ai,j (xj + yj )
ai,j xj +
n
X
i=1,...,m
ai,j yj
j=1
j=1
= A · x + a · y.
i=1,...,m
Man beachte, dass wir bei Übergang von der ersten zur zweiten Zeile das
Assoziativ-, das Kommutativ- und das Distributivgesetz der reellen Zahlen jeweils mehrfach benutzt haben. Genauso zeigt man
A · (t · x) =
=
n
X
ai,j txj
j=1
n
X
t·
ai,j xj
j=1
i=1,...,m
i=1,...,m
= t · (A · x).
Damit ist die Regel (v) bewiesen.
Definition 1.4.12 Eine Teilmenge V ⊂ Rn heißt Untervektorraum, wenn folgendes gilt:
(i) V ist nichtleer,
(ii) mit x, y ∈ V liegt auch der Vektor x + y in V , und
(iii) mit x ∈ V liegt auch t · x in V , für alle t ∈ R.
Aus dieser Definition folgt sofort, dass ein Untervektorraum immer den Nullvektor enthält.
Satz 1.4.13 Für V ⊂ Rn sind die folgenden Bedingungen äquivalent.
(a) V ist ein Untervektorraum.
(b) V ist ein linearer Unterraum (Definition 1.4.9) und enthält den Nullvektor.
35
(c) V ist Lösungsmenge eines homogenen linearen Gleichungssystems, d.h.
V = { x ∈ Rn | A · x = 0 }
für eine Matrix A ∈ Mm,n (R).
Beweis: Ist V die Lösungsmenge des Gleichungssystems A · x = 0, so ist V
insbesondere ein linearer Unterraum, nach Definition 1.4.9. Zusätzlich gilt aber
auch 0 ∈ V , wegen A · 0 = 07 . Also impliziert Aussage (c) die Aussage (b).
Sei umgekehrt V ein linearer Unterraum, der den Nullvektor enthält. Dann
ist V die Lösungsmenge eines linearen Gleichungssystems A · x = b. Wegen
0 ∈ V gilt dann aber b = A · 0 = 0. Die Aussage (b) impliziert deshalb auch die
Aussage (c). Insgesamt sind (b) und (c) äquivalent.
Wir zeigen nun noch die Implikation (c) ⇒ (a). Angenommen, V ist Lösungsmenge des Gleichungssystems A · x = 0. Wegen A · 0 = 0 gilt dann 0 ∈ V .
Insbesondere ist die Bedingung (i) der Definition 1.4.12 erfüllt. Sind x, y ∈ V
zwei Elemente von V so gilt nach Annahme A · x = A · y = 0. Unter Ausnutzung
der Regel (v) der Bemerkung 1.4.11 erhalten wir demnach
A · (x + y) = A · x + A · y = 0 + 0 = 0,
d.h. x + y ∈ V , und die Bedingung (ii) der Definition 1.4.12 ist auch gezeigt.
Die Bedingung (iii) zeigt man mit der gleichen Methode: ist x ∈ V und t ∈ R,
so gilt
A · (t · x) = t · (A · x) = t · 0 = 0,
d.h. t · x ∈ V . Damit ist die Implikation (c) ⇒ (a) bewiesen.
Den Beweis der Implikation (a) ⇒ (c) werden wir später nachholen.
2
Korollar 1.4.14 Für eine Teilmenge H ⊂ Rn sind die folgenden Bedingungen
äquivalent:
(a) H ist ein linearer Unterraum.
(b) Es gibt einen Untervektorraum V ⊂ Rn und einen Vektor x ∈ H so, dass
H = x + V := { x + y | y ∈ V }.
Zusatz: wenn H ein linearer Unterraum ist, so ist der Untervektorraum V in
(b) eindeutig bestimmt durch
V = { x − y | x, y ∈ H },
und die Gleichheit H = x + V gilt für alle x ∈ H.
7 Man beachte, dass hier das Symbol 0 zwei verschiedene Bedeutungen hat: den Nullvektor
in Rn und den Nullvektor in Rm
36
Der dem linearen Unterraum eindeutig zugeordnete Untervektorraum V
heißt der Raum der Richtungsvektoren von H.
Beweis: Angenommen, H ist ein linearer Unterraum, also Lösungsmenge
eines linearen Gleichungssystems,
H = { x | A · x = b },
mit A ∈ Mm,n (R) und b ∈ Rm . Wir definieren die Teilmenge V ⊂ Rn als die
Lösungsmenge des zugehörigen homogenen Gleichungssystems:
V := { x | A · x = 0 }.
Nach Satz 1.4.13 ist V ein Untervektorraum. Außerdem ist H nichtleer. Wir
können also ein Element x ∈ H wählen. Wir wollen nun zeigen, dass dann
H = x + V gilt. Oder anders gesagt: ein Vektor z ∈ Rn liegt genau dann in H,
wenn es ein y ∈ V gibt mit z = x + y.
Der gesuchte Vektor y ist notwendigerweise gegeben durch die Vorschrift
y := z − x. Aus x ∈ H folgt nun:
A · z = A · (x + y) = A · x + A · y = b + A · y.
(26)
Aus dieser Gleichung folgt sofort die Äquivalenz
A·z =b
⇔
A · y = 0.
(27)
Mit anderen Worten: z = x+ y liegt genau dann in H, wenn y in V liegt. Damit
haben wir die Implikation (a) ⇒ (b) bewiesen.
Sei umgekehrt H ⊂ Rn eine Teilmenge der Form H = x + V , wobei x ∈ Rn
und V ⊂ Rn ein Untervektorraum ist. Nach Satz 1.4.13 ist dann V Lösungsmenge
eines homogenen linearen Gleichungssystems, d.h.
V = { y | A · y = 0 },
mit A ∈ Mm,n (R). Setze b := A · x ∈ Rm . Wir müssen nun zeigen, dass
H = {z | A · z = b }
gilt. Dazu sei z ∈ Rn ein beliebiger Vektor. Nach Annahme liegt z in H genau
dann, wenn y := z − x in V liegt. Aus der Rechnung (26) folgt aber genau wie
oben die Äquivalenz (27). Wir schließen, dass z ∈ H äquivalent ist zu A · z = b.
Damit ist auch die Implikation (b) ⇒ (a) bewiesen.
Eine nachträgliche Analyse des obigen Beweises zeigt, dass wir nicht nur
die Äquivalenz (a) ⇔ (b), sondern auch die Zusatzbehauptung des Korollars
bewiesen haben. Die Details möge sich der Leser selber überlegen.
2
Beispiel 1.4.15 Es sei E ⊂ R3 die durch die folgende lineare Gleichung definierte
Ebene im dreidimensionalen Standardraum:
E:
x1 + 2x2 − x3 = 5.
37
Der Raum der Richtungsvektoren von E ist dann die Lösungsmenge V ⊂ R3
der homogenen Gleichung
V :
x1 + 2x2 − x3 = 0.
Der Gauss-Algorithmus liefert in einem Rechenschritt die Parametrisierung
∼
φ : R2 → E,
φ(t1 , t2 ) := (5 − 2t1 + t2 , t1 , t2 ).
In Vektorschreibweise sieht diese Parametrisierung so aus:
 
 
 
5
−2
1
φ(t1 , t2 ) = 0 + t1 ·  1  + t2 · 0 .
0
0
1
Setzt man
 
5
x := 0 ,
0


−2
y1 :=  1  ,
0
 
1
y2 := 0 ,
1
so ist offenbar x ∈ E und y1 , y2 ∈ V . Da V ein Untervektorraum ist, liegt aber
auch jede Linearkombination


−2t1 + t2

t1
y := t1 · y1 + t2 · y2 = 
t2
in V . Mit y ∈ V liegt dann der Vektor z := x + y in der Ebene E.
Die Grundstruktur der Parametrisierung eines linearen Unterraumes sieht
also so aus:
allgemeine Lösung des LGS = spezielle Lösung x
+ allgemeine Lösung y des homogenen LGS.
Die Anzahl der Parameter s entspricht dabei der Anzahl der Vektoren aus
V , die mindestens nötig sind, um jeden Vektor aus V als Linearkombination
darzustellen:
y = t1 y 1 + . . . + t s y s .
Sie entspricht der Dimension des Vektorraumes V .
38
2
Vektorräume und lineare Abbildungen
2.1
Grundlegende Definitionen
In diesem Abschnitt bezeichne K einen beliebigen Körper.
Definition 2.1.1 Ein K-Vektorraum ist eine nichtleere Menge V , zusammen
mit zwei Verknüpfungen
V × V → V,
(x, y) 7→ x + y
(die Vektoraddition) und
K × V → V,
(λ, x) 7→ λ · x
(die Multiplikation mit einem Skalar), die folgende Bedingungen erfüllen.
(i) Die Vektoraddition + ist eine assoziative und kommutative Verknüpfung.
(ii) Die Vektoraddition + hat eine neutrales Element, das Nullelement 0.
Jedes Element x ∈ V hat ein inverses Element bzgl. +, das Negative
von x, geschrieben: −x.
(iii) Für alle x, y ∈ V und λ, µ ∈ K gelten die folgenden Regeln:
(a)
(b)
(c)
(d)
(λ + µ) · x = λ · x + µ · x,
λ · (x + y) = λ · x + λ · y,
λ · (µ · x) = (λ · µ) · x, und
1 · x = x.
Bemerkung 2.1.2 Sei (V, +, · ) ein K-Vektorraum, x ∈ V und λ ∈ K. Aus
der Definition 2.1.1 ergeben sich sofort die weiteren Regeln:
(i)
0 · x = 0.
(ii)
λ · 0 = 0.
(iii)
wenn λ · x = 0, dann gilt λ = 0 oder x = 0.
(iv)
(−1) · x = −x.
Bei diesen Regeln ist zu beachten, dass das Symbol 0 je nach Zusammenhang
das Nullelement des Körpers K oder den Nullvektor von V bezeichnet.
Die Ableitung dieser Regeln aus den Körperaxiomen und der Definition 2.1.1
ist dem Leser als Übungsaufgabe überlassen.
39
Beispiel 2.1.3 Sei n ∈ N. Der Standardvektorraum der Dimension n ist
definiert als die Menge K n , mit den Verknüpfungen
   


x1
y1
x1 + y1
 ..   .. 


..
 .  +  .  := 

.
xn
und
yn
xn + yn




x1
λx1
 


λ ·  ...  :=  ...  .
xn
λxn
Der Nullvektor ist dann der Vektor 0 := (0, . . . , 0), das Negative von x =
(x1 , . . . , xn ) ist −x = (−x1 , . . . , −xn ). Vergleiche mit Definition 1.4.10.
Es ist manchmal nützlich, bei obiger Definition auch den Fall n = 0 zuzulassen. Dazu definiert man K 0 := {0} als die Menge, die nur den Nullvektor
enthält. Man überlegt sich leicht, dass es dann nur eine Möglichkeit gibt, auf der
Menge K 0 eine Vektoraddition und Multiplikation mit Skalaren zu definieren,
und dass K 0 mit diesen Verknüpfungen einen K-Vektorraum bildet. Man nennt
K 0 = {0} den Nullvektorraum.
Definition 2.1.4 Sei V ein K-Vektorraum. Eine Teilmenge U ⊂ V heißt
Untervektorraum, wenn folgendes gilt.
(i) U 6= ∅,
(ii) mit x, y ∈ U ist auch der Vektor x + y ein Element aus U , und
(iii) mit x ∈ U ist auch der Vektor λ · x ein Element aus U , für alle λ ∈ K.
Bemerkung 2.1.5 Die Bedingungen (ii) und (iii) der Definition 2.1.4 sagen
aus, dass man die Vektoraddition + und die Multiplikation mit einem Skalar
· des Vektorraumes V auf die Teilmenge U einschränken kann. Man erhält so
Verknüpfungen
U × U → U,
(x, y) 7→ x + y
und
K × U → U,
(λ, x) 7→ λ · x.
Man überlegt sich leicht, dass die Menge U , zusammen mit diesen Verknüpfungen, selber einen Vektorraum bilden. Der Begriff Untervektorraum ist also
berechtigt.
Beispiel 2.1.6 (i) Ist V ein beliebiger K-Vektorraum, so sind die Teilmengen
{0} ⊂ V und V ⊂ V Untervektorräume.
40
(ii) Sei A ∈ Mm,n (K) eine Matrix über K mit n Spalten. Dann ist die
Lösungsmenge des zugehörigen homogenen linearen Gleichungssystems
U := { x ∈ K n | A · x = 0 }
ein Untervektorraum des Standardvektorraumes K n . Vergleiche mit Satz
1.4.13.
(iii) Ist A ∈ Mm,n (K) wie in (ii) und b ∈ K m , b 6= 0, so ist die Lösungsmenge
des allgemeinen linearen Gleichungssystems
H := { x ∈ K n | A · x = b }
kein Untervektorraum, da wegen A · 0 = 0 6= b der Nullvektor nicht in H
enthalten ist. Man zeigt aber wie im Beweis von Korollar 1.4.14, dass
H = x+U
gilt, wobei x ∈ H eine beliebige Lösung von A · x = b ist und U ⊂ K n der
Vektorraum der Lösungen des homogenen Gleichungssystems A·x = 0 ist.
Man nennt entsprechend H einen linearen Unterraum von K n .
Definition 2.1.7 Seien V und W K-Vektorräume. Eine Abbildung
φ:V →W
heißt K-linear, wenn für alle x, y ∈ V und λ ∈ K gilt:
φ(x + y) = φ(x) + φ(y),
und
φ(λ · x) = λ · φ(x).
Beispiel 2.1.8 Ist A ∈ Mm,n (K) eine Matrix mit m Zeilen und n Spalten, so
ist die Abbildung
φ : K n → K m,
x 7→ A · x
K-linear. Das folgt aus Bemerkung 1.4.11 (v) (wobei man dort den Körper der
reellen Zahlen durch den allgemeinen Körper K ersetzen muss).
Proposition 2.1.9 Es sei φ : V → W eine K-lineare Abbildung. Dann gilt:
(i) φ(0) = 0.
(ii) Der Kern von φ, d.h. die Teilmenge
Kern(φ) := { x ∈ V | φ(x) = 0 }
ist ein Untervektorraum von V .
41
(iii) Das Bild von φ, d.h. die Teilmenge
Bild(φ) := { φ(x) | x ∈ V }
ist ein Untervektorraum von W .
(iv) Die lineare Abbildung φ ist injektiv genau dann, wenn gilt:
Kern(φ) = {0}.
Beweis: Wegen der Linearität von φ gilt
φ(0) = φ(0 + 0) = φ(0) + φ(0).
Wenn man zu beiden Seiten dieser Gleichung das Negative des Vektors φ(0)
addiert, erhält man φ(0) = 0, und (i) ist bewiesen.
Aus (i) folgt nun sofort, dass Kern(φ) den Nullvektor von V enthält und
somit nichtleer ist. Liegen die beiden Vektoren x, y ∈ V in Kern(φ), so gilt nach
Definition φ(x) = φ(y) = 0. Unter Zuhilfenahme der Linearität erhält man
φ(x + y) = φ(x) + φ(y) = 0 + 0 = 0.
Also liegt mit x, y die Summe x + y ebenfalls in Kern(φ). Das gleiche Argument
zeigt: mit x ∈ Kern(φ) liegt auch λ · x wegen
φ(λ · x) = λ · φ(x) = λ · 0 = 0
in Kern(φ), für alle λ ∈ K. Damit ist (ii) bewiesen.
Der Beweis von (iii) folgt demselben Muster. Zunächst folgt aus (i), dass
0 = φ(0) im Bild von φ liegt und somit Bild(φ) nichtleer ist. Sind nun x, y ∈ W
Vektoren im Bild von φ, so gibt es nach Definition Vektoren u, v ∈ V mit
x = φ(u) und y = φ(v). Wegen
φ(u + v) = φ(u) + φ(v) = x + y
liegt dann aber x + y ebenfalls im Bild von φ. Mit einem ähnlichen Argument
zeigt man: aus x ∈ Bild(φ) folgt λ · x ∈ Bild(φ), für alle λ ∈ K, und (iii) ist
bewiesen.
Nun zum Beweis von (iv). Zunächst stellt man fest, dass {0} wegen (i)
immer eine Teilmenge von Kern(φ) ist. Es ist also zu zeigen: φ ist injektiv
genau dann, wenn Kern(φ) außer 0 kein weiteres Element enthält.
Wir nehmen zuerst an, dass φ injektiv ist. Sei x ∈ Kern(φ). Dann gilt
φ(x) = 0 = φ(0).
Aus der Injektivität von φ folgt dann aber x = 0.
Nehmen wir umgekehrt an, dass Kern(φ) = {0} gilt. Sind dann x, y ∈ V
Vektoren aus V mit φ(x) = φ(y), so gilt wegen der Linearität von φ:
φ(x − y) = φ(x) − φ(y) = 0.
Nach Annahme folgt daraus aber x − y = 0, also x = y. Also ist φ injektiv.
Damit ist alles gezeigt.
2
42
Beispiel 2.1.10 Es sei I eine nichtleere Menge. Wir bezeichnen mit K I die
Menge der Abbildungen von I nach K:
K I := { f : I → K }.
Wir versehen K I mit der Struktur eines K-Vektorraumes, indem wir Vektoraddition und Multiplikation mit Skalaren wie folgt definieren. Sind f, g ∈ K I
und λ ∈ K gegeben, so setzen wir
(f + g)(i) := f (i) + g(i),
(λ · f )(i) := λf (i),
für alle i ∈ I. Diese Vorschrift definiert Abbildungen f + g, λ · f ∈ K I , also
Verknüpfungen + : K I × K I → K I und · : K × K I → K I .
Wieder ist es möglich und sinnvoll, diese Definition auf den Grenzfall I = ∅
auszudehnen, indem man K ∅ als den Nullvektorraum definiert:
K ∅ := {0}.
Diese allgemeine Definition enthält als Spezialfall viele wichtige Vektorräume.
(i) Für I = {1, . . . , n}, n ∈ N, erhält man den Standardvektorraum der
Dimension n, indem man eine Abbildung f : {1, . . . , n} → K mit dem
n-Tupel (f (1), . . . f (n)) identifiziert:
K n = K {1,...,n} = { (x1 , . . . , xn ) | xi ∈ K }.
(ii) Ähnlich wie in (i) erhält man für I = {1, . . . , m} × {1, . . . , n}, m, n ∈ N,
den Vektorraum der (m, n)-Matrizen:
Mm,n (K) = K {1,...,m}×{1,...,n} = { A = (ai,j ) | ai,j ∈ K }.
Wir definieren also eine Addition und eine Multiplikation mit Skalaren auf
der Menge der (m, n)-Matrizen durch komponentenweise Addition bzw.
Multiplikation.
(iii) Für I = N identifizieren wir K N mit der Menge der Folgen mit Werten in
K:
K N = { (x1 , x2 , x3 , . . .) | xi ∈ K }.
(iv) Nun sei K = R und I ⊂ R ein Intervall, z.B. I = [0, 1] oder I = (0, ∞).
In diesem Fall verwendet man für Elemente f ∈ RI eher die funktionale
Schreibweise. Meistens interessiert man sich auch nicht für den ganzen
Vektorraum RI , sondern nur für gewisse Untervektorräume. So ist z.B.
C 0 (I, R) := { f ∈ RI | f ist stetig }
der Vektorraum der stetigen Funktionen auf I, oder
C 1 (I, R) := { f ∈ RI | f ist differenzierbar, f ′ ist stetig }
der Vektorraum der einmal stetig differenzierbaren Funktionen. Dass diese
Teilmengen von RI tatsächlich Untervektorräume sind, folgt sofort aus
bekannten Aussagen der Analysis. Sind z.B. f, g stetige Funktionen, so
ist f + g wieder stetig.
43
2.2
Basis und Dimension
In diesem Abschnitt sei stets K ein Körper und V ein K-Vektorraum. Ein
System von Vektoren aus V ist dann eine Abbildung I → V , wobei I eine
beliebige Menge ist. Wir schreiben solche Systeme in der Form
mit vi ∈ V .
(vi )i∈I ,
Die Menge I heißt die Indexmenge des Systems. Ist I = {1, . . . , n}, n ∈ N0 , so
schreiben wir normalerweise (v1 , . . . , vn ) anstelle von (vi )i∈I . Man beachte, dass
der Fall n = 0 hier ausdrücklich zugelassen ist, wobei in diesem Fall {1, . . . , n}
die leere Menge ist. In den folgenden Definitionen betrachten wir diesen Fall
meistens separat, um mögliche Verwirrung auszuschließen.
Definition 2.2.1 Sei V ein K-Vektorraum und (vi )i∈I ein System von Vektoren
aus V . Ein Koeffizientensystem für (vi )i∈I ist ein System (λi )i∈I von Elementen
λi ∈ K, die fast alle (d.h. alle bis auf endlich viele Ausnahmen) gleich Null sind.
Genauer: es gibt eine endliche Teilmenge I ′ ⊂ I mit der Eigenschaft: λi = 0 für
alle i ∈ I\I ′ .
Eine Linearkombination des Systems (vi )i∈I ist ein Vektor der Form
X
v=
λi vi ,
i∈I
wobei (λi )i∈I ein Koeffizientensystem ist. Die obige Summe ist dann folgendermaßen definiert. Wir wählen eine endliche Teilmenge I ′ ⊂ I mit der Eigenschaft λi = 0 für i 6∈ I ′ und eine Aufzählung der Elemente von I ′ , etwa
I ′ = {i1 , . . . , ik }, mit ij 6= il für j 6= l. Dann setzen wir
X
λi vi :=
k
X
λij vij .
j=1
i∈I
Wegen der Kommutativität der Vektoraddition und der Regel 0 · v = 0 ist diese
Definition unabhängig von der Wahl der Teilmenge I ′ ⊂ I und der gewählten
Aufzählung. In dem Sonderfall I = ∅ setzen wir
X
λi vi := 0.
i∈∅
Die Teilmenge von V aller Linearkombinationen des Systems (vi )i∈I heißt
das Erzeugnis von (vi )i∈I . Schreibweise:
X
hvi ii∈I := {
λi vi | λi ∈ K, fast alle = 0 }.
i∈I
Ist (vi )i∈I ein System von Vektoren mit einer endlichen Indexmenge I, so
dürfen wir ohne Einschränkung der Allgemeinheit annehmen, dass I = {1, . . . , n},
44
mit n ∈ N0 . Das Erzeugnis von (vi )i∈I = (v1 , . . . , vn ) ist dann also die Teilmenge
aller Vektoren, die sich in der Form
λ1 · v1 + . . . + λn · vn ,
mit λi ∈ K, schreiben lassen (im Fall n = 0 ist diese Summe laut unserer
Konvention der Nullvektor).
Proposition 2.2.2 Sei V ein K-Vektorraum und (vi )i∈I ein System von Vektoren aus V . Dann ist das Erzeugnis
U := hvi ii∈I ⊂ V
ein Untervektorraum von V .
Aufgrund dieser Tatsache nennen wir U auch den von den Vektoren vi aufgespannten Untervektorraum.
Beweis: Setzen wir die Koeffizienten λi alle gleich Null, so gilt offenbar
X
0 · vi = 0.
i∈I
Deshalb gilt 0 ∈ U , und insbesondere ist U nichtleer. Sei nun v, w ∈ U ; wir
müssen zeigen, dass dann auch v + w in U liegt. Nach Voraussetzung existieren
Koeffizienten λi , νi ∈ K, fast alle gleich Null, mit
X
X
v=
λi vi ,
w=
µi vi .
i∈I
i∈I
Wir wollen nun die Gleichheit
v+w =
X
i∈I
(λi + µi ) · vi
zeigen8 , aus der sofort folgt, dass auch v + w in U liegt. Nach Voraussetzung
gibt es endliche Teilmengen I ′ , I ′′ ⊂ I mit der Eigenschaft λi = 0 für i 6∈ I ′ und
µi = 0 für i 6∈ I ′′ . Setze I ′′′ := I ′ ∪ I ′′ ; dies ist wieder eine endliche Teilmenge,
und sie hat die Eigenschaft, dass λi = µi = 0 gilt für alle i 6∈ I ′′′ . Wir schreiben
I ′′′ = {i1 , . . . , ik }, mit ij 6= il für j 6= l. Dann gilt:
v+w =
k
X
j=1
=
k
X
j=1
=
X
i∈I
λij · vij +
k
X
j=1
µij · vij
k
X
(λij + µij ) · vij
λij · vij + µij · vij =
j=1
(λi + µi ) · vi .
8 Im weiteren Verlauf werden wir Argumente dieser Bauart nicht mehr im Detail ausführen.
Siehe z.B. den Beweis der Proposition 2.2.4
45
Man beachte, dass wir im Schritt von der ersten zur zweiten Zeile die Assoziativität und die Kommutativität der Vektoraddition und im darauffolgenden
Schritt die Distributivgesetz (3a) der Definition 2.1.1 ausgenutzt haben.
Mit einem ähnlichen Argument zeigt man: mit v ∈ U und λ ∈ K ist auch
λ · v ein Element von U .
2
Beim Vergleich dieses Beweises mit dem Beweis von Teil (iii) der Proposition
2.1.9 fällt eine gewisse strukturelle Ähnlichkeit auf. Und tatsächlich kann man
die Proposition 2.2.2 direkt aus der Proposition 2.1.9 ableiten. Der Einfachheit
halber wollen wir dies nur für ein endliches System von Vektoren tun.
Sei also (v1 , . . . , vn ) eine endliches System von Vektoren aus einem K-Vektorraum V . Wir betrachten die Abbildung
φ : K n → V,
(λ1 , . . . , λn ) 7→ λ1 · v1 + . . . + λn · vn .
(28)
Offenbar ist das Bild von φ genau das Erzeugnis des Systems (vi ). Man zeigt
leicht (Übungsaufgabe), dass φ K-linear ist. Aus der Proposition 2.1.9 (iii)
folgt nun (als Bestätigung der Proposition 2.2.2), dass U = hv1 , . . . , vn i ein
Untervektorraum ist.
Eine weitere interessante Bedingung, die man an das System (v1 , . . . , vn )
stellen kann, ist, dass die Abbildung φ injektiv ist. Diese Bedingung wollen wir
zuerst ganz allgemein formulieren.
Definition 2.2.3 Sei V ein K-Vektorraum und (vi )i∈I ein System von Vektoren. Wir nennen das System (vi )i∈I linear abhängig, wenn es ein Koeffizientensystem (λi )i∈I gibt mit
X
λi · vi = 0,
i∈I
und es außerdem ein i ∈ I gibt mit λi 6= 0.
Ist das System (vi )i∈I nicht linear abhängig, so nennen wir es linear unabhängig.
Betrachten wir, wie oben, den Spezialfall eines endlichen Erzeugendensystems (v1 , . . . , vn ) und die resultierende Abbildung φ : K n → V , so lässt sich
die Definition 2.2.3 folgendermaßen umformulieren. Das System (v1 , . . . , vn ) ist
linear unabhängig genau dann, wenn der Kern von φ nur aus dem Nullvektor
besteht. Nach Proposition 2.1.9 (iv) gilt dies aber genau dann, wenn φ injektiv
ist.
Die folgende Proposition ist deshalb das Analogon zum Teil (iv) der Proposition 2.1.9:
Proposition 2.2.4 (Koeffizientenvergleich) Sei V ein K-Vektorraum und
(vi )i∈I ein System von Vektoren aus V . Dann sind die folgenden Bedingungen
äquivalent.
(a) Das System (vi )i∈I ist linear unabhängig.
46
(b) Sind (λi )i∈I und (µi )i∈I Koeffizientensysteme mit der Eigenschaft
X
X
λi · vi =
µi · vi ,
i∈I
i∈I
so folgt λi = µi , für alle i ∈ I. Mit anderen Worten: die Darstellung eines
Vektors als Linearkombination des Systems (vi )i∈I ist eindeutig.
Beweis: Der Beweis erfolgt nach dem Muster des Beweises von Proposition
2.1.9 (iv). Wir zeigen deshalb nur die Implikation (a) ⇒ (b).
Angenommen, das System (vi )i∈I ist linear unabhängig, und wir haben zwei
Koeffizientensysteme (λi ) und (µi ) vorliegen, die die Bedingung in (b) erfüllen.
Dann folgt
X
X
0=
λi · vi −
µi · vi
i∈I
=
X
i∈I
i∈I
X
λi · vi − µi · vi =
(λi − µi ) · vi = 0.
i∈I
Wir haben also den Nullvektor als eine Linearkombination des Systems (vi )
dargestellt. Da (vi ) nach Annahme linear unabhängig ist, folgt daraus, dass die
Koeffizienten dieser Linearkombination alle gleich Null sind, d.h. λi − µi = 0,
oder λi = µi . Die Implikation (a) ⇒ (b) ist damit bewiesen.
2
Definition 2.2.5 Sei V ein K-Vektorraum.
(i) Ein Erzeugendensystem von V ist ein System (vi )i∈I von Vektoren aus V ,
das den ganzen Vektorraum V aufspannt, d.h.
V = hvi ii∈I .
(ii) Eine Basis von V ist ein linear unabhängiges Erzeugendensystem.
Ein System (vi )i∈I ist also eine Basis von V genau dann, wenn sich jeder
Vektor aus V auf eindeutige Weise als Linearkombination des Systems (vi )i∈I
darstellen läßt.
Betrachten wir wieder den Spezialfall eines endlichen Systems (v1 , . . . , vn ).
Wir können alles an der in (28) definierten Abbildung φ : K n → V ablesen:
• (v1 , . . . , vn ) ist eine Erzeugendensystem von V ⇔ φ ist surjektiv.
• (v1 , . . . , vn ) ist linear unabhängig ⇔ φ ist injektiv.
• (v1 , . . . , vn ) ist eine Basis von V ⇔ φ ist bijektiv.
47
Beispiel 2.2.6 Sei n ∈ N eine natürliche Zahl. Wir definieren die Vektoren
e1 , . . . , en ∈ K n wie folgt:
 
 
 
1
0
0
0 
1
0
 
 
 
e1 :=  .  , e2 :=  .  , . . . , en :=  .  .
 .. 
 .. 
 .. 
0
0
1
Ist nun v = (x1 , . . . , xn ) ∈ K n ein beliebiger Vektor, so gilt
 
x1
 .. 
v =  .  = x1 · e1 + . . . + xn · en .
xn
Mit anderen Worten: jeder Vektor v ∈ V n lässt sich als Linearkombination
des Systems (ei ) darstellen. Andererseits ist so eine Darstellung eindeutig: die
Koeffizienten müssen offenbar mit den Einträgen des Vektors v übereinstimmen.
Also gilt: das System (ei ) ist eine Basis von K n . Die vom System (ei ) induzierte
Abbildung φ : K n → K n ist übrigens die Identität, also sicher eine Bijektion.
Die Basis (e1 , . . . , en ) heißt die Standardbasis des K n .
Satz 2.2.7 Es sei V ein K-Vektorraum. Wir nehmen zusätzlich an, dass V
endlich erzeugt ist, d.h. V besitzt ein endliches Erzeugendensystem. Dann gilt:
(i) Es gibt eine endliche Basis (v1 , . . . , vn ) von V .
(ii) Ist (w1 , . . . , wm ) eine weitere Basis von V , so folgt m = n. Die Anzahl der
Basiselemente ist also eindeutig bestimmt.
Dieser Satz macht die folgende Definition erst möglich:
Definition 2.2.8 Die Dimension eines endlich erzeugten K-Vektorraumes ist
die Anzahl der Elemente einer (beliebigen) Basis von V .
Beweis von Satz 2.2.7
Für den Beweis von Satz 2.2.7 müssen wir etwas weiter ausholen. Wir werden
eine Reihe von nützlichen Resultaten beweisen, aus denen unter anderem der
Satz 2.2.7 folgt. Genauer: Teil (i) von Satz 2.2.7 folgt aus dem Korollar 2.2.11,
Teil (ii) aus Korollar 2.2.14. Wir müssen natürlich darauf achten, dass wir in
den folgenden Beweisen niemals den Satz 2.2.7 benutzen.
Im folgenden fixieren wir einen K-Vektorraum V . Wir betrachten ausschließlich endliche Systeme von Vektoren, die wir meistens als B = (v1 , . . . , vn ),
mit n ∈ N0 schreiben. Für k ∈ {1, . . . , n} bezeichnet dann
Bk = (v1 , . . . , vbk , . . . , vn )
das ‘verkürzte’ System, bei dem der Vektor vk fehlt.
Wir beginnen mit einem Kriterium für lineare Abhängigkeit:
48
Lemma 2.2.9 Sei B = (v1 , . . . , vn ) ein endliches System von Vektoren aus V .
Dann ist B linear abhängig genau dann, wenn es einen Index k ∈ {1, . . . , n} gibt
mit der Eigenschaft
hv1 , . . . , vn i = hv1 , . . . , vbk , . . . , vn i.
Mit anderen Worten: B ist linear abhängig genau dann, wenn man auf einen
Vektor aus B weglassen kann, ohne den aufgespannten Vektorraum zu verkleinern.
(Vorsicht! Es kann Vektoren in B geben, die man nicht weglassen kann, ohne
den aufgespannten Vektorraum zu verkleinern.)
Beweis: Wir schreiben
U := hv1 , . . . , vn i
für das Erzeugnis von B und
Uk := hv1 , . . . , vbk , . . . , vn i
für das Erzeugnis des verkürzten Systems Bk . Offenbar gilt Uk ⊂ U , für k =
1, . . . , n, und vi ∈ Uk für i 6= k. Man überlegt sich nun leicht: Uk = U gilt
genau dann, wenn vk ∈ Uk .
Angenommen, B ist linear abhängig. Nach Definition gibt es dann Koeffizienten λ1 , . . . , λn ∈ K, nicht alle = 0, mit
λ1 · v1 + . . . + λn · vn = 0.
(29)
Wir wählen einen Index k mit λk 6= 0. Dann können wir die Gleichung (29)
folgendermaßen umschreiben:
vk =
X
i6=k
−
λi
· vi .
λk
(30)
Insbesondere liegt vk in dem Untervektorraum Uk . Wie wir uns im ersten Abschnitt des Beweises überlegt hatten, folgt daraus Uk = U .
Sei umgekehrt k ein Index mit Uk = U . Dann gilt insbesondere vk ∈ Uk .
Dies bedeutet, dass es Koeffizienten λi , i 6= k, gibt mit
X
vk =
λi · vi .
i6=k
Bringt man in dieser Gleichung alle Terme auf die rechte Seite, so erhält man eine
Darstellung des Nullvektors als eine nichttriviale Linearkombination von B =
(v1 , . . . , vn ) (der Koeffizient von vk ist gleich −1!). Also ist B linear abhängig.
Damit ist das Lemma bewiesen.
2
Proposition 2.2.10 Sei V ein K-Vektorraum und B = (v1 , . . . , vn ) ein endliches
System von Vektoren aus V . Dann sind die folgenden Bedingungen äquivalent.
49
(i) B ist eine Basis von V .
(ii) B ist ein unverkürzbares Erzeugendensystem. Genauer: B ist ein Erzeugendensystem, und für alle k ∈ {1, . . . , n} ist das verkürzte System
Bk = (v1 , . . . , vbk , . . . , vn )
kein Erzeugendensystem mehr.
(iii) B ist unverlängerbar linear unabhängig. Genauer: B ist linear unabhängig,
und für alle v ∈ V ist das verlängerte System
B ′ := (v1 , . . . , vn , v)
linear abhängig.
Beweis: Die Äquivalenz von (i) und (ii) ist im Wesentlichen eine Umformulierung des Lemmas 2.2.9. Durch Negation der beiden Aussagen von Lemma
2.2.9 erhält man nämlich: B ist linear unabhängig genau dann, wenn für alle k
gilt: das Erzeugnis von Bk ist echt kleiner als das Erzeugnis von B. Unter der
Zusatzannahme, dass B ein Erzeugendensystem ist, wird daraus: B ist eine Basis
genau dann, wenn für alle k das verkürzte System Bk kein Erzeugendensystem
mehr ist.
Zeigen wir nun die Implikation (i)⇒(iii). Wir nehmen an, dass B eine Basis
ist. Wir wollen zeigen: für jedes v ∈ V ist dann B = (v1 , . . . , vn , v) linear
abhängig. Als Basis ist B insbesondere ein Erzeugendensystem, also gibt es
λ1 , . . . , λn ∈ K mit
v = λ1 · v1 + . . . + λn · vn .
Dies Gleichung können wir umstellen zu einer nichttrivialen Linearkombination
des Nullvektors durch das System B ′ :
λ1 · v1 + . . . + λn · vn − v = 0.
Deshalb ist B ′ linear abhängig, und die Implikation (i)⇒(iii) ist bewiesen.
Zum Schluss noch die Implikation (iii)⇒(i). Sei B unverlängerbar linear
unabhängig. Dann gibt es für jedes v ∈ V eine Darstellung des Nullvektors der
Form
λ1 · v1 + . . . + λn · vn + λ · v = 0,
wobei mindestens einer der Koeffizienten λ1 , . . . , λn , λ von Null verschieden ist.
Da das System (v1 , . . . , vn ) aber nach Annahme linear unabhängig ist, darf λ
nicht Null sein. Wir können daher umstellen und v als Linearkombination von
v1 , . . . , vn darstellen:
v=−
λn
λ1
· v1 − . . . −
· vn .
λ
λ
Also ist B ein Erzeugendensystem und sogar eine Basis. Die Proposition ist nun
vollständig bewiesen.
2
Teil (i) von Satz 2.2.7 folgt leicht aus obiger Proposition. Genauer:
50
Korollar 2.2.11 (Basisauswahlsatz) Sei B = (v1 , . . . , vn ) ein endliches Erzeugendensystem eines K-Vektorraumes V . Dann gibt es eine Teilmenge I ⊂
{1, . . . , n} so, dass das Teilsystem
BI := (vi )i∈I
eine Basis von V ist.
Insbesondere besitzt jeder endlich erzeugte Vektorraum eine endliche Basis.
Beweis: Man nimmt aus B so lange ‘überflüssige’ Vektoren heraus, bis das
resultierende Teilsystem BI ein unverkürzbares Erzeugendensystem ist. Nach
Proposition 2.2.10 ist dann BI eine Basis von V .
2
Wir wollen nun den zweiten Teil von Satz 2.2.7 beweisen. Der Schlüssel zum
Beweis ist das folgende Lemma.
Lemma 2.2.12 (Austauschlemma) Sei V ein K-Vektorraum mit einer Basis
B = (v1 , . . . , vn ). Sei
w = λ1 · v1 + . . . + λn · vn
ein beliebiger Vektor aus V , dargestellt als Linearkombination der Basis B. Für
alle Indizes k ∈ {1, . . . , n} mit λk 6= 0 ist dann
B ′ := (v1 , . . . , vk−1 , w, vk+1 , . . . , vn )
wieder eine Basis von V . Man kann also vk gegen w austauschen.
Beweis: Zur Vereinfachung der Schreibweise dürfen wir annehmen, dass
k = 1. Wegen λ1 6= 0 gilt
v1 =
1
λ2
λn
·w−
· v2 − . . . −
· vn .
λ1
λ1
λ1
(31)
Wir wollen nun zeigen, dass B ′ = (w, v2 , . . . , vn ) eine Erzeugendensystem von
V ist. Dazu sei v ∈ V ein beliebiger Vektor. Da B eine Basis ist, gilt
v = µ1 · v1 + . . . + µn · vn ,
(32)
für gewisse µi ∈ K. Wir setzen nun (31) in (32) ein. Nach etwas Umformen
erhalten wir:
v=
λ2
λn
µ1
· w + (µ2 − ) · v2 + . . . + (µn −
) · vn .
λ1
λ1
λ1
(33)
Der Vektor v liegt also im Erzeugnis von B ′ . Damit ist gezeigt, dass B ′ ein
Erzeugendensystem ist.
Zum Nachweis der linearen Unabhängigkeit nehmen wir an, dass wir Körperelemente µ, µ2 , . . . , µn ∈ K gegeben haben mit
µ · w + µ2 · v2 + . . . + µn · vn = 0.
51
(34)
Wir setzen in (34) den Ausdruck w = λ1 · v1 + . . . + λn · vn ein und erhalten
µλ1 · v1 + (µλ2 − µ2 ) · v2 + . . . + (µλn − µn ) · vn .
(35)
Da B = (v1 , . . . , vn ) eine Basis ist, sind alle Koeffizienten der Linearkombination
in (35) gleich Null. Da nach Voraussetzung λ1 6= 0 gilt, schließt man zuerst µ = 0
und danach
µ2 = µλ2 = 0, . . . , µn = µλn = 0.
Damit ist alles gezeigt.
2
Satz 2.2.13 (Austauschsatz) Sei V eine K-Vektorraum mit einer endlichen
Basis B = (v1 , . . . , vn ). Sei weiterhin (w1 , . . . , wr ) ein System von r linear
unabhängigen Vektoren. Dann gilt:
(i) r ≤ n (es kann also höchstens n linear unabhängige Vektoren in V geben).
(ii) Es gibt paarweise verschiedene Indizes i1 , . . . , ir ∈ {1, . . . , n}, so dass
man nach Austausch der Vektoren vi1 , . . . , vir in B durch die Vektoren
w1 , . . . , wr wieder eine Basis von V erhält.
Numeriert man so um, dass i1 = 1, . . . , ir = r gilt, so lautet die Aussage:
das System
B ′ := (w1 , . . . , wr , vr+1 , . . . , vn )
ist wieder eine Basis von V .
Beweis: Wir nehmen zunächst einmal an, dass r ≤ n gilt, und beweisen
Teil (ii) des Satzes unter dieser Zusatzannahme (wir zeigen also (i)⇒(ii)). Dazu
verwenden wir vollständige Induktion über die Anzahl r der linear unabhängigen
Vektoren (w1 , . . . , wr ).
Im Fall r = 0 ist nichts zu zeigen. Wir dürfen also annehmen, dass r ≥ 1 ist
und dass die Aussage des Satzes für das System (w1 , . . . , wr−1 ) schon bewiesen
wurde. Nach geeigneter Umnumerierung der Indizes dürfen wir also annehmen,
dass das System
B ′′ := (w1 , . . . , wr−1 , vr , . . . , vn )
eine Basis von V ist. Zu zeigen ist, dass (nach geeigneter Umnumerierung der
Vektoren vr , . . . , vn ) das System
B ′ = (w1 , . . . , wr , vr+1 , . . . , vn )
wieder eine Basis von V ist.
Da B ′′ nach Induktionsannahme eine Basis ist, gibt es λ1 , . . . , λn ∈ K mit
wr = λ1 · w1 + . . . + λr−1 · wr−1 + λr vr + . . . + λn · vn .
Wäre λr = . . . = λn = 0, so hätte man einen Widerspruch zur linearen Unabhängigkeit von (w1 , . . . , wr ). Es gibt daher einen Index k ∈ {r, . . . , n} mit
λk 6= 0. Nach geeigneter Umnumerierung dürfen wir annehmen, dass k = r,
52
also λr 6= 0. Das Austauschlemma (Lemma 2.2.12) sagt nun, dass wir in der
Basis B ′′ den Vektor vr gegen den Vektor wr austauschen können; das resultierende System B ′ ist dann wieder eine Basis. Damit ist die Implikation (i)⇒(ii)
bewiesen.
Jetzt zeigen wir (i). Angenommen, r > n. Nachdem, was wir schon bewiesen
haben, könnte man in der Basis B = (v1 , . . . , vn ) die Vektoren nach und nach
gegen die Vektoren w1 , . . . , wn austauschen, ohne die Basiseigenschaft zu verlieren. Insbesondere ist das System B ′ = (w1 , . . . , wn ) eine Basis von V . Eine
Basis ist aber ‘unverlängerbar linear unabhängig’ (Proposition 2.2.4). Im Fall
r > n widerspricht dies der Annahme, dass sogar das System (w1 , . . . , wr ) linear
unabhängig ist. Damit ist die Ungleichung r ≤ r bewiesen.
2
Aus dem Austauschsatz können wir jetzt auch die zweite Aussage von Satz
2.2.7 schließen.
Korollar 2.2.14 Sei V ein K-Vektorraum mit einer endlichen Basis
B = (v1 , . . . , vn ).
Sei B ′ = (wi )i∈I ein weitere Basis. Dann gilt |I| = n. Mit anderen Worten: jede
Basis von V ist endlich und hat genau n Elemente.
Beweis: Angenommen, die Indexmenge I der zweiten Basis B ′ habe mehr als
n Elemente. Wir könnten dann paarweise verschiedene Elemente i1 , . . . , in+1 ∈
I auswählen und erhielten ein Teilsystem
(wi1 , . . . , win+1 )
von B ′ . Dieses Teilsystem wäre immer noch linear unabhängig, im Widerspruch
zu Satz 2.2.13 (i). Wir haben also |I| ≤ n gezeigt.
Die Ungleichung n ≤ |I| folgt mit dem gleichen Argument (wobei B und B ′
ihre Rollen vertauschen). Also gilt |I| = n. Damit ist das Korollar 2.2.14 und
der Satz 2.2.7 vollständig bewiesen.
2
Mit dem Beweis von Satz 2.2.7 haben wir auch gezeigt, dass die Dimension
eines endlich erzeugten Vektorraumes sinnvoll definiert ist.
Korollar 2.2.15 Sei V ein endlich erzeugter Vektorraum und W ⊂ V ein
Untervektorraum. Dann gilt:
(i) W ist wieder ein endlich erzeugter Vektorraum.
(ii) dimK W ≤ dimK V .
(iii) Aus dimK W = dimK V folgt W = V .
Beweis: Wir überlassen (i) den Lesern als Übungsaufgabe.
Da V endlich erzeugt ist, gibt es eine endliche Basis B = (v1 , . . . , vn ) der
Länge n := dimK V . Ebenso gibt es eine endliche Basis B ′ = (w1 , . . . , wr ) von
W der Länge r = dimK W . Faßt man B ′ als ein System von Vektoren in V
53
auf, so ist es immer noch linear unabhängig (aber i.A. kein Erzeugendensystem
mehr). Aus Satz 2.2.13 (i) folgt nun
dimk W = r ≤ n = dimK V.
Außerdem ist (nach geeigneter Umnumerierung) das System
B ′′ = (w1 , . . . , wr , vr+1 , . . . , vn )
eine Basis von V . Im Fall r = n hätten wir dann
W = hw1 , . . . , wr i = V.
2
Korollar 2.2.16 (Basisergänzungssatz) Sei V ein endlich erzeugter Vektorraum und B ′ = (v1 , . . . , vr ) ein System von linear unabhängigen Vektoren. Dann
gibt es Vektoren vr+1 , . . . , vn , so dass (v1 , . . . , vn ) eine Basis von V ist.
Beweis: Wähle eine Basis B = (w1 , . . . , wn ) von V . Nach Satz 2.2.13
gilt dann r ≤ n, und nach geeigneter Umnumerierung der wi ist das System (v1 , . . . , vr , wr+1 , . . . , wn ) eine Basis von V . Wir können also vi := wi
für i = r + 1, . . . , n setzen.
2
Alle in diesem Abschnitt bewiesenen Sätze gelten - mit leicht veränderter
Formulierung – auch für Vektorräume, die nicht endlich erzeugt sind. Die Beweise benutzen aber zum Teil nichttriviale Techniken der Mengenlehre, auf die
wir in dieser Vorlesung nicht näher eingehen wollen. Wir begnügen uns mit
folgenden Beispielen.
Beispiel 2.2.17 Sei K ein Körper und
V := { (x1 , x2 , . . .) ∈ K N | ∃n : ai = 0 ∀i ≥ n }
der Vektorraum der abbrechenden Folgen mit Werten in K. Für alle i ∈ N liegt
die durch
(
1, i = j
(i)
xj :=
0, i 6= j
(i)
(i)
definierte Folge e(i) := (x1 , x2 , . . .) sicher in V . Man zeigt leicht, dass
B := (e(1) , e(2) , . . .)
eine Basis von V ist. Insbesondere besitzt V eine Basis mit abzählbar unendlich
vielen Elemente.
Die allgemeine Version von Satz 2.2.7 sagt in diesem Fall: jede Basis von V
besitzt abzählbar unendlich viele Elemente.
54
Beispiel 2.2.18 Nun sei W := K N der Vektorraum aller Folgen mit Werten in
K. Sei B = (e(1) , e(2) , . . .) die oben konstruierte Basis des Untervektorraumes
V ⊂ W.
Die allgemeine Version des Basisergänzungssatzes (Korollar 2.2.16) sagt aus:
wir können B zu einer Basis B ′ von ganz W ergänzen. Insbesondere besitzt W
eine Basis.
Man kann aber auch zeigen: jede Basis von W besitzt überabzählbar viele
Elemente.
2.3
Beispiel: Interpolation von Funktionswerten
Interpolation von Funktionswerten ist ein in der Praxis häufig auftretendes
Problem. Es soll hier als typische Anwendung der linearen Algebra und als
Veranschaulichung des Basis- und Dimensionsbegriffes dienen.
Problem 2.3.1 Ein physikalisches Experiment liefert eine Reihe von Messwerten, in Form von n Paaren reeller Zahlen
(x1 , y1 ), . . . , (xn , yn ) ∈ R2 .
Die x-Werte sind paarweise verschieden, xi 6= xj für i 6= j.
Gesucht ist eine möglichst ‘glatte’ und einfach zu berechnende Funktion
f : R → R mit der Eigenschaft
y1 = f (x1 ), . . . , yn = f (xn ).
Die x-Werte xi heißen die Stützstellen des Interpolationsproblems, die yWerte yi die Stützwerte. Die gesuchte Funktion f heißt die Interpolierende.
Es ist ohne zusätzliche Annahmen nicht klar, was man unter einer ‘möglichst
glatten’ Funktion zu verstehen hat. Es sind viele verschiedene Ansätze möglich,
und welche von diesen sinnvoll sind, hängt sehr von den gegebenen Umständen
ab.
Wir beschränken uns im Folgenden auf Polynomfunktionen, i.e. auf Funktionen f : R → R von der Gestalt
f (x) = a0 + a1 x + . . . + an xn ,
mit reellen Zahlen ai ∈ R.
Beispiel 2.3.2 Gegeben sind die Messwerte (1, 2), (2, 1), (3, 1). Gesucht ist also
eine Polynomfunktion f mit
f (1) = 2,
f (2) = 1,
f (3) = 1.
Wir setzen an:
f (x) = a0 + a1 x + a2 x2 .
55
Durch Einsetzen wird man auf folgendes lineare Gleichungssystem in den Unbestimmten a0 , a1 , a2 geführt:
a0 + a1 + a2
=
2
a0 + 2a1 + 4a2
a0 + 3a2 + 9a2
=
=
1
1
Eine kurze Rechnung zeigt, dass dieses Gleichungssystem die eindeutige Lösung
a0 = 4, a1 = −5/2, a2 = 1/2 besitzt. Die gesuchte Funktion ist also
5
1
f (x) = 4 − x + x2 .
2
2
Sie ist eindeutig bestimmt, solange man nur Polynomfunktionen vom Grad ≤ 2
betrachtet.
Diese Vorgehensweise läßt sich natürlich auf eine beliebige Anzahl n von
Messwerten verallgemeinern. Setzt man dann f als eine Polynomfunktion vom
Grad ≤ n−1 an, so erhält man offenbar ein Gleichungssystem mit n Unbestimmten und n Gleichungen. In unserem Bespiel hat dieses Gleichungssystem eine
eindeutige Lösung. Der folgende Satz zeigt, dass dies nicht auf Zufall beruhte.
Satz 2.3.3 Seien n Paare reeller Zahlen (x1 , y1 ), . . . , (xn , yn ) ∈ R2 gegeben, mit
paarweise verschiedenen x-Werten. Dann gibt es genau eine Polynomfunktion
f vom Grad ≤ n − 1 mit
y1 = f (x1 ), . . . , yn = f (xn ).
Wir werden den Beweis dieses Satzes unter Zuhilfenahme des Basis- und
Dimensionsbegriffes führen. Sei
V := { f : R → R | f (x) = a0 + a1 x + . . . + an−1 xn−1 }
der R-Vektorraum aller Polynomfunktionen vom Grad ≤ n − 1. Wir wollen
zunächst eine Basis von V bestimmen.
Sei
B := (1, x, x2 , . . . , xn−1 )
das System aller Monome in x vom Grad ≤ n − 1 (die wir als Funktionen, also
als Elemente von V auffassen). Offenbar ist B ein Erzeugendensystem von V :
nach Definition von V ist eine Funktion f Element von V genau dann, wenn sie
Linearkombination von B ist.
Wir behaupten, dass B auch linear unabhängig und somit eine Basis von V
ist. Es ist zu zeigen: ist eine Polynomfunktion vom Grad ≤ n − 1 identisch Null,
d.h.
f (x) = a0 + a1 x + . . . + an−1 xn−1 = 0, für alle x ∈ R,
56
so sind auch alle Koeffizienten Null, a0 = . . . = an−1 = 0. Dies ist sicher
eine bekannte Tatsache; der Beweis derselben liegt aber nicht so einfach auf der
Hand.
Wir wollen den Beweis der linearen Unabhängigkeit von B für einen Moment zurückstellen und zuerst einen anderen Kandidaten für eine Basis von V
vorstellen. Für i = 0, . . . , n − 1 setzen wir
σi (x) := (x − x1 )(x − x2 ) · · · (x − xi ).
Für kleine Werte von i haben wir
σ0 (x) = 1,
σ1 (x) = x − x1 ,
σ2 (x) = (x − x1 )(x − x2 ) = x2 − (x1 + x2 ) x + x1 x2 .
Offenbar ist σi eine Polynomfunktion vom Grad i ≤ n − 1, und damit ein
Element von V . Wir nennen σi das ite Newtonsche Interpolationspolynom und
setzen
B ′ := (1, σ1 , . . . , σn−1 ).
Lemma 2.3.4 Das System B ′ der Newtonschen Interpolationspolynome ist linear unabhängig.
Beweis: Entscheidend sind die Werte der Funktion σi an den Stützstellen
x1 , . . . , xn . Nach Definition von σi gilt
σi (xj ) = 0,
für j = 1, . . . , i,
(36)
und, da die xj paarweise verschieden sind,
σi (xj ) = (xj − x1 ) · · · (xj − xi ) 6= 0,
für j = i + 1, . . . , n.
(37)
Wir nehmen nun an, dass eine gewisse Linearkombination der σi identisch Null
ist:
b0 + b1 σ1 (x) + . . . + bn−1 σn−1 (x) = 0,
für alle x ∈ R.
(38)
Setzt man in (38) den Wert x = x1 ein, so erhält man wegen (36) die Gleichung
b0 = 0.
(39)
Setzt man x = x2 ein, so erhält man
b0 + b1 σ1 (x2 ) = 0.
Unter Verwendung von (37) und (39) folgt sofort b0 = b1 = 0.
Es ist klar, dass man nach dem gleichen Muster
b0 = b1 = . . . = bn−1 = 0
schließen kann. Damit ist die lineare Unabhängigkeit von B ′ bewiesen.
57
2
Proposition 2.3.5 Sowohl
B = (1, x, . . . , xn−1 )
als auch
B ′ = (1, σ1 , . . . , σn−1 )
ist eine Basis von V . Insbesondere gilt
dimR V = n.
Beweis: Wir haben schon bemerkt, dass B ein Erzeugendensystem von V
ist. Nach dem Basisauswahlsatz (Korollar 2.2.11) kann man aus B ein Teilsystem
auswählen, das eine Basis von V ist. So eine Basis hat höchstens n Elemente,
also gilt
dimR V ≤ n.
(40)
Zusätzlich gilt: im Fall dimR V = n ist B ein unverkürzbares Erzeugendensystem, also eine Basis.
Andererseits folgt aus Lemma 2.3.4, dass das System B ′ linear unabhängig
ist. Nach dem Basisergänzungssatz (Korollar 2.2.16) kann man B ′ zu einer Basis
von V ergänzen. So eine Basis hat mindestens n Elemente, also gilt
dimR V ≥ n.
(41)
Zusätzlich gilt: im Fall dimR V = n ist B ′ unverlängerbar linear unabhängig,
also ein Basis.
Aus (40) und (41) zusammen folgt nun dimR V = n und dass sowohl B als
auch B ′ eine Basis von V ist.
2
Nach diesen Vorbereitungen ist der Beweis von Satz 2.3.3 ganz leicht.
Beweis: (von Satz 2.3.3) Die gesuchte Polynomfunktion f ist ein Element
des Vektorraumes V . Da B ′ eine Basis von V ist, kann man f als Linearkombination der Polynome σi schreiben:
f = b0 + b1 σ1 (x) + . . . + bn−1 σn−1 (x).
(42)
Die Koeffizienten bi ∈ R sind durch die Funktion f eindeutig bestimmt. Die
Bedingungen
y1 = f (x1 ), . . . , yn = f (xn )
führen, durch Einsetzen in (42), auf ein lineares Gleichungssystem in den Unbestimmten b0 , . . . , bn−1 . Wegen (37) hat dieses Gleichungssystem aber ‘untere
Dreiecksform’:
b0
b0
..
.
+ σ1 (x2 ) b1
..
.
b0
+ σ1 (xn ) b1
=
=
..
.
+ . . . + σn−1 (xn ) bn−1
58
y1
y2
..
.
= yn
(43)
Zusätzlich gilt: die Einträge auf der Diagonalen sind ungleich Null:
σi (xi+1 ) = (xi+1 − x1 ) · · · (xi+1 − xi ) 6= 0.
Man sieht sofort, dass deshalb das Gleichungssystem (43) eine eindeutige Lösung
besitzt:
b0
= y1 ,
b1
=
b2
=
y2 − y1
1
,
(y2 − b0 ) =
σ1 (x2 )
x2 − x1
1
(y3 − b0 − σ1 (x3 ) b1 ) = . . .
σ2 (x3 )
..
.
Damit ist die Existenz und Eindeutigkeit der gesuchten Interpolationsfunktion
f bewiesen.
2
Aus dem Satz 2.3.3 folgt nun sofort der folgende elementare, aber wichtige
Satz der Algebra.
Korollar 2.3.6 Eine Polynomfunktion f : R → R vom Grad n,
f = a0 + a1 x + . . . + an xn ,
an 6= 0,
kann höchstens n verschiedene Nullstellen haben.
Beweis: Es seien x1 , . . . , xr die (paarweise verschiedenen) Nullstellen von
f . Angenommen, es gilt r > n. Wir betrachten nun das Interpolationsproblem
zu den ‘Messwerten’ (x1 , 0), . . . , (xn+1 , 0). Offenbar ist die Polynomfunktion f
eine Lösungs dieses Problems vom Grad n. Andererseits ist die Nullfunktion
auch eine Lösung (vom Grad 0 ≤ n). Der Satz 2.3.3 sagt aber, dass genau
eine Lösung existiert. Also gilt f (x) = 0 für alle x ∈ R. Da das System der
Polynomfunktionen B = (1, x, . . . , xn ) aber linear unabhängig ist (Proposition
2.3.5), folgt a0 = a1 = . . . = an = 0. Dies widerspricht der Annahme an 6= 0,
und das Korollar ist bewiesen.
2
Zum Schluss kommen wir noch einmal auf das Beispiel 2.3.2 zurück. Wir
suchten nach einer Polynomfunktion f vom Grad ≤ 2 mit
f (1) = 2,
f (2) = 1,
f (3) = 1.
Die Newtonschen Interpolationspolynome zu den Stützstellen x1 = 1, x2 =
2, x3 = 3 sind
σ0 (x) = 1,
σ1 (x) = x − 1,
σ2 (x) = (x − 1)(x − 2) = x2 − 3x + 2.
Der Ansatz
f (x) = b0 + b1 σ1 (x) + b2 σ2 (x)
59
führt zu dem Gleichungssystem
b0
b0
b0
+ b1
+ 2b1
+ 2b2
=
=
=
2
1
1
Dieses Gleichungssystem läßt sich sehr leicht lösen: es hat die eindeutige Lösung
b0 = 2, b1 = −1, b2 = 1/2. Die gesuchte Funktion ist daher
5
1
1
f (x) = 2 − (x − 1) + (x − 1)(x − 2) = 4 − x + x2 .
2
2
2
2.4
Lineare Abbildungen und Matrizen
Im Folgenden sei K ein beliebiger Körper. Wir betrachten eine (m, n)-Matrix
A = (ai,j ) ∈ Mm,n (K)
mit Einträgen in K. Wir haben bereits mehrere mögliche Interpretationen einer
solchen Matrix kennengelernt:
• A definiert ein homogenes lineares Gleichungssystem in den Unbestimmten
x1 , . . . , xn :
a1,1 x1 + . . . + a1,n xn = 0
..
..
..
.
.
.
am,1 x1
+ ... +
am,n xn
=
0
Hier betrachtet man die Matrix A zeilenweise; jede Zeile entspricht einer
Gleichung des Gleichungssystems. Eine kompakte Schreibweise des Gleichungssystems ist A · x = 0, wobei x = (x1 , . . . , xn ) ∈ K n .
• Es sei vj ∈ K m die jte Spalte von A, also vj = (a1,j , . . . , am,j ) (Schreibweise: A = (v1 | . . . |vn )). Für x = (x1 , . . . , xn ) ∈ K n gilt dann:
A · x = x1 · v1 + . . . + xn · vn .
Das Produkt A · x der Matrix A mit dem Vektor x ist also die Linearkombination der Spaltenvektoren v1 , . . . , vn , deren Koeffizienten durch die
Einträge von x gegeben sind.
• Die Matrix A definiert eine lineare Abbildung
φ : K n → K m,
x 7→ A · x.
Der Kern von φ ist offenbar die Lösungsmenge des Gleichungssystems
A·x = 0. Das Bild von φ ist das Erzeugnis der Spaltenvektoren v1 , . . . , vn .
Die dritte Sichtweise wollen wir noch etwas verallgemeinern. Dazu seien V
und W zwei endlich erzeugte K-Vektorräume und
φ:V →W
60
eine K-lineare Abbildung. Wir wählen eine Basis A = (v1 , . . . , vn ) von V und
eine Basis B = (w1 , . . . , wm ) von W . Für j = 1, . . . , n ist dann φ(vj ) ein Element
aus W , besitzt also eine eindeutige Darstellung als Linearkombination der Basis
B. Wir schreiben die Koeffizienten dieser Linearkombination in die jte Spalte
einer Matrix A ∈ Mm,n (K). Mit anderen Worten: A = (ai,j ) ist bestimmt
durch
m
X
ai,j · wi ,
j = 1, . . . , n.
(44)
φ(vj ) =
i=1
Definition 2.4.1 Die durch (44) definierte Matrix A = (ai,j ) ∈ Mm,n (K) heißt
die darstellende Matrix der linearen Abbildung φ : V → W , bezüglich der Basen
A und B. Schreibweise:
A = MBA (φ).
Dieser Name ist gerechtfertigt durch den folgenden Satz.
Satz 2.4.2 Sei φ : V → W eine K-lineare Abbildung zwischen endlich erzeugten
K-Vektorräumen. Sei
A = MBA (φ)
die darstellende Matrix bezüglich einer Basis A = (v1 , . . . , vn ) von V und einer
Basis B = (w1 , . . . , wm ) von W . Sei
v = x1 · v1 + . . . + xn · vn
ein Element aus V und
w := φ(v) = y1 · w1 + . . . + ym · wm
das Bild unter der Abbildung φ. Dann gilt
   
y1
x1
 ..   .. 
A ·  .  =  . .
ym
xn
Mit anderen Worten: identifiziert man V mit K n (durch Wahl der Basis A) und
W mit K m (durch Wahl der Basis B), so ist die lineare Abbildung φ : V → W
durch die Vorschrift φ(x) = A · x bestimmt.
Beweis: Unter Ausnutzung der Linearität von φ und der Definition 2.4.1
erhalten wir
n
n
X
X
xj · φ(vj )
xj · vj ) =
w = φ(v) = φ(
=
n
X
j=1
xj ·
j=1
m
X
i=1
j=1
m
X
ai,j · wi =
61
i=1
n
X
j=1
ai,j xj · wi .
(45)
Bei der letzten Umformung haben wir zudem die Kommutativität und Assoziativität der Vektoraddition sowie das Distributivgesetz der Skalarmultiplikation
ausgenutzt. Aus (45) folgt durch Koeffizientenvergleich
yi =
n
X
ai,j xj ,
i = 1, . . . , m.
(46)
j=1
Nach Definition des Produktes einer Matrix mit einem Vektor ist (46) äquivalent
zur Gleichung A · x = y, wobei x = (x1 , . . . , xn ) und y = (y1 , . . . , ym ).
2
Beispiel 2.4.3 Sei V = K n , mit der Standardbasis A = (e1 , . . . , en ), und
W = K m , mit der Standardbasis B = (e′1 , . . . , e′m ) (siehe Beispiel 2.2.6). Sei
A ∈ Mm,n (K) und φ : V → W die durch φ(x) := A · x definierte lineare
Abbildung. Dann gilt
A = MBA (φ).
Zur Verifikation dieser Behauptung braucht man sich nur klarzumachen, dass
das Produkt der Matrix A mit dem Standardvektor ej ∈ K n der jten Spalte
von A entspricht:
 
0

 . 

a1,1 · · · a1,n
a1,j
 .. 


..  · 
   . 
A · ej =  ...
.  1 =  ..  .
.
am,1 · · · am,n
am,j
 .. 
0
Daraus folgt sofort
φ(ej ) = A · ej = a1,j · e′1 + . . . + am,j · e′m ,
j = 1, . . . , n.
Beispiel 2.4.4 Sei V der R-Vektorraum der Polynomfunktionen vom Grad ≤ 3.
Sei B = (1, x, x2 , x3 ) die Standardbasis von V der Monome. Sei φ : V → V
die lineare Abbildung φ(f ) = f ′ (die Ableitung). Anwenden von φ auf die
Basiselemente ergibt:
φ(1) = 0,
φ(x) = 1,
φ(x2 ) = 2x,
Schreibt man diese Funktionen wieder als
(1, x, x2 , x3 ) und stellt die Koeffizienten in
erhält man

0 1
0 0
B
MB (φ) = 
0 0
0 0
62
φ(x3 ) = 3x2 .
Linearkombination der Basis B =
die Spalten einer (4, 4)-Matrix, so

0 0
2 0
.
0 3
0 0
Satz 2.4.5 Sei
φ:V →W
eine lineare Abbildung zwischen endlich erzeugten K-Vektorräumen.
(i) Es gibt Basen A = (v1 , . . . , vn ) von V und B = (w1 , . . . , wm ) von W sowie
eine Zahl r ∈ N0 , 0 ≤ r ≤ n, m, so dass


E
0
r


B
(47)
MA
(φ) = 
.
0
0
Hierbei ist

1
0

Er =  .
 ..
0
0
1
···
···
..
.
···
0

0
0

.. 
.
1
die Einheitsmatrix vom Rang r; die drei Einträge 0 in (47) stehen jeweils
für die Nullmatrix der Dimension (r, n − r), (m − r, r) und (m − r, n − r).
(ii) Die Zahl r in (i) hängt nicht von der Wahl der Basen A und B ab. Sie ist
eindeutig bestimmt durch
r = dimK Bild(φ) = dimK V − dimK Kern(φ).
Korollar 2.4.6 (Dimensionsformel) Mit den Bezeichnungen von Satz 2.4.5
gilt:
dimK V = dimK Kern(φ) + dimK Bild(φ).
Beweis: Sei s := dimK Kern(φ) die Dimension von Kern(φ). Setze
r := n − s = dimK V − s.
Wir wählen eine Basis von Kern(φ) und ergänzen diese zu einer Basis A =
(v1 , . . . , vn ) von V (Basisergänzungssatz!). Dabei numerieren wir die Elemente
von A so, dass das Teilsystem (vr+1 , . . . , vn ) die zuerst gewählte Basis von
Kern(φ) ist. Man beachte, dass 0 ≤ r, s ≤ n.
Für i = 1, . . . , r setzen wir wi := φ(vi ) ∈ W .
Behauptung: Das System (w1 , . . . , wr ) ist linear unabhängig.
Zum Beweis der Behauptung nehmen wir an, dass wir Skalare λ1 , . . . , λr ∈ K
mit
λ1 · w1 + . . . + λr · wr = 0
gegeben haben. Unter Ausnutzung der Definition von wi und der Linearität von
φ erhalten wir
0 = λ1 · φ(v1 ) + . . . + λr · φ(vr ) = φ(λ1 · v1 + . . . + λr · vr ).
63
Also ist λ1 ·v1 +. . .+λr ·vr ein Element von Kern(φ). Es gibt also µ1 , . . . , µs ∈ K
mit
λ1 · v1 + . . . + λr · vr = µ1 · vr+1 + . . . + µs · vn .
Da (v1 , . . . , vn ) eine Basis, also insbesondere linear unabhängig ist, folgt λ1 =
. . . = λr = 0. Damit ist die Behauptung bewiesen.
Wir können das linear unabhängige System (w1 , . . . , wr ) zu einer Basis B =
(w1 , . . . , wm ) von W ergänzen (Basisergänzungssatz!). Insbesondere gilt m =
dimK W ≥ r. Aus der Gleichung
(
wj für j = 1, . . . , r,
φ(vj ) =
0
für j = r + 1, . . . , n.
B
folgt sofort, dass die darstellende Matrix MA
(φ) die in (i) behauptete Gestalt
hat. Teil (i) des Satzes ist also bewiesen. Die Gleichheit r = dimk V −
dimK Kern(φ) gilt nach Definition. Aus dem Beweis von (i) folgt leicht:
Bild(φ) = hw1 , . . . , wr i.
Insbesondere gilt r = dimK Bild(φ). Damit ist auch Teil (ii) des Satzes bewiesen.
2
Definition 2.4.7 Die Zahl r aus Satz 2.4.5 heißt der Rang der linearen Abbildung φ : V → W . Schreibweise:
r = Rang(φ).
2.5
Matrizenmultiplikation
Seien m, n, r ∈ N natürliche Zahlen und A ∈ Mm,n (K), B ∈ Mn,r (K) zwei
Matrizen der angegebenen Dimensionen. Wir erhalten lineare Abbildungen
φ : K n → K m,
ψ : K r → K n,
y 7→ A · y,
x 7→ B · x.
Da der Definitionsbereich der ersten Abbildung gleichzeitig der Zielbereich der
zweiten Abbildung ist, kann man die Verkettung
φ ◦ ψ : K r → K m,
x 7→ A · (B · x)
definieren. Man zeigt leicht, dass mit φ und ψ die Verkettung φ◦ψ wieder eine Klineare Abbildung ist. Nach Satz 2.4.2 und Beispiel 2.4.3 gibt es also eine Matrix
C ∈ Mm,r (K), die die lineare Abbildung φ ◦ ψ bezüglich der Standardbasen von
K m und K r darstellt. Mit anderen Worten: für alle x ∈ K r gilt
C · x = A · (B · x).
64
(48)
Die Formel (48) legt uns nahe, die Matrix C als das Produkt der Matrizen A
und B aufzufassen, also A · B := C zu setzen. Mit dieser Definition würde die
Formel (48) wie ein ‘Assoziativgesetz’ aussehen:
(A · B) · x = A · (B · x).
(49)
Und genau so gehen wir vor: schreibe A = (ai,j ) und B = (bj,k ) (man
beachte, dass hier und im Folgenden i ∈ {1, . . . , m}, j ∈ {1, . . . , n} und k ∈
{1, . . . , r} gilt). Für einen Vektor x = (x1 , . . . , xr ) ∈ K r gilt dann:
 
y1
r
X
 .. 
B · x =  . ,
mit yj =
bj,k xk .
k=1
yn
Daraus folgt

  
y1
z1
   
A · (B · x) = A ·  ...  =  ...  ,
yn
mit
zi =
=
n
X
j=1
n
X
ai,j yj =
n X
r
X
zn
ai,j bj,k xk
j=1 k=1
ci,k xk ,
mit
ci,k :=
n
X
ai,j bj,k .
j=1
j=1
Definition 2.5.1 Seien m, n, r ∈ N und A = (ai,j ) ∈ Mm,n (K), B = (bj,k ) ∈
Mn,r (K) zwei Matrizen der angegebenen Dimension. Das Matrizenprodukt A·B
ist dann die Matrix C = (ci,k ) ∈ Mm,r (K) mit den Einträgen
ci,k =
n
X
ai,j bj,k ,
i = 1, . . . , m, k = 1, . . . , r.
j=1
Das Matrizenprodukt definiert also eine ‘Verknüpfung’
Mm,n (K) × Mn,r (K) → Mm,r (K),
(A, B) 7→ A · B.
Beispiel 2.5.2 Sei K := Q und
2
A :=
1


−1 0
1 .
B :=  1
0 −1
0 1
,
0 1
Das Produkt A · B ist dann die (2, 2)-Matrix
−2 −1
A·B =
.
−1 −1
Das Produkt B · A ist eine (3, 3)-Matrix.
65
Beispiel 2.5.3 Für α ∈ R sei
φα : R2 → R2
die Drehung der Euklidischen Ebene um den Winkel α (gegen den Uhrzeigersinn,
der Ursprung (0, 0) ist der Fixpunkt der Drehung). Durch elementargeometrische Überlegungen zeigt man:
• φα ist eine R-lineare Abbildung,
• die Bilder der Standardvektoren e1 = (1, 0) und e2 = (0, 1) sind
cos α
− sin α
φα (e1 ) =
,
φα (e2 ) =
.
sin α
cos α
Es folgt, dass
φα (x) = Aα · x,
mit Aα =
Für α, β ∈ R gilt offenbar

cos α cos β − sin α sin β
Aα · Aβ = 
sin α cos β + cos α sin β
cos α − sin α
.
sin α cos α

−(sin α cos β + cos α sin β)
.
cos α cos β − sin α sin β
(50)
Andererseits stellt das Produkt Aα · Aβ die Verkettungsabbildung φα ◦ φβ dar.
Die Hintereinanderausführung einer Drehung um den Winkel β und einer Drehung um den Winkel α ist aber offenbar eine Drehung um den Winkel α + β. Es
folgt
Aα+β = Aα · Aβ ,
also die bekannten Additionsgesetze
sin(α + β) = sin α cos β + cos α sin β,
cos(α + β) = cos α cos β − sin α sin β.
Wir haben die Matrizenmultiplikation so definiert, dass sie der Hintereinanderausführung der zugehörigen linearen Abbildungen entspricht. Die abstrakte
Formulierung dieses Sachverhaltes ist die folgende Kettenregel.
Satz 2.5.4 (Kettenregel) Seien
φ : V → W,
ψ:U →V
K-lineare Abbildungen zwischen endlich dimensionalen Vektorräumen U, V, W .
Sei A eine Basis von U , B eine Basis von V und C eine Basis von W . Dann gilt
MCB (φ) · MBA (ψ) = MCA (φ ◦ ψ).
66
Beweis: Dieser ‘Satz’ ist nichts weiter als eine Umformulierung der Assoziativregel (49). Um das einzusehen, muss man aber etwas Notation einführen.
Zuerst geben wir den Vektoren der drei Basen Namen:
A = (u1 , . . . , ur ),
B = (v1 , . . . , vn ),
C = (w1 , . . . , wm ).
Nun sei u ∈ U ein beliebiger Vektor, v := ψ(u) ∈ V und w := φ(v) ∈ W . Nach
Definition gilt dann
w = φ(v) = φ(ψ(u)) = (ψ ◦ φ)(u).
(51)
Sei x = (x1 , . . . , xr ) ∈ K r der Koordinatenvektor von u bezüglich der Basis A, y = (y1 , . . . , yn ) ∈ K n der Koordinatenvektor von v bzgl. B und z =
(z1 , . . . , zm ) ∈ K m der Koordinatenvektor von w bzgl. C. Es gilt also
u=
r
X
xk uk ,
v=
n
X
yj vj ,
m
X
zi wi .
i=1
j=1
k=1
w=
Dann setzen wir noch
A := MCB (φ),
B := MBA (ψ),
C := MCA (φ ◦ ψ).
Nach Definition 2.4.1 gilt dann
y = B·x
(wegen v = ψ(u)),
z = A·y
= C ·x
(wegen w = φ(v)),
(wegen w = φ ◦ ψ(u)).
Aus der Formel (49) folgt also
C · x = A · y = A · (B · x) = (A · B) · x,
für alle x ∈ K r (da der Vektor u ∈ U beliebig war). Daraus folgt C = A · B,
was zu zeigen war.
2
Die folgende Proposition stellt ein paar elementare Regeln für das Rechnen
mit Matrizen zusammen.
Proposition 2.5.5 Es seinen Matrizen A, A′ ∈ Mm,n (K), B, B ′ ∈ Mn,r (K)
und C ∈ Mr,s (K) gegeben. Dann gilt:
(i) (Distributivgesetz)
A · (B + B ′ ) = A · B + A · B ′ ,
(A + A′ ) · B = A · B + A′ · B,
(ii) (Assoziativgesetz)
(A · B) · C = A · (B · C).
67
(iii) (Neutralität der Einheitsmatrix)
Em · A = A · En = A.
Beweis: Wir zeigen exemplarisch die erste Formel in (i). Schreibe
A · (B + B ′ ) = (ci,k ) und
A · B + A · B ′ = (c′i,k ).
Für alle i, k gilt dann:
ci,k =
n
X
ai,j (bj,k + b′j,k ) =
n
X
i=1
j=1
ai,j bj,k +
n
X
ai,j b′j,k = c′i,k .
j=1
Es folgt A · (B + B ′ ) = A · B + A · B ′ .
2
Im Allgemeinen kann man zwei Matrizen nur durch Addition und Multiplikation verknüpfen, wenn die Dimensionen ‘passen’. Betrachtet man dagegen
quadratische Matrizen einer festen Dimension, so entfällt diese Beschränkung.
Für jedes n ∈ N erhält man also zwei Verknüpfungen auf der Menge Mn,n (K):
+, · : Mn,n (K) × Mn,n (K) → Mn,n (K).
Die Proposition 2.5.5 zeigt:
Korollar 2.5.6 Die Menge Mn,n (K), versehen mit der Matrizenaddition und
-multiplikation, ist ein Ring mit Einselement En .
Bemerkung 2.5.7
(i) Für n ≥ 2 ist der Ring Mn,n (K) niemals kommutativ, wie das folgende
Beispiel zeigt:
0 1
1 1
0 1
·
=
,
1 0
0 1
1 1
1 1
0 1
1 1
·
=
.
0 1
1 0
1 0
(ii) Für n ≥ 2 ist der Ring Mn,n (K) auch nicht nullteilerfrei:
0 1
0 1
·
= 0.
0 0
0 0
(iii) Unsere Konvention über Ringe erlaubt uns, die Nullmatrix in Mn,n (K)
mit 0 und die Einheitsmatrix mit 1 zu bezeichnen. Darüberhinaus ist
auch sinnvoll, die Matrix


λ 0 ··· 0
0 λ · · · 0


 ..
.. 
..
.
. .
0 ···
0 λ
68
für λ ∈ K einfach mit λ zu bezeichnen. Man erhält dann sofort die
Rechenregel
λ · A = A · λ.
Außerdem ist die Abbildung
K → Mn,n (K),
λ 7→ λ,
ein injektiver Ringhomomorphismus, d.h. nach Identifizierung von Körperelementen λ ∈ K mit der entsprechenden Diagonalmatrix ist K ein Unterring von Mn,n (K). Man sagt auch, dass Mn,n (K) eine K-Algebra ist.
Invertierbare Matrizen
Definition 2.5.8 Eine quadratische Matrix A ∈ Mn,n (K) heißt invertierbar,
wenn es eine Matrix B ∈ Mn,n (K) gibt mit
A · B = B · A = En .
Mit anderen Worten: A ist eine Einheit des Rings Mn,n (K). Die Matrix B ist
in diesem Fall eindeutig durch A bestimmt und heißt die inverse Matrix zu A.
Schreibweise:
A−1 := B.
Die Menge aller invertierbaren (n, n)-Matrizen bezeichnen wir mit GLn (K).
Bemerkung 2.5.9 (i) Sind A, B ∈ GLn (K) invertierbare Matrizen derselben Dimension, so ist das Produkt A · B wieder invertierbar, und es gilt
(A · B)−1 = B −1 · A−1 .
(ii) Die Multiplikation · definiert eine assoziative (aber im Allgemeinen nicht
kommutative) Verknüpfung auf der Menge GLn (K), mit neutralem Element 1 = En und inversem Element A−1 . So eine Struktur nennt man
eine Gruppe.
(iii) Vorsicht: die Addition + läßt sich nicht auf die Menge GLn (K) einschränken: ist z.B. A ∈ GLn (K), so gilt auch −A ∈ GLn (K), aber
A + (−A) = 0 liegt nicht in GLn (K).
Satz 2.5.10 Sei A ∈ Mn,n (K) eine quadratische Matrix. Dann sind die folgenden Bedingungen äquivalent.
(a) A ist invertierbar.
(b) Kern(A) := { x ∈ K n | A · x = 0 } = {0}.
(c) Bild(A) := { A · x | x ∈ K n } = K n .
69
Beweis: Sei φ : K n → K n die durch φ(x) := A · x definierte lineare Abbildung. Aus der Dimensionsformel, angewendet auf φ, folgt:
⇔
dimK Bild(A) = n
dimK Kern(A) = 0.
Daraus folgt sofort die Äquivalenz von (b) und (c).
Wir beweisen nun die Implikation (a)⇒(b). Angenommen, A ist invertierbar,
und x ∈ Kern(A), d.h. A · x = 0. Es folgt
0 = A−1 · x = A−1 · (A · x) = (A−1 · A) · x = En · x = x.
Dies zeigt Kern(A) = {0}, also (b).
Zum Schluss die Implikation (b)⇒(a). Wir nehmen also an, dass Kern(A) =
{0}. Die lineare Abbildung φ : K n → K n , x 7→ A · x, ist dann injektiv. Wegen
der Äquivalenz (b)⇔(c) gilt zusätzlich Bild(A) = K n , d.h. die Abbildung φ ist
auch surjektiv. Also ist φ bijektiv und besitzt eine Umkehrabbildung φ−1 mit
φ ◦ φ−1 = φ−1 ◦ φ = IdV .
(52)
In den Übungen haben wir gesehen, dass die Umkehrabbildung einer bijektiven
linearen Abbildung wieder linear ist. Daher gibt es eine (eindeutig bestimmte)
Matrix B ∈ Mn,n (K) mit
φ−1 (y) = B · y,
für alle y ∈ K n .
Aus (52) folgt nun
A · B = B · A = En .
Dies zeigt, dass A invertierbar ist (und dass B = A−1 ).
2.6
2
Basiswechsel
Definition 2.6.1 Sei V ein endlich erzeugter K-Vektorraum, n := dimK (V )
und A, B zwei Basen von V . Dann heißt die Matrix
TBA := MBA (IdV ) ∈ Mn,n (K)
die Transfomationsmatrix des Basiswechsels von A nach B.
Die Transformationsmatrix TBA hat die folgende Interpretation. Sei A =
(v1 , . . . , vn ) und B = (w1 , . . . , wn ). Jeder Vektor v ∈ V läßt sich auf eindeutige
Weise als Linearkombination von A und von B schreiben:
v=
n
X
xi vi =
n
X
yi wi ,
i=1
i=1
mit xi , yi ∈ K. Zu den Basen A und B gehört also jeweils eine Koordinatendarstellung von v durch einen Vektor aus K n . Das Umrechnen der einen
70
Koordinatendarstellung in die andere erfolgt durch Multiplikation mit der Matrix T :
 
 
y1
x1
 .. 
A  .. 
=
T
·
 . 
B  . .
ym
xn
Beispiel 2.6.2 Sei V = R2 die Euklidische Standardebene, E = (e1 , e2 ) die
Standardbasis von V und B = (w1 , w2 ) die Basis mit den Vektoren
1
−1
w1 :=
, w2 :=
.
1
1
Offenbar gilt
w2 = −e1 + e2 ,
w1 = e1 + e2 ,
und daher
TEB
Umgekehrt gilt
e1 =
und daher
1
=
1
−1
.
1
1
1
1
1
w1 − w2 , e2 = w1 + w2 ,
2
2
2
2
1 1
2
2 .
TBE =
− 21 12
Nun sei v = (1, 2) = e1 + 2e2 ∈ V . Dann gilt
v = y1 · w1 + y2 · w2 ,
wobei
3
1
y1
= TBE ·
= 21 .
2
y2
2
Die ‘Geometrie’ des Koordinatenwechsels von den x-Koordinaten (bzgl. der
Standardbasis) in die y-Koordinaten (bzgl. der Basis B) macht man sich am
Besten durch das Bild 5 klar.
Bemerkung 2.6.3 Sei V ein endlich dimensionaler K-Vektorraum und A, B, C
drei Basen von V . Aus der Kettenregel (Satz 2.5.4) folgt:
TCB · TBA = TCA .
Insbesondere gilt
TAB · TBA = TAA = En ,
TBA · TAB = TBB = En .
Eine Transfomationsmatrix ist also immer invertierbar, und es gilt:
(TAB )−1 = TBA .
71
(53)
x2
6
y2
I
y1
v
x
- 1
Figure 5:
Aus der Kettenregel (Satz 2.5.4) folgt sofort:
Satz 2.6.4 (Basiswechsel) Sei
φ:V →W
eine lineare Abbildung zwischen endlich dimensionalen K-Vektorräumen. Seien
A, A′ Basen von V und B, B ′ Basen von W . Dann gilt
′
′
MBA′ (φ) = TBB′ · MBA (φ) · TAA .
Korollar 2.6.5 Seien m, n ∈ N. Zu jeder (m, n)-Matrix A ∈ Mm,n (K) gibt es
invertierbare Matrizen S ∈ GLm (K) und T ∈ GLn (K) mit


0 
 Er
S·A·T =
,
0
0
wobei
r = dimK Bild(A) = n − dimK Kern(A).
Beweis: Sei φ : K n → K m die lineare Abbildung φ(x) = A · x. Seien Em
und En die Standardbasen von K m und K n . Dann gilt
n
A = MEEm
(φ).
72
Andererseit gibt es nach Satz 2.4.5 eine Basis A von K n und eine Basis B von
K n mit


0
E
r


MBA (φ) = 
,
0
0
mit r wie in der Behauptung. Setzt man S := TBEm ∈ GLm (K) und T := TEAn ,
so folgt die Behauptung aus Satz 2.6.4.
2
Definition 2.6.6 Für A ∈ Mm,n (K) heißt
Rang(A) := dimK Bild(A) = n − dimK Kern(A)
der Rang der Matrix A.
2.7
Elementarmatrizen
Sei K ein beliebiger Körper und m, n ∈ N. Wir definieren gewisse quadratische
Elementarmatrizen der Dimension m. Die Multiplikation einer (m, n)-Matrix
A von links mit so einer Elementarmatrix entspricht dann einer elementaren
Zeilenoperation auf A, wie sie beim Gauss-Algorithmus auftreten. Als Folgerung
erhalten wir u.A. ein praktisches Verfahren zum Invertieren von Matrizen.
Sei A = (ai,j ) ∈ Mm,n (K). Für ein festes i ∈ {1, . . . , n} und λ ∈ K, λ 6= 0,
sei


1


..


.




Si (λ) := 
λ



..


.
1
die Diagonalmatrix mit dem Eintrag λ an der iten Stelle und einer 1 an den
restlichen Stellen (alle Einträge außerhalb der Diagonalen sind Null). Dann ist
offenbar


a1,1 · · · a1,n
 ..
.. 
 .
. 



Si (λ) · A = λai,1 · · · λai,n 

 .
.. 
 ..
. 
am,1 · · · am,n
die aus A durch Multiplikation der iten Zeile mit λ hervorgeht.
Nun seien i, j ∈ {1, . . . , m}, i 6= j und λ ∈ K (nicht notwendigerweise von
73
Null verschieden). Wir setzen
Qji (λ)



:= 


1
..
.
λ
..
.






1
(auf der Diagonalen steht überall 1, der (i, j)-Eintrag ist gleich λ, sonst sind
alle Einträge Null). Dann ist


a1,1
···
a1,n


..
..


.
.


j

Qi (λ) · A = ai,1 + λaj,1 · · · ai,n + λaj,n 



..
..


.
.
am,1
···
am,n
die Matrix, die aus A durch Addition des λ-fachen der jten Zeile zur iten Zeile
hervorgeht.
Schließlich sei für i, j ∈ {1, . . . , n}, i 6= j, Pij = (ck,l ) ∈ Mm,m (K) die Matrix
mit den Einträgen


1 k = l 6∈ {i, j},
ck,l = 1 k = i, l = j oder k = k, l = i,


0 sonst.
Dann ist
Pij · A
die Matrix, die aus A durch Vertauschen der iten mit der jten Zeile hervorgeht.
Definition 2.7.1 Die Matrizen Si (λ), Qji (λ), Pij ∈ Mm,m (K) heißen die Elementarmatrizen der Dimension m.
Bemerkung 2.7.2
gilt
(i) Die Elementarmatrizen sind alle invertierbar, und es
Si (λ)−1 = Si (λ−1 ),
Qji (λ)−1 = Qji (−λ),
(Pij )−1 = Pij .
(ii) Ist A ∈ Mm,n (K) eine beliebige (m, n)-Matrix und S ∈ GLm (K) eine
Elementarmatrix, so geht das Produkt
A′ := S · A
aus A durch eine elementare Zeilenoperation (Definition 1.3.1) hervor.
74
Satz 2.7.3 Sei A ∈ Mm,n (K). Dann gibt es eine invertierbare Matrix S ∈
GLm (K), so dass die Matrix
A′ := S · A
in normalisierter Zeilenstufenform ist (siehe Definition 1.3.3). Dabei ist S das
Produkt einer Folge S1 , . . . , Sr ∈ GLm (K) von Elementarmatrizen:
S = S1 · . . . · Sr .
Beweis: Das ergibt sich sofort aus der Bemerkung 2.7.2 und dem GaussAlgorithmus (Lemma 1.3.4).
2
Korollar 2.7.4 Jede invertierbare Matrix ist das Produkt von Elementarmatrizen.
Beweis: Sei A ∈ Mn,n (K) eine (n, n)-Matrix. Nach Satz 2.7.3 gibt es eine
invertierbare Matrix, Produkt von Elementarmatrizen,
S = S1 · . . . · Sr ∈ GLn (K)
so dass A′ := S · A ∈ Mn,n (K) in normalisierter Zeilenstufenform ist. Da S
invertierbar ist, gilt
Kern(A′ ) = Kern(A).
Insbesonders haben A und A′ denselben Rang. Der Rang von A′ ist offenbar
die Anzahl der Pivots (siehe Definition 1.3.1).
Angenommen, A ist invertierbar. Dann gilt Rang(A′ ) = Rang(A) = n. Eine
Matrix in normalisierter Zeilenstufenform mit vollem Rang ist eine Einheitsmatrix. Es gilt also A′ = En , und daher ist S = A−1 die zu A inverse Matrix.
Daraus folgt
A = S −1 = Sr−1 · . . . · S1−1 .
Nach Bemerkung 2.7.2 (i) sind die Matrizen Sk−1 , k = 1, . . . , r, selber wieder
Elementarmatrizen. Damit ist das Korollar bewiesen.
2
Aus dem Beweis von Korollar 2.7.4 ergibt sich ein praktischer Algorithmus
zum Invertieren von Matrizen. Sei zunächst A ∈ Mm,n (K) eine (nicht notwendigerweise quadratische) Matrix. Man berechnet (wie im Satz 2.7.3) eine invertierbare Matrix S ∈ GLm (K), so dass A′ := S ·A in normalisierter Zeilenstufenform
ist. Sei r der Rang von A′ , d.h. die Anzahl der Pivots. Dann ist A invertierbar
genau dann, wenn n = m = r, und in diesem Fall gilt A−1 = S.
Zur Berechnung von S geht man so vor. Man bildet die ‘erweiterte’ Matrix
à := (A | Em ) ∈ Mm,n+m
und wendet darauf den Gauss-Algorithmus an. Genauer: man formt die Matrix
à durch eine Folge von elementaren Zeilenumformungen in eine Matrix
Ã′ = (A′ | B)
75
so um, dass A′ ∈ Mm,n (K) in normalisierter Zeilenstufenform ist. Eine Folge
von elementaren Zeilenumformungen entspricht aber der Multiplikation von
links mit einer invertierbaren Matrix S ∈ GLm (K), d.h. es gilt
Ã′ = S · Ã = (S · A | S).
Es folgt A′ = S · A und S = B. Die gesuchte Matrix S kann man also an der
umgeformten erweiterten Matrix Ã′ ablesen.
Beispiel 2.7.5
Anstelle von Zeilen- kann man auf eine Matrix auch Spaltenoperationen
anwenden (man vertausche in der Definition 1.3.1 einfach die Wörter ‘Zeile’
und ‘Spalte’). Analog zur Bemerkung 2.7.2 (ii) erhält man:
Bemerkung 2.7.6 Ist A ∈ Mm,n (K) eine beliebige (m, n)-Matrix und T ∈
GLn (K) eine Elementarmatrix, so geht das Produkt
A′ := A · T
aus A durch eine elementare Spaltenoperation hervor.
Nach Korollar 2.6.5 gibt es zu jeder Matrix
Matrizen S ∈ GLm (K) und T ∈ GLn (K) mit

0
 Er
S·A·T =
0
0
A ∈ Mm,n (K) invertierbare


,
mit r = Rang(A). Durch Kombination von Zeilen- und Spaltenoperationen
erhält man einen Algorithmus zum Berechnen von S und T :
• Zunächst bestimmt man S ∈ GLm (K) so, dass
A′ := S · A
in normalisierter Zeilenstufenform ist (siehe oben).
• Man überlegt sich leicht, dass man A′ durch eine Folge von elementaren
Spaltenumformungen auf ‘Spaltennormalform’ bringen kann, ohne dabei
die Eigenschaft ‘Stufennormalform’ zu verlieren. Wendet man die Umformungen auf die erweiterte Matrix
′ A
En
an, so erhält man ein Matrix der Form
′′ A
,
T
76
mit T ∈ GLn (K) und

 Er
S · A · T = A′ · T = A′′ = 
0
77

0 
.
0
3
Diagonalisieren
3.1
Lineare Rekursionsfolgen
Definition 3.1.1 Sei x1 , x2 , . . . eine Folge reeller Zahlen. Wir sagen, dass diese
Folge eine Rekursionsfolge der Ordnung k ist, wenn es eine Funktion f : Rk → R
gibt, so dass
xn = f (xn−1 , . . . , xn−k )
(54)
gilt, für alle n > k. Wir nennen die Rekursionsfolge linear und homogen, wenn
die Funktion f linear ist; in diesem Fall gibt es offenbar Konstanten c1 , . . . , ck ∈
R so, dass
xn = c1 xn−1 + . . . + ck xn−k ,
(55)
für alle n > k.
Eine Rekursionsfolge der Ordnung k ist offenbar durch die ersten k Folgeglieder x1 , . . . , xk eindeutig bestimmt. Deshalb heißen x1 , . . . , xk die Anfangswerte der Rekursionsfolge.
Rekursionsfolgen treten überall in der Mathematik und ihren Anwendungen
auf. Ein typisches Problem, dass es dann zu lösen gilt, ist folgendes. Gegeben
sind die Anfangswerte x1 , . . . , xk und die Rekursionsgleichung (54).
• Finde eine geschlossene Formel für das nte Folgeglied xn .
• Bestimme das asymptotische Wachstum der Folge xn .
Die obigen Problemstellungen sind nicht sehr präzise. Was damit gemeint sein
könnte, sieht man am Besten an dem folgenden, uns bereits bekannten Beispiel.
Beispiel 3.1.2 Die Fibonacci-Folge x1 , x2 , x3 , . . . ist bestimmt durch die Anfangswerte x1 = 1, x2 = 1, und die Rekursionsgleichung
xn = xn−1 + xn−2 ,
n > 2.
Die ersten 12 Folgeglieder sind dann
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144.
Eine geschlossene Formel für das nte Folgeglied ist
√
√
1 1 − 5 n
1 1 + 5 n
−√
.
xn = √
2
2
5
5
√
√
Da (1 + 5)/2 ∼ 1, 618034 und (1 − 5)/2 ∼ −0, 618034, ist
√
1 1 + 5 n
xn ∼ √
∼ 0, 4472 · 1, 618n
2
5
eine asymptotisch gute Abschätzung der Fibonacci-Folge
78
Die Fibonacci-Folge ist eine homogene lineare Rekursionsfolge. Wir werden
im Folgenden einen allgemeinen Ansatz zum Lösen einer homogenen linearen
Rekursionsgleichung entwickeln. Dieser Ansatz wird uns als Motivation für den
in der linearen Algebra zentralen Begriff der Diagonalisierbarkeit dienen.
Seien c1 , . . . , ck ∈ R reelle Zahlen. Dann ist die Menge
V := { v = (x1 , x2 , . . .) ∈ RN | xn = c1 xn−1 + . . . + ck xn−k , ∀n > k }
ein R-Vektorraum der Dimension k.
die k Folgen v1 , . . . , vk ∈ V , wobei vi
(
1, j
xj :=
0, j
Eine Basis von V ist z.B. gegeben durch
durch die Anfangswerte
= i,
= 1, . . . , k, j 6= i,
bestimmt ist. Sind nun beliebige Anfangswerte x1 , . . . , xk vorgegeben, so läßt
sich die dadurch bestimmte Rekursionsfolge v := (x1 , x2 , . . .) ∈ V auf eindeutige
Weise als Linearkombination der Basis (v1 , . . . , vk ) darstellen:
v = x1 · v1 + . . . + xk · vk .
Diese Darstellung der Folge v hilft uns aber nicht weiter!
Ein besserer Ansatz geht so. Sei α ∈ R eine relle Zahl; wir betrachten die
Folge
v := (1, α, α2 , . . .).
Offenbar erfüllt v unsere Rekursionsgleichung genau dann, wenn
αk = c1 αk−1 + . . . + ck−1 α + ck .
Oder äquivalent: α ist eine Nullstelle des Polynoms
F (x) = xk − c1 xk−1 − . . . − ck .
Das Polynom F heißt das charakteristische Polynom der Rekursionsgleichung.
Die Bedeutung von F erschließt sich aus dem folgenden Satz.
Satz 3.1.3 Sei x1 , x2 , . . . eine lineare Rekursionsfolge der Ordnung k, mit Rekursionsgleichung
xn = c1 xn−1 + . . . + ck xn−k ,
n > k.
Sei F (x) := xk − c1 xk−1 − . . . − ck das charakteristische Polynom. Wir nehmen
an, dass F genau k paarweise verschiedene Nullstellen α1 , . . . , αk ∈ R hat. Dann
gibt es eindeutig bestimmte reelle Zahlen β1 , . . . , βk ∈ R so, dass
xn = β1 α1n−1 + . . . + βk αkn−1 .
79
Unter günstigen Umständen liefert der Satz also eine geschlossene Formel für
das nte Glied der Rekursionsfolge. Diese günstigen Umstände sind zum Beispiel
für die Fibonacci-Folge (Bespiel 3.1.2) gegeben: das charakteristische Polynom
ist
√
√
1+ 5
1− 5
F (x) = x2 − x − 1 = (x −
)(x −
)
2
2
und hat zwei verschiedene Nullstellen.
Beweis: Seien α1 , . . . , αk ∈ R die paarweise verschiedenen Nullstellen von
F . Dann erfüllen die Folgen
wi := (1, αi , α2i , . . .),
i = 1, . . . , k,
unsere Rekursionsgleichung, d.h. w1 , . . . , wk ∈ V . Ist
w = β1 w1 + . . . + βk wk = (x1 , x2 , . . .)
eine Linearkombination der wi , so ist das nte Folgenglied von w offenbar gegeben
durch die Formel
xn = β1 α1n−1 + . . . + βk αkn−1 .
Der Satz 3.1.3 ist also äquivalent zu der
Behauptung: Die Folgen w1 , . . . , wk bilden eine Basis von V .
Wir werden zwei verschiedene Beweise für diese Behauptung geben. Der
erste Beweis beruht auf der Invertierbarkeit einer gewissen Matrix.
Sei w = (x1 , x2 , . . .) ∈ V eine beliebige Folge, die unsere Rekursionsgleichung
erfüllt. Wir müssen zeigen, dass es eindeutig bestimmte β1 , . . . , βr gibt mit der
Eigenschaft
w = β1 · w1 + . . . + βk · wk .
(56)
Nun sind zwei Folgen in V genau dann gleich, wenn ihre ersten k Glieder
übereinstimmen. Die Gleichung (56) ist daher äquivalent zu dem Gleichungssystem
x1 =
β1
+ ... +
βk
x2
..
.
=
α1 β1
..
.
xk
= α1k−1 β1
+
... +
αk βk
..
.
+
... +
αkk−1 βk .
In Matrixschreibweise lautet dieses Gleichungssystem A · β = x, wobei


1
1
···
1
 α1
α2
···
αk 


A :=  ..
..
..  .
 .
.
. 
α1k−1 α2k−1 · · · αkk−1
Eine Matrix dieser Form nennt man eine Vandermont-Matrix.
Die zu beweisende Behauptung folgt nun aus dem folgenden Lemma.
80
(57)
Lemma 3.1.4 Sei K ein Körper und seien α1 , . . . , αk paarweise verschiedene
Elemente von K. Dann ist die durch (57) gegebenen Matrix A invertierbar.
Beweis: Es sei

1
1

At :=  .
 ..
1
α1
α2
..
.
···
···
αk
···

α1k−1
α2k−1 

.. 
. 
αkk−1
die Transponierte der Matrix A. Es gilt (Übungsaufgabe!): A ist invertierbar
genau dann, wenn At invertierbar ist.
Um zu testen, ob At invertierbar ist, nehmen wir uns einen Vektor y =
(y1 , . . . , yk ) ∈ K k mit At · y = 0 her; es gilt dann
y1 + y2 αi + . . . + yk αik−1 = 0,
i = 1, . . . , k.
Es folgt, dass das Polynom G(x) := y1 + y2 x + . . . + yk xk−1 vom Grad ≤ k − 1
mindestens k verschiedene Nullstellen α1 , . . . , αk hat. Mit Korollar 2.3.69 folgt
daraus aber G(x) = 0, d.h. y1 = . . . = yk = 0. Da der Vektor y beliebig war,
folgt Kern(At ) = {0}. Nach Satz 2.5.10 sind At und A also invertierbar.
2
Für den zweiten Beweis von Satz 3.1.3 benötigen wir den Begriff des Eigenvektors.
Definition 3.1.5 Sei K ein Körper, V ein K-Vektorraum und
φ:V →V
eine K-lineare Abbildung von V auf sich selbst (man nennt φ einen Endomorphismus von V ). Ein Eigenvektor von φ ist ein von Null verschiedener Vektor
v ∈ V , v 6= 0, so dass
φ(v) = λ · v
für ein λ ∈ K. Der Skalar λ heißt der Eigenwert von φ zum Eigenvektor v.
(Man beachte, dass λ durch v eindeutig bestimmt ist!)
Ist v = (x1 , x2 , . . .) ∈ V eine Rekursionsfolge, so erfüllt die ‘verschobene’
Folge
φ(v) := (x2 , x3 , . . .)
dieselbe Rekursionsgleichung. Man erhält eine Abbildung
φ : V → V,
(x1 , x2 , . . .) 7→ (x2 , x3 , . . .),
für die man leicht nachprüft, dass sie linear, also ein Endomorphismus von V
ist. Ist α eine Nullstelle des charakteristischen Polynoms F so gilt
φ(1, α, α2 , . . .) = (α, α2 , α3 , . . .) = α · (1, α, α2 , . . .).
9 Wir haben dieses Korollar nur über dem Körper der reellen Zahlen bewiesen. Eine
nachträgliche Inspektion des Beweises zeigt aber, dass die Aussage über einem beliebigen
Körper richtig ist.
81
Mit anderen Worten: v = (1, α, α2 , . . .) ist ein Eigenvektor von φ mit Eigenwert
α!
Hat das charakteristische Polynom F die paarweise verschiedene Nullstellen
α1 , . . . , αk ∈ R, so sind die Folgen wi := (1, αi , α2i , . . .) ∈ V also Eigenvektoren
von φ, mit paarweise verschiedenen Eigenwerten. Das folgende Lemma zeigt
daher, dass w1 , . . . , wr linear unabhängig sind. Wegen dimR V = k ist dann
(w1 , . . . , wk ) eine Basis von V . Dieses Argument liefert den zweiten Beweis von
Satz 3.1.3.
Lemma 3.1.6 Sei K ein Körper, V ein K-Vektorraum und φ : V → V ein
Endomorphismus von V . Es seien v1 , . . . , vn Eigenvektoren von φ mit paarweise
verschiedenen Eigenwerten λ1 , . . . , λn ∈ K. Dann ist das System (v1 , . . . , vn )
linear unabhängig.
Beweis: Wir beweisen das Lemma durch Induktion über n. Für n = 0 ist
die Aussage trivialerweise richtig (die leere Liste ist linear unabhängig).
Wir nehmen also an, dass n > 0 und dass es µ1 , . . . , µn ∈ K gibt mit
µ1 · v1 + . . . + µn · vn = 0.
(58)
Anwenden des Endomorphismus φ auf die Gleichung (58) führt, unter Ausnutzung von φ(vi ) = λi · vi , zu der neuen Gleichung
µ1 λ1 · v1 + . . . + µn λn · vn = 0.
(59)
Zieht man das λn fache der Gleichung (58) von der Gleichung (59) ab, so erhält
man
µ1 (λ1 − λn ) · v1 + . . . + µn−1 (λn−1 − λn ) · vn−1 = 0.
(60)
Wir haben also den Vektor vn aus der Gleichung eliminiert.
Nun wenden wir die Induktionshypothese an. Sie besagt, dass das System
(v1 , . . . , vn−1 ) linear unabhängig ist. Aus der Gleichung (60) folgt somit
µ1 (λ1 − λn ) = . . . = µn−1 (λn−1 − λn ) = 0.
Da die λi nach Voraussetzung paarweise verschieden sind, folgt zunächst µ1 =
. . . = µn−1 = 0. Die Gleichung (58) reduziert sich somit auf µn · vn = 0. Da
vn 6= 0 gilt (Definition 3.1.5), gilt auch µn = 0, also insgesamt µi = 0 für alle i.
Damit ist das Lemma bewiesen.
2
3.2
Diagonalisierbare Endomorphismen
Definition 3.2.1 Sei K ein Körper, V ein K-Vektorraum und φ : V → V
ein (K-linearer) Endomorphismus von V . Dann heißt φ diagonalisierbar, wenn
der Vektorraum V eine Basis B = (vi )i∈I besitzt, die aus Eigenvektoren von φ
besteht, d.h.
φ(vi ) = λi · vi ,
für alle i ∈ I und gewisse Skalare λi ∈ K.
82
Wir werden uns im Folgenden ganz auf den Fall eines endlich-dimensionalen
Vektorraumes V konzentrieren. Ist dann B = (v1 , . . . , vn ) eine Basis von V aus
Eigenvektoren von φ, und sind λ1 , . . . , λn die zugehörigen Eigenwerte, so ist die
darstellende Matrix von φ bezüglich B eine Diagonalmatrix:


λ1


λ2


MBB (φ) = 

..


.
λn
(alle Einträge außerhalb der Diagonalen verschwinden). Es gilt also:
Bemerkung 3.2.2 Ein Endomorphismus φ : V → V eines endlich-dimensionalen K-Vektorraumes V ist diagonalisierbar genau dann, wenn die darstellende
Matrix von φ bezüglich einer geeigneten Basis von V eine Diagonalmatrix ist.
Beispiel 3.2.3 Sei V der Vektorraum aller Folgen (x1 , x2 , . . .) ∈ RN , die einer
Rekursionsgleichung
xn = c1 xn−1 + . . . + ck xn−k
genügen. Sei φ : V → V der ‘Verschiebeendomorphismus’, φ(x1 , x2 , . . .) =
(x2 , x3 , . . .), und sei F (x) = xk − c1 xk−1 − . . . − ck das charakteristische Polynom der Rekursionsgleichung. Wir nehmen an, dass F genau k paarweise verschiedene Nullstellen λ1 , . . . , λk ∈ R besitzt. Dann folgt aus dem Beweis von
Satz 3.1.3, dass die Folgen
vi = (1, αi , α2i , . . .),
i = 1, . . . , k,
eine Basis aus Eigenvektoren von φ bilden. Daher ist φ diagonalisierbar.
Beispiel 3.2.4 Sei φ : R2 → R2 die lineare Abbildung mit
φ(e1 ) = 2e2 ,
φ(e2 ) = e1
(E := (e1 , e2 ) sei die Standardbasis von R2 ). Dann gilt φ(x) = A · x, mit
0 1
A :=
.
2 0
Ist φ diagonalisierbar?
Um diese Frage zu beantworten zu können, sollte man sich zuerst einen
Überblick über die möglichen Eigenwerte verschaffen. Ist x = (x1 , x2 ) ∈ R2 ein
Eigenvektor von φ mit Eigenwert λ ∈ R, so gilt
A·x = λ·x
⇔
(A − λ · E2 ) · x = 0.
Da x als Eigenvektor nicht der Nullvektor sein darf, bedeutet die rechte Gleichung: die Matrix
−λ 1
A − λ · E2 =
2 −λ
83
ist nicht invertierbar. Dies gilt genau dann, wenn die Determinante dieser Matrix verschwindet:
√
√
−λ 1 2
2 −λ = λ − 2 = 0 ⇔ λ ∈ { 2, − 2}.
√
√
Die beiden einzigen Eigenwerte von φ sind daher λ1 := 2 und λ2 := − 2.
Der nächste Schritt besteht nun darin, zu den gefundenen Eigenwerten (genügend viele) Eigenvektoren zu bestimmen. Das kann man allgemein mit dem
Gauss-Verfahren machen; in diesem einfachen Beispiel sicht man sofort, dass
√
1
Kern(A − 2 · E2 ) = hv1 i,
wobei v1 := √ .
2
Eine fast identische Rechnung liefert:
Kern(A +
√
2 · E2 ) = hv2 i,
wobei v2 :=
1
√
.
− 2
Offenbar ist nun B := (v1 , v2 ) eine Basis von R2 , bestehend aus Eigenvektoren
von φ. Insbesondere ist φ diagonalisierbar.
Was folgt daraus für die Matrix A? Sei
1
1
√
S := TEB = √
2 − 2
die Transformationsmatrix des Basiswechsels von der Basis B = (v1 , v2 ) in die
Einheitsbasis E = (e1 , e2 ). Dann gilt
√
−1 − 2 −1
√
,
TBE = S −1 = √
2 2 − 2 1
und nach dem Basiswechselsatz (Satz 2.6.4):
S −1 · A · S = TBE · MEE (φ) · TEB = MBB (φ) =
√
2
0
0
√
.
− 2
Definition 3.2.5 Eine Matrix A ∈ Mn,n (K) heißt diagonalisierbar, wenn es
eine invertierbare Matrix S ∈ GLn (K) gibt, so dass die Matrix


λ1


λ2


S −1 · A · S = 

.
..


λn
eine Diagonalmatrix ist.
Frage 3.2.6 Sei A die Matrix aus Beispiel 3.2.4, aufgefasst als Matrix über
dem Körper der rationalen Zahlen. Sei φQ : Q2 → Q2 der zugehörige Endomorphismus. Ist φQ diagonalisierbar?
84
Bemerkung 3.2.7 Sei A ∈ Mn,n (K) eine quadratische Matrix. Wie in Beispiel
3.2.4 zeigt man ganz allgemein:
(i) A ist genau dann diagonalisierbar, wenn der zugehörige Endomorphismus
φ : K n → K n , x 7→ A · x, diagonalisierbar ist.
(ii) Ist S ∈ GLn (K) eine invertierbare Matrix, für die S −1 AS eine Diagonalmatrix ist, so bilden die Spalten von S eine Basis von K n , bestehend aus
Eigenvektoren von φ:
S = (v1 | . . . |vn ),
A · vi = λi · vi ,
i = 1, . . . , n.
Satz 3.2.8 Sei φ : V → V ein Endomorphismus eines endlich-dimensionalen
K-Vektorraumes V . Dann gilt:
(i) Es gibt ein Polynom
F (x) = xn + c1 xn−1 + . . . + cn
vom Grad n := dimK V mit der folgenden Eigenschaft: ein Körperelement
λ ∈ K ist genau dann ein Eigenwert von φ, wenn es Nullstelle von F ist,
d.h.
F (λ) = λn + c1 λn−1 + . . . + cn = 0.
(ii) Wenn das Polynom F in (i) genau n paarweise verschiedene Nullstellen
hat, so ist φ diagonalisierbar.
Bemerkung 3.2.9 Das Polynom F in (i) ist im allgemeinen nicht eindeutig
bestimmt (zum Beispiel wenn F gar keine Nullstellen hat). Im Abschnitt 3.4
werden wir aber einen kanonischen Kandidaten für F kennenlernen, das charakteristische Polynom von φ.
Beweis: Wir überlegen uns zuerst, dass (ii) aus (i) folgt. Angenommen, das
Polynom F hat n paarweise verschiedene Nullstellen λ1 , . . . , λn . Nach (i) gibt
es dann Vektoren v1 , . . . , vn ∈ V , vi 6= 0, mit φ(vi ) = λi · vi . Da die λi paarweise
verschieden sind, sagt uns das Lemma 3.1.6, dass das System B = (v1 , . . . , vn )
linear unabhängig ist. Aber n = dimK V , also ist B sogar eine Basis, die nach
Konstruktion aus eigenvektoren von φ besteht. Also ist φ diagonalisierbar.
Zum Beweis von (i) orientieren wir uns an der Rechnung aus Beispiel 3.2.4.
Sei A = (v1 , . . . , vn ) eine beliebige Basis von V und sei
A
A := MA
(φ) ∈ Mn,n (K)
P
die darstellende Matrix von φ bzgl. A. Sei v = i xi vi ein beliebiger Vektor aus
V , dargestellt als Linearkombination von A. Dann ist v ein Eigenvektor von φ
genau dann, wenn
 
x1
 .. 
und
A · x = λ · x.
(61)
x :=  .  6= 0
xn
85
Offenbar gilt (61) genau dann, wenn die Matrix A − λ · En nicht invertierbar
ist, d.h.
Kern(A − λ · En ) 6= {0}.
Teil (i) von Satz 3.2.8 folgt deshalb aus den folgenden Behauptungen:
• Es gibt eine Abbildung
det : Mn,n (K) → K,
A 7→ det(A),
genannt die Determinante, mit der folgenden Eigenschaft: eine Matrix
A ∈ Mn,n (K) ist genau dann invertierbar, wenn det(A) 6= 0.
• Für A ∈ Mn,n (K) gibt es ein Polynom
F (x) = xn + c1 xn−1 + . . . + cn
mit der Eigenschaft: für alle λ ∈ K gilt
F (λ) = det(A − λ · En ).
Für n = 2 setzt man z.B.
a
det
c
a
b
= d
c
b := ad − bc.
d
(62)
Die beiden Behauptungen lassen sich durch eine direkte Rechnung leicht verifizieren. Das haben wir schon im Beispiel 3.2.4 ausgenutzt.
Im folgenden Anschnitt werden wir uns mit der Definition der Determinante
einer allgemeinen quadratischen Matrix auseinandersetzen.
3.3
Determinanten
Definition 3.3.1 Sei K ein Körper und n ∈ N eine natürliche Zahl. Eine
Determinante vom Rang n ist ein Abbildung
det : Mn,n (K) → K,
die folgende Eigenschaften hat.
(D 1) Für alle i ∈ {1, . . . , n} und v1 , . . . , vbi , . . . , vn ∈ K n ist die Abbildung
K n → K,
v 7→ det(v1 | . . . | v | . . . | vn )
K-linear. Man sagt: det ist linear in jeder Spalte.
(D 2) Sind v1 , . . . , vn ∈ K n , wobei vi = vj für zwei verschiedene Indizes 1 ≤ i <
j ≤ n, so gilt
det(v1 | . . . | vn ) = 0.
Man sagt: det ist alternierend.
86
(D 3) Es gilt
det(En ) = det(e1 | . . . | en ) = 1.
Man sagt: det ist normalisiert.
Beispiel 3.3.2 Wir betrachten den Fall n = 2 und werden zeigen, dass es
genau eine Determinante det : M2,2 (K) → K gibt, und dass diese ist durch die
bekannte Formel (62) gegeben ist.
Wir zeigen zunächst die Eindeutigkeit. Sei also det : M2,2 (K) → K eine
Determinante und
a b
A = (v1 | v2 ) =
∈ M2,2 (K).
c d
Für den ersten Spaltenvektor von A gilt: v1 = a · e1 + c · e2 . Aus der Linearität
in der ersten Spalte (Definition 3.3.1 (D1) ) folgt:
det(A) = det(a · e1 + c · e2 | v2 ) = a · det(e1 | v2 ) + c · det(e2 | v2 ).
(63)
Durch Anwenden von (D1)-(D3) erhält man:
det(e1 | v2 ) = det(e1 | b · e1 + d · e2 )
= b · det(e1 | e1 ) + d · det(e1 | e2 )
= d · det(E2 )
=d
(D1)
(D2)
(D3)
und nach dem gleichen Schema
det(e2 | v2 ) = b · det(e2 | e1 ).
(64)
det(A) = ad + bc · det(e2 | e1 ).
(65)
Insgesamt erhalten wir:
Um den Term det(e2 | e1 ) auszuwerten, betrachten wir den Spezialfall a = b =
c = d = 1. Da in diesem Fall die beiden Spalten identisch sind, folgt mit (D2)
und (65):
1 1
= 1 + det(e2 | e1 ).
0 = 1 1
Es folgt det(e2 | e1 ) = −1. Für allgemeine a, b, c, d ∈ K folgt nun aus (65) die
bekannte Formel
a b = ad − bc.
det(A) = (66)
c d
Insbesondere haben wir gezeigt, dass es höchstens eine Determinante det :
M2,2 (K) → K geben kann.
Der Nachweis der Existenz ist nun leicht: man definiert einfach die Abbildung det : M2,2 (K) → K durch die Formel (66). Dann rechnet man nach, dass
diese Abbildung die Bedingungen (D1)-(D3) aus Definition 3.3.1 erfüllt.
87
Satz 3.3.3 Für jeden Körper K und für jedes n ∈ N gibt es genau eine Determinante vom Rang n. Zusätzlich zu den Axiomen (D1)-(D3) erfüllt sie die
folgenden Bedingungen.
(i) A ∈ Mn,n (K) ist invertierbar genau dann, wenn det(A) 6= 0.
(ii) det ist multiplikativ, d.h.
det(A · B) = det(A) · det(B).
(iii) det ist symmetrisch, d.h.
det(At ) = det(A).
(iv) det ist linear in den Zeilen.
(v) Ist R ⊂ K ein Unterring, so gilt für eine Matrix A ∈ Mn,n (R) mit
Einträgen in R:
det(A) ∈ R.
Beim Berechnen der Determinante führt man also keine Nenner ein.
Den Beweis der Existenz einer Determinante stellen wir zunächst zurück
(siehe dazu die Bemerkungen 3.3.9 und 3.3.15). Wir werden aber im Laufe
dieses Abschnittes die Eindeutigkeit der Determinante und die Eigenschaften
(i)-(v) beweisen. Im Folgenden gehen wir davon aus, dass wir für alle n ∈ N
eine Determinante det : Mn,n (K) → K zur Verfügung haben.
Uns kommt es vor allem darauf an, Determinanten berechnen zu können.
Dazu sind die folgenden beiden Propositionen sehr nützlich.
Proposition 3.3.4 Sei
A = (v1 | . . . | vn ) ∈ Mn,n (K).
(i) Für i ∈ {1, . . . , n} und λ ∈ K gilt
det(v1 | . . . | λ · vi | . . . | vn ) = λ · det(v1 | . . . | vn ).
(ii) Für i, j ∈ {1, . . . , n}, i 6= j, und λ ∈ K gilt:
det(v1 | . . . | vi + λ · vj | . . . | vn ) = det(v1 | . . . | vn ).
| {z }
i
(iii) Für 1 ≤ i < j ≤ n gilt:
det(v1 | . . . | vj | . . . | vi | . . . | vn ) = − det(v1 | . . . | vn ).
|{z}
|{z}
i
j
88
Insbesondere: geht die Matrix B aus der Matrix A durch eine elementare Spaltenoperation hervor, so gilt
det(B) = λ · det(A),
für ein Skalar λ 6= 0. Für Operationen vom Typ (II) gilt λ = 1, für Operationen
vom Typ (III) ist λ = −1.
Beweis: Teil (i) ist eine triviale Konsequenz des Axioms (D1). Teil (ii) folgt
durch eine Kombination aus (D1) und (D2):
det(v1 | . . . | vi + λ · vj | . . . | vn )
| {z }
i
= det(v1 | . . . | vn ) + λ · det(. . . | vj | . . . | vj | . . .)
|{z}
|{z}
i
(D1)
j
= det(v1 | . . . | vn ).
(D2)
Zum Beweis von (iii) benutzen wir die folgende Rechnung (die wesentlichen
Einträge sind die ite und die jte Spalte; für k 6∈ {i, j} steht in der kten Spalte
der Vektor vk ):
0 = det(. . . | vi + vj | . . . | vi + vj | . . .)
= det(. . . | vi | . . . | vi + vj | . . .) + det(. . . | vj | . . . | vi + vj | . . .)
= det(. . . | vi | . . . | vi | . . .) + det(. . . | vi | . . . | vj | . . .)
+ det(. . . | vj | . . . | vi | . . .) + det(. . . | vj | . . . | vj | . . .)
= det(. . . | vi | . . . | vj | . . .) + det(. . . | vj | . . . | vi | . . .).
(D2)
(D1)
(D1)
(D2)
Durch Umstellen erhält man (iii).
2
Bemerkung 3.3.5 Gilt in unserem Körper K die Ungleichung −1 6= 1 (was
meistens der Fall ist), so kann man in Definition 3.3.1 das Axiom (D2) durch
das Axiom
(D2’)
det(v1 | . . . | vj | . . . | vi | . . . | vn ) = − det(v1 | . . . | vn )
|{z}
|{z}
i
j
ersetzen (siehe Proposition 3.3.4 (iii)). Denn aus (D2’) folgt:
det(. . . | v | . . . | v | . . .) = − det(. . . | v | . . . | v | . . .)
⇒ 2 · det(. . . | v | . . . | v | . . .) = 0
⇒ det(. . . | v | . . . | v | . . .) = 0.
Die letzte Folgerung gilt aber nur, falls 2 := 1 + 1 6= 0, was äquivalent zu −1 6= 1
ist.
89
Proposition 3.3.6 Ist

λ1
0

A= .
 ..
0
∗
λ2
···
∗
..
.
···
0
∗



.. 
.
λn
eine obere Dreiecksmatrix mit den Diagonaleinträgen λ1 , . . . , λn , so gilt
det(A) = λ1 λ2 · · · λn .
Beweis: Angenommen, alle Diagonaleinträge λi sind ungleich Null. Dann
hat die Matrix A offenbar vollen Rang und man kann sie durch eine Folge von
elementaren Spaltenumformungen in die Einheitsmatrix überführen. Dabei sind
nur Operationen vom Typ (I) und (II) erforderlich. Aus Proposition 3.3.4 und
Axiom (D3) folgt deshalb
det(A) = λ1 · · · λn · det(En ) = λ1 · · · λn .
Ist dagegen ein Diagonaleintrag λi gleich Null, so erhält man nach endlich vielen
Spaltenumformungen eine Nullspalte. Es folgt
det(A) = 0.
Die Formel det(A) = λ1 · · · λn stimmt auch in diesem Fall.
2
Als Folgerung aus den obigen Propositionen erhalten wir die Aussage (i) aus
Satz 3.3.3.
Korollar 3.3.7 Für eine Matrix A ∈ Mn,n (K) gilt: A ist invertierbar genau
dann, wenn det(A) 6= 0.
Beweis: Die Matrix A läßt sich nach dem Gauss-Algorithmus durch eine
Folge von elementaren Spaltenoperationen in eine obere Dreicksmatrix A′ umformen. Aus der Proposition 3.3.4 folgt:
det(A′ ) = λ · det(A),
für einen Skalar λ 6= 0. Insbesondere ist det(A) 6= 0 genau dann wenn det(A′ ) 6=
0. Andererseits ändert sich der Rang einer Matrix nicht bei Anwenden einer
elementaren Spaltenoperation. Es gilt also
Rang(A′ ) = Rang(A).
Insbesondere ist A genau dann invertierbar, wenn A′ invertierbar ist. Wir
brauchen das Korollar also nur noch für obere Dreiecksmatrizen beweisen.
Ist A eine obere Dreiecksmatrix, mit Diagonaleinträgen λ1 , . . . , λn , so gilt
nach Proposition 3.3.6:
det(A) = λ1 · · · λn .
90
Mit dem Gauss-Verfahren sieht man aber: A hat genau dann vollen Rang, wenn
alle Diagonaleinträge ungleich Null sind. Damit ist das Korollar bewiesen. 2
Ein ähnliches Argument wie im obigen Beweis liefert einen einfachen Algorithmus zur Berechnung der Determinante einer Matrix A ∈ Mn,n (K):
• Man versucht, die Matrix A durch elementare Spaltenumformungen in
eine obere Dreiecksmatrix umzuformen (wie beim Gauss-Algorithmus).
Bei einer Umformung vom Typ (I) merkt man sich den Faktor λ, bei
Umformungen vom Typ (III) merkt man sich den Vorzeichenwechsel (siehe
Proposition 3.3.4) .
• Erhält man irgendwo eine Nullspalte, so gilt det(A) = 0 (wegen (D1)).
• Sonst erhält man nach endlich vielen Schritten eine obere Dreiecksmatrix
A′ . Man berechnet det(A′ ) mit Proposition 3.3.6. Multipliziert man das
Ergebnis mit dem Produkt der im ersten Schritt angesammelten Faktoren,
erhält man det(A).
Beispiel 3.3.8 Sei K = Q und

1
A := 2
1

0 1
3 1 .
2 2
Wir berechnen det(A) nach dem obigen Algorithmus:
1 −2 −1
det(A) = 2 −1 −3
1 0
0
−1 −2 1
= − −3 −1 2
0
0 1
5 −2 1
= − 0 −1 2
0 0 1
= 5.
(Typ (II))
(Typ (III))
(Typ (II))
(Proposition 3.3.6)
Bemerkung 3.3.9 (i) Bei der Berechnung von Determinanten sollte man
nach Möglichkeit versuchen, keine überflüssigen Nenner einzuführen. Das
ist im Prinzip auch immer möglich (wegen Satz 3.3.3 (v)).
(ii) Wegen Satz 3.3.3 (iii), (iv) kann man, anstelle von Spaltenoperationen,
auch mit Zeilenoperationen arbeiten. Durch geschicktes Mischen von
Zeilen- und Spaltenoperationen kann man sich oft viel Arbeit sparen.
(iii) Unser Algorithmus beruht auf den Propositionen 3.3.4 und 3.3.6, die
wir ohne Verwendung von Satz 3.3.3 bewiesen haben. Es folgt, dass es
91
höchstens eine Determinante geben kann: wenn es eine Determinante gibt,
ist der Wert auf jeder Matrix durch das Endergebnis des Algorithmus eindeutig bestimmt.
(iv) Es folgt aber nicht, dass es überhaupt eine Determinante gibt. Das Problem ist, dass wir viele Möglichkeiten haben, die Determinante einer Matrix
auszurechnen. Es ist (ohne den Beweis von Satz 3.3.3) nicht klar, dass man
auch bei verschiedenen Rechenwegen immer dasselbe Ergebnis erhält.
Beispiel 3.3.10 Wir berechnen die Determinante der Matrix A aus Beispiel
3.3.8 mit einem anderen Rechenweg (Zeilenoperationen):
1 0 1 det(A) = 2 3 1
1 2 2 1 0 1 = 0 3 −1
0 2 1 1 0 1 = 0 3 −1 0 0 5/3
=1·3·
5
= 5.
3
Warum ist das Ergebnis dasselbe wie bei der ersten Rechnung? Weil man in
beiden Fällen die (eindeutig bestimmte) Determinante derselben Matrix ausrechnet!
Nun wollen wir die Eigenschaften (ii) und (iii) aus Satz 3.3.3 zeigen. Die
Eigenschaft (iv) folgt dann sofort aus (iii).
Proposition 3.3.11 Sei det : Mn,n (K) → K eine Determinante und A, B ∈
Mn,n (K). Dann gilt
det(A · B) = det(A) · det(B)
(67)
und
det(At ) = det(A).
(68)
Beweis: Wir zeigen zunächst die Formel (67) in dem Spezialfall einer Elementarmatrix B (siehe Abschnitt 2.7). Ist z.B. B = Si (λ) die Diagonalmatrix
mit dem Eintrag λ ∈ K × in der iten Zeile, so ist die Matrix
A′ := A · Si (λ)
die Matrix, die aus A durch Multiplikation der iten Spalte mit λ hervorgeht
(siehe Bemerkung 2.7.6). Mit Proposition 3.3.4 (i) folgt nun
det(A′ ) = λ · det(A).
92
Nun gilt aber auch det(Si (λ)) = λ und deshalb
det(A · Si (λ)) = λ · det(A) = det(A) · det(Si (λ)).
Die Formel (67) gilt also für B = Si (λ). Mit demselben Argument zeigt man,
dass sie auch für die zwei anderen Typen von Elementarmatrizen B = Qji (λ)
und B = Pij gilt.
Um die Formel (67) allgemein zu beweisen, treffen wir eine Fallunterscheidung. Im ersten Fall betrachten wir eine invertierbare Matrix B. Nach Korollar
2.7.4 ist dann B das Produkt von Elementarmatrizen,
B = S1 · S2 · · · Sr .
Durch wiederholtes Anwenden der Formel (67) im schon bewiesenen Spezialfall
erhält man
det(A · B) = det(A · S1 · · · Sr−1 · Sr ) = det(A · S1 · · · Sr−1 ) · det(Sr )
= . . . = det(A) · det(S1 ) · · · det(Sr ).
(69)
Als Spezialfall von (69) erhält man für A = En :
det(B) = det(S1 ) · · · det(Sr ).
(70)
Aus (69) und (70) zusammen folgt nun die Formel (67) im Fall einer invertierbaren Matrix B.
Ist B nicht invertierbar, so gibt es einen Vektor x ∈ K n , x 6= 0, mit B · x = 0
(Satz 2.5.10). Dann gilt aber auch
(A · B) · x = A · (B · x) = A · 0 = 0.
Also ist nach Satz 2.5.10 auch die Matrix A · B nicht invertierbar. Aus Korollar
3.3.7 folgt nun
det(A · B) = 0 = det(A) · det(B).
Damit ist die Formel (67) in voller Allgemeinheit bewiesen.
Der Beweis von (68) ist sehr ähnlich. Zunächst ist (68) offenbar wahr, wenn
A eine Elementarmatrix ist. Ist A eine beliebige invertierbare Matrix, so schreibt
man A als Produkt von Elementarmatrizen,
A = S1 · · · Sr .
Durch Anwenden von (67) und der Regel (A · B)t = B t · At schließt man nun
det(At ) = det(Srt · · · S1t )
= det(Srt ) · · · det(S1t )
= det(S1 ) · · · det(Sr )
= det(A).
93
Ist A nicht invertierbar, so ist auch At nicht invertierbar. Aus Korollar 3.3.7
folgt dann
det(A) = 0 = det(At ).
Nun ist alles gezeigt.
2
Nun wollen wir die Eigenschaft (v) aus Satz 3.3.3 beweisen. Dazu benötigen
wir ein Lemma.
Lemma 3.3.12 Sei A ∈ Mn,n (K)

1 ∗ ... ∗
 0

A= .
B
 ..
0
Dann gilt det(A) = det(B).
eine Matrix der Form



,

mit B ∈ Mn−1,n−1 (K).
Beweis: Wir formen A durch eine Folge von elementaren Spaltenumformungen in eine obere Dreiecksmatrix A′ um. Davon bleibt die erste Spalte
unberührt. Die Matrix A′ ist also von der Form


1 ∗ ... ∗

 0


A′ =  .
,
B′

 ..
0
wobei B ′ eine obere Dreiecksmatrix ist, die aus B durch eine Folge von elementaren Spaltenoperationen hervorgeht. Aus Proposition 3.3.4 folgt nun
det(A′ ) = µ · det(A),
det(B ′ ) = µ · det(A).
Der entscheidende Punkt ist, dass in beiden Gleichungen derselbe Faktor µ 6= 0
auftaucht. Sind λ2 , . . . , λn ∈ K die Diagonaleinträge von B ′ , so sind λ1 :=
1, λ2 , . . . , λn die Diagonaleinträge von A′ . Aus Proposition 3.3.6 folgt nun
det(A) = µ−1 · det(A′ ) = µ−1 λ2 · · · λn = µ−1 · det(B ′ ) = det(B).
2
Proposition 3.3.13 Sei A = (ai,j ) ∈ Mn,n (K) eine Matrix, deren Einträge
ai,j alle in einem Unterring R ⊂ K liegen. Dann gilt:
det(A) ∈ R.
Beweis: Wir beweisen die Aussage durch Induktion über die Dimension
n ∈ N der Matrix A. Für n = 1 hat die Matrix nur einen Eintrag a ∈ R, es gilt
also det(A) = a ∈ R.
94
Nun sei n > 1. Wegen der Linearität in der ersten Spalte gilt
det(A) =
n
X
i=1
mit
ai,1 · det(Ai,1 ),

Ai,1
0 a1,2
 ..
..
.
.

1
a
=
i,2

.
..
 ..
.
0 an,2
(71)

a1,n
.. 
. 

. . . ai,n 
.
.. 
. 
. . . an,n
...
Durch (i − 1)-faches Vertauschen zweier Zeilen formt man Ai,1 in eine Matrix
der Form


1 ∗ ... ∗
 0



 ..

A′i,1
 .

0
um. Aus Proposition 3.3.4 (iii) und Lemma 3.3.12 folgt
det(Ai,1 ) = (−1)i−1 det(A′i,1 ).
Die Matrix A′i,1 hat ebenfalls Einträge in dem Ring R und Dimension n − 1.
Aus der Induktionshypothese folgt deshalb det(A′i,1 ) ∈ R, für alle i. Aus (71)
folgt schließlich det(A) ∈ R. Das war zu zeigen.
2
Bemerkung 3.3.14 Die Formel
det(A) = a1,1 det(A′1,1 ) − a2,1 det(A′2,1 ) + . . . + (−1)n−1 an,1 det(A′n,1 )
aus dem Beweis der Proposition 3.3.13 nennt man auch die Entwicklung von
det(A) nach der ersten Spalte. Analog erhält man Entwicklungsformeln nach
allen Zeilen und Spalten von A. Siehe [Fischer], §3.3.3, Stichwort Entwicklungssatz von Laplace.
Bemerkung 3.3.15 Die Entwicklungsformel aus Bemerkung 3.3.14 kann man
benutzen, um die Determinante einer (n, n)-Matrix induktiv zu definieren. Kann
man dann zusätzlich zeigen, dass die so definierte Determinante die Axiome
(D1), (D2), (D3) aus Definition 3.3.1 erfüllt, so hätte man damit die fehlende
Existenzaussage des Satzes 3.3.3 bewiesen. Das ist auch möglich, aber gar nicht
so einfach. Der Leser möge es versuchen!
95
3.4
Das charakteristische Polynom
Definition 3.4.1 Sei K ein Körper und x eine Unbestimmte. Ein (formales)
Polynom über K in x ist ein Ausdruck der Form
f = an xn + an−1 xn−1 + . . . + a1 x + a0 ,
mit n ∈ N0 und a0 , . . . , an ∈ K. Die ai heißen die Koeffizienten von f . Der
Grad des Polynoms f 6= 0 ist die Zahl
deg(f ) := max{ i | ai 6= 0 }.
Die Menge aller Polynome über K bezeichnen wir mit K[x].
Ein Polynom f ∈ K[x] ist also gegeben durch eine abbrechende Folge
(a0 , a1 , a2 , . . .) ∈ K N0 ,
ai = 0 ∀i > n
wobei die Zahl n von f abhängt und für f 6= 0 als n := deg(f ) gewählt werden
kann.
Wir können daher die Menge K[x] aller Polynome als ein Untervektorraum
von K N0 auffassen. Insbesondere erhalten wir eine Addition
+ : K[x] × K[x] → K[x],
(f, g) 7→ f + g
(Addition der Koeffizienten von f und g) und eine Skalarmultiplikation
· : K × K[x] → K[x],
(λ, f ) 7→ λ · f
(Multiplikation aller Koeffizienten von f mit λ).
Ein Polynom f ist also dasselbe wie eine Linearkombination der Monome
1, x, x2 , . . . .
Anders ausgedrückt: (1, x, x2 , . . .) ist eine (abzählbar unendliche) Basis von
K[x].
Zusätzlich existiert auf K[x] auch eine Multiplikation:
· : K[x] × K[x] → K[x],
Dabei ist
f ·g =
mit
n
X
i=0
(f, g) 7→ f · g,
2n
n
X
X
ck xk .
bj xj =
ai xi ·
j=0
ck :=
k
X
k=0
ai bk−i .
i=0
Insbesondere gilt xi · xj = xi+j . Umgekehrt kann man obige Definition von f · g
leicht aus der Regel xi · xj = xi+j durch formales Ausmultiplizieren ableiten.
96
Proposition 3.4.2 Die Menge K[x], zusammen mit den Verknüpfungen + und
· , bildet einen kommutativen und nullteilerfreien Ring, mit Nullelement
0 := 0 · 1 + 0 · x + . . .
und Einselement
1 := 1 · 1 + 0 · x + . . . .
Beweis: Übungsaufgabe.
2
n
Sei f = an x + . . . + a0 ∈ K[x] ein Polynom und λ ∈ K. DerWert von f an
der Stelle x = λ ist definiert als
f (λ) := an λn + . . . + a0 ∈ K.
Lemma 3.4.3 Für f, g ∈ K[x] und λ ∈ K gilt:
(f · g)(λ) = f (λ) · g(λ).
(f + g)(λ) = f (λ) + g(λ),
Beweis: Das folgt sofort durch Einsetzen in die Definition und Ausmultiplizieren.
2
Definition 3.4.4 Sei A = (ai,j ) ∈ Mn,n (K) eine quadratische Matrix mit
Einträgen in dem Körper K. Dann heißt
a1,1 − x
a1,2
···
a1,n a2,1
a2,2 − x · · ·
a2,n PA := det(A − x · En ) = ∈ K[x]
..
..
.
..
.
.
an,1
···
· · · an,n − x
das charakteristische Polynom von A.
Diese Definition ist so zu verstehen: die Einträge der Matrix A− x·En liegen
in dem Ring K[x]. Da der Ring K[x] kommutativ und nullteilerfrei ist, besitzt
er einen Quotientenkörper (siehe Abschnitt 1.2, insbesondere Satz 1.2.24). Die
Determinante ist also wohldefiniert und nach Teil (v) von Satz 3.3.3 wieder ein
Element von K[x].
Proposition 3.4.5 Sei PA das charakteristische Polynom von A ∈ Mn,n (K).
(i) Es gilt
PA = an xn + . . . + a0 ,
mit an = (−1)n 6= 0 und a0 = det(A). Insbesondere gilt deg(PA ) = n.
(ii) Für λ ∈ K gilt
PA (λ) = det(A − λ · En ).
Insbesondere sind die Nullstellen von PA genau die Eigenwerte von A.
97
Beweis: Der Beweis erfolgt durch Induktion über n, nach demselben Muster
wie im Beweis von Proposition 3.3.13. Für (ii) verwendet man zusätzlich Lemma
3.4.3. (Man beachte auch, dass die Behauptung a0 = det(A) sofort aus (ii)
folgt, indem man λ := 0 setzt.) Die Details sind dem Leser als Übungsaufgabe
überlassen.
2
Definition 3.4.6 Zwei Matrizen A, B ∈ Mn,n (K) heißen ähnlich, wenn es eine
invertierbare Matrix S ∈ GLn (K) gibt, so dass
B = S −1 · A · S.
Insbesondere ist eine quadratische Matrix diagonalisierbar genau dann, wenn
sie ähnlich zu einer Diagonalmatrix ist.
Satz 3.4.7 Ähnliche Matrizen haben dasselbe charakteristische Polynom und
insbesondere dieselbe Determinante.
Beweis: Sei A ∈ Mn,n (K) und B := S −1 AS, mit S ∈ GLn (K). Wegen
S −1 · (A − x · En ) · S = S −1 AS − x · En = B − x · En
und der Multiplikativität der Determinante (Satz 3.3.3 (ii)) erhalten wir
det(B − x · En ) = det(S −1 ) · det(A − x · En ) · det(S) = det(A − x · En ).
2
Korollar 3.4.8 Sei A eine diagonalisierbare Matrix und λ1 , . . . , λn die Diagonaleinträge einer zu A ähnlichen Matrix. Dann gilt
PA = (λ1 − x) · · · (λn − x).
Eine weitere, sehr wichtige Konsequenz aus Satz 3.4.7 ist, dass man einem
Endomorphismus eines endlich dimensionalen Vektorraumes ein charakteristisches Polynom zuordnen kann.
Definition 3.4.9 Sei V ein K-Vektorraum der Dimension n ∈ N und φ : V →
V ein K-linearer Endomorphismus. Sei A = MBB (φ) die darstellende Matrix von
φ, bezüglich einer beliebigen Basis B. Dann heißt
Pφ := PA = det(A − x · En ) ∈ K[x]
das charakteristische Polynom von φ.
A
Die Wohldefiniertheit von φ folgt aus Satz 3.4.7: ist B = MA
(φ) die darstel−1
lende Matrix bezüglich einer anderen Basis A, so gilt B = S AS, mit S := TBA .
Aus Definition 3.4.9 und Proposition 3.4.5 (ii) folgt sofort, dass die Nullstellen von Pφ genau die Eigenwerte von φ sind.
98
Beispiel 3.4.10 Sei V der Vektorraum aller Folgen (x1 , x2 , . . .) ∈ K N0 , die der
linearen Rekursiongleichung
xn = c1 xn−1 + . . . + ck xn−k
genügt. Sei φ : V → V der durch
φ(x1 , x2 , . . .) = (x2 , x3 , . . .)
definierte Endomorphismus. Sei B = (v1 , . . . , vk ) die ‘Standardbasis’ von V ,
d.h.
(i)
(i)
vi = (x1 , x2 , . . .),
mit den Anfangswerten
(i)
xj
=
(
1,
0,
j = i,
j 6= i.
Offenbar gilt
φ(v1 ) = ck · vk ,
φ(vi ) = vi−1 + ck−i+1 · vk ,
für i = 2, . . . , k.
Die darstellende Matrix von φ bezüglich B ist also


0
 ..

Ek−1


A= .
.
 0

ck ck−1 · · · c1
Durch Induktion über k zeigt man:
Pφ = PA = (−1)k (xk − c1 xk−1 − . . . − ck ).
Bis auf den konstanten Faktor (−1)k ist Pφ also das schon in §3.1 definierte
charakteristische Polynom der Rekursionsgleichung.
Im Folgenden betrachten wir, für einen festen K-Vektorraum V , die Menge
R := EndK (V )
aller K-linearen Endomorpismen von V . Ist V endlich-dimensional, so können
wir V nach Wahl einer Basis mit dem Standardvektorraum K n und R mit dem
Matrizenring Mn,n (K) identifizieren.
Sind φ, ψ ∈ R, so ist die Summe φ+ψ und das Produkt φ◦ψ folgendermaßen
definiert:
(φ + ψ)(v) := φ(v) + ψ(v),
(φ ◦ ψ)(v) := φ(ψ(v)).
Mit den Verknüpfungen + und ◦ ist R ein Ring (im Allgemeinen nichtkommutativ und nicht nullteilerfrei). Außerdem erhalten wir eine Einbettung des
99
Körpers K in den Ring R, indem wir einem Element λ ∈ K den skalaren Endomorphismus
λ : V → V,
v→
7 λ·v
zuordnen. Genau wie der Matrizenring Mn,n (K) ist R also eine K-Algebra
(vergleiche mit Korollar 2.5.6 und Bemerkung 2.5.7 (iii)).
Ist φ ∈ R ein Endomorphismus und f = an xn + . . .+ a0 ∈ K[x] ein Polynom,
so können wir in f für die Unbestimmte x den ‘Wert’ φ einsetzen:
f (φ) := an φn + . . . + a1 φ + a0 ∈ R.
Nach Definition gilt für einen Vektor v ∈ V :
f (φ)(v) = an φn (v) + . . . + a1 φ(v) + a0 · v.
Achtung: der letzte Term in der Summe ist a0 · v und nicht a0 – letzteres würde
gar keinen Sinn machen.
Lemma 3.4.11 Seien f, g ∈ K[x] und φ ∈ R. Dann gilt:
(i)
(f + g)(φ) = f (φ) + g(φ),
(f · g)(φ) = f (φ)(g(φ)).
(ii) Ist v ∈ V ein Eigenvektor von φ ∈ R zum Eigenwert λ, so gilt
f (φ)(v) = f (λ) · v.
Insbesondere ist v ein Eigenvektor von f (φ).
Beweis: Direktes Nachrechnen!
2
Satz 3.4.12 (Cayley-Hamilton) Sei V ein endlich-dimensionaler K-Vektorraum, φ ∈ EndK (V ) und Pφ das charakteristische Polynom. Dann gilt
Pφ (φ) = 0.
Beweis: Wir werden diesen Satz zunächst nur für diagonalisierbare Endomorphismen beweisen. Den allgemeinen Fall verschieben wir auf das nächste
Semester.
Sei also φ diagonalisierbar, und (v1 , . . . , vn ) eine Basis aus Eigenvektoren.
Sei λi der Eigenwert zu vi . Dann gilt Pφ (λi ) = 0. Wegen Lemma 3.4.11 (ii)
haben wir also
Pφ (φ)(vi ) = Pφ (λi ) · vi = 0.
(72)
Da v1 , . . . , vn eine Basis ist, folgt daraus Pφ (φ) = 0.
Ein alternativer Beweis von (72) geht so: nach Korollar 3.4.8 gilt für alle
i ∈ {1, . . . , n}:
Pφ = (λ1 − x) · · · (λn − x) = Pi · (λi − x),
100
wobei
Pi :=
Y
(λj − x).
j6=i
Mit Lemma 3.4.11 (i) folgt nun
Pφ (φ)(vi ) = Pi (φ)(λi · vi − φ(vi )) = Pi (φ)(0) = 0.
2
Beispiel 3.4.13 Sei
A :=
1 −1
∈ M2,2 (R).
1 1
Das charakteristische Polynom ist PA = x2 − 2x + 2 ∈ R[x]. Einsetzen von A
ergibt
0 −2
−2 2
2 0
PA (A) = A2 − 2 · A + 2 · E2 =
+
+
= 0,
2 0
−2 −2
0 2
im Einklang mit Satz 3.4.7. Man beachte aber, dass A nicht diagonalisierbar ist,
da PA keine (reellen) Nullstellen hat. Der obige Beweis ist also nicht unmittelbar
auf A anwendbar.
3.5
Die komplexen Zahlen
Ist eine Matrix oder der Endomorphismus eines endlich-dimensionalen Vektorraumes diagonalisierbar, so zerfällt das charakteristische Polynom in Linearfaktoren, siehe Korollar 3.4.8. Diese Beobachtung liefert eine nichttriviale notwendige Bedingung für Diagonalisierbarkeit. So ist z.B. die Matrix A aus Beispiel
3.2.4 nicht über dem Körper Q diagonalisierbar, da das Polynom PA = x2 − 2
keine rationale Nullstelle besitzt. Geht man aber zu dem größeren Körper R
über, so zerfällt das Polynom in zwei verschiedene Linearfaktoren. Deshalb ist
A über R diagonalisierbar.
Allerdings zerfällt auch über R nicht jedes Polynom in Linearfaktoren. Dazu
erinnern wir an die bekannte p-q-Formel: sei
f = x2 + p x + q ∈ R[x]
ein reelles quadratisches Polynom (es ist keine echte Einschränkung der Allgemeinheit, den führenden Koeffizienten auf 1 zu normalisieren). Dann zerfällt f
in Linearfaktoren genau dann, wenn
p2 ≥ 4q.
Ist dies der Fall, so gilt genauer f = (x − λ)(x − λ′ ), mit
r
r
p
p2
p2
p
′
− q,
λ =− −
− q.
λ=− +
2
4
2
4
101
(73)
Für p2 = 4q gilt λ = λ′ , sonst sind die beiden Nullstellen verschieden.
Im Fall p2 < 4q zerfällt f nicht, da man in dem Körper R keine Wurzel aus
einer negativen Zahl ziehen kann.
Durch Übergang von R zum Körper der komplexen Zahlen kann man diese
Einschränkung überwinden:
Definition 3.5.1 Der Körper der komplexen Zahlen ist die Menge
C := R2 = { (x, y) | x, y ∈ R },
versehen mit den Verknüpfungen + : C × C → C,
(x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 )
(die Addition), und · : C × C → C,
(x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 )
(die Multiplikation).
Proposition 3.5.2
(i) C ist (mit den obigen Verknüpfungen) ein kommutativer Ring.
(ii) C ist ein Körper.
(iii) Die injektive Abbildung
R ֒→ C,
x 7→ (x, 0)
ist ein Ringhomomorphismus. Wir dürfen also R als einen Unterring von
C auffassen.
Beweis: Zu (i) reicht es, die Ringaxiome (siehe Definition 1.2.9) nachzurechnen. Das ist reine Routine. Man stellt so auch fest, dass (0, 0) das Nullelement
und dass (1, 0) das Einselement von C ist.
Nun sei (x, y) ∈ C vom Nullelement verschieden. Dann ist das Element
x
−y , 2
(x, y)−1 :=
∈C
2
2
x + y x + y2
ein multiplikatives Inverses von (x, y) ist (man beachte, dass der Nenner wegen
(x, y) 6= (0, 0) nicht Null sein kann). Damit ist auch (ii) gezeigt. Die Behauptung
(iii) zeigt man ebenfalls durch einfaches Nachrechnen.
2
Wir werden im Folgenden die reellen Zahlen R als Teilmenge der komplexen
Zahlen C auffassen, gemäß (iii). Ausserdem setzen wir
i := (0, 1) ∈ C.
102
Das Element i heißt die imaginäre Einheit. Es gilt offenbar
i2 = −1.
(74)
Eine beliebige komplexe Zahl kann man auf eindeutige Weise als Linearkombination von 1 und i darstellen,
z = (x, y) = x + y · i.
(75)
Die reellen Zahlen x und y heißen der Real- bzw. der Imaginärteil der komplexen
Zahl z, in Zeichen:
x = ℜ(z),
y = ℑ(z).
Stellt man komplexe Zahlen in der Form (75) dar, so ergibt sich das konkrete
Rechnen mit ihnen ganz automatisch aus der Gleichung (74). Sind z.B. z1 =
x1 + y1 i, z2 = x2 + y2 i zwei komplexe Zahlen, so folgt aus den Ringaxiomen und
der Gleichung (74) durch eine kurze Rechnung die Identitäten
z1 + z2 = (x1 + x2 ) + (y1 + y2 ) i
und
z1 · z2 = (x1 + y1 i) · (x2 + y2 i) = (x1 x2 − y1 y2 ) + (x1 y2 + x2 y1 ) i.
Diese beiden Identitäten ergeben sich zwar auch aus der Definition 3.5.1. Wir
sehen aber durch diese Rechnung, dass die Definition 3.5.1 weniger willkürlich
ist, als sie auf den ersten Blick erscheint. Oder anders ausgedrückt: wenn man
zu den reellen Zahlen eine Wurzel aus −1 hinzufügen möchte, so stößt man
automatisch auf die komplexen Zahlen, wie wir sie hier definiert haben.
Geometrische Interpretation
Die komplexen Zahlen bilden einen R-Vektorraum der Dimension zwei, mit
Basis (1, i). Da diese Basis in gewissem Sinne kanonisch ist,10 ist es sinnvoll und
nützlich, die Menge der komplexen Zahlen mit den Punkten bzw. den Vektoren
der (Standard)Ebene zu identifizieren:
6
C
z =x+yi
y
i
1
x
10 mit
der Einschränkung, dass man i und −i nicht auf natürliche Weise unterscheiden kann
103
Dieses Bild nennt man häufig die komplexe Zahlenebene.
In dieser geometrischen Sichtweise entspricht die Addition komplexer Zahlen
offenbar der Vektoraddition. Es gibt auch eine geometrische Interpretation der
Multiplikation, aber die ist weniger offensichtlich. Um sie herzuleiten, wählen
wir eine komplexe Zahl z = x + y i ∈ C und betrachten die Abbildung
φz : C → C,
w 7→ z · w.
Fassen wir die Menge C als Vektorraum über dem Körper R auf, so ist φz ein
R-linearer Endomorphismus von C.
Da wir eine kanonische Basis (1, i) von C gewählt haben, können wir Rlineare Endomorphismen von C mit ihrer darstellenden Matrix identifizieren;
der Endomorphismus φz entspricht dann der reellen Matrix
x −y
Az =
.
y x
Die Determinante dieser Matrix ist
det(Az ) = x2 + y 2 ≥ 0.
Wir nennen
|z| :=
p
x2 + y 2
den Absolutbetrag von z. Nach dem Satz von Pythagoras ist |z| die Länge von
z, aufgefasst als Vektor in der komplexen Zahlenebene. Offenbar ist |z| ≥ 0 und
es gilt |z| > 0 genau dann, wenn z 6= 0.
Lemma 3.5.3 Im Fall z 6= 0 gibt es eine eindeutig bestimmte relle Zahl α ∈ R
mit 0 ≤ α < 2π und
x = |z| · cos α,
y = |z| · sin α.
Beweis: Setze u := x/|z|, v := y/|z|. Dann gilt u2 + v 2 = 1, d.h. der Punkt
(u, v) ∈ R2 liegt auf dem Einheitskreis. Aus der Analysis wissen wir, dass es
ein eindeutige reelle Zahl in dem halboffenen Intervall [0, 2π) gibt mit u = cos α
und v = sin α.
2
Wir nehmen im Folgenden an, dass z 6= 0 und bringen mit dem Lemma die
Matrix Az auf die folgende Form:
cos α − sin α
Az = |z| ·
.
sin α cos α
Wir erkenen sofort die Drehmatrix aus Beispiel 2.5.3 wieder. Der durch Az
dargestellte Endomorphismus φz ist also die Hintereinanderausführung einer
Drehung um den Winkel α und einer Streckung11 um den Faktor |z| > 0. Einen
Endomorphismus der Ebene von dieser Form nennt man eine Drehstreckung.
11 im
Fall |z| < 1 sollte man eher von einer Stauchung sprechen.
104
Entsprechend erhält man für eine komplexe Zahl z 6= 0 die Darstellung
z = |z| · (cos α + i · sin α),
(76)
mit einer eindeutig bestimmten reellen Zahl α = arg(z), 0 ≤ α < 2π. Man nennt
α = arg(z) das Argument von z. Geometrisch ist dies der Winkel zwischen dem
durch z gegebenen Vektor der komplexen Ebene und der reellen Zahlengerade.
6
z = x+yi
C
i sin α
α
cos α
R
-
Man nennt (76) auch die Darstellung von z 6= 0 in Polarkoordinaten.
Die Polarkoordinaten sind besonders günstig, wenn man komplexe Zahlen
miteinander multiplizieren möchte. Sind z.B. z = |z|(cos α + i sin α) und w =
|w|(cos β + i sin β) zwei von Null verschiedene komplexe Zahlen, so gilt
z · w = |z| · |w| · cos(α + β) + i sin(α + β) .
(77)
Mit anderen Worten: bei der Multiplikation zweier komplexer Zahlen multiplizieren sich die Absolutbeträge und addieren sich die Argumente. Genauer:
für z, w ∈ C gilt
|z · w| = |z| · |w|
(78)
und
arg(z · w) =
(
arg(z) + arg(w),
falls arg(z) + arg(w) < 2π,
arg(z) + arg(w) − 2π, sonst.
(79)
Die Gültigkeit der Formel (76) kann man anhand der Additionsgesetze für sin
und cos leicht nachrechnen (vergleiche mit der Formel (50) aus Beispiel 2.5.3).
Die geometrische Begündung dieser Formel ergibt sich aber auch sofort aus der
oben hergeleiteten Tatsache, dass die Multiplikation mit einer komplexen Zahl
z eine Drehung um den Winkel arg(z) und eine Streckung um den Faktor |z|
bewirkt.
Der Nachteil der Polarkoordinaten besteht darin, dass die Addition in ihnen
sehr kompliziert wird.
105
Der Fundamentalsatz der Algebra
Der folgenden Satz wurde 1799 von C.F. Gauß in seiner Dissertation bewiesen. Er zählt zu den wichtigsten Sätzen der gesamten Mathematik.
Satz 3.5.4 (Fundamentalsatz der Algebra) Sei f = an tn + . . . + a0 ∈ C[t]
ein Polynom vom Grad n > 0 (d.h. an 6= 0) mit komplexen Koeffizienten.
Dann zerfällt f vollständig in Linearfaktoren, d.h. es gibt komplexe Zahlen
z1 , . . . , zn ∈ C (nicht notwendigerweise verschieden!), so dass
f = an (t − z1 ) · . . . · (t − zn ).
Insbesondere besitzt jedes nichtkonstante komplexe Polynom mindestens eine
Nullstelle.
Auf einen Beweis dieses Satzes verzichten wir und diskutieren statt dessen
lieber ein paar Beispiele und Anwendungen.
Beispiel 3.5.5 Sei
f = t2 + p t + q ∈ R[t]
ein normiertes quadratisches Polynom mit reellen Koeffizienten. Dem Satz 3.5.4
zufolge gibt es komplexe Zahlen z1 , z2 ∈ C, so dass
f = (t − z1 )(t − z2 ).
Das gilt genau dann, wenn
z1 + z2 = −p und z1 z2 = q.
Im Fall p2 ≥ 4q liefert uns die p-q-Formel die zwei reellen Lösung
p
p
p − p2 − 4q
p + p2 − 4q
, z2 =
.
z1 =
2
2
Für p2 < 4q gibt es analog die zwei (verschiedenen!) komplexen Lösungen
p
p
p
4q − p2
4q − p2
p
· i, z2 = −
· i.
(80)
z1 = +
2
2
2
2
Mit anderen Worten: die p-q-Formel ist auch im Fall p2 < 4q anwendbar, wenn
man nur die Wurzel aus einer negativen reellen Zahl −λ als
√
√
(81)
−λ := λ · i ∈ C
definiert.
Man beachte, dass die beiden durch (80) gegebenen komplexen Nullstellen
von f denselben Realteil haben und sich ihr Imaginärteil nur durch das Vorzeichen unterscheidet. Dass dies kein Zufall ist, zeigt Teil (iii) der folgenden
Proposition 3.5.7.
106
Definition 3.5.6 Sei z = x + yi ∈ C eine komplexe Zahl. Dann heißt
z̄ := x − yi ∈ C
die komplex Konjugierte von z.
Proposition 3.5.7 (i) Eine komplexe Zahl z ∈ C ist genau dann eine reelle
Zahl, wenn z̄ = z gilt.
(ii) Für z, w ∈ C gilt
z + w = z̄ + w̄,
z · w = z̄ · w̄.
Die Abbildung C → C, z 7→ z̄, ist also ein Ringhomomorphismus.
(iii) Für z ∈ C und f ∈ R[t] gilt
f (z) = f (z̄).
Insbesondere gilt: ist z eine Nullstelle von f , so ist z̄ ebenfalls eine Nullstelle. (Achtung: die Bedingung, dass f reelle Koeffizienten hat, ist
wesentlich!)
Beweis: (i) ist trivial. (ii) zeigt man durch Nachrechnen. Durch mehrfaches
Anwenden von (i) und (ii) erhält man schließlich
f (z) = an z n + . . . + a0 = an z̄ n + . . . + a0 = f (z̄).
2
Korollar 3.5.8 Sei f ∈ R[t] ein relles Polynom vom Grad n = deg(f ). Dann
besitzt f eine Zerlegung der Form
f = an (t − λ1 ) · · · (t − λr ) · g1 · · · gs ,
mit reellen Zahlen λ1 , . . . , λr und quadratischen Polynomen der Form
gi = t2 + pi t + qi ∈ R[t],
die keine reelle Nullstelle haben (d.h. p2i < 4qi ).
Beweis: Wir führen den Beweis durch Induktion über n. Für n = 0 ist
nichts zu zeigen. Also dürfen wir n > 0 annehmen.
Nach Satz 3.5.4 zerfällt f über C in Linearfaktoren,
f = an (t − z1 ) · . . . · (t − zn ),
mit z1 , . . . , zn ∈ C.Sind alle Nullstellen zi reelle Zahlen, ist ebenfalls nicht zu
zeigen. Wir dürfen also, ohne Einschränkung der Allgemeinheit, annehmen,
dass z1 nicht reell ist. Aus f (z1 ) = 0 und Proposition 3.5.7 folgt f (z̄1 ) = 0.
107
Aber z̄1 6= z1 ; es gibt also einen Index i > 1 mit z̄1 = zi . Wieder dürfen wir
annehmen, dass i = 2, also z̄1 = z2 .
Nun sei
g := (t − z1 )(t − z2 ) = t2 + pt + q.
Wegen z̄1 = z2 sind die Koeffizienten von g reelle Zahlen:
q = z1 · z̄1 = |z1 |2 .
p = −(z1 + z̄1 ) = −2ℜ(z1 ),
Durch Polynomdivision (ohne Rest!) zeigt man, dass
f1 :=
f
= an (t − z3 ) · · · (t − zn )
g
wieder ein Polynom mit reellen Koeffizienten ist. Wegen deg(f1 ) = n − 2 <
n können wir auf f1 die Induktionshypothese anwenden. Das Korollar folgt
unmittelbar.
2
Bemerkung 3.5.9 Aus dem Korollar folgt sofort: ist f ∈ R[t] ein reelles Polynom vom Grad n = deg(f ) und ist n ungerade, so besitzt f mindestens eine
reelle Nullstelle. Diese Aussage kann man allerdings auch leicht ohne den Fundamentalsatz der Algebra beweisen: siehe Beispiel 5.1.15 des Analysisskriptes.
Beispiel 3.5.10 Wir betrachten das Polynom
f := t5 − 1 ∈ R[t].
Die Nullstellen von f sind genau die komplexen Zahlen z ∈ C mit
z5 = 1
(die sogenannten 5ten Einheitswurzeln). Anhand der geometrischen Interpretation der Multiplikation komplexer Zahlen sieht man leicht ein, dass es genau
5 solcher komplexen Zahlen gibt und dass sie die Ecken eines im Einheitskreis
eingeschriebenen gleichseitigen Fünfecks bilden.
6
z1
z2
z0 = 1z3
z4
108
Die 5 Nullstellen sind also
zk := cos(2πk/5) + i · sin(2πk/5),
k = 0, . . . , 4.
Insbesondere gilt z1 = 1 und z̄1 = z4 , z̄2 = z3 . Wie in Korollar 3.5.8 erhalten
wir die folgende Zerlegung in reelle, irreduzible Polynome:
f = t5 − 1 = (t − 1) · g1 · g2 ,
mit
g1 = (t − z1 )(t − z4 ) = t2 − 2 cos(2π/5) t + 1
und
g2 = (t − z2 )(t − z3 ) = t2 − 2 cos(4π/ 5) t + 1.
Andererseits erhalten wir durch Polynomdivision:
g1 · g2 =
Wir machen nun den Ansatz
t5 − 1
= t4 + t3 + t2 + t + 1.
t−1
g1 = t2 + a t + 1,
(82)
g2 = t2 + b t + 1,
mit Unbestimmten a, b. Aus (82) erhält man durch Ausmultiplizieren und Koeffizientenvergleich das (nichtlineare) Gleichungssystem
a + b = 1,
2 + ab = 1.
Ein kurze Rechnung liefert die Lösung
√
1− 5
,
a=
2
b=
√
1+ 5
.
2
(83)
Es gibt noch genau eine weitere Lösung, die sich durch Vertauschen von a und b
in (83) ergibt. Da aber a = −2 cos(2π/5) negativ und b = −2 cos(4π/5) positiv
sein muss, ist (83) die richtige Lösung. Wir haben damit die folgenden Formeln
bewiesen:
√
√
5−1
5+1
cos(2π/5) =
,
cos(4π/5) = −
.
(84)
4
4
3.6
Orthogonale Matrizen
Definition 3.6.1 Sei V = Rn der reelle Standardvektorraum der Dimension n.
Das Standardskalarprodukt auf V ist die Abbildung
V × V → R,
(x, y) 7→ hx, yi,
wobei das Produkt zweier Vektoren x = (xi ), y = (yi ) durch die Formel
hx, yi :=
n
X
i=1
definiert ist.
109
xi yi
Bemerkung 3.6.2 Fasst man Elemente von Rn als (n, 1)-Matrizen auf (Spaltenschreibweise!), so kann man das Skalarprodukt auch auf die folgende Weise
schreiben:
 
y1
 .. 
t
hx, yi = x · y = x1 · · · xn ·  . 
yn
Proposition 3.6.3 Das Standardskalarprodukt auf V = Rn hat die folgenden
Eigenschaften.
(i) (Bilinearität) Für x, y, z ∈ V , λ, µ ∈ R gilt
hλ · x + µ · y, zi = λhx, zi + µhy, zi
und
hx, λ · y + µ · zi = λhx, yi + µhx, zi.
(ii) (Symmetrie) Für alle x, y ∈ V gilt
hx, yi = hy, xi.
(iii) (Positive Definitheit) Für alle x ∈ V ist hx, xi ≥ 0; es gilt hx, xi = 0 genau
dann, wenn x = 0.
Beweis: Offensichtlich.
2
Das Skalarprodukt hat eine einfache geometrische Interpretation. Für einen
Vektor x = (xi ) ∈ V heißt
q
p
||x|| := hx, xi = x21 + . . . + x2n
die Norm oder die Länge von x. Für n = 2, 3 ist dies die übliche Länge eines
Vektors, d.h. der Abstand zwischen Anfangs- und Endpunkt (Satz des Pythagoras):
x2
6
x = (x1 , x2 )
x1
110
-
Sind zwei Vektoren x, y 6= 0 gegeben und bezeichnet α ∈ [0, 2π) den Winkel
zwischen x, y, so gilt die Formel
hx, yi = ||x|| · ||y|| · cos α.
Insbesondere gilt hx, yi = 0 für zwei von Null verschiedene Vektoren x, y genau
dann, wenn x und y in einem rechten Winkel zueinander liegen (wegen cos α =
0 ⇔ α ∈ {π/2, 3π/2}):
K
y
*
α
x
Definition 3.6.4
(i) Zwei Vektoren x, y ∈ Rn heißen orthogonal, wenn hx, yi = 0; in Zeichen:
x ⊥ y.
(ii) Eine Orthonormalbasis von V = Rn ist eine Basis B = (v1 , . . . , vn ) mit
der Eigenschaft
(
1, i = j,
hvi , vj i = δi,j :=
0, i 6= j,
für alle i, j ∈ {1, . . . , n}. Die Vektoren von B sind also paarweise orthogonal und haben die Länge 1.
(iii) Eine Matrix A ∈ Mn,n (R) heißt orthogonal, falls für alle x, y ∈ Rn gilt:
hA · x, A · yi = hx, yi.
Die Menge aller orthogonalen Matrizen A ∈ Mn.n (R) bezeichnen wir mit
On (R).
Die enge Beziehung zwischen Orthonormalbasen und orthogonalen Matrizen
ergibt sich aus dem folgenden Satz.
Satz 3.6.5 Für eine Matrix A ∈ Mn,n (R) sind die folgenden Bedingungen
äquivalent.
(a) A ist orthogonal.
(b) Die Spalten von A bilden eine Orthonormalbasis von Rn .
(c) A ist invertierbar, und es gilt At = A−1 .
111
Beweis: Sei E = (e1 , . . . , en ) die Einheitsbasis. Offenbar gilt hei , ej i = δi,j ,
d.h. E ist eine Orthonormalbasis. Setze vi := A · ei . Dann ist vi die ite Spalte
von A, in Zeichen: A = (v1 | · · · | vn ).
Angenommen, A ist orthogonal. Dann folgt
hvi , vj i = hA · ei , A · ej i = hei , ej i = δi,j .
(85)
Wir behaupten, dass das System B := (v1 , . . . , vn ) automatisch eine Basis von
Rn ist. Aus Dimensionsgründen
genügt es, die lineare Unabhängigkeit zu zeigen.
P
Seien λ1 , . . . , λn ∈ R mit i λi · vi = 0. Unter Ausnutzung der Linearität des
Skalarproduktes (Proposition 3.6.3 (i)) und der Formel (85) folgt
X
X
λi hvi , vj i = λj ,
λi · vi , vj i =
0=h
i
i
für alle j ∈ {1, . . . , n}. Damit haben wir die Implikation (i)⇒(ii) bewiesen.
Zum Beweis von (ii)⇒(iii) nehmen wir an, dass B eine Orthonormalbasis ist.
Wir schreiben
At · A = (ci,j ).
Nach Definition der Matrizenmultiplikation ist der Eintrag ci,j das Skalarprodukt der iten Zeile von At mit der jten Spalte von A, also
ci,j = hvi , vj i = δi,j .
Dies ist gleichbedeutend mit At · A = En . Es gilt also At = A−1 , was zu zeigen
war.
Zum Schluss zeigen wir (iii)⇒(i). Sei A ∈ Mn,n (R) eine Matrix mit At · A =
En und x, y ∈ Rn . Unter Verwendung der Bemerkung 3.6.2 erhalten wir
hA · x, A · yi = (A · x)t · (A · y) = xt · (At · A) · y = xt · y = hx, yi,
d.h. A ist orthogonal. Damit ist alles gezeigt.
2
Korollar 3.6.6 Ist A ∈ Mn,n (R) orthogonal, so gilt det(A) ∈ {1, −1}.
Beweis: Aus At · A = En folgt mit Proposition 3.3.11:
1 = det(En ) = det(A)2 .
2
Bemerkung 3.6.7 Sind A, B ∈ On (R) orthogonale Matrizen, so sind A · B
und A−1 ebenfalls orthogonal; dies folgt sofort aus der Definition. Die Matrizenmultiplikation · definiert also eine assoziative Verknüpfung auf der Menge
On (R), die ein neutrales Element und inverse Elemente besitzt. Man sagt, dass
(On (R), · ) eine Gruppe ist.
112
Im Folgenden wollen wir alle orthogonalen Matrizen der Dimension n = 2, 3
klassifizieren.
Satz 3.6.8 Sei A ∈ O2 (R) ein orthogonale Matrix der Dimension zwei.
(i) Falls det(A) = 1, so gibt es eine eindeutige reelle Zahl α ∈ [0, 2π) so, dass
cos α − sin α
A=
.
sin α cos α
(ii) Falls det(A) = −1, so gibt es eine orthogonale Matrix S ∈ O2 (R) mit
det(S) = 1 und
1 0
−1
S ·A·S =
.
0 −1
Beweis: Wir schreiben
x1 y1
= (x | y),
A=
x2 y2
x1
,
x=
x2
y1
.
y=
y2
Die Orthogonalität von A ist gleichbedeutend mit
x ⊥ y,
||x|| = ||y|| = 1.
Insbesondere gilt x, y 6= 0. Die Bedingung x ⊥ y lautet als Gleichung
x1 y1 + x2 y2 = 0.
Fasst man diese Gleichung als lineares Gleichungssystem in den Unbestimmten
y1 , y2 auf, so hat der Lösungsraum wegen x 6= 0 die Dimension eins; eine Basis
des Lösungsraumes ist die Lösung y1 := −x2 , y2 := x1 . Es gibt also eine
eindeutig bestimmte relle Zahl λ 6= 0 mit
y1 = −λx2 ,
y2 = λx1 .
Die Bedingungen ||x|| = ||y|| = 1 implizieren nun
1 = y12 + y22 = λ2 (x21 + x22 ) = λ2 ,
also λ = ±1.
Nehmen wir also zunächst λ = 1 an. Dann gilt
x1 −x2
,
A=
x2 x1
mit det(A) = x21 + x22 = ||x||2 = 1. Wie in Lemma 3.5.3 zeigen wir, dass es ein
eindeutig bestimmtes α ∈ [0, 2π) gibt mit x1 = cos α, x2 = sin α. Der Fall (i)
von Satz 3.6.5 ist damit bewiesen.
113
Nun zum Fall λ = −1. Es gilt dann
x1
A=
x2
x2
.
−x1
Das charakteristische Polynom von A,
PA = t2 − (x21 + x22 ) = t2 − 1 = (t − 1)(t + 1),
hat zwei verschiedene Nullstellen, 1 und −1. Es gibt also eine Basis B = (v, w)
von R2 mit A · v = v, A · w = −w. Durch Multiplikation der Vektoren v, w mit
dem Kehrwert ihrer Länge kann man erreichen, dass ||v|| = ||w|| = 1. Aus der
Orthogonalität von A folgt zusätzlich
hv, wi = hA · v, A · wi = hv, −wi = −hv, wi,
also hv, wi = 0. Die Basis B ist also eine Orthonormalbasis aus Eigenvektoren.
Setzt man S := (v | w) = TEB , so ist S eine orthogonale Matrix, und S −1 AS
ist eine Diagonalmatrix mit Diagonaleinträgen 1, −1 ist. Es gilt det(S) = ±1.
Im Fall det(S) = −1 kann man durch Ersetzen von v durch −v erreichen, dass
det(S) = 1, ohne an den anderen gewünschten Eigenschaften von S etwas zu
ändern. Damit ist alles gezeigt.
2
Zur geometrischen Interpretation des soeben bewiesenen Satzes betrachten
wir den durch A gegebenen Endomorphismus der Ebene
R2 → R2 ,
z 7→ A · z.
Die Orthogonalität von A bedeutet, dass dieser Endomorphimus längen- und
winkeltreu ist; einen Endomorphismus mit dieser Eigenschaft nennt man eine
Isometrie. Der Satz 3.6.8 liefert eine einfache Klassifizierung aller Isometrien der
Euklidischen Ebene, genauer: eine Einteilung in Drehungen und Spiegelungen.
Sei A = (x | y) ∈ O2 (R) eine orthogonale Matrix. Die Zeilen x, y von A
sind die Bilder der Standardbasisvektoren e1 , e2 , d.h. x = A · e1 , y = A · e2 .
Da A orthogonal ist, haben x, y die Länge 1 und stehen senkrecht aufeinander.
Wählt man für x einen beliebigen Vektor der Länge 1, so bleiben genau zwei
Möglichkeiten für den Vektor y, da die auf x senkrecht stehende Gerade, d.h.
der Untervektorraum
hxi⊥ := { z ∈ R2 | z ⊥ x }
den Einheitskreis in genau zwei Punkten schneidet.
114
6
e2
hxi⊥
]
x
z 7→ A · z
y Y
α
e1 -
Wir nehmen zunächst an, dass y der Vektor ist, den man erhält wenn man x um
den Winkel π/2 gegen den Uhrzeigersinn dreht. Bezeichnet α den Winkel zwischen e1 und x (gegen den Uhrzeigersinn gemessen), so ist der Winkel zwischen
e2 und y ebenfalls α. Die Drehung der Ebene um den Winkel α bildet demnach
e1 auf x und e2 auf y ab. Sie ist deshalb identisch mit der Abbildung z 7→ A · z.
Dies ist der Fall (i) von Satz 3.6.8.
Nun betrachten wir den Fall, dass es sich bei y um den Vektor handelt, den
man durch Drehung von x um den Winkel π/2 im Uhrzeigersinn erhält. Es ist
sofort klar, dass der Endomorphismus z 7→ A · z keine Drehung sein kann. Nun
sei
cos(α/2)
− sin(α/2)
v :=
, w :=
∈ R2 .
sin(α/2)
cos(α/2)
Offenbar ist B := (v, w) eine Orthonormalbasis von R2 , die man durch Rotation
der Standardbasis (e1 , e2 ) um den Winkel α/2 erhält. Der von v aufgespannte
Untervektorraum
V := R · v ⊂ R2
ist also die Gerade durch den Nullpunkt, die den Winkel zwischen e1 und x
halbiert.
V ⊥ = R · wK
6
e2
x
V =R·v
*
α
e1 j y
115
Da w senkrecht auf v und y senkrecht auf x steht, sieht man leicht ein, dass V
auch den Winkel zwischen e2 und y halbiert.
Nun sei φ : R2 → R2 die Spiegelung der Ebene an der Gerade V . Nach
Konstruktion gilt dann φ(v) = v und φ(w) = −w. Mit anderen Worten: die
darstellende Matrix von φ bezüglich der Basis B ist
1 0
B
MB (φ) =
.
0 −1
Andererseits führt die im vorhergehenden Absatz beschriebene Eigenschaft von
V als Winkelhalbierende durch eine elementargeometrische Überlegung zu den
Gleichungen
φ(e1 ) = x,
φ(e2 ) = y.
Es folgt
φ(z) = A · z,
∀ z ∈ R2 ,
d.h. A ist die darstellende Matrix der Spiegelung φ bzgl. der Standardbasis.
Insgesamt erhalten wir die Gleichheit
1 0
B
B
E
E
A = ME (φ) = TE · MB (φ) · TB = S ·
· S −1 ,
0 −1
mit S := TEB = (v | w). Dies ist genau die Aussage von Satz 3.6.5 im Fall (ii).
Wir kommen nun zum Fall n = 3.
Satz 3.6.9 Sei A ∈ O3 (R) eine orthogonal Matrix der Dimension 3. Dann gibt
es eine orthogonale Matrix S ∈ O3 (R) mit det(S) = 1 und


ǫ
0
0
S −1 · A · S =  0 cos α − sin α .
0 sin α cos α
Hierbei ist wie üblich α ∈ [0, 2π) und
ǫ := det(A) = ±1.
Zuerst die geometrische Interpretation. Seien A und S orthogonale Matrizen
wie im Satz und B = (v1 , v2 , v3 ) die Orthonormalbasis der Spalten von S. Dann
ist v1 ein Eigenvektor von A mit Eigenwert ǫ = ±1; insbesondere ist die von v1
aufgespannte Gerade
W := hv1 i ⊂ R3
invariant unter dem Endomorphismus φ : R3 → R3 , x 7→ A · x. Im Fall ǫ = 1
wird W punktweise festgelassen, im Fall ǫ = −1 wird W in sich am Nullpunkt
gespiegelt.
Der von v2 , v3 aufgespannte Untervektorraum U ist genau das orthogonale
Komplement von W ,
U := hv2 , v3 i = W ⊥ ,
116
und ist ebenfalls φ-invariant. Die Einschränkung von φ auf U ist offenbar eine
Drehung von U um den Winkel α.
Im Fall det(A) = 1 nennen wir deshalb den von der orthogonalen Matrix A
dargestellten Endomorphismus φ eine Drehung um die Achse W mit dem Winkel
α. Der Vektor v1 heißt der Richtungsvektor der Drehachse. Wir werden später
sehen: eine Drehung des R3 ist durch den Richtungsvektor der Drehachse und
den Drehwinkel eindeutig bestimmt (das liegt an der Bedingung det(S) = 1).
O
α
K
v3
v1
:
v2
U = W⊥
W = hv1 i
Korollar 3.6.10 Sei φ : R3 → R3 eine Drehung mit Drehwinkel α. Sei A ∈
O3 (R) die darstellende Matrix von φ (bzgl. der Standardbasis). Dann gilt
Spur(A) = 1 + 2 cos α.
(Zur Erinnerung: die Spur einer quadratischen Matrix ist die Summe der Diagonaleinträge.)
Beweis: Die Spur von A tritt als Koeffizient von t2 im charakteristischen
Polynom auf,
PA = −t3 + Spur(A) t2 + a1 t − det(A).
Da ähnliche Matrizen dasselbe charakteristische Polynom haben, folgt aus Satz
3.6.9
Spur(A) = Spur(S −1 AS) = ǫ + 2 cos α.
Da A die Matrix einer Drehung ist, gilt ǫ = det(A) = 1.
117
2
Bemerkung 3.6.11 Achtung: in einigen Formelsammlungen findet man das
Korollar 3.6.10 auch in der Form
Spur(A) − 1 .
2
α = arccos
Diese Formel ist aber problematisch, da der Arkuskosinus immer einen Winkel
α im Interval [0, π] liefert. Für eine Drehung um einen Winkel α > π liefert die
Formel daher nicht das richtige Ergebnis.
Dieses Problem hängt mit dem Begriff der Orientierung einer Drehung zusammen, worauf wir am Ende dieses Kapitel noch zurückkommen werden.
Nun zum Beweis von Satz 3.6.9. Wir benötigen folgendes Lemma.
Lemma 3.6.12 Sei A ∈ On (R) eine orthogonale Matrix und v ∈ Rn ein Eigenvektor von A zum Eigenwert λ ∈ R. Dann gilt:
(i) λ ∈ {1, −1}, d.h. A · v = ±v.
(ii) Der Untervektorraum
U := hvi⊥ := { u ∈ Rn | u ⊥ v = 0 } ⊂ Rn
hat Dimension n − 1 und ist A-invariant, d.h.
A · u ∈ U,
für alle u ∈ U .
Beweis: Aus der Orthogonalität von A schließen wir
||v|| = ||A · v|| = ||λ · v|| = |λ| · ||v||.
Wegen ||v|| =
6 0 folgt daraus |λ| = 1, also λ = ±1.
Zum Beweis von (ii) schreiben wir v = (xi ) und w = (yi ). Der Vektor w
liegt dann in W genau dann, wenn
x1 y1 + . . . + xn yn = 0.
Der Untervektorraum U ⊂ Rn ist also die Lösungsmenge eines homogenen
linearen Gleichungssystems mit einer Gleichung, die nicht Null ist. Es folgt
dimR (U ) = n − 1. Ist u ∈ U , so folgt ausserdem (unter Verwendung von (i))
0 = hv, ui = hA · v, A · ui = h±v, A · ui = ±hv, A · ui,
also A · u ∈ U . Damit ist alles gezeigt.
2
Beweis: (von Satz 3.6.9) Wir betrachten das charakteristische Polynom von
A,
PA = −t3 + . . . + ǫ ∈ R[t].
118
Man beachte, dass ǫ = det(A) = ±1. Da der Grad von PA eine ungerade
Zahl ist, besitzt PA mindestens eine reelle Nullstelle λ ∈ R, siehe Bemerkung
3.5.9. Nach Lemma 3.6.12 (i) sind λ = 1 und λ = −1 die einzigen möglichen
Nullstellen.
Wir behaupten, dass ǫ = det(A) ein Eigenwert von A ist. Zum Beweis der
Behauptung nehmen wir an, dass dies nicht der Fall ist; dann wäre −ǫ die einzige
reelle Nullstelle von PA .
Es sind zunächst zwei Fälle denkbar. Im ersten Fall hätten wir eine Zerlegung
PA = −(t + ǫ) · g,
g = t2 + b1 t + b0 ∈ R[t],
wobei der quadratische Faktor g keine reelle Nullstellen besitzt. Dann sähe die
Zerlegung von PA in komplexe Linearfaktoren folgendermassen aus:
PA = −(t + ǫ)(t − µ)(t − µ̄),
mit einer nichtreellen Zahl µ ∈ C\R. Durch Ausmultplizieren und Vergleich des
konstanten Koeffizienten erhalten wir
ǫ = −ǫ · µ · µ̄ = −ǫ · |µ|.
Wegen |µ| ≥ 0 führt dies zu einen Widerspruch. Also kann höchstens der zweite
Fall eintreten, nämlich
PA = −(t + ǫ)3 .
Wie oben liefert Ausmultiplizieren und Vergleich des konstanten Koeffizienten
die unmögliche Gleichung
ǫ = −ǫ3 = −ǫ.
Damit ist gezeigt, dass ǫ = det(A) ein Eigenwert von A ist.
Sei v1 ∈ R3 ein Eigenvektor von A zum Eigenwert ǫ der Länge 1, d.h. mit
||v1 || = 1. Wir betrachten nun den Untervektorraum
U := hv1 i⊥ ⊂ R3 .
Nach Lemma 3.6.12 (ii) hat U die Dimension 2 und ist A-invariant. Wir wählen
nun eine Orthonormalbasis (v2 , v3 ) von U . Nach Konstruktion ist dann B :=
(v1 , v2 , v3 ) eine Orthonormalbasis von R3 mit
A · v1 = ǫ · v1 ,
A · v2 , A · v3 ∈ U = hv2 , v3 i.
Deshalb ist S := TEB = (v1 |v2 |v3 ) eine orthogonale Matrix mit der Eigenschaft


ǫ
0 0
,
S −1 · A · S =  0
B
0
und einer orthogonalen Matrix B ∈ O2 (R). Aus
ǫ = det(A) = ǫ · det(B)
119
folgt ausserdem det(B) = 1. Nach Satz 3.6.8 gilt also
cos α − sin α
B=
sin α cos α
für ein gewisses α ∈ [0, 2π).
Damit ist fast alles gezeigt, mit der Ausnahme, dass det(S) = ±1 gilt,
im Satz aber det(S) = 1 verlangt wird. Man beachte aber, dass es bei der
Konstruktion von S bzw. der Orthonormalbasis B = (v1 , v2 , v3 ) nicht auf die
Reihenfolge der beiden Vektoren v2 , v3 ankommt – wir haben nur benutzt, dass
(v2 , v3 ) eine Orthonormalbasis des Untervektorraumes U = hv1 i⊥ ist. Durch
Vertauschen von v2 und v3 dreht sich das Vorzeichen von det(S) um. Wir
können also immer erreichen, dass det(S) = 1 gilt. Jetzt ist wirklich alles
gezeigt.
2
Orientierung
Um die geometrische Interpretation von Satz 3.6.9 abzurunden, müssen wir
noch die Bedingung det(S) = 1 verstehen. Dazu ist es hilfreich, zunächst allgemein das Konzept eines orientierten Vektorraumes zu diskutieren.
Es sei im Folgenden V ein endlich dimensionaler R-Vektorraum. Wir bezeichnen mit XV die Menge aller Basen von V .
Definition 3.6.13 Zwei Basen A, B ∈ XV von V heißen gleichorientiert, in
Zeichen
A ∼ B,
wenn
det(TBA ) > 0.
Proposition 3.6.14 (i) Die soeben definierte Relation A ∼ B der Gleichorientiertheit ist eine Äquivalenzrelation auf der Menge XV aller Basen
von V (siehe Definition 1.2.20).
(ii) Es gibt genau zwei verschiedene Äquivalenzklassen, d.h. die Relation zerteilt
XV in zwei disjunkte Teilmengen,
·
XV = XV,1 ∪ XV,2 .
Beweis: Sei A ∈ XV eine Basis. Es gilt TAA = En , also det(TAA ) = 1 > 0.
Nach Definition ist daher A ∼ A, d.h. die Relation ist reflexiv.
Sind A, B ∈ XV gegeben, so gilt TAB = (TBA )−1 (siehe Bemerkung 2.6.3).
Aus A ∼ B folgt also wegen det(TBA ) > 0 auch
det(TAB ) = 1/ det(TBA ) > 0,
und somit B ∼ A. Die Relation ist daher symmetrisch.
120
Nun seinen A, B, C ∈ XV Basen mit A ∼ B und B ∼ C. Aus der Kettenregel
(Bemerkung 2.6.3) folgt dann
det(TCA ) = det(TCB · TBA ) = det(TCB ) · det(TBA ) > 0,
d.h. A ∼ C. Die Relation ist daher transitiv.
Wir haben gezeigt, dass die Relation A ∼ B eine Äquivalenzrelation ist. Sei
A = (v1 , . . . , vn ) ∈ XV eine beliebige Basis. Dann ist B := (−v1 , v2 , . . . , vn )
ebenfalls eine Basis. Die Basiswechselmatrix ist eine Diagonalmatrix mit Diagonaleinträgen −1, 1, . . . , 1; somit gilt
det(TBA ) = −1 < 0.
Die Basen A und B sind also nicht gleichorientiert, und es gibt mindestens zwei
verschiedene Äquivalenzklassen.
Nun sei C eine dritte Basis. Dann gilt entweder A ∼ C oder det(TCA ) < 0.
Im letzteren Fall folgt aber aus der Kettenregel
det(TCB ) = det(TCA ) · det(TBA )−1 = − det(TCA ) > 0.
Es ist also entweder A ∼ C oder B ∼ C. Damit ist alles gezeigt.
2
Definition 3.6.15 Eine Orientierung von V ist eine Äquivalenzklasse von gleichorientierten Basen, also eine Teilmenge von XV der Form
XV+ = [A]∼ ⊂ XV .
Die Elemente von XV+ heißen positiv orientierte Basen von V (bezüglich der
gewählten Orientierung).
Beispiel 3.6.16 Sei V := Rn der euklidische Standardvektorraum der Dimension n und E = (e1 , . . . , en ) die Standardbasis. Die Orientierung von V ,
bezüglich der E positiv orientiert ist, heißt die Standardorientierung von V .
Eine Basis B = (v1 , . . . , vn ) von V ist also positiv orientiert genau dann, wenn
det(v1 | · · · |vn ) > 0.
Proposition 3.6.14 besagt: ein endlichdimensionaler reeller Vektorraum V
hat genau zwei mögliche Orientierungen. Wir wollen dies nun in den Fällen
n = dimR (V ) = 1, 2, 3 durch geometrische Überlegungen nachvollziehen.
Sei zunächst n = 1. Wir stellen uns den Vektorraum V in diesem Fall als
eine Gerade vor, auf der wir einen Ursprungspunkt 0 ∈ V gewählt haben. Eine
Basis von V besteht einfach aus einem beliebigen Vektor v ∈ V mit v 6= 0. Die
Menge V \{0} zerfällt offenbar in zwei Zusammenhangskomponenten,
·
V \{0} = V + ∪ V − .
121
Diese Zerlegung entspricht gerade den zwei möglichen Orientierungen. Wählen
wir ein Element v ∈ V + als den Basisvektor einer orientierten Basis, so liefert
ein zweiter Vektor w 6= 0 genau dann eine orientierte Basis, wenn w ebenfalls
in V + liegt (denn dann gilt w = λ · v mit λ > 0). Geometrisch gesprochen
haben gleichorientierte Vektoren dieselbe Richtung. Eine Orientierung von V
entspricht deshalb der Wahl einer Richtung.
V−
0
V+
) v
Ein entscheidender Punkt ist, das grundsätzlich keine der zwei möglichen
Orientierungen (bzw. Richtungen) von V Vorrang vor der anderen hat. Welche
Orientierung/Richtung von V man als ‘natürlich’ empfindet, hängt nämlich vom
Blickwinkel ab, von dem aus man die Gerade V betrachtet.
Im Fall n = 2 stellen wir uns V als eine Ebene vor, auf der wir einen Ursprungspunkt 0 ∈ V gewählt haben. Im Unterschied zum eindimensionalen Fall
zerfällt V \{0} offenbar nicht in zwei Zusammenhangskomponenten, es macht
also keinen Sinn, der Ebene V eine ‘Richtung’ zu geben. Die richtige Verallgemeinerung auf den zweidimensionalen Fall ist die Aussage, dass die Menge XV
aller Basen von V in zwei ‘Zusammenhangskomponenten’ zerfällt,
·
XV = XV+ ∪ XV− ,
nämlich den zwei möglichen Orientierungen. Konkret bedeutet das folgendes:
ist eine Basis B = (v1 , v2 ) von V gegeben, so müssen wir eine geometrische
Vorschrift haben, nach der wir entscheiden können, ob B positiv orientiert ist
(also B ∈ XV+ ) oder nicht.
Wir werden im Folgenden zeigen, dass so eine Vorschrift ihrem Wesen nach
von unserer Blickrichtung auf die Ebene V abhängt. Mit Blickrichtung meinen
wir hier die Position eines Betrachters, der in einem die Ebene V umgebenden
dreidimensionalen Raum von außen auf V schaut. (Beispiel: ein(e) Student(in)
sitzt am Schreibtisch und betrachtet ein vor ihm/ihr liegendes Übungsblatt.)
Wir nehmen also eine Blickrichtung auf V ein. Sei B = (v1 , v2 ) eine Basis
von V und W := hv1 i ⊂ V der vom ersten Basisvektor aufgespannte Untervektorraum (eine Gerade). Da v1 und v2 linear unabhängig sind, liegt v2 nicht in
W . Das Komplement von W zerfällt offenbar in zwei ‘Hälften’. Außerdem hat
die Gerade W durch Wahl des Basisvektors v1 eine vorgegebene Richtung bzw.
Orientierung. Wir nennen V + (bzw. V − ) diejenige Hälfte von V \W , die ‘links’
von W (bzw. ‘rechts’ von W ) liegt. Die Einteilung in ‘links’ und ‘rechts’ nimmt
dabei ein Beobachter vor, von dessen Standpunkt aus der Richtungsvektor v1
von W nach oben zeigt.
122
W = hv1 i
K
v2
V
v1
V+
V−
Wir sagen nun, dass die Basis B = (v1 , v2 ) positiv orientiert ist, wenn der zweite
Basisvektor in der linken Hälfte liegt, v2 ∈ V + .
Man beachte, dass diese Vereinbarung ganz wesentlich von unserer gewählten
Blickrichtung auf V abhängt. Ein Betrachter, der V von der anderen Seite sieht,
würde V − als linke Hälfte und V + als rechte Hälfte wahrnehmen.
Wir behaupten, dass die Teilmenge XV+ ⊂ XV aller im soeben definierten
Sinne positiv orientierter Basen eine Orientierung von V ist. Dazu ist folgendes
zu zeigen. Sind B und C Basen von V und ist B positiv orientiert, so gilt:
C positiv orientiert
⇔
det(TCB ) > 0.
Wir empfehlen dem interessierten Leser, einen Beweis dieser Behauptung als
Übungsaufgabe auszuformulieren. 12
Die obige Interpretation der Orientierung einer Ebene ist insofern unbefriedigend, als sie von einem außerhalb der Ebene angenommenen Standpunkt
abhängt. In der Mathematik ist man aber bestrebt, geometrische Begriffe
vollständig von ‘innen’ heraus zu erkären. Das ist im Fall der Orientierung
einer Ebene auch möglich und führt uns zu dem Begriff des Drehsinnes.
Wir nehmen an, dass wir eine Orientierung der Ebene V gewählt haben.
Wir können dann auch eine orientierte Orthonormalbasis B = (v1 , v2 ) wählen.
Wir definieren nun die orientierte Drehung von V um den Winkel α ∈ R als die
∼
Isometrie φα : V → V , die bezüglich B durch die Matrix
cos α − sin α
Aα =
sin α cos α
dargestellt wird.
Der entscheidende Punkt ist, dass die Drehung φα nur von dem Winkel α
und der Orientierung von V abhängt, nicht aber von der gewählten Orthonormalbasis B. Denn wenn B durch eine andere orientierte Orthonormalbasis B ′
12 Hinweis: man untersuche zunächst die folgenden Spezialfälle (für eine fest gewählte, positiv orientierte Basis B = (v1 , v2 )):
• C = (λ · v1 , v2 ), mit λ 6= 0,
• C = (v1 , v2 + λ · v1 ), mit λ ∈ R, und
• C = (v2 , v1 ).
123
ersetzt wird, müßte man a priori die Matrix Aα durch S −1 · Aα · S ersetzen,
′
wobei S := TBB eine orthogonale Matrix ist. Da aber B und B ′ nach Annahme
orientierte Basen sind, gilt det S = 1. Nach Satz 3.6.8 ist S daher selbst eine
Drehmatrix und kommutiert mit Aα . Daraus folgt, dass S −1 · Aα · S = Aα und
dass φα nicht von der Wahl von B abhängt.
Die Definition φα hängt tatsächlich von der gewählten Orientierung von V
ab; ändert man die Orientierung, so erhält man statt φα die Drehung φ−1
α =
φ−α . Denn ist S eine orthogonale Matrix mit det S = −1 (eine Spiegelung), so
gilt
S −1 · Aα · S = A−1
α = A−α .
Wir sehen: eine Orientierung von V entspricht einem Drehsinn, genauer:
einer eindeutigen Unterscheidung zwischen den beiden Drehungen um die Winkel
α und −α.
Schließlich wollen wir noch den Fall n = 3 diskutieren. Zwar ist uns das
räumliche Denken vertraut, aber im Vergleich zum Fall n = 2 sind wir nicht in
der Lage, uns einen dreidimensionalen Raum ‘von außen’, also als eingebettet
in einen höherdimensionalen Raum vorzustellen.
Wie ist es möglich, dass wir uns als Gefangene in drei Dimensionen über
eine Orientierung des uns umgebenden Raumes einigen können, die unabhängig
von unserem persönlichen Standpunkt ist? Wir können diese Frage nur pragmatisch beantworten, indem wir z.B. die ‘Rechte-Hand-Regel’ benutzen. Die
besagt, dass Daumen, Zeigefinger, Mittelfinger (in dieser Reihenfolge) einer
rechten Hand einer positiv orientierten Basis B = (v1 , v2 , v3 ) des uns umgebenden Raumes V entsprechen. Nach dieser Regel ist z.B. die im Bild auf Seite 117
dargestellte Basis B = (v1 , v2 , v3 ) positiv orientiert.
Wie im oben diskutierten Fall n = 2 entspricht die Wahl einer Orientierung
einem Drehsinn des Raumes. Genauer kann man, nach Wahl einer Orientierung
und ausgehend von einem Vektor v1 der Länge 1 und einer reellen Zahl α, die
orientierte Drehung φα : V → V mit Drehachse v1 und Drehwinkel α definieren.
Dazu ergänzt man v1 zu einer orientierten Orthonormalbasis B = (v1 , v2 , v3 )
und definiert φα als die lineare Abbildung mit darstellender Matrix


1
0
0
Aα :=  0 cos α − sin α
0 sin α cos α
bezüglich B. Mit dem gleichen Argument wie oben zeigt man: φα hängt nur
von der Orientierung von V , von der Drehachse v1 und dem Drehwinkel α ab,
nicht aber von der Basis B. ändert man die Orientierung (oder ersetzt v1 durch
−v1 ), so erhält man φ−1
α = φ−α anstelle von φα .
Siehe das Bild auf Seite 117 und die Bemerkung 3.6.11.
124
Herunterladen