lineare algebra ii - wwwu.uni

Werbung
LINEARE ALGEBRA II
Ao.Univ.-Prof. Mag. Dr. H. Kautschitsch
Institut für Mathematik
Universität Klagenfurt
16. April 2007
ii
Inhaltsverzeichnis
Einleitung
v
IV Geometrie in Vektorräumen
1
14 Affine Geometrie
1
14.1 Affine Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
14.2 Affine Eigenschaften von Geraden und Ebenen . . . . . . . . . . . . . . . . . . .
10
14.3 Koordinatensysteme in affinen Räumen . . . . . . . . . . . . . . . . . . . . . . .
17
14.3.1 Affine und kartesische Koordinatensysteme . . . . . . . . . . . . . . . . .
18
14.3.2 Affine Koordinatentransformation . . . . . . . . . . . . . . . . . . . . . .
24
14.4 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
15 Metrische Geometrie
33
15.1 Abstands– und Winkelmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
15.2 Volumina von Simplices und Spaten . . . . . . . . . . . . . . . . . . . . . . . . .
37
16 Lineare Optimierung
40
16.1 Geometrische Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
16.2 Geometrische Eigenschaften der zulässigen Menge Z . . . . . . . . . . . . . . . .
48
16.3 Hauptsatz der linearen Optimierung . . . . . . . . . . . . . . . . . . . . . . . . .
60
V Linearität
68
17 Lineare Abbildungen
68
17.1 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
17.2 Rang und Defekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
17.3 Anwendung: Lineare Operatorgleichungen . . . . . . . . . . . . . . . . . . . . . .
84
17.4 Rechnen mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . .
91
17.5 Faktorräume (Quotientenräume) . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
18 Matrizen und Lineare Abbildungen
101
18.1 Matrixdarstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
18.2 Änderung der Matrixdarstellung bei Basiswechsel . . . . . . . . . . . . . . . . . . 106
18.3 Affine Abbildungen (Einschub) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
iii
19 Eigenwerte und Eigenvektoren
129
19.1 Grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
19.2 Minimalpolynom einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
19.3 Eigenwerte und Eigenvektoren spezieller Matrizen
20 Linearität in Skalarprodukträumen
. . . . . . . . . . . . . . . . . 143
149
20.1 Orthogonale und unitäre Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . 149
20.2 Adjungierte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
20.3 Normale Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
20.4 Projektionen und Orthogonalprojektionen . . . . . . . . . . . . . . . . . . . . . . 161
20.5 Geometrie linearer Operatoren im IR2 bzw. IR3
. . . . . . . . . . . . . . . . . . . 169
VI Vereinfachen von Matrizen
182
21 Diagonalisieren
184
21.1 Äquivalentes Diagonalisieren
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
21.2 Ähnliches Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
21.3 Orthogonales (Unitäres) Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . 197
21.4 Anwendungen des Diagonalisierens . . . . . . . . . . . . . . . . . . . . . . . . . . 206
21.4.1 Berechnung von Matrixpotenzen . . . . . . . . . . . . . . . . . . . . . . . 206
21.4.2 Differenzengleichungen und Potenzen Ak . . . . . . . . . . . . . . . . . . . 207
21.4.3 Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
21.4.4 Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
22 Triangulieren
220
23 Blockdiagonalisieren
226
23.1 Allgemeines Blockdiagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
23.2 JORDAN’scher Normalformensatz . . . . . . . . . . . . . . . . . . . . . . . . . . 233
23.3 Verallgemeinerte Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
23.4 Matrizenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
VII Quadratische Formen
252
iv
24 Bilinearformen und Quadratische Formen
252
24.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
24.2 Matrixdarstellung von Bilinearformen . . . . . . . . . . . . . . . . . . . . . . . . 260
24.3 Kongruentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
v
Einleitung
Zunächst wird das Kapitel der linearen Gleichungssysteme durch die Determinantentheorie
abgeschlossen. Der Begriff der Determinante entstand ja ursprünglich bei LEIBNIZ aus dem
Bedürfnis, Lösungen von Gleichungssystemen durch eine Formel darzustellen.
Anschließend wird gezeigt, wie man Vektorraumtheorie und die Ergebnisse aus der Theorie der
Gleichungssysteme zum Aufbau einer Geometrie, nicht nur im Anschauungsraum, sondern auch
in abstrakten Vektorräumen verwenden kann. Diese geometrischen Begriffsbildungen werden
dann auf lineare Optimierungsproblemen angewendet.
Das für die lineare Algebra wohl wichtigste Konzept, nämlich die Linearität, definiert als Verträglichkeit mit den Vektorraumoperationen, wird in allgemeinen, wie auch in Skalarprodukträumen behandelt und der Zusammenhang mit den Matrizen aufgezeigt. Die Entwicklung der
Eigenwerttheorie und eine Klassifikation von linearen Operatoren, wobei insbesondere auf die
geometrischen Auswirkungen im Anschauungsraum hingewiesen wird, schließen dieses zentrale
Kapitel ab.
Die beiden nächsten Kapitel sind dem Vereinfachen gewidmet. Zunächst wird dargelegt, wie
man durch Links– bzw. Rechtsmultiplikation mit geeigneten Matrizen eine gegebene Matrix auf
eine möglichst ”einfache” Form transformieren kann. Als einfache Formen werden die Diagonal–,
Dreiecks- und Blockdiagonalmatrizen angesehen, insbesondere die JORDAN’sche Blockdiagonalform. Statt eines Beweises der letzten Normalform wird deren Erzeugung mittels unbestimmten
Ansatzes bzw. verallgemeinerter Eigenvektoren erläutert. Neben der Herleitung von Kriterien
für die Vereinfachung und den Spektraldarstellungen wird die Anwendung von Diagonalmatrizen
für das Lösen von Differenzen– und Differentialgleichungen und die Berechnung von Matrizenfunktionen demonstriert.
Nach den Matrizen werden quadratische Ausdrücke in n Variablen, sogenannten Quadriken, vereinfacht. Dazu wird die Theorie der Bilinearformen bzw. der quadratischen Form aufgebaut. Die
Diskussion der Quadriken erfolgt sowohl in allgemeinen Vektorräumen, als auch in Skalarprodukträumen. Abschließend wird noch gezeigt, wie die Geometrie der Kegelschnitte vereinheitlich
und auf eine entsprechende Geometrie der Quadriken verallgemeinert werden kann und damit
gezeigt, wie auch quadratische Gebilde mittels linearer Methoden beschrieben und analysiert
werden können.
1
IV GEOMETRIE IN VEKTORRÄUMEN
Es wird dargelegt, wie man die aus der Anschauung bekannten räumlichen Vorstellungen auf
abstrakte Räume verallgemeinern und rechnerisch behandeln kann. In der Linearen Optimierung
finden diese geometrischen Verallgemeinerungen eine nützliche Anwendung.
14 Affine Geometrie
Bisher haben wir uns in Vektorräumen nur mit solchen Teilmengen beschäftigt, die für sich selbst
wieder Vektorräume bildeten, also mit Teilräumen. Im Anschauungsraum, den man als einen
reellen Vektorraum auffassen kann, sind dies die unendlich ausgedehnten, nicht gekrümmten
Punktmengen durch den Nullvektor 0.
Häufig benötigt man (und das nicht nur in der Geometrie) unendlich ausgedehnte, nicht gekrümmte Punktmengen, die nicht durch den Nullvektor 0 gehen:
Für Optimierungsprobleme benötigt man darüber hinaus beschränkte, nicht gekrümmte
Punktmengen, die mit je zwei Punkten auch deren gesamte “Verbindungsstrecke” enthalten.
2
Solche Punktmengen sind mit den geometrischen Grundbegriffen (Punkt, Gerade, Ebene, Strecke) verbunden und wir werden sehen, daß sie ebenfalls durch lineare Gleichungen bzw. Ungleichungen beschrieben werden können.
Wir wollen nun in beliebigen, nicht nur in reellen, Vektorräumen, Teilmengen untersuchen, die
sich so wie die anschaulichen Geraden, Ebenen, Strecken usw. verhalten und nachprüfen, wann
und wie diese abstrakten Geraden und Ebenen sich schneiden oder wann sie parallel sind. Jenen
Teil der Geometrie, der sich nur mit solchen Inzidenzbeziehungen beschäftigt, heißt affine
Geometrie. In ihr wird von Abstandsuntersuchungen, Messungen und von “senkrecht stehen
auf ” wird nicht gesprochen, dies geschieht in der metrischen Geometrie. Anders als in einer
Geometrievorlesung werden wir aber die Grundbegriffe Punkt, Gerade, Ebene nicht axiomatisch,
sondern mit Begriffen aus der Vektorraumtheorie einführen. Die erzielten Ergebnisse stimmen
mit denen der “Elementargeometrie” überein, aber nur im IR2 bzw. IR3 sehen die abstrakten
Geraden und Ebenen auch wie anschauliche Geraden und Ebenen aus. Dagegen sind die Ergebnisse in beliebigen, abstrakten Vektorräumen oft nicht vorstellbar, aber trotzdem für Anwendungen wichtig (→ CODIERUNG, APPROXIMATIONEN, LINEARE OPTIMIERUNGEN). Zum
leichteren Verständnis sollte man sich aber immer die Verhältnisse im Anschauungsraum (= 2–
oder 3–dimensionaler reeller Vektorraum) vor Augen halten.
Zunächst wollen wir “nichtgekrümmte” Punktmengen, die nicht durch 0 gehen, mit Hilfe von
Begriffen aus der Vektorraumtheorie beschreiben:
Man beobachtet: Die Ebene ε entsteht aus U durch Verschieben um p~.
3
14.1 Affine Räume
Definition 14.1 Affiner Teilraum
V sei ein Vektorraum über dem Körper K, U sei ein Teilraum von V und p ∈ V .
(i) Ein affiner Teilraum bzw. eine lineare Mannigfaltigkeit von V in Richtung U ist
die Teilmenge
A := {x ∈ V|x = p + u, u ∈ U} = p + U ⊆ V.
Auch so: Ein affiner Teilraum in Richtung U ist eine Nebenklasse von U (ein um p “parallelverschobener” Teilraum U ).
(ii) Die Dimension eines affinen Teilraumes ist die Dimension seiner Richtung:
dim(A) := dimU.
Bemerkung:
1. Die Differenz von 2 Punkten eines affinen Teilraumes A liegt stets in der Richtung U , diese
heißt daher auch Differenzenraum von A:
x1 − x2 = p + u1 − (p + u2 ) = u1 − u2 ∈ U
2. Ein affiner Teilraum ist wegen p ∈ A stets nichtleer. Jeder Teilraum ist ein affiner Teilraum
(mit p = 0), insbesondere kann jeder Vektorraum V als affiner Teilraum in Richtung V
aufgefaßt werden!.
Aber: Ein affiner Teilraum A ist nur dann ein Teilraum von V , wenn p ∈ U .
Beachte: im allgemeinen ist 0 6∈ A.
Beispiel: Sei A ∈ K m·n , ~b ∈ K m und Rg(A) = r. Die Lösungsmenge L = x0 + LH eines
lösbaren, inhomogenen linearen Gleichungssystems A~x = ~b ist ein (n − r)−dimensionaler
affiner Teilraum im K n mit der Lösungsmenge des dazugehörigen homogenen Systems A~x = ~0
als Richtung. Die Lösungsmenge LH eines homogenen linearen Gleichungssystems A~x = ~0
ist sogar ein (n − r)−dimensionaler Teilraum im K n .
Die Darstellung von A = p + U ist unabhängig von der Wahl von p: Man kann für p jeden
Vektor aus A nehmen und beschreibt damit dieselbe Punktmenge, denn es gilt:
4
Satz 14.1 Gleichheit von affinen Teilräumen
Zwei affine Teilräume A1 = p1 +U1 und A2 = p2 +U2 sind genau dann gleich, wenn sie denselben
Teilraum als Richtung besitzen und wenn die Differenz p1 − p2 in diesem liegt.
Formal:
A1 = A2 ⇔ U1 = U2 =: U und p1 − p2 ∈ U
(ohne Beweis)
Damit:
A=p+U =q+U ⇔p−q ∈U
Definition 14.2 Ein affiner Teilraum B = q + W heißt ein affiner Unterraum in Richtung
W des affinen Raumes A = p + U , wenn W ein Teilraum von U und q ∈ A ist.
BCA⇔WCU∧q∈A
Wir definieren nun die geometrischen Grundbegriffe Punkt, Gerade, Ebene in beliebigen Vektorräumen als spezielle affine Teilräume A = p + U :
a) Sei U = {0} :, dann ist
A = p + {0} = {p}, d.h., A enthält p als einziges Element und es ist dim(A) = 0;
Definition 14.3 Punkt
Ein Punkt P eines Vektorraumes V ist ein nulldimensionaler affiner Teilraum von V .
Kurzschreibweise: P = {p}
Ist P = {p} und Q = {q} dann ist P = Q ⇔ q − p ∈ U = {0} ⇔ q − p = 0 ⇔ q = p.
5
Vereinbarung: Ist P = {p}, dann kann man, um Klammern zu sparen, P mit p identifizieren:
P := p. Der entsprechende Kleinbuchstabe bezeichnet also stets den Vektor, durch den ein Punkt
dargestellt wird.
Jeder Vektor p ∈ V ist also auch ein Punkt P = {p}. Nach der Identifizierung können wir zu
den Vektoren aus V auch Punkte aus V sagen, aber strenggenommen gilt nur: P = {p} ⊂ V
und nicht P = {p} ∈ V .
Ist P = {p} und Q = {q} ⇒ q − p ∈ U , d.h., für je zwei Punkte P, Q ist der Differenzenvektor
im Vektorraum U enthalten, also ein Vektor. Wir setzen:
˜ := q − p = Q − P
PQ
(“Spitze–Schaft”–Regel)
b) Sei U =< a >:, dann ist
A = p+ < a >= {x ∈ V |x = p + λa, λ ∈ K} und es gilt dim(A) = 1.
Definition 14.4 Gerade
Eine Gerade g eines Vektorraumes V ist ein eindimensionaler affiner Teilraum von V .
Kurzschreibweise: g : x = p + λa,
a heißt Richtungsvektor der Geraden g.
(1)
Diese Gleichung heißt Punkt–Richtungsform der Geraden g durch P in Richtung < a >. Der
Parameter λ des Punktes X vergleicht die Lage des Punktes X mit jener des Punktes P .
(1) heißt daher auch Parametergleichung der Geraden g.
Eine Gerade g wird also durch eine Vektorgleichung mit einem Parameter beschrieben.
Eine Gerade ist aber auch durch 2 verschiedene Punkte P, Q festgelegt: Die Richtung ist dann
durch < P~Q >=< q − p > bestimmt. Die Parametergleichung von g lautet dann:
g : x = p + λ(q − p), Zweipunktform der Geraden g durch P und Q.
Sie stellt die Verbindungsgerade g(P, Q) der Punkte P und Q dar: g(P, Q) : x = p + λ(q − p).
c) Sei U =< a, b > mit {a, b} l.u., dann ist
.A = p+ < a, b >= {x ∈ V |x = p + λa + µb, λ, µ ∈ K} und es ist dim(A) = 2.
6
Definition 14.5 Ebene
Eine Ebene ε eines Vektorraumes V ist ein zweidimensionaler affiner Teilraum von V .
Kurzschreibweise: ε : x = p + λa + µb.
(2)
(2) heißt Punkt–Richtungsform der Ebene ε durch P in Richtung < a, b >.
Eine Ebene ε wird also durch eine Vektorgleichung mit zwei Parametern beschrieben.
Eine Ebene ist aber auch festgelegt durch 3 Punkte P, Q, R, die nicht auf einer Geraden liegen:
ε : x = p + λ(q − p) + µ(r − p): Dreipunktform der Ebene ε durch P, Q, R.
d) Verallgemeinerung: Sei dim(V ) = n und U =< v1 , v2 , . . . , vn−1 > mit {v1 , v2 , . . . , vn−1 }
l.u., dann ist
A = {x ∈ V |x = p + λ1 v1 + . . . + λn−1 vn−1 } = {x|x = p +
Pn−1
i=1
λi vi }.
Definition 14.6 Hyperebene
Eine Hyperebene H eines n−dimensionalen Vektorraumes V ist ein (n − 1)−dimensionaler
affiner Teilraum von V .
Die Hyperebenen in einem 3–dimensionalen Vektorraum sind die Ebenen.
Die Hyperebene in einem 2–dimensionalen Vektorraum sind die Geraden.
Die Hyperebenen in einem 1–dimensionalen Vektorraum sind die Punkte.
e) Homogene Parameterdarstellung von affinen Teilräumen.
In den Beschreibungen g : x = p + λu, ε : x = p + λa + µb sieht es so aus, als ob p ausgezeichnet
ist, weil kein Parameter dabei steht. Dies ist jedoch nur scheinbar so:
g : x = p + λu = p − λp + λp + λu = (1| {z
− λ}) p + |{z}
λ (p + u) =
|{z}
| {z }
λ0
p0
λ1
p1
= λ0 p0 + λ1 p1 mit p0 := p und p1 := p + u und λ0 + λ1 = 1 − λ + λ = 1
Allgemein: A sei ein m−dimensionaler affiner Teilraum in Richtung U =< u1 , . . . , um >.
Jedes x ∈ A kann als Linearkombination von m + 1 Punkten p0 , p1 , . . . , pm geschrieben werden,
wobei die Summe der Parameter 1 ist und die Differenzenvektoren ui := pi −p0 (i = 1, . . . , m)
l.u. sind.
A:x=p+
m
X
i=1
λi ui =
m
X
i=0
µi pi mit
m
X
i=0
µi = 1 und {p1 − p0 , . . . , pm − p0 } l.u.
7
Definition 14.7 Affine Hülle
Seien p0 , p1 , . . . , pm ∈ V .
(i) Eine Affinkombination der Punkte (Vektoren) p0 , p1 , . . . , pm ist eine Linearkombination
dieser Punkte, wobei die Summe der Parameter 1 ist.
x=
m
X
λi pi mit
i=0
m
X
λi = 1.
i=0
(ii) Die affine Hülle < p0 , . . . , pm >A der Punkte (Vektoren) {p0 , . . . , pm } ist die Menge aller
Affinkombinationen von p0 , . . . , pm .
(
< p0 , . . . , pm >A :=
x=
m
X
λi pi mit
i=0
m
X
)
λi = 1 .
i=0
Es gilt: Die affine Hülle von {p0 , . . . , pm } ist der kleinste affine Teilraum, der p0 , . . . , pm
enthält.
(iii) (p0 , . . . , pm ) heißen Punkte in allgemeiner Lage ⇔
{p1 − p0 , . . . , pm − p0 } l.u. ⇔ dim(< p0 , . . . , pm >A ) = m.
Es gilt:
1 Punkt ist immer in allgemeiner Lage.
2 Punkte sind in allgemeiner Lage ⇔ sie sind verschieden.
3 Punkte sind in allgemeiner Lage ⇔ ihre Hülle ist eine Ebene. 3 Punkte sind nicht in allgemeiner
Lage ⇔ sie liegen auf einer Geraden.
4 Punkte sind in allgemeiner Lage ⇔ ihre Hülle ist ein 3–dimensionaler Raum. 4 Punkte sind
nicht in allgemeiner Lage ⇔ sie liegen in einer Ebene oder auf einer Geraden.
Damit gilt:
Jeder Punkt eines m−dimensionalen affinen Teilraumes A ist eine Affinkombination
8
von m + 1 Punkten p0 , . . . , pm in allgemeiner Lage.
(
)
m
m
X
X
A = x|x =
λi pi mit
λi = 1
i=0
i=0
f) Parallelität:
Im Anschauungsraum sind 2 Geraden parallel, wenn ihre Richtungsvektoren kollinear, also l.a.
sind. Eine Gerade ist parallel zu einer Ebene, wenn sie zu einer Geraden in der Ebene parallel
ist.
Definition 14.8 Parallelität
(i) Die affinen Teilräume A1 = p1 + U1 und A2 = p2 + U2 heißen parallel, wenn eine der
Richtungen in der anderen enthalten ist (im besonderen können die Richtungen gleich
sein).
(ii) Die affinen Räume A1 und A2 heißen windschief, wenn sie nicht parallel sind und ihr
Durchschnitt leer ist.
A1 windschief zu A2 ⇔ A1 6 kA2 und A1 ∩ A2 = ∅.
3
Beispiel:
A
0
1= K
0
2
1
1
B
C
B
C
B
C
B
C
A1 = B 1 C + λ B 0 C
@
A
@
A
0
−1
0
1
0
1
0
1
−1
2
3
B
C
B
C
B
C
B
C
B
C
B
C
A2 = B 2 C + µ B −1 C + ν B −1 C
@
A
@
A
@
A
1
1
0
Es ist 0
U1 ⊂ U1
2 (RowReduce) ⇒ A1 kA2
0
1
0
−1
2
0
B
B
U1 =< B
@
0
B
B
U2 =< B
@
2
1
1
C
C
0 C>
A
−1
1 0
1
2
3
C B
C
C B
C
−1 C , B −1 C >
A @
A
1
0
1
B
B
A3 = B
@
C
B
C
B
C
C
B
C
B
C
U3 =< B −1 C >
2 C + r B −1 C
A
@
A
@
A
1
1
1
Es ist U1 6⊂ U3 , U3 6⊂ U1 ⇒ A1 6 kA3 .
Bemerkung: In höher als 2-dimensionalen Vektorräumen ist die Parallelität nicht transitiv:
A1 kA2 ∧ A2 kA3 6⇒ A1 kA3
g) Abschlußeigenschaften von affinen Räumen
9
Definition 14.9 Verbindungsraum
Ai = pi + Ui seien affine Teilräume in Richtung Ui .
Der Verbindungsraum (die Summe) der affinen Räume Ai ist die Menge aller Punkte.
n
X
Ai := A1 + . . . + An := p +
i=1
n
X
i=1
Ui +
n
X
< P Pi >, Pi ∈ Ai , P ∈
i=1
n
[
Ai
i=1
Satz 14.2 Abschlußeigenschaften affiner Räume
(i) Der Durchschnitt von affinen Teilräumen ist entweder leer oder ein affiner Teilraum mit
der Richtung U1 ∩ U2 .
A1 ∩ A2 = p + (U1 ∩ U2 ), p ∈ A1 ∩ A2
Tn
Tn
1 Ai = p + i=1 Ui
(ii) Die Vereinigung von affinen Teilräumen ist im allgemeinen kein affiner Teilraum.
(iii) Die Summe (der Verbindungsraum) von affinen Teilräumen ist der kleinste affine
Teilraum, der die mengentheoretische Vereinigung der gegebenen Teilräume enthält.
Beispiel:
g = p+ < a >
seien 2 verschiedene Geraden in der Ebene (also {a, b} l.u.)
h = q+ < b >
g + h = p+ < a > + < b >= p+ < a, b >= ε
Die eindimensionalen Teilräume < P P1 >, < P P2 > liefern keine neuen Beiträge.
Beispiel: g und h seien 2 verschiedene Geraden im Teilraum V 3 mit leerem Durchschnitt (windschiefe Gerade): g = p + λa, h = q + µb.
g + h = p+ < a > + < b > + < P~Q >=
= p+ < a, b, P~Q >= Teilraum V 3 .
Satz 14.3 Dimensionssatz für affine Teilräume
dim(A1 ) + dim(A2 ) = dim(A1 + A2 ) + dim(A1 ∩ A2 ), wenn A1 ∩ A2 6= ∅
dim(A1 ) + dim(A2 ) = dim(A1 + A2 ) + dim(U1 ∩ U2 ) − 1, wenn A1 ∩ A2 = ∅
Folgt aus dem Dimensionssatz für Teilräume (ohne Beweis).
10
14.2 Affine Eigenschaften von Geraden und Ebenen
“Affin” soll dabei bedeuten, daß wir uns nur auf Schnitt– und Parallelitätseigenschaften konzentrieren, nicht jedoch z.B. auf Abstände. Wir werden zeigen, daß sich die Geraden oder Ebenen
eines Vektorraumes V über einem Körper K (bzw. die 1– oder 2–dimensionalen linearen Mannigfaltigkeiten) tatsächlich wie die “anschaulichen” Geraden oder Ebene verhalten. Aber nur in
reellen Vektorräumen kann man sich eine Gerade so vorstellen:
Im allgemeinen ist dies nicht der Fall: Eine Gerade g = p + U ist ein 1–dimensionaler affiner Teilraum und geht daher durch Verschieben des 1–dimensionalen Vektorraumes U hervor,
U gleichmächtig mit K. In einem komplexen Vektorraum (K = C)
I besteht eine Gerade daher
aus allen komplexen Zahlen, also aus allen Punkten der GAUSS’schen Zahlenebene (!) und für
K = GF (2) besteht g nur aus 2 Punkten. Deshalb muß man sich schon sorgfältig überlegen,
daß affine Geraden sich auch tatsächlich so wie die Geraden des Anschauungsraumes verhalten. Für 3–dimensionale reelle Vektorräume erhalten wir so die üblichen Aussagen der
Elementargeometrie.
Satz 14.4 Punkte und Geraden
(i) Durch zwei verschiedene Punkte P und Q gibt es genau eine Gerade, nämlich die Verbindungsgerade
g(P, Q) : x = p + λ(q − p)
(ii) Durch einen Punkt Q, der nicht auf der Geraden g liegt, gibt es genau eine Gerade h, die
zu g parallel ist (EUKLIDISCHES AXIOM).
11
Beweis: (i) g(P, Q) : x = p + λ(q − p) enthält für λ = 0 den Punkt P und für λ = 1 den Punkt
Q. Ist h : x = p+ < a > eine weitere Gerade, die P und Q enthält, dann ist q − p ∈< a >, wegen
q − p 6= 0 ist < a >=< q − p >, also h : x = p+ < q − p >= p+ < a >= g
(iii) Sei g : x = p + λa und Q 6∈ g. h : x = q + λa enthält Q (für λ = 0) und ist parallel zu g. Ist
h1 : x = q + U eine weitere zu g parallele Gerade durch Q, dann ist U ⊆< a > und damit
wegen dim(U ) = 1 = dim(< a >) : U =< a >, also ist h1 = h.
Bemerkung: Die durch die Vektorraumtheorie definierten Grundbegriffe Punkt, Gerade, Ebene erfüllen die Axiome einer EUKLIDISCHEN GEOMETRIE. Grund: Die Vektorraumaxiome
entsprangen aus der anschaulichen (= euklidischen) Raumvorstellung.
Satz 14.5 Parallele Geraden
g und h seien zwei parallele Geraden einer Ebene mit dem gemeinsamen Richtungsvektor a
und P ∈ g, Q ∈ h. Dann gilt:
(i) g und h haben genau dann keinen gemeinsamen Punkt wenn {a, P~Q} l.u.
(nicht kollinear) sind:
g ∩ h = ∅ ⇔ {a, P~Q} l.u.
(ii) g und h fallen genau dann zusammen, wenn {a, P~Q} l.a. (kollinear) sind
g = h ⇔ {a, P~Q} l.a.
Da {a, P~Q} entweder l.u. oder l.a. sein können gillt also:
Zwei parallele Geraden fallen entweder zusammen oder sie sind elementfremd.
Beweis:
g : x = p + λa, h : x = q + µa
g ∩ h haben gemeinsame Punkte ⇔ ∃λµ, ∈ K : p + λa = q + µa ⇔ q − p = (λ − µ)a
1. Fall: {a, q − p} l.u. ⇔6 ∃λ, µ ∈ K mit : (λ − µ)a = q − p ⇔6 ∃ gemeinsame Punkte.
12
2. Fall: {a, q − p} l.a. ⇔ q − p = la ⇔ q = p + la oder p = q − la. Damit gilt: Ist R ein Punkt von g ⇒ r =
p + λa ⇒ r = q − la + λa ⇒ r = q + (λ − l)a ⇒ R ist auch ein Punkt von h. Ist S ein Punkt von
h ⇒ s = q + µa ⇒ s = p + la + µa ⇒ s = p + (λ + µ)a ⇒ S ist auch ein Punkt von g, insgesamt ist g mit
h identisch (zusammenfallend).
Beispiel:
3
Sind die beiden
Geraden
!
! g, h im K parallel, verschieden oder zusammenfallend?
g:~
x=
1
3
5
+λ
!
−2
5
−3
!
−1
4
8
−10
h=~
x=
+µ
2
!
! 6
4
−2
−10
5
= −2
⇒< a >=< b >⇒ gkh
6
! −3
−2
5
q−p=
∈< a >⇒ {a, q − p}l.a. ⇒ g = h.
−3
Satz 14.6 Nichtparallele Geraden
g und h seien 2 nichtparallele Geraden eines zumindest 3−dimensionalen affinen Teilraum A
mit den nichtkollinearen Richtungsvektoren a, b und P ∈ g, Q ∈ h.
Damit gilt:
(i) g und h windschief ⇔ {a, b, P~Q} nicht komplanar:
˜ l.u.
g ∩ h = ∅ ⇔ {a, b, PQ}
(ii) g und h haben genau einen Schnittpunkt ⇔ {a, b, P~Q} komplanar:
˜ l.a.
g ∩ h = {S} ⇔ {a, b, PQ}
Also: Zwei nichtparallele Geraden in einem zumindest 3–dimensionalen Raum haben
entweder genau einen Schnittpunkt oder sie sind windschief.
Zwei nichtparallele Geraden einer Ebene schneiden einander in genau einem Punkt.
13
Beweis:
{a, b} l.u.
g : x = p + λa, h : x = q + µb,
g ∩ h = {S} ⇔ ∃λ, µ ∈ K : p + λa = q + µb ⇔ ∃λ, µ ∈ K : q − p = λa − µb
(3)
1. Fall: {q − p, a, b} l.u. ⇔ (3) hat keine Lösung (λ, µ) ⇔ g ∩ h = ∅.
2. Fall: {q − p, a, b} l.a. ⇒ q − p ist Lkbt. von a, b ⇒ (weil {a, b} l.u.)
∃ k, l ∈ K : q − p = ka + lb
(wegen {a, b} l.u. sind k und l eindeutig bestimmt) ⇔
∃1 k, l ∈ K : p + ka
=
q − lb ⇔
∈g
∈h
g und h haben genau einen Punkt gemeinsam.
Folgerung: Zwei nichtparallele Geraden einer Ebene schneiden einander stets in genau einem
Punkt.
Beweis: {q − p, a, b} sind in einem 2–dimensionalen Raum stets l.a.
Flußdiagramm für die Lage zweier Geraden g : p + λa und h : x = q + µb in einem zumindest
3–dimensionalen affinen Raum:
14
Zusammenfassung:
Satz 14.7 Verhalten von Geraden
(i) Zwei Geraden in einem zumindest 3–dimensionalen affinen Raum sind entweder parallel
(auch zusammenfallend) oder sie schneiden einander in genau einem Punkt oder sie sind
windschief.
(ii) Zwei Geraden in einer Ebene sind entweder parallel (auch zusammenfallend) oder sie
schneiden einander in genau einem Punkt.
Ähnlich kann man für Ebenen zeigen:
Satz 14.8 Parallele Ebenen
ε1 , ε2 seien 2 parallele Ebenen mit Richtung U =< a, b >, P ∈ ε1 , Q ∈ ε2 und
ε1 : p + λ1 a + µ1 b, ε2 : q + λ2 a + µ2 b.
(i) Haben zwei parallele Ebenen auch nur einen Punkt gemeinsam, so fallen sie zusammen
(ii) ε1 = ε2 ⇔ {a, b, P~Q} l.a. (komplanar)
(iii) ε1 ∩ ε2 = ∅ ⇔ {a, b, P~Q} l.u. (nicht komplanar)
Satz 14.9 Nicht parallele Ebenen
Zwei nicht parallele Ebenen eines 3–dimensionalen affinen Raumes schneiden einander stets in
genau einer Geraden.
Beweis:
ε1 :
x = p + ka + lb
(k, l) ∈ K
ε2 :
x = q + rc + sd
(r, s) ∈ K
ε1 ]ε2 ⇒< a, b >6=< c, d >
ε1 ∩ ε2 6= ∅ ⇔ ∃ Skalare k, l, r, s ∈ K mit:
p + ka + ld = q + rc + sd ⇔ q − p = ka + lb − rc − sd
(4)
{q − p, a, b, c, d} sind l.a., 2 von ihnen lassen sich durch 3 l.u. Vektoren, etwa a, b, c (wegen der Nichtparallelität
müssen in einem 3–dimensionalen Raum 3 der Vektoren a, b, c, d l.u. sein) eindeutig darstellen:
8
>
>
q − p = ra + sb + tc
>
<
|·λ
+
d = ua + vb + wc
>
>
>
:
λd = λua + λvb + λwc
15
q − p + λd = (r + λu)a + (s + λv)b + (t + λw)c
∀λ : q − (t + λw)c + λd = p + (r + λµ)a + (s + λv)b
|
{z
} |
{z
}
∈ε2
(5)
∈ε1
Formt man (5) um:
(q − tc) + λ(d − wc) = (p + ra + sb) + λ(ua + vb) =: g.
Man sieht, daß die gemeinsamen Punkte auf einer Geraden, der Schnittgeraden von ε1 und ε2
liegen.
Bemerkung: In einem 4–dimensionalen Vektorraum können {a, b, c, d} auch l.u. sein. Dann
schneiden die Ebenen einander in genau einem Punkt!
Zusammenfassung:
Satz 14.10 Verhalten von Ebenen in 3–dimensionalen Räumen
Zwei Ebenen eines 3−dimensionalen affinen Raumes sind entweder parallel (können auch zusammenfallen) oder sie schneiden einander in einer Geraden.
Flußdiagramm für die Lage zweier Ebenen ε1 und ε2 in einem 3–dimensionalen Vektorraum:
Analog erhält man:
Satz 14.11 Gerade und Ebene
Eine Gerade eines 3–dimensionalen Vektorraum V ist entweder parallel zu einer Ebene des
Raumes (kann auch ganz in der Ebene liegen) oder die Gerade schneidet die Ebene in genau
einem Punkt.
16
Flußdiagramm über die Lage einer Geraden und einer Ebene in einem 3–dimensionalen Vektorraum:
Beispiel: V = K 3
p
a
b
z0 }| 1{
z0 }| 1{
z0 }| 1{
3
4
−3
C
C
C
B
B
B
C
C
C
B
B
B
ε : x = B 2 C +λ B −1 C +µ B −4 C
A
A
A
@
@
@
1
6
1
q
c
z0 }| 1{
z0 }| 1{
1
1
B
C
B
C
B
C
B
C
g : x = B 3 C +r B −5 C
@
A
@
A
1
7
1. Ist < c >⊆< a, b >⇔ {a, b, c} l.a.?
2. Ist g ganz in ε
0
1 0
−1
B
C B
B
C B
B 3 C−B
@
A @
1
1
−5
7
4
−1
6
−3
−4
1
1
−5
7
0
19
0
−19
22
1
−5
7
0
19
−22
0
0
0
−22 ⇒ l.a. ⇒ gkε
enthalten? ⇔ {q − p, a, b} l.a.?
1 0
1
3
−4
C B
C
C B
C
2 C=B 1 C
A @
A
1
0
−4
1
0
4
−1
6
−3
−4
1
−4
1
0
0
0
6
0
19
−4
l.u. ⇒ g 6⊂ ε ⇒ g ∩ ε = ∅
17
Bemerkung: Abstrakte Geraden verhalten sich wie anschauliche Geraden.
Abstrakte Ebenen verhalten sich in 3–dimensionalen Räumen wie anschauliche Ebenen, in höherdimensionalen Räumen treten unanschauliche Sachverhalte auf (z.B. zwei Ebenen schneiden
einander in einem Punkt!).
Beachte: Wir haben die Begriffe Punkt, Gerade und Ebene mit Hilfe der Vektorraumaxiome und den daraus abgeleiteten Begriffen definiert und durch Gleichungen beschrieben (→
ANALYTISCHE GEOMETRIE).
In der SYNTHETISCHEN Geometrie sind Punkt, Gerade und Ebene undefinierte Grundbegriffe, die gewisse Spielregeln (→ Euklidische Axiome) erfüllen. Unsere definierten Punkte,
Geraden und Ebenen erfüllen dieselben Spielregeln, es sind dies aber Sätze, die bewiesen werden müssen (im Gegensatz zu den Axiomen).
Analog kann man alle üblichen geometrischen Sätze aus den Vektoraxiomen herleiten. Die durch
den Vektorraum definierten Punkte, Geraden und Ebenen verhalten sich so wie die anschaulichen
Punkte, Geraden und Ebenen.
Grund: Die Vektorraumaxiome wurden aus der Anschauung entnommen.
Vorteil der analytischen Methode: Man braucht von einer Menge von (auch abstrakten) Objekten (wie z.B. Funktionen, n−Tupel, ...) nur die 9 Vektorraumaxiome überprüfen und weiß dann,
daß auch für diese abstrakten Objekte die üblichen geometrischen Sätze gelten, also auch z.B. für
Geraden aus Funktionen, n−Tupeln usw. Darüber hinaus kann das Herleiten bzw. der Umgang
rechnerisch, durch Auflösen von Gleichungen erfolgen (→ ANALYTISCHE GEOMETRIE), was
wesentlich bequemer ist, als das axiomatische Schließen (→ SYNTHETISCHE GEOMETRIE).
Wir zeigen im folgenden, daß auch in abstrakten, endlich dimensionalen Vektorräumen Punktmengen durch Systeme von (meist linearen) Gleichungen und Ungleichungen beschrieben werden
können. (Bisher haben wir nur im Vektorraum K n der n−Tupel Teilräumen und affine Räume
durch lineare Gleichungssysteme beschrieben.) Dazu werden, so wie in der anschaulichen Ebene
bzw. im anschaulichen Raum, Koordinatensysteme eingeführt.
14.3 Koordinatensysteme in affinen Räumen
Um affine Räume über einem Körper K durch Gleichungen über K beschreiben zu können, muß
man Punkten Körperelemente (Skalare) zuordnen können. Dies wird möglich durch Einführung
von Koordinatensystemen. Sie entspricht der Einführung von Basen in Vektorräumen.
18
14.3.1 Affine und kartesische Koordinatensysteme
Beispiel: In der 2−dimensionalen Ebene ε werden 3 Punkte P0 (p0 ), P1 (p1 ), P2 (p2 ) allgemeiner
Lage ausgezeichnet, d.h. p1 − p0 , p2 − p0 sind l.u,, also eine Basis der Richtung U der Ebene ε:
U =< p1 − p0 , p2 − p0 >.
P0~X = x − p0 heißt Ortsvektor des Punktes X bezüglich des Koordinatensystems {P0 , P1 , P2 }.
x − p0 = x1 (p1 − p0 ) + x2 (p2 − p0 )
x = p0 + x1 (p1 − p0 ) + x2 (p2 − p0 ) ⇔ X(x1 |x2 )
Weil p1 − p0 , p2 − p0 l.u., sind x1 , x2 eindeutig bestimmt. Sie heißen die Koordinaten
[X] = (x1 |x2 ) des Punktes X bezüglich {P0 , P1 , P2 }. Die Koordinaten von X bezüglich des
Koordinatensystem {P0 , P1 , P2 } sind die Koordinaten (Komponenten) des Ortsvektors bezüglich der Basis {P0~, P1 , P0~P2 } von U .
KOORDINATEN eines Punktes = KOMPONENTEN seines Ortsvektors.
Ein Koordinatensystem in einem affinen Raum einführen heißt, Punkte auszeichnen.
Es gilt:
~ = P0~X − P~0 Q ⇒ [QX]
~ = [P0~X] − [P~0 Q] = [X] − [Q]
QX
~ = [X] − [Q] “Spitze–Schaft”–Regel
[QX]
19
Allgemein:
Definition 14.10 Affine und kartesische Koordinatensysteme
A sei ein n−dimensionaler affiner Teilraum mit Richtung U in einem Vektorraum V über K.
(Beachte, daß A auch ganz V sein kann, dann ist U = V ).
Ein Koordinatensystem von A ist ein geordnetes (n + 1)−Tupel
S := (P0 , P1 , . . . , Pn ) von n + 1 Punkten aus A in allgemeiner Lage, d.h.
BS = {P~0 P1 , P0~P2 , . . . , P0~Pn } ist eine Basis der Richtung U .
P0 heißt Ursprung, P1 , . . . , Pn heißen Einheitspunkte von S, die Geraden
ki : x = p0 + λ(pi − p0 ),
i = 1, . . . , n
heißen die i−ten Koordinatenachsen des Koordinatensystems S.
BS heißt die zu S gehörige Basis von U .
Ist (V, <>) ein Skalarproduktraum, dann heißt S ein kartesisches Koordinatensystem von
A, wenn BS eine ON–Basis von V ist. Ist BS keine ON–Basis, dann heißt S ein affines Koordinatensystem von A.
Jeder Punkt X(x) ∈ A läßt sich dann eindeutig in der Form
x = p0 +
n
X
xi (pi − p0 )
i=1
darstellen.
Der Vektor P0~X = x − p0 heißt Ortsvektor von X bezüglich S, die Skalare x1 , . . . , xn heißen
Koordinaten des Punktes X bezüglich des Koordinatensystems S.
Das n−Tupel (x1 |x2 | . . . |xn ) heißt Koordinatenvektor von X.
X(x1 |x2 | . . . |xn ) ⇔ P0~X = (x1 , x1 , . . . , xn ) ⇔ P0~X := x = p0 +
n
X
xi (pi − p0 )
i=1
Satz 14.12 Koordinatenvektor und Ortsvektor
Der Koordinatenvektor eines Punktes bezüglich eines Koordinatensystems ist gleich dem Komponentenvektor seines Ortsvektors bezüglich der zugehörigen Basis.
˜ B = [X]S − [Q]S .
Weiters gilt: [QX]
S
Die Koordinaten eines Vektors bezüglich der zugehörigen Basis sind die Differenzen der Koordinaten des Endpunktes und des Anfangspunktes des Vektors (“Spitze–Schaft”–Regel).
20
Gegeben sei nun ein inhomogenes lineares Gleichungssystem A~x = ~b über K von m Gleichungen
in n Unbekannten vom Rang r also
A ∈ K mn , Rg(A) = r.
Die Lösungsmenge L ist gegeben durch
L = x0 + λ1 x~1 + . . . + λn−r xn−r
~ = x0 + < x~1 , . . . , xn−r
~ >.
Wiederholung:
(i) Die Lösungsmenge L eines linearen inhomogenen Gleichungssystems A~x = b von m Gleichungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler affiner Unterraum des K n (oder die leere Menge).
(ii) Die Lösungsmenge eines homogenen linearen Gleichungssystems A~x = ~0 von m Gleichungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler Teilraum vom K n .
Die Einführung von Koordinatensystem in affinen Räumen ermöglicht es nun umgekehrt, diese durch inhomogene LGS zu beschreiben (Gleichungsdarstellung, parameterfreie Darstellung affiner Räume). Analog gestattete die Einführung von Basen in Vektorräumen die
Beschreibung von Teilräumen durch homogene LGS.
Satz 14.13 Gleichungsdarstellung von affinen Räumen
A sei ein n−dimensionaler affiner Raum über dem Körper K mit einem Koordinatensystem S.
B sei ein m−dimensionaler affiner Unterraum von A.
Dann gibt es ein i.a. inhomogenes lineares Gleichungssystem vom Rang n − m, dessen
Lösungsmenge gerade die Koordinatenvektoren der Punkte von B bezüglich S sind.
Dieses den affinen Unterraum beschreibende Gleichungssystem ist nicht eindeutig bestimmt.
Beweisidee: B = p + U = {x|x = p + λ1 u1 + . . . + λm um }, m = dim(B). Dabei sei {u1 , . . . , um }
eine Basis von U . Dann besitzt x − p ∈ U eine eindeutige Darstellung:
x − p = λ1 u1 + . . . + λm um ,
λi ∈ K.
(6)
Nun berechnet man die Koordinaten [X] von X, [p] von p bezüglich des Koordinatensystems S
von A und die Komponenten [u1 ], . . . , [un ] der Vektoren u1 , . . . , un bezüglich der dazugehörigen
21
Basis BS von U : Es sind [X], [p], [ui ] ∈ K n !
(6) ist wegen der Linearität der Komponentenbildung äquivalent zu:
[x − p]BS
↓
[P~X]BS
= λ1 [u1 ] + . . . + λm [um ]
= [X]S − [P ]S
also: λ1 [u1 ] + . . . + λm [um ] = [X] − [P ].
(7)
Das ist ein inhomogenes LGS mit n Gleichungen in den m Unbekannten λ1 , . . . , λm mit der
Koeffizientenmatrix ([u1 ], . . . , [um ]), die wegen der linearen Unabhängigkeit von u1 , . . . , um den
Rang m hat. Also hat (7) eine eindeutige Lösung λ1 , . . . , λm (Rang = ] Unbekannten). Setzt
man diese in (7) ein, so erhält man n − m übrigbleibende Gleichungen in
[x] = (x1 , x2 , . . . , xn ) vom Rang n − m (weil dim(B) = m). Man erhält diese bequem aus
(7) durch das Eliminationsverfahren (siehe folgendes Beispiel) bzw. mittels Z(A) = N (U ) und
→
−
→
b = A−
p.
Da das Eliminationsverfahren nicht eindeutig bestimmt ist, sind auch die Gleichungen nicht
eindeutig bestimmt.
Zusammenfassung:
(i) Ein m–dimensionaler Teilraum eines n–dimensionalen Vektorraumes kann durch ein homogenes Gleichungssystem in n Variablen vom Rang n–m beschrieben werden.
(ii) Ein m–dimensionaler affiner Raum eines n–dimensionalen Vektorraumes kann durch
ein inhomogenes lineares Gleichungssystem in n Variablen vom Rang n–m beschrieben
werden.
Beispiel: V = P2 = A
P2 =< 1, x, x2 >, Standardbasis St, dim(P2 ) = 3
Sei p0 = 1 + x, p1 = x − x2 , p2 = 3x + x2
a) p0 , p1 , p2 sind in allgemeiner Lage:
p1 − p0 = −1 − x2 , p2 − p0 = 1 + 2x + x2
[p1 − p0 ]St = (−1, 0, −1)
[p2 − po ]St = (−1, 2, 1)
22
b) Ebene ε(p0 , p1 , p2 ) : durch p0 , p1 , p2
ε : f = 1 + x + λ(−1 − x2 ) + µ(−1 + 2x + x2 ) = p + U
U =< −1 − x2 , −1 + 2x + x2 >
p=1+x
c) Koordinatensystem S = (0, 1, x, x2 ) 
von P2


−1
1−0 = 1
−1








x − 0 = x l.u., [−1 − x2 ]S =  0  =: u~1 , [−1 + 2x + x2 ]S =  2  =: u~2




1
x2 − 0 = x2
−1



 








a0
1
−1
−1




 













2
[f ]S = [a0 + a1 x + a2 x ]S =  a1  , ε = f |[f ] =  1  + λ  0  + µ  2 



 









a2
0
−1
1 
 
1
 
 
[1 + x]S =  1  = x~0
 
0
Z(A) = N (U )
U =< (−1, 0, −1), (−1, 2, 1) >
NullSpace[{{−1, 0, −1}, {−1, 2, 1}}]
Z(A) = (−1, −1, 1)

1

 

~b = A · x~0 = (−1, −1, 1) 
 1  = −2
 
0
LGS: −a0 − a1 + a2 = 2
a0 + a1 − a2 = 2
ε = {f = a0 + a1 x + a2 x2 |a0 + a1 − a2 = −2}
Die Ebene ε wird durch 1 = 3 − 2 lineare Gleichungen in 3 = dim(P2 ) Unbekannten
beschrieben.
d) g(p,q)mit p = 3 + 2x + x2
q = 4 + x − 3x2
g: f



 




3
1




 

 


g = f |[f ] =  2  + r  −1 

 







1
−4 
= 3 + 2x + x2 + λ(1 − x − 4x2 )
U = < (1, −1, −4) > x~0 = (3, 2, 1)1
Z(A) = N (U ) =< (4, 0, 1), (1, 1, 9) >
23
~b = A · x0 = (13, 5)

 4a0 + a2 = 13
g:
 a +a = 5
o
1
g = {f = a0 + a1 x + a2 x2 |4a0 + a2 = 13, a0 + a1 = 5}
Die Gerade g wird durch 2 = 3 − 1 Gleichungen in 3 = dim(P2 ) Unbekannten beschrieben.
e) Nun bestimmen wir den Durchschnitt von ε mit g
ε ∩ g : 1 − x − 4x2 l.u. von −1 − x2 , −1 + 2x + x2
1 −1 −4
−1
0 −1
−1
2
1
RowReduce
1
0
0
0
1
0
0
0
1
⇒ l.u.
dabei haben wir benützt:
{vi } l.u. ⇒ {[vi ]} l.u.

a0 + a1 − a2 = 2 



2
ε ∩ g = {f = a0 + a1 x + a2 x 4a0 + 1a2 = 13



a0 + a1 = 5 
Weil P der Rang dieses LGS 3 ist, erhält man eine eindeutige Lösung.
LinearSolve [A, ~b]
~b = (2, 13, 5)t ( 5 , 5 , 3)
2 2
ε ∩ g = {P } mit P =
5
2
+ 25 x + 3x2
P ∈ g : 3 + 2x + x2 + λ(1 − x − 4x2 ) =
3+λ =
5
2
λ = − 12
5
2
5
2
+
5
2
Koeffizientenmatrix
+ 52 x + 3x2 = 3 + 2x + x2 − 21 (1 − x − 4x2 )
oder mit Koordinaten in K 3 :



  
5
3
1


 2   


 5   
 2  =  2  + λ  −1 
  



3
1
−4
Analog sieht man, daß P ∈ ε.
+ 3x2
24
14.3.2 Affine Koordinatentransformation
So wie man die Änderung der Koordinaten von Vektoren bei Wechsel der Basis durch reguläre
Matrizen beschreiben kann, kann man auch die Änderung der Punktkoordinaten bei Wechsel des
Koordinatensystems durch ein Matrix–Vektor–Paar beschreiben.
A sei ein n−dimensionaler affiner Raum in einem Vektorraum über dem Körper K. Ein Wechsel
des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes x ∈ A
hervor.
S = (P0 , P1 , . . . , Pn ): “altes” Koordinatensystem
S 0 = (P00 , P10 , . . . , Pn0 ): “neues” Koordinatensystem
[x]S = (x1 | . . . |xn ): “alte” Koordinaten des Punktes X
[x]s , = (x01 | . . . |x0n ): “neue” Koordinaten des Punktes X
Wie beim Basiswechsel drücken wir die neuen Punkte durch die alten aus:
P
P
P00 = P0 + ni=1 ti P0~Pi ⇔ p00 = p0 + ni=1 ti (pi − p0 )
P
P
Pj0 = P00 + ni=1 tij P0~Pi ⇔ p0j = p0 + ni=1 tij (pi − p0 )
Ausführlich:
p01 − p00
= t11 (p1 − p0 ) + t21 (p2 − p0 ) + . . . tn1 (pn − p0 )
p02 − p00
..
.
= t12 (p1 − p0 ) + t22 (p2 − p0 ) + . . . tn2 (pn − p0 )
p0n − p00 = t1n (p1 − p0 ) + t2n (p2 − p0 ) + . . . tnn (pn − p0 )



T := (tij ) = 


t11
t21
..
.
tn1

t12 . . . t1n

t22 . . . t2n 
 (transponiert definiert!) , ~t = (t1 , t2 , . . . , tn )t


tn2 . . . tnn
T ist regulär, weil auch {p01 − p00 , . . . , p0n − p00 } l.u. sind ((P00 , . . . , Pn0 ) ist wieder ein Koordinatensystem).
25
T ist sogar orthogonal (unitär), wenn ein kartesisches Koordinatensystem wieder auf ein
solches transformiert werden soll.
x = p00 +
=
=
=
=
Pn
0 0
j=1 xj (pj
− p00 ) =
P
P
P
p0 + ni=1 ti (pi − p0 ) + nj=1 x0j ni=1 tij (pi − p0 ) =
P
P
P
p0 + ni=1 ti (pi − p0 ) + ni=1 ( nj=1 tij x0j )(pi − po ) =
P
P
p0 + ni=1 ( nj=1 tij x0j + ti )(pi − p0 ) =
P
p0 + ni=1 xi (p0j − p00 )
Weil {p1 − p0 , p2 − p0 , . . . , pn − po } l.u. ist, folgt aus der eindeutigen Darstellbarkeit:
xi =
n
X
tij x0j + ti
für i = 1, . . . , n
j=1
Also:
[X]S = T [X]S 0 + ~t
bzw.
[X]alt = T [X]neu + ~t
Da T regulär ist, existiert T −1 und wir erhalten:
[X]alt − t = T [X]neu
[X]neu
= T [X]−1 ([X]alt − t) = T −1 [X]alt − T −1 t
Satz 14.14 Affine und kartesische Koordinatentransformationen
A sei ein n−dimensionaler affiner Raum eines Vektorraumes V , X ∈ A.
S := (P0 , P1 , . . . , Pn ) sei ein Koordinatensystem in A.
T := (tij ) ∈ K n·n , t := (t1 , z2 , . . . , tn )t ∈ K n .
P
P00 := P0 + i=1 ti P0~Pi
P
Pj0 := P00 + ni=1 +tij P0~Pi für j = 1, . . . , n.
Dann gilt: S 0 := (P00 , P10 , . . . , Pn0 ) ist genau dann ein Koordinatensystem in A, wenn T regulär
ist. Die zugehörige Koordinatentransformation wird dann beschrieben durch:
[X]alt = T[X]neu + t bzw. [X]neu = T−1 [X]alt − T−1 t.
Ist S ein kartesisches Koordinatensystem, dann ist S 0 genau dann wieder ein kartesisches Koordinatensystem, wenn T eine orthogonale (unitäre) Matrix ist. Für die neuen Koordinaten
gilt dann insbesondere:
[X]neu = Tt [X]alt − Tt t
26
T heißt Koordinatentransformationsmatrix von S → S 0 . Sie ist die Transponierte jener
Matrix, die angibt, wie sich die neuen Ortsvektoren von P10 , . . . , Pn0 durch die alten ausdrücken
lassen.
t heißt der Translationsvektor von S → S 0 . Er ist der Koordinatenvektor des neuen Ursprungs
bezüglich S.
Affine Koordinatenformationen können also durch eine reguläre Matrix + Translationsvektor
beschrieben werden.
Erinnerung: Basiswechsel werden nur durch eine reguläre Matrix allein beschrieben.
Affiner Koordinatenwechsel
Komponentenwechsel
[X]alt = T [X]neu + t
[x]alt = P [x]neu
14.4 Konvexe Mengen
In diesem Kapitel werden die aus der Anschauung bekannten Punktmengen Strecke, Dreieck,
Pyramide, Halbstrahl u.a. auf abstrakte Vektorräume verallgemeinert. Sie sind keine Teilräume
oder affine Räume, werden aber speziell bei Optimierungsproblemen (→ Operations Research)
benötigt. Zu ihrer Definition benötigt man allerdings angeordnete Skalarkörper.
Einige Beobachtungen;
Strecke P Q:
Gerade durch P, Q : x = p + µ(q − p) = (1 − µ)p + µq = λ1 p + λ2 q mit λ1 + λ2 = 1
(λ1 = 1 − µ, λ2 = µ)
λ1 = 1 ⇒ λ 2 = 0 ⇒ x = p
λ1 = 0 ⇒ λ 2 = 1 ⇒ x = q
Für einen Punkt x ∈ P Q gilt: x = p + µ(q − p) mit 0 < µ < 1 ⇒ λ1 = 1 − µ > 0, λ2 = µ > 0.
Also: X ∈ PQ ⇔ x = λ1 p + λ2 q mit λ1 + λ2 = 1, λ1 , λ2 ≥ 0
27
Dreieck (P QR):
Ebene durch P, Q, R :
x = p + µ(q − p) + ν(r − p)
= λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = 1
X1
∈ QR ⇒ x1 = µ2 q + µ3 r mit µ2 + µ3 = 1, µ2 , µ3 ≥ 0
X
∈ P X1 ⇒ x1 = ν1 p + ν2 x1 mit ν1 + ν2 = 1, ν1 , ν2 ≥ 0
x = ν1 p + ν2 µ2 q + ν2 µ3 r
x = λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = ν1 + ν2 µ2 + ν2 µ3 =
= ν1 + ν2 (µ2 + µ3 ) = ν1 + ν2 = 1 und
| {z }
1
λ1 = ν1 ≥ 0, λ2 = ν2 µ2 ≥ 0, λ3 = ν2 µ3 ≥ 0.
Also: X ∈ Dreieck (P, Q, R) ⇔ x = λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = 1 und λ1 , λ2 , λ3 ≥ 0.
P ist Ecke des Dreiecks 4 ⇔6 ∃X1 , X2 ∈ 4 mit P ∈ X1 X2 .
X keine Ecke des Dreiecks 4 ⇔ ∃P, X1 ∈ 4 mit X ∈ P X1 .
Definition 14.11 Konvexe und nicht beschränkte Mengen
V sei ein Vektorraum über einem angeordneten Körper K.
T = {x1 , x2 , . . . , xr } ⊆ V, M ⊆ V .
(i) Eine Konvexkombination von x1 , x2 , . . . , xr ist eine Linearkombination von x1 , . . . , xr
der Form
λ1 x1 + λ2 x2 + . . . + λr xr mit
r
X
λi = 1 und λi ≥ 0.
i=1
Sind alle λi > 0, dann spricht man von einer echten Konvexkombination.
(ii) Die konvexe Hülle H(T) von T ist die Menge aller Konvexkombinationen von T .
(
)
r
X
X
H(x1 , . . . , xr ) = x|x =
λi xi mit
λi = 1 und λi ≥ 0 .
i=1
(iii) Eine Strecke P Q durch P und Q ist die konvexe Hülle von {P, Q}. P, Q heißen Endpunkte der Strecke P Q.
P Q = {x|x = λ1 p + λ2 q mit λ1 + λ2 = 1, λ1 , λ2 ≥ 0}
(iv) Eine Teilmenge M von V heißt konvex, wenn sie mit je zwei Punkten x1 , x2 ∈ M stets
auch alle Punkte der Strecke x1 x2 enthält.

x1 ∈ M 
M konvex ⇔
⇒ {x|x = λ1 x2 + λ2 x2 , λ1 + λ2 = 1, λ1 , λ2 ≥ 0} ⊆ M
x ∈M 
2
28
(v) Ein Punkt x ∈ M heißt Ecke von M , wenn es keine verschiedenen Punkte x1 , x2 ∈ M
gibt, so daß x echte Konvexkombination von x1 , x2 ist.
(vi) Ein Strahl durch p in Richtung a ist die Menge der Punkte {x|x = p + λa, λ ≥ 0}.
(vii) M heißt nicht–beschränkt, wenn M einen Strahl umfaßt.
Andernfalls heißt M beschränkt.
Beachte: Es gibt also 3 Arten von Hüllen: lineare, affine, konvexe.
Satz 14.15 Einfache Eigenschaften von konvexen Mengen
(i) Die konvexe Hülle H(x1 , x2 , . . . , xr ) ist stets konvex.
(ii) Der Durchschnitt von konvexen Mengen ist stets konvex.
(iii) Die Vereinigung von konvexen Mengen ist i.a. nicht konvex.
(iv) Jeder m−dimensionale affine Raum A ist eine nichtbeschränkte, konvexe Menge ohne
Ecken.
Beweis für die Eckenfreiheit: Sei x ∈ A ⇒ x = p +
x2 := p +
Pm
i=1
λi ui ⇒ x1 := p +
P
(λi + k)ui ∈ A und
P
(λi − k)ui ∈ A. Es ist x1 6= x2 und x = 12 x1 + 21 x2 .
(v) Ist T1 = {x1 , . . . , xr } und T2 = {xr+1 , . . . , xn }, dann ist H(T1 ∪ T2 ) = Menge aller Konvexkombinationen je eines Punktes von H(T1 ) und H(T2 ). Damit kann man die konvexe
Hülle einer endlichen Menge T = {x1 , . . . , xm } induktiv aufbauen: Man geht aus von
der konvexen Hülle von {x1 , x2 } = x1 x2 aus. Dann bildet man die konvexe Hülle von
{x1 , x2 } ∪ {x3 } = {x1 , x2 , x3 } als Menge aller Konvexkombinationen von Punkten aus
x1 x2 und x3 usw.
29
Definition 14.12 Spezielle konvexe Mengen im Kn
{e~1 , . . . , e~n } sei die Standardbasis des K n .
(i)
(
K+ :=
x̃|x̃ =
n
X
)
λi ẽi , λi ∈ K, λi ≥ 0
i=1
heißt der Positivitätskegel im
K n.
Auch so:
K+ := {~x|~x ∈ K n und ~x ≥ 0}.
1. Quadrant
1. Oktant
(ii) m
~ = (m1 , . . . , mn ) ∈ K n , ε > 0
n
o
ε
W (m,
~ ε) := ~x/ kxi − mi k ≤ , i = 1, . . . , n
2
W heißt Würfel mit Mittelpunkt m
~ und Kantenlänge ε.
Mittels der Dreiecksungleichung kann man zeigen, daß W eine konvexe Menge ist.
30
Definition 14.13 Spezielle Punkte
M sei eine konvexe Menge.
x ∈ M heißt innerer Punkt, wenn es einen Würfel W (x, ε) gibt, der ganz in M enthalten ist
(der nur Punkte aus M enthält).
x ∈ M heißt Randpunkt, wenn jeder Würfel W (x, ε) sowohl Punkte von M als auch Punkte
von M c enthält.
M heißt offen, wenn jeder Punkt von M ein innerer Punkt ist.
M heißt abgeschlossen, wenn M c offen ist.
offenes Intervall
abgeschlossenes Intervall
offene Halbebene
abgeschlossene Halbebene
offener Halbraum
abgeschlossener Halbraum
~at · ~x > b oder ~at · ~x < b
~at · ~x > b oder ~at · ~x < b
Jede Hyperebene zerlegt den Raum in 2 Halbräumen.
Definition 14.14 Konvexe Mengen, die keine affinen Räume sind
(i) Die Menge der positiven Lösungen eines inhomogenen linearen Gleichungssystems ist
eine konvexe Menge mit Ecken.
Sei A ∈ K mn , ~b ∈ K m . Dann ist Z := {x̃ ∈ Kn |Ax̃ = b̃ und x̃ ≥ 0} = L ∩ K+ konvex.
Z heißt zulässige Menge bezüglich des LGS A~x = ~b.
Z kann leer sein (wenn Rg(A) 6= Rg(A, b)).
31
Beweis der Konvexheit: Für x~1 , x~2 ∈ Z und λ1 ≥ 0, λ2 ≥ 0 mit λ1 + λ2 = 1 gilt:
A(λ1 x~1 + λ2 x2 ) = λ1 Ax~1 + λ2 Ax~2 = λ1~b + λ2~b = (λ1 + λ2 )~b = 1~b = ~b und λ1 x~1 + λ2 x~2 ≥ 0.
Die Bestimmung der Ecken ist in höherdimensionalen Räumen lästig (→ Operations Research).
Für die weiteren Beispiele sei {u1 , u2 , . . . , ur } l.u. in V, p ∈ V , beliebig.
n
o
P
(ii) K := x|x = x0 + ki=1 λi ui , λi ≥ 0
K heißt k− dimensionaler Kegel in V mit Spitze x0 . (Der Kegel ist eine Verallgemeinerung des Winkelfeldes.)
K ist nichtbeschränkt, x0 ist die einzige Ecke.
Strahlen sind 1−dimensionale Kegel.
(iii) Sp := {x|x = x0 +
Pr
i=1 λi ui ,
0 ≤ λi ≤ 1}
Sp heißt das von den Kantenvektoren u1 , u2 , . . . , uk von x0 aus aufgespannte k−dimensionale Parallelepiped (k−Spat). (Verallgemeinerung des Parallelogramms).
Strecken sind 1–dimensionale, Parallelogramme sind 2–dimensionale Parallelepipede.
Die Ecken sind genau die Punkte
e = x0 +
k
X
λi ui mit λi ∈ {0, 1}.
i=1
n
o
P
P
(iv) Si = x|x = x0 + ki=1 λi ui , λi ≥ 0, ki=1 λi = 1
Si heißt der von den Vektoren u1 , . . . , uk von x0 aus aufgespannte
k−dimensionale Simplex (k−Simplex). (Verallgemeinerung des Dreiecks).
32
Si ist als Teilmenge von SP beschränkt.
{x0 , x0 + u1 , . . . , x0 + uk } sind die Ecken von S.
S kann man in homogener Darstellung schreiben als
o
n
Pk
Pk
Si = x|x = i=0 µi vi , µi ≥ 0, i=0 µi = 1
P
mit µi = λi ,
i = 1, . . . , k; µ0 = 1 − ki=1 λi
vi = x0 + ui , i = 1, . . . , k; v0 = x0
Der k−dimensionale Simplex ist daher die konvexe Hülle seiner k + 1 Ecken (in allgemeiner
Lage).
33
15 Metrische Geometrie
Neben der Untersuchung von Inzidenz– und Parallelitätseigenschaften werden in der Elementargeometrie auch viele Aussagen über Abstände, Längen, Inhalte, Winkel und Orthogonalität
gemacht. Um diese Begriffe in die Sprache der linearen Algebra übersetzen und damit einer rechnerischen Behandlung zugänglich machen zu können, benötigt man als zusätzliche Eigenschaften
in Vektorräumen nur das Skalarprodukt. In diesem Kapitel werden also generell Skalarprodukträume vorausgesetzt. Die Inhaltsmessung von einigen konvexen Punktmengen wird mit Determinanten behandelt.
Nachdem wir bisher affine Räume generell als Teilmengen von Vektorräumen aufgefaßt haben,
übernehmen wir die übliche Abstands– und Winkelmessung von Skalarprodukträumen.
15.1 Abstands– und Winkelmessung
Definition 15.1 Abstand und Winkel
(V, <, >) sei ein Skalarproduktraum, A sei ein affiner Raum in V .
(i) Unter dem Abstand zweier Punkte X, Y ∈ A, symbolisch d(X, Y ), versteht man die
reelle Zahl
d(X, Y) := ky − xk =
√
< y − x, y − x >.
In reellen Skalarprodukträumen ist darüber hinaus eine Winkelmessung möglich:
(ii) Sind X, Y, Z ∈ A mit X 6= Y 6= Z, dann versteht man unter dem Winkel <
)(X, Y, Z) mit
dem Scheitel Y die reelle Zahl
<
)(X, Y, Z) := arccos
< x − y, z − y >
kx − ykkz − yk
Besonders nützliche Gleichungsdarstellungen von Punktmengen erhält man mittels kartesischer
Koordinatensysteme (nach R. DESCARTES, 1596-1650).
Als Beispiel für eine Gleichungsdarstellung untersuchen wir die Darstellung von Hyperebenen.
A sei ein n−dimensionaler affiner Raum in Richtung U . H sei eine Hyperebene in Richtung
W =< e1 , e2 , . . . , en−1 > mit der ON–Basis B = (e1 , e2 , . . . , en−1 ):
H = {x|x = p + λ1 e1 + . . . + λn−1 en−1 }
34
{e1 , . . . , en−1 } kann zu einer ON–Basis von U ergänzt werden (Satz über die orthogonale Zerlegung):
U =< e1 , e2 , . . . , en−1 , n0 >
n0 ist also ein normierter Vektor, der auf alle Vektoren aus W orthogonal steht. Dann gilt für
jeden Punkt X ∈ H:
< x − p, n0 >=< λ1 e1 + . . . + λn en , n0 >= λ1 < e1 , n0 > + . . . + λn−1 < en−1 , no >= 0
Damit ist n0 ⊥ x − p ∀x ∈ H und ebenso gilt: n ⊥ x − p ∀x ∈ H für n := k · n0 mit k ∈ K.
n heißt daher Normalvektor der Hyperebene H.
Jeder Punkt x ∈ H erfüllt < x − p, n0 >= 0. Ist umgekehrt x ∈ A mit < x − p, n0 >= 0 ⇒
x − p = λ1 e1 + . . . λn−1 en−1 + λn n0 und < x − p, n0 >= 0 ergibt:
< λ1 e1 + λn−1 en−1 + λn n0 , n0 >= 0 ⇒
λ1 < e1 , n0 > + . . . + λn−1 < en−1 , n0 > +λn < n0 , n0 >= 0 ⇒ λn = 0 ⇒ x − p = λ1 e1 + . . . +
| {z }
| {z }
| {z }
0
0
1
λn−1 en−1 ⇒ x = p + λ1 e1 + . . . + λn−1 en−1 ⇒ x ∈ H.
Die Hyperebene H durch den Punkt P (p) in Richtung W ist also die Menge aller Punkte X(x)
mit
< x − p, n0 >= 0 ⇔< x, n0 >=< p, n0 >=: c
oder auch
< x − p, n >= 0 ⇔< x, n >=< p, n > .
wobei n ∈ W ⊥ .
Insbesondere gilt auch für den Einheitsvektor n0 von n:
< x − p, n0 >= 0 ⇔< x, n0 >=< p, n0 >
Diese Darstellung von H heißt HESSEsche Normalvektorform von H. (O.L. HESSE, 1811–
1874).
Ihre Bedeutung liegt, so wie im anschaulichen Raum V 2 bzw. V 3 (siehe Kapitel ??) darin, daß
man den Abstand eines Punktes von einer Hyperebene leicht berechnen kann.
Definition 15.2 Abstand eines Punktes von einer Punktmenge
A sei ein affiner Raum, M ⊂ A und Y (y) ∈ A.
35
Unter dem Abstand d(Y, M) des Punktes Y von der Menge M versteht man das Infimum der
Abstände d(Y, X) mit X(x) ∈ M .
d(Y, M ) := inf {d(Y, X)|X ∈ M } = inf {kx − yk/X ∈ M }
Ist M ein affiner Teilraum, dann gibt es stets ein F (f ) ∈ M mit minimalem kf − yk.
F heißt der zu Y gehörige Fußpunkt.
Nach dem Satz über die beste Approximation gilt für eine Hyperebene H in Richtung W durch
P:
ky − f k minimal ⇔ k(y − p) − (f − p)k minimal ⇔ (y − p) − (f − p) = y − f ∈ W ⊥ =< n0 >
⇔ y − p = (1 − p) + (y − f ) ⇔ y − f = projn0 (y − p) =< y − p, n0 > n0
| {z } | {z }
∈W
∈W ⊥
⇒ ky − f k =< y − p, n0 > kn0 k
| {z }
1
Das heißt: Man erhält den Abstand eines Punktes Y von einer Hyperebene H durch
P und dem Normalvektor n, wenn man in der Hesseschen Normalvektorform von
H :< x − p, n0 >= 0 für x den Punkt y einsetzt: d(Y, H) =< y − p, no >.
Die Gerade l durch Y mit dem Richtungsvektor n heißt Lot auf H durch Y. Der Durchschnitt
des Lotes mit der Hyperebene enthält genau einen Punkt F , genannt der Fußpunkt des Lotes:
{F } = l ∩ H.
Es gilt: d(Y, F) = |d(Y, H)|
Der Fußpunkt ist also jener eindeutig bestimmte Punkt, für den der Abstand angenommen wird.
Für den Ortsvektor f von F gilt auch: f = y− < y − p, n0 > n0 .
Vergleiche noch einmal Kapitel 3. Beachte, daß jetzt die Punkte auch Funktionen, Polynome,
Matrizen u.ä. sein können!
Der Abstand d(P, Q) = kp − qk zwischen zwei Punkten P und Q kann wegen (N1) nur positiv
sein. Der Abstand d(Y, H) eines Punktes Y von einer Hyperebene H kann wegen d(Y, H) =<
y − p, n0 > aber auch negativ sein. Damit zerlegt die Hyperebene H den affinen Raum A in 2
Halbräume:
A+ := {Y |d(Y, H) > 0} heißt positiver Halbraum von A bezüglich H
A− := {Y |d(Y, H) < 0} heißt negativer Halbraum von A bezüglich H
Nach Satz 14.13 kann eine Hyperebene als (n−1)−dimensionaler Unterraum des n−dimensionalen
affinen Raumes A nach Einführung eines Koordinatensystems durch eine inhomogene, lineare
36
Gleichung in n Variablen über K dargestellt werden. (Koordinatenform der HESSEschen
Normalvektorform von H). Wählt man insbesondere ein kartesisches Koordinatensystem aus,
kann man die Koeffizienten der n Variablen geometrisch schön deuten:
S = (O, E1 , . . . , En ) sei ein kartesisches Koordinatensystem von A mit Richtung U .
X ∈ H und P ∈ H haben die kartesischen Koordinaten
[X]S = (x1 , . . . , xn ), [P ]S = (p1 , . . . , pn ) und der Normalvektor n0 von H habe die Koordinaten
[n0 ]SU = (n1 , n2 , . . . , nn ).
Bekanntlich läßt sich das Skalarprodukt bezüglich ON–Basen als Standardskalarprodukt schreiben.
< x, y >= [y]∗ [x]
Damit gilt für die HESSEsche Normalvektorform:
0 =< x − p, n0 >= [n0 ]t · [x − p] = [n0 ]t · [x]t − [n0 ]t [p]
| {z }
=:c
Also: [n0 ]t · [x] = c ⇔ n1 x1 + . . . + nn xn = c
Die Koeffizienten von x1 , . . . , xn in der Koordinatendarstellung der HESSEschen
Normalvektorform einer Hyperebene H bezüglich eines kartesischen Koordinatensystems geben die Koordinaten des Normalvektors von H an.
Zusammenfassung:
Satz 15.1 HESSEsche Normalvektorform einer Hyperebene
(V, <>) sei ein Skalarproduktraum. H = p+W sei eine Hyperebene des n−dimensionalen affinen
Raumes A mit Richtung U ⊆ V , Y (y) ∈ A ein beliebiger Punkt.
(i) Ein Normalvektor n von H ist ein Element aus W ⊥ =< n >.
(ii) H = {x ∈ A| < x − p, n >= 0}.
Bezeichnet n0 den Einheitsvektor von n, dann heißt
< x − p, n0 >= 0
die HESSEsche Normalvektorform von H.
(iii) d(Y, H) =< y − p, n0 > gibt den Abstand des Punktes Y von H an.
37
(iv) Bezüglich eines kartesischen Koordinatensystems S läßt sich H durch eine i.a. inhomogene
lineare Gleichung der Form
n1 x1 + . . . + nn xn = c
darstellen, wobei (n1 , n2 , . . . , nn ) die Koordinaten eines Normalvektors von H bezüglich SU
sind. Für c gilt: c = [n]t [p].
(v) Die Hyperebene H teilt den affinen Raum in 2 Halbräume:
positiver Halbraum A+ = {X|d(X, H) > 0} = {(x1 , . . . , xn )|n1 x1 + . . . + nn xn > c}.
negativer Halbraum A− = {X|d(X, H) < 0} = {(x1 , . . . , xn )|n1 x1 + . . . + nn xn < c}.
Beispiel: Im (R4 , <>St ) ist die Hyperebene H gegeben durch
0
1
1
0
1
1
0
0
1
0
1
1
0
1
1
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B 0 C
B 0 C
B 1 C
B −1 C
B 2 C
C + λ1 B
C + λ2 B
C + λ3 B
C;Y = B
C
H =~
x=B
B
C
B
C
B
C
B
C
B
C
B 2 C
B 0 C
B 1 C
B 1 C
B −2 C
@
A
@
A
@
A
@
A
@
A
1
1
0
−1
1
Bezüglich des Standardkoordinatensystems erhält man durch Elimination oder durch Bestimmung des Orthogonals (mittels NullSpace) die Koordinatengleichung:
H : x1 + x2 − x3 − x4 = −2
(1, 1, −1, −1)t ist ein Normalvektor von H.
HESSEsche Normalvektorform:
x1 + x2 − x3 − x4 + 2 = 0
d(Y, H) =
1+2+2−1+2
2
=3
IR4,+ : x1 + x2 − x3 − x4 > −2
IR4,− : x1 + x2 − x3 − x4 < −2
15.2 Volumina von Simplices und Spaten
Soll eine Zahl µ den Inhalt einer k−dimensionalen Figur messen, so stellt man an diese Zahl
folgende “natürliche” Forderungen (Maßeigenschaften einer Figur):
1. Translationsinvarianz: Der Inhalt µ einer Figur soll sich nicht ändern, wenn die Figur
verschoben wird:
Ist M 0 = M + v ⇒ µ(M 0 ) = µ(M )
38
2. Additivitität: Sind M1 , M2 zwei disjunkte Mengen, so gilt:
µ(M1 ∪ Ms ) = µ(M1 ) + µ(M2 )
3. Streckung: Ist X0 eine beliebige Ecke und X0~Xi eine beliebige von X0 ausgehende Kante
von M und wird Xi ersetzt durch X1 = X0 +λX0~Xi , während die anderen Kanten erhalten
bleiben, so gilt für die so in einer Richtung gestreckte Punktmenge Mλ : µ(Mλ ) = µ(M ).
4. Ausartung: Besitzt M statt k + 1 nur k l.u. Punkte, so ist µ(M ) = 0. (Der Inhalt ein und
derselben Figur ändert sich, wenn man zu einer anderen Dimension des Inhalts übergeht.)
So hat eine Strecke der Länge 3 den 1−dimensionalen Inhalt (= Länge) 3, jedoch den
2−dimensionalen Inhalt (= Flächeninhalt) 0.
5. Normierung: Für den k−dimensionalen Einheitswürfel M0 gilt µ(M0 ) = 1
In der Analysis wird gezeigt, daß man durch das bestimmte Integral vielen Punktmengen so eine
Zahl als Maß zuordnen kann. Genauso, wie man aber im Rn (n > 3) nicht jeder Punktemenge eine
Zahl so zuordnen kann, daß 1)–5) gilt, kann man auch in Vektorräumen nicht jede Punktmenge
“messen”, es gelingt dies nur für k−Spate und k−Simplexe. Die Translationsinvarianz erreicht
man dadurch, daß man das Volumen des k−Spates durch die k Kantenvektoren X0~Xi definiert,
denn:
Es gelte: Xi = X0 + X0~Xi (i = 1, . . . , k).
Durch eine Translation v ergeben sich die Punkte X0∗ = X0 + v und Xi∗ = Xi + v mit Xi∗ =
X0∗ + X0∗~Xi∗ = X0∗ + (X0~X0 ) +X0~Xi∗ + (Xi~Xi∗ ) = X0∗ + X0~Xi also ist
| {z }
| {z }
−v
v
X0~Xi = X0∗~Xi∗
Wir werden also jedem Spat SP (X0 , . . . , Xk ) ein Element µ(Sp) ∈ K, genannt k−dimensionales
“Volumen” V, abhängig von den Kantenvektoren ui := X0~Xi zuordnen:
SP (X0 , . . . , Xk ) → µ(u~1 , . . . , u~k ) ∈ K
Die Maßeigenschaften
→, u~ , . . . , u~
1. durch c) erhalten wir aus der Forderung der Multilinearität an µ in −
u
1 2
t
2. durch die Forderung bzw. Festsetzung µ(u~1 , . . . , u~t ) = 0 für ~u, . . . , u~t l.a.
39
3. erhalten wir durch die Forderung µ(e~1 , . . . , e~k ) = 1 wobei e~1 , . . . , e~k eine ON–Basis des
dem affinen Unterraum zugehörigen Vektorraumes U ist.
Diese Forderungen stimmen mit den Eigenschaften D1, D2, D3 einer Determinante überein,
daher gilt nach Satz 13.1:
Satz 15.2 Volumsformel
B sei ein k−dimensionaler Unterraum eines affinen Raumes A.
X0 , X1 , . . . , Xk seien k + 1 l.u. Punkte und {b1 , b2 , . . . , bk } eine Basis der Richtung von B.
P
X0˜Xi =: ui = kj=1 uij bj . Die vij sind also die Komponenten der von einem Punkt x0 ausgehenden Kantenvektoren eines Spates. Dann gilt:
(i) Das Volumen V des k−Spates Sp(X0 , X1 , . . . , Xk ) bezüglich der Basis {bi } ist gegeben
durch die Determinanten der Koordinaten der Kantenvektoren:
u11 . . . u1k .
V = ..
uk1 . . . ukk (ii) Das Volumen µ des k−Simplex Si(X0 , X1 , . . . , Xk ) bezüglich der Basis {bi } ist gegeben
durch den k!−Teil der Determinante der Koordinaten der Kantenvektoren:
u11 . . . u1k 1 .
V = ..
k! uk1 . . . ukk Bemerkung: Der k−Spat kann in k! volumsgleiche k−Simplexe zerlegt werden: Das Parallelogramm (k = 2) in k! = 2! = 2 flächengleiche Teildreiecke, das Parallelogramm in k! = 3! = 6
volumsgleiche Tetraeder.
Bemerkung:
Das 1−dimensionale Volumen heißt auch Länge,
Das 2−dimensionale Volumen heißt auch Fläche.
40
16 Lineare Optimierung
Es werden die geometrischen Begriffsbildungen in abstrakten Vektorräumen (meistens ist es der
IRn , n auch sehr groß) auf Optimierungsfragen angewendet.
Bei einer Vielzahl wirtschaftlicher Entscheidungen steht das Optimieren bestimmter Größen im
Vordergrund.
Zu den Größen, bei denen ein Maximum angestrebt wird, gehören: Gewinn, Umsatz, Fertigungsmengen, Lebensdauer eines Produktes (mit Einschränkungen), Zahl der belieferten Kunden.
Zu den Größen, bei denen ein Minimum angestrebt wird, gehören: Kosten, Preis, Abfallmenge,
Transportwege, Energieverbrauch, Zahl der wartenden Kunden.
In dem folgenden Beispiel wird bewußt ein kleiner Ausschnitt aus der ökonomischen Wirklichkeit
gewählt. Auch bei zukünftigen Beispielen wird in dieser Einführung zur Wahrung der Übersicht
im Unterschied zur Praxis eine Reihe von Aspekten unberücksichtigt bleiben, um die Beispiele
“von Hand” berechenbar zu machen.
Man kann nun bestimmten ökonomischen Vorgängen unter Vernachlässigung unwesentlicher
Sachverhalte ein vereinfachtes mathematisches System zuordnen. Ein solches in der Linearen
Optimierung angewandtes System von Gleichungen und Ungleichungen heißt Modell, den Vorgang des Aufstellens der Gleichungen und Ungleichungen nennt man Modellieren.
16.1 Geometrische Lösung
Um den Sachverhalt in der Zeichenebene veranschaulichen zu können, erfolgt eine Beschränkung
auf n = 2.
Beispiel: Maximumproblem im IR2 (aus KÖHLER, Lineare Algebra)
In einem chemischen Betrieb werden aus drei Rohstoffen Ri (i = 1, 2, 3) zwei Fertigprodukte
Pk (k = 1, 2) hergestellt. In der Tabelle der Abbildung 1 sind für beide Produkte die Rohstoffanteile je Einheit der Fertigprodukte angebeben.
41
Rohstoffe/Fertigprodukte
P1 (ME)
P2 (ME)
R1
1,5
3,0
R2
2,5
2,0
R3
0
1
Abbildung 1: Materialverbrauchsnormen für die Produkte P1 und P2
Außerdem betragen die pro Zeiteinheit (ZE) verfügbaren Rohstoffmengen für R1 210 ME, für
R2 200 ME und für R3 60 ME. Der Stückgewinn beträgt bei P1 3 DM und bei P2 4 DM.
Aufgabe
a) Bei welcher Stückzahl von P1 bzw. P2 ist der Gewinn maximal?
b) Wie hoch ist der maximale Gewinn?
Lösung: Für gesuchte Größen werden Variable eingesetzt.
Die pro ZE hergestellten Stückzahlen von P1 sei x1 , die von P2 sei x2 .
Die Tabelle in Abbildung 2 wird um die Spalte V der verfügbaren Rohstoffmenge und um die
Zeile G der Stückgewinne ergänzt zu Abbildung 2.
Verfügbare Mengen
Rohstoffe/Fertigprodukte
P1 (ME)
P2 (ME)
V (ME)
R1
1,5
3,0
210
R2
2,5
2,0
200
R3
0
1
60
Gewinn G
3
4
Abbildung 2: Erweiterung von Abb. 1 um die Kapazitätsbeschränkungen
Da für 1 ME P1 1,5 ME des Rohstoffes R1 und für 1 ME des Produktes P2 3 ME des Rohstoffes R1
benötigt werden, sind für x1 ME des Produktes P1 und x2 ME des Produktes P2 1,5 x1 +3x2 ME
des Rohstoffes R1 erforderlich (das ist wieder die vereinfachende Proportionalitätsannahme).
Da jedoch in der Zeiteinheit nur 210 ME des Rohstoffes R1 zur Verfügung stehen, gilt die
Relation
1, 5x + 3x2 ≤ 210
(8)
Entsprechend erhält man für die beiden übrigen Rohstoffmengen
2, 5x1 + 2x2 ≤ 200
x2 ≤
60
(9)
42
Die Ungleichungen (8) und (9) nennt man einschränkende Bedingungen (Restriktionen).
Außerdem dürfen die Stückzahlen nicht negativ sein:
x1 ≥ 0
(10)
x2 ≥ 0
Die Ungleichung (10) stellt die sog. Nichtnegativitätsbedingung dar.
Da der Gewinn je ME des Produktes P1 3 DM, für x1 ME des Produktes P1 somit 3x1 beträgt
und der Gewinn je ME des Produktes P2 4 DM, für x2 ME des Produktes P2 somit 4x2 beträgt
(wieder die Proportionalitätsannahme), lautet die Funktionsgleichung für den Gesamtgewinn
G = 3x1 + 4x2
(11)
Die Gleichung (11) heißt Zielfunktion des Optimierungsproblems oder im hier vorliegenden
Fall Gewinnfunktion. Zusammenfassend ergibt sich damit für Beispiel (12) folgendes mathematische Modell.
1. Restriktionen
1, 5x1 + 3x2 ≤ 210
2, 5x1 + 2x2 ≤ 200
x2 ≤
(12)
60
2. Zielfunktion
G = 3x1 + 4x2 → max
(13)
3. Nichtnegativitätsbedingung
x1 ≥ 0
(14)
x2 ≥ 0
Die Restriktionen (12) werden nun in einem zweidimensionalen Koordinatensystem dargestellt.
Jede Ungleichung charakterisiert eine Halbebene. Die Schnittmenge der drei Halbebenen ist zu
ermitteln. Um die Halbebenen darzustellen, löst man die drei Ungleichungen nach x2 auf und
zeichnet die drei Berandungsgeraden, indem man die dazugehörigen Gleichungen betrachtet.
Anschließend kennzeichnet man die jeweiligen Halbebenen durch Schraffur.
Da außerdem die Nichtnegativitätsbedingungen (14) gelten, kann die gesuchte Punktemenge,
d.h. der Bereich, in dem die möglichen Kombinationen der Stückzahlen x1 und x2 liegen, nur
43
Abbildung 3
im ersten Quadranten sein. Die Schnittmenge der durch die Ungleichungen (12) und (14) dargestellten Punktmenge wird in Abbildung 3 geometrisch veranschaulicht. Diejenige Punktmenge,
die den Restriktionen und der Nichtnegativitätsbedingungen genügt, wird als zulässiger Bereich bezeichnet. Denkbar als mögliche Stückzahlen, die die Restriktionen und die Nichtnegativitätsbedingung erfüllen, wären z.B.
Q1 (20, 30) und Q2 (30, 40)
Geht man von dem Unternehmensziel der Gewinnmaximierung aus, dann sind somit diejenigen
Stückzahlen x1 und x2 zu bestimmen, für die der Gewinn maximal wird.
Dazu betrachtet man zunächst alle Kombinationen der Stückzahlen, bei denen der Gewinn
konstant ist. Bei konstantem G stellt Gleichung (13) eine Gerade un R2 dar.
Die Steigung dieser Geraden ermittelt man, indem man die Gleichung (13) nach x2 auflöst.
G
3
x2 = − x1 +
4
4
(15)
Auf der Geraden mit der Gleichung (15) liegen alle Punkte, die als Mengenkombination der
Stückzahlen x1 und x2 interpretiert, den gleichen Gewinn ergeben.
Mengenkombinationen bei gleichem Gewinn
44
Abbildung 4
Ist G = 40, so erhält man auf (15) etwa folgende Kombinationen der Stückzahlen:
x1 = 4, x2 = 7 bzw. x1 = 8, x2 = 4.
Die Gerade mit der Gleichung (15) heißt deshalb auch Isogewinngerade. Da alle Isogewinngeraden die gleiche Steigung besitzen, verlaufen sie parallel zueinander. Der Ordinatenabschnitt
der Geraden ist
G
4.
Der Gewinn wird somit um so höher, je größer
G
4
ist.
Die Isogewinngerade muß also möglichst weit vom Ursprung weg parallel verschoben werden,
jedoch so, daß sie mit dem schraffierten Bereich noch mindestens einen Punkt gemeinsam hat.
Für G = 100(200, 300, 360) lauten die Isogewinngeraden
x2 = − 34 x1 + 25
x2 = − 34 x1 + 50
x2 = − 34 x1 + 75
x2 = − 34 x1 + 90
Diese Isogewinngeraden sind in Abbildung 4 eingezeichnet.
Die optimale Mengenkombination liegt im Punkt B(40, 50), d.h. bei Erzielung des maximalen
Gewinns müssen vom Produkt P1 40 Stück und vom Produkt P 2 50 Stück hergestellt werden.
45
Die genauen Werte für die Stückzahlen erhält man durch Bestimmung des Schnittpunktes der
entsprechenden Geraden.
Den maximalen Gewinn ermittelt man, indem man die Stückzahlen x1 = 40 ME und x2 = 50
ME in Gleichung (13) einsetzt. Es ist Gmax = 3 [GE/ME]·40 ME +4 [GE/ME]·50 ME = 320
GE.
Da die Gerade mit
G
4
= 85 bzw. G = 340 keinen Punkt mit dem zulässigen Bereich gemeinsam
hat, scheiden die auf ihr liegenden Punkte für die Mengenkombination aus.
Beispiel: Minimumproblem im R2
Für ein Stück Vieh seien folgende Mindestnahrungsrationen verbindlich:
3 Einheiten des Nährstoffes A
6 Einheiten des Nährstoffes B
2 Einheiten des Nährstoffes C
Zur Verfügung stehen zwei Futtersorten S1 und S2 . In 1 ME der Sorte S1 ist ME des Nährstoffes
A und 1 ME des Nährstoffes B enthalten. In 1 ME der Sorte S2 ist 0,5 ME des Nährstoffes A, 2
ME des Nährstoffes B und 2 ME des Nährstoffes C enthalten. Die Kosten betragen für die Sorte
S1 2,5 GE/ME und für die Sorte S2 3 GE/ME.
Aufgabe
(a) Wie muß das Futter gemischt werden, damit die angegebenen Nährstoffe darin enthalten
sind und die Gesamtkosten minimal werden?
b) Wie hoch sind die minimalen Kosten?
Lösung
Die Angaben werden in der Tabelle der Abbildung 5 übersichtlich dargestellt.
Nährstoff/Futtersorte
S1
S2
Mindestmengen in ME
A
1
0,5
3
B
1
2
6
C
0
2
2
Kosten
2,5 3
Abbildung 5: Zusammensetzung der beiden Futtersorten
Es werden x1 ME der Sorten S1 mit x2 ME der Sorten S2 gemischt.
Aus der Abbildung 5 entnimmt man folgendes mathematisches Modell:
46
Abbildung 6: Isokostengeraden
1. Restriktionen
x1 + 0, 5 ≥ 3
x1 + 2x2 ≥ 6
(16)
2x2 ≥ 2
2. Zielfunktion
K = 2, 5x1 + 3x2 → min
(17)
3. Nichtnegativitätsbedingung
x1 ≥ 0
(18)
x2 ≥ 0
Die durch die Ungleichungen (16) und (18) dargestellten Halbebenen werden in einem zweidimensionalen Koordinatensystem geometrisch veranschaulicht.
Die Schnittmenge der entsprechenden Halbebenen ist nicht beschränkt. Der Graph der Zielfunktion stellt bei konstantem K eine Gerade dar, die Isokostengerade.
Alle Isokostengeraden besitzen die gleiche Steigung. Man erhält die Steigung aller paralleler
Isokostengeraden, indem man Gleichung (17) nach x2 auflöst.
x2 − 2,5
3 x1 +
K
3
= − 56 x1 +
K
3
(19)
47
Die Steigung aller Isokostengeraden beträgt m = − 56 . In Abbildung 6 sind vier Isokostengeraden
dargestellt.
(K = 3, K = 6, K = 11, K = 15)
Eine optimale (minimale) Lösung ergibt sich für diejenigen Wertepaare (x1 , x2 ) der Punkte, die
auf einer Isokostengeraden liegen, deren Ordinatenabschnitt minimal ist. Die Isokostengerade
muß somit parallel verschoben werden, und zwar möglichst dicht an den Ursprung heran, jedoch
so, daß sie noch mindestens einen Punkt mit dem zulässigen Bereich gemeinsam hat. Der Punkt
B(2,2) gibt das Optimum an. Auf der Isokostengeraden mit K=3 bzw. K=6 liegt kein Punkt des
zulässigen Bereiches.
Antwort auf
a) Von Sorte S1 und S2 sind je 2 ME zu mischen.
b) Minimale Kosten: K=2,5 [GE/ME]· 2ME+3[GE/ME]· 2ME=11GE
Man sieht schon an diesen beiden Beispielen, wie geometrische Grundbegriffe und Vorstellungen
benützt werden (zulässige Bereiche, Halbebenen, beschränkt und nicht beschränkt, Schnittmengen). Unsere Verallgemeinerungen gestatten es, dasselbe Verfahren auch in höher–dimensionalen
Vektorräumen anzuwenden.
48
16.2 Geometrische Eigenschaften der zulässigen Menge Z
Restriktionen in Ungleichungsform können durch Einführung von Schlupfvariablen auf Gleichungsform gebracht werden. Man erhält so i.a. m Gleichungen in n Unbekannten. Durch Weglassen von überflüssigen (= l.a.) Gleichungen kann man erreichen, daß die Koeffizientenmatrix
dieses LGS vollen Zeilenrang hat.
Standardproblem der linearen Optimierung
K sei ein geordneter Körper. Gegeben seien eine (m × n)−Matrix A ∈ K m·n mit
Rg(A) = m, ein Vektor ~b ∈ K m mit ~b ≥ ~0. Mit dem Vektor ~lt = (l1 , l2 , . . . , ln ) ∈ K n werde die
lineare Funktion (Linearform) L : K n → K mit
L(~x) := ~lt ~x =
n
X
li xi
i=1
gebildet. L(~x) heißt Zielfunktion.
Gesucht ist das Minimum Lmin der Zielfunktion L : K n → K auf der zulässigen Menge
n
o
Z := ~x|A~x = ~b und ~x ≥ 0
und jene Stellen ~x ∈ Z, an denen dieses Minimum angenommen wird, d.h., die Teilmenge
Mmin := {~x|~x ∈ Z und L(~x) = Lmin } ⊂ Z
der zulässigen Minimalpunkte von Z.
Das Problem ist lösbar, wenn Mmin 6= 0.
Will man unter den gleichen Bedingungen das Maximum Lmax von L bestimmen, dann ist dies
gleichwertig mit der Bestimmung des Minimums von −L :
Lmax = (−L)min
~b ≥ 0 kann durch eventuelle Multiplikation mit (−1) stets erreicht werden.
Z ist eine konvexe Teilmenge des K n . Ist Z 6= ∅, dann besitzt Z auch Ecken, aber es sind
höchstens endlich viele. Das soll die Hauptaussage der folgenden Überlegungen sein. Dazu schrei-
49
ben wir das LGS A~x = ~b folgend um: ~x = (x1 , x2 , . . . , xn ) ∈ K n , A ∈ K m·n .

a11


 a21
~
A~x = b ⇔ x1 · 
 ..
 .

am1
| {z
s~1


a1n




 a

 + . . . + xn ·  2n
 ..

 .



amn
}
| {z
s~n


 
 
 
=
 
 
 
b1



b2 
~

..  ⇔ x1 · s~1 + . . . + xn · s~n = b

. 
bm
}
also A = (s~1 , s~2 , . . . , s~n ).
Der i−te Spaltenvektor s~i von A heißt der zur i−ten Koordinate xi von x̃ gehörige Spaltenvektor.
Ein zulässiger Punkt ~x ∈ Z hat wegen ~x ≥ 0 keine negativen Koordinaten. Die Ecken in Z kann
man folgend charakterisieren:
Satz 16.1 Charakterisierung von Ecken
Ein Punkt ~x ∈ Z ist genau dann eine Ecke von Z, wenn die zu den positiven (> 0) Koordinaten
gehörigen Spaltenvektoren von A l.u. sind.
Beweis:
1. ⇒: Sei ~c eine Ecke von Z = {~x|A~x = ~b ∧ ~x ≥ 0}. Die Anzahl der positiven Koordinaten
von ~c sei p.
1. Fall: p = 0, d.h., alle Koordinaten sind 0 ⇒ ~c = ~0 (also ~b = ~0). Die Menge der
zugehörigen Spaltenvektoren ist leer, eine leere Menge ist definitionsgemäß l.u.
2. Fall: p > 0. Durch Umnumerierung kann man erreichen, daß die ersten p Koordinaten
von ~c positiv sind, die Spaltenvektoren von A werden gleichartig umgeordnet:
~c = (c1 , c2 , . . . , cp , 0, . . . , 0), A = (s~1 , . . . , s~p , sp+1
~ , . . . , s~n )
~b = A~c = (s~1 , . . . s~p , . . . s~n ) · (c1 , . . . , cp , 0, . . . , 0)t = c1 s~1 + . . . + cp s~p = Pp ci s~i
i=1
Angenommen, {s~1 , . . . , s~p } wären l.a. ⇒ ∃λ1 , . . . , λp , nicht alle 0 mit
Pp
Pp
~i = ~0 ⇒
si = ~b∀δ ∈ K, d.h. die Punkte x~1 und x~2 mit
i=1 λi s
i=1 (ci s~p + δλi )~
50
geeignetem δ0 > 0 (so daß c1 − δ0 λ1 > 9).



c
+
δ
λ
0 1 
 c1 − δ0 λ1
 1



..
..



.
.






 cp + δ0 λp 
 cp − δ0 λp

 ~

x~1 = 
 > 0 und x~2 = 



0
0






.
..



..
.






0
0
sind verschiedene Elemente von Z und ~c =
1
~1
2x







 ~
>0






+ 12 x~2 , d.h., ~c ist keine Ecke im
Widerspruch zur Annahme.
Die zu positiven Koordinaten von Ecken gehörigen Spaltenvektoren müssen l.u. sein.
2. ⇐: Sei ~x ∈ Z mit p positiven Koordinaten, o.B.d.A. sei ~x = (x1 , x2 , . . . , xp , 0, . . . , 0) und
{s~1 , . . . , s~p } l.u. Spaltenvektoren von A.
1. Fall: p = 0 ⇒ ~x = ~0. Wäre ~x keine Ecke ⇒ ~x ist echte Konvexkombination von zwei
verschiedenen x~1 , x~2 ∈ Z :
~x = λ1 x~1 + λ2 x~2 mit λ1 , λ2 > 0, λ1 + λ2 = 1
Wegen x~1 ≥ 0, x~2 ≥ 0 folgt, daß x~1 = ~0, x~2 = ~0, Widerspruch.
2. Fall: p > 0. Wäre ~x keine Ecke ⇒ ~x = λ1~a + λ2~c mit
λ1 , λ2 > 0, λ1 + λ2 = 1, ~a, ~c ≥ 0 und ~a 6= ~c, also






a
c
x
 1 
 1 
 1 
 . 
 . 
 . 
.
.
 .. 
 . 
 . 













 xp  = λ1  ap 
+λ2 

 cp 











 0  ≥0  a
≥0 
 cp+1 
 p+1 


 . 
 . 
 . 
 . 
 . 
 . 
 . 
 . 
 . 






cn
an
0
≥0
⇒
ap+1 = . . . = an = 0 und
cp+1 = . . . = cn = 0
≥0
Wegen A · ~a = ~b und A · ~c = ~c gilt auch A · (~a − ~c) = ~0, also wegen
A = (s~1 , . . . , s~p , . . . , s~n ):
(a1 − c1 ) · s~1 + . . . + (ap − cp ) · s~p + 0 · sp+1
~ + . . . + 0 · s~n = ~0.
51
Nun sind s~1 , . . . , s~p l.u. ⇒ a1 − c1 = 0, . . . , ap − cp = 0 ⇒ a1 = c1 , . . . , ap = cp ⇒ ~a = ~b
(Widerspruch).
Daher ist ~x eine Ecke, wenn die zu positiven Koordinaten gehörigen Spaltenvektoren
l.u. sind.
Beim Standardproblem ist Rg(A) = m = dim < s~1 , . . . , s~n >, d.h., m ist auch die Maximalanzahl
l.u. Spaltenvektoren von A. Daher gilt:
Bemerkung:
Unter den Voraussetzungen des Standardproblems (insbesondere Rg(A) = m und ~b ≥ 0) hat
jede Ecke der zulässigen Menge Z höchstens m positive Koordinaten. Damit kann man definieren:
Definition 16.1 Entartete und nichtentartete Ecken
(i) Eine Ecke der zulässigen Menge Z heißt entartet, wenn sie weniger als m positive
Koordinaten besitzt.
(ii) Eine Ecke der zulässigen Menge Z heißt nicht entartet, wenn sie genau m positive
Koordinaten besitzt. Dabei ist m = Rg(A).
Beispiel 1:

2 −1 1 0 0


A =  1 −1 0 1 0

1
1 0 0 1


2


 
 ~  
,b =  2 

 
5
P sei das Bild der zulässigen Menge von


 
2 −1



  2   1 −1  x1
  x1

·
≥ ~0,
2 ,

 x2 ≤ 
  x2
 1
1 


5
1
1
nicht aber die zulässige Menge Z von A~x = ~b, ~x ≥ 0. Diese ist eine Teilmenge vom K 5 , wegen
rg(A) = 3 und n − Rg(A) = 5 − 3 = 2 ist Z aber in einer affinen Ebene ε vom K 5 enthalten.
52
Eine Parameterdarstellung von ε ist z.B. gegeben durch






7
−1
−1



 2 




 3 

 1 
 2 
 −1 












ε : ~x =  − 72  + λ1  1  + λ2  3 












 2 
 0 
 0 






0
2
0
λ1 = 1, λ2 = 1 liefert ~xt =
3 3 1
2 , 2 , 2 , 2, 2
∈ ZZ aber die zugehörigen Spaltenvektoren
{s~1 , s~2 , s~3 , s~4 , s~5 } sind l.a., also ist ~x keine Ecke von Z.
λ1 = 3, λ2 = 5 liefert ~x = (− 92 , . . .) 6∈ Z.
Wie kann man Z beschreiben? Z ist ja nur eine konvexe Teilmenge von ε !
Wie erhält man die Ecken von Z?
Wegen Rg(A) = 3 und n = 2 hat man 2 freie Variable, wir nehmen dafür die Nicht–Schlupf–
Variablen. Jeder Punkt
(x1 |x2 ) ∈ P (die Koordinaten sind also gerade die Nicht-Schlupfvariablen) liefert mit den
Parametern t1 := x1 , t2 := x2 einen Punkt (x1 , x2 , . . . , x5 )t ∈ Z, nämlich

x1 = t1
x2 = t2
(∗) x3 = 2 − 2t1 + t2
x4 = 2 − t1 + t2
x5 = 5 − t1 − t2
0


1


0
 



 



 0 
 0 
 1
 



 



⇔ Z : ~x =  2  + t1  −2  + t2  1
 



 



 2 
 −1 
 1
 



5
1
−1






 , (t1 , t2 ) ∈ P




z.B.: Für (t1 , t2 ) = (1, 1) ∈ P erhält man
~x = (1, 1, 1, 2, 3) ≥ 0 und A~x = ~b, also ~x ∈ Z.
Wegen Satz 16.2 ist aber ~x auch keine Ecke von Z.
Die Ecken von Z erhält man, wenn man für die Parameter (t1 , t2 ) gerade die Ecken
des “Parameterpolygons” P wählt.
Die Ecken von P erhält man durch alle möglichen Schnitte der das Polynom P begrenzenden
Geraden (= Hyperebenen im K 2 ):
53
Polygonecken:
(0, 0),
↓

Ecken von Z :
p~1 =
0
( 73 , 83 ),
(1, 0),
↓

 
 
 0 
 
 
 2 
 
 
 2 
 
5

p~2 =
1
(0, 5)
↓


 
 
 0 
 
 
 0 
 
 
 1 
 
4
7
3
↓



 8 
 3 




 0 


 7 
 3 


0
p~3 =
↓
↓
↓
Test auf Ecken:
{s2 , s4 , s5 },
{s1 , s4 , s5 },
{s1 , s2 , s3 },
(RowReduce)
ja
ja
ja

p~4 =
0

 
 
 5 
 
 
 7 
 
 
 7 
 
0
↓
{s2 , s3 , s4 } l.u. ?
ja
{p~1 , p~2 , p~3 , p~4 } sind nichtentartete Ecken von Z (wegen Rg(A) = 3).
Die Darstellung (*) zeigt, daß Z eine 2−parametrige Punkteschar enthält und beschränkt ist.
Wegen (t1 , t2 ) ∈ P , einem beschränkten Viereck, enthält Z nämlich keinen Strahl.
zu Beispiel 2:

1 −2 1 0


 −2

1
Polygonecken:
(1, 0),
p~1 =
1

↓
Test auf Ecken: {s1 , s3 , s4 },

(0, 1),
↓

p~2 =
2

 

 
0  , ~b =  2 

 
1 0 0 −1
1
(2, 0),

 
 
 0 
 
 
 1 
 
 
 4 
 
0
ja

1 0 1
↓

0
2
(0, 2)
↓

 
 
 0 
 
 
 0 
 
 
 6 
 
1

p~3 =
0
↓

 
 
 1 
 
 
 4 
 
 
 1 
 
0
↓
↓
{s1 , s4 , s5 },
{s2 , s3 , s4 },
ja
ja

p~4 =
0

 
 
 2 
 
 
 6 
 
 
 0 
 
1
↓
{s2 , s3 , s5 } l.u.?
ja
⇒ {p~1 , p~2 , p~3 , p~4 } sind nichtentartete Ecken von Z.
Beispiel 3:
A ∈ K m·n , Rg(A) = m ≥ 1, Z = {~x|A~x = ~0 und ~x ≥ 0}, Dann ist ~x = ~0 eine entartete
54
Ecke von Z. (~0 ist nicht Konvexkombination von nichtnegativen Zahlen, ~0 hat keine positiven
Koordinaten).
Um die Eckenanzahl in der zulässigen Mengen Z abschätzen zu können, benötigt man den Begriff
der “Basis einer Ecke p~ ∈ Z”.
Sei Rg(A) = m.
nichtentartet: ∃ genau m positive Koordinaten
⇒ die zugehörigen Spaltenvektoren
bilden eine Basis vom Spaltenraum
= Km
p~
entartet: ∃p < m positive Koordinaten
⇒ die p l.u. zugehörigen Spalten–
vektoren lassen sich (i.a. auf
mehrere Arten) zu einer Basis von
K m ergänzen
Definition 16.2 Basis einer Ecke
p~ sei eine Ecke der zulässigen Menge Z = {~x|A~x = ~b ≥ 0, ~x ≥ 0} mit Rg(A) = m.
Eine Basis Bp~ der Ecke p~ ist eine Menge von m l.u. Spaltenvektoren von A, welche die zu
positiven Koordinaten von p~ gehörigen Spaltenvektoren von A umfaßt. Die zu den Vektoren
einer Basis Bp~ gehörigen Unbekannten des LGS A~x = b heißen Basisvariable (BV) von ~x zur
Basis Bp~ , die übrigen Unbekannten heißen Nichtbasisvariable (NBV) von ~x.
Bemerkungen
1. Nach dem Basisergänzungssatz ist einer nichtentarteten Ecke eindeutig eine Basis vom K m
zugeordnet, einer entarteten Ecke dagegen mehrere.
2. Jede Basis einer Ecke ist auch eine Basis vom K m .
Es gilt nun der wichtige
Satz 16.2 Endlichkeit der Eckenanzahl
Die zulässige Menge Z = {~x ∈ K n |A~x = ~b ≥ 0 und ~x ≥ 0} mit Rg(A) = m besitzt mindestens
eine und höchstens endlich viele Ecken.
Beweis für die Existenz höchstens endlich vieler Ecken: Idee: Man zeigt, daß man jeder l.u.
Menge von m Spaltenvektoren von A höchstens eine (d.h. auch keine) Ecke zuordnen kann.
55
Damit gilt dann: Anzahl der Ecken ≤
n
m
, weil man aus n Elementen auf
n
m
Arten m Elemente
herausgreifen kann (es kommt auf die Reihenfolge nicht an).
Sei p~ ∈ Z eine Ecke ⇔ die zu positiven Koordinaten gehörigen Spaltenvektoren von A sind l.u.
Sei {s~k1 , s~k2 , . . . , s~km } eine Menge von m l.u. Spaltenvektoren von A. Dann hat das LGS
n
X
xk1 · s~k1 + . . . + xkm · s~km = ~b −
xki · s~ki
(20)
i=m+1
in den m Unbekannten xk1 , . . . , xkm für jede Wahl von xkm+1 , . . . , xkn , also auch für
xkm+1 = . . . = xkn = 0
eine eindeutige Lösung (Rg(s~k1 , . . . , s~km ) = m = ] Unbekannten).
Sei xk1 = l1 , . . . , xkm = lm .
Dann ist der Punkt p~ = (p1 , p2 , . . . , pn ) mit

 l
ki
pki =
 0
i = 1, . . . , m
i = m + 1, . . . , n
eine Lösung von A~x = ~b.
Sind alle lki ≥ 0, dann ist p~ eine Ecke von Z (denn die zu lki gehörigen Spaltenvektoren
s~k1 , . . . , s~km sind nach Voraussetzung l.u.). Ist aber mindestens ein lki < 0, dann ist p~ 6∈ Z.
Der Vorgang:
(i) Wähle aus den n Spaltenvektoren von A m l.u. aus
(ii) Löse damit das LGS (20)
liefert also höchstens eine Ecke.
Durch diesen Vorgang werden aber auch alle Ecken von Z erfaßt (unter Umständen hat man
nur zu viel gerechnet):
Sei p~ ∈ Z eine Ecke mit p ≤ m positiven Koordinaten xk1 , . . . , xkp (mehr als m kann es nach
Satz 16.2 nicht geben!). Dann sind die zugeordneten Spaltenvektoren von A: s~k1 , . . . , s~kp nach
Satz 16.1. Nach dem Basisergänzungssatz kann man diese l.u. Menge von Vektoren aus K m zu
einer Basis von K m ergänzen: K m =< s~k1 , . . . , s~kp , . . . , s~km >.
Geht man von dieser Basis aus, erhält man mittels des obigen Vorganges gerade das vorgegebene
p~ (ganz egal, wie man zu einer Basis ergänzt hat, denn wegen Rg(A) = m =
] Unbekannten ist (20) eindeutig lösbar).
56
Der Beweis liefert auch die Methode, wie man alle Ecken von Z erhält. Allerdings wächst
n
m
für große n, m explosionsartig (= exponentiell) an.
Beispiel:
Berechne alle Ecken von Beispiel 1 (ohne Parameterpolygon P )
n
5·4
= 53 = 53 = 1·2
Rg(A) = 3, n = 5 ⇒ ∃ höchstens m
= 10 Möglichkeiten, um aus den 5
Spaltenvektoren eine Menge von 3 l.u. auszuwählen.
(k1 , k2 , k3 ) l.u.
NBV
BV
Ecke
entartet
(1, 2, 3)
ja
x4 = 0, x5 = 0
( 72 , 32 , − 72 )
nein
(1, 2, 4)
ja
x3 = 0, x5 = 0
( 37 , 83 , − 73 )
( 37 , 83 , 0, 37 , 0)
(1, 2, 5)
ja
(0, −2, 7)
nein
(1, 3, 4)
ja
(5, −8, −3)
nein
(1, 3, 5)
ja
(2, −2, 3)
nein
(1, 4, 5)
ja
(1, 1, 4)
(1, 0, 0, 1, 4)
nein
(2, 3, 4)
ja
x1 = 0, x5 = 0
(5, 7, 7)
(0, 5, 7, 7, 0)
nein
(2, 3, 5)
ja
x1 = 0, x4 = 0
(−2, 0, 7)
nein
(2, 4, 5)
ja
x1 = 0, x5 = 0
(−2, 0, 7)
nein
(3, 4, 5)
ja
x1 = 0, x2 = 0
(2, 2, 5)
(0, 0, 2, 2, 5)
nein
nein
Eingabe: s1, . . . , sn so, daß A = {s1, . . . , sn}, b;
Auswahl (k1 , k2 , k3 )
aa = {sk1 , sk2 , sk3 }
ar = {sk4 , sk5 }
RowReduce [aa]
Linear Solve [aa, b] gibt Werte der Basisvariablen.
Für beschränkte zulässige Mengen Z gilt darüber hinaus:
Satz 16.3 Beschreibung zulässiger Mengen
Eine beschränkte zulässige Menge ist die konvexe Hülle ihrer (endlich vielen) Ecken.
Beweis:
Z besitzt mindestens eine und höchstens endlich viele Ecken. Da Z konvex ist, enthält Z jede
57
Konvexkombination dieser Ecken. Wir müssen noch zeigen, daß durch Konvexkombinationen
der Ecken auch jedes Element ~x ∈ Z erfaßt wird:
Sei Rg(A) = m = n : Wegen Z 6= ∅ hat A~x = ~b genau eine Lösung x~0 ≥ 0 ⇒ Z = {x~0 } und x~0
ist Konvexkombination von x~0 , nämlich x~0 = 1 · x~0 .
Sei Rg(A) = m < n :
Sei b̃ = 0̃ : Dann ist die Lösungsmenge LH von A~x = ~0 ein (n − m)−dimensionaler Teilraum
von K n , d.h., mit einem x~0 > ~0 liegen auch alle positiven Vielfache λx~0 ∈ LH , dann wäre aber
Z im Gegensatz zur Annahme unbeschränkt. Es kann in Z also kein positives x~0 > 0 geben
⇒ Z = {~0} und ~0 = 1 · ~0 ist Konvexkombination von ~0.
Sei b̃ 6= 0̃ : Dann ist ~0 ∈
6 Z ⇒ jedes ~x ∈ Z hat mindestens eine positive Komponente. Sei
x~0 = (x1 , . . . , xn )t ∈ Z mit p ≥ 1 positiven Komponenten, P sei die Menge jener Indices i
mit xi > 0, also P := {i|xi > 0} und S := {~
si |i ∈ P } sei die Menge der dazugehörigen
Spaltenvektoren von A.
1. Fall: Sei S l.u. ⇒ nach 6.1 ist x~0 eine Ecke und damit eine Konvexkombination der Ecken
von Z, nämlich x~0 = 1 · x~0 + 0 · x~1 + . . . + 0 · x~m , wobei x~i (i = 0, . . . , m) Ecken von Z sind.
2. Fall: Sei S l.a. ⇒ ∃λi ∈ K, nicht alle 0, mit
X
λi s~i = ~0.
(21)
i∈P
Davon ist mindestens ein λi > 0, sonst multipliziert man (21) mit (−1). IP sei die Indexmenge
der positiven λi , IN sei die Indexmenge der negativen λi , also
IN := {i|λi < 0} ⊂ P, IP := {i|λi > 0} ⊂ P
Es ist IP 6= ∅, aber auch IN 6= ∅:
Für jedes t ∈ K sind nämlich die Punkte

 xi + tλi
~y (t) := (y1 , . . . , yn ) mit yi =
 0
für i ∈ P
für i 6∈ P
Lösungen von A~x = ~b (wegen (21)):
A~y (t) = Ax~0 + t ·
X
i∈P
λi s~i + t · 0 ·
X
j6∈P
λj s~j = ~b + t · ~0 + ~0 = ~b.
(22)
58
Wären nun alle λi ≥ 0 ⇒ alle ~y (t) ≥ 0 ⇒ alle ~y (t) ∈ Z ⇒ Z ist unbeschränkt im Widerspruch
zur Beschränktheit. Also gilt es in (21) mindestens ein negatives λi .
Es gilt nun folgender Hilfssatz.
Jeder Punkt x~0 ∈ Z mit r ≥ 1 positiven Koordinaten ist Konvexkombination zweier verschiedener Punkte von Z mit je höchstens r − 1 positiven Koordinaten.
Da jeder Punkt aus Z höchstens n positive Koordinaten hat, kommt man mit diesem Hilfssatz
nach endlich vielen Schritten auf folgende Situation:
x~0 mit n ≥ r ≥ 1 positiven Koordinaten ist Konvexkombination von Punkten y~i ∈ Z mit
höchstens r − 1 positiven Koordinaten, jedes y~i ∈ Z ist wiederum Konvexkombination von
Punkten z~i mit höchstens r − 2 positiven Koordinaten usw. Letztlich ist x~0 Konvexkombination
von Punkten mit genau einer positiven Koordinate. Solche sind aber stets Ecken, denn:
Hat x~0 genau eine positive Koordinate xp ⇒ S = {s~p }. Da A eine Nullspalte enthält, ist {s~p }
l.u. ⇒ x~0 ist eine Ecke.
x~0 ist also letztlich Konvexkombination von Ecken von Z. Damit ist auch der 2. Fall abgehandelt.
Beweis des Hilfssatzes:
Mit den Indizes aus IP und IN und den Koordinaten xi von x~0 bilden wir die Skalare
t1 := − min
i∈IP
−xp
xq
xi
xi
=:
< 0 und t2 := min
=
>0
i∈IN |λi |
λi
λp
−λq
Damit gilt für alle i ∈ IP und t ≥ t1 : xi + tλi ≥ 0 und für alle i ∈ IN und t ≤ t2 : xi + tλi ≥ 0.
Für t mit t1 ≤ t ≤ t2 gilt damit für alle i ∈ P : xi + tλi ≥ 0, also ~y (t) ∈ Z.
x
Für t = t1 = − λpp gilt für die p−te Koordinate von ~y (t1 ) nach (22):
yp = xp + t1 λp = xp
Für t = t2 =
xq
−λq
−xp
· λp = 0
λp
gilt für die q−te Koordinate von ~y (t2 ):
yq = xq + t2 λq = xq −
xq
λp = 0.
λp
Die Punkte ~y (t1 ) ∈ Z und ~y (t2 ) ∈ Z sind also verschieden und haben höchstens r − 1 positive
Koordinaten, denn yp = 0 bzw. yq = 0.
Jedes t mit t1 ≤ t ≤ t2 kann man nur schreiben als t = l1 t1 + l2 t2 mit l1 , l2 , ≥ 0 und l1 + l2 = 1.
Damit ist
~y (t) = l1 ~y (t1 ) + l2 ~y (t2 )∀t : t1 ≤ t ≤ t2
59
Weil t1 < 0 und t2 > 0 gilt dies insbesondere für t = 0:
~y (0) = (x1 , . . . , xn ) = x~0
Also ist x~0 Konvexkombination von 2 Punkten y~1 (t1 ), y~2 (t2 ) ∈ Z mit höchstens r − 1 positiven
Koordinaten.
Zusammenfassung:
Sei A ∈ K m·n , ~b ∈ K m , ~b ≥ 0 und Rg(A) = m.
Die zulässige Menge Z = {~x|A~x = ~b und ~x ≥ 0}.
(i) kann beschränkt oder nicht beschränkt sein
(ii) ist stets konvex
(iii) hat mindestens eine und höchstens endlich viele Ecken
(iv) ist die konvexe Hülle ihrer Ecken, falls sie beschränkt ist.
60
16.3 Hauptsatz der linearen Optimierung
Um einen anschaulichen Überblick über Lösungsmöglichkeiten von linearen Optimierungsaufgaben zu erhalten, geben wir in den beiden nächsten Beispielen die Restriktionen in 2 Variablen
wieder in Ungleichungsform an.
Beispiel:
Gegeben sei das in Beispiel 1 in Standardform behandelte lineare Ungleichungssystem
2x1 −x2 ≤ 2
x1 −x2 ≤ 2
x1 +x2 ≤ 5
x1
und
≥ 0
c := L1 (~x) := −x1 + x2
c := L2 (~x) := 2x1 + x2
x2 ≥ 0
Gesucht ist jeweils das Minimum von L1 und L2 auf der zulässigen Menge Z und jene Stellen,
in denen dieser Minimalwert angenommen wird.
Lösung: Das Bild von Z ist in Beispiel 1 durch die Menge P gegeben. Um den Minimalwert von
L1 geometrisch zu erhalten, gehen wir nach dem in 6.1 Gesagten folgend vor:
(i) Setze L1 (~x) gleich einer Konstanten c. Dies ergibt die Geradenschar
−x1 + x2 − c = 0.
(ii) Ermittle aus dieser Geradenschar jene Gerade, die bei kleinstmöglichem c mit Z mindestens
einen Punkt gemeinsam hat.
Dies kann dadurch erfolgen, daß man eine Gerade aus der Schar, am zweckmäßigsten die
mit c = 0, so parallel verschiebt, daß der Abschnitt auf der x2 −Achse möglichst klein wird.
Man erhält L1 min = −1 in genau einem Punkt ~xmin = (1/0) (siehe Abb. 1) L2 min = −2,
angenommen in allen Punkten der Verbindungsstrecke von (1/0) zu ( 37 | 38 ) (siehe Abb. 2).
61
Abb. 1
Abb. 2
Beispiel 4:
Gegeben sei das in Beispiel 2 in Standardform behandelte lineare Ungleichungssystem:
x1 −2x2 ≤ 2
−2x1
+x2 ≤ 2
x1
+x2 ≥ 1
x1
≥ 0
Die zulässige Menge Z ist unbeschränkt.
x2 ≥ 0
Bestimme die Minima und die zulässigen Minimalpunkte für die folgenden Zielfunktionen:
a)
L1 (~x) := −x1 + x2
b)
L2 (~x) := −x1 + 4x2
c)
L3 (~x) := −x1 + x2
d)
L4 (~x) := −x1 + 2x2
Aus den folgenden Abb. 3 – Abb. 6 entnimmt man folgendes Lösungsverhalten:
Abb. 3
Abb. 4
62
Abb. 5
Abb. 6
Abbildung 7
63
a) Abb. 3: Es existiert kein zulässiger Minimalpunkt und damit kein Minimum von L1 auf
Z.
b) Abb. 4: Es gibt genau einen Minimalpunkt (2/0), mit L2 min = L2 (2/0) = −2.
c) Abb. 5: Es gibt unendlich viele zulässige Minimalpunkte, nämlich die Punkte auf der
Verbindungsstrecke der Ecken P1 (1|0) und P2 (0|1) und
L2 min = L3 (1, 0) = . . . = L3 (0|1) = 1.
d) Abb. 6: Es gibt unendlich viele zulässige Minimalpunkte, die alle auf dem von der Ecke
P (2|0) ausgehenden Strahl in Richtung ~u = (2, 1) liegen.
L4 min = L2 (2|0) = . . . = −2.
Zusammenfassung der Beobachtungen:
(i) Ein lineares Optimierungsproblem kann unlösbar sein. Dies ist trivialerweise der Fall,
wenn die zulässige Menge leer ist. Aber auch bei nichtleerer zulässiger Menge muß kein
zulässiger Minimalpunkt existieren. Dies kann jedoch nur bei unbeschränkter zulässiger
Menge auftreten (Abb. 3).
(ii) Falls ein Minimum der Zielfunktion existiert, kann es dazu genau einen (Abb. 1, Abb.
4) aber auch unendlich viele zulässige Minimalpunkte geben. Immer wird jedoch das
Minimum auch in einer Ecke angenommen (minimale Ecke). Die Verbindungsstrecke
von zwei zulässigen Minimalpunkten enthält ebenfalls nur zulässige Minimalpunkte.
In den beiden folgenden Sätzen werden diese Beobachtungen allgemein abgesichert.
Satz 16.4 Konvexkombination
Jede Konvexkombination endlich vieler zulässiger Minimalpunkte ist wieder ein zulässiger
Minimalpunkt.
H(x~1 , . . . , x~r ) ⊂ Mmin für x~1 , . . . , x~r ∈ Mmin .
Beweis: x~i zulässiger Minimalpunkt ⇒ Ax~i = ~b, x~i ≥ 0 und
L(x~i ) = m := min~x∈Z L(~x).
Sei ~x Konvexkombination von x~1 , . . . , x~r ⇒
~x =
r
X
i=1
λi x~i mit λi ≥ 0 und
r
X
i=1
λi = 1.
64
P
P
P
P
(i) A~x = A( i λi x~i ) = i λi Ax~i = i (λi~b) = ( ·λi )~b = 1~b = ~b
(ii) ~x =
P
λi x~i ≥ 0
P
P
P
P
(iii) L(~x) = L( i λi x~i ) = i λi L(x~i ) = i λi c = c( i λi ) = c · 1 = c
(i)–(iii) zeigen, daß ~x wieder ein zulässiger Minimalpunkt ist.
Die vorhergehenden Bilder zeigen, daß das Minimum stets auch in einem Eckpunkt der zulässigen
Menge angenommen wird. Dies gilt tatsächlich auch allgemein:
Satz 16.5 Hauptsatz der linearen Optimierung.
Falls das lineare Optimierungsproblem lösbar ist, wird das Minimum stets auch in mindestens
einer Ecke der zulässigen Menge angenommen.
Kurz: Es existiert eine minimale Ecke.
Voraussetzung: A ∈ K min , Rg(A) = m, ~0 ≤ ~b ∈ K m , ~l ∈ K n
Z = {~x|A~x = b ∧ ~x ≥ 0}, L(~x) := ~lt · ~x
m := min~x∈Z L(~x), Mmin := {~x|~x ∈ Z ∧ L(~x) = m}.
Behauptung: Ist Mmin 6= ∅, dann enthält Mmin mindestens eine Ecke von Z.
Beweis: Aus Mmin 6= ∅ ⇒ ∃x~0 ∈ Z : L(x~0 ) = m.
Angenommen, dieses x~0 := (x1 , . . . , xn ) besitze p ≥ 0 positive Koordinaten. P sei die Indexmenge
der positiven Koordinaten: P := {i|x0i > 0}. S sei die Menge der zu diesen positiven Koordinaten
gehörigen Spaltenvektoren von A : S : {x~i |i ∈ P }.
Ist p = 0, dann ist x~0 = ~0 und daher eine Ecke:
~0 kann nicht echte Konvexkombination zweier verschiedener, nichtnegativer Punkte x~1 , x~2 sein:
Aus ~0 = λ1 x~1 + λ2 x~2 mit λ1 , λ2 > 0 und λ1 + λ2 = 1 folgt x~1 = x~2 = ~0.
65
Ist p > 0, dann unterscheiden wir 2 Fälle:
1. Fall: S l.u. ⇒ x~0 ist nach Satz 16.1 eine Ecke.
2. Fall: S la. ⇒ ∃ eine nichttriviale Linearkombination der Spaltenvektoren
s~i (i ∈ P ), die den Nullvektor ergibt:
X
ki s~i = ~0
(23)
i∈P
Mindestens einer der Skalare ki ist positiv, sonst multipliziert man (23) einfach mit (−1). IP sei
die Indexmenge der positiven, IN die Indexmenge der negativen Skalare in (23).
∅=
6 IP := {i|ki > 0} ⊂ P,
IN := {j|kj < 0} ⊂ P
Vom zulässigen Minimalpunkt x~0 = (x01 , . . . , x0n ) mit p positiven Koordinaten ausgehend, konstruieren wir uns einen weiteren zulässigen Minimalpunkt, aber mit höchstens p − 1 positiven
Koordinaten:
Für jedes δ ∈ K konstruieren wir mit x~0 die Punkte x~1 (δ) und x~2 (δ) mit folgenden Koordinaten:


 x0 − δki i ∈ P
 x0 + δki i ∈ P
i
i
x~1 (δ) :=
und x~2 (δ) :=
(24)


0
i 6∈ P
0
i 6∈ P
(i) x˜1 (δ), x˜2 (δ) erfüllen das LGS Ax̃ = b̃ (weil auch Ax~0 = ~b)
P
P
P
P
Ax~1 (δ) = i∈P (x0i − δki ) · s~i = i∈P x0i s~i − δ · i∈P ki s~i = i∈P x0i s~i − δ · ~0 = ~b, wegen
P
P
P
P
0~ =
0~ +
0~ +
~b = Pn x0 s~i = P
0 · s~i = i∈P x0i · s~i . Analog ist
i
i
i
i∈P xi s
i6∈P xi s
i=1 i
i∈P xi s
Ax~2 (δ) = ~b.
(ii) x˜1 (δ0 ) ≥ 0̃ und x˜2 (δ0 ) ≥ 0̃ für bestimmte δ0
Wir bilden alle Quotienten
x0i
ki
> 0(i ∈ IP ) und
x0j
−kj
> 0(j ∈ IN ).
Unter diesen endlich vielen Quotienten gibt es jeweils einen kleinsten, es sei dies der mit
dem Index i = r und j = s, also
x0
x0r
:= min i
i∈IP ki
kr
Dann gilt für alle 0 < δ ≤
x0i −
xr
kr
· ki ≥ x0i −
x0i
ki ki
xr
kr
= 0.
und
x0j
x0s
:= min
.
j∈IN −kj
−ks
: x0i − δki ≥ 0 ∀i ∈ IP , denn man zieht von x0i maximal ab:
66
Ebenso gilt für alle 0 < δ ≤
xs
−ks
: x0i + δki ≥ 0 ∀i ∈ IN , denn man gibt was Negatives
hinzu.
Somit sind alle Koordinaten von x~1 (δ ≤
xr
kr )
≥ 0, denn:
ist i ∈ IP ⊂ P , dann ist nach oben x0i − δki ≥ 0
ist i ∈ IN ⊂ P , dann ist ki < 0, also x0i − δki erst recht positiv (weil ja x0i ≥ 0).
ist i 6∈ P , dann ist nach Definition (24) die Koordinate 0.
0
xs
Analoges gilt für x~2 (δ ≤ −k
). Wählt man δ0 als die kleinere der beiden Zahlen
n 0 0 so
xs
also 0 < δ0 := min xkrr , −k
, dann gilt x~n (δ0 ) ≥ 0 und x~2 (δ0 ) ≥ 0.
s
n
x0r x0s
kr , −ks
o
,
(iii) L(x˜1 (δ0 )) = L(x˜0 ) = Lmin und L(x˜2 (δ0 )) = L(x˜0 ) = Lmin
P
L(~x) = ni=1 li xi ⇒ (wenn man die Summanden mit li = 0 wegläßt):
P
P
− δ0 ki ) = i∈P li x0i − δ0 i∈P li ki =
P
P
P
= ni=1 li x0i − δ0 i∈P li ki = L(x~o ) − δ0 i∈P li ki
P
P
L(x~2 (δ0 )) = i∈P li (x0i + δ0 ki ) = L(x~0 ) + δ0 i∈P li ki .
L(x~1 (δ0 )) =
0
i∈P li (xi
P
Weil nun Lmin = L(x~0 ) ≤ L(~x)∀~x ∈ Z ist, also auch für ~x = x~1 (δ0 ) bzw. ~x = x~2 (δ0 )),
P
P
erhält man: L(x~0 ) ≤ L(x~1 (δ0 )) = L(x~0 ) − δ0 i∈P li ki , also i∈P li ki ≤ 0 und analog
P
P
L(x~0 ) ≤ L(x~2 (δ0 )) = Lx~0 ) + δ0 i∈P li ki , also i∈P li ki ≥ 0.
Also muß
P
i∈P li ki
= 0 sein, also L(x~1 (δ0 )) = L(x00 ) = Lmin und L(x~2 (δ0 )) = Lmin und
damit sind mit (i) und (ii) x~1 (δ0 ) und x~2 (δ0 ) zulässige Minimalpunkte.
Sie haben aber weniger positive Koordinaten als x~0 , denn:
Ist δ0 =
xr
kr
Ist δ0 =
xs
−ks
⇒ die r−te Koordinate von x~1 (δ0 )) = x0r −
⇒ die s−te Koordinate von x~2 (δ0 ) =
xr
kr
x0s xs
+ −ks
· kr = 0.
· ks = 0.
Von einem zulässigen Minimalpunkt x~0 ausgehend erhält man so auf alle Fälle einen weiteren
zulässigen Minimalpunkt x~1 , aber mit weniger positiven Koordinaten. Die Menge S1 der zu den
positiven Koordinaten von x~1 gehörigen Spaltenvektoren von A wird daher eine echte Teilmenge
von S sein: S1 ⊂ S. Ist S1 l.u., dann ist x~1 eine Ecke. Ist S1 l.a., dann wendet man dasselbe
Verfahren wie oben auf x~1 an usw. Spätestens nach p Schritten ist Sp die leere Menge, also l.u.,
und man hat eine Ecke erhalten, w.z.z.w.
Wann gibt es überhaupt zulässige Minimalpunkte? Ist die zulässige Menge Z unbeschränkt, muß
es solche nicht geben (siehe Abb. 3). Bei beschränkten, zulässigen Mengen kann dies jedoch nicht
67
passieren (wir müssen allerdings K = IR voraussetzen).
Satz 16.6 Existenz zulässiger Minimalpunkte
Sei A ∈ IRm·n , Rg(A) = m, ~0 ≤ ~b ∈ IRm , ~l ∈ IRn , L(~x) := ~lt ~x.
Z := {~x ∈ K n |A~x = ~b und ~x ≥ 0} sei nichtleer und beschränkt.
Dann existiert mindestens ein x~0 ∈ Z mit L(x~0 ) = min~x∈Z L(~x).
Eine lineare Optimierungsaufgabe mit nichtleerer und beschränkter zulässiger
Menge ist lösbar.
Beweis: Der Satz ist eine direkte Folgerung aus dem Satz das Maximum und Minimum aus der
mehrdimensionalen Analysis (nach WEIERSTRASS):
Die Teilmenge D ⊆ IRn sei nicht leer, abgeschlossen und beschränkt. Die Abbildung f : IRn → IR
sei stetig. Dann besitzt f auf D ein globales Maximum und ein globales Minimum.
Bei uns ist D = Z. Weil in Z in allen Ungleichungen das Gleichheitszeichen ≤ auftritt, ist Z
abgeschlossen (d.h. IRn \Z ist offen).
Lineare Abbildungen sind stets stetig, also insbesondere auch L(~x) = ~lt ~x.
Um die lineare Optimierungsaufgabe zu lösen, könnte man daher folgend vorgehen:
1. Entscheide, ob das Problem lösbar ist.
Berechne dazu die zulässige Menge Z.
Ist Z 6= ∅ und beschränkt ⇒ Problem lösbar.
Ist Z unbeschränkt, kann das Problem auch unlösbar sein (siehe SIMPLEXVERFAHREN
→ Operations Research).
2. Berechne alle Ecken x~1 , . . . , x~r von Z.
Berechne L(x~k ) für alle k = 1, . . . , r.
Dann ist nach c) Lmin = L(~x) = mink∈Ir L(x~k ).
Dieses Vorgehen ist praktisch unbrauchbar, denn n und m sind oft > 100.
Das von G.B. DANTZIG 1947 entwickelte SIMPLEXVERFAHREN gestattet es, nach endlich
vielen Schritten entweder die Nichtlösbarkeit des Problems erkennen bzw. eine minimale Ecke
finden zu können.
68
V LINEARITÄT
Bei der “Linearität” handelt es sich wohl um den wichtigsten Begriff der Linearen Algebra, die
ja auch nach ihr benannt ist. Wenn man sich in einer Menge nicht genau auskennt, ist es in
der Mathematik üblich, sie in eine Menge “abzubilden”, in der man sich besser auskennt. In
der Linearen Algebra sind die zu Grunde liegenden Mengen stets Vektorräume. Damit bei den
Abbildungen nicht zu viel zerstört wird, ist es naheliegend, daß die Abbildungen die Vektorraumaddition und das Vervielfahcen “respektieren”. Damit ist gemeint: Bilder von Linearkombinationen sollen wieder Linearkombinationen der Bilder sein. Diese Forderung erleichtert das mathematische Leben essentiell, sie wird mit “Linearisierung” bezeichnet. Viele Erscheinungen in der
Physik, Technik, Wirtschaft und Sozialwissenschaft erlauben die Anwendung dieser Linearisierung, viele auch nicht, dann wird oft zwangsweise “linearisiert”. Allerdings muß man dann den
Fehler kennen, den man dabei gemacht hat (siehe differenzierbare Funktionen) oder man muß
die Aussagen kritisch behandeln.
17 Lineare Abbildungen
Sie stellen jenes Werkzeug dar, mit denen “linearisiert” wird. Wir werden sehen, daß sie sich
über weite Strecken wie Matrizen verhalten, man kann sie also als verallgemeinerte Matrizen
auffassen.
17.1 Elementare Eigenschaften
Ist A eine m × n−Matrix, dann kann man ein LGS A~x = ~b als eine Abbildung fA : K n → K m
auffassen, die dem n−Tupel ~x ∈ K n das m−Tupel ~b ∈ K m zuordnet:
Abbildungstheoretische Auffassung eines Linearen Gleichungssystems.
A~x = ~b ⇔ ~x ∈ K n → ~b ∈ K m
fA : K n → K m mit fA ~x := A~x
fA heißt die von der Matrix A induzierte Abbildung von K n in K m oder die Multiplikation mit der Matrix A.
Sprechweise: fA von ~x ist A mal ~x.
Bemerkung: ~x, ~b werden in Spaltenform geschrieben, die Abbildung fA wird oft mit demselben Buchstaben wie die Matrix bezeichnet (also fA = A).
69
Das Gleichungssystem A~x = ~b lösen bedeutet bei dieser Auffassung:
Bestimme alle Urbilder von b̃ unter der induzierten Abbildung fA .
Aufgrund der Rechenregeln für Matrizen ist diese induzierte Abbildung verträglich mit den Vektorraumoperationen:
fA (~x + ~y ) = A(~x + ~y ) = A~x + A~y = fA (~x) + fA (~y )
A(λ~x) = fA (λ~x) = λ(A~x) = λfA (~x)
Solche mit den Vektorraumoperationen verträglichen Abbildungen haben wir schon mehrmals
angetroffen, z.B. beim Skalarprodukt oder bei der Determinante.
Wir verallgemeinern diesen Sachverhalt auf beliebige Vektorräume:
Definition 17.1 Lineare Abbildungen
V und W seien Vektorräume über demselben Körper K. Eine lineare Abbildung
(linear map, Homomorphismus) von V in W ist eine Abbildung f : V → W mit
(L1)
(L2)
f (x + y) = f (x) + f (y)
f (λx) = λf (x)
Ein linearer Operator auf V (Endomorphismus) ist eine lineare Abbildung von V in V . (L1)
und (L2) bedeuten:

 f verträglich mit
Das Bild eines Vielfachen ist Vielfaches des Bildes  Vektorraumoperationen
Das Bild einer Summe ist Summe der Bilder
Weil in (L2) auf beiden Seiten dasselbe λ steht, müssen V und W Vektorräume über demselben
Körper K sein.
(L1) und (L2) können zu einer Bedingung zusammengefaßt werden:
Satz 17.1 Charakterisierung von linearen Abbildungen
(i) V, W seien Vektorräume über K.
f : V → W linear ⇔ f (λx + µy) = λf (x) + µf (y) ∀λ, µ ∈ K
P
P
(ii) Allgemein: f ( ni=1 λi xi ) = ni=1 λi f (xi )
In Worten: Das Bild einer Linearkombination ist Linearkombination der Bilder.
70
Beweis von (i):
1. ⇒: f (λx + µy) = f (λx) + f (µy) = λf (x) + µf (y)
2. ⇐: λ = µ = 1 : f (x + y) = f (1 · x + 1 · y) = 1 · f (x) + 1 · f (y) = f (x) + f (y) + µ = 0 :
f (λx) = f (λx + 0y) = λf (x) + 0f (y) = λf (x)
Beweis von (ii) durch Induktion nach n.
Definition 17.2 Spezielle lineare Abbildungen
Ist U ⊆ V , dann ist das Bild von U unter f die Menge f (U) := {f (u) | u ∈ U}. Speziell:
Das Bild von f (Image von f ) ist das Bild von ganz V : im(f ) := f (V).
Ein Epimorphismus von V auf W ist eine surjektive lineare Abbildung von V auf W .
Ein Monomorphismus von V in W ist eine injektive lineare Abbildung von V in W .
Ein Isomorphismus von V auf W ist eine bijektive lineare Abbildung von V auf W .
Ein Automorphismus auf V ist eine bijektive lineare Abbildung von V auf sich selbst.
Beachte: Das Wort Bild (image) wird
dreifach verwendet:
Bild eines Elementes: f (x)
Bild einer Teilmenge: f (U )
Bild einer Abbildung: im(f )
Satz 17.2 Matrixabbildungen
A sei eine m × n−Matrix über dem Körper K.
(i) Jede m × n−Matrix A definiert eine lineare Abbildung
fA : K n → K m durch fA (x̃) := Ax̃ (~x Spaltenvektor).
Sie heißt die von A induzierte Abbildung oder die Multiplikation mit der Matrix A.
(ii) Jede m × n−Matrix A definiert eine weitere lineare Abbildung
g˜A : K n → K m durch gA (~x) := (~xt · A)t
Es gilt: gA = fAt
Beweis: (i) siehe Einleitung
(~xt Zeilenvektor)
71
(ii) gA (~
x+~
y ) = ((~
x+~
y )t · A)t = (~
xt · A + ~
y t · A)t = (~
xt · A)t + (~
y t · A)t = gA (~
x) + gA (~
y)
gA (λ~
x) = ((λ~
x)t · A)t = λ((~
xt · A))t = λgA (~
x)
(iii) fAt (~
x) = At · ~
x = (~
xt · A)t = gA (~
x) ∀~
x ∈ K m ⇒ gA = fAt .
Man erhält das m−Tupel ~
xt A durch Anwendung der Matrix At auf den Spaltenvektor ~
x.
Bemerkung: Eine Matrix kann also auf zwei Arten eine lineare Abbildung induzieren. Wegen
(iii) verwenden wir stets die Spaltenschreibweise (i): fA (x̃) = Ax̃
Satz 17.3 Elementare Eigenschaften von linearen Abbildungen
f sei eine lineare Abbildung von V in W und U ein Teilraum von V .
(i) Das Bild des Nullvektors ist stets der Nullvektor: f (0) = 0.
(ii) Das Bild eines Teilraumes U C V ist wieder ein Teilraum: f (U) C W.
Man sagt: Lineare Abbildungen sind teilraumtreu.
Insbesondere ist im (f ) stets ein Teilraum von W .
(iii) Die Dimension des linearen Bildes eines Teilraumes wird höchstens kleiner:
U C V ⇒ dim(f (U)) ≤ dim(U).
(iv) Ist V =< b1 , . . . , bn >⇒ f (V ) = < f (b1 ), . . . , f (bn ) >= im(f )
Beweis:
(i) f (0) = f (0 + 0) = f (0) + f (0), d.h., f (0) hat die Neutraleneigenschaft, wegen der Eindeutigkeit ist es das
Neutrale.
(ii) f (U ) 6= ∅ weil 0 = f (0) ∈ f (U )(U enthält stets 0!) Seien x0 , y 0 ∈ f (U ) ⇒ ∃x, y ∈ U : x0 = f (x),
y 0 = f (y) ⇒ λx0 + µy 0 = λf (x) + µf (y) = f (λx + µy) ∈ f (U ), weil λx + µy ∈ U (U ist Teilraum).
(iii) Sei U k−dimensional: U =< u1 , u2 , . . . , uk > und sei x0 ∈ f (U ) ⇒ ∃x ∈ U : f (x) = x0 .
x ist Linearkombination von u1 , . . . , uk ⇒ x0 := f (x) = f (λ1 u2 + . . . + λk uk ) = λ1 f (u1 ) + . . . + λ1 f (uk ) ⇒
{f (u1 ), . . . , f (uk )} ist ein Erzeugendensystem von f (U ), eine Basis von f (U ) hat aber gleich viele oder
weniger Elemente.
(iv)
P
Pn
0
1. Sei x0 ∈< f (b1 ), . . . , f (bn ) >⇒ x0 = n
i=1 λi f (bi ) ⇒ (nach 1.1): x = f (
i=1 λi bi ) ⇒
Pn
0
0
für x = i=1 λi bi ∈ V gilt: x = f (x) ⇒ x ∈ f (V ) = im(f ).
2. Sei x0 ∈ im(f ) ⇒ ∃x =
f (b1 ), . . . , f (bn ) >.
Pn
i=1
P
Pn
λi bi ∈ V : f x0 = f (x) = f ( n
i=1 λi bi ) =
i=1 λi f (bi ) ∈<
72
Bemerkung: Im Anschauungsraum sind die Teilräume Geraden bzw. Ebenen durch 0. (ii)
bedeutet, daß lineare Bilder von Geraden und Ebenen wieder solche sind, eventuell kann aus
einer Geraden ein Punkt bzw. aus einer Ebene eine Gerade oder ein Punkt werden. Auf keinen
Fall entstehen aber durch lineare Abbildungen gekrümmte oder gar “aufgelöste” Punktmengen:
Salopp gesagt: Das lineare Bild einer “geraden Linie” ist wieder eine “gerade Linie” (daher auch
der Name “Lineare Abbildungen”).
Beispiele und Gegenbeispiele von linearen Abbildungen:
1. Geometrische Beispiele im Anschauungsraum:
a) Drehungen um den Ursprung 0 um den Winkel α sind linear
D0;α : V 2 → V 2
Beweis durch Konstruktion
b) Drehungen um den Punkt P 6= 0 sind nicht linear, weil DP (0) 6= 0
c) Parallelverschiebungen (Translationen) T um den Vektor ~t sind nicht linear
T (0) = t 6= 0
außerdem: T (x + y) 6= T (x) + T (y)
2. Arithmetische Beispiele im Kn :
Bemerkung: Statt f ((x1 , x2 , x3 )) schreiben wir einfach f (x1 , x2 , x3 ).
a) f : K 3 → K 2 mit f (x1 , x2 , x3 )t = (2x1 + 3x2 + x3 , x1 + x2 + x3 )t ist linear:
Grund: Die “Formel” für f enthält nur 1. Potenzen in x1 , x2 , x3 .
Sei ~
xt = (x1 , x2 , x3 ), ~
y t = (y1 , y2 , y3 )
73
0
x1 + y1
1
0
1
C
B
C @ 2(x1 + y1 ) + 3(x2 + y2 ) + (x3 + y3 ) A
B
=
f (~
x+~
y ) = f B x2 + y2 C =
A
@
(x1 + y1 ) + (x2 + y2 ) + (x3 + y3 )
x3 + y3
0
1 0
1
(2x1 + 3x2 + x3 ) + (2y1 + 3y2 + y3 )
2x1 + 3x2 + x3
A=@
A+
=@
(x1 + x2 + x3 ) + (y1 + y2 + y3 )
x1 + x2 + x3
0
1
2y1 + 3y2 + y3
A = f (~
+@
x) + f (~
y)
y1 + y2 + y3
1
0
0
1
0
1
λx1
C
B
2λx
+
3λ
x
+
λx
2x
+
3x
+
x
1
2
2
3
1
2
3
C
B
A = λ@
A = λf (~
x)
f (λ~
x) = f B λx2 C = @
A
@
λx1 + λx2 + λx3
x1 + x2 + x3
λx3
b) g : K 2 → K 3 mit g(x, y) = (x + 1, 2y, x + y) ist nicht linear:
Grund: Die Formel für g enthält angehängte Konstanten (x + 1).
Sei ~
xt = (x, y), ~
y t = (x1 , y1 )
0
0
x + x1
1
x + x1 + 1
B
A=B
B 2(y + y1 )
@
y + y1
x + x1 + y + y1
0
1 0
1 0
x+1
x1 + 1
B
C B
C B
B
C B
C B
f (~
x) + f (~
y ) = B 2y
C + B 2y1
C=B
@
A @
A @
x+y
x1 + y1
f (~
x+~
y) = f @
c) h :
K2
→
K2
mit h(x, y) =
(x2 , xy)
1
C
C
C;
A
x + x1 + 2
2y + 2y1
x + y + x1 + y1
1
C
C
x+~
y)
C 6= f (~
A
ist nicht linear.
Grund: Die Formel für f enthält höhere Potenzen und Produkte in x, y.
Sei ~
xt = (x, y), ~
y t = (x1 , y1 )
0
1 0
1 0
1
x + x1
(x + x1 )2
x2 + 2x1 x + x21
A=@
A=@
A
h(~
x+~
y) = h @
y + y1
(x + x1 )(y + y1 )
xy + x1 y + xy1 + x1 y1
1
1 0
0
1 0
x2
x21
x2 + x21
A+@
A=@
A 6= h(~
x+~
y)
h(~
x) + h(~
y) = @
xy + x1 y1
xy
x1 y1
3. Beispiele in Funktionsräumen:
a) V = Vektorraum der differenzierbaren Funktionen
D : V → V Differentialoperator mit D(f ) = f 0
D ist linear wegen der Differentiationsregeln:
D(f + g) = (f + g)0 = f 0 + g 0 = D(f ) + D(g)
D(λf ) = (λf )0 = λf 0 = λD(f )
b) V = Vektorraum der auf [a, b] integrierbaren Funktionen.
Rb
J : V → IR Integraloperator mit J(f ) = a f (x)dx
74
J ist linear wegen der Integrationsregeln:
Rb
Rb
Rb
J(f + g) = a (f + g)dx = a f (x)dx + a g(x)dx = J(f ) + J(g)
Rb
Rb
J(λf ) = a (λf (x)dx = λ a f (x)dx = λJ(f )
4. Die Nullabbildung und die identische Abbildung sind lineare Operatoren.
5.
0(x + y) = 0 = 0 + 0 = 0(x) + 0(x)
id(x + y) = x + y = id(x) + id(y)
0(λx) = 0 = λ · 0 = λ · 0(x)
id(λx) = λx = λid(x)
a) Das reelle Skalarprodukt <, >= V × V → IR ist nach S1 linear in beiden Variablen:
< λ1 a1 + λ2 a2 , b > = λ1 < a1 , b > +λ2 < a2 , b >
< a, λ1 b1 + λ2 b2 , b > = λ1 < a1 , b1 > +λ2 < a, b2 >
Man sagt: Das reelle Skalarprodukt ist eine bilineare Abbildung von V × V in IR.
b) Das komplexe Skalarprodukt ist nur linear in der ersten Variablen, für die zweite
Variable gilt bezüglich des Heraushebens von Skalaren: < a, λb >= λ̄ < a, b >, sonst
gelten aber alle anderen “linearen” Eigenschaften. Man sagt:
Das komplexe Skalarprodukt ist eine semilineare Abbildung von V × V in C.
I
c) Die Determinanteneigenschaft D1 sagt aus, daß det : V × . . . × V → K linear in
jeder Variablen ist: det(. . . λa + µb . . .) = λdet(. . . a . . .) + µdet(. . . b . . .). Man sagt:
Die Determinante ist eine multilineare Abbildung von V × . . . × V in K.
Allgemein definiert man:
Definition 17.3 Multilineare Abbildungen
V und W seien Vektorräume über demselben Körper K, n ∈ IN.
Eine multilineare Abbildung f (x1 , . . . , xi , . . . xn ) von V in W ist eine Abbildung vom n−fachen
kartesischen Produkt V × V × . . . × V → W , die in jeder Variablen linear ist, d.h.:
f (. . . , xi + yi , . . .) = f (. . . , xi , . . .) + f (. . . , yi , . . .)
f (. . . , λxi , . . .) = λf (. . . , xi , . . .)
i = 1, . . . , n
i = 1, . . . , n
Für n = 2 heißt f eine bilineare Abbildung von V in W .
Kurz: f (. . . , λxi + µyi , . . .) = λf (. . . , xi , . . .) + µf (. . . , yi , . . .) i = 1, . . . n
75
Definition 17.4 Semilineare Abbildungen
V und W seien komplexe Vektorräume.
Eine Abbildung f : V × V → W heißt semilinear, wenn gilt:
f (x1 + y1 , x2 ) = f (x1 , x2 ) + f (y1 , x2 )
f (x1 , x2 + y2 ) = f (x1 , x2 ) + f (x2 , y2 )
f (λx1 , y1 ) = λf (x1 , y1 )
f (x1 , λy1 ) = λ̄f x1 , y1 )
17.2 Rang und Defekt
Die Teilraumtreue (17.3 (ii)) von linearen Abbildungen bedeuten im Anschauungsraum, daß
lineare Bilder von Geraden und Ebenen durch 0 nicht gekrümmt oder in mehrere Bestandteile
aufgelöst werden:
Dagegen sind lineare Abbildungen nicht dimensionstreu, allerdings kann die Dimension nach
17.3 (ii) höchstens kleiner werden. Das lineare Bild einer Geraden kann also nicht zu einer
Ebene aufgebläht werden. Lineare Bilder von Teilräumen können also höchstens “schrumpfen”.
Als wichtige Kennzahlen für “brave” lineare Abbildungen erweisen sich in diesem Zusammenhang die Begriffe Rang und der Defekt, die ebenfalls von Matrizen auf lineare Abbildungen
verallgemeinert werden können.
Wir wollen nun die Frage klären, wann dies nicht der Fall ist, wann also lineare Abbildungen
auch dimensionstreu sind.
76
Satz 17.4 Bild einer induzierten Matrixabbildung
A sei eine m × n−Matrix und fA die von ihr induzierte lineare Abbildung, also fA : K n → K m
mit fA (~x) = A~x. Dann ist
im(fA ) = S(A) . . . Spaltenraum von A
im(fAt ) = Z(A) . . . Zeilenraum von A
Damit gilt:
dim(im(fA )) = Spaltenrang von A = Rg(A)
dim(im(fAt )) = Zeilenrang von A = Rg(A)
Beweis: im(fA ) ist die Menge der Bilder fA (~x) = A~x, mit ~x ∈ K n .
Nun ist für ~xt = (x1 , x2 , . . . , xn ) und A = (s~1 . . . s~n ):
A~x = x1 · s~1 + . . . + xn · s~n ⇒ im(fA ) =< s˜1 , . . . , s˜n >= S(A)
(d.h., A~x ist Linearkombination der Spaltenvektoren von A).
Dann ist:
dim(im(fA )) = dim(S(A)) = Rg(A).
Analog ist im(fAt ) die Hülle der Spaltenvektoren von At , also Hülle der Zeilenvektoren von A.
Da lineare Abbildungen Verallgemeinerungen von Matrizen sind, definiert man:
Definition 17.5 Rang einer linearen Abbildung
Der Rang (rank) einer linearen Abbildung f : V → W ist die Dimension ihres Bildes.
rg(f ) := dim(im(f ))
Es gilt: 0 ≤ rg(f ) ≤ dim(W)
Beweis: rg(f ) = dim(im(f )) = dim(f (V )) ≤ dim(W ).
Welchen größten und kleinsten Wert kann rg(f ) überhaupt annehmen?
(a)
(b)
(c)
77
Ist f surjektiv, dann wird jedes y ∈ W erfaßt, also:
im(f ) = W und rg(f )) = dim(im(f )) = dim(W ) (Abb. b).
dim(W ) ist also der größtmögliche Wert für rg(f ).
Ist rg(f ) < W , dann ist im(f ) ein echter Teilraum von W (Abb. a), im Extremfall kann im(f ) =
{0} sein, wenn also alle x ∈ V auf 0 abgebildet werden, f also die Nullabbildung 0 ist (Abb. c).
Also: Je kleiner der Rang einer linearen Abbildung f : V → W , umso mehr wird W
degeneriert, umso schlechtere Eigenschaften hat f .
Der Rang einer Abbildung ist ein Maß für die Surjektivität. Je kleiner rg(f ) ist, desto
mehr weicht f von der Surjektivität ab.
Satz 17.5 Charakterisierung der Surjektivität
f sei eine lineare Abbildung von V in W .
f : V → W surjektiv ⇔ rg(f ) = dim(W).
Beweis:
1. ⇒: f (V ) = W ⇒ im(f ) = W ⇒ rg(f ) = dimW .
2. ⇐: Sei rg(f ) = dim(W ) ⇒ im(f ) = W , weil im(f ) E W ⇒ f surjektiv.
Was kann als Maß für die Injektivität dienen?
Sei f : V → W injektiv, d.h.: Aus f (x) = f (y) folgt x = y : Nun ist f (x) = f (y) ⇔ f (x)−f (y) =
0 ⇔ f (x−y) = 0 und x = y ⇔ x−y = 0. Die Injektivitätsbedingung lautet also: Aus f (x−y) = 0
folgt x − y = 0, daher: f injektiv ⇔ 0 wird auf 0 abgebildet. Es dürfte also nur 0 auf 0
abgebildet werden!
Definition 17.6 Der Kern (kernel) oder der Nullraum (nullspace) einer linearen Abbildung
f : V → W ist die Menge aller jener Vektoren aus V , die auf 0 abgebildet werden.
ker(f ) := {v ∈ V | f (v) = 0}.
78
Satz 17.6 Charakterisierung der Injektivität
(i) Der Kern von f ist stets ein Teilraum von V : ker(f ) C V .
(ii) f injektiv ⇔ ker(f ) = {0}.
Je größer ker(f ) ist, desto mehr weicht die lineare Abbildung f : V → W von der
Injektivität ab.
Beweis:
(i) Weil f (0) = 0 ⇒ 0 ∈ ker(f ) ⇒ ker(f ) 6= ∅.
Sei x, y ∈ ker(f ) ⇒ f (λx + µy) = λf (x) + µf (y) = λ · 0 + µ · 0 = 0 ⇒ λx + µy ∈ ker(f )
(ii) ⇐: Sei ker(f ) = {0} und f (x) = f (y) ⇒ f (x − y) = f (x) − f (y) = 0 ⇒ x − y ∈ ker(f ) = {0} ⇒ x − y =
0 ⇒ x = y ⇒ f injektiv
⇐: Sei f injektiv und x ∈ ker(f ) ⇒ f (x) = 0 = f (0) ⇒ x = 0 ⇒ ker(f ) = {0}
Definition 17.7 Defekt einer linearen Abbildung
(i) Der Defekt (nullity) einer linearen Abbildung ist die Dimension ihres Kernes
def (f ) := dim(ker(f )).
(ii) Eine lineare Abbildung heißt singulär, wenn sie einen positiven Defekt hat.
f singulär ⇔ def (f ) > 0.
(iii) Eine lineare Abbildung heißt regulär (nichtsingulär), wenn ihr Defekt 0 ist.
Auch so: f singulär ⇔ ∃v 6= 0 : f (v) = 0
f nichtsingulär ⇔ Nur 0 wird auf 0 abgebildet. ⇔ (aus f (v) = 0 ⇒ v = 0).
Spezialisierung auf Matrizen: Matrix A singulär ⇔ induzierte Abbildung fA singulär ⇔
Matrix A ist singulär ⇔ ∃~x 6= ~0 : A~x = ~0
Matrix A ist nichtsingulär (regulär) ⇔
aus A~x = ~0 ⇒ ~x = ~0.
Satz 17.7 Charakterisierung von regulären Abbildungen
Eine lineare Abbildung f : V → W ist genau dann regulär, wenn das Bild einer l.u. Menge
wieder l.u. ist.
79
Beweis:
1. ⇒: Sei f regulär und {u1 , . . . , uk } l.u. Dann ist auch {f (u1 ), . . . , f (uk )} l.u., sonst gäbe es λ1 , . . . , λk , nicht
alle 0, mit:
λ1 f (u1 ) + . . . + λk f (uk )
=
0⇒
f (λ1 u1 + . . . + λk uk )
=
0⇒
λ1 u1 + . . . + λk uk ∈ ker/f )
=
{0} ⇒
λ1 u1 + . . . + λk uk
=
0 ⇒ {u1 , . . . , uk } l.a. (Widerspruch).
2. ⇐: Sei das Bild jeder l.u. Menge wieder l.u. ⇒ f regulär: Wäre f singulär ⇒ ∃v 6= 0 : f (v) = 0. Nun ist
{v} wegen v 6= 0 l.u., aber {f (v)} = {0} ist l.a. (Widerspruch).
Damit kann man zeigen, daß genau die regulären Abbildungen dimensionstreu sind, also z.B.
Ebenen bzw. Geraden nicht degenerieren.
Satz 17.8 Dimensionstreue regulärer Abbildungen
U sei ein Teilraum von V und f : V ∈ W linear. Dann gilt:
dimf (U ) = dimU ⇔ f regulär. →
Beweis: Sei {b1 , . . . , bk } eine Basis von U ⇒ f (U ) =< f (b1 ), . . . , f (bk ) >.
Ist dimf (U ) = dimU ⇔. Mit {un , . . . , uk } ist f (b1 ), . . . , f (bn )} ist l.u. ⇔ f regulär.
Die Eingangs gestellte Frage nach der Dimensionstreue ist damit beantwortet: Genau die regulären linearen Abbildungen sind dimensionstreu.
Obwohl Kern und Bild einer Abbildung f Teilräume von verschiedenen Vektorräumen (nämlich
V bzw. W ) sind, besteht eine enge Beziehung zwischen den beiden Kennzahlen rg(f ) und def (f )
einer linearen Abbildung f : Ihre Summe ist die Dimension des Urbildraumes, eine Zahl also, die
nicht von f abhängt! Der folgende Satz ist der Schlüsselsatz für alle Anwendungen der Theorie
der linearen Abbildungen und ein Analogen zum Dimensionssatz für Matrizen.
Satz 17.9 Abbildungssatz (Dimensionssatz) für lineare Abbildungen
Sei f : V → W eine lineare Abbildung und V endlichdimensional. Dann gilt:
rg(f ) + def (f ) = dim(V) = dim (Urbildraum (f ))
Beweis: Sei dim(V ) = n. Wir zeigen: dim[im(f )] = n − dim(ker(f )). Als Teilraum von V hat ker(f ) auch ein
endliche Dimension, nämlich dim(ker(f )) =: k ≤ n.
80
Sei {b1 , . . . , bk } eine Basis von ker(f ). Nach dem Basisergänzungssatz kann man sie durch bk+1 , . . . , bn zu einer
Basis {b1 , . . . , bn } von V ergänzen.
Es gilt nun: {f (bk+1 ), . . . , f (bn )} ist eine Basis von im(f ), das sind aber gerade n − k Vektoren.
Beweis der Basiseigenschaft:
(i) im(f ) =< f (bk+1 ), . . . , f (bn ) >
Sei y ∈ im(f ) ⇒ ∃x ∈ V : f (x) = y.
Weil x ∈ V ∃λ1 , . . . λn ∈ K mitx = λ1 b1 + . . . + λn bn .
Dann ist
y
=
f (x) = f (λ1 b1 + . . . + λn bn ) =
=
λ1 f (b1 ) + . . . + λk f (bk ) +λk+1 f (bk+1 ) + . . . + λn f (bn )
| {z }
| {z }
=
λ1 · 0 + . . . . . . + λk · 0 + λk+1 f (bk+1 ) + . . . + λn f (bn ) ⇒
im(f ) ⊆< f (bk+1 ), . . . , f (bn ) >⊆ im(f ), also gilt (i).
(ii) {f (bk+1 ), . . . , f (bn )} ist l.u. (mittels Unabhängigkeitskriterium):
Sei λk+1 f (bk+1 ) + . . . + λn f (bn ) = 0 ⇒ f (λk+1 bk+1 + . . . + λn bn ) = 0 ⇒
λk+1 bk+1 + . . . + λn bn ∈ ker(f ) ⇒ ∃µ1 , . . . , µk ∈ K :
λk+1 bk+1 + . . . , +λn bn = µ1 b1 + . . . + µk bk ⇒
µ1 b1 + . . . + µk bk + (−λk+1 )bk+1 + . . . + (−λn )bn = 0.
Weil {b1 , . . . , bn } als Basis l.u. ist, sind alle Koeffizienten, insbesondere
λk+1 = . . . = λn = 0, also gilt (ii).
dim(ker(f )) + dim(im(f )) = dim(V )
Je größer der Kern, desto kleiner ist das Bild: f hat “schlechte” Eigenschaften
Je kleiner der Kern, desto größer das Bild: f hat immer “bessere” Eigenschaften.
Im Grenzfall ist ker(f ) = {0} und im(f ) = W ⇔ f ist bijektiv und linear, also ist f ein Isomorphismus von V auf W . k−dimensionale Teilräume bleiben k−dimensional und l.u. Vektoren
bleiben l.u. Der zu V isomorphe Vektorraum W hat dieselben “linearen” Eigenschaften wie V
selbst. W ist im algebraischen Sinn nur eine “Kopie” von V , man schreibt: V ∼ W . Musikalischer
Vergleich: Es ist so, als ob man ein Musikstück statt in C-Dur in G-Dur spielt.
81
Zusammenfassende Bemerkung:
Die Begriffe Bild, Kern, Rang und Defekt lassen sich also auf Matrizen übertragen, wenn man
diese als lineare Abbildung A : K n → K m mit A(~x) = A~x auffaßt. Die so entstehenden Begriffe
fallen mit denen aus Kapitel 8.3 zusammen! Sei A eine m × n−Matrix über dem Körper K.
im(A) = {~y ∈ K m |~y = A · ~x, ~x ∈ K m } = Spaltenraum von A = S(A)
ker(A) = {~x ∈ K n |A~x = ~0} = Lösungsmenge des homogenen
Gleichungssysteme A · ~x = ~0 = Nullraum von A = N(A)
rg(A) = dim(im(A)) = dimS(A) = Rg(A)
def (A) = dim(ker(A)) = dim(N (A))
Es gilt wieder: def (A)) + rg(A) = n
Auch hier gilt: Je kleiner der Defekt, desto bessere Eigenschaften hat die Matrix A, dies auch
in Hinblick auf die Invertierbarkeit:
Wir wissen: Die m×n−Matrix hat eine Linksinverse ⇔ A hat Rang n; nach dem Abbildungssatz
ist dann def (A) = 0. Ein positiver Defekt hat die Nichtinvertierbarkeit zur Folge, also auch eine
“schlechte” Eigenschaft.
Die Linearität einer Abbildung ist eine sehr starke Einschränkung. Tatsächlich ist eine lineare Abbildung bereits durch die Bilder der Basiselemente eindeutig festgelegt, d.h., kennt man
die Bilder der Basiselemente, so sind dadurch die Bilder der anderen Elemente bestimmt, die
Vorschrift läßt sich von den Basiselementen auf alle anderen Vektorraumelemente fortsetzen:
V =< b1 , b2 , b3 >, w1 , w2 , w2 ∈ W
Satz 17.10 Fortsetzungssatz für lineare Abbildungen
B = {b1 , b2 , . . . , bn } sei eine Basis von V und w1 , w2 , . . . , wn ∈ W .
82
Es gibt genau eine lineare Abbildung f von V in W , die auf B vorgeschriebene Werte
w1 = f (b1 ), w2 = f (b2 ), . . . , wn = f (bn ) annimmt, nämlich
f (x) := λ1 w1 + . . . + λn wn =
X
λi wi =
X
λi f (bi ) ∀x ∈ V
wobei λ1 , λ2 , . . . , λn die Koordinaten von x bezüglich der Basis B sind, also x =
x=
X
λi bi ⇒ f (x) =
X
P
λ i bi .
λi f (bi )
Bemerkung: Die vorgeschriebenen Werte können beliebige Vektoren sein, auch l.a. oder sogar
alle gleich.
Beweis:
(i) Dieses f ist linear:
Seien x, y ∈ V ⇒ x =
Pn
i=1
λi bi , y =
x+y
=
λx
=
f (x + y)
=
=
f (λx)
=
Pn
i=1
µi b i ⇒
P
(λi + µi )bi ⇒ λi µi sind Koordinaten von x + y und
P
(λλi )bi ⇒ λλi sind die Koordinaten von λx ⇒
P
P
(λi + µi )f (bi ) = (λi f (bi ) + µi f (bi )) =
P
P
λi f (bi ) + µi f (bi ) = f (x) + f (y)
P
P
P
(λλi )f (bi ) =
λ(λi f (bi )) = λ λi f (bi ) = λf (x)
(ii) Ist g eine andere lineare Abbildung mit g(bi ) = f (bi ) für i = 1, 2, . . . , n ⇒ g = f :
P
Sei x =
λi bi ⇒
P
P
P
P
f (x) = f ( λi bi ) =
λi f (bi ) =
λi g(bi ) =
g(λi bi ) =
P
= g( λi bi ) = g(x) ∀x ∈ V
Beispiel:
Es sei f : K 4 → K 3 jene lineare Abbildung, für die f (1, 1, 1, 1)(2, 2, 2), f (1, 1, 1, 0)(1, 3, 5),
f (1, 0, 1, 0)(2, 3, 4), f (1, 0, 0, 0)(1, 1, 1) gilt
(i) Gib f an
(ii) Berechne Basis und Dimension von im(f ), ker(f ).
1.
1
1
1
1
1
1
1
0
1
0
1
0
1
0
0
0
1
1
1
1
0
0
0 −1
0 −1
0 −1
0 −1 −1 −1
1
1 1
1
0
1 1
1
0 −1 0 −1
0
0 0 −1
1
1 1
1
0
1 1
1
0
0 1
0
0
0 0
1
4 l.u. Vektoren bilden in K 4 eine Basis. Damit ist f eindeutig bestimmt.
83
2. Stelle (x1 , x2 , x3 , x4 ) als Linearkombination der Basis dar.
1
1
1
1 | x1
1
1
0
0 | x2
1
1
1
0 | x3


1
0
0
0 | x4
x1
1
1
1
1
x1
 x2 

0
0 −1 −1
x2 − x1
f
 x3  = x4 · f (b1 ) + (x2 − x4 )f (b2 )+
0
0
0 −1
x3 − x1
x4
0 −1 −1 −1
x4 − x1
+(x3 −x2 )f
(b3 ) + (x1 − x
3 )f (b
4) =
1
1
1
1
x1
2
1
0
1
1
1
x1 − x4
= x4 ·  2  + (x2 − x4 )  3  +
0
0
1
1
x1 − x2
2 
5 
0
0
0
1
x1 − x3
2
1
1
1
1
0
x3
+(x3 − x2 )  3  + (x1 − x3 )  1 
0
1
1
0
x3 − x4
4
1


0
0
1
0
x3 − x2
2x4 + x2 − x4 + 2x3 − 2x2 + x1 − x3
0
0
0
1
x1 − x3
=  2x4 + 3x2 − 3x4 + 3x3 − 3x2 + x1 − x3  =
1
1
0
0
x2
3 − 4x2 + x3 − x3
 2x4 + 5x2 − 5x4 + 4x
0
1
0
0
x2 − x4
x1 − x2 + x3 + x4
0
0
1
0
x3 − x2

x1 + 2x3 − x4
=
0
0
0
1
x1 − x3
x1 + x2 + 3x3 − 3x4
1
0
0
0
x4
0
1
0
0
x2 − x4
0
0
1
0
x3 − x2
0
0
0
1
x1 − x3
f (x1 , x2 , x3 , x4 ) = (x1 − x2 + x3 + x4 , x1 + 2x3 − x4 , x1 + x2 + 3x3 − 3x4 )
       
2
1
2
1
im(f ) =< f (b1 ), f (b2 ), f (b3 ), f (b4 ) >=<  2  ,  3  ,  3  ,  1  >=
2
5
4
1
   
3.
1
2
= <  2  ,  3  > ⇒ rg(f ) = 2 ⇒ def (f ) = 4 − 2 = 2
5
2
4. ker(f ) = {~x ∈ K 4 |f (~x) = 0}
x1 − x2 + x3 + x4 = 0
x1 + 2x3 − x4 = 0
x1 + x2 + 3x3 − 3x4 = 0
ker(f ) =< (1, 2, 0, 1), (−2, −1, 1, 0) >
84
17.3 Anwendung: Lineare Operatorgleichungen
Nachdem wir Matrizen auf lineare Abbildungen verallgemeinert haben, wollen wir jetzt lineare
Gleichungssysteme verallgemeinern.
Bisher:
A · ~x = ~b
~x ∈ K n ~b ∈ K m
↓
Nun:
f (v) = w
↓
↓
v∈V
w∈W
Gegeben seien zwei Vektorräume V und W über demselben Körper K und eine lineare Abbildung
f von V in W , insbesondere kann W = V sein, f heißt dann gerne auch linearer Operator
(= Endomorphismus). Weiters sei ein beliebiger Vektor w ∈ W gegeben. Gesucht sind jene
Vektoren v ∈ V mit:
f (v) = w:
lineare Operatorgleichung
f (v) = 0:
dazugehörige homogene lineare
Operatorgleichung
L = {v ∈ V |f (v) = w} = f −1 (w):
Lösungsmenge der Operatorgleichung
L ist die Urbildmenge von w unter f
v0 ∈ V mit f (v0 ) = w:
LH = ker(f ) = f −1 (0):
spezielle Lösung der Operatorgleichung
Lösungsmenge der dazugehörigen homogenen
Operatorgleichung
Ist T ⊆ V und v0 ∈ V , dann ist v0 + T := {v ∈ V |v = v0 + t mit t ∈ T }.
Satz 17.11 Lösungsmenge einer linearen Operatorgleichung
(i) Die Lösungsmenge L der linearen Operatorgleichung f (v) = w ist gegeben durch
L = v0 + ker(f ) = v0 + LH
wobei v0 eine spezielle Lösung ist: f (v0 ) = w.
(ii) Diese Darstellung der Lösungsmenge ist unabhängig von der Wahl der speziellen Lösung
v0 .
85
Kurz: Die Lösungsmenge einer linearen Operatorgleichung setzt sich zusammen aus
einer speziellen Lösung und der Lösungsgesamtheit der dazugehörigen homogenen
Gleichung.
Beweis:
(i) 1. Sei v eine beliebige Lösung, also f (v) = w und v0 eine spezielle Lösung, also auch f (v0 ) = w ⇒ f (v − v0 ) =
f (v) − f (v0 ) = w − w = 0 ⇒ v − v0 ∈ ker(f ) ⇒ v = v0 + ker(f ) ⇒ L ⊆ v0 + ker(f ).
2. Sei v ∈ v0 + ker(f ) ⇒ v = v0 + k mit k ∈ ker(f ) ⇒ f (v) = f (v0 + k) = f (v0 ) + f (k) = w + 0 = w ⇒ v ∈ L ⇒
v0 + ker(f ) ⊆ L.
(ii) Seien v0 und v1 zwei spezielle Lösungen, also f (v0 ) = f (v1 ) = w. Dann gilt: v0 + ker(f ) = v1 + ker(f ).
Sei v ∈ v0 + ker(f ) ⇒ v = v0 + k0 mit k0 ∈ ker(f ) ⇒ f (v − v1 ) = f (v) − f (v1 ) = f (v0 + k0 ) − f (v1 ) =
f (v0 ) + f (k0 ) − f (v1 ) = f (v0 ) + 0 − f (v1 ) = f (v0 ) − f (v1 ) = w − w = 0 ⇒ v − v1 ∈ ker(f ) ⇒ v ∈ v1 + ker(f ).
Sei v ∈ v1 + ker(f ) ⇒ v = v1 + k1 mit k1 ∈ ker(f ).Dannistf (v − v0 ) = f (v) − f (v0 ) = f (v1 ) + f (k1 ) − f (v0 ) =
f (v1 ) − f (v0 ) = 0 ⇒ v − v0 ∈ ker(f ) ⇒ v ∈ v0 + ker(f ).
Beispiele von linearen Operatorgleichungen:
1. Differentialgleichungen: Gesucht ist eine Funktion, deren Ableitungen eine Gleichung
erfüllen (man sagt: Die gesuchte Funktion kommt unter dem Differentiationszeichen vor)
y(x) ∈ IRIR (reelle Funktion)
(z.B.: y(x) = xn , ex , sin x, . . .)
Gewöhnliche Differentialgleichungen sind z.B.:
y 0 = sin x · cos y
3y 00 + 4y 0 + y = x3
x2 · y 000 + (1 − x)y 00 + x · y 0 + 5x · y = tan x
Wie betrachten lineare Differentialgleichungen:
an (x)y (n) + . . . + a2 (x)y 00 + a1 (x) · y 0 + a0 (x) · y = s(x)
|
{z
}
f (y)
f (y) := an (x)y (n) + . . . + a1 (x) · y 0 + a0 (x) · y
f : C ∞ → C ∞ Vektorraum der beliebig oft differenzierbaren Funktion
f ist linearer Operator (oft mit L[y] bezeichnet):
f (y + z) = an (x)(y + z)(n) + . . . + a1 (x)(y + z)0 + a0 (x)(y + z) = an (x)y (n) + . . . + a1 (x)y 0 +
a0 (x)y + an (x)z (n) + . . . + a1 (x)z 0 + a0 (x)z = f (y) + f (z)∀y, z ∈ C ∞ .
f (λy) = an (x)(λy)(n) +. . .+a1 (x)λ·y 0 +a0 (x)·λ·y = λ·(an )(x)y (n) +·+a1 (x)y 0 +a0 (x)) =
λ · f (x).
86
f ist linear wegen der Differentiationsregeln.
Siehe: Differentialgleichungen.
2. Integralgleichungen: Gesucht ist eine Funktion y(t) unter dem Integralzeichen, z.B:
R
sin(x · t)y(x)dt = g(x) t Integrationsvariable
Für jede Wahl von x erhält man eine bestimmte Zahl =:g(x).
V := C[a, b] Vektorraum auf [a, b] stetigen Funktion
Rb
f (y) := a sin(x · t)y(x)dt
f : C[a, b] → C[a, b]
Wegen der Integrationsregeln ist f ein linearer Operator
Siehe: Funktionalanalysis
3. Differenzengleichungen: Gesucht ist das allgemeine Glied xn einer Folge (xn ), z.B.:
x0 = 1, x1 = 0
xn “rekursiv” definiert
xn+2 − 3xn+1 + xn = yn
Man spricht von einer Differenzengleichung 2. Ordnung.
V = IRIN Vektorraum der unendlichen Zahlenfolgen (xn ) über IR,CI . . .
(xn ) = (x0 , x1 , x2 , x3 , . . .)
f (xn ) = xn+2 − 3xn+1 + xn
f : IRIN → IRIN
f ist wegen der Körpergesetze ein linearer Operator.
Differenzengleichungen werden in einem eigenen Kapitel behandelt.
4. Lineare Gleichungssysteme: Gesucht ist ein n−Tupel ~x ∈ K n :
A · ~x = ~b A ∈ K m·n
f (~x) = A · ~x f : K n → K m
f ist wegen der Matrizenregeln ein linearer Operator. Ein lineares Gleichungssystem ist
also eine spezielle lineare Operatorgleichung (siehe Kapitel 15).
Die Ergebnisse des Kapitels 15 kann man wie folgt verallgemeinern:
87
Satz 17.12 Hauptsatz über lineare Operatorgleichungen
V und W seien zwei Vektorräume über demselben Körper K (auch W = V zugelassen) und
f := V → W sei ein linearer Operator, w ∈ W .
(i) f (v) = w ist genau dann lösbar, wenn w ∈ im(f ).
(ii) f (v) = w ist genau dann universell lösbar, wenn f surjektiv ist. Ist W endlich dimensional, dann ist dies genau dann der Fall, wenn rg(f ) = dim(W ).
(iii) Im Falle der Lösbarkeit ist f (v) = w genau dann eindeutig lösbar, wenn f nicht singulär
(regulär) ist.
Ist f singulär, dann ist f (v) = w mehrdeutig lösbar und die Lösungsmenge L ist gegeben
durch
L = v0 + ker(f )
wobei v0 eine spezielle Lösung der Gleichung ist.
Beweis:
(i) = Definition von im(f ).
(ii) L = W ⇔ im(f ) = W ⇔ f surjektiv (rg(f ) = dim(W )).
(iii) Nach 17.11 ist L = v0 + ker(f ).
f nichtsingulär ⇔ def (f ) = 0 ⇔ ker(f ) = {0} ⇔ L = {v0 }
Bemerkung: Eine lineare Operatorgleichung hat also eine leere, eine einelementige oder eine unendliche Lösungsmenge (wenn V unendlich), nicht jedoch eine Lösungsmenge aus 2,3,...
Elementen.
Damit kann man auch die Frage nach der Invertierbarkeit (Umkehrbarkeit) einer linearen
Abbildung f : V → W beantworten.
In Kapitel 2 hatten wir ganz allgemein gesehen:
f invertierbar ⇔ f umkehrbar ⇔ f bijektiv.
Im Falle der Invertierbarkeit hat daher jedes w ∈ W genau ein Urbild.
Für lineare Abbildungen f : V → W gilt darüber hinaus:
f −1 (w) = v0 + ker(f ).
f singulär ⇔ def (f ) > 0 ⇔ ker(f ) nicht trivial ⇔ w hat mehrere Urbilder ⇔
88
f nicht invertierbar.
Die Invertierbarkeit von f kann damit in der “Sprache der lineraen Abbildungen” folgend ausgedrückt werden:
Satz 17.13 Hauptsatz über die Umkehrbarkeit von linearen Abbildungen
f sei eine lineare Abbildung von V in W .
(i) f ist genau dann invertierbar, wenn im(f ) = W und f nichtsingulär (regulär) ist. D.h.,
genau die Isomorphismen sind die invertierbaren linearen Abbildungen.
(ii) Ist V endlichdimensional, dann ist f genau dann invertierbar, wenn dim(W ) = dim(V )
und f nichtsingulär (regulär) ist.
(iii) Ist dim(V ) = dim(W ) (Spezialfall V = W ), dann ist f genau dann invertierbar, wenn f
nichtsingulär ist.
D.h.: In diesem Fall (aber sonst nicht) folgt aus der Injektivität bereits die Surjektivität
und umgekehrt (Analogon zu endlichen Mengen, siehe 1.)
Beachte: Die Regularität ist im allgemeinen nicht hinreichend für die Invertierbarkeit.
Beweis:
(i) 1. Sei f invertierbar ⇒ ∀w ∈ W ∃ genau ein v ∈ V mit f (v) = w ⇒ im(f ) = W und die lineare
Operatorgleichung f (v) = w hat genau eine Lösung ⇒ def (f ) = 0 ⇒ f nicht singulär.
2. Sei im(f ) = W und def (f ) = 0 ⇒ ∀w ∈ W ∃v ∈ V mit f (v) = W , wegen def (f ) = 0 ist v eindeutig
bestimmt ⇒ f invertierbar.
(Auch so: def (f ) = 0 ⇔ f injektiv, zusammen mit im(f ) = W ist f bijektiv ⇒ invertierbar).
(ii) Sei dim(V ) = n < ∞.
1. f invertierbar ⇒ def (f ) = 0, und im(f ) = W ⇒ rg(f ) = dim(W ) ⇒ wegen der Abbildungsgleichung
17.9 (anwendbar wegen dim(V ) = n) : rg(f ) + def (f ) = dim(V ) ⇔ dim(W ) + 0 = dim(V ).
2. Sei dim(W ) = dim(V ) und def (f ) = 0 ⇒ rg(f ) = dim(V ) − def (f ) = dim(W ) − 0 = dim(W ) ⇒
(im(f )) = dim(W ) und im(f ) C W ⇒ im(f ) = W ⇒ f invertierbar.
(iii) Sei dim(V ) = dim(W ) = n.
f injektiv ⇔ def (f ) = 0 ⇔ rg(f ) = n − def (f ) = n − 0 = n ⇔ rg(f ) = dim(W ) ⇔ im(f ) = w ⇔ f
surjektiv.
Bemerkung: Die endliche Dimension von V in (ii) ist wesentlich:
V = P . Vektorraum der Polynome, dim(P ) = ∞.
f : P → P mit f (p(x)) = X · p(X).
89
f ist linear.
f ist nicht singulär: Sei f (p()) = 0 ⇒ X · p(x) = 0∀X ⇒ p(x) = 0.
Trotzdem ist f nicht invertierbar: Die Konstanten in P werden nicht erfaßt.
Die Nichtsingularität (Regularität) kann zusammenfassend durch folgende äquivalente
Eigenschaften charakterisiert werden:
Satz 17.14 Charakterisierung der Nichtsingularität
f sei eine lineare Abbildung von V in W .
(i) f nichtsingulär ⇔ f injektiv ⇔ f Monomorphisms
(ii) f nichtsingulär ⇔ Bild einer l.u. Menge ist wieder l.u.
Bei zusätzlicher Voraussetzung dim(V) = dim(W) = n (z.B. W = V ) gilt (iii) bis (vii):
(iii) f nichtsingulär ⇔ f surjektiv ⇔ rg(f ) = n.
(iv) f nichtsingulär ⇔ f invertierbar.
(v) f nichtsingulär ⇔ f Isomorphismus.
(vi) f nichtsingulär ⇔ Bild einer Basis ist wieder eine Basis.
(vii) Eine quadratische (n × n)−Matrix A nichtsingulär (regulär) ⇔ rg(A) = n.
Nochmals Beweise:
(i) 1. f nichtsingulär und f (x) = f (y) ⇒ f (x − y) = 0 ⇒ x − y = 0 ⇒ x = y ⇒ f injektiv.
2. f injektiv und f (v) = 0 ⇒ f (v) = 0 = f (0) ⇒ v = 0 ⇒ f nichtsingulär. Der zweite Teil ist Definition.
(ii) 1. f nichtsingulär und M ⊆ V l.u.. d.h. {v1 , . . . , vn } l.u. ∀n ∈ IN. Sei λ1 f (v1 ) + . . . + λn f (vn ) = 0 ⇒
f (λ1 v1 + . . . + λn vn ) = 0 ⇒ λ1 v1 + . . . + λn vn = 0 (Nur 0 auf 0) ⇒ λi 0 = ∀i ⇒ {f (v1 ), . . . , f (vn )} l.u.
∀n ⇒ f (M ) l.u.
2. Sei das Bildjeder l.u. Menge wieder l.u. und sei v 6= 0 beliebig aus v ⇒ {v} l.u. ⇒ {f (v)} = l.u. ⇒
f (v) 6= 0 ⇒ f nichtsingulär.
(iii) 1. f nichtsingulär ⇔ def (f ) = 0 ⇔ rg(f ) = n − def (f ) = n ⇔ rg(f ) = dim(W ) ⇔ im(f ) = W ⇔ f
surjektiv.
2. Sei f surjektiv ⇔ rg(f ) = n ⇔ def (f ) = n − rg(f ) = 0 ⇔ f injektiv ⇔ f nichtsingulär.
(iv) f nichtsingulär ⇔ f injektiv und f surjektiv ⇔ f bijektiv ⇔ f invertierbar.
(v) f nichtsingulär ⇔ f invertierbar ⇔ f bijektiv ⇔ f Isomorphismus.
90
(vi) 1. f nichtsingulär und {b1 , . . . , bn } Basis von V ⇒ {f (b1 ), . . . , f (bn )} l.u. und
< f (b1 ), . . . , f (bn ) >= im(f ) = W , weil f auch surjektiv ist. Insgesamt: {f (b1 ), . . . , f (b1 )} ist Basis von
W.
2. Sei {b1 , . . . , bn } Basis von V und {f (b1 ), . . . , f (bn )} Basis von W . Sei v 6= 0 aus V und f (v) = 0 ⇒ v =
λ1 b1 + . . . + λn bn ⇒ 0 = f (v) = λ1 f (b1 ) + . . . + λn f (bn ) ⇒ λ1 = . . . = λn = 0, weil f (b1 ), . . . , f (bn ) l.u.
⇒ v = 0 ⇒ f nichtsingulär.
(vii) A nichtsingulär ⇔ ker(A) = {0} ⇔ def (A) = 0 ⇔ n − def (A) = n ⇔ Rg(A) = n ⇔ A invertierbar.
Mit (iv), (v) gilt auch:
Satz 17.15 Charakterisierung von Isomorphismen in endlich dimensionalen
Vektorräumen
Eine lineare Abbildung f : V → W ist genau dann ein Isomorphismus, wenn das Bild einer
Basis wieder eine Basis ist.
Sei dim(V ) = n
1. f : V → W Isomorphismus ⇒ dim(W ) = dim(V ) = n und f nichtsingulär ⇒Bild einer Basis ist wieder Basis.
2. Sei {b1 , . . . , bn } eine Basis von V ⇒ {f (b1 ), . . . , f (bn )} Basis von W ⇒ dim(W ) = dim(V ) = n ⇒ f
nichtsingulär ⇒ f Isomorphismus.
Definition 17.8 Zwei Vektorräume V und W über demselben Körper K heißen isomorph
(symbolisch V ∼
= W ), wenn es einen Isomorphismus f : V → W gibt.
Satz 17.16 Isomorphie von endlichdimensionalen Vektorräumen
Jeder Vektorraum V der Dimension n ist isomorph zu K n .
Die Isomorphie von Vektorräumen ist eine Äquivalenzrelation auf der Menge aller Vektorräume
über K(V ∼
= V, V ∼
=W ⇒W ∼
= V, V ∼
=W ∼
=X⇒V ∼
= X). Bis auf Isomorphie gibt es also nur
einen n−dimensionalen Vektorraum, nämlich K n .
Beweis: Sei B = (b1 , . . . , bn ) eine Basis von V und x ∈ V .
f : V → K n somit f (x) = [x]B .
Jedem Vektor werden also seine Koordinaten bezüglich einer festen Basis B zugeordnet.
1. f ist linear: f (x + y)
=
[x + y]B = [x]B + [y]B = f (x) + f (y)
f (λx)
=
[λx]B = λ[x]B
2. f ist injektiv ⇔ nichtsingulär:
Sei f (x) = 0 ⇒ [x]B = 0 ⇒ x = 0
Damit ist f automatisch auch surjektiv.
91
Praktische Bedeutung:
Kommt es nur auf die “linearen” Eigenschaften an, also auf jene, die sich nur durch die Vektorraumoperation + und Vervielfachen ausdrücken lassen, genügt es, im K n zu rechnen. Man ordnet
jedem Vektor seine Koordinaten bezüglich einer Basis zu (meistens die Standardbasis), rechnet
im K n und transformiert das Ergebnis in V zurück (f −1 ist mit f wieder ein Isomorphismus).
17.4 Rechnen mit linearen Abbildungen
In der elementaren Physik werden meßbare Größen wie Ort, Geschwindigkeit usw. mit reellen
Zahlen gemessen. In der Quantenmechanik werden diese meßbaren Größen durch lineare Operatoren angegeben. So wie mit Zahlen benötigt man dort ein Rechnen mit linearen Operatoren,
es entspricht dem Rechnen mit Matrizen.
Satz 17.17 Summe und Vielfaches von linearen Abbildungen
V und W seien Vektorräume über K. f, g : V → W seien lineare Abbildungen.
(i) Summe (f + g) und Vielfaches (kf ) von linearen Abbildungen sind wieder lineare Abbildungen. Dabei ist rg(f + g) ≤ rg(f ) + rg(g), rg(kf ) = rg(f ).
(ii) Die Menge aller linearen Abbildungen von V in W bildet bezüglich der Addition und der
Vielfachbildung einen Vektorraum über K, bezeichnet mit L(V, W ) bzw. Hom (V, W ). Es
ist L(V, W) C WV .
(iii) Ist dim(V ) = n und dim(W ) = m, dann ist dim(L(V, W)) = m · n.
Ist {v1 , v2 , . . . , vn } eine Basis von V und {w1 , w2 , . . . , wm } eine Basis von W , dann bilden
die Abbildungen fij mit
fij (vi ) = wj und fij (vk ) = 0 für k 6= i
eine Basis von L(V, W ).
Die Hintereinanderausführung von linearen Abbildungen f, g bezeichnet man auch als Produkt
(g ◦ f )(x) := g(f (x)).
92
f :V →W
f (V ) = W
g:W →X
Beachte: Zuerst wird die innere Abbildung f ausgeführt.
Satz 17.18 Produkt von linearen Abbildungen
V, W, X seien Vektorräume über demselben Körper K. f, f 0 : V → W, g, g 0 : W → X seien solche
lineare Abbildungen, daß alle auftretenden Produkte definiert seien.
(i) Das Produkt g ◦ f von linearen Abbildungen ist wieder linear: g ◦ f ∈ L(V, W ).
(ii) Der Rang des Produktes zweier linearer Abbildungen ist kleiner oder gleich dem Rang eines
jeden Faktors:
rg(g ◦ f ) ≤ rg(f ), rg(g ◦ f ) ≤ rg(g) ⇔ rg(g ◦ f ) ≤ min(rg(f ), rg(g)).
Der Rang eines Produktes von Abbildungen kann nicht den Rang eines Faktors
übertreffen.
(iii) Das Produkt von linearen Abbildungen (und nur von diesen) ist linksdistributiv bezüglich
der Addition:
g ◦ (f + f 0 ) = g ◦ f + g ◦ f 0 .
Weiterhin gilt wie für alle Abbildungen die Rechtsdistributivität:
(g + g 0 ) ◦ f = g ◦ f + g 0 ◦ f
k(g ◦ f ) = (kg) ◦ f = g ◦ (kf )
(iv) Im Falle der Existenz ist die Inverse einer linearen Abbildung wieder linear. Es gilt dann
so wie für alle Abbildungen: (g ◦ f )−1 = g −1 ◦ f −1 , aber die Summe von invertierbaren
linearen Abbildungen muß nicht invertierbar sein. Das Produkt von Abbildungen kann
nichtsingulär sein, auch wenn ein Faktor singulär ist.
93
(v) Für den Spezialfall W = V , also L(V, V ) gilt (Summe und Produkt sind dann immer definiert): Die Menge L(V, V ) der linearen Operatoren eines Vektorraumes auf sich selbst
bildet bezüglich der Addition und des Produktes von Abbildungen einen nicht kommutativen Ring mit 1 = idv .
Insgesamt gilt also:
L(V, V ) ist bezüglich Addition, Vervielfachen und Produkt Hintereinanderausführung eine
nicht kommutative Algebra.
Beweis zu (ii):
Sei f : V → W mit rg(f ) = r bzw. g : W → X mit rg(g) = s. f bildet V in den r−dimensionalen Teilraum im(f )
von W ab. g bildet W in den s−dimensionalen Teilraum im(g) von X ab. Nun ist
im(gf ) = {(gf )(v)|v ∈ V } = {g(f (v))|v ∈ V } = {g(v 0 )|v 0 ∈ im(f )} ⊆ im(g) ⇒
dim(gf ) ≤ dim(im(g)) = s ⇒ rg(gf ) ≤ s.
im(gf ) ist nach (*) das Bild des Teilraumes im(f ) unter g. Es ist dim(im(f )) = rg(f ) = r. Nun wird die
Dimension eines Bildes eines Teilraumes unter einer linearen Abbildung höchstens kleiner, daher ist rg(gf ) ≤ r.
Bemerkungen:
1. Ist f invertierbar, dann ist wegen im(f ) = W : rg(g ◦ f ) = rg(g).
2. Analog gilt für Matrizen: rg(A · B) ≤ min(rg(A), rg(B)).
3. Wegen des Assoziativgesetzes bezüglich ◦ ist in L(V, V ) eine Potenzrechnung möglich:
f n := f◦ f◦ . . . ◦ f . Damit ist das Einsetzen von Abbildungen in Polynome möglich:
| {z }
n aml
Ist p(x) = a0 + a1 X + a2 X 2 + . . . + an X n , dann sei
p(f ) := a0 id + a1 f + a2 f 2 + . . . + an f n .
94
17.5 Faktorräume (Quotientenräume)
Vektorräume enthalten im allgemeinen sehr viele Elemente. Sieht man von gewissen Eigenschaften der Elemente ab, können sie “verkleinert” werden. Dieses Verkleinern kann formal mittels
einer Äquivalenzrelation beschrieben werden.
Beispiel: Im Vektorraum der Ortsvektoren in der Ebene werden Vektoren, deren Endpunkte
auf einer Geraden (= Teilraum) liegen, als “gleich” (= äquivalent) angesehen:
v1 ∼ v2 ∼ v3 ∼ v4 ∼ . . .
v ∼u w := w − v ∈ U
Alle äquivalenten Vektoren haben die Eigen-
Alle zu v äquivalenten Vektoren sind gegeben
schaft, daß ihren Differenzen im Teilraum U lie-
durch v + U = {v + u|u ∈ U },
gen.
also durch die Nebenklasse v nach U.
Äquivalenzklasse [v] = {w|w ∼u v} = {w 6= v + u|n ∈ U } = v + U.
Alle zu v + U gehörende Vektoren werden mit der Geraden g = v + U “identifiziert”. g ist das
Bild (der Ersatz) für die unendlich vielen Vektoren v1 , v2 , . . . mit Endpunkt auf g.
dimV 2 = 2
V /U = “Faserraum” = Menge aller v + U =
dimU = 1
Quotientenraum von V nach U .
Wann sind 2 Nebenklassen v1 + U, v2 + U gleich?
95
v1 + U = v2 + U ⇔ v2 − v1 ∈ U
Rechnen mit Nebenklassen:
Allgemein:
Gegeben sei ein Vektorraum V über einen Körper K und ein Teilraum U C V .
Definition 17.9 Nebenklasse nach einem Teilraum
(i) 2 Vektoren v1 , v2 ∈ V heißen äquivalent (modulo U ), wenn ihre Differenz in U liegt:
v1 ∼U v2 ⇔ v2 − v1 ∈ U (oder v1 − v2 ∈ U )
∼U ist eine Äquivalenzrelation auf V .
(ii) Die Äquivalenzklasse [v] nach dieser Äquivalenzrelation modulo U ist die Menge v + U =
{v + u|u ∈ U }. v + U heißt die Nebenklasse von v nach U .
[v]∼U = {w ∈ V |w ∼U v} = {w|w − v ∈ U } = {w ∈ V |w = v + u, u ∈ U } = v + U
[v]∼U = v + U
v heißt ein Vertreter (Repräsentant) der Nebenklasse v + U .
96
(iii) Eine Nebenklasse kann durch verschiedene Vertreter angegeben werden.
Zwei Nebenklassen v1 + U und v2 + U sind genau dann gleich, wenn ihre Differenz in U
liegt:
v1 + U = v2 + U ⇔ v2 − v1 ∈ U ⇔ v1 ∼U v2 .
Beweis:
1. Ist v2 − v1 ∈ U ⇒ v2 − v1 = u ⇒ v2 = v1 + u.
Damit: Ist x ∈ v2 + U ⇒ x = v2 + u0 = v1 + (u + u0 ) ∈ v2 + U , weil n + n0 + U = U
Ist y ∈ v1 + U ⇒ y = v1 + u0 = v2 − u + u0 = v2 + u0 − u ∈ v2 + U
2. Ist v1 + U = v2 + U ⇒ v2 = v2 + 0 ∈ v2 + U = v1 + U ⇒ v2 = v1 + u ⇒ v2 − v1 = u ∈ U .
Beachte insbesondere: U + U = U = 0 + U
Satz 17.19 Rechnen mit Nebenklassen
v1 + U und v2 + U seien 2 Nebenklassen nach U .
(i) Addition von 2 Nebenklassen:
2 Nebenklassen werden addiert, indem man ihre Vertreter addiert:
(v1 + U + (v2 + U) := (v1 + v2 ) + U
Diese Definition ist unabhängig von der Wahl der Vertreter (man sagt: wohldefiniert).
Seien v10 ∈ v1 + U und v20 ∈ v2 + U ⇒ (v10 + U ) + (v20 + U ) = (v10 + v20 ) + U = (v1 + u1 ) + (v2 + u2 ) + U =
(v1 + v2 ) + u1 + u2 + U = (v1 + v2 ) + U .
(ii) Vervielfachen einer Nebenklasse:
Eine Nebenklasse wird vervielfacht, indem man ihren Vertreter vervielfacht:
λ(v + U) := λv + U
Diese Definition ist wohldefiniert:
Sei v 0 ∈ v + U ⇒ v 0 = v + u mit u ∈ U ⇒ λ(v 0 + U ) = λv 0 + U = λ(v + u) + U =
λv + (λu + U ) = λv + U .
97
Satz 17.20 Faktorraum nach einem Teilraum
U sei ein Teilraum eines Vektorraumes über einen Körper K.
(i) Die Menge der Nebenklassen nach U eines Vektorraumes V bildet bezüglich der Addition
und des Vervielfachens von Nebenklassen wieder einen Vektorraum über K. Er heißt der
Faktorraum von V nach U .
Symbolisch: V/U := {v + U|v ∈ V}.
(ii) Ist V endlichdimensional, dann ist die Dimension des Faktorraumes die Differenz der
Dimension von V und U :
dim(V /U ) = dimV − dimU.
Beweis:
(i) Die Rechengesetze (V1 ), (V2 ), (V5 ), (V6 ), (V7 ), (V8 ) gelten, weil sie für die Repräsentanten gelten, z.B. das Assoziativgesetz:
[(v1 + U ) + (v2 + U )] + (v3 + U ) = [(v1 + v2 ) + U ] + (v3 + U ) = (v1 + v2 ) + v3 + U = v1 + (v2 + v3 ) + U =
(v1 + U ) + (v2 + v3 ) + U = (v1 + U ) + [(v2 + U ) + (v3 + U )] oder
1.(v1 + U ) = 1.v1 + U = v1 + U .
Der Nullvektor von V /U ist die Nebenklasse U :
(v + U ) + U = (v + U ) + (0 + U ) = (v + 0) + U = v + U : 0 = U.
Das additive inverse Element zu v + U ist −v + U :
(v + U ) + (−v + U ) = v + (−v) + U = 0 + U = U .
Sei dim(V ) = n.
U ist ebenfalls endlichdimensional. Sei {v1 , . . . , vk } eine Basis von U . Nach Basisergänzungssatz kann sie zu einer
Basis von V ergänzt werden.
V = (v1 , . . . , vk , vk+1 , . . . , vn )
Behauptung: (vk+1 + U), . . . , (vn + U) ist eine Basis von V/U.
Das sind n − k Elemente, k = dim(U ), daher ist dim(V /U ) = n − k = dim(V ) − dim(U ).
Sei λ1 (vk+1 + U ) + . . . + λn−k (vn + U ) = 0 = U ⇒ λ1 vk+1 + . . . + λn−k vn + U = 0 + U ⇒
λ1 vk+1 +. . .+λn−k vn ∈ U ⇒ λ1 vk+1 +. . .+λn−k vk = µ1 v1 +. . .+µk vk ⇒ µ1 v1 +. . .+µk vk −λ1 vk+1 . . . λn−k vn =
0 ⇒ λ1 = . . . = λn−k = 0 weil {v1 . . . , vn } l.u. ⇒ (vk+1 + U ) . . . (vn + U ) l.u.
98
Sei X eine beliebige Nebenklasse von V /U ⇒ X = x + U, x ∈ V ⇒ x = λ1 v1 + . . . + λn vn ⇒
X = λ1 v1 + . . . + λk vk +λk+1 vk+1 + . . . + λn vn + U ⇒ X = λk+1 vk+1 + . . . + λn vn + U = λk+1 (vk+1 + U ) +
{z
}
|
∈U
. . . + λn (vn + U ) ⇒ V /U ⊆< (vk+1 + U ), . . . , (vn + U ) >. Wegen (vk+1 + U ) . . . (vn + U ) ∈ V /U ist < (vk+1 +
U ), . . . , (vn + U ) >⊆ V /U ⇒ V /U < (vk+1 + U ), . . . , (vn + U ) > .
Die kanonische Projektion
Durch die Nebenklassen wird V in elementfremde Klassen zerlegt:
Satz 17.21 Kanonische Projektion
Die kanonische Projektion π ist jene Abbildung von V auf den Faktorraum V /U , die jedem
Vektor v aus V jene Nebenklassen zuordnet, in der v liegt.
π : V → V /U mit π(x) = x + U .
π ist eine surjektive lineare Abbildung auf V /U mit U als Kern, also:
ker(π) = U und im(π) = V/U
def (π) = dim(U ) und rg(π) = dim(V ) − dim(U )
π ist eine Projektion in Richtung U .
Beweis:
π(x + y) = x + y + U = (x + U ) + (y + U ) = π(x) + π(g)
π(λx) = λx + U = λ(x + U ) = λπ(x)
Sei v + U ∈ V /U beliebig ⇒ π(v) = v + U , also im(π) = V /U .
Sei u ∈ U ⇒ π(u) = u + U = U = Nullvektor von V /U ⇒ U ⊆ ker(π).
Sei x ∈ ker(π) ⇒ π(x) = 0 = U ⇒ x + U = U ⇒ x ∈ U ⇒ ker(π) ⊆ U .
99
Satz 17.22 Homomorphiesatz für Vektorräume
f : V → W sei eine surjektive lineare Abbildung von V auf W . Dann ist W isomorph zum
Faktorraum V /ker(f ).
f :V →W ⇒W∼
= V/ker(f )
Auch so: Alle epimorphen Bilder von V sind gegeben durch die Faktorräume von V
nach allen Teilräumen von V !
Beweis: Setzen U := ker(f ); V /U = {v + U/v ∈ V }.
1. Die Abbildung α : V /U → W sei definiert durch:
α(v + U ) := f (v)
Diese Definition von α ist wohldefiniert (unabhängig von der Wahl des Vertreters v):
Sei v1 + U = v2 + U ⇒ v2 − v1 ∈ U = ker(f ) ⇒ f (v2 − v1 ) = 0 ⇒ f (v2 ) − f (v1 ) = 0 ⇒ f (v2 ) = f (v1 ) ⇒
α(v2 + U ) = α(v1 + U ).
2. α ist injektiv:
Sei α(v1 + U ) = α(v2 + U ) ⇒ f (v1 ) = f (v2 ) ⇒ f (v1 ) − f (v2 ) = 0 ⇒ f (v1 − v2 ) = 0 ⇒ v1 − v2 ∈ ker(f ) =
U ⇒ v1 + U = v 2 + U .
3. α ist surjektiv auf W :
Sei w ∈ W ⇒ ∃v ∈ V : f (v) = w, weil f surjektiv ist. Für v + U ∈ V /U gilt dann: α(v + U ) = f (v) = w ⇒
jedes w ∈ W hat ein Urbild in V /U .
4. α ist linear
α[(v1 + U ) + (v2 + U )] = α[(v1 + v2 ) + U ] = f (v1 + v2 ) = f (v1 ) + f (v2 ) = α(v1 + U ) + α(v2 + U ).
α[λ(v + U )] = α[λv + U ] = f (λv) = λf (v) = λα(v + U ).
α ist also ein Isomorphismus und damit V /U ∼
= W.
100
Zusammenfassung:
Es gibt insgesamt 4 Methoden, um aus gegebenen Vektorräumen einen neuen Vektorraum zu
erhalten:
1. durch Teilraumbildung: U C V
2. durch direkte Summenbildung (Produktbildung)
V1 × V2 = {(v1 , v2 )|v1 ∈ V1 , v2 ∈ V2 }
3. durch homomorphe (lineare) Abbildungen: f (V ) = {f (v)|v ∈ V }
4. durch Faktorbildung nach einem Teilraum U :
V /U = {v + U/v ∈ V }
101
18 Matrizen und Lineare Abbildungen
In diesem Kapitel wird gezeigt, daß in endlich dimensionalen Vektorräumen lineare Abbildungen
und Matrizen einander umkehrbar eindeutig entsprechen. Die Verwendung von Matrizen hat
jedoch 2 Vorteile:
1. Aus der Gestalt der Matrixdarstellung kann man auf die Wirkung (die Struktur) der linearen Abbildung schließen.
2. Man kann die Bilder von Vektoren unter einer linearen Abbildung durch Multiplizieren mit
einer Matrix berechnen. Das ist praktisch (besonders mit einem Computer).
18.1 Matrixdarstellungen
Bisher wissen wir: Eine m × n−Matrix A induziert eine lineare Abbildung vom K n in den K m
durch die Festsetzung
A : Kn → Km
A(~x) := A · ~x ~x ∈ K n
A nennen wir die durch die Matrix A induzierte Matrixabbildung.
Nun wollen wir umgekehrt beliebige lineare Abbildungen zwischen endlich–dimensionalen Vektorräumen durch Matrizen darstellen: Matrixdarstellung einer linearen Abbildung. Dies gelingt dadurch, daß man anstelle der abstrakten Vektoren x ihre Koordinatendarstellungen [x]B
bezüglich einer vorgegebenen Basis B betrachtet.
Sei f : V → W eine lineare Abbildung von V in W , dim(V ) = n, dim(W ) = m (auch m = n
und W = V sind möglich).
B = {b1 , . . . , bn } sei eine Basis von V, B 0 = {b01 , . . . , b0m } eine Basis von W .
[x]B sei der Koordinatenvektor von x : [x]B ∈ K n .
[f (x)]B 0 sei der Koordinatenvektor des Bildvektors f (x) : [f (x)]0B ∈ K m .
V ∈x
f
−→
↓
K n ∈ [xB ]
f (x) ∈ W
↓
[f ]B 0 B
−→
[f (x)]B 0 ∈ K m
102
[f ]B 0 B die Matrixdarstellung von f (bezüglich der Basen B 0 , B), sie möge die Lücke von
K n → K m schließen, und zwar in der Weise, daß man den Koordinatenvektor [f (x)]B 0 durch
einfache Multiplikation von [x]B mit der Matrixdarstellung erhält, d.h.:
Ist

[f ]B 0 B
f11
f12
...
f1n


 f21
f22 . . . f2n
=
 ..
 .

fn+1 fn+2 . . . fmn




 =: A



dann soll gelten:
[f (x)]B 0 = [f ]B 0 B · [x]B
[f (x)] =
Kurz:
[f ] · [x].
Dies gelingt dann, wenn man [f ] wie folgt definiert:
SPALTEN von [f ] = KOORDINATEN der BILDER der BASISVEKTOREN
also
[f ]B 0 B := ([f (b1 )]B 0 , [f (b2 )]B 0 , . . . , [f (bn )]B 0 ).
Ist [x]B = (x1 , . . . , xn ) ⇔ x = x1 b1 + . . . + xn bn , dann gilt
f (x) = x1 f (b1 ) + . . . + xn f (bn ), also
[f (x)]B 0 = x1 [f (b1 )]B 0 + . . . + xn [f (bn )]B 0 .
Es ist dann:


x1


 . 
[f ][x] = ([f (b1 )], [f (b2 )], . . . , [f (bn )]) ·  ..  = x1 · [f (b1 )] + . . . + xn [f (bn )] = [f (x)],


xn
also gilt für das so definierte [f ] :
[f ] · [x] = [f (x)]
Koordinaten des Bildes von x = Matrixdarstellung × Koordinaten von x
Die so definierte Matrixdarstellung ist eindeutig:
Wären A und B zwei solche Matrizen, also mit
A · [x] = B · [x] = [f (x)].
103
Dann gilt insbesondere für x = bi , dem i−ten Basisvektor:
(wegen [bi ] = (0, . . . , 1, . . . , 0)):

 0
 .
 ..


A·
 1
 .
 .
 .

0
| {z


















B·





}
=
|

0
..
.
1
..
.
0
{z











}
i − te Spalte von A = i − te Spalte von B ⇒ A = B.
Insgesamt: Hat man einmal Basen von V bzw. W ausgewählt, dann kann man eine lineare
Abbildung f : V → W durch m · n Skalare eindeutig angeben.
Satz 18.1 Matrixdarstellung einer linearen Abbildung
f : V → W sei eine lineare Abbildung eines n−dimensionalen Vektorraumes V in einen m−dimensionalen
Vektorraum W . B sei eine Basis von V und B 0 eine Basis von W .
(i) Es gibt genau eine m × n− Matrix A =: [f ]B 0 B mit
A · [x]B = [f ]B 0 B [x]B = [f (x)]B 0
[f ]B 0 ,B heißt Matrixdarstellung von f bezüglich der Basen B 0 und B. Die Spalten von
[f ]B 0 ,B sind gegeben durch die Koordinaten der Bilder der Basisvektoren von V .
Insbesondere ist die Matrixdarstellung eines linearen Operators f : V → V
gegeben durch eine quadratische n × n−Matrix [f ]B .
Also: A ist Matrixdarstellung von f: V → W bezüglich der Basen B und B 0 ⇔
[f (x)]B0 = A · [x]B .
(ii) Die m × n−Matrizen und die linearen Abbildungen von f : V in W entsprechen einander
umkehrbar eindeutig.
(iii) Die Zuordnung f → [f ] ist verträglich mit den Rechenoperationen; d.h.:
104
[λf ] = λ[f ]
[f + g] = [f ] + [g]
[f ◦ g] = [f ] · [g]
, wenn f ◦ g definiert
[id] = In
[0] = On
(iv) Ist f eine invertierbare lineare Abbildung (dann ist dim(W ) = dim(V ) = n),
dann gilt:
[f −1 ] = [f ]−1
Spezialfall: Lineare Abbildungen vom Kn in den Km
Ist A eine m×n−Matrix, dann definiert ~x → A·~x, wie wir gesehen haben, eine lineare Abbildung
TA : K n → K m mit TA (~x) := A · ~x.
Dabei wird ~x als Spaltenvektor aufgefaßt.
Die Gleichung ~y= A~x heißt Abbildungsgleichung
der Abbildung TA .

1 2 3 4

Beispiel: A = 
5 8 7 2


x1
 





1 2 3 4  x2 
x1 + 2x2 + 3x3 + 4x4
=


TA (~x) = 


5 8 7 2  x3 
5x1 + 8x2 + 7x3 + 2x4


x4
Abbildungsgleichung von TA : K 4 → K 2

y1 = x1 + 2x2 + 3x3 + 4x4
y2 = 5x1 + 8x2 + 7x3 + 2x4
x1







1
2
3
4
x
y1
2 


⇔
=


y2
5 8 7 2  x3 


x4
Die Matrixdarstellung von TA bezüglich der Standardbasen (auch Standarddarstellungsmatrix genannt) ist A selbst:
TA (e~1 ) = A · e~1
..
.
= a~1
1. Spalte von A
TA (e~n ) = A · e~n = a~n n − te Spalte von A
105
Damit:
[TA ]{ei },{ei } = ([TA (e~1 )] . . . [TA (e~n )]) = (a~1 . . . a~n ) = A.
Die Standarddarstellungsmatrix kann direkt aus den Abbildungsgleichungen abgelesen werden.
Beachte insgesamt: Ist A eine reguläre n × n−Matrix, dann kann die Gleichung
~y = A~x
aufgefaßt werden als
(i) die Matrixabbildung A : K n → K n mit A(~x) = A~x
(ii) ein bijektiver Operator f : V → V eines n−dimensionalen Vektorraumes mit A als Matrizendarstellung von f
(iii) eine Koordinatentransformation in einem n−dimensionalen Vektorraum.


1 −1
 und es sei y = A · ~x.
Beispiel: Gegeben sei die reguläre Matrix A = 
1
2
B = {b1 , b2 } sei die alte Basis von V
B 0 = {b01 , b02 } sei gegeben durch
b01 = b1 + b2
b02 = −b1 + 2b2
⇒
Übergangsmatrix
|A| = 3 6= 0

A=
1 −1
1
2


Weil |A| =
6 0, ist B 0 = {b01 , b02 } wieder eine Basis vom K 2 .
1. Deutung von ~y = A~x als Basistransformation:
[x]alt = C · [x]neu
x1
x2
=
1 −1
1 2
x01 x02
⇔
[x]neu = C −1 [x]alt



2 1 
x01 1
=
0
3
x2
−1 1 
x1 = x01 − x02
x2 = x01 + 2x02
x1
x2
⇔
x01 =
2
3 x1
− 13 x2
x02 = − x31 +
x2
3
106
2. Deutung von ~y = A~x als (bijektive) lineare Abbildung f : V 2 → V 2 :
f (b1 ) = b01
Durch die Bilder der Basisvektoren
ist f eindeutig bestimmt!
f (b2 ) = b02
[f (b1 )]B 0
[f ]B 0 B
[f (x)]B 0
1
[f (b2 )]B = −1
2 ⇒

1
 1 −1 
und
=
 1
2 




 1 −1  x
−
x
1
2
x1


=
x2 =
 1

2
x + 2x
=
1
2
3. Deutung von ~y = A~x als Abbildung A : K 2 → K 2 :
y1
y2
=
1 −1
1 2
x1
x2
⇔
y1 = x1 − x2
y2 = x1 + 2x2
18.2 Änderung der Matrixdarstellung bei Basiswechsel
Nach Definition der Matrixdarstellung einer linearen Abbildung f : V → W ändert sich diese,
wenn man in V bzw. W die Basis wechselt. Man wird daher bestrebt sein, solche Basen
in V und W zu finden, daß die Matrixdarstellung von f möglichst einfach (= viele Nullen,
schwachbesetzte Matrix, Diagonalmatrix, Dreiecksmatrix) wird. Bezüglich der Standardbasen läßt
sich die Matrixdarstellung zwar leicht ablesen, man erhält aber nicht unbedingt die einfachste
Matrix:
Beispiel: Sei f : K 2 → K 2 ( es ist also W = V ) gegeben durch: f
1 1
Bezüglich der Standardbasis B = {e~1 , e~2 } gilt: [f ]B = −2
4
Bezüglich der Basis B 0 = { 11 , 12 } gilt wegen
f 11 = 22 = 2 · 11 ; f 12 = 36 = 3 · 12
[f 11 ]B 0 = 20 und [f 12 ]B 0 = 03 : [f ]B0 = 20 03 .
x1
x2
=
x1 +x2
−2x1 +4x2
Zwei Fragen tauchen auf:
(i) Wie ändert sich die Matrixdarstellung von f bei Basiswechsel?
(ii) Wie erhält man “günstige” Basisvektoren? Was ist überhaupt erreichbar?
107
In diesem Kapitel beantworten wir die erste Fragestellung. Die überaus wichtige zweite Fragestellung wird in einem eigenen Kapitel (VII) behandelt.
Erinnerung: Sind B und B̄ zwei Basen des n−dimensionalen Vektorraum V und P die Übergangsmatrix von B nach B̄ (= neue Basisvektoren durch alte ausdrücken), dann ist V isomorph zu
K n . Einen Isomorphismus erhält man dadurch, daß man einem Vektor x ∈ V seine Koordinaten
[x] zuordnet:
n
x → [x]B ∈ Kalt
n = Vektorraum der “alten” Koordinaten
Kalt
n
n
x → [x]B̄ ∈ Kneu
Kneu
= Vektorraum der “neuen” Koordinaten
Für die alten und neuen Koordinaten gilt nach 18.6 der Zusammenhang
[x]B = P · [x]B̄
n
Diese kann man nach der vorhergehenden Bemerkung auch als (bijektive) Abbildung P : Kneu
→
n auffassen, nämlich durch die Festsetzung: P([x] ) = P · [x] = [x] .
Kalt
B
B̃
B̃
Ist nun f : V n → W m linear und sind B, B̄ Basen von V und B 0 , B̄ 0 , Basen von W mit den
Übergangsmatrizen P bzw. Q, dann gilt für die “alte” Matrixdarstellung [f ]B 0 B = [f ]alt von f
bzw. für die “neue” Matrixdarstellung [f ]B̄ 0 B̄ =: [f ]neu
[f ]neu = Q−1 · [f ]alt · P.
108
Spezialfall: W = V , d.h., f ist ein linearer Operator auf V :
[f ]neu = P−1 · [f ]alt · P.
Beachte: Im Gegensatz zu vorhin steht links und rechts neben [f ]alt dieselbe Matrix P !
Satz 18.2 Änderung der Matrixdarstellung
P sei die Übergangsmatrix von einer Basis B zu einer Basis B̄ des n−dimensionalen Vektorraumes V und Q die Übergangsmatrix von einer Basis B 0 zu einer Basis B̄ 0 des m−dimensionalen
Vektorraumes W . Dann gilt für die Matrixdarstellung einer linearen Abbildung f : V → W .
(i) [f ]B̃0 ,B̃ = Q−1 · [f ]B0 ,B · P ⇔ [f ]neu = Q−1 [f ]alt P.
Für die Matrixdarstellung eines linearen Operators T : V → V gilt:
(ii) [T]B̃ = P−1 · [T]B · P ⇔ []neu = P−1 [f ]neu · P.
Beobachtung:
Die neuen Matrixdarstellungen unterscheiden sich von den alten also “nur” durch Links– bzw.
Rechtsmultiplikation mit zwei verschiedenen regulären Matrizen oder auch nur mit ein– und
derselben Matrix
Definition 18.1 Äquivalenz und Ähnlichkeit von Matrizen
(i) Zwei m × n−Matrizen A, B heißen äquivalent (∼1 ), wenn es eine reguläre
m × m)−Matrix Q und eine reguläre n × n−Matrix P gibt, so daß gilt: B = QAP
A ∼1 B ⇔ ∃ reguläre Q, P : B = QAP
109
(ii) Zwei quadratische n × n−Matrizen A und B heißen ähnlich (∼2 ), wenn es eine reguläre
n × n−Matrix P gibt, so daß B = P −1 AP
A ∼2 B ⇔ ∃ regulär R : B = P−1 AP
Satz 18.3 Äquivalente und ähnliche Matrixdarstellungen
(i) Äquivalenz und Ähnlichkeit sind Äquivalenzrelationen in der Menge der
m × n− bzw. n × n−Matrizen.
(ii) A und B sind genau dann Matrixdarstellungen der linearen Abbildung
f : V n → W m , wenn sie äquivalent sind.
(iii) A und B sind genau dann Matrixdarstellungen eines linearen Operators
T : V n → V n , wenn sie ähnlich sind.
Zusammenfassung:
Alle Matrixdarstellungen ein– und derselben linearen Abbildung sind untereinander äquivalent.
Alle Matrixdarstellungen ein– und desselben linearen Operators sind untereinander ähnlich.
Wie kann man es Matrizen ansehen, ob sie äquivalent oder ähnlich ist?
Wir werden sehen: Es gibt eine Reihe von Eigenschaften, die bei Übergang zu äquivalenten oder
ähnlichen Matrizen erhalten bleiben.
Definition 18.2 Invariante Eigenschaften von Matrizen
Eine Eigenschaft von Matrizen heißt äquivalenzinvariant (ähnlichkeitsinvariant), wenn
mit einer Matrix auch jede zu ihr äquivalente (ähnliche) Matrix diese Eigenschaft besitzt.
Haben damit zwei Matrizen nicht die besagte Eigenschaft, dann können sie nicht äquivalent
bzw. ähnlich sein. Sie sind notwendige Bedingungen für die Äquivalenz bzw. Ähnlichkeit, aber
im allgemeinen nicht hinreichend, d.h., aus der Gültigkeit der Eigenschaft kann nicht auf die
Äquivalenz bzw. Ähnlichkeit geschlossen werden.
110
Satz 18.4 Äquivalenzinvarianz des Ranges
Äquivalente Matrizen haben denselben Rang.
Beweis:
Seien A, B äquivalent ⇒ ∃ reguläre Q, P mit B = QAP ⇒ rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) =
rgA.
Bemerkung:
1. Später werden wir sehen, daß aus der Gleichheit des Ranges auch auf die Äquivalenz der
Matrizen geschlossen werden kann, aber
2. Aus der Gleichheit des Ranges kann nicht auf die Ähnlichkeit der Matrizen geschlossen
werden.
0
A=@
1
0
0
1
1
0
A = I und B = @
0
1
1
0
1
A haben beide Rang 2. Wäre A ∼2 B ⇒ ∃ reguläres P :
B = Pn−1 AP = P −1 P = I 6= B.
Ähnliche Matrizen haben nicht nur den gleichen Rang, sondern auch die gleiche Determinante:
Sei B = P −1 AP ⇒ |B| = |P −1 AP | = |P −1 ||A||P | = |P |−1 |A||P | = (|P |−1 |P |)|A| == |A|.
Beispiel:



−1 

 

1 2
1 1
1 2
1 1
−2 −4
,B = 
 

=
 ∼2 A
A=
3 4
0 1
3 4
0 1
3
7
Es ist rg(A) = 2 = rg(B), |A| = 1 · 4 − 2 · 3 = −2 = −2 · 7 + 3 · 4 = |B|.
Was bleibt bei ähnlichen Matrizen noch gleich? Im obigen Beispiel sieht man:
1 + 4 = 5 = −2 + 7 = Summe der Hauptdiagonalelemente.
Definition 18.3 Spur einer Matrix
Unter der Spur einer quadratischen Matrix versteht man die Summe ihrer HauptdiagonaleleP
mente: sp(A) := ni=1 aij .
Satz 18.5 Spureigenschaften
(i) sp(AB) = sp(BA)
(ii) Ähnliche Matrizen haben die gleiche Spur.
(iii) Die Spur eines linearen Operators ist die Spur irgendeiner Matrixdarstellung.
111
Beweis von (i):
P
P
Sei A = (aij ) und B = (bij ). Dann ist AB = (cik ) mit cik = nj=1 aij bjk und sp(AB) = i cij =
P P
i
j aij bji .
P
P P
Pn
Nun sei BA = (djk ) mit djk =
i=1 bji aik . Dann ist sp(BA) =
j djj =
j
i bji aij =
P P
i
j aij bji = sp(AB).
Beweis von (ii):
Ist A ∼2 B ⇒ ∃P mit B = P −1 AP ⇒ sp(B) = sp(P −1 AP ) = sp(AP P −1 ) = sp(A).
Zusammenfassend gilt folgender
Satz 18.6 Tabelle von Ähnlichkeitsinvarianten
A sei eine quadratische Matrix
Invariante
Beschreibung
Determinante
|A| = |P −1 AP |
Rang
rg(A) = rg(P −1 AP )
Spur
sp(A) = sp(P −1 AP )
Defekt
def (A) = def (P −1 AP )
Invertierbarkeit
A invertierbar ⇔ P −1 AP invertierbar
Diese Liste von Ähnlichkeitsinvarianten wird noch erweitert werden!
Weil die Determinante eine Ähnlichkeitsinvariante ist, kann man jedem linearen Operator
T : V → V eine Zahl (einen Skalar) zuordnen:
Wähle irgendeine Matrixdarstellung [T ] von T und bilde det([T ]) = |[T ]|. Weil alle Matrixdarstellungen von T untereinander ähnlich sind, haben alle ihre Determinanten den gleichen Wert.
Diesen bezeichnet man als die Determinante von T .
Definition 18.4 Determinante eines Operators
T : V → V sei ein linearer Operator eines endlich–dimensionalen Vektorraumes V .
Unter der Determinante eines linearen Operators T versteht man die Determinante der Matrixdarstellung [T ] von T bezüglich irgendeiner Basis B von V .
det(T ) = |T | = det([T ]B ) = |[T ]B | für irgendeine Basis B
Wie für Matrizen liefert auch die Determinante eines Operators ein Invertierbarkeitskriterium.
112
Satz 18.7 Invertierbarkeitskriterium für lineare Operatoren
Ein linearer Operator T eines endlich dimensionalen Vektorraumes ist genau dann invertierbar,
wenn |T | =
6 0.
Beweis:
T : V → V invertierbar ⇔ f bijektiv ⇔ rg(f ) = n ⇔ rg([f ]) = n ⇔ |[f ]| =
6 0.
Zusammenfassend erhält man folgende Liste von Invertierbarkeitskriterien:
Satz 18.8 Invertierbarkeit linearer Operatoren
V sei ein n−dimensionaler Vektorraum und T : V → V ein linearer Operator.
⇔ T injektiv ⇔ T surjektiv ⇔ ker(T ) = {0} ⇔
⇔ def (T ) = 0 ⇔ rg(T ) = n ⇔ def (T ) 6= 0
113
18.3 Affine Abbildungen (Einschub)
Häufig benützte Abbildungen (besonders in der Computergrafik) von der anschaulichen Ebene
auf sich selbst sind: Parallelverschiebung, Parallelprojektion, Zentrische Streckung, Spiegelung,
Drehung um einen Punkt M . Sie erzeugen entweder kongruente oder zumindest ähnliche Figuren
der Ausgangsfigur. Was ist allen diesen Abbildungen gemeinsam? (Siehe Beispiel 1 und 2)
Es gibt aber auch Vorschriften (z.B. Scherungen und Kollineationen), die nicht nur die Größe,
sondern auch die Gestalt einer Figur gänzlich ändern (siehe Beispiel 3).
Es sei daran erinnert, dass man die Punkte der anschaulichen Ebene sowohl als Elemente eines
Vektorraumes (mit den Operationen des Aneinanderfügens nach der Parallelogrammregel und
des Vervielfachens), als auch als elemente eines affinen Raumes auffassen kann.
Alle oben genannten Abbildungen sind, aufgefaßt als Abbildungen eines Vektorraumes, nicht
linear, denn das Bild des Nullvektors 0 ist i.a. verschieden von 0.
f (0) = 0 war aber eine notwendige Bedingung für die Linearität einer Abbildung f .
Eine Ausnahme bilden die Drehungen um 0 selbst.
Sie stehen aber mit linearen Abbildungen in einem engen Zusammenhang:
Jede Punktabbildung“ α : IR2 → IR2 mit α(P ) = P ∗ induziert“ eine Vektorabbildung“
”
”
”
α durch folgende Fortsetzung:
Sei ~u ein geometrischer“ Vektor mit Anfangspunkt P und Endpunkt Q, also ~u = P~Q, dann sei
”
~
α(~u) := α(P~Q) = α(P~ )α(Q).
Die folgenden Abbildungen illustrieren diese von der Abbildung α induzierte Abbildung α.
114
Parallelprojektion in Richtung ~v :
~
~a = AD
−−−−−−−→
α(~a) := α(A)α(D)

α(~a + ~b) = α(~a) + α(~b) 
⇒ α linear ⇒ α affin

α(λ · ~a) = λ · α(~a)
parallel bleibt parallel
Teilverhältnis invariant
Gerade bleibt Gerade
115
α: Zentrische Punktstreckung um Z mit Streckungsfaktor k = 2
α : IR2 → IR2
(IR2 affiner Punktraum)
α(P + Q) 6= α(P ) + α(Q) ⇒ α nicht linear (IR2 als Vektorraum)
α induziert“ eine Abbildung f : IR2 → IR2 vom Vektorraum IR2 auf sich selbst:
”
~ ein Vektor aus IR2 mit Anfangspunkt A und Endpunkt B.
Sei ~x = AB
Die durch die Abbildung α induzierte Abbildung f ist definiert durch:
−−−−−−→
~ := −
f (~x) = f (AB)
α(A)α(B)
Es gilt: f (~a + ~b) = f (~a) + f (~b) ⇒ f ist linear ⇒ α ist eine lineare Abbildung
f (λ · ~a) = λ · f (~a)
116
Scherung
Parallelogramm bleibt Parallelogramm
Winkel verändert, Größe verändert
117
α: Kollineation
118
Verallgemeinerung auf abstrakte Vektorräume und affine Räume
Gegeben sei ein Vektorraum V über dem Körper K. U ,W seien zwei Teilräume von V (U, W / V ).
A und B seien zwei affine Räume in V mit Richtung U bzw. W , P sei ein Punkt von A mit
~ , Q ein Punkte von B mit Ortsvektor q = OQ,
~ also
Ortsvektor p = OP
A = p + U und B = q + W .
(Es kann auch A = B und B = A = V sein!) α sei eine Abbildung vom affinen Raum A auf den
affinen Raum B.
Ist X ein Punkt von A mit Ortsvektor X dann ist x = p + u ⇔ u = x − p = P~X.
Mit α kann durch die Festsetzung
−−−−−−−→
α(u) = α(P~X) := α(P )α(X) ∈ W
α(x − p) = α(x) − α(p) ∈ W
eine Abbildung von der Richtung U auf die Richtung W definiert werden. α heißt die von der
Abbildung α induzierte Abbildung der Differenzräume.
Definition 18.5 :
Eine Abbildung α : A → B heißt affin, wenn die durch α induzierte Abbildung der
Differenzräume eine lineare Abbildung ist.
Geometrische Beispiele:
Die vorhergehenden Beispiele zeigen:
Parallelprojektionen, Scherungen, Parallelverschiebungen, Drehungen, Zentrische Streckungen,
Schubspiegelungen sind affine Abbildungen.
Kollineationen sind keine affinen Abbildungen.
119
Beobachtung: Affine Abbildungen können die
(i) Größe und Gestalt von Figuren invariant lassen (Kongruenzabbildungen: Drehungen,
Parallelverschiebungen ...)
(ii) Größe verändern und die Gestalt invariant lassen (Ähnlichkeitsabbildungen: Zentrische
Streckung, Schubspiegelung)
(iii) Größe und Gestalt verändern (Scherungen)
ein arithmetisches Beispiel: K sei ein Körper
A = K n , B = K m (Beachte: Jeder Vektorraum ist auch ein affiner Raum)
C ∈ K m·n , d~ ∈ K m
α : K n → K m mit
α(~x) := C~x + d~
Sei: ~x = p~ + u ⇔ u = ~x − p~. Die von α induzierte Abbildung α ist definiert durch:
−−−−−−→
α(u) : = α(~x − p~) = α(~
p)α(~x) = α(~x) − α(~
p) =
~ = C~x − C~
= C~x + d~ − (C~
p + d)
p = C(~x − p~) = Cu
Also: α(u) = C · u, das ist eine lineare Abbildung, also ist α eine affine Abbildung.
α selst ist für d~ 6= ~0 nicht linear: α(~0) = C · ~0 + d~ = d~ 6= ~0
Später werden wir sehen, dass sich jede affine Abbildung so darstellen lässt.
2 triviale Beispiele:
(a) Die identische Abbildung ist eine affine Abbildung:
id : A → A, A = p + U, x ∈ A ⇔ x = p + u ⇔ u = x − p
−−−−−−−→
idA (x) = x ⇒ id(u) = id(P~X) = id(p)id(x) = px
~ = x − p = u ⇔ id(~u) =
id(u) ∀u ∈ U ⇒ id = idu ⇒ id linear ⇒ idA ist affin.
(b) Die konstante Abbildung ist eine affine Abbildung:
α : A → B, C ∈ B, x ∈ A
α(u) := c
−−−−−−−→
α(u) = α(P~X) = α(P )α(X) = c − c = 0 ∀u ∈ U ⇒ α = 0 (Nullabbildung)
⇒ α linear ⇒ α affin.
120
(c) Jede lineare Abbildung ist affine, aber nicht umgekehrt:
α : V → W V, W sind auch affine Räume mit Richtung V bzw. W .
α sei linear.
−−−−−−−→
α(u) = α(P~X) = α(P )α(X) = α(x) − α(p) = α(x − p) = α(u) ∀u ∈ V ⇒
α = α ⇒ α linear ⇒ α affin.
Affine Abbildungen zwischen affinen Räumen sind also solche Abbildungen, die lineare Abbildungen zwischen den Differenzenräumen hervorrufen. Umgekehrt ist durch die Vorgabe einer
linearen Abbildung und das Bild eines Punktes eine affine Abbildung eindeutig festgelegt.
Satz 18.9 A und B seien zwei affine Räume mit Richtungen (Differenzenräume) U bzw. W . f
sei eine lineare Abbildung von U nach W und P ∈ A und Q ∈ B mit Ortsvektor q.
Sei X ∈ A mit Ortsvektor x ⇔ x = p + u ⇔ u = x − p ∈ U .
Es gibt genau eine affine Abbildung α : A → B mit α(p) = q und f als induzierte lineare
Abbildung, nämlich:
α(x) = f (x − p) + q = f (x − p) + α(p)
Kurz: Affine Abbildung = Lineare Abbildung + entsprechendes Punktepaar
Beweis:
1. Dieses α bildet p auf q ab: α(p) = f (p − p) + q = f (0) + q = 0 + q = q.
2. Die von α induzierte Abbildung α ist f : α(u) = α(x − p) = α(x) − α(p) = α(x) − q = f (x − p) = f (u)
∀u ⇒ α = f .
3. α ist eindeutig bestimmt:
Seien α1 , α2 zwei solche“ Abbildungen ⇒ α1 (x) − q = α1 (x) − α1 (p) = f (x − p) = α2 (x) − α2 (p) =
”
α2 (x) − q ⇒ α1 (x) = α2 (x) ∀x ∈ A ⇒ α1 = α2 .
Nun ist in einem n−dimensionalen Raum eine lineare Abbildung durch die Bilder von n l.u.
Vektoren eindeutig bestimmt (siehe 17.10).
Nach dem vorhin Gesagten ist daher eine affine Abbildung auf einem n−dimensionalen
affinen Raum durch die Bilder von n + 1 Punkten P0 , . . . , Pn in allgemeiner Lage d.h.,
P0~P1 , . . . , P0~Pn l.u. eindeutig festgelegt.
Das heißt z.B. für die Ebene: Kennt man die Bilder von 3 Punkten in allgemeiner Lage, so kennt
man die Bilder aller Punkte!
121
Beispiel: Bestimme eine Vektorgleichung jener affinen“ Abbildung α : K 3 → K 4 , die durch
”
folgende Punktepaare“ gegeben ist:
”
P0 (1, 0, 0) → Q0 (−1, −1, 3, −2)
P1 (1, 1, 0) → Q1 (−1, 0, −2, 0)
P2 (1, 1, 1) → Q2 (1, −1, 2, −3)
P3 (0, 1, 1) → Q3 (0, 1, −1, −2)
Ist x ∈ K 3 = p + u
α(x) = f (|{z}
u ) + α(p) → α(p0 ) = (−1, −1, 3, −2)
|{z}
x−p
=q
α(~x) = t(~x − p~) + α(~
p)
Nur mehr notwendig: λ1 , λ2 , λ3


 

u1
0
0


 



 

 u2  = λ1  1  + λ2  1


 

u3
0
1
0
0
−1
u1
1
1
1
u2
0
1
1
u3
1
1
1
u2
0
0
−1
u1
0
1
1
u3
1
1
1
u2
0
1
1
u3
0
0
−1
u1
1
1
0
u1 + u2
0
1
0
u1 + u3
0
0
+1
−u1
1
0
0
u2 − u3
= λ1
0
1
0
u1 + u3
= λ2
0
0
1
−u1
= λ3




−1






 + λ3  1 



1

0









 1 




+ (u1 + u3 ) 
f  u2  = (u2 − u3 ) 





 −5 



u3
2

u1


2
LGS in λ1 , λ2 , λ3




1
u1 + 2u3
 


 


 2   −2u1 + u2 − u3
0 
=
 − u1 


 


−1
−4   3u1 − 5u2 + 4u3
 


0
u1 + 2u2 − 3u3
−1








122
x=p+u
   

u
1
x1
    1

   

 x2  =  0  +  u2
   

u3
0
x3








x
x −1 =
 1
 1 



α  x2  = f  x2
=



x3
x3
=

1
0
2


 −2 1 −1
=

 3 −5 4

1
2 −3
u1 = x1 − 1
=⇒ u2 =
x2
u3 =
x3

 

−1
x1 − 1 + 2x3 − 1

 
u1



  −1   −2x1 + 2 + x2 − x3 − 1

+
u2  = 
 
 
 3   3(x1 − 1) − 5x2 + 4x3 + 3

 
u3
−2
x1 − 1 + 2x3 − 3x3 − 2





−2



x
1
 

  1 
 

· x 


+

  2  


 0 



x3
−3




=



Geometrische Charakterisierung von affinen Abbildungen
1. Eine affine Abbildung α ist Unterraum-treu“ (Unterräume werden auf Unterräume ab”
gebildet!) Eigenschaft, Unterraum zu sein, ist eine Invariante von affinen Abbildungen.
Kurz: Ebene bleibt Ebene bzw. Gerade bleibt Gerade (bzw. Degeneration auf einen
Punkt!) Kollineare Punkte werden auf kollineare Punkte abgebildet.
Beweis: A = {x|x = p + U }, α : A → B = {x|x = q + W }, U, W / V
α(A) = {y|y = α(x)} = {y|y = α(p) +f (U )}
|{z}
∈B
Das ist eine Punktmenge der Form: {q + Teilraum von W }, also ein affiner Unterraum von B.
2. Eine affine Abbildung is parallelentreu. D.h.: A1 ||A2 ⇒ α(A1 )||α(A2 )
Beweis (im KV): α(A) = {y|y = α(p) + f (U )}, parallel heißt U1 ⊆ U2 oder U2 ⊆ U1
3. Eine injektive affine Abbildung ist teilverhältnistreu.
D.h. ist λ = T V (a, x, b) ⇒ λ = T V (αa, αx, αb) für a 6= x 6= b
Beweis: Es ist αa 6= αx 6= αb. Ist λ = T V (a, x, b) ⇔ x − a = λ(b − x)
⇒ αx − αa = f (x − a) = f (λ(b − x)) = λf (b − x) = λ(αb − αx)
⇒ T V (αa, αx, αb) = λ.
Insbesondere: Mittelpunkt bleibt Mittelpunkt.
123
Es gilt auch die Umkehrung: Eine Abbildung α : A → B, die kollineare Punkte auf
kollineare Punkte abbildet und dabei das Teilverhältnis invariant läßt, muss eine affine
Abbildung sein!
Satz 18.10 Eine Abbildung ist genau dann affin, wenn sie Geraden auf Geraden abbildet und
teilverhältnistreu ist.
Affine Abbildungen sind sehr verwandt zu linearen Abbildungen:
(i) α bijektiv ⇔ die von α induzierte lineare Abbildung α ist bijektiv.
(ii) Die inverse Abbildung einer bijektiven affinen Abbildung ist wieder affin.
(iii) Die Hintereinanderausführung von affinen Abbildungen ist wieder affin.
(iv) Die identische Abbildung ist eine affine Abbildung.
Satz 18.11 Definition und Satz
Eine Affinität ist eine bijektive affine Abbildung.
Die Affinitäten eines affinen Raumes auf sich selbst bilden eine nichtabelsche Gruppe.
Definition 18.6 Eine Affinität α : A → A heißt Translation, wenn die induzierte lineare
Abbildung die identische Abbildung ist.
Formel“ für Translation: V sei ein Vektorraum über K und U / V .
”
A = {x|x = p ∗ u, u ∈ U }
α(u) = α(x − p) := α(x) − α(p)
| {z }
id(~
x−~
p)=~
x−~
p
⇒ x − p = α(x) − α(p)
α(x) = x + α(p) − p
| {z }
=:~v
α(x) = x + v
(i) Translationen sind bijektiv, weil idA bijektiv!
(ii) idA ist Translation
(iii) Inverse einer Translation ist wieder eine Translation, weil id−1
A = idA .
(iv) Zusammensetzung von Translationen ist wieder Translation, weil idA ◦ idA = idA
124
Satz 18.12 Die Translationen bilden eine abelsche Untergruppe in der Gruppe aller Affinitäten
eines affinen Raumes.
Affine Geometrie (= Menge aller Sätze, die die Inzidenz betreffen) kann aufgefaßt werden als
Menge aller jener Eigenschaften, die bezüglich der Affinitäten invariant bleiben.
(FELIX) KLEIN’sche Erlanger Programm (1905):
Geometrie ordnen nach Invarianten gewisser Abbildungsgruppen.
Affine Geometrie =
ˆ Invarianten gegenüber der Affinitätsgruppe.
Euklidsche Geometrie =
ˆ Invarianten gegenüber der Bewegungsgruppe (Kongruenzabbildungen)
Projektive Geometrie =
ˆ Invarianten gegenüber der Gruppe der projektiven Abbildungen.
Matrixdarstellung von affinen Abbildungen
Wir beschränken uns auf affine Abbildungen α : A → A eines affinen Raumes A in sich. Es sei
dim A = n. U sei die richtung von A (der Differenzenraum) also A = p + U . Dann ist auch
dim U = n. Da die affinen Abbildungen in sehr enger Beziehung zu den linearen Abbildungen
der Differenzenräume stehen, wird man erwarten, dass man auch affinen Abbildungen durch
Matrizen beschreiben wird können.
Um zu diesen Matrizen zu kommen, muss man in A ein Koordinatensystem einführen. Dann
kann man die Punkte“ des affinen Raumes durch n−Tupel und die affine Abbildung als eine
”
Abbildung zwischen diesen n−Tupeln beschrieben.
Sei S = (P0 , P1 , . . . , Pn ) ein Koordinatensystem von A. Dann sind die Vektoren u1 := P0~P1 , . . . , un
:= P0~Pn l.u., also eine Basis B = {u1 , . . . , un } der Richtung U : U =< u1 , . . . , un >.
−−−−−−−→
Ist α affin, dann ist α : U → U mit α(u) = α(P~X) = α(P )α(X) eine lineare Abbildung von U
in U . Daher gibt es nach 8.1 (??) genau eine (n × n)−Matrix C ∈ K n·n mit
[α(u)]B = C · [u]B
∀u ∈ U
Damit erhält man mit x = p + u ⇔ u = x − p
h
i
h−−−−−−−→i
[α(u)]B = α(P~X) = α(P )α(X) = [α(X) − α(P )]S =
B
B
= [α(x)]S − [α(p)]S = C · [u]B = C · [x − p]B = C · [x]S − C · [p]S
125
Aus den unterstrichenen Teilen erkennt man
[α(X)]S = C · [X] + [α(P )] − C · [P ] = C · [X]S + ~c
|
{z
}
=: ~c ∈ K n·n
Damit: Bezüglich eines Koordinatensystems S läßt sich eine affine Abbildung α : A → A durch
eine (n × n)−Matrix und ein n−Tupel beschreiben (durch ein Matrix-Vektor Paar). Umgekehrt ist jede so beschriebene Abbildung affin.
α : A → A ist affin ⇔ [α(X)] = C · [X] + ~c mit ~c = [α(P )] − C · [P ]
C ist dabei die Matrixdarstellung von der durch die von α induzierten linearen Abbildung
bezüglich BS .

 
x01

 
 .  
α : A → A ist affin ↔  ..  = 

 
0
xn
c11
..
.
···
cn1 · · ·

 
c1n
x1

 
..   ..  
.  .  + 

 
cnn
xn

c1

.. 
. 

cn
α ist bijektiv ⇔ α bijektiv ⇔ C invertierbar ⇔ |C| =
6 0.
Satz 18.13 (Matrixdarstellung von affinen Abbildungen)
Eine Abbildung α : A → A eines n−dimensionalen affinen Raumes ist genau dann affin, wenn
sie sich bezüglich eines Koordinatensystems S durch ein Matrix-Vektorpaar beschreiben lässt,
d.h., wenn es eine (n × n)−Matrix C und ein n−Tupel ~c gibt, mit:
[α(X)]S = C · [X]S + ~c
α ist genau dann eine Affinität (reguläre affine Abbildung), wenn |C| =
6 0.
Ist ~c = ~0, dann ist α eine lineare Abbildung.
So ein Matrix-Vektorpaar ~y = C · ~x + ~c mit |C| 6= 0 kann aber auch als Beschreibung einer
affinen Koordinatentransformation angesehen werden:
Ein Wechsel des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes X ∈ A hervor.
S = (P0 , P1 , . . . , Pn ) altes“ Koordinatensystem
”
0
0
0
0
S = (P0 , P1 , . . . , Pn ) neues“ Koordinatensystem
”
[X]S . . . alte“ Koordinaten des Punktes X
”
[X]0S . . . neue“ Koordinaten des Punktes X.
”
126
Die neuen Punkte P00 , . . . , Pn0 lassen sich eindeutig durch die alten ausdrücken.
P0 +
Pn
Pj0 = P00 +
Pn
P00 =
~
i=1 ti P0 Pi
~
i=1 tij P0 Pi
P0 +
Pn
− p0 )
= P00 +
Pn
− p0 ) j = 1, . . . , n
=
i=1 ti (pi
i=1 tij (pi
~ := (ty , . . . , tn )t ;
A
T := (tij )
Beachte: T ist schon transponiert definiert!
Nun ist S 0 = (P00 , P10 , . . . , Pn0 ) genau dann ein Koordinatensystem, wenn
o
n
P0~0 P10 , . . . , P00~Pn0 l.u.
ist, also genau dann, wenn obiges T regulär ist, also |T | =
6 0 ist.
Nach Rechnung ergibt sich für die alten und neuen Koordinaten des Punktes X:
[X]S = T · [X]S 0 + ~t
Kurz: alte Koordinaten = Transformationsmatrix · neue Koordinaten.
Dabei drückt T die neuen Punkte durch die alten Punkte aus.
Weil T regulär ist, existiert T −1 und man kann auch die neuen Koordinaten durch die alten
ausdrücken:
[X]S − ~t = T · [X]S 0 ⇒ [X]S0 = T−1 · ([X]S − t) = T−1 [X]S − T−1 t
Zusammenfassung:
(a) Ein Matrix-Vektorpaar (C, ~c) mit einer regulären (n×n)−Matrix C und ~y = C·~x+~c,|C| =
6 0
kann man auffassen als Beschreibung einer
(i) affinen Koordinatentransformation in einem n−dimenstionalen affinen Raum
A. Dann sind ~y und ~x Koordinatenvektoren ein und desselben Vektors bezüglich
zweier Koordinatensysteme.
(i) regulären affinen Abbildungen von einem affinen Raum A in sich selbst. Dann
sind ~y und ~x die Koordinatenvektoren zweier Punkte (Urbild und Bild) bezüglich
eines Koordinatensystems.
(b) Eine reguläre Matrix C allein und ~y = C~x kann man auffassen als Beschreibung einer
(ii) Basistransformation in einem n−dimenstionalen Vektorraum V . Dann sind ~y und
~x Komponenten ein und desselben Vektors bezüglich zweier Basen oder
(ii) bijektiven linearen Abbildung (Automorphismus) f : V → V . Dann sind ~y
und ~x die Komponenten zweier Vektoren (Bild und Urbild) bezüglich einer Basis.
127
Deutung als Abbildung f : K 2 → K 2
0
0
Deutung als Basiswechsel
 B = {b
 1 , b2 } → {b1 , b2 }
1 −1

C=
1 2
128

Beispiel 1: Gegeben sei die reguläre Matrix C = 
1 −1
1
2

 : ~y = C · ~x
B = {b1 , b2 } sei die alte Basis von V
B 0 = {b01 , b02 } sei gegeben durch
(∗)
b01 = b1 + b2
b02 = −b1 + 2b2

Übergangsmatrix
⇒
C=
|C| = 3 6= 0
1 −1
1
2


Weil |C| =
6 0, ist B 0 = {b01 , b02 } wieder eine Basis vom K 2 .
1. Deutung von (∗) als Basistransformation:
[X]alt = C [X]neu




x1
1 −1
x01
x = x01 − x02

 = 

⇔ 1
x2
1 2
x02
x2 = x01 + 2x02

[X]neu = C −1 [X]alt




0
2 1
x
x0 = 23 x1 − 13 x2
x
 1  ⇔ 1
 1  = 1
3
x02 = − x31 + x32
−1 1
x2
x02

2. Deutung von (∗) als (bijektive) lineare Abbilfung f : V 2 → V 2 :
Durch die Bilder der Basisvektoren
f (b1 ) = b01
f (b2 ) = b02

[f (b1 )]B 0
= 

[f ]B 0 B = 

[f (x)]B 0
= 
ist f eindeutig bestimmt!
1
1

 [f (b2 )]
B0
1 −1
1
2
1 −1
1

2
=
−1
2

⇒

 und


x1
x2


=
x1 − x2
x1 + 2x2


129
19 Eigenwerte und Eigenvektoren
In diesem Kapitel untersuchen wir im Anschauungsraum Vektoren, deren Richtung unter einer
linearen Abbildung nicht verändert wird. Wie alle invarianten Größen spielen sie für die Theorie
und die Anwendungen eine bedeutende Rolle. Ohne Übertreibung kann man sagen, daß ohne
diese invarianten Vektoren ein weiterer Ausbau der Linearen Algebra nicht möglich ist. Wieder
verallgemeinern wir die anschauliche Invarianz der Richtung auf abstrakte Vektorräume.
19.1 Grundlegende Eigenschaften
Bildvektor und Urbildvektor eines linearen Operator T : V → V stehen normalerweise in keiner
geometrischen Beziehung zueinander.
Oft gibt es jedoch Vektoren, die mit ihrem Bildvektor kollinear, also nur skalare Vielfache voneinander sind. Gerade sie erweisen sich als nützlich bei der Beschreibung von Schwingungen,
chemischen Reaktionen, genetischen und ökonomischen Vorgängen. Besonders bedeutsam sind
sie für die Vereinfachung von Beschreibungen von Punktmengen in der Geometrie und für die
Vereinfachung von Matrixdarstellungen bzw. von Matrizen.
Definition 19.1 1. Abbildungstheoretische Formulierung:
V sei ein Vektorraum über K und T : V → V ein linearer Operator auf V .
(i) Ein Eigenvektor (eigenvector, EV) des linearen Operators T ist ein vom Nullvektor verschiedener Vektor x ∈ V , dessen Bild T (x) ein skalares Vielfaches vom Urbild x ist.
Symbolisch:
x EV von T ⇔ x 6= 0 ∧ ∃λ ∈ K : T(x) = λx
Dabei heißt der Skalar λ der zum Eigenvektor x gehörige Eigenwert von T .
(ii) Ein Eigenwert (eigenvalue, EW) des linearen Operators T ist ein Skalar λ, zu dem es
einen vom Nullvektor verschiedenen Vektor x gibt, dessen Bild T (x) gerade das λ−fache
130
von x ist.
λ EW von T ⇔ ∃x 6= 0 : T(x) = λx
Dabei heißt der Vektor x ein zum EW λ gehöriger Eigenvektor von T .
(iii) Der Eigenraum EλT von T zum EW λ ist die Menge aller Eigenvektoren von T zum
Eigenwert λ, zu der noch der Nullvektor 0 hinzugenommen wird. Damit ist der Eigenraum
EλT ein Teilraum von V .
2. Matrizentheoretische Formulierung:
A sei eine quadratische n × n− Matrix über dem Körper K.
(iv) Ein Eigenvektor x̃ von A ist ein n−Tupel ~x 6= ~0, zu dem es einen Skalar λ ∈ K gibt,
mit A~x = λ~x. λ heißt der zum Eigenwert ~x gehörige Eigenwert von A. Symbolisch:
λ EW von A ⇔ ∃x̃ 6= 0̃ : Ax̃ = λx̃
x̃ EV von A ⇔ x̃ 6= 0̃ ∧ ∃λ ∈ K : Ax̃ = λx̃.
(v) Der Eigenraum EλA von A zum EW λ ist die Menge aller Eigenvektoren A zum EW λ
von A einschließlich des Nullvektors ~0.
Beachte: EV und EW sind nur für lineare Operatoren bzw. nur für quadratische Matrizen erklärt. EV und EW von Matrizen sind zugleich die EV und EW des von der Matrix A induzierten
linearen Operators TA : K n → K n mit TA (~x) = A~x.
Geometrische Deutung: Im IR2 bzw. IR3 sind die EV von T jene Vektoren, die durch T
gestreckt bzw. gestaucht werden, eventuell mit einer Orientierungsumkehr. Die EW entsprechen
den Streckungs-(Stauchungs-)faktoren.

Beispiel: ~x =
1


A~x = 
~x =
3
0
8 −1
2

ist EV zum EW λ = 3 von A = 
1
2
=
3
6
=3·
1
2
3
0
8 −1

, denn
= 3 · ~x
1
1ist
kein EV von A, denn

3
0
 1 = 3 6= λ · 1 .
A~x = 
1
7
2
8 −1
Beispiel: T : P1 → P1 mit T (c0 + c1 x) = (c0 − 2c1 ) + (c0 + 4c1 )X
p(x) = −2 + x ist EV zum EW λ = 2 von T , denn T (−2 + x) = −4 + 2x = 2 · (−2 + x).
131
Wie erhält man alle EW und EV eines Operators T ?
a) Berechnung von EW und EV von n × n−Matrizen A:
A~x = λ~x ⇔ A~x − λ~x = ~0 ⇔ A~x = λIn ~x = ~0 ⇔ (A − λIn )~x = ~0
(25)
Der Eigenvektor ~x ist also eine nichttriviale Lösung des homogenen, quadratischen Gleichungssystem (A − λIn )~x = ~0, nach der Fredholm’schen Alternative muß daher
|A − λIn | = 0
gelten.
λ EW zum EV ~x von A ⇔ |A − λIn | = 0
Was ist |A − λIn |?
Für (2 × 2)−Matrizen gilt:
a11 − λ
a12 = λ2 − (a11 + a22 ) · λ + (a11 a22 − a12 a21 ) =
|A − λI2 | = a21
a22 − λ = λ2 − sp(A) · λ + |A|
|A − λI2 | ist also ein Polynom 2. Grades in λ.
Allgemein ist die Determinante
a11 − λ
|A − λIn | = a22 − λ
ann − λ
= (−1)n λn − sp(A) · λ + . . . + |A| =: pA (λ)
ein Polynom n−ten Grades in λ. In der folgenden Definition verwenden wir X statt λ:
Definition 19.2
(i) Das charakteristische Polynom der n×n−Matrix A ist das Polynom
n−ten Grades in X, definiert durch
pA (X) := |A − XIn |.
Die Gleichung |A − XIn | = 0 heißt charakteristische Gleichung von A.
(ii) Das charakteristische Polynom pT (X) eines Operators T : V → V ist das charakteristische
Polynom irgendeiner Matrixdarstellung von T .
pT (X) := |[T] − XIn | = p[T] (X)
132
Die Definition (ii) ist wegen des folgendes Satzes möglich:
Satz 19.1 Ähnliche Matrizen besitzen dasselbe charakteristische Polynom.
Beweis: Ist B ∼2 A ⇒ ∃ ein reguläres P : B = P −1 AP ⇒ pB (X) = |B − XIn | = |P −1 AP − P −1 XIn P | =
|P −1 (A − XIn )P | = |P |−1 |A − XIn ||P | = |P |−1 · |P | · |A − XIn | = |A − XIn | = pA (X).
Spur und Determinante einer Matrix treten als Koeffizienten im charakteristischen Polynom auf:
Satz 19.2 Koeffizienten des charakteristischen Polynoms
pA (X) = (−1)n X n − sp(A) · X n−1 + . . . + |A|.
Bemerkung:
Manchmal ist pA (X) definiert als |XIn − A|, es ändern sich dadurch aber nur Vorzeichen.
Die Äquivalenzkette (25) liefert folgenden Satz:
Satz 19.3 Charakterisierung von EW und EV einer Matrix A
(i) Die EW λ der Matrix A sind genau die Nullstellen ihres charakteristischen Polynoms.
λ EW von A ⇔ pA (λ) = 0
(ii) Die EV ~x von A zum EW λ sind genau die nichttrivialen Lösungen des homogenen Systems
(A − λIn )x̃ = 0̃.
(iii) Der Eigenraum EλA zum EW λ der Matrix A ist der Nullraum der Matrix A − λIn .
EA
λ = N(A − λIn ) = ker(A − λIn )
Damit
dim Eλ = def (A − λIn )
b) Berechnung von EW und EV von linearen Operatoren T : V → V, dim(V) = n
T (x) = λx ⇔ T (x) − λx = 0 ⇔ T (x) − λid(x) = 0 ⇔ (T − λid)(x) = 0
(26)
Ist [T ]B die Matrixdarstellung von T zur Basis B ⇒ [T (x)]B = [T ]B [x]B , also
λ EW von T ⇔ T (x) = λx ⇔ [T (x)]B = [λx]B ⇔ [T ]B [x]B = λ[x]B
(27)
133
also: λ EW von T ⇔ λ EW von [T ]B ⇔ λ Nullstelle von p[T ] (X).
Da nach 18.3 alle Matrixdarstellungen untereinander ähnlich sind und ähnliche Matrizen dasselbe charakteristische Polynom besitzen, genügt es zur Bestimmung der EW von T , irgendeine
Matrixdarstellung zu wählen.
x EV von T zum EW λ ⇔ T (x) = λx ⇔ [T ]B [x]B = λ[x]B ⇔ [x]B ist EV zum EW λ der
Darstellungsmatrix [T ]B .
Zusammenfassend ergibt sich
Satz 19.4 Charakterisierung von EW und EV eines linearen Operators T
(i) Die EW eines linearen Operators T : V → V eines n−dimensionalen Vektorraumes sind
genau die Nullstellen des charakteristischen Polynoms irgendeiner Matrixdarstellung [T ].
(ii) Die EV von T : V → V zum EW λ sind genau jene Vektoren x, deren Koordinatenvektor
[x]B bezüglich einer Basis B von V EV der Darstellungsmatrix [T ]B zum EW λ sind.
(iii) Der Eigenraum EλT zum EW λ des Operator T ist der Kern von T − λid.
ET
λ = ker(T − λid)
Damit:
dim ET
λ = def (T − λid)
Insgesamt ergibt sich folgender Algorithmus zur Berechnung der EW und EV:
Schritt 1: Berechne irgendeine Matrixdarstellung [T ] von T
Schritt 2: Berechne die Nullstellen des charakteristischen Polynoms p[T ] (X) : p[T ] (X) = 0
Das ist ein Polynom n−ten Grades, für große n ist die Berechnung fast hoffnungslos. Man
verwendet geeignete Approximationsverfahren (→ Numerische lineare Algebra)
Schritt 3: Zu jeder Nullstelle λ löse das homogene LGS: ([T ] − λIn )~x = ~0
Bemerkung: Eine n × n−Matrix A bzw. ein linearer Operator eines n−dimensionalen
Vektorraumes hat höchstens n EW und höchstens n l.u. EV.
Bemerkung: Die EW können komplex sein, auch von reellen Matrizen. Dann können sie auch
komplexe EV besitzen (deshalb benötigt man eine Theorie komplexer Vektorräume).
Eine komplexe n × n−Matrix hat nach dem Fundamentalsatz der Algebra stets n EW.
134
Satz 19.5 Ähnlichkeitsinvarianz von EW
Das charakteristische Polynom, die Eigenwerte und die Eigenraumdimension von Matrizen sind
Ähnlichkeitsinvarianten, d.h., ist B ∼2 A, dann gilt
(i) pB (X) = pA (X)
(ii) λ ist EW von A ⇔ λ ist EW von B
(iii) dim EλA = dim EλB
Beweis von (ii) und (iii):
(ii) λ ist EW von A ⇔ pA (λ) = 0 ⇔ pB (λ) = 0 ⇔ λ ist EW von B
(iii) dim EλB = def (B − λIn ) = n − rg(B − λIn ) = n − rg(p−1 (A − λIn ) = n − rg(A − λIn ) = def (A − λIn ) =
dim EλA .
Zusammenfassung der bisherigen Ähnlichkeitsinvarianten:
Tabelle der Ähnlichkeitsinvarianten
Invariante
Beschreibung
Determinante
det A = det(P −1 AP )
Invertierbarkeit
A invertierbar ⇔ P −1 AP invertierbar
Rang
rg(A) = rg(P −1 AP )
Defekt
def (A) = def (P −1 AP )
Spur
sp(A) = sp(P −1 AP )
Charakteristisches Polynom
det(A − XI) = det(P −1 AP − XI)
Eigenwerte
λ EW von A ⇔ λ EW von P −1 AP
Eigenraumdimension
dim(EλA ) = dim(EλP
−1 AP
)
135
Satz 19.6 Eigenwert und Invertierbarkeit
(i) Eine quadratische Matrix ist genau dann invertierbar, wenn 0 kein EW von A ist.
(ii) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist genau dann
invertierbar, wenn 0 kein EW von T ist.
Beweis: (i) A invertierbar ⇔ |A| 6= 0.
Sei λ EW von A ⇒ pA (λ) = (−1)n λn + . . . + |A| = 0. Wäre λ = 0 EW von A ⇒
pA (0) = |A| = 0 ⇒ A nicht invertierbar.
(ii) T invertierbar ⇔ [T ]B invertierbar für irgendeine Basis B (Invertierbarkeit ist eine Ähnlichkeitsinvariante)
⇔ 0 ist kein EW von [T ]B ⇔ 0 ist kein EW von T .
Zusammenfassung der bisherigen Invertierbarkeitskriterien:
Tabelle der wichtigsten Invertierbarkeitskriterien
Die quadratische
Der lineare Operator T eines
n × n−Matrix A
n−dimensionalen Vektorraumes
ist genau dann invertierbar, wenn gilt
det(A) 6= 0
det(T ) 6= 0
rg(A) = n
rg(T ) = n
def (A) = 0
def (T ) = 0
λ = 0 ist kein EW von A
λ = 0 ist kein EW von T
A~x = ~0 ist nur trivial lösbar
ker(T ) = {0}
A~x = ~b ist für alle ~b
T (v) = w ist für alle w
eindeutig lösbar
eindeutig lösbar
A∗ A ist invertierbar
T ist injektiv
Spaltenvektoren von A sind l.u.
T ist surjektiv
Zeilenvektoren von A sind l.u.
136
19.2 Minimalpolynom einer Matrix
Neben dem charakteristischen Polynom spielt das Minimalpolynom einer Matrix eine wichtige
Rolle, besonders für das Vereinfachen von Matrizen. Beide stehen in einem engen Zusammenhang zueinander. Grundlage ist der folgende Satz:
Satz 19.7 von CAYLEY–HAMILTON
Jede quadratische n × n−Matrix A ist Nullstelle ihres charakteristischen Polynoms:
pA (A) = 0
1−X 2
1 2
Beispiel: A = 3 2 pA (X) = 3
2−X
2
2
X ↔ A, X ↔ A , 4 ↔ 4In
A2 − 3A − 4E = 97 106 − 3 13 22 − 4 10 01 = 00
= X 2 − 3X − 4
0
0
Beweis: pA (X) = |A − XIn | = (−1)n X n + an−1 X n−1 + . . . + a1 X + a0
Die Elemente der Adjungierten (A − XIn )adj sind Kofaktoren von A − XIn , also Determinanten
von (n − 1) × (n − 1)−Determinanten und damit Polynome in X vom Grad höchstens n − 1.
(A − XIn )adj = Bn−1 X n−1 + . . . + B1 X + B0 , wobei die Bi m × n−Matrizen über K sind z.B.:



 

B2
B1
B0
z
}|
{
}|
{
}|
{
z
z




 


2
2
2
 1 1 1 
 0 0 1   0 −1
1 
X
X −1 X +X +1











 



2
+X 
+
 X
 = X ·
X2 + 1 X2 + 1
0 1 1 
0 0 0 
0
1
1 










 







X + 1 X2
X2 − 1
0 −1 
 0 1 1 
 1 0 0   1

Für die Adjungierte gilt:
(A − XIn ) · (A − XIn )adj = |A − XIn | · In
(A − XIn )(Bn−1 X n−1 + . . . + B1 X + V0 ) = ((−1)n X n + an−1 X n−1 + . . . + a1 X + a0 ) · In
137
Ausmultiplizieren und Ordnen nach Potenzen von X ergibt:
−Bn−1 = (−1)n In
·An
−Bn−2 + ABn−1 = an−1 In
·An−1
−Bn−3 + ABn−2 = an−2 In
..
..
.
.
·An−2
−B0 + AB1 = a1 In
·A
AB0 = a0 In
·In
−An Bn−1 = (−1)n An
−An−1 Bn−2 + An Bn−2 = an−1 An−1
An−2 Bn−3 + An−1 Bn−2 = an−2 An−2
..
.
−AB0 + A2 B1 = an A
AB0 = a0 In
0 = (−1)n An + an−1 An−1 + . . . + a1 A + ao In = pA (A).
Eine n × n−Matrix erfüllt also zumindest eine Polynomgleichung n−ten Grades. Es kann aber
sein, daß eine Matrix A eine Polynomgleichung niedrigeren Grades erfüllen kann.
Beispiel:


2 0
 : pA (X) = X 2 − 4X + 2X,
A=
0 2

 
 
4
0
8
0
4 0
−
+
pA (A) = A2 − 4A + 4I2 = 
4 0
0 8
0 4

 
2 0
−
Es gilt aber auch für p(X) = X − 2 : p(A) = 
0 2


=
2 0
0 2
0 0
0 0
 
=

.
0 0
0 0


Definition 19.3 Minimalpolynom einer Matrix bzw. eines Operators
Das Minimalpolynom mA (X) der quadratischen n × n− Matrix A ist das eindeutig bestimmte
normierte Polynom kleinsten Grades mit mA (A) = 0.
Das Minimalpolynom mT (X) des linearen Operators T : V → V ist das normierte Polynom
kleinsten Grades mit mT (T) = 0.
138
Satz 19.8 Eigenschaften des Minimalpolynoms
(i) Das Minimalpolynom der Matrix A ist stets Teiler des charakteristischen Polynoms
mA (X)/pA (X).
Es teilt überhaupt alle jene Polynome f (X), die A als “Nullstelle” besitzen, für die also
f (A) = O. Also: f (A) = O ⇒ mA (X)/f (X). Umgekehrt gilt: pA (X)/[m(X)]n .
(ii) Das charakteristische Polynom und das Minimalpolynom einer Matrix A haben dieselben
unzerlegbaren Faktoren (irreduziblen Faktoren). Insbesondere haben sie dieselben Linearfaktoren, daher gilt:
(iii) λ EW von A ⇔ λ ist Nullstelle des Minimalpolynoms von A.
(iv) T : V → V invertierbar ⇔ Der konstante Koeffizient des Minimalpolynoms m(X) ist von
Null verschieden, als m(0) 6= 0.
(v) Sei T : V → V , linear und invertierbar und dim(V ) = n. Dann läßt sich T −1 als Polynom
höchstens (n − 1)−ten Grades in T darstellen.
139
Beweis:
(i) Sei f (X) ein Polynom mit f (A) = O. Nach dem Euklidischen Divisionsalgorithmus gibt es Polynome
q(X), r(X) mit f (X) = mA (X)q(X) + r(X) und r(X) = O ∨ [r] < [mA ]. Ist r(X) = O ⇒ mA (X)/f (X).
Andernfalls erhält man durch Einsetzen von X = A : f (A) = mA (A)q(A)+r(A). Wegen f (A) = O = m(A)
erhält man r(A) = O. A wäre also Nullstelle eines Polynoms von kleinerem Grad als der des Minimalpolynoms, da ist ein Widerspruch zur Minimalität, also muß r(X) = O sein und damit gilt: f (X) =
mA (X) · q(X) ⇔ mA (X)/f (X). Insbesondere gilt die Aussage für f (X) = pA (X).
Zum Beweis von pA (X)/[mA (X)]n :
Sei mA (X) = X r + m1 X r−1 + . . . + mr−1 X + mr
Wir definieren folgende Matrizen:
B0 := I, B1 := A + m1 I, B2 := A2 + m1 A + m2 I, . . . ,
Br−1 := Ar−1 + m1 Ar−2 + . . . + mr−1 · I
und B(X) := X r−1 B0 + X r−1 B1 + . . . + XBr−2 + Br−1
Dann ist
(A − XI)B(X)=X r−1 AB0 + X r−2 AB1 + . . . + ABr−1 − (X r B0 + X r−1 B1 + . . . + XBr−1 ) =
=X r B0 − X r−1 (B1 − AB0 ) − X r−2 (B2 − AB1 ) − . . . − X(Br−1 − ABr−2 ) + ABr−1
=X r I − X r−1 m1 I − X r−2 m2 I − . . . − Xmr−1 I − mr I = −m(X) · I
Nach dem Produktsatz für Determinanten gilt:
|A − XI| · |B(X)| = (−1)n [m(X)]n · |I| = (−1)n [mA (X)]n ,
| {z } | {z }
pA (X)
∈K[X]
also teilt pA (X) die n−te Potenz des Minimalpolynoms.
(ii) Sei p(X) ein irreduzibles Polynom, das m(X) teilt. Aus p(X)/m(X)/pA (X) folgt dann p(X)/pA (X). Ist
p(X) ein Teiler von pA (X), dann folgt aus pA (X)/m(X)n , daß p(X)/[m(X)]n , wegen der Irreduzibilität
von p(X) also auch p(X)/m(X).
(iii) λ EW von A ⇔ pA (λ) = 0 ⇔ (X − λ)/pA (X) ⇔ (X − λ)/mA (X) ⇔ mA (X) = (X − λ)q(X) ⇔ mA (λ) = 0.
(iv) T invertierbar ⇔ T nichtsingulär ⇔ 0 kein EW von T ⇔ 0 keine Nullstelle von m[T ] ⇔ m(0) 6= 0.
(v) Sei mT (X) das Minimalpolynom von T ⇒ mT (X) = X r + m1 X r−1 + . . . + mr−1 X + mr mit r ≤ n.
T invertierbar ⇔ mr 6= 0.
mT (T ) = T r + m1 T r−1 + . . . + mr−1 T + mr I ⇒ I = − m1r (T r−1 + m1 T r−2 + . . . + mr−1 I) · T ⇒
T−1 = −
1
(Tr−1 + m1 Tr−2 + . . . + mr I)
mr
Für Blockmatrizen und Blockdiagonalmatrizen vereinfacht sich die Berechnung des charakteristischen Polynoms und des Minimalpolynoms.
140
Satz 19.9 Blockmatrizen

A1 B


A2

(i) Es sei M = 



0
...
C
...
D
..
.
..




, wobei A1 , A2 , . . . , An quadratische Matrizen sind.



. An
Das charakteristische Polynom der triangulären Blockmatrix M ist das Produkt der charakteristischen Polynome der Ai :
pM (X) := pA1 (X) · pA2 (X) · . . . · pAr (X)

A1


(ii) Es sei M = 


0
A2
0
..
. An


, wobei A1 , A2 , . . . , An quadratische Matrizen sind.

Das Minimalpolynom der Blockdiagonalmatrix M ist das kleinste gemeinsame Vielfache
der Minimalpolynome der Ai .
mM (X) = kgV(mA1 (X), . . . , mAr (X)).
Ist λ ein EW von A, dann ist λ Nullstelle von pA (X), also ist das Polynom pA (X) durch den
Linearfaktor X − λ teilbar. Ist λ eine k−fache Nullstelle von pA (X), dann ist pA (X) teilbar
durch (X − λ)k ⇒ pA (X) = (X − λ)k · q(X).
Satz 19.10 Vielfachkeit eines Eigenwertes
(i) Die algebraische Vielfachheit des EW λ von A ist die Anzahl der Linearfaktoren (X−λ)
im charakteristischen Polynom pA (X). Symbolisch:
algebraische Vielfachheit von X ist
k ⇔ (X − λ)k /pA (X) ⇔ pA (X) = (X − λ)k · q(X).
(ii) Die geometrische Vielfachheit des EW λ von A ist die Anzahl der zu λ l.u. EV. Symbolisch:
geometrische Vielfachheit von λ ist r ⇔ dim(EA
λ)=r
(iii) Die geometrische Vielfachheit eines EW von der Matrix A bzw. des Operators T ist
nicht größer als seine algebraische Vielfachheit.
141
Beweis: Sei r die geometrische Vielfachheit des EW λ von f ⇒ dim(Eλ ) = r ⇒ ∃r l.u. EV
{x1 , . . . , xr } zum EW λ. Nach dem Basisergänzungssatz kann man sie zu einer Basis von V
ergänzen:
V =< x1 , . . . , xr , w1 , . . . , wn−r > .
Bezüglich dieser Basis gilt:
f (x1 ) = λx1
f (x2 ) = λx2
..
.
f (xr ) = λxr
f (wi ) = ai1 x1 + . . . + air xr + air+1 w1 + . . . + ain wn−r
i = 1, . . . , n − r
Die Matrixdarstellung von f sieht daher folgend aus:

λ


 0
[f ] = M = 

 0

0
..
.
0



0 A 



0 λ

O
B
Damit ist:
..
· |B − XIn−r | = (λ − X)r · |B − XIn−r | ⇒
.
λ−X (λ − X)r /pM (X) ⇒ (X − λ)r /pM (X).
λ−X
pM (X) = |M − XIn | = Ist k die algebraische Vielfachheit von λ ⇒ pM (X) = (X − X)k · q(X) ⇒ r ≤ k.
Das folgende Beispiel soll zeigen, daß jedes normierte Polynom bis auf das Vorzeichen als charakteristisches Polynom einer Matrix auftreten kann.
142
Beispiel: a0 , a1 , . . . , an−1 ∈ K = IR,C.
I
Die Matrix F ∈ K n·n der folgenden Form heißt FROBENIUS–Matrix.


0
1
0
...
0





 0
0
1
...
0


F := 


 0
0
0
...
1


−a0 −a1 −a2 . . . −an−1
(Manchmal ist sie auch transponiert definiert).
Das charakteristische Polynom pF (x) = (−1)n (a0 + a1 x + a2 x2 + . . . + an−1 xn−1 + xn ) und ist
λ ein EW von F , dann ist
~x = (1λ, λ2 , . . . , λn−1 )
zugehöriger EV.
Wegen rg(F − λIn ) = n − 1 ist die geometrische Vielfachheit eines jeden EW (unabhängig von
der algebraischen Vielfachheit)
1
0
−1
0
−x
1
pf (X) = 0
0
0
−a0 −a1 −a2
stets 1.
...
0
0
...
0
0
...
−x
1
. . . −an−2 −an−1
= Entwicklung nach der letzten Zeile
= (−1)n+1 (−a0 ) + (−1)n+2 (−a1 )(−x) + (−1)n+3 (−a2 )(−x2 ) + . . . +
+ (−1)2n−1 (−an−2 )(−x)n−2 + (−1)2n (−an−1 − x)(−x)n−1 =
= (−1)n (a0 + a1 x + . . . + an−1 xn−1 + xn ) .
|
{z
}
f (x)∈K[x]
Zu jeden normierten Polynom f (x) ∈ K[x] gibt es eine Matrix, nämlich die FROBENIUS–
Matrix aus den Koeffizienten des normierten Polynoms, das bis auf das Vorzeichen f (x) als
charakteristisches Polynom besitzt.



f (x) = x − 5x + 3x + 2 ⇔ Af = 

3
2
0
1 0



0
0 1 

−2 −3 5
Die Begleitmatrix Af eines normierten Polynoms f (x) = a0 + a1 x + . . . + an−1 xn−1 + xn ist
die Frobenius–Matrix seiner Koeffizienten.
143
19.3 Eigenwerte und Eigenvektoren spezieller Matrizen
Satz 19.11 Eigenwerte von speziellen Matrizen
A, B seien quadratische n × n−Matrizen, T : V → V linear, dim(V ) = n
(i) AB und BA haben dieselben EW.
(ii) Die Transponier At hat dieselben EW wie W .
(iii) Die Eigenwerte einer Dreiecksmatrix sind die Elemente in der Hauptdiagonale.
(iv) Die Eigenwerte einer Blockdiagonalmatrix bzw. einer Block-Dreiecksmatrix (blocktrianguläre Matrix) sind die Eigenwerte der Matrizen in der Hauptdiagonalen.
(v) Eine hermitesche Matrix (A∗ = A) hat nur reelle Eigenwerte. Insbesondere sind alle
Eigenwerte einer symmetrischen Matrix reell.
(vi) Eine schiefhermitesche Matrix (A∗ = −A) hat nur rein imaginäre Eigenwerte.
(vii) Eine unitäre Matrix (A∗ = A−1 ) hat nur Eigenwerte mit Betrag 1, also nur EW der
Form: (λ = eiϕ cos ϕ + i sin ϕ). Insbesondere hat eine orthogonale Matrix nur ±1 als
Eigenwerte.
(viii) Ist A eine reguläre Matrix, dann hat A∗ A nur positive, reelle Eigenwerte.
Beweis:
(i)
1. Sei λ = 0 ein EW von AB ⇔ AB singulär ⇔ A oder B singulär (weil das Produkt von regulären
Matrizen wieder regulär ist) ⇔ BA singulär ⇔ λ = 0 ist auch EW von BA.
2. Sei λ 6= 0 ein EW von AB ⇒ ∃~
x 6= ~0 : AB~
x = λ~
x. Wir setzen mit diesem ~
x:~
y := B~
x. Dafür gilt:
A~
y = A(B~x) = (AB)~
x = λ~
x 6= ~0 (weil λ 6= ~0 ∧ ~
x 6= 0) ⇒ ~
y = ~0 (sonst wäre A~
y = ~0). Dieses ~
y 6= ~0 ist
EV von BA zum EW λ, denn: (BA)~
y = BAB~
x = B(AB~
x) = B(λ~
x) = λ(B~
x) = λ~
y . Also ist λ EW
von BA. Analog ist jeder von Null verschiedene EW von BA auch EW von AB.
(ii) At und A haben dieselben charakteristischen Polynome, denn: (A − XIn )t = At − XInt = At − XIn . Da
die Determinante beim Transponieren gleich bleibt, gilt:
pA (X) = |A − XIn | = |(A − XIn )t | = |At − XIn | = pAt (X).
Damit haben At und A auch dieselben EW.
144
(iii) Die Matrix A − XIn ist wieder eine Dreiecksmatrix:
0
a11 − X
a12
a1n
1
0
..
.
a22 − X
a2n
..
.
C
C
C
C
C
C
A
0
0
B
B
B
A − XIn = B
B
B
@
..
.
...
ann − X
Damit ist pA (X) = |A − XIn | = (a11 − X)(a22 − X) . . . (ann − X) ⇒ die EW sind gegeben durch
a11 , a22 , . . . , ann .
(iv) Induktionsanfang:
0
1
A1 B
A , A1 , A2 quadratische Matrizen
M := @
0 A2
˛
˛
˛
˛
˛ A1 − XI
˛
B
˛ = |A1 − XI| · |A2 − XI| nach S 311.2.
pM (X) = ˛˛
˛
˛
A2 − XI ˛
Durch Induktion zeigt man die Behauptung.
(v) Sei λ EW von A = A∗ mit EV ~
x : A~
x = λ~
x.
Beweis mittels der Verschiebungsformel:
λ<~
x, ~
x >=< λ~x, ~
x >=< A~
x, ~
x >=< ~
x, A∗ A~
x >=< ~
x, λ~
x >= λ < ~
x, ~
x >⇒ λ = λ ⇒ λ ∈ IR.
(vi) Beweis mittels der Verschiebungsformel: λ < ~
x, ~
x >=< λ~
x, ~
x >< A~
x, ~
x >=< ~x, A∗ ~
x >=< ~
x, (−A)~
x >=
−<~
x, A~
x >= −λ < ~
x, ~
x >⇒ λ = −λ ⇒ λ imaginär.
(vii) Sei λ EW von A mit A∗ = A−1 mit EV ~
x 6= 0 : A~
x = λ~
x.
x, ~
x >=< λ~
x, λ~
x >=< A~
x, A~
x >=< ~
x, A∗ A~
x >=< ~
x, A−1 A~
x >=< ~
x, ~
x >.
λλ < ~
Wegen < ~
x, ~
x >6= 0 gilt damit λλ = 1 ⇒ |λ| = 1.
(viii) Sei ~
x 6= ~0 EV von A∗ A zum EW λ. Dann ist auch A~
x 6= ~0 (sonst wäre A singulär), daher ist < A~
x, A~
x>
größer als 0.
λ<~
x, ~
x >=< λ~
x, ~
x >=< A∗ A~
x, ~
x >=< A~
x, A~
x >.
Weil < ~
x, ~
x > und < A~
x, A~
x > beide positive sind, ist auch λ positiv.
Satz 19.12 Lineare Unabhängigkeit von Eigenvektoren
T : V → V , linear, dim(V ) = n.
A sei eine quadratische n × n−Matrix.
(i) Eigenvektoren von T zu verschiedenen Eigenwerten sind l.u.
(ii) Eigenvektoren zu verschiedenen Eigenwerten einer hermiteschen (symmetrischen)
Matrix stehen orthogonal aufeinander.
(iii) Eine reelle, symmetrische Matrix hat mindestens einen reellen Eigenvektor!
145
Beweis:
(i) λ1 , . . . , λm seien paarweise verschiedene EW von T (d.h., λi 6= λj für i 6= j) und x1 , . . . , xm die dazugehörigen EV. Beweis durch vollständige Induktion nach m:
m = 1 : x1 6= 0 als EV ⇒ x1 l.u.
Seien {x1 , . . . , xr } l.u., dann sind auch {x1 , . . . , xr+1 } l.u.
Sei k1 x1 + . . . + kr xr + kr+1 + xr+1 = 0.
(28)
a) Multiplikation von (28) mit λr+1 ergibt:
λr+1 k1 x1 + . . . + λt+1 kr xr + λr+1 kr+1 xr+1 = 0
(29)
b) Anwenden von T auf (28) ergibt:
T (k1 x1 + . . . + kr xr + kr+1 xr+1 = T (0) = 0
k1 T (x1 ) + . . . + kr T (xr ) + kr+1 T (xr+1 ) = 0
k1 λ1 x1 + . . . kr λr xr + kr+1 λr+1 xr+1 = 0
(30)
Subtrahiert man (29) von (30), so erhält man (die letzten Summanden sind gleich und fallen weg):
k1 (λ1 − λr+1 )x1 + . . . + kr (λr − λr+1 )xr = 0.
Weil {x1 , . . . , xr } l.u. ⇒ ki (λi − λr+1 ) = 0 i = 1, . . . , r ⇒ ki = 0 für i = 1, . . . , r, weil λi − λr+1 6= 0
nach Voraussetzung.
Aus (28) folgt dann: kr+1 xr+1 = 0. Wegen xr+1 6= 0 (als EV) muß kr+1 = 0 sein. Damit ist (28) nur
möglich, wenn alle Koeffizienten ki = 0(i = 1, . . . , r + 1) ⇒ {x1 , . . . xr , xr+1 } l.u.
(ii) Sei Ax~1 = λ1 x~1 und Ax~2 = λ2 x~2 mit λ1 6= λ2 und At = A ⇒< A~
x, ~
y >=< x, A~
y > (Verschiebungsformel).
Damit ist λ1 < x~1 , x~2 >=< λ1 x~1 , x~2 >=< Ax~1 , x~2 >=< x~1 , Ax~2 >=< x~1 , λ2 x~2 >= λ2 < x~1 , x~2 >
⇒ (λ1 − λ2 · < x~1 , x~2 >⇒< x~1 , x~2 >= 0 (weil λ1 − λ2 6= 0).
(iii) Eine reelle symmetrische Matrix hat nur reelle EW. Aus λ reell ⇒ A − λIn reell und singulär ⇒ ∃~
x ∈ IRn :
(A − λIn )~
x = ~0 ⇒ ~
x reeller EV.
Satz 19.13 Basen aus Eigenvektoren
(i) Hat ein linearer Operator T : V → V mit n = dim(V ) verschiedene EW, dann hat V eine
Basis aus Eigenvektoren.
(ii) Die Summe von Eigenräumen zu verschiedenen Eigenwerten ist eine direkte:
Eλ1 + . . . + Eλr = Eλ1 ⊕ . . . ⊕ Eλr
146
Beweis:
(i) n verschiedene EW ⇒ n l.u. EV. Je n l.u. Vektoren bilden eine Basis.
(ii) Sei x1 + x2 + . . . + xr = x01 + x02 + . . . + x0r mit xi , x0i ∈ Eλi
(x1 − x01 ) + (x2 − x02 ) + . . . + (xr − x0r ) = 0
(31)
Wäre xi − x0i 6= 0, dann wären xi − x0i EV zu λi (i = 1, . . . , r). (31) ist eine nichttriviale Linearkombination,
die 0 ergibt, also wären xi − x0i l.a. EV zu den verschiedenen EW λi , Widerspruch.
Die Eigenschaft der Orthogonalität der Eigenvektoren einer Matrix ist nicht nur eine Spezialität
der symmetrischen Matrizen. Im folgenden werden wir sehen, daß sie allen jenen Matrizen A
zukommt, die mit ihrer Transponiert–Konjugierten A∗ vertauschbar sind, wie z.B.:

A=

A∗ = 

AA∗ = 

A∗ A = 
1

i
1 2+1
1
1



−i 2 − i

1
i
1
1

1 2+i
−i 2 − i

1
1
1
i

−i 2 − i
1 2+i


=


=
2
2 + 2i
2 − 2i
6
2
2 + 2i
2 − 2i
6




Definition 19.4 Normale Matrizen
Eine quadratische Matrix A heißt normal, wenn sie mit ihrer Konjugiert–Transponierten A∗
vertauschbar ist. A normal ⇔ AA∗ = A∗ A
Satz 19.14 Beispiele normaler Matrizen
Jede unitäre (orthogonale), hermitesche (symmetrische) und jede schiefhermitesche Matrix ist
normal.
Beweis:
A unitär ⇒ AA∗ = AA−1 = A−1 A = A∗ A
A hermitesch ⇒ AA∗ = AA = A∗ A
A schiefhermitesch ⇒ AA∗ = A(−A) = −AA = (−A)A = A∗ A
147
Alle unsere bisherigen Typen von Matrizen sind also Spezialfälle von normalen Matrizen. Es
gibt aber
andere normale Matrizen
(auch
 auch 

 im Reellen), die nicht
 vomobigen Typ sind, z.B.
1 2
1 −2
5 0
 ⇒ A∗ = At = 
 und AAt = At A = 

A=
−2 1
2
1
0 5
Satz 19.15 Eigenschaften normaler Matrizen
A sei eine normale n × n−Matrix über K = CI bzw IR,
λ ∈ K, ~x ∈ K n .
(i) A~x = ~0 ⇔ A∗ ~x = ~0
(ii) Mit A ist auch A − λIn normal
(iii) A~x = λ~x ⇔ A∗ ~x = λ~x.
Jeder EV von A ist auch EV von A∗ , allerdings zum konjugiert–komplexen EW (im Reellen
also wieder zum gleichen EW).
(iv) Eigenvektoren von normalen Matrizen zu verschiedenen Eigenwerten sind orthogonal.
Beweis:
(i) Es gilt: < A~
x, A~
x >=< A∗ ~
x, A∗ ~
x >. Nach der Verschiebungsformel gilt:
< A~
x, A~
x >=< ~
x, A∗ A~
x >=< ~
x, AA∗ ~
x >=< A∗ ~
x, A∗ ~
x >.
Also ist A~
x = ~0 ⇔< A~
x, A~
x >=< ~0, ~0 >= 0 =< A∗ ~
x, A∗ ~
x >⇔ A∗ ~
x = 0 wegen (S4).
(ii) (A − λIn )(A − λIn )∗ = (A − λIn )(A∗ − λIn ) = AA∗ − λA∗ − λA + λλIn = A∗ A − λA − λA∗ + λλIn
(A − λIn )∗ (A − λIn ) = (A − λIn )(A − λIn ) = A∗ A − λA − λA∗ + λλIn = AA∗ − λA − λA + lλIn .
(iii) Sei A~
x = λ~
x ⇒ (A − λIn )~
x = 0 ⇒ (wegen der Normalität von A − λIn und (i))
(A∗ − λIn )~
x = ~0 ⇒ A∗ ~
x = λ~
x.
(iv) Sei Ax~1 = λx~1 und Ax~2 = λ2 x~2 mit λ1 6= λ2 .
λ1 < x~1 , x~2 >=< λx~1 , x~2 >=< Ax~1 , x~2 >=< x~1 , a∗ x~2 >=< x~1 , λ2 x~2 >= λ2 < x~1 , x~2 >= λ2 < x~1 , x~2 >.
Dann ist:
λ1 < x~1 , x~2 > −λ2 < x~1 , x~2 >= 0 ⇒ (λ1 − λ2 )· < x~1 , x~2 >= 0. Wegen λ1 6= λ2 ist dann < x~1 , x~2 >= 0 ⇒
x~1 ⊥ x~2 .
148
Zusammenfassung der bisherigen Typen von quadratischen Matrizen:
Tabelle verschiedener quadratischer Matrizen A
Bezeichnung
Definition
Besonderheiten
A normal
A∗ A = AA∗
orthogonale EV zu verschiedenen EW
A symmetrisch
At = A
nur reelle EW
A hermitesch
A∗ = A
nur reelle EW
A schiefhermitesch
A∗ = −A
nur imaginäre EW
A schiefsymmetrisch
At = A−1
nur imaginäre EW
A orthogonal
At = A−1
nur ±1 als EW
A unitär
A∗ = A−1
nur EW vom Betrag 1: λ = cos ϕ + i sin ϕ
149
20 Linearität in Skalarprodukträumen
Lineare Abbildungen sind verträglich mit den Vektorraumoperationen. In Skalarprodukträumen
(V, <, >) wird man darüber hinaus an solchen Abbildungen interessiert sein, die zusätzlich noch
das Skalarprodukt respektieren bzw. eine “Verschiebungsformel” wie bei Matrizen erlauben. Damit erhält man weitere Lösbarkeitsbedingungen für lineare Operatorgleichungen.
20.1 Orthogonale und unitäre Abbildungen
Es werden jene aus der Anschauung bekannten Abbildungen auf abstrakte Skalarprodukträume
verallgemeinert, die Abstand und Winkel invariant lassen, wie z.B. Drehungen und Spiegelungen.
Leider haben sie über komplexe bzw. reelle Vektorräume gänzlich verschiedene Namen.
Definition 20.1 Orthogonale bzw. unitäre Abbildungen
(V, <, >) und (W, <, >) seien Skalarprodukträume über K, K = IR oder K = C.
I
Eine orthogonale (unitäre) Abbildung ist eine lineare Abbildung f : (V, <, >) → (W, <, >),
die das Skalarprodukt invariant läßt:
f orthogonal (unitär) ⇔< f (x), f (y) >=< x, y >
Bemerkung: Das Wort unitär wird nur bei Verwendung von komplexen Zahlen benützt. Verwendet man nur reelle Zahlen, spricht man von orthogonal.
Beispiel: Der durch eine orthogonale (unitäre) Matrix A induzierte Operator
TA : IRn → IRn (ICn → CI n ) mit TA (~x) = A · ~x ist ein orthogonaler (unitärer) Operator. Nach ??
(iv) gilt nämlich: < A(~x), A(~y ) >=< A~x, A~y >=< ~x, ~y >.
Beispiel: Die Drehungen um ±90◦ , ±180◦ , ±270◦ um den Ursprung 0 sind orthogonal.
Satz 20.1 Eigenschaften von orthogonalen (unitären) Abbildungen
(i) Orthogonale (unitäre) Abbildungen sind stets injektiv. Damit: Orthogonale (unitäre) Abbildungen von endlich–dimensionalen Vektorräumen sind stets Isomorphismen.
(ii) f orthogonal (unitär) ⇔ kf (x)k = kxk. Orthogonale (unitäre) Abbildungen f lassen die
Norm unverändert. Orthogonale Abbildungen lassen damit auch Winkel invariant.
150
(iii) f : V → W ist genau dann orthogonal (unitär), wenn das Bild einer ON–Basis wieder
eine ON–Basis ist.
f orthogonal ⇔ ((e1 , . . . , en ) ON–Basis ⇒ (f (e1 ), . . . , f (en )) ON–Basis)
(iv) f : V → W ist genau dann orthogonal (unitär), wenn die Matrixdarstellung [f ] von f
bezüglich ON–Basen eine orthogonale (unitäre) Matrix ist.
f orthogonal (unitär) ⇔ [f ] orthogonal (unitär).
(v) Die Determinante eines orthogonalen (unitären) Operators hat stets den Betrag 1:
det(f ) = ±1 im Reellen bzw. | det(f )| = 1 im Komplexen.
Beweis:
(i) Sei x ∈ ker(f ) ⇔ f (x) = 0 ⇒< x, x >=< f (x), f (x) >=< 0, 0 >= 0 ⇒ x = 0.
(ii) kf (x)k2 < f (x), f (x) >=< x, x >= kxk2
cos < (f (x), f (y)) =
<f (x),f (y)>
kf (x)k·kf (y)k
=
<x,y>
kxk·kyk
= cos < (x, y)
(iii) 1. Sei f orthogonal (unitär) ⇒< f (ei ), f (ej ) >=< ei , ej >= δij
P
P
2. Sei < f (ei ), f (ej ) >= δij ⇒ für x =
λi ei und y =
µi ei gilt:
P
P
P
< f (x), f (y) >=< f ( i λi ei ), f ( j µj ej ) >= i,j λi µj < f (ei ), f (ej ) >=
P
P
P
P
= i,j λi µj δij = i,j λi µj < ei , ej >=< i λi ei , j µj ej >=< x, y >
(iv) Bezüglich ON–Basen gilt:
< x, y > = [y]∗ [x]
< f (x), f (y) = [f (y)]∗ [f (x)]
Aus < f (x), f (y) = < x, y > folgt dann:
[f (y)]∗ [f (x)] = [y]∗ [x], also
([f ][y])∗ ([f ][x]) = [y]∗ [x]
y ∗ ([f ]∗ [f ])[x] = [y]∗ In [x]
∀x, y,
insbesondere für die Basisvektoren, daher ist:
[f ]∗ [f ] = In ⇒ [f ] ist unitär
Ist umgekehrt [f ] unitär bezüglich einer ON–Basis:
< f (x), f (y) = [f (y)]∗ [f (x)] = ([f ][y])∗ ([f ][x]) = [y]∗ ([f ]∗ [f ])[x] = [y]∗ In [x] = [y]∗ [x] =
< x, y >, also ist f unitär.
(v) det(f ) = det([f ]). Da [f ] unitär ist, folgt die Behauptung aus Kapitel ?? (5).
151
Definition 20.2 Spezielle orthogonale Abbildungen
Die Menge der orthogonalen (unitären) Isomorphismen eines Skalarproduktraumes V wird mit
O(V ) bzw. U (V ) bezeichnet. Statt O(IRn ) schreibt man kurz O(n), analog U (n). Orthogonale Isomorphismen bzw. orthogonale Matrizen mit Determinante +1 heißen auch spezielle orthogonale
Abbildungen bzw. Matrizen, bezeichnet mit O+ (n) bzw. O+ (V )).
Satz 20.2 Die orthogonale Gruppe
(i) O(V ) bzw. U (V ) bildet bezüglich der Hintereinanderausführung eine Gruppe:
Sie heißt die orthogonale (unitäre) Gruppe.
(ii) O+ (n) bzw. O+ (V ) bildet eine Untergruppe von O(n) bzw. O(V ) bezüglich ◦.
O+ (n) C O(n); O+ (V ) C O(V )
Beweis: (i) Produkt und Inverse von orthogonalen (unitären) Abbildungen sind wieder orthogonal (unitär):
< (f ◦ g)(x), (f ◦ g)(x) >=< f (g(x)), f (g(y)) >=< g(x), g(y) >=< x, y >.
Sei f −1 (x) = x0 ⇔ f (x0 ) = x
< f −1 (x), f −1 (y) >=< x0 , y 0 >=< f (x0 ), f (y 0 ) >=< x, y >.
(ii) gilt nach dem Produktsatz für Determinanten.
20.2 Adjungierte Abbildungen
Der 4–Teilräumesatz für Matrizen, eine Folgerung aus der Verschiebungsformel, hat sich für lineare Gleichungssysteme als ein wichtiges Werkzeug erwiesen. Da nun lineare Abbildungen verallgemeinerte Matrizen sind, versucht man, die Verschiebungsformel für Matrizen < A~x, ~y >=<
~x, A∗ ~y > auf lineare Abbildungen zu verallgemeinern. Die der konjugiert–transponierten Matrix
A∗ (nicht der adjungierten Matrix X adj !) entsprechenden Abbildung heißt die adjungierte Abbildung. Dadurch erhält man einen entsprechenden 4–Teilräume–Satz für lineare Operatoren und
damit ein wichtiges Werkzeug zur Untersuchung von linearen Operatorgleichungen in Skalarprodukträumen. Durch das Verhalten beim Übergang T → T ∗ können weiters spezielle Operatoren
charakterisiert werden. Zum Schluß zeigen wir, daß dem Adjungieren der Operatoren das Konjugieren der komplexen Zahlen entspricht.
152
Beispiel:
Gegeben sei T : CI 3 → CI 3 mit
T (x1 , x2 , x3 ) = (2x1 + ix2 , x2 − 5ix3 , x1 + (1 − i)x2 + 3x3 )
Dazu definieren wir einen Operator T ∗ auf folgende Art und Weise:
1. Berechne die Matrixdarstellung [T ] bezüglich einer ON–Basis.
2. Bilde die Konjugiert–Transponierte [T ]∗ .
3. T ∗ sei nun jener Operator, der [T ]∗ als Matrixdarstellung besitzt:




2
i
0
2 0
1








[T ]St =  0
1
−5i  ⇒ [T ]∗St =  −i 1 1 + i 




1 1−i 3
0 5i
3
Damit ist T ∗ = CI 3 → CI 3 mit
T ∗ (x1 , x2 , x3 ) = (2x1 + x3 , −ix1 + x2 + (1 + i)x3 , 5ix2 + 3x3 )
Für das so definierte T ∗ gilt die Verschiebungsformel
< T (~x), ~y >=< ~x, T ∗ (~y ) >:

2x1 + ix2


< T (~x), ~y >=<  x2 − 5ix3

x1 + (1 − i)x2 + 3x3
 
y1

 

 

 ,  y2  >=
 

y3
= 2x1 y¯1 + 2x2 y1 + x2 y¯2 − 5ix3 y¯2 + x1 y¯3 + (1 − i)x2 y¯3 + 3x3 y¯3

<
~x, T ∗ (~y )
x1
 
2y1 + y3

 

 
>=<  x2  ,  −iy1 + y2 + (1 + i)y3

 
x3
5iy2 + 3y3



 >=

= 2x1 y¯1 + x1 y¯3 + ix2 y1 + x2 y¯2 + (1 − i)x2 y¯3 − 5ix3 y¯2 + 3x3 y¯3
Es ist: < T (~x)~y >=< ~x, T ∗ (~y ) >.
153
Definition 20.3 Die Adjungierte einer linearen Abbildung
f : V → W sei eine lineare Abbildung der Skalarprodukträume V in W .
Die Adjungierte f ∗ von f ist jene Abbildung f ∗ : W → V , für die die Verschiebungsformel
< f (x), y >=< x, f ∗ (y) > ∀x ∈ V und ∀y ∈ W
gilt.
Satz 20.3 Existenz und Eindeutigkeit der Adjungierten
f : V → W , linear und f ∗ : W → V sei die zu f adjungierte Abbildung.
(i) Falls eine lineare Abbildung f eine Adjungierte f ∗ besitzt, ist sie eindeutig bestimmt.
(ii) Die Adjungierte f ∗ von f ist wieder eine lineare Abbildung, und zwar von W in V .
(iii) Zwischen endlich–dimensionalen Vektorräumen existiert zu jeder linearen Abbildung f
stets die dazu Adjungierte f ∗ : f ∗ ist die von der Matrix [f ]∗ induzierte lineare Abbildung, wobei [f ] die Matrixdarstellung von f bezüglich einer ON–Basis ist.
(iv) In unendlich–dimensionalen Vektorräumen muß es keine Adjungierte geben.
Beachte: Bei f ∗ sind Definitions– und Wertemenge gegenüber f vertauscht.
Beweis:
Wir werden im folgenden oft folgende Eigenschaft des Skalarproduktes verwenden:
Ist < x, A >=< x, B > ∀x ⇒ A = B :
< x, A >=< x, B >⇒< x, A > − < x, B >= 0 ⇒< x, A − B >= 0∀x ⇒ A − B = 0 ⇒ A = B
(i) Seien f ∗ und f 0 zwei Adjungierte, dann gilt:
< f (x), y >=< x, f ∗ (y) >=< x, f 0 (y) > ∀x, y ⇒ f ∗ (y) = f 0 (y)∀y ⇒ f ∗ = f 0 .
(ii) < f (x), λ1 y1 + λ2 y2 >=< x, f ∗ (λ1 y1 + λ2 y2 ) > und
< f (x), λ1 y1 + λ2 y2 >= λ1 < f (x), y1 > +λ2 < f (x), y2 >=
= λ1 < x, f ∗ (y1 ) > +λ2 < x, f ∗ (y2 ) >=< x, λ1 f ∗ (y1 ) + λ2 f ∗ (y2 ) >.
Damit ist
< x, f ∗ (λ1 y1 + λ2 y2 ) >=< x, λ1 f ∗ (y1 ) + λ2 f ∗ (y2 )∀x ∈ V ⇒
f ∗ (λ1 y1 + λ2 y2 ) = λ1 f ∗ (y1 ) + λ2 f ∗ (y2 ) ⇒ f ∗ ist linear
154
(iii) Sei f ∗ : W → V mit [f ∗ ] = [f ]∗ bezüglich ON–Basen. Für diese Abbildung f ∗ gilt die Verschiebungsformel
(beachte die Definition der Matrixdarstellung [f ] : [f (x)] = [f ][x]).
< f (x), y > = [y]∗ [f (x)] = [y]∗ [f ][x]
< x, f ∗ (y) > = [f ∗ (y)]∗ [x] = ([f ]∗ [y])∗ [x] = [y]∗ [f ][x]
Beachte: Ist [f ] die Matrixdarstellung von f bezüglich einer ON–Basis, dann ist die Matrixdarstellung von f ∗ bezüglich einer ON–Basis gegeben durch die Konjugiert–Transponierte von [f ]: [f ∗ ] = [f ]∗ .
(iv) Gegenbeispiel: V = P [x], < f, g >=
R1
0
f (x)g(x)dx.
D sei der Differentialoperator auf P [x] : D(f (x)) = f 0 (x).
D hat keine Adjungierte D∗ , d.h.:
R1
R1
< D(f ), g >= 0 f 0 · gdt 6= 0 f g 0 dt =< f, D(g) >.
Satz 20.4 Algebraische Eigenschaften der Adjungierten
S und T seien lineare Operatoren auf V, λ ∈ K = IR,C.
I Dann gilt:
(i)
(S + T )∗ = S ∗ + T ∗
(ii)
(λT )∗ = λT ∗
(iii
(ST )∗ = T ∗ S ∗
(iv)
(T ∗ )∗ = T
Beweis:
(i)
< (S + T )(x), y > = < S(x) + T (x), y >=< S(x), y > + < T (x), y >=
= < x, S ∗ (y) > + < x, T ∗ (y) >=< x, (S ∗ + T ∗ )(y) > ∀x, y.
S ∗ + T ∗ besitzt die Adjungierteneigenschaft von (S + T ), weil diese eindeutig bestimmt ist, ist S ∗ + T ∗ die
Adjungierte von S + T , also (S + T )∗ = S ∗ + T ∗
(ii)
< T ∗ (x), y > = < x, (T ∗ )∗ (y) > und
< T ∗ (x), y > = < y, T ∗ (x) > = < T (y), x > = < x, T (y) > =< x, T (y) >
Also ist: < x, (T ∗ )∗ (y) >=< x, T (y) > ∀x, y ⇒ (T ∗ )∗ (y) = T (y)∀y ⇒ (T ∗ )∗ = T
Mittels der Adjungierten läßt sich nun auch der Vier–Teilräumesatz für Matrizen auf lineare
Abbildungen verallgemeinern:
155
Satz 20.5 Vier–Teilräume–Satz für lineare Operatoren
f : V → W sei eine lineare Abbildung zwischen endlichdimensionalen Vektorräumen.
(i)
[im(f )]⊥ = ker(f ∗ )
(ii)
im(f ) = (ker(f ∗ ))⊥
(iii)
[ker(f )]⊥ = im(f ∗ )
(iv)
ker(f ) = [im(f ∗ )]⊥
Beweis wie für Matrizen.
Zusammen mit dem Dimensionssatz kann man damit die Ranggleichheit von f auf f ∗ zeigen.
Dies stellt die Verallgemeinerung der Eigenschaft des gleichen Zeilen– und Spaltenranges dar.
Satz 20.6 Ranggleichheit von f und f ∗
In endlich–dimensionalen Vektorräumen haben f : V → W und f ∗ : W → V denselben Rang.
Beweis:
rg(f ) = dim(im(f )) = dim[(ker(f ∗ ))]⊥ = dim(W ) − dim(ker(f ∗ )) = dim(im(f ∗ )) = rg(f ∗ ).
Der Vier–Teilräume–Satz gilt nicht ganz in unendlich–dimensionalen Vektorräumen, wohl aber:
Satz 20.7 Orthogonalität von Bild und Kern
f : V → W sei linear und besitze eine Adjungierte f ∗ : W → V .
(i) im(f ) ⊥ ker(f ∗ )
(ii) ker(f ) ⊥ im(f ∗ )
Beweis:
Sei y ∈ im(f ) und W ∈ ker(f ∗ ) ⇒ ∃x ∈ V : y = f (x). Dann ist
< y, w >=< f (x), w >=< x, f ∗ (w) >=< x, 0 >= 0 ⇒ im(f ) ⊥ ker(f ∗ ). Analog folgt (ii).
Damit kann man auch in unendlich–dimensionalen Vektorräumen Lösbarkeitsbedingungen für
lineare Operatorgleichungen angeben:
inhomogene lineare Operatorgleichung: f (x) = y (I)
homogene adjungierte Operatorgleichung: f ∗ (u) = 0 (H ∗ )
Satz 20.8 Lösbarkeitsbedingungen für Operatorgleichungen
f : V → W sei linear und habe eine Adjungierte f ∗ .
(i) f (x) = y hat nur dann eine Lösung, wenn y ⊥ ker(f ∗ ).
Sind V, W endlich–dimensional, dann gilt sogar:
(ii) f (x) = y hat genau dann eine Lösung, wenn y auf jede Lösung von f ∗ (u) = 0 steht.
Also: (I) lösbar ⇔ y ⊥ (H ∗ ).
156
Beweis:
(i) f (x) = y hat Lösung ⇔ y ∈ im(f ) ⊥ ker(f ∗ ) nach (20.7 (i)).
(ii) (I) lösbar ⇔ y ∈ im(f ) = [ker(f ∗ )]⊥ nach (20.7 (ii)).
So wie für quadratische Gleichungssysteme gilt auch für lineare Operatoren T : V → V (allerdings nur in endlich–dimensionalen Skalarprodukträumen) die FREDHOLM–Alternative, wenn
folgende Bezeichnungen eingeführt werden:
T (x) = y
(I)
inhomogene Operatorgleichung
T (x) = 0
(H)
dazugehörige homogene Operatorgleichung
T ∗ (u) = v
(I ∗ )
inhomogene adjungierte Operatorgleichung
T ∗ (u) = 0
(H ∗ )
dazugehörige homogene adjungierte Operatorgleichung
Satz 20.9 FREDHOLMsche Alternative für Operatorgleichungen
Entweder sind (H) und (H ∗ ) nur trivial lösbar, wobei dann (I) und (I ∗ ) eindeutig lösbar sind
oder (H) und (H ∗ ) haben beide nichttriviale Lösungen, wobei dann (I) genau dann lösbar ist,
wenn y auf alle Lösungen von (H ∗ ) orthogonal steht
und (I ∗ ) genau dann lösbar ist, wenn v auf alle Lösungen von (H) orthogonal steht.
Beweis:
Aus rg(f ) = rg(f ∗ ) folgt nach dem Dimensionssatz def (f ) = def (f ∗ ) ⇒ (H) und (H ∗ ) haben beide keine
nichttrivialen Lösungen oder beide haben nichttriviale Lösungen. Das andere folgt aus (20.7).
20.3 Normale Operatoren
Mit Hilfe der Adjungierten können nun verschiedene Klassen von linearen Operatoren
T : V → V charakterisiert (= definiert) werden. So gilt z.B. für unsere orthogonalen (unitären)
Operatoren aus 20.1 in der “Sprache der Adjungierten”:
T unitär ⇔< T (x), T (y) >=< x, y >.
Wegen < T (x), T (y) >=< x, T ∗ T (y) > ist dies gleichbedeutend mit:
T unitär ⇔< x, (T ∗ T )(y) >=< x, y >⇔
< x, (T ∗ T )(y) >=< x, id(y) > ∀x, y ⇔ (T ∗ T )(y) = id(y)∀y ⇔ T ∗ T = id ⇔ T∗ = T−1
T unitär bedeutet also in der Sprache der adjungierten Abbildung T ∗ :
T unitär ⇔ T ∗ = T −1 (T −1 existiert, weil unitäre Abbildungen stets invertierbar sind.)
Genauso werden wir in 20.4 mittels der Adjungierten T ∗ weitere Operatoren definieren.
157
Da weiters die Matrixdarstellung verträglich bezüglich den Rechenoperationen ist, (bezüglich
einer ON–Basis gilt auch (siehe 20.1(iii)) [T ∗ ] = [T ]∗ ) für ON–Basen:
T unitär ⇔ [T ∗ ] = [T −1 ] ⇔ [T ]∗ = [T ]−1 ⇔ [T ]∗ [T ] = In ⇔ [T] unitär.
Bezüglich ON–Basen ist also die Matrixdarstellung vom selben Typ (nämlich unitär) wie die Abbildung. Dieses Verhalten werden wir auch bei den folgenden Abbildungen beobachten können.
Definition 20.4 Charakterisierung von Operatoren
(V, <>) sei ein n−dimensionaler Skalarproduktraum über K = IR,C.
I
Name
⇔ Verhalten bei
Adjungation
⇔
Matrixdarstellung
bez. einer ON–Basis
T normal
T T ∗ = T ∗T
[T ] normal
T unitär
T ∗ = T −1
[T ] unitär
T orthogonal
Tt = T
[T ] orthogonal
T selbstadjungiert
T∗ = T
[T ] hermitesch
(hermitesch in CI
(symmetrisch)
symmetrisch in IR
Tt = T
T schiefadjungiert
T ∗ = −T
[T ] schiefsymmetrisch
schiefhermitesch in CI
schiefsymmetrisch in IR
T t = −T
T positiv definit
∃ reguläres S mit
[T ] positiv definit
T = S∗S
T positiv semidefinit
∃S : T = S ∗ S
[T ] positiv semidefinit
Diese Tabelle ist folgend zu lesen:
Ein Operator T : V → V heißt normal, wenn er mit seiner Adjungierten vertauschbar ist. T ist
genau dann normal, wenn seine Matrixdarstellung bezüglich einer ON–Basis normal ist.
Bemerkung: Alle aufgezählten Typen sind normale Operatoren. Positiv (semi) definite Operatoren und orthogonale Projektionen sind sogar Sonderfälle von selbstadjungierten Operatoren
(siehe 20.10) und (20.14 (i)).
158
Damit ergibt sich folgende Hierarchie:
Satz 20.10 Charakterisierungen von positiven Operatoren
(i) Folgende Bedingungen sind äquivalent:
a) P = T 2 für irgendeinen selbstadjungierten Operator T
b) P = S ∗ S für irgendeinen Operator S
c) P ist selbstadjungiert und < P (x), x >≥ 0 ∀x ∈ V .
(ii)
a) P = T 2 für irgendeinen regulären selbstadjungierten Operator T
b) P = S ∗ S für irgendeinen regulären Operator S
c) P ist selbstadjungiert und < P (x), x > 0 ∀x ∈ V .
Beweis: (a) ⇒ (b) ⇒ (c) ⇒ (a)
a) ⇒ b): Sei P = T 2 mit T = T ∗ ⇒ P = T T = T ∗ T, also gilt b) mit S = T
b) ⇒ c): P = S ∗ S ⇒ P ∗ = S ∗ (S ∗ )∗ = S ∗ S = P ⇒ P selbstadjungiert
< P (x), x >=< (S ∗ S)(x), x >=< S(x), S(x) ≥ 0
c) ⇒ a): Wir werden in Satz 21.8 zeigen:
Ist P selbstadjungiert, dann gibt es eine ON–Basis (e1 , . . . , en ) von V aus EV von P , also: P (ei ) = λi ei .
Nach Satz 19.11 (v) sind die λi reell. Mittels c) gilt:
λi ≥ 0, denn: 0 ≤< P (ei ), ei >=< λi ei , ei >= λi < ei , ei >. Damit ist
| {z }
≥0
√
λi ist eine reelle Zahl.
159
√
λi ei i = 1, . . . , n. Nach dem Fortsetzungssatz ist T eindeutig festgelegt. T ist
√
√
selbstadjungiert, weil [T ] = diag( λ1 , . . . , λn ). Weiters ist
√
√
√ √
T 2 (ei ) = T (T (ei )) = T ( λi ei ) = λi T (ei ) = λi λi ei = λi ei = P (ei ), ⇒ T 2 = P (Fortsetzungssatz).
Es sei T definiert durch T (ei ) =
T heißt auch die positive Quadratwurzel von P.
Damit kann man zeigen:
Satz 20.11 Produktdarstellung linearer Operatoren
T : V → V , V endlichdimensionaler Skalarproduktraum.
Zu jedem linearen Operator T existieren ein eindeutiger positiver Operator P und ein unitärer
(orthogonaler) Operator U mit
T = UP.
Ist T invertierbar, dann ist auch U eindeutig bestimmt.
Beweis für invertierbares T : Nach 20.10 ist T ∗ T ein positiver Operator ⇒ ∃ positiven, selbstadjungierten Operator
P mit T ∗ T = P 2 .
kP (x)k2 =< P (x), P (x) >=< P 2 (x), x >=< T ∗ T (x), x >=< T (x), T (x) >= kT (x)k2 .
Wir setzen U := P T −1 , dann ist U unitär:
∗
U = (P T −1 )∗ = (T −1 )∗ P ∗ = (T ∗ )−1 P und
∗
U U = (T ∗ )−1 P P T −1 = (T ∗ )−1 P 2 T −1 = (T ∗ )−1 T ∗ T T −1 = id.
Nun sei U := U
−1
⇒ U ist unitär und T = U P .
Dieser Satz zeigt eine gewisse Analogie zu den komplexen Zahlen:
z = reiϕ = r(cos ϕ + i sin ϕ) r ≥ 0 = P
keiϕ | = | cos ϕ + sin ϕ| = 1
eiϕ = U
|U | = 1
z=T
Beobachtung: Die positiven Operatoren spielen die Rolle von positiven reellen Zahlen, die
unitären die Rolle der komplexen Zahlen auf dem Einheitskreis.
Eine ähnliche Analogie zeigt auch folgender Satz:
160
Satz 20.12 Symmetrische Darstellung normaler Operatoren
T : V → V , V endlichdimensionaler Skalarproduktraum.
Zu jedem Operator T existieren hermitesche Operatoren A und B mit
T = A + iB und AB = BA.
Beweis: A := (T + T ∗ )/2 und B = (T − T ∗ )/2i
T
= (T + T ∗ )/2 + i(T − T ∗ )/2i
A∗ =
1
(T
2
B∗ =
1
(T
−2i
AB =
1
(T
2
=
BA =
=
+ T ∗ )∗ = 12 (T ∗ + T ∗∗ = 21 (T ∗ + T ) = A
1
− T ∗ )∗ = − 2i
(T ∗ − T ∗∗ ) =
1
+ T ∗ ) 2i
(T − T ∗ ) =
1
(T 2
4i
1
(T
2i
− T ∗) = B
+ T ∗ T − T T ∗ − T ∗2 ) =
− T ∗2 ) weil T T ∗ = T ∗ T
− T ∗ ) 12 (T + T ∗ ) =
1
(T 2
4i
1
(T 2
4i
1
(T
2i
1
(T 2
4i
− T ∗ T + T T ∗ − T ∗2 ) =
− T ∗2 ).
Beobachtung: Die selbstadjungierten Operatoren spielen die Rolle von reellen Zahlen.
Damit können wir insgesamt folgende Analogien zwischen der Algebra der linearen Operatoren auf Skalarprodukträumen und dem Körper der komplexen Zahlen feststellen:
Hom(V, V ) ←→ CI
Verhalten bei
CI
Konjugation
Verhalten bei
Hom(V, V )
T → T∗
z→z
Einheitskreis
z=
1
z
= z −1
Unitäre (orthogonale)
|z| = 1
Operatoren
reelle Zahlen
Selbstadjungierte
z=a
z=z
Adjungation
Operatoren
T ∗ = T −1
T∗ = T
(hermitesche Operatoren)
imaginäre Achse
z = bi
Schiefadjungierte
z = −z
Operatoren
T ∗ = −T
(Schiefhermitesche)
Positive reelle
Halbachse
z ∈ (0, ∞)
z = ww, w 6= 0
Positiv definite
T = S∗S
Operatoren
S regulär
161
20.4 Projektionen und Orthogonalprojektionen
In diesem Kapitel werden die anschaulichen Begriffe Projektion und Orthogonalprojektion auf
abstrakte Vektorräume verallgemeinert und als idempotente bzw. selbstadjungierte lineare Abbildungen “entlarvt”. Damit kann dann gezeigt werden, daß Projektionen als Bausteine beliebiger
Operatoren aufgefaßt werden können. Insbesondere können mit ihrer Hilfe Operatoren mit vorgegebenen EW und EV konstruiert werden!
Beispiel A
V =U ⊕W
x = u + w mit u ∈ U und w ∈ W
P (x) := u Q(x) := w
P : Projektion auf U in Richtung W
Die Projektion auf U in Richtung W geht
von x aus parallel zu W auf U .
Q: Projektion auf W in Richtung U
im(P ) = U ker(P ) = W
im(Q) = W, ker(P ) = U
rg(P ) = dim(U )
rg(Q) = dim(W )
P 2 = P, Q2 = Q: idempotent
P, Q linear
P Q = QP = 0 (Nullabbildung)
P + Q = id
P Projektion auf U in Richtung W ⇔
V = im(P ) ⊕ ker(P )
V ist direkte Summe von Bild und Kern
von P
Also: Direkte Zerlegung von V entsprechen Zerlegungen der identischen
Abbildung in vertauschbare
Projektionen.
Beispiel B
U⊥
U ⊥
V =
x = u + u0 mit u ∈ U und u ∈ U ⊥
P (x) := u Q(x) = u0
P : Orthogonalprojektion auf U in Richtung
U⊥
Die Orthogonalprojektion auf U geht von x aus
senkrecht auf U
Q: Orthogonalprojektion auf U ⊥ in Richtung U
U = im(P ) ⊥ im(Q) = U ⊥
P 2 = P, Q2 = Q
P, Q linear
P Q = QP = 0
P + Q = id
P Orthogonalprojektion auf U ⇔
V = im(P )
⊥ ker(P )
V ist orthogonale Summe von Bild und Kern von
P.
Also: Orthogonale Zerlegungen von V
entsprechen Zerlegungen der identischen Abbildung in vertauschbare
Orthogonalprojektionen.
162
Definition 20.5 Projektionen
(i) U und W seien zwei direkte Komplemente von V . Die Projektion P : V → U auf U
in Richtung W ist jener Operator auf V , der jedem x ∈ V seine direkte Komponenten
bezüglich U zuordnet.
Symbolisch: Sei V = U ⊕ W und x = u + w mit u ∈ U und w ∈ W , dann ist P (x) := u.
(ii) Ist V ein endlichdimensionaler Skalarproduktraum, dann ist die orthogonale Projektion
auf U die Projektion in Richtung U ⊥ .
Bemerkung: Wegen der Direktheit der Summe ist u eindeutig bestimmt, daher ist P (x)
tatsächlich eine Abbildung. Wegen der Endlichdimensionalität von V ist V = U ⊕ U ⊥ , also
eine Projektion in Richtung U ⊥ möglich. Orthogonale Projektionen sind aber keine orthogonalen Abbildungen! (Daraus sieht man wieder, wir unglücklich der Name “orthogonale Abbildung”
gewählt wurde.)
Satz 20.13 Eigenschaften von Projektionen
U, W C V mit V = U ⊕ W
P Projektion auf U in Richtung W, Q Projektion auf W in Richtung U .
(i) P ist linear
(ii) P ist idempotent, also P 2 = P
(iii) im(P ) = U, ker(P ) = W , also: V = im(P ) ⊕ ker(P )
(iv) Mit P ist auch id − P wieder eine Projektion und P (id − P ) = (id − P )P = 0
(v) ker(P ) = im(id − P ) und im(P ) = ker(id − P )
(vi) P singulär ⇔ P 6= id, d.h., jede nichttriviale Projektion ist singulär
(vii) P (x) = x ∀x ∈ im(P ), d.h., P ist auf im(P ) die identische Abbildung
(viii) P Q = QP = 0, d.h., P und Q sind vertauschbar
(ix) P + Q = id
163
Beweise:
(i) Sei x = u + w und y = u0 + w0 ⇒ x + y = (u + u0 ) + (w + w0 ) und λx = λu + λw ⇒ P (x + y) = u + u0 =
P (x) + P (y) und P (λx) = λu = λP (x)
(ii) P 2 (x) = P (P (x)) = P (u) = u = P (x) ∀x ∈ V ⇒ P 2 = P
(iii) Sei u ∈ U ⇒ u = u + 0 mit 0 ∈ W ⇒ P (u) = u ⇒ u ∈ im(P ) ⇔ U ⊆ im(P )
Sei u ∈ im(P ) ⇒ ∃v ∈ V : P (v) = u ⇒ P (u) = P (P (v)) = P 2 (v) = P (v) = u ⇒ u ∈ U ⇒ im(P ) ⊆ U ⇒
im(P ) = U
Sei w ∈ W ⇒ w = 0 + w mit 0 ∈ U ⇒ P (w) = 0 ⇒ w ∈ ker(P )
Sei y ∈ ker(P ) ⇒ P (y) = 0 ⇒ y = 0 + y mit y ∈ W ⇒ ker(P ) ⊆ W
Damit ist V = U ⊕ W = im(P ) ⊕ ker(P )
(iv) id−p ist wieder linear. (id−p)(id−p) = id(id−p)−p(id−p) = id2 −id·p−p·id+p2 = id−p−p+p = id−p
p(id − p) = p · id − p2 = p − p = 0
(id − p)p = id · p − p2 = p − p = 0
(v) x ∈ ker(p) ⇒ p(x) = 0 ⇒ (id − p)(x) = x − p(x) = x − 0 = x ⇒ x ∈ im(id − p)
x ∈ im(id − p) ⇒ ∃y : x = (id − p)(y) = y − p(y) ⇒ p(x) = p(y − p(y)) = p(y) − p2 (y) =
p(y) − p(y) = 0 ⇒ x ∈ ker(p)
(vi) Ist ker(p) = {0} ⇔ im(id − p) = {0} ⇔ (id − p)(x) = 0∀x ∈ V ⇔ id(x) − p(x) = x − p(x) = 0
⇔ p(x) = x∀x ∈ V ⇔ p = id
(vii) Sei x ∈ im(p) ⇒ ∃y ∈ V : x = p(y) ⇒ p(x) = p(p(y)) ⇒ p(x) = p2 (y) = p(y) = x
(viii) Q(x) ∈ W = ker(P ) nach (iii) ⇒ P (Q(x)) = 0 ⇒ P Q(x) = 0 ∀x ∈ V ⇒ P Q = 0
analog ist QP = 0
(ix) (P + Q)(x) = P (x) + Q(x) = u + w = x = id(x) ∀x ∈ V ⇒ P + Q = id
Definition 20.6 Projektion auf die i−te Koordinatenachse
Sei B = (b1 , . . . , bn ) eine Basis von V und x = k1 b1 + . . . ki bi + . . . + kn bn .
Die Abbildung Pi : V → V mit Pi (x) := ki bi heißt die Projektion auf die i–te Koordinatenachse.
Die Projektion Pi auf den i−ten Basisvektor ordnet jedem Vektor x die i−te Komponente
bezüglich B zu.
Wegen V =< b1 > ⊕ < b2 > ⊕ . . . ⊕ < bn > sind diese Pi (i = 1, . . . , n) nach 20.13 Projektionen
auf < bi >, also Projektionen vom Rang 1 und P1 + P2 + . . . + Pn = id.
Anwendung: Konstruktion von Operatoren mit vorgegebenen EW λ1 , . . . λr und dazugehörigen l.u. EV x1 , . . . , xr .
164
Ergänze (x1 , . . . , xr ) zu einer Basis B = (x1 , . . . , xr+1 , xr , . . . xn ) und stelle x als LinearkombiP
nation der Basisvektoren dar: x = i ki xi von V .
Definiere Pi : V → V (i = 1, . . . , n) wie in Definition 20.6, also: Pi (x) := ki xi und setze
P := λ1 P1 + . . . + λn Pn : V → V .
Für dieses P gilt (wegen xi = 0 · x1 + . . . + 1 · xi + . . . + 0 · xn )
P (xi ) = (λ1 P1 +. . .+λn Pn )(xi ) = λ1 P1 (xi )+. . .+λn Pn (xr ) = λ1 ·0+. . .+λi ·1·xi +. . .+λn ·0 =
= λi xi , also ist xi EV von P zum EW λi .
Beispiel: Konstruiere in K 3 einen Operator T , der x~1 = (1, 2, 3) und x~2 = (1, 0, 1) als EV zu
den EW λ1 = 6 λ2 = 2 besitzt.
1. Basis B vom K 3 : B = (x~1 , x~2 , (0, 0, 1))
2. Koordinaten des allgemeinen Vektors ~x = (x, y, z) bezüglich B:
1
1 0 x
2 2 0 2x
2
0 0 y
0 2 0 2x − y
3
1 1 z
0 0 1 −x − y + z
1
1 0 x
2 0 0 y
0 −2 0 y − 2x
0 2 0 2x − y
0 −2 1 z − 3x + 2x − y
0 0 1 −x − y + z
1
1 0 x
0
2 0 2x − y
Also:
0
0 1 −x − y + z
[x]B = ( 42 | 2x−y
2 | − x − y + z)
3. Definition der Pi0 s:
P1 (x, y, z) = yz (1, 2, 3) =
P2 (x, y, z) =
2x−y
2 (1, 0, 1)
y
3y
2 , y, 2
2x−y
= 2x−y
|0|
2
2
4. Definition von P := 6P1 + 2P2
P (x, y, z) = (3y, 6y, 9y) + (2x − y, 0, 2x − y) = (2x + 2y, 6y, 2x + 8y)


2 2 0




[P ]St =  0 6 0 


2 8 0
165
Satz 20.14 Eigenschaften von Orthogonalprojektionen
V sei ein endlich–dimensionaler Skalarproduktraum, U C V .
(i) Jede Orthogonalprojektion P auf U ist selbstadjungiert.
(ii) im(P ) = U und ker(P ) = U ⊥ .
Beweis: Es ist V = U ⊕ U ⊥
Sei x = u1 + w1 mit u1 ∈ U, w1 ∈ U ⊥ und
(i)
y = u2 + w2 mit u2 ∈ U, w2 ∈ U ⊥ . Dann gilt:
< P (x), y > = < u1 , u2 + w2 >=< u1 , u2 > + < u1 , w2 >=< u1 , u2 > +0 =< u1 , u2 >
< x, P (y) > = < u1 , w1 , u2 >=< u1 , u2 > + < w1 , u2 >=< u1 , u2 > +0 =< u1 , u2 > .
(ii) gilt wegen V = U ⊕ U ⊥ .
Also: Der lineare Operator P : V → V ist Orthogonalprojektion ⇔ V ist orthogonale Summe
von im(P ) und ker(P ). Es ist dann P Orthogonalprojektion auf im(P ).
Aus 20.13 wissen wir, daß Projektionen linear und idempotent sind. Es gilt aber auch die Umkehrung:
Satz 20.15 Charakterisierung von Projektionen und Orthogonalprojektionen
(i) P : V → V ist Projektion auf im(P ) in Richtung ker(P ) ⇔ P ist linear und idempotent.
(ii) P : V → V ist Orthogonalprojektion auf im(P ) ⇔ P ist linear, idempotent und selbstadjungiert.
Also: die Projektionen sind genau die idempotenten linearen Abbildungen.
Die Orthogonalprojektionen sind genau die selbstadjungierten Projektionen.
Beweis:
Die Notwendigkeit folgt aus 20.13 und 20.14.
(i) Sei P linear und idempotent: P 2 = P und U := im(P ), W := ker(P ). Dann ist zu zeigen: V = U ⊕ W .
1. Sei x ∈ V ⇒ x = P (x) + y mit y = x − P (x). Für dieses y gilt:
P (y) = P (x − P (x)) = P (x) − P 2 (x) = P (x) − P (x) = 0 ⇒ x ∈ W ⇒ V = U + W .
2. Sei x ∈ U
⇒ x ∈ U = im(P ) ⇒ ∃y ∈ V : x = P (y)
⇒ x ∈ W = ker(P ) ⇒ P (x) = 0 ⇒ P (P (y)) = 0 ⇒ P (y) = 0 ⇒
⇒ x = 0 ⇒ U ∩ W = 0.
166
(ii) Sei P selbstadjungierte Projektion: P 2 = P und < P (x), y >=< x, P (y) >. Dann ist zu zeigen:
V = U⊥
W mit U = im(P ), W = ker(P ). Sei x ∈ im(P ) und v ∈ ker(P ) ⇒ x = P (y) mit y ∈ V und
P (v) = 0 ⇒< x, v >=< P (y), v >=< y, P (v) >=< y, 0 >= 0 ⇒ U ⊥ W .
Zusammenfassung:
(i) Daß eine Abbildung P : V → V eine Projektion ist, kann man auf 2 Arten nachweisen:
1.
P ist linear und
⇔
2.
P ist linear und
V = im(P ) ⊕ ker(P )
P ist idempotent
P ist dann Projektion auf im(P ) in Richtung ker(P ).
(ii) Daß eine Abbildung P : V → V eine Orthogonalprojektion ist, kann man auf 2 Arten
nachweisen.
1.
P ist linear und
P ist idempotent und
2.
⇔
P ist linear und
V = im(P )
⊥ ker(P )
P ist selbstadjungiert
P ist dann eine Orthogonalprojektion auf im(P ).
In Beispiel B galt für P und Q: im(P ) ⊥ im(Q).
Im allgemeinen ist die Summe von zwei Orthogonalprojektionen keine solche mehr.
Definition 20.7 Orthogonale Mengen von Operatoren
a) Zwei Operatoren P, Q : V → V eines Skalarproduktraumes heißen ein orthogonales
Paar {P, Q} bzw. orthogonal zueinander, wenn gilt
(i) P, Q sind Orthogonalprojektionen
(ii) im(P ) ⊥ im(Q).
b) Eine Menge von Operatoren ist eine orthogonale Menge von Operatoren, wenn jedes
Paar ein orthogonales Paar ist. Für ein orthogonales Paar {P, Q} gilt:
Satz 20.16 Summe von zwei Orthogonalprojektionen
(P, Q) sei ein orthogonales Paar von Orthogonalprojektionen. Dann gilt:
c) P Q = QP = 0 (Nullabbildung).
d) P + Q ist wieder eine Orthogonalprojektion.
167
Diese Eigenschaft ist auf endlich viele Summanden verallgemeinerbar.
Beweis:
c) Ist x ∈ V ⇒ Q(x) ∈ im(Q) ⇒ Q(x) ∈ im(P )⊥ ⇒ Q(x) = 0 + Q(x) mit 0 ∈ im(P ) ⇒ Q(x) ⊥ im(P ) ⇒
(P Q)(x) = P (Q(x)) = 0 ⇒ P Q = 0 (Nullabbildung). Analog: QP = 0.
d) P + Q ist linear und selbstadjungiert, weil es P und Q sind und nach c) gilt: P Q + QP + P 2 = P 2 + Q2 =
P + Q. Also ist P + Q nach 20.15 (ii) Orthogonalprojektion.
Bemerkung: Ist (P, Q) kein orthogonales Paar, dann ist P + Q keine Orthogonalprojektion.
Beispiel: Die Projektionen Pi auf die i–ten Basisvektoren einer ON–Basis sind eine
orthogonale Menge von Projektionen.
V
=< e1 , . . . , en >= < e1 > ⊕ < e2 > ⊕ . . . ⊕ < en >
|
id
|
=
P1
|
+
P2
|
+...+
Pn
Beobachtung: Der “n−Dimensionalität” entspricht die Zerlegung von id in eine n−elementige
orthogonale Menge von Orthogonalprojektionen.
Es gilt: V =< ei > ⊕ . . . ⊕ < ei > ⊕ . . . ⊕ < en >=< ei > ⊕Wi , wobei Wi die direkte Summe
der übrigen < ej > ist.
Pi sei die Projektion auf den i–ten Basisvektor ei :
Pi projiziert jeden Vektor x auf die Richtung des i−ten Basisvektors.
Pi ist ein orthogonaler Operator, weil Wi ⊥< ei >.
(P1 , . . . , Pn ) ist eine orthogonale Menge von Projektionen: Es ist im(Pi ) =< ei >⊥< ej >=
im(Pj ).
Bezüglich einer ON–Basis kann man Pi durch eine Formel angeben:
P
Es ist x = i < x, ei > ei ⇒ Pi (x) =< x, ei > ei .
168
Damit gilt: P1 + P2 + . . . + Pn = id
denn: (P1 . . . + Pn )(x) = P1 (x) + . . . + Pn (x) =< x, e1 > e1 + . . . + < x, en > en = x = id(x).
Matrixdarstellung der Pi , bezüglich einer anderen ON–Basis F = (f1 , . . . , fn ).
Für die r − s−te Eintragung der Matrixdarstellung [Pi ]F gilt:
[Pi ]rs = < Pi (fs ), fr >=<< fs , ei > ei , fr >=
= < fs , ei >< ei , fr >=< ei , fr > · < ei , fs >.
Bezeichnet [ei ]F = (ei1 , ei2 , . . . , ein )t den Koordinatenvektor von ei bezüglich F , dann gilt für
die Matrix [Pi ]F :

e e
ei1 ei2 . . . ei1 ein
 i1 i1
..

[Pi ]F = 
.

ein ei1 ein ei2 . . . ein ein



ei1
 

  .. 
 =  .  · (ei1 , . . . , ein ) = [ei ]F [ei ]∗F ,
 

ein
Also: [Pi ]F = [ei ]F · [ei ]∗F
Definition 20.8 Äußeres Produkt von zwei n–Tupeln
[x] · [y]∗ heißt das äußere Produkt (outer product) der Spaltenvektoren [x], [y].
Obige Überlegungen zeigen folgenden
Satz 20.17 Matrixdarstellung von Orthogonalprojektionen
Die Matrixdarstellung der Orthogonalprojektion Pi auf den i–ten Basisvektor einer ON–Basis
ist gegeben durch das äußere Produkt des Koordinatenvektors [ei ] mit sich selbst:
[Pi ] = [ei ] · [ei ]∗ .
Spezialfall: Matrixdarstellung
 Pi bezüglich derselben Basis B = (e1 , . . . , en ):
 der


 0 
i
 . 


 .. 
.


 
 0 . . . .. . . . 0 
 
i


(0,
.
.
.
,
1,
.
.
.
0)
⇒
[ei ]B = (0, . . . , 1, . . . 0) ⇒ 


 1 
 0 ... 1 ... 0 
 . 
 . 


 . 
 
0
0
0
P
i [Pi ] = diag(1, 1, . . . , 1), oder
P
i Pi = id
169
Das ist wiederum die Zerlegung der identischen Abbildunge in eine Summe von Orthogonalprojektionen.
Zusammenfassung: Formeln für Orthogonalprojektionen:
1. Sei (e1 , . . . , ek ) eine ON–Basis von U und P Orthogonalprojektion auf U :
P(x) =< x, e1 > e1 + . . . + < x, ek > ek
2. Spezialfall: U =< a >
Orthogonalprojektion von x auf a:
P = proja x =
< x, a >
·a
kak2
Denn: e1 = a/kak
a
P (x) =< x, e1 > e1 =< x, kak
>
a
kak
=
1
kak
a
< x, a > · kak
=
<x,a>
a.
kak2
3. Spezialfall: U =< b~1 , b~2 , . . . b~k > CK n .
Fasse U als Spaltenraum der Matrix A auf: U = S(A).
P Orthogonalprojektion von ~x auf U = S(A):
P = projS(A) x̃ = A(At A)−1 At x̃
[P ]St = A(At A)−1 At .
20.5 Geometrie linearer Operatoren im IR2 bzw. IR3
Es wird gezeigt, wie man aus der Gestalt der Matrixdarstellung auf die Wirkung eines linearen
Operators T : IR2 → IR3 (IR3 → IR3 ) schließen kann. Umgekehrt kann man aus dem Wirkungsprofil
eines Operators seine Matrixdarstelung relativ leicht angeben. Dabei beschränken wir uns auf
Matrixdarstellungen bezüglich der Standardbasis, alle anderen sind ja dazu ähnlich. Je nach
Wirkung des Operators erhalten diese spezielle Namen.
Je nachdem, ob die geordneten Paare (Tupel) als Koordinaten von Punkten oder als Komponenten von geometrischen Vektoren (Pfeilen) auffaßt, entspricht dem Operator T eine Umwandlung
von Punkten oder von Pfeilen. Beide Auffassungen sind mathematisch gleichwertig.
170
Um die Wirkung des Operators zu studieren, untersucht man am besten die Veränderung des
Einheitsquadrates (Einheitswürfels). Dadurch kann man auch die Bilder der Standard–ON–
Basisvektoren {(0, 1), (0, 1)} und damit die Matrixdarstellung leicht angeben. Im Raum erhält
man die Standardmatrix am besten aus den Abbildungsgleichungen, die man durch geometrische
Überlegungen aus der Definition erhält oder indem man sich vorstellt, in welche Punkte die Ecken
des Einheitswürfels verändert werden.
Definition 20.9 Reflexionsoperatoren (Spiegelungen)
Spiegelungen sind Operatoren T auf IR2 bzw. IR3 , die jeden Punkt auf sein “Spiegelbild” bezüglich
einer festen Geraden oder Ebene abbilden.
Beispiel: Spiegelung T : IR2 → IR2 an der y−Achse:
~y = T ((~x)
y1 = −x1 = −x1 + 0 · x2
y2 = x2 = 0 · x1 + 1 · x2


−1 0
 ~x
~y = 
0 1
T (1, 0) = (−1, 0)
Abbildungsgleichung
T (0, 1) = (0, 1)


−1 0

Tst = 
0 1
T :
y1 = −x1
y2 = x2
171
Aus den Abbildungsgleichungen erkennt man, daß Spiegelungen lineare Operatoren sind (die
Variablen kommen nur in der ersten Potenz vor). Man sieht dies aber auch rechnerisch ganz
leicht ein:
Seien A = (a1 , a2 ) und B = (b1 , b2 ) zwei Punkte (Vektoren). Dann ist
A + B = (a1 
+ b1 , a2 + b2 ), λA
 = (λa1 , λa2 ) und
T (A + B) = 
−(a1 + b1 )
=
−a1
a2
a2 + b2
−λa1
1
T (λA) = a2 = λ −a
a2 = λT (A).
+
−b1
b2
= T (A) + T (B)
Oder geometrisch:
Ähnlich geht man bei den anderen Operatoren vor, deren Eigenschaften wir nur mehr tabellarisch
zusammenfassen.
172
Tabelle der Spiegelungen
Operator
Wirkung
Gleichung
Standardmatrix
Spiegelung an
y − Achse
y1 = −x1
y2 = x2
−1 0
0 1
Spiegelung an
x − Achse
y1 = x1
y2 = −x2
1
0
0 −1
Spiegelung an
y=x
y1 = x2
y2 = x1
0 1
1 0
y1 = x1
y2 = x2
y3 = −x3

Spiegelung an
xy − Ebene
y1 = x1
y2 = −x2
y3 = x3

Spiegelung an
xz − Ebene

Spiegelung an
yz − Ebene
y1 = −x1
y2 = x2
y3 = x3

1 0
0
 0 1
0 
0 0 −1

1
0 0
 0 −1 0 
0
0 1

−1 0 0
 0 1 0 
0 0 1
Definition 20.10 Projektionsoperatoren
Projektionsoperatoren sind Operatoren T auf IR2 bzw. IR3 , die jeden Punkt seine “Orthogonalprojektion” auf eine durch den Ursprung gehende Gerade oder Ebene abbilden.
173
Tabelle der Projektionen
Operator
Wirkung
Gleichung
Standardmatrix
Orthogonalprojektion
auf x − Achse
y1 = x1
y2 = 0
1 0
0 0
Orthogonalprojektion
auf y − Achse
y1 = 0
y2 = x2
0 0
0 1

Orthogonalprojektion
auf xy − Ebene
y1 = x1
y2 = x2
y3 = 0

Orthogonalprojektion
auf xz − Ebene
y1 = x1
y2 = 0
y3 = x3

Orthogonalprojektion
auf yz − Ebene
y1 = 0
y2 = x2
y3 = x3

1 0 0
 0 1 0 
0 0 0

1 0 0
 0 0 0 
0 0 1

0 0 0
 0 1 0 
0 0 1
Definition 20.11 Rotationsoperatoren (Drehungen)
(i) Drehungen in der Ebene um den Ursprung 0 sind Operatoren auf IR2 , die jeden Punkt
um einen festen Winkel ϕ drehen.
(ii) Rotationsoperatoren (Drehungen) im Raum um eine feste Rotationsachse durch
den Ursprung 0 sind Operatoren auf IR3 , die jeden Punkt um einen festen Winkel ϕ
drehen. Die Rotationschase (Drehachse) wird durch einen Einheitsvektor u = (a, b, c) beschrieben.
Drehungen entgegen dem Uhrzeigersinn (im Raum erkennbar durch die Rechte–Hand–Regel)
werden als positiv bezeichnet und mit einem positiven Drehwinkel angegeben (sonst negativ).
174
Rechte–Hand–Regel:
Herleitung der Abbildungsgleichung in der Ebene:
x1 = r cos α y1 = r cos(α + ϕ)
x2 = r sin α
y2 = r sin(α + ϕ)
Anwendung der Additionstheoreme ergibt:
y1 = r cos ϕ cos α − r sin ϕ sin α = x1 cos ϕ − x2 sin α
y2 = r sin ϕ cos α + r cos ϕ sin α = x1 sin ϕ + x2 cos ϕ
oder in vektorieller Form:






cos
ϕ
−
sin
ϕ
cos
ϕ
−
sin
ϕ
cos
ϕ
−
sin
ϕ
y1
 x1 = 
 ~x ⇒ [T ] = 

~y =
=
y2
x
2
sin ϕ
cos ϕ
sin ϕ
cos ϕ
sin ϕ
cos ϕ
Da die Gleichungen linear sind, sind Drehungen um 0 lineare Operatoren (nicht jedoch Drehungen um M 6= 0). Dies ist auch konstruktiv einzusehen.
Zweite Methode zur Herleitung der Darstellungsmatrix [T ]:
Mittels der Definition von Sinus und Cosinus erkennt man sofort:
◦ )
=
T (0, 1) = cos(ϕ+90
cos
ϕ


cos ϕ − sin ϕ

Damit ist [T ]st = 
sin ϕ
cos ϕ
T (1, 0) =
cos ϕ
sin ϕ
− sin ϕ
cos ϕ
Die Darstellungsmatrix [T ] einer Drehung um ϕ gegen den Uhrzeigersinn um die Rotationsachse
u = (a, b, c) (Einheitsvektor) ist gegeben durch:

a2 (1 − cos ϕ) + cos ϕ ab(1 − cos ϕ) − c sin ϕ ac(1 − cos ϕ) + b sin ϕ


[T ] =  ab(1 − cos ϕ) + c sin ϕ b2 (1 − cos ϕ) + cos ϕ bc(1 − cos ϕ) − a sin ϕ

ac(1 − cos ϕ) − b sin ϕ bc(1 − cos ϕ) + a sin ϕ c2 (1 − cos ϕ) + cos ϕ





Daraus oder auch mittels elementarer geometrischer Überlegungen erhält man folgende
175
Tabelle der Rotationen (Drehungen) (entgegengesetzt dem Uhrzeigersinn)
Operator
Wirkung
Gleichung
Standardmatrix
Drehung um 0
um den Winkel ϕ
y1 = x1 cos ϕ − x2 sin ϕ
y2 = x1 sin ϕ + x2 cos ϕ

Drehung um ϕ
um x − Achse
y1 = x1
y2 = x2 cos ϕ − x3 sin ϕ
y3 = x2 sin ϕ + x3 cos ϕ

Drehung um ϕ
um y − Achse
y1 = x1 cos ϕ + x3 sin ϕ
y2 = x2
y3 = −x1 sin ϕ + x3 cos ϕ

Drehung um ϕ
um z − Achse
y1 = x1 cos ϕ − x2 sin ϕ
y2 = x1 sin ϕ + x2 cos ϕ
y3 = x3
cos ϕ − sin ϕ
sin ϕ cos ϕ

1
0
0
 0 cos ϕ − sin ϕ 
0 sin ϕ cos ϕ

cos ϕ 0 sin ϕ

0
1
0 
− sin ϕ 0 cos ϕ

cos ϕ − sin ϕ 0
 sin ϕ cos ϕ 0 
0
0
1
Allgemein gilt:
Satz 20.18 Drehungsmatrix
Sei A eine 2 × 2− bzw. 3 × 3−Matrix mit det(A) = +1, deren Spalten paarweise orthogonale
Einheitsvektoren sind. Die Multiplikation mit A beschreibt dann eine Drehung um den Winkel
ϕ mit cos ϕ =
sp(A)−1
2
und (im Raum) um die
Rotationsachse: ũ = Ax̃ + At x + (1 − sp(A))x̃
ohne Beweis.
Definition 20.12 Dilatations– bzw. Kontraktionsoperatoren
Dilatationen (Kontraktionen) sind Operatoren T , die jeden Punkt (Vektor) um den Faktor k ≥ 1
strecken bzw. um den Faktor 0 ≤ k ≤ 1 stauchen: T(x̃) = kx̃.
Bemerkung: Der gesamte Raum wird gleichzeitig bezüglich des Ursprungs 0 gestreckt bzw.
gestaucht.
176
Stauchung (Kontraktion)
Streckung (Dilatation)
k = 0 : T ist Nulloperator
k = 1 : T ist identischer Operator
Tabelle der Kontraktionen und Dilatationen
Operator
Wirkung
Gleichung
Standardmatrix
Kontraktion im IR2 (IR3 )
um Faktor l
(0 ≤ k ≤ 1)
y1 = kx1
y2 = kx2
(y3 = kx3 )
Dilatation im IR2 (IR3 )
um Faktor k
(k ≥ 1)
y1 = kx1
y2 = kx2
(y3 = kx3 )

k 0
0 k

k 0 0
 0 k 0 
0 0 k
Definition 20.13 Expansions– bzw. Kompressionsoperatoren
Eine Expansion bzw. Kompression in x–Richtung um den Faktor k ist ein Operator
T auf IR2 , der die x−Koordinate eines Punktes mit einer positiven Konstanten k > 1 bzw.
0 < k < 1 multipliziert.
Multipliziert man die y−Koordinaten mit k erhält man analog Expansionen bzw. Kompressionen
in y–Richtung.
Bemerkung: Rechnerisch (T (x1 , x2 ) = (kx1 , x2 )) wie auch konstruktiv sieht man, daß Ex
pansionen und Kompressionen linear sind. Die Bilder der Einheitsvektoren T 10 = k0 und
T 01 = 01 liefern die Standardmatrizen.
177
Tabelle der Kompressionen und Expansionen
Operator
Wirkung
Gleichung
Standardmatrix
Kompression im IR2
in x−Richtung
um Faktor k
(0 < k < 1)
y1 = kx1
y2 = x2
k 0
0 1
Kompression im IR2
in y−Richtung
um Faktor k
(0 < k < 1)
y1 = x1
y2 = kx2
1 0
0 k
Expansion im IR2
in x−Richtung
um Faktor k
(k > 1)
y1 = kx1
y2 = x2
k 0
0 1
Expansion im IR2
in y−Richtung
um Faktor k
(k > 1)
y1 = x1
y2 = kx2
1 0
0 k
Expansion
in x−Richtung
um Faktor k1
Kompression
in y−Richtung
um Faktor k2
y1 = k1 x1
y2 = k2 x2
k1 0
0 k2
Definition 20.14 Scherungen
Scherungen in x–Richtung um den Faktor k sind Operatoren T auf IR2 , die jeden Punkt
(x1 , x2 ) parallel in x−Richtung um kx2 in den Punkt (x1 + kx2 , x2 ) verschieben.
Es ist T (x1 , x2 ) = (x1 + kx2 , x2 ), daher sind Scherungen linear. Je weiter man sich von der
x−Achse entfernt, umso mehr wird ein Punkt verschoben. Aus T (1, 0) = (1, 0) und T (0, 1) =
(k, 1) ergibt sich die Standardmatrix. Analog in y−Richtung.
178
Tabelle der Scherungen
Operator
Wirkung
Gleichung
Standardmatrix
Scherung im IR2
in x−Richtung
um Faktor k > 0
y1 = x1 + kx2
y2 = x2
1 k
0 1
Scherung im IR2
in y−Richtung
um Faktor k > 0
y1 = x1
y2 = kx1 + x2
1 0
k 1
Expansion im IR3
in xy−Richtung
um Faktor k


y1 = x1 + kx3
k 0 k
y2 = x2 + kx3  0 1 k 
y3 = x3
0 0 1
Beispiel: Bestimme die Darstellungsmatrix jenes Operators auf IR2 , der jeden Punkt zuerst um
den Faktor 3 in x−Richtung

 verzerrt (“schert”) und dann an y
1 3
,
Scherung [T1 ] = 
0 1




0 1
0 1
1
 ⇒ [T ] = [T2 ][T1 ] = 

Reflextion [T2 ] = 
1 0
1 0
0
Beachte: Es ist [T2 ][T1 ] 6= [T1 ][T2 ], Reflexion und Scherung sind
= x spiegelt.
3


0 1

=

1
1 3
also nicht vertauschbar.
Satz 20.19 Geometrische Deutung von Elementarmatrizen
Die Multiplikation mit einer Elementarmatrix bedeutet geometrisch:
(i) Scherung in eine Koordinatenrichtung
(ii) Spiegelung an y = x
(ii) Kompression in eine Koordinatenrichtung
(iv) Expansion in eine Koordinatenrichtung
(v) Spiegelung an einer Koordinantenrichtung
(vi) Kompression oder Expansion in einer Koordinatenrichtung und anschließend eine Spiegelung an einer Koordinatenachse.
179
Beweis: Jede 2 × 2−Elementarmatrix entsteht aus der I2 durch elementare Zeilenumformungen,
daher
folgende
Elementarmatrizen
 können
 nur 

 auftreten:


1 0
1 k
0 1
k 0








k 1
0 1
1 0
0 1
| {z }
| {z }
| {z }
| {z }


|
1 0


0 k
{z }
Scherung
Scherung
Spiegelung an
wenn k > 0
k>0
y−Richtung
x−Richtung
y=x
Kompression (k ≤ 1)
Kompression
Expansion (k ≥ 1)
Expansion
in x−Richtung
in y−Richtung
Ist bei den
dann setzenwir k = 
−k1 mit k1 > 0 und formen um

 letzten
 beidenMatrizen
 k < 0, 
k 0
−k1 0
k 0
−1 0

=
= 
 1


0 1
0
1
0 1
0 1
{z
}
|
{z
}
|


1 0
0 k


=
1
0
0 −k1
Spiegelung an
Kompresion (k1 ≤ 1)
y−Achse
Expansion (k1 ≥ 1)


=

|
1
0


0 −1
{z
}
in x−Richtung


1 0


0 k1
{z
}
|
Spiegelung an
Kompresion
x−Achse
Expansion
in y−Richtung
Für k = −1 ist:
−1 0 : Spiegelung an y−Achse und


1 0

: Spiegelung an x−Achse
0 −1
Damit sind alle Fälle aufgezählt.
180
Satz 20.20 Geometrische Deutung von invertierbaren Matrixabbildungen
Die Multiplikation mit einer invertierbaren Matrix bedeutet geometrisch eine geeignete Folge von
Scherungen, Kompressionen, Expansionen und Spiegelungen.
Beweis: A invertierbar ⇒ A ist zeilenäquivalent zur Einheitsmatrix ⇔ A ist Produkt von Elementarmatrizen
(siehe ??), die Behauptung folgt aus dem vorhergehenden Satz.
Beispiel: 
Beschreibe
 die geometrische Wirkung des Operators mit der Standardmatrixdarstellung A = 
1 2
 oder äquivalent dazu: Beschreibe die geometrische Wirkung der Multipli-
3 4
kation mit der Matrix A.
Lösung: Stelle A als Produkt von Elementarmatrizen dar, indem man sie auf die kanonische
Staffelform (= identische Matrix bei invertierbaren Matrizen).
−3
1
2
3
4
E1 = 
1
2


E2 = 
0 −2 : −2

−1
=
A = E1−1 A−1
2 E3
=
1
2
0
1
1
0
0
1
1 0

E3 = 
−2

1 0
−3 1
1
0



0 − 12

1 −2

0
1

E3 E2 E1 A = I2 ⇒
1

0

1 2

3 1
0 −2
0 1




1 0
1 0




3 1
0 −1
| {z }
{z
}
|




|
1 0




0 2
{z }
|
1 2


0 1
{z }
Scherung in
Spiegelung an
Expansion in
Scherung in
y−Richtung
y−Richtung
y−Richtung
x−Richtung
um k = 2
um k = 2
um k = 3
Die durch invertierbare 2 × 2−Matrizen induzierten linearen Abbildungen (= Matrixmultiplikationen mit invertierbaren Matrizen) sind Isomorphismen auf IR2 , daher gelten die Eigenschaften
der Teilraumtreue, Dimensionstreue, Parallelentreue, ...
Zusammenfassung für die Ebene:
181
Satz 20.21 Geometrische Eigenschaften von invertierbaren Matrizen
Für die Multiplikation TA mit einer invertierbaren 2 × 2−Matrix A gilt:
(i) TA bildet Geraden auf Geraden ab.
(ii) Das Bild einer Geraden durch den Ursprung ist wieder eine solche.
(iii) Parallele Geraden werden auf parallele Geraden abgebildet.
(iv) Die Strecke P Q wird auf die Strecke TA (P )TA (Q) abgebildet.
(v) Drei Punkte sind genau dann kollinear, wenn ihre Bilder kollinear sind.
(vi) Dreiecke (Parallelogramme) werden auf Dreiecke (Parallelogramme) abgebildet.

Beispiel: Die invertierbare Matrix A = 
1 2
3 4
eine Gerade ab. Bestimme deren Gleichung.

 bildet die Gerade g : y = 3x + 1 wieder auf
Lösung: (x, y) sei ein Punkt auf y = 3x + 1 und (x0 , y 0 ) sein Bild unter der Multiplikation mit
A. Es sit

 
 
  
−1 




0
0
0
1 2
x
x
1 2
x
x
−4
2
x
= 1
=
  ⇔   = 
 



2
0
0
0
y
y
3 4
y
y
3 4
y
3 −1

y = 3x + 1 ⇔ 3x − y = −1 ⇔ (3, −1) 

(−15, 7) 
x0
y0
x
y

 = −1 ⇔ 1 (3, −1) 
2
∈
2
3 −1

x0

y0

 = −1 ⇔
 = −2 ⇔ −15x0 + 7y 0 = −2 ⇔ g 0 : 15x0 − 7y0 = 2 :
Probe: Es ist P (1/4) ∈ g. P 0 := TA (P ) = 
g0
−4


P0

: 9 · 15 − 7 · 19 = 135 − 133 = 2.
1 2
3 4


1
4


=
9
19

 ⇔ P 0 (9/19).
182
VI VEREINFACHEN VON MATRIZEN
In diesem Kernstück der Linearen Algebra wird gezeigt, wie man eine Matrix A durch Links–
und Rechtsmultiplikation mit regulären Matrizen P und Q auf “einfachere” Formen (die man
dann Normalformen nennt) transformieren kann. Mit “einfach” meint man, daß die neue
Matrix QAP als Eintragungen möglichst viele Nullen und sonst nur Einser, wenn möglich nur
in der Hauptdiagonale enthalten soll, denn mit Diagonalmatrizen läßt es sich besonders leicht
rechnen. Die Transformation A → QAP nennt man dann Diagonalisieren. P und Q sollen
deshalb regulär sein, damit man durch die Transformation den Rang der Ausgangsmatrix, die
wichtigste Kennzahl einer Matrix, nicht verändert. Außerdem existieren dann auch die inversen
Matrizen P −1 und Q−1 , durch die die Transformation wieder rückgängig gemacht werden kann:
A → QAP = B ⇒ Q−1 BP −1 = A.
Wozu braucht man einfache Matrizen? Ein Hauptziel der Linearen Algebra ist es, lineare Gleichungssysteme, bzw. mehrere davon zusammengefaßt in Matrixgleichungen, zu lösen. Eine beliebte Strategie dafür ist das Substituieren, um das Lösen zu vereinfachen. Gegeben sei die
Matrixgleichung
Y = AX
(Oft sind Y und X “nur” Vektoren ~y , ~x, z.B. bei Differentialgleichungen ~y 0 = A~x). Durch Substitution X = P X̄ bzw. Y = P Ȳ oder Y = QY , erhält man: P Ȳ = AP X̄ ⇔ Ȳ = (P −1 AP )X̄
oder QY = AP X ⇔ Y = (Q−1 AP )X.
Die “neue” Gleichung wird also durch eine zur “alten” Gleichung ähnlichen bzw. äquivalenten
Matrix beschrieben. Ist P −1 AP bzw. Q−1 AP möglichst einfach (z.B. eine Diagonalmatrix), dann
kann die neue Gleichung leichter als die alte gelöst werden, aus den Lösungen X̄, Ȳ erhält man
die ursprünglichen Lösungen einfach durch Multiplikation mit P : X = P Ȳ , Y = P Ȳ oder
Y = QȲ .
Neben dem leichten Lösen von Gleichungssystemen kann man mit einfachen Matrizen auch
leichter Matrixfunktionen berechnen, die ihrerseits wiederum beim Lösen von Differentialgleichungssystemen benötigt werden.
Das Vereinfachen kann dabei auf 4 Arten erfolgen, je nachdem, welche Matrizen P, Q vom Problem her zugelassen sind. Oft ist nur Q = P möglich (man spricht dann von Ähnlichkeitstransformationen),
oder P muß eine unitäre Matrix sein (wenn Abstände oder Winkel erhalten bleiben sollen) oder
Q = P t . Man unterscheidet daher vier Transformationsarten von Matrizen.
183
Es wird sich zeigen, daß man jede Matrix durch eine Äquivalenztransformation auf eine Diagonalmatrix mit höchstens Einsern in der Hauptdiagonalen transformieren kann (Normalformensatz), mit Ähnlichkeitstransformationen geht dies im allgemeinen nicht. Die nächst einfacheren Matrizen nach den Diagonalmatrizen sind jene, die Blöcke (mit vielen Nullen) längs
der Hauptdiagonale enthalten (Blockdiagonalisieren). Das beste Resultat, das man durch
Ähnlichkeitstransformation erreichen kann, ist wohl der Jordansche Normalformensatz. Oft
reicht es aus, Matrizen auf Dreiecksform zu bringen (Triangulieren).
Alle diese Fragen sind eng verbunden mit der Suche nach möglichst einfachen Matrixdarstellungen von gewissen linearen Abbildungen, so daß es zu jedem matrizentheoretischem Satz auch
eine abbildungstheoretische Formulierung gibt (z.B. Spektralsätze für selbstadjungierte bzw.
normale Operatoren). In der Regel werden wir die abbildungstheoretische Formulierung beweisen, die matrizentheoretische folgt dann als ein Spezialfall.
184
21 Diagonalisieren
Ist A eine Diagonalmatrix, dann werden nummerische Berechnungen besonders einfach:






k
λ1
0
λ−1
0
λ
0


 1

 1







.
.
..
−1
k
.
.
A=
⇒A =
 und A = 

.
.
.






−1
k
0
λn
0
λn
0
λn
Auch die Lösungen von A~x = ~b können einfach abgelesen werden. Man wird daher bestrebt sein,
eine Matrix A durch Bildung von QAP auf Diagonalgestalt zu bringen. Leider geht dies nicht
immer.
Je nachdem, mit welchen Matrizen P, Q man eine gegebene Matrix con links und rechts multipliziert, unterscheidet man folgende Arten von Matrixtransformation.
Definition 21.1 Matrixtransformationen
A sei eine rechteckige Matrix und P, Q entsprechende quadratische Matrizen.
(i) Der Übergang von A zu QAP mit regulärem P, Q heißt Äquivalenztransformation der
Matrix A. Im Folgenden seien A, P, Q quadratische n × n−Matrizen.
(ii) Der Übergang von A zu P −1 AP mit regulärem P heißt Ähnlichkeitstransformation
der Matrix A.
(iii) Der Übergang von A zu P −1 AP mit orthogonalem (unitärem) P heißt orthogonale (unitäre)
Ähnlichkeitstransformation der Matrix A.
(iv) Der Übergang von A zu P ∗ AP mit regulärem P heißt Kongruenztransformation der
Matrix A.
Diesen vier Transformationen entsprechen vier Relationen zwischen Matrizen, von denen uns
die ersten beiden schon bekannt sind.
185
Definition 21.2 Matrixrelationen
A und B seien zwei m × n−Matrizen, Q sei eine m × m− und P eine n × n−Matrix.
1. B heißt äquivalent zu A, wenn B aus A durch eine Äquivalenztransformation hervorgeht.
Symbolisch:
B ∼1 A ⇔ ∃ reguläres Q, P : B = QAP
2. B heißt ähnlich zu A, wenn B aus A durch eine Ähnlichkeitstransformation hervorgeht.
Symbolisch:
B ∼2 A ⇔ ∃ reguläre P : B = P −1 AP
3. B heißt orthogonal (unitär) ähnlich zu A, wenn B aus A durch eine orthogonale
(unitäre) Ähnlichkeitstransformation hervorgeht. Symbolisch:
B ∼3 A ⇔ ∃ orthogonales (unitäres) P : B = P −1 AP = P ∗ AP
4. B heißt kongruent zu A, wenn B aus A durch eine Kongruenztransformation hervorgeht.
Symbolisch:
B ∼4 A ⇔ ∃ reguläres P : BP ∗ AP
Unitär ähnliche Matrizen sind also ein Spezialfall von kongruenten Matrizen.
Da reguläre bzw. orthogonale (unitäre) Matrizen bezüglich der Multiplikation eine Gruppe bilden, handelt es sich bei allen Relationen um Äquivalentrelationen.
21.1 Äquivalentes Diagonalisieren
Mittels Äquivalenztransformationen erhält man das Traumresultat: Jede Matrix kann auf Diagonalform mit nur Einsern in der Hauptdiagonale gebracht werden.
Wir zeigen dazu, daß jede lineare Abbildung f : V → W durch eine geschickte Wahl von
Basisvektoren durch eine Diagonalmatrix dargestellt werden kann. Entscheidend dafür ist nur
der Rang von f . Wegen der entsprechenden Formeln über die Änderung der Matrixdarstellung
bei Basiswechsel (siehe Satz 18.2) erhält man dadurch eine Aussage über die Möglichkeiten einer
Äquivalenztransformation von Matrizen.
186
Satz 21.1 Normalformensatz
(i) Abbildungstheoretische Formulierung:
f : V → W sei eine lineare Abbildung mit rg(f ) = r. Dann existieren solche Basen von V
und W , bezüglich der die Matrixdarstellung [f ] von f folgende Form besitzt.


[f ] = 
O
O O
Ir

1
..
.


mit Ir = 


0
0
|





, d.h. Ir ist die r−stufige Einheitsmatrix
1
{z
}
r
(ii) Matrizentheoretische Formulierung:

Jede m × n−Matrix A vom Rang r ist äquivalent zu 

rg(A) = r ⇒ A ∼1 


O
O O
Ir
O
O O
Ir
O
O O
Ir

, d.h.,

.

 heißt die Normalformendarstellung von f bzw. A.
Beweis zu (i):
Sei ker(f ) =< u1 , . . . , un−r > (möglich, weil rg(f ) = r und dim(V ) = n). Nach dem Basisergänzungssatz kann
man {u1 , . . . , un−r } zu einer Basis von V n ergänzen, wir schreiben die ergänzenden Vektoren zu Beginn:
V n =< v1 , . . . , vr , u1 , . . . , un−r > .
Es ist dann {f (v1 ), . . . , f (vr )} eine Basis von im(f ). Diese kann zu einer Basis von W ergänzt werden. Wir
schreiben die ergänzenden Vektoren am Ende an:
W m =< f (v1 ), . . . , f (vr ), w1 , . . . , wm−r > .
Für diese Basen gilt:
f (v1 )
..
.
=
1 · f (v1 )+
..
.
...
+0 · f (vr )+
..
.
...
0 · wm−r
..
.
f (v1 )
=
0 · f (v1 )+
...
+1 · f (vr )+
...
0 · wm−r
0=
..
.
f (u1 )
..
.
=
0 · f (v1 )+
..
.
...
+0 · f (vr )+
..
.
...
0 · wm−r
..
.
0=
f (un−r )
=
0 · f (v1 )+
...
+0 · f (vr )+
...
0 · wm−r
Daraus folgt nach Definition der Matrixdarstellung die behauptete Normalform.
187
Beweis zu (ii):
Fasse A als Abbildung TA : K n → K m mittels TA (~
x) = A · ~
x auf, dann ist A = [TA ]st . Die Anwendung von (i)
ergibt (ii).
Damit erhält man folgende Äquivalenzinvariante für Matrizen:
Satz 21.2 Äquivalenzsatz für Matrizen
Zwei Matrizen A und B sind genau dann äquivalent, wenn sie gleichen Rang haben.
Beweis:
1. Sei rg(A) = rg(B) = r ⇒ nach Satz 21.1






Ir 0
I 0
I 0
 und B ∼1  r
 ⇒ A ∼1  r
 ∼1 B ⇒ A ∼1 B.
A ∼1 
0 0
0 0
0 0
2. Seien A und B äquivalent ⇒ ∃ reguläre Q und P mit B = QAP ⇒
rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) = rg(A).
Bemerkung:
Aus der Gleichheit der Ränge folgt also die Äquivalenz der Matrizen, nicht aber die Ähnlichkeit
(siehe Satz 17.2).
Algorithmus zum äquivalenten Diagonalisieren:
Da jede reguläre Matrix Produkt von Elementarmatrizen ist, erhält man aus dem Normalformensatz:
QAP
0
= Er Er−1 . . . E2 E1 AE10 E20 . . . Es−1
Es0 =

Ir 0
0
Es0 = 
= Er Er−1 . . . E2 E1 Im A In E10 E20 . . . Es−1
{z
} |
|
{z
}
0
Q
P
0


Nun ruft bekanntlich die Linksmultiplikation mit Elementarmatrizen eine Zeilenumformung, eine Rechtsmultiplikation eine Spaltenumformung hervor. Bringt man daher A durch elementare
Zeilen– und Spaltenumformungen auf die Normalform (dies ist möglich wegen des Normalformensatzes,) so erhält man das gesuchte Q durch Anwenden derselben Zeilenumformungen auf
die Einheitsmatrix Im und P durch Anwenden derselben Spaltenumformungen auf In : Dies kann
simultan erfolgen, wenn man Im , A, In nebeneinander anschreibt:
188
Im
A
In
↓
↓
↓
Zeilenumformungen
Zeilen– und
Spaltenumformungen
Spaltenumformungen
↓
↓

Q

↓
Ir 0
0
0

P

Beispiel:
0
Transformiere A = @
1
2
3
1
0
1
1
A auf Normalform.
1
0
1
2
3
1
0
0
0
1
1
0
1
0
1
0
0
0
1
1
0
1
2
3
1
0
0
−1
1
0
−2
−2
0
0
1
0
0
1
1
0
1
0
0
1
−2
−3
−1
1
0
−2
−2
0
1
0
0
0
1
Q=
1
0
1
0
0
1
−2
−3
1
2
− 21
0
1
1
0
1
0
0
0
1
1
0
1
0
0
1
−2
−1
1
2
− 21
0
1
0
0
1
−1
0
0
1
0
0
Probe: @
1
0
1
2
− 12
10
A@
1
2
1
0
3
1
1
B
AB
B 0
@
1
0
−2
1
0
−1
−Z1 + Z2
−2S1 + S2 , −3S1 + S3
Z2 : (−2)
−S2 + S3
=P
1
0
C
1
C
−1 C = @
A
0
1
0
0
1
0
1
A
Eine andere Methode bestünde darin, die Basis des Kerns und des Bildes von A bzw. f wie
im Beweis zu 21.1 geeignet zu ergänzen. Daraus sieht man auch, daß Q und P nicht eindeutig
bestimmt sind.
Durch zweimaliges Anwenden dieses Verfahrens erhält man die Transformationsmatrizen Q und
P , die zwei äquivalente Matrizen B und A ineinander überführen:
189

Ist rg(A) = r ⇒ ∃Q1 , P1 : Q1 AP1 = 

Ir 0
0

0

Es ist aber auch rg(B) = r ⇒ ∃Q2 , P2 : Q2 BP2 = 
und damit


B = Q−1
2
0
0


 ⇒ B = Q−1

2
Ir 0
0
0

 P2−1

Ir 0
0
Ir 0
−1
 P2−1 = Q−1
2 Q1 A P1 P2
{z
}
|
{z
}
|
0
Q
P
Beispiel:

A=

1 2 3

,B = 
1 0 1

5 2 3
.
4 1 3
Wegen rg(A) = rg(B) = 2 sind A und B äquivalent.
Bestimme jene regulären Matrizen Q, P mit B = QAP .
Lösung: Wie im obigen Beispiel erhält man:






1 0 0


1 =

0 1 0
1
}
2
5 2 3 
1  −1


 −1
0
3
2 −1
4 1 3 
1 −1
|
{z
}
{z
|
Q2
P2


Damit ist Q = Q−1
2 Q1 =
1 2


1
0
1
2
− 21
2 1

1 −2 −1
1 0 1




= 0
1 −1   2 1 1


0
0
1
1 1 1

P =
P1 P2−1



=

 
 
=
 

1 −1
0

2
−1
5
2
− 21

 und
−4 −3 −2
1
0
1
1



0 

1
Probe:


B=
5 2 3
4 1 3


=
2
5
2
−1

− 12

1 2 3




1 0 1 
−4 −3 −2
1
0
1
1



0  = QAP

1
190
21.2 Ähnliches Diagonalisieren
In vielen Fällen hat man nicht zwei reguläre Matrizen Q und P zum Diagonalisieren zur Verfügung.
Will man z.B. einen linearen Operator T : V → V , also eine Abbildung zwischen ein– und demselben Vektorraum, durch eine Diagonalmatrix darstellen, dann hat man nur einen Basiswechsel,
beschreibbar durch eine reguläre Matrix P , zur Verfügung. Was gilt nun für solche Basisvektoren,
bezüglich der eine Diagonalmatrixdarstellung möglich ist?
Sei B = {b1 , b2 , . . . , bn } eine Basis von V so, daß für T : V → V gilt:


λ
 1



..

.
T (b1 ) = λ1 b1
0 




..
⇔
[T ]B = 
λ2
.




.


..
T (bn ) = λn bn
 0



λn
(Dies gilt wegen der Definition der Matrixdarstellung: Spalten = Koordinaten der Bilder der
Basisvektoren.)
Also: Im Diagonalisierungsfall sind die Basisvektoren zugleich Eigenvektoren des Operators.
Die nächsten Sätze werden zeigen, daß folgende zwei Probleme äquivalent sind:
Das Eigenwertproblem: Existiert zu einer gegebenen n × n− Matrix A n l.u. Eigenvektoren
bzw. zu einem gegebenen Operator T : V → V eine Basis aus Eigenvektoren?
Das Diagonalisierungsproblem:
abbildungstheoretisch formuliert: Existiert zu einem gegebenen Operator T : V → V eine
Basis von V , bezüglich der T durch eine Diagonalmatrix dargestellt werden kann?
matrizentheoretisch formuliert: Existiert zu einer gegebenen n × n−Matrix A eine reguläre
Matrix P so, daß P −1 AP Diagonalgestalt hat?
Definition 21.3
(i) Ein Operator T : V → V heißt diagonalisierbar, wenn es eine Basis
B = {b1 , . . . , bn } von V gibt, bezüglich der sich T durch eine Diagonalmatrix beschreiben
läßt. Also:
191

λ1


[T ]B = 

0
..


 = diag(λ1 , . . . , λn )

.
0

λn
(ii) Eine Matrix A ∈ M (n × n, K) heißt diagonalisierbar, wenn es eine reguläre Matrix P
gibt, mit P −1 AP = diag(λ1 , . . . , λn ).
Damit: A ist diagonalisierbar ⇔ A ist ähnlich zu einer Diagonalmatrix.
Bemerkung:
Das Wort “Diagonalisieren” ist reserviert für das Diagonalisieren mittels einer Ähnlichkeitstransformation.
Satz 21.3 Erstes Diagonalisierbarkeitskriterium
(i) Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn V eine Basis
B aus Eigenvektoren von T besitzt. Die Diagonalelemente der Matrixdarstellung [T ]B
sind die zugehörigen Eigenwerte von T :
[T]B = diag(λ1 , . . . , λn ), λi EW von T
(ii) A ∈ M (n × n, K) ist genau dann diagonalisierbar, wenn A n l.u. Eigenvektoren besitzt.
Die Diagonalelemente sind die zugehörigen Eigenwerte. Die Spalten der Transformationsmatrix P sind gerade die Eigenvektoren.
P−1 AP = diag(λ1 , . . . , λn ) mit P = (x˜1 | . . . |x˜n ), x̃i EV zum EW λi von A(i = 1, . . . , n)
Beweis:
1. T sei diagonalisierbar ⇒ ∃ Basis B = (b1 , . . . , bn ) mit:
[T ]B
[T (bi )]B
=
=
diag(λ1 , . . . , λi , . . . , λn ) ⇒
0
λ1
B
B
..
B
.
B
B
B
[T ]B · [bi ]B = B
λi
B
B
B
@
10
..
CB
CB
CB
CB
CB
CB
CB
CB
CB
CB
A@
.
λn
T (bi )
=
λi bi ⇒ bi ist EV von T zum EW λi .
0
..
.
1
..
.
0
1
0
C B
C B
C B
C B
C B
C=B
C B
C B
C B
C B
A @
0
..
.
λi
..
.
0
1
C
C
C
C
C
C⇒
C
C
C
C
A
192
2. Sei B = (b1 , . . . , bn ) eine Basis von V aus EV von T zu den EW λ1 , . . . , λn ⇒ T (bi ) = λi bi (i = 1, . . . , n) ⇒
T (bi ) = 0 · b1 + . . . + λi bi + . . . + 0 · bn ⇒ [T (bi )]B = (0, . . . , λi , . . . , 0) ⇒ [T ]B = diag(λ1 , . . . , λi , . . . , λn ) ⇒ T
ist diagonalisierbar.
3. Der Beweis für Matrizen wird wie immer so geführt, daß man A als Abbildung von K n → K n auffaßt:
TA : K n → K n mit TA (~
x) = A · ~
x; bezüglich der Standardbasis besitzt dann TA die Matrixdarstellung A.
Es gilt nun folgende Äquivalenzkette: Matrix A diagonalisierbar ⇔ Abbildung TA diagonalisierbar ⇔ K n
besitzt Basis aus Eigenvektoren von A ⇔ A besitzt n l.u. EV x~1 , . . . , x~n .
P sei die Übergangsmatrix von der Standardbasis zur Basis aus EV, also sind die Spalten von P gerade
die EV von A : P = (x~1 |x~2 | . . . |x~n ).
Beispiel: Ist A =
1 2
3 2
diagonalisierbar?
2
pA (X)
= X
 −
3X −4 = (X − 4)(X + 1), EW: λ1 = 4, λ2 = −1
2
1
 l.u. ⇒ A diagonalisierbar
EV:   , 
3
−1






3
−2
−1
0
1 2
 ⇒ P −1 AP = 

 ⇒ P −1 = 1 
P =
5
1
1
0 4
−1 3
Satz 21.4 Eine hinreichende Bedingung für die Diagonalisierung:
(i) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist diagonalisierbar, wenn er n verschiedene Eigenwerte λ1 , . . . λn besitzt.
(ii) Eine quadratische n×n−Matrix ist diagonalisierbar, wenn sie n verschiedene EW besitzt.
Beweis: Zu jedem EW ∃ EV, diese sind l.u. wegen der Verschiedenheit der EW, also hat V bzw.
K n n l.u. EV, je n l.u. Vektoren bilden aber eine Basis, also gibt es unter diesen Bedingungen
eine Basis aus Eigenvektoren. Nach 21.3 folgt die Diagonalisierbarkeit.
193
Satz 21.5 Zweites Diagonalisierbarkeitskriterium
(Hauptsatz der Diagonalisierbarkeit)
Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes über K bzw.
eine n × n−Matrix A über einem Körper K ist genau dann diagonalisierbar, wenn
(i) das charakteristische Polynom in K[X] in Linearfaktoren zerfällt:
p(X) = (X − λ1 )(X − λ2 ) . . . (X − λn ) und
(ii) wenn für jeden Eigenwert λ seine geometrische Vielfachheit mit seiner algebraischen
Vielfachheit übereinstimmt. Das heißt, ist k die algebraische Vielfachheit des Eigenwertes λ, dann muß gelten:
k = dim Eλ ⇔ rg(T − λid) = n − k bzw. rg(A − λIn ) = n − k.
Man sagt auch: Der Rangabfall von T beim Übergang zu T − λid muß so groß wie die
algebraische Vielfachheit des EW λ sein.
Beweis: Daß das charakteristische Polynom in Linearfaktoren zerfällt, ist für die Diagonalisierbarkeit vonT eine notwendige Bedingung.
Sei dazu B irgendeine Basis von V und

 λ1



..

.
0 





⇒
Sei [T ]B = 
λ2



..


.
 0



λn
λ1 − X
..
.
0
= (λ1 − X) . . . (λn − X),
pT [X] = |[T ]B − XIn | = λi − X
.
..
0
λn − X d.h. pT [X] ist ein Produkt von Linearfaktoren. Da das charakteristische Polynom eine Ähnlichkeitsvariante
ist, gilt dies für jede Basis.
Zerfällt also das charakteristische Polynom von T nicht in Linearfaktoren, dann ist
T nicht diagonalisierbar.
Der Zerfallen in Linearfaktoren allein ist aber zu wenig, um die Diagonalisierbarkeit zu garantieren, man muß ja nach 21.3 n l.u. EV erhalten. Dies garantiert aber gerade die Bedingung
194
(ii):
Seien λ1 , . . . , λr die verschiedenen Eigenwerte von T bzw. A (möglich wegen des Zerfallens von
pT (x) in Linearfaktoren) und ni bzw. ki die geometrische bzw. algebraische Vielfachheit von
λi (i = 1, . . . , r):
(1)
(1)
{x1 , . . . xn1 }
sei Basis von
Eλ1
(2)
(2)
{x1 , . . . xn2 }
sei Basis von
Eλ2
..
.
sei Basis von
Eλr
..
.
(r)
(r)
{x1 , . . . xnr }
ni = geom. Vielfachheit von λi
Dann ist
(1)
(2)
(r)
(2)
(r)
B = {x1 , . . . , x(1)
n1 , x1 , . . . , xn2 , . . . , x1 , . . . xnr }
eine l.u. Menge von EV, denn:
Sei
(1)
(2)
(r)
(2)
(r)
(λ1 x1 , . . . , λn1 x(1)
n1 + µ1 x1 + . . . , +µn2 xn2 + . . . + ν1 x1 + . . . + νnr xnr = 0 = 0 + . . . + 0.
Weil die Summe von Eigenräumen direkt ist (19.13), folgt
(1)
+ . . . + λn1 xn1 = 0 ⇒ alle λi = 0
..
..
.
.
(r)
+ . . . + νnr xnr = 0
λ1 x1
..
.
ν1 x1
(1)
(r)
⇒ alle νi = 0
Insgesamt ist also B l.u.
Nun sind die geometrischen Vielfachheiten ni ≤ ki (19.10.iii ), daher gilt für die Summe l der
geometrischen Vielfachheiten:
l := n1 + n2 + . . . + nr ≤ k1 + k2 + . . . + kr = Grad pT (λ) = dim V = n
Damit erhalten wir die entscheidende Schlußkette:
T diagonalisierbar ⇔ T besitzt Basis aus EV ⇔ B ist Basis in V (mehr l.u. EV gibt es nicht)
⇔ l = n1 + . . . + nr = dim V = n⇔ ni = ki ∀i. Wäre nämlich ein nj 6= lj , dann kann nj nach
19.10 (iii) nur kleiner als lj sein ⇒ l < n ⇒ B wäre keine Basis von V .
195
Die zweite Bedingung rg(T −λid) = n−k, d.h., der Rangabfall um die algebraische Vielfachheit,
garantiert, daß man genug, nämlich n l.u. Eigenvektoren erhält, so daß man eine Basis aus
Eigenvektoren konstruieren kann. Dies kann man auch so ausdrücken:
Satz 21.6 Drittes Diagonalisierbarkeitskriterium
Ein linearer Operator T : V → V bzw. eine quadratische n × n−Matrix A über K ist genau dann
diagonalisierbar, wenn das charakteristische Polynom in Linearfaktoren zerfällt und V bzw. K n
die direkte Summe seiner Eigenräume ist.
V = Eλ1 ⊕ Eλ2 ⊕ . . . ⊕ Eλr .
Beweis: Die Bezeichnungen seien wie im vorigen Satz.
1. T diagonalisierbar ⇔ ni = ki ⇒ dim(Eλ1 ⊕ . . . ⊕ Eλr ) = dim Eλ1 + . . . + dim Eλr =
n1 + n2 + . . . + nr = k1 + k2 + . . . + kr = n. Weil Eλ1 ⊕ . . . ⊕ Eλr C V ⇒ Eλ1 ⊕ . . . ⊕ Eλr = V .
2. Ist V = Eλ1 ⊕ . . . ⊕ Eλr ⇒ n1 + n2 + . . . + nr = n = k1 + . . . + kr . Wegen ni ≤ ki folgt
daraus ni = ki ⇒ T ist diagonalisierbar.
Algorithmus zur Diagonalisierung einer n × n−Matrix A oder eines linearen Operators T
eines n−dimensionalen Vektorraumes.
Schritt 1: Bestimme alle verschiedenen Eigenwerte λ1 , . . . , λr von A bzw. T (z.B. als Nullstellen
des charakteristischen Polynoms; ist ein schwieriges Problem, weil eine Gleichung n−ten
Grades vorliegt).
Schritt 2: Bestimme n l.u. Eigenvektoren x~1 , . . . , x~n von A als Lösungen der homogenen LGS:
P
(A − λi In )~x = ~0 für i = 1, . . . , r (dies ist möglich wegen
ni = n).
Schritt 3: Bilde die Matrix P mit den Eigenvektoren als Spaltenvektoren:
P = (x~1 |x~2 | . . . |x~n ) bzw. die Basis B = {x~1 , . . . , x~n } von K n .
Schritt 4: Das Produkt P −1 AP ist dann eine Diagonalmatrix mit den Eigenwerten als Diagonalelemente, jeden sooft angeschrieben, wie die algebraische Vielfachheit angibt.
196
Beispiel A:
a={{2,2,1},{1,3,1},{1,2,2}};a//MatrixForm


2


 1

1
2
3
2
1


1 

2
ew=Eigenvalues[a]
{1, 1, 5}
n1=NullSpace[a-1*IdentityMatrix[3]]
{{−1, 0, 1} , {−2, 1, 0}}
(* Der Eigenwert l1=1 hat algebraische und geometrische Vielfachheit gleich 2. *)
n2=NullSpace[a-5*IdentityMatrix[3]]
{{1, 1, 1}}
(* Der Eigenwert l2=5 hat algebraische und geometrische Vielfachheit gleich 1. *)
{ew,ev}=Eigensystem[a]
{{1, 1, 5} , {{−1, 0, 1} , {−2, 1, 0} , {1, 1, 1}}}
(* Transformationsmatrix p: *)
p=Transpose[{ev[[1]],ev[[2]],ev[[3]]}];p//MatrixForm


−1 −2


 0
1

1
0
1


1 

1
d=Inverse[p].a.p;d//MatrixForm


1


 0

0
0
1
0
0


0 

5
Beispiel B:
a={{19,-9,-6},{25,-11,-9},{17,-9,-4}};
ew=Eigenvalues[a]
{1, 1, 2}
(* Der Eigenwert 1 hat die algebraische Vielfachheit 2 *)
n=NullSpace[a-ew[[1]]*IdentityMatrix[3]]
{{3, 4, 3}}
(* Die geometrische Vielfachheit des Eigenwertes 1
ist nur 1, a ist daher nicht diagonalisierbar. *)
197
Zum Schluß geben wir noch ein Kriterium mittels des Minimalpolynoms an:
Satz 21.7 Viertes Diagonalisierbarkeitskriterium
Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn sein Minimalpolynom
über dem Skalarkörper K in verschiedene Linearfaktoren zerfällt.
ohne Beweis
21.3 Orthogonales (Unitäres) Diagonalisieren
Nachdem zweiten Diagonalisierbarkeitskriterium erhält man genau dann genug Eigenvektoren,
wenn die geometrische Vielfachheit eines jeden Eigenwertes gleich der algebraischen Vielfachheit
ist. Es ist nun überraschend, daß dies für symmetrische bzw. hermitesche Matrizen stets
der Fall ist! Diese können also immer diagonalisiert werden und dies sogar mit orthogonalen
(unitären) Matrizen. Dementsprechend gibt es zu selbstadjungierten Operatoren stets eine
Basis aus orthonormalen Eigenvektoren! Dies ist der eigentliche Hauptsatz der Linearen
Algebra.
Satz 21.8 Spektralsatz für selbstadjungierte Operatoren
(Hauptsatz der Linearen Algebra)
T : V → V sei ein selbstadjungierter Operator eines endlichdimensionalen Skalarproduktraumes V über K = IR bzw. CI mit den r verschiedenen EW λ1 , . . . , λr und den Eigenräumen
Eλ1 , . . . , Eλr (wegen der Selbstadjungiertheit sind alle EW immer reell!)
(i) (Basisform):
V hat eine Basis B aus orthonormalen Eigenvektoren von T .
Oder: Jede hermitsche Matrix ist orthogonal bzw. unitär ähnlich zu einer reellen
Diagonalmatrix, je nachdem, ob K = IR oder K = CI ist.
[T]B = diag(λ1 , . . . , λ1 , . . . , λr , . . . , λr ), λi ∈ IR
Auch so (Hauptsatz der Linearen Algebra):
Jede reell symmetrische Matrix kann orthogonal diagonalisiert werden.
Jede hermitsche Matrix kann unitär diagonalisiert werden.
198
(ii) (Direkte Zerlegungsform):
V ist die orthogonale Summe der Eigenräumen von T : V = Eλ1 ⊥
. . . ⊥
Eλr .
(iii) (Projektionsform):
Sei Pi die Orthogonalprojektion auf den i−ten Eigenraum Eλi . Dann ist {P1 , . . . , Pr } ein
orthogonale Menge von Projektionen mit P1 + . . . + Pr = id und
T = λ1 P1 + . . . + λk Pk mit Pi Pj = Pj Pi = 0 für i 6= j
Oder: Jeder selbstadjungierte Operator ist Linearkombination von vertauschbaren Orthogonalprojektionen, die sich wechselseitig annullieren.
Bemerkung: Der Name Spektralsatz rührt von der Projektionsform (iii) her. Die EW λi spielen
die Rolle der Spektrallinien. Die Menge der EW eines Operators nennt man auch sein Spektrum.
Zunächst zeigen wir folgendes
Lemma: Ist ein Teilraum W C V invariant gegenüber T , d.h. ist T (W ) ⊆ W , dann ist W ⊥
invariant gegenüber T ∗ , d.h. T ∗ (W ⊥ ) ⊆ W ⊥ .
Beweis des Lemmas: Sei y ∈ W ⊥ und w ∈ W . Dann ist < w, T ∗ (y) >=< T (w), y >= 0 weil T (w) ∈ W nach
Voraussetzung und y ∈ W ⊥ . Dies gilt für alle w ∈ W , also ist mit jedem y ∈ W ⊥ auch T ∗ (y) wieder in W ⊥ .
Beweis des Spektralsatzes in der Basisform durch Induktion nach der Dimension von V :
1. Sei dim(V ) = 1. Dann ist die Matrixdarstellung [T ]B eine (1×1)−Matrix, also die Diagonalmatrix [T ]B = λ
für B = (b1 ). Es ist daher T (b1 ) = λ1 b1 mit b1 6= 0 und e1 =
1
b
kb1 k 1
ist eine ON–Basis von V , wobei e1
wieder ein EV von T ist.
2. Annahme: Jeder (n − 1)−dimensionale Skalarproduktraum habe eine ON–Basis aus Eigenvektoren.
3. Sie dim(V ) = n. Nach 19.11 hat T nur reelle EW λ. Daher hat T , ganz egal ob V ein Vektorraum über
K = IR oder K = CI ist, stets einen Eigenvektor (19.12) x ∈ V von T : T (x) = λx. Es sei: W :=< x > und
e1 ein Einheitsvektor in W , also e1 = x/kxk.
Da x EV von T ist, gilt: T (W ) ⊆ W, W ist invariant gegenüber T : T (kx) = kT (x) = kλx = (λk)x ∈ W .
Dann ist nach dem Lemma W ⊥ invariant gegenüber T∗ = T, also ebenfalls invariant gegenüber T . Damit
ist die Einschränkung T̂ = T /W ⊥ von T auf W ⊥ wieder ein selbstadjungierter Operator: T̂ (W ⊥ ) ⊆ W ⊥ ,
also: T̂ : W ⊥ → W ⊥ und T̂ ∗ = T̂ . Nach dem Hauptsatz über orthogonale Zerlegung ist V = W ⊕ W ⊥ , also
ist dim(W ⊥ ) = n − 1, weil dim(W ) = 1. Nach Induktionsannahme besitzt W ⊥ eine ON–Basis (e2 , . . . , en )
aus EV von T̂ , diese sind aber auch EV von T : T (ei ) = T̂ (ei ) = λi ei , weil ei ∈ W ⊥ . Dann ist aber
(e1 , e2 , . . . , en ) eine ON–Basis von V aus EV von T , weil < e1 , ei >= 0 ∀i = 2, . . . , n (wegen x ∈ W ⊥ ).
Damit hat man auch für n−dimensionale Skalarprodukträume eine ON–Basis aus EV von T gefunden.
199
Beweis der direkten Zerlegungsform
Nach 21.6 ist V direkte Summe seiner Eigenräume. Da EV zu verschiedenen EW eines selbstadjungierten Operators orthogonal sind, gilt Eλi ⊥ Eλj für i 6= j, also ist die Zerlegung orthogonal.
Beweis der Projektionsform
Pi sei die Projektion auf den i−ten Eigenraum. Weil diese orthogonal aufeinander stehen, sind die Pi0 s Orthogonalprojektionen und eine orthogonale Menge von Projektionen. Es ist P1 + . . . + Pr = id, denn:
P
P
Aus V = Eλ1 ⊥ ...
⊥ Eλr folgt x = u1 + . . . + ur mit ui ∈ Eλi ⇒ Pi (x) = ui ⇒ i Pi (x) = i ui = x = id(x) ⇒
P
i Pi = id.
Es ist T = λ1 P1 + . . . + λr Pr , denn:
T (x) =
X
T (ui ) =
i
X
λi ui =
X
i
i
λi Pi (x) ∀x ∈ V ⇒ T =
X
λi Pi .
i
Die matrizentheoretische Formulierung der Basisform (i) des Spektralsatzes liefert nun den in
der Einleitung angekündigten Satz.
Satz 21.9 Orthogonales Diagonalisieren
(i) Jede reell–symmetrische Matrix kann durch eine orthogonale Matrix reell diagonalisiert
werden.
(ii) Jede hermitesche Matrix kann durch eine unitäre Matrix reell diagonalisiert werden.
Beweis:
(i) Jede reelle symmetrische Matrix A stellt einen selbstadjungierten Operator TA definiert durch TA (~
x) = A·~x
auf IRn dar. Bezüglich der Standardbasis ist die Matrixdarstellung von TA die Matrix A selbst: [TA ]St = A.
Nach dem Spektralsatz gibt es eine ON–Basis B von (reellen) EV von TA , bezüglich der TA durch eine
reelle Diagonalmatrix beschrieben wird. Die Übergangsmatrix P von der Standardbasis (welche auch eine
ON–Basis ist) zur ON–Basis B wird durch eine orthogonale Matrix beschrieben.
(ii) Analog wie in (i), nur CI n statt IRn .
Algorithmus zur orthogonalen (unitären) Diagonalisierung einer reell–symmetrischen bzw. hermiteschen Matrix A:
Schritt 1: Bestimme alle verschiedenen reellen Eigenwerte λ1 , . . . , λr von A.
Schritt 2: Orthonormalisiere die l.u. Eigenvektoren innerhalb eines Eigenraumes Eλi
(i = 1, . . . , r) z.B. mit dem GRAM–SCHMIDT’schen Verfahren. Die Eigenvektoren zu
verschiedenen EW sind automatisch orthogonal, sie brauchen nur normiert zu werden.
Insgesamt erhält man n orthonormale Eigenvektoren x~1 , . . . , x~n von A.
200
Schritt 3: Bilde die Matrix P mit den orthonormalen Eigenvektoren als Spaltenvektoren. Sie
ist eine orthogonale (unitäre) Matrix: P = (x~1 |x~2 | . . . |x~n ).
Schritt 4: P −1 AP ist eine Diagonalmatrix mit den Eigenwerten als Hauptdiagonalelemente,
wobei man jeden EW so oft anschreibt, wie seine algebraische Vielfachheit angibt.
Beispiel:
a={{7,-2,1},{-2,10,-2},{1,-2,7}};
{ew,ev}=Eigensystem[a]
{{6, 6, 12} , {{−1, 0, 1} , {2, 1, 0} , {1, −2, 1}}}
<<LinearAlgebra ’Orthogonalization’
ev1=GramSchmidt[{ev[[1]],ev[[2]],ev[[3]]}]
p=Transpose[ev1];p//MatrixForm
p1=N[p]//MatrixForm
(* Probe *)
d=Inverse[p].a.p;d//MatriForm
201
(* Spektraldarstellung von a *)
l1=ew[[1]];l2=ew[[2]];l3=ew[[3]];
e1=ev1[[1]];e2=ev1[[2]];e3=ev1[[3]]
p1=Outer[Times,e1,e1];p1//MatrixForm
N[%]//MatrixForm
p2=Outer[Times,e2,e2];p2//MatrixForm]
p3=Outer[Times,e3,e3];p3//MatrixForm
a==l1*p1+l2*p2+l3*p3
True
a = 6(p1 + p2 ) + 12p3 ist wieder Orthogonalprojektion
202
Statt orthogonale (unitäre) Diagonalisierung sagt man oft auch: Hauptachsentransformation.
Führe für A die Hauptachsentransformation durch, bedeutet: Bestimme ein orthogonales
(unitäres) P , so daß P −1 AP Diagonalgestalt besitzt.
Orthogonale (Unitäre) Diagonalisierung (P −1 AP ) bzw. P ∗ AP ) hat einen entscheidenden numerischen Vorteil: Die Inverse ist einfach die Transponierte (Konjugiert–Transponierte). Außerdem beschreiben orthogonale (unitäre) Matrizen den Wechsel von ON–Basen, ein Fall, der
besonders wichtig ist.
In komplexen Skalarprodukträumen gibt es außer den selbstadjungierten (hermiteschen) Operatoren (Matrizen) noch andere Operatoren, die ebenfalls noch (sogar unitär) diagonalisierbar
sind (!); jedoch i.a. nicht mehr mit reellen Hauptdiagonalelementen.
Beispiel:

Sei A = 
2
i
i 2


. Es ist dann A∗ = 
2 −i
−i
2

 6= A.
Beachte: A ist zwar symmetrisch, aber nicht hermitesch!


1
−1
 diagonalisiert werden.
Trotzdem kann A durch das orthogonale P = √12 
1
1


2
+
i
0
.
P ∗ AP = P −1 AP = 
0
2−i
Wir notieren jedoch: A ist eine (komplexe) normale Matrix


 

 

2 i
2 −i
2 −i
2 i
5 0

=

=
.
AA∗ = 
i 2
−i 2
−i 2
i 2
0 5


1 2
 ist eine reelle, nicht symmetrische, aber normale Matrix.
Beispiel: A = 
−2 1


 
 


1
2
1
−2
5
0
1
−2
1
2

=
=

 = At A
AAt = 
−2 1
2
1
0 5
2
1
−2 1
pA (X) = X 2 − 2X + 5, EW: λ1 = 1 + 2i
λ2 = 1 − 2i
203
EV zu λ1 : −2ix + 2y = 0
EV zu λ2 : 2ix + 2y = 0
x=1
x=1
y=i
y = −i
x~1 =
1
x~2 =
i
Transformationsmatrix
P:


1
1
 , P −1 = P t =
P = √12 
i −i

√1
2

1 −i
1
i
1
−i


 und P −1 AP = 
1 + 2i
0
0 1 − 2i


A läßt sich also im Komplexen (unitär) diagonalisieren.
Wir werden im folgenden zeigen, daß die Klasse der normalen Operatoren (Matrizen) die größte
Klasse ist, die unitär diagonalisiert werden kann.
Satz 21.10 Spektralsatz für normale Operatoren
Abbildungstheoretische Formulierung:
T sei ein normaler Operator auf einem endlich–dimensionalen Skalarproduktraum über K = C.
I
Dann gibt es eine ON–Basis von V aus Eigenvektoren von T .
Damit: Jeder normale Operator kann bezüglich einer ON–Basis durch eine Diagonalmatrix dargestellt werden. Die Diagonalelemente sind aber im allgemeinen nicht mehr reell.
Matrizentheoretische Formulierung:
Jede normale Matrix kann durch eine unitäre Matrix diagonalisiert werden. Die Hauptdiagonalelemente sind jedoch im allgemeinen nicht mehr reell.
Beweis durch Induktion nach dim(V ) (vergleiche mit dem Beweis zu 21.8)
1. dim(V ) = 1 : V =< e1 >, e1 ist EV.
2. Sei dim(V ) > 1. Nach dem Fundamentalsatz der Algebra besitzt T zumindest einen Eigenwert in CI und
somit einen Eigenvektor v. Wir setzen: W =< v > und e1 = v/kvk.
v ist EV von T ⇒ W ist invariant gegenüber T : T (W ) ⊆ W . Da T normal ist, ist v auch EV von T ∗
(siehe 19.15 iii), daher ist W auch bezüglich T ∗ invariant und nach dem Lemma ist W ⊥ invariant bezüglich
(T ∗ )∗ = T . Der restliche Beweis erfolgt so wie in 21.8.
Von den Matrizen mit reellen Eintragungen sind jedoch nur die symmetrischen orthogonal (d.h.,
nur unter Verwendung von reellen Zahlen) diagonalisierbar.
Insgesamt ergibt sich folgende Charakterisierung der orthogonalen (unitären) Diagonalisierbarkeit):
204
Satz 21.11 Charakterisierung von reell–symmetrischen bzw. normalen Matrizen
(i) Eine reelle Matrix ist genau dann orthogonal diagonalisierbar (über IR), wenn sie symmetrisch ist.
(ii) Eine (komplexe oder reelle) Matrix ist genau dann unitär diagonalisierbar (über C),
I wenn
sie normal ist.
Auch so formuliert:
Von den reellen Matrizen sind genau die symmetrischen orthogonal diagonalisierbar. Genau die
normalen Matrizen sind unitär diagonalisierbar.
Beweis:
(i)
a) Sei A orthogonal diagonalisierbar ⇒ ∃ orthogonales P mit P −1 AP = P t AP = D (D Diagonalmatrix)
⇒ A = P DP t ⇒ At = (P DP t )t = P tt Dt P t = P DP t = A (wegen Dt = D), also ist A symmetrisch.
b) Nach 21.9(i) ist jede reell–symmetrische Matrix orthogonal diagonalisierbar.
(ii)
a) Sei A unitär diagonalisierbar ⇒ ∃ unitäres P mit P −1 AP = P ∗ AP = D ⇒ A = P DP ∗ . Nun ist aber
D∗ 6= D (außer D ist reell), daher kann man nicht den obigen Beweis anwenden. Insbesondere müssen
nicht nur hermitesche Matrizen unitär diagonalisierbar sein. Notwendig ist jedoch AA∗ = A∗ A:
AA∗ = P DP ∗ (P DP ∗ )∗ = P D(P ∗ P )D∗ P ∗ = P DD∗ P ∗
A∗ A = (P DP ∗ )∗ (P DP ∗ ) = P D∗ (P ∗ P )DP ∗ = P D∗ DP ∗ .
Wegen DD∗ = D∗ D (Diagonalmatrizen sind stets normal), ist also AA∗ = A∗ A notwendig für die
unitäre Diagonalisierung, also muß A normal sein.
b) Die Umkehrung gilt nach 21.10.
Nun noch zwei theoretische Anwendungen des Spektralsatzes:
Simultane Diagonalisierung
Sind mehrere Operatoren gegeben, ist es zweckmäßig, wenn man mit einer ON–Basis B auskommen könnte, bezüglich der alle Operatoren diagonalisiert werden können. In der Physik
entsprechen solchen Operatoren Größen, die simultan gemessen werden können.
Notwendig für die simultane Diagonalisierung ist die Vertauschbarkeit der Operatoren: Seien
T1 , T2 bezüglich der Basis B diagonalisierbar ⇒ [T1 ]B · [T2 ]B = [T2 ]B [T1 ]B , (weil Diagonalmatrizen vertauschbar sind) ⇒ T1 ◦T2 = T2 ◦T1 . Für selbstadjungierte Operatoren ist diese Bedingung
aber auch hinreichend.
205
Satz 21.12 Simultane Diagonalisierung
Zwei selbstadjungierte Operatoren eines endlich–dimensionalen Skalarpoduktraumes sind genau
dann simultan diagonalisierbar, wenn sie vertauschbar sind.
Beweis:
1. Notwendigkeit siehe oben.
2. Seien T1 und T2 vertauschbare, selbstadjungierte Operatoren. Eλ sei Eigenraum von T1 und x ∈ Eλ :
T1 (T2 (x)) = (T1 ◦ T2 )(x) = (T2 ◦ T1 )(x) = T2 (T1 (x)) = T2 (λx) = λ(T2 (x)). Damit ist T2 (x) auch ein EV
von T1 zum EW λ ⇒ T2 (x) ∈ Eλ , wenn x ∈ Eλ , d.h T2 : Eλ → Eλ ist ein selbstadjungierter Operator auf
Eλ . Nach dem Spektralsatz hat Eλ eine ON–Basis aus EV von T2 . Diese sind auch EV von T1 , weil sie aus
Eλ sind. Somit hat jeder Eigenraum Eλ von T1 eine ON–Basis von EV von beiden Operatoren T1 und T2 .
Nachdem V die direkte Summe der Eigenräume ist, erhält man durch Vereinigung dieser Basen eine Basis
von V aus EV von beiden Operatoren. Bezüglich dieser Basis können beide Operatoren diagonalisiert
werden.
Im allgemeinen ist die geometrische Vielfachheit ≤ algebraische Vielfachheit, aber:
Satz 21.13 Gleichheit von geometrischer und algebraischer Vielfachheit
Für jeden Eigenwert einer hermiteschen oder einer reell–symmetrischen Matrix ist die geometrische Vielfachheit gleich der algebraischen Vielfachheit.
Beweis: Diese Matrizen induzieren selbstadjungierte Abbildungen. Nach dem Spektralsatz sind diese stets diagonalisierbar, nach dem zweiten Diagonalisierbarkeitskriterium folgt die Behauptung.
206
21.4 Anwendungen des Diagonalisierens
21.4.1 Berechnung von Matrixpotenzen
Zahlreiche Probleme führen auf die Berechnung hoher Matrixpotenzen. Mit diagonalisierbaren
Matrizen können solche Berechnungen vereinfacht werden.
Sei A eine diagonalisierbare n × n−Matrix ⇒ ∃ reguläre P mit P −1 AP = D = diag(λ1 , . . . , λn ),
λi EW von A ⇒ (P −1 AP )2 = P −1 AP P −1 AP = P −1 AEAP = P −1 A2 P , allgemein:
(P−1 AP)k = P−1 Ak P ∀k ∈ ZZ
Beweis für negative k ⇔ A ist invertierbar ⇔ alle EW λi 6= 0.
Für k = −1 : (P −1 AP )−1 = P −1 A−1 (P −1 )−1 = P −1 A−1 P .
Für k = −n(n ∈ IN) : (P −1 AP )−n : [(P −1 AP )n ]−1 = (P −1 An P )−1 = P −1 (An )−1 (P −1 )−1 =
P −1 A−n P .
Damit gilt für diagonalisierbare A ⇔ D = P −1 AP :
Dk = (P −1 AP )k = P −1 Ak P = Dk , also
−1 ⇒ Ak = PDk P−1 ∀k ∈ Z
Ist A = PDP
Z



λ1
λk1







..
..
k =
Für D = 
gilt
aber
D

.

.
.




k
λn
λn
Für negative k sind die EW λi 6= 0, weil A dann invertierbar ist.
Ist A eine diagonalisierbare n × n−Matrix mit den EW λ1 , . . . , λn und EV x~1 , . . . , x~n ,
dann ist

Ak

λk1


=P

..
.
λkn

 −1
P

mit P = (x~1 | . . . |x~n ). Für k = −1 erhält man so wieder eine Möglichkeit für das Invertieren
einer Matrix.
Zusammenfassung für die Berechnung der zu A inversen Matrix A−1 :
1. Mittels elementarer Zeilenumformungen (RowReduce) (A|In ) ∼1 (In |B) ⇒ B = A−1
−1
−1 mit P = (x
2. A−1 = P diag(λ−1
~1 | . . . |x~n ), wobei λ1 , . . . , λn die EW von A und
1 , . . . , λn )P
x~1 , . . . , x~n die dazugehörigen EV sind.
207
3. mittels der zu A adjungierten Matrix A−1 =
1
adj
|A| A
4. mittels des charakteristischen Polynoms pA (X) = c0 + c1 X + . . . + X n .
A invertierbar ⇔ c0 6= 0 (weil alle EW 6= 0), dann ist wegen
An = −c0 In − c1 A − . . . − cn−1 An−1 , n ∈ IN
n−1
A−1 = −1
c0 c1 In + c2 A + . . . + A
5. mittels des Minimalpolynoms mA (X) = m0 + m1 X + . . . + X r :
A invertierbar ⇔ m0 6= 0
A−1 = − m10 m1 In + m2 A + . . . + Ar−1
21.4.2 Differenzengleichungen und Potenzen Ak
1. Kapital K, Verzinsung 6%, Anfangskapital K0 .
Kn+1 = 1, 06. · Kn
{z
}
|
Differenzengleichung 1. Ordnung
⇔
K = 1, 06n . · K0
{z
}
|n
Bildungsgesetz der Folge erlaubt direkte
Berechnung der Folgenglieder
rekursive Definition einer Folge
2. Fibonacci–Folge (Botanik): 0, 1, 1, 2, 3, 5, 8, 13, . . . ,
F0 = 0, F1 = 1
Fk+2 = Fk+1 + Fk
Das ist eine Differenzengleichung 2. Ordnung
Frage: Wie sieht das Bildungsgesetz der Fibonacci–Folge aus? Wie groß ist F1000 ?
Wir setzen



Fk+1
Fk+1
 ⇒ yk+1
y~k := 
~ =
Fk
Fk+1

Fk+2 = Fk+1 + Fk
1
⇔ yk+1
~ =
Fk+1 = Fk+1
1


1
0

 y~k
Aus der Gleichung der Ordnung n wird durch Kombination von n − 1 “trivialen Gleichungen”
(wie Fk+1 = Fk+1 ) ein Gleichungssystem. Das ist leichter lösbar: Sei y~0 der “Anfangswert”,
y~1 = A · y~0 , y~2 = A · y~1 = A · (A · y~0 ) = A2 y~0 . . .
y~k = Ak y~0 ,
y~0 Anfangswert
208
Ist A diagonalisierbar ⇔ ∃P : A = P DP −1 ⇔
~
y~k = Ak y~0 = P Dk P −1 y~0 = P Dk C
Die Spalten von P sind EV x~i von A:



λk
 1

y~k = x~1 |x~2 | . . . |x~n | · 
{z
}
|


..
.
P
λkn


 · P −1 y~0 = c1 λk1 x~1 + . . . + cn λkn x~n
 | {z }
=:~c
y~0 = c1 λ01 x~1 + . . . + cn λ0n x~n ⇔ y~0 = P~c ⇔ ~c = P −1 y~0
~c := (c1 , . . . , cn )
Beispiel:
Fibonacci–Folge


√
√
1 1
 , λ2 − λ − 1 = 0 λ1 = 1+ 5 λ2 = 1− 5
A=
2
2
1 0




(λ − λ1 )x + y = 0
λ1
λ2
 x~2 = 

x~1 = 
x − λ1 · y = 0
1
1




λ 1 λ2
1 −λ2
 , P −1 = 1 

P =
λ1 −λ2
1 1
−1 λ1


 
1
−λ
1
1
2
1


F0 = 0, F1 = 1 ⇒ y~0 =   ⇒ ~c = P −1 y~0 = λ1 −λ
2
−1 λ1
0
0






λ1 λ 2
λk1
1 −λ2
1
F





 1 =  k+1
~yk =
λ1 −λ2
1 1
λk2
−1 λ1
Fk
−1
von y~k interessiert uns nur die 2. Komponente Fk :
λk2
λk1
−
=
Fk =
λ 1 − λ 2 λ1 − λ 2
Es ist
F1001
F1000
∼
√ k √
1− 5
/ 5 < 21 für
2
√
1+ 5
= 1, 618 . . .
2
alle k ⇒ F1000 ≈
λk2 kann gegenüber λk1 vernachlässigt werden.
Fk+1
Fk
∼
λk+1
1
λk1
= λ1 (= goldener Schnitt!)
√1
5
√1
5
√ k
1+ 5
2
√ 1000
1+ 5
2
−
√ k
1− 5
2

=

,

1
λ1 −λ2

1
−1


209
Zusammenfassung:
Gegeben sei eine Folge (a0 , a1 , . . . ak , ak+1 , . . . , ak+n , . . .). Eine lineare Differenzengleichung der
Ordnung n ist eine Beziehung zwischen dem k−ten Glied einer Folge und den n aufeinander
folgenden Gliedern der Folge der Form
ak+n = r1 ak+n−1 + . . . + rk ak .
Durch die n vorgegebenen “Anfangswerte” a0 , a1 , . . . , an−1 ist die Folge eindeutig bestimmt.
Durch Einführen von “trivialen Gleichungen” kann die Differenzengleichung mit Matrizen angeschrieben werden:
yk+1
~ = A · y~k , y~0 Anfangsvektor.
Das Bildungsgesetz der Folge kann aus
y~k = Ak y~0
abgeleitet werden.
Ist A diagonalisierbar, dann gilt
y~k = c1 λk1 x~1 + . . . + cn λkn x~n
mit ~c := (c1 , . . . , cn )t so, daß y~0 = P · ~c ⇔ ~c = P −1 · y~0 .
Dabei sind λ1 , . . . , λn die EW von A und x~1 , . . . , x~n die dazugehörigen EV. Die Spalten von P
sind gerade die EV, P := (x~1 |x~2 | . . . |x~n ).
21.4.3 Markovprozesse
Beispiel: In ein Land wandern jedes Jahr
1
10
der Bevölkerung ein, und
2
10
wandern aus. Am
Anfang sind 200 Millionen außerhalb des Landes und 30 Millionen innerhalb des Landes. Stirbt
die Bevölkerung in diesem Land aus oder gibt es eine “Grenzverteilung”?
(Annahme: Gesamtbevölkerung bleibt konstant).
Bevölkerung außerhalb: y
Bevölkerung innerhalb:

 z
y0

“Startvektor” 
z0
210
Am Ende des ersten Jahres gilt:
y1 = 0.9y0 + 0.2z0
z1 = 0.1y0 + 0.8z0
Allgemein für y~k =
yk
zk

⇔

y1

=
z1
0.9 0.2
0.1 0.8


y0
z0

 usw.
: yk+1
~ = Ay~k .
Kennzeichnen eines Markovprozesses: yk+1
~ = P y~k
1. Jeder Zustand yk+1
˜ hängt nur vom vorhergehenden Zustand y˜k ab.
2. Spaltensummen der Matrix P sind stets 1.
3. Matrix hat nur positive Eintragungen ≤ 1.
P = (pij ) heißt eine stochastische Matrix ⇔ alle Spaltensummen sind 1 und pij ∈ [0, 1].
y~k = (y1 , . . . , yn )t heißt Zustandsvektor ⇔ y1 + . . . + yn = 1 ⇔ Koordinatensumme = 1.
Die Gleichung hat die Form einer Differenzengleichung, um y~k für sehr großes k zu berechnen,
versucht man, A zu diagonalisieren:
λ2 − 1.7λ + 0.7 = 0
|A − λE| =
λ1 = 1, λ2 = 0.7
(λ − 1)(λ − 0.7) = 0
Eigenvektoren:
−0.1y + 0.2z = 0
0.2y + 0.2z = 0
−x + 2y = 0
0.1y + 0.1z = 0
x = 2y = 1
y+z = 0
1
x~2 = −1




1  −1 −1  1  1 1 
=−
=
3
3
−1 2
1 −2
x~1 =

P =
2
1
1 −1

 , P −1
2
1
Probe:







1
+1
0.9
0.2
+1
+1
2
+0.7
2
1
1


= 1

=
3
3
+1 2
0.1 0.8
1 −1
+1 −2
1 −0.7


1 0


0 0.7

 
 

2
1
1
1
1
·
·
· 1
A = P DP −1 = 
3
1 −1
0.7
1 −2

1
3

3
0
0 2.1

=
211
Damit ist:
kx
y~k = Ak y~0 = c1
λk1 x~1 + c2 λ
2 für 
2~



1
1
y
y
+
z
0
0
0

= 1
⇒
~c = P −1 y~0 = 31 
3
1 −2
z0
y0 − 2z0
1
· 0.7k
y~k = 13 (y0 + z0 ) 21 + 13 (y0 − 2z0 ) −1
Bei k → ∞ : (0.7k ) → 0

y~∞ =

Beachte: 
2/3
2/3



(y0 + z0 )
| {z }
1/3
Gesamtbevölkerung

 ∈ E1
1/3
Antwort: Auf lange Sicht bleibt 1/3 der Bevölkerung im Land, 2/3 sind außerhalb des Landes.
Bisher haben wir das Problem deterministisch gesehen: Anteile der Bevölkerung wanderten.
Wahrscheinlichkeitstheoretische Sichtweise: Blicke auf jeden einzelnen: Ist der einzelne außerhalb des Landes, so wird er mit Wahrscheinlichkeit 1/10 einwandern. Ist er innerhalb des
Landes, so wird er mit Wahrscheinlichkeit 2/10 auswandern. Wir wissen auf lange Sicht nicht,
wo er ist, aber jedes Jahr geben die Komponenten von y~k = Ak y~0 die Wahrscheinlichkeit an, wo
er sich befindet.

“Übergangsmatrix A” = 
0.9 0.2

, Wahrscheinlichkeiten ≥ 0 ⇔ aij ≥ 0.
0.1 0.8
Summe der Wahrscheinlichkeiten = 1 ⇔ Spaltensumme = 1.
Bei jedem Markovprozeß ist λ = 1 ein EW und sein mit c1 multiplizierter Eigenvektor gibt den Grenzzustand y˜∞ an:
Sei A eine Übergangsmatrix (“transition matrix”). Betrachte die Spalten von A − E = A − 1 · E:
Die Spaltensummen von A − E sind 1 − 1 = 0.
Daher ergibt die Summe aller Zeilen von A − E den Nullvektor ⇔ die Zeilen von A − E sind l.a.
⇒ |A − E| = |A − 1 · E| = 0 ⇒ λ = 1 ist Eigenwert von A.
Da y~k = c1 λk1 x~1 + . . . + cn λkn x~n ist, ist kein EW größer als 1, denn sonst würden die Wahrscheinlichkeit (=Komponenten von y~k ) gegen ∞ streben, es ist aber jede Wahrscheinlichkeit
≤ 1.
212
Sei λ1 = 1(∃!) und λ2 < 1, λ3 < 1, . . . , λn < 1 ⇒ λki → 0 für i = 2, . . . , n ⇒
y˜k →
= y˜∞ .
c1 x˜1
| {z }
stationärer Zustandsvektor
Auch so:
Ein Zustandsvektor ~x ∈ K n heißt ein Gleichungszustand oder stationärer Zustandsvektor
für die stochastische Matrix P , falls P ~x = ~x.
Als Zustandsvektor müssen alle Koordinaten von ~x aus [0, 1] sein und als Summe x1 +. . .+xn = 1
ergeben.
−0.1y + 0.2z = 0
0.9y + 0.2z = y
0.1y + 0.8z = z
⇔
0.1y − 0.2z = 0
y+z = 1
y+z = 1
oder:
y+z = 1
0.1y − 0.2z = 0
⇔
y+z = 1
y − 2z = 0
⇔
y
1 2
=
z
3 1
Stabilitätsfragen
Fibonacci–Zahlen → ∞, Endkapitel → ∞, Markov–Prozeß: beschränkt.
Gegeben sei die Differenzengleichung yk+1
~ = Ay~k . Wir interessieren uns für das Verhalten von
y~k für k → ∞. Im Falle der Diagonalisierbarkeit gilt: y~k = c1 λk1 x~1 + . . . + cn λkn x~n , das Verhalten
hängt also nur von den EW ab:
Die Differenzengleichung ist stabil ⇔ y~k → 0 ⇔ alle |λi | < 1
neutral stabil ⇔ y~k beschränkt ⇔ alle |λi | ≤ 1
instabil ⇔ y~k unbeschränkt ⇔ es gibt mindestens einen EW λ mit |λ| > 1.
Achtung: Kleinste Änderungen der EW können große Auswirkungen haben (chaotisches Verhalten).
213
21.4.4 Differentialgleichungen
Differentialgleichung erster Ordnung: y 0 = ay ⇔ y = c · eax : allgemeine Lösung
Differentialgleichung erster Ordnung mit Anfangsbedingung:
y 0 = ay
⇒ 2 = ce0 = c ⇒ y(x) = 2eax :
spezielle (partikuläre) Lösung
des Anfangswertproblem.
y(0) = 2
| {z }
Anfangswertproblem
Differentialgleichungssysteme erster Ordnung mit konstanten Koeffizienten
Koordinatenform
y10 = a11 y1 + a12 y2 + . . . + a1n yn

y20 = a21 y1 + a22 y2 + . . . + a2n yn
.
= ..



⇔



yn0 = an1 y1 + an2 y2 + . . . + ann yn
y10
y20
..
.
yn0
| {z
y~0 (x)


a11 . . . a1n
 
 
  a21 . . . a2n
=
  ..
..
  .
.
 
an1 . . . ann
} |
{z
A








Matrixform

y1
y2
..
.







yn
} | {z }
~
y (x)
Bemerkung: Ein Vektor (eine Matrix), deren Eintragungen Funktionen sind, wird differenziert,
indem man jede Eintragung differenziert.
Kurzform des Anfangswertproblems:
y~0 (x) = A · ~y (x)
y~0 (x) = A~y (x)
bzw.
~y (x0 ) = y~0
~y (0) = y~0
Beispiel:
y10 = 2y1
y20 = 5y2
mit
y1 (0) = 1, y2 (0) = 4, y3 (0) = −1
y30 = 3y3

2
0 0


1









Matrixform: ~y =  0 −5 0  ~y mit ~y (0) =  4 




0
0 3
−1
Weil in jeder Gleichung nur eine unbekannte Funktion vorkommt, ist das System leicht lösbar.
Allgemeine Lösung: y1 = c1 e2x , y2 = c2 e−5x , y3 = c3 e3x


2x
y (0) = 1
⇒ c1 = 1
c e
 1
 1


~y (x) =  c2 e−5x  y2 (0) = 4
⇒ c2 = 4


c3 e3x
y3 (0) = −1 ⇒ c3 = −1
214
Spezielle (partikuläre) Lösungen:

e2x


~y (x) =  4e−5x

−e3x





Das System war insbesondere deshalb so leicht zu lösen, weil A Diagonalgestalt hatte.
Allgemeine Strategie: Versuche A durch eine geeignete Substitution für ~y auf Diagonalgestalt zu
bringen!
y1 (x) = p11 u1 (x) + . . . + p1n un (x)
y2 (x) = p21 u1 (x) + . . . + p2n un (x) ⇔ y~(x) = P · u~(x)
yn (x) = pn1 u1 (x) + . . . + pnn un (x)
Nach den Differentiationsregeln gilt dann: y~0 = P · u~0 .
Einsetzen in y~0 = A~y ergibt:
P ~u = AP u~0 ⇔ u~0 = (P −1 AP )~u
P soll also invertierbar sein. Ist A diagonalisierbar, dann gibt es eine Transformationsmatrix P
mit P −1 AP = D, also erhalten wir das neue Differentialgleichungsproblem:
u~0 (x) = D~u(x)
Lösungsverfahren für ỹ0 = Aỹ:
Schritt 1: Bestimme eine Matrix P , die A diagonalisiert.
Schritt 2: Führe die Substitution ~y = P ~u durch. Das führt auf ein neues System der Form
u~0 = D · ~u.
Schritt 3: Löse das System u~0 = D~u.
Schritt 4: Berechne ~y aus der Matrixgleichung ~y = P · ~u.
215
Schritt 4 kann auch folgend abgekürzt werden: Die Spalten der diagonalisierenden Matrix P sind
die EV x~i von A, D enthält in der Hauptdiagonale die Eigenwerte λi von A, damit:


c1 eλ1 x


..


~u(x) = 
 , P = (x~1 |x~2 | . . . |x~n )
.


λ
x
n
cn e


c1 eλ1 x


..


~y (x) = P · ~u(x) = (x~1 |x~2 | . . . |x~n ) 

.


cn eλn x
ỹ(x) = c1 x˜1 eλ1 x + . . . + cn x˜n eλn x
Allgemeine Lösung
Berücksichtigung der Anfangsbedingungen:
~y (0) = y~0
P ~u(0) = y~0
 |{z}

c1


 . 
P ·  ..  = y~0 ⇔ P · ~c = y~0 ⇔ c̃ = P−1 y˜0


cn
| {z }
=:~c
Damit: Das Anfangswertproblem y~0 = A~y , ~y (0) = y~0 mit diagonalisierbarem A hat als Lösung:
ỹ(x) = c1 x1 e˜λ1 x + . . . + cn x˜n eλn x mit c̃ := (c1 , c2 , . . . , cn )t = P−1 y˜0 .
Bemerkung:
1. Beachte, daß man die Differentialgleichung rein algebraisch, ohne irgendeine Integration
gelöst hat.
2. Ist A nicht diagonalisierbar, versucht man mittels ~y = P · ~u auf eine Dreiecksgestalt zu
kommen (A triangulieren) und löst das neue System y~0 = D~u durch Rückwärtseinsetzen
(→ Kapitel 22).
Ist A auch nicht triangulierbar, dann geht es mit der Jordanschen Normalform (→ Kapitel
23).
3. Homogene Differentialgleichungen höherer Ordnung können durch
y1 = y, y2 = y 0 , y3 = y 00 , . . . auf ein System von Differentialgleichungen erster Ordnung
zurückgeführt werden (siehe Beispiel).
216
Die Matrix eAx
Die Exponentialfunktion y = eax ist wegen der Differentiationsregel y 0 = aeax Lösung der Differentialgleichung y 0 = ay. Es gibt eine schöne Analogie, dies auf Differentialgleichungssysteme
zu verallgemeinern.
Es gilt bekanntlich:
ex =
P∞ 1 i
xi
i=0 i! =
i=0 i! x
P∞ (ax)i P∞ 1
i
i=0 i! (ax)
i=0 i! =
P∞
eax =
Davon inspiriert, setzt man:
eAx :=
∞
X
I
(Ax)2 (Ax)3
(Ax)i = In + Ax +
+
+ . . . ∈ M(n × n, IR)
i!
2!
3!
i=0
Unter geeigneten Voraussetzungen konvergiert diese Potenzreihe aus Matrizen (→ Höhere Lineare Algebra).
Zahl a ↔ n × n − Matrix A
1 ↔ In






4 −5
6
−5
14
−15
 ⇒ A2 = 
 , A3 = 
...
Beispiel: A = 
2 −3
2 −1
6 −7








6 −5
14 −15
1 0
4 −5
 + x3 
 + ...
+x·
 + x2 
eAx = 
2!
3!
2 −1
6 −7
0 1
2 −3
 


f11 (x) f12 (x)
1 + 4x + 3x2 − 38 x3 + . . . −5x − 25 x2 − 25 x3 + . . .
=
,
=
2
2x + x2 + x3 + . . . 1 − 3x − x2 + 76 x3 + . . .
f21 (x) f22 (x)
wobei fij (x) die Grenzfunktionen der entsprechenden Potenzreihen sind (allerdings sind sie oft
nicht leicht angebbar).
Vereinbarungsgemäß wird die Matrix eAx differenziert, indem man jede Eintragung differenziert.
Wegen der Differentiationsregeln gilt dann:
0
2
3 ·3x2
eAx = A + A 2!·2x + A 3!
+ ... =
A2 ·x2
Ax
A · I + Ax
1! + 2! + . . . = A · e , also
0
eAx = A · eAx ↔ (eax )0 = aeax .
217
Berechnung von eAx für diagonalisierbare Matrizen A:
1. Mittels der Diagonalmatrix D
Ist A diagonalisierbar ⇒ ∃P : P −1 AP = D mit


λ1
0


..


D = 
 ⇒ A = P DP −1 ⇒ A2 = P DP −1 , A3 = P D3 P −1 , . . . ⇒
.


0
λn


eλ1 x
0


..

 −1
eAx = P · 
 P = PeDx P−1 mit P = (x˜1 | . . . |x˜n )
.


λ
x
n
0
e
wobei
x~1 , . . . x~n die EV von A zu den EW λ1 , . . . , λn sind.
Denn ist D = diag(λ1 , . . . , λn ) ⇒

eDx = I + Dx +
D 2 x2
2!
1 + λ1 x +
1 2 2
2! λ1 x


+ . . . =

+ ...
..

.
1 + λn x +

eDx
eλ1 x
0
..
.


=

0
eλn x



Also: A = PDP−1 ⇒ eAx = PeDx P−1 = P 



⇒

1 2 2
2! λn x
+ ...






eλ1 x
..
.
eλn x

 −1
p .

2. Mittels Spektralsatz: Ist A = λ1 P1 + . . . + λr Pr ⇒ eAx = eλ1 x P1 + . . . + eλn x Pn .
(siehe Beispiel unten)
3. Ist A nicht diagonalisierbar, dann muß man die Funktionen in eAx “erraten” oder durch
die Jordan’sche Normalform berechnen (→ Höhere Lineare Algebra).
Für die Exponentialmatrix gilt:
eAx ist immer regulär und (eAx )−1 = e−Ax , det(eAx ) = esp(Ax) .
(eAx )0 = AeAx
218
Beweis für diagonalisierbare Matrizen A (beachte, daß eAx ∼2 eDx ist):
λ1 x
e
0
.
Ax
..
|e | = = eλ1 x · eλ2 x · . . . · eλn x = eλ1 x+...+λn x = esp(Ax) 6= 0
λ
x
n
0
e
Zusammenfassung:
Die
Differenzengleichung
yk+1
~ = A · y~k ; y~0
Differentialgleichung
y~(x) 0 = A · y~(x) ; ~y (0) = y~0
hat die Lösung
y~k = Ak · y~0
A = P DP −1
y~(x) = eAx · y~0
Ist A diagonalisierbar


λ1
0


..


mit D = 
 , P = (x~1 | . . . |x~n )
.


0
λn
:
wobei x~i EV zum EW λi von A ist,
dann kann die Lösung als Linearkombination der EV geschrieben werden:
y~k = c1 λk1 x~1 + . . . + cn λkn x~n
~y (x) = c1 eλ1 t x~1 + . . . + cn eλn t x~n
mit
~c = (c1 , . . . , cn ) = P −1 y~0 ⇔ P · ~c = y~0
Beispiel: Berechnung von eAx :






0 1
0 −1
0 1
y 0 = y2


y ⇔ 1
A=
A∗ = 
~y 0 = 
−1 0
1
0
−1 0
y20 = −y1


 



 

0 1
0 −1
1 0
0 −1
0 1
1 0

=
 , A∗ A 

=

AA∗ = 
−1 0
1
0
0 1
1
0
−1 0
0 1
Das reelle A ist normal
(aber nicht symmetrisch) ⇔ A ist in CI diagonalisierbar.
−x
1 = x2 + 1
pA (X) = −1 −x λ1 = i
λ2 = −i
219
Damit ist:

1
−ix + y = 0 ix + y = 0 P = 
x = 1y = i
1
P −1 =
x~2 = −i
x = 1y = i
x~1 1i
1
i −i

1
−2i


|P | = −i − i = −2i

−i −1
−i
1


=
1
2i

i
1
i −1

=

1
2

1 −i
1
i


Berechnung
von 
eAx




 mittels Diagonalisierungsformel:


ix
ix
ix
1
1
e
−ie
e
0
1 −i
1
1
· 1 = 1



=
eAx = 
2
2
−ix
ix
−ix
0 e
1
i
i −i
i −i
e
ie

 

eix + e−ix −ieix + ie−ix
cos x sin x
=
 nach der Eulerschen Formel:
= 21 
ieix − ie−ix
eix + e−ix
− sin x cos x


−ix
ix

ie
= i cos x + sin x 
e = cos x + i sin x
+
+
−ieix = −i cos x + sin x 
e−ix = cos x − i sin x 
{z
} |
{z
}
|
2 cos x
2 sin x
Damit:

cos x
~y = eAx y~0 = 
sin x
− sin x cos x
y1 = c1 · cos x + c2 · sin x


c1
c2


y1 = −c1 · sin x + c2 · cos x
Berechnung von eAx mittels Spektralsatz:

P1 =
A = λ 1 P1 + λ 2 P2
eAx = eλ1 x P1 + eλ2 x P2

eAx = 12 eix · 
1
−i
i +1


cos x sin x

=
− sin x cos x

P2 =

 + 1 e−ix 
2
1 1
2 i
· (1, i) =
1
1
2 −i
1
1
2

· (1 − i) =
+i
−i +1

=
1
2
1
2
1 −i
i


1
1


i
−i 1



eix + e−ix
−ieix + ie−ix

ieix − ie−ix
+eix − e−ix
Die Orthogonalprojektionen wurden mittels des äußeren Produktes berechnet
(Achtung: ON–Basis benützen und 2. Faktor konjugiert–komplex nehmen).

=
220
22 Triangulieren
Wie wir im vorhergehenden Kapitel gesehen haben, braucht ein linearer Operator T auf einem
endlich–dimensionalen Vektorraum keine Diagonalmatrixdarstellung zu besitzen. Dies ist unter
anderem nur dann möglich, wenn er “genug” Eigenvektoren hat, d.h., wenn es eine Basis des
Vektorraumes aus Eigenvektoren von T gibt. Hat man zu “wenig” Eigenvektoren, gibt es andere
einfache Darstellungsformen, wie z.B. Dreiecksmatrizen.
Einen Operator bzw. eine Matrix triangulieren heißt, ihn bzw. sie auf eine Dreiecksmatrix
(trianguläre Matrix) zu “bringen”, d.h., eine solche Basis B des Vektorraumes bzw. eine solche
reguläre Matrix P zu finden, daß
[T ]B bzw. P −1 AP
eine (obere) Dreiecksmatrix ist.
Eine notwendige Bedingung für die Triangulierung von T bzw. A ist wie im Fall der Diagonalisierung, daß alle Nullstellen des charakteristischen Polynoms PT (X), also die EW von T bzw.
A im zugrundeliegenden

a11 a12



a22
Sei [T ]B = 



Skalarkörper
 K liegen:
. . . a1n


. . . a2n 


..

.

ann
Dann gilt für das charakteristische Polynom
a12
...
a1n
a11 − X
a22 − X . . .
a2n
PT (X) = ..
.
ann − X
= (a11 − X)(a22 − X) . . . (ann − X).
Es zerfällt also in Linearfaktoren. Wenn das nicht der Fall ist, ist T nicht mehr triangulierbar
(auch nicht diagonalisierbar). Im SCHURschen Lemma wird gezeigt, daß das Zerfallen in
Linearpolynome für die Triangulierung bereits hinreichend ist. In K = CI ist dies immer der
Fall, nicht jedoch in K = IR. In der Algebra wird gezeigt, daß es zu jedem Körper K einen
solchen gibt, in dem jeder Polynom über K in Linearfaktoren zerfällt, so daß also trianguliert
werden kann. Der Triangulierungssatz stellt also einen wichtigen Fall dar.
221
1. Dreiecksmatrizen
Definition 22.1
(i) Ein linearer Operator T : V → V heißt triangulierbar, wenn es in V
eine Basis B gibt, bezüglich der T durch eine Dreiecksmatrix


a11 a12 . . . a1n





a22 . . . a2n 


[T ]B = 

..


.


ann
dargestellt werden kann.
(ii) Eine n × n−Matrix A heißt triangulierbar, wenn es eine reguläre Matrix P gibt, sodaß
P −1 AP eine Dreiecksmatrix ist.
Also: A triangulierbar ⇔ A ist ähnlich zu einer Dreiecksmatrix.
Beachte: Die EW von T bzw. A sind genau die Elemente in der Hauptdiagonale der Dreiecksmatrix.
Satz 22.1 Triangulierungssatz
(i) Abbildungstheoretische Form:
V sei ein beliebiger Vektorraum über dem Körper K und T : V → V ein linearer Operator. Jeder lineare Operator T : V → V , dessen charakteristisches Polynom in K[X] in
Linearfaktoren zerfällt, ist über K triangulierbar.
(ii) Matrizentheoretische Form:
Jede quadratische Matrix A über dem Körper K, deren charakteristisches Polynom in K[X]
in Linearfaktoren zerfällt, ist über K triangulierbar.
Der Beweis liefert auch das Verfahren zur Triangulation:
Das charakteristische Polynom zerfällt in Linearfaktoren ⇒ PA (X) = (λ1 − X) . . . (λn − X), also
sind λ1 , . . . , λn die EW von A (jeder sooft gezählt, wie die algebraische Vielfachheit angibt).
222
1. Schritt: x˜1 sei EV von A zu λ1 .
Wir nehmen x~1 als 1. Spalte einer regulären n × n−Matrix Q1 :
Q1 := (x~1 |s2 | . . . |s~n ) ∈ K n·n regulär ⇒
(s~2 , . . . , s~n sind also so zu wählen, daß |Q1 | =
6 0)
AQ1 = (Ax~1 |As~2 | . . . As~n ) = (λ1 x~1 |As~2 | . . . |As~n )
Q−1 AQ1 = (λ1 Q−1 x~1 | . . . |Q−1 As~n ) = (λ1 e~1 | . . . | . . .),
denn Q−1 Q = In = (e~1 |e~2 | . . . |e~n ).
Also ist:


Q−1
1 AQ1 =
λ1 B1
0
A1

 , wobei A1 eine (n − 1) × (n − 1) Matrix ist.
Nun haben Q−1
1 AQ1 und A dieselben EW, weil diese Ähnlichkeitsinvarianten sind.
Wegen |Q−1
1 AQ1 − XIn | = (λ1 − X)|A1 − XIn−1 | folgt, daß λ2 , . . . , λn auch die EW der
(n − 1) × (n − 1) Matrix A1 sind.
Dasselbe Verfahren wie für A wenden wir nun auf A1 an:
2. Schritt: x˜2 sei ein EV von A1 zu λ2 .
Wir nehmen nun x~2 als 1. Spalte einer regulären (n − 1) × (n − 1)−Matrix Q2 (die übrigen
Spalten sind wieder so zu wählen, daß |Q2 | =
6 0). Wie oben folgt:


λ B2
 2
 , wobei A2 eine (n − 2) × (n − 2) Matrix ist.
Q−1
1 AQ1 =
0 A2
Das Verfahren wird solange fortgesetzt, bis An−1 = (λn ) eine (1 × 1)−Matrix ist.
Nach höchstens n − 1 Schritten erhält man also für





I1 0
I
0
I
0
 2
 . . .  n−2
,
Q := Q1 · 
0 Q2
0 Q3
0
Qn−1

λ1


Q−1 AQ = 

%
..
0



.

.
λn
Ij j − te Einheitsmatrix
223
Beispiel: Bestimme eine reguläre Matrix Q derart, daß Q−1 AQ triangulär ist.


9 −1
8 −9




 6 −1
5 −5 

A=


 −5
1 −4
5 


4
0
5 −4
1. PA (X) = (X 2 − 1)(X 2 − 4) = (X − 1)(X + 1)(X − 2)(X + 2) zerfällt in Linearfaktoren
⇒ A ist über IR triangulierbar.
λ1 = 1, λ2 = −1, λ3 = 2, λ4 = −4
(alle EW sind verschieden ⇒ A wäre sogar diagonalisierbar).
2. x~1 = (5, 5, −1, 3)t ist EV zu λ1 = 1.


5 0 0 0



 5 1 0 0
Q= 

 −1 0 1 0

3 0 0 1








5 −1
8 −9

 





0
0
−15
20
1
B
1
1
=

Q−1
1 AQ = 5 

 0
4 −12 16 
0 A1


0
3
1
7
3. λ2 = −1 ist EW von A1 mit x~2 = (4, 0, −1)t als EV.






−20 −15 20
4 0 0




−1 B2
1 




Q2 :=  0 1 0  ⇒ Q−1

0 −48 64  = 
2 A1 Q2 =
20 



0 A2
0 −11 48
−1 0 1
4. λ3 = 2 ist EW von A2 mit x~3 = (8, 11)t als EV.




8 0
2 2/5
 ⇒ Q−1

 ist bereits triangulär.
Q3 := 
3 A2 Q3 =
11 1
0 −2


5. Q := Q1 · 
I1
0
0
Q2


I2
0
5
0 0


 5
0
4 0
=

 −1
Q3
0 8

3 −1 11

0



0 


0 

1
224

1
1 −7 −9/5


 0 −1
−1
6. Probe: Q AQ = 

 0
0

0
0
5
2
0



1 
.

2/5 

−2
Mit MATHEMATICA wird die Dreiecksmatrix allerdings mit anderer Zeilenfolge ausgegeben:
a={{9,-1,8,-9},{6,-1,5,-5},{-5,1,-4,5},{4,0,5,-4}};
a//MatrixForm


9 −1
8 −9




 6 −1
5 −5 




 −5
1 −4
5 


4
0
4 −4
{p,s}=Chop[SchurDecomposition[a]];
(* Transformationsmatrix p *)
p//MatrixForm


−0.730297 −0.19518
0.654654 0




 −0.547723
0.58554 −0.436436 0.408248 




 0.365148
0.09759
0.436436 0.816497 


−0.182574 −0.78072 −0.436436 0.408248
(* Schur’sche Normalform *)
s//MatrixForm


2 −6.94879 −18.8049 −3.42864




 0
−2
−3.42864 −1.51396 




 0
0
−1
−0.534522 


0
0
0
1
(* Probe *)
Chop[Inverse[p].a.p]==s
True
225
Spezialfall: In C[X]
I
zerfällt jedes Polynom, daher gilt:
Satz 22.2 SCHUR’sches Lemma
Jede komplexe n × n−Matrix ist über CI stets triangulierbar.
Allgemein:
Jede n × n−Matrix über einem algebraisch abgeschlossenen Körper K ist über diesen stets triangulierbar.
Theoretische Anwendung:
Satz 22.3 Spur und Determinante
(i) Die Spur einer Matrix ist die Summe ihrer Eigenwerte.
(ii) Die Determinante einer Matrix ist das Produkt ihrer Eigenwerte.
Beweis: Im algebraischen Abschluß ist eine Matrix ähnlich zu einer Dreiecksmatrix. Da die
EW, sp(A) und det(A) Ähnlichkeitsinvarianten sind, und die EW einer Dreiecksmatrix ihre
Diagonalelemente, gilt:
sp(A) = a11 + . . . + ann = λ1 + . . . + λn
det(A) = a11 · . . . · ann = λ1 · . . . · λn
226
23 Blockdiagonalisieren
In Kapitel 21 hatten wir gesehen, daß Diagonalformen sehr nützlich sind. Was ist die nächstbeste
Form nach einer Diagonalmatrix D = diag(λ1 , . . . , λn )? Eine Möglichkeit ist: Statt der Skalare
λi stehen in der Hauptdiagonale quadratische Blockmatrizen Ai .

A1 O . . . O


 O A2 . . . O
n × n − Blockdiagonalmatrix = M = 
 ..
..
..
 .
.
.

O
Die Ai sind (si × si )−Matrizen mit
Pr
i=1 si
O




 = diag(A1 , . . . , Ar )



. . . Ar
= n, O ist eine entsprechende Nullmatrix.
Manche Blockdiagonalmatrizen werden sich als Dreieicksmatrizen erweisen, nämlich dann, wenn
die Ai Dreiecksmatrizen sind.
Ein Operator T : V → V erwies sich genau dann als diagonalisierbar, wenn V die direkte der
Eigenräume Eλ war: V = Eλ1 ⊕ . . . ⊕ Eλr , wobei λ1 , . . . , λr die verschiedenen EW von T sind.
Für diese Eigenräume gilt: T (Eλ ) ⊆ Eλ , Eλ ist also T −invariant, d.h., mit x ∈ Eλ ist auch
T (x) ∈ Eλ , denn:
Ist x ∈ Eλ ⇒ x = k1 b1 + . . . + km bm , wobei (b1 , . . . , bm ) eine Basis von Eλ sei.
Dann ist T (x) = k1 T (b1 ) + . . . + km T (bm ) = k1 λb1 + . . . + km λbm = λ(k1 b1 + . . . + km bm ) ∈ Eλ .
Allgemein wird sich zeigen: T : V → V läßt sich genau dann durch eine Blockdiagonalmatrix
darstellen, wenn V direkte Summe von T −invarianten Teilräumen Wi C V ist. Die Kunst wird
sein, solche T −invarianten Teilräume zu finden.
23.1 Allgemeines Blockdiagonalisieren
Definition 23.1 T : V → V sei ein linearer Operator und W C V ein Teilraum von V .
(i) W heißt ein T–invarianter Teilraum von T , wenn T (W ) ⊆ W . Dann ist die Einschränkung T /W : W → W ein linearer Operator auf W : (T /W )(w) = T (w)∀w ∈ W .
(ii) V sei direkte Summe der T −invarianten Teilräume Wi und Ti := T /Wi . V = W1 ⊕. . .⊕Wr
oder T wird direkt zerlegt in die Operatoren Ti : T := T1 ⊕ . . . ⊕ Tr .
Man sagt auch: Die T −invarianten Teilräume Wi reduzieren T .
227
Beispiel: Die Eigenräume Eλ von T sind T −invariant.
Beispiel: T : IR3 → IR3 sei die Rotation um den Winkel ϕ um die z−Achse.
W = x − y−Ebene ist T −invariant.
U = z−Achse ist T −invariant.
T /W dreht jeden Vektor um den Ursprung um ϕ.
T /U = idU .
Satz 23.1 Invariante Teilräume
T : V → V sei ein linearer Operator und f (x) ein Polynom aus K[X]. Folgende Teilräume von
V sind T −invariant:
(i) W = {0},
(ii) W = V,
(iv) W = im(T ),
(v) ker f (T ),
(iii) W = ker(T ),
(vi) W = ∩Wi , wobei die Wi T − invariant sind.
Beweis von (v): f (T ) = a0 I + a1 T + a2 T 2 + . . . + an T n .
Sei x ∈ ker f (T ) ⇒ f (T )(x) = 0. Wir zeigen: T (x) ∈ ker f (T ). Grundsätzlich ist f (X) · X =
X · f (X) ⇒ f (T ) ◦ T = T ◦ f (T ) ⇒ f (T )(T (a)) = a0 T (x) + a1 T (T (x)) + . . . + an T n (T (x)) =
T ◦ (a0 I(x) + a1 T (x) + . . . + an T n (x)) = T ◦ f (T )(x) = T (0) = 0.
Beachte: ◦ ist für lineare Operatoren auch rechtsdistributiv.
Wir benutzen folgende Basiseigenschaft: V ist direkte Summe der Wi genau dann, wenn die
Vereinigung der Basen von Wi wieder eine Basis von V ist.
Satz 23.2 Blockdiagonalmatrixdarstellung
T : V → V sei ein linearer Operator und V die direkte Summe der T −invarianten Teilräume
W1 , . . . , Wr . Ist Ai die Matrixdarstellung der Einschränkung T /Wi bezüglich der Basis Bi von
Wi , dann ist die Matrixdarstellung von T bezüglich der Basis B = B1 ∪ . . . ∪ Br gegeben durch


A1 O . . . O




 O A2 . . . O 


[T ]B =  .

 ..



O O . . . Ar
228

Also: [T ]B1 ∪B2 ...∪Br
[T /W1 ]B1
O
O
..
.
[T /W2 ]B2
..
.



=



...
O
O








O
...
. . . [T /Wr ]Br
Man sagt auch: [T ]B ist die direkte Summe der Matrizen A1 , A2 , . . . , Ar und schreibt
[T]B = A1 ⊕ A2 ⊕ . . . ⊕ Ar .
Beweis für zwei T −invariante Teilräume:
V = U ⊕ W und T (U ) ⊆ U, T (W ) ⊆ W.
B1 = (u1 , . . . , uk ) sei Basis von U und (w1 , . . . , wl ) Basis von W .
T1 := T /U und T2 := T /W . Dann gilt:
0
a1k uk
B
..
B
⇒ [T1 ]B1 = A1 = B
.
@
T1 (uk ) = ak1 u1 + . . . + akk uk
0
T2 (w1 ) = b11 w1 + . . . + b1l wl
B
..
..
..
B
=
A
=
⇒
[T
]
B
2
B
2
.
.
.
@
T2 (wl ) = bk1 w1 + . . . + bll wl
T1 (u1 )
..
.
=
a11 u1
..
.
+...+
a11
..
.
...
a1k
...
b11
..
.
...
b1l
...
ak1
1
C
C
C
A
akk
1
bl1
C
C
C = A2
A
bll
B1 ∪ B2 = (u1 , . . . , uk , w1 , . . . , wl ) ist Basis von V .

⇒ [T ]B = 
T (u1 )
..
.
=
T1 (u1 )
..
.
=
a11 u1
..
.
+...+
a1k uk + 0w1
+...+
0wk
..
.
T (uk )
=
T1 (uk )
=
ak1 u1
+...+
akk uk + 0w1
+...+
0wk
T (w1 )
..
.
=
T2 (w1 )
..
.
=
0u1
..
.
+...+
0uk + b11 w1
+...+
b1l wl
..
.
T (wk )
=
T2 (wl )
=
0u1
+...+
0ul + bl1 w1
+...+
bll wl
[T1 ]B1
O


=
A1
O


O
[T2 ]B2
O A2
Man schreibt: [T ]B = A ⊕ B und T = T1 ⊕ T2 .
Solche T −invariante Teilräume Wi von V , die V direkt zerlegen, erhält man nach dem folgenden
Hauptzerlegungssatz aus dem Minimalpolynom von T :
Satz 23.3 Hauptzerlegungssatz
T : V → V sei ein linearer Operator mit dem Minimalpolynom
mT (X) = p1 (X)t1 p2 (X)t2 . . . pr (X)tr ,
229
wobei die p1 , . . . , pr verschiedene, irreduzible Polynome sind.
Wi sei der Nullraum der Abbildung pi (T )ti .
Wi := ker(pi (T)ti )
i = 1, . . . , r
Dann gilt:
(i) Jedes Wi ist ein T −invarianter Teilraum von V
(ii) V = W1 ⊕ . . . ⊕ Wr
(iii) pi (X)ti ist das Minimalpolynom der Einschränkung von T auf Wi :
mT /Wi = pi (X)ti
Ohne Beweis. 
2 1 0


Beispiel: A =  −3 0

3 1
3
2
pA (X) = X − 3X +5X



0 

1
2
−
3 = (X − 1)(X − 2X + 3) = mA
0
 
 
U1 = ker(A − I) =<  0  >
 
1

1
 
0
  
  
U2 = ker(A2 − 2A + 3I) =<  0  ,  1
  
0
−1
V = U1 ⊕ U2     

0
1
0



>


0 1
0




    
    



Basis B =  0  ,  0  ,  1  ⇒ P =  0 0
1 .
    



1
0
−1
1 0 −1




1
0 0


2
1



Mit diesem P gilt P −1 AP =  0
2 1  ⇒ A = A⊕ A2 mit A1 = (1), A2 = 


−3 0
0 −3 0
Es kommt also auf die Berechnung des Minimalpolynoms an:
Algorithmus zur Berechnung des Minimalpolynoms mA aus dem charakteristischen
Polynom pA :
230
1. Zerlege pA (X) in irreduzible Faktoren (schwierig; in Mathematica z.B. mit Factor[p])
pA (X) = p1 (X)t1 . . . pr (X)tr
2. Starte bei p1 (X) . . . pr (X) und prüfe, ob A Nullstelle ist. Falls ja, dann ist
mA = p1 (X) . . . pr (X).
Wenn nicht, probiere, ob A eine Nullstelle von p21 (X)p2 . . . pr usw.
Damit: Sind alle irreduziblen Faktoren von pA (X) verschieden, dann ist mA (X) = pA (X).
Zwei Spezialfälle
1. T sei ein nilpotenter Operator vom Index k, d.h. T k = 0, aber T k−1 6= 0.
Das Minimalpolynom ist mT (X) = X k und 0 daher sein einziger EW.
Satz 23.4 Blockdiagonalzerlegung von nilpotenten Operatoren
T : V → V sei ein nilpotenter Operator vom Index k bzw. A eine quadratische, nilpotente
n × n−Matrix vom Index k.
Dann hat T eine blockdiagonale Matrixdarstellung, deren Diagonalblöcke N von der Form


0 1 0 ... 0 0




 0 0 1 ... 0 0 




N =  .................. 




 0 0 0 ... 0 1 


0 0 0 ... 0 0
sind. Es gibt mindestens eine (k × k)−Block, alle anderen Blöcke haben Dimensionen ≤ k.
Die Gesamtanzahl der Blöcke = def (T ).
Die Anzahl der Blöcke der Dimension mi ist gegeben durch
2mi − mi+1 − mi−1 wobei mi = def (T i ).
Beachte: Jeder Block ist selbst nilpotent von einem Index, der gleich seiner Dimension ist.
Beachte: Obige Blockdiagonalzerlegung ist sogar triangulär.




0 0 1 1 1
0 1 1 0 1








 0 0 0 0 0 
 0 0 1 1 1 








Beispiel: A =  0 0 0 0 0  , A2 =  0 0 0 0 0  , A3 = O








 0 0 0 0 0 
 0 0 0 0 0 




0 0 0 0 0
0 0 0 0 0
231
A ist nilpotent vom Index 3. Die
Matrixdarstellung M enthält mindestens einen

 blockdiagonale
0 1 0




Block der Dimension 3: N =  0 0 1  und keinen größeren.


0 0 0
Wegen rg(A) = 2 ist def (A) = 5 − 2 = 3, daher enthält M 3 diagonale Blöcke ⇒
M enthält einen (3 × 3)−Block und zwei (1 × 1)−Blöcke. Eine andere Konstellation ist nicht
möglich.


0 1 0


 0 0 1
A ∼2 M = 


0




.



0
Die blockdiagonalisierende Matrix P mit P −1 AP = M erhält man am besten mittels eines
unbestimmten Ansatzes:
Wir bestimmen eine Basis B = (b~1 , b~2 , b~3 , b~4 , b~5 ) des K 5 , bezüglich der die Matrixdarstellung
[T ]B = M ist. Nach Definition der Matrixdarstellung (Spalten = Koordinaten der Bilder der
Basisvektoren) gilt auf Grund der Gestalt von M :
A(b~1 ) = Ab~1 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~1 ∈ ker(A)
A(b~2 ) = Ab~2 = 1 · b~1 + . . . + 0 · b~5 = b~1 ⇒ b~2 ist Lösung von A~x = b~1
A(b~3 ) = Ab~3 = 1 · b~2 + . . . + 0 · b~5 = b~2 ⇒ b~3 ist Lösung von A~x = b~2
A(b~4 ) = Ab~4 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~4 ∈ ker(A)
A(b~5 ) = Ab~5 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~5 ∈ ker(A)
b~1 , b~4 , b~4 sind also die Basisvektoren vom Nullraum von A:
NullSpace[A] =< (0, 0, −1, 0, 1)t , (0, 1, −1, 1, 0), (1, 0, 0, 0, 0) >
Durch Probieren wählen wir b~1 , b~4 , b~5 so, daß die obigen LGS A~x = b~1 und A~x = b~z lösbar
sind. Die natürliche Reihenfolge liefert keine Lösung, aber:
b~1 = (1.0.0.0.0)t , b~4 = (0, 1, −1, 1, 0)t ; b~5 = (0, 0, −1, 0, 1)t
b~2 = LinearSolve[A, b~1 ] = (0, 1, 0, 0, 0)t
b~3 = LinearSolve[A, b~2 ] = (0, −1, 1, 0, 0)t
232
P ist die Übergangsmatrix von der Standardbasis zu B, also


1 0
0
0
0




 0 1 −1
1
0 




P = 0 0
1 −1 −1 




 0 0
0
1
0 


0 0
0
0
1
Probe: P −1 AP = M .
2. Ein orthogonaler Operator T ist zwar stets ein normaler Operator, aber in der Regel nicht
symmetrisch, so daß er zwar über CI diagonalisierbar ist, nicht jedoch über IR. Über IR gibt es
aber folgende andere einfache Darstellung:
Satz 23.5 Blockdiagonaldarstellung orthogonaler Operatoren über IR
Es sei T : V → V ein orthogonaler Operator auf einem reellen Skalarproduktraum. Dann gibt
es eine ON–Basis B von V , bezüglich der T folgende Matrixdarstellung besitzt:

1


..
.




1



−1


..

.


[T ]B = 
−1



cos ϕ1 − sin ϕ1



sin ϕ1
cos ϕ1



..
.




cos ϕr − sin ϕr

sin ϕr
cos ϕr






























ohne Beweis.
Bemerkung: Die (2 × 2)−Blöcke entsprechen den komplexen EW λi = cos ϕ + sin ϕ von T
(diese müssen Betrag 1 haben).
233
23.2 JORDAN’scher Normalformensatz
Die letzten Sätze zeigen, daß die Blockdiagonalform eines nilpotenten bzw. orthogonalen Operators sehr viele Nullen und Einser enthält. Das bestmöglichste Resultat, das man in diese Hinsicht für einen beliebigen Operator erreichen kann, ist die JORDAN’sche Normalform (Camille
Jordan, 1838-1922). Notwendig und hinreichend dafür ist, daß sowohl das charakteristische Polynom, als auch das Minimalpolynom des Operators (der Matrix) in Linearfaktoren zerfallen.
Über CI ist das (zumindest theoretisch) stets der Fall, so wie auch im algebraischen Abschluß eines
jeden Körpers. Man kann somit sagen, daß jeder Operator auf JORDAN’sche Normalform gebracht werden kann. Die Faktoren in den Zerlegungen des Minimal– und des charakteristischen
Polynoms geben über die Anzahl der Blöcke oft hinreichend Bescheid. Es ist aber schwierig, diese
Zerlegung in Linearfaktoren herzustellen. Hier hilft die Methode des unbestimmten Ansatzes
weiter. Auch Hilfe von verallgemeinerten Eigenvektoren kann man jene Transformationsmatrizen berechnen, die die Jordansche Normalform herstellen.
Satz 23.6 JORDAN’scher Normalformensatz
T : V → V sei ein linearer Operator, λ1 , . . . , λr seien seine verschiedenen EW. Das charakteristische bzw. das minimale Polynom mögen in Linearfaktoren zerfallen:
pT (X) = (X − λ1 )k1 (X − λ2 )k2 . . . (X − λr )kr
mT (X) = (X − λ1 )m1 (X − λ2 )m2 . . . (X − λr )r
Dann hat T eine blockdiagonale Matrixdarstellung J, deren Diagonalblöcke Jij zum EW λi
folgende Form besitzen:

λi
1
0 ...
0
0


 0 λi 1 . . . 0 0


Jij =  . . . . . . . . . . . . . . . . . . . . .


 0 0 0 . . . λi 1

0 0 0 . . . 0 λi






 = λi In + N, N nilpotent.




Jij ist ein Block, der zum i−ten Eigenwert λi gehört, er heißt JORDAN’scher Block. Die
JORDAN’schen Blöcke haben folgende Eigenschaften:
(i) Es gibt mindestens ein Jij der Dimension mi , alle anderen Blöcke haben eine Dimension
≤ mi .
234
(ii) Die Summe der Dimensionen aller Jij zu λi ist ki , die algebraische Vielfachheit von λi .
(iii) Die Anzahl gi der Jij ist gleich der geometrischen Vielfachheit von λi .
Die Anzahl der JORDAN’schen Blöcke jeder möglichen Dimension ist durch T eindeutig bestimmt.
Insgesamt ist:
J = diag(J11 , . . . , J1g1 , . . . , Jr1 , . . . , Jrgr ), wobei gi die geometrische Vielfachheit vom EW λi ist.
ohne Beweis.
Beachte: Jeder JORDAN’sche Block ist von der Form:
Jij = λIn + N
N nilpotenter Block aus (23.4)
und J selbst ist sogar von triangulärer Form.
Der Satz sagt also aus, daß jeder Operator T in eine Summe von solchen Operatoren zerlegt
werden kann, die selbst die Summe aus einem Vielfachen des identischen Operators und eines
nilpotenten Operators sind.
Die Gestalt λ In + N ermöglicht ein leichtes Berechnen von hohen Matrixpotenzen
(ohne Beweis):

...



 0
λn
...
n
Jij = 

 ...........................

0
0
0
λn







λn
n
1
λn−1
i
n n−2
2 λi
n n−1
1 λi
Die Aussagen (i), (ii), (iii) ermöglichen oft eine Bestimmung der Jordan’schen Normalform.
Beispiel: T : V → V sei ein linearer Operator mit
pT (X) = (X − 2)4 (X − 3)3
mT (X) = (X − 2)2 (X − 3)2
und
λ1 = 2, k1 = 4, m1 = 2
λ2 = 3, k2 = 3, m2 = 2
Für die Jordan’schen Blöcke gibt es folgende
 Möglichkeiten:

2 1

Zum EW λ1 gibt es einen (2 × 2)−Block: 
0 2


3 1

Zum EW λ2 gibt es einen (2 × 2)−Block:
0 3
235
Wegen k1 = 4 gibt es zwei (2 × 2)−Blöcke oder einen (2 × 2)−Block und zwei (1 × 1)−Blöcke
zu λ1 = 2.
Wegen k1 = 3 gibt es einen (2 × 2)−Block und einen (1 × 1)−Block zu λ2 = 3. Die Anzahl der
Blöcke hängt von der geometrischen Vielfachheit von λi ab:
Besitzt T zwei l.u. EV zu λ1 , dann gibt es zwei Blöcke zu λ1 = 2, also ist


2
1




 0 2







2 1





J =
0 1






3 1






0 1




3
Die Basis, bezüglich der [T ]B = J ist bzw. die blockdiagonalisierende Matrix P mit P −1 AP = J
findet man am bestem mit dem unbestimmten Ansatz:
Beispiel:
T : IR4 → IR4 mit T (x, y, z, u) = x + y + u, 2y, −x + y + 2z + u, −x + y + 3u)


1 1 0 1




 0 2 0 0 

=A
[T ]B = 

 −1 1 2 1 


−1 1 0 3
pT (X) = (X − 2)4
mT (X) = (X − 2)2 ⇒ k1 = 4, m1 = 2
geometrische Vielfachheit von λ = 2 ist 3. Damit sind folgende JORDAN’sche Formen möglich
(T ist übrigens nicht diagonalisierbar):
(4 × 4) = (2 × 2) + (1 × 1) + (1 × 1)
(4 × 4) = (2 × 2) + (1 × 1) + (2 × 2) scheidet aus, weil 3 Blöcke zu λ = 2 vorhanden sein müssen.
Die zwei (1 × 1)−Blöcke kann man verschieden anordnen:




2 1
2











 0 2
2 1




J1 = 

 J2 = 




2
0 2




2
2




J3 = 



2




2


2 1 

0 1
236
Wir bestimmen eine Basis B = (b~1 , b~2 , b~3 , b~4 ), für die [T ]B = J1 gilt:
Nach Definition der Matrixdarstellung muß gelten:
T (b~1 ) = 2b~1
⇒ b~1 ist EV von T zum EW λ = 2
T (b~2 ) = 1 · b~1 + 2b~2 ⇔ (T − 2I)b~2 = b~1 ⇔ b~2 ist Lösung von (T − 2I)~x = b~1
T (b~3 ) = 2b~3
⇒ b~3 ist EV von T zum EW λ = 2
T (b~4 ) = 2b~4
⇒ b~4 ist EV von T zum EW λ = 2
b~1 , b~3 , b~4 ∈ E2 , es ist dim(E2 ) = 3 = geometrische Vielfachheit von λ = 2.
Eigenvektor [a] =< (1, 0, 0, 1)t , (0, 0, 1, 0)t , (1, 1, 0, 0)t >.
Alle 3 Basisvektoren eignen sich nicht zur Lösung von (T − 2I4 )~x = b~1 .
Durch Probieren findet man, daß erst
b~1 = (1, 0, 0, 1)t + (0, 0, 1, 0)t = (1, 0, 1, 1)t ∈ E2
sich für die Lösung des LGS (T − 2I)~x = b~1 eignet.
b~2 = LinearSolve[a − 2IdentityMatrix[4], b~1 ] = (−1, 0, 0, 0)t .
b~3 = (1, 0, 0, 1)t
b~4 = (1, 1, 0, 0)t .

1 −1 1 1


 0
Damit ist P = 

 1

1



0 0 1 
 = {b~1 , b~2 , b~3 , b~4 }.

0 0 0 

0 1 0
Probe: J1 = Inverse[P ] · A · P .
Durch andere Anwendungen von b~1 , b~2 , b~3 , b~4 erhält man J2 bzw. J3 .
Statt des unbestimmten Ansatzes kann man auch verallgemeinerte EV benützen, um die
gewünschte Transformationsmatrix zu erhalten.
23.3 Verallgemeinerte Eigenvektoren
Im Falle der Nichtdiagonalisierbarkeit einer n × n−Matrix, wenn sie also mehrfache EW besitzt,
erhält man zu wenig (d.h., weniger als n) l.u. Eigenvektoren. Man behilft sich dann mit “verallgemeinerten Eigenvektoren” weiter, mit deren Hilfe Transformationsmatrizen P zur Erreichung
237
der JORDAN’schen Normalform konstruiert werden können. Diese verallgemeinerten EV sind
auch sonst noch von Nutzen.
Definition 23.2 Verallgemeinerter Eigenvektor
Ein vom Nullvektor verschiedener Vektor ~x ∈ K n heißt verallemeinerter Eigenvektor der
Matrix A ∈ K n·n vom Rang k zum Eigenvektor λ, wenn gilt:
(A − λI)k ~x = ~0 und (A − λI)k−1 ~x 6= ~0.
Im Falle eines linearen Operator T nimmt man zur Definition des veralgemeinerten EV x von
T dessen Darstellungsmatrix bezüglich irgendeiner Basis.
Bemerkung: Für k = 1 erhält man die übliche Definition des Eigenvektors. Diese sind also
verallgemeinerte EV vom Rang 1.
Mit einem solchen verallgemeinerten EV ~x bzw. x vom Rang k kann man folgende Menge von
k verallgemeinerten EV zum EW λ, genannt “Kette von verallgemeinerten EV zum EW
λ”, konstruieren:
xk := x, xk−1 := (A − λI)x = (A − λI)xk
xk−2 := (A − λI)2 x = (A − λI)xk−1
..
.
x1 := (A − λI)k−2 x = (A − λI)x3
x2 := (A − λI)k−1 x = (A − λI)x2
Durch Induktion nach i zeigt man, daß xi ein verallgemeinerter EV von A vom Rang i ist.
Außerdem erhält man so die zur Transformation auf JORDAN’sche Normalform notwendigen
l.u. Vektoren.
Satz 23.7 Lineare Unabhängigkeit verallgemeinerter EV
(i) Die von einem verallgemeinerten EV x zum EW λ vom Rang k erzeugte Kette
(x1 , x2 , . . . , xk ) von verallgemeinerten EV ist l.u.
(ii) Die Vereinigung von Ketten verallgemeinerter EV zu verschiedenen EW ist l.u.
Beweis von (i): Wir benützen für i = 1, . . . , l − 1: (A − λI)k−1 xi = (A − λI)k−1 (A − λI)k−i xk =
(A − λI)2k−(i+1) xk = 0 (weil (A − λI)k xk = (A − λI)k x = 0). Sei
l1 x1 + l2 x2 + . . . + lk xk = 0.
(32)
238
Durch Linksmultiplikation mit (A − λI)k−1 erhält man:
l1
(A − λI)k−1
|
{z
}
x1 + . . . + li
=(A−λI)2k−2 xk =0
(A − λI)k−1
|
{z
}
xi + . . . + lk (A − λI)k−1 xk = 0,
=(A−λI)2k−(i+1) xk =0
bleibt also nur lk (A − λI)k−1 xk = 0 übrig.
Weil aber (A − λI)k−1 xk 6= 0 ist, muß lk = 0 sein.
Analog erhält man durch Linksmultiplikation von (32) mit (A − λI)k−i , daß li = 0 ist für i = k, k − 1, . . . , 1.
Beweis von (ii): x sei verallgemeinerter EV von A vom Rang k zum EW λ mit Kette K1 = (x1 , x2 , . . . , xk ).
y sei verallgemeinerter EV von A vom Rang l zum EW µ mit Kette K2 = (y1 , y2 , . . . , yl ).
Nach (i) sind K1 , K2 l.u. Mengen. Wir zeigen: K1 ∪ K2 = (x1 , x2 , . . . , xk , y1 , y2 , . . . , yl ) ist ebenfalls l.u.
Indirekt: Sei xi l.a. von K2 = (y1 , y2 , . . . , yl ) ⇒ ∃ Skalare s1 , . . . , sl , nicht alle 0, mit:
xi = s1 y1 + . . . + si yi + . . . + sl yl = 0
(33)
Linksmultiplikation von (33) mit (A − λI)i ergibt wegen (A − λI)i xi = 0:
(A − λI)i xi = (A − λI)(s1 y1 + . . . + si yi + . . . + sl yl ) = 0
(34)
Linksmultiplikation von (34) mit (A − µI)l−1 ergibt, wenn man für i = 1, . . . , l − 1 berücksichtigt:
(A − µI)l−1 (A − λI)i yi = (A − λI)i (A − µI)l−1 yi = 0
nur mehr
sl (A − λI)i (A − µI)l−1 yl = 0
oder weil yl verallgemeinerter EV vom Rang l ist:
sl (A − λI)i yl = 0.
(35)
Nun ist (A − µI)yl = 0 gleichbedeutend mit Ayl = µyl , daher erhält man auf (35):
sl (µ − λ)i yl = 0.
(36)
Wegen µ 6= λ und yl 6= 0 folgt aus (36): sl = 0. So fortfahrend erhält man sl = sl−1 = . . . = si = . . . s1 = 0, ein
Widerspruch zu (33), d.h., jedes xi ∈ K1 ist von K2 l.u. Analog zeigt man, daß jedes yi ∈ K2 von K1 l.u. ist.
Somit ist K1 ∪ K2 l.u.
Beispiel: Berechne die JORDAN’sche Normalform von

1 1 0 1


 0 2 0 0
A=

 −1 1 2 1

−1 1 0 3








239
und bestimme die Transformationsmatrix P mit P −1 AP = J mittels verallgemeinerter EV.
Es ist PA (X) = (X − 2)4 , also gibt es nur einen EW λ = 2 mit der algebraischen Vielfachheit 4.
Wegen rg(A − 2I) = 1 = 4 = 3 gibt es nur 3 l.u. EV, also zu wenig für eine Basis.
Daher versuchen wir es mit verallgemeinerten EV zum EW λ = 2 vom Rang 2 (es ist
mA (x) = (X − 2)2 , also (A − 2I)2 x = 0), d.h., man sucht einen Vektor ~x mit (A − 2I)~x = 0 und
(A − 2I)2 ~x 6= 0.
Wegen mA (X) = x2 − 2 erfüllt jeder Vektor (A − 2I)2 ~x = 0, wir bestimmen ein solches x~2 , für
den (A − 2I)x~2 6= 0 ist, z.B. x~2 = (1, 0, 0, 0)t , dann ist x~1 := (A − 2I)x~2 = (−1, 0, −1, −1)t und
x~1 , x~2 sind 2 verallgemeinerte EV zum EW λ = 2.
Zusammen mit den EV x~3 = (1, 0, 0, 1)t und x~4 = (1, 1, 0, 0)t erhält man eine Basis
B = (x~1 , x~2 , x~3 , x~4 ) von K 4 und damit die reguläre Matrix

−1


 0
P = (x~1 |x~2 |x~3 |x~4 ) = 

 −1

−1

Mit P −1
0
0
1
0

1 1 1



0 0 1 


0 0 0 

0 1 0

2 1 0 0









 1 −1


0 −1 
0
2
0
0
−1



=J
=
 erhält man P AP = 

 0
 0 0 2 0 
0 −1
1 




0
1
0
0
0 0 0 2
23.4 Matrizenfunktionen
Sowohl bei den Differenzen–, als auch bei den Differentialgleichungen, haben wir gesehen, daß gewisse Funktionen von Matrizen, wie z.B. die Potenzfunktion Ak bzw. die Exponentialfunktion eAx
√
von Bedeutung sind. Generell benötigt man alle gängigen Funktionen (sin A, A, ln A, . . .) einer
Matrix A. Es gibt mehrere Methoden, solche Funktionen von Matrizen zu berechnen: mittels der
Polynomdivision, den Normalformen, den Interpolationsformeln oder mittels des Spektralsatzes.
1. Matrizenfunktionen mittels Polynomdivision
Setzt man eine quadratische Matrix A in ihr charakteristisches Polynom pA (X) ein, so erhält
man nach dem Satz von CAYLEY die Nullmatrix O : pA (A) = O∀A ∈ K n·n . Das heißt, die
240
Nullfunktion an “der Stelle A” kann durch ein Ersatzpolynom, nämlich das charakteristische
Polynom pA (X) dargestellt werden. Ähnliches gilt auch für andere Funktionen f (X).
Die einfachsten Funktionen nach der Potenzfunktion sind die Polynomfunktionen
p(X) = am X m + am−1 X m−1 + . . . + a0
am 6= 0.
Ist A eine quadratische n×n−Matrix, dann ist nach den Regeln einer Algebra die Polynommatrix
p(A) := am Am + am−1 Am−1 + . . . + a0 In
möglich. Ist m < n, dann berechnet man p(A) direkt nach den Matrixregeln.
Ist jedoch m ≥ n, dann kann die Berechnung von p(A) mittels des Satzes ?? über die Polynomdivision wesentlich vereinfacht werden. Es gilt dann, wenn pA (X) das charakteristische Polynom
von A bezeichnet:
p(X) = q(X) · pA (X) + r(X) mit [r(X)] < n
Nach dem Satz von CAYLEY gilt dann wegen pA (A) = O
p(A) = q(A) · pA (A) + r(A)
(37)
p(A) = r(A)
Beachte: Zur Berechnung von p(A) benötigt man höchstens Matrizpotenzen vom Grad ≤ n − 1.
Beispiel: p(X) = X 10 −10X 9 +23X 8 − X 3 + 11X 2 + X + 24
Berechne p(A) für A = 
5 2
1 5

2
Lösung: pA (X) = X − 10X + 23. Nach dem Divisionssatz gilt:
p(X) = (X 8 − X + 1)pA (X) +034X + 1.
1
Daher ist p(A) = 34A + I2 = @
A.
171
68
34
171
Ohne Beweis sei angegeben, daß die Beziehung (37) auch noch für andere Funktonen f (X) als
Polynomfunktion gilt:
f (X) = q(X) · pA (X) + r(X)
wobei r(X) = rn−1 X n−1 + . . . + r1 X + r0 ein Polynom höchstens (n − 1)−ten Grades ist.
Damit ist f (A) = q(A) · pA (A) + r(A) und wegen pA (A) = O gilt:
f (A) = r(A).
(38)
241
Die Matrixfunktion f(A) kann also durch ein Ersatzpolynom berechnet werden.
Die n Koeffizienten r0 , . . . , rn−1 des Restpolynoms r(X) erhält man aus (38), indem man die
EW λi einsetzt und berücksichtigt, daß pA (λi ) = 0 ist.
Sind alle EW verschieden, erhält man dadurch ein LGS für die unbekannten Koeffizienten
r0 , . . . , rn−1 von r(X):
r(λi ) = f (λi )
i = 1, . . . , n
(39)
Ist λi ein k−facher EW, dann gilt nach ??, daß nicht nur pA (λi ) = 0, sondern auch die Ableitung
bis zur (ki − 1)−ten Ordnung an der “Stelle” λi :
(k −1)
pA (λi ) = 0, p0A (λi ) = 0, . . . , pA i
(λi ) = 0
Dies liefert die Gleichungen (soferne die Ableitungen existieren)
r(λi ) = f (λi )
r0 (λi ) = f 0 (λi )
(40)
r(ki −1) (λi ) = f (ki −1) (λi ).
Da die Summe der algebraischen Vielfachheiten aller EW λi gleich n ist, erhält man also stets
n lineare Gleichungen für die unbekannten Koeffizienten
 r0 , rn, . . . , rn−1 von r(X).
5 2
 die Matrizen
Beispiele: Im folgenden werden für die Matrix A = 
1 5
eA , sin A, cos A, A−3 , ln A (mit eln A = A) berechnet.
242
243
Die Berechnungen von f (A) kann noch effizienter gestaltet werden, wenn man das Minimalpolynom mA (X) von A kennt und wenn dessen Grad kleiner als der des charakteristischen Polynoms
pA (X) ist. Da nach Satz 19.8 auch mA (A) = O und mA (λi ) = 0 ist, gilt dieselbe Schlußweise
wie oben.
Die Berechnung von mA (X) ist allerdings nicht leicht (siehe 19.2). Kennt man jedoch die
JORDAN’sche Normalform J von A, dann kann das Minimalpolynom mA (X) sofort angegeben
werden:
Sei λ1 , λ2 , . . . , λr die verschiedenen EW der n×n−Matrix A mit den algebraischen Vielfachheiten
P
k1 , k2 , . . . , kr ( ri=1 ki = n). Es ist dann bekanntlich
(−1)n pA (X) =
r
Y
(X − λi )ki
i=1
Definition 23.3 Index eines Eigenwertes
Der Index ki des EW λi ist die größte Dimension der zu λi gehörigen JORDAN–Blöcke.
Nach Satz 19.8 ist ki ≤ ki .
Beispiel: Die 7 × 7−Matrix A habe die JORDAN’sche Normalform









J =







5 1 0 0 0 0 0



0 5 1 0 0 0 0 


0 0 5 0 0 0 0 


0 0 0 5 1 0 0 


0 0 0 0 5 0 0 


0 0 0 0 0 2 1 

0 0 0 0 0 0 2
Es ist dann: λ1 = 5, k1 = 5, k1 = 3;
λ2 = 2, k2 = 2, k2 = 2
Satz 23.8 Produktdarstellung des Minimalpolynoms
Hat A die r verschiedenen EW λ1 , λ2 , . . . , λr mit Index k1 , k2 , . . . , kr , dann gilt für das Minimalpolynom
mA (X) =
r
Y
(X − λi )ki
i=1
244
2. Matrizenfunktionen mittels Interpolationspolynom
Das die Matrizenfunktion f (A) bestimmende Restpolynom r(X) kann auch durch die aus der
Analysis bekannten Interpolationspolynome bestimmt werden. So kann z.B. eine gegebene Funktion f (X) durch das LAGRANGE’sche Interpolationspolynom r(X) interpoliert werden (siehe
??):
r(X) =
n
X
f (xi ) ·
i=1
n
Y
X − xi
xj − xi
j=1
j6=n
Diese LAGRANGE’sche Formel kann auf Matrizen mit verschiedenen EW übertragen werden:
Satz 23.9 SYLVESTER’sche Interpolationsformel
Die quadratische n × n−Matrix A habe n verschiedene EW λ1 , λ2 , . . . , λn . Dann gilt:
f (A) =
n
X
i=1
f (λi )
n
Y
A − λi In
λj − λi
j=1
(41)
j6=i
Beweis: Nach Satz 20.21 ist A unter diesen Bedingungen diagonalisierbar. Es gibt also eine reguläre Matrix P mit
P −1 AP = D = diag(λ1 , . . . , λn ).
Für f (X) gilt:
P −1 f (A)P = f (D) = diag(f (λ1 ); . . . , f (λn )).
(42)
Multipliziert man (41) ebenfalls links mit P −1 und rechts mit P , so erhält man:
“P
Q A−λi I ”
P −1
P =
j λj −λi
i f (λi )
“
”
(A−λ1 I)(A−λ2 I)...(A−λi−1 I)(A−λi+1 I)...(A−λn I)
−1 Pn
=P
i=1 (λi −λ1 )(λi −λ2 )...(λi −λi−1 )(λi −λi+1 )...(λi −λn ) f (λi ) P =
P
(D−λ1 I)(D−λ2 I)...(D−λi−1 I)(D−λi+1 I)...(D−λn I)
f (λi ) =
= n
i=1
i −λi+1 )...(λi −λn )
0(λi −λ1 )(λi −λ2 )...(λi −λi−1 )(λ1
0
B
C 0
1
B
C
..
B
C
.
B
C B f (λ1 )
C
B
C B
P
C
..
B
C=B
= n
C = f (D).
f (λi )
.
i=1 B
C @
A
B
C
B
C
..
f (λn )
B
C
.
@
A
0
Damit ist nach (42):
f (A)
=
=
“P
Q
P f (D)P −1 = P (P −1
i f (λi )
j
P
Q
A−λi I
i f (λi )
j6=i λj −λi .
A−λi I
λj −λi
”
P )P −1 =
Für 3 × 3−Matrizen sieht (41) ausgeschrieben so aus:
f (A) = f (λ1 )
(A − λ2 I3 )(A − λ3 I3 )
(A − λ1 I3 )(A − λ3 I3 )
(A − λ1 I3 )(A − λ2 I3 )
+ f (λ2 )
+ f (λ3 )
(λ1 − λ2 )(λ1 − λ3 )
(λ2 − λ1 )(λ2 − λ3 )
(λ3 − λ1 )(λ3 − λ2 )
245
Beachte: Wegen der Verschiedenheit der EW sind alle Nenner 6= 0.
Beispiele:
246
Bemerkung: Sind nicht alle EW verschieden, gilt Ähnliches mit der NEWTON’schen Interpolationsformel.
3. Matrizenfunktionen mittels Normalformen
Sei A ähnlich zu einer Normalform N , also P −1 AP = N ⇔ A = P N P −1 .
Für Polynomfunktion p(X) gilt dann (siehe das Rechnen mit Matrixpotenzen 21.4.1):
p(A) = P (N )P −1
Ähnliches gilt für viele Funktionen f (X) (→ Funktionalanalysis):
f (A) = Pf (N)P−1
247
Für spezielle Normalformen, wie z.B. für N = J (JORDAN’sche Normalform) und besonders
für Diagonalmatrizen N = D ist die Berechnung von f (N ) besonders leicht. So ist (siehe 21.4.4)
f (D) = diag(f (λ1 ), . . . , f (λn )) für D = diag(λ1 , . . . , λn ).
Damit gilt also für diagonalisierbare Matrizen A mit EW λ1 , . . . , λn :


f (λ1 )



 −1
..
f (A) = P 
P ,
.


f (λn )
wobei P die diagonalisierende Transformationsmatrix ist.
Beispiele:
248
4. Matrizenfunktionen mittels der Spektraldarstellung
Der Vollständigkeit halber sei noch ohne Beweis angegeben, wie man aus der Spektraldarstellung siehe 21.8 und 21.10 für normale Matrizen A praktisch sofort die Matrizenfunktion f (A)
angeben kann:
Satz 23.10 Matrizenfunktionen mittels Spektraldarstellung
Seien λ1 , . . . , λr die verschiedenen EW der normalen Matrix A und P1 , . . . , Pr eine orthogonale
Menge von Orthogonalprojektionen mit
A = λ 1 P1 + . . . + λ r Pr
wobei
P2 + P2 + . . . + Pr = I
und
Pi Pj = Pj Pi
, dann gilt:
f (A) = f (λ1 )P1 + . . . + f (λj Pj )
249
Beispiele:
250
251
252
VII QUADRATISCHE FORMEN
Bisher haben wir uns nur mit linearen Ausdrücken in den Variablen x1 , . . . , xn der Form a1 x1 +
a2 x2 + . . . + an xn beschäftigt. Sie sind dadurch gekennzeichnet, daß sie die Variablen nur in
den ersten Potenzen enthalten und dementsprechend nur lineare Abbildungen vom K n → K
hervorrufen. Nun wollen wir uns mit solchen Ausdrücken beschäftigen, die auch Produkte und
Quadrate der Ausgangsvariablen enthalten: ax2 + bxy + cy 2 oder allgemein
a11 x21 + a22 x2 + . . . + ann x2n + a12 x1 x2 + . . . + a1n x1 xn + . . . a23 x2 x3 + . . . + an−1 an xn−1 xn .
Sie induzieren ebenfalls Abbildungen vom K n → K, die man allgemein Formen nennt. Sie sind
aber nicht mehr linear, trotzdem werden wir sehen, daß sie mit linearen Methoden, ja sogar mit
symmetrischen Matrizen beschrieben werden können. Solche Ausdrücke werden in den verschiedensten Gebieten der Mathematik benötigt. In der Analysis z.B. zur Kennzeichnung von Maxima
und Minima, in der Geometrie zur Beschreibung von “gekrümmten” Punktmengen (Kegelschnitte, Quadriken), auch in der Statistik möchte man wissen, wann solche Ausdrücke immer nur
Werte ≥ 0 oder < 0 annehmen. Dazu werden wir lernen, wie man solche quadratische Ausdrücke
vereinfachen, insbesondere die gemischten Terme xi xj entfernen kann (“Hauptachsentransformation”) und welche Geometrie auf der durch sie beschriebenen Punktmengen möglich ist.
24 Bilinearformen und Quadratische Formen
Mit den zunächst naheliegenden Ausdrücken der Form a1 x1 + . . . + an xn und den durch sie
induzierten linearen Abbildungen, den Linearformen, werden wir uns erst später beschäftigen.
Sie traten bisher bei linearen Gleichungssystemen auf. Der weitere Ausbau ihrer Theorie und
ihren Anwendungen erfolgt im Kapitel über Dualität in der Höheren Linearen Algebra.
Vielmehr beschäftigen wir uns mit “quadratischen Formen” und zeigen, daß sie trotzdem mit
linearen Methoden behandelt werden können. Das beruht darauf, daß sie ebenfalls mit Matrizen
(sogar symmetrischen → Hauptsatz der Linearen Algebra) beschrieben werden können bzw. als
Spezialfall von “bilinearen” Abbildungen aufgefaßt werden können, wie folgendes Beispiel zeigt:



3 4
x1

 = ~xt A~x.
q(x1 , x2 ) = 3x1 + 8x1 x2 + 25x2 = (x1 , x2 ) 
4 5
x2
Setzt man in
f (x1 , x2 , y1 , y2 ) = 3x1 y1 + 4x2 y1 + 4x1 y2 + 5x2 y2
253
x1 = y1 und x2 = y2 , so erhält man:
f (x1 , x2 , x1 , x2 ) = 3x21 + 4x2 x1 + 4x1 x2 + 5x22 = 3x21 + 8x1 x2 + 5x22
= q(x1 , x2 )
f ist dabei eine Abbildung von K 2 × K 2 → K und q(~x) = f (~x, ~x) ebenfalls eine Abbildung vom
K 2 → K.
24.1 Definitionen
Folgende Abbildungen wurden bisher untersucht:
1. Vorschriften mit nur 1. Potenzen der Ausgangsvariablen x̃ = (x1 , . . . , x˜n )
Lineare Abbildungen
Affine Abbildungen
y1 = a11 x1 + . . . + a1n xn
y1 = a11 x1 + . . . + a1n xn + b1
y2 = a21 x1 + . . . + a2n xn
..
.
y2 = a21 x1 + . . . + a2n xn + b2
..
.
ym = am1 x1 + . . . + amn xn
ym = am1 x1 + . . . + amn xn + bm
~y = A~x
~y = A~x + ~b
allgemein:
f :V →W
α:V →W
f (x) = y
α(x) = f (x) + t, f linear
f (kx + ly) = kf (x) + lf (y)
α : Lineare Abbildung + Translation
f : Lineare Abbildung (Operator)
Spezialfall:
y = a1 x1 + . . . + a2 xn
y = ~a · ~x
f :V →K
f (~x) = k ∈ K
f : Linearform
y = a1 x1 + . . . + a2 xn + b
y = ~at · ~x + b
α:V →K
α(~x) = k ∈ K
α : Linearform + Konstante
254
2. “Vorschriften” mit quadratischen und “gemischten” Termen der
Ausgangsvariablen x̃ = (x1 , . . . , xn )
y = ax2 + bxy + cy 2
y = ax2 + bxy + cy 2 + dx + ey + f
y = ~xt A~x
q:V →K
q:V →K
q(~x) = xt Axt + ~a · ~x + f
y = q(~x) = xt Axt =< A~x, ~x >=< x, A~x >
Quadratische Form + Linearform +
Quadratische Formen
Konstante
allgemein:
y = a11 x21 + . . . + a1n x2n +
P
i6=j
aij xi xj
q(~x) = ~xt A~x
q(~x) =< ~x, A~x > + < ~a, ~x > +f
P
P
P
y = aii x2i + i6=j aij xij + ai xi + c
Allen Abbildungen ist gemeinsam: Einem Vektor x ∈ V wird ein Skalar zugeordnet. Sie
können durch Matrizen und Skalarprodukte beschrieben werden.
Nun wollen wir zwei und mehr Vektoren einem Skalar zuordnen.
Beispiel: f (x1 , x2 , y1 , y2 ) = x1 y1 + 2x1 y2 − 3x2 y1 + 4x2 y2
f kann nicht nur als eine Zuordnung von K 4 → K, sondern auch als eine Zurodnung von
K 2 × K 2 → K aufgefaßt werden.
Setzt man ~x = xx12 und ~y = yy12 , dann gilt:
f (~x, ~y ) = x1 y1 + 2x1 y2 − 3x2 y1 + 4x2 y2 ∈ K.
Zwei Vektoren ~x, ~y ∈ K 2 wird also ein Skalar ∈ K zugeordnet. Auch diese Zuordnung kann
vereinfacht mit einer Matrix angeschrieben werden:



1 2
y1

 = ~xt A~y
f (~x, ~y ) = (x1 , x2 ) 
−3 4
y2
Dabei ist aij = Koeffizient von xi xj .
Aufgrund der Matrixregeln erweist sich die Zuordnung als linear in den 2 Vektor–Variablen ~x, ~y ,
d.h., ersetzt man ~x durch k x~1 + lx~2 , dann passiert dasselbe mit den Funktionswerten:
f (k x~1 + lx~2 , ~y ) = kf (x~1 , ~y ) + lf (x~2 , ~y ) und analog
f (k~x + k y~1 , ly~2 ) = kf (~x, y~1 ) + lf (~x, y~2 ), denn:
f (k x~1 + lx~2 , ~y ) = (lx~1 + lx~2 )t A~y = (k x~1 t + lx~2 t )A~y = k x~1 t A~y + lx~2 t A~y = kf (x~1 , ~y ) + lf (x~2 , ~y ).
Natürlich kann man dies auch in den Koordinaten nachrechnen.
Übrigens ist f (~x, ~y ) 6= f (~y , ~x).
255
Setzt man in f (~x, ~y ) ~y = ~x, so erhält man:
f (~x, ~x) = ~xt A~x = x21 + 2x1 x2 − 3x2 x1 + 4x22 = x21 − x2 x1 + 4x22 = q(~x)
f (~x, ~x) ist also eine quadratische Form in x1 , x2 .
Beispiel: Auch das Skalarprodukt ist eine Zuordnung, die 2 Vektoren einen Skalar zuordnet:
f (~x, ~y ) = ~x · ~y = x1 y1 + . . . + xn yn ∈ K
Ersetzt man auch hier ~x durch k x~1 + lx~2 , so erhält man:
f (k x~1 + lx~2 , ~y ) = (k x~1 + lx~2 ) · ~y = k x~1 · ~y + lx~2 · ~y = kf (x~1 , ~y ) + lf (x~2 , ~y )
Dasselbe gilt bei der Ersetzung von ~y durch k y~1 + ly~2 . Man sagt: Die Zuordnung ist linear in
der ersten und zweiten (Vektor)variablen.
Es ist darüber hinaus: f (~x, ~y ) = f (~y , ~x).
Beispiel: Beim komplexen Skalarprodukt gilt die Linearität bezüglich der zweiten Variablen
nicht mehr ganz:
f (~x, ~y ) = ~x · y = x1 y~1 + . . . + xn yn ⇒
f (~x, k y~1 + ly~2 = ~x(k y~1 + ly~2 ) = ~x · k y~1 + ly~2 = k(~x · y~1 ) + l(~x, y~2 ) = kf (~x, y~1 ) + l(~x, y~2 ).
Man sagt: f ist bezüglich der 2. Variablen nur similinear.
Definition 24.1 Semibilinearformen und quadratische Formen
V sei ein Vektorraum über dem Körper K. Für k ∈ CI bezeichne k die konjugierte–komplexe Zahl
zu k.
(i) Eine Abbildung f : V × C → K = CI heißt eine Semibilinearform auf V , wenn für alle
k, l ∈ K und alle x, x1 , x2 , y, y1 , y2 ∈ V gilt:
(SB 1) f (kx1 + lx2 , y) = kf (x1 , y) + lf (x2 , y)
f ist linear in der ersten Variablen.
(SB 2) f (x, ky1 + ly2 ) = kf (x, y1 ) + lf (x, y2 )
f ist semilinear in der zweiten Variablen.
(ii) Eine Abbildung f : V × V → K heißt Bilinearform auf V , wenn für alle k, l ∈ K und
alle x, x1 , x2 , y, y1 , y2 ∈ V gilt:
(B1) f (kx1 + lx2 , y) = kf (x1 , y) + lf (x2 , y)
256
(B2) f (x, ky1 + ly2 ) = kf (x, y1 ) + lf (x, y2 )
f ist in beiden Variablen linear.
Beachte: Für K = CI gibt es Semibilinear– und Bilinearformen.
(iii) Eine Abbildung f : V
{z. . . × V} → K heißt Multilinearform auf V , wenn für alle
| ×V ×
n mal
k, l ∈ K und alle xi , xi1 , xi2 (i = 1, . . . , n) gilt:
f (. . . , kxi1 + lxi2 , . . .) = kf (. . . , xi1 , . . .) + lf (. . . , xi2 , . . .)
f ist in jeder Variablen linear.
(iv) eine Semibilinearform f auf V heißt hermitesch, wenn für alle x, y ∈ V gilt:
f (x, y) = f (y, x)
(v) Eine Bilinearform f auf V heißt symmetrisch, wenn für alle x, y ∈ V gilt:
f (x, y) = f (y, x)
Für K = IR ist jede symmetrische auch eine hermitesche Semibilinearform. f heißt auch
eine reell–symmetrische Bilinearform.
(vi a) Eine Semibilinearform f heißt schiefhermitesch, wenn für alle x, y ∈ V gilt:
f (x, y) = −f (y, x)
(vi b) Eine Bilinearform (bzw. eine Multilinearform) f auf V heißt schiefsymmetrisch, wenn für
alle x, y ∈ V gilt:
f (x, y) = −f (y, x) bzw. f (. . . , x, . . . , y, . . .) = −f (. . . , y, . . . , x, . . .)
(vi c) eine Bilinearform (bzw. eine Multilinearform) f auf V heißt alternierend, wenn für alle
x ∈ V gilt:
f (x, x) = 0 bzw. f (. . . , x, . . . , x, . . .) = 0
257
(vii) eine Abbildung h : V → K = CI heißt eine hermitesche Form auf V, wenn es eine
hermitesche Semibilinearform f : V × V → CI gibt, mit
h(x) = f (x, x) ∀x ∈ V.
Hermitesche Formen nehmen nur reelle Zahlen als Werte an:
f (x) = f (x, x) = f (x, x) = h(x) ⇒ h(x) ∈ IR.
(viii) Eine Abbildung q : V → IR heißt eine quadratische Form auf V, wenn es eine symmetrische Bilinearform f : V × V → IR gibt, mit
q(x) = f (x, x) ∀x ∈ V.
f heißt Polarform zur quadratischen Form q.
(ix) Eine hermitesche bzw. quadratische Form q(x) heißt
positiv definit
⇔ q(x) > 0 ∀x 6= 0
positiv semidefinit ⇔ q(x) ≥ 0 ∀x
negativ definit
⇔ q(x) < 0 ∀x 6= 0
negativ semidefinit ⇔ q(x) ≤ 0 ∀x
indefinit
⇔ q(x) > 0 ∀x > 0 und ∃y : q(y) < 0.
Beachte: Quadratische Formen haben wir nun nicht über den “vagen” Ausdruck gemischte
und quadratische Terme definiert, sondern über symmetrische Bilinearformen. Das geht auch in
abstrakten Vektorräumen.
Elementare Eigenschaften:
1. Allen “Formen” ist gemeinsam: Sie sind Abbildungen in den Skalarkörper K eines Vektorraumes. Neuerdings heißen solche Abbildungen auch Funktionale, insbesondere lineare
Abbildungen f : V → K.
2. Ist char(K) 6= 2 (wie z.B. für K = IR bzw. K = C),
I dann ist jede alternierende Multilinearform schiefsymmetrisch und umgekehrt:
258
a) Sei f (. . . x . . . x . . .) = 0 ⇒
0 = f (. . . x + y . . . x + y . . .) = f (. . . x . . . x . . .) + f (. . . x . . . y) + f (. . . y . . . x . . .) +
f (. . . y . . . y . . .) = f (. . . x . . . y . . .) + f (. . . y . . . x . . .)
(b) Sei f (. . . x . . . y . . .) = −f (. . . y . . . x . . .) ⇒ f (. . . x . . . x . . .) = −f (. . . x . . . x . . .) ⇒
2f (. . . x . . . x . . .) = 0 ⇒ f (. . . x . . . x . . .) = 0 wenn char(K) 6= 2.
Eine quadratische Form q : V → K erhält man durch q(x) := f (x, x) aus einer symmetrischen Bilinearform.
3. Ist char(K) 6= 2, dann kann umgekehrt jede symmetrische Bilinearform durch ihre dazugehörige quadratische Form dargestellt werden:
f (x, y) =
1
(q(x, y) − q(x) − 1(y)) : Polarform von f .
2
Ist q(~x) = ~xt A~x, dann ist die Polarform f von q gegeben durch:
f (~x, ~y ) = ~y t
At + A
~x
2
Für quadratische Formen gilt weiters:
q(0) = 0
q(x) = q(−x)
q(x + y) + q(x − y) = 2(q(x) + q(y))
Parallelogrammgleichung für quadratische Formen.
Analog kann eine hermitesche Semibilinearform f durch ihre hermitesche Form h polar dargestellt werden:
f (x, y) =
1
1
(h(x + y) − h(x − y)) + (h(x + iy) − h(x − iy))
4
4
Für hermitesche Semibilinearformen gilt darüber hinaus für alle x, y ∈ V :
Re[f (x, y)] = 12 (f (x + y, x + y) − f (x, x) − f (y, y))
Im[f (x, y)] = 12 (f (x + iy, x + iy) − f (x, x) − f (y, y))
259
Fundamentale Beispiele von Formen
1.
a) Jede n × n−Matrix A = (aij ) über K definiert eine Bilinearform auf Kn
durch:


x1
a11 . . . a1n



  .. 
 .
f (x̃, ỹ) = ỹt Ax̃ = (y1 , . . . , yn  ..
 .  =



xn
an1 . . . ann
Pn Pn
= i=1 j=1 aij xi xj = a11 x1 y1 + a12 x1 y2 + . . . + ann xn yn .

Der formale Ausdruck von f (~x, ~y ) ist also ein Polynom ∈ K[X, Y ], es heißt das zur
Matrix A gehörige bilinear Polynom.
Die Bilinearität folgt aus den Matrixregeln.
b) Jede n × n−Matrix über CI definiert durch f (x̃, ỹ) = ỹ∗ Ax̃ eine Semibilinearform auf CI n .
c) Jede symmetrische n × n−Matrix X definiert durch q(~x) = ~xt A~x eine symmetrische
Bilinearform auf K n .
P
P
P
q(~x) = i,j aij xi xj = i aii x2i + 2 i<j aij xi xj
d) Jede hermitesche n×n−Matrix A definiert durch q(~x) = ~x∗ A~x eine hermitesche Form
auf CI n .
2. Jedes reelle Skalarprodukt f (x, y) =< x, y > ist eine symmetrische Bilinearform,
deren zugehörige quadratische Form q(x) = (x, x) positiv definit ist.
f (x, y) = x1 x1 + . . . + xn xn = x21 + . . . + x2n > 0 für x 6= 0.
Jedes komplexe Skalarprodukt f (x, y) =< x, y > ist eine hermitesche
Semibilinearform, deren zugehörige hermitesche Form h(x) = f (x, x) positiv definit ist.
f (x, x) = x1 x1 + . . . + xn xn = |x1 |2 + . . . + |xn |2 > 0 für x 6= 0.
3. Jede Determinante det(A) ist eine alternierende Multilinearform iherer Zeilenvektoren:
f (z~1 , . . . , z~n ) = det(A) mit der zusätzlichen Normierungseigenschaft:
f (e~1 , . . . , e~n ) = |In | = 1.
4. f, g : V → K seien linear.
Dann ist f (x, y) := f (x) · g(y) eine Bilinearform auf V .
260
5. a, b ∈ IR, a ≤ b. V = C[a, b], x(t), y(t) ∈ C[a, b].
Rb
f (x, y) := a x(t)y(t)dt ∈ IR ist eine symmetrische Bilinearform.
So wie die lineare Abbildung f, g : V → W bezüglich der punktweisen Addition f +g und Vielfachen kf einen Vektorraum Hom (V, W ) = L(V, W ) bilden, gilt dies auch für die Bilinearformen:
(f + g)(x, y) := f (x, y) + g(x, y)
(kf )(x, y) := kf (x, y)
Satz 24.1 Die Menge B(V ) der Bilinearformen auf V bildet einen Vektorraum über K.
24.2 Matrixdarstellung von Bilinearformen
So wie für lineare Abbildungen gibt es auch für Bilinearformen eine bijektive Zuordnung zu den
Matrizen, verantwortlich dafür ist die Linearität in den beiden Variablen.
Sei f eine Bilinearform auf V und B = (b1 , . . . , bn ) eine Basis von V . Ist x = x1 b1 + . . . + xn bn
und y = y1 b1 + . . . + yn bn , dann ist, so wie bei linearen Abbildungen, das Bild f (x, y) durch die
Bilder der Basisvektorpaare f (bi , bj ) eindeutig festgelegt:
f (x, y) = f (x1 b1 + . . . + xn bn y1 b1 + . . . + yn bn ) =
= x1 f (b1 , y1 b1 + . . . + yn bn ) + . . . + xn f (bn , y1 b1 + . . . + yn bn ) =
= x1 y1 f (b1 , b1 ) + x1 y2 f (b1 , b2 ) + . . . + x1 yn f (b1 , bn )+
+x2 y1 f (b2 , b1 ) + x2 y2 f (b2 , b2 ) + . . . + x2 yn f (b2 , bn )+
...
+xn y1 f (bn , b1 ) + xn y2 f (bn , b2 ) + . . . + xn yn f (bn , bn ) =
Pn
=
i,j=1 xi yj f (bi , bj ).
Versammelt man diese Bilder der Basisvektorpaare f (bi , bj ) in einer Matrix A := [f ]B =
(f (bi , bj )), dann gilt:


x1


X
 . 
f (x, y) =
xi yi f (bi , bj ) = (y1 , . . . , yn )A  ..  = [y]tB A[x]B


xn
261
Definition 24.2 Matrixdarstellung
f sei eine Bilinearform auf V mit der Basis B = (b1 , . . . , bn ). Die Matrix [f ]B := (f (bi , bj ))
heißt Matrixdarstellung von f bezüglich der Basis B oder Formmatrix von f.
Satz 24.2 Matrixdarstellung von Bilinearformen
(i) Ist [f ]B die Matrixdarstellung von f dann gilt:
f (x, y) = [y]tB [f ]B [x]B
Für eine feste Basis B ist [f ]B eindeutig bestimmt.
(ii) Die Zuordnung f → [f ]B ist ein Vektorraumisomorphismus von B(V ) auf K n·n , d.h.,
[f + g]B = [f ]B + [g]B , [kf ]B = k[f ]B
(iii) f hermitesch
f symmetrisch
⇒ [f ]B hermitesch
⇒ [f ]B symmetrisch
f schiefsymmetrisch ⇒ [f ]B schiefsymmetrisch
(iv) Ist P die Übergangsmatrix von der Basis B zur Basis B 0 , dann gilt für die neue Matrixdarstellung:
[f ]B0 = Pt [f ]B P
[f ]neu = Pt · [f ]alt · P
Die Matrixdarstellungen einer Bilinearform sind also untereinander kongruent.
Beweis von (iii):
f (x, y) = [y]t [f ][x] = ([y]t [f ][x])t =
= [x]t [f ]t [y]tt = [x]t [f ]t [y]
Ist f symmetrisch ⇒ [y]t [f ]t [x] = f (x, y) = f (y, x) = [y]t [f ][x] für alle x, y ⇒ [f ]t = [f ].
Beweis von (iv):
f (x, y) = [y]tB [f ]B [x]B = (P [y]B 0 )t [f ]B (P [y]B 0 ) = [y]B 0 (P t [f ]B P )[x]B 0 .
Wegen der Eindeutigkeit ist [f ]B 0 = P t [f ]B P .
Die neue Matrixdarstellung einer Bilinearform unterscheidet sich also von der alten einfach dadurch, daß man
diese von rechts mit P und links mit P t multipliziert. (Kongruente Matrizen nach Definition 21.2.)
Jeder quadratischen Form q auf V ist genau eine symmetrische Bilinearform f auf V zugeordnet.
Ist dim(V ) = n dann ist bezüglich einer festen Basis B von V diesem f genau eine symmetrische n × n−Matrix zugeordnet. Damit kann man auch jeder quadratischen Form q bezüglich
262
einer festen Basis B von V genau eine symmetrische n × n−Matrix als Formmatrix [q] von g
zuordnen: Die Formmatrix [q]B einer quadratischen Form q ist die Formmatrix ihrer
Polarform f: [q]B = [f ]B .
Umgekehrt definiert jede symmetrische n × n−Matrix A eine quadratische Form auf V durch
q(x) = [x]tB A[x]B .
Ähnliches gilt für hermitesche Formen und hermitesche Matrizen.
Satz 24.3 Formmatrizen von quadratischen Formen
V sei ein Vektorraum über K = IR bzw. C.
I
(i) Für K = IR gibt es eine bijektive Zuordnung zwischen quadratischen Formen und symmetrischen n × n−Matrizen.
(ii) Für K = CI gibt es eine bijektive Zuordnung zwischen hermiteschen Formen und hermiteschen n × n−Matrizen.
(iii) Die Formmatrizen einer quadratischen Form sind untereinander kongruent.
(iv) Für V = IRn gilt speziell: Ist q(~x) = ~xt A~x, dann ist die Polarform f (~x, ~y ) von q(~x) gegeben
durch
f (x̃, ỹ) = ỹt
also ist
1
t
2 (A
At + A
x̃,
2
+ A) die Formmatrix von q.
Beachte: 12 (At + A) ist stets symmetrisch.
Beweis von (iii):
f (~x, ~y ) = 12 (q(~x + ~y ) − q(~x) − q(~y ) =
= 12 ((~xt + y)t A(~x + ~y ) − ~xt A~x − ~y t A~y ) =
= 21 (~xt A~y + ~y t A~x) =
= 12 [(~xt A~y )t + ~y t A~x] =
t
= 12 (~y t At ~x + ~y t A~x) = ~y t A 2+A ~x.



1 2 −4
x1






Beispiel: q(~x) = (x1 , x2 , x3 =  0 0 −8   x2  = x21 + 2x1 x2 − 4x1 x3 − 8x2 x3 + 3x23 −



x3
0 0 +3
4x1 x3
263


t

Polarform f (~x, ~y ) = ~y t A 2+A ~x = (y1 , y2 , y3 ) 

1
1 −2

x1

1
1 −2







0 −4  ist
0 −4   x2   1



−2 −4
3
x3
−2 −4
3
1
die (symmetrische) Formmatrix
von q.  


x
1
1 −2
 1 




Probe: q(~x) = (x1 , x2 , x3  1
0 −4   x2  = x21 + 3x23 + 2x1 x2 − 8x2 x3 − 4x1 x3 .



x3
−2 −4
3
−1
Orthogonal ähnliche Matrizen sind wegen P = P t auch kongruent. Kongruente Matrizen sind
auch äquivalent (aber nicht umgkehrt), damit besitzen kongruente Matrizen gleichen Rang
und es ist folgende Definition möglich:
Definition 24.3 Ausgeartete und nicht ausgeartete Bilinerform
(i) f sei eine Bilinearform auf dem Vektorraum V . Der Rang einer Bilinearform ist der Rang
irgendeiner Matrixdarstellung von f : rg(f ) = rg([f ]B ).
f heißt nicht ausgeartet ⇔ rg(f ) = dim(V ).
f heißt ausgeartet ⇔ rg(f ) < dim(V ).
(ii) Der Rang einer quadratischen (hermiteschen) Form ist der Rang ihrer Formmatrix.
24.3 Kongruentes Diagonalisieren
Aufgrund von 24.3 sind Aussagen über quadratische Formen zugleich auch Ausagen über symmetrische Matrizen. Dazu behandeln wir so wie bei linearen Operatoren die Frage nach der
einfachsten Darstellung bezüglich Kongruenztransformationen.
Satz 24.4 Diagonalform quadratischer Formen
V sei ein Vektorraum über dem Körper K mit char(K) 6= 2. Zu jeder quadratischen Form q(x)
auf V gibt es eine Basis von V , bezüglich der die Formmatrix von q eine Diagonalmatrix ist.
Matrizentheoretisch formuliert:
K sei ein Körper mit char(K) 6= 2. Zu jeder symmetrischen n × n−Matrix A über K existiert
eine reguläre Matrix P mit P t AP = D = diag(d1 , d2 , . . . , dn ).
Also: Jede symmetrische Matrix ist zu einer Diagonalmatrix kongruent.
Beachte: Die Diagonalelemente sind keine EW von A. Man erhält P auch ohne die (schwierige)
Eigenwertberechnung, sondern nur durch Kongruenztransformationen:
264
1. V (p, q) bezeichne das Vertauschen der p−ten Spalte mit der q−ten Spalte und die Vertauschung der p−ten Zeile mit der q−ten Zeile.
2. U (p, q, k) bezeichne die Addition des k−fachen der q−ten Spalte zur p−ten Spalte und
die Addition des k−fachen der q−ten Zeilen zur p−ten Zeile.
Weil A symmetrisch ist, führt man immer Zeilen– und Spaltenoperation gleichzeitig aus, allerdings nur mit den Halbe–fachen des entsprechenden Matrixelementes. Treten während des
Vorganges einmal in der Hauptdiagonale nur mehr Nullen auf, muß man ein aqp 6= 0 auf eine
Diagonalstelle bringen.
Statt eines Beweises wird nur das Verfahren illustriert: Schreibe A und In nebeneinander auf.
Versuche A auf Diagonalgestalt zu bringen und wende auf In nur die entsprechenden Spaltenumformungen an. Die Matrix, die aus In entsteht, ist die gesuchte Transformationsmatrix
P , also:
(A/In ) → (D/P )
A
1 −2
−2
3 −1
4 −5
3 −5
−1
B
1 0 0 0
1
0 1 0 0
9 −1
0 0 1 0
1 −1
1
0 0 0 1
Es wird addiert: Das 2–fache der 1. Spalte zur 2., das (−3)−fache der 1. Spalte zur 3., das
1–fache der 1. Spalte zur 4. Spalte.
1 2 −3 1
1
0 0
0
0
0 1 −1
0 1
0 0
0
1 0
2
0 0
1 0
0 −1 2
0
0 0
0 1
Alle Diagonalelemente der Restmatrix verschwinden. Es wird addiert: Das 21 −fache der 3. Spalte
zur 2. Spalte.
1 0 0 0
1
1
2
−3 1
0 1 1 0
0
1
0 0
0 1 0 2
0
1
2
1 0
0 0 2 0
0
0
0 1
265
Es wird addiert: Das (−1)−fache der 2. Spalte zur 3. und dann das 2–fache der 3. Spalte zur 4.
Spalte.
1 0
0 0
1
1
2
− 72
0 1
0 0
0
1
−1 −2
0 0 −1 0
0
1
2
1
2
1
0 0
0
0
0
1
0 4
P t AP
−6
P
Für reelle (K = IR) und komplexe (K = C)
I Vektorräume erhält man noch speziellere Formmatrizen, nämlich solche, die nur +1, (−1) und 0 in der Hauptdiagonale enthalten. Beachte, daß
hermitesche Formen nur reelle Funktionswerte annehmen.
Satz 24.5 Normalformen quadratischer (hermitescher) Formen.
Abbildungstheoretische Formulierung: V sei ein Vektorraum über K = IR bzw. K = C.
I q bzw.
h sei eine quadratische bzw. hermitesche Form auf V . Dann gibt es eine Basis von V , bezüglich
der q bzw. h eine Diagonalmatrix der Form
D = diag(1, . . . , 1, −1, . . . , 1, 0, . . . , 0)
als Formmatrix besitzen.
Matrizentheoretische Formulierung: Sei K = IR bzw. C.
I
Zu jeder reell–symmetrischen bzw. hermiteschen Matrix über K existiert eine reguläre Matrix P
mit
P t AP = diag(1, . . . , 1, −1, . . . , −1, 0, . . . , 0).
Oder: Jede reell–symmetrische bzw. hermitesche Matrix ist zu einer Diagonalmatrix aus +1, −1
und 0 kongruent.
Zum Beweis: Es gibt eine Transformation auf diag(d1 , . . . , dn ). Weil in IR bzw. CI Quadratwurzeln
existieren, kann man durch Diagonalmatrizen, in denen ki = √1
|di |
auf die gewünschte Form kommen.
für di 6= 0 und sonst 1 steht,
266
Beispiel: Zu einer symmetrischen Matrix A ∈ IR(4,4) wird durch Kongruenztransformationen
eine Diagonalmatrix P T AP und gleichzeitig aus der Einheitsmatrix I mittels derselben Spaltenumformungen die Transformationsmatrix P konstruiert. Nur die Spaltenumformungen sind
erläutert.
A
In
2 3 −1
4
1 0 0 0
3 4
0
5
0 1 0 0
−1 0
0
2
0 0 1 0
4 5
2
25
4
0 0 0 1
Es wird addiert: Das (− 32 )−fache der 1. Spalte zur 2., das 21 −fache der 1. Spalte zur 3. und das
(−2)−fache der 1. Spalte zur 4. Spalte.
2
1 − 32
1
2
−2
−1
0
1
0
0
4
0
0
1
0
4 − 74
0
0
0
1
0
0
0
0 − 12
3
2
0
3
2
− 12
0
−1
Es wird addiert: Das 3–fache der 2. Spalte zur 3. und das (−2)−fache der 2. Saplte zur 4. Spalte.
0
1 − 32
0
0
0
1
3 −2
0
0 4
1
0
0
1
0
0
0 1
1
4
0
0
0
1
2
0 0
0 − 21
Es wird multipliziert: Die 1. Spalte mit
1
2
√
−4
1
2, die 2. Spalte mit
√
2 und die 3. Spalte mit 12 .
0 −1 0 0
√
2 − 32 2 −2
2
√
3
11
0
2
2 − 4
0
0 1 0
0
0
1
2
− 14
0
0 0 0
0
0
0
1
1
0 0 0
P t AP
1
2
√
P
Die Anzahl der nichtverschwindenden Diagonalelemente in der kongruenten Normalform von
A ist der Rang von A. rg(A) = r ist für alle kongruenten Matrizen, weil sie auch äquivalent
sind, immer gleich. Interessant ist, daß auch die Anzahl der positiven Diagonalelemente und
267
damit die der negativen und der Nullen für kongruente Matrizen stets gleich groß ist. Das ist
die Aussage des Trägheitsgesetzes:
Satz 24.6 Trägheitsgesetz von SYLVESTER
V sei ein n−dimensionaler Vektorraum über K = IR bzw. K = C.
I q : V → IR bzw. h : V → CI sei
eine quadratische bzw. hermitesche Form auf V . Dann gilt:
Alle Formmatrizen von q bzw. h haben stets dieselbe Anzahl von +1, −1 und 0.
Ohne Beweis.
Dieser Satz ermöglicht folgende Defintion:
Definition 24.4 Index einer Matrix
Der Index j(A) einer symmetrischen bzw- hermiteschen Matrix A ist die Anzahl ihrer positiven
Diagonalelemente in einer kongruenten Normalform.
Mit dem Trägheitsgesetz gilt dann:
Satz 24.7 Charakterisierung von Kongruenz
Zwei quadratische Matrizen sind genau dann kongruent, wenn sie gleichen Rang und gleichen
Index haben.
B ∼4 A ⇔ rg(A) = rg(B) und Index (A) = Index (B).
Aus dem Diagonalisierungssatz ergibt sich ein weiteres Kriterium für die positive Definitheit von
quadratischen Formen bzw. symmetrischen Matrizen (neben dem Hauptminorenkriterium bzw.
Eigenwertkriterium), nämlich:
Satz 24.8 3. Definitheitskriterium
V sei ein endlich–dimensionaler Vektorraum über einem angeordneten Körper K und q eine quadratische Form auf V . q ist genau dann positiv definit, wen q eine Formmatrix in Diagonalform
mit lauter positiven Diagonalelementen besitzt.
Ähnliches gilt für die anderen Definitheitseigenschaften.
Matrizentheoretisch formuliert:
Eine symmetrische Matrix über einem angeordneten Körper K ist genau dann positiv definit,
wenn sie kongruent zu einer Diagonalmatrix mit lauter positiven Diagonalelementen ist.
268
Da alle Formmatrizen von quadratischen Formen untereinander kongruent sind, sind die Definitheitseigenschaften invariant gegenüber Kongruenztransformationen.
Obigen Satz kann man auch so formulieren:
Satz 24.9 Eine quadratische Form auf einem n–dimensionalen Vektorraum ist genau dann positiv definit, wenn ihr Rang und ihr Index beide gleich n sind. Sie ist genau dann positiv
semidefinit, wenn ihr Rang und ihr Index gleich sind.
Analoges gilt für hermitesche Formen und Matrizen über C.
I
Herunterladen