lineare algebra ii - wwwu.uni

LINEARE ALGEBRA II
Ao.Univ.-Prof. Mag. Dr. H. Kautschitsch
Institut für Mathematik
Universität Klagenfurt
16. April 2007
ii
Inhaltsverzeichnis
Einleitung
v
IV Geometrie in Vektorräumen
1
14 Affine Geometrie
1
14.1 Affine Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
14.2 Affine Eigenschaften von Geraden und Ebenen . . . . . . . . . . . . . . . . . . .
10
14.3 Koordinatensysteme in affinen Räumen . . . . . . . . . . . . . . . . . . . . . . .
17
14.3.1 Affine und kartesische Koordinatensysteme . . . . . . . . . . . . . . . . .
18
14.3.2 Affine Koordinatentransformation . . . . . . . . . . . . . . . . . . . . . .
24
14.4 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
15 Metrische Geometrie
33
15.1 Abstands– und Winkelmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
15.2 Volumina von Simplices und Spaten . . . . . . . . . . . . . . . . . . . . . . . . .
37
16 Lineare Optimierung
40
16.1 Geometrische Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
16.2 Geometrische Eigenschaften der zulässigen Menge Z . . . . . . . . . . . . . . . .
48
16.3 Hauptsatz der linearen Optimierung . . . . . . . . . . . . . . . . . . . . . . . . .
60
V Linearität
68
17 Lineare Abbildungen
68
17.1 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
17.2 Rang und Defekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
17.3 Anwendung: Lineare Operatorgleichungen . . . . . . . . . . . . . . . . . . . . . .
84
17.4 Rechnen mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . .
91
17.5 Faktorräume (Quotientenräume) . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
18 Matrizen und Lineare Abbildungen
101
18.1 Matrixdarstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
18.2 Änderung der Matrixdarstellung bei Basiswechsel . . . . . . . . . . . . . . . . . . 106
18.3 Affine Abbildungen (Einschub) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
iii
19 Eigenwerte und Eigenvektoren
129
19.1 Grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
19.2 Minimalpolynom einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
19.3 Eigenwerte und Eigenvektoren spezieller Matrizen
20 Linearität in Skalarprodukträumen
. . . . . . . . . . . . . . . . . 143
149
20.1 Orthogonale und unitäre Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . 149
20.2 Adjungierte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
20.3 Normale Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
20.4 Projektionen und Orthogonalprojektionen . . . . . . . . . . . . . . . . . . . . . . 161
20.5 Geometrie linearer Operatoren im IR2 bzw. IR3
. . . . . . . . . . . . . . . . . . . 169
VI Vereinfachen von Matrizen
182
21 Diagonalisieren
184
21.1 Äquivalentes Diagonalisieren
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
21.2 Ähnliches Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
21.3 Orthogonales (Unitäres) Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . 197
21.4 Anwendungen des Diagonalisierens . . . . . . . . . . . . . . . . . . . . . . . . . . 206
21.4.1 Berechnung von Matrixpotenzen . . . . . . . . . . . . . . . . . . . . . . . 206
21.4.2 Differenzengleichungen und Potenzen Ak . . . . . . . . . . . . . . . . . . . 207
21.4.3 Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
21.4.4 Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
22 Triangulieren
220
23 Blockdiagonalisieren
226
23.1 Allgemeines Blockdiagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
23.2 JORDAN’scher Normalformensatz . . . . . . . . . . . . . . . . . . . . . . . . . . 233
23.3 Verallgemeinerte Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
23.4 Matrizenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
VII Quadratische Formen
252
iv
24 Bilinearformen und Quadratische Formen
252
24.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
24.2 Matrixdarstellung von Bilinearformen . . . . . . . . . . . . . . . . . . . . . . . . 260
24.3 Kongruentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
v
Einleitung
Zunächst wird das Kapitel der linearen Gleichungssysteme durch die Determinantentheorie
abgeschlossen. Der Begriff der Determinante entstand ja ursprünglich bei LEIBNIZ aus dem
Bedürfnis, Lösungen von Gleichungssystemen durch eine Formel darzustellen.
Anschließend wird gezeigt, wie man Vektorraumtheorie und die Ergebnisse aus der Theorie der
Gleichungssysteme zum Aufbau einer Geometrie, nicht nur im Anschauungsraum, sondern auch
in abstrakten Vektorräumen verwenden kann. Diese geometrischen Begriffsbildungen werden
dann auf lineare Optimierungsproblemen angewendet.
Das für die lineare Algebra wohl wichtigste Konzept, nämlich die Linearität, definiert als Verträglichkeit mit den Vektorraumoperationen, wird in allgemeinen, wie auch in Skalarprodukträumen behandelt und der Zusammenhang mit den Matrizen aufgezeigt. Die Entwicklung der
Eigenwerttheorie und eine Klassifikation von linearen Operatoren, wobei insbesondere auf die
geometrischen Auswirkungen im Anschauungsraum hingewiesen wird, schließen dieses zentrale
Kapitel ab.
Die beiden nächsten Kapitel sind dem Vereinfachen gewidmet. Zunächst wird dargelegt, wie
man durch Links– bzw. Rechtsmultiplikation mit geeigneten Matrizen eine gegebene Matrix auf
eine möglichst ”einfache” Form transformieren kann. Als einfache Formen werden die Diagonal–,
Dreiecks- und Blockdiagonalmatrizen angesehen, insbesondere die JORDAN’sche Blockdiagonalform. Statt eines Beweises der letzten Normalform wird deren Erzeugung mittels unbestimmten
Ansatzes bzw. verallgemeinerter Eigenvektoren erläutert. Neben der Herleitung von Kriterien
für die Vereinfachung und den Spektraldarstellungen wird die Anwendung von Diagonalmatrizen
für das Lösen von Differenzen– und Differentialgleichungen und die Berechnung von Matrizenfunktionen demonstriert.
Nach den Matrizen werden quadratische Ausdrücke in n Variablen, sogenannten Quadriken, vereinfacht. Dazu wird die Theorie der Bilinearformen bzw. der quadratischen Form aufgebaut. Die
Diskussion der Quadriken erfolgt sowohl in allgemeinen Vektorräumen, als auch in Skalarprodukträumen. Abschließend wird noch gezeigt, wie die Geometrie der Kegelschnitte vereinheitlich
und auf eine entsprechende Geometrie der Quadriken verallgemeinert werden kann und damit
gezeigt, wie auch quadratische Gebilde mittels linearer Methoden beschrieben und analysiert
werden können.
1
IV GEOMETRIE IN VEKTORRÄUMEN
Es wird dargelegt, wie man die aus der Anschauung bekannten räumlichen Vorstellungen auf
abstrakte Räume verallgemeinern und rechnerisch behandeln kann. In der Linearen Optimierung
finden diese geometrischen Verallgemeinerungen eine nützliche Anwendung.
14 Affine Geometrie
Bisher haben wir uns in Vektorräumen nur mit solchen Teilmengen beschäftigt, die für sich selbst
wieder Vektorräume bildeten, also mit Teilräumen. Im Anschauungsraum, den man als einen
reellen Vektorraum auffassen kann, sind dies die unendlich ausgedehnten, nicht gekrümmten
Punktmengen durch den Nullvektor 0.
Häufig benötigt man (und das nicht nur in der Geometrie) unendlich ausgedehnte, nicht gekrümmte Punktmengen, die nicht durch den Nullvektor 0 gehen:
Für Optimierungsprobleme benötigt man darüber hinaus beschränkte, nicht gekrümmte
Punktmengen, die mit je zwei Punkten auch deren gesamte “Verbindungsstrecke” enthalten.
2
Solche Punktmengen sind mit den geometrischen Grundbegriffen (Punkt, Gerade, Ebene, Strecke) verbunden und wir werden sehen, daß sie ebenfalls durch lineare Gleichungen bzw. Ungleichungen beschrieben werden können.
Wir wollen nun in beliebigen, nicht nur in reellen, Vektorräumen, Teilmengen untersuchen, die
sich so wie die anschaulichen Geraden, Ebenen, Strecken usw. verhalten und nachprüfen, wann
und wie diese abstrakten Geraden und Ebenen sich schneiden oder wann sie parallel sind. Jenen
Teil der Geometrie, der sich nur mit solchen Inzidenzbeziehungen beschäftigt, heißt affine
Geometrie. In ihr wird von Abstandsuntersuchungen, Messungen und von “senkrecht stehen
auf ” wird nicht gesprochen, dies geschieht in der metrischen Geometrie. Anders als in einer
Geometrievorlesung werden wir aber die Grundbegriffe Punkt, Gerade, Ebene nicht axiomatisch,
sondern mit Begriffen aus der Vektorraumtheorie einführen. Die erzielten Ergebnisse stimmen
mit denen der “Elementargeometrie” überein, aber nur im IR2 bzw. IR3 sehen die abstrakten
Geraden und Ebenen auch wie anschauliche Geraden und Ebenen aus. Dagegen sind die Ergebnisse in beliebigen, abstrakten Vektorräumen oft nicht vorstellbar, aber trotzdem für Anwendungen wichtig (→ CODIERUNG, APPROXIMATIONEN, LINEARE OPTIMIERUNGEN). Zum
leichteren Verständnis sollte man sich aber immer die Verhältnisse im Anschauungsraum (= 2–
oder 3–dimensionaler reeller Vektorraum) vor Augen halten.
Zunächst wollen wir “nichtgekrümmte” Punktmengen, die nicht durch 0 gehen, mit Hilfe von
Begriffen aus der Vektorraumtheorie beschreiben:
Man beobachtet: Die Ebene ε entsteht aus U durch Verschieben um p~.
3
14.1 Affine Räume
Definition 14.1 Affiner Teilraum
V sei ein Vektorraum über dem Körper K, U sei ein Teilraum von V und p ∈ V .
(i) Ein affiner Teilraum bzw. eine lineare Mannigfaltigkeit von V in Richtung U ist
die Teilmenge
A := {x ∈ V|x = p + u, u ∈ U} = p + U ⊆ V.
Auch so: Ein affiner Teilraum in Richtung U ist eine Nebenklasse von U (ein um p “parallelverschobener” Teilraum U ).
(ii) Die Dimension eines affinen Teilraumes ist die Dimension seiner Richtung:
dim(A) := dimU.
Bemerkung:
1. Die Differenz von 2 Punkten eines affinen Teilraumes A liegt stets in der Richtung U , diese
heißt daher auch Differenzenraum von A:
x1 − x2 = p + u1 − (p + u2 ) = u1 − u2 ∈ U
2. Ein affiner Teilraum ist wegen p ∈ A stets nichtleer. Jeder Teilraum ist ein affiner Teilraum
(mit p = 0), insbesondere kann jeder Vektorraum V als affiner Teilraum in Richtung V
aufgefaßt werden!.
Aber: Ein affiner Teilraum A ist nur dann ein Teilraum von V , wenn p ∈ U .
Beachte: im allgemeinen ist 0 6∈ A.
Beispiel: Sei A ∈ K m·n , ~b ∈ K m und Rg(A) = r. Die Lösungsmenge L = x0 + LH eines
lösbaren, inhomogenen linearen Gleichungssystems A~x = ~b ist ein (n − r)−dimensionaler
affiner Teilraum im K n mit der Lösungsmenge des dazugehörigen homogenen Systems A~x = ~0
als Richtung. Die Lösungsmenge LH eines homogenen linearen Gleichungssystems A~x = ~0
ist sogar ein (n − r)−dimensionaler Teilraum im K n .
Die Darstellung von A = p + U ist unabhängig von der Wahl von p: Man kann für p jeden
Vektor aus A nehmen und beschreibt damit dieselbe Punktmenge, denn es gilt:
4
Satz 14.1 Gleichheit von affinen Teilräumen
Zwei affine Teilräume A1 = p1 +U1 und A2 = p2 +U2 sind genau dann gleich, wenn sie denselben
Teilraum als Richtung besitzen und wenn die Differenz p1 − p2 in diesem liegt.
Formal:
A1 = A2 ⇔ U1 = U2 =: U und p1 − p2 ∈ U
(ohne Beweis)
Damit:
A=p+U =q+U ⇔p−q ∈U
Definition 14.2 Ein affiner Teilraum B = q + W heißt ein affiner Unterraum in Richtung
W des affinen Raumes A = p + U , wenn W ein Teilraum von U und q ∈ A ist.
BCA⇔WCU∧q∈A
Wir definieren nun die geometrischen Grundbegriffe Punkt, Gerade, Ebene in beliebigen Vektorräumen als spezielle affine Teilräume A = p + U :
a) Sei U = {0} :, dann ist
A = p + {0} = {p}, d.h., A enthält p als einziges Element und es ist dim(A) = 0;
Definition 14.3 Punkt
Ein Punkt P eines Vektorraumes V ist ein nulldimensionaler affiner Teilraum von V .
Kurzschreibweise: P = {p}
Ist P = {p} und Q = {q} dann ist P = Q ⇔ q − p ∈ U = {0} ⇔ q − p = 0 ⇔ q = p.
5
Vereinbarung: Ist P = {p}, dann kann man, um Klammern zu sparen, P mit p identifizieren:
P := p. Der entsprechende Kleinbuchstabe bezeichnet also stets den Vektor, durch den ein Punkt
dargestellt wird.
Jeder Vektor p ∈ V ist also auch ein Punkt P = {p}. Nach der Identifizierung können wir zu
den Vektoren aus V auch Punkte aus V sagen, aber strenggenommen gilt nur: P = {p} ⊂ V
und nicht P = {p} ∈ V .
Ist P = {p} und Q = {q} ⇒ q − p ∈ U , d.h., für je zwei Punkte P, Q ist der Differenzenvektor
im Vektorraum U enthalten, also ein Vektor. Wir setzen:
˜ := q − p = Q − P
PQ
(“Spitze–Schaft”–Regel)
b) Sei U =< a >:, dann ist
A = p+ < a >= {x ∈ V |x = p + λa, λ ∈ K} und es gilt dim(A) = 1.
Definition 14.4 Gerade
Eine Gerade g eines Vektorraumes V ist ein eindimensionaler affiner Teilraum von V .
Kurzschreibweise: g : x = p + λa,
a heißt Richtungsvektor der Geraden g.
(1)
Diese Gleichung heißt Punkt–Richtungsform der Geraden g durch P in Richtung < a >. Der
Parameter λ des Punktes X vergleicht die Lage des Punktes X mit jener des Punktes P .
(1) heißt daher auch Parametergleichung der Geraden g.
Eine Gerade g wird also durch eine Vektorgleichung mit einem Parameter beschrieben.
Eine Gerade ist aber auch durch 2 verschiedene Punkte P, Q festgelegt: Die Richtung ist dann
durch < P~Q >=< q − p > bestimmt. Die Parametergleichung von g lautet dann:
g : x = p + λ(q − p), Zweipunktform der Geraden g durch P und Q.
Sie stellt die Verbindungsgerade g(P, Q) der Punkte P und Q dar: g(P, Q) : x = p + λ(q − p).
c) Sei U =< a, b > mit {a, b} l.u., dann ist
.A = p+ < a, b >= {x ∈ V |x = p + λa + µb, λ, µ ∈ K} und es ist dim(A) = 2.
6
Definition 14.5 Ebene
Eine Ebene ε eines Vektorraumes V ist ein zweidimensionaler affiner Teilraum von V .
Kurzschreibweise: ε : x = p + λa + µb.
(2)
(2) heißt Punkt–Richtungsform der Ebene ε durch P in Richtung < a, b >.
Eine Ebene ε wird also durch eine Vektorgleichung mit zwei Parametern beschrieben.
Eine Ebene ist aber auch festgelegt durch 3 Punkte P, Q, R, die nicht auf einer Geraden liegen:
ε : x = p + λ(q − p) + µ(r − p): Dreipunktform der Ebene ε durch P, Q, R.
d) Verallgemeinerung: Sei dim(V ) = n und U =< v1 , v2 , . . . , vn−1 > mit {v1 , v2 , . . . , vn−1 }
l.u., dann ist
A = {x ∈ V |x = p + λ1 v1 + . . . + λn−1 vn−1 } = {x|x = p +
Pn−1
i=1
λi vi }.
Definition 14.6 Hyperebene
Eine Hyperebene H eines n−dimensionalen Vektorraumes V ist ein (n − 1)−dimensionaler
affiner Teilraum von V .
Die Hyperebenen in einem 3–dimensionalen Vektorraum sind die Ebenen.
Die Hyperebene in einem 2–dimensionalen Vektorraum sind die Geraden.
Die Hyperebenen in einem 1–dimensionalen Vektorraum sind die Punkte.
e) Homogene Parameterdarstellung von affinen Teilräumen.
In den Beschreibungen g : x = p + λu, ε : x = p + λa + µb sieht es so aus, als ob p ausgezeichnet
ist, weil kein Parameter dabei steht. Dies ist jedoch nur scheinbar so:
g : x = p + λu = p − λp + λp + λu = (1| {z
− λ}) p + |{z}
λ (p + u) =
|{z}
| {z }
λ0
p0
λ1
p1
= λ0 p0 + λ1 p1 mit p0 := p und p1 := p + u und λ0 + λ1 = 1 − λ + λ = 1
Allgemein: A sei ein m−dimensionaler affiner Teilraum in Richtung U =< u1 , . . . , um >.
Jedes x ∈ A kann als Linearkombination von m + 1 Punkten p0 , p1 , . . . , pm geschrieben werden,
wobei die Summe der Parameter 1 ist und die Differenzenvektoren ui := pi −p0 (i = 1, . . . , m)
l.u. sind.
A:x=p+
m
X
i=1
λi ui =
m
X
i=0
µi pi mit
m
X
i=0
µi = 1 und {p1 − p0 , . . . , pm − p0 } l.u.
7
Definition 14.7 Affine Hülle
Seien p0 , p1 , . . . , pm ∈ V .
(i) Eine Affinkombination der Punkte (Vektoren) p0 , p1 , . . . , pm ist eine Linearkombination
dieser Punkte, wobei die Summe der Parameter 1 ist.
x=
m
X
λi pi mit
i=0
m
X
λi = 1.
i=0
(ii) Die affine Hülle < p0 , . . . , pm >A der Punkte (Vektoren) {p0 , . . . , pm } ist die Menge aller
Affinkombinationen von p0 , . . . , pm .
(
< p0 , . . . , pm >A :=
x=
m
X
λi pi mit
i=0
m
X
)
λi = 1 .
i=0
Es gilt: Die affine Hülle von {p0 , . . . , pm } ist der kleinste affine Teilraum, der p0 , . . . , pm
enthält.
(iii) (p0 , . . . , pm ) heißen Punkte in allgemeiner Lage ⇔
{p1 − p0 , . . . , pm − p0 } l.u. ⇔ dim(< p0 , . . . , pm >A ) = m.
Es gilt:
1 Punkt ist immer in allgemeiner Lage.
2 Punkte sind in allgemeiner Lage ⇔ sie sind verschieden.
3 Punkte sind in allgemeiner Lage ⇔ ihre Hülle ist eine Ebene. 3 Punkte sind nicht in allgemeiner
Lage ⇔ sie liegen auf einer Geraden.
4 Punkte sind in allgemeiner Lage ⇔ ihre Hülle ist ein 3–dimensionaler Raum. 4 Punkte sind
nicht in allgemeiner Lage ⇔ sie liegen in einer Ebene oder auf einer Geraden.
Damit gilt:
Jeder Punkt eines m−dimensionalen affinen Teilraumes A ist eine Affinkombination
8
von m + 1 Punkten p0 , . . . , pm in allgemeiner Lage.
(
)
m
m
X
X
A = x|x =
λi pi mit
λi = 1
i=0
i=0
f) Parallelität:
Im Anschauungsraum sind 2 Geraden parallel, wenn ihre Richtungsvektoren kollinear, also l.a.
sind. Eine Gerade ist parallel zu einer Ebene, wenn sie zu einer Geraden in der Ebene parallel
ist.
Definition 14.8 Parallelität
(i) Die affinen Teilräume A1 = p1 + U1 und A2 = p2 + U2 heißen parallel, wenn eine der
Richtungen in der anderen enthalten ist (im besonderen können die Richtungen gleich
sein).
(ii) Die affinen Räume A1 und A2 heißen windschief, wenn sie nicht parallel sind und ihr
Durchschnitt leer ist.
A1 windschief zu A2 ⇔ A1 6 kA2 und A1 ∩ A2 = ∅.
3
Beispiel:
A
0
1= K
0
2
1
1
B
C
B
C
B
C
B
C
A1 = B 1 C + λ B 0 C
@
A
@
A
0
−1
0
1
0
1
0
1
−1
2
3
B
C
B
C
B
C
B
C
B
C
B
C
A2 = B 2 C + µ B −1 C + ν B −1 C
@
A
@
A
@
A
1
1
0
Es ist 0
U1 ⊂ U1
2 (RowReduce) ⇒ A1 kA2
0
1
0
−1
2
0
B
B
U1 =
A
−1
1 0
1
2
3
C B
C
C B
C
−1 C , B −1 C >
A @
A
1
0
1
B
B
A3 = B
@
C
B
C
B
C
C
B
C
B
C
U3 =
2 C + r B −1 C
A
@
A
@
A
1
1
1
Es ist U1 6⊂ U3 , U3 6⊂ U1 ⇒ A1 6 kA3 .
Bemerkung: In höher als 2-dimensionalen Vektorräumen ist die Parallelität nicht transitiv:
A1 kA2 ∧ A2 kA3 6⇒ A1 kA3
g) Abschlußeigenschaften von affinen Räumen
9
Definition 14.9 Verbindungsraum
Ai = pi + Ui seien affine Teilräume in Richtung Ui .
Der Verbindungsraum (die Summe) der affinen Räume Ai ist die Menge aller Punkte.
n
X
Ai := A1 + . . . + An := p +
i=1
n
X
i=1
Ui +
n
X
, Pi ∈ Ai , P ∈
i=1
n
[
Ai
i=1
Satz 14.2 Abschlußeigenschaften affiner Räume
(i) Der Durchschnitt von affinen Teilräumen ist entweder leer oder ein affiner Teilraum mit
der Richtung U1 ∩ U2 .
A1 ∩ A2 = p + (U1 ∩ U2 ), p ∈ A1 ∩ A2
Tn
Tn
1 Ai = p + i=1 Ui
(ii) Die Vereinigung von affinen Teilräumen ist im allgemeinen kein affiner Teilraum.
(iii) Die Summe (der Verbindungsraum) von affinen Teilräumen ist der kleinste affine
Teilraum, der die mengentheoretische Vereinigung der gegebenen Teilräume enthält.
Beispiel:
g = p+ < a >
seien 2 verschiedene Geraden in der Ebene (also {a, b} l.u.)
h = q+ 
g + h = p+ < a > + = p+ < a, b >= ε
Die eindimensionalen Teilräume , liefern keine neuen Beiträge.
Beispiel: g und h seien 2 verschiedene Geraden im Teilraum V 3 mit leerem Durchschnitt (windschiefe Gerade): g = p + λa, h = q + µb.
g + h = p+ < a > + + < P~Q >=
= p+ < a, b, P~Q >= Teilraum V 3 .
Satz 14.3 Dimensionssatz für affine Teilräume
dim(A1 ) + dim(A2 ) = dim(A1 + A2 ) + dim(A1 ∩ A2 ), wenn A1 ∩ A2 6= ∅
dim(A1 ) + dim(A2 ) = dim(A1 + A2 ) + dim(U1 ∩ U2 ) − 1, wenn A1 ∩ A2 = ∅
Folgt aus dem Dimensionssatz für Teilräume (ohne Beweis).
10
14.2 Affine Eigenschaften von Geraden und Ebenen
“Affin” soll dabei bedeuten, daß wir uns nur auf Schnitt– und Parallelitätseigenschaften konzentrieren, nicht jedoch z.B. auf Abstände. Wir werden zeigen, daß sich die Geraden oder Ebenen
eines Vektorraumes V über einem Körper K (bzw. die 1– oder 2–dimensionalen linearen Mannigfaltigkeiten) tatsächlich wie die “anschaulichen” Geraden oder Ebene verhalten. Aber nur in
reellen Vektorräumen kann man sich eine Gerade so vorstellen:
Im allgemeinen ist dies nicht der Fall: Eine Gerade g = p + U ist ein 1–dimensionaler affiner Teilraum und geht daher durch Verschieben des 1–dimensionalen Vektorraumes U hervor,
U gleichmächtig mit K. In einem komplexen Vektorraum (K = C)
I besteht eine Gerade daher
aus allen komplexen Zahlen, also aus allen Punkten der GAUSS’schen Zahlenebene (!) und für
K = GF (2) besteht g nur aus 2 Punkten. Deshalb muß man sich schon sorgfältig überlegen,
daß affine Geraden sich auch tatsächlich so wie die Geraden des Anschauungsraumes verhalten. Für 3–dimensionale reelle Vektorräume erhalten wir so die üblichen Aussagen der
Elementargeometrie.
Satz 14.4 Punkte und Geraden
(i) Durch zwei verschiedene Punkte P und Q gibt es genau eine Gerade, nämlich die Verbindungsgerade
g(P, Q) : x = p + λ(q − p)
(ii) Durch einen Punkt Q, der nicht auf der Geraden g liegt, gibt es genau eine Gerade h, die
zu g parallel ist (EUKLIDISCHES AXIOM).
11
Beweis: (i) g(P, Q) : x = p + λ(q − p) enthält für λ = 0 den Punkt P und für λ = 1 den Punkt
Q. Ist h : x = p+ < a > eine weitere Gerade, die P und Q enthält, dann ist q − p ∈< a >, wegen
q − p 6= 0 ist < a >=< q − p >, also h : x = p+ < q − p >= p+ < a >= g
(iii) Sei g : x = p + λa und Q 6∈ g. h : x = q + λa enthält Q (für λ = 0) und ist parallel zu g. Ist
h1 : x = q + U eine weitere zu g parallele Gerade durch Q, dann ist U ⊆< a > und damit
wegen dim(U ) = 1 = dim(< a >) : U =< a >, also ist h1 = h.
Bemerkung: Die durch die Vektorraumtheorie definierten Grundbegriffe Punkt, Gerade, Ebene erfüllen die Axiome einer EUKLIDISCHEN GEOMETRIE. Grund: Die Vektorraumaxiome
entsprangen aus der anschaulichen (= euklidischen) Raumvorstellung.
Satz 14.5 Parallele Geraden
g und h seien zwei parallele Geraden einer Ebene mit dem gemeinsamen Richtungsvektor a
und P ∈ g, Q ∈ h. Dann gilt:
(i) g und h haben genau dann keinen gemeinsamen Punkt wenn {a, P~Q} l.u.
(nicht kollinear) sind:
g ∩ h = ∅ ⇔ {a, P~Q} l.u.
(ii) g und h fallen genau dann zusammen, wenn {a, P~Q} l.a. (kollinear) sind
g = h ⇔ {a, P~Q} l.a.
Da {a, P~Q} entweder l.u. oder l.a. sein können gillt also:
Zwei parallele Geraden fallen entweder zusammen oder sie sind elementfremd.
Beweis:
g : x = p + λa, h : x = q + µa
g ∩ h haben gemeinsame Punkte ⇔ ∃λµ, ∈ K : p + λa = q + µa ⇔ q − p = (λ − µ)a
1. Fall: {a, q − p} l.u. ⇔6 ∃λ, µ ∈ K mit : (λ − µ)a = q − p ⇔6 ∃ gemeinsame Punkte.
12
2. Fall: {a, q − p} l.a. ⇔ q − p = la ⇔ q = p + la oder p = q − la. Damit gilt: Ist R ein Punkt von g ⇒ r =
p + λa ⇒ r = q − la + λa ⇒ r = q + (λ − l)a ⇒ R ist auch ein Punkt von h. Ist S ein Punkt von
h ⇒ s = q + µa ⇒ s = p + la + µa ⇒ s = p + (λ + µ)a ⇒ S ist auch ein Punkt von g, insgesamt ist g mit
h identisch (zusammenfallend).
Beispiel:
3
Sind die beiden
Geraden
!
! g, h im K parallel, verschieden oder zusammenfallend?
g:~
x=
1
3
5
+λ
!
−2
5
−3
!
−1
4
8
−10
h=~
x=
+µ
2
!
! 6
4
−2
−10
5
= −2
⇒< a >=⇒ gkh
6
! −3
−2
5
q−p=
∈< a >⇒ {a, q − p}l.a. ⇒ g = h.
−3
Satz 14.6 Nichtparallele Geraden
g und h seien 2 nichtparallele Geraden eines zumindest 3−dimensionalen affinen Teilraum A
mit den nichtkollinearen Richtungsvektoren a, b und P ∈ g, Q ∈ h.
Damit gilt:
(i) g und h windschief ⇔ {a, b, P~Q} nicht komplanar:
˜ l.u.
g ∩ h = ∅ ⇔ {a, b, PQ}
(ii) g und h haben genau einen Schnittpunkt ⇔ {a, b, P~Q} komplanar:
˜ l.a.
g ∩ h = {S} ⇔ {a, b, PQ}
Also: Zwei nichtparallele Geraden in einem zumindest 3–dimensionalen Raum haben
entweder genau einen Schnittpunkt oder sie sind windschief.
Zwei nichtparallele Geraden einer Ebene schneiden einander in genau einem Punkt.
13
Beweis:
{a, b} l.u.
g : x = p + λa, h : x = q + µb,
g ∩ h = {S} ⇔ ∃λ, µ ∈ K : p + λa = q + µb ⇔ ∃λ, µ ∈ K : q − p = λa − µb
(3)
1. Fall: {q − p, a, b} l.u. ⇔ (3) hat keine Lösung (λ, µ) ⇔ g ∩ h = ∅.
2. Fall: {q − p, a, b} l.a. ⇒ q − p ist Lkbt. von a, b ⇒ (weil {a, b} l.u.)
∃ k, l ∈ K : q − p = ka + lb
(wegen {a, b} l.u. sind k und l eindeutig bestimmt) ⇔
∃1 k, l ∈ K : p + ka
=
q − lb ⇔
∈g
∈h
g und h haben genau einen Punkt gemeinsam.
Folgerung: Zwei nichtparallele Geraden einer Ebene schneiden einander stets in genau einem
Punkt.
Beweis: {q − p, a, b} sind in einem 2–dimensionalen Raum stets l.a.
Flußdiagramm für die Lage zweier Geraden g : p + λa und h : x = q + µb in einem zumindest
3–dimensionalen affinen Raum:
14
Zusammenfassung:
Satz 14.7 Verhalten von Geraden
(i) Zwei Geraden in einem zumindest 3–dimensionalen affinen Raum sind entweder parallel
(auch zusammenfallend) oder sie schneiden einander in genau einem Punkt oder sie sind
windschief.
(ii) Zwei Geraden in einer Ebene sind entweder parallel (auch zusammenfallend) oder sie
schneiden einander in genau einem Punkt.
Ähnlich kann man für Ebenen zeigen:
Satz 14.8 Parallele Ebenen
ε1 , ε2 seien 2 parallele Ebenen mit Richtung U =< a, b >, P ∈ ε1 , Q ∈ ε2 und
ε1 : p + λ1 a + µ1 b, ε2 : q + λ2 a + µ2 b.
(i) Haben zwei parallele Ebenen auch nur einen Punkt gemeinsam, so fallen sie zusammen
(ii) ε1 = ε2 ⇔ {a, b, P~Q} l.a. (komplanar)
(iii) ε1 ∩ ε2 = ∅ ⇔ {a, b, P~Q} l.u. (nicht komplanar)
Satz 14.9 Nicht parallele Ebenen
Zwei nicht parallele Ebenen eines 3–dimensionalen affinen Raumes schneiden einander stets in
genau einer Geraden.
Beweis:
ε1 :
x = p + ka + lb
(k, l) ∈ K
ε2 :
x = q + rc + sd
(r, s) ∈ K
ε1 ]ε2 ⇒< a, b >6=< c, d >
ε1 ∩ ε2 6= ∅ ⇔ ∃ Skalare k, l, r, s ∈ K mit:
p + ka + ld = q + rc + sd ⇔ q − p = ka + lb − rc − sd
(4)
{q − p, a, b, c, d} sind l.a., 2 von ihnen lassen sich durch 3 l.u. Vektoren, etwa a, b, c (wegen der Nichtparallelität
müssen in einem 3–dimensionalen Raum 3 der Vektoren a, b, c, d l.u. sein) eindeutig darstellen:
8
>
>
q − p = ra + sb + tc
>
<
|·λ
+
d = ua + vb + wc
>
>
>
:
λd = λua + λvb + λwc
15
q − p + λd = (r + λu)a + (s + λv)b + (t + λw)c
∀λ : q − (t + λw)c + λd = p + (r + λµ)a + (s + λv)b
|
{z
} |
{z
}
∈ε2
(5)
∈ε1
Formt man (5) um:
(q − tc) + λ(d − wc) = (p + ra + sb) + λ(ua + vb) =: g.
Man sieht, daß die gemeinsamen Punkte auf einer Geraden, der Schnittgeraden von ε1 und ε2
liegen.
Bemerkung: In einem 4–dimensionalen Vektorraum können {a, b, c, d} auch l.u. sein. Dann
schneiden die Ebenen einander in genau einem Punkt!
Zusammenfassung:
Satz 14.10 Verhalten von Ebenen in 3–dimensionalen Räumen
Zwei Ebenen eines 3−dimensionalen affinen Raumes sind entweder parallel (können auch zusammenfallen) oder sie schneiden einander in einer Geraden.
Flußdiagramm für die Lage zweier Ebenen ε1 und ε2 in einem 3–dimensionalen Vektorraum:
Analog erhält man:
Satz 14.11 Gerade und Ebene
Eine Gerade eines 3–dimensionalen Vektorraum V ist entweder parallel zu einer Ebene des
Raumes (kann auch ganz in der Ebene liegen) oder die Gerade schneidet die Ebene in genau
einem Punkt.
16
Flußdiagramm über die Lage einer Geraden und einer Ebene in einem 3–dimensionalen Vektorraum:
Beispiel: V = K 3
p
a
b
z0 }| 1{
z0 }| 1{
z0 }| 1{
3
4
−3
C
C
C
B
B
B
C
C
C
B
B
B
ε : x = B 2 C +λ B −1 C +µ B −4 C
A
A
A
@
@
@
1
6
1
q
c
z0 }| 1{
z0 }| 1{
1
1
B
C
B
C
B
C
B
C
g : x = B 3 C +r B −5 C
@
A
@
A
1
7
1. Ist < c >⊆< a, b >⇔ {a, b, c} l.a.?
2. Ist g ganz in ε
0
1 0
−1
B
C B
B
C B
B 3 C−B
@
A @
1
1
−5
7
4
−1
6
−3
−4
1
1
−5
7
0
19
0
−19
22
1
−5
7
0
19
−22
0
0
0
−22 ⇒ l.a. ⇒ gkε
enthalten? ⇔ {q − p, a, b} l.a.?
1 0
1
3
−4
C B
C
C B
C
2 C=B 1 C
A @
A
1
0
−4
1
0
4
−1
6
−3
−4
1
−4
1
0
0
0
6
0
19
−4
l.u. ⇒ g 6⊂ ε ⇒ g ∩ ε = ∅
17
Bemerkung: Abstrakte Geraden verhalten sich wie anschauliche Geraden.
Abstrakte Ebenen verhalten sich in 3–dimensionalen Räumen wie anschauliche Ebenen, in höherdimensionalen Räumen treten unanschauliche Sachverhalte auf (z.B. zwei Ebenen schneiden
einander in einem Punkt!).
Beachte: Wir haben die Begriffe Punkt, Gerade und Ebene mit Hilfe der Vektorraumaxiome und den daraus abgeleiteten Begriffen definiert und durch Gleichungen beschrieben (→
ANALYTISCHE GEOMETRIE).
In der SYNTHETISCHEN Geometrie sind Punkt, Gerade und Ebene undefinierte Grundbegriffe, die gewisse Spielregeln (→ Euklidische Axiome) erfüllen. Unsere definierten Punkte,
Geraden und Ebenen erfüllen dieselben Spielregeln, es sind dies aber Sätze, die bewiesen werden müssen (im Gegensatz zu den Axiomen).
Analog kann man alle üblichen geometrischen Sätze aus den Vektoraxiomen herleiten. Die durch
den Vektorraum definierten Punkte, Geraden und Ebenen verhalten sich so wie die anschaulichen
Punkte, Geraden und Ebenen.
Grund: Die Vektorraumaxiome wurden aus der Anschauung entnommen.
Vorteil der analytischen Methode: Man braucht von einer Menge von (auch abstrakten) Objekten (wie z.B. Funktionen, n−Tupel, ...) nur die 9 Vektorraumaxiome überprüfen und weiß dann,
daß auch für diese abstrakten Objekte die üblichen geometrischen Sätze gelten, also auch z.B. für
Geraden aus Funktionen, n−Tupeln usw. Darüber hinaus kann das Herleiten bzw. der Umgang
rechnerisch, durch Auflösen von Gleichungen erfolgen (→ ANALYTISCHE GEOMETRIE), was
wesentlich bequemer ist, als das axiomatische Schließen (→ SYNTHETISCHE GEOMETRIE).
Wir zeigen im folgenden, daß auch in abstrakten, endlich dimensionalen Vektorräumen Punktmengen durch Systeme von (meist linearen) Gleichungen und Ungleichungen beschrieben werden
können. (Bisher haben wir nur im Vektorraum K n der n−Tupel Teilräumen und affine Räume
durch lineare Gleichungssysteme beschrieben.) Dazu werden, so wie in der anschaulichen Ebene
bzw. im anschaulichen Raum, Koordinatensysteme eingeführt.
14.3 Koordinatensysteme in affinen Räumen
Um affine Räume über einem Körper K durch Gleichungen über K beschreiben zu können, muß
man Punkten Körperelemente (Skalare) zuordnen können. Dies wird möglich durch Einführung
von Koordinatensystemen. Sie entspricht der Einführung von Basen in Vektorräumen.
18
14.3.1 Affine und kartesische Koordinatensysteme
Beispiel: In der 2−dimensionalen Ebene ε werden 3 Punkte P0 (p0 ), P1 (p1 ), P2 (p2 ) allgemeiner
Lage ausgezeichnet, d.h. p1 − p0 , p2 − p0 sind l.u,, also eine Basis der Richtung U der Ebene ε:
U =< p1 − p0 , p2 − p0 >.
P0~X = x − p0 heißt Ortsvektor des Punktes X bezüglich des Koordinatensystems {P0 , P1 , P2 }.
x − p0 = x1 (p1 − p0 ) + x2 (p2 − p0 )
x = p0 + x1 (p1 − p0 ) + x2 (p2 − p0 ) ⇔ X(x1 |x2 )
Weil p1 − p0 , p2 − p0 l.u., sind x1 , x2 eindeutig bestimmt. Sie heißen die Koordinaten
[X] = (x1 |x2 ) des Punktes X bezüglich {P0 , P1 , P2 }. Die Koordinaten von X bezüglich des
Koordinatensystem {P0 , P1 , P2 } sind die Koordinaten (Komponenten) des Ortsvektors bezüglich der Basis {P0~, P1 , P0~P2 } von U .
KOORDINATEN eines Punktes = KOMPONENTEN seines Ortsvektors.
Ein Koordinatensystem in einem affinen Raum einführen heißt, Punkte auszeichnen.
Es gilt:
~ = P0~X − P~0 Q ⇒ [QX]
~ = [P0~X] − [P~0 Q] = [X] − [Q]
QX
~ = [X] − [Q] “Spitze–Schaft”–Regel
[QX]
19
Allgemein:
Definition 14.10 Affine und kartesische Koordinatensysteme
A sei ein n−dimensionaler affiner Teilraum mit Richtung U in einem Vektorraum V über K.
(Beachte, daß A auch ganz V sein kann, dann ist U = V ).
Ein Koordinatensystem von A ist ein geordnetes (n + 1)−Tupel
S := (P0 , P1 , . . . , Pn ) von n + 1 Punkten aus A in allgemeiner Lage, d.h.
BS = {P~0 P1 , P0~P2 , . . . , P0~Pn } ist eine Basis der Richtung U .
P0 heißt Ursprung, P1 , . . . , Pn heißen Einheitspunkte von S, die Geraden
ki : x = p0 + λ(pi − p0 ),
i = 1, . . . , n
heißen die i−ten Koordinatenachsen des Koordinatensystems S.
BS heißt die zu S gehörige Basis von U .
Ist (V, <>) ein Skalarproduktraum, dann heißt S ein kartesisches Koordinatensystem von
A, wenn BS eine ON–Basis von V ist. Ist BS keine ON–Basis, dann heißt S ein affines Koordinatensystem von A.
Jeder Punkt X(x) ∈ A läßt sich dann eindeutig in der Form
x = p0 +
n
X
xi (pi − p0 )
i=1
darstellen.
Der Vektor P0~X = x − p0 heißt Ortsvektor von X bezüglich S, die Skalare x1 , . . . , xn heißen
Koordinaten des Punktes X bezüglich des Koordinatensystems S.
Das n−Tupel (x1 |x2 | . . . |xn ) heißt Koordinatenvektor von X.
X(x1 |x2 | . . . |xn ) ⇔ P0~X = (x1 , x1 , . . . , xn ) ⇔ P0~X := x = p0 +
n
X
xi (pi − p0 )
i=1
Satz 14.12 Koordinatenvektor und Ortsvektor
Der Koordinatenvektor eines Punktes bezüglich eines Koordinatensystems ist gleich dem Komponentenvektor seines Ortsvektors bezüglich der zugehörigen Basis.
˜ B = [X]S − [Q]S .
Weiters gilt: [QX]
S
Die Koordinaten eines Vektors bezüglich der zugehörigen Basis sind die Differenzen der Koordinaten des Endpunktes und des Anfangspunktes des Vektors (“Spitze–Schaft”–Regel).
20
Gegeben sei nun ein inhomogenes lineares Gleichungssystem A~x = ~b über K von m Gleichungen
in n Unbekannten vom Rang r also
A ∈ K mn , Rg(A) = r.
Die Lösungsmenge L ist gegeben durch
L = x0 + λ1 x~1 + . . . + λn−r xn−r
~ = x0 + < x~1 , . . . , xn−r
~ >.
Wiederholung:
(i) Die Lösungsmenge L eines linearen inhomogenen Gleichungssystems A~x = b von m Gleichungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler affiner Unterraum des K n (oder die leere Menge).
(ii) Die Lösungsmenge eines homogenen linearen Gleichungssystems A~x = ~0 von m Gleichungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler Teilraum vom K n .
Die Einführung von Koordinatensystem in affinen Räumen ermöglicht es nun umgekehrt, diese durch inhomogene LGS zu beschreiben (Gleichungsdarstellung, parameterfreie Darstellung affiner Räume). Analog gestattete die Einführung von Basen in Vektorräumen die
Beschreibung von Teilräumen durch homogene LGS.
Satz 14.13 Gleichungsdarstellung von affinen Räumen
A sei ein n−dimensionaler affiner Raum über dem Körper K mit einem Koordinatensystem S.
B sei ein m−dimensionaler affiner Unterraum von A.
Dann gibt es ein i.a. inhomogenes lineares Gleichungssystem vom Rang n − m, dessen
Lösungsmenge gerade die Koordinatenvektoren der Punkte von B bezüglich S sind.
Dieses den affinen Unterraum beschreibende Gleichungssystem ist nicht eindeutig bestimmt.
Beweisidee: B = p + U = {x|x = p + λ1 u1 + . . . + λm um }, m = dim(B). Dabei sei {u1 , . . . , um }
eine Basis von U . Dann besitzt x − p ∈ U eine eindeutige Darstellung:
x − p = λ1 u1 + . . . + λm um ,
λi ∈ K.
(6)
Nun berechnet man die Koordinaten [X] von X, [p] von p bezüglich des Koordinatensystems S
von A und die Komponenten [u1 ], . . . , [un ] der Vektoren u1 , . . . , un bezüglich der dazugehörigen
21
Basis BS von U : Es sind [X], [p], [ui ] ∈ K n !
(6) ist wegen der Linearität der Komponentenbildung äquivalent zu:
[x − p]BS
↓
[P~X]BS
= λ1 [u1 ] + . . . + λm [um ]
= [X]S − [P ]S
also: λ1 [u1 ] + . . . + λm [um ] = [X] − [P ].
(7)
Das ist ein inhomogenes LGS mit n Gleichungen in den m Unbekannten λ1 , . . . , λm mit der
Koeffizientenmatrix ([u1 ], . . . , [um ]), die wegen der linearen Unabhängigkeit von u1 , . . . , um den
Rang m hat. Also hat (7) eine eindeutige Lösung λ1 , . . . , λm (Rang = ] Unbekannten). Setzt
man diese in (7) ein, so erhält man n − m übrigbleibende Gleichungen in
[x] = (x1 , x2 , . . . , xn ) vom Rang n − m (weil dim(B) = m). Man erhält diese bequem aus
(7) durch das Eliminationsverfahren (siehe folgendes Beispiel) bzw. mittels Z(A) = N (U ) und
→
−
→
b = A−
p.
Da das Eliminationsverfahren nicht eindeutig bestimmt ist, sind auch die Gleichungen nicht
eindeutig bestimmt.
Zusammenfassung:
(i) Ein m–dimensionaler Teilraum eines n–dimensionalen Vektorraumes kann durch ein homogenes Gleichungssystem in n Variablen vom Rang n–m beschrieben werden.
(ii) Ein m–dimensionaler affiner Raum eines n–dimensionalen Vektorraumes kann durch
ein inhomogenes lineares Gleichungssystem in n Variablen vom Rang n–m beschrieben
werden.
Beispiel: V = P2 = A
P2 =< 1, x, x2 >, Standardbasis St, dim(P2 ) = 3
Sei p0 = 1 + x, p1 = x − x2 , p2 = 3x + x2
a) p0 , p1 , p2 sind in allgemeiner Lage:
p1 − p0 = −1 − x2 , p2 − p0 = 1 + 2x + x2
[p1 − p0 ]St = (−1, 0, −1)
[p2 − po ]St = (−1, 2, 1)
22
b) Ebene ε(p0 , p1 , p2 ) : durch p0 , p1 , p2
ε : f = 1 + x + λ(−1 − x2 ) + µ(−1 + 2x + x2 ) = p + U
U =< −1 − x2 , −1 + 2x + x2 >
p=1+x
c) Koordinatensystem S = (0, 1, x, x2 ) 
von P2


−1
1−0 = 1
−1








x − 0 = x l.u., [−1 − x2 ]S =  0  =: u~1 , [−1 + 2x + x2 ]S =  2  =: u~2




1
x2 − 0 = x2
−1



 








a0
1
−1
−1




 













2
[f ]S = [a0 + a1 x + a2 x ]S =  a1  , ε = f |[f ] =  1  + λ  0  + µ  2 



 









a2
0
−1
1 
 
1
 
 
[1 + x]S =  1  = x~0
 
0
Z(A) = N (U )
U =< (−1, 0, −1), (−1, 2, 1) >
NullSpace[{{−1, 0, −1}, {−1, 2, 1}}]
Z(A) = (−1, −1, 1)

1

 

~b = A · x~0 = (−1, −1, 1) 
 1  = −2
 
0
LGS: −a0 − a1 + a2 = 2
a0 + a1 − a2 = 2
ε = {f = a0 + a1 x + a2 x2 |a0 + a1 − a2 = −2}
Die Ebene ε wird durch 1 = 3 − 2 lineare Gleichungen in 3 = dim(P2 ) Unbekannten
beschrieben.
d) g(p,q)mit p = 3 + 2x + x2
q = 4 + x − 3x2
g: f



 




3
1




 

 


g = f |[f ] =  2  + r  −1 

 







1
−4 
= 3 + 2x + x2 + λ(1 − x − 4x2 )
U = < (1, −1, −4) > x~0 = (3, 2, 1)1
Z(A) = N (U ) =< (4, 0, 1), (1, 1, 9) >
23
~b = A · x0 = (13, 5)

 4a0 + a2 = 13
g:
 a +a = 5
o
1
g = {f = a0 + a1 x + a2 x2 |4a0 + a2 = 13, a0 + a1 = 5}
Die Gerade g wird durch 2 = 3 − 1 Gleichungen in 3 = dim(P2 ) Unbekannten beschrieben.
e) Nun bestimmen wir den Durchschnitt von ε mit g
ε ∩ g : 1 − x − 4x2 l.u. von −1 − x2 , −1 + 2x + x2
1 −1 −4
−1
0 −1
−1
2
1
RowReduce
1
0
0
0
1
0
0
0
1
⇒ l.u.
dabei haben wir benützt:
{vi } l.u. ⇒ {[vi ]} l.u.

a0 + a1 − a2 = 2 



2
ε ∩ g = {f = a0 + a1 x + a2 x 4a0 + 1a2 = 13



a0 + a1 = 5 
Weil P der Rang dieses LGS 3 ist, erhält man eine eindeutige Lösung.
LinearSolve [A, ~b]
~b = (2, 13, 5)t ( 5 , 5 , 3)
2 2
ε ∩ g = {P } mit P =
5
2
+ 25 x + 3x2
P ∈ g : 3 + 2x + x2 + λ(1 − x − 4x2 ) =
3+λ =
5
2
λ = − 12
5
2
5
2
+
5
2
Koeffizientenmatrix
+ 52 x + 3x2 = 3 + 2x + x2 − 21 (1 − x − 4x2 )
oder mit Koordinaten in K 3 :



  
5
3
1


 2   


 5   
 2  =  2  + λ  −1 
  



3
1
−4
Analog sieht man, daß P ∈ ε.
+ 3x2
24
14.3.2 Affine Koordinatentransformation
So wie man die Änderung der Koordinaten von Vektoren bei Wechsel der Basis durch reguläre
Matrizen beschreiben kann, kann man auch die Änderung der Punktkoordinaten bei Wechsel des
Koordinatensystems durch ein Matrix–Vektor–Paar beschreiben.
A sei ein n−dimensionaler affiner Raum in einem Vektorraum über dem Körper K. Ein Wechsel
des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes x ∈ A
hervor.
S = (P0 , P1 , . . . , Pn ): “altes” Koordinatensystem
S 0 = (P00 , P10 , . . . , Pn0 ): “neues” Koordinatensystem
[x]S = (x1 | . . . |xn ): “alte” Koordinaten des Punktes X
[x]s , = (x01 | . . . |x0n ): “neue” Koordinaten des Punktes X
Wie beim Basiswechsel drücken wir die neuen Punkte durch die alten aus:
P
P
P00 = P0 + ni=1 ti P0~Pi ⇔ p00 = p0 + ni=1 ti (pi − p0 )
P
P
Pj0 = P00 + ni=1 tij P0~Pi ⇔ p0j = p0 + ni=1 tij (pi − p0 )
Ausführlich:
p01 − p00
= t11 (p1 − p0 ) + t21 (p2 − p0 ) + . . . tn1 (pn − p0 )
p02 − p00
..
.
= t12 (p1 − p0 ) + t22 (p2 − p0 ) + . . . tn2 (pn − p0 )
p0n − p00 = t1n (p1 − p0 ) + t2n (p2 − p0 ) + . . . tnn (pn − p0 )



T := (tij ) = 


t11
t21
..
.
tn1

t12 . . . t1n

t22 . . . t2n 
 (transponiert definiert!) , ~t = (t1 , t2 , . . . , tn )t


tn2 . . . tnn
T ist regulär, weil auch {p01 − p00 , . . . , p0n − p00 } l.u. sind ((P00 , . . . , Pn0 ) ist wieder ein Koordinatensystem).
25
T ist sogar orthogonal (unitär), wenn ein kartesisches Koordinatensystem wieder auf ein
solches transformiert werden soll.
x = p00 +
=
=
=
=
Pn
0 0
j=1 xj (pj
− p00 ) =
P
P
P
p0 + ni=1 ti (pi − p0 ) + nj=1 x0j ni=1 tij (pi − p0 ) =
P
P
P
p0 + ni=1 ti (pi − p0 ) + ni=1 ( nj=1 tij x0j )(pi − po ) =
P
P
p0 + ni=1 ( nj=1 tij x0j + ti )(pi − p0 ) =
P
p0 + ni=1 xi (p0j − p00 )
Weil {p1 − p0 , p2 − p0 , . . . , pn − po } l.u. ist, folgt aus der eindeutigen Darstellbarkeit:
xi =
n
X
tij x0j + ti
für i = 1, . . . , n
j=1
Also:
[X]S = T [X]S 0 + ~t
bzw.
[X]alt = T [X]neu + ~t
Da T regulär ist, existiert T −1 und wir erhalten:
[X]alt − t = T [X]neu
[X]neu
= T [X]−1 ([X]alt − t) = T −1 [X]alt − T −1 t
Satz 14.14 Affine und kartesische Koordinatentransformationen
A sei ein n−dimensionaler affiner Raum eines Vektorraumes V , X ∈ A.
S := (P0 , P1 , . . . , Pn ) sei ein Koordinatensystem in A.
T := (tij ) ∈ K n·n , t := (t1 , z2 , . . . , tn )t ∈ K n .
P
P00 := P0 + i=1 ti P0~Pi
P
Pj0 := P00 + ni=1 +tij P0~Pi für j = 1, . . . , n.
Dann gilt: S 0 := (P00 , P10 , . . . , Pn0 ) ist genau dann ein Koordinatensystem in A, wenn T regulär
ist. Die zugehörige Koordinatentransformation wird dann beschrieben durch:
[X]alt = T[X]neu + t bzw. [X]neu = T−1 [X]alt − T−1 t.
Ist S ein kartesisches Koordinatensystem, dann ist S 0 genau dann wieder ein kartesisches Koordinatensystem, wenn T eine orthogonale (unitäre) Matrix ist. Für die neuen Koordinaten
gilt dann insbesondere:
[X]neu = Tt [X]alt − Tt t
26
T heißt Koordinatentransformationsmatrix von S → S 0 . Sie ist die Transponierte jener
Matrix, die angibt, wie sich die neuen Ortsvektoren von P10 , . . . , Pn0 durch die alten ausdrücken
lassen.
t heißt der Translationsvektor von S → S 0 . Er ist der Koordinatenvektor des neuen Ursprungs
bezüglich S.
Affine Koordinatenformationen können also durch eine reguläre Matrix + Translationsvektor
beschrieben werden.
Erinnerung: Basiswechsel werden nur durch eine reguläre Matrix allein beschrieben.
Affiner Koordinatenwechsel
Komponentenwechsel
[X]alt = T [X]neu + t
[x]alt = P [x]neu
14.4 Konvexe Mengen
In diesem Kapitel werden die aus der Anschauung bekannten Punktmengen Strecke, Dreieck,
Pyramide, Halbstrahl u.a. auf abstrakte Vektorräume verallgemeinert. Sie sind keine Teilräume
oder affine Räume, werden aber speziell bei Optimierungsproblemen (→ Operations Research)
benötigt. Zu ihrer Definition benötigt man allerdings angeordnete Skalarkörper.
Einige Beobachtungen;
Strecke P Q:
Gerade durch P, Q : x = p + µ(q − p) = (1 − µ)p + µq = λ1 p + λ2 q mit λ1 + λ2 = 1
(λ1 = 1 − µ, λ2 = µ)
λ1 = 1 ⇒ λ 2 = 0 ⇒ x = p
λ1 = 0 ⇒ λ 2 = 1 ⇒ x = q
Für einen Punkt x ∈ P Q gilt: x = p + µ(q − p) mit 0 < µ < 1 ⇒ λ1 = 1 − µ > 0, λ2 = µ > 0.
Also: X ∈ PQ ⇔ x = λ1 p + λ2 q mit λ1 + λ2 = 1, λ1 , λ2 ≥ 0
27
Dreieck (P QR):
Ebene durch P, Q, R :
x = p + µ(q − p) + ν(r − p)
= λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = 1
X1
∈ QR ⇒ x1 = µ2 q + µ3 r mit µ2 + µ3 = 1, µ2 , µ3 ≥ 0
X
∈ P X1 ⇒ x1 = ν1 p + ν2 x1 mit ν1 + ν2 = 1, ν1 , ν2 ≥ 0
x = ν1 p + ν2 µ2 q + ν2 µ3 r
x = λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = ν1 + ν2 µ2 + ν2 µ3 =
= ν1 + ν2 (µ2 + µ3 ) = ν1 + ν2 = 1 und
| {z }
1
λ1 = ν1 ≥ 0, λ2 = ν2 µ2 ≥ 0, λ3 = ν2 µ3 ≥ 0.
Also: X ∈ Dreieck (P, Q, R) ⇔ x = λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = 1 und λ1 , λ2 , λ3 ≥ 0.
P ist Ecke des Dreiecks 4 ⇔6 ∃X1 , X2 ∈ 4 mit P ∈ X1 X2 .
X keine Ecke des Dreiecks 4 ⇔ ∃P, X1 ∈ 4 mit X ∈ P X1 .
Definition 14.11 Konvexe und nicht beschränkte Mengen
V sei ein Vektorraum über einem angeordneten Körper K.
T = {x1 , x2 , . . . , xr } ⊆ V, M ⊆ V .
(i) Eine Konvexkombination von x1 , x2 , . . . , xr ist eine Linearkombination von x1 , . . . , xr
der Form
λ1 x1 + λ2 x2 + . . . + λr xr mit
r
X
λi = 1 und λi ≥ 0.
i=1
Sind alle λi > 0, dann spricht man von einer echten Konvexkombination.
(ii) Die konvexe Hülle H(T) von T ist die Menge aller Konvexkombinationen von T .
(
)
r
X
X
H(x1 , . . . , xr ) = x|x =
λi xi mit
λi = 1 und λi ≥ 0 .
i=1
(iii) Eine Strecke P Q durch P und Q ist die konvexe Hülle von {P, Q}. P, Q heißen Endpunkte der Strecke P Q.
P Q = {x|x = λ1 p + λ2 q mit λ1 + λ2 = 1, λ1 , λ2 ≥ 0}
(iv) Eine Teilmenge M von V heißt konvex, wenn sie mit je zwei Punkten x1 , x2 ∈ M stets
auch alle Punkte der Strecke x1 x2 enthält.

x1 ∈ M 
M konvex ⇔
⇒ {x|x = λ1 x2 + λ2 x2 , λ1 + λ2 = 1, λ1 , λ2 ≥ 0} ⊆ M
x ∈M 
2
28
(v) Ein Punkt x ∈ M heißt Ecke von M , wenn es keine verschiedenen Punkte x1 , x2 ∈ M
gibt, so daß x echte Konvexkombination von x1 , x2 ist.
(vi) Ein Strahl durch p in Richtung a ist die Menge der Punkte {x|x = p + λa, λ ≥ 0}.
(vii) M heißt nicht–beschränkt, wenn M einen Strahl umfaßt.
Andernfalls heißt M beschränkt.
Beachte: Es gibt also 3 Arten von Hüllen: lineare, affine, konvexe.
Satz 14.15 Einfache Eigenschaften von konvexen Mengen
(i) Die konvexe Hülle H(x1 , x2 , . . . , xr ) ist stets konvex.
(ii) Der Durchschnitt von konvexen Mengen ist stets konvex.
(iii) Die Vereinigung von konvexen Mengen ist i.a. nicht konvex.
(iv) Jeder m−dimensionale affine Raum A ist eine nichtbeschränkte, konvexe Menge ohne
Ecken.
Beweis für die Eckenfreiheit: Sei x ∈ A ⇒ x = p +
x2 := p +
Pm
i=1
λi ui ⇒ x1 := p +
P
(λi + k)ui ∈ A und
P
(λi − k)ui ∈ A. Es ist x1 6= x2 und x = 12 x1 + 21 x2 .
(v) Ist T1 = {x1 , . . . , xr } und T2 = {xr+1 , . . . , xn }, dann ist H(T1 ∪ T2 ) = Menge aller Konvexkombinationen je eines Punktes von H(T1 ) und H(T2 ). Damit kann man die konvexe
Hülle einer endlichen Menge T = {x1 , . . . , xm } induktiv aufbauen: Man geht aus von
der konvexen Hülle von {x1 , x2 } = x1 x2 aus. Dann bildet man die konvexe Hülle von
{x1 , x2 } ∪ {x3 } = {x1 , x2 , x3 } als Menge aller Konvexkombinationen von Punkten aus
x1 x2 und x3 usw.
29
Definition 14.12 Spezielle konvexe Mengen im Kn
{e~1 , . . . , e~n } sei die Standardbasis des K n .
(i)
(
K+ :=
x̃|x̃ =
n
X
)
λi ẽi , λi ∈ K, λi ≥ 0
i=1
heißt der Positivitätskegel im
K n.
Auch so:
K+ := {~x|~x ∈ K n und ~x ≥ 0}.
1. Quadrant
1. Oktant
(ii) m
~ = (m1 , . . . , mn ) ∈ K n , ε > 0
n
o
ε
W (m,
~ ε) := ~x/ kxi − mi k ≤ , i = 1, . . . , n
2
W heißt Würfel mit Mittelpunkt m
~ und Kantenlänge ε.
Mittels der Dreiecksungleichung kann man zeigen, daß W eine konvexe Menge ist.
30
Definition 14.13 Spezielle Punkte
M sei eine konvexe Menge.
x ∈ M heißt innerer Punkt, wenn es einen Würfel W (x, ε) gibt, der ganz in M enthalten ist
(der nur Punkte aus M enthält).
x ∈ M heißt Randpunkt, wenn jeder Würfel W (x, ε) sowohl Punkte von M als auch Punkte
von M c enthält.
M heißt offen, wenn jeder Punkt von M ein innerer Punkt ist.
M heißt abgeschlossen, wenn M c offen ist.
offenes Intervall
abgeschlossenes Intervall
offene Halbebene
abgeschlossene Halbebene
offener Halbraum
abgeschlossener Halbraum
~at · ~x > b oder ~at · ~x b oder ~at · ~x < b
Jede Hyperebene zerlegt den Raum in 2 Halbräumen.
Definition 14.14 Konvexe Mengen, die keine affinen Räume sind
(i) Die Menge der positiven Lösungen eines inhomogenen linearen Gleichungssystems ist
eine konvexe Menge mit Ecken.
Sei A ∈ K mn , ~b ∈ K m . Dann ist Z := {x̃ ∈ Kn |Ax̃ = b̃ und x̃ ≥ 0} = L ∩ K+ konvex.
Z heißt zulässige Menge bezüglich des LGS A~x = ~b.
Z kann leer sein (wenn Rg(A) 6= Rg(A, b)).
31
Beweis der Konvexheit: Für x~1 , x~2 ∈ Z und λ1 ≥ 0, λ2 ≥ 0 mit λ1 + λ2 = 1 gilt:
A(λ1 x~1 + λ2 x2 ) = λ1 Ax~1 + λ2 Ax~2 = λ1~b + λ2~b = (λ1 + λ2 )~b = 1~b = ~b und λ1 x~1 + λ2 x~2 ≥ 0.
Die Bestimmung der Ecken ist in höherdimensionalen Räumen lästig (→ Operations Research).
Für die weiteren Beispiele sei {u1 , u2 , . . . , ur } l.u. in V, p ∈ V , beliebig.
n
o
P
(ii) K := x|x = x0 + ki=1 λi ui , λi ≥ 0
K heißt k− dimensionaler Kegel in V mit Spitze x0 . (Der Kegel ist eine Verallgemeinerung des Winkelfeldes.)
K ist nichtbeschränkt, x0 ist die einzige Ecke.
Strahlen sind 1−dimensionale Kegel.
(iii) Sp := {x|x = x0 +
Pr
i=1 λi ui ,
0 ≤ λi ≤ 1}
Sp heißt das von den Kantenvektoren u1 , u2 , . . . , uk von x0 aus aufgespannte k−dimensionale Parallelepiped (k−Spat). (Verallgemeinerung des Parallelogramms).
Strecken sind 1–dimensionale, Parallelogramme sind 2–dimensionale Parallelepipede.
Die Ecken sind genau die Punkte
e = x0 +
k
X
λi ui mit λi ∈ {0, 1}.
i=1
n
o
P
P
(iv) Si = x|x = x0 + ki=1 λi ui , λi ≥ 0, ki=1 λi = 1
Si heißt der von den Vektoren u1 , . . . , uk von x0 aus aufgespannte
k−dimensionale Simplex (k−Simplex). (Verallgemeinerung des Dreiecks).
32
Si ist als Teilmenge von SP beschränkt.
{x0 , x0 + u1 , . . . , x0 + uk } sind die Ecken von S.
S kann man in homogener Darstellung schreiben als
o
n
Pk
Pk
Si = x|x = i=0 µi vi , µi ≥ 0, i=0 µi = 1
P
mit µi = λi ,
i = 1, . . . , k; µ0 = 1 − ki=1 λi
vi = x0 + ui , i = 1, . . . , k; v0 = x0
Der k−dimensionale Simplex ist daher die konvexe Hülle seiner k + 1 Ecken (in allgemeiner
Lage).
33
15 Metrische Geometrie
Neben der Untersuchung von Inzidenz– und Parallelitätseigenschaften werden in der Elementargeometrie auch viele Aussagen über Abstände, Längen, Inhalte, Winkel und Orthogonalität
gemacht. Um diese Begriffe in die Sprache der linearen Algebra übersetzen und damit einer rechnerischen Behandlung zugänglich machen zu können, benötigt man als zusätzliche Eigenschaften
in Vektorräumen nur das Skalarprodukt. In diesem Kapitel werden also generell Skalarprodukträume vorausgesetzt. Die Inhaltsmessung von einigen konvexen Punktmengen wird mit Determinanten behandelt.
Nachdem wir bisher affine Räume generell als Teilmengen von Vektorräumen aufgefaßt haben,
übernehmen wir die übliche Abstands– und Winkelmessung von Skalarprodukträumen.
15.1 Abstands– und Winkelmessung
Definition 15.1 Abstand und Winkel
(V, <, >) sei ein Skalarproduktraum, A sei ein affiner Raum in V .
(i) Unter dem Abstand zweier Punkte X, Y ∈ A, symbolisch d(X, Y ), versteht man die
reelle Zahl
d(X, Y) := ky − xk =
√
< y − x, y − x >.
In reellen Skalarprodukträumen ist darüber hinaus eine Winkelmessung möglich:
(ii) Sind X, Y, Z ∈ A mit X 6= Y 6= Z, dann versteht man unter dem Winkel <
)(X, Y, Z) mit
dem Scheitel Y die reelle Zahl
<
)(X, Y, Z) := arccos
< x − y, z − y >
kx − ykkz − yk
Besonders nützliche Gleichungsdarstellungen von Punktmengen erhält man mittels kartesischer
Koordinatensysteme (nach R. DESCARTES, 1596-1650).
Als Beispiel für eine Gleichungsdarstellung untersuchen wir die Darstellung von Hyperebenen.
A sei ein n−dimensionaler affiner Raum in Richtung U . H sei eine Hyperebene in Richtung
W =< e1 , e2 , . . . , en−1 > mit der ON–Basis B = (e1 , e2 , . . . , en−1 ):
H = {x|x = p + λ1 e1 + . . . + λn−1 en−1 }
34
{e1 , . . . , en−1 } kann zu einer ON–Basis von U ergänzt werden (Satz über die orthogonale Zerlegung):
U =< e1 , e2 , . . . , en−1 , n0 >
n0 ist also ein normierter Vektor, der auf alle Vektoren aus W orthogonal steht. Dann gilt für
jeden Punkt X ∈ H:
< x − p, n0 >=< λ1 e1 + . . . + λn en , n0 >= λ1 < e1 , n0 > + . . . + λn−1 < en−1 , no >= 0
Damit ist n0 ⊥ x − p ∀x ∈ H und ebenso gilt: n ⊥ x − p ∀x ∈ H für n := k · n0 mit k ∈ K.
n heißt daher Normalvektor der Hyperebene H.
Jeder Punkt x ∈ H erfüllt < x − p, n0 >= 0. Ist umgekehrt x ∈ A mit < x − p, n0 >= 0 ⇒
x − p = λ1 e1 + . . . λn−1 en−1 + λn n0 und < x − p, n0 >= 0 ergibt:
< λ1 e1 + λn−1 en−1 + λn n0 , n0 >= 0 ⇒
λ1 < e1 , n0 > + . . . + λn−1 < en−1 , n0 > +λn < n0 , n0 >= 0 ⇒ λn = 0 ⇒ x − p = λ1 e1 + . . . +
| {z }
| {z }
| {z }
0
0
1
λn−1 en−1 ⇒ x = p + λ1 e1 + . . . + λn−1 en−1 ⇒ x ∈ H.
Die Hyperebene H durch den Punkt P (p) in Richtung W ist also die Menge aller Punkte X(x)
mit
< x − p, n0 >= 0 ⇔< x, n0 >=< p, n0 >=: c
oder auch
< x − p, n >= 0 ⇔< x, n >=< p, n > .
wobei n ∈ W ⊥ .
Insbesondere gilt auch für den Einheitsvektor n0 von n:
< x − p, n0 >= 0 ⇔< x, n0 >=< p, n0 >
Diese Darstellung von H heißt HESSEsche Normalvektorform von H. (O.L. HESSE, 1811–
1874).
Ihre Bedeutung liegt, so wie im anschaulichen Raum V 2 bzw. V 3 (siehe Kapitel ??) darin, daß
man den Abstand eines Punktes von einer Hyperebene leicht berechnen kann.
Definition 15.2 Abstand eines Punktes von einer Punktmenge
A sei ein affiner Raum, M ⊂ A und Y (y) ∈ A.
35
Unter dem Abstand d(Y, M) des Punktes Y von der Menge M versteht man das Infimum der
Abstände d(Y, X) mit X(x) ∈ M .
d(Y, M ) := inf {d(Y, X)|X ∈ M } = inf {kx − yk/X ∈ M }
Ist M ein affiner Teilraum, dann gibt es stets ein F (f ) ∈ M mit minimalem kf − yk.
F heißt der zu Y gehörige Fußpunkt.
Nach dem Satz über die beste Approximation gilt für eine Hyperebene H in Richtung W durch
P:
ky − f k minimal ⇔ k(y − p) − (f − p)k minimal ⇔ (y − p) − (f − p) = y − f ∈ W ⊥ =< n0 >
⇔ y − p = (1 − p) + (y − f ) ⇔ y − f = projn0 (y − p) =< y − p, n0 > n0
| {z } | {z }
∈W
∈W ⊥
⇒ ky − f k =< y − p, n0 > kn0 k
| {z }
1
Das heißt: Man erhält den Abstand eines Punktes Y von einer Hyperebene H durch
P und dem Normalvektor n, wenn man in der Hesseschen Normalvektorform von
H :< x − p, n0 >= 0 für x den Punkt y einsetzt: d(Y, H) =< y − p, no >.
Die Gerade l durch Y mit dem Richtungsvektor n heißt Lot auf H durch Y. Der Durchschnitt
des Lotes mit der Hyperebene enthält genau einen Punkt F , genannt der Fußpunkt des Lotes:
{F } = l ∩ H.
Es gilt: d(Y, F) = |d(Y, H)|
Der Fußpunkt ist also jener eindeutig bestimmte Punkt, für den der Abstand angenommen wird.
Für den Ortsvektor f von F gilt auch: f = y− < y − p, n0 > n0 .
Vergleiche noch einmal Kapitel 3. Beachte, daß jetzt die Punkte auch Funktionen, Polynome,
Matrizen u.ä. sein können!
Der Abstand d(P, Q) = kp − qk zwischen zwei Punkten P und Q kann wegen (N1) nur positiv
sein. Der Abstand d(Y, H) eines Punktes Y von einer Hyperebene H kann wegen d(Y, H) =<
y − p, n0 > aber auch negativ sein. Damit zerlegt die Hyperebene H den affinen Raum A in 2
Halbräume:
A+ := {Y |d(Y, H) > 0} heißt positiver Halbraum von A bezüglich H
A− := {Y |d(Y, H) < 0} heißt negativer Halbraum von A bezüglich H
Nach Satz 14.13 kann eine Hyperebene als (n−1)−dimensionaler Unterraum des n−dimensionalen
affinen Raumes A nach Einführung eines Koordinatensystems durch eine inhomogene, lineare
36
Gleichung in n Variablen über K dargestellt werden. (Koordinatenform der HESSEschen
Normalvektorform von H). Wählt man insbesondere ein kartesisches Koordinatensystem aus,
kann man die Koeffizienten der n Variablen geometrisch schön deuten:
S = (O, E1 , . . . , En ) sei ein kartesisches Koordinatensystem von A mit Richtung U .
X ∈ H und P ∈ H haben die kartesischen Koordinaten
[X]S = (x1 , . . . , xn ), [P ]S = (p1 , . . . , pn ) und der Normalvektor n0 von H habe die Koordinaten
[n0 ]SU = (n1 , n2 , . . . , nn ).
Bekanntlich läßt sich das Skalarprodukt bezüglich ON–Basen als Standardskalarprodukt schreiben.
< x, y >= [y]∗ [x]
Damit gilt für die HESSEsche Normalvektorform:
0 =< x − p, n0 >= [n0 ]t · [x − p] = [n0 ]t · [x]t − [n0 ]t [p]
| {z }
=:c
Also: [n0 ]t · [x] = c ⇔ n1 x1 + . . . + nn xn = c
Die Koeffizienten von x1 , . . . , xn in der Koordinatendarstellung der HESSEschen
Normalvektorform einer Hyperebene H bezüglich eines kartesischen Koordinatensystems geben die Koordinaten des Normalvektors von H an.
Zusammenfassung:
Satz 15.1 HESSEsche Normalvektorform einer Hyperebene
(V, <>) sei ein Skalarproduktraum. H = p+W sei eine Hyperebene des n−dimensionalen affinen
Raumes A mit Richtung U ⊆ V , Y (y) ∈ A ein beliebiger Punkt.
(i) Ein Normalvektor n von H ist ein Element aus W ⊥ =< n >.
(ii) H = {x ∈ A| < x − p, n >= 0}.
Bezeichnet n0 den Einheitsvektor von n, dann heißt
< x − p, n0 >= 0
die HESSEsche Normalvektorform von H.
(iii) d(Y, H) =< y − p, n0 > gibt den Abstand des Punktes Y von H an.
37
(iv) Bezüglich eines kartesischen Koordinatensystems S läßt sich H durch eine i.a. inhomogene
lineare Gleichung der Form
n1 x1 + . . . + nn xn = c
darstellen, wobei (n1 , n2 , . . . , nn ) die Koordinaten eines Normalvektors von H bezüglich SU
sind. Für c gilt: c = [n]t [p].
(v) Die Hyperebene H teilt den affinen Raum in 2 Halbräume:
positiver Halbraum A+ = {X|d(X, H) > 0} = {(x1 , . . . , xn )|n1 x1 + . . . + nn xn > c}.
negativer Halbraum A− = {X|d(X, H) < 0} = {(x1 , . . . , xn )|n1 x1 + . . . + nn xn < c}.
Beispiel: Im (R4 , <>St ) ist die Hyperebene H gegeben durch
0
1
1
0
1
1
0
0
1
0
1
1
0
1
1
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B 0 C
B 0 C
B 1 C
B −1 C
B 2 C
C + λ1 B
C + λ2 B
C + λ3 B
C;Y = B
C
H =~
x=B
B
C
B
C
B
C
B
C
B
C
B 2 C
B 0 C
B 1 C
B 1 C
B −2 C
@
A
@
A
@
A
@
A
@
A
1
1
0
−1
1
Bezüglich des Standardkoordinatensystems erhält man durch Elimination oder durch Bestimmung des Orthogonals (mittels NullSpace) die Koordinatengleichung:
H : x1 + x2 − x3 − x4 = −2
(1, 1, −1, −1)t ist ein Normalvektor von H.
HESSEsche Normalvektorform:
x1 + x2 − x3 − x4 + 2 = 0
d(Y, H) =
1+2+2−1+2
2
=3
IR4,+ : x1 + x2 − x3 − x4 > −2
IR4,− : x1 + x2 − x3 − x4 < −2
15.2 Volumina von Simplices und Spaten
Soll eine Zahl µ den Inhalt einer k−dimensionalen Figur messen, so stellt man an diese Zahl
folgende “natürliche” Forderungen (Maßeigenschaften einer Figur):
1. Translationsinvarianz: Der Inhalt µ einer Figur soll sich nicht ändern, wenn die Figur
verschoben wird:
Ist M 0 = M + v ⇒ µ(M 0 ) = µ(M )
38
2. Additivitität: Sind M1 , M2 zwei disjunkte Mengen, so gilt:
µ(M1 ∪ Ms ) = µ(M1 ) + µ(M2 )
3. Streckung: Ist X0 eine beliebige Ecke und X0~Xi eine beliebige von X0 ausgehende Kante
von M und wird Xi ersetzt durch X1 = X0 +λX0~Xi , während die anderen Kanten erhalten
bleiben, so gilt für die so in einer Richtung gestreckte Punktmenge Mλ : µ(Mλ ) = µ(M ).
4. Ausartung: Besitzt M statt k + 1 nur k l.u. Punkte, so ist µ(M ) = 0. (Der Inhalt ein und
derselben Figur ändert sich, wenn man zu einer anderen Dimension des Inhalts übergeht.)
So hat eine Strecke der Länge 3 den 1−dimensionalen Inhalt (= Länge) 3, jedoch den
2−dimensionalen Inhalt (= Flächeninhalt) 0.
5. Normierung: Für den k−dimensionalen Einheitswürfel M0 gilt µ(M0 ) = 1
In der Analysis wird gezeigt, daß man durch das bestimmte Integral vielen Punktmengen so eine
Zahl als Maß zuordnen kann. Genauso, wie man aber im Rn (n > 3) nicht jeder Punktemenge eine
Zahl so zuordnen kann, daß 1)–5) gilt, kann man auch in Vektorräumen nicht jede Punktmenge
“messen”, es gelingt dies nur für k−Spate und k−Simplexe. Die Translationsinvarianz erreicht
man dadurch, daß man das Volumen des k−Spates durch die k Kantenvektoren X0~Xi definiert,
denn:
Es gelte: Xi = X0 + X0~Xi (i = 1, . . . , k).
Durch eine Translation v ergeben sich die Punkte X0∗ = X0 + v und Xi∗ = Xi + v mit Xi∗ =
X0∗ + X0∗~Xi∗ = X0∗ + (X0~X0 ) +X0~Xi∗ + (Xi~Xi∗ ) = X0∗ + X0~Xi also ist
| {z }
| {z }
−v
v
X0~Xi = X0∗~Xi∗
Wir werden also jedem Spat SP (X0 , . . . , Xk ) ein Element µ(Sp) ∈ K, genannt k−dimensionales
“Volumen” V, abhängig von den Kantenvektoren ui := X0~Xi zuordnen:
SP (X0 , . . . , Xk ) → µ(u~1 , . . . , u~k ) ∈ K
Die Maßeigenschaften
→, u~ , . . . , u~
1. durch c) erhalten wir aus der Forderung der Multilinearität an µ in −
u
1 2
t
2. durch die Forderung bzw. Festsetzung µ(u~1 , . . . , u~t ) = 0 für ~u, . . . , u~t l.a.
39
3. erhalten wir durch die Forderung µ(e~1 , . . . , e~k ) = 1 wobei e~1 , . . . , e~k eine ON–Basis des
dem affinen Unterraum zugehörigen Vektorraumes U ist.
Diese Forderungen stimmen mit den Eigenschaften D1, D2, D3 einer Determinante überein,
daher gilt nach Satz 13.1:
Satz 15.2 Volumsformel
B sei ein k−dimensionaler Unterraum eines affinen Raumes A.
X0 , X1 , . . . , Xk seien k + 1 l.u. Punkte und {b1 , b2 , . . . , bk } eine Basis der Richtung von B.
P
X0˜Xi =: ui = kj=1 uij bj . Die vij sind also die Komponenten der von einem Punkt x0 ausgehenden Kantenvektoren eines Spates. Dann gilt:
(i) Das Volumen V des k−Spates Sp(X0 , X1 , . . . , Xk ) bezüglich der Basis {bi } ist gegeben
durch die Determinanten der Koordinaten der Kantenvektoren:
u11 . . . u1k .
V = ..
uk1 . . . ukk (ii) Das Volumen µ des k−Simplex Si(X0 , X1 , . . . , Xk ) bezüglich der Basis {bi } ist gegeben
durch den k!−Teil der Determinante der Koordinaten der Kantenvektoren:
u11 . . . u1k 1 .
V = ..
k! uk1 . . . ukk Bemerkung: Der k−Spat kann in k! volumsgleiche k−Simplexe zerlegt werden: Das Parallelogramm (k = 2) in k! = 2! = 2 flächengleiche Teildreiecke, das Parallelogramm in k! = 3! = 6
volumsgleiche Tetraeder.
Bemerkung:
Das 1−dimensionale Volumen heißt auch Länge,
Das 2−dimensionale Volumen heißt auch Fläche.
40
16 Lineare Optimierung
Es werden die geometrischen Begriffsbildungen in abstrakten Vektorräumen (meistens ist es der
IRn , n auch sehr groß) auf Optimierungsfragen angewendet.
Bei einer Vielzahl wirtschaftlicher Entscheidungen steht das Optimieren bestimmter Größen im
Vordergrund.
Zu den Größen, bei denen ein Maximum angestrebt wird, gehören: Gewinn, Umsatz, Fertigungsmengen, Lebensdauer eines Produktes (mit Einschränkungen), Zahl der belieferten Kunden.
Zu den Größen, bei denen ein Minimum angestrebt wird, gehören: Kosten, Preis, Abfallmenge,
Transportwege, Energieverbrauch, Zahl der wartenden Kunden.
In dem folgenden Beispiel wird bewußt ein kleiner Ausschnitt aus der ökonomischen Wirklichkeit
gewählt. Auch bei zukünftigen Beispielen wird in dieser Einführung zur Wahrung der Übersicht
im Unterschied zur Praxis eine Reihe von Aspekten unberücksichtigt bleiben, um die Beispiele
“von Hand” berechenbar zu machen.
Man kann nun bestimmten ökonomischen Vorgängen unter Vernachlässigung unwesentlicher
Sachverhalte ein vereinfachtes mathematisches System zuordnen. Ein solches in der Linearen
Optimierung angewandtes System von Gleichungen und Ungleichungen heißt Modell, den Vorgang des Aufstellens der Gleichungen und Ungleichungen nennt man Modellieren.
16.1 Geometrische Lösung
Um den Sachverhalt in der Zeichenebene veranschaulichen zu können, erfolgt eine Beschränkung
auf n = 2.
Beispiel: Maximumproblem im IR2 (aus KÖHLER, Lineare Algebra)
In einem chemischen Betrieb werden aus drei Rohstoffen Ri (i = 1, 2, 3) zwei Fertigprodukte
Pk (k = 1, 2) hergestellt. In der Tabelle der Abbildung 1 sind für beide Produkte die Rohstoffanteile je Einheit der Fertigprodukte angebeben.
41
Rohstoffe/Fertigprodukte
P1 (ME)
P2 (ME)
R1
1,5
3,0
R2
2,5
2,0
R3
0
1
Abbildung 1: Materialverbrauchsnormen für die Produkte P1 und P2
Außerdem betragen die pro Zeiteinheit (ZE) verfügbaren Rohstoffmengen für R1 210 ME, für
R2 200 ME und für R3 60 ME. Der Stückgewinn beträgt bei P1 3 DM und bei P2 4 DM.
Aufgabe
a) Bei welcher Stückzahl von P1 bzw. P2 ist der Gewinn maximal?
b) Wie hoch ist der maximale Gewinn?
Lösung: Für gesuchte Größen werden Variable eingesetzt.
Die pro ZE hergestellten Stückzahlen von P1 sei x1 , die von P2 sei x2 .
Die Tabelle in Abbildung 2 wird um die Spalte V der verfügbaren Rohstoffmenge und um die
Zeile G der Stückgewinne ergänzt zu Abbildung 2.
Verfügbare Mengen
Rohstoffe/Fertigprodukte
P1 (ME)
P2 (ME)
V (ME)
R1
1,5
3,0
210
R2
2,5
2,0
200
R3
0
1
60
Gewinn G
3
4
Abbildung 2: Erweiterung von Abb. 1 um die Kapazitätsbeschränkungen
Da für 1 ME P1 1,5 ME des Rohstoffes R1 und für 1 ME des Produktes P2 3 ME des Rohstoffes R1
benötigt werden, sind für x1 ME des Produktes P1 und x2 ME des Produktes P2 1,5 x1 +3x2 ME
des Rohstoffes R1 erforderlich (das ist wieder die vereinfachende Proportionalitätsannahme).
Da jedoch in der Zeiteinheit nur 210 ME des Rohstoffes R1 zur Verfügung stehen, gilt die
Relation
1, 5x + 3x2 ≤ 210
(8)
Entsprechend erhält man für die beiden übrigen Rohstoffmengen
2, 5x1 + 2x2 ≤ 200
x2 ≤
60
(9)
42
Die Ungleichungen (8) und (9) nennt man einschränkende Bedingungen (Restriktionen).
Außerdem dürfen die Stückzahlen nicht negativ sein:
x1 ≥ 0
(10)
x2 ≥ 0
Die Ungleichung (10) stellt die sog. Nichtnegativitätsbedingung dar.
Da der Gewinn je ME des Produktes P1 3 DM, für x1 ME des Produktes P1 somit 3x1 beträgt
und der Gewinn je ME des Produktes P2 4 DM, für x2 ME des Produktes P2 somit 4x2 beträgt
(wieder die Proportionalitätsannahme), lautet die Funktionsgleichung für den Gesamtgewinn
G = 3x1 + 4x2
(11)
Die Gleichung (11) heißt Zielfunktion des Optimierungsproblems oder im hier vorliegenden
Fall Gewinnfunktion. Zusammenfassend ergibt sich damit für Beispiel (12) folgendes mathematische Modell.
1. Restriktionen
1, 5x1 + 3x2 ≤ 210
2, 5x1 + 2x2 ≤ 200
x2 ≤
(12)
60
2. Zielfunktion
G = 3x1 + 4x2 → max
(13)
3. Nichtnegativitätsbedingung
x1 ≥ 0
(14)
x2 ≥ 0
Die Restriktionen (12) werden nun in einem zweidimensionalen Koordinatensystem dargestellt.
Jede Ungleichung charakterisiert eine Halbebene. Die Schnittmenge der drei Halbebenen ist zu
ermitteln. Um die Halbebenen darzustellen, löst man die drei Ungleichungen nach x2 auf und
zeichnet die drei Berandungsgeraden, indem man die dazugehörigen Gleichungen betrachtet.
Anschließend kennzeichnet man die jeweiligen Halbebenen durch Schraffur.
Da außerdem die Nichtnegativitätsbedingungen (14) gelten, kann die gesuchte Punktemenge,
d.h. der Bereich, in dem die möglichen Kombinationen der Stückzahlen x1 und x2 liegen, nur
43
Abbildung 3
im ersten Quadranten sein. Die Schnittmenge der durch die Ungleichungen (12) und (14) dargestellten Punktmenge wird in Abbildung 3 geometrisch veranschaulicht. Diejenige Punktmenge,
die den Restriktionen und der Nichtnegativitätsbedingungen genügt, wird als zulässiger Bereich bezeichnet. Denkbar als mögliche Stückzahlen, die die Restriktionen und die Nichtnegativitätsbedingung erfüllen, wären z.B.
Q1 (20, 30) und Q2 (30, 40)
Geht man von dem Unternehmensziel der Gewinnmaximierung aus, dann sind somit diejenigen
Stückzahlen x1 und x2 zu bestimmen, für die der Gewinn maximal wird.
Dazu betrachtet man zunächst alle Kombinationen der Stückzahlen, bei denen der Gewinn
konstant ist. Bei konstantem G stellt Gleichung (13) eine Gerade un R2 dar.
Die Steigung dieser Geraden ermittelt man, indem man die Gleichung (13) nach x2 auflöst.
G
3
x2 = − x1 +
4
4
(15)
Auf der Geraden mit der Gleichung (15) liegen alle Punkte, die als Mengenkombination der
Stückzahlen x1 und x2 interpretiert, den gleichen Gewinn ergeben.
Mengenkombinationen bei gleichem Gewinn
44
Abbildung 4
Ist G = 40, so erhält man auf (15) etwa folgende Kombinationen der Stückzahlen:
x1 = 4, x2 = 7 bzw. x1 = 8, x2 = 4.
Die Gerade mit der Gleichung (15) heißt deshalb auch Isogewinngerade. Da alle Isogewinngeraden die gleiche Steigung besitzen, verlaufen sie parallel zueinander. Der Ordinatenabschnitt
der Geraden ist
G
4.
Der Gewinn wird somit um so höher, je größer
G
4
ist.
Die Isogewinngerade muß also möglichst weit vom Ursprung weg parallel verschoben werden,
jedoch so, daß sie mit dem schraffierten Bereich noch mindestens einen Punkt gemeinsam hat.
Für G = 100(200, 300, 360) lauten die Isogewinngeraden
x2 = − 34 x1 + 25
x2 = − 34 x1 + 50
x2 = − 34 x1 + 75
x2 = − 34 x1 + 90
Diese Isogewinngeraden sind in Abbildung 4 eingezeichnet.
Die optimale Mengenkombination liegt im Punkt B(40, 50), d.h. bei Erzielung des maximalen
Gewinns müssen vom Produkt P1 40 Stück und vom Produkt P 2 50 Stück hergestellt werden.
45
Die genauen Werte für die Stückzahlen erhält man durch Bestimmung des Schnittpunktes der
entsprechenden Geraden.
Den maximalen Gewinn ermittelt man, indem man die Stückzahlen x1 = 40 ME und x2 = 50
ME in Gleichung (13) einsetzt. Es ist Gmax = 3 [GE/ME]·40 ME +4 [GE/ME]·50 ME = 320
GE.
Da die Gerade mit
G
4
= 85 bzw. G = 340 keinen Punkt mit dem zulässigen Bereich gemeinsam
hat, scheiden die auf ihr liegenden Punkte für die Mengenkombination aus.
Beispiel: Minimumproblem im R2
Für ein Stück Vieh seien folgende Mindestnahrungsrationen verbindlich:
3 Einheiten des Nährstoffes A
6 Einheiten des Nährstoffes B
2 Einheiten des Nährstoffes C
Zur Verfügung stehen zwei Futtersorten S1 und S2 . In 1 ME der Sorte S1 ist ME des Nährstoffes
A und 1 ME des Nährstoffes B enthalten. In 1 ME der Sorte S2 ist 0,5 ME des Nährstoffes A, 2
ME des Nährstoffes B und 2 ME des Nährstoffes C enthalten. Die Kosten betragen für die Sorte
S1 2,5 GE/ME und für die Sorte S2 3 GE/ME.
Aufgabe
(a) Wie muß das Futter gemischt werden, damit die angegebenen Nährstoffe darin enthalten
sind und die Gesamtkosten minimal werden?
b) Wie hoch sind die minimalen Kosten?
Lösung
Die Angaben werden in der Tabelle der Abbildung 5 übersichtlich dargestellt.
Nährstoff/Futtersorte
S1
S2
Mindestmengen in ME
A
1
0,5
3
B
1
2
6
C
0
2
2
Kosten
2,5 3
Abbildung 5: Zusammensetzung der beiden Futtersorten
Es werden x1 ME der Sorten S1 mit x2 ME der Sorten S2 gemischt.
Aus der Abbildung 5 entnimmt man folgendes mathematisches Modell:
46
Abbildung 6: Isokostengeraden
1. Restriktionen
x1 + 0, 5 ≥ 3
x1 + 2x2 ≥ 6
(16)
2x2 ≥ 2
2. Zielfunktion
K = 2, 5x1 + 3x2 → min
(17)
3. Nichtnegativitätsbedingung
x1 ≥ 0
(18)
x2 ≥ 0
Die durch die Ungleichungen (16) und (18) dargestellten Halbebenen werden in einem zweidimensionalen Koordinatensystem geometrisch veranschaulicht.
Die Schnittmenge der entsprechenden Halbebenen ist nicht beschränkt. Der Graph der Zielfunktion stellt bei konstantem K eine Gerade dar, die Isokostengerade.
Alle Isokostengeraden besitzen die gleiche Steigung. Man erhält die Steigung aller paralleler
Isokostengeraden, indem man Gleichung (17) nach x2 auflöst.
x2 − 2,5
3 x1 +
K
3
= − 56 x1 +
K
3
(19)
47
Die Steigung aller Isokostengeraden beträgt m = − 56 . In Abbildung 6 sind vier Isokostengeraden
dargestellt.
(K = 3, K = 6, K = 11, K = 15)
Eine optimale (minimale) Lösung ergibt sich für diejenigen Wertepaare (x1 , x2 ) der Punkte, die
auf einer Isokostengeraden liegen, deren Ordinatenabschnitt minimal ist. Die Isokostengerade
muß somit parallel verschoben werden, und zwar möglichst dicht an den Ursprung heran, jedoch
so, daß sie noch mindestens einen Punkt mit dem zulässigen Bereich gemeinsam hat. Der Punkt
B(2,2) gibt das Optimum an. Auf der Isokostengeraden mit K=3 bzw. K=6 liegt kein Punkt des
zulässigen Bereiches.
Antwort auf
a) Von Sorte S1 und S2 sind je 2 ME zu mischen.
b) Minimale Kosten: K=2,5 [GE/ME]· 2ME+3[GE/ME]· 2ME=11GE
Man sieht schon an diesen beiden Beispielen, wie geometrische Grundbegriffe und Vorstellungen
benützt werden (zulässige Bereiche, Halbebenen, beschränkt und nicht beschränkt, Schnittmengen). Unsere Verallgemeinerungen gestatten es, dasselbe Verfahren auch in höher–dimensionalen
Vektorräumen anzuwenden.
48
16.2 Geometrische Eigenschaften der zulässigen Menge Z
Restriktionen in Ungleichungsform können durch Einführung von Schlupfvariablen auf Gleichungsform gebracht werden. Man erhält so i.a. m Gleichungen in n Unbekannten. Durch Weglassen von überflüssigen (= l.a.) Gleichungen kann man erreichen, daß die Koeffizientenmatrix
dieses LGS vollen Zeilenrang hat.
Standardproblem der linearen Optimierung
K sei ein geordneter Körper. Gegeben seien eine (m × n)−Matrix A ∈ K m·n mit
Rg(A) = m, ein Vektor ~b ∈ K m mit ~b ≥ ~0. Mit dem Vektor ~lt = (l1 , l2 , . . . , ln ) ∈ K n werde die
lineare Funktion (Linearform) L : K n → K mit
L(~x) := ~lt ~x =
n
X
li xi
i=1
gebildet. L(~x) heißt Zielfunktion.
Gesucht ist das Minimum Lmin der Zielfunktion L : K n → K auf der zulässigen Menge
n
o
Z := ~x|A~x = ~b und ~x ≥ 0
und jene Stellen ~x ∈ Z, an denen dieses Minimum angenommen wird, d.h., die Teilmenge
Mmin := {~x|~x ∈ Z und L(~x) = Lmin } ⊂ Z
der zulässigen Minimalpunkte von Z.
Das Problem ist lösbar, wenn Mmin 6= 0.
Will man unter den gleichen Bedingungen das Maximum Lmax von L bestimmen, dann ist dies
gleichwertig mit der Bestimmung des Minimums von −L :
Lmax = (−L)min
~b ≥ 0 kann durch eventuelle Multiplikation mit (−1) stets erreicht werden.
Z ist eine konvexe Teilmenge des K n . Ist Z 6= ∅, dann besitzt Z auch Ecken, aber es sind
höchstens endlich viele. Das soll die Hauptaussage der folgenden Überlegungen sein. Dazu schrei-
49
ben wir das LGS A~x = ~b folgend um: ~x = (x1 , x2 , . . . , xn ) ∈ K n , A ∈ K m·n .

a11


 a21
~
A~x = b ⇔ x1 · 
 ..
 .

am1
| {z
s~1


a1n




 a

 + . . . + xn ·  2n
 ..

 .



amn
}
| {z
s~n


 
 
 
=
 
 
 
b1



b2 
~

..  ⇔ x1 · s~1 + . . . + xn · s~n = b

. 
bm
}
also A = (s~1 , s~2 , . . . , s~n ).
Der i−te Spaltenvektor s~i von A heißt der zur i−ten Koordinate xi von x̃ gehörige Spaltenvektor.
Ein zulässiger Punkt ~x ∈ Z hat wegen ~x ≥ 0 keine negativen Koordinaten. Die Ecken in Z kann
man folgend charakterisieren:
Satz 16.1 Charakterisierung von Ecken
Ein Punkt ~x ∈ Z ist genau dann eine Ecke von Z, wenn die zu den positiven (> 0) Koordinaten
gehörigen Spaltenvektoren von A l.u. sind.
Beweis:
1. ⇒: Sei ~c eine Ecke von Z = {~x|A~x = ~b ∧ ~x ≥ 0}. Die Anzahl der positiven Koordinaten
von ~c sei p.
1. Fall: p = 0, d.h., alle Koordinaten sind 0 ⇒ ~c = ~0 (also ~b = ~0). Die Menge der
zugehörigen Spaltenvektoren ist leer, eine leere Menge ist definitionsgemäß l.u.
2. Fall: p > 0. Durch Umnumerierung kann man erreichen, daß die ersten p Koordinaten
von ~c positiv sind, die Spaltenvektoren von A werden gleichartig umgeordnet:
~c = (c1 , c2 , . . . , cp , 0, . . . , 0), A = (s~1 , . . . , s~p , sp+1
~ , . . . , s~n )
~b = A~c = (s~1 , . . . s~p , . . . s~n ) · (c1 , . . . , cp , 0, . . . , 0)t = c1 s~1 + . . . + cp s~p = Pp ci s~i
i=1
Angenommen, {s~1 , . . . , s~p } wären l.a. ⇒ ∃λ1 , . . . , λp , nicht alle 0 mit
Pp
Pp
~i = ~0 ⇒
si = ~b∀δ ∈ K, d.h. die Punkte x~1 und x~2 mit
i=1 λi s
i=1 (ci s~p + δλi )~
50
geeignetem δ0 > 0 (so daß c1 − δ0 λ1 > 9).



c
+
δ
λ
0 1 
 c1 − δ0 λ1
 1



..
..



.
.






 cp + δ0 λp 
 cp − δ0 λp

 ~

x~1 = 
 > 0 und x~2 = 



0
0






.
..



..
.






0
0
sind verschiedene Elemente von Z und ~c =
1
~1
2x







 ~
>0






+ 12 x~2 , d.h., ~c ist keine Ecke im
Widerspruch zur Annahme.
Die zu positiven Koordinaten von Ecken gehörigen Spaltenvektoren müssen l.u. sein.
2. ⇐: Sei ~x ∈ Z mit p positiven Koordinaten, o.B.d.A. sei ~x = (x1 , x2 , . . . , xp , 0, . . . , 0) und
{s~1 , . . . , s~p } l.u. Spaltenvektoren von A.
1. Fall: p = 0 ⇒ ~x = ~0. Wäre ~x keine Ecke ⇒ ~x ist echte Konvexkombination von zwei
verschiedenen x~1 , x~2 ∈ Z :
~x = λ1 x~1 + λ2 x~2 mit λ1 , λ2 > 0, λ1 + λ2 = 1
Wegen x~1 ≥ 0, x~2 ≥ 0 folgt, daß x~1 = ~0, x~2 = ~0, Widerspruch.
2. Fall: p > 0. Wäre ~x keine Ecke ⇒ ~x = λ1~a + λ2~c mit
λ1 , λ2 > 0, λ1 + λ2 = 1, ~a, ~c ≥ 0 und ~a 6= ~c, also






a
c
x
 1 
 1 
 1 
 . 
 . 
 . 
.
.
 .. 
 . 
 . 













 xp  = λ1  ap 
+λ2 

 cp 











 0  ≥0  a
≥0 
 cp+1 
 p+1 


 . 
 . 
 . 
 . 
 . 
 . 
 . 
 . 
 . 






cn
an
0
≥0
⇒
ap+1 = . . . = an = 0 und
cp+1 = . . . = cn = 0
≥0
Wegen A · ~a = ~b und A · ~c = ~c gilt auch A · (~a − ~c) = ~0, also wegen
A = (s~1 , . . . , s~p , . . . , s~n ):
(a1 − c1 ) · s~1 + . . . + (ap − cp ) · s~p + 0 · sp+1
~ + . . . + 0 · s~n = ~0.
51
Nun sind s~1 , . . . , s~p l.u. ⇒ a1 − c1 = 0, . . . , ap − cp = 0 ⇒ a1 = c1 , . . . , ap = cp ⇒ ~a = ~b
(Widerspruch).
Daher ist ~x eine Ecke, wenn die zu positiven Koordinaten gehörigen Spaltenvektoren
l.u. sind.
Beim Standardproblem ist Rg(A) = m = dim < s~1 , . . . , s~n >, d.h., m ist auch die Maximalanzahl
l.u. Spaltenvektoren von A. Daher gilt:
Bemerkung:
Unter den Voraussetzungen des Standardproblems (insbesondere Rg(A) = m und ~b ≥ 0) hat
jede Ecke der zulässigen Menge Z höchstens m positive Koordinaten. Damit kann man definieren:
Definition 16.1 Entartete und nichtentartete Ecken
(i) Eine Ecke der zulässigen Menge Z heißt entartet, wenn sie weniger als m positive
Koordinaten besitzt.
(ii) Eine Ecke der zulässigen Menge Z heißt nicht entartet, wenn sie genau m positive
Koordinaten besitzt. Dabei ist m = Rg(A).
Beispiel 1:

2 −1 1 0 0


A =  1 −1 0 1 0

1
1 0 0 1


2


 
 ~  
,b =  2 

 
5
P sei das Bild der zulässigen Menge von


 
2 −1



  2   1 −1  x1
  x1

·
≥ ~0,
2 ,

 x2 ≤ 
  x2
 1
1 


5
1
1
nicht aber die zulässige Menge Z von A~x = ~b, ~x ≥ 0. Diese ist eine Teilmenge vom K 5 , wegen
rg(A) = 3 und n − Rg(A) = 5 − 3 = 2 ist Z aber in einer affinen Ebene ε vom K 5 enthalten.
52
Eine Parameterdarstellung von ε ist z.B. gegeben durch






7
−1
−1



 2 




 3 

 1 
 2 
 −1 












ε : ~x =  − 72  + λ1  1  + λ2  3 












 2 
 0 
 0 






0
2
0
λ1 = 1, λ2 = 1 liefert ~xt =
3 3 1
2 , 2 , 2 , 2, 2
∈ ZZ aber die zugehörigen Spaltenvektoren
{s~1 , s~2 , s~3 , s~4 , s~5 } sind l.a., also ist ~x keine Ecke von Z.
λ1 = 3, λ2 = 5 liefert ~x = (− 92 , . . .) 6∈ Z.
Wie kann man Z beschreiben? Z ist ja nur eine konvexe Teilmenge von ε !
Wie erhält man die Ecken von Z?
Wegen Rg(A) = 3 und n = 2 hat man 2 freie Variable, wir nehmen dafür die Nicht–Schlupf–
Variablen. Jeder Punkt
(x1 |x2 ) ∈ P (die Koordinaten sind also gerade die Nicht-Schlupfvariablen) liefert mit den
Parametern t1 := x1 , t2 := x2 einen Punkt (x1 , x2 , . . . , x5 )t ∈ Z, nämlich

x1 = t1
x2 = t2
(∗) x3 = 2 − 2t1 + t2
x4 = 2 − t1 + t2
x5 = 5 − t1 − t2
0


1


0
 



 



 0 
 0 
 1
 



 



⇔ Z : ~x =  2  + t1  −2  + t2  1
 



 



 2 
 −1 
 1
 



5
1
−1






 , (t1 , t2 ) ∈ P




z.B.: Für (t1 , t2 ) = (1, 1) ∈ P erhält man
~x = (1, 1, 1, 2, 3) ≥ 0 und A~x = ~b, also ~x ∈ Z.
Wegen Satz 16.2 ist aber ~x auch keine Ecke von Z.
Die Ecken von Z erhält man, wenn man für die Parameter (t1 , t2 ) gerade die Ecken
des “Parameterpolygons” P wählt.
Die Ecken von P erhält man durch alle möglichen Schnitte der das Polynom P begrenzenden
Geraden (= Hyperebenen im K 2 ):
53
Polygonecken:
(0, 0),
↓

Ecken von Z :
p~1 =
0
( 73 , 83 ),
(1, 0),
↓

 
 
 0 
 
 
 2 
 
 
 2 
 
5

p~2 =
1
(0, 5)
↓


 
 
 0 
 
 
 0 
 
 
 1 
 
4
7
3
↓



 8 
 3 




 0 


 7 
 3 


0
p~3 =
↓
↓
↓
Test auf Ecken:
{s2 , s4 , s5 },
{s1 , s4 , s5 },
{s1 , s2 , s3 },
(RowReduce)
ja
ja
ja

p~4 =
0

 
 
 5 
 
 
 7 
 
 
 7 
 
0
↓
{s2 , s3 , s4 } l.u. ?
ja
{p~1 , p~2 , p~3 , p~4 } sind nichtentartete Ecken von Z (wegen Rg(A) = 3).
Die Darstellung (*) zeigt, daß Z eine 2−parametrige Punkteschar enthält und beschränkt ist.
Wegen (t1 , t2 ) ∈ P , einem beschränkten Viereck, enthält Z nämlich keinen Strahl.
zu Beispiel 2:

1 −2 1 0


 −2

1
Polygonecken:
(1, 0),
p~1 =
1

↓
Test auf Ecken: {s1 , s3 , s4 },

(0, 1),
↓

p~2 =
2

 

 
0  , ~b =  2 

 
1 0 0 −1
1
(2, 0),

 
 
 0 
 
 
 1 
 
 
 4 
 
0
ja

1 0 1
↓

0
2
(0, 2)
↓

 
 
 0 
 
 
 0 
 
 
 6 
 
1

p~3 =
0
↓

 
 
 1 
 
 
 4 
 
 
 1 
 
0
↓
↓
{s1 , s4 , s5 },
{s2 , s3 , s4 },
ja
ja

p~4 =
0

 
 
 2 
 
 
 6 
 
 
 0 
 
1
↓
{s2 , s3 , s5 } l.u.?
ja
⇒ {p~1 , p~2 , p~3 , p~4 } sind nichtentartete Ecken von Z.
Beispiel 3:
A ∈ K m·n , Rg(A) = m ≥ 1, Z = {~x|A~x = ~0 und ~x ≥ 0}, Dann ist ~x = ~0 eine entartete
54
Ecke von Z. (~0 ist nicht Konvexkombination von nichtnegativen Zahlen, ~0 hat keine positiven
Koordinaten).
Um die Eckenanzahl in der zulässigen Mengen Z abschätzen zu können, benötigt man den Begriff
der “Basis einer Ecke p~ ∈ Z”.
Sei Rg(A) = m.
nichtentartet: ∃ genau m positive Koordinaten
⇒ die zugehörigen Spaltenvektoren
bilden eine Basis vom Spaltenraum
= Km
p~
entartet: ∃p < m positive Koordinaten
⇒ die p l.u. zugehörigen Spalten–
vektoren lassen sich (i.a. auf
mehrere Arten) zu einer Basis von
K m ergänzen
Definition 16.2 Basis einer Ecke
p~ sei eine Ecke der zulässigen Menge Z = {~x|A~x = ~b ≥ 0, ~x ≥ 0} mit Rg(A) = m.
Eine Basis Bp~ der Ecke p~ ist eine Menge von m l.u. Spaltenvektoren von A, welche die zu
positiven Koordinaten von p~ gehörigen Spaltenvektoren von A umfaßt. Die zu den Vektoren
einer Basis Bp~ gehörigen Unbekannten des LGS A~x = b heißen Basisvariable (BV) von ~x zur
Basis Bp~ , die übrigen Unbekannten heißen Nichtbasisvariable (NBV) von ~x.
Bemerkungen
1. Nach dem Basisergänzungssatz ist einer nichtentarteten Ecke eindeutig eine Basis vom K m
zugeordnet, einer entarteten Ecke dagegen mehrere.
2. Jede Basis einer Ecke ist auch eine Basis vom K m .
Es gilt nun der wichtige
Satz 16.2 Endlichkeit der Eckenanzahl
Die zulässige Menge Z = {~x ∈ K n |A~x = ~b ≥ 0 und ~x ≥ 0} mit Rg(A) = m besitzt mindestens
eine und höchstens endlich viele Ecken.
Beweis für die Existenz höchstens endlich vieler Ecken: Idee: Man zeigt, daß man jeder l.u.
Menge von m Spaltenvektoren von A höchstens eine (d.h. auch keine) Ecke zuordnen kann.
55
Damit gilt dann: Anzahl der Ecken ≤
n
m
, weil man aus n Elementen auf
n
m
Arten m Elemente
herausgreifen kann (es kommt auf die Reihenfolge nicht an).
Sei p~ ∈ Z eine Ecke ⇔ die zu positiven Koordinaten gehörigen Spaltenvektoren von A sind l.u.
Sei {s~k1 , s~k2 , . . . , s~km } eine Menge von m l.u. Spaltenvektoren von A. Dann hat das LGS
n
X
xk1 · s~k1 + . . . + xkm · s~km = ~b −
xki · s~ki
(20)
i=m+1
in den m Unbekannten xk1 , . . . , xkm für jede Wahl von xkm+1 , . . . , xkn , also auch für
xkm+1 = . . . = xkn = 0
eine eindeutige Lösung (Rg(s~k1 , . . . , s~km ) = m = ] Unbekannten).
Sei xk1 = l1 , . . . , xkm = lm .
Dann ist der Punkt p~ = (p1 , p2 , . . . , pn ) mit

 l
ki
pki =
 0
i = 1, . . . , m
i = m + 1, . . . , n
eine Lösung von A~x = ~b.
Sind alle lki ≥ 0, dann ist p~ eine Ecke von Z (denn die zu lki gehörigen Spaltenvektoren
s~k1 , . . . , s~km sind nach Voraussetzung l.u.). Ist aber mindestens ein lki < 0, dann ist p~ 6∈ Z.
Der Vorgang:
(i) Wähle aus den n Spaltenvektoren von A m l.u. aus
(ii) Löse damit das LGS (20)
liefert also höchstens eine Ecke.
Durch diesen Vorgang werden aber auch alle Ecken von Z erfaßt (unter Umständen hat man
nur zu viel gerechnet):
Sei p~ ∈ Z eine Ecke mit p ≤ m positiven Koordinaten xk1 , . . . , xkp (mehr als m kann es nach
Satz 16.2 nicht geben!). Dann sind die zugeordneten Spaltenvektoren von A: s~k1 , . . . , s~kp nach
Satz 16.1. Nach dem Basisergänzungssatz kann man diese l.u. Menge von Vektoren aus K m zu
einer Basis von K m ergänzen: K m =< s~k1 , . . . , s~kp , . . . , s~km >.
Geht man von dieser Basis aus, erhält man mittels des obigen Vorganges gerade das vorgegebene
p~ (ganz egal, wie man zu einer Basis ergänzt hat, denn wegen Rg(A) = m =
] Unbekannten ist (20) eindeutig lösbar).
56
Der Beweis liefert auch die Methode, wie man alle Ecken von Z erhält. Allerdings wächst
n
m
für große n, m explosionsartig (= exponentiell) an.
Beispiel:
Berechne alle Ecken von Beispiel 1 (ohne Parameterpolygon P )
n
5·4
= 53 = 53 = 1·2
Rg(A) = 3, n = 5 ⇒ ∃ höchstens m
= 10 Möglichkeiten, um aus den 5
Spaltenvektoren eine Menge von 3 l.u. auszuwählen.
(k1 , k2 , k3 ) l.u.
NBV
BV
Ecke
entartet
(1, 2, 3)
ja
x4 = 0, x5 = 0
( 72 , 32 , − 72 )
nein
(1, 2, 4)
ja
x3 = 0, x5 = 0
( 37 , 83 , − 73 )
( 37 , 83 , 0, 37 , 0)
(1, 2, 5)
ja
(0, −2, 7)
nein
(1, 3, 4)
ja
(5, −8, −3)
nein
(1, 3, 5)
ja
(2, −2, 3)
nein
(1, 4, 5)
ja
(1, 1, 4)
(1, 0, 0, 1, 4)
nein
(2, 3, 4)
ja
x1 = 0, x5 = 0
(5, 7, 7)
(0, 5, 7, 7, 0)
nein
(2, 3, 5)
ja
x1 = 0, x4 = 0
(−2, 0, 7)
nein
(2, 4, 5)
ja
x1 = 0, x5 = 0
(−2, 0, 7)
nein
(3, 4, 5)
ja
x1 = 0, x2 = 0
(2, 2, 5)
(0, 0, 2, 2, 5)
nein
nein
Eingabe: s1, . . . , sn so, daß A = {s1, . . . , sn}, b;
Auswahl (k1 , k2 , k3 )
aa = {sk1 , sk2 , sk3 }
ar = {sk4 , sk5 }
RowReduce [aa]
Linear Solve [aa, b] gibt Werte der Basisvariablen.
Für beschränkte zulässige Mengen Z gilt darüber hinaus:
Satz 16.3 Beschreibung zulässiger Mengen
Eine beschränkte zulässige Menge ist die konvexe Hülle ihrer (endlich vielen) Ecken.
Beweis:
Z besitzt mindestens eine und höchstens endlich viele Ecken. Da Z konvex ist, enthält Z jede
57
Konvexkombination dieser Ecken. Wir müssen noch zeigen, daß durch Konvexkombinationen
der Ecken auch jedes Element ~x ∈ Z erfaßt wird:
Sei Rg(A) = m = n : Wegen Z 6= ∅ hat A~x = ~b genau eine Lösung x~0 ≥ 0 ⇒ Z = {x~0 } und x~0
ist Konvexkombination von x~0 , nämlich x~0 = 1 · x~0 .
Sei Rg(A) = m < n :
Sei b̃ = 0̃ : Dann ist die Lösungsmenge LH von A~x = ~0 ein (n − m)−dimensionaler Teilraum
von K n , d.h., mit einem x~0 > ~0 liegen auch alle positiven Vielfache λx~0 ∈ LH , dann wäre aber
Z im Gegensatz zur Annahme unbeschränkt. Es kann in Z also kein positives x~0 > 0 geben
⇒ Z = {~0} und ~0 = 1 · ~0 ist Konvexkombination von ~0.
Sei b̃ 6= 0̃ : Dann ist ~0 ∈
6 Z ⇒ jedes ~x ∈ Z hat mindestens eine positive Komponente. Sei
x~0 = (x1 , . . . , xn )t ∈ Z mit p ≥ 1 positiven Komponenten, P sei die Menge jener Indices i
mit xi > 0, also P := {i|xi > 0} und S := {~
si |i ∈ P } sei die Menge der dazugehörigen
Spaltenvektoren von A.
1. Fall: Sei S l.u. ⇒ nach 6.1 ist x~0 eine Ecke und damit eine Konvexkombination der Ecken
von Z, nämlich x~0 = 1 · x~0 + 0 · x~1 + . . . + 0 · x~m , wobei x~i (i = 0, . . . , m) Ecken von Z sind.
2. Fall: Sei S l.a. ⇒ ∃λi ∈ K, nicht alle 0, mit
X
λi s~i = ~0.
(21)
i∈P
Davon ist mindestens ein λi > 0, sonst multipliziert man (21) mit (−1). IP sei die Indexmenge
der positiven λi , IN sei die Indexmenge der negativen λi , also
IN := {i|λi < 0} ⊂ P, IP := {i|λi > 0} ⊂ P
Es ist IP 6= ∅, aber auch IN 6= ∅:
Für jedes t ∈ K sind nämlich die Punkte

 xi + tλi
~y (t) := (y1 , . . . , yn ) mit yi =
 0
für i ∈ P
für i 6∈ P
Lösungen von A~x = ~b (wegen (21)):
A~y (t) = Ax~0 + t ·
X
i∈P
λi s~i + t · 0 ·
X
j6∈P
λj s~j = ~b + t · ~0 + ~0 = ~b.
(22)
58
Wären nun alle λi ≥ 0 ⇒ alle ~y (t) ≥ 0 ⇒ alle ~y (t) ∈ Z ⇒ Z ist unbeschränkt im Widerspruch
zur Beschränktheit. Also gilt es in (21) mindestens ein negatives λi .
Es gilt nun folgender Hilfssatz.
Jeder Punkt x~0 ∈ Z mit r ≥ 1 positiven Koordinaten ist Konvexkombination zweier verschiedener Punkte von Z mit je höchstens r − 1 positiven Koordinaten.
Da jeder Punkt aus Z höchstens n positive Koordinaten hat, kommt man mit diesem Hilfssatz
nach endlich vielen Schritten auf folgende Situation:
x~0 mit n ≥ r ≥ 1 positiven Koordinaten ist Konvexkombination von Punkten y~i ∈ Z mit
höchstens r − 1 positiven Koordinaten, jedes y~i ∈ Z ist wiederum Konvexkombination von
Punkten z~i mit höchstens r − 2 positiven Koordinaten usw. Letztlich ist x~0 Konvexkombination
von Punkten mit genau einer positiven Koordinate. Solche sind aber stets Ecken, denn:
Hat x~0 genau eine positive Koordinate xp ⇒ S = {s~p }. Da A eine Nullspalte enthält, ist {s~p }
l.u. ⇒ x~0 ist eine Ecke.
x~0 ist also letztlich Konvexkombination von Ecken von Z. Damit ist auch der 2. Fall abgehandelt.
Beweis des Hilfssatzes:
Mit den Indizes aus IP und IN und den Koordinaten xi von x~0 bilden wir die Skalare
t1 := − min
i∈IP
−xp
xq
xi
xi
=:
< 0 und t2 := min
=
>0
i∈IN |λi |
λi
λp
−λq
Damit gilt für alle i ∈ IP und t ≥ t1 : xi + tλi ≥ 0 und für alle i ∈ IN und t ≤ t2 : xi + tλi ≥ 0.
Für t mit t1 ≤ t ≤ t2 gilt damit für alle i ∈ P : xi + tλi ≥ 0, also ~y (t) ∈ Z.
x
Für t = t1 = − λpp gilt für die p−te Koordinate von ~y (t1 ) nach (22):
yp = xp + t1 λp = xp
Für t = t2 =
xq
−λq
−xp
· λp = 0
λp
gilt für die q−te Koordinate von ~y (t2 ):
yq = xq + t2 λq = xq −
xq
λp = 0.
λp
Die Punkte ~y (t1 ) ∈ Z und ~y (t2 ) ∈ Z sind also verschieden und haben höchstens r − 1 positive
Koordinaten, denn yp = 0 bzw. yq = 0.
Jedes t mit t1 ≤ t ≤ t2 kann man nur schreiben als t = l1 t1 + l2 t2 mit l1 , l2 , ≥ 0 und l1 + l2 = 1.
Damit ist
~y (t) = l1 ~y (t1 ) + l2 ~y (t2 )∀t : t1 ≤ t ≤ t2
59
Weil t1 < 0 und t2 > 0 gilt dies insbesondere für t = 0:
~y (0) = (x1 , . . . , xn ) = x~0
Also ist x~0 Konvexkombination von 2 Punkten y~1 (t1 ), y~2 (t2 ) ∈ Z mit höchstens r − 1 positiven
Koordinaten.
Zusammenfassung:
Sei A ∈ K m·n , ~b ∈ K m , ~b ≥ 0 und Rg(A) = m.
Die zulässige Menge Z = {~x|A~x = ~b und ~x ≥ 0}.
(i) kann beschränkt oder nicht beschränkt sein
(ii) ist stets konvex
(iii) hat mindestens eine und höchstens endlich viele Ecken
(iv) ist die konvexe Hülle ihrer Ecken, falls sie beschränkt ist.
60
16.3 Hauptsatz der linearen Optimierung
Um einen anschaulichen Überblick über Lösungsmöglichkeiten von linearen Optimierungsaufgaben zu erhalten, geben wir in den beiden nächsten Beispielen die Restriktionen in 2 Variablen
wieder in Ungleichungsform an.
Beispiel:
Gegeben sei das in Beispiel 1 in Standardform behandelte lineare Ungleichungssystem
2x1 −x2 ≤ 2
x1 −x2 ≤ 2
x1 +x2 ≤ 5
x1
und
≥ 0
c := L1 (~x) := −x1 + x2
c := L2 (~x) := 2x1 + x2
x2 ≥ 0
Gesucht ist jeweils das Minimum von L1 und L2 auf der zulässigen Menge Z und jene Stellen,
in denen dieser Minimalwert angenommen wird.
Lösung: Das Bild von Z ist in Beispiel 1 durch die Menge P gegeben. Um den Minimalwert von
L1 geometrisch zu erhalten, gehen wir nach dem in 6.1 Gesagten folgend vor:
(i) Setze L1 (~x) gleich einer Konstanten c. Dies ergibt die Geradenschar
−x1 + x2 − c = 0.
(ii) Ermittle aus dieser Geradenschar jene Gerade, die bei kleinstmöglichem c mit Z mindestens
einen Punkt gemeinsam hat.
Dies kann dadurch erfolgen, daß man eine Gerade aus der Schar, am zweckmäßigsten die
mit c = 0, so parallel verschiebt, daß der Abschnitt auf der x2 −Achse möglichst klein wird.
Man erhält L1 min = −1 in genau einem Punkt ~xmin = (1/0) (siehe Abb. 1) L2 min = −2,
angenommen in allen Punkten der Verbindungsstrecke von (1/0) zu ( 37 | 38 ) (siehe Abb. 2).
61
Abb. 1
Abb. 2
Beispiel 4:
Gegeben sei das in Beispiel 2 in Standardform behandelte lineare Ungleichungssystem:
x1 −2x2 ≤ 2
−2x1
+x2 ≤ 2
x1
+x2 ≥ 1
x1
≥ 0
Die zulässige Menge Z ist unbeschränkt.
x2 ≥ 0
Bestimme die Minima und die zulässigen Minimalpunkte für die folgenden Zielfunktionen:
a)
L1 (~x) := −x1 + x2
b)
L2 (~x) := −x1 + 4x2
c)
L3 (~x) := −x1 + x2
d)
L4 (~x) := −x1 + 2x2
Aus den folgenden Abb. 3 – Abb. 6 entnimmt man folgendes Lösungsverhalten:
Abb. 3
Abb. 4
62
Abb. 5
Abb. 6
Abbildung 7
63
a) Abb. 3: Es existiert kein zulässiger Minimalpunkt und damit kein Minimum von L1 auf
Z.
b) Abb. 4: Es gibt genau einen Minimalpunkt (2/0), mit L2 min = L2 (2/0) = −2.
c) Abb. 5: Es gibt unendlich viele zulässige Minimalpunkte, nämlich die Punkte auf der
Verbindungsstrecke der Ecken P1 (1|0) und P2 (0|1) und
L2 min = L3 (1, 0) = . . . = L3 (0|1) = 1.
d) Abb. 6: Es gibt unendlich viele zulässige Minimalpunkte, die alle auf dem von der Ecke
P (2|0) ausgehenden Strahl in Richtung ~u = (2, 1) liegen.
L4 min = L2 (2|0) = . . . = −2.
Zusammenfassung der Beobachtungen:
(i) Ein lineares Optimierungsproblem kann unlösbar sein. Dies ist trivialerweise der Fall,
wenn die zulässige Menge leer ist. Aber auch bei nichtleerer zulässiger Menge muß kein
zulässiger Minimalpunkt existieren. Dies kann jedoch nur bei unbeschränkter zulässiger
Menge auftreten (Abb. 3).
(ii) Falls ein Minimum der Zielfunktion existiert, kann es dazu genau einen (Abb. 1, Abb.
4) aber auch unendlich viele zulässige Minimalpunkte geben. Immer wird jedoch das
Minimum auch in einer Ecke angenommen (minimale Ecke). Die Verbindungsstrecke
von zwei zulässigen Minimalpunkten enthält ebenfalls nur zulässige Minimalpunkte.
In den beiden folgenden Sätzen werden diese Beobachtungen allgemein abgesichert.
Satz 16.4 Konvexkombination
Jede Konvexkombination endlich vieler zulässiger Minimalpunkte ist wieder ein zulässiger
Minimalpunkt.
H(x~1 , . . . , x~r ) ⊂ Mmin für x~1 , . . . , x~r ∈ Mmin .
Beweis: x~i zulässiger Minimalpunkt ⇒ Ax~i = ~b, x~i ≥ 0 und
L(x~i ) = m := min~x∈Z L(~x).
Sei ~x Konvexkombination von x~1 , . . . , x~r ⇒
~x =
r
X
i=1
λi x~i mit λi ≥ 0 und
r
X
i=1
λi = 1.
64
P
P
P
P
(i) A~x = A( i λi x~i ) = i λi Ax~i = i (λi~b) = ( ·λi )~b = 1~b = ~b
(ii) ~x =
P
λi x~i ≥ 0
P
P
P
P
(iii) L(~x) = L( i λi x~i ) = i λi L(x~i ) = i λi c = c( i λi ) = c · 1 = c
(i)–(iii) zeigen, daß ~x wieder ein zulässiger Minimalpunkt ist.
Die vorhergehenden Bilder zeigen, daß das Minimum stets auch in einem Eckpunkt der zulässigen
Menge angenommen wird. Dies gilt tatsächlich auch allgemein:
Satz 16.5 Hauptsatz der linearen Optimierung.
Falls das lineare Optimierungsproblem lösbar ist, wird das Minimum stets auch in mindestens
einer Ecke der zulässigen Menge angenommen.
Kurz: Es existiert eine minimale Ecke.
Voraussetzung: A ∈ K min , Rg(A) = m, ~0 ≤ ~b ∈ K m , ~l ∈ K n
Z = {~x|A~x = b ∧ ~x ≥ 0}, L(~x) := ~lt · ~x
m := min~x∈Z L(~x), Mmin := {~x|~x ∈ Z ∧ L(~x) = m}.
Behauptung: Ist Mmin 6= ∅, dann enthält Mmin mindestens eine Ecke von Z.
Beweis: Aus Mmin 6= ∅ ⇒ ∃x~0 ∈ Z : L(x~0 ) = m.
Angenommen, dieses x~0 := (x1 , . . . , xn ) besitze p ≥ 0 positive Koordinaten. P sei die Indexmenge
der positiven Koordinaten: P := {i|x0i > 0}. S sei die Menge der zu diesen positiven Koordinaten
gehörigen Spaltenvektoren von A : S : {x~i |i ∈ P }.
Ist p = 0, dann ist x~0 = ~0 und daher eine Ecke:
~0 kann nicht echte Konvexkombination zweier verschiedener, nichtnegativer Punkte x~1 , x~2 sein:
Aus ~0 = λ1 x~1 + λ2 x~2 mit λ1 , λ2 > 0 und λ1 + λ2 = 1 folgt x~1 = x~2 = ~0.
65
Ist p > 0, dann unterscheiden wir 2 Fälle:
1. Fall: S l.u. ⇒ x~0 ist nach Satz 16.1 eine Ecke.
2. Fall: S la. ⇒ ∃ eine nichttriviale Linearkombination der Spaltenvektoren
s~i (i ∈ P ), die den Nullvektor ergibt:
X
ki s~i = ~0
(23)
i∈P
Mindestens einer der Skalare ki ist positiv, sonst multipliziert man (23) einfach mit (−1). IP sei
die Indexmenge der positiven, IN die Indexmenge der negativen Skalare in (23).
∅=
6 IP := {i|ki > 0} ⊂ P,
IN := {j|kj < 0} ⊂ P
Vom zulässigen Minimalpunkt x~0 = (x01 , . . . , x0n ) mit p positiven Koordinaten ausgehend, konstruieren wir uns einen weiteren zulässigen Minimalpunkt, aber mit höchstens p − 1 positiven
Koordinaten:
Für jedes δ ∈ K konstruieren wir mit x~0 die Punkte x~1 (δ) und x~2 (δ) mit folgenden Koordinaten:


 x0 − δki i ∈ P
 x0 + δki i ∈ P
i
i
x~1 (δ) :=
und x~2 (δ) :=
(24)


0
i 6∈ P
0
i 6∈ P
(i) x˜1 (δ), x˜2 (δ) erfüllen das LGS Ax̃ = b̃ (weil auch Ax~0 = ~b)
P
P
P
P
Ax~1 (δ) = i∈P (x0i − δki ) · s~i = i∈P x0i s~i − δ · i∈P ki s~i = i∈P x0i s~i − δ · ~0 = ~b, wegen
P
P
P
P
0~ =
0~ +
0~ +
~b = Pn x0 s~i = P
0 · s~i = i∈P x0i · s~i . Analog ist
i
i
i
i∈P xi s
i6∈P xi s
i=1 i
i∈P xi s
Ax~2 (δ) = ~b.
(ii) x˜1 (δ0 ) ≥ 0̃ und x˜2 (δ0 ) ≥ 0̃ für bestimmte δ0
Wir bilden alle Quotienten
x0i
ki
> 0(i ∈ IP ) und
x0j
−kj
> 0(j ∈ IN ).
Unter diesen endlich vielen Quotienten gibt es jeweils einen kleinsten, es sei dies der mit
dem Index i = r und j = s, also
x0
x0r
:= min i
i∈IP ki
kr
Dann gilt für alle 0 < δ ≤
x0i −
xr
kr
· ki ≥ x0i −
x0i
ki ki
xr
kr
= 0.
und
x0j
x0s
:= min
.
j∈IN −kj
−ks
: x0i − δki ≥ 0 ∀i ∈ IP , denn man zieht von x0i maximal ab:
66
Ebenso gilt für alle 0 < δ ≤
xs
−ks
: x0i + δki ≥ 0 ∀i ∈ IN , denn man gibt was Negatives
hinzu.
Somit sind alle Koordinaten von x~1 (δ ≤
xr
kr )
≥ 0, denn:
ist i ∈ IP ⊂ P , dann ist nach oben x0i − δki ≥ 0
ist i ∈ IN ⊂ P , dann ist ki < 0, also x0i − δki erst recht positiv (weil ja x0i ≥ 0).
ist i 6∈ P , dann ist nach Definition (24) die Koordinate 0.
0
xs
Analoges gilt für x~2 (δ ≤ −k
). Wählt man δ0 als die kleinere der beiden Zahlen
n 0 0 so
xs
also 0 < δ0 := min xkrr , −k
, dann gilt x~n (δ0 ) ≥ 0 und x~2 (δ0 ) ≥ 0.
s
n
x0r x0s
kr , −ks
o
,
(iii) L(x˜1 (δ0 )) = L(x˜0 ) = Lmin und L(x˜2 (δ0 )) = L(x˜0 ) = Lmin
P
L(~x) = ni=1 li xi ⇒ (wenn man die Summanden mit li = 0 wegläßt):
P
P
− δ0 ki ) = i∈P li x0i − δ0 i∈P li ki =
P
P
P
= ni=1 li x0i − δ0 i∈P li ki = L(x~o ) − δ0 i∈P li ki
P
P
L(x~2 (δ0 )) = i∈P li (x0i + δ0 ki ) = L(x~0 ) + δ0 i∈P li ki .
L(x~1 (δ0 )) =
0
i∈P li (xi
P
Weil nun Lmin = L(x~0 ) ≤ L(~x)∀~x ∈ Z ist, also auch für ~x = x~1 (δ0 ) bzw. ~x = x~2 (δ0 )),
P
P
erhält man: L(x~0 ) ≤ L(x~1 (δ0 )) = L(x~0 ) − δ0 i∈P li ki , also i∈P li ki ≤ 0 und analog
P
P
L(x~0 ) ≤ L(x~2 (δ0 )) = Lx~0 ) + δ0 i∈P li ki , also i∈P li ki ≥ 0.
Also muß
P
i∈P li ki
= 0 sein, also L(x~1 (δ0 )) = L(x00 ) = Lmin und L(x~2 (δ0 )) = Lmin und
damit sind mit (i) und (ii) x~1 (δ0 ) und x~2 (δ0 ) zulässige Minimalpunkte.
Sie haben aber weniger positive Koordinaten als x~0 , denn:
Ist δ0 =
xr
kr
Ist δ0 =
xs
−ks
⇒ die r−te Koordinate von x~1 (δ0 )) = x0r −
⇒ die s−te Koordinate von x~2 (δ0 ) =
xr
kr
x0s xs
+ −ks
· kr = 0.
· ks = 0.
Von einem zulässigen Minimalpunkt x~0 ausgehend erhält man so auf alle Fälle einen weiteren
zulässigen Minimalpunkt x~1 , aber mit weniger positiven Koordinaten. Die Menge S1 der zu den
positiven Koordinaten von x~1 gehörigen Spaltenvektoren von A wird daher eine echte Teilmenge
von S sein: S1 ⊂ S. Ist S1 l.u., dann ist x~1 eine Ecke. Ist S1 l.a., dann wendet man dasselbe
Verfahren wie oben auf x~1 an usw. Spätestens nach p Schritten ist Sp die leere Menge, also l.u.,
und man hat eine Ecke erhalten, w.z.z.w.
Wann gibt es überhaupt zulässige Minimalpunkte? Ist die zulässige Menge Z unbeschränkt, muß
es solche nicht geben (siehe Abb. 3). Bei beschränkten, zulässigen Mengen kann dies jedoch nicht
67
passieren (wir müssen allerdings K = IR voraussetzen).
Satz 16.6 Existenz zulässiger Minimalpunkte
Sei A ∈ IRm·n , Rg(A) = m, ~0 ≤ ~b ∈ IRm , ~l ∈ IRn , L(~x) := ~lt ~x.
Z := {~x ∈ K n |A~x = ~b und ~x ≥ 0} sei nichtleer und beschränkt.
Dann existiert mindestens ein x~0 ∈ Z mit L(x~0 ) = min~x∈Z L(~x).
Eine lineare Optimierungsaufgabe mit nichtleerer und beschränkter zulässiger
Menge ist lösbar.
Beweis: Der Satz ist eine direkte Folgerung aus dem Satz das Maximum und Minimum aus der
mehrdimensionalen Analysis (nach WEIERSTRASS):
Die Teilmenge D ⊆ IRn sei nicht leer, abgeschlossen und beschränkt. Die Abbildung f : IRn → IR
sei stetig. Dann besitzt f auf D ein globales Maximum und ein globales Minimum.
Bei uns ist D = Z. Weil in Z in allen Ungleichungen das Gleichheitszeichen ≤ auftritt, ist Z
abgeschlossen (d.h. IRn \Z ist offen).
Lineare Abbildungen sind stets stetig, also insbesondere auch L(~x) = ~lt ~x.
Um die lineare Optimierungsaufgabe zu lösen, könnte man daher folgend vorgehen:
1. Entscheide, ob das Problem lösbar ist.
Berechne dazu die zulässige Menge Z.
Ist Z 6= ∅ und beschränkt ⇒ Problem lösbar.
Ist Z unbeschränkt, kann das Problem auch unlösbar sein (siehe SIMPLEXVERFAHREN
→ Operations Research).
2. Berechne alle Ecken x~1 , . . . , x~r von Z.
Berechne L(x~k ) für alle k = 1, . . . , r.
Dann ist nach c) Lmin = L(~x) = mink∈Ir L(x~k ).
Dieses Vorgehen ist praktisch unbrauchbar, denn n und m sind oft > 100.
Das von G.B. DANTZIG 1947 entwickelte SIMPLEXVERFAHREN gestattet es, nach endlich
vielen Schritten entweder die Nichtlösbarkeit des Problems erkennen bzw. eine minimale Ecke
finden zu können.
68
V LINEARITÄT
Bei der “Linearität” handelt es sich wohl um den wichtigsten Begriff der Linearen Algebra, die
ja auch nach ihr benannt ist. Wenn man sich in einer Menge nicht genau auskennt, ist es in
der Mathematik üblich, sie in eine Menge “abzubilden”, in der man sich besser auskennt. In
der Linearen Algebra sind die zu Grunde liegenden Mengen stets Vektorräume. Damit bei den
Abbildungen nicht zu viel zerstört wird, ist es naheliegend, daß die Abbildungen die Vektorraumaddition und das Vervielfahcen “respektieren”. Damit ist gemeint: Bilder von Linearkombinationen sollen wieder Linearkombinationen der Bilder sein. Diese Forderung erleichtert das mathematische Leben essentiell, sie wird mit “Linearisierung” bezeichnet. Viele Erscheinungen in der
Physik, Technik, Wirtschaft und Sozialwissenschaft erlauben die Anwendung dieser Linearisierung, viele auch nicht, dann wird oft zwangsweise “linearisiert”. Allerdings muß man dann den
Fehler kennen, den man dabei gemacht hat (siehe differenzierbare Funktionen) oder man muß
die Aussagen kritisch behandeln.
17 Lineare Abbildungen
Sie stellen jenes Werkzeug dar, mit denen “linearisiert” wird. Wir werden sehen, daß sie sich
über weite Strecken wie Matrizen verhalten, man kann sie also als verallgemeinerte Matrizen
auffassen.
17.1 Elementare Eigenschaften
Ist A eine m × n−Matrix, dann kann man ein LGS A~x = ~b als eine Abbildung fA : K n → K m
auffassen, die dem n−Tupel ~x ∈ K n das m−Tupel ~b ∈ K m zuordnet:
Abbildungstheoretische Auffassung eines Linearen Gleichungssystems.
A~x = ~b ⇔ ~x ∈ K n → ~b ∈ K m
fA : K n → K m mit fA ~x := A~x
fA heißt die von der Matrix A induzierte Abbildung von K n in K m oder die Multiplikation mit der Matrix A.
Sprechweise: fA von ~x ist A mal ~x.
Bemerkung: ~x, ~b werden in Spaltenform geschrieben, die Abbildung fA wird oft mit demselben Buchstaben wie die Matrix bezeichnet (also fA = A).
69
Das Gleichungssystem A~x = ~b lösen bedeutet bei dieser Auffassung:
Bestimme alle Urbilder von b̃ unter der induzierten Abbildung fA .
Aufgrund der Rechenregeln für Matrizen ist diese induzierte Abbildung verträglich mit den Vektorraumoperationen:
fA (~x + ~y ) = A(~x + ~y ) = A~x + A~y = fA (~x) + fA (~y )
A(λ~x) = fA (λ~x) = λ(A~x) = λfA (~x)
Solche mit den Vektorraumoperationen verträglichen Abbildungen haben wir schon mehrmals
angetroffen, z.B. beim Skalarprodukt oder bei der Determinante.
Wir verallgemeinern diesen Sachverhalt auf beliebige Vektorräume:
Definition 17.1 Lineare Abbildungen
V und W seien Vektorräume über demselben Körper K. Eine lineare Abbildung
(linear map, Homomorphismus) von V in W ist eine Abbildung f : V → W mit
(L1)
(L2)
f (x + y) = f (x) + f (y)
f (λx) = λf (x)
Ein linearer Operator auf V (Endomorphismus) ist eine lineare Abbildung von V in V . (L1)
und (L2) bedeuten:

 f verträglich mit
Das Bild eines Vielfachen ist Vielfaches des Bildes  Vektorraumoperationen
Das Bild einer Summe ist Summe der Bilder
Weil in (L2) auf beiden Seiten dasselbe λ steht, müssen V und W Vektorräume über demselben
Körper K sein.
(L1) und (L2) können zu einer Bedingung zusammengefaßt werden:
Satz 17.1 Charakterisierung von linearen Abbildungen
(i) V, W seien Vektorräume über K.
f : V → W linear ⇔ f (λx + µy) = λf (x) + µf (y) ∀λ, µ ∈ K
P
P
(ii) Allgemein: f ( ni=1 λi xi ) = ni=1 λi f (xi )
In Worten: Das Bild einer Linearkombination ist Linearkombination der Bilder.
70
Beweis von (i):
1. ⇒: f (λx + µy) = f (λx) + f (µy) = λf (x) + µf (y)
2. ⇐: λ = µ = 1 : f (x + y) = f (1 · x + 1 · y) = 1 · f (x) + 1 · f (y) = f (x) + f (y) + µ = 0 :
f (λx) = f (λx + 0y) = λf (x) + 0f (y) = λf (x)
Beweis von (ii) durch Induktion nach n.
Definition 17.2 Spezielle lineare Abbildungen
Ist U ⊆ V , dann ist das Bild von U unter f die Menge f (U) := {f (u) | u ∈ U}. Speziell:
Das Bild von f (Image von f ) ist das Bild von ganz V : im(f ) := f (V).
Ein Epimorphismus von V auf W ist eine surjektive lineare Abbildung von V auf W .
Ein Monomorphismus von V in W ist eine injektive lineare Abbildung von V in W .
Ein Isomorphismus von V auf W ist eine bijektive lineare Abbildung von V auf W .
Ein Automorphismus auf V ist eine bijektive lineare Abbildung von V auf sich selbst.
Beachte: Das Wort Bild (image) wird
dreifach verwendet:
Bild eines Elementes: f (x)
Bild einer Teilmenge: f (U )
Bild einer Abbildung: im(f )
Satz 17.2 Matrixabbildungen
A sei eine m × n−Matrix über dem Körper K.
(i) Jede m × n−Matrix A definiert eine lineare Abbildung
fA : K n → K m durch fA (x̃) := Ax̃ (~x Spaltenvektor).
Sie heißt die von A induzierte Abbildung oder die Multiplikation mit der Matrix A.
(ii) Jede m × n−Matrix A definiert eine weitere lineare Abbildung
g˜A : K n → K m durch gA (~x) := (~xt · A)t
Es gilt: gA = fAt
Beweis: (i) siehe Einleitung
(~xt Zeilenvektor)
71
(ii) gA (~
x+~
y ) = ((~
x+~
y )t · A)t = (~
xt · A + ~
y t · A)t = (~
xt · A)t + (~
y t · A)t = gA (~
x) + gA (~
y)
gA (λ~
x) = ((λ~
x)t · A)t = λ((~
xt · A))t = λgA (~
x)
(iii) fAt (~
x) = At · ~
x = (~
xt · A)t = gA (~
x) ∀~
x ∈ K m ⇒ gA = fAt .
Man erhält das m−Tupel ~
xt A durch Anwendung der Matrix At auf den Spaltenvektor ~
x.
Bemerkung: Eine Matrix kann also auf zwei Arten eine lineare Abbildung induzieren. Wegen
(iii) verwenden wir stets die Spaltenschreibweise (i): fA (x̃) = Ax̃
Satz 17.3 Elementare Eigenschaften von linearen Abbildungen
f sei eine lineare Abbildung von V in W und U ein Teilraum von V .
(i) Das Bild des Nullvektors ist stets der Nullvektor: f (0) = 0.
(ii) Das Bild eines Teilraumes U C V ist wieder ein Teilraum: f (U) C W.
Man sagt: Lineare Abbildungen sind teilraumtreu.
Insbesondere ist im (f ) stets ein Teilraum von W .
(iii) Die Dimension des linearen Bildes eines Teilraumes wird höchstens kleiner:
U C V ⇒ dim(f (U)) ≤ dim(U).
(iv) Ist V =< b1 , . . . , bn >⇒ f (V ) = < f (b1 ), . . . , f (bn ) >= im(f )
Beweis:
(i) f (0) = f (0 + 0) = f (0) + f (0), d.h., f (0) hat die Neutraleneigenschaft, wegen der Eindeutigkeit ist es das
Neutrale.
(ii) f (U ) 6= ∅ weil 0 = f (0) ∈ f (U )(U enthält stets 0!) Seien x0 , y 0 ∈ f (U ) ⇒ ∃x, y ∈ U : x0 = f (x),
y 0 = f (y) ⇒ λx0 + µy 0 = λf (x) + µf (y) = f (λx + µy) ∈ f (U ), weil λx + µy ∈ U (U ist Teilraum).
(iii) Sei U k−dimensional: U =< u1 , u2 , . . . , uk > und sei x0 ∈ f (U ) ⇒ ∃x ∈ U : f (x) = x0 .
x ist Linearkombination von u1 , . . . , uk ⇒ x0 := f (x) = f (λ1 u2 + . . . + λk uk ) = λ1 f (u1 ) + . . . + λ1 f (uk ) ⇒
{f (u1 ), . . . , f (uk )} ist ein Erzeugendensystem von f (U ), eine Basis von f (U ) hat aber gleich viele oder
weniger Elemente.
(iv)
P
Pn
0
1. Sei x0 ∈< f (b1 ), . . . , f (bn ) >⇒ x0 = n
i=1 λi f (bi ) ⇒ (nach 1.1): x = f (
i=1 λi bi ) ⇒
Pn
0
0
für x = i=1 λi bi ∈ V gilt: x = f (x) ⇒ x ∈ f (V ) = im(f ).
2. Sei x0 ∈ im(f ) ⇒ ∃x =
f (b1 ), . . . , f (bn ) >.
Pn
i=1
P
Pn
λi bi ∈ V : f x0 = f (x) = f ( n
i=1 λi bi ) =
i=1 λi f (bi ) ∈<
72
Bemerkung: Im Anschauungsraum sind die Teilräume Geraden bzw. Ebenen durch 0. (ii)
bedeutet, daß lineare Bilder von Geraden und Ebenen wieder solche sind, eventuell kann aus
einer Geraden ein Punkt bzw. aus einer Ebene eine Gerade oder ein Punkt werden. Auf keinen
Fall entstehen aber durch lineare Abbildungen gekrümmte oder gar “aufgelöste” Punktmengen:
Salopp gesagt: Das lineare Bild einer “geraden Linie” ist wieder eine “gerade Linie” (daher auch
der Name “Lineare Abbildungen”).
Beispiele und Gegenbeispiele von linearen Abbildungen:
1. Geometrische Beispiele im Anschauungsraum:
a) Drehungen um den Ursprung 0 um den Winkel α sind linear
D0;α : V 2 → V 2
Beweis durch Konstruktion
b) Drehungen um den Punkt P 6= 0 sind nicht linear, weil DP (0) 6= 0
c) Parallelverschiebungen (Translationen) T um den Vektor ~t sind nicht linear
T (0) = t 6= 0
außerdem: T (x + y) 6= T (x) + T (y)
2. Arithmetische Beispiele im Kn :
Bemerkung: Statt f ((x1 , x2 , x3 )) schreiben wir einfach f (x1 , x2 , x3 ).
a) f : K 3 → K 2 mit f (x1 , x2 , x3 )t = (2x1 + 3x2 + x3 , x1 + x2 + x3 )t ist linear:
Grund: Die “Formel” für f enthält nur 1. Potenzen in x1 , x2 , x3 .
Sei ~
xt = (x1 , x2 , x3 ), ~
y t = (y1 , y2 , y3 )
73
0
x1 + y1
1
0
1
C
B
C @ 2(x1 + y1 ) + 3(x2 + y2 ) + (x3 + y3 ) A
B
=
f (~
x+~
y ) = f B x2 + y2 C =
A
@
(x1 + y1 ) + (x2 + y2 ) + (x3 + y3 )
x3 + y3
0
1 0
1
(2x1 + 3x2 + x3 ) + (2y1 + 3y2 + y3 )
2x1 + 3x2 + x3
A=@
A+
=@
(x1 + x2 + x3 ) + (y1 + y2 + y3 )
x1 + x2 + x3
0
1
2y1 + 3y2 + y3
A = f (~
+@
x) + f (~
y)
y1 + y2 + y3
1
0
0
1
0
1
λx1
C
B
2λx
+
3λ
x
+
λx
2x
+
3x
+
x
1
2
2
3
1
2
3
C
B
A = λ@
A = λf (~
x)
f (λ~
x) = f B λx2 C = @
A
@
λx1 + λx2 + λx3
x1 + x2 + x3
λx3
b) g : K 2 → K 3 mit g(x, y) = (x + 1, 2y, x + y) ist nicht linear:
Grund: Die Formel für g enthält angehängte Konstanten (x + 1).
Sei ~
xt = (x, y), ~
y t = (x1 , y1 )
0
0
x + x1
1
x + x1 + 1
B
A=B
B 2(y + y1 )
@
y + y1
x + x1 + y + y1
0
1 0
1 0
x+1
x1 + 1
B
C B
C B
B
C B
C B
f (~
x) + f (~
y ) = B 2y
C + B 2y1
C=B
@
A @
A @
x+y
x1 + y1
f (~
x+~
y) = f @
c) h :
K2
→
K2
mit h(x, y) =
(x2 , xy)
1
C
C
C;
A
x + x1 + 2
2y + 2y1
x + y + x1 + y1
1
C
C
x+~
y)
C 6= f (~
A
ist nicht linear.
Grund: Die Formel für f enthält höhere Potenzen und Produkte in x, y.
Sei ~
xt = (x, y), ~
y t = (x1 , y1 )
0
1 0
1 0
1
x + x1
(x + x1 )2
x2 + 2x1 x + x21
A=@
A=@
A
h(~
x+~
y) = h @
y + y1
(x + x1 )(y + y1 )
xy + x1 y + xy1 + x1 y1
1
1 0
0
1 0
x2
x21
x2 + x21
A+@
A=@
A 6= h(~
x+~
y)
h(~
x) + h(~
y) = @
xy + x1 y1
xy
x1 y1
3. Beispiele in Funktionsräumen:
a) V = Vektorraum der differenzierbaren Funktionen
D : V → V Differentialoperator mit D(f ) = f 0
D ist linear wegen der Differentiationsregeln:
D(f + g) = (f + g)0 = f 0 + g 0 = D(f ) + D(g)
D(λf ) = (λf )0 = λf 0 = λD(f )
b) V = Vektorraum der auf [a, b] integrierbaren Funktionen.
Rb
J : V → IR Integraloperator mit J(f ) = a f (x)dx
74
J ist linear wegen der Integrationsregeln:
Rb
Rb
Rb
J(f + g) = a (f + g)dx = a f (x)dx + a g(x)dx = J(f ) + J(g)
Rb
Rb
J(λf ) = a (λf (x)dx = λ a f (x)dx = λJ(f )
4. Die Nullabbildung und die identische Abbildung sind lineare Operatoren.
5.
0(x + y) = 0 = 0 + 0 = 0(x) + 0(x)
id(x + y) = x + y = id(x) + id(y)
0(λx) = 0 = λ · 0 = λ · 0(x)
id(λx) = λx = λid(x)
a) Das reelle Skalarprodukt <, >= V × V → IR ist nach S1 linear in beiden Variablen:
< λ1 a1 + λ2 a2 , b > = λ1 < a1 , b > +λ2 < a2 , b >
< a, λ1 b1 + λ2 b2 , b > = λ1 < a1 , b1 > +λ2 < a, b2 >
Man sagt: Das reelle Skalarprodukt ist eine bilineare Abbildung von V × V in IR.
b) Das komplexe Skalarprodukt ist nur linear in der ersten Variablen, für die zweite
Variable gilt bezüglich des Heraushebens von Skalaren: < a, λb >= λ̄ < a, b >, sonst
gelten aber alle anderen “linearen” Eigenschaften. Man sagt:
Das komplexe Skalarprodukt ist eine semilineare Abbildung von V × V in C.
I
c) Die Determinanteneigenschaft D1 sagt aus, daß det : V × . . . × V → K linear in
jeder Variablen ist: det(. . . λa + µb . . .) = λdet(. . . a . . .) + µdet(. . . b . . .). Man sagt:
Die Determinante ist eine multilineare Abbildung von V × . . . × V in K.
Allgemein definiert man:
Definition 17.3 Multilineare Abbildungen
V und W seien Vektorräume über demselben Körper K, n ∈ IN.
Eine multilineare Abbildung f (x1 , . . . , xi , . . . xn ) von V in W ist eine Abbildung vom n−fachen
kartesischen Produkt V × V × . . . × V → W , die in jeder Variablen linear ist, d.h.:
f (. . . , xi + yi , . . .) = f (. . . , xi , . . .) + f (. . . , yi , . . .)
f (. . . , λxi , . . .) = λf (. . . , xi , . . .)
i = 1, . . . , n
i = 1, . . . , n
Für n = 2 heißt f eine bilineare Abbildung von V in W .
Kurz: f (. . . , λxi + µyi , . . .) = λf (. . . , xi , . . .) + µf (. . . , yi , . . .) i = 1, . . . n
75
Definition 17.4 Semilineare Abbildungen
V und W seien komplexe Vektorräume.
Eine Abbildung f : V × V → W heißt semilinear, wenn gilt:
f (x1 + y1 , x2 ) = f (x1 , x2 ) + f (y1 , x2 )
f (x1 , x2 + y2 ) = f (x1 , x2 ) + f (x2 , y2 )
f (λx1 , y1 ) = λf (x1 , y1 )
f (x1 , λy1 ) = λ̄f x1 , y1 )
17.2 Rang und Defekt
Die Teilraumtreue (17.3 (ii)) von linearen Abbildungen bedeuten im Anschauungsraum, daß
lineare Bilder von Geraden und Ebenen durch 0 nicht gekrümmt oder in mehrere Bestandteile
aufgelöst werden:
Dagegen sind lineare Abbildungen nicht dimensionstreu, allerdings kann die Dimension nach
17.3 (ii) höchstens kleiner werden. Das lineare Bild einer Geraden kann also nicht zu einer
Ebene aufgebläht werden. Lineare Bilder von Teilräumen können also höchstens “schrumpfen”.
Als wichtige Kennzahlen für “brave” lineare Abbildungen erweisen sich in diesem Zusammenhang die Begriffe Rang und der Defekt, die ebenfalls von Matrizen auf lineare Abbildungen
verallgemeinert werden können.
Wir wollen nun die Frage klären, wann dies nicht der Fall ist, wann also lineare Abbildungen
auch dimensionstreu sind.
76
Satz 17.4 Bild einer induzierten Matrixabbildung
A sei eine m × n−Matrix und fA die von ihr induzierte lineare Abbildung, also fA : K n → K m
mit fA (~x) = A~x. Dann ist
im(fA ) = S(A) . . . Spaltenraum von A
im(fAt ) = Z(A) . . . Zeilenraum von A
Damit gilt:
dim(im(fA )) = Spaltenrang von A = Rg(A)
dim(im(fAt )) = Zeilenrang von A = Rg(A)
Beweis: im(fA ) ist die Menge der Bilder fA (~x) = A~x, mit ~x ∈ K n .
Nun ist für ~xt = (x1 , x2 , . . . , xn ) und A = (s~1 . . . s~n ):
A~x = x1 · s~1 + . . . + xn · s~n ⇒ im(fA ) =< s˜1 , . . . , s˜n >= S(A)
(d.h., A~x ist Linearkombination der Spaltenvektoren von A).
Dann ist:
dim(im(fA )) = dim(S(A)) = Rg(A).
Analog ist im(fAt ) die Hülle der Spaltenvektoren von At , also Hülle der Zeilenvektoren von A.
Da lineare Abbildungen Verallgemeinerungen von Matrizen sind, definiert man:
Definition 17.5 Rang einer linearen Abbildung
Der Rang (rank) einer linearen Abbildung f : V → W ist die Dimension ihres Bildes.
rg(f ) := dim(im(f ))
Es gilt: 0 ≤ rg(f ) ≤ dim(W)
Beweis: rg(f ) = dim(im(f )) = dim(f (V )) ≤ dim(W ).
Welchen größten und kleinsten Wert kann rg(f ) überhaupt annehmen?
(a)
(b)
(c)
77
Ist f surjektiv, dann wird jedes y ∈ W erfaßt, also:
im(f ) = W und rg(f )) = dim(im(f )) = dim(W ) (Abb. b).
dim(W ) ist also der größtmögliche Wert für rg(f ).
Ist rg(f ) < W , dann ist im(f ) ein echter Teilraum von W (Abb. a), im Extremfall kann im(f ) =
{0} sein, wenn also alle x ∈ V auf 0 abgebildet werden, f also die Nullabbildung 0 ist (Abb. c).
Also: Je kleiner der Rang einer linearen Abbildung f : V → W , umso mehr wird W
degeneriert, umso schlechtere Eigenschaften hat f .
Der Rang einer Abbildung ist ein Maß für die Surjektivität. Je kleiner rg(f ) ist, desto
mehr weicht f von der Surjektivität ab.
Satz 17.5 Charakterisierung der Surjektivität
f sei eine lineare Abbildung von V in W .
f : V → W surjektiv ⇔ rg(f ) = dim(W).
Beweis:
1. ⇒: f (V ) = W ⇒ im(f ) = W ⇒ rg(f ) = dimW .
2. ⇐: Sei rg(f ) = dim(W ) ⇒ im(f ) = W , weil im(f ) E W ⇒ f surjektiv.
Was kann als Maß für die Injektivität dienen?
Sei f : V → W injektiv, d.h.: Aus f (x) = f (y) folgt x = y : Nun ist f (x) = f (y) ⇔ f (x)−f (y) =
0 ⇔ f (x−y) = 0 und x = y ⇔ x−y = 0. Die Injektivitätsbedingung lautet also: Aus f (x−y) = 0
folgt x − y = 0, daher: f injektiv ⇔ 0 wird auf 0 abgebildet. Es dürfte also nur 0 auf 0
abgebildet werden!
Definition 17.6 Der Kern (kernel) oder der Nullraum (nullspace) einer linearen Abbildung
f : V → W ist die Menge aller jener Vektoren aus V , die auf 0 abgebildet werden.
ker(f ) := {v ∈ V | f (v) = 0}.
78
Satz 17.6 Charakterisierung der Injektivität
(i) Der Kern von f ist stets ein Teilraum von V : ker(f ) C V .
(ii) f injektiv ⇔ ker(f ) = {0}.
Je größer ker(f ) ist, desto mehr weicht die lineare Abbildung f : V → W von der
Injektivität ab.
Beweis:
(i) Weil f (0) = 0 ⇒ 0 ∈ ker(f ) ⇒ ker(f ) 6= ∅.
Sei x, y ∈ ker(f ) ⇒ f (λx + µy) = λf (x) + µf (y) = λ · 0 + µ · 0 = 0 ⇒ λx + µy ∈ ker(f )
(ii) ⇐: Sei ker(f ) = {0} und f (x) = f (y) ⇒ f (x − y) = f (x) − f (y) = 0 ⇒ x − y ∈ ker(f ) = {0} ⇒ x − y =
0 ⇒ x = y ⇒ f injektiv
⇐: Sei f injektiv und x ∈ ker(f ) ⇒ f (x) = 0 = f (0) ⇒ x = 0 ⇒ ker(f ) = {0}
Definition 17.7 Defekt einer linearen Abbildung
(i) Der Defekt (nullity) einer linearen Abbildung ist die Dimension ihres Kernes
def (f ) := dim(ker(f )).
(ii) Eine lineare Abbildung heißt singulär, wenn sie einen positiven Defekt hat.
f singulär ⇔ def (f ) > 0.
(iii) Eine lineare Abbildung heißt regulär (nichtsingulär), wenn ihr Defekt 0 ist.
Auch so: f singulär ⇔ ∃v 6= 0 : f (v) = 0
f nichtsingulär ⇔ Nur 0 wird auf 0 abgebildet. ⇔ (aus f (v) = 0 ⇒ v = 0).
Spezialisierung auf Matrizen: Matrix A singulär ⇔ induzierte Abbildung fA singulär ⇔
Matrix A ist singulär ⇔ ∃~x 6= ~0 : A~x = ~0
Matrix A ist nichtsingulär (regulär) ⇔
aus A~x = ~0 ⇒ ~x = ~0.
Satz 17.7 Charakterisierung von regulären Abbildungen
Eine lineare Abbildung f : V → W ist genau dann regulär, wenn das Bild einer l.u. Menge
wieder l.u. ist.
79
Beweis:
1. ⇒: Sei f regulär und {u1 , . . . , uk } l.u. Dann ist auch {f (u1 ), . . . , f (uk )} l.u., sonst gäbe es λ1 , . . . , λk , nicht
alle 0, mit:
λ1 f (u1 ) + . . . + λk f (uk )
=
0⇒
f (λ1 u1 + . . . + λk uk )
=
0⇒
λ1 u1 + . . . + λk uk ∈ ker/f )
=
{0} ⇒
λ1 u1 + . . . + λk uk
=
0 ⇒ {u1 , . . . , uk } l.a. (Widerspruch).
2. ⇐: Sei das Bild jeder l.u. Menge wieder l.u. ⇒ f regulär: Wäre f singulär ⇒ ∃v 6= 0 : f (v) = 0. Nun ist
{v} wegen v 6= 0 l.u., aber {f (v)} = {0} ist l.a. (Widerspruch).
Damit kann man zeigen, daß genau die regulären Abbildungen dimensionstreu sind, also z.B.
Ebenen bzw. Geraden nicht degenerieren.
Satz 17.8 Dimensionstreue regulärer Abbildungen
U sei ein Teilraum von V und f : V ∈ W linear. Dann gilt:
dimf (U ) = dimU ⇔ f regulär. →
Beweis: Sei {b1 , . . . , bk } eine Basis von U ⇒ f (U ) =< f (b1 ), . . . , f (bk ) >.
Ist dimf (U ) = dimU ⇔. Mit {un , . . . , uk } ist f (b1 ), . . . , f (bn )} ist l.u. ⇔ f regulär.
Die Eingangs gestellte Frage nach der Dimensionstreue ist damit beantwortet: Genau die regulären linearen Abbildungen sind dimensionstreu.
Obwohl Kern und Bild einer Abbildung f Teilräume von verschiedenen Vektorräumen (nämlich
V bzw. W ) sind, besteht eine enge Beziehung zwischen den beiden Kennzahlen rg(f ) und def (f )
einer linearen Abbildung f : Ihre Summe ist die Dimension des Urbildraumes, eine Zahl also, die
nicht von f abhängt! Der folgende Satz ist der Schlüsselsatz für alle Anwendungen der Theorie
der linearen Abbildungen und ein Analogen zum Dimensionssatz für Matrizen.
Satz 17.9 Abbildungssatz (Dimensionssatz) für lineare Abbildungen
Sei f : V → W eine lineare Abbildung und V endlichdimensional. Dann gilt:
rg(f ) + def (f ) = dim(V) = dim (Urbildraum (f ))
Beweis: Sei dim(V ) = n. Wir zeigen: dim[im(f )] = n − dim(ker(f )). Als Teilraum von V hat ker(f ) auch ein
endliche Dimension, nämlich dim(ker(f )) =: k ≤ n.
80
Sei {b1 , . . . , bk } eine Basis von ker(f ). Nach dem Basisergänzungssatz kann man sie durch bk+1 , . . . , bn zu einer
Basis {b1 , . . . , bn } von V ergänzen.
Es gilt nun: {f (bk+1 ), . . . , f (bn )} ist eine Basis von im(f ), das sind aber gerade n − k Vektoren.
Beweis der Basiseigenschaft:
(i) im(f ) =< f (bk+1 ), . . . , f (bn ) >
Sei y ∈ im(f ) ⇒ ∃x ∈ V : f (x) = y.
Weil x ∈ V ∃λ1 , . . . λn ∈ K mitx = λ1 b1 + . . . + λn bn .
Dann ist
y
=
f (x) = f (λ1 b1 + . . . + λn bn ) =
=
λ1 f (b1 ) + . . . + λk f (bk ) +λk+1 f (bk+1 ) + . . . + λn f (bn )
| {z }
| {z }
=
λ1 · 0 + . . . . . . + λk · 0 + λk+1 f (bk+1 ) + . . . + λn f (bn ) ⇒
im(f ) ⊆< f (bk+1 ), . . . , f (bn ) >⊆ im(f ), also gilt (i).
(ii) {f (bk+1 ), . . . , f (bn )} ist l.u. (mittels Unabhängigkeitskriterium):
Sei λk+1 f (bk+1 ) + . . . + λn f (bn ) = 0 ⇒ f (λk+1 bk+1 + . . . + λn bn ) = 0 ⇒
λk+1 bk+1 + . . . + λn bn ∈ ker(f ) ⇒ ∃µ1 , . . . , µk ∈ K :
λk+1 bk+1 + . . . , +λn bn = µ1 b1 + . . . + µk bk ⇒
µ1 b1 + . . . + µk bk + (−λk+1 )bk+1 + . . . + (−λn )bn = 0.
Weil {b1 , . . . , bn } als Basis l.u. ist, sind alle Koeffizienten, insbesondere
λk+1 = . . . = λn = 0, also gilt (ii).
dim(ker(f )) + dim(im(f )) = dim(V )
Je größer der Kern, desto kleiner ist das Bild: f hat “schlechte” Eigenschaften
Je kleiner der Kern, desto größer das Bild: f hat immer “bessere” Eigenschaften.
Im Grenzfall ist ker(f ) = {0} und im(f ) = W ⇔ f ist bijektiv und linear, also ist f ein Isomorphismus von V auf W . k−dimensionale Teilräume bleiben k−dimensional und l.u. Vektoren
bleiben l.u. Der zu V isomorphe Vektorraum W hat dieselben “linearen” Eigenschaften wie V
selbst. W ist im algebraischen Sinn nur eine “Kopie” von V , man schreibt: V ∼ W . Musikalischer
Vergleich: Es ist so, als ob man ein Musikstück statt in C-Dur in G-Dur spielt.
81
Zusammenfassende Bemerkung:
Die Begriffe Bild, Kern, Rang und Defekt lassen sich also auf Matrizen übertragen, wenn man
diese als lineare Abbildung A : K n → K m mit A(~x) = A~x auffaßt. Die so entstehenden Begriffe
fallen mit denen aus Kapitel 8.3 zusammen! Sei A eine m × n−Matrix über dem Körper K.
im(A) = {~y ∈ K m |~y = A · ~x, ~x ∈ K m } = Spaltenraum von A = S(A)
ker(A) = {~x ∈ K n |A~x = ~0} = Lösungsmenge des homogenen
Gleichungssysteme A · ~x = ~0 = Nullraum von A = N(A)
rg(A) = dim(im(A)) = dimS(A) = Rg(A)
def (A) = dim(ker(A)) = dim(N (A))
Es gilt wieder: def (A)) + rg(A) = n
Auch hier gilt: Je kleiner der Defekt, desto bessere Eigenschaften hat die Matrix A, dies auch
in Hinblick auf die Invertierbarkeit:
Wir wissen: Die m×n−Matrix hat eine Linksinverse ⇔ A hat Rang n; nach dem Abbildungssatz
ist dann def (A) = 0. Ein positiver Defekt hat die Nichtinvertierbarkeit zur Folge, also auch eine
“schlechte” Eigenschaft.
Die Linearität einer Abbildung ist eine sehr starke Einschränkung. Tatsächlich ist eine lineare Abbildung bereits durch die Bilder der Basiselemente eindeutig festgelegt, d.h., kennt man
die Bilder der Basiselemente, so sind dadurch die Bilder der anderen Elemente bestimmt, die
Vorschrift läßt sich von den Basiselementen auf alle anderen Vektorraumelemente fortsetzen:
V =< b1 , b2 , b3 >, w1 , w2 , w2 ∈ W
Satz 17.10 Fortsetzungssatz für lineare Abbildungen
B = {b1 , b2 , . . . , bn } sei eine Basis von V und w1 , w2 , . . . , wn ∈ W .
82
Es gibt genau eine lineare Abbildung f von V in W , die auf B vorgeschriebene Werte
w1 = f (b1 ), w2 = f (b2 ), . . . , wn = f (bn ) annimmt, nämlich
f (x) := λ1 w1 + . . . + λn wn =
X
λi wi =
X
λi f (bi ) ∀x ∈ V
wobei λ1 , λ2 , . . . , λn die Koordinaten von x bezüglich der Basis B sind, also x =
x=
X
λi bi ⇒ f (x) =
X
P
λ i bi .
λi f (bi )
Bemerkung: Die vorgeschriebenen Werte können beliebige Vektoren sein, auch l.a. oder sogar
alle gleich.
Beweis:
(i) Dieses f ist linear:
Seien x, y ∈ V ⇒ x =
Pn
i=1
λi bi , y =
x+y
=
λx
=
f (x + y)
=
=
f (λx)
=
Pn
i=1
µi b i ⇒
P
(λi + µi )bi ⇒ λi µi sind Koordinaten von x + y und
P
(λλi )bi ⇒ λλi sind die Koordinaten von λx ⇒
P
P
(λi + µi )f (bi ) = (λi f (bi ) + µi f (bi )) =
P
P
λi f (bi ) + µi f (bi ) = f (x) + f (y)
P
P
P
(λλi )f (bi ) =
λ(λi f (bi )) = λ λi f (bi ) = λf (x)
(ii) Ist g eine andere lineare Abbildung mit g(bi ) = f (bi ) für i = 1, 2, . . . , n ⇒ g = f :
P
Sei x =
λi bi ⇒
P
P
P
P
f (x) = f ( λi bi ) =
λi f (bi ) =
λi g(bi ) =
g(λi bi ) =
P
= g( λi bi ) = g(x) ∀x ∈ V
Beispiel:
Es sei f : K 4 → K 3 jene lineare Abbildung, für die f (1, 1, 1, 1)(2, 2, 2), f (1, 1, 1, 0)(1, 3, 5),
f (1, 0, 1, 0)(2, 3, 4), f (1, 0, 0, 0)(1, 1, 1) gilt
(i) Gib f an
(ii) Berechne Basis und Dimension von im(f ), ker(f ).
1.
1
1
1
1
1
1
1
0
1
0
1
0
1
0
0
0
1
1
1
1
0
0
0 −1
0 −1
0 −1
0 −1 −1 −1
1
1 1
1
0
1 1
1
0 −1 0 −1
0
0 0 −1
1
1 1
1
0
1 1
1
0
0 1
0
0
0 0
1
4 l.u. Vektoren bilden in K 4 eine Basis. Damit ist f eindeutig bestimmt.
83
2. Stelle (x1 , x2 , x3 , x4 ) als Linearkombination der Basis dar.
1
1
1
1 | x1
1
1
0
0 | x2
1
1
1
0 | x3


1
0
0
0 | x4
x1
1
1
1
1
x1
 x2 

0
0 −1 −1
x2 − x1
f
 x3  = x4 · f (b1 ) + (x2 − x4 )f (b2 )+
0
0
0 −1
x3 − x1
x4
0 −1 −1 −1
x4 − x1
+(x3 −x2 )f
(b3 ) + (x1 − x
3 )f (b
4) =
1
1
1
1
x1
2
1
0
1
1
1
x1 − x4
= x4 ·  2  + (x2 − x4 )  3  +
0
0
1
1
x1 − x2
2 
5 
0
0
0
1
x1 − x3
2
1
1
1
1
0
x3
+(x3 − x2 )  3  + (x1 − x3 )  1 
0
1
1
0
x3 − x4
4
1


0
0
1
0
x3 − x2
2x4 + x2 − x4 + 2x3 − 2x2 + x1 − x3
0
0
0
1
x1 − x3
=  2x4 + 3x2 − 3x4 + 3x3 − 3x2 + x1 − x3  =
1
1
0
0
x2
3 − 4x2 + x3 − x3
 2x4 + 5x2 − 5x4 + 4x
0
1
0
0
x2 − x4
x1 − x2 + x3 + x4
0
0
1
0
x3 − x2

x1 + 2x3 − x4
=
0
0
0
1
x1 − x3
x1 + x2 + 3x3 − 3x4
1
0
0
0
x4
0
1
0
0
x2 − x4
0
0
1
0
x3 − x2
0
0
0
1
x1 − x3
f (x1 , x2 , x3 , x4 ) = (x1 − x2 + x3 + x4 , x1 + 2x3 − x4 , x1 + x2 + 3x3 − 3x4 )
       
2
1
2
1
im(f ) =< f (b1 ), f (b2 ), f (b3 ), f (b4 ) >=<  2  ,  3  ,  3  ,  1  >=
2
5
4
1
   
3.
1
2
= <  2  ,  3  > ⇒ rg(f ) = 2 ⇒ def (f ) = 4 − 2 = 2
5
2
4. ker(f ) = {~x ∈ K 4 |f (~x) = 0}
x1 − x2 + x3 + x4 = 0
x1 + 2x3 − x4 = 0
x1 + x2 + 3x3 − 3x4 = 0
ker(f ) =< (1, 2, 0, 1), (−2, −1, 1, 0) >
84
17.3 Anwendung: Lineare Operatorgleichungen
Nachdem wir Matrizen auf lineare Abbildungen verallgemeinert haben, wollen wir jetzt lineare
Gleichungssysteme verallgemeinern.
Bisher:
A · ~x = ~b
~x ∈ K n ~b ∈ K m
↓
Nun:
f (v) = w
↓
↓
v∈V
w∈W
Gegeben seien zwei Vektorräume V und W über demselben Körper K und eine lineare Abbildung
f von V in W , insbesondere kann W = V sein, f heißt dann gerne auch linearer Operator
(= Endomorphismus). Weiters sei ein beliebiger Vektor w ∈ W gegeben. Gesucht sind jene
Vektoren v ∈ V mit:
f (v) = w:
lineare Operatorgleichung
f (v) = 0:
dazugehörige homogene lineare
Operatorgleichung
L = {v ∈ V |f (v) = w} = f −1 (w):
Lösungsmenge der Operatorgleichung
L ist die Urbildmenge von w unter f
v0 ∈ V mit f (v0 ) = w:
LH = ker(f ) = f −1 (0):
spezielle Lösung der Operatorgleichung
Lösungsmenge der dazugehörigen homogenen
Operatorgleichung
Ist T ⊆ V und v0 ∈ V , dann ist v0 + T := {v ∈ V |v = v0 + t mit t ∈ T }.
Satz 17.11 Lösungsmenge einer linearen Operatorgleichung
(i) Die Lösungsmenge L der linearen Operatorgleichung f (v) = w ist gegeben durch
L = v0 + ker(f ) = v0 + LH
wobei v0 eine spezielle Lösung ist: f (v0 ) = w.
(ii) Diese Darstellung der Lösungsmenge ist unabhängig von der Wahl der speziellen Lösung
v0 .
85
Kurz: Die Lösungsmenge einer linearen Operatorgleichung setzt sich zusammen aus
einer speziellen Lösung und der Lösungsgesamtheit der dazugehörigen homogenen
Gleichung.
Beweis:
(i) 1. Sei v eine beliebige Lösung, also f (v) = w und v0 eine spezielle Lösung, also auch f (v0 ) = w ⇒ f (v − v0 ) =
f (v) − f (v0 ) = w − w = 0 ⇒ v − v0 ∈ ker(f ) ⇒ v = v0 + ker(f ) ⇒ L ⊆ v0 + ker(f ).
2. Sei v ∈ v0 + ker(f ) ⇒ v = v0 + k mit k ∈ ker(f ) ⇒ f (v) = f (v0 + k) = f (v0 ) + f (k) = w + 0 = w ⇒ v ∈ L ⇒
v0 + ker(f ) ⊆ L.
(ii) Seien v0 und v1 zwei spezielle Lösungen, also f (v0 ) = f (v1 ) = w. Dann gilt: v0 + ker(f ) = v1 + ker(f ).
Sei v ∈ v0 + ker(f ) ⇒ v = v0 + k0 mit k0 ∈ ker(f ) ⇒ f (v − v1 ) = f (v) − f (v1 ) = f (v0 + k0 ) − f (v1 ) =
f (v0 ) + f (k0 ) − f (v1 ) = f (v0 ) + 0 − f (v1 ) = f (v0 ) − f (v1 ) = w − w = 0 ⇒ v − v1 ∈ ker(f ) ⇒ v ∈ v1 + ker(f ).
Sei v ∈ v1 + ker(f ) ⇒ v = v1 + k1 mit k1 ∈ ker(f ).Dannistf (v − v0 ) = f (v) − f (v0 ) = f (v1 ) + f (k1 ) − f (v0 ) =
f (v1 ) − f (v0 ) = 0 ⇒ v − v0 ∈ ker(f ) ⇒ v ∈ v0 + ker(f ).
Beispiele von linearen Operatorgleichungen:
1. Differentialgleichungen: Gesucht ist eine Funktion, deren Ableitungen eine Gleichung
erfüllen (man sagt: Die gesuchte Funktion kommt unter dem Differentiationszeichen vor)
y(x) ∈ IRIR (reelle Funktion)
(z.B.: y(x) = xn , ex , sin x, . . .)
Gewöhnliche Differentialgleichungen sind z.B.:
y 0 = sin x · cos y
3y 00 + 4y 0 + y = x3
x2 · y 000 + (1 − x)y 00 + x · y 0 + 5x · y = tan x
Wie betrachten lineare Differentialgleichungen:
an (x)y (n) + . . . + a2 (x)y 00 + a1 (x) · y 0 + a0 (x) · y = s(x)
|
{z
}
f (y)
f (y) := an (x)y (n) + . . . + a1 (x) · y 0 + a0 (x) · y
f : C ∞ → C ∞ Vektorraum der beliebig oft differenzierbaren Funktion
f ist linearer Operator (oft mit L[y] bezeichnet):
f (y + z) = an (x)(y + z)(n) + . . . + a1 (x)(y + z)0 + a0 (x)(y + z) = an (x)y (n) + . . . + a1 (x)y 0 +
a0 (x)y + an (x)z (n) + . . . + a1 (x)z 0 + a0 (x)z = f (y) + f (z)∀y, z ∈ C ∞ .
f (λy) = an (x)(λy)(n) +. . .+a1 (x)λ·y 0 +a0 (x)·λ·y = λ·(an )(x)y (n) +·+a1 (x)y 0 +a0 (x)) =
λ · f (x).
86
f ist linear wegen der Differentiationsregeln.
Siehe: Differentialgleichungen.
2. Integralgleichungen: Gesucht ist eine Funktion y(t) unter dem Integralzeichen, z.B:
R
sin(x · t)y(x)dt = g(x) t Integrationsvariable
Für jede Wahl von x erhält man eine bestimmte Zahl =:g(x).
V := C[a, b] Vektorraum auf [a, b] stetigen Funktion
Rb
f (y) := a sin(x · t)y(x)dt
f : C[a, b] → C[a, b]
Wegen der Integrationsregeln ist f ein linearer Operator
Siehe: Funktionalanalysis
3. Differenzengleichungen: Gesucht ist das allgemeine Glied xn einer Folge (xn ), z.B.:
x0 = 1, x1 = 0
xn “rekursiv” definiert
xn+2 − 3xn+1 + xn = yn
Man spricht von einer Differenzengleichung 2. Ordnung.
V = IRIN Vektorraum der unendlichen Zahlenfolgen (xn ) über IR,CI . . .
(xn ) = (x0 , x1 , x2 , x3 , . . .)
f (xn ) = xn+2 − 3xn+1 + xn
f : IRIN → IRIN
f ist wegen der Körpergesetze ein linearer Operator.
Differenzengleichungen werden in einem eigenen Kapitel behandelt.
4. Lineare Gleichungssysteme: Gesucht ist ein n−Tupel ~x ∈ K n :
A · ~x = ~b A ∈ K m·n
f (~x) = A · ~x f : K n → K m
f ist wegen der Matrizenregeln ein linearer Operator. Ein lineares Gleichungssystem ist
also eine spezielle lineare Operatorgleichung (siehe Kapitel 15).
Die Ergebnisse des Kapitels 15 kann man wie folgt verallgemeinern:
87
Satz 17.12 Hauptsatz über lineare Operatorgleichungen
V und W seien zwei Vektorräume über demselben Körper K (auch W = V zugelassen) und
f := V → W sei ein linearer Operator, w ∈ W .
(i) f (v) = w ist genau dann lösbar, wenn w ∈ im(f ).
(ii) f (v) = w ist genau dann universell lösbar, wenn f surjektiv ist. Ist W endlich dimensional, dann ist dies genau dann der Fall, wenn rg(f ) = dim(W ).
(iii) Im Falle der Lösbarkeit ist f (v) = w genau dann eindeutig lösbar, wenn f nicht singulär
(regulär) ist.
Ist f singulär, dann ist f (v) = w mehrdeutig lösbar und die Lösungsmenge L ist gegeben
durch
L = v0 + ker(f )
wobei v0 eine spezielle Lösung der Gleichung ist.
Beweis:
(i) = Definition von im(f ).
(ii) L = W ⇔ im(f ) = W ⇔ f surjektiv (rg(f ) = dim(W )).
(iii) Nach 17.11 ist L = v0 + ker(f ).
f nichtsingulär ⇔ def (f ) = 0 ⇔ ker(f ) = {0} ⇔ L = {v0 }
Bemerkung: Eine lineare Operatorgleichung hat also eine leere, eine einelementige oder eine unendliche Lösungsmenge (wenn V unendlich), nicht jedoch eine Lösungsmenge aus 2,3,...
Elementen.
Damit kann man auch die Frage nach der Invertierbarkeit (Umkehrbarkeit) einer linearen
Abbildung f : V → W beantworten.
In Kapitel 2 hatten wir ganz allgemein gesehen:
f invertierbar ⇔ f umkehrbar ⇔ f bijektiv.
Im Falle der Invertierbarkeit hat daher jedes w ∈ W genau ein Urbild.
Für lineare Abbildungen f : V → W gilt darüber hinaus:
f −1 (w) = v0 + ker(f ).
f singulär ⇔ def (f ) > 0 ⇔ ker(f ) nicht trivial ⇔ w hat mehrere Urbilder ⇔
88
f nicht invertierbar.
Die Invertierbarkeit von f kann damit in der “Sprache der lineraen Abbildungen” folgend ausgedrückt werden:
Satz 17.13 Hauptsatz über die Umkehrbarkeit von linearen Abbildungen
f sei eine lineare Abbildung von V in W .
(i) f ist genau dann invertierbar, wenn im(f ) = W und f nichtsingulär (regulär) ist. D.h.,
genau die Isomorphismen sind die invertierbaren linearen Abbildungen.
(ii) Ist V endlichdimensional, dann ist f genau dann invertierbar, wenn dim(W ) = dim(V )
und f nichtsingulär (regulär) ist.
(iii) Ist dim(V ) = dim(W ) (Spezialfall V = W ), dann ist f genau dann invertierbar, wenn f
nichtsingulär ist.
D.h.: In diesem Fall (aber sonst nicht) folgt aus der Injektivität bereits die Surjektivität
und umgekehrt (Analogon zu endlichen Mengen, siehe 1.)
Beachte: Die Regularität ist im allgemeinen nicht hinreichend für die Invertierbarkeit.
Beweis:
(i) 1. Sei f invertierbar ⇒ ∀w ∈ W ∃ genau ein v ∈ V mit f (v) = w ⇒ im(f ) = W und die lineare
Operatorgleichung f (v) = w hat genau eine Lösung ⇒ def (f ) = 0 ⇒ f nicht singulär.
2. Sei im(f ) = W und def (f ) = 0 ⇒ ∀w ∈ W ∃v ∈ V mit f (v) = W , wegen def (f ) = 0 ist v eindeutig
bestimmt ⇒ f invertierbar.
(Auch so: def (f ) = 0 ⇔ f injektiv, zusammen mit im(f ) = W ist f bijektiv ⇒ invertierbar).
(ii) Sei dim(V ) = n < ∞.
1. f invertierbar ⇒ def (f ) = 0, und im(f ) = W ⇒ rg(f ) = dim(W ) ⇒ wegen der Abbildungsgleichung
17.9 (anwendbar wegen dim(V ) = n) : rg(f ) + def (f ) = dim(V ) ⇔ dim(W ) + 0 = dim(V ).
2. Sei dim(W ) = dim(V ) und def (f ) = 0 ⇒ rg(f ) = dim(V ) − def (f ) = dim(W ) − 0 = dim(W ) ⇒
(im(f )) = dim(W ) und im(f ) C W ⇒ im(f ) = W ⇒ f invertierbar.
(iii) Sei dim(V ) = dim(W ) = n.
f injektiv ⇔ def (f ) = 0 ⇔ rg(f ) = n − def (f ) = n − 0 = n ⇔ rg(f ) = dim(W ) ⇔ im(f ) = w ⇔ f
surjektiv.
Bemerkung: Die endliche Dimension von V in (ii) ist wesentlich:
V = P . Vektorraum der Polynome, dim(P ) = ∞.
f : P → P mit f (p(x)) = X · p(X).
89
f ist linear.
f ist nicht singulär: Sei f (p()) = 0 ⇒ X · p(x) = 0∀X ⇒ p(x) = 0.
Trotzdem ist f nicht invertierbar: Die Konstanten in P werden nicht erfaßt.
Die Nichtsingularität (Regularität) kann zusammenfassend durch folgende äquivalente
Eigenschaften charakterisiert werden:
Satz 17.14 Charakterisierung der Nichtsingularität
f sei eine lineare Abbildung von V in W .
(i) f nichtsingulär ⇔ f injektiv ⇔ f Monomorphisms
(ii) f nichtsingulär ⇔ Bild einer l.u. Menge ist wieder l.u.
Bei zusätzlicher Voraussetzung dim(V) = dim(W) = n (z.B. W = V ) gilt (iii) bis (vii):
(iii) f nichtsingulär ⇔ f surjektiv ⇔ rg(f ) = n.
(iv) f nichtsingulär ⇔ f invertierbar.
(v) f nichtsingulär ⇔ f Isomorphismus.
(vi) f nichtsingulär ⇔ Bild einer Basis ist wieder eine Basis.
(vii) Eine quadratische (n × n)−Matrix A nichtsingulär (regulär) ⇔ rg(A) = n.
Nochmals Beweise:
(i) 1. f nichtsingulär und f (x) = f (y) ⇒ f (x − y) = 0 ⇒ x − y = 0 ⇒ x = y ⇒ f injektiv.
2. f injektiv und f (v) = 0 ⇒ f (v) = 0 = f (0) ⇒ v = 0 ⇒ f nichtsingulär. Der zweite Teil ist Definition.
(ii) 1. f nichtsingulär und M ⊆ V l.u.. d.h. {v1 , . . . , vn } l.u. ∀n ∈ IN. Sei λ1 f (v1 ) + . . . + λn f (vn ) = 0 ⇒
f (λ1 v1 + . . . + λn vn ) = 0 ⇒ λ1 v1 + . . . + λn vn = 0 (Nur 0 auf 0) ⇒ λi 0 = ∀i ⇒ {f (v1 ), . . . , f (vn )} l.u.
∀n ⇒ f (M ) l.u.
2. Sei das Bildjeder l.u. Menge wieder l.u. und sei v 6= 0 beliebig aus v ⇒ {v} l.u. ⇒ {f (v)} = l.u. ⇒
f (v) 6= 0 ⇒ f nichtsingulär.
(iii) 1. f nichtsingulär ⇔ def (f ) = 0 ⇔ rg(f ) = n − def (f ) = n ⇔ rg(f ) = dim(W ) ⇔ im(f ) = W ⇔ f
surjektiv.
2. Sei f surjektiv ⇔ rg(f ) = n ⇔ def (f ) = n − rg(f ) = 0 ⇔ f injektiv ⇔ f nichtsingulär.
(iv) f nichtsingulär ⇔ f injektiv und f surjektiv ⇔ f bijektiv ⇔ f invertierbar.
(v) f nichtsingulär ⇔ f invertierbar ⇔ f bijektiv ⇔ f Isomorphismus.
90
(vi) 1. f nichtsingulär und {b1 , . . . , bn } Basis von V ⇒ {f (b1 ), . . . , f (bn )} l.u. und
< f (b1 ), . . . , f (bn ) >= im(f ) = W , weil f auch surjektiv ist. Insgesamt: {f (b1 ), . . . , f (b1 )} ist Basis von
W.
2. Sei {b1 , . . . , bn } Basis von V und {f (b1 ), . . . , f (bn )} Basis von W . Sei v 6= 0 aus V und f (v) = 0 ⇒ v =
λ1 b1 + . . . + λn bn ⇒ 0 = f (v) = λ1 f (b1 ) + . . . + λn f (bn ) ⇒ λ1 = . . . = λn = 0, weil f (b1 ), . . . , f (bn ) l.u.
⇒ v = 0 ⇒ f nichtsingulär.
(vii) A nichtsingulär ⇔ ker(A) = {0} ⇔ def (A) = 0 ⇔ n − def (A) = n ⇔ Rg(A) = n ⇔ A invertierbar.
Mit (iv), (v) gilt auch:
Satz 17.15 Charakterisierung von Isomorphismen in endlich dimensionalen
Vektorräumen
Eine lineare Abbildung f : V → W ist genau dann ein Isomorphismus, wenn das Bild einer
Basis wieder eine Basis ist.
Sei dim(V ) = n
1. f : V → W Isomorphismus ⇒ dim(W ) = dim(V ) = n und f nichtsingulär ⇒Bild einer Basis ist wieder Basis.
2. Sei {b1 , . . . , bn } eine Basis von V ⇒ {f (b1 ), . . . , f (bn )} Basis von W ⇒ dim(W ) = dim(V ) = n ⇒ f
nichtsingulär ⇒ f Isomorphismus.
Definition 17.8 Zwei Vektorräume V und W über demselben Körper K heißen isomorph
(symbolisch V ∼
= W ), wenn es einen Isomorphismus f : V → W gibt.
Satz 17.16 Isomorphie von endlichdimensionalen Vektorräumen
Jeder Vektorraum V der Dimension n ist isomorph zu K n .
Die Isomorphie von Vektorräumen ist eine Äquivalenzrelation auf der Menge aller Vektorräume
über K(V ∼
= V, V ∼
=W ⇒W ∼
= V, V ∼
=W ∼
=X⇒V ∼
= X). Bis auf Isomorphie gibt es also nur
einen n−dimensionalen Vektorraum, nämlich K n .
Beweis: Sei B = (b1 , . . . , bn ) eine Basis von V und x ∈ V .
f : V → K n somit f (x) = [x]B .
Jedem Vektor werden also seine Koordinaten bezüglich einer festen Basis B zugeordnet.
1. f ist linear: f (x + y)
=
[x + y]B = [x]B + [y]B = f (x) + f (y)
f (λx)
=
[λx]B = λ[x]B
2. f ist injektiv ⇔ nichtsingulär:
Sei f (x) = 0 ⇒ [x]B = 0 ⇒ x = 0
Damit ist f automatisch auch surjektiv.
91
Praktische Bedeutung:
Kommt es nur auf die “linearen” Eigenschaften an, also auf jene, die sich nur durch die Vektorraumoperation + und Vervielfachen ausdrücken lassen, genügt es, im K n zu rechnen. Man ordnet
jedem Vektor seine Koordinaten bezüglich einer Basis zu (meistens die Standardbasis), rechnet
im K n und transformiert das Ergebnis in V zurück (f −1 ist mit f wieder ein Isomorphismus).
17.4 Rechnen mit linearen Abbildungen
In der elementaren Physik werden meßbare Größen wie Ort, Geschwindigkeit usw. mit reellen
Zahlen gemessen. In der Quantenmechanik werden diese meßbaren Größen durch lineare Operatoren angegeben. So wie mit Zahlen benötigt man dort ein Rechnen mit linearen Operatoren,
es entspricht dem Rechnen mit Matrizen.
Satz 17.17 Summe und Vielfaches von linearen Abbildungen
V und W seien Vektorräume über K. f, g : V → W seien lineare Abbildungen.
(i) Summe (f + g) und Vielfaches (kf ) von linearen Abbildungen sind wieder lineare Abbildungen. Dabei ist rg(f + g) ≤ rg(f ) + rg(g), rg(kf ) = rg(f ).
(ii) Die Menge aller linearen Abbildungen von V in W bildet bezüglich der Addition und der
Vielfachbildung einen Vektorraum über K, bezeichnet mit L(V, W ) bzw. Hom (V, W ). Es
ist L(V, W) C WV .
(iii) Ist dim(V ) = n und dim(W ) = m, dann ist dim(L(V, W)) = m · n.
Ist {v1 , v2 , . . . , vn } eine Basis von V und {w1 , w2 , . . . , wm } eine Basis von W , dann bilden
die Abbildungen fij mit
fij (vi ) = wj und fij (vk ) = 0 für k 6= i
eine Basis von L(V, W ).
Die Hintereinanderausführung von linearen Abbildungen f, g bezeichnet man auch als Produkt
(g ◦ f )(x) := g(f (x)).
92
f :V →W
f (V ) = W
g:W →X
Beachte: Zuerst wird die innere Abbildung f ausgeführt.
Satz 17.18 Produkt von linearen Abbildungen
V, W, X seien Vektorräume über demselben Körper K. f, f 0 : V → W, g, g 0 : W → X seien solche
lineare Abbildungen, daß alle auftretenden Produkte definiert seien.
(i) Das Produkt g ◦ f von linearen Abbildungen ist wieder linear: g ◦ f ∈ L(V, W ).
(ii) Der Rang des Produktes zweier linearer Abbildungen ist kleiner oder gleich dem Rang eines
jeden Faktors:
rg(g ◦ f ) ≤ rg(f ), rg(g ◦ f ) ≤ rg(g) ⇔ rg(g ◦ f ) ≤ min(rg(f ), rg(g)).
Der Rang eines Produktes von Abbildungen kann nicht den Rang eines Faktors
übertreffen.
(iii) Das Produkt von linearen Abbildungen (und nur von diesen) ist linksdistributiv bezüglich
der Addition:
g ◦ (f + f 0 ) = g ◦ f + g ◦ f 0 .
Weiterhin gilt wie für alle Abbildungen die Rechtsdistributivität:
(g + g 0 ) ◦ f = g ◦ f + g 0 ◦ f
k(g ◦ f ) = (kg) ◦ f = g ◦ (kf )
(iv) Im Falle der Existenz ist die Inverse einer linearen Abbildung wieder linear. Es gilt dann
so wie für alle Abbildungen: (g ◦ f )−1 = g −1 ◦ f −1 , aber die Summe von invertierbaren
linearen Abbildungen muß nicht invertierbar sein. Das Produkt von Abbildungen kann
nichtsingulär sein, auch wenn ein Faktor singulär ist.
93
(v) Für den Spezialfall W = V , also L(V, V ) gilt (Summe und Produkt sind dann immer definiert): Die Menge L(V, V ) der linearen Operatoren eines Vektorraumes auf sich selbst
bildet bezüglich der Addition und des Produktes von Abbildungen einen nicht kommutativen Ring mit 1 = idv .
Insgesamt gilt also:
L(V, V ) ist bezüglich Addition, Vervielfachen und Produkt Hintereinanderausführung eine
nicht kommutative Algebra.
Beweis zu (ii):
Sei f : V → W mit rg(f ) = r bzw. g : W → X mit rg(g) = s. f bildet V in den r−dimensionalen Teilraum im(f )
von W ab. g bildet W in den s−dimensionalen Teilraum im(g) von X ab. Nun ist
im(gf ) = {(gf )(v)|v ∈ V } = {g(f (v))|v ∈ V } = {g(v 0 )|v 0 ∈ im(f )} ⊆ im(g) ⇒
dim(gf ) ≤ dim(im(g)) = s ⇒ rg(gf ) ≤ s.
im(gf ) ist nach (*) das Bild des Teilraumes im(f ) unter g. Es ist dim(im(f )) = rg(f ) = r. Nun wird die
Dimension eines Bildes eines Teilraumes unter einer linearen Abbildung höchstens kleiner, daher ist rg(gf ) ≤ r.
Bemerkungen:
1. Ist f invertierbar, dann ist wegen im(f ) = W : rg(g ◦ f ) = rg(g).
2. Analog gilt für Matrizen: rg(A · B) ≤ min(rg(A), rg(B)).
3. Wegen des Assoziativgesetzes bezüglich ◦ ist in L(V, V ) eine Potenzrechnung möglich:
f n := f◦ f◦ . . . ◦ f . Damit ist das Einsetzen von Abbildungen in Polynome möglich:
| {z }
n aml
Ist p(x) = a0 + a1 X + a2 X 2 + . . . + an X n , dann sei
p(f ) := a0 id + a1 f + a2 f 2 + . . . + an f n .
94
17.5 Faktorräume (Quotientenräume)
Vektorräume enthalten im allgemeinen sehr viele Elemente. Sieht man von gewissen Eigenschaften der Elemente ab, können sie “verkleinert” werden. Dieses Verkleinern kann formal mittels
einer Äquivalenzrelation beschrieben werden.
Beispiel: Im Vektorraum der Ortsvektoren in der Ebene werden Vektoren, deren Endpunkte
auf einer Geraden (= Teilraum) liegen, als “gleich” (= äquivalent) angesehen:
v1 ∼ v2 ∼ v3 ∼ v4 ∼ . . .
v ∼u w := w − v ∈ U
Alle äquivalenten Vektoren haben die Eigen-
Alle zu v äquivalenten Vektoren sind gegeben
schaft, daß ihren Differenzen im Teilraum U lie-
durch v + U = {v + u|u ∈ U },
gen.
also durch die Nebenklasse v nach U.
Äquivalenzklasse [v] = {w|w ∼u v} = {w 6= v + u|n ∈ U } = v + U.
Alle zu v + U gehörende Vektoren werden mit der Geraden g = v + U “identifiziert”. g ist das
Bild (der Ersatz) für die unendlich vielen Vektoren v1 , v2 , . . . mit Endpunkt auf g.
dimV 2 = 2
V /U = “Faserraum” = Menge aller v + U =
dimU = 1
Quotientenraum von V nach U .
Wann sind 2 Nebenklassen v1 + U, v2 + U gleich?
95
v1 + U = v2 + U ⇔ v2 − v1 ∈ U
Rechnen mit Nebenklassen:
Allgemein:
Gegeben sei ein Vektorraum V über einen Körper K und ein Teilraum U C V .
Definition 17.9 Nebenklasse nach einem Teilraum
(i) 2 Vektoren v1 , v2 ∈ V heißen äquivalent (modulo U ), wenn ihre Differenz in U liegt:
v1 ∼U v2 ⇔ v2 − v1 ∈ U (oder v1 − v2 ∈ U )
∼U ist eine Äquivalenzrelation auf V .
(ii) Die Äquivalenzklasse [v] nach dieser Äquivalenzrelation modulo U ist die Menge v + U =
{v + u|u ∈ U }. v + U heißt die Nebenklasse von v nach U .
[v]∼U = {w ∈ V |w ∼U v} = {w|w − v ∈ U } = {w ∈ V |w = v + u, u ∈ U } = v + U
[v]∼U = v + U
v heißt ein Vertreter (Repräsentant) der Nebenklasse v + U .
96
(iii) Eine Nebenklasse kann durch verschiedene Vertreter angegeben werden.
Zwei Nebenklassen v1 + U und v2 + U sind genau dann gleich, wenn ihre Differenz in U
liegt:
v1 + U = v2 + U ⇔ v2 − v1 ∈ U ⇔ v1 ∼U v2 .
Beweis:
1. Ist v2 − v1 ∈ U ⇒ v2 − v1 = u ⇒ v2 = v1 + u.
Damit: Ist x ∈ v2 + U ⇒ x = v2 + u0 = v1 + (u + u0 ) ∈ v2 + U , weil n + n0 + U = U
Ist y ∈ v1 + U ⇒ y = v1 + u0 = v2 − u + u0 = v2 + u0 − u ∈ v2 + U
2. Ist v1 + U = v2 + U ⇒ v2 = v2 + 0 ∈ v2 + U = v1 + U ⇒ v2 = v1 + u ⇒ v2 − v1 = u ∈ U .
Beachte insbesondere: U + U = U = 0 + U
Satz 17.19 Rechnen mit Nebenklassen
v1 + U und v2 + U seien 2 Nebenklassen nach U .
(i) Addition von 2 Nebenklassen:
2 Nebenklassen werden addiert, indem man ihre Vertreter addiert:
(v1 + U + (v2 + U) := (v1 + v2 ) + U
Diese Definition ist unabhängig von der Wahl der Vertreter (man sagt: wohldefiniert).
Seien v10 ∈ v1 + U und v20 ∈ v2 + U ⇒ (v10 + U ) + (v20 + U ) = (v10 + v20 ) + U = (v1 + u1 ) + (v2 + u2 ) + U =
(v1 + v2 ) + u1 + u2 + U = (v1 + v2 ) + U .
(ii) Vervielfachen einer Nebenklasse:
Eine Nebenklasse wird vervielfacht, indem man ihren Vertreter vervielfacht:
λ(v + U) := λv + U
Diese Definition ist wohldefiniert:
Sei v 0 ∈ v + U ⇒ v 0 = v + u mit u ∈ U ⇒ λ(v 0 + U ) = λv 0 + U = λ(v + u) + U =
λv + (λu + U ) = λv + U .
97
Satz 17.20 Faktorraum nach einem Teilraum
U sei ein Teilraum eines Vektorraumes über einen Körper K.
(i) Die Menge der Nebenklassen nach U eines Vektorraumes V bildet bezüglich der Addition
und des Vervielfachens von Nebenklassen wieder einen Vektorraum über K. Er heißt der
Faktorraum von V nach U .
Symbolisch: V/U := {v + U|v ∈ V}.
(ii) Ist V endlichdimensional, dann ist die Dimension des Faktorraumes die Differenz der
Dimension von V und U :
dim(V /U ) = dimV − dimU.
Beweis:
(i) Die Rechengesetze (V1 ), (V2 ), (V5 ), (V6 ), (V7 ), (V8 ) gelten, weil sie für die Repräsentanten gelten, z.B. das Assoziativgesetz:
[(v1 + U ) + (v2 + U )] + (v3 + U ) = [(v1 + v2 ) + U ] + (v3 + U ) = (v1 + v2 ) + v3 + U = v1 + (v2 + v3 ) + U =
(v1 + U ) + (v2 + v3 ) + U = (v1 + U ) + [(v2 + U ) + (v3 + U )] oder
1.(v1 + U ) = 1.v1 + U = v1 + U .
Der Nullvektor von V /U ist die Nebenklasse U :
(v + U ) + U = (v + U ) + (0 + U ) = (v + 0) + U = v + U : 0 = U.
Das additive inverse Element zu v + U ist −v + U :
(v + U ) + (−v + U ) = v + (−v) + U = 0 + U = U .
Sei dim(V ) = n.
U ist ebenfalls endlichdimensional. Sei {v1 , . . . , vk } eine Basis von U . Nach Basisergänzungssatz kann sie zu einer
Basis von V ergänzt werden.
V = (v1 , . . . , vk , vk+1 , . . . , vn )
Behauptung: (vk+1 + U), . . . , (vn + U) ist eine Basis von V/U.
Das sind n − k Elemente, k = dim(U ), daher ist dim(V /U ) = n − k = dim(V ) − dim(U ).
Sei λ1 (vk+1 + U ) + . . . + λn−k (vn + U ) = 0 = U ⇒ λ1 vk+1 + . . . + λn−k vn + U = 0 + U ⇒
λ1 vk+1 +. . .+λn−k vn ∈ U ⇒ λ1 vk+1 +. . .+λn−k vk = µ1 v1 +. . .+µk vk ⇒ µ1 v1 +. . .+µk vk −λ1 vk+1 . . . λn−k vn =
0 ⇒ λ1 = . . . = λn−k = 0 weil {v1 . . . , vn } l.u. ⇒ (vk+1 + U ) . . . (vn + U ) l.u.
98
Sei X eine beliebige Nebenklasse von V /U ⇒ X = x + U, x ∈ V ⇒ x = λ1 v1 + . . . + λn vn ⇒
X = λ1 v1 + . . . + λk vk +λk+1 vk+1 + . . . + λn vn + U ⇒ X = λk+1 vk+1 + . . . + λn vn + U = λk+1 (vk+1 + U ) +
{z
}
|
∈U
. . . + λn (vn + U ) ⇒ V /U ⊆< (vk+1 + U ), . . . , (vn + U ) >. Wegen (vk+1 + U ) . . . (vn + U ) ∈ V /U ist < (vk+1 +
U ), . . . , (vn + U ) >⊆ V /U ⇒ V /U < (vk+1 + U ), . . . , (vn + U ) > .
Die kanonische Projektion
Durch die Nebenklassen wird V in elementfremde Klassen zerlegt:
Satz 17.21 Kanonische Projektion
Die kanonische Projektion π ist jene Abbildung von V auf den Faktorraum V /U , die jedem
Vektor v aus V jene Nebenklassen zuordnet, in der v liegt.
π : V → V /U mit π(x) = x + U .
π ist eine surjektive lineare Abbildung auf V /U mit U als Kern, also:
ker(π) = U und im(π) = V/U
def (π) = dim(U ) und rg(π) = dim(V ) − dim(U )
π ist eine Projektion in Richtung U .
Beweis:
π(x + y) = x + y + U = (x + U ) + (y + U ) = π(x) + π(g)
π(λx) = λx + U = λ(x + U ) = λπ(x)
Sei v + U ∈ V /U beliebig ⇒ π(v) = v + U , also im(π) = V /U .
Sei u ∈ U ⇒ π(u) = u + U = U = Nullvektor von V /U ⇒ U ⊆ ker(π).
Sei x ∈ ker(π) ⇒ π(x) = 0 = U ⇒ x + U = U ⇒ x ∈ U ⇒ ker(π) ⊆ U .
99
Satz 17.22 Homomorphiesatz für Vektorräume
f : V → W sei eine surjektive lineare Abbildung von V auf W . Dann ist W isomorph zum
Faktorraum V /ker(f ).
f :V →W ⇒W∼
= V/ker(f )
Auch so: Alle epimorphen Bilder von V sind gegeben durch die Faktorräume von V
nach allen Teilräumen von V !
Beweis: Setzen U := ker(f ); V /U = {v + U/v ∈ V }.
1. Die Abbildung α : V /U → W sei definiert durch:
α(v + U ) := f (v)
Diese Definition von α ist wohldefiniert (unabhängig von der Wahl des Vertreters v):
Sei v1 + U = v2 + U ⇒ v2 − v1 ∈ U = ker(f ) ⇒ f (v2 − v1 ) = 0 ⇒ f (v2 ) − f (v1 ) = 0 ⇒ f (v2 ) = f (v1 ) ⇒
α(v2 + U ) = α(v1 + U ).
2. α ist injektiv:
Sei α(v1 + U ) = α(v2 + U ) ⇒ f (v1 ) = f (v2 ) ⇒ f (v1 ) − f (v2 ) = 0 ⇒ f (v1 − v2 ) = 0 ⇒ v1 − v2 ∈ ker(f ) =
U ⇒ v1 + U = v 2 + U .
3. α ist surjektiv auf W :
Sei w ∈ W ⇒ ∃v ∈ V : f (v) = w, weil f surjektiv ist. Für v + U ∈ V /U gilt dann: α(v + U ) = f (v) = w ⇒
jedes w ∈ W hat ein Urbild in V /U .
4. α ist linear
α[(v1 + U ) + (v2 + U )] = α[(v1 + v2 ) + U ] = f (v1 + v2 ) = f (v1 ) + f (v2 ) = α(v1 + U ) + α(v2 + U ).
α[λ(v + U )] = α[λv + U ] = f (λv) = λf (v) = λα(v + U ).
α ist also ein Isomorphismus und damit V /U ∼
= W.
100
Zusammenfassung:
Es gibt insgesamt 4 Methoden, um aus gegebenen Vektorräumen einen neuen Vektorraum zu
erhalten:
1. durch Teilraumbildung: U C V
2. durch direkte Summenbildung (Produktbildung)
V1 × V2 = {(v1 , v2 )|v1 ∈ V1 , v2 ∈ V2 }
3. durch homomorphe (lineare) Abbildungen: f (V ) = {f (v)|v ∈ V }
4. durch Faktorbildung nach einem Teilraum U :
V /U = {v + U/v ∈ V }
101
18 Matrizen und Lineare Abbildungen
In diesem Kapitel wird gezeigt, daß in endlich dimensionalen Vektorräumen lineare Abbildungen
und Matrizen einander umkehrbar eindeutig entsprechen. Die Verwendung von Matrizen hat
jedoch 2 Vorteile:
1. Aus der Gestalt der Matrixdarstellung kann man auf die Wirkung (die Struktur) der linearen Abbildung schließen.
2. Man kann die Bilder von Vektoren unter einer linearen Abbildung durch Multiplizieren mit
einer Matrix berechnen. Das ist praktisch (besonders mit einem Computer).
18.1 Matrixdarstellungen
Bisher wissen wir: Eine m × n−Matrix A induziert eine lineare Abbildung vom K n in den K m
durch die Festsetzung
A : Kn → Km
A(~x) := A · ~x ~x ∈ K n
A nennen wir die durch die Matrix A induzierte Matrixabbildung.
Nun wollen wir umgekehrt beliebige lineare Abbildungen zwischen endlich–dimensionalen Vektorräumen durch Matrizen darstellen: Matrixdarstellung einer linearen Abbildung. Dies gelingt dadurch, daß man anstelle der abstrakten Vektoren x ihre Koordinatendarstellungen [x]B
bezüglich einer vorgegebenen Basis B betrachtet.
Sei f : V → W eine lineare Abbildung von V in W , dim(V ) = n, dim(W ) = m (auch m = n
und W = V sind möglich).
B = {b1 , . . . , bn } sei eine Basis von V, B 0 = {b01 , . . . , b0m } eine Basis von W .
[x]B sei der Koordinatenvektor von x : [x]B ∈ K n .
[f (x)]B 0 sei der Koordinatenvektor des Bildvektors f (x) : [f (x)]0B ∈ K m .
V ∈x
f
−→
↓
K n ∈ [xB ]
f (x) ∈ W
↓
[f ]B 0 B
−→
[f (x)]B 0 ∈ K m
102
[f ]B 0 B die Matrixdarstellung von f (bezüglich der Basen B 0 , B), sie möge die Lücke von
K n → K m schließen, und zwar in der Weise, daß man den Koordinatenvektor [f (x)]B 0 durch
einfache Multiplikation von [x]B mit der Matrixdarstellung erhält, d.h.:
Ist

[f ]B 0 B
f11
f12
...
f1n


 f21
f22 . . . f2n
=
 ..
 .

fn+1 fn+2 . . . fmn




 =: A



dann soll gelten:
[f (x)]B 0 = [f ]B 0 B · [x]B
[f (x)] =
Kurz:
[f ] · [x].
Dies gelingt dann, wenn man [f ] wie folgt definiert:
SPALTEN von [f ] = KOORDINATEN der BILDER der BASISVEKTOREN
also
[f ]B 0 B := ([f (b1 )]B 0 , [f (b2 )]B 0 , . . . , [f (bn )]B 0 ).
Ist [x]B = (x1 , . . . , xn ) ⇔ x = x1 b1 + . . . + xn bn , dann gilt
f (x) = x1 f (b1 ) + . . . + xn f (bn ), also
[f (x)]B 0 = x1 [f (b1 )]B 0 + . . . + xn [f (bn )]B 0 .
Es ist dann:


x1


 . 
[f ][x] = ([f (b1 )], [f (b2 )], . . . , [f (bn )]) ·  ..  = x1 · [f (b1 )] + . . . + xn [f (bn )] = [f (x)],


xn
also gilt für das so definierte [f ] :
[f ] · [x] = [f (x)]
Koordinaten des Bildes von x = Matrixdarstellung × Koordinaten von x
Die so definierte Matrixdarstellung ist eindeutig:
Wären A und B zwei solche Matrizen, also mit
A · [x] = B · [x] = [f (x)].
103
Dann gilt insbesondere für x = bi , dem i−ten Basisvektor:
(wegen [bi ] = (0, . . . , 1, . . . , 0)):

 0
 .
 ..


A·
 1
 .
 .
 .

0
| {z


















B·





}
=
|

0
..
.
1
..
.
0
{z











}
i − te Spalte von A = i − te Spalte von B ⇒ A = B.
Insgesamt: Hat man einmal Basen von V bzw. W ausgewählt, dann kann man eine lineare
Abbildung f : V → W durch m · n Skalare eindeutig angeben.
Satz 18.1 Matrixdarstellung einer linearen Abbildung
f : V → W sei eine lineare Abbildung eines n−dimensionalen Vektorraumes V in einen m−dimensionalen
Vektorraum W . B sei eine Basis von V und B 0 eine Basis von W .
(i) Es gibt genau eine m × n− Matrix A =: [f ]B 0 B mit
A · [x]B = [f ]B 0 B [x]B = [f (x)]B 0
[f ]B 0 ,B heißt Matrixdarstellung von f bezüglich der Basen B 0 und B. Die Spalten von
[f ]B 0 ,B sind gegeben durch die Koordinaten der Bilder der Basisvektoren von V .
Insbesondere ist die Matrixdarstellung eines linearen Operators f : V → V
gegeben durch eine quadratische n × n−Matrix [f ]B .
Also: A ist Matrixdarstellung von f: V → W bezüglich der Basen B und B 0 ⇔
[f (x)]B0 = A · [x]B .
(ii) Die m × n−Matrizen und die linearen Abbildungen von f : V in W entsprechen einander
umkehrbar eindeutig.
(iii) Die Zuordnung f → [f ] ist verträglich mit den Rechenoperationen; d.h.:
104
[λf ] = λ[f ]
[f + g] = [f ] + [g]
[f ◦ g] = [f ] · [g]
, wenn f ◦ g definiert
[id] = In
[0] = On
(iv) Ist f eine invertierbare lineare Abbildung (dann ist dim(W ) = dim(V ) = n),
dann gilt:
[f −1 ] = [f ]−1
Spezialfall: Lineare Abbildungen vom Kn in den Km
Ist A eine m×n−Matrix, dann definiert ~x → A·~x, wie wir gesehen haben, eine lineare Abbildung
TA : K n → K m mit TA (~x) := A · ~x.
Dabei wird ~x als Spaltenvektor aufgefaßt.
Die Gleichung ~y= A~x heißt Abbildungsgleichung
der Abbildung TA .

1 2 3 4

Beispiel: A = 
5 8 7 2


x1
 





1 2 3 4  x2 
x1 + 2x2 + 3x3 + 4x4
=


TA (~x) = 


5 8 7 2  x3 
5x1 + 8x2 + 7x3 + 2x4


x4
Abbildungsgleichung von TA : K 4 → K 2

y1 = x1 + 2x2 + 3x3 + 4x4
y2 = 5x1 + 8x2 + 7x3 + 2x4
x1







1
2
3
4
x
y1
2 


⇔
=


y2
5 8 7 2  x3 


x4
Die Matrixdarstellung von TA bezüglich der Standardbasen (auch Standarddarstellungsmatrix genannt) ist A selbst:
TA (e~1 ) = A · e~1
..
.
= a~1
1. Spalte von A
TA (e~n ) = A · e~n = a~n n − te Spalte von A
105
Damit:
[TA ]{ei },{ei } = ([TA (e~1 )] . . . [TA (e~n )]) = (a~1 . . . a~n ) = A.
Die Standarddarstellungsmatrix kann direkt aus den Abbildungsgleichungen abgelesen werden.
Beachte insgesamt: Ist A eine reguläre n × n−Matrix, dann kann die Gleichung
~y = A~x
aufgefaßt werden als
(i) die Matrixabbildung A : K n → K n mit A(~x) = A~x
(ii) ein bijektiver Operator f : V → V eines n−dimensionalen Vektorraumes mit A als Matrizendarstellung von f
(iii) eine Koordinatentransformation in einem n−dimensionalen Vektorraum.


1 −1
 und es sei y = A · ~x.
Beispiel: Gegeben sei die reguläre Matrix A = 
1
2
B = {b1 , b2 } sei die alte Basis von V
B 0 = {b01 , b02 } sei gegeben durch
b01 = b1 + b2
b02 = −b1 + 2b2
⇒
Übergangsmatrix
|A| = 3 6= 0

A=
1 −1
1
2


Weil |A| =
6 0, ist B 0 = {b01 , b02 } wieder eine Basis vom K 2 .
1. Deutung von ~y = A~x als Basistransformation:
[x]alt = C · [x]neu
x1
x2
=
1 −1
1 2
x01 x02
⇔
[x]neu = C −1 [x]alt



2 1 
x01 1
=
0
3
x2
−1 1 
x1 = x01 − x02
x2 = x01 + 2x02
x1
x2
⇔
x01 =
2
3 x1
− 13 x2
x02 = − x31 +
x2
3
106
2. Deutung von ~y = A~x als (bijektive) lineare Abbildung f : V 2 → V 2 :
f (b1 ) = b01
Durch die Bilder der Basisvektoren
ist f eindeutig bestimmt!
f (b2 ) = b02
[f (b1 )]B 0
[f ]B 0 B
[f (x)]B 0
1
[f (b2 )]B = −1
2 ⇒

1
 1 −1 
und
=
 1
2 




 1 −1  x
−
x
1
2
x1


=
x2 =
 1

2
x + 2x
=
1
2
3. Deutung von ~y = A~x als Abbildung A : K 2 → K 2 :
y1
y2
=
1 −1
1 2
x1
x2
⇔
y1 = x1 − x2
y2 = x1 + 2x2
18.2 Änderung der Matrixdarstellung bei Basiswechsel
Nach Definition der Matrixdarstellung einer linearen Abbildung f : V → W ändert sich diese,
wenn man in V bzw. W die Basis wechselt. Man wird daher bestrebt sein, solche Basen
in V und W zu finden, daß die Matrixdarstellung von f möglichst einfach (= viele Nullen,
schwachbesetzte Matrix, Diagonalmatrix, Dreiecksmatrix) wird. Bezüglich der Standardbasen läßt
sich die Matrixdarstellung zwar leicht ablesen, man erhält aber nicht unbedingt die einfachste
Matrix:
Beispiel: Sei f : K 2 → K 2 ( es ist also W = V ) gegeben durch: f
1 1
Bezüglich der Standardbasis B = {e~1 , e~2 } gilt: [f ]B = −2
4
Bezüglich der Basis B 0 = { 11 , 12 } gilt wegen
f 11 = 22 = 2 · 11 ; f 12 = 36 = 3 · 12
[f 11 ]B 0 = 20 und [f 12 ]B 0 = 03 : [f ]B0 = 20 03 .
x1
x2
=
x1 +x2
−2x1 +4x2
Zwei Fragen tauchen auf:
(i) Wie ändert sich die Matrixdarstellung von f bei Basiswechsel?
(ii) Wie erhält man “günstige” Basisvektoren? Was ist überhaupt erreichbar?
107
In diesem Kapitel beantworten wir die erste Fragestellung. Die überaus wichtige zweite Fragestellung wird in einem eigenen Kapitel (VII) behandelt.
Erinnerung: Sind B und B̄ zwei Basen des n−dimensionalen Vektorraum V und P die Übergangsmatrix von B nach B̄ (= neue Basisvektoren durch alte ausdrücken), dann ist V isomorph zu
K n . Einen Isomorphismus erhält man dadurch, daß man einem Vektor x ∈ V seine Koordinaten
[x] zuordnet:
n
x → [x]B ∈ Kalt
n = Vektorraum der “alten” Koordinaten
Kalt
n
n
x → [x]B̄ ∈ Kneu
Kneu
= Vektorraum der “neuen” Koordinaten
Für die alten und neuen Koordinaten gilt nach 18.6 der Zusammenhang
[x]B = P · [x]B̄
n
Diese kann man nach der vorhergehenden Bemerkung auch als (bijektive) Abbildung P : Kneu
→
n auffassen, nämlich durch die Festsetzung: P([x] ) = P · [x] = [x] .
Kalt
B
B̃
B̃
Ist nun f : V n → W m linear und sind B, B̄ Basen von V und B 0 , B̄ 0 , Basen von W mit den
Übergangsmatrizen P bzw. Q, dann gilt für die “alte” Matrixdarstellung [f ]B 0 B = [f ]alt von f
bzw. für die “neue” Matrixdarstellung [f ]B̄ 0 B̄ =: [f ]neu
[f ]neu = Q−1 · [f ]alt · P.
108
Spezialfall: W = V , d.h., f ist ein linearer Operator auf V :
[f ]neu = P−1 · [f ]alt · P.
Beachte: Im Gegensatz zu vorhin steht links und rechts neben [f ]alt dieselbe Matrix P !
Satz 18.2 Änderung der Matrixdarstellung
P sei die Übergangsmatrix von einer Basis B zu einer Basis B̄ des n−dimensionalen Vektorraumes V und Q die Übergangsmatrix von einer Basis B 0 zu einer Basis B̄ 0 des m−dimensionalen
Vektorraumes W . Dann gilt für die Matrixdarstellung einer linearen Abbildung f : V → W .
(i) [f ]B̃0 ,B̃ = Q−1 · [f ]B0 ,B · P ⇔ [f ]neu = Q−1 [f ]alt P.
Für die Matrixdarstellung eines linearen Operators T : V → V gilt:
(ii) [T]B̃ = P−1 · [T]B · P ⇔ []neu = P−1 [f ]neu · P.
Beobachtung:
Die neuen Matrixdarstellungen unterscheiden sich von den alten also “nur” durch Links– bzw.
Rechtsmultiplikation mit zwei verschiedenen regulären Matrizen oder auch nur mit ein– und
derselben Matrix
Definition 18.1 Äquivalenz und Ähnlichkeit von Matrizen
(i) Zwei m × n−Matrizen A, B heißen äquivalent (∼1 ), wenn es eine reguläre
m × m)−Matrix Q und eine reguläre n × n−Matrix P gibt, so daß gilt: B = QAP
A ∼1 B ⇔ ∃ reguläre Q, P : B = QAP
109
(ii) Zwei quadratische n × n−Matrizen A und B heißen ähnlich (∼2 ), wenn es eine reguläre
n × n−Matrix P gibt, so daß B = P −1 AP
A ∼2 B ⇔ ∃ regulär R : B = P−1 AP
Satz 18.3 Äquivalente und ähnliche Matrixdarstellungen
(i) Äquivalenz und Ähnlichkeit sind Äquivalenzrelationen in der Menge der
m × n− bzw. n × n−Matrizen.
(ii) A und B sind genau dann Matrixdarstellungen der linearen Abbildung
f : V n → W m , wenn sie äquivalent sind.
(iii) A und B sind genau dann Matrixdarstellungen eines linearen Operators
T : V n → V n , wenn sie ähnlich sind.
Zusammenfassung:
Alle Matrixdarstellungen ein– und derselben linearen Abbildung sind untereinander äquivalent.
Alle Matrixdarstellungen ein– und desselben linearen Operators sind untereinander ähnlich.
Wie kann man es Matrizen ansehen, ob sie äquivalent oder ähnlich ist?
Wir werden sehen: Es gibt eine Reihe von Eigenschaften, die bei Übergang zu äquivalenten oder
ähnlichen Matrizen erhalten bleiben.
Definition 18.2 Invariante Eigenschaften von Matrizen
Eine Eigenschaft von Matrizen heißt äquivalenzinvariant (ähnlichkeitsinvariant), wenn
mit einer Matrix auch jede zu ihr äquivalente (ähnliche) Matrix diese Eigenschaft besitzt.
Haben damit zwei Matrizen nicht die besagte Eigenschaft, dann können sie nicht äquivalent
bzw. ähnlich sein. Sie sind notwendige Bedingungen für die Äquivalenz bzw. Ähnlichkeit, aber
im allgemeinen nicht hinreichend, d.h., aus der Gültigkeit der Eigenschaft kann nicht auf die
Äquivalenz bzw. Ähnlichkeit geschlossen werden.
110
Satz 18.4 Äquivalenzinvarianz des Ranges
Äquivalente Matrizen haben denselben Rang.
Beweis:
Seien A, B äquivalent ⇒ ∃ reguläre Q, P mit B = QAP ⇒ rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) =
rgA.
Bemerkung:
1. Später werden wir sehen, daß aus der Gleichheit des Ranges auch auf die Äquivalenz der
Matrizen geschlossen werden kann, aber
2. Aus der Gleichheit des Ranges kann nicht auf die Ähnlichkeit der Matrizen geschlossen
werden.
0
A=@
1
0
0
1
1
0
A = I und B = @
0
1
1
0
1
A haben beide Rang 2. Wäre A ∼2 B ⇒ ∃ reguläres P :
B = Pn−1 AP = P −1 P = I 6= B.
Ähnliche Matrizen haben nicht nur den gleichen Rang, sondern auch die gleiche Determinante:
Sei B = P −1 AP ⇒ |B| = |P −1 AP | = |P −1 ||A||P | = |P |−1 |A||P | = (|P |−1 |P |)|A| == |A|.
Beispiel:



−1 

 

1 2
1 1
1 2
1 1
−2 −4
,B = 
 

=
 ∼2 A
A=
3 4
0 1
3 4
0 1
3
7
Es ist rg(A) = 2 = rg(B), |A| = 1 · 4 − 2 · 3 = −2 = −2 · 7 + 3 · 4 = |B|.
Was bleibt bei ähnlichen Matrizen noch gleich? Im obigen Beispiel sieht man:
1 + 4 = 5 = −2 + 7 = Summe der Hauptdiagonalelemente.
Definition 18.3 Spur einer Matrix
Unter der Spur einer quadratischen Matrix versteht man die Summe ihrer HauptdiagonaleleP
mente: sp(A) := ni=1 aij .
Satz 18.5 Spureigenschaften
(i) sp(AB) = sp(BA)
(ii) Ähnliche Matrizen haben die gleiche Spur.
(iii) Die Spur eines linearen Operators ist die Spur irgendeiner Matrixdarstellung.
111
Beweis von (i):
P
P
Sei A = (aij ) und B = (bij ). Dann ist AB = (cik ) mit cik = nj=1 aij bjk und sp(AB) = i cij =
P P
i
j aij bji .
P
P P
Pn
Nun sei BA = (djk ) mit djk =
i=1 bji aik . Dann ist sp(BA) =
j djj =
j
i bji aij =
P P
i
j aij bji = sp(AB).
Beweis von (ii):
Ist A ∼2 B ⇒ ∃P mit B = P −1 AP ⇒ sp(B) = sp(P −1 AP ) = sp(AP P −1 ) = sp(A).
Zusammenfassend gilt folgender
Satz 18.6 Tabelle von Ähnlichkeitsinvarianten
A sei eine quadratische Matrix
Invariante
Beschreibung
Determinante
|A| = |P −1 AP |
Rang
rg(A) = rg(P −1 AP )
Spur
sp(A) = sp(P −1 AP )
Defekt
def (A) = def (P −1 AP )
Invertierbarkeit
A invertierbar ⇔ P −1 AP invertierbar
Diese Liste von Ähnlichkeitsinvarianten wird noch erweitert werden!
Weil die Determinante eine Ähnlichkeitsinvariante ist, kann man jedem linearen Operator
T : V → V eine Zahl (einen Skalar) zuordnen:
Wähle irgendeine Matrixdarstellung [T ] von T und bilde det([T ]) = |[T ]|. Weil alle Matrixdarstellungen von T untereinander ähnlich sind, haben alle ihre Determinanten den gleichen Wert.
Diesen bezeichnet man als die Determinante von T .
Definition 18.4 Determinante eines Operators
T : V → V sei ein linearer Operator eines endlich–dimensionalen Vektorraumes V .
Unter der Determinante eines linearen Operators T versteht man die Determinante der Matrixdarstellung [T ] von T bezüglich irgendeiner Basis B von V .
det(T ) = |T | = det([T ]B ) = |[T ]B | für irgendeine Basis B
Wie für Matrizen liefert auch die Determinante eines Operators ein Invertierbarkeitskriterium.
112
Satz 18.7 Invertierbarkeitskriterium für lineare Operatoren
Ein linearer Operator T eines endlich dimensionalen Vektorraumes ist genau dann invertierbar,
wenn |T | =
6 0.
Beweis:
T : V → V invertierbar ⇔ f bijektiv ⇔ rg(f ) = n ⇔ rg([f ]) = n ⇔ |[f ]| =
6 0.
Zusammenfassend erhält man folgende Liste von Invertierbarkeitskriterien:
Satz 18.8 Invertierbarkeit linearer Operatoren
V sei ein n−dimensionaler Vektorraum und T : V → V ein linearer Operator.
⇔ T injektiv ⇔ T surjektiv ⇔ ker(T ) = {0} ⇔
⇔ def (T ) = 0 ⇔ rg(T ) = n ⇔ def (T ) 6= 0
113
18.3 Affine Abbildungen (Einschub)
Häufig benützte Abbildungen (besonders in der Computergrafik) von der anschaulichen Ebene
auf sich selbst sind: Parallelverschiebung, Parallelprojektion, Zentrische Streckung, Spiegelung,
Drehung um einen Punkt M . Sie erzeugen entweder kongruente oder zumindest ähnliche Figuren
der Ausgangsfigur. Was ist allen diesen Abbildungen gemeinsam? (Siehe Beispiel 1 und 2)
Es gibt aber auch Vorschriften (z.B. Scherungen und Kollineationen), die nicht nur die Größe,
sondern auch die Gestalt einer Figur gänzlich ändern (siehe Beispiel 3).
Es sei daran erinnert, dass man die Punkte der anschaulichen Ebene sowohl als Elemente eines
Vektorraumes (mit den Operationen des Aneinanderfügens nach der Parallelogrammregel und
des Vervielfachens), als auch als elemente eines affinen Raumes auffassen kann.
Alle oben genannten Abbildungen sind, aufgefaßt als Abbildungen eines Vektorraumes, nicht
linear, denn das Bild des Nullvektors 0 ist i.a. verschieden von 0.
f (0) = 0 war aber eine notwendige Bedingung für die Linearität einer Abbildung f .
Eine Ausnahme bilden die Drehungen um 0 selbst.
Sie stehen aber mit linearen Abbildungen in einem engen Zusammenhang:
Jede Punktabbildung“ α : IR2 → IR2 mit α(P ) = P ∗ induziert“ eine Vektorabbildung“
”
”
”
α durch folgende Fortsetzung:
Sei ~u ein geometrischer“ Vektor mit Anfangspunkt P und Endpunkt Q, also ~u = P~Q, dann sei
”
~
α(~u) := α(P~Q) = α(P~ )α(Q).
Die folgenden Abbildungen illustrieren diese von der Abbildung α induzierte Abbildung α.
114
Parallelprojektion in Richtung ~v :
~
~a = AD
−−−−−−−→
α(~a) := α(A)α(D)

α(~a + ~b) = α(~a) + α(~b) 
⇒ α linear ⇒ α affin

α(λ · ~a) = λ · α(~a)
parallel bleibt parallel
Teilverhältnis invariant
Gerade bleibt Gerade
115
α: Zentrische Punktstreckung um Z mit Streckungsfaktor k = 2
α : IR2 → IR2
(IR2 affiner Punktraum)
α(P + Q) 6= α(P ) + α(Q) ⇒ α nicht linear (IR2 als Vektorraum)
α induziert“ eine Abbildung f : IR2 → IR2 vom Vektorraum IR2 auf sich selbst:
”
~ ein Vektor aus IR2 mit Anfangspunkt A und Endpunkt B.
Sei ~x = AB
Die durch die Abbildung α induzierte Abbildung f ist definiert durch:
−−−−−−→
~ := −
f (~x) = f (AB)
α(A)α(B)
Es gilt: f (~a + ~b) = f (~a) + f (~b) ⇒ f ist linear ⇒ α ist eine lineare Abbildung
f (λ · ~a) = λ · f (~a)
116
Scherung
Parallelogramm bleibt Parallelogramm
Winkel verändert, Größe verändert
117
α: Kollineation
118
Verallgemeinerung auf abstrakte Vektorräume und affine Räume
Gegeben sei ein Vektorraum V über dem Körper K. U ,W seien zwei Teilräume von V (U, W / V ).
A und B seien zwei affine Räume in V mit Richtung U bzw. W , P sei ein Punkt von A mit
~ , Q ein Punkte von B mit Ortsvektor q = OQ,
~ also
Ortsvektor p = OP
A = p + U und B = q + W .
(Es kann auch A = B und B = A = V sein!) α sei eine Abbildung vom affinen Raum A auf den
affinen Raum B.
Ist X ein Punkt von A mit Ortsvektor X dann ist x = p + u ⇔ u = x − p = P~X.
Mit α kann durch die Festsetzung
−−−−−−−→
α(u) = α(P~X) := α(P )α(X) ∈ W
α(x − p) = α(x) − α(p) ∈ W
eine Abbildung von der Richtung U auf die Richtung W definiert werden. α heißt die von der
Abbildung α induzierte Abbildung der Differenzräume.
Definition 18.5 :
Eine Abbildung α : A → B heißt affin, wenn die durch α induzierte Abbildung der
Differenzräume eine lineare Abbildung ist.
Geometrische Beispiele:
Die vorhergehenden Beispiele zeigen:
Parallelprojektionen, Scherungen, Parallelverschiebungen, Drehungen, Zentrische Streckungen,
Schubspiegelungen sind affine Abbildungen.
Kollineationen sind keine affinen Abbildungen.
119
Beobachtung: Affine Abbildungen können die
(i) Größe und Gestalt von Figuren invariant lassen (Kongruenzabbildungen: Drehungen,
Parallelverschiebungen ...)
(ii) Größe verändern und die Gestalt invariant lassen (Ähnlichkeitsabbildungen: Zentrische
Streckung, Schubspiegelung)
(iii) Größe und Gestalt verändern (Scherungen)
ein arithmetisches Beispiel: K sei ein Körper
A = K n , B = K m (Beachte: Jeder Vektorraum ist auch ein affiner Raum)
C ∈ K m·n , d~ ∈ K m
α : K n → K m mit
α(~x) := C~x + d~
Sei: ~x = p~ + u ⇔ u = ~x − p~. Die von α induzierte Abbildung α ist definiert durch:
−−−−−−→
α(u) : = α(~x − p~) = α(~
p)α(~x) = α(~x) − α(~
p) =
~ = C~x − C~
= C~x + d~ − (C~
p + d)
p = C(~x − p~) = Cu
Also: α(u) = C · u, das ist eine lineare Abbildung, also ist α eine affine Abbildung.
α selst ist für d~ 6= ~0 nicht linear: α(~0) = C · ~0 + d~ = d~ 6= ~0
Später werden wir sehen, dass sich jede affine Abbildung so darstellen lässt.
2 triviale Beispiele:
(a) Die identische Abbildung ist eine affine Abbildung:
id : A → A, A = p + U, x ∈ A ⇔ x = p + u ⇔ u = x − p
−−−−−−−→
idA (x) = x ⇒ id(u) = id(P~X) = id(p)id(x) = px
~ = x − p = u ⇔ id(~u) =
id(u) ∀u ∈ U ⇒ id = idu ⇒ id linear ⇒ idA ist affin.
(b) Die konstante Abbildung ist eine affine Abbildung:
α : A → B, C ∈ B, x ∈ A
α(u) := c
−−−−−−−→
α(u) = α(P~X) = α(P )α(X) = c − c = 0 ∀u ∈ U ⇒ α = 0 (Nullabbildung)
⇒ α linear ⇒ α affin.
120
(c) Jede lineare Abbildung ist affine, aber nicht umgekehrt:
α : V → W V, W sind auch affine Räume mit Richtung V bzw. W .
α sei linear.
−−−−−−−→
α(u) = α(P~X) = α(P )α(X) = α(x) − α(p) = α(x − p) = α(u) ∀u ∈ V ⇒
α = α ⇒ α linear ⇒ α affin.
Affine Abbildungen zwischen affinen Räumen sind also solche Abbildungen, die lineare Abbildungen zwischen den Differenzenräumen hervorrufen. Umgekehrt ist durch die Vorgabe einer
linearen Abbildung und das Bild eines Punktes eine affine Abbildung eindeutig festgelegt.
Satz 18.9 A und B seien zwei affine Räume mit Richtungen (Differenzenräume) U bzw. W . f
sei eine lineare Abbildung von U nach W und P ∈ A und Q ∈ B mit Ortsvektor q.
Sei X ∈ A mit Ortsvektor x ⇔ x = p + u ⇔ u = x − p ∈ U .
Es gibt genau eine affine Abbildung α : A → B mit α(p) = q und f als induzierte lineare
Abbildung, nämlich:
α(x) = f (x − p) + q = f (x − p) + α(p)
Kurz: Affine Abbildung = Lineare Abbildung + entsprechendes Punktepaar
Beweis:
1. Dieses α bildet p auf q ab: α(p) = f (p − p) + q = f (0) + q = 0 + q = q.
2. Die von α induzierte Abbildung α ist f : α(u) = α(x − p) = α(x) − α(p) = α(x) − q = f (x − p) = f (u)
∀u ⇒ α = f .
3. α ist eindeutig bestimmt:
Seien α1 , α2 zwei solche“ Abbildungen ⇒ α1 (x) − q = α1 (x) − α1 (p) = f (x − p) = α2 (x) − α2 (p) =
”
α2 (x) − q ⇒ α1 (x) = α2 (x) ∀x ∈ A ⇒ α1 = α2 .
Nun ist in einem n−dimensionalen Raum eine lineare Abbildung durch die Bilder von n l.u.
Vektoren eindeutig bestimmt (siehe 17.10).
Nach dem vorhin Gesagten ist daher eine affine Abbildung auf einem n−dimensionalen
affinen Raum durch die Bilder von n + 1 Punkten P0 , . . . , Pn in allgemeiner Lage d.h.,
P0~P1 , . . . , P0~Pn l.u. eindeutig festgelegt.
Das heißt z.B. für die Ebene: Kennt man die Bilder von 3 Punkten in allgemeiner Lage, so kennt
man die Bilder aller Punkte!
121
Beispiel: Bestimme eine Vektorgleichung jener affinen“ Abbildung α : K 3 → K 4 , die durch
”
folgende Punktepaare“ gegeben ist:
”
P0 (1, 0, 0) → Q0 (−1, −1, 3, −2)
P1 (1, 1, 0) → Q1 (−1, 0, −2, 0)
P2 (1, 1, 1) → Q2 (1, −1, 2, −3)
P3 (0, 1, 1) → Q3 (0, 1, −1, −2)
Ist x ∈ K 3 = p + u
α(x) = f (|{z}
u ) + α(p) → α(p0 ) = (−1, −1, 3, −2)
|{z}
x−p
=q
α(~x) = t(~x − p~) + α(~
p)
Nur mehr notwendig: λ1 , λ2 , λ3


 

u1
0
0


 



 

 u2  = λ1  1  + λ2  1


 

u3
0
1
0
0
−1
u1
1
1
1
u2
0
1
1
u3
1
1
1
u2
0
0
−1
u1
0
1
1
u3
1
1
1
u2
0
1
1
u3
0
0
−1
u1
1
1
0
u1 + u2
0
1
0
u1 + u3
0
0
+1
−u1
1
0
0
u2 − u3
= λ1
0
1
0
u1 + u3
= λ2
0
0
1
−u1
= λ3




−1






 + λ3  1 



1

0









 1 




+ (u1 + u3 ) 
f  u2  = (u2 − u3 ) 





 −5 



u3
2

u1


2
LGS in λ1 , λ2 , λ3




1
u1 + 2u3
 


 


 2   −2u1 + u2 − u3
0 
=
 − u1 


 


−1
−4   3u1 − 5u2 + 4u3
 


0
u1 + 2u2 − 3u3
−1








122
x=p+u
   

u
1
x1
    1

   

 x2  =  0  +  u2
   

u3
0
x3








x
x −1 =
 1
 1 



α  x2  = f  x2
=



x3
x3
=

1
0
2


 −2 1 −1
=

 3 −5 4

1
2 −3
u1 = x1 − 1
=⇒ u2 =
x2
u3 =
x3

 

−1
x1 − 1 + 2x3 − 1

 
u1



  −1   −2x1 + 2 + x2 − x3 − 1

+
u2  = 
 
 
 3   3(x1 − 1) − 5x2 + 4x3 + 3

 
u3
−2
x1 − 1 + 2x3 − 3x3 − 2





−2



x
1
 

  1 
 

· x 


+

  2  


 0 



x3
−3




=



Geometrische Charakterisierung von affinen Abbildungen
1. Eine affine Abbildung α ist Unterraum-treu“ (Unterräume werden auf Unterräume ab”
gebildet!) Eigenschaft, Unterraum zu sein, ist eine Invariante von affinen Abbildungen.
Kurz: Ebene bleibt Ebene bzw. Gerade bleibt Gerade (bzw. Degeneration auf einen
Punkt!) Kollineare Punkte werden auf kollineare Punkte abgebildet.
Beweis: A = {x|x = p + U }, α : A → B = {x|x = q + W }, U, W / V
α(A) = {y|y = α(x)} = {y|y = α(p) +f (U )}
|{z}
∈B
Das ist eine Punktmenge der Form: {q + Teilraum von W }, also ein affiner Unterraum von B.
2. Eine affine Abbildung is parallelentreu. D.h.: A1 ||A2 ⇒ α(A1 )||α(A2 )
Beweis (im KV): α(A) = {y|y = α(p) + f (U )}, parallel heißt U1 ⊆ U2 oder U2 ⊆ U1
3. Eine injektive affine Abbildung ist teilverhältnistreu.
D.h. ist λ = T V (a, x, b) ⇒ λ = T V (αa, αx, αb) für a 6= x 6= b
Beweis: Es ist αa 6= αx 6= αb. Ist λ = T V (a, x, b) ⇔ x − a = λ(b − x)
⇒ αx − αa = f (x − a) = f (λ(b − x)) = λf (b − x) = λ(αb − αx)
⇒ T V (αa, αx, αb) = λ.
Insbesondere: Mittelpunkt bleibt Mittelpunkt.
123
Es gilt auch die Umkehrung: Eine Abbildung α : A → B, die kollineare Punkte auf
kollineare Punkte abbildet und dabei das Teilverhältnis invariant läßt, muss eine affine
Abbildung sein!
Satz 18.10 Eine Abbildung ist genau dann affin, wenn sie Geraden auf Geraden abbildet und
teilverhältnistreu ist.
Affine Abbildungen sind sehr verwandt zu linearen Abbildungen:
(i) α bijektiv ⇔ die von α induzierte lineare Abbildung α ist bijektiv.
(ii) Die inverse Abbildung einer bijektiven affinen Abbildung ist wieder affin.
(iii) Die Hintereinanderausführung von affinen Abbildungen ist wieder affin.
(iv) Die identische Abbildung ist eine affine Abbildung.
Satz 18.11 Definition und Satz
Eine Affinität ist eine bijektive affine Abbildung.
Die Affinitäten eines affinen Raumes auf sich selbst bilden eine nichtabelsche Gruppe.
Definition 18.6 Eine Affinität α : A → A heißt Translation, wenn die induzierte lineare
Abbildung die identische Abbildung ist.
Formel“ für Translation: V sei ein Vektorraum über K und U / V .
”
A = {x|x = p ∗ u, u ∈ U }
α(u) = α(x − p) := α(x) − α(p)
| {z }
id(~
x−~
p)=~
x−~
p
⇒ x − p = α(x) − α(p)
α(x) = x + α(p) − p
| {z }
=:~v
α(x) = x + v
(i) Translationen sind bijektiv, weil idA bijektiv!
(ii) idA ist Translation
(iii) Inverse einer Translation ist wieder eine Translation, weil id−1
A = idA .
(iv) Zusammensetzung von Translationen ist wieder Translation, weil idA ◦ idA = idA
124
Satz 18.12 Die Translationen bilden eine abelsche Untergruppe in der Gruppe aller Affinitäten
eines affinen Raumes.
Affine Geometrie (= Menge aller Sätze, die die Inzidenz betreffen) kann aufgefaßt werden als
Menge aller jener Eigenschaften, die bezüglich der Affinitäten invariant bleiben.
(FELIX) KLEIN’sche Erlanger Programm (1905):
Geometrie ordnen nach Invarianten gewisser Abbildungsgruppen.
Affine Geometrie =
ˆ Invarianten gegenüber der Affinitätsgruppe.
Euklidsche Geometrie =
ˆ Invarianten gegenüber der Bewegungsgruppe (Kongruenzabbildungen)
Projektive Geometrie =
ˆ Invarianten gegenüber der Gruppe der projektiven Abbildungen.
Matrixdarstellung von affinen Abbildungen
Wir beschränken uns auf affine Abbildungen α : A → A eines affinen Raumes A in sich. Es sei
dim A = n. U sei die richtung von A (der Differenzenraum) also A = p + U . Dann ist auch
dim U = n. Da die affinen Abbildungen in sehr enger Beziehung zu den linearen Abbildungen
der Differenzenräume stehen, wird man erwarten, dass man auch affinen Abbildungen durch
Matrizen beschreiben wird können.
Um zu diesen Matrizen zu kommen, muss man in A ein Koordinatensystem einführen. Dann
kann man die Punkte“ des affinen Raumes durch n−Tupel und die affine Abbildung als eine
”
Abbildung zwischen diesen n−Tupeln beschrieben.
Sei S = (P0 , P1 , . . . , Pn ) ein Koordinatensystem von A. Dann sind die Vektoren u1 := P0~P1 , . . . , un
:= P0~Pn l.u., also eine Basis B = {u1 , . . . , un } der Richtung U : U =< u1 , . . . , un >.
−−−−−−−→
Ist α affin, dann ist α : U → U mit α(u) = α(P~X) = α(P )α(X) eine lineare Abbildung von U
in U . Daher gibt es nach 8.1 (??) genau eine (n × n)−Matrix C ∈ K n·n mit
[α(u)]B = C · [u]B
∀u ∈ U
Damit erhält man mit x = p + u ⇔ u = x − p
h
i
h−−−−−−−→i
[α(u)]B = α(P~X) = α(P )α(X) = [α(X) − α(P )]S =
B
B
= [α(x)]S − [α(p)]S = C · [u]B = C · [x − p]B = C · [x]S − C · [p]S
125
Aus den unterstrichenen Teilen erkennt man
[α(X)]S = C · [X] + [α(P )] − C · [P ] = C · [X]S + ~c
|
{z
}
=: ~c ∈ K n·n
Damit: Bezüglich eines Koordinatensystems S läßt sich eine affine Abbildung α : A → A durch
eine (n × n)−Matrix und ein n−Tupel beschreiben (durch ein Matrix-Vektor Paar). Umgekehrt ist jede so beschriebene Abbildung affin.
α : A → A ist affin ⇔ [α(X)] = C · [X] + ~c mit ~c = [α(P )] − C · [P ]
C ist dabei die Matrixdarstellung von der durch die von α induzierten linearen Abbildung
bezüglich BS .

 
x01

 
 .  
α : A → A ist affin ↔  ..  = 

 
0
xn
c11
..
.
···
cn1 · · ·

 
c1n
x1

 
..   ..  
.  .  + 

 
cnn
xn

c1

.. 
. 

cn
α ist bijektiv ⇔ α bijektiv ⇔ C invertierbar ⇔ |C| =
6 0.
Satz 18.13 (Matrixdarstellung von affinen Abbildungen)
Eine Abbildung α : A → A eines n−dimensionalen affinen Raumes ist genau dann affin, wenn
sie sich bezüglich eines Koordinatensystems S durch ein Matrix-Vektorpaar beschreiben lässt,
d.h., wenn es eine (n × n)−Matrix C und ein n−Tupel ~c gibt, mit:
[α(X)]S = C · [X]S + ~c
α ist genau dann eine Affinität (reguläre affine Abbildung), wenn |C| =
6 0.
Ist ~c = ~0, dann ist α eine lineare Abbildung.
So ein Matrix-Vektorpaar ~y = C · ~x + ~c mit |C| 6= 0 kann aber auch als Beschreibung einer
affinen Koordinatentransformation angesehen werden:
Ein Wechsel des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes X ∈ A hervor.
S = (P0 , P1 , . . . , Pn ) altes“ Koordinatensystem
”
0
0
0
0
S = (P0 , P1 , . . . , Pn ) neues“ Koordinatensystem
”
[X]S . . . alte“ Koordinaten des Punktes X
”
[X]0S . . . neue“ Koordinaten des Punktes X.
”
126
Die neuen Punkte P00 , . . . , Pn0 lassen sich eindeutig durch die alten ausdrücken.
P0 +
Pn
Pj0 = P00 +
Pn
P00 =
~
i=1 ti P0 Pi
~
i=1 tij P0 Pi
P0 +
Pn
− p0 )
= P00 +
Pn
− p0 ) j = 1, . . . , n
=
i=1 ti (pi
i=1 tij (pi
~ := (ty , . . . , tn )t ;
A
T := (tij )
Beachte: T ist schon transponiert definiert!
Nun ist S 0 = (P00 , P10 , . . . , Pn0 ) genau dann ein Koordinatensystem, wenn
o
n
P0~0 P10 , . . . , P00~Pn0 l.u.
ist, also genau dann, wenn obiges T regulär ist, also |T | =
6 0 ist.
Nach Rechnung ergibt sich für die alten und neuen Koordinaten des Punktes X:
[X]S = T · [X]S 0 + ~t
Kurz: alte Koordinaten = Transformationsmatrix · neue Koordinaten.
Dabei drückt T die neuen Punkte durch die alten Punkte aus.
Weil T regulär ist, existiert T −1 und man kann auch die neuen Koordinaten durch die alten
ausdrücken:
[X]S − ~t = T · [X]S 0 ⇒ [X]S0 = T−1 · ([X]S − t) = T−1 [X]S − T−1 t
Zusammenfassung:
(a) Ein Matrix-Vektorpaar (C, ~c) mit einer regulären (n×n)−Matrix C und ~y = C·~x+~c,|C| =
6 0
kann man auffassen als Beschreibung einer
(i) affinen Koordinatentransformation in einem n−dimenstionalen affinen Raum
A. Dann sind ~y und ~x Koordinatenvektoren ein und desselben Vektors bezüglich
zweier Koordinatensysteme.
(i) regulären affinen Abbildungen von einem affinen Raum A in sich selbst. Dann
sind ~y und ~x die Koordinatenvektoren zweier Punkte (Urbild und Bild) bezüglich
eines Koordinatensystems.
(b) Eine reguläre Matrix C allein und ~y = C~x kann man auffassen als Beschreibung einer
(ii) Basistransformation in einem n−dimenstionalen Vektorraum V . Dann sind ~y und
~x Komponenten ein und desselben Vektors bezüglich zweier Basen oder
(ii) bijektiven linearen Abbildung (Automorphismus) f : V → V . Dann sind ~y
und ~x die Komponenten zweier Vektoren (Bild und Urbild) bezüglich einer Basis.
127
Deutung als Abbildung f : K 2 → K 2
0
0
Deutung als Basiswechsel
 B = {b
 1 , b2 } → {b1 , b2 }
1 −1

C=
1 2
128

Beispiel 1: Gegeben sei die reguläre Matrix C = 
1 −1
1
2

 : ~y = C · ~x
B = {b1 , b2 } sei die alte Basis von V
B 0 = {b01 , b02 } sei gegeben durch
(∗)
b01 = b1 + b2
b02 = −b1 + 2b2

Übergangsmatrix
⇒
C=
|C| = 3 6= 0
1 −1
1
2


Weil |C| =
6 0, ist B 0 = {b01 , b02 } wieder eine Basis vom K 2 .
1. Deutung von (∗) als Basistransformation:
[X]alt = C [X]neu




x1
1 −1
x01
x = x01 − x02

 = 

⇔ 1
x2
1 2
x02
x2 = x01 + 2x02

[X]neu = C −1 [X]alt




0
2 1
x
x0 = 23 x1 − 13 x2
x
 1  ⇔ 1
 1  = 1
3
x02 = − x31 + x32
−1 1
x2
x02

2. Deutung von (∗) als (bijektive) lineare Abbilfung f : V 2 → V 2 :
Durch die Bilder der Basisvektoren
f (b1 ) = b01
f (b2 ) = b02

[f (b1 )]B 0
= 

[f ]B 0 B = 

[f (x)]B 0
= 
ist f eindeutig bestimmt!
1
1

 [f (b2 )]
B0
1 −1
1
2
1 −1
1

2
=
−1
2

⇒

 und


x1
x2


=
x1 − x2
x1 + 2x2


129
19 Eigenwerte und Eigenvektoren
In diesem Kapitel untersuchen wir im Anschauungsraum Vektoren, deren Richtung unter einer
linearen Abbildung nicht verändert wird. Wie alle invarianten Größen spielen sie für die Theorie
und die Anwendungen eine bedeutende Rolle. Ohne Übertreibung kann man sagen, daß ohne
diese invarianten Vektoren ein weiterer Ausbau der Linearen Algebra nicht möglich ist. Wieder
verallgemeinern wir die anschauliche Invarianz der Richtung auf abstrakte Vektorräume.
19.1 Grundlegende Eigenschaften
Bildvektor und Urbildvektor eines linearen Operator T : V → V stehen normalerweise in keiner
geometrischen Beziehung zueinander.
Oft gibt es jedoch Vektoren, die mit ihrem Bildvektor kollinear, also nur skalare Vielfache voneinander sind. Gerade sie erweisen sich als nützlich bei der Beschreibung von Schwingungen,
chemischen Reaktionen, genetischen und ökonomischen Vorgängen. Besonders bedeutsam sind
sie für die Vereinfachung von Beschreibungen von Punktmengen in der Geometrie und für die
Vereinfachung von Matrixdarstellungen bzw. von Matrizen.
Definition 19.1 1. Abbildungstheoretische Formulierung:
V sei ein Vektorraum über K und T : V → V ein linearer Operator auf V .
(i) Ein Eigenvektor (eigenvector, EV) des linearen Operators T ist ein vom Nullvektor verschiedener Vektor x ∈ V , dessen Bild T (x) ein skalares Vielfaches vom Urbild x ist.
Symbolisch:
x EV von T ⇔ x 6= 0 ∧ ∃λ ∈ K : T(x) = λx
Dabei heißt der Skalar λ der zum Eigenvektor x gehörige Eigenwert von T .
(ii) Ein Eigenwert (eigenvalue, EW) des linearen Operators T ist ein Skalar λ, zu dem es
einen vom Nullvektor verschiedenen Vektor x gibt, dessen Bild T (x) gerade das λ−fache
130
von x ist.
λ EW von T ⇔ ∃x 6= 0 : T(x) = λx
Dabei heißt der Vektor x ein zum EW λ gehöriger Eigenvektor von T .
(iii) Der Eigenraum EλT von T zum EW λ ist die Menge aller Eigenvektoren von T zum
Eigenwert λ, zu der noch der Nullvektor 0 hinzugenommen wird. Damit ist der Eigenraum
EλT ein Teilraum von V .
2. Matrizentheoretische Formulierung:
A sei eine quadratische n × n− Matrix über dem Körper K.
(iv) Ein Eigenvektor x̃ von A ist ein n−Tupel ~x 6= ~0, zu dem es einen Skalar λ ∈ K gibt,
mit A~x = λ~x. λ heißt der zum Eigenwert ~x gehörige Eigenwert von A. Symbolisch:
λ EW von A ⇔ ∃x̃ 6= 0̃ : Ax̃ = λx̃
x̃ EV von A ⇔ x̃ 6= 0̃ ∧ ∃λ ∈ K : Ax̃ = λx̃.
(v) Der Eigenraum EλA von A zum EW λ ist die Menge aller Eigenvektoren A zum EW λ
von A einschließlich des Nullvektors ~0.
Beachte: EV und EW sind nur für lineare Operatoren bzw. nur für quadratische Matrizen erklärt. EV und EW von Matrizen sind zugleich die EV und EW des von der Matrix A induzierten
linearen Operators TA : K n → K n mit TA (~x) = A~x.
Geometrische Deutung: Im IR2 bzw. IR3 sind die EV von T jene Vektoren, die durch T
gestreckt bzw. gestaucht werden, eventuell mit einer Orientierungsumkehr. Die EW entsprechen
den Streckungs-(Stauchungs-)faktoren.

Beispiel: ~x =
1


A~x = 
~x =
3
0
8 −1
2

ist EV zum EW λ = 3 von A = 
1
2
=
3
6
=3·
1
2
3
0
8 −1

, denn
= 3 · ~x
1
1ist
kein EV von A, denn

3
0
 1 = 3 6= λ · 1 .
A~x = 
1
7
2
8 −1
Beispiel: T : P1 → P1 mit T (c0 + c1 x) = (c0 − 2c1 ) + (c0 + 4c1 )X
p(x) = −2 + x ist EV zum EW λ = 2 von T , denn T (−2 + x) = −4 + 2x = 2 · (−2 + x).
131
Wie erhält man alle EW und EV eines Operators T ?
a) Berechnung von EW und EV von n × n−Matrizen A:
A~x = λ~x ⇔ A~x − λ~x = ~0 ⇔ A~x = λIn ~x = ~0 ⇔ (A − λIn )~x = ~0
(25)
Der Eigenvektor ~x ist also eine nichttriviale Lösung des homogenen, quadratischen Gleichungssystem (A − λIn )~x = ~0, nach der Fredholm’schen Alternative muß daher
|A − λIn | = 0
gelten.
λ EW zum EV ~x von A ⇔ |A − λIn | = 0
Was ist |A − λIn |?
Für (2 × 2)−Matrizen gilt:
a11 − λ
a12 = λ2 − (a11 + a22 ) · λ + (a11 a22 − a12 a21 ) =
|A − λI2 | = a21
a22 − λ = λ2 − sp(A) · λ + |A|
|A − λI2 | ist also ein Polynom 2. Grades in λ.
Allgemein ist die Determinante
a11 − λ
|A − λIn | = a22 − λ
ann − λ
= (−1)n λn − sp(A) · λ + . . . + |A| =: pA (λ)
ein Polynom n−ten Grades in λ. In der folgenden Definition verwenden wir X statt λ:
Definition 19.2
(i) Das charakteristische Polynom der n×n−Matrix A ist das Polynom
n−ten Grades in X, definiert durch
pA (X) := |A − XIn |.
Die Gleichung |A − XIn | = 0 heißt charakteristische Gleichung von A.
(ii) Das charakteristische Polynom pT (X) eines Operators T : V → V ist das charakteristische
Polynom irgendeiner Matrixdarstellung von T .
pT (X) := |[T] − XIn | = p[T] (X)
132
Die Definition (ii) ist wegen des folgendes Satzes möglich:
Satz 19.1 Ähnliche Matrizen besitzen dasselbe charakteristische Polynom.
Beweis: Ist B ∼2 A ⇒ ∃ ein reguläres P : B = P −1 AP ⇒ pB (X) = |B − XIn | = |P −1 AP − P −1 XIn P | =
|P −1 (A − XIn )P | = |P |−1 |A − XIn ||P | = |P |−1 · |P | · |A − XIn | = |A − XIn | = pA (X).
Spur und Determinante einer Matrix treten als Koeffizienten im charakteristischen Polynom auf:
Satz 19.2 Koeffizienten des charakteristischen Polynoms
pA (X) = (−1)n X n − sp(A) · X n−1 + . . . + |A|.
Bemerkung:
Manchmal ist pA (X) definiert als |XIn − A|, es ändern sich dadurch aber nur Vorzeichen.
Die Äquivalenzkette (25) liefert folgenden Satz:
Satz 19.3 Charakterisierung von EW und EV einer Matrix A
(i) Die EW λ der Matrix A sind genau die Nullstellen ihres charakteristischen Polynoms.
λ EW von A ⇔ pA (λ) = 0
(ii) Die EV ~x von A zum EW λ sind genau die nichttrivialen Lösungen des homogenen Systems
(A − λIn )x̃ = 0̃.
(iii) Der Eigenraum EλA zum EW λ der Matrix A ist der Nullraum der Matrix A − λIn .
EA
λ = N(A − λIn ) = ker(A − λIn )
Damit
dim Eλ = def (A − λIn )
b) Berechnung von EW und EV von linearen Operatoren T : V → V, dim(V) = n
T (x) = λx ⇔ T (x) − λx = 0 ⇔ T (x) − λid(x) = 0 ⇔ (T − λid)(x) = 0
(26)
Ist [T ]B die Matrixdarstellung von T zur Basis B ⇒ [T (x)]B = [T ]B [x]B , also
λ EW von T ⇔ T (x) = λx ⇔ [T (x)]B = [λx]B ⇔ [T ]B [x]B = λ[x]B
(27)
133
also: λ EW von T ⇔ λ EW von [T ]B ⇔ λ Nullstelle von p[T ] (X).
Da nach 18.3 alle Matrixdarstellungen untereinander ähnlich sind und ähnliche Matrizen dasselbe charakteristische Polynom besitzen, genügt es zur Bestimmung der EW von T , irgendeine
Matrixdarstellung zu wählen.
x EV von T zum EW λ ⇔ T (x) = λx ⇔ [T ]B [x]B = λ[x]B ⇔ [x]B ist EV zum EW λ der
Darstellungsmatrix [T ]B .
Zusammenfassend ergibt sich
Satz 19.4 Charakterisierung von EW und EV eines linearen Operators T
(i) Die EW eines linearen Operators T : V → V eines n−dimensionalen Vektorraumes sind
genau die Nullstellen des charakteristischen Polynoms irgendeiner Matrixdarstellung [T ].
(ii) Die EV von T : V → V zum EW λ sind genau jene Vektoren x, deren Koordinatenvektor
[x]B bezüglich einer Basis B von V EV der Darstellungsmatrix [T ]B zum EW λ sind.
(iii) Der Eigenraum EλT zum EW λ des Operator T ist der Kern von T − λid.
ET
λ = ker(T − λid)
Damit:
dim ET
λ = def (T − λid)
Insgesamt ergibt sich folgender Algorithmus zur Berechnung der EW und EV:
Schritt 1: Berechne irgendeine Matrixdarstellung [T ] von T
Schritt 2: Berechne die Nullstellen des charakteristischen Polynoms p[T ] (X) : p[T ] (X) = 0
Das ist ein Polynom n−ten Grades, für große n ist die Berechnung fast hoffnungslos. Man
verwendet geeignete Approximationsverfahren (→ Numerische lineare Algebra)
Schritt 3: Zu jeder Nullstelle λ löse das homogene LGS: ([T ] − λIn )~x = ~0
Bemerkung: Eine n × n−Matrix A bzw. ein linearer Operator eines n−dimensionalen
Vektorraumes hat höchstens n EW und höchstens n l.u. EV.
Bemerkung: Die EW können komplex sein, auch von reellen Matrizen. Dann können sie auch
komplexe EV besitzen (deshalb benötigt man eine Theorie komplexer Vektorräume).
Eine komplexe n × n−Matrix hat nach dem Fundamentalsatz der Algebra stets n EW.
134
Satz 19.5 Ähnlichkeitsinvarianz von EW
Das charakteristische Polynom, die Eigenwerte und die Eigenraumdimension von Matrizen sind
Ähnlichkeitsinvarianten, d.h., ist B ∼2 A, dann gilt
(i) pB (X) = pA (X)
(ii) λ ist EW von A ⇔ λ ist EW von B
(iii) dim EλA = dim EλB
Beweis von (ii) und (iii):
(ii) λ ist EW von A ⇔ pA (λ) = 0 ⇔ pB (λ) = 0 ⇔ λ ist EW von B
(iii) dim EλB = def (B − λIn ) = n − rg(B − λIn ) = n − rg(p−1 (A − λIn ) = n − rg(A − λIn ) = def (A − λIn ) =
dim EλA .
Zusammenfassung der bisherigen Ähnlichkeitsinvarianten:
Tabelle der Ähnlichkeitsinvarianten
Invariante
Beschreibung
Determinante
det A = det(P −1 AP )
Invertierbarkeit
A invertierbar ⇔ P −1 AP invertierbar
Rang
rg(A) = rg(P −1 AP )
Defekt
def (A) = def (P −1 AP )
Spur
sp(A) = sp(P −1 AP )
Charakteristisches Polynom
det(A − XI) = det(P −1 AP − XI)
Eigenwerte
λ EW von A ⇔ λ EW von P −1 AP
Eigenraumdimension
dim(EλA ) = dim(EλP
−1 AP
)
135
Satz 19.6 Eigenwert und Invertierbarkeit
(i) Eine quadratische Matrix ist genau dann invertierbar, wenn 0 kein EW von A ist.
(ii) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist genau dann
invertierbar, wenn 0 kein EW von T ist.
Beweis: (i) A invertierbar ⇔ |A| 6= 0.
Sei λ EW von A ⇒ pA (λ) = (−1)n λn + . . . + |A| = 0. Wäre λ = 0 EW von A ⇒
pA (0) = |A| = 0 ⇒ A nicht invertierbar.
(ii) T invertierbar ⇔ [T ]B invertierbar für irgendeine Basis B (Invertierbarkeit ist eine Ähnlichkeitsinvariante)
⇔ 0 ist kein EW von [T ]B ⇔ 0 ist kein EW von T .
Zusammenfassung der bisherigen Invertierbarkeitskriterien:
Tabelle der wichtigsten Invertierbarkeitskriterien
Die quadratische
Der lineare Operator T eines
n × n−Matrix A
n−dimensionalen Vektorraumes
ist genau dann invertierbar, wenn gilt
det(A) 6= 0
det(T ) 6= 0
rg(A) = n
rg(T ) = n
def (A) = 0
def (T ) = 0
λ = 0 ist kein EW von A
λ = 0 ist kein EW von T
A~x = ~0 ist nur trivial lösbar
ker(T ) = {0}
A~x = ~b ist für alle ~b
T (v) = w ist für alle w
eindeutig lösbar
eindeutig lösbar
A∗ A ist invertierbar
T ist injektiv
Spaltenvektoren von A sind l.u.
T ist surjektiv
Zeilenvektoren von A sind l.u.
136
19.2 Minimalpolynom einer Matrix
Neben dem charakteristischen Polynom spielt das Minimalpolynom einer Matrix eine wichtige
Rolle, besonders für das Vereinfachen von Matrizen. Beide stehen in einem engen Zusammenhang zueinander. Grundlage ist der folgende Satz:
Satz 19.7 von CAYLEY–HAMILTON
Jede quadratische n × n−Matrix A ist Nullstelle ihres charakteristischen Polynoms:
pA (A) = 0
1−X 2
1 2
Beispiel: A = 3 2 pA (X) = 3
2−X
2
2
X ↔ A, X ↔ A , 4 ↔ 4In
A2 − 3A − 4E = 97 106 − 3 13 22 − 4 10 01 = 00
= X 2 − 3X − 4
0
0
Beweis: pA (X) = |A − XIn | = (−1)n X n + an−1 X n−1 + . . . + a1 X + a0
Die Elemente der Adjungierten (A − XIn )adj sind Kofaktoren von A − XIn , also Determinanten
von (n − 1) × (n − 1)−Determinanten und damit Polynome in X vom Grad höchstens n − 1.
(A − XIn )adj = Bn−1 X n−1 + . . . + B1 X + B0 , wobei die Bi m × n−Matrizen über K sind z.B.:



 

B2
B1
B0
z
}|
{
}|
{
}|
{
z
z




 


2
2
2
 1 1 1 
 0 0 1   0 −1
1 
X
X −1 X +X +1











 



2
+X 
+
 X
 = X ·
X2 + 1 X2 + 1
0 1 1 
0 0 0 
0
1
1 










 







X + 1 X2
X2 − 1
0 −1 
 0 1 1 
 1 0 0   1

Für die Adjungierte gilt:
(A − XIn ) · (A − XIn )adj = |A − XIn | · In
(A − XIn )(Bn−1 X n−1 + . . . + B1 X + V0 ) = ((−1)n X n + an−1 X n−1 + . . . + a1 X + a0 ) · In
137
Ausmultiplizieren und Ordnen nach Potenzen von X ergibt:
−Bn−1 = (−1)n In
·An
−Bn−2 + ABn−1 = an−1 In
·An−1
−Bn−3 + ABn−2 = an−2 In
..
..
.
.
·An−2
−B0 + AB1 = a1 In
·A
AB0 = a0 In
·In
−An Bn−1 = (−1)n An
−An−1 Bn−2 + An Bn−2 = an−1 An−1
An−2 Bn−3 + An−1 Bn−2 = an−2 An−2
..
.
−AB0 + A2 B1 = an A
AB0 = a0 In
0 = (−1)n An + an−1 An−1 + . . . + a1 A + ao In = pA (A).
Eine n × n−Matrix erfüllt also zumindest eine Polynomgleichung n−ten Grades. Es kann aber
sein, daß eine Matrix A eine Polynomgleichung niedrigeren Grades erfüllen kann.
Beispiel:


2 0
 : pA (X) = X 2 − 4X + 2X,
A=
0 2

 
 
4
0
8
0
4 0
−
+
pA (A) = A2 − 4A + 4I2 = 
4 0
0 8
0 4

 
2 0
−
Es gilt aber auch für p(X) = X − 2 : p(A) = 
0 2


=
2 0
0 2
0 0
0 0
 
=

.
0 0
0 0


Definition 19.3 Minimalpolynom einer Matrix bzw. eines Operators
Das Minimalpolynom mA (X) der quadratischen n × n− Matrix A ist das eindeutig bestimmte
normierte Polynom kleinsten Grades mit mA (A) = 0.
Das Minimalpolynom mT (X) des linearen Operators T : V → V ist das normierte Polynom
kleinsten Grades mit mT (T) = 0.
138
Satz 19.8 Eigenschaften des Minimalpolynoms
(i) Das Minimalpolynom der Matrix A ist stets Teiler des charakteristischen Polynoms
mA (X)/pA (X).
Es teilt überhaupt alle jene Polynome f (X), die A als “Nullstelle” besitzen, für die also
f (A) = O. Also: f (A) = O ⇒ mA (X)/f (X). Umgekehrt gilt: pA (X)/[m(X)]n .
(ii) Das charakteristische Polynom und das Minimalpolynom einer Matrix A haben dieselben
unzerlegbaren Faktoren (irreduziblen Faktoren). Insbesondere haben sie dieselben Linearfaktoren, daher gilt:
(iii) λ EW von A ⇔ λ ist Nullstelle des Minimalpolynoms von A.
(iv) T : V → V invertierbar ⇔ Der konstante Koeffizient des Minimalpolynoms m(X) ist von
Null verschieden, als m(0) 6= 0.
(v) Sei T : V → V , linear und invertierbar und dim(V ) = n. Dann läßt sich T −1 als Polynom
höchstens (n − 1)−ten Grades in T darstellen.
139
Beweis:
(i) Sei f (X) ein Polynom mit f (A) = O. Nach dem Euklidischen Divisionsalgorithmus gibt es Polynome
q(X), r(X) mit f (X) = mA (X)q(X) + r(X) und r(X) = O ∨ [r] < [mA ]. Ist r(X) = O ⇒ mA (X)/f (X).
Andernfalls erhält man durch Einsetzen von X = A : f (A) = mA (A)q(A)+r(A). Wegen f (A) = O = m(A)
erhält man r(A) = O. A wäre also Nullstelle eines Polynoms von kleinerem Grad als der des Minimalpolynoms, da ist ein Widerspruch zur Minimalität, also muß r(X) = O sein und damit gilt: f (X) =
mA (X) · q(X) ⇔ mA (X)/f (X). Insbesondere gilt die Aussage für f (X) = pA (X).
Zum Beweis von pA (X)/[mA (X)]n :
Sei mA (X) = X r + m1 X r−1 + . . . + mr−1 X + mr
Wir definieren folgende Matrizen:
B0 := I, B1 := A + m1 I, B2 := A2 + m1 A + m2 I, . . . ,
Br−1 := Ar−1 + m1 Ar−2 + . . . + mr−1 · I
und B(X) := X r−1 B0 + X r−1 B1 + . . . + XBr−2 + Br−1
Dann ist
(A − XI)B(X)=X r−1 AB0 + X r−2 AB1 + . . . + ABr−1 − (X r B0 + X r−1 B1 + . . . + XBr−1 ) =
=X r B0 − X r−1 (B1 − AB0 ) − X r−2 (B2 − AB1 ) − . . . − X(Br−1 − ABr−2 ) + ABr−1
=X r I − X r−1 m1 I − X r−2 m2 I − . . . − Xmr−1 I − mr I = −m(X) · I
Nach dem Produktsatz für Determinanten gilt:
|A − XI| · |B(X)| = (−1)n [m(X)]n · |I| = (−1)n [mA (X)]n ,
| {z } | {z }
pA (X)
∈K[X]
also teilt pA (X) die n−te Potenz des Minimalpolynoms.
(ii) Sei p(X) ein irreduzibles Polynom, das m(X) teilt. Aus p(X)/m(X)/pA (X) folgt dann p(X)/pA (X). Ist
p(X) ein Teiler von pA (X), dann folgt aus pA (X)/m(X)n , daß p(X)/[m(X)]n , wegen der Irreduzibilität
von p(X) also auch p(X)/m(X).
(iii) λ EW von A ⇔ pA (λ) = 0 ⇔ (X − λ)/pA (X) ⇔ (X − λ)/mA (X) ⇔ mA (X) = (X − λ)q(X) ⇔ mA (λ) = 0.
(iv) T invertierbar ⇔ T nichtsingulär ⇔ 0 kein EW von T ⇔ 0 keine Nullstelle von m[T ] ⇔ m(0) 6= 0.
(v) Sei mT (X) das Minimalpolynom von T ⇒ mT (X) = X r + m1 X r−1 + . . . + mr−1 X + mr mit r ≤ n.
T invertierbar ⇔ mr 6= 0.
mT (T ) = T r + m1 T r−1 + . . . + mr−1 T + mr I ⇒ I = − m1r (T r−1 + m1 T r−2 + . . . + mr−1 I) · T ⇒
T−1 = −
1
(Tr−1 + m1 Tr−2 + . . . + mr I)
mr
Für Blockmatrizen und Blockdiagonalmatrizen vereinfacht sich die Berechnung des charakteristischen Polynoms und des Minimalpolynoms.
140
Satz 19.9 Blockmatrizen

A1 B


A2

(i) Es sei M = 



0
...
C
...
D
..
.
..




, wobei A1 , A2 , . . . , An quadratische Matrizen sind.



. An
Das charakteristische Polynom der triangulären Blockmatrix M ist das Produkt der charakteristischen Polynome der Ai :
pM (X) := pA1 (X) · pA2 (X) · . . . · pAr (X)

A1


(ii) Es sei M = 


0
A2
0
..
. An


, wobei A1 , A2 , . . . , An quadratische Matrizen sind.

Das Minimalpolynom der Blockdiagonalmatrix M ist das kleinste gemeinsame Vielfache
der Minimalpolynome der Ai .
mM (X) = kgV(mA1 (X), . . . , mAr (X)).
Ist λ ein EW von A, dann ist λ Nullstelle von pA (X), also ist das Polynom pA (X) durch den
Linearfaktor X − λ teilbar. Ist λ eine k−fache Nullstelle von pA (X), dann ist pA (X) teilbar
durch (X − λ)k ⇒ pA (X) = (X − λ)k · q(X).
Satz 19.10 Vielfachkeit eines Eigenwertes
(i) Die algebraische Vielfachheit des EW λ von A ist die Anzahl der Linearfaktoren (X−λ)
im charakteristischen Polynom pA (X). Symbolisch:
algebraische Vielfachheit von X ist
k ⇔ (X − λ)k /pA (X) ⇔ pA (X) = (X − λ)k · q(X).
(ii) Die geometrische Vielfachheit des EW λ von A ist die Anzahl der zu λ l.u. EV. Symbolisch:
geometrische Vielfachheit von λ ist r ⇔ dim(EA
λ)=r
(iii) Die geometrische Vielfachheit eines EW von der Matrix A bzw. des Operators T ist
nicht größer als seine algebraische Vielfachheit.
141
Beweis: Sei r die geometrische Vielfachheit des EW λ von f ⇒ dim(Eλ ) = r ⇒ ∃r l.u. EV
{x1 , . . . , xr } zum EW λ. Nach dem Basisergänzungssatz kann man sie zu einer Basis von V
ergänzen:
V =< x1 , . . . , xr , w1 , . . . , wn−r > .
Bezüglich dieser Basis gilt:
f (x1 ) = λx1
f (x2 ) = λx2
..
.
f (xr ) = λxr
f (wi ) = ai1 x1 + . . . + air xr + air+1 w1 + . . . + ain wn−r
i = 1, . . . , n − r
Die Matrixdarstellung von f sieht daher folgend aus:

λ


 0
[f ] = M = 

 0

0
..
.
0



0 A 



0 λ

O
B
Damit ist:
..
· |B − XIn−r | = (λ − X)r · |B − XIn−r | ⇒
.
λ−X (λ − X)r /pM (X) ⇒ (X − λ)r /pM (X).
λ−X
pM (X) = |M − XIn | = Ist k die algebraische Vielfachheit von λ ⇒ pM (X) = (X − X)k · q(X) ⇒ r ≤ k.
Das folgende Beispiel soll zeigen, daß jedes normierte Polynom bis auf das Vorzeichen als charakteristisches Polynom einer Matrix auftreten kann.
142
Beispiel: a0 , a1 , . . . , an−1 ∈ K = IR,C.
I
Die Matrix F ∈ K n·n der folgenden Form heißt FROBENIUS–Matrix.


0
1
0
...
0





 0
0
1
...
0


F := 


 0
0
0
...
1


−a0 −a1 −a2 . . . −an−1
(Manchmal ist sie auch transponiert definiert).
Das charakteristische Polynom pF (x) = (−1)n (a0 + a1 x + a2 x2 + . . . + an−1 xn−1 + xn ) und ist
λ ein EW von F , dann ist
~x = (1λ, λ2 , . . . , λn−1 )
zugehöriger EV.
Wegen rg(F − λIn ) = n − 1 ist die geometrische Vielfachheit eines jeden EW (unabhängig von
der algebraischen Vielfachheit)
1
0
−1
0
−x
1
pf (X) = 0
0
0
−a0 −a1 −a2
stets 1.
...
0
0
...
0
0
...
−x
1
. . . −an−2 −an−1
= Entwicklung nach der letzten Zeile
= (−1)n+1 (−a0 ) + (−1)n+2 (−a1 )(−x) + (−1)n+3 (−a2 )(−x2 ) + . . . +
+ (−1)2n−1 (−an−2 )(−x)n−2 + (−1)2n (−an−1 − x)(−x)n−1 =
= (−1)n (a0 + a1 x + . . . + an−1 xn−1 + xn ) .
|
{z
}
f (x)∈K[x]
Zu jeden normierten Polynom f (x) ∈ K[x] gibt es eine Matrix, nämlich die FROBENIUS–
Matrix aus den Koeffizienten des normierten Polynoms, das bis auf das Vorzeichen f (x) als
charakteristisches Polynom besitzt.



f (x) = x − 5x + 3x + 2 ⇔ Af = 

3
2
0
1 0



0
0 1 

−2 −3 5
Die Begleitmatrix Af eines normierten Polynoms f (x) = a0 + a1 x + . . . + an−1 xn−1 + xn ist
die Frobenius–Matrix seiner Koeffizienten.
143
19.3 Eigenwerte und Eigenvektoren spezieller Matrizen
Satz 19.11 Eigenwerte von speziellen Matrizen
A, B seien quadratische n × n−Matrizen, T : V → V linear, dim(V ) = n
(i) AB und BA haben dieselben EW.
(ii) Die Transponier At hat dieselben EW wie W .
(iii) Die Eigenwerte einer Dreiecksmatrix sind die Elemente in der Hauptdiagonale.
(iv) Die Eigenwerte einer Blockdiagonalmatrix bzw. einer Block-Dreiecksmatrix (blocktrianguläre Matrix) sind die Eigenwerte der Matrizen in der Hauptdiagonalen.
(v) Eine hermitesche Matrix (A∗ = A) hat nur reelle Eigenwerte. Insbesondere sind alle
Eigenwerte einer symmetrischen Matrix reell.
(vi) Eine schiefhermitesche Matrix (A∗ = −A) hat nur rein imaginäre Eigenwerte.
(vii) Eine unitäre Matrix (A∗ = A−1 ) hat nur Eigenwerte mit Betrag 1, also nur EW der
Form: (λ = eiϕ cos ϕ + i sin ϕ). Insbesondere hat eine orthogonale Matrix nur ±1 als
Eigenwerte.
(viii) Ist A eine reguläre Matrix, dann hat A∗ A nur positive, reelle Eigenwerte.
Beweis:
(i)
1. Sei λ = 0 ein EW von AB ⇔ AB singulär ⇔ A oder B singulär (weil das Produkt von regulären
Matrizen wieder regulär ist) ⇔ BA singulär ⇔ λ = 0 ist auch EW von BA.
2. Sei λ 6= 0 ein EW von AB ⇒ ∃~
x 6= ~0 : AB~
x = λ~
x. Wir setzen mit diesem ~
x:~
y := B~
x. Dafür gilt:
A~
y = A(B~x) = (AB)~
x = λ~
x 6= ~0 (weil λ 6= ~0 ∧ ~
x 6= 0) ⇒ ~
y = ~0 (sonst wäre A~
y = ~0). Dieses ~
y 6= ~0 ist
EV von BA zum EW λ, denn: (BA)~
y = BAB~
x = B(AB~
x) = B(λ~
x) = λ(B~
x) = λ~
y . Also ist λ EW
von BA. Analog ist jeder von Null verschiedene EW von BA auch EW von AB.
(ii) At und A haben dieselben charakteristischen Polynome, denn: (A − XIn )t = At − XInt = At − XIn . Da
die Determinante beim Transponieren gleich bleibt, gilt:
pA (X) = |A − XIn | = |(A − XIn )t | = |At − XIn | = pAt (X).
Damit haben At und A auch dieselben EW.
144
(iii) Die Matrix A − XIn ist wieder eine Dreiecksmatrix:
0
a11 − X
a12
a1n
1
0
..
.
a22 − X
a2n
..
.
C
C
C
C
C
C
A
0
0
B
B
B
A − XIn = B
B
B
@
..
.
...
ann − X
Damit ist pA (X) = |A − XIn | = (a11 − X)(a22 − X) . . . (ann − X) ⇒ die EW sind gegeben durch
a11 , a22 , . . . , ann .
(iv) Induktionsanfang:
0
1
A1 B
A , A1 , A2 quadratische Matrizen
M := @
0 A2
˛
˛
˛
˛
˛ A1 − XI
˛
B
˛ = |A1 − XI| · |A2 − XI| nach S 311.2.
pM (X) = ˛˛
˛
˛
A2 − XI ˛
Durch Induktion zeigt man die Behauptung.
(v) Sei λ EW von A = A∗ mit EV ~
x : A~
x = λ~
x.
Beweis mittels der Verschiebungsformel:
λ<~
x, ~
x >=< λ~x, ~
x >=< A~
x, ~
x >=< ~
x, A∗ A~
x >=< ~
x, λ~
x >= λ < ~
x, ~
x >⇒ λ = λ ⇒ λ ∈ IR.
(vi) Beweis mittels der Verschiebungsformel: λ < ~
x, ~
x >=< λ~
x, ~
x >< A~
x, ~
x >=< ~x, A∗ ~
x >=< ~
x, (−A)~
x >=
−<~
x, A~
x >= −λ < ~
x, ~
x >⇒ λ = −λ ⇒ λ imaginär.
(vii) Sei λ EW von A mit A∗ = A−1 mit EV ~
x 6= 0 : A~
x = λ~
x.
x, ~
x >=< λ~
x, λ~
x >=< A~
x, A~
x >=< ~
x, A∗ A~
x >=< ~
x, A−1 A~
x >=< ~
x, ~
x >.
λλ < ~
Wegen < ~
x, ~
x >6= 0 gilt damit λλ = 1 ⇒ |λ| = 1.
(viii) Sei ~
x 6= ~0 EV von A∗ A zum EW λ. Dann ist auch A~
x 6= ~0 (sonst wäre A singulär), daher ist < A~
x, A~
x>
größer als 0.
λ<~
x, ~
x >=< λ~
x, ~
x >=< A∗ A~
x, ~
x >=< A~
x, A~
x >.
Weil < ~
x, ~
x > und < A~
x, A~
x > beide positive sind, ist auch λ positiv.
Satz 19.12 Lineare Unabhängigkeit von Eigenvektoren
T : V → V , linear, dim(V ) = n.
A sei eine quadratische n × n−Matrix.
(i) Eigenvektoren von T zu verschiedenen Eigenwerten sind l.u.
(ii) Eigenvektoren zu verschiedenen Eigenwerten einer hermiteschen (symmetrischen)
Matrix stehen orthogonal aufeinander.
(iii) Eine reelle, symmetrische Matrix hat mindestens einen reellen Eigenvektor!
145
Beweis:
(i) λ1 , . . . , λm seien paarweise verschiedene EW von T (d.h., λi 6= λj für i 6= j) und x1 , . . . , xm die dazugehörigen EV. Beweis durch vollständige Induktion nach m:
m = 1 : x1 6= 0 als EV ⇒ x1 l.u.
Seien {x1 , . . . , xr } l.u., dann sind auch {x1 , . . . , xr+1 } l.u.
Sei k1 x1 + . . . + kr xr + kr+1 + xr+1 = 0.
(28)
a) Multiplikation von (28) mit λr+1 ergibt:
λr+1 k1 x1 + . . . + λt+1 kr xr + λr+1 kr+1 xr+1 = 0
(29)
b) Anwenden von T auf (28) ergibt:
T (k1 x1 + . . . + kr xr + kr+1 xr+1 = T (0) = 0
k1 T (x1 ) + . . . + kr T (xr ) + kr+1 T (xr+1 ) = 0
k1 λ1 x1 + . . . kr λr xr + kr+1 λr+1 xr+1 = 0
(30)
Subtrahiert man (29) von (30), so erhält man (die letzten Summanden sind gleich und fallen weg):
k1 (λ1 − λr+1 )x1 + . . . + kr (λr − λr+1 )xr = 0.
Weil {x1 , . . . , xr } l.u. ⇒ ki (λi − λr+1 ) = 0 i = 1, . . . , r ⇒ ki = 0 für i = 1, . . . , r, weil λi − λr+1 6= 0
nach Voraussetzung.
Aus (28) folgt dann: kr+1 xr+1 = 0. Wegen xr+1 6= 0 (als EV) muß kr+1 = 0 sein. Damit ist (28) nur
möglich, wenn alle Koeffizienten ki = 0(i = 1, . . . , r + 1) ⇒ {x1 , . . . xr , xr+1 } l.u.
(ii) Sei Ax~1 = λ1 x~1 und Ax~2 = λ2 x~2 mit λ1 6= λ2 und At = A ⇒< A~
x, ~
y >=< x, A~
y > (Verschiebungsformel).
Damit ist λ1 < x~1 , x~2 >=< λ1 x~1 , x~2 >=< Ax~1 , x~2 >=< x~1 , Ax~2 >=< x~1 , λ2 x~2 >= λ2 < x~1 , x~2 >
⇒ (λ1 − λ2 · < x~1 , x~2 >⇒< x~1 , x~2 >= 0 (weil λ1 − λ2 6= 0).
(iii) Eine reelle symmetrische Matrix hat nur reelle EW. Aus λ reell ⇒ A − λIn reell und singulär ⇒ ∃~
x ∈ IRn :
(A − λIn )~
x = ~0 ⇒ ~
x reeller EV.
Satz 19.13 Basen aus Eigenvektoren
(i) Hat ein linearer Operator T : V → V mit n = dim(V ) verschiedene EW, dann hat V eine
Basis aus Eigenvektoren.
(ii) Die Summe von Eigenräumen zu verschiedenen Eigenwerten ist eine direkte:
Eλ1 + . . . + Eλr = Eλ1 ⊕ . . . ⊕ Eλr
146
Beweis:
(i) n verschiedene EW ⇒ n l.u. EV. Je n l.u. Vektoren bilden eine Basis.
(ii) Sei x1 + x2 + . . . + xr = x01 + x02 + . . . + x0r mit xi , x0i ∈ Eλi
(x1 − x01 ) + (x2 − x02 ) + . . . + (xr − x0r ) = 0
(31)
Wäre xi − x0i 6= 0, dann wären xi − x0i EV zu λi (i = 1, . . . , r). (31) ist eine nichttriviale Linearkombination,
die 0 ergibt, also wären xi − x0i l.a. EV zu den verschiedenen EW λi , Widerspruch.
Die Eigenschaft der Orthogonalität der Eigenvektoren einer Matrix ist nicht nur eine Spezialität
der symmetrischen Matrizen. Im folgenden werden wir sehen, daß sie allen jenen Matrizen A
zukommt, die mit ihrer Transponiert–Konjugierten A∗ vertauschbar sind, wie z.B.:

A=

A∗ = 

AA∗ = 

A∗ A = 
1

i
1 2+1
1
1



−i 2 − i

1
i
1
1

1 2+i
−i 2 − i

1
1
1
i

−i 2 − i
1 2+i


=


=
2
2 + 2i
2 − 2i
6
2
2 + 2i
2 − 2i
6




Definition 19.4 Normale Matrizen
Eine quadratische Matrix A heißt normal, wenn sie mit ihrer Konjugiert–Transponierten A∗
vertauschbar ist. A normal ⇔ AA∗ = A∗ A
Satz 19.14 Beispiele normaler Matrizen
Jede unitäre (orthogonale), hermitesche (symmetrische) und jede schiefhermitesche Matrix ist
normal.
Beweis:
A unitär ⇒ AA∗ = AA−1 = A−1 A = A∗ A
A hermitesch ⇒ AA∗ = AA = A∗ A
A schiefhermitesch ⇒ AA∗ = A(−A) = −AA = (−A)A = A∗ A
147
Alle unsere bisherigen Typen von Matrizen sind also Spezialfälle von normalen Matrizen. Es
gibt aber
andere normale Matrizen
(auch
 auch 

 im Reellen), die nicht
 vomobigen Typ sind, z.B.
1 2
1 −2
5 0
 ⇒ A∗ = At = 
 und AAt = At A = 

A=
−2 1
2
1
0 5
Satz 19.15 Eigenschaften normaler Matrizen
A sei eine normale n × n−Matrix über K = CI bzw IR,
λ ∈ K, ~x ∈ K n .
(i) A~x = ~0 ⇔ A∗ ~x = ~0
(ii) Mit A ist auch A − λIn normal
(iii) A~x = λ~x ⇔ A∗ ~x = λ~x.
Jeder EV von A ist auch EV von A∗ , allerdings zum konjugiert–komplexen EW (im Reellen
also wieder zum gleichen EW).
(iv) Eigenvektoren von normalen Matrizen zu verschiedenen Eigenwerten sind orthogonal.
Beweis:
(i) Es gilt: < A~
x, A~
x >=< A∗ ~
x, A∗ ~
x >. Nach der Verschiebungsformel gilt:
< A~
x, A~
x >=< ~
x, A∗ A~
x >=< ~
x, AA∗ ~
x >=< A∗ ~
x, A∗ ~
x >.
Also ist A~
x = ~0 ⇔< A~
x, A~
x >=< ~0, ~0 >= 0 =< A∗ ~
x, A∗ ~
x >⇔ A∗ ~
x = 0 wegen (S4).
(ii) (A − λIn )(A − λIn )∗ = (A − λIn )(A∗ − λIn ) = AA∗ − λA∗ − λA + λλIn = A∗ A − λA − λA∗ + λλIn
(A − λIn )∗ (A − λIn ) = (A − λIn )(A − λIn ) = A∗ A − λA − λA∗ + λλIn = AA∗ − λA − λA + lλIn .
(iii) Sei A~
x = λ~
x ⇒ (A − λIn )~
x = 0 ⇒ (wegen der Normalität von A − λIn und (i))
(A∗ − λIn )~
x = ~0 ⇒ A∗ ~
x = λ~
x.
(iv) Sei Ax~1 = λx~1 und Ax~2 = λ2 x~2 mit λ1 6= λ2 .
λ1 < x~1 , x~2 >=< λx~1 , x~2 >=< Ax~1 , x~2 >=< x~1 , a∗ x~2 >=< x~1 , λ2 x~2 >= λ2 < x~1 , x~2 >= λ2 < x~1 , x~2 >.
Dann ist:
λ1 < x~1 , x~2 > −λ2 < x~1 , x~2 >= 0 ⇒ (λ1 − λ2 )· < x~1 , x~2 >= 0. Wegen λ1 6= λ2 ist dann < x~1 , x~2 >= 0 ⇒
x~1 ⊥ x~2 .
148
Zusammenfassung der bisherigen Typen von quadratischen Matrizen:
Tabelle verschiedener quadratischer Matrizen A
Bezeichnung
Definition
Besonderheiten
A normal
A∗ A = AA∗
orthogonale EV zu verschiedenen EW
A symmetrisch
At = A
nur reelle EW
A hermitesch
A∗ = A
nur reelle EW
A schiefhermitesch
A∗ = −A
nur imaginäre EW
A schiefsymmetrisch
At = A−1
nur imaginäre EW
A orthogonal
At = A−1
nur ±1 als EW
A unitär
A∗ = A−1
nur EW vom Betrag 1: λ = cos ϕ + i sin ϕ
149
20 Linearität in Skalarprodukträumen
Lineare Abbildungen sind verträglich mit den Vektorraumoperationen. In Skalarprodukträumen
(V, <, >) wird man darüber hinaus an solchen Abbildungen interessiert sein, die zusätzlich noch
das Skalarprodukt respektieren bzw. eine “Verschiebungsformel” wie bei Matrizen erlauben. Damit erhält man weitere Lösbarkeitsbedingungen für lineare Operatorgleichungen.
20.1 Orthogonale und unitäre Abbildungen
Es werden jene aus der Anschauung bekannten Abbildungen auf abstrakte Skalarprodukträume
verallgemeinert, die Abstand und Winkel invariant lassen, wie z.B. Drehungen und Spiegelungen.
Leider haben sie über komplexe bzw. reelle Vektorräume gänzlich verschiedene Namen.
Definition 20.1 Orthogonale bzw. unitäre Abbildungen
(V, <, >) und (W, <, >) seien Skalarprodukträume über K, K = IR oder K = C.
I
Eine orthogonale (unitäre) Abbildung ist eine lineare Abbildung f : (V, <, >) → (W, <, >),
die das Skalarprodukt invariant läßt:
f orthogonal (unitär) ⇔< f (x), f (y) >=< x, y >
Bemerkung: Das Wort unitär wird nur bei Verwendung von komplexen Zahlen benützt. Verwendet man nur reelle Zahlen, spricht man von orthogonal.
Beispiel: Der durch eine orthogonale (unitäre) Matrix A induzierte Operator
TA : IRn → IRn (ICn → CI n ) mit TA (~x) = A · ~x ist ein orthogonaler (unitärer) Operator. Nach ??
(iv) gilt nämlich: < A(~x), A(~y ) >=< A~x, A~y >=< ~x, ~y >.
Beispiel: Die Drehungen um ±90◦ , ±180◦ , ±270◦ um den Ursprung 0 sind orthogonal.
Satz 20.1 Eigenschaften von orthogonalen (unitären) Abbildungen
(i) Orthogonale (unitäre) Abbildungen sind stets injektiv. Damit: Orthogonale (unitäre) Abbildungen von endlich–dimensionalen Vektorräumen sind stets Isomorphismen.
(ii) f orthogonal (unitär) ⇔ kf (x)k = kxk. Orthogonale (unitäre) Abbildungen f lassen die
Norm unverändert. Orthogonale Abbildungen lassen damit auch Winkel invariant.
150
(iii) f : V → W ist genau dann orthogonal (unitär), wenn das Bild einer ON–Basis wieder
eine ON–Basis ist.
f orthogonal ⇔ ((e1 , . . . , en ) ON–Basis ⇒ (f (e1 ), . . . , f (en )) ON–Basis)
(iv) f : V → W ist genau dann orthogonal (unitär), wenn die Matrixdarstellung [f ] von f
bezüglich ON–Basen eine orthogonale (unitäre) Matrix ist.
f orthogonal (unitär) ⇔ [f ] orthogonal (unitär).
(v) Die Determinante eines orthogonalen (unitären) Operators hat stets den Betrag 1:
det(f ) = ±1 im Reellen bzw. | det(f )| = 1 im Komplexen.
Beweis:
(i) Sei x ∈ ker(f ) ⇔ f (x) = 0 ⇒< x, x >=< f (x), f (x) >=< 0, 0 >= 0 ⇒ x = 0.
(ii) kf (x)k2 < f (x), f (x) >=< x, x >= kxk2
cos < (f (x), f (y)) =
<f (x),f (y)>
kf (x)k·kf (y)k
=
<x,y>
kxk·kyk
= cos < (x, y)
(iii) 1. Sei f orthogonal (unitär) ⇒< f (ei ), f (ej ) >=< ei , ej >= δij
P
P
2. Sei < f (ei ), f (ej ) >= δij ⇒ für x =
λi ei und y =
µi ei gilt:
P
P
P
< f (x), f (y) >=< f ( i λi ei ), f ( j µj ej ) >= i,j λi µj < f (ei ), f (ej ) >=
P
P
P
P
= i,j λi µj δij = i,j λi µj < ei , ej >==< x, y >
(iv) Bezüglich ON–Basen gilt:
< x, y > = [y]∗ [x]
< f (x), f (y) = [f (y)]∗ [f (x)]
Aus < f (x), f (y) = < x, y > folgt dann:
[f (y)]∗ [f (x)] = [y]∗ [x], also
([f ][y])∗ ([f ][x]) = [y]∗ [x]
y ∗ ([f ]∗ [f ])[x] = [y]∗ In [x]
∀x, y,
insbesondere für die Basisvektoren, daher ist:
[f ]∗ [f ] = In ⇒ [f ] ist unitär
Ist umgekehrt [f ] unitär bezüglich einer ON–Basis:
< f (x), f (y) = [f (y)]∗ [f (x)] = ([f ][y])∗ ([f ][x]) = [y]∗ ([f ]∗ [f ])[x] = [y]∗ In [x] = [y]∗ [x] =
< x, y >, also ist f unitär.
(v) det(f ) = det([f ]). Da [f ] unitär ist, folgt die Behauptung aus Kapitel ?? (5).
151
Definition 20.2 Spezielle orthogonale Abbildungen
Die Menge der orthogonalen (unitären) Isomorphismen eines Skalarproduktraumes V wird mit
O(V ) bzw. U (V ) bezeichnet. Statt O(IRn ) schreibt man kurz O(n), analog U (n). Orthogonale Isomorphismen bzw. orthogonale Matrizen mit Determinante +1 heißen auch spezielle orthogonale
Abbildungen bzw. Matrizen, bezeichnet mit O+ (n) bzw. O+ (V )).
Satz 20.2 Die orthogonale Gruppe
(i) O(V ) bzw. U (V ) bildet bezüglich der Hintereinanderausführung eine Gruppe:
Sie heißt die orthogonale (unitäre) Gruppe.
(ii) O+ (n) bzw. O+ (V ) bildet eine Untergruppe von O(n) bzw. O(V ) bezüglich ◦.
O+ (n) C O(n); O+ (V ) C O(V )
Beweis: (i) Produkt und Inverse von orthogonalen (unitären) Abbildungen sind wieder orthogonal (unitär):
< (f ◦ g)(x), (f ◦ g)(x) >=< f (g(x)), f (g(y)) >=< g(x), g(y) >=< x, y >.
Sei f −1 (x) = x0 ⇔ f (x0 ) = x
< f −1 (x), f −1 (y) >=< x0 , y 0 >=< f (x0 ), f (y 0 ) >=< x, y >.
(ii) gilt nach dem Produktsatz für Determinanten.
20.2 Adjungierte Abbildungen
Der 4–Teilräumesatz für Matrizen, eine Folgerung aus der Verschiebungsformel, hat sich für lineare Gleichungssysteme als ein wichtiges Werkzeug erwiesen. Da nun lineare Abbildungen verallgemeinerte Matrizen sind, versucht man, die Verschiebungsformel für Matrizen < A~x, ~y >=<
~x, A∗ ~y > auf lineare Abbildungen zu verallgemeinern. Die der konjugiert–transponierten Matrix
A∗ (nicht der adjungierten Matrix X adj !) entsprechenden Abbildung heißt die adjungierte Abbildung. Dadurch erhält man einen entsprechenden 4–Teilräume–Satz für lineare Operatoren und
damit ein wichtiges Werkzeug zur Untersuchung von linearen Operatorgleichungen in Skalarprodukträumen. Durch das Verhalten beim Übergang T → T ∗ können weiters spezielle Operatoren
charakterisiert werden. Zum Schluß zeigen wir, daß dem Adjungieren der Operatoren das Konjugieren der komplexen Zahlen entspricht.
152
Beispiel:
Gegeben sei T : CI 3 → CI 3 mit
T (x1 , x2 , x3 ) = (2x1 + ix2 , x2 − 5ix3 , x1 + (1 − i)x2 + 3x3 )
Dazu definieren wir einen Operator T ∗ auf folgende Art und Weise:
1. Berechne die Matrixdarstellung [T ] bezüglich einer ON–Basis.
2. Bilde die Konjugiert–Transponierte [T ]∗ .
3. T ∗ sei nun jener Operator, der [T ]∗ als Matrixdarstellung besitzt:




2
i
0
2 0
1








[T ]St =  0
1
−5i  ⇒ [T ]∗St =  −i 1 1 + i 




1 1−i 3
0 5i
3
Damit ist T ∗ = CI 3 → CI 3 mit
T ∗ (x1 , x2 , x3 ) = (2x1 + x3 , −ix1 + x2 + (1 + i)x3 , 5ix2 + 3x3 )
Für das so definierte T ∗ gilt die Verschiebungsformel
< T (~x), ~y >=< ~x, T ∗ (~y ) >:

2x1 + ix2


< T (~x), ~y >=<  x2 − 5ix3

x1 + (1 − i)x2 + 3x3
 
y1

 

 

 ,  y2  >=
 

y3
= 2x1 y¯1 + 2x2 y1 + x2 y¯2 − 5ix3 y¯2 + x1 y¯3 + (1 − i)x2 y¯3 + 3x3 y¯3

<
~x, T ∗ (~y )
x1
 
2y1 + y3

 

 
>=<  x2  ,  −iy1 + y2 + (1 + i)y3

 
x3
5iy2 + 3y3



 >=

= 2x1 y¯1 + x1 y¯3 + ix2 y1 + x2 y¯2 + (1 − i)x2 y¯3 − 5ix3 y¯2 + 3x3 y¯3
Es ist: < T (~x)~y >=< ~x, T ∗ (~y ) >.
153
Definition 20.3 Die Adjungierte einer linearen Abbildung
f : V → W sei eine lineare Abbildung der Skalarprodukträume V in W .
Die Adjungierte f ∗ von f ist jene Abbildung f ∗ : W → V , für die die Verschiebungsformel
< f (x), y >=< x, f ∗ (y) > ∀x ∈ V und ∀y ∈ W
gilt.
Satz 20.3 Existenz und Eindeutigkeit der Adjungierten
f : V → W , linear und f ∗ : W → V sei die zu f adjungierte Abbildung.
(i) Falls eine lineare Abbildung f eine Adjungierte f ∗ besitzt, ist sie eindeutig bestimmt.
(ii) Die Adjungierte f ∗ von f ist wieder eine lineare Abbildung, und zwar von W in V .
(iii) Zwischen endlich–dimensionalen Vektorräumen existiert zu jeder linearen Abbildung f
stets die dazu Adjungierte f ∗ : f ∗ ist die von der Matrix [f ]∗ induzierte lineare Abbildung, wobei [f ] die Matrixdarstellung von f bezüglich einer ON–Basis ist.
(iv) In unendlich–dimensionalen Vektorräumen muß es keine Adjungierte geben.
Beachte: Bei f ∗ sind Definitions– und Wertemenge gegenüber f vertauscht.
Beweis:
Wir werden im folgenden oft folgende Eigenschaft des Skalarproduktes verwenden:
Ist < x, A >=< x, B > ∀x ⇒ A = B :
< x, A >=< x, B >⇒< x, A > − < x, B >= 0 ⇒< x, A − B >= 0∀x ⇒ A − B = 0 ⇒ A = B
(i) Seien f ∗ und f 0 zwei Adjungierte, dann gilt:
< f (x), y >=< x, f ∗ (y) >=< x, f 0 (y) > ∀x, y ⇒ f ∗ (y) = f 0 (y)∀y ⇒ f ∗ = f 0 .
(ii) < f (x), λ1 y1 + λ2 y2 >=< x, f ∗ (λ1 y1 + λ2 y2 ) > und
< f (x), λ1 y1 + λ2 y2 >= λ1 < f (x), y1 > +λ2 < f (x), y2 >=
= λ1 < x, f ∗ (y1 ) > +λ2 < x, f ∗ (y2 ) >=< x, λ1 f ∗ (y1 ) + λ2 f ∗ (y2 ) >.
Damit ist
< x, f ∗ (λ1 y1 + λ2 y2 ) >=< x, λ1 f ∗ (y1 ) + λ2 f ∗ (y2 )∀x ∈ V ⇒
f ∗ (λ1 y1 + λ2 y2 ) = λ1 f ∗ (y1 ) + λ2 f ∗ (y2 ) ⇒ f ∗ ist linear
154
(iii) Sei f ∗ : W → V mit [f ∗ ] = [f ]∗ bezüglich ON–Basen. Für diese Abbildung f ∗ gilt die Verschiebungsformel
(beachte die Definition der Matrixdarstellung [f ] : [f (x)] = [f ][x]).
< f (x), y > = [y]∗ [f (x)] = [y]∗ [f ][x]
< x, f ∗ (y) > = [f ∗ (y)]∗ [x] = ([f ]∗ [y])∗ [x] = [y]∗ [f ][x]
Beachte: Ist [f ] die Matrixdarstellung von f bezüglich einer ON–Basis, dann ist die Matrixdarstellung von f ∗ bezüglich einer ON–Basis gegeben durch die Konjugiert–Transponierte von [f ]: [f ∗ ] = [f ]∗ .
(iv) Gegenbeispiel: V = P [x], < f, g >=
R1
0
f (x)g(x)dx.
D sei der Differentialoperator auf P [x] : D(f (x)) = f 0 (x).
D hat keine Adjungierte D∗ , d.h.:
R1
R1
< D(f ), g >= 0 f 0 · gdt 6= 0 f g 0 dt =< f, D(g) >.
Satz 20.4 Algebraische Eigenschaften der Adjungierten
S und T seien lineare Operatoren auf V, λ ∈ K = IR,C.
I Dann gilt:
(i)
(S + T )∗ = S ∗ + T ∗
(ii)
(λT )∗ = λT ∗
(iii
(ST )∗ = T ∗ S ∗
(iv)
(T ∗ )∗ = T
Beweis:
(i)
< (S + T )(x), y > = < S(x) + T (x), y >=< S(x), y > + < T (x), y >=
= < x, S ∗ (y) > + < x, T ∗ (y) >=< x, (S ∗ + T ∗ )(y) > ∀x, y.
S ∗ + T ∗ besitzt die Adjungierteneigenschaft von (S + T ), weil diese eindeutig bestimmt ist, ist S ∗ + T ∗ die
Adjungierte von S + T , also (S + T )∗ = S ∗ + T ∗
(ii)
< T ∗ (x), y > = < x, (T ∗ )∗ (y) > und
< T ∗ (x), y > = < y, T ∗ (x) > = < T (y), x > = < x, T (y) > =< x, T (y) >
Also ist: < x, (T ∗ )∗ (y) >=< x, T (y) > ∀x, y ⇒ (T ∗ )∗ (y) = T (y)∀y ⇒ (T ∗ )∗ = T
Mittels der Adjungierten läßt sich nun auch der Vier–Teilräumesatz für Matrizen auf lineare
Abbildungen verallgemeinern:
155
Satz 20.5 Vier–Teilräume–Satz für lineare Operatoren
f : V → W sei eine lineare Abbildung zwischen endlichdimensionalen Vektorräumen.
(i)
[im(f )]⊥ = ker(f ∗ )
(ii)
im(f ) = (ker(f ∗ ))⊥
(iii)
[ker(f )]⊥ = im(f ∗ )
(iv)
ker(f ) = [im(f ∗ )]⊥
Beweis wie für Matrizen.
Zusammen mit dem Dimensionssatz kann man damit die Ranggleichheit von f auf f ∗ zeigen.
Dies stellt die Verallgemeinerung der Eigenschaft des gleichen Zeilen– und Spaltenranges dar.
Satz 20.6 Ranggleichheit von f und f ∗
In endlich–dimensionalen Vektorräumen haben f : V → W und f ∗ : W → V denselben Rang.
Beweis:
rg(f ) = dim(im(f )) = dim[(ker(f ∗ ))]⊥ = dim(W ) − dim(ker(f ∗ )) = dim(im(f ∗ )) = rg(f ∗ ).
Der Vier–Teilräume–Satz gilt nicht ganz in unendlich–dimensionalen Vektorräumen, wohl aber:
Satz 20.7 Orthogonalität von Bild und Kern
f : V → W sei linear und besitze eine Adjungierte f ∗ : W → V .
(i) im(f ) ⊥ ker(f ∗ )
(ii) ker(f ) ⊥ im(f ∗ )
Beweis:
Sei y ∈ im(f ) und W ∈ ker(f ∗ ) ⇒ ∃x ∈ V : y = f (x). Dann ist
< y, w >=< f (x), w >=< x, f ∗ (w) >=< x, 0 >= 0 ⇒ im(f ) ⊥ ker(f ∗ ). Analog folgt (ii).
Damit kann man auch in unendlich–dimensionalen Vektorräumen Lösbarkeitsbedingungen für
lineare Operatorgleichungen angeben:
inhomogene lineare Operatorgleichung: f (x) = y (I)
homogene adjungierte Operatorgleichung: f ∗ (u) = 0 (H ∗ )
Satz 20.8 Lösbarkeitsbedingungen für Operatorgleichungen
f : V → W sei linear und habe eine Adjungierte f ∗ .
(i) f (x) = y hat nur dann eine Lösung, wenn y ⊥ ker(f ∗ ).
Sind V, W endlich–dimensional, dann gilt sogar:
(ii) f (x) = y hat genau dann eine Lösung, wenn y auf jede Lösung von f ∗ (u) = 0 steht.
Also: (I) lösbar ⇔ y ⊥ (H ∗ ).
156
Beweis:
(i) f (x) = y hat Lösung ⇔ y ∈ im(f ) ⊥ ker(f ∗ ) nach (20.7 (i)).
(ii) (I) lösbar ⇔ y ∈ im(f ) = [ker(f ∗ )]⊥ nach (20.7 (ii)).
So wie für quadratische Gleichungssysteme gilt auch für lineare Operatoren T : V → V (allerdings nur in endlich–dimensionalen Skalarprodukträumen) die FREDHOLM–Alternative, wenn
folgende Bezeichnungen eingeführt werden:
T (x) = y
(I)
inhomogene Operatorgleichung
T (x) = 0
(H)
dazugehörige homogene Operatorgleichung
T ∗ (u) = v
(I ∗ )
inhomogene adjungierte Operatorgleichung
T ∗ (u) = 0
(H ∗ )
dazugehörige homogene adjungierte Operatorgleichung
Satz 20.9 FREDHOLMsche Alternative für Operatorgleichungen
Entweder sind (H) und (H ∗ ) nur trivial lösbar, wobei dann (I) und (I ∗ ) eindeutig lösbar sind
oder (H) und (H ∗ ) haben beide nichttriviale Lösungen, wobei dann (I) genau dann lösbar ist,
wenn y auf alle Lösungen von (H ∗ ) orthogonal steht
und (I ∗ ) genau dann lösbar ist, wenn v auf alle Lösungen von (H) orthogonal steht.
Beweis:
Aus rg(f ) = rg(f ∗ ) folgt nach dem Dimensionssatz def (f ) = def (f ∗ ) ⇒ (H) und (H ∗ ) haben beide keine
nichttrivialen Lösungen oder beide haben nichttriviale Lösungen. Das andere folgt aus (20.7).
20.3 Normale Operatoren
Mit Hilfe der Adjungierten können nun verschiedene Klassen von linearen Operatoren
T : V → V charakterisiert (= definiert) werden. So gilt z.B. für unsere orthogonalen (unitären)
Operatoren aus 20.1 in der “Sprache der Adjungierten”:
T unitär ⇔< T (x), T (y) >=< x, y >.
Wegen < T (x), T (y) >=< x, T ∗ T (y) > ist dies gleichbedeutend mit:
T unitär ⇔< x, (T ∗ T )(y) >=< x, y >⇔
< x, (T ∗ T )(y) >=< x, id(y) > ∀x, y ⇔ (T ∗ T )(y) = id(y)∀y ⇔ T ∗ T = id ⇔ T∗ = T−1
T unitär bedeutet also in der Sprache der adjungierten Abbildung T ∗ :
T unitär ⇔ T ∗ = T −1 (T −1 existiert, weil unitäre Abbildungen stets invertierbar sind.)
Genauso werden wir in 20.4 mittels der Adjungierten T ∗ weitere Operatoren definieren.
157
Da weiters die Matrixdarstellung verträglich bezüglich den Rechenoperationen ist, (bezüglich
einer ON–Basis gilt auch (siehe 20.1(iii)) [T ∗ ] = [T ]∗ ) für ON–Basen:
T unitär ⇔ [T ∗ ] = [T −1 ] ⇔ [T ]∗ = [T ]−1 ⇔ [T ]∗ [T ] = In ⇔ [T] unitär.
Bezüglich ON–Basen ist also die Matrixdarstellung vom selben Typ (nämlich unitär) wie die Abbildung. Dieses Verhalten werden wir auch bei den folgenden Abbildungen beobachten können.
Definition 20.4 Charakterisierung von Operatoren
(V, <>) sei ein n−dimensionaler Skalarproduktraum über K = IR,C.
I
Name
⇔ Verhalten bei
Adjungation
⇔
Matrixdarstellung
bez. einer ON–Basis
T normal
T T ∗ = T ∗T
[T ] normal
T unitär
T ∗ = T −1
[T ] unitär
T orthogonal
Tt = T
[T ] orthogonal
T selbstadjungiert
T∗ = T
[T ] hermitesch
(hermitesch in CI
(symmetrisch)
symmetrisch in IR
Tt = T
T schiefadjungiert
T ∗ = −T
[T ] schiefsymmetrisch
schiefhermitesch in CI
schiefsymmetrisch in IR
T t = −T
T positiv definit
∃ reguläres S mit
[T ] positiv definit
T = S∗S
T positiv semidefinit
∃S : T = S ∗ S
[T ] positiv semidefinit
Diese Tabelle ist folgend zu lesen:
Ein Operator T : V → V heißt normal, wenn er mit seiner Adjungierten vertauschbar ist. T ist
genau dann normal, wenn seine Matrixdarstellung bezüglich einer ON–Basis normal ist.
Bemerkung: Alle aufgezählten Typen sind normale Operatoren. Positiv (semi) definite Operatoren und orthogonale Projektionen sind sogar Sonderfälle von selbstadjungierten Operatoren
(siehe 20.10) und (20.14 (i)).
158
Damit ergibt sich folgende Hierarchie:
Satz 20.10 Charakterisierungen von positiven Operatoren
(i) Folgende Bedingungen sind äquivalent:
a) P = T 2 für irgendeinen selbstadjungierten Operator T
b) P = S ∗ S für irgendeinen Operator S
c) P ist selbstadjungiert und ≥ 0 ∀x ∈ V .
(ii)
a) P = T 2 für irgendeinen regulären selbstadjungierten Operator T
b) P = S ∗ S für irgendeinen regulären Operator S
c) P ist selbstadjungiert und 0 ∀x ∈ V .
Beweis: (a) ⇒ (b) ⇒ (c) ⇒ (a)
a) ⇒ b): Sei P = T 2 mit T = T ∗ ⇒ P = T T = T ∗ T, also gilt b) mit S = T
b) ⇒ c): P = S ∗ S ⇒ P ∗ = S ∗ (S ∗ )∗ = S ∗ S = P ⇒ P selbstadjungiert
=< (S ∗ S)(x), x >=< S(x), S(x) ≥ 0
c) ⇒ a): Wir werden in Satz 21.8 zeigen:
Ist P selbstadjungiert, dann gibt es eine ON–Basis (e1 , . . . , en ) von V aus EV von P , also: P (ei ) = λi ei .
Nach Satz 19.11 (v) sind die λi reell. Mittels c) gilt:
λi ≥ 0, denn: 0 ≤=< λi ei , ei >= λi < ei , ei >. Damit ist
| {z }
≥0
√
λi ist eine reelle Zahl.
159
√
λi ei i = 1, . . . , n. Nach dem Fortsetzungssatz ist T eindeutig festgelegt. T ist
√
√
selbstadjungiert, weil [T ] = diag( λ1 , . . . , λn ). Weiters ist
√
√
√ √
T 2 (ei ) = T (T (ei )) = T ( λi ei ) = λi T (ei ) = λi λi ei = λi ei = P (ei ), ⇒ T 2 = P (Fortsetzungssatz).
Es sei T definiert durch T (ei ) =
T heißt auch die positive Quadratwurzel von P.
Damit kann man zeigen:
Satz 20.11 Produktdarstellung linearer Operatoren
T : V → V , V endlichdimensionaler Skalarproduktraum.
Zu jedem linearen Operator T existieren ein eindeutiger positiver Operator P und ein unitärer
(orthogonaler) Operator U mit
T = UP.
Ist T invertierbar, dann ist auch U eindeutig bestimmt.
Beweis für invertierbares T : Nach 20.10 ist T ∗ T ein positiver Operator ⇒ ∃ positiven, selbstadjungierten Operator
P mit T ∗ T = P 2 .
kP (x)k2 ===< T ∗ T (x), x >=< T (x), T (x) >= kT (x)k2 .
Wir setzen U := P T −1 , dann ist U unitär:
∗
U = (P T −1 )∗ = (T −1 )∗ P ∗ = (T ∗ )−1 P und
∗
U U = (T ∗ )−1 P P T −1 = (T ∗ )−1 P 2 T −1 = (T ∗ )−1 T ∗ T T −1 = id.
Nun sei U := U
−1
⇒ U ist unitär und T = U P .
Dieser Satz zeigt eine gewisse Analogie zu den komplexen Zahlen:
z = reiϕ = r(cos ϕ + i sin ϕ) r ≥ 0 = P
keiϕ | = | cos ϕ + sin ϕ| = 1
eiϕ = U
|U | = 1
z=T
Beobachtung: Die positiven Operatoren spielen die Rolle von positiven reellen Zahlen, die
unitären die Rolle der komplexen Zahlen auf dem Einheitskreis.
Eine ähnliche Analogie zeigt auch folgender Satz:
160
Satz 20.12 Symmetrische Darstellung normaler Operatoren
T : V → V , V endlichdimensionaler Skalarproduktraum.
Zu jedem Operator T existieren hermitesche Operatoren A und B mit
T = A + iB und AB = BA.
Beweis: A := (T + T ∗ )/2 und B = (T − T ∗ )/2i
T
= (T + T ∗ )/2 + i(T − T ∗ )/2i
A∗ =
1
(T
2
B∗ =
1
(T
−2i
AB =
1
(T
2
=
BA =
=
+ T ∗ )∗ = 12 (T ∗ + T ∗∗ = 21 (T ∗ + T ) = A
1
− T ∗ )∗ = − 2i
(T ∗ − T ∗∗ ) =
1
+ T ∗ ) 2i
(T − T ∗ ) =
1
(T 2
4i
1
(T
2i
− T ∗) = B
+ T ∗ T − T T ∗ − T ∗2 ) =
− T ∗2 ) weil T T ∗ = T ∗ T
− T ∗ ) 12 (T + T ∗ ) =
1
(T 2
4i
1
(T 2
4i
1
(T
2i
1
(T 2
4i
− T ∗ T + T T ∗ − T ∗2 ) =
− T ∗2 ).
Beobachtung: Die selbstadjungierten Operatoren spielen die Rolle von reellen Zahlen.
Damit können wir insgesamt folgende Analogien zwischen der Algebra der linearen Operatoren auf Skalarprodukträumen und dem Körper der komplexen Zahlen feststellen:
Hom(V, V ) ←→ CI
Verhalten bei
CI
Konjugation
Verhalten bei
Hom(V, V )
T → T∗
z→z
Einheitskreis
z=
1
z
= z −1
Unitäre (orthogonale)
|z| = 1
Operatoren
reelle Zahlen
Selbstadjungierte
z=a
z=z
Adjungation
Operatoren
T ∗ = T −1
T∗ = T
(hermitesche Operatoren)
imaginäre Achse
z = bi
Schiefadjungierte
z = −z
Operatoren
T ∗ = −T
(Schiefhermitesche)
Positive reelle
Halbachse
z ∈ (0, ∞)
z = ww, w 6= 0
Positiv definite
T = S∗S
Operatoren
S regulär
161
20.4 Projektionen und Orthogonalprojektionen
In diesem Kapitel werden die anschaulichen Begriffe Projektion und Orthogonalprojektion auf
abstrakte Vektorräume verallgemeinert und als idempotente bzw. selbstadjungierte lineare Abbildungen “entlarvt”. Damit kann dann gezeigt werden, daß Projektionen als Bausteine beliebiger
Operatoren aufgefaßt werden können. Insbesondere können mit ihrer Hilfe Operatoren mit vorgegebenen EW und EV konstruiert werden!
Beispiel A
V =U ⊕W
x = u + w mit u ∈ U und w ∈ W
P (x) := u Q(x) := w
P : Projektion auf U in Richtung W
Die Projektion auf U in Richtung W geht
von x aus parallel zu W auf U .
Q: Projektion auf W in Richtung U
im(P ) = U ker(P ) = W
im(Q) = W, ker(P ) = U
rg(P ) = dim(U )
rg(Q) = dim(W )
P 2 = P, Q2 = Q: idempotent
P, Q linear
P Q = QP = 0 (Nullabbildung)
P + Q = id
P Projektion auf U in Richtung W ⇔
V = im(P ) ⊕ ker(P )
V ist direkte Summe von Bild und Kern
von P
Also: Direkte Zerlegung von V entsprechen Zerlegungen der identischen
Abbildung in vertauschbare
Projektionen.
Beispiel B
U⊥
U ⊥
V =
x = u + u0 mit u ∈ U und u ∈ U ⊥
P (x) := u Q(x) = u0
P : Orthogonalprojektion auf U in Richtung
U⊥
Die Orthogonalprojektion auf U geht von x aus
senkrecht auf U
Q: Orthogonalprojektion auf U ⊥ in Richtung U
U = im(P ) ⊥ im(Q) = U ⊥
P 2 = P, Q2 = Q
P, Q linear
P Q = QP = 0
P + Q = id
P Orthogonalprojektion auf U ⇔
V = im(P )
⊥ ker(P )
V ist orthogonale Summe von Bild und Kern von
P.
Also: Orthogonale Zerlegungen von V
entsprechen Zerlegungen der identischen Abbildung in vertauschbare
Orthogonalprojektionen.
162
Definition 20.5 Projektionen
(i) U und W seien zwei direkte Komplemente von V . Die Projektion P : V → U auf U
in Richtung W ist jener Operator auf V , der jedem x ∈ V seine direkte Komponenten
bezüglich U zuordnet.
Symbolisch: Sei V = U ⊕ W und x = u + w mit u ∈ U und w ∈ W , dann ist P (x) := u.
(ii) Ist V ein endlichdimensionaler Skalarproduktraum, dann ist die orthogonale Projektion
auf U die Projektion in Richtung U ⊥ .
Bemerkung: Wegen der Direktheit der Summe ist u eindeutig bestimmt, daher ist P (x)
tatsächlich eine Abbildung. Wegen der Endlichdimensionalität von V ist V = U ⊕ U ⊥ , also
eine Projektion in Richtung U ⊥ möglich. Orthogonale Projektionen sind aber keine orthogonalen Abbildungen! (Daraus sieht man wieder, wir unglücklich der Name “orthogonale Abbildung”
gewählt wurde.)
Satz 20.13 Eigenschaften von Projektionen
U, W C V mit V = U ⊕ W
P Projektion auf U in Richtung W, Q Projektion auf W in Richtung U .
(i) P ist linear
(ii) P ist idempotent, also P 2 = P
(iii) im(P ) = U, ker(P ) = W , also: V = im(P ) ⊕ ker(P )
(iv) Mit P ist auch id − P wieder eine Projektion und P (id − P ) = (id − P )P = 0
(v) ker(P ) = im(id − P ) und im(P ) = ker(id − P )
(vi) P singulär ⇔ P 6= id, d.h., jede nichttriviale Projektion ist singulär
(vii) P (x) = x ∀x ∈ im(P ), d.h., P ist auf im(P ) die identische Abbildung
(viii) P Q = QP = 0, d.h., P und Q sind vertauschbar
(ix) P + Q = id
163
Beweise:
(i) Sei x = u + w und y = u0 + w0 ⇒ x + y = (u + u0 ) + (w + w0 ) und λx = λu + λw ⇒ P (x + y) = u + u0 =
P (x) + P (y) und P (λx) = λu = λP (x)
(ii) P 2 (x) = P (P (x)) = P (u) = u = P (x) ∀x ∈ V ⇒ P 2 = P
(iii) Sei u ∈ U ⇒ u = u + 0 mit 0 ∈ W ⇒ P (u) = u ⇒ u ∈ im(P ) ⇔ U ⊆ im(P )
Sei u ∈ im(P ) ⇒ ∃v ∈ V : P (v) = u ⇒ P (u) = P (P (v)) = P 2 (v) = P (v) = u ⇒ u ∈ U ⇒ im(P ) ⊆ U ⇒
im(P ) = U
Sei w ∈ W ⇒ w = 0 + w mit 0 ∈ U ⇒ P (w) = 0 ⇒ w ∈ ker(P )
Sei y ∈ ker(P ) ⇒ P (y) = 0 ⇒ y = 0 + y mit y ∈ W ⇒ ker(P ) ⊆ W
Damit ist V = U ⊕ W = im(P ) ⊕ ker(P )
(iv) id−p ist wieder linear. (id−p)(id−p) = id(id−p)−p(id−p) = id2 −id·p−p·id+p2 = id−p−p+p = id−p
p(id − p) = p · id − p2 = p − p = 0
(id − p)p = id · p − p2 = p − p = 0
(v) x ∈ ker(p) ⇒ p(x) = 0 ⇒ (id − p)(x) = x − p(x) = x − 0 = x ⇒ x ∈ im(id − p)
x ∈ im(id − p) ⇒ ∃y : x = (id − p)(y) = y − p(y) ⇒ p(x) = p(y − p(y)) = p(y) − p2 (y) =
p(y) − p(y) = 0 ⇒ x ∈ ker(p)
(vi) Ist ker(p) = {0} ⇔ im(id − p) = {0} ⇔ (id − p)(x) = 0∀x ∈ V ⇔ id(x) − p(x) = x − p(x) = 0
⇔ p(x) = x∀x ∈ V ⇔ p = id
(vii) Sei x ∈ im(p) ⇒ ∃y ∈ V : x = p(y) ⇒ p(x) = p(p(y)) ⇒ p(x) = p2 (y) = p(y) = x
(viii) Q(x) ∈ W = ker(P ) nach (iii) ⇒ P (Q(x)) = 0 ⇒ P Q(x) = 0 ∀x ∈ V ⇒ P Q = 0
analog ist QP = 0
(ix) (P + Q)(x) = P (x) + Q(x) = u + w = x = id(x) ∀x ∈ V ⇒ P + Q = id
Definition 20.6 Projektion auf die i−te Koordinatenachse
Sei B = (b1 , . . . , bn ) eine Basis von V und x = k1 b1 + . . . ki bi + . . . + kn bn .
Die Abbildung Pi : V → V mit Pi (x) := ki bi heißt die Projektion auf die i–te Koordinatenachse.
Die Projektion Pi auf den i−ten Basisvektor ordnet jedem Vektor x die i−te Komponente
bezüglich B zu.
Wegen V =< b1 > ⊕ < b2 > ⊕ . . . ⊕ < bn > sind diese Pi (i = 1, . . . , n) nach 20.13 Projektionen
auf < bi >, also Projektionen vom Rang 1 und P1 + P2 + . . . + Pn = id.
Anwendung: Konstruktion von Operatoren mit vorgegebenen EW λ1 , . . . λr und dazugehörigen l.u. EV x1 , . . . , xr .
164
Ergänze (x1 , . . . , xr ) zu einer Basis B = (x1 , . . . , xr+1 , xr , . . . xn ) und stelle x als LinearkombiP
nation der Basisvektoren dar: x = i ki xi von V .
Definiere Pi : V → V (i = 1, . . . , n) wie in Definition 20.6, also: Pi (x) := ki xi und setze
P := λ1 P1 + . . . + λn Pn : V → V .
Für dieses P gilt (wegen xi = 0 · x1 + . . . + 1 · xi + . . . + 0 · xn )
P (xi ) = (λ1 P1 +. . .+λn Pn )(xi ) = λ1 P1 (xi )+. . .+λn Pn (xr ) = λ1 ·0+. . .+λi ·1·xi +. . .+λn ·0 =
= λi xi , also ist xi EV von P zum EW λi .
Beispiel: Konstruiere in K 3 einen Operator T , der x~1 = (1, 2, 3) und x~2 = (1, 0, 1) als EV zu
den EW λ1 = 6 λ2 = 2 besitzt.
1. Basis B vom K 3 : B = (x~1 , x~2 , (0, 0, 1))
2. Koordinaten des allgemeinen Vektors ~x = (x, y, z) bezüglich B:
1
1 0 x
2 2 0 2x
2
0 0 y
0 2 0 2x − y
3
1 1 z
0 0 1 −x − y + z
1
1 0 x
2 0 0 y
0 −2 0 y − 2x
0 2 0 2x − y
0 −2 1 z − 3x + 2x − y
0 0 1 −x − y + z
1
1 0 x
0
2 0 2x − y
Also:
0
0 1 −x − y + z
[x]B = ( 42 | 2x−y
2 | − x − y + z)
3. Definition der Pi0 s:
P1 (x, y, z) = yz (1, 2, 3) =
P2 (x, y, z) =
2x−y
2 (1, 0, 1)
y
3y
2 , y, 2
2x−y
= 2x−y
|0|
2
2
4. Definition von P := 6P1 + 2P2
P (x, y, z) = (3y, 6y, 9y) + (2x − y, 0, 2x − y) = (2x + 2y, 6y, 2x + 8y)


2 2 0




[P ]St =  0 6 0 


2 8 0
165
Satz 20.14 Eigenschaften von Orthogonalprojektionen
V sei ein endlich–dimensionaler Skalarproduktraum, U C V .
(i) Jede Orthogonalprojektion P auf U ist selbstadjungiert.
(ii) im(P ) = U und ker(P ) = U ⊥ .
Beweis: Es ist V = U ⊕ U ⊥
Sei x = u1 + w1 mit u1 ∈ U, w1 ∈ U ⊥ und
(i)
y = u2 + w2 mit u2 ∈ U, w2 ∈ U ⊥ . Dann gilt:
 = < u1 , u2 + w2 >=< u1 , u2 > + < u1 , w2 >=< u1 , u2 > +0 =< u1 , u2 >
< x, P (y) > = < u1 , w1 , u2 >=< u1 , u2 > + < w1 , u2 >=< u1 , u2 > +0 =< u1 , u2 > .
(ii) gilt wegen V = U ⊕ U ⊥ .
Also: Der lineare Operator P : V → V ist Orthogonalprojektion ⇔ V ist orthogonale Summe
von im(P ) und ker(P ). Es ist dann P Orthogonalprojektion auf im(P ).
Aus 20.13 wissen wir, daß Projektionen linear und idempotent sind. Es gilt aber auch die Umkehrung:
Satz 20.15 Charakterisierung von Projektionen und Orthogonalprojektionen
(i) P : V → V ist Projektion auf im(P ) in Richtung ker(P ) ⇔ P ist linear und idempotent.
(ii) P : V → V ist Orthogonalprojektion auf im(P ) ⇔ P ist linear, idempotent und selbstadjungiert.
Also: die Projektionen sind genau die idempotenten linearen Abbildungen.
Die Orthogonalprojektionen sind genau die selbstadjungierten Projektionen.
Beweis:
Die Notwendigkeit folgt aus 20.13 und 20.14.
(i) Sei P linear und idempotent: P 2 = P und U := im(P ), W := ker(P ). Dann ist zu zeigen: V = U ⊕ W .
1. Sei x ∈ V ⇒ x = P (x) + y mit y = x − P (x). Für dieses y gilt:
P (y) = P (x − P (x)) = P (x) − P 2 (x) = P (x) − P (x) = 0 ⇒ x ∈ W ⇒ V = U + W .
2. Sei x ∈ U
⇒ x ∈ U = im(P ) ⇒ ∃y ∈ V : x = P (y)
⇒ x ∈ W = ker(P ) ⇒ P (x) = 0 ⇒ P (P (y)) = 0 ⇒ P (y) = 0 ⇒
⇒ x = 0 ⇒ U ∩ W = 0.
166
(ii) Sei P selbstadjungierte Projektion: P 2 = P und =< x, P (y) >. Dann ist zu zeigen:
V = U⊥
W mit U = im(P ), W = ker(P ). Sei x ∈ im(P ) und v ∈ ker(P ) ⇒ x = P (y) mit y ∈ V und
P (v) = 0 ⇒< x, v >==< y, P (v) >=< y, 0 >= 0 ⇒ U ⊥ W .
Zusammenfassung:
(i) Daß eine Abbildung P : V → V eine Projektion ist, kann man auf 2 Arten nachweisen:
1.
P ist linear und
⇔
2.
P ist linear und
V = im(P ) ⊕ ker(P )
P ist idempotent
P ist dann Projektion auf im(P ) in Richtung ker(P ).
(ii) Daß eine Abbildung P : V → V eine Orthogonalprojektion ist, kann man auf 2 Arten
nachweisen.
1.
P ist linear und
P ist idempotent und
2.
⇔
P ist linear und
V = im(P )
⊥ ker(P )
P ist selbstadjungiert
P ist dann eine Orthogonalprojektion auf im(P ).
In Beispiel B galt für P und Q: im(P ) ⊥ im(Q).
Im allgemeinen ist die Summe von zwei Orthogonalprojektionen keine solche mehr.
Definition 20.7 Orthogonale Mengen von Operatoren
a) Zwei Operatoren P, Q : V → V eines Skalarproduktraumes heißen ein orthogonales
Paar {P, Q} bzw. orthogonal zueinander, wenn gilt
(i) P, Q sind Orthogonalprojektionen
(ii) im(P ) ⊥ im(Q).
b) Eine Menge von Operatoren ist eine orthogonale Menge von Operatoren, wenn jedes
Paar ein orthogonales Paar ist. Für ein orthogonales Paar {P, Q} gilt:
Satz 20.16 Summe von zwei Orthogonalprojektionen
(P, Q) sei ein orthogonales Paar von Orthogonalprojektionen. Dann gilt:
c) P Q = QP = 0 (Nullabbildung).
d) P + Q ist wieder eine Orthogonalprojektion.
167
Diese Eigenschaft ist auf endlich viele Summanden verallgemeinerbar.
Beweis:
c) Ist x ∈ V ⇒ Q(x) ∈ im(Q) ⇒ Q(x) ∈ im(P )⊥ ⇒ Q(x) = 0 + Q(x) mit 0 ∈ im(P ) ⇒ Q(x) ⊥ im(P ) ⇒
(P Q)(x) = P (Q(x)) = 0 ⇒ P Q = 0 (Nullabbildung). Analog: QP = 0.
d) P + Q ist linear und selbstadjungiert, weil es P und Q sind und nach c) gilt: P Q + QP + P 2 = P 2 + Q2 =
P + Q. Also ist P + Q nach 20.15 (ii) Orthogonalprojektion.
Bemerkung: Ist (P, Q) kein orthogonales Paar, dann ist P + Q keine Orthogonalprojektion.
Beispiel: Die Projektionen Pi auf die i–ten Basisvektoren einer ON–Basis sind eine
orthogonale Menge von Projektionen.
V
=< e1 , . . . , en >= < e1 > ⊕ < e2 > ⊕ . . . ⊕ < en >
|
id
|
=
P1
|
+
P2
|
+...+
Pn
Beobachtung: Der “n−Dimensionalität” entspricht die Zerlegung von id in eine n−elementige
orthogonale Menge von Orthogonalprojektionen.
Es gilt: V =< ei > ⊕ . . . ⊕ < ei > ⊕ . . . ⊕ < en >=< ei > ⊕Wi , wobei Wi die direkte Summe
der übrigen < ej > ist.
Pi sei die Projektion auf den i–ten Basisvektor ei :
Pi projiziert jeden Vektor x auf die Richtung des i−ten Basisvektors.
Pi ist ein orthogonaler Operator, weil Wi ⊥< ei >.
(P1 , . . . , Pn ) ist eine orthogonale Menge von Projektionen: Es ist im(Pi ) =< ei >⊥< ej >=
im(Pj ).
Bezüglich einer ON–Basis kann man Pi durch eine Formel angeben:
P
Es ist x = i < x, ei > ei ⇒ Pi (x) =< x, ei > ei .
168
Damit gilt: P1 + P2 + . . . + Pn = id
denn: (P1 . . . + Pn )(x) = P1 (x) + . . . + Pn (x) =< x, e1 > e1 + . . . + < x, en > en = x = id(x).
Matrixdarstellung der Pi , bezüglich einer anderen ON–Basis F = (f1 , . . . , fn ).
Für die r − s−te Eintragung der Matrixdarstellung [Pi ]F gilt:
[Pi ]rs = < Pi (fs ), fr >=<< fs , ei > ei , fr >=
= < fs , ei >< ei , fr >=< ei , fr > · < ei , fs >.
Bezeichnet [ei ]F = (ei1 , ei2 , . . . , ein )t den Koordinatenvektor von ei bezüglich F , dann gilt für
die Matrix [Pi ]F :

e e
ei1 ei2 . . . ei1 ein
 i1 i1
..

[Pi ]F = 
.

ein ei1 ein ei2 . . . ein ein



ei1
 

  .. 
 =  .  · (ei1 , . . . , ein ) = [ei ]F [ei ]∗F ,
 

ein
Also: [Pi ]F = [ei ]F · [ei ]∗F
Definition 20.8 Äußeres Produkt von zwei n–Tupeln
[x] · [y]∗ heißt das äußere Produkt (outer product) der Spaltenvektoren [x], [y].
Obige Überlegungen zeigen folgenden
Satz 20.17 Matrixdarstellung von Orthogonalprojektionen
Die Matrixdarstellung der Orthogonalprojektion Pi auf den i–ten Basisvektor einer ON–Basis
ist gegeben durch das äußere Produkt des Koordinatenvektors [ei ] mit sich selbst:
[Pi ] = [ei ] · [ei ]∗ .
Spezialfall: Matrixdarstellung
 Pi bezüglich derselben Basis B = (e1 , . . . , en ):
 der


 0 
i
 . 


 .. 
.


 
 0 . . . .. . . . 0 
 
i


(0,
.
.
.
,
1,
.
.
.
0)
⇒
[ei ]B = (0, . . . , 1, . . . 0) ⇒ 


 1 
 0 ... 1 ... 0 
 . 
 . 


 . 
 
0
0
0
P
i [Pi ] = diag(1, 1, . . . , 1), oder
P
i Pi = id
169
Das ist wiederum die Zerlegung der identischen Abbildunge in eine Summe von Orthogonalprojektionen.
Zusammenfassung: Formeln für Orthogonalprojektionen:
1. Sei (e1 , . . . , ek ) eine ON–Basis von U und P Orthogonalprojektion auf U :
P(x) =< x, e1 > e1 + . . . + < x, ek > ek
2. Spezialfall: U =< a >
Orthogonalprojektion von x auf a:
P = proja x =
< x, a >
·a
kak2
Denn: e1 = a/kak
a
P (x) =< x, e1 > e1 =< x, kak
>
a
kak
=
1
kak
a
< x, a > · kak
=
<x,a>
a.
kak2
3. Spezialfall: U =< b~1 , b~2 , . . . b~k > CK n .
Fasse U als Spaltenraum der Matrix A auf: U = S(A).
P Orthogonalprojektion von ~x auf U = S(A):
P = projS(A) x̃ = A(At A)−1 At x̃
[P ]St = A(At A)−1 At .
20.5 Geometrie linearer Operatoren im IR2 bzw. IR3
Es wird gezeigt, wie man aus der Gestalt der Matrixdarstellung auf die Wirkung eines linearen
Operators T : IR2 → IR3 (IR3 → IR3 ) schließen kann. Umgekehrt kann man aus dem Wirkungsprofil
eines Operators seine Matrixdarstelung relativ leicht angeben. Dabei beschränken wir uns auf
Matrixdarstellungen bezüglich der Standardbasis, alle anderen sind ja dazu ähnlich. Je nach
Wirkung des Operators erhalten diese spezielle Namen.
Je nachdem, ob die geordneten Paare (Tupel) als Koordinaten von Punkten oder als Komponenten von geometrischen Vektoren (Pfeilen) auffaßt, entspricht dem Operator T eine Umwandlung
von Punkten oder von Pfeilen. Beide Auffassungen sind mathematisch gleichwertig.
170
Um die Wirkung des Operators zu studieren, untersucht man am besten die Veränderung des
Einheitsquadrates (Einheitswürfels). Dadurch kann man auch die Bilder der Standard–ON–
Basisvektoren {(0, 1), (0, 1)} und damit die Matrixdarstellung leicht angeben. Im Raum erhält
man die Standardmatrix am besten aus den Abbildungsgleichungen, die man durch geometrische
Überlegungen aus der Definition erhält oder indem man sich vorstellt, in welche Punkte die Ecken
des Einheitswürfels verändert werden.
Definition 20.9 Reflexionsoperatoren (Spiegelungen)
Spiegelungen sind Operatoren T auf IR2 bzw. IR3 , die jeden Punkt auf sein “Spiegelbild” bezüglich
einer festen Geraden oder Ebene abbilden.
Beispiel: Spiegelung T : IR2 → IR2 an der y−Achse:
~y = T ((~x)
y1 = −x1 = −x1 + 0 · x2
y2 = x2 = 0 · x1 + 1 · x2


−1 0
 ~x
~y = 
0 1
T (1, 0) = (−1, 0)
Abbildungsgleichung
T (0, 1) = (0, 1)


−1 0

Tst = 
0 1
T :
y1 = −x1
y2 = x2
171
Aus den Abbildungsgleichungen erkennt man, daß Spiegelungen lineare Operatoren sind (die
Variablen kommen nur in der ersten Potenz vor). Man sieht dies aber auch rechnerisch ganz
leicht ein:
Seien A = (a1 , a2 ) und B = (b1 , b2 ) zwei Punkte (Vektoren). Dann ist
A + B = (a1 
+ b1 , a2 + b2 ), λA
 = (λa1 , λa2 ) und
T (A + B) = 
−(a1 + b1 )
=
−a1
a2
a2 + b2
−λa1
1
T (λA) = a2 = λ −a
a2 = λT (A).
+
−b1
b2
= T (A) + T (B)
Oder geometrisch:
Ähnlich geht man bei den anderen Operatoren vor, deren Eigenschaften wir nur mehr tabellarisch
zusammenfassen.
172
Tabelle der Spiegelungen
Operator
Wirkung
Gleichung
Standardmatrix
Spiegelung an
y − Achse
y1 = −x1
y2 = x2
−1 0
0 1
Spiegelung an
x − Achse
y1 = x1
y2 = −x2
1
0
0 −1
Spiegelung an
y=x
y1 = x2
y2 = x1
0 1
1 0
y1 = x1
y2 = x2
y3 = −x3

Spiegelung an
xy − Ebene
y1 = x1
y2 = −x2
y3 = x3

Spiegelung an
xz − Ebene

Spiegelung an
yz − Ebene
y1 = −x1
y2 = x2
y3 = x3

1 0
0
 0 1
0 
0 0 −1

1
0 0
 0 −1 0 
0
0 1

−1 0 0
 0 1 0 
0 0 1
Definition 20.10 Projektionsoperatoren
Projektionsoperatoren sind Operatoren T auf IR2 bzw. IR3 , die jeden Punkt seine “Orthogonalprojektion” auf eine durch den Ursprung gehende Gerade oder Ebene abbilden.
173
Tabelle der Projektionen
Operator
Wirkung
Gleichung
Standardmatrix
Orthogonalprojektion
auf x − Achse
y1 = x1
y2 = 0
1 0
0 0
Orthogonalprojektion
auf y − Achse
y1 = 0
y2 = x2
0 0
0 1

Orthogonalprojektion
auf xy − Ebene
y1 = x1
y2 = x2
y3 = 0

Orthogonalprojektion
auf xz − Ebene
y1 = x1
y2 = 0
y3 = x3

Orthogonalprojektion
auf yz − Ebene
y1 = 0
y2 = x2
y3 = x3

1 0 0
 0 1 0 
0 0 0

1 0 0
 0 0 0 
0 0 1

0 0 0
 0 1 0 
0 0 1
Definition 20.11 Rotationsoperatoren (Drehungen)
(i) Drehungen in der Ebene um den Ursprung 0 sind Operatoren auf IR2 , die jeden Punkt
um einen festen Winkel ϕ drehen.
(ii) Rotationsoperatoren (Drehungen) im Raum um eine feste Rotationsachse durch
den Ursprung 0 sind Operatoren auf IR3 , die jeden Punkt um einen festen Winkel ϕ
drehen. Die Rotationschase (Drehachse) wird durch einen Einheitsvektor u = (a, b, c) beschrieben.
Drehungen entgegen dem Uhrzeigersinn (im Raum erkennbar durch die Rechte–Hand–Regel)
werden als positiv bezeichnet und mit einem positiven Drehwinkel angegeben (sonst negativ).
174
Rechte–Hand–Regel:
Herleitung der Abbildungsgleichung in der Ebene:
x1 = r cos α y1 = r cos(α + ϕ)
x2 = r sin α
y2 = r sin(α + ϕ)
Anwendung der Additionstheoreme ergibt:
y1 = r cos ϕ cos α − r sin ϕ sin α = x1 cos ϕ − x2 sin α
y2 = r sin ϕ cos α + r cos ϕ sin α = x1 sin ϕ + x2 cos ϕ
oder in vektorieller Form:






cos
ϕ
−
sin
ϕ
cos
ϕ
−
sin
ϕ
cos
ϕ
−
sin
ϕ
y1
 x1 = 
 ~x ⇒ [T ] = 

~y =
=
y2
x
2
sin ϕ
cos ϕ
sin ϕ
cos ϕ
sin ϕ
cos ϕ
Da die Gleichungen linear sind, sind Drehungen um 0 lineare Operatoren (nicht jedoch Drehungen um M 6= 0). Dies ist auch konstruktiv einzusehen.
Zweite Methode zur Herleitung der Darstellungsmatrix [T ]:
Mittels der Definition von Sinus und Cosinus erkennt man sofort:
◦ )
=
T (0, 1) = cos(ϕ+90
cos
ϕ


cos ϕ − sin ϕ

Damit ist [T ]st = 
sin ϕ
cos ϕ
T (1, 0) =
cos ϕ
sin ϕ
− sin ϕ
cos ϕ
Die Darstellungsmatrix [T ] einer Drehung um ϕ gegen den Uhrzeigersinn um die Rotationsachse
u = (a, b, c) (Einheitsvektor) ist gegeben durch:

a2 (1 − cos ϕ) + cos ϕ ab(1 − cos ϕ) − c sin ϕ ac(1 − cos ϕ) + b sin ϕ


[T ] =  ab(1 − cos ϕ) + c sin ϕ b2 (1 − cos ϕ) + cos ϕ bc(1 − cos ϕ) − a sin ϕ

ac(1 − cos ϕ) − b sin ϕ bc(1 − cos ϕ) + a sin ϕ c2 (1 − cos ϕ) + cos ϕ





Daraus oder auch mittels elementarer geometrischer Überlegungen erhält man folgende
175
Tabelle der Rotationen (Drehungen) (entgegengesetzt dem Uhrzeigersinn)
Operator
Wirkung
Gleichung
Standardmatrix
Drehung um 0
um den Winkel ϕ
y1 = x1 cos ϕ − x2 sin ϕ
y2 = x1 sin ϕ + x2 cos ϕ

Drehung um ϕ
um x − Achse
y1 = x1
y2 = x2 cos ϕ − x3 sin ϕ
y3 = x2 sin ϕ + x3 cos ϕ

Drehung um ϕ
um y − Achse
y1 = x1 cos ϕ + x3 sin ϕ
y2 = x2
y3 = −x1 sin ϕ + x3 cos ϕ

Drehung um ϕ
um z − Achse
y1 = x1 cos ϕ − x2 sin ϕ
y2 = x1 sin ϕ + x2 cos ϕ
y3 = x3
cos ϕ − sin ϕ
sin ϕ cos ϕ

1
0
0
 0 cos ϕ − sin ϕ 
0 sin ϕ cos ϕ

cos ϕ 0 sin ϕ

0
1
0 
− sin ϕ 0 cos ϕ

cos ϕ − sin ϕ 0
 sin ϕ cos ϕ 0 
0
0
1
Allgemein gilt:
Satz 20.18 Drehungsmatrix
Sei A eine 2 × 2− bzw. 3 × 3−Matrix mit det(A) = +1, deren Spalten paarweise orthogonale
Einheitsvektoren sind. Die Multiplikation mit A beschreibt dann eine Drehung um den Winkel
ϕ mit cos ϕ =
sp(A)−1
2
und (im Raum) um die
Rotationsachse: ũ = Ax̃ + At x + (1 − sp(A))x̃
ohne Beweis.
Definition 20.12 Dilatations– bzw. Kontraktionsoperatoren
Dilatationen (Kontraktionen) sind Operatoren T , die jeden Punkt (Vektor) um den Faktor k ≥ 1
strecken bzw. um den Faktor 0 ≤ k ≤ 1 stauchen: T(x̃) = kx̃.
Bemerkung: Der gesamte Raum wird gleichzeitig bezüglich des Ursprungs 0 gestreckt bzw.
gestaucht.
176
Stauchung (Kontraktion)
Streckung (Dilatation)
k = 0 : T ist Nulloperator
k = 1 : T ist identischer Operator
Tabelle der Kontraktionen und Dilatationen
Operator
Wirkung
Gleichung
Standardmatrix
Kontraktion im IR2 (IR3 )
um Faktor l
(0 ≤ k ≤ 1)
y1 = kx1
y2 = kx2
(y3 = kx3 )
Dilatation im IR2 (IR3 )
um Faktor k
(k ≥ 1)
y1 = kx1
y2 = kx2
(y3 = kx3 )

k 0
0 k

k 0 0
 0 k 0 
0 0 k
Definition 20.13 Expansions– bzw. Kompressionsoperatoren
Eine Expansion bzw. Kompression in x–Richtung um den Faktor k ist ein Operator
T auf IR2 , der die x−Koordinate eines Punktes mit einer positiven Konstanten k > 1 bzw.
0 < k < 1 multipliziert.
Multipliziert man die y−Koordinaten mit k erhält man analog Expansionen bzw. Kompressionen
in y–Richtung.
Bemerkung: Rechnerisch (T (x1 , x2 ) = (kx1 , x2 )) wie auch konstruktiv sieht man, daß Ex
pansionen und Kompressionen linear sind. Die Bilder der Einheitsvektoren T 10 = k0 und
T 01 = 01 liefern die Standardmatrizen.
177
Tabelle der Kompressionen und Expansionen
Operator
Wirkung
Gleichung
Standardmatrix
Kompression im IR2
in x−Richtung
um Faktor k
(0 < k < 1)
y1 = kx1
y2 = x2
k 0
0 1
Kompression im IR2
in y−Richtung
um Faktor k
(0 < k < 1)
y1 = x1
y2 = kx2
1 0
0 k
Expansion im IR2
in x−Richtung
um Faktor k
(k > 1)
y1 = kx1
y2 = x2
k 0
0 1
Expansion im IR2
in y−Richtung
um Faktor k
(k > 1)
y1 = x1
y2 = kx2
1 0
0 k
Expansion
in x−Richtung
um Faktor k1
Kompression
in y−Richtung
um Faktor k2
y1 = k1 x1
y2 = k2 x2
k1 0
0 k2
Definition 20.14 Scherungen
Scherungen in x–Richtung um den Faktor k sind Operatoren T auf IR2 , die jeden Punkt
(x1 , x2 ) parallel in x−Richtung um kx2 in den Punkt (x1 + kx2 , x2 ) verschieben.
Es ist T (x1 , x2 ) = (x1 + kx2 , x2 ), daher sind Scherungen linear. Je weiter man sich von der
x−Achse entfernt, umso mehr wird ein Punkt verschoben. Aus T (1, 0) = (1, 0) und T (0, 1) =
(k, 1) ergibt sich die Standardmatrix. Analog in y−Richtung.
178
Tabelle der Scherungen
Operator
Wirkung
Gleichung
Standardmatrix
Scherung im IR2
in x−Richtung
um Faktor k > 0
y1 = x1 + kx2
y2 = x2
1 k
0 1
Scherung im IR2
in y−Richtung
um Faktor k > 0
y1 = x1
y2 = kx1 + x2
1 0
k 1
Expansion im IR3
in xy−Richtung
um Faktor k


y1 = x1 + kx3
k 0 k
y2 = x2 + kx3  0 1 k 
y3 = x3
0 0 1
Beispiel: Bestimme die Darstellungsmatrix jenes Operators auf IR2 , der jeden Punkt zuerst um
den Faktor 3 in x−Richtung

 verzerrt (“schert”) und dann an y
1 3
,
Scherung [T1 ] = 
0 1




0 1
0 1
1
 ⇒ [T ] = [T2 ][T1 ] = 

Reflextion [T2 ] = 
1 0
1 0
0
Beachte: Es ist [T2 ][T1 ] 6= [T1 ][T2 ], Reflexion und Scherung sind
= x spiegelt.
3


0 1

=

1
1 3
also nicht vertauschbar.
Satz 20.19 Geometrische Deutung von Elementarmatrizen
Die Multiplikation mit einer Elementarmatrix bedeutet geometrisch:
(i) Scherung in eine Koordinatenrichtung
(ii) Spiegelung an y = x
(ii) Kompression in eine Koordinatenrichtung
(iv) Expansion in eine Koordinatenrichtung
(v) Spiegelung an einer Koordinantenrichtung
(vi) Kompression oder Expansion in einer Koordinatenrichtung und anschließend eine Spiegelung an einer Koordinatenachse.
179
Beweis: Jede 2 × 2−Elementarmatrix entsteht aus der I2 durch elementare Zeilenumformungen,
daher
folgende
Elementarmatrizen
 können
 nur 

 auftreten:


1 0
1 k
0 1
k 0








k 1
0 1
1 0
0 1
| {z }
| {z }
| {z }
| {z }


|
1 0


0 k
{z }
Scherung
Scherung
Spiegelung an
wenn k > 0
k>0
y−Richtung
x−Richtung
y=x
Kompression (k ≤ 1)
Kompression
Expansion (k ≥ 1)
Expansion
in x−Richtung
in y−Richtung
Ist bei den
dann setzenwir k = 
−k1 mit k1 > 0 und formen um

 letzten
 beidenMatrizen
 k < 0, 
k 0
−k1 0
k 0
−1 0

=
= 
 1


0 1
0
1
0 1
0 1
{z
}
|
{z
}
|


1 0
0 k


=
1
0
0 −k1
Spiegelung an
Kompresion (k1 ≤ 1)
y−Achse
Expansion (k1 ≥ 1)


=

|
1
0


0 −1
{z
}
in x−Richtung


1 0


0 k1
{z
}
|
Spiegelung an
Kompresion
x−Achse
Expansion
in y−Richtung
Für k = −1 ist:
−1 0 : Spiegelung an y−Achse und


1 0

: Spiegelung an x−Achse
0 −1
Damit sind alle Fälle aufgezählt.
180
Satz 20.20 Geometrische Deutung von invertierbaren Matrixabbildungen
Die Multiplikation mit einer invertierbaren Matrix bedeutet geometrisch eine geeignete Folge von
Scherungen, Kompressionen, Expansionen und Spiegelungen.
Beweis: A invertierbar ⇒ A ist zeilenäquivalent zur Einheitsmatrix ⇔ A ist Produkt von Elementarmatrizen
(siehe ??), die Behauptung folgt aus dem vorhergehenden Satz.
Beispiel: 
Beschreibe
 die geometrische Wirkung des Operators mit der Standardmatrixdarstellung A = 
1 2
 oder äquivalent dazu: Beschreibe die geometrische Wirkung der Multipli-
3 4
kation mit der Matrix A.
Lösung: Stelle A als Produkt von Elementarmatrizen dar, indem man sie auf die kanonische
Staffelform (= identische Matrix bei invertierbaren Matrizen).
−3
1
2
3
4
E1 = 
1
2


E2 = 
0 −2 : −2

−1
=
A = E1−1 A−1
2 E3
=
1
2
0
1
1
0
0
1
1 0

E3 = 
−2

1 0
−3 1
1
0



0 − 12

1 −2

0
1

E3 E2 E1 A = I2 ⇒
1

0

1 2

3 1
0 −2
0 1




1 0
1 0




3 1
0 −1
| {z }
{z
}
|




|
1 0




0 2
{z }
|
1 2


0 1
{z }
Scherung in
Spiegelung an
Expansion in
Scherung in
y−Richtung
y−Richtung
y−Richtung
x−Richtung
um k = 2
um k = 2
um k = 3
Die durch invertierbare 2 × 2−Matrizen induzierten linearen Abbildungen (= Matrixmultiplikationen mit invertierbaren Matrizen) sind Isomorphismen auf IR2 , daher gelten die Eigenschaften
der Teilraumtreue, Dimensionstreue, Parallelentreue, ...
Zusammenfassung für die Ebene:
181
Satz 20.21 Geometrische Eigenschaften von invertierbaren Matrizen
Für die Multiplikation TA mit einer invertierbaren 2 × 2−Matrix A gilt:
(i) TA bildet Geraden auf Geraden ab.
(ii) Das Bild einer Geraden durch den Ursprung ist wieder eine solche.
(iii) Parallele Geraden werden auf parallele Geraden abgebildet.
(iv) Die Strecke P Q wird auf die Strecke TA (P )TA (Q) abgebildet.
(v) Drei Punkte sind genau dann kollinear, wenn ihre Bilder kollinear sind.
(vi) Dreiecke (Parallelogramme) werden auf Dreiecke (Parallelogramme) abgebildet.

Beispiel: Die invertierbare Matrix A = 
1 2
3 4
eine Gerade ab. Bestimme deren Gleichung.

 bildet die Gerade g : y = 3x + 1 wieder auf
Lösung: (x, y) sei ein Punkt auf y = 3x + 1 und (x0 , y 0 ) sein Bild unter der Multiplikation mit
A. Es sit

 
 
  
−1 




0
0
0
1 2
x
x
1 2
x
x
−4
2
x
= 1
=
  ⇔   = 
 



2
0
0
0
y
y
3 4
y
y
3 4
y
3 −1

y = 3x + 1 ⇔ 3x − y = −1 ⇔ (3, −1) 

(−15, 7) 
x0
y0
x
y

 = −1 ⇔ 1 (3, −1) 
2
∈
2
3 −1

x0

y0

 = −1 ⇔
 = −2 ⇔ −15x0 + 7y 0 = −2 ⇔ g 0 : 15x0 − 7y0 = 2 :
Probe: Es ist P (1/4) ∈ g. P 0 := TA (P ) = 
g0
−4


P0

: 9 · 15 − 7 · 19 = 135 − 133 = 2.
1 2
3 4


1
4


=
9
19

 ⇔ P 0 (9/19).
182
VI VEREINFACHEN VON MATRIZEN
In diesem Kernstück der Linearen Algebra wird gezeigt, wie man eine Matrix A durch Links–
und Rechtsmultiplikation mit regulären Matrizen P und Q auf “einfachere” Formen (die man
dann Normalformen nennt) transformieren kann. Mit “einfach” meint man, daß die neue
Matrix QAP als Eintragungen möglichst viele Nullen und sonst nur Einser, wenn möglich nur
in der Hauptdiagonale enthalten soll, denn mit Diagonalmatrizen läßt es sich besonders leicht
rechnen. Die Transformation A → QAP nennt man dann Diagonalisieren. P und Q sollen
deshalb regulär sein, damit man durch die Transformation den Rang der Ausgangsmatrix, die
wichtigste Kennzahl einer Matrix, nicht verändert. Außerdem existieren dann auch die inversen
Matrizen P −1 und Q−1 , durch die die Transformation wieder rückgängig gemacht werden kann:
A → QAP = B ⇒ Q−1 BP −1 = A.
Wozu braucht man einfache Matrizen? Ein Hauptziel der Linearen Algebra ist es, lineare Gleichungssysteme, bzw. mehrere davon zusammengefaßt in Matrixgleichungen, zu lösen. Eine beliebte Strategie dafür ist das Substituieren, um das Lösen zu vereinfachen. Gegeben sei die
Matrixgleichung
Y = AX
(Oft sind Y und X “nur” Vektoren ~y , ~x, z.B. bei Differentialgleichungen ~y 0 = A~x). Durch Substitution X = P X̄ bzw. Y = P Ȳ oder Y = QY , erhält man: P Ȳ = AP X̄ ⇔ Ȳ = (P −1 AP )X̄
oder QY = AP X ⇔ Y = (Q−1 AP )X.
Die “neue” Gleichung wird also durch eine zur “alten” Gleichung ähnlichen bzw. äquivalenten
Matrix beschrieben. Ist P −1 AP bzw. Q−1 AP möglichst einfach (z.B. eine Diagonalmatrix), dann
kann die neue Gleichung leichter als die alte gelöst werden, aus den Lösungen X̄, Ȳ erhält man
die ursprünglichen Lösungen einfach durch Multiplikation mit P : X = P Ȳ , Y = P Ȳ oder
Y = QȲ .
Neben dem leichten Lösen von Gleichungssystemen kann man mit einfachen Matrizen auch
leichter Matrixfunktionen berechnen, die ihrerseits wiederum beim Lösen von Differentialgleichungssystemen benötigt werden.
Das Vereinfachen kann dabei auf 4 Arten erfolgen, je nachdem, welche Matrizen P, Q vom Problem her zugelassen sind. Oft ist nur Q = P möglich (man spricht dann von Ähnlichkeitstransformationen),
oder P muß eine unitäre Matrix sein (wenn Abstände oder Winkel erhalten bleiben sollen) oder
Q = P t . Man unterscheidet daher vier Transformationsarten von Matrizen.
183
Es wird sich zeigen, daß man jede Matrix durch eine Äquivalenztransformation auf eine Diagonalmatrix mit höchstens Einsern in der Hauptdiagonalen transformieren kann (Normalformensatz), mit Ähnlichkeitstransformationen geht dies im allgemeinen nicht. Die nächst einfacheren Matrizen nach den Diagonalmatrizen sind jene, die Blöcke (mit vielen Nullen) längs
der Hauptdiagonale enthalten (Blockdiagonalisieren). Das beste Resultat, das man durch
Ähnlichkeitstransformation erreichen kann, ist wohl der Jordansche Normalformensatz. Oft
reicht es aus, Matrizen auf Dreiecksform zu bringen (Triangulieren).
Alle diese Fragen sind eng verbunden mit der Suche nach möglichst einfachen Matrixdarstellungen von gewissen linearen Abbildungen, so daß es zu jedem matrizentheoretischem Satz auch
eine abbildungstheoretische Formulierung gibt (z.B. Spektralsätze für selbstadjungierte bzw.
normale Operatoren). In der Regel werden wir die abbildungstheoretische Formulierung beweisen, die matrizentheoretische folgt dann als ein Spezialfall.
184
21 Diagonalisieren
Ist A eine Diagonalmatrix, dann werden nummerische Berechnungen besonders einfach:






k
λ1
0
λ−1
0
λ
0


 1

 1







.
.
..
−1
k
.
.
A=
⇒A =
 und A = 

.
.
.






−1
k
0
λn
0
λn
0
λn
Auch die Lösungen von A~x = ~b können einfach abgelesen werden. Man wird daher bestrebt sein,
eine Matrix A durch Bildung von QAP auf Diagonalgestalt zu bringen. Leider geht dies nicht
immer.
Je nachdem, mit welchen Matrizen P, Q man eine gegebene Matrix con links und rechts multipliziert, unterscheidet man folgende Arten von Matrixtransformation.
Definition 21.1 Matrixtransformationen
A sei eine rechteckige Matrix und P, Q entsprechende quadratische Matrizen.
(i) Der Übergang von A zu QAP mit regulärem P, Q heißt Äquivalenztransformation der
Matrix A. Im Folgenden seien A, P, Q quadratische n × n−Matrizen.
(ii) Der Übergang von A zu P −1 AP mit regulärem P heißt Ähnlichkeitstransformation
der Matrix A.
(iii) Der Übergang von A zu P −1 AP mit orthogonalem (unitärem) P heißt orthogonale (unitäre)
Ähnlichkeitstransformation der Matrix A.
(iv) Der Übergang von A zu P ∗ AP mit regulärem P heißt Kongruenztransformation der
Matrix A.
Diesen vier Transformationen entsprechen vier Relationen zwischen Matrizen, von denen uns
die ersten beiden schon bekannt sind.
185
Definition 21.2 Matrixrelationen
A und B seien zwei m × n−Matrizen, Q sei eine m × m− und P eine n × n−Matrix.
1. B heißt äquivalent zu A, wenn B aus A durch eine Äquivalenztransformation hervorgeht.
Symbolisch:
B ∼1 A ⇔ ∃ reguläres Q, P : B = QAP
2. B heißt ähnlich zu A, wenn B aus A durch eine Ähnlichkeitstransformation hervorgeht.
Symbolisch:
B ∼2 A ⇔ ∃ reguläre P : B = P −1 AP
3. B heißt orthogonal (unitär) ähnlich zu A, wenn B aus A durch eine orthogonale
(unitäre) Ähnlichkeitstransformation hervorgeht. Symbolisch:
B ∼3 A ⇔ ∃ orthogonales (unitäres) P : B = P −1 AP = P ∗ AP
4. B heißt kongruent zu A, wenn B aus A durch eine Kongruenztransformation hervorgeht.
Symbolisch:
B ∼4 A ⇔ ∃ reguläres P : BP ∗ AP
Unitär ähnliche Matrizen sind also ein Spezialfall von kongruenten Matrizen.
Da reguläre bzw. orthogonale (unitäre) Matrizen bezüglich der Multiplikation eine Gruppe bilden, handelt es sich bei allen Relationen um Äquivalentrelationen.
21.1 Äquivalentes Diagonalisieren
Mittels Äquivalenztransformationen erhält man das Traumresultat: Jede Matrix kann auf Diagonalform mit nur Einsern in der Hauptdiagonale gebracht werden.
Wir zeigen dazu, daß jede lineare Abbildung f : V → W durch eine geschickte Wahl von
Basisvektoren durch eine Diagonalmatrix dargestellt werden kann. Entscheidend dafür ist nur
der Rang von f . Wegen der entsprechenden Formeln über die Änderung der Matrixdarstellung
bei Basiswechsel (siehe Satz 18.2) erhält man dadurch eine Aussage über die Möglichkeiten einer
Äquivalenztransformation von Matrizen.
186
Satz 21.1 Normalformensatz
(i) Abbildungstheoretische Formulierung:
f : V → W sei eine lineare Abbildung mit rg(f ) = r. Dann existieren solche Basen von V
und W , bezüglich der die Matrixdarstellung [f ] von f folgende Form besitzt.


[f ] = 
O
O O
Ir

1
..
.


mit Ir = 


0
0
|





, d.h. Ir ist die r−stufige Einheitsmatrix
1
{z
}
r
(ii) Matrizentheoretische Formulierung:

Jede m × n−Matrix A vom Rang r ist äquivalent zu 

rg(A) = r ⇒ A ∼1 


O
O O
Ir
O
O O
Ir
O
O O
Ir

, d.h.,

.

 heißt die Normalformendarstellung von f bzw. A.
Beweis zu (i):
Sei ker(f ) =< u1 , . . . , un−r > (möglich, weil rg(f ) = r und dim(V ) = n). Nach dem Basisergänzungssatz kann
man {u1 , . . . , un−r } zu einer Basis von V n ergänzen, wir schreiben die ergänzenden Vektoren zu Beginn:
V n =< v1 , . . . , vr , u1 , . . . , un−r > .
Es ist dann {f (v1 ), . . . , f (vr )} eine Basis von im(f ). Diese kann zu einer Basis von W ergänzt werden. Wir
schreiben die ergänzenden Vektoren am Ende an:
W m =< f (v1 ), . . . , f (vr ), w1 , . . . , wm−r > .
Für diese Basen gilt:
f (v1 )
..
.
=
1 · f (v1 )+
..
.
...
+0 · f (vr )+
..
.
...
0 · wm−r
..
.
f (v1 )
=
0 · f (v1 )+
...
+1 · f (vr )+
...
0 · wm−r
0=
..
.
f (u1 )
..
.
=
0 · f (v1 )+
..
.
...
+0 · f (vr )+
..
.
...
0 · wm−r
..
.
0=
f (un−r )
=
0 · f (v1 )+
...
+0 · f (vr )+
...
0 · wm−r
Daraus folgt nach Definition der Matrixdarstellung die behauptete Normalform.
187
Beweis zu (ii):
Fasse A als Abbildung TA : K n → K m mittels TA (~
x) = A · ~
x auf, dann ist A = [TA ]st . Die Anwendung von (i)
ergibt (ii).
Damit erhält man folgende Äquivalenzinvariante für Matrizen:
Satz 21.2 Äquivalenzsatz für Matrizen
Zwei Matrizen A und B sind genau dann äquivalent, wenn sie gleichen Rang haben.
Beweis:
1. Sei rg(A) = rg(B) = r ⇒ nach Satz 21.1






Ir 0
I 0
I 0
 und B ∼1  r
 ⇒ A ∼1  r
 ∼1 B ⇒ A ∼1 B.
A ∼1 
0 0
0 0
0 0
2. Seien A und B äquivalent ⇒ ∃ reguläre Q und P mit B = QAP ⇒
rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) = rg(A).
Bemerkung:
Aus der Gleichheit der Ränge folgt also die Äquivalenz der Matrizen, nicht aber die Ähnlichkeit
(siehe Satz 17.2).
Algorithmus zum äquivalenten Diagonalisieren:
Da jede reguläre Matrix Produkt von Elementarmatrizen ist, erhält man aus dem Normalformensatz:
QAP
0
= Er Er−1 . . . E2 E1 AE10 E20 . . . Es−1
Es0 =

Ir 0
0
Es0 = 
= Er Er−1 . . . E2 E1 Im A In E10 E20 . . . Es−1
{z
} |
|
{z
}
0
Q
P
0


Nun ruft bekanntlich die Linksmultiplikation mit Elementarmatrizen eine Zeilenumformung, eine Rechtsmultiplikation eine Spaltenumformung hervor. Bringt man daher A durch elementare
Zeilen– und Spaltenumformungen auf die Normalform (dies ist möglich wegen des Normalformensatzes,) so erhält man das gesuchte Q durch Anwenden derselben Zeilenumformungen auf
die Einheitsmatrix Im und P durch Anwenden derselben Spaltenumformungen auf In : Dies kann
simultan erfolgen, wenn man Im , A, In nebeneinander anschreibt:
188
Im
A
In
↓
↓
↓
Zeilenumformungen
Zeilen– und
Spaltenumformungen
Spaltenumformungen
↓
↓

Q

↓
Ir 0
0
0

P

Beispiel:
0
Transformiere A = @
1
2
3
1
0
1
1
A auf Normalform.
1
0
1
2
3
1
0
0
0
1
1
0
1
0
1
0
0
0
1
1
0
1
2
3
1
0
0
−1
1
0
−2
−2
0
0
1
0
0
1
1
0
1
0
0
1
−2
−3
−1
1
0
−2
−2
0
1
0
0
0
1
Q=
1
0
1
0
0
1
−2
−3
1
2
− 21
0
1
1
0
1
0
0
0
1
1
0
1
0
0
1
−2
−1
1
2
− 21
0
1
0
0
1
−1
0
0
1
0
0
Probe: @
1
0
1
2
− 12
10
A@
1
2
1
0
3
1
1
B
AB
B 0
@
1
0
−2
1
0
−1
−Z1 + Z2
−2S1 + S2 , −3S1 + S3
Z2 : (−2)
−S2 + S3
=P
1
0
C
1
C
−1 C = @
A
0
1
0
0
1
0
1
A
Eine andere Methode bestünde darin, die Basis des Kerns und des Bildes von A bzw. f wie
im Beweis zu 21.1 geeignet zu ergänzen. Daraus sieht man auch, daß Q und P nicht eindeutig
bestimmt sind.
Durch zweimaliges Anwenden dieses Verfahrens erhält man die Transformationsmatrizen Q und
P , die zwei äquivalente Matrizen B und A ineinander überführen:
189

Ist rg(A) = r ⇒ ∃Q1 , P1 : Q1 AP1 = 

Ir 0
0

0

Es ist aber auch rg(B) = r ⇒ ∃Q2 , P2 : Q2 BP2 = 
und damit


B = Q−1
2
0
0


 ⇒ B = Q−1

2
Ir 0
0
0

 P2−1

Ir 0
0
Ir 0
−1
 P2−1 = Q−1
2 Q1 A P1 P2
{z
}
|
{z
}
|
0
Q
P
Beispiel:

A=

1 2 3

,B = 
1 0 1

5 2 3
.
4 1 3
Wegen rg(A) = rg(B) = 2 sind A und B äquivalent.
Bestimme jene regulären Matrizen Q, P mit B = QAP .
Lösung: Wie im obigen Beispiel erhält man:






1 0 0


1 =

0 1 0
1
}
2
5 2 3 
1  −1


 −1
0
3
2 −1
4 1 3 
1 −1
|
{z
}
{z
|
Q2
P2


Damit ist Q = Q−1
2 Q1 =
1 2


1
0
1
2
− 21
2 1

1 −2 −1
1 0 1




= 0
1 −1   2 1 1


0
0
1
1 1 1

P =
P1 P2−1



=

 
 
=
 

1 −1
0

2
−1
5
2
− 21

 und
−4 −3 −2
1
0
1
1



0 

1
Probe:


B=
5 2 3
4 1 3


=
2
5
2
−1

− 12

1 2 3




1 0 1 
−4 −3 −2
1
0
1
1



0  = QAP

1
190
21.2 Ähnliches Diagonalisieren
In vielen Fällen hat man nicht zwei reguläre Matrizen Q und P zum Diagonalisieren zur Verfügung.
Will man z.B. einen linearen Operator T : V → V , also eine Abbildung zwischen ein– und demselben Vektorraum, durch eine Diagonalmatrix darstellen, dann hat man nur einen Basiswechsel,
beschreibbar durch eine reguläre Matrix P , zur Verfügung. Was gilt nun für solche Basisvektoren,
bezüglich der eine Diagonalmatrixdarstellung möglich ist?
Sei B = {b1 , b2 , . . . , bn } eine Basis von V so, daß für T : V → V gilt:


λ
 1



..

.
T (b1 ) = λ1 b1
0 




..
⇔
[T ]B = 
λ2
.




.


..
T (bn ) = λn bn
 0



λn
(Dies gilt wegen der Definition der Matrixdarstellung: Spalten = Koordinaten der Bilder der
Basisvektoren.)
Also: Im Diagonalisierungsfall sind die Basisvektoren zugleich Eigenvektoren des Operators.
Die nächsten Sätze werden zeigen, daß folgende zwei Probleme äquivalent sind:
Das Eigenwertproblem: Existiert zu einer gegebenen n × n− Matrix A n l.u. Eigenvektoren
bzw. zu einem gegebenen Operator T : V → V eine Basis aus Eigenvektoren?
Das Diagonalisierungsproblem:
abbildungstheoretisch formuliert: Existiert zu einem gegebenen Operator T : V → V eine
Basis von V , bezüglich der T durch eine Diagonalmatrix dargestellt werden kann?
matrizentheoretisch formuliert: Existiert zu einer gegebenen n × n−Matrix A eine reguläre
Matrix P so, daß P −1 AP Diagonalgestalt hat?
Definition 21.3
(i) Ein Operator T : V → V heißt diagonalisierbar, wenn es eine Basis
B = {b1 , . . . , bn } von V gibt, bezüglich der sich T durch eine Diagonalmatrix beschreiben
läßt. Also:
191

λ1


[T ]B = 

0
..


 = diag(λ1 , . . . , λn )

.
0

λn
(ii) Eine Matrix A ∈ M (n × n, K) heißt diagonalisierbar, wenn es eine reguläre Matrix P
gibt, mit P −1 AP = diag(λ1 , . . . , λn ).
Damit: A ist diagonalisierbar ⇔ A ist ähnlich zu einer Diagonalmatrix.
Bemerkung:
Das Wort “Diagonalisieren” ist reserviert für das Diagonalisieren mittels einer Ähnlichkeitstransformation.
Satz 21.3 Erstes Diagonalisierbarkeitskriterium
(i) Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn V eine Basis
B aus Eigenvektoren von T besitzt. Die Diagonalelemente der Matrixdarstellung [T ]B
sind die zugehörigen Eigenwerte von T :
[T]B = diag(λ1 , . . . , λn ), λi EW von T
(ii) A ∈ M (n × n, K) ist genau dann diagonalisierbar, wenn A n l.u. Eigenvektoren besitzt.
Die Diagonalelemente sind die zugehörigen Eigenwerte. Die Spalten der Transformationsmatrix P sind gerade die Eigenvektoren.
P−1 AP = diag(λ1 , . . . , λn ) mit P = (x˜1 | . . . |x˜n ), x̃i EV zum EW λi von A(i = 1, . . . , n)
Beweis:
1. T sei diagonalisierbar ⇒ ∃ Basis B = (b1 , . . . , bn ) mit:
[T ]B
[T (bi )]B
=
=
diag(λ1 , . . . , λi , . . . , λn ) ⇒
0
λ1
B
B
..
B
.
B
B
B
[T ]B · [bi ]B = B
λi
B
B
B
@
10
..
CB
CB
CB
CB
CB
CB
CB
CB
CB
CB
A@
.
λn
T (bi )
=
λi bi ⇒ bi ist EV von T zum EW λi .
0
..
.
1
..
.
0
1
0
C B
C B
C B
C B
C B
C=B
C B
C B
C B
C B
A @
0
..
.
λi
..
.
0
1
C
C
C
C
C
C⇒
C
C
C
C
A
192
2. Sei B = (b1 , . . . , bn ) eine Basis von V aus EV von T zu den EW λ1 , . . . , λn ⇒ T (bi ) = λi bi (i = 1, . . . , n) ⇒
T (bi ) = 0 · b1 + . . . + λi bi + . . . + 0 · bn ⇒ [T (bi )]B = (0, . . . , λi , . . . , 0) ⇒ [T ]B = diag(λ1 , . . . , λi , . . . , λn ) ⇒ T
ist diagonalisierbar.
3. Der Beweis für Matrizen wird wie immer so geführt, daß man A als Abbildung von K n → K n auffaßt:
TA : K n → K n mit TA (~
x) = A · ~
x; bezüglich der Standardbasis besitzt dann TA die Matrixdarstellung A.
Es gilt nun folgende Äquivalenzkette: Matrix A diagonalisierbar ⇔ Abbildung TA diagonalisierbar ⇔ K n
besitzt Basis aus Eigenvektoren von A ⇔ A besitzt n l.u. EV x~1 , . . . , x~n .
P sei die Übergangsmatrix von der Standardbasis zur Basis aus EV, also sind die Spalten von P gerade
die EV von A : P = (x~1 |x~2 | . . . |x~n ).
Beispiel: Ist A =
1 2
3 2
diagonalisierbar?
2
pA (X)
= X
 −
3X −4 = (X − 4)(X + 1), EW: λ1 = 4, λ2 = −1
2
1
 l.u. ⇒ A diagonalisierbar
EV:   , 
3
−1






3
−2
−1
0
1 2
 ⇒ P −1 AP = 

 ⇒ P −1 = 1 
P =
5
1
1
0 4
−1 3
Satz 21.4 Eine hinreichende Bedingung für die Diagonalisierung:
(i) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist diagonalisierbar, wenn er n verschiedene Eigenwerte λ1 , . . . λn besitzt.
(ii) Eine quadratische n×n−Matrix ist diagonalisierbar, wenn sie n verschiedene EW besitzt.
Beweis: Zu jedem EW ∃ EV, diese sind l.u. wegen der Verschiedenheit der EW, also hat V bzw.
K n n l.u. EV, je n l.u. Vektoren bilden aber eine Basis, also gibt es unter diesen Bedingungen
eine Basis aus Eigenvektoren. Nach 21.3 folgt die Diagonalisierbarkeit.
193
Satz 21.5 Zweites Diagonalisierbarkeitskriterium
(Hauptsatz der Diagonalisierbarkeit)
Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes über K bzw.
eine n × n−Matrix A über einem Körper K ist genau dann diagonalisierbar, wenn
(i) das charakteristische Polynom in K[X] in Linearfaktoren zerfällt:
p(X) = (X − λ1 )(X − λ2 ) . . . (X − λn ) und
(ii) wenn für jeden Eigenwert λ seine geometrische Vielfachheit mit seiner algebraischen
Vielfachheit übereinstimmt. Das heißt, ist k die algebraische Vielfachheit des Eigenwertes λ, dann muß gelten:
k = dim Eλ ⇔ rg(T − λid) = n − k bzw. rg(A − λIn ) = n − k.
Man sagt auch: Der Rangabfall von T beim Übergang zu T − λid muß so groß wie die
algebraische Vielfachheit des EW λ sein.
Beweis: Daß das charakteristische Polynom in Linearfaktoren zerfällt, ist für die Diagonalisierbarkeit vonT eine notwendige Bedingung.
Sei dazu B irgendeine Basis von V und

 λ1



..

.
0 





⇒
Sei [T ]B = 
λ2



..


.
 0



λn
λ1 − X
..
.
0
= (λ1 − X) . . . (λn − X),
pT [X] = |[T ]B − XIn | = λi − X
.
..
0
λn − X d.h. pT [X] ist ein Produkt von Linearfaktoren. Da das charakteristische Polynom eine Ähnlichkeitsvariante
ist, gilt dies für jede Basis.
Zerfällt also das charakteristische Polynom von T nicht in Linearfaktoren, dann ist
T nicht diagonalisierbar.
Der Zerfallen in Linearfaktoren allein ist aber zu wenig, um die Diagonalisierbarkeit zu garantieren, man muß ja nach 21.3 n l.u. EV erhalten. Dies garantiert aber gerade die Bedingung
194
(ii):
Seien λ1 , . . . , λr die verschiedenen Eigenwerte von T bzw. A (möglich wegen des Zerfallens von
pT (x) in Linearfaktoren) und ni bzw. ki die geometrische bzw. algebraische Vielfachheit von
λi (i = 1, . . . , r):
(1)
(1)
{x1 , . . . xn1 }
sei Basis von
Eλ1
(2)
(2)
{x1 , . . . xn2 }
sei Basis von
Eλ2
..
.
sei Basis von
Eλr
..
.
(r)
(r)
{x1 , . . . xnr }
ni = geom. Vielfachheit von λi
Dann ist
(1)
(2)
(r)
(2)
(r)
B = {x1 , . . . , x(1)
n1 , x1 , . . . , xn2 , . . . , x1 , . . . xnr }
eine l.u. Menge von EV, denn:
Sei
(1)
(2)
(r)
(2)
(r)
(λ1 x1 , . . . , λn1 x(1)
n1 + µ1 x1 + . . . , +µn2 xn2 + . . . + ν1 x1 + . . . + νnr xnr = 0 = 0 + . . . + 0.
Weil die Summe von Eigenräumen direkt ist (19.13), folgt
(1)
+ . . . + λn1 xn1 = 0 ⇒ alle λi = 0
..
..
.
.
(r)
+ . . . + νnr xnr = 0
λ1 x1
..
.
ν1 x1
(1)
(r)
⇒ alle νi = 0
Insgesamt ist also B l.u.
Nun sind die geometrischen Vielfachheiten ni ≤ ki (19.10.iii ), daher gilt für die Summe l der
geometrischen Vielfachheiten:
l := n1 + n2 + . . . + nr ≤ k1 + k2 + . . . + kr = Grad pT (λ) = dim V = n
Damit erhalten wir die entscheidende Schlußkette:
T diagonalisierbar ⇔ T besitzt Basis aus EV ⇔ B ist Basis in V (mehr l.u. EV gibt es nicht)
⇔ l = n1 + . . . + nr = dim V = n⇔ ni = ki ∀i. Wäre nämlich ein nj 6= lj , dann kann nj nach
19.10 (iii) nur kleiner als lj sein ⇒ l < n ⇒ B wäre keine Basis von V .
195
Die zweite Bedingung rg(T −λid) = n−k, d.h., der Rangabfall um die algebraische Vielfachheit,
garantiert, daß man genug, nämlich n l.u. Eigenvektoren erhält, so daß man eine Basis aus
Eigenvektoren konstruieren kann. Dies kann man auch so ausdrücken:
Satz 21.6 Drittes Diagonalisierbarkeitskriterium
Ein linearer Operator T : V → V bzw. eine quadratische n × n−Matrix A über K ist genau dann
diagonalisierbar, wenn das charakteristische Polynom in Linearfaktoren zerfällt und V bzw. K n
die direkte Summe seiner Eigenräume ist.
V = Eλ1 ⊕ Eλ2 ⊕ . . . ⊕ Eλr .
Beweis: Die Bezeichnungen seien wie im vorigen Satz.
1. T diagonalisierbar ⇔ ni = ki ⇒ dim(Eλ1 ⊕ . . . ⊕ Eλr ) = dim Eλ1 + . . . + dim Eλr =
n1 + n2 + . . . + nr = k1 + k2 + . . . + kr = n. Weil Eλ1 ⊕ . . . ⊕ Eλr C V ⇒ Eλ1 ⊕ . . . ⊕ Eλr = V .
2. Ist V = Eλ1 ⊕ . . . ⊕ Eλr ⇒ n1 + n2 + . . . + nr = n = k1 + . . . + kr . Wegen ni ≤ ki folgt
daraus ni = ki ⇒ T ist diagonalisierbar.
Algorithmus zur Diagonalisierung einer n × n−Matrix A oder eines linearen Operators T
eines n−dimensionalen Vektorraumes.
Schritt 1: Bestimme alle verschiedenen Eigenwerte λ1 , . . . , λr von A bzw. T (z.B. als Nullstellen
des charakteristischen Polynoms; ist ein schwieriges Problem, weil eine Gleichung n−ten
Grades vorliegt).
Schritt 2: Bestimme n l.u. Eigenvektoren x~1 , . . . , x~n von A als Lösungen der homogenen LGS:
P
(A − λi In )~x = ~0 für i = 1, . . . , r (dies ist möglich wegen
ni = n).
Schritt 3: Bilde die Matrix P mit den Eigenvektoren als Spaltenvektoren:
P = (x~1 |x~2 | . . . |x~n ) bzw. die Basis B = {x~1 , . . . , x~n } von K n .
Schritt 4: Das Produkt P −1 AP ist dann eine Diagonalmatrix mit den Eigenwerten als Diagonalelemente, jeden sooft angeschrieben, wie die algebraische Vielfachheit angibt.
196
Beispiel A:
a={{2,2,1},{1,3,1},{1,2,2}};a//MatrixForm


2


 1

1
2
3
2
1


1 

2
ew=Eigenvalues[a]
{1, 1, 5}
n1=NullSpace[a-1*IdentityMatrix[3]]
{{−1, 0, 1} , {−2, 1, 0}}
(* Der Eigenwert l1=1 hat algebraische und geometrische Vielfachheit gleich 2. *)
n2=NullSpace[a-5*IdentityMatrix[3]]
{{1, 1, 1}}
(* Der Eigenwert l2=5 hat algebraische und geometrische Vielfachheit gleich 1. *)
{ew,ev}=Eigensystem[a]
{{1, 1, 5} , {{−1, 0, 1} , {−2, 1, 0} , {1, 1, 1}}}
(* Transformationsmatrix p: *)
p=Transpose[{ev[[1]],ev[[2]],ev[[3]]}];p//MatrixForm


−1 −2


 0
1

1
0
1


1 

1
d=Inverse[p].a.p;d//MatrixForm


1


 0

0
0
1
0
0


0 

5
Beispiel B:
a={{19,-9,-6},{25,-11,-9},{17,-9,-4}};
ew=Eigenvalues[a]
{1, 1, 2}
(* Der Eigenwert 1 hat die algebraische Vielfachheit 2 *)
n=NullSpace[a-ew[[1]]*IdentityMatrix[3]]
{{3, 4, 3}}
(* Die geometrische Vielfachheit des Eigenwertes 1
ist nur 1, a ist daher nicht diagonalisierbar. *)
197
Zum Schluß geben wir noch ein Kriterium mittels des Minimalpolynoms an:
Satz 21.7 Viertes Diagonalisierbarkeitskriterium
Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn sein Minimalpolynom
über dem Skalarkörper K in verschiedene Linearfaktoren zerfällt.
ohne Beweis
21.3 Orthogonales (Unitäres) Diagonalisieren
Nachdem zweiten Diagonalisierbarkeitskriterium erhält man genau dann genug Eigenvektoren,
wenn die geometrische Vielfachheit eines jeden Eigenwertes gleich der algebraischen Vielfachheit
ist. Es ist nun überraschend, daß dies für symmetrische bzw. hermitesche Matrizen stets
der Fall ist! Diese können also immer diagonalisiert werden und dies sogar mit orthogonalen
(unitären) Matrizen. Dementsprechend gibt es zu selbstadjungierten Operatoren stets eine
Basis aus orthonormalen Eigenvektoren! Dies ist der eigentliche Hauptsatz der Linearen
Algebra.
Satz 21.8 Spektralsatz für selbstadjungierte Operatoren
(Hauptsatz der Linearen Algebra)
T : V → V sei ein selbstadjungierter Operator eines endlichdimensionalen Skalarproduktraumes V über K = IR bzw. CI mit den r verschiedenen EW λ1 , . . . , λr und den Eigenräumen
Eλ1 , . . . , Eλr (wegen der Selbstadjungiertheit sind alle EW immer reell!)
(i) (Basisform):
V hat eine Basis B aus orthonormalen Eigenvektoren von T .
Oder: Jede hermitsche Matrix ist orthogonal bzw. unitär ähnlich zu einer reellen
Diagonalmatrix, je nachdem, ob K = IR oder K = CI ist.
[T]B = diag(λ1 , . . . , λ1 , . . . , λr , . . . , λr ), λi ∈ IR
Auch so (Hauptsatz der Linearen Algebra):
Jede reell symmetrische Matrix kann orthogonal diagonalisiert werden.
Jede hermitsche Matrix kann unitär diagonalisiert werden.
198
(ii) (Direkte Zerlegungsform):
V ist die orthogonale Summe der Eigenräumen von T : V = Eλ1 ⊥
. . . ⊥
Eλr .
(iii) (Projektionsform):
Sei Pi die Orthogonalprojektion auf den i−ten Eigenraum Eλi . Dann ist {P1 , . . . , Pr } ein
orthogonale Menge von Projektionen mit P1 + . . . + Pr = id und
T = λ1 P1 + . . . + λk Pk mit Pi Pj = Pj Pi = 0 für i 6= j
Oder: Jeder selbstadjungierte Operator ist Linearkombination von vertauschbaren Orthogonalprojektionen, die sich wechselseitig annullieren.
Bemerkung: Der Name Spektralsatz rührt von der Projektionsform (iii) her. Die EW λi spielen
die Rolle der Spektrallinien. Die Menge der EW eines Operators nennt man auch sein Spektrum.
Zunächst zeigen wir folgendes
Lemma: Ist ein Teilraum W C V invariant gegenüber T , d.h. ist T (W ) ⊆ W , dann ist W ⊥
invariant gegenüber T ∗ , d.h. T ∗ (W ⊥ ) ⊆ W ⊥ .
Beweis des Lemmas: Sei y ∈ W ⊥ und w ∈ W . Dann ist < w, T ∗ (y) >=< T (w), y >= 0 weil T (w) ∈ W nach
Voraussetzung und y ∈ W ⊥ . Dies gilt für alle w ∈ W , also ist mit jedem y ∈ W ⊥ auch T ∗ (y) wieder in W ⊥ .
Beweis des Spektralsatzes in der Basisform durch Induktion nach der Dimension von V :
1. Sei dim(V ) = 1. Dann ist die Matrixdarstellung [T ]B eine (1×1)−Matrix, also die Diagonalmatrix [T ]B = λ
für B = (b1 ). Es ist daher T (b1 ) = λ1 b1 mit b1 6= 0 und e1 =
1
b
kb1 k 1
ist eine ON–Basis von V , wobei e1
wieder ein EV von T ist.
2. Annahme: Jeder (n − 1)−dimensionale Skalarproduktraum habe eine ON–Basis aus Eigenvektoren.
3. Sie dim(V ) = n. Nach 19.11 hat T nur reelle EW λ. Daher hat T , ganz egal ob V ein Vektorraum über
K = IR oder K = CI ist, stets einen Eigenvektor (19.12) x ∈ V von T : T (x) = λx. Es sei: W :=< x > und
e1 ein Einheitsvektor in W , also e1 = x/kxk.
Da x EV von T ist, gilt: T (W ) ⊆ W, W ist invariant gegenüber T : T (kx) = kT (x) = kλx = (λk)x ∈ W .
Dann ist nach dem Lemma W ⊥ invariant gegenüber T∗ = T, also ebenfalls invariant gegenüber T . Damit
ist die Einschränkung T̂ = T /W ⊥ von T auf W ⊥ wieder ein selbstadjungierter Operator: T̂ (W ⊥ ) ⊆ W ⊥ ,
also: T̂ : W ⊥ → W ⊥ und T̂ ∗ = T̂ . Nach dem Hauptsatz über orthogonale Zerlegung ist V = W ⊕ W ⊥ , also
ist dim(W ⊥ ) = n − 1, weil dim(W ) = 1. Nach Induktionsannahme besitzt W ⊥ eine ON–Basis (e2 , . . . , en )
aus EV von T̂ , diese sind aber auch EV von T : T (ei ) = T̂ (ei ) = λi ei , weil ei ∈ W ⊥ . Dann ist aber
(e1 , e2 , . . . , en ) eine ON–Basis von V aus EV von T , weil < e1 , ei >= 0 ∀i = 2, . . . , n (wegen x ∈ W ⊥ ).
Damit hat man auch für n−dimensionale Skalarprodukträume eine ON–Basis aus EV von T gefunden.
199
Beweis der direkten Zerlegungsform
Nach 21.6 ist V direkte Summe seiner Eigenräume. Da EV zu verschiedenen EW eines selbstadjungierten Operators orthogonal sind, gilt Eλi ⊥ Eλj für i 6= j, also ist die Zerlegung orthogonal.
Beweis der Projektionsform
Pi sei die Projektion auf den i−ten Eigenraum. Weil diese orthogonal aufeinander stehen, sind die Pi0 s Orthogonalprojektionen und eine orthogonale Menge von Projektionen. Es ist P1 + . . . + Pr = id, denn:
P
P
Aus V = Eλ1 ⊥ ...
⊥ Eλr folgt x = u1 + . . . + ur mit ui ∈ Eλi ⇒ Pi (x) = ui ⇒ i Pi (x) = i ui = x = id(x) ⇒
P
i Pi = id.
Es ist T = λ1 P1 + . . . + λr Pr , denn:
T (x) =
X
T (ui ) =
i
X
λi ui =
X
i
i
λi Pi (x) ∀x ∈ V ⇒ T =
X
λi Pi .
i
Die matrizentheoretische Formulierung der Basisform (i) des Spektralsatzes liefert nun den in
der Einleitung angekündigten Satz.
Satz 21.9 Orthogonales Diagonalisieren
(i) Jede reell–symmetrische Matrix kann durch eine orthogonale Matrix reell diagonalisiert
werden.
(ii) Jede hermitesche Matrix kann durch eine unitäre Matrix reell diagonalisiert werden.
Beweis:
(i) Jede reelle symmetrische Matrix A stellt einen selbstadjungierten Operator TA definiert durch TA (~
x) = A·~x
auf IRn dar. Bezüglich der Standardbasis ist die Matrixdarstellung von TA die Matrix A selbst: [TA ]St = A.
Nach dem Spektralsatz gibt es eine ON–Basis B von (reellen) EV von TA , bezüglich der TA durch eine
reelle Diagonalmatrix beschrieben wird. Die Übergangsmatrix P von der Standardbasis (welche auch eine
ON–Basis ist) zur ON–Basis B wird durch eine orthogonale Matrix beschrieben.
(ii) Analog wie in (i), nur CI n statt IRn .
Algorithmus zur orthogonalen (unitären) Diagonalisierung einer reell–symmetrischen bzw. hermiteschen Matrix A:
Schritt 1: Bestimme alle verschiedenen reellen Eigenwerte λ1 , . . . , λr von A.
Schritt 2: Orthonormalisiere die l.u. Eigenvektoren innerhalb eines Eigenraumes Eλi
(i = 1, . . . , r) z.B. mit dem GRAM–SCHMIDT’schen Verfahren. Die Eigenvektoren zu
verschiedenen EW sind automatisch orthogonal, sie brauchen nur normiert zu werden.
Insgesamt erhält man n orthonormale Eigenvektoren x~1 , . . . , x~n von A.
200
Schritt 3: Bilde die Matrix P mit den orthonormalen Eigenvektoren als Spaltenvektoren. Sie
ist eine orthogonale (unitäre) Matrix: P = (x~1 |x~2 | . . . |x~n ).
Schritt 4: P −1 AP ist eine Diagonalmatrix mit den Eigenwerten als Hauptdiagonalelemente,
wobei man jeden EW so oft anschreibt, wie seine algebraische Vielfachheit angibt.
Beispiel:
a={{7,-2,1},{-2,10,-2},{1,-2,7}};
{ew,ev}=Eigensystem[a]
{{6, 6, 12} , {{−1, 0, 1} , {2, 1, 0} , {1, −2, 1}}}
<<LinearAlgebra ’Orthogonalization’
ev1=GramSchmidt[{ev[[1]],ev[[2]],ev[[3]]}]
p=Transpose[ev1];p//MatrixForm
p1=N[p]//MatrixForm
(* Probe *)
d=Inverse[p].a.p;d//MatriForm
201
(* Spektraldarstellung von a *)
l1=ew[[1]];l2=ew[[2]];l3=ew[[3]];
e1=ev1[[1]];e2=ev1[[2]];e3=ev1[[3]]
p1=Outer[Times,e1,e1];p1//MatrixForm
N[%]//MatrixForm
p2=Outer[Times,e2,e2];p2//MatrixForm]
p3=Outer[Times,e3,e3];p3//MatrixForm
a==l1*p1+l2*p2+l3*p3
True
a = 6(p1 + p2 ) + 12p3 ist wieder Orthogonalprojektion
202
Statt orthogonale (unitäre) Diagonalisierung sagt man oft auch: Hauptachsentransformation.
Führe für A die Hauptachsentransformation durch, bedeutet: Bestimme ein orthogonales
(unitäres) P , so daß P −1 AP Diagonalgestalt besitzt.
Orthogonale (Unitäre) Diagonalisierung (P −1 AP ) bzw. P ∗ AP ) hat einen entscheidenden numerischen Vorteil: Die Inverse ist einfach die Transponierte (Konjugiert–Transponierte). Außerdem beschreiben orthogonale (unitäre) Matrizen den Wechsel von ON–Basen, ein Fall, der
besonders wichtig ist.
In komplexen Skalarprodukträumen gibt es außer den selbstadjungierten (hermiteschen) Operatoren (Matrizen) noch andere Operatoren, die ebenfalls noch (sogar unitär) diagonalisierbar
sind (!); jedoch i.a. nicht mehr mit reellen Hauptdiagonalelementen.
Beispiel:

Sei A = 
2
i
i 2


. Es ist dann A∗ = 
2 −i
−i
2

 6= A.
Beachte: A ist zwar symmetrisch, aber nicht hermitesch!


1
−1
 diagonalisiert werden.
Trotzdem kann A durch das orthogonale P = √12 
1
1


2
+
i
0
.
P ∗ AP = P −1 AP = 
0
2−i
Wir notieren jedoch: A ist eine (komplexe) normale Matrix


 

 

2 i
2 −i
2 −i
2 i
5 0

=

=
.
AA∗ = 
i 2
−i 2
−i 2
i 2
0 5


1 2
 ist eine reelle, nicht symmetrische, aber normale Matrix.
Beispiel: A = 
−2 1


 
 


1
2
1
−2
5
0
1
−2
1
2

=
=

 = At A
AAt = 
−2 1
2
1
0 5
2
1
−2 1
pA (X) = X 2 − 2X + 5, EW: λ1 = 1 + 2i
λ2 = 1 − 2i
203
EV zu λ1 : −2ix + 2y = 0
EV zu λ2 : 2ix + 2y = 0
x=1
x=1
y=i
y = −i
x~1 =
1
x~2 =
i
Transformationsmatrix
P:


1
1
 , P −1 = P t =
P = √12 
i −i

√1
2

1 −i
1
i
1
−i


 und P −1 AP = 
1 + 2i
0
0 1 − 2i


A läßt sich also im Komplexen (unitär) diagonalisieren.
Wir werden im folgenden zeigen, daß die Klasse der normalen Operatoren (Matrizen) die größte
Klasse ist, die unitär diagonalisiert werden kann.
Satz 21.10 Spektralsatz für normale Operatoren
Abbildungstheoretische Formulierung:
T sei ein normaler Operator auf einem endlich–dimensionalen Skalarproduktraum über K = C.
I
Dann gibt es eine ON–Basis von V aus Eigenvektoren von T .
Damit: Jeder normale Operator kann bezüglich einer ON–Basis durch eine Diagonalmatrix dargestellt werden. Die Diagonalelemente sind aber im allgemeinen nicht mehr reell.
Matrizentheoretische Formulierung:
Jede normale Matrix kann durch eine unitäre Matrix diagonalisiert werden. Die Hauptdiagonalelemente sind jedoch im allgemeinen nicht mehr reell.
Beweis durch Induktion nach dim(V ) (vergleiche mit dem Beweis zu 21.8)
1. dim(V ) = 1 : V =< e1 >, e1 ist EV.
2. Sei dim(V ) > 1. Nach dem Fundamentalsatz der Algebra besitzt T zumindest einen Eigenwert in CI und
somit einen Eigenvektor v. Wir setzen: W =< v > und e1 = v/kvk.
v ist EV von T ⇒ W ist invariant gegenüber T : T (W ) ⊆ W . Da T normal ist, ist v auch EV von T ∗
(siehe 19.15 iii), daher ist W auch bezüglich T ∗ invariant und nach dem Lemma ist W ⊥ invariant bezüglich
(T ∗ )∗ = T . Der restliche Beweis erfolgt so wie in 21.8.
Von den Matrizen mit reellen Eintragungen sind jedoch nur die symmetrischen orthogonal (d.h.,
nur unter Verwendung von reellen Zahlen) diagonalisierbar.
Insgesamt ergibt sich folgende Charakterisierung der orthogonalen (unitären) Diagonalisierbarkeit):
204
Satz 21.11 Charakterisierung von reell–symmetrischen bzw. normalen Matrizen
(i) Eine reelle Matrix ist genau dann orthogonal diagonalisierbar (über IR), wenn sie symmetrisch ist.
(ii) Eine (komplexe oder reelle) Matrix ist genau dann unitär diagonalisierbar (über C),
I wenn
sie normal ist.
Auch so formuliert:
Von den reellen Matrizen sind genau die symmetrischen orthogonal diagonalisierbar. Genau die
normalen Matrizen sind unitär diagonalisierbar.
Beweis:
(i)
a) Sei A orthogonal diagonalisierbar ⇒ ∃ orthogonales P mit P −1 AP = P t AP = D (D Diagonalmatrix)
⇒ A = P DP t ⇒ At = (P DP t )t = P tt Dt P t = P DP t = A (wegen Dt = D), also ist A symmetrisch.
b) Nach 21.9(i) ist jede reell–symmetrische Matrix orthogonal diagonalisierbar.
(ii)
a) Sei A unitär diagonalisierbar ⇒ ∃ unitäres P mit P −1 AP = P ∗ AP = D ⇒ A = P DP ∗ . Nun ist aber
D∗ 6= D (außer D ist reell), daher kann man nicht den obigen Beweis anwenden. Insbesondere müssen
nicht nur hermitesche Matrizen unitär diagonalisierbar sein. Notwendig ist jedoch AA∗ = A∗ A:
AA∗ = P DP ∗ (P DP ∗ )∗ = P D(P ∗ P )D∗ P ∗ = P DD∗ P ∗
A∗ A = (P DP ∗ )∗ (P DP ∗ ) = P D∗ (P ∗ P )DP ∗ = P D∗ DP ∗ .
Wegen DD∗ = D∗ D (Diagonalmatrizen sind stets normal), ist also AA∗ = A∗ A notwendig für die
unitäre Diagonalisierung, also muß A normal sein.
b) Die Umkehrung gilt nach 21.10.
Nun noch zwei theoretische Anwendungen des Spektralsatzes:
Simultane Diagonalisierung
Sind mehrere Operatoren gegeben, ist es zweckmäßig, wenn man mit einer ON–Basis B auskommen könnte, bezüglich der alle Operatoren diagonalisiert werden können. In der Physik
entsprechen solchen Operatoren Größen, die simultan gemessen werden können.
Notwendig für die simultane Diagonalisierung ist die Vertauschbarkeit der Operatoren: Seien
T1 , T2 bezüglich der Basis B diagonalisierbar ⇒ [T1 ]B · [T2 ]B = [T2 ]B [T1 ]B , (weil Diagonalmatrizen vertauschbar sind) ⇒ T1 ◦T2 = T2 ◦T1 . Für selbstadjungierte Operatoren ist diese Bedingung
aber auch hinreichend.
205
Satz 21.12 Simultane Diagonalisierung
Zwei selbstadjungierte Operatoren eines endlich–dimensionalen Skalarpoduktraumes sind genau
dann simultan diagonalisierbar, wenn sie vertauschbar sind.
Beweis:
1. Notwendigkeit siehe oben.
2. Seien T1 und T2 vertauschbare, selbstadjungierte Operatoren. Eλ sei Eigenraum von T1 und x ∈ Eλ :
T1 (T2 (x)) = (T1 ◦ T2 )(x) = (T2 ◦ T1 )(x) = T2 (T1 (x)) = T2 (λx) = λ(T2 (x)). Damit ist T2 (x) auch ein EV
von T1 zum EW λ ⇒ T2 (x) ∈ Eλ , wenn x ∈ Eλ , d.h T2 : Eλ → Eλ ist ein selbstadjungierter Operator auf
Eλ . Nach dem Spektralsatz hat Eλ eine ON–Basis aus EV von T2 . Diese sind auch EV von T1 , weil sie aus
Eλ sind. Somit hat jeder Eigenraum Eλ von T1 eine ON–Basis von EV von beiden Operatoren T1 und T2 .
Nachdem V die direkte Summe der Eigenräume ist, erhält man durch Vereinigung dieser Basen eine Basis
von V aus EV von beiden Operatoren. Bezüglich dieser Basis können beide Operatoren diagonalisiert
werden.
Im allgemeinen ist die geometrische Vielfachheit ≤ algebraische Vielfachheit, aber:
Satz 21.13 Gleichheit von geometrischer und algebraischer Vielfachheit
Für jeden Eigenwert einer hermiteschen oder einer reell–symmetrischen Matrix ist die geometrische Vielfachheit gleich der algebraischen Vielfachheit.
Beweis: Diese Matrizen induzieren selbstadjungierte Abbildungen. Nach dem Spektralsatz sind diese stets diagonalisierbar, nach dem zweiten Diagonalisierbarkeitskriterium folgt die Behauptung.
206
21.4 Anwendungen des Diagonalisierens
21.4.1 Berechnung von Matrixpotenzen
Zahlreiche Probleme führen auf die Berechnung hoher Matrixpotenzen. Mit diagonalisierbaren
Matrizen können solche Berechnungen vereinfacht werden.
Sei A eine diagonalisierbare n × n−Matrix ⇒ ∃ reguläre P mit P −1 AP = D = diag(λ1 , . . . , λn ),
λi EW von A ⇒ (P −1 AP )2 = P −1 AP P −1 AP = P −1 AEAP = P −1 A2 P , allgemein:
(P−1 AP)k = P−1 Ak P ∀k ∈ ZZ
Beweis für negative k ⇔ A ist invertierbar ⇔ alle EW λi 6= 0.
Für k = −1 : (P −1 AP )−1 = P −1 A−1 (P −1 )−1 = P −1 A−1 P .
Für k = −n(n ∈ IN) : (P −1 AP )−n : [(P −1 AP )n ]−1 = (P −1 An P )−1 = P −1 (An )−1 (P −1 )−1 =
P −1 A−n P .
Damit gilt für diagonalisierbare A ⇔ D = P −1 AP :
Dk = (P −1 AP )k = P −1 Ak P = Dk , also
−1 ⇒ Ak = PDk P−1 ∀k ∈ Z
Ist A = PDP
Z



λ1
λk1







..
..
k =
Für D = 
gilt
aber
D

.

.
.




k
λn
λn
Für negative k sind die EW λi 6= 0, weil A dann invertierbar ist.
Ist A eine diagonalisierbare n × n−Matrix mit den EW λ1 , . . . , λn und EV x~1 , . . . , x~n ,
dann ist

Ak

λk1


=P

..
.
λkn

 −1
P

mit P = (x~1 | . . . |x~n ). Für k = −1 erhält man so wieder eine Möglichkeit für das Invertieren
einer Matrix.
Zusammenfassung für die Berechnung der zu A inversen Matrix A−1 :
1. Mittels elementarer Zeilenumformungen (RowReduce) (A|In ) ∼1 (In |B) ⇒ B = A−1
−1
−1 mit P = (x
2. A−1 = P diag(λ−1
~1 | . . . |x~n ), wobei λ1 , . . . , λn die EW von A und
1 , . . . , λn )P
x~1 , . . . , x~n die dazugehörigen EV sind.
207
3. mittels der zu A adjungierten Matrix A−1 =
1
adj
|A| A
4. mittels des charakteristischen Polynoms pA (X) = c0 + c1 X + . . . + X n .
A invertierbar ⇔ c0 6= 0 (weil alle EW 6= 0), dann ist wegen
An = −c0 In − c1 A − . . . − cn−1 An−1 , n ∈ IN
n−1
A−1 = −1
c0 c1 In + c2 A + . . . + A
5. mittels des Minimalpolynoms mA (X) = m0 + m1 X + . . . + X r :
A invertierbar ⇔ m0 6= 0
A−1 = − m10 m1 In + m2 A + . . . + Ar−1
21.4.2 Differenzengleichungen und Potenzen Ak
1. Kapital K, Verzinsung 6%, Anfangskapital K0 .
Kn+1 = 1, 06. · Kn
{z
}
|
Differenzengleichung 1. Ordnung
⇔
K = 1, 06n . · K0
{z
}
|n
Bildungsgesetz der Folge erlaubt direkte
Berechnung der Folgenglieder
rekursive Definition einer Folge
2. Fibonacci–Folge (Botanik): 0, 1, 1, 2, 3, 5, 8, 13, . . . ,
F0 = 0, F1 = 1
Fk+2 = Fk+1 + Fk
Das ist eine Differenzengleichung 2. Ordnung
Frage: Wie sieht das Bildungsgesetz der Fibonacci–Folge aus? Wie groß ist F1000 ?
Wir setzen



Fk+1
Fk+1
 ⇒ yk+1
y~k := 
~ =
Fk
Fk+1

Fk+2 = Fk+1 + Fk
1
⇔ yk+1
~ =
Fk+1 = Fk+1
1


1
0

 y~k
Aus der Gleichung der Ordnung n wird durch Kombination von n − 1 “trivialen Gleichungen”
(wie Fk+1 = Fk+1 ) ein Gleichungssystem. Das ist leichter lösbar: Sei y~0 der “Anfangswert”,
y~1 = A · y~0 , y~2 = A · y~1 = A · (A · y~0 ) = A2 y~0 . . .
y~k = Ak y~0 ,
y~0 Anfangswert
208
Ist A diagonalisierbar ⇔ ∃P : A = P DP −1 ⇔
~
y~k = Ak y~0 = P Dk P −1 y~0 = P Dk C
Die Spalten von P sind EV x~i von A:



λk
 1

y~k = x~1 |x~2 | . . . |x~n | · 
{z
}
|


..
.
P
λkn


 · P −1 y~0 = c1 λk1 x~1 + . . . + cn λkn x~n
 | {z }
=:~c
y~0 = c1 λ01 x~1 + . . . + cn λ0n x~n ⇔ y~0 = P~c ⇔ ~c = P −1 y~0
~c := (c1 , . . . , cn )
Beispiel:
Fibonacci–Folge


√
√
1 1
 , λ2 − λ − 1 = 0 λ1 = 1+ 5 λ2 = 1− 5
A=
2
2
1 0




(λ − λ1 )x + y = 0
λ1
λ2
 x~2 = 

x~1 = 
x − λ1 · y = 0
1
1




λ 1 λ2
1 −λ2
 , P −1 = 1 

P =
λ1 −λ2
1 1
−1 λ1


 
1
−λ
1
1
2
1


F0 = 0, F1 = 1 ⇒ y~0 =   ⇒ ~c = P −1 y~0 = λ1 −λ
2
−1 λ1
0
0






λ1 λ 2
λk1
1 −λ2
1
F





 1 =  k+1
~yk =
λ1 −λ2
1 1
λk2
−1 λ1
Fk
−1
von y~k interessiert uns nur die 2. Komponente Fk :
λk2
λk1
−
=
Fk =
λ 1 − λ 2 λ1 − λ 2
Es ist
F1001
F1000
∼
√ k √
1− 5
/ 5 < 21 für
2
√
1+ 5
= 1, 618 . . .
2
alle k ⇒ F1000 ≈
λk2 kann gegenüber λk1 vernachlässigt werden.
Fk+1
Fk
∼
λk+1
1
λk1
= λ1 (= goldener Schnitt!)
√1
5
√1
5
√ k
1+ 5
2
√ 1000
1+ 5
2
−
√ k
1− 5
2

=

,

1
λ1 −λ2

1
−1


209
Zusammenfassung:
Gegeben sei eine Folge (a0 , a1 , . . . ak , ak+1 , . . . , ak+n , . . .). Eine lineare Differenzengleichung der
Ordnung n ist eine Beziehung zwischen dem k−ten Glied einer Folge und den n aufeinander
folgenden Gliedern der Folge der Form
ak+n = r1 ak+n−1 + . . . + rk ak .
Durch die n vorgegebenen “Anfangswerte” a0 , a1 , . . . , an−1 ist die Folge eindeutig bestimmt.
Durch Einführen von “trivialen Gleichungen” kann die Differenzengleichung mit Matrizen angeschrieben werden:
yk+1
~ = A · y~k , y~0 Anfangsvektor.
Das Bildungsgesetz der Folge kann aus
y~k = Ak y~0
abgeleitet werden.
Ist A diagonalisierbar, dann gilt
y~k = c1 λk1 x~1 + . . . + cn λkn x~n
mit ~c := (c1 , . . . , cn )t so, daß y~0 = P · ~c ⇔ ~c = P −1 · y~0 .
Dabei sind λ1 , . . . , λn die EW von A und x~1 , . . . , x~n die dazugehörigen EV. Die Spalten von P
sind gerade die EV, P := (x~1 |x~2 | . . . |x~n ).
21.4.3 Markovprozesse
Beispiel: In ein Land wandern jedes Jahr
1
10
der Bevölkerung ein, und
2
10
wandern aus. Am
Anfang sind 200 Millionen außerhalb des Landes und 30 Millionen innerhalb des Landes. Stirbt
die Bevölkerung in diesem Land aus oder gibt es eine “Grenzverteilung”?
(Annahme: Gesamtbevölkerung bleibt konstant).
Bevölkerung außerhalb: y
Bevölkerung innerhalb:

 z
y0

“Startvektor” 
z0
210
Am Ende des ersten Jahres gilt:
y1 = 0.9y0 + 0.2z0
z1 = 0.1y0 + 0.8z0
Allgemein für y~k =
yk
zk

⇔

y1

=
z1
0.9 0.2
0.1 0.8


y0
z0

 usw.
: yk+1
~ = Ay~k .
Kennzeichnen eines Markovprozesses: yk+1
~ = P y~k
1. Jeder Zustand yk+1
˜ hängt nur vom vorhergehenden Zustand y˜k ab.
2. Spaltensummen der Matrix P sind stets 1.
3. Matrix hat nur positive Eintragungen ≤ 1.
P = (pij ) heißt eine stochastische Matrix ⇔ alle Spaltensummen sind 1 und pij ∈ [0, 1].
y~k = (y1 , . . . , yn )t heißt Zustandsvektor ⇔ y1 + . . . + yn = 1 ⇔ Koordinatensumme = 1.
Die Gleichung hat die Form einer Differenzengleichung, um y~k für sehr großes k zu berechnen,
versucht man, A zu diagonalisieren:
λ2 − 1.7λ + 0.7 = 0
|A − λE| =
λ1 = 1, λ2 = 0.7
(λ − 1)(λ − 0.7) = 0
Eigenvektoren:
−0.1y + 0.2z = 0
0.2y + 0.2z = 0
−x + 2y = 0
0.1y + 0.1z = 0
x = 2y = 1
y+z = 0
1
x~2 = −1




1  −1 −1  1  1 1 
=−
=
3
3
−1 2
1 −2
x~1 =

P =
2
1
1 −1

 , P −1
2
1
Probe:







1
+1
0.9
0.2
+1
+1
2
+0.7
2
1
1


= 1

=
3
3
+1 2
0.1 0.8
1 −1
+1 −2
1 −0.7


1 0


0 0.7

 
 

2
1
1
1
1
·
·
· 1
A = P DP −1 = 
3
1 −1
0.7
1 −2

1
3

3
0
0 2.1

=
211
Damit ist:
kx
y~k = Ak y~0 = c1
λk1 x~1 + c2 λ
2 für 
2~



1
1
y
y
+
z
0
0
0

= 1
⇒
~c = P −1 y~0 = 31 
3
1 −2
z0
y0 − 2z0
1
· 0.7k
y~k = 13 (y0 + z0 ) 21 + 13 (y0 − 2z0 ) −1
Bei k → ∞ : (0.7k ) → 0

y~∞ =

Beachte: 
2/3
2/3



(y0 + z0 )
| {z }
1/3
Gesamtbevölkerung

 ∈ E1
1/3
Antwort: Auf lange Sicht bleibt 1/3 der Bevölkerung im Land, 2/3 sind außerhalb des Landes.
Bisher haben wir das Problem deterministisch gesehen: Anteile der Bevölkerung wanderten.
Wahrscheinlichkeitstheoretische Sichtweise: Blicke auf jeden einzelnen: Ist der einzelne außerhalb des Landes, so wird er mit Wahrscheinlichkeit 1/10 einwandern. Ist er innerhalb des
Landes, so wird er mit Wahrscheinlichkeit 2/10 auswandern. Wir wissen auf lange Sicht nicht,
wo er ist, aber jedes Jahr geben die Komponenten von y~k = Ak y~0 die Wahrscheinlichkeit an, wo
er sich befindet.

“Übergangsmatrix A” = 
0.9 0.2

, Wahrscheinlichkeiten ≥ 0 ⇔ aij ≥ 0.
0.1 0.8
Summe der Wahrscheinlichkeiten = 1 ⇔ Spaltensumme = 1.
Bei jedem Markovprozeß ist λ = 1 ein EW und sein mit c1 multiplizierter Eigenvektor gibt den Grenzzustand y˜∞ an:
Sei A eine Übergangsmatrix (“transition matrix”). Betrachte die Spalten von A − E = A − 1 · E:
Die Spaltensummen von A − E sind 1 − 1 = 0.
Daher ergibt die Summe aller Zeilen von A − E den Nullvektor ⇔ die Zeilen von A − E sind l.a.
⇒ |A − E| = |A − 1 · E| = 0 ⇒ λ = 1 ist Eigenwert von A.
Da y~k = c1 λk1 x~1 + . . . + cn λkn x~n ist, ist kein EW größer als 1, denn sonst würden die Wahrscheinlichkeit (=Komponenten von y~k ) gegen ∞ streben, es ist aber jede Wahrscheinlichkeit
≤ 1.
212
Sei λ1 = 1(∃!) und λ2 < 1, λ3 < 1, . . . , λn < 1 ⇒ λki → 0 für i = 2, . . . , n ⇒
y˜k →
= y˜∞ .
c1 x˜1
| {z }
stationärer Zustandsvektor
Auch so:
Ein Zustandsvektor ~x ∈ K n heißt ein Gleichungszustand oder stationärer Zustandsvektor
für die stochastische Matrix P , falls P ~x = ~x.
Als Zustandsvektor müssen alle Koordinaten von ~x aus [0, 1] sein und als Summe x1 +. . .+xn = 1
ergeben.
−0.1y + 0.2z = 0
0.9y + 0.2z = y
0.1y + 0.8z = z
⇔
0.1y − 0.2z = 0
y+z = 1
y+z = 1
oder:
y+z = 1
0.1y − 0.2z = 0
⇔
y+z = 1
y − 2z = 0
⇔
y
1 2
=
z
3 1
Stabilitätsfragen
Fibonacci–Zahlen → ∞, Endkapitel → ∞, Markov–Prozeß: beschränkt.
Gegeben sei die Differenzengleichung yk+1
~ = Ay~k . Wir interessieren uns für das Verhalten von
y~k für k → ∞. Im Falle der Diagonalisierbarkeit gilt: y~k = c1 λk1 x~1 + . . . + cn λkn x~n , das Verhalten
hängt also nur von den EW ab:
Die Differenzengleichung ist stabil ⇔ y~k → 0 ⇔ alle |λi | < 1
neutral stabil ⇔ y~k beschränkt ⇔ alle |λi | ≤ 1
instabil ⇔ y~k unbeschränkt ⇔ es gibt mindestens einen EW λ mit |λ| > 1.
Achtung: Kleinste Änderungen der EW können große Auswirkungen haben (chaotisches Verhalten).
213
21.4.4 Differentialgleichungen
Differentialgleichung erster Ordnung: y 0 = ay ⇔ y = c · eax : allgemeine Lösung
Differentialgleichung erster Ordnung mit Anfangsbedingung:
y 0 = ay
⇒ 2 = ce0 = c ⇒ y(x) = 2eax :
spezielle (partikuläre) Lösung
des Anfangswertproblem.
y(0) = 2
| {z }
Anfangswertproblem
Differentialgleichungssysteme erster Ordnung mit konstanten Koeffizienten
Koordinatenform
y10 = a11 y1 + a12 y2 + . . . + a1n yn

y20 = a21 y1 + a22 y2 + . . . + a2n yn
.
= ..



⇔



yn0 = an1 y1 + an2 y2 + . . . + ann yn
y10
y20
..
.
yn0
| {z
y~0 (x)


a11 . . . a1n
 
 
  a21 . . . a2n
=
  ..
..
  .
.
 
an1 . . . ann
} |
{z
A








Matrixform

y1
y2
..
.







yn
} | {z }
~
y (x)
Bemerkung: Ein Vektor (eine Matrix), deren Eintragungen Funktionen sind, wird differenziert,
indem man jede Eintragung differenziert.
Kurzform des Anfangswertproblems:
y~0 (x) = A · ~y (x)
y~0 (x) = A~y (x)
bzw.
~y (x0 ) = y~0
~y (0) = y~0
Beispiel:
y10 = 2y1
y20 = 5y2
mit
y1 (0) = 1, y2 (0) = 4, y3 (0) = −1
y30 = 3y3

2
0 0


1









Matrixform: ~y =  0 −5 0  ~y mit ~y (0) =  4 




0
0 3
−1
Weil in jeder Gleichung nur eine unbekannte Funktion vorkommt, ist das System leicht lösbar.
Allgemeine Lösung: y1 = c1 e2x , y2 = c2 e−5x , y3 = c3 e3x


2x
y (0) = 1
⇒ c1 = 1
c e
 1
 1


~y (x) =  c2 e−5x  y2 (0) = 4
⇒ c2 = 4


c3 e3x
y3 (0) = −1 ⇒ c3 = −1
214
Spezielle (partikuläre) Lösungen:

e2x


~y (x) =  4e−5x

−e3x





Das System war insbesondere deshalb so leicht zu lösen, weil A Diagonalgestalt hatte.
Allgemeine Strategie: Versuche A durch eine geeignete Substitution für ~y auf Diagonalgestalt zu
bringen!
y1 (x) = p11 u1 (x) + . . . + p1n un (x)
y2 (x) = p21 u1 (x) + . . . + p2n un (x) ⇔ y~(x) = P · u~(x)
yn (x) = pn1 u1 (x) + . . . + pnn un (x)
Nach den Differentiationsregeln gilt dann: y~0 = P · u~0 .
Einsetzen in y~0 = A~y ergibt:
P ~u = AP u~0 ⇔ u~0 = (P −1 AP )~u
P soll also invertierbar sein. Ist A diagonalisierbar, dann gibt es eine Transformationsmatrix P
mit P −1 AP = D, also erhalten wir das neue Differentialgleichungsproblem:
u~0 (x) = D~u(x)
Lösungsverfahren für ỹ0 = Aỹ:
Schritt 1: Bestimme eine Matrix P , die A diagonalisiert.
Schritt 2: Führe die Substitution ~y = P ~u durch. Das führt auf ein neues System der Form
u~0 = D · ~u.
Schritt 3: Löse das System u~0 = D~u.
Schritt 4: Berechne ~y aus der Matrixgleichung ~y = P · ~u.
215
Schritt 4 kann auch folgend abgekürzt werden: Die Spalten der diagonalisierenden Matrix P sind
die EV x~i von A, D enthält in der Hauptdiagonale die Eigenwerte λi von A, damit:


c1 eλ1 x


..


~u(x) = 
 , P = (x~1 |x~2 | . . . |x~n )
.


λ
x
n
cn e


c1 eλ1 x


..


~y (x) = P · ~u(x) = (x~1 |x~2 | . . . |x~n ) 

.


cn eλn x
ỹ(x) = c1 x˜1 eλ1 x + . . . + cn x˜n eλn x
Allgemeine Lösung
Berücksichtigung der Anfangsbedingungen:
~y (0) = y~0
P ~u(0) = y~0
 |{z}

c1


 . 
P ·  ..  = y~0 ⇔ P · ~c = y~0 ⇔ c̃ = P−1 y˜0


cn
| {z }
=:~c
Damit: Das Anfangswertproblem y~0 = A~y , ~y (0) = y~0 mit diagonalisierbarem A hat als Lösung:
ỹ(x) = c1 x1 e˜λ1 x + . . . + cn x˜n eλn x mit c̃ := (c1 , c2 , . . . , cn )t = P−1 y˜0 .
Bemerkung:
1. Beachte, daß man die Differentialgleichung rein algebraisch, ohne irgendeine Integration
gelöst hat.
2. Ist A nicht diagonalisierbar, versucht man mittels ~y = P · ~u auf eine Dreiecksgestalt zu
kommen (A triangulieren) und löst das neue System y~0 = D~u durch Rückwärtseinsetzen
(→ Kapitel 22).
Ist A auch nicht triangulierbar, dann geht es mit der Jordanschen Normalform (→ Kapitel
23).
3. Homogene Differentialgleichungen höherer Ordnung können durch
y1 = y, y2 = y 0 , y3 = y 00 , . . . auf ein System von Differentialgleichungen erster Ordnung
zurückgeführt werden (siehe Beispiel).
216
Die Matrix eAx
Die Exponentialfunktion y = eax ist wegen der Differentiationsregel y 0 = aeax Lösung der Differentialgleichung y 0 = ay. Es gibt eine schöne Analogie, dies auf Differentialgleichungssysteme
zu verallgemeinern.
Es gilt bekanntlich:
ex =
P∞ 1 i
xi
i=0 i! =
i=0 i! x
P∞ (ax)i P∞ 1
i
i=0 i! (ax)
i=0 i! =
P∞
eax =
Davon inspiriert, setzt man:
eAx :=
∞
X
I
(Ax)2 (Ax)3
(Ax)i = In + Ax +
+
+ . . . ∈ M(n × n, IR)
i!
2!
3!
i=0
Unter geeigneten Voraussetzungen konvergiert diese Potenzreihe aus Matrizen (→ Höhere Lineare Algebra).
Zahl a ↔ n × n − Matrix A
1 ↔ In






4 −5
6
−5
14
−15
 ⇒ A2 = 
 , A3 = 
...
Beispiel: A = 
2 −3
2 −1
6 −7








6 −5
14 −15
1 0
4 −5
 + x3 
 + ...
+x·
 + x2 
eAx = 
2!
3!
2 −1
6 −7
0 1
2 −3
 


f11 (x) f12 (x)
1 + 4x + 3x2 − 38 x3 + . . . −5x − 25 x2 − 25 x3 + . . .
=
,
=
2
2x + x2 + x3 + . . . 1 − 3x − x2 + 76 x3 + . . .
f21 (x) f22 (x)
wobei fij (x) die Grenzfunktionen der entsprechenden Potenzreihen sind (allerdings sind sie oft
nicht leicht angebbar).
Vereinbarungsgemäß wird die Matrix eAx differenziert, indem man jede Eintragung differenziert.
Wegen der Differentiationsregeln gilt dann:
0
2
3 ·3x2
eAx = A + A 2!·2x + A 3!
+ ... =
A2 ·x2
Ax
A · I + Ax
1! + 2! + . . . = A · e , also
0
eAx = A · eAx ↔ (eax )0 = aeax .
217
Berechnung von eAx für diagonalisierbare Matrizen A:
1. Mittels der Diagonalmatrix D
Ist A diagonalisierbar ⇒ ∃P : P −1 AP = D mit


λ1
0


..


D = 
 ⇒ A = P DP −1 ⇒ A2 = P DP −1 , A3 = P D3 P −1 , . . . ⇒
.


0
λn


eλ1 x
0


..

 −1
eAx = P · 
 P = PeDx P−1 mit P = (x˜1 | . . . |x˜n )
.


λ
x
n
0
e
wobei
x~1 , . . . x~n die EV von A zu den EW λ1 , . . . , λn sind.
Denn ist D = diag(λ1 , . . . , λn ) ⇒

eDx = I + Dx +
D 2 x2
2!
1 + λ1 x +
1 2 2
2! λ1 x


+ . . . =

+ ...
..

.
1 + λn x +

eDx
eλ1 x
0
..
.


=

0
eλn x



Also: A = PDP−1 ⇒ eAx = PeDx P−1 = P 



⇒

1 2 2
2! λn x
+ ...






eλ1 x
..
.
eλn x

 −1
p .

2. Mittels Spektralsatz: Ist A = λ1 P1 + . . . + λr Pr ⇒ eAx = eλ1 x P1 + . . . + eλn x Pn .
(siehe Beispiel unten)
3. Ist A nicht diagonalisierbar, dann muß man die Funktionen in eAx “erraten” oder durch
die Jordan’sche Normalform berechnen (→ Höhere Lineare Algebra).
Für die Exponentialmatrix gilt:
eAx ist immer regulär und (eAx )−1 = e−Ax , det(eAx ) = esp(Ax) .
(eAx )0 = AeAx
218
Beweis für diagonalisierbare Matrizen A (beachte, daß eAx ∼2 eDx ist):
λ1 x
e
0
.
Ax
..
|e | = = eλ1 x · eλ2 x · . . . · eλn x = eλ1 x+...+λn x = esp(Ax) 6= 0
λ
x
n
0
e
Zusammenfassung:
Die
Differenzengleichung
yk+1
~ = A · y~k ; y~0
Differentialgleichung
y~(x) 0 = A · y~(x) ; ~y (0) = y~0
hat die Lösung
y~k = Ak · y~0
A = P DP −1
y~(x) = eAx · y~0
Ist A diagonalisierbar


λ1
0


..


mit D = 
 , P = (x~1 | . . . |x~n )
.


0
λn
:
wobei x~i EV zum EW λi von A ist,
dann kann die Lösung als Linearkombination der EV geschrieben werden:
y~k = c1 λk1 x~1 + . . . + cn λkn x~n
~y (x) = c1 eλ1 t x~1 + . . . + cn eλn t x~n
mit
~c = (c1 , . . . , cn ) = P −1 y~0 ⇔ P · ~c = y~0
Beispiel: Berechnung von eAx :






0 1
0 −1
0 1
y 0 = y2


y ⇔ 1
A=
A∗ = 
~y 0 = 
−1 0
1
0
−1 0
y20 = −y1


 



 

0 1
0 −1
1 0
0 −1
0 1
1 0

=
 , A∗ A 

=

AA∗ = 
−1 0
1
0
0 1
1
0
−1 0
0 1
Das reelle A ist normal
(aber nicht symmetrisch) ⇔ A ist in CI diagonalisierbar.
−x
1 = x2 + 1
pA (X) = −1 −x λ1 = i
λ2 = −i
219
Damit ist:

1
−ix + y = 0 ix + y = 0 P = 
x = 1y = i
1
P −1 =
x~2 = −i
x = 1y = i
x~1 1i
1
i −i

1
−2i


|P | = −i − i = −2i

−i −1
−i
1


=
1
2i

i
1
i −1

=

1
2

1 −i
1
i


Berechnung
von 
eAx




 mittels Diagonalisierungsformel:


ix
ix
ix
1
1
e
−ie
e
0
1 −i
1
1
· 1 = 1



=
eAx = 
2
2
−ix
ix
−ix
0 e
1
i
i −i
i −i
e
ie

 

eix + e−ix −ieix + ie−ix
cos x sin x
=
 nach der Eulerschen Formel:
= 21 
ieix − ie−ix
eix + e−ix
− sin x cos x


−ix
ix

ie
= i cos x + sin x 
e = cos x + i sin x
+
+
−ieix = −i cos x + sin x 
e−ix = cos x − i sin x 
{z
} |
{z
}
|
2 cos x
2 sin x
Damit:

cos x
~y = eAx y~0 = 
sin x
− sin x cos x
y1 = c1 · cos x + c2 · sin x


c1
c2


y1 = −c1 · sin x + c2 · cos x
Berechnung von eAx mittels Spektralsatz:

P1 =
A = λ 1 P1 + λ 2 P2
eAx = eλ1 x P1 + eλ2 x P2

eAx = 12 eix · 
1
−i
i +1


cos x sin x

=
− sin x cos x

P2 =

 + 1 e−ix 
2
1 1
2 i
· (1, i) =
1
1
2 −i
1
1
2

· (1 − i) =
+i
−i +1

=
1
2
1
2
1 −i
i


1
1


i
−i 1



eix + e−ix
−ieix + ie−ix

ieix − ie−ix
+eix − e−ix
Die Orthogonalprojektionen wurden mittels des äußeren Produktes berechnet
(Achtung: ON–Basis benützen und 2. Faktor konjugiert–komplex nehmen).

=
220
22 Triangulieren
Wie wir im vorhergehenden Kapitel gesehen haben, braucht ein linearer Operator T auf einem
endlich–dimensionalen Vektorraum keine Diagonalmatrixdarstellung zu besitzen. Dies ist unter
anderem nur dann möglich, wenn er “genug” Eigenvektoren hat, d.h., wenn es eine Basis des
Vektorraumes aus Eigenvektoren von T gibt. Hat man zu “wenig” Eigenvektoren, gibt es andere
einfache Darstellungsformen, wie z.B. Dreiecksmatrizen.
Einen Operator bzw. eine Matrix triangulieren heißt, ihn bzw. sie auf eine Dreiecksmatrix
(trianguläre Matrix) zu “bringen”, d.h., eine solche Basis B des Vektorraumes bzw. eine solche
reguläre Matrix P zu finden, daß
[T ]B bzw. P −1 AP
eine (obere) Dreiecksmatrix ist.
Eine notwendige Bedingung für die Triangulierung von T bzw. A ist wie im Fall der Diagonalisierung, daß alle Nullstellen des charakteristischen Polynoms PT (X), also die EW von T bzw.
A im zugrundeliegenden

a11 a12



a22
Sei [T ]B = 



Skalarkörper
 K liegen:
. . . a1n


. . . a2n 


..

.

ann
Dann gilt für das charakteristische Polynom
a12
...
a1n
a11 − X
a22 − X . . .
a2n
PT (X) = ..
.
ann − X
= (a11 − X)(a22 − X) . . . (ann − X).
Es zerfällt also in Linearfaktoren. Wenn das nicht der Fall ist, ist T nicht mehr triangulierbar
(auch nicht diagonalisierbar). Im SCHURschen Lemma wird gezeigt, daß das Zerfallen in
Linearpolynome für die Triangulierung bereits hinreichend ist. In K = CI ist dies immer der
Fall, nicht jedoch in K = IR. In der Algebra wird gezeigt, daß es zu jedem Körper K einen
solchen gibt, in dem jeder Polynom über K in Linearfaktoren zerfällt, so daß also trianguliert
werden kann. Der Triangulierungssatz stellt also einen wichtigen Fall dar.
221
1. Dreiecksmatrizen
Definition 22.1
(i) Ein linearer Operator T : V → V heißt triangulierbar, wenn es in V
eine Basis B gibt, bezüglich der T durch eine Dreiecksmatrix


a11 a12 . . . a1n





a22 . . . a2n 


[T ]B = 

..


.


ann
dargestellt werden kann.
(ii) Eine n × n−Matrix A heißt triangulierbar, wenn es eine reguläre Matrix P gibt, sodaß
P −1 AP eine Dreiecksmatrix ist.
Also: A triangulierbar ⇔ A ist ähnlich zu einer Dreiecksmatrix.
Beachte: Die EW von T bzw. A sind genau die Elemente in der Hauptdiagonale der Dreiecksmatrix.
Satz 22.1 Triangulierungssatz
(i) Abbildungstheoretische Form:
V sei ein beliebiger Vektorraum über dem Körper K und T : V → V ein linearer Operator. Jeder lineare Operator T : V → V , dessen charakteristisches Polynom in K[X] in
Linearfaktoren zerfällt, ist über K triangulierbar.
(ii) Matrizentheoretische Form:
Jede quadratische Matrix A über dem Körper K, deren charakteristisches Polynom in K[X]
in Linearfaktoren zerfällt, ist über K triangulierbar.
Der Beweis liefert auch das Verfahren zur Triangulation:
Das charakteristische Polynom zerfällt in Linearfaktoren ⇒ PA (X) = (λ1 − X) . . . (λn − X), also
sind λ1 , . . . , λn die EW von A (jeder sooft gezählt, wie die algebraische Vielfachheit angibt).
222
1. Schritt: x˜1 sei EV von A zu λ1 .
Wir nehmen x~1 als 1. Spalte einer regulären n × n−Matrix Q1 :
Q1 := (x~1 |s2 | . . . |s~n ) ∈ K n·n regulär ⇒
(s~2 , . . . , s~n sind also so zu wählen, daß |Q1 | =
6 0)
AQ1 = (Ax~1 |As~2 | . . . As~n ) = (λ1 x~1 |As~2 | . . . |As~n )
Q−1 AQ1 = (λ1 Q−1 x~1 | . . . |Q−1 As~n ) = (λ1 e~1 | . . . | . . .),
denn Q−1 Q = In = (e~1 |e~2 | . . . |e~n ).
Also ist:


Q−1
1 AQ1 =
λ1 B1
0
A1

 , wobei A1 eine (n − 1) × (n − 1) Matrix ist.
Nun haben Q−1
1 AQ1 und A dieselben EW, weil diese Ähnlichkeitsinvarianten sind.
Wegen |Q−1
1 AQ1 − XIn | = (λ1 − X)|A1 − XIn−1 | folgt, daß λ2 , . . . , λn auch die EW der
(n − 1) × (n − 1) Matrix A1 sind.
Dasselbe Verfahren wie für A wenden wir nun auf A1 an:
2. Schritt: x˜2 sei ein EV von A1 zu λ2 .
Wir nehmen nun x~2 als 1. Spalte einer regulären (n − 1) × (n − 1)−Matrix Q2 (die übrigen
Spalten sind wieder so zu wählen, daß |Q2 | =
6 0). Wie oben folgt:


λ B2
 2
 , wobei A2 eine (n − 2) × (n − 2) Matrix ist.
Q−1
1 AQ1 =
0 A2
Das Verfahren wird solange fortgesetzt, bis An−1 = (λn ) eine (1 × 1)−Matrix ist.
Nach höchstens n − 1 Schritten erhält man also für





I1 0
I
0
I
0
 2
 . . .  n−2
,
Q := Q1 · 
0 Q2
0 Q3
0
Qn−1

λ1


Q−1 AQ = 

%
..
0



.

.
λn
Ij j − te Einheitsmatrix
223
Beispiel: Bestimme eine reguläre Matrix Q derart, daß Q−1 AQ triangulär ist.


9 −1
8 −9




 6 −1
5 −5 

A=


 −5
1 −4
5 


4
0
5 −4
1. PA (X) = (X 2 − 1)(X 2 − 4) = (X − 1)(X + 1)(X − 2)(X + 2) zerfällt in Linearfaktoren
⇒ A ist über IR triangulierbar.
λ1 = 1, λ2 = −1, λ3 = 2, λ4 = −4
(alle EW sind verschieden ⇒ A wäre sogar diagonalisierbar).
2. x~1 = (5, 5, −1, 3)t ist EV zu λ1 = 1.


5 0 0 0



 5 1 0 0
Q= 

 −1 0 1 0

3 0 0 1








5 −1
8 −9

 





0
0
−15
20
1
B
1
1
=

Q−1
1 AQ = 5 

 0
4 −12 16 
0 A1


0
3
1
7
3. λ2 = −1 ist EW von A1 mit x~2 = (4, 0, −1)t als EV.






−20 −15 20
4 0 0




−1 B2
1 




Q2 :=  0 1 0  ⇒ Q−1

0 −48 64  = 
2 A1 Q2 =
20 



0 A2
0 −11 48
−1 0 1
4. λ3 = 2 ist EW von A2 mit x~3 = (8, 11)t als EV.




8 0
2 2/5
 ⇒ Q−1

 ist bereits triangulär.
Q3 := 
3 A2 Q3 =
11 1
0 −2


5. Q := Q1 · 
I1
0
0
Q2


I2
0
5
0 0


 5
0
4 0
=

 −1
Q3
0 8

3 −1 11

0



0 


0 

1
224

1
1 −7 −9/5


 0 −1
−1
6. Probe: Q AQ = 

 0
0

0
0
5
2
0



1 
.

2/5 

−2
Mit MATHEMATICA wird die Dreiecksmatrix allerdings mit anderer Zeilenfolge ausgegeben:
a={{9,-1,8,-9},{6,-1,5,-5},{-5,1,-4,5},{4,0,5,-4}};
a//MatrixForm


9 −1
8 −9




 6 −1
5 −5 




 −5
1 −4
5 


4
0
4 −4
{p,s}=Chop[SchurDecomposition[a]];
(* Transformationsmatrix p *)
p//MatrixForm


−0.730297 −0.19518
0.654654 0




 −0.547723
0.58554 −0.436436 0.408248 




 0.365148
0.09759
0.436436 0.816497 


−0.182574 −0.78072 −0.436436 0.408248
(* Schur’sche Normalform *)
s//MatrixForm


2 −6.94879 −18.8049 −3.42864




 0
−2
−3.42864 −1.51396 




 0
0
−1
−0.534522 


0
0
0
1
(* Probe *)
Chop[Inverse[p].a.p]==s
True
225
Spezialfall: In C[X]
I
zerfällt jedes Polynom, daher gilt:
Satz 22.2 SCHUR’sches Lemma
Jede komplexe n × n−Matrix ist über CI stets triangulierbar.
Allgemein:
Jede n × n−Matrix über einem algebraisch abgeschlossenen Körper K ist über diesen stets triangulierbar.
Theoretische Anwendung:
Satz 22.3 Spur und Determinante
(i) Die Spur einer Matrix ist die Summe ihrer Eigenwerte.
(ii) Die Determinante einer Matrix ist das Produkt ihrer Eigenwerte.
Beweis: Im algebraischen Abschluß ist eine Matrix ähnlich zu einer Dreiecksmatrix. Da die
EW, sp(A) und det(A) Ähnlichkeitsinvarianten sind, und die EW einer Dreiecksmatrix ihre
Diagonalelemente, gilt:
sp(A) = a11 + . . . + ann = λ1 + . . . + λn
det(A) = a11 · . . . · ann = λ1 · . . . · λn
226
23 Blockdiagonalisieren
In Kapitel 21 hatten wir gesehen, daß Diagonalformen sehr nützlich sind. Was ist die nächstbeste
Form nach einer Diagonalmatrix D = diag(λ1 , . . . , λn )? Eine Möglichkeit ist: Statt der Skalare
λi stehen in der Hauptdiagonale quadratische Blockmatrizen Ai .

A1 O . . . O


 O A2 . . . O
n × n − Blockdiagonalmatrix = M = 
 ..
..
..
 .
.
.

O
Die Ai sind (si × si )−Matrizen mit
Pr
i=1 si
O




 = diag(A1 , . . . , Ar )



. . . Ar
= n, O ist eine entsprechende Nullmatrix.
Manche Blockdiagonalmatrizen werden sich als Dreieicksmatrizen erweisen, nämlich dann, wenn
die Ai Dreiecksmatrizen sind.
Ein Operator T : V → V erwies sich genau dann als diagonalisierbar, wenn V die direkte der
Eigenräume Eλ war: V = Eλ1 ⊕ . . . ⊕ Eλr , wobei λ1 , . . . , λr die verschiedenen EW von T sind.
Für diese Eigenräume gilt: T (Eλ ) ⊆ Eλ , Eλ ist also T −invariant, d.h., mit x ∈ Eλ ist auch
T (x) ∈ Eλ , denn:
Ist x ∈ Eλ ⇒ x = k1 b1 + . . . + km bm , wobei (b1 , . . . , bm ) eine Basis von Eλ sei.
Dann ist T (x) = k1 T (b1 ) + . . . + km T (bm ) = k1 λb1 + . . . + km λbm = λ(k1 b1 + . . . + km bm ) ∈ Eλ .
Allgemein wird sich zeigen: T : V → V läßt sich genau dann durch eine Blockdiagonalmatrix
darstellen, wenn V direkte Summe von T −invarianten Teilräumen Wi C V ist. Die Kunst wird
sein, solche T −invarianten Teilräume zu finden.
23.1 Allgemeines Blockdiagonalisieren
Definition 23.1 T : V → V sei ein linearer Operator und W C V ein Teilraum von V .
(i) W heißt ein T–invarianter Teilraum von T , wenn T (W ) ⊆ W . Dann ist die Einschränkung T /W : W → W ein linearer Operator auf W : (T /W )(w) = T (w)∀w ∈ W .
(ii) V sei direkte Summe der T −invarianten Teilräume Wi und Ti := T /Wi . V = W1 ⊕. . .⊕Wr
oder T wird direkt zerlegt in die Operatoren Ti : T := T1 ⊕ . . . ⊕ Tr .
Man sagt auch: Die T −invarianten Teilräume Wi reduzieren T .
227
Beispiel: Die Eigenräume Eλ von T sind T −invariant.
Beispiel: T : IR3 → IR3 sei die Rotation um den Winkel ϕ um die z−Achse.
W = x − y−Ebene ist T −invariant.
U = z−Achse ist T −invariant.
T /W dreht jeden Vektor um den Ursprung um ϕ.
T /U = idU .
Satz 23.1 Invariante Teilräume
T : V → V sei ein linearer Operator und f (x) ein Polynom aus K[X]. Folgende Teilräume von
V sind T −invariant:
(i) W = {0},
(ii) W = V,
(iv) W = im(T ),
(v) ker f (T ),
(iii) W = ker(T ),
(vi) W = ∩Wi , wobei die Wi T − invariant sind.
Beweis von (v): f (T ) = a0 I + a1 T + a2 T 2 + . . . + an T n .
Sei x ∈ ker f (T ) ⇒ f (T )(x) = 0. Wir zeigen: T (x) ∈ ker f (T ). Grundsätzlich ist f (X) · X =
X · f (X) ⇒ f (T ) ◦ T = T ◦ f (T ) ⇒ f (T )(T (a)) = a0 T (x) + a1 T (T (x)) + . . . + an T n (T (x)) =
T ◦ (a0 I(x) + a1 T (x) + . . . + an T n (x)) = T ◦ f (T )(x) = T (0) = 0.
Beachte: ◦ ist für lineare Operatoren auch rechtsdistributiv.
Wir benutzen folgende Basiseigenschaft: V ist direkte Summe der Wi genau dann, wenn die
Vereinigung der Basen von Wi wieder eine Basis von V ist.
Satz 23.2 Blockdiagonalmatrixdarstellung
T : V → V sei ein linearer Operator und V die direkte Summe der T −invarianten Teilräume
W1 , . . . , Wr . Ist Ai die Matrixdarstellung der Einschränkung T /Wi bezüglich der Basis Bi von
Wi , dann ist die Matrixdarstellung von T bezüglich der Basis B = B1 ∪ . . . ∪ Br gegeben durch


A1 O . . . O




 O A2 . . . O 


[T ]B =  .

 ..



O O . . . Ar
228

Also: [T ]B1 ∪B2 ...∪Br
[T /W1 ]B1
O
O
..
.
[T /W2 ]B2
..
.



=



...
O
O








O
...
. . . [T /Wr ]Br
Man sagt auch: [T ]B ist die direkte Summe der Matrizen A1 , A2 , . . . , Ar und schreibt
[T]B = A1 ⊕ A2 ⊕ . . . ⊕ Ar .
Beweis für zwei T −invariante Teilräume:
V = U ⊕ W und T (U ) ⊆ U, T (W ) ⊆ W.
B1 = (u1 , . . . , uk ) sei Basis von U und (w1 , . . . , wl ) Basis von W .
T1 := T /U und T2 := T /W . Dann gilt:
0
a1k uk
B
..
B
⇒ [T1 ]B1 = A1 = B
.
@
T1 (uk ) = ak1 u1 + . . . + akk uk
0
T2 (w1 ) = b11 w1 + . . . + b1l wl
B
..
..
..
B
=
A
=
⇒
[T
]
B
2
B
2
.
.
.
@
T2 (wl ) = bk1 w1 + . . . + bll wl
T1 (u1 )
..
.
=
a11 u1
..
.
+...+
a11
..
.
...
a1k
...
b11
..
.
...
b1l
...
ak1
1
C
C
C
A
akk
1
bl1
C
C
C = A2
A
bll
B1 ∪ B2 = (u1 , . . . , uk , w1 , . . . , wl ) ist Basis von V .

⇒ [T ]B = 
T (u1 )
..
.
=
T1 (u1 )
..
.
=
a11 u1
..
.
+...+
a1k uk + 0w1
+...+
0wk
..
.
T (uk )
=
T1 (uk )
=
ak1 u1
+...+
akk uk + 0w1
+...+
0wk
T (w1 )
..
.
=
T2 (w1 )
..
.
=
0u1
..
.
+...+
0uk + b11 w1
+...+
b1l wl
..
.
T (wk )
=
T2 (wl )
=
0u1
+...+
0ul + bl1 w1
+...+
bll wl
[T1 ]B1
O


=
A1
O


O
[T2 ]B2
O A2
Man schreibt: [T ]B = A ⊕ B und T = T1 ⊕ T2 .
Solche T −invariante Teilräume Wi von V , die V direkt zerlegen, erhält man nach dem folgenden
Hauptzerlegungssatz aus dem Minimalpolynom von T :
Satz 23.3 Hauptzerlegungssatz
T : V → V sei ein linearer Operator mit dem Minimalpolynom
mT (X) = p1 (X)t1 p2 (X)t2 . . . pr (X)tr ,
229
wobei die p1 , . . . , pr verschiedene, irreduzible Polynome sind.
Wi sei der Nullraum der Abbildung pi (T )ti .
Wi := ker(pi (T)ti )
i = 1, . . . , r
Dann gilt:
(i) Jedes Wi ist ein T −invarianter Teilraum von V
(ii) V = W1 ⊕ . . . ⊕ Wr
(iii) pi (X)ti ist das Minimalpolynom der Einschränkung von T auf Wi :
mT /Wi = pi (X)ti
Ohne Beweis. 
2 1 0


Beispiel: A =  −3 0

3 1
3
2
pA (X) = X − 3X +5X



0 

1
2
−
3 = (X − 1)(X − 2X + 3) = mA
0
 
 
U1 = ker(A − I) =<  0  >
 
1

1
 
0
  
  
U2 = ker(A2 − 2A + 3I) =<  0  ,  1
  
0
−1
V = U1 ⊕ U2     

0
1
0



>


0 1
0




    
    



Basis B =  0  ,  0  ,  1  ⇒ P =  0 0
1 .
    



1
0
−1
1 0 −1




1
0 0


2
1



Mit diesem P gilt P −1 AP =  0
2 1  ⇒ A = A⊕ A2 mit A1 = (1), A2 = 


−3 0
0 −3 0
Es kommt also auf die Berechnung des Minimalpolynoms an:
Algorithmus zur Berechnung des Minimalpolynoms mA aus dem charakteristischen
Polynom pA :
230
1. Zerlege pA (X) in irreduzible Faktoren (schwierig; in Mathematica z.B. mit Factor[p])
pA (X) = p1 (X)t1 . . . pr (X)tr
2. Starte bei p1 (X) . . . pr (X) und prüfe, ob A Nullstelle ist. Falls ja, dann ist
mA = p1 (X) . . . pr (X).
Wenn nicht, probiere, ob A eine Nullstelle von p21 (X)p2 . . . pr usw.
Damit: Sind alle irreduziblen Faktoren von pA (X) verschieden, dann ist mA (X) = pA (X).
Zwei Spezialfälle
1. T sei ein nilpotenter Operator vom Index k, d.h. T k = 0, aber T k−1 6= 0.
Das Minimalpolynom ist mT (X) = X k und 0 daher sein einziger EW.
Satz 23.4 Blockdiagonalzerlegung von nilpotenten Operatoren
T : V → V sei ein nilpotenter Operator vom Index k bzw. A eine quadratische, nilpotente
n × n−Matrix vom Index k.
Dann hat T eine blockdiagonale Matrixdarstellung, deren Diagonalblöcke N von der Form


0 1 0 ... 0 0




 0 0 1 ... 0 0 




N =  .................. 




 0 0 0 ... 0 1 


0 0 0 ... 0 0
sind. Es gibt mindestens eine (k × k)−Block, alle anderen Blöcke haben Dimensionen ≤ k.
Die Gesamtanzahl der Blöcke = def (T ).
Die Anzahl der Blöcke der Dimension mi ist gegeben durch
2mi − mi+1 − mi−1 wobei mi = def (T i ).
Beachte: Jeder Block ist selbst nilpotent von einem Index, der gleich seiner Dimension ist.
Beachte: Obige Blockdiagonalzerlegung ist sogar triangulär.




0 0 1 1 1
0 1 1 0 1








 0 0 0 0 0 
 0 0 1 1 1 








Beispiel: A =  0 0 0 0 0  , A2 =  0 0 0 0 0  , A3 = O








 0 0 0 0 0 
 0 0 0 0 0 




0 0 0 0 0
0 0 0 0 0
231
A ist nilpotent vom Index 3. Die
Matrixdarstellung M enthält mindestens einen

 blockdiagonale
0 1 0




Block der Dimension 3: N =  0 0 1  und keinen größeren.


0 0 0
Wegen rg(A) = 2 ist def (A) = 5 − 2 = 3, daher enthält M 3 diagonale Blöcke ⇒
M enthält einen (3 × 3)−Block und zwei (1 × 1)−Blöcke. Eine andere Konstellation ist nicht
möglich.


0 1 0


 0 0 1
A ∼2 M = 


0




.



0
Die blockdiagonalisierende Matrix P mit P −1 AP = M erhält man am besten mittels eines
unbestimmten Ansatzes:
Wir bestimmen eine Basis B = (b~1 , b~2 , b~3 , b~4 , b~5 ) des K 5 , bezüglich der die Matrixdarstellung
[T ]B = M ist. Nach Definition der Matrixdarstellung (Spalten = Koordinaten der Bilder der
Basisvektoren) gilt auf Grund der Gestalt von M :
A(b~1 ) = Ab~1 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~1 ∈ ker(A)
A(b~2 ) = Ab~2 = 1 · b~1 + . . . + 0 · b~5 = b~1 ⇒ b~2 ist Lösung von A~x = b~1
A(b~3 ) = Ab~3 = 1 · b~2 + . . . + 0 · b~5 = b~2 ⇒ b~3 ist Lösung von A~x = b~2
A(b~4 ) = Ab~4 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~4 ∈ ker(A)
A(b~5 ) = Ab~5 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~5 ∈ ker(A)
b~1 , b~4 , b~4 sind also die Basisvektoren vom Nullraum von A:
NullSpace[A] =< (0, 0, −1, 0, 1)t , (0, 1, −1, 1, 0), (1, 0, 0, 0, 0) >
Durch Probieren wählen wir b~1 , b~4 , b~5 so, daß die obigen LGS A~x = b~1 und A~x = b~z lösbar
sind. Die natürliche Reihenfolge liefert keine Lösung, aber:
b~1 = (1.0.0.0.0)t , b~4 = (0, 1, −1, 1, 0)t ; b~5 = (0, 0, −1, 0, 1)t
b~2 = LinearSolve[A, b~1 ] = (0, 1, 0, 0, 0)t
b~3 = LinearSolve[A, b~2 ] = (0, −1, 1, 0, 0)t
232
P ist die Übergangsmatrix von der Standardbasis zu B, also


1 0
0
0
0




 0 1 −1
1
0 




P = 0 0
1 −1 −1 




 0 0
0
1
0 


0 0
0
0
1
Probe: P −1 AP = M .
2. Ein orthogonaler Operator T ist zwar stets ein normaler Operator, aber in der Regel nicht
symmetrisch, so daß er zwar über CI diagonalisierbar ist, nicht jedoch über IR. Über IR gibt es
aber folgende andere einfache Darstellung:
Satz 23.5 Blockdiagonaldarstellung orthogonaler Operatoren über IR
Es sei T : V → V ein orthogonaler Operator auf einem reellen Skalarproduktraum. Dann gibt
es eine ON–Basis B von V , bezüglich der T folgende Matrixdarstellung besitzt:

1


..
.




1



−1


..

.


[T ]B = 
−1



cos ϕ1 − sin ϕ1



sin ϕ1
cos ϕ1



..
.




cos ϕr − sin ϕr

sin ϕr
cos ϕr






























ohne Beweis.
Bemerkung: Die (2 × 2)−Blöcke entsprechen den komplexen EW λi = cos ϕ + sin ϕ von T
(diese müssen Betrag 1 haben).
233
23.2 JORDAN’scher Normalformensatz
Die letzten Sätze zeigen, daß die Blockdiagonalform eines nilpotenten bzw. orthogonalen Operators sehr viele Nullen und Einser enthält. Das bestmöglichste Resultat, das man in diese Hinsicht für einen beliebigen Operator erreichen kann, ist die JORDAN’sche Normalform (Camille
Jordan, 1838-1922). Notwendig und hinreichend dafür ist, daß sowohl das charakteristische Polynom, als auch das Minimalpolynom des Operators (der Matrix) in Linearfaktoren zerfallen.
Über CI ist das (zumindest theoretisch) stets der Fall, so wie auch im algebraischen Abschluß eines
jeden Körpers. Man kann somit sagen, daß jeder Operator auf JORDAN’sche Normalform gebracht werden kann. Die Faktoren in den Zerlegungen des Minimal– und des charakteristischen
Polynoms geben über die Anzahl der Blöcke oft hinreichend Bescheid. Es ist aber schwierig, diese
Zerlegung in Linearfaktoren herzustellen. Hier hilft die Methode des unbestimmten Ansatzes
weiter. Auch Hilfe von verallgemeinerten Eigenvektoren kann man jene Transformationsmatrizen berechnen, die die Jordansche Normalform herstellen.
Satz 23.6 JORDAN’scher Normalformensatz
T : V → V sei ein linearer Operator, λ1 , . . . , λr seien seine verschiedenen EW. Das charakteristische bzw. das minimale Polynom mögen in Linearfaktoren zerfallen:
pT (X) = (X − λ1 )k1 (X − λ2 )k2 . . . (X − λr )kr
mT (X) = (X − λ1 )m1 (X − λ2 )m2 . . . (X − λr )r
Dann hat T eine blockdiagonale Matrixdarstellung J, deren Diagonalblöcke Jij zum EW λi
folgende Form besitzen:

λi
1
0 ...
0
0


 0 λi 1 . . . 0 0


Jij =  . . . . . . . . . . . . . . . . . . . . .


 0 0 0 . . . λi 1

0 0 0 . . . 0 λi






 = λi In + N, N nilpotent.




Jij ist ein Block, der zum i−ten Eigenwert λi gehört, er heißt JORDAN’scher Block. Die
JORDAN’schen Blöcke haben folgende Eigenschaften:
(i) Es gibt mindestens ein Jij der Dimension mi , alle anderen Blöcke haben eine Dimension
≤ mi .
234
(ii) Die Summe der Dimensionen aller Jij zu λi ist ki , die algebraische Vielfachheit von λi .
(iii) Die Anzahl gi der Jij ist gleich der geometrischen Vielfachheit von λi .
Die Anzahl der JORDAN’schen Blöcke jeder möglichen Dimension ist durch T eindeutig bestimmt.
Insgesamt ist:
J = diag(J11 , . . . , J1g1 , . . . , Jr1 , . . . , Jrgr ), wobei gi die geometrische Vielfachheit vom EW λi ist.
ohne Beweis.
Beachte: Jeder JORDAN’sche Block ist von der Form:
Jij = λIn + N
N nilpotenter Block aus (23.4)
und J selbst ist sogar von triangulärer Form.
Der Satz sagt also aus, daß jeder Operator T in eine Summe von solchen Operatoren zerlegt
werden kann, die selbst die Summe aus einem Vielfachen des identischen Operators und eines
nilpotenten Operators sind.
Die Gestalt λ In + N ermöglicht ein leichtes Berechnen von hohen Matrixpotenzen
(ohne Beweis):

...



 0
λn
...
n
Jij = 

 ...........................

0
0
0
λn







λn
n
1
λn−1
i
n n−2
2 λi
n n−1
1 λi
Die Aussagen (i), (ii), (iii) ermöglichen oft eine Bestimmung der Jordan’schen Normalform.
Beispiel: T : V → V sei ein linearer Operator mit
pT (X) = (X − 2)4 (X − 3)3
mT (X) = (X − 2)2 (X − 3)2
und
λ1 = 2, k1 = 4, m1 = 2
λ2 = 3, k2 = 3, m2 = 2
Für die Jordan’schen Blöcke gibt es folgende
 Möglichkeiten:

2 1

Zum EW λ1 gibt es einen (2 × 2)−Block: 
0 2


3 1

Zum EW λ2 gibt es einen (2 × 2)−Block:
0 3
235
Wegen k1 = 4 gibt es zwei (2 × 2)−Blöcke oder einen (2 × 2)−Block und zwei (1 × 1)−Blöcke
zu λ1 = 2.
Wegen k1 = 3 gibt es einen (2 × 2)−Block und einen (1 × 1)−Block zu λ2 = 3. Die Anzahl der
Blöcke hängt von der geometrischen Vielfachheit von λi ab:
Besitzt T zwei l.u. EV zu λ1 , dann gibt es zwei Blöcke zu λ1 = 2, also ist


2
1




 0 2







2 1





J =
0 1






3 1






0 1




3
Die Basis, bezüglich der [T ]B = J ist bzw. die blockdiagonalisierende Matrix P mit P −1 AP = J
findet man am bestem mit dem unbestimmten Ansatz:
Beispiel:
T : IR4 → IR4 mit T (x, y, z, u) = x + y + u, 2y, −x + y + 2z + u, −x + y + 3u)


1 1 0 1




 0 2 0 0 

=A
[T ]B = 

 −1 1 2 1 


−1 1 0 3
pT (X) = (X − 2)4
mT (X) = (X − 2)2 ⇒ k1 = 4, m1 = 2
geometrische Vielfachheit von λ = 2 ist 3. Damit sind folgende JORDAN’sche Formen möglich
(T ist übrigens nicht diagonalisierbar):
(4 × 4) = (2 × 2) + (1 × 1) + (1 × 1)
(4 × 4) = (2 × 2) + (1 × 1) + (2 × 2) scheidet aus, weil 3 Blöcke zu λ = 2 vorhanden sein müssen.
Die zwei (1 × 1)−Blöcke kann man verschieden anordnen:




2 1
2











 0 2
2 1




J1 = 

 J2 = 




2
0 2




2
2




J3 = 



2




2


2 1 

0 1
236
Wir bestimmen eine Basis B = (b~1 , b~2 , b~3 , b~4 ), für die [T ]B = J1 gilt:
Nach Definition der Matrixdarstellung muß gelten:
T (b~1 ) = 2b~1
⇒ b~1 ist EV von T zum EW λ = 2
T (b~2 ) = 1 · b~1 + 2b~2 ⇔ (T − 2I)b~2 = b~1 ⇔ b~2 ist Lösung von (T − 2I)~x = b~1
T (b~3 ) = 2b~3
⇒ b~3 ist EV von T zum EW λ = 2
T (b~4 ) = 2b~4
⇒ b~4 ist EV von T zum EW λ = 2
b~1 , b~3 , b~4 ∈ E2 , es ist dim(E2 ) = 3 = geometrische Vielfachheit von λ = 2.
Eigenvektor [a] =< (1, 0, 0, 1)t , (0, 0, 1, 0)t , (1, 1, 0, 0)t >.
Alle 3 Basisvektoren eignen sich nicht zur Lösung von (T − 2I4 )~x = b~1 .
Durch Probieren findet man, daß erst
b~1 = (1, 0, 0, 1)t + (0, 0, 1, 0)t = (1, 0, 1, 1)t ∈ E2
sich für die Lösung des LGS (T − 2I)~x = b~1 eignet.
b~2 = LinearSolve[a − 2IdentityMatrix[4], b~1 ] = (−1, 0, 0, 0)t .
b~3 = (1, 0, 0, 1)t
b~4 = (1, 1, 0, 0)t .

1 −1 1 1


 0
Damit ist P = 

 1

1



0 0 1 
 = {b~1 , b~2 , b~3 , b~4 }.

0 0 0 

0 1 0
Probe: J1 = Inverse[P ] · A · P .
Durch andere Anwendungen von b~1 , b~2 , b~3 , b~4 erhält man J2 bzw. J3 .
Statt des unbestimmten Ansatzes kann man auch verallgemeinerte EV benützen, um die
gewünschte Transformationsmatrix zu erhalten.
23.3 Verallgemeinerte Eigenvektoren
Im Falle der Nichtdiagonalisierbarkeit einer n × n−Matrix, wenn sie also mehrfache EW besitzt,
erhält man zu wenig (d.h., weniger als n) l.u. Eigenvektoren. Man behilft sich dann mit “verallgemeinerten Eigenvektoren” weiter, mit deren Hilfe Transformationsmatrizen P zur Erreichung
237
der JORDAN’schen Normalform konstruiert werden können. Diese verallgemeinerten EV sind
auch sonst noch von Nutzen.
Definition 23.2 Verallgemeinerter Eigenvektor
Ein vom Nullvektor verschiedener Vektor ~x ∈ K n heißt verallemeinerter Eigenvektor der
Matrix A ∈ K n·n vom Rang k zum Eigenvektor λ, wenn gilt:
(A − λI)k ~x = ~0 und (A − λI)k−1 ~x 6= ~0.
Im Falle eines linearen Operator T nimmt man zur Definition des veralgemeinerten EV x von
T dessen Darstellungsmatrix bezüglich irgendeiner Basis.
Bemerkung: Für k = 1 erhält man die übliche Definition des Eigenvektors. Diese sind also
verallgemeinerte EV vom Rang 1.
Mit einem solchen verallgemeinerten EV ~x bzw. x vom Rang k kann man folgende Menge von
k verallgemeinerten EV zum EW λ, genannt “Kette von verallgemeinerten EV zum EW
λ”, konstruieren:
xk := x, xk−1 := (A − λI)x = (A − λI)xk
xk−2 := (A − λI)2 x = (A − λI)xk−1
..
.
x1 := (A − λI)k−2 x = (A − λI)x3
x2 := (A − λI)k−1 x = (A − λI)x2
Durch Induktion nach i zeigt man, daß xi ein verallgemeinerter EV von A vom Rang i ist.
Außerdem erhält man so die zur Transformation auf JORDAN’sche Normalform notwendigen
l.u. Vektoren.
Satz 23.7 Lineare Unabhängigkeit verallgemeinerter EV
(i) Die von einem verallgemeinerten EV x zum EW λ vom Rang k erzeugte Kette
(x1 , x2 , . . . , xk ) von verallgemeinerten EV ist l.u.
(ii) Die Vereinigung von Ketten verallgemeinerter EV zu verschiedenen EW ist l.u.
Beweis von (i): Wir benützen für i = 1, . . . , l − 1: (A − λI)k−1 xi = (A − λI)k−1 (A − λI)k−i xk =
(A − λI)2k−(i+1) xk = 0 (weil (A − λI)k xk = (A − λI)k x = 0). Sei
l1 x1 + l2 x2 + . . . + lk xk = 0.
(32)
238
Durch Linksmultiplikation mit (A − λI)k−1 erhält man:
l1
(A − λI)k−1
|
{z
}
x1 + . . . + li
=(A−λI)2k−2 xk =0
(A − λI)k−1
|
{z
}
xi + . . . + lk (A − λI)k−1 xk = 0,
=(A−λI)2k−(i+1) xk =0
bleibt also nur lk (A − λI)k−1 xk = 0 übrig.
Weil aber (A − λI)k−1 xk 6= 0 ist, muß lk = 0 sein.
Analog erhält man durch Linksmultiplikation von (32) mit (A − λI)k−i , daß li = 0 ist für i = k, k − 1, . . . , 1.
Beweis von (ii): x sei verallgemeinerter EV von A vom Rang k zum EW λ mit Kette K1 = (x1 , x2 , . . . , xk ).
y sei verallgemeinerter EV von A vom Rang l zum EW µ mit Kette K2 = (y1 , y2 , . . . , yl ).
Nach (i) sind K1 , K2 l.u. Mengen. Wir zeigen: K1 ∪ K2 = (x1 , x2 , . . . , xk , y1 , y2 , . . . , yl ) ist ebenfalls l.u.
Indirekt: Sei xi l.a. von K2 = (y1 , y2 , . . . , yl ) ⇒ ∃ Skalare s1 , . . . , sl , nicht alle 0, mit:
xi = s1 y1 + . . . + si yi + . . . + sl yl = 0
(33)
Linksmultiplikation von (33) mit (A − λI)i ergibt wegen (A − λI)i xi = 0:
(A − λI)i xi = (A − λI)(s1 y1 + . . . + si yi + . . . + sl yl ) = 0
(34)
Linksmultiplikation von (34) mit (A − µI)l−1 ergibt, wenn man für i = 1, . . . , l − 1 berücksichtigt:
(A − µI)l−1 (A − λI)i yi = (A − λI)i (A − µI)l−1 yi = 0
nur mehr
sl (A − λI)i (A − µI)l−1 yl = 0
oder weil yl verallgemeinerter EV vom Rang l ist:
sl (A − λI)i yl = 0.
(35)
Nun ist (A − µI)yl = 0 gleichbedeutend mit Ayl = µyl , daher erhält man auf (35):
sl (µ − λ)i yl = 0.
(36)
Wegen µ 6= λ und yl 6= 0 folgt aus (36): sl = 0. So fortfahrend erhält man sl = sl−1 = . . . = si = . . . s1 = 0, ein
Widerspruch zu (33), d.h., jedes xi ∈ K1 ist von K2 l.u. Analog zeigt man, daß jedes yi ∈ K2 von K1 l.u. ist.
Somit ist K1 ∪ K2 l.u.
Beispiel: Berechne die JORDAN’sche Normalform von

1 1 0 1


 0 2 0 0
A=

 −1 1 2 1

−1 1 0 3








239
und bestimme die Transformationsmatrix P mit P −1 AP = J mittels verallgemeinerter EV.
Es ist PA (X) = (X − 2)4 , also gibt es nur einen EW λ = 2 mit der algebraischen Vielfachheit 4.
Wegen rg(A − 2I) = 1 = 4 = 3 gibt es nur 3 l.u. EV, also zu wenig für eine Basis.
Daher versuchen wir es mit verallgemeinerten EV zum EW λ = 2 vom Rang 2 (es ist
mA (x) = (X − 2)2 , also (A − 2I)2 x = 0), d.h., man sucht einen Vektor ~x mit (A − 2I)~x = 0 und
(A − 2I)2 ~x 6= 0.
Wegen mA (X) = x2 − 2 erfüllt jeder Vektor (A − 2I)2 ~x = 0, wir bestimmen ein solches x~2 , für
den (A − 2I)x~2 6= 0 ist, z.B. x~2 = (1, 0, 0, 0)t , dann ist x~1 := (A − 2I)x~2 = (−1, 0, −1, −1)t und
x~1 , x~2 sind 2 verallgemeinerte EV zum EW λ = 2.
Zusammen mit den EV x~3 = (1, 0, 0, 1)t und x~4 = (1, 1, 0, 0)t erhält man eine Basis
B = (x~1 , x~2 , x~3 , x~4 ) von K 4 und damit die reguläre Matrix

−1


 0
P = (x~1 |x~2 |x~3 |x~4 ) = 

 −1

−1

Mit P −1
0
0
1
0

1 1 1



0 0 1 


0 0 0 

0 1 0

2 1 0 0









 1 −1


0 −1 
0
2
0
0
−1



=J
=
 erhält man P AP = 

 0
 0 0 2 0 
0 −1
1 




0
1
0
0
0 0 0 2
23.4 Matrizenfunktionen
Sowohl bei den Differenzen–, als auch bei den Differentialgleichungen, haben wir gesehen, daß gewisse Funktionen von Matrizen, wie z.B. die Potenzfunktion Ak bzw. die Exponentialfunktion eAx
√
von Bedeutung sind. Generell benötigt man alle gängigen Funktionen (sin A, A, ln A, . . .) einer
Matrix A. Es gibt mehrere Methoden, solche Funktionen von Matrizen zu berechnen: mittels der
Polynomdivision, den Normalformen, den Interpolationsformeln oder mittels des Spektralsatzes.
1. Matrizenfunktionen mittels Polynomdivision
Setzt man eine quadratische Matrix A in ihr charakteristisches Polynom pA (X) ein, so erhält
man nach dem Satz von CAYLEY die Nullmatrix O : pA (A) = O∀A ∈ K n·n . Das heißt, die
240
Nullfunktion an “der Stelle A” kann durch ein Ersatzpolynom, nämlich das charakteristische
Polynom pA (X) dargestellt werden. Ähnliches gilt auch für andere Funktionen f (X).
Die einfachsten Funktionen nach der Potenzfunktion sind die Polynomfunktionen
p(X) = am X m + am−1 X m−1 + . . . + a0
am 6= 0.
Ist A eine quadratische n×n−Matrix, dann ist nach den Regeln einer Algebra die Polynommatrix
p(A) := am Am + am−1 Am−1 + . . . + a0 In
möglich. Ist m < n, dann berechnet man p(A) direkt nach den Matrixregeln.
Ist jedoch m ≥ n, dann kann die Berechnung von p(A) mittels des Satzes ?? über die Polynomdivision wesentlich vereinfacht werden. Es gilt dann, wenn pA (X) das charakteristische Polynom
von A bezeichnet:
p(X) = q(X) · pA (X) + r(X) mit [r(X)] < n
Nach dem Satz von CAYLEY gilt dann wegen pA (A) = O
p(A) = q(A) · pA (A) + r(A)
(37)
p(A) = r(A)
Beachte: Zur Berechnung von p(A) benötigt man höchstens Matrizpotenzen vom Grad ≤ n − 1.
Beispiel: p(X) = X 10 −10X 9 +23X 8 − X 3 + 11X 2 + X + 24
Berechne p(A) für A = 
5 2
1 5

2
Lösung: pA (X) = X − 10X + 23. Nach dem Divisionssatz gilt:
p(X) = (X 8 − X + 1)pA (X) +034X + 1.
1
Daher ist p(A) = 34A + I2 = @
A.
171
68
34
171
Ohne Beweis sei angegeben, daß die Beziehung (37) auch noch für andere Funktonen f (X) als
Polynomfunktion gilt:
f (X) = q(X) · pA (X) + r(X)
wobei r(X) = rn−1 X n−1 + . . . + r1 X + r0 ein Polynom höchstens (n − 1)−ten Grades ist.
Damit ist f (A) = q(A) · pA (A) + r(A) und wegen pA (A) = O gilt:
f (A) = r(A).
(38)
241
Die Matrixfunktion f(A) kann also durch ein Ersatzpolynom berechnet werden.
Die n Koeffizienten r0 , . . . , rn−1 des Restpolynoms r(X) erhält man aus (38), indem man die
EW λi einsetzt und berücksichtigt, daß pA (λi ) = 0 ist.
Sind alle EW verschieden, erhält man dadurch ein LGS für die unbekannten Koeffizienten
r0 , . . . , rn−1 von r(X):
r(λi ) = f (λi )
i = 1, . . . , n
(39)
Ist λi ein k−facher EW, dann gilt nach ??, daß nicht nur pA (λi ) = 0, sondern auch die Ableitung
bis zur (ki − 1)−ten Ordnung an der “Stelle” λi :
(k −1)
pA (λi ) = 0, p0A (λi ) = 0, . . . , pA i
(λi ) = 0
Dies liefert die Gleichungen (soferne die Ableitungen existieren)
r(λi ) = f (λi )
r0 (λi ) = f 0 (λi )
(40)
r(ki −1) (λi ) = f (ki −1) (λi ).
Da die Summe der algebraischen Vielfachheiten aller EW λi gleich n ist, erhält man also stets
n lineare Gleichungen für die unbekannten Koeffizienten
 r0 , rn, . . . , rn−1 von r(X).
5 2
 die Matrizen
Beispiele: Im folgenden werden für die Matrix A = 
1 5
eA , sin A, cos A, A−3 , ln A (mit eln A = A) berechnet.
242
243
Die Berechnungen von f (A) kann noch effizienter gestaltet werden, wenn man das Minimalpolynom mA (X) von A kennt und wenn dessen Grad kleiner als der des charakteristischen Polynoms
pA (X) ist. Da nach Satz 19.8 auch mA (A) = O und mA (λi ) = 0 ist, gilt dieselbe Schlußweise
wie oben.
Die Berechnung von mA (X) ist allerdings nicht leicht (siehe 19.2). Kennt man jedoch die
JORDAN’sche Normalform J von A, dann kann das Minimalpolynom mA (X) sofort angegeben
werden:
Sei λ1 , λ2 , . . . , λr die verschiedenen EW der n×n−Matrix A mit den algebraischen Vielfachheiten
P
k1 , k2 , . . . , kr ( ri=1 ki = n). Es ist dann bekanntlich
(−1)n pA (X) =
r
Y
(X − λi )ki
i=1
Definition 23.3 Index eines Eigenwertes
Der Index ki des EW λi ist die größte Dimension der zu λi gehörigen JORDAN–Blöcke.
Nach Satz 19.8 ist ki ≤ ki .
Beispiel: Die 7 × 7−Matrix A habe die JORDAN’sche Normalform









J =







5 1 0 0 0 0 0



0 5 1 0 0 0 0 


0 0 5 0 0 0 0 


0 0 0 5 1 0 0 


0 0 0 0 5 0 0 


0 0 0 0 0 2 1 

0 0 0 0 0 0 2
Es ist dann: λ1 = 5, k1 = 5, k1 = 3;
λ2 = 2, k2 = 2, k2 = 2
Satz 23.8 Produktdarstellung des Minimalpolynoms
Hat A die r verschiedenen EW λ1 , λ2 , . . . , λr mit Index k1 , k2 , . . . , kr , dann gilt für das Minimalpolynom
mA (X) =
r
Y
(X − λi )ki
i=1
244
2. Matrizenfunktionen mittels Interpolationspolynom
Das die Matrizenfunktion f (A) bestimmende Restpolynom r(X) kann auch durch die aus der
Analysis bekannten Interpolationspolynome bestimmt werden. So kann z.B. eine gegebene Funktion f (X) durch das LAGRANGE’sche Interpolationspolynom r(X) interpoliert werden (siehe
??):
r(X) =
n
X
f (xi ) ·
i=1
n
Y
X − xi
xj − xi
j=1
j6=n
Diese LAGRANGE’sche Formel kann auf Matrizen mit verschiedenen EW übertragen werden:
Satz 23.9 SYLVESTER’sche Interpolationsformel
Die quadratische n × n−Matrix A habe n verschiedene EW λ1 , λ2 , . . . , λn . Dann gilt:
f (A) =
n
X
i=1
f (λi )
n
Y
A − λi In
λj − λi
j=1
(41)
j6=i
Beweis: Nach Satz 20.21 ist A unter diesen Bedingungen diagonalisierbar. Es gibt also eine reguläre Matrix P mit
P −1 AP = D = diag(λ1 , . . . , λn ).
Für f (X) gilt:
P −1 f (A)P = f (D) = diag(f (λ1 ); . . . , f (λn )).
(42)
Multipliziert man (41) ebenfalls links mit P −1 und rechts mit P , so erhält man:
“P
Q A−λi I ”
P −1
P =
j λj −λi
i f (λi )
“
”
(A−λ1 I)(A−λ2 I)...(A−λi−1 I)(A−λi+1 I)...(A−λn I)
−1 Pn
=P
i=1 (λi −λ1 )(λi −λ2 )...(λi −λi−1 )(λi −λi+1 )...(λi −λn ) f (λi ) P =
P
(D−λ1 I)(D−λ2 I)...(D−λi−1 I)(D−λi+1 I)...(D−λn I)
f (λi ) =
= n
i=1
i −λi+1 )...(λi −λn )
0(λi −λ1 )(λi −λ2 )...(λi −λi−1 )(λ1
0
B
C 0
1
B
C
..
B
C
.
B
C B f (λ1 )
C
B
C B
P
C
..
B
C=B
= n
C = f (D).
f (λi )
.
i=1 B
C @
A
B
C
B
C
..
f (λn )
B
C
.
@
A
0
Damit ist nach (42):
f (A)
=
=
“P
Q
P f (D)P −1 = P (P −1
i f (λi )
j
P
Q
A−λi I
i f (λi )
j6=i λj −λi .
A−λi I
λj −λi
”
P )P −1 =
Für 3 × 3−Matrizen sieht (41) ausgeschrieben so aus:
f (A) = f (λ1 )
(A − λ2 I3 )(A − λ3 I3 )
(A − λ1 I3 )(A − λ3 I3 )
(A − λ1 I3 )(A − λ2 I3 )
+ f (λ2 )
+ f (λ3 )
(λ1 − λ2 )(λ1 − λ3 )
(λ2 − λ1 )(λ2 − λ3 )
(λ3 − λ1 )(λ3 − λ2 )
245
Beachte: Wegen der Verschiedenheit der EW sind alle Nenner 6= 0.
Beispiele:
246
Bemerkung: Sind nicht alle EW verschieden, gilt Ähnliches mit der NEWTON’schen Interpolationsformel.
3. Matrizenfunktionen mittels Normalformen
Sei A ähnlich zu einer Normalform N , also P −1 AP = N ⇔ A = P N P −1 .
Für Polynomfunktion p(X) gilt dann (siehe das Rechnen mit Matrixpotenzen 21.4.1):
p(A) = P (N )P −1
Ähnliches gilt für viele Funktionen f (X) (→ Funktionalanalysis):
f (A) = Pf (N)P−1
247
Für spezielle Normalformen, wie z.B. für N = J (JORDAN’sche Normalform) und besonders
für Diagonalmatrizen N = D ist die Berechnung von f (N ) besonders leicht. So ist (siehe 21.4.4)
f (D) = diag(f (λ1 ), . . . , f (λn )) für D = diag(λ1 , . . . , λn ).
Damit gilt also für diagonalisierbare Matrizen A mit EW λ1 , . . . , λn :


f (λ1 )



 −1
..
f (A) = P 
P ,
.


f (λn )
wobei P die diagonalisierende Transformationsmatrix ist.
Beispiele:
248
4. Matrizenfunktionen mittels der Spektraldarstellung
Der Vollständigkeit halber sei noch ohne Beweis angegeben, wie man aus der Spektraldarstellung siehe 21.8 und 21.10 für normale Matrizen A praktisch sofort die Matrizenfunktion f (A)
angeben kann:
Satz 23.10 Matrizenfunktionen mittels Spektraldarstellung
Seien λ1 , . . . , λr die verschiedenen EW der normalen Matrix A und P1 , . . . , Pr eine orthogonale
Menge von Orthogonalprojektionen mit
A = λ 1 P1 + . . . + λ r Pr
wobei
P2 + P2 + . . . + Pr = I
und
Pi Pj = Pj Pi
, dann gilt:
f (A) = f (λ1 )P1 + . . . + f (λj Pj )
249
Beispiele:
250
251
252
VII QUADRATISCHE FORMEN
Bisher haben wir uns nur mit linearen Ausdrücken in den Variablen x1 , . . . , xn der Form a1 x1 +
a2 x2 + . . . + an xn beschäftigt. Sie sind dadurch gekennzeichnet, daß sie die Variablen nur in
den ersten Potenzen enthalten und dementsprechend nur lineare Abbildungen vom K n → K
hervorrufen. Nun wollen wir uns mit solchen Ausdrücken beschäftigen, die auch Produkte und
Quadrate der Ausgangsvariablen enthalten: ax2 + bxy + cy 2 oder allgemein
a11 x21 + a22 x2 + . . . + ann x2n + a12 x1 x2 + . . . + a1n x1 xn + . . . a23 x2 x3 + . . . + an−1 an xn−1 xn .
Sie induzieren ebenfalls Abbildungen vom K n → K, die man allgemein Formen nennt. Sie sind
aber nicht mehr linear, trotzdem werden wir sehen, daß sie mit linearen Methoden, ja sogar mit
symmetrischen Matrizen beschrieben werden können. Solche Ausdrücke werden in den verschiedensten Gebieten der Mathematik benötigt. In der Analysis z.B. zur Kennzeichnung von Maxima
und Minima, in der Geometrie zur Beschreibung von “gekrümmten” Punktmengen (Kegelschnitte, Quadriken), auch in der Statistik möchte man wissen, wann solche Ausdrücke immer nur
Werte ≥ 0 oder < 0 annehmen. Dazu werden wir lernen, wie man solche quadratische Ausdrücke
vereinfachen, insbesondere die gemischten Terme xi xj entfernen kann (“Hauptachsentransformation”) und welche Geometrie auf der durch sie beschriebenen Punktmengen möglich ist.
24 Bilinearformen und Quadratische Formen
Mit den zunächst naheliegenden Ausdrücken der Form a1 x1 + . . . + an xn und den durch sie
induzierten linearen Abbildungen, den Linearformen, werden wir uns erst später beschäftigen.
Sie traten bisher bei linearen Gleichungssystemen auf. Der weitere Ausbau ihrer Theorie und
ihren Anwendungen erfolgt im Kapitel über Dualität in der Höheren Linearen Algebra.
Vielmehr beschäftigen wir uns mit “quadratischen Formen” und zeigen, daß sie trotzdem mit
linearen Methoden behandelt werden können. Das beruht darauf, daß sie ebenfalls mit Matrizen
(sogar symmetrischen → Hauptsatz der Linearen Algebra) beschrieben werden können bzw. als
Spezialfall von “bilinearen” Abbildungen aufgefaßt werden können, wie folgendes Beispiel zeigt:



3 4
x1

 = ~xt A~x.
q(x1 , x2 ) = 3x1 + 8x1 x2 + 25x2 = (x1 , x2 ) 
4 5
x2
Setzt man in
f (x1 , x2 , y1 , y2 ) = 3x1 y1 + 4x2 y1 + 4x1 y2 + 5x2 y2
253
x1 = y1 und x2 = y2 , so erhält man:
f (x1 , x2 , x1 , x2 ) = 3x21 + 4x2 x1 + 4x1 x2 + 5x22 = 3x21 + 8x1 x2 + 5x22
= q(x1 , x2 )
f ist dabei eine Abbildung von K 2 × K 2 → K und q(~x) = f (~x, ~x) ebenfalls eine Abbildung vom
K 2 → K.
24.1 Definitionen
Folgende Abbildungen wurden bisher untersucht:
1. Vorschriften mit nur 1. Potenzen der Ausgangsvariablen x̃ = (x1 , . . . , x˜n )
Lineare Abbildungen
Affine Abbildungen
y1 = a11 x1 + . . . + a1n xn
y1 = a11 x1 + . . . + a1n xn + b1
y2 = a21 x1 + . . . + a2n xn
..
.
y2 = a21 x1 + . . . + a2n xn + b2
..
.
ym = am1 x1 + . . . + amn xn
ym = am1 x1 + . . . + amn xn + bm
~y = A~x
~y = A~x + ~b
allgemein:
f :V →W
α:V →W
f (x) = y
α(x) = f (x) + t, f linear
f (kx + ly) = kf (x) + lf (y)
α : Lineare Abbildung + Translation
f : Lineare Abbildung (Operator)
Spezialfall:
y = a1 x1 + . . . + a2 xn
y = ~a · ~x
f :V →K
f (~x) = k ∈ K
f : Linearform
y = a1 x1 + . . . + a2 xn + b
y = ~at · ~x + b
α:V →K
α(~x) = k ∈ K
α : Linearform + Konstante
254
2. “Vorschriften” mit quadratischen und “gemischten” Termen der
Ausgangsvariablen x̃ = (x1 , . . . , xn )
y = ax2 + bxy + cy 2
y = ax2 + bxy + cy 2 + dx + ey + f
y = ~xt A~x
q:V →K
q:V →K
q(~x) = xt Axt + ~a · ~x + f
y = q(~x) = xt Axt =< A~x, ~x >=< x, A~x >
Quadratische Form + Linearform +
Quadratische Formen
Konstante
allgemein:
y = a11 x21 + . . . + a1n x2n +
P
i6=j
aij xi xj
q(~x) = ~xt A~x
q(~x) =< ~x, A~x > + < ~a, ~x > +f
P
P
P
y = aii x2i + i6=j aij xij + ai xi + c
Allen Abbildungen ist gemeinsam: Einem Vektor x ∈ V wird ein Skalar zugeordnet. Sie
können durch Matrizen und Skalarprodukte beschrieben werden.
Nun wollen wir zwei und mehr Vektoren einem Skalar zuordnen.
Beispiel: f (x1 , x2 , y1 , y2 ) = x1 y1 + 2x1 y2 − 3x2 y1 + 4x2 y2
f kann nicht nur als eine Zuordnung von K 4 → K, sondern auch als eine Zurodnung von
K 2 × K 2 → K aufgefaßt werden.
Setzt man ~x = xx12 und ~y = yy12 , dann gilt:
f (~x, ~y ) = x1 y1 + 2x1 y2 − 3x2 y1 + 4x2 y2 ∈ K.
Zwei Vektoren ~x, ~y ∈ K 2 wird also ein Skalar ∈ K zugeordnet. Auch diese Zuordnung kann
vereinfacht mit einer Matrix angeschrieben werden:



1 2
y1

 = ~xt A~y
f (~x, ~y ) = (x1 , x2 ) 
−3 4
y2
Dabei ist aij = Koeffizient von xi xj .
Aufgrund der Matrixregeln erweist sich die Zuordnung als linear in den 2 Vektor–Variablen ~x, ~y ,
d.h., ersetzt man ~x durch k x~1 + lx~2 , dann passiert dasselbe mit den Funktionswerten:
f (k x~1 + lx~2 , ~y ) = kf (x~1 , ~y ) + lf (x~2 , ~y ) und analog
f (k~x + k y~1 , ly~2 ) = kf (~x, y~1 ) + lf (~x, y~2 ), denn:
f (k x~1 + lx~2 , ~y ) = (lx~1 + lx~2 )t A~y = (k x~1 t + lx~2 t )A~y = k x~1 t A~y + lx~2 t A~y = kf (x~1 , ~y ) + lf (x~2 , ~y ).
Natürlich kann man dies auch in den Koordinaten nachrechnen.
Übrigens ist f (~x, ~y ) 6= f (~y , ~x).
255
Setzt man in f (~x, ~y ) ~y = ~x, so erhält man:
f (~x, ~x) = ~xt A~x = x21 + 2x1 x2 − 3x2 x1 + 4x22 = x21 − x2 x1 + 4x22 = q(~x)
f (~x, ~x) ist also eine quadratische Form in x1 , x2 .
Beispiel: Auch das Skalarprodukt ist eine Zuordnung, die 2 Vektoren einen Skalar zuordnet:
f (~x, ~y ) = ~x · ~y = x1 y1 + . . . + xn yn ∈ K
Ersetzt man auch hier ~x durch k x~1 + lx~2 , so erhält man:
f (k x~1 + lx~2 , ~y ) = (k x~1 + lx~2 ) · ~y = k x~1 · ~y + lx~2 · ~y = kf (x~1 , ~y ) + lf (x~2 , ~y )
Dasselbe gilt bei der Ersetzung von ~y durch k y~1 + ly~2 . Man sagt: Die Zuordnung ist linear in
der ersten und zweiten (Vektor)variablen.
Es ist darüber hinaus: f (~x, ~y ) = f (~y , ~x).
Beispiel: Beim komplexen Skalarprodukt gilt die Linearität bezüglich der zweiten Variablen
nicht mehr ganz:
f (~x, ~y ) = ~x · y = x1 y~1 + . . . + xn yn ⇒
f (~x, k y~1 + ly~2 = ~x(k y~1 + ly~2 ) = ~x · k y~1 + ly~2 = k(~x · y~1 ) + l(~x, y~2 ) = kf (~x, y~1 ) + l(~x, y~2 ).
Man sagt: f ist bezüglich der 2. Variablen nur similinear.
Definition 24.1 Semibilinearformen und quadratische Formen
V sei ein Vektorraum über dem Körper K. Für k ∈ CI bezeichne k die konjugierte–komplexe Zahl
zu k.
(i) Eine Abbildung f : V × C → K = CI heißt eine Semibilinearform auf V , wenn für alle
k, l ∈ K und alle x, x1 , x2 , y, y1 , y2 ∈ V gilt:
(SB 1) f (kx1 + lx2 , y) = kf (x1 , y) + lf (x2 , y)
f ist linear in der ersten Variablen.
(SB 2) f (x, ky1 + ly2 ) = kf (x, y1 ) + lf (x, y2 )
f ist semilinear in der zweiten Variablen.
(ii) Eine Abbildung f : V × V → K heißt Bilinearform auf V , wenn für alle k, l ∈ K und
alle x, x1 , x2 , y, y1 , y2 ∈ V gilt:
(B1) f (kx1 + lx2 , y) = kf (x1 , y) + lf (x2 , y)
256
(B2) f (x, ky1 + ly2 ) = kf (x, y1 ) + lf (x, y2 )
f ist in beiden Variablen linear.
Beachte: Für K = CI gibt es Semibilinear– und Bilinearformen.
(iii) Eine Abbildung f : V
{z. . . × V} → K heißt Multilinearform auf V , wenn für alle
| ×V ×
n mal
k, l ∈ K und alle xi , xi1 , xi2 (i = 1, . . . , n) gilt:
f (. . . , kxi1 + lxi2 , . . .) = kf (. . . , xi1 , . . .) + lf (. . . , xi2 , . . .)
f ist in jeder Variablen linear.
(iv) eine Semibilinearform f auf V heißt hermitesch, wenn für alle x, y ∈ V gilt:
f (x, y) = f (y, x)
(v) Eine Bilinearform f auf V heißt symmetrisch, wenn für alle x, y ∈ V gilt:
f (x, y) = f (y, x)
Für K = IR ist jede symmetrische auch eine hermitesche Semibilinearform. f heißt auch
eine reell–symmetrische Bilinearform.
(vi a) Eine Semibilinearform f heißt schiefhermitesch, wenn für alle x, y ∈ V gilt:
f (x, y) = −f (y, x)
(vi b) Eine Bilinearform (bzw. eine Multilinearform) f auf V heißt schiefsymmetrisch, wenn für
alle x, y ∈ V gilt:
f (x, y) = −f (y, x) bzw. f (. . . , x, . . . , y, . . .) = −f (. . . , y, . . . , x, . . .)
(vi c) eine Bilinearform (bzw. eine Multilinearform) f auf V heißt alternierend, wenn für alle
x ∈ V gilt:
f (x, x) = 0 bzw. f (. . . , x, . . . , x, . . .) = 0
257
(vii) eine Abbildung h : V → K = CI heißt eine hermitesche Form auf V, wenn es eine
hermitesche Semibilinearform f : V × V → CI gibt, mit
h(x) = f (x, x) ∀x ∈ V.
Hermitesche Formen nehmen nur reelle Zahlen als Werte an:
f (x) = f (x, x) = f (x, x) = h(x) ⇒ h(x) ∈ IR.
(viii) Eine Abbildung q : V → IR heißt eine quadratische Form auf V, wenn es eine symmetrische Bilinearform f : V × V → IR gibt, mit
q(x) = f (x, x) ∀x ∈ V.
f heißt Polarform zur quadratischen Form q.
(ix) Eine hermitesche bzw. quadratische Form q(x) heißt
positiv definit
⇔ q(x) > 0 ∀x 6= 0
positiv semidefinit ⇔ q(x) ≥ 0 ∀x
negativ definit
⇔ q(x) < 0 ∀x 6= 0
negativ semidefinit ⇔ q(x) ≤ 0 ∀x
indefinit
⇔ q(x) > 0 ∀x > 0 und ∃y : q(y) < 0.
Beachte: Quadratische Formen haben wir nun nicht über den “vagen” Ausdruck gemischte
und quadratische Terme definiert, sondern über symmetrische Bilinearformen. Das geht auch in
abstrakten Vektorräumen.
Elementare Eigenschaften:
1. Allen “Formen” ist gemeinsam: Sie sind Abbildungen in den Skalarkörper K eines Vektorraumes. Neuerdings heißen solche Abbildungen auch Funktionale, insbesondere lineare
Abbildungen f : V → K.
2. Ist char(K) 6= 2 (wie z.B. für K = IR bzw. K = C),
I dann ist jede alternierende Multilinearform schiefsymmetrisch und umgekehrt:
258
a) Sei f (. . . x . . . x . . .) = 0 ⇒
0 = f (. . . x + y . . . x + y . . .) = f (. . . x . . . x . . .) + f (. . . x . . . y) + f (. . . y . . . x . . .) +
f (. . . y . . . y . . .) = f (. . . x . . . y . . .) + f (. . . y . . . x . . .)
(b) Sei f (. . . x . . . y . . .) = −f (. . . y . . . x . . .) ⇒ f (. . . x . . . x . . .) = −f (. . . x . . . x . . .) ⇒
2f (. . . x . . . x . . .) = 0 ⇒ f (. . . x . . . x . . .) = 0 wenn char(K) 6= 2.
Eine quadratische Form q : V → K erhält man durch q(x) := f (x, x) aus einer symmetrischen Bilinearform.
3. Ist char(K) 6= 2, dann kann umgekehrt jede symmetrische Bilinearform durch ihre dazugehörige quadratische Form dargestellt werden:
f (x, y) =
1
(q(x, y) − q(x) − 1(y)) : Polarform von f .
2
Ist q(~x) = ~xt A~x, dann ist die Polarform f von q gegeben durch:
f (~x, ~y ) = ~y t
At + A
~x
2
Für quadratische Formen gilt weiters:
q(0) = 0
q(x) = q(−x)
q(x + y) + q(x − y) = 2(q(x) + q(y))
Parallelogrammgleichung für quadratische Formen.
Analog kann eine hermitesche Semibilinearform f durch ihre hermitesche Form h polar dargestellt werden:
f (x, y) =
1
1
(h(x + y) − h(x − y)) + (h(x + iy) − h(x − iy))
4
4
Für hermitesche Semibilinearformen gilt darüber hinaus für alle x, y ∈ V :
Re[f (x, y)] = 12 (f (x + y, x + y) − f (x, x) − f (y, y))
Im[f (x, y)] = 12 (f (x + iy, x + iy) − f (x, x) − f (y, y))
259
Fundamentale Beispiele von Formen
1.
a) Jede n × n−Matrix A = (aij ) über K definiert eine Bilinearform auf Kn
durch:


x1
a11 . . . a1n



  .. 
 .
f (x̃, ỹ) = ỹt Ax̃ = (y1 , . . . , yn  ..
 .  =



xn
an1 . . . ann
Pn Pn
= i=1 j=1 aij xi xj = a11 x1 y1 + a12 x1 y2 + . . . + ann xn yn .

Der formale Ausdruck von f (~x, ~y ) ist also ein Polynom ∈ K[X, Y ], es heißt das zur
Matrix A gehörige bilinear Polynom.
Die Bilinearität folgt aus den Matrixregeln.
b) Jede n × n−Matrix über CI definiert durch f (x̃, ỹ) = ỹ∗ Ax̃ eine Semibilinearform auf CI n .
c) Jede symmetrische n × n−Matrix X definiert durch q(~x) = ~xt A~x eine symmetrische
Bilinearform auf K n .
P
P
P
q(~x) = i,j aij xi xj = i aii x2i + 2 i<j aij xi xj
d) Jede hermitesche n×n−Matrix A definiert durch q(~x) = ~x∗ A~x eine hermitesche Form
auf CI n .
2. Jedes reelle Skalarprodukt f (x, y) =< x, y > ist eine symmetrische Bilinearform,
deren zugehörige quadratische Form q(x) = (x, x) positiv definit ist.
f (x, y) = x1 x1 + . . . + xn xn = x21 + . . . + x2n > 0 für x 6= 0.
Jedes komplexe Skalarprodukt f (x, y) =< x, y > ist eine hermitesche
Semibilinearform, deren zugehörige hermitesche Form h(x) = f (x, x) positiv definit ist.
f (x, x) = x1 x1 + . . . + xn xn = |x1 |2 + . . . + |xn |2 > 0 für x 6= 0.
3. Jede Determinante det(A) ist eine alternierende Multilinearform iherer Zeilenvektoren:
f (z~1 , . . . , z~n ) = det(A) mit der zusätzlichen Normierungseigenschaft:
f (e~1 , . . . , e~n ) = |In | = 1.
4. f, g : V → K seien linear.
Dann ist f (x, y) := f (x) · g(y) eine Bilinearform auf V .
260
5. a, b ∈ IR, a ≤ b. V = C[a, b], x(t), y(t) ∈ C[a, b].
Rb
f (x, y) := a x(t)y(t)dt ∈ IR ist eine symmetrische Bilinearform.
So wie die lineare Abbildung f, g : V → W bezüglich der punktweisen Addition f +g und Vielfachen kf einen Vektorraum Hom (V, W ) = L(V, W ) bilden, gilt dies auch für die Bilinearformen:
(f + g)(x, y) := f (x, y) + g(x, y)
(kf )(x, y) := kf (x, y)
Satz 24.1 Die Menge B(V ) der Bilinearformen auf V bildet einen Vektorraum über K.
24.2 Matrixdarstellung von Bilinearformen
So wie für lineare Abbildungen gibt es auch für Bilinearformen eine bijektive Zuordnung zu den
Matrizen, verantwortlich dafür ist die Linearität in den beiden Variablen.
Sei f eine Bilinearform auf V und B = (b1 , . . . , bn ) eine Basis von V . Ist x = x1 b1 + . . . + xn bn
und y = y1 b1 + . . . + yn bn , dann ist, so wie bei linearen Abbildungen, das Bild f (x, y) durch die
Bilder der Basisvektorpaare f (bi , bj ) eindeutig festgelegt:
f (x, y) = f (x1 b1 + . . . + xn bn y1 b1 + . . . + yn bn ) =
= x1 f (b1 , y1 b1 + . . . + yn bn ) + . . . + xn f (bn , y1 b1 + . . . + yn bn ) =
= x1 y1 f (b1 , b1 ) + x1 y2 f (b1 , b2 ) + . . . + x1 yn f (b1 , bn )+
+x2 y1 f (b2 , b1 ) + x2 y2 f (b2 , b2 ) + . . . + x2 yn f (b2 , bn )+
...
+xn y1 f (bn , b1 ) + xn y2 f (bn , b2 ) + . . . + xn yn f (bn , bn ) =
Pn
=
i,j=1 xi yj f (bi , bj ).
Versammelt man diese Bilder der Basisvektorpaare f (bi , bj ) in einer Matrix A := [f ]B =
(f (bi , bj )), dann gilt:


x1


X
 . 
f (x, y) =
xi yi f (bi , bj ) = (y1 , . . . , yn )A  ..  = [y]tB A[x]B


xn
261
Definition 24.2 Matrixdarstellung
f sei eine Bilinearform auf V mit der Basis B = (b1 , . . . , bn ). Die Matrix [f ]B := (f (bi , bj ))
heißt Matrixdarstellung von f bezüglich der Basis B oder Formmatrix von f.
Satz 24.2 Matrixdarstellung von Bilinearformen
(i) Ist [f ]B die Matrixdarstellung von f dann gilt:
f (x, y) = [y]tB [f ]B [x]B
Für eine feste Basis B ist [f ]B eindeutig bestimmt.
(ii) Die Zuordnung f → [f ]B ist ein Vektorraumisomorphismus von B(V ) auf K n·n , d.h.,
[f + g]B = [f ]B + [g]B , [kf ]B = k[f ]B
(iii) f hermitesch
f symmetrisch
⇒ [f ]B hermitesch
⇒ [f ]B symmetrisch
f schiefsymmetrisch ⇒ [f ]B schiefsymmetrisch
(iv) Ist P die Übergangsmatrix von der Basis B zur Basis B 0 , dann gilt für die neue Matrixdarstellung:
[f ]B0 = Pt [f ]B P
[f ]neu = Pt · [f ]alt · P
Die Matrixdarstellungen einer Bilinearform sind also untereinander kongruent.
Beweis von (iii):
f (x, y) = [y]t [f ][x] = ([y]t [f ][x])t =
= [x]t [f ]t [y]tt = [x]t [f ]t [y]
Ist f symmetrisch ⇒ [y]t [f ]t [x] = f (x, y) = f (y, x) = [y]t [f ][x] für alle x, y ⇒ [f ]t = [f ].
Beweis von (iv):
f (x, y) = [y]tB [f ]B [x]B = (P [y]B 0 )t [f ]B (P [y]B 0 ) = [y]B 0 (P t [f ]B P )[x]B 0 .
Wegen der Eindeutigkeit ist [f ]B 0 = P t [f ]B P .
Die neue Matrixdarstellung einer Bilinearform unterscheidet sich also von der alten einfach dadurch, daß man
diese von rechts mit P und links mit P t multipliziert. (Kongruente Matrizen nach Definition 21.2.)
Jeder quadratischen Form q auf V ist genau eine symmetrische Bilinearform f auf V zugeordnet.
Ist dim(V ) = n dann ist bezüglich einer festen Basis B von V diesem f genau eine symmetrische n × n−Matrix zugeordnet. Damit kann man auch jeder quadratischen Form q bezüglich
262
einer festen Basis B von V genau eine symmetrische n × n−Matrix als Formmatrix [q] von g
zuordnen: Die Formmatrix [q]B einer quadratischen Form q ist die Formmatrix ihrer
Polarform f: [q]B = [f ]B .
Umgekehrt definiert jede symmetrische n × n−Matrix A eine quadratische Form auf V durch
q(x) = [x]tB A[x]B .
Ähnliches gilt für hermitesche Formen und hermitesche Matrizen.
Satz 24.3 Formmatrizen von quadratischen Formen
V sei ein Vektorraum über K = IR bzw. C.
I
(i) Für K = IR gibt es eine bijektive Zuordnung zwischen quadratischen Formen und symmetrischen n × n−Matrizen.
(ii) Für K = CI gibt es eine bijektive Zuordnung zwischen hermiteschen Formen und hermiteschen n × n−Matrizen.
(iii) Die Formmatrizen einer quadratischen Form sind untereinander kongruent.
(iv) Für V = IRn gilt speziell: Ist q(~x) = ~xt A~x, dann ist die Polarform f (~x, ~y ) von q(~x) gegeben
durch
f (x̃, ỹ) = ỹt
also ist
1
t
2 (A
At + A
x̃,
2
+ A) die Formmatrix von q.
Beachte: 12 (At + A) ist stets symmetrisch.
Beweis von (iii):
f (~x, ~y ) = 12 (q(~x + ~y ) − q(~x) − q(~y ) =
= 12 ((~xt + y)t A(~x + ~y ) − ~xt A~x − ~y t A~y ) =
= 21 (~xt A~y + ~y t A~x) =
= 12 [(~xt A~y )t + ~y t A~x] =
t
= 12 (~y t At ~x + ~y t A~x) = ~y t A 2+A ~x.



1 2 −4
x1






Beispiel: q(~x) = (x1 , x2 , x3 =  0 0 −8   x2  = x21 + 2x1 x2 − 4x1 x3 − 8x2 x3 + 3x23 −



x3
0 0 +3
4x1 x3
263


t

Polarform f (~x, ~y ) = ~y t A 2+A ~x = (y1 , y2 , y3 ) 

1
1 −2

x1

1
1 −2







0 −4  ist
0 −4   x2   1



−2 −4
3
x3
−2 −4
3
1
die (symmetrische) Formmatrix
von q.  


x
1
1 −2
 1 




Probe: q(~x) = (x1 , x2 , x3  1
0 −4   x2  = x21 + 3x23 + 2x1 x2 − 8x2 x3 − 4x1 x3 .



x3
−2 −4
3
−1
Orthogonal ähnliche Matrizen sind wegen P = P t auch kongruent. Kongruente Matrizen sind
auch äquivalent (aber nicht umgkehrt), damit besitzen kongruente Matrizen gleichen Rang
und es ist folgende Definition möglich:
Definition 24.3 Ausgeartete und nicht ausgeartete Bilinerform
(i) f sei eine Bilinearform auf dem Vektorraum V . Der Rang einer Bilinearform ist der Rang
irgendeiner Matrixdarstellung von f : rg(f ) = rg([f ]B ).
f heißt nicht ausgeartet ⇔ rg(f ) = dim(V ).
f heißt ausgeartet ⇔ rg(f ) < dim(V ).
(ii) Der Rang einer quadratischen (hermiteschen) Form ist der Rang ihrer Formmatrix.
24.3 Kongruentes Diagonalisieren
Aufgrund von 24.3 sind Aussagen über quadratische Formen zugleich auch Ausagen über symmetrische Matrizen. Dazu behandeln wir so wie bei linearen Operatoren die Frage nach der
einfachsten Darstellung bezüglich Kongruenztransformationen.
Satz 24.4 Diagonalform quadratischer Formen
V sei ein Vektorraum über dem Körper K mit char(K) 6= 2. Zu jeder quadratischen Form q(x)
auf V gibt es eine Basis von V , bezüglich der die Formmatrix von q eine Diagonalmatrix ist.
Matrizentheoretisch formuliert:
K sei ein Körper mit char(K) 6= 2. Zu jeder symmetrischen n × n−Matrix A über K existiert
eine reguläre Matrix P mit P t AP = D = diag(d1 , d2 , . . . , dn ).
Also: Jede symmetrische Matrix ist zu einer Diagonalmatrix kongruent.
Beachte: Die Diagonalelemente sind keine EW von A. Man erhält P auch ohne die (schwierige)
Eigenwertberechnung, sondern nur durch Kongruenztransformationen:
264
1. V (p, q) bezeichne das Vertauschen der p−ten Spalte mit der q−ten Spalte und die Vertauschung der p−ten Zeile mit der q−ten Zeile.
2. U (p, q, k) bezeichne die Addition des k−fachen der q−ten Spalte zur p−ten Spalte und
die Addition des k−fachen der q−ten Zeilen zur p−ten Zeile.
Weil A symmetrisch ist, führt man immer Zeilen– und Spaltenoperation gleichzeitig aus, allerdings nur mit den Halbe–fachen des entsprechenden Matrixelementes. Treten während des
Vorganges einmal in der Hauptdiagonale nur mehr Nullen auf, muß man ein aqp 6= 0 auf eine
Diagonalstelle bringen.
Statt eines Beweises wird nur das Verfahren illustriert: Schreibe A und In nebeneinander auf.
Versuche A auf Diagonalgestalt zu bringen und wende auf In nur die entsprechenden Spaltenumformungen an. Die Matrix, die aus In entsteht, ist die gesuchte Transformationsmatrix
P , also:
(A/In ) → (D/P )
A
1 −2
−2
3 −1
4 −5
3 −5
−1
B
1 0 0 0
1
0 1 0 0
9 −1
0 0 1 0
1 −1
1
0 0 0 1
Es wird addiert: Das 2–fache der 1. Spalte zur 2., das (−3)−fache der 1. Spalte zur 3., das
1–fache der 1. Spalte zur 4. Spalte.
1 2 −3 1
1
0 0
0
0
0 1 −1
0 1
0 0
0
1 0
2
0 0
1 0
0 −1 2
0
0 0
0 1
Alle Diagonalelemente der Restmatrix verschwinden. Es wird addiert: Das 21 −fache der 3. Spalte
zur 2. Spalte.
1 0 0 0
1
1
2
−3 1
0 1 1 0
0
1
0 0
0 1 0 2
0
1
2
1 0
0 0 2 0
0
0
0 1
265
Es wird addiert: Das (−1)−fache der 2. Spalte zur 3. und dann das 2–fache der 3. Spalte zur 4.
Spalte.
1 0
0 0
1
1
2
− 72
0 1
0 0
0
1
−1 −2
0 0 −1 0
0
1
2
1
2
1
0 0
0
0
0
1
0 4
P t AP
−6
P
Für reelle (K = IR) und komplexe (K = C)
I Vektorräume erhält man noch speziellere Formmatrizen, nämlich solche, die nur +1, (−1) und 0 in der Hauptdiagonale enthalten. Beachte, daß
hermitesche Formen nur reelle Funktionswerte annehmen.
Satz 24.5 Normalformen quadratischer (hermitescher) Formen.
Abbildungstheoretische Formulierung: V sei ein Vektorraum über K = IR bzw. K = C.
I q bzw.
h sei eine quadratische bzw. hermitesche Form auf V . Dann gibt es eine Basis von V , bezüglich
der q bzw. h eine Diagonalmatrix der Form
D = diag(1, . . . , 1, −1, . . . , 1, 0, . . . , 0)
als Formmatrix besitzen.
Matrizentheoretische Formulierung: Sei K = IR bzw. C.
I
Zu jeder reell–symmetrischen bzw. hermiteschen Matrix über K existiert eine reguläre Matrix P
mit
P t AP = diag(1, . . . , 1, −1, . . . , −1, 0, . . . , 0).
Oder: Jede reell–symmetrische bzw. hermitesche Matrix ist zu einer Diagonalmatrix aus +1, −1
und 0 kongruent.
Zum Beweis: Es gibt eine Transformation auf diag(d1 , . . . , dn ). Weil in IR bzw. CI Quadratwurzeln
existieren, kann man durch Diagonalmatrizen, in denen ki = √1
|di |
auf die gewünschte Form kommen.
für di 6= 0 und sonst 1 steht,
266
Beispiel: Zu einer symmetrischen Matrix A ∈ IR(4,4) wird durch Kongruenztransformationen
eine Diagonalmatrix P T AP und gleichzeitig aus der Einheitsmatrix I mittels derselben Spaltenumformungen die Transformationsmatrix P konstruiert. Nur die Spaltenumformungen sind
erläutert.
A
In
2 3 −1
4
1 0 0 0
3 4
0
5
0 1 0 0
−1 0
0
2
0 0 1 0
4 5
2
25
4
0 0 0 1
Es wird addiert: Das (− 32 )−fache der 1. Spalte zur 2., das 21 −fache der 1. Spalte zur 3. und das
(−2)−fache der 1. Spalte zur 4. Spalte.
2
1 − 32
1
2
−2
−1
0
1
0
0
4
0
0
1
0
4 − 74
0
0
0
1
0
0
0
0 − 12
3
2
0
3
2
− 12
0
−1
Es wird addiert: Das 3–fache der 2. Spalte zur 3. und das (−2)−fache der 2. Saplte zur 4. Spalte.
0
1 − 32
0
0
0
1
3 −2
0
0 4
1
0
0
1
0
0
0 1
1
4
0
0
0
1
2
0 0
0 − 21
Es wird multipliziert: Die 1. Spalte mit
1
2
√
−4
1
2, die 2. Spalte mit
√
2 und die 3. Spalte mit 12 .
0 −1 0 0
√
2 − 32 2 −2
2
√
3
11
0
2
2 − 4
0
0 1 0
0
0
1
2
− 14
0
0 0 0
0
0
0
1
1
0 0 0
P t AP
1
2
√
P
Die Anzahl der nichtverschwindenden Diagonalelemente in der kongruenten Normalform von
A ist der Rang von A. rg(A) = r ist für alle kongruenten Matrizen, weil sie auch äquivalent
sind, immer gleich. Interessant ist, daß auch die Anzahl der positiven Diagonalelemente und
267
damit die der negativen und der Nullen für kongruente Matrizen stets gleich groß ist. Das ist
die Aussage des Trägheitsgesetzes:
Satz 24.6 Trägheitsgesetz von SYLVESTER
V sei ein n−dimensionaler Vektorraum über K = IR bzw. K = C.
I q : V → IR bzw. h : V → CI sei
eine quadratische bzw. hermitesche Form auf V . Dann gilt:
Alle Formmatrizen von q bzw. h haben stets dieselbe Anzahl von +1, −1 und 0.
Ohne Beweis.
Dieser Satz ermöglicht folgende Defintion:
Definition 24.4 Index einer Matrix
Der Index j(A) einer symmetrischen bzw- hermiteschen Matrix A ist die Anzahl ihrer positiven
Diagonalelemente in einer kongruenten Normalform.
Mit dem Trägheitsgesetz gilt dann:
Satz 24.7 Charakterisierung von Kongruenz
Zwei quadratische Matrizen sind genau dann kongruent, wenn sie gleichen Rang und gleichen
Index haben.
B ∼4 A ⇔ rg(A) = rg(B) und Index (A) = Index (B).
Aus dem Diagonalisierungssatz ergibt sich ein weiteres Kriterium für die positive Definitheit von
quadratischen Formen bzw. symmetrischen Matrizen (neben dem Hauptminorenkriterium bzw.
Eigenwertkriterium), nämlich:
Satz 24.8 3. Definitheitskriterium
V sei ein endlich–dimensionaler Vektorraum über einem angeordneten Körper K und q eine quadratische Form auf V . q ist genau dann positiv definit, wen q eine Formmatrix in Diagonalform
mit lauter positiven Diagonalelementen besitzt.
Ähnliches gilt für die anderen Definitheitseigenschaften.
Matrizentheoretisch formuliert:
Eine symmetrische Matrix über einem angeordneten Körper K ist genau dann positiv definit,
wenn sie kongruent zu einer Diagonalmatrix mit lauter positiven Diagonalelementen ist.
268
Da alle Formmatrizen von quadratischen Formen untereinander kongruent sind, sind die Definitheitseigenschaften invariant gegenüber Kongruenztransformationen.
Obigen Satz kann man auch so formulieren:
Satz 24.9 Eine quadratische Form auf einem n–dimensionalen Vektorraum ist genau dann positiv definit, wenn ihr Rang und ihr Index beide gleich n sind. Sie ist genau dann positiv
semidefinit, wenn ihr Rang und ihr Index gleich sind.
Analoges gilt für hermitesche Formen und Matrizen über C.
I

Zugehörige Unterlagen

Lineare Algebra - Universität Koblenz · Landau

¨Ubungsaufgaben zur Vorlesung “Mathematik für Physiker I” WS

lineare algebra ii - wwwu.uni

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können