EXKURS: MATRIZEN UND LINEARE GLEICHUNGSSYSTEME In diesem Abschnitt wiederholen wir zunächst grundlegende Definitionen und Eigenschaften im Bereich der Matrizenrechnung, die wahrscheinlich bereits in Ansätzen aus der Schule bekannt sein werden, um uns daraufhin mit dem Zusammenhang zwischen Matrizen und linearen Gleichungssystemen zu beschäftigen, indem wir (m × n)-Matrizen als (lineare) Abbildungen Rn → Rm interpretieren. Am Ende dieses Exkurses werden wir als Anwendung mithilfe des Gelernten den sogenannten Satz vom Fußball beweisen, der besagt, dass es zu Beginn beider Halbzeiten eines Fußballspiels (bei dem nur ein Ball benutzt wird) beim jeweiligen Anstoß zwei antipodale Punkte auf der Oberfläche des Balles gibt, die sich an genau derselben Stelle im umgebenden Raum befinden. Definition: (i) Es seien m, n ∈ N. Eine (m × n)-Matrix A = (aij )1≤i≤m ist ein rechteckiges 1≤j≤n Zahlenschema der Form a11 a21 A= . .. a12 a22 .. . ··· ··· .. . a1n a2n .. . am1 am2 ··· amn mit m Zeilen und n Spalten, deren Einträge aij ∈ R sind. Hierbei bezeichnet aij oder Aij das Element in der i-ten Zeile und j-ten Spalte der Matrix A. Für die i-te Zeile der Matrix A schreiben wir auch Ai· und für die j-te Spalte entsprechend A·j. Die Menge der (m × n)-Matrizen bezeichnen wir mit M (m × n). Für m = n spricht man von quadratischen Matrizen und bezeichnet deren Gesamtheit kurz mit M (n). (ii) Eine Matrix A ∈ M (m × n) kann mit einer Zahl r ∈ R skaliert werden a11 a21 r·A=r· . .. a12 a22 .. . ··· ··· .. . a1n r · a11 r · a21 a2n .. = .. . . r · a12 r · a22 .. . ··· ··· .. . r · a1n r · a2n .. . am1 am2 ··· amn r · am1 r · am2 ··· r · amn und zwei Matrizen A, B ∈ M (m × n) werden komponentenweise addiert a12 a22 .. . ··· ··· .. . b11 a1n b21 a2n .. + .. . . b12 b22 .. . ··· ··· .. . b1n b2n .. . am1 am2 a11 + b11 a21 + b21 = .. . ··· amn bm1 bm2 ··· bmn a11 a21 A+B = . .. am1 + bm1 a12 + b12 a22 + b22 .. . ··· ··· .. . a1n + b1n a2n + b2n .. . am2 + bm2 ··· amn + bmn (iii) Das Produkt C = A · B ∈ M (m × k) zweier Matrizen A ∈ M (m × n) und B ∈ M (n × K) ist definiert durch C = (cij ) mit cij = n X ail · blj = ai1 · b1j + ai2 · b2j + . . . + ain · bnj . l=1 Man beachte hierbei, dass das Produkt A·B nur erklärt ist, wenn A genauso viele Spalten wie B Zeilen hat. Bemerkung: (i) Das neutrale Element bezüglich Matrizenmultiplikation ist die (n × n)Einheitsmatrix 1 0 In = . .. 0 0 .. . .. . ··· ··· .. . .. . 0 0 .. . 0 1 mit lauter Einsen auf der Diagonalen als einzige von Null verschiedene Einträge. Es gilt In · A = A und B · In = B für alle A ∈ M (n × k) und B ∈ M (m × n). (ii) Als “spezielle“ Matrizen interpretieren wir hier Zeilenvektoren ebenfalls x1 (x1 , . . . , xn ) ∈ M (1 × n) und Spaltenvektoren ... ∈ M (m × 1). Vekxm x1 toren x ∈ Rn verstehen wir grundsätzlich als Spaltenvektoren x = ... . xn (iii) Mittels Matrizenmultiplikation kann man Zeilen- und Spaltenvektoren miteinander multiplizieren und erhält eine reelle Zahl: y1 y2 (x1 , x2 , . . . , xn ) · . = x1 · y1 + x2 · y2 + . . . xn · yn ∈ M (1) = R .. yn Aufgefasst als Vektoren im Rn , nennt man dieses Produkt das kanonische x1 Skalarprodukt oder das Standardskalarprodukt der Vektoren x = ... und xn y1 .. y = . im Rn und bezeichnet dies auch mit yn * x1 y1 + .. .. hx, yi = . , . = xT · y. xn yn Dabei bedeutet die Notation xT lediglich, dass aus dem Spaltenvektor x ein Zeilenvektor gemacht wird. Wir kommen auf diese Notation an späterer Stelle noch einmal zurück. Das Skalarprodukt kann verwendet werden, um Winkel zwischen Vektoren zu messen. Bemerkung: Nach der Ungleichung von Cauchy-Schwarz gilt für x, y ∈ Rn −1 ≤ hx, yi ≤1 kxk · kyk p p wobei hier kzk = hz, zi = z12 + . . . + zn2 die Länge des Vektors z ∈ Rn bezeichnet. Somit gibt es genau eine Zahl ](x, y) ∈ [0, π] mit cos(](x, y)) = hx, yi . kxk · kyk Diese Zahl ](x, y) nennt man den Winkel zwischen x und y. Insbesondere sind x und y genau dann orthogonal, d.h. ](x, y) = π/2 (= ˆ 90◦ ), wenn hx, yi = 0. In diesem Fall schreiben wir x ⊥ y. Wir kommen nun zu der schon angekündigten Interpretation von Matrizen als Abbildungen. Definition: Es sei A ∈ M (m×n). Dann erhalten wir eine Abbildung fA : Rn → Rm duch fA (x) = A · x. Bemerkung: (i) Es gilt fA (λ · x) = λ · fA (x) und fA (x + y) = fA (x) + fA (y) für alle x, y ∈ Rn und λ ∈ R. Eine solche Abbildung nennt man linear und jede lineare Abbildung ist von dieser (siehe (ii)). Form 0 1 1 0 (ii) Es bezeichne e1 = . , e2 = 0 und ganz allgemein sei ei der Vektor im .. .. . 0 0 Rn mit einer 1 an der i-ten Stelle und sonst nur Nullen, der sogenannten i-te kanonische Einheitsvektor im Rn . Durch direktes Nachrechnen sieht man dann, dass gilt a1i a2i fA (ei ) = . = A·i .. ani d.h. die i-te Spalte von A ist das Bild des i-ten Einheitsvektors unter der Abbildung fA . Ist umgekehrt L : Rn → Rm eine lineare Abbildung und A ∈ M (m × n) die Matrix, deren i-te Spalte gerade durch das Bild L(ei ) gegeben ist, so gilt L = fA (vgl. Übung). Beispiel: Ein lineares Gleichungssystem (kurz: LGS) mit m Gleichungen und n Unbekannten ist von der Form: a11 · x1 + a12 · x2 + . . . + a1n · xn = b1 a21 · x1 + a22 · x2 + . . . + a2n · xn = b2 .. . .. . am1 · x1 + am2 · x2 + . . . + amn · xn = bm und führt über die Koeffizientenmatrix A = (aij ) auf die Matrix-/Vektorgleichung b1 x1 .. .. n A · x = b bzw. fA (x) = b mit x = . ∈ R und b = . ∈ Rm . xn bm Die Frage nach der Lösbarkeit/Lösungsmenge des linearen Gleichungssystems entspricht daher der Bestimmung von Urbildern der Abbildung fA : Rn → Rm . Ist diese Abbildung surjektiv, gibt es somit für jede rechte Seite b eine Lösung des LGSs und ist fA injektiv, so ist jede Lösung (falls existent) eindeutig. Anschaulich entspricht die Lösungsmenge eines linearen Gleichungssystems, wie in der Vorlesung gesehen, einer Schnittmenge von geometrischen Objekten (Hyperebenen), wobei n die Dimension des zugrundeliegenden Raumes und m die Anzahl der Objekte ist. Definition: Eine Matrix A ∈ M (n) ist invertierbar, falls es eine Matrix B ∈ M (n) mit A · B = B · A = In gibt. Eine solche Matrix B ist dann eindeutig bestimmt und wir mit A−1 bezeichnet und inverse Matrix von A genannt. Satz: (i) Sind A, B ∈ M (n) invertierbar, so ist auch A · B ∈ M (n) invertierbar mit (A · B)−1 = B −1 · A−1 . (ii) Eine Matrix A ∈ M (n) ist genau dann invertierbar, wenn die Abbildung fA : Rn → Rn bijektiv ist. In diesem Fall ist dann fA−1 = fA−1 . Die Implikation “⇐“ von Teil (ii) beweisen wir in dieser Vorlesung nicht. Der Rest des Beweises wird als Übungsaufgabe gestellt. Beispiel: Ist A ∈ M (n) die Koeffizientenmatrix eines linearen Gleichungssystems und ist A invertierbar, so gibts es für jede rechte Seite b ∈ Rn genau eine Lösung des LGSs und zwar x̄ = A−1 · b, denn fA (x̄) = A · x̄ = A · (A−1 · x) = (A · A−1 ) · x = In · x = x. Definition/Satz: (i) Die Determinante einer Matrix A = a c b ∈ M (2) ist det(A) := ad − bc d und die Determinante einer Matrix a b c A = d e f ∈ M (3) g h i ist det(A) = a · e · i + b · f · g + c · d · h − c · e · g − a · f · h − b · d · i (Formel von Sarrus). Eine Matrix A ∈ M (1) entspricht einfach einer reellen Zahl. Der Vollständigkeit halber definieren wir die Determinante in diesem Fall durch det(A) = A. (ii) Eine Matrix A ∈ M (n) mit n ≤ 3 ist genau dann invertierbar, wenn a b det(A) 6= 0 gilt. Ist A = ∈ M (2), so ist in diesem Fall c d 1 1 d −b d −b · = A−1 = −c a det(A) ad − bc −c a Sind Verwechselungen ausgeschlossen, schreibt man oft auch einfach det A statt det(A). Ist det A 6= 0, so ist im Fall n = 1 die Zahl A 6= 0 und A−1 = 1/A. Im Fall n = 2 wird A−1 durch die obige Formel gegeben, wie man leicht durch direktes Nachrechnen überprüfen kann. Für den Fall n = 3 kann man, falls detA 6= 0, ebenfalls eine Formel für die Koeffizienten der inversen Matrix A−1 in Termen der Koeffizienten von A angeben, worauf wir hier allerdings nicht näher eingehen wollen. Dass die Determinante einer invertierbaren Matrix ungleich Null sein muss, folgt aus dem nächsten Satz. Satz: Es seien A, B ∈ M (n), n ≤ 3, invertierbar. Dann gilt: (i) det In = 1 und det(A · B) = det(A) · det(B). (ii) Bezeichnen wir mit AT = (aji ) die sogenannte transponierte Matrix von A, deren Element ATij gerade dem Element Aji von A entspricht, so gilt det(AT ) = det(A) und (A · B)T = B T · AT . 1 (iii) det(A−1 ) = det(A)−1 = det(A) . Beweis: Die Punkte (i) und (ii) beweist man durch direktes Nachrechnen. Die Aussage in (iii) folgt dann aus 1 = det(In ) = det(A · A−1 ) = det(A) · det(A−1 ) also det(A−1 ) = 1 detA . Bemerkung: Die Determinante einer Matrix A = v1 v2 w1 w2 entspricht der ori v1 entierten Fläche des Parallelotops in der Ebene, das von den Vektoren v = v2 w1 und w = aufgespannt wird (vgl. hierzu Kapitel 3.1.1. in “Lineare Algebra“ w2 von Gerd Fischer). Analog entspricht die Determinante einer Matrix | | | A = u v w | | | dem orientierten Volumen des von den Vektoren u, v, w ∈ R3 aufgespannten Spats. Insbesondere ist genau dann det A = 0, wenn die Spaltenvektoren linear abhängig sind, d.h. wenn das von den Spaltenvektoren aufgespannte Parallelogramm bzw. der aufgespannte Spat entartet ist. Definition: Man nennt eine Matrix A ∈ M (n) orthogonal, falls A das kanonische Skalarprodukt erhält, d.h. falls xT · y = hx, yi = hAx, Ayi = (Ax)T · Ay = xT · (AT A) · y für alle x, y ∈ Rn gilt. Dies ist äquivalent dazu, dass AT · A = In gilt (vgl. Übung). Die Menge O(n) = A ∈ M (n)| AT · A = In heißt daher die orthogonale Gruppe. Die Teilmenge SO(n) = {A ∈ O(n)| det A = 1} heißt die spezielle orthogonal Gruppe (im Fall n ≤ 3). Dass diese Bezeichnung gerechtfertigt ist, zeigt der folgende Satz. Satz: O(n) ist mit der Einschränkung der gewöhnlichen Matrizenmultiplikation eine Gruppe mit Untergruppe SO(n) (für n ≤ 3). Der Beweis wird als Übungsaufgabe gestellt. Beispiel: Wie wir in der Vorlesung gesehen haben, ist eine Matrix A ∈ M (2) genau dann orthogonal, wenn es ein α ∈ [0, 2π) gibt, so dass cos α − sin α cos α sin α A= oder A = sin α cos α sin α − cos α Im ersten Fall ist det A = 1 und fA ist eine Drehung in R2 (um den Ursprung) um den Winkel α und im zweiten Fall ist det A = −1 und fA eine Spiegelung an der Ursprungsgeraden mit Schnittwinkel α/2 mit der x-Achse. Definition: Eine Matrix A ∈ M (n) hat einen Eigenwert λ ∈ R, falls es einen Vektor 0 6= v ∈ Rn mit A · v = λ · v gibt. Einen solchen Vektor nennt man dann Eigenvektor zum Eigenwert λ. Beispiel: cos α − sin α (i) Die Matrix Dα = entspricht, wie gesehen, einer Dresin α cos α hung um den Winkel α ∈ [0, 2π) und hat somit bis auf die Spezialfälle 1 0 −1 0 D0 = = In und Dπ = = −In , d.h. α ∈ {0, π}, keine 0 1 0 −1 Eigenwerte. cos α sin α (ii) Die Matrix Sα = entspricht, wie gesehen, einer Spiegesin α − cos α cos(α/2) lung an der Ursprungsgeraden R · und hat damit zwei Eigensin(α/2) cos(α/2) werte, nämlich λ1 = 1 mit Eigenvektor (der Länge 1), da die sin(α/2) Gerade selbst unter Spiegelung punktweise fixiert wird, und λ2 = −1 der cos α+π 2 (der Länge 1), da die Gerade orthogonal zur mit Eigenvektor sin α+π 2 Spiegelungsgeraden ebenfalls invariant gelassen wir. (iii) Wegen A · (r · v) = r · A · v gibt es mit einem immer bereits unendlich viele Eigenvektoren zu einem Eigenwert, denn ist A · v = λ · v, so ist A · (r · v) = r · A · v = r · λ · v = λ · (r · v) für alle r ∈ R. (iv) Ist λ ein Eigenwert von A ∈ O(n), so gilt für einen Eigenvektor v hv, vi = hAv, Avi = hλ · v, λ · vi = λ2 · hv, vi also λ2 = 1 bzw. λ ∈ {±1}, da hv, vi = 6 0. Da es nicht immer so leicht wie in diesem Beispiel ist, die Eigenwerte und Eigenvektoren einer gegebenen Matrix geometrisch zu bestimmen, benötigen wir eine algebraische Methode, um diese im allgemeinen Fall zu berechnen. Bemerkung/Definition: Wegen A · v = λ · v ⇔ A · v − λ · v = 0 ⇔ (A − λ · In ) · v = 0 folgt, dass λ genau dann ein Eigenwert von A ist, wenn PA (λ) = det(A − λ · In ) = 0 gilt. Das Polynom PA (λ) (vom Grad n) nennt man das charakteristische Polynom von A. Die Nullstellen des charakteristischen Polynoms entsprechen also gerade den Eigenwerten von A. Für einen Eigenwert λ0 erhält man dann die zugehörigen Eigenvektoren entsprechend als Lösungen v des linearen Gleichungssystems (bzw. der Matrix-/Vektorgleichung) (A − λ0 · In ) · v = 0. Man beachte in den obigen Gleichungen, dass dort die 0, bis auf eine Ausnahme, stets den Nullvektor 0 ∈ Rn und nicht die Zahl 0 ∈ R bezeichnet. Nachdem wir nun die nötigen Begriffe kennengelernt haben, kommen wir nun am Ende dieses Exkurses zur bereits erwähnten Anwendung. Satz: (Satz vom Fußball ) Bei jedem Fußballspiel, bei dem nur ein Ball benutzt wird, gibt es zwei Punkte auf der Oberfläche des Balles, die sich zu Beginn beider Halbzeiten (wenn der Ball auf dem Anstoßpunkt liegt) an derselben Stelle im umgebenden Raum befinden. Wir wollen den Beweis hier lediglich argumentativ führen und die einzelnen Schritte skizzieren. Einen ausführlichen Beweis finden Sie in Kapitel 5 des Buches “Lineare Algebra“ von Gerd Fischer. Beweiskizze: Die Beweisidee ist eigentlich recht einfach. Vergisst man nämlich die Translationen, d.h. die Verschiebungen im Raum, so können die Drehungen des Balles durch Abbildungen fA : R3 → R3 mit A ∈ SO(3) beschrieben werden. Hierbei wird der Ball als einer der gewöhnlichen Bälle um den Ursprung Br (0) = {x ∈ R3 | kxk2 = x21 + x22 + x23 ≤ r2 } und dementsprechend die Oberfläche des Balles als die Abstandssphäre S 2 (r) = {x ∈ R3 | kxk2 = x21 + x22 + x23 = r2 } interpretiert. Da SO(3) eine Gruppe ist, sind insbesondere die Kompositionen von solchen Drehungen“ wieder Drehungen. Somit können wir die Lage (der Ober” fläche) des Balles auf dem Anstoßpunkt zu Beginn der zweiten Halbzeit als Bild einer Sphäre S 2 (r) unter einer solchen Abbildung fA mit A ∈ SO(3) auffassen (es gilt kfA (x)k = kxk für alle x ∈ R3 ). Die Aussage folgt nun aus der Tatsache, dass jede Matrix A ∈ SO(3) einen Eigenwert 1 hat. Denn dann wird, für einen Eigenvektor v zum Eigenwert 1, die Ursprungsgerade R · v von fA punktweise fixiert, d.h. fA (rv) = A · (rv) = rv für alle r ∈ R, und die beiden Punkte, an denen die Gerade die Sphäre (d.h. die Oberfläche des Balles) durchstößt sind dann gerade die gesuchten Fixpunkte. Es bleibt also zu zeigen, dass jede Matrix A ∈ SO(3) einen Eigenwert 1 hat. Hierzu überlegen wir uns zuerst, dass es zu jedem A ∈ O(3) eine Matrix B ∈ O(3) gibt mit ±1 0 0 B −1 · A · B = 0 a b 0 c d und e= A a c b ∈ O(2). d Um das zu sehen, bemerken wir, dass das charakteristische Polynom PA (λ) vom Grad 3 ist und somit eine Nullstelle hat, d.h. A hat einen Eigenwert. Nach Punkt (iv) des letzten Beispiels gilt dann für den Eigenwert λ ∈ {±1}. Sei nun v ein Eigenvektor zum Eigenwert λ von A. Dann gibt es zwei Vektoren w1 , w2 ∈ R3 der Länge 1 mit w1 ⊥ v und w2 ⊥ v sowie w1 ⊥ w2 . Ist dann B die Matrix mit B · e1 = v, B · e2 = w1 und B · e3 = w2 , d.h. | B = v | | w1 | | w2 | so kann man nachrechnen, dass B ∈ O(3) und damit B −1 AB ∈ O(3) ist. Ferner gilt (B −1 AB) · e1 = (B −1 · A) · (B · e1 ) = B −1 · (A · v) = B −1 · (±v) = ±(B −1 · v) = ±e1 sowie für i ∈ {2, 3} (B −1 AB) · ei , e1 B∈O(3) = hA · (B · ei ), B · e1 i = hA · wi , vi A·v=±v = ± hA · wi , A · vi A∈O(3) = ± hwi , vi = 0. Somit ist ±1 B −1 AB = 0 0 0 0 e A z1 e ∈ M (2), denn für einen Vektor z = z2 ∈ R3 ist hz, ei i = zi für i ∈ {1, 2, 3}. mit A z3 Aus 1 0 0 1 0 0 ! 0 = (B −1 AB)T · (B −1 AB) = 0 T 0 0 2 e ·A e A I e ∈ O(2). Da in unserem Fall sogar A ∈ SO(3) gilt und folgt dann A e = det(B −1 AB) = det(B −1 ) · det(A) · det(B) = det(B)−1 · det(A) · det(B) ±1 · det(A) = det(A) = 1 e = 1 oder steht auf der Diagonalen von B −1 AB entweder 1 und es gilt det(A) e = −1. Im ersten Fall ist dann aber der Diagonaleintrag ist −1 und es gilt det(A) B −1 AB · e1 = e1 und im zweiten Fall entspricht fAe einer Spiegelung in der von e2 und e3 aufgespannten Ebene. Dann gibt es aber, wie gesehen, ein w ⊥ e1 mit B −1 AB · w = fAe(w) = w. In jedem Fall hat also B −1 AB einen Eigenwert 1. Nun haben aber A und B −1 AB wegen PB −1 AB (λ) = det(B −1 AB − λ · I3 ) = det(B −1 AB − λ · B −1 · I3 · B) = det(B −1 · (A − λ · I3 ) · B) = det(B −1 ) · det(A − λ · I3 ) · det(B) = det(B)−1 · det(A − λ · I3 ) · det(B) = det(A − λ · I3 ) = PA (λ) dieselben Eigenwerte. Somit hat A ebenfalls den Eigenwert 1 und die Behauptung folgt mit den obigen Überlegungen.