Inhaltsverzeichnis 1 Grundlagen 1.1 Mathematische Sprache . 1.2 Beweistechniken . . . . . 1.3 Mengen . . . . . . . . . 1.4 Abbildungen . . . . . . . 1.5 Natürliche Zahlen N und . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vollständige Induktion 2 Zahlen 2.1 Die Gruppe der ganzen Zahlen Z . . . . . . 2.2 Der Körper der rationalen Zahlen Q . . . . . 2.3 Der Körper der reellen Zahlen R . . . . . . . 2.4 Mächtigkeit von Mengen und Abzählbarkeit 2.5 Rechnerarithmetik . . . . . . . . . . . . . . 2.6 Der Körper der komplexen Zahlen C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 7 9 14 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 25 27 30 37 40 44 3 Konvergenz, Folgen und Reihen 3.1 Konvergenz . . . . . . . . . . . . . . . . . . . . 3.2 Bestimmung von Konvergenz und Grenzwerten . 3.3 Häufungspunkte und Teilfolgen . . . . . . . . . 3.4 Reihen . . . . . . . . . . . . . . . . . . . . . . . 3.5 Konvergenzkriterien für Reihen . . . . . . . . . 3.6 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 52 55 56 59 61 . . . . . 63 63 64 67 69 72 . . . . . 75 76 78 80 83 86 4 Stetigkeit 4.1 Intervalle . . . . . . . . . . . . . . . 4.2 Folgenstetigkeit . . . . . . . . . . . 4.3 -δ-Stetigkeit . . . . . . . . . . . . 4.4 Rechenregeln für stetige Funktionen 4.5 Zwischenwertsatz . . . . . . . . . . . . . . . 5 Differentiation 5.1 Ableitung von Funktionen . . . . . . 5.2 Ableitung als lineare Approximation 5.3 Ableitungsregeln . . . . . . . . . . . 5.4 Extrema und Mittelwertsatz . . . . . 5.5 Taylorreihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Inhaltsverzeichnis 5.6 Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Integration 6.1 Zerlegungen und Flächeninhalte . . . . . . . . . . 6.2 Riemann-Integral . . . . . . . . . . . . . . . . . . 6.3 Hauptsatz der Differential- und Integralrechnung . 6.4 Integrationsregeln . . . . . . . . . . . . . . . . . . 6.4.1 Partielle Integration . . . . . . . . . . . . 6.4.2 Substitutionsregeln . . . . . . . . . . . . . 6.5 Quadraturformeln . . . . . . . . . . . . . . . . . . 91 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 97 99 106 107 107 108 109 7 Vektorräume 7.1 Der n-dimensionale reelle Raum Rn . . . . . . . . . . 7.2 Raum von Folgen und Funktionen . . . . . . . . . . . 7.3 Allgemeine Definition von Vektorräumen . . . . . . . 7.4 Linearkombination, Span und lineare Unabhängigkeit 7.5 Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 113 117 120 122 126 . . . . . 131 131 135 153 161 171 8 Lineare Abbildungen 8.1 Lineare Gleichungssysteme und Matrizen . 8.2 Lösungsmengen, Kern und Bild . . . . . . 8.3 Elementarmatrizen und inverse Matrizen . 8.4 Lineare Abbildungen . . . . . . . . . . . . 8.5 Basiswahl und Koordinatentransformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Determinanten 183 9.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 184 9.2 Berechnung von Determinanten . . . . . . . . . . . . . . . . . . . . . . . 189 9.3 Determinante eines Endomorphismus . . . . . . . . . . . . . . . . . . . . 195 10 Eigenwerte 10.1 Eigenwert, Eigenvektor und Eigenräume . . . . . . . . . . . . . . . . . . 10.2 Das charakteristische Polynom . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Diagonalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 197 202 207 11 Euklidische und unitäre Vektorräume 11.1 Norm und Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Orthogonale Vektoren und Abbildungen . . . . . . . . . . . . . . . . . . 11.3 Adjungierte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 213 217 223 12 Metrische Räume 12.1 Metrik, Konvergenz und Vollständigkeit . 12.2 Offene und abgeschlossene Mengen . . . 12.3 Inneres, Äußeres, Rand und Abschluss . 12.4 Stetige Abbildungen . . . . . . . . . . . 229 229 232 235 237 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inhaltsverzeichnis 13 Differentiation im Rn 13.1 Partielle Ableitung . . . . . . . . . . . . . 13.2 Gradient, Jacobi-Matrix, Laplace-Operator 13.3 Differenzierbarkeit . . . . . . . . . . . . . 13.4 Taylorentwicklung und Extrema . . . . . . 13.5 Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 243 246 248 252 254 3 1 Grundlagen 1.1 Mathematische Sprache Möchte man mathematische Sachverhalte ausdrücken, so verwendet man dafür eine Sprache, die präziser in seiner Aussagekraft ist als dies zum Beispiel in der Alltagssprache üblich ist. Dadurch sollen mathematische Zusammenhänge übersichtlich und kompakt darstellbar sein und vor allem sollen mathematische Aussagen beweisbar werden. Es hat sich dazu ein gebräuchlicher Zeichenvorrat entwickelt, der neben weiteren grundlegenden Begriffen im Folgenden vorgestellt werden soll. Mathematische Aussagen Eine mathematische Aussage ist ein Satz, der wahr oder falsch sein kann. So ist zum Beispiel der Satz „Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“ eine Aussage, die wahr ist. Zwei Dinge sind bei der Betrachtung von Aussagen wichtig: (i) Eine Aussage ist immer ein ganzer Satz. Aussagen der Form „x2 + 3“ sind nur Terme, deren Wahrheitsgehalt sich nicht ermitteln lässt. (ii) Eine Aussage ist immer entweder wahr oder falsch („Tertium non datur“; Prinzip des ausgeschlossenen Dritten). Dabei ist durchaus möglich, dass noch nicht bekannt ist, ob eine Aussage wahr oder falsch ist (z.B. da noch kein Beweis gefunden ist). Aussagen werden gewöhlich mit lateinischen Großbuchstaben bezeichnet. Man verwendet bei der Angabe das Definitionssymbol := („ist definiert durch“). Zudem können Aussagen auch von Variablen abhängen. Durch Einsetzen eines konkreten Wertes für die Variable kann dann der Wahrheitsgehalt der so entstandenen Aussage ermittelt werden. Dadurch lassen sich ganze Klassen von Aussagen kompakt angeben. Beispiele 1.1 (i) A := „Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“ (ii) B(n) := „n + n ist eine gerade Zahl.“ (iii) C(n) := „n2 + 2n = 8“ (iv) D := „2 = 3“ 5 1 Grundlagen A w f w f B w w f f A∧B w f f f A∨B w w w f A xor B f w w f A w f ¬A f w Tabelle 1.1: Wahrheitstafeln (w: wahr; f: falsch) Hierbei ist sowohl A als auch B(n) für alle natürlichen Zahlen eine wahre Aussage. Die Gültigkeit von C(n) hängt vom gewählten n ab und D ist falsch. Kombination und Folgerung von Aussagen In der Alltagssprache ist es üblich Aussagen zu verneinen oder durch die Wörter „und“, „oder“, etc. zu neuen Aussagen zusammenzusetzen. Dies wird auch bei mathematischen Aussagen gemacht. Die dabei entstehenden zusammengesetzten Aussagen sind wiederum Aussagen, die wahr oder falsch sein können. Die Verknüpfungen werden mathematisch präzise über Wahrheitstafeln definiert. Seien A, B Aussagen, dann schreibt man: (i) A ∧ B: „A und B sind wahr“ (Konjunktion) (ii) A ∨ B: „A oder B ist wahr“ (Disjunktion) (iii) ¬A: „A ist falsch / A gilt nicht“ (Negation) (iv) A xor B: „Entweder A oder B ist wahr“ (Kontravalenz) Je nach Wahrheitsbelegung der ursprünglichen Aussagen besitzt die zusammengesetzte Aussage einen Wahrheitswert gemäß Tabelle 1.1. Wesentlich sind die Punkte: (i) A ∧ B ist genau nur dann wahr, wenn beide Aussagen A und B wahr sind. (ii) A ∨ B ist wahr, sobald mindestens eine der Aussagen A oder B wahr ist. Es dürfen dabei auch beide Aussagen wahr sein (inklusive oder ). (iii) A xor B ist wahr, wenn genau nur eine der Aussagen A oder B wahr ist. Sind A und B wahr, dann wird die Zusammensetzung falsch (exklusives oder ). Folgt aus A die Gültigkeit der Aussage B („Wenn A gilt, dann gilt auch B“ (Implikation)), so schreibt man dies als A ⇒ B. In diesem Fall bezeichnet man die Aussage A als hinreichend für die Gültigkeit von B. Verliert die Aussage B immer ihre Gültigkeit, sobald A nicht gültig ist (¬A ⇒ ¬B), so bezeichnet man A als notwendig für B. 6 1.2 Beweistechniken Man beachte, dass es bei der Folgerung A ⇒ B jedoch zwei Möglichkeiten gibt: - A ist wahr, B ist wahr - das ist der übliche, gewünschte Fall der Schlussfolgerung. - A ist falsch, B ist wahr oder falsch - d.h., aus einer falschen Aussage lässt sich alles schlussfolgern. Um auszudrücken, dass zwei Aussagen A, B gleichwertig sind („A gilt genau dann, wenn B gilt“ (Äquivalenz)), schreibt man A ⇔ B. Quantoren Oftmals möchte man Aussagen tätigen, die von äußeren Parametern abhängen. Dabei stellt sich dann zum Beispiel die Frage, ob die Aussage für alle möglichen Parameter gültig ist oder ob überhaupt ein Parameter existiert, für den diese Aussage gültig wird. Dies lässt sich über sogenannte Quantoren ausdrücken, die sich wie folgt lesen: (i) ∀: „für alle“ (ii) ∃: „es existiert (mindestens) ein“ (iii) ∃!: „es existiert genau ein“ (iv) @: „es existiert kein“ Beispiel 1.2 Sei B(n) := „n + n ist eine gerade Zahl.“ und C(n) := „n2 + 2n = 8“. (i) D := „∀n : B(n)“ (ii) E := „∃n : C(n)“ (iii) F := „∀n : C(n)“ Die beiden Aussagen D, E sind beide wahr. Hingegen ist die Aussage F falsch. 1.2 Beweistechniken In der Mathematik geht man davon aus, dass es gewissse Aussagen gibt, die gültig sind. Diese nennt man Axiome. Ausgehend von diesen Grundwahrheiten werden dann alle weiteren Aussagen gefolgert. Für die Schlussfolgerungen gibt es ein paar grundlegende Techniken, die sich oft anwenden lassen. Direkter Beweis Die einfachste Form des Beweises ist die direkte Schlussfolgerung. Dabei wird ausgehend von als wahr bekannten (bzw. als Axiom vorausgesetzen) Aussagen eine weitere wahre Aussage gefolgert. Dazu ein Beispiel: 7 1 Grundlagen Satz 1.3 (Quadratzahlen von geraden Zahlen sind gerade) Sei n eine gerade natürliche Zahl. Dann ist auch n2 eine gerade natürliche Zahl. Beweis. Sei A := „n eine gerade natürliche Zahl“. Daraus wird nun gezeigt, dass sich durch eine Kette von Implikationen die Aussage B := „n2 eine gerade natürliche Zahl“ folgern lässt. n gerade ⇒ Es gibt eine natürliche Zahl m mit n = 2 · m ⇒ n2 = (2 · m)2 = 4 · m2 = 2 · (2 · m2 ) ⇒ n2 gerade. Äquivalenzbeweis Ein Äquivalenzbeweis dient dazu die Gleichheit zweier Aussagen zu zeigen: A ⇔ B. Dies wird dadurch bewiesen, dass man einen direkten Beweis in beide Richtungen ausführt: Man zeigt sowohl A ⇒ B als auch B ⇒ A. Hieraus sieht man die Gleichheit der Aussagen. Beweis durch Kontraposition Möchte man A ⇒ B zeigen, so kann man stattdessen auch die äquivalente Aussage ¬B ⇒ ¬A zeigen, denn es gilt: (A ⇒ B) ⇔ (¬B ⇒ ¬A). Dazu ein Beispiel: Satz 1.4 Sei n2 eine gerade natürliche Zahl. Dann ist auch n eine gerade natürliche Zahl. Beweis. Sei A := „n2 eine gerade natürliche Zahl“ und B := „n eine gerade natürliche Zahl“. Anstatt A ⇒ B zu folgern, wird nun ¬B ⇒ ¬A gezeigt. ¬B = n ist eine ungerade natürliche Zahl ⇒ Es gibt eine natürliche Zahl m mit n = 2 · m + 1 ⇒ n2 = (2 · m + 1)2 = 4 · m2 + 4 · m + 1 = 2 · (2 · m2 + 2 · m) + 1 ⇒ n2 ist eine ungerade natürliche Zahl = ¬A 8 1.3 Mengen Widerspruchsbeweis (indirekter Schluss) Hier nimmt man an, dass die Aussage A ⇒ B, die man eigentlich beweisen möchte, nicht gilt. Die Negation von A ⇒ B lautet A ∧ ¬B. Hieraus leitet man nun einen Widerspruch her, d.h. dass damit dann gleichzeitig auch eine Aussage C und dessen Gegenteil ¬C gelten muss. Da dies nicht sein kann, muss die Annahme der Nagation falsch gewesen sein und somit die zu beweisende Aussage gelten. Satz 1.5 (Euklid) Es gibt unendlich viele Primzahlen. Beweis. Der Beweis wird durch einen Widerspruch geführt. Angenommen, es gäbe nur endlich viele Primzahlen. Dann lassen sich diese als p1 , p2 , . . . , pn auflisten und daraus eine neue Zahl M := p1 ·p2 ·. . .·pn bilden. Da M durch jede der Primzahlen teilbar ist, ist jedoch M +1 durch keine der Primzahlen teilbar und somit selbst eine Primzahl. Die Zahl M + 1 ist somit eine weitere Primzahl, die nicht in p1 , . . . , pn vorkommt - Widerspruch. Somit muss die Annahme, dass es nur endlich viele Primzahlen gibt, falsch gewesen sein. Eine weitere, sehr wichtige Beiweistechnik ist der Induktionsbeweis, mit dem man Aussagen beweisen kann, die von den natürlichen Zahlen abhängen. Auf Grund der Wichtigkeit der Induktion wird diese im weiteren Verlauf gesondert behandelt. 1.3 Mengen Einer der grundlegenden Begriffe der Mathematik ist die Menge. Die folgende intuitive Beschreibung stammt von G. Cantor. Definition 1.6 (Menge (Cantor, 1885)) Eine Menge ist eine wohldefinierte Zusammenfassung verschiedener Objekte zu einem Ganzen. Die Objekte in einer Menge werden Elemente genannt. Gemäß der Definition sind alle Elemente einer Menge von einander unterschiedlich. Üblicherweise werden Mengen durch lateinische Großbuchstaben A, B, C, . . . bezeichnet. Ist ein Objekt a Element einer Menge A, so schreibt man dies als a∈A (∈: „ist Element von“), andernfalls schreibt man a∈ /A (∈: / „ist nicht Element von“). 9 1 Grundlagen Beispiele 1.7 Beispiele für Mengen sind: (i) Die Menge der Studierenden an der Universität Frankfurt. (ii) Die Menge der Gemüse G := { Tomate, Gurke, Paprika, . . .}. (iii) Die Menge N := {0, 1, 2, 3, . . .} der natürlichen Zahlen. (iv) Die Menge N+ := {1, 2, 3, . . .} der positiven natürlichen Zahlen. (v) Die Menge Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . .} der ganzen Zahlen. Mengen werden durch die explizite Angabe ihrer Elemente beschrieben, A := {a, b, c, . . .}, oder man gibt die charakterisierende Eigenschaft ihrer Elemente an hat die Eigenschaft XY}. A := { a {z O} | a |∈ {z } | Obermenge Beispiele 1.8 Bedingung (i) Die Menge P oder P := {2, 3, 5, 7, 11, ..}, P := {n ∈ N+ | n ist Primzahl } beschreibt die Menge der Primzahlen, d.h. derjenigen natürlichen Zahlen, die nur durch 1 und sich selbst teilbar sind. (ii) Die Menge der positiven, geraden Zahlen {2, 4, 6, . . .}, oder {n ∈ N+ | ∃ m ∈ N : n = 2 · m}. (iii) Die Menge der Zahlen, die durch b ∈ N teilbar sind: {b, 2b, 3b, . . .}, oder {n ∈ N+ | ∃ m ∈ N : n = b · m}. (iv) Die Menge Q := { nz | z ∈ Z, n ∈ N+ }. Definition 1.9 Seien A und B Mengen. (a) A heißt Teilmenge von B, falls jedes Element von A auch in B enthalten ist. Man schreibt dies als A ⊂ B. (b) Gilt A ⊂ B und B ⊂ A, so sind die Mengen gleich: A = B. (c) Die leere Menge ∅ enthält kein Element und ist in jeder Menge enthalten. 10 1.3 Mengen (d) Der Durchschnitt A ∩ B besteht aus allen Elementen, die sowohl in A als auch in B enthalten sind: A ∩ B := {x | x ∈ A und x ∈ B}. (e) Die Vereinigung A ∪ B besteht aus allen Elementen, die in A oder in B enthalten sind: A ∪ B := {x | x ∈ A oder x ∈ B}. (f) Der Differenz A \ B besteht aus den Elementen, die in A aber nicht in B enthalten sind: A \ B := {x | x ∈ A und x ∈ / B}. A B A[B B A (a) A⇢B (b) A\B A\B Abbildung 1.1: (a) Teilmenge (b) verschiedene Mengenoperationen Bemerkung 1.10 (Exklusives und inklusives „oder“) Mit „oder“ ist das inklusive oder gemeint, d.h. A ∪ B enthält auch die Elemente, die sowohl in A als auch in B liegen. (Die Alternative ist das exklusive oder, bei dem ein Element entweder in A oder in B liegen muss, jedoch nicht in beiden gleichzeitig.) Für Vereinigung und Durchschnitt von Mengen gelten die folgenden Regeln: (a) Das Kommutativgesetz (es kommt nicht auf die Reihenfolge an): A ∪ B = B ∪ A, A∩B =B∩A (b) Das Assoziativgesetz (bei Mehrfachverkettung ist die Reihenfolge egal): (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C) 11 1 Grundlagen (c) Das Distributivgesetz : A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C), A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) Beweis. Möchte man zeigen, dass zwei Mengen X = Y identisch sind, dann bietet sich an zunächst einzeln sowohl X ⊂ Y als auch Y ⊂ X zu zeigen. Daraus folgt dann X = Y . Um die Aussage X ⊂ Y zu zeigen, wählt man ein beliebiges Element der Menge x ∈ X und zeigt dann, dass auch x ∈ Y gilt. Da das Element beliebig war, ist somit jedes Element aus X auch in Y enthalten und dies zeigt X ⊂ Y . Nach diesem Muster sei exemplarisch die Aussage A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) bewiesen. „A ∪ (B ∩ C) ⊂ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ A ∪ (B ∩ C) beliebig gewählt. Somit gilt x ∈ A oder x ∈ B ∩ C. Die beiden Fälle lassen sich getrennt betrachten: 1. Fall: Gilt x ∈ A, dann ist x ∈ A∪B und x ∈ A∪C und somit auch x ∈ (A∪B)∩(A∪C). 2. Fall: Gilt x ∈ B ∩ C, dann gilt x ∈ B und x ∈ C. Somit gilt auch x ∈ A ∪ B und x ∈ A ∪ C. Darauf folgt ebenfalls x ∈ (A ∪ B) ∩ (A ∪ C). „A ∪ (B ∩ C) ⊃ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ (A ∪ B) ∩ (A ∪ C) beliebig gewählt. Somit gilt x ∈ A ∪ B und x ∈ A ∪ C. Es lassen sich erneut zwei Fälle getrennt betrachten: 1. Fall: Gilt x ∈ A, dann ist x ∈ A ∪ (B ∩ C). 2. Fall: Gilt x ∈ / A, dann muss x ∈ B und x ∈ C gelten. Somit gilt auch x ∈ A ∪ (B ∩ C). Hat man mehrere Mengen, so lassen sich aus diesen die „Produktmenge“ bilden. Definition 1.11 (Kartesisches Produkt) Seien A, B zwei Mengen. Das kartesische Produkt von A und B ist die Menge A × B := {(a, b) | a ∈ A, b ∈ B}. Die Elemente (a, b) sind geordnete Paare und werden Tupel genannt. Analog lassen sich auch kartesische Produkte A1 × A2 × . . . × An definieren, die als Elemente n-Tupel (a1 , a2 , . . . , an ) besitzen. Zu einer gegebenen Menge lässt sich zudem die „Menge aller Teilmengen“ bilden. Definition 1.12 (Potenzmenge) Zu einer Menge A ist die Potenzmenge P gegeben durch die Menge aller Teilmengen, d.h. P(A) := {B | B ⊂ A}. 12 (1.1) 1.3 Mengen N N⇥N .. . .. . .. . .. . (0, 2) (1, 2) (2, 2) (1, 1) (2, 1) .. . .. . (0, 1) (0, 0) (1, 0) (2, 0) (3, 0) ... N Abbildung 1.2: Kartesisches Produkt N2 := N × N Beispiel 1.13 n o (i) P({1}) = ∅, {1} . n o (ii) P({1, 2}) = ∅, {1}, {2}, {1, 2} . n o (iii) P({1, 2, 3}) = ∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3} . Bemerkung 1.14 (Russellsche Antinomie) Der Mathematiker B. Russell hat durch ein Paradoxon gezeigt, dass beim Umgang von Konstrukten gemäß „Menge aller Mengen mit gewisser Eigenschaft“ Vorsicht geboten ist. Dazu konstruiert er die „Menge aller Mengen, die sich nicht selbst als Element enthalten“, d.h. formal R := {M | M ∈ / M }. (1.2) Man denke zum Beispiel an ein Buch, das alle Bücher auflistet, in denen nicht auf sich selbst verwiesen wird. Die Frage ist nun, ob diese Menge in sich selbst enthalten ist, d.h ob gilt R ∈ R oder R∈ / R. Enthält sich die Menge R nicht selbst, so muss sie sich aber gemäß Definition enthalten. Enthält R sich selbst, dann darf sie sich gemäß Definition nicht enthalten. Es gilt also der Widerspruch R∈R⇔R∈ / R. (1.3) Diese Problematik kann durch einen axiomatischen Ansatz der Mengenlehre umgangen werden. Für den Rahmen dieser Vorlesung soll der einfache Ansatz zur Mengenlehre aber genügen, auf widersprüchliche Definitionen wird verzichtet. 13 1 Grundlagen 1.4 Abbildungen Definition 1.15 (Abbildung) Eine Abbildung (auch Funktion) f von einer Menge A auf eine Menge B ist eine Vorschrift, die jedem Element a ∈ A genau ein Element b ∈ B zuordnet. Man schreibt: f : A → B, a 7→ f (a) oder auch kurz f : A → B, A 3 a 7→ f (a) ∈ B. Die Menge A heißt Definitionsbereich von f . Die Menge B heißt Wertebereich von f . Die Menge f (A) := {f (a) | a ∈ A} ⊂ B heißt Bild von f . Beispiele 1.16 Beispiele für Abbildungen zwischen Mengen: (a) f : {1, 2, 3} → {1, 2, 3, 4}, n 7→ n + 1: Abbildung auf nächste Zahl (b) g : N → N, n 7→ n2 : Abbildung der natürlichen Zahlen auf die Quadratzahlen (c) h : Z → Z, n 7→ n2 : Abbildung der ganzen Zahlen auf die Quadratzahlen Abbildungen zwischen Mengen lassen sich durch Wertetabellen angeben. Dies ist zum Beispiel die übliche Angabe einer Abbildung zwischen zwei Mengen, wenn es sich um experimentelle Messwerte handelt. Dann wird eine Abbildug zwischen der Menge der Messpunkte MP und der Menge der Messwerte MW aufgezeichnet: Messung : MP → MW. x ∈ MP 3 1 5 f (x) ∈ MW 9 8 16 Tabelle 1.2: Illustration der Wertetabelle zu einer Messung Alternativ lässt sich eine Abbildung gut durch ihren Graph veranschaulichen. Definition 1.17 (Graph) Zu einer Abbildung f : A → B heißt die Menge G := {(a, b) ∈ A × B | b = f (a)} der Graph der Abbildung. 14 1.4 Abbildungen Bild 4 3 f : {1, 2, 3} ! {1, 2, 3, 4}, 2 Wertebereich n 7! n + 1 1 1 2 | {z 3 } Definitionsbereich Abbildung 1.3: Graph, Definitonsbereich, Wertebereich und Bild einer Funktion Definition 1.18 (Injektiv, surjektiv und bijektiv) Sei f : A → B eine Abbildung. Die Abbildung heißt (a) injektiv, falls jedes Element aus B höchstens ein Urbild hat, d.h. wenn gilt ∀a1 , a2 ∈ A : f (a1 ) = f (a2 ) ⇒ a1 = a2 , (b) surjektiv, falls auf jedes Element aus B abgebildet wird, d.h. wenn gilt f (A) = B, (c) bijektiv (oder auch one-to-one), falls sie injektiv und surjektiv ist. Ist eine Abbildung f : A → B bijektiv, dann existiert zu jedem Element b ∈ B im Wertebereich mindestens ein Element a ∈ A im Definitionsbereich, das auf b = f (a) abbildet (surjektiv). Gleichzeitig gibt es aber höchstens ein Element a ∈ A im Definitionsbereich, das auf b = f (a) abbildet (injektiv). Somit gibt es genau ein solches Element. Bijektive Abbildungen lassen sich eindeutig umkehren. Definition 1.19 (Umkehrabbildung) Zu einer bijektiven Abbildung f : A → B ist die Umkehrabbildung gegeben durch f −1 : B → A, a = f −1 (b) :⇔ b = f (a). Umkehrabbildungen sind wieder bijektiv. Manchmal möchte man auch mehrere Abbildungen hintereinander ausführen. Dies geht dann, wenn der Bildbereich der einen Abbildung im Definitionsbereich der zweiten liegt. 15 1 Grundlagen f :A!B A a3 b3 a2 b2 a1 (a) B b1 a0 b0 A := {a0 , a1 , a2 , a3 } B := {b0 , b1 , b2 , b3 } f :A!B A b3 a2 b2 a1 (b) B b1 a0 b0 A := {a0 , a1 , a2 } B := {b0 , b1 , b2 , b3 } f :A!B A B b1 a0 a3 a2 b2 a1 (c) b0 A := {a0 , a1 , a2 , a3 } B := {b0 , b1 , b2 } Abbildung 1.4: Beispiele für eine Funktion f : A → B: (a) nicht injektiv, nicht surjektiv (b) injektiv, nicht surjektiv, (b) nicht injektiv, surjektiv f :A!B A f B b3 a0 a3 a2 a1 A a0 b1 b2 b0 1 :B!A B b3 a3 a2 a1 b1 b2 b0 Abbildung 1.5: Bijektive Funktion f : A → B und Umkehrfunktion f −1 : B → A 16 1.5 Natürliche Zahlen N und vollständige Induktion Definition 1.20 (Verkettung von Abbildungen) Seien f : A → B und g : C → D mit f (A) ⊂ C. Dann heißt die Abbildung g ◦ f : A → D, a 7→ g(f (a)), die Verkettung der Abbildungen f und g. Man liest dies als „g nach f “, denn die Abbildung f wird zuerst ausgeführt. 1.5 Natürliche Zahlen N und vollständige Induktion Die Menge der natürlichen Zahlen N := {0, 1, 2, 3, . . .} wird intuitiv verstanden und - wie der Name schon sagt - als „natürlich“ gegeben angesehen. Was aber genau die natürlichen Zahlen sind und wie diese mathematisch präzise zu verstehen sind, wurde immer wieder diskutiert. Heute werden die natürlichen Zahlen üblicherweise über ein Axiomensystem eingeführt. Definition 1.21 (G. Peano, 1889) (P1) Es gibt ein ausgezeichnetes (kleinstes) Element: 0 ∈ N. (P2) Zu jeder natürlichen Zahl n ∈ N gibt es einen Nachfolger ν(n) ∈ N. (P3) Die Zahl 0 ∈ N ist nicht Nachfolger einer natürlichen Zahl. (P4) Die Nachfolger unterschiedlicher Zahlen sind unterschiedlich: n1 6= n2 ⇒ ν(n1 ) 6= ν(n2 ). (P5) Enthält eine Menge M ⊂ N die Zahl 0 und mit jedem n ∈ M auch den Nachfolger ν(n) ∈ M , dann ist M = N. Die arithmetischen Grundoperationen lassen sich ausgehend von diesen Axiomen wie folgt definieren: n + 0 := n, n · 0 := 0, n + ν(m) := ν(n + m), n · ν(m) := n · m + n. 17 1 Grundlagen Man erhält so die üblichen Zahlen, wenn man definiert: 0 := 0, 1 := ν(0), 2 := ν(ν(0)) = ν(1), 3 := ν(ν(ν(0))) = ν(ν(1)) = ν(2), .. . Vollständige Induktion Eine wichtige Beweismethode ist die vollständige Induktion. Diese dient dazu Aussagen der Form A(n) zu beweisen, die von den natürlichen Zahlen abhängen. Man ist daran interessiert, dass man die Aussage für alle natürlichen Zahlen beweist. Dies sind jedoch unendlich viele Aussagen A(0), A(1), A(2), A(3), . . . und man kann diese nicht alle einzeln beweisen. Stattdessen zieht man sich auf das folgende Beweisprinzip zurück. Satz 1.22 (Induktionsprinzip) Sei A(n) eine Aussage, die von den natürlichen Zahlen n ∈ N abhängt. Falls gilt: (IA) Induktionsanfang: A(0) ist wahr, (IS) Induktionsschritt: Wenn A(n) wahr ist, dann ist auch A(n + 1) wahr, dann ist die Aussage A(n) für alle n ∈ N wahr. Beweis. Das Induktionsprinzip folgt direkt aus dem 5. Peanoschen Axiom. Dies sieht man wie folgt: Sei eine Teilmenge M ⊂ N definiert durch M := {n ∈ N | A(n) ist wahr }. Durch den Induktionsanfang gilt 0 ∈ M . Die Induktionsannahme besagt, dass aus n ∈ M auch n + 1 ∈ M folgt. Somit gilt mit dem 5. Peanoschen Axiom M = N. Bemerkung 1.23 Der Induktionsanfang muss nicht immer bei 0 gewählt werden. Gilt eine Aussage erst ab einem n0 ≥ 1, so zeigt man die Gültigkeit von A(n0 ) und ebenfalls den Induktionsschritt. Also Folgerung gilt dann A(n) für alle n ∈ N, n ≥ n0 , jedoch nicht für n < n0 . Mittels der Induktion lassen sich viele Aussagen über Summen beweisen. Dazu sei zunächst eine vereinfachende Notation für Summen und Produkte definiert. Definition 1.24 (Summe, Produkt) Seien {am , am+1 , . . . , an } ⊂ A Elemente einer Menge A, für die Summe als auch Produktbildung definiert ist. Für m, n ∈ Z, m ≤ n schreibt man am + am+1 + . . . + an =: n X i=m 18 ai . 1.5 Natürliche Zahlen N und vollständige Induktion Für m > n definiert man die leere Summe n X ai := 0, (m > n). i=m Analog schreibt man für die Multiplikation am · am+1 · . . . · an =: und n Y n Y ai , i=m ai := 1, (m ≤ n), (m > n). i=m Ein paar Beispiele sollen den Beiweis durch Induktion verdeutlichen. Satz 1.25 (C. F. Gauß) Für alle n ∈ N gilt: n X k=1 Beweis. Sei A(n) die Aussage: „ n P k= k=1 n(n+1) 2 k= n(n + 1) . 2 ist wahr“. Induktionsanfang (n = 0): 0 P k = 0 und 0(0+1) Für n = 0 ist = 0. Somit ist A(0) wahr. 2 Für n = 1 ist k=1 1 P k = 1 und k=1 1(1+1) 2 = 1. Somit ist A(1) wahr. Induktionsschritt: n P Angenommen A(n) ist wahr (Induktionsvoraussetzung, IV), d.h. es gelte k = k=1 n(n+1) . 2 Daraus schließt man auf die Gültigkeit von A(n + 1) wie folgt: n+1 X k= k=1 n X k=1 (IV) k + (n + 1) = n(n + 1) + (n + 1) 2 n(n + 1) + 2(n + 1) (n + 2)(n + 1) = 2 2 (n + 1)((n + 1) + 1) = . 2 = Somit folgt aus der Gültigkeit von A(n) auch die Gültigkeit von A(n + 1). 19 1 Grundlagen Satz 1.26 (Anzahl der Elemente der Potenzmenge) Sei M eine Menge mit n ∈ N Elementen. Dann hat die Potenzmenge P(M ) genau 2n Elemente. Beweis. Sei A(n) die Aussage: „Die Potenzmenge einer Menge mit n Elementen hat 2n Elemente“. Induktionsanfang (n = 1): Für M = {m} ist P({m}) = ∅, {m} und hat 2 = 21 Elemente. Somit ist A(1) wahr. Induktionsschritt: Angenommen A(n) ist wahr (Induktionsannahme), d.h. die Potenzmenge einer Menge mit n Elementen hat 2n Elemente. Nun muss gezeigt werden, wie viele Elemente die Potenzmenge einer Menge mit n + 1 Elementen hat. Sei M eine Menge mit n + 1 Elementen und sei ein m ∈ M willkürlich gewählt. Dann lässt sich M schreiben als M = N ∪ {m}, und N hat n Elemente. mit N := M \ {m}, Es gibt nun zwei Arten von Teilmengen von M : (a) Jene Teilmengen, die m nicht enthalten, d.h. die Teilmengen von N := M \ {m}. Nach Induktionsvoraussetzung sind dies 2n . (b) Jene Teilmengen, die m enthalten, d.h. alle Teilmengen der Form B ∪ {m} mit B ⊂ N . Nach Induktionsvoraussetzung sind dies 2n . Somit hat M genau 2n + 2n = 2 · 2n = 2n+1 Elemente. Somit gilt A(n + 1). Rekursive Definition Umgekehrt kann das Induktionsprinzip auch genutzt werden, um rekursive Definitionen D(n) vorzunehmen. Dazu definiert man zunächst für D(0) und gibt dann die Definition D(n) für alle weiteren n ∈ N, n ≥ 1 durch D(n) := F (D(0), D(1), . . . , D(n − 1)) als eine Vorschrift an, die von den vorhergehenden Definitionen abhängen kann. Definition 1.27 (Potenz) Sei a ∈ N. Die n-te Potenz von a ist rekursiv definiert durch ( 1, n = 0, an := a · an−1 , n ≥ 1. Definition 1.28 (Fakultät) Die n-Fakultät ist rekursiv definiert durch ( 1, n! := n · (n − 1)!, 20 n = 0, n ≥ 1. 1.5 Natürliche Zahlen N und vollständige Induktion Solche rekursiven Definitionen lassen sich auch verwenden, um biologische Populationen zu beschreiben. So hat Leonardo da Pisa (genannt Fibonacci) bereits 1220 die Anzahl an Kaninchenpaaren berechnet. Er nahm dabei an, dass jedes Paar an Kaninchen ab dem zweiten Lebensmonat jeden Monat ein weiteres Paar als Nachwuchs bekommt und Kaninchen unsterblich sind. Beginnt man mit einer Population von einem neu geborenen Kaninchenpaar in Monat eins, F1 = 1, so bleibt es bei einem in Monat zwei, F2 = 1, und in Monat drei bekommt dieses Paar den ersten Nachwuchs, F3 = 2. Im Monat vier bekommt weiterhin nur das erste Paar Nachwuchs, F4 = 3, ab Monat fünf dann auch das Paar aus Monat 3, F5 = 5, usw. In jedem Monat gibt es folglich immer die Anzahl Paare, die im Vormonat vorhanden waren, plus der Nachwuchs der Paare die bereits vor zwei Monaten lebten, d.h. Fn+1 = Fn + Fn−1 . Definition 1.29 (Fibonacci-Folge) Die Fibonacci-Zahlen Fn , n ∈ N+ , sind definiert durch n = 1, 1, Fn := 1, n = 2, Fn−1 + Fn−2 , n ≥ 3. 21 2 Zahlen Betrachtet man die Menge der natürlichen Zahlen N = {0, 1, 2, 3, . . .}, so lassen sich in gewissen Fällen die elementaren arithmetischen Operationen „a + b“ (Addition) und „a · b“ (Multiplikation) umkehren, die dann als „b − a“ (Subtraktion) und „ ab “ (Division) bezeichnet werden. Allerdings lassen sich Addition und Division nicht für beliebige Zahlen aus N definieren - so ist z.B. die Subtraktion für „b − a“ zunächst nur für Paare (b, a) natürlicher Zahlen sinnvoll, für die b > a gilt. Dies zeigt: Während die Addition + : N × N → N, (a, b) 7→ a + b für alle Paare natürliche Zahlen definiert ist, so ist die Subtraktion − : N × N → N, (a, b) 7→ a − b nicht immer erklärt - man spricht davon, dass die Menge der natürlichen Zahlen bezüglich der Subtraktion „unvollständig“ ist. Man möchte daher den Zahlenraum dahingehend erweitern, dass die Operationen der Subtraktion und Division immer erklärt sind - dies führt auf die größeren Zahlenmengen der ganzen Zahlen Z und der rationalen Zahlen Q. Um diesen Erweiterungsprozess mathematisch beschreiben zu können, wird die Äquivalenzrelation verwendet. Definition 2.1 (Relation) Eine Relation zwischen zwei Mengen A, B ist eine Teilmenge R ⊂ A×B des kartesischen Produkts der Mengen. Zu einer Relation R lässt sich immer entscheiden, ob ein Paar (a, b) ∈ A × B in der Relation vorhanden ist oder nicht. Ist es Teil der Relation, d.h. (a, b) ∈ R, so schreibt R man dies als a ∼ b oder auch kurz a ∼ b, wenn aus dem Kontext hervorgeht, welche Relation gemeint ist. Eine sehr häufige Verwendung der Relation dient zur Beschreibung von Äquivalenzen innerhalb einer Menge. Definition 2.2 (Äquivalenzrelation) Eine Äquivalenzrelation auf einer Menge A ist eine Relation R ⊂ A × A mit den Eigenschaften (i) Reflexivität: a ∼ a für alle a ∈ A, (ii) Symmetriegesetz: a ∼ b ⇒ b ∼ a, 23 2 Zahlen y1 y1 6 5 4 3 2 1 t1 t2 t3 Abbildung 2.1: Beispiel einer Relation: Eine Messreihe an den Zeitpunkten t1 , t2 , t3 , . . . zeichnet im Fehlerbalkendiagramm als „Messwert“ den Fehlerbereich zu jedem ti als die Teilmenge {y | y i ≤≤ y i } auf (iii) Transitivität: a ∼ b, b ∼ c ⇒ a ∼ c. Die Bedeutung von Äquivalenzrelationen liegt darin, dass sich dadurch Mengen in Teilmengen („Klassen“) einteilen lassen, die eine gröbere Beschreibung der Menge sind, jedoch gewünschte „wesentliche“ Aspekte hervorheben. Beispiel 2.3 Als Blutgruppen von Menschen werden die Zuordnungen A, B, AB und 0 verwendet. Durch diese Zuordnung lässt sich auf der Menge der Menschen eine Relation definitieren gemäß x ∼ y :⇔ x, y haben diesselbe Blutgruppe Dabei bezeichnet man die Äquivalenzklassen durch die folgende Schreibweise [a] := {b ∈ A | b ∼ a}. Das (zufällig gewählte) erzeugene Element a wird Repräsentant der Äquivalenzklasse [a] genannt. Beispiel 2.4 Die natürlichen Zahlen N lassen sich gerade und ungerade Zahlen aufteilen. Diese unterscheiden sich dadurch, ob sie durch 2 teilbar sind oder nicht, d.h. ob bei Division durch 2 ein Rest bleibt oder nicht: a ∼ b :⇔ a, b haben bei Division durch 2 denselben Rest Dadurch entstehen die Restklassen [1] := {a ∈ N | @c ∈ N : a = 2c} = {1, 3, 5, 7, . . .}, [2] := {a ∈ N | ∃c ∈ N : a = 2c} = {0, 2, 4, 6, . . .}. 24 2.1 Die Gruppe der ganzen Zahlen Z Beispiel 2.5 Der Menge Z × N+ lassen sich die rationalen Zahlen als Brüche zuordnen: a mit (a, b) ∈ Z × N+ . b Hier sind jedoch gewisse Brüche äquivalent. So sind z.B. 21 , 24 , 63 , . . . alle mit derselben rationalen Zahl assoziiert. Dafür lässt sich die Äquivalenzrelation (a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b (d.h. gedacht a0 a = 0 ). b b Die Menge der rationalen Zahlen kann man dann auffassen als die Menge der Äquivalenzklassen Q := {[(a, b)] | (a, b) ∈ Z × N+ }. Das letzte Beispiel motiviert nun die folgende Erweiterung des Zahlenbereichs N zu Z und Z zu Q. 2.1 Die Gruppe der ganzen Zahlen Z Die Menge der natürlichen Zahlen ist unter der Subtraktion nicht vollständig. Für Paare a, b ∈ N ist die Gleichung a+x=b nicht immer durch ein x ∈ N lösbar. Formal lässt sich dies für den Fall a > b immer durch die Einführung einer negativen Zahl x := b − a erreichen. Allerdings gibt es hier eine Mehrdeutigkeit: Es gibt unendlich vielen Differenzen b − a = (b + 1) − (a + 1) = (b + 2) − (a + 2) = . . ., die diese Gleichung formal lösen. Abhilfe schafft hier die Betrachtung der folgenden Äquivalenzrelation auf N × N: (a, b) ∼ (a0 , b0 ) :⇔ a + b0 = a0 + b. Dass es sich hier um eine Äquivalenzrelation handelt, zeigt sich folgendermaßen: (i) Reflexivität: für alle a, b ∈ N gilt a + b = a + b ⇒ (a, b) ∼ (a, b). (ii) Symmetrie: (a, b) ∼ (a0 , b0 ) ⇔ a + b0 = a0 + b ⇔ a0 + b = a + b0 ⇔ (a0 , b0 ) ∼ (a, b). (iii) Transitivität: Mit (a, b) ∼ (a0 , b0 ) und (a0 , b0 ) ∼ (a00 , b00 ) gilt a + b0 = a0 + b und a0 + b00 = a00 + b0 . Somit a + b00 + b0 = (a + b0 ) + b00 = (a0 + b) + b00 = (a0 + b00 ) + b = (a00 + b0 ) + b = a00 + b + b0 und somit a + b00 = a00 + b bzw. (a, b) ∼ (a00 , b00 ). 25 2 Zahlen Die zugehörigen Äquivalenzklassen [(a, b)] werden von den Paaren der natürlichen Zahlen gebildet, die dieselbe Differenz aufweisen. Damit lässt sich die Äquivalenzklasse [(a, b)] dann interpretieren als (i) für a > b als natürliche Zahl a − b ∈ N, (ii) für a = b als neutrale Zahl 0, (iii) für a < b als negative Zahl a − b. Die Menge der ganzen Zahlen lässt sich entsprechend als Menge von Äquivalenzklassen definieren: Z : = {[(n, 0)] | n ∈ N} ∪ [(0, n)] | n ∈ N+ . Die natürlichen Zahlen sind diesen Äquivalenzklassen zuordbar, indem man den folgenden Repräsentanten wählt N 3 n 7→ [(n, 0)] ∈ Z. Die Äquivalenzklassen [(0, n)] ∈ Z notiert man entsprechend mit 0 − n oder einfach −n. Mittels dieser Erweiterung von N nach Z ist nun der Zahlenbereich bezüglich der Subtraktion abgeschlossen, d.h. formal: jede Gleichung der Form a + x = b mit a, b ∈ Z hat eine Lösung x ∈ Z. Das mathematische Konstrukt der ganzen Zahlen ist prototypisch für viele andere Gebilde der Mathematik. Die elementaren Eigenschaften werden in der folgenden Definition zusammengefasst. Definition 2.6 (Gruppe) Eine Menge G mit einer Verknüpfung ◦: G×G→G (a, b) 7→ a ◦ b wird als Gruppe (G, ◦) bezeichnet, falls die folgenden Eigenschaften gelten: (a) Die Verknüpfung ist assoziativ, d.h. es gilt (a ◦ b) ◦ c = a ◦ (b ◦ c) für alle a, b, c ∈ G. (b) Es existiert ein neutrales Element e ∈ G, so dass a◦e=e◦a=a für alle a ∈ G. (c) Es existiert ein inverses Element a−1 ∈ G, so dass a ◦ a−1 = a−1 ◦ a = e für alle a ∈ G. Eine Gruppe (G, ◦) heißt kommutativ (oder abelsch), falls für alle a, b ∈ G zusätzlich das Kommutativgesetz a◦b=b◦a erfüllt ist. 26 2.2 Der Körper der rationalen Zahlen Q Eine Gruppe ist dadurch gekennzeichnet, dass sich Gleichungen der Form a ◦ x = b lösen lassen. Denn für jede Gleichung a ◦ x = b mit a, b ∈ G folgt allein aus der Gruppendefinition, dass x = a−1 ◦ b eine Lösung ist, da gilt a ◦ (a−1 ◦ b) = (a ◦ a−1 ) ◦ b = e ◦ b = b. Die ganzen Zahlen mit der Addition bilden folglich eine Gruppe (Z, +). Das neutrale Element ist die Null (e = 0) und das inverse Element zu einer Zahl a ∈ Z ist die Zahl −a ∈ Z. Die natürlichen Zahlen (N, +) hingegen bilden noch keine Gruppe, da das inverse Element nicht zu jedem Element existiert. 2.2 Der Körper der rationalen Zahlen Q Für die Menge Z hat nun die Gleichung a + x = b die Lösung x = b − a und ist somit bezüglich der Subtraktion abgeschlossen. Jedoch lässt sich die Gleichung a·x=b nicht immer durch ein x ∈ Z lösen. Der Zahlenbereich muss folglich ein weiteres mal erweitert werden, diesmal zur Menge der rationalen Zahlen Q. Man betrachte für a, a0 ∈ Z, b, b0 ∈ N+ zunächst die Äquivalenzrelation (a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b. Zu a ∈ Z, b ∈ N+ sei die zugehörige Äquivalenzklasse [(a, b)] dann mit a := [(a, b)] = {a0 ∈ Z, b0 ∈ N+ | ab0 = a0 b} b bezeichnet. Dies führt auf die Menge der rationalen Zahlen als Menge von Äquivalenzklassen Q := o 0 | a ∈ Z \ {0}, b ∈ N , a, b teilerfremd ∪ . b 1 na + Als Repräsentant der jeweiligen Äquivalenzklasse wird also der Bruch in seiner vollständig gekürzten Fassung gewählt, bzw. 01 als Repräsentant der 0. In der Menge Q hat nun sowohl die Gleichung a + x = b als auch a · x = b immer eine Lösung. Sie ist somit sowohl bezüglich der Subtraktion als auch bezüglich der Division abgeschlossen. Dieses mathematische Gebilde ist wiederum sehr prototypisch. Seine Eigenschaften werden unter der Bezeichnung Körper abstrakt zusammengefasst. 27 2 Zahlen Definition 2.7 (Körper) Eine Menge K mit zwei Verknüpfungen + : K × K → K, · : K × K → K, heißt Körper, falls gilt: (a, b) 7→ a + b, (a, b) 7→ a · b, (Addition) (M ultiplikation) (K1) Addition und Multiplikation sind kommutativ, d.h. für alle a, b ∈ K gilt: a + b = b + a, a · b = b · a. (K2) Addition und Multiplikation sind assoziativ, d.h. für alle a, b, c ∈ K gilt: (a + b) + c = a + (b + c), (a · b) · c = a · (b · c). (K3) Es gilt das Distributivgesetz, d.h. für alle a, b, c ∈ K gilt: a · (b + c) = a · b + a · c. (K4) Die folgenden Gleichungen haben für alle a, b ∈ K ein Lösung x ∈ K: a + x = b, a · x = b sofern a 6= 0. Aus den Eigenschaften (K4) folgen direkt wichtige Eigenschaften eines Körpers. Satz 2.8 In einem Körper gibt es bzgl. der Addition ein neutrales Element 0 und zu jedem Element a ein Inverses −a. Ebenso gibt es bzgl. der Multiplikation ein neutrales Element 1 und zu jedem Element a 6= 0 ein Inverses a−1 . Beweis. Nach (K4) ist im Speziellen die Gleichung a + x = a für alle a lösbar. Die Lösung ist das verlangte neutrale Element 0. Dieses ist eindeutig, denn gäbe es ein weiteres Element 00 mit a + 00 = a, so folgt mit a + 00 = a = a + 0 durch Kürzen von a immer 00 = 0. Ebenso folgt aus (K4), dass die Lösung von a + x = 0 existiert und gerade das inverse Element −a darstellt. Für die Multiplikation argumentiert man analog. Der vorangeganene Satz zeigt, dass man einen Körper auch alternativ folgendermaßen definieren kann: Bemerkung 2.9 (Körper – alternative Definition) Ein Körper (K, +, ·) ist eine Menge K mit zwei Verknüpfungen + („Addition“) und · (Multiplikation) mit den Eigenschaften (i) (K, +) ist eine kommutative Gruppe mit neutralem Element 0, (ii) (K \ {0}, ·) ist eine kommutative Gruppe mit neutralem Element 1, (iii) Multiplikation und Addition sind distributiv: a · (b + c) = a · b + a · c. 28 2.2 Der Körper der rationalen Zahlen Q Anordnung von Q Auf der Menge der rationalen Zahlen Q lassen sich gewisse Zahlen als positiv auszeichnen, indem man die Teilmenge Q+ := {a ∈ Q | a = z , z, n ∈ N+ } n auszeichnet. Dadurch lässt sich für Paare (a, b) ∈ Q × Q die Ordnungsrelation a > b :⇔ a − b ∈ Q+ definieren. Analog definiert man a < b :⇔ b > a, a ≤ b :⇔ a < b oder a = b, a ≥ b :⇔ b ≤ a, und erhält die gewohnten kleiner und größer Beziehungen. Auf Q lässt sich der Absolutbetrag definieren durch a > 0, a, |a| := 0, a = 0, −a, a < 0. Satz 2.10 (Eigenschaften des Betrags) Für beliebige Zahlen a, b ∈ Q besitzt der Betrag die folgenden drei charakteristischen Eigenschaften: (i) Definitheit: |a| = 0 ⇒ a = 0. (ii) Multiplikativität: |a · b| = |a| · |b|. (iii) Dreiecksungleichung: |a + b| ≤ |a| + |b| (auch Subadditivität). Zudem gilt: (iv) ||a| − |b|| ≤ |a + b|. (v) ||a| − |b|| ≤ |a − b|. Beweis. Exemplarisch wird (v) gezeigt: |a| = |a − b + b| ≤ |a − b| + |b| ⇒ |a| − |b| ≤ |a − b| und und |b| = |b − a + a| ≤ |b − a| + |a| |b| − |a| ≤ |a − b|. Somit folgt insgesamt: ||a| − |b|| ≤ |a − b|. 29 2 Zahlen 2.3 Der Körper der reellen Zahlen R In den vorangegenenen Abschnitten wurde der Zahlenbereich der natürlichen Zahlen N schrittweise zunächst zu den ganzen Zahlen Z und dann zu den rationalen Zahlen Q erweitert, so dass man immer größere Zahlenräume N ⊂ Z ⊂ Q erhalten hat. Bei jeder Erweiterung stand die Fragestellung im Raum, ob sich gewisse Gleichungen lösen lassen. Im Körper Q schließlich lassen sich nun lineare Gleichungen bzgl. der Addition und der Multiplikation stets lösen. Konsequenter Weise lässt sich fragen, ob nun allgemeine quadratische Gleichungen der Form für a, b, c, d ∈ Q a + b · x + c · x2 = d eine Lösung x ∈ Q besitzen. Wieder stellt man fest, dass sich nicht jede Gleichung in Q lösen lässt. Satz 2.11 (Irrationalität der Quadratwurzel) Die quadratische Gleichung x2 = 2 besitzt keine Lösung in Q. Beweis. Widerspruchsbeweis: Angenommen, es gäbe die Lösung x = nz mit Zahlen r ∈ Z, n ∈ N+ , so dass x2 = 2. Es sei dann die vollständig gekürzte Fassung des Bruchs gewählt. Insbesondere seien Nenner und Zähler nicht gleichzeitig durch 2 teilbar. Nun ist aber r2 = 2 · n2 und somit r durch 2 teilbar. Wählt man r = 2 · s, so ist aber wegen 2 · s2 = n2 auch n durch 2 teilbar. Widerspruch. p 2 1 1 Abbildung 2.2: Geometrische Interpretation der Lösung von x2 = 12 + 12 = 2. Erneut möchte man den Zahlenbereich erweitern, damit solche Gleichungen eine Lösung bekommen. Anschaulich entspricht die Lösung x2 = 2 zum Beispiel der Diagonalen im 30 2.3 Der Körper der reellen Zahlen R Einheitsquadrat und solche Längen möchte man mit dem Zahlenraum ebenfalls abdecken können. Die Idee ist nun, nach und nach eine Folge von rationalen Zahlen zu konstruieren, die die Lösung der Gleichung x2 = 2 immer besser annähern. Man gewinnt so eine Approximation, d.h. eine Näherungslösung, der gesuchten Lösung. Dazu seien zunächst einige Begrifflichkeiten genauer geklärt: Definition 2.12 (Folge) Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet. Beispiele 2.13 (a) Mit an = n ∀n ∈ N erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...) = (n)n∈N . (b) Mit an = 1 n+1 1 ∀n ∈ N erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) = ( n+1 )n∈N . n )n∈N = (0, 12 , 23 , 43 , ...). (c) ( n+1 Nützlich ist im Folgenden auch die Darstellung von Zahlen als Dezimalzahlen. Definition 2.14 (Dezimalbruchdarstellung) Die Dezimalbruchdarstellung einer Zahl ! k X d1 d2 d3 dk −j a = ± a0 + dj · 10 = ± a0 + + + + ... + k 10 102 103 10 j=1 mit a0 , k ∈ N, d1 , ..., dk ∈ {0, 1, 2, ..., 9}, sei im Folgenden gegeben durch a = ±(a0 , d1 ...dk ). Ein mögliches Verfahren zur Approximation der Lösung von x2 = 2 besteht nun darin, die Lösung x durch eine Folge von Zahlen aus Q sowohl von unten als auch von oben einzugrenzen. Dazu betrachte man die Foglen an = an−1 + dan , 10n für n>0, a0 = 1, bn = bn−1 − dbn , 10n für n>0, b0 = 2, und mit dan , dbn ∈ {0, 1, 2, ..., 9} ∀n ∈ N+ , wobei für alle n ∈ N gelte: bn − an = 10−n , a2n < 2 < b2n . 31 2 Zahlen Um diese Folge zu konstruieren beginnt man also mit denjenigen ganzen Zahlen, die am nächsten unterhalb bzw. oberhalb der gesuchten Lösung liegen (a0 = 1 und b0 = 2). Diese erfüllen die geforderten Bedingungen: b0 − a0 = 2 − 1 = 1 = 10−0 , a20 = 1 < 2 < 4 = b20 . Die nächste Annäherung an die Lösung erhält man nun, indem man diejenigen Zehntel da db1 1 und addiert bzw. abzieht, so dass die oben geforderten Bedingungen erfüllt sind. 10 10 2 2 da da a 1 1 +1 Dazu zählt man d1 von 0 aus so lange hoch bis gilt: a0 + 10 < 2 < a0 + 10 Dies ist gerade für da1 = 4 der Fall. Man wähle dann db1 = 9 − da1 , womit sich ergibt: b1 − a1 = 1, 5 − 1, 4 = 0, 1 = 10−1 , a21 = 1, 96 < 2 < 2, 25 = b21 . Dieses Vorgehen lässt sich beliebig lang fortführen. In den ersten 10 Schritten erhält man so die folgenden Werte für an und bn : n 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: an 1 1,4 1,41 1,414 1,4142 1,41421 1,414213 1,4142135 1,41421356 1,414213562 bn 2 1,5 1,42 1,415 1,4143 1,41422 1,414214 1,4142136 1,41421357 1,414213563 ? (x2 = 2) ai a0 a1 a2 . . . an bi bn . . . b2 b1 b0 Abbildung 2.3: Approximation der Lösung von x2 = 2 durch zwei Folgen. Nach Konstruktion liegen folglich die Zahlen an stets unterhalb, die Zahlen bn stets überhalb der gesuchten Lösung. Zusätzlich jedoch verringert sich der Abstand zwischen den 32 2.3 Der Körper der reellen Zahlen R Zahlen immer mehr, so dass für das n-te Folgenglied beider Folgen gilt, dass der Abstand zur tatsächlichen Lösung kleiner 10−n ist, die Lösung also immer besser angenähert (approximiert) wird. Die Lösung der Gleichung x2 = 2 lässt sich also über Folgen beliebig genau eingrenzen. Man ist deshalb bestrebt den Zahlenraum um die Grenzwerte dieser Folgen zu erweitern. Mit dem Grenzwert a zur Folge (an )n∈N = (a0 , a1 , a2 , . . .) ist dabei derjenige Wert gemeint, dem die Folgenglieder mit fortschreitendem n immer näher kommen. Der Abstand zwischen den Folgengliedern an und dem Grenzwert a wird also immer kleiner. Dies wird durch das folgende Kriterium formalisiert. Definition 2.15 (Cauchy Konvergenzkriterium) Eine Folge (an )n∈N heißt konvergent gegen einen Grenzwert (Limes) a, falls es zu jedem (beliebig kleinen) > 0 ein n ∈ N gibt, so dass gilt: Dies wird notiert als für |an − a| < n ≥ n . oder |an − a| → 0 (n → 0) lim an = a. n→∞ Man beachte dabei, dass das zu wählende n vom gewählten abhängt. Im Allgemeinen wird man n desto größer wählen müssen je kleiner man wählt. a = lim an n!1 a0 a2 a5 a6 ✏ . . . a7 a4 a3 a1 ✏ Abbildung 2.4: Illustration des Konvergenzkriterium für die Folge (an )n∈N mit a = limn→∞ an . Für jedes > 0 liegen die Folgenglieder ab einem n ∈ N alle höchstens vom Grenzwert a entfernt. Problematisch ist diese Definition, wenn der Grenzwert einer Folge nicht im gleichen Raum wie die Folgenglieder selbst liegen. √ Dies ist aber gerade bei der oben konstruierten Folge in Q der Fall, da der Grenzwert 2 selbst nicht in Q liegt. Dies lässt sich umgehen, indem man die Konvergenz einer Folge ausdrückt, ohne den Grenzwert explizit zu verwenden: Definition 2.16 (Cauchy-Folge) Eine Folge (an )n∈N heißt Cauchy-Folge, wenn es zu jedem (beliebig kleinen) > 0 eine natürliche Zahl n ∈ N gibt, so dass gilt: |an − am | < für alle n, m ≥ n . 33 2 Zahlen Anschaulich bedeutet dies, dass sich die Folgenglieder einer Cauchy-Folge ab einer gewissen Stelle nicht mehr als einen vorgegebenen Abstand voneinander unterscheiden und dass dieser Abstand beliebig klein gewählt werden kann. Analog zur Konstruktion der ganzen und rationalen Zahlen wird zur Konstruktion der reellen Zahlen eine Äquivalenzrelation verwendet. Für die Menge der Cauchy-Folgen in den rationalen Zahlen ist durch (an )n∈N ∼ (a0 n )n∈N :⇔ |an − a0 n | → 0 (n → ∞) eine Äquivalenzrelation gegeben. Die reellen Zahlen lassen sich dann als Menge der Äquivalenzklassen bezüglich dieser Relation auffassen: R := {[(an )n∈N ] | (an )n∈N ist Cauchy-Folge in Q} . Die rationalen Zahlen lassen sich in die Menge der reellen Zahlen in natürlicher Weise einbetten, indem man diese als konstante Cauchy-Folgen auffasst: Für a ∈ Q : (an )n∈N mit an = a für alle n Identifiziert man jede Äquivalenzklasse von Cauchy-Folgen mit dem gemeinsamen Grenzwert der jeweils enthaltenen Folgen, so wird die Idee hinter der Konstruktion der reellen Zahlen als Menge aller Grenzwerte von Cauchy-Folgen in Q klarer. Der folgende Satz hilft dabei eine konkretere Vorstellung der reellen Zahlen zu entwickeln: Satz 2.17 Jeder Äquivalenzklasse [(an )n∈N ] ∈ R entspricht genau ein (gegebenenfalls unendlicher) Dezimalbruch. a := {±(a0 , d1 d2 d3 ...) | a0 ∈ N, dk ∈ {0, 1, ..., 9} ∀k > 0}. Umgekehrt entspricht jedem solchen Dezimalbruch genau eine Äquivalenzklasse in R. R lässt sich dementsprechend auch als Menge von (gegebenenfalls unendlichen) Dezimalbrüchen auffassen. Beweis. (Skizze) Fasst man einen unendlichen Dezimalbruch als Folge von endlichen Dezimalbrüchen auf, so lässt sich zeigen, dass es sich dabei um eine Cauchy-Folge handelt. Damit repräsentiert der Dezimalbruch ein Element aus R. Schließt man Periode 9 bei der Dezimalbruchdarstellung aus, so lässt sich auch zeigen, dass zwei unterschiedliche Dezimalbrüche niemals zur gleichen Äquivalenzklasse gehören können. Umgekehrt lässt sich über das Prinzip der Intervallschachtelung zeigen, dass sich zu jeder Äquivalenzklasse a = [(an )n∈N ] ∈ R ein (gegebenenfalls unendlicher) Dezimalbruch finden lässt, der eben zu dieser Äquivalenzklasse gehört. Die beiden Darstellungen sind damit äquivalent. 34 2.3 Der Körper der reellen Zahlen R Übertragung der Eigenschaften von Q auf R Die wesentlichen Eigenschaften von Q übertragen sich auf die reellen Zahlen R. Von der Anordnung von Q ausgehend lassen sich auch auf R Ordnungsrelationen definieren. Dazu werden die zu Zahlen den a, b ∈ R zugehörigen Äquivalenzklassen von Cauchy-Folgen (an )n∈N , (bn )n∈N in Q betrachtet. Für alle a := [(an )n∈N )] ∈ R, b := [(bn )n∈N )] ∈ R, an ∈ Q ∀n ∈ N bn ∈ Q ∀n ∈ N definiert man a>b ∃N ∈ N : (an − bn ) > 0 ∀n > N. :⇔ und entsprechend a≥b a<b a≤b :⇔ :⇔ :⇔ a > b oder a = b, b > a, b ≥ a. Analog zu Q sei dann auch auf R die Betragsfunktion gegeben als: R → R+ 0, a, |a| := 0, −a, |·|: a > 0, a = 0, a < 0. In analoger Weise sollen die elementaren Rechenoperationen von Q auf R übertragen werden. Dazu ist der folgende Hilfssatz wichtig. Satz 2.18 Seien (an )n∈N und (bn )n∈N Cauchy-Folgen mit Grenzwerten lim an = a n→∞ und lim bn = b. n→∞ Dann gilt (i) lim {an + bn } = a + b, n→∞ (ii) lim {an · bn } = a · b, n→∞ (iii) lim { abnn } = ab , falls alle |bn | ≥ α > 0 und |b| = 6 0 echt positiv sind. n→∞ 35 2 Zahlen Beweis. Der technische Beweis wird ausgelassen. Somit lassen sich die arithmetischen Operationen von Q auf R übertragen und man erhält das folgende Resultat. Satz 2.19 R mit Addition und Multiplikation bildet den Körper (R, +, ·). Beweis. Die arihtmetischen Grundoperationen + und · übertragen sich direkt von Q auf R und somit sind Assoziativität und Kommutativität sowie das Distributivgesetz direkt erfüllt. Es verbleibt zu zeigen, dass die Lösungen von linearen Gleichungen existieren. Sei dazu die Gleichung a + x = b mit a, b ∈ R gegeben. Die Lösung x = b − a ist folglich die Differenz zweier Cauchy-Folgen und durch eine Cauchy-Folge rationaler Zahlen approximierbar. Analog zeigt man die Lösung der Gleichung a · x = b, a 6= 0. Satz 2.20 Q liegt dicht in R, d.h. zu jedem a ∈ R und zu jedem > 0 existiert q ∈ Q : |a − q| < . Beweis. Nach Konstruktion von R existiert zu jedem a ∈ R eine gegen a konvergente Cauchy-Folge (an )n∈N in Q. Bei den rationalen Zahlen Q wurde festgestellt, dass gewisse Löcher existieren, die durch den Zahlenraum Q nicht darstellbar waren. Zum Beispiel war die approximierende Folge √ der Lösung der Gleichung x2 = 2 zwar konvergent, allerdings lag der Grenzwert x = 2 nicht in Q. Für den Körper R gilt hingegen nun folgendes Resultat. Satz 2.21 R ist vollständig, d.h. jede Cauchy-Folge in R konvergiert gegen einen Grenzwert in R. Beweis. Sei eine Cauchy-Folge (an )n∈N mit Folgengliedern an ∈ R reeller Zahlen gegeben. Nun ist zu zeigen, dass der Grenzwert dieser Folge ebenfalls in R liegt (d.h. durch eine Cauchy-Folge mit Folgenglieder in Q approximierbar ist). Zu jedem der Folgenglieder (die in R liegen) sei daher zunächst die approximierende Folge in Q gegeben, d.h. es sei das n-te Folgenglied dargestellt durch R 3 an = lim an,m , m→∞ an,m ∈ Q für alle m ∈ N. Da dies eine Cauchy-Folge ist, lässt sich für jedes Folgenglied an eine Schranke kn wählen, ab der die Approximation durch die Folge rationaler Zahlen so gut ist, dass gilt |an − an,kn | < Dies erzeugt einen neue Folge (an,kn )n∈N : 36 1 n mit kn ∈ N. 1 mit kn 2 N. n 2.4 Mächtigkeit von Mengen und Abzählbarkeit Dies erzeugt einen neue Folge (an,kn )n2N : |an a0,0 a1,0 a2,0 .. . a0,1 a1,1 a2,1 an,0 an,1 a0,2 a1,2 a2,2 an,2 a0,3 a1,3 a2,3 ... an,kn | < a0,4 a1,4 a2,4 ... ... ... an,kn ... ... a0 2 R a1 2 R a2 2 R .. . ! ! ! ! ! lim an,kn n!1 an 2 R # = a = lim an n!1 Die Folge (an,kn )n2N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und hat denselben Grenzwert wie die Folge (an )n2N . Dies sieht man folgendermaßen: Sei ✏ > Die Folge (an,kn )n∈N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und beliebig vorgegeben, so findet man ein n✏ 2 N, so dass für alle n, m n✏ gilt hat denselben Grenzwert wie die Folge (an )n∈N . Dies sieht man folgendermaßen: Sei > 0 beliebig vorgegeben, so findet man ein n ∈ N, so 1dass für alle n, m ≥ n gilt1 |an 1 |an − am | < , 3 und somit gilt auch und somit gilt auch am | < ✏, 3 |an 1 |an − an,kn | < , 3 an,kn | < ✏, 3 am,km | |an,kn an | + |an am | + |am 1 n −1 am | +1 |am − am,km | |an,kn − am,km | ≤ |an,kn − an | + ✏|a+ ✏ + ✏ = ✏. 1 1 13 3 3 Sei nun |an,kn am,km | ≤ + + = . 3 3 3 Sei nun a = lim an,kn a = lim an,kn n!1 n→∞ der Grenzwert dieser Folge von rationalen Zahlen - der gemäß Definition in R liegt der Grenzwert dieser Folge stimmt von rationalen Zahlen. Grenzwert stimmt der nun Folge aber (an )n2N überein Dieser Grenzwert nun aber auchDieser mit dem Grenzwert auch mit demesGrenzwert der Folge (an )n∈N überein, denn es gilt denn gilt 1 1 |an − a| |a ≤n|an − |+ |an,k ≤ n,k +n|an,ka| a| →+0|an,k (n n→ ∞). n,kn|a a|a an,k a| ! 0 n − |a| n − n n + |a n n (n ! 1). Dies zeigt: Grenzwert der Cauchy-Folge (an )n∈N ist durch Cauchy-Folge (an,k n )n∈N Diesder zeigt: der Grenzwert der Cauchy-Folge (an die )n2N ist durch die Cauchy-Folge (an,kn )n2N von rationalen Zahlen approximierbar und somit auch in R. von rationalen Zahlen approximierbar und somit auch in R. ⇤ 2.4 Mächtigkeit von Mengen und Abzählbarkeit 2.4 Mächtigkeit von Mengen und Abzählbarkeit Es lässt sich die Frage stellen, welche der Mengen Q und R mehr Elemente besitzt oder lässt sich die Frage stellen, welche der R mehrdieElemente besitzt ode ob sie Es gleich viele Elemente haben. Dazu benötigt man Mengen zunächst Q eineund Definition, die Anzahlob ansie Elementen in einer Menge greifbar und speziell die Anzahl bei Mengen gleich viele Elemente haben.macht Dazu benötigt man zunächst eine Definition, die di mit unendlich vielen Elementen (z.B. N, Z, Q, R) differenzierter auffassen lässt. Anzahl an Elementen in einer Menge greifbar macht. 37 3 2 Zahlen Definition 2.22 (Mächtigkeit von Mengen) Die Mächtigkeit einer Menge gibt die Anzahl der Elemente in einer Menge an. Seien A und B zwei Mengen. Die Mengen heißen gleichmächtig, falls es eine bijektive Abbildung A → B gibt. Eine Menge A heißt (i) endlich, falls es für ein n ∈ N eine bijektive Abbildung {1, 2, . . . , n} → A gibt. Man schreibt in diesem Fall |A| = n. (ii) abzählbar, wenn sie die gleiche Mächtigkeit wie die Menge der natürlichen Zahlen hat, d.h. falls es eine bijektive Abbildung N → A gibt. (iii) überabzählbar, falls A weder endlich noch abzählbar ist. Beispiel 2.23 Für die Menge A := {4, 7, 8, −5, −7} ist |A| = 5. Satz 2.24 (Z ist abzählbar) Die Menge Z ist abzählbar. Beweis. Gesucht ist eine bijektive Abbildung f : N → Z, die eine Zuordnung der natürlichen Zahlen zu den ganzen Zahlen darstellt. Dies wird durch die folgende Abbildung geleistet ( für n gerade, − n2 , f (n) := n+1 , für n ungerade, 2 oder anschaulich durch die Zuordnung N: ↓ Z: 0 1 2 ↓ ↓ ↓ 0 1 −1 Somit ist Z abzählbar. 3 4 5 ↓ ↓ ↓ 2 −2 3 6 7 ↓ ↓ −3 4 8 ... ↓ ... −4 . . . Satz 2.25 Der Körper Q ist abzählbar. Beweis. Jede rationale Zahl kann als Bruch nz mit z ∈ Z und n ∈ N+ dargestellt werden. Dies lässt sich als ein kartesisches Produkt zeichnen und durch eine raumfüllende Kurve lässt sich jeder Punkt (z, n) ablaufen. Die gesuchte Nummerierung von Q ist nun gegeben dadurch, dass man die Elemente von Q gemäß dieser Kurve listet und dabei diejenigen Paare überspringt, die nicht teilfremd sind. 38 2.4 Mächtigkeit Mächtigkeit von und Abzählbarkeit 2.4 vonMengen Mengen und Abzählbarkeit N+ ... .. . .. . .. . .. . .. . .. . .. . .. . ... 4 4 3 4 2 4 1 4 0 4 1 4 2 4 3 4 4 4 ... ... 4 3 3 3 2 3 1 3 0 3 1 3 2 3 3 3 4 3 ... ... 4 2 3 2 2 2 1 2 0 2 1 2 2 2 3 2 4 2 ... ... 4 1 3 1 2 1 1 1 0 1 1 1 2 1 3 1 4 1 ... ... Z ⇤ Für die reellen Zahlen ist gilt nun aber folgender Satz. Für die reellen Zahlen ist gilt nun aber folgender Satz. SatzSatz 2.262.26 Die Körper R ist überabzählbar. Die Körper R ist überabzählbar. Beweis. Der Beweis wird über einen Widerspruch geführt. Es reicht dazu sogar aus sich nur eine Teilmenge dereinen reellenWiderspruch Zahlen zu beschränken. Angenommen, gäbe aus Beweis. DeraufBeweis wird über geführt. Es reicht dazuessogar eine Abzählung der reellen Zahlen im Interval [0, 1) und diese Zahlen seien durch eine sich nur auf eine Teilmenge der reellen Zahlen zu beschränken. Angenommen, es gäbe bijektive Abbildung f : N → R darstellbar. Dann lässt sich jede dieser Zahlen f (n) als eine eine Abzählung der reellen 1) und diese Zahlen seien durch eine Dezimalzahl f (n) = Zahlen 0, dn,0 dn,1im dn,2Interval . . . mit d[0, n,i ∈ {0, 1, 2, . . . , 9} darstellen. Da die bijektive Abbildung f :N ! lassen R darstellbar. Dann lässt sich jede dieser Zahlen f (n) als Zahlen nummerierbar sind, sie sich alle in einer unendlich langen Liste schreiben: eine Dezimalzahl f (n) = 0, dn,0 dn,1 dn,2 . . . mit dn,i 2 {0, 1, 2, . . . , 9} darstellen. Da die f (0)sie = 0, d0,0alle d0,1in d0,2einer d0,3 unendlich ... Zahlen nummerierbar sind, lassen sich langen Liste schreiben: f (1) = 0, d1,0 d1,1 d1,2 d1,3 . . . (2) = d 0,2 d d0,3 2,3 .. .. .. ff (0) = 0,0,dd2,00,0dd2,1 0,1 d2,2 (3) = d3,2 d3,3 . . . ff (1) = 0,0,dd3,01,0dd3,1 1,1 d1,2 d1,3 . . . . f (2).. = 0, d2,0 d2,1 d2,2 d2,3 . . . f (3) = 0, d3,0 d3,1 d3,2 d3,3 . . . Nun kann diese Liste aber noch immer nicht alle Dezimalzahlen enthalten. Denn man .. kann stets eine weitere Zahl finden, . die noch nicht in der aktuellen Nummerierung vorhanden ist. Dazu wählt man diese Zahl wie folgt: Für die erste Dezimalstelle d0 ∈ {0, 1, 2, . . . , 9} wählt man eine Zahl, die von der Dezimalstelle der ersten Zahl d0,0 verNunschieden kann diese Listedieaber noch immer nicht alle Dezimalzahlen enthalten. von Denn ist. Für zweite Dezimalstelle d2 wählt man eine Zahl verschieden derman kannzweiten stets eine weitere Zahl finden, Zahl die noch nicht der So aktuellen Nummerierung Dezimalstelle der zweiten d1,1 auf der in Liste. fährt man fort und wähltvorfür die Dezimalstelle d eine Zahl aus {0, . . . , 9}, die verschieden von der Dezimalstelled0 2 handen ist. Dazu wählt nman diese Zahl wie folgt: Für die erste Dezimalstelle Dieeine so entstehende Zahlder kann also mit keiner Zahlen aufdder {0, 1,dn,n 2, . in . . ,der 9} Liste wähltist. man Zahl, die von Dezimalstelle derder ersten Zahl 0,0 verListe übereinstimmen. Dies steht jedoch im Widerspruch zu der Annahme, dass in der schieden ist. Für die zweite Dezimalstelle d2 wählt man eine Zahl verschieden von der ListeDezimalstelle bereits alle Zahlen auftauchen. zweiten der zweiten Zahl d auf der Liste. So fährt man fort und wählt 1,1 für die Dezimalstelle dn eine Zahl aus {0, . . . , 9}, die verschieden von der Dezimalstelle dn,n in der Liste ist. Die so entstehende Zahl kann also mit keiner der Zahlen auf der Liste übereinstimmen. Dies steht jedoch im Widerspruch zu der Annahme, dass 39 in der Liste bereits alle (abzählbaren) Zahlen aus R auftauchen. ⇤ 37 2 Zahlen 2.5 Rechnerarithmetik Möchte man Zahlen im Computer darstellen, so ist es notwendig sich über die Repräsentation von Zahlen Gedanken zu machen. Stellenwertsysteme Die gewöhnliche Darstellung von natürlichen Zahlen im Dezimalsystem ist sehr vertraut. Ausgehend von den 10 Ziffern {0, 1, 2, . . . , 9} bildet man neue Zahlen, die man implizit folgendermaßen versteht: 748, 25 = 7 · 102 + 4 · 101 + 8 · 100 + 2 · 10−1 + 5 · 10−2 . Dies ist der spezielle Fall eines Stellenwertsystems zur Basis 10. Definition 2.27 (Stellenwertsystem) Zu einer Basis b ≥ 2 ist die b-adische Darstellung einer Zahl a gegeben durch a= n X i=−m ai · b i mit ai ∈ {0, 1, . . . , b − 1} und man notiert dies als (an an−1 an−2 . . . a1 a0 , a−1 a−2 . . . a−m )b . Ist aus dem Kontext ersichtlich um welche Basis es sich handelt, so wird die explizite Angabe weggelassen (z.B. beim Dezimalsystem im Alltag). Der Name Stellenwertsystem rührt daher, dass die Stelle einer Ziffer angibt, mit welcher Potenz von b die Ziffer zu multiplizieren ist. Beispiele 2.28 (i) (10111)2 = 1 · 24 + 0 · 23 + 1 · 22 + 1 · 21 + 1 · 20 = 1 · 16 + 0 · 8 + 1 · 4 + 1 · 2 + 1 · 1 = (23)10 (ii) (0, 011)2 = 0 · 20 + 0 · 2−1 + 1 · 2−2 + 1 · 2−3 1 1 1 = 0 · 1 + 0 · + 1 · + 1 · = (0, 375)10 2 4 8 40 2.5 Rechnerarithmetik (iii) (10111, 011)2 = (10111)2 + (0, 011)2 = (23)10 + (0, 375)10 = (23, 375)10 Möchte man eine Zahl von einer Basis in eine andere Umrechnen, so bietet es sich an nach folgender Überlegung vorzugehen: Bei einer Zahl in Dezimaldarstellung verschiebt die Division durch die Basis 10 das Komma um eine Stelle nach links, die Multiplikation mit 10 das Komma um eine Stelle nach rechts. Für eine Ganzzahl erhält man also die Ziffern, indem man durch sukzessive durch 10 teilt und die Reste notiert: 753/10 = 75 75/10 = 7 7/10 = 0 Rest 3 Rest 5 Rest 7 und analog für eine Zahl kleiner 1, indem man mit 10 multipliziert und die Überträge notiert: 0, 682 · 10 = 6, 82 = 6 + 0, 82 0, 82 · 10 = 8, 2 = 8 + 0, 2 0, 2 · 10 = 2, 0 = 2 + 0, 0 Man kann dann stoppen, wenn eine 0 erreicht wird. Analog lässt sich dies auch bei der Umrechnung ins Binärsystem durchführen: 23/2 = 11 11/2 = 5 5/2 = 2 2/2 = 1 1/2 = 0 Rest Rest Rest Rest Rest 1 1 1 0 1 und dies liefert (23)10 = (10111)2 . Für Nachkommastellen geht man analog vor 0, 375 · 2 = 0, 75 = 0 + 0, 75 0, 75 · 2 = 1, 5 = 1 + 0, 5 0, 5 · 2 = 1, 0 = 1 + 0, 0 und dies liefert (0, 375)10 = (0, 011)2 . 41 2 Zahlen Man beachte hierbei, dass eine Darstellung in einem Basissystem endlich sein kann, während sie in einer anderen Basis periodisch wird. So gilt 0, 8 · 2 0, 6 · 2 0, 2 · 2 0, 4 · 2 0, 8 · 2 .. . = 1, 6 = 1, 2 = 0, 4 = 0, 8 = 1, 6 = 1 + 0, 6 = 1 + 0, 2 = 0 + 0, 4 = 0 + 0, 8 = 1 + 0, 6 .. . und somit (0, 8)10 = (0, 1100110011001100 . . .)2 = (0, 1100)2 . Die obige Darstellung nennt man auch Festkommadarstellung. Das Komma gibt dabei an, ab wann mit negativen Exponenten multipliziert wird. Im Gegensatz dazu verwendet man zur Darstellung von rationalen oder reellen Zahlen im Computer oftmals die Gleitkommadarstellung. Gleitkommadarstellung Aktuelle Computer speichern und verarbeiten Daten als Folgen von Bits (bits = bi nary digits), d.h. es wird die Basis b = 2 verwendet. Dies ist dem Umstand geschuldet, dass die Bauteile eines Computers nur zwei Zustände zulassen (Strom vs. kein Strom, magnetisiert vs. unmagnetisiert, . . . ). Um reelle Zahlen darzustellen, wird die Binärdarstellung einer Zahl x im Computer über eine Summe von Brüchen r s r x = ± m0 , m1 m2 m3 ...mk · 2 = (−1) · 2 · k X mi · 2−i , k X mi · 2−i i=0 mi ∈ {0, 1}, verwendet, die jedoch im Gegensatz zur Festkommadarstellung über einen Faktor 2r skaliert werden kann. Dabei nennt man M := m0 , m1 m2 m3 ...mk = i=0 die Mantisse und r den Exponenten. Für jedes x 6= 0 lässt sich dabei bei geeigneter Wahl des Exponenten immer 1 ≤ M < 2 wählen und somit kann man die Konvention m0 = 1 verwenden. Ein zusätzliches Bit s gibt das Vorzeichen der Zahl über (−1)s an. Für den Exponenten werden nur ganze Zahlen in einem gewissen Bereich zugelassen, die selbst wieder als Binärzahl durch l Bits dargestellt werden. Um das Vorzeichen des Exponenten nicht explizit speichern zu müssen, wird der Exponent intern in der Form r = e − e∗ mit einem festen ganzzahligen Offset e∗ > 0 und mit e= l−1 X j=0 42 ej · 2j , ej ∈ {0, 1}, 2.5 Rechnerarithmetik dargestellt. Für die Darstellung von Zahlen werden typischerweise Bitfolgen der Länge 32 oder 64 genutzt. Man spricht dann im vorliegenden Fall von 32- oder 64-Bit Gleitkommazahlen. Im Falle von 64 Bit wird nach IEEE-Standard folgende Darstellung verwendet: (s, e10 , e9 , ..., e0 , m1 , m2 , ...m52 ) ∈ {0, 1}64 , die der Wahl k = 52, l = 11 und e∗ = 1023 entspricht. Dabei kann man durch den Exponenten e= 10 X j=0 ej · 2j die Werte 0 ≤ e ≤ 211 − 1 = 2047 darstellen. Hier wird die folgende Konvention verwendet: (i) Durch e = 2047, M 6= 0 werden nicht zulässige Zahlen NaN (Not a Number) ausgedrückt. (ii) Durch e = 2047, M = 0 wird unendlich ausgedrückt. (iii) Durch 1 ≤ e ≤ 2046 werden normalisierte Zahlen ausgedrückt, bei denen das implizite (nicht gespeicherte) Bit als m0 = 1 vereinbart wird: ! 52 X x = (−1)s 2e−1023 1 + mi · 2−i . i=1 (iv) Durch e = 0, M = 0 wird die Zahl Null ausgedrückt. (v) Durch e = 0, M 6= 0 werden denormalisierte Zahlen ausgedrückt, bei denen das das implizite (nicht gespeicherte) Bit als m0 = 0 vereinbart wird: s −1022 x = (−1) 2 52 X i=1 mi · 2−i . Die kleinste positive darstellbare Zahl ist folglich 2−1022 · 2−52 = 2−1074 ≈ 5 · 10−324 , die größe Zahl 21023 · (2 − 2−52 ) ≈ 1, 8 · 10308 . Offensichtlich ist die Menge der so darstellbaren Gleitkommazahlen endlich. Fast alle reellen Zahlen lassen sich dementsprechend nur näherungsweise im Computer darstellen. Auch Ergebnisse aus Addition, Multiplikation, Subtraktion oder Division solcher Gleitkommazahlen müssen nicht unbedingt in der Menge der darstellbaren Zahlen enthalten sein. Üblicherweise werden daher die arithmetischen Operationen intern mit höherer Genauigkeit durchgeführt und dann auf die nächstmögliche Gleitkommazahl gerundet. Dabei kommt es notwendigerweise zu Rundungsfehlern. Besonderen Stellenwert hat in diesem Zusammenhang der maximale Fehler, der beim Runden einer Zahl x zur nächstgelegenen Gleitkommazahl rd(x) = M · 2r auftritt. Die 43 2 Zahlen zwei benachbarten Gleitkommazahlen, zwischen denen x liegt, unterscheiden sich um genau das letzte Bit mk , haben also einen Abstand von 2−k ·2r . Dabei liegt die gerundete Zahl x nur maximal die Hälfte dieser Strecke von einer der beiden darstellbaren Zahl entfernt. Für den relativen Fehler ergibt sich somit x − rd(x) 1 2−k · 2r −(k+1) ≤ · (da 1 ≤ |M | < 2). 2 |M | · 2r ≤ 2 x Definition 2.29 Die Zahl eps := 2−(k+1) heißt relative Maschinengenauigkeit. Diese kann als kleinste Gleitkommazahl genähert werden, für die in der gewählten Gleitkommadarstellung gilt: 1 + > 1. Dies ist der Abstand zweier benachbarter Fließkommazahlen, es gilt also = 2 · eps. Das Python Programm #!/usr/bin/env python3 eps = 1 while(1): if 1 + eps <= 1: break eps = eps / 2 print("eps = {0}".format(eps)) liefert auf einer 64-Bit Architektur beispielsweise das folgende Ergebnis für eps: eps = 1.1102230246251565e-16. Dies entspricht 2−53 ≈ 1, 11 · 10−16 und die Fließkommaarithmetik auf einer 64-Bit Architektur hat somit eine Genauigkeit von 16 Stellen. Für 32-Bit gilt mit k = 23 und 2−24 ≈ 5, 98 · 10−8 eine Genauigkeit von 8 Stellen. 2.6 Der Körper der komplexen Zahlen C Die Erweiterungen der Zahlenräume N ⊂ Z ⊂ Q ⊂ R verfolgte das Ziel immer mehr Gleichungen lösen zu können und endete mit dem vollständigen Körper R. Doch noch immer lassen sich nicht alle Gleichungen mit Koeffizienten in den reellen Zahlen lösen. So hat die bekannte Lösung (p/q-Formel ) der Gleichung p p ± p2 − 4q 2 x + px + q = 0, mit p, q ∈ R ⇒ x± = 2 nur eine reelle Lösung für p2 − 4q ≥ 0. 44 2.6 Der Körper der komplexen Zahlen C Daher sei angenommen, dass ein erneute Erweiterung des Zahlenraums existiert, die wiederum ein Körper ist und R als Teilmenge enthält. In diesem Erweiterungskörper soll die Gleichung x2 + 1 = 0 eine Lösung besitzen und diese Lösung sei mit i bezeichnet (d.h. es gilt i2 = −1). Mit i sind dann auch z := x + iy und w := u + iv mit x, y, u, v ∈ R Elemente dieses Körpers und somit ergibt sich z + w = x + iy + u + iv = (x + u) + i(y + v), z · w = (x + iy) · (u + iv) = xu + ixv + iyu + i2 yv = (xu − yv) + i(xv + yu), und somit sind solche Elemente unter Addition und Multiplikation abgeschlossen. Dies motiviert die Einführung der komplexen Zahlen. Definition 2.30 (komplexe Zahl) Die komplexen Zahlen sind geordnete Paare z := (x, y) ∈ R×R, für die die Multiplikation und Addition definiert werden durch (x, y) + (x0 , y 0 ) := (x + x0 , y + y 0 ), (x, y) · (x0 , y 0 ) := (xx0 − yy 0 , xy 0 + x0 y). Diese Zahlen werden auch notiert als z = x+iy mit der Lösung i2 = −1. Man bezeichnet x =: Re z als Realteil und y =: Im z als Imaginärteil und i als imaginäre Einheit. Satz 2.31 (C ist ein Körper) Die Menge der komplexen Zahlen bildet einen Körper C mit neuralen Elementen (0, 0) und (1, 0). In diesem Körper hat die Gleichung z 2 + (1, 0) = (0, 0) zwei Lösungen ±i := (0, ±1). Zu einem Element z = (x, y) ergeben sich die inversen Elemente zu z −1 −z := (−x, −y), x −y 1 , . = := z x2 + y 2 x2 + y 2 Beweis. Kommutativ-, Assoziativ- und Distributivgesetz ergibt sich durch direktes Nachrechnen. Für a = (a1 , a2 ), b = (b1 , b2 ) ∈ C ergibt sich die Lösung von a + z = b zu z = (b1 − a1 , b2 − a2 ) und somit ist (0, 0) das neutrale Element als Lösung von a + z = a. Das neutrale Element (1, 0) bzgl. der Multiplikation zeigt man durch direktes Nachrechen von (1, 0) · z = z für alle z ∈ C. Ebenso rechnet man direkt nach, dass a · a1 = (1, 0) gilt und z = a1 · b eine Lösung von a · z = b ist. Die kürzere Notation einer imaginären Zahl z = x + iy kann man folglich als (x, y) = (x, 0) + (0, 1) · (y, 0) lesen. Eine reelle Zahl x ∈ R wird mit der komplexen Zahl (x, 0) identifiziert. Eine komplexe Zahl (0, y) heißt rein imaginär. Analog zur Darstellung der reellen Zahlen auf einer Geraden, lässen sich die komplexen Zahlen als Ebene darstellen. Dabei entsprecht ein Punkte (x, y) dieser Ebene der komplexen Zahl z = (x, y) ∈ C. 45 2 Zahlen imaginäre Achse z = x + iy y i reelle Achse 1 1 x i Abbildung 2.5: Darstellung einer komplexen Zahl in der komplexen Zahlenebene. Definition 2.32 (Komplexe Konjugation) Für eine komplexe Zahl z = (x, y) = x + iy ist die komplexe konjugierte Zahl gegeben durch z = (x, −y) = x − iy. Definition 2.33 (Betrag einer komplexen Zahl) Der Betrag einer komplexen Zahl z = (x, y) = x + iy ist gegeben durch p √ |z| := z · z = x2 + y 2 . Bemerkung 2.34 Die komplexen Zahlen lassen sich nicht anordnen, d.h. es lässt sich auf C keine kleiner/größer Relation einführen. Mit den komplexen Zahlen kommt die Erweiterung des Zahlenraums zu einem Ende. In diesem Körper lassen sich nun alle algebraischen Gleichungen lösen. Satz 2.35 (Fundamentalsatz der Algebra) Jede Gleichung z n + an−1 z n−1 + . . . + a1 z + a0 = 0, mit Koeffizienten ai ∈ C hat mindestens eine Lösung in C. 46 (n > 0), 2.6 Der Körper der komplexen Zahlen C imaginäre Achse z = x + iy y |z| x y reelle Achse z=x iy Abbildung 2.6: Graphische Interpretation von Betrag und Konjugation einer komplexen Zahl: Der Betrag ist der Abstand vom Ursprung, die komplexe Konjugation bewirkt eine Spiegelung an der reellen Achse. 47 3 Konvergenz, Folgen und Reihen Für die Einführung der reellen Zahlen waren Cauchy-Folgen von rationalen Zahlen von großer Bedeutung. Ganz Allgemein lassen sich Folgen von Elementen in einer beliebigen Menge A betrachten. Definition 3.1 (Folgen) Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet. Beispiele 3.2 (a) Mit der Vorschrift an = n (n ∈ N) erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...) und es gilt an ∈ N (n ∈ N). 1 (n ∈ N) erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) und es gilt (b) Für an = n+1 an ∈ Q (n ∈ N). (c) Es sei eine Population gegeben, die in jedem Jahr um einen festen Faktor wächst (z.B. um 10%). Ausgehend von einer Anfangspopulation a0 ∈ R ist somit die Größe nach 1 Jahr a0 · q (q = 1, 1 für 10%), nach Jahr 2 beträgt sie a0 · q · q, usw. . . Dies definiert die sogenannte geometrische Folge an = a0 · q n (n ∈ N). (d) Ein Guthaben G0 sei jährlich um einen Zinssatz p verzinst, d.h. nach einem Jahr erhält man das Geld G1 = G0 ·(1+p) zurück (z.B. p = 0, 05 bei 5% Zinsen). Addiert man die Zinsen bereits nach einem halben Jahr (mit halbem Zinssatz) und verzinst diese am Ende des Jahres mit, so erhält man G2 = G0 · (1 + p2 )2 . Teilt man das Jahr in drei Teile, so ergibt sich eine Verzinsung von G3 = G0 · (1 + p3 )3 . Allgemein strebt die Folge an = (1 + np )n gegen den Faktor für kontinuerliche Verzinsung (d.h. beliebig kleine Verzinsungsintervalle). 3.1 Konvergenz Von der Konvergenz einer Folge gegen einen Grenzwert (Limes) spricht man, wenn die Folgenglieder diesem Grenzwert ab einem Folgenglied beliebig nahe kommen. Dazu benötigt man eine Möglichkeit den Abstand zwischen dem Grenzwert und den Folgengliedern messen zu können. Für die Körper Q, R und C kann man den Betrag definieren und der Abstand zwischen zwei Elemente dieser Körper z, z 0 lässt sich über die Abstandsfunktion |z − z 0 | ermitteln. Daher macht die Definition der Konvergenz für alle dieser 49 3 Konvergenz, Folgen und Reihen Körper K = Q, R, C Sinn. Im Folgenden wird der wichtige Spezialfall des Körpers K = R betrachtet. Fast alle dieser Aussagen lassen sich jedoch direkt auf die anderen Körper übertragen, z.B. indem man R durch C ersetzt. Man sagt, dass eine Eigenschaft für fast alle Elemente einer Folge gilt, sofern die Eigenschaft auf alle bis auf höchstens endlich viele Elemente zutrifft. In diesem Sinne konvergiert eine Folge gegen einen Grenzwert, falls fast alle Folgenglieder beliebig nahe an dem Grenzwert liegen, oder formal: Definition 3.3 (Konvergenz) Eine Folge (an )n∈N in R heißt konvergent gegen den Grenzwert (Limes) a ∈ R, falls zu jeder (beliebig kleinen) reellen Zahl > 0 ein n ∈ N existiert, so dass gilt: |an − a| < für alle n ≥ n . Es ist zu beachten, dass die Zahl n vom jeweils gewählten abhängt. Entscheidend ist dabei nicht der genaue Wert von n , sondern lediglich die Existenz eines Wertes, ab dem die obige Bedingung bei vorgegebenem gilt. Konvergiert (an )n∈N gegen a so schreibt man lim an = a n→∞ oder an → a (n → ∞). Konvergiert eine Folge für n → ∞ nicht gegen einen Grenzwert so nennt man die Folge divergent. Beispiele 3.4 (a) Für jedes a ∈ R konvergiert die konstante Folge an = a (n ∈ N) gegen den Grenzwert limn→∞ an = a. 1 (n ∈ N) konvergiert gegen Null, denn: Zu jedem > 0 gibt es (b) Die Folge an = n+1 1 ein N ∈ N mit N > 1 . Somit gilt für alle n ≥ N : |an − 0| = n+1 < n1 < N1 < . (c) Die Folge an = (−1)n (n ∈ N) divergiert, denn der Abstand zwischen zwei Folgengliedern ist |an − an+1 | = 2. Somit kann der Abstand zwischen zu einem Grenzwert nicht beliebig klein werden. Eigenschaften konvergenter Folgen Definition 3.5 (Beschränkte Folgen) Eine Folge (an )n∈N reeller Zahlen heißt (i) beschränkt, falls alle |an | ≤ M (n ∈ N) für ein M ∈ R, (ii) von oben beschränkt, falls alle an ≤ M (n ∈ N) für ein M ∈ R, (iii) von unten beschränkt, falls alle an ≥ M (n ∈ N) für ein M ∈ R. 50 3.1 Konvergenz Zudem sei an die Cauchy-Folge erinnert. Diese dient dazu Konvergenz zu definieren, ohne dass man den Grenzwert explizit kennen muss. Definition 3.6 (Cauchy-Folge) Eine Folge (an )n∈N heißt Cauchy-Folge, falls zu jedem > 0 ein n ∈ N existiert, so dass |an − am | < für alle n, m ≥ n . Für konvergente Folgen besitzen die folgenden Eigenschaften. Satz 3.7 (i) Der Grenzwert einer konvergenten Folge ist eindeutig. (ii) Der Grenzwert einer konvergenten Folge bleibt gleich, wenn man endlich viele Folgenglieder ändert. (iii) Eine konvergente Folge ist beschränkt. (iv) Jede konvergente Folge ist eine Cauchy-Folge. Beweis. (i) Sei (an )n∈N eine konvergente Folge mit den Grenzwerten a und b. Dann gilt jedoch |a − b| = |a − an | + |an − b| → 0(n → ∞) und die Grenzwerte müssen gleich sein. (ii) Für die konvergente Folge (an )n∈N gibt es zu jedem ein n mit |an −a| < , n ≥ n . Die Folge wird nun an endlich vielen Stellen abgeändert. Das letzte geänderte Folgenglied sei ar , r ∈ N. Dann wählt man für die Abschätzung |an − a| < die Schranke n = max(n , r) und erhält erneut konvergenz gegen denselben Grenzwert. (iii) Mit = 1 gilt für n ≥ n1 ∈ N: |an | ≤ |an − a| + |a| ≤ 1 + |an |. Da nur endlich viele Folgenglieder an , n < n1 existieren gilt: |an | < max(|a0 |, |a1 |, ..., |an1 −1 |, 1 + |a|) für alle n ∈ N. (iv) Sei (an )n∈N eine konvergente Folge mit Grenzwert a ∈ R. Dann existiert zu jedem > 0 ein n ∈ N mit |an − a| < 2 für alle n ≥ n . Insbesondere gilt für n, m ∈ N, n, m ≥ N : |an − am | = |an − a + a − am | ≤ |an − a| + |am − a| < + < . 2 2 Bemerkung 3.8 Umgekehrt müssen beschränkte Folgen nicht notwendigerweise konvergieren. Ein Beispiel ist die Folge ((−1)n )n∈N . Bemerkung 3.9 Für Folgen im vollständigen Körper R gilt die Umkehrung: Jede Cauchy-Folge in R konvergiert (mit Grenzwert a ∈ R). Denn gemäß Konstruktion ist R so gewählt, dass jede Cauchy-Folge in R einen Grenzwert hat. 51 3 Konvergenz, Folgen und Reihen 3.2 Bestimmung von Konvergenz und Grenzwerten Manchmal möchte man zeigen, dass einen Folge konvergent ist, ohne dass man den Grenzwert explizit kennt. Zum einen kann man zeigen, dass es sich um eine CauchyFolge handelt. Für spezielle Typen von Folgen gibt es einen direkteren Schluss. Monotone Folgen Definition 3.10 (Monotone Folgen) Eine Folge (an )n∈N heißt monoton wachsend, streng monoton wachsend, monoton f allend, streng monoton f allend, falls falls falls falls an an an an ≤ an+1 < an+1 ≥ an+1 > an+1 für für für für alle alle alle alle n ∈ N, n ∈ N, n ∈ N, n ∈ N. Satz 3.11 Eine monoton wachsende und von oben beschränkt Folge in R ist konvergent. Eine monoton fallende und von unten beschränkt Folge in R ist konvergent. Beweis. (Skizze) Da (an )n∈N von oben beschränkt ist, existiert aufgrund der Vollständigkeit von R eine kleinste obere Schranke (das sogenannte Supremum) a := sup an := min{M ∈ R | an ≤ M für alle n ∈ N}. n∈N Das Supremum a ∈ R ist der gesuchte Grenzwert, denn die Folgenglieder werden immer größer, dürfen aber diese Schranke nicht überschreiten. Für monoton fallende Folgen schließt man analog mit der größten oberen Schranke (das sogenannte Infimum) a := inf an := max{M ∈ R | an ≥ M für alle n ∈ N}. n∈N Beispiel 3.12 Für a ∈ R, a ≥ 0 konvergiert die rekursiv definierte Folge 1 a xn + , xn+1 := 2 xn mit jedem Startwert x0 > 0. Dies sieht man wie folgt. Mit x0 > 0 sind auch alle Folgenglieder xn > 0, n ∈ N. Es gilt sogar 2 1 a 2 xn+1 − a = xn + −a 4 xn ! 2 2 a a 1 1 2 xn + 2a + − 4a = xn − ≥0 = 4 xn 4 xn 52 3.2 Bestimmung von Konvergenz und Grenzwerten und daher x2n ≥ a für n ≥ 1 (d.h. die Folge ist nach unten beschränkt). Zudem findet man xn − xn+1 1 a = xn − xn + 2 x n a 1 1 xn − = x2n − a ≥ 0 = 2 xn 2xn und daher xn+1 ≤ xn für n ≥ 1 (d.h. die Folge ist monoton fallend). Die monoton fallende, nach unten beschränkte Folge ist damit konvergent. Da die Folge konvergent ist, besitzt sie in R den Grenzwert x. Für xn , xn+1 → x muss für diesen gelten: 1 a x= x+ bzw. x2 = a. 2 x Grenzwerte und Anordnung Eine Eigenschaft von Grenzwerten ist, dass sie die Anordnung nicht ändern. Satz 3.13 Sei (an )n∈N und (bn )n∈N konvergente Folgen in R mit für alle n ∈ N, an ≤ b n , dann gilt für die Grenzwerte ebenfalls lim an ≤ lim bn . n→∞ n→∞ Beweis. (Skizze) Widerspruchsbeweis mit der Annahme lim an > lim bn . n→∞ n→∞ Damit lässt sich der Grenzwerte einer Folge bestimmen, indem man eine untere und einer obere Folge findet, die denselben Grenzwert besitzt. Denn aus an ≤ b n ≤ c n , für alle n ∈ N folgt aus obigem Satz lim an ≤ lim bn ≤ lim cn n→∞ n→∞ n→∞ und gilt limn→∞ an = b = limn→∞ cn , so folgt b ≤ lim bn ≤ b. n→∞ Dies lässt sich nutzen, um einen Grenzwert ausgehend von bekannten Grenzwerten zu zeigen. 53 3 Konvergenz, Folgen und Reihen Beispiele 3.14 (i) Sei bn = n12 , (n ∈ N+ ). Als Einschachtelung wird nun die Nullfolge an = 0, (n ∈ N+ ) und die Folge cn = n1 , (n ∈ N+ ) verwendet. Wegen n12 < n1 , n ≥ 1, gilt an → 0 (n → ∞) und cn → 0 (n → ∞). Damit folgert man bn → 0 (n → ∞). Analog zeigt man lim n→∞ (ii) Die Folge an := 10n n! 1 = 0, nk für alle Potenzen k ∈ N+ . (n ∈ N) konvergiert gegen 0. Denn für n ≥ 11 gilt: 10n 10 10n−1 10 10n−1 ≤ ≤ n! n (n − 1)! n 1 · 2 · . . . (n − 2) · (n − 1) 10 1 10 = 1 9 10 11 n−1 ≤ n 10 · . . . · 10 · 10 · 10 · . . . · 10 n 1 →0 1 10 10 (n → ∞) Rechenregeln für Grenzwerte Satz 3.15 Seien (an )n∈N und (bn )n∈N konvergente Folgen mit Grenzwerten lim an = a n→∞ und lim bn = b. n→∞ Dann sind auch die Summenfolge (an + bn )n∈N und Produktfolge (an · bn )n∈N konvergent und für die Grenzwerte gilt (i) lim {an + bn } = a + b, n→∞ (ii) lim {an · bn } = a · b, n→∞ Ist zudem b 6= 0, bn 6= 0 (n ∈ N), so ist die Quotientenfolge ( abnn )n∈N konvergent mit (iii) lim { abnn } = ab . n→∞ Beweis. Exemplarisch wird (ii) gezeigt. Da beide Folgen konvergent sind, gibt es n mit |an − a| < und |bn − b| < , für n ≥ n , sowie einen Konstante M (konvergente Folgen sind beschränkt) mit |an | ≤ M 54 und |bn | ≤ M für n ∈ N. 3.3 Häufungspunkte und Teilfolgen Durch das Einschieben des Terms −an · b + an · b = 0 folgert man: |an · bn − a · b| = |an · bn − an · b + an · b − a · b| = |an · (bn − b) + (an − a) · b| ≤ |an | · |(bn − b)| + |(an − a)| · |b| ≤ M + M = 2M . Beispiele 3.16 (i) Für die Multiplikation mit der konstanten Folge (c)n∈N gilt lim {c · an } = c · a und n→∞ Allgemein für beliebige c, d ∈ R: lim {c · an + d · bn } = c · lim an + d · lim bn = c · a + d · b. n→∞ n→∞ n→∞ (ii) n 1 1 lim = lim 1 − = lim 1 − lim =1−0=1 n→∞ n + 1 n→∞ n→∞ n→∞ n + 1 n+1 (iii) lim n→∞ 5n + 1 3n − 10 = lim n→∞ 5 + n1 3 − 10 n = lim {5 + n1 } n→∞ lim {3 − n→∞ 10 } n = 5 5+0 = 3−0 3 (iv) √ n√ √ √ o √ n+1−n n lim n( n + 1 − n) = lim n√ = lim √ √ √ n→∞ n→∞ n→∞ n+1+ n n+1+ n 1 1 1 q = = lim = n→∞ 1+1 2 1+ 1 +1 n Bemerkung 3.17 Für das Rechnen mit den Grenzwerte ist es essentiell, dass die Folgen konvergent sind. Für nicht-konvergente Folgen (z.B. limn→∞ n = ∞) lässt sich durch obige Rechenregeln keine Aussage treffen. So lässt sich „ ∞ “ nicht ermitteln, denn limn→∞ nn2 = 0, limn→∞ nn = ∞ 2 1 und limn→∞ nn = ∞. Vor der Verwendung obiger Rechenregeln muss zunächst die Konvergenz der Folgen an und bn gezeigt werden. 3.3 Häufungspunkte und Teilfolgen Definition 3.18 (Häufungspunkt) Ein Punkt a ∈ R heißt Häufungspunkt einer Folge (an )n∈N , falls zu jedem > 0 immer 55 3 Konvergenz, Folgen und Reihen unendlich viele Folgenglieder an mit einem Abstand von höchstens zu a gibt, d.h. für jedes N ∈ N gibt es ein an , n ≥ N mit |an − a| < . Beispiel 3.19 Die reelle Folge an = (−1)n hat zwei Häufungspunkte a = 1 und a = −1. Beispiel 3.20 Jede konvergente Folge hat genau einen Häufungspunkt, nämlich den Grenzwert der Folge. Besitzt eine Folge mehr als einen Häufungspunkt, dann kann man sich auch die Folgenglieder beschränken, die in der Nähe eines Häufungspunktes liegen. Man wählt also die Folgenglieder entsprechend aus. Dies nennen man das bilden einer Teilfolge. Definition 3.21 (Teilfolge) Sei (an )n∈N eine Folge. Eine Folge (bm )m∈N heißt Teilfolge von (an )n∈N , falls es eine streng monotone Folge von Indizes n1 < n2 < n3 < . . . gibt, so dass bm = anm für alle m ∈ N. Zu einer Folge mit mehr als einem Häufungspunkt kann man somit eine Teilfolge auswählen, die dann gegen den Häufungspunkt konvergiert. Definition 3.22 (Limes superior/inferior) Zu einer Folge reeller Zahlen (an )n∈N mit mindestens einem Häufungspunkt. Den größten Häufungspunkt bezeichnet man als Limes superior lim sup an . Den kleinsten Häufungspunkt bezeichnet man als Limes inferior lim inf an . n→∞ n→∞ Für beschränkte Folgen in R gilt folgender Satz, der hier ohne Beweis angegeben wird. Satz 3.23 (Bolzano-Weierstraß) Jede beschränkte Folge reeller Zahlen besitzt einen größten und einen kleinsten Häufungswert. Jede beschränkte Folge reeller Zahlen besitzt daher eine konvergente Teilfolge. 3.4 Reihen Ein berühmtes Paradoxon der antiken Griechen stammt vom Zenon: Der schnelle Achilles versucht eine langsame Schildkröte zu erreichen. Doch obwohl Achilles doppelt so schnell ist wie die Schildkröte, scheint es ihm nicht zu gelingen. Denn jedes Mal, wenn Achilles den Punkt erreicht, an dem sich die Schildkröte aktuell befindet, ist diese ebenfalls ein Stück weiter gekommen. Daher muss Achilles erneut versuchen, die Schildkröte auf dieser nun halb so langen Strecke zu erreichen. Dieses Spiel scheint sich unendlich oft zu wiederholen und Achilles erreicht die Schildkröte folglich nicht. 56 3.4 Reihen t = 0 min A S t = 1 min A t = 1 min S t= t=1+ 1 min 2 1 min 2 A t= t=1+ 1 1 + min 2 4 .. . S 1 min 4 AS t= 1 min 8 .. . Abbildung 3.1: Paradoxon von Zenon: Der doppelt so schnelle Achilles (A) scheint die Schildkröte (S) niemals zu erreichen, denn diese ist immer bereits ein (wenn auch kleineres) Stück weiter, wenn Achilles den Punkt erreicht, an dem sich die Schildkröte aktuell befindet. Der Trugschluss in diesem Paradoxon liegt darin, dass unendliche Summen durchaus endliche Werte annehmen können. So beträgt die von Achilles benötigte Zeit ∞ X 1 1 1 1 1 + ... = T =1+ + + + 2 4 8 16 2k k=0 und diese Summe hat einen endlichen Wert. Von der mathematischen Behandlung solcher unendlichen Summen handelt dieses Kapitel. Zu jeder Folge (an )n∈N lassen sich endlich viele der Folgenglieder aufsummieren. Eine solche Teilsumme nennt man die Partialsumme sn := n X ak . k=0 So entsteht eine neue Folge (sn )n∈N , deren Konvergenz man untersuchen kann. Definition 3.24 (Reihe) Eine Reihe mit den Gliedern ak ist die unendliche Summe ∞ X ak , k=0 57 3 Konvergenz, Folgen und Reihen die verstanden wird als die Folge der Partialsummen sn := n X mit n → ∞. ak k=0 Existiert der Grenzwert limn→∞ sn , so heißt die Reihe konvergent, andernfalls divergent. Beispiel 3.25 (Geometrische Reihe) Die sogenannte geometrische Reihe ist gegeben durch 2 3 4 1 + q + q + q + q + ... = ∞ X qk . k=0 Diese Reihe ist für |q| < 1 konvergent. Betrachtet man nämlich die Partialsummen, so findet man durch ! ! ! n n n n n+1 X X X X X k k k k (1 − q) · =1· = q q −q· q q − q k = 1 − q n+1 k=0 k=0 k=0 k=0 k=1 zunächst die geometrische Summenformel n X k=0 qk = 1 − q n+1 1−q für alle n ∈ N. Somit folgt für den Grenzwert der Reihe ∞ X n X 1 − q n+1 1 q = lim q = lim = . n→∞ 1 − q n→∞ 1−q k=0 k=0 k k Beispiel 3.26 (Harmonische Reihe) Die sogenannt harmonische Reihe ist gegeben durch ∞ X1 1 1 1 1 1 + + + + + ... = . 2 3 4 5 k k=1 Diese Reihe divergiert. Denn betrachtet man die Partialsumme für n = 2k , so findet man die Abschätzung 1 2 1 =1+ 2 1 ≥1+ 2 1 =1+ 2 1 1 1 1 + + + ... + 3 4 5 n 1 1 1 + + + + ... + 3 4 5 1 1 1 + + + + ... + 4 4 8 1 1 1 + 2 · + 4 · + 2k−1 · k 4 8 2 1 = 1 + k · → ∞ (k → ∞). 2 s2k = 1 + 58 + 1 1 1 + + ... + k 8 2k−1 + 1 2 1 1 1 + + . . . + 8 2k 2k 3.5 Konvergenzkriterien für Reihen 3.5 Konvergenzkriterien für Reihen Ein Konvergenzkriterium für Reihen erhält man, indem man das Cauchy-Kriterium für die Folge der Partialsummen anwendet. Satz 3.27 (Cauchy-Kriterium für Reihen) Eine Reihe ist genau dann konvergent, wenn es für jedes > 0 ein n gibt, so dass gilt: |sn − sm | = | n X k=m+1 für alle n ≥ m ≥ n . ak | < Beweis. Dies ist das Cauchy-Kriterium für die Folge der Partialsummen (sn )n∈N . Damit eine Reihe überhaupt konvergierten kann, müssen die Reihenglieder eine Nullfolge bilden. Denn mit sn → s gilt immer an = sn − sn−1 → s − s = 0. Sind alle Elemente der Summe positiv, so ist die Folge der Partialsummen monoton wachsend. Ist sie zudem beschränkt, dann muss die Reihe konvergieren. Satz 3.28 (Konvergenz für nicht-negative Reihen) P Eine Reihe ak mit nicht-negativen Gliedern ak ≥ 0 konvergiert genau dann, wenn die Folge der Partialsummen beschränkt ist, d.h. es gibt ein M ∈ R, mit n X k=0 für alle n ∈ n. ak ≤ M Analog zu Folgen lassen sich die Reihen auch gegen andere Reihen abschätzen. Satz 3.29 (Majoranten-Kriterium) Gilt |ak | ≤ |bk | für alle k ∈ N und konvergiert die Reihe ∞ P ak mit ∞ P k=0 |bk |, dann konvergiert auch k=0 ∞ ∞ X X | ak | ≤ |bk |. k=0 k=0 Beweis. Folgerung aus dem Anordnungssatz für Grenzwerte angewendet auf die Partialsummenfolge. Definition 3.30 (Absolut konvergente Reihe) Eine Reihe heißt absolut konvergent, falls die Summe der Beträge ∞ X k=0 konvergiert. |ak | 59 3 Konvergenz, Folgen und Reihen Eine absolut konvergente Reihe ist immer auch konvergent, wie man aufgrund der Dreiecksungleichung direkt sieht: n n X X | ak | ≤ |ak |. k=0 k=0 Durch Abschätzung gegen die geometrische Reihe findet man zwei weitere Kritierien. Satz 3.31 (Wurzel-Kriterium) Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt p p k k |ak | ≤ q < 1, d.h. lim sup |ak | < 1 k→∞ p dann konvergiert die Reihe absolut. Gilt k |ak | > 1 für unendlich viele k ∈ N, so divergiert die Reihe. Beweis. Aus |ak | ≤ q k folgt, p dass die geometrische Reihe eine Majorante ist und diese k konvergiert für |q| < 1. Gilt |ak | > 1, so auch |ak | > 1 und die Glieder bilden nicht einmal einen Nullfolge. Satz 3.32 (Quotienten-Kriterium) Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt ak+1 ak+1 ≤ q < 1, d.h. lim sup <1 ak ak k→∞ dann konvergiert die Reihe absolut. Beweis. Aus |ak+1 /ak | ≤ q für alle k ≥ N folgt |ak | ≤ q|ak−1 | ≤ q 2 |ak−2 | ≤ . . . ≤ q k−N |aN |. Somit hat die Reihe mit |aN |q eine konvergente Majorante für |q| < 1. −N ∞ X qk k=N Beispiel 3.33 (Eulersche Zahl) Die Reihe ∞ X 1 e := k! k=0 konvergiert. Ihr Wert e ≈ 2, 7182818 . . . heißt Eulersche Zahl. Die Konvergenz sieht man mit dem Quotientenkriterium. Für k ≥ 1 gilt 1 ak+1 k! 1 1 = (k+1)! = = ≤ < 1. 1 ak (k + 1)! k+1 2 k! und damit ist der größte Häufungswert echt kleiner eins. 60 3.6 Potenzreihen 3.6 Potenzreihen Definition 3.34 (Potenzreihe) Eine Reihe der Form P (x) := ∞ X k=0 ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . heißt Potenzreihe mit Koeffizienten ak ∈ R, Entwicklungspunkt x0 ∈ R und Argument x ∈ R. Satz 3.35 (Konvergenzradius von Potenzreihen) Eine Potenzreihe P (x) = ∞ X k=0 ak (x − x0 )k konvergiert absolut für alle Argumente x ∈ R, die innerhalb des sogenannten Konvergenzradius ρ liegen, 1 1 1 p |x − x0 | < ρ := := 0 mit formal: := ∞ und 0 ∞ lim sup k |ak | k→∞ und divergiert für |x − x0 | > ρ. Existiert der Grenzwert ρ := 1 ak+1 , lim ak k→∞ so entspricht dies ebenfalls dem Konvergenzradius. Beweis. Gemäß Wurzelkriterium gilt: p p lim sup k |ak (x − x0 )k | = |x − x0 | · lim sup k |ak | k→∞ k→∞ ( < 1, für |x − x0 | < ρ, |x − x0 | = = ρ > 1, für |x − x0 | > ρ. Analog folgert man mit dem Quotientenkriterium. Die wohl wichtigste Potenzreihe ist die Exponentialfunktion. Definition 3.36 Die Exponentialfunktion ist gegeben durch exp(x) := ∞ X xn k=0 n! . 61 3 Konvergenz, Folgen und Reihen Die Exponentialfunktion ist überall konvergent, wie das Quotientenkriterium zeigt: ak+1 xk+1 k! |x| 1 für alle k ≥ 2|x|. ak = (k + 1)! xk = k + 1 ≤ 2 < 1 Absolut konvergente Reihen lassen sich multiplizieren. Satz 3.37 (Cauchy-Produkt) ∞ ∞ P P Seien ak und bk zwei absolut konvergente Reihen. Dann gilt k=0 k=0 ∞ X k=0 ak ! · ∞ X k=0 bk ! = ∞ k X X k=0 aj bk−j j=0 ! . Man nennt k X aj bk−j j=0 das Cauchy-Produkt. Beweis. (Skizze) Ausmultiplizieren der endlichen Summe, Dreiecksungleichung und Grenzübergang für n → ∞. Für die Exponentialfunktion ergibt sich damit folgendes Resultat. Satz 3.38 (Funktionalgleichung für die Exponentialfunktion) Es gilt exp(x) · exp(y) = exp(x + y). Beweis. (Übung) 62 4 Stetigkeit Der Grenzwertbegriff für Zahlenfolgen lässt sich auf Funktionen übertragen. Funktionen (oder Abbildungen) waren bereits im Kapitel über Mengen aufgetreten. Hier wird nun der Fall betrachtet, dass Definitionsbereich und Bild Teilmengen der reellen Zahlen R sind. Definition 4.1 (Funktion) Sei D ⊂ R. Eine Vorschrift f : D → R, die jedem x ∈ D genau einen Funktionswert f (x) ∈ R zuordnet, heißt reellwertige Funktion. 4.1 Intervalle Ein häufiger anzutreffender Fall für den Definitionsbereich D ⊂ R sind Intervalle. Definition 4.2 (Intervalle) Für die Endpunkte a, b ∈ R mit −∞ < a ≤ b < ∞ notiert man die Intervalle [a, b] := {x ∈ R | a ≤ x ≤ b}, (a, b) := {x ∈ R | a < x < b}, [a, b) := {x ∈ R | a ≤ x < b}, (a, b] := {x ∈ R | a < x ≤ b}, (abgeschlossenes (offenes (rechts halboffenes (links halboffenes Intervall), Intervall), Intervall), Intervall), und die uneigentlichen Intervalle [a, ∞) := {x ∈ R | a ≤ x}, (−∞, b] := {x ∈ R | x ≤ b}, (nach oben unbeschränktes Intervall), (nach unten unbeschränktes Intervall). In diesem Zusammenhang ist der Abschluss einer Menge interessant. Dieser wird dadurch gebildet, dass man die „Randpunkte“ der Menge mit hinzunimmt. Anschaulich sind dies alle Punkte, die sich durch Folgen mit Folgengliedern in der Menge selbst annähern lassen. Dabei muss der Grenzwert dieser Folge nicht in der Menge enthalten sein, kann also am „Rand“ liegen. Formal definiert man: Definition 4.3 (Abschluss) Eine Teilmenge M ⊂ R heißt abgeschlossen, falls der Grenzwert jeder konvergenten Folge (an )n∈N von Punkten an ∈ M ebenfalls in der Menge M liegt, d.h. limn→∞ ∈ M . 63 4 Stetigkeit Für eine Teilmenge M ⊂ R ist der Abschluss M definiert durch n o M := x ∈ R | Es gibt eine Folge (xn )n∈N , xn ∈ M mit x = lim xn . n→∞ Jeder Punkt von M ist automatisch in M enthalten, da man als Folge die konstante Folge von diesem Punkt wählen kann. Eine Menge ist abgeschlossen, falls M = M gilt. Beispiele 4.4 (i) Die Menge [a, b] ist abgeschlossen. (ii) Der Abschluss von (a, b), (a, b] und [a, b) ist gegeben durch [a, b]. (iii) Die Menge [0, ∞) ist abgeschlossen. (iv) Der Abschluss von R \ {0} ist gegeben durch R. 4.2 Folgenstetigkeit Nun lässt sich der Grenzwertprozess auf Funktionen übertragen. Definition 4.5 (Grenzwert einer Funktion in einem Punkt) Sei D ⊂ R und f : D → R eine Funktion. Die Funktion hat einen Grenzwert c ∈ R in einem Punkt a ∈ D, wenn für alle Folgen von Punkten (xn )n∈N mit Grenzwert a = limn→∞ xn auch die Folge ( f (xn ) )n∈N mit Grenzwert c konvergiert, d.h. wenn gilt xn → a (n → ∞) In diesem Fall wird auch kurz notiert: ⇒ f (xn ) → c (n → ∞). lim f (x) = c. x→a, x∈D Man beachte, dass der betrachtete Punkt a nicht im Definitionsbereich liegen muss. Er muss lediglich im Abschluss D liegen, damit überhaupt eine Folge xn → a existiert. Im Speziellen muss also auch die Funktion f : D → R dort nicht definiert sein. Dies wird bei der späterten Definition der Ableitung wesentlich sein. Zunächst sei aber die Eigenschaft der Stetigkeit einer Funktion betrachtet. Eine Funktion auf einem reellen Intervall ist anschaulich gesprochen dann stetig, wenn der Graph zusammenhängt, d.h. ohne abzusetzen zeichenbar ist. Formal lässt sich dies dadurch erklären, dass alle Folgen zu einem Punkt (im Speziellen die von „links“ und die von „rechts“) denselben Grenzwert haben. Definition 4.6 (Stetigkeit) Eine Funktion f : D → R heißt stetig in einem Punkt a ∈ D, wenn für jede Folge (xn )n∈N in D gilt: xn → a (n → ∞) 64 ⇒ f (xn ) → f (a) (n → ∞). 4.2 Folgenstetigkeit f (x) f (x2 ) f (x3 ) f (a) f (a) ! ! f (x2 ) f (x1 ) ! f (x2 ) f (x1 ) x1 x2 x3 ! a x x1 x3 x2 f (x) x1 x2 x3 ! a x3 x2 x1 x Abbildung 4.1: Stetigkeit nach der Folgendefinition: Für alle Folgen (xn )n∈N mit xn → a muss auch f (xn ) → f (a) gelten. (Links: stetig / Rechts: unstetig) Andernfalls heißt die Funktion unstetig in a. Ist die Funktion stetig in jedem Punkt von D, so nennt man sie stetig auf D (oder auch schlicht: stetig). Für einen stetige Funktion gilt also lim f (x) = f (lim x), x→a x→a d.h. Stetigkeit erlaubt es, dass die Grenzwertbildung mit dem Anwenden der Funktion vertauscht wird. Beispiele 4.7 (i) Für ein beliebiges c ∈ R ist eine konstante Funktion f (x) = c (x ∈ R) gegeben. Diese ist stetig, denn die Folge ( f (xn ) )n∈N = (c)n∈N konvergiert für alle Folgen (xn )n∈N gegen c. f (x) c f (x) = c 1 1 x 65 4 Stetigkeit (ii) Die Identitätsfunktion f (x) = x ist stetig. Hier sind (xn )n∈N und ( f (xn ) )n∈N gleich und die eine konvergiert genau dann, wenn die andere konvergiert. f (x) f (x) = x 1 x 1 (iii) Die Exponentialfunktion f (x) = ex ist stetig. f (x) f (x) = ex 4 3 e ≈ 2.71828... 2 1 −2 −1 1 2 x −1 Zunächst ist f (x) = ex stetig im Punkt a = 0, d.h limx→0 ex = e0 = 1, denn es gilt für |x| < 1 0 x x1 x2 x3 x |e − 1| = + + + + . . . − 1 0! 1! 2! 3! 2 3 x x x = + + + . . . 1! 2! 3! 1 |x| |x|2 ≤ |x| · + + + ... 1! 2! 3! 1 1 1 ≤ |x| · + + + ... 1! 2! 3! = |x| · (e − 1) → 0 (|x| → 0). Sei nun a ∈ R beliebig und (xn )n∈N eine Folge mit xn → a. Dann gilt: |ea − exn | = |ea | · |1 − exn −a | → |ea | · |1 − 1| = 0 66 für (xn − a) → 0. 4.3 -δ-Stetigkeit (iv) Die Heavisidefunktion H(x) := ( für x < 0, für x ≥ 0, 0, 1, ist unstetig im Punkt a = 0. f (x) f (x) = H(x) 1 −3 −2 −1 1 2 3 x −1 1 Dazu betrachtet man die Folge xn := − n+1 , (n ∈ N). Für diese gilt: xn → 0 (n → ∞) und f (xn ) = 0 für alle n ∈ N, jedoch f (0) = 1. (v) Für eine endliche Zerlegung eines Intervall [a, b) durch Punkte a = p0 < p1 < p2 < . . . < pk = b ist eine Treppenfunktion stückweise definiert durch f (x) := ci für x ∈ [ pi−1 , pi ) , 1 ≤ i ≤ k. f (x) a p1 p2 p3 p4 p5 b x Eine Treppenfunktion ist im Allgemeinen in den Zerlegungspunkten pi unstetig (außer für ci−1 = ci ) und zwischen den Zerlegungspunkten stetig. 4.3 -δ-Stetigkeit Die Definition der Stetigkeit besagt qualitativ, dass man denselben Wert erhält, egal auf welchem Weg man zum Punkt a gelangt. Der Nachweis der Stetigkeit für eine kon- 67 4 Stetigkeit krete Funktion ist mit diesem Kriterium jedoch oftmals schwierig, da man alle Folgen betrachten muss. Eine quantitative, äquivalente Definition der Stetigkeit ist wie folgt. Satz 4.8 (-δ-Stetigkeit) Eine Funktion f : D → R ist genau dann stetig in einem Punkt a ∈ D, wenn es zu jedem > 0 ein δ > 0 gibt, so dass für alle Punkte x ∈ D gilt: |x − a| < δ ⇒ |f (x) − f (a)| < . Beweis. -δ-stetig → Folgen-stetig: Sei (xn )n∈N eine beliebige Folge mit xn → a (n → ∞). Zu zeigen ist, dass dann auch f (xn ) → f (a) gilt. Sei also > 0 vorgegeben. Dann gibt es nach -δ-stetig ein δ > 0, so dass für alle |x − a| < δ der Abstand |f (xn ) − f (a)| < ist. Da die Folge (xn )n∈N gegen a konvergiert, gibt es auch ein nδ , so dass |xn − a| < δ für alle n ≥ nδ . Somit gilt auch |f (xn ) − f (a)| < für alle n ≥ nδ . Folgen-stetig → -δ-stetig: Widerspruchsargument: Angenommen, zu einem vorgegebenen > 0 gibt es kein geeignetes δ, d.h. es gibt zu jedem noch so kleinen δ > 0 immer einen Punkt mit |x − a| < δ, aber |f (x) − f (a)| ≥ . Dann wählt man δ = 1, 12 , 13 , 41 , . . . und bildet mit diesen Punkten die Folge x1 , x2 , x3 , x4 , . . .. Für diese Folge gilt nun |xn − a| < 1 n und |f (xn ) − f (a)| ≥ . Damit gilt xn → a, jedoch nicht f (xn ) → f (a) im Widerspruch zum Folgenkriterium der Stetigkeit. Anschaulich bedeutet dies, dass der Funktionswert f (x) beliebig nahe an f (a) liegt, sofern nur auch x hinreichend nahe an a gewählt wird. Beispiele 4.9 (i) Für die Identität f (x) = x kann man für jedes das gesuchte δ = wählen. Damit gilt dann |x − a| < δ ⇒ |f (x) − f (a)| = |x − a| < δ = . (ii) Für die konstante Funktion f (x) = c gilt immer |f (x) − f (a)| = |c − c| = 0 für alle x, a ∈ R. 68 4.4 Rechenregeln für stetige Funktionen f (x) f (a) + ✏ f (a) f (a) + ✏ f (a) f (a) ✏ f (a) ✏ f (x) x a a a |{z} ? a+ x Abbildung 4.2: Stetigkeit nach der -δ-Definition: Für alle > 0 muss sich ein δ finden lassen, so dass alle Funktionswerte für Argumente x ∈ D mit |x − a| < δ die Funktionswerte höchstens |f (x) − f (a)| < entfernt liegen. (iii) Die Betragsfunktion f (x) = |x| ist stetig. Man wähle δ = . Denn mit der Beziehung ||x| − |y|| ≤ |x − y| für alle x, y ∈ R gilt dann die Abschätzung: |x − a| < δ ⇒ |f (x) − f (a)| = ||x| − |a|| < |x − a| < δ = . f (x) f (x) = |x| 1 −1 1 x 4.4 Rechenregeln für stetige Funktionen Funktionen mit demselben Definitionsbereich lassen sich auf natürliche Weise addieren oder multiplizieren. Definition 4.10 Für Funktionen f, g : D → R mit demselben Definitionsbereich ist Summe und Produkt 69 4 Stetigkeit der Funktionen definiert durch: (f + g)(x) := f (x) + g(x), und (f · g)(x) := f (x) · g(x). Die Stetigkeit bleibt bei solchen Operationen erhalten. Satz 4.11 Seien f, g : D → R stetig. Dann ist auch f + g und f · g stetig. Beweis. Sei (xn )n∈N mit xn → a. Dann gilt lim (f + g)(xn ) = lim {f (xn ) + g(xn )} n→∞ n→∞ = lim f (xn ) + lim g(xn ) = f (a) + g(a) = (f + g)(a). n→∞ n→∞ Beispiel 4.12 Polynome P (x) = n X ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n k=0 sind stetig. Denn diese sind Summe und Produkt von stetigen Funktionen (konstante Funktionen und die Identität f (x) = x). Es sei daran erinnert, dass für injektive Funktionen die sogenannte Umkehrfunktion existiert. Definition 4.13 (Umkehrfunktion) Sei f : D → B ⊂ R eine injektive Funktion mit Definitionsbereich D, Bild B. Die zugehörige Umkehrfunktion f −1 : B → D (oder auch inverse Funktion) ist auf dem Bild von f definiert durch f −1 (y) := x ⇔ y = f (x). 1 verDie Umkehrfunktion f −1 (x) darf nicht mit der reziproken Funktion f (x)−1 = f (x) −1 wechselt werden. Es ist vielmehr diejenige Funktion, für die f (f (x)) = x, x ∈ D gilt. Zudem sei daran erinnert, dass die Verkettung von Funktion definiert werden kann, sofern der Bildbereich der einen Funktion im Definitionsbereich der anderen liegt. Definition 4.14 (Komposition von Funktionen) Für zwei reellwertige Funktionen g : D → B ⊂ R und f : B → R ist die Komposition (auch: Verkettung) f ◦ g : D → R definiert durch: (f ◦ g)(x) := f (g(x)), 70 für alle x ∈ D. 4.4 Rechenregeln für stetige Funktionen Beispiele 4.15 (i) Für k ∈ N ist die k-te Potenz gegeben durch die Funktion x ∈ R. f (x) := xk , Beschränkt man den Definitionsbereich auf [0, ∞) = R+ ∪ {0}, so ist diese injektiv mit Bild R+ ∪ {0} und die zugehörige Umkehrfunktion wird als die k-te Wurzel bezeichnet: f −1 : R+ ∪ {0} → R+ ∪ {0}, Für einen rationalen Exponenten Komposition definiert: z n f −1 (x) := √ k x. mit z ∈ Z, n ∈ N wird die Potenzfunktion als z f (x) = x n :⇔ f1 (x) = xz , f2 (x) = √ n x und f (x) = f1 (f2 (x)), x ∈ R+ ∪ {0}. f (x) = x2 4 3 f (x) = 2 √ 2 x 1 −2 −1 1 2 3 4 5 x (ii) Die Exponentialfunktion f (x) = exp(x) = ex ist für ganz R definiert und nimmt nur positive Werte an. Die Umkehrfunktion ist definiert als der natürliche Logarithmus f −1 (x) =: ln(x), d.h. Für alle x ∈ R+ gilt : y := ln(x) :⇔ x = ey . Somit gilt für alle x ∈ R: ln(ex ) = x = eln(x) . 71 4 Stetigkeit f (x) = ex 5 4 3 2 f (x) = ln(x) 1 −2 −1 1 2 3 4 5 x −1 −2 Satz 4.16 (Stetigkeit der Umkehrfunktion) Sei die auf einem beschränkten und abgeschlossenen Definitionsbereich D definierte reellwertige Funktion f : D → B ⊂ R injektiv und stetig. Dann ist auch die Umkehrfunktion f −1 : B → D stetig. Beweis. Sei (yn )n∈N eine beliebige Folge in B mit yn → b ∈ B, (n → ∞). Damit die Umkehrfunktion stetig, muss nun gezeigt werden, dass für die Folge der Funktionswerte gilt: xn := f −1 (yn ) → f −1 (b) =: a, (n ∈ N). Dies sieht man wie folgt: Die Folge (xn )n∈N ist beschränkt, da alle Folgenglieder in der beschränkten Menge D liegen. Damit besitzt (xn )n∈N eine konvergente Teilfolge xnk → p ∈ D. Da f stetig ist, konvergieren aber auch die Funktionswerte f (xnk ) → f (p). Zudem gilt aber auch, dass f (xnk ) = ynk → b = f (a) konvergiert und somit f (a) = f (p) gilt. Wegen der Injektivität von f folgt daraus a = p. Somit besitzt jede konvergente Teilfolge von (xn )n∈N den gleichen Grenzwert a und es gilt xn → a, was zu zeigen war. Beispiele 4.17 (i) Die k-te Wurzel f (x) = √ k x ist als Umkehrfunktion von xk stetig. (ii) Der natürliche Logarithmus f (x) = ln(x) ist als Umkehrfunktion von ex stetig. 4.5 Zwischenwertsatz Stetige, reellwertige Funktion auf reellen Intervallen sind dadurch gekennzeichnet, dass sie keine Sprünge in den Funktionswerten aufweisen. Besitzt eine Funktion unterscheidliche Funktionswerte f (a) 6= f (b) an zwei Stellen a 6= b, a, b ∈ D und ist dazwischen stetig, 72 4.5 Zwischenwertsatz so nimmt die Funktion daher auch alle Werte zwischen f (a) und f (b) an. Dies lässt sich so veranschaulichen: Geht ein Bergsteiger aus dem Tal auf den Gipfel und dies durch einen stetigen Aufstieg (d.h. er kann nicht plötzlich etliche Meter in die Höhe springen), dann kommt er bei seinem Aufstieg auch an jedem Höhenmeter zwischen Tal und Gipfel vorbei. Mathematisch wird dies durch den sogenannten Zwischenwertsatz ausgedrückt. Satz 4.18 (Zwischenwertsatz) Sei f : [a, b] → R eine stetige Funktion. Dann gibt es zu jeder Zahl y zwischen f (a) und f (b), d.h. f (a) ≤ y ≤ f (b) bzw. f (a) ≥ y ≥ f (b), ein c ∈ [a, b] mit f (c) = y. Beweis. (Skizze) Durch Einschachtelung lässt sich ein immer kleineres Intervall finden, in dem der gesuchte Punkt liegen muss. Aufgrund der Vollständigkeit von R konvergiert dies gegen den gesuchten Punkt c. f (x) f (b) f (c) f (a) a c b x Abbildung 4.3: Illustration zum Zwischenwertsatz Beispiel 4.19 Der Zwischenwertsatz hat zahlreiche Anwendungen. Eine davon ist die Existenz von Fixpunkten einer Funktion f . Dies sind Punkte x∗ ∈ R für die f (x∗ ) = x∗ gilt. Es gilt: Jede stetige Funktion f : [a, b] → [a, b] besitzt einen Fixpunkt. Man betrachte dazu die Funktion g(x) := f (x) − x. Diese ist wiederum stetig und da alle Funktionswerte im Intervall [a, b] liegen, muss im Speziellen f (a), f (b) ∈ [a, b] gelten. Damit ist g(a) = f (a) − a ≥ 0 und g(b) = f (b) − b ≤ 0. Aus dem Zwischenwertsatz folgt, dass es eine Nullstelle x∗ ∈ [a, b] mit g(x∗ ) = 0 gibt. Für diese gilt dann f (x∗ ) = x∗ . 73 5 Differentiation Bei der Betrachtung von reellwertigen Funktionen f : D → R auf einem Intervall D ⊂ R war die Stetigkeit der Funktion eine wesentliche Eigenschaft. Ist die Funktion in einen Punkt x0 stetig, so unterscheiden sich die Funktionswerte f (x) an Punkten x nicht wesentlich von dem Wert f (x0 ) unterscheiden, wenn man x nur hinreichend nahe an x0 wählt. Anschaulich gesprochen hat eine stetige Funktion keinen Sprung in den Funktionswerten, d.h. entfernt man sich nur wenig von dem Punkt x0 , so ändert sich auch der Funktionswert nur geringfügig von f (x0 ). Durch Differentiation lässt sich die Änderung einer Funktion in der Nähe von x0 quantitativer betrachten. Dazu ein Beispiel: Die Größe einer Population sei als eine Funktion g : D → R über die Zeit aufgetragen. Somit lässt sich zu jedem Zeitpunkt t ∈ D die aktuelle Populationsgröße g(t) ermitteln. g(t) g(t) ∆y g(t0 ) t0 t t ∆t Abbildung 5.1: Illustration zur zeitlichen Entwicklung einer Größe einer Population. Zudem lässt sich fragen, wie sich die Population im zeitlichen Mittel von einem Startzeitpunkt t0 bis zum Zeitpunkt t verändert hat. Diese Änderung beträgt g(t) − g(t0 ) und somit kann man auch die mittlere Änderungsrate der Population im Intervall [t0 , t] bestimmen. g(t) − g(t0 ) t − t0 75 5 Differentiation Dies führt zunächst auf die folgende Definition. Definition 5.1 (Differenzenquotient) Zu einer Funktion f : D → R ist für die Änderung der Funktionswerte ∆y := f (x)−f (x0 ) im Intervall ∆x := x − x0 die mittlere Änderungsrate gegeben durch f (x) − f (x0 ) ∆y = , für x 6= x0 ∆x x − x0 und wird als Differenzenquotient von f zu den Stellen x und x0 bezeichnet. Man kann sich zudem fragen, wie momentane Änderungsrate aussieht, d.h. die Größe der Änderung in einem beliebig kleinen Bereich um den betrachteten Zeitpunkt herum. Mathematisch benötigt man dazu den Grenzwert des Differenzenquotienten. 5.1 Ableitung von Funktionen Definition 5.2 (Differenzierbar) Eine Funktion f : D → R heißt differenzierbar in einem Punkt x0 ∈ D, wenn der Grenzwert f (x) − f (x0 ) df (x0 ) := f 0 (x0 ) := x→x lim , 0 dx x − x0 x∈D\{x } 0 existiert. f (x0 ) heißt Differentialquotient oder Ableitung von f im Punkt x0 . 0 Ist die Funktion f in jedem Punkt von D differenzierbar, so bezeichnet man sie als differenzierbar in D. Die geometrische Interpretation dieses Vorgehens ist wie folgt: Der Differenzenquotient ist die Steigung der Sekante des Graphens durch die Punkte (x0 , f (x0 )) und (x, f (x)). Bildet man den Grenzwert x → x0 , so wird die Sekante zur Tangente im Punkt (x0 , f (x0 )) und f 0 (x0 ) entspricht der Steigung der Tangente. Bemerkung 5.3 (i) Wichtig bei der Definition der Ableitung ist, dass der Differenzenquotient für alle Folgen x → x0 gegen denselben Grenzwert f 0 (x0 ) konvergieren muss. (ii) Der Differenzenquotient ist nur für x 6= x0 definiert, d.h. nur auf D \ {x0 }. Die Ermittlung des Grenzwerts ist dennoch möglich, da dieser auch für die Punkte im Abschluss einer Menge definiert ist. (iii) Eine analoge Definition ist durch Nullfolgen h → 0 möglich. Die Ableitung ist gegeben durch f (x0 + h) − f (x0 ) , h→0 h wobei die Folge x0 + h in D liegen muss. f 0 (x0 ) = lim 76 5.1 Ableitung von Funktionen f (x) f (x) f (x) ∆y f (x0 ) f (x0 ) ∆x x0 x x x0 x Abbildung 5.2: Geometrische Interpretation der Ableitung. Links: Sekante. Rechts: Tangente. (iv) Die Ableitung ist zunächst eine punktweise Eigenschaft einer Funktion, d.h. Differenzierbarkeit ist für einen gegebenen Punkt x0 ∈ D definiert und die Ableitung hat einen Wert f 0 (x0 ) ∈ R, sofern sie existiert. Ist jedoch die Funktion auf dem gesamten Definitionsbereich D differenzierbar, d.h. für alle x0 ∈ D existiert der Grenzwert f 0 (x0 ), so kann man die Ableitung wieder als Funktion f 0 : D → R, x 7→ f 0 (x) auffassen. Beispiele 5.4 (i) Die konstante Funktion f (x) = c mit c ∈ R ist differenzierbar mit f 0 (x0 ) = lim x→x0 c−c f (x) − f (x0 ) = lim = 0. x→x x − x0 0 x − x0 (ii) Die lineare Funktion f (x) = m · x mit m ∈ R ist differenzierbar mit f 0 (x0 ) = lim x→x0 f (x) − f (x0 ) m · x − m · x0 m · (x − x0 ) = lim lim = m. x→x0 x→x0 x − x0 x − x0 x − x0 (iii) Die affin-lineare Funktion f (x) = m · x + b mit m, b ∈ R ist differenzierbar mit f 0 (x0 ) = lim x→x0 f (x) − f (x0 ) m · x + b − (m · x0 + b) = lim = m. x→x0 x − x0 x − x0 (iv) Die Betragsfunktion f (x) = |x| ist nicht differenzierbar in x0 = 0, denn ( 1, x > 0, |x| − |0| = x−0 −1, x < 0, und die Grenzwerte des Differenzenquotienten unterscheiden sich, je nachdem, ob man sich von oben oder von unten an x0 annähert. 77 5 Differentiation (v) Die Funktion f (x) = 1 x ist für x0 > 0 differenzierbar mit 1 f 0 (x0 ) = lim x→x0 x −x 1 0 − −1 f (x) − f (x0 ) 1 = lim x x0 = lim x·x0 = lim =− 2 x→x0 x − x0 x→x0 x − x0 x→x0 x · x0 x − x0 x0 (vi) Die Exponentialfunktion f (x) = ex ist differenzierbar mit ex+h − ex eh − 1 1 f 0 (x) = lim = ex lim = ex lim h→0 h→0 h→0 h h h = ex lim h→0 ∞ X hk k=0 k! ∞ X hk k=0 k! ! −1 = ex lim eh = ex e0 = ex h→0 5.2 Ableitung als lineare Approximation Sei noch einmal die affin-lineare Funktion f (x) = m · x + b mit Ableitung f 0 (x0 ) = m in jedem Punkt x0 ∈ D betrachtet. Für diese gilt auch die folgende Darstellung der Funktionsdifferenz: f (x) − f (x0 ) = m · x + b − (m · x0 + b) = m · (x − x0 ) = f 0 (x0 ) · (x − x0 ) oder anders ausgedrückt f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ), mit f (x0 ), f 0 (x0 ) ∈ R. Dies zeigt, dass sich die Funktion als lineare Funktion mit Aufpunkt in x0 schreiben lässt. Dies ist nicht weiter verwunderlich, denn die Funktion ist ja bereits linear. Vielmehr lässt sich aber jede differenzierbare Funktion in der Nähe eines Punktes x0 in einer solchen Form schreiben, wenn man einen kleinen Fehler zulässt. Dieser Fehler muss dabei beliebig klein werden, je näher man x an x0 betrachtet. Man spricht davon, dass man die Funktion lokal (d.h. für x nahe bei x0 ) durch eine lineare Approximation darstellen kann. Satz 5.5 (Die Ableitung ist die lineare Approximation) Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn es eine konstante c ∈ R gibt, so dass f (x) = f (x0 ) + c · (x − x0 ) + ω(x), mit einer Funktion ω(x) : D → R, für die gilt lim x→x0 In diesem Fall gilt c = f 0 (x0 ). 78 ω(x) = 0. x − x0 x ∈ D, 5.2 Ableitung als lineare Approximation Beweis. Differenzierbar → linear approximierbar: Sei f in x0 differenzierbar. Definiert man nun ω(x) := f (x) − f (x0 ) − f 0 (x0 ) · (x − x0 ), so gilt lim x→x0 ω(x) x − x0 f (x) − f (x0 ) f 0 (x0 ) · (x − x0 ) = lim − x→x0 x − x0 x − x0 f (x) − f (x0 ) = lim − f 0 (x0 ) = 0. x→x0 x − x0 Linear approximierbar → differenzierbar: Umgekehrt gelte für eine Funktion ω(x) mit limx→x0 ω(x) x−x0 = 0: f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + ω(x). Dann gilt auch lim x→x0 f (x) − f (x0 ) − f 0 (x0 ) x − x0 = lim x→x0 ω(x) x − x0 =0 und somit lim x→x0 f (x) − f (x0 ) x − x0 = f 0 (x0 ). Die Forderung an den Restterm ω(x) bedeutet, dass ω(x) im Vergleich zu x − x0 verschwindend klein wird je näher x gegen x0 strebt. Für diese Eigenschaft wurde das sogenannte Landau-Symbol o („klein-O“) eingeführt. Für zwei Funktionen g, h : D → R schreibt man: g(x) = o(h(x)) für x → x0 , falls lim x→x0 g(x) = 0. h(x) Damit lässt sich die Differenzierbarkeit in einem Punkt kompakt beschreiben: Satz 5.6 Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn sie sich in der Nähe von x0 durch eine lineare Funktion darstellen lässt, d.h. f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |), für x → x0 , mit f 0 (x0 ) ∈ R. 79 5 Differentiation Aus dieser Darstellung sieht man sofort, dass eine differenzierbare Funktion stetig sein muss. Satz 5.7 (differenzierbar → stetig) Ist eine Funktion f : D → R differenzierbar in x0 ∈ D, so ist sie auch stetig in x0 . Beweis. Da f differenzierbar in x0 ist, gilt f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |). Durch den Grenzübergang x → x0 erhält man lim f (x) = lim f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |) = f (x0 ) = f ( lim x). x→x0 x→x0 x→x0 | {z } | {z } →0 →0 Bemerkung 5.8 In gleicher Weise lässt sich Stetigkeit als die Approximation mit konstanten Funktionen auffassen. Denn ist einen Funktion f : D → R stetig in x0 ∈ D, so gilt f (x) = f (x0 ) + o(1), für x → x0 , mit der Konstanten f (x0 ) ∈ R. 5.3 Ableitungsregeln Erneut stellt sich die Frage, ob und wie sich die Differenzierbarkeit auf Summe, Produkt und Komposition Funktionen sowie auf die Umkehrfunktion überträgt. Satz 5.9 (Summen-, Produkt- und Quotientenregel) Sei D ⊂ R und seien f, g : D → R differenzierbar. Dann gilt (i) Die Summe (f + g)(x) := f (x) + g(x) (für x ∈ D) ist differenzierbar mit: (f + g)0 (x) = f 0 (x) + g 0 (x). (ii) Das Produkt (f · g)(x) := f (x) · g(x) (für x ∈ D) ist differenzierbar mit: (f · g)0 (x) = f 0 (x) · g(x) + f (x) · g 0 (x). (iii) Der Quotient 80 f g (x) := f (x) g(x) (für x ∈ D) ist für g(x) 6= 0 differenzierbar mit: 0 f f 0 (x) · g(x) − f (x) · g 0 (x) . (x) = g g(x)2 5.3 Ableitungsregeln Beweis. Die Regeln folgen aus den entsprechenden Eigenschaften konvergenter Folgen und den Betrachtungen: (i) f (x) + g(x) − f (x0 ) − g(x0 ) (f + g)(x) − (f + g)(x0 ) = lim x→x x − x0 x − x0 0 f (x) − f (x0 ) g(x) − g(x0 ) = lim + lim = f 0 (x0 ) + g 0 (x0 ). x→x0 x→x0 x − x0 x − x0 (f + g)0 (x) = lim x→x0 (ii) f (x) · g(x) − f (x0 ) · g(x0 ) (f · g)(x) − (f · g)(x0 ) = lim x→x0 x→x0 x − x0 x − x0 f (x) · g(x) − f (x) · g(x0 ) + f (x) · g(x0 ) − f (x0 ) · g(x0 ) = lim x→x0 x − x0 f (x) · (g(x) − g(x0 )) + (f (x) − f (x0 )) · g(x0 ) = lim x→x0 x − x0 (g(x) − g(x0 )) (f (x) − f (x0 )) = lim f (x) · + lim · g(x0 ) x→x0 x→x0 x − x0 x − x0 = lim {f (x)} · g 0 (x0 ) + f 0 (x0 ) · g(x0 ) (f · g)0 (x) = lim x→x0 = f (x0 ) · g 0 (x0 ) + f 0 (x0 ) · g(x0 ) (wegen der Stetigkeit von f ). (iii) 0 f f f (x) f (x0 ) 1 1 f − (x) = lim (x) − (x0 ) = lim x→x0 x − x0 x→x0 x − x0 g g g g(x) g(x0 ) f (x) · g(x0 ) − f (x0 ) · g(x) 1 = lim x→x0 x − x0 g(x) · g(x0 ) f (x) · g(x0 ) − f (x0 ) · g(x0 ) + f (x0 ) · g(x0 ) − f (x0 ) · g(x) 1 = lim x→x0 x − x0 g(x) · g(x0 ) f (x) − f (x0 ) g(x0 ) f (x0 ) g(x0 ) − g(x) = lim · + · x→x0 x − x0 g(x) · g(x0 ) g(x) · g(x0 ) x − x0 g(x0 ) f (x0 ) 0 + · g (x0 ) (wegen der Stetigkeit von g) = f 0 (x0 ) · g(x0 )2 g(x0 )2 f 0 (x0 ) · g(x0 ) + f (x0 ) · g 0 (x0 ) = g(x0 )2 Beispiel 5.10 (i) Für f (x) = x2 = x · x gilt f 0 (x) = x · 1 + 1 · x = 2x. (ii) Per Induktion zeigt für f (x) = xn die Ableitung f 0 (x) = nxn−1 , denn man die Produktregel liefert für f (x) = x·xn−1 die Ableitung f 0 (x) = xn−1 +x·(n−1)xn−2 = nxn−1 . 81 5 Differentiation (iii) Als Summe und Produkt von differenzierbaren Funktionen sind Polynome P (x) = n X ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n k=0 in jedem Punkt differenzierbar mit 0 P (x) = n X kak xk−1 = a1 + 2a2 x + 3a3 x2 + . . . + nan xn−1 . k=1 Satz 5.11 (Kettenregel) Seien g : D → B ⊂ R, f : B → R und sei g differenzierbar in x0 ∈ D und f differenzierbar in y0 := g(x0 ) ∈ B. Dann ist die Komposition (auch: Verkettung) f ◦ g : D → R, x 7→ f (g(x)) ebenfalls in x0 differenzierbar mit (f ◦ g)0 (x0 ) = f 0 (g(x0 )) · g 0 (x0 ). Beweis. Die Schwierigkeit im Beweis liegt zunächst darin, dass y−y0 = g(x)−g(x0 ) = 0 sein könnte und damit sich der Differenzenquotient zu (f ◦ g)0 (x0 ) nicht mit g(x) − g(x0 ) erweitern lässt. Man betrachte daher zunächst die Funktion ∆f : B → R definiert als: ( f (y)−f (y0 ) , für y 6= y0 , y−y0 ∆f (y) := 0 f (y0 ), für y = y0 . Es gilt dann limy→y0 ∆f (y) = f 0 (y0 ), da f in y0 differenzierbar ist. Zudem gilt f (y) − f (y0 ) = ∆ f (y) · (y − y0 ) . Damit findet man f (g(x)) − f (g(x0 )) ∆f (g(x)) · (g(x) − g(x0 )) = lim x→x0 x→x0 x − x0 x − x0 g(x) − g(x0 ) = f 0 (g(x0 )) · g(x0 ). = lim ∆f (g(x)) · lim x→x0 x→x0 x − x0 (f ◦ g)0 (x0 ) = lim Beispiel 5.12 2 Die Funktion h(x) = e−x lässt sich als h(x) = f (g(x)) mit f (x) = ex und g(x) = −x2 auffassen. Somit lautet die Ableitung: 2 h0 (x) = f 0 (g(x)) · g 0 (x) = e−x · (−2x) = −2xe−2x . Satz 5.13 (Differenzierbarkeit der Umkehrfunktion) Sei f : D → B ⊂ R eine auf einem abgeschlossenen Definitionsbereich stetige, invertierbare Funktion und f −1 : B → D die zugehörige Umkehrfunktion. Ist f in einem Punkt x0 ∈ D differenzierbar mit f 0 (x0 ) 6= 0, dann ist auch die Umkehrfunktion f −1 im Punkt y0 = f (x0 ) differenzierbar und für die Ableitung gilt (f −1 )0 (y0 ) = 82 1 f 0 (x 0) , x0 = f −1 (y0 ). 5.4 Extrema und Mittelwertsatz Beweis. Da f stetig ist, ist dies auch f −1 . Somit gilt folgt aus f (x) =: y → y0 := f (x0 ) auch x = f −1 (y) → f −1 (y0 ) = x0 . Unter Beachtung von y = f (x) ⇔ x = f −1 (y) gilt x − x0 f −1 (y) − f −1 (y0 ) = lim = lim lim x→x0 f (x) − f (x0 ) x→x0 y→y0 y − y0 1 x−x0 f (x)−f (x0 ) = 1 . f 0 (x0 ) Beispiel 5.14 Sei f (x) = ex mit Umkehrfunktion f −1 (y) = ln(y). Dann gilt für die Ableitung des natürlichen Logarithmus: 1 1 1 ln0 (y) = x 0 = x = , mit y = ex . (e ) e y Dies erlaubt es die folgende Darstellung der Eulerschen Zahl zu zeigen: n 1 e = lim 1 + . n→∞ n Man folgert nämlich so: Da für den Logarithmus ln0 (1) = 1 sowie ln(1) = 0 gilt, folgt ln(1 + h) ln(1 + h) − ln(1) = lim h→0 h→0 h h 1 für alle Folgen und somit auch für die Folge h := n . Deshalb ist 1 = ln0 (1) = lim 1 = lim n→∞ ln(1 + n1 ) 1 n = lim n ln(1 + n→∞ 1 ). n Damit schließt man wegen der Stetigkeit der Exponentialfunktion: n n o 1 1 = lim en ln(1+ n ) = e1 = e. lim 1 + n→∞ n→∞ n 5.4 Extrema und Mittelwertsatz Definition 5.15 (lokale / globale Extrema) Eine Funktion f : D → R hat in einem Punkt x0 ∈ D ein globales Extremum (Maximum bzw. Minimum), falls gilt: f (x0 ) ≥ f (x) für alle x ∈ D f (x0 ) ≤ f (x) für alle x ∈ D (Maximum), (Minimum). Gilt diese Eigenschaft nicht auf dem gesamten Definitionsbereich D, sondern nur auf einer Teilmenge {x ∈ D | |x − x0 | < δ} um den betrachteten Punkt x0 herum, d.h. es gibt ein δ > 0, so dass f (x0 ) ≥ f (x) für alle x mit |x − x0 | < δ f (x0 ) ≤ f (x) für alle x mit |x − x0 | < δ (Maximum), (Minimum), dann heißt die Stelle x0 lokales Extremum (lokales Maximum bzw. lokales Minimum). 83 5 Differentiation f (x) globales Maximum lokales Maximum lokales Minimum globales Minimum x D Satz 5.16 (Notwendige Bedingung für Extrema) Besitzt eine differentierbare Funktion f : (a, b) → R ein lokales Extremum in x0 ∈ (a, b), so gilt notwendig f 0 (x0 ) = 0. Beweis. Besitze f ein lokales Minimum. Dann gilt in der Nähe von x0 für monotone Folgen x → x0 von oben und unten f (x) − f (x0 ) ≥ 0, x − x0 f (x) − f (x0 ) ≤ 0, x − x0 falls x > x0 , und falls x < x0 . Somit gilt beim Grenzübergang x → x0 : 0 ≤ f 0 (x0 ) ≤ 0 Für das Maximum schließt man analog. ⇒ f 0 (x0 ) = 0. Satz 5.17 (Rolle) Sei f : [a, b] → R einen stetige Funktion mit f (a) = f (b) . Ist f in (a, b) differenzierbar, so dann existiert eine Stelle c ∈ (a, b) mit f 0 (c) = 0. Beweis. Ist f konstant, so gilt direkt f 0 (x) = 0 für alle x ∈ (a, b). Ist f nicht konstant, so muss es einen Punkt x0 ∈ (a, b) geben an dem der Funktionswert von f (a) = f (b) verschieden ist, d.h. mit f (x0 ) > f (a) = f (b) oder f (x0 ) < f (a) = f (b). Somit wird das globale Maximum oder Minimum nicht in a oder b angenommen, sondern in einem Punkt c ∈ (a, b). Für diesen gilt f 0 (c) = 0. 84 5.4 Extrema und Mittelwertsatz Der folgende Satz ist das Analogon für differenzierbare Funktionen zu dem Zwischenwertsatz für stetige Funktionen. Satz 5.18 (Mittelwertsatz) Sei f : [a, b] → R eine stetige Funktion, die in (a, b) differenzierbar ist. Dann gibt es ein c ∈ (a, b), so dass f 0 (c) = f (b) − f (a) . b−a Beweis. Man definiert g : [a, b] → R durch g(x) := f (x) − f (b) − f (a) (x − a). b−a Diese Funktion ist stetig in [a, b] und differenzierbar in (a, b) und es gilt g(a) = f (a) = g(b). Aus dem Satz von Rolle folgt, dass es dann ein c ∈ (a, b) gibt mit g 0 (c) = 0. Für dieses gilt g 0 (c) = f 0 (c) − f (b) − f (a) = 0. b−a f (x) f (a) + a c b f (b)−f (a) (x b−a − a) x Abbildung 5.3: Illustration zum Mittelwertsatz 85 5 Differentiation 5.5 Taylorreihe Eine im Punkt x0 differenzierbare Funktion lässt sich bis auf einen Fehler der Ordnung o(|x − x0 |) durch eine lineare Funktion annähern gemäß f (x) = f (x0 ) + f 0 (x0 )(x − x0 ) + o(|x − x0 |). An dieser Stelle lässt sich fragen, ob sich die Approximation besser machen lässt, indem man weitere Terme höherer Ordung (z.B. (x − x0 )2 ) mit hinzunimmt. Um die obige Summe logisch fortzusetzen benötigt man dafür aber eine weitere, zweite Ableitung von f. Definition 5.19 (Höhere Ableitungen) Sei für eine Funktion f : D → R die Ableitung f 0 : D → R stetig, dann bezeichnet man f als stetig differenzierbar. Ist die Ableitung f 0 : D → R zudem sogar differenzierbar, so bezeichnet man die Ableitung von f 0 (x) als die 2. Ableitung von f (x) und diese wird notiert als f 00 (x) oder f (2) (x). Rekursiv wird die n-te Ableitung (sofern sie existiert) definiert durch: f (0) (x) := f (x), df (x) := f (1) (x) := f 0 (x), dx d2 f (x) := f (2) (x) := f 00 (x), 2 dx .. . dn f (x) := f (n) (x) := (f (n−1) )0 (x), (n ≥ 3). n dx Beispiel 5.20 Betrachtet man nun zunächst ein allgemeines Polynom n X ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . + an (x − x0 )n , P (x) = k=0 so findet man für die n-t Ableitung P (1) (x) = a1 + 2 · a2 · (x − x0 ) + 3 · a3 · (x − x0 )2 + . . . + n · an · (x − x0 )n−1 , P (2) (x) = 2 · 1 · a2 + 3 · 2 · a3 · (x − x0 ) + . . . + n · (n − 1) · an · (x − x0 )n−2 , .. . P (k) (x) = k · (k − 1) · . . . · 1 · ak + (k + 1) · k · . . . · 2 · ak+1 · (x − x0 ) .. . + . . . + n · (n − 1) · . . . · (n − k + 1) · an · (x − x0 )n−k , P (n) (x) = n · (n − 1) · . . . · 2 · 1 · an , 86 5.5 Taylorreihe und somit als Ableitung an der Stelle x0 die Darstellung P (k) (x0 ) = k · (k − 1) · . . . · 1 · ak = k! · ak ⇒ ak = P (k) (x0 ) . k! Setzt man im obigen Beispiel die Darstellung der Koeffizient ein, so zeigt sich, dass sich das Polynom auch wie folgt darstellen lässt: P (x) = n X P (k) (x0 ) k! k=0 (x − x0 )k . Dies motiviert die folgende Definition. Definition 5.21 (Taylor-Polynom) Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar. Dann nennt man Tn (x) := Tn [f, x0 ](x) := n X f (k) (x0 ) k! k=0 (x − x0 )k das n-te Taylor-Polynom von f zum Entwicklungspunkt x0 ∈ (a, b). Aus der obigen Diskussion hat sich gezeigt, dass das n-te Taylor-Polynom von einem Polynom f vom Grad n mit dem Polynom f identisch ist - oder anders ausgedrückt: Die Funktion und ihre Darstellung durch das Taylor-Polynom hatten keine Abweichung von einander. Für eine Allgemeine Funktion wird dies nicht der Fall sein, jedoch lässt sich hoffen, dass man die Größe des Fehlers zwischen einer Funktion f und ihrem TaylorPolynom geeignet abschätzen kann und dieser hinreichend klein gemacht werden kann. Dies liefert die folgende Aussage. Satz 5.22 (Restglied der Taylor-Approximation) Die Funktion f : (a, b) → R sei n + 1-mal stetig differenzierbar und x0 ∈ (a, b). Dann gibt es zu jedem x ∈ (a, b) ein ξ zwischen x und x0 , so dass gilt f (x) = n X f (k) (x0 ) k=0 k! (x − x0 )k + f (n+1) (ξ) (x − x0 )n+1 . (n + 1)! Der Unterschied zwischen f (x) und dem zugehörigen Taylor-Polynom Tn [f, x0 ](x), Rn+1 (x) := f (x) − Tn [f, x0 ](x) = f (n+1) (ξ) (x − x0 )n+1 , (n + 1)! wird als Lagranges Restglied bezeichnet. Beweis. Sei x ∈ (a, b) fest gewählt. Die Hilfsfunktion g : (a, b) → R gegeben durch g(y) := f (x) − n X f (k) (y) k=0 k! (x − y)k − α (x − y)n+1 (n + 1)! 87 5 Differentiation hat für jedes α den Funktionswert g(x) = 0. Zudem lässt sich α so wählen, dass g(x0 ) = 0 gilt. Als Zusammensetzung differenzierbarer Funktionen ist auch g(y) nach y differenzierbar. Jeder Summand mit k ≥ 0 hat dabei die Ableitung f (k+1) (y) f (k) (y) d f (k) (y) k (x − y) = (x − y)k + k · (x − y)k−1 · (−1) dy k! k! k! (k+1) (k) f (y) f (y) = (x − y)k − · (x − y)k−1 k! (k − 1)! und für k = 0 ohne den zweiten Term. Somit folgt g 0 (y) = − =− n X f (k+1) (y) k=0 n X k! (x − y)k + n X f (k) (y) (x − y)n (x − y)k−1 + α (k − 1)! n! k=1 n−1 (k+1) X f (k+1) (y) f (y) (x − y)n k k (x − y) + (x − y) + α k! k! n! k=0 k=0 (n+1) (x − y)n . n! n! Wegen g(x) = g(x0 ) = 0 gibt es nach dem Satz von Rolle ein ξ zwischen x und x0 mit der Eigenschaft =− f (y) (x − y)n + α f (n+1) (ξ) (x − ξ)n (x − ξ)n + α n! n! n n (x − ξ) (x − ξ) =α f (n+1) (ξ) n! n! α = f (n+1) (ξ). 0 = g 0 (ξ) = − ⇒ Somit folgt insgesamt ⇒ 0 = g(x0 ) = f (x) − n X f (k) (x0 ) k=0 k! (x − x0 )k − f (n+1) (ξ) (x − x0 )n+1 . (n + 1)! Bemerkung 5.23 Um zu wissen, die gut ein Taylor-Polynom eine Funktion approximiert, muss das Restglied abgeschätzt werden. Hierfür gilt im Falle x > x0 (für x < x0 analog): |Rn+1 (x)| ≤ 1 · sup |f (n+1) (ξ)| · |x − x0 |n+1 . (n + 1)! x0 <ξ<x Beispiel 5.24 Für die Exponentialfunktion f (x) = ex gilt f (n) = ex und somit f (n) (0) = 1, (n ≥ 0). Die Taylor-Reihe zum Entwicklungspunkt x0 = 0 liest sich als n X 1 k x . k! k=0 88 5.5 Taylorreihe ex 6 T3 = 1 + x + 12 x2 + 61 x3 5 T2 = 1 + x + 21 x2 4 T1 = 1 + x 3 2 T0 = 1 1 −3 −2 −1 1 2 3 x 4 −1 Abbildung 5.4: Taylorentwicklung der Exponentialfunktion für x0 = 0 Analog zur Approximierbarkeit durch lineare Funktionen durch die Ableitung einer Funktion, lässt sich auch die Approximierbarkeit durch Taylor-Polynome fassen. Satz 5.25 (Approximation durch Taylor-Polynome) Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar und x0 ∈ (a, b). Dann gilt für alle x ∈ (a, b) f (x) = n X f (k) (x0 ) k=0 k! (x − x0 )k + o(|x − x0 |n ) für x → x0 . Beweis. Es gilt für die Restglieddarstellung des n − 1-ten Taylor-Polynoms mit einem ξ ∈ (a, b) (wobei ξ von x abhängt) f (x) − n−1 (k) X f (x0 ) k=0 k! (x − x0 )k = = f n (ξ) (x − x0 )n n! f n (x0 ) f n (ξ) − f n (x0 ) (x − x0 )n + (x − x0 )n n! n! und somit f (x) − Pn f (k) (x0 ) (x k! n − x0 ) k=0 (x wegen der Stetigkeit von f n (x). − x0 )k = f n (ξ) − f n (x0 ) →0 n! für x → x0 89 5 Differentiation Ist eine Funktion beliebig oft differenzierbar, so kann man das Taylor-Polynom zu einer Taylor-Reihe machen. Definition 5.26 (Taylor-Reihe) Sei f : (a, b) → R beliebig oft differenzierbar, d.h. für alle k ∈ N existiert f (k) (x). Dann ist die Taylor-Reihe zum Entwicklungspunkt x0 ∈ (a, b) definiert durch T∞ [f, x0 ](x) := ∞ X f k (x0 ) k=0 k! (x − x0 )k . Bemerkung 5.27 Eine Taylor-Reihe muss die Funktion f nicht darstellen. Es gibt folgende Fälle: (i) Die Reihe konvergiert nicht oder nicht für jedes x. Dann stimmt der Konvergenzradius nicht mit dem Definitionsbereich der Funktion überein. (ii) Konvergiert die Reihe in einem Punkt x, so kann dennoch f (x) 6= Tn [f, x0 ](x) sein. (iii) Die Taylor-Reihe stellt die Funktion f (x) genau dann dar, falls das Lagrange Restglied Rn+1 (x) → 0 (n → ∞) gegen null konvergiert. Dafür ist z.B. hinreichend, dass alle Ableitungen beschränkt sind, d.h. es gibt ein M > 0, so dass supx∈(a,b) |f n (x)| ≤ M < ∞ für alle n ∈ N gilt. Funktionen, die sich durch ihre Taylor-Reihe darstellen lassen, nennt man (reell) analystisch. Mit Hilfe der Taylor-Polynome lassen sich nun hinreichende Bedingungen für Extrema finden. Satz 5.28 (Hinreichende Bedingung für Extrema) Sei f : (a, b) → R eine n-mal (n ≥ 2) stetig differenzierbare Funktion, für die in einem Punkt x0 ∈ (a, b) für die Ableitungen gilt f 0 (x0 ) = f 00 (x0 ) = . . . = f (n−1) (x0 ) = 0, jedoch f (n) (x0 ) 6= 0. Dann gilt: (i) Ist n gerade, so hat f in x0 für f (n) (x0 ) > 0 ein lokales Minimum und für f (n) (x0 ) < 0 ein lokales Maximum. (ii) Ist n ungerade, so hat f in x0 kein Extremum, sondern nur einen sog. Wendepunkt. Beweis. Gemäß Taylor-Entwicklung gilt für ein ξ ∈ (a, b) zwischen x und x0 die Darstellung f (x) = n−1 (k) X f (x0 ) k=0 90 k! (x − x0 )k + f (n) (ξ) f (n) (ξ) (x − x0 )n = f (x0 ) + (x − x0 )n . n! n! 5.6 Newton-Verfahren Somit gilt lim x→x0 f (x) − f (x0 ) f (n) (ξ) f (n) (x0 ) = , = lim x→x0 (x − x0 )n n! n! da f (n) stetig ist und ξ zwischen x und x0 liegt. Damit ist Fn (x) := f (x) − f (x0 ) (x − x0 )n (n) eine stetig Funktion mit Fn (x0 ) = f n!(x0 ) . Im Falle f (n) (x0 ) > 0 ist deshalb für eine ganze -Umgebung Fn (x) > 0 und für n gerade gilt die Gleichung f (x) − f (x0 ) = Fn (x) (x − x0 )n > 0, | {z } | {z } >0 für |x − x0 | < , x 6= x0 . >0 Folglich hat f in x0 ein Minimum. Gilt jedoch n ungerade, so findet man ( > 0, x > x0 , f (x) − f (x0 ) = Fn (x)(x − x0 )n = < 0, x < x0 , und somit kann kein Extremum vorliegen. Für den Fall f (n) (x0 ) < 0 schließt man analog. 5.6 Newton-Verfahren Für die Suche nach Nullstellen f (x) = 0 einer Funktion f : D → R lässt sich das Newton-Verfahren verwenden. Das Verfahren wird motiviert durch die Überlegung, dass man lineare Gleichungen direkt lösen kann und man die Suche nach Nullstellen einer komplizierten Funktion durch sukzessive Lösung von linearen, direkt lösbaren Gleichungen ersetzt. Die so entstehende Folge (xn )n∈N konvergiert in vielen Fällen dann tatsächlich gegen einen Nullstelle. Die Iterationsvorschrift ergibt sich dabei aus der Überlegung, dass für eine differenzierbare Funktion in etwa gelten soll: ! 0 ≈ f (x) = f (xn ) + f 0 (xn )(x − xn ) + o(|x − xn |). Für das Folgenglied xn+1 wählt man dazu die Lösung der linearen Gleichung: 0 =: f (xn ) + f 0 (xn )(xn+1 − xn ) ⇒ xn+1 := xn − f (xn ) , f 0 (xn ) (n ∈ N). 91 5 Differentiation Damit die Folge wohldefiniert ist, muss sicherlich gelten, dass für kein Folgenglied die Ableitung null wird, zum Beispiel durch die Forderung f 0 (x) 6= 0, x ∈ D. Konvergiert die Folge xn → x∗ gegen einen Grenzwert, so gilt dann x∗ = x∗ − f (x∗ ) f 0 (x∗ ) ⇒ f (x∗ ) = 0 und x∗ ist tatsächlich einen Nullstelle. f (x) x0 x1 x2 x Abbildung 5.5: Illustration zum Newton-Verfahren. Geometrisch versteht man das Newton-Verfahren durch folgende Vorschrift: Für jede Iterierte xn zeichnet man die Tangenten an den Graphen und bestimmt den Schnittpunkt dieser Gerade mit der x-Achse. Diese Nullstelle ist die neue Iterierte xn+1 . Allerdings muss das Verfahren nicht zwingend konvergieren. Es lassen sich viele Beispiele finden, so dass die Newton-Folge divergiert. Satz 5.29 Für eine Funktion f : [a, b] → R seien folgende Bedingungen gegeben: (a) f sei zweimal stetig differenzierbar, (b) f habe eine Nullstelle x∗ ∈ (a, b), (c) die erste Ableitung von f sei von null verschieden, d.h. m := min |f 0 (x)| > 0, a≤x≤b (d) die zweite Ableitung von f sei beschränkt, d.h. M := max |f 00 (x)| < ∞, a≤x≤b 92 5.6 Newton-Verfahren f (x) x0 x1 x2 x3 x Abbildung 5.6: Divergentes Newton-Verfahren. (e) ein Radius ρ ≥ 0 sei so gwählt, dass gilt ρ< 2m . M Dann ist für jeden Startwert x0 mit |x0 − x∗ | ≤ ρ die Newton-Folge (xn )n∈N gegeben durch xn+1 := xn − f (xn ) , f 0 (xn ) (n ∈ N), wohldefiniert und es gilt: (i) Die Funktion hat außer x∗ keine weitere Nullstelle in [a, b]. (ii) Die Folge (xn )n∈N konvergiert gegen die Nullstelle x∗ . (iii) Alle Folgenglieder xn liegt höchstens |xn − x∗ | ≤ ρ von der Nullstelle x∗ entfernt. (iv) Die Folge ist quadratisch konvergent mit der Fehlerabschätzung |xn − x∗ | ≤ M |xn−1 − x∗ |2 , 2m n ≥ 1. (v) Es gilt die a-posteriori-Fehlerabschätzung |xn − x∗ | ≤ 1 M |f (xn )| ≤ |xn − xn−1 |2 , m 2m n ≥ 1. Beweis. Für zwei Punkte x, x∗ ∈ [a, b], x 6= x∗ gibt es wegen dem Zwischenwertsatz ein c ∈ [a, b] mit f (x) − f (x∗ ) = |f 0 (c)| ≥ m ⇒ |x − x∗ | ≤ 1 |f (x) − f (x∗ )| x − x∗ m 93 5 Differentiation und somit folgt (v). Zudem sieht man daraus (i), denn für eine weitere Nullstelle f (x) = 0 folgt automatisch x = x∗ . Den zweiten Teil von (i) folgt aus der Taylor-Darstellung 1 f (xn ) = f (xn−1 ) + f 0 (xn−1 )(xn − xn−1 ) + f 00 (ξ)(xn − xn−1 )2 {z } |2 | {z } =0 (Iterationsvorschrift) ≤M |xn −xn−1 |2 2 Unter Beachtung der Taylor-Formel 1 f (x∗ ) = f (x) + f 0 (x)(x∗ − x) + f 00 (ξ)(x∗ − x)2 | {z } |2 {z } =0 sieht man zudem ≤M |x∗ −x|2 2 |f (x) + f 0 (x)(x∗ − x)| ≤ M ∗ |x − x|2 , 2 und für alle x mit |x − x∗ | ≤ ρ findet man für die Newton-Vorschrift g(x) := x − die Abschätzung f (x) f 0 (x) 1 f (x) − x∗ | = 0 |f (x) + f 0 (x)(x∗ − x)| 0 f (x) |f (x)| M M 2 Mρ ≤ |x − x∗ |2 ≤ ρ = ·ρ ≤ ρ. 2m 2m 2m |{z} |g(x) − x∗ | = |x − <1 Mit dem Startwert x0 liegen also auch alle Iterierten xn höchstens ρ von der Nullstelle entfernt, d.h. (iii) gilt. Die Abschätzung liefert zudem mit x = xn−1 die Fehlerabschätzung (iv) |xn − x∗ | ≤ M |xn−1 − x∗ |2 . 2m Schließlich sieht man, dass die Newton-Folge konvergiert, indem man diese AbschätM zung rekursive einsetzt. Dann gilt nämlich mit der Abkürzung qn := 2m |xn − x∗ | die Abschätzung n 2 4 qn ≤ qn−1 ≤ qn−2 ≤ . . . ≤ q02 und somit durch die Wahl 2m |xn − x | ≤ M ∗ Mρ 2m < 1 auch (ii) gemäß 2n 2n M 2m M ρ ∗ |x0 − x | ≤ → 0, 2m M 2m n → ∞. 94 5.6 Newton-Verfahren Bemerkungen 5.30 (i) Das Verfahren konvergiert nicht immer, sondern nur, wenn x0 hinreichend nahe an der Nullstelle x∗ gewählt wird. (ii) Aufgrund der quadratischen Konvergenz verdoppelt sich die Anzahl der korrekten Stellen im Ergebnis mit jedem Iterationsschritt. (iii) Die Anzahl der benötigten Schritt zum Erreichen einer vorgebenen Genauigkeit > 0 lässt sich angeben: ! 2n ln M Mρ 1 M 2m M ρ n ∗ 2m =n = 2 ln ⇔ ln ⇔ ln = |xn − x | ≤ ρ M 2m 2m 2m ln(2) ln M 2m Beispiel 5.31 √ Für die Funktion f (x) := xk − a ist die Nullstelle x∗ = k a die k-te Wurzel der Zahl a ∈ R+ . Als Newton-Iteration findet man mit f 0 (x) = kxk−1 die Vorschrift xkn − a a a f (xn ) kxn xn 1 = xn − − + k−1 = (k − 1)xn + k−1 . xn+1 = xn − 0 = f (xn ) kxk−1 k k xn k xn n 95 6 Integration Die Integration von Funktionen ist historisch entstanden, um Flächeninhalte von krummlinig berandeten Gebieten bestimmen zu können. Dabei misst man mit dem Integral die Fläche zwischen der x-Achse und dem Funktionsgraphen. Durch die bahnbrechenden Arbeiten von Leibniz und Newton wurde zudem der Zusammenhang zwischen Integration und Differentiation hergestellt und man kann die Integration in gewissem Sinne als Umkehrung der Diffentiation auffassen. f (x) F = Zb f (x) dx a a b x Abbildung 6.1: Das Integral F als Flächeninhalt zwischen der x-Achse und dem Graph einer Funktion f : [a, b] → R 6.1 Zerlegungen und Flächeninhalte Der Flächeninhalt eines Rechtecks berechnet sich sehr leicht als das Produkt von Höhe mal Breite. Daher liegt es Nahe den Begriff des Integrals zunächst für Treppenfunktionen zu definieren. Bei diesen kann man nämlich die Fläche unterhalb des Graphens als Summe der Fläche von Rechtecken einfach aufsummieren. Dazu sei zunächst die Zerlegung eines Intervalls und die Menge der Treppenfunktionen erneut präzisiert. Definition 6.1 (Unterteilung) Sind zu einem Intervall I := [a, b] die n + 1 Punkte xi , (0 ≤ i ≤ n), so angeordnet, dass 97 6 Integration gilt a =: x0 < x1 < x2 < . . . < xn := b so nennt man Z := {x0 , x1 , . . . , xn } eine endliche Unterteilung (oder Zerlegung) des Intervalls. Jedes der offenen Intervalle Ik := (xk−1 , xk ), (1 ≤ k ≤ n) heißt Teilintervall und hat eine Größe hk := |xk − xk−1 |. Die maximale Größe aller Teilintervalle h := h(Z) := max hk := max |xk − xk−1 | 1≤k≤n 1≤k≤n heißt Feinheit der Unterteilung. Die Menge aller Zerteilungen des Intervalls [a, b] wird mit Z(a, b) bezeichnet. f (x) f (x) := ck , für x ∈ (xk−1 , xk ) Zb a x0 x1 x2 . . . xn−1 xn f (x) dx := n X k=1 ck · (xk − xk−1 ) x Abbildung 6.2: Integral für eine Treppenfunktion auf a = x0 < x1 < x2 < . . . < xn = b Auf einer Zerteilung eines Intervalls lassen sich Treppenfunktionen definieren. Definition 6.2 Für eine Zerlegung a = x0 < x1 < x2 < . . . < xn = b ist eine Treppenfunktion stückweise definiert durch f (x) := ck für x ∈ ( xk−1 , xk ) , 1 ≤ k ≤ n, d.h. es ist diejenige Funktion, die auf dem Teilintervall Ik den konstanten Wert ck ∈ R annimmt. Für Treppenfunktionen erhält man nun direkt den Begriff des Integrals. Definition 6.3 (Integral für Treppenfunktionen) Sei f : [a, b] → R eine Treppenfunktion bzgl. der Unterteilung a = x0 < x1 < x2 < . . . < xn = b mit Werten f (x) = ck , x ∈ (xk−1 , xk ), 1 ≤ k ≤ n. Dann nennt man Z b n X f (x) dx := ck · (xk − xk−1 ) a k=1 das Integral der Treppenfunktion über [a, b]. 98 6.2 Riemann-Integral 6.2 Riemann-Integral Ausgehend vom Integralbegriff für Treppenfunktionen lässt sich nun das Integral auf einen breite Klasse von Funktionen erweitern. Dabei möchte man sicherstellen, dass das Integral für Treppenfunktionen weiterhin mit obigem Integral übereinstimmt. Definition 6.4 (Unter-/Obersumme) Sei f : [a, b] → R eine beschränkte Funktion und Z ∈ Z(a, b) eine Zerlegung von [a, b]. Dann ist die Untersumme S(Z, f ) und die Obersumme S(Z, f ) definiert durch S(Z, f ) := n X k=1 inf f (x) · (xk − xk−1 ) x∈Ik S(Z, f ) := n X k=1 sup f (x) · (xk − xk−1 ) x∈Ik Anschaulich wird also für die Unter- und Obersumme das Integral einer Treppenfunktion gebildet. Dabei wird für die Obersumme die Treppenfunktion so gewählt, dass die Treppenfunktion ganz überhalb des Graphen der Funktion f liegt. Bei der Untersumme hingegen verläuft die Treppenfunktion vollständig unterhalb des Graphen der Funktion f. Mit Hilfe von Unter- und Obersumme lässt sich nun ein Unter- und Oberintegral definieren. Dazu betrachtet man alle möglichen Zerlegungen. Definition 6.5 (Unter-/Oberintegral) Für eine beschränkte Funktion f : [a, b] → R sind Unterintegral und Oberintegral definiert durch Z b Z b f (x) dx := sup S(Z, f ), f (x) dx := inf S(Z, f ), Z∈Z(a,b) a Z∈Z(a,b) a Somit wählt man für die Untersumme die größtmöglich Approximation (das Supremum) des Integrals mit Treppenfunktion, die unterhalb der Funktion liegen, und analog die kleinstmögliche Approximation (das Infimum) des Integrals mit Treppenfunktionen, die oberhalb der Funktion liegen. Für Treppenfunktionen ist diese Approximation identisch mit dem Integral für Treppenfunktionen und Ober- und Untersumme sind identisch. Für beliebige Funktionen definiert man das sogenannte Riemann-Integral. Anschaulich gesprochen wird die Approximation der Integrationsfläche immer besser, je feiner die Zerlegung gewählt wird. Den Zusammenhang zwischen den Ober-/Untersummen und Ober-/Unterintegralen für beliebig feine Zerlegungen stellt die folgende Aussage dar. Satz 6.6 Für eine beschränkte Funktion f : [a, b] → R existieren Ober-/Untersumme für alle Zerlegungen und für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit Feinheit hn := h(Zn ) → 0, (n → ∞) gilt: Z b Z b f (x) dx ≤ f (x) dx = lim S(Zn , f ). lim S(Zn , f ) = n→∞ a a n→∞ 99 6 Integration f (x) a f (x) b a f (x) a f (x) b a f (x) a b b f (x) b a b Abbildung 6.3: Approximationen des Integrals einer Funktion f : [a, b] → R durch die Untersumme (links) und Obersumme (rechts) 100 6.2 Riemann-Integral Beweis. Da die Funktion f beschränkt ist, existieren untere Schranken inf x∈[a,b] f (x) und obere Schranken supx∈[a,b] f (x) und die die Abschätzungen inf f (x) · (b − a) ≤ S(Zn , f ) ≤ S(Zn , f ) ≤ sup f (x) · (b − a) x∈[a,b] x∈[a,b] folgt direkt aus der Definition von Infimum und Supremum. Damit sind auch Ober- und Untersumme beschränkt. Für die zweite Behauptung sei nun (Zn )n∈N , Zn ∈ Z(a, b) eine Folge von Zerlegungen mit Feinheit hn := h(Zn ) → 0, (n → ∞). Gemäß der Definition über Supremum und Infimum gibt es zu jedem > 0 Zerlegungen Z , Z mit Z b Z b f (x) dx + . f (x) dx ≤ S(Z , f ) + , S(Z , f ) ≤ 2 2 a a Nun hat jedoch jede der beiden Zerlegungen Z , Z nur endlich viele Teilungspunkte. Daher kann man die Feinheit hn so fein wählen (d.h. n so groß), dass die gesamte Länge der Intervalle von Zn , die einen Teillungspunkt von Z oder Z enthalten insgesamt kleiner als M 2 mit M := supx∈[a,b] |f (x)| wird und daher gilt: S(Z n , f ) ≤ S(Z , f ) + , 2 2 und somit zu jedem > 0 ein n ∈ N existiert, so dass Z b Z b n f (x) dx + . f (x) dx ≤ S(Zn , f ) + , S(Z , f ) ≤ S(Z , f ) ≤ S(Zn , f ) + a a Beispiel 6.7 Sei f : [0, b] → R, f (x) := x gegeben. Auf jedem Teilintervall (xk−1 , xk ) einer Zerlegung ist das Supremum von f (x) = x durch xk gegeben und das Infimum durch xk−1 . Bildet man für n ∈ N eine äquidistante Zerlegung Zn gegeben durch xk := b · nk , 1 ≤ k ≤ n, mit Feinheit hn = nb , so findet man S(Zn , f ) = n X k=1 2 = S(Zn , f ) = b n2 sup f (x) · (xk − xk−1 ) = x∈Ik n X k= k=1 n X k=1 2 xk · n X xk−1 · k=1 b n b n(n + 1) b2 1 · = · (1 + ), n2 2 2 n inf f (x) · (xk − xk−1 ) = x∈Ik n X k=1 b n n b X b2 (n − 1)n) b2 1 = 2 k−1= 2 · = · (1 − ), n k=1 n 2 2 n 2 101 6 Integration und somit b2 lim (1 + n→∞ 2 n→∞ b2 lim (1 − lim S(Zn , f ) = n→∞ 2 n→∞ lim S(Zn , f ) = b2 , 2 b2 . 2 1 )= n 1 )= n Folglich findet man für Unter- und Oberintegral denselben Wert b2 = 2 Z a Z b f (x) dx ≤ b b2 , 2 f (x) dx = a der auch mit dem Flächeninhalt des so beschriebenen Dreicks übereinstimmt. Dadurch motiviert definiert man das sogenannte Riemann-Integral. Definition 6.8 (Riemann-Integral) Sind für eine beschränkte Funktion f : [a, b] → R das Unterintegral und Oberintegral gleich, so bezeichnet man die Funktion f als Riemann-integrierbar und den gemeinsamen Wert als das Riemann-Integral von f über [a, b] Z a b f := Z b f (x) dx := a Z b f (x) dx = a Z b f (x) dx a Es stellt sich nun die Frage, welche Funktionen so integriert werden können. Zunächst sind dies natürlich die Treppenfunktionen und für diese stimmt das Riemann-Integral mit dem bereits definierten Integral für Treppenfunktionen überein. Aber viel mehr Funktionen lassen sich so integrieren. Hilfreich bei der Analyse ist dabei das Integrationskriterium in Form einer -Definition. Definition 6.9 (Riemannsches Integrationskriterium) Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es zu jedem > 0 eine Zerlegung Z gibt, so dass die Unter- und Obersumme sich höchstens um unterscheiden, d.h. |S(Z, f ) − S(Z, f )| < . Mittels dieses Kriteriums lässt sich nun die Integrierbarkeit von stetigen Funktionen untersuchen. Dazu benötigt man zunächst die folgende Verschärfung der Stetigkeit. Satz 6.10 (Gleichmäßige Stetigkeit) Sei [a, b] ⊂ R ein abgeschlossenes, beschränktes Intervall. Dann ist jede stetige Funktion f : [a, b] → R sogar gleichmäßig stetig, d.h. zu jedem > 0 gibt es ein δ > 0, so dass für alle x, x0 ∈ [a, b] gilt: |x − x0 | < δ 102 ⇒ |f (x) − f (x0 )| < . 6.2 Riemann-Integral Beweis. Widerspruchsbeweis. Angenommen, f ist nicht gleichmäßig stetig. Dann gibt es ein > 0 so, dass für alle n ∈ N Punkte xn , x0n ∈ [a, b] derart existieren, dass gilt 1 , aber |f (xn ) − f (x0n )| ≥ . n Nach dem Satz von Bolzano-Weierstraß besitzt die beschränkte Folge (xn )n∈N (denn das Intervall ist beschränkt) eine konvergente Teilfolge (xnk )k∈N mit einem Grenzwert x ∈ [a, b]. Dies ist auch der Grenzwert der Folge (x0nk )k∈N , denn es gilt |xn − x0n | < n1 . Somit folgt wegen der Stetigkeit von f |xn − x0n | < |f (xnk ) − f (x0nk )| → |f (x) − f (x)| = 0, im Widerspruch zu |f (xn ) − f (x0n )| ≥ . (k → ∞), Der Unterschied zwischen Stetigkeit und gleichmäßiger Stetigkeit besteht darin, dass man für stetige Funktionen die δ-Umgebung bei jedem Punkt unterschiedlich wählen darf. Bei gleichmäßig stetigen Funktionen hingegen muss man zu jedem die δUmgebung für alle Punkte im Definitionsbereich simultan wählen können. Satz 6.11 (Stetige Funktionen sind Riemann-integrierbar) Jede stetig Funktion f : [a, b] → R ist Riemann-integrierbar. Beweis. Auf dem abgeschlossenen, beschränkten Intervall ist die Funktion gleichmäßig stetig, d.h. es gibt zu jedem > 0 ein δ > 0, so das gilt |x − x0 | < δ ⇒ |f (x) − f (x0 )| < . Daher kann man nun jede Zerlegung Z ∈ Z(a, b) wählen, die eine Feinheit h < δ besitzt. Denn dann gilt |S(Z, f ) − S(Z, f )| ≤ n X k=1 | sup f (x) − inf f (x)|(xk − xk−1 ) ≤ ≤ x∈Ik x∈Ik n X k=1 (xk − xk−1 ) = (b − a). Satz 6.12 (Monotone Funktionen sind Riemann-integrierbar) Jede beschränkte, monotone Funktion f : [a, b] → R ist Riemann-integrierbar. Beweis. Sei f monoton steigend (monoton fallend analog). Dann gilt f (a) ≤ f (x) ≤ f (b) für alle x ∈ [a, b]. Wählt man eine Zerlegung mit Feinheit h, so folgt S(Z, f ) − S(Z, f ) = = n X k=1 n X (sup f (x) − inf f (x))(xk − xk−1 ) x∈Ik (f (xk ) − f (xk−1 ))(xk − xk−1 ) k=1 n X ≤h x∈Ik k=1 (f (xk ) − f (xk−1 )) = h (f (b) − f (a)) . Somit lässt sich zu jedem > 0 eine Zerlegung mit h := f (b)−f (a) wählen. 103 6 Integration Für die Ermittelung des Wertes muss man sich nicht einmal auf Ober- und Untersummen festlegen, sondern kann den Wert der Funktion irgendwo innerhalb der Teilintervalle auswerten. Dies ist definiert als Riemannsche Summe. Definition 6.13 (Riemannsche Summe) Sei f : [a, b] → R und Z ∈ Z(a, b). Wählt man in jedem Intervall Ik der Zerlegung einen Punkt ξk ∈ (xk−1 , xk ) = Ik , so bezeichnet man die Summe S(Z, f ) := n X k=1 f (ξk ) · (xk − xk−1 ) als Riemannsche Summe von f . f (x) a f (x) a b b Abbildung 6.4: Approximationen des Integrals einer Funktion f : [a, b] → R durch die Riemannsche Summe Satz 6.14 (Riemann-Integral über Riemann-Summe) Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit hn := h(Zn ) → 0, (n → ∞) alle zugehörigen Riemannschen Summen mit demselben Grenzwert konvergieren: Z b S(Zn , f ) → f (x) dx (n → ∞). a Satz 6.15 (Eigenschaften des Riemann-Integrals) Seien f, g : [a, b] → R Riemann-integrierbare Funktionen und α ∈ R. (i) (Linearität) Die Funktionen f + g und αf sind integrierbar mit Z Z b b (f + g)(x) dx = f (x) dx + a a Z b Z b (αf )(x) dx = α f (x) dx. a 104 a Z a b g(x) dx, 6.2 Riemann-Integral (ii) (Monotonie) Gilt f (x) ≤ g(x) für alle x ∈ [a, b], so folgt Z b Z b g(x) dx. f (x) dx ≤ a a (iii) (Definitheit) Gilt f (x) ≥ 0 für alle x ∈ [a, b], so gilt Z b f (x) dx = 0 ⇒ f ≡ 0. a Satz 6.16 Sei a < c < b. Eine Funktion f : [a, b] → R ist genau dann integrierbar, wenn f : [a, c] → R und f : [c, b] → R integrierbar sind und es gilt in diesem Fall Z b Z c Z b f (x) dx = f (x) dx + f (x) dx. a Definition 6.17 Man definiert Z a c a f (x) dx := 0, a Z b f (x) dx := − a Z a f (x) dx (falls b < a). b Satz 6.18 (Mittelwertsatz der Integralrechnung) Seien f, g : [a, b] → R stetige Funktionen und gelte g ≥ 0. Dann gibt es ein ξ ∈ [a, b], so dass Z b Z b f (x) g(x) dx = f (ξ) g(x) dx, a a und im Speziellen Z a b f (x) dx = f (ξ) · (b − a) für ein ξ ∈ [a, b]. Beweis. Schreibt man m := inf x∈[a,b] f (x) und M := supx∈[a,b] f (x), so gilt direkt mg ≤ f g ≤ M g und somit wegen der Monotonie des Integrals Z b Z b Z b m g(x) dx ≤ f (x) g(x) dx ≤ M g(x) dx. a a a Daher gibt es auch einen Wert µ ∈ [m, M ] mit Z b Z b f (x) g(x) dx = µ g(x) dx, a a und nach dem Zwischenwertsatz auch ein ξ ∈ [a, b] mit f (ξ) = µ. 105 6 Integration 6.3 Hauptsatz der Differential- und Integralrechnung Definition 6.19 (Stammfunktion) Eine Funktion F : [a, b] → R heißt Stammfunktion (oder unbestimmtes Integral ) zu einer Funktion f : [a, b] → R, falls F differenzierbar ist und gilt für alle x ∈ [a, b]. F 0 (x) = f (x), Der folgende Satz zeigt, dass am die Integration als Umkehrung der Differentiation verstehen kann. Satz 6.20 (Hauptsatz der Differential- und Integralrechnung) Sei f : [a, b] → R eine stetige Funktion. Dann gilt: (i) Das bestimmte Riemann-Integral (aufgefasst als eine Funktion der oberen Grenze) Z x f (t) dt, x ∈ [a, b] F (x) := a ist eine Stammfunktion von f und jede weitere Stammfunktion unterscheidet sich von F nur durch eine Konstante. (ii) Ist F : [a, b] → R eine Stammfunktion von f , so gilt b Z b f (x) dx = F (x) := F (b) − F (a). a a Beweis. (i) Man betrachtet den Differenzenquotienten von F (x): Z x+h Z x Z 1 1 x+h F (x + h) − F (x) = f (t) dt − f (t) dt = f (t) dt. h h h x a a Nach dem Mittelwertsatz der Integralrechnung gibt es folglich ein ξh ∈ [x, x + h] mit F (x + h) − F (x) 1 = f (ξh )(x + h − x) = f (ξh ). h h Somit folgt für h → 0 auch ξh → x und mit der Stetigkeit von f : F (x + h) − F (x) = lim f (ξh ) = f (x). h→0 h→0 h Ist G ebenfalls Stammfunktion, so gilt 0 = F 0 − G0 = (F − G)0 und F − G ist konstant. F 0 (x) = lim (ii) Sei nun F irgendeine Stammfunktion. Nach Teil (i) ist aber auch Z x G(x) := f (t) dt, G(a) = 0, a Stammfunktion und es gilt F (x) − G(x) = c für eine Konstante c ∈ R. Somit folgt Z b F (b) − F (a) = G(b) + c − G(a) − c = G(b) = f (t) dt. a 106 6.4 Integrationsregeln Beispiele 6.21 (i) Sei k ∈ N, dann gilt Z b xk+1 x dx = . k + 1 a b k a (ii) Für a, b > 0 gilt Z b 1 dx = ln(x) . x a b a (iii) Es gilt Z b a b ex dx = ex . a 6.4 Integrationsregeln Es gibt einige nützliche Hilfsmittel, um Integral auszuwerten. 6.4.1 Partielle Integration Satz 6.22 (Partielle Integration) Seien f, g : [a, b] → R zwei stetig differenzierbare Funktionen. Dann gilt: Z b a f (x) · g 0 (x) dx = − Z a Beweis. Nach der Produktregel gilt b b f 0 (x) · g(x) dx + f (x) · g(x) . a (f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x) und somit Z a b 0 0 {f (x)g(x) + f (x)g (x)} dx = Z b a b (f g) (x) dx = f (x)g(x) . 0 a Beispiel 6.23 Sei a, b > 0 und die Auswertung des Integrals Z b ln(x) dx a 107 6 Integration gesucht. Setzt man f (x) := ln(x) und g(x) := x (und somit f 0 (x) = x1 und g 0 (x) = 1), so folgt b b Z b Z b Z b 1 1 dx + ln(x) · x · x dx + ln(x) · x = − ln(x) · 1 dx = − a a x a a a b b b = −x + ln(x) · x = (ln(x) · x − x) . = ln(b) · b − b − ln(a) · a + a. a a a 6.4.2 Substitutionsregeln Satz 6.24 (Substitutionsregel) Sei f : I → R eine stetige Funktion und ϕ : [a, b] → I stetig differenzierbar. Dann gilt: Z b 0 f (ϕ(t)) · ϕ (t) dt = a Z ϕ(b) f (x)dx. ϕ(a) Beweis. Sei F : I → R eine Stammfunktion von f . Nach der Kettenregel gilt für F ◦ ϕ : [a, b] → R (F ◦ ϕ)0 (t) = F 0 (ϕ(t)) · ϕ0 (t) = f (ϕ(t)) · ϕ0 (t), und somit b Z b Z Z b 0 0 (F ◦ ϕ) (t) dt = (F ◦ ϕ)(t) = F (ϕ(b)) − F (ϕ(a)) = f (ϕ(t)) · ϕ (t) dt = a a ϕ(b) f (x)dx. ϕ(a) a Beispiele 6.25 (i) Für ϕ(t) := t + c mit einer Konstanten c ∈ R gilt wegen ϕ0 (t) = 1 Z Z b f (t + c) dt = b a a 0 f (ϕ(t)) · ϕ (t) dt = Z ϕ(b) f (x) dx = ϕ(a) Z b a 1 f (ct) dt = c Z a b 1 f (ϕ(t)) · ϕ (t) dt = c 0 Z ϕ(b) ϕ(a) f (x) dx a+c (ii) Für ϕ(t) := c · t mit einer Konstanten c 6= 0 gilt wegen ϕ0 (t) = c Z b+c 1 f (x) dx = c Z cb f (x) dx ca (iii) Sei ϕ : [a, b] → R stetig differenzierbar mit ϕ(x) > 0 für alle x ∈ [a, b]. Dann gilt mit f (x) = x1 Z a 108 b ϕ0 (t) dt = ϕ(t) Z a b 0 f (ϕ(t)) · ϕ (t) dt = Z ϕ(b) ϕ(a) ϕ(b) b 1 dx = ln(x) = ln(ϕ(t)) x ϕ(a) a 6.5 Quadraturformeln 6.5 Quadraturformeln Durch Quadraturformeln möchte man Integrale approximativ ausrechnen. Dazu möchte man nur geeignet gewichtete Funktionsauswertungen verwenden und auch die Größe des Approximationsfehlers kennen. Man sucht also eine Formel, so dass sich das Integral schreiben lässt als Z b n X f (x) dx = wk f (xk ) + R, a k=1 wobei wk ∈ R Koeffizienten und die xk ∈ [a, b] Auswertungspunkte sind. Den Restterm R bezeichnet man als Approximationsfehler. Solche Formeln lassen sich dann verwenden, um numerisch den Wert des Integrals hinreichend genau mit dem Computer anzunähern. Formeln dieser Art erhält man, indem man das Intervall [a, b] in Teilabschnitte zerlegt und auf jedem dieser Abschnitte eine einfach Auswertungsregel anwendet. Daher wird zunächst eine Auswertungsregel für ein einzelnes Intervall [0, 1] betrachtet. Diese Regel kann dann später über die Substitutionsregel auf beliebige Teilabschnitte übertragen werden. Rechtecksregel Satz 6.26 (Boxregel) Sei f : [0, 1] → R einmal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass Z 1 1 f (x) dx = f (1) − f 0 (ξ). 2 0 Analog gibt es ein ξ ∈ [0, 1] mit Z 1 0 1 f (x) dx = f (0) + f 0 (ξ). 2 Beweis. Wählt man g(x) := x, so gilt für die Ableitungen g 0 (x) = 1. Integriert man nun partiell, so findet man 1 Z 1 Z 1 Z 1 Z 1 0 0 g (x)f (x) dx = g(x)f (x) − g(x)f (x) dx = f (1) − g(x)f 0 (x) dx. f (x) dx = 0 0 0 0 Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt 1 Z 1 Z 1 1 2 0 0 0 g(x)f (x) dx = f (ξ) g(x) dx = f (ξ) x = 2 0 0 0 Für den zweiten Teil wähle man g(x) = 1 − x. 0 der Integralrechnung 1 0 f (ξ). 2 109 6 Integration Mittelpunktsregel Satz 6.27 (Mittelpunktsregel) Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass Z 1 1 1 f (x) dx = f ( ) + f 00 (ξ). 2 24 0 Beweis. Gemäß Taylor-Formel lässt sich mit einem ξ ∈ [0, 1] schreiben 1 1 1 1 1 f (x) = f ( ) + f 0 ( )(x − ) + f 00 (ξ)(x − )2 . 2 2 2 2 2 Somit folgt: Z Z 1 f (x) dx = 0 Z 1 Z 1 1 1 1 00 1 0 1 f ( ) dx + f ( )(x − ) dx + f (ξ)(x − )2 dx 2 2 2 2 0 0 0 2 Z 1 Z 1 Z 1 1 1 1 1 1 = f( ) 1 dx +f 0 ( ) (x − ) dx +f 00 (ξ) (x − )2 dx . 2 0 2 0 2 2 2 | {z } | {z } | 0 {z } 1 =1 =0 1 = 24 Trapezregel Satz 6.28 (Trapezregel) Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass Z 1 1 1 f (x) dx = (f (0) + f (1)) − f 00 (ξ). 2 12 0 Beweis. Wählt man g(x) := 12 x(1 − x), so gilt für die Ableitungen g 0 (x) = 21 − x und g 00 (x) = −1 sowie für die Auswertungen g(0) = g(1) = 0 und g 0 (1) = − 21 , g 0 (0) = 12 . Integriert man nun zweimal partiell, so findet man Z 1 Z 1 g 00 (x)f (x) dx f (x) dx = − 0 0 1 Z 1 0 = −g (x)f (x) + g 0 (x)f 0 (x) dx 0 0 Z 1 1 = (f (1) + f (0)) + g 0 (x)f 0 (x) dx 2 0 1 Z 1 1 0 = (f (1) + f (0)) + g(x)f (x) − g(x)f 00 (x) dx 2 0 0 Z 1 1 = (f (1) + f (0)) − g(x)f 00 (x) dx. 2 0 110 6.5 Quadraturformeln Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz der Integralrechnung anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt Z Z 1 Z 1 1 1 00 00 00 (x − x2 ) dx g(x)f (x) dx = f (ξ) g(x) dx = f (ξ) 2 0 0 0 1 1 1 1 1 = f 00 (ξ) ( x2 − x3 ) = f 00 (ξ). 2 2 3 12 0 Summierte Quadraturformeln Die obigen Auswertungsregeln verwenden immer ein festes Intervall. Die Idee von summierten Quadraturformeln ist es nun, dass man das betrachtete Intervall [a, b] in viele kleine Intervalle zerlegt und auf jedem dieser Intervalle die elementaren Quadraturformeln anwendet. Satz 6.29 (Summierte Trapezregel) Sei f : [a, b] → R zweimal stetig differenzierbar und die zweiten Ableitungen beschränkt mit K := supa≤x≤b |f 00 (x)|. Für die Unterteilung in n äquidistante Abschnitte mit Feinheit h := b−a findet man die n summierte Trapezregel ! Z b n−1 X 1 1 f (a + kh) + f (b) h + R f (a) + f (x) dx = 2 2 a k=1 mit einem Restterm der Größe |R| ≤ K (b − a)h2 . 12 Beweis. Für jedem der Teilabschnitte [a + kh, a + (k + 1)h] lässt sich die Variablentransformation ϕ(x) = a + (k + x)h mit ϕ0 (x) = h anwenden a+(k+1)h Z f (x) dx = Z ϕ(1) ϕ(0) a+kh f (x) dx = Z 0 1 0 f (ϕ(x))ϕ (x) dx = h Z 1 f (ϕ(x)) dx 0 h h (f (ϕ(0)) + f (ϕ(1))) − (f ◦ ϕ)00 (c) 2 12 h h3 = (f (a + kh) + f (a + (k + 1)h)) − f 00 (ξ). 2 12 = mit einem c ∈ [0, 1] und einem ϕ(c) =: ξ ∈ [a + kh, a + (k + 1)h]. Dabei wendet man die Kettenregel der Ableitung zweimal an, um zu folgern (f ◦ ϕ)00 (c) = [f (ϕ(c))]00 = [f 0 (ϕ(c))]0 · ϕ0 (c) = f 00 (ϕ(c)) · ϕ0 (c) · ϕ0 (c) = h2 f 00 (ϕ(c)) = h2 f 00 (ξ). 111 6 Integration Summation über alle Teilintervalle und zusammenfassen gleicher Auswertungspunkte liefert nun Z b a f (x) dx = n−1 X k=0 a+(k+1)h Z f (x) dx = n−1 X h k=0 a+kh = 2 (f (a + kh) + f (a + (k + 1)h)) − n−1 3 X h k=0 12 f 00 (ξ) ! n−1 X 1 1 f (a) + f (a + kh) + f (b) h + R. 2 2 k=1 Die Größe des Restterms ergibt sich aus der Abschätzung n−1 3 n−1 X X h 00 h2 h2 00 f (ξ) ≤ sup |f (x)| |R| = h = K(b − a), 12 a≤x≤b 12 12 k=0 k=0 wobei verwendet wird, dass entspricht. Pn−1 k=0 h = n · h = (b − a) der Länge des Integrationsintervalls Bemerkung 6.30 Die Fehlerabschätzung für den Restterm zeigt, dass die Approximation des Integrals von zweiter Ordnung ist. Dies bedeutet, dass eine Halbierung von h zu einem Vierteln des Fehlers führt. f (x) a b x Abbildung 6.5: Das Integral F einer Funktion f : [a, b] → R approximiert durch die summierte Trapezregel 112 7 Vektorräume 7.1 Der n-dimensionale reelle Raum Rn Der Körper R der reellen Zahlen lässt sich über die Zahlengerade darstellen. Möchten man jedoch eine Ebene betrachten, so lässt sich diese als R2 := R × R auffassen und man benötigt zum Beschreiben eines Punktes jeweils ein Paar von reellen Zahlen (x, y), x, y ∈ R (sogenannte 2-Tupel). Analog lässt sich der 3-dimensionale Raum als das karthesische Produkt R3 := R × R × R auffassen und Punkte werden durch ein 3-Tupel (x, y, z), x, y, z ∈ R beschrieben. Allgemein lässt sich dies wie folgt definieren. Definition 7.1 (Rn ) Für n ∈ N, n ≥ 1 ist der n-dimensionale reelle Standardraum x1 x2 Rn := {x = .. | xi ∈ R für alle 1 ≤ i ≤ n} . xn die Menge der geordneten n-Tupel (oder Vektoren) von reellen Zahlen. Die einzelnen Einträge x1 , . . . , xn der n-Tupel heißen Komponenten. Auf den n-Tupeln lassen sich Addition und Multiplikation dadurch erklären, dass man die Operation komponentenweise durchführt. Man notiert die n-Tupel auch als xT := (x1 , x2 , . . . , xn ). Definition 7.2 (Addition und Multiplikation für n-Tupeln) Für zwei n-Tupel x, y ∈ Rn ist die Addition definiert durch x1 y1 x1 + y 1 x2 y 2 x2 + y 2 x + y = .. + .. := .. , . . . xn yn xn + y n und die Multiplikation mit λ ∈ R durch x1 λ · x1 x2 λ · x2 λ · x = λ · .. := .. . . . xn λ · xn 113 7 Vektorräume x 2 + y2 x+y λ·x λx2 y y2 x2 0 x y1 x1 x1 + y 1 x2 0 x x1 λx1 Abbildung 7.1: Illustration zur Addition und Multiplikation im Rd Nun lässt sich leicht feststellen, dass die Menge der Vektoren die folgenden Eigenschaften hat. Satz 7.3 (Eigenschaften im Rn ) Seien x, y, z ∈ Rn beliebige Vektoren (oder n-Tupel) und λ, µ ∈ R beliebige reelle Zahlen (genannt Skalare). (V1) (Rn , +) ist eine kommutative Gruppe, d.h. (Kommutativität): x + y = y + x (Assoziativiät): x + (y + z) = (x + y) + z (Null): Für 0T := (0, 0, . . . , 0) gilt x + 0 = x (Inverse): Für −xT := (−x1 , −x2 , . . . , −xn ) gilt x + (−x) = 0 (V2) Für die Multiplikation von Skalaren und Vektoren gilt: (λ + µ) · x = λ · x + µ · x, λ · (µx) = (λµ) · x, λ · (x + y) = λ · x + λ · y, 1 · x = x. Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der Eigenschaften von R. Es zeigt sich somit, dass auf der Menge Rn für die Addition ein neutrales und inverses Element existieren. Für zwei Vektoren x, y ∈ Rn lässt sich das sogenannte Skalarprodukt definieren. Definition 7.4 (Skalarprodukt im Rn ) Für zwei Vektoren x, y ∈ Rn ist das kanonische Skalarprodukt h·, ·i : Rn × Rn → R definiert durch hx, yi := x1 y1 + x2 y2 + . . . + xn yn . 114 7.1 Der n-dimensionale reelle Raum Rn x2 x −x1 x1 0 −x2 −x Abbildung 7.2: Illustration des Inversen Vektors im Rd Satz 7.5 (Eigenschaften des Skalarprodukts im Rn ) Für beliebige Vektoren x, y, z ∈ Rn und Skalare λ ∈ R gilt (i) Bilinearität: Die Abbildung ist linear in beiden Einträgen hx + y, zi = hx, zi + hy, zi, hλx, yi = λhx, yi, hx, y + zi = hx, yi + hx, zi, hx, λyi = λhx, yi. (ii) Symmetrie: hx, yi = hy, xi. (iii) Positive Definitheit: Das Skalarprodukt eines Vektors mit sich selbst ist nichtnegativ und genau nur für den Nullvekotr null hx, xi ≥ 0 und hx, xi = 0 ⇔ x = 0. Beweis. Ergibt sich durch direktes Nachrechnen. Definition 7.6 (Norm im Rn ) Für einen Vektoren x ∈ Rn ist die euklidische Norm k·k : R → R gegeben durch q p kxk := kxk2 := hx, xi = x21 + x22 + . . . + x2n und wird als Betrag oder Länge des Vektors bezeichnet. Einen sehr wichtigen Zusammenhang zwischen Skalarprodukt und Norm stellt die folgende Ungleichung dar. Satz 7.7 (Cauchy-Schwarzsche Ungleichung) Für zwei beliebige Vektoren x, y ∈ Rn gilt die Cauchy-Schwarzsche Ungleichung |hx, yi| ≤ kxk · kyk . 115 7 Vektorräume Beweis. Ist x = 0 oder y = 0 so gilt die Gleichung direkt. Andernfalls gilt für x, y 6= 0 und jedes λ ∈ R: 0 ≤ hx − λy, x − λyi = hx, xi − 2λhx, yi + λ2 hy, yi. Für die Wahl λ = hx,yi kyk2 folgt damit hx, yi2 hx, yi2 hx, yi2 2 2 + kyk = kxk − 0 ≤ kxk − 2λhx, yi + λ kyk = kxk − 2 kyk2 kyk4 kyk2 2 2 2 2 und somit hx, yi2 ≤ kxk2 kyk2 . Wurzelziehen liefert die Behauptung. Damit findet man die essentiellen Eigenschaften der euklidischen Norm. Satz 7.8 (Eigenschaften der euklidischen Norm) Für beliebige Vektoren x, y ∈ Rn und Skalare λ ∈ R gilt (i) (Definitheit): kxk = 0 ⇔ x = 0. (ii) (Linearität): kλxk = |λ| · kxk. (iii) (Dreiecksungleichung): kx + yk ≤ kxk + kyk. Beweis. Definitheit und Linearität ergibt sich durch direktes Nachrechnen. Für die Dreieckungleichung folgt mit Hilfe der Cauchy-Schwarzschen Ungleichung kx + yk2 = hx + y, x + yi = hx, xi + 2hx, yi + hy, yi ≤ kxk2 + 2 kxk kyk + kyk2 = (kxk + kyk)2 und Wurzelziehen liefert die Behauptung. Bemerkung 7.9 Für die Darstellung des Skalarprodukts gilt auch die Formel hx, yi = kxk · kyk cos ](x, y), wobei ](x, y) den Winkel zwischen x und y bezeichnet. Definition 7.10 (Orthogonale Vektoren) Zwei Vektoren x, y ∈ Rn heißen orthogonal oder senkrecht, falls gilt hx, yi = 0. Definition 7.11 (Normierte Vektoren) Ein Vektor x ∈ Rn heißt normiert, falls gilt kxk = 1. Jeden Vektor x 6= 0 kann man normieren gemäß 1 x̃ := · x. kxk 116 7.2 Raum von Folgen und Funktionen x x2 x cos ](x, y) = 2 2 kx 0 p x1 k= + x2 ](x, y) x1 hx,yi kxk kyk y 0 Abbildung 7.3: Die Norm als Abstand zum Ursprung und Interpretation des Skalarprodukts über den Winkel zwischen zwei Vektoren. 7.2 Raum von Folgen und Funktionen Ziel dieses Abschnitts ist es zu zeigen, dass verschiedenste mathematische Dinge ähnliche Struktur besitzen. Diese unterliegende, gemeinsame Struktur wird im nächsten Abschnitt als (abstrakter) Vektorraum eingeführt. Zur Motivation hier einige Betrachtungen. Folgen Eine konsequente Verallgemeinerung des Konzepts der n-Tupel besteht darin Tupel von unendlicher Länge zu betrachten - dies sind Folgen. Betrachtet man die Menge der Folgen (an )n∈N = (a0 , a1 , a2 , . . .) mit Koeffizienten ai ∈ R, so lässt sich analog zum Rn eine Addition und Multiplikation mit Skalaren definieren, indem man die Operationen Komponentenweise ausführt. Für zwei Folgen (an )n∈N und (bn )n∈N ist die Addition definiert als (a0 , a1 , a2 , . . .) + (b0 , b1 , b2 , . . .) := (a0 + b0 , a1 + b1 , a2 + b2 , . . .) und die Multiplikation mit λ ∈ R gegeben durch λ · (a0 , a1 , a2 , . . .) := (λa0 , λa1 , λa2 , . . .). Man beachte, dass beide Operationen wieder als Resultat eine Folge liefern. Analog zum Rn findet man die folgenden Eigenschaften. Satz 7.12 (Eigenschaften in Raum aller Folgen) Sei V der Raum aller Folgen (an )n∈N mit Koeffizienten in R. Seien (an )n , (bn )n , (cn )n ∈ V beliebige Folgen und λ, µ ∈ R beliebige reelle Zahlen. Dann gilt: (V1) (V, +) ist eine kommutative Gruppe, d.h. 117 7 Vektorräume (Kommutativität): (an )n + (bn )n = (bn )n + (an )n (Assoziativiät): (an )n + ((bn )n + (cn )n ) = ((an )n + (bn )n ) + (cn )n (Null): Für die Nullfolge 0 := (0, 0, 0, . . .) gilt (an )n + 0 = (an )n (Inverse): Für −(an ) := (−a0 , −a1 , −a2 , . . .) gilt (an )n + (−(an )n ) = 0 (V2) Für die Multiplikation von reellen Zahlen und Folgen gilt: (λ + µ) · (an )n = λ · (an )n + µ · (an )n , λ · (µ(an )n ) = (λµ) · (an )n , λ · ((an )n + (bn )n ) = λ · (an )n + λ · (bn )n , 1 · (an )n = (an )n . Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der Eigenschaften von R. Polynomräume Es sei daran erinnert, dass man zu einem Körper K (z.B. Q, R, C) Polynome bilden kann. Definition 7.13 (Polynom und Grad) Sei K ein Körper und x eine Unbestimmte. Ein Polynom mit Koeffizienten in K ist ein Ausdruck der Form P (x) = a0 + a1 x + a2 x2 + . . . + an xn , wobei n ∈ N und a0 , . . . , an ∈ K gilt. Der Grad eines Polynomes ist der höchste, nicht verschwindende Koeffizient ( max{i ∈ N | ai 6= 0}, (f 6= 0) deg P := −∞, (f = 0). Die Menge aller Polynome wird mit K[x] bezeichnet. Die Menge aller Polynome mit Grad kleiner gleich n wird mit K[x]≤n bezeichnet. Betrachtet man zwei Polynome f, g ∈ K[x], so lassen sich diese in natürlicher Weise addieren. Gilt f (x) := a0 + a1 x + . . . + an xn und g(x) := b0 + b1 x + . . . + bm xm mit m < n, so wählt man formal bm+1 = . . . = bn = 0 und erhält Polynome vom selben Grad (analog für n < m). Die Addition ist nun gegeben durch (f + g)(x) := f (x) + g(x) := (a0 + b0 ) + (a1 + b1 )x + (a2 + b2 )x2 + . . . + (an + bn )xn . Man beachte, dass deg f + g ≤ max(deg f, deg g) gilt, d.h. es handelt sich um eine Abbildung + : K[x]≤n × K[x]≤n → K[x]≤n . Ebenso lässt sich eine Multiplikation mit Werten aus K in natürlicher Weise aufstellen. Gilt f (x) := a0 + a1 x + . . . + an xn , so ist die Multiplikation mit dem Skalar λ ∈ K gegeben durch (λf )(x) := λ · f (x) := (λa0 ) + (λa1 )x + (λa2 )x2 + . . . + (λan )xn 118 7.2 Raum von Folgen und Funktionen und bei dieser Multiplikation ist der Grad des Polynoms höchstens so groß wie zuvor, d.h. es handelt sich um eine Abbildung · : K × K[x]≤n → K[x]≤n . Schaut man sich diese Addition und Multiplikation genauer an, so findet man Eigenschaften analog zu denen, die man bereits aus dem Rn kennt. Satz 7.14 (Eigenschaften in K[x]) Seien f, g, h ∈ K[x] beliebige Polynome und λ, µ ∈ K beliebige Skalare. Dann gilt: (V1) (K[x], +) ist eine kommutative Gruppe, d.h. (Kommutativität): f + g = g + f (Assoziativiät): f + (g + h) = (f + g) + h. (Null): Für das Nullpolynom 0 gilt f + 0 = f . (Inverse): Für −f := −a0 − a1 x − . . . − an xn gilt f + (−f ) = 0. (V2) Für die Multiplikation von Skalaren und Polynomen gilt: (λ + µ) · f = λ · f + µ · f, λ · (µf ) = (λµ) · f, λ · (f + g) = λ · f + λ · g, 1 · f = f. Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der Eigenschaften von K. Funktionenräume Allgemeiner kann man auch die Menge der Funktionen von einer Menge D in einen Körper K betrachten. Dann definiert man für diese Menge Abb(D, K) := {f : D → K} die Addition zweier Funktionen sowie die Multiplikation mit Skalaren λ ∈ K durch (f + g)(x) := f (x) + g(x), und (λ · f )(x) := λ · f (x) und erhält dadurch erneut Abbildung + : Abb(D, K) × Abb(D, K) → Abb(D, K) und · : K × Abb(D, K) → Abb(D, K), d.h. diese beiden Verknüpfungen bilden erneut in diesselbe Menge ab. Auch diese Menge besitzt analoge Struktur wie die bereits besprochenen Fälle. 119 7 Vektorräume 7.3 Allgemeine Definition von Vektorräumen Die vorangegangenen Beispiele zeigen, dass viele verschiedene mathematische Strukturen dieselbe unterliegenden Eigenschaften besitzen. Somit lassen sich alle Strukturen auf einmal untersuchen, indem man sich auf einen abstrakten Standpunkt zurückzieht und anstatt konkreter Räume ganz allgemein sogenannte Vektorräume betrachtet. Definition 7.15 (Vektorraum) Sei K ein Körper. Ein Tripel (V, +, ·) bestehend aus einer Menge V , einer auf V definierten inneren Verknüpfung (genannt Addition) + : V × V → V, (v, w) 7→ v + w, und einer äußeren Verknüpfung (genannt skalare Multikplikation) · : K × V → V, (λ, v) 7→ λ · v, heißt K-Vektorraum (oder auch Vektorraum über K), falls gilt: (V1) (V, +) ist eine kommutative Gruppe, d.h. (Kommutativität) (Assoziativiät) (Neutrales Element) (Inverse Elemente) u + v = v + u für alle u, v ∈ V u + (v + w) = (u + v) + w für alle u, v, w ∈ V Es gibt 0 ∈ V mit v + 0 = v für alle v ∈ V Zu jedem v ∈ V gibt es −v ∈ V mit v + (−v) = 0 (V2) Die skalare Multiplikation und Addition sind verträglich miteinander, d.h. es gilt (Distributivität) (λ + µ) · v = λ · v + µ · v, λ · (v + w) = λ · v + λ · w, und die multiplikative Gruppe des Körpers K operiert auf V , d.h. es gilt (Assoziativiät) (Neutralität der Eins) λ · (µ · v) 1·v = (λ · µ) · v, = v, für alle λ, µ ∈ K und v, w ∈ V . Die Elemente der Menge V werden Vektoren genannt. Man beachte, dass die Zeichen + und · je nach Kontext die Addition oder Multiplikation im Körper K als auch die Operationen des Vektorraums bezeichnen. Beispiele 7.16 (i) Qn , Rn , Cn oder allgemein der K-Vektorraum Kn . (ii) Die Polynomräume K[x] und K[x]≤n für einen Körper K. 120 7.3 Allgemeine Definition von Vektorräumen (iii) Der Raum aller unendlichen Folgen. (iv) Der Raum Abb(R, R) aller Funktionen f : R 7→ R. (v) Der Raum C(R, R) aller stetigen Funktionen f : R 7→ R. (vi) Der Raum C 1 (R, R) aller stetig differenzierbaren Funktionen f : R 7→ R. Betrachtet man eine U ⊂ V Teilmenge eines Vektorraums V , dann ist im Allgemeinen nicht mehr sicher gestellt, dass auch die Summe zweier Vektoren dieses Teilraums wieder in dem Teilraum U enthalten ist, denn sie könnte auch in V \ U liegen. Analog ist nicht jede Teilmenge eines Vektorraums bezüglich der skalaren Multiplikation abgeschlossen. Daher sind die folgenden Teilmengen eines Vektorraums von besonderer Bedeutung. Definition 7.17 (Untervektorraum) Eine Teilmenge U ⊂ V heißt Untervektorraum eines K-Vektorraums V , falls gilt: (UV1) (UV2) (UV3) U 6= ∅, (nicht leer) u, v ∈ U ⇒ u + v ∈ U , (Abgeschlossenheit bzgl. Vektoraddition), v ∈ U, λ ∈ K ⇒ λ · v ∈ U , (Abgeschlossenheit bzgl. skalarer Multiplikation). Beispiele 7.18 (i) Jeder Vektorraum V hat die trivialen Untervektorräume {0} und V selbst. (ii) Die Vektorraum R1 hat genau die zwei trivialen Untervektorräume {0} und R1 . (iii) Der Vektorraum R2 hat die Untervektorräume (a) den Nullvektorraum {0}, (b) alle Geraden durch den Ursprung, d.h. die Mengen {(x, y) ∈ R2 | ax + by = 0} mit a, b ∈ R, (a, b) 6= (0, 0), (c) den Vektorraum R2 selbst. (iv) Der Vektorraum R3 hat als Unterräume {0}, alle Geraden durch den Ursprung, alle Ebenen durch den Ursprung und R3 selbst. (v) Da die Summe von stetigen (bzw. differenzierbaren) Funktionen wiederum stetig (bzw. differenzierbar) ist und diese Eigenschaften auch bei der Multiplikation mit einem Skalar erhalten bleiben, so gibt es die Kette an Untervektorräumen R[x]≤n ⊂ R[x] ⊂ C 1 (R, R) ⊂ C(R, R) ⊂ Abb(R, R). Die Bezeichnung Untervektorraum suggeriert, dass die Teilmenge U ⊂ V die Vektorraumeigenschaften von V erbt. Dass dies tatsächlich der Fall ist, zeigt der folgende Satz. Satz 7.19 Ein Untervektorraum U ⊂ V ist ein Vektorraum. Beweis. Addition und skalare Multiplikation sind nach (UV2) und (UV3) abgeschlossen, bilden also wieder in U ab. Die Kommuntativität und Assoziativität gilt, da sie auch 121 7 Vektorräume schon in V vorhanden war und man sich nun nur auf eine Teilmenge U ⊂ V beschränkt. Alle Bedingungen (V2) folgen ebenfalls direkt von V . Da U 6= ∅ mindestens einen Vektor v ∈ U enthält, ist wegen (UV3) auch 0 = 0 · v ∈ U enthalten. Zudem ist wegen (UV3) auch mit −v = (−1) · v ∈ U jedes Inverse in U enthalten. Untervektorräume enthalten somit im Speziellen immer den Nullvektor und zu einem Vektor immer dessen Inverse. 7.4 Linearkombination, Span und lineare Unabhängigkeit Hat man eine Teilmenge an Vektoren von einem Vektorraum, so bilden diese nicht automatisch einen Untervektorraum. Man kann sich jedoch fragen, ob man diese Menge durch Hinzunahme weiterer geeigneter Vektoren zu einem Untervektorraum machen kann. Dies bezeichnt man als Abschluss dieser Teilmenge. Speziell möchte man gerne mit möglichst wenig zusätzlichen Vektoren einen Untervektorraum erhalten. Dies motiviert die folgende Betrachtung. Definition 7.20 (Familie) Sei I eine Indexmenge und V ein Vektorraum. Eine Abbildung ϕ : I → V, i 7→ vi = ϕ(i), die einem Index i ein Element aus vi ∈ V zuordnet, heißt Familie von Vektoren. Die Familie I → V wird auch mit (vi )i∈I bezeichnet. In einer Familie können Vektoren mehrfach auftreten und (im Gegensatz zu einer Menge) ist die Reihenfolge von Bedeutung. Beispiel 7.21 (i) Für I = {1, 2, . . . , n} ist (vi )i∈{1,2,...,n} = (v1 , v2 , . . . , vn ) eine endliche Familie an Vektoren. 1 0 1 1 2 (ii) Für I = {1, 2, 3, 4} und V = R ist ( , , , ) eine Familie von 4 0 1 1 0 Vektoren. (iii) Für I = N ist = (vi )i∈N = (v0 , v1 , . . .) eine unendliche Familie an Vektoren. Dies wird auch als Folge bezeichnet. (iv) Für I = N und V = R[x] ist (1, x, x2 , x3 , . . .) eine Familie. (v) Für die leere Indexmenge I = ∅ ist (vi )i∈∅ = ( ) die leere Familie. Definition 7.22 (Linearkombination) Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V . 122 7.4 Linearkombination, Span und lineare Unabhängigkeit (i) Zu einer endlichen Familie (v1 , . . . , vr ) mit r ∈ N und Skalaren λ1 , . . . , λr ∈ K nennt man den Vektor v = λ1 v1 + λ2 v2 + . . . + λr vr eine Linearkombination der Vektoren v1 , . . . , vr . (ii) Für eine unendliche Familie (vi )i∈I heißt ein Vektor v Linearkombination der Vektoren (vi )i∈I , falls v Linearkombination einer endlichen Teilfamilie von (vi )i∈I ist, d.h. es gibt ein r ∈ N, Indizes i1 , . . . , ir ∈ I und Skalare λ1 , . . . , λr ∈ K, so dass v = λ1 vi1 + λ2 vi2 + . . . + λr vir . Betrachtet man zu einer Familie von Vektoren alle möglichen Linearkombinationen, so erhält man einen Raum der als Abschluss, Aufspann oder lineare Hülle bezeichnet wird. Definition 7.23 (Lineare Hülle / Span / Erzeugnis) Sei V ein K-Vektorraum und (vi )i∈I eine (endliche oder unendliche) Familie von Vektoren. Die Menge aller Linearkombinationen span(vi )i∈I := {v | v ist Linearkombination der Vektoren (vi )i∈I } heißt lineare Hülle oder Span. Für eine endlich Familie (v1 , . . . , vr ) schreibt man dies auch als Kv1 + . . . + Kvr := span(v1 , . . . , vr ) = {λ1 v1 + λ2 v2 + . . . + λr vr | λi ∈ K}. Für die leere Familie setzt man span(vi )i∈∅ := {0}. 1 Beispiel 7.24 (i) Für (vi )i∈{1} = ( ) ist 1 1 1 1 span(vi )i∈{1} = span( ) = {λ1 | λ1 ∈ R} = R 1 1 1 eine Gerade durch den Ursprung. 1 0 1 , , ) ist (ii) Für (vi )i∈{1,2,3} = ( 0 1 1 1 0 1 1 0 1 span(vi )i∈{1,2,3} = span( , , ) = {λ1 + λ2 + λ3 | λi ∈ R} 0 1 1 0 1 1 λ1 + λ3 ={ | λi ∈ R} = R2 λ2 + λ3 der Raum V = R2 selbst. 123 7 Vektorräume In den Beispielen sieht man, dass der Span ein Untervektorraum ist. Dies gilt ganz allgemein und sogar noch mehr: Zu einer Familie von Vektoren (vi )i∈I , vi ∈ V, ist die lineare Hülle span(vi )i∈I der kleinste Untervektorraum von V , in dem alle vi enthalten sind. Satz 7.25 (Span ist kleinster Untervektorraum zu einer Familie) Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V . Dann gilt: (i) span(vi )i∈I ist ein Untervektorraum von V . (ii) Ist U ⊂ V auch ein Untervektorraum, der alle vi , i ∈ I enthält, so gilt span(vi )i∈I ⊂ U. Beweis. (i) Zu endlichen Linearkombinationen λ1 v1 + . . . + λr vr und µ1 v1 + . . . + µr vr ist auch die Summe (λ1 v1 + . . . + λr vr ) + (µ1 v1 + . . . + µr vr ) = (λ1 + µ1 )v1 + . . . + (λr + µr )vr als auch das Produkt mit einem Skalar λ λ(λ1 v1 + . . . + λr vr ) = (λλ1 )v1 + . . . + (λλr )vr eine Linearkombination. Durch die Wahl von λ1 = . . . = λr = 0 ist zudem 0 enthalten. (ii) Da U Untervektorraum ist, sind alle endlichen Linearkombinationen von Vektoren aus U wieder in U enthalten. Da speziell auch alle vi ∈ U liegen, sind somit auch alle Linearkombination der vi (und somit span(vi )i∈I ) enthalten. Einen gegebenen (Unter-)Vektorraum kann man durch viele verschiedene Familien aufspannen (bzw. erzeugen). So ist zum Beispiel 0 1 1 0 1 0 1 2 R =R +R =R +R +R =R +R . 0 1 0 1 1 1 1 Im Allgemeinen existieren unendlich viele Möglichkeiten um einen Vektor linear zu kombinieren. Speziell lässt sich der Nullvektor immer durch 0 = 0v1 + . . . + 0vr linear kombinieren. Gibt es noch weitere Koeffizienten λi 6= 0, die dies erfüllen, so ist die Eindeutigkeit der Darstellung nicht gegeben. Man bezeichnet dann die Vektoren v1 , . . . , vr als linear abhängig. Definition 7.26 (Lineare Unabhängigkeit) Sei V ein K-Vektorraum. Eine endliche Familie (v1 , . . . , vr ) heißt linear unabhängig, falls sich der Nullvektor nur durch Nullkoeffizienten linear kombinieren lässt, d.h. für eine Darstellung mit Koeffizienten λ1 , . . . , λr ∈ K gilt stets 0 = λ1 v1 + . . . + λr vr 124 ⇒ λ1 = . . . = λr = 0. 7.4 Linearkombination, Span und lineare Unabhängigkeit Eine unendliche Familie (vi )i∈I heißt linear unabhängig, falls jede endliche Teilfamilie linear unabhängig ist. Eine Familie (vi )i∈I heißt linear abhängig, falls sie nicht linear unabhängig ist. Die leere Familie () ist linear unabhängig. Satz 7.27 (Charakterisierung linear abhängiger Vektoren) Sei V ein K-Vektorraum und r ≥ 2. Eine Familie von Vektoren (v1 , . . . , vr ) ist genau dann linear abhängig, wenn mindestens einer der Vektoren Linearkombination der anderen ist. Beweis. „Linear abhängig ⇒ Linearkombination“: Sind v1 , . . . , vr linear abhängig, so gibt es Koeffizienten λ1 , . . . , λr ∈ K mit mindestens einem λk 6= 0, k ∈ {1, . . . , r}, so dass sich der Nullvektor nichttrivial kombinieren lässt: 0 = λ1 v1 + . . . + λk vk + . . . + λr vr . Löst man nach vk auf, so ist dieser Linearkombination der übigen, denn vk = − λk−1 λk+1 λr λ1 v1 − . . . − vk−1 − vk+1 − . . . − vr . λk λk λk λk „Linearkombination ⇒ linear abhängig“: Gilt umgekehrt vk = µ1 v1 + . . . + µk−1 vk−1 + µk+1 vk+1 + . . . + µr vr , so lässt sich der Nullvektor mit λk = −1 6= 0 linear kombinieren gemäß 0 = µ1 v1 + . . . + µk−1 vk−1 + (−1)vk + µk+1 vk+1 + . . . + µr vr . Dieser Satz sagt zugleich, dass sich bei linear unabhängigen Vektoren (v1 , . . . , vr ) keiner der Vektoren vi durch die übrigen linear kombinieren lässt und somit als einzige Möglichkeit nur eine Darstellung durch sich selbst bleibt. Es gilt sogar noch mehr: Jeder Vektor in der linearen Hülle lässt sich eindeutig linear kombinieren. Satz 7.28 (Charakterisierung linear unabhängiger Vektoren) Sei V ein K-Vektorraum. Eine Familie von Vektoren (vi )i∈I ist genau dann linear unabhängig, wenn sich jeder Vektor v ∈ span(vi )i∈I als eindeutige Linearkombination aus (vi )i∈I schreiben lässt. Beweis. „Linear unabhängig ⇒ Eindeutigkeit“: Angenommen es gibt zwei verschienden Darstellungen eines Vektors v ∈ span(vi )i∈I , dann gibt es Skalare λi , µi und der Vektor lässt sich schreiben als X X λi vi = v = µi vi , i∈I i∈I 125 7 Vektorräume wobei nur endlich viele der λi , µi ungleich Null sind. Damit gilt jedoch auch X (λi − µi )vi = 0 i∈I und auf Grund der linearen Unabhängigkeit müssen alle Koeffizienten λi − µi = 0 verschwinden. Somit gilt λi = µi und die Darstellung eindeutig. „Eindeutigkeit ⇒ linear unabhängig“: Der Nullvektor lässt sich stets als 0 = 0v1 + . . . + 0vr kombinieren. Ist die Darstellung eindeutig, so muss für alle weiteren Darstellungen 0 = λ1 v1 + . . . + λr vr folgen, dass λ1 = . . . = λr = 0 gilt. 7.5 Basis und Dimension Es hat sich gezeigt, dass man durch das Bilden der linearen Hülle einer Familie an Vektoren einen Vektorraum aufspannen kann, d.h. man kann gewisse Vektoren angeben, aus denen sich alle Vektoren des Vektorraums linear kombinieren lassen. Zudem hat sich gezeigt, dass manchmal schon selbst innerhalb dieser Familien einige Vektoren davon durch die anderen darstellbar sind - dies gilt, wenn die Familie linear abhängig ist - und die Darstellung der Vektoren des Raums durch die Familie daher nicht eindeutig ist. An dieser Stelle lässt sich fragen, ob immer eine Darstellung eines Vektorraums durch einen Span existiert, ob sich eine Familie mit eindeutiger Darstellung finden lässt und ob dabei eine möglichst effiziente Beschreibung des Vektorraums möglich ist, d.h. eine Darstellung durch die linear Hülle einer möglichst kleinen Familie an Vektoren. Dies führt auf den Begriff der Basis. Definition 7.29 (Erzeugenensystem, Basis) Sei V ein Vektorraum. (i) Eine Familie B = (vi )i∈I heißt Erzeugendensystem von V, wenn V = span(vi )i∈I ist, d.h. jedes v ∈ V ist eine (endliche) Linearkombination der (vi )i∈I . (ii) Eine Familie B = (vi )i∈I heißt Basis von V, wenn sie eine linear unabhängiges Erzeugendensystem ist, d.h. jedes v ∈ V ist eine eindeutige (endliche) Linearkombination der (vi )i∈I . Existiert ein endliches Erzeugendensystem (v1 , . . . , vn ), so nennt man V endlich erzeugt. Eine Basis heißt endlich, falls sie eine endliche Familie (v1 , . . . , vn ) ist. Beispiele 7.30 (i) Für V = Rn , n ∈ N, ist die kanonische Basis (oder Standardbasis) gegeben durch ei := (0, . . . , 0, 1, 0, . . . , 0), wobei die 1 an der i-ten Stelle steht. Damit ist span(ei )i={1,...,n} = Rn . 126 7.5 Basis und Dimension (ii) Für V = R[x]≤n , n ∈ N, ist die kanonische Basis gegeben durch (1, x, x2 , . . . , xn ). (iii) Für V = R[x] ist die kanonische Basis gegeben durch (1, x, x2 , . . .). Dieser Raum ist nicht endlich erzeugt. (iv) Für V = C (aufgefasst als R-Vektorraum) ist die kanonische Basis gegeben durch (1, i). Hat man zu einem Vektorraum eine endliche Basis (ein linear unabhängiges Erzeugendensystem) gefunden, so hat diese in folgendem Sinne eine optimale Länge: Fügt man nämlich nur einen Vektor zur Familie hinzu oder entfernt einen Vektor aus der Familie, so verliert diese die Basiseigenschaft. Satz 7.31 (Äquivalenzen zu einer endlichen Basis) Für eine endliche Familie B = (v1 , . . . , vn ) von Vektoren sind äquivalent: (i) B ist Basis (d.h. ein linear unabhängiges Erzeugendensystem). (ii) B ist ein unverkürzbares Erzeugendensystem, d.h. für jedes k ∈ {1, . . . , n} ist (v1 , . . . , vk−1 , vk+1 , . . . , vn ) kein Erzeugendensystem mehr. (iii) B ist ein Erzeugendensystem mit Eindeutigkeit der Darstellung, d.h. jedes v ∈ V lässt sich eindeutig als Linearkombination v = λ1 v1 + . . . + λn vn schreiben. (iv) B ist unverlängerbar linear unabhängig, d.h. für jedes v ∈ V ist (v1 , . . . , vn , v) nicht mehr linear unabhängig. Beweis. (i) ⇒ (ii): Angenommen, B wäre um vk verkürzbar und weiterhin Erzeugendensystem. Dann lässt sich vk = λ1 v1 + . . . + λk−1 vk−1 + λk+1 vk+1 + . . . + λn vn darstellen und nach Umstellung gilt 0 = λ1 v1 + . . . + λk−1 vk−1 + (−1)vk + λk+1 vk+1 + . . . + λn vn . Somit wäre (v1 , . . . , vn ) linear abhängig im Widerspruch zur Unabhängigkeit einer Basis. (ii) ⇒ (iii): Angenommen es existiert zu einem unverkürzbaren Erzeugendensystem eine nicht eindeutige Darstellung zu einem Element v ∈ V . Dann ∃v ∈ V : v = λ1 v1 + . . . + λn vn = µ1 v1 + . . . + µn vn . O.B.d.A. λ1 6= µ1 (die vi können stets entsprechend umsortiert werden). Dann folgt 0 = (λ1 − µ1 )v1 + ... + (λn − µn )vn µn − λn µ2 − λ2 v2 + . . . + ⇔ v1 = λ1 − µ1 λ1 − µ1 127 7 Vektorräume ⇒ vi linear abhängig ⇒ B verkürzbar. Widerspruch! (iii) ⇒ (iv): B ist linear unabhängig auf Grund der eindeutigen Darstellbarkeit. Fügt man noch einen weiteren Vektor v = λ1 v1 + . . . + λn vn zur Familie hinzu, so wird diese wegen 0 = λ1 v1 + . . . + λn vn + (−1)v linear abhängig. (iv) ⇒ (i): Ist B unverlängerbar linear unabhängig, so gibt es für jedes v ∈ V Koeffizienten λ1 , . . . , λn , λ ∈ K, so dass 0 = λ1 v1 + . . . + λn vn + λv, wobei mindestens eines der λ1 , . . . , λn , λ 6= 0. Da (v1 , . . . , vn ) linear unabhängig sind, muss folglich λ 6= 0 gelten und somit gilt v=− λn λ1 v1 − . . . − vn . λ λ Somit ist B ein Erzeugendensystem und linear unabhängig, d.h. eine Basis. Daraus folgt direkt die Existenz einer Basis für endliche Vektorräume. Satz 7.32 (Basisauswahlsatz) Sei V ein endlich erzeugter Vektorraum. Dann kann man aus dem endlichen Erzeugendensystem eine endliche Basis auswählen. Beweis. Sei das endliche Erzeugendensystem gegeben. Aus diesem entfernt man solange Vektoren, bis es kein Erzeugendensystem mehr ist, d.h. bis es unverkürzbar ist. Damit ist die so entstanden Familie eine Basis. Allgemeiner lässt sich zeigen, dass sogar jeder Vektorraum eine Basis besitzt. Dieser Beweis ist aufwändiger und wir daher weggelassen. Eine Basis zu einem Vektorraum ist nicht eindeutig. Vielmehr kann man viele verschiedenen Basen wählen. Man kann bei einer vorgegebenen Basis sogar geeignet Vektoren austauschen und erhält erneut eine Basis. Betrachtet man zunächst nur den Austausch eines Vektors, so findet man die folgende Aussage. Satz 7.33 (Austauschlemma) Sie V ein Vektorraum mit Basis B = (v1 , . . . , vn ) und w = λ1 v1 + . . . + λn vn ∈ V . Gilt λk 6= 0 für k ∈ {1, . . . , n}, so ist auch B 0 = (v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) eine Basis von V. Beweis. Zu zeigen ist, dass B 0 eine Basis ist. Erzeugendensystem: Wegen λk 6= 0 gilt für vk die Darstellung vk = 1 λ1 λk−1 λk+1 λn w − v1 − . . . − vk−1 − vk+1 − . . . − vn . λk λk λk λk λk und somit für einen beliebigen Vektor v = µ1 v1 + . . . + µn vn die Darstellung v= 128 µ1 µ k λ1 − λk v1 + . . . + v1 + . . . − µk−1 vk−1 µk λk−1 vk−1 λk + µλkk w + − µk+1 vk+1 µk λk+1 vk+1 λk +... + +... − µn v n µk λn vn . λk 7.5 Basis und Dimension Somit lässt sich ein beliebiger Vektor v ∈ V auch als Linearkombination der Familie (v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) darstellen und B 0 ist ein Erzeugendensystem. Lineare Unabhängigkeit: Sei µ1 v1 + . . . + µk−1 vk−1 + µw + µk+1 vk+1 + . . . + µn vn = 0 mit Koeffizienten µ, µ1 , . . . , µn . Durch Einsetzen von w = λ1 v1 + . . . + λn vn findet man 0= µ1 v1 + . . . + µk−1 vk−1 + µk+1 vk+1 + . . . + µn vn +µλ1 v1 + . . . + µλk−1 vk−1 +µλk vk + µλk+1 vk+1 + . . . + µλn vn und, da B linear unabhängig ist, folglich für die Koeffizienten µλk = 0 sowie (µi +µλi ) = 0 für i 6= k. Da λk 6= 0 folgt zunächst µ = 0 und damit µi = 0 für i 6= k. Möchte man gleich mehrere Vektoren austauschen, so findet man den Basisaustauschssatz von Steinitz. Satz 7.34 (Basisaustauschsatz) Sei V ein Vektorraum, B = (v1 , . . . , vn ) eine endliche Basis und (w1 , . . . , wr ) eine linear unabhängige Familie von Vektoren. Dann folgt: (i) r ≤ n. (ii) Man kann r Vektoren aus B durch w1 , . . . , wr austauschen, so dass man erneut eine Basis erhält, d.h. nach evtl. Umnummerierung der (vi )1,...,n ist auch (w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis von V . Beweis. Induktion über r: Für r = 1: Sei ein linear unabhäniger Vektor w1 6= 0 gegeben. Die Basis enthält somit auch mindestens einen Vektor (es gilt also 1 ≤ n) und gemäß des Austauschlemmas lässt sich w1 für einen Vektor in der Basis ersetzen und erhält wieder eine Basis. Sei nun r ≥ 2 und per Induktionsannahme die Aussage bewiesen für r − 1. Es müssen zwei Dinge gezeigt werden. (i) ”r ≤ n”: Nach Induktionsannahme gilt bereits r −1 ≤ n. Damit bleibt noch zu zeigen, dass der Fall r−1 = n nicht eintreten kann. Dazu ein Widerspruchsbeweis: Angenommen, es gälte r −1 = n. Entsprechend sind die Vektoren (w1 , . . . , wr−1 ) linear unabhängig und nach Induktionsvoraussetzung kann man alle n Elemente der Basis (v1 , . . . , vn ) durch die r −1 Vektoren (wi )1≤i≤r−1 ersetzen und erhält wieder eine Basis (w1 , . . . , wr−1 ). Eine Basis ist aber unverlängerbar linear unabhängig und daher ist (w1 , . . . , wr−1 , wr ) linear abhängig. Widerspruch. (ii) ”(w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis”: Nach Induktionsvorausssetzung lassen sich die (w1 , . . . , wr−1 ) derart austauschen, dass (nach evtl. Umnummerierung) auch (w1 , . . . , wr−1 , vr , . . . , vn ) 129 7 Vektorräume eine Basis bilden. Somit kann man auch wr durch diese Basis als Linearkombination wr = λ1 w1 + . . . + λr−1 wr−1 + λr vr + . . . + λn vn ausdrücken. Dabei muss einer der Koeffizienten λr , . . . , λn nicht 0 sein, denn andernfalls wäre 0 = −wr + λ1 w1 + . . . + λr−1 wr−1 im Widerspruch zur linearen Unabhängigkeit. Gemäß dem Austauschlemma lässt sich der zugehörige Vektor durch wr ersetzen. Nach geeigneter Umnummerierung sei dieser Vektor vr und somit ist auch (w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis. Die Aussage dieses Satzes lässt sich auch so verstehen, dass man linear unabhängige Familien zu einer Basis auffüllen kann. Satz 7.35 (Basisergänzungssatz) Sei V ein endlich erzeugter Vektorraum. Dann lässt sich jede linear unabhängige Familie (w1 , . . . , wr ) durch Hinzunahme geeigneter Vektoren zu einer Basis (w1 , . . . , wr , vr+1 , . . . , vn ) ergänzen. Beweis. Man wählt eine Basis (diese existiert gemäß Basisauswahlsatz) und wendet den Basisaustauschsatz an. Durch den Basisaustauschsatz ist auch geklärt, dass für jeden endlichen Vektorraum alle Basen dieselbe Länge haben. Satz 7.36 (Länge endlicher Basen) Je zwei Basen eines endlichen Vektorraums haben gleiche Länge. Beweis. Hat man zwei Basen der Länge n und m, so kann man den Basisaustauschsatz zweimal anwenden und erhält n ≤ m und m ≤ n, also n = m. Somit lässt sich mittels der Länge der Basis die Dimension eines Vektorraums sinnvoll definieren. Definition 7.37 (Dimension) Für einen K-Vektorraum V heißt ( n, falls V eine Basis der Länge n ∈ N besitzt, dimK V := ∞, falls V keine endliche Basis besitzt, die Dimension von V über K. Beispiele 7.38 (i) Der Vektorraum Rn hat Dimension dimR Rn = n. (ii) Die Vektorraum der Polynome hat Dimension dimR R[x] = ∞. (iii) Der Vektorraum C, aufgefasst als Vektorraum über R, hat Dimension dimR C = 2. 130 8 Lineare Abbildungen Eine besondere Rolle sowohl in der linearen Algebra als auch der Analysis spielen lineare Abbildungen. Auf endlich erzeugten Vektorräumen hängen diese eng mit sogenannten Matrizen (rechteckige Zahlenschemata) zusammen. Um für den weiteren Verlauf dieses Kapitels eine Anschauung zu entwickeln, werden daher zunächst der Begriff der Matrix sowie grundlegende Matrix-Vektor Operationen eingeführt. 8.1 Lineare Gleichungssysteme und Matrizen In vielen Anwendungen ist man an Lösungen von sogenannten linearen Gleichungssystemen interessiert. Hierbei sucht man n Unbekannte die m lineare Bedingungen erfüllen. Definition 8.1 (Lineares Gleichungssystem) Für m, n ∈ N bezeichnet man für die n Unbekannten x1 , x2 , . . . , xn ∈ K und die Werte b1 , . . . , bm ∈ K die m Gleichungen a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . + . . . + a1n xn + . . . + a2n xn .. . = b1 = b2 .. . am1 x1 + am2 x2 + . . . + amn xn = bm als lineares Gleichungssystem. Die Zahlen aij ∈ K (1 ≤ i ≤ m, 1 ≤ j ≤ n) heißen Koeffizienten. Das Gleichungssystem lässt sich auch kompakt schreiben als n X aij xj = bi , für i = 1, . . . , m. j=1 Das obige Gleichungssystem möchte man in vielen Fällen kompakter (und damit übersichtlicher) notieren. Wesentlich für ein Gleichungssystem sind die Koeffizienten und daher fasst man diese in einem Zahlenschema zusammen. Definition 8.2 (Matrix) Eine m × n Matrix A, m, n ∈ N, mit Einträgen aij ∈ K, 1 ≤ i ≤ m, und 1 ≤ j ≤ n ist 131 8 Lineare Abbildungen ein rechteckiges Zahlenschema A = (aij )m,n i,j=1 a11 a21 = .. . a12 a22 .. . am1 am2 . . . a1n . . . a2n .. . .. . . . . . amn Die Menge aller m × n Matrizen mit Einträgen aus K wird als Km×n bezeichnet. Um damit das obige Gleichungssystem kompakter notierien zu können, wird noch die Definitionen der Multiplikation einer Matrix mit einem Vektor benötigt. Definition 8.3 (Matrix-Vektor-Multiplikation) Zu einer Matrix A ∈ Km×n und einem Vektor x ∈ Kn ist das Matrix-Vektor-Produkt · : Km×n × Kn → Km definiert durch a11 a12 a21 a22 A · x = .. .. . . am1 am2 oder in Indexnotation . . . a1n x1 a11 · x1 + a12 · x2 + . . . + a1n · xn a21 · x1 + a22 · x2 + . . . + a2n · xn . . . a2n x2 .. · .. := .. .. . . . . . . . amn xn am1 · x1 + am2 · x2 + . . . + amn · xn (A · x)i := n X j=1 aij xj , für alle 1 ≤ i ≤ m. Damit lässt sich ein lineares Gleichungssystem in Matrixschreibweise darstellen. Sei dazu A ∈ Km×n und b ∈ Km . Gesucht ist dann x ∈ Kn , so dass a11 x1 + a12 x2 + . . . + a1n xn b1 a21 x1 + a22 x2 + . . . + a2n xn b2 A · x = .. .. .. = .. = b. . . . . am1 x1 + am2 x2 + . . . + amn xn bm Beispiele 8.4 (i) A := 2 ∈ R1×1 : A · x = (2) · (x1 ) = 2x1 . x1 2×1 (ii) A := 3 4 ∈ R : A · x = 3 4 · = 3x1 + 4x2 . x2 1 0 (iii) (Identität) A := ∈ R2×2 : 0 1 1 0 x1 1 · x1 + 0 · x2 x1 A·x= · = = = x. 0 1 x2 0 · x1 + 1 · x2 x2 132 8.1 Lineare Gleichungssysteme und Matrizen 0 −1 (iv) (Rotation um 90 ) A := ∈ R2×2 : 1 0 0 −1 x1 0 · x1 − 1 · x2 −x2 A·x= · = = . 1 0 x2 1 · x1 + 0 · x2 x1 ◦ Die so definiert Abbildung besitzt interessante Eigenschaften. Satz 8.5 (Linearität der Matrixmultiplikation) Die Multiplikation einer Matrix A ∈ Km×n mit einem Vektor x ∈ Kn ist eine Abbildung A : Kn → Km , x 7→ A · x und besitzt die Eigenschaften A · (x + y) = A · x + A · y, für alle x, y ∈ Kn , λ ∈ K. A · (λx) = λ(A · x), Beweis. Beim direkten Nachrechnen kann man sich auf die i-te Zeile beschränken und findet n n n X X X (A · (x + y))i = aij (xj + yj ) = aij xj + aij yj = (A · x)i + (A · y)i j=1 j=1 j=1 sowie (A · (λx))i = n X j=1 aij (λxj ) = λ n X j=1 aij xj ! = λ (A · x)i . Für Matrizen lässt sich zudem eine Addition, eine Multiplikation mit Skalaren und eine Multiplikation mit Matrizen definieren. Definition 8.6 (Matrix-Matrix-Operationen) Für A, B ∈ Km×n ist die (Matrix-)Addition definiert als a11 a12 . . . a1n b11 b12 . . . b1n a21 a22 . . . a2n b21 b22 . . . b2n A + B = .. .. .. + .. .. . . .. . . . . . . . . . . am1 am2 . . . amn bm1 bm2 . . . bmn a11 + b11 a12 + b12 . . . a1n + b1n a21 + b21 a22 + b22 . . . a2n + b2n = .. .. .. . . . . . . am1 + bm1 am2 + bm2 . . . amn + bmn und die Multiplikation mit einem Skalar λ ∈ K als a11 a12 . . . a1n λa11 λa12 a21 a22 . . . a2n λa21 λa22 λA = λ .. .. .. = .. .. . . . . . . . . am1 am2 . . . amn λam1 λam2 . . . λa1n . . . λa2n .. . .. . . . . . λamn 133 8 Lineare Abbildungen Für A ∈ Km×n und B ∈ Kn×r ist das Matrixprodukt eine Matrix C ∈ Km×r gegeben durch n X i = 1, . . . , m C = A · B, mit cik := aij bjk für . k = 1, . . . , r j=1 Im Spezialfall r = 1 stimmt diese Definition mit der Matrix-Vektor-Multiplikation überein. Definition 8.7 (Transponierte Matrix) Die zu A ∈ Km×n transponierte Matrix AT ∈ Kn×m ist definiert durch aTij := aji i = 1, . . . , n, . j = 1, . . . , m für max(n,m) Anschaulich gesprochen entspricht dies der Spiegelung an der Diagonalen (aii )i=1 der Matrix und diese fasst man einen Vektor x ∈ Rn×1 als einspaltige Matrix x ∈ Rn×1 auf, so ist diese Definition konsistent mit der Notation eines liegenden Vektors xT = (x1 , . . . , xn ). Eine wichtige Matrix ist die sehr einfache Einheitsmatrix. Definition 8.8 (Einheitsmatrix) Die Einheitsmatrix ist die n × n Matrix 1 0 1n := .. . 0 0 ... 1 ... .. . . . . 0 ... 0 0 .. . . 1 Für die Rechenregeln mit Matrizen findet man zudem folgende Äquivalenzen. Satz 8.9 (Rechenregeln für Matrizen) Seien A ∈ Rm×n und B, C ∈ Rn×r Matrizen sowie λ ∈ K. Dann gilt: (i) A · (B + C) = A · B + A · C, (ii) A · (B · C) = (A · B) · C, (A + B) · C = A · C + B · C, (iii) A · (λB) = (λA) · B = λ(A · B), (iv) (A · B)T = BT · AT , (v) 1m · A = A · 1n = A. Im Allgemeinen gelten jedoch die folgenden Ungleichungen A · B 6= B · A und A · B 6= AT · BT für beliebige Matrizen A, B, obwohl selbstverständlich für Spezialfälle Gleichheit vorliegen kann. 134 8.2 Lösungsmengen, Kern und Bild 8.2 Lösungsmengen, Kern und Bild Gleichungssysteme entstehen an vielen Stellen und für ihre Lösung ist ein verlässliches Verfahren wünschenswert. Zum Beispiel führt die Berechnung von Schnittpunkten zwischen Ebenen im R3 auf solche Gleichungssysteme. Eine Ebene im R3 lässt sich über eine lineare Gleichung beschreiben {x ∈ R3 | a1 x1 + a2 x2 + a3 x3 = b}, mit Koeffizienten ai ∈ R, i = 1, 2, 3 und rechter Seite b ∈ R. Um den Schnittpunkt dreier Ebenen im R3 zu berechnen, muss dementsprechend ein x ∈ R3 gefunden werden, so dass simultan die Ebenengleichung für alle drei erfüllt ist, d.h. es gilt a11 x1 + a12 x2 + a13 x3 = b1 a21 x1 + a22 x2 + a23 x3 = b2 a31 x1 + a32 x2 + a33 x3 = b3 oder kurz A · x = b, mit A = (aij ) ∈ R3×3 und x = (xi ) ∈ R3 , b = (bi ) ∈ R3 . Eliminationsverfahren von Gauß Es stellt sich nun die Frage, ob eine solche Matrixgleichung überhaupt eine Lösung besitzt und falls ja, ob die gefundene Lösung die einzige ist. Ein Allgemeines Verfahren zur Bestimmung der Lösungen eines solchen Gleichungssystem ist das Verfahren von Gauß. Dabei formt man Matrix und rechte Seite geeignet um, so dass sich bei gleichbleibender Lösung eine Zeilenstufenform der Matrix ergibt, aus der man die Lösung durch einfaches Einsetzen ablesen kann. Dies erklärt sich am besten durch ein Beispiel. Seien {x ∈ R3 | 2x1 + x2 + 3x3 = 8}, {x ∈ R3 | 2x1 + 2x2 + 4x3 = 12}, {x ∈ R3 | − 4x1 + 4x2 + 6x3 = 14} Ebenen im Raum, deren Schnittpunkt gesucht ist. Ausgehend von den drei Gleichungen 2x1 + x2 + 3x3 = 8 2x1 + 2x2 + 4x3 = 12 −4x1 + 4x2 + 6x3 = 14 (i) (ii) (iii) 135 8 Lineare Abbildungen erhält man durch Addition des Vielfachen einer Gleichung zu den anderen zunächst 2x1 + x2 + 3x3 = 8 x2 + x3 = 4 6x2 + 12x3 = 30 und schließlich die sogenannte Zeilenstufenform 2x1 + x2 + 3x3 = 8 x2 + x3 = 4 6x3 = 6 (i) (ii := ii + (−1) · i) (iii := iii + 2 · i) (i) (ii) (iii := iii + (−6) · ii) Nun lässt sich die Lösung direkt von unten nach oben ablesen. Denn durch einfaches Dividieren findet man aus (iii) nun zunächst x3 = 1. Einsetzen von x3 in (ii) und Umformen ergibt x2 = 3 und schließlich Einsetzen von x2 und x3 in (i) und Umformen x1 = 1. Man rechnet zudem leicht nach, dass Gleichungssystem 2 1 e · x = 0 1 A 0 0 auch die Lösung des ursprünglichen 2 A·x= 2 −4 die Lösung xT = (1, 3, 1) des so umgeformten 3 1 8 e 1 · 3 = 4 = b 6 1 6 Gleichungssystem 1 3 1 8 2 4 · 3 = 12 = b 4 6 1 14 ist. Dieses Vorgehen lässt sich auf beliebige Matrizen A ∈ Km×n anwenden und soll nun im Folgenden systematisch untersucht werden. Definition 8.10 (Lösungsmenge) Die Lösungsmenge eines linearen Gleichungssystems Ax = b ist gegeben durch L(A, b) := {x ∈ Kn | Ax = b}. Ist dieses Menge leer, so ist das Gleichungssystem nicht lösbar. Enthält sie genau einen Vektor, so ist dies eine eindeutige Lösung. Gibt es mehr als ein Element in der Lösungsmenge, so hat das Gleichungssystem mehr als einen Lösung. Das Ziel des Algorithmus von Gauß ist es, diese Menge zu bestimmen. Dazu schreibt man das zu lösende Gleichungssystem oftmals der Einfachheit halber als erweiterte Koeffizientenmatrix a11 a12 . . . a1n b1 a21 a22 . . . a2n b2 (A|b) = .. .. .. .. . . . . . . . . am1 am2 . . . amn bm 136 8.2 Lösungsmengen, Kern und Bild Nun stellt man zunächst direkt fest, dass es Gleichungssysteme gibt, die sich besonders einfach lösen lassen. Diese haben die folgende Gestalt, bei der das untere Dreieck der Matrix nur aus Nullen besteht. Definition 8.11 (Zeilenstufenform) Eine Matrix A ∈ Km×n besitzt Zeilenstufenform, wenn es einen Zahl r (0 ≤ r ≤ m) gibt, so dass die Zeilen folgende Form haben: (i) In den Zeilen r + 1, . . . , m sind alle Einträge Null. (ii) In den Zeilen 1, . . . , r sind nicht alle Einträge Null und die von Null verschiedenen Einträge mit kleinstem Spaltenindex ji := min{j | aij 6= 0} (sogenannte Pivots) erfüllen die Bedingung j1 < j2 < . . . < jr . Die Matrix hat somit die Gestalt 0 . . . 0 a1,j1 ∗ . . . ∗ ∗ . . . ∗ . . . 0 . . . . . . 0 a2,j2 ∗ ∗ ... 0 . . . 0 a3,j3 ∗ . . . .. . A= ar,jr ∗ 0 0 ... .. . 0 ... ... ∗ ... ∗ ... ∗ .. . , ... ∗ ... 0 .. . ... 0 wobei die Pivots ai,ji 6= 0 (1 ≤ i ≤ r) nicht null sind, an mit ∗ gekennzeichneten Stellen sowohl von Null verschiedenen Einträge als auch Nullen stehen dürfen und unterhalb der eingezeichneten Linie nur Nullen stehen. Nun stellt man fest, dass sich die Lösungsmenge eines linearen Gleichungssystems in einer Zeilenstufenform direkt ermitteln lässt. Satz 8.12 (Lösungen einer Matrix in Zeilenstufenform) Sei eine lineares Gleichungssystem in Zeilenstufenform gegeben mit 0 . . . 0 a1,j1 ∗ . . . ∗ ∗ . . . ∗ . . . 0 . . . . . . 0 a2,j2 ∗ ∗ ... 0 . . . 0 a3,j3 ∗ . . . .. . (A|b) = ar,jr ∗ 0 0 ... .. . 0 ... ... ∗ ... ∗ ... ∗ .. . ... ∗ ... 0 .. . ... 0 b1 b2 b3 .. . , br br+1 ... bm (i) Ist nur eins der br+1 , . . . , bm ungleich null, so ist das Gleichungssystem nicht lösbar. (ii) Sind alle br+1 = . . . = bm = 0, so lässt sich das Gleichungssystem rekursiv auflösen und man benötigt dazu n − r freie Parameter. 137 8 Lineare Abbildungen Beweis. (i) Ist bi 6= 0 mit i ≥ r + 1, so lautet die i-te Gleichung 0 · x1 + 0 · x2 + . . . + 0 · xn = bi 6= 0 und keine Wahl von x kann diese Gleichung lösen. (ii) Man löst das System von unten nach oben auf. Ausgehend von der r-ten Gleichung ar,jr xjr + ar,jr +1 xjr +1 + ar,jr +2 xjr +2 + . . . + ar,n xn = br wählt man zunächst die Variablen xjr +1 , xjr +2 , . . . , xn als freie Parameter, die einen beliebigen Wert annehmen können: xn := λ1 , . . . , xjr +2 := λn−jr −1 , xjr +1 := λn−jr . Damit verbleibt nur noch xjr als Variable in der Gleichung und nach dieser kann aufgelöst werden ar,jr xjr + ar,jr +1 λn−jr + ar,jr +2 λn−jr −1 + . . . + ar,n λ1 = br 1 (br − ar,jr +1 λn−jr − ar,jr +2 λn−jr −1 − . . . − ar,n λ1 ). ⇒ xj r = ar,jr Somit sind nun die xjr , . . . , xn bekannt. Mit der r −1-te Gleichung fährt man analog fort: Zunächst wählt man für die Variablen xjr−1 +1 , xjr−1 +2 , . . . , xjr −1 freie Parameter und löst danach die Gleichung ar−1,jr−1 xjr−1 + ar−1,jr−1 +1 xjr−1 +1 + ar−1,jr−1 +1 xjr−1 +1 + . . . + ar−1,n xn = br−1 nach xjr−1 auf. Dies ist stets möglich, da die Variablen xjr−1 +1 , . . . , xn bekannt bzw. bereits paramterisiert sind. Diese Verfahren führt man bis zur ersten Zeile durch und erhält somit eine Parametrisierung der Lösung. Die Anzahl der benötigten freien Parameter bestimmt sich dadurch, dass für jede Spalte außer den Spalten mit Pivots ein freier Parameter eingeführt werden muss. Man hat n Unbekannte, r Pivots und dementsprechend n − r freie Parameter. Man sieht folglich, dass sich Matrizen in Zeilenstufenform direkt lösen lassen. Die Idee des Verfahrens von Gauß ist es nun ein beliebiges Gleichungssystem durch Umformungen in ein Gleichungssystem in Zeilenstufenform zu überführen, ohne dass sich dabei die Lösungsmenge ändert. Wesentlich sind dabei die sogenanten elementaren Zeilenumformungen. Definition 8.13 (elementare Zeilenumformungen) Eine elementare Zeilenumformung ist eine der folgenden drei Operationen (I) Vertauschung von zwei Zeilen, (II) Multiplikation einer Zeile mit einer Zahl λ 6= 0, (III) Addition des λ-fachen einer Zeile zu einer anderen. Führt man diese Operationen auf einem Gleichungssystem aus, so bleibt die Lösungsmenge gleich. 138 8.2 Lösungsmengen, Kern und Bild Satz 8.14 (Elementare Zeilenumformungen ändern die Lösungsmenge nicht) e durch endlich viele elementare Zeilenumformungen aus e b) Ist das Gleichungssystem (A| dem Gleichungssystem (A|b) hervorgegangen, dann haben beiden Gleichungssysteme dieselbe Lösungsmenge, d.h. e e b). L(A, b) = L(A, Beweis. Es genügt zu zeigen, dass sich die Lösungsmenge bei jeder elementaren Zeilenumformung nicht ändert. Dann ist auch die mehrfache Hintereinanderausführung problemlos möglich. Die Umformung (I) ändert die Lösungsmenge sicher nicht, denn die Reihenfolge in der die Gleichungen notiert werden ist für die Lösung irrelevant. Die Umformung (II) ändert die Lösungsmenge nicht, denn durch Multiplikation mit λ bzw. λ−1 findet man zunächst die Äquivalenz ai1 x1 + . . . + ain xn = bi ⇔ λai1 x1 + . . . + λain xn = λbi . Erfüllt nun eine Lösung x = (x1 , . . . , xn ) die linke Gleichung, so auch die rechte und umgekehrt. Daher sind die Lösungsmengen identisch. Die Umformung (III) ändert die Lösungsmenge ebenfalls nicht, denn die beiden Gleichungssysteme ai1 x1 + . . . + ain xn = bi ak1 x1 + . . . + akn xn = bk ⇔ ai1 x1 + . . . + ain xn = bi (ak1 + λai1 )x1 + . . . + (akn + λain )xn = bk + λbi sind zueinander äquivalent, wie man durch Addition bzw. Subtraktion sieht. Daher kann man Lösungen des einen Gleichungssystems in Lösungen des zweiten überführen und umgekehrt. Es lässt sich nun aber jedes Gleichungssystem mittels den elementaren Zeilenumformungen in ein äquivalentes Gleichungssystem in Zeilenstufenform überführen. Satz 8.15 (Umformungssatz von Gauß) e in Jede Matrix A lässt sich durch elementare Zeilenumformungen in eine Matrix A Zeilenstufenform umformen. Beweis. Sind alle Einträge der Matrix A ∈ Km×n gleich Null, so liegt per Definition schon eine Zeilenstufenform mit r = 0 vor und der Satz ist direkt gezeigt. Sei daher mindestens ein Eintrag der Matrix von Null verscheiden und somit gibt es auch mindestens einen Spalte, in der nicht alle Einträge Null sind. Damit kann man sich diejenige solche Spalte mit kleinstem Index suchen, d.h. j1 = min{j | für mindestens ein i gilt aij 6= 0}. 139 8 Lineare Abbildungen A= 0 ... .. . .. . .. . 0 0 .. .. . . .. . ai1 ,j1 .. .. . . 0 ... 0 ∗ ∗ ... ... ∗ ∗ ... ... ∗ ∗ ... ... ∗ . ∗ ... ... ∗ ∗ ... ... ∗ In der j1 -ten Spalte ist somit mindestens ein Eintrag ungleich Null. Falls dies nicht bereits der Eintrag a1,j1 der ersten Zeile ist, so findet man eine Zeile i1 bei der ai1 ,j1 6= 0 gilt und durch Vertauschung der i1 -ten Zeile mit der ersten Zeile erhält man einen von Null verschiedenen Pivot e a1,j1 = ai1 ,j1 . Durch diese elementare Zeilenumformung vom e Typ (I) erhält man somit die erste Zeile der Matrix A. 0 ... 0 e a1,j1 ∗ . . . . . . ∗ .. .. .. . . . ∗ ... ... ∗ .. e = ... . A . ∗ ∗ . . . . . . ∗ . .. .. .. . . ∗ ... ... ∗ 0 ... 0 ∗ ∗ ... ... ∗ Nun kann man die unterhalb von e a1,j1 stehenden Einträge zu Null machen, indem man die elementare Zeilenumformung vom Typ (III) auf jede der Zeilen anwendet und jeweils ein Vielfaches der ersten Zeile hinzuaddiert. Dabei wählt man für den Eintrag der k-ten Zeile den Faktor λ so, dass gilt ak,j ak,j1 + λe a1,j1 = 0 ⇒ λ = − 1 . e a1,j1 Damit erhält man eine Matrix der Form 0 ... 0 e a1,j1 ∗ . . . . . . ∗ .. .. . . 0 . . . e . . . . A1 = . . . A2 . . . . . . . . . 0 ... 0 0 Nun kann man die Untermatrix A2 ∈ Km−1×n−j1 betrachten und dasselbe Verfahren auf diese anwenden. Damit ergibt sich die zweite Zeile der gesuchten Matrix und man erhält 0 ... 0 e a1,j1 ∗ . . . . . . ∗ .. .. . . 0 0 e a2,j2 . . . ∗ .. .. .. e 2 = ... . A . . . 0 . . . . .. .. .. .. 0 A3 0 ... 0 ... ... 0 140 8.2 Lösungsmengen, Kern und Bild Nach diesem Muster fährt man fort bis entweder eine Untermatrix vorliegt, die nur Null Einträge besitzt, oder bis keine Untermatrix mehr übrig bleibt, da die Anzahl der Zeilen/Spalten mit jedem Schritt abnehmen. Somit kann nun das gesamte Vorgehen angeben werden. Definition 8.16 (Eliminationsverfahren von Gauß) Sei das lineare Gleichungssystem Ax = b mit A ∈ Km×n , x ∈ Kn , b ∈ Km gegeben. Das Eliminationsverfahren von Gauß bestimmt die Lösungsmenge L(A, b) durch folgendes Vorgehen: (a) Notiere die Koeffizientenmatrix (A|b). e mit einer Matrix e b) (b) Überführe diese durch elementare Zeilenumformungen in (A| e in Zeilenstufenform und bestimme die Anzahl der nicht-Null Zeilen r. A (c) Bestimme anhand der ebr+1 , . . . , ebm , ob einen Lösung exisiert und berechne diese gegebenenfalls als Parametrisierung. Beispiel 8.17 (i) Das Gleichungssystem 1 1 5 (III) 1 1 5 2 2 12 0 0 2 besitzt keine Lösung, wie man sofort an der letzten Zeile nach der Umformung sehen kann, L(A, b) = ∅. (ii) Das Beispiel vom Anfang des 2 1 3 8 2 2 2 4 12 (III) 0 0 −4 4 6 14 (iii) Kapitels liest sich als folgendes Vorgehen 1 3 8 2 1 3 8 2 1 3 8 (III) 0 1 1 4 (II) 0 1 1 4 1 1 4 0 0 6 6 0 0 1 1 6 12 30 und rekursives Auflösen liefert die eindeutige Lösung 1 L(A, b) = { 3}. 1 0 1 4 2 4 2 5 8 8 6 1 2 2 3 1 1 2 2 3 (I) 2 5 8 8 0 1 4 2 1 2 2 3 (III) 0 1 4 2 0 0 0 0 1 1 (III) 6 0 4 0 1 1 (III) 4 0 0 0 2 2 3 1 1 4 2 4 1 4 2 4 2 2 3 1 1 4 2 4 0 0 0 0 141 8 Lineare Abbildungen Da für eb3 = 0 gilt, lässt sich dieses Gleichungssystem lösen. Setzt man x3 = λ1 und x4 = λ2 mit den freien Parametern λ1 , λ2 ∈ R, so erhält man zunächst durch Einsetzen in die zweite Gleichung 0x1 + 1x2 + 4λ1 + 2λ2 = 4 ⇒ x2 = 4 − 4λ1 − 2λ2 . Durch Einsetzen in die erste Gleichung erhält man schließlich 1x1 + 2 (4 − 4λ1 − 2λ2 ) + 2λ1 + 3λ2 = 1 ⇒ x1 = −7 + 6λ1 + λ2 . Die Lösungsmenge sieht dementsprechend folgendermaßen aus −7 + 6λ1 + λ2 4 − 4λ1 − 2λ2 ∈ R4 | λ1 , λ2 ∈ R}. L(A, b) = { λ1 λ2 Dies kann man auch so auffassen, dass die Lösungen −7 6 4 −4 L(A, b) = { 0 + λ1 1 + λ2 0 0 durch die Ebene 1 −2 | λ , λ ∈ R}. 0 1 2 1 beschrieben werden. Oder anders ausgedrückt: Jede Lösung wird dargestellt mit Hilfe der Vektoren −7 6 1 4 , v1 := −4 , v2 := −2 v0 := 0 1 0 0 0 1 durch eine Linearkombination x = v0 + λ1 v1 + λ2 v2 . Durch direktes Nachrechnen stellt man dabei fest, dass sogar schon alleine v0 eine Lösung ist. Zudem gilt Av1 = 0 und Av2 = 0. Bild, Kern und Rang einer Matrix Dass die Ergebnisse dieser drei Beispiele kein Zufall sind, sondern sehr repräsentative Beispiele von Lösungsarten wiedergeben, zeigt die folgende Betrachtung. Um die Begrifflichkeiten etwas zu präzisieren, verwendet man die folgenden Definitionen. Definition 8.18 (Bild und Kern einer Matrix) Für eine Matrix A ∈ Km×n bezeichnet 142 8.2 Lösungsmengen, Kern und Bild Im(A) das Bild von A, = {Ax | x ∈ Kn } ⊂ Km den Kern von A. Kern(A) = {x ∈ Kn | Ax = 0} ⊂ Kn Der Kern sind also alle Vektoren, die auf den Nullvektor abgebildet werden. Das Bild einer Matrix sind alle möglichen Ergebnisse der Matrixabbildung. Satz 8.19 (Bild und Kern sind Untervektorräume) Für eine Matrix A ∈ Km×n sind das Bild Im(A) ⊂ Km und Kern(A) ⊂ Kn Untervektorräume. Beweis. Wegen A · 0 = 0 ist immer 0 ∈ Kern(A) 6= ∅ und 0 ∈ Im(A) 6= ∅. Die anderen Unterraumaxiome sieht man durch elementares Nachrechnen. Mit Hilfe von Bild und Kern einer Matrix lässt sich die Lösungsmenge elegant beschreiben. Satz 8.20 (Möglichkeiten der Lösungen eines linearen Gleichungssystems) Sei zu b ∈ Km die Lösung x ∈ Kn des linearen Gleichungssystem Ax = b mit A ∈ Km×n gesucht. Dann gilt (i) (ii) (iii) Ax = b nicht lösbar Ax = b eindeutig lösbar Ax = b mehrdeutig lösbar ⇔ ⇔ ⇔ und genau einer dieser drei Fälle trifft zu. b∈ / Im(A), b ∈ Im(A) und Kern(A) = {0}, b ∈ Im(A) und Kern(A) = 6 {0}, Existiert eine Lösung, so lässt sich diese schreiben als Summe einer speziellen Lösung des inhomogenen Systems (Ax = b) und jeder allgemeinen Lösung des homogenen Systems (Ax = 0), d.h. ist x ∈ L(A, b) eine beliebige Lösung, dann gilt L(A, b) = x + Kern(A) := {x + x0 | x0 ∈ Kern(A)}. Beweis. (i) Dies ist die Definition von Im(A). (ii) + (iii) Da b ∈ Im(A) in beiden Fällen gilt, gibt es mindestens eine Lösung. Es bleibt die Äquivalenz zwischen Eindeutigkeit und Kern(A) = {0} zu zeigen. “Eindeutigkeit ⇒ Kern(A) = {0}”: Sei x ∈ Kn die eindeutige Lösung von Ax = b, und angenommen es existiert y ∈ Kern(A), y 6= 0, d.h. Ay = 0. Dann ist wegen A(x + y) = Ax + Ay = Ax = b auch x + y eine Lösung im Widerspruch zur Annahme. “Kern(A) = {0} ⇒ Eindeutigkeit”: Sei x ∈ Kn eine Lösung von Ax = b, und angenommen es existiert noch eine weitere Lösung y ∈ Kn , y 6= x mit Ay = b. Dann folgt für z := y − x zum einen z 6= 0 und zum anderen Ay = b ⇒ A(x + z) = b ⇒ Ax + Az = b ⇒ und damit z ∈ Kern(A), aber z 6= 0. Widerspruch zur Annahme. Az = 0 143 8 Lineare Abbildungen Vom Bild einer Matrix bekommt man eine bessere Vorstellung, wenn man sich das Bild eines Vektors in die Bilder der Einheitsvektoren zerlegt. Für einen beliebigen Vektor xT = (x1 , x2 , . . . , xn ) erhält man die Darstellung Ax = A (x1 e1 + x2 e2 + . . . + xn en ) = x1 Ae1 + x2 Ae2 + . . . + xn Aen = x1 aS,1 + x2 aS,2 + . . . + xn aS,n , wobei die i-te Spalte der Matrix A als Spaltenvektor aS,i aufgefasst wird. Die Anwendung der Matrix auf einen Einheitsbektor liefert also eine Spalte der Matrix gemäß aS,j = Aej (1 ≤ j ≤ n). Möchte man daher wissen, wie die Koordinatenachsen abgebildet werden, so muss man sich nur die Spalten der Matrix ansehen. Für einen beliebigen Vektor im Bild gilt zudem, dass er immer eine Linearkombination der Spaltenvektoren ist. Oder anders formuliert: das Bild einer Matrix wird von den Spaltenvektoren aufgespannt. Definition 8.21 (Zeilen- und Spaltenvektoren) Zu einer Matrix A ∈ Km×n nennt man die j-te Spalte a1j a2j aS,j := Aej = .. , 1 ≤ j ≤ n, . amj einen Spaltenvektor und die i-te Zeile aTZ,i := (ai1 , ai2 , . . . , ain ), 1 ≤ i ≤ m, einen Zeilenvektor und die Matrix lässt sich somit schreiben als T aZ,1 aT Z,2 A = (aS,1 aS,2 . . . aS,n ) = .. . . aTZ,m Die obige Diskussion hat gezeigt: Satz 8.22 (Bild einer Matrix wird von den Spaltenvektoren aufgespannt) Das Bild einer Matrix A ∈ Km×n wird von den Spaltenvektoren aufgespannt, d.h. Im(A) = span(aS,1 , aS,2 , . . . , aS,n ) = span(Ae1 , Ae2 , . . . , Aen ). Unter den Spaltenvektoren können natürlich gewisse Vektoren von den anderen linear abhängig sein. Daher ist die Dimension des Bildes maximal n und dies genau dann, wenn alle Spaltenvektoren linear unabhängig sind und somit eine Basis vom Bild bilden. 144 8.2 Lösungsmengen, Kern und Bild Definition 8.23 (Rang) Der Rang einer Matrix A ∈ Km×n ist die Dimension des Bildes, d.h. Rang(A) := dim Im(A). Der Spaltenrang ist die maximale Anzahl an linear unabhängigen Spalten, d.h. Spaltenrang(A) := dim span(aS,1 , aS,2 , . . . , aS,n ). Der Zeilenrang ist die maximale Anzahl an linear unabhängigen Zeilen, d.h. Zeilenrang(A) := dim span(aZ,1 , aZ,2 , . . . , aZ,m ). Etwas überraschend zeigt sich, dass diese drei Definitionen für jede Matrix diesselbe Zahl beschreiben. Satz 8.24 (Spaltenrang = Zeilenrang = Rang) Für jede Matrix A ∈ Km×n gilt Rang(A) = Spaltenrang(A) = Zeilenrang(A). Beweis. Per Definition ist der Rang die Dimension des von den Spalten von A aufgespannten Raum. Dieser hat natürlich genau die Dimension, wie es linear unabhängige Spalten gibt. Um zu zeigen, dass Zeilen- und Spaltenrang identisch sind, muss man mehr Überlegungen anstellen. Zunächst überlegt man sich, dass sich der Zeilen- und Spaltenrang nicht ändert, wenn man in der Matrix eine linear abhängige Zeile entfernt. Dies sieht man wie folgt: Sei angenommen, dass die i-te Zeile von den anderen linear unabhängig ist, d.h. man kann Koeffizienten µ1 , . . . , µm ∈ K finden, so dass gilt aZ,i = m X µk aZ,k k=1 k6=i und dies gilt näturlich auch für jede Komponente aij = m X k=1 k6=i µk akj , für alle 1 ≤ j ≤ m. Entfernt man diese Zeile aus dem Span der Zeilenvektoren, so ändert sich offensichtlich der Zeilenrang nicht. Für den Spaltenrang ist dies nicht so offensichtlich, gilt jedoch auch: Wenn die i-te Zeile aus der Matrix streicht, so sei die so verkleinerte Matrix mit A bezeichnet. Gemäß des Basisauswahlsatzes kann man zunächst aus den Spalten der Matrix A eine Basis des Bildes auswählen. Sei daher (ggf. nach Umnummerierung der Spalten) (a1 , . . . , ar ) eine Basis des Bildes. Nun kann man in jedem dieser Vektoren die 145 8 Lineare Abbildungen i-te Komponente streichen und erhält zunächst ein Erzeugenensystem des Bildes der Matrix A bezeichnet mit (a1 , . . . , ar ). Dies stellt aber auch eine Basis dar, denn für eine Linearkombination λ1 a1 + . . . + λr ar = 0 folgt für die gestrichenen Komponenten mit λ1 ai1 + . . . + λn air = r X j=1 λj aij = r X j=1 λj m X k=1 k6=i µk akj = m X k=1 k6=i µk r X λj akj = j=1 m X k=1 k6=i µk · 0 = 0 dass auch die Linearkombination der gestrichenen Zeile Null wäre. Somit kann diese wieder hinzugefügt werden und es ist somit auch λ1 a1 + . . . + λr ar = 0 und da dies eine Basis ist, folgt λ1 = . . . = λr = 0. Damit gilt: Streicht man eine linear abhängige Zeile, so ändert sich der Spaltenrang nicht. Analog kann man folgern: Streicht man eine linear abhängige Spalte, so ändert sich der Zeilenrang nicht. Nun kann man wie folgt vorgehen: So lange es noch linear abhängige Zeilen oder Spalten gibt, entfernt man diese aus der Matrix, ohne dass sich dabei der Zeilen- und Spaltenrang e die nur noch linear unabhängige Zeilen ändert. Man endet schließlich mit einer Matrix A, und Spalten hat. Diese Matrix ist nun aber zwingend quadratisch: gäbe es mehr Spalten als Zeilen, so hätte man Tupel mit so viel Einträgen, wie es Zeilen gibt, davon jedoch so viele wie es Spalten gibt. Aber für ein d-Tupel gibt es maximal d linear unabhängige Vektoren. Analog sieht man dass es nicht mehr Zeilen als Spalten geben kann. Somit sieht man: Zeilenrang = Zeilenanzahl = Spaltenanzahl = Spaltenrang. Man muss folglich bei einer Matrix nicht zwischen Zeilen- oder Spaltenrang unterscheiden und kann einfach vom Rang sprechen. Der Rang einer Matrix ist dabei eindeutig bestimmt und lässt sich durch das Verfahren von Gauß bestimmen, indem man nach einer Umformung auf Zeilenstufenform die nicht-null Zeilen zählt. Satz 8.25 (Bestimmung des Rangs einer Matrix) Es gilt: (i) Die elementaren Zeilenumformungen (I), (II) und (III) ändern den Zeilenrang nicht. (ii) In einer Matrix in Zeilenstufenform sind die nicht-null Zeilen linear unabhängig. Beweis. (i) Die Operation (I) vertauscht nur die Zeilen und somit bleibt der Span der Zeilenvektoren gleich. Für die Darstellungsmöglichkeit eines beliebigen Vektors v ändert sich durch Multiplikation der i-ten Zeile mit λ, d.h. e aZ,i := λaZ,i gemäß v = λ1 aZ,1 + . . . + λi aZ,i + . . . + λm aZ,m λi ⇔ v = λ1 aZ,1 + . . . + (λaZ,i ) + . . . + λm aZ,m λ auch nichts bei der Operation (II). Analog sieht man, dass die Addition des λ-fachen der k-ten Zeile zur i-ten, d.h. e aZ,i := aZ,i + λaZ,k , gemäß v = λ1 aZ,1 + . . . + λk aZ,k + . . . + λi aZ,i + . . . + λm aZ,m ⇔ v = λ1 aZ,1 + .. + (λk − λi λ)aZ,k + . . . + λi (aZ,i + λaZ,k ) + . . . + λm aZ,m 146 8.2 Lösungsmengen, Kern und Bild auch der Zeilenrang nicht durch Operation (III) ändert. (ii) Betrachtet man eine Linearkombination λ1 aZ,1 + λ2 aZ,2 + . . . + λr aZ,r , so kann man sukzessive ausrechnen: Da in Zeilenstufenform nur a1,j1 6= 0 in der ersten Spalte ist, so folgt λ1 a1,j1 = 0 und daher λ1 = 0. Für die zweite Zeile folgt dann mit a2,j2 6= 0 auch λ2 = 0. Somit sieht man λ1 = . . . = λr = 0. Damit kann man eine Matrix zunächst in Zeilenstufenform überführen. Die Anzahl der verbleibenden nicht-null Zeilen sind dann genau der Rang der Matrix. Somit lässt sich auch ein praktisches Verfahren angeben, ob ein Vektor b ∈ Im(A) enthalten ist oder nicht. Satz 8.26 (Lösbarkeitskriterium nach Fontené, Rouché und Frobenius) Für ein lineares Gleichungssystem A ∈ Km×n und b ∈ Kn gilt L(A, b) 6= ∅ ⇔ Rang(A) = Rang(A, b), d.h. die Lösungsmenge ist genau dann nicht leer, wenn die um den Vektor b erweiterte Matrix denselben Rang wie die Matrix A besitzt. Beweis. Ist das System lösbar, so gilt b ∈ Im(A) und somit fügt man durch den Vektor b nur einen von den Spalten der Matrix A linear abhängigen Vektor hinzu. Dies ändert den Spaltenrang nicht und es gilt somit Rang(A) = Rang(A, b). Umgekehrt gilt sicherlich immer Im(A) ⊂ Im(A, b). Gilt nun zudem noch Rang(A) = Rang(A, b), dann muss auch Im(A) = Im(A, b) und damit im Speziellen auch b ∈ Im(A) gelten. Damit ist das System lösbar. Berechnung einer Basis von Bild und Kern Durch die Charakterisierung der Lösbarkeit eines Gleichungssystems über das Bild und den Kern einer Matrix ist es sehr interessant diese beiden Räume besser zu kennen. Speziell lässt sich fragen, wie man eine Basis dieser Untervektorräume berechnen kann und welche Dimension diese besitzen. Ein praktisches Verfahren, um den Kern einer Matrix zu bestimmen, besteht darin, diese in eine sogenannte reduzierte Zeilenstufenform zu überführen. Diese ist sogar eindeutig bestimmt und aus ihr lässt sich der Kern als auch eine spezielle Lösung (es gibt natürlich beliebig viele spezielle Lösungen, sobald der Kern nicht nur die Null enthält) ablesen. Definition 8.27 (Reduzierte Zeilenstufenform) Eine Matrix A ∈ Km×n besitzt reduzierte Zeilenstufenform, falls sie in Zeilenstufenform ist und zusätzlich gilt: (i) Alle Pivots haben den Wert 1, d.h. a1,j1 = . . . = ar,jr = 1. (ii) Alle weiteren Einträge in den Pivotspalten sind Null, d.h. ai,ji = 0 für i 6= ji und alle Spalten j1 , . . . , jr . 147 8 Lineare Abbildungen Eine Matrix in reduzierter Zeilenstufenform hat somit die Gestalt 0 ... 0 1 ∗ ... ∗ 0 ∗ 0 ∗ 0 ∗ 0 ... ... 0 1 ∗ 0 ∗ 0 ∗ 0 ... 0 1 ∗ 0 ∗ .. . 0 A= 1 ∗ 0 0 ... .. . 0 ... ... ∗ ... ∗ ... ∗ .. . . ... ∗ ... 0 .. . ... 0 Satz 8.28 (Überführung in reduzierte Zeilenstufenform) Jede Matrix A ∈ Km×n lässt sich durch elementare Zeilenumformungen in reduzierte Zeilenstufenform überführen. Beweis. Jede Matrix lässt sich zunächst in Zeilenstufenform überführen. Danach multipliziert man jede Zeile mit dem Inversen des Pivots und erhält somit die Pivots als 1. Nun kann man alle überhalb der Pivots liegenden Einträge durch Addition geeigneter Vielfache der Zeilen zu Null machen, ohne dadurch die Zeilenstufenform zu verlieren. Ist eine lineares Gleichungssystem in die reduzierte Zeilenstufenform umgeformt, so lassen sich nun tatsächlich die Lösungen direkt ablesen. Satz 8.29 (Lösungen bei reduzierter Zeilenstufenform) Sei ein lineares Gleichungssystem in reduzierter Zeilenstufenform gegeben mit einem 1 ≤ r ≤ n und den Pivotspalten 1 ≤ j1 < j2 < . . . < jr ≤ n 0 ... 0 1 ∗ ... ∗ 0 ∗ 0 ∗ 0 ∗ 0 ... ... 0 1 ∗ 0 ∗ 0 ∗ 0 ... 0 1 ∗ 0 ∗ .. . 0 (A|b) = 1 ∗ 0 0 ... .. . 0 ... ... ∗ ... ∗ ... ∗ .. . b1 b2 b3 .. . . . . ∗ br . . . 0 br+1 .. .. . . ... 0 bm . Dann gilt: (i) Ist nur eines der br+1 , . . . , bm ungleich Null, so hat das System keine Lösung. 148 8.2 Lösungsmengen, Kern und Bild (ii) Der Vektor x mit xk := b i , 0, wenn k = ji eine Pivotspalte ist, sonst, also 0 ... 0 b1 ← j1 -te Zeile 0 .. . 0 b2 ← j2 -te Zeile 0 .. . ist eine spezielle Lösung des Gleichungssystems Ax = b. (iii) Für jede der Nichtpivotspalten j = 1, . . . , n, j ∈ / {j1 , . . . , jr } ist der aus den Einträgen der Spalte gebildete Vektor xj mit 0 ... 0 a ← j -te Zeile 1 1j 0 .. . 0 a2j ← j2 -te Zeile 0 .. . 0 −1 ← j-te Zeile 0 . .. (xj )k := aij , −1, 0, wenn k = ji eine Pivotspalte ist, wenn k = j, sonst, also 0 eine Lösung des Gleichungssystems Ax = 0. Zudem sind die so definierten Vektoren xj , j = 1, . . . , n, j ∈ / {j1 , . . . , jr } eine Basis von Kern(A). Beweis. (i) Gilt bereits schon für Zeilenstufenform. (ii) Dass x eine Lösung des Systems ist, sieht man durch direktes Nachrechnen. Betrachtet man nämlich das Ergebnis der Multiplikation dieses Vektors mit der i-ten Zeile, so 149 8 Lineare Abbildungen ergibt sich X aik xk = k=1,...,n X aik xk + k=1,...,n k∈{j1 ,...,jr } X X aik xk = s=1,...,r k=1,...,n k∈{j / 1 ,...,jr } ai,js · bs + X k=1,...,n k∈{j / 1 ,...,jr } aik · 0 = bi , da in der i-ten Zeile nur für die Pivotspalte ji der Eintrag ai,ji 6= 0 ist und an den anderen Pivotspalten eine Null steht. (iii) Dass die so definierten xj eine Lösung von Ax = 0 ist, sieht man ebenfalls durch direktes Nachrechnen. Betrachtet man nämlich das Ergebnis der Multiplikation dieses Vektors mit der i-ten Zeile, so ergibt sich X X X aik · (xj )k = aik · (xj )k + aij · (xj )j + aik · (xj )k k=1,...,n k=1,...,n k∈{j1 ,...,jr } X = s=1,...,r k=1,...,n k∈{j,j / 1 ,...,jr } ai,js · asj + aij · (−1) + X k=1,...,n k∈{j,j / 1 ,...,jr } aik · 0 = aij − aij = 0. Um zu zeigen, dass die so definierten xj linear unabhängig sind, sei X λk xk = 0 k=1,...,n k∈{j / 1 ,...,jr } eine Linearkombination des Nullvektors. Sei l ≤ n der höchste Index in der Summe mit l∈ / {j1 , . . . , jr }. Dann gilt für den l-ten Eintrag (xk )l = −1 für k = l, jedoch (xk )j = 0 für j < l. Damit folgt λl = 0. Analog fährt man mit dem nächst größten Index in der Summe fort und schließt analog. Nach und nach sind somit alle λk = 0. Um zu zeigen, dass es sich um ein Erzeugendensystem handelt, sei v ∈ Kern(A) ein beliebiger Vektor aus dem Kern, d.h. es gilt X aik vk = 0, für alle i = 1, . . . , m. k=1,...,n Nun gilt für alle i = 1, . . . , m unter Verwendung von δij := (1n )ij X X X X (aik − δik ) · vk + δik · vk = (aik − δik ) · vk + vi aik · vk = 0= k=1,...,n k=1,...,n und somit vi = X (−vk ) · (aik − δik ) + k=1,...,n k∈{j / 1 ,...,jr } = X (−vk )(xk )i + k=1,...,n k∈{j / 1 ,...,jr } X X k=1,...,n k∈{j1 ,...,jr } k=1,...,n k∈{j1 ,...,jr } (−vk ) · (aik − δik ) (−vk ) · 0 und jeder Vektor aus dem Kern lässt sich kombinieren. 150 k=1,...,n k=1,...,n 8.2 Lösungsmengen, Kern und Bild Beispiel 8.30 Die Matrix 1 2 2 3 1 1 2 0 1 −3 1 2 2 3 1 0 0 2 2 4 (II) 0 0 1 1 2 (III) 0 0 1 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 kann auf reduzierte Zeilenstufenform gebracht werden. Die Lösungen der Gleichung liest man am Einfachsten durch eine Hilfskonstruktion ab: Zunächst fügt man an den Stufenstellen so viele Nullzeilen ein, bis alle Pivots auf der Diagonalen stehen. Danach werden nach dem letzten Pivot Nullzeilen hinzugefügt oder entfernt, bis eine quadratische Matrix verbleibt. Schließlich ersetzt man gedanklich noch alle Nullen auf der Diagonale durch eine −1 in den Nullzeilen. Man findet somit als Hilfsdarstellung 1 2 0 1 −3 1 2 0 1 −3 1 2 0 1 −3 0 0 0 0 0 0 −1 0 0 0 , 0 0 1 1 2 0 0 1 1 2 0 0 1 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 −1 0 und liest die Lösung wie folgt ab: In den Nichtpivotspalten (hier: Spalte 2 und 4) stehen die gesuchten homogenen Lösungen, die eine Basis vom Kern bilden, und in der letzten Spalte (hier: Spalte 5) steht eine spezielle Lösung. Somit lässt sich jede Lösung schreiben als −3 2 1 0 −1 0 x= 2 + λ1 0 + λ2 1 . 0 0 −1 Vom Bild ist bereits bekannt, dass es per Definition als Dimension den Rang der Matrix haben muss und dieser Rang konnte mittels Gauß-Verfahren und elementaren Zeilenumformungen gewonnen werden, bei denen sich der Rang nicht änderte. Jedoch ändert sich natürlich das Bild der Matrix (wenn auch nicht dessen Dimension), sobald man elementare Zeilenumformungen durchführt und daher kann eine Basis vom Bild nicht nach Umformungen auf Zeilenstufenformen abgelesen werden. Das Bild der Matrix wird jedoch von den Spalten aufgespannt und daher kann man grundsätzlich aus den Spalten der Matrix eine Basis auswählen. Dies ist in der Praxis jedoch unhandlich. Viel besser ist es, wenn man sich aus diesen Vektoren eine Basis linear kombiniert. Dazu kann man Spalten tauschen, Spalten mit Skalaren multiplizieren oder das Vielfache einer Spalten zu einer anderen hinzufügen - oder anders gesagt: man führt das Gauß-Verfahren auf den Spalten durch. Dies kann man direkt so auffassen, dass man das Verfahren mit Zeilenumformungen auf der transponierten Matrix durchführt und man erhält somit die analogen Definitionen Spaltenstufenform und elementare Spaltenumformungen. 1 0 0 1 0 0 1 0 0 1 −1 2 1 1 −2 1 1 0 0 1 0 1 0 0 151 8 Lineare Abbildungen An den letzen beiden Darstellungen liest man ab: Eine Basis des Bildes ist gegeben durch 0 1 0 1 ( , ) oder auch ( , ). 1 1 0 1 Aus der reduzierten Zeilenstufenform konnte eine Basis des Kerns direkt als die Anzahl der Nichtpivotspalten bestimmt werden. Hat eine Matrix die Größe m × n und den Rang r, dann sind dies genau n Spalten minus die r Pivotspalten und damit ist die Dimension des Kerns k := n − r. Satz 8.31 (Dimensionsformel für Rang und Kern von Matrizen) Sei A ∈ Km×n und r := Rang(A) sowie k := dim Kern(A). Dann gilt n = k + r, d.h. die Dimension des Bildes plus die Dimension des Kerns ergibt die Dimension des Urbildraums. Diesen Zusammenhang wird sich später ganz allgemein wiederfinden. Für die Lösbarkeit von Matrizengleichungen liefert die Dimensionsformel eine sehr griffige Formulierung der Lösbarkeit. Satz 8.32 (Lösungen von Gleichungssystemen) Seien die n Komponenten der Lösung x ∈ Kn des linearen Gleichungssystem Ax = b mit A ∈ Km×n und b ∈ Km gesucht und der Rang der Matrix durch r := Rang(A) gegeben. Dann gilt für die Größe des Lösungsraums: (i) Kern(A) = L(A, 0) ⊂ Kn ist ein Untervektorraum der Dimension n − r. (ii) Existiert eine Lösung, dann ist der Lösungsraum L(A, b) ⊂ Rn ein affiner Unterraum der Dimension n − r und mit jeder speziellen Lösung x ∈ L(A, b) gilt L(A, b) = x + L(A, 0). Als Kriterien für die Lösbarkeit findet man: (iii) Zu b ∈ Rm ist Ax = b lösbar (iv) Zu b ∈ Rm ist Ax = b eindeutig lösbar (v) Für jedes b ∈ Rm ist Ax = b lösbar ⇔ ⇔ ⇔ Rang(A) = Rang(A, b), Rang(A) = Rang(A, b) = n, Rang(A) = m. Beweis. (i) Die Größe von dim Kern(A) folgt direkt aus der Dimensionsformel mit r = dim Im(A). (ii)+(iii) sind bereits bewiesene Aussagen. (iv) erweitert (iii) um die Eindeutigkeit. Dies folgt, da mit dim Im(A) = n auch dim Kern(A) = 0 gilt und somit Kern(A) = {0}. (v) Rang(A) = m bedeutet, dass die Abbildung surjektiv ist. Damit gibt es mindestens eine Lösung. Für den wichtigen Spezialfall m = n, d.h. Abbildungen des Rn auf sich selbst, erhält man zudem folgendes. 152 8.3 Elementarmatrizen und inverse Matrizen Satz 8.33 (Lösbarkeit bei quadratischen Matrizen) Für eine quadratische Matrix A ∈ Kn×n und einen beliebigen Vektor b ∈ Kn gilt: Ax = b ist eindeutig lösbar ⇔ Rang(A) = n. Beweis. Da Rang(A) = n gilt, ist die Abbildung surjektiv und damit sogar bijektiv. Durch die inverse Abbildung A−1 erhält man stets die eindeutige Lösung x = A−1 b. 8.3 Elementarmatrizen und inverse Matrizen Der Ablauf das Gauß-Verfahrens lässt sich formal auch als eine Multiplikation durch e durch einen elementare geeignete Matrizen beschreiben, d.h. wird eine Matrix A → A e = E · A mit einer Zeilenumformung überführt, dann lässt sich dies auch schreiben als A geeigneten Matrix E, die diese Transformation bewirkt. Die dazu geeigneten Matrizen werden entsprechend als Elementarmatrizen bezeichnet. Definition 8.34 (Elementarmatrizen) Sei m ∈ N und zwei Zeilenindizes i, j mit 1 ≤ i, j ≤ m beliebig gewählt. Als Elementarmatrizen bezeichnet man eine der folgenden drei quadratischen Matrizen aus Km×m , die durch Anwendung von elementaren Zeilenumformungen aus 1m hervorgehen: (I) EIij durch Vertauchung der i-ten Zeile mit der j-ten Zeile von 1m 1 .. . ... EIij := ... 1 0 ... 1 .. 1 ... 0 ... . 1 1 ... 1 ... 1 ← i-te Zeile ← j-te Zeile 153 8 Lineare Abbildungen (II) EII i (λ) durch Multiplikation der i-ten Zeile von 1m mit einer Zahl λ 6= 0 1 ... ... (λ) = EII i 1 λ ... 1 ... ... ... 1 1 1 .. . 1 ← i-te Zeile (III) EIII ij (λ) durch Addition des λ-fachen der j-ten Zeile zur i-ten Zeile von 1m 1 ... ... III Eij (λ) = ... 1 1 ... 1 λ ... 1 ... ... 1 ... ... 1 .. . 1 ← i-te Zeile ← j-te Zeile In analoger Weise lassen sich dies Matrizen auch als elementare Spaltenoperationen auffassen. Diese Elementarmatrizen sind nun sehr hilfreich zur Darstellung von Matrixumformungen. Satz 8.35 (Elementarmatrizen bewirken elementare Zeilen- und Spaltenoperationen) Aus der seien Matrix A seien die folgenden Matrizen durch elementare Zeilenoperationen hervorgegangen: (I) AI durch Vertauchung der i-ten Zeile mit der j-ten Zeile, (II) AII durch Multiplikation der i-ten Zeile mit einer Zahl λ 6= 0, (III) AIII durch Addition des λ-fachen der j-ten Zeile zur i-ten Zeile, 154 8.3 Elementarmatrizen und inverse Matrizen dann lässt sich dies Darstellen als Multiplikation von links mit einer Elementarmatrix (I) AI = EIij · A, (II) AII = EII i (λ) · A, (III) AIII = EIII ij (λ) · A. Analog seien die folgenden Matrizen durch elementare Spaltenoperationen aus A hervorgegangen: (I) AI durch Vertauchung der i-ten Spalte mit der j-ten Spalte, (II) AII durch Multiplikation der i-ten Spalte mit einer Zahl λ 6= 0, (III) AIII durch Addition des λ-fachen der i-ten Spalte zur j-ten Spalte, dann lässt sich dies Darstellen als Multiplikation von rechts mit einer Elementarmatrix (I) AI = A · EIij , (II) AII = A · EII i (λ), (III) AIII = A · EIII ij (λ). Bei der Multiplikation mit einer Elementarmatrix ändert sich der Rang der Matrix nicht. Beweis. Elementares Nachrechnen. Damit lässt sich das Verfahren von Gauß dadurch kennzeichnen, dass man eine Multiplikation mit Elementarmatrizen durchführt. Satz 8.36 (Gauß-Elimination durch Elementarmatrizen) Zu jeder Matrix A ∈ Km×n gibt es Elementarmatrizen E1 , . . . , Es ∈ Km×m , so dass die Matrix eine Zeilenstufenform besitzt. e = Es · . . . · E2 · E1 · A A Analog gibt es Elementarmatrizen E01 , . . . , E0t ∈ Km×m , so dass die Matrix eine Spaltenstufenform besitzt. e = A · E0 · E0 · . . . · E0 A 1 2 t Beweis. Dies ist die äquivalente Formulierung des bereits bewiesenen mit Elementarmatrizen. Damit lässt sich auch noch ein anderer Blick auf den Rang der Matrix werfen. Es gilt nämlich der folgende Satz. Satz 8.37 (Transformation auf Diagonalgestalt) Zu jeder Matrix A ∈ Km×n mit r := Rang(A) gibt es zwei Matrizen E ∈ Km×m und E0 ∈ Kn×n , so dass man die Matrix auf die folgende Gestalt umformen kann: 1r 0 0 E·A·E = 0 0 und diese Matrizen sind Produkte von Elementarmatrizen E = Es · . . . · E2 · E1 , E0 = E01 · E02 · . . . · E0t . 155 8 Lineare Abbildungen Beweis. Nach dem Verfahren von Gauß lässt sich durch Multiplikation mit Elementarmatrizen von links - d.h. durch elementare Zeilenumformungen - die Matrix zunächst auf reduzierte Zeilenstufenform bringen: 0 ... 0 1 ∗ ... ∗ 0 ∗ 0 ∗ 0 ∗ ... ∗ 0 ... ... 0 1 ... 0 ∗ 0 ∗ ... ∗ 0 0 0 1 ∗ 0 ∗ ... ∗ .. . . . . e = A . 1 ∗ . . . ∗ 0 0 Die bis hierher durchgeführten Zeilenumformungen bilden die Matrix E = Es · . . . · E1 . Nun beginnt man mit den Spaltenumformungen und bringt durch Vertauschen der Spalten die Pivots nach links auf die Diagonale: 1 0 ... 0 ∗ ... ... ∗ ... ∗ 1 0 ... 0 ∗ ... ... ∗ ... ∗ 1 0 0 ∗ . . . . . . ∗ . . . ∗ .. .. .. .. . . ... . . e = A . 1 ∗ . . . . . . ∗ . . . ∗ 0 0 Nun kann man durch Addition eines Vielfachen der Pivot-Spalten zu den rechts stehenden Spalten den Rest der Matrix zu Null machen: 1 0 ... 0 ... ... 0 ... 0 1 0 ... 0 ... ... 0 ... 0 1 0 . . . 0 . . . . . . 0 . . . 0 .. .. .. .. . . ... . . e = A . 1 0 . . . . . . 0 . . . 0 0 0 Die durchgeführten Spaltenumformungen bilden die Matrix E0 = E01 · . . . · E0t . Dieses Vorgehen zeigt wieder, dass Spaltenrang gleich Zeilenrang ist, denn: Der Zeilenund Spaltenrang ändert sich nicht bei den elementare Zeilen- und Spaltenumformungen. e = E·A·E0 denselben Daher haben die ursprüngliche Matrix A und die transformierte A Zeilen- und Spaltenrang. Es bildet sich jedoch stets eine quadratische Teilmatrix, an der man den Rang direkt ablesen kann. 156 8.3 Elementarmatrizen und inverse Matrizen Möchte man die Matrizen E und E0 explizit berechnen, so bietet sich das folgenden Vorgehen an: Man schreibt sich drei Matrizen 1m , A, 1n nebeneinander. Nun formt man zunächst die Matrix A durch Zeilenumformungen in reduzierte Zeilenstufenform um und nimmt dabei dieselben Umformungen an der Matrix 1m vor. Dann formt man die Matrix A durch Spaltenumformungen weiter in die gesuchte Gestalt um und nimmt dabei gleichzeitig dieselben Spaltenumformungen an der Matrix 1n vor. Man hat also das Schema 1m A E1 · 1m .. . E1 ·A .. . Es · . . . · E1 · 1m .. . .. . Es · . . . · E1 · 1m Es · . . . · E1 ·A 1n .. . .. . 1n Es · . . . · E1 ·A·E01 .. . 1n · E01 .. . Es · . . . · E1 ·A·E01 · . . . · E0t 1n · E01 · . . . · E0t und kann somit die Matrizen E und E0 direkt ablesen. Beispiel 8.38 Durch die simultanen Umformungen 12 x EIII 21 (−2) · x 1 EII 2 (2) · x EIII 12 (−3) · A 1 0 0 1 1 −2 0 1 1 −1 0 1 2 4 − 32 1 −1 2 =: E 3 8 1 6 1 0 3 2 1 4 1 0 3 1 1 2 1 0 0 −5 1 2 1 0 1 0 0 1 0 1 .. . 1 0 0 0 1 0 2 0 0 1 0 0 0 0 1 0 0 1 0 0 1 0 =: E0 0 0 1 5 0 1 5 −2 1 · EIII 13 (5) · EIII 23 (−2) y .. . 1 2 y 13 findet man III II 1 E = EIII 12 (−3) · E2 ( 2 ) · E21 (−2) · 12 , III E0 = 13 · EIII 13 (5) · E23 (−2) 157 8 Lineare Abbildungen und es gilt 0 E·A·E = 4 −1 − 23 1 2 1 · 2 3 8 1 6 1 0 · 0 0 5 1 1 −2 = 0 0 1 0 1 0 0 Besonders interessant wird dieses Vorgehen für quadratische Matrizen, die zusätzlich vollen Rang besitzen. Für diese Matrizen existiert eine inverse Abbildung, wie aus der Theorie über die Lösbarkeit vom Gleichungssystem bereits bekannt ist. Dies motiviert die folgende Definition. Definition 8.39 (Invertierbare Matrix) Eine Matrix A ∈ Kn×n heißt invertierbar, falls es eine Matrix A−1 ∈ Kn×n gibt, so dass gilt A · A−1 = A−1 · A = 1n . Sofort findet man damit die folgenden Äquivalenzen. Satz 8.40 (Äquivalenzen zur Invertierbarkeit) Für eine quadratische Matrix A ∈ Kn×n sind äquivalent: (i) A ist invertierbar, (ii) Rang(A) = n, (iii) die durch A beschriebene Abbildung Kn → Kn ist bijektiv. Die Menge der invertierbaren Matrizen bildet eine Gruppe mit 1n als neutralem Element. Im Speziellen gilt daher: Satz 8.41 (Eindeutigkeit der Inverse) Die inverse Matrix A−1 (sofern sie existiert) ist eindeutig bestimmt. Beweis. Seien B, C zwei Matrizen mit A · B = B · A = 1n bzw. A · C = C · A = 1n . Dann folgt B = B · 1n = B · (A · C) = (B · A) · C = 1n · C = C. Als Rechenregeln für inverse Matrizen findet man zudem: Satz 8.42 (Eigenschaften der Inversen Matrix) Sei A, B ∈ Kn×n invertierbar. Dann gilt (i) (A−1 )−1 = A, (ii) (A · B)−1 = B−1 · A−1 , (iii) (AT )−1 = (A−1 )T := A−T . Beweis. Direktes Nachrechnen. 158 8.3 Elementarmatrizen und inverse Matrizen Es stellt sich nun die Frage, wie man zu einer gegeben Matrix die dazu die inverse Matrix praktisch berechnen kann. Dazu stellt man zunächst fest, dass alle Elementarmatrizen invertierbar sind. Satz 8.43 (Inverse der Elementarmatrizen) Alle Elementarmatrizen sind invertierbar und es gilt −1 −1 1 EIij = EIij , EII (λ) = EII i i ( λ ), Beweis. Direktes Nachrechnen. −1 EIII (λ) = EIII ij ij (−λ). Eine Zeilenvertauschung wird also durch dieselbe Zeilenvertauschung rückgängig gemacht, die Multiplikation einer Zeile mit λ wird durch Multiplikation derselben Zeile mit λ1 invertiert und die Addition des λ-fachen einer Zeile zu einer anderen wird umgekehrt durch die Addition des Negativen. Von großer Bedeutung ist nun, dass sich jede inverse Matrix als ein Produkt von Elementarmatrizen schreiben lässt. Satz 8.44 (Darstellung inverser Matrizen) Jede invertierbare Matrix A ∈ Kn×n und dessen Inverse A−1 ∈ Kn×n lässt sich als ein Produkt von Elementarmatrizen schreiben. Beweis. Man überführe die Matrix mittels Elementarmatrizen E1 , . . . , Es auf reduzierte Zeilenstufenform, die die Form 1 0 0 ... 0 0 1 0 . . . 0 Es · . . . · E1 · A = 0 0 1 . . . 0 .. .. .. . . 0 . 0 ... 0 1 haben muss, denn für invertierbare Matrizen gilt stets Rang(A) = n und es bleiben nur Pivotzeilen- und Spalten. Aus dieser Darstellung Es · . . . · E1 · A = 1n findet man direkt A−1 = Es · . . . · E1 , −1 A = E−1 1 · . . . · Es . Formt man also eine invertierbare Matrix mittels elementaren Zeilenumformungen zur Einheitsmatrix um, so kann man gleichzeitig dieselben Umformungen an einer Einheitsmatrix vornehmen, denn so kann man mittels 1n E 1 · 1n .. . E s · . . . · E 1 · 1n A E1 · A .. . E s · . . . · E 1 · A = 1n die inverse Matrix A−1 = Es · . . . · E1 · 1n direkt ablesen. 159 8 Lineare Abbildungen Beispiel 8.45 Durch die simultanen Umformungen 12 x EIII 21 (−3) · x 1 EII 2 (− 2 ) · x EIII 12 (−2) · A 1 0 0 1 1 −3 1 0 1 3 2 0 − 12 3 2 1 − 12 −2 = A−1 1 3 2 4 1 2 0 −2 1 0 2 1 1 0 0 1 = 12 findet man als inverse Matrix II III 1 A−1 = EIII 12 (−2) · E2 (− 2 ) · E21 (−3), sowie für die Darstellung von A selbst −1 III II 1 ) · E (−3) A = EIII (−2) · E (− 21 12 2 2 −1 −1 III II 1 −1 = E21 (−3) · E2 (− 2 ) · EIII 12 (−2) II III = EIII 21 (3) · E2 (−2) · E12 (2) 1 0 1 0 1 = · · 3 1 0 −2 0 2 1 = = 1 0 1 3 2 4 und es gilt A 160 −1 ·A= −2 3 2 1 − 21 1 · 3 2 4 0 1 . 8.4 Lineare Abbildungen 8.4 Lineare Abbildungen Nach diesen praktischen Betrachtungen über die Lösung von Gleichungssystemen, lässt sich das Vorgehen vom abstrakteren Standpunkt betrachten. Die Eigenschaften der Matrix-Vektor-Multiplikation motivieren das Studium der folgenden Begrifflichkeit. Definition 8.46 (Lineare Abbildung) Seien V und W zwei K-Vektorräume. Eine Abbildung f : V → W heißt lineare Abbildung, wenn gilt: (L1) die Abbildung ist additiv bzgl. der Vektoraddition, d.h. für alle v, w ∈ V, f (v + w) = f (v) + f (w) (L2) die Abbildung ist homogen bzgl. der Skalarmultiplikation, d.h. f (λ · v) = λ · f (v) für alle v ∈ V, λ ∈ K, oder zusammengefasst für alle v, w ∈ V, λ, µ ∈ K. f (λ · v + µ · w) = λ · f (v) + µ · f (w) Statt linearer Abbildung ist auch der präzisere Begriff K-lineare Abbildung gebräuchlich. Zudem hat es sich eingebürgert die folgenden griechischen Begriffe zu verwenden, falls die lineare Abbildung zusätzliche Eigenschaften erfüllt. Dabei greift die Wortwahl stets auf das griechische Wort morphé = ˆ “Form, Gestalt” zurück. Definition 8.47 (Vektorraum-Morphismen) Eine Abbildung f : V → W zwischen zwei K-Vektorräumen V und W heißt Homomorphismus, falls f linear ist. (griech.: homos = ˆ gleich) Man nennt einen Homomorphismus f : V → W zudem Monomorphismus, falls f injektiv ist. (griech.: monos = ˆ ein, allein) Epimorphismus, falls f surjektiv ist. (griech.: epi = ˆ auf) Isomorphismus, falls f bijektiv ist. (griech.: ísos = ˆ gleich) Endomorphismus, falls V = W ist. (griech.: endo = ˆ innen) Automorphismus, falls f bijektiv ist und V = W gilt. (griech.: autos = ˆ selbst) Beispiele 8.48 (i) Für jede Matrix A ∈ Km×n ist die Abbildung f : Kn → Km , x 7→ A · x, eine lineare Abbildung. Speziell gilt für den Fall n = m = 1, dass die Abbildung f : R1 → R1 , x 7→ a · x (oder kurz: f (x) = a · x) eine lineare Abbildung ist. 161 8 Lineare Abbildungen f (e2 ) = f (x) α x2 − sin(α) cos(α) x e2 f (e1 ) = α x1 0 cos(α) 0 (b) cos(α) sin(α) sin(α) α (a) e1 Abbildung 8.1: Drehung (a) eines Vektors im R2 (b) der Einheitsvektoren. x2 e2 x f (e1 ) = sin(2α) 0 x1 cos(2α) e1 − cos(2α) f (x) (a) cos(2α) sin(2α) α α 0 (b) sin(2α) f (e2 ) = sin(2α) − cos(2α) Abbildung 8.2: Spiegelung (a) eines Vektors im R2 (b) der Einheitsvektoren. (ii) Die Abbildung f : R2 → R2 , die jeden Vektor x ∈ R2 durch eine Drehung mit dem Winkel α um den Ursprung abbildet, ist gegeben durch x1 cos(α) − sin(α) x1 cos(α) · x1 − sin(α) · x2 7→ = x2 sin(α) cos(α) x2 sin(α) · x1 + cos(α) · x2 wie man anhand der Bilder der Einheitsvektoren sieht. (iii) Die Abbildung f : R2 → R2 , die jeden Vektor x ∈ R2 durch Spieglung an einer Ursprungsgerade mit Winkel α zwischen Abszisse und Gerade abbildet, ist gegeben durch x1 cos(2α) sin(2α) x1 cos(2α) · x1 + sin(2α) · x2 7→ = x2 sin(2α) − cos(2α) x2 sin(2α) · x1 − cos(2α) · x2 wie man anhand der Bilder der Einheitsvektoren sieht. (iv) Die Abbildung P : R3 → R2 , 162 x1 x2 → x1 , x2 x3 8.4 Lineare Abbildungen die jeden Punkt des drei-dimensionalen Raums auf die Ebene projiziert, ist eine lineare Abbildung, denn es gilt für x, y ∈ R3 und λ, µ ∈ R λ · x 1 + µ · y1 x1 y P (λ · x + µ · y) = =λ· + µ · 1 = λ · P (x) + µ · P (y). λ · x 2 + µ · y2 x2 y2 (v) Sei C ∞ (R; R) der Vektorraum aller beliebig oft stetig differenzierbaren Funktionen R 7→ R. Die Summe und das Produkt von differenzierbaren Funktionen ist ebenfalls differenzierbar, die konstante Funktion p(x) = λ ∈ R ist differenzierbar und für beliebige Funktionen g, h ∈ C ∞ (R; R) gilt (f + g)0 (x) = f 0 (x) + g 0 (x), (λ · f )0 (x) = λ · f 0 (x). Daher ist die Differentiation aufgefasst als Abbildung D : C ∞ (R; R) → C ∞ (R; R), f 7→ f 0 eine linear Abbildung. (vi) Sei C([a, b]; R) der Raum aller stetigen Funktionen auf einem Interval [a, b] ⊂ R. Aus den Eigenschaften des Integrals (Additivität, Linearität) für f, g ∈ C([a, b]; R) Z b f (x) + g(x) dx = a Z b f (x) dx + a Z b g(x) dx, Z b a a λ · f (x) dx = λ · Z b f (x) dx a sieht man, dass die Abbildung I : C([a, b]; R) → R, f 7→ Z b f (x) dx a eine lineare Abbildung ist. Als direkte Folgerung aus der Definition der linearen Abbildungen lassen sich folgende Eigenschaften ableiten: Satz 8.49 (Eigenschaften linearer Abbildungen) Seien V, W Vektorräume, f : V → W eine lineare Abbildung, so gilt: (i) f (0) = 0 (ii) f (v − w) = f (v) − f (w). (iii) f (λ1 v1 + ... + λn vn ) = λ1 f (v1 ) + ... + λn f (vn ). (iv) Ist eine Familie (vi )i∈I in V linear abhängig, so ist auch (f (vi ))i∈I linear abhängig. (v) Ist U ⊂ V ein Untervektorraum, so ist f (U ) ⊂ W Untervektorraum. (vi) Ist f ein Isomorphismus, so ist auch f −1 : W → V ein Isomorphismus. 163 8 Lineare Abbildungen Beweis. (i) f (0) = f (0 · 0) = 0 · f (0) = 0. (ii) f (v − w) = f (v + (−1) · w) = f (v) + (−1)f (w) = f (v) − f (w). (iii) Mehrfache Anwendung der Eigenschaft der Linearität. (iv) Gibt es eine endliche, linear abhängige Teilfamilie (vi1 , . . . , vin ), so gibt λ1 , ...λn ∈ K mit mindestens einem λi 6= 0, so dass λ1 vi1 + ... + λn vin = 0. Nach (ii) gilt dann aber auch λ1 f (vi1 ) + ... + λn f (vin ) = 0. (v) Untervektorraumeigenschaften des Raums f (U ) nachprüfen. Dazu betrachte man Vektoren u, u0 ∈ f (U ) und nutze die Eigenschaften der linearen Abbildung f . (vi) Umkehrungen von bijektiven Abbildungen sind wieder bijektiv. Es verbleibt die Linearität zu zeigen. Es sei v, v0 ∈ V , w := f (v), w0 := f (v0 ). Mit f (λv + µv0 ) = λw + µw0 und v = f −1 (w) sowie v0 = f −1 (w0 ) folgt nach Anwendung von f −1 schließlich λf −1 (w) + µf −1 (w0 ) = f −1 (λw + µw0 ). Bei der Matrix-Matrix-Multiplikation war das Resultat wieder als eine Matrix definiert worden. Ganz allgemein gilt, dass die Hintereinanderausführung mehrerer linearer Abbildungen wiederum eine lineare Abbildung ist. Satz 8.50 (Die Verkettung linearer Abbildungen ist linear) Seien f : V → W und g : W → U lineare Abbildungen auf Vektorräumen V, W und U , so ist die Verkettung f ◦ g : V → U, v 7→ f (g(v)), eine lineare Abbildung zwischen den Vektorräumen V und U . Beweis. Es gilt: (f ◦ g)(λv + µw) = f (g(λv + µw)) = f (λg(v) + µg(w)) = λf (g(v)) + µf (g(w)) = λ(f ◦ g)(v) + µ(f ◦ g)(w) 164 8.4 Lineare Abbildungen Zunächst stellt sich die Frage, ob und wie viele lineare Abbildungen existieren. Satz 8.51 (Existenz und Eindeutigkeit linearer Abbildungen) Seien V, W Vektorräume und (v1 , . . . , vn ) eine Basis von V . Dann gibt es zu jeder Familie an Vektoren (w1 , . . . , wn ) aus W genau eine lineare Abbildung f : V → W mit der Eigenschaft f (vi ) = wi für alle 1 ≤ i ≤ n. Beweis. Die Existenz zeigt sich durch explizite Konstruktion. Jedes v ∈ V lässt sich eindeutig durch geeignete Koeffizienten als Linearkombination v = λ1 v1 + . . . + λn vn darstellen. Das Bild dieses Vektors sei nun definiert als f (v) := λ1 w1 + . . . + λn wn . Diese Abbildung f : V → W ist linear und erfüllt f (vi ) = wi für alle 1 ≤ i ≤ n. Zum Beweis der Eindeutig sei angenommen, dass zwei Abbildungen f und f 0 die Anforderungen erfüllen. Dann folgt aber für beliebiges v = λ1 v1 + . . . + λn vn auch f (v) = f (λ1 v1 + . . . + λn vn ) = λ1 f (v1 ) + . . . + λn f (vn ) = λ1 w1 + . . . + λn wn = λ1 f 0 (v1 ) + . . . + λn f 0 (vn ) = f 0 (λ1 v1 + . . . + λn vn ) = f 0 (v). Daran sieht man: Eine lineare Abbildung zwischen zwei Vektorräumen ist bereits durch die Bilder von Basisvektoren eindeutig festgelegt. Man besitzt also nicht die Freiheit die Abbildung für jeden Vektor des Vektorraums einzeln festzulegen. Vielmehr legt die Vorgabe von f (vi ) = wi für ein i = 1, . . . , n schon die Werte auf der ganzen “Ursprungsgeraden” λvi fest, denn auf Grund der Linearität muss gelten f (λvi ) = λf (vi ) = λwi . Setzt man nun einen weiteren Wert f (vj ) = wj für j 6= i fest, so ist der gesamte Untervektorraum span(vi , vj ) festgelegt, denn es gilt f (λi vi + λj vj ) = λi f (vi ) + λj f (vj ) = λi wi + λj wj . Aus den Beispielen ist bekannt, dass Matrizen A ∈ Km×n lineare Abbildungen zwischen den Vektorräumen Kn und Km beschreiben, A : Kn → Km , v 7→ Av. Der Satz über die Existenz und Eindeutigkeit von linearen Abbildungen zeigt jedoch, dass auch die Umkehrung gilt. Satz 8.52 (Äquivalenz Matrizen und lineare Abbildungen) Zu jeder linearen Abbildung f : Kn → Km gibt es genau eine Matrix A ∈ Km×n mit der Eigenschaft f (v) = Av für alle v ∈ Kn . Beweis. Man wähle als Spalten der Matrix (f (e1 ), . . . , f (en )) die Bilder der Einheitsvektoren. Dann gilt Aei = f (ei ) und diese Abbildung ist eindeutig. Für das Bild eines allgemeinen Vektors v = v1 e1 + . . . + vn en findet man zudem f (v) = f (v1 e1 + . . . + vn en ) = v1 f (e1 ) + . . . + vn (en ) = v1 Ae1 + . . . + vn Aen = A(v1 e1 + . . . + vn en ) = Av. 165 8 Lineare Abbildungen Somit lassen sich die lineare Abbildungen zwischen den Vektorräumen Kn und Km und die Matrizen A ∈ Km×n direkt miteinander identifizieren. Analog zu den Betrachtungen über Matrizen sind beim Umgang mit linearen Abbildungen die Begriffe Bild und Kern besonders hilfreich. Definition 8.53 (Bild und Kern einer linearen Abbildung) Für eine lineare Abbildung f : V → W bezeichnet Im(f ) := f (V ) = {f (v) | v ∈ V } ⊂ W Kern(f ) := f −1 (0) = {v ∈ V | f (v) = 0} ⊂ V das Bild von f, den Kern von f. und Rang(f ) := dim Im(f ) die Dimension des Bildes von f . Kern und Bild einer Abbildung besitzen charakteristische Eigenschaften. Satz 8.54 Für eine lineare Abbildungen f : V → W zwischen zwei Vektorräumen V, W gilt (i) Im(f ) ⊂ W und Kern(f ) ⊂ V sind Untervektorräume, (ii) f surjektiv ⇔ Im(f ) = W , (iii) f injektiv ⇔ Kern(f ) = {0}. Beweis. Die Unterrraumeigenschaften prüft man direkt nach und (ii) ist die Definition von Surjektivität. Die Aussage (iii) folgt direkt aus der Linearität von f , denn es gilt f (v) = f (w) ⇔ f (v − w) = 0. Ist der Urbildraum zu einer linearen Abbildung endlichdimensional, dann besitzen Kern und Bild dieser Abbildung eine äußerst bemerkenswerte Eigenschaft: Es lässt sich daraus eine Basis des Urbildraums ermitteln. Bereits bei der Untersuchung für Matrizen war aufgefallen, dass für eine Matrix vom Rang r der Kern die Dimension k := n − r besitzt, d.h. es gilt n = k + r. Dies gilt ganz allgemein für lineare Abbildungen. Satz 8.55 (Dimensionsformel) Seien V, W Vektorräume, V endlichdimensional (n := dim V < ∞) und f : V → W eine lineare Abbildung. Seien (v1 , . . . , vk ) (w1 , . . . , wr ) eine Basis von Kern(f ), eine Basis von Im(f ), und beliebige Vektoren aus dem Urbild (vk+1 , . . . , vk+r ) 166 mit f (vk+1 ) = w1 , . . . , f (vk+r ) = wr , 8.4 Lineare Abbildungen gewählt. Dann ist B = (v1 , . . . , vk , vk+1 , . . . , vk+r ) eine Basis von V , somit n = k + r und es gilt die Dimensionsformel dim V = dim Kern(f ) + dim Im(f ). Beweis. Es muss gezeigt werden, dass B ein Erzeugendensystem von V ist und die Vektoren linear unabhängig sind. Sei ein v ∈ V vorgegeben und das Bild davon durch die Basis (w1 , . . . , wr ) dargestellt, f (v) = λ1 w1 + . . . + λr wr . Nun stellt man fest, dass man wegen f (v − λ1 vk+1 − . . . − λr vk+r ) = f (v) − λ1 f (vk+1 ) − . . . − λr f (vk+r ) = f (v) − λ1 w1 − . . . − λr wr = 0 einen Vektor im Kern von f finden kann und dieser kann durch die Basis von Kern(f ) dargestellt werden, v − λ1 vk+1 − . . . − λr vk+r = µ1 v1 + . . . + µk vk . Somit findet man die Darstellung v = µ1 v1 + . . . + µk vk + λ1 vk+1 + . . . + λr vk+r und da v ∈ V beliebig war, kann jeder Vektor durch B erzeugt werden. Die lineare Unabhängigkeit sieht man folgendermaßen: Sei 0 = λ1 v1 + . . . + λk vk + λk+1 vk+1 + . . . + λk+r vk+r . Durch Anwendung der linearen Abbildung und unter Beachtung von f (v1 ) = . . . = f (vk ) = 0 folgt daraus zunächst 0 = f (0) = λ1 f (v1 ) + . . . + λk f (vk ) + λk+1 f (vk+1 ) + . . . + λk+r f (vk+r ) = λk+1 f (vk+1 ) + . . . + λk+r f (vk+r ) = λk+1 w1 + . . . + λk+r wr und da die (w1 , . . . , wr ) linear unabhängig sind, folgt λk+1 = . . . = λk+r = 0. Es verbleibt 0 = λ1 v1 + . . . + λk vk und da die (v1 , . . . , vk ) linear unabhängig sind, folgt ebenfalls λ1 = . . . = λk = 0. 167 8 Lineare Abbildungen Aus dieser Formel lässt sich direkt eine ganz wesentliche, wiederum äußerst bemerkenswerte Eigenschaft von linearen Abbildungen zwischen Vektorräumen mit gleicher endlicher Dimension ablesen. Im Speziellen trifft dies auf Abbildungen f : Rn → Rn zu. Satz 8.56 Ist f : V → W linear und dim V = dim W < ∞. Dann gilt f injektiv ⇔ f surjektiv ⇔ f bijektiv. Beweis. Ist f injektiv, so gilt dim Kern(f ) = 0. Nach der Dimensionsformel ist dann dim Im(f ) = dim V = dim W , also f surjektiv. Ist umgekehrt f surjektiv, dann gilt dim Im(f ) = dim W und nach der Dimensionsformel somit dim Kern(f ) = 0, also f injektiv. Zudem liefert dies die Möglichkeit die endlichdimensionalen Vektorräume zu klassifizieren. Dazu benötigt man zunächst eine Vorschrift, wie Vektorräume verglichen werden können. Zum Vergleich von endlichen Mengen verwendet man bijektive Abbildungen. Dies bietet sich auch für Vektorräume an, wobei man jedoch fordert, dass lineare Eigenschaften unter der Abbildung erhalten bleiben sollen, d.h. die vermittelnde Abbildung soll bijektiv und zudem linear sein. Definition 8.57 (Isomophie) Zwei Vektorräume V, W heißen isomorph, wenn es eine Isomorphismus Φ : V → W gibt. Dies bezeichnet man mit V ∼ = W. Gibt es einen Isomorphismus Φ : V → W , dann ist bereits bekannt, dass dann auch Φ−1 : W → V ein Isomorphismus ist und daher gilt V ∼ = W genau dann wenn W ∼ =V gilt. Zudem ist die Verkettung von Isomorphismen wieder ein Isomorphismus. Sind also U ∼ = V und V ∼ = W , dann gilt auch U ∼ = W . Durch die Wahl der Identität ist zudem jeder Vektorraum isomorph zu sich selbst, V ∼ = V , und somit ist die Isomorphie eine Äquivalenzrelation auf der Menge der Vektorräume. Es stellt sich also die Frage, ob man zu zwei Vektorräumen V, W einen Isomorphismus, d.h. eine lineare, bijektive Abbildung, finden kann. Gemäß des Satzes über die Existenz von linearen Abbildungen lässt sich für eine Basis (v1 , . . . , vn ) zu gegebenen (w1 , . . . , wn ) genau eine lineare Abbildung Φ: V → W konstruieren, die Φ(vi ) = wi , 1 ≤ i ≤ n, erfüllt. Haben nun beide Vektorräume dieselbe Dimension, so kann man für die (w1 , . . . , wn ) sogar eine Basis wählen. Damit existiert eine lineare Abbildung f : V → W und diese ist sogar bijektiv, denn dann gilt Im f = f (V ) = W und die Dimensionsformel liefert die Behauptung. Dass sogar die Umkehrung gilt, folgt ebenfalls mit der Dimensionsformel. Satz 8.58 Zwei endlichdimensionale Vektorräume V, W sind genau dann isomorph, wenn sie dieselbe Dimension haben, d.h. V ∼ =W 168 ⇔ dim V = dim W. 8.4 Lineare Abbildungen Beweis. Gibt es einen Isomorphismus f : V → W , so gilt dim Kern(f ) = 0 und dim Im(f ) = dim W . Aus der Dimensionsformel folgt dim V = dim Kern(f ) + dim Im(f ) = 0 + dim W = dim W . Damit ist eine bedeutende Klassifizierung der endlichdimensionalen Vektorräume gefunden: Zu jedem n ∈ N gibt es bis auf Isomorphie nur einen n-dimensionalen K-Vektorraum und man kann Kn als den Repräsentaten wählen. Bemerkung 8.59 (Bedeutung der Isomorphie) Sind zwei Vektorräume isomorph, so sind sie von “gleicher Struktur” - das sagt die Übersetzung des Griechischen ins Deutsche. Dies ist wie folgt zu verstehen: Die Elemente der beiden Vektorräume können zwar verschieden benannt sein, jedoch sind alle linearen Beziehungen zwischen den Elementen dieselben. Ein Isomorphismus Φ : V → W garantiert dabei zwei Dinge: (i) Da die Abbildung Φ bijektiv ist, stellt sie eine eins-zu-eins Beziehung auf: Es wird jedem Element des einen Vektorraums genau ein Element des anderen zugeordnet. e∈W Man kann folglich zwischen einem Element v ∈ V und seinem Gegenstück v e = Φ(v) und v = Φ−1 (e beliebig hin und her wechseln durch v v). (ii) Da die Abbildung Φ linear ist, lässt sich zu jeder linearen Abbildung f : V → V e nach V eine lineare Abbildung fe : W → W konstruieren: Man bildet zunächst v ab, wendet dort f an und bildet dann zurück nach W ab, fe := Φ ◦ f ◦ Φ−1 , e 7→ fe(e v v) := Φ(f (Φ−1 (e v))). Sucht man folglich Lösungen von f (v) = 0 in V , so kann man stattdessen auch Lösungen e suchen. Denn hat man eine Lösung v e gefunden, so ist v = Φ−1 (e von fe(e v) = 0 v) auch eine Lösung der Gleichung in V , denn e = Φ(0) Φ(f (v)) = Φ(f (Φ−1 (e v))) = fe(e v) = 0 ⇒ f (v) = 0. Gilt also eine lineare Beziehung in W , so gilt sie auch (mit anders bezeichneten, aber eindeutig miteinander identifierbaren Elementen) in V : Sind also Vektoren in V linear unabhängig, so sind auch die isomorphen Bilder in W linear unabhängig; isomorphe Bilder von Untervektorräumen haben diesselbe Dimension; eine lineare Gleichung hat einen Lösung in V genau dann, wenn sie auch eine Lösung in W besitzt. In diesem Sinne muss man zwischen den beiden Vektorräumen nicht unterscheiden, solange man sich für lineare Beziehungen von einem der Vektorräume interessiert. Der Sachverhalt wird - bis auf die Benennung der Elemente - derselbe sein. Beispiel 8.60 Sei V = R3 und W = R[x]≤2 der Vektorraum der Polynome vom Grad kleiner gleich zwei. Dann lässt sich eine Bijektion angeben durch a1 3 a2 7→ a1 + a2 · x + a3 · x2 Φ : R → R[x]≤2 , a3 169 8 Lineare Abbildungen mit der Umkehrung Φ−1 : R[x]≤2 → R3 , a1 2 a1 + a2 · x + a3 · x 7→ a2 , a3 d.h. jedem Vektor im R3 entspricht eineindeutig ein Polynom vom Grad zwei. Die Struktur der beiden Räume ist bezüglich der Vektoraddition und Skalarmultiplikation daher gleich und bis auf die “Bezeichnung” der Vektoren (speziell der Basisvektoren) führt eine Rechnung zum selben Ergebnis. Identifiziert man nämlich 1 0 0 a1 Φ 2 a1 + a2 · x + a3 · x ←→ a1 0 + a2 1 + a3 0 = a2 , 0 0 1 a3 1 0 0 b1 Φ 2 b1 + b2 · x + b3 · x ←→ b1 0 + b2 1 + b3 0 = b2 , 0 0 1 b3 so erhält man a1 +a2 · x +a3 · x2 +b1 +b2 · x +b3 · x2 (a1 + b1 ) +(a2 + b2 ) · x +(a3 + b3 ) · x2 Φ ←→ und die Ergebnisse sind bis auf Isomorphie gleich (a1 + b1 ) + (a2 + b2 ) · x + (a3 + b3 ) · x2 170 a1 + b 1 a1 b1 a2 + b 2 = a2 + b 2 a3 + b 3 a3 b3 Φ ←→ a1 + b 1 a2 + b 2 . a3 + b 3 8.5 Basiswahl und Koordinatentransformation 8.5 Basiswahl und Koordinatentransformation Es hat sich gezeigt, dass jeder linearen Abbildung Kn → Km genau eine Matrix A ∈ Km×n entspricht und dass dabei die Spalten der Matrix den Bildern der kanonischen Einheitsvektoren entsprechen. Dies lässt fragen, ob auch jede Abbildung f : V → W zwischen zwei beliebigen K-Vektorräumen V, W durch eine Matrix A ∈ Km×n darstellbar ist, wenn diese endliche Dimensionen n = dim V, m = dim W besitzen. Zudem muss man sich selbst im Falle des Kn nicht auf die kanonischen Basisvektoren beschränken wollen und kann sich fragen, ob man eine Matrix auch verwenden kann, um Abbildungen bezüglich einer anderen Wahl der Basis darzustellen. Satz 8.61 (Äquivalenz Matrizen und lineare Abbildungen) Seien zu den K-Vektorräumen V, W die Basen BV = (v1 , . . . , vn ) und BW = (w1 , . . . , wm ) gewählt. Dann gibt es zu jeder linearen Abbildung f : V → W genau eine Matrix A ∈ Km×n mit f (vj ) = m X i=1 aij wi für alle 1 ≤ j ≤ n. Die dabei verwendete Matrix A =: MBW ,BV (f ) nennt man die Matrixdarstellung der linearen Abbildung f bezüglich der Basen BV und BW . Beweis. Der Satz über die Existenz und Eindeutigkeit hat gezeigt, dass genau eine Abbildung mit der Eigenschaft f (vj ) = wj0 , 1P≤ j ≤ m, existiert. Diese Bilder lassen sich in der Basis BW entwickeln durch wj0 = m i=1 aij wi , 1 ≤ j ≤ m, und die Wahl der Koeffizienten ist eindeutig, da es sich um eine Basis handelt. Dies zeigt: Wählt man eine feste Basis der Vektorräume, dann entspricht jeder linearen Abbildung eine Matrix. Dadurch kann man sich bei der Betrachtung von linearen Abbildungen zwischen endlichdimensionalen Vektorräumen durch eine Basiswahl auf Matrizen zurückziehen. Beispiel 8.62 Sei V = R[x]≤n = {p | p(x) = a0 + a1 x + a2 x2 + . . . + an xn mit ai ∈ R für 0 ≤ i ≤ n} der Raum der Polynome vom Grad kleiner gleich n. Dann ist eine Basis von V gegeben durch BV = (1, x, x2 , . . . , xn ) = (xi )i=0,...,n . Für die Bilder der Basis unter der Differentiation findet man D(xj ) = j · xj−1 und daher lässt sich die Differentiation als lineare Abbildung D : R[x]≤n → R[x]≤n−1 , p 7→ p0 171 8 Lineare Abbildungen auffassen. Wählt man daher den Bildraum als W = R[x]≤n−1 und verwendet die Basis BW = (1, x, x2 , . . . , xn−1 ) = (xi )i=0,...,n−1 , so findet man die Darstellungen D(1) D(x) D(x2 ) D(x3 ) = = = = .. . 0 1 2x 3x2 = = = = .. . 0·1 1·1 0·1 0·1 + + + + 0·x 0·x 2·x 0·x + + + + 0 · x2 0 · x2 0 · x2 3 · x2 + + + + 0 · x3 0 · x3 0 · x3 0 · x3 + + + + ... ... ... ... + + + + .. . 0 · xn−1 0 · xn−1 0 · xn−1 0 · xn−1 D(xn ) = nxn−1 = 0 · 1 + 0 · x + 3 · x2 + 0 · x3 + . . . + n · xn−1 Die Darstellungsmatrix ergibt sich also zu 0 1 0 ... ... 0 0 2 0 . . . . . . . ... . 3 0 ... . MBW ,BV (D) = . . . .. .. .. 0 0 . . . ... 0 n − 1 0 ... ... 0 0 0 .. . ∈ Rn×(n+1) .. . 0 n Bemerkung 8.63 Sind die Vektorräume V = Kn und W = Km und wählt man die kanonische Basis ei = (0, . . . , 0, 1, 0, . . . , 0)T , so erhält man ! ! m n n n n m X X X X X X aij xj ei = Ax f (x) = f ( xj ej ) = xj f (ej ) = xj aij ei = j=1 j=1 j=1 i=1 i=1 j=1 die Darstellung f (x) = Ax. Da es beliebig viele verschiedene Basen gibt, stellt sich nun natürlich die Frage, ob man zu einer linearen Abbildung f : V → W die Basen von V und W so wählen kann, dass die Darstellungsmatrix besonders einfach wird. Dies ist implizit bereits durch den Satz der Dimensionsformel beantwortet: Für jede lineare Abbildung zwischen zwei endlichdimensionalen Vektorräumen lässt sich eine Basis vom Kern zu einer Basis des Urbildraums ergänzen, so dass die Bilder der zusätzlichen Basisvektoren eine Basis vom Bild sind - und diese lässt sich zu einer Basis von W ergänzen. In diesen Basen ist dann die Darstellung besonders einfach. Satz 8.64 (Diagonaldarstellung von linearen Abbildungen) Für jede lineare Abbildung f : V → W zwischen zwei K-Vektorräumen V, W kann man eine Basis BV = (v1 , . . . , vn ) von V und eine Basis BW = (w1 , . . . , wm ) von W so wählen, dass die Darstellungsmatrix 1r 0 MBW ,BV = ∈ Km×n 0 0 Diagonalgestalt hat. 172 8.5 Basiswahl und Koordinatentransformation Beweis. Sei (vr+1 , . . . , vn ) eine Basis von Kern(f ). Dann lässt sich diese gemäß des Dimensionssatzes zu einer Basis BV = (v1 , . . . , vr , vr+1 , . . . , vn ) von V ergänzen und die zusätzlichen Vektoren können so gewählt werden, dass f (v1 ) = w1 , . . . , f (vr ) = wr gilt und die (w1 , . . . , wr ) eine Basis von Im(f ) sind. Nun ergänzt man einfach diese zu einer Basis BW = (w1 , . . . , wr , wr+1 , . . . , wm ) von W . Für die so gewählten Basen gilt dann aber stets die Darstellung f (vj ) = wj = f (vj ) = 0 = m X i=1 m X i=1 δji · wi , 0 · wi , j = 1, . . . , r, j = r + 1, . . . , n, d.h. die Matrix hat die gesuchte Gestalt. Beispiel 8.65 Sei erneut V = R[x]≤n gewählt und als lineare Abbildung die Ableitung D : R[x]≤n → R[x]≤n−1 , p 7→ p0 betrachtet. Man sieht schnell, dass nur die konstanten Polynome auf das Nullpolynom abgebildet wird, d.h es gilt Kern(f ) = {p ∈ R[x]≤n | p(x) = c mit c ∈ R} = span(1) und der Kern wird von nur einem Vektor aufgespannt. Diese Basis vom Kern wird nun durch die Vektoren x, x2 , . . . , xn zu einer Basis des gesamten Raums BV = (x, x2 , . . . , xn , 1) ergänzt. Die Bilder der zusätzlichen Vektoren ergeben sich zu D(x) = 1, D(x2 ) = 2x, . . . , D(xn ) = nxn−1 und somit wird die Basis vom Bild gewählt als (1, 2x, 3x2 , . . . , nxn−1 ). Dies spannt aber auch gleich den gesamten Raum R[x]≤n−1 auf. Somit hat man die gesuchten Basen gefunden und für die Wahl BV = (x, x2 , . . . , xn , 1), BW = (1, 2x, 3x2 , . . . , nxn−1 ) gilt die Darstellungsmatrix 1 0 0 ... ... 0 0 1 0 0 . . . . . . 0 . . .. . . 0 0 . . . .. . MBW ,BV (D) = . ∈ Rn×(n+1) . . . . .. . . . . 0 .. 0 . . . . . . 1 0 0 0 ... ... 1 0 Gerne möchte man dieses Vorgehen systematisieren. Dazu stellt man zunächst fest, dass man zu jedem n-dimensionalen K-Vektorraum einen kanonischen Isomorphismus zum Kn konstruieren kann. 173 8 Lineare Abbildungen Definition 8.66 (Kanonischer Basisisomorphismus) Sei V ein K-Vektorraum und B = (v1 , . . . , vn ) eine Basis von V . Dann bezeichnet die Abbildung ΦB : Kn → V, x = (x1 , . . . , xn )T 7→ x1 v1 + . . . + xn vn den kanonischen Basisisomorphismus oder das Koordinatensystem bezüglich der Basis B und die Koeffizienten x1 , . . . , xn ∈ K in dieser Summe x1 .. x = . = Φ−1 B (v) xn B werden als Koordinaten von v ∈ V bzgl. der Basis B bezeichnet. Ist aus dem Kontext ersichtlich, um welche Basis es sich handelt, so wird der Subskript bei der Angabe der Koordinaten weggelassen. Speziell wird bei der üblichen Wahl der kanonischen Basisvektoren des Kn die Basis nicht explizit notiert. Bemerkung 8.67 Gemäß des Satzes über die Existenz und Eindeutigkeit linearer Abbildungen gibt es zu jeder Basis B = (v1 , . . . , vn ) eines Vektorraums V genau eine lineare Abbildung mit ΦB (ej ) = vj , die sogar bijektiv ist, da das Bild von einer Basis des Raums aufgespannt wird. Somit existiert zu jeder Basis eines endlichdimensionalen Vektorraums genau ein kanonische Basisisomorphismus. Somit lässt sich jedes Element in einem Vektorraum durch verschiedene Koordinaten darstellen und da alle Koordinatensysteme Isomorphismen sind, lässt sich damit auch eine Koordinatentransformation zwischen je zwei solcher Koordinatensystemen konstruieren. Beispiel 8.68 (i) Sei V = R[x]≤2 und die Basis E = (1, x, x2 ) gewählt. Dann ergeben sich die Koordinaten eines Polynoms p(x) = a0 + a1 x + a2 x2 durch die Zuordnung ΦE : R3 → R[x]≤2 , zu x = (x0 , x1 , x2 )TE 7→ x0 · 1 + x1 · x + x2 · x2 a0 −1 ΦE (p) = a1 a2 E (ii) Sei V = R[x]≤2 und die Basis B = (4, x − 1, x2 ) gewählt. Ein allgemeines Polynoms lässt sich auch schreiben als a0 a1 p(x) = a0 + a1 x + a2 x2 = ( + ) · 4 + a1 · (x − 1) + a2 · x2 4 4 174 8.5 Basiswahl und Koordinatentransformation und man findet die Koordinaten ΦB : R3 → R[x]≤2 , x = (x0 , x1 , x2 )TB 7→ x0 · 4 + x1 · (x − 1) + x2 · x2 zu a0 Φ−1 B (p) = 4 + a41 a1 a2 B (iii) Sei V = R2 und = (e 1 , e2 ) die kanonische Basis. Zu der alternativen Wahl einer E 2 0 Basis B = ( , ) ergeben sich die Koordinaten bezüglich der Basis B zu 2 E −1 E x1 x1 x1 1 0 2 0 2 · + (x1 − x2 ) · = = x1 · + x2 · = x2 E 0 E 1 E 2 E −1 E x1 − x2 B 2 Hat man nun die Koordinaten bezüglich einer Basis bestimmt, so möchte man diese Koordinaten auch gerne bezüglich einer anderen Basis ausdrücken können. Definition 8.69 (Koordinatentransformation) en ) zwei Basen eines K-Vektorraums V mit Seien B = (v1 , . . . , vn ) und Be = (e v1 , . . . , v den zugehörigen kanonischen Basisisomorphismen ΦB und ΦBe, so dass ein Vektor v ∈ V mit den jeweiligen Koordinaten x = (x1 , . . . , xn )TB = Φ−1 B (v) bzw. e = (e x x1 , . . . , x en )TBe = Φ−1 (v) Be dargestellt wird als x 1 v1 + . . . + x n vn = Die lineare Abbildung v e1 + . . . + x en . =x e1 v en v Kn n n TB,B e : K 7→ K , −1 TB,B e := ΦBe ◦ ΦB , d.h. TB,B e Kn ΦBe V ΦB e heißt Koordinatentransformation von der Basis B auf die Basis B. Da die Koordinatentransformation eine lineare Abbildung ist, lässt sie sich durch eine Matrix beschreiben. 175 8 Lineare Abbildungen Satz 8.70 (Transformationsmatrix) en ) zwei Basen eines Vektorraums V und Seien B = (v1 , . . . , vn ) und Be = (e v1 , . . . , v n×n TB,B die Matrixdarstellung der Koordinatentransformation, d.h. e ∈ K Dann gilt e = TB,B x e ·x ⇔ e = Φ−1 x (ΦB (x)) Be (i) Für die Matrixdarstellung der inversen Transformation x = Φ−1 x)), d.h. x = B (ΦBe (e e ergibt sich TB,Be · x TB,Be = TB,B e −1 . (ii) Die Koeffizienten der Matrix TB,Be bilden die eindeutige Darstellung der Vektoren der Basis Be durch die Basis B gemäß ej = TB,Be v1 + . . . + TB,Be v vn , j = 1, . . . , n. 1j nj e = TB,B Beweis. (i) Liest sich direkt aus x e e · x ⇔ TB,B −1 e = x ab. ·x (ii) Man zieht sich auf die Darstellung der kanonischen Basisvektoren des Kn zurück, denn gilt die Aussage für diese, so auch für alle Vektoren. Für jedes j = 1, . . . , n findet man ej = TB,Be v1 + . . . + TB,Be vn ΦBe(ej ) = v 1j nj ! T = ΦB TB,Be , . . . , TB,Be = ΦB TB,Be · ej 1j nj und somit TB,Be · ej = Φ−1 (e ) . Φ e j B B Dies liefert auch eine schnelle Möglichkeit die Transformationsmatrix zu berechnen, sofern man die Abbildung der Basisvektoren kennt: Man ermittelt zunächst die Lineardarstellung der neuen Basis durch die alte und schreibt diese Koeffizienten als Spalten in die Matrix TB,Be. Daraus ermittelt man die Transformationsmatrix TB,B durch invertieren. e Besonders einfach wird dabei die Ermittlung, wenn der Vektorraum V der Kn selbst ist und man die kanonischen Einheitsvektoren als Basis B = (e1 , . . . , en ) wählt. Dann gilt ej = ve1 e1 + . . . + ven en und die Spalten der Matrix TB,Be werden von den nämlich direkt v neuen Basisvektoren gebildet. 176 8.5 Basiswahl und Koordinatentransformation Beispiel 8.71 Sei V = R[x]≤2 und B = (1, x, x2 ) sowie Be = (4, x − 1, x2 ) zwei Basen von V . Man findet die Darstellung 4 = 4 · 1 + 0 · x + 0 · x2 , x − 1 = −1 · 1 + 1 · x + 0 · x2 , x2 = 0 · 1 + 0 · x + 1 · x2 , und daher 4 −1 0 TB,Be = 0 1 0 0 0 1 mit der Inversen 0 = T−1 = 0 1 0 . B,Be 0 0 1 1 4 TB,B e 1 4 Somit ergibt sich die Koordinatentransformation eines Polynoms p(x) = a0 + a1 x + a2 x2 zu 1 1 a0 a1 + 4 0 a0 4 4 4 e= a1 a1 = TB,B = 0 1 0 x e x a2 0 0 1 a2 B Be Einer linearen Abbildung entspricht nach Basiswahl eine Matrixdarstellung. Diese Darstellung ändert sich natürlich, wenn man eine andere Basis wählt. Dabei gilt der folgende Zusammenhang. Satz 8.72 (Koordinatendarstellung bei Matrizen) Seien V, W zwei K-Vektorräume mit den Basen BV und BW . Dann lässt sich eine lineare Abbildung f : V → W durch eine Matrix MBW ,BV (f ) beschreiben, so dass der Zusammenhang f V W ΦBV Kn Φ BW MBW ,BV (f ) Km gilt und d.h. ΦBW ◦ MBW ,BV (f ) = f ◦ ΦBV , MBW ,BV (f ) = Φ−1 BW ◦ f ◦ ΦBV . Beweis. Seien die Basen BV = (v1 , . . . , vn ) und BW = (w1 , . . . , wm ) zu den Vektorräumen V, W gewählt. Dann lässt sich f : V → W eindeutig darstellen als f (vj ) = m X i=1 aij wi für alle 1 ≤ j ≤ n 177 8 Lineare Abbildungen mit der Matrix MBW ,BV (f ) = (aij )m,n i,j=1 und die Basisvektoren über die Basisisomorphismen vj = ΦBV (ej ) und wj = ΦBW (ej ). Für jedes j = 1, . . . , n gilt nun für die Abbildung eines kanonischen Basisvektors ej : f (ΦBV (ej )) = f (vj ) = m X i=1 aij wi = ΦBW ((a1j , . . . , amj )TBW ) = ΦBW (MBW ,BV (f ) · ej ). Somit stimmt das Bild auf jedem Basisvektor und somit auch auf jedem beliebigen Vektor überein. Damit lässt sich nun abschließend die Frage beantworten, wie sich die darstellende Matrix zu einer linearen Abbildung unter Basiswechsel verhält. Satz 8.73 (Transformationssatz) Seien V, W zwei K-Vektorräume mit den Basen BV , BW und den transformierten Basen BeV , BeW . Dann gilt für die Matrixdarstellung einer linearen Abbildung f : V → W der Zusammenhang MBeW ,BeV (f ) Kn Km ΦBeW ΦBeV TBeV ,BV K V f ΦBV n TBeW ,BW W ΦBW MBW ,BV (f ) Km und somit für die Matrizen −1 . MBeW ,BeV = TBeW ,BW · MBW ,BV · TBeV ,BV Beweis. Die Teile des Abbildungszusammenhangs wurden bereits in den vorherigen Sätzen gezeigt. Für die Zusammensetzung gilt daher die Abbildungskette ebenfalls. Die Kernaussage dieser Transformation ist also folgendes: Hat man einen Matrix A gegeben, die eine lineare Abbildung f : V → W bezüglich zweier gewählten Basen von V, W darstellt, und wählt nun zwei andere Basen, so stellt sich die lineare Abbildung bezüglich der neuen Basis als Matrix e = S · A · T−1 A dar und die Matrizen S und T beschreiben die Basistransformationen, sind daher Isomorphismen und invertierbar. Diese Eigenschaft bezeichnet man als Äquivalenz von Matrizen und für eine Endomorphismus lässt sich die Anforderung noch verschärfen. 178 8.5 Basiswahl und Koordinatentransformation Definition 8.74 (Äquivalente und ähnliche Matrizen) e ∈ Km×n heißen äquivalent, falls es zwei invertierbare Matrizen S, T Zwei Matrizen A, A gibt mit e = S · A · T−1 . A e ∈ Kn×n heißen ähnlich, falls es eine invertierbare Matrix S gibt mit Zwei Matrizen A, A e = S · A · S−1 . A Durch die Transformation auf Diagonalgestalt mittels Multiplikation von links und rechts mit Elementarmatrizen ergibt sich sofort die folgende Einteilung. Satz 8.75 (Äquivalente Matrizen) Jede Matrix vom Rang r ∈ N ist äquivalent zur Diagonalmatrix 1r 0 0 0 und somit sind zwei Matrizen genau dann äquivalent, wenn sie denselben Rang besitzen. Beweis. Man findet zu einer Matrix A stets Produkte von Elementarmatrizen (und diese sind invertierbar), so dass E · A · E0 die gesucht Gestalt besitzt. Dies liefert auch direkt eine Möglichkeit eine neue Basis zu berechnen, bezüglich derer eine lineare Abbildung f : V → W eine besonders einfach Gestalt hat: (1) Man wähle zwei Basen BV = (v1 , . . . , vn ) und BW = (w1 , . . . , wm ) und bestimme die Matrixdarstellung MBW ,BV (f ) ∈ Km×n bezüglich dieser Basen, indem man jeden Basisvektor vj , j = 1, . . . , n abbildet und die Koeffizienten der Darstellung durch die Basis BW f (vj ) = m X aij wi i=1 für alle 1 ≤ j ≤ n als j-te Spalte in die Matrix einträgt. (2) Durch das Verfahren der Multiplikation mit Elementarmatrizen finde man ein Darstellung 1 0 0 E · MBW ,BV (f ) · E = =: MBeW ,BeV (f ) 0 0 und wähle die Diagonalmatrix als neue Darstellung. 179 8 Lineare Abbildungen (3) Man interpretiere auf Grund von −1 TBeW ,BW · MBW ,BV (f ) · TBeV ,BV = MBeW ,BeV (f ) die Matrizen E, E0 als Basistransformation −1 E0 = TBeV ,BV = TBV ,BeV , ⇒ E = TBeW ,BW , −1 E−1 = TBeW ,BW = TBW ,BeW . en ) und BeW = (w e 1, . . . , w e m ) durch (4) Man bestimme die neuen Basen BeV = (e v1 , . . . , v die Darstellung ej = TBV ,BeV v v1 + . . . + TBV ,BeV vn , j = 1, . . . , n, 1j nj e j = TBW ,BeW und w w1 + . . . + TBW ,BeW wm , j = 1, . . . , m, 1j mj d.h. die Koeffizienten der j-ten Spalte linear kombinieren den neuen j-ten Basisvektor. In den so bestimmten Basen BeV , BeW besitzt die lineare Abbildung f : V → W dann die gewünschte einfache Darstellung. Man beachte, dass für den Fall V = Kn , W = Km und die Wahl BV = (e1 , . . . , en ) und BW = (e1 , . . . , em ) die neue Basis direkt aus den Spalten der Transformationsmatrizen abgelesen werden kann. Beispiel 8.76 Sei V = R[x]≤2 der Raum der Polynome vom Grad kleiner gleich zwei und W = R4 . Dann lässt sich die Auswertung eines Polynoms an den Stellen x = 0, 1, 2, 3 als lineare Abbildung zwischen diesen Räume auffassen gemäß p(0) p(1) f : R[x]≤2 → R4 , p(x) 7→ p(2) . p(3) (1) Wählt man zunächst die Basen BR[x]≤2 = (1, x, x2 ) und BR4 = (e1 , . . . , e4 ), so findet man f (1) = (1, 1, 1, 1)T = 1 e1 + 1 e2 + 1 e3 + 1 e4 , f (x) = (0, 1, 2, 3)T = 0 e1 + 1 e2 + 2 e3 + 3 e4 , f (x2 ) = (0, 1, 4, 9)T = 0 e1 + 1 e2 + 4 e3 + 9 e4 , und somit die Matrixdarstellung 1 1 MBR4 ,BR[x]≤2 (f ) = 1 1 180 0 1 2 3 0 1 . 4 9 8.5 Basiswahl und Koordinatentransformation (2) Hieraus berechnet man eine Zerlegung 14 x x x x 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 −2 −3 0 0 1 0 0 1 −1 −3 0 0 1 2 0 0 0 1 0 1 −1 2 3 −3 .. . =E =: TBe 4 ,B R R4 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 =: MBe 4 ,BeR[x] (f ) R ≤2 13 .. . 1 0 0 0 1 0 1 0 0 = E0 =: T−1 Be 0 0 1 0 0 1 −1 0 1 y 1 0 0 0 1 −1 −1 −1 1 −1 1 2 1 −1 1 2 2 1 −1 1 2 −1 MBR4 ,BR[x]≤2 (f ) 1 0 0 1 1 1 1 2 4 1 3 9 1 0 0 0 1 1 0 2 4 0 3 9 1 0 0 0 1 1 0 0 2 0 0 6 1 0 0 0 1 1 0 0 1 0 0 6 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 R[x]≤2 ,BR[x]≤2 (3) Man liest nun die gesuchte Transformationsmatrix des Raums R[x]≤2 ab als 1 0 0 −1 1 −1 . TBR[x] ,BeR[x] = TBeR[x] ,BR[x] = E0 = 0 ≤2 ≤2 ≤2 ≤2 0 0 1 Für die Transformation des R4 muss man die Matrix noch 1 0 −1 1 1 = E−1 = TB 4 ,Be 4 = TBe 4 ,B 4 1 2 R R R R 1 3 invertieren und findet 0 0 0 0 . 2 0 6 1 181 8 Lineare Abbildungen (4) Die neue Basis von R[x]≤2 ergibt sich mittels e1 = 1 · 1 + v 0 · x + 0 · x2 = 1, 2 e2 = 0 · 1 + v 1·x + 0·x = x, 2 2 e3 = 0 · 1 + −1 · x + 1 · x = x − x, v als BeR[x]≤2 = (1, x, x2 − x). Die neue Basis von R4 liest sich direkt ab als 1 0 0 0 1 1 0 0 BeR4 = ( 1 , 2 , 2 , 0 ). 1 B4 3 B4 6 B4 1 B4 R R R R Zur Abbildung eines allgemeinen Polynoms stellt man dieses daher durch p(x) = a0 + a1 x + a2 x2 = a0 · 1 + (a1 + a2 ) · x + a2 · (x2 − x) zunächst in der Basis BeR[x]≤2 mit den Koordinaten (a0 , a1 + a2 , a2 )BeR[x] ≤2 dar. Die Anwendung der linearen Abbildung ist nun besonders einfach durch a0 1 0 0 a 0 a1 + a2 0 1 0 = a2 0 0 1 · a1 + a2 a2 BeR[x]≤2 0 0 0 0 Be 4 R und das Ergebnis ist in kanonischen Basisvektoren ausgedrückt das vertraute Verhalten bei Polynomauswertung a0 1 0 0 a0 a1 + a2 1 1 0 a0 + a1 + a2 = a0 = a2 1 + (a1 + a2 ) 2 + a2 2 a0 + 2a1 + 4a2 . 0 1 B4 3 B4 6 B4 a0 + 3a1 + 9a2 B 4 Be 4 R R R R Bisher wurden lineare Abbildungen f : V → W betrachtet, wobei im Allgemeinen die Vektorräume verschieden sein konnten und es hat sich gezeigt, dass man dabei die Basen BV , BW der Räume so geeignet wählen konnte, dass die Darstellungsmatrix eine Diagonalgestalt erhält, bei der auf der Diagonalen nur r = Rang(f ) Einsen und sonst Nullen standen. Die Darstellungsmatrix und besonders ihre Anwendung auf einen Vektor war daher besonders einfach. Dieses Vorgehen ist natürlich auch dann noch möglich, wenn Bild und Urbild derselbe Raum sind, d.h. V = W - man muss nur für Bild und Urbild eine unterschiedliche Basis zulassen und geeignet wählen. Deutlich anders wird die Situation, wenn man für Bild und Urbild dieselbe Basis wählen möchte und zwar so, dass die Darstellungsmatrix erneut besonders einfach ist. Man sucht also nach einer Basis BV , so dass für eine linear Abbilung f : V → V die darstellende Matrix MBV ,BV (f ) einfach wird - oder anders gesagt: man sucht nach einer Basistransformation, so dass die ähnliche Matrix S · MBV ,BV (f ) · S−1 einfach wird. Dieses Problem ist deutlich schwerer zu behandeln und wird auf die Diagonalisierbarkeit einer Matrix führen. 182 R 9 Determinanten Historisch von großer Bedeutung war die Fragestellung, ob ein gegebenes lineares Gleichungssystem eine Lösung besitzt. Zu einer gegebenen Matrix ist man daran interessiert diese Lösbarkeit möglichst direkt zu charakterisieren. Dies hat zur Entwicklung der sogenannten Determinanten einer Matrix (lat. determinare: “abgrenzen”, “bestimmen”) geführt, die jeder Matrix eine Zahl zuordnet, an der man die Lösbarkeit direkt ablesen kann - diese determiniert also die Lösbarkeit des Gleichungssystems. Determinanten sind jedoch nicht nur zur Lösung von Gleichungssytemen interessant, sondern mit ihrer Hilfe lässt sich bequem ein Volumen in mehreren Dimensionen berechnen, was von großer praktischer Bedeutung in der Integrationstheorie in mehreren Dimensionen ist. Auch zur Bestimmung der Diagonalisierbarkeit einer Matrix wird die Determinante ein entscheidenes Hilfsmittel sein. Zunächst seien aber zwei Spezialfälle betrachtet. (1) Betrachtet man ein lineares Gleichungssystem für 1 Unbekannte ax = b, so ist dies genau dann lösbar, wenn a 6= 0 gilt. Daher definiert man als Determinante det (a) := a und das System ist lösbar für det(a) 6= 0. Für die Lösung gilt in diesem Fall x= b det b = . a det a (2) Betrachtet man ein lineares Gleichungssystem für 2 Unbekannte x1 b a11 a12 = 1 , b2 x2 a21 a22 so findet man durch Umformungen das äquivalente System a11 a22 − a12 a21 0 x1 a22 b1 − a12 b2 = . 0 a11 a22 − a12 a21 x2 a11 b2 − a21 b1 Dieses System kann man genau dann lösen, falls a11 a22 − a12 a21 6= 0 gilt. Daher führt man für 2 × 2 Matrizen die Determinante ein als a11 a12 det := a11 a22 − a12 a21 a21 a22 183 9 Determinanten und das System ist genau dann die Lösung b det 1 b a22 b1 − a12 b2 2 = x1 = a11 a22 − a12 a21 a det 11 a21 lösbar, falls det A 6= 0 gilt. In diesem Fall gilt für a12 a22 , a12 a22 x2 = a11 b2 − a21 b1 a11 a22 − a12 a21 a det 11 a21 = a det 11 a21 b1 b2 . a12 a22 Ein solches Lösbarkeitskriterium und die Darstellung der Lösung möchte man gerne für Matrixgleichungen beliebiger Größe besitzen. Gesucht ist daher nach einer Verallgemeinerung dieses Vorgehens für Matrizen Kn×n für alle natürlichen Zahlen n ∈ N. 9.1 Definition und Eigenschaften Definition 9.1 (Determinante) Für einen Körper K heißt eine Abbildung det : Kn×n → K, A 7→ det A, die Determinante einer Matrix, falls gilt: (D1) Linearität: det ist linear in jeder Zeile, d.h. für alle i = 1, . . . , n gilt: Betrachtet man zu einer Matrix alle Zeilen als fest und variiert nur die i-te Zeile, so ist diese Abbildung (i) additiv T aZ,1 aTZ,1 .. .. . . det aTZ,i + bTZ,i = det aTZ,i + det bTZ,i , .. ... ... . aTZ,n aTZ,n aTZ,n aTZ,1 .. . (ii) homogen T aTZ,1 aZ,1 .. .. . . det λ · aTZ,i = λ · det aTZ,i . . . .. .. aTZ,n aTZ,n (D2) Alternierend : Sind in einer Matrix A zwei Zeilen identisch, so gilt det A = 0. (D3) Normierung: Für die Einheitsmatrix gilt det 1n = 1. 184 9.1 Definition und Eigenschaften Sofort lässt sich fragen, wie sich die Determinante ändert, wenn man elementare Zeilenumformungen auf einer Matrix ausführt. Direkt aus der Definition findet man dazu folgendes. Satz 9.2 (Determinante bei Zeilenumformungen) Eine Determinante det : Kn×n → K hat die folgenden Eigenschaften: (I) Bei Zeilenumformungen vom Typ (I) ändert die Determinante das Vorzeichen, d.h. vertauscht man zwei Zeilen einer Matrix, so gilt . . .. .. T T aZ,i aZ,j . . det .. = (−1) · det .. . aT aT Z,j Z,i .. .. . . Dies begründet auch die Bezeichnung alternierend. (II) Bei Zeilenumformungen vom Typ (II) ändert sich die Determinante um den Faktor, d.h. multipliziert man eine Zeile der Matrix mit einer Zahl λ ∈ K, so gilt erhält man . .. .. . T T det λ · aZ,i = λ · det aZ,i . .. .. . . (III) Bei Zeilenumformungen vom Typ (III) ändert sich Determinante nicht, d.h. addiert man das λ-fache der j-ten Zeile zur i-ten Zeile (i 6= j), dann gilt . .. .. . T T aZ,i aZ,i + λ · aTZ,j . .. . det . .. = det aT T a Z,j Z,j .. .. . . 185 9 Determinanten Beweis. (I) Aus der Additivität bzgl. einer Zeile (D1),(i) und der Eigenschaft (D2) folgt . . . . . . .. .. .. .. .. .. T T T T T T aZ,i aZ,i aZ,j aZ,j aZ,i aZ,j . . . . . . det .. + det .. = det .. + det .. + det .. + det .. aT aT aT aT aT aT Z,j Z,j Z,i Z,i Z,i Z,j .. .. .. .. .. .. . . . . . . {z } | {z } | =0 =0 .. .. .. . . . T aTZ,i aTZ,j aZ,i + aTZ,j .. .. .. = 0. = det + det = det . . . aT + aT aT + aT aT + aT Z,i Z,i Z,i Z,j Z,j Z,j .. .. .. . . . (II) Ist die Definition (D1),(ii). (III) Aus (D1) und (D2) folgt . . . .. .. .. .. . T aTZ,i aZ,i + λ · aTZ,j aTZ,i aTZ,j .. = det ... + λ · det ... = det ... . det . aT aT aT T a Z,j Z,j Z,j Z,j .. .. .. .. . . . . {z } | =0 Anhand der definierenden Merkmale lassen sich ebenso direkt weitere Eigenschaften der Determinante ableiten. Satz 9.3 (Eigenschaften der Determinante) Eine Determinante det : Kn×n → K hat die folgenden Eigenschaften: (i) Ist eine Zeile der Matrix gleich Null, so gilt det A = 0. (ii) Multipliziert man die Matrix mit einer Zahl λ ∈ K, so gilt det (λ · A) = λn · det A. (iii) Für eine obere Dreiecksmatrix gilt λ1 ∗ . . . ∗ . . 0 λ2 . . .. det . . = λ1 · λ2 · . . . · λn , .. ... ∗ .. 0 . . . 0 λn d.h. die Determinante ist das Produkt der Diagonaleinträge. 186 9.1 Definition und Eigenschaften (iv) Eine Matrix A ∈ Kn×n ist genau dann invertierbar, wenn det A 6= 0 ist, d.h. det A = 0 ⇔ Rang(A) < n. (v) Es gilt der Determinanten-Multiplikationssatz : Für alle A, B ∈ Kn×n gilt det (A · B) = det A · det B. (vi) Für eine invertierbare Matrix A ∈ Kn×n (d.h. für det A 6= 0) gilt det A−1 = (det A)−1 = 1 . det A Beweis. Aus der Homogenität bzgl. einer Zeile in (D1),(ii) findet man durch die Wahl λ = 0 die Aussage (i) und durch das n-fache Anwenden auf jede Zeile mit gleichem λ ∈ K die Aussage (ii). (iii) Gilt λi 6= 0 für alle i = 1, . . . , n, dann kann man die Matrix durch elementare Zeilenumformungen vom Typ (III) auf Diagonalgestalt bringen, indem man alle Einträge oberhalb der Diagonalen durch Addition eines geeigneten Vielfachen zu Null macht. Dadurch ändert sich die Determinante nicht. Man kann nun noch die linearen Faktoren zeilenweise herausziehen und findet mit det 1n = 1 (D3) schließlich die Aussage durch λ1 0 . . . 0 λ1 ∗ . . . ∗ . . . . 0 λ2 . . .. 0 λ2 . . .. det . . = λ1 · λ2 · . . . · λn · det 1n . = det . . .. ... 0 .. ... ∗ .. .. 0 . . . 0 λn 0 . . . 0 λn Ist hingegen λi = 0 für mindestens ein 1 ≤ i ≤ n, so wählt man das Maximale von diesen, macht durch Addition geeigneter Vielfacher der Zeilen j = i + 1, . . . , n die Einträge der i-ten Zeile zu Null und hat nun eine Nullzeile in der Matrix. Daher ist die Determinante Null, aber ebenso das Produkt der λi . (iv) Durch elementare Zeilenumformungen vom Typ (I) und (III) formt man die Matrix e A in eine Matrix A, λ1 ∗ . . . ∗ . . 0 λ2 . . .. e = A . . , .. ... ∗ .. 0 . . . 0 λn e = ± det A und man hat Rang(A) e = mit oberer Dreiecksgestalt um. Für diese gilt det A Rang(A). Diese Matrix hat nun vollen Rang genau dann wenn alle λi 6= 0 sind. Dann gilt aber auch e =n Rang(A) = Rang(A) ⇔ e = ±λ1 · . . . · λn 6= 0. det A = ± det A 187 9 Determinanten (v) Gilt Rang(A) < n, dann auch Rang(A · B) < n und die Aussage folgt mit (iv), da beide Seiten dann Null sind. Für eine Matrix mit vollem Rang lässt sich diese durch ein Produkt von Elementarmatrizen darstellen A = E1 ·. . .·Es . Die Elementarmatrizen vom jeweiligen Typ gehen durch elementare Zeilenumformung aus der Einheitsmatrix hervor, daher gilt mit den Eigenschaften der Determinante unter elementaren Zeilenumformungen det EIij = (−1) · det 1n = −1, det EII i (λ) = λ · det 1n = λ, det EIII ij (λ) = det 1n = 1. Nun bewirken die Elementarmatrizen bei Multiplikation auch dieselben Operationen, d.h. es gilt det (EIij ) · det B, det (EIij · B) = (−1) · det B = λ · det B = det (EII det (EII i (λ)) · det B, i (λ) · B) = III 1 · det B = det (EIII det (Eij (λ) · B) = ij (λ)) · det B, und daher gilt det (E · B) = det E · det B für alle Elementarmatrizen E. Nun folgt damit det (A · B) = det (E1 · . . . · Es · B) = det E1 · . . . · det Es · det B = det (E1 · . . . · Es ) · det B = det A · det B. (vi) Folgt direkt aus (v) und det 1n = 1 (D3) durch 1 = det (1n ) = det (A · A−1 ) = det (A) · det A−1 . Bemerkung 9.4 Im Allgemeinen kann man keine Aussage über die Determinante einer Summe von Matrizen treffen, d.h. es gilt im Allgemeinen det (A + B) 6= det A + det B für beliebige A, B ∈ Kn×n . Die bisher gezeigten Eigenschaften gelten für jede Determinantenfunktion und konnten direkt aus den Definitionen (D1)-(D3) gewonnen werden. Jedoch steht noch aus zu zeigen, dass überhaupt für jedes n ∈ N eine Funktion mit solchen Eigenschaften existiert. Zudem lässt sich fragen, ob auch mehrere verschiedene Funktionen mit diesen Eigenschaften (D1)-(D3) existieren können. Die zweite Frage nach der Eindeutigkeit soll zuerst beantwortet werden. Die Existenz der Determinantenfunktinon wird durch die Angabe einer expliziten Berechnungsformel folgen. 188 9.2 Berechnung von Determinanten Satz 9.5 (Eindeutigkeit der Determinante) Für n ∈ N seien det, det0 : Kn×n → K zwei Abbildungen mit den Eigenschaften (D1)(D3). Dann gilt det A = det0 A für jede Matrix A ∈ Kn×n , d.h. es gibt höchstens eine Determinantenfunktion. Beweis. Gilt Rang(A) < n, so auch det A = 0 = det0 A und die Aussage ist richtig. Ist hingegen Rang(A) = n, dann lässt sich die Matrix durch elementare Zeilenumformungen auf die Einheitsmatrix 1n umformen und für diese gilt wegen (D3) immer det 1n = 1 = det0 1n . Nun kann man die Zeilenumformungen wieder rückgängig machen und erhält dieselben Vorfaktoren bei Zeilenumformungen für det und det0 , d.h. schließlich det A = det0 A. 9.2 Berechnung von Determinanten Aus den Eigenschaften der Determinanten ergibt sich direkt ein praktisches Vorgehen zur Berechnung der Determinanten. Satz 9.6 (Berechnung einer Determinanten) Wird die Matrix A durch Zeilenvertauschungen und die Addition geeigneter Vielfacher von Zeilen zu anderen Zeilen (elementare Zeilenumformungen (I) und (III)) in eine Mae mit trix A λ1 ∗ . . . ∗ . . 0 λ2 . . .. e = A A . . .. ... ∗ .. 0 . . . 0 λn in oberer Dreiecksgestalt umgeformt und werden dabei k Zeilenvertauschungen durchgeführt, dann gilt e = (−1)k · λ1 · . . . · λn . det A = (−1)k · det A Beweis. Ergibt sich direkt aus den obigen Eigenschaften der Determinante. Beispiel 9.7 Man findet 0 5 2 2 3 3 2 3 3 det 2 3 3 = (−1) · det 0 5 2 = (−1) · det 0 5 2 2 3 7 2 3 7 0 0 4 = (−1)1 · 2 · 5 · 4 = −40, da man bei der Transformation auf Dreiecksgestalt eine Zeilenvertauschung benötigt. 189 9 Determinanten Dieses Vorgehen ist in der Praxis ein sehr effizientes Vorgehen. Man kann aber auch für die Berechnung eine (deutlich aufwändigere) Formel angeben und durch diese Angabe einer expliziten Berechnungsformel wird die Existenz der Determinante gesichert. Definition 9.8 (Untermatrix) Für eine Matrix A ∈ Kn×n bezeichnet Aij ∈ K(n−1)×(n−1) diejenige Matrix, die durch Streichen der i-ten Zeile und j-ten Spalte aus A entsteht. Beispiel 9.9 Man findet für A = A11 A23 a11 a12 a a = 21 22 a31 a32 a11 a12 a a = 21 22 a31 a32 a11 a12 a13 a a a 21 22 23 : a31 a32 a33 a13 a23 = a33 a13 a23 = a33 a22 a23 a32 a33 ! a11 a12 a31 a32 ! Satz 9.10 (Laplacescher Entwicklungssatz nach einer Spalte) Die Determinante einer Matrix A ∈ Kn×n lässt sich induktiv berechnen: Für n = 1 und A = (a11 ) ∈ K1×1 setzt man det A := a11 . Für n ≥ 2 und A ∈ Kn×n berechnet man für eine beliebige Spalte j ∈ {1, . . . , n} n X det A = (−1)i+j · aij · det Aij (Entwicklung nach der j-ten Spalte). i=1 Beweis. Der Beweis wird als Induktion über n geführt: Für n = 1 erfüllt die angegebene Formel det A := a11 die Eigenschaften (D1)-(D3) direkt. Sei also n ≥ 2 und angenommen, dass die obige Berechnungsformel für Matrizen K(n−1)×(n−1) eine Determinante mit den Eigenschaften (D1)-(D3) ist (Induktionsannahme). Nun folgert man, dass die Formel für Matrizen A ∈ Kn×n eine Determinante ist: (D1) Um die Linearität bzgl. einer Zeile zu zeigen, wähle man beliebig die k-te Zeile. Dann findet man in jedem der Summanden (−1)i+j · aij · det Aij die Einträge der k-ten Zeile entweder nur in den aij (falls k = i und daher die k-te Zeile in Aij gestrichen ist) oder nur in Aij (falls k 6= i). Im ersten Fall ist der Summand damit linear in der k-ten Zeile, im zweiten Fall ebenfalls nach Induktionsvoraussetzung. Somit ist für die Entwicklungsformel jeder Summand linear bzgl. der k-ten Zeile und daher auch die gesamte Summe. 190 9.2 Berechnung von Determinanten (D2) Seien in A die k-te und l-te Zeile gleich. Für i ∈ / {k, l} sind dann in Aij ebenfalls zwei Zeilen gleich, da keine dieser beiden Zeilen gestrichen wird und nach Induktionsvoraussetzung gilt somit det Aij = 0 für i ∈ / {k, l}. Die Formel vereinfacht sich zu n X det A = (−1)i+j · aij · det Aij i=1 = (−1)k+j · akj · det Akj + (−1)l+j · alj · det Alj = (−1)j · akj · ((−1)k · det Akj + (−1)l · det Alj ) denn wegen der Zeilengleichheit gilt zudem akj = alj für jedes 1 ≤ j ≤ n. Nun betrachtet man die beiden Untermatrizen Akj und Alj genauer: Gilt |k − l| = 1 so sind die beiden identischen Zeilen direkt untereinander und es ist egal, welche der Zeilen man streicht, d.h. det Akj = det Alj . Liegen zwischen den beiden identischen Zeilen genau eine weitere Zeile, |l − k| = 2, so kann man durch eine Zeilenvertauschung det Akj in det Alj überführen. Im Allgemeinen gilt: Liegen die identischen Zeilen den Abstand |l − k| auseinander, so benötigt man |l − k| − 1 Zeilenvertauschungen, um det Akj in det Alj zu überführen. Nach Induktionsvoraussetzung gilt somit det Akj = (−1)|l−k|−1 · det Alj . Man findet (ohne Einschräkung sei l > k) det A = (−1)j · akj · ((−1)k · (−1)|l−k|−1 · det Alj + (−1)l · det Alj ) = (−1)j · akj · ((−1)l−1 + (−1)l ) · det Alj = 0. {z } | =0 (D3) Nach Induktionsvoraussetzung gilt det 1n−1 = 1 und daher auch det (1n ) = (−1)j+j · 1 · det ((1n )jj ) = (−1)2j · 1 · det (1n−1 ) = 1. Beispiel 9.11 Man berechnet somit die Determinante einer 3x3 Matrix nach der ersten Spalte zu a11 a12 a13 det a21 a22 a23 a31 a32 a33 a22 a23 a12 a13 a12 a13 = a11 · det − a21 · det + a31 · det a32 a33 a32 a33 a22 a23 = a11 a22 a33 − a11 a23 a32 − a21 a12 a33 + a21 a13 a32 + a31 a12 a23 − a31 a13 a22 . Dies wird auch als Regel von Sarrus bezeichnet. Man merkt sich diese, indem man die ersten beiden Spalten noch einmal hinter die Matrix schreibt und dann die Diagonalen multipliziert, mit +1 oder −1 gewichtet und aufsummiert. Ebenso merkt man sich auch die Regel für 2 × 2 Matrizen graphisch wie folgt: 191 9 Determinanten + a11 a21 Für 2 × 2: − + a11 + a12 + a13 a11 a12 a12 a21 a22 a23 a21 a22 a22 a31 Für 3 × 3: − a32 − a33 − a31 a32 Die Zeilen scheinen gegenüber den Spalten einer Matrix gemäß der Definition (D1)-(D3) eine ausgezeichnete Rolle zu spielen. Dies ist jedoch nicht der Fall, denn man könnte analog auch eine Determinante über die Spalten definieren. Dies sieht man an folgenden Aussagen, die man auch zur Definition der Determinante verwenden könnte. Satz 9.12 (Spalteneigenschaften der Determinante) Für die Determinante einer Matrix A ∈ Kn×n gilt: (D1)’ det ist linear in jeder Spalte. (D2)’ Sind in einer Matrix A zwei Spalten identisch, so gilt det A = 0. Beweis. (D1)’: Um zu sehen, dass die Determinante linear in der j-ten Spalte ist, schaut man sich die Entwicklung nach dieser Spalte an, det A = n X i=1 (−1)i+j · aij · det Aij . Da die Aij nicht von der gestrichenen j-ten Spalte abhängt, ist dies offensichtlich linear in dieser Zeile, denn es hängt bis auf Faktoren nur von aij ab. (D2)’: Sind zwei Spalten einer Matrix identisch, dann gilt Rang(A) < n und somit det A = 0. Aus dieser Symmetrie lässen sich aber auch direkt zwei Folgerungen ableiten. Satz 9.13 (Determinante der Transponierten) Für die Determinante jeder Matrix A ∈ Kn×n gilt det A = det AT . Beweis. Man zeigt direkt, dass auch die Abbildung det0 : A 7→ det AT die Eigenschaften einer Determinante hat: (D1) det AT ist linear in den Spalten von AT und somit linear in den Zeilen von A. (D2) Sind zwei Zeilen in AT identisch, dann ist Rang(AT ) < n und somit det AT = 0. (D3) Für die Einheitsmatrix gilt det 1Tn = det 1n = 1. Aufgrund der Eindeutigkeit der Determinantenfunktion gilt daher die obige Gleichheit. 192 9.2 Berechnung von Determinanten Damit lässt sich eine Determinante auch nach einer Zeile entwickeln. Satz 9.14 (Laplacescher Entwicklungssatz nach einer Zeile) Für n ≥ 2 lässt sich die Determinante einer Matrix A ∈ Kn×n induktiv nach einer beliebigen Zeile i ∈ {1, . . . , n} berechnen durch det A = n X j=1 (Entwicklung nach der i-ten Zeile). (−1)i+j · aij · det Aij Beweis. Man wendet die Entwicklung nach einer Spalte auf AT an und benennt die Indizes um: n n X X i+j T T det A = det A = (−1) · aij · det Aij = (−1)i+j · aji · det Aji T i=1 i=1 n X = (−1)i+j · aij · det Aij . j=1 Die Zeilenentwicklungsformel ist von der Form her einer Matrixmultiplikation sehr ähnlich. Daher definiert man die sogenannte komplementäre Matrix. Definition 9.15 (Komplementäre Matrix) Für eine Matrix A ∈ Kn×n ist die komplementäre Matrix A# ∈ Kn×n definiert durch i+j a# · det Aji . ij := (−1) Damit lässt sich die inverse Matrix als Formel angeben. Satz 9.16 (Darstellung der inversen Matrix) Für eine Matrix A ∈ Kn×n gilt A · A# = (det A) · 1n bzw. falls A invertierbar: A−1 = 1 A# . det A Beweis. Gemäß Entwicklung nach der k-ten Zeile gilt # (A · A )ik = n X j=1 aij · a# jk n X = (−1)k+j · aij · det Akj = det A0 , j=1 wobei die Matrix A0 aus A entsteht, indem man die k-te Zeile durch die i-te ersetzt. Somit folgt ( det A, i = k, (A0 = A) (A · A# )ik = 0, i 6= k, (A0 enthält zwei identische Zeilen). 193 9 Determinanten Beispiel 9.17 Für A ∈ K2×2 mit det A 6= 0 gilt −1 1 1 a22 −a12 a11 a12 −1 · = A# . A = = −a21 a11 a21 a22 a11 a22 − a12 a21 det A Satz 9.18 (Cramersche Regel) Für A ∈ Kn×n mit det A 6= 0 und b ∈ Kn sind die eindeutigen Lösungen des Gleichungssystems Ax = b gegeben durch a11 . . . a1,i−1 b1 a1,i+1 . . . a1n 1 .. .. . xi = · det · · · . . det A an1 . . . an,i−1 bn an,i+1 . . . ann Beweis. Die Lösung linear kombiniert die Spaltenvektoren von A zum Vektor b gemäß und somit gilt auch x1 · aS,1 + . . . + xi · aS,i + . . . + xn · aS,n = b x1 · aS,1 + . . . + (xi · aS,i − b) + . . . + xn · aS,n = 0. Damit sind diese Vektoren linear abhängig und die Determinante der daraus gebildeten Matrix verschwindet. Es folgt 0 = det (aS,1 , . . . , xi · aS,i − b, . . . , aS,n ) = xi · det (aS,1 , . . . , aS,i , . . . , aS,n ) − det (aS,1 , . . . , b, . . . , aS,n ). Die Fälle der Cramerschen Regel für n = 1, 2 sind bereits in der Einleitung des Kapitels aufgetreten. Hier findet sich also die gewünschte Verallgemeinerung für beliebige Dimensionen. Es gibt noch eine weitere Möglichkeit die Determinante einer Matrix zu berechnen. Dabei verwendet man die Vertauschungen der Zahlen 1 bis n. Definition 9.19 (Permutationen) Für jede natürliche Zahl n ∈ N bezeichnet Sn die Menge aller bijektiven Abbildungen τ : {1, . . . , n} → {1, . . . , n}. Die Elemente von Sn heißen Permutationen. Eine Permutation, die zwei benachbarte Zahlen vertauscht und alle anderen fest lässt, heißt Nachbarnvertauschung und jede Permutation lässt sich als Hintereinanderausführung von Nachbarnvertauschungen auffassen. Das Signum einer Permutation ist definiert durch ( +1, falls τ einer geraden Anzahl an Nachbarnvertauschungen entspricht, sign(τ ) := −1, falls τ einer ungeraden Anzahl an Nachbarnvertauschungen entspricht. 194 9.3 Determinante eines Endomorphismus Damit lässt sich die Formel von Leibniz angeben. Satz 9.20 (Leibnizsche Formel) Die Determinante einer Matrix A ∈ Kn×n lässt sich berechnen durch X det A = sign(τ ) · a1,τ (1) · . . . · an,τ (n) (Summe über alle Permutationen). τ ∈Sn Bemerkung 9.21 Die Cramersche Regel als auch die Determinantenformeln von Laplace und Leibniz sind in der Praxis (außer für sehr kleine Matrizen) nicht brauchbar, da sie viel Rechenaufwand für große n benötigen (die Anzahl der Permutationen und damit der Summanden ist: n!). Praktisch bestimmt man daher Lösungen und Determinanten durch das Umformen auf Dreiecksgestalt mit dem Verfahren von Gauß. Aus theoretischer Sicht sind diese Formel jedoch sehr interessant, denn an der Formel von Leibniz sieht man, dass (für den Fall K = R oder C) die Determinante ein Polynom in den Einträgen der Matrix ist und somit nach diesen differenzierbar und damit stetig ist. Ebenso zeigt die Cramersche Regel, dass die Lösung x eines Gleichungssystem Ax = b stetig von A und b abhängt. Bemerkung 9.22 Unter einem n-dimensionalen Parallelotop (Parallelogramm in 2D, Spat in 3D) versteht man zu den Vektoren a1 , . . . , an die Menge P (a1 , . . . , an ) = {λ1 a1 + . . . + λn an | 0 ≤ λi ≤ 1 für alle 1 ≤ i ≤ n}. Das n-dimensionale Volumen, das von P beschreiben wird, kann man mit Hilfe der Determinanten berechnen, indem man die Vektoren als Spalten einer Matrix verwendet: Vol(P (a1 , . . . , an )) = | det(a1 , . . . , an )|. 9.3 Determinante eines Endomorphismus Die Determinante ist zunächst nur für eine Matrix definiert. Man kann jedoch auch einem Endomorphismus (einer linearen Abbildung eines Vektorraums auf sich selbst) eine Determinante zuordnen. Definition 9.23 (Determinante eines Endomorphismus) Sei V ein K-Vektorraum und f : V → V eine lineare Abbildung. Sei die lineare Abbildung bzgl. einer (beliebig gewählten) Basis B als Matrix MB,B (f ) dargestellt. Dann ist die Determinante von f definiert durch det f := det (MB,B (f )) . Es lässt sich fragen, ob diese Definition sinnvoll ist, da die Matrixdarstellung von der Basiswahl abhängt und damit auch die Determinante des Endomorphismus bei verschiedener Wahl der Basis verschieden sein könnte. Dies ist zum Glück nicht der Fall. 195 9 Determinanten Satz 9.24 (Ähnlich Matrizen haben dieselbe Determinante) Ähnliche Matrizen haben dieselbe Determinante. e ähnlich, dann gibt es eine invertierbare Matrix S, so Beweis. Sind zwei Matrizen A, A −1 e = SAS gilt. Damit folgt auch dass A e = det(SAS−1 ) = det(S) det(A) det(S−1 ) = det(S) det(S)−1 det(A) = det(A). det(A) Satz 9.25 (Eindeutigkeit der Determinante eines Endomorphismus) Die Determinante eines Endomorphismus ist von der Basiswahl unabhängig. Beweis. Seien B und Be zwei Basen. Dann gilt −1 MB, e Be(f ) = TB,B e · MB,B (f ) · TB,B e und die Darstellungsmatrizen sind ähnlich, haben also dieselbe Determinante. 196 10 Eigenwerte Zu einer linearen Abbildung f : V → W kann man ein Paar von Basen BV und BW so finden, dass die Matrixdarstellung der Abbildung bzgl. dieser Basen eine Diagonalgestalt hat. In der Sprache der Matrizen bedeutet dies, dass man zu einer Darstellungsmatrix A stets zwei inververtierbar Matrizen S und T finden kann, so dass durch 1r 0 −1 S·A·T = 0 0 die Matrix A mit r = Rang(A) auf eine Matrix in Diagonalgestalt transformiert wird und die nötigen Transformationsmatrizen können algorithmisch ermittelt werden. Bedeutend schwieriger wird die Fragestellung, wenn man zu einer linearen Abbildung eines Vektorraums auf sich selbst (d.h. zu einem Endomorphismus) f :V →V übergeht und eine einzige Basis BV sowohl für Urbildraum und Bildraum wählen möchte - erneut derart, dass die Darstellungsmatrix einfache Gestalt besitzt. Da man nun nur noch die Freiheit hat, eine anstatt zwei Basen zu wählen, ist dieses Problem aufwändiger zu lösen und im Allgemeinen wird man keine Transformation auf Diagonalgestalt finden. In der Sprache der Matrizen ausgedrückt stellt sich also die Frage, ob und wann eine invertierbare Matrix S existiert, so dass man zu einer quadratischen Matrix A eine möglichst einfache Darstellung erhalten kann. e = S · A · S−1 A 10.1 Eigenwert, Eigenvektor und Eigenräume Definition 10.1 (Eigenwert und Eigenvektor) Sei V ein K-Vektorraum und f : V → V ein Endomorphismus. Ein λ ∈ K heißt Eigenwert von f , falls es einen Vektor v ∈ V mit v 6= 0 gibt, so dass gilt f (v) = λ · v. Zu einem Eigenwert λ ∈ K heißt jeder vom Nullvektor verschiedene Vektor v ∈ V Eigenvektor, sofern f (v) = λ · v gilt. 197 10 Eigenwerte Eigenvektoren eines Endomorphismus sind also diejenigen Vektoren, die auf ein Vielfaches von sich selbst abgebildet werden und der Faktor, um den bei dieser Abbildung der Eigenvektor gestreckt wird, ist der zugehörige Eigenwert. Bemerkung 10.2 Der Nullvektor 0 ∈ V ist per Definition niemals Eigenvektor von f . Es kann aber durchaus 0 ∈ K ein Eigenwert von f zu Eigenvektoren v 6= 0 sein. Beispiel 10.3 (i) Sei V = R und f (x) := 5 · x. Dann ist λ = 5 ein Eigenwert von f und und jeder Vektor v ∈ R, v 6= 0 ist Eigenvektor. (ii) Sei V = R2 und f (x) := 1 −1 x1 · . −1 1 x2 Dann findet man durch 1 −1 1 2 1 · = = 2 · , −1 1 −1 −2 −1 1 −1 1 0 1 · = = 0 · −1 1 1 0 1 zwei Eigenwerte von f : λ1 = 2 und λ2 = 0. Als Eigenvektoren findet man 1 für λ1 = 2 : alle v = µv1 = µ · , für jedes µ 6= 0, −1 1 für λ2 = 0 : alle v = µv2 = µ · , für jedes µ 6= 0. 1 (iii) Sei V = C ∞ ((a, b); R) der Raum der beliebig oft differenzierbaren reellwertigen Funktionen auf dem Intervall (a, b). Betrachtet man als Endomorphismus D : V → V, f 7→ f 0 die Ableitung der Funktionen, dann findet man zu jedem λ ∈ R die Eigenvektoren 0 v(x) = eλx , denn D(v) = eλx = λeλx = λv. (iv) Sei V = R3 und λ1 0 0 x1 f (x) = 0 λ2 0 · x2 . 0 0 λ3 x3 Dann sind die kanonischen Basisvektoren e1 , e2 , e3 Eigenvektoren und es gilt f (ei ) = λi ei , 198 für i = 1, . . . , 3. 10.1 Eigenwert, Eigenvektor und Eigenräume Stellt man also einen beliebigen Vektor x = x1 e1 +x2 e2 +x3 e3 durch diese Basis dar, so ist die Anwendung der linearen Abbildung nur eine Skalierung in den jeweiligen Basisrichtungen f (x) = f (x1 e1 + x2 e2 + x3 e3 ) = x1 f (e1 ) + x2 f (e2 ) + x3 f (e3 ) = x1 λ1 e1 + x2 λ2 e2 + x3 λ3 e3 . (Darstellung durch Basis) (Linearität) (Eigenwertgleichung) Am letzten Beispiel hat sich folgendes gezeigt: Kann man eine Basis von V finden, die nur aus Eigenvektoren von f : V → V besteht, so lässt sich jeder Vektor in dieser Basis notieren und die Anwendung von f ist einfach nur noch eine Skalierung der Koeffizienten mit den Eigenwerten. Dies motiviert die folgende Definition. Definition 10.4 (Diagonalisierbar) Ein Endomorphismus f : V → V heißt diagonalisierbar, wenn es eine Basis aus Eigenvektoren gibt. Eine Basis aus Eigenvektoren möchte man sehr gerne finden, denn mit ihr wird die Matrixdarstellung eines Endomorphismus besonders einfach. Die Matrixdarstellung von f hat nämlich bzgl. dieser Basis dann eine Diagonalgestalt und auf der Diagonalen stehen die Eigenwerte zu den Eigenvektoren. Satz 10.5 (Diagonalgestalt eines Endomorphismus) Sei f : V → V ein Endomorphismus eines n-dimensionalen Vektorraums V . Dann ist f genau dann diagonalisierbar, wenn es eine Basis B = {v1 , . . . , vn } gibt, so dass die Darstellungsmatrix die Diagonalgestalt der Form λ1 . . . 0 MB,B (f ) = ... . . . ... 0 . . . λn mit den zugehörigen Eigenwerten λ1 , . . . , λn besitzt. Beweis. Gibt es eine Basis aus Eigenvektoren B = {v1 , . . . , vn } mit den zugehörigen Eigenwerten λ1 , . . . , λn , dann gilt für die Darstellungsmatrix f (vj ) = λj vj = n X λi δij vi , j = 1, . . . , n i=1 und die Darstellungsmatrix hat die gesuchte Gestalt. Gibt es umgekehrt eine Basis bzgl. der die Darstellung die Diagonalgestalt besitzt, dann sind alle Vektoren der Basis Eigenvektoren. Leider ist es nicht immer möglich, eine solche Basis aus Eigenvektoren zu finden. Dies macht man sich anschaulich schon an Beispielen in zwei Dimensionen direkt klar. 199 10 Eigenwerte Beispiele 10.6 (i) Die Drehung mit einen festen Winkel α um den Ursprung f :R →R , 2 2 x1 cos(α) − sin(α) x1 7→ · x2 sin(α) cos(α) x2 bildet – außer für α = 0 oder π – keinen Vektor auf ein Vielfaches von sich selbst ab. f (x) α x 0 Daher besitzt die Drehung keine Eigenvektoren und Eigenwerte (außer für die Fälle α = 0, d.h. f (x) = x, und α = π, d.h. f (x) = −x). (ii) Für die Scherung mit Faktor m ∈ R in Richtung der Abszisse f :R →R , 2 2 1 m x1 x1 7→ · x2 x2 0 1 ist jeder Vektor v = c · e1 (c ∈ R) ein Eigenvektor und der Eigenwert ist 1. x f (x) 0 Alle anderen Vektoren x mit x2 6= 0 werden nicht auf ein Vielfaches abgebildet. Daher besitzt die Scherung nur diesen einen Eigenwert. (iii) Die Spieglung an einer Ursprungsgerade mit Winkel α zwischen Abszisse und Gerade f :R →R , 2 2 x1 cos(2α) sin(2α) x1 7→ · x2 sin(2α) − cos(2α) x2 besitzt eine Basis aus Eigenvektoren. 200 10.1 Eigenwert, Eigenvektor und Eigenräume v2 = x cos(α+ π2 ) sin(α+ π2 ) v1 = cos(α) sin(α) α α 0 = f (v1 ) 0 f (x) f (v2 ) = − cos(α+ π2 ) − sin(α+ π2 ) Dazu wählt man einen Eigenvektor entlang der Spiegelgeraden (mit Eigenwert 1) und einen Eigenvektor senkrecht zur Spiegelgeraden (mit Eigenwert −1). Diese Beispiele zeigen, dass die Anzahl an Eigenwerten verschieden sein kann. Es stellt sich also die Frage, wie viele Eigenwerte ein Endomorphismus besitzen kann. Satz 10.7 (Eigenvektoren zu paarweise verschiedenen Eigenwerten sind linear unabhängig) Sei f : V → V ein Endomorphismus mit Eigenvektoren v1 , . . . , vk zu paarweise verschiedenen Eigenwerten λ1 , . . . , λk (d.h. λi 6= λj für i 6= j). Dann sind die Vektoren (v1 , . . . , vk ) linear unabhängig und somit k ≤ dim V . Beweis. Dies sieht man per Induktion nach k. Für k = 1 ist der Eigenvektor v1 6= 0 linear unabhängig und der Induktionsanfang ist gezeigt. Sei daher angenommen, die Aussage gilt für k − 1, d.h. die Eigenvektoren (v1 , . . . , vk−1 ) zu paarweise verschiedenen Eigenwerten seien linear unabhängig. Ist nun vk ein weiterer Eigenvektor mit anderem Eigenwert, dann betrachtet man α1 v1 + . . . + αk−1 vk−1 + αk vk = 0. Diese Gleichung kann man zum einen mit λk multiplizieren, zum anderen auch f darauf anwenden. Man findet durch Subtraktion der so entstehenden Gleichungen α1 λk v1 + . . . + α 1 λ1 v1 + . . . + αk−1 λk vk−1 + αk λk vk = 0, αk−1 λk−1 vk−1 + αk λk vk = 0, ⇒ α1 (λk − λ1 )v1 + . . . + αk−1 (λk − λk−1 )vk−1 = 0, und nach Induktionsannahme müssen daher alle α1 = . . . = αk−1 = 0 sein, da alle Eigenwerte verschieden sind. Somit verbleibt αk vk = 0 und da für den Eigenvektor vk 6= 0 gilt, folgt auch αk = 0. Ein Endomorphismus eines Vektorraums mit n = dim V hat also höchstens n Eigenwerte und in den obigen Beispielen hat sich gezeigt, dass diese verschiedenen Anzahlen auch 201 10 Eigenwerte tatsächlich realisiert werden können. Die Anzahl der Eigenvektoren ist im Allgemeinen viel größer als die Anzahl der Eigenwerte, denn zu einem Eigenvektor v ist auch w := c·v wegen f (w) = f (cv) = c · f (v) = λ · c · v = λ · w ein Eigenvektor. Daher fasst man alle Eigenvektoren zu einem Eigenwert zusammen. Definition 10.8 (Eigenraum) Sei f : V → V ein Endomorphismus und λ ∈ K. Dann heißt Eig(f ; λ) := {v ∈ V | f (v) = λv} der Eigenraum von f bzgl. λ. Dass die Bezeichnung Eigenraum berechtigt ist, ist dadurch begründet, dass es sich um einen Untervektorraum handelt. Diese sieht man am elegantesten unter Verwendung der identischen Abbildung idV : V → V, v 7→ v, die jeden Vektor auf sich selbst abbildet. Satz 10.9 (Charakterisierung des Eigenraums) Für den Eigenraum Eig(f ; λ) gilt: (i) Eig(f ; λ) ⊂ V ist ein Untervektorraum, (ii) Eig(f ; λ) = Kern(f − λ idV ), (iii) λ ist Eigenwert ⇔ Eig(f ; λ) 6= {0}. Beweis. Man findet direkt die Äquivalenz f (v) = λv ⇔ 0 = f (v) − λv = (f − λ idV )(v), damit die Darstellung als Eig(f ; λ) = Kern(f − λidV ) und der Kern ist stets ein Untervektorraum. Ist der Kern nicht nur der Nullvektor, dann gibt es einen Eigenvektor und damit ist λ auch Eigenwert. Da ein Eigenraum ein Vektorraum ist, lässt sich auch dessen Dimension ermitteln. Definition 10.10 (Geometrische Vielfachheit) Zu einem Eigenwert λ heißt die Dimension dim Eig(f ; λ) des Eigenraums die geometrische Vielfachheit des Eigenwerts. 10.2 Das charakteristische Polynom Es stellt sich nun die Frage, wie man zu einem Endomorphismus die Eigenwerte und Eigenvektoren algorithmisch bestimmen kann. Hat man bereits einen Eigenwert gefunden, so lassen sich die zugehörigen Eigenvektoren automatisiert direkt ermitteln, indem 202 10.2 Das charakteristische Polynom man den Kern der Abbildung f − λ idV bestimmt. Die algorithmische Bestimmung der Eigenwerte selbst gestaltet sich jedoch schwieriger. Dazu ist die Determinante ein entscheidenes Hilfsmittel. Satz 10.11 (Eigenwertgleichung) Sei f : V → V ein Endomorphismus und dim V < ∞. Dann gilt λ ist Eigenwert ⇔ det (f − λ idV ) = 0. Beweis. λ ist Eigenwert ⇔ Eig(f ; λ) 6= {0} ⇔ Kern(f − λ idV ) 6= {0} ⇔ Im(f − λ idV ) 6= V ⇔ Rang(f − λ idV ) < dim V ⇔ det (f − λ idV ) = 0 (Charakterisierung Eigenraum, (iii)) (Charakterisierung Eigenraum, (ii)) (Dimensionssatz) (Definition Rang) (Definition der Determinante) Damit kann man alle Eigenwerte finden, indem man die Nullstellen der Abbildung λ 7→ det (f − λ idV ) bestimmt. Definition 10.12 (Charakteristisches Polynom) Sei der Endomorphismus f : V → V bzgl. einer Basis B als Matrix A := MB,B (f ) dargestellt. Das charakteristische Polynom von f ist definiert durch a11 − λ a12 ... a1n a21 a22 − λ . . . a2n Pf (λ) := det (f − λ idV ) = det (A − λ1) = det .. .. . . . . . . an1 an2 . . . ann − λ Dass es sich bei dieser Abbildung tatsächlich - wie der Name sagt - um ein Polynom handelt, sieht man wie folgt. Satz 10.13 (Eigenschaften des charakteristischen Polynoms) Für einen Endomorphismus f : V → V mit n := dim V ≤ ∞ gilt: (i) Das charakteristische Polynom Pf (λ) ist von der Wahl der Basis unabhängig. (ii) Ist f bzgl. einer Basis B als Matrix A := MB,B (f ) dargestellt, dann gibt es Koeffizienten α0 , . . . , αn ∈ K, so dass das charakteristische Polynom die Darstellung Pf (λ) = αn λn + αn−1 λn−1 + . . . + α1 λ + α0 hat und für die Koeffizient gilt αn = (−1)n , αn−1 = (−1)n−1 (a11 + . . . + ann ) und α0 = det A. 203 10 Eigenwerte Beweis. (i) Ähnliche Matrizen haben dieselbe Determinante. (ii) Sei zunächst sogar allgemeiner eine Matrix B gegeben, die aus insgesamt k Einsen und sonst nur Nullen besteht, jedoch in jeder Zeile und jeder Spalte maximal eine Eins vorkommt. Dann sieht man per Induktion nach n und k ≤ n, dass det (A − λB) ein Polynom von Grad k ist und somit die Darstellung α ek λk +. . .+ α e1 λ+ α e0 mit α e0 , . . . , α ek ∈ K hat: Für n = 1 gilt det (a11 − λ · 1) = (−1) · λ + a11 oder det (a11 − λ · 0) = a11 und damit die Aussage. Sei nun angenommen, die Darstellung gilt für (n − 1) × (n − 1)-Matrizen. Ist B = 0, dann gilt die Darstellung sofort. Andernfalls seien 1 ≤ r, s ≤ n so gewählt, dass brs = 1 gilt, und die Determinante nach der s-ten Spalte entwickelt: det (A − λB) = (−1) r+s n X · (ars − λ) · det ((A − λB)rs ) + (−1)i+s · ais · det ((A − λB)is ). i=1 i6=r Da in den Untermatrizen Bis , i = 1, . . . , n, nur Elemente aus Zeilen und Spalten entfernt werden, haben diese weiterhin nur maximal eine Eins pro Zeile und Spalte. Für i 6= r bleibt die Gesamtzahl der Einsen bei k (falls nur Nullen gestrichen werden). In Brs wird jedoch sicher eine Eins gestrichen und man hat daher höchstens k − 1 Einsen. Nun kann man die Induktionsannahme anwenden und erhält vom ersten Teil einen Term proportial zu λ · λk−1 = λk und Terme niedrigerer Ordnung. Durch den zweiten Teil bekommt man maximal Terme der Ordnung λk . Sei nun der spezielle Fall mit B = 1 betrachtet. Den konstanten Koeffizienten eines Polynoms findet durch Einsetzen der Null und damit α0 = det(A − 0 · 1) = det(A). Für die Darstellung der höchsten Koeffizienten führt man erneut eine Induktion nach n. Für n = 1 hat das charakteristische Polynom die gesuchte Form. Sei daher angenommen, dies gilt auch für n − 1. Dann kann man nun nach der ersten Spalte entwickeln n X det (A − λB) = (a11 − λ) · det ((A − λ1n )11 ) + (−1)i+1 · ai1 · det ((A − λ1n )i1 ). i=2 Nach Induktionsannahme hat die Determinante der ersten Untermatrix die Form det ((A − λ1n )11 ) = (−1)n−1 λn−1 + (−1)n−2 (a22 + . . . + ann )λn−2 + . . . + α0 und die Untermatrizen für i 6= 1 haben in 1n sogar zwei Einsen gestrichen, die Determinante ist somit gemäß obiger Ausführung maximal ein Polynom der Ordnung n − 2. Für die beiden höchsten Koeffizienten kann man daher nur den ersten Term betrachten und findet für den höchsten Grad −λ · (−1)n−1 λn−1 = (−1)n λn . Für den zweithöchsten Grad findet man a11 · (−1)n−1 + (−λ) · (−1)n−2 (a22 + . . . + ann )λn−2 = (−1)n−1 (a11 + a22 + . . . + ann )λn−1 . Man findet also alle Eigenwerte zu einem Endomorphismus, indem man sämtliche Nullstellen des charakteristischen Polynoms bestimmt. Dazu ein paar Beispiele. 204 10.2 Das charakteristische Polynom Beispiele 10.14 (i) Man findet für A = PA (λ) = det (A − λ1) = det 1 −1 das Polynom −1 1 1−λ −1 −1 = (1 − λ)2 − 1 1−λ = λ2 − 2λ + 1 − 1 = λ2 − 2λ = (λ − 2) · (λ − 0) und damit die Nullstellen (und Eigenwerte) λ1 = 2 und λ2 = 0. (ii) Für die Drehung um den Winkel α = 0 −1 A= 1 0 π 2 findet man wegen −λ −1 PA (λ) = det (A − λ1) = det = λ2 + 1 1 −λ keine reellen Nullstellen und somit gibt es auch keine Eigenwerte. (iii) Für die Scherung mit Faktor m ∈ R findet man durch A= 1 m 0 1 1−λ m PA (λ) = det (A − λ1) = det 0 1−λ = (λ − 1)2 die Nullstelle (und damit den einzigen Eigenwert) λ1 = 1. (iv) Für die Spiegelung an der Geraden mit Winkel α findet man mittels cos(2α) sin(2α) A= sin(2α) − cos(2α) cos(2α) − λ sin(2α) PA (λ) = det (A − λ1) = det sin(2α) − cos(2α) − λ = (cos(2α) − λ) · (− cos(2α) − λ) − sin2 (2α) = λ2 − (cos2 (2α) + sin2 (2α)) = λ2 − 1 = (λ − 1)(λ + 1) die Nullstellen (und damit zwei Eigenwerte) λ1 = 1 und λ2 = −1. Im Allgemeinen ist es jedoch nicht so leicht die Nullstellen von Polynomen zu finden. Meist kann man die Nullstellen nur durch numerische Methoden (z.B. das NewtonVerfahren) annähern. Findet man jedoch eine Nullstelle, dann lässt sich die Suche nach den weiteren Nullstellen vereinfachen. Satz 10.15 (Linearfaktor einer Nullstelle) Ist λ0 ∈ K eine Nullstelle von p ∈ K[λ], dann gibt es ein eindeutig bestimmtes Polynom q ∈ K[λ], so dass man denn Linearfaktor (λ − λ0 ) abspalten kann durch (i) p(λ) = (λ − λ0 ) · q(λ), (ii) deg(q) = deg(p) − 1. 205 10 Eigenwerte Beweis. Ist p ein Polynom vom Grad n, dann ist auch p̃(x) := p(x + λ0 ) ein Polynom vom Grad n und wegen p̃(0) = p(λ0 ) = 0 hat dieses eine Nullstelle bei Null, ist also von der Form p̃(x) = an xn + . . . + a2 x2 + a1 x = x · (an xn−1 + . . . + a2 x + a1 ). Somit findet man durch die Wahl x = λ − λ0 auch die Darstellung p(λ) = p̃(λ − λ0 ) = (λ − λ0 ) · (an (λ − λ0 )n−1 + . . . + a2 (λ − λ0 ) + a1 ) . | {z } :=q(λ) Spaltet man einen Linearfaktor ab, so kann das verbleibenden Polynom wiederum eine Nullstelle besitzen und man daher auch aus diesem einen weiteren Linearfaktor herausziehen. Dies kann man so lange durchführen bis das verbleibende Polynom keine Nullstelle mehr besitzt. Dabei kann es natürlich vorkommen, dass eine Nullstelle mehrfach auftritt. Diese fasst man dann in der Darstellung zusammen. Definition 10.16 (Vielfachheit von Nullstellen) Sind die λ1 , . . . , λk ∈ K die paarweise verschiedenen Nullstellen eines Polynoms p ∈ K[λ] und gilt die Darstellung p(λ) = (λ − λ1 )m1 · . . . (λ − λk )mk · q(λ) mit einem Polynom q ∈ K[λ] vom Grad n − m1 − . . . − mk ohne Nullstellen, dann bezeichnet man µ(p; λi ) := mi als die Vielfachheit der Nullstelle λi . Gilt zusätzlich deg(q) = 0 (konstantes Polynom), dann spricht man davon, dass das Polynom p in Linearfaktoren zerfällt. Ob und wie ein Polynom in Linearfaktoren zerfällt, ist eine delikate Frage. Für den reellen und den komplexen Körper ist in der Literatur folge Aussage bekannt. Satz 10.17 (Zerlegung von Polynomen) Für Polynome über den Körper K = R und C findet man: (i) Jedes komplexe Polynom p ∈ C[λ] mit n = deg(p) zerfällt in Linearfaktoren, d.h. es gibt einen konstanten Faktor c ∈ C und komplexe Nullstellen λ1 , . . . , λn ∈ C mit p(λ) = c · (λ − λ1 ) · . . . · (λ − λn ). (ii) Jedes reelle Polynom p ∈ R[λ] mit n = deg(p) besitzt eine Zerlegung p(λ) = c · (λ − λ1 ) · . . . · (λ − λr ) · q1 · . . . · qm , wobei der konstante Faktor c ∈ R und die Nullstellen λ1 , . . . , λr ∈ R reell sind und q1 , . . . , qm ∈ K[λ] Polynome ohne reelle Nullstelle vom Grad 2, d.h. n = r + 2m. 206 10.3 Diagonalisierung Aus der letzten Aussage folgt im Speziellen, dass jedes reelle Polynom von ungeradem Grad mindestens eine Nullstelle besitzen muss. Definition 10.18 (Algebraische Vielfachheit) Zu f : V → V nennt man die Vielfachheit µ(Pf ; λi ) einer Nullstelle λi des charakteristischen Polynoms die algebraische Vielfachheit des Eigenwerts λi . 10.3 Diagonalisierung Kennt man die Eigenwerte eines Endomorphismus, kann man auf die Frage der Diagonalisierbarkeit zurückkommen. Ein einfaches, jedoch nur hinreichendes Kriterium findet man direkt aus der Tatsache, dass Eigenvektoren zu verschiedenen Eigenwerten linear unabhängig sind. Satz 10.19 (Hinreichendes Kriterium für Diagonalisierung) Sei V ein Vektorraum mit Dimension n = dim V < ∞. Es gilt: f : V → V hat genau n = dim V paarweise verschiedene Eigenwerte ⇒ f diagonalisierbar. Beweis. Da alle Eigenwerte verschieden sind, sind die zugehörigen Eigenvektoren (v1 , . . . , vn ) linear unabhängig und damit eine Basis von V . Anders herum lässt sich zu einem diagonalisierbaren Endomorphimus das charakteristische Polynom einfach berechnen. Zwingend notwendig für die Diagonalisierbarkeit ist daher sicherlich, dass das Polynom in Linearfaktoren zerfällt. Satz 10.20 (Notwendiges Kriterium für die Diagonalisierung) Sei V ein Vektorraum mit Dimension n = dim V < ∞. Es gilt: f diagonalisierbar Das charakteristische Polynom zerfällt in n Linearfaktoren: Pf (λ) = ±(λ − λ1 ) · . . . · (λ − λn ) ⇒ Beweis. Da f diagonalisierbar ist, findet man eine Darstellung A := MB,B (f ) in Diagonalgestalt. Das charakteristische Polynom ergibt sich dann sofort zu λ1 − λ . . . 0 .. = (λ − λ) · . . . · (λ − λ). .. Pf (λ) = det (A − λ1n ) = det ... . 1 n . 0 . . . λn − λ 207 10 Eigenwerte Es verbleibt damit nur noch die Frage zu klären, wann der Endomorphismus diagonalisierbar ist, wenn das charakteristische Polynom zwar in n Linearfaktoren zerfällt, jedoch die Eigenwerte nicht alle verschieden sind. Satz 10.21 (Kriterium für Diagonalisierbarkeit) Sei V ein Vektorraum mit Dimension dim V < ∞ und zum Endomorphismus f : V → V seien λ1 , . . . , λk die paarweise verschiedenen Eigenwerte von f . Dann gilt: f ist diagonalisierbar ⇔ ⇔ dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = dim V, (a) Das charakteristische Polynom zerfällt in Linearfaktoren: Pf (λ) = ±(λ − λ1 )µ(Pf ;λ1 ) · . . . · (λ − λk )µ(Pf ;λk ) (b) dim Eig(f ; λi ) = µ(Pf ; λi ) für alle Eigenwerte λi , i = 1, . . . , k, d.h. f ist genau dann diagonalisierbar, wenn eine der folgenden zwei äquivalenten Bedingungen erfüllt ist: (i) die Summe der Dimension der Eigenräume ist gleich der Dimension des Raums, (ii) das charakteristische Polynom zerfällt in Linearfaktoren und für alle Eigenwerte stimmen die geometrische und algebraische Vielfachheit überein. Beweis. Ist f diagonalisierbar, so gibt es eine Basis aus n Eigenvektoren und jeder dieser Vektoren liegt in genau einem der Eigenräume. Seien daher mi Basisvektoren in Eig(f ; λi ) und da diese linear unabhängig sind muss mi ≤ dim Eig(f ; λi ) gelten. Da man mit den Vektoren der Eigenräume nicht mehr als den gesamten Raum aufspannen kann, folgt damit n = m1 + . . . + mk ≤ dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) ≤ n und somit auch die Gleichheit dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = n. Gilt umgekehrt, dass die Summe der Dimension der Eigenräume der Dimension des Raumes entspricht, dann kann man zu jedem Eigenraum Eig(f ; λi ) (i = 1, . . . , k) ei(i) (i) ne Basis v1 , . . . , vni mit ni := dim Eig(f ; λi ) wählen (und diese sind als Basis linear unabhängig). Dann ist aber auch die Vereinigung dieser Basen (1) (k) (v1 , . . . , vn(1)1 , . . . , v1 , . . . , vn(k) ) k P P i (i) (i) P i (i) (i) linear unabhängig, denn aus ki=1 nr=1 αr vr = 0 folgt zunächst nr=1 α r vr = 0 (Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig) und damit sind (i) alle αr = 0. Damit ist eine Basis aus Eigenvektoren gefunden und dies zeigt die erste Äquivalenz. Betrachtet man die Vielfachheiten, dann stellt man zunächst dim Eig(f ; λi ) ≤ µ(Pf ; λi ) für jeden Eigenwert λi fest. Um dies zu sehen, wählt man eine Basis (v1 , . . . , vr ) von 208 10.3 Diagonalisierung Eig(f ; λi ) und ergänzt dies zu einer Basis B = (v1 , . . . , vr , . . . , vn ) von V . In dieser Basis hat nun der Endomorphismus die Darstellung λi . . . 0 .. . . . . . .. A = MB,B (f ) = 0 . . . λi 0 ∗ ∗ mit r-mal λi auf der Diagonalen. Durch Entwicklung nach den ersten r Spalten sieht man, dass im charakteristischen Polynom mindestens der Faktor (λi − λ)r vorkommen muss. Ist nun f diagonalisierbar, so zerfällt Pf in n := dim V Linearfaktoren mit den (evtl. mehrfachen) Nullstellen λ1 , . . . , λk . Für diese gilt nun dim Eig(f ; λi ) ≤ µ(Pf ; λi ) und dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = n, µ(Pf ; λ1 ) + . . . + µ(Pf ; λk ) = n. Dies ist nur möglich, wenn für alle i = 1, . . . , k auch dim Eig(f ; λi ) = µ(Pf ; λi ) gilt. Sind umgekehrt die Bedingungen (a) und (b) erfüllt, dann summieren sich die algebraischen Vielfachheiten von Pf zu n = dim V , dieses hat als zerfallendes Polynom vom Grad n genau so viele Nullstellen. Damit folgt auch dim Eig(f ; λ1 ) + . . . + dim Eig(f ; λk ) = n. Damit lässt sich das Vorgehen zur Diagonalisierung (sofern möglich) algorithmisch beschreiben: (1) Man stellt f : V → V bzgl. einer beliebigen Basis B als Matrix A = MB,B (f ) dar und berechnet das charakteristische Polynom Pf . (2) Man bestimmt eine Zerlegung Pf (λ) = ±(λ − λ1 )µ(Pf ;λ1 ) · . . . · (λ − λk )µ(Pf ;λk ) und damit die Nullstellen λ1 , . . . , λk von Pf und deren algebraische Vielfachheit µ(f ; λi ). Hindernis 1: Zerfällt Pf nicht in Linearfaktoren, dann kann man keine Diagonalisierung durchführen. (i) (i) (3) Man berechnet für jeden Eigenwert λi , i = 1, . . . , k, eine Basis (v1 , . . . , vni ) vom Eigenraum Eig(f ; λi ) und bestimmt damit dessen Dimension ni := dim Eig(f ; λi ). Hindernis 2: Ist dim Eig(f ; λi ) 6= µ(f ; λi ) für nur einen Eigenwert λi , dann kann man keine Diagonalisierung durchführen. (4) Die Aneinanderreihung der Basisvektoren ergibt die gesuchte Basis (1) (k) Be = (v1 , . . . , vn(1)1 , . . . , v1 , . . . , vn(k) ) k 209 10 Eigenwerte bezüglich derer die Matrixdarstellung die Gestalt λ1 ... 0 λ1 .. e A = MB, . e Be(f ) = λk .. . 0 λk dim Eig(f ; λ1 ) − mal . .. dim Eig(f ; λk ) − mal −1 besitzt und so hat man mit S := TB,B := TB,Be die gesuchte Transformation e und S e = SAS−1 A bzw. −1 MB, e Be(f ) = TB,B e · MB,B (f ) · (TB,B e ) . Beispiele 10.22 (i) Betrachtet man das charakteristische Polynom zu 1 −1 1 − λ −1 A= ⇒ PA (λ) = det = (λ − 2) · (λ − 0), −1 1 −1 1 − λ so zerfällt dieses in Linearfaktoren und das Hindernis 1 tritt nicht ein. Für die beiden Eigenwert λ1 = 2 und λ2 = 0 bestimmt man nun noch den Eigenraum Eig(A; λi ) – d.h. alle Lösungen von (A − λi 12 ) · x = 0 – indem man eine Basis von Kern(A − λi 12 ) berechnet. Dazu bringt man die Matrizen auf reduzierte Zeilenstufenform und liest ab: 1 − 2 −1 −1 −1 1 1 1 = ⇒ Eig(A; 2) = span( ), −1 1 − 2 −1 −1 0 0 −1 1 − 0 −1 1 −1 1 −1 −1 = ⇒ Eig(A; 0) = span( ). −1 1 − 0 −1 1 0 0 −1 Damit sind algebraische und geometrische Vielfachheit jeweils gleich und Hindernis 2 tritt ebenfalls nicht ein. Daher ist die gesuchte Basis gegeben durch 1 −1 2 0 e = Be = ( , ), und A . −1 −1 0 0 Da die ursprüngliche Basis B = (e1 , e2 ) die kanonische war, findet man die Transformation durch Schreiben der Basis als Spalten der Transformationsmatrix 1 − 12 1 −1 −1 2 , S = TB,Be = , ⇒ S = TB,B e = − 21 − 12 −1 −1 und man rechnet zur Überprüfung nach 1 1 2 0 1 −1 1 −1 − 2 2 e = A = · · = SAS−1 . 0 0 −1 1 −1 −1 − 12 − 12 210 10.3 Diagonalisierung (ii) Für die Drehung um den Winkel α = π2 zerfällt das charakteristische Polynom 0 −1 −λ −1 A= ⇒ PA (λ) = det = λ2 + 1 1 0 1 −λ nicht in Linearfaktoren (Hindernis 1). Daher gibt es keine Diagonalisierung. (iii) Für die Scherung mit Faktor m ∈ R zerfällt das charakteristische Polynom 1 m 1−λ m A= ⇒ PA (λ) = det = (λ − 1)2 0 1 0 1−λ in Linearfaktoren und Hindernis 1 tritt nicht ein. Die Nullstelle λ1 = 1 hat algebraische Vielfachheit 2, jedoch berechnet man als Eigenraum 1−1 m 0 m 0 1 −1 = ⇒ Eig(A; 1) = span( ) 0 1−1 0 0 0 0 0 und damit ist die geometrische Vielfachheit nur dim Eig(A; 1) = 1. Damit tritt Hindernis 2 ein und es gibt keine Diagonalisierung. (iv) Für die Spiegelung an der Geraden mit Winkel α zerfällt das charakteristische Polynom cos(2α) sin(2α) A= ⇒ PA (λ) = (λ − 1)(λ + 1) sin(2α) − cos(2α) in verschiedene Linearfaktoren und die Matrix ist diagonalisierbar. Als Eigenwerte findet man λ1 = 1 und λ2 = −1 und die Diagonaldarstellung lautet damit 1 0 e A= . 0 −1 211 11 Euklidische und unitäre Vektorräume 11.1 Norm und Skalarprodukt Für den Rn lässt sich die Länge eines Vektors x durch die Norm kxk messen und durch hx,yi Skalarprodukte sogar der Winkel cos ](x, y) = kxk·kyk zwischen zwei Vektoren x, y ermitteln. Diese Eigenschaften möchte man gerne auf allgemeine Vektorräume übertragen und dazu werden die charakterisierenden Eigenschaften dieser geometrischen Begriffe benötigt. Ist ein Vektorraum über R oder C gegeben, so lassen sich die wesentlichen Eigenschaften der Länge eines Vektors wie folgt zusammenfassen. Definition 11.1 (Norm) Für einem K-Vektorraum V mit K = R oder C ist eine Abbildung k·k : V → R+ , v 7→ kvk eine Norm auf V , falls für alle v, w ∈ V und λ ∈ K die folgenden Eigenschaften gelten: (N1) (N2) (N3) kvk = 0 ⇔ v = 0, (Positive Definitheit) kλvk = |λ| · kvk, (Absolute Homogenität) kv + wk ≤ kvk + kwk. (Sublinearität) Gibt es auf einem Vektorraum V eine Norm k·k, so nennt man das Paar (V, k·k) einen normierten Raum. Erfüllt eine Norm nicht die Eigenschaft (N1), so nennt man sie eine Semi- oder Halbnorm. Die Halbnorm (und Norm) des Nullvektors ist stets Null und jede Halbnorm (und Norm) stets nicht-negativ, denn (N2) (N3) (N2) 0 = |0| · kvk = k0 · vk = k0k = kv + (−v)k ≤ kvk + k−vk = kvk + kvk = 2 · kvk . Beispiel 11.2 (i) Für V = Rn sind die folgenden Abbildungen eine Norm auf Rn : (a) Die kanonische Norm (oder euklidische Norm bzw. 2-Norm) q kxk2 := x21 + x22 + . . . + x2n = n X i=1 x2i ! 12 für x ∈ Rn . 213 11 Euklidische und unitäre Vektorräume (b) Die Summennorm (oder 1-Norm) n X kxk1 := |x1 | + |x2 | + . . . + |xn | = i=1 für x ∈ Rn . |xi | (c) Für alle p ≥ 1 die p-Norm n X p kxkp := p |x1 |p + |x2 |p + . . . + |xn |p = i=1 |xi |p ! p1 für x ∈ Rn . (d) Die Maximumsnorm (mit kxk∞ := lim kxkp ) p→∞ kxk∞ := max {|xi |} 1≤i≤n für x ∈ Rn . (ii) Für V = Cn ist die kanonische Norm k·k : Cn → R gegeben durch kzk := √ z1 z1 + . . . + zn zn = n X zi zi i=1 ! 21 = n X i=1 |zi |2 ! 12 für z ∈ Cn . (iii) Für den Raum der stetigen Funktionen V = C([a, b]; R) auf dem abgeschlossenen Intervall [a, b] sind die folgenden Abbildungen k·k : C([a, b]; R) → R eine Norm (a) Die 2-Norm kf k2 := Z a b |f (x)|2 dx 21 . (b) Die Supremumsnorm kf k∞ := sup{|f (x)| | a ≤ x ≤ b}. Die Beispiele zeigen, dass es zu einem Vektorraum viele verschiedene Normen geben kann. Üblicherweise ist aus dem Kontext ersichtlich, welche Norm verwendet wird, und man lässt daher den Subskript an der Norm weg. Oftmals ist sogar die Angabe nicht notwendig, denn viele Normen sind in folgendem Sinne äquivalent. Definition 11.3 (Äquivalente Normen) Zwei Normen k·kV,1 und k·kV,2 heißen äquivalent, falls es Konstanten c1 , c2 > 0 gibt, so dass gilt c1 kvkV,2 ≤ kvkV,1 ≤ c2 kvkV,2 214 für alle v ∈ V. (11.1) 11.1 Norm und Skalarprodukt Sind zwei Normen äquivalent, so lassen sich Abschätzungen in der einen Norm direkt auf die andere Norm übertragen. Ist der Raum V endlichdimensional, so sind alle Normen äquivalent. Beispiel 11.4 Für alle x ∈ Rn gilt: √ 1 √ kxk2 ≤ kxk∞ ≤ kxk1 ≤ n kxk2 . n Definition 11.5 (Normierter Vektor) Ein Vektor v ∈ V mit der Eigenschaft kvk = 1 heißt normiert. Jeden Vektor v 6= 0 kann man normieren, denn 1 1 = 1 · kvk = 1. e := ·v ⇒ ke vk = · v v kvk kvk kvk Um die Möglichkeit der Winkelmessung zu verallgemeinern, werden die wesentlichen Eigenschaften eines Skalarprodukts durch die folgende Definition beschrieben. Definition 11.6 (Skalarprodukt) Für einem K-Vektorraum V mit K = R oder C ist eine Abbildung h·, ·i : V × V → K, (v, w) 7→ hv, wi (11.2) ein Skalarprodukt (oder inneres Produkt), falls für alle u, v, w ∈ V und λ ∈ K die folgenden Eigenschaften erfüllt sind: (S1) hu, ui ≥ 0 und hu, ui = 0 ⇔ u = 0, (S2)(i) hu + v, wi = hu, wi + hv, wi, hλu, vi = λhu, vi, (S3) hu, vi = hv, ui. (Positive Definitheit) (Linear im 1. Argument) (Symmetrie / Hermitesch) Gibt es auf einem Vektorraum V ein Skalarprodukt h·, ·i, so nennt man das Paar (V, h·, ·i) einen Skalarproduktraum (oder Prä-Hilbertraum). Für eine reelle Zahl λ gilt stets λ = λ. Verwendet man zudem die Eigenschaft (S3), so findet man für die beiden Fälle erweiterte Eigenschaften. Für K = R: (S2)(ii) hu, v + wi = hu, vi + hu, wi, (S3) hu, vi = hv, ui, Für K = C: (S2)(ii) hu, v + wi = hu, vi + hu, wi, (S3) hu, vi = hv, ui. hu, λvi = λhu, vi, (Linear im 2. Argument) (Symmetrie) hu, λvi = λhu, vi, (Semilinear im 2. Argument) (Hermitesch) Man bezeichnet dabei eine lineare Funktion, die zwar additiv ist, jedoch die Homogenität nur halb erfüllt, f (λx) = λf (x), als semilinear. Dementsprechend wird die Eigenschaft 215 11 Euklidische und unitäre Vektorräume (S2)(i)-(S2)(ii) im komplexen Fall auch Sesquilinearität (1 12 -fach linear) und im reellen Fall Bilinearität (2-fach linear) genannt. Ein Skalarprodukt für einen reellen Vektorraum ist somit eine positiv definite, symmetrische Bilinearform und für einen komplexen Vektorraum eine positiv definite, hermitesche Sesquilinearform. Definition 11.7 (Euklidische und unitäre Vektorräume) Einen K-Vektorraum mit Skalarprodukt nennt man im Falle K = R einen euklidischen Vektorraum und im Falle K = C einen unitären Vektorraum. Beispiel 11.8 (i) Für V = Rn ist das kanonische Skalarprodukt h·, ·i : Rn × Rn → R definiert durch hx, yi := x1 y1 + x2 y2 + . . . + xn yn = n X xi y i i=1 für x, y ∈ Rn . (ii) Für V = Cn ist das kanonische Skalarprodukt h·, ·i : Cn × Cn → R definiert durch hz, wi := z1 w1 + . . . + zn wn = n X zi wi i=1 für z, w ∈ Cn . (iii) Für den Raum der stetigen Funktionen V = C([a, b]; R) ist ein Skalarprodukt h·, ·i : C([a, b]; R) × C([a, b]; R) → R gegeben durch hf, gi := Z b f (x)g(x) dx. a Besitzt ein Vektorraum ein Skalarprodukt, dann auch automatisch eine Norm. Satz 11.9 (Induzierte Norm) Auf jedem Skalarproduktraum gibt es die durch das Skalarprodukt induzierte Norm p kvk := hv, vi, für alle v ∈ V. Beweis. Durch die definierenden Eigenschaften des Skalarprodukts lassen sich direkt die Norm-Eigenschaften der induzierten Norm folgern. Für den Rn wird die Norm k·kp nur für p = 2 von einem Skalarprodukt induziert. Satz 11.10 (Cauchy-Schwarzsche Ungleichung) In einem Skalarproduktraum p (V, h·, ·i) gilt für beliebige Vektoren v, w ∈ V und mit der induzierten Norm k·k = h·, ·i die Cauchy-Schwarzsche Ungleichung |hv, wi| ≤ kvk · kwk . 216 11.2 Orthogonale Vektoren und Abbildungen Beweis. Für w = 0 gilt die Gleichung direkt. Für w 6= 0 und jedes λ ∈ C gilt 0 ≤ hv − λw, v − λwi = hv, vi − λhw, vi − λhv, wi + λλhw, wi. Für die Wahl λ = hv,wi kwk2 folgt damit 0 ≤ kvk2 − λhw, vi − λhv, wi + λλ kwk2 hv, wi hv, wi hv, wihv, wi kwk2 2 hw, vi − 2 hv, wi + kwk kwk kwk2 kwk2 |hv, wi|2 2 = kvk − kwk2 = kvk2 − und somit |hv, wi|2 ≤ kvk2 kwk2 . Wurzelziehen liefert die Behauptung. Aufgrund der Cauchy-Schwarzschen-Ungleichung gilt damit stets −1 ≤ hv, wi ≤1 kvk · kwk und somit macht die folgende Definition Sinn. Definition 11.11 (Winkel) In einem Skalarproduktraum (V, h·, ·i) ist der Winkel ](v, w) zwischen zwei Vektoren v, w ∈ V definiert durch cos ](v, w) := hv, wi . kvk · kwk Damit lässt sich auch zwischen zwei Funktionen eines Funktionenraums formal ein Winkel zuordnen. 11.2 Orthogonale Vektoren und Abbildungen Definition 11.12 (Orthogonale Vektoren) Sei (V, h·, ·i) ein Skalarproduktraum. (i) Zwei Vektoren v, w ∈ V heißen orthogonal oder senkrecht, falls gilt hv, wi = 0 (:⇔ v ⊥ w). 217 11 Euklidische und unitäre Vektorräume (ii) Zwei Untervektorräume U, W ⊂ V heißen orthogonal, falls gilt U ⊥W :⇔ für alle u ∈ U, w ∈ W. u⊥w (iii) Zu einem Untervektorraum U ⊂ V ist das orthogonale Komplement definiert als U ⊥ := {v ∈ V | v ⊥ u für alle u ∈ U }. (iv) Eine Familie (v1 , . . . , vk ) in V heißt orthogonal, falls vi ⊥ vj für alle i 6= j. Die Familie heißt orthonormal, falls zusätzlich kvi k = 1 für alle i = 1, . . . , k gilt. (v) Ist eine Basis von V eine orthonormale Familie, so heißt sie Orthonormalbasis. U U⊥ Eine Orthonormalbasis ist sehr wünschenswert, denn die Darstellung eines Vektors lässt sich dann mit Hilfe des Skalarprodukts ermitteln. Satz 11.13 (Entwicklung in der Orthonormalbasis) Sei (v1 , . . . , vn ) eine Orthonormalbasis von V . Dann gilt für jeden Vektor v ∈ V die Darstellung v= n X i=1 hv, vi i vi . Beweis. Die Koeffizienten der Linearkombination v = α1 v1 + . . . + αi vi + . . . + αn vn durch die Basis sind eindeutig bestimmt und man findet durch Skalarproduktbildung mit vi den Koeffizienten hv, vi i = α1 hv1 , vi i + . . . + αi hvi , vi i + . . . + αn hvn , vi i = αi . | {z } | {z } | {z } =0 =1 =0 Daher möchte man zu einem Vektorraum gerne eine Orthonormalbasis besitzen. Diese kann man wie folgt bestimmen. 218 11.2 Orthogonale Vektoren und Abbildungen Satz 11.14 (Gram-Schmidt Orthonormalisierung) Sei (V, h·, ·i) ein Skalarproduktraum mit n := dim V < ∞ und (v1 , . . . , vn ) eine Basis von V . Dann erhält man durch die rekursive Berechnung von ek := vk − v k−1 X i=1 hvk , wi i wi , 1 ek v wk := ke vk k (Orthogonalisierung) (Normierung) eine Orthonormalbasis (w1 , . . . , wn ) von V und somit besitzt jeder endlichdimensionale Skalarproduktraum eine Orthonormalbasis. Beweis. Induktion nach k: Seien die (w, . . . , wk−1 ) orthonormal. Dann ist der Vektor ek orthogonal zu allen wj mit j = 1, . . . , k − 1, denn es gilt v he vk , wj i = hvk , wj i − k−1 X i=1 hvk , wi i hwi , wj i = hvk , wj i − hvk , wj i = 0. Die Normalisierung liefert dann die Behauptung. Beispiel 11.15 Gegeben sei die Basis des R3 durch 1 0 0 v1 = 1 , v2 = 1 , v3 = 0 . 1 1 1 219 11 Euklidische und unitäre Vektorräume Dann findet man die Orthonormalbasis 1 e1 = v1 = 1 , v 1 √ ke v1 k = 3 ⇒ 1 1 √ 1 , w1 = 3 1 e2 = v2 − hv2 , w1 i w1 v 1 1 0 0 1 1 1 i· √ 1 = 1 −h 1 ,√ 3 1 3 1 1 1 1 −2 0 2 1 1 = 1 , = 1 − 3 3 1 1 1 √ −2 6 1 √ 1 , ⇒ w2 = ke v2 k = 3 6 1 e3 = v3 − hv3 , w1 i w1 − hv3 , w2 i w2 v 0 0 1 1 −2 −2 0 1 1 1 1 1 i· √ 1 −h 0 ,√ 1 i· √ 1 = 0 −h 0 ,√ 3 1 3 1 6 6 1 1 1 1 1 1 −2 0 0 1 1 1 1 − 1 = −1 , = 0 − 3 6 2 1 1 1 1 √ 0 2 1 √ −1 . ke v3 k = ⇒ w3 = 2 2 1 Durch diese Darstellungsmöglichkeiten mittels des Skalarprodukts kann man auch eine eindeutige Projektion definieren. Definition 11.16 (Orthogonale Projektion) Sei V ein Skalarproduktraum und U ⊂ V ein Untervektorraum. Eine orthogonale Projektion auf U ist eine Abbildung, die jedem Vektor v ∈ V einen Vektor PU (v) ∈ U des Unterraums zuordnet, der den geringsten Abstand zu v besitzt. 220 11.2 Orthogonale Vektoren und Abbildungen u3 v u1 PU (v) u2 U = span(u1 , u2 ) Satz 11.17 Zu jedem Unterraum U ⊂ V eines Skalarproduktraums ist die orthogonale Projektion mittels einer Orthonormalbasis (u1 , . . . , ur ) von U gegeben durch PU : V → U, v 7→ PU (v) := r X i=1 hv, ui i ui . Diese Abbildung ist eindeutig und erfüllt PU |U = idU und Kern(PU ) = U ⊥ und man findet eine orthogonale Darstellung v = u + u⊥ mit u ∈ U und u⊥ ∈ U ⊥ . Beweis. Die Orthonormalbasis (u1 , . . . , ur ) von U lässt sich zu einer Orthonormalbasis (u1 , . . . , ur , ur+1 , . . . , un ) von V mit dem Verfahren von Gram-Schmidt ergänzen. Stellt man v durch diese Basis dar, so findet man eine Zerlegung n r X X hv, ui i ui = u + u⊥ v= hv, ui i ui + |i=1 {z } :=u ∈U i=r+1 | {z :=u⊥ ∈V \U } und da es sich um eine Basis handelt, ist diese Darstellung eindeutig. Der so definierte Vektor u ist auch der Vektor mit kürzestem Abstand zu v, denn man findet für einen beliebigen Vektor in U den Abstand 2 r r r X X X λi ui = hv − λi ui , v − λj uj i v − i=1 i=1 j=1 = hv, vi − r X = hv, vi + r X = hv, vi + = kvk2 − i=1 i=1 r X i=1 r X i=1 λi hui , vi − r X j=1 λj hv, uj i + r X i,j=1 λi λi − λi hui , vi − λi hv, ui i λi λj hui , uj i | {z } =δij (λi − hv, ui i)(λi − hui , vi) − |hv, ui i|2 |hv, ui i|2 + r X i=1 und dieser wird für die Wahl λi = hv, ui i minimal. |λi − hv, ui i|2 , 221 11 Euklidische und unitäre Vektorräume Definition 11.18 (Orthogonale Abbildungen) Seien V, W zwei Skalarprodukträume über K. Eine lineare Abbildung f : V → W heißt orthogonal (K = R) bzw. unitär (K = C), falls gilt hf (v1 ), f (v2 )iW = hv1 , v2 iV für alle v1 , v2 ∈ V. Eine orthogonale Abbildung besitzt bemerkenswerte Eigenschaften. Satz 11.19 (Eigenschaften von orthogonalen Abbildungen) Für eine orthogonale Abbildung f : V → W gilt: (i) kf (v)k = kvk (Längen bleiben erhalten), (ii) hf (v1 ),f (v2 )i kf (v1 )k·kf (v2 )k = hv1 ,v2 i kv1 k·kv2 k (Winkel bleiben erhalten), (iii) f ist injektiv und falls V = W somit ein Isomorphismus, (iv) für einen Eigenwert λ von f gilt stets |λ| = 1. Beweis. (i)-(ii) folgen direkt aus der Definition. Durch (i) und der Positivität der Norm sieht man, dass nur der Nullvektor auf Null abgebildet werden kann. Für eine Eigenwert findet man zudem kvk = kf (v)k = kλ vk = |λ| kvk und damit |λ| = 1. Orthogonale Abbildung erhalten somit Längen und Winkel. Anschaulich gesprochen sind dies die Drehungen und Spiegelungen im Raum. Satz 11.20 (Orthogonale Abbildungen erhalten Orthonormalbasen) Sei f : V → W und (v1 , . . . , vn ) eine Orthonormalbasis von V . Eine lineare Abbildung f : V → W ist genau dann orthogonal, wenn (f (v1 ), . . . , f (vn )) eine Orthonormalbasis von W ist. Beweis. Ist f orthogonal, dann gilt hf (vi ), f (vj )i = hvi , vj i = δij und man hat die gewünschte Orthonormalbasis in W . Sind umgekehrt mit hf (vi ), f (v Pjn)i = δij eine Orthonormalbasis gegeben, so findet man für beliebige Vektoren v = i=1 λi vi und w = Pn i=1 µi vi auch n n n n X X X X hf (v), f (w)i = hf ( λi vi ), f ( µj vj )i = h λi f (vi ), µj f (vj )i = i=1 n n XX i=1 j=1 = hv, wi. j=1 λi µj hf (vi ), f (vj )i = i=1 n n XX i=1 j=1 j=1 λi µj δij = n X n X i=1 j=1 λi µj hvi , vj i 222 11.3 Adjungierte Abbildungen In der Sprache der Matrizen bedeutet dies, dass die Spalten der Matrixdarstellung (dies sind die Bilder der kanonischen Einheitsvektoren) ein Orthonormalsystem bilden müssen. Bildet man daher das Skalarprodukt von jeder Spalte mit den anderen, so ergeben alle Null und nur das Produkt mit sich selbst ergibt Eins. Eine elegante Art alle diese Produkte zu notieren besteht darin, das Produkt AT · A zu bilden, da dieses genau alle diese Skalarprodukte durchführt. Dafür gilt dann aber AT · A = 1n . Definition 11.21 (Orthogonale Matrix) Eine Matrix A ∈ Rn×n heißt orthogonal, falls gilt A−1 = AT . T Eine Matrix A ∈ Cn×n heißt unitär, falls gilt A−1 = A . Satz 11.22 (Eigenschaften orthogonaler Matrizen) Für eine orthogonale Matrix A ∈ Rn×n gilt: (i) AT A = AAT = 1n , (ii) Die Spalten und Zeilen von A bilden eine Orthonormalbasis, (iii) det A = ±1. Beweis. (i)-(ii) folgen aus obiger Diskussion. Für (iii) folgt aus AT · A = 1n auch det (AT · A) = det AT · det A = (det A)2 = det 1n = 1. 11.3 Adjungierte Abbildungen Definition 11.23 (Adjungierte Abbildungen) Sei (V, h·, ·i) und (W, h·, ·i) zwei Skalarprodukträume und f : V → W eine lineare Abbildung. Dann heißt eine lineare Abbildung f ∗ : W → V die adjungierte Abbildung zu f , falls gilt: hf (v), wiW = hv, f ∗ (w)iV für alle v ∈ V, w ∈ W. Definition 11.24 (Selbstadjungierte Endomorphismen) Sei (V, h·, ·i) ein Skalarproduktraum. Ein Endomorphismus f : V → V heißt selbstadjungiert, falls gilt: hf (v), wi = hv, f (w)i für alle v, w ∈ V. Beispiel 11.25 Sei V = C0∞ ([a, b]; R) der Raum der reellwertigen, beliebig oft differenzierbaren Funktionen auf dem Intervall [a, b], die in den Randpunkten den Wert Null annehmen, d.h. für f ∈ C0∞ ([a, b]; R) gilt stets f (a) = f (b) = 0. Dann ist die zweite Ableitung ∆ : V → V, f 7→ f 00 223 11 Euklidische und unitäre Vektorräume ein selbstadjungierter Endomorphismus bzgl. des Skalarprodukts Z b f (x) g(x) dx. h·, ·i : V × V → R, hf, gi := a Dies sieht man durch die zweifache Anwendung der partiellen Integration Z b Z b 0 b f 0 (x) g(x) dx. f (x) g (x) dx = [f (x) g(x)]a − a a Damit gilt nämlich für zwei beliebige Funktionen f, g ∈ C0∞ ([a, b]; R) die Gleichung hf, ∆(g)i = Z b a = [f | 00 0 f (x) g (x) dx = [f (x) g | {z 0 (x) g(x)]ba {z } + =0, da g(a)=g(b)=0 Z (x)]ba } =0, da f (a)=f (b)=0 b a − Z b f 0 (x) g 0 (x) dx a f 00 (x) g(x) dx = h∆(f ), gi. Diese Endomorphismen hängen eng mit symmetrischen bzw. hermiteschen Matrizen zusammen. Definition 11.26 (Symmetrische und hermitesche Matrizen) Eine Matrix A ∈ Rn×n heißt symmetrisch, falls AT = A. Eine Matrix A ∈ Cn×n heißt hermitesch, falls AT = A (dabei bezeichnet A die komplex konjugierte Matrix zu A, in der jedes Element komplex konjugiert ist). Satz 11.27 (Darstellung selbstadjungierte Endomorphismen) Sei f : V → V ein Endomorphismus und B eine Orthonormalbasis von V . Dann gilt f selbstadjungiert ⇔ MB,B (f ) ist symmetrisch bzw. hermitesch. Beweis. Sei B = (v1 , . . . , vn ) die Orthonormalbasis und zwei Vektoren v, w ∈ V in den −1 Koordinaten x = Φ−1 B (v), y = ΦB (w) dieser Basis entwickelt. Dann findet man hv, wi = h n X i=1 xi v i , n X j=1 y j vj i = n X i,j=1 xi yj hvi , vj i = n X i,j=1 xi yj δij = n X i=1 xi yi = xT y = hx, yi. Ist der Endomorphismus durch die Matrix A := MB,B (f ) dargestellt, so findet man daher und hf (v), wi = (Ax)T y = xT AT y hv, f (w)i = xT (Ay) = xT Ay und daher AT = A bzw. AT = A. 224 bzw. bzw. hf (v), wi = (Ax)T y = xT AT y hv, f (w)i = xT (Ay) = xT Ay 11.3 Adjungierte Abbildungen Selbstadjungierte Endomorphismen sind dahingehend besonders (und damit einfacher), dass sie nur reelle Eigenwerte besitzen können. Satz 11.28 (Eigenwerte selbstadjungierter Endomorphismen sind reell) Ist f : V → V ein selbstadjungierter Endomorphismus eines K-Skalarproduktraums V mit K = R oder C, dann sind alle Eigenwerte reell - d.h. eine hermitesche Matrix hat nur reelle Eigenwerte. Beweis. Für einen Eigenwert λ mit Eigenvektor v findet man λhv, vi = hλv, vi = hf (v), vi = hv, f (v)i = hv, λvi = λhv, vi und da v 6= 0 und somit hv, vi = 6 0 folgt λ = λ. Zudem sind Eigenvektoren zu verschiedenen Eigenwerte nicht nur linear unabhängig, sondern sogar orthogonal. Satz 11.29 (Eigenvektoren selbstadjungierter Endomorphismen sind orthogonal) Sei f : V → V ein selbstadjungierter Endomorphismus eines K-Skalarproduktraums V . Dann sind die Eigenvektoren zu verschiedenen Eigenwerten von f orthogonal. Beweis. Für f (vi ) = λi vi und f (vj ) = λj vj findet man hf (vi ), vj i = hvi , f (vj )i ⇒ hλi vi , vj i = hvi , λj vj i ⇒ (λi − λj )hvi , vj i = 0 und somit hvi , vj i = 0 für λi 6= λj . Wählt man zusätzlich in jedem Eigenraum eine Orthonormalbasis, dann erhält man somit eine Familie von Eigenvektoren die orthonormal sind. Diese bilden dann aber sogar eine Basis vom Raum. Satz 11.30 (Für selbstadjungierte Endomorphismen gibt es eine Orthonormalbasis aus Eigenvektoren) Ist f : V → V ein selbstadjungierter Endomorphismus eines Skalarproduktraums V , dann gibt es eine Orthonormalbasis von V aus Eigenvektoren von f . Beweis. Das charakteristische Polynom zerfällt in Linearfaktoren: Für den Fall K = C gilt dies wegen des Fundamentalsatzes der Algebra. Für den Fall K = R fasst man das (reelle) Polynom zunächst auch als ein Polynom in C auf. Dies zerfällt zu nächst in Linearfaktoren mit Koeffizienten in C. Da alle Eigenwerte des selbstadjungierten Endomorphismus reell sein müssen, sind die Koeffizienten sogar aus R und man erhält nur reelle Linearfaktoren Pf (λ) = ±(λ − λ1 ) · . . . · (λ − λn ) mit λ1 , . . . , λn ∈ R. 225 11 Euklidische und unitäre Vektorräume Die zugehörigen Eigenvektoren lassen sich nun als Orthonormalbasis wählen: Dies sieht man als Induktion über n := dim V . Für n = 0 hat man die leere (und somit orthonormale) Basis. Für n ≥ 1 gibt es eine Eigenvektor v1 zu λ1 und diesen kann man sogar normiert wählen kv1 k = 1. Zu diesem Eigenvektor betrachtet man das orthogonale Komplement V ⊥ := {v ∈ V | hv1 , vi = 0}. Dafür stellt man fest, dass f von V ⊥ wieder nach V ⊥ abbildet, denn für irgendeinen Vektor v ∈ V ⊥ findet man, dass auch f (v) ∈ V ⊥ gilt, wie man schnell nachrechnet: hv1 , f (v)i = hf (v1 ), vi = hλ1 v1 , vi = λ1 hv1 , vi = 0. Damit ist f : V ⊥ → V ⊥ eine Endomorphismus und die Dimension von V ⊥ ist n − 1. Nach Induktionsvoraussetzung gibt es dafür eine Basis aus Eigenvektoren für V ⊥ und zusammen mit v1 erhält man daraus eine Orthonormalbasis aus Eigenvektoren für V . Satz 11.31 (Hauptachsentransformation) Sei der selbstadjungierte Endomorphismus f : V → V bzgl. der Orthonormalbasis B durch die symmetrische (bzw. hermitesche) Matrix A := MB,B (f ) dargestellt. Dann gibt es eine Basistransformation auf eine Basis Be mit einer orthogonalen Transformation TB,B e , so dass die Matrixdarstellung Diagonalgestalt besitzt, d.h. es gilt λ1 . . . 0 .. T ... λ . 2 e A = MB, =. e Be(f ) = TB,B e · MB,B (f ) · TB,B e . .. .. 0 ... λn und die λ1 , . . . , λn sind die Eigenwerte von f . Speziell gibt es zu jeder symmetrischen reellen Matrix A eine orthogonale Matrix S, so dass Diagonalgestalt besitzt. e = SAST A Die praktische Berechnung zur Diagonalisierung eines selbstadjungierten Endomorphismus f : V → V geht wie folgt: (1) Man stellt f : V → V bzgl. einer beliebigen Basis B als Matrix A = MB,B (f ) dar und berechnet das charakteristische Polynom Pf . (2) Man bestimmt die Zerlegung Pf (λ) = ±(λ − λ1 )µ(Pf ;λ1 ) · . . . · (λ − λk )µ(Pf ;λk ) und damit die Eigenwerte λ1 , . . . , λk von Pf . (3) Man berechnet für jeden Eigenwert λi , i = 1, . . . , k, eine Basis vom Eigenraum Eig(f ; λi ) und wendet darauf das Verfahren von Gram-Schmidt an. Dadurch erhält (i) (i) man eine Orthonormalbasis (v1 , . . . , vni ) für jeden Eigenraum. (4) Die Aneinanderreihung der Basisvektoren ergibt die gesuchte Orthonormalbasis (1) (k) ) Be = (v1 , . . . , vn(1)1 , . . . , v1 , . . . , vn(k) k 226 11.3 Adjungierte Abbildungen bezüglich derer die Matrixdarstellung die Gestalt λ1 .. . 0 λ1 .. e A = MB, . e Be(f ) = λk ... 0 λk dim Eig(f ; λ1 ) − mal . .. dim Eig(f ; λk ) − mal besitzt und so hat man mit S := TB,B und ST = S−1 := TB,Be die gesuchte Transe formation e = SAST A bzw. T MB, e Be(f ) = TB,B e · MB,B (f ) · (TB,B e ) . Da man zu einem selbstadjungierten Endomorphismus stets eine Orthonormalbasis finden kann, lässt sich auch eine wichtige Darstellung des Endomorphismus konstruieren. Satz 11.32 (Spektraldarstellung selbstadjungierter Endomorphismen) Ist f : V → V ein selbstadjungierter Endomorphismus eines endlich-dimensionalen Skalarproduktraums V , dann gilt die Spektraldarstellung f= r X λk P k , k=1 wobei die λ1 , . . . , λr ∈ R die Eigenwerte des Endomorphismus sind und Pk : V → Eig(f ; λk ) die orthogonale Projektion auf den Eigenraum Eig(f ; λk ) bezeichnet. Beweis. Es gibt eine Orthonormalbasis (v1 , . . . , vn ) aus Eigenvektoren von f . Damit genügt es zu zeigen, dass für jeden Basisvektor die beiden Darstellungen dieselbe Wirkung haben. Für einen Eigenvektor v zum Eigenwert λj liefert die orthogonale Projektion jedoch ( v, für k = j, Pk (v) = 0, für k 6= j, und somit r X k=1 λk Pk (v) = r X λk δkj v = λj v = f (v). k=1 227 12 Metrische Räume Die ersten Kapitel waren dem Studium von Funktionen f : R → R mit einer Variablen in den Körper der reellen Zahlen R gewidmet und für diese lassen sich Begriffe wie Stetigkeit, Differenzierbarkeit oder Integrierbarkeit formulieren und untersuchen. Die Betrachtungen über lineare Abbildungen zwischen Vektorräumen V und W f :V →W zum Beispiel: f : Rn → Rm legt nun nahe diese Begriffe auf Abbildungen zwischen mehrdimensionalen Räumen auszuweiten. Dabei muss man den für die Analysis wesentlichen Begriff der Konvergenz für solche Räume erklären, d.h. man muss ausdrücken können, wann sich zwei Vektoren nahe kommen. Dies erfordert die Einführung eines Verständnisses vom Abstand zwischen zwei Vektoren und wird durch die Definition einer Metrik geschehen. 12.1 Metrik, Konvergenz und Vollständigkeit Für eine Menge (und damit auch für Vektorräume) ist der Abstand zwischen zwei Elementen der Menge durch die folgenden Eigenschaften charakterisiert. Definition 12.1 (Metrik und metrischer Raum) Für eine Menge M heißt eine Abbildung d : M × M → R+ , (x, y) 7→ d(x, y) eine Metrik (oder Abstandsfunktion) auf M , falls sie für alle x, y ∈ M die folgenden Eigenschaften besitzt: (M1) d(x, y) = 0 ⇔ x = y, (M2) d(x, y) = d(y, x), (M3) d(x, z) ≤ d(x, y) + d(y, z). (Positive Definitheit) (Symmetrie) (Dreiecksungleichung) Gibt es auf einer Menge M eine Metrik d, so nennt man das Paar (M, d) einen metrischen Raum und d(x, y) den Abstand oder die Distanz der Punkte x, y ∈ M bzgl. der Metrik d. Der Abstand ist damit stets nicht-negativ, denn mit (M1)-(M3) folgt (M1) (M3) (M2) 0 = d(x, x) ≤ d(x, y) + d(y, x) = d(x, y) + d(x, y) = 2 · d(x, y). 229 12 Metrische Räume Satz 12.2 (Induzierte Metrik) Auf jedem normierten Vektorraum (V, k·k) gibt es die durch die Norm induzierte Metrik d(v, w) := kv − wk für alle v, w ∈ V. Beweis. Durch die definierenden Eigenschaften der Norm lassen sich direkt die MetrikEigenschaften der induzierten Metrik folgern. Für zwei reelle Zahlen x, y ∈ R ist eine Abstandsfunktion d(x, y) := |x − y| durch den Betrag gegeben. Dieser wird verwendet, um den Begriff Konvergenz zu definieren. Ersetzt man in der Definition den Betrag durch eine Norm oder allgemeiner durch eine Metrik, dann lässt sich diese Begrifflichkeit direkt auf metrische Räume übertragen. Definition 12.3 (Konvergenz, Grenzwert) Sei (M, d) ein metrischer Raum. Eine Folge (an )n∈N in M heißt konvergent gegen den Grenzwert (oder Limes) a ∈ M , falls der Abstand der Folgenglieder an zu a immer geringer wird, d.h. falls zu jeder (beliebig kleinen) reellen Zahl > 0 ein n ∈ N existiert, so dass gilt: d(an , a) < für alle n ≥ n . Ist eine Folge (an )n∈N konvergent gegen den Grenzwert a ∈ M , so schreibt man lim an = a n→∞ oder an → a (n → ∞). Für einen normierten Vektorraum (V, k·k) ist die Metrik durch eine Norm induziert und das Kriterium lautet damit vollkommen analog zum reellen Fall: Die Folge (an )n∈N in V konvergiert gegen den Grenzwert a ∈ V , falls es zu jedem > 0 ein n ∈ N gibt, so dass: kan − ak < für alle n ≥ n , oder anders ausgedrückt: Der Abstand ist eine Nullfolge, d.h. lim kan − ak = 0. n→∞ Damit lässt sich die Konvergenz einer Folge in Rn genauer untersuchen. Satz 12.4 (Konvergenz im Rn ⇔ komponentenweise Konvergenz ) Für eine Folge im normierten Vektorraum (Rn , k·k2 ) gilt: Eine Folge von Vektoren (a1 , a2 , a3 , . . .) = (ak )k∈N im Rn ist genau dann konvergent gegen den Grenzwert a ∈ Rn , wenn jede Folge der Komponenten der Vektoren konvergent ist, d.h. lim ak = a k→∞ 230 ⇔ lim ak,j = aj , k→∞ für alle j = 1, . . . , n. 12.1 Metrik, Konvergenz und Vollständigkeit Beweis. Für alle j = 1, . . . , n gilt q √ |ak,j − aj | ≤ |ak,1 − a1 |2 + . . . + |ak,n − an |2 ≤ n max {|ak,j − aj |}. 1≤j≤n Damit gilt: lim kak − ak2 = 0 ⇔ lim |ak,j − aj | = 0 für alle j = 1, . . . , n. k→∞ k→∞ Bemerkung 12.5 In Vektorräumen von endlicher Dimension sind alle Normen äquivalent und daher hängt die Konvergenz nicht von der Wahl der Norm ab. Für unendlichdimensionale Vektorräume gilt dies im Allgemeinen nicht und die Konvergenz einer Folge in einer Norm bedeutet nicht zwingend die Konvergenz bzgl. einer anderen Norm. Ganz analog lässt sich auch der Begriff der Cauchy-Folge übertragen. Definition 12.6 (Cauchy-Folge) Sei (M, d) ein metrischer Raum. Eine Folge (an )n∈N heißt Cauchy-Folge, wenn es zu jedem > 0 ein n ∈ N gibt, so dass gilt: d(an , am ) < für alle m, n ≥ n . Bei den Untersuchungen zum Körper Q der rationalen Zahlen wurde festgestellt, dass √ dieser nicht vollständig ist. Damit ist gemeint, dass man zwar gewisse Zahlen (z.B. 2) durch Folgen mit Werten in Q beliebig genau approximieren kann, jedoch der Grenzwert der Folge keine rationale Zahl ist und somit nicht in Q liegt. Der Zahlenraum wurde daraufhin erweitert, indem man den Grenzwert aller Cauchy-Folgen mit zu dem Zahlenraum hinzunimmt (genauer: man erweitert den Zahlenraum um die Äquivalenzklassen aller Cauchy-Folgen). Dadurch hat man den vollständigen Körper R erhalten, in dem jede Cauchy-Folge eine Grenzwert in R besitzt. Durch die Einführung der Cauchy-Folge lässt sich diese Eigenschaft nun auch auf beliebigen metrischen Räumen untersuchen. Definition 12.7 (Vollständigkeit, Banachraum, Hilbertraum) (i) Ein metrischer Raum (M, d) heißt vollständig, falls jede Cauchy-Folge aus M gegen einen Grenzwert in M konvergiert. (ii) Ein normierter Vektorraum (V, k·k) heißt Banachraum, falls V bzgl. der durch die Norm induzierten Metrik d(x, y) := kx − yk vollständig ist. (iii) Ein Skalarproduktraum (V, h·, ·i) heißt Hilbertraum, falls V mit der durch das Skalarprodukt induzierten Norm ein Banachraum ist. Kurz ausgedrückt: Ein Banachraum ist ein vollständiger, normierter Vektorraum. Ein Hilbertraum ist ein vollständiger, normierter Vektorraum mit Skalarprodukt. Satz 12.8 (Rn ist vollständig) Der normierte Vektorraum (Rn , k·k2 ) ist vollständig. 231 12 Metrische Räume Beweis. Sei (ak )k∈N eine Cauchyfolge in (Rn , k·k2 ). Dann gilt für alle j = 1, . . . , n und für jedes > 0: |am,j − al,j | ≤ kam − al k2 < für alle m, l ≥ n . Somit ist jede Komponentenfolge (ak,j )k∈N eine Cauchy-Folge in R. Da nun aber R vollständig ist, gibt es damit auch dessen Grenzwert lim ak,j =: aj und somit findet k→∞ man lim ak,1 ak,1 a k→∞ 1 ak,2 lim a k,2 a2 k→∞ = lim ak = lim .. = =: a ∈ Rn . . . . k→∞ k→∞ . .. . ak,n an lim ak,n k→∞ Bemerkung 12.9 (i) Die Vollständigkeit von Rn wird auf die Vollständigkeit von R zurückgeführt. Die Vollständigkeit von R jedoch ist ein Postulat, d.h. R ist gemäß seiner Definition (Q + Grenzwerte aller Cauchy-Folgen) vollständig. (ii) Rn ist bzgl. jeder Norm vollständig. Ganz allgemein ist sogar jeder endlichdimensionale normierte Raum vollständig. (iii) Der Raum C([a, b]; R) der stetigen Funktionen auf dem abgeschlossenen Intervall [a, b] ist bzgl. der Supremumsnorm kf k∞ := sup{|f (x)| | a ≤ x ≤ b} vollständig, jedoch ist er bzgl. der vom Skalarprodukt induzierten Norm kf k2 := Z a b |f (x)|2 dx 21 nicht vollständig. 12.2 Offene und abgeschlossene Mengen Definition 12.10 (offene Kugel) Sei (M, d) ein metrischer Raum, a ∈ M und r > 0. Dann heißt die Menge Br (a) := {x ∈ M | d(x, a) < r} die offene Kugel mit Radius r und Mittelpunkt a bzgl. der Metrik d. 232 12.2 Offene und abgeschlossene Mengen Definition 12.11 (Umgebung) Eine Teilmenge U ⊂ M eines metrischen Raums (M, d) heißt Umgebung von a ∈ M , falls ein > 0 existiert, so dass B (a) ⊂ U. M U a Definition 12.12 (Offene Menge) Eine Teilmenge U ⊂ M eines metrischen Raums (M, d) heißt offen, wenn sie Umgebung aller ihrer Elemente ist, d.h. falls es zu jedem a ∈ U ein > 0 gibt mit B (a) ⊂ U. Beispiele 12.13 (a) Sei V = R und a, b ∈ R, a < b. Das Invervall (a, b) := {x ∈ R | a < x < b} ist offen, denn für x ∈ (a, b) findet man mit := min{|a−x|, |b−x|} eine Umgebung B (x) ⊂ (a, b). Auch die uneigentlichen Intervalle (−∞, a) und (b, ∞) sind offen. Das Invervall [a, b) := {x ∈ R | a ≤ x < b} ist nicht offen, denn betrachtet man a ∈ [a, b), so liegt keine Umgebung B (a) ganz in [a, b). (b) Für jeden metrischen Raum V , a ∈ V und r > 0 ist die offene Kugel Br (a) offen (und rechtfertig damit den Namen), denn für ein beliebiges x ∈ Br (a) findet man stets eine Umgebung ganz innerhalb der Kugel durch die Wahl := r − d(x, a) > 0 ⇒ B (x) ⊂ Br (a) wie man durch die Dreiecksungleichung nachrechnet. x a r Satz 12.14 (Eigenschaften offener Mengen) Für die offenen Teilmengen eines metrischen Raums V gilt: 233 12 Metrische Räume (i) ∅ und V sind offene Mengen. (ii) Die Vereinigung von beliebig vielen offenen Mengen ist offen, S d.h. für eine beliebige Indexmenge I gilt: (Ui )i∈I offen ⇒ Ui offen. i∈I (iii) Der Durchschnitt endlich vieler offener Mengen ist offen, n T d.h. es gilt: U1 , U2 , . . . , Un offen ⇒ Ui offen. i=1 Beweis. (i) Per Definition ist V eine Umgebung aller ihrer Punkte. Die leere Menge ∅ besitzt keinen Punkt, um den es eine Umgebung geben müsste. S (ii) Sei x ∈ i∈I Ui . Dann gibt es mindestens S einen Index j ∈ I mit x ∈ Uj . Da Uj offen ist, gibt es einen Radius mit B (x) ⊂ Uj ⊂ i∈I Ui . (iii) Sei x ∈ U1 ∩ . . . ∩ Un . Da alle U1 , . . . , Un offen sind, gibt es jeweils einen geeigneten Radius i , so dass Bi (x) ⊂ Ui gilt. Wählt man den kleinsten solchen Radius := min{1 , . . . , n }, so gilt B (x) ⊂ U1 ∩ . . . ∩ Un und der Durchschnitt ist offen. Bemerkung 12.15 Gibt es zu einer Menge V eine Menge an Teilmengen T mit den Eigenschaften (i)-(iii), so nennt man T eine Topologie auf V und (V, T ) einen topologischen Raum. Die offenen Teilmenge eines metrischen Raums V sind somit eine Topologie auf V . Bemerkung 12.16 Der Durchschnitt von unendlich vielen offenen Mengen ist im Allgemeinen nicht offen. T 1 (0) = {0} B So findet man z.B. für die offenen Kugeln B 1 (0) den Durchschnitt ∞ n=1 n n und dies ist keine offene Menge. Definition 12.17 (Abgeschlossene Menge) Eine Teilmenge U ⊂ M eines metrischen Raums (M, d) heißt abgeschlossen, wenn das Komplement M \ U offen ist. Beispiele 12.18 (i) Sei V = R und a, b ∈ R, a < b. Das Invervall [a, b] := {x ∈ R | a ≤ x ≤ b} ist abgeschlossen, denn die uneigentlichen Intervalle (−∞, a) und (b, ∞) sind offen. Das Invervall [a, b) := {x ∈ R | a ≤ x < b} ist nicht abgeschlossen, denn [b, ∞) ist nicht offen. (ii) ∅ und V sind abgeschlossen, denn ihre Komplemente sind offen. Die Beispiele zeigen, dass es folglich Teilmengen gibt, die sowohl offen als auch abgeschlossen sind (z.B. ∅ und V ). Zudem gibt es Mengen, die weder offen noch abgeschlossen sind (z.B. [a, b) oder (a, b]). Betrachtet man für eine Teilmenge U ⊂ M eine Folge (xk )k∈N in U , d.h. für alle Folgenglieder gilt xk ∈ U, k ∈ N, und konvergiert diese Folge, dann liegt der Grenzwert im Allgemeinen nur in M . Dies kommt typischerweise dann vor, wenn die Folge gegen den 234 12.3 Inneres, Äußeres, Rand und Abschluss “Rand” der Menge U strebt, z.B. ist sind für M = R und U = (0, 1] alle Glieder der Folge n1 , n ≥ 1, in U enthalten, der Grenzwert limn→∞ n1 = 0 jedoch ist nur Element von M , nicht von U . Bei abgeschlossenen Mengen kann dies nicht passieren, denn ihre wesentliche Eigenschaft ist, dass der Grenzwert einer Folge innerhalb der Menge — sofern er existiert — stets auch Element der Menge ist. Satz 12.19 (Charakterisierung abgeschlossener Mengen) Sei M ein metrischer Raum. Für eine Teilmenge U ⊂ M gilt: U abgeschlossen Der Grenzwert lim xk =: x ∈ M jeder konvergenten k→∞ ⇔ Folge (xk )k∈N in U (d.h. xk ∈ U für alle k ∈ N) liegt ebenfalls in U (d.h. x ∈ U ⊂ M ). Beweis. Sei U abgeschlossen vorausgesetzt. Angenommen der Grenzwert x := limk→∞ xk liegt in M \ U , dann gibt es eine -Umgebung B (x) ⊂ M \ U , da M \ U offen ist. Gemäß der Definition der Konvergenz einer Folge liegen ab einer Schranke n ∈ N aber dann alle Folgenglieder xk , x ≥ n in dieser Umgebung und damit in M \ U . Widerspruch zu xk ∈ U . Sei die Folgeneigenschaft vorausgesetzt. Dann ist M \ U offen, denn zu jedem Punkt x ∈ M \ U findet man ein mit B (x) ⊂ M \ U . Dies sieht man durch Widerspruch: Angenommen, dies wäre nicht der Fall, dann kann man für jedes k ∈ N einen Punkt xk ∈ U finden, so dass d(xk , x) < k1 . Diese Folge konvergiert gegen x und damit gälte x ∈ U nach der Folgeneigenschaft, im Widerspruch zu x ∈ M \ U . 12.3 Inneres, Äußeres, Rand und Abschluss Mehr Einblick in die Eigenschaften von offenen und abgeschlossenen Mengen findet man, indem man die Punkte der Mengen betrachtet. Definition 12.20 (Inneres, Äußeres und Rand) Sei (M, d) ein metrischer Raum und U ⊂ M eine Teilmenge. Ein Punkt a ∈ M heißt (i) innerer Punkt von U , falls es eine Umgebung von a gibt, die ganz in U liegt, d.h. für ein > 0 gilt B (a) ⊂ U , (ii) äußerer Punkt von U , falls es eine Umgebung von a gibt, die ganz im Komplement M \ U liegt, d.h. für ein > 0 gilt B (a) ⊂ M \ U , (iii) Randpunkt von U , falls jede Umgebung von a wenigstens einen Punkt mit U als auch mit M \ U gemeinsam hat, d.h. für alle > 0 gilt sowohl B (a) ∩ U 6= ∅, als auch B (a) ∩ (M \ U ) 6= ∅. Der Raum M wird dadurch in die folgenden disjunkten Mengen zerlegt: (i) das Innere Ů von U als Menge aller inneren Punkte, 235 12 Metrische Räume (ii) das Äußere von U als Menge aller äußeren Punkte, (iii) den Rand ∂U von U als Menge aller Randpunkte. Ein Punkt a ∈ M heißt (i) Berührpunkt von U , falls jede Umgebung von a wenigstens einen Punkt aus U enthält, d.h. für alle > 0 gilt B (a) ∩ U 6= ∅, (ii) Häufungspunkt von U , falls jede Umgebung von a wenigstens einen von a verschiedenen Punkt aus U enthält, d.h. für alle > 0 gilt (B (a) \ {a}) ∩ U 6= ∅, (iii) isolierter Punkt von U , falls es eine Umgebung von a gibt, in der (außer a) kein weiterer Punkt von U liegt, d.h. es gibt ein > 0, so dass (B (a) \ {a}) ∩ U = ∅. Der Abschluss von U ist definiert durch U := {x ∈ M | x ist Berührpunkt von U }. Anschaulich bedeuten diese Begriffe folgendes: Ein Punkt ist genau dann Randpunkt, falls man für jeden beliebig kleinen Abstand > 0 stets noch einen Punkt der Menge U als auch einen Punkt im Komplements M \U finden kann, so dass diese höchsten diesen Abstand entfernt liegen — ein Randpunkt hat somit unendlich viele Punkte der Menge als auch des Komplements in seiner Nähe. Ein Punkt liegt im Inneren, falls er zur Menge gehört und noch echt vom Rand entfernt ist — man kann nämlich einen Abstand > 0 finden, so dass nur Punkte der Menge U innerhalb dieses Abstands liegen und somit keiner vom Komplement. Analog liegt ein Punkt im Äußeren, falls er nicht zur Menge gehört und noch echt vom Rand entfernt ist — man kann nämlich einen Abstand > 0 finden, so dass nur Punkte des Komplements M \ U innerhalb dieses Abstands liegen und somit keiner der Menge. Die Häufungspunkte sind die Punkte von M , die sich durch die Punkte von U beliebig gut approximieren lassen — denn man findet für einen beliebig kleinen Abstand > 0 stets noch einen Punkt von U , der höchstens diesen Abstand entfernt ist. Häufungspunkte müssen nicht zur Menge U gehören (z.B. der Rand einer offenen Kugel im Rn ). Jedoch sind nicht zwingend alle Punkte der Menge auch Häufungspunkte. Dies sind genau die isolierten Punkte, die in einer Umgebung keinen anderen Punkt von U liegen haben. Die Berührpunkte lassen sich ebenfalls durch Punkte aus U approximieren und jeder Häufungspunkt ist immer auch Berührpunkt. Anders als bei den Häugfungspunkten ist jedoch jeder Punkt der Menge U auch stets Berührpunkt (d.h. auch isoliert liegende Punkte gehören dazu). Der Abschluss U einer Menge U ist somit die Menge U selbst, zu der man noch alle Häufungspunkte von U hinzunimmt, d.h. alle Punkte aus M , die sich mit Punkten aus U approximieren lassen. Bemerkung 12.21 Es gilt: 236 12.4 Stetige Abbildungen M Außen a Innen U U ∂U Abbildung 12.1: Links: Eine Teilmenge U ⊂ M ⊂ R2 bestehend aus einem zusammenhängenden Gebiet und zwei isolierten Punkten. Rechts: Inneres, Äußeres und Rand von U , sowie eine Umgebung zu einem Randpunkt a (i) Ů = U \ ∂U und das Innere Ů ist offen. (ii) U = U ∪ ∂U und der Abschluss U ist abgeschlossen. (iii) Ů ⊂ U ⊂ U . (iv) Der Rand ∂U ist abgeschlossen. Beispiel 12.22 Für M := R und das halboffene Intervall I := [a, b) (mit a < b) findet man das Innere ˚ I = (a, b), das Äußere (−∞, a) ∪ [b, ∞), den Rand ∂I = {a, b}, den Abschluss I = [a, b]. 12.4 Stetige Abbildungen Für reellwertige Funktionen f : R → R wird die Stetigkeit einer Funktion über Folgen definiert und kann analog in einer -δ-Formulierung über den Abstand mittels des Betrags |x − y| (x, y ∈ R) ausgedrückt werden. Auf metrischen Räumen besitzt man zum einen ebenfalls den Begriff des Abstands und dadurch zum anderen auch den Begriff der Konvergenz einer Folge. Dies ermöglicht es die Definition der Stetigkeit ohne gr