Mathematische Grundlagen MSE WS 2011/12 H. Egger und M. Schlottbom 13. März 2012 2 Inhaltsverzeichnis 1 Grundlegende Begriffe 3 1.1 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Mengen und Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Zahlenmengen und Rechentechniken 2.1 Natürliche Zahlen . . . . . . . . . . . . . . . . . 2.2 Ganze, rationale und reelle Zahlen . . . . . . . . 2.2.1 Rechnen mit reellen Zahlen . . . . . . . 2.2.2 Reellwertige Funktionen einer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 20 26 32 3 Komplexe Zahlen 37 4 Lineare Gleichungssysteme 45 5 Vektorrechnung 57 6 Matrizenrechnung 75 7 Lineare Abbildungen auf Vektorräumen 89 8 Determinanten und Eigenvektoren 99 8.1 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 8.2 Eigenwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 9 Lineare Ausgleichsrechnung 117 10 Konvergenz von Folgen 123 11 Reihen 135 12 Stetige Funktionen 147 ii INHALTSVERZEICHNIS INHALTSVERZEICHNIS 1 Vorbermerkungen Als Grundlage für die Vorbereitung dieser Vorlesung dienten die Bücher • R. Ansorge und H.-J. Oberle: Mathematik für Ingenieure, Band 1, 3te Auflage, WileyVCF, 2000. • K. Meyberg und P. Vachenhauer: Höhere Mathematik, Band 1, Springer, 1999. Reichliches Übungsmaterial kann in den Bänden • Ansorge, Oberle, Übungsaufgaben • Viele Autoren, Mathematik, Spektrum, 2010. gefunden werden. Als weiterführende Literatur zu den Themenbereichen Analysis, Lineare Algebra und Numerik sei auf die Bücher • Königsberger, Analysis, • Fischer, Lineare Algebra, • W. Dahmen und A. Reusken: Numerische Mathematik, 2te Auflage, Springer, 2008. verwiesen. Im folgenden Skript werden elementare mathematische Begriffe eingeführt, sowie Grundlagen der linearen Algebra und der eindimensionalen Analysis besprochen. Theoretische Resultate werden an Beispielen veranschaulicht, und die tatsächliche Durchführung komplexer Rechnungen mittels numerischer Methoden wird anhand verschiedener Aufgabenstellungen behandelt. 2 INHALTSVERZEICHNIS 1 Grundlegende Begriffe Die Mathematik beruht auf einigen (wenigen) Axiomen (Postulaten), in denen grundlegende Zusammenhänge festgestellt werden, die sich i.A. nicht beweisen lassen. In Definitionen werden neue Begriffe eingeführt, und in mathematischen Sätzen werden aus einfachen Voraussetzungen kompliziertere Folgerungen hergeleitet. Die Sätze sind als Aussagen formuliert, deren (immerwährende) Richtigkeit in Beweisen gezeigt wird. In dieser Definition-Satz-Beweis Manier lässt sich das Gebäude der Mathematik schrittweise erweitern. Weitere grundlegende Objekte der Mathematik sind Mengen und Funktionen. Im vorangehenden Beispiel wurde etwa bereits die Menge der natürlichen Zahlen verwendet. Die Variable n wurde als Platzhalter für beliebige natürliche Zahlen verwendet, und die Bedeutung der Symbole · oder = als bekannt vorausgesetzt. Im folgenden Abschnitt werden diese Grundbegriffe näher erläutert. Weiterhin wird das Formulieren und Beweisen von mathematischen Sätzen anhand von Beispielen exemplarisch vorgestellt. 1.1 Aussagenlogik Die Formulierung von mathematischen Sätzen (Resultaten) erfolgt in Aussagen. Definition 1.1. Eine Aussage A ist ein feststellender Satz, dem ein eindeutiger Wahrheitswert w(A) zugewiesen werden kann. Wir definieren w(A) = 1 w(A) = 0 :⇔ :⇔ A ist wahr, A ist falsch. Bemerkung 1.2. w(A) kann nur die Werte 0 oder 1 annehmen, Halbwahrheiten sind also nicht zulässig. Das Symbol :⇔ dient zur Definition, also: der Wahrheitswert w(A) von A ist per Definition 1 (0) falls A wahr (falsch) ist. Beispiel 1.3. • Die Erde ist eine Scheibe. • 5 > 4. 4 Grundlegende Begriffe Um keine mathematischen Aussagen handelt es sich jedoch bei • Komm endlich her! • 5 Sekunden ist ziemlich kurz. • Wirklich? Durch Verknüpfungen (Junktoren) lassen sich aus einfachen Aussagen kompliziertere bilden. Definition 1.4. Für Aussagen A und B werden folgende Symbole (Junktoren) definiert: ¬A : A∧B : A∨B : A⇒B: nicht A A und B A oder B falls A, dann B (Negation), (Konjunktion), (Disjunktion), (Implikation), A⇔B: A genau dann, wenn B (Äquivalenz). Der Wahrheitswert der verknüpften Aussagen ist in folgender Wahrheitstafel definiert: A 1 1 0 0 B 1 0 1 0 ¬A A ∧ B 0 1 0 0 1 0 1 0 A∨B 1 1 1 0 A⇒B 1 0 1 1 A⇔B 1 0 0 1 Bemerkung 1.5. Mathematische Sätze sind typischerweise als Implikation A ⇒ B formuliert. Dabei heißt A die Voraussetzung (Prämisse) und B die Behauptung (Folgerung, Conclusio). Man beachte: • Die Implikation A ⇒ B ist immer auch dann wahr, wenn die Voraussetzung A falsch ist, egal ob die Behauptung B stimmt oder nicht! Z.B. ist die Aussage: “Falls ich morgen 1000 Jahre alt werde, bekommt jeder meiner Studenten eine Million Euro” wahr, und somit wohl nicht einklagbar :) • Die Voraussetzung A ist hinreichend für die Folgerung B (“wenn A dann B”); umgekehrt ist die Folgerung B notwendig für A (“wenn B nicht stimmt, dann kann auch A nicht wahr sein”; siehe unten). Weiterhin sei bemerkt: • Das Symbol ∨ meint ein einschließliches “oder”, also A ∨ B ist wahr, wenn zumindest eine (oder beide) der Aussagen A oder B wahr sind. • Das Äquivalenzsymbol ⇔ hat für Aussagen eine ähnliche Bedeutung, wie das Gleichheitszeichen für Zahlen. 1.1 Aussagenlogik 5 Beispiel 1.6. Sei x := 2. Die Aussagen A und B seien gegeben durch A :⇔ (x > 5) und B :⇔ (x < 3). Wir erhalten verknüpfte Aussagen mit folgender Bedeutung: • ¬A bedeutet: x ≤ 5. Die Aussage ist wahr (da x = 2). • A ∧ B heißt: x > 5 und x < 3. Die Aussage ist falsch, da A falsch ist. Die Aussage wäre sogar für jede reelle Zahl x falsch, da x nicht gleichzeitig größer als 5 und kleiner als 3 sein kann. • A ∨ B heißt: x > 5 oder x < 3. Das stimmt, da B richtig ist. Die Aussage wäre falsch für reelle Zahlen 3 ≤ x ≤ 5. • A ⇒ B bedeutet: aus x > 5 folgt x < 3 (oder “wenn x > 5, dann auch x < 3). Da die Voraussetzung nicht stimmt, ist die Aussage wahr!, und zwar nicht nur für x = 2, sondern für jedes x ≤ 5! • A ⇔ B heißt: x > 5 genau dann, wenn x < 3. Die Aussage A ist falsch, B ist wahr. Die Aussagen sind also nicht äquivalent, und somit w(A ⇔ B) = 0. Dies gilt wiederum für jedes reelle x. Anhand einer Wahrheitstabelle überzeugt man sich leicht, dass die Aussage ¬(¬A) ⇔ A, immer gilt. Solche immer geltende Wahrheiten heißen Tautologien, und diese können als “Rechenregeln” beim logischen Argumentieren verwendet werden. Satz 1.7. Seien A und B Aussagen. Dann gilt ¬(¬A) ⇔ A, (A ⇒ B) ⇔ ((¬B) ⇒ (¬A)), (A ⇒ B) ⇔ (B ∨ (¬A)), (A ⇒ B) ⇔ ¬(A ∧ (¬B)), sowie die De Morgan’schen Regeln ¬(A ∧ B) ⇔ ((¬A) ∨ (¬B)), ¬(A ∨ B) ⇔ ((¬A) ∧ (¬B)) Beweis. Mit Wahrheitstafeln. Oftmals hat man es mit Aussagen der folgenden Gestalt zu tun: • Für alle reellen Zahlen x gilt x2 ≥ 0. • Es gibt eine natürliche Zahl n mit n > 1. Diese Aussagen beinhalten Teile der Form x2 ≥ 0 bzw. n > 1, welche erst durch Einsetzen eines konkreten Objektes einen Sinn bekommen. 6 Grundlegende Begriffe Definition 1.8. Eine Aussageform ist ein formaler Ausdruck der Art A(x), welcher durch Einsetzen eines konkreten Objektes für die Variable x zu einer Aussage wird. Beispiel 1.9. Wir betrachten die Aussageform A(x) welche für natürliche Zahlen durch A(x) :⇔ x > 5 definiert sei. Für jedes x ≤ 5 ist diese Aussage falsch, während z.B. die Aussage A(6) wahr ist. Man beachte, dass x vorderhand eine “freie” Variable ist, A(x) also keinen Wahrheitsgehalt besitzt solange x kein Wert zugewiesen wurde. Definition 1.10 (Quantoren). Sei M eine Menge, und A(x) eine Aussageform, welche für x ∈ M wohldefiniert ist. Die Symbole ∀ und ∃, definiert durch ∀x ∈ M : A(x) ∃x ∈ M : A(x) :⇔ :⇔ Für alle x ∈ M gilt A(x), Es existiert ein x ∈ M für das A(x) gilt, heißen All- bzw. Existenzquantor. Weiterhin verwenden wir den Quantor ∃!x ∈ M : A(x) :⇔ A(x) stimmt für genau ein x ∈ M. Zum Begriff der Menge sowie des Elementsymbols ∈ siehe weiter unten. Bemerkung 1.11. Sei M = {1, 2, 3} gegeben. Man beachte ∀x ∈ M : (x > 5) ⇔ ((1 > 5) ∧ (2 > 5) ∧ (3 > 5)) sowie ∃x ∈ M : (x > 5) ⇔ ((1 > 5) ∨ (2 > 5) ∨ (3 > 5)). Die Quantoren ∀ und ∃ erlauben also “und“- bzw. “oder“-Verkettungen vieler Aussagen gleicher Gestalt kompakt darzustellen. Beispiel 1.12. “Es gibt genau eine reelle Zahl r > 0 mit r · r = 2” lässt sich formal ausdrücken √ als: “∃!r > 0 reell : r · r = 2“. Diese Aussage ist wahr, und das richtige √ r ist gegeben √ r = 2. Die Aussage “∃!r reell : r · r = 2“ ist jedoch falsch, da neben r = 2 auch r = − 2 Lösung ist. Beispiel 1.13. Sei A(x) :⇔ x > 5 wie oben definiert, und M = {5, 6}. Dann ist ∀x ∈ M : A(x) eine falsche Aussage, denn (∀x ∈ M : A(x)) ⇔ (5 > 5) ∧ (6 > 5)). D.h., nicht “für alle x in M ist x > 5”. Andererseits ist die Aussage ∃x ∈ M : A(x) wahr, denn (∃x ∈ M : A(x)) ⇔ (5 > 5) ∨ (6 > 5)), und die letzte Ungleichung ist korrekt bzw. w(A(6)) = 1. “Es gibt ein x in M , sodass x > 5.” 1.2 Mengen und Relationen 7 Die DeMorgan’schen Regeln lassen sich wie folgt auf Quantoren erweitern. Satz 1.14. Die Aussageform A(x) sei für x ∈ M wohldefiniert. Dann gilt ¬(∀x ∈ M : A(x)) ⇔ ∃x ∈ M : (¬A(x)) ¬(∃x ∈ M : A(x)) ⇔ ∀x ∈ M : (¬A(x)) . Beispiel 1.15. Man beachte das vorhergehende Beispiel zu Quantoren. Weiterhin gilt: • Das Gegenteil von A :⇔ “alle Professoren unterrichten Mathematik” ist ¬A :⇔ “Es gibt einen Professor, der nicht Mathematik unterrichtet”. • Das Gegenteil von ∃x ∈ M : x > 5 ist ∀x ∈ M : x ≤ 5. 1.2 Mengen und Relationen Im folgenden beschäftigen wir uns mit dem Begriff der Menge und elementaren Konstruktionsprinzipien für solche. Nach Georg Cantor verstehen wir unter einer Menge anschaulich eine Zusammenfassung bestimmter, wohl unterscheidbarer Objekte zu einem Ganzen. Bemerkung 1.16. Dieser Mengenbegriff ist nicht ganz widerspruchsfrei, wie folgendes Beispiel belegt: “M sei die Menge aller Mengen, die sich nicht selbst enthalten”. Das ist ein typisches Paradoxon, die “Russel’sche Antinomie”. Mengen können auf verschiedene Arten angegeben werden, etwa durch • Aufzählung der Elemente: M1 = {1, 2, 3} oder M2 = {∗, 0 a0 , M }, oder durch • Angabe einer Vorschrift, wie die Elemente konstruiert werden können, z.B. M3 = {x : x ist Bürger von Österreich} oder M = {x reelle Zahl : x < 5}. Mit ∅ oder {} bezeichnen wir die leere Menge, welche kein Element enthält. Definition 1.17. Sei M eine Menge, und x ein Objekt. Wir definieren die Symbole (Relationen) a∈M a 6∈ M :⇔ :⇔ a ist Element von M, ¬(a ∈ M ). Beispiel 1.18. Folgende Mengen werden immer wieder verwendet. • Die Menge der natürlichen Zahlen N := {1, 2, 3, . . .} und N0 := {0, 1, 2, . . .}. • Die Mengen der ganzen Zahlen Z := {0, −1, 1, −2, 2, . . .} sowie der rationalen Zahlen Q := {q : q = m/n wobei m ∈ Z, n ∈ N}. Ist q = m/n, dann heißt m Zähler, und n Nenner des Bruchs m/n. 8 Grundlegende Begriffe • Die reellen Zahlen R := {r : r ist reelle Zahl }. Mehr dazu später. Definition 1.19. Für zwei Mengen M und N definieren wir die folgenden Symbole M ⊂ N :⇔ ∀x ∈ M : (x ∈ N ) M = N :⇔ ((M ⊂ N ) ∧ (N ⊂ M ) (Teilmenge) (Gleichheit) Gilt M ⊂ N , so heißt M Teilmenge von N . Das Gegenteil wird mit M 6⊂ N ausgedrückt. Beispiel 1.20. • Offene, halboffene, und geschlossene Intervalle. Für a, b ∈ R definieren wir folgende Teilmengen von R: [a, b] := {x ∈ R : a ≤ x ≤ b}, [a, b) := {x ∈ R : a ≤ b < c}, und (a, b) = {x ∈ R : a < x < b}. • Es gilt N ⊂ N0 ⊂ Z ⊂ Q ⊂ R. • Für alle Mengen M gilt: {} ⊂ M . • Sei M = {1, 2} und N = {1, 2, 3}. Dann gilt M ⊂ N , N 6⊂ M , also M 6= N . Bemerkung 1.21. Für jede beliebige Aussageform A(x) gilt: ∀x ∈ {} : A(x). Über die leere Menge darf man also alles behaupten. Für die Konstruktion von Mengen aus bereits bekannten Mengen können folgende Operationen verwendet werden Definition 1.22. Für Mengen M und N definieren wir die Symbole (Operationen) M ∩N M ∪N M \N :⇔ :⇔ :⇔ {x : (x ∈ M ) ∧ (x ∈ N )}, {x : (x ∈ M ) ∨ (x ∈ N )}, {x : (x ∈ M ) ∧ (x 6∈ N )}, (Durchschnitt) (Vereinigung) (Differenz). Beispiel 1.23. • Sei M = {1, 2, 3} und N = {2, 4, 7}. Dann ist M ∩ N = {2}, M ∪ N = {1, 2, 3, 4, 7} und M \ N = {1, 3}. • Sei M = {n ∈ N : n < 3} und N = {n ∈ N : n > 3}. Dann ist M ∩ N = {}, M ∪ N = N \ {3} und M \ N = M . • Sei M = {x ∈ R : 0 ≤ x < 1} und N = {x ∈ R : x2 ≤ 1/4}. Dann ist N = {x ∈ R : −1/2 ≤ x ≤ 1/2} und daher M ∩ N = {x ∈ R : 0 ≤ x ≤ 1/2}, M ∪ N = {x ∈ R : −1/2 ≤ x < 1} und M \ N = {x ∈ R : 1/2 < x < 1}. Die elementaren Mengenoperationen lassen sich gut in so-genannten Venn-Diagrammen veranschaulichen. 1.2 Mengen und Relationen 9 Venn Diagramme Für das “Rechnen” mit Mengen gelten, ähnlich wie beim Rechnen mit Zahlen, folgende Regeln. Hierbei spielen ∩ bzw. ∪ die Rolle von · bzw. +. Satz 1.24. Seien M , N , O Mengen. Dann gilt M ∩ N = N ∩ M und M ∪ N = N ∪ M (M ∩ N ) ∩ O = M ∩ (N ∩ O) und (M ∪ N ) ∪ O = M ∪ (N ∪ O) (M ∪ N ) ∩ O = (M ∩ O) ∪ (N ∩ O) (Kommutativität) (Assoziativität) (Distributivität) Beweis. Wir zeigen nur die erste Behauptung, die restlichen folgen analog. Es gilt x ∈ (M ∩ N ) ⇔ (x ∈ M ) ∧ (x ∈ N ) ⇔ (x ∈ N ) ∧ (x ∈ M ) ⇔ x ∈ (N ∩ M ). Wir haben hier verwendet, dass die ∧ Verknüpfung kommutativ ist. Definition 1.25. Zur Konstruktion von Mengen definieren wir M ×N P (M ) :⇔ :⇔ {(x, y) : (x ∈ M ) ∧ (y ∈ N )}, {N : N ⊂ M }, (Kartesisches Produkt) (Potenzmenge). Bemerkung 1.26. Beim Kartesischen Produkt bezeichnet (x, y) ein geordnetes Paar. Für diese ist Gleichheit definiert durch (x1 , y1 ) = (x2 , y2 ) :⇔ (x1 = x2 ) ∧ (y1 = y2 ). Es kommt also auf die Reihenfolge an, und im Allgemeinen ist (x, y) 6= (y, x). Beispiel 1.27. Sei M = {1, 2} und N = {3, 4, 5}. Dann ist P (M ) = {{}, {1}, {2}, {1, 2}} und M × N = {(1, 3), (1, 4), (1, 5), (2, 3), (2, 4), (2, 5)}. Die Definitionen von Durchschnitt, Vereinigung und Kartesischem Produkt lassen sich sofort auf mehrere Mengen verallgemeinern. 10 Grundlegende Begriffe Definition 1.28. Mit Mi seien für 1 ≤ i ≤ n Mengen bezeichnet. Wir definieren n [ i=1 n \ i=1 n Y Mi := M1 ∪ M2 ∪ . . . ∪ Mn := {x : ∃i ∈ {1, . . . , n} : (x ∈ Mi )} Mi := M1 ∩ M2 ∩ . . . ∩ Mn := {x : ∀i ∈ {1, . . . , n} : (x ∈ Mi )} Mi := M1 × M2 × . . . × Mn := {(x1 , . . . , xn ) : ∀i ∈ {1, . . . , n} : (xi ∈ Mi )}. i=1 Bemerkung 1.29. • Gilt M1 = M2 = . . . = Mn = M , dann schreiben wir auch M n := Qn i=1 M. • Das n-fache Kartesische Produkt besteht aus n-Tupeln (x1 , . . . , xn ), die angeordnete Folgen von je n Objekten sind; die Reihenfolge ist wichtig! Beispiel 1.30. Mit R2 := R × R und R3 := R × R × R bezeichnen wir die Punkte (x, y) bzw. (x, y, z) in der Euklidischen Zahlenebene, bzw. dem Euklidischen dreidimensionalen Raum. Beide werden in den folgenden Kapiteln häufig verwendet. Als abschließendes Beispiel soll nochmals ausdrücklich auf den elementaren Zusammenhang zwischen Mengen und Aussagen hingewiesen werden. Sn Bemerkung Tn 1.31. Es gilt: x ∈ i=1 Mi ⇔ ∃i ∈ {1, . . . , n} : x ∈ Mi und in ähnlicher Weise auch x ∈ i=1 Mi ⇔ ∀i ∈ {1, . . . , n} : x ∈ Mi . Es besteht also ein elementarer Zusammenhang zu den Quantoren. 1.3 Abbildungen Definition 1.32. Seien M und N Mengen. Eine Abbildung (Funktion) von M in N ist eine Vorschrift, welche jedem Element x ∈ M genau ein Element y = f (x) ∈ N zuordnet. Wir schreiben f : M → N, x 7→ f (x). M heißt Definitionsbereich (Urbildbereich) und N Bildbereich (Wertemenge) von f . Mit Graph(f ) := {(x, f (x)) : x ∈ M } ⊂ M × N bezeichnet man den Graphen der Funktion f . Bemerkung 1.33. Wichtig ist hier, dass es für jedes x ∈ M genau ein y ∈ N mit y = f (x). Dies wird durch das Symbol x 7→ f (x) ausgedrückt. Beispiel 1.34. 1.3 Abbildungen 11 • f : R → R, x 7→ 2 · x ist eine Funktion. • f : {a, b, c} → {1} mit f (a) = 1, f (b) = 1, f (c) = 1 ist eine Funktion. • f : {a, b} → {1} mit f (a) = 1 ist keine Funktion. Dem Argument b ist kein Funktionswert zugewiesen. Bemerkung 1.35. • Handelt es sich bei M um eine Menge mit endlich vielen Elementen, so kann die Vorschrift f (x) tabellarisch angegeben werden. • Seien M, N ⊂ R. Dann kann f : M → N durch Darstellung des Funktionsgraphen veranschaulicht werden. Wir wollen noch weitere Begriffe festlegen. Definition 1.36. Für A ⊂ M und B ⊂ N heißen die Mengen f (A) := {y ∈ N : ∃x ∈ A : y = f (x)} ⊂ N, f (B) := {x ∈ M : f (x) ∈ B} ⊂ M −1 das Bild von A bzw. das Urbild von B unter (der Funktion) f . Beispiel 1.37. Wir betrachten die Funktion f : [0, 2] → R, x 7→ 2x + 1. Es ist dann f ([0, 2]) = [1, 5] und f −1 ((1, 3)) = (0, 1). Man veranschauliche sich hierzu den Funktionsgraphen. Definition 1.38. Eine Funktion f : M → N heißt • injektiv, falls f (x1 ) = f (x2 ) ⇒ x1 = x2 für jedes x1 , x2 ∈ M . Zwei verschiedene Argumente können also nicht dasselbe Bild erzeugen. • surjektiv, falls ∀y ∈ N ∃x ∈ M : y = f (x). D.h., jedes Element im Bildbereich wird tatsächlich angenommen. • bijektiv, falls f injektiv und surjektiv ist. Beispiel 1.39. Die Funktion f : [0, 1] → R, x 7→ 2x + 1 ist • injektiv: Es gilt nämlich f (x1 ) = f (x2 ) ⇔ 2x1 + 1 = 2x2 + 1 ⇔ 2x1 = 2x2 ⇔ x1 = x2 . • nicht surjektiv: y = 0 liegt im Bildbereich, es gibt aber kein x im Urbildbereich [0, 1] für das f (x) = 0 ist. Das sieht man durch Auflösen f (x) = 0 ⇔ 2x + 1 = 0 ⇔ 2x = −1 ⇔ x = −1/2. x = −1/2 wäre also die einzige Möglichkeit, um mit der Vorschrift f (x) = 2x + 1 den Wert 0 zu erreichen. −1/2 liegt aber nicht im Definitionsbereich. 12 Grundlegende Begriffe Es folgt, dass f auch nicht bijektiv ist. Bemerkung 1.40. Eine Funktion kann surjektiv gemacht werden, indem man den Wertebereich auf diejenigen Werte einschränkt, die tatsächlich angenommen werden, d.h., jede Funktion f : M → f (M ) ist automatisch surjektiv. Beispiel 1.41. Wir definieren f : [0, 2] 7→ [1, 5] mit x 7→ 2x + 1 wie oben. Dann ist f surjektiv, und mit obiger Überlegung auch injektiv, und somit bijektiv. Man veranschauliche sich den Unterschied zu oben anhand des Funktionsgraphen. Bemerkung 1.42. Für Funktionen f : M ⊂ R → N ⊂ R lässt sich anhand des Funktionsgraphen leicht entscheiden, ob Injektivität und/oder Surjektivität vorliegt. Injektivität bzw. Surjektivität reeller Funktionen Definition 1.43 (Hintereinanderausführung). Seien M , N , O Mengen, und f : M → N , g : N → O Funktionen. Dann ist mit (g ◦ f ) : M → O, x 7→ g(f (x)) eine Funktion (die Hintereinanderausführung von g und f ) definiert. Bemerkung 1.44. Zur besseren Unterscheidung haben wir das Symbol y für Elemente der Bildmenge N verwendet, und im Gegensatz dazu x für Elemente des Urbildbereiches. Satz 1.45. Sei f : M → N , x 7→ f (x) bijektiv. Dann existiert eine Abbildung g : N → M , y 7→ g(y) sodass (g ◦ f )(x) = g(f (x)) = x for all x ∈ M. Die Abbildung g heißt Umkehrabbildung und wird mit g = f −1 bezeichnet. Bemerkung 1.46. Die einfache Abbildung idM : M → M , x 7→ x wird Identitätsabbildung genannt. Obiger Satz liefert also f −1 ◦ f = idM . Ebenso gilt f ◦ f −1 = idN . Beispiel 1.47. Wie gezeigt, ist die Funktion f : [0, 2] → [1, 5], x 7→ 2x + 1 bijektiv. Die Umkehrabbildung erhält man, indem man die Gleichung y = 2x + 1 nach x auflöst (umkehrt). Man erhält y = 2x + 1 ⇔ y − 1 = 2x ⇔ (y − 1)/2 = x. 1.3 Abbildungen 13 Die Umkehrabbildung lautet also f −1 : [1, 5] → [0, 1], y 7→ (y − 1)/2. Zur Probe überprüfen wir f −1 (f (x)) = x: Ersetzen von y durch f (x) liefert f −1 (f (x)) = (f (x) − 1)/2 = ((2x + 1) − 1)/2 = 2x/2 = x, was wir zeigen wollten. Aufgaben Aufgabe 1.1. Bilden Sie von jeder der folgenden Aussagen die Verneinung und stellen Sie fest, ob jeweils die Aussage selbst oder ihre Verneinung wahr ist (mit Begründung). (a) Jeder Mensch hat blaue Augen. (b) ∀x ∈ Q ∃y ∈ Q : x · y = 1. Aufgabe 1.2. Es seien A, B und C mathematische Aussagen. Zeigen Sie mit Hilfe von Wahrheitstafeln: (a) (A ⇒ B) ⇐⇒ (¬B ⇒ ¬A), (b) (A ∧ ¬B) ∨ (¬A ∧ B) ⇐⇒ ¬(A ⇔ B). Aufgabe 1.3. Geben Sie folgende Mengen in aufzählender Form an: (a) {x ∈ N : x5 = −1}, {x ∈ Z : x5 = −1}, (b) {(x, y) ∈ {1, 2, 3} × {4, 5, 6, 7} : x · y ist gerade}, (c) {x ∈ Z : 2 ≤ x2 ≤ 9}, (d) {x3 : x ∈ Z ∧ −2 ≤ x ≤ 3}. Aufgabe 1.4. Seien K, L und M Mengen. Zeigen Sie: (a) K \ (K \ L) = K ∩ L, (b) K \ (L ∪ M ) = (K \ L) ∩ (K \ M ), (c) K \ (L ∩ M ) = (K \ L) ∪ (K \ M ). Aufgabe 1.5. Untersuchen Sie die folgenden Abbildungen auf Injektivität, Surjektivität und Bijektivität: (a) f1 : R → R, x 7→ exp(x), (b) f2 : Z → Z, x 7→ 2x − 1, (c) f3 : R → R, x 7→ 2x − 1, 14 Grundlegende Begriffe (d) f4 : N × R → R, (x, y) 7→ x · y. Skizzieren Sie die Funktionen fi für i ∈ {1, 2, 3}. Aufgabe 1.6. Es seien A, B und C nicht-leere Mengen und f : A → B und g : B → C zwei Abbildungen. Zeigen Sie: (a) Wenn g ◦ f injektiv ist, dann muss auch f injektiv sein, aber g im Allgemeinen nicht. (b) Wenn g ◦ f surjektiv ist, dann muss auch g surjektiv sein, aber f im Allgemeinen nicht. 2 Zahlenmengen und Rechentechniken Im folgenden Kapitel betrachten wir die Zahlenmengen N und R der natürlichen bzw. reellen Zahlen. Darüber hinaus wird die Menge C der komplexen Zahlen eingeführt. 2.1 Natürliche Zahlen Nach unserem Verständnis ist die Menge der natürlichen Zahlen gegeben durch N = {1, 2, 3, . . .}. (2.1) Bei genauerer Betrachtung stellt sich die Frage, was mit . . . gemeint ist. Die natürlichen Zahlen lassen sich vollständig wie folgt charakterisieren: Axiom 2.1 (Peano Axiome). Die Menge N der natürlichen Zahlen ist eine Menge mit folgenden Eigenschaften: 1. 2. 3. 4. 5. 1∈N ∀n ∈ N : n + 1 ∈ N ∀n ∈ N : n + 1 6= 1 ∀m, n ∈ N : (m 6= n ⇒ m + 1 6= n + 1) 1 ∈ M ∧ (∀n ∈ M : n + 1 ∈ M ) ⇒ N ⊂ M Eins ist eine natürliche Zahl jede natürliche Zahl hat einen “Nachfolger” Eins hat keinen “Vorgänger” Ungleichheit bleibt für Nachfolger erhalten Induktionsaxiom Ohne weiteres können wir die natürlichen Zahlen um das Element 0 ergänzen, und zwar N0 := {0} ∪ N mit 1 = 0 + 1. In diesem Fall hat dann 1 einen Vorgänger, aber 0 nicht. Die wesentliche Eigenschaft bei der Charakterisierung der natürlichen Zahlen ist das Induktionsaxiom, welches besagt, dass sich die natürlichen Zahlen durch Abzählen 1, 2, 3, . . . ausschöpfen lassen. Das erklärt jetzt auch die Bedeutung der Punkte in (2.1). Die Induktionseigenschaft erlaubt uns, folgende Symbole “induktiv“ (rekursiv) zu definieren. 16 Zahlenmengen und Rechentechniken Definition 2.2. Für k ∈ N seien ak reelle Zahlen. Wir definieren Summe: Produkt: 0 X k=1 0 Y n X und für n ∈ N : ak := 0, k=1 n Y und für n ∈ N : ak := 1, k=1 ak := an + ak := an · n−1 X ak k=1 n−1 Y k=1 ak . k=1 Bemerkung 2.3. Gilt ak = a für alle k ∈ N, dann folgt n X a=n·a n Y sowie k=1 a =: an . k=1 Hier bezeichnet an die n-te Potenz von a, und es gilt: a0 := 1, a1 = a, a2 = a · a, .... Etwas informeller schreiben wir auch n X ak = a1 + a2 + . . . + an sowie k=1 n Y ak = a1 · a2 · . . . · an . k=1 Bemerkung 2.4. In natürlicher Weise erweitern wir die Definition auf allgemeine Indices, und zwar n n Y X ak := am · am+1 · . . . · an ak := am + am+1 + . . . + an bzw. k=m k=m Qn Pn falls m ≤ n ist, sowie k=m ak := 0 und k=m ak := 1 wenn m > n. Man überzeugt sich leicht, dass eine Indexverschiebung bei entsprechender Anpassung der Grenzen das Ergebnis nicht beeinträchtigt. So erhält man z.B. für k → l + 1 (k wird durch l + 1 ersetzt) n X ak = k=1 l+1=n X al+1 = l+1=1 n−1 X al+1 . l=0 Beispiel 2.5. Sei an := n + 1. Dann gilt 7 X n=5 an = a5 + a6 + a7 = 6 + 7 + 8 = 21; 6 Y an = a5 · a6 = 6 · 7 = 42. n=5 Aus der Induktionseigenschaft lässt sich sofort das folgende wichtige Beweisprinzip ableiten, mit dem wir verschiedene Sätze beweisen werden. Satz 2.6 (Prinzip der vollständigen Induktion). Sei A(n) eine Aussageform, die für alle n ∈ N definiert ist. Falls 1. A(1) wahr ist, und (Induktionsanfang) 2. für alle n ∈ N aus A(n) auch A(n + 1) folgt. (Induktionsschluss) 2.1 Natürliche Zahlen 17 Dann gilt die Aussage A(n) für alle n ∈ N. Formal ausgedrückt: A(1) ∧ ∀n ∈ N : A(n) =⇒ A(n + 1) =⇒ (∀n ∈ N : A(n)). Bemerkung 2.7. • Gilt der Induktionsanfang A(n0 ) für irgendein n0 ∈ N0 , und der Induktionsschluss für alle n ≥ n0 . Dann gilt die Aussage A(n) ebenfalls (zumindest) für alle n ≥ n0 . Der Satz wurde für n0 = 1 formuliert. • Anstelle des Induktionsschlusses 2. kann man auch die Variante 2.’ für alle n ∈ N gilt: Aus A(m) für alle 1 ≤ m ≤ n folgt A(n + 1). Wir dürfen als Voraussetzung also nicht nur A(n) sondern A(m) für alle m ≤ n verwenden. Als erste Anwendung des Induktionsprinzips betrachten wir das folgende Beispiel. Satz 2.8 (Der kleine Gauß). Für alle n ∈ N gilt n X k= k=1 n(n + 1) . 2 Beweis. Die zu zeigende Aussage hat die Form ∀n ∈ N : A(n), wobei die Aussageform A(n) P definiert ist durch A(n) :⇔ nk=1 k = n(n + 1)/2. Zum Beweis verwenden wir das Prinzip der vollständigen Induktion. 1. Induktionsanfang (IA): P1 Für n = 1 gilt: k=1 k = 1 sowie n(n + 1)/2 = 1(1 + 1)/2 = 1. Somit gilt A(1). 2a) Induktionsvoraussetzung (IV): P Für beliebiges n ∈ N gelte A(n) bereits, also nk=1 k = n(n + 1)/2 gilt für dieses n. 2b) Induktionsschluss (IS): Zu P zeigen ist, dass dann (A(n) ist nach Voraussetzung richtig) auch A(n+1) gilt, d.h., zu zeigen zz ist n+1 k=1 k = (n + 1)(n + 2)/2: Wir beginnen mit der linken Seite der Gleichung: n+1 X P k = (n + 1) + k=1 n X k k=1 IV = (n + 1) + n(n + 1)/2 = (n + 1)(1 + n/2) = (n + 1)(2 + n)/2, was genau die zu zeigende Aussage A(n + 1) ist. Nach dem Prinzip der vollständigen Induktion folgt somit die Richtigkeit von A(n) für all n ∈ N. Wir führen weitere Symbole ein. 18 Zahlenmengen und Rechentechniken Definition 2.9. Für m, n ∈ N0 mit m ≤ n definieren wir: n! := Faktorielle (Fakultät): n Y k, k=1 n n! . := m!(n − m)! m Binomialkoeffizient: Beispiel 2.10. • Nach Definition gilt auch 0! = 1. Q • 5! = 5k=1 k = 1 · 2 · 3 · 4 · 5 = 120. Beispiel 2.11. • Für alle n ∈ N gilt: n n = , k n−k n n = = 1, 0 n n n = = n, 1 n−1 was man sofort durch Einsetzen in die Definition sieht. • Man kann in der Formel für den Binomialkoeffizienten ”kürzen“, und zwar n n! n · (n − 1) · (n − k + 1) · (n − k)! n n−1 n−k+1 = = = · ··· . k k!(n − k)! k · (k − 1) · . . . · 1 · (n − k)! k k−1 1 Mit Hilfe der Binomialkoeffizienten können wir Potenzen von Summen zweier Zahlen ausrechnen. Satz 2.12 (Binomische Formel). Seien a und b natürliche (reelle, komplexe) Zahlen. Dann gilt für alle n ∈ N n X n 0 n n n−k k n n 0 n n−1 1 (a + b) = a b = a b + a b + ... + ab . k 0 1 n k=0 n Beweis. Wir überprüfen die Formel für n = 1 und n = 2: Für n = 1 gilt zum einen (a + b)1 = (a + b), zum anderen haben wir n X 1 0 1 n k n−k 1 1 0 a b = ab + a b = a + b, k 0 1 k=0 wobei wir a0 = 1 für alle reelle Zahlen a, sowie 1 0 = 1 1 = 1 verwendet haben. Somit gilt A(1). 2.1 Natürliche Zahlen 19 Für n = 2 erhalten wir einerseits (a + b)2 = (a + b) · (a + b) = a2 + a · b + b · a + b2 = a2 + 2ab + b2 . Andererseits liefert die binomische Formel für n = 2 2 X 2 0 2 2 2−k k 2 2 0 2 1 1 a b = ab + ab + a b = 1 · a2 + 2 · ab + 1 · b2 . k 0 1 2 k=0 Das zeigt die Richtigkeit von A(2). Der allgemeine Fall A(n) folgt mit vollständiger Induktion; Beweis siehe Übung. Unter den natürlichen Zahlen besonders ausgezeichnet sind sogenannte Primzahlen. Definition 2.13. • Für n ∈ N heißt eine natürliche Zahl m Teiler von n, falls es ein k ∈ N gibt, mit n = k · m. Wir sagen ”m teilt n”, und schreiben m|n. • Eine natürliche Zahl p > 1, die nur 1 und sich selbst als Teiler besitzt, heißt Primzahl. Satz 2.14 (Hauptsatz der Arithmetik, Primfaktorzerlegung). Jede natürliche Zahl n > 1 lässt sich als Produkt von Primzahlpotenzen schreiben, d.h., es existiert ein k ≥ 1, Primzahlen p1 , . . . pk sowie Exponenten r1 , . . . , rk (alle natürlich), sodass n= pr11 · ... · prkk = k Y pri i i=1 gilt. Die Zahlen pi und ri sind bis auf Umordnung eindeutig bestimmt. Beweis. Der Beweis wird hier nicht erbracht, kann aber relativ einfach mittels vollständiger Induktion geführt werden. Bemerkung 2.15. Für natürliche Zahlen m, n definieren wir den größten gemeinsamen Teiler bzw. das kleinste gemeinsame Vielfache als ggT(m, n) := max{k ∈ N : k|n ∧ k|m} und kgV(m, n) := min{k ∈ N : m|k ∧ n|k}. Unter Benutzung der Primfaktorzerlegung kann man einfache Formeln für ggT(m, n) und kgV(m, n) angeben. Seien r̃ m = p̃r̃11 · . . . · p̃k̃k̃ , r̂ n = p̂r̂11 · . . . · p̂k̂k̂ die Primfaktorzerlegungen von m und k. Wir fassen alle vorkommenden Primzahlen zu einer Menge {pj : 1 ≤ j ≤ k} = {p̃j : 1 ≤ j ≤ k̃} ∪ {p̂j : 1 ≤ j ≤ k̂}, und erweitern die Primfaktorzerlegungen von m und n zu m = pr11 · . . . · prkk , 0 0 n = pr1 1 · . . . · prk k . 20 Zahlenmengen und Rechentechniken Man beachte, dass jetzt manche Exponenten ri auch Null sein können und pri i = 1. Durch Vergleich erhält man ggT(m, n) = k Y min{ri ,ri0 } pi kgV(m, n) = und i=1 k Y max{ri ,ri0 } pi , i=1 woraus durch einfache Rechnung sofort folgt, dass ggT(m, n) · kgV(m, n) = m · n. Wegen 2 m = k Y pri i 2 = i=1 k Y i p2r i i=1 sieht man sofort ein, dass 2 ggT(m, n) = k Y min{ri ,ri0 } 2 pi i=1 = k Y 2 min{ri ,ri0 } pi i=1 = k Y min{2ri ,2ri0 } pi = ggT(m2 , n2 ). i=1 Die wichtigsten Ergebnisse fassen wir in folgendem Satz zusammen. Satz 2.16. Seien m, n ∈ N. Dann gilt ggT(m, n) · kgV(m, n) = m · n und ggT(m, n)2 = ggT(m2 , n2 ). Bemerkung 2.17. Beinhalten die Primfaktorzerlegungen von m und n keine gemeinsamen Primfaktoren, dann heißen m und n teilerfremd. Mit obiger Überlegung also m, n teilerfremd :⇔ ggT(m, n) = 1. 2.2 Ganze, rationale und reelle Zahlen Im Folgenden werden wir sehen, dass der Wunsch, bestimmte Gleichungen lösen zu können, schrittweise Erweiterungen der Menge verfügbarer Zahlen nötig macht. Ganze Zahlen: Sei n ∈ N gegeben. Die einfache Gleichung z+n=0 besitzt offensichtlich keine Lösung z ∈ N. Wir führen deshalb neue Zahlen (−n) ein, welche gerade die Lösungen dieser Gleichungen sind. Dies führt uns auf die Menge der ganzen Zahlen Z := N0 ∪ {(−n) : n ∈ N} = {0, 1, −1, 2, −2, . . .} Man beachte: Die ganzen Zahlen z mit z > 0 sind wieder natürliche Zahlen. 2.2 Ganze, rationale und reelle Zahlen 21 Bemerkung 2.18. Die Definitionen von Symbolen für natürliche Zahlen aus dem vorhergehenden Abschnitt lassen sich größtenteils auf ganze Zahlen erweitern. Ist z.B. die ganze Zahl z < 0, so gilt 0 < −z ∈ N. Jede ganze Zahl z ∈ Z \ {0} besitzt demnach ebenfalls eine (eindeutige) Primfaktorzerlegung der Form z = ±pr11 · . . . · prkk , wobei je nach Vorzeichen von z in der Formel + oder − zu wählen ist. Rationale Zahlen: Für gegebenes n ∈ N suchen wir nach einer Lösung der Gleichung q · n = 1. So ein q liegt im allgemeinen nicht in Z. Wir führen daher neue Zahlen nz als Lösung der Gleichung q · n = z mit z ∈ Z ein. Die Menge aller solcher rationaler Zahlen wird mit Q := { z : z ∈ Z, n ∈ N}. n bezeichnet. Bemerkung 2.19. • Für z = 0 gilt nz = 0. Für z 6= 0 können wir z und n in Primfaktoren zerlegen, und dann den Bruch soweit kürzen, dass Zähler und Nenner keine gemeinsamen Primfaktoren aufweisen. So gilt etwa 20 2·2·5 2·2 4 = = = . 15 3·5 3 3 Dieser Bruch lässt sich nicht weiter kürzen. • Die Zahlen 20/15 und 4/3 sind gleich und lassen sich nicht unterscheiden. In Q kommt daher eigentlich nur eine Zahl mit Wert 4/3 = 20/15 = ... vor. Reelle Zahlen: Wie das folgende Beispiel zeigt, reicht die Menge der rationalen Zahlen immer noch nicht aus, um einfache Gleichungen der Form x · x = n mit n ∈ N zu lösen. Satz 2.20 (Existenz irrationaler Zahlen). Es gibt keine Zahl x ∈ Q, sodass x · x = 2 gilt. Beweis. Die Aussage lautet formal: A :⇔ ∀x ∈ Q : x · x 6= 2. Nach den deMorgan’schen Regeln haben wir A :⇔ ∀x ∈ Q : x · x 6= 2 ⇔ ¬(∃x ∈ Q : x · x = 2) ⇔ ¬(¬A). Wir führen einen Widerspruchsbeweis, d.h., wir nehmen ¬A an, und zeigen, dass diese Annahme falsch (und somit A richtig) ist. 22 Zahlenmengen und Rechentechniken Angenommen ¬A ist richtig, d.h., ∃x ∈ Q : x · x = 2. Daraus folgt, dass x = z/n mit z ∈ Z und n ∈ N. Wir können ferner annehmen, dass z und n keine gemeinsamen Primfaktoren besitzen (sonst zuvor kürzen). Die vollständige Annahme lautet also: ∃x ∈ Q : x · x = 2 ∧ (∃n ∈ N, z ∈ Z : (x = z/n) ∧ (ggT(z, n) = 1) . Nach Annahme gilt: z2 z z · = 2, n n n 2 2 2 2 insbesondere ist n ein Teiler von z , also ggT(n , z ) ≥ n2 . Wegen z 2 6= 2 für alle z ∈ Z, folgt n2 > 1. Aus Satz 2.16 folgern wir nun, dass 2=x·x= 1 = ggT(n, z)2 = ggT(n2 , z 2 ) ≥ n2 > 1, was einen Widerspruch ergibt. Somit ist die Annahme ¬A falsch (widersprüchlich), und daher ist A wahr. Die Lösung der Gleichung x2 = x · x = 2 nennen wir √ 2, die (Quadrat-)Wurzel aus 2. Wir definieren im Folgenden die Menge der reellen Zahlen R, welche neben den rationalen Zahlen auch alle Quadratwurzeln natürlicher Zahlen, aber noch viele weitere Zahlen enthält. Die Menge R lässt sich durch folgende Rechenregeln charakterisieren. Axiom 2.21 (Axiome der reellen Zahlen). Die Menge R der reellen Zahlen enthält Q. Darüber hinaus gelten für alle x, y, z ∈ R folgende Regeln: (1) Regeln der Addition (A1) (A2) (A3) (A4) x + (y + z) = (x + y) + z x+y =y+x ∃!0 ∈ R : x + 0 = 0 + x = x ∃!(−x) ∈ R : x + (−x) = (−x) + x = 0 (assoziativ) (kommutativ) (neutrales Element; 0 Element) (inverses Element) (2) Regeln der Multiplikation (M 1) (M 2) (M 3) (M 4) (x · y) · z = x · (y · z) x·y =y·x ∃!1 ∈ R \ {0} : x · 1 = 1 · x = x 1 1 1 x 6= 0 : ∃!( ) ∈ R : x · ( ) = ( ) · x = 1 x x x (assoziativ) (kommutativ) (neutrales Element; 1 Element) (inverses Element) (3) Distributivgesetz (D) x · (y + z) = (x · y) + (x · z) (distributiv) 2.2 Ganze, rationale und reelle Zahlen 23 (4) Ordnungseigenschaften (O1) (O2) (O3) (O4) (O5) (O6) x≤y∨y ≤x x≤x x≤y∧y ≤x⇔x=y x≤y∧y ≤z ⇒x≤z x≤y ⇔x+z ≤y+z x≤y∧z ≥0⇒x·z ≤y·z (vergleichbar) (reflexiv) (eindeutig) (transitiv) (verträglich mit +) (verträglich mit ·) (5) Vollständigkeitsaxiom (V) Sei R = L ∪ R mit L, R 6= ∅ und ∀x ∈ L∀y ∈ R : x < y. Dann existiert genau eine Schnittzahl z ∈ R, sodass ∀x ∈ L, y ∈ R : x ≤ z ≤ y. Bemerkung 2.22. • Wir identifizieren die reellen Zahlen oft mit den Punkten der Zahlengeraden. Das Vollständigkeitsaxiom besagt, dass diese keine Löcher aufweist, d.h., schneidet man die Zahlengerade in zwei Stücke L und R, dann geschieht dies exakt bei einer Zahl z. • Wir werden später noch andere Kriterien für Vollständigkeit kennenlernen. Bemerkung 2.23 (Algebraische Strukturen). • Jede beliebige Menge G mit einer Operation (Addition) + : G × G → G welche (A1)– (A4) erfüllt heißt Abelsche- (oder kommutative) Gruppe. Gilt (A2) nicht, dann nur Gruppe. Neben (R, +) sind auch (Z, +) oder (R \ {0}, ·) Abelsche Gruppen; (N, +) nicht. • Eine Menge K mit Operationen + : K × K → K (Addition) und · : K × K → K (Multiplikation) welche (A1)–(A4), (M1)–(M4) und (D) erfüllen, heißt Körper (kurz K oder (K, +, ·)). Man überzeugt sich leicht, dass neben (R, +, ·) auch (Q, +, ·) ein Körper ist; (Z, +, ·) jedoch nicht. • Eine Menge M mit einer Relation ≤, welche (O1)–(O4) erfüllt, heißt angeordnet. Ist (M, +, ·) ein Körper, und ≤ zusätzlich verträglich mit + und ·, dann heißt (M, +, ·, ≤) angeordneter Körper. Als Beispiel seien R und Q genannt. • R (bzw. (R, +, ·, ≤)) ist nach Definition ein vollständiger (angeordneter) Körper, Q jedoch √ nicht; man könnte Q ja bei z = 2 auseinander schneiden, und wie gezeigt liegt dieses z nicht in Q. Bemerkung 2.24. Mit Hilfe der Relation ≤ definieren wir für alle reellen Zahlen x, y • x < y :⇔ x ≤ y ∧ x 6= y • x ≥ y :⇔ y ≤ x und x > y :⇔ y < x. Weiter können wir über die inversen Elemente folgende Operationen definieren: 24 Zahlenmengen und Rechentechniken • / : R × R \ {0} → R, x/y := x · ( y1 ) • − : R × R → R, x − y := x + (−y) Alle bekannten Rechenregeln für reelle Zahlen lassen sich auf obige Axiome zurückführen. Die folgende unvollständige Aufzählung fasst einige dieser Folgerungen zusammen. Satz 2.25. Seien x, y, z ∈ R. Dann gilt (a) (c) (e) (g) x = y ⇔ x + z = y + z, x · 0 = 0, x 6= 0 ⇒ x · x > 0, x, y ≥ 0 : x ≤ y ⇔ x2 ≤ y 2 . (O3) (b) x = y ⇔ x · z = y · z (z 6= 0), (d) (−1) · x = (−x), (f ) 1 > 0, (O5) (O3) Beweis. (a): x = y ⇔ x ≤ y ∧ y ≤ x ⇔ x + z ≤ y + z ∧ y + z ≤ x + z ⇔ x + z = y + z; (b): siehe Übung; (a) (M 3,A3) (c): x · 0 = 0 ⇔ x · 0 + x = 0 + x ⇔ die letzte Aussage ist nach (M3) wahr. (a,A3) (D) (A3) x · 0 + x · 1 = x ⇔ x · (0 + 1) = x ⇔ x · 1 = x, und (M 3,D) (A3,c) (A3) (d): (−1) · x = (−x) + x + (−1) · x = (−x) + (1 + (−1)) · x = (−x) + 0 = (−x). c (e): Sei x > 0. Dann ist mit (O6’) x · x > 0 · x = 0. Der Fall x < 0 folgt ähnlich (Übung: mit x < 0 ⇔ −x > 0 und (−x) · (−x) = x · x). (M 3) (e) (f): Es gilt 1 = 1 · 1 > 0. (g): “⇒”: Sei x ≤ y. Aus (O6) folgt x2 ≤ xy ∧ xy ≤ y 2 . (O4) liefert x2 ≤ y 2 . “⇐” Sei x > y und y > 0. Aus (O6) folgt x2 > xy ∧ xy > y 2 . Mit (O4) folgt x2 > y 2 . Definition 2.26. Eine Menge M ⊂ R heißt nach oben (bzw. nach unten) beschränkt, falls es eine Zahl a ∈ R (b ∈ R) gibt, sodass ∀x ∈ M : x ≤ a (b ≤ x) gilt. Die Zahlen a (bzw. b) heißen obere (untere) Schranke. Aus dem Vollständigkeitsaxiom können wir nun die Existenz von Schranken ableiten. Satz 2.27. Jede nicht leere, nach oben (nach unten) beschränkte Menge M ⊂ R besitzt eine größte untere (kleinste obere) Schranke a = inf M b = sup M (Infimum; größte untere Schranke), bzw. (Supremum; kleinste obere Schranke). Genauer, ist a (bzw. b) charakterisiert über die beiden Eigenschaften (i) ∀x ∈ M : a ≤ x (bzw. x ≤ b), (ii) ∀a0 ∈ R : (∀x ∈ M : a0 ≤ x) ⇒ a0 ≤ a (bzw. für alle oberen Schranken b0 gilt: b ≤ b0 ). 2.2 Ganze, rationale und reelle Zahlen 25 Beweis. Wir definieren die Mengen L := {x ∈ R : ∀y ∈ M : x < y} und R := {x ∈ R : ∃y ∈ M : x ≥ y} (die Menge L liegt “links” von M ). Die Menge L, R sind nicht leer (warum?), haben kein gemeinsames Element, und es gilt L ∪ R = R. Nach dem Vollständigkeitsaxiom gibt es eine Schnittzahl a mit x≤a≤y ∀x ∈ L, y ∈ R. (2.2) Behauptung: a = inf M . Zu zeigen sind die beiden folgenden Punkte (i) ∀x ∈ M : a ≤ x, (ii) ∀a0 ∈ R : a0 > a ⇒ (∃x ∈ M : x < a0 ) , zu (i): Da M ⊂ R, folgt aus a ≤ y für alle y ∈ R insbesondere a ≤ y für alle y ∈ M . zu (ii): Sei a0 ∈ R mit a0 > a. Definiere c := (a + a0 )/2. Es gilt a < c < a0 . Aufgrund von (2.2) folgt c ∈ R. Also existiert ein y ∈ M mit y ≤ c. Für dieses y gilt dann y < a0 . Damit gilt auch (ii). Der Beweis für die Existenz des Supremums folgt analog. Bemerkung 2.28. Die Aussage des Satzes gilt nicht für die rationalen Zahlen Q: Die Menge √ M := {q ∈ Q √ : 0 ≤ q ≤ 2} besitzt keine kleinste obere Schranke in Q. Die kleinste obere Schranke wäre 2, und diese liegt nicht in Q! Die Menge Q ist nicht vollständig. Definition 2.29. Das größte (kleinste) Element einer Menge heißt Maximum (bzw. Minimum) von M und wird mit max M (min M ) bezeichnet. Nach obigem Satz besitzt jede beschränkte Menge ein Infimum und Supremum. Ein Maximum oder Minimum braucht allerdings im Allgemeinen nicht vorzuliegen. Es gilt aber der folgende Zusammenhang. Satz 2.30. Sei M ⊂ R eine nach oben (nach unten) beschränkte Menge. Dann gilt: M besitzt ein Maximum (Minimum) ⇔ sup M ∈ M (inf M ∈ M ). In diesem Fall gilt sup M = max M bzw. inf M = min M . Beweis. =⇒ : Falls M ein Maximum besitzt, dann erfüllt b := max M nach Definition die Beziehung ∀x ∈ M : b ≥ x. Somit ist b obere Schranke. Da b ∈ M liegt, folgt für jede andere obere Schranke b ≤ b0 . Somit ist b die kleinste obere Schranke. ⇐=: Angenommen, das Supremum b := sup M liegt in M , d.h., b ∈ M und ∀x ∈ M : b ≥ x, da b obere Schranke. Das zeigt, dass b auch Maximum ist. Die Aussage folgt aus folgender Tautologie für Aussagen: (A ⇔ B) ⇔ (A ⇒ B) ∧ (B ⇒ A). Wir haben ebenso gezeigt, dass, wenn ein Maximum existiert, dieses gleichzeitig die kleinste obere Schranke ist. Die Aussagen für das Minimum folgen analog. 26 Zahlenmengen und Rechentechniken Beispiel 2.31. Seien a, b ∈ R mit a < b. Dann gilt inf(a, b) = a und sup(a, b) = b. Das offene Intervall (a, b) besitzt jedoch kein Minimum oder Maximum. Für das geschlossene Intervall [a, b] gilt hingegen inf[a, b] = a = min[a, b] sowie sup[a, b] = b = max[a, b]. Beweis. Wir zeigen nur die Aussage a = inf(a, b). Nach Definition des offenen Intervalls (a, b) := {x ∈ R : a < x < b} folgt, dass a untere Schranke ist (Eigenschaft (i) in der Definition des Infimums). Zu zeigen bleibt, dass jede andere untere Schranke a0 kleiner gleich a ist. Angenommen, es gäbe ein a0 ∈ R (a0 < b) sodass ∀x ∈ (a, b) : a0 ≤ x und a0 > a, also eine untere Schranke die echt größer als a0 ist. Dann gilt für x0 := (a + a0 )/2 dass a < x0 < a0 . Aus der ersten Bedingung folgt, dass x0 ∈ (a, b) ist, und aus der zweiten, dass a0 keine untere Schranke für alle Elemente in (a, b) ist. Widerspruch zur Annahme. Wir beschließen diesen Abschnitt mit dem folgenden Satz und einigen nützlichen Folgerungen. Satz 2.32 (Satz von Archimedes). Die Menge N der natürlichen Zahlen ist nicht nach oben beschränkt. Beweis. Übung. Folgerung 2.33. Es gelten folgende Sachverhalte: 1 < ε, (ii) ∀x ∈ R∃n ∈ Z : n ≤ x < n + 1, n (iii) ∀x, y ∈ R mit y > x > 0 ∃n ∈ N : nx > y. (i) ∀ε > 0 ∃n ∈ N : 0 < Beweis. Übung. 2.2.1 Rechnen mit reellen Zahlen Im Folgenden wird das Rechnen mit reellen Zahlen anhand von Beispielen demonstriert. Man beachte, dass sich alle weiteren Regeln aus den obigen Axiomen herleiten lassen. Variablen, Terme, Ausdrücke Die Grundbausteine um (reelle, mathematische) Ausdrücke zu konstruieren sind Zahlen und Variablen. Letztere stehen als Platzhalter für (reelle) Zahlen. x = 1, x+1 = 5y, 2 usw. 2.2 Ganze, rationale und reelle Zahlen 27 Durch Rechenoperationen haben wir Variablen und Zahlen zu Termen verknüpft. Beispiel für Terme sind x, 1, (x + 1) oder x+1 . 2 = 5y einen Ausdruck (in den Variablen x, y, ...). Streng genommen Wir nennen x = 1 bzw. x+1 2 handelt es sich dabei um eine Aussageform, also einen formalen Ausdruck ohne Wahrheitswert. Gleichungen, äquivalente Umformungen Bei Gleichungen der Form A(x) :⇔ x+1 =5 2 stellt sich oft die Frage, ob es ein x (einen Wert für die Variable x) gibt, sodass die Gleichung wahr ist. Formal kann man das formulieren als B :⇔ ∃x ∈ R : x+1 = 5. 2 Durch den Quantor haben wir die Aussageform (den formalen Ausdruck) A(x) in eine Aussage überführt, und wir können dieser einen Wahrheitswert zuordnen. Hier würden wir erhalten: w(B) = 1, es existiert eine Lösung der Gleichung. Natürlich stellt sich jetzt die Frage, welches x (welche reelle Zahl – welcher Einsetzungswert für die Variable x) Lösung der Gleichung ist. Hierzu benutzen wir die Rechenregeln aus den Axiomen für reelle Zahlen, z.B. ∀x ∈ R : ( x+1 ·2 −1 = 5 ⇔ x + 1 = 10 ⇔ x = 9). 2 Oftmals wird ∀x ∈ R nicht explizit angegeben, oder im Text als “Für jede reelle Zahl x gilt”, oder “sei x eine beliebige reelle Zahl; dann gilt” formuliert. Für jede reelle Zahl x gilt also: x+1 = 5 ⇔ x = 9. 2 Bemerkung 2.34. Man beachte: Die “Rechenregeln” ∀x, y, z ∈ R : x = y ⇔ x + z = y + z ∀x, y, z ∈ R, z 6= 0 : x = y ⇔ x · z = y · z folgen unmittelbar aus den Regeln (O1)–(O6). Somit haben wir gezeigt: x+1 B :⇔ ∃x ∈ R : = 5 ⇔ ∃x ∈ R : x = 9 . 2 Offensichtlich ist x = 9 die Lösung des Problems, und B ist wahr. 28 Zahlenmengen und Rechentechniken Die Menge aller x, für welche die Gleichung stimmt, nennen wir Lösungsmenge L := {x ∈ R : x+1 = 5} = {x ∈ R : x = 9} = {9}. 2 Achtung! Multiplizieren von Gleichungen mit 0 ist keine äquivalente Umformung, also ∀x, y ∈ R : x = y ⇒ x · 0 = y · 0, aber die Umkehrung stimmt im Allgemeinen nicht, denn 1 · 0 = 2 · 0 = 0, aber 1 6= 2! Brüche Das sind Terme der Form 5x + 1 , 2 1 ,... x+2 Zähler Nenner Man beachte: Der Bruch ist nur dann definiert, wenn der Nenner ungleich 0 ist. Division durch Null ist nicht erlaubt (nicht definiert). Für das zweite Beispiel machen wir also den Zusatz 1 , x 6= −2, x+2 was bedeutet, dass der Term nur für x 6= −2 definiert ist. Multiplizieren von Brüchen geschieht durch Multiplikation von Zähler und Nenner, also (für alle a, b, c, d ∈ R mit b, d 6= 0 gilt) a·c a c · = . b d b·d Brüche, die gleiche Faktoren im Zähler und Nenner enthalten, können gekürzt werden, also 2x 2x x = = , 2y 2y y y 6= 0. (Nur) Brüche mit gleichem Zähler können durch entsprechendes Zusammenfassen der Zähler addiert bzw. subtrahiert werden, also (x + 1) + 1 x+2 x 2 x x+1 1 + = = = + = + 1. 2 2 2 2 2 2 2 Durch Erweitern (Multiplikation mit Termen der Form aa ) lassen sich Brüche immer auf gleichen Nenner bringen. Etwa 1 1 1 x+2 1 2 x+2 2 x+4 + = · + · = + = . 2 x+2 2 x+2 x+2 2 2 · (x + 2) 2 · (x + 2) 2 · (x + 2) Den Kehrwert eines Bruches (= inverses Element bezüglich der Multiplikation) erhält man durch Vertauschen von Zähler und Nenner, also 1/(a/b) = b/a, a, b 6= 0. 2.2 Ganze, rationale und reelle Zahlen 29 Daraus ergibt sich auch die Formel zum Auflösen für Doppelbrüche: a b c d = a c a d a·d · (1/( )) = · = . b d b c b·c Potenzen Für a ∈ R und n ∈ N haben wir definiert n a := n Y k=1 a = |a · a ·{z. . . · a} . n mal a heißt Basis und n der Exponent. Weiterhin definieren wir ∀a ∈ R : a0 := 1 0n = 0; und Man sieht sofort, dass für m, n ∈ N gilt am · an = am+n und (am )n = am·n . Unter Zuhilfenahme von a0 = 1 und am · an = am+n definieren wir a−n := 1/(an ), a 6= 0. Für a ≥ 0 definieren wir die n-te Wurzel von a als diejenige positive reelle Zahl Potenz gerade a ist, d.h. √ √ 1 und ( n a)n = a. a n := n a Es gilt beispielsweise √ √ √ √ 2 2 2· 2= 2· 2=2 und √ 3 n· √ n a, deren n-te √ √ 3 n · 3 n = n. Diese Definition ist verträglich mit den Regeln a0 = 1 und (am )n = am·n . Die Definitionen lassen sich für a ≥ 0 auf reelle Exponenten erweitern. Es gelten folgende Rechengesetze: Seien a, b ≥ 0 und x, y ∈ R. Dann ist ax · ay = ax+y a−x = 1/(ax ) ax · bx = (a · b)x a0 = 1 Lösen quadratischer Gleichungen Sei a ∈ R. Dann gilt (a)2 = a2 = (−a)2 . (ax )y = ax·y 00 := 1. 30 Zahlenmengen und Rechentechniken Die Gleichung x2 = a2 besitzt also (mindestens) zwei Lösungen, nämlich x = a sowie x = −a. Wie später gezeigt wird, sind das die einzigen beiden Lösungen. Abstrakt können wir dies ausdrücken durch x2 = a2 ⇔ x = a ∨ x = −a kurz: x = ±a. Als nächstes betrachten wir die allgemeine quadratische Gleichung a · x2 + b · x + c = 0, a, b, c ∈ R, a 6= 0. Im Fall a = 0 vereinfacht sich die Gleichung. Gesucht sind Lösungen (Werte für) x, für welche Gleichheit gilt. Wir definieren p := b/a und q := c/a. Die quadratische Gleichung ist dann äquivalent zu (Division durch a) x2 + px + q = 0. Durch Nachrechnen sieht man, dass dies wiederum äquivalent ist zu (x + p/2)2 = p2 /4 − q, und durch Ziehen der Quadratwurzel auf beiden Seiten erhält man die Lösungen p p bzw. äquivalent: x = −p/2 ± p2 /4 − q, x + p/2 = ± p2 /4 − q wobei vorausgesetzt werden muss, dass p2 /4 − q ≥ 0 ist. Wir haben also die p-q-Lösungsformel für quadratische Gleichungen hergeleitet: p p x2 + px + q = 0 ⇔ x = −p/2 + p2 /4 − q ∨ x = −p/2 − p2 /4 − q. Die Lösungsmenge der quadratischen Gleichung ist somit p L = {−p/2 ± p2 /4 − q} falls q ≤ p2 /4, sonst L = ∅. Ungleichungen, Abschätzen Wir definieren zunächst: x ≥ y :⇔ y ≤ x und x < y ⇔ (x ≤ y ∧ x 6= y). Die Bedeutung des Symbols > sollte dann klar sein. Beim Rechnen mit Ungleichungen benutzen wir (O1)–(O6). Aus diesen Regeln folgen auch a ≤ b ⇒ (−a) ≥ (−b) und a≤b⇒ 1 1 ≥ , a b Beispiel 2.35. Sei y ∈ R gegeben. Man finde alle x, für welche menge der Ungleichung. Lösung: Es gilt x+5y 3 a, b 6= 0. ≤ 1 gilt; also die Lösungs- x + 5y (O60 ) (O5) ≤ 1 ⇔ x + 5y ≤ 3 ⇔ x ≤ 3 − 5y. 3 Die Lösungsmenge ist also gegeben durch L(y) := {x ∈ R : x ≤ 3 − 5y}. Diese hängt noch vom tatsächlichen Wert von y ab. 2.2 Ganze, rationale und reelle Zahlen 31 Bemerkung 2.36. Wir haben hier eine verschärfte Version von (O6) verwendet, nämlich: (O60 ) : ∀z > 0 : x ≤ y ⇔ z · x ≤ z · y. Beispiel 2.37. Gesucht sind Lösungen der Ungleichung Lösung: Wie vorhin erhalten wir x2 +5y 3 ≥ 1 für gegebenes y ∈ R. x2 + 5y ≥ 1 ⇔ x2 ≥ 3 − 5y. 3 Da x2 ≥ 0 für alle x ∈ R, gilt die letzte Ungleichung immer falls 3 − 5y ≤ 0. Für den Fall 3 − 5y > 0, gilt weiter p p x2 + 5y ≥ 1 ⇔ x ≥ 3 − 5y ∨ x ≤ − 3 − 5y, 3 Die Lösungsmenge der Ungleichung ist also p p L = R \ (− 3 − 5y, 3 − 5y), falls y ≥ 3/5, falls: y ≤ 3/5. sonst: L = R. (a, b) = {x ∈ R : x > a ∧ x < b} bezeichnet hierbei das offene Intervall. Ungleichungen dienen oft zum Abschätzen komplizierter Ausdrücke. Beispiel 2.38. Man zeige, dass n2 ≤ n2 für alle n ∈ N, n ≥ 2 gilt. Lösung: Es gilt n · (n − 1) · (n − 2)! n n−1 n n! = = · ≤ n · n = n2 . = 2!(n − 2)! 2 · 1 · (n − 2)! 2 1 2 Beträge Für reelle Zahlen x ∈ R definieren wir den Betrag von x durch x, falls x ≥ 0 |x| := −x, falls x < 0. Der Betrag misst die absolute Größe einer Zahl. Beispiel 2.39. Sei y ∈ R, y ≥ 0 gegeben. Man berechne die Lösungsmenge der Ungleichung |x − 1| ≤ y. Lösung: Nach Definition des Betrags gilt: |x − 1| ≤ y ⇔ (x − 1 ≤ y ∧ x − 1 ≥ 0) ∨ (−(x − 1) ≤ y ∧ x − 1 < 0) ⇔ (x ≤ y + 1 ∧ x ≥ 1) ∨ (x ≥ 1 − y ∧ x < 1). Die Lösungsmenge ist demnach gegeben durch L = [1, y + 1] ∪ [1 − y, 1) = [1 − y, 1 + y]. 32 Zahlenmengen und Rechentechniken Man überzeugt sich relativ leicht, dass der Betrag folgende Eigenschaften hat. Satz 2.40. Für alle x, y ∈ R gilt (B1) (B2) (B3) |x| ≥ 0 ∧ (|x| = 0 ⇔ x = 0) |x · y| = |x| · |y| |x + y| ≤ |x| + |y| (definit) (homogen) (Dreiecksungleichung). Beweis. Mit Fallunterscheidung; siehe Übung. 2.2.2 Reellwertige Funktionen einer Variablen Zur Auffrischung des Schulwissens wollen wir einige bekannte Funktionen der Form f : R → R, x 7→ f (x) betrachten. Da sowohl Werte- als auch Definitionsbereich die reellen Zahlen sind, sprechen wir von reell-wertigen Funktionen einer reellen Variablen. Solche Funktionen lassen sich einfach durch Darstellung (eines Teiles) ihres Funktionsgraphen graph(f ) := {(x, f (x)) : x ∈ R} ⊂ R × R visualisieren. Polynomfunktionen Seien a0 , . . . , an ∈ R mit an 6= 0 gegeben. Die Funktion pn : R → R, x 7→ a0 + a1 x + a2 x2 + . . . + an xn heißt Polynom(funktion) vom Grad n mit Koeffizienten ai . (Reelle) Lösungen der Gleichung pn (x) = 0 nennen wir (reelle) Nullstellen von pn . Beispiel 2.41. Sei pn (x) := x2 + x − 2 (das ist kurz für: pn : R → R, x 7→ x2 + x − 2). Gesucht sind die Nullstellen von pn . Lösung: Nach Definition der Nullstellen suchen wir also nach Lösungen der Gleichung x2 + x − 2 = 0. Nach der p-q-Formel ist die Lösungsmenge gegeben durch p L = {−1/2 ± 1/4 + 2} = {−2, 1}, und dies ist gerade die Menge der Nullstellen von pn . 2.2 Ganze, rationale und reelle Zahlen 33 Die einfachsten Polynomfunktionen sind die konstante Funktion sowie die Identitätsabbildung p0 : R → R, x 7→ a0 bzw. id : R → R, x 7→ x. Wir schreiben auch kurz: p0 (x) = a0 bzw. id(x) = x. Winkelfunktionen Wir bezeichnen im Folgenden mit x den Winkel im Bogenlängenmaß. Die Funktionen sin(x) und cos(x) sind durch folgende Skizze definiert Definition der Winkelfunktionen Aus der Skizze und dem Satz von Pythagoras folgt für jedes x ∈ R | sin(x)| ≤ 1, | cos(x)| ≤ 1 und sin(x)2 + cos(x)2 = 1. Ebenso liest man die Periodizität von sin und cos ab, d.h., sin(2πn + x) = sin(x), cos(2πn + x) = cos(x) ∀x ∈ R, n ∈ Z. Ebenfalls aus der Skizze ablesbar ist die Verschiebungsregel cos(x) = sin(x + π/2). Schließlich bemerken wir die Gültigkeit der folgenden Winkelsummensätze (Additionstheoreme) sin(x ± y) = sin x · cos y ± sin y · cos x cos(x ± y) = cos x · cos y ∓ sin x · sin y. Diese Formeln werden wir später mit Hilfe komplexer Zahlen zeigen. Exponentialfunktion und Logarithmus Über die besondere Bedeutung der Euler’schen Zahl e ≈ 2.7182818 werden wir später noch berichten, vgl. Beispiel 10.22. Wir definieren die Exponentialfunktion exp : R → R, x 7→ exp(x) := ex . Aus der Definition ergeben sich sofort folgende elementare Eigenschaften: exp(x + y) = exp(x) · exp(y) exp(0) = 1, exp(−x) = 1/ exp(x), exp(x) > 0, (2.3) 34 Zahlenmengen und Rechentechniken welche für alle x ∈ R gelten. Wir werden später sehen, vgl. Beispiel 11.22, dass x2 x 2 exp(x) = 1 + x + + + ... 2! 3! gilt. Hieraus sieht man auch, dass für x ≥ 0 die Abschätzung exp(x) ≥ 1 + x gilt. Aus der Definition folgt weiterhin, dass die Exponentialfunktion streng monoton, und daher injektiv ist. Schränkt man den Wertebereich geeignet ein, kann man eine Umkehrfunktion log : R+ → R, x 7→ log(x) = exp−1 (x). Hierbei bezeichnet exp−1 die Umkehrfunktion der Exponentialfunktion. Achtung: Mit log bezeichnen wir hier den natürlichen Logarithmus. Beispiel 2.42. Nach Definition gilt exp(0) = 1 und exp(1) = e. Wendet man die Umkehrfunktion an, und benutzt dass f −1 (f (x)) = x gilt, so erhält man 0 = log(1), 1 = log(e) sowie log(exp(x)) = x = exp(log(x)). Weiterhin gelten folgende Rechenregeln, die sich sofort aus den Regeln für die Exponentialfunktion ergeben: log(x · y) = log(x) + log(y), log(xy ) = y · log(x), log(1/x) = − log(x). Auch die Logarithmusfunktion ist streng monoton wachsend. Logarithmus und Exponentialfunktion Aufgaben Aufgabe 2.1. Berechnen Sie folgende Ausdrücke explizit und die Summen zusätzlich mit Formeln von diesem Blatt. 9 4 3 5 X X X Y 1 1 3 2 a) k b) c) d) k 2 k k k=3 k=0 k=0 k=1 2.2 Ganze, rationale und reelle Zahlen 35 Aufgabe 2.2. Sei n ∈ N0 . Zeigen Sie per vollständiger Induktion. Pn 1 2 (a) k=0 k = 6 n(n + 1)(2n + 1). P n+1 (b) Geometrische Summenformel: nk=0 q k = q q−1−1 für q ∈ R mit q 6= 1. P + b)n . (c) Binomische Formel: nk=0 nk akbn−k = (a n Hinweis: Verwenden Sie k−1 + nk = n+1 falls k > 0. k Aufgabe 2.3. Zeigen Sie mit Hilfe von Aufgabe 2.2, dass Pn n n (a) k=0 k = 2 für alle n ∈ N0 . Pn n k (b) k=0 k (−1) = 0 für alle n ∈ N. P (c) (a − b) nk=0 ak bn−k = an+1 − bn+1 für alle n ∈ N0 und a, b ∈ R. Hinweis: Für b 6= 0, verwenden Sie die geometrische Summenformel (A.2b) mit q = a/b. Aufgabe 2.4. Sei n ∈ N. Transformieren Sie den (Lauf-) Index in der/dem Summe/Produkt. P9 (a) k=2 (k + 2), gemäß der Beziehung l = k + 1. Q (b) 49 k=23 (k − 1)(k + 2)(k + 5), gemäß der Beziehung l − 7 = −k. Pn 1 (c) k=1 k(k+1) , gemäß der Beziehung l − 1 = k. Qp Pn 3 (d) s=4 (s + 2) , gemäß der Beziehung p + 1 = k und s − 2 = t. p=5 p · Aufgabe 2.5. Seien x, y ∈ R. Zeigen Sie die folgenden Ungleichungen: √ (a) Falls x, y ≥ 0, dann gilt xy ≤ x+y . 2 √ √ √ (b) Falls x, y ≥ 0, dann gilt x + y ≤ x + y. √ √ (c) Falls x, y > 0, dann gilt x + y ≤ √xy + √yx . (d) Falls |x| < 1 und n ∈ N0 , dann gilt (1 + x)n ≤ Aufgabe 2.6. Zeigen Sie, dass √ 1 . (1−x)n 3 keine rationale Zahl ist. Aufgabe 2.7 (Satz von Archimedes). Zeigen Sie Satz 2.32. Hinweis: Nehmen Sie dazu an, N wäre nach oben beschränkt. Wenden Sie dann Satz 2.27 an und führen Sie einen Widerspruch herbei. Aufgabe 2.8. Zeigen Sie die Aussagen von Folgerung 2.33. Aufgabe 2.9. (a) Sei y ∈ R. Für welche x ∈ R gilt (x − y)2 ≤ 2? (b) Für welche x ∈ R gilt |x3 − 5| ≤ 5? (c) Für welche x ∈ R gilt |x−1| |x+1|+1 ≤ 12 ? 36 Zahlenmengen und Rechentechniken Aufgabe 2.10. Bestimmen Sie, ob die folgenden Mengen beschränkt sind und geben Sie gegebenenfalls Infimum, Supremum, Minimum und Maximum an. (a) M = {x : x2 − 10x ≤ 24}. |x| : x ∈ R}. (b) N = { 1+|x| (c) P = { m+n : m, n ∈ N}. m·n Aufgabe 2.11. Seien a, b ∈ R. Zeigen Sie mit Hilfe der Körper- und Ordnungsaxiome, dass (a) −a ≥ −b, falls a ≤ b. (b) (−1) · (−1) = 1. (c) a2 ≥ 0 und a2 > 0 falls a 6= 0. (d) a > 0 ⇒ (e) 1 a ≥ 1 b 1 a > 0. für 0 < a ≤ b. (f) (ab)−1 = a−1 b−1 für a, b 6= 0. 3 Komplexe Zahlen Da für alle reellen Zahlen x das Quadrat x2 = x · x ≥ 0 und −1 < 0 ist, kann die Gleichung x2 = −1 keine reelle Lösung besitzen. Wie zuvor erweitern wir unseren Zahlenbereich, um auch solche Gleichungen lösen zu können. Wir definieren eine neue Zahl i mit der Eigenschaft i2 = −1. Definition 3.1 (Komplexe Zahlen). Unter einer komplexen Zahl verstehen wir einen Ausdruck der Form z = a + ib, a, b ∈ R Hierbei heißt a =: Re z Realteil und b =: Im z Imaginärteil von z. Für komplexe Zahlen gilt z1 = z2 :⇔ Re(z1 ) = Re(z2 ) ∧ Im(z1 ) = Im(z2 ). Die Menge aller komplexen Zahlen wird mit C bezeichnet. Wir müssen noch festlegen, wie mit komplexen Zahlen überhaupt gerechnet wird. Satz 3.2. Für komplexe Zahlen z1 = a1 + ib1 , z2 = a2 + ib2 definieren wir Addition: z1 + z2 := (a1 + a2 ) + i(b1 + b2 ) Multiplikation: z1 · z2 := (a1 · a2 − b1 · b2 ) + i(a1 · b2 + b1 · a2 ). Zusammen mit diesen Operationen bilden die komplexen Zahlen einen Körper, d.h., es gelten die Körperaxiome (A1)–(A4), (M1)–(M4) und (D). Beweis. Übung. Bemerkung 3.3. • Wir werden später sehen, dass auch die komplexen Zahlen vollständig sind, d.h., die komplexe Zahlenebene hat keine “Löcher”. • Die komplexen Zahlen lassen sich nicht anordnen: Wäre i > 0 (i < 0), dann müsste −1 = i2 > 0 sein, was im Widerspruch zu 1 > 0 steht. 38 Komplexe Zahlen Bemerkung 3.4. Jede reelle Zahl a ∈ R lässt sich mit der komplexen Zahl z = a + i0 identifizieren. In diesem Sinne gilt R ⊂ C. Weiters schreiben wir a + i0 = a + 0i = a sowie 0 + ib = ib = bi. Komplexe Zahlen der Form a + i0 (bzw. 0 + ib) heißen (rein) reell (bzw. imaginär). Beispiel 3.5. Man überzeuge sich von der Richtigkeit der folgenden Aussagen: • i2 = (−i)2 = −1. • Sei z = a + ib. Dann gilt ∀x ∈ R : x · z = (x · a) + i(x · b). Definition 3.6. Für jede komplexe Zahl z := a + ib ∈ C definieren wir: • Konjugierte: z := a − ib √ • Betrag: |z| := a2 + b2 (entspricht Abstand zum Nullpunkt) • (Haupt-)Argument: Arg(z) := φ ∈ [0, 2π) für z 6= 0 (Winkel zur reellen Achse) Beispiel 3.7. Mithilfe der Definitionen verifiziert man leicht die folgenden Regeln • Re(z) = 12 (z + z) und Im(z) = 1 (z 2i − z), • z · z = |z|2 sowie z = z, • z1 + z2 = z1 + z2 und z1 · z2 = z1 · z2 , welche für alle komplexen Zahlen z, z1 , z2 gelten. Beispiel 3.8. Die Regeln für den Betrag einer reellen Zahl gelten wörtlich, d.h. • |z| ≥ 0 und |z| = 0 ⇔ z = 0 (Definitheit) • |z1 · z2 | = |z1 | · |z2 | (Homogenität) • |z1 + z2 | ≤ |z1 | + |z2 | (Dreiecksungleichung). Beispiel 3.9. Die Division komplexer Zahlen lässt sich wie folgt durchführen: Seien z1 , z2 ∈ C gegeben. Dann erhält man durch Erweitern des Nenners z1 z1 z2 z1 · z2 1 = · = = (z1 · z2 ). z2 z2 z2 z2 · z2 |z2 |2 Die Division komplexer Zahlen lässt sich also auf Multiplikation komplexer und Division reeller Zahlen zurückführen. Man beachte: Für z2 = 0 (|z2 |2 = 0), ist der Bruch nicht definiert! 39 Bemerkung 3.10. Wir können jede komplexe Zahl z = a + ib ∈ C mit dem Punkt (Vektor) (a, b) ∈ R × R der Zahlenebene identifizieren Darstellung komplexer Zahlen Die Addition entspricht genau der Addition der Vektoren. Realteil Re(z) sowie Imaginärteil Im(z) ergeben sich als Abschnitte auf der reellen bzw. imaginären Achse. Bei der Multiplikation wird die Länge der Vektoren multipliziert, und Ihre Winkel addiert (vgl. Satz Moivre). Weiters lassen sich Argument und Betrag der komplexen Zahl leicht ablesen. Aus der Darstellung erkennt man z = a + ib = |z| cos φ + i|z| sin φ = |z|(cos φ + i sin φ) mit φ := Arg(z). Diese Form heißt Polarkoordinatendarstellung von z. Bemerkung 3.11. • Wir werden später sehen, dass auch die komplexen Zahlen vollständig sind: die komplexe Zahlenebene hat keine “Löcher”. • Die komplexen Zahlen lassen sich nicht anordnen: Wäre i > 0 (i < 0), dann müsste −1 = i2 > 0 sein, was im Widerspruch zu 1 > 0 steht. Mit Hilfe der Polarkoordinatendarstellung und der Winkelsummensätze erhält man folgendes Ergebnis für ganzzahlige Potenzen komplexer Zahlen. Satz 3.12 (Moivre). Sei z = |z|(cos φ + i sin φ). Dann gilt z n = z · . . . · z = |z|n cos(nφ) + i sin(nφ) . Beweis. Die Aussage kann elementar aus den Winkelsummensätzen hergeleitet werden. Sie folgt jedoch leichter aus den Rechenregeln für die komplexe Exponentialfunktion (siehe unten). Bemerkung 3.13. Die n-te Potenz einer komplexen Zahl lässt sich gut in der komplexen Ebene visualisieren. Dabei wird einfach die Länge mit n potenziert, und der Winkel ver-n-facht. Definition 3.14 (Euler’sche Formel). Für φ ∈ R definieren wir exp(iφ) := eiφ := cos φ + i sin φ. 40 Komplexe Zahlen Wir werden später sehen, dass diese Definition der Exponentialfunktion für komplexe Argumente mit der für natürliche (rationale, reelle) Argumente übereinstimmt. Die wesentliche Eigenschaft dieser Definition ist, dass sich alle Rechenregeln für Potenzen übertragen lassen. Satz 3.15. Für alle a, b, c ∈ R und z1 , z2 ∈ C gilt (ez1 )z2 = ez1 ·z2 , e−z1 = 1/ez1 , ex+iy = ex · eiy , ez1 +z2 = ez1 · ez2 , e0 = ei2mπ = 1, ez1 +i2mπ = ez1 ∀m ∈ Z. Die Aussagen folgen zum Teil aus der Definition. Ein vollständiger Beweis wird später im Rahmen von Potenzreihen (und der Definition der Exponentialfunktion als Potenzreihe) erbracht. Beispiel 3.16. Wir benutzen die Euler’sche Formel und die Rechenregeln für Potenzen um die Formel von Moivre zu bestätigen. Es gilt mit φ = Arg(z) und x = elog x , dass n z n = |z|(cos φ + i sin φ) = (elog |z| · eiφ )n = en log |z| · einφ n = elog(|z| ) einφ = |z|n (cos(nφ) + i sin(nφ)). Bemerkung 3.17. Ganz analog gilt für das Multiplizieren von komplexen Zahlen z1 und z2 mit Argumenten φ1 = Arg(z1 ), φ2 = Arg(z2 ), dass z1 · z2 = |z1 |eiφ1 · |z2 |eiφ2 = |z1 ||z2 |ei(φ1 +φ2 ) . Merkregel: Beim Multiplizieren von komplexen Zahlen werden die Beträge multipliziert, und die Argumente addiert. Die Formel von Moivre kann auch dazu verwendet werden, um ganzzahlige Wurzeln aus einer komplexen Zahl zu ziehen, d.h., Lösungen für die Gleichung zn = a für gegebenes a ∈ C zu bestimmen. Folgerung 3.18 (Wurzeln). Für jede komplexe Zahl a 6= 0 und jedes n ∈ N gibt es genau n verschiedene komplexe Zahlen z0 , . . . , zn−1 mit zkn = a für k = 0, . . . , n − 1. Beweis. Jede Zahl z besitzt eine Polarkoordinatendarstellung z = |z|eiφ mit φ = Arg(z) ∈ ! [0, 2π), ebenso auch a = |a|eiα . Die Gleichung z n = a ist dann äquivalent zu ! z n = |z|n einφ = a = |a|eiα = |a|ei(α+2kφ) für ein k ∈ Z, wobei im letzten Schritt verwendet wurde, dass ei2kπ = 1 gilt. Vergleicht man die Beträge und Argumente der Zahlen, so erhält man die äquivalenten Bedingungen |z| = |a|1/n und φ = (α + 2kπ)/n für k ∈ Z. 41 Die Lösungsmenge der Gleichung besteht also aus allen Zahlen der Form zk := |a|1/n ei(α+2kπ)/n , k ∈ Z. Nutzt man wieder aus, dass ei2mπ = 0 für m ∈ Z, so sieht man, dass die Lösungsmenge bereits gegeben ist durch L = {zk ∈ C : 0 ≤ k ≤ n − 1}, es existieren also genau n verschiedene Wurzeln. Wir machen noch die Probe: Für zk ∈ L gilt n n 1/n i(α+2kπ)/n zk = |a| e = |a|ei(α+2kπ) = |a|eiα · ei2kπ = |a|eiα = a. Bemerkung 3.19. Aus dem Beweis sieht man sogar noch mehr: Für jede komplexe Zahl a 6= 0 gibt es genau n verschiedene Wurzeln. Diese liegen gleichmäßig verteilt auf dem Kreis mit Radius |a|1/n , d.h., der Abstand zwischen den Argumenten (Winkeln) der einzelnen Wurzeln ist immer gleich. Man beachte hierzu die folgenden Beispiele und die zugehörige Darstellung der Wurzeln. Beispiel 3.20. • Die Gleichung z 2 = 1 = ei0 hat zwei Lösungen, nämlich z1 = ei0/2 = 1 und z2 = ei(0+2π)/2 = eiπ = −1. • Die n-ten Wurzeln von 1 = ei0 gegeben durch zk = ei2(k−1)π/n heißen Einheitswurzeln. • Die Gleichung z 2 = −1 = eiπ hat ebenfalls zwei Lösungen, nämlich z1 = eiπ/2 = i und z2 = ei(π+2π)/2 = ei3π/2 = −i. • Für z 3 = −2(1 − i) gibt es drei Lösungen: Es gilt φ = Arg(z 3 ) = 3π/4 und |z 3 | = |2||(1 − √ √ 3 √ √ i(3π/4)/3 erfüllen alle Wurzeln |z| = 2 und es√gilt z1 = 2e = i)| = 2 2 = 2 . Somit √ √ √ √ 1 iπ/4 i(3π/4+2π)/3 i11π/12 2e = 1 + i, z2 = 2e = 2e = 2 (−1 − 3 + i(−1 + 3)), sowie √ i(3π/4+2·2π)/3 √ √ i19π/12 1 √ z3 = 2e = 2e = 2 (−1 + 3 + i(−1 − 3)). Darstellung der Wurzeln komplexer Zahlen 42 Komplexe Zahlen Man beachte: Die Wurzeln zk der Zahl a sind gerade die Nullstellen der komplexen Polynomfunktion z n − a = 0. Die folgenden Sätze zeigen, dass auch allgemeinere Polynome vom Grad ≤ n gerade wieder n Nullstellen besitzen. Satz 3.21 (Hauptsatz der Algebra). Sei n ∈ N und pn (z) := an z n + an−1 z n−1 + . . . + a1 z 1 + a0 eine komplexe Polynomfunktion vom Grad n (d.h. ak ∈ C, an 6= 0). Dann hat pn mindestens eine Nullstelle zn ∈ C, also pn (zn ) = 0. Beweis. Der Beweis wird hier nicht erbracht. Bemerkung 3.22. Ist z1 eine Nullstelle des Polynoms pn (z) vom Grad n, dann existiert genau ein Polynom pn−1 (z) vom Grad n − 1 sodass pn (z) = (z − z1 ) · pn−1 (z) gilt. Dies zeigt man mit Hilfe der Polynomdivision. Hierzu ein Beispiel: Sei pn (z) = z 3 − z 2 − z + 1. Dann ist z = 1 eine Nullstelle, und es gilt z 3 − z 2 − z + 1 = (z − 1) · z 2 + z 2 +(−z 2 − z + 1) = (z − 1) · z 2 + (−z + 1) {z } | {z } | =z 3 =−(z−1) 2 = (z − 1) · (z − 1). Aus der Existenz einer Nullstelle folgt mittels Polynomdivision, dass sogar n Nullstellen vorliegen. Auch das folgende Ergebnis wird deshalb als “Hauptsatz der Algebra” bezeichnet. Folgerung 3.23 (Hauptsatz der Algebra). Jedes komplexe Polynom vom Grad n besitzt genau n komplexe Nullstellen zk , k = 1 . . . , n, und es gilt die Zerlegung in Linearfaktoren pn (z) = an (z − z1 ) · . . . · (z − zn ). Die Nullstellen sind bis auf Umordnung eindeutig. Beweis. Wir zeigen die Existenz der Darstellung mittels vollständiger Induktion: (IA): Jedes Polynom vom Grad 1 besitzt die Form p1 (z) = a1 z + a0 = a1 (z − a0 /a1 ), was die Behauptung für n = 1 ist. Man beachte, dass a1 6= 0 (sonst wäre der Grad des Polynoms nicht 1), und dass die Darstellung eindeutig ist! (IV): Für n ≥ 1 besitze jedes Polynom pn (z) eine eindeutige Zerlegung wie oben angegeben. (IS): Sei pn+1 (z) = an+1 z n+1 + . . . + a0 ein Polynom vom Grad n + 1. Nach dem Hauptsatz der Algebra existiert eine Nullstelle zn+1 sowie ein Polynom pn (z) vom Grad n mit pn+1 (z) = (z − zn )pn (z). Für das Polynom pn (z) existiert aber nach Induktionsvoraussetzung eine Zerlegung in Linearfaktoren, was die Behauptung für n + 1 zeigt. Die Eindeutigkeit wird hier nicht gezeigt (vgl. aber mit dem Satz über Eindeutigkeit). 43 Bemerkung 3.24. Jedes Polynom mit komplexen (oder auch reellen) Koeffizienten besitzt also genau n komplexe Nullstellen. Es kann ein und dieselbe Nullstelle auch mehrfach auftreten. Man spricht dann von der (algebraischen) Vielfachheit der Nullstelle, z.B. hat p3 (z) := (z 3 − z 2 − z + 1) = (z − 1)2 (z + 1) die Nullstellen 1 (mit Vielfachheit 2) und −1 (mit Vielfachheit 1). Das ergibt (unter Berücksichtigung der Vielfachheit) genau 3 Nullstellen. Satz 3.25 (Eindeutigkeit). Jedes komplexe Polynom pn (z) vom Grad n ist durch seine Werte an n + 1 paarweise verschiedenen Stellen zk , k = 0, . . . , n, bereits eindeutig bestimmt. Beweis. Seien pn (z) und p̃n (z) zwei Polynome mit pn (zk ) = p̃n (zk ) ∀k ∈ {0, . . . , n}, d.h. pn − p̃n hat n + 1 paarweise verschiedene Nullstellen. Weiterhin hat die Differenz der Polynome maximal Grad g ≤ n. Wäre g ≥ 1, dann hätte pn − p̃n nach der Folgerung aus dem Hauptsatz der Algebra genau g Nullstellen, was einen Widerspruch ergäbe. Also ist g = 0, und damit pn (z) − p̃n (z) = pn (z0 ) − p̃n (z0 ) = 0 ∀z ∈ C. Aufgaben Aufgabe 3.1. Verifizieren Sie die Aussagen von Beispiel 3.5. Aufgabe 3.2. Berechnen Sie Real-, Imaginärteil, Betrag und Argument für die komplexen Zahlen √ z1 = (1 + i), z2 = −i, z3 = 3 − i; und skizzieren sie die Zahlen in der komplexen Ebene. Aufgabe 3.3. Berechnen Sie für die Zahlen aus Aufgabe 3.2 jeweils zk , 1/zk sowie z 3 . Aufgabe 3.4. Berechnen sie für die Zahlen aus Aufgabe 3.2 die Ausdrücke a1 = z1 · z2 , a2 = z1 /z2 , a3 = (z2 + z3 )/z1 . Aufgabe 3.5. Geben Sie die Resultate ak aus Aufgabe 3.4 in Polarkoordinatendarstellung an. Aufgabe 3.6. Zeigen Sie, dass (C, +, ·) die Körperaxiome erfüllt. Aufgabe 3.7. Skizzieren Sie die Mengen M1 := {z ∈ C : |z − 1| ≤ 1}, M2 := {z ∈ C : −1 ≤ Re(z) ≤ Im(z) ≤ 1}. 44 Komplexe Zahlen Aufgabe 3.8. Überprüfen Sie die Rechenregeln für die Konjugation aus Beispiel 3.7. Aufgabe 3.9. Zeigen Sie per vollständiger Induktion, dass n Y k=1 zk = n Y k=1 zk und n X k=1 zk = n X zk ∀zk ∈ C, k ∈ {1, . . . , n}. k=1 Aufgabe 3.10. Verifizieren Sie die Regeln für den Betrag aus Beispiel 3.8. Aufgabe 3.11. Man zeige mittels Euler’scher Formel die Darstellung der Winkelfunktionen: 1 cos φ = (eiφ + e−iφ ) 2 und sin φ = 1 iφ (e − e−iφ ). 2i Aufgabe 3.12. Beweisen Sie mit Hilfe der Euler’schen Formel, den Rechenregeln für Potenzen sowie Aufgabe 3.11 die Winkelsummensätze sin(x ± y) = sin x · cos y ± sin y · cos x cos(x ± y) = cos x · cos y ∓ sin x · sin y. Aufgabe 3.13. Berechnen Sie alle Lösungen der Gleichung (z − √ 2(−1 + i))4 = 16. Aufgabe 3.14. Das Polynom p2 (z) := a2 z 2 + a1 z + a0 habe reelle Koeffizienten ak ∈ R. Zeigen Sie mit Hilfe der Rechenregeln für die Konjugation, dass die beiden Nullstellen z1 , z2 von p2 komplex-konjugiert sind, d.h., z1 = z2 , falls z1 ∈ C \ R. Aufgabe 3.15. Verallgemeinern Sie die Beobachtung aus Aufgabe 3.14 auf Polynome mit beliebigem Grad. Aufgabe 3.16. Zeigen Sie, dass jedes Polynome pn (z) mit ungeradem Grad n und reellen Koeffizienten mindestens eine reelle Nullstelle besitzt. Aufgabe 3.17. Das Polynom p4 (z) = z 4 + 3z 3 + 3z 2 + 2z + 1 lässt sich faktorisieren á la p4 (z) = (z + 1) · p3 (z). Berechnen Sie mittels Polynomdivision (bzw. Koeffizientenveglgeich) das Polynom p3 . Aufgabe 3.18. Berechnen Sie alle Nullstellen von p3 (z) = z 3 + 2z 2 − z − 2. Hinweis: Eine Nullstelle durch Probieren; dann Polynomdivision. Aufgabe 3.19. Finden Sie alle Nullstellen von p3 (z) = z 3 − z 2 + z − 1. 4 Lineare Gleichungssysteme Einführende Beispiele Wir betrachten das lineare Gleichungssystem (LGLS) x1 + x2 = 2 2x1 + x2 = 3 (I) (II). Wir sprechen von einem Gleichungssystem (GLS), da mehrere Gleichungen in mehreren Unbekannten gleichzeitig gelöst werden. Das GLS heißt linear, da die Unbekannten x1 und x2 nur linear (in erster Potenz) auftreten. Unter einer Lösung des GLS (I),(II) verstehen wir Zahlenpaare (x1 , x2 ) ∈ R × R, welche die beiden Gleichungen (I) und (II) simultan lösen. Die Menge aller Lösungen L := {(x1 , x2 ) ∈ R × R : (I) ∧ (II)} = {(x1 , x2 ) ∈ R2 : (I)} ∩ {(x1 , x2 ) ∈ R2 : (II)} heißt Lösungsmenge des GLS (I),(II). Zur Bestimmung der Lösungsmenge kann man wie folgt vorgehen: Addiert man zur zweiten Gleichung das (−2)-fache der ersten, erhält man −x2 = −1 (II’) mit (II’) = (II)-2·(I). Man beachte: Löst (x1 , x2 ) die Gleichungen (I) und (II), dann auch die Gleichung (II’). Dies folgt sofort aus den Axiomen für reelle Zahlen. Es folgt sogar, dass (x1 , x2 ) Lösung von (I) und (II) ist, genau dann wenn (x1 , x2 ) auch Lösung von (I) und (II’) ist. Das heißt: Für alle (x1 , x2 ) ∈ R × R gilt (I) ∧ (II) ⇔ (I) ∧ (II 0 ). Wir nennen die Gleichungssysteme (I),(II) und (I),(II’) daher äquivalent. Das System x1 + x 2 = 2 −x2 = −1 (I) (II’) 46 Lineare Gleichungssysteme kann relativ einfach gelöst werden. Multipliziert man die zweite Gleichung mit (−1) sieht man sofort, dass x2 = 1 sein muss. Addiert man die zweite Gleichung zur ersten, erhält man das System x1 = 1 x2 = 1 (I’) (II”), welches wiederum äquivalent ist zu den Systemen (I),(II) sowie (I),(II’). Nun lässt sich die Lösung aber sofort ablesen, und aufgrund der Äquivalenz erhalten wir: Das GLS (I),(II) besitzt genau eine Lösung (x1 , x2 ) = (1, 1) in R × R. Die Lösungsmenge ist also gegeben durch L = {(x1 , x2 ) ∈ R × R : (I) ∧ (II)} = {(1, 1)}. Betrachtungen zur Lösbarkeit Wie die folgenden Beispiele zeigen, muss ein lineares Gleichungssystem im Allgemeinen keine (eindeutige) Lösung besitzen. Beispiel 4.1. Wir betrachten zunächst die lineare Gleichung (System mit einer Gleichung und einer Unbekannten) a · x = y, wobei a, y ∈ R gegeben seien. Um die Frage nach der Lösbarkeit zu beantworten, müssen drei Fälle unterschieden werden: Fall 1 (a 6= 0): Es existiert (für jedes y ∈ R) genau eine Lösung x = a−1 y. Fall 2 (a = 0, y 6= 0): Wir haben es also mit der Gleichung 0 · x = y 6= 0 zu tun. Da 0 · x = 0 für alle x ∈ R ist, kann keine Lösung existieren. Fall 3 (a = 0, y = 0): In diesem Fall reduziert sich die Gleichung auf 0 · x = 0, und jedes x ∈ R ist Lösung der Gleichung. Man hat also unendlich viele Lösungen. Dieselben Fälle treten auch bei LGLSen mit zwei Gleichungen in zwei Unbekannten auf. Beispiel 4.2. Für gegebene Zahlen a, b ∈ R betrachten wir das lineare GLS x1 + ax2 = b 2x1 + x2 = 3 (I) (II). Addiert man wie oben das (−2)-fache der ersten Zeile zur zweiten, erhält man das äquivalente System x1 + ax2 = b (1 − 2a) x2 = 3 − 2b Zur Lösung müssen wir wieder drei Fälle unterscheiden: (I) (II’). 47 Fall 1 (1 − 2a 6= 0): Die zweite Gleichung lässt sich in diesem Fall durch (1 − 2a) dividieren, und das a/(1 − 2a)-fache der zweiten Gleichung kann von der ersten subtrahiert werden. Man erhält das äquivalente System x1 = b − a(3 − 2b)/(1 − 2a) x2 = (3 − 2b)/(1 − 2a) (I’) (II”). Für jedes beliebige b erhält man die eindeutige Lösung (x1 , x2 ) = (3 − 2b)/(1 − 2a), b − a(3 − 2b)/(1 − 2a) . Fall 2 (1 − 2a = 0, 3 − 2b 6= 0): Die Gleichung (II’) lautet dann 0 · x2 = 3 − 2b 6= 0, und es existiert kein x2 welches diese Bedingung erfüllt. Es kann also keine Lösung existieren. Fall 3 (1 − 2a = 0, 3 − 2b = 0): Die Gleichung (II’) lautet in diesem Fall 0 · x2 = 0, und diese ist für jedes beliebige x2 ∈ R erfüllt. In diesem Fall ist also für jedes (x1 , x2 ) ∈ R × R (I) ∧ (II) ⇔ (I) ∧ (II’) ⇔ (I). Die Gleichung (I) lässt sich weiter umformen, und das System (I),(II) ist somit äquivalent zu x1 = b − a · x2 (I”). Für jede Wahl x2 = t ∈ R ist (x1 , x2 ) = (b − at, t) Lösung der Gleichung. Die Lösungsmenge (diese hängt noch von den Werten für a und b ab) lautet also L(a, b) = {(b − at, t) : t ∈ R} falls 1 − 2a = 0, 3 − 2b = 0. Geometrische Deutung Bemerkung 4.3. Eine Gleichung in zwei Unbekannten hat als Lösungsmenge eine Gerade in der Zahlenebene R × R (die Gleichung 0 · x1 + 0 · x2 = 0 hat als Lösungsmenge ganz R × R, und 0 · x1 + 0 · x2 = c 6= 0 hat keine Lösung). Die Lösungsmenge eines Gleichungssystems von n Gleichungen in 2 Unbekannten ergibt sich als Schnitt der Lösungsmengen, etwa L = {(x1 , x2 ) ∈ R × R : (I) ∧ (II) ∧ (III)} = {(x1 , x2 ) ∈ R : (I)} ∩ {(x1 , x2 ) ∈ R : (II)} ∩ {(x1 , x2 ) ∈ R : (III)}. Der Fall 1 − 2a 6= 0 in obigem Beispiel bedeutet gerade, dass die beiden Lösungsgeraden zu den Gleichungen (I) und (II) nicht parallel verlaufen. Im Fall 2 sind die Geraden parallel (aber nicht gleich), und im Fall 3 sind die Geraden gleich. 48 Lineare Gleichungssysteme Lösungsmenge eines Gleichungssystems mit 2 Unbekannten als Schnitt von Geraden Bemerkung 4.4. Eine Gleichung in drei Unbekannten x1 , x2 , x3 hat als Lösungsmenge eine Ebene im Zahlenraum R × R × R = R3 (abgesehen von den Spezialfällen). Die Lösungsmenge eines Gleichungssystems von n Gleichungen erhält man wieder als Schnitt der Lösungsmengen der einzelnen Gleichungen. Die Lösungsmenge des Gleichungssystems x1 + x2 + x3 = 1 − x2 + x3 = 0 (I) (II) lässt sich wie folgt berechnen: Aus (II) folgt x2 = x3 , und Einsetzen in (I) liefert x1 = 1 − x2 − x3 = 1 − 2x3 . Daraus folgt L = {(x1 , x2 , x3 ) ∈ R3 : (I) ∧ (II)} = {(x1 , x2 , x3 ) : (I)} ∩ {(x1 , x2 , x3 ) : (II)} = {(x1 , x2 , x3 ) : x2 = x3 ∧ x1 = 1 − 2x3 } = {(1 − 2t, t, t) : t ∈ R}, wobei wir im letzten Schritt x3 durch die Variable t ersetzt haben. Die zweite Zeile drückt die Lösungsmenge (Gerade) als Schnitt der durch die beiden Gleichungen beschriebenen Ebenen aus. Lösungsmenge eines Gleichungssystems in 3 Unbekannten als Schnitt von Ebenen 49 Allgemeine lineare Gleichungssysteme Definition 4.5. Ein System a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . am1 x1 + am2 x2 + . . . + a1n xn = y1 + . . . + a2n xn = y2 .. .. .. . . . + . . . + amn xn = ym (G1) (G2) .. . (Gm) mit reellen (komplexen) Koeffizienten aij und rechten Seiten yi für 1 ≤ i ≤ m und 1 ≤ j ≤ n heißt reelles (komplexes) lineares Gleichungssystem (LGLS) mit m Gleichungen in n Unbekannten (x1 . . . . , xn ). Ein n-Tupel (l1 , . . . , ln ) ∈ Rn (bzw. Cn ) heißt Lösung des LGLSs, wenn bei Einsetzen der Werte li für xi alle Gleichungen simultan erfüllt werden. Die Menge L := {(l1 , . . . , ln ) ∈ Rn : (l1 , . . . , ln ) ist Lösung} heißt Lösungsmenge des LGLSs. Bemerkung 4.6. • Ist y1 = y2 = . . . = ym = 0, so heißt das GLS homogen, sonst inhomogen. • Gilt m > n (mehr Gleichungen als Unbekannte), so heißt das System überbestimmt, im Falle m < n (weniger Gleichungen als Unbekannte) unterbestimmt. Um die Lösungsmenge eines LGLSs zu bestimmen, gehen wir genauso vor, wie in den vorigen Beispielen, d.h., wir überführen das GLS durch elementare Umformungen auf einfachere Gestalt, die erlaubt die Lösungsmenge relativ einfach abzulesen. Definition 4.7 (Elementare Zeilenumformungen). Unter einer elementaren Zeilenumformung verstehen wir (i) das Vertauschen zweier Zeilen (Gleichungen): (Gi),(Gj)↔(Gj),(Gi) (ii) das Multiplizieren einer Gleichung mit einer Zahl λ 6= 0: (Gi)↔ λ·(Gi) (iii) das Addieren einer Zeile zu einer anderen: (Gi),(Gj)↔(Gi),(Gj)+(Gi). Zwei Gleichungssysteme, die durch elementare Zeilenumformungen ineinander überführt werden können heißen äquivalent. Bemerkung 4.8. Die Symbole ↔ sind so zu verstehen, dass die Gleichungen auf der linken Seite durch die Gleichungen auf der rechten Seite ersetzt werden. Dieses Ersetzen kann auch rückgängig gemacht werden. Man beachte, dass für alle (x1 , . . . , xn ) ∈ Rn , alle 1 ≤ i, j ≤ m, i 6= j und für alle λ 6= 0 gilt: (Gi) ∧ (Gj) ⇔ Gj) ∧ (Gi) (Gi) ⇔ λ · (Gj) (Gi) ∧ (Gj) ⇔ Gi) ∧ (Gj) + (Gi) . Die Lösungsmengen des Gleichungssystems bleiben bei elementaren Zeilenumformungen also unverändert. 50 Lineare Gleichungssysteme Als Folgerung aus dieser Bemerkung erhalten wir sofort das wesentliche Resultat: Satz 4.9. Die Lösungsmenge eines linearen Gleichungssystems wird durch elementare Zeilenumformungen nicht verändert, d.h., äquivalente lineare Gleichungssysteme besitzen dieselben Lösungen. Beweis. Folgt sofort aus obiger Bemerkung mittels vollständiger Induktion. Bemerkung 4.10. Man kann auch mehrere elementare Zeilenumformungen zusammenfassen, etwa: (Gj)→(Gj) - 2·(Gi) entsteht aus drei elementaren Schritten (Gi),(Gj)↔(-2)·(Gi),(Gj)↔ (-2)·(Gi),(Gj)+(-2)·(Gi)↔(Gi),(Gj)-2·(Gi). Wie in den einführenden Beispielen verwenden wir die elementaren Zeilenumformungen, um das LGLS auf einfache Form zu überführen. Darstellung über Koeffizientneschemata Ein LGLS ist bereits durch Angabe der Koeffizienten und rechten Seiten eindeutig bestimmt. Durch das erweiterte Koeffizientenschema 1 a b 2 1 3 werden die zwei Gleichungen 1·x1 +a·x2 = b und 2·x1 +1·x2 = 3 beschrieben. Wir schreiben für das erweiterte Koeffizientenschema auch kurz (A|y), und nennen A die Koeffizientenmatrix, und b die rechte Seite des LGLSs. Beispiel 4.11. Das angegebene Schema entspricht genau dem LGLS aus Beispiel 4.2. Beim Umformen eines LGLSs, genügt es die Operationen auf das Koeffizientenschema anzuwenden. Der erste Schritt in Beispiel 4.2 bestand aus dem Addieren des (−2)-fachen der ersten Zeile zur zweiten, wodurch man 1 a b 0 1 − 2a 3 − 2b erhält. Falls 1 − 2a 6= 0 ist, kann man die zweite Zeile mit 1/(1 − 2a) multiplizieren, was zu 1 a b 0 1 (3 − 2b)/(1 − 2a) führt. Dieses Koeffizientenschema hat nun eine sehr einfache Form, aus der sich die Lösung rasch ablesen lässt: Die zweite Zeile bedeutet x2 = (3 − 2b)/(1 − 2a). Und Umformen der ersten Zeile liefert x1 = b − ax2 = b − a(3 − 2b)/(1 − 2a). 51 Gleichungssysteme in Zeilenstufenform Definition 4.12. Ein lineares Gleichungssystem, dessen erweitertes Koeffizientenschema (A|y) in jeder Zeile echt mehr führende Nullen als in ihren Vorgängern stehen hat, heißt in Zeilenstufenform. Die Anzahl der Zeilen der Matrix A, die nicht identisch Null sind, heißt Rang der Matrix A, kurz Rang(A). Beispiel 4.13. Das inhomogene lineare 0 2 0 0 0 0 0 0 0 0 GLS mit Koeffizientenschema 5 0 3 4 1 1 0 1 0 3 9 0 0 0 5 1 6 9 0 0 0 0 1 0 0 0 0 0 0 a ist in Zeilenstufenform, und es gilt Rang(A) = 4. Rückwärtseinsetzen Für ein LGLS in Zeilenstufenform lässt sich die Lösungsmenge sehr einfach durch Rückwärtseinsetzen berechnen. Jede Zeile (beginnend mit der letzten; daher rückwärts) erlaubt eine Variable zu eliminieren. Nicht eliminierbare Variablen verbleiben als Unbekannte im System. Für das LGLS aus Beispiel 4.13 erhält man: Fall 1 (a 6= 0): Die letzte Zeile (und somit das ganze GLS) besitzt keine Lösung, also L = ∅. Fall 2 (a = 0): Die letzte Zeile entspricht der Gleichung 0 = 0, welche immer erfüllt ist und daher gestrichen werden kann. Aus der vorletzten Zeile erhält man x7 = 0. Zeile 3 entspricht der Gleichung 5x5 + x6 + x7 = 9. Verwendet man, dass x7 = 0 ist, erhält man x5 = (9 − x6 − x7 )/5 = 9−x6 . 5 Die Unbekannte x6 kann nicht eliminiert werden, und bleibt als Variable in der Beschreibung der Lösungsmenge. Aus Zeile 2 erhält man x4 = 0 − 3x6 − 9x7 = −3x6 , und Zeile 1 liefert schließlich x2 = (1 − 5x3 − 3x5 − 4x6 − x7 )/2 = (1 − 5x3 − 3/5(9 − x6 ) − 4x6 )/2 = − 11 − 52 x3 − 56 x6 . 5 Die Lösungsmenge des LGLSs ist daher im Fall a = 0 gegeben durch L = {(x1 , . . . , x7 ) ∈ R7 : x2 = − 11 − 25 x3 − 65 x6 ∧ x4 = −3x6 ∧ x5 = 5 = { r, − 11 − 52 s − 65 t, s, −3t, 9−t , t, 0 : r, s, t ∈ R}, 5 5 9−x6 5 ∧ x7 = 0} 52 Lineare Gleichungssysteme wobei wir x1 , x3 , x6 durch die Variablen r, s, t ersetzt haben. Für jede Wahl der Variablen r, s, t erhält man eine Lösung, z.B. liefert die Wahl r = 1, b = 0, c = 0 die spezielle Lösung (x1 , . . . , x7 ) = (1, −11/5, 0, 0, 9/5, 0, 0). Obiges Beispiel liefert folgende Aussage über die Lösbarkeit von LGLSen in Zeilenstufenform. Satz 4.14. Das erweiterte Koeffizientenschema (A|y) sei in Zeilenstufenform. Dann trifft für die Lösungsmenge L des zugehörigen linearen Gleichungssystems genau einer der folgenden Fälle zu: (1) Die rechte Seite yi zu einer Nullzeile in der Koeffizientenmatrix A ist ungleich 0. Dann besitzt das LGLS keine Lösung. (2) Die rechten Seiten yi zu allen Nullzeilen in A sind gleich 0. Dann besitzt das GLS mindestens eine Lösung. Im zweiten Fall ist die Anzahl der freien Parameter in der Lösungsmenge gleich der Anzahl der Unbekannten minus der Anzahl der Nicht-Nullzeilen von A, also n − Rang(A). Lösen allgemeiner linearer Gleichungssysteme Um die Lösungsmenge eines allgemeinen LGLSs zu bestimmen, bietet sich jetzt folgende Strategie an (vgl. vorangehende Beispiele): (A) Mit Hilfe von elementaren Zeilenumformungen wird das LGLS auf ein äquivalentes System in Zeilenstufenform überführt. (B) Die Lösungsmenge des äquivalenten Systems in Zeilenstufenform wird mittels Rückwärtseinsetzen bestimmt. Der zweite Schritt (B) wurde bereits behandelt, und der folgende Satz belegt, dass (und wie) auch der erste Schritt (A) immer durchführbar ist. Satz 4.15. Jedes lineare Gleichungssystem lässt sich mit elementaren Zeilenumformungen auf ein äquivalentes System in Zeilenstufenform überführen. Die Lösungsmenge bleibt dabei unverändert. Beweis. Der Beweis ist konstruktiv, d.h., wir geben einen Algorithmus an, der das System in Zeilenstufenform schrittweise konstruiert. Schritt 0: Setze k := 1 (gerade zu bearbeitende Zeile) Schritt 1: Falls k = m, stop; sonst 1a) Wähle eine Zeile i aus k ≤ i ≤ m mit minimaler Anzahl von führenden Nullen. 1b) Vertausche die Zeilen i und k. 53 1c) Subtrahiere geeignete Vielfache der (neuen) Zeile k von den Zeilen j mit k + 1 ≤ j ≤ m, sodass die Zeilen j mindestens eine führende 0 mehr aufweisen als Zeile k. Schritt 2: Setze k := k + 1 (nächste Zeile), und gehe zu Schritt 1. Man beachte: Schritt 1 und 2 des Algorithmus werden ≤ m mal aufgerufen, d.h., der Algorithmus terminiert nach endlich vielen Operationen. Man überzeugt sich leicht (z.B. mittels Induktion bzgl. k), dass das Gleichungssystem am Ende des Algorithmus Zeilenstufenform besitzt. Bemerkung 4.16. Der Algorithmus zum Überführen auf Zeilenstufenform heißt Gauß’sches Eliminationsverfahren (kurz: Gauß-Elimination). Durch geeignetes Addieren von Zeilen in der Zeilenstufenform zu Ihren Vorgängern kann man weitere Zahlen im rechten oberen Teil der Koeffizientenmatrix auf Null bringen. Man spricht dann von der reduzierten Zeilenstufenform und dem Gauß-Jordan Algorithmus. Zur Veranschaulichung ein weiteres Beispiel. Beispiel 4.17. Wir betrachten das LGLS x2 x1 x1 + 2x2 + ax3 = b + x3 = 1 + x3 = 0 Gesucht ist die Lösungsmenge in Abhängigkeit der Parameter a, b ∈ R. Lösung: Wir führen elementare Zeilenumformungen auf dem Koeffizientenschema aus: Zeile k=1: 1 0 1 1 1 0 1 1 0 1 a b 1c)Z3↔Z3−Z1 0 1 a b 1 0 1 1 1b)Z1↔Z2 ⇔ 0 1 a b ⇔ 1 2 1 0 1 2 1 0 0 2 0 −1 Zeile k=2: 1 0 1 1 1c)Z3↔Z3−2·Z2 0 1 . a b ⇔ 0 0 1 − 2a −1 − 2b Fall 1: (1 − 2a = 0 ∧ −1 − 2b 6= 0): Das Gleichungssystem besitzt keine Lösung, also L = {}. Fall 2: (1 − 2a = 0 ∧ −1 − 2b = 0): In diesem Fall ist das GLS äquivalent zum reduzierten System (Streichen der Nullzeile!) 1 0 1 1 . 0 1 a b Die Lösungsmenge wird durch Rückwärtseinsetzen konstruiert: Durch Umformen von Z2 erhält man x2 = b − a · x3 , und Einsetzen in Z1 liefert x1 = 1 − x3 . Die Lösungsmenge ist also gegeben 54 Lineare Gleichungssysteme durch L = {(x1 , x2 , x3 ) ∈ R3 : x2 = b − a · x3 ∧ x1 = 1 − x3 } = {(1 − t, b − a · t, t) : t ∈ R} falls 2a = 1 ∧ 2b = −1. Man beachte, dass für jedes fixe a, b ∈ R, die Lösungsmenge noch einen (n − Rang(A) = 3 − 2 = 1) freien Parameter t besitzt. Es gibt also unendlich viele Lösungen. Fall 3: (1 − 2a 6= 0): In diesem Fall kann man x3 aus der letzten Zeile berechnen, also x3 = (−1 − 2b)/(1 − 2a). Die beiden anderen Gleichungen werden wie im Fall 2 aufgelöst, und man erhält L = {(x1 , x2 , x3 ) ∈ R3 : x3 = (−1 − 2b)/(1 − 2a) ∧ x2 = b − a · x3 ∧ x1 = 1 − x3 } = { 1 − (2b + 1)/(2a − 1), b − a(2b + 1)/(2a − 1), (2b + 1)/(2a − 1) }, falls 2a 6= 1. In diesem Fall liegt für jede Wahl a, b ∈ R mit 2a 6= 1 genau eine Lösung vor, die Lösungsmenge besitzt also keinen freien Parameter mehr (n − Rang(A) = 3 − 3 = 0). Wir wählen jetzt fix a = 1 und b = 0. 1 0 1 1 1 0 1 b a 0 = 0 0 1 − 2a −1 0 Durch Einsetzen und weiteres Umformen erhalten wir 0 1 1 1 0 1 1 Z3↔(−1)·Z3 0 1 1 0 0 1 1 ⇔ 0 −1 −1 0 0 1 1 1 0 1 1 1 0 0 0 Z2↔Z2−Z3 0 1 0 −1 Z1↔Z1−Z3 0 1 0 −1 . ⇔ ⇔ 0 0 1 1 0 0 1 1 An dem so (durch den Gauß-Jordan Algorithmus) erhaltenen System in reduzierter Zeilenstufenform lässt sich die Lösung besonders leicht ablesen, nämlich L = {(0, −1, 1)}. Bemerkung 4.18. Man sieht anhand der Rechnung, dass das Ermitteln der Lösungsmenge aus der Zeilenstufenform mittels Rückwärtseinsetzen deutlich weniger Arbeit ist, als das Umformen von Zeilenstufenform in reduzierte Zeilenstufenform. Wir verwenden deshalb bevorzugt die Gauß-Elimination mit Rückwärtseinsetzen, und nicht den Gauß-Jordan Algorithmus. Der Gauß-Algorithmus Im folgenden wollen wir kurz die Umsetzung des Gauß-Algorithmus auf dem Computer diskutieren. Wir verwenden hierfür Matlab Notation, und betrachten nur GLSe mit gleich vielen Gleichungen wie Unbekannten, also m = n. Der Algorithmus soll abbrechen, falls keine eindeutige Lösung berechnet werden kann. Vergleichbare Algorithmen in anderen Programmiersprachen findet man leicht im Internet. Als Eingabe erhält man eine Koeffizientenmatrix A mit m = n Zeilen und n Unbekannten, sowie eine rechte Seite y mit m = n Einträgen. Im ersten Schritt wird dasLGlS (also das Koeffizientenschema) auf Zeilenstufenform gebracht. 55 function [A,y] = gauss_eliminate(A,y) % Gauss-Elimination % input: A ... n x n Matrix % y ... n x 1 Matrix n = length(y); for k=1:n-1 % loop over lines % search for row largest entry at kth position j=find(abs(A(k:n,k))==max(abs(A(k:n,k))),1)+k-1; if abs(A(j,k))<1e-16, error(’matrix is close to singular’); return; end % swap row k and row j if j~=k, r=A(k,k:n); A(k,k:n)=A(j,k:n); A(j,k:n)=r; r=y(k); y(k)=y(j); y(j)=r; end % eliminate kth entry in rows with index >k for j=k+1:n alpha = A(j,k)/A(k,k); A(j,k:n) = A(j,k:n) - alpha * A(k,k:n); y(j) = y(j) - alpha * y(k); end % j end % k Bei erfolgreicher Durchführung hat die Matrix A nun Zeilenstufenform, und das System kann mit Rückwärtseinsetzen gelöst werden. function x = backward_solve(A,y) % Backward-Substitution % input: A ... n x n upper triangular matrix % y ... n x 1 matrix n = length(y); x = 0*y; for k=n:-1:1 % go backward from n to 1 x(k) = (y(k) - A(k,k:n)*x(k:n))/A(k,k); end Die Funktionstüchtigkeit des Algorithmus testen wir mit folgender Eingabe: % Koeffizientenschema A=[2,1;1,2]; 56 Lineare Gleichungssysteme y=[3;3]; % Gauss-Elimination [B,z]=gauss_eliminate(A,y); % Rueckwaertseinsetzen x=backward_solve(B,z) Aufgaben Aufgabe 4.1. Bestimmen Sie die Lösungsmenge der folgenden linearen Gleichungssysteme 2x3 + x4 = 1 2x1 + x2 = 1 x1 + x2 − 2x3 − 2x4 = 1 −x1 − x2 = 0 b) a) x1 − 2x2 − 2x3 − x4 = 1 −2x1 + x2 = 1 2x1 − 2x2 − 2x4 = 0 Was ist der Rang der zugehörigen Matrix? Aufgabe 4.2. Sei a ∈ R. Bestimmen Sie in Abhängigkeit von a die Lösungsmenge des folgenden linearen Gleichungssystems 2x2 + 2x4 x2 − x3 x1 + 2x3 + 2x4 x1 + x2 + x3 + 2x4 =1 =2 =3 = a. Was ist der Rang der zugehörigen Matrix? Aufgabe 4.3. Betrachten Sie die zwei linearen Gleichungssysteme x1 + x2 = 1 −x1 + x2 = 1 und x1 + x2 = −x1 + x2 . Das zweite LGLS entsteht durch Gleichsetzen der beiden Gleichungen aus dem ersten LGLS. Was passiert mit den Lösungsmengen? Sind die beiden LGLS äquivalent? Aufgabe 4.4. a) Ist ein überbestimmtes LGLS immer unlösbar? Diskutieren Sie die auftretenden Fälle an Beispielen Ihrer Wahl. b) Hat ein unterbestimmtes LGLS immer unendlich viele Lösungen? Diskutieren Sie auftretenden Fälle an Beispielen Ihrer Wahl. 5 Vektorrechnung Vektorräume Die Elemente des Kartesischen Produkts R2 := R × R können mit Punkten in der Ebene identifiziert werden. Ein Element v = (v1 , v2 ) ∈ R2 wird dabei mit dem Punkt in der Ebene mit Koordinaten v1 und v2 identifiziert. Im geometrischen Kontext schreiben wir auch v v = 1 ∈ R2 , v2 und wir nennen v einen Spaltenvektor. Bemerkung: Wir machen vorderhand keinen Unterschied zwischen dem 2-Tupel (v1 , v2 ) und dem Spaltenvektor vv12 , d.h., die Menge { vv12 : v1 , v2 ∈ R} aller Spaltenvektoren mit reellen Koordinaten ist gerade wieder R2 . Bemerkung 5.1. Vektoren im R2 bzw. R3 tauchen häufig im Zusammenhang mit physikalischen oder technischen Fragestellungen auf, und werden dann gerne als gerichtete Größen (Pfeile) dargestellt. Es kann Sinn machen, diese Pfeile in der Ebene zu verschieben, etwa, um die entsprechenden Kräfte an einem bestimmten Punkt angreifen zu lassen, oder zur Darstellung der Addition von Vektoren (siehe unten). Die Koordinaten des Vektors (somit der Vektor selbst) sind durch Länge und Richtung bereits eindeutig bestimmt (vgl. Polarkoordinaten bei komplexen Zahlen). Vektoren im R2 lassen sich komponentenweise addieren und mit reellen Zahlen multiplizieren, und zwar gemäß v1 w1 v1 + w1 v + w := + = v2 w2 v2 + w2 v λv1 und λ · v := λ · 1 = v2 λv2 58 Vektorrechnung Addition und skalare Multiplikation von Vektoren im R2 . Das Rechnen mit Vektoren lässt sich sofort auf den R3 bzw. den Rn , und auch noch auf weitere Beispiele übertragen. Definition 5.2. Sei (K, +, ·) ein Körper. Unter einem K-Vektorraum verstehen wir eine nichtleere Menge V auf der Operationen ⊕ : V × V → V, (v, w) 7→ v ⊕ w und : K × V → V, (λ, v) 7→ λ v mit folgenden Eigenschaften definiert sind: Für alle u, v, w ∈ V und alle λ, µ ∈ K gilt (u ⊕ v) ⊕ w = u ⊕ (v ⊕ w), ∃~0 ∈ V : v ⊕ ~0 = v, v ⊕ w = w ⊕ v, ∃!(−v) ∈ V : v ⊕ (−v) = ~0, sowie λ (v ⊕ w) = (λ v) ⊕ (λ w), (λ µ) v = λ (µ v) (λ + µ) v = (λ v) ⊕ (µ v), 1 v = v. Bemerkung 5.3. • Für K = R (bzw. K = C) sprechen wir von einem “reellen” oder ”komplexen“ Vektorraum. • Jeder Vektorraum muss zumindest ~0 enthalten (warum?). {} ist also kein Vektorraum! • Für einen K-Vektorraum schreiben wir (V, K, ⊕, ) oder (V, ⊕, ) oder kurz V . Die Elemente v ∈ V heißen Vektoren (ein Vektor ist also gerade das Element eines Vektorraums) und die Elemente λ ∈ K heißen Skalare. 1 bezeichnet das Einselement des Körpers, und ~0 das neutrale Element der Vektoraddition. • Die Operationen ⊕ : V × V → V und : K × V → V heißen Vektoraddition bzw. skalare Multiplikation. Da eigentlich keine Verwechslungen auftreten können, benutzen wir meistens die einfachen Symbole + und · statt ⊕ und , sowie 0 anstelle von ~0. • Die ersten vier Bedingungen besagen, dass (V, ⊕) eine Abel’sche Gruppe ist, d.h., die Bedingungen (A1)–(A4) der Körperaxiome erfüllt. 59 Beispiel 5.4. Sei K ein Körper (typischerweise K = R oder K = C). Dann gilt: • Jeder Körper K ist ein Vektorraum über sich selbst. In diesem Fall sind ⊕ und identisch mit den Körperoperationen + und ·. • Die Mengen Kn mit n ∈ N und den komponentenweisen Operationen ⊕ : Kn × Kn → Kn , : K × Kn → Kn , (v1 , . . . , vn ) ⊕ (w1 , . . . , wn ) := (v1 + w1 , . . . , vn + wn ), λ (v1 , . . . , vn ) := (λv1 , . . . , λvn ) bilden K-Vektorräume. Häufig verwendet werden vor allem Rn bzw. Cn . • Die Menge Πn := {p : K → K, x 7→ a0 +a1 x+. . .+an xn , ak ∈ K} aller Polynomfunktionen vom Grad ≤ k mit Koeffizienten in K ist mit den punktweisen Operationen (pn ⊕ qn )(x) := pn (x) + qn (x) sowie (λ pn )(x) := λ · pn (x) ein K-Vektorraum. Ebenso ist die Menge Π := {p ∈ Πn : n ∈ N} aller Polynome beliebigen Grades ein Vektorraum über K. Der Nachweis, dass es sich bei den Beispielen tatsächlich um Vektorräume handelt, lässt sich auf Rechnen im Körper K zurückführen, und wird zum Teil in der Übung erbracht. Wir werden später im Rahmen der Vorlesung auch noch weitere Vektorräume (von Funktionen und Folgen) kennenlernen. Normen: Messen von Längen und Abständen Wir betrachten vorerst den p Vektorraum V = R. Der Abstand zwischen zwei Zahlen x, y ∈ R ist gegeben durch |x − y| = (x − y)2 , also durch den Betrag der Zahl x − y. Ganz ähnlich definieren wir auf dem Vektorraum V = R2 den Euklid’schen Abstand p kv − wk2 := (v1 − w1 )2 + (v2 − w2 )2 , welcher gerade der Länge (Euklid’schen Norm) des Vektors v − w in der Ebene entspricht. Um Längen in allgemeinen Vektorräumen zu messen, benutzen wir die folgende Konstruktion. Definition 5.5. Sei V ein Vektorraum über dem Körper K (hier R oder C). Eine Abbildung k · k : V → R, v 7→ kvk, welche für alle v, w ∈ V und λ ∈ K die Bedingungen kvk ≥ 0 und kvk = 0 ⇔ v = ~0 kλ · vk = |λ| kvk kv + wk ≤ kvk + kwk definit homogen Dreiecksungleichung erfüllt, heißt eine Norm auf V , und (V, k · k) heißt normierter Raum. 60 Vektorrechnung Bemerkung 5.6. Wie im R2 definieren wir in jedem normierten Raum (V, k · k) den Abstand zwischen zwei Vektoren (Punkten) v, w ∈ V durch kv − wk. Beispiel 5.7. Man zeige, dass die Abbildungen kvk1 := kvk2 := n X |vk |, k=1 n X 2 |vk | 1/2 , k=1 kvk∞ := sup{|vk | : 1 ≤ k ≤ n} = max{|vk | : 1 ≤ k ≤ n} Normen auf dem Vektorraum Rn (bzw. Cn ) definieren. Diese heißen Betragssummennorm, Euklid’sche Norm und Maximums- bzw. Supremumsnorm. Lösung: Wir betrachten nur die k · k1 Norm. (i) Da |x| ≥ 0 für jede reelle Zahl x ∈ R folgt kvk1 ≥ 0. Andererseits ist eine Summe nichtnegativer Zahlen nur dann gleich Null, wenn jeder Summand Null ist. Dies zeigt die Definitheit. (ii) Nach den bekannten Rechenregeln gilt kλ · vk1 Def: λ·v = k(λv1 , . . . , λvn )k1 Def: Norm = n X |λvk | k=1 Betrag = n X |λ||vk | distributiv = k=1 |λ| n X |vk | Def: Norm = |λ| kvk1 . k=1 (iii) Die Dreiecksungleichung folgt wiederum aus den Eigenschaften des Betrags für reelle Zahlen, also kv + wk1 = k(v1 + w1 , . . . , vn + wn )k1 = n X |vk + wk | k=1 ≤ n X k=1 (|vk | + |wk |) = n X k=1 |vk | + n X |wk | = kvk1 + kwk1 . k=1 Der Nachweis der Normeigenschaften für k · k2 und k · k∞ geht ähnlich (siehe Übung). Zum Nachweis der Dreiecksungleichung für die Euklid’sche Norm verwenden wir später die CauchySchwarz Ungleichung. Beispiel 5.8. Man bestimme die Länge des Vektors v = 12 bezüglich der Normen kvkm für m = 1, 2, ∞. P Lösung: (i) Es gilt kvk1 = 2k=1 |vk | = |1| + |2| = 3.p √ P (ii) Für m = 2 erhält man kvk2 = ( 2k=1 |vk |2 )1/2 = |1|2 + |2|2 = 5. (iii) Die Maximumsnorm beträgt kvk∞ = max{|vk | : 1 ≤ k ≤ 2} = max{|1|, |2|} = 2. Ein Vektor kann also verschiedene ”Längen“ besitzen, je nachdem in welcher Norm er gemessen 61 wird. Mengen Mk := {v ∈ R2 : kvkk ≤ 1} für k = 1, 2, ∞. Beispiel 5.9. • Sei K = R (oder K = C). Dann definiert der Betrag | · | eine Norm auf K. Die Normeigenschaften folgen sofort aus denen des Betrags. • Für a, b ∈ R mit a < b sei Π(a, b) := {p : (a, b) → R, p ∈ Πn für ein n ∈ N} der Raum aller reellwertigen Polynomfunktionen auf dem Intervall (a, b). Für p ∈ Π(a, b) definieren wir die Supremumsnorm kpk∞ := sup{|p(x)| : x ∈ (a, b)}. Anhand des Beispiels a = 0, b = 1, p(x) = x sieht man, dass das Supremum nicht notwendigerweise angenommen wird, also nicht durch das Maximum ersetzt werden kann! Die Normeigenschaften zeigt man ähnlich wie für die Normen auf Rn ; siehe Übung. Skalarprodukte und Winkel zwischen Vektoren Neben dem Abstand kann auch der Winkel zwischen zwei Vektoren gemessen werden. Wir erinnern an die elementare Formel hv, wi2 := v1 w1 + v2 w2 = kvk2 kwk2 cos φ, v, w ∈ R2 . Hierbei ist φ der von v und w eingeschlossene Winkel ist (siehe Skizze). Winkel zwischen zwei Vektoren in R2 . 62 Vektorrechnung Wir fassen die wesentlichen Eigenschaften des Skalarproduktes h·, ·i zusammen. Wiederum lässt sich diese Konstruktion auf Rn und allgemeine Vektorräume verallgemeinern. Definition 5.10. Sei V ein R-Vektorraum. Eine Abbildung h·, ·i : V × V → R mit folgenden Eigenschaften für alle v, w ∈ V und alle λ ∈ R hv, vi ≥ 0 und hv, vi = 0 ⇔ v = ~0 hv, wi = hw, vi hλ · u + v, wi = λhu, wi + hv, wi positiv definit symmetrisch linear heißt Skalarprodukt (inneres Produkt) auf V , und (V, h·, ·i) heißt Innenproduktraum. Bemerkung 5.11. • Unter Ausnutzung der Kommutativität (Symmetrie) folgt sofort, dass auch hu, λ · v + wi = λhu, vi + hu, wi für alle u, v, w ∈ V und λ ∈ R gilt: Das Skalarprodukt ist als Abbildung von V × V → R bilinear, d.h., jeweils linear bezüglich des ersten und des zweiten Argumentes. • Ein Skalarprodukt h·, ·i : V × V → C auf einem komplexen Vektorraum V muss anstelle der Kommutativität die folgende leicht veränderte Eigenschaft erfüllen: hv, wi = hw, vi hermitesch hieraus folgt, dass hv, vi ∈ R ist (und ≥ 0 überhaupt Sinn macht). Die Folgerung aus der Linearität liest sich dann hu, λ · v + wi = λhu, vi + hu, wi semilinear Das (komplexe) Skalarprodukt ist also linear bzgl. des ersten, und semilinear (1/2) bzgl. des zweiten Arguments; in Summe also sesquilinear (1 12 -fach linear). Beispiel 5.12. • Auf Rn definiert die Vorschrift hv, wi2 := n X vk wk k=1 das sogenannte Euklid’sche Skalarprodukt. Für n = 2 erhalten wir den bekannten Fall. • Sei w ∈ Rn mit wk > 0 für k = 1, . . . , n. Dann ist hu, viw := n X wk uk vk k=1 ein gewichtetes Euklid’sches Skalarprodukt auf Cn . 63 • Für reellwertige Polynomfunktionen in Πn (a, b) vom Grad ≤ n auf dem Intervall (a, b) lässt sich ein Skalarprodukt definieren durch Z b hp, qi2 := p(x)q(x)dx. a Bevor wir die vom R2 bekannte Winkelmessung auf allgemeinen Vektorräumen definieren, zitieren wir noch einige wesentliche Eigenschaften, welche ein jedes Skalarprodukt besitzt. Satz 5.13 (Cauchy-Schwarz Ungleichung). Sei h·, ·i ein Skalarprodukt auf dem reellen Vektorraum V . Dann gilt für alle v, w ∈ V p p |hv, wi| ≤ hv, vi hw, wi. (Die Aussage gilt mit ähnlichem Beweis auch auf komplexen Vektorräumen). Beweis. Für den Fall w = 0 steht auf beiden Seiten 0, und die Ungleichung ist gezeigt. Wir dürfen daher im folgenden annehmen, dass w 6= 0, und daher kwk2 = hw, wi > 0 aufgrund der Definitheit. Für jedes t ∈ R gilt dann definit 0 ≤ hv + t · w, v + t · wi symmetrisch = bilinear = hv, vi + thv, wi + thw, vi + t2 hw, wi hv, vi + 2thv, wi + t2 hw, wi = (∗). Wir wählen nun t := −hv, wi/hw, wi, was erlaubt ist, da hw, wi = 6 0. Daraus folgt 0 ≤ (∗) = hv, vi − 2hv, wi2 /hw, wi + hv, wi2 /hw, wi = hv, vi − hv, wi2 /hw, wi. Wir bringen den negativen Term auf die linke Seite und multiplizieren mit hw, wi > 0. Das führt auf hv, wi2 ≤ hv, vihw, wi, und die Behauptung folgt durch Ziehen der Wurzel auf beiden Seiten (vgl. Satz 2.25). Bemerkung 5.14. Auf einem reellen Vektorraum ist das Skalarprodukt reellwertig, und der Betrag auf der linken Seite der Ungleichung kann weggelassen werden. Definiert man kvk := p hv, vi, so lässt sich die Cauchy-Schwarz Ungleichung schreiben als hv, wi ≤ kvkkwk. Wie der folgende Satz belegt, ist k · k tatsächlich wieder eine Norm auf V . Beispiel 5.15. Man überprüfe die Cauchy-Schwarz’sche Ungleichung des anhand −1 Euklid’schen 1 1 Skalarproduktes und aller Kombinationen von u = 2 , v = 1 , w = 1 , also hu, ui2 , hu, vi2 , . . . 64 Vektorrechnung Satz 5.16. Sei V ein R-Vektorraum mit Skalarprodukt h·, ·i. Dann definiert die Vorschrift p kvk := hv, vi eine Norm auf V . Wir nennen k · k die natürliche oder induzierte Norm. (Wiederum lässt sich die Aussage auch auf komplexe Vektorräume übertragen). Beweis. Der Nachweis, dass k · k definit und homogen ist, erfolgt in der Übung. Die Dreiecksungleichung folgt aus der Cauchy-Schwarz Ungleichung kv + wk2 Definition = hv + w, v + wi Cauchy-Schwarz ≤ bilinear = hv, vi + 2hv, wi + hw, wi kvk2 + 2kvkkwk + kwk2 binom. Formel = (kvk + kwk)2 . Die Behauptung folgt durch Ziehen der Wurzel auf beiden Seiten (vgl. Satz 2.25). Die Winkelmessung erfolgt nun auf beliebigen Innenprodukträumen mit der aus dem R2 bekannten Formel. Definition 5.17. Sei V ein reeller Vektorraum mit Skalarprodukt h·, ·i und induzierter Norm k · k. Für 0 6= v, w ∈ V nennen wir φ ∈ [0, π) definiert durch hv, wi = kvkkwk cos φ den Winkel zwischen v und w. Gilt hv, wi = 0 (d.h. φ = π/2), so heißen v und w orthogonal; wir schreiben dafür v ⊥ w. Bemerkung 5.18. Für R2 mit dem Euklid’schen Skalarprodukt stimmt diese Definition genau mit der bekannten Formel überein, und φ ist genau der Winkel zwischen den Vektoren. Beispiel 5.19. Wir statten den Vektorraum R2 mit dem Euklid’schen Skalarprodukt aus. 1 1 1 (a) Man berechne die Winkel zwischen allen Kombinationen von u = 1 , v = 2 , w = −1 . 1 2 (b) Wie muss a ∈ R gewählt werden, sodass v = 2 und w = a orthogonal zueinander stehen? Man fertige zu den Beispielen jeweils auch Skizzen an. Unterräume In unserer Vorstellung ist der Vektorraum R2 (die Zahlenebene) bereits im Vektorraum R3 (Zahlenraum) enthalten. Dies motiviert den folgenden Begriff. Definition 5.20. Sei V ein Vektorraum über dem Körper K, und W ⊂ V eine Teilmenge. Ist W wieder ein Vektorraum über K, so heißt W Unterraum (Teilraum) von V . Satz 5.21. ∅ = 6 W ⊂ V ist ein Unterraum von V , genau dann wenn ∀v, w ∈ W, λ ∈ K : v+w ∈W und λ · v ∈ W. 65 Bemerkung 5.22. • Die Rechenregeln für Vektoraddition und skalare Multiplikation gelten für alle Elemente in V und somit auch in W ; diese brauchen also nicht mehr überprüft werden. Somit genügt es zu zeigen, dass man durch die Operationen nicht aus dem Unterraum ”hinausfällt“. • Multipliziert man mit λ = 0 so erhält man sofort auch die notwendige Bedingung ~0 ∈ W . Ein (Unter-)Vektorraum muss also immer auch den Null-Vektor enthalten! Zur Veranschaulichung einige gebräuchliche Beispiele für Unterräume. Beispiel 5.23. • Jeder Vektorraum ist ein Unterraum von sich selbst. Ebenso ist für jeden Vektorraum V der triviale Raum {~0} ein Unterraum. • Sei V = R2 . Dann ist die Gerade W = {(x1 , x2 ) : x1 + x2 = 0} durch den Nullpunkt ein Unterraum von V . Man stelle diesen Unterraum auch graphisch dar. • Sei V = R3 . Dann ist die Menge der Punkte auf der Zahlenebene W := {(x, y, 0) : (x, y) ∈ R2 } ein Unterraum von R3 . In diesem Sinne ist R2 in R3 enthalten. Unterräume des R2 . • Die Menge W := {(x1 , . . . , xn ) ∈ Rn : x1 + x2 + . . . + xn = 0} ist ein Unterraum von Rn . • Sei V = Πn der Vektorraum der Polynome vom Grad ≤ n. Dann ist Πm für m ≤ n ein Unterraum von V . • Die Menge Πn (a, b) von beschränkten Polynomen vom Grad ≤ n auf dem Intervall (a, b) ist ein Unterraum des Vektorraums B((a, b)) von beschränkten, reellwertigen Funktionen auf (a, b). Zur Abgrenzung seien auch noch einige Gegenbeispiele genannt. Beispiel 5.24. Man veranschauliche sich und begründe folgende Sachverhalte: • Obwohl die leere Menge eine Teilmenge jeder anderen Menge ist, ist {} kein Vektorraum, und somit kein Unterraum von irgendeinem Vektorraum V ! 66 Vektorrechnung • Die Mengen W1 = {(x, 1) : x ∈ R} und W2 := {(x1 , x2 ) ∈ R2 : x1 + x2 = 1} sind keine Unterräume von R2 . • Die Menge W = {v ∈ Rn : kvk2 ≤ 1} ist kein Unterraum von Rn . Das folgende Resultat stellt einen Zusammenhang zu linearen Gleichungssystemen her. Satz 5.25. Sei A die Koeffizientenmatrix eines (reellen) Gleichungssystems mit m Gleichungen und n Unbekannten. Dann ist die Lösungsmenge L des homogenen GLSs (A|0) ein Unterraum des Vektorraumes Rn . Beweis. Wird später mit Matrixnotation in der Übung erbracht. Affine Teilräume Aus obigem Satz (und einem vorhergehenden Beispiel) folgt, dass die Menge W0 := {(x1 , x2 ) ∈ R2 : x1 + x2 = 0} = {(t, −t) : t ∈ R}, welche eine Gerade durch den Nullpunkt beschreibt, ein Unterraum von R2 ist. Die Menge W1 := {(x1 , x2 ) ∈ R2 : x1 + x2 = 1} = {(t, 1 − t) : t ∈ R}, welche auch eine Gerade beschreibt (die nicht durch den Nullpunkt geht), ist jedoch kein Unterraum von R2 (warum?). Jedes Element w1 ∈ W1 lässt sich allerdings schreiben als t 0 t 0 w1 = = + = + w0 mit w0 ∈ W0 . 1−t 1 −t 1 Das motiviert den folgenden Begriff. Definition 5.26. Sei W0 ⊂ V ein Unterraum von V . Für gegebenes v ∈ V heißt die Menge v + W0 := {v + w : w ∈ W0 } ein affiner Teilraum von V . Bemerkung 5.27. • Jeder Unterraum von V ist zugleich auch affiner Teilraum von V (mit v = 0). • Für alle v1 , v2 ∈ v + W0 gilt v1 − v2 ∈ W0 . • Für jedes w ∈ W0 gilt v + W0 = (v + w) + W0 , d.h., die Darstellung eines affinen Teilraums (die Wahl des Elementes v) ist nicht eindeutig. • Die Menge {(x, y) ∈ R2 : y = x + x2 } = Graph(f ) mit f : R → R, x 7→ x + x2 , ist kein (affiner) Teilraum von R2 . 67 Affine Teilräume des R2 . Beispiel 5.28. • Jede Gerade in R2 is affiner Teilraum von R2 . Eine Gerade ist Unterraum, genau dann wenn sie durch den Ursprung verläuft. • Punkte, Geraden und Ebenen in R3 sind affine Teilräume des R3 . • Die Menge aller reellen Polynome p mit p(0) = 1 ist ein affiner Teilraum des Vektorraums Π aller reellen Polynome. Den Zusammenhang mit allgemeinen linearen GLSen liefert das folgende Resultat: Satz 5.29. Sei (A|y) das Koeffizientenschema eines linearen GLSs mit m Gleichungen und n Unbekannten. Dann ist die Lösungsmenge Ly ein affiner Teilraum von Rn . Ist xy eine spezielle Lösung des inhomogenen Gleichungssystems (A|y), dann gilt Ly = xy + L0 , L0 Lösungsmenge des homogenen Systems (A|0). Beweis. Wird später mit Hilfe von Matrixnotation in der Übung erbracht. Lineare Unabhängigkeit, Basis und Dimension eines Vektorraums Im R2 lässt sich jeder Vektor x y auch darstellen als x 1 0 =x· +y· . y 0 1 Wir erkennen in x und y gerade die Koordinaten des Punktes xy im Kartesischen Koordinaten system. Man benötigt gerade zwei Vektoren, z.B. 10 und 01 um jeden Vektor in R2 darstellen zu können, und wir nennen deshalb R2 einen zweidimensionalen Vektorraum. Im folgenden wollen wir diese Art der Darstellung und den Begriff der Dimension auf allgemeine Vektorräume erweitern. 68 Vektorrechnung Definition 5.30. Sei V ein K-Vektorraum, und M ⊂ V eine Teilmenge von V . Wir nennen Span(M ) := {v ∈ V : v = n X λk · w k , wk ∈ M, λk ∈ K, n ∈ N} k=1 die lineare Hülle (Spann, Aufspann) von M . Ein Ausdruck der Form heißt Linearkombination der Vektoren wk . Pn k=1 λk · wk mit λk ∈ K Satz 5.31. Span(M ) ist ein Unterraum von V . Beweis. Aus der Definition folgt sofort, dass mit v und w ∈ Span(M ) auch v + w und λ · v in Span(M ) liegen. Beispiel 5.32. • Sei M ⊂ V ein Unterraum von V . Dann gilt Span(M ) = M . Durch Vektoroperationen landet man immer wieder im Unterraum. • Sei M = { 10 }. Dann ist 1 Span(M ) = {v ∈ R : v = λ · , λ ∈ R} = {(λ, 0) : λ ∈ R}. 0 2 • Sei M = {(1/n, 0) : n ∈ N}. Dann ist Span(M ) = {(λ, 0) : λ ∈ R}. • Sei M1 = { 10 , 01 } und M2 = { 10 , 01 , 11 }. Dann ist Span(M1 ) = Span(M2 ) = R2 . In letztem Beispiel sieht man, dass der Vektor 11 nicht zur Vergrößerung des Aufspanns bei- trägt. Das ist auch kein Wunder, da er ja selbst als Linearkombination der beiden Vektoren 10 und 01 dargestellt werden kann, also 1 1 0 =1· +1· 1 0 1 bzw. 1 0 1 0 1· +1· −1· = . 0 1 1 0 Definition 5.33. Sei V ein Vektorraum über einem Körper K. • Eine nichtleere Menge M ⊂ V von Vektoren heißt linear unabhängig, falls für jedes n ∈ N und jede Wahl unterschiedlicher Vektoren vk ∈ M , 1 ≤ k ≤ n gilt: n X λk · vk = ~0 ⇒ λk = 0 für alle k = 1, . . . , n. k=1 • Eine Teilmenge M ⊂ V mit Span(M ) = V heißt Erzeugendensystem (EZS). • Ein linear unabhängiges Erzeugendensystem B ⊂ V heißt Basis von V . 69 Überprüfung auf lineare Unabhängigkeit m Wir wollen kurz erläutern, wie man Teilmengen Pm M = {vk ∈ V : 1 ≤ k ≤ n} ⊂ R auf lineare Unabhängigkeit überprüft. Die Bedingung k=1 λk · vk = ~0 bedeutet, dass v1,1 vn,1 0 v1,2 vn,2 0 λ1 · .. + . . . + λn · .. = .. . . . . v1,m vn,m 0 Hierbei ist vk,j die jte Komponente des Vektors vk . Die angegebene Bedingung ist äquivalent zum homogenen linearen Gleichungssystem v1,1 λ1 v1,2 λ1 .. . + v2,1 λ2 + v2,2 λ2 .. . + . . . + vn,1 λn + . . . + vn,2 λn .. ... . = 0 = 0 .. . v1,m λ1 + v2,m λ2 + . . . + vn,m λn = 0. Das zugehörige Koeffizientenschema lautet (A|0) wobei die Koeffizientenmatrix A = (v1 , v2 , . . . , vn ) durch Aneinanderreihen der Spaltenvektoren vk entsteht, also v1,1 v2,1 . . . vn,1 v1,2 v2,2 . . . vn,2 A = .. .. .. . . . ... . v1,m v2,m . . . vn,m Lineare Unabhängigkeit liegt vor, wenn das homogene GLS nur 0 als Lösung besitzt. Dies können wir mit Hilfe der Gauß’schen Elimination überprüfen. Mit den Ergebnisse zur Lösung linearer Gleichungssysteme erhalten wir die folgenden Resultate: Satz 5.34. (a) Jedes Erzeugendensystem des Rm besitzt mindestens m Elemente. (b) Eine Menge {vk : 1 ≤ k ≤ n} ⊂ Rm mit n > m Elementen ist stets linear abhängig. (c) Eine Basis des Rm besitzt genau m Elemente. Beweis. (a) Mit Widerspruch: Wir nehmen zunächst an, dass M = {vk : 1 ≤ k ≤ n} ein Erzeugendensystem mitPn < m Elementen ist, d.h, es lässt sich jeder Vektor v ∈ Rm als Linearkombination v = nk=1 λk vk schreiben. Die ist nach obigen Überlegungen äquivalent zur Aussage, dass das Gleichungssystem (A|v) mit m Gleichungen und n < m Unbekannten für alle rechten Seiten v lösbar ist. Mit dem Gauß’schen Eliminationsverfahren lässt sich das GLS 70 Vektorrechnung auf Zeilenstufenform bringen. Die zugehörige Koeffizientenmatrix besitzt mindestens m − n ≥ 1 Nullzeilen. Für m = 4, n = 3 hat das System etwas folgende Gestalt U11 U12 U13 w1 0 U22 U23 w2 0 0 U33 w3 0 0 0 w4 Für rechte Seite w1 = w2 = w3 = 0 und w4 = 1 hat das System keine Lösung. Wir machen alle Zeilenumformungen (A ↔ U ) wieder rückgängig, und erhalten das äquivalente ursprüngliche System (A|v). Für dieses existiert (da äquivalent zu (U |w)) keine Lösung; also ist M kein Erzeugendensystem. Somit gibt es kein Erzeugendensystem des Rm mit weniger als m Elementen. (b) Zeigt man ähnlich wie (a); siehe Übung. (c) Eine Basis B ⊂ Rm ist ein linear unabhängiges Erzeugendensystem. Es bezeichne |B| die Anzahl der Elemente von B. Aus (a) folgt |B| ≥ m, und aus (b) folgt |B| ≤ m, und somit die Behauptung. Beispiel 5.35. Man überprüfe die Menge M = {(1, 2, 3), (1, 1, 1), (1, 2, 2)} ⊂ Rd auf lineare Unabhängigkeit. Lösung: Die Menge M ist lin. unabhängig, genau dann, wenn das GLS (A|0), wobei die Spalten von A gerade die Vektoren in M sind, nur die triviale Lösung 0 besitzt. Mit dem Gauß-Verfahren erhalten wir 1 1 1 0 1 1 1 0 1 1 1 0 2 1 2 0 ⇔ 0 −1 0 0 ⇔ 0 −1 0 0 . 3 1 2 0 0 −2 −1 0 0 0 −1 0 Das äquivalente Zeilenstufensystem (und somit auch (A|0)) besitzt also nur die triviale Lösung (0, 0, 0). Beispiel 5.36. Ist die Menge M = {(1, 2), (2, 1), (1, 1)} ein Erzeugendensystem? Lösung: Die Frage ob sich jeder Vektor yy12 als Linearkombination y1 1 2 1 = λ1 + λ2 + λ3 , λk ∈ R y2 2 1 1 darstellen lässt, ist äquivalent zur Frage, ob das GLS (A|y) für alle rechten Seiten y lösbar ist, wobei die Spalten von A die Vektoren in M sind. Der Gauß-Algorithmus liefert 1 2 1 y1 1 2 1 y1 ⇔ , 2 1 1 y2 0 −3 −1 y2 − 2y1 und durch Rückwärtseinsetzen erhält man die Lösungsmenge L(y1 , y2 ) = {(λ1 , λ2 , λ3 ) ∈ R3 : 3x2 = 2y1 − y2 − x3 ∧ x1 = y1 − 2x2 − x3 } = {(y1 − 2(2y1 − y2 − t)/3 − t, (2y1 − y2 − t)/3, t) : t ∈ R}. Somit ist gezeigt, das M ein EZS für R2 ist. 71 Beispiel 5.37. Man zeige, dass sich die Menge M aus dem vorhergehenden Beispiel durch Streichen einer der Vektoren zu einer Basis umwandeln lässt. Beispiel 5.38. Die Spalten der Matrix aus Beispiel 4.13 bilden kein Erzeugendensystem! Die Menge bestehend aus dem zweiten, vierten, fünften und siebenten Spaltenvektor ist linear unabhängig. Bemerkung 5.39. • Die Vektoren e1 = (1, 0, 0, 0 . . . , 0), e2 = (0, 1, 0, 0 . . . , 0), e3 = (0, 0, 1, 0, . . . , 0), ... die Einheitsvektoren des Rn . Die Menge {ek : 1 ≤ k ≤ n} ⊂ Rn ist linear unabhängig und heißt kanonische Basis oder Einheitsbasis des Rn . • Die Mengen B1 = { 10 , 01 } und B2 = { 10 , 11 } bilden jeweils Basen von R2 . Ein Vektorraum kann also viele verschiedene Basen besitzen. • Die Menge {0} ist linear abhängig, und {v, w} ⊂ Rn ist linear abhängig, genau dann wenn v = λw für ein w ∈ R; sonst linear unabhängig. • Die Polynomfunktionen pk (x) := xk bilden eine Basis der Raums der Polynome, genauer: Mn := {xk : 0 ≤ k ≤ n} ist eine Basis von Πn , und die Menge M := {xk : k ∈ N0 } bildet eine Basis des Raums Π aller (reellen) Polynome. Den Nachweis der linearen Unabhängigkeit wird später in der Übung erbracht. Ohne einen Beweis zu geben, fassen wir noch einige Aussagen über Basen zusammen. Bemerkung 5.40. • Jeder Vektorraum besitzt eine Basis. • Jede lineare unabhängige Teilmenge M ⊂ V kann zu einer Basis ergänzt werden, und jede Basis besitzt gleich viele (evtl. unendlich viele∗ ) Elemente; vergleiche hiermit auch die Aussagen über Basen des Rn weiter unten. Definition 5.41. Sei V eine Vektorraum mit Basis B. Die Anzahl der Elemente in B heißt Dimension von V , kurz Dim(V ). Ist Dim(V ) ∈ N0 , dann heißt V endlich dimensional, sonst unendlich dimensional. Bemerkung 5.42. Anstelle von Dim(V ) ∈ N0 schreiben wir auch Dim(N ) < ∞. Das Symbol ∞ steht hierbei für ”Unendlich“. Man beachte: ∞ ist weder natürlich noch reelle Zahl. Dim(V ) = ∞ meint hier, dass Dim(V ) > n für alle n ∈ N0 gilt. Beispiel 5.43. Durch Angabe einer Basis sieht man: • Dim(Rn ) = n, insbesondere Dim(R2 ) = 2 72 Vektorrechnung • Dim(Πn ) = n + 1 und Dim(Π) = ∞. Der Raum aller Polynome ist unendlich dimensional! Zur Veranschaulichung der Begriffe lineare Unabhängigkeit, Basis, Erzeugendensystem sowie deren Überprüfung seien folgende Beispiele angeführt. Beispiel 5.44. Ist die Menge M = {(1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)} (a) lineare unabhängig; (b) ein Erzeugendensystem; (c) eine Basis? Gegebenenfalls überführe man die Menge M durch Streichen oder Hinzufügen zusätzlicher Vektoren in eine Basis. Lösung: (a) M ist eine Teilmenge von R3 mit 4 Elementen, und kann daher nicht unabhängig P4 sein. Aus den Überlegungen zu Teil (b) sieht man ebenso, dass es Linearkombinationen k=1 λk vk = 0 mit (λ1 , . . . , λ4 ) 6≡ 0 gibt, also keine lineare Unabhängigkeit vorliegt. 3 (b) P4 Ein EZS liegt vor, wenn jeder Vektor (x, y, z) ∈ R als Linearkombination (x, y, z) = k=1 λk vk von Vektoren aus M dargestellt werden kann. Dies ist äquivalent zum GLS x x 1 1 0 1 1 1 0 1 1 1 0 1 x 1 0 1 1 y ↔ 0 −1 1 0 y − x ↔ 0 −1 1 0 y − x . 0 1 1 1 z 0 1 1 1 z 0 0 2 1 z+y−x Wir ersetzen λ3 durch t, und erhalten durch Rückwärtseinsetzen die Lösungsmenge L = {(x − z + t, x − y + t, t, z + y − x − 2t) : t ∈ R} = (x − z, x − y, 0, z + y − x) + {t · (1, 1, 1, −2) : t ∈ R}. Das zeigt, dass sich jeder Vektor als Linearkombination darstellen lässt, es liegt also ein EZS vor. Für die Wahl x = y = z = 0 sieht man, dass der Vektor 0 durch nicht-triviale Linearkombinationen dargestellt werden kann, also keine lineare Unabhängigkeit vorliegt. (c) Es handelt sich um keine Basis, da nicht linear unabhängig. (d) Streicht man in obigem GLS die letzte oder vorletzte Spalte, so erhält man die Systeme 1 1 0 x x 1 1 1 0 −1 1 0 −1 0 y−x y−x bzw. 0 0 1 z+y−x 0 0 2 z+y−x welche jeweils eindeutige Lösungen besitzen. Somit sind M1 = {(1, 1, 0), (1, 0, 1), (0, 1, 1)} und M2 = {(1, 1, 0), (1, 0, 1), (1, 1, 1)} jeweils Basen des R3 . Beispiel 5.45. (a) Man Überprüfe die Menge M = {(1, 1, 0), (1, 0, 1), (0, 1, −1)} auf lineare Unabhängigkeit. (b) Man berechne die lineare Hülle (das Erzeugnis) von M , und bestimme dessen Dimension. (c) Man überführe M durch Streichen und Hinzufügen von Vektoren zu einer Basis. P Lösung: Die Frage, ob 3k=1 λk vk = 0 =⇒ λ1 = λ2 = λ3 = 0 is äquivalent zum GLS 1 1 0 0 1 1 0 0 1 1 0 0 1 0 1 0 ↔ 0 −1 1 0 ↔ 0 −1 1 0 0 1 −1 0 0 1 −1 0 0 0 0 0 73 (a) Die Lösungsmenge ist L = {(−t, t, t) : t ∈ R}. Es existieren also nicht-triviale Lösungen des homogenen Systems, d.h., nicht-triviale Linearkombinationen die 0 ergeben. Also ist die Menge M nicht linear unabhängig. (b) Bringt man die dritte Spalte des GLS auf die rechte Seite, erhält man 1 1 0 1 1 0 1 1 0 1 0 −1 ↔ 0 −1 −1 ↔ 0 −1 −1 1 0 0 1 1 0 1 0 0 Dies zeigt, dass sich der dritte Vektor durch die ersten beiden darstellen lässt, also v3 = v1 − v2 . Somit lässt sich die lineare Hülle von M schreiben als Span(M ) = Span{(1, 1, 0), (1, 0, 1)} =: S. Die verbleibenden Vektoren sind linear unabhängig (nach Definition der linearen Hülle) ein Erzeugendensystem für S, also eine Basis. Damit ist die Dimension von S gleich 2. (c) Mit derselben Rechnung wie oben sieht man, dass M̃ := {(1, 1, 0), (1, 0, 1), (0, 1, a)} für alle a 6= −1 eine Basis des R3 darstellt. Zur Überprüfung der linearen Unabhängigkeit sowie zur Darstellung des Aufspanns kann man alternativ auch wie folgt vorgehen. Beispiel 5.46. Wir ordnen die Vektoren in M als Zeilen einer Matrix diese auf Zeilenstufenform. 1 1 0 1 1 0 1 1 0 1 1 0 1 0 −1 1 0 −1 1 0 0 1 1 ↔ 0 1 1 ↔ 0 0 2 ↔ 0 1 1 1 0 0 1 0 0 1 0 A an,und überführen 1 −1 0 0 0 1 2 0 Die ersten drei Vektoren (Achtung: wir haben die Reihenfolge der Zeilen / Vektoren hier nicht vertauscht!) sind linear unabhängig. Der Vierte Vektor lässt sich als Linearkombination der ersten drei darstellen. Weiters gilt S := Span(M ) = Span{(1, 1, 0), (0, −1, 1), (0, 0, 2)} = R3 . Die Dimension des Spans ist 3, und es liegt ein EZS vor. Die Basis des Spans ist aus obiger Darstellung bereits ersichtlich. Aufgaben Aufgabe 5.1. Sei x ∈ R beliebig. Bestimmen Sie die Lösungsmenge des folgenden LGLS ix e e−ix 2 cos x eix −e−ix 2i sin x 74 Vektorrechnung Aufgabe 5.2. Berechnen Sie den Winkel zwischen den folgenden Vektoren √ a) u = (4, 0), v = (1, 3), b) u = (1, 0, 0), v = (0, −1, 99), Aufgabe 5.3. Zeigen Sie, dass die folgenden Abbildungen Normen auf dem Vektorraum Rn , n ∈ N, definieren: a) k · k2 : Rn → R, v 7→ kvk2 := P n k=1 |vk |2 1/2 b) k · k∞ : Rn → R, v 7→ kvk∞ := sup{|vk |1 ≤ k ≤ n} = max{|vk | : 1 ≤ k ≤ n}. Aufgabe 5.4. Sei V ein normierter Vektorraum mit Norm k · k. Zeigen Sie die zweite Dreiecksungleichung: |kvk − kwk| ≤ kv − wk ∀v, w ∈ V. Hinweis: Benutzen Sie die Dreiecksungleichung. Aufgabe 5.5. Zeigen Sie Satz 5.25. Aufgabe 5.6. Zeigen Sie Satz 5.29. Aufgabe 5.7. Überprüfen Sie die folgenden Vektoren auf lineare Abhängigkeit a) (1, 2, 3), (−1, 0, 1), (0, 1, 0) b) (1, 2, 3), (−1, 1, 1), (4, −1, 24) Aufgabe 5.8. Seien v1 , . . . , vm ∈ Rn mit m > n. Zeigen Sie, dass v1 , . . . , vm linear abhängig sind. Aufgabe 5.9. Welche Dimension haben die folgenden Unterräume des Rn : a) U := Span{(1, 1, 2)> , (0, 1, −1)> , (3, 0, 2)> } ⊂ R3 . b) V := Span{(1, −2, 1/2, 1)> , (−1, −1, 1/3, 1)> , (−3, 0, 1/6, 1)> , (0, −3, 5/6, 2)> } ⊂ R4 . Aufgabe 5.10. Sei A ∈ Rn×m , n, m ∈ N, einen Matrix. Zeigen Sie, dass (i) Kern(A) ein Unterraum vom Rm ist, (ii) Bild(A) ein Unterraum vom Rn ist. Aufgabe 5.11 (Koeffizientenvergleich). Sei V ein K-Vektorraum. Seien v1 , . . . , vn ∈ V linear unabhängig. Zeigen Sie, dass für αk , βk ∈ K, k = 1, . . . , n, aus n X k=1 folgt, dass αk = βk für alle k = 1, . . . , n. αk v k = n X k=1 βk vk 6 Matrizenrechnung Zur kompakten Darstellung von linearen Gleichungssystemen haben wir Koeffizientenmatrizen der Form a11 a12 . . . a1n a21 a22 . . . a2n A := .. .. .. . . ... . am1 am2 . . . amn mit Einträgen aij ∈ R (oder C) verwendet. Ein rechteckiges Zahlenschema A dieser Form heißt Matrix. Die Menge aller reellen (komplexen) Matrizen mit m Zeilen und n Spalten bezeichnen wir mit Rm×n (bzw. Cm×n ). Zwei Matrizen sind genau dann gleich, wenn alle ihre Einträge übereinstimmen. Für eine Matrix A ∈ Rm×n (oder Cm×n ) definieren wir die Symbole Ai,· := ai1 ai2 . . . ain i-te Zeile, a1j .. A·,j := . j-te Spalte, amj Aij := aij (i, j)-ter Eintrag. In Matlab Schreibweise entspricht dies A(i,:), A(:,j) und A(i,j). Zur bequemeren Darstellung geben wir oftmals nur die Elemente der Matrix an, wir schreiben also A = [Aij ] = [aij ]. Bemerkung 6.1. Die Matrizen x1 x2 . . . xn ∈ R1×n und y1 .. n×1 .∈R yn heißen naheliegenderweise Zeilen- bzw. Spaltenvektor. Wir werden später Vektoren im Rn meistens mit Spaltenvektoren im Rn×1 identifizieren. Für zwei Matrizen A, B ∈ Rm×n (oder Cm×n ) und λ ∈ R (oder C) definieren wir A + B := [aij + bij ] sowie λ · A := [λ · aij ]. 76 Matrizenrechnung Satz 6.2. Die Mengen Rm×n (bzw. Cm×n ) sind reelle (komplexe) Vektorräume. Beweis. Folgt elementar aus der Definition der Matrixaddition und der Multiplikation mit Skalaren; siehe Übung. Bemerkung 6.3. Im Folgenden seien noch einige Matrizen spezieller Form angeführt: • Eine Matrix A ∈ Rn×n mit gleich vielen Zeilen wie Spalten heißt quadratisch. d1 0 0 • D = diag(d1 , d2 , d3 ) := 0 d2 0 ∈ R3×3 heißt Diagonalmatrix mit Diagonal0 0 d3 elementen d1 , d2 , d3 ; In Matlab z.B. diag([1,2,3]). In ähnlicher Weise definiert man natürlich Diagonalmatrizen beliebiger Dimension. E := En := diag(1, 1, . . . , 1) ∈ Rn×n heißt Einheits- oder Identitätsmatrix; in Matlab: E = eye(n). • Matrizen der Form l11 0 0 0 l21 l22 0 0 L= l31 l32 l33 0 l41 l42 l43 l44 u11 u12 u13 U = 0 u22 u23 0 0 u33 bzw. heißen (linke) untere bzw. (rechte) obere Dreiecksmatrix. • Eine Matrix mit Einträgen aij wobei aij = 0 für |i − j| > 1 heißt Tridiagonalmatrix. Matrixmultiplikation Definition 6.4. Für A ∈ Rm×N und B ∈ RN ×n sei C := A · B ∈ Rm×n definiert durch C = [Cij ] mit Cij := XN k=1 Aik · Bkj . Bemerkung 6.5. • Der (i, j)-te Eintrag Cij berechnet sich durch Multiplizieren und Aufsummieren der i-ten Zeile von A und der j-ten Spalte von B. a11 a12 . . . a1N b11 b12 . . . b1n c11 c12 . . . c1n a21 a22 . . . a2N b21 b22 . . . b2n c21 c22 . . . c2n .. .. .. · .. .. .. = .. .. .. . . ... . . . ... . . . ... . am1 am2 . . . amN bN1 bm2 . . . bmN cm1 cm2 . . . cmn • Die Multiplikation ist nur definiert, falls A gleich viele Spalten wie B Zeilen hat! • Man beachte die Anzahl der Zeilen und Spalten des resultierenden Produkts! 77 1 2 1 0 Beispiel 6.6. Sei A = 1 0 und B = . Dann ist 1 1 −1 1 1 2 3 2 1 0 A · B = 1 0 · = 1 0 , 1 1 −1 1 0 1 aber das Produkt B · A ist nicht definiert! (warum?) Der folgende Algorithmus veranschaulicht die Matrixmultiplikation in Matlab: function C = mult(A,B) % multiplies matrices A and B m=size(A,1); % number of rows in A n=size(B,2); % number of cols in B if size(A,2) ~= size(B,1), error(’dimensions do not match’); end C = zeros(m,n); % allocate memory for i=1:m for j=1:n C(i,j) = A(i,:) * B(:,j); % = sum_k A(i,k) B(k,j) end end Definition 6.7. Für A ∈ Rm×n definieren wir die transponierte Matrix A> ∈ Rn×m durch (A> )ji := Aij für 1 ≤ i ≤ m und 1 ≤ j ≤ n. Gilt A = A> , so heißt A symmetrisch. Die transponierte Matrix entsteht also durch Vertauschen von Zeilen und Spalten. Satz 6.8. Für Matrizen der richtigen Größe gelten die folgenden Rechenregeln: (A · B) · C = A · (B · C), A · (B + C) = A · B + A · C (A · B)> = B > · A> , A · E = E · A = A, (A> )> = A, An = A · An−1 = An−1 · A, A0 := E. Beachte: Im allgemeinen gilt nicht!, dass A · B gleich B · A ist, die Matrixmultiplikation ist also nicht kommutativ!; vgl. Beispiel 6.6. Beweis. Der Beweis wird teilweise in der Übung erbracht. Beispiel 6.9. Für die Matrizen aus Beispiel 6.6 gilt z.B. 1 1 1 1 −1 3 1 0 > > B ·A = · = = (A · B)> . 0 1 2 0 1 2 0 1 78 Matrizenrechnung Beispiel 6.10. Das Euklid’sche Skalarprodukt zweier Vektoren x, y ∈ Rn×1 lässt sich schreiben als hx, yi2 = x> · y. Wir haben hier wieder Vektoren Rn mit den Spaltenvektoren in Rn×1 identifiziert. Bemerkung 6.11. Das Multiplizieren von Matrizen kann auch spalten- bzw. zeilenweise erfolgen. Es gilt A1· · B A · B·1 A · B·2 . . . A · B·n = A · B = ... Am· · B Also: multiplizieren von links mit A wirkt auf die Spalten von B (es werden Zeilenumformungen in B gemacht); multiplizieren von rechts mit B wirkt auf die Zeilen von A (es werden Spaltenumformungen in A gemacht). Definition 6.12. Sei A ∈ Rn×n . Gibt es eine quadratische Matrix M ∈ Rn×n , sodass A·M =M ·A=E (Einheitsmatrix) ist, dann heißt M die inverse Matrix oder kurz Inverse von A, und wir schreiben M = A−1 . Lemma 6.13. Die inverse Matrix ist eindeutig. Beweis. Sei A ∈ Rn×n invertierbar und B, C ∈ Rn×n mit A · B = B · A = A · C = C · A = E. Dann gilt B = B · E = B · (A · C) = (B · A) · C = E · C = C. Also B = C. Bemerkung 6.14. Gibt es für eine nicht quadratische Matrix A ∈ Rm×n eine Matrix ML ∈ Rn×m mit ML · A = En , dann heißt ML Linksinverse zu A. Existiert ein MR ∈ Rn×m mit A · MR = Em , dann heißt MR Rechtsinverse zu A. Lineare Gleichungssysteme als Matrizengleichungen Unter Zuhilfenahme der Matrixmultiplikation lässt sich das lineare Gleichungssystem a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . am1 x1 + am2 x2 + . . . + a1n xn = y1 + . . . + a2n xn = y2 .. .. .. . . . + . . . + amn xn = ym mit Koeffizientenschema (A|y) jetzt kurz als Matrixgleichung A·x=y > schreiben. Hierbei ist der (Spaltenvektor) x = x1 x2 . . . xn die gesuchte Größe, und > y = y1 y2 . . . ym die vorgegebene rechte Seite. In Anlehnung an die Begriffe für lineare Gleichungssysteme führen wir nun folgende Begriffe ein. 79 Definition 6.15. Die maximale Anzahl linear unabhängiger Zeilen- bzw. Spaltenvektoren von A heißt Zeilen- bzw. Spaltenrang von A, kurz Z − Rang(A) bzw. S − Rang(A). Bemerkung 6.16. • Z −Rang(A) = Dim(Span{A1,· , . . . , Am,· }) und S−Rang(A) = Dim(Span{A·,1 , . . . , A·,n }). • Natürlich folgt sofort dass Z − Rang(A) ≤ m und S − Rang(A) ≤ n. • Die lineare Unabhängigkeit der Spalten bzw. Zeilen lässt sich wiederum mit dem GaußAlgorithmus überprüfen. Satz 6.17. Für jede Matrix A ∈ Rm×n gilt Z − Rang(A) = S − Rang(A) = Rang(A). Beweis. Folgt mit Hilfe des Gauß-Algorithmus und der Tatsache, dass die Lösungsmenge eines Gleichungssystems bei Äquivalenztransformationen nicht verändert wird. Beispiele hierzu in der Übung. Definition 6.18. Eine quadratische Matrix A ∈ Rn×n mit Rang(A) = n heißt regulär. Als Folgerung aus dem Gauß-Algorithmus erhalten wir folgende Bedingung für die Existenz einer Inversen. Satz 6.19. Eine Matrix A ∈ Rn×n besitzt eine Inverse A−1 genau dann, wenn A regulär ist. Beweis. Die Matrix A besitzt eine Inverse genau dann, wenn das zugehörige Gleichungssystem A · x = y für jede rechte Seite y genau eine Lösung x = E · x = (A−1 · A) · x = A−1 y hat. Dies ist wiederum genau dann der Fall, wenn die Zeilenstufenform von A keine Nullzeilen besitzt, also Rang(A) = n ist. Folgerung 6.20. Ist A ∈ Rn×n regulär, dann hat das Gleichungssystem A · x = y für jede rechte Seite y ∈ Rn×1 genau eine Lösung. Es gilt auch die Umkehrung. Berechnung der Inversen Zur Berechnung der Inversen, falls existent, kann man jetzt wie folgt vorgehen. Aus der Definition der Matrixmultiplikation erhält man A · M = A · M·1 A · M·2 . . . A · M·n . Das Multiplizieren einer Matrix M von links mit A entspricht also dem Multiplizieren der einzelnen Spalten von M mit A. Die j-te Spalte M·j der Inversen kann man dann berechnen, indem man das Gleichungssystem A · M·j = E·j , 1≤j≤n 80 Matrizenrechnung löst. Da bei der Umformung auf Zeilenstufenform nur die Einträge der Matrix A relevant sind, lassen sich alle Spalten gleichzeitig behandeln. Wir versuchen also das Gleichungssystem mit Koeffizientenschema (A|E) mit n rechten Seiten E·1 , . . . E·n zu lösen. Zur Illustration ein kurzes Beispiel: 2 1 Beispiel 6.21. Man berechne die Inverse der Matrix A = . 1 2 Lösung: Wir wenden den Gauß-Algorithmus auf das System (A|E) an. Es gilt 2 1 1 0 2 1 1 0 1 12 12 0 ↔ (A|E) = ↔ 1 2 0 1 0 23 − 12 1 0 1 − 13 23 1 > 2 Für die erste Spalte auf der rechten Seite erhält man die Lösung M ·12 = ( 31 − 3 ) , und die −3 3 zweite Spalte liefert M·2 = (− 13 23 ). Die Inverse ist also A−1 = M = . − 31 23 Durch weiteres Umformen der Zeilenstufenform (Gauß-Jordan Algorithmus) erhält man 1 0 23 − 13 (A|E) ↔ . 0 1 − 13 32 Dies entspricht gerade dem Gleichungssystem E·M = 2 3 − 13 − 13 2 3 . Die Inverse lässt sich also aus dem letzten System direkt ablesen. Bemerkung 6.22. • Ist die Matrix A nicht regulär, so besitzt die linke Seite der Zeilenstufenform eine echte Nullzeile. Die Inverse existiert in diesem Fall nicht, und kann dementsprechend auch nicht berechnet werden. • Man beachte: Zum Berechnen der Inversen muss ein Gleichungssystem mit n rechten Seiten berechnet werden. Das Aufstellen der inversen Matrix ist also zum Lösen eines GLS (mit einer rechten Seite) nicht effizient. Die Darstellung der Lösung x = A−1 y kann jedoch für theoretische Betrachtungen nützlich sein. Wir führen weiter die folgenden Begriffe ein. Definition 6.23. Für A ∈ Rm×n definieren wir Bild(A) := {y ∈ Rm : ∃x ∈ Rn : y = Ax} Kern(A) := {x ∈ Rn : A · x = 0} Bild von A. Kern von A. Man überzeugt sich leicht, dass für eine Matrix A ∈ Rm×n mit Spalten A·j die folgenden Zusammenhänge gelten: 81 Satz 6.24. Sei A ∈ Rm×n . Dann gilt • Bild(A) ist ein Untervektorraum des Rm , Kern(A) ist ein Untervektorraum des Rn . • Das Bild einer Matrix A wird durch ihre Spalten aufgespannt. • Bild(A) = Span{A·j : 1 ≤ j ≤ n} sowie Bild(A> ) = Span{(Ai,· )> : 1 ≤ i ≤ m}. • Dim(Bild(A)) = Rang(A) = Rang(A> ) = Dim(Bild(A> )). Weiters gelten die folgende Dimensionsformel • Dim(Kern(A)) + Dim(Bild(A)) = n und Dim(Kern(A> )) + Dim(Bild(A> )) = m. Beweis. Die Sachverhalte folgen aus Betrachtung des Gauß’schen Eliminationsverfahren. Man vergleiche die Dimensionsformeln mit den Aussagen über die Anzahl freier Parameter in der Lösungsmenge von linearen Gleichungssystemen. Bemerkung 6.25. Aus obigen Aussagen lassen sich folgende Einsichten über die Lösung linearer Gleichungssysteme gewinnen: • Ein lineares GLS A · x = y ist genau dann lösbar, wenn y ∈ Bild(A) ist. Man beachte hierzu, dass n X xk A·k = y. A·x=y ⇔ k=1 Das Lösen des GLSs ist also äquivalent zur Frage, ob y als Linearkombination der Spalten von A dargestellt werden kann. • Das GLS A · x = y ist für jede rechte Seite y ∈ Rm lösbar, wenn Bild(A) = Rm . Dies ist genau dann der Fall, wenn der Rang von A gleich m ist. • Der Kern von A ist gerade die Lösungsmenge des homogenen GLS A · x = 0. • Die Dimension des Lösungsraumes von A · x = y (= minimale Anzahl von freien Parametern zur Darstellung der Lösungsmenge) ist gerade die Dimension des Kerns. • Das GLS A·x = y besitzt höchstens eine Lösung, wenn Dim(Kern(A)) = 0 also Kern(A) = {0}. Man beachte, dass Kern(A) ein Unterraum des Rn ist, und daher immer die 0 enthält. Die LU Faktorisierung Im Folgenden betrachten wir nochmals das Gauß’sche Eliminationsverfahren. Elementare Zeilenoperationen arbeiten auf den Zeilen von A, und können nach obiger Bemerkung durch Multiplikation mit einer Matrix von links realisiert werden. 82 Matrizenrechnung Beispiel 6.26. Sei A = 1 1 0 . Dann gilt 2 1 1 0 1 1 1 0 2 1 1 · = 1 0 2 1 1 1 1 0 0 1 Die Zeilen von A können also durch Multiplizieren von links mit B = vertauscht 1 0 werden. Allgemeiner gilt a b A1· a · A1· + b · A2· · = c d A2· c · A1· + d · A2· Durch Multiplizieren von links kann man also die Zeilen von A beliebig linear kombinieren. Beispiel 6.27. Um mit größeren 1 0 0 0 a 0 0 0 1 0 c 0 0 0 0 Matrizen zu arbeiten, benutzen wir folgende Beobachtung. 0 0 A1· A1· b 0 A2· a · A2· + bA4· 0 0 · A3· = A3· d 0 A4· c · A2· + d · A4· 0 1 A5· A5· Um die zweite und vierte Spalte zu modifizieren, multipliziert man mit einer Matrix B von links, welche sich von einer Einheitsmatrix nur durch die Einträge Bij , i, j ∈ {2, 4} unterscheidet. Die elementaren Zeilenumformungen im Gauß’schen Algorithmus können jetzt durch Multiplikation von links mit folgenden Elementarmatrizen bewerkstelligt werden. • Vertauschen von Zeile i und j erreicht man durch Multiplikation mit der elementaren Permutationsmatrix P ij , welche in Beispiel 6.27 durch Wahl a = 0, b = 1, c = 1, d = 0 entsteht. Siehe auch Beispiel 6.26; i.A. gilt P ij = E − (ei − ej ) · (ei − ej )> . • Addieren des λ-fachen der Zeile i zur Zeile j > i wird durch Multiplikation mit der elementaren linken unteren Dreiecksmatrix L̃ij erreicht, welche wie in Beispiel 6.27 durch Wahl a = 1, b = 0, c = λ, d = 1 entsteht; i.A. gilt L̃ij = E + λej e> i . Beispiel 6.28. Zur 0 1 1 Veranschaulichung diskutieren wir kurz die Umformung einer Matrix A 1 1 1 1 1 0 1 1 1 0 1 Z1↔Z2 Z3↔Z3−Z1 0 1 1 1 1 0 1 ↔ 0 1 1 1 ↔ 1 1 1 1 1 1 1 0 0 1 0 in Zeilenstufenform durch Multiplikation mit Elementarmatrizen. Der erste Schritt ist realisierbar durch Anwenden der Permutationsmatrix 0 1 0 0 1 1 1 1 1 0 1 P 12 · A = 1 0 0 · 1 1 0 1 = 0 1 1 1 =: A1 0 0 1 1 1 1 1 1 1 1 1 83 Den zweiten Schritt realisieren trix, 1 13 0 L̃ · A1 = −1 wir durch Multiplikation mit einer linken unteren Dreiecksma 0 0 1 1 0 1 1 1 0 1 1 0 · 0 1 1 1 = 0 1 1 1 =: A2 0 1 1 1 1 1 0 0 1 0 Die resultierende rechte obere Dreiecksmatrix (= Zeilenstufenform) lässt sich also schreiben als A2 = L̃13 · A1 = L̃13 · P 12 · A. Der Gauß-Algorithmus lässt sich damit formal wie folgt beschreiben: A0 := A for k = 1 : m do Ak := L̃mk · . . . · L̃(k+1)k · P klk · Ak−1 end Das Endresultat Am besitzt dann Zeilenstufenform. Bemerkung 6.29. • Das Ergebnis des Algorithmus verändert sich nicht, Qmwennkl man alle benötigten Zeilenvertauschungen vorab ausführt. Wir nennen P := k=1 P k eine Permutationsmatrix. Man beachte, dass P ij und somit auch P regulär und invertierbar ist. • Die Überführung der Matrix P · A in Dreiecksstufenform erfolgt durch mit Qm QmMultiplizieren kl kl linken unteren Dreiecksmatrizen L̃ , und wir definieren L := k=1 l=k+1 L̃ . • Die inverse einer regulären linken unteren (rechten oberen) Dreiecksmatrix sowie das Produkt von solchen Matrizen besitzt wieder dieselbe Gestalt. Insbesondere gilt −1 L := L̃−1 = L̃(m−1)m · L̃(m−2)m · L̃(m−2)(m−1) · . . . · L̃13 · L̃12 = (L̃12 )−1 · (L̃13 ) · . . . · (L̃(m−2)(m−1) )−1 · (L̃(m−2)m )−1 · (L̃(m−1)m )−1 Für das Hauptresultat dieses Abschnitts brauchen wir noch folgende Eigenschaften von Produkten von Elementarmatrizen. Satz 6.30. Seien Pk und L̃k elementare Permutations- bzw. Dreiecksmatrizen. Dann gilt: Q • Die (allgemeine) Permutationsmatrix P := k Pk = P1 · P2 · . . . ist regulär (invertierbar), und P −1 = P > . Q • Die Matrix L̃ := k L̃k = L̃1 · L̃2 · . . . ist regulär (invertierbar). Weiters sind L̃ und L̃−1 wieder linke untere Dreiecksmatrizen mit Einsen auf der Diagonale. Beweis. Mit Induktion nach k; siehe Übung. 84 Matrizenrechnung Die Zusammenfassung der obigen Beobachtungen liefert uns das folgende Resultat. Satz 6.31 (LU-Faktorisierung (LR-Zerlegung)). Jede Matrix A ∈ Rm×n lässt sich zerlegen in P · A = L · U, wobei P ∈ Rm×m eine Permutationsmatrix ist, L ∈ Rm×m eine linke untere Dreiecksmatrix mit Einsen auf der Diagonale, und U ∈ Rm×n eine rechte obere Dreiecksmatrix (also in Zeilenstufenform). Die Zeilenstufenform U der Matrix erhält man dementsprechend einfach durch U = L−1 · P · A. Praktische Durchführung der LU Zerlegung Die Darstellung des Gauß-Algorithmus über Produkte von Elementarmatrizen ist vor allem von theoretischer Bedeutung. Hingegen ist die LU-Zerlegung auch von praktischer Relevanz, v.a., wenn GLSe mit mehreren rechten Seiten gelöst werden sollen. Das Lösen eine GLSs mittels LU-Zerlegung funktioniert dann wie folgt: • Das GLS A · x = y ist äquivalent zu L · U · x = P · A · x = P · y = P y • Rückwärtseinsetzen: Löse L · z = L · (U · x) = P y • Vorwärtseinsetzen: Löse U · x = z Im Folgenden seien die wesentlichen Schritte für den Fall durch diskutiert, dass keine Zeilenvertauschungen notwendig sind. % Ermittlung der LU Zerlegung [L,U] = lu_decompose(A); % matlab: [L,U,P]=lu(A); % Permutation der rechten Seite: P*A*x = P*y Py = y; % matlab: Py = P*y; % Rueckwaertseinsetzen: L*z = Py z = backward_solve(L,Py); % matlab: z = L\Py; % Vorwaertseinsetzen: U*x = z x = forward_solve(U,z); % matlab: x = U\z; 85 Der folgende Algorithmus beschreibt die LU-Zerlegung im Falle Algorithmus) ohne Zeilenvertauschung auskommt. Der Ansatz U11 U12 U13 . . . A11 1 0 0 ... L21 1 0 . . . 0 U22 U23 . . . A21 = L31 L32 1 . . . · 0 0 U33 . . . A31 ... ... ... dass diese (bzw. der Gauß A12 A13 . . . A22 A23 . . . A32 A33 . . . erlaubt die Unbekannten Lij und Uij zeilenweise zu bestimmen. • Die erste Zeile k = 1 liefert: U11 = A11 , U12 = A12 , U13 = A13 , usw. • Die zweite Zeile k = 2 liefert – Spalte j = 1: L21 U11 = A21 und daher L21 = A21 /U11 . – Spalte j ≥ 2: L21 U1j + U2j = A2j woraus folgt: U2j = A2j − L2j U2j • Die dritte Zeile k = 3 liefert – Spalte j = 1: L31 U11 = A31 und daher L31 = A31 /U11 . – Spalte j = 2: L31 U12 + L32 U22 = A32 , also L32 = (A32 − L31 U12 )/U22 . – Spalte j ≥ 3: L31 U1j + L32 U2j + U3j = A3j woraus folgt: U3j = A3j − L31 U1j − L32 U2j • u.s.w. Man sieht, dass man aus den Spalten j < k der k-ten Zeile nacheinander die Koeffizienten Lkj ermitteln kann, und aus den Spalten j ≥ k dann die noch unbekannten Koeffizienten Ukj . Führt man die Rechnung fort, erhält man den folgenden Algorithmus. function [L,U] = lu_decompose(A) % lu decomposition of A without pivoting m=size(A,1); n=size(A,2); U=zeros(m,n); L=zeros(m,m); for k=1:m for j=1:k-1 L(k,j) = ( A(k,j) - L(k,1:j-1)*U(1:j-1,j) ) / U(j,j); % = ( A(k,j) - sum_{l=1}^{j-1} L(k,l)*U(l,k) ) / U(j,j); end L(k,k) = 1; % nie verwendet! if abs(A(k,k))<1e-12, error(’matrix is close to singular’); end for j=k:n U(k,j) = A(k,j) - L(k,1:k-1)*U(1:k-1,j); % = A(k,j) - sum_{l=1}^{k-1} L(k,l)*U(l,j); end end 86 Matrizenrechnung Das Vorwärts- und Rückwärtseinsetzen funktioniert analog zum Gauß-Algorithmus, vgl. Übung. Im folgenden noch einige praktische Hinweise: Bemerkung 6.32. • Die Anzahl der arithmetischen Operationen (Multiplikationen) für die LU-Zerlegung ist ca. n3 /3, und damit um etwa 1/3 geringer als das Multiplizieren zweier Matrizen! • Das Vorwärts- bzw. Rückwärtseinsetzen benötigt jeweils ca. n2 /2 Multiplikationen. • Die 1 Einträge der Matrix L sowie 0en in L und U brauchen nicht gespeichert werden. In der Praxis werden daher typischerweise die Einträge von L und U über die Matrix A gespeichert. • Eine allgemeine Permutationsmatrix P kann durch Angabe eines Zeilenvektors p gespeichert werden: Die Einträge pi bezeichnen dabei gerade die Position der i-ten Zeile (nach Permutation). Sei P y = P · y. Dann gilt P y(p) = (P y(p1 ), P y(p2 ), . . .)> = y. Aufgaben Aufgabe 6.1. Seien A, B ∈ Rn×n . Zeigen Sie die Äquivalenz der folgenden Aussagen: (i) A = B. (ii) Ax = Bx für alle x ∈ Rn . (iii) Aek = Bek für alle 1 ≤ k ≤ n, ek k-ter Einheitsvektor. Aufgabe 6.2. Seien K, L ∈ Rn×n untere Dreiecksmatrizen mit Ki,i = Li,i = 1 für i = 1, . . . , n. Zeigen Sie a) K · L ist eine untere Dreiecksmatrix mit (K · L)i,i = 1, i = 1, . . . , n. b) L ist invertierbar und L−1 ist eine untere Dreiecksmatrix mit (L−1 )i,i = 1, i = 1, . . . , n. Aufgabe 6.3. Berechnen Sie die Inverse von 1 7 4 4 0 1 2 9 0 0 1 5 0 0 0 1 Aufgabe 6.4. Es seien P ij und Lij (λ) (λ 6= 0) die Elementarmatrizen aus der Vorlesung: P ij A entsteht aus A durch Tauschen der Zeilen i und j. Lij (λ)A entsteht aus A durch Addition des λ-fachen der i-ten Zeile zur j-ten. Zeigen Sie, dass P ij und Lij (λ) invertierbar sind und geben Sie die inversen Matrizen an. 87 Aufgabe 6.5. Berechnen Sie die LU -Zerlegung der Matrix 0 1 1 −3 −2 3 1 4 A := 0 0 0 1 , 3 1 0 0 Aufgabe 6.6. Seien A ∈ Rm×n und B ∈ Rn×p . Zeigen Sie (A · B)> = B > A> . Aufgabe 6.7. Seien A, B ∈ Rn×n reguläre Matrizen. Zeigen Sie (i) (A · B)−1 = B −1 · A−1 , (ii) (A−1 )> = (A> )−1 und (iii) ist A symmetrisch (d.h. A = A> ), so auch A−1 . Hinweis: Für allgemeine quadratische Matrizen gilt: AC = E ⇔ C = A−1 . Aufgabe 6.8. Implementieren Sie den Algorithmus zur LU -Zerlegung in Matlab und überprüfen Sie Ihre Implementation mit dem Befehl [l,u]=lu(A) an den auf der Homepage bereitgestellten Matrizen. 88 Matrizenrechnung 7 Lineare Abbildungen auf Vektorräumen Im folgenden identifizieren wir die Vektoren in Rn mit den Spaltenvektoren in Rn×1 . Eine Matrix A ∈ Rm×n definiert eine Abbildung LA : Rn → Rm , x 7→ A · x zwischen den Vektorräumen Rn und Rm . Aus den Regeln für die Matrixmultiplikation folgt sofort A · (x + y) = A · x + A · y sowie A · (λ · x) = λ · (A · x). Das motiviert den folgenden Begriff. Definition 7.1. Eine Abbildung L : V → W , v 7→ L(v) zwischen K-Vektorräumen V und W heißt linear, falls für alle Vektoren u, v ∈ V und alle Zahlen λ ∈ K gilt: L(u + v) = L(u) + L(v) und L(λ · v) = λ · L(v). Als Beispiel für Vektorräume und Körper denke man wieder an Rn bzw. R. Das Einsetzen in die Definition zeigt, dass die zu einer Matrix A gehörende Abbildung LA linear ist. Wie der folgende Satz zeigt, gilt allerdings auch die Umkehrung. Satz 7.2. Sei L : Rn → Rm eine lineare Abbildung. Dann gibt es eine eindeutige Matrix A ∈ Rm×n mit L(x) = A · x für alle x ∈ Rn . Dabei ist die j-te Spalte von A ist gerade das Bild L(ej ) des j-ten Einheitsvektors ej ∈ Rn . Beweis. Sei {e1 , . . . , en } die kanonische Basis des Rn . Dann lässt sich x als Linearkombination x = x1 · e1 + x2 · e2 + . . . xn · en = Xn k=1 xk · e k schreiben. Unter Ausnutzung der Linearität erhält man X L(x) = L( xk · ek ) = L(x1 · e1 + . . . + xn · en ) X = x1 · L(e1 ) + . . . + xn · L(en ) = xk · L(en ). 90 Lineare Abbildungen auf Vektorräumen Andererseits hat man für beliebiges A ∈ Rm×n X LA (x) = A · x = A · ( xk · ek ) = A · (x1 · e1 + . . . + xn · en ) X = x1 · (A · e1 ) + . . . + xn · (A · en ) = xk · (A · ek ). Weiters beachte man, dass A · ek = A·k gerade die k-te Spalte von A ergibt. Vergleicht man die beiden Ausdrücke, so liegt nahe, die k-te Spalte von A also A·k := L(ek ) festzulegen. Wie obigen Rechnungen zeigen, gilt dann L(x) = LA (x) für alle x ∈ Rn . Durch wiederholtes Anwenden erhält man sofort: Folgerung 7.3. Seien A ∈ Rm×N und B ∈ RM ×n . Dann gilt für die Hintereinanderausführung LA ◦ LB : Rn → Rm , x 7→ A · B · x. Wir schreiben dafür auch kurz LA (LB (x)) = LA·B (x). Beweis. siehe Übung. Weiters überzeugt man sich leicht von folgenden Sachverhalten. Satz 7.4. Sei A die Darstellungsmatrix der linearen Abbildung L : Rn → Rm . Dann gilt: (a) L ist injektiv ⇔ Rang(A) = n ⇔ Kern(A) = {0}. (b) L ist surjektiv ⇔ Rang(A) = m ⇔ Bild(A) = Rm . Als Folgerung ergibt sich weiter (c) L ist bijektiv, genau dann wenn A regulär ist. In diesem Fall ist A−1 die Darstellungsmatrix der Umkehrabbildung L−1 . Beweis. Siehe Übung. Begriffe wir Rang, Kern, Bild usw. lassen sich jetzt sofort zwischen Matrizen und linearen Abbildungen hin und her übersetzen. Im folgenden zeigen wir, dass sich die Darstellbarkeit linearer Abbildungen mittels Matrizen auf allgemeine Vektorräume übertragen lässt. Basisdarstellung von Vektoren Die Darstellungsmatrix einer linearen Abbildung von der Reihenfolge der Basisvektoren ej ab. Wir führen daher folgenden Begriff ein: Definition 7.5. Sei {vk : 1 ≤ k ≤ n} ⊂ V eine Basis des endlichdimensionalen Vektorraumes V . Dann heißt das n-Tupel (v1 , v2 , . . . , vn ) geordnete Basis von V . 91 Bemerkung 7.6. Die Tupel 10 , 01 und 01 , 10 sind als geordnete Basen des R2 unterschiedlich, aber die Mengen { 10 , 01 } und { 01 , 10 } sind gleich (warum?). Die folgenden Aussagen über allgemeine Vektorräume veranschauliche man sich wieder am Beispiel V = Rn und K = R. Aus den Sätzen über lineare Unabhängigkeit folgt Satz 7.7. Sei B := (b1 , . . . , bn ) eine geordnete Basis des K-Vektorraumes V . Dann besitzt jeder Vektor v ∈ V eine eindeutige Darstellung v= Xn k=1 λk ∈ K. λk bk , Die Zahlen λk , 1 ≤ k ≤ n heißen Koordinaten von V bezüglich der Basis B und der Vektor B v := (λ1 , . . . , λn ) heißt Koordinatenvektor von v bezüglich B. Beweis. Da B eine Basis ist (und somit insbesondere ein EZS), lässt sich jeder Vektor v als Linearkombination P Pder Basisvektoren darstellen. Zu zeigen bleibt die Eindeutigkeit: Aus v = k µk bk und v = k λk bk folgt durch Subtraktion 0=v−v = X k µ k bk − X k λk bk = X k (µk − λk )bk . Da B eine Basis (also linear unabhängig) ist, folgt (µk − λk ) = 0 für alle k. Also sind die Koordinaten eindeutig bestimmt. Beispiel 7.8. • Das Tripel (1, x, x2 ) ist eine Basis des Vektorraums Π2 der Polynome vom Grad ≤ 2. Das Polynom p2 (x) := a0 + a1 x + a2 x2 hat die Koordinaten (a0 , a1 , a2 ). 1 1 1 2 1 • Der Vektor v = hat bezüglich der Basis B = , ) die Darstellung = 1 · + 2 0 1 1 0 1 1 · 1 , also den Koordinatenvektor B v = (1, 1). Zur Berechnung der Koordinaten eines Vektors im Rn bietet sich folgendes Resultat an. Satz 7.9. Die Basisdarstellung des Vektors v ∈ Rn bezüglich der Basis B ist Bv = B −1 v, wobei die Matrix B die Vektoren bj als Spalten besitzt. Beweis. Die Frage nach den Koordinaten λk , 1 ≤ k ≤ n ist äquivalent zur Lösung des Gleichungssystems B · λ = v (warum?). Da die Vektoren bk linear unabhängig sind, folgt B regulär. Die Koordinaten sind dann eindeutig gegeben durch λ = B −1 v. 92 Lineare Abbildungen auf Vektorräumen Beispiel 7.10. Man berechne die Darstellung des Vektors x = (3, 2, 1) bezüglich der Basis B = (1, 0, 0), (1, 1, 0), (1, 1, 1) . Lösung: Die Berechnung der Koordinaten erfolgt über Lösen des GLSs 1 1 1 λ1 3 0 1 1 λ2 = 2 . 0 0 1 λ3 1 Das System ist bereits in Zeilenstufenform, und durch Rückwärtseinsetzen erhalten wir λ3 = λ2 = λ1 = 1. Die Darstellung von x bezüglich der Basis B lautet also 3 1 1 1 2 = 1 · 0 + 1 · 1 + 1 · 1 1 0 0 1 Basisdarstellung linearer Abbildungen Im Satz 7.2 wurde gezeigt, dass sich alle lineare Abbildungen zwischen Rn und Rm über Matrizen darstellen lassen. Die folgende Definition erweitert die dort verwendete Konstruktion auf allgemeinere Vektorräume. Zur Veranschaulichung denke man allerdings wieder an die Vektorräume V = Rn und den Körper R! Definition 7.11. Seien B und C geordnete Basen der Vektorräume V und W . Die Matrix C LB := C L(b1 ), . . . , C L(bn ) heißt Darstellungsmatrix der linearen Abbildung L : V → W bezüglich der Basen B und C. Die j-te Spalte von C LB enthält dabei die Koordinaten des Vektors L(bj ) (das Bild des j-tentem Basisvektors bj ) bezüglich der Basis C. Beispiel 7.12. • Sei V = Rn , W = Rn . Dann ist die Darstellungsmatrix A der linearen Abbildung LA (x) := A · x bzgl. der Einheitsbasen En und Em gerade Em LA En = A. • Sei B = ( 10 , 01 ) und C = ( 10 , 11 ). Dann gilt für die Abbildung id : x 7→ x 1 1 1 0 1 1 =1· +0· und id(b2 ) = = −1 · +1· . id(b1 ) = 0 0 1 1 0 1 Die Basisdarstellung von id bzgl. der Basen B und C lautet somit 1 0 1 −1 ,C = . C idB = C 0 1 0 1 In ähnlicher Weise erhält man die Basisdarstellungen 1 0 1 1 , , B idB = B idC = 0 1 0 1 C idC = 1 0 . 0 1 93 • Die Abbildung L : Π2 → Π2 , p(x) 7→ p0 (x) ordnete Polynomen vom Grad ≤ 2 ihre Ableitung zu. Wir wählen als Basis von Π2 wieder B = {1, x, x2 }. Es gilt 10 = 0 · 1 + 0 · x + 0 · x2 , x0 = 1 = 1 · 1 + 0 · x + 0 · x2 , Trägt man die Koordinaten spaltenweise auf, 0 0 B LB = 0 (x2 )0 = 2x = 0 · 1 + 2 · x + 0 · x2 . erhält man die Darstellungsmatrix 1 0 0 2 . 0 0 Ferner gilt Bild(B LB ){(a, b, 0) : a, b ∈ R} und Kern(B LB ) = {(a, 0, 0) : a ∈ R}. Wie im Falle von Rn erhält man: Satz 7.13 (Darstellungssatz). Jede lineare Abbildung zwischen Vektorräumen ist (nach Wahl von Basen) durch ihre Darstellungsmatrix eindeutig. Bekannte Begriffe für Matrizen lassen sich in natürlicher Weise auf die dargestellten linearen Abbildungen übertragen. Definition 7.14. Für eine lineare Abbildung L :V → W zwischen Vektorräumen definieren wir Kern(L) = {x ∈ V : L(x) = 0} Bild(L) = {y = L(x) ∈ W : x ∈ V }. bzw. Der Rang einer linearen Abbildung ist über den Rang der Darstellungsmatrix definiert. Der Rang ist unabhängig von der Wahl der Basis. Den genauen Zusammenhang zwischen Kern und Bild von linearen Abbildungen und ihren Darstellungsmatrizen liefert der folgende Satz 7.15. Sei L : V → W eine lineare Abbildung zwischen (endlich dimensionalen) Vektorräumen. Dann gilt für beliebige Basen B und C X Kern(L) = {v ∈ V : v = λk bk mit λ ∈ Kern(C LB )} k und Bild(L) = {w ∈ W : w = X k µk ck mit µ ∈ Bild(C LB )}. Beweis. Es gilt C Basis B Basis Kern(L) = {v ∈ V : L(v) = 0} = {v ∈ V : C L(v) = 0} = X = {v = λk bk ∈ V : λ ∈ Rn und C LB · λ = 0}, X {λ ∈ Rn : C L( λk bk ) = 0} k was die erste Behauptung zeigt. Die zweite folgt analog; siehe Übung. k 94 Lineare Abbildungen auf Vektorräumen Hat man die Darstellungsmatrix einer linearen Abbildung gefunden, so kann man (wie schon im vorigen Beweis verwendet) das “Wirken” der linearen Abbildung auf einen Vektors recht einfach darstellen. Satz 7.16. Sei L : V → W eine lineare Abbildung zwischen endlich dimensionalen Vektorräumen V und W mit Basen B und C. Dann gilt für alle v ∈ V C L(v) = C LB · B v, d.h., die Koordinaten des Bildes L(v) bzgl. der Basis C ergeben sich durch Multiplikation der Koordinaten des Urbildes v bzgl. der Basis B mit der Darstellungsmatrix C LB . Beweis. Sei B v = (v1B , . . . , vnB ). Dann ist nach Definition der Darstellungsmatrix C LB · Bv = n X B C L(bj )vj j=1 = CL n X bj vjB = C L(v). j=1 Als Konsequenzen dieses Satzes erhält man wie im Falle des Rn die folgenden Einsichten. Satz 7.17. Eine lineare Abbildung L : V → W zwischen (endlich dim.) Vektorräume ist (a) injektiv, genau dann, wenn Kern(B LC ) = {0} ist; (b) surjektiv, genau dann, wenn Bild(B LC ) = W ist; (c) bijektiv, genau dann, wenn C LB regulär ist. In diesem Fall ist B (L−1 )C = (C LB )−1 . Die Aussagen sind jeweils unabhängig von der Wahl der Basen B und C. Beweis. siehe Übung. Wie für die Vektorräume Rn zeigt man auch folgenden Zusammenhang. Satz 7.18. Seien f : V → W und g : U → V lineare Abbildungen zwischen den Vektorräumen U , V , W mit Basen A, B, C. Dann gilt C (f ◦ g)A = C fB · B gA , d.h., die Darstellungsmatrix der Hintereinanderausführung erhält man durch Multiplikation (=Hintereinanderausführung) der Darstellungsmatrizen. Beweis. Ähnlich wie beim Darstellungssatz; siehe Übung. Als spezielle Resultate für die Abbildung L = id erhält man folgende Regel, mit der man die Darstellungen von Vektoren in verschiedenen Basen ineinander überführen kann. 95 Folgerung 7.19 (Koordinatentransformation). Seien B und C Basen des endlich dimensionalen Vektorraumes V . Dann gilt Cv = C idB · B v = B id−1 C · Bv Durch Kombination obiger Resultate erhält man unmittelbar folgendes Resultat. Satz 7.20 (Basistransformationsformel). Sei L : V → W eine lineare Abbildung von V nach W , und B1 , C1 sowie B2 , C2 jeweils Basen von V und W . Dann gilt C2 LB2 = C2 idC1 · C1 LB1 · B1 idB2 . Beweis. Folgt direkt aus obigen Aussagen; siehe Übung. Bemerkung 7.21. Besonders einfach lassen sich die Basisdarstellungen der Abbildung id : Rn → Rn ausrechnen, wenn eine der Basen die Einheitsbasis E ist. Sei B wieder die zu den Basen B gehörige Matrix mit Basiselementen als Spaltenvektoren. Dann gilt E idB =B sowie B idE = (E idB )−1 = B −1 A Beispiel 7.22. Gesucht ist die Darstellungsmatrix der linearen Abbildung L (x) = A · x mit 2 1 A= bezüglich der Basis B = { 10 , 11 }. Wir wenden die Basistransformationsformel 1 2 mit C2 = B2 = B und B1 = C1 = E an, wobei E wieder die Einheitsbasis bezeichnet. Mit obiger Bemerkung erhält man A B LB −1 ·A·B = B idE · E LA E · E idB = B 1 −1 2 1 1 1 1 0 = · · = . 0 1 1 2 0 1 1 3 Man überprüfe das Ergebnis durch explizites Aufstellen der Darstellungsmatrix! Als direkte Folgerung aus der Basistransformationsformel und Bemerkung 7.21 erhält man folgende nützliche Formel. Satz 7.23 (Basistransformationssatz). Sei A ∈ Rm×n . Die Darstellungsmatrix der linearen Abbildung LA (x) = A · x bzgl. der Basen B und C ist gegeben durch A C LB = C −1 · A · B, wobei B und C die entsprechenden Basisvektoren als Spalten besitzen. Der obige Satz besagt, dass sich die Darstellungsmatrix einer linearen Abbildung bei Wechsel der Basis in der Weise −1 A · E LA B LB = B E ·B verändert. Zur Erinnerung: E LA E = A, und jede Matrix impliziert nach Wahl der Basis eine eindeutig definierte lineare Abbildung. 96 Lineare Abbildungen auf Vektorräumen Definition 7.24. Matrizen A1 und A2 , welche mit einem regulären B über die Formel A2 = B −1 · A1 · B ineinander überführt werden können heißen ähnlich. Die Transformation A1 7→ B −1 · A1 · B heißt Ähnlichkeitstransformation. Die Darstellungsmatrizen einer linearen Abbildung bezüglich verschiedener Basen sind also ähnlich, was auch den Begriff erklärt: sie beschreiben ja dieselbe Abbildung nur in einer anderen Basis. Es gilt C LC = C idB · B LB · B idC . Von Bedeutung ist, falls sich die (Darstellungs-)Matrix durch Basiswechsel (=Ähnlichkeitstransformation) Matrix auf besonders einfache Form bringen lässt. Definition 7.25. Gibt es zur quadratischen Matrix A eine reguläre Matrix B sodass D = B −1 · A · B diagonal ist, dann heißt A diagonalisierbar. Das Rechnen mit diagonalisierbaren Matrizen ist manchmal besonders einfach. 2 −1 Beispiel 7.26. Man zeige, dass A = durch Basiswechsel E → B = 10 , 11 diago0 1 nalisierbar ist, und berechne dann An für beliebiges n ∈ N. Lösung: Es gilt 1 −1 2 −1 1 1 2 0 −1 D =B ·A·B = · · = , 0 1 0 1 0 1 0 1 was die Diagonalisierbarkeit zeigt. Weiter gilt A = B · D · B −1 und daher A2 = (B · A · B −1 ) · (B · A · B −1 ) = B · D2 · B, und mit vollständiger Induktion zeigt man, dass dann auch An = B · Dn · B −1 gilt. Die n-te Potenz der Diagonalmatrix ist aber gegeben durch n n 2 0 2 0 n D = = . 0 1 0 1n Also gilt n n A =B·D ·B −1 = n 1 1 2 0 1 −1 · · . 0 1 0 1n 0 1 97 Aufgaben Aufgabe 7.1. Zeigen Sie, dass folgende Abbildungen linear sind. a) Sei Πn der Vektorraum der Polynome vom Grad n. D : Πn → Πn , p(x) 7→ Dp(x) := p0 (x). b) Für λ ∈ R sei M : Rn → Rn , v 7→ M v := λv. c) S : Rn → Rn , v = (v1 , . . . , vn )> 7→ Sv := (0, v1 , . . . , vn−1 )> . Aufgabe 7.2. Sei n = 3. a) Geben Sie die Abbildungsmatrizen der linearen Abbildungen aus Aufgabe 1 bzgl. der Standardbasen an (Für Π3 ist dies (1, x, x2 , x3 ), für R3 ist dies (e1 , e2 , e3 )). b) Geben Sie die Abbildungsmatrizen C MB und C SB bzgl der Basen −1 1 1 1 1 1 0 , 1 , 0 0 , 1 , 1 B= , C= 1 0 1 0 0 1 an. Aufgabe 7.3. Zeigen Sie Satz 7.17. Aufgabe 7.4. Sei A ∈ Rn×n , n ∈ N. Zeigen Sie: Kern(A) = {0} genau dann, wenn A regulär ist. Aufgabe 7.5. Sei B = (b1 , . . . , bn ) eine geordnete Basis des Rn . Bezeichne mit B ∈ Rn×n die Matrix, deren i-te Spalte bi ist. Seien weiter E die Standardbasis des Rn und C eine weitere geordnete Basis des Rn . Zeigen Sie: a) B idB b) Ev c) A E LE = E, E idB = B, B idE = −1 E (id)B = B −1 , C idB = C −1 B. = v für v ∈ Rn . = A für A ∈ Rn×n und LA die zu A gehörige lineare Abbildung. Aufgabe 7.6. Seien A, B ∈ Rn×n . Zeigen Sie die Äquivalenz der folgenden Aussagen: (i) A = B. (ii) Ax = Bx für alle x ∈ Rn . (iii) Aek = Bek für alle 1 ≤ k ≤ n, ek k-ter Einheitsvektor. 98 Lineare Abbildungen auf Vektorräumen 8 Determinanten und Eigenvektoren In diesem Kapitel werden wir sehen, wie bestimmte Matrizen durch geschickte Wahl der Basis diagonalisiert werden können. Um die nötigen Rechnungen durchführen zu können, benötigen wir noch den Begriff der Determinanten. 8.1 Determinanten Wir haben in Abschnitt 4 gesehen, dass Gleichungssysteme genau dann eindeutig lösbar sind, wenn die zugehörige Koeffizientenmatrix regulär ist. Für ein Gleichungssystem mit zwei Gleichungen und zwei Unbekannten, also eine 2 × 2 Matrix a b A= c d ist dies genau dann der Fall, falls die beiden Zeilen(vektoren) z1 := (a, b) und z2 := (c, d) linear unabhängig sind. Man beachte: {z1 , z2 } ist linear abhängig, wenn eine Zeile Vielfache der anderen ist (warum?), also wenn a = λc ∧ b = λd gilt. Dies gilt wiederum genau dann (siehe Übung), wenn Det(A) := Det(z1 , z2 ) := a · d − b · c = 0 ist. Die Determinante Det(A) bestimmt also, ob die Matrix A regulär und somit das Gleichungssystem mit Koeffizientenmatrix A für jede rechte Seite eindeutig lösbar ist. Die Zahl Det(A) hat auch eine geometrische Bedeutung. Mit elementarer Rechnung zeigt man, dass Det(A) gerade der Flächeninhalt (mit Vorzeichen) des Parallelogramms ist, welches durch die Zeilenvektoren z1 und z2 aufgespannt wird (siehe Übung). Die folgenden Eigenschaften ergeben sich natürlich aus dieser geometrischen Interpretation: (D1) Det(E) = 1 (normiert) (D2) Det(z1 , z2 ) = − Det(z2 , z1 ) (antisymmetrisch). 100 Determinanten und Eigenvektoren (D3) Det(λA) = λ2 Det(A). Bei genauerer Betrachtung sieht man sogar, dass Det(λz1 +z̃1 , z2 ) = λ Det(z1 , z2 )+Det(z̃1 , z2 ) und somit auch Det(z1 , λz2 + z˜2 ) = λ Det(z1 , z2 )+Det(z1 , z̃2 ) gilt. Die Funktion Det : R2 ×R2 → R ist also linear bezüglich jedes Argumentes (multilinear). 2 1 z1 Beispiel 8.1. Wir betrachten die Matrix A = z2 = . 1 2 • Es gilt Det(A) = Det(z1 , z2 ) = 2 · 2 − 1 · 1 = 3 6= 0. Nach obigen Überlegungen besitzt die zugehörige Matrix maximalen Zeilenrang, und ist somit regulär. • Vertauschen der Zeilen führt auf 1 2 Det(z2 , z1 ) = = 1 · 1 − 2 · 2 = −3 = − Det(A). 2 1 • Bei einer Matrix mit zwei gleichen Zeilen sind diese natürlich linear abhängig. Es gilt (wenig überraschend) 2 1 Det(z1 , z2 ) = Det = 2 · 1 − 2 · 1 = 0. 2 1 • Addiert man die erste Zeile zur zweiten erhält man 2 1 Det(z1 , z2 + z1 ) = Det = 2 · 3 − 1 · 3 = 3 = Det(z1 , z2 ) + Det(z1 , z1 ). 3 3 • Multiplizieren einer Zeile führt zu 2λ λ Det(λz1 , z2 ) = Det = 2λ · 2 − λ · 1 = 3λ = λ Det(z1 , z2 ). 1 2 Ganz ähnlich geht man für 3 × 3 Matrizen vor. Ein Matrix A ∈ R3×3 ist nicht regulär, wenn ihre Zeilen {z1 , z2 , z3 } linear abhängig sind. Dies ist genau dann der Fall, wenn die drei Zeilenvektoren in einer Ebene liegen, da dann einer der Vektoren als Linearkombination der anderen ausgedrückt werden kann. Man kann nachrechnen (siehe Übung), dass A1,1 A12 A13 Det A21 A22 A23 := Det (A11 , A12 , A13 ), (A21 , A22 , A23 ), (A31 , A32 , A33 ) A31 A32 A33 := A11 A22 A33 + A12 A23 A31 + A13 A21 A32 − A13 A22 A31 − A12 A21 A33 − A11 A23 A32 das (Vorzeichen behaftete) Volumen des Parallelepipeds ist, welches durch die Zeilenvektoren aufgespannt wird. Die Eigenschaften (D1)–(D3) gelten analog. 8.1 Determinanten 101 Geometrische Deutung der Determinanten Die beiden Formeln für die Determinanten von 2 × 2 bzw. 3 × 3 Matrizen kann man sich wie folgt merken. Berechnung der Determinanten für 2 × 2 und 3 × 3 Matrizen; Regel von Sarrus. 2 1 0 Beispiel 8.2. Man zeige anhand der Matrix A = 1 2 0, dass Vertauschen der ersten und 0 0 1 zweiten Zeile zur Umkehr des Vorzeichens der Determinante führt; vgl. Regel (D2). Lösung: Es gilt Det(A) = 2 · 2 · 1 + 1 · 0 · 0 + 0 · 1 · 0 − 0 · 2 · 0 − 1 · 1 · 1 − 2 · 0 · 0 = 3 und 1 2 0 Det 2 1 0 = 1 · 1 · 1 + 2 · 0 · 0 + 0 · 2 · 0 − 0 · 0 · 0 − 2 · 2 · 1 − 1 · 0 · 0 = −3, 0 0 1 also Det(z2 , z1 , z3 ) = − Det(z1 , z2 , z3 ). Um den Begriff der Determinante auf n × n Matrizen zu erweitern, verwenden wir folgende rekursive Definition. Definition 8.3. Für eine Matrix A ∈ Cn×n definieren wir die Determinante Det : Cn×n → C wie folgt: Für n = 1 (also A = (A11 )) sei Det(A) = A11 , 102 Determinanten und Eigenvektoren und für n ≥ 2 (und A ∈ Cn×n ) gelte n X Det(A) := (−1)l+1 A1l Det(A1l ) l=1 wobei Akl ∈ C(n−1)×(n−1) die Matrix bezeichnet, die durch Streichen der k-ten Zeile und l-ten Spalte entsteht. Anstelle von Det(A) schreiben wir auch |A| bzw. Det(z1 , . . . , zn ), wobei zk die k-te Zeile von A bezeichnet. Bemerkung 8.4. Die Determinante ist nur für quadratische Matrizen definiert! Bemerkung 8.5. Die Determinante von n × n Matrizen lässt sich auch anders definieren, und zwar über Permutationen (Leibniz’sche Formel). Die obige Definition lässt sich dann daraus herleiten, und wird als Laplace’scher Entwicklungssatz bezeichnet. In unserer Definition wird dabei nach der ersten Zeile entwickelt. Beispiel 8.6. Die allgemeine Definition der Determinanten im Fall n = 2 und n = 3 stimmt wieder mit den bekannten Definitionen überein. So gilt etwa a b Def. 8.3 = (−1)2 a Det(d) + (−1)3 b Det(c) = a · d − b · c. Det c d Aus der Definition der Determinanten ergeben sich folgende Rechenregeln; vgl. (D1)–(D3). Satz 8.7. Die Abbildung Det : Cn × . . . × Cn → C besitzt folgende Eigenschaften: (a) (b) (c) (d) Det(e1 , . . . , en ) = 1 Det(. . . , zk , . . . , zl , . . .) = − Det(. . . , zl , . . . , zk , . . .) Det(. . . , λzk + z̃k , . . .) = λ Det(. . . , zk , . . .) + Det(. . . , z̃k , . . .) Det(. . . , zk , . . . , zk , . . .) = 0 (normiert) (antisymmetrisch) (multilinear) (definit). Weiters gilt (e) Det(A> ) = Det(A). Durch geeignetes Anwenden dieser Regeln erhält man sofort den Folgerung 8.8 (Laplace’scher Entwicklungssatz). Für A ∈ Cn×n und jedes 1 ≤ k ≤ n gilt Det(A) = = Xn Xnl=1 l=1 (−1)k+l Akl Det(Akl ) (Entwicklung nach der k-ten Zeile) (−1)k+l Alk Det(Alk ) (Entwicklung nach der k-ten Spalte), wobei Akl ∈ C(n−1)×(n−1) wieder durch Streichen der k-ten Zeile und i-ten Spalte aus A hervorgeht. 8.1 Determinanten 103 Beispiel 8.9. Zur einfachen Berechnung sollte man Zeilen (Spalten) mit möglichst vielen 0en wählen. Die Matrix A aus Beispiel 8.2 lässt sich etwa gut nach der dritten Spalte entwickeln. Man erhält dann 2 1 0 1 2 2 1 2 1 4 5 6 Det 1 2 0 = (−1) · 0 · Det + (−1) · 0 · Det + (−1) · 1 · Det = 3. 0 0 0 0 1 2 0 0 1 Da die Matrix symmetrisch ist, liefert Entwicklung nach der 3ten Zeile genau dasselbe. Für Matrizen mit besonderer Gestalt ergeben sich einfache Regeln zur Berechnung der Determinante. Satz 8.10. Seien L bzw. U eine linke untere bzw. rechte obere Dreiecksmatrix. Dann gilt Yn Yn Ukk . Lkk sowie Det(U ) = Det(L) = k=1 k=1 Ebenso gilt für jede Diagonalmatrix Det(D) = Qn k=1 Dkk . Beweis. Folgt unmittelbar aus der Definition der Determinanten. Eine essentielle weitere Eigenschaft der Determinante ist die folgende: Satz 8.11 (Multiplikationssatz). Seien A und B jeweils n × n Matrizen. Dann gilt Det(A · B) = Det(A) · Det(B). P Beweis. Idee: Sei a ∈ C1×n ein Zeilenvektor. Dann ist a · B = nk=1 ak · Bk· eine Linearkombination der Zeilen von B. Jede Zeile von A · B besteht also aus Linearkombinationen der Zeilen von B. Die Aussage lässt sich dann direkt aus den Eigenschaften von Satz 8.7 herleiten. Als Folgerung des Multiplikationssatzes erhalten wir sofort ein relativ einfaches Verfahren zur Berechnung der Eigenwerte. Folgerung 8.12. Sei L · U = P · A die LU-Zerlegung der Matrix A, also P eine Permutationsmatrix, U eine rechte obere und QL eine linke untere Dreiecksmatrix mit 1 Diagonalelementen. Dann gilt Det(A) = Det(U ) = nk=1 Ukk . Beweis. Da P > = P −1 sieht man leicht (siehe Übung), dass Det(P ) = 1 gilt. Ebenso ist Det(L) = 1, woraus die Behauptung folgt. Bemerkung 8.13. In der Praxis werden Determinanten tatsächlich über die LU-Zerlegung (oder die alternative QR-Zerlegung) ausgerechnet. Die Berechnung über den Laplace’schen Entwicklungssatz wäre im Vergleich zu aufwändig (n! Operationen!) und numerisch weniger stabil. 104 Determinanten und Eigenvektoren Bemerkung 8.14. Es sei nochmals auf die elementaren Eigenschaften der Determinante hingewiesen. (i) (ii) Det(E) = 1, Det(A · B) = Det(A) · Det(B), (iii) (iv) Det(A> ) = Det(A), Det(A−1 ) = 1/ Det(A) falls Det(A) 6= 0. Aussage (i) folgt dabei unmittelbar aus der Definition, und (iv) folgt aus (i) und (ii) sowie A · A−1 = E. (ii) und (iii) kamen in bereits in Sätzen vor. Abschließend nochmals die sehr wichtige Beobachtung: Satz 8.15. Sei A ∈ Cn×n . Folgende Bedingungen sind äquivalent: • A ist regulär • Rang(A) = n, d.h., die Zeilen (Spalten) von A sind linear unabhängig. • Det(A) 6= 0. 8.2 Eigenwerte Nach diesem Exkurs zu Determinanten kehren wir zum Thema Diagonalisierung von Matrizen zurück. Ziel ist es, durch geschickten Basiswechsel bestimmte Klassen von Matrizen auf Diagonalgestalt zu bringen. Angenommen, die Matrix A ∈ Cn×n lässt sich durch Basiswechsel auf Diagonalgestalt bringen, also B −1 · A · B = D, wobei B = (b1 , . . . , bn ) die Matrix ist, welche die zugehörigen Basisvektoren als Spalten besitzt, und D eine Diagonalmatrix ist. Durch Multiplizieren mit B von links und B −1 von rechts erhält man sofort A = B · D · B −1 , oder äquivalent dazu A · x = B · D · B −1 · x für alle x ∈ Cn . Insbesondere gilt für den k-ten Basisvektor x = bk A · bk = B · D · (B −1 · bk ) = B · D · ek = B · (Dkk ek ) = Dkk bk . Die Matrix A wirkt also auf den k-ten Basisvektor wie eine einfache Multiplikation. Dies motiviert den folgenden Begriff. Definition 8.16. Sei A ∈ Cn×n . Ein Vektor 0 6= x ∈ Cn×n mit Ax = λx heißt Eigenvektor zum Eigenwert λ ∈ C. Das Tupel (λ, x) heißt Eigenpaar. 8.2 Eigenwerte 105 Bemerkung 8.17. Durch Umstellen der Gleichung sieht man sofort, dass (λ, x) genau dann ein Eigenpaar ist, wenn (A − λE)x = 0 (8.1) gilt. Dieses homogene Gleichungssystem besitzt genau dann eine nichttriviale Lösung, wenn A − λE nicht regulär ist (warum?). Eigenwerte sind also gerade die Zahlen λ ∈ C für welche Det(A − λE) = 0 ist. Wir nennen σ(A) := {λ ∈ C : λ ist Eigenwert} das Spektrum von A. Die Lösungsmenge L0 (λ) des homogenen Gleichungssystems (8.1) heißt Eigenraum zum Eigenwert λ; dies ist ein Unterraum (warum?). Ein (maximales) System {(λk , xk )} von Eigenwerten und linear unabhängigen Eigenvektoren heißt Eigensystem von A. Folgende Aussagen über Eigenwerte und -vektoren folgt unmittelbar aus der Definition. Satz 8.18. Eigenvektoren zu unterschiedlichen Eigenwerten sind stets linear unabhängig. Beweis. Siehe Übung. Satz 8.19. Zu jedem Eigenwert gibt es mindestens einen Eigenvektor. Satz 8.20. Die Matrix A ∈ Cn×n ist invertierbar, genau dann wenn 0 6∈ σ(A). Beweis. Siehe Übung. Satz 8.21. Eine Matrix A ∈ Cn×n ist genau dann diagonalisierbar, wenn Sie n linear unabhängige Eigenvektoren besitzt. Beweis. ⇒: Wie obige Überlegung zeigt, ist jeder Basisvektor der bei der Diagonalisierung auftaucht ein Eigenvektor, womit die eine Richtung folgt. ⇐: Die n linear unabhängigen Eigenvektoren bilden eine Basis des Cn (warum?). Man überzeugt sich durch elementare Rechnung, dass dann A diagonalisierbar ist (siehe Übung); weiter ist Dkk genau der zum k-ten Eigenvektor gehörige Eigenwert. Bemerkung 8.22. • Aus der Multilinearität der Determinante folgt, dass Det(A − λE) =: χA (λ) ein Polynom vom Grad n in λ ist, das sogenannte charakteristische Polynom. Nach dem Hauptsatz der Algebra besitzt diese genau n komplexe Nullstellen, wobei einzelne Nullstellen mehrfach auftreten können. Dies definiert die algebraische Vielfachheit eines Eigenwertes λ. • Die Dimension des Eigenraumes L0 (λ) heißt geometrische Vielfachheit des Eigenwertes λ. 106 Determinanten und Eigenvektoren • Aus dem Satz über lineare Unabhängigkeit von Eigenvektoren folgt sofort, dass für jeden Eigenwert die algebraische Vielfachheit ≥ der geometrischen Vielfachheit ist. Wie die anschließenden Beispiele belegen, kann u.U. auch > gelten! Zur Berechnung der Eigenwerte und -vektoren geht man wie folgt vor: (1) Man berechne die Zahlen λ ∈ C für die Det(A − λE) = 0 gilt. Jede Lösung ist ein Eigenwert der Matrix A. (2) Zu jedem Eigenwert berechne man eine Basis des zugehörigen Eigenraumes. Das Vorgehen sei jetzt anhand einiger Beispiele vorexerziert. 2 1 Beispiel 8.23. Man berechne die Eigenwerte von A = . 1 2 Lösung: die Eigenwerte ergeben sich als Nullstellen des charakteristischen Polynoms 2−λ 1 ! χA (λ) = Det(A − λE) = Det = (2 − λ)2 − 1 = 0. 1 2−λ √ Die Nullstellen sind genau die Lösungen von (2 − λ)2 = 1, also λ = 2 ± 1. Die Eigenwerte sind also (der Größe nach angeordnet) λ1 = 3 und λ2 = 1, jeweils mit algebraischer Vielfachheit 1. Aus obigen Sätzen wissen wir bereits, dass auch die geometrische VFH 1 beträgt (warum?). Als nächstes berechnen wir die Eigenvektoren: Für λ1 = 3 erhalten wir das homogene System −1 1 x1 0 (A − λE)x = = . 1 −1 x2 0 1 1 Der zugehörige Eigenraum ist L 0 (3) = {a · 1 : a ∈ C} = Span{ 1 } und eine Basis des Eigenraumes ist { 11 }. Der Vektor 11 (und jedes Vielfache davon) ist ein Eigenvektor zum Eigenwert λ1 . 1 1 Ebenso erhält man L0 (1) = {a · −1 : a ∈ C} mit Basis { −1 }. Beispiel 8.24. Wir benutzen die Eigenwertzerlegung um die Matrix aus obigem Beispiel zu dia 1 1 gonalisieren, was nach dem Satz über Diagonalisierbarkeit geht. Wir definieren B = 1 −1 sowie D = Diag(3, 1), welche aus den Eigenvektoren und -werten aufgebaut sind. Es gilt 1 1 1 1 1 3 0 −1 B·D·B = · · 1 −1 0 1 2 1 −1 1 1 1 1 4 2 3 3 = · = = A, 1 −1 2 1 −1 2 2 4 was genau die gewünschte Zerlegung ist. 8.2 Eigenwerte 107 Beispiel 8.25. Man berechne die Eigenwerte von A = 0 1 . −1 0 Lösung: Die bestimmende Gleichung lautet λ 1 ! χA (λ) = Det = λ2 − (−1) = 0. −1 λ Hieraus erhält man die komplexen Eigenwerte λ = ±i. Diese besitzen jeweils geometrische Vielfachheit 1, und daher auch algebraische Vielfachheit 1! (warum?) Zugehörige Eigenvektoren ermittelt man wie oben durch Lösen des homogenen Gleichungssystems. Z.B. erhält man, dass 1 1 ein Eigenvektor zum Eigenwert i, und ein Eigenvektor zum Eigenwert −i ist. i −i 1 0 Beispiel 8.26. Die Einheitsmatrix A = besitzt den doppelten (algebraische Vielfach0 1 heit) Eigenwert λ = 1. Man überzeuge sich, dass der zugehörige Eigenraum Dimension 2 hat und jede Kombination zweier linear unabhängiger Vektoren eine Basis des Eigenraumes ist. 1 1 Beispiel 8.27. Die Matrix A = hat das charakteristische Polynom χA (λ) = (λ − 1)2 0 1 und daher λ = 1 als doppelten Eigenwert (algebraische Vielfachheit 2!). Zur Bestimmung des zugehörigen Eigenraumes lösen wir das Gleichungssystem (A−1·E)x = 0, also 0 · x1 + 1 · x2 = 0 0 · x1 + 0 · x2 = 0. Der Eigenraum zum Eigenwert 1 ist demnach gegeben als L0 (1) = {(x1 , x2 ) ∈ C2 : x2 = 0} = {a · (1, 0) : a ∈ C}; insbesondere gibt es nur einen linear unabhängigen Eigenvektor, also geometrische Vielfachheit des Eigenwertes ist 1 und somit echt kleiner als die algebraische VFH. Bemerkung 8.28. Zusammenfassend sei nochmals erläutert: • Jede Matrix A ∈ Cn×n besitzt genau n komplexe Eigenwerte (mit Vielfachheit gezählt). • Zu jedem Eigenwert gibt es mindestens einen Eigenvektor. • Die Dimension des Eigenraumes (=geometrische Vielfachheit) ist immer kleiner gleich der algebraischen Vielfachheit des Eigenwertes. • Eigenvektoren zu unterschiedlichen Eigenwerten sind stets linear unabhängig. • Eine Matrix ist genau dann diagonalisierbar, wenn für jeden Eigenwert die geometrische und algebraische Vielfachheit übereinstimmen. Dies ist insbesondere der Fall, wenn die Matrix n verschiedene Eigenwerte besitzt. Für besondere Matrizen lassen sich wieder konkretere Aussagen über die Eigenwerte machen. Satz 8.29. Die Eigenwerte einer linken unteren (rechte oberen) Dreiecksmatrix sind genau die Diagonalelemente. Dies gilt insbesondere auch für Diagonalmatrizen. 108 Determinanten und Eigenvektoren Beweis. Man beachte: Das charakteristische Polynom liegt bereits in seiner Linearfaktorzerlegung vor. Es gibt noch weitere Matrizen, für welche eine “vollständige” Eigenwertzerlegung garantiert werden kann. Definition 8.30. Eine Matrix A ∈ Rn×n heißt symmetrisch, falls A> = A gilt orthogonal, falls A−1 = A> ist Analog heißt eine komplexe Matrix A ∈ Cn×n > hermitesch, wenn AH = A. Hierbei ist [AH ]ij = Aji ; kurz: AH = A . unitär, wenn A−1 = AH gilt. 2 1 0 Beispiel 8.31. Die reelle Matrix A = ist symmetrisch; B = 1 2 −1 0 1 C= ist normal, aber weder symmetrisch noch orthogonal. 2 0 1 i 1 Beispiel 8.32. Die Matrix A = ist hermitesch; Achtung: A = −i 1 i √ 1 1 symmetrisch, aber nicht hermitesch! A = 1/ 2 ist unitär. i −i 1 0 ist orthogonal; i wäre komplex1 Bemerkung 8.33. Fasst man reelle Matrizen als komplexe auf, so stimmen die Begriffe symmetrisch/hermitesch bzw. orthogonal/unitär jeweils überein. Man beachte aber, dass eine komplexe symmetrische Matrix i.a. nicht hermitesch ist. (1 × 1 Gegenbeispiel!) Mit diesen Notationen können wir weitere Klassen von diagonalisierbaren Matrizen nennen. Satz 8.34. Jede symmetrische (hermitesche) Matrix A ist diagonalisierbar, wobei alle Eigenwerte reell sind, und B orthogonal (unitär) gewählt werden kann, also A = B · D · B −1 = B · D · B > (bzw. A = B · D · B H ). Wir nennen A dann orthogonal (bzw. unitär) diagonalisierbar mit reellen Eigenwerten. Beispiel 8.35. Die Matrix aus Beispiel 8.23 ist√symmetrisch orthogonal diagonali√und1daher 1 sierbar. Man wähle hierzu als Eigenvektoren 1/ 2 1 und 1/ 2 −1 . Bemerkung 8.36. Eine ähnliche Aussage gilt auch für normale Matrizen. Das sind solche, für die A · A> = A> · A gilt. Diese lassen sich orthogonal (unitär) diagonalisieren mit komplexer Diagonalmatrix D. 8.2 Eigenwerte 109 Zum Abschluss sei ohne Beweis noch das folgende Resultat zitiert. Satz 8.37. Zu jeder komplexen Matrix A ∈ Cn×n gibt es eine unitäre Matrix Q ∈ Cn×n , sodass A = Q · R · QH mit rechter oberer Dreiecksmatrix R ∈ Cn×n , und {Rkk : 1 ≤ k ≤ n} = σ(A). Die Zerlegungen A = B · D · B −1 bzw. A = Q · R · Q> sind besondere Arten von sogenannten Normalformen. Im Rahmen von gewöhnlichen Differentialgleichungen werden wir noch weitere solche Normalformen kennenlernen. Orthogonale Matrizen und die QR-Zerlegung Man überzeugt sich leicht, dass Produkte von orthogonalen (unitären) Matrizen wieder orthogonal (unitär) sind. Satz 8.38. Seien Q1 , Q2 orthogonale (unitäre) Matrizen. Dann sind auch die Inversen Q−1 1 , Q−1 sowie das Produkt Q · Q wieder orthogonal (unitär). 1 2 2 Im kurzen seien einige Beispiele für orthogonale Matrizen genannt. Man veranschauliche sich das Wirken der Matrix (bei Multiplikation) anhand geometrischer Beispiele. Beispiel 8.39 (Rotationen). cos φ sin φ • Sei φ ∈ R. Dann nennen wir Rφ = elementare Rotationsmatrix. − sin φ cos φ Multiplizieren mit diese Matrix rotiert einen Vektor um den Winkel φ im Uhrzeigersinn. Man überprüfe die Orthogonalität und dass R−φ = Rφ−1 gilt (was heißt das?). • Ersetzte man in der n-dimensionalen Einheitsmatrix die Einträge Ekk , Ekl , Elk , Ekk durch die von Rφ , so erhält man eine elementare Rotationsmatrix im Rn . Diese heißt auch Givensrotation. • Hintereinanderausführen von elementaren Rotationen führt auf allgemeine Rotationsmatrizen. Beispiel 8.40 (Spiegelungen). −1 0 • Die Matrix S = beschreibt eine Spiegelung eines Vektors. Man finde graphisch 0 −1 heraus, an welcher Geraden (Ebenen) gespiegelt wird. • Sei v ∈ Rn mit kvk2 = 1. Dann heißt S = I − 2vv > elementare Spiegelungsmatrix (Householder Spiegelung). Multiplizieren mit dieser Matrix spiegelt an der Ebene die senkrecht auf v steht. Man überzeuge sich von der “Orthogonalität”, und dass S −1 = S gilt. Was bedeutet das geometrisch? Bemerkung 8.41. 110 Determinanten und Eigenvektoren • Ein Vektor x = (x1 , x2 ) kann durch Givensrotationen auf die Gestalt (kxk2 , 0) gebracht werden. Hierzu wählt man c = x1 /kxk2 , s = x2 /kxk2 . Dann ist 1 c s x1 x21 + x22 kxk2 = = . −s c x2 0 kxk2 −x2 x1 + x1 x2 • Durch Wiederholtes Anwenden auf die (n, n − 1)te Zeile, dann die (n − 1, n − 2)te Zeile usw. kann man jeden Vektor x = (x1 , x2 , . . . , xn ) durch Givensrotationen auf die Gestalt (kxk2 , 0, 0, . . . , 0) bringen. • Jeder Vektor x = (x1 , . . . , xn ) lässt sich auch durch Householdertransformation auf die Gestalt (±kxk2 , 0, . . . , 0) bringen. Wähle hierzu ṽ = x ± kxke1 und v = ṽ/kṽk2 und führe eine Householdertransformation (-spiegelung) durch. Als Anwendung elementarer Rotationen und Spiegelungen erhalten wir einen Satz über eine weitere Darstellung von Matrizen. Satz 8.42 (QR-Zerlegung). Zu jeder Matrix A ∈ Rm×n gibt es eine orthogonale Matrix Q und eine rechte obere Dreiecksmatrix (Zeilenstufenform) R, sodass A = Q · R gilt. Beweis. Skizze: Wir überführen nacheinander die Spalten der Matrix auf die gewünschte Form. Die Aussage folgt dann aus obiger Überlegung zu den Givensrotationen bzw. Householderspiegelungen. 2 1 Beispiel 8.43. Man finde eine QR Zerlegung für die Matrix A = 1 2. 1 1 Lösung: Wir wählen eine Givensrotation, welche die letzten beiden Einträge des ersten Spalc s 1 ∗ tenvektor (1, 1) auf die Form (∗, 0) bringt. Also = wobei s2 + c2 = 1 gelten −s c 1 0 p √ muss (warum?). Dies gelingt z.B. mit c = s = 1/2 und ∗ = 2. Wir erhalten somit 1 0√ 0√ 2 1 2 1 √ √ A1 = Q1 · A = 0 1/ √2 1/√2 · 1 2 = 2 3/ √2 1 1 0 −1/ 2 1/ 2 0 −1/ 2 √ > 2) der ersten In der selben Art und Weise transformieren wir als nächstes den Teilvektor (2, p c s Spalte durch Multiplikation mit auf (∗, 0)> . Die geeigneten Werte sind hier c = 2/3, −s c p s = 1/3, und wir erhalten p p ∗ p∗∗ 2 1√ 2/3 1/3 0 √ p p A2 = Q2 · A1 = − 1/3 2/3 0 · 2 3/ √2 = 0 p4/3 0 −1/ 2 0 0 1 0 − 1/2 8.2 Eigenwerte 111 Als nächstes transformieren wir das letzte Element der zweiten Spalte auf Null, und zwar mittels p p c = 9/88 und s = 3/11, also 1 p0 0 ∗ ∗∗ ∗ ∗∗ p p · 0 = 0 ∗ ∗ ∗ 9/88 3/11 A3 = Q3 · A2 = 0 p p p4/3 0 0 0 − 3/11 9/88 0 − 1/2 Die Matrix A3 is die gesuchte rechte obere Dreiecksmatrix, und durch Rückverfolgung der > > Rechenschritte sieht man A = Q · R wobei Q = (Q3 · Q2 · Q1 )−1 = Q> 1 · Q2 · Q3 ist. Ausführliche Algorithmen zur QR Zerlegung mittels Givensrotationen oder Housholdertransformationen findet man in den Lehrbüchern Orthonormale Basen und Fourierreihen In unseren Überlegungen zum Basiswechsel haben wir des öfteren folgende Tatsache benutzt, welche sofort aus den Definitionen von linearer Unabhängigkeit und Regularität folgt: Eine Menge {b1 , . . . , bn } ⊂ Rn ist eine Basis, genau dann wenn die Matrix B = [b1 , . . . , bn ], welche bk als Spalten (Zeilen) besitzt regulär ist. Da orthogonale Matrizen immer regulär sind, bilden deren Spalten also eine Basis. Diese besitzt aufgrund der Orthogonalität folgende Eigenschaften. Definition 8.44. Eine linear unabhängige Menge {b1 , . . . , bn } des Rn für die gilt hbk , bl i2 = 0, k 6= l, heißt orthogonale Basis des Rn . Gilt darüber hinaus noch kbk k2 = 1 für all 1 ≤ k ≤ n, so heißt die Basis orthonormal: kurz Orthonormalbasis. p P Zur Erinnerung: hx, yi2 = k xk yk und kxk2 := hx, xi2 bezeichnen das Euklid’sche Skalarprodukt und die zugehörige Norm. Den Zusammenhang mit orthogonalen Matrizen klärt der folgende Satz. Satz 8.45. Eine Matrix Q is orthogonal (unitär) genau dann wenn ihre Spalten {q1 , . . . , qn } eine orthonormale Basis bilden. Beweis. =⇒ : Q sei orthogonal. Dann ist Q insbesondere regulär (warum?), und die Spalten von Q bilden eine Basis. Zu zeigen bleibt deren Orthonormalität. Nach Definition des Matrixproduktes gilt n n X X > > [Q Q]kl = (Q )kj Qjl = Qjk Qjl = hqk , ql i2 . j=1 j=1 112 Determinanten und Eigenvektoren Aufgrund der Orthogonalität von Q ist aber Q> Q = E, und somit hqk , ql i2 = 1 falls k = l, und sonst 0. Also ist die Basis orthonormal. ⇐=: Ist die Basis orthonormal, so folgt aus obiger Gleichung Q> Q = E, also ist Q orthogonal. Die Basisentwicklung eines Vektors bzgl. einer orthonormalen Basis lässt sich besonders einfach ausrechnen, nämlich mittels −1 · x = Q> · x. Qx = Q Die k-te Koordinate von x bzgl. der Orthogonalmatrix (' Orthonormalbasis) Q ist dann gegeben durch [Q x]k = [Q> · x]k = [Q> ]k· · x = qk> · x = hqk , xi2 und der Vektor x kann als Linearkombination der Basiselement wie folgt dargestellt werden Definition 8.46. Sei Q eine orthogonale Matrix (' Orthonormalbasis). Dann lässt sich jeder Vektor x als Fourierreihe n X x= hqk , xi2 qk k=1 darstellen. Die Koordinaten (Q x)k = hqk , xi in der Entwicklung heißen Fourierkoeffizienten. Der Koordinatenvektor Q x heißt auch Fouriertransformierte von x, und die Abbildung x 7→ Q x heißt Fouriertransformation. Bemerkung 8.47. Der Begriff der Fouriertransformation wird häufig im Zusammenhang mit besonderen Basen des Cn bzw. von Funktionenräumen verwendet. Diese hängen dann mit sin und cos Funktionen zusammen Eine direkte Folgerung aus der Orthogonalität ist die folgende Regel. Satz 8.48 (Plancherel). Sei Q eine orthogonale Matrix (' Orthonormalbasis). Dann ist kQ vk2 = kvk2 , d.h., die Norm eines Vektors wird durch Fouriertransformation nicht verändert. Beweis. Wir berechnen hx, yi2 = x> · y = x> (Q · Q> · y) = (Q> · x)> · (Q> · y) = hQ> x, Q> yi2 . Aus der Definition der Euklidschen Norm k · k2 = p h·, ·i folgt kxk2 = kQ> xk2 = kQ xk2 . Bemerkung 8.49. Der Satz von Plancherel sagt sogar (wie im Beweis gezeigt), dass das Skalarprodukt unter (orthonormalen) Basiswechsel unverändert bleibt: d.h., der Winkel zwischen zwei Vektoren ändert sich nicht, wenn man zwischen zwei orthonormalen Koordinatensystemen wechselt. Man veranschauliche sich diesen Sachverhalt geometrisch bei Rotation des Koordinatensystems in R2 . 8.2 Eigenwerte 113 Norm linearer Abbildungen, Operatornorm Wie bereits erwähnt, bilden die Mengen Rm×n (Cm×n ) reelle (komplexe) Vektorräume. Auf diesen können wir wiederum Normen definieren. Satz 8.50. Die folgenden Vorschriften definieren jeweils Normen auf Rm×n bzw. Cm×n . P • Spaltenbetragssummennorm: |||A|||1 := max1≤j≤n m i=1 |Aij |. Pn • Zeilenbetragssummennorm: |||A|||∞ := max1≤i≤m j=1 |Aij |. Pm Pn 2 1/2 • Frobeniusnorm: |||A|||F := |A | . ij i=1 j=1 Für symmetrische (hermitesche, normale) Matrizen definieren wir weiter • Spektralnorm: |||A|||2 := max{|λ| : λ ∈ σ(A)}. Bemerkung 8.51. Die positive Definitheit sowie die Homogenität dieser Normen folgt sofort aus der Definition. Die Dreiecksungleichungen lassen sich jeweils auf entsprechende Aussagen für Vektornormen zurückführen. Z.B. gilt |||A|||1 = max 1≤j≤n n X |Aij + Bij | = max kA·j + B·j k1 1≤j≤n i=1 k·k1 ≤ max (kA·j k1 + kB·j k1 ) ≤ max kA·j k1 + max kB·j k1 = |||A|||1 + |||B|||1 . 1≤j≤n 1≤j≤n 1≤j≤n Die entsprechenden Ungleichungen für die anderen Normen zeigt man ähnlich; siehe Übung. Wichtig für später sind vor allem folgende Ungleichungen. Satz 8.52. Für die Vektor- und Matrixnormen kxk∗ und |||A|||∗ mit ∗ ∈ {1, 2, ∞} gelten folgende Ungleichungen: kAxk∗ ≤ |||A|||∗ kxk∗ und zwar für alle Matrizen A sowie alle Vektoren x. Weiters gilt kAxk2 ≤ |||A|||F kxk2 . Beweis. Für den Fall ∗ = 1 : Mit elementarer Rechnung erhält man kAxk1 = = m X , m n n X X 4-Ugl X X |(Ax)i | = | Aij xj | ≤ |Aij ||xj | i=1 n X m X i=1 j=1 i=1 j=1 |Aij | |xj | ≤ max 1≤j≤ Die anderen Fälle folgen ähnlich; siehe Übung. m X i=1 i=1 j=1 n X |Aij | |xj | = |||A|||1 kxk1 . j=1 114 Determinanten und Eigenvektoren Bemerkung 8.53. • Gilt die Ungleichung kAxk ≤ |||A||| kxk für alle x und A, dann heißt die Matrixnorm |||·||| verträglich mit der Vektornorm k · k. Obiger Satz beschreibt solche Paare verträglicher Normen. • Sei k · k eine Vektornorm. Dann definiert die Vorschrift |||A||| := sup x6=0 kAxk = max kAxk kxk=1 kxk eine Matrixnorm, die sogenannte Operatornorm. Diese heißt die zur Vektornorm k · k zugeordnete Matrixnorm. Aus der Definition folgt sofort, dass sie mit der Vektornorm verträglich ist! • Die Matrixnormen |||·|||∗ , ∗ ∈ {1, 2, ∞} sind jeweils die zu den Vektornormen k · k∗ zugeordneten Matrixnormen. Die Frobeniusnorm |||·|||F ist mit der Euklidschen Vektornorm k · k2 verträglich, aber nicht die zugeordnete Matrixnorm (man wähle A = E). • Die Spektralnorm lässt sich auch für nichtsymmetrische bzw. nicht quadratische Matrizen definieren, und zwar direkt über die Definition der Operatornorm. Beispiel 8.54. Wir wollen kurz zeigen, dass die Zeilenbetragssummennorm tatsächlich die zur k · k∞ Vektornorm zugeordnete Matrixnorm ist. Lösung: Wir bezeichnen mit |||A||| die zur Vektornorm k · k∞ gehörende Operatornorm, und mit |||A|||∞ die Zeilenbetragssummennorm. |||A||| ≤ |||A|||∞ : Aufgrund der Verträglichkeit von |||A|||∞ mit kxk∞ gilt |||A||| := max kAxk∞ ≤ max |||A|||∞ kxk∞ = |||A|||∞ . kxk∞ =1 kxk∞ =1 |||A|||∞ ≤ |||A|||: Wir konstruieren ein x für das die Gleichheit angenommen wird. Sei k die Zeile mit der maximalen Betragssumme, und definiere x = (x1 , . . . , xn ) mittels xj = Akj /|Akj | (bzw. = 0 falls Akj = 0 ist). Dann gilt |xj | = 1 (bzw. 0 falls Akj = 0 ist, also kxk∞ = 1 wenn A 6= 0), und weiter x=... |||A||| = max kAxk∞ ≥ kAxk∞ = max | kxk∞ =1 1≤i≤m n X j=1 x=... Aij xj | = m X |Akj | = |||A|||1 . j=1 Aus den beiden Ungleichungen folgt die Gleichheit der Normen für jede Matrix A! Aufgrund des Zusammenhangs zwischen linearen Abbildungen und Matrizen lassen sich die Begriffe wieder auf lineare Abbildungen zwischen Vektorräumen erweitern. Bemerkung 8.55. Seien V und W normierte Vektorräume. Dann ist die Menge L(V, W ) aller linearen Abbildungen zwischen V und W ein Vektorraum. Weiters definiert die Vorschrift o n kL(v)k kL(v)kW W : v ∈ V, v 6= 0 = sup kLkV →W = sup kvkV kvkV 06=v∈V 8.2 Eigenwerte 115 eine Norm auf L(V, W ), die sogenannte Operatornorm. L(V, W ) ist somit ein normierter Vektorraum. Man beachte, dass die Operatornorm von der Wahl der Normen für V und W abhängt! Aufgaben Aufgabe 8.1. Seien A, B ∈ Rn×n und λ ∈ R. Zeigen Sie per vollständiger Induktion, dass det(A − λB) ein Polynom in λ vom Grad kleiner gleich n ist. Bemerkung: Insbesondere folgt aus dem Induktionsschritt, dass χA (λ) ein Polynom vom Grad gleich n ist. Hinweis: Entwickeln Sie det(A − λB) nach der ersten Zeile mit dem Laplace’schen Entwicklungssatz. Aufgabe 8.2. Zeigen Sie, folgende Aussagen über elementare Zeilenumformungen: (i) Vertauschen von zwei Zeilen verändert das Vorzeichen der Determinante. (ii) Addieren des λ-fachen einer Zeile zu einer anderen ändert die Determinante nicht. Bemerkung: Lässt sich die Matrix A durch elementare Zeilenumformungen auf obere Dreiecksgestalt U (Zeilenstufenform) bringen, so ist det(A) = (−1)k det(U ), wobei k die Anzahl der Zeilenvertauschungen ist. Aufgabe 8.3. Zeigen Sie, dass für A ∈ Rn×n gilt: det(A) = 0 ⇔ Rang(A) < n. Aufgabe 8.4. Berechnen Sie die Determinanten der folgenden Matrizen a) mit dem Laplace’schen Entwicklungssatz, und b) durch Überführen auf Zeilenstufenform 0 0 −2 0 1 1 −1 −2 −1 −1 , B = A= −2 −1 1 1 0 −2 −2 2 2 2 (siehe A3). 1 −2 2 −1 −1 −2 1 2 1 1 −1 0 Aufgabe 8.5. Berechnen Sie die Eigenwerte und -vektoren der folgenden Matrizen: −2 1 −1 −1 −1 −1 , B = 1 −2 −1 . −1 1 −1 A= −1 −1 −2 −1 −1 1 Geben Sie die algebraischen und geometrischen Vielfachheiten der Eigenwerte an. 116 Determinanten und Eigenvektoren 9 Lineare Ausgleichsrechnung Gesucht ist die Lösung x eines Gleichungssystems f (x) = y, wobei y nur aus Messungen bekannt ist. In der Praxis beschreibt f : Rn → Rn oftmals eine physikalischen Zusammenhang zwischen m nicht direkt beobachtbaren Größen (Parametern) x und n Messwerten y. Um eine Bestimmung der Parameter zu ermöglichen sollte man hinreichend viele Messungen vornehmen, also können wir m ≥ n annehmen, d.h., das Gleichungssystem f (x) = y is überbestimmt. Da die Messungen y typischerweise mit Fehlern behaftet sind, gelingt es meist nicht die Gleichung f (x) = y exakt zu lösen. Man begnügt sich stattdessen damit, f (x) ≈ y möglichst gut zu erfüllen. Eine Möglichkeit besteht in folgendem Ausgleichsproblem: Finde x ∈ Rn : kf (x) − yk22 = min kf (x) − yk22 . x Die Quadrate kann man hier natürlich weglassen, und man schreibt dafür auch kurz: kf (x) − yk → min oder kf (x) − yk = min! Der Vektor r(x) = y − f (x) heißt Residuum der Gleichung f (x) = y. Das Ausgleichsproblem besteht also darin, die Euklidsche Norm des Residuums (=Summe der Residuenquadrate) zu minimieren. Die Methode heißt dementsprechend Methode der kleinsten Quadrate. Handelt es sich bei der Vorschrift f : x 7→ y um eine lineare Abbildung (also f (x) = A · x für eine Matrix A), so sprechen wir von linearem Ausgleichsproblem. In diesem Fall wollen wir also Ax ≈ y wie folgt lösen: Finde x ∈ Rn : kA · x − yk22 = min! Beispiel 9.1. Die Intensität der beim Zerfall eines radioaktiven Materials freiwerdenden Strahlung ist gegeben durch s(t) = s0 e−t/τ . Die Intensität s ist proportional zur ursprünglichen Menge radioaktiven Materials, und τ is die Halbwertszeit, d.h. jene Zeit die benötigt wird bis nur mehr der 1/e-te Teil der ursprünglichen Strahlung vorhanden ist. Ziel ist es, die Parameter s0 und τ aus Geigerzählermessungen sk = s(tk ), 1 ≤ k ≤ m zu bestimmen. Es handelt sich vorderhand um ein nichtlineare Ausgleichsproblem. Durch Logarithmieren erhält man den linearen Zusammenhang y(t) := log(s(t)) = log(s0 ) − t/τ = a + bt, a = log(s0 ), b = −1/τ. Ordnet man die Messungen zu verschiedenen Zeitpunkten tk nacheinander an, erhält man das 118 Lineare Ausgleichsrechnung überbestimmte lineare Gleichungssystem 1 t1 y1 1 t2 y2 a f (s0 , a) = .. .. ≈ .. . b . . . 1 tm ym Hat man a und b bestimmt, kann man mittels s0 = ea und τ = −1/b direkt auf die gesuchten Größen schließen. Beispiel 9.2. Die Fallkurve eines Objekts wird durch eine Parabel s(t) = s0 + v0 t + g2 t2 bestimmt. Wir wollen aus Messungen der Höhe sk ≈ s(tk ) zu bestimmten Zeitpunkten tk , 1 ≤ k ≤ m auf die Anfangshöhe s0 , die Anfangsgeschwindigkeit v0 und die Erdbeschleunigung g zurückschließen. Der Zusammenhang f : R3 → Rm , (s0 , v0 , g) 7→ (s(t1 ), s(t2 ), . . . , s(tm )) ist linear und lässt sich in Matrixschreibweise darstellen als t21 1 t1 s1 2 s t22 0 1 t2 s2 2 v ≈ f (s0 , v0 , g) = . . 0 . .. .. . · · · .. g 2 sm 1 tm t2m Bemerkung 9.3. • Ist die Matrix A regulär (also m = n und voller Rang), so ist die Lösung des Ausgleichsproblems eindeutig, und g gegeben durch x = A−1 y (warum?). • Ist n > m (mehr Unbekannte als Messungen), so besitzt das lineare Ausgleichsproblem keine eindeutige Lösung. • Eine Lösung des Ausgleichsproblems erfüllt nur dann die Gleichung Ax = y, wenn min kAx − yk = 0 ist, also die Messdaten genau reproduziert werden können. Falls m > n ist das typischerweise nicht der Fall (warum?). Wir werden im Rahmen der Analysis später zeigen, dass das lineare Ausgleichsproblem tatsächlich immer eine Lösung besitzt. Im folgenden stelle wir zwei Zugänge vor, wie die Lösung mit den bisher bekannten Mitteln zu berechnen ist. Normalgleichungen Satz 9.4. Der Vektor x ist genau dann Lösung des linearen Ausgleichsproblems kAx − yk2 → min, falls x die folgenden Normalgleichungen löst: A> Ax = A> y. Eine Lösung der Normalgleichungen (des Ausgleichsproblems) existiert in jedem Fall und falls A> A regulär ist, ist sie eindeutig. 119 Beweis. Sei x ∈ Rn so, dass kAx − yk2 = minz kAz − yk2 (wir werden später zeigen, dass so ein x auch tatsächlich existiert). Dann gilt für jedes v ∈ Rn kA(x + v) − yk2 = kAx − yk2 + 2hAv, Ax − yi + kAvk2 = kAx − yk2 + kAvk2 . ⇐: Ist A> Ax = A> y, dann ist mit v = z − y nach obiger Rechnung die Norm des Residuums kAz − yk2 = kAx − yk2 + kA(z − x)k2 an jeder Stelle z größer (oder gleich) als an der Stelle x. Das Minimum wird also bei x angenommen. ⇒: Ist A> Ax 6= A> y, dann wähle v = t(A> (y − Ax)) mit t 6= 0. Dann gilt kA(x + v) − yk2 = kAx − yk2 − 2tkA> (y − Ax)k2 + t2 kAA> (y − Ax)k2 Ist kAA> (y − Ax)k = 0, wählen wir t = 1 und erhalten, dass das Minimum nicht bei x angenommen wird. Andernfalls wählen wir t = kA> (y − Ax)k2 /kAA> (y − Ax)k2 und erhalten kA(x + v) − yk2 = kAx − yk2 − kA> (y − Ax)k2 /kAA> (y − Ax)k2 < kAx − yk2 , also kann wiederum x nicht Lösung des Ausgleichsproblems sein. Für die Behauptung, dass die Normalgleichungen A> Ax = A> y immer lösbar sind (auch wenn A> A nicht regulär ist), verwenden wir die QR Zerlegung. Es gilt dann A> Ax = R> Q> QRx = R> Rx und A> y = R> Q> y. Die Normalgleichungen sind also äquivalent zum Gleichungssystem R> Rx = R> y. Dass diese immer eindeutig lösbar ist, sieht man leicht; Übung. Bemerkung 9.5. Falls A regulär ist, erhält man A> Ax = A> y ⇔ Ax = y ⇔ kAx − yk = 0 (warum?), womit die Aussage in diesem Fall gezeigt wäre. Beispiel 9.6. Die Messpunkte (xk , yk ) ∈ {(0, 3), (1, 0), (2, −1), (3, 0)} sollen durch eine Gerade f (x) = a + bx möglichst gut (im Sinne kleinster Fehlerquadrate) approximiert werden. Lösung: Für jeden Messpunkt erhält man eine lineare Gleichung a + bxk ≈ yk für die Unbekannten a und b. Das liefert f (0) 1 0 3 f (1) 1 1 a 0 f (2) = 1 2 b ≈ −1 . f (3) 1 3 1 1 1 1 1 Durch Multiplizieren mit erhält man die Normalgleichungen 0 1 2 3 4 6 a 3 = . 6 14 b 1 Die eindeutige Lösung lautet a = 18/10, b = −7/10. Die “Ausgleichsgerade” ist somit gegeben durch f (x) = (18 − 7x)/10. Man visualisiere sich das Ergebnis. 120 Lineare Ausgleichsrechnung Lösung mittels QR-Zerlegung Ein weiterer Lösungsweg besteht darin, das Problem durch geeignete Transformation einfacher zu machen. Sei A = QR die QR-Zerlegung von A. Da Q und Q> orthogonal sind, gilt nach der Plancherel-Formel kQ> rk = krk für jedes r. Also kAx − yk2 = kQ> (Ax − y)k2 = kQ> QRx − Q> yk2 = kRx − Q> yk2 Das Ausgleichsproblem ist daher äquivalent zum Minimierungsproblem kRx − Q> yk → min . Man beachte: Es handelt sich dabei wiederum um ein Ausgleichsproblem! Die Lösung ist hier allerdings einfach zu berechnen. Wir definieren Q> y = b, und spalten von R die Nullzeilen ab. Das liefert b1 R11 R12 R13 · · · R1n b2 0 R22 R23 · · · R2n x1 b̃ . . x .. .. .. R̃ > . . . 2 . 0 0 Rx − Q y = ·x− = − 0 b̂ 0 ··· ··· 0 ... bk+1 0 .. .. .. .. .. .. . . . . . . In diesem Beispiel hat R gerade k nicht Nullzeilen, also Rang(R) = k. Aus der Gleichung ist folgendes ersichtlich: • Das Residuum der ersten k Gleichungen kann durch geschickte Wahl von x auf Null gebracht werden. • Die Residuen bk+1 , . . . , bm sind von der Wahl von x unabhängig. Als Konsequenz erhalten wir direkt die folgende Aussage. Satz 9.7. Sei A = QR die QR-Zerlegung von A, k = Rang(R) und b = Q> y. Dann sind die Lösungen des Ausgleichsproblems kAx − yk2 → min charakterisiert durch das GLS R̃x = b̃, wobei R̃ und b̃ aus den ersten k Zeilen von R und b bestehen. Weiters gilt min kAx − yk2 = min kRx − bk2 = kb̂k2 , wobei b̂ = (bk+1 , . . . , bm )> aus den verbleibenden Einträgen von b besteht. Aufgaben 1 (1, −2, 10)> , v3 = √121 (2, −4, −1)> orthoAufgabe 9.1. Seien v1 = √15 (2, 1, 0)> , v2 = √105 normale Vektoren im R3 . Berechnen Sie die Fouriertransformierte der Vektoren (1, 0, 0)> und (1, 2, 3)> , und vergleichen Sie die k · k2 -Norm der Vektoren mit denjenigen der Fouriertransformierten. 121 3 5 0 2 Aufgabe 9.2. Rotieren Sie die Matrix 0 0 jeweils mittels Givensrotationen bzw. House4 5 holdertransformationen auf rechte obere Dreiecksgestalt. Aufgabe 9.3. Gegeben seien die folgenden Messdaten t y 0 3 1 2.14 2 1.86 3 1.72 bei denen der Zusammenhang 1 +β 1+t vermutet wird, α, β ∈ R. Stellen Sie das zugehörige lineare Ausgleichsproblem zur Bestimmung von α und β auf, d.h. bestimmen Sie A, x und b, so daß y = f (t) = α Ax ≈ b. Aufgabe 9.4 (Bestimmung der Gravitationskonstanten). Wir lassen einen Gegenstand aus 5 Metern Höhe fallen und messen die Zeit bis zum Aufprall. Dabei haben wir folgende Zeiten (in Sekunden) ermittelt: 1 Versuch Zeit 0.9304 2 1.0393 3 0.9749 4 0.9853 5 1.0451 6 0.9937 7 1.0447 8 1.0214 9 0.9943 10 1.0039 Bestimmen Sie mit Hilfe der linearen Ausgleichsrechnung die Gravitationskonstante g, die den Zusammenhang s(t) = g2 t2 zwischen zurückgelegter Strecke und Fallzeit beschreibt. Aufgabe 9.5. Seien A, B ∈ Rn×n und x ∈ Rn . Zeigen Sie (i) kAxk∞ ≤ kAk∞ kxk∞ und (ii) kA + Bk∞ ≤ kAk∞ + kBk∞ . 122 Lineare Ausgleichsrechnung 10 Konvergenz von Folgen In diesem Kapitel befassen wir uns mit Folgen und deren Konvergenz. Diese bilden einen wesentlichen Grundstein für die Analyse von Funktionen in den nächsten Kapiteln. Die wesentlichen Begriffe werden zunächst anhand von reellen Folgen eingeführt, und auf Folgen in Vektorräumen verallgemeinert. Definition 10.1. Eine Abbildung N → R heißt reelle Folge. Wir bezeichnen mit an das n-te Folgenglied (den Funktionwert an der Stelle n), und schreiben (an )n∈N , (an )n≥1 oder kurz (an ) für die Folge. Bemerkung 10.2. Die Definition von (reellen) Folgen kann durch Angabe einer Vorschrift, rekursiv, oder durch Aufzählung erfolgen, z.B. • an = 1/(1 + n), bn = n!, cn = sin(n) • a0 = 1 und an = n · an−1 für n ≥ 1. • an = (1, 2, 3, 4, 5, . . .). Manchmal lässt man den Index n auch bei 0 beginnen. Definition 10.3. Existiert für die reelle Folge (an ) eine Zahl a ∈ R sodass ∀ > 0 ∃n0 ≥ 1 ∀n ≥ n0 : |an − a| < dann heißt die Folge (an ) konvergent, sonst divergent. a heißt Grenzwert oder Limes der n→∞ Folge (an ), und man schreibt a := limn→∞ an oder an −−−→ a und sagt (an ) konvergiert gegen a. Bemerkung 10.4. Für > 0 heißt das Intervall U (a) := (a − , a + ) eine -Umgebung von a. Für eine konvergente Folge liegen also in jeder beliebig kleinen -Umgebung von a fast alle (alle bis auf die ersten n0 − 1) Folgenglieder. Man beachte, dass n0 von abhängen darf! Satz 10.5. Der Grenzwert einer konvergenten Folge ist stets eindeutig bestimmt. Beweis. Angenommen, a 6= a0 wären zwei unterschiedliche Grenzwerte. Wir setzen = |a − a0 |/3 und erhalten nach Definition ein n0 und n00 , sodass |a − an | < und |a0 − an | < für all n ≥ max{n0 , n00 }. Dann gilt für alle n ≥ max{n0 , n00 } nach der Dreiecksungleichung 3 = |a − a0 | ≤ |a − an | + |a0 − an | < + = 2, 124 Konvergenz von Folgen also erhalten wir nach Kürzen von > 0 einen Widerspruch. Es kann somit keine zwei unterschiedlichen Grenzwerte geben. Geometrische Deutung der Konvergenz von Folgen Beispiel 10.6. Einige wichtige Folgen und ihre Grenzwerte sind: (i) limn→∞ 1 n = 0 (vgl. Archimedisches Prinzip Satz 2.32). (ii) Die konstante Folge definiert durch an = c konvergiert gegen c. (iii) Für alle q mit |q| < 1 gilt limn→∞ q n = 0 (geometrische Folge). √ √ (iv) n n → 1 und n a → 1 für a > 0. (v) nk /xn → 0 für x > 1 und k ≥ 0 (polynomiales vs. exponentielles Wachstum). Beweis. (i) Die Menge der natürlichen Zahlen ist aufsteigend und nach oben unbeschränkt. Also existiert für jedes > 0 ein n0 ∈ N sodass n > 1/ =: C gilt. Durch Umrechnen erhält man |1/n − 0| = 1/n < für alle n ≥ n0 , was die Konvergenz für (i) zeigt. (ii) ist trivial; siehe Übung. (iv) wird später mit dem Sandwichlemma bewiesen. (v) durch Induktion nach k, siehe auch Beispiel 11.25. Bemerkung 10.7. Eine Folge mit Grenzwert 0 heißt Nullfolge. Für divergente Folgen machen wir noch folgende Fallunterscheidungen. Wir schreiben • limn→∞ an = ∞, falls für jedes c ∈ R fast alle Folgenglieder ≥ c sind. • limn→∞ an = −∞, falls für jedes c ∈ R fast alle an kleiner gleich c sind, und nennen in diesen Fällen ∞ oder −∞ uneigentlichen Grenzwert der Folge (an ). Allgemeiner heißt eine Folge mit |an | → ∞ bestimmt divergent. Beispiel 10.8. • Die Folge √ n n! “konvergiert” gegen ∞. • an := (−1)n divergiert, ist aber nicht bestimmt divergent. 125 Berechnung von Grenzwerten Definition 10.9. Gibt es ein C mit |an | ≤ C für alle n so heißt die Folge (an ) beschränkt. Bemerkung 10.10. Die Folge (an ) ist genau dann beschränkt, wenn ihr Bild {an : n ∈ N} beschränkt ist. Satz 10.11. Jede konvergente Folge (an ) ist auch beschränkt. Beweis. Falls (an ) konvergent ist, gibt es ein a und ein n0 ≥ 1, sodass |a − an | < 1 für alle n ≥ n0 , woraus mit Dreiecksungleichung |an | ≤ |a| + |an − a| < |a| + 1 folgt. Dann gilt aber für alle n ≥ 1, dass |an | ≤ max{|a0 |, |a1 |, . . . , |an0 −1 |, |a| + 1} =: C. Bemerkung 10.12. Wie die Folge an = (−1)n zeigt, gilt die Umkehrung des Satzes nicht! Satz 10.13. Seien (an ) und (bn ) reelle Folgen mit Grenzwerten a und b. Dann gilt (i) an + bn → a + b, (ii) an · bn → a · b, (iii) an /bn → a/b, falls bn , b 6= 0. Beweis. (i) Sei n0 so, dass für gegebenes > 0 gilt |an − a| < /2 und |bn − b| < /2. Dann ist |(an + bn ) − (a + b)| ≤ |an − a| + |bn − b| < /2 + /2 = . Das zeigt, dass (an + bn ) gegen (a + b) konvergiert. Die anderen Aussagen folgen ähnlich; siehe Übung. Beispiel 10.14. • Die Folge an := c + 1/n konvergiert gegen c. • Sei (an ) konvergent und (bn ) eine Nullfolge. Dann ist (an · bn ) eine Nullfolge. • Seien a, b > 0. Dann konvergiert die Folge (a + n1 )/(b + n1 ) gegen a/b. Durch elementares Umformen lassen sich die Rechenregeln entsprechend erweitern. Beispiel 10.15. • Die Folge 1/(n + 1) konvergiert ebenfalls gegen 0. Es gilt nämlich 1 · 1 → 0. n 1+1/n 1 n+1 = 1 n(1+1/n) = • Ähnlich zeigt man: Sind p(x) = a0 + a1 x + . . . + am xm und q(x) = b0 + b1 x + . . . bm xm Polynome vom Grad m, und gilt bm 6= 0. Dann gilt p(n)/q(n) → am /bm ; siehe Übung. Satz 10.16. Die reelle Folge (an ) konvergiere gegen a. Dann gilt (i) |an | → |a|. m (ii) am für alle m ∈ N. n → a √ √ (iii) m an → m a, m ≥ 1, falls an ≥ 0 für alle n. 126 Konvergenz von Folgen Beweis. (i) Nach der zweiten Dreiecksungleichung gilt |an | − |a| ≤ |an − a|, woraus die Konvergenz relativ einfach folgt. (ii) Folgt durch wiederholtes Anwenden der Formel für Produkte von Grenzwerten mit vollständiger Induktion; siehe Übung. √ √ (iii) Für m = 2 erhalten wir im Fall a > 0: am − a = (am − a) √am1+√a . Der erste Faktor konvergiert nach √ Annahme gegen 0, und der zweite Faktor ist beschränkt für m 1. Hieraus √ folgt am − a → 0. Fall a = 0: Sei > 0. Nach Voraussetzung: ∃M ∈ N∀m ≥ M : |am | < 2 . √ Die Monotonie der Wurzel ergibt am < . Der allgemeine Fall kann ähnlich gezeigt werden; wir erbringen später einen Beweis im Rahmen stetiger Funktionen. In manchen Fällen kann man zeigen, dass ein Grenzwert existiert, ohne diesen wirklich zu berechnen. Wir verwenden hierzu folgende Eigenschaft. Definition 10.17. Eine Folge (an ) mit an+1 ≥ an (bzw. an+1 ≤ an ) für alle n heißt monoton wachsend (monoton fallend); gilt einer der beiden Fälle so heißt sie monoton. Gelten die Ungleichungen jeweils mit > oder <, so nennt man sie streng monoton. Bemerkung 10.18. Wir werden Folgen auch dann als monoton bezeichnen, falls die Monotonieeigenschaft nur für fast alle Folgenglieder (alle, bis auf die ersten n0 Glieder) gilt. Die ersten paar Folgenglieder spielen bei Grenzwertbetrachtungen keine Rolle! Beispiel 10.19. • (1/n)n≥1 ist streng monoton fallend. • Die Folge an = q n ist für q > 1 streng monoton wachsend, und für 0 < q < 1 streng monoton fallend. Für q = 0 oder q = 1 ist sie sowohl monoton wachsend als auch monoton fallend, und für q < 0 ist sie nicht monoton. Die Monotonie von Folgen erleichtert den Nachweis ihrer Konvergenz. Satz 10.20. Die reelle Folge (an ) sei monoton und beschränkt. Dann konvergiert sie auch. Beweis. Da (an ) beschränkt ist, ist auch das Bild M := {an : n ∈ N} der Folge beschränkt. Die Menge M besitzt somit eine größte untere und eine kleinste obere Schranke inf M und sup M . Wir nehmen an, dass (an ) monoton wachsend ist, und zeigen, dass dann an → sup M : Nach Definition des Supremums kann für jedes > 0 ein an0 ∈ M gefunden werden, sodass an0 > sup M − (sonst wäre sup M − auch obere Schranke!). Aufgrund der Monotonie gilt dann sup M − < an0 ≤ an ≤ sup M für alle n ≥ n0 , also |an − sup M | < für alle n ≥ n0 . Das zeigt die Konvergenz für den Fall dass (an ) monoton wächst. Im anderen Fall konvergiert (an ) gegen inf M ; siehe Übung. 127 Skizze zum Beweis von Satz 10.20. Als Folgerungen erhält man sofort weitere Rechenregeln für Grenzwerte. Satz 10.21 (Schrankensatz). Ist (an ) konvergent, und b ≤ an ≤ c für alle n ∈ N. Dann gilt auch b ≤ lim an ≤ c. Beispiel 10.22. Man kann mit Induktion zeigen, dass die Folgenglieder an := (1 + 1/n)n im Intervall [2, 3] liegen, und die Folge monoton wachsend ist. Die Folge konvergiert also und der Grenzwert liegt im Intervall [2, 3]. e := lim(1 + 1/n)n ≈ 2.7183 heißt Euler’sche Zahl, vgl. auch Beispiel 11.22 und (2.3). Satz 10.23 (Sandwichsatz). Sind (bn ) und (cn ) konvergent mit lim bn = lim cn , und bn ≤ an ≤ cn für alle n ∈ N. Dann ist auch (an ) konvergent, und lim bn = lim an = lim cn . Beweis. Sei a := lim bn = lim cn . Aus der Konvergenz von (bn ) und (cn ) und den Schranken an an folgt, dass es für jedes > 0 ein n0 ≥ 1 gibt, sodass a − ≤ bn ≤ an ≤ cn ≤ a + , ∀n ≥ n0 , was die Konvergenz von an gegen a zeigt. √ n Beispiel 10.24. Wir zeigen, dass n → 1. √ n Lösung: Für alle n ≥ 1 gilt n ≥ 1. Nach der Binomischen Formel und der Definition der n-ten Wurzel gilt n n X √ √ n √ n √ n k n n n ( n − 1) ≥ n = ( n) = 1 + ( n − 1) = ( n n − 1)2 . k 2 k=0 Umformen liefert 1≤ √ n s n≤1+ p n n/ = 1 + 2/(n − 1). 2 Die rechte Seite konvergiert gegen 1, und die Behauptung folgt nun aus dem Sandwichsatz. Bemerkung 10.25. Zum Berechnen der Grenzwerte von rekursiv definierten Folgen kann man folgenden Trick verwenden: Sei an+1 = f (an ) für eine vernünftige “Vorschrift” f . Falls (an ) konvergiert, so lässt sich daraus oft herleiten, dass der Grenzwert a die Gleichung a = f (a) erfüllen muss. Diese Gleichung kann dann zur Bestimmung des Grenzwertes verwendet werden. 128 Konvergenz von Folgen Beispiel 10.26. Man überprüfe die Folge an+1 = (an + 2/an )/2, n ≥ 1, a1 = 1 auf Konvergenz und bestimme den Grenzwert. Lösung: 1) Wir bestimmen zuerst einen Kandidaten für den Grenzwert. Falls (an ) gegen a konvergiert, so gilt an+1 → a und (an + 2/an )/2 → (a + 2/a)/2. Durch √ Umformen sieht man, 2 dass der Grenzwert die Gleichung a =√2 erfüllen muss, d.h. a = ± 2. Da die Folgenglieder immer positiv bleiben, kommt nur a = 2 als Grenzwert in Frage. 2) Wir überprüfen nun auf Konvergenz: Die ersten Folgenglieder sind (1, 3/2, 17/12, . . .). Man √ kann mit Induktion zeigen, dass 2 ≤ an+1 ≤ an für alle n ≥ 2 gilt (siehe Übung). Die Folge fällt √ ab dem zweiten Glied monoton und ist beschränkt; daher hat sie einen Grenzwert (nämlich 2). Cauchy-Folgen und Vollständigkeit Definition 10.27. Eine Folge (an ) heißt Cauchy-Folge (kurz: Cauchy), falls ∀ > 0 ∃n0 ∈ N ∀m, n ≥ n0 : |an − am | < . Cauchy-Folgen sind wiederum beschränkt (siehe unten). Es besteht folgender Zusammenhang zu konvergenten Folgen. Satz 10.28. Für jede reelle Folge gilt: (an ) konvergent ⇔ (an ) Cauchy. Beweis. ⇒: Für gegebenes > 0 wähle man n0 so, dass |an − a| < /2 für alle n ≥ n0 gilt. Dann folgt aus der Dreiecksungleichung |an − am | ≤ |an − a| + |am − a| < /2 + /2 = für alle m, n ≥ n0 . ⇐: Aus der Cauchy Bedingung folgt, dass |an | ≤ |an0 | + |an − an0 | < |an0 | + 1 für ein n0 hinreichend groß. Somit ist (an ) beschränkt. Ebenso sind dann die Folgen bn := inf{am : m ≥ n} und cn := sup{am : m ≥ n} beschränkt. Weiters ist (bn ) monoton wachsend und (cn ) monoton fallend, also existieren die Grenzwerte b = lim bn und c = lim cn . Weiters gilt nach der Cauchy Eigenschaft von (an ) und der Monotonie der Folgen (bn ), (cn ), dass |c − b| ≤ |cn − bn | < für alle n ≥ n0 . Da beliebig war, folgt c = b und mit dem Sandwichsatz die Konvergenz von (an ). Bemerkung 10.29. Für den Beweis wurden Infimum und Supremum, und somit auch das Vollständigkeitsaxiom für reelle Zahlen verwendet! Man kann zeigen, dass das Vollständigkeitsaxiom (V) für reelle Zahlen äquivalent ist zu folgender Aussage: (V’) Jede reelle Cauchy-Folge (an ) besitzt einen Grenzwert a ∈ R. Wir werden diese Charakterisierung unten dazu verwenden, um Vollständigkeit von C, Rn , Cn und allgemeinen endlich dimensionalen Vektorräumen zu definieren. 129 Häufungspunkte und Teilfolgen Definition 10.30. Sei 1 ≤ k1 < k2 < . . . eine aufsteigende Folge natürlicher Zahlen und an eine reelle Folge. Dann heißt (a0n ) definiert durch a0n := akn Teilfolge von (an ). Wir schreiben hierfür auch (akn ). Bemerkung 10.31. Eine Teilfolge (a0n ) entsteht durch Streichen mancher Folgenglieder in (an ). Jede Folge besitzt also viele Teilfolgen! Definition 10.32. Jeder Grenzwert a0 = lim a0n einer konvergenten Teilfolge (a0n ) von (an ) heißt Häufungspunkt von (an ). Bemerkung 10.33. Man überzeugt sich leicht, dass in jeder -Umgebung eines Häufungspunktes a0 unendlich viele Folgenglieder von (an ) liegen, was den Namen erklärt. Beispiel 10.34. Die Folge (an )n≥1 := (−1)n n≥1 besitzt die konstanten Teilfolgen (a0n )n≥1 := (−1)2n n≥1 sowie (a00n )n≥1 := (−1)2n+1 n≥1 . Dementsprechend sind a0 = 1 und a00 = −1 Häufungspunkte von (an ). Es gibt keine weiteren (warum?) Konvergente Folgen können nur einen Häufungspunkt besitzen. Satz 10.35. Konvergiert (an ), dann konvergiert jede Teilfolge (a0n ) und lim an = lim a0n . Beweis. Nach Definition der Teilfolge gilt a0n = akn mit kn ≥ n. Aus der Konvergenz von (an ) folgt, dass für jedes > 0 ein n0 ∈ N existiert mit |an − a| < ∀n ≥ n0 . Da kn ≥ n, folgt |a0n − a| = |akn − a| < , ∀n ≥ n0 , was die Konvergenz der Teilfolge zeigt. Über die Existenz von Häufungspunkten lässt sich Folgendes sagen: Satz 10.36 (Bolzano-Weierstrass). Jede beschränkte reelle Folge (an ) hat einen Häufungspunkt. Beweis. Sei [A1 , B1 ] ein Intervall, in dem alle Folgenelemente liegen. Wir wählen a01 = a1 . n ≥ 1 : Sei Mn := (An + Bn )/2. Liegen im Intervall [An , Mn ] unendlich viele Folgenelemente, so setzen wir An+1 = An , Bn+1 = Mn , andernfalls definieren wir An+1 = Mn und Bn+1 = Bn . Wir wählen a0n+1 als das Element von (an ) in [An+1 , Bn+1 ] mit minimalem Index. Die konstruierte Folge (a0n ) ist eine Teilfolge von (an ), und es gilt a0m ∈ [An , Bn ] für alle m ≥ n. Daraus folgt |an − am | ≤ (Bn0 − An0 ) ≤ ( 21 )n0 (B1 − A1 ), ∀m, n ≥ n0 . Die Teilfolge (a0n ) ist also Cauchy, und als reelle Cauchy-Folge auch konvergent. Bemerkung 10.37. Für eine beschränkte Folge (an ) ist auch die Menge der Häufungspunkte beschränkt (warum?). Folglich existieren 130 Konvergenz von Folgen • lim sup an := größter Häufungspunkt von (an ) (limes superior) • lim inf an := kleinster Häufungspunkt von (an ) (limes inferior) Wie für Grenzwerte definieren wir auch wieder uneigentliche Häufungspunkte ±∞. Beispiel 10.38. Die durch an := (−1)n + 1/n definierte Folge besitzt die Häufungspunkte −1 und 1. Es gilt lim sup an = 1 und lim inf an = (−1). Andererseits ist inf{an : n ∈ N} = −1 und sup{an : n ∈ N} = 3/2. Man überzeugt sich des weiteren leicht, dass eine Folge genau dann nach oben (unten) beschränkt ist, wenn lim sup an < ∞ (lim inf an > −∞) gilt. Folgen in allgemeinen Vektorräumen Definition 10.39. Sei V ein Vektorraum. Eine Abbildung a : N → V heißt Folge in V . Wir schreiben wiederum (an ), (an )n≥1 oder (an )n∈N . Beispiel 10.40. • Die Vorschriften an := (1 − 1/n, 1/n), bn := (sin(n), cos(n)) definieren Folgen in R2 . • Die Menge der Funktionen f : R → R bildet einen Vekktorraum über R. Die Vorschrift an : R → R, x 7→ sin(nx) definiert eine Folge von Funktionen. Bemerkung 10.41. Die Menge M = {a : N → V } von Folgen über einem K-Vektorraum V bildet selbst wieder einen Vektorraum über K. Viele Sätze über reelle Folgen lassen sich sofort auf vektorwertige Folgen übertragen. Um den Begriff der Konvergenz zu definieren, brauchen wir zunächst ein Abstandsmaß. Definition 10.42. Sei (V, k · k) ein normierter Raum. Eine Folge (an ) in V heißt konvergent, wenn es ein a ∈ V gibt, sodass ∀ > 0 ∃n0 ∈ N ∀n ≥ n0 : ka − an k < . Beispiel 10.43. Wir statten V = R2 mit der Norm kvk∞ := max{|v1 |, |v2 |} aus. Dann konvergiert die Folge (1 − 1/n, 1/n) gegen (1, 0). Beispiel 10.44. Sei q ∈ Z mit |q| < 1. Dann konvergiert die komplexe Folge zn = q n gegen 0. Eine wesentliche Erleichterung der Konvergenzbetrachtungen bringt die folgende Aussage. Satz 10.45 (Normäquivalenz). Sei V ein endlich-dimensionaler Vektorraum (z.B. Rn ), und k · k1 , k · k2 beliebige Normen auf V . Dann gibt es Konstanten c, C > 0 mit ckvk1 ≤ kvk2 ≤ Ckvk1 Die Normen k · k1 und k · k2 heißen äquivalent. für all v ∈ V. 131 Auf endlich dimensionalen Vektorräumen sind also alle Normen äquivalent. Dies gilt allerdings nicht für unendlich dimensionale Vektorräume! Beispiel 10.46. Auf V = Rn gilt kvk1 = X |vi | ≤ n max |vi | = nkvk∞ sowie kvk∞ = max |vi | ≤ X |vi | = kvk1 . Es gilt daher kvk∞ ≤ kvk1 ≤ nkvk∞ , d.h. Äquivalenz mit Konstanten c = 1 und C = n. Man beachte dass die Konstante degeneriert wenn die Dimension n gegen unendlich geht. Bemerkung 10.47. Eine Folge (an ) in einem endlich dimensionalen Vektorraum V konvergiert (divergiert) bezüglich einer Norm k · k1 genau dann, wenn sie auch bezüglich jeder anderen Norm k · k2 konvergiert (divergiert). Bei Konvergenzbetrachtungen können wir uns also die Norm aussuchen. Satz 10.48. Eine Folge in Rn (Cn ) konvergiert genau dann, wenn jede Komponente konvergiert. Beweis. Wir wählen als Norm die Maximumsnorm kvk∞ = max |vi |. Die Konvergenz von Folgen in Rn (Cn ) kann mit diesem Satz auf Konvergenz von reellen (komplexen) Folgen (der Komponenten) zurückgeführt werden. Die Rechenregeln für Grenzwerte lassen sich daher sofort auf Folgen in allgemeineren Vektorräumen übertragen. Beispiel 10.49. Seien (an ), (bn ) konvergente Folgen im endlich dimensionalen Vektorraum V mit Grenzwerten a, b, und λn eine konvergente reelle Folge mit Limes λ. Dann gilt (an + bn ) → a + b und λn · an → λ · a. Ist λn 6= 0 für alle n und λ 6= 0, dann gilt auch an /λn → a/λ. Definition 10.50. Eine Folge (an ) in einem normierten Raum (V, k · k) heißt Cauchy-Folge, wenn ∀ > 0 ∃n0 ∈ N ∀m, n ≥ n : kam − an k < . Die Betrachtungen über reelle Cauchy-Folgen motivieren den folgenden Begriff. Definition 10.51. Sei (V, k · k) ein normierter Raum (nicht notwendigerweise endlich dimensional!). Dann heißt V vollständig, wenn jede Cauchy-Folge in V auch einen Grenzwert in V besitzt, d.h. in V konvergiert. Ein vollständiger normierter Raum heißt Banachraum. Beispiel 10.52. 132 Konvergenz von Folgen • Die Menge R der reellen Zahlen bildet mit | · | einen normierten Vektorraum. Die Vollständigkeit von R wurde oben gezeigt (alle Cauchy-Folgen konvergieren!). • Rn bildet mit jeder Norm einen vollständigen normierten Raum. Ist eine Folge Cauchy bzgl der Norm k · k, dann aufgrund der Normäquivalenz auch bzgl k · k∞ . Also sind die Komponentenfolgen reelle Cauchyfolgen, und Grenzwerte der Komponentenfolgen sind die Komponenten des Grenzwertes. • C ist mit | · | ein vollständiger Vektorraum; ebenso Cn . Hierzu identifiziert man eine Zahl z ∈ C mit (Re z, Im z) ∈ R2 , und verwendet die Aussagen über Rn . Beispiel 10.53. • Die Menge Q der rationalen Zahlen bildet einen Q-Vektorraum, der wieder mit |·| normiert werden kann. Q ist aber nicht vollständig. Die Folge (1, 1.4, 1.41, 1.414, 1.4142, . . .) ist eine √ Cauchy-Folge. Der Grenzwert 2 liegt aber nicht in Q! • Der Raum C[0, 1] von stetigen reellwertigen Funktionen auf dem Intervall [0, 1] bildet einen unendlich dimensionalen Vektorraum über R. Wir werden später zeigen, dass dieser mit der Norm kf k∞ := supx∈[0,1] |f (x)| vollständig ist. Bzgl der Norm kf k2 := qR 1 |f (x)|2 dx ist der Raum allerdings nicht vollständig! 0 Bemerkung 10.54. Als Verallgemeinerung obiger Beispiele erhalten wir, dass jeder endlich dimensionale Vektorraum über R oder C vollständig ist. Beispiel 10.55. Die Menge Πn der Polynome vom Grad ≤ n bildet eine (n + 1)-dimensionalen Vektorraum (Basis (x0 , x1 , x2 , . . . , xn )). Dieser Raum ist mit jeder Norm vollständig. Aufgaben Aufgabe 10.1. Berechnen Sie die Grenzwerte von (i) an := (ii) an := 2n2 +2n−4 , n2 −1 n n+1 − n ≥ 2. n . n+3 n2 −1 Aufgabe 10.2. Ab welchem n0 ∈ N gilt n2 +1 − 1 < 1 100 für alle n ≥ n0 ? Aufgabe 10.3. Seien a, b ≥ 0. Zeigen Sie mit Hilfe des Sandwichlemmas, dass max{a, b} für √ n → ∞. Hinweis: n 2 → 1. √ n an + b n → Aufgabe 10.4. Seien (an ) und (bn ) konvergente reelle Folgen mit limn→∞ an = a und limn→∞ bn = b für a, b ∈ R. Zeigen Sie mit Hilfe der Definition der Konvergenz von Folgen, dass lim an bn = ab. n→∞ 133 Aufgabe 10.5. Seien m ∈ N und (an ) eine konvergente Folge reeller Zahlen mit an → a für m für n → ∞. n → ∞. Zeigen Sie mit Hilfe vollständiger Induktion: am n → a Aufgabe 10.6. Untersuchen Sie auf Konvergenz und bestimmen Sie gegebenenfalls den Grenzwert: a0 := 21 , an+1 := a2n +2 , 3 n ∈ N. Aufgabe 10.7. Sei (an )n eine konvergente Folge nicht-negativer reeller Zahlen. Zeigen Sie limn→∞ an ≥ 0. 134 Konvergenz von Folgen 11 Reihen Definition 11.1. Sei (an ) eine reelle Folge. Wir definieren durch s 1 = a1 , s 2 = a1 + a2 , ... sn = Xn k=1 ak P eine Folge (sn ) von Partialsummen. Mit dem Symbol ∞ k=1 ak bezeichnen wir zum einen die Partialsummenfolge (s ) als auch (falls existent) ihren Grenzwert s := lim sn , und wir nennen n P∞ k=1 ak eine Reihe, und s den Wert der Reihe. Oftmals lässt man die Reihe auch mit dem Index 0 beginnen. Da eine Reihe über die Partialsummenfolge definiert ist, lässt sich der Begriff der Konvergenz einer Reihe aus dem für Folgen ableiten. P∞ Definition 11.2. Eine Reihe k=1 ak heißt konvergent, genau dann wenn Pdie PartialsummenP folge ( nk=1 ak ) konvergiert; sonst divergent. Wir schreiben lim sn = s = ∞ k=1 ak . Bemerkung 11.3. Ist die Partialsummenfolge (sn ) bestimmt divergent, so nennen wir auch die Reihe bestimmt divergent. P∞ n Beispiel 11.4. Die geometrische Reihe n=0 q ist für |q| < 1 konvergent, und es gilt P∞ n 1 k=0 q = 1−q . P n+1 Beweis: Mit Induktion zeigt man sn = nk=0 = q q−1−1 (vgl. Aufgabe 2.2), und die Aussage folgt, da q n → 0 für |q| < 1. P 1 Beispiel 11.5. Die harmonische Reihe ∞ k=1 k ist bestimmt divergent gegen ∞. Beweis: Es gilt s2n+1 − s2n n+1 2X n+1 2X 1 1 2n+1 − 2n 1 = ≥ = = . n n k k=2n +1 2 2 2 k=2n +1 Die Partialsummenfolge (sn ) ist daher nicht Cauchy, und somit auch nicht konvergent. Da (sn ) monoton wächst, folgt dass die Reihe nicht beschränkt ist (sonst wäre sie ja konvergent!), also gegen ∞ divergiert. 136 Reihen P 1 Beispiel 11.6. Es gilt: ∞ k=1 k(k+1) = 1. Beweis: Sei (sn ) wieder die Partialsummenfolge. Dann gilt sn = n X k=1 n X 1 1 1 (∗) 1 = − = 1− → 1. k(k + 1) k=1 k k + 1 k+1 Im Schritt (∗) haben wir verwendet dass 1 1 1 1 1 sn = (1 − ) + ( − ) + ( − ) + . . . 2 2 3 3 4 ist. Man beachte, dass sich fast alle Terme wegkürzen, und nur der erste bzw letzte Summand übrigbleiben. Man nennt dies eine Teleskopsumme. Konvergenzkriterien für Reihen 1 Satz 11.7 (Cauchy-Kriterium). Die Reihe P∞ k=1 ak ist genau dann konvergent, wenn ∀ > 0 ∃n0 ∈ N ∀n, m ≥ n0 : | n X ak | < . k=m+1 Beweis. Folgt sofort aus dem Cauchy-Kriterium für Folgen. Als notwendige Bedingung für die Konvergenz von Reihen erhalten wir nun P Satz 11.8. Die Reihe ∞ k=1 ak sei konvergent. Dann folgt an → 0. Beweis. Wendet man obigen Satz mit n = m + 1 an, so erhält man, dass für jedes > 0 ab einem bestimmten Index n0 gilt |an − 0| = | m+1 X ak | < , für alle n ≥ n0 . k=m+1 Das besagt gerade, dass (an ) eine Nullfolge ist. Die folgenden beiden Sätze liefern Konvergenz von Reihen mit speziellen Folgengliedern. Satz P∞ 11.9. Sei (an ) eine positive Folge, d.h., an ≥ 0 für alle n ∈ N. Dann konvergiert die Reihe k=1 ak genau dann, wenn die Partialsummenfolge (sn ) nach oben beschränkt ist. Beweis. Da ak ≥ 0 ist, folgt (sn ) ist monoton wachsend. Ist (sn ) beschränkt, dann existiert nach Satz 10.20 ihr Grenzwert, andernfalls ist (sn ) bestimmt divergent gegen ∞. 137 Satz 11.10 (Leibniz-Kriterium). Sei P (an ) eine monoton fallende Nullfolge (d.h., an ≥ an+1 , P∞ ∞ k an → 0). Dann konvergiert die Reihe k=1 (−1) ak und es gilt | k=n (−1)k ak | ≤ an . Beweis. Da (an ) monoton fallend und positiv ist, gilt (−1)n ∞ X (−1)k ak = (an − an+1 ) + (an+2 − an+3 ) + . . . ≥ 0 k=n (−1)n ∞ X (−1)k ak = an − (an+1 − an+2 ) − (an+3 − an+4 ) − . . . ≤ an . k=n Pm Hieraus folgt | k=n (−1)k ak | ≤ an für alle m ≥ n. Da (an ) eine Nullfolge ist, erhält man die Konvergenz der Reihe mit dem Cauchy-Kriterium. P k+1 1 . Wir werden Beispiel 11.11. Nach dem Leibnizkriterium konvergiert die Reihe ∞ k=1 (−1) k später sehen, dass der Wert der Reihe ln(2) ist. Absolute Konvergenz und Konvergenzkriterien 2 P∞ P Definition 11.12. Eine Reihe ∞ k=1 |ak | konverk=1 ak heißt absolut konvergent, wenn giert. Ist eine Reihe konvergent, aber nicht absolut konvergent, so heißt sie bedingt konvergent. Aus den bisherigen Ergebnissen erhalten wir Beispiel 11.13. P k • Die geometrische Reihe ∞ k=0 q ist für |q| < 1 absolut konvergent. P k+1 1 • Die Logarithmusreihe ∞ ist nur bedingt konvergent. k=1 (−1) k Bemerkung 11.14. Für Reihen mit positiven Gliedern stimmen die Begriffe Konvergenz und absolute Konvergenz überein! Aus der Dreiecksungleichung folgt, dass absolute Konvergenz stärker als bedingte Konvergenz ist. P Satz 11.15. Eine absolut konvergente Reihe ∞ k=1 ak ist auch konvergent. Beweis. Siehe Übung. Im Folgenden stellen wir kurz einige Kriterien vor, mit denen man Reihen auf absolute Konvergenz überprüfen kann. Satz 11.16 (Majoranten-/Minorantenkriterium). Seien (an ) und (bn ) reelle Folgen. 138 Reihen P bk , dann konvergiert auch |ak |. P P (b) Ist |an | ≥ bn ≥ 0 für alle n ≥ n0 und divergiert bk , dann divergiert auch |ak |. (a) Gilt |an | ≤ bn für alle n ≥ n0 und konvergiert P Beweis. (a) Nach Voraussetzung und der Dreiecksungleichung gilt | n X ak | ≤ k=m+1 n X k=m+1 |ak | ≤ n X bk k=m+1 P Aufgrund der Konvergenz der Reihe bk ist nach dem Cauchy-Kriterium die rechte Seite beliebig klein falls m, n hinreichend groß gewählt P werden. Nochmaliges Anwenden des CauchyKriteriums liefert die Konvergenz der Reihe ak . (b) Siehe Übung. P∞ P Bemerkung 11.17. Die ReiheP k=1 bk in (a) heißt Majorante für ∞ k=1 |ak |. Die Aussage lässt sich also formulieren als: an eine konvergierende Majorante, so ist die Reihe absolut P Hat konvergent. Die Reihe ∞ b in (b) heißt Minorante. k=1 k P∞ P 1 1 Beispiel 11.18. Die Reihe k=1 k(k+1)(k+2) konvergiert absolut, denn sie wird durch ∞ k=1 k(k+1) majorisiert, welche, wie gezeigt, den Wert 1 besitzt. P √1 √1 ≥ 1 ist. Die harmonische Reihe ist also Beispiel 11.19. Die Reihe ∞ k=1 k divergiert, da k k eine divergente Minorante. P Satz 11.20 (Quotientenkriterium). Die Reihe ∞ k=1 |ak | an+1 (a) konvergiert, falls an ≤ R < 1 für alle n ≥ n0 , ≥ r > 1 für alle n ≥ n0 für ein n0 ∈ N gilt. (b) divergiert, falls an+1 an Beweis. Wir zeigen nur (a): Aus der Voraussetzung folgt, dass |an | = |an /an−1 | · . . . · |an0 +1 /an0 | · |an0 | ≤ Rn−n0 |an0 | = Rn (R−n0 |an0 |). P P Die Reihe |ak | wird also durch die geometrische Reihe R−n0 |an0 | k Rk majorisiert, und diese konvergiert, da R < 1 gilt. Die Aussage (b) folgt analog mit dem Minorantenkriterium. Bemerkung 11.21. Die Bedingungen (a) und (b) sind äquivalent zu lim sup | an+1 | ≤ R bzw an an+1 an+1 lim inf | an | ≥ r. Falls die Quotientenfolge | an | konvergiert, genügt es den Grenzwert zu betrachten.(warum?) P 1 k Beispiel 11.22. Man überprüfe die Exponentialreihe ∞ k=0 k! x für x ∈ R auf Konvergenz. Lösung: Für x = 0 ist nichts zu zeigen. Für x 6= 0 und k ∈ N0 gilt mit ak := k!1 xk 6= 0 a xk+1 k! |x| k→∞ k+1 −−−→ 0. = = k ak (k + 1)! x k+1 Die Voraussetzung des Quotientenkriteriums ist erfüllt, und die Exponentialreihe konvergiert P∞ 1 k daher absolut für jedes x ∈ R. Ihren Grenzwert bezeichnen wir mit exp(x) := k=0 k! x . Mithilfe des binomischen Lehrsatzes 2.12 kann man sogar zeigen, dass exp(x) = limn→∞ (1 + x n ) = ex , sodass die Definition der Exponentialfunktion über die Potenzreihe mit derjenigen n von exp(x) = ex in (2.3) übereinstimmt, vgl. auch Beispiel 10.22. 139 p p Satz 11.23 (Wurzelkriterium). Sei (ak ) eine reelle Folge, sodass k |ak | ≤ R < 1 (bzw. k |ak | ≥ rP> 1) für alle n ≥ n0 mit einem n0 ∈ N. Dann konvergiert (bzw. divergiert) die Reihe ∞ k=1 |ak |. p Beweis. Aus k |ak | ≤ R folgt |ak | ≤ Rk . Dann ist für R < 1 die geometrische Reihe eine konvergente Majorante. Der zweite Fall folgt analog. p Beispiel 11.24. Sei (an ) definiert durch a2n = 2−2n und a2n−1 = 3−2n+1 . Dann gilt k |ak | ≤ 1/2, und nach dem Wurzelkriterium ist die Reihe absolut konvergent. Beispiel 11.25. Sei x > 1 und k ∈ N. Dann gilt r Qk √ n k n GWS,n→∞ 1 n n i=1 −−−−−−→ < 1. = n x x x P nk Also konvergiert die Reihe ∞ n=0 xn gemäß Wurzelkriterium absolut. Insbesondere gilt nach Satz 11.8 limn→∞ nk /xn = 0, vgl. Beispiel 10.6. Umordnungen und Cauchy-Produkt Ordnet man bei einer endlichen Summe die Summanden um, so wird das Ergebnis nicht verändert. Wir diskutieren nun, wann dies auch bei Reihen (=unendlichen Summen) funktioniert. Definition 11.26. Eine bijektive Abbildung φ : NP → N heißt Umordnung der natürlichen P ∞ a heißt Umordnung der Reihe Zahlen, und ∞ k=1 ak . k=1 φ(k) P∞ P Satz 11.27. Sei ∞ k=1 ak . Dann ist jede k=1 ak eine absolut konvergente Reihe mit Wert a := Umordnung der Reihe ebenfalls absolut konvergent und besitzt denselben Wert a. Beweis. Siehe z.B. Königsberger. P k+1 1 Wir veranschaulichen nun anhand der alternierenden harmonischen Reihe ∞ , dass k=1 (−1) k man bei bedingt konvergenten Reihen nicht ohne weiteres umordnen darf. Wir betrachten zunächst die ursprüngliche Reihe. Durch zusammenfassen benachbarter Elemente sieht man (sn ) = (1 − 1/2) + (1/3 − 1/4) + (1/5 − 1/6) + . . . ∞ X 1 = 1/2 + 1/12 + 1/30 + . . . = 2k(2k − 1) k=1 Da die Logarithmusreihe konvergiert, folgt sn → log(2). 140 Reihen Wir betrachten nun die Reihe, die entsteht wenn man jeweils ein positives und dann zwei negative Elemente aufsummiert, also (s0n ) = (1 − 1/2 − 1/4) + (1/3 − 1/6 − 1/8) + (1/5 − 1/10 − 1/12) + . . . = 1/4 + 1/24 + 1/60 + . . . = 1/2 · 1/2 + 1/12 + 1/30 + . . .) = 1/2 ∞ X k=1 Man sieht jetzt leicht, dass s0n 1 . 2k(2k − 1) → 1/2 log(2) konvergiert. Bemerkung 11.28. Durch Umordnung kann man sogar jeden beliebigen Wert erzeugen (Riemann’scher Umordnungssatz). Hierzu beachte man: Aus der bedingten Konvergenz folgt dass die Summen 1 + 1/3 + 1/5 + 1/7 + . . . −1/2 − 1/4 − 1/6 − 1/8 − . . . der positiven bzw negativen Glieder gegen +∞ bzw. −∞ streben. P k Wir konstruieren jetzt eine Umordnungen, die nicht gegen ∞ k=1 (−1) 1/k = log(2) konvergiert. Wir beginnen mit 1 und addieren dann wechselweise ein positives und ein negatives Glied, d.h. 1 + 1/3 − 1/2 + 1/4 − 1/5 + 1/6 − 1/7 + . . . . Für die entsprechende Partialsummenfolge s0n gilt s0n > 1 für n gerade, und s0n < 1 für ungerades n ≥ 3. Aufgrund des Leibnizkriteriums hat man wieder Konvergenz, und der Grenzwert kann offensichtlich nur 1 sein. Bemerkung 11.29. Man kann sogar zeigen, dass eine bedingt konvergente Reihe durch Umordnung jeden beliebigen Wert annehmen kann (Riemann’scher Umordnungssatz). Als nächstes betrachten wir Produkte endlicher Summen. Fasst man jeweils Terme mit gleicher Summe der Indizes zusammen, erhält man ( m X aj ) · ( j=0 n X bk ) = (a0 + a1 + . . . + am ) · (b0 + b1 + . . . + bn ) k=0 = a0 b 0 + a0 b 1 + a1 b 0 + a0 b 2 + a1 b 1 + a2 b 0 + . . . + am b n |{z} | {z } | {z } | {z } = m+n X min{l,m} X aj bl−j l=0 j=min{0,m} Diese Formel lässt sich auf absolut konvergente Reihen verallgemeinern. P P∞ Satz 11.30 (Cauchy-Produkt). Sind die Reihen ∞ j=0 aj , k=0 bk absolut konvergent, so gilt ( ∞ X j=0 ∞ ∞ X l ∞ X X X aj ) · ( bk ) = aj bl−j = (a0 bl + a1 bl−1 + . . . + al b0 ), k=0 l=0 j=0 l=0 und die rechte Reihe konvergiert wiederum absolut. 141 Beweis. Wir zeigen nur die Konvergenz (die Aussage über Pl P∞ den Wert folgt aus der Formel für endliche Summen). Sei cl := j=0 al bl−j . Zu zeigen ist l=0 |cl | < ∞. Man beachte, dass die zugehörige Partialsummenfolge monoton ist. Daher genügt es zu zeigen, dass diese beschränkt bleibt (woraus Konvergenz folgt!). Es gilt n X l=0 |cl | = n l n X l n n X X X X X aj bl−j ≤ |aj ||bl−j | ≤ ( |aj |) · ( |bk |). l=0 j=0 l=0 j=0 j=0 k=0 P∞ P∞ Aufgrund der absoluten Konvergenz der beiden Reihen gilt |a | = A, j j=0 k=0 |bk | = B. Also Pn |c | ≤ A · B für jedes n ∈ N. Die Konvergenz folgt aus dem Satz über die Konvergenz l=0 l monotoner beschränkter Folgen. Potenzreihen und elementare Funktionen Wir werden im folgenden sehen, wie man mit Hilfe von Reihen Funktionen definieren kann. Tatsächlich sind viele wichtige Funktionen in der Mathematik auf diese Weise definiert. Definition 11.31 (Potenzreihe). Sei z0 ∈ C und an ∈ C für n ∈ N0 . Für z ∈ C heißt die Reihe P (z) := ∞ X an (z − z0 )k k=0 Potenzreihe mit Koeffizienten an und Entwicklungspunkt z0 . Bemerkung 11.32. Man kann in der Definition der Reihe z − z0 durch x ersetzen. Wir werden daher folgenden meist z0 = 0 annehmen. Die folgende Beispiel sind schon in unseren Überlegungen zu Reihen vorgekommen: P q • geometrische Reihe R(z) := ∞ k=0 z P 1 k • Exponentialreihe exp(z) := ∞ k=0 k! z Die erste wichtige Frage, die sich stellt, ist, wann diese Definitionen Sinn machen, d.h., wann die Reihen konvergieren. P∞ n Satz 11.33 (Konvergenzradius). Die Potenzreihe P (z) = k=0 an z konvergiert absolut, wenn p n es ein θ ∈ (0, 1) gibt, so dass |z| ≤ θ/ |an | für alle n ≥ n0 mit einem n0 ∈ N gilt. Gibt es ein p n Θ ∈ (1, ∞) mit |z| ≥ Θ/ |an | so divergiert sie. p Beweis. Aus dem Wurzelkriterium folgt, dass die Reihe P (z) absolut konvergiert, falls n |an z n | = p p n |an ||z| ≤ θ < 1 für alle n ≥ n0 ist, und falls n |an z n | ≥ Θ > 1, divergiert die Reihe. P Folgerung 11.34. Konvergiert die Potenzreihe P (z) = ak z k absolut für ein z ∈ C, dann 0 0 auch für alle z mit |z | ≤ |z|. 142 Reihen Beweis. Siehe Übung. P Bemerkung 11.35. Das größte R ≥ 0 für das die Reihe P (z) = ak z k konvergiert, heißt Konvergenzradius der Reihe. Aus obigem Beweis erhalten wir die Formel p R = lim sup 1/ n |an |. n→∞ Falls die Folge der Koeffizienten konvergiert, kann man lim sup durch lim ersetzen (warum?). Für alle z innerhalb des Kreises mit Radius R um z0 = 0 konvergiert die Potenzreihe also absolut. Ob, und für welche z mit |z| = R (bzw |z − z0 | = R) die Reihe auch konvergiert, muss in jedem Beispiel überprüft werden. Beispiel 11.36. Der Konvergenzradius der geometrischen Reihe ist R = 1, und der der Exponentialreihe ist R = ∞. Beispiel 11.37. Man berechne den Konvergenzradius der Logarithmusreihe log(z + 1) := ∞ X (−1)k k=1 k zk . Lösung: 1) Für |z| < 1 gilt | (−1) z k | ≤ z k . Die geometrische Reihe ist dann eine konvergente k Majorante, konvergiert für |z| < 1. p d.h., die Logarithmusreihe √ 2) Da k |z k |/k = |z|/ k k → |z| mit k → ∞, folgt aus dem Wurzelkriterium, dass die Logarithmusreihe für |z| > 1 divergiert. Der Konvergenzradius p beträgt also R = 1. Dieser hätte sich auch direkt mittels der Formel R = 1/ lim supk→∞ k |ak | berechnen lassen. 3) Für Zahlen z mit |z| = R = 1 kann verschiedenes passieren: Bei z = 1 konvergiert die Reihe nach dem Leibnizkriterium, und bei z = −1 divergiert die Reihe, da sie gerade mit der harmonischen Reihe übereinstimmt. Divergenz folgt auch für alle anderen z ∈ C \ {1} mit |z| = 1. Im folgenden geben wir zusammenfassend Definitionen einiger wichtige Funktionen mittels Potenzreihen: P 1 k • exp(z) := ∞ k=0 k! z (Exponentialfunktion) P (−1)k • log(z) := ∞ (z − 1)k (natürlicher Logarithmus) k=1 k P (−1)k 2k+1 • sin(z) := ∞ (Sinus) k=0 (2k+1)! z • cos(z) := (−1)k 2k k=0 (2k)! z P∞ • sinh(z) := P∞ • cosh(z) := P∞ (Cosinus) 1 2k+1 k=0 (2k+1)! z 1 2k k=0 (2k)! z (Sinus hyperbolicus) (Cosinus hyperbolicus) 143 Die Logarithmusreihe konvergiert für z ∈ C mit |z −1| < 1; die anderen Reihen konvergieren für alle z ∈ C. Wir werden später sehen, dass Potenzreihen innerhalb ihres Konvergenzradius stetig, und sogar differenzierbar sind. Auch ihre Ableitungen sind wieder als Potenzreihen darstellbar. Mittels Cauchy-Produkt und binomischer Formel lassen sich elementare Sachverhalte zeigen. Beispiel 11.38. Für alle x, y ∈ C gilt exp(x) · exp(y) = exp(x + y). Beweis: Einsetzen in das Cauchy-Produkt liefert ∞ X l X 1 j 1 x y l−j = (∗). exp(x) · exp(y) = j! (l − j)! l=0 j=0 Nach Definition der Binomialkoeffizienten gilt 1 1 l! 1 = = j! (l − j)! (j!)(l − j)! l! l 1 , j l! also ∞ l ∞ X 1 X l j l−j X 1 (x + y)l = exp(x + y). (∗) = xy = l! j=0 j l! l=0 l=0 {z } | =(x+y)l Mit ähnlichen Mitteln zeigt man, dass sin2 (x) + cos2 (x) = 1 oder sinh2 (x) + 1 = cosh2 (x) gilt (siehe Aufgaben). Reihen mit vektorwertigen Gliedern∗ Die Definitionen und die meisten Aussagen über Reihen lassen sich auf den Fall erweitern, dass die Folge (an ) über die summiert wird aus Vektoren besteht. Das Cauchy-Kriterium, und die Sätze über absolute Konvergenz lassen sich sofort verallgemeinern, indem man den Betrag durch die Norm ersetzt. Definition 11.39. Sei (V, k · k) ein normierter Raum, und (an ) eine Folge in V . Die Reihe P∞ die entsprechende Partialsummenfolge konvergiert. Die Reihe k=1 an heißt konvergent, falls P heißt absolut konvergent, wenn ∞ k=1 kak k konvergiert. Satz 11.40 (Cauchy-Kriterium). Sei P (V, k · k) ein endlich dimensionaler normierter Raum, und (an ) eine Folge in V .P Dann ist ∞ k=1 an genau dann konvergent, wenn für jedes > 0 ein n n0 ∈ N existiert, sodass k k=m ak k < für alle m, n ≥ n0 gilt. P Satz 11.41. Sei (V, ·) ein vollständiger normierter Raum, und (an ) eine Folge in V . Ist ∞ k=1 ak absolut konvergent, dann konvergiert sie auch. 144 Reihen Beweis. Bezeichne (sn ) die Partialsummenfolge. Dann gibt es für jedes > 0 ein n0 ∈ N sodass für n ≥ m ≥ n0 nach dem Cauchy-Kriterium gilt n X ksn − sm k = k ak k ≤ k=m+1 n X kak k < . k=m+1 Die Partialsummenfolge ist daher eine Cauchyfolge und besitzt eine Grenzwert, weil V vollständig ist. Zur Veranschaulichung geben wir einige Beispiele. P∞ k Beispiel 11.42. Wir betrachten die geometrische Reihe P∞ k k=0 q1 für q ∈ C. Gilt |q| < 1, dann konvergiert die Reihe absolut, und ihr Wert lautet k=0 q = 1−q . Beispiel 11.43. P Sei A ∈ Rn×n eine quadratische Matrix. Für jedes n ∈ N ergibt die Partialsummenfolge nk=0 k!1 Ak eine n × n Matrix. Sei x := kAk für eine Matrixnorm k · k. Es gilt n n n n X X X X 1 k 1 k 1 1 k k k A k≤ kA k ≤ kAk = x . k! k! k! k! k=m k=m k=m k=m Aufgrund der Konvergenz der reellen Exponentialreihe, konvergiert auch die entsprechende Reihe für Matrizen, und zwar absolut. Da der Raum der Matrizen endlichdimensional ist mit Dim(Rn×n ) = n · n, ist er auch vollständig. Und nach obigem Satz existiert der Grenzwert der Matrixexponentialreihe, und zwar für jede quadratische Matrix! Aufgaben Aufgabe 11.1. Untersuchen Sie die folgenden Reihen auf absolute und bedingte Konvergenz: (i) P∞ (ii) P∞ k=1 1+ 5k k=1 2k2 +1 1 k k (iii) P∞ (iv) P∞ 5 k=1 2k2 +1 k=1 k 1 √ k k (v) P∞ (vi) P∞ k=1 (k!)2 +(−1)k (k!)2 (2k)! 1 3k k=1 6k k Aufgabe 11.2. Bestimmen Sie die Konvergenzradien der folgenden Potenzreihen (z ∈ C). (i) P∞ k=1 k!z k (ii) P∞ 5k k k=1 2k2 +1 z (iii) P∞ 1 3k k=1 6k k k z Aufgabe 11.3. Bezeichne i die imaginäre Einheit in C. Berechnen Sie die Werte der folgenden Reihen: (i) P∞ k=1 (−2)k 32k (ii) P∞ ik k+1 k=0 k! π (iii) P∞ k=0 3+(−1)k 5k+1 145 P 1 Aufgabe 11.4. Berechnen Sie den Wert der Reihe ∞ k=1 4k2 −1 . A B Hinweis: Bestimmen Sie A, B ∈ R, so dass 4k21−1 = 2k−1 + 2k+1 . P P 2 Aufgabe 11.5. Sei ∞ eine absolut konvergente Reihe. Zeigen Sie ∞ k=1 akP k=1 ak konvergiert ∞ absolut. Was passiert, wenn k=1 ak nur bedingt konvergent ist? Aufgabe 11.6. Zeigen Sie mit Hilfe von Potenzreihendarstellungen die Identitäten: cos(x) = 1 exp(ix) + exp(−ix) , 2 sin(x) = 1 exp(ix) − exp(−ix) 2i für alle x ∈ C. Folgern Sie daraus cos(x)2 + sin(x)2 = 1. Aufgabe 11.7. Sei |q| < 1. Zeigen Sie mit Hilfe des Cauchyprodukts die Identität ∞ 1 2 X = (k + 1)q k . 1−q k=0 146 Reihen 12 Stetige Funktionen Wir betrachten im folgenden Funktionen f : D → E, wobei, falls nicht anders angegeben, D und E nichtleere Teilmengen von R bzw. C seien. Zur Erinnerung: D und E heißen Definitionsbzw. Bildbereich, und f (D) = {f (x) : x ∈ D} ist das Bild von D unter f . Definition 12.1. Eine Funktion f : D → E heißt stetig in x0 ∈ D, falls für alle > 0 ein δ > 0 existiert, sodass |f (x) − f (x0 )| < für alle x ∈ D mit |x − x0 | < δ. Sei D0 ⊂ D. Dann heißt f stetig auf D0 , falls f für alle x0 ∈ D0 stetig ist. Für D0 = D sagt man auch kurz: f ist stetig (d.h. stetig auf D). Bemerkung 12.2. Die Stetigkeit einer Funktion f : D ⊂ R → R in x0 ∈ D bedeutet, dass der Graph der Funktion f für x ∈ (x0 − δ, x0 + δ) ∩ D in einem Streifen R × (f (x0 ) − , f (x0 ) + ) verläuft. Je näher x an x0 liegt, desto enger kann der Streifen gemacht werden. Geometrische Deutung der Stetigkeit Bemerkung 12.3 (Definition über Umgebungen). Man veranschauliche sich auch folgende äquivalente Definition der Stetigkeit: Zu jeder -Umgebung V (f (x0 )) := {y ∈ E : |y − f (x0 )| < } von f (x0 ) findet man eine δ-Umgebung Uδ (x0 ) := {x ∈ D : |x − x0 | < δ} von x0 sodass {f (x) : x ∈ Uδ (x0 )} ⊂ V (f (x0 )); die Größen , δ sind jeweils > 0 zu wählen. Beispiel 12.4. 1. Die konstante Funktion f : R → R, x 7→ c (mit c ∈ R konstant) ist stetig (auf ganz R), denn für jedes x0 ∈ R und jedes > 0 gilt |f (x) − f (x0 )| = 0 < für alle x ∈ R. 148 Stetige Funktionen 2. Wir betrachten die affin lineare Funktion f : R → R gegeben durch f (x) := ax + b mit a, b ∈ R. Dann gilt für jedes x, x0 ∈ R |f (x) − f (x0 )| = |(ax + b) − (ax0 + b)| = |a(x − x0 )| = |a||x − x0 |. Sei > 0 gegeben. Für alle x, x0 mit |x − x0 | < δ := / min{1/|a|, 1} folgt dann |f (x) − f (x0 | ≤ |a||x − x0 | < |a| min{1/|a|, 1} ≤ . Somit ist f für alle x0 ∈ R stetig. 3. Sei f : C → C, f : z → z 2 . Für z0 , z ∈ C gilt |f (z) − f (z0 )| = |z 2 − z02 | = |(z − z0 )(z + z0 )| = |z + z0 ||z − z0 |. Für beliebiges > 0 und |z − z0 | < δ := min{1, /|1 + 2z0 |} gilt somit |f (z) − f (z0 )| < |z + z0 |δ ≤ (2|z0 | + 1)δ ≤ . Die Funktion f ist somit stetig auf ganz C. √ 4. Die Funktion · : R+ → R+ ist stetig. Für jedes x0 > 0 gilt nämlich √ √ |x − x0 | |x − x0 | < , | x − x0 | = √ √ ≤ √ x0 x + x0 √ falls |x − x0 | < δ := x0 ist. Die Stetigkeit an der Stelle x0 = 0 folgt elementar. Ganz √ n ähnlich zeigt man auch Stetigkeit von · für n ∈ N. 5. Die Funktionen Re : C → R, z 7→ Re(z), Im : C → R, z 7→ Im(z) sowie conj : C → C, z 7→ z sind stetig; siehe Übung. Wir geben auch noch erste Beispiele für nicht-stetige Funktionen. Beispiel 12.5. • Die Heaviside Funktion H : R → R, x 7→ H(x) mit H(x) = 0 für x < 0 und H(x) = 1 für x ≥ 0 ist stetig in jedem Punkt x0 6= 0, aber nicht stetig in x0 = 0. Für jedes δ > 0 gilt nämlich |f (−δ/2) − f (0)| = |0 − 1| = 1, d.h., für = 1/2 existiert kein δ > 0 sodass |f (x) − f (x0 )| < 1/2 für alle |x − x0 | < δ gilt. • Die Sprungfunktion f : R → R, f (x) = 1 für x ∈ Q, f (x) = 0 für x ∈ R \ Q ist nirgendwo stetig, denn für jedes x0 ∈ R und jedes δ > 0 gibt es im Intervall (x − δ, x + δ) sowohl rationale als auch irrationale Zahlen, d.h., f nimmt die Werte 1 und 0 an. Zum Nachweis der Stetigkeit kann folgender Satz verwendet werden. 149 Satz 12.6 (Folgenkriterium). Die Funktion f : D → E ist stetig in x0 ∈ D genau dann, wenn für jede konvergente Folge (xn ) in D mit Grenzwert x0 = lim xn gilt: f (xn ) → f (x0 ). Bemerkung 12.7. Aus Konvergenz der Urbilder folgt Konvergenz der Bilder. Man schreibt dafür auch kurz xn → x0 ⇒ f (xn ) → f (x0 ) oder lim f (xn ) = f (lim xn ). Beweis. ⇒: Sei f stetig in x0 , d.h., für jedes > 0 gibt es ein δ > 0 sodass |f (x) − f (x0 )| < für alle |x − x0 | < δ. Sei nun (xn ) eine Folge die gegen x0 konvergiert. Dann ist ab einem Index n0 ∈ N für alle n ≥ n0 der Abstand |xn − x0 | < δ, und folglich |f (xn ) − f (x0 )| < . Also konvergiert die Folge (f (xn ))n∈N in E. ⇐: Wir benutzen (A ⇒ B) ⇔ (¬B ⇒ ¬A), also ein Widerspruchsargument. Sei f nicht stetig. Dann gibt es für jedes > 0 ein xn ∈ D mit |xn − x0 | < 1/n aber |f (xn ) − f (x0 )| ≥ . Die Folge (xn ) konvergiert gegen x0 , aber die Funktionswerte konvergieren nicht, was zu zeigen war. Beispiel 12.8. • Die Funktion f : R → R, x 7→ a + bx mit a, b ∈ R ist stetig auf ganz R. Für jedes x0 ∈ R und jede Folge (xn ) mit xn → x0 gilt |f (xn ) − f (x0 )| = |a + bxn − (a + bx0 )| = |b||xn − x0 |. Da (xn ) gegen x0 konvergiert, gibt es für jedes 0 > 0 ein n0 ∈ N sodass |xn − x0 | < 0 für alle n ≥ n0 ist. Wählt man 0 = /|b|, so folgt |f (xn ) − f (x0 )| < . Also konvergiert die Folge f (xn ) → f (x0 ). Nach dem Folgenkriterium ist die Funktion stetig. • Sei f die Sprungfunktion aus Beispiel 12.5, und x0 ∈ R \ Q. Wir definieren xn als die (rationale) Dezimalzahl, welche in den ersten n Stellen mit x0 übereinstimmt. Dann gilt xn → x0 , aber |f (xn ) − f (x0 )| = 1. Die Bildfolge konvergiert also nicht, und nach dem Folgenkriterium ist die Sprungfunktion für kein x0 ∈ R \ Q stetig. Aus den Rechenregeln über Grenzwerte von Folgen ergeben sich in ähnlicher Weise die folgenden Regeln für die Stetigkeit von zusammengesetzten Funktionen. Satz 12.9. Seien f : D → C, g : D → C stetig. Dann sind auch f + g : D → E, f · g : D → E, αf : D → E, x 7→ f (x) + g(x) x 7→ f (x) · g(x) x 7→ αf (x) für jedes α ∈ C stetig. Ist g(x) 6= 0 für alle x ∈ D , so ist auch f /g : D → E, x 7→ f (x)/g(x) stetig. Beweis. Aus xn → x0 folgt aufgrund der Stetigkeit f (xn ) → f (x0 ) sowie g(xn ) → g(x0 ). Somit gilt (f + g)(xn ) = f (xn ) + g(xn ) → f (x0 ) + g(x0 ) = (f + g)(x0 ). Die anderen Behauptungen folgen analog. 150 Stetige Funktionen Die Regeln gelten analog falls nur Stetigkeit in einem Punkt x0 ∈ D betrachtet wird. Beispiel 12.10 (Stetigkeit von Polynomen). Jede komplexe Polynomfunktion p : C → C, x 7→ a0 + a1 x + . . . + am xm mit Koeffizienten ai ∈ C stetig auf ganz C. Beweis: Die Behauptung folgt unmittelbar aus dem Folgenkriterium, und der Regel für Produkte und Summen von Grenzwerten; siehe Übung. Die Behauptung gilt natürlich auch für reelle Polynomfunktionen. Beispiel 12.11. Seien p und q Polynomfunktionen. Dann heißt f : D ⊂ C → C, z 7→ p(z) q(z) rationale Funktion und D := {z ∈ C : q(z) 6= 0} ist ihr Definitionsbereich. Nach den Sätzen über die Stetigkeit zusammengesetzter Funktionen und der Stetigkeit von Polynomfunktionen sind rationale Funktionen auf ihrem Definitionsbereich stetig. Stetigkeit überträgt sich auch auf die Hintereinanderausführung von Funktionen. Satz 12.12. Seien f : D → E und g : E → F stetig. Dann ist auch g ◦ f : D → F stetig. Beweis. Mit Folgenkriterium; siehe Übung. Beispiel 12.13. Die Betragsfunktion | · | : C → R, z 7→ |z| is stetig, denn |z| = Hintereinanderausführung stetiger Funktionen. √ z · z is die Potenzreihen Wir werden im folgenden zeigen, dass Potenzreihen auf ihrem Konvergenzkreis stetige Funktionen definieren. Zum Beweis benötigen wir noch folgendes Hilfsresultat. P Hilfssatz 12.14 (Transformationsregel für Potenzreihen). Sei P (z) = ak (z − z0 )k eine komplexe Potenzreihe mit Konvergenzradius R. Dann gibt es zu jedem z1 ∈ BR (z0 ) := {z ∈ C : |z − z0 | < R} eine Potenzreihe ∞ X bk (z − z1 )k Q(z) = k=0 0 mit Konvergenzradius R ≥ R − |z1 − z0 | > 0, sodass P (z) = Q(z) für alle z ∈ BR0 (z1 ) := {z ∈ C : |z − z1 | < R0 } gilt. Eine Funktion, welche durch eine Potenzreihe bestimmt ist, kann also bezüglich beliebiger Punkte im Konvergenzkreis entwickelt werden. Man veranschauliche sich das Argument anhand von Polynomen p(z) = a0 + a1 z + . . . + an z n . 151 Beweis. Für alle z ∈ BR0 (z1 ) gilt |z − z0 | = |z − z1 + z1 − z0 | ≤ |z − z1 | + |z1 − z0 | < R, und mit der binomischen Formel folgt ∞ X k |z − z1 |j |z1 − z0 |k−j = (|z − z1 | + |z1 − z0 |)n < (R0 + |z1 − z0 |)n = Rn . j k=0 P Da nach Voraussetzung die Reihe |ak |q k für alle |q| < R absolut konvergiert, folgt dass in ∞ ∞ X k X X k k P (z) = an (z − z0 ) = (z − z1 )j (z1 − z0 )k−j j k=0 k=0 j=0 die Summationsreihenfolge vertauscht werden darf. Hier wurde ein weiters mal die binomische Formel angewendet, um (z − z0 )k zu ersetzen. Wir erhalten also ∞ X k ∞ X ∞ X X k j j k−j P (z) = (z − z1 ) (z1 − z0 ) = aj (z1 − z0 )j−k (z − z1 )k . j k k=0 j=0 k=0 j=k P P∞ j j+k j−k a Wir definieren nun bk := ∞ a (z − z ) = (z1 − z0 )k . Wegen der Verj j+k 1 0 k=j j=0 k k tauschbarkeit der Summation sind die Reihen für bk konvergent, und es folgt die Behauptung. P k Satz 12.15 (Stetigkeit von Potenzreihen). Die Potenzreihe P (z) = ∞ k=0 ak (z − z0 ) besitze Konvergenzradius R > 0. Dann ist die durch sie definierte Funktion P : BR (z0 ) → C, z 7→ P (z) stetig auf dem Konvergenzkreis BR (z0 ) := {z ∈ C : |z − z0 | < R}. Beweis. Sei z̃ ∈ BR (z0 ) und (zn ) eine Folge in BR (z0 ) die gegen z̃ konvergiert. Nach dem Transformationssatz für Potenzreihen können wir z̃ = z0 annehmen (warum?). Weiters gilt |P (zn ) − P (z0 )| = | ∞ X ak (zn − z0 )k |. k=1 Da zn → z0 konvergiert, gilt ab einem Index n0 immer |zn − z0 | ≤ R/2. Somit folgt ∞ 2|zn − z0 | X |P (zn ) − P (z0 )| ≤ |ak |(R/2)k ≤ |zn − z0 |C, R k=1 da P n ≥ n0 , |ak |q k für |q| < R konvergiert. Hieraus folgt mit zn → z0 die Behauptung. Beispiel 12.16. • Die Funktionen exp, sin, cos, sinh, cosh sind jeweils auf ganz C stetig. • Die Logarithmusfunktion log(z) ist stetig für |z − 1| < 1. Sie ist sogar stetig für alle z ∈ R+ := {z ∈ R : z > 0}; siehe später. sin(z) • Die Funktionen tan(z) := cos(z) (Tangens) sowie cot(z) := cos(z) (cotangens) sind jeweils sin(z) stetig auf ihrem Definitionsbereich, d.h. dort, wo der Nenner nicht verschwindet. 152 Stetige Funktionen Zwischenwertsatz, Monotonie, Umkehrfunktion Im folgenden betrachten wir reelle stetige Funktionen. D.h., D, E ⊂ R. Der folgende Satz bildet ein wesentliches Hilfsmittel für viele Aussagen. Satz 12.17 (Zwischenwertsatz). Eine stetige reelle Funktion f : [a, b] → R, a < b ∈ R, nimmt jeden Wert y zwischen f (a) und f (b) an mindestens einer Stelle c ∈ [a, b] an. Man veranschauliche sich diesen Sachverhalt in einer Skizze! Beweis. Wir nehmen o.B.d.A an, dass f (a) ≤ f (b) gilt, und konstruieren eine eine Folge von Intervallen [an , bn ] indem wir das Intervall [a0 , b0 ] := [a, b] sukzessive halbieren. Hierbei wählen wir an und bn so, dass f (an ) ≤ y und f (bn ) ≥ y für alle n ∈ N gilt. Die Folgen (an ) und (bn ) sind monoton wachsend bzw. fallend und beschränkt, konvergieren daher. Da |bn − an | ≤ |b − a|2−n → 0 mit n → ∞ folgt lim an = c = lim bn . Aufgrund der Konstruktion sowie der Stetigkeit folgt f (c) = lim f (an ) ≤ y ≤ lim f (bn ) = f (c), also f (c) = y. Bemerkung 12.18. Falls man das geschlossene Intervall durch andere Mengen ersetzt, gilt der Satz im allgemeinen nicht! Die Funktion f : [0, 2] \ {1} → R, x 7→ x ist stetig auf dem Definitionsbereich, erfüllt f (0) = 0 und f (2) = 2, nimmt aber den Wert 1 nicht an! Eine Anwendung des Zwischenwertsatzes liefert unmittelbar die folgende Existenzaussage über Nullstellen stetiger reeller Funktionen. Folgerung 12.19. Sei f : [a, b] → R, a < b, stetig, und es gelte f (a) · f (b) ≤ 0. Dann hat f im Intervall [a, b] eine Nullstelle. Beispiel 12.20. Für jedes a ≥ 0 und jedes n ∈ N besitzt das Polynom p(x) = xn − a eine positive reelle Nullstelle. Beweis: Nach Voraussetzung gilt p(0) ≤ 0 und p(c) ≥ c − a > 0 für hinreichend großes c ≥ 1. Die Behauptung folgt aus dem Zwischenwertsatz. Als nächstes betrachten wir monotone Funktionen. Definition 12.21. Eine Funktion f : D ⊂ R → R heißt monoton wachsend, falls für x ≤ y auch f (x) ≤ f (y) gilt. Folgt f (x) ≥ f (y) für alle x ≤ y, so heißt f monoton fallend. Gelten die Ungleichungen mit < bzw. >, so nennt man f streng monoton wachsend bzw. fallend. Bemerkung 12.22. Falls f entweder (streng) monoton wachsend oder fallend ist, bezeichnet man f auch kurz als (streng) monoton. Beispiel 12.23. • Die Funktion f : R+ → R+ , x 7→ xn ist für jedes n ∈ N streng monoton wachsend. Aus den Ordnungsrelationen folgt nämlich für x, y > 0: x < y ⇒ x · x < x · y ⇒ x2 < y 2 ⇒ . . . xn < y n . 153 • Die Exponentialfunktion exp : R → R, x 7→ exp(x) ist streng monoton wachsend. Für 0 ≤ x < y gilt nach obigem Beispiel 1 ≤ exp(x) = 1 + x + x2 y2 + ... < 1 + y + + . . . = exp(y). 2! 2! Für negative x < y ≤ 0 folgt die Aussage mit Hilfe von exp(x − x) = exp(0) = 1; Übung. Monotone Funktionen haben weitere gute Eigenschaften. Satz 12.24. Sei f : D ⊂ R → R streng monoton. Dann ist f injektiv. Man veranschauliche sich die Behauptung in einer Skizze! Beweis. Wäre x 6= y, dann folgt (mit Fallunterscheidung) aus der Monotonie auch f (x) 6= f (y). Somit impliziert umgekehrt f (x) = f (y), dass auch x = y ist. Als Folgerung erhalten wir folgende Aussage über die Existenz einer Umkehrfunktion. Satz 12.25. Sei f : D ⊂ R → R streng monoton. Dann existiert eine Umkehrfunktion f −1 : f (D) → D, y 7→ f −1 (y) mit den Eigenschaften x = f −1 (f (x)) und y = f (f −1 (y)) für alle x ∈ D und y ∈ f (D). Darüber hinaus ist f −1 wieder streng monoton. Der Graph der Umkehrfunktion lässt sich leicht anhand des Graphen von f ablesen. Beweis. Nach vorhergehendem Satz ist f injektiv, und durch die Einschränkung des Bildbereiches auch surjektiv. Also ist f bijektiv, und es existiert eine Umkehrfunktion. Falls f streng monoton wachsend ist, folgt x > y ⇒ f (x) > f (y). Das ist äquivalent zu f (x) ≤ f (y) ⇒ x ≤ y. Sei nun x = f −1 (u) und y = f −1 (w), dann folgt hieraus u ≤ w ⇒ f −1 (u) ≤ f −1 (v), also ist f −1 monoton wachsend. Da f −1 bijektiv ist, kann f −1 (u) = f −1 (v) nur dann sein, wenn auch u = v gilt. Also ist f −1 streng monoton wachsend. Der Fall f monoton fallend wird analog behandelt. Bemerkung 12.26. Falls D ein Intervall ist, gilt folgende Umkehrung: f : D → R ist injektiv nur falls f auch streng monoton ist. Falls D kein Intervall ist, muss das nicht stimmen (warum?) Beispiel 12.27. Die Exponentialfunktion exp : R → R ist auf R streng monoton, und daher injektiv. Für positives x ist exp(x) = 1 + x + . . . ≥ 1, und aus exp(−x) = 1/ exp(x) folgt, dass exp(x) > 0 für alle x ∈ R gilt. Weiters kann exp(x) für große x beliebig groß und folglich exp(−x) beliebig klein werden. Für das Bild gilt daher exp(R) = R+ . Die Umkehrfunktion von exp ist die Logarithmusfunktion log : R+ → R. Auch diese ist monoton. Beispiel 12.28. Die Funktion f : R+ → R+ , x 7→ xn ist für jedes n ∈ N streng monoton wachsend und daher injektiv. Für großes x wird xn beliebig groß, also f (R+ ) = R+ . Die Tatsache dass jeder Wert angenommen wird folgt aus der Stetigkeit und dem Zwischenwertsatz! Die √ n Umkehrfunktion · : R+ → R+ ist ebenfalls streng monoton √ wachsend. Für jedes a ≥ 0 besitzt n n also die Gleichung x − a = 0 genau eine reelle Lösung x = a. 154 Stetige Funktionen Satz über Maximum und Minimum Definition 12.29. Sei D ⊂ R. Ein Element x ∈ R heißt Häufungspunkt von D falls es eine Folge (xn ) in D gibt, sodass xn → x. Beinhaltet D auch alle Häufungspunkte von D, so heißt D abgeschlossen. Bemerkung 12.30. Jedes Element x ∈ D ist Häufungspunkt, aber nicht jeder Häufungspunkt muss in D liegen. Die Definition lässt sich für allgemeine normierte Räume übertragen. Beispiel 12.31. • Das Intervall [a, b] mit a < b ∈ R ist abgeschlossen. Für jeden Grenzwert x := lim xn einer Folge konvergente (xn ) in [a, b] gilt nach den Rechenregeln für Grenzwerte a ≤ x ≤ b. Also beinhaltet [a, b] all seine Häufungspunkte. • Das Intervall (a, b) ist nicht abgeschlossen, denn die Folge xn = a + (b − a)/(n + 1) konvergiert gegen a, d.h., a ist Häufungspunkt, aber nicht Element von (a, b). • Die Menge D := {(x, y) ∈ R2 : |x| ≤ 1, |y + x| ≤ 1} ist abgeschlossen. Sei (xn , yn ) eine Folge in D mit Grenzwert (x, y) ∈ R2 . Dann folgt aus der Stetigkeit des Betrages und den Rechenregeln für Grenzwerte |x| = lim |xn | ≤ 1 sowie |x + y| = lim |xn + yn | ≤ 1. Also liegt (x, y) wieder in D. • Die Vereinigung endlich vieler und Durchschnitt beliebig vieler abgeschlossener Mengen ist wieder abgeschlossen. Definition 12.32. Eine abgeschlossene und beschränkte Teilmenge K ⊂ R heißt kompakt. Diese Definition gilt analog für Teilmengen von C, Rn , Cn . Beispiel 12.33. • Jedes abgeschlossene Intervall [a, b] ist kompakt. • Die Menge (−∞, b] ist abgeschlossen, aber nicht kompakt. • Die Menge {x ∈ Rn : kxk = 1} ist kompakt. • Die Vereinigung endlich vieler kompakter Mengen ist kompakt. • Der Durchschnitt beliebig vieler kompakter Mengen ist kompakt. Bemerkung 12.34. Mit dem Satz von Bolzano-Weierstrass kann man zeigen: K ist kompakt, genau dann wenn jede Folge in K eine konvergente Teilfolge besitzt. Diese Charakterisierung erlaubt die Definition von Kompaktheit auf allgemeine Vektorräume zu verallgemeinern. Satz 12.35. Sei K ⊂ R kompakt und f : K → R stetig. Dann ist das Bild f (K) abgeschlossen und beschränkt, also kompakt. 155 Beweis. Wir zeigen zunächst, dass f (K) beschränkt ist: Andernfalls gäbe es eine Folge (xn ) in [a, b] sodass |f (xn )| ≥ n für jedes n ∈ N gilt. Nach dem Satz von Bolzano-Weierstrass besitzt die Folge (xn ) in [a, b] einen Häufungspunkt x, d.h. x = limk→∞ xnk für eine Teilfolge (xnk ). Da K abgeschlossen ist, folgt dass x ∈ K liegt. Somit gilt |f (xnk ) − f (x)| ≥ nk − |f (x)| → ∞, d.h., die Bilder divergieren, und f kann nicht stetig sein; im Widerspruch zur Annahme. Wir zeigen nun die Abgeschlossenheit: Sei (yn ) eine konvergente Folge in f (K) mit Grenzwert y = lim yn ∈ R. Zu zeigen bleibt, dass y ∈ f (K) liegt. Nach Definition gibt es für jedes yn ein xn mit yn = f (xn ). Die Folge (xn ) ist beschränkt, und hat nach dem Satz von BolzanoWeierstrass eine konvergente Teilfolge (xnk ) mit Grenzwert x = lim xnk . Aufgrund der Stetigkeit gilt y = lim ynk = lim f (xnk ) = f (x), also ist y ∈ f (K), was zu zeigen war. Beispiel 12.36. • Die Funktion exp : [0, 1] → R ist stetig, und daher auf dem Intervall [0, 1] beschränkt. Ihr Bild ist exp([0, 1]) = [e0 , e1 ] = [1, e] ist abgeschlossen. • Die Funktion f : (0, 1] → R, x 7→ 1/x ist auf (0, 1] stetig (warum?). Allerdings gilt f ((0, 1]) = {1/x : 0 < x ≤ 1} = {y : 1 ≤ y < ∞}. Das Bild ist abgeschlossen, aber nicht beschränkt! • Die Funktion f : [0, 1] → R, f (x) = 1/x für x > 0 und f (0) = 0 ist nicht stetig. Ihr Bild ist wiederum nicht beschränkt! Als wichtige Folgerung aus diesem Satz erhalten wir die Existenz von Maxima und Minima. Satz 12.37 (Maximum und Minimum). Sei K ⊂ R kompakt, und f : K → R stetig. Dann nimmt f auf K sein Maximum und Minimum an. Beweis. Das Bild f (K) ist beschränkt. Daher existieren M = sup f (K) und m = inf f (K). Da f (K) außerdem abgeschlossen ist, folgt M, m ∈ f (K): Sei hierzu (xn ) eine Folge in K sodass f (xn ) → M konvergiert (so eine Folge gibt es, vgl. Definition Supremum!). Da K beschränkt ist, besitzt diese eine konvergente Teilfolge (xnk ). Der Grenzwert x liegt wieder in K, weil K abgeschlossen ist. Aus der Stetigkeit folgt f (x) = f (lim xnk ) = M . Beispiel 12.38. Die Funktion sin(cos(πx2 )) ist stetig auf ganz R, und nimmt daher auf jedem abgeschlossenen Intervall ihr Minimum und Maximum an. Da −1 ≤ sin(y) ≤ 1 für alle y ∈ R ist, gelten diese Schranken auch für das Maximum und Minimum. Grenzwerte von Funktionen; stetige Fortsetzung Für stetige Funktionen f : D → E gilt für jede Folge (xn ) in D mit Grenzwert x0 ∈ D, dass limn→∞ f (xn ) = f (x0 ) (Folgenkriterium). Dies motiviert die folgenden Definitionen. Definition 12.39. Sei f : D → R eine Funktion und x0 ein Häufungspunkt von D. Gibt es ein y ∈ R sodass f (xn ) → y für jede Folge (xn ), mit D 3 xn → x0 , so heißt y Grenzwert von f an der Stelle x0 ; man schreibt dafür kurz: y = limx→x0 f (x). 156 Stetige Funktionen Werden bei der Definition des Grenzwertes nur Folgen mit xn ≥ x0 bzw xn ≤ x0 , so spricht man von einseitigem Grenzwert, und man schreibt limx↑x0 f (x) bzw. limx↓x0 f (x). Bemerkung 12.40. • Wichtig ist, dass der Grenzwert unabhängig von der gewählten Folge ist. • Die Definitionen gelten sinngemäß für uneigentliche Grenzwerte, d.h., für x0 lassen wir formal auch Werte ±∞ zu, und verlangen die Existenz eines eindeutigen Grenzwertes für alle Folgen (xn ) mit xn → ±∞. Beispiel 12.41. 2 • Wir betrachten die rationale Funktion f : R \ {0} → R, x 7→ x 2x+x . Für jede Folge (xn ) mit 0 6= xn → 0 gilt xn + 1 1 x2 + x n = → . f (xn ) = n 2xn 2 2 Somit gilt limx→0 f (x) = 1/2. Für xn → ±∞ erhalten wir f (xn ) → ±∞. Wir schreiben dafür kurz: limx→±∞ f (x) = ±∞. Die Werte ±∞ bezeichnen wir wieder als uneigentliche Grenzwerte. • Die Funktion f : R \ {−1, 0} → R, x 7→ x22x+x erfüllt limx→0 f (x) = 2 und limx→±∞ f (x) = 0. Der Grenzwert an der Stelle x = −1 existiert nicht, da f (−1 + 1/n) = 2 2 = 2n → ∞ und f (−1 − 1/n) = = −2n → −∞. 1/n −1/n • Die Funktion f : R+ → R, x 7→ sin(1/x) besitzt keinen Grenzwert an der Stelle 0, da f (1/(nπ)) = sin(nπ) = 0 → 0 aber f (1/(nπ + π/2)) = sin(nπ + π/2) = sin(π/2) = 1 → 1. Für die Folgen (xn ) = (1/(nπ)) und (x0n ) = (1/(nπ + π/2)), welche beide gegen 0 konvergieren, konvergieren die Bildfolgen gegen unterschiedliche Werte! Für Grenzwerte von Funktionen gelten die für stetige Funktionen bekannten Rechenregeln: Satz 12.42. Aus f (x) → y und g(x) → z für x → x0 folgt f (x) + g(x) → y + z, αf (x) → αy, ∀α f (x) · g(x) → y · z, f (x)/g(x) → y/z, g(x) 6= 0 ∧ z 6= 0. Den Beweis dieser Aussagen führt man über das Folgenkriterium für Stetigkeit, und die Regeln für Grenzwerte von Folgen herleiten. Eine ähnliche Regel gilt auch wieder für die Hintereinanderausführung g ◦ f . Definition 12.43. Sei f : D ⊂ R → R stetig und x0 ein Häufungspunkt von D. Existiert der Grenzwert y = limx→x0 f (x), so heißt f stetig in x0 fortsetzbar. Die Fortsetzung f (x), x ∈ D, F : D ∪ {x0 }, x 7→ y, x = x0 , ist stetig auf ihrem Definitionsbereich D ∪ {x0 }. 157 2 Beispiel 12.44. Die Funktion f : R \ {0} → R, x 7→ x 2x+x ist stetig fortsetzbar in {0} mit Funktionswert f (0) = 1. Die Fortsetzung x2 +x , x 6= 0, 2x f˜ : R → R, x 7→ 1 , x = 0, 2 ist stetig auf ganz R. Man beachte, dass die Fortsetzung f˜ einen anderen Definitionsbereich als f hat, somit (strenggenommen) nicht mit f übereinstimmt. x2 +x , x 6= 0, 2x Bemerkung 12.45. Die Funktion f : R → R, x 7→ ist stetig für alle x 6= 0, 0, x = 0, aber nicht stetig in x = 0. Die Unstetigkeit lässt sich beheben, indem man f an der Stelle x = 0 umdefiniert zu f (0) = 1/2. Man spricht von einer hebbaren Unstetigkeit. Beispiel 12.46. Rationale Funktionen f (x) = p(x)/q(x) mit Polynomen p, q sind außerhalb der Nullstellen von q stetig. Durch Zerlegen der Polynome in Linearfaktoren, und Kürzen kann man sie ggf. an einigen Nullstellen stetig fortsetzen oder eventuelle Unstetigkeiten beheben. Bemerkung 12.47. Im Falle limx→x0 f (x) = ±∞ sprechen wir von uneigentlichen Grenzwerten. Für das Rechnen mit diesen, können z.B. folgende Regeln angewendet werden. • limx→x0 f (x) = ∞ ⇒ limx→x0 1 f (x) • limx→x0 f (x) = ±∞ und |g(x)| ≥ c • limx→x0 f (x) = ∞ und g(x) ≥ c > 0 =0 ⇒ ⇒ limx→x0 f (x) + g(x) = ∞. limx→x0 f (x) · g(x) = ∞; 1 1 = “∞“ = 0. Beim siehe Übung. Formal könnte man etwa im ersten Fall schreiben limx→x0 f (x) Rechnen mit ∞ sei aber Vorsicht geboten. Insbesondere kann man ∞ − ∞, ∞/∞, 0 · ∞, ..., nicht ohne weiteres ”ausrechnen“! Gleichmäßige Stetigkeit; Konvergenz von Funktionenfolgen∗ Stetigkeit ist eine lokale Eigenschaft von Funktionen. Dies spiegelt sich bereits in der Definition wieder, in der Stetigkeit zunächst für einzelne Punkte x0 definiert wird. Der folgende Begriff definiert ein stärkeres Maß an Stetigkeit. Wie zuvor seien D und E Teilmengen von R bzw. C. Definition 12.48 (Gleichmäßige Stetigkeit). Eine Funktion f : D → E heißt gleichmäßig stetig auf K ⊂ D, wenn ∀ > 0 ∃δ > 0 ∀x, x0 ∈ K : |x − x0 | < δ ⇒ |f (x) − f (x0 )| < . Falls K = D ist, so heißt f gleichmäßig stetig. Bemerkung 12.49. Man beachte den Unterschied zur ”normalen” Stetigkeitsdefinition, vgl. Definition 12.1: Bei gleichmäßiger Stetigkeit haben wir ein und dasselbe δ für jeden Punkt x0 verwendet, während bei ”normaler” Stetigkeit für jedes x0 ein eigenes δ gewählt werden kann. Insbesondere gilt: Jede glm. stetige Funktion ist auch stetig (wähle δ(, x0 ) = δ())! 158 Stetige Funktionen Beispiel 12.50. √ • Die Funktion f : R+ → R, x 7→ x ist auf R+ gleichmäßig stetig. Für alle x, x0 > 0 gilt nämlich p √ √ |f (x) − f (x0 )| = | x − x0 | ≤ |x − x0 |. Die Bedingung |f (x) − f (x0 )| < ist also erfüllt, wann immer |x − x0 | < δ := 2 ist. Die Schranke δ konnte unabhängig von x0 gewählt werden. • Die Funktion f : R+ → R, x 7→ 1/x ist auf R+ stetig, aber nicht gleichmäßig stetig. Für jedes x0 > 0 und x = x0 /2 gilt |x − x0 | = x0 2 und |f (x) − f (x0 )| = 1 . 2x0 Für kleines x0 kann daher der Abstand zu x beliebig klein gemacht werden; gleichzeitig wird aber der Abstand der Funktionswerte beliebig groß. Einen wichtiger Zusammenhang zwischen Stetigkeit und gleichmäßiger Stetigkeit ist Satz 12.51. Sei f : D → E stetig, und K ⊂ D kompakt. Dann ist f auf K gleichmäßig stetig. Beweis. Angenommen, f wäre nicht gleichmäßig stetig auf K. Dann gäbe es ein > 0, sodass man zu jedem δ = 1/n > 0 ein Paar xn , x0n ∈ K finden kann, mit |xn − x0n | < 1/n, aber |f (xn ) − f (x0n )| ≥ . Nach Bolzano-Weierstrass besitzt die Folge (xn ) eine konvergente Teilfolge (xnk ) mit Grenzwert x := lim xnk , und wegen der Nähe von x0n zu xn konvergiert auch x0nk gegen x. Wegen Stetigkeit von f gilt lim f (xnk ) = f (x) = lim f (x0nk ). k→∞ k→∞ Insbesondere müssen f (xnk ) und f (x0nk ) für große k beliebig nah aneinanderliegen, was im Widerspruch zu |f (xnk ) − f (x0nk )| ≥ steht. Die Annahme ist also falsch. Beispiel 12.52. f : [a, b] → R, x 7→ 1/x ist für jedes 0 < a < b gleichmäßig stetig. Eine noch stärkere Bedingung der Stetigkeit liefert die folgende Definition 12.53. Eine Funktion f : D → E heißt Lipschitz-stetig (kurz: L-stetig), wenn es eine Konstante L gibt, sodass |f (x) − f (x0 )| ≤ L|x − x0 | für alle x, x0 ∈ D gilt. Gilt |f (x) − f (x0 )| ≤ L|x − x0 |α für ein 0 < α < 1, so nennt man f Hölder-stetig. Jede Lipschitz-stetige (Hölder-stetige) Funktion ist mit δ = /L (bzw. δ = (/L)1/α ) auch gleichmäßig stetig, insbesondere also auch stetig. 159 Bemerkung 12.54. Die Konstante L ist eine Schranke für die größte Steigung einer Sekante an den Graphen der Funktion f durch die Punkte (x, f (x)) und (x0 , f (x0 )). Beispiel 12.55. Die Exponentialfunktion exp : [a, b] → R ist auf jedem kompakten Intervall [a, b] Lipschitz-stetig. Es gilt nämlich | exp(x) − exp(y)| = exp(y)| exp(x − y) − 1| = exp(y)|(x − y) + (x − y)2 (x − y)3 + + ...| 2! 3! (x − y) (x − y)2 + + . . . |x − y|. ≤ exp(b)1 + 2! 3! Mit dem Wurzelkriterium überprüft man leicht (Übung), dass die Reihe im vorletzten Term absolut konvergiert [a, b], und sich dieser Term zusammen mit exp(y) auf jedem Intervall [a, b] durch eine Konstante L abschätzen lässt. Beispiel 12.56. Die Funktion f : [0, 1] → R, x 7→ x0 = 0 und x > 0 gilt |f (x) − f (x0 )| = √ x ist nicht Lipschitz-stetig auf [0, 1]. Für √ 1 1 x = √ |x| = √ |x − 0|. x x Insbesondere übersteigt √1x für x → 0 jede Schranke L. Die Funktion ist allerdings Hölder-stetig mit Exponent α = 1/2 (siehe Übung). Abschließend wollen wir uns noch mit der Konvergenz von Funktionenfolgen beschäftigen. Definition 12.57. Für jedes n ∈ N sei mit fn : D → E eine Funktion definiert. Die Funktionenfolge (fn ) heißt • punktweise konvergent, wenn für alle x ∈ D, die Folge (fn (x)) gegen ein f (x) konvergiert, d.h., ∀ > 0 ∀x ∈ D ∃n0 ∈ N : |fn (x) − f (x)| < ∀n ≥ n0 . Die resultierende Funktion f : D → E heißt punktweiser Limes von (fn ). • gleichmäßig konvergent, wenn eine Grenzfunktion f : D → E existiert, sodass ∀ > 0 ∃n0 ∈ N ∀x ∈ D : |fn (x) − f (x)| < für alle n ≥ n0 . Bemerkung 12.58. Punktweise Konvergenz bedeutet, dass an jedem Punkt x die Funktionswerte fn (x) immer näher an f (x) rücken, während bei gleichmäßiger Konvergenz der Abstand für alle x gleichzeitig klein wird. Die Funktionen fn liegen für hinreichend großes n in einem Schlauch der Breite und die Grenzfunktion f . 160 Stetige Funktionen Bemerkung 12.59. Die Vorschrift k · k∞ : f 7→ sup |f (x)| x∈D definiert eine Norm auf dem Raum B(D) = {f : D → E | ∃C : |f (x)| ≤ C ∀x ∈ D} der beschränkten Funktionen. Gleichmäßige Konvergenz kann dann geschrieben werden als ∀ > 0 ∃n0 ≥ 0 : kfn − f k∞ < für all n ≥ n0 . Die Bedeutung der gleichmäßigen Konvergenz von Funktionenfolgen liegt in folgendem Satz. Satz 12.60. Sei (fn ) eine Folge von stetigen Funktionen fn : D → E, welche gleichmäßig gegen eine Funktion f : D → E konvergiert. Dann ist auch f stetig. Beweis. Seien x, x0 ∈ D beliebig. Dann gilt |f (x) − f (x0 )| ≤ |f (x) − fn (x)| + |fn (x) − fn (x0 )| + |fn (x0 ) − f (x0 )|. Sei nun > 0 und x0 gegeben. Aufgrund der gleichmäßigen Konvergenz von (fn ) kann n so groß gewählt werden, dass |f (x) − fn (x)| < /3 für alle x ∈ D gilt. Wegen der Stetigkeit von fn kann man wiederum δ so klein wählen, dass dass |fn (x) − fn (x0 )| < /3 für alle |x − x0 | < δ gilt. Es folgt: |f (x) − fn (x)| < für alle |x − x0 | < δ, d.h., f ist stetig in x0 , und da x0 beliebig war, ist f stetig auf ganz D. P k Beispiel 12.61. Sei fn (x) = nk=0 xk! die nte Partialsumme der Exponentialreihe. Die Funktionen fn sind Polynome und daher stetig. Weiters gilt aufgrund der Konvergenz der Exponentialreihe für jedes x ∈ R |fn (x) − exp(x)| = ∞ X xk →0 k! k=n+1 für n → ∞. Die Funktionenfolge (fn ) konvergiert also punktweise gegen exp(x). Wegen sup |fn (x) − exp(x)| ≤ 0≤x≤1 ∞ X k=n+1 | 1 |→0 k! ist die Konvergenz sogar gleichmäßig auf [0, 1]. Als gleichmäßiger Limes stetiger Funktionen ist die Exponentialfunktion daher stetig auf [0, 1]. Bemerkung 12.62. Die Menge C[a, b] = {f : [a, b] → R, f stetig} der stetigen Funktionen auf [a, b] bildet einen Vektorraum. Zusammen mit der Norm k · k∞ einen normierten Raum, und nach obigem Satz ist dieser normierte Raum vollständig, d.h., der Grenzwert von Cauchy-Folgen liegt wieder im Raum stetiger Funktionen.